Θεωρία Παιγνίων Μαρκωβιανά Παιχνίδια -...

36
ΕΚΠ 413 / ΕΚΠ 606 Αυτόνομοι (Ρομοτικοί) Πράκτορες Θεωρία Παιγνίων Μαρκωβιανά Παιχνίδια Τμήμα Ηλεκτρονικών Μηχανικών και Μηχανικών Υολογιστών Πολυτεχνείο Κρήτης

Upload: others

Post on 21-Oct-2020

5 views

Category:

Documents


0 download

TRANSCRIPT

  • ΕΚΠ 413 / ΕΚΠ 606Αυτόνοµοι (Ροµ̟οτικοί) Πράκτορες

    Θεωρία Παιγνίων

    Μαρκωβιανά Παιχνίδια

    Τµήµα Ηλεκτρονικών Μηχανικών και Μηχανικών Υ̟ολογιστώνΠολυτεχνείο Κρήτης

  • ΕΚΠ 413/606 – Αυτόνοµοι Πράκτορες – 2007

    Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ – Πολυτεχνείο Κρήτης Σελίδα 2

    Ε̟ανάληψη

    � Μερική ̟αρατηρησιµότητα

    – POMDPs

    – βέλτιστες πολιτικές

    – µετατροπή σε MDP

    � Θεωρία ̟αιγνίων

    – στρατηγικές

    – ισορροπίες

  • ΕΚΠ 413/606 – Αυτόνοµοι Πράκτορες – 2007

    Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ – Πολυτεχνείο Κρήτης Σελίδα 3

    Σήµερα

    � Στρατηγικές MaxiMin

    – παιχνίδια µηδενικού αθροίσµατος

    – αλγόριθµος µαθηµατικού προγραµµατισµού

    � Παιχνίδια

    – µη µηδενικού αθροίσµατος

    – επαναλαµβανόµενα

    � Μαρκωβιανά ̟αιχνίδια

    – µοντελοποίηση

    – σχεδιασµός

    – µάθηση

  • Στρατηγικές MaxiMin

    MaxiMin Strategies

  • ΕΚΠ 413/606 – Αυτόνοµοι Πράκτορες – 2007

    Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ – Πολυτεχνείο Κρήτης Σελίδα 5

    Παιχνίδια Μηδενικού Αθροίσµατος

    � Zero-Sum Games– οι απολαβές σε κάθε περίπτωση έχουν άθροισµα ίσο µε 0

    – συµµετρικότητα: αρκεί να εξεταστούν οι απολαβές ενός παίκτη

    – παίκτες: µεγιστοποιητής και ελαχιστοποιητής

    – γενικότερα, παιχνίδια σταθερού αθροίσµατος

    � MaxiMin (von Neumann, 1928)– µέθοδος εύρεσης βέλτιστης µικτής στρατηγικής για zero-sum

    E= –3, O= +3E= +4, O= –4

    E= +2, O= –2E= –3, O= +3

    έναδύο

    δύοέναΕ\Ο

  • ΕΚΠ 413/606 – Αυτόνοµοι Πράκτορες – 2007

    Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ – Πολυτεχνείο Κρήτης Σελίδα 6

    Παράδειγµα MaxiMin

    � Συλλογιστική

    – αν ο ένας παίκτης αποκαλύψει τη στρατηγική του πριν παίξει ο άλλος;

    – από αµιγείς στρατηγικές: χρησιµότητα παιχνιδιού –3 ≤ U ≤ +2

    – αν ο 1ος παίκτης παίζει µικτή στρατηγική, τι γίνεται;

    – ο 2ος παίκτης παίζοντας αµιγή στρατηγική δεν µπορεί να χάσει!� 2ος παίκτης: αµιγείς στρατηγικές [ένα] ή [δύο] ⇒ uένα ή uδύο� 2ος παίκτης: µικτή στρατηγική [p: ένα, 1-p: δύο] ⇒ puένα+(1-p)uδύο

  • ΕΚΠ 413/606 – Αυτόνοµοι Πράκτορες – 2007

    Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ – Πολυτεχνείο Κρήτης Σελίδα 7

    Παράδειγµα MaxiMin

    � 1ος ̟αίκτης– µικτή στρατηγική

    � παραµετροποιηµένη επιλογή (p,q)

    � 2ος ̟αίκτης– αµιγής στρατηγική

    � Ο: ένα, αν p7/12, αλλιώς δύο

    � Bέλτιστη ε̟ιλογή – 1ος παίκτης E: p=7/12

    – 1ος παίκτης Ο: q=7/12

    – ισορροπία maximin (και Nash)

    � Χρησιµότητα ̟αιχνιδιού– U = –1/12 (προτιµότερος ο Ο)

  • ΕΚΠ 413/606 – Αυτόνοµοι Πράκτορες – 2007

    Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ – Πολυτεχνείο Κρήτης Σελίδα 8

    MaxiMin

    � Θεώρηµα von Neumann

    – όλα τα παιχνίδια µηδενικού αθροίσµατος µε δύο παίκτες έχουν ισορροπία maximin όταν επιτρέπονται µικτές στρατηγικές

    – κάθε ισορροπία Nash είναι ένα σηµείο maximin και για τους δύο

    � Γενικός αλγόριθµος

    – n δυνατές ενέργειες για κάθε παίκτη

    – µικτή στρατηγική: σηµείο στις n διαστάσεις

    – καµπύλες χρησιµότητας: υπερεπίπεδα (hyperplanes), όχι ευθείες

    – απαλοιφή των κυριαρχούµενων αµιγών στρατηγικών 2ου παίκτη

    – βέλτιστη επιλογή: µέγιστο σηµείο τοµής υπερεπιπέδων

    – πρόβληµα γραµµικού προγραµµατισµού (linear programming)

  • ΕΚΠ 413/606 – Αυτόνοµοι Πράκτορες – 2007

    Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ – Πολυτεχνείο Κρήτης Σελίδα 9

    Βέλτιστη Στρατηγική MaxiMin

    � MaxiMin

    – µικτή στρατηγική [7/12: ένα, 5/12: δύο] (µεγιστοποιητής)

    – κοινή γνώση και για τους δύο

    – ορθολογικό να υιοθετήσουν και οι δύο την ίδια στρατηγική

    – αναµενόµενη χρησιµότητα για Ε: U=-1/12

    – συντηρητική στρατηγική

    � Παράδοξο

    – έστω ότι ο ένας µόνο παίκτης αλλάζει σε αµιγή στρατηγική

    – η αναµενόµενη χρησιµότητα παραµένει U=-1/12

    – η µονοµερής αλλαγή δεν επηρεάζει αρνητικά τη χρησιµότητα

    – αν ο άλλος παίκτης το ξέρει µπορεί να το εκµεταλλευτεί

  • Παιχνίδια

    Games

  • ΕΚΠ 413/606 – Αυτόνοµοι Πράκτορες – 2007

    Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ – Πολυτεχνείο Κρήτης Σελίδα 11

    Παιχνίδια Μη Μηδενικού Αθροίσµατος

    � Βέλτιστη στρατηγική

    – µικτή στρατηγική – ισορροπία Nash

    � Αλγόριθµος

    – απαρίθµηση δυνατών υποσυνόλων ενεργειών για µικτές στρατηγικές� προφίλ στρατηγικών µε 1, 2, 3, 4, ... το πολύ ενέργειες

    � εκθετικός αριθµός συνδυασµών

    – για κάθε προφίλ στρατηγικών, έλεγχος για ισορροπία� πρόβληµα µαθηµατικού προγραµµατισµού

    � για 2 παίκτες: γραµµικός προγραµµατισµός

    � για 3 ή περισσότερους παίκτες: µη γραµµικός προγραµµατισµός

  • ΕΚΠ 413/606 – Αυτόνοµοι Πράκτορες – 2007

    Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ – Πολυτεχνείο Κρήτης Σελίδα 12

    Ε̟αναλαµβανόµενα Παιχνίδια

    � Repeated Games– πεπερασµένες επαναλήψεις ενός παιχνιδιού

    – ίδιες διαθέσιµες επιλογές σε κάθε επανάληψη

    – γνωστό το ιστορικό των προηγούµενων αποφάσεων

    – προσθετικές απολαβές από όλες τις επαναλήψεις

    � Πλήθος ε̟αναλήψεων– γνωστό πλήθος επαναλήψεων

    – άγνωστο γνωστό πλήθος επαναλήψεων

    – άπειρες επαναλήψεις

    � Στρατηγικές– διαρκής τιµωρία (perpetual punishment)

    – µία σου και µία µου (tit for tat)

  • ΕΚΠ 413/606 – Αυτόνοµοι Πράκτορες – 2007

    Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ – Πολυτεχνείο Κρήτης Σελίδα 13

    Ε̟αναλαµβανόµενα Παιχνίδια

    � 100 γύρους

    – ισορροπία κυρίαρχης στρατηγικής [οµολογία, οµολογία]� αναµενόµενες απολαβές: -500

    � 99% ε̟όµενος γύρος

    – στρατηγική: άρνηση, εκτός κι αν ο άλλος έχει επιλέξει οµολογία� απολαβές: -100, όσο δεν επιλέξει κανείς οµολογία, αλλιώς –999

    – στρατηγική: άρνηση, αναπαραγωγή προηγούµενης επιλογής του άλλου

    A= 0, B= –10A= –1, B= –1

    A= –5, B= –5A= –10, B= 0

    οµολογίαάρνηση

    άρνησηοµολογίαΑ \ Β

  • Μαρκωβιανά Παιχνίδια

    Markov Games

  • ΕΚΠ 413/606 – Αυτόνοµοι Πράκτορες – 2007

    Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ – Πολυτεχνείο Κρήτης Σελίδα 15

    Zero-Sum Markov Games

  • ΕΚΠ 413/606 – Αυτόνοµοι Πράκτορες – 2007

    Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ – Πολυτεχνείο Κρήτης Σελίδα 16

    MiniMax Optimality

  • ΕΚΠ 413/606 – Αυτόνοµοι Πράκτορες – 2007

    Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ – Πολυτεχνείο Κρήτης Σελίδα 17

    Bellman Equation for MGs

  • ΕΚΠ 413/606 – Αυτόνοµοι Πράκτορες – 2007

    Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ – Πολυτεχνείο Κρήτης Σελίδα 18

    Bellman Optimality Equation for MGs

  • ΕΚΠ 413/606 – Αυτόνοµοι Πράκτορες – 2007

    Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ – Πολυτεχνείο Κρήτης Σελίδα 19

    MiniMax (Greedy) Policy over Q

  • ΕΚΠ 413/606 – Αυτόνοµοι Πράκτορες – 2007

    Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ – Πολυτεχνείο Κρήτης Σελίδα 20

    Example: RPS[Littman, 1994]

  • ΕΚΠ 413/606 – Αυτόνοµοι Πράκτορες – 2007

    Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ – Πολυτεχνείο Κρήτης Σελίδα 21

    Planning in MGs

  • Μάθηση σε Μαρκωβιανά Παίγνια

    Learning in Markov Games

  • ΕΚΠ 413/606 – Αυτόνοµοι Πράκτορες – 2007

    Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ – Πολυτεχνείο Κρήτης Σελίδα 23

    MiniMaxQ Learning[Littman, 1994]

  • ΕΚΠ 413/606 – Αυτόνοµοι Πράκτορες – 2007

    Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ – Πολυτεχνείο Κρήτης Σελίδα 24

    Linear ApproximationArchitectures

  • ΕΚΠ 413/606 – Αυτόνοµοι Πράκτορες – 2007

    Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ – Πολυτεχνείο Κρήτης Σελίδα 25

    Implied MiniMax Policy

  • ΕΚΠ 413/606 – Αυτόνοµοι Πράκτορες – 2007

    Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ – Πολυτεχνείο Κρήτης Σελίδα 26

    LSTDQ for Zero-Sum MGs

  • ΕΚΠ 413/606 – Αυτόνοµοι Πράκτορες – 2007

    Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ – Πολυτεχνείο Κρήτης Σελίδα 27

    LSPI for Zero-Sum MGs

  • ΕΚΠ 413/606 – Αυτόνοµοι Πράκτορες – 2007

    Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ – Πολυτεχνείο Κρήτης Σελίδα 28

    Simplified Soccer Game

  • ΕΚΠ 413/606 – Αυτόνοµοι Πράκτορες – 2007

    Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ – Πολυτεχνείο Κρήτης Σελίδα 29

    Learning Parameters

  • ΕΚΠ 413/606 – Αυτόνοµοι Πράκτορες – 2007

    Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ – Πολυτεχνείο Κρήτης Σελίδα 30

    4x4 Soccer against Optimal

  • ΕΚΠ 413/606 – Αυτόνοµοι Πράκτορες – 2007

    Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ – Πολυτεχνείο Κρήτης Σελίδα 31

    8x8 Soccer against Benchmark

  • ΕΚΠ 413/606 – Αυτόνοµοι Πράκτορες – 2007

    Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ – Πολυτεχνείο Κρήτης Σελίδα 32

    Generalization to 40x40 Soccer

  • ΕΚΠ 413/606 – Αυτόνοµοι Πράκτορες – 2007

    Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ – Πολυτεχνείο Κρήτης Σελίδα 33

    Router-Server Flow Control

  • ΕΚΠ 413/606 – Αυτόνοµοι Πράκτορες – 2007

    Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ – Πολυτεχνείο Κρήτης Σελίδα 34

    Learning Parameters

  • ΕΚΠ 413/606 – Αυτόνοµοι Πράκτορες – 2007

    Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ – Πολυτεχνείο Κρήτης Σελίδα 35

    Results

  • ΕΚΠ 413/606 – Αυτόνοµοι Πράκτορες – 2007

    Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ – Πολυτεχνείο Κρήτης Σελίδα 36

    Μελέτη

    � Σύγγραµµα

    – Ενότητα 17.6

    � Άρθρα

    – M. Littman, Markov Games as a Framework for Multi-Agent Reinforcement Learning, International Conference on Machine Learning, 1994.

    – M. Lagoudakis and Ronald Parr, Value Function Approximation in Zero-Sum Markov Games, Uncertainty in Artificial Intelligence, 2002.