Θεωρία Παιγνίων Μαρκωβιανά Παιχνίδια -...
TRANSCRIPT
-
ΕΚΠ 413 / ΕΚΠ 606Αυτόνοµοι (Ροµ̟οτικοί) Πράκτορες
Θεωρία Παιγνίων
Μαρκωβιανά Παιχνίδια
Τµήµα Ηλεκτρονικών Μηχανικών και Μηχανικών Υ̟ολογιστώνΠολυτεχνείο Κρήτης
-
ΕΚΠ 413/606 – Αυτόνοµοι Πράκτορες – 2007
Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ – Πολυτεχνείο Κρήτης Σελίδα 2
Ε̟ανάληψη
� Μερική ̟αρατηρησιµότητα
– POMDPs
– βέλτιστες πολιτικές
– µετατροπή σε MDP
� Θεωρία ̟αιγνίων
– στρατηγικές
– ισορροπίες
-
ΕΚΠ 413/606 – Αυτόνοµοι Πράκτορες – 2007
Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ – Πολυτεχνείο Κρήτης Σελίδα 3
Σήµερα
� Στρατηγικές MaxiMin
– παιχνίδια µηδενικού αθροίσµατος
– αλγόριθµος µαθηµατικού προγραµµατισµού
� Παιχνίδια
– µη µηδενικού αθροίσµατος
– επαναλαµβανόµενα
� Μαρκωβιανά ̟αιχνίδια
– µοντελοποίηση
– σχεδιασµός
– µάθηση
-
Στρατηγικές MaxiMin
MaxiMin Strategies
-
ΕΚΠ 413/606 – Αυτόνοµοι Πράκτορες – 2007
Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ – Πολυτεχνείο Κρήτης Σελίδα 5
Παιχνίδια Μηδενικού Αθροίσµατος
� Zero-Sum Games– οι απολαβές σε κάθε περίπτωση έχουν άθροισµα ίσο µε 0
– συµµετρικότητα: αρκεί να εξεταστούν οι απολαβές ενός παίκτη
– παίκτες: µεγιστοποιητής και ελαχιστοποιητής
– γενικότερα, παιχνίδια σταθερού αθροίσµατος
� MaxiMin (von Neumann, 1928)– µέθοδος εύρεσης βέλτιστης µικτής στρατηγικής για zero-sum
E= –3, O= +3E= +4, O= –4
E= +2, O= –2E= –3, O= +3
έναδύο
δύοέναΕ\Ο
-
ΕΚΠ 413/606 – Αυτόνοµοι Πράκτορες – 2007
Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ – Πολυτεχνείο Κρήτης Σελίδα 6
Παράδειγµα MaxiMin
� Συλλογιστική
– αν ο ένας παίκτης αποκαλύψει τη στρατηγική του πριν παίξει ο άλλος;
– από αµιγείς στρατηγικές: χρησιµότητα παιχνιδιού –3 ≤ U ≤ +2
– αν ο 1ος παίκτης παίζει µικτή στρατηγική, τι γίνεται;
– ο 2ος παίκτης παίζοντας αµιγή στρατηγική δεν µπορεί να χάσει!� 2ος παίκτης: αµιγείς στρατηγικές [ένα] ή [δύο] ⇒ uένα ή uδύο� 2ος παίκτης: µικτή στρατηγική [p: ένα, 1-p: δύο] ⇒ puένα+(1-p)uδύο
-
ΕΚΠ 413/606 – Αυτόνοµοι Πράκτορες – 2007
Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ – Πολυτεχνείο Κρήτης Σελίδα 7
Παράδειγµα MaxiMin
� 1ος ̟αίκτης– µικτή στρατηγική
� παραµετροποιηµένη επιλογή (p,q)
� 2ος ̟αίκτης– αµιγής στρατηγική
� Ο: ένα, αν p7/12, αλλιώς δύο
� Bέλτιστη ε̟ιλογή – 1ος παίκτης E: p=7/12
– 1ος παίκτης Ο: q=7/12
– ισορροπία maximin (και Nash)
� Χρησιµότητα ̟αιχνιδιού– U = –1/12 (προτιµότερος ο Ο)
-
ΕΚΠ 413/606 – Αυτόνοµοι Πράκτορες – 2007
Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ – Πολυτεχνείο Κρήτης Σελίδα 8
MaxiMin
� Θεώρηµα von Neumann
– όλα τα παιχνίδια µηδενικού αθροίσµατος µε δύο παίκτες έχουν ισορροπία maximin όταν επιτρέπονται µικτές στρατηγικές
– κάθε ισορροπία Nash είναι ένα σηµείο maximin και για τους δύο
� Γενικός αλγόριθµος
– n δυνατές ενέργειες για κάθε παίκτη
– µικτή στρατηγική: σηµείο στις n διαστάσεις
– καµπύλες χρησιµότητας: υπερεπίπεδα (hyperplanes), όχι ευθείες
– απαλοιφή των κυριαρχούµενων αµιγών στρατηγικών 2ου παίκτη
– βέλτιστη επιλογή: µέγιστο σηµείο τοµής υπερεπιπέδων
– πρόβληµα γραµµικού προγραµµατισµού (linear programming)
-
ΕΚΠ 413/606 – Αυτόνοµοι Πράκτορες – 2007
Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ – Πολυτεχνείο Κρήτης Σελίδα 9
Βέλτιστη Στρατηγική MaxiMin
� MaxiMin
– µικτή στρατηγική [7/12: ένα, 5/12: δύο] (µεγιστοποιητής)
– κοινή γνώση και για τους δύο
– ορθολογικό να υιοθετήσουν και οι δύο την ίδια στρατηγική
– αναµενόµενη χρησιµότητα για Ε: U=-1/12
– συντηρητική στρατηγική
� Παράδοξο
– έστω ότι ο ένας µόνο παίκτης αλλάζει σε αµιγή στρατηγική
– η αναµενόµενη χρησιµότητα παραµένει U=-1/12
– η µονοµερής αλλαγή δεν επηρεάζει αρνητικά τη χρησιµότητα
– αν ο άλλος παίκτης το ξέρει µπορεί να το εκµεταλλευτεί
-
Παιχνίδια
Games
-
ΕΚΠ 413/606 – Αυτόνοµοι Πράκτορες – 2007
Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ – Πολυτεχνείο Κρήτης Σελίδα 11
Παιχνίδια Μη Μηδενικού Αθροίσµατος
� Βέλτιστη στρατηγική
– µικτή στρατηγική – ισορροπία Nash
� Αλγόριθµος
– απαρίθµηση δυνατών υποσυνόλων ενεργειών για µικτές στρατηγικές� προφίλ στρατηγικών µε 1, 2, 3, 4, ... το πολύ ενέργειες
� εκθετικός αριθµός συνδυασµών
– για κάθε προφίλ στρατηγικών, έλεγχος για ισορροπία� πρόβληµα µαθηµατικού προγραµµατισµού
� για 2 παίκτες: γραµµικός προγραµµατισµός
� για 3 ή περισσότερους παίκτες: µη γραµµικός προγραµµατισµός
-
ΕΚΠ 413/606 – Αυτόνοµοι Πράκτορες – 2007
Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ – Πολυτεχνείο Κρήτης Σελίδα 12
Ε̟αναλαµβανόµενα Παιχνίδια
� Repeated Games– πεπερασµένες επαναλήψεις ενός παιχνιδιού
– ίδιες διαθέσιµες επιλογές σε κάθε επανάληψη
– γνωστό το ιστορικό των προηγούµενων αποφάσεων
– προσθετικές απολαβές από όλες τις επαναλήψεις
� Πλήθος ε̟αναλήψεων– γνωστό πλήθος επαναλήψεων
– άγνωστο γνωστό πλήθος επαναλήψεων
– άπειρες επαναλήψεις
� Στρατηγικές– διαρκής τιµωρία (perpetual punishment)
– µία σου και µία µου (tit for tat)
-
ΕΚΠ 413/606 – Αυτόνοµοι Πράκτορες – 2007
Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ – Πολυτεχνείο Κρήτης Σελίδα 13
Ε̟αναλαµβανόµενα Παιχνίδια
� 100 γύρους
– ισορροπία κυρίαρχης στρατηγικής [οµολογία, οµολογία]� αναµενόµενες απολαβές: -500
� 99% ε̟όµενος γύρος
– στρατηγική: άρνηση, εκτός κι αν ο άλλος έχει επιλέξει οµολογία� απολαβές: -100, όσο δεν επιλέξει κανείς οµολογία, αλλιώς –999
– στρατηγική: άρνηση, αναπαραγωγή προηγούµενης επιλογής του άλλου
A= 0, B= –10A= –1, B= –1
A= –5, B= –5A= –10, B= 0
οµολογίαάρνηση
άρνησηοµολογίαΑ \ Β
-
Μαρκωβιανά Παιχνίδια
Markov Games
-
ΕΚΠ 413/606 – Αυτόνοµοι Πράκτορες – 2007
Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ – Πολυτεχνείο Κρήτης Σελίδα 15
Zero-Sum Markov Games
-
ΕΚΠ 413/606 – Αυτόνοµοι Πράκτορες – 2007
Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ – Πολυτεχνείο Κρήτης Σελίδα 16
MiniMax Optimality
-
ΕΚΠ 413/606 – Αυτόνοµοι Πράκτορες – 2007
Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ – Πολυτεχνείο Κρήτης Σελίδα 17
Bellman Equation for MGs
-
ΕΚΠ 413/606 – Αυτόνοµοι Πράκτορες – 2007
Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ – Πολυτεχνείο Κρήτης Σελίδα 18
Bellman Optimality Equation for MGs
-
ΕΚΠ 413/606 – Αυτόνοµοι Πράκτορες – 2007
Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ – Πολυτεχνείο Κρήτης Σελίδα 19
MiniMax (Greedy) Policy over Q
-
ΕΚΠ 413/606 – Αυτόνοµοι Πράκτορες – 2007
Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ – Πολυτεχνείο Κρήτης Σελίδα 20
Example: RPS[Littman, 1994]
-
ΕΚΠ 413/606 – Αυτόνοµοι Πράκτορες – 2007
Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ – Πολυτεχνείο Κρήτης Σελίδα 21
Planning in MGs
-
Μάθηση σε Μαρκωβιανά Παίγνια
Learning in Markov Games
-
ΕΚΠ 413/606 – Αυτόνοµοι Πράκτορες – 2007
Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ – Πολυτεχνείο Κρήτης Σελίδα 23
MiniMaxQ Learning[Littman, 1994]
-
ΕΚΠ 413/606 – Αυτόνοµοι Πράκτορες – 2007
Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ – Πολυτεχνείο Κρήτης Σελίδα 24
Linear ApproximationArchitectures
-
ΕΚΠ 413/606 – Αυτόνοµοι Πράκτορες – 2007
Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ – Πολυτεχνείο Κρήτης Σελίδα 25
Implied MiniMax Policy
-
ΕΚΠ 413/606 – Αυτόνοµοι Πράκτορες – 2007
Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ – Πολυτεχνείο Κρήτης Σελίδα 26
LSTDQ for Zero-Sum MGs
-
ΕΚΠ 413/606 – Αυτόνοµοι Πράκτορες – 2007
Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ – Πολυτεχνείο Κρήτης Σελίδα 27
LSPI for Zero-Sum MGs
-
ΕΚΠ 413/606 – Αυτόνοµοι Πράκτορες – 2007
Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ – Πολυτεχνείο Κρήτης Σελίδα 28
Simplified Soccer Game
-
ΕΚΠ 413/606 – Αυτόνοµοι Πράκτορες – 2007
Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ – Πολυτεχνείο Κρήτης Σελίδα 29
Learning Parameters
-
ΕΚΠ 413/606 – Αυτόνοµοι Πράκτορες – 2007
Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ – Πολυτεχνείο Κρήτης Σελίδα 30
4x4 Soccer against Optimal
-
ΕΚΠ 413/606 – Αυτόνοµοι Πράκτορες – 2007
Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ – Πολυτεχνείο Κρήτης Σελίδα 31
8x8 Soccer against Benchmark
-
ΕΚΠ 413/606 – Αυτόνοµοι Πράκτορες – 2007
Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ – Πολυτεχνείο Κρήτης Σελίδα 32
Generalization to 40x40 Soccer
-
ΕΚΠ 413/606 – Αυτόνοµοι Πράκτορες – 2007
Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ – Πολυτεχνείο Κρήτης Σελίδα 33
Router-Server Flow Control
-
ΕΚΠ 413/606 – Αυτόνοµοι Πράκτορες – 2007
Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ – Πολυτεχνείο Κρήτης Σελίδα 34
Learning Parameters
-
ΕΚΠ 413/606 – Αυτόνοµοι Πράκτορες – 2007
Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ – Πολυτεχνείο Κρήτης Σελίδα 35
Results
-
ΕΚΠ 413/606 – Αυτόνοµοι Πράκτορες – 2007
Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ – Πολυτεχνείο Κρήτης Σελίδα 36
Μελέτη
� Σύγγραµµα
– Ενότητα 17.6
� Άρθρα
– M. Littman, Markov Games as a Framework for Multi-Agent Reinforcement Learning, International Conference on Machine Learning, 1994.
– M. Lagoudakis and Ronald Parr, Value Function Approximation in Zero-Sum Markov Games, Uncertainty in Artificial Intelligence, 2002.