Θεωρία Παιγνίων Μαρκωβιανά Παιχνίδια -...

ΕΚΠ 413 / ΕΚΠ 606Αυτόνοµοι (Ροµ̟οτικοί) Πράκτορες

Θεωρία Παιγνίων

Μαρκωβιανά Παιχνίδια

Τµήµα Ηλεκτρονικών Μηχανικών και Μηχανικών Υ̟ολογιστώνΠολυτεχνείο Κρήτης

ΕΚΠ 413/606 – Αυτόνοµοι Πράκτορες – 2007

Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ – Πολυτεχνείο Κρήτης Σελίδα 2

Ε̟ανάληψη

� Μερική ̟αρατηρησιµότητα

– POMDPs

– βέλτιστες πολιτικές

– µετατροπή σε MDP

� Θεωρία ̟αιγνίων

– στρατηγικές

– ισορροπίες



Σήµερα

� Στρατηγικές MaxiMin

– παιχνίδια µηδενικού αθροίσµατος

– αλγόριθµος µαθηµατικού προγραµµατισµού

� Παιχνίδια

– µη µηδενικού αθροίσµατος

– επαναλαµβανόµενα

� Μαρκωβιανά ̟αιχνίδια

– µοντελοποίηση

– σχεδιασµός

– µάθηση

Στρατηγικές MaxiMin

MaxiMin Strategies



Παιχνίδια Μηδενικού Αθροίσµατος

� Zero-Sum Games– οι απολαβές σε κάθε περίπτωση έχουν άθροισµα ίσο µε 0

– συµµετρικότητα: αρκεί να εξεταστούν οι απολαβές ενός παίκτη

– παίκτες: µεγιστοποιητής και ελαχιστοποιητής

– γενικότερα, παιχνίδια σταθερού αθροίσµατος

� MaxiMin (von Neumann, 1928)– µέθοδος εύρεσης βέλτιστης µικτής στρατηγικής για zero-sum

E= –3, O= +3E= +4, O= –4

E= +2, O= –2E= –3, O= +3

έναδύο

δύοέναΕ\Ο



Παράδειγµα MaxiMin

� Συλλογιστική

– αν ο ένας παίκτης αποκαλύψει τη στρατηγική του πριν παίξει ο άλλος;

– από αµιγείς στρατηγικές: χρησιµότητα παιχνιδιού –3 ≤ U ≤ +2

– αν ο 1ος παίκτης παίζει µικτή στρατηγική, τι γίνεται;

– ο 2ος παίκτης παίζοντας αµιγή στρατηγική δεν µπορεί να χάσει!� 2ος παίκτης: αµιγείς στρατηγικές [ένα] ή [δύο] ⇒ uένα ή uδύο� 2ος παίκτης: µικτή στρατηγική [p: ένα, 1-p: δύο] ⇒ puένα+(1-p)uδύο



Παράδειγµα MaxiMin

� 1ος ̟αίκτης– µικτή στρατηγική

� παραµετροποιηµένη επιλογή (p,q)

� 2ος ̟αίκτης– αµιγής στρατηγική

� Ο: ένα, αν p7/12, αλλιώς δύο

� Bέλτιστη ε̟ιλογή – 1ος παίκτης E: p=7/12

– 1ος παίκτης Ο: q=7/12

– ισορροπία maximin (και Nash)

� Χρησιµότητα ̟αιχνιδιού– U = –1/12 (προτιµότερος ο Ο)



MaxiMin

� Θεώρηµα von Neumann

– όλα τα παιχνίδια µηδενικού αθροίσµατος µε δύο παίκτες έχουν ισορροπία maximin όταν επιτρέπονται µικτές στρατηγικές

– κάθε ισορροπία Nash είναι ένα σηµείο maximin και για τους δύο

� Γενικός αλγόριθµος

– n δυνατές ενέργειες για κάθε παίκτη

– µικτή στρατηγική: σηµείο στις n διαστάσεις

– καµπύλες χρησιµότητας: υπερεπίπεδα (hyperplanes), όχι ευθείες

– απαλοιφή των κυριαρχούµενων αµιγών στρατηγικών 2ου παίκτη

– βέλτιστη επιλογή: µέγιστο σηµείο τοµής υπερεπιπέδων

– πρόβληµα γραµµικού προγραµµατισµού (linear programming)



Βέλτιστη Στρατηγική MaxiMin

� MaxiMin

– µικτή στρατηγική [7/12: ένα, 5/12: δύο] (µεγιστοποιητής)

– κοινή γνώση και για τους δύο

– ορθολογικό να υιοθετήσουν και οι δύο την ίδια στρατηγική

– αναµενόµενη χρησιµότητα για Ε: U=-1/12

– συντηρητική στρατηγική

� Παράδοξο

– έστω ότι ο ένας µόνο παίκτης αλλάζει σε αµιγή στρατηγική

– η αναµενόµενη χρησιµότητα παραµένει U=-1/12

– η µονοµερής αλλαγή δεν επηρεάζει αρνητικά τη χρησιµότητα

– αν ο άλλος παίκτης το ξέρει µπορεί να το εκµεταλλευτεί

Παιχνίδια

Games



Παιχνίδια Μη Μηδενικού Αθροίσµατος

� Βέλτιστη στρατηγική

– µικτή στρατηγική – ισορροπία Nash

� Αλγόριθµος

– απαρίθµηση δυνατών υποσυνόλων ενεργειών για µικτές στρατηγικές� προφίλ στρατηγικών µε 1, 2, 3, 4, ... το πολύ ενέργειες

� εκθετικός αριθµός συνδυασµών

– για κάθε προφίλ στρατηγικών, έλεγχος για ισορροπία� πρόβληµα µαθηµατικού προγραµµατισµού

� για 2 παίκτες: γραµµικός προγραµµατισµός

� για 3 ή περισσότερους παίκτες: µη γραµµικός προγραµµατισµός



Ε̟αναλαµβανόµενα Παιχνίδια

� Repeated Games– πεπερασµένες επαναλήψεις ενός παιχνιδιού

– ίδιες διαθέσιµες επιλογές σε κάθε επανάληψη

– γνωστό το ιστορικό των προηγούµενων αποφάσεων

– προσθετικές απολαβές από όλες τις επαναλήψεις

� Πλήθος ε̟αναλήψεων– γνωστό πλήθος επαναλήψεων

– άγνωστο γνωστό πλήθος επαναλήψεων

– άπειρες επαναλήψεις

� Στρατηγικές– διαρκής τιµωρία (perpetual punishment)

– µία σου και µία µου (tit for tat)



Ε̟αναλαµβανόµενα Παιχνίδια

� 100 γύρους

– ισορροπία κυρίαρχης στρατηγικής [οµολογία, οµολογία]� αναµενόµενες απολαβές: -500

� 99% ε̟όµενος γύρος

– στρατηγική: άρνηση, εκτός κι αν ο άλλος έχει επιλέξει οµολογία� απολαβές: -100, όσο δεν επιλέξει κανείς οµολογία, αλλιώς –999

– στρατηγική: άρνηση, αναπαραγωγή προηγούµενης επιλογής του άλλου

A= 0, B= –10A= –1, B= –1

A= –5, B= –5A= –10, B= 0

οµολογίαάρνηση

άρνησηοµολογίαΑ \ Β

Μαρκωβιανά Παιχνίδια

Markov Games



Zero-Sum Markov Games



MiniMax Optimality



Bellman Equation for MGs



Bellman Optimality Equation for MGs



MiniMax (Greedy) Policy over Q



Example: RPS[Littman, 1994]



Planning in MGs

Μάθηση σε Μαρκωβιανά Παίγνια

Learning in Markov Games



MiniMaxQ Learning[Littman, 1994]



Linear ApproximationArchitectures



Implied MiniMax Policy



LSTDQ for Zero-Sum MGs



LSPI for Zero-Sum MGs



Simplified Soccer Game



Learning Parameters



4x4 Soccer against Optimal



8x8 Soccer against Benchmark



Generalization to 40x40 Soccer



Router-Server Flow Control



Learning Parameters



Results



Μελέτη

� Σύγγραµµα

– Ενότητα 17.6

� Άρθρα

– M. Littman, Markov Games as a Framework for Multi-Agent Reinforcement Learning, International Conference on Machine Learning, 1994.

– M. Lagoudakis and Ronald Parr, Value Function Approximation in Zero-Sum Markov Games, Uncertainty in Artificial Intelligence, 2002.

Θεωρία Παιγνίων Μαρκωβιανά Παιχνίδια -...

Documents