thesis : contraints and observability in markov decision processes

142
Intro Contraintes Observabilité Décentralisé Futur Conc ??? Contraintes et observabilité dans les systèmes de Markov décentralisés Camille Besse Département d’Informatique et de Génie Logiciel Septembre 2010 Camille Besse 1 / 32

Upload: camille-besse

Post on 16-Jan-2017

240 views

Category:

Science


4 download

TRANSCRIPT

Page 1: Thesis : Contraints and Observability In Markov Decision Processes

DAMASwww.damas.ift.ulaval.ca

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ?

Contraintes et observabilitédans les systèmes de Markov décentralisés

Camille Besse

Département d’Informatique et de Génie Logicielhttp://damas.ift.ulaval.ca

Septembre 2010

DAMASwww.damas.ift.ulaval.ca Camille Besse 1 / 32

Page 2: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan

Prologue

Cette présentation ...

ne s’adresse pas à un public averticontient seulement 8.5% de formules mathématiquesest composée à 82.4% d’images et exemplesse veut compréhensible par tous et toutes

å Donc si vous avez des questions ...

N’hésitez pas et posez les ! ! !

DAMASwww.damas.ift.ulaval.ca Camille Besse 2 / 32

Page 3: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan

Prologue

Cette présentation ...

ne s’adresse pas à un public averti

contient seulement 8.5% de formules mathématiquesest composée à 82.4% d’images et exemplesse veut compréhensible par tous et toutes

å Donc si vous avez des questions ...

N’hésitez pas et posez les ! ! !

DAMASwww.damas.ift.ulaval.ca Camille Besse 2 / 32

Page 4: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan

Prologue

Cette présentation ...

ne s’adresse pas à un public averticontient seulement 8.5% de formules mathématiques

est composée à 82.4% d’images et exemplesse veut compréhensible par tous et toutes

å Donc si vous avez des questions ...

N’hésitez pas et posez les ! ! !

DAMASwww.damas.ift.ulaval.ca Camille Besse 2 / 32

Page 5: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan

Prologue

Cette présentation ...

ne s’adresse pas à un public averticontient seulement 8.5% de formules mathématiquesest composée à 82.4% d’images et exemples

se veut compréhensible par tous et touteså Donc si vous avez des questions ...

N’hésitez pas et posez les ! ! !

DAMASwww.damas.ift.ulaval.ca Camille Besse 2 / 32

Page 6: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan

Prologue

Cette présentation ...

ne s’adresse pas à un public averticontient seulement 8.5% de formules mathématiquesest composée à 82.4% d’images et exemplesse veut compréhensible par tous et toutes

å Donc si vous avez des questions ...

N’hésitez pas et posez les ! ! !

DAMASwww.damas.ift.ulaval.ca Camille Besse 2 / 32

Page 7: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan

Prologue

Cette présentation ...

ne s’adresse pas à un public averticontient seulement 8.5% de formules mathématiquesest composée à 82.4% d’images et exemplesse veut compréhensible par tous et toutes

å Donc si vous avez des questions ...

N’hésitez pas et posez les ! ! !

DAMASwww.damas.ift.ulaval.ca Camille Besse 2 / 32

Page 8: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan

Prologue

Cette présentation ...

ne s’adresse pas à un public averticontient seulement 8.5% de formules mathématiquesest composée à 82.4% d’images et exemplesse veut compréhensible par tous et toutes

å Donc si vous avez des questions ...

N’hésitez pas et posez les ! ! !

DAMASwww.damas.ift.ulaval.ca Camille Besse 2 / 32

Page 9: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan

Exemple introductif

Imaginons une ferme automatisée ...

Où travaille un robot ...devant réaliser plusieurs tâches journalières :

Nourrir les poulesTraire les vachesArroser le potager(etc ...)

Ce robot n’est malheureusement pas parfaitå Les tâches qu’il réalise peuvent parfois prendre plus de tempså Il a en plus des chances d’échouer (ou de mal réaliser ces tâches)

Comment modéliser ce problème de planification ?

DAMASwww.damas.ift.ulaval.ca Camille Besse 3 / 32

Page 10: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan

Exemple introductif

Imaginons une ferme automatisée ...

Où travaille un robot ...

devant réaliser plusieurs tâches journalières :Nourrir les poulesTraire les vachesArroser le potager(etc ...)

Ce robot n’est malheureusement pas parfaitå Les tâches qu’il réalise peuvent parfois prendre plus de tempså Il a en plus des chances d’échouer (ou de mal réaliser ces tâches)

Comment modéliser ce problème de planification ?

DAMASwww.damas.ift.ulaval.ca Camille Besse 3 / 32

Page 11: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan

Exemple introductif

Imaginons une ferme automatisée ...

Où travaille un robot ...devant réaliser plusieurs tâches journalières :

Nourrir les poulesTraire les vachesArroser le potager(etc ...)

Ce robot n’est malheureusement pas parfaitå Les tâches qu’il réalise peuvent parfois prendre plus de tempså Il a en plus des chances d’échouer (ou de mal réaliser ces tâches)

Comment modéliser ce problème de planification ?

DAMASwww.damas.ift.ulaval.ca Camille Besse 3 / 32

Page 12: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan

Exemple introductif

Imaginons une ferme automatisée ...

Où travaille un robot ...devant réaliser plusieurs tâches journalières :

Nourrir les poulesTraire les vachesArroser le potager(etc ...)

Ce robot n’est malheureusement pas parfaitå Les tâches qu’il réalise peuvent parfois prendre plus de tempså Il a en plus des chances d’échouer (ou de mal réaliser ces tâches)

Comment modéliser ce problème de planification ?

DAMASwww.damas.ift.ulaval.ca Camille Besse 3 / 32

Page 13: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan

Exemple introductif

Imaginons une ferme automatisée ...

Où travaille un robot ...devant réaliser plusieurs tâches journalières :

Nourrir les poulesTraire les vachesArroser le potager(etc ...)

Ce robot n’est malheureusement pas parfait

å Les tâches qu’il réalise peuvent parfois prendre plus de tempså Il a en plus des chances d’échouer (ou de mal réaliser ces tâches)

Comment modéliser ce problème de planification ?

DAMASwww.damas.ift.ulaval.ca Camille Besse 3 / 32

Page 14: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan

Exemple introductif

Imaginons une ferme automatisée ...

Où travaille un robot ...devant réaliser plusieurs tâches journalières :

Nourrir les poulesTraire les vachesArroser le potager(etc ...)

Ce robot n’est malheureusement pas parfaitå Les tâches qu’il réalise peuvent parfois prendre plus de tempså Il a en plus des chances d’échouer (ou de mal réaliser ces tâches)

Comment modéliser ce problème de planification ?

DAMASwww.damas.ift.ulaval.ca Camille Besse 3 / 32

Page 15: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan

Exemple introductif

Imaginons une ferme automatisée ...

Où travaille un robot ...devant réaliser plusieurs tâches journalières :

Nourrir les poulesTraire les vachesArroser le potager(etc ...)

Ce robot n’est malheureusement pas parfaitå Les tâches qu’il réalise peuvent parfois prendre plus de tempså Il a en plus des chances d’échouer (ou de mal réaliser ces tâches)

Comment modéliser ce problème de planification ?

DAMASwww.damas.ift.ulaval.ca Camille Besse 3 / 32

Page 16: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan

Exemple introductif

St

0

0

0

DAMASwww.damas.ift.ulaval.ca Camille Besse 3 / 32

Page 17: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan

Exemple introductif

At

apoules

avaches

apotager

DAMASwww.damas.ift.ulaval.ca Camille Besse 3 / 32

Page 18: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan

Exemple introductif

r t

rpoules

rvaches

rpotager

DAMASwww.damas.ift.ulaval.ca Camille Besse 3 / 32

Page 19: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan

Exemple introductif

St

0

0

0

apotager

DAMASwww.damas.ift.ulaval.ca Camille Besse 3 / 32

Page 20: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan

Exemple introductif

St+1

0

0

1

apotager

rpotager

DAMASwww.damas.ift.ulaval.ca Camille Besse 3 / 32

Page 21: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan

Exemple introductif

St+1

0

0

1

avaches

DAMASwww.damas.ift.ulaval.ca Camille Besse 3 / 32

Page 22: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan

Exemple introductif

St+2

0

0

1

avaches

0

DAMASwww.damas.ift.ulaval.ca Camille Besse 3 / 32

Page 23: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan

Exemple introductifReprésentation graphique d’un Processus décisionnel de Markov

r t−1 r t r t+1 rT

St−2 St−1 St St+1 ST

At−1 At At+1 AT

T T T T

O O O O

R R R R

DAMASwww.damas.ift.ulaval.ca Camille Besse 3 / 32

Page 24: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan

Exemple introductifEt en partiellement observable ?

St

0

?

?

DAMASwww.damas.ift.ulaval.ca Camille Besse 3 / 32

Page 25: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan

Exemple introductifEt en partiellement observable ?

St+1

?

?

1

DAMASwww.damas.ift.ulaval.ca Camille Besse 3 / 32

Page 26: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan

Exemple introductifReprésentation graphique en partiellement observable

r1 r2 r3 rT

S0 S1 S2 S3 ST

O0 O1 O2 O3

A1 A2 A3 AT

DAMASwww.damas.ift.ulaval.ca Camille Besse 3 / 32

Page 27: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan

Exemple introductifEt en multiagent ?

St

?

?

?

At1

At2

DAMASwww.damas.ift.ulaval.ca Camille Besse 3 / 32

Page 28: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan

Exemple introductifReprésentation graphique en multiagent

S0 S1 S2 S3 ST

O01

O02

O11

O12

O21

O22

O31

O32

A11

A12

A21

A22

A31

A32

AT1

AT2

Agent 1

Agent 2

DAMASwww.damas.ift.ulaval.ca Camille Besse 3 / 32

Page 29: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan

Contributions et plan de la présentation

Processus Décisionnel de Markov

Légende

Modèle Existant

DAMASwww.damas.ift.ulaval.ca Camille Besse 4 / 32

Page 30: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan

Contributions et plan de la présentation

Processus Décisionnel de Markov

Problèmes de Satisfaction

de Contraintes Markoviens

Légende

Modèle Existant

Modèle Proposé

DAMASwww.damas.ift.ulaval.ca Camille Besse 4 / 32

Page 31: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan

Contributions et plan de la présentation

Processus Décisionnel de Markov

Problèmes de Satisfaction

de Contraintes MarkoviensNEREUS

Légende

Modèle Existant

Modèle Proposé

Problème

DAMASwww.damas.ift.ulaval.ca Camille Besse 4 / 32

Page 32: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan

Contributions et plan de la présentation

Processus Décisionnel de Markov

Problèmes de Satisfaction

de Contraintes Markoviens

R-FRTDP

NEREUS

Légende

Modèle Existant

Modèle Proposé

Algorithme

Problème

DAMASwww.damas.ift.ulaval.ca Camille Besse 4 / 32

Page 33: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan

Contributions et plan de la présentation

Processus Décisionnel de Markov

Problèmes de Satisfaction

de Contraintes Markoviens

R-FRTDP

+ Bornes

NEREUS

Légende

Modèle Existant

Modèle Proposé

Algorithme

Problème

DAMASwww.damas.ift.ulaval.ca Camille Besse 4 / 32

Page 34: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan

Contributions et plan de la présentation

Processus Décisionnel de Markov

Problèmes de Satisfaction

de Contraintes Markoviens

Partiellement Observable

R-FRTDP

+ Bornes

NEREUS

Légende

Modèle Existant

Modèle Proposé

Algorithme

Problème

DAMASwww.damas.ift.ulaval.ca Camille Besse 4 / 32

Page 35: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan

Contributions et plan de la présentation

Processus Décisionnel de Markov

Problèmes de Satisfaction

de Contraintes Markoviens

Partiellement Observable

Quasi-Déterministe

R-FRTDP

+ Bornes

+ Bornes PAC

NEREUS

Légende

Modèle Existant

Modèle Proposé

Algorithme

Problème

DAMASwww.damas.ift.ulaval.ca Camille Besse 4 / 32

Page 36: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan

Contributions et plan de la présentation

Processus Décisionnel de Markov

Problèmes de Satisfaction

de Contraintes Markoviens

Partiellement Observable

Quasi-Déterministe

Multiagent

R-FRTDP

+ Bornes

+ Bornes PAC

NEREUS

Légende

Modèle Existant

Modèle Proposé

Algorithme

Problème

DAMASwww.damas.ift.ulaval.ca Camille Besse 4 / 32

Page 37: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan

Contributions et plan de la présentation

Processus Décisionnel de Markov

Problèmes de Satisfaction

de Contraintes Markoviens

Partiellement Observable

Quasi-Déterministe

Multiagent

Décentralisé

R-FRTDP

+ Bornes

+ Bornes PAC

NEREUS

Légende

Modèle Existant

Modèle Proposé

Algorithme

Problème

DAMASwww.damas.ift.ulaval.ca Camille Besse 4 / 32

Page 38: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan

Contributions et plan de la présentation

Processus Décisionnel de Markov

Problèmes de Satisfaction

de Contraintes Markoviens

Partiellement Observable

Quasi-Déterministe

Multiagent

Décentralisé

R-FRTDP

dRollout

+ Bornes

+ Bornes PAC

NEREUS

Déménageurs

Légende

Modèle Existant

Modèle Proposé

Algorithme

Problème

DAMASwww.damas.ift.ulaval.ca Camille Besse 4 / 32

Page 39: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan

Contributions et plan de la présentation

Processus Décisionnel de Markov

Problèmes de Satisfaction

de Contraintes Markoviens

Partiellement Observable

Quasi-Déterministe

Multiagent

Décentralisé

R-FRTDP

dRollout

+ Bornes

+ Bornes PAC

NEREUS

PatrouilleDéménageurs

Légende

Modèle Existant

Modèle Proposé

Algorithme

Problème

DAMASwww.damas.ift.ulaval.ca Camille Besse 4 / 32

Page 40: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? CSPs DCSPs MaCSPs Exemple Résultats

Plan

1ere Partie : Contraintes et Modèles de Markov

Processus Décisionnel de Markov

Problèmes de Satisfaction

de Contraintes Markoviens

R-FRTDP

+ Bornes

NEREUS

DAMASwww.damas.ift.ulaval.ca Camille Besse 5 / 32

Page 41: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? CSPs DCSPs MaCSPs Exemple Résultats

Problèmes de satisfaction de contraintes

2

4

53

1

DAMASwww.damas.ift.ulaval.ca Camille Besse 6 / 32

Page 42: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? CSPs DCSPs MaCSPs Exemple Résultats

Problèmes de satisfaction de contraintes

2

4

53

1

DAMASwww.damas.ift.ulaval.ca Camille Besse 6 / 32

Page 43: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? CSPs DCSPs MaCSPs Exemple Résultats

Problèmes de satisfaction de contraintes

2

4

53

1

DAMASwww.damas.ift.ulaval.ca Camille Besse 6 / 32

Page 44: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? CSPs DCSPs MaCSPs Exemple Résultats

Problèmes de satisfaction de contraintes

2

4

53

1

DAMASwww.damas.ift.ulaval.ca Camille Besse 6 / 32

Page 45: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? CSPs DCSPs MaCSPs Exemple Résultats

Problèmes de satisfaction de contraintes

2

4

53

1

DAMASwww.damas.ift.ulaval.ca Camille Besse 6 / 32

Page 46: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? CSPs DCSPs MaCSPs Exemple Résultats

Problèmes de satisfaction de contraintes

2

4

53

1

DAMASwww.damas.ift.ulaval.ca Camille Besse 6 / 32

Page 47: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? CSPs DCSPs MaCSPs Exemple Résultats

Problèmes de satisfaction de contraintes dynamiques

2

4

53

1

DAMASwww.damas.ift.ulaval.ca Camille Besse 7 / 32

Page 48: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? CSPs DCSPs MaCSPs Exemple Résultats

Problèmes de satisfaction de contraintes dynamiques

2

4

53

1

DAMASwww.damas.ift.ulaval.ca Camille Besse 7 / 32

Page 49: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? CSPs DCSPs MaCSPs Exemple Résultats

Problèmes de satisfaction de contraintes dynamiques

2

4

53

1

DAMASwww.damas.ift.ulaval.ca Camille Besse 7 / 32

Page 50: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? CSPs DCSPs MaCSPs Exemple Résultats

Problèmes de satisfaction de contraintes dynamiques

2

4

53

1

DAMASwww.damas.ift.ulaval.ca Camille Besse 7 / 32

Page 51: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? CSPs DCSPs MaCSPs Exemple Résultats

Problèmes de Markov avec satisfaction de contraintes

Solutions

st+1 st+1 st+1

CSPt+1 CSPt+1 CSPt+1

st CSPt

a0 ... ai ... aσ

DAMASwww.damas.ift.ulaval.ca Camille Besse 8 / 32

Page 52: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? CSPs DCSPs MaCSPs Exemple Résultats

Exemple illustratif à la ferme

DAMASwww.damas.ift.ulaval.ca Camille Besse 9 / 32

Page 53: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? CSPs DCSPs MaCSPs Exemple Résultats

Exemple illustratif à la ferme

Arbre de résolution d’un MDP classique

〈Pou , V, Pot 〉

〈0, 0, 0〉

〈Pou , Pou〉

〈1, 0, 0〉〈0, 0, 0〉

〈Pou , V〉

〈1, 1, 0〉〈1, 0, 0〉〈0, 1, 0〉〈0, 0, 0〉

〈Pou , Pot 〉

〈1, 0, 1〉〈1, 0, 0〉〈0, 0, 1〉〈0, 0, 0〉

〈V, V〉

〈0, 1, 0〉〈0, 0, 0〉

〈V, Pou〉

〈1, 1, 0〉〈0, 1, 0〉〈1, 0, 0〉〈0, 0, 0〉

〈V, Pot 〉

〈0, 1, 1〉〈0, 1, 0〉〈0, 0, 1〉〈0, 0, 0〉〈Pot , Pot 〉

〈0, 0, 1〉〈0, 0, 0〉

〈Pot , V〉

〈0, 1, 1〉〈0, 0, 1〉〈0, 1, 0〉〈0, 0, 0〉

〈Pot , Pou〉

〈1, 0, 1〉〈0, 0, 1〉〈1, 0, 0〉〈0, 0, 0〉

7 états possibles selon les probabilitéspour 9 actions jointes

7 états possibles selon les probabilitéspour seulement 6 actions jointes

DAMASwww.damas.ift.ulaval.ca Camille Besse 9 / 32

Page 54: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? CSPs DCSPs MaCSPs Exemple Résultats

Exemple illustratif à la ferme

Arbre de résolution d’un MDP classique

〈Pou , V, Pot 〉

〈0, 0, 0〉

〈Pou , Pou〉

〈1, 0, 0〉〈0, 0, 0〉

〈Pou , V〉

〈1, 1, 0〉〈1, 0, 0〉〈0, 1, 0〉〈0, 0, 0〉

〈Pou , Pot 〉

〈1, 0, 1〉〈1, 0, 0〉〈0, 0, 1〉〈0, 0, 0〉

〈V, V〉

〈0, 1, 0〉〈0, 0, 0〉

〈V, Pou〉

〈1, 1, 0〉〈0, 1, 0〉〈1, 0, 0〉〈0, 0, 0〉

〈V, Pot 〉

〈0, 1, 1〉〈0, 1, 0〉〈0, 0, 1〉〈0, 0, 0〉〈Pot , Pot 〉

〈0, 0, 1〉〈0, 0, 0〉

〈Pot , V〉

〈0, 1, 1〉〈0, 0, 1〉〈0, 1, 0〉〈0, 0, 0〉

〈Pot , Pou〉

〈1, 0, 1〉〈0, 0, 1〉〈1, 0, 0〉〈0, 0, 0〉

7 états possibles selon les probabilitéspour 9 actions jointes

7 états possibles selon les probabilitéspour seulement 6 actions jointes

DAMASwww.damas.ift.ulaval.ca Camille Besse 9 / 32

Page 55: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? CSPs DCSPs MaCSPs Exemple Résultats

Exemple illustratif à la ferme

Arbre de résolution d’un MaCSP avec allDiff〈Pou , V, Pot 〉

〈0, 0, 0〉

〈Pou , V〉

〈1, 1, 0〉〈1, 0, 0〉〈0, 1, 0〉〈0, 0, 0〉

〈Pou , Pot 〉

〈1, 0, 1〉〈1, 0, 0〉〈0, 0, 1〉〈0, 0, 0〉

〈V, Pou〉

〈1, 1, 0〉〈0, 1, 0〉〈1, 0, 0〉〈0, 0, 0〉

〈V, Pot 〉

〈0, 1, 1〉〈0, 1, 0〉〈0, 0, 1〉〈0, 0, 0〉

〈Pot , V〉

〈0, 1, 1〉〈0, 0, 1〉〈0, 1, 0〉〈0, 0, 0〉

〈Pot , Pou〉

〈1, 0, 1〉〈0, 0, 1〉〈1, 0, 0〉〈0, 0, 0〉

7 états possibles selon les probabilitéspour 9 actions jointes

7 états possibles selon les probabilitéspour seulement 6 actions jointes

DAMASwww.damas.ift.ulaval.ca Camille Besse 9 / 32

Page 56: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? CSPs DCSPs MaCSPs Exemple Résultats

Exemple illustratif à la ferme

Arbre de résolution d’un MaCSP avec allDiff〈Pou , V, Pot 〉

〈0, 0, 0〉

〈Pou , V〉

〈1, 1, 0〉〈1, 0, 0〉〈0, 1, 0〉〈0, 0, 0〉

〈Pou , Pot 〉

〈1, 0, 1〉〈1, 0, 0〉〈0, 0, 1〉〈0, 0, 0〉

〈V, Pou〉

〈1, 1, 0〉〈0, 1, 0〉〈1, 0, 0〉〈0, 0, 0〉

〈V, Pot 〉

〈0, 1, 1〉〈0, 1, 0〉〈0, 0, 1〉〈0, 0, 0〉

〈Pot , V〉

〈0, 1, 1〉〈0, 0, 1〉〈0, 1, 0〉〈0, 0, 0〉

〈Pot , Pou〉

〈1, 0, 1〉〈0, 0, 1〉〈1, 0, 0〉〈0, 0, 0〉

7 états possibles selon les probabilitéspour 9 actions jointes

7 états possibles selon les probabilitéspour seulement 6 actions jointes

DAMASwww.damas.ift.ulaval.ca Camille Besse 9 / 32

Page 57: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? CSPs DCSPs MaCSPs Exemple Résultats

Résultats théoriques

Gain dans un problème d’allocation séquentiel

Dans un problème d’allocation de ressources à des tâches, le gain enfacteur de branchement de l’utilisation de la contrainte allDiff quiimposent que toutes les ressources soient appliquées à des tâchesdifférentes est égal à :

Gain =|T ||X |

C|X ||T |

Complexité du modèle en pire cas

Trouver une politique pour un MaCSP, qui obtiendrait une récompenseespérée d’au moins C, est #P.

Mais cela fonctionne très bien en pratique puisque le nombre devariables est très inférieur au nombre d’états.

DAMASwww.damas.ift.ulaval.ca Camille Besse 10 / 32

Page 58: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? CSPs DCSPs MaCSPs Exemple Résultats

Résultats théoriques

Gain dans un problème d’allocation séquentiel

Dans un problème d’allocation de ressources à des tâches, le gain enfacteur de branchement de l’utilisation de la contrainte allDiff quiimposent que toutes les ressources soient appliquées à des tâchesdifférentes est égal à :

Gain =|T ||X |

C|X ||T |

Complexité du modèle en pire cas

Trouver une politique pour un MaCSP, qui obtiendrait une récompenseespérée d’au moins C, est #P.

Mais cela fonctionne très bien en pratique puisque le nombre devariables est très inférieur au nombre d’états.

DAMASwww.damas.ift.ulaval.ca Camille Besse 10 / 32

Page 59: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? CSPs DCSPs MaCSPs Exemple Résultats

Résultats théoriques

Gain dans un problème d’allocation séquentiel

Dans un problème d’allocation de ressources à des tâches, le gain enfacteur de branchement de l’utilisation de la contrainte allDiff quiimposent que toutes les ressources soient appliquées à des tâchesdifférentes est égal à :

Gain =|T ||X |

C|X ||T |

Complexité du modèle en pire cas

Trouver une politique pour un MaCSP, qui obtiendrait une récompenseespérée d’au moins C, est #P.

Mais cela fonctionne très bien en pratique puisque le nombre devariables est très inférieur au nombre d’états.

DAMASwww.damas.ift.ulaval.ca Camille Besse 10 / 32

Page 60: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? CSPs DCSPs MaCSPs Exemple Résultats

Résultats empiriques

10

100

1000

10000

100000

1e+006

1 2 3 4 5 6 7 8

Tim

e (m

s)

Number of Tasks

MaCSPMDP

DAMASwww.damas.ift.ulaval.ca Camille Besse 11 / 32

Page 61: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique

Plan

2eme Partie : Contraintes et Observabilité dansles Modèles de Markov

Processus Décisionnel de Markov

Partiellement Observable

Multiagent

Décentralisé

Quasi-Déterministe + Bornes PAC

Incendie

DAMASwww.damas.ift.ulaval.ca Camille Besse 12 / 32

Page 62: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique

L’état de croyance

r1 r2 r3 rT

S0 S1 S2 S3 ST

O0 O1 O2 O3

b0 b1 b2 b3

A11 A2

1 A31 AT

1

DAMASwww.damas.ift.ulaval.ca Camille Besse 13 / 32

Page 63: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique

L’état de croyance

r1 r2 r3 rT

S0 S1 S2 S3 ST

O0 O1 O2 O3

b0 b1 b2 b3

A11 A2

1 A31 AT

1

DAMASwww.damas.ift.ulaval.ca Camille Besse 13 / 32

Page 64: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique

L’état de croyance : un exemple

b(s)

DAMASwww.damas.ift.ulaval.ca Camille Besse 14 / 32

Page 65: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique

L’état de croyance : un exemple

b(s)

DAMASwww.damas.ift.ulaval.ca Camille Besse 14 / 32

Page 66: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique

L’état de croyance : un exemple

b(s)

DAMASwww.damas.ift.ulaval.ca Camille Besse 14 / 32

Page 67: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique

L’état de croyance : un exemple

b(s)

DAMASwww.damas.ift.ulaval.ca Camille Besse 14 / 32

Page 68: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique

L’état de croyance : un exemple

b(s)

DAMASwww.damas.ift.ulaval.ca Camille Besse 14 / 32

Page 69: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique

Complexité des modèles de Markov selonl’observabilité

NonePartial& Noisy

Joint& Perfect

Complete& Noisy

Complete& Perfect

NEXP

EXPΣP

poly ⊆ PSPACE

ΣPk

ΣP1 = NP

PObservability

Complexity

DAMASwww.damas.ift.ulaval.ca Camille Besse 15 / 32

Page 70: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique

Complexité des modèles de Markov selonl’observabilité

NonePartial& Noisy

Joint& Perfect

Complete& Noisy

Complete& Perfect

NEXP

EXPΣP

poly ⊆ PSPACE

ΣPk

ΣP1 = NP

P(M)MDP∞

Observability

Complexity

DAMASwww.damas.ift.ulaval.ca Camille Besse 15 / 32

Page 71: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique

Complexité des modèles de Markov selonl’observabilité

NonePartial& Noisy

Joint& Perfect

Complete& Noisy

Complete& Perfect

NEXP

EXPΣP

poly ⊆ PSPACE

ΣPk

ΣP1 = NP

P(M)MDP∞

(M)POMDP

Observability

Complexity

DAMASwww.damas.ift.ulaval.ca Camille Besse 15 / 32

Page 72: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique

Complexité des modèles de Markov selonl’observabilité

NonePartial& Noisy

Joint& Perfect

Complete& Noisy

Complete& Perfect

NEXP

EXPΣP

poly ⊆ PSPACE

ΣPk

ΣP1 = NP

P(M)MDP∞

DEC-POMDP

(M)POMDP

Observability

Complexity

DAMASwww.damas.ift.ulaval.ca Camille Besse 15 / 32

Page 73: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique

Complexité des modèles de Markov selonl’observabilité

NonePartial& Noisy

Joint& Perfect

Complete& Noisy

Complete& Perfect

NEXP

EXPΣP

poly ⊆ PSPACE

ΣPk

ΣP1 = NP

P(M)MDP∞

DEC-POMDP

(M)POMDP

UMDP

UMDP∞

DEC-MDP

Free Com.DEC-MDP-COM

Free Com.DEC-POMDP-COM

Observability

Complexity

DAMASwww.damas.ift.ulaval.ca Camille Besse 15 / 32

Page 74: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique

Complexité des modèles de Markov selonl’observabilité

NonePartial& Noisy

Joint& Perfect

Complete& Noisy

Complete& Perfect

NEXP

EXPΣP

poly ⊆ PSPACE

ΣPk

ΣP1 = NP

P

Gap

(M)MDP∞

DEC-POMDP

(M)POMDP

UMDP

UMDP∞

DEC-MDP

Free Com.DEC-MDP-COM

Free Com.DEC-POMDP-COM

? ? ?

Observability

Complexity

DAMASwww.damas.ift.ulaval.ca Camille Besse 15 / 32

Page 75: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique

Modèle avec observation bijective

Observabilité bijective

∃o1 ∈ Ω, ∀a ∈ A, ∀s ∈ So1 ,

with So1 = s ∈ S|∃o1 ∈ Ω,P(o1|s,a) > P(o|s,a),∀o 6= o1,then |Ω| = |S| and |So1 | = 1

DAMASwww.damas.ift.ulaval.ca Camille Besse 16 / 32

Page 76: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique

Modèle avec observation bijective

Observabilité bijective

États Observations

s1

s2

s3

s4

s5

o1

o2

o3

o4

o5

DAMASwww.damas.ift.ulaval.ca Camille Besse 16 / 32

Page 77: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique

Modèle avec observation bijective

Observabilité bijective

ν = 3, θ = 0.8États Observations

s1

s2

s3

s4

s5

o1

o2

o3

o4

o5

P(o1|s1) = 0.8

P(o2|s1) = 0.1

P(o3|s1) = 0.1

DAMASwww.damas.ift.ulaval.ca Camille Besse 16 / 32

Page 78: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique

Modèle avec observation bijective

Observabilité bijective

ν = 3, θ = 0.8États Observations

s1

s2

s3

s4

s5

o1

o2

o3

o4

o5

P(o1|s2) = 0.1

P(o2|s2) = 0.8

P(o3|s2) = 0.1

DAMASwww.damas.ift.ulaval.ca Camille Besse 16 / 32

Page 79: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique

Modèle avec observation bijective

Observabilité bijective

ν = 3, θ = 0.8États Observations

s1

s2

s3

s4

s5

o1

o2

o3

o4

o5

P(o2|s3) = 0.1

P(o3|s3) = 0.8

P(o4|s3) = 0.1

DAMASwww.damas.ift.ulaval.ca Camille Besse 16 / 32

Page 80: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique

Modèle avec observation bijective

Observabilité bijective

ν = 3, θ = 0.8États Observations

s1

s2

s3

s4

s5

o1

o2

o3

o4

o5

P(o3|s4) = 0.1

P(o4|s4) = 0.8

P(o5|s4) = 0.1

DAMASwww.damas.ift.ulaval.ca Camille Besse 16 / 32

Page 81: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique

Modèle avec observation bijective

Observabilité bijective

ν = 3, θ = 0.8États Observations

s1

s2

s3

s4

s5

o1

o2

o3

o4

o5

P(o3|s5) = 0.1

P(o4|s5) = 0.1

P(o5|s5) = 0.8

DAMASwww.damas.ift.ulaval.ca Camille Besse 16 / 32

Page 82: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique

Résultats théoriques obtenus

Convergence de l’état de croyance en probabilité

Sous l’hypothèse d’observation bijective, l’état de croyance bk est telque bk (s) > 1− ε ssi

n >1

2 ln νθ(1−θ)

ln[

1− εε

(1 + ν1− k

2

)]+

k2

(1)

Réduction de la complexité en pire cas pour les

Étant donné un à horizon infini avec actions déterministes etrespectant l’hypothèse d’observabilité bijective, trouver une politiquequi permette d’obtenir une récompense escomptée espérée donnéeavec une forte probabilité est .

DAMASwww.damas.ift.ulaval.ca Camille Besse 17 / 32

Page 83: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique

Résultats théoriques obtenus

Convergence de l’état de croyance en probabilité

0 10 20 30 40 500

0.2

0.4

0.6

0.8

1

K

P (

bK >

1−ε

)

θ = 0.9θ = 0.8θ = 0.7θ = 0.6

Réduction de la complexité en pire cas pour les

Étant donné un à horizon infini avec actions déterministes etrespectant l’hypothèse d’observabilité bijective, trouver une politiquequi permette d’obtenir une récompense escomptée espérée donnéeavec une forte probabilité est .

DAMASwww.damas.ift.ulaval.ca Camille Besse 17 / 32

Page 84: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique

Résultats théoriques obtenus

Convergence de l’état de croyance en probabilité

0 10 20 30 40 500

0.2

0.4

0.6

0.8

1

K

P (

bK >

1−ε

)

θ = 0.9θ = 0.8θ = 0.7θ = 0.6

Réduction de la complexité en pire cas pour les POMDPs

Étant donné un POMDP à horizon infini avec actions déterministes etrespectant l’hypothèse d’observabilité bijective, trouver une politiquequi permette d’obtenir une récompense escomptée espérée donnéeavec une forte probabilité est ΣP2k−1.

DAMASwww.damas.ift.ulaval.ca Camille Besse 17 / 32

Page 85: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique

Résultats théoriques obtenus

Convergence de l’état de croyance en probabilité

0 10 20 30 40 500

0.2

0.4

0.6

0.8

1

K

P (

bK >

1−ε

)

θ = 0.9θ = 0.8θ = 0.7θ = 0.6

Réduction de la complexité en pire cas pour les DEC-POMDPs

Étant donné un DEC-POMDP à horizon infini avec actionsdéterministes et respectant l’hypothèse d’observabilité bijective,trouver une politique qui permette d’obtenir une récompenseescomptée espérée donnée avec une forte probabilité est PSPACE.

DAMASwww.damas.ift.ulaval.ca Camille Besse 17 / 32

Page 86: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique

Résultats théoriques obtenus

NonePartial& Noisy

Joint& Perfect

Complete& Noisy

Complete& Perfect

NEXP

EXPΣP

poly ⊆ PSPACE

ΣPk

ΣP1 = NP

P

Gap

Observability

Complexity

(M)MDP∞

(M)POMDP

DEC-POMDP

QDET-POMDP

QDET-DEC-POMDP

DAMASwww.damas.ift.ulaval.ca Camille Besse 17 / 32

Page 87: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique

avec actions stochastiques

0 10 20 30 40 500

0.5

1

1.5

2

2.5

3

3.5

σa2= .05 σ

o2= 0.12892 θ = 0.92214

K

P (

bK >

1−ε

)

±2σ2

±σ2

Mean

DAMASwww.damas.ift.ulaval.ca Camille Besse 18 / 32

Page 88: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? DecPOMDPs Rollout No Comm Résultats

Plan

3eme Partie : Observabilité dans les modèles deMarkov décentralisés

Processus Décisionnel de Markov

Partiellement Observable

Multiagent

DécentralisédRollout

Patrouille Déménageurs

DAMASwww.damas.ift.ulaval.ca Camille Besse 19 / 32

Page 89: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? DecPOMDPs Rollout No Comm Résultats

Bases sur les POMDPs décentralisés

S0 S1 S2 S3 ST

O01

O02

O11

O12

O21

O22

O31

O32

A11

A12

A21

A22

A31

A32

AT1

AT2

Agent 1

Agent 2

DAMASwww.damas.ift.ulaval.ca Camille Besse 20 / 32

Page 90: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? DecPOMDPs Rollout No Comm Résultats

Bases sur les POMDPs décentralisés

S0 S1 S2 S3 ST

O11

O12

O21

O22

O31

O32

b01

b02

b11

b12

b21

b22

b31

b32

A11

A12

A21

A22

A31

A32

AT1

AT2

Agent 1

Agent 2

DAMASwww.damas.ift.ulaval.ca Camille Besse 20 / 32

Page 91: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? DecPOMDPs Rollout No Comm Résultats

Bases sur les POMDPs décentralisés

S0 S1 S2 S3 ST

O11

O12

O21

O22

O31

O32

b01

b02

b11

b12

b21

b22

b31

b32

b01

b02

A11

A12

A21

A22

A31

A32

AT1

AT2

Agent 1

Agent 2

DAMASwww.damas.ift.ulaval.ca Camille Besse 20 / 32

Page 92: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? DecPOMDPs Rollout No Comm Résultats

Bases sur les POMDPs décentralisés

S0 S1 S2 S3 ST

O11

O12

O21

O22

O31

O32

b01

b02

b11

b12

b21

b22

b31

b32

b01

b02

b11

b12

A11

A12

A21

A22

A31

A32

AT1

AT2

Agent 1

Agent 2

DAMASwww.damas.ift.ulaval.ca Camille Besse 20 / 32

Page 93: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? DecPOMDPs Rollout No Comm Résultats

Bases sur les POMDPs décentralisés

S0 S1 S2 S3 ST

O11

O12

O21

O22

O31

O32

b01

b02

b11

b12

b21

b22

b31

b32

b01

b02

b11

b12

b21

b22

A11

A12

A21

A22

A31

A32

AT1

AT2

Agent 1

Agent 2

DAMASwww.damas.ift.ulaval.ca Camille Besse 20 / 32

Page 94: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? DecPOMDPs Rollout No Comm Résultats

Bases sur les POMDPs décentralisés

S0 S1 S2 S3 ST

O11

O12

O21

O22

O31

O32

b01

b02

b11

b12

b21

b22

b31

b32

b01

b02

b11

b12

b21

b22

b31

b32

A11

A12

A21

A22

A31

A32

AT1

AT2

Agent 1

Agent 2

DAMASwww.damas.ift.ulaval.ca Camille Besse 20 / 32

Page 95: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? DecPOMDPs Rollout No Comm Résultats

Bases sur les POMDPs décentralisés

S0 S1 S2 S3 ST

O11

O12

O21

O22

O31

O32

b01

b02

b11

b12

b21

b22

b31

b32

A11

A12

A21

A22

A31

A32

AT1

AT2

Agent 1

Agent 2

DAMASwww.damas.ift.ulaval.ca Camille Besse 20 / 32

Page 96: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? DecPOMDPs Rollout No Comm Résultats

Algorithme de Rollout décentralisé

b01

b1aa1

b1ab1

b1ba1

b1bb1

b1ca1

b1cb1

V (bTaa1 )

V (bTab1 )

V (bTba1 )

V (bTbb1 )

V (bTca1 )

V (bTcb1 )

H(b1aa1 )

H(b1ab1 )

H(b1ba1 )

H(b1bb1 )

H(b1ca1 )

H(b1cb1 )

DAMASwww.damas.ift.ulaval.ca Camille Besse 21 / 32

Page 97: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? DecPOMDPs Rollout No Comm Résultats

Algorithme de Rollout décentralisé

b01

b1aa1

b1ab1

b1ba1

b1bb1

b1ca1

b1cb1

V (bTaa1 )

V (bTab1 )

V (bTba1 )

V (bTbb1 )

V (bTca1 )

V (bTcb1 )

aa

oaob

H(b1aa1 )

H(b1ab1 )

H(b1ba1 )

H(b1bb1 )

H(b1ca1 )

H(b1cb1 )

DAMASwww.damas.ift.ulaval.ca Camille Besse 21 / 32

Page 98: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? DecPOMDPs Rollout No Comm Résultats

Algorithme de Rollout décentralisé

b01

b1aa1

b1ab1

b1ba1

b1bb1

b1ca1

b1cb1

V (bTaa1 )

V (bTab1 )

V (bTba1 )

V (bTbb1 )

V (bTca1 )

V (bTcb1 )

aa

oaob

aboaob

H(b1aa1 )

H(b1ab1 )

H(b1ba1 )

H(b1bb1 )

H(b1ca1 )

H(b1cb1 )

DAMASwww.damas.ift.ulaval.ca Camille Besse 21 / 32

Page 99: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? DecPOMDPs Rollout No Comm Résultats

Algorithme de Rollout décentralisé

b01

b1aa1

b1ab1

b1ba1

b1bb1

b1ca1

b1cb1

V (bTaa1 )

V (bTab1 )

V (bTba1 )

V (bTbb1 )

V (bTca1 )

V (bTcb1 )

aa

oaob

aboaob

ac oaob

H(b1aa1 )

H(b1ab1 )

H(b1ba1 )

H(b1bb1 )

H(b1ca1 )

H(b1cb1 )

DAMASwww.damas.ift.ulaval.ca Camille Besse 21 / 32

Page 100: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? DecPOMDPs Rollout No Comm Résultats

Algorithme de Rollout décentralisé

b01

b1aa1

b1ab1

b1ba1

b1bb1

b1ca1

b1cb1

V (bTaa1 )

V (bTab1 )

V (bTba1 )

V (bTbb1 )

V (bTca1 )

V (bTcb1 )

aa

oaob

aboaob

ac oaob

H(b1aa1 )

H(b1ab1 )

H(b1ba1 )

H(b1bb1 )

H(b1ca1 )

H(b1cb1 )

DAMASwww.damas.ift.ulaval.ca Camille Besse 21 / 32

Page 101: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? DecPOMDPs Rollout No Comm Résultats

Algorithme de Rollout décentralisé

b01

b1aa1

b1ab1

b1ba1

b1bb1

b1ba1

b1bb1

b1ca1

b1cb1

V (bTaa1 )

V (bTab1 )

V (bTba1 )

V (bTbb1 )

V (bTca1 )

V (bTcb1 )

V (bTba1 )

V (bTbb1 )

aa

oaob

aboaob

aboaob

ac oaob

H(b1aa1 )

H(b1ab1 )

H(b1ba1 )

H(b1bb1 )

H(b1ca1 )

H(b1cb1 )

H(b1ba1 )

H(b1bb1 )

DAMASwww.damas.ift.ulaval.ca Camille Besse 21 / 32

Page 102: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? DecPOMDPs Rollout No Comm Résultats

Algorithme de Rollout décentralisé

b01

b1aa1

b1ab1

b1ba1

b1bb1

b1ba1

b1bb1

b1ca1

b1cb1

V (bTaa1 )

V (bTab1 )

V (bTba1 )

V (bTbb1 )

V (bTca1 )

V (bTcb1 )

V (bTba1 )

V (bTbb1 )

aa

oaob

aboaob

aboaob

acoaob

H(b1aa1 )

H(b1ab1 )

H(b1ba1 )

H(b1bb1 )

H(b1ca1 )

H(b1cb1 )

H(b1ba1 )

H(b1bb1 )

b02

b1aa2

b1ab2

b1ba2

b1bb2

b1ca2

b1cb2

V (bTaa2 )

V (bTab2 )

V (bTba2 )

V (bTbb2 )

V (bTca2 )

V (bTcb2 )

aa

oaob

aboaob

acoaob

H(b1aa1 )

H(b1ab1 )

H(b1ba1 )

H(b1bb1 )

H(b1ca1 )

H(b1cb1 )

DAMASwww.damas.ift.ulaval.ca Camille Besse 21 / 32

Page 103: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? DecPOMDPs Rollout No Comm Résultats

Planification en ligne avec observabilité décentraliséeet sans communication

Observation la plus probable

o?i ← 〈oi ,o?

−i〉où o?

−i = arg maxo−i∈Ω−i

O(〈oi ,o−i〉|a, s′)bti (s′)

bt+1i (s′) =

O(o?i |a, s′)

∑s∈S T (s′|s, a)bt

i (s)∑s,s′∈S O(o?

i |a, s′)T (s′|s, a)bti (s)

(1)

Observation espérée (?)

DAMASwww.damas.ift.ulaval.ca Camille Besse 22 / 32

Page 104: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? DecPOMDPs Rollout No Comm Résultats

Planification en ligne avec observabilité décentraliséeet sans communication

Observation la plus probable

o?i ← 〈oi ,o?

−i〉où o?

−i = arg maxo−i∈Ω−i

O(〈oi ,o−i〉|a, s′)bti (s′)

bt+1i (s′) =

O(o?i |a, s′)

∑s∈S T (s′|s, a)bt

i (s)∑s,s′∈S O(o?

i |a, s′)T (s′|s, a)bti (s)

(1)

Observation espérée (?)

bt+1i (s′) =

∑o−i∈Ω−i

O(o|a, s′)∑

s∈S T (s′|s, a)bti (s)∑

s,s′∈S O(o|a, s′)T (s′|s, a)bti (s)

, o = 〈oi ,o−i〉 (2)

DAMASwww.damas.ift.ulaval.ca Camille Besse 22 / 32

Page 105: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? DecPOMDPs Rollout No Comm Résultats

Planification en ligne avec observabilité décentraliséeet sans communication

Observation la plus probable

bt+1i (s′) = max

o−ibt+1

i (s′) (1)

Observation espérée (?)

bt+1i (s′) =

∑o−i∈Ω−i

O(o|a, s′)∑

s∈S T (s′|s, a)bti (s)∑

s,s′∈S O(o|a, s′)T (s′|s, a)bti (s)

, o = 〈oi ,o−i〉 (2)

DAMASwww.damas.ift.ulaval.ca Camille Besse 22 / 32

Page 106: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? DecPOMDPs Rollout No Comm Résultats

Planification en ligne avec observabilité décentraliséeet sans communication

Observation la plus probable

bt+1i (s′) = max

o−ibt+1

i (s′) (1)

Observation espérée (?)

bt+1i (s′) = E

o−i

bt+1i (s′) (2)

DAMASwww.damas.ift.ulaval.ca Camille Besse 22 / 32

Page 107: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? DecPOMDPs Rollout No Comm Résultats

Résultats expérimentauxProblème du déménageurs

+10 +100 +10

DAMASwww.damas.ift.ulaval.ca Camille Besse 23 / 32

Page 108: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? DecPOMDPs Rollout No Comm Résultats

Résultats expérimentauxProblème du déménageurs

-60

-40

-20

0

20

40

60

5 10 15

AA

R

Horizon

MDPMDP*

IMBDPIMBDP*Rollout

Rollout*

(a) Value vs Horizon

1

10

100

1000

10000

100000

5 10 15

Tim

e pe

r st

ep (

ms)

Horizon

MDP*IMBDP*Rollout*

(b) Time (s) vs Horizon

DAMASwww.damas.ift.ulaval.ca Camille Besse 23 / 32

Page 109: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? En cours Possibles

Plan

4eme partie : Applications des outils développés

Processus Décisionnel de Markov

Partiellement Observable

Multiagent

Quasi-Déterministe + Bornes PAC

PatrouilleDirigeable

DAMASwww.damas.ift.ulaval.ca Camille Besse 24 / 32

Page 110: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? En cours Possibles

Extensions en coursGroupe de patrouille autonome – J.S. Marier

DAMASwww.damas.ift.ulaval.ca Camille Besse 25 / 32

Page 111: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? En cours Possibles

Extensions en coursGroupe de patrouille autonome – J.S. Marier

0.2

1.0

1.5

1.0

0.5

DAMASwww.damas.ift.ulaval.ca Camille Besse 25 / 32

Page 112: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? En cours Possibles

Extensions en coursGroupe de patrouille autonome – J.S. Marier

Les agents :

Sont contraints dans leurs actions par un graphe de localisationsà surveiller aussi souvent que possible ;Observent avec certitude leur position et communiquent celle-ciaux autre agents ;Peuvent communiquer leur état local et leur politique locale avecune fréquence suffisamment élevée ;N’ont pas accès à l’information qu’ils surveillent.

DAMASwww.damas.ift.ulaval.ca Camille Besse 25 / 32

Page 113: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? En cours Possibles

Extensions en coursGroupe de patrouille autonome – J.S. Marier

(c) Wheel

0

(d) Cloverleaf (e) Cuboctahedron

(f) Map-A (g) Map-BDAMASwww.damas.ift.ulaval.ca Camille Besse 25 / 32

Page 114: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? En cours Possibles

Extensions en coursGroupe de patrouille autonome – J.S. Marier

0

100

200

300

400

500

600

700

Wheel Clover Cubo Map-A Map-B

C-AEMS

Reactive

(h) AAR

1,00E-05

1,00E-04

1,00E-03

1,00E-02

1,00E-01

1,00E+00

1,00E+01

1,00E+02

Wheel Clover Cubo Map-A Map-B

C-AEMS

Reactive

(i) Time(s)

DAMASwww.damas.ift.ulaval.ca Camille Besse 25 / 32

Page 115: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? En cours Possibles

Extensions en coursApprentissage de POMDPs continus – P. Dallaire

L’agent :

Doit maintenir une hauteur relative de zero ;Observe sa hauteur en continu additionnée d’un bruit Gaussien(en cloche) ;Choisis un action monter/descendre en continu ;Ne connaît pas sa dynamique.

DAMASwww.damas.ift.ulaval.ca Camille Besse 26 / 32

Page 116: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? En cours Possibles

Extensions en coursApprentissage de POMDPs continus – P. Dallaire

10 20 30 40 50 60 70 80 90 100−2

−1.5

−1

−0.5

0

0.5

1

1.5

2

Hau

teur

(m

)

Nombre de pas d’apprentissage

DAMASwww.damas.ift.ulaval.ca Camille Besse 26 / 32

Page 117: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? En cours Possibles

Extensions possibles

Extension du modèle MaCSP au multiagentReprésentations des interactions agents par contraintes

Étude des modèles d’observabilité bijective avec transitionstochastique

et étude de l’équilibre génération / absorption d’entropie

Extension des modèles d’observabilité bijective aux POMDPscontinusÉtude de la communication pour la synchronisation en ligne desétats de croyance

À quel moment et quoi communiquer ?

DAMASwww.damas.ift.ulaval.ca Camille Besse 27 / 32

Page 118: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? En cours Possibles

Extensions possibles

Extension du modèle MaCSP au multiagentReprésentations des interactions agents par contraintes

Étude des modèles d’observabilité bijective avec transitionstochastique

et étude de l’équilibre génération / absorption d’entropie

Extension des modèles d’observabilité bijective aux POMDPscontinusÉtude de la communication pour la synchronisation en ligne desétats de croyance

À quel moment et quoi communiquer ?

DAMASwww.damas.ift.ulaval.ca Camille Besse 27 / 32

Page 119: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? En cours Possibles

Extensions possibles

Extension du modèle MaCSP au multiagentReprésentations des interactions agents par contraintes

Étude des modèles d’observabilité bijective avec transitionstochastique

et étude de l’équilibre génération / absorption d’entropie

Extension des modèles d’observabilité bijective aux POMDPscontinusÉtude de la communication pour la synchronisation en ligne desétats de croyance

À quel moment et quoi communiquer ?

DAMASwww.damas.ift.ulaval.ca Camille Besse 27 / 32

Page 120: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? En cours Possibles

Extensions possibles

Extension du modèle MaCSP au multiagentReprésentations des interactions agents par contraintes

Étude des modèles d’observabilité bijective avec transitionstochastique

et étude de l’équilibre génération / absorption d’entropie

Extension des modèles d’observabilité bijective aux POMDPscontinusÉtude de la communication pour la synchronisation en ligne desétats de croyance

À quel moment et quoi communiquer ?

DAMASwww.damas.ift.ulaval.ca Camille Besse 27 / 32

Page 121: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Contributions Conclusion

Rappel des Contributions

Processus Décisionnel de Markov

Légende

Modèle Existant

DAMASwww.damas.ift.ulaval.ca Camille Besse 28 / 32

Page 122: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Contributions Conclusion

Rappel des Contributions

Processus Décisionnel de Markov

Problèmes de Satisfaction

de Contraintes Markoviens

Légende

Modèle Existant

Modèle Proposé

DAMASwww.damas.ift.ulaval.ca Camille Besse 28 / 32

Page 123: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Contributions Conclusion

Rappel des Contributions

Processus Décisionnel de Markov

Problèmes de Satisfaction

de Contraintes MarkoviensNEREUS

Légende

Modèle Existant

Modèle Proposé

Problème

DAMASwww.damas.ift.ulaval.ca Camille Besse 28 / 32

Page 124: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Contributions Conclusion

Rappel des Contributions

Processus Décisionnel de Markov

Problèmes de Satisfaction

de Contraintes Markoviens

R-FRTDP

NEREUS

Légende

Modèle Existant

Modèle Proposé

Algorithme

Problème

DAMASwww.damas.ift.ulaval.ca Camille Besse 28 / 32

Page 125: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Contributions Conclusion

Rappel des Contributions

Processus Décisionnel de Markov

Problèmes de Satisfaction

de Contraintes Markoviens

R-FRTDP

+ Bornes

NEREUS

Légende

Modèle Existant

Modèle Proposé

Algorithme

Problème

DAMASwww.damas.ift.ulaval.ca Camille Besse 28 / 32

Page 126: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Contributions Conclusion

Rappel des Contributions

Processus Décisionnel de Markov

Problèmes de Satisfaction

de Contraintes Markoviens

Partiellement Observable

R-FRTDP

+ Bornes

NEREUS

Légende

Modèle Existant

Modèle Proposé

Algorithme

Problème

DAMASwww.damas.ift.ulaval.ca Camille Besse 28 / 32

Page 127: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Contributions Conclusion

Rappel des Contributions

Processus Décisionnel de Markov

Problèmes de Satisfaction

de Contraintes Markoviens

Partiellement Observable

Quasi-Déterministe

R-FRTDP

+ Bornes

+ Bornes PAC

NEREUS

Légende

Modèle Existant

Modèle Proposé

Algorithme

Problème

DAMASwww.damas.ift.ulaval.ca Camille Besse 28 / 32

Page 128: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Contributions Conclusion

Rappel des Contributions

Processus Décisionnel de Markov

Problèmes de Satisfaction

de Contraintes Markoviens

Partiellement Observable

Quasi-Déterministe

Multiagent

R-FRTDP

+ Bornes

+ Bornes PAC

NEREUS

Légende

Modèle Existant

Modèle Proposé

Algorithme

Problème

DAMASwww.damas.ift.ulaval.ca Camille Besse 28 / 32

Page 129: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Contributions Conclusion

Rappel des Contributions

Processus Décisionnel de Markov

Problèmes de Satisfaction

de Contraintes Markoviens

Partiellement Observable

Quasi-Déterministe

Multiagent

Décentralisé

R-FRTDP

+ Bornes

+ Bornes PAC

NEREUS

Légende

Modèle Existant

Modèle Proposé

Algorithme

Problème

DAMASwww.damas.ift.ulaval.ca Camille Besse 28 / 32

Page 130: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Contributions Conclusion

Rappel des Contributions

Processus Décisionnel de Markov

Problèmes de Satisfaction

de Contraintes Markoviens

Partiellement Observable

Quasi-Déterministe

Multiagent

Décentralisé

R-FRTDP

dRollout

+ Bornes

+ Bornes PAC

NEREUS

Déménageurs

Légende

Modèle Existant

Modèle Proposé

Algorithme

Problème

DAMASwww.damas.ift.ulaval.ca Camille Besse 28 / 32

Page 131: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Contributions Conclusion

Rappel des Contributions

Processus Décisionnel de Markov

Problèmes de Satisfaction

de Contraintes Markoviens

Partiellement Observable

Quasi-Déterministe

Multiagent

Décentralisé

R-FRTDP

dRollout

+ Bornes

+ Bornes PAC

NEREUS

PatrouilleDéménageurs

Légende

Modèle Existant

Modèle Proposé

Algorithme

Problème

DAMASwww.damas.ift.ulaval.ca Camille Besse 28 / 32

Page 132: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Contributions Conclusion

Conclusion

3 Abandon des concepts d’intentions, engagements. On neraisonne que sur la valeur.

3 Meilleur précision sur l’optimalité de la planification3 Pouvoir de modélisation très large7 Extrêmement sensible au modèle utilisé7 Extrêmement sensible à la définition de la fonction de

récompense7 Problèmes très difficile à résoudre sans approximations7 Multiplication de modèles spécifiques plus faciles à résoudre

å Prendre en compte la spécificité du problème dans lamodélisation est indispensable

DAMASwww.damas.ift.ulaval.ca Camille Besse 29 / 32

Page 133: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Contributions Conclusion

Conclusion

3 Abandon des concepts d’intentions, engagements. On neraisonne que sur la valeur.

3 Meilleur précision sur l’optimalité de la planification3 Pouvoir de modélisation très large7 Extrêmement sensible au modèle utilisé7 Extrêmement sensible à la définition de la fonction de

récompense7 Problèmes très difficile à résoudre sans approximations7 Multiplication de modèles spécifiques plus faciles à résoudre

å Prendre en compte la spécificité du problème dans lamodélisation est indispensable

DAMASwww.damas.ift.ulaval.ca Camille Besse 29 / 32

Page 134: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Contributions Conclusion

Conclusion

3 Abandon des concepts d’intentions, engagements. On neraisonne que sur la valeur.

3 Meilleur précision sur l’optimalité de la planification3 Pouvoir de modélisation très large7 Extrêmement sensible au modèle utilisé7 Extrêmement sensible à la définition de la fonction de

récompense7 Problèmes très difficile à résoudre sans approximations7 Multiplication de modèles spécifiques plus faciles à résoudre

å Prendre en compte la spécificité du problème dans lamodélisation est indispensable

DAMASwww.damas.ift.ulaval.ca Camille Besse 29 / 32

Page 135: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Contributions Conclusion

Conclusion

3 Abandon des concepts d’intentions, engagements. On neraisonne que sur la valeur.

3 Meilleur précision sur l’optimalité de la planification3 Pouvoir de modélisation très large7 Extrêmement sensible au modèle utilisé7 Extrêmement sensible à la définition de la fonction de

récompense7 Problèmes très difficile à résoudre sans approximations7 Multiplication de modèles spécifiques plus faciles à résoudre

å Prendre en compte la spécificité du problème dans lamodélisation est indispensable

DAMASwww.damas.ift.ulaval.ca Camille Besse 29 / 32

Page 136: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Contributions Conclusion

Conclusion

3 Abandon des concepts d’intentions, engagements. On neraisonne que sur la valeur.

3 Meilleur précision sur l’optimalité de la planification3 Pouvoir de modélisation très large7 Extrêmement sensible au modèle utilisé7 Extrêmement sensible à la définition de la fonction de

récompense7 Problèmes très difficile à résoudre sans approximations7 Multiplication de modèles spécifiques plus faciles à résoudre

å Prendre en compte la spécificité du problème dans lamodélisation est indispensable

DAMASwww.damas.ift.ulaval.ca Camille Besse 29 / 32

Page 137: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Contributions Conclusion

Conclusion

3 Abandon des concepts d’intentions, engagements. On neraisonne que sur la valeur.

3 Meilleur précision sur l’optimalité de la planification3 Pouvoir de modélisation très large7 Extrêmement sensible au modèle utilisé7 Extrêmement sensible à la définition de la fonction de

récompense7 Problèmes très difficile à résoudre sans approximations7 Multiplication de modèles spécifiques plus faciles à résoudre

å Prendre en compte la spécificité du problème dans lamodélisation est indispensable

DAMASwww.damas.ift.ulaval.ca Camille Besse 29 / 32

Page 138: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Contributions Conclusion

Conclusion

3 Abandon des concepts d’intentions, engagements. On neraisonne que sur la valeur.

3 Meilleur précision sur l’optimalité de la planification3 Pouvoir de modélisation très large7 Extrêmement sensible au modèle utilisé7 Extrêmement sensible à la définition de la fonction de

récompense7 Problèmes très difficile à résoudre sans approximations7 Multiplication de modèles spécifiques plus faciles à résoudre

å Prendre en compte la spécificité du problème dans lamodélisation est indispensable

DAMASwww.damas.ift.ulaval.ca Camille Besse 29 / 32

Page 139: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Contributions Conclusion

Conclusion

3 Abandon des concepts d’intentions, engagements. On neraisonne que sur la valeur.

3 Meilleur précision sur l’optimalité de la planification3 Pouvoir de modélisation très large7 Extrêmement sensible au modèle utilisé7 Extrêmement sensible à la définition de la fonction de

récompense7 Problèmes très difficile à résoudre sans approximations7 Multiplication de modèles spécifiques plus faciles à résoudre

å Prendre en compte la spécificité du problème dans lamodélisation est indispensable

DAMASwww.damas.ift.ulaval.ca Camille Besse 29 / 32

Page 140: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ?

Questions

Merci de votre attention

? ? ?

DAMASwww.damas.ift.ulaval.ca Camille Besse 30 / 32

Page 141: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ?

BibliographyArticles comme premier auteur

Camille Besse and Brahim Chaib-draa.

An Efficient Model for Dynamic and Constrained Resource Allocation Problems.In Proc. of the 2nd Inter. Workshop on Constraint Satisfaction Techniques for Planning and Scheduling Problems, September 2007.

Camille Besse and Brahim Chaib-draa.

Parallel Rollout for Online Solution of Dec-POMDP.In Proc. of 21st Inter. FLAIRS Conf., May 2008.

Camille Besse and Brahim Chaib-draa.

Quasi-Deterministic Partially Observable Markov Decision Processes.In Proc. of 16th Inter. Conf. On Neural Information Processing, pages 237–246, December 2009.

Camille Besse and Brahim Chaib-draa.

Quasi-Deterministic POMDPs and Dec-POMDPs.In Proc. of 9th Inter. Conf. On Autonomous Agents and MultiAgent Systems (Extended Abstract), May 2010.

Camille Besse and Brahim Chaib-draa.

Quasi-Deterministic POMDPs and Dec-POMDPs.In Proc. of 5th Inter. Workshop On Multiagent Sequential Decision Making in Uncertain Domains, May 2010.

Camille Besse, Pierrick Plamondon, and Brahim Chaib-draa.

R-FRTDP. A Real-Time DP Algorithm with Tight Bounds for a Stochastic Resource Allocation Problem.In Proc. of the 20th Canadian Conf. on Artificial Intelligence, May 2007.

DAMASwww.damas.ift.ulaval.ca Camille Besse 31 / 32

Page 142: Thesis : Contraints and Observability In Markov Decision Processes

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ?

BibliographyArticles comme second auteur

Patrick Dallaire, Camille Besse, and Brahim Chaib-draa.

Learning Gaussian Process Models from Uncertain Data.In Proc. of 16th Inter. Conf. On Neural Information Processing, pages 433–440, December 2009.

Patrick Dallaire, Camille Besse, and Brahim Chaib-draa.

Approximate Inference of Latent Functions from Uncertain Data with Gaussian Processes.Neurocomputing, page To appear, 201X.

Patrick Dallaire, Camille Besse, Stéphane Ross, and Brahim Chaib-draa.

Bayesian Reinforcement Learning in POMDPs with Gaussian Processes.In Proc. of the Inter. Conf. on Intelligent Robots and Systems, 2009.

Jean-Samuel Marier, Camille Besse, and Brahim Chaib-draa.

A Markov Model for Multiagent Patrolling in Continuous Time.In Proc. of 16th Inter. Conf. On Neural Information Processing, pages 648–656, December 2009.

Jean-Samuel Marier, Camille Besse, and Brahim Chaib-draa.

Solving the Continuous Time Multiagent Patrol Problem.In Proc. of 2010 IEEE Inter. Conf. on Robotics and Automation, 2010.

DAMASwww.damas.ift.ulaval.ca Camille Besse 32 / 32