decision generalisation from game logs in no limit

18
Decision Generalisation from Game Logs in No Limit Texas Hold’em (2013, IJCAI) Jonathan Rubin and IanWatson 東東東東東東東東東東東東東東東東東東東 東東 東東東東東 東東東東 東東東東東東東

Upload: kengo009

Post on 27-Jun-2015

66 views

Category:

Science


2 download

TRANSCRIPT

Page 1: Decision generalisation from game logs in no limit

Decision Generalisation from Game Logs in No Limit Texas Hold’em (2013, IJCAI)

Jonathan Rubin and IanWatson

東京大学工学系研究科システム創成学専攻大橋・鳥海研究室

梶原健吾とりらぼ輪読会

Page 2: Decision generalisation from game logs in no limit

背景• 2008 年,リミット・テキサスホールデムで 人間 vs ポーカー AI(Polaris) Polaris⇒ の勝利

• 研究対象:リミット⇒ノーリミット– ノーリミットはベット額の上限無し– AAAI or IJCAI で毎年ノーリミットのエージェン

ト大会が開催

Page 3: Decision generalisation from game logs in no limit

背景• ノーリミットでは勝てない– リミット:取りうる行動が fold,call,raise のみ– ノーリミット:レイズ額を指定可能⇒行動の

多様性

• 本論文は 2012 年の大会にて 5 位に入賞したエージェントに用いた理論の紹介である.

Page 4: Decision generalisation from game logs in no limit

本エージェントの主な特徴• Case-base の学習– 過去に行われたゲームから事例の抽出

• 行動の抽象化 (action abstraction)– 無数に存在するベット額⇒離散的に捉える

• 抽象⇔具体 の変換 (translation)– 実際のベット⇒ Abstract action

Page 5: Decision generalisation from game logs in no limit

Case-base の構築• 過去のゲームから特徴を抽出

Page 6: Decision generalisation from game logs in no limit

Action Abstraction の説明• ノーリミット:レイズ額が自由 →そのままだと case-base が膨大

• 行動を 10 種類に抽象化– フォールド– コール– 額の異なるレイズ (8 種類 )• ポットの 1/4, 1/2, 3/4, 1, 2, 5, 10 倍とオールイン

Page 7: Decision generalisation from game logs in no limit

Translation の説明• 実際のベットから Abstract action へ変換

• 2 種類の変換方法– ハードトランスレーション– ソフトトランスレーション

Page 8: Decision generalisation from game logs in no limit

ハードトランスレーション• 同じベット⇒必ず同じ Abstract action に変換– ポットの 3 倍のベット⇒ポットの 2 倍のベット

へ変換

• 相手にベット額をコントロールされ得る

      b: 実際のベット      a, c : Abstract action (a < b < c)

Page 9: Decision generalisation from game logs in no limit

ソフトトランスレーション• 確率的に Abstrac t action に変換– ポットの 3 倍のベット  ⇒ 4/7 の確率でポットの 2 倍に変換     3/7 の確率でポットの 5 倍に変換

Page 10: Decision generalisation from game logs in no limit

各 Translation の用途• Case-base の構築時– ハードトランスレーションを使用– 学習用のデータ⇒操られる心配無し

• 実際の対戦時– ソフトトランスレーションを使用– 観測する行動を確率的に変化させる

Page 11: Decision generalisation from game logs in no limit

状況の類似度• 現状は case-base のどの case に近いか

• Hand Strength Bucket, Stack Commitment, Betting Sequence, Board Texture, それぞれの類似度の合計で評価

Page 12: Decision generalisation from game logs in no limit

Hand Strength Bucket の類似度• ハンドの強さを [1, T] で表し,その差分で

類似度を表す

– f1,f2 :ハンドの強さ– k :定数– T=50

Page 13: Decision generalisation from game logs in no limit

Stack Commitment の類似度• Stack Commitment を [1, N] で表し,その差

分で類似度を表す

– f1, f2 : Stack Commitment– N=4

Page 14: Decision generalisation from game logs in no limit

Betting Sequence の類似度• Fold, call, raise の 3 種類の並びが同じもの• 8 つのレイズを 1,2,…,8 で表し,類似度を計

– S1,i ,S2,j :各レイズを表す自然数 (1~8)– α :定数

Page 15: Decision generalisation from game logs in no limit

Board Texture の類似度• 説明無し

Page 16: Decision generalisation from game logs in no limit

行動の決定• Case-base Abstract action⇒– ( 詳しい手法は説明無し… )

• Abstract action⇒ 実際のベット– 誤差項を付け加えてベット

Page 17: Decision generalisation from game logs in no limit

結論• 複雑な不完全情報ゲームにおいて扱う

データを抽象化  ⇒過去のプレイを元にプレイすることが可能

• ポーカーの AI の大会 (ACPC) にて, 5 位入賞

Page 18: Decision generalisation from game logs in no limit

感想• トランスレーションと類似度の考え方は人狼にも

応用出来るかも?– 人狼の場合は確率的にプレイヤーを選択しても,論理

だった嘘はつけない.嘘のシナリオを確率的に選択するとか.

• プレイヤー個人の性質を無視していいのか– 初めてオールインした相手と,毎回オールインしてる相

手を同じ扱い?

• 5 位入賞…と言いつつ参加者 11 人.微妙な