emnlp2011

15
EMNLP 2011 を読むかい Improved Transliteration Mining Using Graph Reinforcement (D11-1128) 読んだ人 : @machy http://aclweb.org/anthology-new/D/D11/D11-1128.pdf Ali El-Kahky, Kareem Darwish, Ahmed Saad Aldein, Mohamed Adb El-Wahab, Ahmed Hefny, Waleed Ammar

Upload: keigo-machinaga

Post on 14-Jun-2015

3.520 views

Category:

Education


0 download

TRANSCRIPT

Page 1: emnlp2011

EMNLP 2011を読むかい Improved Transliteration Mining Using Graph Reinforcement (D11-1128)

読んだ人 : @machy

http://aclweb.org/anthology-new/D/D11/D11-1128.pdf

Ali El-Kahky, Kareem Darwish, Ahmed Saad Aldein, Mohamed Adb El-Wahab, Ahmed Hefny, Waleed Ammar

Page 2: emnlp2011

紹介する論文

• microsoftのインターン…ではなさそう?

Page 3: emnlp2011

transliterationとは • 翻字、音訳

George Wasington ジョージ・ワシントン

potato ポテト

じゃがいも

Page 4: emnlp2011

transliteration mining とは 対訳、または比較可能な文書対から、 transliterationになっている部分を 抽出すること

http://aclweb.org/anthology/W/W10/W10-2403.pdf

ハイライト部分がtransliteration 日本語で言うと「オックスフォード大学」の「オックスフォード」は”Oxford”の transliterationだが、「大学」は”University”のtransliterationではない。

Page 5: emnlp2011

transliteration miningの目的 • 機械翻訳の改善に使う •  cross language検索に使う

(ふつうの検索でも必要ですよね) (でも、語訳と音訳を区別する必要はあるんだろうか)

Page 6: emnlp2011

NEWS2010 Transliteration Shared Task • NEWS = Named Entity Workshop Shared task

ACLのworkshop. transliteration shared taskはその shared taskの1つとして行われた。 前述のように、Wikipediaのタイトル対から抽出を行うタスク。

英語 中国語

英語 ヒンディー語

英語 タミル語

英語 ロシア語

英語 アラビア語

タスクの言語対

データ サイズ 説明

シード(学習データ)

1000件~ ペアになった名前データ

Wikipedia-Inter-Link

言語対によって異なる

ノイジーである

テストセット 1000件~ Wikipedia-Inter-Linkのサブセット

Page 7: emnlp2011

NEWS2010 Transliteration Shared Task • データの例

http://aclweb.org/anthology/W/W10/W10-2403.pdf

Page 8: emnlp2011

ベースラインモデル •  Using Word Dependent Transition Models in HMM based Word

Alighment for Statistical Machine Translation Xiaodong He, ACL-07 2nd SMT workshop が参考文献として挙げられているが、この文献では主に機械翻訳のアライメントの改善について述べられているようにみえた。これと同じでHMMベースだよ、という程度の参考か。

source language側のcharacter sequence長は1~3に限定されている。 実際には全列挙せず、スコアがよい中間候補から順番に展開していく方法が 示されている。

P(Oxford|オックスフォード) = max( P(O|オ) * P(x|ックス) * P(fo|フォー) * P(rd|ド), P(Ox|オ) * P(f|ックス) * P(o|フォー) * P(rd|ド), P(O|オッ) * P(x|クス) * P(fo|フォー) * P(rd|ド), P(Ox|オッ) * P(f|クス) * P(fo|フォー) * P(rd|ド), ...

) ※アラビア語が入力できないので、日本語でイメージをお伝えしています

Page 9: emnlp2011

transliteration miningの流れ • 入力ペア

“University of Oxford”, “オックスフォード 大学”

※アラビア語が入力できないので、日本語でイメージをお伝えしています

• 単語ペアを作り、スコアを求めて閾値で切る (スコアは対数尤度をターゲット文字長で正規化する) score(“Oxford”, “オックスフォード”) = -0.123 ---- score(“University”, “オックスフォード”) = -1.567 score(“of”, “オックスフォード”) = -2.100 score(“University”, “大学”) = -2.321 score(“Oxford”, “大学”) = -2.400 score(“of”, “大学”) = -2.543

Page 10: emnlp2011

紹介文献の主張

• 2つの問題 • 多くのあるはずのcharacter sequenceのマッピングが学習データで観測されない。特に少量の学習データしか利用できないとき。これはrecallを下げる。

• 学習されたマッピングの確率が正確でないこと。これは学習データで正確に推定するのに十分な回数が観測されないことがあるから。これはprecisionを下げる。

Page 11: emnlp2011

graph reinforcement (1/2) • 強化学習とは関係ないっぽい •  2部グラフを辿って、部分文字列のマッピングを拡張する

Page 12: emnlp2011

graph reinforcement (2/2) • 与える確率は次のように計算している

グラフのあるルートを辿る確率

グラフのあるルートを辿らない確率

グラフのどのルートも辿らない確率

グラフのどれかのルートを辿る確率

sはsource language(外国語)の部分文字列で、 tはtarget language(英語)の部分文字列 m(s|t), m(t|s)の初期値は条件付き確率p(s|t), p(t|s)

Page 13: emnlp2011

Link Reweighting graph reinforcementは複数回適用できるが、 繰り返す毎に、誤ったマッピングがどんどん入ってくるので、 その効果を抑制する。 その繰り返し毎に、次の正規化を行う

sはsource language(外国語)の部分文字列で、 tはtarget language(英語)の部分文字列 graph reinforcementで追加されるのはm(t|s)の パスのはずなので、sとtが逆? でもそうすると条件付き確率の意味をなさなくなる?

Page 14: emnlp2011

評価結果 graph reinforcement

link reweightingなし link reweightingあり

graph reinforcementを繰り返すことで、F値が上昇している。 link reweightingありはF値が収束するので扱いやすい。

Page 15: emnlp2011

評価結果

•  shared taskのbestの結果と比較しても良い結果 • 提案手法でgraph reinforcementの繰り返し回数は10回