emnlp2011

EMNLP 2011を読むかい Improved Transliteration Mining Using Graph Reinforcement (D11-1128)

読んだ人 : @machy

http://aclweb.org/anthology-new/D/D11/D11-1128.pdf

Ali El-Kahky, Kareem Darwish, Ahmed Saad Aldein, Mohamed Adb El-Wahab, Ahmed Hefny, Waleed Ammar

紹介する論文

• microsoftのインターン…ではなさそう？

transliterationとは • 翻字、音訳

George Wasington ジョージ・ワシントン

potato ポテト

じゃがいも

transliteration mining とは対訳、または比較可能な文書対から、 transliterationになっている部分を抽出すること

http://aclweb.org/anthology/W/W10/W10-2403.pdf

ハイライト部分がtransliteration 日本語で言うと「オックスフォード大学」の「オックスフォード」は”Oxford”の transliterationだが、「大学」は”University”のtransliterationではない。

transliteration miningの目的 • 機械翻訳の改善に使う •  cross language検索に使う

(ふつうの検索でも必要ですよね) (でも、語訳と音訳を区別する必要はあるんだろうか)

NEWS2010 Transliteration Shared Task • NEWS = Named Entity Workshop Shared task

ACLのworkshop. transliteration shared taskはその shared taskの1つとして行われた。前述のように、Wikipediaのタイトル対から抽出を行うタスク。

英語中国語

英語ヒンディー語

英語タミル語

英語ロシア語

英語アラビア語

タスクの言語対

データサイズ説明

シード（学習データ）

１０００件~ ペアになった名前データ

Wikipedia-Inter-Link

言語対によって異なる

ノイジーである

テストセット１０００件~ Wikipedia-Inter-Linkのサブセット

NEWS2010 Transliteration Shared Task • データの例

http://aclweb.org/anthology/W/W10/W10-2403.pdf

transliteration miningの流れ • 入力ペア

“University of Oxford”, “オックスフォード大学”

※アラビア語が入力できないので、日本語でイメージをお伝えしています

• 単語ペアを作り、スコアを求めて閾値で切る（スコアは対数尤度をターゲット文字長で正規化する） score(“Oxford”, “オックスフォード”) = -0.123 ---- score(“University”, “オックスフォード”) = -1.567 score(“of”, “オックスフォード”) = -2.100 score(“University”, “大学”) = -2.321 score(“Oxford”, “大学”) = -2.400 score(“of”, “大学”) = -2.543

紹介文献の主張

• ２つの問題 • 多くのあるはずのcharacter sequenceのマッピングが学習データで観測されない。特に少量の学習データしか利用できないとき。これはrecallを下げる。

• 学習されたマッピングの確率が正確でないこと。これは学習データで正確に推定するのに十分な回数が観測されないことがあるから。これはprecisionを下げる。

graph reinforcement (1/2) • 強化学習とは関係ないっぽい •  2部グラフを辿って、部分文字列のマッピングを拡張する

graph reinforcement (2/2) • 与える確率は次のように計算している

グラフのあるルートを辿る確率

グラフのあるルートを辿らない確率

グラフのどのルートも辿らない確率

グラフのどれかのルートを辿る確率

sはsource language(外国語)の部分文字列で、 tはtarget language(英語)の部分文字列 m(s|t), m(t|s)の初期値は条件付き確率p(s|t), p(t|s)

Link Reweighting graph reinforcementは複数回適用できるが、繰り返す毎に、誤ったマッピングがどんどん入ってくるので、その効果を抑制する。その繰り返し毎に、次の正規化を行う

sはsource language(外国語)の部分文字列で、 tはtarget language(英語)の部分文字列 graph reinforcementで追加されるのはm(t|s)のパスのはずなので、sとtが逆？でもそうすると条件付き確率の意味をなさなくなる？

評価結果 graph reinforcement

link reweightingなし link reweightingあり

graph reinforcementを繰り返すことで、F値が上昇している。 link reweightingありはF値が収束するので扱いやすい。

評価結果

•  shared taskのbestの結果と比較しても良い結果 • 提案手法でgraph reinforcementの繰り返し回数は10回

emnlp2011

Education

ahmed hefny

based word alighment

ahmed saad aldein

nd smt workshophmmp

mohamed adb

kareem darwish

graphreinforcement d11

waleed ammarhttp