language models as representations for weakly-supervised nlp tasks (conll2011)
TRANSCRIPT
Language Models as Representa1ons for
Weakly-‐Supervised NLP Tasks Fei Huang, Alexander Yates, Arun Ahuja
and Doug Downey CoNLL2011 紹介者 : 松田
2011/12/13 1
Introduc1on • NLPのタスクの多くは分類問題に帰着できる • 分類に用いる素性ベクトルの作り方に性能が大きく依存する – 人手で注意深くつくられた素性が強い
• しかし、(特にDomain Adapta1onのような状況において)次のような問題が性能を制限している – スパース性
• 訓練データに出てきていない語に対応する能力 – 多義性
• ドメインに依存して語義の分布がかわる(POSの分布もかわる)ような語に対応する能力
2011/12/13 2
Introduc1on • この問題に対処するために、素性表現に着目
– unseen exampleに対する汎化性能を上げるような素性表現 – distribu1onal hypothesis : 意味の似た語はコンテキストも似ている
• 研究のゴール – コンテキストを考慮した確率的言語モデルに基づく素性表現を開発
– 素性表現:語(token / type)から実数値ベクトルへのマッピング • 言語モデルから生成 → コンテキストを考慮したベクトルを生成できる • コンテキストから生成 → 多義性やスパース性に対して頑健になる
2011/12/13 3
Previous Work • 素性表現についての研究は主に四つに分類される
1. 文書レベルでの共起指標に基づくVector Space Model 2. Vector Space Modelに対する次元削減 3. 分布類似度に基づくクラスタリング 4. 言語モデルに基づく素性表現
• PL-‐MRFという新しいrepresenta1onを提案し、 POS Taggerにおいてstate-‐of-‐the-‐artな性能を達成したところがcontribu1on
• Domain Adapta1onの研究としては – targetドメインのラベルつきデータがある設定 – targetドメインのラベルつきデータが無い設定 – 本研究は後者
2011/12/13 4
Representa1ons
• A representa1on is a set of features that describe instances for a classifier
• 形式的な定義
– 事例集合から素性空間への写像を行う関数
– R(x) : Yという素性空間( such as Rd ) の中の一つのベクトル
2011/12/13 5
Representa1ons(具体例)
伝統的な素性表現
trigram言語モデル
グラフィカルモデル
クラスタリングに 基づく表現
提案手法
*-‐TOKEN-‐R : ある語の”特定の”出現事例に対する素性表現(Viterbi等でデコードした値) *-‐TYPE-‐R : 語それ自体に対する素性表現(コーパス中で一定) 2011/12/13 6
フレームワーク
大量の unlabeled data Representa1on
1.学習
解くtaskの labeled data
素性 ベクトル 2. 素性ベクトル作成
解くtaskの 分類器
3. 学習
2011/12/13 7
Unsupervised HMMs (本当は有向)
• それぞれの語が K 状態のうちのいずれかの状態を持つ、というモデル • EMアルゴリズムによってパラメータ P(xi|yi), P(yi|yi-‐1) の推定が可能 • Viterbiアルゴリズムによって状態のデコードが可能
• 高村さんの本に書いてあるHMMは Supervised-‐HMMs なので注意 2011/12/13 8
I-‐HMM(Independent-‐HMM)
M個のHMM(レイヤー)を(初期値をランダムに変えて)独立に構築 それぞれのノードが K 状態のいずれかの値をもっている(HMMと同じ)
M
本当は有向
2011/12/13 9
I-‐HMMの問題点
• それぞれのHMMが独立に訓練されており、文の別の側面を(異なるレイヤで)捉えるというモデルになっていない
• それぞれのレイヤーが語の異なる側面をとらえるようにしたい – POS, gender, number, 格(case), 人称, テンス, etc..
• レイヤー間のインタラクションの導入
2011/12/13 10
La`ce Structured MRF
M
i
j
2011/12/13 11
La`ce Structured MRF
観測された語に関するパラメタ
P(x) =
極大クリークを因子とした対数線形モデルで表現(PRML 8.3に類似例あり)
となりあった二つのノードに関する遷移パラメタ
となりあった二つのレイヤに関するパラメタ
ただし、O(2M)個のパラメータがあるのでExactな推論/学習はほぼ不可能
パラメータとしては、例えば・・・
2011/12/13 12
Par1al La`ce MRF
いくつかのエッジを削除する。文の前半では(odd – even), 文の後半では (even – odd) の間 (あまり納得できるような正当化はなされていない)
M
odd
odd
even
2011/12/13 13
Par1al La`ce MRF • エッジを削除することで効率的計算が可能になる – 動的計画法, メッセージパッシング – tree-‐width(木幅:グラフがどれだけ木に近いかを表す指標)が 2
• 木幅が 1 であれば木、低いほど効率的な計算が可能 – O(K4MN)
• K : ノードの状態数, M:レイヤー数, N : 文長 • (論文には書いていないが)モデルの柔軟さをできるだけ損なわずに木幅を低くして計算しやすくするためのエッジ削除法なのではないか
2011/12/13 14
Contras1ve Es1ma1on
• (Smith and Eisner, 2005) • 対数線形モデルをUnlabeled Dataから学習する一般的な枠組み – Contras1ve Divergence学習, 擬似負例からの学習
N(x) : Neighborhood func1on(本論文では、隣接する二単語を入れ替えたもの)
2011/12/13 15
red leaves don’t hide blue jays
? ? ? ? ? ?
p
p
leaves red don’t hide blue jays
? ? ? ? ? ?
red don’t leaves hide blue jays
? ? ? ? ? ?
red leaves hide don’t blue jays
? ? ? ? ? ?
red leaves don’t blue hide jays
? ? ? ? ? ?
red leaves don’t hide jays blue
? ? ? ? ? ?
red leaves don’t hide blue jays ? ? ? ? ? ?
Smith and Eisner, ACL2005発表スライドより引用 2011/12/13 16
その他学習における工夫
• 目的関数はnon-‐convexなので勾配法で局所解を求めることになる
• For tractability:一層づつ順番に訓練する – 層 i に「関係する」パラメータを θi, その他を θ¬i – まず θ¬0 をすべてゼロに固定し、 θ0 を最適化 – 収束したら固定して、次の層にとりかかる – 一層あたり100iter以下で収束するらしい
2011/12/13 17
Domain Adapta1on for a POS Tagger
MEDLINE 561 sentence
Penn Treebank Penn Treebank +MEDLINE
71306 sentence
labeled training data for POS Tagger
unlabeled training data for train LMs
labeled test data
Newspaper Domain(WSJ) => Biomedical Domain(MEDLINE) へのドメイン適応
POS Taggerの学習モデルはCRF 2011/12/13 18
Domain Adapta1on for a POS Tagger
8 layer, 80 state
20 layer, binary
trigram on Web1T
bioドメインの ラベルつきデータ併用
可能な状態数 I-‐HMM : 1015 , PL-‐MRF : 106
PL-‐MRFはOOV-‐errorを大幅に下げることに成功している 2011/12/13 19
Domain Adapta1on for a POS Tagger
多義語においては、グラフィカルモデルに基づく言語モデルの効果が大きい おそらくViterbiデコードを行うときにコンテキストを考慮に入れることができるため
スパースな語においてもグラフィカルモデルの効果は(そうでない語と比較して)大きい。
多義語の判定は 人手で行った。 unlabeledデータ 中に5回以下しか 出現しない語を sparse語、 50回以上出現 する語を non-‐sparse語 として調査。
2011/12/13 20
Informa1on Extrac1on
• set-‐expansion task – 種語が幾つか与えられた状況で、コーパス中に出現する同じ意味カテゴリの語を獲得するタスク
– distribu1onal hypothesisに基づいた手法 • 同じ意味カテゴリに属する語はそのコンテキストにあらわれる語の分布も似ているだろう、という仮定
– 正例の一部だけが与えられているという意味で “weakly-‐supervised” である
2011/12/13 21
Informa1on Extrac1on
• 手法 1. コーパス、シードの集合が与えられている 2. それぞれの意味カテゴリCに対して
• すべての候補フレーズP が、カテゴリCに属する尤もらしさで降順に並べる
– 各カテゴリに対して、シードとして語を幾つか与えてその平均値ベクトルをCのprototype vectorとする
– それぞれのフレーズPに対して、prototype vectorとの距離をはかり、近い順にカテゴリCに属すると判定
• 距離 : KL, JS疑距離, cosine, ユークリッド, L1の単純平均 – チューニングしても効果はなかったらしい
2011/12/13 22
Informa1on Extrac1on • 実験データ
– Webから集めた10万文 – Lexアルゴリズム(Downey et al., 2007)を用いて複数語からなる固有名詞は一語として認識できるように結合
– Wikipediaの “listOf” ページから正解データを得た(16カテゴリ、432事例)
• 実験設定 – seed事例を5個づつ、という実験をseedをランダムに変えながら5回
– 評価はAUC metric. • Recall-‐Precision 曲線の下側の面積(大きいほど良い)
2011/12/13 23
Informa1on Extrac1on
あるカテゴリに90%以上のインスタンスが属さない場合は多義 (人手で推定)、コーパス中に30回以下の場合はスパース、と定義
ランダムベースラインよりは 良くなったものの、提案手法(LATTICE-‐TYPE-‐R)の効果はみえない
2011/12/13 24
IEで性能が振るわない理由 • 分類する「対象」の違いが疑わしい
– POSタギング: “token”(インスタンス)の分類 – IE : “type”(語そのもの) の分類
• Representa1onのモデル – PL-‐MRFはHMMに比べてtransi1onのパラメータに依存が大きいのではないか
– 訓練に用いているContras1ve Es1ma1onもtransi1onパラメータに対する依存を強くする効果がありそうだ
• 語が与えられた状態でのモデルの事後分布 – エントロピー : PL-‐MRF : 9.95 bits, HMM : 2.74bits – PL-‐MRFは語が決まってもモデルの曖昧性が高い
• 結論 : よく分からないので更なる実験が必要
2011/12/13 25
Conclusion • まとめ
– 多義性やスパースな状況に対応できるような素性表現 – 本論文で提案したグラフィカルモデルに基づくrepresenta1onはPOS TaggerのDomain Adapta1onで state-‐of-‐the-‐art.
– IEにおける多義性の扱い等は今後の課題 • 以下、個人的感想
– (PL-‐)MRFで層ごとに”異なる側面”が学習されるメカニズムが理解できなかった
– そもそも IE は問題設定としてどうなのだ • というかこれは IE なのだろうか, 多義性を考慮するtype分類とは
– Token-‐based tasks(POS Tagger)と Type-‐based tasks(IE)で異なった素性表現が有効であるというのは割と納得できる
– Contras1ve Es1ma1onについては、本論文ではさらっとしか触れていないが、応用範囲はかなり広いようだ
2011/12/13 26