topical keyphrase extraction from twitter
DESCRIPTION
社内輪読会で紹介した「Topical Keyphrase Extraction from Twitter」の資料TRANSCRIPT
![Page 1: Topical keyphrase extraction from twitter](https://reader033.vdocument.in/reader033/viewer/2022052906/558c9b22d8b42a63018b46cb/html5/thumbnails/1.jpg)
Topical Keyphrase Extraction from TwitterWayne Xin Zhao, Jing Jiangm Jing He, Yang Song, Palakorn Achananuparp, Ee-Peng Lim, Xiaoming Li
2014/05/07 id:skozawa
論文輪読会
![Page 2: Topical keyphrase extraction from twitter](https://reader033.vdocument.in/reader033/viewer/2022052906/558c9b22d8b42a63018b46cb/html5/thumbnails/2.jpg)
概要
● Tweetの要約○ キーフレーズは文書のトピックを要約に有用
● Tweetからキーフレーズを抽出する最初の研究
● トピックのキーフレーズ抽出○ Food: chicken rice, ice cream, fried chicken○ Sports: manchester united, tiger woods, grand slam
![Page 3: Topical keyphrase extraction from twitter](https://reader033.vdocument.in/reader033/viewer/2022052906/558c9b22d8b42a63018b46cb/html5/thumbnails/3.jpg)
背景
● ツイッターの2つの特徴○ 1) 短い、有用な情報を含んでいるとは限らない○ 2) 多様性がある
● 従来手法は各文書からトピックのキーフレーズを抽出○ 1ツイートからのキーフレーズ抽出は意味がない○ ツイート全体からではキーフレーズを正しく抽出できない
● トピックごとにキーフレーズを抽出
![Page 4: Topical keyphrase extraction from twitter](https://reader033.vdocument.in/reader033/viewer/2022052906/558c9b22d8b42a63018b46cb/html5/thumbnails/4.jpg)
アプローチ
● グラフベースの教師なしキーフレーズ抽出○ Liu et al. (2010) がベース
1) トピックの抽出
2) キーフレーズの抽出
● 提案点○ Context-sensitive Topical PageRank○ relevance、interestingnessを考慮したスコアリング
コンテキスト(トピック)を考慮することでキーフレーズ抽出の性能を向上
![Page 5: Topical keyphrase extraction from twitter](https://reader033.vdocument.in/reader033/viewer/2022052906/558c9b22d8b42a63018b46cb/html5/thumbnails/5.jpg)
Automatic Keyphrase Extraction via Topic Decomposition, Liu et al. (2010)
1. LDAによるトピック抽出2. Topical PageRankによるキーフレーズ抽出
Automatic Keyphrase Extraction via Topic Decomposition, Liu et al. (2010)
![Page 6: Topical keyphrase extraction from twitter](https://reader033.vdocument.in/reader033/viewer/2022052906/558c9b22d8b42a63018b46cb/html5/thumbnails/6.jpg)
Automatic Keyphrase Extraction via Topic Decomposition, Liu et al. (2010)
1. LDAによるトピック抽出2. Topical PageRankによるキーフレーズ抽出
Automatic Keyphrase Extraction via Topic Decomposition, Liu et al. (2010)
![Page 7: Topical keyphrase extraction from twitter](https://reader033.vdocument.in/reader033/viewer/2022052906/558c9b22d8b42a63018b46cb/html5/thumbnails/7.jpg)
トピック
ricebread
chickeniceeat
TopicATopicC
game
football
matchwin
arsenal
hot
rain
air
sun
morningsong
bieber
musicvideo
youtube
TopicB TopicD
iphonesocial
twittergoogle
media
TopicE
● トピック=単語の集合
![Page 8: Topical keyphrase extraction from twitter](https://reader033.vdocument.in/reader033/viewer/2022052906/558c9b22d8b42a63018b46cb/html5/thumbnails/8.jpg)
LDAによるトピック抽出
● LDA (Latent Dirichlet Allocation)● 文書集合からトピックを抽出
○ トピック数Nは事前に与える● トピックを抽出することにより、文書のトピックを推定も可能
Automatic Keyphrase Extraction via Topic Decomposition, Liu et al. (2010)
![Page 9: Topical keyphrase extraction from twitter](https://reader033.vdocument.in/reader033/viewer/2022052906/558c9b22d8b42a63018b46cb/html5/thumbnails/9.jpg)
Automatic Keyphrase Extraction via Topic Decomposition, Liu et al. (2010)
1. LDAによるトピック抽出2. Topical PageRankによるキーフレーズ抽出
Automatic Keyphrase Extraction via Topic Decomposition, Liu et al. (2010)
![Page 10: Topical keyphrase extraction from twitter](https://reader033.vdocument.in/reader033/viewer/2022052906/558c9b22d8b42a63018b46cb/html5/thumbnails/10.jpg)
Topical PageRankによるキーフレーズ抽出
1. 単語グラフの生成2. Topical PageRankによるスコア計算3. スコアを用いたキーフレーズ抽出4. 文書のキーフレーズ取得
Automatic Keyphrase Extraction via Topic Decomposition, Liu et al. (2010)
![Page 11: Topical keyphrase extraction from twitter](https://reader033.vdocument.in/reader033/viewer/2022052906/558c9b22d8b42a63018b46cb/html5/thumbnails/11.jpg)
単語グラフの生成
● 文書中の単語の共起性を利用して構築○ ウィンドウ幅Wの共起数○ 有向、無向かは性能には影響しない
We construct a word graph according to word co-occurrences within the given document.W=5の場合
We
construct
word
graph
co-ocurrences
document
Automatic Keyphrase Extraction via Topic Decomposition, Liu et al. (2010)
名詞と動詞のみでグラフを構築した場合
![Page 12: Topical keyphrase extraction from twitter](https://reader033.vdocument.in/reader033/viewer/2022052906/558c9b22d8b42a63018b46cb/html5/thumbnails/12.jpg)
Topical PageRankによるスコア計算
● PageRankに基づく
Automatic Keyphrase Extraction via Topic Decomposition, Liu et al. (2010)
![Page 13: Topical keyphrase extraction from twitter](https://reader033.vdocument.in/reader033/viewer/2022052906/558c9b22d8b42a63018b46cb/html5/thumbnails/13.jpg)
PageRank● Webページの重要度を決定するアルゴリズム
○ 引用、被引用関係を利用
R(v): vのスコアe(vj, vi): vjからviへのエッジの重みO(vj): vjからの重みの総和V: ノード数λ: 制動係数 (0≦λ≦1)
![Page 14: Topical keyphrase extraction from twitter](https://reader033.vdocument.in/reader033/viewer/2022052906/558c9b22d8b42a63018b46cb/html5/thumbnails/14.jpg)
PageRank● Webページの重要度を決定するアルゴリズム
○ 引用、被引用関係を利用
R(v): vのスコアe(vj, vi): vjからviへのエッジの重みO(vj): vjからの重みの総和V: ノード数λ: 制動係数 (0≦λ≦1)
λ=1 ID=1 ID=4 ID=5
ランダム
![Page 15: Topical keyphrase extraction from twitter](https://reader033.vdocument.in/reader033/viewer/2022052906/558c9b22d8b42a63018b46cb/html5/thumbnails/15.jpg)
PageRank● Webページの重要度を決定するアルゴリズム
○ 引用、被引用関係を利用
R(v): vのスコアe(vj, vi): vjからviへのエッジの重みO(vj): vjからの重みの総和V: ノード数λ: 制動係数 (0≦λ≦1)
この計算を100回、もしくは、各ノードのスコアの差分が0.001未満になるまで繰り返す
![Page 16: Topical keyphrase extraction from twitter](https://reader033.vdocument.in/reader033/viewer/2022052906/558c9b22d8b42a63018b46cb/html5/thumbnails/16.jpg)
Topical PageRankによるキーワードスコアの計算
● PageRank
● Topical PageRank
Automatic Keyphrase Extraction via Topic Decomposition, Liu et al. (2010)
トピックzを考慮(ランダムではなく、トピックにバイアスをかける)
![Page 17: Topical keyphrase extraction from twitter](https://reader033.vdocument.in/reader033/viewer/2022052906/558c9b22d8b42a63018b46cb/html5/thumbnails/17.jpg)
キーフレーズスコアの計算
● Topical PageRankのスコアを利用○ キーフレーズの候補: (形容詞)* (名詞)+○ キーフレーズpのスコアは各キーワードの総和
Automatic Keyphrase Extraction via Topic Decomposition, Liu et al. (2010)
![Page 18: Topical keyphrase extraction from twitter](https://reader033.vdocument.in/reader033/viewer/2022052906/558c9b22d8b42a63018b46cb/html5/thumbnails/18.jpg)
文書のキーフレーズ抽出
● 文書のキーフレーズ取得○ キーフレーズのスコアに
文書におけるトピックの割合をかける
Automatic Keyphrase Extraction via Topic Decomposition, Liu et al. (2010)
![Page 19: Topical keyphrase extraction from twitter](https://reader033.vdocument.in/reader033/viewer/2022052906/558c9b22d8b42a63018b46cb/html5/thumbnails/19.jpg)
Topical PageRankによるキーフレーズ抽出
1. 単語グラフの生成2. Topical PageRankによるスコア計算3. スコアを用いたキーフレーズ抽出4. 文書のキーフレーズ取得
Automatic Keyphrase Extraction via Topic Decomposition, Liu et al. (2010)
![Page 20: Topical keyphrase extraction from twitter](https://reader033.vdocument.in/reader033/viewer/2022052906/558c9b22d8b42a63018b46cb/html5/thumbnails/20.jpg)
Topical Keyphrase Extraction from Twitter
1. Twitter-LDA(Zhao et. al, 2011)によるトピック抽出2. Topical PageRankによるキーフレーズ抽出
Context-sensitive Topical PageRank
relevance and interestingness
1ツイート=1トピックなので不要
![Page 21: Topical keyphrase extraction from twitter](https://reader033.vdocument.in/reader033/viewer/2022052906/558c9b22d8b42a63018b46cb/html5/thumbnails/21.jpg)
Context-sensitive Topical PageRank● Topical PageRank
● Context-sensitive Topical PageRank
エッジのスコア計算でトピックを考慮
![Page 22: Topical keyphrase extraction from twitter](https://reader033.vdocument.in/reader033/viewer/2022052906/558c9b22d8b42a63018b46cb/html5/thumbnails/22.jpg)
Keyphrase ranking by relevance and interstingness
● Relevance○ 良いキーフレーズはトピックに強く関連○ newsトピック: ○president obama, ×math class
● Interestingness○ 良いキーフレーズはユーザの関心を惹く○ musicトピック:justin bieber > song player
Interestingness Relevance
![Page 23: Topical keyphrase extraction from twitter](https://reader033.vdocument.in/reader033/viewer/2022052906/558c9b22d8b42a63018b46cb/html5/thumbnails/23.jpg)
Relevance● キーフレーズ k=(w1,w2,...,wN)
全ツイート中のwの頻度
トピックtのツイート中のwの頻度
![Page 24: Topical keyphrase extraction from twitter](https://reader033.vdocument.in/reader033/viewer/2022052906/558c9b22d8b42a63018b46cb/html5/thumbnails/24.jpg)
Relevance● キーフレーズ k=(w1,w2,...,wN)
全ツイート中のwの頻度
トピックtのツイート中のwの頻度
疑問:PageRankを利用する場合との本質的な違いは何か
![Page 25: Topical keyphrase extraction from twitter](https://reader033.vdocument.in/reader033/viewer/2022052906/558c9b22d8b42a63018b46cb/html5/thumbnails/25.jpg)
Interestingness● リツイートの割合を利用
● リツイートされてないツイートも考慮(add-one smoothing)
候補キーフレーズを含む平均ツイート数
![Page 26: Topical keyphrase extraction from twitter](https://reader033.vdocument.in/reader033/viewer/2022052906/558c9b22d8b42a63018b46cb/html5/thumbnails/26.jpg)
キーフレーズのスコアリング
● Liu et al.
● 提案
![Page 27: Topical keyphrase extraction from twitter](https://reader033.vdocument.in/reader033/viewer/2022052906/558c9b22d8b42a63018b46cb/html5/thumbnails/27.jpg)
実験設定
● データ○ 20週間のシンガポールのユーザのツイート
■ ストップワード、低頻度語、ツイート数の少ないユーザを除去
● トピック抽出○ トピック数30でTwitter-LDA○ 実験では、そのうち10のトピックを利用
![Page 28: Topical keyphrase extraction from twitter](https://reader033.vdocument.in/reader033/viewer/2022052906/558c9b22d8b42a63018b46cb/html5/thumbnails/28.jpg)
評価実験
● 評価指標○ MAP(mean average precision)○ ランキング上位に適切なキーフレーズがあると高い
キーワードスコアリング キーフレーズスコアリング MAP
TPR (Liu et al.) キーワードスコアの総和 (Liu et al.) 0.5984
CTPR (proposed) キーワードスコアの総和 (Liu et al.) 0.6608
CTPR (proposed) relevance 0.6696
CTPR (proposed) relevance + interestingness 0.6694
![Page 29: Topical keyphrase extraction from twitter](https://reader033.vdocument.in/reader033/viewer/2022052906/558c9b22d8b42a63018b46cb/html5/thumbnails/29.jpg)
relevanceは有効?キーワードスコアリング キーフレーズスコアリング MAP
TPR (Liu et al.) キーワードスコアの総和 (Liu et al.) 0.5984
TPR (Liu et al.) キーワードスコアの積 0.6379
CTPR (proposed) キーワードスコアの総和 (Liu et al.) 0.6608
CTPR (proposed) キーワードスコアの積 0.6688
CTPR (proposed) relevance 0.6696
確率の積にしたのが有効であって、relevanceの有効性はあまりない気もする
![Page 30: Topical keyphrase extraction from twitter](https://reader033.vdocument.in/reader033/viewer/2022052906/558c9b22d8b42a63018b46cb/html5/thumbnails/30.jpg)
キーフレーズの取得例
![Page 31: Topical keyphrase extraction from twitter](https://reader033.vdocument.in/reader033/viewer/2022052906/558c9b22d8b42a63018b46cb/html5/thumbnails/31.jpg)
Interestingnessの効果
● 固有名詞の取得数が増加○ 固有名詞を含んだツイートのほうがリツイートされやすい
T5 (Movie-TV) T12 (News) T20 (Music) T25 (Sports)
Relevance 8 9 16 11
Relevance + Interestingness 10 12 17 14
![Page 32: Topical keyphrase extraction from twitter](https://reader033.vdocument.in/reader033/viewer/2022052906/558c9b22d8b42a63018b46cb/html5/thumbnails/32.jpg)
まとめ
● Tweetの要約のため、キーフレーズを取得● グラフベースのキーフレーズ抽出
○ Context-sentive Topical PageRank
○ relevanceとinterestingnessを用いたスコアリング
コンテキストを考慮することによりキーワードスコアリングの性能向上
relevance, interestingnessを用いることによりキーフレーズスコアリングの性能向上
relevanceというよりは確率の積にしたことが有効そう