towards a robust modeling of temporal interest change patterns for behavioral targeting
TRANSCRIPT
Towards a Robust Modeling of
Temporal Interest Change Patterns for
Behavioral Targeting
Mohamed Aly, Sandeep Pandey, Vanja Josifovski, Kuanal PuneraSeeloz Inc.., Santa Clara, CA, USA
Twiter, 1355 Market St, San Francisco, CA 94103Google Inc., 1600 Amphitheatre Parkway, Mountain View, CA 94103
RelateIQ, Palo Alto, CA, USA(WWW 2013)
モチベーション
◆広告出稿の入札をする側+広告主
- CVを増やすために効果的なターゲティングを行いたい ⇒ ユーザの短期間の興味をとらえることで実現
◆課題
- データ量が多すぎる ⇒ 短期間のユーザ履歴を使用することにより改善 - CVがrareである ⇒ モデルがロバストかどうかは確認
本論文ではこれらの課題を解決する本論文ではこれらの課題を解決する本論文ではこれらの課題を解決する本論文ではこれらの課題を解決するCVR見積もり手法を提案見積もり手法を提案見積もり手法を提案見積もり手法を提案
Contributions
◆本論文の貢献
- recent dataによる予測によりユーザの興味の変化をとらえることが出来た - 短期間の特徴に絞ることにより、多種多様なcampaignのターゲティングの パフォーマンスを上げることに成功した
- 短期間の特徴量を使用することによって、ユーザ履歴の削減と、 ターゲティングに使用する特徴量の削減を実現した
- rareイベントであるCVに対するターゲティングにおいて高い効果を上げた - 計算時間短縮に関する工夫無しに依然と変わらない反応速度を実現
手法としては手法としては手法としては手法としてはWeb-Scale User Modeling for Targetin[Mohamed+WWW ‘12]※※※※と同じと同じと同じと同じ
だが、特徴量のつくり方などで工夫をしている。だが、特徴量のつくり方などで工夫をしている。だが、特徴量のつくり方などで工夫をしている。だが、特徴量のつくり方などで工夫をしている。
※※※※の論文は現在多くのプロダクトでターゲティング手法として使われている(らしい)の論文は現在多くのプロダクトでターゲティング手法として使われている(らしい)の論文は現在多くのプロダクトでターゲティング手法として使われている(らしい)の論文は現在多くのプロダクトでターゲティング手法として使われている(らしい)
PROPOSED APPROACH
- time window -
◆time windowの考え方
target time
ττττととととττττ+δδδδ間の時間を間の時間を間の時間を間の時間をtarget window
t(e)ははははevent eが起こった時間が起こった時間が起こった時間が起こった時間
計算対象となる期間計算対象となる期間計算対象となる期間計算対象となる期間
(実際には(実際には(実際には(実際には1日の内の数時間)日の内の数時間)日の内の数時間)日の内の数時間)
ユーザ行動履歴ユーザ行動履歴ユーザ行動履歴ユーザ行動履歴
PROPOSED APPROACH
- time window -◆time windowの考え方
feature windowterget window
PROPOSED APPROACH
- user profile representation -◆最適化関数
ユーザユーザユーザユーザiの特徴ベクトルの特徴ベクトルの特徴ベクトルの特徴ベクトル
正規化とロス最小化の正規化とロス最小化の正規化とロス最小化の正規化とロス最小化の
バランスをとる定数バランスをとる定数バランスをとる定数バランスをとる定数
PROPOSED APPROACH
- baseline feature weighting -
◆event特徴量 - Bag of Event
3回訪問しているが異なる日に訪問したのは回訪問しているが異なる日に訪問したのは回訪問しているが異なる日に訪問したのは回訪問しているが異なる日に訪問したのは2日日日日
p,q,rはそれぞれ異なるトピック(はそれぞれ異なるトピック(はそれぞれ異なるトピック(はそれぞれ異なるトピック(sports etc )のページを示す)のページを示す)のページを示す)のページを示す
((((p iの添え字の添え字の添え字の添え字iははははi日に訪問したことを示す)日に訪問したことを示す)日に訪問したことを示す)日に訪問したことを示す)
Frequency bag of events
※※※※当該論文の元となっている論文では特徴ベクトルは単純に当該論文の元となっている論文では特徴ベクトルは単純に当該論文の元となっている論文では特徴ベクトルは単純に当該論文の元となっている論文では特徴ベクトルは単純にBoEを各特徴(を各特徴(を各特徴(を各特徴(view, query など)について正規化したベクトルなど)について正規化したベクトルなど)について正規化したベクトルなど)について正規化したベクトル
参考)参考)参考)参考)
feature p(例(例(例(例:page view に関するに関するに関するに関する
FBoE))))
PROPOSED APPROACH
- features: recency of user interests -
◆pの減衰強度特徴量の重みの計算
減衰係数減衰係数減衰係数減衰係数行動特徴量行動特徴量行動特徴量行動特徴量
特徴ベクトル特徴ベクトル特徴ベクトル特徴ベクトルpののののn番目の変数のユー番目の変数のユー番目の変数のユー番目の変数のユー
ザ履歴の最後の行動発生時間ザ履歴の最後の行動発生時間ザ履歴の最後の行動発生時間ザ履歴の最後の行動発生時間
◆行動特徴量pのrecency featureの重み
※※※※tpiは特徴量ベクトルは特徴量ベクトルは特徴量ベクトルは特徴量ベクトルxののののi番目の行動が起きた日付番目の行動が起きた日付番目の行動が起きた日付番目の行動が起きた日付
iはベクトルはベクトルはベクトルはベクトルxののののi番目の変数(行動)番目の変数(行動)番目の変数(行動)番目の変数(行動)
※※※※どのくらい変化したか、の方が重要度高いので次はそれについて見ていくどのくらい変化したか、の方が重要度高いので次はそれについて見ていくどのくらい変化したか、の方が重要度高いので次はそれについて見ていくどのくらい変化したか、の方が重要度高いので次はそれについて見ていく
PROPOSED APPROACH
- features: change in user interests -
-Long Term Absolute Interest Change
-Short Term Absolute Interest Change
◆バイアスを避けるため、異なる時間で興味の変化度合いを比較
target time の一つ前の期間をの一つ前の期間をの一つ前の期間をの一つ前の期間を
表している表している表している表している
特徴特徴特徴特徴pののののi番目の変数の行動番目の変数の行動番目の変数の行動番目の変数の行動
が起きた回数が起きた回数が起きた回数が起きた回数
P-1の期間では起きてない行動の期間では起きてない行動の期間では起きてない行動の期間では起きてない行動
の総和の総和の総和の総和
※※※※差を見るだけでは元々の興味の高さという特徴量が消えてしまうので、割合を見る差を見るだけでは元々の興味の高さという特徴量が消えてしまうので、割合を見る差を見るだけでは元々の興味の高さという特徴量が消えてしまうので、割合を見る差を見るだけでは元々の興味の高さという特徴量が消えてしまうので、割合を見る
ユーザのユーザのユーザのユーザのpについての全行についての全行についての全行についての全行
動履歴の合計動履歴の合計動履歴の合計動履歴の合計
PROPOSED APPROACH
- features: change in user interests -
◆Long Term Relative Interest Change
全ユーザ履歴内の全ユーザ履歴内の全ユーザ履歴内の全ユーザ履歴内のpの正規化の正規化の正規化の正規化
された平滑化荷重された平滑化荷重された平滑化荷重された平滑化荷重
期間期間期間期間P-1で起こった特徴量pので起こった特徴量pので起こった特徴量pので起こった特徴量pの
正規化された平滑化加重正規化された平滑化加重正規化された平滑化加重正規化された平滑化加重
PROPOSED APPROACH
- features: change in user interests -
◆Short Term Relative Interest Change
P-1ととととP-2の期間は同数であるの期間は同数であるの期間は同数であるの期間は同数である
ことが望ましいが、履歴が短ことが望ましいが、履歴が短ことが望ましいが、履歴が短ことが望ましいが、履歴が短
いユーザもいるので、日の平いユーザもいるので、日の平いユーザもいるので、日の平いユーザもいるので、日の平
均値をとっている均値をとっている均値をとっている均値をとっている
平滑化にはラプラススムー平滑化にはラプラススムー平滑化にはラプラススムー平滑化にはラプラススムー
ジングを使うジングを使うジングを使うジングを使う
((((0値回避)値回避)値回避)値回避)
これがラプラススムージンこれがラプラススムージンこれがラプラススムージンこれがラプラススムージン
グのグのグのグのααααの値(の値(の値(の値(?))))
PROPOSED APPROACH
- features: change in user interests -
◆Laplas smoothig - 加算スムージングにおいてα=1であるもの
+ α
EMPIRICAL ANALYSIS
- evaluation methodology -
◆実験条件
- データは4週間分の広告データ(impressions, clicks, conversionsなど) - 当該期間のキャンペーン数は200 - 66%は訓練、34%はスコアリング(テスト)に使用 - ユーザ履歴は56日分のデータを使用 - baselineモデルは[1]の論文の手法 - モデルの評価指標としてconversion-weighted averate of AUCを使用 - 使用データの要約はtable 1のとおり
[1] Web-Scale User Modeling for Targetin, Mohamed+, Yahoo! Research , WWW '12
EMPIRICAL ANALYSIS
- evaluation methodology -◆参照アーキテクチャ
- 元論文のモノを掲載[1]
[1] Web-Scale User Modeling for Targetin, Mohamed+, Yahoo! Research , WWW '12
EMPIRICAL ANALYSIS
- evaluation methodology -
◆イベントのタイプ分け
- pages visited - search queries - interactions with graphical advertisements (views, clicks and conversions)
※※※※これらを更にカテゴリ分けを行う(詳細は不明)これらを更にカテゴリ分けを行う(詳細は不明)これらを更にカテゴリ分けを行う(詳細は不明)これらを更にカテゴリ分けを行う(詳細は不明)
EMPIRICAL ANALYSIS
- targeting accuracy result -
◆ユーザの日行動数密度分布
EMPIRICAL ANALYSIS
- evaluation methodology -
◆分類手法
- 1次正則付きlinear SVMを使用 - campaign毎に適用 - 正則化パラメタCは[0.05, 0.7]でキャンペーン毎に調整 調整はROC曲線を見ながら行った(AUC?)
EMPIRICAL ANALYSIS
- evaluation methodology -◆変数選択
- 相互情報量による選択
参考)元論文の選択結果
EMPIRICAL ANALYSIS
- targeting accuracy result -
◆baselineモデルとの比較 -baselineモデルに各weightを組み込んだ場合
※※※※Absolute Interest Change は分散が大きくなるため、は分散が大きくなるため、は分散が大きくなるため、は分散が大きくなるため、Relative Interest Change より数値が低いより数値が低いより数値が低いより数値が低い
Long Term ははははShort Term と比較して変動幅が小さいため数値が高いと比較して変動幅が小さいため数値が高いと比較して変動幅が小さいため数値が高いと比較して変動幅が小さいため数値が高い
EMPIRICAL ANALYSIS
- targeting accuracy result -
◆特徴量を掛け合わせてみる
※※※※Absolute Interest Change ととととRelative Interest Change を掛け合わせるとを掛け合わせるとを掛け合わせるとを掛け合わせると
次元爆発を起こしてしまうため避けた 次元爆発を起こしてしまうため避けた 次元爆発を起こしてしまうため避けた 次元爆発を起こしてしまうため避けた
どの特徴量の影響力が強いかについても確認した( どの特徴量の影響力が強いかについても確認した( どの特徴量の影響力が強いかについても確認した( どの特徴量の影響力が強いかについても確認した(Table 7参照)参照)参照)参照)
EMPIRICAL ANALYSIS
- targeting accuracy result -
◆CV数が少ない場合におけるパフォーマンス比較
EMPIRICAL ANALYSIS
- analysis and discussion of results -
※※※※d=1.1ででででAUCが最も高いが最も高いが最も高いが最も高い
d=1.1とすればとすればとすればとすれば2週間で週間で週間で週間でweigthが約が約が約が約1/4となるとなるとなるとなる
◆最適な減衰係数の探索
- baselineはd=1
EMPIRICAL ANALYSIS
- analysis and discussion of results -
◆異なるperiod sizeでのパフォーマンスの違い
※※※※P=14までの改善効果が大きいまでの改善効果が大きいまでの改善効果が大きいまでの改善効果が大きい
P=28の時点での時点での時点での時点でAUCが下がり始めるが下がり始めるが下がり始めるが下がり始める
これは これは これは これはLaplace smoothing の効果が弱くなってくるからの効果が弱くなってくるからの効果が弱くなってくるからの効果が弱くなってくるから
period size = 7days
EMPIRICAL ANALYSIS
- analysis and discussion of results -
◆異なるキャンペーンでの比較
※※※※cosmetics に関してはいつも買っているアイテムの情報を捨てることになるため過去に関してはいつも買っているアイテムの情報を捨てることになるため過去に関してはいつも買っているアイテムの情報を捨てることになるため過去に関してはいつも買っているアイテムの情報を捨てることになるため過去
データを捨てると不利に働いたデータを捨てると不利に働いたデータを捨てると不利に働いたデータを捨てると不利に働いた
EMPIRICAL ANALYSIS
- analysis and discussion of results -
◆各特徴量の影響力
※※※※Recency ととととPositive Long Term Relative Interest Change の影響は大きいの影響は大きいの影響は大きいの影響は大きい
frequency ととととDecayed Intensity の影響は小さいの影響は小さいの影響は小さいの影響は小さい
frequency
Conclusion
◆結論
- ユーザの興味が2週間で移り変わる事を発見した - スパイク反応にも対応出来るモデルを提案した - 異なるtime windowを組み合わせたモデルの構築が課題
◆感想
― Long termは全履歴を使っており、短期間のデータで良いという点が わかりづらい
- 変数名のかぶりが激しくわかりずらい (解釈が間違っている部分があるかもしれません...)