ビッグデータ時代のテキストマイニング ~マーケティング活用事...

52
1 All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012 ビッグデータ時代のテキストマイニング ~マーケティング活用事例~ 立教大学 経営学部 教授 佐々木宏 2012/11/22 数理システムユーザーコンファレンス2012 資料のなかの会社名、システム名、製品名は一般に各社の登録商標または商標で す。 ただし、資料中には「TM」「©」「 ® 」は明記しておりません。

Upload: others

Post on 29-May-2020

7 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: ビッグデータ時代のテキストマイニング ~マーケティング活用事 …ftp.msi.co.jp/userconf/2012/pdf/muc12_THA_1.pdf · ビッグデータ時代のテキストマイニング

1

All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012

ビッグデータ時代のテキストマイニング ~マーケティング活用事例~

立教大学 経営学部 教授 佐々木宏

2012/11/22 数理システムユーザーコンファレンス2012

資料のなかの会社名、システム名、製品名は一般に各社の登録商標または商標です。 ただし、資料中には「TM」「©」「 ® 」は明記しておりません。

Page 2: ビッグデータ時代のテキストマイニング ~マーケティング活用事 …ftp.msi.co.jp/userconf/2012/pdf/muc12_THA_1.pdf · ビッグデータ時代のテキストマイニング

2

All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012

本日の内容

Ⅰ トレンド:ビッグデータ Ⅱ ビッグデータをキーワードにしたテキストマイニング の事例 Ⅲ テキストマイニングの効率化

Page 3: ビッグデータ時代のテキストマイニング ~マーケティング活用事 …ftp.msi.co.jp/userconf/2012/pdf/muc12_THA_1.pdf · ビッグデータ時代のテキストマイニング

3

All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012

本日のView Point • デジタル・アカシックレコードの探索*

– ライフログ:個人が単位 – デジタル・アカシックレコード:社会が単位(人類の歴史がWeb上に

瞬々刻々と刻み込まれている) • Follows仮説

– 投げ縄型曲線** • ある事象が普及するとき、別な普及曲線から前兆を知ることができる

– スパイラル曲線 • 2つの異なる位相をもつ波動がスパイラル型進化を起こす

– 組織波動進化仮説:ゆらぎと組織パフォーマンスの関係***

• 異なるビッグデータを同期化させる *拙稿(2009)「ブログリサーチ」(同文舘) **拙稿(2009)「ブログリサーチ」(同文舘),p.139 ***拙稿(1993)「情報戦略と戦略策定組織のスパイラル進化-ゆらぎと波動変換の場の創造-」,情報システムフォーラム,No.376,pp.58-63,日本情報システム・ユーザ協会」)

Page 4: ビッグデータ時代のテキストマイニング ~マーケティング活用事 …ftp.msi.co.jp/userconf/2012/pdf/muc12_THA_1.pdf · ビッグデータ時代のテキストマイニング

4

All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012

Ⅰ トレンド:ビッグデータ

データマイニングはどう変わったか。 1. データソース 2. データマイニングの着眼点 3. ツールやサービス 4. 学術的厳密性と実務的整合性 5. ビッグデータ・ニーズ

Page 5: ビッグデータ時代のテキストマイニング ~マーケティング活用事 …ftp.msi.co.jp/userconf/2012/pdf/muc12_THA_1.pdf · ビッグデータ時代のテキストマイニング

5

All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012

データマイニングはどう変わったか。 1.データソース

• データソース – 3V: ソースの量、多様性、速度 – 4つ目のV:Veracity(正確さ)

• データのタイプ – トランザクション・データ、顧客データベース、テキスト・データ

(VOC、ソーシャル・メディア)、Webログデータ、静止画、動画、音声、GPSデータ(位置・時刻・利用者情報)、スマートメーター(次世代電力計)からの収集データ、RFID、センサー etc.

• データの所在 – 個人:ライフログ – 業務:トランザクション・データ、Webログデータ、センサーデータ*

など – 社会:デジタル・アカシックレコード(メール、SNS、ブログなど)

*移動車両や家電機器などに組み込まれたセンサーからの情報

Page 6: ビッグデータ時代のテキストマイニング ~マーケティング活用事 …ftp.msi.co.jp/userconf/2012/pdf/muc12_THA_1.pdf · ビッグデータ時代のテキストマイニング

6

All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012

データマイニングはどう変わったか。 2.データマイニングの着眼点

• 空間軸 – 関係性の構築: 点=>線=>面

• 時間軸 – 離散=>連続 – リアルタイム(分散処理) – 前兆と未来予測

• 多様なソースから関連性のあるデータの抽出 – 同種ビッグ・データ内 – 異種ビッグ・データ間の同期化

• 関係性(ネットワーク)の構築と分析

Page 7: ビッグデータ時代のテキストマイニング ~マーケティング活用事 …ftp.msi.co.jp/userconf/2012/pdf/muc12_THA_1.pdf · ビッグデータ時代のテキストマイニング

7

All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012

データマイニングはどう変わったか。 2.データマイニングの着眼点

市場・社会 統計的手法による母集団の推定 (基準:全体の傾向、期待値、有意確率・・・)

シグナルの発見 (基準:驚き、外れ値)

平均値 vs 外れ値

Page 8: ビッグデータ時代のテキストマイニング ~マーケティング活用事 …ftp.msi.co.jp/userconf/2012/pdf/muc12_THA_1.pdf · ビッグデータ時代のテキストマイニング

8

All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012

データマイニングはどう変わったか。 3.ツールやサービス

1.新しいデータ処理プロセス 2.データの構造化 3.既存手法とのリンケージ 4.ツールやソフトウェア 5. ITベンダー/インテグレータ

Page 9: ビッグデータ時代のテキストマイニング ~マーケティング活用事 …ftp.msi.co.jp/userconf/2012/pdf/muc12_THA_1.pdf · ビッグデータ時代のテキストマイニング

9

All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012

データマイニングはどう変わったか。 4.学術的厳密性と実務的整合性

• リガー (学術的厳密性) vs. レリバンス(実務的整合性)*

マーケティング リサーチ

アカデミック リサーチ

Rigor Relevance

*佐々木宏(2011),「リガー vs レリバンス -そのはざまで揺れ動く情報経営研究-」,日本情報経営学会第62回全国大会統一論題セッション(神戸大学),ニューセオリーホライゾン(予稿集),pp.1-8. H.Sasaki(2012),”IS research and its standpoint -Revisiting the "reference discipline" problem from Japan-”, Tokyo Keizai University Information Systems Symposium 2012.

社会科学

実務

Page 10: ビッグデータ時代のテキストマイニング ~マーケティング活用事 …ftp.msi.co.jp/userconf/2012/pdf/muc12_THA_1.pdf · ビッグデータ時代のテキストマイニング

10

All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012

データマイニングはどう変わったか。 4.学術的厳密性と実務的整合性

• (影響のない範囲で)厳密性を犠牲にして鮮度を優先 – 不完全データの許容 ex)Web上のゴミ – 厳密な統計的有意性の検定はあまり意味をなさない

• 品質と鮮度のトレードオフ – 今何が起きているか、将来どうなるかについてヒントや確信を与える

品 質

鮮度

厳密な調査 (ex 学術調査)

鮮度の高い調査

Page 11: ビッグデータ時代のテキストマイニング ~マーケティング活用事 …ftp.msi.co.jp/userconf/2012/pdf/muc12_THA_1.pdf · ビッグデータ時代のテキストマイニング

11

All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012

データマイニングはどう変わったか。 5.ビッグデータ・ニーズ

製品

市場

既存

新規

既存 新規

市場浸透 製品開発 市場開発 多角化

アンゾフ(1965) 「企業戦略論(Corporate Strategy)」の『成長ベクトル』を活用して作成

ビッグデータをからめた新しいビジネスモデルを開発したい SNSをプラットフォームにした事業者とコラボレートしたい

既存商品の売上向上を図りたい マーケティング(4P)に活用したい 顧客浸透と新規顧客を獲得に役立たせたい 自社、商品の評判の変 化の兆しを即座に知りたい 市場開発のためのマーケティング・リサーチ SNSなどを利用して、新しい市場・販路を拡大したい

新商品のヒントが欲しい 世の中のトレンドを知りたい 競合他社の動向を知りたい

意思決定に役立たせる

ベンダー・サイド:下記を支援するところにビジネスチャンス

顧客・社会とのインタラクション

Page 12: ビッグデータ時代のテキストマイニング ~マーケティング活用事 …ftp.msi.co.jp/userconf/2012/pdf/muc12_THA_1.pdf · ビッグデータ時代のテキストマイニング

12

All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012

Ⅱ ビッグデータをキーワードにした テキストマイニングの事例

1. ビッグデータ(新聞記事) 2. eWOM(学術誌) 3. 普及曲線とスパイラル曲線 4. 過去のIT関連ブーム

Key Question: 新聞記事から、ビッグデータについて何がわかるか?

Page 13: ビッグデータ時代のテキストマイニング ~マーケティング活用事 …ftp.msi.co.jp/userconf/2012/pdf/muc12_THA_1.pdf · ビッグデータ時代のテキストマイニング

13

All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012

「ビッグデータ」関連の新聞記事検索 • 2012/09/15 日経テレコン

– キーワード:ビッグデータ – 全期間、全新聞を対象に抽出: 314件

• 新聞記事の特徴 – 日本語は完璧 – 新聞記事に深いコンテキストは少ない(次ページ参照)

• ビッグデータの多様な表現:「BIGDATA」に統一 – 膨大で雑多なデータの集合体「ビッグデータ」 – 大量(の)データ「ビッグデータ」 – 膨大な(量の)データ「ビッグデータ」 – 爆発的に増大する企業内データ「ビッグデータ」 – 爆発的に増える(コンピュータ)データ「ビッグデータ」 – 爆発的に増え(続け)るデータ「ビッグデータ」 – ビッグデータ(爆発的に増えているデータ) – バイト級の巨大なデータ(ビッグデータ) – コンピューター情報「ビッグデータ」 – 膨大なデジタルデータの塊「ビッグデータ」

Page 14: ビッグデータ時代のテキストマイニング ~マーケティング活用事 …ftp.msi.co.jp/userconf/2012/pdf/muc12_THA_1.pdf · ビッグデータ時代のテキストマイニング

14

All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012

「ビッグデータ」関連の新聞記事検索

• 不要な単語を除外

– (要旨を電子版に) (編集委員 XXXX) (執筆者名)など

• 類似語を統一 – 企業名:日立製作所と日立、日本IBMとIBM など

– 外部記憶装置(ストレージ)とストレージ

– ハードディスク駆動装置(HDD)と HDD

– IT(情報技術)とIT

– データベース(DB)とDB

– 交流サイト(SNS)とSNS

– スマートフォン(高機能携帯電話=スマホ)とスマホ

– 人工知能(AI)とAI

– 基本ソフト(OS)「リナックス(Linux)」とLinax など

• 単語フィルター:一般用語の「データ」を除く

Page 15: ビッグデータ時代のテキストマイニング ~マーケティング活用事 …ftp.msi.co.jp/userconf/2012/pdf/muc12_THA_1.pdf · ビッグデータ時代のテキストマイニング

15

All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012

単語頻度 分析 名詞 トップ30件

単語 品詞 頻度 1 BIGDATA 名詞 247 2 データ 名詞 232 3 企業 名詞 167 4 活用 名詞 152 5 分析 名詞 149 6 膨大 名詞 144 7 開発 名詞 128 8 技術 名詞 114 9 情報 名詞 114

10 サービス 名詞 109 11 システム 名詞 108 12 提供 名詞 107 13 必要 名詞 107 14 今後 名詞 101 15 大量 名詞 95 16 ソフトウェア 名詞 93 17 顧客 名詞 93 18 発表 名詞 92 19 利用 名詞 90 20 従来 名詞 88 21 解析 名詞 87 22 日本 名詞 81 23 東京 名詞 80 24 サーバ 名詞 79 25 ICT 名詞 77 26 クラウドコンピューティング 名詞 74 27 日本IBM 名詞 72 28 富士通 名詞 71 29 同社 名詞 70 30 収集 名詞 69 All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012

Page 16: ビッグデータ時代のテキストマイニング ~マーケティング活用事 …ftp.msi.co.jp/userconf/2012/pdf/muc12_THA_1.pdf · ビッグデータ時代のテキストマイニング

16

All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012

係り受け頻度分析

• 話題一般 – 頻度10回超

係り元単語 係り元品詞 係り先単語 係り先品詞 頻度

1 BIGDATA 名詞 活用 名詞 52 2 データ 名詞 分析 名詞 48 3 爆発的 名詞 増える 動詞 48 4 BIGDATA 名詞 分析 名詞 28 5 データ 名詞 保存 名詞 25 6 BIGDATA 名詞 呼ぶ 動詞 24 7 サービス 名詞 提供 名詞 24 8 データ 名詞 解析 名詞 24 9 BIGDATA 名詞 解析 名詞 23

10 技術 名詞 開発 名詞 21 11 サービス 名詞 始める 動詞 20 12 データ 名詞 活用 名詞 20 13 注目 名詞 集める 動詞 20 14 システム 名詞 構築 名詞 18 15 動き 名詞 広がる 動詞 17 16 ICT 名詞 活用 名詞 15 17 システム 名詞 開発 名詞 15 18 データ 名詞 集める 動詞 15 19 開発 名詞 発表 名詞 15 20 情報 名詞 分析 名詞 15 21 データ量 名詞 増える 動詞 14 22 日立製作所 名詞 発表 名詞 14 23 分析 名詞 役立てる 動詞 14 24 データ 名詞 処理 名詞 13 25 情報 名詞 収集 名詞 13 26 発売 名詞 発表 名詞 13 27 スマホ 名詞 普及 名詞 12 28 データ 名詞 収集 名詞 12 29 企業 名詞 蓄積 名詞 12 30 分析 名詞 生かす 動詞 12 31 BIGDATA 名詞 処理 名詞 11 32 ICT 名詞 進化 名詞 11 33 クラウドコンピューティング 名詞 使う 動詞 11

Page 17: ビッグデータ時代のテキストマイニング ~マーケティング活用事 …ftp.msi.co.jp/userconf/2012/pdf/muc12_THA_1.pdf · ビッグデータ時代のテキストマイニング

17

All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012

注目語:ビッグデータ・キーワード、主要プレーヤー

単語順位(名詞) 単語 出現頻度

27 日本IBM 72

28 富士通 71

58 日立製作所 46

80 NEC 37

145 オラクル 25

174 EMC 22

200 NTTデータ 20

222 SAP 19

○主要プレーヤー 【共起ルール抽出】 5 回以上 【注目語を含む表現】 5 回以上

単語 頻度

11 システム 108

24 サーバ 79

26 クラウドコンピューティング 74

36 スマホ 57

45 ストレージ 52

52 センサー 49

110 データセンター 30

154 Hadoop 24

189 データベース 21

221 GPS 19

○キーワード 【共起ルール抽出】 10 回以上 【注目語を含む表現】 10 回以上

Page 18: ビッグデータ時代のテキストマイニング ~マーケティング活用事 …ftp.msi.co.jp/userconf/2012/pdf/muc12_THA_1.pdf · ビッグデータ時代のテキストマイニング

18 注目語:システム、サーバ、クラウドコンピューティング、スマホ システム サーバ クラウドコンピューティング スマホ

All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012

Page 19: ビッグデータ時代のテキストマイニング ~マーケティング活用事 …ftp.msi.co.jp/userconf/2012/pdf/muc12_THA_1.pdf · ビッグデータ時代のテキストマイニング

19 注目語:ストレージ、センサー、データセンター、Hadoop

ストレージ センサー データセンター Hadoop

All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012

Page 20: ビッグデータ時代のテキストマイニング ~マーケティング活用事 …ftp.msi.co.jp/userconf/2012/pdf/muc12_THA_1.pdf · ビッグデータ時代のテキストマイニング

20 注目語:データベース、GPS

データベース GPS

All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012

Page 21: ビッグデータ時代のテキストマイニング ~マーケティング活用事 …ftp.msi.co.jp/userconf/2012/pdf/muc12_THA_1.pdf · ビッグデータ時代のテキストマイニング

21

All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012

注目語:主要プレーヤー 日本IBM 富士通 日立製作所 NEC

All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012

Page 22: ビッグデータ時代のテキストマイニング ~マーケティング活用事 …ftp.msi.co.jp/userconf/2012/pdf/muc12_THA_1.pdf · ビッグデータ時代のテキストマイニング

22

All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012

注目語:主要プレーヤー オラクル EMC NTTデータ SAP

All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012

Page 23: ビッグデータ時代のテキストマイニング ~マーケティング活用事 …ftp.msi.co.jp/userconf/2012/pdf/muc12_THA_1.pdf · ビッグデータ時代のテキストマイニング

23

All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012

ハード&ソフト 先端技術・ソリューション系 ソリューション系 ストレージ系 データベース系

富士通

IBM 日立

NEC

オラクル

EMC

NTTデータ

SAP システム

サーバ クラウドコン

ピューティング

スマホ

ストレージ

センサー

データセンター

パソコン Hadoop

データベース

GPS

コレスポンデンス分析結果* ビッグデータ・キーワード&主要プレーヤー

カテゴリ(関連技術) ベンダー

*コレスポンデンス分析は、TMSの対応バブル分析機能で出力可能

Page 24: ビッグデータ時代のテキストマイニング ~マーケティング活用事 …ftp.msi.co.jp/userconf/2012/pdf/muc12_THA_1.pdf · ビッグデータ時代のテキストマイニング

24

All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012

Ⅱ ビッグデータをキーワードにした テキストマイニングの事例

1. ビッグデータ(新聞記事) 2. eWOM(学術誌) 3. 普及曲線とスパイラル曲線 4. 過去のIT関連ブームとの比較

Key Question: ビッグデータのコアとなる理論は何か? (eWOM関連リサーチの検証)

Page 25: ビッグデータ時代のテキストマイニング ~マーケティング活用事 …ftp.msi.co.jp/userconf/2012/pdf/muc12_THA_1.pdf · ビッグデータ時代のテキストマイニング

25

All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012

ここでちょっとアカデミック! WOM研究からeWOM研究へ

• 2012/06/09 EBSCOデータベース(世界中の文献データを収集)からWOMとeWOMの文献(査読付き学術誌)をすべて抽出する – WOM:250件 – eWOM:17件

• eWOMで参照の多い著者はだれかを特定する(サイテーション部分のテキストマイニング)

Page 26: ビッグデータ時代のテキストマイニング ~マーケティング活用事 …ftp.msi.co.jp/userconf/2012/pdf/muc12_THA_1.pdf · ビッグデータ時代のテキストマイニング

26

All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012

eWOM文献から 参照の多かったもの(5件超)

著者 Reference文献数 Hennig-thurau 15 Dellarocas 13 Kats Elihu 6 Rogers 6 Senecal 6 Hung 6 Godes 6 Brown 6

1. Hennig-Thurau et al. (2004) : eWOMのことばを定着させた。 ‘any positive or negative statement made by potential, actual, or former customers about a product or company, which is made available to a multitude of people and institutions via the Internet’.

2. Katz &Lazarsfeld (1955):WOMのことばを定着させた。’WOM is defined as the act of exchanging marketing information among consumers, and plays an essential role in changing consumer attitudes and behaviour towards products and services’.

3. Dellarocas(2003):従来のWOMとeWOMの相違点を分析した。 4. Rogers(1983):WOMの普及。普及曲線のS-shapedカーブ。 5. その他:まだ参照は少ないが、Breazeale(2009): eWOM研究の包括的レビューした。

Page 27: ビッグデータ時代のテキストマイニング ~マーケティング活用事 …ftp.msi.co.jp/userconf/2012/pdf/muc12_THA_1.pdf · ビッグデータ時代のテキストマイニング

27

All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012

WOM:250件+eWOM:7件の文献のAbstractを分析 名詞頻度:マーケティング関連の単語がかなり多い

単語 頻度 単語 頻度 consumer 116 source 40 study 95 brand 38 article 91 one 38 product 91 decision 37 communication 82 datum 36 information 82 response 35 mouth 76 two 35 research 74 effect 34 marketing 73 findings 34 advertising 68 strategy 34 result 68 experience 33 model 66 role 33 word 65 sales 33 customer 59 time 33 service 53 company 32 effects 51 firm 32 process 50 present 32 influence 46 relationship 32 implication 44 services 32 behavior 43 diffusion 31 factor 43 impact 31 paper 42 satisfaction 31 market 40 analysis 30 purchase 40

Page 28: ビッグデータ時代のテキストマイニング ~マーケティング活用事 …ftp.msi.co.jp/userconf/2012/pdf/muc12_THA_1.pdf · ビッグデータ時代のテキストマイニング

28

All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012

WOM:250件+eWOM:7件の文献のAbstractを分析 注目語: Diffusion, Innovation • 条件:名詞、共起、3回以上

Page 29: ビッグデータ時代のテキストマイニング ~マーケティング活用事 …ftp.msi.co.jp/userconf/2012/pdf/muc12_THA_1.pdf · ビッグデータ時代のテキストマイニング

29

All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012

WOM:250件+eWOM:7件の文献のAbstractを分析 eWOMの特徴語 • 条件:名詞

Page 30: ビッグデータ時代のテキストマイニング ~マーケティング活用事 …ftp.msi.co.jp/userconf/2012/pdf/muc12_THA_1.pdf · ビッグデータ時代のテキストマイニング

30

All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012

サイテーション分析と実務への応用

• アカデミックな論文のサイテーション分析 – ナレッジチェーンの把握が目的(下図参照*)

– 分析手法

• 有向グラフ(directed graph)

• 社会ネットワーク分析

• 実務への応用例 – 普及(流行)の元を辿る

例)ビッグデータと4V

大量=Volume、多様=Variety、速度=Velocity

正確さ=Veracity だれがほんとの言いだしっぺ?

*拙稿(2007)「入門ビジネスリーダーシップ 第14章グローバル・リーダーシップと研究 ストリーム,日本評論社,pp.267-286

Page 31: ビッグデータ時代のテキストマイニング ~マーケティング活用事 …ftp.msi.co.jp/userconf/2012/pdf/muc12_THA_1.pdf · ビッグデータ時代のテキストマイニング

31

All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012

Ⅱ ビッグデータをキーワードにした テキストマイニングの事例

1. ビッグデータ(新聞記事) 2. eWOM(学術誌) 3. 普及曲線とスパイラル曲線 4. 過去のIT関連ブームとの比較

Key Question: S字カーブとスパイラル曲線はどのように出現するか? Follow仮説の提示と検証例を示します。

Page 32: ビッグデータ時代のテキストマイニング ~マーケティング活用事 …ftp.msi.co.jp/userconf/2012/pdf/muc12_THA_1.pdf · ビッグデータ時代のテキストマイニング

32

All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012

正規分布の場合: σ:標準偏差=0.8, μ:平均値=0

S字型曲線(S-Shaped Curve)

• S字型曲線を作るモデル – 正規分布に基づくS字カーブ、ロジスティック・モデル、Bassモデル、・・・

マーケターが知りたいこと クリティカルマス 変曲点 最終的な到達点

採用分布

Rogers

Page 33: ビッグデータ時代のテキストマイニング ~マーケティング活用事 …ftp.msi.co.jp/userconf/2012/pdf/muc12_THA_1.pdf · ビッグデータ時代のテキストマイニング

33

All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012

S字型曲線とスパイラル曲線 • 流行や普及をどこで感知するか

– Googleなどの検索キー – 新聞記事 – SNSなどのeWOM

• eWOMから連続した曲線を構成 – S字型曲線:時間軸を動かし、eWOMデータから曲線(波動)を構成する*

*検索キーやマーケットバスケット分析(アソシエーション・ルー ルの導出)では時間軸固定で同時出現する単語、商品に注 目している

– スパイラル曲線:2つの位相のずれた波動の重なりで出現 • 事業戦略と組織 • マーケティング活動と成果

– CM、プロモーション、メディア発表 • eWOMと販売

Page 34: ビッグデータ時代のテキストマイニング ~マーケティング活用事 …ftp.msi.co.jp/userconf/2012/pdf/muc12_THA_1.pdf · ビッグデータ時代のテキストマイニング

34

All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012

Follows仮説

• XがYの動きに連動し、位相のずれた普及曲線(S-shaped

curve)を描くことを予想し、検証する • Y: Y1,Y2,・・・Ynに拡張可能 • Z: 時間のずれ(オプション)

• XとY、2つの位相のずれた波動の動きが継続すればスパイラル曲線が出現する

Follows仮説 X follows Y by Z

Page 35: ビッグデータ時代のテキストマイニング ~マーケティング活用事 …ftp.msi.co.jp/userconf/2012/pdf/muc12_THA_1.pdf · ビッグデータ時代のテキストマイニング

35

All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012

波動の位相が同期化している例

0

5,000

10,000

15,000

20,000

0

10,000

20,000

30,000

40,000

50,000

期待

不安

*拙稿「ブログリサーチ」,同文舘,p.27,図2-4

ブログ中に「期待」、「不安」があるものをそれぞれすべて抽出*

Page 36: ビッグデータ時代のテキストマイニング ~マーケティング活用事 …ftp.msi.co.jp/userconf/2012/pdf/muc12_THA_1.pdf · ビッグデータ時代のテキストマイニング

36

All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012

波動の位相が同期化している例

2005/10/16

2005/10/23 2005/10/30 2005/11/06

2005/11/13

2005/11/20 2005/11/27

2005/12/04

2005/12/11 2005/12/18 2005/12/25

2006/01/01

2006/01/08 2006/01/15

2006/01/22 2006/01/29 2006/02/05

2006/02/12 2006/02/19

2006/02/26

2006/03/05

2006/03/12

2006/03/19

2006/03/26

2006/04/02

2006/04/09

2006/04/16

2006/04/23 2006/05/07

2006/05/14

2006/05/21 2006/05/28 2006/06/04

2006/06/11

2006/06/18

2006/06/25

2006/07/02 2006/07/09

2006/07/16

2006/07/23

2006/07/30

2006/08/06

2006/08/13 2006/08/20

2006/08/27 2006/09/03

2006/09/10 2006/09/17

2006/09/24 2006/10/01

2006/10/08 2006/10/15 2006/10/22

2006/10/29

2006/11/05

2006/11/12

2006/11/19 2006/11/26

2006/12/03

2006/12/10

2006/12/17

2006/12/24

2006/12/31

2007/01/07

2007/01/14

2007/01/21 2007/01/28

2007/02/04

2007/02/11

2007/02/18 2007/02/25

2007/03/04

2007/03/11 2007/03/18

2007/03/25

2007/04/01 2007/04/08 2007/04/15 2007/04/22 2007/04/29

2007/05/06

2007/05/13

2007/05/20 2007/05/27

2007/06/03 2007/06/10

2007/06/17

2007/06/24 2007/07/01

2007/07/08 2007/07/15

2007/07/22 2007/07/29

2007/08/05

2007/08/12

2007/08/19

2007/08/26

2007/09/02

2007/09/09

2007/09/16

2007/09/23

2007/09/30

2007/10/07

2007/10/14

2007/10/21

2007/10/28

2007/11/04 2007/11/11

2007/11/18

2007/11/25 2007/12/02

2007/12/09

2007/12/16

2007/12/23 2007/12/30 2008/01/06

2008/01/13 2008/01/20 2008/01/27

2008/02/03

2008/02/10 2008/02/17

2008/02/24

2008/03/02 2008/03/09

2008/03/16 2008/03/23 2008/03/30

2008/04/06 2008/04/13

2008/04/20

2008/04/27

2008/05/04 2008/05/11 2008/05/18 2008/05/25 2008/06/01 2008/06/08

2008/06/15 2008/06/22 2008/06/29 2008/07/06

2008/07/13 2008/07/20 2008/07/27 2008/08/03

2008/08/10

2008/08/17 2008/08/24

2008/08/31 2008/09/07

2008/09/14

2008/09/21 2008/09/28

2008/10/05 2008/10/12 2008/10/19

y = 2.1644x + 4025.3 R² = 0.8938

10000

20000

30000

40000

5000 10000 15000

期待

不安

外れ値の検証:2008年8月10日 北京五輪:9日、柔道の女子48キロ級で谷亮子が銅メダルに終わり、 五輪3連覇を逃したが、最多となる5大会連続のメダル獲得となった。

期待が大きければ不安も大きい

Page 37: ビッグデータ時代のテキストマイニング ~マーケティング活用事 …ftp.msi.co.jp/userconf/2012/pdf/muc12_THA_1.pdf · ビッグデータ時代のテキストマイニング

37

All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012

位相がずれている例:インフルエンザの流行*

1

10

100

1,000

10,000

100,000

1,000,000

2006

/1/1

2006

/1/8

2006

/1/1

5

2006

/1/2

2

2006

/1/2

9

2006

/2/5

2006

/2/1

2

2006

/2/1

9

2006

/2/2

6

2006

/3/5

2006

/3/1

2

2006

/3/1

9

2006

/3/2

6

ブログ件数

インフルエンザ疾病件数

ピーク1月22日の週

ピーク1月29日の週

*拙稿「ブログリサーチ」,同文舘,p.140,図5-17

仮説: ブログ書き込み follows インフルエンザ発症 by 1week

Page 38: ビッグデータ時代のテキストマイニング ~マーケティング活用事 …ftp.msi.co.jp/userconf/2012/pdf/muc12_THA_1.pdf · ビッグデータ時代のテキストマイニング

38

All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012

位相がずれている例:インフルエンザの流行*

0

20,000

40,000

60,000

80,000

100,000

120,000

140,000

160,000

0 1,000 2,000 3,000 4,000 5,000 6,000 7,000 8,000

ブログ件数

インフルエンザ疾病件数

*拙稿「ブログリサーチ」,同文舘,p.141,図5-18

Page 39: ビッグデータ時代のテキストマイニング ~マーケティング活用事 …ftp.msi.co.jp/userconf/2012/pdf/muc12_THA_1.pdf · ビッグデータ時代のテキストマイニング

39

All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012

位相がずれている例: クールビズ とウォームビズ

0

2

4

6

8

10

12

14

16

18

20

0

20

40

60

80

100

120

2005

-01-

0220

05-0

2-27

2005

-04-

2420

05-0

6-19

2005

-08-

1420

05-1

0-09

2005

-12-

0420

06-0

1-29

2006

-03-

2620

06-0

5-21

2006

-07-

1620

06-0

9-10

2006

-11-

0520

06-1

2-31

2007

-02-

2520

07-0

4-22

2007

-06-

1720

07-0

8-12

2007

-10-

0720

07-1

2-02

2008

-01-

2720

08-0

3-23

2008

-05-

1820

08-0

7-13

2008

-09-

0720

08-1

1-02

2008

-12-

2820

09-0

2-22

2009

-04-

1920

09-0

6-14

2009

-08-

0920

09-1

0-04

2009

-11-

2920

10-0

1-24

2010

-03-

2120

10-0

5-16

2010

-07-

1120

10-0

9-05

2010

-10-

3120

10-1

2-26

2011

-02-

2020

11-0

4-17

2011

-06-

1220

11-0

8-07

2011

-10-

0220

11-1

1-27

2012

-01-

2220

12-0

3-18

2012

-05-

1320

12-0

7-08

クールビズ

ウォームビズ

マーケットバスケット分析が時間的に同期化したファクターの共起関係に注目する のに対し、他のファクターからの波及、時間のずれた共起(相関)関係に注目する

仮説: ウォームビズ follows クールビズ

Page 40: ビッグデータ時代のテキストマイニング ~マーケティング活用事 …ftp.msi.co.jp/userconf/2012/pdf/muc12_THA_1.pdf · ビッグデータ時代のテキストマイニング

40

All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012

位相がずれている例: クールビズとウォームビズ

2005_2Q

2005_3Q

2005_4Q

2006_1Q

2006_2Q 2006_3Q

2006_4Q

2007_1Q

2007_2Q

2007_3Q

2007_4Q

2008_1Q

2008_2Q

2008_3Q

2008_4Q

2009_1Q

2009_2Q

2009_3Q

2009_4Q

2010_1Q

2010_2Q

2010_3Q

2010_4Q

2011_1Q 2011_2Q

2011_3Q

2011_4Q

2012_1Q

2012_2Q 0.01

1

100

1 10 100 1000

注)対数軸のため、0の値を0.01に変更している

スパイラル・ダウン

Page 41: ビッグデータ時代のテキストマイニング ~マーケティング活用事 …ftp.msi.co.jp/userconf/2012/pdf/muc12_THA_1.pdf · ビッグデータ時代のテキストマイニング

41

All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012

ビッグデータのトレンド Google Insights と 日経新聞の同期化

0

100

200

300

400ビッグデータ

Bigdata

日経新聞記事

Page 42: ビッグデータ時代のテキストマイニング ~マーケティング活用事 …ftp.msi.co.jp/userconf/2012/pdf/muc12_THA_1.pdf · ビッグデータ時代のテキストマイニング

42

All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012

ビッグデータのトレンド Google Insights と 日経新聞の同期化

0

10

20

30

0 20 40 60 80 100

日経記事件数

Google検索件数

仮説:新聞記事 follows Web検索

Page 43: ビッグデータ時代のテキストマイニング ~マーケティング活用事 …ftp.msi.co.jp/userconf/2012/pdf/muc12_THA_1.pdf · ビッグデータ時代のテキストマイニング

43

All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012

Ⅱ ビッグデータをキーワードにした テキストマイニングの事例

1. ビッグデータ(新聞記事) 2. eWOM(学術誌) 3. 普及曲線とスパイラル曲線 4. 過去のIT関連ブーム 5. POSとeWOM

Key Question: ビッグ・データのトレンドは、どう広がるか? =>過去のIT関連ブームは、どのように普及し収束していったか?

Page 44: ビッグデータ時代のテキストマイニング ~マーケティング活用事 …ftp.msi.co.jp/userconf/2012/pdf/muc12_THA_1.pdf · ビッグデータ時代のテキストマイニング

44

All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012

これまでのIT関連ブーム • BPR

– ハマー&チャンピー:リエンジニアリング • ERP

– 業務統合ソフト • データウェアハウス

– リレーショナルデータベース – コッド博士:OLAP

• SCM – ゴールドラット:ザ・ゴール、制約理論 – I2などのソフトウェア

• ブームの共通点 – IT関連企業が、ソリューションやソフトウェアを準備 – 日本企業は欧米の優れた事例を調査して、自社に適用可能性を判断

Page 45: ビッグデータ時代のテキストマイニング ~マーケティング活用事 …ftp.msi.co.jp/userconf/2012/pdf/muc12_THA_1.pdf · ビッグデータ時代のテキストマイニング

45

All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012

タイムラグ分析*

• 異なるデータソースを用いて同期化 – 新聞記事 – アカデミック文献

• それぞれを包括的にレビューし、データを抽出、テキストマイニングを実施、関連性を分析する

• ITドリブンのイノベーション普及とFollow仮説(H.Sasaki) – Structure follows strategy (Chandler,1962) by 2-4 years. – The diffusion of publication is slower than the diffusion of

innovation.

*以下、次の報告資料を利用:H.Sasaki(2012),”IS research and its standpoint -Revisiting the “reference discipline” problem from Japan-”, Tokyo Keizai University Information Systems Symposium 2012.

Page 46: ビッグデータ時代のテキストマイニング ~マーケティング活用事 …ftp.msi.co.jp/userconf/2012/pdf/muc12_THA_1.pdf · ビッグデータ時代のテキストマイニング

46

All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012

タイムラグ(文献と新聞)*: Outsourcing

B

A

5年

4年

タイムラグ 1年

The

num

ber o

f art

icle

s 日経記事: 2,326件 日経記事中組織変革関連: 632件 論文(全世界:ジャーナル誌):210件

新聞記事 組織変革 ジャーナル掲載

(A)イノベーション普及:新聞記事=>組織変化 (B)文献発刊 :新聞記事=>ジャーナル掲載

Page 47: ビッグデータ時代のテキストマイニング ~マーケティング活用事 …ftp.msi.co.jp/userconf/2012/pdf/muc12_THA_1.pdf · ビッグデータ時代のテキストマイニング

47

All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012

タイムラグ(文献と新聞)*: ERP

B

A

6年

3年

新聞記事 組織変革 ジャーナル掲載

(A)イノベーション普及:新聞記事=>組織変化 (B)文献発刊 :新聞記事=>ジャーナル掲載

日経: 702件 日経記事中組織変革関連: 354件 論文(全世界:ジャーナル誌):109件

タイムラグ:3年

The

num

ber o

f art

icle

s

Page 48: ビッグデータ時代のテキストマイニング ~マーケティング活用事 …ftp.msi.co.jp/userconf/2012/pdf/muc12_THA_1.pdf · ビッグデータ時代のテキストマイニング

48

All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012

タイムラグ(文献と新聞)*: SCM

B

A

6年

2年

新しいサイクルの出現

日経記事: 1,222件 日経記事中組織変革関連: 782件 論文(全世界:ジャーナル誌):162件

タイムラグ:4年

The

num

ber o

f art

icle

s

(A)イノベーション普及:新聞記事=>組織変化 (B)文献発刊 :新聞記事=>ジャーナル掲載

新聞記事 組織変革 ジャーナル掲載

Page 49: ビッグデータ時代のテキストマイニング ~マーケティング活用事 …ftp.msi.co.jp/userconf/2012/pdf/muc12_THA_1.pdf · ビッグデータ時代のテキストマイニング

49

All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012

スパイラル曲線: SCM

SCM(News)

SCM

(Org

aniza

tiona

l cha

nge)

Page 50: ビッグデータ時代のテキストマイニング ~マーケティング活用事 …ftp.msi.co.jp/userconf/2012/pdf/muc12_THA_1.pdf · ビッグデータ時代のテキストマイニング

50

All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012

Ⅲ テキストマイニングの効率化

Page 51: ビッグデータ時代のテキストマイニング ~マーケティング活用事 …ftp.msi.co.jp/userconf/2012/pdf/muc12_THA_1.pdf · ビッグデータ時代のテキストマイニング

51

テキストマイニングと仮説検証プロセス

ビッグ・データ (多様なソース)

即時処理

バッチ処理 原データ

アルゴリズム 埋め込み

テキストマイニング・ソフト

統計ソフトウェアなど

データ 収集

仮説・検証

形容詞(ポジ・ネガ) 名詞(共起) 動詞(過去・現在・未来)

即座に情報提供

変化・シグナルをウォッチ

定型化

高速アナリティクス

All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012

Page 52: ビッグデータ時代のテキストマイニング ~マーケティング活用事 …ftp.msi.co.jp/userconf/2012/pdf/muc12_THA_1.pdf · ビッグデータ時代のテキストマイニング

52

All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012

おわり

ご清聴、ありがとうございました sasaki-h(a)rikkyo.ac.jp