知的情報処理 2. search engines - keio university2. search engines 櫻井彰人...

6
知的情報処理 2. Search Engines 櫻井彰人 慶應義塾大学理工学部 まずは、別の話から 山梨県に展開するスーパー「オギノ」 1996年にポイントカード制(オギノグリーンスタンプ カード)を導入 FSP(フリークエントショッパーズプログラム)である 1999年にデータ分析を開始。 顧客の購買履歴データを分析し、商品・サービスの品揃 え、価格設定、セグメンテーションなどの見直しに活用 これは完全に蛇足 あるコンビニのある店における取り組み 071003-「地方の食材をコンビニに」より.avi コーチのマーケティング戦略 071004-女性心理探るコーチの日本戦略.avi 復習 まずは、web検索ツール(webサーチエンジン)の復 習からはじめましょう 検索ツール 次のようなものがある(きりがない、、、) 検索エンジン search engines ディレクトリ search directories メタサーチ meta search engines 画像検索 image search engines 辞書 dictionaries 類義語 thesauri 百科事典 encyclopaedias 地図 maps ニュース news ホテル・鉄道・航空機 reservations グルメ、、、、 日本のサーチエンジン

Upload: others

Post on 12-Jun-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 知的情報処理 2. Search Engines - Keio University2. Search Engines 櫻井彰人 慶應義塾大学理工学部 まずは、別の話から 山梨県に展開するスーパー「オギノ」

1

知的情報処理2. Search Engines

櫻井彰人

慶應義塾大学理工学部

まずは、別の話から

山梨県に展開するスーパー「オギノ」

1996年にポイントカード制(オギノグリーンスタンプ

カード)を導入FSP(フリークエントショッパーズプログラム)である

1999年にデータ分析を開始。

顧客の購買履歴データを分析し、商品・サービスの品揃え、価格設定、セグメンテーションなどの見直しに活用

これは完全に蛇足

あるコンビニのある店における取り組み071003-「地方の食材をコンビニに」より.avi

コーチのマーケティング戦略071004-女性心理探るコーチの日本戦略.avi

復習

まずは、web検索ツール(webサーチエンジン)の復

習からはじめましょう

検索ツール

次のようなものがある(きりがない、、、)

検索エンジン search enginesディレクトリ search directoriesメタサーチ meta search engines画像検索 image search engines辞書 dictionaries類義語 thesauri百科事典 encyclopaedias地図 mapsニュース newsホテル・鉄道・航空機 reservationsグルメ、、、、

日本のサーチエンジン

Page 2: 知的情報処理 2. Search Engines - Keio University2. Search Engines 櫻井彰人 慶應義塾大学理工学部 まずは、別の話から 山梨県に展開するスーパー「オギノ」

2

日本のサーチエンジン 日本のサーチエンジン

2004/06/10現在 371リンクhttp://shikariki.com/link.html

主なサーチエンジン

GoogleAltaVistaYahooAllthewebMSNDogPile

All about JapnaAll the WebAltaVistaBIGLOBEサーチ

ExciteFresheyegooGoogleInfoseekLycosMSNYahoo

メタサーチ

(「メタ」は言葉の乱用だが)すっかり普通に

http://www1.neweb.ne.jp/wa/k-c/

ところで、サーチエンジンとは何か?

ディレクトリ型とクローラー型とがある

クローラーまたはスパイダーと呼ばれるプログラム(複数の、普通は、大量のサーバー上で動く)が

web 上を動き回って、サイトの索引をつくる

そのときには、web サイトのリンク情報を参考にする

ユーザは、キーワードを入力することにより、それにマッチした単語をもつサイトを見つけ出すことができる

すなわち、サーチエンジンは www をサーチするわけではない。予め作成してある索引(index)の上をサーチするのである。

従って、最新の情報が見つかるわけではないといいつつも、最近は非常に早くなっている。ご存じ?

並べ方:重要度 relevance 順なのだが

ページの “人気度 popularity” (DirectHitがもと)訪れる人が多いページ (一般に)クエリの結果、よく訪れるページ

リンクの “co-citation” (Googleがもと)他のサイトにリンクされているサイトはどれか?権威のある文献 “authoritative sources” をみつける、も

ともとは、文献学・社会学の考察に基づく

Page 3: 知的情報処理 2. Search Engines - Keio University2. Search Engines 櫻井彰人 慶應義塾大学理工学部 まずは、別の話から 山梨県に展開するスーパー「オギノ」

3

問題はないか?

皆さんは、どちらでしょうか?

結構うまく検索できて、あまり不満はない

いや~、結構不満あるよ。検索がしにくい

いくつかある不満点のうち代表的(と思われるもの)

ランキングが不適切

ランキングだけではないようだ

同じ綴りであっても意味が異なる場合、(目下の検索目的にとっては)重要ではないサイトが上位にきている

例えば、私は先日、Ruby で書いたElizaというプログラムを探したいと考え、Google で Ruby Eliza を2個のキーワードとして検索をした。100万件以上ヒットするのだが、どうも関係ないものばかりが並んでいる。さてどうしたものだろうかと思い悩んだ

提案

検索されたサイトを、内容ごとに類別し、内容ごとまたは分野ごとにまとめて提示してくれると探しやすい

同じ不便さを感じる人は多くいるに違いない!

このように、似たもの同士を仲間としてまとめ、そうでないものは別の仲間にすることを clustering とい

う。cluster とは(葡萄のような)房状のものをいう

新たな試み: 事例 vivisimo

http://vivisimo.com/

Vivisimo (2006)

Vivisimo Clusty

Page 4: 知的情報処理 2. Search Engines - Keio University2. Search Engines 櫻井彰人 慶應義塾大学理工学部 まずは、別の話から 山梨県に展開するスーパー「オギノ」

4

Mooter

http://www.mooter.co.jp/

Mooter

Mooter(2006)

http://www.mooter.com/

Mooter(2006)

Mooter(2006) Grokker

http://www.grokker.com/

Page 5: 知的情報処理 2. Search Engines - Keio University2. Search Engines 櫻井彰人 慶應義塾大学理工学部 まずは、別の話から 山梨県に展開するスーパー「オギノ」

5

Grokker(2006)

http://www.grokker.com/

Grokker (2005)

http://www.grokker.com/

Grokker Grokker (2005)

Grokker Grokker(2006)

Page 6: 知的情報処理 2. Search Engines - Keio University2. Search Engines 櫻井彰人 慶應義塾大学理工学部 まずは、別の話から 山梨県に展開するスーパー「オギノ」

6

Grokker (2005) Grokker (2005)

Websom

http://websom.hut.fi/websom/milliondemo/html/root.html

基本技術: クラスタリング

Clustering or cluster analysis とは?何を

n 個の対象物

しばしば、ベクトルで表現

実際には、何を「ベクトル」にとるかが難しい

どういう情報をもとに対象物2個の間の距離

類似していれば近く、差異が大きければ遠い

ベクトル表現したときは、どういう距離を用いるか

どうやって??

当日レポート

実際にクラスタリングを用いた検索エンジンを使い、その評価を行う。

検索するキーワードを3個(相互関係なし)決める

(各自独自に)。そして、各キーワードにつきVivisimo と Clusty の結果を比べる

さらに、Mooter および Grokker も比較対象とする

何が違うか。参考: いずれもメタ検索である。