2011 11 25_data_mining_lecture_10

34
Введение в анализ данных: Анализ ссылок 2 Юля Киселёва [email protected] Школа анализа данных

Upload: cs-center

Post on 18-Jun-2015

304 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: 2011 11 25_data_mining_lecture_10

Введение в анализ данных:

Анализ ссылок 2 Юля Киселёва [email protected] Школа анализа данных

     

Page 2: 2011 11 25_data_mining_lecture_10

01.12.11   Введение  в  анализ  данных   3  

План на сегодня

•  Hub  and  authori=es  – HITS  (hyperlink-­‐induced  topic  search)  

•  Link  Spam  – История  спама  – «Фермы»  спама  – Trust  Rank  

   

Page 3: 2011 11 25_data_mining_lecture_10

Hub and authorities

•  Существует  два  типа  интересных  страниц:  §  Authori=es    -­‐  это  страницы,  которые  содержат  

интересную  информацию  §  Стартовая  страница  газеты  §  Стартовая  страница  производителя  авто  

   

 

01.12.11   Введение  в  анализ  данных   4  

Page 4: 2011 11 25_data_mining_lecture_10

01.12.11   Введение  в  анализ  данных   5  

Hub and authorities(2)

•    Hub   –   это   страницы,   которые   ссылаются   на  authori=es  •  Список  газет  •  Список  производителей  автомобилей  

Page 5: 2011 11 25_data_mining_lecture_10

Рекурсивное определение

•  Хороший  hub  ссылается  на  много  хороших  authority  страниц  

•  На  хороший  authority  ссылаются  много  hub  страниц  

•  Модель  использует    2  оценки:  •  Для  веб-­‐страниц  v  в  рассматриваем  срезе  Интернета:  h(v)  –  hub  score,  a(v)  –  authority  score  

 

Page 6: 2011 11 25_data_mining_lecture_10

01.12.11   Введение  в  анализ  данных   7  

Рекурсивное определение (2)

 •  h(v)=a(v)=1  для  всех  v  •  v-­‐>y  –  условие  при  котором  существует  

гиперссылка  между  v  и  y    

 

h(v)! a(y)v"y#

a(v)! h(y)y"v#

Page 7: 2011 11 25_data_mining_lecture_10

01.12.11   Введение  в  анализ  данных   8  

Матрица переходов А

•  HITS  (hyperlink-­‐induced  topic  search)  использует  матрицу  смежности  

•  А[i,  j]  =  1                          если  i  ссылается  на  j  •                             0                          иначе  

•         похожа  на  матрицу  М  из  PageRank,  но  в  матрице  М  были  дроби  а  в                единицы  AT

AT

!h! A!a !a! AT

!h

Page 8: 2011 11 25_data_mining_lecture_10

01.12.11   Введение  в  анализ  данных   9  

Hub and authorities (3)

     

•  HITS  (hyperlink-­‐induced  topic  search)  использует  матрицу  смежности  

•  А[i,  j]  =  1                          если  i  ссылается  на  j  •                             0                          иначе  

•         похожа  на  матрицу  М  из  PageRank,  но  в  матрице  М  были  дроби  а  в                единицы  

Page 9: 2011 11 25_data_mining_lecture_10

•  Нотация:  –  Вектора:  –  Матрица  смежности  (n  x  n):        

01.12.11   Введение  в  анализ  данных   10  

Hub and authorities (4)

a = (a1,a2,...,an ) h = (h1,h2,...,hn )

Page 10: 2011 11 25_data_mining_lecture_10

01.12.11   Введение  в  анализ  данных   11  

Уравнение Hubs and authority

•  Hub  score  страницы  i  пропорционально  сумме    authority  score,  страниц  на  которые  она  ссылается:    §  Где        –  это  масштабирующий  коэффициент  

§  Authority  score  страницы  i  пропорционально  сумме  hub  score  страниц,  которые  на  нее  ссылаются:    

Page 11: 2011 11 25_data_mining_lecture_10

01.12.11   Введение  в  анализ  данных   12  

Итеративный алгоритм

•  HITS  алгоритм  –  Инициализируем  h  и  a  (все  1)  –  Повторяем  

–  Cумма  элементов  h  =  1  

–  Cумма  элементов  a  =  1  –  До  тех  пор  пока  h  and  a    не  сойдутся  

Page 12: 2011 11 25_data_mining_lecture_10

01.12.11   Введение  в  анализ  данных   13  

Hubs and authorities Алгоритм

Внимание  вопрос?  Какие  можем  сделать  модификации?  

Page 13: 2011 11 25_data_mining_lecture_10

 

01.12.11   Введение  в  анализ  данных   14  

Hubs and authorities Алгоритм(2)

Page 14: 2011 11 25_data_mining_lecture_10

§  HITS  итеративный  алгоритм  сходится  к  векторам  h*  и  а*  

§  h*  -­‐  это  собственный  вектор  матрицы    

§  a*  -­‐  это  собственный  вектор  матрицы    

01.12.11   Введение  в  анализ  данных   15  

Существование и единственность

Page 15: 2011 11 25_data_mining_lecture_10

01.12.11   Введение  в  анализ  данных   16  

•  PageRank    и  НITS  –  это  2  решения  одной  проблемы:  §  Какова  значимость  ссылки  со  страницы  v  на  страницу  u?  

§  В  модели    PageRank,  значимость  ссылки    зависит  от  ссылок  на  страницу  u  

§  В  модели  HITS  значимость  ссылки  зависит  от    ссылок  со  страницы  u  

01.12.11   Введение  в  анализ  данных   16  

PageRank and HITS

Page 16: 2011 11 25_data_mining_lecture_10

01.12.11   Введение  в  анализ  данных   17  

План на сегодня

•  Hub  and  authori=es  – HITS  (hyperlink-­‐induced  topic  search)  

•  Link  Spam  – История  спама  – «Фермы»  спама  – Trust  Rank  

   

Page 17: 2011 11 25_data_mining_lecture_10

01.12.11   Введение  в  анализ  данных   18  01.12.11   Введение  в  анализ  данных   18  

Что такое спам?

•  Процесс  спама  (spamming)  =  любое  преднамеренное  действие    с  целью  повышения  позиции  веб-­‐страницы  в  результатах  поиска,  путем  увеличения  реальной  стоимости  страницы  

•  Cпам  (spam)  =  cтраницы  созданные  для  spamming  

•   SEO  =  search  engine  op=miza=on  •  Примерно  10-­‐15%  всех  страниц  –  это  спам  

Page 18: 2011 11 25_data_mining_lecture_10

01.12.11   Введение  в  анализ  данных   19  01.12.11   Введение  в  анализ  данных   19  

Ранние поисковые машины

1.  Сrawl  Интернет  (следуя  ссылкам  со  страницы  на  страницу)  

2.  Индексация  страниц  на  основе  слов,  которые  они  содержат  

3.   Ответ  на  запрос    пользователя  (список  слов)  страницами,  которые  содержат  слова  из  запроса  

Page 19: 2011 11 25_data_mining_lecture_10

01.12.11   Введение  в  анализ  данных   20  

Первые алгоритмы ранжирования

•  Пытались  ранжировать  страницы  на  основе  важности  страницы  для  конкретного  запроса  

•  Поисковые  машины  использовали:  1.  Количество  раз  когда  слова  

встретилось  на  странице  2.  Местоположение  слова  (=tle,    header,  …)  

Page 20: 2011 11 25_data_mining_lecture_10

01.12.11   Введение  в  анализ  данных   21  

Первые спамеры

•  Люди  начинали  использовать  поисковые  машины  для  поиска  по  интернету.  Коммерческие  компании  пытались  оптимизировать  контент  своей  страницы,  с  целью  повысить  позицию  страницы  на  популярные  поисковые  запросы.  

•  Пример:  страницы,  посвященные  продаже  футболок,  показывались  на  запрос:  «про  фильмы»  

Page 21: 2011 11 25_data_mining_lecture_10

01.12.11   Введение  в  анализ  данных   22  

Первые спамеры(2)

•  Как  Вы  можете  сделать  так,  чтобы  Ваша  страница  показывалась  в  ответ  на  запроса  «о  фильмах»?  

•  Ответ:  вставить  слова  «фильм»  1000  раз  на  свою  страницу.  Так,  что  только  поисковая  машина  может  их  видеть.  

Page 22: 2011 11 25_data_mining_lecture_10

01.12.11   Введение  в  анализ  данных   23  

Первые спамеры(3)

•  Еще  варианты?  

•  Ответ:    •  задайте  запроса  «фильм»  в  вашей  целевой  поисковой  машине.    

•  Посмотрите,  какие  страницы  показались  первыми.  

•  Скопируйте  их  на  вашу  страницы  (скройте  от  пользователей)  

•  Подобные  техники  называются  term  spam  

Page 23: 2011 11 25_data_mining_lecture_10

01.12.11   Введение  в  анализ  данных   24  

Решение Google для борьбы с term spam

   

•  Верить  тому,  что  люди  говорят  о  тебе,    а  не  то,  что  ты  говоришь  о  себе  сам  –  Текст  в  anchor  text  и  близлежащий  текст  

•  PageRank  –  это  способ  измерить  «важность»  страницы  

Page 24: 2011 11 25_data_mining_lecture_10

01.12.11   Введение  в  анализ  данных   25  

Раунд 2: Ccылочный спам

•  Как  только  google  стал  один  из  самых  популярных  поисковых  машин,  спамеры  стали  находить  пути,  чтобы  его  обмануть.  

•  Были  созданы    «фермы  спама»  (spam  farms)  

   

Page 25: 2011 11 25_data_mining_lecture_10

01.12.11   Введение  в  анализ  данных   26  01.12.11   Введение  в  анализ  данных   26  

Внешние ссылки

•  Откуда  приходят  внешние  ссылки?  

•  Страницы  блога  позволяют  спаммерам  добавлять  комментарии  типа  «I  agree.  See  

www.mySpamFarm.com  .»  

Page 26: 2011 11 25_data_mining_lecture_10

   

01.12.11   Введение  в  анализ  данных   27  

Борьба с ссылочным спамом

•  Определение  структуры,  которая  выглядит  как  спам  

•  TrustRank  =  topic-­‐specific  PageRank  с  телепортацией  только  на  «проверенные»  страницы  

•  Пример:  .edu  домены    

Page 27: 2011 11 25_data_mining_lecture_10

01.12.11   Введение  в  анализ  данных   28  01.12.11   Введение  в  анализ  данных   28  01.12.11   Введение  в  анализ  данных   28  

Term Spamming

•  Повторение:  •  Одного  или  нескольких  специфических  термов  –  free,  cheap,  viagra  

•  Dumping:  •  Большое  количество  несвязанных  термов  

•  Weaving:  •  Вставка  спама  в  случайные  места  нормального  текста  

•  Phrase  S=tching:  •  «Склейка»  предложений    и  фраз  из  разных  источников  

Page 28: 2011 11 25_data_mining_lecture_10

     

01.12.11   Введение  в  анализ  данных   29  

Определение спама

•  Анализ  текста  с  использование  статистичеких  методов  (например  Naïve  Bayes  Classifier)    

•  Также  полезно  определение  страниц-­‐дубликатов  

Page 29: 2011 11 25_data_mining_lecture_10

01.12.11   Введение  в  анализ  данных   30  01.12.11   Введение  в  анализ  данных   30  

 

01.12.11   Введение  в  анализ  данных   30  

Ссылочный спам

С  точки  зрение  спамера  существует  3  типа  страниц:  – Недоступные  страницы  – Доступные  страниц:  

•  Комментарии  в  блогах  – Их  собственные  страницы  

Page 30: 2011 11 25_data_mining_lecture_10

01.12.11   Введение  в  анализ  данных   31  

«Фермы» спама

•   Цель  спаммеров:  – Увеличить  pageRank  

•  Cпособы:  – Сделать  как  можно  больше  ссылок  с  доступных  страниц  на  целевую  страницу  t  

–   cоздать  «ферму»  спама,  чтобы  увеличит  pageRank  

Page 31: 2011 11 25_data_mining_lecture_10

01.12.11   Введение  в  анализ  данных   32  

«Фермы» спама (2)

Page 32: 2011 11 25_data_mining_lecture_10

01.12.11   Введение  в  анализ  данных   33  

Идея TrustRank

•  Основной  принцип  –  приблизительная  изоляция:  – Это  редкость,  если  «хорошая»  страница  ссылается  на  «плохую»  

•  Набор  seed  страниц  в  интернете  •  Человеческая  экспертиза  для  определения  «плохих»  страниц  в  наборе  seed  страниц  – Дорогое  удовольствие,  вы  должны  сделать  набор  seed  как  можно  меньшим  

Page 33: 2011 11 25_data_mining_lecture_10

01.12.11   Введение  в  анализ  данных   34  

Выбор seed набора страниц

•  Выбрать  топ  страниц,  согласно  PageRank  – Предположение:  не  может  «плохим»  страницам  быть  присвоен  высокий  pageRank  

•  Можно  использовать  домены,  которые  контролирются,  как  .edu,  .gov  и  др.    

Page 34: 2011 11 25_data_mining_lecture_10

01.12.11   Введение  в  анализ  данных   35  

Резюме

•  Узнали  про  Hub  and  authori=es  •  Узнали  про  HITS  (hyperlink-­‐induced  topic  search).  Поняли  чем  отличается  от  PageRank  

•  И  затронули  интересующий  многих  вопроса  про  Link  Spam  

•  Вспомнили  историю  спама  •  Побывали  на  «Ферме»  спама  •   Поверили  в  Trust  Rank  J