présentation: algorithme pour le web article:« scalable techniques for clustering the web »...

28
Présentation: Algorithme pour le web Article:« Scalable Techniques for clustering the Web » Professeur:José Rolim Assistant:Matthieu Bouget

Upload: jules-vigneron

Post on 04-Apr-2015

106 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Présentation: Algorithme pour le web Article:« Scalable Techniques for clustering the Web » Professeur:José Rolim Assistant:Matthieu Bouget

Présentation:Algorithme pour le web

Article:« Scalable Techniques for clustering the Web »

Professeur:José RolimAssistant:Matthieu Bouget

Page 2: Présentation: Algorithme pour le web Article:« Scalable Techniques for clustering the Web » Professeur:José Rolim Assistant:Matthieu Bouget

Sommaire

• Introduction• Deux approches pour le clustering du web • Représentation d’un document• Mesure de similarité• Algorithme LSH(locality-sensitive hashing)• Clustering• Résultats des expériences• Références

Page 3: Présentation: Algorithme pour le web Article:« Scalable Techniques for clustering the Web » Professeur:José Rolim Assistant:Matthieu Bouget

Introduction

• Le clustering est l’une des principales méthodes pour traiter la grande quantité d’information actuelle du web.Avec les milliards de pages sur le web,des algorithmes de clustering fortement scalables sont nécessaires.

Page 4: Présentation: Algorithme pour le web Article:« Scalable Techniques for clustering the Web » Professeur:José Rolim Assistant:Matthieu Bouget

Deux approches pour le clustering du web

• Les approches pour le clustering du web peuvent être divisées en deux catégories:

Offline Clustering: il s’agit de grouper les pages indépendamment des

questions de recherche. C’est à dire qu’on essaie de construire des ensembles

de pages relatives en se basant sur une certaine métrique(la plupart du temps une notion de similarité).

Page 5: Présentation: Algorithme pour le web Article:« Scalable Techniques for clustering the Web » Professeur:José Rolim Assistant:Matthieu Bouget

Deux approches pour le clustering du web(suite)

Online Clustering: Dans ce cas le clustering est fait par rapport aux questions de

recherche selon une matière donnée. cette approche utilise deux méthodes: le méthode basé lien et la

méthode basée texte.

Page 6: Présentation: Algorithme pour le web Article:« Scalable Techniques for clustering the Web » Professeur:José Rolim Assistant:Matthieu Bouget

• Ces deux méthodes pour le clustering online ont donné de bons résultats pour trouver des pages qui parlent d’un même sujet.

• Mais la méthode basée texte n’est en général pas scalable pour le clustering offline de web entier.

• Et la méthode basée lien est souvent confrontée aux habituelles techniques de filtrage collaboratif:

Page 7: Présentation: Algorithme pour le web Article:« Scalable Techniques for clustering the Web » Professeur:José Rolim Assistant:Matthieu Bouget

• Au moins quelques pages se dirigeant à deux pages sont nécessaires afin de fournir l'évidence de la similitude entre les deux. Ceci empêche des moteurs de recherche de trouver les relations tôt dans la vie de la page, par exemple, quand elle est crawlée en premier. Des pages sont considerées comme semblables seulement quand un nombre suffisant de pages les co-citent.

Page 8: Présentation: Algorithme pour le web Article:« Scalable Techniques for clustering the Web » Professeur:José Rolim Assistant:Matthieu Bouget

• les méthodes basées lien sont sensibles aux choix spécifiques faits par les auteurs des pages Web ; par exemple certains utilisent CNN pour les informations météo et d’autres MSNBC et il se peut très bien qu’il n’y ait aucun lien entre ces deux pages.

Page 9: Présentation: Algorithme pour le web Article:« Scalable Techniques for clustering the Web » Professeur:José Rolim Assistant:Matthieu Bouget

• Pour surmonter les limitations des approches ci-dessus, on introduit l’algorithme LSH( locality-sensitive hashing ) dont l’idée de base est d’effectuer un hashage des pages web de telle manière que les pages similaires aient une plus grande probabilité de collision.

Page 10: Présentation: Algorithme pour le web Article:« Scalable Techniques for clustering the Web » Professeur:José Rolim Assistant:Matthieu Bouget

Représentation d’un document

• La plupart du temps un document est représenté comme un vecteur n-dimensionnel, où la dimension i est la fréquence du termi.

• Dans notre cas un document docu est représenté par un bag

où wui sont les mots présents dans

le bag et fui les fréquences correspondantes.

les fréquences des mots sont calculées grâce à la formule:

Page 11: Présentation: Algorithme pour le web Article:« Scalable Techniques for clustering the Web » Professeur:José Rolim Assistant:Matthieu Bouget

• Avec

• : la fréquence du mot i dans tout le document

• N:nombre de documents

• Et comme avant.

Page 12: Présentation: Algorithme pour le web Article:« Scalable Techniques for clustering the Web » Professeur:José Rolim Assistant:Matthieu Bouget

Représentation d’un document(suite)

• Deux options pour générer le bag

c’est pour décider quels mots en font partie:Content-Based Bags

dans ce cas le bag est donné par le multi ensemble des mots apparaissant dans le document u.

on élimine les commentaires HTML,le code javascript.

on utilise aussi une liste de stopword.Anchor-Based Bags

Mais l’utilisation du contenu des pages est problématique dans la mesure où elle ne prend pas en compte les liens et les images.

Cela soulève aussi des problèmes de polysémie et de synonymie.

Page 13: Présentation: Algorithme pour le web Article:« Scalable Techniques for clustering the Web » Professeur:José Rolim Assistant:Matthieu Bouget

• Pour alléger ce problème le bag représentant un document sera un multi ensemble des occurrences des mots près des hyperliens de la page.

• Donc pour générer ces bag nous procédons comme précédemment sauf qu’au lieu de construire un sac des mots du documents ,on construit un fragment de sac pour chaque URL auquel le document est lié.

• Chaque fragment de sac comprend le texte d’ancre de l’URL , aussi bien qu'une fenêtre des mots juste avant et

juste après le lien • Dans les expériences de l’article la taille de la fenêtre

est de 8.

Page 14: Présentation: Algorithme pour le web Article:« Scalable Techniques for clustering the Web » Professeur:José Rolim Assistant:Matthieu Bouget

Mesure de similarité

• Pour chaque paire d’url u et v ,leur similarité est donnée par:

• Exemple:on applique cette mesure de similarité au Anchor-Based bags

• Expérience:

Page 15: Présentation: Algorithme pour le web Article:« Scalable Techniques for clustering the Web » Professeur:José Rolim Assistant:Matthieu Bouget

• Ils prennent les 12 premiers millions de pages du répertoire du Stanford WebBase à partir d’un crawl effectué en 1999.

• Ces 12 millions de pages permettent la génération de Anchor-Based bags de 35 millions d’urls.

• Ils ont choisi aléatoirement 20 urls au deuxième niveau de la hiérarchie Yahoo et ont trouvé les 10 plus proches voisins de chaque url dans la collection de 35 millions d’url en se basant sur la mesure de similarité définie plus haut.

Page 16: Présentation: Algorithme pour le web Article:« Scalable Techniques for clustering the Web » Professeur:José Rolim Assistant:Matthieu Bouget

• On parcourt donc les sacs générés pour trouver les 10 plus proches voisins.

• Trouver des pages similaires deux par deux dans un lot de 35 millions d’url ce n’est pas très élégant mais nous verrons une manière plus efficace lorsque nous parleront du LSH.

• Les premiers résultats suggère que le Anchor-Based Bags est une bonne technique pour juger de la similitude des documents.

Page 17: Présentation: Algorithme pour le web Article:« Scalable Techniques for clustering the Web » Professeur:José Rolim Assistant:Matthieu Bouget

• Quelques résultats:• 2 sujets: 1.English langage studies

2.food

Page 18: Présentation: Algorithme pour le web Article:« Scalable Techniques for clustering the Web » Professeur:José Rolim Assistant:Matthieu Bouget
Page 19: Présentation: Algorithme pour le web Article:« Scalable Techniques for clustering the Web » Professeur:José Rolim Assistant:Matthieu Bouget

Algorithme LSH

• L’idée c’est de créer une signature pour chaque url pour assurer que les url similaires aient une signature similaire.

• En admettant que les bags sont des ensembles,on utilise la formule:

• ,où mh est est choisi de manière aléatoire dans la famille des fonctions de Hashage

Page 20: Présentation: Algorithme pour le web Article:« Scalable Techniques for clustering the Web » Professeur:José Rolim Assistant:Matthieu Bouget

• On trouve une MH-signature par

minw {h(w)|w appartient S}

S est l’ensemble qui représente B(bag)

h(.) est une fonction linéaire de hashage

Cette MH-signature a la propriété que la même valeur correspond à des urls similaires.

• Mais comme la méthode est basée sur des probabilités ,on peut avoir des faux positifs et des faux négatifs

Page 21: Présentation: Algorithme pour le web Article:« Scalable Techniques for clustering the Web » Professeur:José Rolim Assistant:Matthieu Bouget

• C’est là qu’on introduit la LSH-signature qui est la concaténation de k MH-signature

provenant d’une génération de m MH-signature

• Cela réduit le nombre de faux positifs mais augmentent les faux négatifs.

• Pour cela on génère l différents LSH-signature pour chaque url.

Page 22: Présentation: Algorithme pour le web Article:« Scalable Techniques for clustering the Web » Professeur:José Rolim Assistant:Matthieu Bouget
Page 23: Présentation: Algorithme pour le web Article:« Scalable Techniques for clustering the Web » Professeur:José Rolim Assistant:Matthieu Bouget

• Pour augmenter la qualité de nos résultats et réduire les faux positifs, il y a une étape de filtrage sur les paires produites par l'algorithme d'ExtractSimilarPairs . Pendant cette étape, chaque paire (u,v) est validée en vérifiant si les urls u et v sont d’accord sur une fraction de leurs MH-SIGNATURES qui est au moins aussi grande que le niveau désiré de similitude ( 20%). Si la condition ne se tient pas, la paire est jetée.

Page 24: Présentation: Algorithme pour le web Article:« Scalable Techniques for clustering the Web » Professeur:José Rolim Assistant:Matthieu Bouget

Clustering

• L’ensemble des paires de documents généré par l’algorithme doit être trié.

• Il faut noter que chaque paire apparaît 2 fois (u,v),(v,u).• Pour former les cluster on utilise un algorithme qu’on

appelle CENTER.• L’idée est de considérer les paires similaires comme les

arcs d’un graphe et les urls sont les nœuds. L’algorithme partitionne le graphe de telle manière que dans chaque cluster il y a un center

• Et les autres nœuds du graphe sont «  assez proches» c’est-à-dire qu’il existe un arc(il existe une paire similaire(nœud,center)).

Page 25: Présentation: Algorithme pour le web Article:« Scalable Techniques for clustering the Web » Professeur:José Rolim Assistant:Matthieu Bouget

• L'algorithme parcourt séquentiellement les paires triées. La première fois que le noeud u apparaît dans le parcourt, il est marqué comme centre de cluster. Tous les noeuds v suivants qui apparaissent dans les paires (u,v) sont marqués comme appartenant au cluster de u et ne sont plus considérés.

Page 26: Présentation: Algorithme pour le web Article:« Scalable Techniques for clustering the Web » Professeur:José Rolim Assistant:Matthieu Bouget

Résultats des expériences

• Ils ont utilisé l’approche Anchor-Based pour générer les bags de 35 millions d’urls trouvés partir de 12 millions de pages.

• Ils appliquent ensuite le Clustering basé sur la technique LSH.

• L’algorithme ExtractSimilarPairs est appliquée avec les paramètres suivants:

l=125 m=80 k=3 • Les temps d’exécution de chaque étape sont dans le

tableau suivant:

Page 27: Présentation: Algorithme pour le web Article:« Scalable Techniques for clustering the Web » Professeur:José Rolim Assistant:Matthieu Bouget