présentation: algorithme pour le web article:« scalable techniques for clustering the web »...

Présentation:Algorithme pour le web

Article:« Scalable Techniques for clustering the Web »

Professeur:José RolimAssistant:Matthieu Bouget

Sommaire

• Introduction• Deux approches pour le clustering du web • Représentation d’un document• Mesure de similarité• Algorithme LSH(locality-sensitive hashing)• Clustering• Résultats des expériences• Références

Introduction

• Le clustering est l’une des principales méthodes pour traiter la grande quantité d’information actuelle du web.Avec les milliards de pages sur le web,des algorithmes de clustering fortement scalables sont nécessaires.

Deux approches pour le clustering du web

• Les approches pour le clustering du web peuvent être divisées en deux catégories:

Offline Clustering: il s’agit de grouper les pages indépendamment des

questions de recherche. C’est à dire qu’on essaie de construire des ensembles

de pages relatives en se basant sur une certaine métrique(la plupart du temps une notion de similarité).

Deux approches pour le clustering du web(suite)

Online Clustering: Dans ce cas le clustering est fait par rapport aux questions de

recherche selon une matière donnée. cette approche utilise deux méthodes: le méthode basé lien et la

méthode basée texte.

• Ces deux méthodes pour le clustering online ont donné de bons résultats pour trouver des pages qui parlent d’un même sujet.

• Mais la méthode basée texte n’est en général pas scalable pour le clustering offline de web entier.

• Et la méthode basée lien est souvent confrontée aux habituelles techniques de filtrage collaboratif:

• Au moins quelques pages se dirigeant à deux pages sont nécessaires afin de fournir l'évidence de la similitude entre les deux. Ceci empêche des moteurs de recherche de trouver les relations tôt dans la vie de la page, par exemple, quand elle est crawlée en premier. Des pages sont considerées comme semblables seulement quand un nombre suffisant de pages les co-citent.

• les méthodes basées lien sont sensibles aux choix spécifiques faits par les auteurs des pages Web ; par exemple certains utilisent CNN pour les informations météo et d’autres MSNBC et il se peut très bien qu’il n’y ait aucun lien entre ces deux pages.

• Pour surmonter les limitations des approches ci-dessus, on introduit l’algorithme LSH( locality-sensitive hashing ) dont l’idée de base est d’effectuer un hashage des pages web de telle manière que les pages similaires aient une plus grande probabilité de collision.

Représentation d’un document

• La plupart du temps un document est représenté comme un vecteur n-dimensionnel, où la dimension i est la fréquence du termi.

• Dans notre cas un document docu est représenté par un bag

où wui sont les mots présents dans

le bag et fui les fréquences correspondantes.

les fréquences des mots sont calculées grâce à la formule:

• Avec

• : la fréquence du mot i dans tout le document

• N:nombre de documents

• Et comme avant.

Représentation d’un document(suite)

• Deux options pour générer le bag

c’est pour décider quels mots en font partie:Content-Based Bags

dans ce cas le bag est donné par le multi ensemble des mots apparaissant dans le document u.

on élimine les commentaires HTML,le code javascript.

on utilise aussi une liste de stopword.Anchor-Based Bags

Mais l’utilisation du contenu des pages est problématique dans la mesure où elle ne prend pas en compte les liens et les images.

Cela soulève aussi des problèmes de polysémie et de synonymie.

• Pour alléger ce problème le bag représentant un document sera un multi ensemble des occurrences des mots près des hyperliens de la page.

• Donc pour générer ces bag nous procédons comme précédemment sauf qu’au lieu de construire un sac des mots du documents ,on construit un fragment de sac pour chaque URL auquel le document est lié.

• Chaque fragment de sac comprend le texte d’ancre de l’URL , aussi bien qu'une fenêtre des mots juste avant et

juste après le lien • Dans les expériences de l’article la taille de la fenêtre

est de 8.

Mesure de similarité

• Pour chaque paire d’url u et v ,leur similarité est donnée par:

•

• Exemple:on applique cette mesure de similarité au Anchor-Based bags

• Expérience:

• Ils prennent les 12 premiers millions de pages du répertoire du Stanford WebBase à partir d’un crawl effectué en 1999.

• Ces 12 millions de pages permettent la génération de Anchor-Based bags de 35 millions d’urls.

• Ils ont choisi aléatoirement 20 urls au deuxième niveau de la hiérarchie Yahoo et ont trouvé les 10 plus proches voisins de chaque url dans la collection de 35 millions d’url en se basant sur la mesure de similarité définie plus haut.

• On parcourt donc les sacs générés pour trouver les 10 plus proches voisins.

• Trouver des pages similaires deux par deux dans un lot de 35 millions d’url ce n’est pas très élégant mais nous verrons une manière plus efficace lorsque nous parleront du LSH.

• Les premiers résultats suggère que le Anchor-Based Bags est une bonne technique pour juger de la similitude des documents.

• Quelques résultats:• 2 sujets: 1.English langage studies

2.food

Algorithme LSH

• L’idée c’est de créer une signature pour chaque url pour assurer que les url similaires aient une signature similaire.

• En admettant que les bags sont des ensembles,on utilise la formule:

• ,où mh est est choisi de manière aléatoire dans la famille des fonctions de Hashage

• On trouve une MH-signature par

minw {h(w)|w appartient S}

S est l’ensemble qui représente B(bag)

h(.) est une fonction linéaire de hashage

Cette MH-signature a la propriété que la même valeur correspond à des urls similaires.

• Mais comme la méthode est basée sur des probabilités ,on peut avoir des faux positifs et des faux négatifs

• C’est là qu’on introduit la LSH-signature qui est la concaténation de k MH-signature

provenant d’une génération de m MH-signature

• Cela réduit le nombre de faux positifs mais augmentent les faux négatifs.

• Pour cela on génère l différents LSH-signature pour chaque url.

• Pour augmenter la qualité de nos résultats et réduire les faux positifs, il y a une étape de filtrage sur les paires produites par l'algorithme d'ExtractSimilarPairs . Pendant cette étape, chaque paire (u,v) est validée en vérifiant si les urls u et v sont d’accord sur une fraction de leurs MH-SIGNATURES qui est au moins aussi grande que le niveau désiré de similitude ( 20%). Si la condition ne se tient pas, la paire est jetée.

Clustering

• L’ensemble des paires de documents généré par l’algorithme doit être trié.

• Il faut noter que chaque paire apparaît 2 fois (u,v),(v,u).• Pour former les cluster on utilise un algorithme qu’on

appelle CENTER.• L’idée est de considérer les paires similaires comme les

arcs d’un graphe et les urls sont les nœuds. L’algorithme partitionne le graphe de telle manière que dans chaque cluster il y a un center

• Et les autres nœuds du graphe sont « assez proches» c’est-à-dire qu’il existe un arc(il existe une paire similaire(nœud,center)).

• L'algorithme parcourt séquentiellement les paires triées. La première fois que le noeud u apparaît dans le parcourt, il est marqué comme centre de cluster. Tous les noeuds v suivants qui apparaissent dans les paires (u,v) sont marqués comme appartenant au cluster de u et ne sont plus considérés.

Résultats des expériences

• Ils ont utilisé l’approche Anchor-Based pour générer les bags de 35 millions d’urls trouvés partir de 12 millions de pages.

• Ils appliquent ensuite le Clustering basé sur la technique LSH.

• L’algorithme ExtractSimilarPairs est appliquée avec les paramètres suivants:

l=125 m=80 k=3 • Les temps d’exécution de chaque étape sont dans le

tableau suivant:

Références

• http://www.med.univ-rennes1.fr/doc/nomindex/

• http://cui.unige.ch/tcs/cours/algoweb/anneeCourante/documents

http://www.med.univ-rennes1.fr/doc/nomindex/

http://www.med.univ-rennes1.fr/doc/nomindex/

http://cui.unige.ch/tcs/cours/algoweb/anneeCourante/documents

http://cui.unige.ch/tcs/cours/algoweb/anneeCourante/documents

présentation: algorithme pour le web article:« scalable techniques for clustering the web »...

Documents

food page

pages est problmatique

pages sur

clustering est lune

pages indpendamment

pages permettent

lien dans

expriences rfrences