lévolution du web et les implications dun crawler incrémental basé sur : « the evolution of the...
TRANSCRIPT
![Page 1: Lévolution du Web et les implications dun crawler incrémental Basé sur : « The Evolution of the Web and Implications for an Incremental Crawler», Junghoo](https://reader035.vdocument.in/reader035/viewer/2022062622/551d9db5497959293b8d9f77/html5/thumbnails/1.jpg)
L’évolution du Web et les implications d’un crawler incrémental
Basé sur : « The Evolution of the Web and Implications for an Incremental Crawler», Junghoo Cho et Hector Garcia-Molina
![Page 2: Lévolution du Web et les implications dun crawler incrémental Basé sur : « The Evolution of the Web and Implications for an Incremental Crawler», Junghoo](https://reader035.vdocument.in/reader035/viewer/2022062622/551d9db5497959293b8d9f77/html5/thumbnails/2.jpg)
Plan
Introduction Définition Types
Expérience Configuration Résultats
Architecture d’un Crawler Incrémental Conclusion
![Page 3: Lévolution du Web et les implications dun crawler incrémental Basé sur : « The Evolution of the Web and Implications for an Incremental Crawler», Junghoo](https://reader035.vdocument.in/reader035/viewer/2022062622/551d9db5497959293b8d9f77/html5/thumbnails/3.jpg)
Introduction
![Page 4: Lévolution du Web et les implications dun crawler incrémental Basé sur : « The Evolution of the Web and Implications for an Incremental Crawler», Junghoo](https://reader035.vdocument.in/reader035/viewer/2022062622/551d9db5497959293b8d9f77/html5/thumbnails/4.jpg)
Introduction
Qu’est-ce qu’un crawler ? Programme qui collecte automatiquement
des pages web pour construire un index ou une collection locale.
![Page 5: Lévolution du Web et les implications dun crawler incrémental Basé sur : « The Evolution of the Web and Implications for an Incremental Crawler», Junghoo](https://reader035.vdocument.in/reader035/viewer/2022062622/551d9db5497959293b8d9f77/html5/thumbnails/5.jpg)
Fonctionnement d’un crawler
Généralement : Seed Urls Récupération des pages (à partir des
seed) Extraction des Urls contenues dans ces
pages Addition de celles-ci aux Urls à scanner
![Page 6: Lévolution du Web et les implications dun crawler incrémental Basé sur : « The Evolution of the Web and Implications for an Incremental Crawler», Junghoo](https://reader035.vdocument.in/reader035/viewer/2022062622/551d9db5497959293b8d9f77/html5/thumbnails/6.jpg)
Illustration
Seed Urls
Index / collection locale
File de pages à visiter
Ajout dans l’index
Ajout des Urls récoltées lors du parcours des pages
![Page 7: Lévolution du Web et les implications dun crawler incrémental Basé sur : « The Evolution of the Web and Implications for an Incremental Crawler», Junghoo](https://reader035.vdocument.in/reader035/viewer/2022062622/551d9db5497959293b8d9f77/html5/thumbnails/7.jpg)
Types différents de crawler
2 types : Le crawler periodique
Quand nous avons besoin de raffraîchir la collection, il recommence de zéro et remplace la collection par celle trouvée
Le crawler incrémental Continue à visiter les pages, même après
l’atteignabilité de la taille maximum de la collection, puis lorsque l’on demande de remettre à jour la collection on remplace les pages selon leur «importance».
![Page 8: Lévolution du Web et les implications dun crawler incrémental Basé sur : « The Evolution of the Web and Implications for an Incremental Crawler», Junghoo](https://reader035.vdocument.in/reader035/viewer/2022062622/551d9db5497959293b8d9f77/html5/thumbnails/8.jpg)
Types différents de crawler
Le crawler incrémental est plus efficace que le crawler periodique. Par exemple le crawler incrémental
n’aura besoin que de vérifier les pages ayant changées (probabilité)
Donc la page à indexer sera indexée en moins de temps à l’aide de ce type de crawler
![Page 9: Lévolution du Web et les implications dun crawler incrémental Basé sur : « The Evolution of the Web and Implications for an Incremental Crawler», Junghoo](https://reader035.vdocument.in/reader035/viewer/2022062622/551d9db5497959293b8d9f77/html5/thumbnails/9.jpg)
Expérience
Configuration
![Page 10: Lévolution du Web et les implications dun crawler incrémental Basé sur : « The Evolution of the Web and Implications for an Incremental Crawler», Junghoo](https://reader035.vdocument.in/reader035/viewer/2022062622/551d9db5497959293b8d9f77/html5/thumbnails/10.jpg)
Configuration de l’Expérience
Questions importantes : Quelle est la fréquence de changement
d’une page ? Quelle est la durée de vie d’une page ? Combien de temps est nécessaire au
WEB pour changer 50 % de ces pages ?
![Page 11: Lévolution du Web et les implications dun crawler incrémental Basé sur : « The Evolution of the Web and Implications for an Incremental Crawler», Junghoo](https://reader035.vdocument.in/reader035/viewer/2022062622/551d9db5497959293b8d9f77/html5/thumbnails/11.jpg)
Configuration de l’Expérience
Analysé 720’000 pages depuis 270 sites pendant 5 mois.
Séléction des sites faites selon un critère de « popularité » exemple: http://yahoo.com, http://microsoft.com ,
etc… Le nombre maximum de pages parcouru
depuis ces sites est de 3’000.
![Page 12: Lévolution du Web et les implications dun crawler incrémental Basé sur : « The Evolution of the Web and Implications for an Incremental Crawler», Junghoo](https://reader035.vdocument.in/reader035/viewer/2022062622/551d9db5497959293b8d9f77/html5/thumbnails/12.jpg)
Expérience
Résultats
![Page 13: Lévolution du Web et les implications dun crawler incrémental Basé sur : « The Evolution of the Web and Implications for an Incremental Crawler», Junghoo](https://reader035.vdocument.in/reader035/viewer/2022062622/551d9db5497959293b8d9f77/html5/thumbnails/13.jpg)
Résultats
Quelle est la fréquence de changement d’une page ? Si vous mesurez 5 changements et que
la page est présente 20 jours dans la sélection des pages nous obtenons une valeur de 20/5 = 4 . Ce qui signifie que la page change tout les 4 jours.
![Page 14: Lévolution du Web et les implications dun crawler incrémental Basé sur : « The Evolution of the Web and Implications for an Incremental Crawler», Junghoo](https://reader035.vdocument.in/reader035/viewer/2022062622/551d9db5497959293b8d9f77/html5/thumbnails/14.jpg)
Résultats
![Page 15: Lévolution du Web et les implications dun crawler incrémental Basé sur : « The Evolution of the Web and Implications for an Incremental Crawler», Junghoo](https://reader035.vdocument.in/reader035/viewer/2022062622/551d9db5497959293b8d9f77/html5/thumbnails/15.jpg)
Résultats
![Page 16: Lévolution du Web et les implications dun crawler incrémental Basé sur : « The Evolution of the Web and Implications for an Incremental Crawler», Junghoo](https://reader035.vdocument.in/reader035/viewer/2022062622/551d9db5497959293b8d9f77/html5/thumbnails/16.jpg)
Résultats
Quelle est la durée de vie d’une page?
![Page 17: Lévolution du Web et les implications dun crawler incrémental Basé sur : « The Evolution of the Web and Implications for an Incremental Crawler», Junghoo](https://reader035.vdocument.in/reader035/viewer/2022062622/551d9db5497959293b8d9f77/html5/thumbnails/17.jpg)
Résultats
Quelle est la durée de vie d’une page? 2 méthodes différentes pour calculer
celle-ci : Calcul de la longueur normal (c’est-à-dire le
temps que la page se trouve dans la fenêtre) On calcule le temps comme 2s (où s est la
période de temps où la page est présente dans la fenêtre)
![Page 18: Lévolution du Web et les implications dun crawler incrémental Basé sur : « The Evolution of the Web and Implications for an Incremental Crawler», Junghoo](https://reader035.vdocument.in/reader035/viewer/2022062622/551d9db5497959293b8d9f77/html5/thumbnails/18.jpg)
Résultats
![Page 19: Lévolution du Web et les implications dun crawler incrémental Basé sur : « The Evolution of the Web and Implications for an Incremental Crawler», Junghoo](https://reader035.vdocument.in/reader035/viewer/2022062622/551d9db5497959293b8d9f77/html5/thumbnails/19.jpg)
Résultats
![Page 20: Lévolution du Web et les implications dun crawler incrémental Basé sur : « The Evolution of the Web and Implications for an Incremental Crawler», Junghoo](https://reader035.vdocument.in/reader035/viewer/2022062622/551d9db5497959293b8d9f77/html5/thumbnails/20.jpg)
Résultats
Combien de temps est nécessaire au WEB pour changer 50 % de ces pages? Remarque:
Lorsque une page disparaît de notre fenêtre d’analyse, elles sont considérées comme changée
![Page 21: Lévolution du Web et les implications dun crawler incrémental Basé sur : « The Evolution of the Web and Implications for an Incremental Crawler», Junghoo](https://reader035.vdocument.in/reader035/viewer/2022062622/551d9db5497959293b8d9f77/html5/thumbnails/21.jpg)
Résultats
![Page 22: Lévolution du Web et les implications dun crawler incrémental Basé sur : « The Evolution of the Web and Implications for an Incremental Crawler», Junghoo](https://reader035.vdocument.in/reader035/viewer/2022062622/551d9db5497959293b8d9f77/html5/thumbnails/22.jpg)
Architecture d’un Crawler Incrémental
![Page 23: Lévolution du Web et les implications dun crawler incrémental Basé sur : « The Evolution of the Web and Implications for an Incremental Crawler», Junghoo](https://reader035.vdocument.in/reader035/viewer/2022062622/551d9db5497959293b8d9f77/html5/thumbnails/23.jpg)
Algorithme : Crawler Incrémental
![Page 24: Lévolution du Web et les implications dun crawler incrémental Basé sur : « The Evolution of the Web and Implications for an Incremental Crawler», Junghoo](https://reader035.vdocument.in/reader035/viewer/2022062622/551d9db5497959293b8d9f77/html5/thumbnails/24.jpg)
Architecture
![Page 25: Lévolution du Web et les implications dun crawler incrémental Basé sur : « The Evolution of the Web and Implications for an Incremental Crawler», Junghoo](https://reader035.vdocument.in/reader035/viewer/2022062622/551d9db5497959293b8d9f77/html5/thumbnails/25.jpg)
Conclusion
![Page 26: Lévolution du Web et les implications dun crawler incrémental Basé sur : « The Evolution of the Web and Implications for an Incremental Crawler», Junghoo](https://reader035.vdocument.in/reader035/viewer/2022062622/551d9db5497959293b8d9f77/html5/thumbnails/26.jpg)
Conclusion
Nous venons de voir comment implémenter un crawler incrémental et comme nous l’avons vu celui-ci possède de nombreux avantages par rapport au crawler périodique
![Page 27: Lévolution du Web et les implications dun crawler incrémental Basé sur : « The Evolution of the Web and Implications for an Incremental Crawler», Junghoo](https://reader035.vdocument.in/reader035/viewer/2022062622/551d9db5497959293b8d9f77/html5/thumbnails/27.jpg)
Références
« The Evolution of the Web and Implications for an Incremental Crawler » , Junghoo Cho, Hector Garcia-Molina
Cours d’algorithmes pour le Web 2006-2007, J.Rolim
http://en.wikipedia.org/wiki/Web_crawler