the anatomy of a large-scale hypertextual web search...
Post on 03-Oct-2020
1 Views
Preview:
TRANSCRIPT
The Anatomy of a LargeThe Anatomy of a Large--Scale Scale Hypertextual Hypertextual Web Search EngineWeb Search Engine
ArtArtíículo de Sergey Brin y Lawrence Pageculo de Sergey Brin y Lawrence PageDepartamento de Ciencias de la ComputaciónUniversidad de StanfordCalifornia, 1998
PresentaciPresentacióón:n: Carlos M. LorenzettiCarlos M. Lorenzetti
Depto. de Cs. e Ingeniería de la ComputaciónProf. Ana G. MaguitmanTécnicas Empíricas y Formales para el Análisis de la Web05 de Mayo de 2006 / Primer Cuatrimestre 2006
13/06/200613/06/2006 Carlos M. LorenzettiCarlos M. Lorenzetti 22
The Anatomy of a LargeThe Anatomy of a Large--Scale Hypertextual Scale Hypertextual Web Search EngineWeb Search Engine
Problemas que comenzaban a notarse:Problemas que comenzaban a notarse:–– Crecimiento de la WebCrecimiento de la Web
Incremento de la informaciIncremento de la informacióónnIncremento de los usuariosIncremento de los usuarios
–– ÍÍndices manualesndices manualesSubjetivosSubjetivosCaros de construir y mantenerCaros de construir y mantenerLentos Lentos Poca coberturaPoca cobertura
–– ÍÍndices automndices automááticosticosPoca calidad de los resultadosPoca calidad de los resultados
Se propone un nuevo sistemaSe propone un nuevo sistema
13/06/200613/06/2006 Carlos M. LorenzettiCarlos M. Lorenzetti 33
The Anatomy of a LargeThe Anatomy of a Large--Scale Scale HypertextualHypertextual Web Search EngineWeb Search Engine
ObjetivosObjetivos–– Calidad de las respuestasCalidad de las respuestas
Se pensaba que con tener todas las pSe pensaba que con tener todas las pááginas indexadas alcanzabaginas indexadas alcanzaba–– HabHabíía pocas pa pocas pááginasginas
Con el crecimiento de la Web esto cambiCon el crecimiento de la Web esto cambióó–– No pueden analizarse todos los resultadosNo pueden analizarse todos los resultados
Se necesita PrecisiSe necesita Precisióón, an, aúún relegando n relegando RecallRecall
–– AnAnáálisis de las blisis de las búúsquedas de los usuariossquedas de los usuariosConstrucciConstruccióón de un n de un frameworkframework para realizar investigacionespara realizar investigaciones
13/06/200613/06/2006 Carlos M. LorenzettiCarlos M. Lorenzetti 44
The Anatomy of a LargeThe Anatomy of a Large--Scale Scale HypertextualHypertextual Web Search EngineWeb Search Engine
Elige una URLal azar
Recorre lapágina
Elige una URLde la página para
continuar navegando
Modelo de Surfer
13/06/200613/06/2006 Carlos M. LorenzettiCarlos M. Lorenzetti 55
The Anatomy of a LargeThe Anatomy of a Large--Scale Scale HypertextualHypertextual Web Search EngineWeb Search Engine
Suposiciones detrSuposiciones detráás del uso de hiperenlacess del uso de hiperenlaces
1.1. RecomendaciRecomendacióónn
2.2. LocalidadLocalidad
3.3. Anchor Anchor TextText
13/06/200613/06/2006 Carlos M. LorenzettiCarlos M. Lorenzetti 66
The Anatomy of a LargeThe Anatomy of a Large--Scale Scale HypertextualHypertextual Web Search EngineWeb Search Engine
PageRankPageRankEs un distribuciEs un distribucióón de probabilidad que se utiliza para n de probabilidad que se utiliza para representar la posibilidad de que una persona, que parte de representar la posibilidad de que una persona, que parte de una puna páágina inicial aleatoria, llegue a una pgina inicial aleatoria, llegue a una páágina particular.gina particular.
versiversióón simplificadan simplificada
AA BB CC DD1/4 1/4 1/4 1/4
13/06/200613/06/2006 Carlos M. LorenzettiCarlos M. Lorenzetti 77
The Anatomy of a LargeThe Anatomy of a Large--Scale Scale HypertextualHypertextual Web Search EngineWeb Search Engine
AA0.25
Entonces cada página le cede a A su 0.25 y el algoritmo se resume en calcular el PageRank de A
PR(A) = PR(B)+ PR(C)+ PR(D)
BB0.25
CC0.25
DD0.25
0.75
0.25
0.25
0.25
13/06/200613/06/2006 Carlos M. LorenzettiCarlos M. Lorenzetti 88
The Anatomy of a LargeThe Anatomy of a Large--Scale Scale HypertextualHypertextual Web Search EngineWeb Search Engine
AA0.25
BB0.25
CC0.25
DD0.25
Ahora cada voto se divide entre todos los enlaces salientes
BB0.25
AA CC
0.125 0.125
13/06/200613/06/2006 Carlos M. LorenzettiCarlos M. Lorenzetti 99
The Anatomy of a LargeThe Anatomy of a Large--Scale Scale HypertextualHypertextual Web Search EngineWeb Search Engine
AA0.25
BB0.25
CC0.25
DD0.25
Ahora cada voto se divide entre todos los enlaces salientes
0.125 0.125 3)(
1)(
2)()( DPRCPRBPRAPR ++=
( ) ( ) ( )( )( ) ( ) ( )
PR B PR C PR DPR AL B L C D
= + +
13/06/200613/06/2006 Carlos M. LorenzettiCarlos M. Lorenzetti 1010
The Anatomy of a LargeThe Anatomy of a Large--Scale Scale HypertextualHypertextual Web Search EngineWeb Search Engine
Elige una URLal azar
Recorre lapágina
Elige una URLde la página para
continuar navegando
Se aburre
13/06/200613/06/2006 Carlos M. LorenzettiCarlos M. Lorenzetti 1111
The Anatomy of a LargeThe Anatomy of a Large--Scale Scale HypertextualHypertextual Web Search EngineWeb Search Engine
Se introduce un factor de Se introduce un factor de aburrimientoaburrimiento y la fy la fóórmula final queda:rmula final queda:
( )( ) (1 )( )Q P
d PR QPR P dn L Q∀ →
= + − ∑
Ventajas:Ventajas:
••Independiente de la consultaIndependiente de la consulta
••Resume la Resume la ““opiniopinióón de la n de la webweb”” acerca de la importancia de la pacerca de la importancia de la pááginagina
Probabilidad de que salte a una página aleatoria
Número total de páginas
Probabilidad de que nosalte a una página aleatoria
Se puede calcular con un método iterativo simple
Es el autovector ppal de la matriz normalizada de
enlaces
13/06/200613/06/2006 Carlos M. LorenzettiCarlos M. Lorenzetti 1212
The Anatomy of a LargeThe Anatomy of a Large--Scale Scale HypertextualHypertextual Web Search EngineWeb Search Engine
ProblemasProblemas–– PPááginas con links perdidosginas con links perdidos
–– BuclesBucles
–– SpamSpam
Enlaces a pEnlaces a pááginas sin enlacesginas sin enlaces
Enlaces a pEnlaces a pááginas que aginas que aúún no n no descargamosdescargamos
XX YY ZZ
13/06/200613/06/2006 Carlos M. LorenzettiCarlos M. Lorenzetti 1313
The Anatomy of a LargeThe Anatomy of a Large--Scale Scale HypertextualHypertextual Web Search EngineWeb Search Engine
SpammingSpamming un Motor de Bun Motor de BúúsquedasquedaManipular deliberada y deshonestamente los motores de Manipular deliberada y deshonestamente los motores de bbúúsqueda para incrementar el ranking de una psqueda para incrementar el ranking de una páágina.gina.
tagstags META fraudulentosMETA fraudulentospalabras clave invisiblespalabras clave invisibleslinkslinks
Ejemplos:Ejemplos:Realizar una bRealizar una búúsqueda en squeda en GoogleGoogle: : ““miserable miserable failurefailure””
13/06/200613/06/2006 Carlos M. LorenzettiCarlos M. Lorenzetti 1414
The Anatomy of a LargeThe Anatomy of a Large--Scale Scale HypertextualHypertextual Web Search EngineWeb Search Engine
Sitios que apuntan a la página oficial:
•43% sitios .gov
•43% spammers
•14% discusión de spam
13/06/200613/06/2006 Carlos M. LorenzettiCarlos M. Lorenzetti 1515
The Anatomy of a LargeThe Anatomy of a Large--Scale Scale HypertextualHypertextual Web Search EngineWeb Search Engine
13/06/200613/06/2006 Carlos M. LorenzettiCarlos M. Lorenzetti 1616
The Anatomy of a LargeThe Anatomy of a Large--Scale Scale HypertextualHypertextual Web Search EngineWeb Search Engine
URL Server Crawler Store Server
Repository
IndexerURL Resolver
AnchorsAnchorsAnchors
LexiconLexiconLexicon
BarrelsBarrelsBarrelsLinksLinksLinks
DocDocDocIndexIndexIndex
Sorter
PageRank Searcher
13/06/200613/06/2006 Carlos M. LorenzettiCarlos M. Lorenzetti 1717
The Anatomy of a LargeThe Anatomy of a Large--Scale Scale HypertextualHypertextual Web Search EngineWeb Search Engine
top related