Análisis de la persistencia y del estado de páginas web en los resultados de Google

19
Análisis de la Análisis de la persistencia y del persistencia y del estado de páginas web en estado de páginas web en los resultados de Google los resultados de Google José Luis Ortega, José José Luis Ortega, José Antonio Prieto, Natalia Antonio Prieto, Natalia Arroyo, Víctor Pareja, Arroyo, Víctor Pareja, Isidro Aguillo Isidro Aguillo Laboratorio de Internet Laboratorio de Internet CINDOC (CSIC) CINDOC (CSIC) [email protected] [email protected]

description

Análisis de la persistencia y del estado de páginas web en los resultados de Google. José Luis Ortega, José Antonio Prieto, Natalia Arroyo, Víctor Pareja, Isidro Aguillo Laboratorio de Internet CINDOC (CSIC) [email protected]. Introducción. - PowerPoint PPT Presentation

Transcript of Análisis de la persistencia y del estado de páginas web en los resultados de Google

Page 1: Análisis de la persistencia y del estado de páginas web en los resultados de Google

Análisis de la persistencia y Análisis de la persistencia y del estado de páginas web en del estado de páginas web en

los resultados de Googlelos resultados de Google

José Luis Ortega, José Antonio José Luis Ortega, José Antonio Prieto, Natalia Arroyo, Víctor Prieto, Natalia Arroyo, Víctor

Pareja, Isidro AguilloPareja, Isidro Aguillo

Laboratorio de InternetLaboratorio de Internet

CINDOC (CSIC)CINDOC (CSIC) [email protected]@cindoc.csic.es

Page 2: Análisis de la persistencia y del estado de páginas web en los resultados de Google

IntroducciónIntroducción • Crecimiento exponencial del web en la Crecimiento exponencial del web en la

década de los noventa.década de los noventa.– Incorporación masiva de contenidos.Incorporación masiva de contenidos.– Medio de gran expectativa social y economica.Medio de gran expectativa social y economica.

• El ritmo de crecimiento de sedes web se El ritmo de crecimiento de sedes web se ralentiza hasta llegar, en el periodo 2001-ralentiza hasta llegar, en el periodo 2001-2002, a un decrecimiento del 1%2002, a un decrecimiento del 1% ( (O’Neill O’Neill et et alal., 2003., 2003).).– Crisis de las Crisis de las puntocom.puntocom.– Estabilización en la incorporación de contenidos.Estabilización en la incorporación de contenidos.

Page 3: Análisis de la persistencia y del estado de páginas web en los resultados de Google

Trabajos relacionadosTrabajos relacionados

• Harter y Kim (1996): Harter y Kim (1996): – citas electrónicas en revistas electrónicas.citas electrónicas en revistas electrónicas.– 1/3 no disponibles.1/3 no disponibles.

• Koehler (1999, 2002, 2004): Koehler (1999, 2002, 2004): – periodo 1999 – 2001.periodo 1999 – 2001.– páginas operativas sólo el 34,4%páginas operativas sólo el 34,4%

• Nelson y Allen (2002): Nelson y Allen (2002): – bibliotecas digitales a lo largo de un año.bibliotecas digitales a lo largo de un año.– 3% de objetos no disponibles (3% de objetos no disponibles (linkrotlinkrot).).– Medio más estable. Medio más estable.

Page 4: Análisis de la persistencia y del estado de páginas web en los resultados de Google

ObjetivosObjetivos

• Estabilidad de los índices del buscador Estabilidad de los índices del buscador Google.Google.

• Estado y disponibilidad de los Estado y disponibilidad de los resultados.resultados.

• Estimación de la persistencia en las Estimación de la persistencia en las consultas.consultas.

Page 5: Análisis de la persistencia y del estado de páginas web en los resultados de Google

MetodologíaMetodología I I

• Tres consultasTres consultas– ““alhambra de granadaalhambra de granada” (500 resultados)” (500 resultados)– ““mezquita de cordobamezquita de cordoba” (500 resultados)” (500 resultados)– ““catedral de jaencatedral de jaen” (230 resultados)” (230 resultados)

• durante 15 semanas (frec. semanal)durante 15 semanas (frec. semanal)– del 29 de enero de 2004 al 6 de mayo de del 29 de enero de 2004 al 6 de mayo de

20042004

Page 6: Análisis de la persistencia y del estado de páginas web en los resultados de Google

Metodología IIMetodología II

• Seguimiento de las páginas obtenidas a Seguimiento de las páginas obtenidas a partir de la primera consulta.partir de la primera consulta.

• Disponibilidad de los resultados a lo Disponibilidad de los resultados a lo largo del tiempo.largo del tiempo.

Page 7: Análisis de la persistencia y del estado de páginas web en los resultados de Google

Metodología IIIMetodología IIIHerramientasHerramientas

• Web Data Extractor 4.0Web Data Extractor 4.0– Extracción de los resultados de las Extracción de los resultados de las

distintas consultas realizadas.distintas consultas realizadas.

• Xenu's Link SleuthXenu's Link Sleuth– Comprobación del estado en que se Comprobación del estado en que se

encuentran dichos resultados.encuentran dichos resultados.

Page 8: Análisis de la persistencia y del estado de páginas web en los resultados de Google

ResultadosResultados

El número de documentos que El número de documentos que permanecen en cada consulta, originarios permanecen en cada consulta, originarios de la primera, desciende describiendo de la primera, desciende describiendo una curva logarítmica inversa.una curva logarítmica inversa.

RR22< 0,9< 0,9

Page 9: Análisis de la persistencia y del estado de páginas web en los resultados de Google

ResultadosResultados

• Se asemeja al descenso de la actividad Se asemeja al descenso de la actividad radioactiva de un isótopo a lo largo del radioactiva de un isótopo a lo largo del tiempo.tiempo.

• Permite estimar el ritmo de decaimiento Permite estimar el ritmo de decaimiento de la consultade la consulta..

Page 10: Análisis de la persistencia y del estado de páginas web en los resultados de Google

Vida MediaVida Media

Tiempo transcurrido desde la observación Tiempo transcurrido desde la observación original hasta el momento en que sólo original hasta el momento en que sólo recuperamos la mitad de resultados de la recuperamos la mitad de resultados de la consulta original.consulta original.

Consultas Vida Media

alhambra de granada 0,048

mezquita de cordoba 0,058catedral de jaen 0,227

Page 11: Análisis de la persistencia y del estado de páginas web en los resultados de Google

Fórmula del DecaimientoFórmula del Decaimiento

RRtt=R=R00ee(- (- t)t)

DondeDonde= -0,693t/T (1/2)= -0,693t/T (1/2)

• RRtt = Persistencia de resultados después del = Persistencia de resultados después del intervalo intervalo tt

• RR00 = Resultados de la primera consulta. = Resultados de la primera consulta.• ee = base del logaritmo natural (2,718...). = base del logaritmo natural (2,718...).• tt = tiempo transcurrido en años.= tiempo transcurrido en años.• TT(1/2)(1/2) = Vida Media de la consulta.= Vida Media de la consulta.

Page 12: Análisis de la persistencia y del estado de páginas web en los resultados de Google

ResultadosResultados“alhambra de granada”“alhambra de granada”

1

10

100

1000

0 7 14 21 28 35 42 49 56 63 70 77 84 91 98

Días

Re

su

lta

do

s c

on

sta

nte

s

Observados

Calculados

Page 13: Análisis de la persistencia y del estado de páginas web en los resultados de Google

ResultadosResultados“mezquita de cordoba”“mezquita de cordoba”

1

10

100

1000

0 7 14 21 28 35 42 49 56 63 70 77 84 91 98

Días

Re

su

lta

do

s c

on

sta

nte

s

Observados

Calculados

Page 14: Análisis de la persistencia y del estado de páginas web en los resultados de Google

ResultadosResultados“catedral de jaen”“catedral de jaen”

R2 = 0,9782

0

50

100

150

200

250

1 7 14 21 28 35 42 49 56 63 70 77 84 91 98

Observaciones

Re

su

lta

do

s c

on

sta

nte

s

Page 15: Análisis de la persistencia y del estado de páginas web en los resultados de Google

ResultadosResultadosFormatosFormatos

Mayor permanencia para páginas estáticas Mayor permanencia para páginas estáticas frente a páginas dinámicas y ficheros de frente a páginas dinámicas y ficheros de programación.programación.

Consultas Programación

alhambra de granada 1,2%

mezquita de cordoba 3,67%

catedral de jaen 0,96%

Page 16: Análisis de la persistencia y del estado de páginas web en los resultados de Google

ResultadosResultadosEstadoEstado

Alto porcentaje de páginas no operativas Alto porcentaje de páginas no operativas ((linkrotlinkrot).).

Entre 14,2% y 27%Entre 14,2% y 27%

Consultas Forbidden Request Not Found OK

alhambra de granada 1,99% 12,24% 83,7%

mezquita de cordoba 9,08% 18% 71,26%

catedral de jaen 6,78% 15,77% 72,78%

Page 17: Análisis de la persistencia y del estado de páginas web en los resultados de Google

Discusión y ConclusionesDiscusión y Conclusiones I I

• Los índices de Google están diseñados Los índices de Google están diseñados para el posicionamiento pero no para para el posicionamiento pero no para detectar páginas desaparecidas.detectar páginas desaparecidas.

• Dificultad de detectar los Dificultad de detectar los soft 404.soft 404.– Bar-Yossef et al. Bar-Yossef et al. (2004): 25% de los 200 (2004): 25% de los 200

(OK) son (OK) son soft 404soft 404..

• Se estima que el 14% de las páginas Se estima que el 14% de las páginas indizadas en Google han desaparecido.indizadas en Google han desaparecido.

Page 18: Análisis de la persistencia y del estado de páginas web en los resultados de Google

Discusión y Conclusiones IIDiscusión y Conclusiones II

• La Vida Media nos permite estimar la La Vida Media nos permite estimar la variabilidad en una consulta.variabilidad en una consulta.

• La formula del Decaimiento nos permite La formula del Decaimiento nos permite estimar los contenidos más duraderos.estimar los contenidos más duraderos.

• Evaluación y mejora de los buscadores. Evaluación y mejora de los buscadores.

Page 19: Análisis de la persistencia y del estado de páginas web en los resultados de Google

Discusión y Conclusiones IIIDiscusión y Conclusiones IIILimitacionesLimitaciones

• No se puede generalizar con sólo tres No se puede generalizar con sólo tres consultas.consultas.

• ¿Es esta realidad propia de Google o ¿Es esta realidad propia de Google o es extensible al resto de buscadores?es extensible al resto de buscadores?

• ¿Y al resto de Internet (Bibliotecas ¿Y al resto de Internet (Bibliotecas Digitales, FTP, etc.)?Digitales, FTP, etc.)?