Post on 22-Jan-2016
1
Análisis Bibliométricos en Internet
Alicia Ocaso y Silvia Spinak. - 1999.
2
Bibliometría
Definición:Bibliometría es la “aplicación de análisisestadísticos para estudiar las
característicasdel uso y creación de documentos”.
Spinak, E. 1996. “Diccionario Enciclopédico de Bibliometría, Cienciometría e Infometría”. Pág. 34.
3
Aplicación en la Web
Aplicar hipótesis y leyes de la Bibliometría para:
Analizar el comportamiento de los documentos
Medir recursos, acceso y utilidad de la información publicada en Internet
Valorar el impacto de esa información
4
Sitio
Def. 1: es un grupo de páginas Web localizadas en la misma dirección IP
Def. 2: un conjunto de páginas que se relacionan temáticamente dentro de una misma dirección IP
OCLC Research / Web Characterization Project (Setiembre 1999)
5
Página
Unidad de información Consiste en uno o más recursos Web, que
serán vertidos simultáneamente como una unidad en la pantalla. Los recursos Web son el texto, imágenes, sonido, etc.
Página = Documento
6
¿Qué medimos en la Web?
A nivel macro:
Con las direcciones IP medimos sitios
Con los motores de búsqueda medimos páginas
7
Algunos números
8
Cantidad de sitios
Número de sitios4,882,000 (+/- 3%)
Crecimiento 1997 1998 1999
1,570,000 2,851,000 4,882,000
PermanenciaDirecciones IP cambiadas 1998-1999= 44%
OCLC Online Computer Library Center, (Setiembre 1999)
9
Recuperación de páginas
Cobertura estimada de diferentes buscadores según NEC
Steve Lawrence and C. Lee Giles, NEC Research Institute (Setiembre 1999)
10
Cantidad de páginas
Según Nature, se estima que existen unas 800 millones de páginas.Porcentaje de cobertura por los distintos buscadores
Danny Sullivan, Search Engine Watch (Setiembre 1999)
11
Cantidad de páginas
Cantidad de páginas indexadas por los distintos buscadores
Danny Sullivan, Search Engine Watch (Setiembre 1999)
12
Motores de búsqueda
Crecimiento temporal
Danny Sullivan, Search Engine Watch (Setiembre 1999
13
Distribución por idioma
Acceso por idioma: 57% en inglés
Global Reach Web Site
14
Uso de la Web
En Terabytes trasmitidos de 1992 a 1995. 1 Terabyte = 1 billón de bytes = más de 15.000 CDs
Ray Larson, Berkeley, 1996
15
Encuestas de uso de la Web
Las encuestas buscan detectar: las páginas más citadas los sitios más importantes y productivos qué nuevas palabras pueden ser
utilizadas para clasificar los sitios, y sus documentos o páginas
16
Tipos de encuestas
Preguntas a los usuarios Muestreos de documentos
17
Una metodología
Georgia Tech Graphics, Visualization, and
Usability Web Surveys programas inteligentes recopilación de datosuso intensivo de análisis estadístico recolección de datos cualitativos (formularios HTML)
grandes muestreos y muestreos al azar
http://donturn.fis.utoronto.ca/research/augmentis.html
18
Objetivos de las encuestas
Bibliométricamente, las encuestas buscan hacer agrupaciones (clusters) de distintos tipos para determinar cuáles son las tendencias en el uso de la Web
Pueden medir cómo reaccionan los usuarios y cómo utilizan los documentos sin necesidad de preguntarles directamente
19
Características de los documentos Web
Del mismo modo que existen diferentes guías de publicación y normas que influyen en la Bibliometría de los documentos impresos, los documentos Web también tienen sus características.
20
Grupo de investigaciónInktomi (Hotbot)
ExaminaronTamaño del documentoUso de los tags de HTMLCantidad de tags con respecto al tamaño promedio de
documentoUso de los atributos de los tagsErrores de sintaxis de los tagsUso de la extensión de especificación de browserProtocolos utilizados en las URLs hijasTipo de archivo utilizado en las URLs hijasNúmero de links embebidos en las páginas LegibilidadUtilización de puerto en el servidor
http://donturn.fis.utoronto.ca/research/augmentis.html
21
Grupo de investigaciónInktomi (Hotbot)
Crearon tablas ponderadas detectando información del tipo cuáles eran las 10 términos más utilizados cuáles los 10 errores más comunes
Conclusiones existencia de múltiples características medibles posibilidad de identificar la unicidad del documento. este tipo de información luego podría ser utilizada para comparar e identificar el comportamiento de los usuarios con respecto a determinado tipo de documento.
22
¿Qué hacemos con estos números?
23
Dificultades en el análisis estadístico
Imposibilidad de tener cifras exactas de sitios y páginas
Inestabilidad de los sitios y páginas
24
Inestabilidad
Los sitios y páginas de Internet son efímeros y muy cambiantes.
Los documentos en la Web son “el punto intermedio de lo publicado y lo no publicado”.
Koehler, W. 1999. “An Analysis of Web Page and Web Site Constancy and Permanence” Pag. 162.
25
Estudios realizados
E.E.U.U. Wallace Koehler
Diciembre de 1996 a Enero 1998Koehler, W. 1999. “An Analysis of Web Page and Web Site Constancy and Permanence”.
Israel Bar-Ilan, J. y Peritz, B.
Enero a Junio de 1998
Bar-Ilan, J. y Peritz, B. 1999. “The Availability and Life Span of a Specific Topic on the Web; the Caseof “informetrics”: a Quantitative and Content Analysis”
26
¿Cuán permanentes son los sitios en Internet?
Tres tipos de comportamiento: Permanencia:
en un año, el 31% habían cambiado de dirección
Intermitencia:en una semana, el 5% desaparece pero vuelven
Desaparición:en una semana, el 0,5% desaparece totalmente
Koehler, W. 1999. “An Analysis of Web Page and Web Site Constancy and Permanence” Pag. 179.
27
¿Cuán constantes son los sitios en Internet?
El 97% sufrieron algún tipo de cambio
Cambio:EstructuraTamaño
Koehler, W. 1999. “An Analysis of Web Page and Web Site Constancy and Permanence” Pag. 179.
28
¿Difiere el comportamiento por tipo de sitio?
Los más estables:nombre de institución en el dominiolos sitios .gov
Los que más cambian:los sitios .comlos sitios .edu
Difieren según quién lo publique
Koehler, W. 1999. “An Analysis of Web Page and Web Site Constancy and Permanence” Pag. 163-164.
29
Internet = “cerebro mundial”
El escritor H.G.Wells de finales de la década del 30, predijo la creación de un cerebro mundial en el libro “World Brain”.
Si Internet es el cerebro mundial, podemos decir que: tiene poca memoria
cuando recuerda, cambia mucho de manera de pensar.
Koehler, W. 1999. “An Analysis of Web Page and Web Site Constancy and Permanence” Pag. 179.
30
Medición de Impacto
31
Impacto de los sitios en la Web
Buscar patrones de distribución y uso de la información basado en citas y sus frecuencias de uso
La bibliometría mide el impacto número de citaciones al documento en un año / la cantidad de publicaciones
Las citas en Internetcantidad de visitasenlaces o links
32
Mediciones NO objetivas
Contar cantidad de accesos Engañoso Hábitos del usuario
Contar los enlaces o links Efecto “Mateo” Efecto “Matilda”
33
Categorización de sitios según su actividad de citas
CiegosSólo reciben citas y no responden
AutoritativosSe los cita más que lo que ellos citan a otros
EjesCitan más de lo que los citan a ellos
PuentesCitan en casi la misma proporción que son citados
http://www.undoc.csic.es/cybermetrics/cybermetrics99.html
34
Gráfica de categorización
http://www.undoc.csic.es/cybermetrics/cybermetrics99.html
35
Leyes Bibliométricas en la Web
Ley de Zipf
Ley de Bradford
36
Ley de Zipf
Analiza las distribuciones de frecuencias en una lista ordenada de “fuentes” que producen “items”, ej. Palabras.
Ley del mínimo esfuerzo (comportamiento individual de todo individuo).
37
Aplicación en la Web
Cuanto más enlaces o links deba hacer el usuario para llegar a una página, menos visitas recibirá.
El esfuerzo en la Web se mide en tiempo y no en dinero.
http://donturn.fis.utoronto.ca/research/augmentis.html
38
Ley de Bradford
“Si las revistas científicas se ordenan en secuencia decreciente de productividad de artículos sobre un tema dado, éstas pueden dividirse en un núcleo de revistas dedicadas más en particular al tema y varios grupos o zonas conteniendo el mismo número de artículos que el núcleo, donde el número de revistas en el núcleo y las zonas sucesivas estará en la relación de 1 : n : n2” .
Spinak, E. 1996. “Diccionario Enciclopédico de Bibliometría, Cienciometría e Infometría”. Pág. 38.
39
Ley de Bradford
Las publicaciones se distribuyen en un núcleo y luego en una zona de dispersión que Bradford la dividió en 2 partes.
Las primeras publicaciones se agruparán en el núcleo y las siguientes en la zona de dispersión en esa relación matemática.
Ejemplo: En el núcleo: 8 revistas publican 110 artículos En zona de dispersión:
29 revistas publican 133 artículos 127 publican 152 artículos
40
Aplicación en la Web
La indexación temática cumple la misma distribución.
En Internet se observa que a medida que transcurre el tiempo, al principio hay un incremento sostenido en el enlace a un tema, pero luego sigue una abrupta y permanente reducción.
41
Sitios Actualizados
Expresión:R= número de enlaces en el 1er. Año
R, Ra, Ra2, Ra3, Ra4, ..., Rat-1
Sirve para medir el grado de obsolescencia en el tiempo.
Necesidad de mantener los sitios actualizados.
42
Estudios de Casos
43
I) Datos bibliométricos a partir de un servidor
Downie analizó las siguientes categorías:Análisis de la solicitud de información
Análisis basados en el usuario Quién es (organización)De dónde viene (ubicación geográfica)Qué es (qué tipo de browser utiliza)
Análisis basado en los bytes
Downie, Stephen J. 1996
44
Datos bibliométricos a partir de un servidor
Estas técnicas pueden unirse para crear un escenario detallado de la visita o visitas del usuario al sitio y de sus preferencias, sus problemas y sus acciones.
Downie descubrió que las solicitudes de información coincidían con la distribución de Zipf.
45
Datos bibliométricos a partir de un servidor
Otros resultados confirmaron que una configuración pobre del servidor así como falta de acceso y uso a los archivos logs completos hacían que se perdiera mucha información.
Se debe destacar que Downie tuvo en cuenta criterios éticos para la observación que la mayoría de los webmaster no practican.
46
II) Valorando el impacto
Estudio realizado por Josep M. Rodríguez i Gairín de la Universidad Politécnica de Catalunya, 1997.
Usando capacidad de indización y recuperación del buscador Altavista
http://escher.upc.es/josep-/publica/altavis.htm
47
Limitaciones del “Citation Index de Internet”
Utiliza metainformación de las “KeyWords”para generar sus índices
Anchor:xxHost:xximage:xxlink:xxtitle:xx
http://escher.upc.es/josep-/publica/altavis.htm
48
Midiendo el impacto
Contadores estadísticoscomplementado con
Páginas externas que “las citan”
Impacto de la Institución =Páginas que son citadas/páginas
publicadas
http://escher.upc.es/josep-/publica/altavis.htm
49
Análisis comparativo
Impacto de Universidades españolas UPM UPC UJI UCM
Páginas 6708 5774 1859 1706Enlaces 2742 3695 7483 1861Cociente 0.40 0.63 4.02 1.09UPM =Universidad Politécnica de Madrid
UPC = Universidad Politécnica de Catalunya
UJI = Universidad Jaume IUCM = Universidad Complutense de Madrid
http://escher.upc.es/josep-/publica/altavis.htm
50
Consideraciones a este modelo de valoración
Los robots no recogen todas las páginas (limitaciones: bajo suscripción, passwords,
páginas aisladas, protocolos de exclusión, etc.)La fiabilidad en la búsqueda es bastante
discutibleLa cantidad de enlaces no es proporcional
a la calidad de la informaciónhttp://escher.upc.es/josep-/publica/altavis.htm
51
III) Análisis de citación y co-citación en la Web
Estudio realizado por Ray Larson de la Universidad de California, Berkeley, 1996.
El análisis de co-citación se ha desarrollado en las ciencias para identificar el centro de artículos, autores o revistas en un campo de estudio.
http://sherlock.berkeley.edu/asis96/asis96.html
52
Adaptaciones para la Web
Seleccionar el conjunto central de documentos para el estudio (“foco”)
Recuperación de frecuencias de cocitación dentro del foco
Compilar las cocitaciones en una matriz de frecuencia
Análisis de correlación para convertir esas frecuencias en coeficientes de correlación
Análisis multivariado de la matriz de correlación
Interpretación del mapa de resultadohttp://sherlock.berkeley.edu/asis96/asis96.html
53
Recolección de Información
Temas: Sistema de información geográfica Ciencias de la Tierra Testeo remoto por satélite
Se encontraron 115 Páginas de las 43 más relevantes --> 7209 links
luego análisis --> 332 --> 115• análisis exhaustivo --> 34
http://sherlock.berkeley.edu/asis96/asis96.html
54
“Foco” de estudio
“Foco” de estudio = 34 direcciones
http://sherlock.berkeley.edu/asis96/asis96.html
55
Matriz de cocitación
Citas por cada par de URLshttp://sherlock.berkeley.edu/asis96/asis96.html
56
Representación geométrica de la relación
Escala Mutlidimensional (MDS)http://sherlock.berkeley.edu/asis96/asis96.html
57
Resultados del estudio
Los enlaces hipertexto funcionan de manera parecida a las co-citaciones de autores.
Aplicar las técnicas de co-citación produjo resultados razonables.
58
Conclusiones
59
Conclusiones
La Web es, por un lado un medio poderoso para poder publicar a bajo costo y gran rapidez.
Por otro lado, ese crecimiento en cantidad no acompaña a la calidad ni en la posibilidad de fácil recuperación.
60
Conclusiones
La información en la Web fluye hacia la entropía. Es por eso que es necesario aplicar teorías de otras disciplinas para desarrollar nuevos métodos, técnicas de modelado para examinar esta telaraña tan compleja.
Sin duda las Ciencias de la Información pueden aportar una herramienta: Bibliometría.
61
Conclusiones
Conocer las características de los documentos y la arquitectura de los sitios es fundamental para el desarrollo armónico de la Web del futuro.
Debe incentivarse el uso de técnicas bibliométricas en nuestra realidad regional y nacional.
62
BibliografíaAbad, J.R. 1997. “Breve historia de Internet”. Madrid: Ediciones Anaya.Bar-Ilan, J. y Peritz, B. 1999. “The Availability and Life Span of a
Specific Topic on the Web; the Case of “informetrics”: a Quantitative and Content Analysis” En Preceedings of the Seventh Conference of the International Society for Scientometrics and Informetrics, Mexico, U.de Colima.
Corvillo Martínez, J. 1998. “Indización web con identificadores geográficos para zonas específicas”. http://personal.redestb.es/jordicm/bp98esp.html.
Downie, Stephen J. 1996. “Informetrics and the World Wide Web: a case study and discussion”. Canadian Association for Information Science, June 2-3, at University of Toronto. En Turnbull,D. 1999.
Koehler, W. 1999. “An Analysis of Web Page and Web Site Constancy and Permanence”. En Journal of the American Society for Information Science.
63
Bibliografía
Larson, R. 1996. “Bibliometrics of the Wold Wide Web: An Exploratory Analysis of the Intellectual Structure of Cyberspace”.http://sherlock.berkeley.edu/asis96/asis96.html
Rodríguez, J.M. 1997. “Valorando el impacto de la información en Internet: Altavista, el “Citation Index” de la Red”. En http://escher.upc.es/josep-/publica/altavis.htm
Spinak, E. 1996. “Diccionario Enciclopédico de Bibliometría, Cienciometría e Infometría”. Venezuela: UNESCO.
Turnbull,D. 1999. “Augmenting Information Seeking on the World Wide Web Using Collaborative Filtering Techniques”. http://donturn.fis.utoronto.ca/research/augmentis.html
64
Bibliografía
Páginas visitadas del 16 al 27 de Octubre de 1999
http://www.nw.com/zone/WWW/report.html. http://www.nua.ie/surveys/ http://neci.nj.nec.com/hompages/lawrence/websize.html. http://www.oclc.org/oclc/research/projects/webstats/statistics.htm. http://www.oclc.org/oclc/research/projects/webstats/definitions.htm. http://www.ciolek.com/WWWVL-InfoQuality.html. http://www.searchenginewatch/com/reports/sizes.html. http://euromktg.com/globstats http://undoc.csic.es/cybermetrics/link01.html http://www.cr http://www.undoc.csic.es/cybermetrics/cybermetrics99.html http://donturn.fis.utoronto.ca/research/augmentis.html
65
Fin