MINERIA Introducción DE LA z Historia de la Web z...
Transcript of MINERIA Introducción DE LA z Historia de la Web z...
introducción
MINERIAMINERIADE LADE LA
WEBWEB
unidad I
IntroducciónHistoria de la WebMotivación para la minería de la WebRecuperación de la informaciónCaracterización formal de modelos de recuperación de la informaciónMétodos clásicos para la evaluación de sistemas de recuperación de la información
introducción
MINERIAMINERIADE LADE LA
WEBWEB
unidad II
Técnicas de CrawlingEstándares y protocolosHerramientas de crawlingCrawlers generales y por temaIngeniería de crawlers de gran escala
introducción
MINERIAMINERIADE LADE LA
WEBWEB
unidad III
Técnicas de Indexación y BúsquedaConstrucción de índicesCreación de consultasOptimización de consultasExpansión de consultasTécnicas de rankingBúsquedas incrementales y basadas en contexto
introducción
MINERIAMINERIADE LADE LA
WEBWEB
unidad IV
Aplicaciones y Temas EspecialesAprendizaje mecánico basado en la WebLa Web invisibleToma de decisiones basadas en información extraída de la WebAgentes inteligentes en la WebPersonalización y sistemas de recomendación Análisis de redes sociales y comunidades en la WebLa Web semánticaSeguridad y privacidadMedidas y análisis del grafo de la WebInteracción y visualización
introducción
MINERIAMINERIADE LADE LA
WEBWEB
minería de la web
Minería de datos (data mining):proceso de descubrir relaciones o patrones interesantes en un conjunto de datos
Minería de la Web (Web mining):proceso de descubrir relaciones o patrones interesantes en la World-Wide Web
introducción
MINERIAMINERIADE LADE LA
WEBWEB
preguntas
¿Por qué extraer información de la Web es más complejo que extraer información de un conjunto predefinido de documentos (como ser una biblioteca digital)?¿Por qué extraer información de la Web es más complejo que extraer información de fuentes estandarizadas (como ser bases de datos)?
introducción
MINERIAMINERIADE LADE LA
WEBWEB
propiedades de la web
La web esmasivaWeb indexable ~ 11.500.000.000 [Gulli & Signorini 2005] dinámicadiversa
Pregunta: ¿cómo se mide el tamaño de la Web?
introducción
MINERIAMINERIADE LADE LA
WEBWEB
la hipótesis de la web estructurada
La información en la web essuficientemente estructurada comopara que sea posible la minería de la Web [Etzioni, 1996]
introducción
MINERIAMINERIADE LADE LA
WEBWEB
hipertexto
Hipertextotextoenlaces (links)
Permite al usuario el fácil manejo de información de fuentes diversas
crearagregarenlazarcompartir
Esta flexibilidad de acceso genera importantes nociones
navegaciónpersonalización de presentacionesanotaciones
introducción
MINERIAMINERIADE LADE LA
WEBWEB
historia
CitasHiperenlace
Ramayana, Mahabharata, Talmudforma ramificada y no lineal de discurso, con comentarios anidados.
Diccionarios y enciclopediasredes autocontenidas de nodos textuales. unidos por enlaces de referencias.
introducción
MINERIAMINERIADE LADE LA
WEBWEB
historia del hipertexto (cont.)
Memex [VannevarBush, 1945]
extension de memoria (“memory extension”)dispositivo de almacenamiento y computación(fotoeléctrico y mecanico)objetivo: crear y ayudar a seguirhiperenlaces a través de documentos.
introducción
MINERIAMINERIADE LADE LA
WEBWEB
historia
memex
introducción
MINERIAMINERIADE LADE LA
WEBWEB
historia
Hipertexto (Hypertext)término acuñado porTed Nelson en 1965sistema de hipertextoXanadu:
hiperenlaces ,manejo de versiones,manejo de controverias,manejo de anotaciones,manejo de derecho de autoría
"the structures of ideas are not sequential"
introducción
MINERIAMINERIADE LADE LA
WEBWEB
historia
Hypercardcreado por Bill Atkinson y disponibleen 1987 en los sistemas Macintosh.sistema programablede tarjetas que podíanser organizas en pilasperdió popularidad con el crecimiento de la WWW
introducción
MINERIAMINERIADE LADE LA
WEBWEB
historia
Tim Berners-Lee, un consultor del laboratorio CERN (Centro Europeo parala InvestigaciónNuclear), es conocidocomo “el inventor de la World Wide Web”.Sistema en red parapublicar reportescientíficos [1980]GUI para hipertextollamado World Wide Web [1990]
CERN laboratory, Géneva
introducción
MINERIAMINERIADE LADE LA
WEBWEB
historia
El tráfico HTTP en CERN se multiplica por un factor de 1000 entre 1991 y 1994
introducción
MINERIAMINERIADE LADE LA
WEBWEB
historia
El número de servidores crece de unos pocos cientos a un millon entre 1991 y 1997.
introducción
MINERIAMINERIADE LADE LA
WEBWEB
historia
1994 fue un año clave para la WWW
Fundación de “Mosaic Communications Corporation"primera conferenciaWorld-Wide WebMIT y CERN acuerdanestablecer el World-Wide Web Consortium (W3C).
introducción
MINERIAMINERIADE LADE LA
WEBWEB
historia
Sucesores del browser World Wide Web
Erwise [1992]Viola [1992]Midas [1993]Mosaic [1993]
fácil de usarsoporte de imágenes
introducción
MINERIAMINERIADE LADE LA
WEBWEB
historia
Netscape [1994] soporte de multiplesconexiones TCP/IPcookies<CENTER> tagdistribución gratuita para ciertos grupos
Netscape 2 [1996]framesJavaScript
Netscape 3 [1996]mouseoversestándar de oro
introducción
MINERIAMINERIADE LADE LA
WEBWEB
historia
Microsoft Explorer 1 y 2 (1995)Microsoft Explorer 3 (1996)
casi comparable a NetscapeCSS (Cascading StyleSheet): autores y lectores pueden asignar estilo a las paginas (fuentes, colores, etc)distribución gratuita
Desde 1999 Microsoft Explorer domina el mercado
introducción
MINERIAMINERIADE LADE LA
WEBWEB
preguntas
¿Por qué la Web creció de la manera en que lo hizo?¿Qué diferencia a la Web de otros medios de comunicación?
introducción
MINERIAMINERIADE LADE LA
WEBWEB
Web: un medio participativo y accesible
número de escritores no es tan lejanoal número de lectores.la evolución de los MEMES
Richard Dawkins (1976) propuso que las ideas, teorías, expresiones artísticas etc. se replican y propagan de persona en persona por imitación.La Web fue un meme en sí mismaAhora facilita la propagación de otrosmemes.
introducción
MINERIAMINERIADE LADE LA
WEBWEB
crisis de abundancia y autoridad
Cultura liberal e informal para generary diseminar contenido. Acceso uniforme (no existe autoridadque defina calidad de contenidos)Contenido no estandarizado y redundancia. milliones de página para una consultageneral
ejemplo: java
introducción
MINERIAMINERIADE LADE LA
WEBWEB
bibliografía
1. Mining the Web: Discovering Knowledge from Hypertext Data,Soumen Charkabarti, Morgan Kaufmann, 2002.