Ec. Esther Hochsztain Ing. Andrómaca Tasistro Cra. Carolina Asuaga

30
Sesionador Web dirigido al estudio de sitios web culturales: Diseño e Implementación del paquete RWeb Sessionizer Ec. Esther Hochsztain Ing. Andrómaca Tasistro Cra. Carolina Asuaga Facultad de Ciencias Económicas y Administración Universidad de la República, Uruguay Octavo Congreso Latinoamericano de Sociedades de Estadística . Octubre de 2008

description

Sesionador Web dirigido al estudio de sitios web culturales: Diseño e Implementación del paquete RWeb Sessionizer. Ec. Esther Hochsztain Ing. Andrómaca Tasistro Cra. Carolina Asuaga Facultad de Ciencias Económicas y Administración Universidad de la República, Uruguay. - PowerPoint PPT Presentation

Transcript of Ec. Esther Hochsztain Ing. Andrómaca Tasistro Cra. Carolina Asuaga

Page 1: Ec. Esther Hochsztain Ing. Andrómaca Tasistro Cra. Carolina Asuaga

Sesionador Web dirigido al estudio de sitios web culturales: Diseño e Implementación del

paquete RWeb Sessionizer

Ec. Esther HochsztainIng. Andrómaca Tasistro

Cra. Carolina Asuaga

Facultad de Ciencias Económicas y Administración Universidad de la República, Uruguay

Octavo Congreso Latinoamericano de Sociedades de Estadística . Octubre de 2008

Page 2: Ec. Esther Hochsztain Ing. Andrómaca Tasistro Cra. Carolina Asuaga

Sesionador Web dirigido al estudio de sitios web culturales. Diseño e Implementación del paquete RWeb Sessionizer Hochsztain, Tasistro, Asuaga

2

Plan de la presentación

• Introducción• Antecedentes y elección del caso de estudio• Generación de sesiones• Identificación de crawlers• Paquete RWebSessionizer• Aplicación al caso• Conclusiones• Trabajos futuros

Page 3: Ec. Esther Hochsztain Ing. Andrómaca Tasistro Cra. Carolina Asuaga

Sesionador Web dirigido al estudio de sitios web culturales. Diseño e Implementación del paquete RWeb Sessionizer Hochsztain, Tasistro, Asuaga

3

Plan de la presentación

• IntroducciónIntroducción• Antecedentes y elección del caso de estudio• Generación de sesiones• Identificación de crawlers• Paquete RWebSessionizer• Aplicación al caso• Conclusiones• Trabajos futuros

Page 4: Ec. Esther Hochsztain Ing. Andrómaca Tasistro Cra. Carolina Asuaga

Sesionador Web dirigido al estudio de sitios web culturales. Diseño e Implementación del paquete RWeb Sessionizer Hochsztain, Tasistro, Asuaga

4

Introducción• Evaluar qué tan efectivo es su sitio web resulta

imprescindible para las organizaciones. Usualmente se analiza solamente los datos referidos al número de páginas consultadas y la cantidad de visitantes en el sitio web, así como en qué partes del sitio web el usuario clickea, cuándo elige incluir un producto en el carro de compras, comprar un ítem, u otras acciones de compra, eventos de registro, vista de productos, acciones de pago, etc.

• Sin embargo, lo anterior brinda una visión muy básica y se necesitan aplicaciones más avanzadas para estudiar características adicionales.

Page 5: Ec. Esther Hochsztain Ing. Andrómaca Tasistro Cra. Carolina Asuaga

Sesionador Web dirigido al estudio de sitios web culturales. Diseño e Implementación del paquete RWeb Sessionizer Hochsztain, Tasistro, Asuaga

5

Introducción: Conceptos Básicos

• Un sesionador web (Web Sessioner) resulta de fundamental importancia en Web Usage Mining, que consiste en la aplicación de técnicas de Data Mining para la identificación de patrones de uso de un sitio web.

• Existen muy pocas implementaciones de sesionadores web, debido a que es un área muy reciente y a la complejidad de su propuesta.

Page 6: Ec. Esther Hochsztain Ing. Andrómaca Tasistro Cra. Carolina Asuaga

Sesionador Web dirigido al estudio de sitios web culturales. Diseño e Implementación del paquete RWeb Sessionizer Hochsztain, Tasistro, Asuaga

6

Introducción: Conceptos Básicos

• Una sesión de usuario está formada por un conjunto de objetos consultados por un mismo usuario durante una misma visita a un sitio web.

• Existen diversos métodos para la identificación de usuarios, en esta propuesta se usa la pareja dirección IP y el agente desde donde se realiza la solicitud.

• Este procedimiento presenta como ventaja que siempre está disponible y no se necesita tecnología adicional.

• Una vez identificado el usuario deben distinguirse las diferentes sesiones de usuario.

• Esto se realiza agrupando las peticiones de sesiones utilizando heurísticas orientadas al tiempo o a la navegación.

• Es fundamental contar con un buen método de identificación de crawlers, ya que pueden distorsionar todo el estudio que se haga del uso de un sitio web.

Page 7: Ec. Esther Hochsztain Ing. Andrómaca Tasistro Cra. Carolina Asuaga

Sesionador Web dirigido al estudio de sitios web culturales. Diseño e Implementación del paquete RWeb Sessionizer Hochsztain, Tasistro, Asuaga

7

Introducción: Metodología

Se presenta el paquete RWeb Sessionizer donde se implementa en R la metodología propuesta inicialmente por R. Cooley, y que ha tenido varios refinamientos posteriores.

Page 8: Ec. Esther Hochsztain Ing. Andrómaca Tasistro Cra. Carolina Asuaga

Sesionador Web dirigido al estudio de sitios web culturales. Diseño e Implementación del paquete RWeb Sessionizer Hochsztain, Tasistro, Asuaga

8

Plan de la presentación

• Introducción• Antecedentes y Elección del caso de Antecedentes y Elección del caso de

estudioestudio• Generación de sesiones• Identificación de crawlers• Paquete RWebSessionizer• Aplicación al caso• Conclusiones• Trabajos futuros

Page 9: Ec. Esther Hochsztain Ing. Andrómaca Tasistro Cra. Carolina Asuaga

Sesionador Web dirigido al estudio de sitios web culturales. Diseño e Implementación del paquete RWeb Sessionizer Hochsztain, Tasistro, Asuaga

9

Antecedentes: Áreas de Investigación

• 1) Cultura e Internet

• 2) Web Log Mining

Page 10: Ec. Esther Hochsztain Ing. Andrómaca Tasistro Cra. Carolina Asuaga

Sesionador Web dirigido al estudio de sitios web culturales. Diseño e Implementación del paquete RWeb Sessionizer Hochsztain, Tasistro, Asuaga

10

1) Cultura e Internet

• Tecnología y Cultura, Antecedentes: Imprenta de Gutenberg, radio, cine, televisión

• Tecnología y Cultura, Internet: El sitio web de una organización cultural proporciona una herramienta fundamental para cumplir con dos de sus objetivos básicos: difundir y democratizar la cultura.

Page 11: Ec. Esther Hochsztain Ing. Andrómaca Tasistro Cra. Carolina Asuaga

Sesionador Web dirigido al estudio de sitios web culturales. Diseño e Implementación del paquete RWeb Sessionizer Hochsztain, Tasistro, Asuaga

11

1) Elección del caso de estudio: Teatro Solís

• Principal referente de la cultura montevideana.

• Propicia una fuerte demanda social.

Page 12: Ec. Esther Hochsztain Ing. Andrómaca Tasistro Cra. Carolina Asuaga

Sesionador Web dirigido al estudio de sitios web culturales. Diseño e Implementación del paquete RWeb Sessionizer Hochsztain, Tasistro, Asuaga

12

1) Elección caso de estudio: Teatro Solís

El sitio web del Teatro Solís: • proporciona información sobre los horarios y tarifas

de las distintas actividades,

• permite que el público visite virtualmente las instalaciones del teatro,

• posibilita el acceso a su valiosa colección documental;

• presenta un programa para docentes en el marco de los distintos programas escolares.

Page 13: Ec. Esther Hochsztain Ing. Andrómaca Tasistro Cra. Carolina Asuaga

Sesionador Web dirigido al estudio de sitios web culturales. Diseño e Implementación del paquete RWeb Sessionizer Hochsztain, Tasistro, Asuaga

13

2) Web Log Mining• Conocer la forma en que los usuarios de una

organización utilizan la web es clave para comprender si se está brindando el servicio que se requiere, si los productos o servicios son fácilmente encontrados y, en definitiva, hasta qué punto se cumple con el objetivo que la organización pretende lograr por medio de su presencia en la web.

• Uno de los métodos habituales para conseguir este conocimiento es el análisis de logfiles, un sendero útil pero no exento de problemas.

Page 14: Ec. Esther Hochsztain Ing. Andrómaca Tasistro Cra. Carolina Asuaga

Sesionador Web dirigido al estudio de sitios web culturales. Diseño e Implementación del paquete RWeb Sessionizer Hochsztain, Tasistro, Asuaga

14

2) Web Log Mining• La estructura de un logfile es extremadamente

simple. Cada vez que alguien descarga un elemento de la web, como por ejemplo una página o una imagen, el servidor escribe una línea en el archivo histórico o logfile.

• Los enfoques de las investigaciones actuales realizadas en Web Usage Mining son muy variados, pero la mayoría se centran en las sesiones.

Page 15: Ec. Esther Hochsztain Ing. Andrómaca Tasistro Cra. Carolina Asuaga

Sesionador Web dirigido al estudio de sitios web culturales. Diseño e Implementación del paquete RWeb Sessionizer Hochsztain, Tasistro, Asuaga

15

Plan de la presentación

• Introducción• Antecedentes y elección del caso de estudio• Generación de sesionesGeneración de sesiones• Identificación de crawlers• Paquete RWebSessionizer• Aplicación al caso• Conclusiones• Trabajos futuros

Page 16: Ec. Esther Hochsztain Ing. Andrómaca Tasistro Cra. Carolina Asuaga

Sesionador Web dirigido al estudio de sitios web culturales. Diseño e Implementación del paquete RWeb Sessionizer Hochsztain, Tasistro, Asuaga

16

Generación de sesiones

Las principales formas de identificar sesiones se basan en los siguientes aspectos:

IP + Agente • Identificadores de sesiones embebidos• Registro• Cookie• Agente de Software

Page 17: Ec. Esther Hochsztain Ing. Andrómaca Tasistro Cra. Carolina Asuaga

Sesionador Web dirigido al estudio de sitios web culturales. Diseño e Implementación del paquete RWeb Sessionizer Hochsztain, Tasistro, Asuaga

17

Plan de la presentación

• Introducción• Antecedentes y elección del caso de estudio• Generación de sesiones• Identificación de crawlersIdentificación de crawlers• Paquete RWebSessionizer• Aplicación al caso• Conclusiones• Trabajos futuros

Page 18: Ec. Esther Hochsztain Ing. Andrómaca Tasistro Cra. Carolina Asuaga

Sesionador Web dirigido al estudio de sitios web culturales. Diseño e Implementación del paquete RWeb Sessionizer Hochsztain, Tasistro, Asuaga

18

Identificación de crawlers• Un crawler es un programa que realiza búsquedas en la web, por

tanto deben distinguirse los usuarios "humanos" de los usuarios crawlers.

• Los crawlers trabajan de una forma metódica y automatizada, creando así una base de datos donde va guardando los resultados de sus búsquedas consecutivas, para posteriormente poder analizar dicha información y realizar tareas como la indexación y búsquedas más eficientes en la web (técnicas usadas por ejemplo por motores de búsqueda como Google, Yahoo, etc.).

• El comportamiento de un crawler es cíclico, realiza búsquedas en profundidad, accediendo internamente a los links que se le dan y así sucesivamente dentro de los links que va encontrando a su paso.

Page 19: Ec. Esther Hochsztain Ing. Andrómaca Tasistro Cra. Carolina Asuaga

Sesionador Web dirigido al estudio de sitios web culturales. Diseño e Implementación del paquete RWeb Sessionizer Hochsztain, Tasistro, Asuaga

19

Plan de la presentación

• Introducción• Antecedentes y elección del caso de estudio• Generación de sesiones• Identificación de crawlers• Paquete Paquete RWebSessionizerRWebSessionizer• Aplicación al caso• Conclusiones• Trabajos futuros

Page 20: Ec. Esther Hochsztain Ing. Andrómaca Tasistro Cra. Carolina Asuaga

Sesionador Web dirigido al estudio de sitios web culturales. Diseño e Implementación del paquete RWeb Sessionizer Hochsztain, Tasistro, Asuaga

20

Paquete RWebSessionizer

El sessionizer implementado posee las siguientes características:

• timeout parametrizable, • elimina software robots (crawlers), • asigna un identificador a cada sesión, • genera datos de resumen del proceso de

sesionalización.

Page 21: Ec. Esther Hochsztain Ing. Andrómaca Tasistro Cra. Carolina Asuaga

Sesionador Web dirigido al estudio de sitios web culturales. Diseño e Implementación del paquete RWeb Sessionizer Hochsztain, Tasistro, Asuaga

21

Paquete RWebSessionizer

DATOS

PREPROCESAMIENTO

IDENTIFICACIÓN DE CRAWLERS

DETERMINACIÓN DE SESIONES

INGRESO DE TIMEOUT

DETERMINACIÓN DE MEDIDAS DE RESUMEN

Page 22: Ec. Esther Hochsztain Ing. Andrómaca Tasistro Cra. Carolina Asuaga

Sesionador Web dirigido al estudio de sitios web culturales. Diseño e Implementación del paquete RWeb Sessionizer Hochsztain, Tasistro, Asuaga

22

Plan de la presentación

• Introducción• Antecedentes y elección del caso de estudio• Generación de sesiones• Identificación de crawlers• Paquete RWebSessionizer• Aplicación al caso• Conclusiones• Trabajos futuros

Page 23: Ec. Esther Hochsztain Ing. Andrómaca Tasistro Cra. Carolina Asuaga

Sesionador Web dirigido al estudio de sitios web culturales. Diseño e Implementación del paquete RWeb Sessionizer Hochsztain, Tasistro, Asuaga

23

Aplicación al caso de estudio: Teatro Solís

• Cantidad de días: 3

• Cantidad de líneas : 115744

• Timeout: 10 minutos

• Cantidad de sesiones (eliminados crawlers): 5248

• El promedio de bytes por sesión es: 8722

• Duración promedio de la sesión: 4,4 minutos

Page 24: Ec. Esther Hochsztain Ing. Andrómaca Tasistro Cra. Carolina Asuaga

Sesionador Web dirigido al estudio de sitios web culturales. Diseño e Implementación del paquete RWeb Sessionizer Hochsztain, Tasistro, Asuaga

24

Aplicación al caso de estudio: Teatro Solís

Page 25: Ec. Esther Hochsztain Ing. Andrómaca Tasistro Cra. Carolina Asuaga

Sesionador Web dirigido al estudio de sitios web culturales. Diseño e Implementación del paquete RWeb Sessionizer Hochsztain, Tasistro, Asuaga

25

Plan de la presentación

• Introducción• Antecedentes y elección del caso de estudio• Generación de sesiones• Identificación de crawlers• Paquete RWebSessionizer• Aplicación al caso• Conclusiones• Trabajos futuros

Page 26: Ec. Esther Hochsztain Ing. Andrómaca Tasistro Cra. Carolina Asuaga

Sesionador Web dirigido al estudio de sitios web culturales. Diseño e Implementación del paquete RWeb Sessionizer Hochsztain, Tasistro, Asuaga

26

Conclusiones

• Contar con este paquete es un primer paso para comprobar si el sitio web del Teatro Solís está cumpliendo con los objetivos previstos.

• Con los resultados preliminares se pudo apreciar que la página principal está cumpliendo el objetivo de brindar los datos necesarios para la mayoría de los usuarios.

Page 27: Ec. Esther Hochsztain Ing. Andrómaca Tasistro Cra. Carolina Asuaga

Sesionador Web dirigido al estudio de sitios web culturales. Diseño e Implementación del paquete RWeb Sessionizer Hochsztain, Tasistro, Asuaga

27

Conclusiones

• El Teatro Solís es patrimonio de todos los Uruguayos. Una correcta gestión de su sitio web, en el que además de promover y difundir los diversos espectáculos artísticos, se propicie la cohesión social, así como la generación y reafirmación de valores simbólicos compartidos, es un tema no menor tanto en los objetivos del Teatro como en el beneficio de la sociedad toda.

Page 28: Ec. Esther Hochsztain Ing. Andrómaca Tasistro Cra. Carolina Asuaga

Sesionador Web dirigido al estudio de sitios web culturales. Diseño e Implementación del paquete RWeb Sessionizer Hochsztain, Tasistro, Asuaga

28

Plan de la presentación

• Introducción• Antecedentes y elección del caso de estudio• Generación de sesiones• Identificación de crawlers• Paquete RWebSessionizer• Aplicación al caso• Conclusiones• Trabajos futuros

Page 29: Ec. Esther Hochsztain Ing. Andrómaca Tasistro Cra. Carolina Asuaga

Sesionador Web dirigido al estudio de sitios web culturales. Diseño e Implementación del paquete RWeb Sessionizer Hochsztain, Tasistro, Asuaga

29

Trabajos futuros

• Incorporar el módulo de análisis de sesiones, en base a datos de resumen y una galería de gráficos.

• Establecer un método de consulta interactivo.

• Establecer una interfaz de usuario gráfica, que facilite el uso del paquete.

Page 30: Ec. Esther Hochsztain Ing. Andrómaca Tasistro Cra. Carolina Asuaga

Sesionador Web dirigido al estudio de sitios web culturales: Diseño e Implementación del

paquete RWeb Sessionizer

Ec. Esther HochsztainIng. Andrómaca Tasistro

Cra. Carolina Asuaga

Facultad de Ciencias Económicas y Administración Universidad de la República, Uruguay

Octavo Congreso Latinoamericano de Sociedades de Estadística . Octubre de 2008