computación

136
UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS F ´ ISICAS Y MATEM ´ ATICAS DEPARTAMENTO DE CIENCIAS DE LA COMPUTACI ´ ON MEJORAMIENTO DE UNA METODOLOG ´ IA PARA LA IDENTIFICACI ´ ON DE WEBSITE KEYOBJECTS MEDIANTE LA APLICACI ´ ON DE TECNOLOG ´ IAS EYE TRACKING Y ALGORITMOS WEB MINING MEMORIA PARA OPTAR AL T ´ ITULO DE INGENIERO CIVIL EN COMPUTACI ´ ON LARRY JAVIER GONZ ´ ALEZ GONZ ´ ALEZ PROFESOR GU ´ IA: JUAN VEL ´ ASQUEZ SILVA MIEMBROS DE LA COMISI ´ ON: JOS ´ E PIQUER GARDNER PATRICIO INOSTROZA FAJARDIN SANTIAGO DE CHILE DICIEMBRE 2011

description

eye tracker

Transcript of computación

Page 1: computación

UNIVERSIDAD DE CHILE

FACULTAD DE CIENCIAS FISICAS Y MATEMATICAS

DEPARTAMENTO DE CIENCIAS DE LA COMPUTACION

MEJORAMIENTO DE UNA METODOLOGIA PARA LA IDENTIFICACION

DE WEBSITE KEYOBJECTS MEDIANTE LA APLICACION DE

TECNOLOGIAS EYE TRACKING Y ALGORITMOS WEB MINING

MEMORIA PARA OPTAR AL TITULO DE INGENIERO CIVIL EN

COMPUTACION

LARRY JAVIER GONZALEZ GONZALEZ

PROFESOR GUIA:

JUAN VELASQUEZ SILVA

MIEMBROS DE LA COMISION:

JOSE PIQUER GARDNER

PATRICIO INOSTROZA FAJARDIN

SANTIAGO DE CHILEDICIEMBRE 2011

Page 2: computación

Resumen

El objetivo general de esta memoria es mejorar la metodologıa para identificarWebsite Keyobjects disenada por Velasquez y Dujovne mediante el uso de herra-mientas Eye Tracking y algoritmos de Web Mining.

Dado un sitio web, esta metodologıa toma como entrada el registro de peticiones(web log) del sitio, las paginas que lo componen y el interes de los usuarios en losobjetos web de cada pagina, el cual es cuantificado a partir de una encuesta quepermite medir la atencion prestada por los usuarios sobre los objetos. Luego losdatos son transformados y pre-procesados para finalmente aplicar algoritmos deWeb Mining que permiten extraer los Website Keyobjects.

Considerando lo anterior, en este trabajo de memoria se sugiere una forma distintade cuantificar el interes de los usuarios sobre los objetos web, utilizando unatecnologıa de rastreo ocular (Eye Tracking), con el objetivo de prescindir de laencuesta, ocupar una herramienta de mayor precision y ası mejorar la clasificacionde los Website Keyobjects.

Para comenzar, se investigaron las distintas tecnicas y herramientas de rastreoocular. Se opto por ocupar un Eye Tracker que ocupa la tecnica mas avanzada ensu campo, la que ilumina los ojos con luces infrarojas y captura sus movimientossegun el brillo de la pupila y el reflejo de la cornea, todo esto basado en vıdeo.Luego se diseno un experimento que permitiera establecer si se produce una mejoraen la clasificacion de los objetos al ocupar distintos valores del interes de losusuarios: medido segun una encuesta o un Eye Tracker.

Se concluyo que la tecnologıa Eye Tracking es sumamente util y precisa a la horade conocer que es lo que mira un usuario y, por lo tanto, que es lo que mas capturasu atencion. Ademas que el integrar esta tecnologıa a la metodologıa permiteno realizar una encuesta, con lo que se evitan situaciones donde es altamenteposible ingresar errores de forma involuntaria. Finalmente se establecio se produceuna leve mejora, entre un 5 % y 6 %, en la metodologıa original, al ocupar lainformacion generada por el Eye Tracker.

ii

Page 3: computación

Agradecimientos

En primer lugar quiero agradecer muy especialmente a mi familia. Por brindarme

su apoyo y carino incondicional en todos estos anos. Sin ellos, nunca hubiera

estado donde estoy.

Fraternalmente agradezco a mis grandes amigos de la vida: Melissa Aliste, Joceline

Naranjo, Karla Mendoza, Rodrigo Alarcon, Camilo Lopez y Francisco Pena, por

compartir los buenos momentos, pero sobretodo por levantarme en los de mayor

debilidad.

Tambien agradezco a Milena Andrews, Betzabe Montt, Catalina Meza, Katherine

Mena, Cinthya Vergara, Diego Madariaga, Juan Munoz, Francisco Molina, Patri-

cio Moya, Jorge Saa y muchos otros, quienes ayudaron a hacer de este camino,

uno mucho mas llevadero.

Les doy las gracias a todas las personas que de una u otra forma aportaron en mi

carrera universitaria. A mis companeros de primer ano, con quienes descubrı la

universidad; a todos los profesores, quienes me iluminaron con su conocimiento y

en especial a Juan Velasquez, mi sensei, quien me dio la confianza y el apoyo para

realizar este trabajo final.

Mencion honrosa para todas las personas que hicieron posible el desarrollo de

esta Memoria, sobretodo a los participantes de mi experimento, quienes volun-

tariamente accedieron a ayudar.

Finalmente, agradezco a Los Dioses por permitir, desde hace muchos anos, una

serie de eventos no aleatorios que confluyeron no solo en este Trabajo de Tıtulo,

sino en todo lo que soy.

iii

Page 4: computación

INDICE GENERAL

1. Introduccion 1

1.1. Antecedentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.2. Descripcion del Proyecto . . . . . . . . . . . . . . . . . . . . . . . 4

1.3. Hipotesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.4. Objetivo General . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.5. Objetivos Especıficos . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.6. Metodologıa Aplicada . . . . . . . . . . . . . . . . . . . . . . . . . 7

1.7. Resultados Esperados . . . . . . . . . . . . . . . . . . . . . . . . . 8

1.8. Alcance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

1.9. Estructura de la Memoria . . . . . . . . . . . . . . . . . . . . . . 8

2. Marco Conceptual 10

2.1. La Web . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2.1.1. Un poco de Historia . . . . . . . . . . . . . . . . . . . . . 11

2.1.2. Funcionamiento . . . . . . . . . . . . . . . . . . . . . . . . 12

iv

Page 5: computación

2.1.3. Datos Originados en la Web . . . . . . . . . . . . . . . . . 15

2.2. El proceso Knowledge Discovery in Databases (KDD) . . . . . . . 17

2.2.1. Definicion . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

2.2.2. Seleccion de datos . . . . . . . . . . . . . . . . . . . . . . . 19

2.2.3. Pre-procesamiento de datos . . . . . . . . . . . . . . . . . 19

2.2.4. Transformacion de Datos . . . . . . . . . . . . . . . . . . . 20

2.2.5. Data Mining . . . . . . . . . . . . . . . . . . . . . . . . . . 20

2.2.6. Interpretacion y analisis de resultados . . . . . . . . . . . . 23

2.3. Web Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

2.3.1. Web Content Mining (WCM) . . . . . . . . . . . . . . . . 25

2.3.2. Web Structure Mining (WSM) . . . . . . . . . . . . . . . . 27

2.3.3. Web Usage Mining (WUM) . . . . . . . . . . . . . . . . . 29

2.4. Eye Tracking . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

2.4.1. El ojo humano . . . . . . . . . . . . . . . . . . . . . . . . 33

2.4.2. Movimientos oculares . . . . . . . . . . . . . . . . . . . . . 34

2.4.3. Atencion visual . . . . . . . . . . . . . . . . . . . . . . . . 35

2.4.4. La hipotesis mente-ojo . . . . . . . . . . . . . . . . . . . . 36

2.4.5. Tecnicas Eye Tracking . . . . . . . . . . . . . . . . . . . . 38

2.4.6. Datos generados por un Eye Tracker . . . . . . . . . . . . 41

v

Page 6: computación

2.4.7. Aplicaciones . . . . . . . . . . . . . . . . . . . . . . . . . . 42

2.5. Website Keyobject . . . . . . . . . . . . . . . . . . . . . . . . . . 44

2.5.1. Definicion . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

2.5.2. Implementacion . . . . . . . . . . . . . . . . . . . . . . . . 45

2.5.3. Comparacion entre objetos . . . . . . . . . . . . . . . . . . 46

2.5.4. Metodologıa para encontrar Website Keyobject . . . . . . 49

3. Diseno del Experimento 52

3.1. El entorno . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

3.1.1. El sitio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

3.1.2. El grupo de control . . . . . . . . . . . . . . . . . . . . . . 54

3.1.3. El Eye Tracker . . . . . . . . . . . . . . . . . . . . . . . . 54

3.2. Captura de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

3.2.1. Paginas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

3.2.2. Weblog . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

3.2.3. Interes de los usuarios . . . . . . . . . . . . . . . . . . . . 56

3.3. Transformacion de datos . . . . . . . . . . . . . . . . . . . . . . . 58

3.3.1. Paginas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

3.3.2. Weblog . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

3.3.3. Interes de los usuarios . . . . . . . . . . . . . . . . . . . . 60

vi

Page 7: computación

3.3.4. Usuarios de control . . . . . . . . . . . . . . . . . . . . . . 62

3.4. Variaciones de la metodologıa . . . . . . . . . . . . . . . . . . . . 63

3.5. Comparacion de Resultados . . . . . . . . . . . . . . . . . . . . . 63

4. Trabajo Realizado 64

4.1. El entorno . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

4.1.1. El sitio elegido . . . . . . . . . . . . . . . . . . . . . . . . 64

4.1.2. Los usuarios entrevistados . . . . . . . . . . . . . . . . . . 65

4.1.3. El Eye Tracker Utilizado . . . . . . . . . . . . . . . . . . . 66

4.1.4. Herramientas ocupadas . . . . . . . . . . . . . . . . . . . . 68

4.2. Captura de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

4.2.1. El sitio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

4.2.2. Los objetos . . . . . . . . . . . . . . . . . . . . . . . . . . 70

4.2.3. Los conceptos . . . . . . . . . . . . . . . . . . . . . . . . . 70

4.2.4. El Weblog . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

4.2.5. Interes de los usuarios . . . . . . . . . . . . . . . . . . . . 71

4.3. Seleccion, limpieza y transformacion datos . . . . . . . . . . . . . 73

4.3.1. Las paginas . . . . . . . . . . . . . . . . . . . . . . . . . . 74

4.3.2. Los objetos . . . . . . . . . . . . . . . . . . . . . . . . . . 74

4.3.3. Los conceptos . . . . . . . . . . . . . . . . . . . . . . . . . 75

vii

Page 8: computación

4.3.4. Interes de los usuarios . . . . . . . . . . . . . . . . . . . . 75

4.3.5. El Weblog . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

4.4. Data Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

4.4.1. Los algoritmos . . . . . . . . . . . . . . . . . . . . . . . . 83

4.4.2. Primer experimento . . . . . . . . . . . . . . . . . . . . . . 85

4.4.3. Segundo experimento . . . . . . . . . . . . . . . . . . . . . 85

4.5. Resultados Obtenidos . . . . . . . . . . . . . . . . . . . . . . . . . 85

4.5.1. SOFM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

4.5.2. K-Means . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

4.5.3. Association Rules . . . . . . . . . . . . . . . . . . . . . . . 87

4.5.4. Website Keyobjects . . . . . . . . . . . . . . . . . . . . . . 87

4.6. Comparacion y analisis . . . . . . . . . . . . . . . . . . . . . . . . 88

5. Conclusiones 90

5.1. Trabajo Futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

6. Apendice A: Resultados primer experimento 93

6.1. SOFM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

6.2. K-Means . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95

6.2.1. Clusters de sesiones . . . . . . . . . . . . . . . . . . . . . . 95

6.2.2. Numero de apariciones de objetos en Clusters . . . . . . . 99

viii

Page 9: computación

6.3. Association Rules . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

6.4. Website Keyobjects . . . . . . . . . . . . . . . . . . . . . . . . . . 103

7. Apendice B: Resultados segundo experimento 104

7.1. SOFM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104

7.2. K-Means . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

7.2.1. Clusters de sesiones . . . . . . . . . . . . . . . . . . . . . . 106

7.2.2. Numero de apariciones de objetos en Clusters . . . . . . . 112

7.3. Association Rules . . . . . . . . . . . . . . . . . . . . . . . . . . . 113

7.4. Website Keyobjects . . . . . . . . . . . . . . . . . . . . . . . . . . 116

ix

Page 10: computación

INDICE DE FIGURAS

2.1. Ejemplo codigo HTML . . . . . . . . . . . . . . . . . . . . . . . . 13

2.2. Funcionamiento de la Web . . . . . . . . . . . . . . . . . . . . . . 14

2.3. Etapas del proceso KDD. . . . . . . . . . . . . . . . . . . . . . . . 18

2.4. Grafo dirigido que representa enlaces entre paginas. . . . . . . . . 28

2.5. Componentes del ojo humano . . . . . . . . . . . . . . . . . . . . 33

2.6. La ilusion de Kanizsa. . . . . . . . . . . . . . . . . . . . . . . . . 37

2.7. Reflejo de la cornea y brillo de la pupila. . . . . . . . . . . . . . . 40

2.8. Mapa conceptual: Descripcion de los Web Objects. . . . . . . . . . 47

3.1. Modelo de paginas, objetos y conceptos. . . . . . . . . . . . . . . 59

3.2. Modelo weblog y tiempo usado en las paginas. . . . . . . . . . . . 60

4.1. Tabla estadıstica de las visitas al sitio . . . . . . . . . . . . . . . . 65

4.2. Caracterısticas de los usuarios de control . . . . . . . . . . . . . . 67

4.3. Tobii T120 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

4.4. Ubicacion Eye Tracker - Usuario . . . . . . . . . . . . . . . . . . . 72

x

Page 11: computación

4.5. Tabla de transicion de datos generados por el Eye Tracker. . . . . 76

4.6. Menu de navegacion compacto. . . . . . . . . . . . . . . . . . . . 78

4.7. Menu de navegacion desplegado. . . . . . . . . . . . . . . . . . . . 79

4.8. Tabla averaged spent time on object. . . . . . . . . . . . . . . . . 79

4.9. Tablas conceptual similarity y residence time. . . . . . . . . . . . 82

xi

Page 12: computación

CAPITULO

1

INTRODUCCION

Desde su creacion, la Web ha sido revolucionaria en terminos de impacto, escala

y alcance. Ha sido tal el progreso que ha impulsado, que de una u otra forma ha

cambiado cada nivel de nuestra sociedad [58]. Dıa tras dıa son mas las personas

que navegan por la Web, debido, en gran medida, a la masificacion de Internet.

En la actualidad cerca del 28 % de la poblacion mundial y el 50 % de los chilenos

puede acceder a esta gran red [31].

Ante esta situacion, muchas instituciones observaron en la Web un nuevo mer-

cado donde hacer negocios. Estas entidades lograron incrementar notoriamente

sus utilidades, lo que incentivo a otras companıas a explorar este nuevo nicho.

No falto mucho tiempo para que la mayorıa de las organizaciones comenzaran a

operar en la Web, en una especie de negocio virtual incluso actualmente nuevas

companıas operan exclusivamente en este medio sin contar con sucursales tangi-

bles. Con esto, las instancias para la competencia aumentaron, pero el objetivo

final seguıa siendo el mismo: atraer nuevos clientes y fidelizarlos.

Para muchas instituciones ya no es suficiente tener un sitio web y proveer produc-

tos de calidad en el. La diferencia entre el exito y el fracaso de un negocio on-line

esta dado por el potencial del sitio para atraer y retener usuarios. Este potencial

1

Page 13: computación

esta determinado por el contenido, diseno y aspectos tecnicos, como por ejemplo,

el tiempo empleado en cargar una pagina web [67].

En este ambiente de competencia, las companıas necesitan un sitio web actualiza-

do, que ofrezca informacion acerca de lo que los usuarios estan buscando de forma

facil y accesible, lo que en muchos casos no es ası [66].

1.1. Antecedentes

En los ultimos anos ha surgido una nueva area de investigacion llamada Web Mi-

ning, que estudia diversas formas de extraer informacion desde los datos generados

en la Web. Con este conocimiento es posible desarrollar tecnicas y algoritmos para

atraer y retener usuarios en un sitio web. Esta area aplica tecnicas de Data Mining

a los datos originados en la Web con el objetivo de obtener informacion valiosa

que permita mejorar continuamente un sitio en cuanto a diseno, contenido y otros

aspectos.

Un resultado interesante que se ha logrado en este campo son los Website Key-

words [67], los que se definen como una palabra o un conjunto de palabras que

son utilizadas por los usuarios en su proceso de busqueda y que caracterizan el

contenido de una pagina o sitio web. Al encontrarlos, los sitios pueden ser re-

disenados de acuerdo a las necesidades y requerimientos de sus usuarios, y de esta

forma, estar a la vanguardia.

Si bien identificar los Website Keywords de un sitio ayuda a conocer las preferen-

cias de los usuarios, la metodologıa que los descubre solo se enfoca en el contenido

textual, dejando fuera del analisis el contenido multimedia de los sitios web [67].

Por esta razon Dujovne y Velasquez [20] extendieron esta metodologıa y lograron

2

Page 14: computación

integrar tanto el contenido textual como el contenido multimedia en el analisis.

Dujovne definio un Web Object como cualquier “grupo estructurado de palabras o

un recurso multimedia que esta presente en una pagina web que posee meta-datos

que describen su contenido”. Ademas, definio un Website Keyobject como un Web

Object que captura la atencion de los usuarios y que caracteriza el contenido de

un sitio web [20]. De las definiciones anteriores se puede deducir que todo sitio

Web esta formado por un conjunto de Web Object y que el conjunto de Website

Keyobject que posee es sub-conjunto del primero.

Dujovne y Velasquez disenaron una metodologıa que permitio identificar los Web-

site Keyobjects de un sitio. Estos, al igual que Website Keywords, dan directrices

para que los Web Sites sean re-disenados en funcion de las necesidades de los

usuarios. Esta metodologıa [20] requiere conocer cual es el tiempo de permanen-

cia de los usuario en los Web Objects, es decir, cuanto tiempo gasta un usuario

mirando cada Web Object. Para determinar el tiempo de permanencia, Dujovne

siguio dos pasos: Sesionizacion y Aplicacion de una encuesta.

Sesionizacion: es el proceso que reconstruye las sesiones de usuarios. Una sesion

es la secuencia de Web Page que visita un usuario mientras navega en un sitio

Web. Mediante este proceso es posible determinar el tiempo de permanencia de

un usuario en una pagina Web, entre otras cosas. Este proceso sera estudiado

detalladamente en el Capıtulo 2.

Aplicacion de una encuesta: sobre un grupo de control, con la cual los Web

Objects fueron ordenados segun su importancia dentro de cada pagina del sitio

Web.

Al mezclar ambos procesos, Dujovne y Velasquez [20] estimaron el tiempo de

permanencia de los usuarios en los Web Object. Sin embargo, gracias a la tecnologıa

3

Page 15: computación

Eye Tracking es posible prescindir de esta encuesta.

La tecnologıa Eye Tracking permite conocer que es lo que una persona mira y cual

es la dilatacion de sus pupilas en funcion del tiempo [1]. Al aplicar esta tecnologıa

a usuarios que navegan en un Web Site es posible medir el tiempo de permanencia

en cada Web Objects sin necesidad de realizar una encuesta. Ademas, gracias a

que mide la dilatacion de las pupilas, permite cuantificar el interes de los usuarios,

ya que la dilatacion de las pupilas esta directamente relacionada con el interes del

usuario en aquello que esta mirando [33, 45, 48].

Para evitar redundancia, en adelante una pagina web sera llamada solo pagina,

de la misma forma, un sitio web sera llamado sitio.

1.2. Descripcion del Proyecto

En el presente Trabajo de Tıtulo se busca mejorar a la metodologıa disenada por

Dujovne y Velasquez [20] mediante el uso de herramientas Eye Tracking. Si bien

esta Memoria es una extension de la Tesis de Dujovne [23], el lector puede no leer

dicho trabajo, pues todo lo que se necesita saber, esta incluido en esta Memoria.

Sin embargo, estudiar dicha Tesis es una ejercicio academico recomendable.

Durante el desarrollo de este Trabajo de Tıtulo, se trabajara con el grupo Web

Intelligence Research Group (http://wi.dii.uchile.cl/), que cuenta con los fondos

para la adquisicion de soluciones Eye Tracking y proveera de la infraestructura

necesaria para desarrollar el proyecto. Por otro lado, se trabajara bajo la tutela

del profesor Juan D. Velasquez, quien se desenvolvera como profesor guıa.

4

Page 16: computación

1.3. Hipotesis

Si es posible cuantificar el tiempo de permanencia de un grupo de usuarios de con-

trol en los Web Objects, entonces es posible realizar una mejora a la metodologıa

desarrollada por Dujovne et al. [20], es decir, determinar los Website Keyobject

con mayor exactitud.

1.4. Objetivo General

Mejorar la metodologıa para identificar Website Keyobjects disenada por Dujovne

et al. [20] mediante el uso de herramientas Eye Tracking y algoritmos de Web

Mining.

El exito de este objetivo sera medido al comparar los resultados entregados por

ambas metodologıas, la original y la modificada, mediante los indicadores Preci-

sion y Recall. Puede encontrar una explicacion detallada de estos indicadores en

en capıtulo 2.

1.5. Objetivos Especıficos

Para alcanzar el objetivo recien descrito es necesario desarrollar una serie de pasos

intermedios que se detallan a continuacion.

Establecer estado del arte en sistemas Eye Tracking.

Se debe comprender como funciona esta tecnologıa para poder aplicarla de forma

adecuada al problema.

5

Page 17: computación

Analizar la naturaleza de los datos originados en la Web.

Para este trabajo, seran consideradas tres fuentes de datos: paginas web, archivo

web log y datos generados por un Eye Tracker. El contenido de una pagina puede

ser considerado como un conjunto de datos dentro del cual aparecen los Web

Objects. El archivo web log guarda todas las peticiones de los usuarios hacia el

Web Site y el Eye Tracker genera una serie de datos relacionados con el punto

de atencion del usuario frente a un monitor. Dada la diversidad de estos datos, se

analizara su naturaleza con el objetivo de realizar un estudio mas profundo.

Estudiar modelos matematicos usados para analizar el comportamiento

de navegacion de los usuarios en la Web.

Se estudiara la bibliografıa existente para adquirir el conocimiento y ası poder

modelar el comportamiento de navegacion de los usuarios en la Web.

Modificar la metodologıa disenada por Dujovne et al. [20], mediante

tecnologıas Eye Tracking y algoritmos de Web Mining.

La metodologıa disenada por Dujovne et al. [20] estima el tiempo de permanencia

de los usuarios en los Web Objects mediante una encuesta. Se desea mejorar

esta metodologıa midiendo cuantitativamente el tiempo de permanencia de los

usuarios en los Web Objects con herramientas Eye Tracking. Para conseguir esto

se tendra que establecer una forma para incorporar los datos generados por el Eye

Tracker en el analisis de la conducta de navegacion de los usuarios.

Aplicar ambas metodologıas en el sitio de control: http://www.mbauchile.cl/.

La metodologıa original y la modificada seran aplicadas en el sitios de con-

trol mencionado. Con esto se compararan los resultados entregados por ambas

metodologıas y se medira la calidad de la mejora realizada.

6

Page 18: computación

1.6. Metodologıa Aplicada

Se comenzara con una fase investigativa en la cual se reuniran los antecedentes

requeridos para desarrollar esta memoria. A continuacion se disenara y ejecu-

tara un experimento que coloque a prueba la validez de la hipotesis formulada

anteriormente. Para finalizar, una vez obtenidos los resultados del experimento,

se concluira la veracidad de la premisa.

Investigacion: La metodologıa disenada por Dujovne et al. [20] esta construida

sobre una serie de teorıas, entre las cuales destacan Data Mining, Web Mining,

Sesionizacion, Web Objects, etc. Dichas teorıas seran estudiadas para comprender

la implementacion y el funcionamiento de la metodologıa.

Por otro lado, la investigacion sobre los sistemas Eye Tracking estara enfocada en

sus bases teoricas, su funcionamiento y como seran aplicados en esta memoria.

Experimento: Consiste esencialmente en comparar la metodologıa original ver-

sus la metodologıa modificada. Para realizar esta comparacion, sera necesario

implementar ambas metodologıas.

Para la metodologıa original, se seguiran los pasos descritos por Dujovne et al.

[20], mientras que para la metodologıa modificada se reemplazara el paso de esti-

macion de los tiempos de permanencia en los Web Objects por las mediciones que

entregara el sistema Eye Tracking.

Resultados: Una vez ejecutadas ambas metodologıas, se compararan los resul-

tados arrojados mediante el indicador Precision, para finalmente poner a prueba

la hipotesis.

7

Page 19: computación

1.7. Resultados Esperados

Se espera obtener una nueva metodologıa, basada en la disenada por Dujovne et

al. [20], que permita identificar los Website Keyobjects con mayor exactitud.

1.8. Alcance

Si bien son varias las caracterısticas que se pueden mejorar en la metodologıa

disenada por Dujovne et al. [20], este Trabajo de Tıtulo se enfocara principalmente

en ocupar la tecnologıa Eye Tracking para cuantificar el tiempo de permanencia de

los usuarios en los Web Objects e incorporar estos datos a la metodologıa original.

1.9. Estructura de la Memoria

El proposito principal de este informe es dar a conocer el Trabajo de Tıtulo rea-

lizado.

El Capıtulo 2 provee la base de conocimientos sobre los cuales se construyo esta

memoria. Se tratan diversos temas, como la Web, Eye Tracking, Website Keyob-

jects, etc.

La esencia de este Trabajo de Tıtulo es el Capıtulo 3, diseno del experimento, pues

es donde se establece la forma de trabajar para contrastar la hipotesis planteada.

La aplicacion de ambas metodologıas al sitios web de control esta detallada en el

Capıtulo 4. Allı se presentan los resultados obtenidos y los respectivos analisis.

Finalmente las conclusiones logradas en este Trabajo de Tıtulo son descritas en

8

Page 20: computación

el Capıtulo 5. Ademas, se exploran nuevas ramas de esta metodologıa a modo de

trabajo futuro.

9

Page 21: computación

CAPITULO

2

MARCO CONCEPTUAL

En el presente capıtulo se dan los esbozos conceptuales sobre los cuales se sustenta

el trabajo realizado. El primer tema desarrollado es la Web [3]. Se especifica que es

y su diferencia con Internet. Se brinda una pequena resena historica y se explica

su funcionamiento actual. Ademas, se profundiza en los sitios web, la informacion

que contienen y que generan. A continuacion, se explica el proceso KDD [5] y

cada una de sus etapas, desde la seleccion de datos hasta la interpretacion de los

resultados. Luego, la seccion 2.3 trata el tema denominado Web Mining [37] y sus

areas de aplicacion. Posteriormente, se introduce la tecnologıa Eye Tracking [51]

que a grandes rasgos, permite saber que es lo que una persona mira y por cuanto

tiempo. Finalmente, se explica la metodologıa para encontrar Website Keyobjects

disenada por Dujovne [23] que se espera mejorar.

2.1. La Web

Actualmente, la mayorıa de las personas en Chile se conectan a Internet y hacen

uso de la Web diariamente, o al menos en forma semanal [18]. Sin embargo, mu-

chos de ellos usan estos terminos indistintamente y desconocen que son objetos

totalmente diferentes.

10

Page 22: computación

Gutierrez [32] comparo pedagogicamente sus diferencias: Confundir la Web e In-

ternet es como confundir el cerebro (una red de neuronas) con el conocimiento

que posee una persona. Otro ejemplo fue dado por Piquer [50], quien realizo la

siguiente analogıa: El sistema de transporte (terrestre) esta basado en la red de

caminos y carreteras, pero el sistema de transporte es totalmente distinto a la red

de carreteras. Lo mismo ocurre para la Web e Internet.

Tecnicamente, Internet representa a la red de redes que permite la interconexion

entre dispositivos separados geograficamente, a traves del envıo y recepcion de los

datos que viajan en paquetes. Por otro lado, la Web es el conjunto de paginas y

objetos relacionados que se vinculan entre sı a traves de hipervınculos [70].

En palabras de su creador, Berners-Lee, la Web “es el universo de informacion

accesible desde la red, una encarnacion del conocimiento humano”. Velasquez y

Palade [66] la definieron de una forma mas concreta: “La Web es un canal masivo

para la difusion e intercambio de informacion”.

2.1.1. Un poco de Historia

Los primeros computadores eran practicamente inaccesibles para la mayorıa de las

personas por su elevado costo. Solo algunas instituciones podıan contar con ellos,

y muchas veces se arrendaba su capacidad de procesamiento. Con el progreso de

la tecnologıa los computadores se volvieron mas accesibles para la poblacion y

su uso se masifico. Luego surgio la idea de conectar los computadores entre sı,

escencialmente para poder comunicar mas facil y rapidamente las ideas de la co-

munidad cientıfica, con lo que nacieron las primeras redes locales. No falto mucho

tiempo para que estas redes se hicieran mas grandes, y finalmente globales, como

hoy en dıa lo es Internet [32].

11

Page 23: computación

En la decada de 1980, existıan varias redes incompatibles entre sı entre ellas

BITNET de IBM, DECNET de Digital, UUCP de Unix, etc. [2, 50] por lo que

no se podıa tener acceso a todos los recursos disponibles en estas redes. Para

resolver esta problematica, a comienzo de los noventa, Tim Berners-Lee inves-

tigador en CERN 1, ideo un sistema de informacion, basado en la aquitectura

cliente-servidor [27], que permitiera a cada usuario en un computador navegar

de forma automatica por otros computadores independientemente del software

ocupado por ellos. Este fue el nacimiento de la Web [3, 32].

2.1.2. Funcionamiento

Antes de detallar el funcionamiento de la Web, se explicaran los tres pilares que

soportan su arquitectura, estos son: Uniform Resource Locator (URL) [14], Hy-

pertext Markup Language (HTML) [12] y Hypertext Transfer Protocol (HTTP)

[13].

http://wi.dii.uchile.cl/index.php

Cuadro 2.1: Ejemplo URL.

Uniform Resource Locator. Como su nombre lo dice, es un localizador de

recursos que asocia una direccion en la Web con un nombre de dominio. En el

cuadro 2.1 se puede apreciar un ejemplo de una URL, donde se identifican tres

partes: el prefijo http:// corresponde al protocolo utilizado en la peticion, en este

caso HTTP. La parte central del string, wi.dii.uchile.cl/, es el dominio al que un

usuario busca acceder. Este nombre es traducido por un DNS 2 a una direccion IP

donde se encuentra alojado el sitio. Finalmente, el sufijo index.php hace referencia

1European Organization for Nuclear Research2Domain Name Service

12

Page 24: computación

Figura 2.1: Ejemplo codigo HTML

a un archivo en particular, dentro del servidor, que solicita un usuario.

Hypertext Markup Language. Es un lenguaje de comunicacion basico y comun

de hypertexto, es decir, enlaza paginas entre sı mediante links [3]. Este lenguaje

permite crear documentos semi-estructurados, que son interpretados por todos

los navegadores Web. Ademas provee instrucciones para agregar otro tipo de con-

tenido, como imagenes, sonidos y videos. La figura 2.1 corresponde a una parte

del codigo HTML de la pagina http://wi.dii.uchile.cl/index.php.

Hypertext Transfer Protocol. Es un protocolo de comunicacion que permite

13

Page 25: computación

Figura 2.2: Funcionamiento de la Web

(basado en [66])

la transferencia de documentos entre computadores, tıpicamente entre un cliente

y un servidor. La especificacion de este es mantenida por World Wide Web Con-

sortium (W3C).

El funcionamiento tıpico de la web, universo de informacion accesible a traves

de Internet, ocurre cuando un usuario, mediante un navegador llamado cliente,

requiere acceder a un sitio alojado en algun servidor web. Un servidor Web es un

programa que esta permanentemente esperando las peticiones de los clientes en

un puerto especıfico ubicable en una URL determinada. Este proceso es indistinto

si el usuario accede al sitio mendiante una URL o siguiendo un enlace.

En la figura 2.2 se pueden apreciar la interaccion entre un cliente y un servidor

Web. Como primer paso el cliente envıa al servidor una peticion de un archivo

determinado (1). El servidor recibe esta peticion, la almacena en una bitacora (2)

llamada web log, busca el archivo solicitado (3) y le envıa como respuesta el archivo

14

Page 26: computación

al cliente (4). Una vez que este recibe la respuesta, la guarda en una memoria

especial llamada cache y la interpreta mostrando la pagina en el navegador del

usuario (5). La comunicacion entre el cliente y el servidor se realiza siguiendo

el protocolo HTTP, mientras que los archivos enviados como respuesta por el

servidor [66].

Un sitio Web es un conjunto de paginas Web las que se encuentran en un directorio

o carpeta y que se encuentran enlazadas entre sı mediante links. Las paginas Web

son, en esencia, documentos de texto plano que siguen el formato HTML y que

pueden tener incrustados otros archivos con distinto formato, como imagenes,

videos, etc. Pueden ser estaticas o dinamicas. Si es estatica, su contenido no cambia

frecuentemente, por el contrario, si es dinamica es generada por un programa que

en el momento de la peticion del usuario procesa al menos un algoritmo para crear

el contenido de la pagina. El servidor web, ademas de esperar las peticiones de

los usuarios, envıa como respuesta los documentos solicitados por los usuarios y

en caso de ser requerido, procesa los algoritmos que crean las paginas dinamicas.

2.1.3. Datos Originados en la Web

Los datos que se originan en la Web pueden ser clasificados en tres tipos: contenido,

estructura y usabilidad.

Contenido: Hace referencia a los objetos presentes en las paginas Web, como

texto, imagenes, sonidos y videos, en palabras simples, todo lo que se puede ver

en una pagina. El texto puede ser semi-estructurado, altamente estructurado o

no poseer estructura. Por otro lado, el contenido multimedia requiere meta-datos

que describan su contenido, sin embargo, es muy poco comun encontrar estas

descripciones.

15

Page 27: computación

Estructura: Son los enlaces, o links entre las paginas. Por lo general cuando

existe un enlace entre dos paginas, estas estan relacionadas por su contenido. Si

un conjunto de paginas estan enlazadas entre ellas se crea una comunidad de

informacion comun [28]. Estos datos pueden modelarse como un grafo dirigido,

donde las paginas son representadas por nodos y los enlaces por los arcos.

Usabilidad: Son los datos generados por los usuarios en su proceso de navegacion.

Como se menciono anteriormente, los servidores Web almacenan cada peticion

realizada por los usuarios en un archivo llamado web log [15]. Los datos que son

guardados en esta bitacora de peticiones son los siguientes:

IP del Host: Direccion IP desde donde se realizo la peticion.

User y User ID: Si el sitio posee algun mecanismo de identificacion, se alma-

cena el usuario y el identificador numerico de este.

Timestamp: Fecha y hora en que se realizo la peticion.

Metodo de solicitud: Forma en la que se realiza la peticion.

URI 3: nombre y ubicacion del archivo solicitado.

Protocolo: version del protocolo HTTP del software que realiza la peticion.

Status: Estado del resultado de la peticion. Son codigos que tienen diferentes

significados.

Bytes: Tamano del documento enviado en bytes.

Referencia: Pagina desde la cual el usuario accedio al documento.

Agente: navegador desde el cual se realizo la peticion.

3Uniform Resource Identifier

16

Page 28: computación

En la siguiente seccion, se detallara un proceso estandarizado mediante el cual

se puede transformar datos en informacion. Este proceso sera aplicado posterior-

mente para encontrar patrones que describan los datos estudiados que correspon-

den en parte a los datos generados en la Web.

2.2. El proceso Knowledge Discovery in Databases (KDD)

Casi todos los campos de estudio han estado generando y almacenando canti-

dades de datos sin precedentes [22, 42]. A modo de ejemplo, las companıas de

retail guardan cada venta realizada; los servidores Web almacenan cada peticion

de los usuarios; y los astronomos generan millones de datos diariamente. Con

este crecimiento del volumen de datos, se ha vuelto impractico analizarlos de for-

ma manual y, en consecuencia, distintas entidades se han visto sobrecargadas y

sobrepasadas por sus datos.

Esta situacion genero la necesidad de crear tecnicas automaticas, o al menos semi-

automaticas, para facilitar la extraccion de informacion de grandes volumenes

de datos. Estas tecnicas son lo que hoy se conoce como el proceso Knowledge

Discovery in Databases, en adelante KDD.

2.2.1. Definicion

Fayyad et al. [22] definieron KDD como “el proceso no trivial de identificar pa-

trones previamente desconocidos, validos, originales, potencialmente utiles y com-

prensibles sobre los datos”, donde los datos son conjuntos de hechos almacenados

en alguna fuente y los patrones son expresiones que describen un subconjunto o

un modelo del subconjunto de los datos.

17

Page 29: computación

Figura 2.3: Etapas del proceso KDD.

(basado en [22])

Un campo relacionado con el proceso KDD es Data Warehousing [34], el que

puede participar en este proceso para facilitar la limpieza y el acceso a los datos.

A pesar de esto, no es imprescindible la existencia de un Data Warehouse para la

busqueda de patrones.

En la figura 2.3 se pueden apreciar la serie de pasos que compone este proceso. Es

importante notar que es interactivo e iterativo por lo que en cualquier momento

durante la ejecucion se puede volver atras. Ademas, en cada paso se recomienda

involucrar las decisionesiones de un experto del negocio [5]. A continuacion, se

describira cada una de las etapas que conforman el proceso.

18

Page 30: computación

2.2.2. Seleccion de datos

Consiste en elegir los datos, tıpicamente desde un sistema transaccional, sobre los

cuales se trabajara posteriormente. Por lo general corresponden a un subconjunto

del universo de datos disponibles. El criterio de seleccion depende del objetivo del

proyecto y de los requerimientos del cliente. Este es un paso importante, ya que el

uso de datos irrelevantes puede conducir a errores analıticos, ademas de agregar

ruido a los resultados finales [66].

2.2.3. Pre-procesamiento de datos

Esta etapa consiste en preparar los datos para procesarlos posteriormente. Gene-

ralmente es la mas costosa en terminos de tiempo [42].

Dado que los algoritmos de Data Mining, etapa posterior del proceso KDD, son

muy sensibles a los datos erroneos y faltantes, se aplican diferentes tecnicas que

pueden sobrellevar estas situaciones. Para encontrar errores en los datos, se suele

buscar outlayers, o valores fuera de rango, mientras que para los datos faltantes

se puede completar el campo manualmente o se trata de predecir dicha variable

en funcion de las demas. En ambos casos, siempre esta la alternativa de eliminar

el registro completo.

Otra dificultad que puede presentarse ocurre cuando los datos provienen de di-

ferentes fuentes y son reunidos, ya que se pueden producir inconsistencias, por

ejemplo, si las fuentes de datos ocupaban diferentes unidades de medida [43].

19

Page 31: computación

2.2.4. Transformacion de Datos

En este paso los datos siguen siendo preparados con el objetivo de aumentar la

calidad de las predicciones. Existen diferentes transformaciones que pueden ser

aplicadas, donde las mas tıpicas son: crear, eliminar, normalizar y discretizar va-

riables. Las dos primeras, se ocupan para representar mejor el conjunto de datos,

por ejemplo, calcular la edad de una persona a partir de su fecha de nacimiento;

mientras que los finales se ocupan para reformar los datos para que sean compa-

tibles con la tecnica de Data Mining que se desee ocupar [43].

El resultado de esta etapa es un conjunto de datos mas refinados sobre los cuales

se aplicaran las tecnicas y algoritmos de Data Mining.

2.2.5. Data Mining

Es el core del proceso KDD que consiste en descubrir patrones en los datos. Si

bien no hay nada nuevo en esto, la caracterıstica fundamental que lo diferencia de

otros mecanismos es la capacidad para operar sobre grandes volumenes de datos

[66, 69].

Dentro de Data Mining se encuentran varios mecanismos, como agrupacion o clus-

tering, prediccion; que sirven para enfrentar diferentes tipos de problemas. Gene-

ralmente, se ejecuta mas de una tecnica para verificar los resultados obtenidos.

Clustering

Consiste en separar un conjunto de datos en varios subconjuntos mas pequenos,

con la idea de que dentro de estos subconjuntos sus elementos esten altamente rela-

cionados entre sı y que, al elegir elementos de subconjuntos distintos, la relacion

20

Page 32: computación

entre estos sea baja. Para medir que tan relacionados estan dos elementos se suele

definir una funcion de distancia. Esta idea de separar conjuntos puede resultar

util para encontrar relaciones desconocidas en los datos, familiarizarse con ellos,

segmentarlos o dividir para reinar [42].

Para ejemplificar esta tecnica, consideremos que separamos el conjunto de todos

los animales conocidos en los subconjuntos mamıferos, invertebrados, aves y peces.

Dentro de estos subconjuntos todos sus elementos comparten una caracterıstica

y, por otro lado, al tomar dos ejemplos de distintos conjuntos, se puede apreciar

que no comparten ninguna caracterıstica principal de los diferentes subconjuntos.

Existen diversas formas de realizar Clustering como Agglomerative Hierarchical,

Partitioner-Based y Fuzzy. Para cada una de estas existe al menos un algoritmo

que la implementa [43]. Para evaluar la calidad de los clusters entregados por estos

algoritmos se pueden emplear los indicadores AIC y BIC [68], que estan basados

en el metodo de maxima verosimilitud.

Una forma mas basica de realizar Clustering es la denominada Reglas de aso-

ciacion. Este metodo entrega observaciones sobre los datos y trata de encontrar

vınculos entre los diferentes atributos del conjunto.

Prediccion

Se refiere a una serie de enfoques que buscan entregar mayor informacion para

tomar decisiones, basados en los datos historicos. A modo de ejemplo, las areas

de marketing usan este tipo de modelos para predecir que clientes compraran un

producto especıfico [43].

Los enfoques para alcanzar este proposito son diversos, entre ellos se encuen-

tran: regresion lineal, polinomial, logıstica, multiple, etc; analisis de componentes

21

Page 33: computación

principales, analisis del discriminante, clasificador Naive Bayes, redes bayesianas,

k-vecinos mas cercanos, arboles de decision, redes neuronales, etc. [42, 43]. Todos

estos enfoques pueden ser clasificados en dos tipos, regresion y clasificacion. La

diferencia entre estos es que una regresion busca predecir una variable continua,

mientras que la clasificacion, una variable discreta.

Para evaluar la calidad de una regresion se puede usar el error cuadratico medio

(ecuacion 2.1) , o el error absoluto medio (ecuacion 2.2) entre otros.

n∑i=1

(yi − yi)2

n(2.1)

n∑i=1

|yi − yi|n

(2.2)

El argumento que permite conocer que tan buena es una clasificacion consiste

en determinar el numero de eventos bien clasificados versus los mal clasificados.

Para ejemplificar esto, se consideran las siguientes propiedades de una prediccion

binaria:

Verdadero positivo (VP): Numero de observaciones clasificadas como ver-

daderas que son en realidad verdaderas.

Verdadero negativo (VN): Numero de observaciones clasificadas como falsas

siendo que son verdaderas.

Falso positivo (FP): Numero de observaciones incorrectamente clasificadas

como verdaderas.

Falso negativo (FN): Numero de observaciones incorrectamente clasificadas

como falsas (son verdaderas).

22

Page 34: computación

Con estos valores se construyen los siguientes indicadores, que son los que deter-

minan la calidad de una prediccion:

Precision: Indica la fraccion de las predicciones verdaderas que fueron co-

rrectas (2.3).

Recall : Indica la fraccion de los eventos verdaderos que fueron predichos

correctamente (2.4).

F-measure: Otorga una mezcla de los indicadores anteriores, que los mezcla

uniformemente (2.5).

Precision =V P

V P + FP(2.3)

Recall =V P

V P + FN(2.4)

F −measure = 2 ∗ Precision+Recall

Precision ∗Recall(2.5)

Esta forma de evaluar una prediccion binaria es extensible para grados mayores,

como por ejemplo al pronosticar el clima de un dıa que puede ser soleado, templado

o frıo.

2.2.6. Interpretacion y analisis de resultados

Los algoritmos de Data Mining entregan como resultado patrones que general-

mente son un subconjunto de los datos. Sin embargo, existe la posibilidad que

23

Page 35: computación

estos patrones no tengan sentido alguno, por lo que deben ser validados por el

experto del negocio.

Si los patrones encontrados son correctos es posible tomar acciones basadas en

lo aprendido. Si no lo son, el proceso completo debe ser revisado y modificado,

prestando especial enfasis en los modelos de informacion.

Es importante destacar que el proceso KDD nunca tiene fin, ya que el entorno

siempre esta en un constante cambio. Los patrones encontrados hoy, puede que

ya manana no tengan validez, sin embargo, pueden ser usados como fundamentos

para un trabajo futuro [66].

A continuacion, se estudiara un area de investigacion reciente que aplica muchos

de los conceptos descritos en esta seccion.

2.3. Web Mining

En palabras simples, Web Mining es la aplicacion de Data Mining a los Datos

originados en la Web [11, 59]; es producto del cruce de varias areas de investi-

gacion, como Bases de Datos, Recuperacion de la Informacion, Inteligencia Arti-

ficial, especialmente las sub areas de aprendizaje de maquina y procesamiento del

lenguaje [21]. La investigacion en este campo esta experimentando un importante

crecimiento, principalmente, por la gran cantidad de datos disponibles para ser

analizados [37]. Esta no es una tarea menor, considerando que la Web es una

gran coleccion de datos heterogeneos, desclasificados, distribuidos, variantes en el

tiempo, semi-estructurados y de alta dimension [46].

Generalmente, se confunde Web Mining con recuperacion de informacion (IR) y

extraccion de informacion (IE). Sin embargo, esto no es correcto. El objetivo de

24

Page 36: computación

IR es recuperar la mayor cantidad de archivos relevantes para una busqueda [37],

para lo cual, la principal tarea que se realiza es la creacion de ındices de texto

ası como la busqueda de keywords en una coleccion. Si bien algunas tecnicas de IR

son utilizadas dentro del proceso de Web Mining, muchas de las metodologıas que

se aplican no requieren del uso de Data Mining, por lo que el alcance es distinto

[23].

Como se detallo en la seccion 2.1.3, los datos originados en la Web pueden ser

clasificados en tres categorıas, por lo que es natural que Web Mining tambien se

ramifique en estas categorıas, pues la naturaleza de estos datos difiere de forma

tal que poseen problematicas diferentes. Las sub-areas de Web Mining son: Web

Content Mining, que estudia el contenido de las paginas; Web Structure Mining

que estudia la estructura de los sitios (links) y la Web en general y Web Usage

mining que analiza el comportamiento de los usuarios de la Web.

2.3.1. Web Content Mining (WCM)

El objetivo de Web Content Mining es descubrir informacion util desde los docu-

mentos Web [37], que son considerados como el contenido, datos y otros archivos

presentes en la Web. WCM no esta limitado solo al analisis del texto de las pagi-

nas Web, sino que tambien incluye otros tipos de documentos, como imagenes y

videos [66], sin embargo, el analisis sobre este tipo de datos, denominado Multi-

media Data Mining, no recibe tanta atencion como el analisis de texto [23].

Antes de estudiar el contenido textual de una pagina Web, esta se debe pre-

procesar de modo que un computador pueda realizar operaciones sobre el texto.

Para esto se transforma cada pagina Web en un vector de caracterısticas, llamado

Vector Space Model [55].

25

Page 37: computación

Vector Space Model (VSM)

Es un modelo matricial que representa un conjunto de documentos y las palabras

que aparecen en cada uno de ellos. Una dificultad presente en la creacion de

este modelo es que varias palabras, que derivan de un mismo lema, presentan

el mismo contenido semantico. A modo de ejemplo, las palabras “estudiando”,

“estudia” y “estudio” no significan mas que “estudiar”. Este problema se soluciona

tranformando las palabras en su forma canonica, es decir, “estudiando”, “estudia”

y “estudio” son transformadas en “estudiar”.

Sea P la cantidad de palabras distintas, ya transformadas, presentes en al menos

uno de los Q documentos que se modelaran. Entonces una representacion vectorial

de los documentos esta dado por la matriz M de dimension P*Q.

M = (mij), i = 1...P, j = 1...Q (2.6)

En la ecuacion 2.6, mij es el peso de la palabra i en el documento j, dado un con-

junto de documentos. Este valor debe explicitar que hay palabras mas importantes

que otras. Para calcular mij, se necesita saber que tan importante es una palabra

en un documento, en este sentido, el numero de veces que aparece la palabra i

en el documento j resulta ser relevante, y al ser normalizado por la cantidad de

veces que aparece en el total de documentos se obtiene una relacion de la palabra

i para el conjunto completo de documentos.

El calculo de mij se realiza en dos pasos. El primero mide la frecuencia de la

palabra i en el documento j versus la frecuencia de la misma palabra en el total

de documentos, representado por la ecuacion 2.7, donde mij es el numero de veces

que aparece la palabra i en el documento j.

26

Page 38: computación

TFij =nij∑Qk=1 nik

(2.7)

El segundo paso busca medir la importancia de la palabra en todo el conjunto de

documentos. Esta nocion esta dada por el logaritmo de la division entre el total

de documentos y la cantidad de ellos en los que aparece la palabra i (ecuacion

2.8).

IDFij = log(Q

ni) (2.8)

Finalmente, mezclando 2.7 y 2.8 se obtiene mij.

mij = TFij ∗ IDFij (2.9)

Con esta representacion matricial, el conjunto de documentos esta listo para rea-

lizar Data Mining sobre su contenido.

2.3.2. Web Structure Mining (WSM)

Esta sub-area de Web Mining estudia los enlaces presentes en las paginas Web.

Las paginas y enlaces se modelan como los nodos y los arcos de un grafo dirigido

respectivamente. El arco parte en el nodo que representa a la pagina que posee

el enlace y termina en el nodo que representa a la pagina que es apuntada. La

figura 2.4 representa los enlaces de tres paginas. La pagina A tiene dos enlaces, a

las paginas B y C, mientras que la B posee uno hacia la C.

Kleinberg [36] propuso una clasificacion de las paginas Web mediante este tipo

de analisis. Definio que una pagina es Authority si apunta a pocas paginas y

27

Page 39: computación

Figura 2.4: Grafo dirigido que representa enlaces entre paginas.

es apuntada por varias, lo que significarıa que su contenido es importante en la

Web. En contraste, una pagina es clasificada como Hub si posee varios enlaces a

otras paginas y es poco apuntada. Se asume que una pagina Hub posee un buen

contenido si apunta a paginas Authority y que una pagina Authority es apuntada

por varias Hub. En la figura 2.4, la pagina “A” es clasificada como Hub, mientras

que la “C” como Authority.

A modo de ejemplo, es posible establecer una analogıa entre las paginas Authority

y las publicaciones de investigacion (papers). Se considera que un paper que es

muy citado posee buen contenido. Ocurre analogamente con las paginas Authority.

Los buscadores, como Google o Yahoo!, ocupan WUM para realizar sus procesos

de busquedas mediante los algoritmos Page Rank [6] y HITS [36] respectivamente.

Ambos ordenan las paginas segun sus pesos relativos en la Web [66].

Page Rank extrae las paginas mas relevantes independientemente de la consulta

ingresada por el usuario. El supuesto mas importante de este algoritmo es que la

importancia de una pagina esta dada por la cantidad de enlaces hacia ella. Por

otro lado, HITS necesita como entrada la consulta del usuario para ordenar las

28

Page 40: computación

paginas.

Otro uso que se le da a WSM es la identificacion de comunidades [24]. Estas

tecnicas son muy usadas ya que facilitan las busquedas en la Web, bajo el concepto

de dividir para reinar. La idea es encontrar comunidades que esten relacionadas

entre sı por enlaces y contenidos y “separar” estas comunidades para realizar las

busquedas. Se realiza mediante el metodo Flujo maximo, corte mınimo [26].

2.3.3. Web Usage Mining (WUM)

Esta enfocado en la aplicacion de tecnicas de Data Mining para descubrir patrones

utiles que puedan predecir la conducta del usuario mientras interactua en la Web

[37, 62]. Para descubrir estos patrones son analizadas las sesiones de navegacion,

que son la secuencia de paginas que un usuario visita mientras navega en un sitio

web. Para encontrarlas, hay que lidiar con varios problemas [62]:

Una direccion IP - Varias sesiones: Los servidores proxy son programas que

realizan acciones en representacion de otros. Por esto, cuando un usuario mediante

un proxy realiza una peticion, se almacena la IP del proxy, y no la del usuario.

Potencialmente habra varios usuarios ocupando un proxy y al mismo tiempo, con

lo que todas las peticiones de estos usuarios seran guardadas solo con la IP del

proxy.

Varias direcciones IP - Una sesion: En la actualidad existen herramientas que

permiten asignar aleatoriamente una IP (dentro de un conjunto fijo de estas) a

cada peticion realizada por el usuario. Con esto, una sesion podrıa estar compuesta

por peticiones provenientes de diferentes direcciones IP.

Varias direcciones IP - Un usuario: Un usuario puede acceder a un sitio desde

29

Page 41: computación

computadores diferentes, con lo que se hace difıcil identificar al usuario.

Varios navegadores - Un usuario: Caso analogo al anterior, un usuario que usa

diferentes navegadores, incluso en el mismo computador, aparecera como varios

usuarios distintos.

Existen variadas estrategias para identificar las sesiones de navegacion de los

usuarios, las que fueron agrupadas por Spiliopoulou et al. [61] en dos categorıas,

“proactivas” y “reactivas”.

Las estrategias proactivas ocupan algun metodo de identificacion directa del usuario,

como cookies o registros username/password. Cada vez que un usuario realiza una

peticion a un servidor web, su identificacion es anexada y enviada al servidor. Con

este mecanismo, cada peticion es asignada confiablemente a quien la inicio, evi-

tando ası las dificultades descritas anteriormente, ya que no depende de una IP.

Luego, para identificar las sesiones, solo basta con encontrar todas las peticiones

realizadas con un mismo identificador.

En segundo lugar, las estrategias reactivas solo analizan el archivo weblog para

obtener las sesiones. Dicho archivo es particionado, por las distintas direcciones IP,

en un conjunto de “sesiones recontruidas”. Para soslayar (en parte) los problemas

mencionados anteriormente, es necesario aplicar una de las siguientes heurısticas

[23].

Heurıstica orientada a la navegacion: Esta heurıstica se basa en que los usuar-

ios navegan por la Web solo siguiendo links, es decir, no escriben directamente

una URL en el navegador, por lo que si llega una peticion que no es accesible

desde las paginas que previamente han sido visitadas por un usuario, entonces

debe asignarse a una nueva sesion.

En el caso de que el usuario haga uso de la utilidad “Retroceder una pagina” del

30

Page 42: computación

navegador (evento que no es guardado en el weblog, pues queda almacenado en el

cache del navegador) y visite una nueva pagina que no posee un link desde la ultima

pagina visitada, esta heurıstica reconstruye el “Retroceder una pagina” realizado

por el usuario. Esta situacion es extendida para reconstruir el movimiento del

usuario, eligiendo el camino mas corto que permita llegar desde la ultima pagina

visitada hacia la nueva, siguiendo los links presentes en el sitio [62, 16].

Heurıstica orientada al tiempo: Esta heurıstica instaura un lımite maximo

para la duracion de una sesion. Para calcular este lımite, Catledge y Pitkow [9]

midieron el tiempo promedio de inactividad en un sitio, resultando 9.3 minutos. A

este valor se sumo 1.5 veces la desviacion estandar, lo que resulto en 25.5 minutos.

Este valor fue aproximado a 30 minutos y en la actualidad es usado como el tiempo

maximo que puede durar una sesion [16, 60].

Luego de ordenar las peticiones de las diferentes direcciones IP por el tiempo en el

que llegaron, estas son particionadas en periodos de 30 minutos, para finalmente

asignar a cada particion una sesion. Cabe notar que para esta heurıstica, a difer-

encia de la anterior, no importa si una pagina esta unida a otra a traves de un

link, por lo que se asume que un usuario puede escribir directamente una URL en

el navegador [61].

Una vez reconstruidas las sesiones de navegacion de los usuarios (que no es mas

que un pre-procesamiento de los datos), se puede aplicar diferentes tecnicas de

Data Mining, como Metodos estadısticos, Clusterig y Reglas de asociacion.

Los metodos estadısticos sirven para conocer, por ejemplo, las paginas que son

mas visitadas, o las que nunca lo son. Las tecnicas de clustering permiten agrupar

sesiones de navegacion de los usuarios. Estos clusters pueden ser usados para per-

sonalizar un sitio web, en funcion del usuario que navega por este. Las reglas de

31

Page 43: computación

asociacion entregan como resultado patrones como “X % de los usuarios que visi-

taron la pagina P1, tambien visitaron la pagina P2” y si no existe un link directo

entre esas paginas, una recomendacion directa para el administrador del sitio serıa

incluir un link desde P1 hacia P2 [66]. Es importante recordar que todos los pa-

trones descubiertos deben ser analizados por un experto en el negocio, tıpicamente

el administrador del sitio web, para que valide la informacion adquirida.

Para continuar, se tratara un tema estudiado hace mas de 50 anos, pero que en

la actualidad y promovido por avance de la tecnologıa, ha llegado a ser amplia-

mente en otras areas de investigacion como usabilidad, marketing, asistencia para

minusvalidos, diseno, etc.

2.4. Eye Tracking

Eye Tracking es una tecnica mediante la cual los movimientos oculares de un indi-

viduo son medidos, por lo que un investigador puede conocer lo que una persona

esta mirando en cada momento y la secuencia en la que sus ojos se desplazan

de un lugar a otro. Seguir los movimientos oculares de la gente puede ayudar

a los investigadores de la Interaccion Humano-Computador a entender el proce-

samiento de la informacion visual y los factores que pueden tener repercusiones

en la usabilidad de la interfaz. De esta forma, las grabaciones de los movimientos

oculares pueden proporcionar una fuente de datos objetiva para la evaluacion de

interfaces, que a su vez pueden otorgar informacion para mejorar el diseno de las

mismas [51].

La presente seccion comienza con un basico resumen del ojo humano, pues es

necesario recordar su composicion para comprender las sub-secciones posteriores.

A continuacion se presentan un modelo de los movimientos que pueden realizar

32

Page 44: computación

Figura 2.5: Componentes del ojo humano

los ojos. Luego se describen diferentes teorıas de la atencion visual, campo donde

hasta el dıa de hoy no existe un consenso sobre su funcionamiento. Dada esta base

de conocimiento se presenta la hipotesis fundamental en la que se basa toda la

tecnologıa Eye Tracking, se describen las diferentes tecnicas dentro de este campo

y finalmente, se describen los datos que genera un Eye Tracker actual.

2.4.1. El ojo humano

El ojo es un organo que detecta la luz y que es capaz de transformar estos estımulos

en impulsos electricos, los que seran interpretados posteriormente en el cerebro.

En la figura 2.5 se puede apreciar un modelo del ojo humano, cuyos componentes

mas importantes para este trabajo, seran detallados brevemente a continuacion.

Cornea: Es una estructura transparente ubicada al frente del ojo, que permite el

paso de la luz y protege otras estructuras posteriores. Posee propiedades opticas

de refraccion significativas, que son usadas por diferentes Eye Trackers como una

caracterıstica localizable.

Macula (o fovea): Es una pequena depresion en la retina, donde los rayos lumi-

33

Page 45: computación

nosos son enfocados y que se encuentra especialmente capacitada para la vision

en alta resolucion, es decir, la macula esta en funcionamiento cuando observamos

algo con especial atencion o interes. [19].

Pupila: Es un orificio situado en la parte central del iris por el cual penetra la luz.

Cuando es iluminada, puede reflejar la iluminacion del globo ocular, caracterıstica

que, al igual que en el caso anterior, es medible por los Eye tracker [19].

Retina: Ubicada en la superficie posterior del ojo, la retina contiene receptores

sensibles a la luz, lo que constituyen la primera etapa de la percepcion visual [19].

2.4.2. Movimientos oculares

Cuando observamos una escena, cualquiera que esta sea, los ojos de una persona se

mueven entre puntos que capturan su atencion, y ası se logra recrear una imagen

cerebral de la escena [44].

Si bien existen modelos de los movimientos oculares complejos que constan de

cinco pasos [19], el modelo tıpico (y suficiente para los estudios de Eye Track-

ing) esta constituido por dos elementos: fixation (o fijacion), momento en el cual

los ojos permanecen fijos sobre un objeto y es posible apreciarlo en detalle; y

saccades (o movimientos sacadicos), que corresponden a los rapidos movimientos

oculares entre dos fixations [44]. Es importante notar que mientras se produce

un movimiento sacadico permanecemos ciegos (no somos concientes de lo que

esta entre los dos objetos que capturaron nuestra atencion). Sin embargo, nuestro

cerebro es capaz de interpretar esta “secuencia de imagenes” como un continuo, y

por ende, nuestra apreciacion parece mas un video que una secuencia de imagenes.

34

Page 46: computación

2.4.3. Atencion visual

La atencion visual es un fenomeno que ha sido estudiado por cerca de cien anos y

que todavıa no se logra comprender. Los primeros estudios estaban limitados por

la tecnologıa, y correspondıan solo a observacion e introspeccion. En la actualidad,

este campo es estudiado por distintas disciplinas como psicofısica, neurociencia

cognitiva y ciencias de la computacion, por nombrar solo algunas [19].

Lo magnıfico del sistema de vision humano es que creemos tener una imagen clara

de todo nuestro entorno, cuando por lo general no es ası. Cuando prestamos aten-

cion a un objeto en particular, nuestra mirada es dirigida directamente hacia este

y se produce un enfoque nıtido. Entonces el cerebro junta estos trozos de imagenes

y forma una imagen mental del entorno, que es mucho mejor que cualquier cosa

enfocada separadamente [44].

En terminos generales, la vision humana tiene dos partes: una pequena zona cen-

tral con una resolucion muy alta, llama vision foveal, y la gran mayorıa del campo

visual con una baja resolucion, llamado la vision periferica.

Usualmente el hecho de prestar atencion a regiones de interes esta relacionado con

realizar movimientos oculares (overt attention). Sin embargo, tambien podemos

colocar atencion en objetos perifericos sin realizar este tipo de movimientos (covert

attention) [25].

Por otro lado, se conocen dos formas en las que la atencion es guiada: bottom-

up y top-down. La primera derivada solo de la escena visual, establece que las

regiones de interes atraen nuestra atencion lo suficientemente fuertes como para

que no observemos el resto de la escena (vision foveal). Por otro lado, top-down

es conducida por otros factores cognitivos, como el conocimiento, la expectacion

y las metas actuales. Bajo este modelo, las personas son mas propicias a ver a su

35

Page 47: computación

alrededor (vision periferica); a modo de ejemplo, un individuo que conduce con

regularidad, mas propenso a notar las estaciones de combustible mientras realiza

otra actividad que alguien que no lo conduce [25].

En la actualidad, aun no esta claro que es lo que realmente captura nuestra aten-

cion, ni como respondemos a diferentes estımulos. Existe evidencia de que presta-

mos atencion a ubicaciones espaciales, caracterısticas y objetos. La mayorıa de los

investigadores creen que estas teorıas no son excluyentes entre sı y que, ademas,

la atencion visual puede ser desarrollada en cada una de estas subareas. Vale la

pena mencionar que los humanos podemos prestar atencion simultaneamente a

multiples regiones de interes (maximo cinco) [25].

Los primeras representaciones de los movimientos oculares llevaron a pensar que

el reconocimiento de un estımulo no es una operacion de un solo paso, sino mas

bien es un proceso paralelo, al menos parcialmente realizado en serie; debido a

la tendencia de agrupar objetos. En la figura 2.6 se puede apreciar la llamada

ilusion de Kanizsa [35], donde se muestra este efecto. Muchas personas, luego de

ver esta imagen, diran que vieron un triangulo, el que solo es interpretado en

nuestro cerebro [44].

2.4.4. La hipotesis mente-ojo

Considerando las teorıas descritas en la seccion anterior, Duchowski [19] planteo el

siguiente modelo:

1. Dado un estımulo, como una imagen, la escena es vista en su mayor parte en

paralelo, a traves de la vision periferica y, por lo tanto, en baja resolucion. En

esta etapa, las caracterısticas interesantes de la imagen pueden “aparecer”.

36

Page 48: computación

Figura 2.6: La ilusion de Kanizsa.

2. En estos momentos la atencion esta desconectado de la vista foveal (alta

resolucion), pero los ojos son rapidamente posicionados en la primera region

que ha atraıdo.

3. Una vez los ojos son posicionados, la fovea se alınea hacia la region de interes

y la atencion esta ligada con la percepcion, es decir, la atencion del usuario

ha sido capturada y, por ende, se logra observar en alta resolucion.

Nielsen y Pernice [44] propusieron un modelo mas simple, pero que en esencia es

el mismo. Su hipotesis establece que “Las personas estan usualmente pensando

en lo que estan mirando. Aunque no siempre entienden lo que ven o no estan

totalmente enfocados en esto; si estan observando algo, entonces estan colocando

atencion, especialmente cuando estan concentrados en una tarea en particular”.

37

Page 49: computación

2.4.5. Tecnicas Eye Tracking

En la presente seccion se describiran las diferentes tecnicas existentes para rea-

lizar el “seguimiento de los ojos”. Estas tecnicas pueden ser clasificadas en dos

categorıas: las que miden la posicion del ojo con respecto a la cabeza y las que

miden la orientacion de los ojos en el espacio, lo que es denominado el “punto de

atencion” (lo que una persona esta mirando) [19].

Electro oculografıa

En la decada de 1950, la electrooculografıa fue la tecnica mas usada de Eye Track-

ing. Se basaba en la medicion de la diferencia de potencial electrico de la piel

mediante el uso de electrodos ubicados al rededor de los ojos. Esto es posible ya

que la cornea se mantiene unas decimas de mV mas positiva que la retina con lo

que se produce la diferencia de potencial que es medida y que varıa de acuerdo al

movimiento de los ojos. [41, 57].

Esta tecnica mide la posicion relativa de los ojos con respecto a cabeza, por lo

que no es adecuada para calcular el punto de atencion, a menos que se mida

simultaneamente la posicion de la cabeza [19].

Lentes de contacto esclerales

Esta tecnica consiste en adjuntar una referencia mecanica u optica a un lente de

contacto que sera usado directamente sobre los ojos. Es necesario que el lente de

contacto sea particularmente grande, de modo que se extienda sobre la cornea y

la esclerotica, pues ası se reduce la posiblidad de que se desplace sobre el ojo [19].

Se han usado distintos tipos de referencias sobre los lentes de contacto siendo la

38

Page 50: computación

mas comun una pequena bobina, que puede ser ubicada desde el exterior al aplicar

un campo electromagnetico [17, 53].

Si bien es una de las tecnicas mas precisas para medir los movimientos oculares,

es tambien la mas invasiva y causa malestar al usarlo. Por otro lado, solo mide la

posicion relativa del ojo a la cabeza, y generalmente no es adecuada para identificar

el punto de atencion [19].

Foto/Vıdeo oculografıa

Esta categorıa agrupa una amplia variedad de herramientas que capturan los

movimientos oculares. Esencialmente, mide distintas caracterısticas de los ojos,

como por ejemplo, la pupila, el lımite entre la esclerotica y el iris o el reflejo de

la cornea cuando es iluminada. Aunque difieren en su enfoque, estas tecnicas se

agrupan porque a menudo no encuentran el punto de atencion [19]. Sin embargo,

es posible localizarlo mediante estimaciones y regresiones polinomiales [10, 39].

Estas tecnicas son de las mas atractivas debido a su versatilidad y simplicidad

[10]. Normalmente, consisten en una serie de fotos y/o videos que guardan los

movimientos oculares y que posteriormente son analizadas de forma manual o

automatica. Varios de estos metodos requieren que la cabeza este fija, por ejemplo,

mediante una mentonera.

Reflejo de la cornea y Centro de la pupila basado en video

Es la tecnica Eye Tracking mas usada en la actualidad. Consisten en un com-

putador estandar de escritorio con una camara infrarroja montada debajo de un

monitor, con el software de procesamiento de imagenes para localizar e identificar

el Reflejo de la Cornea y el Centro de la Pupila. Con estas caracterısticas, es posi-

39

Page 51: computación

Figura 2.7: Reflejo de la cornea y brillo de la pupila.

ble disociar los movimientos oculares de la cabeza, con lo que es posible calcular

el punto de atencion de los usuarios [51].

En funcionamiento, una luz infrarroja de un LED es dirigida hacia el usuario para

crear reflejos notorios de las caracterısticas de los ojos y con esto conseguir que

sean mas faciles de rastrear (se ocupa luz infrarroja para evitar deslumbrar al

usuario). La luz entra en la retina y una gran parte de ella se refleja, por lo que

la pupila aparece como un disco brillante y bien definido (efecto conocido como

pupila brillosa). El reflejo de la cornea tambien es generado por la luz infrarroja,

apareciendo como un pequeno, pero fuerte brillo [51]. En la figura 2.7 se puede

apreciar el efecto pupila brillosa y el reflejo de la cornea. Una vez que el software

de procesamiento de imagenes ha identificado el centro de la pupila y la ubicacion

del reflejo de la cornea, el vector que resulta de ellos se mide, y con algunos calculos

trigonometricos, el punto de atencion puede ser encontrado.

Este tipo de Eye Tracker necesita ser ajustado a las caracterısticas de cada per-

sona. El proceso de calibracion funciona mostrando un punto en el monitor y si

el usuario observa este punto con un determinado margen de error y durante un

tiempo mayor a cierto umbral, el sistema registra la relacion centro de la pupila,

40

Page 52: computación

reflejo de la cornea como un punto (x,y) especıfico. Este proceso es repetido con

otros puntos en el monitor para obtener mayor precision en todo el monitor [51].

2.4.6. Datos generados por un Eye Tracker

Mediante la ultima tecnica descrita, los Eye Trackers modernos son capaces de

capturar varios tipos de datos, entre estos [63]:

Timestamp: Fecha y hora en milisegundos de cuando se recogieron los datos.

GazePointXLeft: Posicion horizontal en el monitor que observa el ojo izquierdo.

GazePointYLeft: Posicion vertical en el monitor que observa el ojo izquierdo.

CamXLeft: Ubicacion horizontal de la pupila izquierda en la imagen de la camara.

CamYLeft: Ubicacion vertical de la pupila izquierda en la imagen de la camara.

DistanceLeft: Distancia en mm. desde el Eye Tracker hasta el ojo izquierdo.

PupilLeft: Diametro de la pupila del ojo izquierdo dada en mm.

GazePointXRight: Posicion horizontal en el monitor que observa el ojo derecho.

GazePointYRight: Posicion vertical en el monitor que observa el ojo derecho.

CamXRight: Ubicacion horizontal de la pupila derecha en la imagen de la

camara.

CamYRight: Ubicacion vertical de la pupila derecha en la imagen de la camara.

DistanceRight: Distancia en mm. desde el Eye Tracker hasta el ojo derecho.

PupilRight: Diametro de la pupila del ojo derecho dada en mm.

Las mediciones de el tamano de las pupilas y la distancia a los ojos pueden va-

riar de forma importante entre los individuos dependiendo del uso de lentes. Sin

embargo, las variaciones en estas medidas son certeras.

Para los datos que corresponden a la ubicacion de un punto el monitor, este se

41

Page 53: computación

considera como el primer cuadrante de un mapa carteciano cuyo origen es la

esquina inferior izquerda.

Ademas de estos datos, son generados paralelamente codigos de validacion con

los que se puede determinar si una muestra es valida o corresponde a un error.

Estos codigos de validacion son generados independientemente para cada ojo,

por lo que es posible, por ejemplo, que se haya medido correctamente el punto

donde esta enfocado el ojo izquierdo, mientras que el derecho no se haya podido

determinar.

2.4.7. Aplicaciones

Las aplicaciones de estas tecnicas son tan variadas como los campos en los cuales

se ocupa. A continuacion, se presenta una seleccion de investigaciones que han

sido desarrolladas mediante el seguimiento de los ojos:

Administrador de Energıa para PC

Moshnyaga [40] implemento un administrador de energıa para PCs que mantiene

activo un monitor solo si hay alguna persona observandolo, en caso contrario,

atenua su consumo energetico o lo apaga. Esto es analogo a lo que ocurre en la

actualidad, pero ocupando como entrada eventos de un teclado o mouse.

Analisis de la conducta de los usuarios en una busqueda Web

Granka et. al [30] investigaron como los usuarios interactuan con los resultados

de una busqueda en la Web, y como ellos eligen los links para seguir navegando.

Concluyeron que los dos primeros links son los mas observados en una pagina de

42

Page 54: computación

resultados de una busqueda Web, independiente del buscador empleado, lo que

concuerda con el hecho de que los tres primeros enlaces son los que reciben la

mayorıa de las visitas en el mismo contexto.

Buscando patrones en las paginas Web

Granka et. al [29] estudiaron como el tamano de los elementos y la densidad

de la informacion en una pagina Web influıan en su capacidad para atraer y

capturar la atencion de los usuarios. Ellos concluyeron que el tamano y la densidad

de informacion no contribuyen significativamente cuando el usuario comienza a

prestar atencion a algun elemento. Ademas descubrieron que los usuarios generan

la capacidad de ignorar las zonas donde se encuentra publicidad en las paginas

Web.

Buenas practicas para estudios Eye Tracking

Ali-Hasan et. al [1] establecieron un conjunto de buenas practicas para los estu-

dios de Eye Tracking en television y video que incluye como realizar preguntas

adecuadas, moderar la duracion de las entrevistas y analizar los datos generados.

Usabilidad

Variada es la literatura sobre la aplicacion de la tecnologıa Eye Tracking en estu-

dios de usabilidad. Duchowski desarrollo toda una metodologıa para aplicar esta

nueva herramienta [19], mientras que Nielsen y Pernice la aplicaron expecialmente

en usabilidad Web [44]. En esta area Burget et al. desarrollaron una metodologıa

que permite encontrar las areas de mayor interes de los usuarios de una pagina

Web en pos de determinar su significado [7], mientras que Pan et al. estudiaron

43

Page 55: computación

las caracterısticas sobre como las personas miran las paginas Web. Dado que es-

tas incorporan diversos formatos, estipularon que la forma en que una persona

observa una pagina es distinta a como contempla otro tipo de entornos [47].

En el estudio de la interaccion humano computador, esta tecnologıa tambien ha

sido aplicada. Pool y Ball establecieron que tan aplicada era esta tecnologıa en

esta area de estudio [51]. Ademas, Rudmann et al. incorporaron a la investigacion

los procesos congnitivos que tienen los humanos mientras interactuan con un PC

[54]. Por otro lado, Tsianos et al. limitaron los procesos cognitivos estudiados a

solo los relacionados con el aprendizaje en un ambiente de educacion a distancia

[64].

A continuacion, se nombran otros estudios donde se aplico Eye Tracking : Buscher

et al. quienes buscaron las regiones de un monitor que son mas preferidas por

los usuarios para leer, independientemente del contenido [8] Redline et al. pro-

pusieron usar esta tecnologıa para medir el diseno de instrumentos administrados

visualmente [52] y Pietinen et al. desarrollaron una metodologıa para estudiar

como interactuan dos programadores que trabajan colaborativamente frente a un

computador [49].

Para finalizar este Capıtulo, en la siguiente seccion se detallara el trabajo realizado

por Dujovne y Velasquez [20] en el que esta basada esta memoria, la que busca

mejorar su implementacion y precision.

2.5. Website Keyobject

En la presente seccion se describira a fondo los Website Keyobjects. Se comen-

zara con su definicion, luego se explicitara su implementacion, se establecera una

44

Page 56: computación

medida de comparacion de objetos y finalmente se detallara una metodologıa para

encontrarlos.

2.5.1. Definicion

Dujovne y Velasquez definieron un Web Object como “un grupo estructurado de

palabras o contenido multimedia, que esta presente en una pagina Web y que posee

meta datos que describen su contenido” [65]. En la definicion anterior los meta

datos son fundamentales ya que son la base de la informacion para construir el vec-

tor que representara el contenido de la pagina. Ademas, dos archivos multimedia

pueden ser comparados mediante sus metadatos, problema que es considerable-

mente mas abordable que el comparar directamente los archivos, ya que solo se

compara texto.

Ademas definieron los Web Site Key Object como “uno o un grupo de Web Object

que atraen la atencion del usuario y que caracterizan el contenido de una pagina

o sitio web” [65]. Estos proveen conocimiento acerca del contenido y formato que

mas interesan a los usuarios de un sitio web, por lo que encontrarlos puede ser

util para mejorar el sitio tanto en presentacion como en contenido.

2.5.2. Implementacion

Considerando la primera definicion, para que una pagina Web este compuesta por

Web Object, es necesario que sus objetos posean los meta datos, cosa que por

lo general no ocurre. Existe una gran variedad de formas para agregarlos a las

paginas Web, dependiendo de la ontologıa que se quiera ocupar.

En [65] se asocio a cada objeto un documento XML que contiene los meta datos

45

Page 57: computación

que describen su contenido y la pagina a la que este pertenece. Ademas, en la

pagina Web tambien se establece la relacion entre el objeto y el documento XML.

Para esto se usan tags de HTML. El siguiente es el formato con el que se guardaron

los meta datos:

identificador de la pagina

objeto:

• identificador.

• formato.

• concepto(s).

Cada objeto debe poseer al menos un concepto asociado pues en caso contrario, el

objeto no tiene significado alguno. Cada concepto es un grupo de tres sustantivos

pues, en el lenguaje espanol, permiten una completa mas no suficiente definicion de

cualquier concepto [56]. Ademas cada concepto debe pertenecer a una categorıa

que los agrupe. Al usar estas categorıas los conceptos podran relacionarse con

otros.

La figura 2.8 muestra un mapa conceptual que describe tanto la definicion como

la implementacion de los Web Objects.

2.5.3. Comparacion entre objetos

Para comparar dos Web Objects, Dujovne y Velasquez [65] usaron la idea que los

objetos son un cumulo de conceptos. El siguiente procedimiento muestra como

lograron establecer una medida de similitud entre objetos.

46

Page 58: computación

Figura 2.8: Mapa conceptual: Descripcion de los Web Objects.

Considere los objetos O1 y O2 tal que |O1| = N , |O2| = M , N >= 0, M >= 0 y

N <= M . Ademas sea Ci(O) el i-esimo concepto del objeto O.

Enlazar conceptos

El siguiente algoritmo permite enlazar los conceptos de O1 y O2.

∀ Ci(O1), i = 1..N

• ∀ Cj(O2), j = 1..M

◦ Comparar Ci(O1) con Cj(O2) (Comparacion de conceptos).

◦ Guardar el resultado de la comparacion en un contador.

• Guardar un enlace entre Ci(O1) y Cj(O2) con el contador mas grande

(Conceptos mas parecidos).

Para contrastar conceptos, se comparan las palabras que los componen. Si una

palabra del primer concepto esta en el segundo, se suma 1 al contador; si posee

un sinonimos, se suma 0,5.

47

Page 59: computación

Ordenar conceptos

Una vez almacenados todos los enlaces entre los conceptos correspondientes a O1 y

O2, son ordenados de modo que queden en la misma posicion relativa en funcion de

los enlaces recientemente creados, es decir, que el primer concepto de O1 termine

enlazado con el primer concepto de O2. El siguiente algoritmo ejemplifica esto:

∀ Ci(O1), i = 1..N

• Buscar el Cj(O2) que esta pareado con Ci(O1)

• Intercambiar Cj(O2) con Ci(O2)

Transformar conceptos en un string

Como se menciono anteriormente, cada concepto debe pertenecer a una categorıa.

Cada categorıa, la que es representada por un caracter. Luego, al reemplazar cada

concepto por el caracter que representa a su categorıa, el cumulo de conceptos

queda transformado en un string.

Aplicar la distancia de Levenshtein

Levenshtein [38] ideo una norma que mide la distancia entre dos strings, la que

tambien es conocida como la distancia de edicion y es ampliamente usada en la

actualidad por distintos correctores ortograficos. Consiste en contar el numero

de cambios, a nivel de caracteres, que deben hacerse sobre un string para ser

transformado en el de comparacion. Estos cambios pueden ser: eliminar, agregar

o cambiar un caracter por otro en cualquier lugar de la palabra.

Entonces, como O1 y O2 fueron transformados en strings, son comparados me-

48

Page 60: computación

diante la distancia de Levenshtein, con lo que se tiene un indicador de que tan

parecidos son dos objetos. Mientras menor sea la distancia, mas parecidos seran

los objetos.

Finalmente la ecuacion 2.10 define una norma que permite comparar objetos,

donde L(O1, O2) es la distancia de Levenshtein de los strings que representan a

los objetos y |O| es el numero de conceptos del objeto O.

do(O1, O2) = 1− L(O1, O2)

max(|O1| , |O2|)(2.10)

2.5.4. Metodologıa para encontrar Website Keyobject

La metodologıa que idearon Dujovne y Velasquez consta de dos grandes procesos:

Transformacion de datos y aplicacion de algoritmos de clustering.

Transformacion de datos

Esta es una etapa tıpica del proceso KDD (Ver seccion 2.2). Dado que en este

problema particular las fuentes de datos son varias es necesario realizar una diversa

limpieza y transformacion de datos.

Sesionizacion: Detallada con anterioridad (subseccion 3.3.2), el objetivo de esta

etapa es finalizar con la secuencia de paginas que visitaron los diferentes usuarios

de un sitio. Ademas, esta secuencia debe tener asociados los tiempos de perma-

nencia de los usuarios en cada pagina.

Incorporacion de Metadatos: El primer paso de esta etapa es identificar los

objetos que componen las paginas del sitio. Una vez identificados, se deben definir

los conceptos que describen a cada uno de los objetos. Luego, esta informacion

debe ser almacenada en un base de datos. El levantamiento de estos datos debe ser

49

Page 61: computación

en conjunto con el webmaster, para asegurar que los conceptos reflejen fielmente

el contenido de los objetos.

Tiempos de permanencia en objetos: Luego de definir los objetos, Velasquez

y Dujovne propusieron realizar una encuesta a un grupo de usuarios de control de

modo que cada persona entrevistada distribuya un total de 10 puntos de interes

entre todos los objetos de una pagina. Con estos datos, se estimo el porcentaje de

permanencia de cada usuario en los objetos de cada pagina.

Posteriormente, en la lista de sesiones se reemplazo cada registro de pagina vi-

sitada por los objetos que componen dicha pagina, intercambiando el tiempo de

permanencia de la pagina por el tiempo ponderado de permanencia en cada objeto.

Vector de comportamiento del usuario: Finalmente, para cada sesion identi-

ficada se seleccionaron los n objetos que capturaron mas la atencion del usuario,

definiendo ası el Important Object Vector (IOV) segun la ecuacion 2.11

v = [(o1, t1)...(on, tn)] (2.11)

Algoritmos de Clustering

Una vez realizada toda la limpieza y transformacion de datos, se procede a proce-

sar algoritmos de clustering sobre las sesiones de los usuarios, representadas medi-

ante el Important Object Vector. Para poder ejecutar estos algoritmos, es de crucial

importancia definir una medida de distancia, o similitud, entre estos vectores.

Medidas de similitud para sesiones: Dujovne y Velasquez [65] definieron la

similitud entre dos IOV mediante la ecuacion 2.12.

50

Page 62: computación

st(α, β) =1

i∗ (

i∑k=1

min(ταkτβk,τβkταk

) ∗ do(oαk , oβk)) (2.12)

En la ecuacion 2.12, α y β corresponden al identificador de las sesiones de usuarios

a ser comparadas, ταk corresponde al tiempo de permanencia del usuario α en el

objeto ok y do(oαk , oβk) es la similitud entre los respectivos objetos, definida en la

ecuacion 2.10. La ecuacion 2.12 esta definida entre los valores 0 y 1, siendo 0

cuando los IOV no se parecen en nada y 1 cuando son identicos.

Esta medida de similitud fue ocupada como parametro de entrada para los algorit-

mos de clustering. Dujovne y Velasquez implementaron tres de estos algoritmos,

principalmente para comparar los resultados que entregaron estas tecnicas. Los

algoritmos de clustering ocupados fueron: Self Organizing Feature Maps, K-means

y Association Rules.

51

Page 63: computación

CAPITULO

3

DISENO DEL EXPERIMENTO

Para seguir la naturaleza investigativa de este trabajo de tıtulo, es necesario rea-

lizar un experimento que compruebe la hipotesis planteada en 1.3. Este experi-

mento, bosquejado en 1.6, sera desmenuzado con gran detalle en este capıtulo.

3.1. El entorno

En esta seccion se describira el ambiente sobre el cual se llevara a cabo el expe-

rimento. La idea principal es preparar el medio para que los resultados obtenidos

sean limpios, es decir, no incorporen sesgo ni otras variables ajenas al estudio o

que su influencia sea mınima. Se comienza por describir las caracterısticas que

debe tener el sitio sobre el cual se desarrollara el experimento, luego el grupo de

control sobre el cual se trabajara y, para terminar, se listaran las caracterısticas

mınimas que debe poseer el Eye Tracker a ocupar.

3.1.1. El sitio

Necesita satisfacer tres requerimientos: Debe tener un numero de paginas adecua-

do, la cantidad de objetos por paginas no puede ser excesivo y debe poseer una

52

Page 64: computación

gran cantidad de visitas almacenadas (sesiones).

La variedad de sitios en Internet es abrumadora. Se pueden encontrar sitios de

solo una pagina, como sitios con un numero de paginas del orden de millones. Para

este trabajo, de ser reducido el numero de paginas (10-20) no sera posible apreciar

todo el potencial del experimento. En caso contrario, si el sitio esta constituido

por muchas paginas (200 o mas), se estarıa agregando una dificultad adicional

innecesaria. Por estas razones se espera que el sitio sobre el cual se desarrollara este

estudio este constituido por unas 100 paginas distintas.

Con respecto al numero de objetos por pagina, si una de estas se encuentra con-

stituido por un objeto, entonces no es necesario testear esta pagina, ya que el

tiempo de permanencia en el objeto es equivalente al tiempo de permanencia en

la pagina. Si el numero de objetos por pagina es excesivo, antes de agregar dificul-

tad al experimento, se recomendara al administrador del sitio seguir consejos de

usabilidad basicos para el re-diseno del sitio. Se espera que el promedio de objetos

por pagina no sea superior a 20.

Por otro lado, uno de los supuestos esenciales para poder realizar Data Mining,

es tener grandes cantidades de datos. Por eso, la factibilidad de acceso a los datos

guardados en el weblog es crıtica.

Adicionalmente, otra caracterıstica deseable del sitio es que se puedan realizar

cambios sobre este. Si bien es factible realizar el experimento sobre uno que no es

modificable, serıa un desperdicio no implementar las mejoras descubiertas durante

el desarrollo del experimento.

53

Page 65: computación

3.1.2. El grupo de control

Este es un punto sumamente relevante para el desarrollo del experimento, pues de

no elegir una muestra suficientemente representativa de los usuarios que visiten el

sitio, se podrıa llegar a resultados que no correspondan a la realidad.

De contar con abundantes recursos (tiempo, dinero, personas), se recomienda al-

tamente estudiar al menos a 39 personas distintas, pues en este caso, el Teorema

del Lımite Central nos dice que la media y la varianza de la muestra seran si-

milares a las de la poblacion, donde aplicado a este caso, las variables aleatorias

corresponden al tiempo de permanencia de los usuarios en los objetos web.

En caso contrario se necesita asegurar que la muestra elegida sea representativa

del universo. Para lograr esto, se usara el conocimiento experto del encargado del

sitio, quien proveera pautas sobre el publico objetivo del portal. Sin embargo, se

consideraran usuarios que no sean parte del publico objetivo del sitio, pues dada

la naturaleza aleatoria de la navegacion, es posible que personas totalmente ajenas

al sitio accedan a este. Ademas, se seleccionaran usuarios web de distintos niveles

de expertise: amateurs, seniors y expertos. Con respecto al sexo, la edad, nivel de

educacion, etc. se seguiran las pautas otorgadas por el administrador del sitio.

3.1.3. El Eye Tracker

En la actualidad, y con el avance de la tecnologıa en este campo, la mayorıa de

los Eye Tracker comerciales son precisos, pero su costo es elevado. Por lo que el

elegido para realizar el experimento debe estar dentro del alcance economico del

proyecto y su precision debe permitir identificar los objetos que mira un usuario.

54

Page 66: computación

3.2. Captura de datos

En esta seccion se describe como se obendran los distintos datos para realizar el

experimento. Estos datos, al ser de orıgenes diversos, necesitan ser tratados de

forma distinta cada uno.

3.2.1. Paginas

Una vez elegido el sitio, sera desmenuzado en todas sus componentes. Para reali-

zar esto se empleara un crawler que recuperara desde la Web todas las paginas

disponibles que conforman el sitio y tambien los enlaces entre estas.

Ademas, las paginas recuperadas por el crawler seran almacenadas como imagenes

con formato png para posteriormente realizar el cruce entre estas y los datos que

entregara el eye tracker (coordenada del pixel dentro de la pagina).

Objetos

Como primer paso, la demarcacion de los objetos debe ser, idealmente, realizada

con el administrador del sitio. En caso de no ser posible trabajar en conjunto

con el, sera necesario que valide esta separacion. Para describir el contenido de

cada objeto se procedera segun definieron Dujovne y Velasquez [65] por lo que se

guardara su formato y una lista de conceptos descriptores del objeto.

3.2.2. Weblog

El archivo weblog (ver 2.1.3) sera recuperado con el administrador de sistemas

de la maquina donde esta alojado el sitio. Este archivo puede estar en distintas

55

Page 67: computación

carpetas, dependiendo del servidor web instalado y de la configuracion del mismo.

3.2.3. Interes de los usuarios

Para capturar el interes de los usuarios en los diferentes objetos de las paginas, se

procedera de dos maneras: uso de un Eye Tracker y aplicacion de una encuesta.

Eye Tracker

Con el objetivo de determinar cuantitativamente los tiempos de permanencia en

los Web Objects, se empleara un Eye Tracker comercial que entregara los datos

correspondientes a los movimientos oculares de los usuarios. La captura de estos

datos se realizara de dos formas: mediante la asignacion de tareas a los usuarios

de control y la presentacion de las paginas del sitio como estımulos.

Asignacion de tareas: En estudios de usabilidad de sitios web, lo habitual es

asignar tareas a usuarios de control y, mientras ellos la realizan, almacenar sus

movimientos oculares. Estas tareas deben reflejar lo que el usuario tıpico puede

hacer en el sitio. Ejemplo de esto es que a un usuario de control se le asigne la

tarea de solicitar un credito de consumo en el sitio de algun banco.

Para poder asignar estas tareas se necesita un acabado conocimiento de los proce-

sos de negocio que se realizan en el sitio estudiado. Si no se posee esta competencia,

es muy probable que el estudio no llegue a buen resultado, pues los movimientos

oculares de los usuarios de control son sesgados hacia la tarea solicitada. Por esto,

las tareas elegidas deben ser validadas por quien tiene a cargo el sitio estudiado,

pues es quien tiene el conocimiento experto sobre el negocio del portal.

Paginas como estımulos: Dado que no se usara la tecnologıa Eye Tracking

56

Page 68: computación

para un estudio de usabilidad, sino que solo se espera cuantificar el tiempo de

permanencia de los usuarios en los Web Objects, se propone una forma distinta

para capturar los datos. En vez de asignar tareas a los usuarios, se les presentaran

las paginas que componen el sitio como estımulos, es decir, se les ensenaran se-

cuencialmente todas las paginas. En este proceso, el usuario podra avanzar a la

pagina siguiente cuando considere que no hay nada mas que llame su atencion.

Ademas cada pagina podra ser vista por un tiempo maximo determinado. Este

tiempo se calculara a partir de los tiempos de permanencia de los usuarios de la

pagina almacenados en el weblog.

A pesar de que el Eye Tracker necesita ser calibrado para cada usuario testeado, a

la mitad del grupo de control se le ocultara el funcionamiento de esta herramien-

ta, para determinar si hay diferencias significativas entre los usuarios que saben

que se almacenaran sus movimientos oculares y los que no. Algunos de los datos

generados por un Eye Tracker son detallados en la subseccion 2.4.6

Encuesta

Luego de realizar la medicion con el Eye Tracker, se procedera a realizar la misma

encuesta que aplicaron Velasquez y Dujovne [65] a los participantes de su experi-

mento. Con esto se obtendran los tiempos permanencia que estimaron Velasquez

y Dujovne para implementar la metodologıa. Ademas, al comparar los datos ge-

nerados por la encuesta y por el Eye Tracker, se podra contrastar lo que dicen

que vieron los usuarios, con lo que realmente vieron.

57

Page 69: computación

3.3. Transformacion de datos

Para continuar con la guıa dada por el proceso KDD (ver 2.2), luego de capturar

los datos, seran transformados con el fin de que los datos sean procesables por

los algoritmos de Data Mining. Analogamente a la captura, la transformacion de

datos sera realizada independientemente para cada una de las fuentes de datos.

3.3.1. Paginas

Las paginas no seran transformadas. Solo se almacenara su url, imagen en formato

png y tamano en pixeles.

Objetos

Mas que transformar los datos de los Objetos Web, estos deben ser caracterizados

mejor. Se almacenara su formato, una descripcion sencilla y su tamano en pixeles.

Ademas, en otra tabla relacional se guardaran las listas de conceptos que describen

los objetos y la categorıa a la que pertenencen. Junto con esto se creara la relacion

que parea los objetos con sus conceptos.

Por otro lado, para conocer los objetos que aparecen en las paginas, se creara una

relacion que mapea los objetos en las paginas. Esta relacion guardara ademas

la coordenada superior derecha del objeto en la pagina. Con esta informacion,

dada la coordenada de un pixel en la imagen de la pagina, se podra determinar a

que objeto pertenece dicho pixel. Esto sera de vital importancia al mapear lo que

miran los usuarios mientras navegan.

Ademas, una vez cargados los datos de los objetos y los conceptos, se proced-

era a calcular la distancia conceptual entre objetos, segun la ecuacion 2.10. Estas

58

Page 70: computación

Figura 3.1: Modelo de paginas, objetos y conceptos.

distancias seran guardadas en una tabla relacional, de modo que al ejecutar los

algoritmos de Data Mining, no sea necesario volver a calcular la separacion entre

objetos.

La figura 3.1 muestra el modelo relacional que soporta lo dicho anteriormente

sobre paginas, objetos y conceptos.

3.3.2. Weblog

Una vez recuperado el archivo weblog (ver 2.1.3) sera pre-procesado y almacenado

en una tabla relacional que permita manipular los datos que guarda. Posterior-

mente se llevara a cabo la sesionizacion, proceso descrito en la subseccion , cuyos

resultados seran almacenados en otra tabla. Estos resultados daran a conocer la

secuencia de paginas visitadas por los usuarios y la duracion de su estancia en

cada pagina. La figura 3.2 ilustra el modelo que almacenara los datos del weblog

y los tiempos empleados por los usuarios en las paginas.

59

Page 71: computación

Figura 3.2: Modelo weblog y tiempo usado en las paginas.

3.3.3. Interes de los usuarios

A continuacion se detallara el procedimiento para transformar los datos que miden

el interes de los usuarios en los objetos web.

Eye Tracker

Los datos que entrega el Eye Tracker se reduciran y agruparan de modo que

se pueda calcular cuanto tiempo gastan los usuarios observando cada objeto. La

idea principal es dado los tamanos de paginas y objetos en pixeles y la ubicacion

de estos ultimos, mapear las coordenadas que entrega el Eye Tracker, tambien

en pixeles, sobre los objetos de una pagina que observo un usuario en cierto

instante. Una vez mapeado al objeto correspondiente, se almacenara el tiempo que

gasto cada usuario en cada objeto del sitio. Luego, este valor se transformara en un

porcentaje de permanencia del usuario en los objetos para finalmente promediar

60

Page 72: computación

los tiempos de permanencia de todos los usuarios en los objetos.

Ademas de estos datos se almacenara la forma en que fueron capturados los datos,

mediante la presentacion de las paginas como estımulos o mediante la asignacion

de tareas. Ası mismo, se guardara si el usuario conocıa o no el funcionamiento del

Eye Tracker. Con estos datos, posteriormente se establecera cual es la mejor forma

de capturar los movimientos oculares para esta metodologıa y si es influyente en el

estudio que las personas entrevistadas conozcan que se guardaran sus movimientos

oculares.

Encuesta

Los datos que entregara la aplicacion de la encuesta corresponden a la asignacion

de puntos de interes que los usuarios otorgan a los objetos presentes en las paginas.

Para cada pagina, los usuarios dispondran de 10 puntos de interes, que seran

repartidos a libre criterio entre los objetos que mas llamen su atencion. Luego,

como paso intermedio y bajo el supuesto de los puntos de interes de un objeto son

directamente proporcionales al tiempo que un usuario enfoca su atencion en este,

se transformaran los puntos de interes en un porcentaje de permanencia. A modo

de ejemplo, si un objeto obtiene 5 puntos de atencion, entonces el porcentaje de

permanencia sera de 0,5. Finalmente, se promediaran todos los porcentajes de

permanencia de los objetos, con lo que se tendra una distribucion de permanencia

para los objetos de todas las paginas del sitio.

Una vez transformados los datos generados por el Eye Tracker y por la encuesta,

cada registro de la tabla spent time on pages (figura 3.2) sera reemplazada por

todos los objetos que componen la pagina asociada. En este proceso, la transfor-

macion principal corresponde a ponderar el tiempo de permanencia de las paginas

61

Page 73: computación

por los porcentajes de permanencia de los objetos, calculados en las transforma-

ciones anteriores. Esta informacion reflejara que objetos son los que miran los

usuarios mientras navegan por el sitio Web.

Con estas transformaciones se podra intuir si existen diferencias significativas

entre capturar el interes de los usuarios mediante una encuesta o con un software

especializado de Eye Tracking.

3.3.4. Usuarios de control

Acerca de los usuarios entrevistados durante el desarrollo del experimento, se

almacenara el sexo, edad, profesion, area de la profesion, nivel academico, dominio

de Internet, conocimiento del estudio y conocimiento del sitio.

El area de la profesion corresponde a una agrupacion de las profesiones segun

el area de estudio, este campo puede tomar valores entre matematico, biologo

o humanista. La incorporacion de este dato busca establecer si existe relacion

entre el area de la profesion y lo que mas llama la atencion de los usuarios. Los

campos sexo, edad, profesion, nivel academico, dominio de Internet y conocimiento

del sitio se almacenaran para llevar control sobre la muestra seleccionada para

el estudio, con el objetivo de que sea lo mas representativa posible. El campo

conocimiento del estudio guarda si el usuario entrevistado conoce el objetivo del

estudio y el funcionamiento del Eye Tracker. Con esta campo, se establecera si

existe variacion significativa entre los usuarios que saben que sus movimientos

oculares seran grabados y los que no. Ademas, al combinar estos datos con los

obtenidos al aplicar la encuesta, se establecera si lo que dicen que vieron los

usuarios, es realmente lo que vieron.

62

Page 74: computación

3.4. Variaciones de la metodologıa

La gran variacion que se implementara consiste en incorporar a la metodologıa

disenada por Dujovne y Velasquez [65] los tiempos de permanencia de los usuarios

en los objetos calculados a partir de los datos generados por un Eye Tracker. Este

cambio no considera ninguna otra alteracion mas que reemplazar los tiempos de

permanencia en los objetos estimados mediante una encuesta.

Sin embargo, se realizaran dos tipos de capturas de datos con el Eye Tracker, medi-

ante la asignacion de tareas y presentacion de estımulos, estos datos se analizaran

y de encontrar que son dispares, esta metodologıa se procesara dos veces, una por

cada tipo de captura de datos.

3.5. Comparacion de Resultados

Las distintas versiones de la metodologıa para encontrar website keyobjects entre-

garan como resultados distintos conjuntos de objetos. Para poder comparar estos

resultados nuevamente se usara el conocimiento experto del encargado del sitio,

quien establecera si un objeto clasificado como website keyobjects realmente lo

es. Una vez adquirido este conocimiento se compararan los conjuntos obtenidos

por las metodologıas mediante el indicador precision (ver 2.2.5). Este indicador

es usado para evaluar la prediccion de un algoritmo de clasificacion. Con estos

resultados se concluira y se establecera la validez de la hipotesis.

63

Page 75: computación

CAPITULO

4

TRABAJO REALIZADO

En el presente capıtulo se detalla todo el trabajo elaborado para finalizar el ex-

perimento disenado en el capıtulo anterior. Se comenzara por describir el entorno

en el que se trabajo, como se capturaron y transformaron los datos, para finalizar

con las tecnicas de Web y Data Mining empleadas.

4.1. El entorno

En esta seccion se describira el contexto sobre el que se trabajo. Se especificara el

sitio elegido, se describiran los usuarios de control seleccionado, ası como el Eye

Tracker usado y las herramientas usadas a lo largo del experimento.

4.1.1. El sitio elegido

Los experimentos se desarrollaron sobre el sitio http://www.mbauchile.cl, perteneciente

a la direccion del Magıster en gestion y direccion de empresas del Departamento

de Ingenierıa Industrial de la Universidad de Chile. Este sitio fue lanzado a la

Web en Enero del ano 2011, luego de la re-estructuracion del anterior.

64

Page 76: computación

Figura 4.1: Tabla estadıstica de las visitas al sitio

Esta compuesto por 124 paginas y 163 objetos distintos que aparecen en 2.047 en

el sitio, es decir, un objeto puede estar presente mas de una vez en el sitio. Con

esto, el numero promedio de objetos por pagina es 12,55.

Sobre las visitas al sitio, en promedio cada mes acceden 4.158 personas distintas,

se contabilizan 6.111 sesiones y se ven 26.589 paginas. En la tabla 4.1 se puede

apreciar el trafico mensual (desde Enero del 2011). Cabe notar que el trafico

mensual en el mes de Septiembre fue superior a promedio de los meses anteriores.

Esto se debio a que durante dicho mes se realizaron las pruebas para este trabajo,

lo que explica el aumento de visitas.

4.1.2. Los usuarios entrevistados

Antes de seleccionar a los usuarios de control que participarıan en el experimento,

se solicito al experto del negocio informacion sobre el mercado objetivo del sitio en

estudio con el objetivo de elegir una muestra mas representativa de los individuos

que visitan el sitio.

Teniendo en cuenta esta informacion, se seleccionaron 33 personas. De estas, 16

65

Page 77: computación

son de sexo masculino y 17 femenino, mientras que su promedio de edad es de

24,3 anos. En este universo, 19 de ellos se declararon matematicos, 8 humanistas

y 6 biologos.

Los matematicos son ingenieros de varias especialidades, en su mayorıa civiles. Los

humanistas fueron psicologos literatos y linguistas, mientras que en los biologos

aparecen medicos, odontologos, kinesiologos y veterinarios.

Con respecto al conocimiento y uso de la Web, 15 de ellos se declararon expertos

al navegar por la Web, 12 consideran que su conocimiento es regular y solo 6 de

ellos se declararon usuarios basicos.

15 de las personas entrevistadas conocıan de que se trataba el estudio, es decir,

estaban al tanto de que sus movimientos oculares serıan medidos, mientras que

los 18 restantes lo desconocıan.

En la tabla 4.2 se puede apreciar el detalle de estos atributos de las personas

entrevistadas.

4.1.3. El Eye Tracker Utilizado

Para el desarrollo de los experimentos se conto con herramientas de Software y

Hardware de Eye Tracking. Acerca del hardware, se uso el Eye Tracker Tobii T120

(Ver figura 4.3), que consiste en un monitor de 17 pulgadas al que se le incorpora

dos emisores infrarrojos y un sensor de luminosidad. Este hardware posee una

resolucion temporal de 120 Hz y tiene un margen de error de 0,5◦. Con respecto al

software, se uso el programa Tobii Studio Enterprise Edition, solucion que permite

mapear facilmente lo que se muestra en el monitor, con el lugar del mismo que

los usuarios observan.

66

Page 78: computación

Figura 4.2: Caracterısticas de los usuarios de control

67

Page 79: computación

Figura 4.3: Tobii T120

Estas herramientas pertenecen a la categorıa Reflejo de la cornea y Centro de la

pupila basado en vıdeo, clasificacion mas avanzadas de las herramientas en esta

area (Ver 2.4.5).

Antes de realizar el experimento, se evaluaron otras soluciones de Eye Tracking,

que fueron descartadas debido a su alto costo y a la dificultad de traerlos al

paıs, mientras que la empresa Tobii, posee una filial en Chile para toda America

Latina, que proveıa las herramientas bajo concepto de arriendo, con lo que el valor

de adquirirlo fue considerablemente menor.

4.1.4. Herramientas ocupadas

Los experimentos fueron ejecutados sobre un Notebook HP 530 con un procesador

Intel Core Duo T2050 de 1.60 GHz con 2GB de memoria RAM. Se emplearon los

sistemas operativos Windows XP Profesional Edition y Ubuntu 11.04. El primero

se uso para ejecutar el software Tobii Studio Enterprise Edition (captura de datos)

y el segundo para el desarrollo de los algoritmos del experimento.

68

Page 80: computación

El desarrollo de programas de limpieza y transformacion de datos se realizo en

python 2.7.1 y SQL dependiendo de lo que fuera mas conveniente en cada caso.

Los algoritmos de data mining tambien se desarrollaron en python 2.7.1. La base

de datos usada fue PostgreSQL 8.4.9.

4.2. Captura de datos

La diversidad de los datos usados es tan grande que llega a ser relevante para el

desarrollo de esta memoria. En este sentido esta seccion esta dedicada a describir

como se adquirieron los datos con los que posteriormente se trabajo. Se listan los

procesos segun el origen desde donde se obtuvieron los datos.

4.2.1. El sitio

Para conocer la composicion de el sitio http://www.mbauchile.cl se implemento un

crawler que genero la lista de paginas que componen el sitio. Este crawler se

desarrollo ocupando la librerıa de Python Beautiful Soup.

Las paginas

Ademas cada pagina fue almacenada en formato png, para posteriormente mapear

sobre estas los objetos. Se midio el tamano en pıxeles de todas las paginas y luego

se almaceno esta informacion.

69

Page 81: computación

4.2.2. Los objetos

Una vez capturada la lista de paginas a analizar se procedio a identificar los objetos

del sitio. Para separar cada pagina en los objetos que la componen se consideraron

dos criterios: diferencias en el contenido (Conceptos) y la separacion espacial entre

objetos de cada pagina. Esta separacion genero 163 objetos distintos, los que por

lo general aparecieron en varias paginas.

Para conocer cuales eran las coordenadas de los objetos dentro de las paginas

se empleo la librerıa Python Imaging Library (PIL), que permite trabajar con

imagenes sobre el interprete de Python. Se implemento un script, que a partir de

las imagenes de las paginas del sitio, generaba las coordenadas de los distintos

objetos pertenecientes a cada pagina.

4.2.3. Los conceptos

Luego de listar los objetos se procedio a generar los conceptos que describen su

contenido. Se procedio de forma analoga a lo que realizo Dujovne [65], es decir,

cada concepto fue creado de forma manual. De haber empleado algun generador

de conceptos automatico, como el algoritmo Latent Dirichlet Allocation (LDA)

[4], se estarıa agregando una nueva variable en el estudio de la metodologıa, con

lo que serıa mas complejo determinar si el aumento o disminucion de la precision

fue debido al uso del eye-tracker o al uso del algoritmo LDA.

Toda la informacion generada en estos pasos fue almacenada en una base de datos

relacional, cuyo modelo se puede apreciar en la figura 3.1.

70

Page 82: computación

4.2.4. El Weblog

Este se recupero desde el servidor donde se aloja el sitio en conjunto con el ad-

ministrador de sistemas, luego de obtener permiso del dueno del sitio. No se lo-

gro recuperar la totalidad de las peticiones pues no se almacenan los registros

historicos. Sin embargo, se obtuvo las peticiones correspondientes al mes de Agos-

to de 2011. Durante este mes visitaron el sitio 3.031 personas distintas, en 5.480

sesiones. En total se visualizaron 28.832 paginas, se registraron 156.259 peticiones,

y se alcanzo un trafico de 3.20 GB.

4.2.5. Interes de los usuarios

Para medir elinteres de los usuarios en los objetos web, se midio y estimo su

tiempo de permanencia en ellos. Esto se realizo de dos formas: mediante el uso de

un Eye Tracker y mediante la aplicacion de la encuesta empleada por Dujovne

[65].

Eye Tracker

A cada uno de los usuarios de control se les instruyo como procederıa el expe-

rimento. A la mitad de estos se les revelo que sus movimientos oculares serıan

almacenados, mientras que al resto se le oculto. Con esto se espera determinar si

hay diferencias considerables en los resultados con respecto a esta variable.

La figura 4.4 muestra como fueron ubicados los usuarios frente al Eye Tracker, ya

que este es sensible a la posicion relativa entre los mismos.

A 15 de los usuarios de control (Ver figura 3.1), se les planteo la siguiente situacion:

“Usted tiene la inquietud de postular a un programa MBA, pero aun no toma una

71

Page 83: computación

Figura 4.4: Ubicacion Eye Tracker - Usuario

decision definitiva, por lo que su primer paso sera informarse. En la busqueda de

informacion ha llegado al sitio http://mbauchile.cl, el cual provee datos relevantes

sobre el MBA que dicta la Universidad de Chile. Partiendo desde el home del

sitio, navegue libremente hasta que pueda tomar una decision o decida realizar un

nuevo paso.” De esta forma, se busco emular la navegacion tıpica de los usuarios

en sus casas.

Los restantes 18 individuos no navegaron libremente, sino se les instruyo a mirar

las paginas que se les presentaran, sin seguir ningun enlace. A cada uno de ellos

se les presentaron paginas semi-aleatorias del sitio. Los usuarios podıan pasar a

la pagina siguiente cuando lo estimaran conveniente, pero si pasaban mas de un

minuto en una pagina, automaticamente se le redirecciono a la pagina posterior.

El numero de paginas presentadas a los usuarios no fue superior a 30.

Los datos que genera el Eye Tracker Tobii T120 son diversos y numerosos. El soft-

ware permite exportar vıdeos y 5 tipos de archivos de datos por cada usuario entre-

vistado: All Data, Areas of Interes, Combined Data, Event Data y Fixation Data.

El primero corresponde a todos los datos que genera el software mezclados entre sı.

72

Page 84: computación

En el archivo Areas of Interes se puede exportar las areas de interes de las paginas,

si es que estas fueron definidas antes de desarrollar el experimento. Esta carac-

terıstica resulta muy util cuando se presentan estımulos visuales como imagenes,

donde no es posible seguir links de forma libre. El archivo Combined Data mezcla

los datos de los archivos Event Data y Fixation Data. El primero de estos con-

tiene la informacion de los eventos mientras se ejecuta el experimento. Almacena

los clicks que se realizaron (derecho, izquierdo, y coordenadas del pıxel), los links

que se siguieron, los estımulos que se mostraron y si cambio algo en la pagina,

como un nuevo display. Finalmente, el archivo Fixation Data guarda los datos

de las Fixation y Sacades de los movimientos oculares de los usuarios. Con estos

archivos, sin considerar los videos generados, se almacenaron 2.2 GB de datos en

archivos de texto.

Encuesta

Luego de ser enfrendatos al Eye Tracker, independiente de la forma en que se

capturaron sus movimientos oculares, se solicito a los sujetos responder una en-

cuesta en la que por cada pagina vista, indicaran los objetos que mas capturaron

su atencion. Para medir el interes prestado por los usuarios, se les indico repartir

10 puntos, como ellos quisieran, sobre los objetos de cada pagina, teniendo en

cuenta que mientras mas puntos tenıa un objeto, mas interes les presto el usuario.

4.3. Seleccion, limpieza y transformacion datos

A continuacion se detalla como se pre-procesaron los datos capturados anterior-

mente. Este proceso se separo segun el origen de los datos. Se describe de forma

especial el trabajo realizado para medir el interes de los usuarios, pues es en este

73

Page 85: computación

punto donde se produce la diferenciacion con la metodologıa original, descrita en

detalle en el Marco Conceptual.

4.3.1. Las paginas

De la lista de paginas obtenidas anteriormente con el crawler, se eliminaron dos:

la pagina correspondiente al RSS y una pagina repetida. La que corresponde

al RSS del sitio, se elimino pues no se espera que sea visitada por personas,

sino por programas lectores de noticias. La segunda pagina que se elimino era

igual en objetos y conceptos a otra, pero con una URL distinta, por lo que no

fue considerada en el estudio. Sin embargo, en el proceso de sesionizacion las

peticiones a la pagina eliminada fueron consideradas como peticiones a su pagina

equivalente.

4.3.2. Los objetos

Una vez que se identificaron los 163 objetos del sitio, el experto del negocio

valido esta separacion, pero tambien agrupo, disgrego y elimino algunos objetos

pre-seleccionados.

Posteriormente a esta validacion, como cambiaron algunos objetos, hubo que re-

calcular las posiciones de los mismos en las paginas. Para esto se modifico y re-

ejecuto el script que genero la ubicacion (en pıxeles) de los objetos en las pagina.

Luego las coordenadas de los pıxeles de los objetos fueron normalizados segun la

dimension del estımulo, con lo que las coordenadas de los objetos pasaron de estar

guardados como enteros entre 0 y el largo de la dimension del objeto, a un valor

de doble precision entre 0 y 1. Esto para adecuarse a la forma en que entrega los

datos el Eye Tracker.

74

Page 86: computación

4.3.3. Los conceptos

Con respecto a los conceptos que describen los objetos, se valido por el experto

del negocio la forma en que fueron generados, por lo que no fue necesario realizar

ninguna modificacion, con la salvedad de agrupar o disgregar los conceptos de los

objetos que fueron modificados por el experto.

Luego, en estos momentos se implemento el script que calcula la similitud con-

ceptual entre objetos. Para implementar este script se siguio el algoritmo definido

anteriormente por Dujovne en [65] y descrito en este informe en la subseccion

2.5.3. Los resultados obtenidos fueron almacenados en una tabla relacional, lla-

mada conceptual similarity, que guardaba los objetos comparados y su similitud.

(Ver figura 4.9).

4.3.4. Interes de los usuarios

Se separo la transformacion de datos del interes del usuario en funcion a la forma

en que se capturaron los datos.

Eye Tracker

De todos los archivos que genero el Eye Tracker, solo se trabajo con los archivos

All Data (uno por cada usuario de control) y se usaron algunos videos como

referencias. Esto constituyo la primera seleccion de datos. Luego, de todos los

atributos que posee este archivo (38) se consideraron solo 16, los que se pueden

apreciar en la figura 4.5. De estos, el campo people id no fue generado por el Eye

Tracker y corresponde a un identificador de la persona entrevistada.

El campo datetime guarda el tiempo, desde que se inicio el experimento en el que

75

Page 87: computación

Figura 4.5: Tabla de transicion de datos generados por el Eye Tracker.

se capturo el registro. Los campos validity left y validity right indican la validez

de la captura de los datos, tanto para el ojo izquierdo como para el derecho. Con

estos datos se establecio un filtro para considerar o no el registro, en funcion de

si fue calculado correctamente o no.

Los atributos event, event key, data1, data2, descriptor en conjunto describen los

eventos mientras se procedıa con el experimento. Almacenan informacion desde

cuando se comienza y termina un determinado estımulo, como una pagina, los

clicks que realiza el usuario, los desplazamientos dentro de un estımulo, como

deslizar el scroll wheel hacia abajo, y si se desplego algun menu de navegacion.

Media wigth y media height guardan el tamano en pıxeles del estımulo media des-

plegado en la pantalla, no la resolucion de esta ultima. Estos atributos son impor-

tantes para luego mapear los puntos de atencion de los usuarios en los objetos web.

En este sentido, los atributos mapped fixation point x y mapped fixation point y

76

Page 88: computación

mapean los enfoques al mirar en los estımulos.

El primer paso para transformar estos datos fue agruparlos segun el punto obser-

vado (en una vecindad pequena), aumentando el tiempo de duracion de la fijacion

segun la cantidad de registros agrupados.

Un resultado estadıstico conocido es el rango de duracion de las fijaciones, que es-

tan entre los 150 y 600 milisegundos (ms) [19], por lo que la cota inferior para que

el cerebro comprenda lo que se esta observando es de 150 ms. Como se senalo an-

teriormente, el eye tracker empleado tiene una resolucion de 120 Hz, por lo que

captura informacion cada 8 ms. Con esta informacion, se consideraron no vali-

dos los registros (ya agrupados) con el campo fixation duration menor a 150 ms,

pues en este caso, el usuario entrevistado nunca noto que miro un punto en un

momento.

Con los registros no validos, por una fixation duration menor a 150 ms o por que

ası lo indicaban los atributos validity left y validity right, se contruyo un indicador,

denominado acceptance percentage, que mostraba el porcentaje del tiempo en el

cual se midieron correctamente los movimientos oculares del usuario de control

sobre cada estımulo (pagina web).

Si este indicador era pequeno, serıa un error considerar los registros correspon-

dientes al estımulo para el analisis posterior pues simplemente se estarıan ex-

trapolando resultados, que podrıan ser validos o no. Por esta razon los registros

correspondientes a estımulos con bajo acceptance percentage, fueron eliminados.

Se consideraron validos los estımulos con acceptance percentage mayor al prome-

dio de todos los valores mas dos desviaciones estandar, resultando como mınimo

86 %. A partir de este resultado se puede catalogar la captura de datos con el Eye

Tracker como exitosa.

77

Page 89: computación

Figura 4.6: Menu de navegacion compacto.

Posteriormente, ya eliminados estos registros se procedio a mapear los puntos de

interes de los usuarios en los estımulos a los objetos. Este paso no representa mayor

dificultad salvo por el menu de navegacion (ver figuras 4.6 y 4.7), que puede estar

en dos estados, compacto y desplegado (en alguno de sus menu). Esto se produce

cuando un usuario mueve el mouse por sobre uno de estos menu.

Para mapear correctamente si un usuario de control miraba el menu de navegacion

o el objeto por debajo de este, se emplearon los datos de los atributos event,

event key, data1, data2, descriptor con los que en conjunto se establecio en que

momento hubo un menu desplegado, cual era este. Con esta salvedad en mente,

basto con mapear las coordenadas de los objetos, con las coordenadas de los puntos

de atencion para asignar a cada registro el objeto que le correspondıa.

A continuacion, se agruparon los registros por objeto, con lo que se calculo el

porcentaje del tiempo que un usuario miro cada objeto de un estımulo. Si algun

objeto no fue mirado, se incluyo que el porsentaje de interes del usuario en este

objeto fue 0. Este valor se considero debido a que su ausencia afectarıa el calculo

de los tiempos de permanencia promedios.

78

Page 90: computación

Figura 4.7: Menu de navegacion desplegado.

Figura 4.8: Tabla averaged spent time on object.

Finalmente, se promediaron los tiempos de permanencia y el resultado de este

proceso se almaceno en la tabla averaged spent time on object (ver figura 4.8). El

campo study id hace referencia a la forma en que se capturaron los datos. Estas

pueden ser navegacion libre o guiada, ambos mediante el Eye Tracker o con la

encuesta de los puntos de interes.

79

Page 91: computación

La encuesta

Los resultados de la encuesta correspondieron a archivos donde se registro la pagi-

na, el objeto, y los puntos de interes que le asigno el usuario. Estos datos fueron

transformados, de modo que los 10 puntos que asigno cada usuario, correspon-

diera al 100 % del interes del usuario en dicho estımulo. A modo de ejemplo, si

una persona asigno 5 puntos al objeto X en la pagina Y se asumio que el in-

teres del usuario sobre el objeto X fue del 50 % en la pagina Y. Analogamente

al caso anterior, se asigno 0 al interes del usuario en los objetos que no obtu-

vieron puntos. Luego estos resultados se promediaron y se tambien almacenaron

averaged spent time on object (ver figura 4.8)

Pre-procesamiento

En esta etapa se realizo una comparacion de los resultados almacenados en la tabla

4.8. Se comparo el promedio y la desviacion estandar del modulo de la diferencia

entre los valores averaged segun el tipo de captura de datos realizada (study id).

La tabla 4.1 muestra los resultados obtenidos de esta comparacion, donde se puede

apreciar que los valores obtenidos al comparar la navegacion libre con la guiada

son mucho mas pequenos que al comparar los resultados de cualquiera de estos

mecanismos con la encuesta, por lo que se decidio dejar de analizar la navegacion

libre y guiada como capturas distintas. Por esta razon, hubo que recalcular los

tiempos promedio de permanencia en los objetos, que resulto muy parecido a los

existentes. En conclusion, se paso de tres conjuntos de datos (navegacion libre,

navegacion guiada y encuesta) a solo dos (Eye Tracker y encuesta).

80

Page 92: computación

Comparacion Promedio Desviacion Estandar

libre - guiado 0,013194 0,039402

libre - encuesta 0,032408 0,100782

guiado - encuesta 0,055501 0,120487

Cuadro 4.1: Comparacion de los tiempos de permanencia en los objetos.

4.3.5. El Weblog

A partir de peticiones web recuperadas con anterioridad desde el weblog, se proce-

dio a ejecutar el proceso de sesionizacion. Sin entrar en el detalle de este proceso,

pues esta fuera del alcance de la memoria, se obtuvo como resultado un conjunto

de sesiones, en las que cada una de estas contenıa una lista de paginas, asociadas

a la cantidad de tiempo que permanecieron en estas.

Luego, analogamente a lo realizado por Dujovne [65], para cada registro se reem-

plazo la pagina por los objetos que la conformaban y se pondero el tiempo de

permanencia en la pagina por el porsentaje de permanencia en el objeto. Ademas

se consideraron con especial cuidado los objetos que aparecieron en mas de una

pagina, pues para una sesion, el mismo objeto pudo haber sido visto dos veces.

En este caso, se sumaron los tiempos correspondiente a ambas paginas, pues se le

presto atencion dos veces.

A continuacion se procedio a seleccionar los n objetos mas importantes de cada

sesion, como fue descrito en la ecuacion 2.11. El criterio de seleccion de los objetos

mas importantes fue el tiempo de permanencia en ellos. La determinacion de n se

realizo de forma analoga a como procedio Dujovne et al. [65], quien extendio lo

realizado por Velasquez et al. [67]. Se calculo el promedio (µ) y la desviacion es-

tandar (σ) sobre el numero de objetos por seccion. Luego, se eligio un numero n en

el rango [µ−3σ, µ+3σ]. Estos datos fueron almacenados en la tabla residence time

81

Page 93: computación

Figura 4.9: Tablas conceptual similarity y residence time.

(Ver figura 4.9).

Para finalizar esta seccion, la figura 4.9 describe el resultado final de todo este

proceso y que sera la entrada para aplicar tecnicas de data mining. La tabla con-

ceptual similarity almacena la similitud entre dos objetos (ver subseccion 4.3.2),

mientras que la tabla residence time almacena los tiempos de permanencia en los

n objetos mas importantes de cada sesion, es decir, guarda los IOV (Ver ecuacion

2.11).

4.4. Data Mining

La metodologıa para encontrar Website Keyobject ideada por Dujovne y Velasquez

[65] agrupaba los vectores de comportamiento de los usuarios mediante tres tecni-

cas: Self Organizing Feature Maps, K-means y Association Rules. Los resultados

de estas tecnicas eran conjuntos de vectores donde sus elementos eran parecidos

entre sı, pero distintos al tomar elementos de conjuntos diferentes.

El criterio que usaron para determinar si un objeto era un Website Keyobject fue

seleccionar los objetos que aparecieron mas veces en los clusters arrojados por los

82

Page 94: computación

tres algoritmos.

4.4.1. Los algoritmos

En esta seccion se describiran los tres algoritmos empleados durante el experi-

mento. Cabe recordar que para poder comparar sesiones entre sı se empleara la

ecuacion 2.12, que describe una medida de similitud entre dos IOV.

Self Organizing Feature Maps (SOFM)

SOFM es un modelo de red neuronal que basicamente procesa una base de datos

resultando en un mapa (usualmente bidimencional) donde casos similares se ma-

pean en regiones cercanas. Ocupa un modelo de aprendizaje no supervisado, por

lo que difiere de las redes neuronales comunes.

Para este trabajo, al igual que en el desarrollado por Dujovne [65], se empleara una

red de forma toroidal, donde los extremos de una red bidimensional se unen para

dar la forma deseada.

En este algoritmo cada neurona sera definida como un IOV (Ver ecuacion 2.11). La

forma de actualizar los IOV, mientras se produce el entrenamiento, sera modificada

de modo que compare los vectores de objetos importantes presentes en cada una

de las sesiones. Para cada IOV, se debe encontrar la neurona mas parecida a este y

actualizar los pesos de la red en funcion de las distancias calculadas. Este proceso

se repetira hasta que los cambios en los pesos de la red sean menores a un ε.

83

Page 95: computación

K-means

Es probablemente el metodo mas conocido para realizar clustering. Consiste en

partir con K IOVs aleatorios denominados centros. Para los IOV restantes se

calcula cual es el centro mas cercano a estos y se enlazan generando subconjuntos

de IOVs. Luego se calcula el centro de masas de cada subconjunto y se vuelve

a iterar hasta que la cantidad de cambios en los subconjuntos sea baja, es decir,

cuando los subconjuntos converjan. La debilidad de este metodo es el valor inicial

K que es desconocido.

En este caso particular, para determinar el centro de masas de los subconjuntos

mencionados, se calculara cual es el objeto culla distancia promedio a todos los

demas objetos en el subconjunto es la menor.

Association Rules

Es una tecnica que permite encontrar relaciones entre distintos atributos de un

conjunto de datos. De integrar los identificadores de las sesiones a los datos, no se

encontrarıa ningun tipo de regla, ya que para todos los ejemplos el identificador

es distinto.

Como entrada para este algoritmo se implemento una pequena transformacion de

datos para dejar los IOV como la lista de los objetos mas vistos (Ecuacion 4.1).

r = (o1, ..., on) (4.1)

84

Page 96: computación

4.4.2. Primer experimento

Se desarrollo la misma estrategia empleada por Dujovne y Velasquez [65]. Se

compararon los vectores de comportamiento de los usuarios mediante las tres

tecnicas y se designaron como Website Keyobject los objetos que aparecieron mas

veces en los diferentes clusters generados. En este experimento se consideraron

como tiempos de permanencia en los objetos los resultados de la encuesta sobre

las paginas del sitio.

4.4.3. Segundo experimento

Consistio en agregar a la metodologıa anterior los tiempos calculados a partir

de los datos capturados por el Eye Tracker. Esto no es un cambio relevante en

la metodologıa, es solo cambiar los datos de entrada para los algoritmos. Para

designar un objecto como Website Keyobject, se ocupo el mismo criterio anterior.

4.5. Resultados Obtenidos

En esta seccion se listan los objetos clasificados como Website Keyobject segun

cada tecnica ocupada para ambos experimentos. Dado que la diferencia entre

ambos esta dada por los tiempos de permanencia en los objetos, la forma de lo

que entrega cada tecnica es independiente de que experimento se esta analizando.

Las listas completas de resultados obtenidos para el experimento 1 se encuentran

en el apendice A (Capıtulo 6). En el se listan todas las tecnicas y lo que arrojaron

como resultados. En tanto, para el experimento 2, los resultados se encuentran en

el apendice B (Capıtulo 7).

85

Page 97: computación

4.5.1. SOFM

Para la implementacion de esta tecnica se ocupo una red conm forma toroidal, y

se realizaron varias pruebas con respecto a la cantidad de neuronas de la red, en-

contrando que una constitida por 12X12 neuronas entrego los mejores resultados.

Esta red entrego 8 clusters para cada experimento. La salida de este algoritmo se

modifico para que entregara listas de los identificadores de sesiones pertenecientes

a cada cluster, con el objetivo de poder contar el numero de apariciones de los

objetos en los distintos clusters.

Los resultados de esta tecnica, para el experimento 1 se encuentran en la seccion

6.1, mientras que para el experimento 2, en la 7.1.

4.5.2. K-Means

La salida de este algoritmo corresponde a un conjunto de listas donde cada una de

ella contiene los identificadores de las sesiones agrupadas. La ecuacion 4.2 muestra

como ejemplo una lista de este tipo.

L1 = {2505, 1726, 1105} (4.2)

De forma analoga al caso anterior, los resultados entregados por esta tecnica

para el primer experimento se pueden encontrar en la seccion 6.2, mientras que

para el segundo en la 7.2. En estos se listan los identificadores de las sesiones

correspondientes a cada cluster y luego se muestra el numero de apariciones de

los objetos en estos.

86

Page 98: computación

4.5.3. Association Rules

Para la ejecucion de Association Rules se uso la plataforma Weka, que incluye

variados algoritmos de Data Mining. Se considero solo los objetos precentes en los

IOVs, los que fueron transformados de acuerdo a la plataforma.

Se utilizo el algoritmo Apriori y se solicito que generara solo 30 reglas con una

confianza mınima de 0,9. Tanto el algoritmo, como la plataforma a ocupar fueron

los mismos empleados por Dujovne [65] cuando implemento esta metodologıa.

Una regla de asociacion tiene la sigiente forma:

o1 = To2 = F ==> o3 = Tconf : (1)

Lo que representa que si el objeto o1 tiene valor T y el objeto o2 tiene valor F,

el objeto o3 tendra como valor T con una confianza de 1.

Los resultados entregados por el algoritmo, para ambos experimentos se encuen-

tran en las secciones 6.3 y 7.3 respectivamente.

4.5.4. Website Keyobjects

Como se menciono anteriormente, el criterio utilizado para nombrar como Website

Keyword a un objeto fue la cantidad de veces en las que aparecıa en los distintos

clusters de objetos. Para calcular este indicador por experimento, se tomaron los

resultados de las tres tecnicas empleadas y se sumo la cantidad de veces en las

que aparecıan los objetos.

En la seccion 6.4 se muestran los objetos que aparecieron mas veces en los clusters

para el experimento 1. Luego se muestran los objetos que fueron predichos como

Website Keyobjects y si estos fueron validados por el experto del negocio o no.

87

Page 99: computación

experimento 10 20 30

primero 70 % 75 % 70 %

segundo 70 % 80 % 76 %

Cuadro 4.2: Comparacion de los experimentos (precision)

Analogamente, para el experimento 2, estos resultados se encuentran en la seccion

7.4.

4.6. Comparacion y analisis

El cuadro 4.2 muestra la precision alcanzada en los dos experimentos. Se selec-

cionaron tres rangos para comparar los resultados, tomando los primeros 10, 20 y

30 Website Keyobjects.

Se puede notar un ligero aumento (5 % a 6 %) en la precision al comparar ambos

experimentos, con lo que se valida que esta tecnologıa resulta util para medir el

interes de los usuarios.

Dujovne y Velasquez [65] con su metodologıa (experimento 1) alcanzaron una pre-

cision del 80 %, valor que es mayor al 75 % promedio obtenido en este experimento.

Esto se puede deber a la cantidad de paginas y objetos en estudio, ya que ellos

analizaron un sitio de 27 paginas con 40 objetos, mientras que en este trabajo se

analizo un sitio de 124 paginas y mas de 160 objetos. Otra posible fuente de error

es la generacion de los metadatos. En este trabajo, al igual que en el desarrollado

por Dujovne, los metadatos se generaron a mano, lo que se pudo generar errores

involuntarios.

Por otro lado, se puede notar que cuando se eligen 30 Website Keyobjects la

precision obtenida disminuye. Esto ocurre pues para este numero se comienza

88

Page 100: computación

a designar objetos que no son relevantes. En este punto, si consideramos como

threshold n = 24 se obtiene que la precision del segundo experimento es 83 %.

89

Page 101: computación

CAPITULO

5

CONCLUSIONES

En el presente trabajo de tıtulo se analizo una metodologıa que permite encontrar

Website Keyobjects y se logro mejorar la precision de la prediccion de esta al

incorporar la tecnologıa Eye Tracking.

En el presente trabajo de tıtulo se probo que usar un Eye Tracker para medir la

cantidad de tiempo que los usuarios gastan observando los distintos objetos de

una pagina web en vez de realizar una encuesta para estimar estos valores mejora

la precision a la hora de encontrar los Website Keyobjects de un sitio.

Para lograr estos resultados se realizo un amplio estudio acerca de los datos ori-

ginados en la web, los modelos matematicos que se usan para describir el com-

portamiento de los usuarios en la web y las herramientas existentes de seguimiento

ocular. Este conocimiento fue plasmado en el Capıtulo 2 de este trabajo de tıtulo,

y usado en el posterior desarrollo del presente informe.

Como metodologıa de investigacion, se siguieron los pasos del metodo cientıfico,

se planteo una hipotesis, se aislo la variable a estudiar, se diseno y aplico un

experimento y finalmente se determino si la hipotesis planteada era correcta.

Una de las limitantes que tiene el seguimiento ocular es que solo determina que es

lo que una persona observa. Esto es insuficiente cuando se busca calificar lo que una

90

Page 102: computación

persona mira, en otras palabras, con estas herramientas no se puede determinar

si lo que se observa me gusta o me desagrada. Es por esto que los resultados

entregados por el Eye Tracker deben ser considerados como el modulo (siempre

positivo) del interes de una persona.

5.1. Trabajo Futuro

Con la restriccion descrita anteriormente, inherente seguimiento ocular, surge de

forma natural el siguiente paso para mejorar la metodologıa para encontrar Web-

site Keyobjects, considerar que sienten o piensan los usuarios mientras miran un

objeto web. Esto se puede lograr al usar elementos de neurotecnologıa, como elec-

trodos que midan que zona del cerebro se exita mas cuando una persona navega

por un sitio web. Emotiv.com es una empresa que fabrica este tipo de aparatos

(solo para este tipo de investigaciones) a bajo costo.

Otra posible mejora a la metodologıa consiste en explorar aun mas los datos

generados por el Eye Tracker. Durante el desarrollo de este trabajo de tıtulo solo se

usaron estos datos para determinar que objetos miran los usuarios de control. Sin

embargo, existe una amplia gama de estudios donde se pueden usar estos datos,

como determinar a partir de la trayectoria de los movimientos oculares si una

persona entiende lo que ve o no. Ademas para este trabajo no se consideraron los

datos de la dilatacion de las pupilas, siendo conocido que mientras mas dilatadas

se encuentren, mayor es el interes que presta una persona a lo que observa. Sin

embargo, aun ası no se puede clasificar este interes como bueno o malo.

Otros caminos para enriquecer esta metodologıa son los que no se exploraron

en esta memoria, como establecer una ontologıa para normalizar los metadatos.

Con esto se podrıa establecer relaciones mas expresivas entre los objetos. En esta

91

Page 103: computación

misma area se podrıa automatizar el proceso que genera los metadatos, pues

hasta el momento es un proceso lento y tedioso que al ser manual, permite la

introduccion de errores involuntarios.

Finalmente, se podrıa analizar la forma en la que opera esta metodologıa, inves-

tigar si cambiando la estructura de la misma se pueden lograr mejores resultados

que aplicando 3 algoritmos de Data Mining distintos. Crear una nueva forma de

ranquear los objetos podrıa ayudar en este objetivo.

92

Page 104: computación

CAPITULO

6

APENDICE A: RESULTADOS

PRIMER EXPERIMENTO

6.1. SOFM

C1 = [3860, 5284, 5153, 2550, 3315, 5887, 4328, 1645, 1876, 4230,

2106, 4302, 2167, 3179, 3211, 1129, 2314, 5374, 3970, 2853,

3624, 2549]

C2 = [5752, 4191, 4483, 5944, 3859, 4360, 4919, 5439, 4517, 1500,

1447, 5547, 2846, 3688, 5732, 2421, 2287, 1502, 1359, 2311,

5873, 2267, 2935, 4134, 1198, 4507, 1573, 5017, 2704, 1725,

3309, 3493, 2792, 2435, 2527, 4738, 4863, 3886, 2302, 3851,

2804, 3513, 3517, 2847, 1410, 5676, 2259, 1524, 3789, 1362,

4733, 4387, 5435, 2787, 3717, 3847, 5499, 1900, 2123, 4534,

2622, 4322, 1312, 3236, 2178, 2390, 4730, 3814, 3001, 5889,

4045, 3938, 4218, 2196, 5352, 2566, 4653, 3565, 5223, 5190,

2401, 2469, 5237, 1726, 3826, 1887, 2682, 1288, 1683, 2186,

4673, 2155, 2553, 4631, 3953, 1364, 3261, 4164, 4181, 1882,

4248, 3684, 1590, 3231, 4957, 1880, 5226, 4179, 2798, 3758,

93

Page 105: computación

5851, 2066, 3726, 5362, 2260]

C3 = [1281, 1233, 3975, 4952, 1163, 3882, 2399, 4766, 4625, 2697,

5531, 1095, 5567, 1150, 1210, 4380, 4796, 3658, 2451, 5919,

4540, 4647, 4861, 4705, 2633, 1507, 3634, 1373, 4800, 4205,

3162, 4799, 4892, 2076, 2337, 1957, 4512, 3733, 4196, 1282,

2355, 3732, 5710, 1140, 5415, 5207, 2568, 5096, 4480, 3101,

4621, 4924, 4682, 4200, 4708, 5376, 3995, 3462, 3993, 5303,

4760, 1296, 4795, 1285, 5278, 4510, 1335, 3566, 5790, 2160]

C4 = [5649, 4870, 5383, 3181, 5291, 3867, 4170, 1637, 2443]

C5 = [4216, 2732, 2767, 3029, 5214, 4291, 5515]

C6 = [4611, 1585, 2255, 1274, 1698, 5549, 1445, 5356, 2700, 5269,

3738, 3311, 3459, 4321, 4474, 2687, 1248, 4781, 5874, 4686,

1470, 2407, 2959, 5449, 5283, 2275, 4932, 4000, 1620, 5652,

5227, 1636, 2181, 2294, 5416, 4586, 1850, 5641, 3655, 5727,

1164, 1483, 3718, 1704, 2089, 3089, 3628, 2659, 5183, 4651,

1264, 3022, 1755, 4665, 3600, 2731, 4238, 1810, 4274, 4885,

3836, 3416, 4491, 2381, 3250, 5228, 2901, 5341, 1948, 4124,

5917, 3302, 2643, 5391, 1422, 2333, 5548, 3661, 2331, 5992,

5363, 3500, 2505, 1699, 2841, 3045, 5726, 5671, 5185, 4312,

5569, 4908, 1284, 3844, 4546, 2197, 2747, 4646, 2305, 4195,

3244, 2265, 3724, 3482, 4934, 2749, 2639, 5021, 4845, 2772,

2881, 4743, 4690, 4846, 3876, 1166, 2459, 3042, 3470, 5578,

3297, 5876, 1118, 5675, 4787, 5843, 3780, 5354, 2203, 2289,

4999, 3645, 5544, 5295, 5230, 3318, 5026, 4146, 4001, 4876,

1459, 4210, 5801, 5239, 5216, 3735, 4864, 3195, 2645, 5040,

4479, 1522, 3474, 2714, 5559, 2015, 2277, 1985, 3506, 1733,

2301, 4035, 4317, 5865, 1605, 4850, 3384, 3503, 4940, 3377,

94

Page 106: computación

3870, 1278, 4351, 4711, 5576, 1559, 3534, 2082, 5347, 2286,

2717, 1158, 3437, 2406, 5003, 3456, 1149, 1251, 2917, 5951,

4568, 3232, 5095, 3591, 2561, 1283, 1438, 4347, 4529, 4747,

4062, 1157, 4136, 3403, 3208, 4891]

C7 = [1191, 3218, 1481, 1857, 1584, 3286, 1214, 1855, 3050, 5484,

5948, 3739, 4523, 2771, 4900, 1400, 3757, 3670, 4632, 5654,

4912, 4295, 5721, 1685, 3941, 4071, 5287, 5072, 5350, 4180,

2890, 1453, 4107, 1862, 3435, 4727, 2555, 2365, 4613, 4478,

1730, 5054, 2556, 5272, 1314, 1583, 5302, 3744, 2319, 2800,

3978, 1105, 1169, 2977, 5068, 5322, 2034, 5534, 2781, 2516,

5379, 3734, 5655, 3092, 2072, 5329, 1505, 2028, 5619, 1236,

5902, 5498, 2739, 4404, 3046, 5184, 2603, 5333, 4554, 1933,

3391, 5867, 2293, 4112, 3997, 1675, 4503, 4852, 5690, 6011,

3789, 1618, 1341, 3772, 3727, 4739, 4717, 2745, 5421, 3380,

5669, 5665, 5425, 3476]

C8 = [4357, 5060, 5646, 3078, 1280, 3172, 2428, 2321, 4443, 3508,

4931, 4497, 3588, 2525, 4089, 5100, 4729, 5808, 4624, 3622,

5142, 1467, 3605, 5319, 3239, 1885, 1624, 4541, 4153, 3551,

2317, 2040, 2493, 1835, 3115, 5392, 1615]

6.2. K-Means

6.2.1. Clusters de sesiones

C1 = [4210, 4503, 1900, 4000]

C2 = [3302, 1585, 2381, 4357, 3670, 4717, 3506, 3493, 5726, 5226,

95

Page 107: computación

4328, 4673, 2639, 2781, 1857, 3208, 2123, 3772, 2178, 1284,

2525, 1957, 3050, 5808, 1855]

C3 = [3727, 4218, 5790, 5287, 4739, 5223, 1624, 4781, 3684, 1169,

4196, 5690, 4248, 1214, 2603, 3172, 4238, 3315, 5216, 5362,

4730, 4799, 4554, 5363, 3993, 5578, 4747, 5017, 2739, 5333,

2355, 4216, 5675, 5887, 3605, 4800, 4931, 3046, 4205, 4474,

2645, 3101, 5379, 2682, 3780, 3456, 3508, 1882, 1470]

C4 = [2401, 4360, 2082, 5544, 4295, 2556, 5227, 5060, 4651, 2890,

4478, 3953, 2399, 3600, 2302, 4071, 3318, 1810, 4766, 4999,

5652, 4146, 4743, 3995, 3239, 4613, 3938, 4541, 2516, 3179,

2881, 3688, 3384, 4738, 4891, 2421, 2333, 1280, 2155, 4321,

2267, 4529, 5992, 6011, 4686, 3844, 1887, 2959, 1118, 2555,

4191, 5867, 5207, 3622, 1605, 3115, 2186, 4112, 1698, 5549,

4089, 5228, 4852, 4124, 2167, 1359, 4733, 3195, 2847, 5142,

5919, 4934, 2301, 4302, 4845, 4632, 2390, 4682, 2787, 3380,

1400, 3886, 5752, 2505, 2259, 3565, 5392, 3311, 4200, 2659,

1726, 2917, 1704, 3826, 1150, 4291, 2311, 1210, 5184, 1335,

5646, 1725, 3416, 3732, 3534, 5876, 4900, 1573, 2771, 1251,

2767, 4035, 3851, 3500, 4885, 3503, 5214, 3588, 1105, 1164,

3482, 5641, 3658, 1283, 3391, 2203, 5948, 5515, 2286, 5303,

1835, 1129, 1453, 2747, 1364, 4787, 4380, 5352, 4892, 1314,

2977, 4387, 3001, 5721, 5865, 1500, 5435, 2700, 5851, 2568,

4631, 1281, 2717, 3244, 2196, 3231, 1285, 2550, 4491, 4625,

4180, 5391, 2732, 1191, 3758, 4507, 5237, 2428, 3045, 4179,

5100, 1373, 2277, 4170, 5347, 5499, 1699, 3859, 3876, 5272,

1985, 1584, 2265, 2704, 3733, 5302, 3459, 5072, 5801, 1140,

2901, 5021, 2255, 5619, 5054, 5329, 3724, 5291, 3470, 1502,

96

Page 108: computación

4512, 2072, 1288, 3882, 4912, 2028, 3089, 2643, 1933]

C5 = [3836, 2749, 3870, 5548, 3978, 2493, 2106, 2697, 5655, 1559,

4940, 4850, 1166, 2321, 4134, 4164, 5534, 5531, 3377, 3744,

3860, 4924, 4497, 2331, 1620, 1645, 4908, 3634, 1675, 1410,

4952, 1685, 3645, 5498, 4181, 5873, 4864, 2015, 5295, 1149,

3286, 3628, 2435, 5096, 4611, 1583]

C6 = [3236, 5185, 5669, 2293, 1264]

C7 = [1880, 5374, 3092, 1362, 2197, 4546, 3970, 4711, 5183, 1618,

1683, 3437, 5095, 3655, 3462, 2317, 3591, 5843, 2566, 5354,

1483, 1163, 1481, 5654, 2798, 2853, 1467, 3309, 5902, 4322,

5569, 4708, 1637, 1459, 1278, 3250, 4510, 3734, 2841, 2792,

1615, 5350, 4665, 4705, 1248, 3624, 2289, 4001, 3757, 4760,

3211, 5449, 2365, 4727, 3735, 1948, 5889, 5676, 1282, 4195,

1438, 5671, 2443, 5040, 2469, 1636, 5383, 4729, 4534, 2804,

5547, 5421, 4586, 4045, 4136, 2089, 1507, 2633, 1445, 3474,

4646, 4540, 3789, 3789, 5322, 2553, 3726, 1095, 1158, 3181]

C8 = [3435, 1522, 1524, 3738, 3403, 4107, 4062, 5003, 4347, 5425,

1885, 4351, 4795, 2622, 2287, 5319, 4796, 5576, 3718, 3867,

2076, 3975, 5341, 1198, 1296, 1447, 5649, 2260, 3661, 4870,

5484, 2407, 5439, 4957, 2181, 1755, 1876, 5559, 5732, 4653,

2066, 4932, 3297, 5416, 2549, 4690, 2800, 4483, 3042, 4230,

3029, 2319, 2294, 4153, 2451, 3162, 1850, 5567, 2772, 4863,

3218, 4621, 3513, 4480, 3078, 2846, 4274, 2406, 1505, 5068,

4624, 2160, 5230, 1341, 4876, 5239, 1733, 3739, 4479, 3232,

1862, 3566, 4861, 2337, 5376, 2714, 3717, 1236, 2687, 4517,

4404, 5026, 3022, 5283, 2731, 2305, 2040, 1233, 1730, 2314,

4919, 5153, 5278, 5710, 5415, 2935, 4568, 4846, 2275, 5284,

97

Page 109: computación

5944, 1422, 3476, 5951, 3847, 5874, 3997, 2527, 5727, 1274,

3261, 1312, 5269, 5356, 3551, 4647, 2459, 2745, 4443, 4317,

2561, 1590, 3517, 3814, 5917, 5190, 1157, 4523, 2034, 3941,

5665, 4312]

98

Page 110: computación

6.2.2. Numero de apariciones de objetos en Clusters

objeto apariciones objeto apariciones objeto apariciones objeto apariciones

1 3 2 8 3 8 4 8

5 6 6 5 7 8 8 8

9 5 10 6 11 7 12 6

13 6 14 7 15 3 16 7

17 5 18 6 19 4 20 4

21 6 22 6 23 6 24 6

25 6 26 7 27 8 28 6

29 6 30 7 31 3 32 4

33 4 34 4 35 4 36 5

37 7 38 6 39 4 40 2

41 6 42 6 43 7 44 6

45 6 46 6 47 7 48 7

49 7 50 7 51 8 52 8

53 7 54 8 55 8 56 7

57 7 58 7 60 8 61 7

62 7 63 6 64 6 65 6

66 6 67 5 68 2 69 6

70 2 71 1 72 1 73 2

74 1 75 3 76 2 77 1

78 2 79 2 80 3 81 1

82 3 84 2 85 4 86 1

99

Page 111: computación

objeto apariciones objeto apariciones objeto apariciones objeto apariciones

87 4 88 1 89 1 90 1

91 1 92 3 93 2 94 4

95 3 96 2 97 4 98 1

99 1 100 5 101 4 102 2

103 4 104 3 105 1 106 4

107 3 108 2 109 4 110 3

111 4 112 1 113 1 114 3

115 2 116 2 117 1 119 3

120 4 121 2 122 4 123 4

124 7 125 2 126 8 127 7

128 2 129 4 130 4 131 6

132 2 133 7 134 6 135 1

137 1 138 3 139 5 140 5

141 8 142 8 143 8 144 3

145 2 146 2 147 5 148 4

149 2 150 4 151 2 152 2

153 2 154 3 155 5 156 2

157 2 158 3 159 1 160 4

161 2 162 2 163 2

6.3. Association Rules

1. 7=T ==> 141=T <conf:(1)>

2. 130=F ==> 129=F <conf:(1)>

3. 129=F ==> 130=F <conf:(1)>

4. 129=F ==> 141=T <conf:(1)>

100

Page 112: computación

5. 130=F ==> 141=T <conf:(1)>

6. 130=F 141=T ==> 129=F <conf:(1)>

7. 129=F 141=T ==> 130=F <conf:(1)>

8. 129=F 130=F ==> 141=T <conf:(1)>

9. 130=F ==> 129=F 141=T <conf:(1)>

10. 129=F ==> 130=F 141=T <conf:(1)>

11. 19=F ==> 141=T <conf:(1)>

12. 32=F ==> 141=T <conf:(1)>

13. 100=F ==> 141=T <conf:(1)>

14. 110=F ==> 141=T <conf:(1)>

15. 7=T 130=F ==> 129=F <conf:(1)>

16. 7=T 129=F ==> 130=F <conf:(1)>

17. 7=T 129=F ==> 141=T <conf:(1)>

18. 7=T 130=F ==> 141=T <conf:(1)>

19. 7=T 130=F 141=T ==> 129=F <conf:(1)>

20. 7=T 129=F 141=T ==> 130=F <conf:(1)>

21. 7=T 129=F 130=F ==> 141=T <conf:(1)>

22. 7=T 130=F ==> 129=F 141=T <conf:(1)>

23. 7=T 129=F ==> 130=F 141=T <conf:(1)>

24. 62=F ==> 141=T <conf:(1)>

25. 8=T ==> 141=T <conf:(1)>

26. 20=F ==> 141=T <conf:(1)>

27. 33=F ==> 141=T <conf:(1)>

28. 39=F ==> 141=T <conf:(1)>

29. 7=T 19=F ==> 141=T <conf:(1)>

30. 7=T 32=F ==> 141=T <conf:(1)>

101

Page 113: computación

102

Page 114: computación

6.4. Website Keyobjects

id descripcion keyobject

7 cabecera logo mba sı

8 cabecera menu navegacion sı

143 super testimonios sı

141 super foto cabecera sı

4 banner x4 no

142 super noticias sı

2 banner links de interes no

3 banner siguenos no

11 compartir inferior no

27 cuerpo p7 malla curricular sı

55 cuerpo p84 magisteres sı

6 cabecera logo ingenieria industrial no

54 cuerpo p83 primer parrafo descripcion sı

51 cuerpo p83 becas 50 por ciento sı

53 cuerpo p83 financiamiento directo sı

16 cuerpo p2 porque elegirnos sı

20 cuerpo p4 texto cuerpo estructura sı

22 cuerpo p4 texto cuerpo modalidad sı

47 cuerpo p81 modalidad sı

26 cuerpo p6 metodologıa sı

21 cuerpo p4 texto cuerpo grado otorgado sı

50 cuerpo p83 bancos y contacto no

23 cuerpo p4 texto cuerpo objetivos sı

18 cuerpo p4 grafico secuencia temporal sı

126 formulario contacto sı

38 cuerpo p8 contenido cursos sı

13 cuerpo p10 doble grado internacional sı

5 cabecera buscar no

66 cuerpo p9 promedio edad no

9 cabecera rss no

103

Page 115: computación

CAPITULO

7

APENDICE B: RESULTADOS

SEGUNDO EXPERIMENTO

7.1. SOFM

C1 = [2732, 1296, 5567, 1280, 4529, 4302, 2106, 2798, 3195, 2066,

5347, 3600, 3506, 5534, 2739, 3315, 4729, 4541]

C2 = [5727, 5710, 3789, 4738, 4665, 4274, 1618, 2255, 1264, 5100,

5391, 2034, 4931, 2407, 4134, 3437, 2682, 5676, 1164, 5671,

5291, 5655, 4708, 2314, 2622, 3232, 2167, 2399, 3380, 4932,

1726, 2040, 3172, 3867, 2890, 2792, 3211, 1274, 4357]

C3 = [3297, 5669, 4611, 5184, 3476, 5732, 3938, 5350, 2714, 1500,

4891, 5054, 1214, 5948, 4218, 3309, 3670, 2089, 3311, 2566,

1284, 2421, 3688, 1400, 3179, 2935, 5619, 3970, 1685, 4491,

4071, 4179, 4443, 3744, 5851, 1704, 5374, 4291, 1636, 2568,

2311, 4554, 2196, 5951, 1169, 2428, 3718, 2178, 5416, 3250,

1524, 1615, 2337, 3456, 4200, 3860, 5889, 2800, 1335, 2525,

2553, 4876, 5499, 2853, 3717, 3474, 1590, 5021, 5226, 5302,

1885, 5876, 4705, 2265, 5060, 1470, 5484, 1359, 4730, 1373,

104

Page 116: computación

4747, 1467, 5190, 3503, 2555, 3231, 5329, 1140, 5026, 5449,

5223, 1880, 3042, 1573, 5865, 4136, 1312, 4861, 4625, 4360,

2901, 2301, 4586, 1810, 3162, 1095, 3459, 1282, 5333, 3724,

4312, 2556, 5383, 5214, 6011, 2305, 2390, 1149, 3734, 4727,

2072, 2302, 2435, 5843, 2293, 3628, 2633, 1835, 4653, 3403,

3470]

C4 = 4760, 2493, 4999, 2186, 1447, 2028, 5284, 1985, 2321, 4170,

4196, 2550, 1364, 2203, 4238, 5654, 3462, 3482, 1733, 4216,

4733, 3181, 3022, 3859, 4845, 5549, 5548, 2717, 3876, 3814,

3384, 1314, 2331, 1699, 2287, 5269, 4934, 3208, 5902, 4900,

2259, 4952, 5944, 1251, 2977, 4781, 5919, 3941, 4864, 2804,

4153, 5096, 3534, 5559, 1410, 1236, 5376, 5665, 2781, 1850,

1957, 4766, 1158, 3847, 5003, 2704, 4940, 1862, 2443, 5322,

5439, 2451, 5354, 4717, 2155, 3975, 3735, 1585, 5652, 2317,

1624, 5867, 3239, 3218, 3757, 4690, 2841, 5544, 2267, 3416,

3844, 2401, 2082, 4295, 4321, 3261, 4870, 5237, 4800, 5379,

4107, 3851, 4919, 2275, 3591, 3565, 1882, 3634, 4195, 2381,

3500, 5992, 3089, 1900]

C5 = [5040, 5319, 2697, 5790, 2015, 5721, 2123, 4739, 5641, 4534,

5207, 4230, 2561, 4568, 3551, 5578, 1505, 5272, 3789, 1605,

3772, 5230, 5531, 4799, 4478, 1502, 4632, 5185, 1166, 2659,

3738, 2527, 4673, 5873, 5352, 4651, 2160, 4924, 4062, 4885,

3655, 4795, 2181, 4404, 2917, 2365, 2645, 3046, 5887, 5752,

1248, 3622, 5515, 4510, 4647, 3658, 5228, 5287, 1445, 4347,

4852, 4846, 2749, 5072, 1285, 3739, 3244, 1645, 3001, 5392,

4180, 2289, 2319, 5068, 1675, 1583]

C6 = [4089, 4523, 3826, 4479, 2787, 2846, 4682, 1698, 3684, 3045,

105

Page 117: computación

3726, 5362, 3493, 3508, 5227, 5425, 3588, 4317, 1933, 3029,

2687, 3997, 3286, 2700, 1876, 1157, 3115, 4205, 2516, 1150,

2847, 1163, 2772, 4912, 2505, 1453, 4686, 1288, 2355, 3050,

1584, 2771, 5874, 4181, 2277, 1948, 4908, 5415, 4892, 4621,

5435, 3733, 3566, 5183, 5142, 4328, 2076, 4613, 5547, 1481,

4124, 5808, 5801, 3624, 3886, 2747, 1438, 4210, 5690, 3995,

5675, 4863, 2459, 3758, 1620, 3870, 4322, 4517, 2549, 1341,

3236, 2959, 5295, 4191, 4624, 2286, 3882, 2603, 5095, 4480,

1855, 1233, 4512, 1283, 1105, 3391, 4146, 4711, 1459, 2333,

4503, 4351, 5649, 3101, 3318, 3513, 4546, 4646, 4743, 4540,

1191, 1887, 3953, 2197, 4796, 2294, 4112, 4164, 5576, 4483,

3727, 1857, 3993, 1637, 2745, 5017, 4507, 5303, 1362, 1129,

4787, 4000, 1559, 3435, 2639, 5239, 1725, 5569, 3517, 3836,

1755, 1683, 3078, 2260, 1522, 4045, 2406, 5278, 4001, 1118,

5341, 2469, 2643, 4387, 5917, 4631, 5498, 3377, 3302, 3732,

3092, 1507, 3978, 3661, 2767, 3780, 4850, 1483, 3645, 5421,

4248, 5726]

C7 = [3605, 1422, 4474, 5356, 5363, 4497, 1210, 4957, 4380, 5153,

1281]

C8 = [4035, 1278, 5283, 1198, 2881, 5646, 1730, 5216, 2731]

7.2. K-Means

7.2.1. Clusters de sesiones

C1 = [3732, 5876, 3500, 2901, 3622, 2659, 2881]

C2 = [1212]

106

Page 118: computación

C3 = [4522, 5865, 2516, 1263, 5421, 1191, 3758, 2435, 2704, 4878,

3181, 3830, 4091, 5901, 3315, 1210, 3588, 4541, 5239, 5485,

4302, 3236, 3582, 1585, 3870, 4624, 4507, 1375, 4621, 4896,

2160, 4404, 5874, 2556, 4898, 1725, 2866, 3991, 4714, 4912,

1343, 5727, 1283, 2566, 3685, 2772, 1559, 2781, 4651, 2390,

4291, 5873, 1683, 2421, 3950, 2740, 1292, 5676, 1158, 5654,

1948, 3849, 1675, 3584, 2277, 4071, 3202, 1618, 2401, 2286,

4586, 3305, 1129, 5346, 4124, 2717, 5840, 4811, 3652, 5417,

4739, 1660, 5190, 5095, 4451, 5520, 3022, 4892, 2040, 3938,

3095, 3232, 1597, 2194, 4617, 2459, 2800, 3422, 3782, 2847,

2576, 5619, 1566, 3503, 4738, 1420, 2265, 4919, 2549, 2078,

3462, 4090, 5870, 1699, 2087, 5425, 1362, 1285, 4480, 3600,

1583, 3628, 5534, 2643, 4625, 5710, 2495, 3452, 4631, 5856,

5228, 5393, 2960, 5681, 2917, 3551, 1626, 5675, 5919, 5790,

5352, 4395, 5902, 5327, 3882, 3432, 3441, 5504, 2021, 1159,

2331, 4443, 2739, 3850, 3941, 2858, 3266, 5379, 1590, 5951,

3847, 1858, 5410, 1517, 2505, 3172, 4546, 1571, 2568, 3150,

5354, 4750, 4483, 1857, 2771, 1251, 2186, 4647, 4353, 4402,

5303, 4380, 5017, 5993, 3311, 4799, 2176, 1598, 4511, 1916,

2469, 1095, 2882, 4317, 5567, 5992, 2531, 2321, 4748, 1467,

1556, 4000, 1810, 5914, 5948, 2275, 3403, 2747, 1885, 5435,

4581, 5548, 2787, 5549, 4387, 4613, 5804, 5341, 4218, 4347,

1214, 4170, 1985, 3318, 4355, 1425, 2311, 5312, 5185, 4558,

1841, 2577, 3431, 4436, 4908, 1169, 4180, 4705, 2167, 2260,

3204, 1265, 1262, 3101, 4795, 3614, 5663, 1887, 5501, 5295,

5563, 1909, 2633, 2302, 3250, 2697, 4504, 5521, 5297, 1274,

1438, 1500, 2904, 5072, 1898, 1997, 2766, 3565, 5207, 2561

107

Page 119: computación

1211, 5913, 3365, 5009, 2287, 3634, 5509, 1734, 4359, 2308,

4846, 5559, 4628, 4934, 5484, 2804, 2267, 3465, 3970, 4627,

5499, 2028, 2307, 1312, 2695, 4523, 1569, 5734, 2428, 5671,

3391, 1572, 5588, 2964, 3299, 5783, 4717, 3534, 1698, 3566,

1730, 4766, 2346, 5391, 3637, 3876, 1233, 3340, 2233, 4306,

3309, 5844, 5424, 3871, 3632, 5641, 3001, 1726, 2895, 4517,

2679, 1314, 2255, 5674, 5388, 5934, 4724, 5944, 2962, 4900

3231, 3286, 5064, 3029, 4827, 6008, 4529, 2034, 3717, 1687,

1449, 2682, 1603, 3572, 2066, 4351, 4885, 4179, 4632, 4138,

5223, 3859, 2407, 5052, 4166, 4568, 1958, 3899, 4452, 5437,

4690, 5356, 1794, 5415, 1453, 3733, 3886, 2070, 2841, 4629,

5273, 1280, 5264, 4653, 4388, 5984, 1166, 3114, 2072, 1155,

4512, 3753, 5291, 3390, 5344, 2071, 4008, 1605, 3039, 4728,

5359, 1481, 2745, 5977, 2988, 4734, 3982, 2620, 3195, 5554,

1584, 1333, 3748, 1149, 5801, 4062, 3437, 1376, 3078, 4334,

1435, 2640, 5256, 3162, 3744, 1704, 1422, 5153, 3045, 2493,

3134, 1350, 4155, 2798, 3599, 3011, 3661, 2838, 5025, 5655,

1483, 1430, 3844, 5598, 4216, 3302, 5547, 2696, 1295, 2293,

2090, 1807, 4089, 4497, 5278, 2557, 1447, 1850, 2251, 4786,

5227, 1296, 4569, 4251, 1234, 5183, 4696, 4238, 4107, 5963,

3477, 4639, 2010, 2889, 5571, 3653, 2405, 3517, 3233, 1475,

2767, 2835, 5592, 5515, 5843, 5026, 3435, 4861, 4041, 2406,

5867, 1762, 3823, 2909, 1587, 3200, 2603, 4479, 4478, 5199,

5100, 2846, 5732, 3115, 4296, 4112, 2714, 1163, 3513, 3739,

2076, 2490, 5649, 2853, 5510, 1436, 5594, 4534, 2831, 4894,

4863, 5287, 1364, 4196, 2297, 5272, 3605, 2891, 2127, 1260,

2955, 1795, 4924, 3814, 4146, 4646, 3655, 1281, 4850, 4136,

108

Page 120: computación

4718, 3312, 2319, 2615, 4527, 1554, 1373, 1862, 5362, 5347,

3270, 1359, 5544, 3416, 3456, 5311, 1505, 1470, 1400, 5498,

1410, 5580, 4153, 3324, 3042, 1335, 5744, 5011, 3995, 1153,

1150, 5340, 3922, 2097, 5946, 5142, 2137, 5288, 5096, 4453,

5428, 5533, 4321, 4554, 3016, 4864, 4295, 2550, 5066, 1502,

1215, 5569, 1637, 5363, 4294, 1748, 2827, 5669, 1882, 4796,

3050, 1518, 4035, 5752, 5582, 4845, 1140, 4313, 3993, 2196,

2874, 1733, 4209, 3508, 1198, 1876, 4510, 5561, 3709, 3937,

1524, 5664, 3966, 2518, 4018, 3505, 2815, 1360, 3096, 5652,

3482, 4733, 2732, 2660, 4673, 5217, 5360, 3728, 3868, 5660,

4312, 4134, 2155, 3171, 2479, 3787, 1157, 1493, 5777, 2667,

4357, 4491, 2337, 3975, 4163, 2949, 4191, 1685, 4999, 3322,

5853, 3821, 1754, 5480, 3789, 5576, 2935, 3860, 4241, 3297,

4730, 1341, 3684, 5887, 4933, 2285, 4186, 2294, 5633, 3734,

1933, 3247, 5723, 4530, 5021, 1235, 4665, 5237, 4989, 5802,

4895, 3459, 4857, 2959, 2555, 3046, 3971, 4524, 1117, 4492,

3476, 5449, 1632, 4802, 5827, 5302, 2015, 4540, 5639, 3601,

2507, 1366, 1573, 3136, 5155, 1756, 4332, 3727, 1880, 3591,

3480, 5322, 2687, 4753, 1640, 2289, 3181, 5284, 4205, 4608,

3997, 4760, 2284, 4729, 1523, 2612, 2836, 1835, 4230, 3092,

3780, 4940, 3091, 5329, 2700, 4310, 2259, 4794, 4515, 1515,

4474, 3211, 4400, 4852, 3120, 1781, 5917, 2685, 2197, 3772,

1236, 5333, 2783, 4274, 5033, 4270, 5068, 1264, 1457, 4433,

3396, 2181, 5721, 4874, 2089, 5426, 4611, 3658, 5349, 2355,

4626, 3836, 5283, 3089, 5746, 1759, 2253, 2365, 5394, 2314,

5892, 3779, 4935, 5851, 4394, 5184, 3724, 1522, 2235, 6011,

4720, 3453, 1934, 5578, 5889, 4870, 5497, 3864, 4800, 3851,

109

Page 121: computación

1305, 3275, 1624, 2514, 4954, 3493, 3470, 4338, 4001, 1282,

4781, 5940, 5665, 2645, 2914, 4248, 1278, 2512, 4121, 2351,

3826, 4876, 4957, 4503, 3253, 3261, 4360, 2613, 1288, 3740,

5165, 3479, 2403, 2821, 4655, 3735, 3940, 3949, 5274, 4708,

1164, 2333, 2571, 1551, 5392, 1796, 5357, 2954, 2450, 1574,

2731, 4543, 2995, 1558, 2890, 4871, 1238, 2497, 3867, 5350,

5003, 3718, 1889, 1248, 2305, 4239, 5955, 2317, 4686, 2860,

4328, 4711, 5376, 2250, 2451, 2629, 3218, 1936, 2443, 3444,

5196, 5276, 4200, 4991, 2622, 5791, 3646, 5811, 2454, 3621,

5374, 2573, 3466, 2922, 5735, 5383, 4747, 1957, 4521, 5054,

3624, 5386, 4195, 4614, 2322, 3469, 1121, 5531, 3377, 5216,

4932, 2382, 4471, 1570, 1259, 4164, 4958, 4314, 5690, 1620,

3380, 5780, 5040, 5447, 2758, 1615, 5230, 4938, 1740, 1874,

5269, 1755, 4322, 2977, 5416, 1636, 3865, 5412, 4133, 5198,

1623, 1111, 1206, 1118, 2943, 2475, 4756, 1445, 1132, 3663,

3518, 1579, 4247, 3208, 5507, 5277, 5712, 1722, 1284, 1900,

4913, 4045, 5709, 5808, 3625, 1580, 1302, 1249, 3474, 4161,

2106, 1307, 3003, 4931, 4187, 5345, 2527, 2639, 2123, 4677,

2394, 3645, 3738, 1773, 2525, 5353, 3210, 5875, 2258, 4615,

1257, 2039, 2482, 4952, 3726, 2465, 3398, 1507, 3670, 1593,

4688, 1352, 5334, 3397, 1378, 2553, 2788, 3506, 3280, 4889,

2792, 5956, 2749, 4181, 1801, 2657, 4727, 1464, 1684, 1384,

2381, 5226, 1855, 2178, 3648, 1326, 1351, 3667, 3671, 3635,

5522, 4468, 2192, 5584, 5400, 4706, 4742, 2824, 4464, 1324,

3328, 4309, 3265, 3595, 3417, 5489, 3366, 5286, 4891, 1503,

1918, 4210, 5726, 2341, 5657, 3762, 3978, 1645, 3384, 4918,

5857, 4508]

110

Page 122: computación

C4 = [3757, 5439]

C5 = [5319, 4787]

C6 = [3239, 4682]

C7 = [3953, 2342, 5060, 3179, 4712, 3644, 2316, 5646, 4927, 5403,

4904, 2399, 2822, 2082, 3688, 5304, 2203, 5214, 4721, 1746,

1105, 3244, 2301, 4185, 4743, 1114, 1541]

111

Page 123: computación

7.2.2. Numero de apariciones de objetos en Clusters

objeto apariciones objeto apariciones objeto apariciones objeto apariciones

1 2 2 4 3 2 4 4

5 2 6 4 7 4 8 4

9 2 10 4 11 2 12 3

13 3 14 1 15 1 16 3

17 2 18 4 19 4 20 2

21 4 22 4 23 4 24 1

25 1 26 3 27 4 28 1

29 2 30 2 31 1 32 1

33 2 34 2 35 2 36 2

37 2 38 3 39 1 40 2

41 1 42 2 43 1 44 1

45 1 46 1 47 2 48 2

49 1 50 2 51 3 52 3

53 3 54 3 55 3 56 3

57 3 58 1 59 1 60 2

61 1 62 1 63 3 64 3

65 3 66 1 67 2 68 1

69 1 70 1 71 1 72 1

73 1 74 1 75 1 76 1

77 1 78 1 79 1 80 1

81 1 82 1 83 1 84 1

112

Page 124: computación

objeto apariciones objeto apariciones objeto apariciones objeto apariciones

85 1 86 1 87 1 88 1

89 1 90 1 91 1 92 1

93 1 94 1 95 1 96 1

97 1 98 1 99 1 100 1

101 1 102 1 103 1 104 1

105 1 106 1 107 1 108 1

109 1 110 1 111 1 112 1

113 1 114 1 115 1 116 1

117 1 118 1 119 1 120 1

121 1 122 1 123 1 124 1

125 1 126 2 127 2 128 1

129 1 130 1 131 3 132 1

133 2 134 2 135 1 137 1

138 1 139 4 140 2 141 4

142 4 143 4 144 1 145 1

146 1 147 1 148 1 149 1

150 1 151 1 152 1 153 1

154 2 155 1 156 1 157 1

158 1 160 1 161 1 162 1

163 1

7.3. Association Rules

1. 141=T ==> 8=T <conf:(1)>

2. 7=T ==> 8=T <conf:(1)>

3. 7=T 141=T ==> 8=T <conf:(1)>

113

Page 125: computación

4. 123=F ==> 8=T <conf:(1)>

5. 76=F ==> 8=T <conf:(1)>

6. 76=F ==> 141=T <conf:(1)>

7. 7=T 123=F ==> 8=T <conf:(1)>

8. 76=F 141=T ==> 8=T <conf:(1)>

9. 8=T 76=F ==> 141=T <conf:(1)>

10. 76=F ==> 8=T 141=T <conf:(1)>

11. 99=F ==> 8=T <conf:(1)>

12. 99=F ==> 141=T <conf:(1)>

13. 99=F 141=T ==> 8=T <conf:(1)>

14. 8=T 99=F ==> 141=T <conf:(1)>

15. 99=F ==> 8=T 141=T <conf:(1)>

16. 123=F 141=T ==> 8=T <conf:(1)>

17. 7=T 123=F 141=T ==> 8=T <conf:(1)>

18. 7=T 76=F ==> 8=T <conf:(1)>

19. 7=T 76=F ==> 141=T <conf:(1)>

20. 7=T 76=F 141=T ==> 8=T <conf:(1)>

21. 7=T 8=T 76=F ==> 141=T <conf:(1)>

22. 7=T 76=F ==> 8=T 141=T <conf:(1)>

23. 7=T 99=F ==> 8=T <conf:(1)>

24. 7=T 99=F ==> 141=T <conf:(1)>

25. 7=T 99=F 141=T ==> 8=T <conf:(1)>

26. 7=T 8=T 99=F ==> 141=T <conf:(1)>

27. 7=T 99=F ==> 8=T 141=T <conf:(1)>

28. 29=F ==> 8=T <conf:(1)>

29. 106=F ==> 8=T <conf:(1)>

30. 87=F ==> 8=T <conf:(1)>

114

Page 126: computación

115

Page 127: computación

7.4. Website Keyobjects

id descripcion keyobject

7 cabecera logo mba sı

8 cabecera menu navegacion sı

143 super testimonios sı

141 super foto cabecera sı

4 banner x4 no

142 super noticias sı

2 banner links de interes no

3 banner siguenos no

11 compartir inferior no

27 cuerpo p7 malla curricular sı

55 cuerpo p84 magisteres sı

52 cuerpo p83 financiamiento bancario no

50 cuerpo p83 bancos y contacto no

54 cuerpo p83 primer parrafo descripcion sı

51 cuerpo p83 becas 50 por ciento sı

53 cuerpo p83 financiamiento directo sı

16 cuerpo p2 porque elegirnos sı

20 cuerpo p4 texto cuerpo estructura sı

22 cuerpo p4 texto cuerpo modalidad sı

21 cuerpo p4 texto cuerpo grado otorgado sı

19 cuerpo p4 texto cuerpo convalidaciones no

23 cuerpo p4 texto cuerpo objetivos sı

18 cuerpo p4 grafico secuencia temporal sı

126 formulario contacto sı

38 cuerpo p8 contenido cursos sı

13 cuerpo p10 doble grado internacional sı

12 cuerpo p10 convenios de intercambio no

63 cuerpo p9 distribucion de cargos sı

66 cuerpo p9 promedio edad no

64 cuerpo p9 nacionalidad no

116

Page 128: computación

BIBLIOGRAFIA

[1] Noor F. Ali-Hasan, Elizabeth J. Harrington, and Joel B. Richman. Best prac-

tices for eye tracking of television and video user experiences. In Proceeding

of the 1st international conference on Designing interactive user experiences

for TV and video, UXTV ’08, pages 5–8, New York, NY, USA, 2008. ACM.

[2] T. Berners-Lee, R. Cailliau, J.F. Groff, and B. Pollermann. World-wide web:

The information universe. Internet Research, 2(1):52–58, 1993.

[3] Tim Berners-Lee, Robert Cailliau, Ari Luotonen, Henrik Frystyk Nielsen, and

Arthur Secret. The world-wide web. Commun. ACM, 37:76–82, August 1994.

[4] David M. Blei, Andrew Y. Ng, and Michael I. Jordan. Latent dirichlet allo-

cation. J. Mach. Learn. Res., 3:993–1022, March 2003.

[5] Ronald J. Brachman and Tej Anand. Advances in knowledge discovery

and data mining. chapter The process of knowledge discovery in databas-

es, pages 37–57. American Association for Artificial Intelligence, Menlo Park,

CA, USA, 1996.

[6] S. Brin and L. Page. The anatomy of a large-scale hypertextual Web search

engine* 1. Computer networks and ISDN systems, 30(1-7):107–117, 1998.

[7] Radek Burget and Ivana Rudolfova. Web page element classification based

on visual features. In Ngoc Thanh Nguyen, Huynh Phan Nguyen, and Adam

Grzech, editors, ACIIDS, pages 67–72. IEEE Computer Society, 2009.

117

Page 129: computación

[8] Georg Buscher, Ralf Biedert, Daniel Heinesch, and Andreas Dengel. Eye

tracking analysis of preferred reading regions on the screen. In Elizabeth D.

Mynatt, Don Schoner, Geraldine Fitzpatrick, Scott E. Hudson, W. Keith

Edwards, and Tom Rodden, editors, CHI Extended Abstracts, pages 3307–

3312. ACM, 2010.

[9] L.D. Catledge and J.E. Pitkow. Characterizing browsing strategies in the

World-Wide Web. Computer Networks and ISDN systems, 27(6):1065–1073,

1995.

[10] Juan J. Cerrolaza, Arantxa Villanueva, and Rafael Cabeza. Taxonomic study

of polynomial regressions applied to the calibration of video-oculographic

systems. In Proceedings of the 2008 symposium on Eye tracking research

&#38; applications, ETRA ’08, pages 259–266, New York, NY, USA, 2008.

ACM.

[11] G. Chang, M. Healey, J. McHugh, and J. Wang. Mining the World Wide

Web. Kluwer, 2001.

[12] WORLD WIDE WEB CONSORTIUM. Especificacion del protocolo html

4.01. http://www.w3.org/TR/1999/REC-html401-19991224/. Lastchecked

30 Marzo 2011.

[13] WORLD WIDE WEB CONSORTIUM. Especificacion del protocolo http.

http://www.w3.org/Protocols/. Lastchecked 30 Marzo 2011.

[14] WORLD WIDE WEB CONSORTIUM. Especificacion uniform resource lo-

cator. http://www.w3.org/Addressing/URL/url-spec.html. Lastchecked 06

Abril 2011.

118

Page 130: computación

[15] WORLD WIDE WEB CONSORTIUM. Logging control in w3c.

http://www.w3.org/Daemon/User/Config/Logging.html. Lastchecked 01

Abril 2011.

[16] R. Cooley, B. Mobasher, J. Srivastava, et al. Data preparation for mining

world wide web browsing patterns. Knowledge and information systems,

1(1):5–32, 1999.

[17] R. Da. A METHOD OF MEASURING EYE MOVEMENT USING A SCLE-

RAL SEARCH COIL IN A MAGNETIC FIELD. IEEE transactions on bio-

medical engineering, 10:137, 1963.

[18] Centro de Investigacion de la Web. Como funciona La Web. pages 1–142.

Universidad de Chile, 2008.

[19] A.T. Duchowski. Eye tracking methodology: Theory and practice. Springer

Verlag, 2003.

[20] Luis E. Dujovne and Juan D. Velasquez. Design and Implementation of a

Methodology for Identifying Website Keyobjects. In Proceedings of the 13th

International Conference on Knowledge-Based and Intelligent Information

and Engineering Systems: Part I, KES ’09, pages 301–308, Berlin, Heidelberg,

2009. Springer-Verlag.

[21] Oren Etzioni. The world-wide web: quagmire or gold mine? Commun. ACM,

39:65–68, November 1996.

[22] U. Fayyad, G. Piatetsky-Shapiro, and P. Smyth. From data mining to knowl-

edge discovery in databases. AI magazine, 17(3):37, 1996.

[23] Luis Eduardo Dujovne Fischman. Diseno y Aplicacion de una Metodologıa

para el Mejoramiento del Contenido de Sitios Web Mediante la Identificacion.

Master’s thesis, Santiago, Chile, 2010.

119

Page 131: computación

[24] G.W. Flake, S. Lawrence, C.L. Giles, and F.M. Coetzee. Self-organization

and identification of web communities. Computer, 35(3):66–70, 2002.

[25] Simone Frintrop, Ro Erich, and Henrik I. Christensen. Computational visual

attention systems and their cognitive foundations: A survey. ACM Trans.

Appl. Percept., 7:6:1–6:39, January 2010.

[26] D.R. Fulkerson and L.R. Ford Jr. Maximal flow through a network. Canad.

J. Math, 8:399–404, 1956.

[27] J.M. Gallaugher and S.C. Ramanathan. Choosing a Client/Server Architec-

ture. Information Systems Management, 13(2):7–13, 1996.

[28] D. Gibson, J. Kleinberg, and P. Raghavan. Inferring web communities from

link topology. In Proceedings of the ninth ACM conference on Hypertext and

hypermedia: links, objects, time and space—structure in hypermedia systems:

links, objects, time and space—structure in hypermedia systems, pages 225–

234. ACM, 1998.

[29] L. Granka, H. Hembrooke, and G. Gay. Location location location: Viewing

patterns on WWW pages. In Proceedings of the 2006 symposium on Eye

tracking research & applications, page 43. ACM, 2006.

[30] Laura A. Granka, Thorsten Joachims, and Geri Gay. Eye-tracking analysis of

user behavior in www search. In Proceedings of the 27th annual ACM SIGIR

conference, pages 478–479, Sheffield, United Kingdom, 2004. ACM.

[31] MINIWATTS MARKETING GROUP. Estadısticas de uso de internet y sitios

web. http://www.internetworldstats.com/stats.htm, 2011. Lastchecked 01

Marzo 2011.

[32] Claudio Gutierrez. Como funciona la Web, chapter La Web como espacio de

informacion universal, pages 9 – 22. Centro de Investigacion de la Web, 2008.

120

Page 132: computación

[33] E.H. Hess and J.M. Polt. Pupil size as related to interest value of visual

stimuli. Science, 132:349–350, 1960.

[34] William H. Inmon, Derek Strauss, and Genia Neushloss. DW 2.0: The Ar-

chitecture for the Next Generation of Data Warehousing. Morgan Kaufmann

Publishers Inc., San Francisco, CA, USA, 2008.

[35] G. Kanizsa. Subjective contours. Scientific American, 1976.

[36] J.M. Kleinberg. Authoritative sources in a hyperlinked environment. Journal

of the ACM (JACM), 46(5):604–632, 1999.

[37] R. Kosala and H. Blockeel. Web mining research: A survey. ACM SIGKDD

Explorations Newsletter, 2(1):1–15, 2000.

[38] VI Levenshtein. Binary codes capable of correcting deletions, insertions and

reversals, Cybernet. Control Theory, 10(8):707–710, 1966.

[39] Boh Martin, Michael Dorr, Mathis Graw, Thomas Martinetz, and Erhardt

Barth. A software framework for simulating eye trackers. In Proceedings of

the 2008 symposium on Eye tracking research &#38; applications, ETRA ’08,

pages 251–258, New York, NY, USA, 2008. ACM.

[40] Vasily G. Moshnyaga. The use of eye tracking for pc energy management. In

Carlos Hitoshi Morimoto, Howell O. Istance, Aulikki Hyrskykari, and Qiang

Ji, editors, ETRA, pages 113–116. ACM, 2010.

[41] OH Mowrer, TC Ruch, and NE Miller. The corneo-retinal potential differ-

ence as the basis of the galvanometric method of recording eye movements.

American Journal of Physiology–Legacy Content, 114(2):423, 1935.

[42] Glenn J. Myatt. Making Sense of Data: A Practical Guide to Exploratory

Data Analysis and Data Mining. Wiley-Interscience, 2006.

121

Page 133: computación

[43] Glenn J. Myatt and Wayne P. Johnson. Making Sense of Data II: A Practical

Guide to Data Visualization, Advanced Data Mining Methods, and Applica-

tions. Wiley Publishing, 2009.

[44] J. Nielsen and K. Pernice. Eyetracking web usability. New Riders Pub, 2009.

[45] Flavio T.P. Oliveira, Anne Aula, and Daniel M. Russell. Discriminating the

relevance of web search results with measures of pupil size. In Proceedings

of the 27th international conference on Human factors in computing systems,

CHI ’09, pages 2209–2212, New York, NY, USA, 2009. ACM.

[46] S.K. Pal, V. Talwar, and P. Mitra. Web mining in soft computing framework:

Relevance, state of the art and future directions. Neural Networks, IEEE

Transactions on, 13(5):1163–1177, 2002.

[47] Bing Pan, Helene A. Hembrooke, Geri K. Gay, Laura A. Granka, Matthew K.

Feusner, and Jill K. Newman. The determinants of web page viewing behav-

ior: an eye-tracking study. In Proceedings of the 2004 symposium on Eye

tracking research \& applications, pages 147–154, San Antonio, Texas, 2004.

ACM.

[48] Timo Partala and Veikko Surakka. Pupil size variation as an indication of

affective processing. Int. J. Hum.-Comput. Stud., 59:185–198, July 2003.

[49] Sami Pietinen, Roman Bednarik, Tatiana Glotova, Vesa Tenhunen, and

Markku Tukiainen. A method to study visual attention aspects of collabo-

ration: eye-tracking pair programmers simultaneously. In Kari-Jouko RAihA

and Andrew T. Duchowski, editors, ETRA, pages 39–42. ACM, 2008.

[50] Jose Miguel Piquer. Como funciona la Web, chapter Internet, pages 43 – 50.

Centro de Investigacion de la Web, 2008.

122

Page 134: computación

[51] A. Poole and L.J. Ball. Eye tracking in human-computer interaction and us-

ability research: current status and future prospects. Encyclopedia of human

computer interaction, pages 211–219, 2005.

[52] C.D. Redline and C.P. Lankford. Eye-movement analysis: a new tool for

evaluating the design of visually administered instruments (paper and web).

In AAPOR Annual Conference, Montreal, Quebec, Canada, May. Citeseer,

2001.

[53] D. Roberts, M. Shelhamer, and A. Wong. A new wireless search-coil system.

In Proceedings of the 2008 symposium on Eye tracking research & applica-

tions, pages 197–204. ACM, 2008.

[54] Darrell S. Rudmann, George W. McConkie, and Xianjun Sam Zheng. Eye-

tracking in cognitive state detection for hci. In Sharon L. Oviatt, Trevor

Darrell, Mark T. Maybury, and Wolfgang Wahlster, editors, ICMI, pages

159–163. ACM, 2003.

[55] G. Salton, A. Wong, and C. S. Yang. A vector space model for automatic

indexing. Commun. ACM, 18:613–620, November 1975.

[56] M. Seco. Estudios de lexicografıa espanola. Thomson-Paraninfo, 1987.

[57] B. Shackel. Eye movement recording by electro-oculography. Venables

DH, Martin IManual of Psycho-physiological Methods. Amsterdam: North-

Holland, pages 299–236, 1967.

[58] Nigel Shadbolt, Tim Berners-Lee, Jim Hendler, Claire Hart, and Richard

Benjamins. The next wave of the web. In Proceedings of the 15th international

conference on World Wide Web, WWW ’06, pages 750–750, New York, NY,

USA, 2006. ACM.

123

Page 135: computación

[59] M. Spiliopoulou. Data mining for the web. Principles of Data Mining and

Knowledge Discovery, pages 588–589, 1999.

[60] M. Spiliopoulou and L. Faulstich. WUM: a tool for web utilization analysis.

The World Wide Web and Databases, pages 184–203, 1999.

[61] Myra Spiliopoulou, Bamshad Mobasher, Bettina Berendt, and Miki Naka-

gawa. A framework for the evaluation of session reconstruction heuristics in

web-usage analysis. INFORMS J. on Computing, 15:171–190, April 2003.

[62] Jaideep Srivastava, Robert Cooley, Mukund Deshpande, and Pang-Ning Tan.

Web usage mining: discovery and applications of usage patterns from web

data. SIGKDD Explor. Newsl., 1:12–23, January 2000.

[63] Tobii Technology. Tobii Studio 2.X User Manual.

[64] Nikos Tsianos, Panagiotis Germanakos, Zacharias Lekkas, Costas Mourlas,

and George Samaras. Eye-tracking users’ behavior in relation to cognitive

style within an e-learning environment. In ICALT, pages 329–333. IEEE,

2009.

[65] Juan D. Velasquez and Luis E. Dujovne. Identifying Web Site Key Objects:

A Methodological Approach.

[66] Juan D. Velasquez and Vasile Palade. Adaptive Web SitesA Knowledge Ex-

traction from Web Data Approach. In Proceeding of the 2008 conference on

Adaptive Web Sites, pages 1–272, Amsterdam, The Netherlands, The Nether-

lands, 2008. IOS Press.

[67] Juan D. Velasquez, Richard Weber, Hiroshi Yasuda, and Terumasa Aoki.

A Methodology to Find Web Site Keywords. In Proceedings of the 2004

IEEE International Conference on e-Technology, e-Commerce and e-Service

124

Page 136: computación

(EEE’04), EEE ’04, pages 285–292, Washington, DC, USA, 2004. IEEE Com-

puter Society.

[68] Yanjun Wang and Qun Liu. Comparison of akaike information criterion (aic)

and bayesian information criterion (bic) in selection of stock-recruitment re-

lationships. Fisheries Research, 77(2):220 – 225, 2006.

[69] Ian H. Witten and Eibe Frank. Data Mining: Practical Machine Learning

Tools and Techniques with Java Implementations (The Morgan Kaufmann

Series in Data Management Systems). Morgan Kaufmann, 1st edition, Oc-

tober 1999.

[70] Juan D. Velasquez y Lorena Donoso. Aplicacion de Tecnicas de Web Mining

sobre los Datos Originados por Usuarios de Paginas Web. Vision Crıtica desde

las Garantıas Fundamentales, especialmente la Libertad, la Privacidad y el

Honor de las Personas. pages 47–68, 2010.

125