computación
-
Upload
rodrigo-antonio -
Category
Documents
-
view
14 -
download
7
description
Transcript of computación
UNIVERSIDAD DE CHILE
FACULTAD DE CIENCIAS FISICAS Y MATEMATICAS
DEPARTAMENTO DE CIENCIAS DE LA COMPUTACION
MEJORAMIENTO DE UNA METODOLOGIA PARA LA IDENTIFICACION
DE WEBSITE KEYOBJECTS MEDIANTE LA APLICACION DE
TECNOLOGIAS EYE TRACKING Y ALGORITMOS WEB MINING
MEMORIA PARA OPTAR AL TITULO DE INGENIERO CIVIL EN
COMPUTACION
LARRY JAVIER GONZALEZ GONZALEZ
PROFESOR GUIA:
JUAN VELASQUEZ SILVA
MIEMBROS DE LA COMISION:
JOSE PIQUER GARDNER
PATRICIO INOSTROZA FAJARDIN
SANTIAGO DE CHILEDICIEMBRE 2011
Resumen
El objetivo general de esta memoria es mejorar la metodologıa para identificarWebsite Keyobjects disenada por Velasquez y Dujovne mediante el uso de herra-mientas Eye Tracking y algoritmos de Web Mining.
Dado un sitio web, esta metodologıa toma como entrada el registro de peticiones(web log) del sitio, las paginas que lo componen y el interes de los usuarios en losobjetos web de cada pagina, el cual es cuantificado a partir de una encuesta quepermite medir la atencion prestada por los usuarios sobre los objetos. Luego losdatos son transformados y pre-procesados para finalmente aplicar algoritmos deWeb Mining que permiten extraer los Website Keyobjects.
Considerando lo anterior, en este trabajo de memoria se sugiere una forma distintade cuantificar el interes de los usuarios sobre los objetos web, utilizando unatecnologıa de rastreo ocular (Eye Tracking), con el objetivo de prescindir de laencuesta, ocupar una herramienta de mayor precision y ası mejorar la clasificacionde los Website Keyobjects.
Para comenzar, se investigaron las distintas tecnicas y herramientas de rastreoocular. Se opto por ocupar un Eye Tracker que ocupa la tecnica mas avanzada ensu campo, la que ilumina los ojos con luces infrarojas y captura sus movimientossegun el brillo de la pupila y el reflejo de la cornea, todo esto basado en vıdeo.Luego se diseno un experimento que permitiera establecer si se produce una mejoraen la clasificacion de los objetos al ocupar distintos valores del interes de losusuarios: medido segun una encuesta o un Eye Tracker.
Se concluyo que la tecnologıa Eye Tracking es sumamente util y precisa a la horade conocer que es lo que mira un usuario y, por lo tanto, que es lo que mas capturasu atencion. Ademas que el integrar esta tecnologıa a la metodologıa permiteno realizar una encuesta, con lo que se evitan situaciones donde es altamenteposible ingresar errores de forma involuntaria. Finalmente se establecio se produceuna leve mejora, entre un 5 % y 6 %, en la metodologıa original, al ocupar lainformacion generada por el Eye Tracker.
ii
Agradecimientos
En primer lugar quiero agradecer muy especialmente a mi familia. Por brindarme
su apoyo y carino incondicional en todos estos anos. Sin ellos, nunca hubiera
estado donde estoy.
Fraternalmente agradezco a mis grandes amigos de la vida: Melissa Aliste, Joceline
Naranjo, Karla Mendoza, Rodrigo Alarcon, Camilo Lopez y Francisco Pena, por
compartir los buenos momentos, pero sobretodo por levantarme en los de mayor
debilidad.
Tambien agradezco a Milena Andrews, Betzabe Montt, Catalina Meza, Katherine
Mena, Cinthya Vergara, Diego Madariaga, Juan Munoz, Francisco Molina, Patri-
cio Moya, Jorge Saa y muchos otros, quienes ayudaron a hacer de este camino,
uno mucho mas llevadero.
Les doy las gracias a todas las personas que de una u otra forma aportaron en mi
carrera universitaria. A mis companeros de primer ano, con quienes descubrı la
universidad; a todos los profesores, quienes me iluminaron con su conocimiento y
en especial a Juan Velasquez, mi sensei, quien me dio la confianza y el apoyo para
realizar este trabajo final.
Mencion honrosa para todas las personas que hicieron posible el desarrollo de
esta Memoria, sobretodo a los participantes de mi experimento, quienes volun-
tariamente accedieron a ayudar.
Finalmente, agradezco a Los Dioses por permitir, desde hace muchos anos, una
serie de eventos no aleatorios que confluyeron no solo en este Trabajo de Tıtulo,
sino en todo lo que soy.
iii
INDICE GENERAL
1. Introduccion 1
1.1. Antecedentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2. Descripcion del Proyecto . . . . . . . . . . . . . . . . . . . . . . . 4
1.3. Hipotesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4. Objetivo General . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.5. Objetivos Especıficos . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.6. Metodologıa Aplicada . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.7. Resultados Esperados . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.8. Alcance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.9. Estructura de la Memoria . . . . . . . . . . . . . . . . . . . . . . 8
2. Marco Conceptual 10
2.1. La Web . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.1.1. Un poco de Historia . . . . . . . . . . . . . . . . . . . . . 11
2.1.2. Funcionamiento . . . . . . . . . . . . . . . . . . . . . . . . 12
iv
2.1.3. Datos Originados en la Web . . . . . . . . . . . . . . . . . 15
2.2. El proceso Knowledge Discovery in Databases (KDD) . . . . . . . 17
2.2.1. Definicion . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2.2. Seleccion de datos . . . . . . . . . . . . . . . . . . . . . . . 19
2.2.3. Pre-procesamiento de datos . . . . . . . . . . . . . . . . . 19
2.2.4. Transformacion de Datos . . . . . . . . . . . . . . . . . . . 20
2.2.5. Data Mining . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.2.6. Interpretacion y analisis de resultados . . . . . . . . . . . . 23
2.3. Web Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.3.1. Web Content Mining (WCM) . . . . . . . . . . . . . . . . 25
2.3.2. Web Structure Mining (WSM) . . . . . . . . . . . . . . . . 27
2.3.3. Web Usage Mining (WUM) . . . . . . . . . . . . . . . . . 29
2.4. Eye Tracking . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.4.1. El ojo humano . . . . . . . . . . . . . . . . . . . . . . . . 33
2.4.2. Movimientos oculares . . . . . . . . . . . . . . . . . . . . . 34
2.4.3. Atencion visual . . . . . . . . . . . . . . . . . . . . . . . . 35
2.4.4. La hipotesis mente-ojo . . . . . . . . . . . . . . . . . . . . 36
2.4.5. Tecnicas Eye Tracking . . . . . . . . . . . . . . . . . . . . 38
2.4.6. Datos generados por un Eye Tracker . . . . . . . . . . . . 41
v
2.4.7. Aplicaciones . . . . . . . . . . . . . . . . . . . . . . . . . . 42
2.5. Website Keyobject . . . . . . . . . . . . . . . . . . . . . . . . . . 44
2.5.1. Definicion . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
2.5.2. Implementacion . . . . . . . . . . . . . . . . . . . . . . . . 45
2.5.3. Comparacion entre objetos . . . . . . . . . . . . . . . . . . 46
2.5.4. Metodologıa para encontrar Website Keyobject . . . . . . 49
3. Diseno del Experimento 52
3.1. El entorno . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.1.1. El sitio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.1.2. El grupo de control . . . . . . . . . . . . . . . . . . . . . . 54
3.1.3. El Eye Tracker . . . . . . . . . . . . . . . . . . . . . . . . 54
3.2. Captura de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.2.1. Paginas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.2.2. Weblog . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.2.3. Interes de los usuarios . . . . . . . . . . . . . . . . . . . . 56
3.3. Transformacion de datos . . . . . . . . . . . . . . . . . . . . . . . 58
3.3.1. Paginas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
3.3.2. Weblog . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
3.3.3. Interes de los usuarios . . . . . . . . . . . . . . . . . . . . 60
vi
3.3.4. Usuarios de control . . . . . . . . . . . . . . . . . . . . . . 62
3.4. Variaciones de la metodologıa . . . . . . . . . . . . . . . . . . . . 63
3.5. Comparacion de Resultados . . . . . . . . . . . . . . . . . . . . . 63
4. Trabajo Realizado 64
4.1. El entorno . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.1.1. El sitio elegido . . . . . . . . . . . . . . . . . . . . . . . . 64
4.1.2. Los usuarios entrevistados . . . . . . . . . . . . . . . . . . 65
4.1.3. El Eye Tracker Utilizado . . . . . . . . . . . . . . . . . . . 66
4.1.4. Herramientas ocupadas . . . . . . . . . . . . . . . . . . . . 68
4.2. Captura de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
4.2.1. El sitio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
4.2.2. Los objetos . . . . . . . . . . . . . . . . . . . . . . . . . . 70
4.2.3. Los conceptos . . . . . . . . . . . . . . . . . . . . . . . . . 70
4.2.4. El Weblog . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
4.2.5. Interes de los usuarios . . . . . . . . . . . . . . . . . . . . 71
4.3. Seleccion, limpieza y transformacion datos . . . . . . . . . . . . . 73
4.3.1. Las paginas . . . . . . . . . . . . . . . . . . . . . . . . . . 74
4.3.2. Los objetos . . . . . . . . . . . . . . . . . . . . . . . . . . 74
4.3.3. Los conceptos . . . . . . . . . . . . . . . . . . . . . . . . . 75
vii
4.3.4. Interes de los usuarios . . . . . . . . . . . . . . . . . . . . 75
4.3.5. El Weblog . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
4.4. Data Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
4.4.1. Los algoritmos . . . . . . . . . . . . . . . . . . . . . . . . 83
4.4.2. Primer experimento . . . . . . . . . . . . . . . . . . . . . . 85
4.4.3. Segundo experimento . . . . . . . . . . . . . . . . . . . . . 85
4.5. Resultados Obtenidos . . . . . . . . . . . . . . . . . . . . . . . . . 85
4.5.1. SOFM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
4.5.2. K-Means . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
4.5.3. Association Rules . . . . . . . . . . . . . . . . . . . . . . . 87
4.5.4. Website Keyobjects . . . . . . . . . . . . . . . . . . . . . . 87
4.6. Comparacion y analisis . . . . . . . . . . . . . . . . . . . . . . . . 88
5. Conclusiones 90
5.1. Trabajo Futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
6. Apendice A: Resultados primer experimento 93
6.1. SOFM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
6.2. K-Means . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
6.2.1. Clusters de sesiones . . . . . . . . . . . . . . . . . . . . . . 95
6.2.2. Numero de apariciones de objetos en Clusters . . . . . . . 99
viii
6.3. Association Rules . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
6.4. Website Keyobjects . . . . . . . . . . . . . . . . . . . . . . . . . . 103
7. Apendice B: Resultados segundo experimento 104
7.1. SOFM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
7.2. K-Means . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
7.2.1. Clusters de sesiones . . . . . . . . . . . . . . . . . . . . . . 106
7.2.2. Numero de apariciones de objetos en Clusters . . . . . . . 112
7.3. Association Rules . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
7.4. Website Keyobjects . . . . . . . . . . . . . . . . . . . . . . . . . . 116
ix
INDICE DE FIGURAS
2.1. Ejemplo codigo HTML . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2. Funcionamiento de la Web . . . . . . . . . . . . . . . . . . . . . . 14
2.3. Etapas del proceso KDD. . . . . . . . . . . . . . . . . . . . . . . . 18
2.4. Grafo dirigido que representa enlaces entre paginas. . . . . . . . . 28
2.5. Componentes del ojo humano . . . . . . . . . . . . . . . . . . . . 33
2.6. La ilusion de Kanizsa. . . . . . . . . . . . . . . . . . . . . . . . . 37
2.7. Reflejo de la cornea y brillo de la pupila. . . . . . . . . . . . . . . 40
2.8. Mapa conceptual: Descripcion de los Web Objects. . . . . . . . . . 47
3.1. Modelo de paginas, objetos y conceptos. . . . . . . . . . . . . . . 59
3.2. Modelo weblog y tiempo usado en las paginas. . . . . . . . . . . . 60
4.1. Tabla estadıstica de las visitas al sitio . . . . . . . . . . . . . . . . 65
4.2. Caracterısticas de los usuarios de control . . . . . . . . . . . . . . 67
4.3. Tobii T120 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
4.4. Ubicacion Eye Tracker - Usuario . . . . . . . . . . . . . . . . . . . 72
x
4.5. Tabla de transicion de datos generados por el Eye Tracker. . . . . 76
4.6. Menu de navegacion compacto. . . . . . . . . . . . . . . . . . . . 78
4.7. Menu de navegacion desplegado. . . . . . . . . . . . . . . . . . . . 79
4.8. Tabla averaged spent time on object. . . . . . . . . . . . . . . . . 79
4.9. Tablas conceptual similarity y residence time. . . . . . . . . . . . 82
xi
CAPITULO
1
INTRODUCCION
Desde su creacion, la Web ha sido revolucionaria en terminos de impacto, escala
y alcance. Ha sido tal el progreso que ha impulsado, que de una u otra forma ha
cambiado cada nivel de nuestra sociedad [58]. Dıa tras dıa son mas las personas
que navegan por la Web, debido, en gran medida, a la masificacion de Internet.
En la actualidad cerca del 28 % de la poblacion mundial y el 50 % de los chilenos
puede acceder a esta gran red [31].
Ante esta situacion, muchas instituciones observaron en la Web un nuevo mer-
cado donde hacer negocios. Estas entidades lograron incrementar notoriamente
sus utilidades, lo que incentivo a otras companıas a explorar este nuevo nicho.
No falto mucho tiempo para que la mayorıa de las organizaciones comenzaran a
operar en la Web, en una especie de negocio virtual incluso actualmente nuevas
companıas operan exclusivamente en este medio sin contar con sucursales tangi-
bles. Con esto, las instancias para la competencia aumentaron, pero el objetivo
final seguıa siendo el mismo: atraer nuevos clientes y fidelizarlos.
Para muchas instituciones ya no es suficiente tener un sitio web y proveer produc-
tos de calidad en el. La diferencia entre el exito y el fracaso de un negocio on-line
esta dado por el potencial del sitio para atraer y retener usuarios. Este potencial
1
esta determinado por el contenido, diseno y aspectos tecnicos, como por ejemplo,
el tiempo empleado en cargar una pagina web [67].
En este ambiente de competencia, las companıas necesitan un sitio web actualiza-
do, que ofrezca informacion acerca de lo que los usuarios estan buscando de forma
facil y accesible, lo que en muchos casos no es ası [66].
1.1. Antecedentes
En los ultimos anos ha surgido una nueva area de investigacion llamada Web Mi-
ning, que estudia diversas formas de extraer informacion desde los datos generados
en la Web. Con este conocimiento es posible desarrollar tecnicas y algoritmos para
atraer y retener usuarios en un sitio web. Esta area aplica tecnicas de Data Mining
a los datos originados en la Web con el objetivo de obtener informacion valiosa
que permita mejorar continuamente un sitio en cuanto a diseno, contenido y otros
aspectos.
Un resultado interesante que se ha logrado en este campo son los Website Key-
words [67], los que se definen como una palabra o un conjunto de palabras que
son utilizadas por los usuarios en su proceso de busqueda y que caracterizan el
contenido de una pagina o sitio web. Al encontrarlos, los sitios pueden ser re-
disenados de acuerdo a las necesidades y requerimientos de sus usuarios, y de esta
forma, estar a la vanguardia.
Si bien identificar los Website Keywords de un sitio ayuda a conocer las preferen-
cias de los usuarios, la metodologıa que los descubre solo se enfoca en el contenido
textual, dejando fuera del analisis el contenido multimedia de los sitios web [67].
Por esta razon Dujovne y Velasquez [20] extendieron esta metodologıa y lograron
2
integrar tanto el contenido textual como el contenido multimedia en el analisis.
Dujovne definio un Web Object como cualquier “grupo estructurado de palabras o
un recurso multimedia que esta presente en una pagina web que posee meta-datos
que describen su contenido”. Ademas, definio un Website Keyobject como un Web
Object que captura la atencion de los usuarios y que caracteriza el contenido de
un sitio web [20]. De las definiciones anteriores se puede deducir que todo sitio
Web esta formado por un conjunto de Web Object y que el conjunto de Website
Keyobject que posee es sub-conjunto del primero.
Dujovne y Velasquez disenaron una metodologıa que permitio identificar los Web-
site Keyobjects de un sitio. Estos, al igual que Website Keywords, dan directrices
para que los Web Sites sean re-disenados en funcion de las necesidades de los
usuarios. Esta metodologıa [20] requiere conocer cual es el tiempo de permanen-
cia de los usuario en los Web Objects, es decir, cuanto tiempo gasta un usuario
mirando cada Web Object. Para determinar el tiempo de permanencia, Dujovne
siguio dos pasos: Sesionizacion y Aplicacion de una encuesta.
Sesionizacion: es el proceso que reconstruye las sesiones de usuarios. Una sesion
es la secuencia de Web Page que visita un usuario mientras navega en un sitio
Web. Mediante este proceso es posible determinar el tiempo de permanencia de
un usuario en una pagina Web, entre otras cosas. Este proceso sera estudiado
detalladamente en el Capıtulo 2.
Aplicacion de una encuesta: sobre un grupo de control, con la cual los Web
Objects fueron ordenados segun su importancia dentro de cada pagina del sitio
Web.
Al mezclar ambos procesos, Dujovne y Velasquez [20] estimaron el tiempo de
permanencia de los usuarios en los Web Object. Sin embargo, gracias a la tecnologıa
3
Eye Tracking es posible prescindir de esta encuesta.
La tecnologıa Eye Tracking permite conocer que es lo que una persona mira y cual
es la dilatacion de sus pupilas en funcion del tiempo [1]. Al aplicar esta tecnologıa
a usuarios que navegan en un Web Site es posible medir el tiempo de permanencia
en cada Web Objects sin necesidad de realizar una encuesta. Ademas, gracias a
que mide la dilatacion de las pupilas, permite cuantificar el interes de los usuarios,
ya que la dilatacion de las pupilas esta directamente relacionada con el interes del
usuario en aquello que esta mirando [33, 45, 48].
Para evitar redundancia, en adelante una pagina web sera llamada solo pagina,
de la misma forma, un sitio web sera llamado sitio.
1.2. Descripcion del Proyecto
En el presente Trabajo de Tıtulo se busca mejorar a la metodologıa disenada por
Dujovne y Velasquez [20] mediante el uso de herramientas Eye Tracking. Si bien
esta Memoria es una extension de la Tesis de Dujovne [23], el lector puede no leer
dicho trabajo, pues todo lo que se necesita saber, esta incluido en esta Memoria.
Sin embargo, estudiar dicha Tesis es una ejercicio academico recomendable.
Durante el desarrollo de este Trabajo de Tıtulo, se trabajara con el grupo Web
Intelligence Research Group (http://wi.dii.uchile.cl/), que cuenta con los fondos
para la adquisicion de soluciones Eye Tracking y proveera de la infraestructura
necesaria para desarrollar el proyecto. Por otro lado, se trabajara bajo la tutela
del profesor Juan D. Velasquez, quien se desenvolvera como profesor guıa.
4
1.3. Hipotesis
Si es posible cuantificar el tiempo de permanencia de un grupo de usuarios de con-
trol en los Web Objects, entonces es posible realizar una mejora a la metodologıa
desarrollada por Dujovne et al. [20], es decir, determinar los Website Keyobject
con mayor exactitud.
1.4. Objetivo General
Mejorar la metodologıa para identificar Website Keyobjects disenada por Dujovne
et al. [20] mediante el uso de herramientas Eye Tracking y algoritmos de Web
Mining.
El exito de este objetivo sera medido al comparar los resultados entregados por
ambas metodologıas, la original y la modificada, mediante los indicadores Preci-
sion y Recall. Puede encontrar una explicacion detallada de estos indicadores en
en capıtulo 2.
1.5. Objetivos Especıficos
Para alcanzar el objetivo recien descrito es necesario desarrollar una serie de pasos
intermedios que se detallan a continuacion.
Establecer estado del arte en sistemas Eye Tracking.
Se debe comprender como funciona esta tecnologıa para poder aplicarla de forma
adecuada al problema.
5
Analizar la naturaleza de los datos originados en la Web.
Para este trabajo, seran consideradas tres fuentes de datos: paginas web, archivo
web log y datos generados por un Eye Tracker. El contenido de una pagina puede
ser considerado como un conjunto de datos dentro del cual aparecen los Web
Objects. El archivo web log guarda todas las peticiones de los usuarios hacia el
Web Site y el Eye Tracker genera una serie de datos relacionados con el punto
de atencion del usuario frente a un monitor. Dada la diversidad de estos datos, se
analizara su naturaleza con el objetivo de realizar un estudio mas profundo.
Estudiar modelos matematicos usados para analizar el comportamiento
de navegacion de los usuarios en la Web.
Se estudiara la bibliografıa existente para adquirir el conocimiento y ası poder
modelar el comportamiento de navegacion de los usuarios en la Web.
Modificar la metodologıa disenada por Dujovne et al. [20], mediante
tecnologıas Eye Tracking y algoritmos de Web Mining.
La metodologıa disenada por Dujovne et al. [20] estima el tiempo de permanencia
de los usuarios en los Web Objects mediante una encuesta. Se desea mejorar
esta metodologıa midiendo cuantitativamente el tiempo de permanencia de los
usuarios en los Web Objects con herramientas Eye Tracking. Para conseguir esto
se tendra que establecer una forma para incorporar los datos generados por el Eye
Tracker en el analisis de la conducta de navegacion de los usuarios.
Aplicar ambas metodologıas en el sitio de control: http://www.mbauchile.cl/.
La metodologıa original y la modificada seran aplicadas en el sitios de con-
trol mencionado. Con esto se compararan los resultados entregados por ambas
metodologıas y se medira la calidad de la mejora realizada.
6
1.6. Metodologıa Aplicada
Se comenzara con una fase investigativa en la cual se reuniran los antecedentes
requeridos para desarrollar esta memoria. A continuacion se disenara y ejecu-
tara un experimento que coloque a prueba la validez de la hipotesis formulada
anteriormente. Para finalizar, una vez obtenidos los resultados del experimento,
se concluira la veracidad de la premisa.
Investigacion: La metodologıa disenada por Dujovne et al. [20] esta construida
sobre una serie de teorıas, entre las cuales destacan Data Mining, Web Mining,
Sesionizacion, Web Objects, etc. Dichas teorıas seran estudiadas para comprender
la implementacion y el funcionamiento de la metodologıa.
Por otro lado, la investigacion sobre los sistemas Eye Tracking estara enfocada en
sus bases teoricas, su funcionamiento y como seran aplicados en esta memoria.
Experimento: Consiste esencialmente en comparar la metodologıa original ver-
sus la metodologıa modificada. Para realizar esta comparacion, sera necesario
implementar ambas metodologıas.
Para la metodologıa original, se seguiran los pasos descritos por Dujovne et al.
[20], mientras que para la metodologıa modificada se reemplazara el paso de esti-
macion de los tiempos de permanencia en los Web Objects por las mediciones que
entregara el sistema Eye Tracking.
Resultados: Una vez ejecutadas ambas metodologıas, se compararan los resul-
tados arrojados mediante el indicador Precision, para finalmente poner a prueba
la hipotesis.
7
1.7. Resultados Esperados
Se espera obtener una nueva metodologıa, basada en la disenada por Dujovne et
al. [20], que permita identificar los Website Keyobjects con mayor exactitud.
1.8. Alcance
Si bien son varias las caracterısticas que se pueden mejorar en la metodologıa
disenada por Dujovne et al. [20], este Trabajo de Tıtulo se enfocara principalmente
en ocupar la tecnologıa Eye Tracking para cuantificar el tiempo de permanencia de
los usuarios en los Web Objects e incorporar estos datos a la metodologıa original.
1.9. Estructura de la Memoria
El proposito principal de este informe es dar a conocer el Trabajo de Tıtulo rea-
lizado.
El Capıtulo 2 provee la base de conocimientos sobre los cuales se construyo esta
memoria. Se tratan diversos temas, como la Web, Eye Tracking, Website Keyob-
jects, etc.
La esencia de este Trabajo de Tıtulo es el Capıtulo 3, diseno del experimento, pues
es donde se establece la forma de trabajar para contrastar la hipotesis planteada.
La aplicacion de ambas metodologıas al sitios web de control esta detallada en el
Capıtulo 4. Allı se presentan los resultados obtenidos y los respectivos analisis.
Finalmente las conclusiones logradas en este Trabajo de Tıtulo son descritas en
8
el Capıtulo 5. Ademas, se exploran nuevas ramas de esta metodologıa a modo de
trabajo futuro.
9
CAPITULO
2
MARCO CONCEPTUAL
En el presente capıtulo se dan los esbozos conceptuales sobre los cuales se sustenta
el trabajo realizado. El primer tema desarrollado es la Web [3]. Se especifica que es
y su diferencia con Internet. Se brinda una pequena resena historica y se explica
su funcionamiento actual. Ademas, se profundiza en los sitios web, la informacion
que contienen y que generan. A continuacion, se explica el proceso KDD [5] y
cada una de sus etapas, desde la seleccion de datos hasta la interpretacion de los
resultados. Luego, la seccion 2.3 trata el tema denominado Web Mining [37] y sus
areas de aplicacion. Posteriormente, se introduce la tecnologıa Eye Tracking [51]
que a grandes rasgos, permite saber que es lo que una persona mira y por cuanto
tiempo. Finalmente, se explica la metodologıa para encontrar Website Keyobjects
disenada por Dujovne [23] que se espera mejorar.
2.1. La Web
Actualmente, la mayorıa de las personas en Chile se conectan a Internet y hacen
uso de la Web diariamente, o al menos en forma semanal [18]. Sin embargo, mu-
chos de ellos usan estos terminos indistintamente y desconocen que son objetos
totalmente diferentes.
10
Gutierrez [32] comparo pedagogicamente sus diferencias: Confundir la Web e In-
ternet es como confundir el cerebro (una red de neuronas) con el conocimiento
que posee una persona. Otro ejemplo fue dado por Piquer [50], quien realizo la
siguiente analogıa: El sistema de transporte (terrestre) esta basado en la red de
caminos y carreteras, pero el sistema de transporte es totalmente distinto a la red
de carreteras. Lo mismo ocurre para la Web e Internet.
Tecnicamente, Internet representa a la red de redes que permite la interconexion
entre dispositivos separados geograficamente, a traves del envıo y recepcion de los
datos que viajan en paquetes. Por otro lado, la Web es el conjunto de paginas y
objetos relacionados que se vinculan entre sı a traves de hipervınculos [70].
En palabras de su creador, Berners-Lee, la Web “es el universo de informacion
accesible desde la red, una encarnacion del conocimiento humano”. Velasquez y
Palade [66] la definieron de una forma mas concreta: “La Web es un canal masivo
para la difusion e intercambio de informacion”.
2.1.1. Un poco de Historia
Los primeros computadores eran practicamente inaccesibles para la mayorıa de las
personas por su elevado costo. Solo algunas instituciones podıan contar con ellos,
y muchas veces se arrendaba su capacidad de procesamiento. Con el progreso de
la tecnologıa los computadores se volvieron mas accesibles para la poblacion y
su uso se masifico. Luego surgio la idea de conectar los computadores entre sı,
escencialmente para poder comunicar mas facil y rapidamente las ideas de la co-
munidad cientıfica, con lo que nacieron las primeras redes locales. No falto mucho
tiempo para que estas redes se hicieran mas grandes, y finalmente globales, como
hoy en dıa lo es Internet [32].
11
En la decada de 1980, existıan varias redes incompatibles entre sı entre ellas
BITNET de IBM, DECNET de Digital, UUCP de Unix, etc. [2, 50] por lo que
no se podıa tener acceso a todos los recursos disponibles en estas redes. Para
resolver esta problematica, a comienzo de los noventa, Tim Berners-Lee inves-
tigador en CERN 1, ideo un sistema de informacion, basado en la aquitectura
cliente-servidor [27], que permitiera a cada usuario en un computador navegar
de forma automatica por otros computadores independientemente del software
ocupado por ellos. Este fue el nacimiento de la Web [3, 32].
2.1.2. Funcionamiento
Antes de detallar el funcionamiento de la Web, se explicaran los tres pilares que
soportan su arquitectura, estos son: Uniform Resource Locator (URL) [14], Hy-
pertext Markup Language (HTML) [12] y Hypertext Transfer Protocol (HTTP)
[13].
http://wi.dii.uchile.cl/index.php
Cuadro 2.1: Ejemplo URL.
Uniform Resource Locator. Como su nombre lo dice, es un localizador de
recursos que asocia una direccion en la Web con un nombre de dominio. En el
cuadro 2.1 se puede apreciar un ejemplo de una URL, donde se identifican tres
partes: el prefijo http:// corresponde al protocolo utilizado en la peticion, en este
caso HTTP. La parte central del string, wi.dii.uchile.cl/, es el dominio al que un
usuario busca acceder. Este nombre es traducido por un DNS 2 a una direccion IP
donde se encuentra alojado el sitio. Finalmente, el sufijo index.php hace referencia
1European Organization for Nuclear Research2Domain Name Service
12
Figura 2.1: Ejemplo codigo HTML
a un archivo en particular, dentro del servidor, que solicita un usuario.
Hypertext Markup Language. Es un lenguaje de comunicacion basico y comun
de hypertexto, es decir, enlaza paginas entre sı mediante links [3]. Este lenguaje
permite crear documentos semi-estructurados, que son interpretados por todos
los navegadores Web. Ademas provee instrucciones para agregar otro tipo de con-
tenido, como imagenes, sonidos y videos. La figura 2.1 corresponde a una parte
del codigo HTML de la pagina http://wi.dii.uchile.cl/index.php.
Hypertext Transfer Protocol. Es un protocolo de comunicacion que permite
13
Figura 2.2: Funcionamiento de la Web
(basado en [66])
la transferencia de documentos entre computadores, tıpicamente entre un cliente
y un servidor. La especificacion de este es mantenida por World Wide Web Con-
sortium (W3C).
El funcionamiento tıpico de la web, universo de informacion accesible a traves
de Internet, ocurre cuando un usuario, mediante un navegador llamado cliente,
requiere acceder a un sitio alojado en algun servidor web. Un servidor Web es un
programa que esta permanentemente esperando las peticiones de los clientes en
un puerto especıfico ubicable en una URL determinada. Este proceso es indistinto
si el usuario accede al sitio mendiante una URL o siguiendo un enlace.
En la figura 2.2 se pueden apreciar la interaccion entre un cliente y un servidor
Web. Como primer paso el cliente envıa al servidor una peticion de un archivo
determinado (1). El servidor recibe esta peticion, la almacena en una bitacora (2)
llamada web log, busca el archivo solicitado (3) y le envıa como respuesta el archivo
14
al cliente (4). Una vez que este recibe la respuesta, la guarda en una memoria
especial llamada cache y la interpreta mostrando la pagina en el navegador del
usuario (5). La comunicacion entre el cliente y el servidor se realiza siguiendo
el protocolo HTTP, mientras que los archivos enviados como respuesta por el
servidor [66].
Un sitio Web es un conjunto de paginas Web las que se encuentran en un directorio
o carpeta y que se encuentran enlazadas entre sı mediante links. Las paginas Web
son, en esencia, documentos de texto plano que siguen el formato HTML y que
pueden tener incrustados otros archivos con distinto formato, como imagenes,
videos, etc. Pueden ser estaticas o dinamicas. Si es estatica, su contenido no cambia
frecuentemente, por el contrario, si es dinamica es generada por un programa que
en el momento de la peticion del usuario procesa al menos un algoritmo para crear
el contenido de la pagina. El servidor web, ademas de esperar las peticiones de
los usuarios, envıa como respuesta los documentos solicitados por los usuarios y
en caso de ser requerido, procesa los algoritmos que crean las paginas dinamicas.
2.1.3. Datos Originados en la Web
Los datos que se originan en la Web pueden ser clasificados en tres tipos: contenido,
estructura y usabilidad.
Contenido: Hace referencia a los objetos presentes en las paginas Web, como
texto, imagenes, sonidos y videos, en palabras simples, todo lo que se puede ver
en una pagina. El texto puede ser semi-estructurado, altamente estructurado o
no poseer estructura. Por otro lado, el contenido multimedia requiere meta-datos
que describan su contenido, sin embargo, es muy poco comun encontrar estas
descripciones.
15
Estructura: Son los enlaces, o links entre las paginas. Por lo general cuando
existe un enlace entre dos paginas, estas estan relacionadas por su contenido. Si
un conjunto de paginas estan enlazadas entre ellas se crea una comunidad de
informacion comun [28]. Estos datos pueden modelarse como un grafo dirigido,
donde las paginas son representadas por nodos y los enlaces por los arcos.
Usabilidad: Son los datos generados por los usuarios en su proceso de navegacion.
Como se menciono anteriormente, los servidores Web almacenan cada peticion
realizada por los usuarios en un archivo llamado web log [15]. Los datos que son
guardados en esta bitacora de peticiones son los siguientes:
IP del Host: Direccion IP desde donde se realizo la peticion.
User y User ID: Si el sitio posee algun mecanismo de identificacion, se alma-
cena el usuario y el identificador numerico de este.
Timestamp: Fecha y hora en que se realizo la peticion.
Metodo de solicitud: Forma en la que se realiza la peticion.
URI 3: nombre y ubicacion del archivo solicitado.
Protocolo: version del protocolo HTTP del software que realiza la peticion.
Status: Estado del resultado de la peticion. Son codigos que tienen diferentes
significados.
Bytes: Tamano del documento enviado en bytes.
Referencia: Pagina desde la cual el usuario accedio al documento.
Agente: navegador desde el cual se realizo la peticion.
3Uniform Resource Identifier
16
En la siguiente seccion, se detallara un proceso estandarizado mediante el cual
se puede transformar datos en informacion. Este proceso sera aplicado posterior-
mente para encontrar patrones que describan los datos estudiados que correspon-
den en parte a los datos generados en la Web.
2.2. El proceso Knowledge Discovery in Databases (KDD)
Casi todos los campos de estudio han estado generando y almacenando canti-
dades de datos sin precedentes [22, 42]. A modo de ejemplo, las companıas de
retail guardan cada venta realizada; los servidores Web almacenan cada peticion
de los usuarios; y los astronomos generan millones de datos diariamente. Con
este crecimiento del volumen de datos, se ha vuelto impractico analizarlos de for-
ma manual y, en consecuencia, distintas entidades se han visto sobrecargadas y
sobrepasadas por sus datos.
Esta situacion genero la necesidad de crear tecnicas automaticas, o al menos semi-
automaticas, para facilitar la extraccion de informacion de grandes volumenes
de datos. Estas tecnicas son lo que hoy se conoce como el proceso Knowledge
Discovery in Databases, en adelante KDD.
2.2.1. Definicion
Fayyad et al. [22] definieron KDD como “el proceso no trivial de identificar pa-
trones previamente desconocidos, validos, originales, potencialmente utiles y com-
prensibles sobre los datos”, donde los datos son conjuntos de hechos almacenados
en alguna fuente y los patrones son expresiones que describen un subconjunto o
un modelo del subconjunto de los datos.
17
Figura 2.3: Etapas del proceso KDD.
(basado en [22])
Un campo relacionado con el proceso KDD es Data Warehousing [34], el que
puede participar en este proceso para facilitar la limpieza y el acceso a los datos.
A pesar de esto, no es imprescindible la existencia de un Data Warehouse para la
busqueda de patrones.
En la figura 2.3 se pueden apreciar la serie de pasos que compone este proceso. Es
importante notar que es interactivo e iterativo por lo que en cualquier momento
durante la ejecucion se puede volver atras. Ademas, en cada paso se recomienda
involucrar las decisionesiones de un experto del negocio [5]. A continuacion, se
describira cada una de las etapas que conforman el proceso.
18
2.2.2. Seleccion de datos
Consiste en elegir los datos, tıpicamente desde un sistema transaccional, sobre los
cuales se trabajara posteriormente. Por lo general corresponden a un subconjunto
del universo de datos disponibles. El criterio de seleccion depende del objetivo del
proyecto y de los requerimientos del cliente. Este es un paso importante, ya que el
uso de datos irrelevantes puede conducir a errores analıticos, ademas de agregar
ruido a los resultados finales [66].
2.2.3. Pre-procesamiento de datos
Esta etapa consiste en preparar los datos para procesarlos posteriormente. Gene-
ralmente es la mas costosa en terminos de tiempo [42].
Dado que los algoritmos de Data Mining, etapa posterior del proceso KDD, son
muy sensibles a los datos erroneos y faltantes, se aplican diferentes tecnicas que
pueden sobrellevar estas situaciones. Para encontrar errores en los datos, se suele
buscar outlayers, o valores fuera de rango, mientras que para los datos faltantes
se puede completar el campo manualmente o se trata de predecir dicha variable
en funcion de las demas. En ambos casos, siempre esta la alternativa de eliminar
el registro completo.
Otra dificultad que puede presentarse ocurre cuando los datos provienen de di-
ferentes fuentes y son reunidos, ya que se pueden producir inconsistencias, por
ejemplo, si las fuentes de datos ocupaban diferentes unidades de medida [43].
19
2.2.4. Transformacion de Datos
En este paso los datos siguen siendo preparados con el objetivo de aumentar la
calidad de las predicciones. Existen diferentes transformaciones que pueden ser
aplicadas, donde las mas tıpicas son: crear, eliminar, normalizar y discretizar va-
riables. Las dos primeras, se ocupan para representar mejor el conjunto de datos,
por ejemplo, calcular la edad de una persona a partir de su fecha de nacimiento;
mientras que los finales se ocupan para reformar los datos para que sean compa-
tibles con la tecnica de Data Mining que se desee ocupar [43].
El resultado de esta etapa es un conjunto de datos mas refinados sobre los cuales
se aplicaran las tecnicas y algoritmos de Data Mining.
2.2.5. Data Mining
Es el core del proceso KDD que consiste en descubrir patrones en los datos. Si
bien no hay nada nuevo en esto, la caracterıstica fundamental que lo diferencia de
otros mecanismos es la capacidad para operar sobre grandes volumenes de datos
[66, 69].
Dentro de Data Mining se encuentran varios mecanismos, como agrupacion o clus-
tering, prediccion; que sirven para enfrentar diferentes tipos de problemas. Gene-
ralmente, se ejecuta mas de una tecnica para verificar los resultados obtenidos.
Clustering
Consiste en separar un conjunto de datos en varios subconjuntos mas pequenos,
con la idea de que dentro de estos subconjuntos sus elementos esten altamente rela-
cionados entre sı y que, al elegir elementos de subconjuntos distintos, la relacion
20
entre estos sea baja. Para medir que tan relacionados estan dos elementos se suele
definir una funcion de distancia. Esta idea de separar conjuntos puede resultar
util para encontrar relaciones desconocidas en los datos, familiarizarse con ellos,
segmentarlos o dividir para reinar [42].
Para ejemplificar esta tecnica, consideremos que separamos el conjunto de todos
los animales conocidos en los subconjuntos mamıferos, invertebrados, aves y peces.
Dentro de estos subconjuntos todos sus elementos comparten una caracterıstica
y, por otro lado, al tomar dos ejemplos de distintos conjuntos, se puede apreciar
que no comparten ninguna caracterıstica principal de los diferentes subconjuntos.
Existen diversas formas de realizar Clustering como Agglomerative Hierarchical,
Partitioner-Based y Fuzzy. Para cada una de estas existe al menos un algoritmo
que la implementa [43]. Para evaluar la calidad de los clusters entregados por estos
algoritmos se pueden emplear los indicadores AIC y BIC [68], que estan basados
en el metodo de maxima verosimilitud.
Una forma mas basica de realizar Clustering es la denominada Reglas de aso-
ciacion. Este metodo entrega observaciones sobre los datos y trata de encontrar
vınculos entre los diferentes atributos del conjunto.
Prediccion
Se refiere a una serie de enfoques que buscan entregar mayor informacion para
tomar decisiones, basados en los datos historicos. A modo de ejemplo, las areas
de marketing usan este tipo de modelos para predecir que clientes compraran un
producto especıfico [43].
Los enfoques para alcanzar este proposito son diversos, entre ellos se encuen-
tran: regresion lineal, polinomial, logıstica, multiple, etc; analisis de componentes
21
principales, analisis del discriminante, clasificador Naive Bayes, redes bayesianas,
k-vecinos mas cercanos, arboles de decision, redes neuronales, etc. [42, 43]. Todos
estos enfoques pueden ser clasificados en dos tipos, regresion y clasificacion. La
diferencia entre estos es que una regresion busca predecir una variable continua,
mientras que la clasificacion, una variable discreta.
Para evaluar la calidad de una regresion se puede usar el error cuadratico medio
(ecuacion 2.1) , o el error absoluto medio (ecuacion 2.2) entre otros.
n∑i=1
(yi − yi)2
n(2.1)
n∑i=1
|yi − yi|n
(2.2)
El argumento que permite conocer que tan buena es una clasificacion consiste
en determinar el numero de eventos bien clasificados versus los mal clasificados.
Para ejemplificar esto, se consideran las siguientes propiedades de una prediccion
binaria:
Verdadero positivo (VP): Numero de observaciones clasificadas como ver-
daderas que son en realidad verdaderas.
Verdadero negativo (VN): Numero de observaciones clasificadas como falsas
siendo que son verdaderas.
Falso positivo (FP): Numero de observaciones incorrectamente clasificadas
como verdaderas.
Falso negativo (FN): Numero de observaciones incorrectamente clasificadas
como falsas (son verdaderas).
22
Con estos valores se construyen los siguientes indicadores, que son los que deter-
minan la calidad de una prediccion:
Precision: Indica la fraccion de las predicciones verdaderas que fueron co-
rrectas (2.3).
Recall : Indica la fraccion de los eventos verdaderos que fueron predichos
correctamente (2.4).
F-measure: Otorga una mezcla de los indicadores anteriores, que los mezcla
uniformemente (2.5).
Precision =V P
V P + FP(2.3)
Recall =V P
V P + FN(2.4)
F −measure = 2 ∗ Precision+Recall
Precision ∗Recall(2.5)
Esta forma de evaluar una prediccion binaria es extensible para grados mayores,
como por ejemplo al pronosticar el clima de un dıa que puede ser soleado, templado
o frıo.
2.2.6. Interpretacion y analisis de resultados
Los algoritmos de Data Mining entregan como resultado patrones que general-
mente son un subconjunto de los datos. Sin embargo, existe la posibilidad que
23
estos patrones no tengan sentido alguno, por lo que deben ser validados por el
experto del negocio.
Si los patrones encontrados son correctos es posible tomar acciones basadas en
lo aprendido. Si no lo son, el proceso completo debe ser revisado y modificado,
prestando especial enfasis en los modelos de informacion.
Es importante destacar que el proceso KDD nunca tiene fin, ya que el entorno
siempre esta en un constante cambio. Los patrones encontrados hoy, puede que
ya manana no tengan validez, sin embargo, pueden ser usados como fundamentos
para un trabajo futuro [66].
A continuacion, se estudiara un area de investigacion reciente que aplica muchos
de los conceptos descritos en esta seccion.
2.3. Web Mining
En palabras simples, Web Mining es la aplicacion de Data Mining a los Datos
originados en la Web [11, 59]; es producto del cruce de varias areas de investi-
gacion, como Bases de Datos, Recuperacion de la Informacion, Inteligencia Arti-
ficial, especialmente las sub areas de aprendizaje de maquina y procesamiento del
lenguaje [21]. La investigacion en este campo esta experimentando un importante
crecimiento, principalmente, por la gran cantidad de datos disponibles para ser
analizados [37]. Esta no es una tarea menor, considerando que la Web es una
gran coleccion de datos heterogeneos, desclasificados, distribuidos, variantes en el
tiempo, semi-estructurados y de alta dimension [46].
Generalmente, se confunde Web Mining con recuperacion de informacion (IR) y
extraccion de informacion (IE). Sin embargo, esto no es correcto. El objetivo de
24
IR es recuperar la mayor cantidad de archivos relevantes para una busqueda [37],
para lo cual, la principal tarea que se realiza es la creacion de ındices de texto
ası como la busqueda de keywords en una coleccion. Si bien algunas tecnicas de IR
son utilizadas dentro del proceso de Web Mining, muchas de las metodologıas que
se aplican no requieren del uso de Data Mining, por lo que el alcance es distinto
[23].
Como se detallo en la seccion 2.1.3, los datos originados en la Web pueden ser
clasificados en tres categorıas, por lo que es natural que Web Mining tambien se
ramifique en estas categorıas, pues la naturaleza de estos datos difiere de forma
tal que poseen problematicas diferentes. Las sub-areas de Web Mining son: Web
Content Mining, que estudia el contenido de las paginas; Web Structure Mining
que estudia la estructura de los sitios (links) y la Web en general y Web Usage
mining que analiza el comportamiento de los usuarios de la Web.
2.3.1. Web Content Mining (WCM)
El objetivo de Web Content Mining es descubrir informacion util desde los docu-
mentos Web [37], que son considerados como el contenido, datos y otros archivos
presentes en la Web. WCM no esta limitado solo al analisis del texto de las pagi-
nas Web, sino que tambien incluye otros tipos de documentos, como imagenes y
videos [66], sin embargo, el analisis sobre este tipo de datos, denominado Multi-
media Data Mining, no recibe tanta atencion como el analisis de texto [23].
Antes de estudiar el contenido textual de una pagina Web, esta se debe pre-
procesar de modo que un computador pueda realizar operaciones sobre el texto.
Para esto se transforma cada pagina Web en un vector de caracterısticas, llamado
Vector Space Model [55].
25
Vector Space Model (VSM)
Es un modelo matricial que representa un conjunto de documentos y las palabras
que aparecen en cada uno de ellos. Una dificultad presente en la creacion de
este modelo es que varias palabras, que derivan de un mismo lema, presentan
el mismo contenido semantico. A modo de ejemplo, las palabras “estudiando”,
“estudia” y “estudio” no significan mas que “estudiar”. Este problema se soluciona
tranformando las palabras en su forma canonica, es decir, “estudiando”, “estudia”
y “estudio” son transformadas en “estudiar”.
Sea P la cantidad de palabras distintas, ya transformadas, presentes en al menos
uno de los Q documentos que se modelaran. Entonces una representacion vectorial
de los documentos esta dado por la matriz M de dimension P*Q.
M = (mij), i = 1...P, j = 1...Q (2.6)
En la ecuacion 2.6, mij es el peso de la palabra i en el documento j, dado un con-
junto de documentos. Este valor debe explicitar que hay palabras mas importantes
que otras. Para calcular mij, se necesita saber que tan importante es una palabra
en un documento, en este sentido, el numero de veces que aparece la palabra i
en el documento j resulta ser relevante, y al ser normalizado por la cantidad de
veces que aparece en el total de documentos se obtiene una relacion de la palabra
i para el conjunto completo de documentos.
El calculo de mij se realiza en dos pasos. El primero mide la frecuencia de la
palabra i en el documento j versus la frecuencia de la misma palabra en el total
de documentos, representado por la ecuacion 2.7, donde mij es el numero de veces
que aparece la palabra i en el documento j.
26
TFij =nij∑Qk=1 nik
(2.7)
El segundo paso busca medir la importancia de la palabra en todo el conjunto de
documentos. Esta nocion esta dada por el logaritmo de la division entre el total
de documentos y la cantidad de ellos en los que aparece la palabra i (ecuacion
2.8).
IDFij = log(Q
ni) (2.8)
Finalmente, mezclando 2.7 y 2.8 se obtiene mij.
mij = TFij ∗ IDFij (2.9)
Con esta representacion matricial, el conjunto de documentos esta listo para rea-
lizar Data Mining sobre su contenido.
2.3.2. Web Structure Mining (WSM)
Esta sub-area de Web Mining estudia los enlaces presentes en las paginas Web.
Las paginas y enlaces se modelan como los nodos y los arcos de un grafo dirigido
respectivamente. El arco parte en el nodo que representa a la pagina que posee
el enlace y termina en el nodo que representa a la pagina que es apuntada. La
figura 2.4 representa los enlaces de tres paginas. La pagina A tiene dos enlaces, a
las paginas B y C, mientras que la B posee uno hacia la C.
Kleinberg [36] propuso una clasificacion de las paginas Web mediante este tipo
de analisis. Definio que una pagina es Authority si apunta a pocas paginas y
27
Figura 2.4: Grafo dirigido que representa enlaces entre paginas.
es apuntada por varias, lo que significarıa que su contenido es importante en la
Web. En contraste, una pagina es clasificada como Hub si posee varios enlaces a
otras paginas y es poco apuntada. Se asume que una pagina Hub posee un buen
contenido si apunta a paginas Authority y que una pagina Authority es apuntada
por varias Hub. En la figura 2.4, la pagina “A” es clasificada como Hub, mientras
que la “C” como Authority.
A modo de ejemplo, es posible establecer una analogıa entre las paginas Authority
y las publicaciones de investigacion (papers). Se considera que un paper que es
muy citado posee buen contenido. Ocurre analogamente con las paginas Authority.
Los buscadores, como Google o Yahoo!, ocupan WUM para realizar sus procesos
de busquedas mediante los algoritmos Page Rank [6] y HITS [36] respectivamente.
Ambos ordenan las paginas segun sus pesos relativos en la Web [66].
Page Rank extrae las paginas mas relevantes independientemente de la consulta
ingresada por el usuario. El supuesto mas importante de este algoritmo es que la
importancia de una pagina esta dada por la cantidad de enlaces hacia ella. Por
otro lado, HITS necesita como entrada la consulta del usuario para ordenar las
28
paginas.
Otro uso que se le da a WSM es la identificacion de comunidades [24]. Estas
tecnicas son muy usadas ya que facilitan las busquedas en la Web, bajo el concepto
de dividir para reinar. La idea es encontrar comunidades que esten relacionadas
entre sı por enlaces y contenidos y “separar” estas comunidades para realizar las
busquedas. Se realiza mediante el metodo Flujo maximo, corte mınimo [26].
2.3.3. Web Usage Mining (WUM)
Esta enfocado en la aplicacion de tecnicas de Data Mining para descubrir patrones
utiles que puedan predecir la conducta del usuario mientras interactua en la Web
[37, 62]. Para descubrir estos patrones son analizadas las sesiones de navegacion,
que son la secuencia de paginas que un usuario visita mientras navega en un sitio
web. Para encontrarlas, hay que lidiar con varios problemas [62]:
Una direccion IP - Varias sesiones: Los servidores proxy son programas que
realizan acciones en representacion de otros. Por esto, cuando un usuario mediante
un proxy realiza una peticion, se almacena la IP del proxy, y no la del usuario.
Potencialmente habra varios usuarios ocupando un proxy y al mismo tiempo, con
lo que todas las peticiones de estos usuarios seran guardadas solo con la IP del
proxy.
Varias direcciones IP - Una sesion: En la actualidad existen herramientas que
permiten asignar aleatoriamente una IP (dentro de un conjunto fijo de estas) a
cada peticion realizada por el usuario. Con esto, una sesion podrıa estar compuesta
por peticiones provenientes de diferentes direcciones IP.
Varias direcciones IP - Un usuario: Un usuario puede acceder a un sitio desde
29
computadores diferentes, con lo que se hace difıcil identificar al usuario.
Varios navegadores - Un usuario: Caso analogo al anterior, un usuario que usa
diferentes navegadores, incluso en el mismo computador, aparecera como varios
usuarios distintos.
Existen variadas estrategias para identificar las sesiones de navegacion de los
usuarios, las que fueron agrupadas por Spiliopoulou et al. [61] en dos categorıas,
“proactivas” y “reactivas”.
Las estrategias proactivas ocupan algun metodo de identificacion directa del usuario,
como cookies o registros username/password. Cada vez que un usuario realiza una
peticion a un servidor web, su identificacion es anexada y enviada al servidor. Con
este mecanismo, cada peticion es asignada confiablemente a quien la inicio, evi-
tando ası las dificultades descritas anteriormente, ya que no depende de una IP.
Luego, para identificar las sesiones, solo basta con encontrar todas las peticiones
realizadas con un mismo identificador.
En segundo lugar, las estrategias reactivas solo analizan el archivo weblog para
obtener las sesiones. Dicho archivo es particionado, por las distintas direcciones IP,
en un conjunto de “sesiones recontruidas”. Para soslayar (en parte) los problemas
mencionados anteriormente, es necesario aplicar una de las siguientes heurısticas
[23].
Heurıstica orientada a la navegacion: Esta heurıstica se basa en que los usuar-
ios navegan por la Web solo siguiendo links, es decir, no escriben directamente
una URL en el navegador, por lo que si llega una peticion que no es accesible
desde las paginas que previamente han sido visitadas por un usuario, entonces
debe asignarse a una nueva sesion.
En el caso de que el usuario haga uso de la utilidad “Retroceder una pagina” del
30
navegador (evento que no es guardado en el weblog, pues queda almacenado en el
cache del navegador) y visite una nueva pagina que no posee un link desde la ultima
pagina visitada, esta heurıstica reconstruye el “Retroceder una pagina” realizado
por el usuario. Esta situacion es extendida para reconstruir el movimiento del
usuario, eligiendo el camino mas corto que permita llegar desde la ultima pagina
visitada hacia la nueva, siguiendo los links presentes en el sitio [62, 16].
Heurıstica orientada al tiempo: Esta heurıstica instaura un lımite maximo
para la duracion de una sesion. Para calcular este lımite, Catledge y Pitkow [9]
midieron el tiempo promedio de inactividad en un sitio, resultando 9.3 minutos. A
este valor se sumo 1.5 veces la desviacion estandar, lo que resulto en 25.5 minutos.
Este valor fue aproximado a 30 minutos y en la actualidad es usado como el tiempo
maximo que puede durar una sesion [16, 60].
Luego de ordenar las peticiones de las diferentes direcciones IP por el tiempo en el
que llegaron, estas son particionadas en periodos de 30 minutos, para finalmente
asignar a cada particion una sesion. Cabe notar que para esta heurıstica, a difer-
encia de la anterior, no importa si una pagina esta unida a otra a traves de un
link, por lo que se asume que un usuario puede escribir directamente una URL en
el navegador [61].
Una vez reconstruidas las sesiones de navegacion de los usuarios (que no es mas
que un pre-procesamiento de los datos), se puede aplicar diferentes tecnicas de
Data Mining, como Metodos estadısticos, Clusterig y Reglas de asociacion.
Los metodos estadısticos sirven para conocer, por ejemplo, las paginas que son
mas visitadas, o las que nunca lo son. Las tecnicas de clustering permiten agrupar
sesiones de navegacion de los usuarios. Estos clusters pueden ser usados para per-
sonalizar un sitio web, en funcion del usuario que navega por este. Las reglas de
31
asociacion entregan como resultado patrones como “X % de los usuarios que visi-
taron la pagina P1, tambien visitaron la pagina P2” y si no existe un link directo
entre esas paginas, una recomendacion directa para el administrador del sitio serıa
incluir un link desde P1 hacia P2 [66]. Es importante recordar que todos los pa-
trones descubiertos deben ser analizados por un experto en el negocio, tıpicamente
el administrador del sitio web, para que valide la informacion adquirida.
Para continuar, se tratara un tema estudiado hace mas de 50 anos, pero que en
la actualidad y promovido por avance de la tecnologıa, ha llegado a ser amplia-
mente en otras areas de investigacion como usabilidad, marketing, asistencia para
minusvalidos, diseno, etc.
2.4. Eye Tracking
Eye Tracking es una tecnica mediante la cual los movimientos oculares de un indi-
viduo son medidos, por lo que un investigador puede conocer lo que una persona
esta mirando en cada momento y la secuencia en la que sus ojos se desplazan
de un lugar a otro. Seguir los movimientos oculares de la gente puede ayudar
a los investigadores de la Interaccion Humano-Computador a entender el proce-
samiento de la informacion visual y los factores que pueden tener repercusiones
en la usabilidad de la interfaz. De esta forma, las grabaciones de los movimientos
oculares pueden proporcionar una fuente de datos objetiva para la evaluacion de
interfaces, que a su vez pueden otorgar informacion para mejorar el diseno de las
mismas [51].
La presente seccion comienza con un basico resumen del ojo humano, pues es
necesario recordar su composicion para comprender las sub-secciones posteriores.
A continuacion se presentan un modelo de los movimientos que pueden realizar
32
Figura 2.5: Componentes del ojo humano
los ojos. Luego se describen diferentes teorıas de la atencion visual, campo donde
hasta el dıa de hoy no existe un consenso sobre su funcionamiento. Dada esta base
de conocimiento se presenta la hipotesis fundamental en la que se basa toda la
tecnologıa Eye Tracking, se describen las diferentes tecnicas dentro de este campo
y finalmente, se describen los datos que genera un Eye Tracker actual.
2.4.1. El ojo humano
El ojo es un organo que detecta la luz y que es capaz de transformar estos estımulos
en impulsos electricos, los que seran interpretados posteriormente en el cerebro.
En la figura 2.5 se puede apreciar un modelo del ojo humano, cuyos componentes
mas importantes para este trabajo, seran detallados brevemente a continuacion.
Cornea: Es una estructura transparente ubicada al frente del ojo, que permite el
paso de la luz y protege otras estructuras posteriores. Posee propiedades opticas
de refraccion significativas, que son usadas por diferentes Eye Trackers como una
caracterıstica localizable.
Macula (o fovea): Es una pequena depresion en la retina, donde los rayos lumi-
33
nosos son enfocados y que se encuentra especialmente capacitada para la vision
en alta resolucion, es decir, la macula esta en funcionamiento cuando observamos
algo con especial atencion o interes. [19].
Pupila: Es un orificio situado en la parte central del iris por el cual penetra la luz.
Cuando es iluminada, puede reflejar la iluminacion del globo ocular, caracterıstica
que, al igual que en el caso anterior, es medible por los Eye tracker [19].
Retina: Ubicada en la superficie posterior del ojo, la retina contiene receptores
sensibles a la luz, lo que constituyen la primera etapa de la percepcion visual [19].
2.4.2. Movimientos oculares
Cuando observamos una escena, cualquiera que esta sea, los ojos de una persona se
mueven entre puntos que capturan su atencion, y ası se logra recrear una imagen
cerebral de la escena [44].
Si bien existen modelos de los movimientos oculares complejos que constan de
cinco pasos [19], el modelo tıpico (y suficiente para los estudios de Eye Track-
ing) esta constituido por dos elementos: fixation (o fijacion), momento en el cual
los ojos permanecen fijos sobre un objeto y es posible apreciarlo en detalle; y
saccades (o movimientos sacadicos), que corresponden a los rapidos movimientos
oculares entre dos fixations [44]. Es importante notar que mientras se produce
un movimiento sacadico permanecemos ciegos (no somos concientes de lo que
esta entre los dos objetos que capturaron nuestra atencion). Sin embargo, nuestro
cerebro es capaz de interpretar esta “secuencia de imagenes” como un continuo, y
por ende, nuestra apreciacion parece mas un video que una secuencia de imagenes.
34
2.4.3. Atencion visual
La atencion visual es un fenomeno que ha sido estudiado por cerca de cien anos y
que todavıa no se logra comprender. Los primeros estudios estaban limitados por
la tecnologıa, y correspondıan solo a observacion e introspeccion. En la actualidad,
este campo es estudiado por distintas disciplinas como psicofısica, neurociencia
cognitiva y ciencias de la computacion, por nombrar solo algunas [19].
Lo magnıfico del sistema de vision humano es que creemos tener una imagen clara
de todo nuestro entorno, cuando por lo general no es ası. Cuando prestamos aten-
cion a un objeto en particular, nuestra mirada es dirigida directamente hacia este
y se produce un enfoque nıtido. Entonces el cerebro junta estos trozos de imagenes
y forma una imagen mental del entorno, que es mucho mejor que cualquier cosa
enfocada separadamente [44].
En terminos generales, la vision humana tiene dos partes: una pequena zona cen-
tral con una resolucion muy alta, llama vision foveal, y la gran mayorıa del campo
visual con una baja resolucion, llamado la vision periferica.
Usualmente el hecho de prestar atencion a regiones de interes esta relacionado con
realizar movimientos oculares (overt attention). Sin embargo, tambien podemos
colocar atencion en objetos perifericos sin realizar este tipo de movimientos (covert
attention) [25].
Por otro lado, se conocen dos formas en las que la atencion es guiada: bottom-
up y top-down. La primera derivada solo de la escena visual, establece que las
regiones de interes atraen nuestra atencion lo suficientemente fuertes como para
que no observemos el resto de la escena (vision foveal). Por otro lado, top-down
es conducida por otros factores cognitivos, como el conocimiento, la expectacion
y las metas actuales. Bajo este modelo, las personas son mas propicias a ver a su
35
alrededor (vision periferica); a modo de ejemplo, un individuo que conduce con
regularidad, mas propenso a notar las estaciones de combustible mientras realiza
otra actividad que alguien que no lo conduce [25].
En la actualidad, aun no esta claro que es lo que realmente captura nuestra aten-
cion, ni como respondemos a diferentes estımulos. Existe evidencia de que presta-
mos atencion a ubicaciones espaciales, caracterısticas y objetos. La mayorıa de los
investigadores creen que estas teorıas no son excluyentes entre sı y que, ademas,
la atencion visual puede ser desarrollada en cada una de estas subareas. Vale la
pena mencionar que los humanos podemos prestar atencion simultaneamente a
multiples regiones de interes (maximo cinco) [25].
Los primeras representaciones de los movimientos oculares llevaron a pensar que
el reconocimiento de un estımulo no es una operacion de un solo paso, sino mas
bien es un proceso paralelo, al menos parcialmente realizado en serie; debido a
la tendencia de agrupar objetos. En la figura 2.6 se puede apreciar la llamada
ilusion de Kanizsa [35], donde se muestra este efecto. Muchas personas, luego de
ver esta imagen, diran que vieron un triangulo, el que solo es interpretado en
nuestro cerebro [44].
2.4.4. La hipotesis mente-ojo
Considerando las teorıas descritas en la seccion anterior, Duchowski [19] planteo el
siguiente modelo:
1. Dado un estımulo, como una imagen, la escena es vista en su mayor parte en
paralelo, a traves de la vision periferica y, por lo tanto, en baja resolucion. En
esta etapa, las caracterısticas interesantes de la imagen pueden “aparecer”.
36
Figura 2.6: La ilusion de Kanizsa.
2. En estos momentos la atencion esta desconectado de la vista foveal (alta
resolucion), pero los ojos son rapidamente posicionados en la primera region
que ha atraıdo.
3. Una vez los ojos son posicionados, la fovea se alınea hacia la region de interes
y la atencion esta ligada con la percepcion, es decir, la atencion del usuario
ha sido capturada y, por ende, se logra observar en alta resolucion.
Nielsen y Pernice [44] propusieron un modelo mas simple, pero que en esencia es
el mismo. Su hipotesis establece que “Las personas estan usualmente pensando
en lo que estan mirando. Aunque no siempre entienden lo que ven o no estan
totalmente enfocados en esto; si estan observando algo, entonces estan colocando
atencion, especialmente cuando estan concentrados en una tarea en particular”.
37
2.4.5. Tecnicas Eye Tracking
En la presente seccion se describiran las diferentes tecnicas existentes para rea-
lizar el “seguimiento de los ojos”. Estas tecnicas pueden ser clasificadas en dos
categorıas: las que miden la posicion del ojo con respecto a la cabeza y las que
miden la orientacion de los ojos en el espacio, lo que es denominado el “punto de
atencion” (lo que una persona esta mirando) [19].
Electro oculografıa
En la decada de 1950, la electrooculografıa fue la tecnica mas usada de Eye Track-
ing. Se basaba en la medicion de la diferencia de potencial electrico de la piel
mediante el uso de electrodos ubicados al rededor de los ojos. Esto es posible ya
que la cornea se mantiene unas decimas de mV mas positiva que la retina con lo
que se produce la diferencia de potencial que es medida y que varıa de acuerdo al
movimiento de los ojos. [41, 57].
Esta tecnica mide la posicion relativa de los ojos con respecto a cabeza, por lo
que no es adecuada para calcular el punto de atencion, a menos que se mida
simultaneamente la posicion de la cabeza [19].
Lentes de contacto esclerales
Esta tecnica consiste en adjuntar una referencia mecanica u optica a un lente de
contacto que sera usado directamente sobre los ojos. Es necesario que el lente de
contacto sea particularmente grande, de modo que se extienda sobre la cornea y
la esclerotica, pues ası se reduce la posiblidad de que se desplace sobre el ojo [19].
Se han usado distintos tipos de referencias sobre los lentes de contacto siendo la
38
mas comun una pequena bobina, que puede ser ubicada desde el exterior al aplicar
un campo electromagnetico [17, 53].
Si bien es una de las tecnicas mas precisas para medir los movimientos oculares,
es tambien la mas invasiva y causa malestar al usarlo. Por otro lado, solo mide la
posicion relativa del ojo a la cabeza, y generalmente no es adecuada para identificar
el punto de atencion [19].
Foto/Vıdeo oculografıa
Esta categorıa agrupa una amplia variedad de herramientas que capturan los
movimientos oculares. Esencialmente, mide distintas caracterısticas de los ojos,
como por ejemplo, la pupila, el lımite entre la esclerotica y el iris o el reflejo de
la cornea cuando es iluminada. Aunque difieren en su enfoque, estas tecnicas se
agrupan porque a menudo no encuentran el punto de atencion [19]. Sin embargo,
es posible localizarlo mediante estimaciones y regresiones polinomiales [10, 39].
Estas tecnicas son de las mas atractivas debido a su versatilidad y simplicidad
[10]. Normalmente, consisten en una serie de fotos y/o videos que guardan los
movimientos oculares y que posteriormente son analizadas de forma manual o
automatica. Varios de estos metodos requieren que la cabeza este fija, por ejemplo,
mediante una mentonera.
Reflejo de la cornea y Centro de la pupila basado en video
Es la tecnica Eye Tracking mas usada en la actualidad. Consisten en un com-
putador estandar de escritorio con una camara infrarroja montada debajo de un
monitor, con el software de procesamiento de imagenes para localizar e identificar
el Reflejo de la Cornea y el Centro de la Pupila. Con estas caracterısticas, es posi-
39
Figura 2.7: Reflejo de la cornea y brillo de la pupila.
ble disociar los movimientos oculares de la cabeza, con lo que es posible calcular
el punto de atencion de los usuarios [51].
En funcionamiento, una luz infrarroja de un LED es dirigida hacia el usuario para
crear reflejos notorios de las caracterısticas de los ojos y con esto conseguir que
sean mas faciles de rastrear (se ocupa luz infrarroja para evitar deslumbrar al
usuario). La luz entra en la retina y una gran parte de ella se refleja, por lo que
la pupila aparece como un disco brillante y bien definido (efecto conocido como
pupila brillosa). El reflejo de la cornea tambien es generado por la luz infrarroja,
apareciendo como un pequeno, pero fuerte brillo [51]. En la figura 2.7 se puede
apreciar el efecto pupila brillosa y el reflejo de la cornea. Una vez que el software
de procesamiento de imagenes ha identificado el centro de la pupila y la ubicacion
del reflejo de la cornea, el vector que resulta de ellos se mide, y con algunos calculos
trigonometricos, el punto de atencion puede ser encontrado.
Este tipo de Eye Tracker necesita ser ajustado a las caracterısticas de cada per-
sona. El proceso de calibracion funciona mostrando un punto en el monitor y si
el usuario observa este punto con un determinado margen de error y durante un
tiempo mayor a cierto umbral, el sistema registra la relacion centro de la pupila,
40
reflejo de la cornea como un punto (x,y) especıfico. Este proceso es repetido con
otros puntos en el monitor para obtener mayor precision en todo el monitor [51].
2.4.6. Datos generados por un Eye Tracker
Mediante la ultima tecnica descrita, los Eye Trackers modernos son capaces de
capturar varios tipos de datos, entre estos [63]:
Timestamp: Fecha y hora en milisegundos de cuando se recogieron los datos.
GazePointXLeft: Posicion horizontal en el monitor que observa el ojo izquierdo.
GazePointYLeft: Posicion vertical en el monitor que observa el ojo izquierdo.
CamXLeft: Ubicacion horizontal de la pupila izquierda en la imagen de la camara.
CamYLeft: Ubicacion vertical de la pupila izquierda en la imagen de la camara.
DistanceLeft: Distancia en mm. desde el Eye Tracker hasta el ojo izquierdo.
PupilLeft: Diametro de la pupila del ojo izquierdo dada en mm.
GazePointXRight: Posicion horizontal en el monitor que observa el ojo derecho.
GazePointYRight: Posicion vertical en el monitor que observa el ojo derecho.
CamXRight: Ubicacion horizontal de la pupila derecha en la imagen de la
camara.
CamYRight: Ubicacion vertical de la pupila derecha en la imagen de la camara.
DistanceRight: Distancia en mm. desde el Eye Tracker hasta el ojo derecho.
PupilRight: Diametro de la pupila del ojo derecho dada en mm.
Las mediciones de el tamano de las pupilas y la distancia a los ojos pueden va-
riar de forma importante entre los individuos dependiendo del uso de lentes. Sin
embargo, las variaciones en estas medidas son certeras.
Para los datos que corresponden a la ubicacion de un punto el monitor, este se
41
considera como el primer cuadrante de un mapa carteciano cuyo origen es la
esquina inferior izquerda.
Ademas de estos datos, son generados paralelamente codigos de validacion con
los que se puede determinar si una muestra es valida o corresponde a un error.
Estos codigos de validacion son generados independientemente para cada ojo,
por lo que es posible, por ejemplo, que se haya medido correctamente el punto
donde esta enfocado el ojo izquierdo, mientras que el derecho no se haya podido
determinar.
2.4.7. Aplicaciones
Las aplicaciones de estas tecnicas son tan variadas como los campos en los cuales
se ocupa. A continuacion, se presenta una seleccion de investigaciones que han
sido desarrolladas mediante el seguimiento de los ojos:
Administrador de Energıa para PC
Moshnyaga [40] implemento un administrador de energıa para PCs que mantiene
activo un monitor solo si hay alguna persona observandolo, en caso contrario,
atenua su consumo energetico o lo apaga. Esto es analogo a lo que ocurre en la
actualidad, pero ocupando como entrada eventos de un teclado o mouse.
Analisis de la conducta de los usuarios en una busqueda Web
Granka et. al [30] investigaron como los usuarios interactuan con los resultados
de una busqueda en la Web, y como ellos eligen los links para seguir navegando.
Concluyeron que los dos primeros links son los mas observados en una pagina de
42
resultados de una busqueda Web, independiente del buscador empleado, lo que
concuerda con el hecho de que los tres primeros enlaces son los que reciben la
mayorıa de las visitas en el mismo contexto.
Buscando patrones en las paginas Web
Granka et. al [29] estudiaron como el tamano de los elementos y la densidad
de la informacion en una pagina Web influıan en su capacidad para atraer y
capturar la atencion de los usuarios. Ellos concluyeron que el tamano y la densidad
de informacion no contribuyen significativamente cuando el usuario comienza a
prestar atencion a algun elemento. Ademas descubrieron que los usuarios generan
la capacidad de ignorar las zonas donde se encuentra publicidad en las paginas
Web.
Buenas practicas para estudios Eye Tracking
Ali-Hasan et. al [1] establecieron un conjunto de buenas practicas para los estu-
dios de Eye Tracking en television y video que incluye como realizar preguntas
adecuadas, moderar la duracion de las entrevistas y analizar los datos generados.
Usabilidad
Variada es la literatura sobre la aplicacion de la tecnologıa Eye Tracking en estu-
dios de usabilidad. Duchowski desarrollo toda una metodologıa para aplicar esta
nueva herramienta [19], mientras que Nielsen y Pernice la aplicaron expecialmente
en usabilidad Web [44]. En esta area Burget et al. desarrollaron una metodologıa
que permite encontrar las areas de mayor interes de los usuarios de una pagina
Web en pos de determinar su significado [7], mientras que Pan et al. estudiaron
43
las caracterısticas sobre como las personas miran las paginas Web. Dado que es-
tas incorporan diversos formatos, estipularon que la forma en que una persona
observa una pagina es distinta a como contempla otro tipo de entornos [47].
En el estudio de la interaccion humano computador, esta tecnologıa tambien ha
sido aplicada. Pool y Ball establecieron que tan aplicada era esta tecnologıa en
esta area de estudio [51]. Ademas, Rudmann et al. incorporaron a la investigacion
los procesos congnitivos que tienen los humanos mientras interactuan con un PC
[54]. Por otro lado, Tsianos et al. limitaron los procesos cognitivos estudiados a
solo los relacionados con el aprendizaje en un ambiente de educacion a distancia
[64].
A continuacion, se nombran otros estudios donde se aplico Eye Tracking : Buscher
et al. quienes buscaron las regiones de un monitor que son mas preferidas por
los usuarios para leer, independientemente del contenido [8] Redline et al. pro-
pusieron usar esta tecnologıa para medir el diseno de instrumentos administrados
visualmente [52] y Pietinen et al. desarrollaron una metodologıa para estudiar
como interactuan dos programadores que trabajan colaborativamente frente a un
computador [49].
Para finalizar este Capıtulo, en la siguiente seccion se detallara el trabajo realizado
por Dujovne y Velasquez [20] en el que esta basada esta memoria, la que busca
mejorar su implementacion y precision.
2.5. Website Keyobject
En la presente seccion se describira a fondo los Website Keyobjects. Se comen-
zara con su definicion, luego se explicitara su implementacion, se establecera una
44
medida de comparacion de objetos y finalmente se detallara una metodologıa para
encontrarlos.
2.5.1. Definicion
Dujovne y Velasquez definieron un Web Object como “un grupo estructurado de
palabras o contenido multimedia, que esta presente en una pagina Web y que posee
meta datos que describen su contenido” [65]. En la definicion anterior los meta
datos son fundamentales ya que son la base de la informacion para construir el vec-
tor que representara el contenido de la pagina. Ademas, dos archivos multimedia
pueden ser comparados mediante sus metadatos, problema que es considerable-
mente mas abordable que el comparar directamente los archivos, ya que solo se
compara texto.
Ademas definieron los Web Site Key Object como “uno o un grupo de Web Object
que atraen la atencion del usuario y que caracterizan el contenido de una pagina
o sitio web” [65]. Estos proveen conocimiento acerca del contenido y formato que
mas interesan a los usuarios de un sitio web, por lo que encontrarlos puede ser
util para mejorar el sitio tanto en presentacion como en contenido.
2.5.2. Implementacion
Considerando la primera definicion, para que una pagina Web este compuesta por
Web Object, es necesario que sus objetos posean los meta datos, cosa que por
lo general no ocurre. Existe una gran variedad de formas para agregarlos a las
paginas Web, dependiendo de la ontologıa que se quiera ocupar.
En [65] se asocio a cada objeto un documento XML que contiene los meta datos
45
que describen su contenido y la pagina a la que este pertenece. Ademas, en la
pagina Web tambien se establece la relacion entre el objeto y el documento XML.
Para esto se usan tags de HTML. El siguiente es el formato con el que se guardaron
los meta datos:
identificador de la pagina
objeto:
• identificador.
• formato.
• concepto(s).
Cada objeto debe poseer al menos un concepto asociado pues en caso contrario, el
objeto no tiene significado alguno. Cada concepto es un grupo de tres sustantivos
pues, en el lenguaje espanol, permiten una completa mas no suficiente definicion de
cualquier concepto [56]. Ademas cada concepto debe pertenecer a una categorıa
que los agrupe. Al usar estas categorıas los conceptos podran relacionarse con
otros.
La figura 2.8 muestra un mapa conceptual que describe tanto la definicion como
la implementacion de los Web Objects.
2.5.3. Comparacion entre objetos
Para comparar dos Web Objects, Dujovne y Velasquez [65] usaron la idea que los
objetos son un cumulo de conceptos. El siguiente procedimiento muestra como
lograron establecer una medida de similitud entre objetos.
46
Figura 2.8: Mapa conceptual: Descripcion de los Web Objects.
Considere los objetos O1 y O2 tal que |O1| = N , |O2| = M , N >= 0, M >= 0 y
N <= M . Ademas sea Ci(O) el i-esimo concepto del objeto O.
Enlazar conceptos
El siguiente algoritmo permite enlazar los conceptos de O1 y O2.
∀ Ci(O1), i = 1..N
• ∀ Cj(O2), j = 1..M
◦ Comparar Ci(O1) con Cj(O2) (Comparacion de conceptos).
◦ Guardar el resultado de la comparacion en un contador.
• Guardar un enlace entre Ci(O1) y Cj(O2) con el contador mas grande
(Conceptos mas parecidos).
Para contrastar conceptos, se comparan las palabras que los componen. Si una
palabra del primer concepto esta en el segundo, se suma 1 al contador; si posee
un sinonimos, se suma 0,5.
47
Ordenar conceptos
Una vez almacenados todos los enlaces entre los conceptos correspondientes a O1 y
O2, son ordenados de modo que queden en la misma posicion relativa en funcion de
los enlaces recientemente creados, es decir, que el primer concepto de O1 termine
enlazado con el primer concepto de O2. El siguiente algoritmo ejemplifica esto:
∀ Ci(O1), i = 1..N
• Buscar el Cj(O2) que esta pareado con Ci(O1)
• Intercambiar Cj(O2) con Ci(O2)
Transformar conceptos en un string
Como se menciono anteriormente, cada concepto debe pertenecer a una categorıa.
Cada categorıa, la que es representada por un caracter. Luego, al reemplazar cada
concepto por el caracter que representa a su categorıa, el cumulo de conceptos
queda transformado en un string.
Aplicar la distancia de Levenshtein
Levenshtein [38] ideo una norma que mide la distancia entre dos strings, la que
tambien es conocida como la distancia de edicion y es ampliamente usada en la
actualidad por distintos correctores ortograficos. Consiste en contar el numero
de cambios, a nivel de caracteres, que deben hacerse sobre un string para ser
transformado en el de comparacion. Estos cambios pueden ser: eliminar, agregar
o cambiar un caracter por otro en cualquier lugar de la palabra.
Entonces, como O1 y O2 fueron transformados en strings, son comparados me-
48
diante la distancia de Levenshtein, con lo que se tiene un indicador de que tan
parecidos son dos objetos. Mientras menor sea la distancia, mas parecidos seran
los objetos.
Finalmente la ecuacion 2.10 define una norma que permite comparar objetos,
donde L(O1, O2) es la distancia de Levenshtein de los strings que representan a
los objetos y |O| es el numero de conceptos del objeto O.
do(O1, O2) = 1− L(O1, O2)
max(|O1| , |O2|)(2.10)
2.5.4. Metodologıa para encontrar Website Keyobject
La metodologıa que idearon Dujovne y Velasquez consta de dos grandes procesos:
Transformacion de datos y aplicacion de algoritmos de clustering.
Transformacion de datos
Esta es una etapa tıpica del proceso KDD (Ver seccion 2.2). Dado que en este
problema particular las fuentes de datos son varias es necesario realizar una diversa
limpieza y transformacion de datos.
Sesionizacion: Detallada con anterioridad (subseccion 3.3.2), el objetivo de esta
etapa es finalizar con la secuencia de paginas que visitaron los diferentes usuarios
de un sitio. Ademas, esta secuencia debe tener asociados los tiempos de perma-
nencia de los usuarios en cada pagina.
Incorporacion de Metadatos: El primer paso de esta etapa es identificar los
objetos que componen las paginas del sitio. Una vez identificados, se deben definir
los conceptos que describen a cada uno de los objetos. Luego, esta informacion
debe ser almacenada en un base de datos. El levantamiento de estos datos debe ser
49
en conjunto con el webmaster, para asegurar que los conceptos reflejen fielmente
el contenido de los objetos.
Tiempos de permanencia en objetos: Luego de definir los objetos, Velasquez
y Dujovne propusieron realizar una encuesta a un grupo de usuarios de control de
modo que cada persona entrevistada distribuya un total de 10 puntos de interes
entre todos los objetos de una pagina. Con estos datos, se estimo el porcentaje de
permanencia de cada usuario en los objetos de cada pagina.
Posteriormente, en la lista de sesiones se reemplazo cada registro de pagina vi-
sitada por los objetos que componen dicha pagina, intercambiando el tiempo de
permanencia de la pagina por el tiempo ponderado de permanencia en cada objeto.
Vector de comportamiento del usuario: Finalmente, para cada sesion identi-
ficada se seleccionaron los n objetos que capturaron mas la atencion del usuario,
definiendo ası el Important Object Vector (IOV) segun la ecuacion 2.11
v = [(o1, t1)...(on, tn)] (2.11)
Algoritmos de Clustering
Una vez realizada toda la limpieza y transformacion de datos, se procede a proce-
sar algoritmos de clustering sobre las sesiones de los usuarios, representadas medi-
ante el Important Object Vector. Para poder ejecutar estos algoritmos, es de crucial
importancia definir una medida de distancia, o similitud, entre estos vectores.
Medidas de similitud para sesiones: Dujovne y Velasquez [65] definieron la
similitud entre dos IOV mediante la ecuacion 2.12.
50
st(α, β) =1
i∗ (
i∑k=1
min(ταkτβk,τβkταk
) ∗ do(oαk , oβk)) (2.12)
En la ecuacion 2.12, α y β corresponden al identificador de las sesiones de usuarios
a ser comparadas, ταk corresponde al tiempo de permanencia del usuario α en el
objeto ok y do(oαk , oβk) es la similitud entre los respectivos objetos, definida en la
ecuacion 2.10. La ecuacion 2.12 esta definida entre los valores 0 y 1, siendo 0
cuando los IOV no se parecen en nada y 1 cuando son identicos.
Esta medida de similitud fue ocupada como parametro de entrada para los algorit-
mos de clustering. Dujovne y Velasquez implementaron tres de estos algoritmos,
principalmente para comparar los resultados que entregaron estas tecnicas. Los
algoritmos de clustering ocupados fueron: Self Organizing Feature Maps, K-means
y Association Rules.
51
CAPITULO
3
DISENO DEL EXPERIMENTO
Para seguir la naturaleza investigativa de este trabajo de tıtulo, es necesario rea-
lizar un experimento que compruebe la hipotesis planteada en 1.3. Este experi-
mento, bosquejado en 1.6, sera desmenuzado con gran detalle en este capıtulo.
3.1. El entorno
En esta seccion se describira el ambiente sobre el cual se llevara a cabo el expe-
rimento. La idea principal es preparar el medio para que los resultados obtenidos
sean limpios, es decir, no incorporen sesgo ni otras variables ajenas al estudio o
que su influencia sea mınima. Se comienza por describir las caracterısticas que
debe tener el sitio sobre el cual se desarrollara el experimento, luego el grupo de
control sobre el cual se trabajara y, para terminar, se listaran las caracterısticas
mınimas que debe poseer el Eye Tracker a ocupar.
3.1.1. El sitio
Necesita satisfacer tres requerimientos: Debe tener un numero de paginas adecua-
do, la cantidad de objetos por paginas no puede ser excesivo y debe poseer una
52
gran cantidad de visitas almacenadas (sesiones).
La variedad de sitios en Internet es abrumadora. Se pueden encontrar sitios de
solo una pagina, como sitios con un numero de paginas del orden de millones. Para
este trabajo, de ser reducido el numero de paginas (10-20) no sera posible apreciar
todo el potencial del experimento. En caso contrario, si el sitio esta constituido
por muchas paginas (200 o mas), se estarıa agregando una dificultad adicional
innecesaria. Por estas razones se espera que el sitio sobre el cual se desarrollara este
estudio este constituido por unas 100 paginas distintas.
Con respecto al numero de objetos por pagina, si una de estas se encuentra con-
stituido por un objeto, entonces no es necesario testear esta pagina, ya que el
tiempo de permanencia en el objeto es equivalente al tiempo de permanencia en
la pagina. Si el numero de objetos por pagina es excesivo, antes de agregar dificul-
tad al experimento, se recomendara al administrador del sitio seguir consejos de
usabilidad basicos para el re-diseno del sitio. Se espera que el promedio de objetos
por pagina no sea superior a 20.
Por otro lado, uno de los supuestos esenciales para poder realizar Data Mining,
es tener grandes cantidades de datos. Por eso, la factibilidad de acceso a los datos
guardados en el weblog es crıtica.
Adicionalmente, otra caracterıstica deseable del sitio es que se puedan realizar
cambios sobre este. Si bien es factible realizar el experimento sobre uno que no es
modificable, serıa un desperdicio no implementar las mejoras descubiertas durante
el desarrollo del experimento.
53
3.1.2. El grupo de control
Este es un punto sumamente relevante para el desarrollo del experimento, pues de
no elegir una muestra suficientemente representativa de los usuarios que visiten el
sitio, se podrıa llegar a resultados que no correspondan a la realidad.
De contar con abundantes recursos (tiempo, dinero, personas), se recomienda al-
tamente estudiar al menos a 39 personas distintas, pues en este caso, el Teorema
del Lımite Central nos dice que la media y la varianza de la muestra seran si-
milares a las de la poblacion, donde aplicado a este caso, las variables aleatorias
corresponden al tiempo de permanencia de los usuarios en los objetos web.
En caso contrario se necesita asegurar que la muestra elegida sea representativa
del universo. Para lograr esto, se usara el conocimiento experto del encargado del
sitio, quien proveera pautas sobre el publico objetivo del portal. Sin embargo, se
consideraran usuarios que no sean parte del publico objetivo del sitio, pues dada
la naturaleza aleatoria de la navegacion, es posible que personas totalmente ajenas
al sitio accedan a este. Ademas, se seleccionaran usuarios web de distintos niveles
de expertise: amateurs, seniors y expertos. Con respecto al sexo, la edad, nivel de
educacion, etc. se seguiran las pautas otorgadas por el administrador del sitio.
3.1.3. El Eye Tracker
En la actualidad, y con el avance de la tecnologıa en este campo, la mayorıa de
los Eye Tracker comerciales son precisos, pero su costo es elevado. Por lo que el
elegido para realizar el experimento debe estar dentro del alcance economico del
proyecto y su precision debe permitir identificar los objetos que mira un usuario.
54
3.2. Captura de datos
En esta seccion se describe como se obendran los distintos datos para realizar el
experimento. Estos datos, al ser de orıgenes diversos, necesitan ser tratados de
forma distinta cada uno.
3.2.1. Paginas
Una vez elegido el sitio, sera desmenuzado en todas sus componentes. Para reali-
zar esto se empleara un crawler que recuperara desde la Web todas las paginas
disponibles que conforman el sitio y tambien los enlaces entre estas.
Ademas, las paginas recuperadas por el crawler seran almacenadas como imagenes
con formato png para posteriormente realizar el cruce entre estas y los datos que
entregara el eye tracker (coordenada del pixel dentro de la pagina).
Objetos
Como primer paso, la demarcacion de los objetos debe ser, idealmente, realizada
con el administrador del sitio. En caso de no ser posible trabajar en conjunto
con el, sera necesario que valide esta separacion. Para describir el contenido de
cada objeto se procedera segun definieron Dujovne y Velasquez [65] por lo que se
guardara su formato y una lista de conceptos descriptores del objeto.
3.2.2. Weblog
El archivo weblog (ver 2.1.3) sera recuperado con el administrador de sistemas
de la maquina donde esta alojado el sitio. Este archivo puede estar en distintas
55
carpetas, dependiendo del servidor web instalado y de la configuracion del mismo.
3.2.3. Interes de los usuarios
Para capturar el interes de los usuarios en los diferentes objetos de las paginas, se
procedera de dos maneras: uso de un Eye Tracker y aplicacion de una encuesta.
Eye Tracker
Con el objetivo de determinar cuantitativamente los tiempos de permanencia en
los Web Objects, se empleara un Eye Tracker comercial que entregara los datos
correspondientes a los movimientos oculares de los usuarios. La captura de estos
datos se realizara de dos formas: mediante la asignacion de tareas a los usuarios
de control y la presentacion de las paginas del sitio como estımulos.
Asignacion de tareas: En estudios de usabilidad de sitios web, lo habitual es
asignar tareas a usuarios de control y, mientras ellos la realizan, almacenar sus
movimientos oculares. Estas tareas deben reflejar lo que el usuario tıpico puede
hacer en el sitio. Ejemplo de esto es que a un usuario de control se le asigne la
tarea de solicitar un credito de consumo en el sitio de algun banco.
Para poder asignar estas tareas se necesita un acabado conocimiento de los proce-
sos de negocio que se realizan en el sitio estudiado. Si no se posee esta competencia,
es muy probable que el estudio no llegue a buen resultado, pues los movimientos
oculares de los usuarios de control son sesgados hacia la tarea solicitada. Por esto,
las tareas elegidas deben ser validadas por quien tiene a cargo el sitio estudiado,
pues es quien tiene el conocimiento experto sobre el negocio del portal.
Paginas como estımulos: Dado que no se usara la tecnologıa Eye Tracking
56
para un estudio de usabilidad, sino que solo se espera cuantificar el tiempo de
permanencia de los usuarios en los Web Objects, se propone una forma distinta
para capturar los datos. En vez de asignar tareas a los usuarios, se les presentaran
las paginas que componen el sitio como estımulos, es decir, se les ensenaran se-
cuencialmente todas las paginas. En este proceso, el usuario podra avanzar a la
pagina siguiente cuando considere que no hay nada mas que llame su atencion.
Ademas cada pagina podra ser vista por un tiempo maximo determinado. Este
tiempo se calculara a partir de los tiempos de permanencia de los usuarios de la
pagina almacenados en el weblog.
A pesar de que el Eye Tracker necesita ser calibrado para cada usuario testeado, a
la mitad del grupo de control se le ocultara el funcionamiento de esta herramien-
ta, para determinar si hay diferencias significativas entre los usuarios que saben
que se almacenaran sus movimientos oculares y los que no. Algunos de los datos
generados por un Eye Tracker son detallados en la subseccion 2.4.6
Encuesta
Luego de realizar la medicion con el Eye Tracker, se procedera a realizar la misma
encuesta que aplicaron Velasquez y Dujovne [65] a los participantes de su experi-
mento. Con esto se obtendran los tiempos permanencia que estimaron Velasquez
y Dujovne para implementar la metodologıa. Ademas, al comparar los datos ge-
nerados por la encuesta y por el Eye Tracker, se podra contrastar lo que dicen
que vieron los usuarios, con lo que realmente vieron.
57
3.3. Transformacion de datos
Para continuar con la guıa dada por el proceso KDD (ver 2.2), luego de capturar
los datos, seran transformados con el fin de que los datos sean procesables por
los algoritmos de Data Mining. Analogamente a la captura, la transformacion de
datos sera realizada independientemente para cada una de las fuentes de datos.
3.3.1. Paginas
Las paginas no seran transformadas. Solo se almacenara su url, imagen en formato
png y tamano en pixeles.
Objetos
Mas que transformar los datos de los Objetos Web, estos deben ser caracterizados
mejor. Se almacenara su formato, una descripcion sencilla y su tamano en pixeles.
Ademas, en otra tabla relacional se guardaran las listas de conceptos que describen
los objetos y la categorıa a la que pertenencen. Junto con esto se creara la relacion
que parea los objetos con sus conceptos.
Por otro lado, para conocer los objetos que aparecen en las paginas, se creara una
relacion que mapea los objetos en las paginas. Esta relacion guardara ademas
la coordenada superior derecha del objeto en la pagina. Con esta informacion,
dada la coordenada de un pixel en la imagen de la pagina, se podra determinar a
que objeto pertenece dicho pixel. Esto sera de vital importancia al mapear lo que
miran los usuarios mientras navegan.
Ademas, una vez cargados los datos de los objetos y los conceptos, se proced-
era a calcular la distancia conceptual entre objetos, segun la ecuacion 2.10. Estas
58
Figura 3.1: Modelo de paginas, objetos y conceptos.
distancias seran guardadas en una tabla relacional, de modo que al ejecutar los
algoritmos de Data Mining, no sea necesario volver a calcular la separacion entre
objetos.
La figura 3.1 muestra el modelo relacional que soporta lo dicho anteriormente
sobre paginas, objetos y conceptos.
3.3.2. Weblog
Una vez recuperado el archivo weblog (ver 2.1.3) sera pre-procesado y almacenado
en una tabla relacional que permita manipular los datos que guarda. Posterior-
mente se llevara a cabo la sesionizacion, proceso descrito en la subseccion , cuyos
resultados seran almacenados en otra tabla. Estos resultados daran a conocer la
secuencia de paginas visitadas por los usuarios y la duracion de su estancia en
cada pagina. La figura 3.2 ilustra el modelo que almacenara los datos del weblog
y los tiempos empleados por los usuarios en las paginas.
59
Figura 3.2: Modelo weblog y tiempo usado en las paginas.
3.3.3. Interes de los usuarios
A continuacion se detallara el procedimiento para transformar los datos que miden
el interes de los usuarios en los objetos web.
Eye Tracker
Los datos que entrega el Eye Tracker se reduciran y agruparan de modo que
se pueda calcular cuanto tiempo gastan los usuarios observando cada objeto. La
idea principal es dado los tamanos de paginas y objetos en pixeles y la ubicacion
de estos ultimos, mapear las coordenadas que entrega el Eye Tracker, tambien
en pixeles, sobre los objetos de una pagina que observo un usuario en cierto
instante. Una vez mapeado al objeto correspondiente, se almacenara el tiempo que
gasto cada usuario en cada objeto del sitio. Luego, este valor se transformara en un
porcentaje de permanencia del usuario en los objetos para finalmente promediar
60
los tiempos de permanencia de todos los usuarios en los objetos.
Ademas de estos datos se almacenara la forma en que fueron capturados los datos,
mediante la presentacion de las paginas como estımulos o mediante la asignacion
de tareas. Ası mismo, se guardara si el usuario conocıa o no el funcionamiento del
Eye Tracker. Con estos datos, posteriormente se establecera cual es la mejor forma
de capturar los movimientos oculares para esta metodologıa y si es influyente en el
estudio que las personas entrevistadas conozcan que se guardaran sus movimientos
oculares.
Encuesta
Los datos que entregara la aplicacion de la encuesta corresponden a la asignacion
de puntos de interes que los usuarios otorgan a los objetos presentes en las paginas.
Para cada pagina, los usuarios dispondran de 10 puntos de interes, que seran
repartidos a libre criterio entre los objetos que mas llamen su atencion. Luego,
como paso intermedio y bajo el supuesto de los puntos de interes de un objeto son
directamente proporcionales al tiempo que un usuario enfoca su atencion en este,
se transformaran los puntos de interes en un porcentaje de permanencia. A modo
de ejemplo, si un objeto obtiene 5 puntos de atencion, entonces el porcentaje de
permanencia sera de 0,5. Finalmente, se promediaran todos los porcentajes de
permanencia de los objetos, con lo que se tendra una distribucion de permanencia
para los objetos de todas las paginas del sitio.
Una vez transformados los datos generados por el Eye Tracker y por la encuesta,
cada registro de la tabla spent time on pages (figura 3.2) sera reemplazada por
todos los objetos que componen la pagina asociada. En este proceso, la transfor-
macion principal corresponde a ponderar el tiempo de permanencia de las paginas
61
por los porcentajes de permanencia de los objetos, calculados en las transforma-
ciones anteriores. Esta informacion reflejara que objetos son los que miran los
usuarios mientras navegan por el sitio Web.
Con estas transformaciones se podra intuir si existen diferencias significativas
entre capturar el interes de los usuarios mediante una encuesta o con un software
especializado de Eye Tracking.
3.3.4. Usuarios de control
Acerca de los usuarios entrevistados durante el desarrollo del experimento, se
almacenara el sexo, edad, profesion, area de la profesion, nivel academico, dominio
de Internet, conocimiento del estudio y conocimiento del sitio.
El area de la profesion corresponde a una agrupacion de las profesiones segun
el area de estudio, este campo puede tomar valores entre matematico, biologo
o humanista. La incorporacion de este dato busca establecer si existe relacion
entre el area de la profesion y lo que mas llama la atencion de los usuarios. Los
campos sexo, edad, profesion, nivel academico, dominio de Internet y conocimiento
del sitio se almacenaran para llevar control sobre la muestra seleccionada para
el estudio, con el objetivo de que sea lo mas representativa posible. El campo
conocimiento del estudio guarda si el usuario entrevistado conoce el objetivo del
estudio y el funcionamiento del Eye Tracker. Con esta campo, se establecera si
existe variacion significativa entre los usuarios que saben que sus movimientos
oculares seran grabados y los que no. Ademas, al combinar estos datos con los
obtenidos al aplicar la encuesta, se establecera si lo que dicen que vieron los
usuarios, es realmente lo que vieron.
62
3.4. Variaciones de la metodologıa
La gran variacion que se implementara consiste en incorporar a la metodologıa
disenada por Dujovne y Velasquez [65] los tiempos de permanencia de los usuarios
en los objetos calculados a partir de los datos generados por un Eye Tracker. Este
cambio no considera ninguna otra alteracion mas que reemplazar los tiempos de
permanencia en los objetos estimados mediante una encuesta.
Sin embargo, se realizaran dos tipos de capturas de datos con el Eye Tracker, medi-
ante la asignacion de tareas y presentacion de estımulos, estos datos se analizaran
y de encontrar que son dispares, esta metodologıa se procesara dos veces, una por
cada tipo de captura de datos.
3.5. Comparacion de Resultados
Las distintas versiones de la metodologıa para encontrar website keyobjects entre-
garan como resultados distintos conjuntos de objetos. Para poder comparar estos
resultados nuevamente se usara el conocimiento experto del encargado del sitio,
quien establecera si un objeto clasificado como website keyobjects realmente lo
es. Una vez adquirido este conocimiento se compararan los conjuntos obtenidos
por las metodologıas mediante el indicador precision (ver 2.2.5). Este indicador
es usado para evaluar la prediccion de un algoritmo de clasificacion. Con estos
resultados se concluira y se establecera la validez de la hipotesis.
63
CAPITULO
4
TRABAJO REALIZADO
En el presente capıtulo se detalla todo el trabajo elaborado para finalizar el ex-
perimento disenado en el capıtulo anterior. Se comenzara por describir el entorno
en el que se trabajo, como se capturaron y transformaron los datos, para finalizar
con las tecnicas de Web y Data Mining empleadas.
4.1. El entorno
En esta seccion se describira el contexto sobre el que se trabajo. Se especificara el
sitio elegido, se describiran los usuarios de control seleccionado, ası como el Eye
Tracker usado y las herramientas usadas a lo largo del experimento.
4.1.1. El sitio elegido
Los experimentos se desarrollaron sobre el sitio http://www.mbauchile.cl, perteneciente
a la direccion del Magıster en gestion y direccion de empresas del Departamento
de Ingenierıa Industrial de la Universidad de Chile. Este sitio fue lanzado a la
Web en Enero del ano 2011, luego de la re-estructuracion del anterior.
64
Figura 4.1: Tabla estadıstica de las visitas al sitio
Esta compuesto por 124 paginas y 163 objetos distintos que aparecen en 2.047 en
el sitio, es decir, un objeto puede estar presente mas de una vez en el sitio. Con
esto, el numero promedio de objetos por pagina es 12,55.
Sobre las visitas al sitio, en promedio cada mes acceden 4.158 personas distintas,
se contabilizan 6.111 sesiones y se ven 26.589 paginas. En la tabla 4.1 se puede
apreciar el trafico mensual (desde Enero del 2011). Cabe notar que el trafico
mensual en el mes de Septiembre fue superior a promedio de los meses anteriores.
Esto se debio a que durante dicho mes se realizaron las pruebas para este trabajo,
lo que explica el aumento de visitas.
4.1.2. Los usuarios entrevistados
Antes de seleccionar a los usuarios de control que participarıan en el experimento,
se solicito al experto del negocio informacion sobre el mercado objetivo del sitio en
estudio con el objetivo de elegir una muestra mas representativa de los individuos
que visitan el sitio.
Teniendo en cuenta esta informacion, se seleccionaron 33 personas. De estas, 16
65
son de sexo masculino y 17 femenino, mientras que su promedio de edad es de
24,3 anos. En este universo, 19 de ellos se declararon matematicos, 8 humanistas
y 6 biologos.
Los matematicos son ingenieros de varias especialidades, en su mayorıa civiles. Los
humanistas fueron psicologos literatos y linguistas, mientras que en los biologos
aparecen medicos, odontologos, kinesiologos y veterinarios.
Con respecto al conocimiento y uso de la Web, 15 de ellos se declararon expertos
al navegar por la Web, 12 consideran que su conocimiento es regular y solo 6 de
ellos se declararon usuarios basicos.
15 de las personas entrevistadas conocıan de que se trataba el estudio, es decir,
estaban al tanto de que sus movimientos oculares serıan medidos, mientras que
los 18 restantes lo desconocıan.
En la tabla 4.2 se puede apreciar el detalle de estos atributos de las personas
entrevistadas.
4.1.3. El Eye Tracker Utilizado
Para el desarrollo de los experimentos se conto con herramientas de Software y
Hardware de Eye Tracking. Acerca del hardware, se uso el Eye Tracker Tobii T120
(Ver figura 4.3), que consiste en un monitor de 17 pulgadas al que se le incorpora
dos emisores infrarrojos y un sensor de luminosidad. Este hardware posee una
resolucion temporal de 120 Hz y tiene un margen de error de 0,5◦. Con respecto al
software, se uso el programa Tobii Studio Enterprise Edition, solucion que permite
mapear facilmente lo que se muestra en el monitor, con el lugar del mismo que
los usuarios observan.
66
Figura 4.2: Caracterısticas de los usuarios de control
67
Figura 4.3: Tobii T120
Estas herramientas pertenecen a la categorıa Reflejo de la cornea y Centro de la
pupila basado en vıdeo, clasificacion mas avanzadas de las herramientas en esta
area (Ver 2.4.5).
Antes de realizar el experimento, se evaluaron otras soluciones de Eye Tracking,
que fueron descartadas debido a su alto costo y a la dificultad de traerlos al
paıs, mientras que la empresa Tobii, posee una filial en Chile para toda America
Latina, que proveıa las herramientas bajo concepto de arriendo, con lo que el valor
de adquirirlo fue considerablemente menor.
4.1.4. Herramientas ocupadas
Los experimentos fueron ejecutados sobre un Notebook HP 530 con un procesador
Intel Core Duo T2050 de 1.60 GHz con 2GB de memoria RAM. Se emplearon los
sistemas operativos Windows XP Profesional Edition y Ubuntu 11.04. El primero
se uso para ejecutar el software Tobii Studio Enterprise Edition (captura de datos)
y el segundo para el desarrollo de los algoritmos del experimento.
68
El desarrollo de programas de limpieza y transformacion de datos se realizo en
python 2.7.1 y SQL dependiendo de lo que fuera mas conveniente en cada caso.
Los algoritmos de data mining tambien se desarrollaron en python 2.7.1. La base
de datos usada fue PostgreSQL 8.4.9.
4.2. Captura de datos
La diversidad de los datos usados es tan grande que llega a ser relevante para el
desarrollo de esta memoria. En este sentido esta seccion esta dedicada a describir
como se adquirieron los datos con los que posteriormente se trabajo. Se listan los
procesos segun el origen desde donde se obtuvieron los datos.
4.2.1. El sitio
Para conocer la composicion de el sitio http://www.mbauchile.cl se implemento un
crawler que genero la lista de paginas que componen el sitio. Este crawler se
desarrollo ocupando la librerıa de Python Beautiful Soup.
Las paginas
Ademas cada pagina fue almacenada en formato png, para posteriormente mapear
sobre estas los objetos. Se midio el tamano en pıxeles de todas las paginas y luego
se almaceno esta informacion.
69
4.2.2. Los objetos
Una vez capturada la lista de paginas a analizar se procedio a identificar los objetos
del sitio. Para separar cada pagina en los objetos que la componen se consideraron
dos criterios: diferencias en el contenido (Conceptos) y la separacion espacial entre
objetos de cada pagina. Esta separacion genero 163 objetos distintos, los que por
lo general aparecieron en varias paginas.
Para conocer cuales eran las coordenadas de los objetos dentro de las paginas
se empleo la librerıa Python Imaging Library (PIL), que permite trabajar con
imagenes sobre el interprete de Python. Se implemento un script, que a partir de
las imagenes de las paginas del sitio, generaba las coordenadas de los distintos
objetos pertenecientes a cada pagina.
4.2.3. Los conceptos
Luego de listar los objetos se procedio a generar los conceptos que describen su
contenido. Se procedio de forma analoga a lo que realizo Dujovne [65], es decir,
cada concepto fue creado de forma manual. De haber empleado algun generador
de conceptos automatico, como el algoritmo Latent Dirichlet Allocation (LDA)
[4], se estarıa agregando una nueva variable en el estudio de la metodologıa, con
lo que serıa mas complejo determinar si el aumento o disminucion de la precision
fue debido al uso del eye-tracker o al uso del algoritmo LDA.
Toda la informacion generada en estos pasos fue almacenada en una base de datos
relacional, cuyo modelo se puede apreciar en la figura 3.1.
70
4.2.4. El Weblog
Este se recupero desde el servidor donde se aloja el sitio en conjunto con el ad-
ministrador de sistemas, luego de obtener permiso del dueno del sitio. No se lo-
gro recuperar la totalidad de las peticiones pues no se almacenan los registros
historicos. Sin embargo, se obtuvo las peticiones correspondientes al mes de Agos-
to de 2011. Durante este mes visitaron el sitio 3.031 personas distintas, en 5.480
sesiones. En total se visualizaron 28.832 paginas, se registraron 156.259 peticiones,
y se alcanzo un trafico de 3.20 GB.
4.2.5. Interes de los usuarios
Para medir elinteres de los usuarios en los objetos web, se midio y estimo su
tiempo de permanencia en ellos. Esto se realizo de dos formas: mediante el uso de
un Eye Tracker y mediante la aplicacion de la encuesta empleada por Dujovne
[65].
Eye Tracker
A cada uno de los usuarios de control se les instruyo como procederıa el expe-
rimento. A la mitad de estos se les revelo que sus movimientos oculares serıan
almacenados, mientras que al resto se le oculto. Con esto se espera determinar si
hay diferencias considerables en los resultados con respecto a esta variable.
La figura 4.4 muestra como fueron ubicados los usuarios frente al Eye Tracker, ya
que este es sensible a la posicion relativa entre los mismos.
A 15 de los usuarios de control (Ver figura 3.1), se les planteo la siguiente situacion:
“Usted tiene la inquietud de postular a un programa MBA, pero aun no toma una
71
Figura 4.4: Ubicacion Eye Tracker - Usuario
decision definitiva, por lo que su primer paso sera informarse. En la busqueda de
informacion ha llegado al sitio http://mbauchile.cl, el cual provee datos relevantes
sobre el MBA que dicta la Universidad de Chile. Partiendo desde el home del
sitio, navegue libremente hasta que pueda tomar una decision o decida realizar un
nuevo paso.” De esta forma, se busco emular la navegacion tıpica de los usuarios
en sus casas.
Los restantes 18 individuos no navegaron libremente, sino se les instruyo a mirar
las paginas que se les presentaran, sin seguir ningun enlace. A cada uno de ellos
se les presentaron paginas semi-aleatorias del sitio. Los usuarios podıan pasar a
la pagina siguiente cuando lo estimaran conveniente, pero si pasaban mas de un
minuto en una pagina, automaticamente se le redirecciono a la pagina posterior.
El numero de paginas presentadas a los usuarios no fue superior a 30.
Los datos que genera el Eye Tracker Tobii T120 son diversos y numerosos. El soft-
ware permite exportar vıdeos y 5 tipos de archivos de datos por cada usuario entre-
vistado: All Data, Areas of Interes, Combined Data, Event Data y Fixation Data.
El primero corresponde a todos los datos que genera el software mezclados entre sı.
72
En el archivo Areas of Interes se puede exportar las areas de interes de las paginas,
si es que estas fueron definidas antes de desarrollar el experimento. Esta carac-
terıstica resulta muy util cuando se presentan estımulos visuales como imagenes,
donde no es posible seguir links de forma libre. El archivo Combined Data mezcla
los datos de los archivos Event Data y Fixation Data. El primero de estos con-
tiene la informacion de los eventos mientras se ejecuta el experimento. Almacena
los clicks que se realizaron (derecho, izquierdo, y coordenadas del pıxel), los links
que se siguieron, los estımulos que se mostraron y si cambio algo en la pagina,
como un nuevo display. Finalmente, el archivo Fixation Data guarda los datos
de las Fixation y Sacades de los movimientos oculares de los usuarios. Con estos
archivos, sin considerar los videos generados, se almacenaron 2.2 GB de datos en
archivos de texto.
Encuesta
Luego de ser enfrendatos al Eye Tracker, independiente de la forma en que se
capturaron sus movimientos oculares, se solicito a los sujetos responder una en-
cuesta en la que por cada pagina vista, indicaran los objetos que mas capturaron
su atencion. Para medir el interes prestado por los usuarios, se les indico repartir
10 puntos, como ellos quisieran, sobre los objetos de cada pagina, teniendo en
cuenta que mientras mas puntos tenıa un objeto, mas interes les presto el usuario.
4.3. Seleccion, limpieza y transformacion datos
A continuacion se detalla como se pre-procesaron los datos capturados anterior-
mente. Este proceso se separo segun el origen de los datos. Se describe de forma
especial el trabajo realizado para medir el interes de los usuarios, pues es en este
73
punto donde se produce la diferenciacion con la metodologıa original, descrita en
detalle en el Marco Conceptual.
4.3.1. Las paginas
De la lista de paginas obtenidas anteriormente con el crawler, se eliminaron dos:
la pagina correspondiente al RSS y una pagina repetida. La que corresponde
al RSS del sitio, se elimino pues no se espera que sea visitada por personas,
sino por programas lectores de noticias. La segunda pagina que se elimino era
igual en objetos y conceptos a otra, pero con una URL distinta, por lo que no
fue considerada en el estudio. Sin embargo, en el proceso de sesionizacion las
peticiones a la pagina eliminada fueron consideradas como peticiones a su pagina
equivalente.
4.3.2. Los objetos
Una vez que se identificaron los 163 objetos del sitio, el experto del negocio
valido esta separacion, pero tambien agrupo, disgrego y elimino algunos objetos
pre-seleccionados.
Posteriormente a esta validacion, como cambiaron algunos objetos, hubo que re-
calcular las posiciones de los mismos en las paginas. Para esto se modifico y re-
ejecuto el script que genero la ubicacion (en pıxeles) de los objetos en las pagina.
Luego las coordenadas de los pıxeles de los objetos fueron normalizados segun la
dimension del estımulo, con lo que las coordenadas de los objetos pasaron de estar
guardados como enteros entre 0 y el largo de la dimension del objeto, a un valor
de doble precision entre 0 y 1. Esto para adecuarse a la forma en que entrega los
datos el Eye Tracker.
74
4.3.3. Los conceptos
Con respecto a los conceptos que describen los objetos, se valido por el experto
del negocio la forma en que fueron generados, por lo que no fue necesario realizar
ninguna modificacion, con la salvedad de agrupar o disgregar los conceptos de los
objetos que fueron modificados por el experto.
Luego, en estos momentos se implemento el script que calcula la similitud con-
ceptual entre objetos. Para implementar este script se siguio el algoritmo definido
anteriormente por Dujovne en [65] y descrito en este informe en la subseccion
2.5.3. Los resultados obtenidos fueron almacenados en una tabla relacional, lla-
mada conceptual similarity, que guardaba los objetos comparados y su similitud.
(Ver figura 4.9).
4.3.4. Interes de los usuarios
Se separo la transformacion de datos del interes del usuario en funcion a la forma
en que se capturaron los datos.
Eye Tracker
De todos los archivos que genero el Eye Tracker, solo se trabajo con los archivos
All Data (uno por cada usuario de control) y se usaron algunos videos como
referencias. Esto constituyo la primera seleccion de datos. Luego, de todos los
atributos que posee este archivo (38) se consideraron solo 16, los que se pueden
apreciar en la figura 4.5. De estos, el campo people id no fue generado por el Eye
Tracker y corresponde a un identificador de la persona entrevistada.
El campo datetime guarda el tiempo, desde que se inicio el experimento en el que
75
Figura 4.5: Tabla de transicion de datos generados por el Eye Tracker.
se capturo el registro. Los campos validity left y validity right indican la validez
de la captura de los datos, tanto para el ojo izquierdo como para el derecho. Con
estos datos se establecio un filtro para considerar o no el registro, en funcion de
si fue calculado correctamente o no.
Los atributos event, event key, data1, data2, descriptor en conjunto describen los
eventos mientras se procedıa con el experimento. Almacenan informacion desde
cuando se comienza y termina un determinado estımulo, como una pagina, los
clicks que realiza el usuario, los desplazamientos dentro de un estımulo, como
deslizar el scroll wheel hacia abajo, y si se desplego algun menu de navegacion.
Media wigth y media height guardan el tamano en pıxeles del estımulo media des-
plegado en la pantalla, no la resolucion de esta ultima. Estos atributos son impor-
tantes para luego mapear los puntos de atencion de los usuarios en los objetos web.
En este sentido, los atributos mapped fixation point x y mapped fixation point y
76
mapean los enfoques al mirar en los estımulos.
El primer paso para transformar estos datos fue agruparlos segun el punto obser-
vado (en una vecindad pequena), aumentando el tiempo de duracion de la fijacion
segun la cantidad de registros agrupados.
Un resultado estadıstico conocido es el rango de duracion de las fijaciones, que es-
tan entre los 150 y 600 milisegundos (ms) [19], por lo que la cota inferior para que
el cerebro comprenda lo que se esta observando es de 150 ms. Como se senalo an-
teriormente, el eye tracker empleado tiene una resolucion de 120 Hz, por lo que
captura informacion cada 8 ms. Con esta informacion, se consideraron no vali-
dos los registros (ya agrupados) con el campo fixation duration menor a 150 ms,
pues en este caso, el usuario entrevistado nunca noto que miro un punto en un
momento.
Con los registros no validos, por una fixation duration menor a 150 ms o por que
ası lo indicaban los atributos validity left y validity right, se contruyo un indicador,
denominado acceptance percentage, que mostraba el porcentaje del tiempo en el
cual se midieron correctamente los movimientos oculares del usuario de control
sobre cada estımulo (pagina web).
Si este indicador era pequeno, serıa un error considerar los registros correspon-
dientes al estımulo para el analisis posterior pues simplemente se estarıan ex-
trapolando resultados, que podrıan ser validos o no. Por esta razon los registros
correspondientes a estımulos con bajo acceptance percentage, fueron eliminados.
Se consideraron validos los estımulos con acceptance percentage mayor al prome-
dio de todos los valores mas dos desviaciones estandar, resultando como mınimo
86 %. A partir de este resultado se puede catalogar la captura de datos con el Eye
Tracker como exitosa.
77
Figura 4.6: Menu de navegacion compacto.
Posteriormente, ya eliminados estos registros se procedio a mapear los puntos de
interes de los usuarios en los estımulos a los objetos. Este paso no representa mayor
dificultad salvo por el menu de navegacion (ver figuras 4.6 y 4.7), que puede estar
en dos estados, compacto y desplegado (en alguno de sus menu). Esto se produce
cuando un usuario mueve el mouse por sobre uno de estos menu.
Para mapear correctamente si un usuario de control miraba el menu de navegacion
o el objeto por debajo de este, se emplearon los datos de los atributos event,
event key, data1, data2, descriptor con los que en conjunto se establecio en que
momento hubo un menu desplegado, cual era este. Con esta salvedad en mente,
basto con mapear las coordenadas de los objetos, con las coordenadas de los puntos
de atencion para asignar a cada registro el objeto que le correspondıa.
A continuacion, se agruparon los registros por objeto, con lo que se calculo el
porcentaje del tiempo que un usuario miro cada objeto de un estımulo. Si algun
objeto no fue mirado, se incluyo que el porsentaje de interes del usuario en este
objeto fue 0. Este valor se considero debido a que su ausencia afectarıa el calculo
de los tiempos de permanencia promedios.
78
Figura 4.7: Menu de navegacion desplegado.
Figura 4.8: Tabla averaged spent time on object.
Finalmente, se promediaron los tiempos de permanencia y el resultado de este
proceso se almaceno en la tabla averaged spent time on object (ver figura 4.8). El
campo study id hace referencia a la forma en que se capturaron los datos. Estas
pueden ser navegacion libre o guiada, ambos mediante el Eye Tracker o con la
encuesta de los puntos de interes.
79
La encuesta
Los resultados de la encuesta correspondieron a archivos donde se registro la pagi-
na, el objeto, y los puntos de interes que le asigno el usuario. Estos datos fueron
transformados, de modo que los 10 puntos que asigno cada usuario, correspon-
diera al 100 % del interes del usuario en dicho estımulo. A modo de ejemplo, si
una persona asigno 5 puntos al objeto X en la pagina Y se asumio que el in-
teres del usuario sobre el objeto X fue del 50 % en la pagina Y. Analogamente
al caso anterior, se asigno 0 al interes del usuario en los objetos que no obtu-
vieron puntos. Luego estos resultados se promediaron y se tambien almacenaron
averaged spent time on object (ver figura 4.8)
Pre-procesamiento
En esta etapa se realizo una comparacion de los resultados almacenados en la tabla
4.8. Se comparo el promedio y la desviacion estandar del modulo de la diferencia
entre los valores averaged segun el tipo de captura de datos realizada (study id).
La tabla 4.1 muestra los resultados obtenidos de esta comparacion, donde se puede
apreciar que los valores obtenidos al comparar la navegacion libre con la guiada
son mucho mas pequenos que al comparar los resultados de cualquiera de estos
mecanismos con la encuesta, por lo que se decidio dejar de analizar la navegacion
libre y guiada como capturas distintas. Por esta razon, hubo que recalcular los
tiempos promedio de permanencia en los objetos, que resulto muy parecido a los
existentes. En conclusion, se paso de tres conjuntos de datos (navegacion libre,
navegacion guiada y encuesta) a solo dos (Eye Tracker y encuesta).
80
Comparacion Promedio Desviacion Estandar
libre - guiado 0,013194 0,039402
libre - encuesta 0,032408 0,100782
guiado - encuesta 0,055501 0,120487
Cuadro 4.1: Comparacion de los tiempos de permanencia en los objetos.
4.3.5. El Weblog
A partir de peticiones web recuperadas con anterioridad desde el weblog, se proce-
dio a ejecutar el proceso de sesionizacion. Sin entrar en el detalle de este proceso,
pues esta fuera del alcance de la memoria, se obtuvo como resultado un conjunto
de sesiones, en las que cada una de estas contenıa una lista de paginas, asociadas
a la cantidad de tiempo que permanecieron en estas.
Luego, analogamente a lo realizado por Dujovne [65], para cada registro se reem-
plazo la pagina por los objetos que la conformaban y se pondero el tiempo de
permanencia en la pagina por el porsentaje de permanencia en el objeto. Ademas
se consideraron con especial cuidado los objetos que aparecieron en mas de una
pagina, pues para una sesion, el mismo objeto pudo haber sido visto dos veces.
En este caso, se sumaron los tiempos correspondiente a ambas paginas, pues se le
presto atencion dos veces.
A continuacion se procedio a seleccionar los n objetos mas importantes de cada
sesion, como fue descrito en la ecuacion 2.11. El criterio de seleccion de los objetos
mas importantes fue el tiempo de permanencia en ellos. La determinacion de n se
realizo de forma analoga a como procedio Dujovne et al. [65], quien extendio lo
realizado por Velasquez et al. [67]. Se calculo el promedio (µ) y la desviacion es-
tandar (σ) sobre el numero de objetos por seccion. Luego, se eligio un numero n en
el rango [µ−3σ, µ+3σ]. Estos datos fueron almacenados en la tabla residence time
81
Figura 4.9: Tablas conceptual similarity y residence time.
(Ver figura 4.9).
Para finalizar esta seccion, la figura 4.9 describe el resultado final de todo este
proceso y que sera la entrada para aplicar tecnicas de data mining. La tabla con-
ceptual similarity almacena la similitud entre dos objetos (ver subseccion 4.3.2),
mientras que la tabla residence time almacena los tiempos de permanencia en los
n objetos mas importantes de cada sesion, es decir, guarda los IOV (Ver ecuacion
2.11).
4.4. Data Mining
La metodologıa para encontrar Website Keyobject ideada por Dujovne y Velasquez
[65] agrupaba los vectores de comportamiento de los usuarios mediante tres tecni-
cas: Self Organizing Feature Maps, K-means y Association Rules. Los resultados
de estas tecnicas eran conjuntos de vectores donde sus elementos eran parecidos
entre sı, pero distintos al tomar elementos de conjuntos diferentes.
El criterio que usaron para determinar si un objeto era un Website Keyobject fue
seleccionar los objetos que aparecieron mas veces en los clusters arrojados por los
82
tres algoritmos.
4.4.1. Los algoritmos
En esta seccion se describiran los tres algoritmos empleados durante el experi-
mento. Cabe recordar que para poder comparar sesiones entre sı se empleara la
ecuacion 2.12, que describe una medida de similitud entre dos IOV.
Self Organizing Feature Maps (SOFM)
SOFM es un modelo de red neuronal que basicamente procesa una base de datos
resultando en un mapa (usualmente bidimencional) donde casos similares se ma-
pean en regiones cercanas. Ocupa un modelo de aprendizaje no supervisado, por
lo que difiere de las redes neuronales comunes.
Para este trabajo, al igual que en el desarrollado por Dujovne [65], se empleara una
red de forma toroidal, donde los extremos de una red bidimensional se unen para
dar la forma deseada.
En este algoritmo cada neurona sera definida como un IOV (Ver ecuacion 2.11). La
forma de actualizar los IOV, mientras se produce el entrenamiento, sera modificada
de modo que compare los vectores de objetos importantes presentes en cada una
de las sesiones. Para cada IOV, se debe encontrar la neurona mas parecida a este y
actualizar los pesos de la red en funcion de las distancias calculadas. Este proceso
se repetira hasta que los cambios en los pesos de la red sean menores a un ε.
83
K-means
Es probablemente el metodo mas conocido para realizar clustering. Consiste en
partir con K IOVs aleatorios denominados centros. Para los IOV restantes se
calcula cual es el centro mas cercano a estos y se enlazan generando subconjuntos
de IOVs. Luego se calcula el centro de masas de cada subconjunto y se vuelve
a iterar hasta que la cantidad de cambios en los subconjuntos sea baja, es decir,
cuando los subconjuntos converjan. La debilidad de este metodo es el valor inicial
K que es desconocido.
En este caso particular, para determinar el centro de masas de los subconjuntos
mencionados, se calculara cual es el objeto culla distancia promedio a todos los
demas objetos en el subconjunto es la menor.
Association Rules
Es una tecnica que permite encontrar relaciones entre distintos atributos de un
conjunto de datos. De integrar los identificadores de las sesiones a los datos, no se
encontrarıa ningun tipo de regla, ya que para todos los ejemplos el identificador
es distinto.
Como entrada para este algoritmo se implemento una pequena transformacion de
datos para dejar los IOV como la lista de los objetos mas vistos (Ecuacion 4.1).
r = (o1, ..., on) (4.1)
84
4.4.2. Primer experimento
Se desarrollo la misma estrategia empleada por Dujovne y Velasquez [65]. Se
compararon los vectores de comportamiento de los usuarios mediante las tres
tecnicas y se designaron como Website Keyobject los objetos que aparecieron mas
veces en los diferentes clusters generados. En este experimento se consideraron
como tiempos de permanencia en los objetos los resultados de la encuesta sobre
las paginas del sitio.
4.4.3. Segundo experimento
Consistio en agregar a la metodologıa anterior los tiempos calculados a partir
de los datos capturados por el Eye Tracker. Esto no es un cambio relevante en
la metodologıa, es solo cambiar los datos de entrada para los algoritmos. Para
designar un objecto como Website Keyobject, se ocupo el mismo criterio anterior.
4.5. Resultados Obtenidos
En esta seccion se listan los objetos clasificados como Website Keyobject segun
cada tecnica ocupada para ambos experimentos. Dado que la diferencia entre
ambos esta dada por los tiempos de permanencia en los objetos, la forma de lo
que entrega cada tecnica es independiente de que experimento se esta analizando.
Las listas completas de resultados obtenidos para el experimento 1 se encuentran
en el apendice A (Capıtulo 6). En el se listan todas las tecnicas y lo que arrojaron
como resultados. En tanto, para el experimento 2, los resultados se encuentran en
el apendice B (Capıtulo 7).
85
4.5.1. SOFM
Para la implementacion de esta tecnica se ocupo una red conm forma toroidal, y
se realizaron varias pruebas con respecto a la cantidad de neuronas de la red, en-
contrando que una constitida por 12X12 neuronas entrego los mejores resultados.
Esta red entrego 8 clusters para cada experimento. La salida de este algoritmo se
modifico para que entregara listas de los identificadores de sesiones pertenecientes
a cada cluster, con el objetivo de poder contar el numero de apariciones de los
objetos en los distintos clusters.
Los resultados de esta tecnica, para el experimento 1 se encuentran en la seccion
6.1, mientras que para el experimento 2, en la 7.1.
4.5.2. K-Means
La salida de este algoritmo corresponde a un conjunto de listas donde cada una de
ella contiene los identificadores de las sesiones agrupadas. La ecuacion 4.2 muestra
como ejemplo una lista de este tipo.
L1 = {2505, 1726, 1105} (4.2)
De forma analoga al caso anterior, los resultados entregados por esta tecnica
para el primer experimento se pueden encontrar en la seccion 6.2, mientras que
para el segundo en la 7.2. En estos se listan los identificadores de las sesiones
correspondientes a cada cluster y luego se muestra el numero de apariciones de
los objetos en estos.
86
4.5.3. Association Rules
Para la ejecucion de Association Rules se uso la plataforma Weka, que incluye
variados algoritmos de Data Mining. Se considero solo los objetos precentes en los
IOVs, los que fueron transformados de acuerdo a la plataforma.
Se utilizo el algoritmo Apriori y se solicito que generara solo 30 reglas con una
confianza mınima de 0,9. Tanto el algoritmo, como la plataforma a ocupar fueron
los mismos empleados por Dujovne [65] cuando implemento esta metodologıa.
Una regla de asociacion tiene la sigiente forma:
o1 = To2 = F ==> o3 = Tconf : (1)
Lo que representa que si el objeto o1 tiene valor T y el objeto o2 tiene valor F,
el objeto o3 tendra como valor T con una confianza de 1.
Los resultados entregados por el algoritmo, para ambos experimentos se encuen-
tran en las secciones 6.3 y 7.3 respectivamente.
4.5.4. Website Keyobjects
Como se menciono anteriormente, el criterio utilizado para nombrar como Website
Keyword a un objeto fue la cantidad de veces en las que aparecıa en los distintos
clusters de objetos. Para calcular este indicador por experimento, se tomaron los
resultados de las tres tecnicas empleadas y se sumo la cantidad de veces en las
que aparecıan los objetos.
En la seccion 6.4 se muestran los objetos que aparecieron mas veces en los clusters
para el experimento 1. Luego se muestran los objetos que fueron predichos como
Website Keyobjects y si estos fueron validados por el experto del negocio o no.
87
experimento 10 20 30
primero 70 % 75 % 70 %
segundo 70 % 80 % 76 %
Cuadro 4.2: Comparacion de los experimentos (precision)
Analogamente, para el experimento 2, estos resultados se encuentran en la seccion
7.4.
4.6. Comparacion y analisis
El cuadro 4.2 muestra la precision alcanzada en los dos experimentos. Se selec-
cionaron tres rangos para comparar los resultados, tomando los primeros 10, 20 y
30 Website Keyobjects.
Se puede notar un ligero aumento (5 % a 6 %) en la precision al comparar ambos
experimentos, con lo que se valida que esta tecnologıa resulta util para medir el
interes de los usuarios.
Dujovne y Velasquez [65] con su metodologıa (experimento 1) alcanzaron una pre-
cision del 80 %, valor que es mayor al 75 % promedio obtenido en este experimento.
Esto se puede deber a la cantidad de paginas y objetos en estudio, ya que ellos
analizaron un sitio de 27 paginas con 40 objetos, mientras que en este trabajo se
analizo un sitio de 124 paginas y mas de 160 objetos. Otra posible fuente de error
es la generacion de los metadatos. En este trabajo, al igual que en el desarrollado
por Dujovne, los metadatos se generaron a mano, lo que se pudo generar errores
involuntarios.
Por otro lado, se puede notar que cuando se eligen 30 Website Keyobjects la
precision obtenida disminuye. Esto ocurre pues para este numero se comienza
88
a designar objetos que no son relevantes. En este punto, si consideramos como
threshold n = 24 se obtiene que la precision del segundo experimento es 83 %.
89
CAPITULO
5
CONCLUSIONES
En el presente trabajo de tıtulo se analizo una metodologıa que permite encontrar
Website Keyobjects y se logro mejorar la precision de la prediccion de esta al
incorporar la tecnologıa Eye Tracking.
En el presente trabajo de tıtulo se probo que usar un Eye Tracker para medir la
cantidad de tiempo que los usuarios gastan observando los distintos objetos de
una pagina web en vez de realizar una encuesta para estimar estos valores mejora
la precision a la hora de encontrar los Website Keyobjects de un sitio.
Para lograr estos resultados se realizo un amplio estudio acerca de los datos ori-
ginados en la web, los modelos matematicos que se usan para describir el com-
portamiento de los usuarios en la web y las herramientas existentes de seguimiento
ocular. Este conocimiento fue plasmado en el Capıtulo 2 de este trabajo de tıtulo,
y usado en el posterior desarrollo del presente informe.
Como metodologıa de investigacion, se siguieron los pasos del metodo cientıfico,
se planteo una hipotesis, se aislo la variable a estudiar, se diseno y aplico un
experimento y finalmente se determino si la hipotesis planteada era correcta.
Una de las limitantes que tiene el seguimiento ocular es que solo determina que es
lo que una persona observa. Esto es insuficiente cuando se busca calificar lo que una
90
persona mira, en otras palabras, con estas herramientas no se puede determinar
si lo que se observa me gusta o me desagrada. Es por esto que los resultados
entregados por el Eye Tracker deben ser considerados como el modulo (siempre
positivo) del interes de una persona.
5.1. Trabajo Futuro
Con la restriccion descrita anteriormente, inherente seguimiento ocular, surge de
forma natural el siguiente paso para mejorar la metodologıa para encontrar Web-
site Keyobjects, considerar que sienten o piensan los usuarios mientras miran un
objeto web. Esto se puede lograr al usar elementos de neurotecnologıa, como elec-
trodos que midan que zona del cerebro se exita mas cuando una persona navega
por un sitio web. Emotiv.com es una empresa que fabrica este tipo de aparatos
(solo para este tipo de investigaciones) a bajo costo.
Otra posible mejora a la metodologıa consiste en explorar aun mas los datos
generados por el Eye Tracker. Durante el desarrollo de este trabajo de tıtulo solo se
usaron estos datos para determinar que objetos miran los usuarios de control. Sin
embargo, existe una amplia gama de estudios donde se pueden usar estos datos,
como determinar a partir de la trayectoria de los movimientos oculares si una
persona entiende lo que ve o no. Ademas para este trabajo no se consideraron los
datos de la dilatacion de las pupilas, siendo conocido que mientras mas dilatadas
se encuentren, mayor es el interes que presta una persona a lo que observa. Sin
embargo, aun ası no se puede clasificar este interes como bueno o malo.
Otros caminos para enriquecer esta metodologıa son los que no se exploraron
en esta memoria, como establecer una ontologıa para normalizar los metadatos.
Con esto se podrıa establecer relaciones mas expresivas entre los objetos. En esta
91
misma area se podrıa automatizar el proceso que genera los metadatos, pues
hasta el momento es un proceso lento y tedioso que al ser manual, permite la
introduccion de errores involuntarios.
Finalmente, se podrıa analizar la forma en la que opera esta metodologıa, inves-
tigar si cambiando la estructura de la misma se pueden lograr mejores resultados
que aplicando 3 algoritmos de Data Mining distintos. Crear una nueva forma de
ranquear los objetos podrıa ayudar en este objetivo.
92
CAPITULO
6
APENDICE A: RESULTADOS
PRIMER EXPERIMENTO
6.1. SOFM
C1 = [3860, 5284, 5153, 2550, 3315, 5887, 4328, 1645, 1876, 4230,
2106, 4302, 2167, 3179, 3211, 1129, 2314, 5374, 3970, 2853,
3624, 2549]
C2 = [5752, 4191, 4483, 5944, 3859, 4360, 4919, 5439, 4517, 1500,
1447, 5547, 2846, 3688, 5732, 2421, 2287, 1502, 1359, 2311,
5873, 2267, 2935, 4134, 1198, 4507, 1573, 5017, 2704, 1725,
3309, 3493, 2792, 2435, 2527, 4738, 4863, 3886, 2302, 3851,
2804, 3513, 3517, 2847, 1410, 5676, 2259, 1524, 3789, 1362,
4733, 4387, 5435, 2787, 3717, 3847, 5499, 1900, 2123, 4534,
2622, 4322, 1312, 3236, 2178, 2390, 4730, 3814, 3001, 5889,
4045, 3938, 4218, 2196, 5352, 2566, 4653, 3565, 5223, 5190,
2401, 2469, 5237, 1726, 3826, 1887, 2682, 1288, 1683, 2186,
4673, 2155, 2553, 4631, 3953, 1364, 3261, 4164, 4181, 1882,
4248, 3684, 1590, 3231, 4957, 1880, 5226, 4179, 2798, 3758,
93
5851, 2066, 3726, 5362, 2260]
C3 = [1281, 1233, 3975, 4952, 1163, 3882, 2399, 4766, 4625, 2697,
5531, 1095, 5567, 1150, 1210, 4380, 4796, 3658, 2451, 5919,
4540, 4647, 4861, 4705, 2633, 1507, 3634, 1373, 4800, 4205,
3162, 4799, 4892, 2076, 2337, 1957, 4512, 3733, 4196, 1282,
2355, 3732, 5710, 1140, 5415, 5207, 2568, 5096, 4480, 3101,
4621, 4924, 4682, 4200, 4708, 5376, 3995, 3462, 3993, 5303,
4760, 1296, 4795, 1285, 5278, 4510, 1335, 3566, 5790, 2160]
C4 = [5649, 4870, 5383, 3181, 5291, 3867, 4170, 1637, 2443]
C5 = [4216, 2732, 2767, 3029, 5214, 4291, 5515]
C6 = [4611, 1585, 2255, 1274, 1698, 5549, 1445, 5356, 2700, 5269,
3738, 3311, 3459, 4321, 4474, 2687, 1248, 4781, 5874, 4686,
1470, 2407, 2959, 5449, 5283, 2275, 4932, 4000, 1620, 5652,
5227, 1636, 2181, 2294, 5416, 4586, 1850, 5641, 3655, 5727,
1164, 1483, 3718, 1704, 2089, 3089, 3628, 2659, 5183, 4651,
1264, 3022, 1755, 4665, 3600, 2731, 4238, 1810, 4274, 4885,
3836, 3416, 4491, 2381, 3250, 5228, 2901, 5341, 1948, 4124,
5917, 3302, 2643, 5391, 1422, 2333, 5548, 3661, 2331, 5992,
5363, 3500, 2505, 1699, 2841, 3045, 5726, 5671, 5185, 4312,
5569, 4908, 1284, 3844, 4546, 2197, 2747, 4646, 2305, 4195,
3244, 2265, 3724, 3482, 4934, 2749, 2639, 5021, 4845, 2772,
2881, 4743, 4690, 4846, 3876, 1166, 2459, 3042, 3470, 5578,
3297, 5876, 1118, 5675, 4787, 5843, 3780, 5354, 2203, 2289,
4999, 3645, 5544, 5295, 5230, 3318, 5026, 4146, 4001, 4876,
1459, 4210, 5801, 5239, 5216, 3735, 4864, 3195, 2645, 5040,
4479, 1522, 3474, 2714, 5559, 2015, 2277, 1985, 3506, 1733,
2301, 4035, 4317, 5865, 1605, 4850, 3384, 3503, 4940, 3377,
94
3870, 1278, 4351, 4711, 5576, 1559, 3534, 2082, 5347, 2286,
2717, 1158, 3437, 2406, 5003, 3456, 1149, 1251, 2917, 5951,
4568, 3232, 5095, 3591, 2561, 1283, 1438, 4347, 4529, 4747,
4062, 1157, 4136, 3403, 3208, 4891]
C7 = [1191, 3218, 1481, 1857, 1584, 3286, 1214, 1855, 3050, 5484,
5948, 3739, 4523, 2771, 4900, 1400, 3757, 3670, 4632, 5654,
4912, 4295, 5721, 1685, 3941, 4071, 5287, 5072, 5350, 4180,
2890, 1453, 4107, 1862, 3435, 4727, 2555, 2365, 4613, 4478,
1730, 5054, 2556, 5272, 1314, 1583, 5302, 3744, 2319, 2800,
3978, 1105, 1169, 2977, 5068, 5322, 2034, 5534, 2781, 2516,
5379, 3734, 5655, 3092, 2072, 5329, 1505, 2028, 5619, 1236,
5902, 5498, 2739, 4404, 3046, 5184, 2603, 5333, 4554, 1933,
3391, 5867, 2293, 4112, 3997, 1675, 4503, 4852, 5690, 6011,
3789, 1618, 1341, 3772, 3727, 4739, 4717, 2745, 5421, 3380,
5669, 5665, 5425, 3476]
C8 = [4357, 5060, 5646, 3078, 1280, 3172, 2428, 2321, 4443, 3508,
4931, 4497, 3588, 2525, 4089, 5100, 4729, 5808, 4624, 3622,
5142, 1467, 3605, 5319, 3239, 1885, 1624, 4541, 4153, 3551,
2317, 2040, 2493, 1835, 3115, 5392, 1615]
6.2. K-Means
6.2.1. Clusters de sesiones
C1 = [4210, 4503, 1900, 4000]
C2 = [3302, 1585, 2381, 4357, 3670, 4717, 3506, 3493, 5726, 5226,
95
4328, 4673, 2639, 2781, 1857, 3208, 2123, 3772, 2178, 1284,
2525, 1957, 3050, 5808, 1855]
C3 = [3727, 4218, 5790, 5287, 4739, 5223, 1624, 4781, 3684, 1169,
4196, 5690, 4248, 1214, 2603, 3172, 4238, 3315, 5216, 5362,
4730, 4799, 4554, 5363, 3993, 5578, 4747, 5017, 2739, 5333,
2355, 4216, 5675, 5887, 3605, 4800, 4931, 3046, 4205, 4474,
2645, 3101, 5379, 2682, 3780, 3456, 3508, 1882, 1470]
C4 = [2401, 4360, 2082, 5544, 4295, 2556, 5227, 5060, 4651, 2890,
4478, 3953, 2399, 3600, 2302, 4071, 3318, 1810, 4766, 4999,
5652, 4146, 4743, 3995, 3239, 4613, 3938, 4541, 2516, 3179,
2881, 3688, 3384, 4738, 4891, 2421, 2333, 1280, 2155, 4321,
2267, 4529, 5992, 6011, 4686, 3844, 1887, 2959, 1118, 2555,
4191, 5867, 5207, 3622, 1605, 3115, 2186, 4112, 1698, 5549,
4089, 5228, 4852, 4124, 2167, 1359, 4733, 3195, 2847, 5142,
5919, 4934, 2301, 4302, 4845, 4632, 2390, 4682, 2787, 3380,
1400, 3886, 5752, 2505, 2259, 3565, 5392, 3311, 4200, 2659,
1726, 2917, 1704, 3826, 1150, 4291, 2311, 1210, 5184, 1335,
5646, 1725, 3416, 3732, 3534, 5876, 4900, 1573, 2771, 1251,
2767, 4035, 3851, 3500, 4885, 3503, 5214, 3588, 1105, 1164,
3482, 5641, 3658, 1283, 3391, 2203, 5948, 5515, 2286, 5303,
1835, 1129, 1453, 2747, 1364, 4787, 4380, 5352, 4892, 1314,
2977, 4387, 3001, 5721, 5865, 1500, 5435, 2700, 5851, 2568,
4631, 1281, 2717, 3244, 2196, 3231, 1285, 2550, 4491, 4625,
4180, 5391, 2732, 1191, 3758, 4507, 5237, 2428, 3045, 4179,
5100, 1373, 2277, 4170, 5347, 5499, 1699, 3859, 3876, 5272,
1985, 1584, 2265, 2704, 3733, 5302, 3459, 5072, 5801, 1140,
2901, 5021, 2255, 5619, 5054, 5329, 3724, 5291, 3470, 1502,
96
4512, 2072, 1288, 3882, 4912, 2028, 3089, 2643, 1933]
C5 = [3836, 2749, 3870, 5548, 3978, 2493, 2106, 2697, 5655, 1559,
4940, 4850, 1166, 2321, 4134, 4164, 5534, 5531, 3377, 3744,
3860, 4924, 4497, 2331, 1620, 1645, 4908, 3634, 1675, 1410,
4952, 1685, 3645, 5498, 4181, 5873, 4864, 2015, 5295, 1149,
3286, 3628, 2435, 5096, 4611, 1583]
C6 = [3236, 5185, 5669, 2293, 1264]
C7 = [1880, 5374, 3092, 1362, 2197, 4546, 3970, 4711, 5183, 1618,
1683, 3437, 5095, 3655, 3462, 2317, 3591, 5843, 2566, 5354,
1483, 1163, 1481, 5654, 2798, 2853, 1467, 3309, 5902, 4322,
5569, 4708, 1637, 1459, 1278, 3250, 4510, 3734, 2841, 2792,
1615, 5350, 4665, 4705, 1248, 3624, 2289, 4001, 3757, 4760,
3211, 5449, 2365, 4727, 3735, 1948, 5889, 5676, 1282, 4195,
1438, 5671, 2443, 5040, 2469, 1636, 5383, 4729, 4534, 2804,
5547, 5421, 4586, 4045, 4136, 2089, 1507, 2633, 1445, 3474,
4646, 4540, 3789, 3789, 5322, 2553, 3726, 1095, 1158, 3181]
C8 = [3435, 1522, 1524, 3738, 3403, 4107, 4062, 5003, 4347, 5425,
1885, 4351, 4795, 2622, 2287, 5319, 4796, 5576, 3718, 3867,
2076, 3975, 5341, 1198, 1296, 1447, 5649, 2260, 3661, 4870,
5484, 2407, 5439, 4957, 2181, 1755, 1876, 5559, 5732, 4653,
2066, 4932, 3297, 5416, 2549, 4690, 2800, 4483, 3042, 4230,
3029, 2319, 2294, 4153, 2451, 3162, 1850, 5567, 2772, 4863,
3218, 4621, 3513, 4480, 3078, 2846, 4274, 2406, 1505, 5068,
4624, 2160, 5230, 1341, 4876, 5239, 1733, 3739, 4479, 3232,
1862, 3566, 4861, 2337, 5376, 2714, 3717, 1236, 2687, 4517,
4404, 5026, 3022, 5283, 2731, 2305, 2040, 1233, 1730, 2314,
4919, 5153, 5278, 5710, 5415, 2935, 4568, 4846, 2275, 5284,
97
5944, 1422, 3476, 5951, 3847, 5874, 3997, 2527, 5727, 1274,
3261, 1312, 5269, 5356, 3551, 4647, 2459, 2745, 4443, 4317,
2561, 1590, 3517, 3814, 5917, 5190, 1157, 4523, 2034, 3941,
5665, 4312]
98
6.2.2. Numero de apariciones de objetos en Clusters
objeto apariciones objeto apariciones objeto apariciones objeto apariciones
1 3 2 8 3 8 4 8
5 6 6 5 7 8 8 8
9 5 10 6 11 7 12 6
13 6 14 7 15 3 16 7
17 5 18 6 19 4 20 4
21 6 22 6 23 6 24 6
25 6 26 7 27 8 28 6
29 6 30 7 31 3 32 4
33 4 34 4 35 4 36 5
37 7 38 6 39 4 40 2
41 6 42 6 43 7 44 6
45 6 46 6 47 7 48 7
49 7 50 7 51 8 52 8
53 7 54 8 55 8 56 7
57 7 58 7 60 8 61 7
62 7 63 6 64 6 65 6
66 6 67 5 68 2 69 6
70 2 71 1 72 1 73 2
74 1 75 3 76 2 77 1
78 2 79 2 80 3 81 1
82 3 84 2 85 4 86 1
99
objeto apariciones objeto apariciones objeto apariciones objeto apariciones
87 4 88 1 89 1 90 1
91 1 92 3 93 2 94 4
95 3 96 2 97 4 98 1
99 1 100 5 101 4 102 2
103 4 104 3 105 1 106 4
107 3 108 2 109 4 110 3
111 4 112 1 113 1 114 3
115 2 116 2 117 1 119 3
120 4 121 2 122 4 123 4
124 7 125 2 126 8 127 7
128 2 129 4 130 4 131 6
132 2 133 7 134 6 135 1
137 1 138 3 139 5 140 5
141 8 142 8 143 8 144 3
145 2 146 2 147 5 148 4
149 2 150 4 151 2 152 2
153 2 154 3 155 5 156 2
157 2 158 3 159 1 160 4
161 2 162 2 163 2
6.3. Association Rules
1. 7=T ==> 141=T <conf:(1)>
2. 130=F ==> 129=F <conf:(1)>
3. 129=F ==> 130=F <conf:(1)>
4. 129=F ==> 141=T <conf:(1)>
100
5. 130=F ==> 141=T <conf:(1)>
6. 130=F 141=T ==> 129=F <conf:(1)>
7. 129=F 141=T ==> 130=F <conf:(1)>
8. 129=F 130=F ==> 141=T <conf:(1)>
9. 130=F ==> 129=F 141=T <conf:(1)>
10. 129=F ==> 130=F 141=T <conf:(1)>
11. 19=F ==> 141=T <conf:(1)>
12. 32=F ==> 141=T <conf:(1)>
13. 100=F ==> 141=T <conf:(1)>
14. 110=F ==> 141=T <conf:(1)>
15. 7=T 130=F ==> 129=F <conf:(1)>
16. 7=T 129=F ==> 130=F <conf:(1)>
17. 7=T 129=F ==> 141=T <conf:(1)>
18. 7=T 130=F ==> 141=T <conf:(1)>
19. 7=T 130=F 141=T ==> 129=F <conf:(1)>
20. 7=T 129=F 141=T ==> 130=F <conf:(1)>
21. 7=T 129=F 130=F ==> 141=T <conf:(1)>
22. 7=T 130=F ==> 129=F 141=T <conf:(1)>
23. 7=T 129=F ==> 130=F 141=T <conf:(1)>
24. 62=F ==> 141=T <conf:(1)>
25. 8=T ==> 141=T <conf:(1)>
26. 20=F ==> 141=T <conf:(1)>
27. 33=F ==> 141=T <conf:(1)>
28. 39=F ==> 141=T <conf:(1)>
29. 7=T 19=F ==> 141=T <conf:(1)>
30. 7=T 32=F ==> 141=T <conf:(1)>
101
102
6.4. Website Keyobjects
id descripcion keyobject
7 cabecera logo mba sı
8 cabecera menu navegacion sı
143 super testimonios sı
141 super foto cabecera sı
4 banner x4 no
142 super noticias sı
2 banner links de interes no
3 banner siguenos no
11 compartir inferior no
27 cuerpo p7 malla curricular sı
55 cuerpo p84 magisteres sı
6 cabecera logo ingenieria industrial no
54 cuerpo p83 primer parrafo descripcion sı
51 cuerpo p83 becas 50 por ciento sı
53 cuerpo p83 financiamiento directo sı
16 cuerpo p2 porque elegirnos sı
20 cuerpo p4 texto cuerpo estructura sı
22 cuerpo p4 texto cuerpo modalidad sı
47 cuerpo p81 modalidad sı
26 cuerpo p6 metodologıa sı
21 cuerpo p4 texto cuerpo grado otorgado sı
50 cuerpo p83 bancos y contacto no
23 cuerpo p4 texto cuerpo objetivos sı
18 cuerpo p4 grafico secuencia temporal sı
126 formulario contacto sı
38 cuerpo p8 contenido cursos sı
13 cuerpo p10 doble grado internacional sı
5 cabecera buscar no
66 cuerpo p9 promedio edad no
9 cabecera rss no
103
CAPITULO
7
APENDICE B: RESULTADOS
SEGUNDO EXPERIMENTO
7.1. SOFM
C1 = [2732, 1296, 5567, 1280, 4529, 4302, 2106, 2798, 3195, 2066,
5347, 3600, 3506, 5534, 2739, 3315, 4729, 4541]
C2 = [5727, 5710, 3789, 4738, 4665, 4274, 1618, 2255, 1264, 5100,
5391, 2034, 4931, 2407, 4134, 3437, 2682, 5676, 1164, 5671,
5291, 5655, 4708, 2314, 2622, 3232, 2167, 2399, 3380, 4932,
1726, 2040, 3172, 3867, 2890, 2792, 3211, 1274, 4357]
C3 = [3297, 5669, 4611, 5184, 3476, 5732, 3938, 5350, 2714, 1500,
4891, 5054, 1214, 5948, 4218, 3309, 3670, 2089, 3311, 2566,
1284, 2421, 3688, 1400, 3179, 2935, 5619, 3970, 1685, 4491,
4071, 4179, 4443, 3744, 5851, 1704, 5374, 4291, 1636, 2568,
2311, 4554, 2196, 5951, 1169, 2428, 3718, 2178, 5416, 3250,
1524, 1615, 2337, 3456, 4200, 3860, 5889, 2800, 1335, 2525,
2553, 4876, 5499, 2853, 3717, 3474, 1590, 5021, 5226, 5302,
1885, 5876, 4705, 2265, 5060, 1470, 5484, 1359, 4730, 1373,
104
4747, 1467, 5190, 3503, 2555, 3231, 5329, 1140, 5026, 5449,
5223, 1880, 3042, 1573, 5865, 4136, 1312, 4861, 4625, 4360,
2901, 2301, 4586, 1810, 3162, 1095, 3459, 1282, 5333, 3724,
4312, 2556, 5383, 5214, 6011, 2305, 2390, 1149, 3734, 4727,
2072, 2302, 2435, 5843, 2293, 3628, 2633, 1835, 4653, 3403,
3470]
C4 = 4760, 2493, 4999, 2186, 1447, 2028, 5284, 1985, 2321, 4170,
4196, 2550, 1364, 2203, 4238, 5654, 3462, 3482, 1733, 4216,
4733, 3181, 3022, 3859, 4845, 5549, 5548, 2717, 3876, 3814,
3384, 1314, 2331, 1699, 2287, 5269, 4934, 3208, 5902, 4900,
2259, 4952, 5944, 1251, 2977, 4781, 5919, 3941, 4864, 2804,
4153, 5096, 3534, 5559, 1410, 1236, 5376, 5665, 2781, 1850,
1957, 4766, 1158, 3847, 5003, 2704, 4940, 1862, 2443, 5322,
5439, 2451, 5354, 4717, 2155, 3975, 3735, 1585, 5652, 2317,
1624, 5867, 3239, 3218, 3757, 4690, 2841, 5544, 2267, 3416,
3844, 2401, 2082, 4295, 4321, 3261, 4870, 5237, 4800, 5379,
4107, 3851, 4919, 2275, 3591, 3565, 1882, 3634, 4195, 2381,
3500, 5992, 3089, 1900]
C5 = [5040, 5319, 2697, 5790, 2015, 5721, 2123, 4739, 5641, 4534,
5207, 4230, 2561, 4568, 3551, 5578, 1505, 5272, 3789, 1605,
3772, 5230, 5531, 4799, 4478, 1502, 4632, 5185, 1166, 2659,
3738, 2527, 4673, 5873, 5352, 4651, 2160, 4924, 4062, 4885,
3655, 4795, 2181, 4404, 2917, 2365, 2645, 3046, 5887, 5752,
1248, 3622, 5515, 4510, 4647, 3658, 5228, 5287, 1445, 4347,
4852, 4846, 2749, 5072, 1285, 3739, 3244, 1645, 3001, 5392,
4180, 2289, 2319, 5068, 1675, 1583]
C6 = [4089, 4523, 3826, 4479, 2787, 2846, 4682, 1698, 3684, 3045,
105
3726, 5362, 3493, 3508, 5227, 5425, 3588, 4317, 1933, 3029,
2687, 3997, 3286, 2700, 1876, 1157, 3115, 4205, 2516, 1150,
2847, 1163, 2772, 4912, 2505, 1453, 4686, 1288, 2355, 3050,
1584, 2771, 5874, 4181, 2277, 1948, 4908, 5415, 4892, 4621,
5435, 3733, 3566, 5183, 5142, 4328, 2076, 4613, 5547, 1481,
4124, 5808, 5801, 3624, 3886, 2747, 1438, 4210, 5690, 3995,
5675, 4863, 2459, 3758, 1620, 3870, 4322, 4517, 2549, 1341,
3236, 2959, 5295, 4191, 4624, 2286, 3882, 2603, 5095, 4480,
1855, 1233, 4512, 1283, 1105, 3391, 4146, 4711, 1459, 2333,
4503, 4351, 5649, 3101, 3318, 3513, 4546, 4646, 4743, 4540,
1191, 1887, 3953, 2197, 4796, 2294, 4112, 4164, 5576, 4483,
3727, 1857, 3993, 1637, 2745, 5017, 4507, 5303, 1362, 1129,
4787, 4000, 1559, 3435, 2639, 5239, 1725, 5569, 3517, 3836,
1755, 1683, 3078, 2260, 1522, 4045, 2406, 5278, 4001, 1118,
5341, 2469, 2643, 4387, 5917, 4631, 5498, 3377, 3302, 3732,
3092, 1507, 3978, 3661, 2767, 3780, 4850, 1483, 3645, 5421,
4248, 5726]
C7 = [3605, 1422, 4474, 5356, 5363, 4497, 1210, 4957, 4380, 5153,
1281]
C8 = [4035, 1278, 5283, 1198, 2881, 5646, 1730, 5216, 2731]
7.2. K-Means
7.2.1. Clusters de sesiones
C1 = [3732, 5876, 3500, 2901, 3622, 2659, 2881]
C2 = [1212]
106
C3 = [4522, 5865, 2516, 1263, 5421, 1191, 3758, 2435, 2704, 4878,
3181, 3830, 4091, 5901, 3315, 1210, 3588, 4541, 5239, 5485,
4302, 3236, 3582, 1585, 3870, 4624, 4507, 1375, 4621, 4896,
2160, 4404, 5874, 2556, 4898, 1725, 2866, 3991, 4714, 4912,
1343, 5727, 1283, 2566, 3685, 2772, 1559, 2781, 4651, 2390,
4291, 5873, 1683, 2421, 3950, 2740, 1292, 5676, 1158, 5654,
1948, 3849, 1675, 3584, 2277, 4071, 3202, 1618, 2401, 2286,
4586, 3305, 1129, 5346, 4124, 2717, 5840, 4811, 3652, 5417,
4739, 1660, 5190, 5095, 4451, 5520, 3022, 4892, 2040, 3938,
3095, 3232, 1597, 2194, 4617, 2459, 2800, 3422, 3782, 2847,
2576, 5619, 1566, 3503, 4738, 1420, 2265, 4919, 2549, 2078,
3462, 4090, 5870, 1699, 2087, 5425, 1362, 1285, 4480, 3600,
1583, 3628, 5534, 2643, 4625, 5710, 2495, 3452, 4631, 5856,
5228, 5393, 2960, 5681, 2917, 3551, 1626, 5675, 5919, 5790,
5352, 4395, 5902, 5327, 3882, 3432, 3441, 5504, 2021, 1159,
2331, 4443, 2739, 3850, 3941, 2858, 3266, 5379, 1590, 5951,
3847, 1858, 5410, 1517, 2505, 3172, 4546, 1571, 2568, 3150,
5354, 4750, 4483, 1857, 2771, 1251, 2186, 4647, 4353, 4402,
5303, 4380, 5017, 5993, 3311, 4799, 2176, 1598, 4511, 1916,
2469, 1095, 2882, 4317, 5567, 5992, 2531, 2321, 4748, 1467,
1556, 4000, 1810, 5914, 5948, 2275, 3403, 2747, 1885, 5435,
4581, 5548, 2787, 5549, 4387, 4613, 5804, 5341, 4218, 4347,
1214, 4170, 1985, 3318, 4355, 1425, 2311, 5312, 5185, 4558,
1841, 2577, 3431, 4436, 4908, 1169, 4180, 4705, 2167, 2260,
3204, 1265, 1262, 3101, 4795, 3614, 5663, 1887, 5501, 5295,
5563, 1909, 2633, 2302, 3250, 2697, 4504, 5521, 5297, 1274,
1438, 1500, 2904, 5072, 1898, 1997, 2766, 3565, 5207, 2561
107
1211, 5913, 3365, 5009, 2287, 3634, 5509, 1734, 4359, 2308,
4846, 5559, 4628, 4934, 5484, 2804, 2267, 3465, 3970, 4627,
5499, 2028, 2307, 1312, 2695, 4523, 1569, 5734, 2428, 5671,
3391, 1572, 5588, 2964, 3299, 5783, 4717, 3534, 1698, 3566,
1730, 4766, 2346, 5391, 3637, 3876, 1233, 3340, 2233, 4306,
3309, 5844, 5424, 3871, 3632, 5641, 3001, 1726, 2895, 4517,
2679, 1314, 2255, 5674, 5388, 5934, 4724, 5944, 2962, 4900
3231, 3286, 5064, 3029, 4827, 6008, 4529, 2034, 3717, 1687,
1449, 2682, 1603, 3572, 2066, 4351, 4885, 4179, 4632, 4138,
5223, 3859, 2407, 5052, 4166, 4568, 1958, 3899, 4452, 5437,
4690, 5356, 1794, 5415, 1453, 3733, 3886, 2070, 2841, 4629,
5273, 1280, 5264, 4653, 4388, 5984, 1166, 3114, 2072, 1155,
4512, 3753, 5291, 3390, 5344, 2071, 4008, 1605, 3039, 4728,
5359, 1481, 2745, 5977, 2988, 4734, 3982, 2620, 3195, 5554,
1584, 1333, 3748, 1149, 5801, 4062, 3437, 1376, 3078, 4334,
1435, 2640, 5256, 3162, 3744, 1704, 1422, 5153, 3045, 2493,
3134, 1350, 4155, 2798, 3599, 3011, 3661, 2838, 5025, 5655,
1483, 1430, 3844, 5598, 4216, 3302, 5547, 2696, 1295, 2293,
2090, 1807, 4089, 4497, 5278, 2557, 1447, 1850, 2251, 4786,
5227, 1296, 4569, 4251, 1234, 5183, 4696, 4238, 4107, 5963,
3477, 4639, 2010, 2889, 5571, 3653, 2405, 3517, 3233, 1475,
2767, 2835, 5592, 5515, 5843, 5026, 3435, 4861, 4041, 2406,
5867, 1762, 3823, 2909, 1587, 3200, 2603, 4479, 4478, 5199,
5100, 2846, 5732, 3115, 4296, 4112, 2714, 1163, 3513, 3739,
2076, 2490, 5649, 2853, 5510, 1436, 5594, 4534, 2831, 4894,
4863, 5287, 1364, 4196, 2297, 5272, 3605, 2891, 2127, 1260,
2955, 1795, 4924, 3814, 4146, 4646, 3655, 1281, 4850, 4136,
108
4718, 3312, 2319, 2615, 4527, 1554, 1373, 1862, 5362, 5347,
3270, 1359, 5544, 3416, 3456, 5311, 1505, 1470, 1400, 5498,
1410, 5580, 4153, 3324, 3042, 1335, 5744, 5011, 3995, 1153,
1150, 5340, 3922, 2097, 5946, 5142, 2137, 5288, 5096, 4453,
5428, 5533, 4321, 4554, 3016, 4864, 4295, 2550, 5066, 1502,
1215, 5569, 1637, 5363, 4294, 1748, 2827, 5669, 1882, 4796,
3050, 1518, 4035, 5752, 5582, 4845, 1140, 4313, 3993, 2196,
2874, 1733, 4209, 3508, 1198, 1876, 4510, 5561, 3709, 3937,
1524, 5664, 3966, 2518, 4018, 3505, 2815, 1360, 3096, 5652,
3482, 4733, 2732, 2660, 4673, 5217, 5360, 3728, 3868, 5660,
4312, 4134, 2155, 3171, 2479, 3787, 1157, 1493, 5777, 2667,
4357, 4491, 2337, 3975, 4163, 2949, 4191, 1685, 4999, 3322,
5853, 3821, 1754, 5480, 3789, 5576, 2935, 3860, 4241, 3297,
4730, 1341, 3684, 5887, 4933, 2285, 4186, 2294, 5633, 3734,
1933, 3247, 5723, 4530, 5021, 1235, 4665, 5237, 4989, 5802,
4895, 3459, 4857, 2959, 2555, 3046, 3971, 4524, 1117, 4492,
3476, 5449, 1632, 4802, 5827, 5302, 2015, 4540, 5639, 3601,
2507, 1366, 1573, 3136, 5155, 1756, 4332, 3727, 1880, 3591,
3480, 5322, 2687, 4753, 1640, 2289, 3181, 5284, 4205, 4608,
3997, 4760, 2284, 4729, 1523, 2612, 2836, 1835, 4230, 3092,
3780, 4940, 3091, 5329, 2700, 4310, 2259, 4794, 4515, 1515,
4474, 3211, 4400, 4852, 3120, 1781, 5917, 2685, 2197, 3772,
1236, 5333, 2783, 4274, 5033, 4270, 5068, 1264, 1457, 4433,
3396, 2181, 5721, 4874, 2089, 5426, 4611, 3658, 5349, 2355,
4626, 3836, 5283, 3089, 5746, 1759, 2253, 2365, 5394, 2314,
5892, 3779, 4935, 5851, 4394, 5184, 3724, 1522, 2235, 6011,
4720, 3453, 1934, 5578, 5889, 4870, 5497, 3864, 4800, 3851,
109
1305, 3275, 1624, 2514, 4954, 3493, 3470, 4338, 4001, 1282,
4781, 5940, 5665, 2645, 2914, 4248, 1278, 2512, 4121, 2351,
3826, 4876, 4957, 4503, 3253, 3261, 4360, 2613, 1288, 3740,
5165, 3479, 2403, 2821, 4655, 3735, 3940, 3949, 5274, 4708,
1164, 2333, 2571, 1551, 5392, 1796, 5357, 2954, 2450, 1574,
2731, 4543, 2995, 1558, 2890, 4871, 1238, 2497, 3867, 5350,
5003, 3718, 1889, 1248, 2305, 4239, 5955, 2317, 4686, 2860,
4328, 4711, 5376, 2250, 2451, 2629, 3218, 1936, 2443, 3444,
5196, 5276, 4200, 4991, 2622, 5791, 3646, 5811, 2454, 3621,
5374, 2573, 3466, 2922, 5735, 5383, 4747, 1957, 4521, 5054,
3624, 5386, 4195, 4614, 2322, 3469, 1121, 5531, 3377, 5216,
4932, 2382, 4471, 1570, 1259, 4164, 4958, 4314, 5690, 1620,
3380, 5780, 5040, 5447, 2758, 1615, 5230, 4938, 1740, 1874,
5269, 1755, 4322, 2977, 5416, 1636, 3865, 5412, 4133, 5198,
1623, 1111, 1206, 1118, 2943, 2475, 4756, 1445, 1132, 3663,
3518, 1579, 4247, 3208, 5507, 5277, 5712, 1722, 1284, 1900,
4913, 4045, 5709, 5808, 3625, 1580, 1302, 1249, 3474, 4161,
2106, 1307, 3003, 4931, 4187, 5345, 2527, 2639, 2123, 4677,
2394, 3645, 3738, 1773, 2525, 5353, 3210, 5875, 2258, 4615,
1257, 2039, 2482, 4952, 3726, 2465, 3398, 1507, 3670, 1593,
4688, 1352, 5334, 3397, 1378, 2553, 2788, 3506, 3280, 4889,
2792, 5956, 2749, 4181, 1801, 2657, 4727, 1464, 1684, 1384,
2381, 5226, 1855, 2178, 3648, 1326, 1351, 3667, 3671, 3635,
5522, 4468, 2192, 5584, 5400, 4706, 4742, 2824, 4464, 1324,
3328, 4309, 3265, 3595, 3417, 5489, 3366, 5286, 4891, 1503,
1918, 4210, 5726, 2341, 5657, 3762, 3978, 1645, 3384, 4918,
5857, 4508]
110
C4 = [3757, 5439]
C5 = [5319, 4787]
C6 = [3239, 4682]
C7 = [3953, 2342, 5060, 3179, 4712, 3644, 2316, 5646, 4927, 5403,
4904, 2399, 2822, 2082, 3688, 5304, 2203, 5214, 4721, 1746,
1105, 3244, 2301, 4185, 4743, 1114, 1541]
111
7.2.2. Numero de apariciones de objetos en Clusters
objeto apariciones objeto apariciones objeto apariciones objeto apariciones
1 2 2 4 3 2 4 4
5 2 6 4 7 4 8 4
9 2 10 4 11 2 12 3
13 3 14 1 15 1 16 3
17 2 18 4 19 4 20 2
21 4 22 4 23 4 24 1
25 1 26 3 27 4 28 1
29 2 30 2 31 1 32 1
33 2 34 2 35 2 36 2
37 2 38 3 39 1 40 2
41 1 42 2 43 1 44 1
45 1 46 1 47 2 48 2
49 1 50 2 51 3 52 3
53 3 54 3 55 3 56 3
57 3 58 1 59 1 60 2
61 1 62 1 63 3 64 3
65 3 66 1 67 2 68 1
69 1 70 1 71 1 72 1
73 1 74 1 75 1 76 1
77 1 78 1 79 1 80 1
81 1 82 1 83 1 84 1
112
objeto apariciones objeto apariciones objeto apariciones objeto apariciones
85 1 86 1 87 1 88 1
89 1 90 1 91 1 92 1
93 1 94 1 95 1 96 1
97 1 98 1 99 1 100 1
101 1 102 1 103 1 104 1
105 1 106 1 107 1 108 1
109 1 110 1 111 1 112 1
113 1 114 1 115 1 116 1
117 1 118 1 119 1 120 1
121 1 122 1 123 1 124 1
125 1 126 2 127 2 128 1
129 1 130 1 131 3 132 1
133 2 134 2 135 1 137 1
138 1 139 4 140 2 141 4
142 4 143 4 144 1 145 1
146 1 147 1 148 1 149 1
150 1 151 1 152 1 153 1
154 2 155 1 156 1 157 1
158 1 160 1 161 1 162 1
163 1
7.3. Association Rules
1. 141=T ==> 8=T <conf:(1)>
2. 7=T ==> 8=T <conf:(1)>
3. 7=T 141=T ==> 8=T <conf:(1)>
113
4. 123=F ==> 8=T <conf:(1)>
5. 76=F ==> 8=T <conf:(1)>
6. 76=F ==> 141=T <conf:(1)>
7. 7=T 123=F ==> 8=T <conf:(1)>
8. 76=F 141=T ==> 8=T <conf:(1)>
9. 8=T 76=F ==> 141=T <conf:(1)>
10. 76=F ==> 8=T 141=T <conf:(1)>
11. 99=F ==> 8=T <conf:(1)>
12. 99=F ==> 141=T <conf:(1)>
13. 99=F 141=T ==> 8=T <conf:(1)>
14. 8=T 99=F ==> 141=T <conf:(1)>
15. 99=F ==> 8=T 141=T <conf:(1)>
16. 123=F 141=T ==> 8=T <conf:(1)>
17. 7=T 123=F 141=T ==> 8=T <conf:(1)>
18. 7=T 76=F ==> 8=T <conf:(1)>
19. 7=T 76=F ==> 141=T <conf:(1)>
20. 7=T 76=F 141=T ==> 8=T <conf:(1)>
21. 7=T 8=T 76=F ==> 141=T <conf:(1)>
22. 7=T 76=F ==> 8=T 141=T <conf:(1)>
23. 7=T 99=F ==> 8=T <conf:(1)>
24. 7=T 99=F ==> 141=T <conf:(1)>
25. 7=T 99=F 141=T ==> 8=T <conf:(1)>
26. 7=T 8=T 99=F ==> 141=T <conf:(1)>
27. 7=T 99=F ==> 8=T 141=T <conf:(1)>
28. 29=F ==> 8=T <conf:(1)>
29. 106=F ==> 8=T <conf:(1)>
30. 87=F ==> 8=T <conf:(1)>
114
115
7.4. Website Keyobjects
id descripcion keyobject
7 cabecera logo mba sı
8 cabecera menu navegacion sı
143 super testimonios sı
141 super foto cabecera sı
4 banner x4 no
142 super noticias sı
2 banner links de interes no
3 banner siguenos no
11 compartir inferior no
27 cuerpo p7 malla curricular sı
55 cuerpo p84 magisteres sı
52 cuerpo p83 financiamiento bancario no
50 cuerpo p83 bancos y contacto no
54 cuerpo p83 primer parrafo descripcion sı
51 cuerpo p83 becas 50 por ciento sı
53 cuerpo p83 financiamiento directo sı
16 cuerpo p2 porque elegirnos sı
20 cuerpo p4 texto cuerpo estructura sı
22 cuerpo p4 texto cuerpo modalidad sı
21 cuerpo p4 texto cuerpo grado otorgado sı
19 cuerpo p4 texto cuerpo convalidaciones no
23 cuerpo p4 texto cuerpo objetivos sı
18 cuerpo p4 grafico secuencia temporal sı
126 formulario contacto sı
38 cuerpo p8 contenido cursos sı
13 cuerpo p10 doble grado internacional sı
12 cuerpo p10 convenios de intercambio no
63 cuerpo p9 distribucion de cargos sı
66 cuerpo p9 promedio edad no
64 cuerpo p9 nacionalidad no
116
BIBLIOGRAFIA
[1] Noor F. Ali-Hasan, Elizabeth J. Harrington, and Joel B. Richman. Best prac-
tices for eye tracking of television and video user experiences. In Proceeding
of the 1st international conference on Designing interactive user experiences
for TV and video, UXTV ’08, pages 5–8, New York, NY, USA, 2008. ACM.
[2] T. Berners-Lee, R. Cailliau, J.F. Groff, and B. Pollermann. World-wide web:
The information universe. Internet Research, 2(1):52–58, 1993.
[3] Tim Berners-Lee, Robert Cailliau, Ari Luotonen, Henrik Frystyk Nielsen, and
Arthur Secret. The world-wide web. Commun. ACM, 37:76–82, August 1994.
[4] David M. Blei, Andrew Y. Ng, and Michael I. Jordan. Latent dirichlet allo-
cation. J. Mach. Learn. Res., 3:993–1022, March 2003.
[5] Ronald J. Brachman and Tej Anand. Advances in knowledge discovery
and data mining. chapter The process of knowledge discovery in databas-
es, pages 37–57. American Association for Artificial Intelligence, Menlo Park,
CA, USA, 1996.
[6] S. Brin and L. Page. The anatomy of a large-scale hypertextual Web search
engine* 1. Computer networks and ISDN systems, 30(1-7):107–117, 1998.
[7] Radek Burget and Ivana Rudolfova. Web page element classification based
on visual features. In Ngoc Thanh Nguyen, Huynh Phan Nguyen, and Adam
Grzech, editors, ACIIDS, pages 67–72. IEEE Computer Society, 2009.
117
[8] Georg Buscher, Ralf Biedert, Daniel Heinesch, and Andreas Dengel. Eye
tracking analysis of preferred reading regions on the screen. In Elizabeth D.
Mynatt, Don Schoner, Geraldine Fitzpatrick, Scott E. Hudson, W. Keith
Edwards, and Tom Rodden, editors, CHI Extended Abstracts, pages 3307–
3312. ACM, 2010.
[9] L.D. Catledge and J.E. Pitkow. Characterizing browsing strategies in the
World-Wide Web. Computer Networks and ISDN systems, 27(6):1065–1073,
1995.
[10] Juan J. Cerrolaza, Arantxa Villanueva, and Rafael Cabeza. Taxonomic study
of polynomial regressions applied to the calibration of video-oculographic
systems. In Proceedings of the 2008 symposium on Eye tracking research
& applications, ETRA ’08, pages 259–266, New York, NY, USA, 2008.
ACM.
[11] G. Chang, M. Healey, J. McHugh, and J. Wang. Mining the World Wide
Web. Kluwer, 2001.
[12] WORLD WIDE WEB CONSORTIUM. Especificacion del protocolo html
4.01. http://www.w3.org/TR/1999/REC-html401-19991224/. Lastchecked
30 Marzo 2011.
[13] WORLD WIDE WEB CONSORTIUM. Especificacion del protocolo http.
http://www.w3.org/Protocols/. Lastchecked 30 Marzo 2011.
[14] WORLD WIDE WEB CONSORTIUM. Especificacion uniform resource lo-
cator. http://www.w3.org/Addressing/URL/url-spec.html. Lastchecked 06
Abril 2011.
118
[15] WORLD WIDE WEB CONSORTIUM. Logging control in w3c.
http://www.w3.org/Daemon/User/Config/Logging.html. Lastchecked 01
Abril 2011.
[16] R. Cooley, B. Mobasher, J. Srivastava, et al. Data preparation for mining
world wide web browsing patterns. Knowledge and information systems,
1(1):5–32, 1999.
[17] R. Da. A METHOD OF MEASURING EYE MOVEMENT USING A SCLE-
RAL SEARCH COIL IN A MAGNETIC FIELD. IEEE transactions on bio-
medical engineering, 10:137, 1963.
[18] Centro de Investigacion de la Web. Como funciona La Web. pages 1–142.
Universidad de Chile, 2008.
[19] A.T. Duchowski. Eye tracking methodology: Theory and practice. Springer
Verlag, 2003.
[20] Luis E. Dujovne and Juan D. Velasquez. Design and Implementation of a
Methodology for Identifying Website Keyobjects. In Proceedings of the 13th
International Conference on Knowledge-Based and Intelligent Information
and Engineering Systems: Part I, KES ’09, pages 301–308, Berlin, Heidelberg,
2009. Springer-Verlag.
[21] Oren Etzioni. The world-wide web: quagmire or gold mine? Commun. ACM,
39:65–68, November 1996.
[22] U. Fayyad, G. Piatetsky-Shapiro, and P. Smyth. From data mining to knowl-
edge discovery in databases. AI magazine, 17(3):37, 1996.
[23] Luis Eduardo Dujovne Fischman. Diseno y Aplicacion de una Metodologıa
para el Mejoramiento del Contenido de Sitios Web Mediante la Identificacion.
Master’s thesis, Santiago, Chile, 2010.
119
[24] G.W. Flake, S. Lawrence, C.L. Giles, and F.M. Coetzee. Self-organization
and identification of web communities. Computer, 35(3):66–70, 2002.
[25] Simone Frintrop, Ro Erich, and Henrik I. Christensen. Computational visual
attention systems and their cognitive foundations: A survey. ACM Trans.
Appl. Percept., 7:6:1–6:39, January 2010.
[26] D.R. Fulkerson and L.R. Ford Jr. Maximal flow through a network. Canad.
J. Math, 8:399–404, 1956.
[27] J.M. Gallaugher and S.C. Ramanathan. Choosing a Client/Server Architec-
ture. Information Systems Management, 13(2):7–13, 1996.
[28] D. Gibson, J. Kleinberg, and P. Raghavan. Inferring web communities from
link topology. In Proceedings of the ninth ACM conference on Hypertext and
hypermedia: links, objects, time and space—structure in hypermedia systems:
links, objects, time and space—structure in hypermedia systems, pages 225–
234. ACM, 1998.
[29] L. Granka, H. Hembrooke, and G. Gay. Location location location: Viewing
patterns on WWW pages. In Proceedings of the 2006 symposium on Eye
tracking research & applications, page 43. ACM, 2006.
[30] Laura A. Granka, Thorsten Joachims, and Geri Gay. Eye-tracking analysis of
user behavior in www search. In Proceedings of the 27th annual ACM SIGIR
conference, pages 478–479, Sheffield, United Kingdom, 2004. ACM.
[31] MINIWATTS MARKETING GROUP. Estadısticas de uso de internet y sitios
web. http://www.internetworldstats.com/stats.htm, 2011. Lastchecked 01
Marzo 2011.
[32] Claudio Gutierrez. Como funciona la Web, chapter La Web como espacio de
informacion universal, pages 9 – 22. Centro de Investigacion de la Web, 2008.
120
[33] E.H. Hess and J.M. Polt. Pupil size as related to interest value of visual
stimuli. Science, 132:349–350, 1960.
[34] William H. Inmon, Derek Strauss, and Genia Neushloss. DW 2.0: The Ar-
chitecture for the Next Generation of Data Warehousing. Morgan Kaufmann
Publishers Inc., San Francisco, CA, USA, 2008.
[35] G. Kanizsa. Subjective contours. Scientific American, 1976.
[36] J.M. Kleinberg. Authoritative sources in a hyperlinked environment. Journal
of the ACM (JACM), 46(5):604–632, 1999.
[37] R. Kosala and H. Blockeel. Web mining research: A survey. ACM SIGKDD
Explorations Newsletter, 2(1):1–15, 2000.
[38] VI Levenshtein. Binary codes capable of correcting deletions, insertions and
reversals, Cybernet. Control Theory, 10(8):707–710, 1966.
[39] Boh Martin, Michael Dorr, Mathis Graw, Thomas Martinetz, and Erhardt
Barth. A software framework for simulating eye trackers. In Proceedings of
the 2008 symposium on Eye tracking research & applications, ETRA ’08,
pages 251–258, New York, NY, USA, 2008. ACM.
[40] Vasily G. Moshnyaga. The use of eye tracking for pc energy management. In
Carlos Hitoshi Morimoto, Howell O. Istance, Aulikki Hyrskykari, and Qiang
Ji, editors, ETRA, pages 113–116. ACM, 2010.
[41] OH Mowrer, TC Ruch, and NE Miller. The corneo-retinal potential differ-
ence as the basis of the galvanometric method of recording eye movements.
American Journal of Physiology–Legacy Content, 114(2):423, 1935.
[42] Glenn J. Myatt. Making Sense of Data: A Practical Guide to Exploratory
Data Analysis and Data Mining. Wiley-Interscience, 2006.
121
[43] Glenn J. Myatt and Wayne P. Johnson. Making Sense of Data II: A Practical
Guide to Data Visualization, Advanced Data Mining Methods, and Applica-
tions. Wiley Publishing, 2009.
[44] J. Nielsen and K. Pernice. Eyetracking web usability. New Riders Pub, 2009.
[45] Flavio T.P. Oliveira, Anne Aula, and Daniel M. Russell. Discriminating the
relevance of web search results with measures of pupil size. In Proceedings
of the 27th international conference on Human factors in computing systems,
CHI ’09, pages 2209–2212, New York, NY, USA, 2009. ACM.
[46] S.K. Pal, V. Talwar, and P. Mitra. Web mining in soft computing framework:
Relevance, state of the art and future directions. Neural Networks, IEEE
Transactions on, 13(5):1163–1177, 2002.
[47] Bing Pan, Helene A. Hembrooke, Geri K. Gay, Laura A. Granka, Matthew K.
Feusner, and Jill K. Newman. The determinants of web page viewing behav-
ior: an eye-tracking study. In Proceedings of the 2004 symposium on Eye
tracking research \& applications, pages 147–154, San Antonio, Texas, 2004.
ACM.
[48] Timo Partala and Veikko Surakka. Pupil size variation as an indication of
affective processing. Int. J. Hum.-Comput. Stud., 59:185–198, July 2003.
[49] Sami Pietinen, Roman Bednarik, Tatiana Glotova, Vesa Tenhunen, and
Markku Tukiainen. A method to study visual attention aspects of collabo-
ration: eye-tracking pair programmers simultaneously. In Kari-Jouko RAihA
and Andrew T. Duchowski, editors, ETRA, pages 39–42. ACM, 2008.
[50] Jose Miguel Piquer. Como funciona la Web, chapter Internet, pages 43 – 50.
Centro de Investigacion de la Web, 2008.
122
[51] A. Poole and L.J. Ball. Eye tracking in human-computer interaction and us-
ability research: current status and future prospects. Encyclopedia of human
computer interaction, pages 211–219, 2005.
[52] C.D. Redline and C.P. Lankford. Eye-movement analysis: a new tool for
evaluating the design of visually administered instruments (paper and web).
In AAPOR Annual Conference, Montreal, Quebec, Canada, May. Citeseer,
2001.
[53] D. Roberts, M. Shelhamer, and A. Wong. A new wireless search-coil system.
In Proceedings of the 2008 symposium on Eye tracking research & applica-
tions, pages 197–204. ACM, 2008.
[54] Darrell S. Rudmann, George W. McConkie, and Xianjun Sam Zheng. Eye-
tracking in cognitive state detection for hci. In Sharon L. Oviatt, Trevor
Darrell, Mark T. Maybury, and Wolfgang Wahlster, editors, ICMI, pages
159–163. ACM, 2003.
[55] G. Salton, A. Wong, and C. S. Yang. A vector space model for automatic
indexing. Commun. ACM, 18:613–620, November 1975.
[56] M. Seco. Estudios de lexicografıa espanola. Thomson-Paraninfo, 1987.
[57] B. Shackel. Eye movement recording by electro-oculography. Venables
DH, Martin IManual of Psycho-physiological Methods. Amsterdam: North-
Holland, pages 299–236, 1967.
[58] Nigel Shadbolt, Tim Berners-Lee, Jim Hendler, Claire Hart, and Richard
Benjamins. The next wave of the web. In Proceedings of the 15th international
conference on World Wide Web, WWW ’06, pages 750–750, New York, NY,
USA, 2006. ACM.
123
[59] M. Spiliopoulou. Data mining for the web. Principles of Data Mining and
Knowledge Discovery, pages 588–589, 1999.
[60] M. Spiliopoulou and L. Faulstich. WUM: a tool for web utilization analysis.
The World Wide Web and Databases, pages 184–203, 1999.
[61] Myra Spiliopoulou, Bamshad Mobasher, Bettina Berendt, and Miki Naka-
gawa. A framework for the evaluation of session reconstruction heuristics in
web-usage analysis. INFORMS J. on Computing, 15:171–190, April 2003.
[62] Jaideep Srivastava, Robert Cooley, Mukund Deshpande, and Pang-Ning Tan.
Web usage mining: discovery and applications of usage patterns from web
data. SIGKDD Explor. Newsl., 1:12–23, January 2000.
[63] Tobii Technology. Tobii Studio 2.X User Manual.
[64] Nikos Tsianos, Panagiotis Germanakos, Zacharias Lekkas, Costas Mourlas,
and George Samaras. Eye-tracking users’ behavior in relation to cognitive
style within an e-learning environment. In ICALT, pages 329–333. IEEE,
2009.
[65] Juan D. Velasquez and Luis E. Dujovne. Identifying Web Site Key Objects:
A Methodological Approach.
[66] Juan D. Velasquez and Vasile Palade. Adaptive Web SitesA Knowledge Ex-
traction from Web Data Approach. In Proceeding of the 2008 conference on
Adaptive Web Sites, pages 1–272, Amsterdam, The Netherlands, The Nether-
lands, 2008. IOS Press.
[67] Juan D. Velasquez, Richard Weber, Hiroshi Yasuda, and Terumasa Aoki.
A Methodology to Find Web Site Keywords. In Proceedings of the 2004
IEEE International Conference on e-Technology, e-Commerce and e-Service
124
(EEE’04), EEE ’04, pages 285–292, Washington, DC, USA, 2004. IEEE Com-
puter Society.
[68] Yanjun Wang and Qun Liu. Comparison of akaike information criterion (aic)
and bayesian information criterion (bic) in selection of stock-recruitment re-
lationships. Fisheries Research, 77(2):220 – 225, 2006.
[69] Ian H. Witten and Eibe Frank. Data Mining: Practical Machine Learning
Tools and Techniques with Java Implementations (The Morgan Kaufmann
Series in Data Management Systems). Morgan Kaufmann, 1st edition, Oc-
tober 1999.
[70] Juan D. Velasquez y Lorena Donoso. Aplicacion de Tecnicas de Web Mining
sobre los Datos Originados por Usuarios de Paginas Web. Vision Crıtica desde
las Garantıas Fundamentales, especialmente la Libertad, la Privacidad y el
Honor de las Personas. pages 47–68, 2010.
125