EL IMPERIALISMO PROFESOR: JORGE VARGAS JERIA SCUOLA ITALIANA DE VALPARAÍSO.
Minería Web de Uso y Perfiles de Usuario: Aplicaciones con Lógica Difusa Víctor Heughes Escobar...
-
Upload
teodosio-velarde -
Category
Documents
-
view
16 -
download
8
Transcript of Minería Web de Uso y Perfiles de Usuario: Aplicaciones con Lógica Difusa Víctor Heughes Escobar...
Minería Web de Uso y Perfiles de Usuario: Aplicaciones con Lógica Difusa
Víctor Heughes Escobar JeriaGranada, 2007
Directoras:Dra. María José Martín BautistaDra. María Amparo Vila Miranda
Departamento de Ciencias de la Computación e Inteligencia Artificial. Universidad de Granada.
Tesis Doctoral
2
La Minería Web se define como “el proceso global de descubrir información o conocimiento potencialmente útil y previamente desconocido a partir de los datos de la web” [Etzioni, 1996].
Forma intermedia
Técnicas de minería de datos adecuadas para el análisis
de la información que se encuentra en la web
Motivación
3
Minería Web
Minería Web de Uso
Minería Web de Estructura
Minería Web de Contenido
Documentos Web Enlaces entre e intraDocumentos
Archivos Log
Motivación
4
¿Cómo es el comportamiento de navegación del usuario en la web?
¿Cómo podemos identificar a los usuarios que navegan por la web si no se registran?
¿Cómo podemos ofrecer una información más adecuada al usuario durante su navegación?...
Minería de Datos
Lógica Difusa
Motivación
5
La obtención de patrones de navegación, a través de la técnica de reglas de asociación difusas.
Realizar un análisis demográfico, utilizando la técnica del clustering difuso para la agrupación y caracterización de sesiones de usuarios.
Construcción de perfiles de usuario, a través de un modelo general de obtención y representación de los mismos en XML.
La aplicación de la lógica difusa en la minería web de La aplicación de la lógica difusa en la minería web de uso.uso.
Objetivos
6
Minería Web de Uso. (Capítulo 3) - Modelo de datos.
Análisis de patrones de navegación. (Capítulo 4) - Obtención de reglas de asociación difusas para el análisis de patrones de
navegación: caso real (E.T.S.I.I.T.).
Análisis demográfico. (Capítulo 5)- Clustering de páginas similares: caso real.- Clustering difuso de sesiones de usuarios: caso real (E.T.S.I.I.T.).
Perfiles de usuario y lógica difusa. (Capítulo 6)- Modelo de obtención y representación en XML de los perfiles de
usuario.- Aplicación para un caso real (E.T.S.I.I.T.).
Conclusiones y trabajos futuros. (Capítulo 7)
Contenidos
7
Minería Web de Uso. (Capítulo 3) - Modelo de datos.
Análisis de patrones de navegación. - Obtención de reglas de asociación difusas para el análisis de
patrones de navegación: caso real.
Análisis demográfico.- Clustering de páginas similares: caso real.- Clustering difuso de sesiones de usuarios: caso real.
Perfiles de usuario y lógica difusa.- Modelo de obtención y representación en XML de
los perfiles de usuario.- Aplicación para un caso real.
Conclusiones y trabajos futuros.
Contenidos
8
Colección de Datos de Uso
Preprocesamiento de Datos de Uso
Descubrimiento de Patrones de Uso
Interpretación de los resultados
- Servidor Web
- Servidor Proxy
- Máquina del Usuario
- Heterogeneidad y Carencia de Estructura
- Forma Intermedia
Técnicas de Minería:
- Clustering
- Reglas de Asociación- Interpretar patrones
- Construir perfiles
Minería Web de Uso – Etapas (Capítulo 3) Minería Web de Uso Etapas (Capítulo 3)
9
Performance Log File Format (PLFF)
Tipos de ficheros
Registros de Accesos
Registros deError
Registros de Referencia
Registros de Agentes
Common Log File Format
(CLFF)
Extended Common Log File Format
(ECLFF)
Minería Web de Uso – Etapas (Capítulo 3) Minería Web de Uso Tipos de ficheros log (Capítulo 3)Minería Web de Uso Tipos de ficheros log (Capítulo 3)
10
Archivo Extended Common Log File Format (ECLFF)
Host o IP
Identificación de usuario
Autentificación de usuario
Fecha/Hora
Petición
Estado
Bytes
Pág. Referenciada
Agente
Minería Web de Uso Ejemplo de Fichero ECLFF
11
Una página web pi P , es un documento HTML
identificable a través de la red con una URL.
Una sesión de usuario sj S, se define como una secuencia de accesos temporales a un sitio particular de la Web por un usuario. Viene determinada por un conjunto de clicks en el sitio web, denominado clickstream.
La relación entre una página pi P y la sesión sj S en la que se
visita viene dada por la matriz UP, donde cada valor representa el tiempo de la permanencia del usuario en la página pi en la sesión sj
},...,,{ 21 npppP
},...,{ 1 qrrR
},...,,{ 21 msssS
Minería Web de Uso Modelo de datos (Capítulo 3)
njmipswUP ji 1 ,1 )],,([
12
Caracterizaremos el clickstream para la identificación de sesiones de usuarios (Método timeout [Chen et al., 1996]):
Sea rk el kth click del clickstream R de una dirección IP en tk segundos.
Sea rk+1 el (k+1)th click del clickstream de la misma dirección IP en tk+1 segundos después del click rk.
T es el tiempo de espera calculada como la diferencia entre ambos click en un sitio web es T =(tk+1 - tk)
Si T< β, siendo β el tiempo de espera máximo, entonces el click rk y rk+1 son considerados partes de la sesión Si. En otro caso, si T> β, entonces el click rk es estimada como final de la sesión Si, mientras el click rk+1 es el clickstream de la sesión Si+1.
Minería Web de Uso Modelo de datos (cont.)
13
Identificación de sesiones de usuario:Identificación de sesiones de usuario:
Minería Web de Uso Modelo de datos (cont.)
14
Minería Web de Uso (Capítulo 3) - Modelo de datos.
Análisis de patrones de navegación. (Capítulo 4) - Obtención de reglas de asociación difusas para el análisis de patrones
de navegación: caso real (E.T.S.I.I.T).
Análisis demográfico.- Clustering de páginas similares: caso real.- Clustering difuso de sesiones de usuarios: caso real.
Perfiles de usuario y lógica difusa.- Modelo de obtención y representación en XML de
los perfiles de usuario.- Aplicación para un caso real.
Conclusiones y trabajos futuros.
Contenidos
15
ObjetivoObjetivo
Obtener patrones de navegación del usuario y así tener una mejor descripción de su comportamiento en la web y de esa manera saber realmente lo que sucede en el sitio web.
ProblemaProblema
- Problema de navegación temporal: intervalo horario – página visitada.- Problema de navegación intrapágina: pagina visitada - página referenciada.
Metodología usadaMetodología usada
Reglas de asociación difusas.
Patrones de navegación
16
Patrones de navegación
)(~)(~0
0 iminIIi
Medidas de interés:Medidas de interés: hemos utilizado diferentes medidas para la obtención de las reglas de asociación difusas, tanto medidas objetivas como subjetivas [Liu et al., 2000].
Algoritmo:Algoritmo: AprioriTID
Reglas de asociación difusas (Capítulo 4)
Definición:Definición: [Delgado et al., 2003] Dado I un conjunto de ítems, definiremos una transacción difusa , donde . Sea el grado de pertenencia de i a y notaremos a el grado de inclusión de un ítemset en una transacción difusa definida como
Iτ~ )(~ i)(~
0I~
~
17
Hora. Peso Etiqueta
08:30 1.0 Mañana
12:45 0.5 Medio Día
15:25 0.4 Tarde
20:20 0.3 Noche
Problema 1:Problema 1: problema de navegación temporal.
Ítems: fecha/hora y páginas visitadas
Transacciones: tablas transaccionales difusa para la obtención de las reglas, para los ítems fecha/hora y páginas visitadas.
IP/Pag. Madrugada Mañana Medio día Tarde Noche Pag1 Pag2 Pag3
IP1 0 1.0 0 0 0 0.4 0 0.8
IP2 0 0 0.5 0 0 0 0 0.4
IP3 0 0 0 0.4 0 0.7 0.3 0
IP4 0 0 0 0 0.3 0.2 0 0
Patrones de navegaciónModelo asociado a la navegación temporal - Fecha-Página visitada
18
Fecha/Hora → Página Visitada.
Mañana → http://www.shop2.cz/ls/index.php?\&id=98\&filtr=102
- Soporte =60%; confianza =1.0; FC =1.0
Interpretación: del conjunto analizado el 60% presentaba esta regla, la cual nos indica que los usuarios se conectan por la mañana a esa página.
Patrones de navegaciónEjemplo de regla de asociación difusa – Fecha-Página visitada
19
IP/Pag. Pag1 Pag2 Pag3 Pag4
IP1 0 4 0 7
IP2 7 0 8 0
IP3 6 0 2 0
IP4 0 3 0 10
Problema 2:Problema 2: problema de navegación entre páginas.
Ítems: páginas visitadas y páginas referenciadas.
Transacciones:: tablas transaccionales difusa para la obtención de las reglas, para los ítems páginas visitadas y páginas referenciadas:
IP/Pag. Pag1 Pag2 Pag3 Pag4
IP1 0 0.4 0 0.7
IP2 0.7 0 0.8 0
IP3 0.6 0 0.2 0
IP4 0 0.3 0 1
Obtención de los pesos
Frecuencia peso
Patrones de navegaciónModelo asociado a la navegación entre páginas - Página visitada – Página referenciada (Capítulo 4)
20
página visitada → página referenciada
/dt/?c=11670 → http://www.shop2.cz
- Soporte =40%; confianza =1.0; FC =1.0
Interpretación: esto indica que los usuarios vistan a la página /dt/?c=11670 y luego se van a la página http://www.shop2.cz, esta regla se encuentra en un 40% dentro del conjunto analizado.
Patrones de navegaciónEjemplo de regla de asociación difusa – Página visitada – Página referenciada
21
Obtención de las creencias del usuarioObtención de las creencias del usuario
Creencia del Usuario:
1. Foro → asignaturas
2. Tablón de anuncios → actividades
3. Eventos → página principal
4. Programación → página principal
Para esto hemos realizado una encuesta (referente a la navegación entre páginas).
Medidas de calidad subjetivas:Medidas de calidad subjetivas: reglas conforme (confm), reglas con consecuentes inesperados (unexpConseq), reglas con antecedentes inesperados (unexpCond) y ambos lados de la reglas inesperados (bsUnexp) [Liu et al., 2000].
Patrones de navegación Medidas de calidad (Capítulo 4)
22
Conjuntos de datos:Conjuntos de datos:
Patrones de navegación Medidas de calidad (cont.)
Conjuntos de datos
Entrada de datos
originales
Entrada de datos preprocesadas
Preprocesamiento
Conjunto 1 100900 100810 Eliminación entradas idénticas
Conjunto 2 100810 46950 Eliminación entradas sin el campo de referencia
Conjunto 3 46950 16518 Eliminación de imágenes
Conjunto 4 16518 12910 Eliminación javascript
Conjunto 5 98202 15676 Preprocesamiento completo
23
N° Regla Sup Con FC Lif P-S Cf UCq UCd bs
Regla 1 0.052 0.47 0.39 6.98 0.04 0.0 1.0 0.0 0.0
Regla 2 0.076 0.50 0.32 2.98 0.05 0.0 1.0 0.0 0.0
Regla 3 0.02 0.85 0.83 6.35 0.02 0.0 0.0 0.0 1.0
Regla 4 0.01 0.83 0.80 6.17 0.01 0.0 0.0 0.0 1.0
Regla 5 0.03 0.65 0.65 4.88 0.02 0.0 0.0 0.0 1.0
Reglas obtenidas Reglas obtenidas del conjunto 5:del conjunto 5:
Discusión de los resultados:Discusión de los resultados: el usuario navega habitualmente por las diferentes secciones del foro.
N° Regla Reglas Obtenidas
Regla 1 GET/apps/tablon/ → http://etsiit.ugr.es
Regla 2 GET/apps/foro/index.php → http://etsiit.ugr.es
Regla 3 GET/apps/foro/index.php?idforo=asignaturas →
http://etsiit.ugr.es/apps/foro/index.php
Regla 4 GET/apps/foro/index.php?action=foro&idforo=escuela →
http://etsiit.ugr.es/apps/foro/index.php
Regla 5 GET/apps/foro/index.php?idforo=general →
http://etsiit.ugr.es/apps/foro/index.php
Patrones de navegación Resultados (Capítulo 4)
Foro
24
Minería Web de Uso - Modelo de datos.
Análisis de patrones de navegación. - Obtención de reglas de asociación difusas para el análisis de
patrones de navegación: caso real.
Análisis demográfico. (Capítulo 5)- Clustering de páginas similares: caso real.- Clustering difuso de sesiones de usuarios: caso real (E.T.S.I.I.T.).
Perfiles de usuario y lógica difusa.- Modelo de obtención y representación en XML de
los perfiles de usuario.- Aplicación para un caso real.
Conclusiones y trabajos futuros.
Contenidos
25
Clustering dePáginas Web
Clustering Difuso deSesiones de
usuario
Objetivo.Objetivo.
Caracterizar distintos tipos de usuarios a través de:- análisis de los grupos de páginas por los que navegan en función de su dirección.- análisis de los grupos de sesiones en función de las páginas visitadas.
Metodología.Metodología.
Análisis demográfico
26
Definición clásicaDefinición clásica
Dado un conjunto X = {x1,x2,…,xn} queremos obtener una partición P= {A1, A2,…,Ac} tal que una cierta medida de semejanza entre los elementos de un mismo grupo sea lo mayor posible y la de entre miembros de dos grupos sea mínima.
Clustering difuso:
Cuando la partición es difusa:
},...,2,1{ },...,2,1{
1A0 11
i1
cink
xxAm
ik
c
iki
Análisis demográficoIdeas básicas acerca de los métodos de clustering
27
Levenshtein.Levenshtein.
N
j
lj
N
i
ki
N
i
N
j
lj
ki
kl
SS
SS
S
11
1 1,1
Coseno.Coseno.
Análisis demográfico Medidas utilizadas (Capítulo 5)
)},()},...,(),,...,((
caso otroen ,1),...,(),,...,((
,1),...,(),,...,((min{
0p
0q
)),...,(),,...,((
1111
111
11111
qpqp
qp
qpp
yxzyyxxL
yyxxL
yyxxL
q
p
yyxxL
28
Coseno extendido.Coseno extendido.
1max,1maxmin),(
),(
11
1 1,2
ji
ji
N
j
lj
N
i
ki
N
i
N
j
lj
ki
kl
pp
ppjiSn
SS
jiSnSS
S
Análisis demográfico Medidas utilizadas (cont.)
29
Definición clásicaDefinición clásica
Dado un conjunto X = {x1,x2,…,xn} queremos obtener una partición P= {A1, A2,…,Ac} tal que una cierta medida de semejanza entre los elementos de un mismo grupo sea lo mayor posible y la de entre miembros de dos grupos sea mínima.
Clustering difuso:
Cuando la partición es difusa:
},...,2,1{ },...,2,1{
1A0 11
i1
cink
xxAm
ik
c
iki
Análisis demográficoIdeas básicas acerca de los métodos de clustering
30
Técnica utilizadaTécnica utilizada: Clustering jerárquico (SPSS).
Criterios utilizadosCriterios utilizados:: (Basados en su relación con la lógica difusa) [Delgado et al., 1996]
Mínima distancia entre los elementos de un grupo, máxima distancia entre grupos.
Distancia al Crisp más cercano.
Análisis demográficoObtención de la partición inicial de datos (Capítulo 5)
31
Datos Iniciales
ClusteringJerárquico
Clustering
Validación deResultados
Páginas Web Sesiones deUsuario
C-medias difusoC-medias
Análisis demográfico
32
N
u
CP
c
i
N
kik
1 1
2
Coeficiente de partición.Coeficiente de partición.
Coeficiente de Entropía.Coeficiente de Entropía.
c
i
N
kikaik uu
NCE
1 1
log1
Análisis demográfico Validación del clustering
33
Análisis demográfico
Datos Iniciales
ClusteringJerárquico
Clustering
Validación deResultados
Páginas WebSesiones de
Usuario
C-medias difusoC-medias
34
mjmippisimP j 1 ,1 )],,([
Modelo de datos asociado.Modelo de datos asociado.
},...,,{ 21 mpppP Un Conjunto de páginas definida como:
Las páginas web puede ser vista conceptualmente como una matriz página-página mxm :
Objetivo.Objetivo.
Obtener grupos de páginas web más similares para saber cuales son las más representativas de la navegación del usuario.
Análisis demográfico Clustering de páginas similares (Capítulo 5)
35
Conjuntos de datos:Conjuntos de datos:
Análisis demográfico
Medida: Levenshtein
Técnica: clustering con el algoritmo c-medias
Número de particiones iniciales: 12 (obtenidos con el análisis de clustering jerárquico previamente).
Resultados del clustering de páginas similares
Conjuntos
de datos
Entrada de datos
originales
Entrada de datos
preprocesadas
Preprocesamiento
Conjunto 1 100900 100810 Eliminación entradas idénticas
Conjunto 2 16518 12910 Preprocesamiento completo
Conjunto 3 98202 15676 Preprocesamiento completo
36
Cluster [Centroide]
Cluster 0 [GET/apps/foro/index.php]
Cluster 1 [GET/apps/tablon]
Cluster 2 [GET/usuarios/jmlvega/idragon/formate.css]
Cluster 3 [GET/apps/foro/index.php?action=foro&idforo=general]
Cluster 4 [GET/alumnos/diegorp/canalplus.html]
Cluster 5 [GET/apps/foro/index.php?action=foro&idforo=asignaturas]
Cluster 6 [GET/js/protWindows/themes/default.css]
Cluster 7 [GET/apps/foro/index.php?action=foro\&idforo=escuela]
Cluster 8 [GET/alumnos/mlii]
Cluster 9 [GET/HTTP/1.1]
Cluster 10 [GET/apps/foro/index.php?action=hebra\&idhebra=1939]
Cluster 11 [GET/apps/foro/index.php?action=foro&idforo=compra]
Entropía 0.00
C. De Partición 1.00
Foro
Tablón
Alumnos
Sin caracterizar
Análisis demográficoResultados del clustering de páginas similares
37
Datos Iniciales
ClusteringJerárquico
Clustering
Validación deResultados
Páginas WebSesiones de
Usuario
C-medias difusoC-medias
Análisis demográfico
38
A partir de esta matriz de peso sesión-página obtendremos una matriz de semejanza entre las sesiones definida
y para obtener esta semejanza aplicaremos la medida del coseno y coseno extendido.
mjisssimSS ji )],,([
Modelo de datos asociado.Modelo de datos asociado.
Objetivo.Objetivo.Obtener grupos de sesiones de usuarios que navegan por la web con características similares.
Análisis demográfico
},...,,{ 21 msssS Conjunto de sesiones S definida como:},...,,{ 21 npppP Conjunto de páginas P, definida como :
njmipswUP ji 1 ,1 )],,([ Matriz sesión-página mxn :
Clustering de difuso de sesiones de usuarios (Capítulo 5)
39
Conjuntos de datos:Conjuntos de datos:
Análisis demográfico
Medidas: coseno y coseno extendido.
Técnica: clustering difuso con el algoritmo c-medias difuso.
Número de particiones iniciales: 12 (obtenidos mediante el análisis jerárquico previamente)
Resultados del clustering de sesiones de usuario
Conjuntos
de datos
Entrada de datos originales
Entrada de datos preprocesadas
N° Sesiones
Conjunto 1 100900 12910 2024
Conjunto 2 98202 15676 2780
40
Coseno extendido
Discusión de los resultados:Discusión de los resultados: la medida del coseno extendido fue la que mejor representación entregaba de las sesiones con respecto a los centroidos.
Coseno
Análisis demográficoResultados del clustering de sesiones de usuario (cont.)
41
Minería Web de Uso - Modelo de datos.
Análisis de patrones de navegación. - Obtención de reglas de asociación difusas para el análisis de
patrones de navegación: caso real.
Análisis demográfico.
- Clustering de páginas similares: caso real.- Clustering difuso de sesiones de usuarios: caso real.
Perfiles de usuario y lógica difusa. (Capítulo 6)- Modelo de obtención y representación en XML de los perfiles de
usuario.
- Aplicación para un caso real (E.T.S.I.I.T).
Conclusiones y trabajos futuros.
Contenidos
42
Objetivo.Objetivo.
Construcción de perfiles de usuario, a través de la navegación de que realiza el usuario en la web, y así poder identificar diferentes grupos sociales y/o demográficos.
Plantear un modelo de obtención y representación de los perfiles de usuarios en XML.
Perfiles de usuario
43
Preprocesamientode la información
Método para la identificación de
sesiones
Técnica de Mineríapara realizar
agrupamiento de sesiones
Representación delos perfiles en
XML
Fuente de información(Ficheros log)
Identificación deentradas Identificación de
sesiones de usuarios
Grupos de sesiones Perfiles de usuario
2
13
4
56
7
8
Análisis demográficoModelo para la obtención del perfil de usuario (Capítulo 6)
Preprocesamientode la información
Método para la identificación de
sesiones
Técnica de Mineríapara realizar
agrupamiento de sesiones
Representación delos perfiles en
XML
Fuente de información(Ficheros log)
Identificación deentradas Identificación de
sesiones de usuarios
Grupos de sesiones Perfiles de usuario
2
13
4
56
7
8
44
siEezKLVe iiiiii 1,,,,Relativo a los aspectos sociales: rango de edad, nivel educativo, idioma…Ficheros Log
Se asocian pesos a las páginas
Resultado de una agregación de perfiles asociados a cada sesión
Vi: Variables demográficas
Li: Variables de identificación
Ki: Variables de clickstream
z’i: Perfil simple de la sesión
Definición de perfil de usuario:Definición de perfil de usuario: colección de datos acerca de las preferencias o intereses de navegación de los usuarios .
Definición formal de perfil de usuario:Definición formal de perfil de usuario: [Martín-Bautista et al., 2002].
Análisis demográfico Definición de perfil de usuario
45
Vi: Variables demográficas
Li: Variables de identificación
z’i: Perfil simple de la sesión
Ki: Variables de clickstream
Análisis demográficoModelo de representación en XML del perfil de usuario
46
Vi: Variablesdemográficas
Li: Variables de identificación
z’i: Perfil simple de la sesión
Ki: Variables de clickstream
Análisis demográfico Ejemplo de perfil de usuario
47
Sea C = {c1,c2,...,cn} los clusters de sesiones de usuarios más representativas de la navegación realizada por los usuarios en el sitio web de la escuela, siendo n el número de la partición inicial.
Sea Q= {q1,q2,...,qn} el conjunto de los perfiles de los usuarios obtenidos. Entonces:
C = {c1,c2,...,cn} → Q= {q1,q2,...,qn}
Análisis demográficoObtención del perfil de usuario a partir del clustering difuso
48
<?xml version="1.0" encoding="UTF-8"?><Perfil11> <Identificacion_Usuario> <Tipo Tipo="alumno" /> </Identificacion_Usuario> <Paginas> <Pagina Pagina_Visitada="0">*GET/apps/foro/index.phpHTTP/1.1*</Pagina> <Pagina Pagina_Visitada="1">*GET/apps/foro/index.php?action=foro&idforo=asignaturasHTTP/1.1*</Pagina> <Pagina Pagina_Visitada="2">*GET/apps/foro/index.php?action=foro&idforo=generalHTTP/1.1*</Pagina> <Pagina Pagina_Visitada="3">*GET/profesores/jmaroza/anecdotario/anecdotario-z.htmHTTP/1.1*</Pagina> <Pagina Pagina_Visitada="4">*GET/apps/tablon/HTTP/1.1*</Pagina> <Pagina Pagina_Visitada="5">*GET/apps/foro/index.php?action=hebra&idhebra=1819&page=0HTTP/1.1*</Pagina> <Pagina Pagina_Visitada="6">*GET/apps/foro/index.php?action=hebra&idhebra=696HTTP/1.1*</Pagina> <Pagina Pagina_Visitada="7">*GET/apps/foro/index.php?action=hebra&idhebra=1349HTTP/1.0*</Pagina> <Pagina Pagina_Visitada="8">*GET/page.php?pageid=googlemapsHTTP/1.1*</Pagina> </Paginas> <Var_Demograficas> <Edad>Joven</Edad> <Paciencia>Paciente</Paciencia> <Idioma>Español</Idioma> </Var_Demograficas> <Perfil_Simple> <Terminos Termino="0">Ingeniería</Terminos> <Terminos Termino="1">Informática</Terminos> <Terminos Termino="2">Telecomunicación</Terminos> <Terminos Termino="3">Foros</Terminos> <Terminos Termino="4">Asignatura</Terminos> <Terminos Termino="5">General</Terminos> <Terminos Termino="6">Anecdotario</Terminos> <Terminos Termino="7">Googlemaps</Terminos> </Perfil_Simple></Perfil11>
Perfil de alumno obtenido del Perfil de alumno obtenido del caso real (Perfil 11, Anexo C)caso real (Perfil 11, Anexo C)
49
<?xml version="1.0" encoding="UTF-8"?><Perfil10> <Identificacion_Usuario> <Tipo Tipo="profesor" /> </Identificacion_Usuario> <Paginas> <Pagina Pagina_Visitada="0">*GET/usuarios/jmlvega/idragon//formate.cssHTTP/1.1*</Pagina> <Pagina Pagina_Visitada="1">*GET/apps/convocatorias/styles/convocatorias.cssHTTP/1.1*</Pagina> <Pagina Pagina_Visitada="2">*GET/profesores/jmaroza/anecdotario/chmanual.htmHTTP/1.1*</Pagina> <Pagina Pagina_Visitada="3">*GET/profesores/jmaroza/anecdotario/anecdotario-z.htmHTTP/1.1*</Pagina> <Pagina Pagina_Visitada="4">*GET/planes/index.php?id=3&id2=127HTTP/1.1*</Pagina> <Pagina Pagina_Visitada="5">*GET/page.php?pageid=horarioHTTP/1.1*</Pagina> <Pagina Pagina_Visitada="6">*GET/apps/foro/index.php?action=hebra&idhebra=1617HTTP/1.1*</Pagina> </Paginas> <Var_Demograficas> <Edad>Adulto</Edad> <Paciencia>Muy Paciente</Paciencia> <Idioma>Español</Idioma> </Var_Demograficas> <Perfil_Simple> <Terminos Termino="0">Ingeniería</Terminos> <Terminos Termino="1">Informática</Terminos> <Terminos Termino="2">Telecomunicación</Terminos> <Terminos Termino="3">Index</Terminos> <Terminos Termino="4">skin/reloaded</Terminos> <Terminos Termino="5">convocatorias</Terminos> <Terminos Termino="6">ubuntu</Terminos> <Terminos Termino="7">planes</Terminos> <Terminos Termino="8">estudio</Terminos> <Terminos Termino="9">Horario</Terminos> </Perfil_Simple></Perfil10>
Perfil de profesor obtenido del Perfil de profesor obtenido del caso real (Perfil 10, Anexo C)caso real (Perfil 10, Anexo C)
50
Algunos resultadosAlgunos resultados
Perfil 10 está clasificado por la página GET/apps/convocatorias.
Perfil 12 está clasificado por la página GET/apps/descargas. Perfil 3 está clasificado por la página GET/alumnos/shin/shin.htm. Perfil 7 está clasificado por la página GET/alumnos/mlii. Perfil 4 está clasificado por la página GET/apps/foro/index.php. Perfil 6 está clasificado por las páginas: GET/apps/foro/index.php,
GET/apps/tablon,GET/alumnos/diegorp/canalplus.html, GET/alumnos/diegorp/canal.css.
AlumnoAlumno
ProfesorProfesor
MetodologíaMetodología
Árbol de decisión. Algoritmo J4.8 (C4.5), (WEKA).
Análisis demográficoClasificación de los perfiles a partir de las páginas web
51
Minería Web de Uso - Modelo de datos.
Análisis de patrones de navegación. - Obtención de reglas de asociación difusas para el análisis de
patrones de navegación: caso real.
Análisis demográfico.- Clustering de páginas similares: caso real.- Clustering difuso de sesiones de usuarios: caso real.
Perfiles de usuario y lógica difusa.- Modelo de obtención y representación en XML de
los perfiles de usuario.- Aplicación para un caso real.
Conclusiones y trabajos futuros. (Capítulo 7)
Contenidos
52
Obtención de patrones de navegación:Obtención de patrones de navegación:
Hemos planteado un modelo de obtención de reglas de asociación difusas .
Hemos llevado a cabo un proceso de interpretación semántica aplicando tanto medidas de interés objetivas como medidas de interés subjetivas.
Hemos experimentado sobre un sitio web real.
ConclusionesConclusiones
Conclusiones y Trabajos Futuros
53
Análisis demográfico:Análisis demográfico:
Utilizando diversas técnicas del clustering hemos podido establecer una metodología para realizar diferentes agrupaciones de los elementos que participan en un sitio web.
Hemos utilizado el clustering jerárquico para la obtención de la partición inicial de los datos y hemos utilizado el coeficiente de partición y la entropía como medidas de validación para las técnicas anteriores.
Por último, hemos experimentado sobre un caso real que nos permitió identificar diferentes grupos demográficos de usuarios.
Conclusiones
54
Construcción de perfiles de usuario:Construcción de perfiles de usuario:
Hemos planteado una nueva representación de los perfiles de usuarios en XML
Hemos definido un modelo de obtención de los perfiles de usuarios, basándonos en el análisis demográfico realizado en el clustering difuso de las sesiones de usuarios.
Hemos realizado una clasificación de los perfiles de usuarios a través de las páginas web más representativas.
Conclusiones
55
Extender los resultados obtenidos a otros sitios web hasta desarrollar una herramienta integrada que incluya tanto los procesos de análisis descritos como la actualización dinámica y online de los perfiles de usuario.
Ampliar el estudio de otras agrupaciones, asociaciones y relaciones entre los elementos que participan en el sitio web.
En un futuro, extenderemos el uso de los perfiles de usuario para desarrollar un sistema de recomendación que complete el proceso de personalización aquí iniciado.
Trabajos futuros
56
Gracias…
“Cada día sabemos más y entendemos menos…”
Albert Einstein