Paper de iaa

11
RECONOCIMIENTO DE PATRONES PARA MEDIR LA USUABILIDAD DE LAS HERRAMNIENTAS WEB 2.0 Vanessa Cindhy Celi Loja, Ecuador [email protected] [email protected] Ing. Nelson Piedra Ing. Nelson Piedra Loja, Ecuador [email protected] RESUMEN En Inteligencia Artificial (IA) utiliza varios métodos entre la cuáles podemos encontrar árboles de clasificación, redes bayecianas, redes neuronales y modelos ocultos de Markov. El objetivo de este proyecto es encontrar un patrón de comportamiento para medir la usabilidad de las herramientas Web.2.0 . Términos Generales Algoritmos, Finanzas, Experimentación, Verificación. Palabras claves Arboles de clasificación. Inteligencia Artificial. 1.INTRODUCCIÓN Para medir la usabilidad nos basamos en ciertos criterios y estándares que debe cumplir una pagina Web . Para esto es necesario definir las variables predoctoras o independientes para realizarlo mediante redes bayecianas que se fundamentan en la teoría de probabilidades, y combinan la potencia del teorema de Bayes con la expresividad semántica de los grafos dirigidos, estos permiten representar un modelo casual por medio de una representación gráfica. Motivación El uso de la Inteligencia Artificial (IA) en aplicaciones de clasificación es un tema muy importante ayudando a que las técnicas de IA se adapten a los problemas reales, esto es lo que ha motivado el trabajo investigativo con el objetivo de comprender la importancia que representa la inteligencia artificial para ayudar en la toma de decisiones a través de técnicas de minería de datos [10] e inteligencia artificial. Los patrones de reconocimiento nos ayudarían a reducir el tiempo en medir la usabilidad de la página Web Planteamiento del problema Hoy en día las herramientas Web 2.0 han alcanzado un gran auge por eso es importante la usabilidad de cada una de ellas ya que la mayoría de personas acceden a estas herramientas por lo tanto, existen algunas técnicas que permiten encontrar patrones de comportamiento basados en un conjunto de variables independientes, que se pueden aplicar para medir la usabilidad como son las redes bayecianas. Objetivo El objetivo principal del presente trabajo es primeramente definir las características principales o el reconocimiento de patrones que permitan mejorar el proceso de medición de la usabilidad de las herramientas Web 2.0 1ESTADO DEL ARTE 1.1Como medir la usabilidad Para medir la usabilidad de las herramientas Web 2.0 he utilizado una serie de parámetros obtenida a partir de los estándares ISO 9241 y la ISO 9126 . De toda esta lista de parámetros se escoge los más representativos para las diferentes audiencias que ingresan a las herramientas Web 2.0.

Transcript of Paper de iaa

RECONOCIMIENTO DE PATRONES PARA MEDIR LA

USUABILIDAD DE LAS HERRAMNIENTAS WEB 2.0

Vanessa Cindhy Celi Loja, Ecuador

[email protected]

[email protected]

Ing. Nelson Piedra

Ing. Nelson Piedra

Loja, Ecuador

[email protected]

RESUMEN

En Inteligencia Artificial (IA) utiliza varios métodos

entre la cuáles podemos encontrar árboles de

clasificación, redes bayecianas, redes neuronales y

modelos ocultos de Markov.

El objetivo de este proyecto es encontrar un patrón

de comportamiento para medir la usabilidad de las

herramientas Web.2.0 .

Términos Generales

Algoritmos, Finanzas, Experimentación, Verificación.

Palabras claves

Arboles de clasificación.

Inteligencia Artificial.

1.INTRODUCCIÓN

Para medir la usabilidad nos basamos en ciertos

criterios y estándares que debe cumplir una pagina

Web . Para esto es necesario definir las variables

predoctoras o independientes para realizarlo

mediante redes bayecianas que se fundamentan en

la teoría de probabilidades, y combinan la potencia

del teorema de Bayes con la expresividad semántica

de los grafos dirigidos, estos permiten representar un

modelo casual por medio de una representación

gráfica.

Motivación

El uso de la Inteligencia Artificial (IA) en

aplicaciones de clasificación es un tema muy

importante ayudando a que las técnicas de IA se

adapten a los problemas reales, esto es lo que ha

motivado el trabajo investigativo con el objetivo de

comprender la importancia que representa la

inteligencia artificial para ayudar en la toma de

decisiones a través de técnicas de minería de datos

[10] e inteligencia artificial.

Los patrones de reconocimiento nos ayudarían a

reducir el tiempo en medir la usabilidad de la página

Web

Planteamiento del problema

Hoy en día las herramientas Web 2.0 han alcanzado

un gran auge por eso es importante la usabilidad de

cada una de ellas ya que la mayoría de personas

acceden a estas herramientas por lo tanto, existen

algunas técnicas que permiten encontrar patrones de

comportamiento basados en un conjunto de variables

independientes, que se pueden aplicar para medir la

usabilidad como son las redes bayecianas.

Objetivo

El objetivo principal del presente trabajo es

primeramente definir las características principales o

el reconocimiento de patrones que permitan mejorar

el proceso de medición de la usabilidad de las

herramientas Web 2.0

1ESTADO DEL ARTE

1.1Como medir la usabilidad

Para medir la usabilidad de las herramientas Web 2.0

he utilizado una serie de parámetros obtenida a

partir de los estándares ISO 9241 y la ISO 9126 .

De toda esta lista de parámetros se escoge los más

representativos para las diferentes audiencias que

ingresan a las herramientas Web 2.0.

1.2 Fundamentos de reconocimiento de patrones

1.2.1Reconocimiento de patrones

Tomado de [3], un patrón es una entidad a la que se

puede dar un nombre y que está representada por un

conjunto de propiedades medidas y las relaciones

entre ellas (vector de características). Por ejemplo, un

patrón puede ser una señal sonora y su vector de

características el conjunto de coeficientes espectrales

extraídos de ella.

Reconocimiento de patrones lo define el autor de esta

investigación [3] como: “La categorización de datos

de entrada en clases identificadas, por medio de la

extracción de características significativas o atributos

de los datos extraídos de un medio ambiente que

contiene detalles irrelevantes”.

El reconocimiento de patrones [11], tienes un punto

esencial que es la clasificación que permite clasificar

clases de acuerdo a sus características, el objetivo es

clasificar patrones con base en un conocimiento a

priori o información estadística extraída de los

patrones. Los patrones a clasificar suelen ser grupos

de medidas u observaciones.

Para la clasificación se puede usar un conjunto de

aprendizaje, del cual ya se conoce la clasificación de

la información a priori y se usa para entrenar al

sistema, siendo la estrategia resultante conocida como

aprendizaje supervisado.

En wikipedia se listan algunas de las aplicaciones

donde se aplica reconocimiento de patrones, entre

ellas: reconocimiento de voz, la clasificación de

documentos (por ejemplo spam/no spam), el

reconocimiento de escritura, reconocimiento de caras

humanas y muchas más, derivándose las dos últimas

del análisis de imágenes.

1.2.2 Redes Bayesianas

Las redes bayesianas conforman una manera práctica

y compacta de representar el conocimiento incierto

basada en esta idea.

Las redes bayesianas modelan un fenómeno mediante

un conjunto de variables y las relaciones de

dependencia entre ellos.

Las redes bayesianas son una presentación gráfica

de dependencias directas entre ellas.

Las redes bayesianas también se las conoce con el

nombre:

. Redes de creencias

. Redes probabilísticas

. Redes casuales.

. Mapas de conocimiento.

Imagen 1. Ejemplo de Redes Bayesianas [13]

1.2.3.1Aprendizaje Automático de la red Bayesianas

Si se toma un sistema experto que constituye una

rede bayesiana esta debe cambiar conforme

aumentan los datos concretos o casos, así en sus

primeros pasos las red bayesiana puede ser construida

según la opinión de los expertos o bien según la

información de la que se parte o teniendo en cuenta

ambas cosas. Conforme vamos añadiendo

información al red se va modificando tanto su

estructura como los parámetros mediante un proceso

de aprendizaje

1.2.4 Clasificadores Bayesianos

El clasificador bayesiano es una función que se

asigna al valor que tiene un atributo discreto que

toma el nombre de clase o instancia. Un sistema

experto puede tomar la misma actividad que un

clasificador.

En el caso que la base de conocimientos sea una red

bayesianas, la función de clasificación estará

definida atreves de probabilidades condicionadas.

1.2.5Descripción de los Algoritmos de aprendizaje

Clasificador Naive Bayes.- Este clasificador es el

que se utiliza es el que se utiliza en el teorema de

Bayes en conjunción con la hipótesis de

independencia condicional de las variables

predictoras

1.3MINERIA DE DATOS

La minería de datos[8],[9] es una parte de todo el

proceso de la extracción del conocimiento útil y

comprensible, previamente desconocido, desde bases

de datos heterogéneas, la minería de datos se encarga

de reunir ventajas de varias áreas como la Estadística,

la Inteligencia Artificial, la Computación Gráfica, las

Bases de Datos y el Procesamiento Masivo.

Por lo general la definición más común de minería de

datos es: Un proceso no trivial de identificación

válida, novedosa, potencial útil y entendible de

patrones comprensibles que se encuentran ocultos en

los datos [8]. Sin embargo existen definiciones

enfocadas hacia otros puntos de vista como el

enfoque empresarial que es: La integración de un

conjunto de áreas que tienen como propósito la

identificación de un conocimiento obtenido a partir

de las bases de datos que aporten un

2.DESARROLLO E IMPLEMENTACIÓN

2.1Identificación de las variables

Para la identificación de las variables se realizó un

estudio de los estándares que se utilizan para medir la

usabilidad de una página tomando las variables con

mayor poder predictivo. En Tabla 1 se muestra un

listado y descripción de las mismas:

Tabla 1. Descripción de las variables predictoras

NOMBRE

VARIABLE

DESCRIPCIÓN

REQUISITOS

ESTUDIANTE/GARANTE

Facilidad de Esto se refiera si que

los programas son lo

aprendizaje más intuitivo posible

Navegabilidad

de la página

principal

Un sitio debe ser

cómodo para el usuario,

debe ser fácilmente

navegable. El usuario

tiene que poder ir de un

lado a otro del sitio

rápidamente y sin

perderse.

Atractividad

del sitio

Que la interfaz del sitio

sea amigable al usuario

Calidad de

ayuda

Que tenga temas

concretos y que sea fácil

de entender

Audiencia Los usuarios que tiene

el sitio

2.2Metodología

La metodología aplicada en la investigación es:

Seleccionar las variables predictoras más

importantes.

Descripción de las variables predictoras y la

variable clase.

Aplicación del las redes bayesianas

Analizar el resultado

3.2.1Adquisición y proceso de datos

Se ha tomado como muestra datos en base a los

requerimientos necesarios para medir la usabilidad de

un sitio para obtener el crédito. En la Tabla 2 se

muestra los datos tomados como muestra de las

características principales.

Las variables tomadas en cuenta para el diseño del

modelo se describen en la Tabla 2,

Tabla 2. Datos iniciales de prueba

Tomando en cuenta los requisitos más importantes

para medir la usabilidad de un sitio se ha creado la

tabla de datos que se muestra en Tabla 2 que serán

como datos de entrada, donde las variables más

decisivas para medir la usabilidad son :

Herramientaweb {Wiki, Música, Documentos,

AgregaciónVideo, Video, Fotos, Locación,

ClientesServicioRed, NichosRed, RedesSociales,

MensajeríaVoz, Podcasting, MarcadoresSociales,

Micromedia, ComunidadesBlog, ConversaciónBlog,

PlataformasBlogs, VideoBlogs}

Facilidadaprendizaje numeric

navegabilidaddelapaginaprincipal numeric

atractividaddelsitio numeric

Calidaddeayuda numeric

Audiencia numeric

usabilidad {si,no}

Para su posterior ejecución se ha creado un archivo

de datos .arff, denominado herramientasweb2.0.arff

con un total de 84 instancias, a continuación una

muestra:

@attribute Herramientaweb {Wiki,

Música, Documentos, AgregaciónVideo,

Video, Fotos, Locación,

ClientesServicioRed, NichosRed,

RedesSociales, MensajeríaVoz,

Podcasting, MarcadoresSociales,

Micromedia, ComunidadesBlog,

ConversaciónBlog, PlataformasBlogs,

VideoBlogs}

@attribute Facilidadaprendizaje

numeric

@attribute

navegabilidaddelapaginaprincipal

numeric

@attribute atractividaddelsitio

numeric

@attribute Calidaddeayuda numeric

@attribute Audiencia numeric

@attribute usabilidad {si,no}

@data

Wiki, 0.90, 0.90, 0.90, 0.90, 0.90,

si

Música, 0.45, 0.30, 0.56, 0.35,

0.25, no

Documentos, 0.90, 0.90, 0.90, 0.90,

0.90, si

AgregaciónVideo, 0.70, 0.70, 0.70,

0.70, 0.70, si

Video, 0.85, 0.75, 0.85, 0.70, 0.85,

si

Fotos, 0.90, 0.90, 0.90, 0.90, 0.90,

si

Locación, 0.45, 0.30, 0.56, 0.35,

0.25, no

ClientesServicioRed, 0.90, 0.90,

0.90, 0.90, 0.90, si

NichosRed, 0.70, 0.70, 0.70, 0.70,

0.70, si

RedesSociales, 0.85, 0.75, 0.85,

0.70, 0.85, si

MensajeríaVoz, 0.45, 0.30, 0.56,

0.35, 0.25, no

Podcasting, 0.90, 0.90, 0.90, 0.90,

0.90, si

MarcadoresSociales, 0.90, 0.90,

0.90, 0.90, 0.90, si

Micromedia, 0.70, 0.70, 0.70, 0.70,

0.70, si

ComunidadesBlog, 0.85, 0.75, 0.85,

0.70, 0.85, si

ConversaciónBlog, 0.90, 0.90, 0.90,

0.90, 0.90, si

PlataformasBlogs, 0.45, 0.30, 0.56,

0.35, 0.25, no

VideoBlogs, 0.90, 0.90, 0.90, 0.90,

0.90, si

2.3Herramientas a utilizar

2.3.1Weka

Imagen 2. Interfaz Weka

La herramienta que se ha elegido para el trabajo es

Weka [6], es una colección de algoritmos de

aprendizaje automático para tareas de minería de

datos. Los algoritmos pueden ser aplicados

directamente a un conjunto de datos o llamada de su

propio código Java. Weka contiene herramientas de

datos pre-procesamiento, clasificación, regresión,

clustering, reglas de asociación y visualización.

También es muy apropiada para el desarrollo de

nuevos sistemas de aprendizaje automático. Se ha

tomado en cuenta esta herramienta porque presenta la

utilización de algoritmos de clasificación mediante el

uso de redes bayesianas.

3.RESULTADOS

3.1 Árbol de clasificación

Imagen 3. Árbol generado con el algoritmo J48

En la

Imagen 3 se muestra el gráfico que vota el algoritmo

bayes net

Para obtener los patrones de comportamiento se

tomará la información de cada variable con la

respectiva clasificación de cada nodo final o nodo

hoja a partir del árbol mostrado en la

Imagen 3.

3.1.1Algoritmo Bayesnet

Los resultados obtenidos en el algoritmo de bayesnet

son los siguientes:

3.2Validación de resultados

3.2.1Algoritmo de árbol J48

A continuación se evalúa la capacidad de confianza

del algoritmo de bayesnet para ver si las herramientas

cumple con los estándares de seguridad, teniendo

como resultados instancias correctamente clasificadas

18 con un porcentaje de 100% y 0 instancias

incorrectamente clasificadas con porcentaje de 0%.

Imagen 4. Resultados de la clasificación de

instancias

En la

Imagen 5, se muestra la matriz de confusión, con

respecto a la clase si tiene un error de 0 ya que el

valor correcto sería 14, con la clase no tiene un error

de 4 ya que debería ser 4.

Imagen 5. Matriz de confusión bayesnet

3.2.2Algoritmo de neivesbayetnet

Para evaluar los resultados con el algoritmo bsyesnet

se ha tomada la matriz de confusión

En la Imagen 6, se muestra la matriz de confusión de

JRip, con respecto a la clase si tiene un error de 5 ya

que el valor correcto sería 36, en la clase no tiene un

error de 1 ya que debería ser 48.

Imagen 6. Matriz de neivebayesnet

3.3Comparación de los algoritmos

A continuación se hace una comparación de los 2

algoritmos aplicados en base a los resultados

obtenidos.

Los mejores resultados los ofrece el algoritmo de

reglas de decisión J48 ya que define de una manera

más precisa los patrones de comportamiento, de

acuerdo a la clasificación de instancias y a los valores

de la matriz de confusión.

Tabla 3. Comparación de bayesnet y

neivebayesnet

COMPARACIÓN DE LOS ALGORITMOS

ALGORITM

O

Instancias

correctament

e clasificadas

Instancias

correctament

e clasificadas

%

Error

bayesnet 18100% 00% 0%

neivebayesnet 18100% 00 21,1

%

3.4 Clementine 12.0

Clementine es una herramienta de data mining que

permite desarrollar de forma rápida modelos

predictivos y desplegarlos para mejorar la toma de

decisiones. Clementine es conocida mundialmente

como la herramienta líder de data mining, ya que

entrega el máximo retorno de inversión de sus datos

en poco tiempo. A diferencia de otras herramientas de

data mining – que fracasan en el soporte del ciclo de

negocio completo de data mining y se centran

simplemente en modelos para destacar el rendimiento

– Clementine apoya el ciclo completo de data mining

para reducir el tiempo hasta la solución final.

Clementine está diseñada considerando los estándares

de la industria del data mining – CRISP-DM (CRoss

Industry Standard Process for Data Mining). CRISP-

DM hace de data mining un proceso de negocio al

enfocar la tecnología de data mining en resolver

problemas de negocio específicos.

3.5 Desarrollo

Disponemos de los datos acerca de la usabilidad de

las herramientas web 2.0 dependiendo de diversas

variables El objetivo es poder medir la usabilidad de

las herramientas web 2.0. Los datos están en el

fichero: “basededatos.txt” y son los siguientes:

3.6 Entorno

En esta imagen se puede observar los datos la tabla

el tipo y el modelo a escoger,

El modelo que se escogió es bayes net con la

finalidad de comparar los resultados obtenidos en

ambas herramientas

3.7 Red bayesiana y probabilidad condicional del

sitio

Las variables predictoras son las que se encuentran

de color azul y la variable de salida es la de color

rojo

La red es creada mediante este cuadro de padres y

probabilidades dentro de la usabilidad cuando es

menor a 0.662 el uno significa no y cero si mediante

estas probabilidades se va creando la rede bayesianas

3.8 Matriz

Al comparar los resultados con weka son los mismos existe 18

instancias correctas con un 100%

3.9 Tabla de auditoría de datos

En esta tabla de auditoría nos da una breve información del

proyecto nos presenta gráfico

4.CONCLUSIONES

El uso de los algoritmos bayesnet,

neivebayesnet y la herramienta weka son de

mucha utilidad ya que permiten tomar

decisiones al momento de analizar cada caso,

identificando cuales son las características

más relevantes medir la accesibilidad de las

herramientas , a través de clasificación y

visualización de datos.

El numero de datos tanto para la base de

datos como para la de entrenamiento tiene

que ser representativa para obtener los

resultados más aproximados.

Los resultados presentados son una

aproximación a la realidad ya que se ha

tomado una muestra de los posibles casos que

pueden ocurrir.

Los algoritmos de clasificación pueden ser

aplicados en diferentes campos donde se

requiera clasificar un conjunto de datos,

tomando en cuenta las diferentes variables

aplicadas.

Luego de los resultados obtenidos de cada

algoritmo se concluye con certeza que el

algoritmo neivebayesnet tiene un nivel de

confianza más aproximado que bayesnet.

5.REFERENCIAS

María Del Carmen Sosa Sierra, “Inteligencia

artificial en la gestión financiera empresarial”,

http://ciruelo.uninorte.edu.co/pdf/pensamiento_ge

stion/23/6_Inteligencia%20artificial.pdf

Carlos J. Alonso González, Departamento de

Informática, “Inducción de Reglas

Proposicionales”,

http://www.infor.uva.es/~calonso/IAII/Aprendizaj

e/InduccionReglasProposicionales.pdf

Jesús Walter Salinas Flores, “Reconocimiento de

patrones de morosidad para un producto

crediticio usando la técnica de árbol de

clasificación CART”,

http://www.cybertesis.edu.pe/sisbib/2005/salinas

_fj/html/index-frames.html

María José Vázquez Cueto, Dolores Gómez

Domínguez, “Arboles de clasificación: una

metodología para el análisis de crisis bancarias”,

2009,

http://www.asepelt.org/ficheros/File/Anales/2005

%20-

%20Badajoz/comunicaciones/%E1rboles%20de

%20clasificaci%F3n....pdf

Eduardo Morales Manzanares, 2005,

“Escalamiento de Algoritmos”,

http://ccc.inaoep.mx/~emorales/Cursos/KDD03/n

ode54.html

Alejandro Boris Valiente y Zaida Cebrián

Jiménez, “Inteligencia en Redes de

Comunicaciones: Practica Weka, Diagnostico y

Cardiología”

http://www.it.uc3m.es/jvillena/irc/practicas/05-

06/12mem.pdf

F. Valenga, I. Perversi, E. Fernández, H. Merlino,

D. Rodríguez, P. Britos y R. García Martínez,

“Aplicacion de mineria de datos para la

exploracion y deteccion de patrones delictivos en

Argentina”,

http://www.itba.edu.ar/archivos/secciones/98JIISI

C-08-31-39.pdf

Inflexa, “Qué es Minería de Datos”,

http://www.inflexa.com/inflexa/soluciones/mineri

adedatos/

Olmos Pineda “Minería de datos”, Instituto

Tecnológico de Puebla, México, 1992.

http://www.itpuebla.edu.mx/Eventos/Memoriasy

ResSemanaInformatica2007/02-

%20IvanOlmosPineda.pdf,

Instituto Ecuatoriano de Crédito Educativo y

Becas, http://www.iece.fin.ec/LaInstitucion.aspx

Wikipedia, “Reconocimiento de patrones,

”http://es.wikipedia.org/wiki/Reconocimiento_de

_patrones

Pablo Lázaro Grande Benito, 2008,

http://recuperacion-organizacion-

informacion.atspace.com/extraccion_informacion

_clasificacion_supervisada/arboles-decision.html

http://farm4.static.flickr.com/3249/2747320896_1

738560745_o.jpg

Aitor Puerta Goicoechea, “Imputación basada en

árboles de clasificación”, 2002,

http://www.eustat.es/document/datos/ct_04_c.pdf

http://www.um.es/geograf/sigmur/teledet/tema09.

pdf

Wikipedia, Algoritmo ID3,

http://es.wikipedia.org/wiki/Algoritmo_ID3

Basilio Sierra Araujo, Aprendizaje Automático:

conceptos básicos y avanzados, Aspectos básicos

utilizando en software WEKA, Universidad del

País Vasco, 2006

Sofía J. Vallejos, Minería de Datos, Argentina,

2006,

http://exa.unne.edu.ar/depar/areas/informatica/Sis

temasOperativos/Mineria_Datos_Vallejos.pdf

Carlos Damián Mirabella, “Descubrimiento del

conocimiento en bases de datos”,

http://www.exa.unicen.edu.ar/catedras/dbdiscov/

mirabella.pd

ANEXOS

Como anexos se ha añadido la corrida de los

algoritmos en la herramienta Weka.

En la Ilustración 1, se puede contemplar la vista de la

herramienta weka, donde se muestra todos los

atributos (variables) del archivo

IECEEntrenamiento.arff utilizado para la obtención

de los patrones.

Ilustración 1. Vista principal: Atributos

En la

Ilustración 2, se visualiza los datos creados en el

archivo IECEEntrenamiento.arff

Ilustración 2. Datos en Weka

En la

Ilustración 3, se muestra los resultados visuales de los

datos de todas las variables, ingresados en el archivo

Herramientasweb2.0.arff.

Ilustración 3. Visualización de todas las variables

Ilustración 4. Salida de datos con el algoritmo

baysnet