Clasificación de Textos

ANÁLISIS DE SENTIDO A TEXTOS CORTOS

Alumno: Jorge Gálvez Gajardo

Profesor Guía: Rodrigo Alfaro Arancibia

Profesor Correferente: Guillermo Cabrera Guerrero

CONTENIDO

Introducción Objetivos Problemática Representación de Lenguaje Natural Máquinas de Aprendizaje

Naïve Bayes Support Vector Machine

Software Set de Pruebas Conclusiones y Trabajo Futuro

INTRODUCCIÓN

Trabajar en tesis abordando problemática actual y que podría acrecentarse.

Gran cantidad de información que se genera en Internet.

60 Billones de páginas web (según worldwidewebsize.com)

1.100 millones de usuarios de internet y 2.000 para 2016 (según Universidad de Iowa)

143 Millones de blogs, 1 millón de posts en las últimas 24 horas. (según blogpulse.com)

OBJETIVOS Objetivo General:

Utilizar máquinas de aprendizaje para categorizar textos cortos en positivo o negativo, según sea su sentido.

Objetivos Específicos: Utilizar máquinas de aprendizaje, eligiendo Naïve

Bayes y Maquinas de Soporte Vectorial como técnicas para clasificar en positivo o negativo, según su sentido, distintos textos extraídos de comentarios sobre películas.

Desplegar resultados obtenidos y comparar técnicas utilizadas con el fin de analizar qué forma es la más eficiente para determinado tipo de texto.

Habilitar una interfaz web en la cual se pueda almacenar textos para poder ser utilizados en un entrenamiento o prueba de categorización de sentido.

PROBLEMÁTICA

Se están produciendo grandes cambios en la sociedad al comentar lo que nos parece bien o mal.

Analizar datos recolectados de internet para analizar patrones y tendencias.

Automatizar esta tarea para lograr una mayor cantidad de datos a analizar.

Apoyarse en técnicas de Recuperación de Información y en algoritmos de Machine Learning

REPRESENTACIÓN DE LENGUAJE NATURAL

Indexar términos: Boolean retrieval

Frecuencia de términos y peso Term frequency Inverse document frequency TF-IDF

Modelo de espacio vectorial Similitud coseno

=

=

MÁQUINAS DE APRENDIZAJE

¿Cómo podemos usar computadoras para descubrir y describir patrones basados en comportamientos?

Aprendizaje supervisado Entrenamiento etiquetado

Aprendizaje no supervisado Entrenamiento no etiquetado

Aprendizaje semi supervisado Aplica una combinación de las dos técnicas

anteriores

NAÏVE BAYES

NAÏVE BAYES

Es un clasificador probabilístico Cada ejemplo observado va a modificar la

probabilidad de que la hipótesis formulada sea correcta

Las palabras en el documento se tratan de forma independiente del contexto

: Número de ocurrencias de t en los documentos de entrenamiento de la clase c

: Número de ocurrencias de t en el documento de prueba mas número de términos del vocabulario de entrenamiento de la clase c

NAÏVE BAYES

=

Aplicando Laplace smoothing

: Número de términos del vocabulario de entrenamiento de las dos clases

SUPPORT VECTOR MACHINE

SUPPORT VECTOR MACHINE

sigmoidal ))(tanh(),(

Gaussiana radial Base ))2(exp(),(

homogéneo no Polinomial 1),(

Polinomial),(

22

jiji

jiji

d

jiji

d

jiji

xxxxk

xxxxk

xxxxk

xxxxk

SET DE PRUEBAS

Set de datos: Obtenida de Internet Movie DataBase (IMDb),

archivada por rec.arts.movies.reviews. 1000 comentarios positivos y 1000 comentarios

negativos Introducido en Pang/Lee ACL 2004

SET DE PRUEBAS NAÏVE BAYES

660 Textos de Entrenamiento y 100 de Prueba.

Pre Procesado Accuracy

Ninguno 71,7%

Stop Words + Stemming 72.2%

SET DE PRUEBAS SVM

00.

01 1 20 40 60 80 100

0102030405060708090 Linear

Polynomial - Gamma 0.5

Radial Ba-sis Function - Gamma 0

Sigmoid - Gamma 0.1

660 Textos de Entrenamiento y 100 de Prueba.

Costo

Accuracy

Kernel: Sigmoid, Gamma: 0.1, Costo: 0.001, Accuracy: 84%

29.054 Palabras


SET DE PRUEBAS SVM

00.

01 1 20 40 60 80 100

0102030405060708090 Linear



Sigmoid - Gamma 0.5

660 Textos de Entrenamiento y 100 de Prueba. Stop Words

Costo

Accuracy


28.489 Palabras

SET DE PRUEBAS SVM

00.

01 1 20 40 60 80 100

0102030405060708090 Linear



Sigmoid - Gamma 0.1

660 Textos de Entrenamiento y 100 de Prueba. Stemming

Costo

Accuracy


21.341 Palabras



SET DE PRUEBAS SVM

00.

01 1 20 40 60 80 100

0102030405060708090 Linear



Sigmoid - Gamma 0.3

660 Textos de Entrenamiento y 100 de Prueba. Stop Words y Stemming

Costo

Accuracy


20.999 Palabras

SET DE PRUEBAS – OTRAS TÉCNICASClasificador Técnica Accuracy Autor

NB, SVM Feature Selection 87,2% Pang & Lee

SVM Análisis de Subjetividad

86,35% Boly, Hens, Deschacht,

Moens

SVM Delta TFIDF 88,1% Martineau and Finin

SVM Ordenar y filtrar subjetividad

89.85% Raychev and Nakov

SOFTWARE – CASO DE USO DE ALTO NIVEL

SOFTWARE – CASO DE USO GENERAR MODELO MANUAL

SOFTWARE – INTERFAZ MODELO AUTOMÁTICO

SOFTWARE – DIAGRAMA DE ACTIVIDAD

CONCLUSIONES Y TRABAJO FUTURO

Se ha utilizado Naïve Bayes y Maquinas de Soporte Vectorial para clasificar en positivo o negativo, según su sentido, distintos textos extraídos de comentarios sobre películas.

Los resultados obtenidos se han comparado con las distintas técnicas.

Habilito una interfaz web en la cual se pueda almacenar textos para poder ser utilizados en un entrenamiento o prueba de categorización de sentido.

Aplicar técnicas que aumenten el porcentaje de accuracy.

¿PREGUNTAS?

Clasificación de Textos

Technology

Transcript of Clasificación de Textos