Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico...

115
INSTITUTO POLIT ´ ECNICO NACIONAL ESCUELA SUPERIOR DE INGENIER ´ IA MEC ´ ANICA Y EL ´ ECTRICA Clasificaci´ on de opiniones en espa ˜ nol utilizando informaci´ on l´ exica y diccionarios TESIS QUE PARA OBTENER EL GRADO DE INGENIERO EN COMUNICACIONES Y ELECTR ´ ONICA PRESENTAN ector Gerardo De Le ´ on Camacho Jos´ e Antonio Rosas S ´ anchez Directores de Tesis M. en C. Juan Pablo Francisco Posadas Dur´ an M. en C. Beatriz Adriana Jaime Fonseca

Transcript of Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico...

Page 1: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

INSTITUTO POLITECNICO NACIONALESCUELA SUPERIOR DE INGENIERIA MECANICA Y

ELECTRICA

Clasificacion de opiniones en espanolutilizando informacion lexica y

diccionarios

TESIS

QUE PARA OBTENER EL GRADO DEINGENIERO EN COMUNICACIONES Y ELECTRONICA

PRESENTANHector Gerardo De Leon Camacho

Jose Antonio Rosas Sanchez

Directores de TesisM. en C. Juan Pablo Francisco Posadas Duran

M. en C. Beatriz Adriana Jaime Fonseca

Page 2: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

Asesor M. en C. Juan Pablo Francisco Posadas DuranTecnico Academia de ComputacionMetodologico

Instituto Politecnico Nacional

Asesor M. en C. Beatriz Adriana Jaime FonsecaMetodologico Academia de Computacion

Instituto Politecnico Nacional

Jurado Dr. Jesus Jaime Moreno EscobarEvaluador M. en C.America Marıa Gonzalez SanchezEvaluador Ing. Federico Felipe DuranMetodologico

Academia de ComputacionDepartamento Academico de Ingenierıa en Comunicaciones y ElectronicaEscuela Superior de Ingenierıa Mecanica y ElectricaInstituto Politecnico Nacional

This document was typeset by the author using LATEX 2ε.

The research described in this book was carried out at Escuela Superior de IngenierıaMecanica y Electrica, Instituto Politecnico National of Mexico.

Copyright c© 2014. All rights reserved. No part of this publication may be reproduced ortransmitted in any form or by any means, electronic or mechanical, including photocopy, recor-ding, or any information storage and retrieval system, without permission in writing from theauthor.

Printed in Mexico

Page 3: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime
Page 4: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime
Page 5: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

Abstract

In the past decade we have witnessed the emergence of a new concept in the businessworld: the “data mining” (data mining), through it, is possible the representation ofinformation extracted through knowledge models.

This paper presents a simple system of a sorting algorithm opinions, using lexical in-formation and dictionaries. This system classifies them as positive, negative or neutral,wherein said explicit classification depends on the emotional content of each.

A phrase is positive when it contains good adjectives and associations, such as “exce-llent”, and is negative when you have bad adjectives as “terrible”. Thus, the classifier isbased on finding the semantic load of written prayers adjectives and adverbs comparingthem with dictionaries polarity.

The software developed is the polarity of comments by separating each of them intosentences, sentences into these adjectives are seeking and finding a negative word, po-larity subtract 1, to find a positive word the sum polarity 1. At the end if the commenthas a positive algebraic sum of its partial polarities the comment is positive, if the finalsum is a negative result is said that the comment is negative too. If the polarity of thefinal comment is 0, it means that the comment is neutral or unclassifiable.

We made several tests with comments extracted from Google Play Store, two ofthese tests are documented in this study, where the results of this system are correctlyclassified between 70 % and 80 % were made, this is due to errors in data entry andreference to the scale of comparison, which is the own store Android stars.

I

Page 6: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime
Page 7: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

Resumen

En la pasada decada hemos asistido a la irrupcion de un nuevo concepto en el mundoempresarial: el “data mining” (minerıa de datos), a traves de ella, es posible realizar larepresentacion de informacion extraıda a traves de modelos de conocimiento.

Este trabajo presenta un sistema simple de un algoritmo clasificador de opiniones,utilizando informacion lexica y diccionarios. Este sistema los clasifica en positivos,negativos o neutros, en donde dicha clasificacion depende del contenido sentimentalexplicito en cada uno de ellos.

Una frase es positiva cuando esta contiene buenos adjetivos y asociaciones, por ejem-plo “excelente”, y es negativa cuando tiene malos adjetivos como “pesimo”. De estamanera, el clasificador esta basado en encontrar la carga semantica de las oracionesescritas comparando los adjetivos y adverbios en ellas con diccionarios de polaridad.

El software desarrollado encuentra la polaridad de los comentarios separando cadauno de ellos en oraciones, en estas oraciones se buscan los adjetivos y al encontrar unapalabra negativa, la polaridad resta 1, al encontrar una palabra positiva la polaridadsuma 1. Al final si el comentario tiene una suma algebraica positiva de sus polaridadesparciales, el comentario es positivo, si la suma final es un resultado negativo se dice queel comentario es negativo tambien. Si la polaridad del comentario final es 0, significaque el comentario es neutro o inclasificable.

Se hicieron varias pruebas con comentarios extraıdos de Google Play Store, dos deestas pruebas estan documentadas en este trabajo, donde los resultados de este sistemason clasificados correctamente entre un 70 % y 80 %, esto se debe a errores de los datosde entrada y la referencia con la escala de comparacion, la cual es las estrellas propiasde la tienda de Android.

Page 8: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime
Page 9: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

Glosario

Andriod: Sistema operativo para smartpones.

Carga Sentimental: Polaridad afectiva que una persona asigna a cada palabra

Conmutar: Cambiar el sentido de una oracion

Emoticon: del acronimo ingles ((emoticon)), es una secuencia de caracteres AS-CII que, en un principio, representaba una cara humana y expresaba una emocion.Posteriormente, fueron creandose otros emoticonos con significados muy diver-sos.

Google Play Store: es una plataforma de distribucion digital de aplicacionesmoviles para los dispositivos con sistema operativo Android, ası como una tiendaen lınea desarrollada y operada por Google.

KDD: Knowledge Discovery in Databases, se refiere al proceso no-trivial de des-cubrir conocimiento e informacion potencialmente util dentro de los datos con-tenidos en algun repositorio de informacion.

Lematizacion: Asignar lemas a una palabra.

Marcas: Distintivos para identificar el inicio o fin de una oracion o frase.

Neocortex: del griego, neos ((nuevo)), y del latın, cortex, ((corteza)), puede defi-nirse como la corteza cerebral mas reciente en el proceso evolutivo y que en laespecie humana alcanza el maximo desarrollo, ocupando gran parte de la super-ficie cerebral.

Whatsapp Messenger: es una aplicacion de mensajerıa instantanea para telefonosinteligentes.

V

Page 10: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime
Page 11: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

Contenido

1. Introduccion 11.1. Planteamiento del problema . . . . . . . . . . . . . . . . . . . . . . . 11.2. Justificacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21.3. Hipotesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.4. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

1.4.1. Objetivo general . . . . . . . . . . . . . . . . . . . . . . . . . 41.4.2. Objetivos particulares . . . . . . . . . . . . . . . . . . . . . . 4

1.5. Alcance de la investigacion . . . . . . . . . . . . . . . . . . . . . . . . 4

2. La minerıa de datos y sus antecedentes 72.1. Historia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82.2. Analisis de sentimientos . . . . . . . . . . . . . . . . . . . . . . . . . 9

3. Herramientas teoricas para la minerıa de opinion 133.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133.2. Lenguaje . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

3.2.1. Interpretacion del Lenguaje . . . . . . . . . . . . . . . . . . . 163.3. La gramatica del espanol y sus partes . . . . . . . . . . . . . . . . . . . 223.4. El adjetivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

El plural de los adjetivos. . . . . . . . . . . . . . . . . . . . . . 243.4.1. Clases de adjetivos . . . . . . . . . . . . . . . . . . . . . . . . 243.4.2. Los grados del adjetivo . . . . . . . . . . . . . . . . . . . . . . 25

Grado positivo. . . . . . . . . . . . . . . . . . . . . . . . . . . 25Grado comparativo. . . . . . . . . . . . . . . . . . . . . . . . . 25Grado superlativo . . . . . . . . . . . . . . . . . . . . . . . . . 26Formacion del superlativo por derivacion . . . . . . . . . . . . 26Adjetivos que no admiten el grado superlativo con sufijo . . . . 27Adjetivos que no admiten el grado superlativo . . . . . . . . . . 27Adjetivos que acompanan al nombre . . . . . . . . . . . . . . . 27Concordancia del adjetivo . . . . . . . . . . . . . . . . . . . . 27

VII

Page 12: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

VIII CONTENIDO

3.5. El adverbio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 283.5.1. Adverbios desde el punto de vista semantico . . . . . . . . . . 283.5.2. Punto de vista formal . . . . . . . . . . . . . . . . . . . . . . . 293.5.3. Funcion del adverbio . . . . . . . . . . . . . . . . . . . . . . . 293.5.4. Como impactan los adverbios en nuestra tarea de clasificacion . 30

3.6. El desarrollo emocional . . . . . . . . . . . . . . . . . . . . . . . . . . 303.6.1. Emociones . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

Emociones basicas o primarias . . . . . . . . . . . . . . . . . . 31Emociones cognoscitivas superiores . . . . . . . . . . . . . . . 32Emociones sociales . . . . . . . . . . . . . . . . . . . . . . . . 33

3.6.2. Clasificacion de las emociones . . . . . . . . . . . . . . . . . . 34Positivas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34Negativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

3.7. Minerıa de opinion o analisis de sentimientos . . . . . . . . . . . . . . 343.8. Procesamiento de lenguaje natural . . . . . . . . . . . . . . . . . . . . 353.9. Freeling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

3.9.1. Clases de almacenamiento de datos linguisticos . . . . . . . . . 373.9.2. Clases de procesamiento . . . . . . . . . . . . . . . . . . . . . 373.9.3. Etiquetas eagle . . . . . . . . . . . . . . . . . . . . . . . . . . 39

3.10. Python . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 463.11. TkInter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

3.11.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . 483.11.2. Clases . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

4. Diseno del sistema 514.1. El sentimiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

4.1.1. Definicion de la estructura para el texto . . . . . . . . . . . . . 52Entrada del texto . . . . . . . . . . . . . . . . . . . . . . . . . 53Ordenar el texto en lista de frases . . . . . . . . . . . . . . . . 53Etiquetado de cada palabra en cada oracion . . . . . . . . . . . 54

4.2. Una sencilla medida del sentimiento . . . . . . . . . . . . . . . . . . . 56Inversores de polaridad . . . . . . . . . . . . . . . . . . . . . . 58

4.3. Diccionario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 584.3.1. Definicion de un diccionario de expresiones positivas y negativas 584.3.2. Etiquetar el texto con los diccionarios . . . . . . . . . . . . . . 59

4.4. Descripcion del sistema . . . . . . . . . . . . . . . . . . . . . . . . . . 604.4.1. Ejemplo de procesamiento . . . . . . . . . . . . . . . . . . . . 62

Procesamiento . . . . . . . . . . . . . . . . . . . . . . . . . . 65

Page 13: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

CONTENIDO IX

5. Pruebas y resultados 695.1. Prueba realizada con comentarios de WhatsApp . . . . . . . . . . . . . 705.2. Prueba realizada con comentarios de Word para Android . . . . . . . . 725.3. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

6. Conclusiones 77

A. Comentarios usados para el experimento 1 81

B. Comentarios usados para el experimento 2 85

C. Extracto amplificado de los diccionarios 89

Referencias 97

Page 14: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime
Page 15: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

Indice de figuras

4.1. Diagrama polarizacion . . . . . . . . . . . . . . . . . . . . . . . . . . 574.2. Diagrama de prepocesamiento . . . . . . . . . . . . . . . . . . . . . . 604.3. Diagrama de bloques del sistema . . . . . . . . . . . . . . . . . . . . . 604.4. Interfaz del clasificador de opiniones . . . . . . . . . . . . . . . . . . . 614.5. Abriendo la base de datos de opiniones desde la interfaz . . . . . . . . 624.6. Ruta de la base de datos de opiniones desde la interfaz . . . . . . . . . 634.7. Procesamiento de Freeling desde la terminal de Ububutu . . . . . . . . 644.8. Base de datos de listas de frases proporcionada por Freeling . . . . . . 654.9. Procesamiento de las listas de frases . . . . . . . . . . . . . . . . . . . 664.10. Clasificacion de comentarios en espanol . . . . . . . . . . . . . . . . . 67

5.1. Grafica de resultados de la primera prueba . . . . . . . . . . . . . . . . 725.2. Grafica de resultados de la segunda prueba . . . . . . . . . . . . . . . . 74

XI

Page 16: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime
Page 17: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

Indice de tablas

3.1. Frases y modismos mexicanos . . . . . . . . . . . . . . . . . . . . . . 203.2. Tipos de adverbios desde el punto de vista semantico . . . . . . . . . . 293.3. Tipos de adverbios compuestos desde el punto de vista formal . . . . . 293.4. Funcion del adverbio . . . . . . . . . . . . . . . . . . . . . . . . . . . 293.5. Etiquetas que el analizador morfologico utiliza para el castellano . . . . 393.6. Etiquetas eagle para adjetivos . . . . . . . . . . . . . . . . . . . . . . . 403.7. Etiquetas eagle para adverbios . . . . . . . . . . . . . . . . . . . . . . 403.8. Etiquetas eagle para determinantes . . . . . . . . . . . . . . . . . . . . 413.9. Etiquetas eagle para nombres . . . . . . . . . . . . . . . . . . . . . . . 423.10. Etiquetas eagle para verbos . . . . . . . . . . . . . . . . . . . . . . . . 433.11. Etiquetas eagle para pronombres . . . . . . . . . . . . . . . . . . . . . 443.12. Etiquetas eagle para conjunciones . . . . . . . . . . . . . . . . . . . . 453.13. Etiquetas eagle para interjecciones . . . . . . . . . . . . . . . . . . . . 453.14. Etiquetas eagle para preposiciones . . . . . . . . . . . . . . . . . . . . 453.15. Etiquetas eagle para signos de puntuacion . . . . . . . . . . . . . . . . 453.16. Etiquetas eagle para numerales . . . . . . . . . . . . . . . . . . . . . . 463.17. Tipos de datos en Python . . . . . . . . . . . . . . . . . . . . . . . . . 47

4.1. Ejemplo de un parrafo procesado por Feeeling . . . . . . . . . . . . . . 554.2. Extracto del diccionario de palabras positivas, negativas e inventadas . . 59

5.1. Resultados obtenidos de la prueba . . . . . . . . . . . . . . . . . . . . 715.2. Resultados obtenidos de la prueba. . . . . . . . . . . . . . . . . . . . . 73

C.1. Extracto del diccionario de emociones . . . . . . . . . . . . . . . . . . 89

XIII

Page 18: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime
Page 19: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

Capıtulo 1

Introduccion

En la actualidad, la web hace posible emitir opiniones sobre productos o serviciosde una manera mas facil y atractiva para los consumidores, haciendo que las empresascuenten con una base de informacion valiosa.

El analisis de sentimientos es un area activa dentro del procesamiento del lenguajenatural, cuya labor es identificar sentimientos de manera automatica en textos. Existendatos subjetivos, los cuales tienen un gran potencial y es de suma importancia analizar-los para saber de esta manera lo que piensa el publico respecto a un producto o servicioanalizado.

Este trabajo esta motivado principalmente en la ayuda que conlleva un clasificadorautomatico de comentarios en espanol, como disminuir los errores causados por la sub-jetividad de algun lector al catalogar una lista de comentarios, el ahorro de recursoshumanos o simplemente el ahorro de tiempo, debido a la rapidez del sistema que sepropone en comparacion con la velocidad de un humano al realizar tareas como clasifi-car, delimitar opiniones, entre otros. De esta manera se podran utilizar los comentariosfavorables o desfavorables con un fin especıfico.

1.1. Planteamiento del problemaEn el mundo actual las opiniones son muy importantes, a traves de ellas la sociedad

evalua diversos ambitos y ayudan en estudios de mercado. El auge de las redes socialesy sitios o plataformas donde el publico tiene la oportunidad de emitir opiniones, da lapauta al uso de clasificadores de opinion. Esto se debe a que la cantidad de informaciondepositada en sus bases de datos es inmensa, y las empresas u organizaciones requierensolamente aquella que es de utilidad.

1

Page 20: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

2 CAPITULO 1. INTRODUCCION

Un clasificador de opiniones[Ric96], es una metodologıa utilizada para asignar unelemento entrante no etiquetado a una categorıa concreta. Dicho algoritmo permiteordenar o disponer los elementos entrantes por clases a partir de cierta informacion deestos.

Una manera de implementar un clasificador de opiniones, es seleccionar un conjuntode elementos etiquetados y tratar de definir una regla que permita asignar una etiquetaa cualquier dato de entrada[Mil11]. Dicha etiqueta puede considerarse como positiva,negativa o frases. Con el primer tipo de etiqueta nos referimos a aquellos comentariosque califican como bueno el objeto descrito, el segundo lo definimos como un comen-tario que nos da una mala impresion del mismo, y el ultimo se refiere a un comentarioen el cual hay texto que no indica un opinion clara o no se expresa correctamente, y porconsiguiente no puede entrar en las primeras dos categorıas de etiquetas.

Todas las palabras contienen una carga sentimental, esto significa que se les ha asig-nado un significado, por ejemplo, los adjetivos y adverbios permiten identificar unaconnotacion positiva o negativa sobre los objetos de los que se esta hablando. Este tipode clasificacion se dice que es por cargas semanticas o polaridades. Cuando el textoa analizar contiene palabras como bueno, excelente, genial asociamos el sentimientode algo agradable o bueno con una polaridad positiva. Cuando los adjetivos o adver-bios en cuestion describen algo desagradable o malo con palabras como feo, horrible,inservible, entre otros, se asocia esta palabra con una polaridad negativa.

Palabras como las anteriores no demuestran por sı mismas un significado, se debenencontrar las caracterısticas de lo que se esta hablando en el texto. Esto se refiere aencontrar al sustantivo del que se habla y la manera en que se conjunta o relaciona conlos adjetivos, para saber como estos califican dicho sustantivo. Las palabras utilizadaspara la construccion de las opiniones llevan de manera implıcita una carga semantica,que refleja los sentimientos que un usuario tiene sobre un producto o servicio. Sin em-bargo, si un texto no contiene opiniones bien establecidas o abarcan palabras de ciertapolaridad para describir lo contrario, por ejemplo no es bueno, se tiene que realizar unarevision de sintaxis y tratar de comprender toda una idea para saber lo que significabueno para el autor del comentario.

1.2. JustificacionLa informacion subjetiva vertida en la web ha crecido de una manera exponencial,

esto hace que las investigaciones se interesen en este campo y se plantee la viabilidad de

Page 21: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

1.3. HIPOTESIS 3

clasificar las emociones. Esto se debe a que los comentarios tienen un gran potencial alser explotados por empresas, administraciones, entre otras para encontrar la publicidadadecuada segun las preferencias u opiniones de la gente o encontrar lo mas valorado deun producto.

El futuro de los distintos ambitos que nos rodean, muchas veces depende de unaevaluacion con el fin de mantener o conseguir calidad en sus elementos, sean procesos,productos, servicios, etcetera. Por ello es importante tener siempre presente comenta-rios de los usuarios, ya que ellos son los mejores crıticos, pues en ellos recae el beneficiode dicho elemento.

Algunos productos se viralizan, esto quiere decir que tienen la capacidad de repro-ducirse y distribuirse de forma exponencial, teniendo opiniones de muchos usuarios ypor ende bastante informacion. Esta es la causa de que realizar una clasificacion seanecesario, de esta manera sera mas facil encontrar errores y el producto evaluado podramejorar al enfocarse en ellos a traves de los comentarios negativos. Ademas, de es-ta manera se sabra por que no esta agradando a las personas, o por lo contrario, lassentencias positivas revelaran las virtudes que agradan al publico.

Una de las tareas basicas de la minerıa de datos es la clasificacion de la polari-dad. Algunos investigadores han desarrollado tecnicas como asignar valores a la cargasemantica de las palabras, desde numeros binarios, hasta la asignacion de numerosreales que indican el grado de polaridad de las palabras, aunque existen limitacionespor el dominio y tema. Lamentablemente la mayorıa de las investigaciones estan ba-sadas en textos en ingles, y por ende los recursos que se han desarrollado estan en eseidioma.

Por tal motivo se desea implementar una herramienta que nos permita automatizarla tarea de clasificacion de opiniones en espanol. Dicha herramienta estara dirigida a laclasificacion de opiniones de un producto a la vez. Ademas, se desea que al encontrarla carga semantica de las palabras que son usadas al describir el producto, se puedancategorizar y asociar para encontrar la polaridad del comentario.

1.3. HipotesisEs posible la clasificacion de textos en espanol mediante el analisis morfo-sintactico

de los comentarios, analizando los sentimientos que proyectan los adjetivos y adver-bios, asociando una polaridad como indicadores sentimentales, con el fin de establecer

Page 22: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

4 CAPITULO 1. INTRODUCCION

parametros que dicten una crıtica positiva o negativa. Asimismo hacer uso de la pre-sencia y posicion de dichas palabras para detectar el sentido del texto.

1.4. Objetivos

1.4.1. Objetivo general

Disenar e implementar un progrma en Python basado en metodologıa para clasificarde comentarios en espanol mediante el uso de informacion lexica y diccionarios depolaridad.

1.4.2. Objetivos particulares

Investigar los antecedentes y avances que ha tenido la minerıa de datos

Conocer la teorıa y las herramientas fundamentales de un sistema clasificador decomentarios

Realizar un pre-procesamiento estandar de las opiniones

Realizar un analisis morfo-sintactico de las oraciones para identificar las cate-gorıas gramaticales de las palabras

Asignar una polaridad a cada uno de los adjetivos mediante los diccionarios

Asignar una polaridad al comentarios

Clasificar las opiniones

Realizar pruebas con comentarios existente

1.5. Alcance de la investigacion

La ciencia de la computacion es muy amplia y actualmente cubre campos que hacepoco tiempo eran inimaginables. Uno de estos es la minerıa de datos, la cual es unarama de la inteligencia artificial muy completa, por lo que es necesario limitarla para eldesarrollo de este trabajo.

Page 23: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

1.5. ALCANCE DE LA INVESTIGACION 5

Haciendo un analisis del entorno de esta ciencia se puede conocer que la minerıa dedatos es un campo de las ciencias de la computacion, cuyo proceso intenta descubrirpatrones en grandes volumenes de conjuntos de datos[MR05]. Esta utiliza metodos dela inteligencia artificial, aprendizaje automatico, estadıstica y bases de datos. Dentro dela minerıa de datos existe el analisis de sentimientos que tambien es llamado minerıade opinion, la cual es una interesante parcela a medio camino entre el procesamientodel lenguaje natural, linguıstica computacional y minerıa de datos.

Hay diferentes clases de minerıa de datos, en este escrito podemos encontrar mas in-formacion de ellas en el capitulo 3, sin embargo como el nombre del trabajo lo indica,el prototipo desarrollado esta basado en clasificacion y agrupamiento. La primera deellas se debe a que se analizan los datos de entrada considerando los atributos de cadacomentario para encontrar una relacion entre ellos, y a partir de esto se realiza el agru-pamiento, ya que fracciona los resultados de caracterısticas similares en subconjuntos.

Dentro de la minerıa de datos tambien existen tecnicas que son clasificadas de acuer-do a la logica que usan, como arboles de decision o reglas, o de acuerdo a las ecuacionesque se utilizan como estadıstica o redes neuronales. En este proyecto se utilizan reglasde asociacion, ya que es una tecnica potente para buscar en un conjunto de datos rela-ciones o asociaciones entre las entidades de los datos.

Es importante tambien enfatizar que el sistema utiliza Freeling, el cual es una librerıade codigo abierto para procesos multilenguajes. Este software ofrece analisis linguısti-co a aplicaciones que usan procesamiento de lenguaje natural, y esta disponible enidiomas como austriaco, catalan, espanol, gales, gallego, ingles, italiano, portugues yruso. Como el prototipo disenado esta enfocado a comentarios en espanol, solamenteutiliza dicho idioma, incluyendo regionalismos de Mexico.

Ya que se sabe los lımites en cuanto tecnicas y clasificaciones ahora es importan-te destacar que el sistema esta desarrollado para Ubuntu, una distribucion de Linux.Ademas, la aplicacion esta elaborada en Python, el cual se trata de un lenguaje deprogramacion multiparadigma, ya que soporta orientacion a objetos, programacion im-perativa y, en menor medida, programacion funcional. Es un lenguaje interpretado, usatipado dinamico y es multiplataforma.

Page 24: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime
Page 25: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

Capıtulo 2

La minerıa de datos y sus antecedentes

La minerıa de datos hoy en dıa esta captando la atencion de las personas y las em-presas, aun no es frecuente oır que se segmentan clientes con minerıa de datos o quecon ella se incrementara la satisfaccion de los clientes, etcetera. Sin embargo, este es elcamino por el que se dirige esta rama de la inteligencia artificial, pues tarde o tempranola minerıa de datos tendra el mismo peso que la estadıstica en la sociedad[RRG06].

La minerıa de datos puede definirse inicialmente como un proceso de descubrimientode nuevas y significativas relaciones, patrones y tendencias al examinar grandes canti-dades de datos[Lop07].

En la actualidad existen enormes cantidades de informacion disponible, y el uso deherramientas informaticas ha cambiado la manera de analisis de estos, llevando dichoanalisis a tecnicas y herramientas especializadas que se engloban bajo el nombre deminerıa de datos o data minning.

El software basado en minerıa de datos (algunos los conocen como mineros), sonprogramas que de manera automatica y autonoma persiguen el descubrimiento del co-nocimiento almacenado en la informacion contenida en bases de datos. Estas tecnicastienen como objetivo descubrir patrones, perfiles y tendencias a traves del analisis delos datos utilizando tecnologıas de reconocimiento de patrones, redes neuronales, logi-ca difusa, algoritmos geneticos y otras tecnicas avanzadas del analisis de datos[Lop07].

Este concepto surgio desde hace mas de 10 anos, sin embargo en la actualidad hatomado mas fuerza debido a diversos factores como el abaratamiento de los medios dealmacenamiento, mayor uso de bases de datos, avance en la tecnologıa computacional,desarrollo en tecnicas de aprendizaje autonomo, entre otros.

7

Page 26: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

8 CAPITULO 2. LA MINERIA DE DATOS Y SUS ANTECEDENTES

2.1. HistoriaLos fundamentos teoricos de la minerıa de datos se basan en el estudio del apren-

dizaje automatico en maquinas o machine learning, un area interdisciplinaria dondeinteligencia artificial, ciencias cognitivas, estadıstica y biologıa han jugado un papelimportante en el desarrollo de la misma.

La minerıa de datos es una campo de la ciencia de la computacion que en los ultimosanos ha comenzado a desarrollar aplicaciones y por ende ha comenzado a tomar fuerza,sin embargo, el desarrollo de esta area ha pasado por varias etapas a lo largo de lahistoria, y los cambios han sido muy relevantes que hoy se puede hablar de paradigmas.

Se pueden encontrar trabajos que datan de los anos 30’s, en donde se observa que elprincipal interes de los investigadores era comprender el funcionamiento del cerebro.Estos estudios llevaron al desarrollo de modelos que representaban y explicaban elcomportamiento del mismo. Esta es la base para que decadas mas tarde se disenaranlas redes neuronales artificiales, las cuales se consideran como los primeros sistemascreados por el hombre capaces de aprender.

A principio de los anos 60’s las investigaciones se dedican a la forma en que serepresenta el conocimiento, pues en las redes neuronales este queda implıcito y no hayforma de entender su estructura. La representacion del conocimiento queda expresadaen formas de arboles de decision, reglas, expresiones logicas o redes semanticas enlugar de metodos numericos o estadısticos. En esta decada los estadısticos utilizabanterminos como Data Fishing, Data Mining o Data Archaelogy con la idea de encontrarcorrelaciones sin una hipotesis previa en bases de datos con ruido.

Data Fishing es el uso de minerıa de datos para descubrir patrones en los datos queson presentados como estadısticamente significativos, sin tener primero la elaboracionde una hipotesis especıfica en cuanto a la causalidad subyacente[YK11].

Data Archeology se refiere al arte y ciencia de la recuperacion de datos informaticoscodificados y/o cifrados en medios o formatos ya obsoletos. Data Archeology puedereferirse tambien a la recuperacion de la informacion de formatos electronicos danadosdespues de de los desastres naturales o por el hombre.

A mediados de los anos 70’s los trabajos se centran en la creacion de sistemas deproposito especıfico, en contraste con los anteriores de proposito general. Se caracteri-zan por la gran cantidad de conocimiento previo relativo a un dominio especıfico que

Page 27: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

2.2. ANALISIS DE SENTIMIENTOS 9

requieren, el cual es estructurado y es dado por un experto, es decir, una persona conbastantes conocimientos en un area especıfica.

A principios de los anos ochenta, Rakesh Agrawal, Gio Wiederhold, Robert Blumy Gregory Piatetsky-Shapiro, entre otros, empezaron a consolidar los terminos de datamining y Knowledge Discovery in Databases (KDD). Esto se refiere al proceso no-trivial de descubrir conocimiento e informacion potencialmente util dentro de los datoscontenidos en algun repositorio de informacion. A finales de los anos ochenta soloexistıan un par de empresas dedicadas a esta tecnologıa; en 2002 existen mas de 100empresas en el mundo que ofrecen alrededor de 300 soluciones.

Esta tecnologıa ha sido un punto de encuentro entre personas que pertenecen al ambi-to academico y de negocios. La minerıa de datos es una tecnologıa que se compone poretapas que integran varias areas y que no debe confundirse con un gran software. Mien-tras se desarrolla un proyecto de este tipo se utilizan diferentes aplicaciones de softwareen cada etapa, que pueden ser estadısticas, de visualizacion de datos o de inteligenciaartificial, principalmente. En la actualidad existen aplicaciones o herramientas comer-ciales muy poderosas de minerıa de datos, estas contienen un sinfın de utilerıas quepermiten el facil desarrollo de un proyecto. Sin embargo, casi siempre acaban comple-mentandose con otra herramienta. La minerıa de datos es la etapa de descubrimientoen el proceso de KDD: Paso consistente en el uso de algoritmos concretos que generanuna enumeracion de patrones a partir de los datos preprocesados (Fayyad et al., 1996)Aunque se suelen usar indistintamente los terminos KDD y Minerıa de Datos.

2.2. Analisis de sentimientos

El analisis de sentimientos tambien conocido como minerıa de opinion, se usa paraidentifica y extraer informacion subjetiva de unos recursos a traves del procesamientodel lenguaje natural, analisis de textos y linguıstica computacional.

Las tareas del analisis de sentimientos se basan en la interpretacion de la actitud dela persona que funge como interlocutor o escritor con respecto a algun tema o la pola-ridad, con actitud se refiere a una valoracion, estado afectivo o intencion comunicativaemocional al escribir. Por ejemplo, una tarea basica de la minerıa de opinion es encon-trar polaridades en un texto a nivel documento, oracion o palabra, y dentro de minerıasmas avanzadas es posible encontrar clasificaciones como enojado, triste, feliz, entreotras.

Page 28: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

10 CAPITULO 2. LA MINERIA DE DATOS Y SUS ANTECEDENTES

Los primeros trabajos realizados en esta area incluyen Turney[Tur02] y Pang[PLV02].El primero de ellos es un algoritmo de aprendizaje sin supervision para clasificacion decriticas de productos como recomendado o no recomendado. Este trabajo es a niveldocumento y funciona prediciendo el promedio de la orientacion semantica de frasesque contienen adjetivos y adverbios, rescatando la carga semantica que tiene cada unode ellos.

En el segundo caso los datos que se usaron fueron crıticas de pelıculas, determinandocuales de ellas son positivas o negativas. En este trabajo se emplearon tres tecnicas demetodos de aprendizaje de maquina: Naive Bayes, clasificacion de entropıa maxima, ymaquinas de soporte de vectores.

En los trabajos mencionados anteriormente la polaridad que es asignada solamentees binaria, es decir, es posible encontrar resultados positivos o negativos. Sin embargo,tambien es posible realizar una clasificacion en una escala de varios valores, trabajosintentados por Pang[PL05], Snydler[SB07], entre otros.

Pang en esta ocasion realizo, con respecto a la opinion del autor, una evaluacionbasada en una multiescala (de una a cinco estrellas). Primero evaluando el desempenohumano en la tarea, despues aplicando un algoritmo basado en un etiquetado metricoque formula una salida n-aria del clasificador.

Snydler utilizo opiniones de restaurantes, que involucraban comida, ambiente y ser-vicio, en donde la tarea consistıa en generar una clasificacion multiple donde la metaes producir una puntuacion numerica por cada aspecto.

A pesar de que en la mayorıa de los metodos de clasificacion estadısticos, la claseneutral es ignorada bajo la suposicion de que los textos neutrales se encuentran cerca dela frontera del clasificador binario, varios investigadores sugieren que, al igual que entodo problema de polaridad, tres categorıas deben ser identificadas. Ademas, puede serprobado que algunos clasificadores especıficos tales como el de Maxima Entropıa[6] ylas SVMs[KS06] se pueden beneficiar de la introduccion de la clase neutral y mejorarla precision global de la clasificacion.

Existe otro metodo diferente para determinar el sentimiento de un escrito, donde laspalabras negativas, neutrales o positivas son asignadas a una escala desde -10 a 10,la cual va del sentimiento mas negativo al mas positivo. Cuando el texto a procesarno esta estructurado se utiliza el procesamiento de lenguaje natural, para encontrar unentendimiento de las palabras y como se relacionan con el concepto.

Page 29: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

2.2. ANALISIS DE SENTIMIENTOS 11

Otra forma de investigacion es la que involucra una identificacion subjetivo/objetivo,la cual se define como un clasificador que situa el escrito en dos clases: objetivo osubjetivo. Esta clasificacion es mas difıcil porque la subjetividad u objetividad dependedel contexto, sin embargo Pang[PL04] demostro que eliminar las oraciones objetivasde un documento antes de clasificar su polaridad, ayudo a mejorar su rendimiento.

Existe otro tipo de analisis con mas detalles, el cual es llamado analisis de sentimien-to basado en rasgos/caracterısticas[HL04]. El objetivo es extraer y resumir todos loscomentarios de los clientes de un producto. Esta tarea de resumen es diferente del tradi-cional resumen de texto porque solo se extraen las caracterısticas del producto en el quelos clientes han expresado sus opiniones y si las opiniones son positivas o negativas.No se resumen los comentarios seleccionados en un subconjunto, la tarea se realiza en3 pasos. Primero las caracterısticas del producto minero que han sido comentados porlos clientes. Segundo, la identificacion de frases de opinion en cada revision decidir sicada frase es positiva o negativa. Tercero, resumir todos los resultados.

Page 30: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime
Page 31: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

Capıtulo 3

Herramientas teoricas para la minerıade opinion

3.1. IntroduccionEl objetivo principal del analisis automatico de sentimientos consiste en determinar

la actitud de un escritor ante determinados productos, situaciones, personas u organiza-ciones; identificar los aspectos que generan opinion; quien las posee; y cual es el tipo deemocion (me gusta, me encanta, lo valoro, lo odio) o su polaridad (positiva, negativa,neutra).

El tipo de informacion que puede obtenerse utilizando sistemas de analisis automati-co de sentimientos incluye: polaridad de sentimientos en crıticas sobre algun objetopuesto en analisis; opinion publica sobre representantes polıticos o situaciones de in-teres social; predicciones sobre resultados de elecciones; tendencias de mercado, entreotros.

Existen distintas tareas de procesamiento que pueden realizarse en sistemas de anali-sis de sentimientos: la mas simple es la clasificacion binaria de la actitud de un texto, enpositiva o negativa (tambien puede existir el neutro); una tarea un poco mas complejaes la multiclasificacion de un texto segun el grado de polaridad de la actitud dentro deuna escala; y la tarea mas avanzada es la identificacion de los aspectos mencionados enun texto y sus sentimientos asociados[Gar10].

En este trabajo nos enfocamos en la clasificacion binaria de textos en idioma espanolpartiendo de un analisis morfo-sintactico de las oraciones contenidas en el comentario,y asignandole una polaridad utilizando diccionarios de sentimientos. Es por esto que

13

Page 32: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

14CAPITULO 3. HERRAMIENTAS TEORICAS PARA LA MINERIA DE OPINION

comenzaremos analizando todos los aspectos que conllevan una opinion, desde lo masgeneral como es el lenguaje, hasta casos particulares que nos indican el sentimiento delcomentario, como son los adjetivos y adverbios.

3.2. LenguajeEl lenguaje al ser algo ıntimamente ligado al ser humano y estar tan inmerso en

varios aspectos de nuestra vida diaria, ha sido estudiado desde diferentes perspectivasde pensamiento. Algunas ciencias, particularmente las humanas han prestado atencionespecial al lenguaje hablado. Sin embargo, son innumerables los analisis realizadoshasta el presente sobre el lenguaje escrito y sus caracterısticas.

La idea de que el lenguaje ha transformado la conciencia humana porque permite eldesarrollo de nuevas formas de pensamiento y la adquisicion de conocimientos, nos lle-va a buscar una explicacion teorica sobre las relaciones existentes entre el pensamiento,lenguaje y su posible relacion en la determinacion de las acciones de un receptor.

Debido a que el lenguaje esta ıntimamente ligado al pensamiento humano, citamos aalgunos autores, los cuales lo definen ası:

1. Chomsky[LC57] expone que el lenguaje natural es un conjunto finito o infinito deoraciones, cada una de ellas de longitud finita y construida a partir de un conjuntofinito de elementos. Cuya definicion destaca las caracterısticas estructurales dellenguaje sin profundizar en sus funciones y la capacidad de generar accion quetiene para un emisor y el receptor.

2. Luria[Lur77] expone que lenguaje es un sistema de codigos con la ayuda delos cuales se designan los objetos del mundo exterior, sus acciones, cualidadesy relaciones entre los mismos. Esta definicion presta importancia a los codigospara la delineacion de objetos, ya sean concretos o abstractos, los cuales en granmedida nos ayudan a visualizar el mundo que nos rodea considerando nuestrospreceptos socioculturales.

3. Bronckart[Bro77] define el lenguaje como la instancia o facultad que se invocapara explicar que todos los hombres hablan entre sı. La definicion de Bronckartes un poco tımida y profunda, ya que deja a un lado la posible injerencia quetiene la cultura en un acto comunicativo entre un receptor y el emisor.

4. Pavio[AP81] indica que el lenguaje es un sistema de comunicacion biologicoespecializado en la transmision de informacion significativa e intraindividual-mente, a traves de signos linguısticos. La definicion de estos autores entrelaza de

Page 33: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

3.2. LENGUAJE 15

forma soslayada diversas disciplinas de pensamiento para describir los procesosde transmision de informacion lo cual la hace multidisciplinaria.

5. Segun Sapir citado por Hernando[Cua95] el lenguaje es un metodo exclusiva-mente humano, y no instintivo, de comunicar ideas, emociones y deseos por me-dio de un sistema de sımbolos producidos de manera deliberada. De esta defini-cion, se desprende que el lenguaje, como medio de comunicacion humana, frentea los medios de comunicacion animal (o de cualquier otro tipo), reune estas pro-piedades:

a) Ser un fenomeno exclusivamente humano

b) Servirse de la voz como vehıculo de transmision

c) No ser instintivo

d) Utilizar un sistema de signos

e) Estar articulado a partir de determinadas unidades mınimas.

6. Calabro[CTK96], Taylor y Kapadia (1996) exponen que dependiendo de cuancomplejo o sencillo este estructurado el lenguaje tanto verbal como escrito, pue-de variar significativamente el nivel de pensamiento y entendimiento en el in-dividuo. Esta definicion resalta la importancia que tiene para los estudiosos dela comunicacion la estructura del lenguaje debido a su posible influencia en lacomprension de la informacion por parte de un receptor. Aspecto que puede serdeterminante en esfuerzos masivos de comunicacion publica.

7. El Diccionario de la Real Academia de la Lengua Espanola[RAE12] define ellenguaje como estilo y modo de hablar y escribir de cada persona en particular.La Real Academia presenta una definicion simple tomando en consideracion lacomunicacion verbal y escrita sin adentrarse en las particularidades linguısticasque puedan estar inmersas en las personas sean emisores o receptores.

Estos tipos de comentarios nos dejan percibir que hay un sinfın de definiciones liga-das al termino del lenguaje y cada una de ellas tiene sus peculiaridades, sin embargo,pese a su disparidad, todas ellas conforman un cierto numero de elementos en comuncomo los siguientes:

1. El lenguaje puede interpretarse como un sistema compuesto por unidades (signoslinguısticos).

2. La adquisicion y uso de un lenguaje por parte de los organismos posibilita en es-tas formas peculiares y especıficas de relacion y de accion sobre el medio social.

Page 34: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

16CAPITULO 3. HERRAMIENTAS TEORICAS PARA LA MINERIA DE OPINION

3. El lenguaje da lugar a formas concretas de conducta, lo que permite su interpre-tacion o tipo de comportamiento.

Partiendo del aspecto de la comunicacion social, que es el rubro que nos interesa, lagran cantidad de maneras de representar la linguıstica inmersa en una poblacion puedeser tanta que pretende comunicar un mensaje se requiera de acciones en el dialogo, yaque el desconocimiento de las caracterısticas linguısticas, incluso en un mismo idioma,que distinguen a ciertas regiones de esa lengua, cuyo fin es comunicar un mensaje,puede tener una influencia en el proceso de la comunicacion por la ausencia de empatıainmersa en la manera de expresarse o la estructura del lenguaje utilizado[Her10].

3.2.1. Interpretacion del Lenguaje

Si bien, el origen y el estudio del significado de las palabras y las oraciones como ex-presiones del lenguaje sin lugar a dudas es una tarea sumamente compleja de entender,no obstante, es plausible reflexionar las raciones que esto implica en la reconstrucciondel pensamiento y en la predisposicion del receptor y las conductas que este adopta.

De acuerdo con Berlo[Ber99] el lenguaje incluye un sinnumero de sımbolos signi-ficantes, pero tambien algo mas. El lenguaje es un sistema que implica tanto los ele-mentos como las estructuras. Como en todo sistema, podemos definir las unidades ele-mentales y estructurales a distintos niveles, segun el proposito. A todo nivel, empero,el lenguaje comprende un conjunto de sımbolos (vocabulario) y los metodos signifi-cativos para combinar esas unidades (sintaxis). Una gramatica es la descripcion de lascaracterısticas de la estructura del lenguaje.

A continuacion se mostraran algunas definiciones de codificacion y decodificacion,los cuales son necesarios para entender los postulados de Berlo como parte de un pro-ceso de introspeccion teorica.

Moreno[Mor83] define codificacion como trabajo a realizar por el comunicador.Consiste en convertir los conceptos o significados en un conjunto o serie de sig-nificantes agrupados de acuerdo a las reglas del codigo en cuestion. Todo pro-ceso de codificacion implica la eleccion y actualizacion de ciertas alternativas oposibilidades comunicativas establecidas y definidas ya por el codigo. Sobre eltermino decodificacion se entiende por la operacion propia del perceptor, que esprecisamente inversa al trabajo del comunicador, pues consiste en convertir lossignificantes en significados apoyandose en el codigo[Mor83].

Page 35: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

3.2. LENGUAJE 17

Rodrigo[Rod95] sustituye el termino decodificacion por el de interpretacion de-bido a la identificacion de tres niveles dentro del proceso: acustico-fonematico-silabico, gramatico-semantico-estilıstico, axiologico. De acuerdo con Rodrigo[Rod99] la decodificacion no serıa una operacion sino un conjunto de opera-ciones de identificacion, de interpretacion y de valoracion. La identificacion seproducira en el nivel acustico-fonematico-silabico. La interpretacion en el nivelgramatico-semantico-estilıstico y el asunto de la valoracion por su parte se daraen el nivel axiologico. Este enfoque de Rodrigo trastoca los lineamientos quehan caracterizado a traves de los anos los estudios sobre decodificacion dentrodel proceso de comunicacion. Sin embargo, brinda la oportunidad de repensar enlos conceptos que autores como Berlo, entre otros, han utilizado para describir elproceso de comunicacion.

Mignot[Fue96] expone que un codigo que se define como un sistema de senasque establece correspondencias entre un universo del significante y universo delsignificado. Codificacion y decodificacion no son unicamente operaciones de tra-duccion de un repertorio a otro, sino procesos de significacion.

El emisor codifica su mensaje asociandole una senal. La descodificacion lograda porel receptor consiste en buscar el sentido que se le quiere transmitir. Las dos operacionesse logran gracias a las correspondencias establecidas por el codigo entre las divisionesdel campo semantico (conjunto de senales pertenecientes a un codigo) y las del campono etico (conjunto de senales admitidas por el codigo).

El conocimiento del codigo permite al receptor identificar el mensaje recibido conuna clase de senales, con un significante y atribuirle el significado correspondiente.El significado que se le otorga al lenguaje expresado a traves de un sımbolo puedevariar de un individuo a otro, incluyendo al desarrollador de un texto –que podrıamoscatalogar como emisor– el cual tiene la responsabilidad de comunicar un mensaje quepretende accion por parte del receptor. Sin embargo, esa accion estara determinada porlos preceptos que rigen al receptor, quien tendra la potestad finalmente para determinarel curso de accion a seguir.

No debemos olvidar el planteamiento de Vygtoski[VKA95] que indica que el len-guaje es como una herramienta de reconstruccion del pensamiento. Podemos inferirque dicha reconstruccion estara enmarcada por el significado que le otorgamos a lossımbolos y que rigen en nuestras vidas desde el nacimiento.

Tipos de significado que se le otorga al lenguaje expresado segun Vygtoski[Gar10]:

Page 36: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

18CAPITULO 3. HERRAMIENTAS TEORICAS PARA LA MINERIA DE OPINION

1. El significado de un signo linguıstico, se define, en principio, como la informa-cion que, a traves de el, se transmite en el acto de comunicacion (Hernando[Cua95]).Dicho acto de comunicacion deberıa estar influenciado por la presencia de loselementos socioculturales inmersos en el emisor y receptor de la informacion,los cuales al momento de enviar o recibir un mensaje utilizaran como marco dereferencia los preceptos referenciales que han adquirido a traves de su desarrollopara otorgar significados a conceptos gramaticales.

2. Significado demostrativo. Actualmente existe entre la gente; pero nosotros pode-mos abstraerla y generalizar sobre ella para todos los usuarios de un determinadolenguaje. Berlo utiliza como ejemplo el uso de la palabra pelota, la cual denota ose refiere al objeto pelota. Las relaciones entre dichos vocablos y los correspon-dientes objetos adquieren sentido.

3. Significado estructural. Esta basado en una relacion entre unos signos y otros.El dominio del significado estructural es la realidad formal, no la realidad fısi-ca. Entre los significados estructurales Berlo menciona a) la cantidad –singular oplural– y b) persona –primera, segunda o tercera–. En la expresion Muchos tara-nos tienen un ave el significado formal para la s en la palabra tarano es mas deuno. El significado formal para la palabra tienen es, ası mismo, mas de uno.

4. Significado contextual. Otorgar significado a una palabra particular. Es un medioque ayuda a definir palabras nuevas al receptor, pero que la fuente siente que debeusar en la comunicacion de un determinado tema. Un ejemplo que podrıamosutilizar para apoyar lo que es un significado contextual serıa el termino elocuente,el cual puede representar para algunos versado como para otros hablador. Lasexperiencias sociolinguısticas inmersas en el receptor o emisor determinaran elsignificado contextual que finalmente se le otorgue a un termino.

5. Significado connotativo. Es la relacion entre un signo y un objeto, pero involu-cra a las personas mas que otros tipos de significados. Berlo lo define como unarelacion entre un signo, un objeto y una persona. Esta orientado hacia las perso-nas. Cuando se utilizan palabras que son altamente connotativas, debemos poneruna atencion especial para asegurarnos de que el receptor habra de significar al-go mediante ellas, probablemente lo que nosotros intentamos que signifique. Siel termino tiene diversas connotaciones podrıa causar problemas al receptor almomento de tratar de otorgar un significado al vocablo.

Al usar como ejemplo las caracterısticas linguısticas de Mexico y Espana. Ambostienen sus elementos diferenciales en gran parte por el caracter sociopolıtico histori-co y prevaleciente en estos paıses hispanoparlantes. Dicho aspecto puede tener alguna

Page 37: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

3.2. LENGUAJE 19

influencia durante el desarrollo y envıo de mensajes que pretenden ser dirigidos a lapoblacion general. La posible sustitucion de significados inmersa en un proceso dedecodificacion por parte de receptores con culturas heterogeneas y conocimientos di-versos podrıa tener alguna influencia en la comprension de una estructura linguısticaque pretende acciones en la poblacion.

De acuerdo con Belinchon[GGC07], Riviere e Igoa (p. 188, 1996) los aspectos fun-damentales del lenguaje se adquieren en un breve lapso de tres o cuatro anos, que seproduce en la fase (de los 12-18 meses a la edad escolar) a la que Piaget denomina pe-riodo preparatorio. Durante esa fase, es posible adquirir, con extraordinaria facilidad,cualquier lengua a la que se este expuesto. Ademas, se adquiere un vocabulario muyamplio a un ritmo aproximado de una palabra por cada hora que una persona a esa edadse pasa despierto, llegando a adquirir por lo menos, unos 15,000 elementos lexicos”.

La tabla 3.1 nos muestra en gran medida las palabras que se utilizan muy seguidoen el habla del idioma espanol a lo largo de la Republica Mexicana. Siguiendo con elentendimiento del lenguaje nos encontramos con otros autores que definen conceptosdel lenguaje y sub areas conyugues de la siguiente manera:

1. Segun Raiter[Rai03] el significado de una oracion no depende exclusivamen-te de la suma de los significados de los signos/palabras en ella contenidos. Elsignificado depende tanto de las palabras que la componen como del contextocomunicativo. Por ejemplo en La casa es bonita todo parece indicar que inde-pendientemente del contexto, esta oracion siempre indicara una relacion, entrecasa, signo del que es facil indicar de modo no ambiguo un referente como vi-vienda, y determinada cualidad de estetica de belleza; esta relacion indica que esapropiedad es un atributo del sujeto gramatical. Raiter utiliza el aspecto contextocomunicativo como ente importante al momento de asignar un significado a lasoraciones o palabras. El elemento contexto comunicativo defendido por Raiter vaen lınea con la exposicion que hace David Berlo sobre el significado contextual ysu rol en la comprension de un mensaje. Podemos apreciar como ambos autoresutilizan el elemento contexto en la formulacion de un significado, el cual podrıaser catalogado como la esencia del lenguaje. El contexto que finalmente otorgueuna persona a algun signo o estructura gramatical podrıa tener implicaciones enla interpretacion que se de a una estructura linguıstica.

2. Ramırez[Ram87] ha realizado varios trabajos sobre el lenguaje y su funcion me-diadora en el proceso de pensamiento. Senala que el lenguaje esta prenado deconceptos generales que pertenecen al conocimiento y a la experiencia humana.

Page 38: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

20CAPITULO 3. HERRAMIENTAS TEORICAS PARA LA MINERIA DE OPINION

Tabla 3.1: Frases y modismos mexicanosPalabra Frase relacionada SignificadoAguitado ¡No te aguites! Estar tristeAmolar No la mueles, ya ni la amueles Echar a perderArdido Eres bien ardido Que tiene mucho coraje por algoBanda ¡Hazlo de banda! Ser amigo, o un grupo de amigosBote Te van a meter al bote CarcelBronca No hay bronca ProblemaCabron ¡Eres bien cabron! Persona habil en algoCarbon ¡Esta bien cabron! DifıcilCabron Eres un cabron con ella CruelCagado Esta bien cagado Gracioso, chistosoCagar ¡La vas a cagar! Fallar, echar a perderCaguama Ve por unas caguamas Botella de 1Ltr. de cervezaCanon Eso sı esta canon DifıcilCarnal ¡Que paso carnal! HermanoChacha SirvientaChacho MuchachoChafa ¡Esta bien chafa! De poco valor o mediocreChale ¡Chale! Mala fortunaChamba No hay chamba Trabajo o empleoChanchuyo Vamos a hacer un chanchuyo Cambio, estafa o embusteChela / Chelear Vamos a chelear Cerveza, ir a beber cervezaChido Esta chido Adjetivo o adverbio positivo

El profesor es bien chidoChinga ¡Ah chinga! Expresion de sorpresaChingada ¡Me lleva la chingada! Exclamacion de desahucioChingada ¡Vete a la chingada! Dejar de andar molestando

¡Ya te cargo la chingada! Considerarse muertoChingadera ¡Esas son chingaderas! Accion que perjudica sin motivo

Esa chingadera CosaChingar ¡Vamos a chingarnos unas chelas! Ir a tomar cervezasChingar ¡Te voy a chingar! Perjudicar, joder, violarChingon La pelıcula estuvo chingona Algo muy bueno o habil en algoChispotear ¡Se me chispoteo! Hacer algo por errorChiton ¡Tu chiton! No decir nada al respectoChota ¡Ya te cayo la chota! PolicıaChupar ¡Vamos a chupar! Tomar cervezaClavar ¡No te lo vayas a clavar. . . he! Apropiarse de algo

Page 39: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

3.2. LENGUAJE 21

Tabla 3.1: Frases y modismos mexicanos (cont.)Palabra Frase relacionada SignificadoCompa ¡Hazlo de compas! AmigoCuate ¡Hazlo de cuates! AmigoCulero El es bien culero Que no se compadece de los demasCulero Esta bien culero Que es desagradableDescontar ¡Ya te descontaron! GolpearDon ¿Como le va (a usted) Don? Persona de tiene respetoEncabronado Ya me encabrone Persona molestaEncabronar (se) Me voy a encabronar Hacer enojarFeria ¡No tengo feria! DineroGacho ¡Esta bien gacho! Adjetivo negativo

¡Ella es bien gacha!Gringo Persona de USAGuaguarear ¡Nada mas estas guaguareando! Hablar por hablarHıjole ¡Hıjole! Expresion de asombroHueva Esta de hueva Tener perezaHuevon Es bien huevon HolgazanIndio Eres bien indio IgnoranteIra ¡Ira, tu! Mala pronunciacion del verbo mirarLacra Eres bien lacra Persona sin moral ni eticaMadre ¿Tienes esa madre? CosaMadrear Te voy a madrear GolpearMamado Ese wey esta bien mamado MusculosoManuela Hoy toca manuela Consuelo propioMejor ¡A lo mejor! QuizaMordida Dar una mordida Soborno a las autoridadesNeta ¡La neta! Decir la verdadPadre Eso esta padre Se trata de un adverbio positivoPedo ¿Cual es tu pedo? ProblemaPinche Pinche wey Tener desprecio por alguienRola ¡Que buena rola! CancionSimon ¡Simon! Respuesta afirmativaValedor ¡Hazlo de valedores! AmigoVaro ¿Traes varo para unas chelas? 1 peso mexicanoVato Un sujetoWey ¡El ese wey! Sujeto masculinoWey ¡Esta bien wey! Adverbio negativo

Ella se fue con su wey Pareja sentimental o amigo

Page 40: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

22CAPITULO 3. HERRAMIENTAS TEORICAS PARA LA MINERIA DE OPINION

Anade que ası como las herramientas de trabajo cambian historicamente, tam-bien los instrumentos del pensamiento varıan historicamente. Del mismo modoque nuevas herramientas de trabajo dan lugar a nuevas estructuras sociales, nue-vas herramientas de pensamiento dan lugar a nuevas estructuras de pensamiento.

Una reformulacion en el pensamiento influenciado por el significado que tengamosde lo que nos rodea puede representar un cambio en la vision y expectativas de unomismo, de su entorno y su futuro.

Los lenguajes o codigos estan integrados por dos sistemas paralelos: el de los signi-ficantes y el de los significados, entre los cuales se establece una serie de correspon-dencias reguladas. A todo significante corresponde por lo menos un significado. Se hadiscutido mucho sobre si la relacion entre significado y significante es arbitraria o no.Saussure ha dominado la teorıa de la relacion arbitraria entre significante y significadopero enfocado en el signo verbal. Para Saussure[DSBS+80] el lazo que une el signi-ficante al significado es arbitrario; o bien, puesto que entendemos por signo el totalresultante de la asociacion de un significante con un significado.

La importancia de las raıces sociales de los sımbolos, ha sido destacada por otrosexpertos interaccionistas como Mead y sus seguidores, los cuales han denominado in-teraccionismo simbolico a este campo de estudio (Blumer[Fre03]). La perspectiva deestos investigadores es importante, porque permite comprender para que se realizansımbolos (y lenguaje) y no solo en que consisten. De este modo abren una vıa de refle-xion que es basica para comprender la naturaleza funcional que tiene el propio lenguaje.

3.3. La gramatica del espanol y sus partesLa gramatica se define como el estudio de las reglas y principios que regulan el uso

del lenguaje dentro de la oracion, pero esta ciencia se subdivide en niveles especıficosdonde cada cual se preocupa de un area determinada. A continuacion presentaremos ladefinicion de cada uno de ellos[Esp09] [Esp10].

La gramatica es parte del estudio general del lenguaje denominado linguıstica. Clasi-camente el estudio de la lengua se divide en tres niveles:

Nivel fonetico-fonologico.

Nivel sintactico-morfologico.

Nivel lexico-semantico.

Page 41: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

3.4. EL ADJETIVO 23

A veces se restringe el uso del termino gramatica a las reglas y principios que definenel segundo de estos niveles. Sin embargo, la separacion de los niveles no es totalmentenıtida porque ciertas reglas gramaticales se realizan en el nivel fonetico-fonologico eigualmente existen parametros o criterios semanticos que sirven para decidir cuandouna determinada construccion es agramatical.

La fonetica: es la rama de la linguıstica que estudia la produccion y percepcion delos sonidos de una lengua en sus manifestaciones fısicas. Sus principales ramas son:fonetica experimental, fonetica articulatoria, fonematica y fonetica acustica.

La morfologıa: es la rama de la linguıstica que estudia la estructura interna de laspalabras para delimitar, definir y clasificar sus unidades, las clases de palabras a las queda lugar (morfologıa flexiva) y la formacion de nuevas palabras (morfologıa lexica).

La sintaxis: Se encarga del estudio de las reglas que gobiernan la combinatoria deconstituyentes y la formacion de unidades superiores a estos, como los sintagmas yoraciones. La sintaxis, por tanto, estudia las formas en que se combinan las palabras,ası como las relaciones sintagmaticas y paradigmaticas existentes entre ellas.

La semantica: es el estudio del significado de las expresiones del lenguaje, es de-cir, del significado atribuible a expresiones sintacticamente bien formadas. La sinta-xis estudia solo las reglas y principios sobre como construir expresiones interpretablessemanticamente a partir de expresiones mas simples, pero en sı misma no permite atri-buir significados.

La semantica examina el modo en que los significados se atribuıan a las palabras,sus modificaciones a traves del tiempo y aun sus cambios por nuevos significados.La lexicografıa es otra parte de la semantica que trata de describir el significado delas palabras de un idioma en un momento dado, y suele exhibir su resultado en laconfeccion de diccionarios[Bur14].

3.4. El adjetivoEl adjetivo es una clase de palabra cuya funcion principal es la de ser adyacente del

sintagma nominal y complementar su significado expresando una cualidad del sustanti-vo. Los adjetivos son siempre palabras tonicas y no pueden ir acompanados de determi-nantes. Ademas, no tienen genero o numero propios, sino que lo toman del sustantivoal que acompanan.

Page 42: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

24CAPITULO 3. HERRAMIENTAS TEORICAS PARA LA MINERIA DE OPINION

Los adjetivos tienen dos clases segun el genero, las cuales son las siguientes:

Adjetivos de una sola terminacion: son los que tienen una misma forma para losdos generos. Ejemplo: azul, laboral, gris.

Adjetivos de dos terminaciones: presentan una forma para cada genero. Ejemplo:rojo-roja, pequeno-pequena.

El plural de los adjetivos.

Los adjetivos forman el plural siguiendo las mismas reglas que los sustantivos. Losadjetivos de color presentan algunas particularidades:

Si proceden de sustantivos, como rosa o violeta, pueden hacer el plural o quedarinvariables. Ejemplo: los vestidos rosa, los vestidos rosas.

Cuando el adjetivo de color va acompanado de un sustantivo modificador, permaneceinvariable. Ejemplo: tonos verde botella, ojos negro carbon.

Si el adjetivo aparece modificado por otro adjetivo, ambos quedan invariables enplural. Ejemplo: camisas azul celeste, pantalones azul marino.

3.4.1. Clases de adjetivos

En relacion con su significado hay varias clases de adjetivos.

Adjetivos calificativos: son los que expresan una cualidad del sustantivo. Ejem-plo: inteligente, astuto, elegante, bajo.

Adjetivos de relacion o pertenencia: se refieren a propiedades que adquieren enrelacion con algo externo. Ejemplo: explotacion petrolıfera, explotacion agrıcola,analisis linguıstico, analisis ocular.

Estos no admiten ni adverbios de grado ni pueden aparecer en estructuras comparati-vas. Ejemplo: un estudio muy musical, Esta explotacion es mas petrolıfera que aquella.

Page 43: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

3.4. EL ADJETIVO 25

Ademas, a diferencia de los calificativos, no pueden anteponerse al sustantivo. Ejem-plo: un laboral mercado, un linguıstico analisis, un campestre paseo.

Adjetivos gentilicios: marcan el origen o procedencia. Ejemplo: kazako, espanol,frances, etc.

Adjetivos cuasideterminativos: son adjetivos cuyo significado esta muy cercanoal de los determinantes. Ejemplo: siguiente, postero, anterior.

Algunos adjetivos pueden tener un significado diferente segun el contexto en el queaparecen.

3.4.2. Los grados del adjetivoLa mayorıa de los adjetivos presentan una caracterıstica formal que los diferencia

de los sustantivos: la de tener grado. Este grado puede variar en tres tipos: positivo,comparativo y superlativo.

Grado positivo.

Cuando el adjetivo expresa una cualidad sin especificar ningun grado. Ej.: La mesaes cara, redonda, ovalada o blanca.

Grado comparativo.

Se trata de los casos en que el adjetivo aparece cuantificado mediante los adverbiosde cantidad mas, menos, tan o a traves de la locucion igual de. Hay tres variedades degrado comparativo:

Comparativo de superioridad: el adjetivo aparece cuantificado con el adverbiomas y el segundo termino de la comparacion es precedido por el relativo que.Ejemplo: Mi gata es mas arisca que la tuya.

Comparativo de inferioridad: el adjetivo viene cuantificado con el adverbio me-nos y el segundo elemento comparado es precedido por el relativo que. Ejemplo:Elena es menos morena que Jorge.

Comparativo de igualdad: el adjetivo se cuantifica con el adverbio tan o la lo-cucion igual de. En el primer caso, la estructura es ’. . . tan. . . como...’ y, en elsegundo, ’. . . igual de. . . que...’ ’. Ejemplo: Este libro es tan largo como aquel.Este libro es igual de largo que aquel. Hay algunos adjetivos que no admiten el

Page 44: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

26CAPITULO 3. HERRAMIENTAS TEORICAS PARA LA MINERIA DE OPINION

grado comparativo ya que ya lo son en sı mismos, al proceder directamente delcomparativo latino.

Reciben el nombre de comparativos sinteticos. Son: mejor, peor, mayor, menor,inferior y superior. Ejemplo: Esta alberca es mas mejor que la mıa. Esta albercaes mejor que la mıa.

Grado superlativo

Expresa la cualidad en su grado mas alto. Se distinguen dos superlativos: el superla-tivo absoluto y el relativo.

1. Superlativo absoluto: indica el grado mas alto de una escala. Se expresa con eladverbio muy o con los sufijos -ısimo, -errimo.

2. Ejemplo: muy listo, listısimo, pauperrimo, celeberrimo.

3. Superlativo relativo: compara la cualidad de alguien o de algo con la de un con-junto. Puede expresarse de dos modos: ((artıculo o posesivo + mas o menos + ad-jetivo)) o ((artıculo + comparativo sintetico)). Ejemplo: las menos apropiadas. . . ,mi mas cordial. . . . El peor de mis companeros.

4. Superlativos sinteticos: derivan directamente del latın. Son los siguientes: opti-mo, pesimo, mınimo, maximo, ınfimo, supremo. Estas formas se usan como lossuperlativos absolutos.

Formacion del superlativo por derivacion

La mayorıa de los adjetivos forman el superlativo con el sufijo -ısimo, -ısima. Losadjetivos con los diptongos ((ue)) e ((ie)) no diptongan en la lengua culta al anadir el su-fijo superlativo, aunque sean frecuentes las formas diptongadas en la lengua coloquial.Ejemplo: fortısimo, novısimo, bonısimo, certısimo, recentısimo, valentısimo, calentısi-mo, ternısimo.

Los adjetivos acabados en –ble anaden el sufijo a la raız latina. Tambien ocurre estocon el adjetivo sabio. Ejemplo: amabilısimo, notabilısimo, sapientısimo. El adjetivosimple admite simplısimo y simplicısimo.

Algunos adjetivos anaden el sufijo culto –errimo a su raız latina. Son los siguien-tes: liberrimo, celeberrimo, nigerrimo, pauperrimo, miserrimo, acerrimo, pulquerrimoy asperrimo. Ahora bien, algunos de ellos tambien admiten el sufijo –ısimo. A saber:negrısimo, pobrısimo, asperısimo y pulcrısimo.

Page 45: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

3.4. EL ADJETIVO 27

Adjetivos que no admiten el grado superlativo con sufijo

Algunos adjetivos forman el grado superlativo con el adverbio muy. Ejemplo: muyproximo, anterior, heroico, ciego, recio, nimio.

Adjetivos que no admiten el grado superlativo

Los superlativos cultos latinos, los sinteticos, son incompatibles con las marcas degrado. No se les puede anadir ni muy ni –ısimo. Ejemplo: optimo y no muy optimo uoptimısimo.

Lo mismo ocurre con otros adjetivos como principal, absoluto, culminante, eterno,algido o infinito. Ası no es correcto decir la parte mas principal de la casa, sino la parteprincipal.

Adjetivos que acompanan al nombre

Los adjetivos pueden complementar al sustantivo siguiendolo o precediendolo. Eladjetivo pospuesto al sustantivo es especificativo, ya que suele delimitar el significadode este. Ejemplo: corbata azul.

El adjetivo antepuesto al sustantivo recibe el nombre de explicativo o epıteto. Sue-le anadir una nota significativa meramente explicativa, sin delimitar el contenido delsustantivo. Ejemplo: blanca pared, verde hierba.

Concordancia del adjetivo

Si un adjetivo va pospuesto a varios sustantivos coordinados con y, ni o, seguiremosestas reglas: Sustantivos en singular y en el mismo genero es igual al adjetivo en pluraly en el mismo genero de los sustantivos. Ejemplo: Compre un jersey y un sombreronegros.

Sustantivos en singular y con genero distinto igual al adjetivo en plural y en mascu-lino. Ejemplo: Compre un jersey y una corbata negros.

Sustantivos en plural es igual al adjetivo en plural. Ejemplo: Compre unas botas yunos zapatos negros.

Page 46: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

28CAPITULO 3. HERRAMIENTAS TEORICAS PARA LA MINERIA DE OPINION

Cuando la union de los dos sustantivos hace referencia a un conjunto que apunta auna sola realidad, el adjetivo puede aparecer en singular o en plural. Ejemplo: lengua yliteratura espanola o espanolas.

Si el adjetivo se antepone a varios sustantivos coordinados, la concordancia se esta-blece con el sustantivo mas cercano. Ejemplo: la extraordinaria fuerza y valor.

3.5. El adverbio

Segun la Real Academia Espanola, los adverbios se definen como ((una palabra queno varıa su forma y que modifica al verbo, adjetivo u otro adverbio.)) En otras palabras,se puede decir que los adverbios describen los verbos, adjetivos y otros adverbios. Va-rios linguistas han definido el adverbio como el adjetivo del verbo y/o el complementode circunstancia del verbo[Esp52].

De hecho, la palabra ((adverbio)) proviene del latın ((ad–verbum)), que significa ((juntoal verbo)).

Los adverbios son los nucleos de los sintagmas adverbiales, los cuales son frasesque cumplen la funcion del adverbio. Estos se dividen en dos clases: determinativosy calificativos. Los calificativos son aquellos que describen la calidad de la accion odan enfasis al adjetivo o adverbio. Los determinativos deciden donde o cuales son lasacciones o descripciones de la oracion. Finalmente, el adverbio es una parte esencial dela oracion y del idioma espanol ya que promueve la distincion de los eventos descritosen la oracion.

3.5.1. Adverbios desde el punto de vista semantico

Desde este punto de vista, podemos agrupar los adverbios. En la tabla 3.2 vemos lostipos de adverbios desde este punto de vista.

Page 47: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

3.5. EL ADVERBIO 29

Tabla 3.2: Tipos de adverbios desde el punto de vista semanticoTipo de adverbio Adverbio Ejemplo

Tiempo Ahora, tarde, hoy, ayer, ya, nunca, Ayer comı tacos de canasta¿Cuando? despues, siempre, todavıa, mientras.

Modo Lentamente, terminaciones en –mente, Comı despacio¿Como? despacio, bien, peor, mejor, ası, apenas.Lugar Aca, ahı, aquı, allı, cerca, Comı tacos de canasta lejos de aquı

¿Donde? lejos, arriba, abajo, alrededor.Cantidad Muy, mucho, poco, casi, demasiado, Comı mucho¿Cuanto? mas, menos, tanto, tan.Negacion No, nunca, jamas, tampoco. Jamas he comido esos tacos

¿Es cierto?Duda Acaso, quiza, tal vez, a lo mejor, A lo mejor fueron esos tacos de canasta

¿Es cierto? probablemente.Afirmacion Sı, claro, desde luego, tambien, Desde luego comı tacos de canasta¿Es cierto? ciertamente, en efecto, efectivamente.

3.5.2. Punto de vista formalLos adverbios pueden ser, segun la forma que presente:

Simples: Aquellos que se componen de una sola palabra Ejemplo: Sı, tambien,ayer, no, mucho

Compuestos: Aquellos que se forman con sufijos o dos o mas palabras

Tabla 3.3: Tipos de adverbios compuestos desde el punto de vista formalTerminacion –mente Se forman a partir de un adjetivo, por ejemplo:

de rapido, rapidamente de triste, tristementeLocuciones adverbiales Conjunto de dos o mas palabras que funcionan como adverbios:

Por supuesto, a pie, en primer lugar, ante todo, en efecto,desde luego.

3.5.3. Funcion del adverbioEl adverbio tiene tres principales funciones, las cuales estan expresadas con un ejem-

plo en la tabla 3.4.

Tabla 3.4: Funcion del adverbioComplemento de un verbo Hablas malComplemento de un adjetivo Eres muy feoComplemento de otro adverbio Hablas muy mal

Page 48: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

30CAPITULO 3. HERRAMIENTAS TEORICAS PARA LA MINERIA DE OPINION

3.5.4. Como impactan los adverbios en nuestra tarea de clasifica-cion

Debido a que nuestro proyecto esta enfocado totalmente a los sentimientos y lo quedemuestran, los adverbios juegan un papel importante en este proceso, no solo el hechode tener adjetivos nos implica un sentimiento, sino que tambien el adverbio funge comoun factor que da enfasis a un sentimiento, en este caso a los adjetivos.

En la tabla Funcion del adverbio (3.4), los adverbios pueden servir como un ((multiplicadorde sentimiento)), por ejemplo en la frase eres muy feo de la tabla Funcion del adverbio,podemos observar que el adverbio muy da un enfasis al adjetivo feo, el cual hace que esecomentario u opinion resalte mas y tenga mas sentimiento, es decir un mayor enfasis almomento de leer o escuchar eso.

Si una persona llegara y nos dijera que somos feos, es evidente que el sentimientoo emocion a la que reaccionamos es negativo, pero aun cuando esa persona nos dijeseque somos muy feos, causa un impacto aun mayor. Lo mismo pasa para comentariospositivos, por ejemplo, el caso contrario de feo, si una persona llegara y nos dijera quesomos guapos, el sentimiento que causa esto es positivo, pero si agregamos un adverbiopodremos realizar un mayor impacto positivo.

3.6. El desarrollo emocional

En general se aplica la palabra emocion para describir todo estado, movimiento ocondicion por el cual el hombre advierte el valor o importancia que una situacion de-terminada tiene para su vida, sus necesidades o sus intereses[YN11].

Las emociones pueden ser consideradas como la reaccion inmediata del ser vivo auna situacion que le es favorable o desfavorable; es inmediata en el sentido de queesta condensada y, por ası decirlo, resumida en la tonalidad sentimental, placentera odolorosa, la cual basta para poner en alarma al ser vivo y disponerlo para afrontar lasituacion con los medios a su alcance.

Los sentimientos, en cambio, son la expresion mental de las emociones; es decir,se habla de sentimientos cuando la emocion es codificada en el cerebro y la personaes capaz de identificar la emocion especıfica que experimenta: alegrıa, pena, rabia,soledad, tristeza, verguenza, etc.

Page 49: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

3.6. EL DESARROLLO EMOCIONAL 31

La mayorıa de las definiciones de emocion distingue cuatro elementos:

La situacion estımulo que provoca una reaccion.

Se produce una experiencia consciente con un tono positivo y negativo, de laemocion que sentimos.

Se genera un estado de activacion fisiologica en el organismo a partir del sistemaneuroendocrino, lo que significa que las emociones tienen un sustrato fısico.

Se produce una conducta que acompana por lo general a las emociones: alegrıa,miedo, etc.

Los sentimientos, entonces, pueden definirse basicamente como la expresion men-tal de las emociones, lo que incluye la idea de darse cuenta de las emociones que seexperimentan. Los ninos pequenos exteriorizan sus emociones con facilidad; pasan dela rabieta al llanto y a la risa, con gran facilidad; los adultos, a partir del aprendizajesocial, aprenden a modular la expresion de sus emociones. Sin embargo, las emocionesse producen en forma independiente de la voluntad y que alguien desarrolle destrezaspara ocultarlas solo explica una capacidad de ocultamiento, pero de ninguna maneraniega el hecho de la emocion misma, que siempre se experimenta como un fenomenointerno.

3.6.1. EmocionesLos tipos de emociones que presenta el ser humano son las siguientes:

1. Emociones basicas o primarias

2. Emociones cognoscitivas o superiores

3. Emociones sociales

Emociones basicas o primarias

Los investigadores discrepan en los que atane al numero de emociones basicas, peroexiste consenso para incluir entre ellas, la alegrıa, la afliccion, la ira, el miedo, la sorpre-sa y la repugnancia. No existe cultura alguna de la que esten ausentes estas emociones.Ademas, no son aprendidas sino que forman parte de la configuracion del cerebro hu-mano. Esto se corrobora, por ejemplo, con los bebes ciegos de nacimiento, donde seobservan las expresiones faciales tıpicas de estas emociones: sonrisas, muecas de dolor,etcetera. Las expresiones emocionales no son como las palabras, que difieren de una

Page 50: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

32CAPITULO 3. HERRAMIENTAS TEORICAS PARA LA MINERIA DE OPINION

cultura a otra; se asemejan mas a la respiracion. . . porque forman parte de la naturalezahumana[YN11].

Emociones cognoscitivas superiores

Las emociones cognoscitivas superiores difieren de las emociones basicas en va-rios aspectos. No son tan rapidas y automaticas como las emociones elementales niestan asociadas universalmente a una unica expresion facial. El amor puede servir co-mo ejemplo; aunque es posible el amor a primera vista, es relativamente infrecuente.Es mas normal que el amor crezca de manera gradual a lo largo de varios dıas, semanaso incluso meses. Esto contrasta con el sentimiento de temor, que se apodera de unapersona en cuestion de milisegundos. Mientras el temor resulta facilmente reconociblepor su expresion facial tıpica, no hay expresion facial especıfica asociada al sentimientoamoroso.

Las emociones como el amor, son descritas como emociones cognoscitivas superio-res, porque implican un procesamiento cortical mucho mas intenso que las emocioneselementales. Mientras que estas se procesan en buena medida en las estructuras subcor-ticales que yacen bajo la superficie cerebral, las emociones como el amor aparecen masasociadas a areas del neocortex, que es la parte del cerebro que mas se ha expandido enlos cinco ultimos millones de anos de la evolucion humana[YN11].

El neocortex es el asiento de la mayorıa de nuestras capacidades cognoscitivas mascomplejas, como el analisis logico, la formulacion de modelos, y la formulacion dehipotesis y predicciones, por ejemplo.

Que las emociones cognoscitivas superiores sean mas corticales que las emocionesbasicas significa que estan mas expuestas a la influencia de los pensamientos cons-cientes, lo que probablemente hace posible, a su vez, que las emociones cognoscitivassuperiores sean mas susceptibles de variacion cultural que las emociones basicas oelementales. No obstante, a pesar de su mayor variabilidad cultural, las emociones cog-noscitivas superiores siguen siendo universales. Al igual que las emociones basicas,las emociones cognoscitivas superiores tambien forman parte de la naturaleza humana,modelada por la historia evolutiva.

Otras emociones cognoscitivas superiores son la culpabilidad, la verguenza, el des-concierto, el orgullo, la envidia y los celos. Todas ellas son esencialmente sociales deun modo en que no lo son las emociones elementales. Uno puede sentir miedo o ascoante objetos inanimados y ante animales no humanos, pero la existencia del amor y del

Page 51: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

3.6. EL DESARROLLO EMOCIONAL 33

sentimiento de culpa requiere de otras personas. Podemos sentirnos culpables por herira un animal y no faltan quienes se declaran enamorados de sus mascotas, pero es im-probable que el surgimiento de la culpabilidad y del amor responda a esos propositos.Todo apunta a que las emociones cognoscitivas superiores habrıan sido disenadas por laseleccion natural para ayudar a nuestros antepasados a enfrentarse a un entorno socialcada vez mas complejo.

Emociones sociales

Este tipo de emociones son aquellas que necesitan la presencia de otra persona paraque estas puedan aflorar. Las emociones sociales, adiferencia de cualquier estereotiposon un conjunto de resultados de la informacion cultural actual en la que vivimos,brindada por amigos de la escuela, familiares y personas a quienes apreciamos en eldıa a dıa. Aquellos que quedaron en el pasado o personas que llegan de imprevisto anuestras vidas, por citar unos ejemplos.

Este tipo de emociones solo se podrıan determinar de manera que el individuo puedademostrar esas sensaciones o reacciones al tener contacto visual, ya sea fısico o virtual,inclusive mediante la voz de otra persona, pero de ninguna manera estas emocionesconseguira crearlas.

Algunos ejemplos de las emociones sociales pueden ser:

Verguenza

Gratitudo

Apego

Admiracion

Orgullo

Celos

Simpatıa

Ofuscacion

Admiracion

Irritacion

Page 52: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

34CAPITULO 3. HERRAMIENTAS TEORICAS PARA LA MINERIA DE OPINION

3.6.2. Clasificacion de las emociones

No obstante, los tipos de clasificacion recientemente expuestos van apegados total-mente a un rubro psicologico, mientras que a nosotros nos interesa realizar una clasifi-cacion que involucre solo dos tipos de resultados por eso, otro modelo de clasificacionde las emociones son las siguientes:

Positivas

Las emociones positivas son aquellas que propician una acentuacion al bienestar per-sonal, ademas, estas suelen contribuir favorablemente en la manera de pensar y actuarde las personas, proporcionando reservas fısicas como psicologicas para tiempos decrisis emocional

Algunos ejemplos de este tipo de emociones son: la alegrıa, la satisfaccion, la grati-tud, la serenidad, etc.

Negativas

Las emociones negativas, contrariamente a las anteriores, provocan una reduccional bienestar del individuo que las presenta. Por ende, existe un deseo consciente deevadirlas, ya que bloquean la energıa del ser humano e inciden de manera negativa enla salud fısica y mental.

Algunos ejemplos de las emociones negativas son: La ira, el miedo, el asco, la de-presion, etc.

3.7. Minerıa de opinion o analisis de sentimientos

Cuando hablamos de Minerıa de Opiniones (tambien llamado Analisis del Senti-miento), nos estamos refiriendo a una serie de aplicaciones de tecnicas del procesa-miento del lenguaje natural, linguıstica computacional y minerıa de textos, que tienencomo objetivo la extraccion de informacion subjetiva a partir de contenidos generadospor los usuarios, como puedan ser comentarios en blogs, o reviews de productos. Coneste tipo de tecnologıas, podemos ser capaces de extraer un valor tangible y directo,como pueda ser positivo/negativo, a partir de un comentario textual.

Page 53: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

3.8. PROCESAMIENTO DE LENGUAJE NATURAL 35

Hablar de Minerıa de Opiniones es hablar de un campo cada vez mas extenso, re-lacionado con el analisis de las componentes subjetivas que estan implıcitas en loscontenidos generados por los usuarios. Dentro de este campo, existen aplicaciones querealizan un analisis mas o menos profundo de los contenidos textuales, en funcion dela tarea o problema que se quiera resolver. En lıneas generales, encontramos dos tiposde tareas relacionadas con la Minerıa de Opiniones:

Deteccion de la polaridad: O lo que es lo mismo, ser capaces de determinar siuna opinion es positiva o negativa. Mas alla de una polaridad basica, tambien sepuede querer obtener un valor numerico dentro de un rango determinado, quede una determinada forma trate de obtener un rating objetivo asociado a unadeterminada opinion.

Analisis del sentimiento basado en caracterısticas: O lo que es lo mismo, sercapaces de determinar las distintas caracterısticas del producto tratadas en laopinion o review escrita por el usuario, y para cada una de esas caracterısticasmencionadas en la opinion, ser capaces de extraer una polaridad. Este tipo deacercamientos son mucho mas complejos y de un grano mucho mas fino que ladeteccion de la polaridad.

3.8. Procesamiento de lenguaje naturalEl recurso mas importante que posee la raza humana es conocimiento, o sea infor-

macion. En la epoca actual de informacion, del manejo eficiente de este conocimientodepende el uso de todos los demas recursos naturales, industriales y humanos.

Durante toda la historia de humanidad el conocimiento, en su mayor parte se co-munica, se guarda y se maneja en la forma de lenguaje natural. La epoca actual no esninguna excepcion: el conocimiento sigue existiendo y creandose en la forma de docu-mentos, libros, artıculos, aunque estos se guardan en forma electronica, o sea digital. Elgran avance es que en esta forma, las computadoras ya pueden ser una ayuda enormeen el procesamiento de este conocimiento.

Sin embargo, lo que es conocimiento para nosotros (los seres humanos) no lo espara las computadoras. Son los archivos, unas secuencias de caracteres, y nada mas.Una computadora puede copiar tal archivo, respaldarlo, transmitirlo, borrarlo (comoun burocrata que pasa los papeles a otro burocrata sin leerlos. Pero no puede buscar lasrespuestas a las preguntas en este texto, hacer las inferencias logicas sobre su contenido,generalizar y resumirlo) es decir, hacer todo lo que las personas normalmente hacemoscon el texto. Porque no lo puede entender.

Page 54: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

36CAPITULO 3. HERRAMIENTAS TEORICAS PARA LA MINERIA DE OPINION

Para combatir esta situacion, se dedica mucho esfuerzo, sobre todo en los paıses masdesarrollados del mundo, al desarrollo de la ciencia que se encarga de habilitar a lascomputadoras a entender el texto. Esta ciencia, en funcion del enfoque practico ver-sus teorico, del grado en el cual se espera lograr la comprension y de otros aspectostiene varios nombres: procesamiento de lenguaje natural, procesamiento de texto, tec-nologıas de lenguaje, linguıstica computacional. En todo caso, se trata de procesar eltexto por su sentido y no como un archivo binario.

Una de las ramas mas importantes de la Inteligencia Artificial es aquella orientada afacilitar la comunicacion hombre-computadora por medio del lenguaje humano, o len-guaje natural. El Procesamiento del Lenguaje Natural (PLN) es la disciplina encargadade producir sistemas informaticos que posibiliten dicha comunicacion, por medio de lavoz o del texto. Se trata de una disciplina tan antigua como el uso de las computadoras(anos 50), de gran profundidad, y con aplicaciones tan importantes como la traduccionautomatica o la busqueda de informacion en Internet. Dado el tiempo disponible, esimperativo concentrar nuestros esfuerzos en un ambito necesariamente limitado: lossistemas de PLN que utilizan tecnicas de caracter estadıstico aplicados al analisis deltexto.

El objetivo principal de esta asignatura es dotar a los alumnos de conocimientos sobrelas tecnicas que se emplean para el desarrollo de este tipo de sistemas, concentrandonosen los aspectos que conciernen a los metodos estadısticos de tratamiento del texto, ydestacando las siguientes tareas de clasificacion: la recuperacion de documentos, lacategorizacion automatica de documentos, la resolucion de la ambiguedad lexica y eletiquetado sintactico.

3.9. Freeling

Freeling es una librerıa de codigo abierto para procesos automaticos multilenguajes,este software proporciona servicios de analisis linguısticos para distintos idiomas[Pad15].Freeling ofrece dichos analisis a los desarrolladores de aplicaciones que usan el Proce-samiento de Lenguaje Natural.

El proyecto se estructura como una librerıa que puede ser llamada desde cualquieraplicacion de usuario que requiera servicios de analisis del lenguaje. El software sedistribuye como codigo abierto bajo una licencia GNU General Public License[Fou14]y bajo licencia dual a empresas que deseen incluirlo en sus productos comerciales.

Page 55: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

3.9. FREELING 37

Freeling fue creado con el proposito de desarrollar poderosas aplicaciones de Proce-samiento de Lenguaje Natural, su arquitectura esta basada en un enfoque de dos capas:una basica de servicios de analisis linguıstico y otra de aplicacion la cual realiza laspeticiones deseadas. La arquitectura interna de la librerıa se estructura en dos tiposde objetos: los que almacenan datos linguısticos con los analisis obtenidos y los querealizan el procesamiento en sı.

La version 3 de esta librerıa actualmente soporta bastantes lenguas, por ejemplo:asturiano, catalan, castellano, gales, ingles, italiano, portugues y ruso pero para el pro-yecto que estamos realizando solo nos enfocaremos en el castellano (espanol). Estaversion cuenta con novedades para hacer la herramienta mas sencilla de instalar y deusar.

3.9.1. Clases de almacenamiento de datos linguisticosLa finalidad de estas clases es contener los datos linguısticos, resultado de los anali-

sis realizados, los cuales puedes ser arboles sintacticos, palabras, parrafos, etiquetasmorfologicas, entre otras. Las aplicaciones de los clientes deben usar estas clases pa-ra entregar los datos a analizar en el formato oportuno y de esa manera recuperar elresultado analizado[Pad11].

Las clases de datos linguısticos son las siguientes:

analysis: Una tupla (lema, etiqueta, probabilidad, lista de sentidos).

word: Lista de objetos analysis, forma de una palabra.

sentence: Lista de objetos word marcada como una frase completa.

Paragraph: Lista de objetos sentence, marcado como un parrafo independiente.

Docuement: Lista de objetos paragraph que forman un documento completo.

3.9.2. Clases de procesamientoAdemas de que freeling almacena los tipos de datos que se describieron anterior-

mente, tambien esta librerıa puede transformarlos, las clases de procesamiento son lassiguientes[Pad11]:

lang ident: Identificador de idioma. Recibe texto plano y devuelve una lista depares (idioma,probabilidad).

Page 56: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

38CAPITULO 3. HERRAMIENTAS TEORICAS PARA LA MINERIA DE OPINION

tokenizer: Recibe texto plano y devuelve una lista de objetos word.

splitter: Recibe una lista de objetos word y devuelve una lista de objetos sentence.

morfo: Recibe una lista de objetos sentence y analiza morfologicamente cadaword de cada sentence de la lista. Esta clase es un meta-analizador que simple-mente aplica una cascada de analizadores especializados (deteccion de numeros,fechas, locuciones y multipalabras, busqueda en formario, etc.) cada uno de loscuales es a su vez una clase de procesamiento que puede ser llamada indepen-dientemente si es necesario. Estas clases son:

• user map: Reconocedor de expresiones regulares definidas por el usuario,que permite la asignacion directa de pares lema/categorıa a palabras quecumplan ciertos patrones.

• locutions: Reconocedor de multipalabras.

• dictionary: Busqueda en formario y gestion de afijos.

• numbers: Reconocedor de expresiones numericas.

• dates: Reconocedor de expresiones temporales (fechas/horas).

• quantities: Reconocedor de expresiones de proporciones, porcentajes, mag-nitudes fısicas y monetarias.

• punts: Anotador de signos de puntuacion.

• probabilities: Anotador de probabilidades lexicas y gestion de palabras des-conocidas.

• ner: Reconocedor de nombres propios.

tagger: Recibe una lista de objetos sentence y desambigua la categorıa morfo-sintactica de cada palabra en las frases de la lista. Si el analisis seleccionadoincorpora informacion de retokenizacion (p.e. del = de+el, darselo = dar+se+lo)la palabra puede separarse en varias.

ne classifier: Recibe una lista de objetos sentence y clasifica cada word etiquetadacomo nombre propio que aparezca en las frases dadas.

sense annotator: Recibe una lista de sentence y anaade information sobre lossentidos posibles (segun WordNet) a los objetos analysis de cada palabra.

word sense disambiguator: Recibe una lista de objetos sentence y ordena porrelevancia en el contexto los posibles sentidos de cada palabra.

Page 57: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

3.9. FREELING 39

chunk parser: Recibe una lista de sentence y enriquece cada una con un arbol deanalisis. Este modulo consiste en un chart parser.

dependency parser: Recibe una lista de sentence analizadas sintacticamente y lasenriquece con un arbol de dependencias. Este modulo usa un conjunto de re-glas escritas manualmente que operan en tres etapas: primero completan el arbolsintactico superficial construido por el chart parser, a continuacion transformanel arbol de constituyentes a dependencias, y finalmente etiquetan la funcion decada dependencia.

coreference solver: Recibe un documento formado por objetos sentence analiza-dos sintacticamente y lo enriquece con informacion de conferencia.

3.9.3. Etiquetas eagleEl analizador morfologico para el castellano usa estas etiquetas para que la informa-

cion morfologica de las palabras quede representada. Dicha informacion queda plas-mada de la forma como se ve en la tabla 3.5.

Tabla 3.5: Etiquetas que el analizador morfologico utiliza para el castellanoEtiquetas

Posicion Atributo Valor CodigoColumna 1 Columna 2 Columna 3 Columna 4

En la primera columna encontraremos un numero para indicar la posicion de los atri-butos, en la columna 2 veremos los atributos y el numero dependera de la categorıa,la tercer columna hace referencia a los valores que puede tomar cada atributo y en laultima columna el codigo establecido para representarse. Si un atributo no se especificasignifica que expresa un tipo de informacion que no existe en la lengua o que la infor-macion no se considera relevante. Cuando sucede este caso en el codigo del atributocorrespondiente aparece un 0.

En el idioma espanol existen muchos adjetivos, a diferencia de otros idiomas comoel ingles donde ellos no tienen alguna variacion, dentro de nuestro idioma es posiblehallar modificaciones que dependen del genero, numero, entre otros.

El lema de una palabra es la misma pero normalizada. En el caso de los adjetivosel lema siempre es singular y masculino. Por ejemplo, si la palabra encontrada es pe-quenitas el lema es pequeno, y su respectivo codigo AQDFP0 el cual, con la tabla 3.6,es posible decidir que es un adjetivo calificativo, diminutivo, femenino y plural.

Page 58: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

40CAPITULO 3. HERRAMIENTAS TEORICAS PARA LA MINERIA DE OPINION

Tabla 3.6: Etiquetas eagle para adjetivosPos. Atributo Valor Codigo

1 Categorıa Adjetivo A

2 TipoCalificativo Q

Ordinal O

3 Grado

Aumentativo ADiminutivo D

Comparativo CSuperlativo S

4 GeneroMasculino MFemenino F

Comun C

5 NumeroSingular SPlural P

Invariable N

6 Funcion- 0

Participio P

El caso de los adverbios solo se indica si es tipo general o negativo como se muestraen la tabla 3.7, sin embargo, la etiqueta RN es exclusiva para la palabra no, por lo tantotodos los demas adverbios tienen la etiqueta RG.

Tabla 3.7: Etiquetas eagle para adverbiosPos. Atributo Valor Codigo

1 Categorıa Adverbio R

2 TipoGeneral GNegativo N

La tabla 3.8 muestra la forma en que se conforman los codigos para los determi-nantes. El atributo Persona tendra por defecto el valor 0, con excepcion de los deter-minantes posesivos que podran tomar el valor 1, 2 y 3, por ejemplo, mi, tu, sus, cuyasetiquetas son DP1CSS, DP2CSS y DP3CP0 respectivamente.

Page 59: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

3.9. FREELING 41

Tabla 3.8: Etiquetas eagle para determinantesPos. Atributo Valor Codigo

1 Categorıa Determinante D

2 Tipo

Demostrativo DPosesivo P

Interrogativo TExclamativo EIndefinido IArtıculo A

3 PersonaPrimera 1Segunda 2Tercera 3

4 Genero

Masculino MFemenino F

Comun CNeutro N

5 NumeroSingular SPlural P

Invariable N

6 PoseedorSingular SPlural P

En la tabla 3.9 vemos como se componen los codigos para los nombres. Los nombrestienen como lema la forma singular, tanto si es de genero femenino como masculino oneutro.

Page 60: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

42CAPITULO 3. HERRAMIENTAS TEORICAS PARA LA MINERIA DE OPINION

Tabla 3.9: Etiquetas eagle para nombresPos. Atributo Valor Codigo

1 Categorıa Nombre N

2 TipoComun CPropio P

3 GeneroMasculino MFemenino F

Comun C

4 NumeroSingular SPlural P

Invariable N5 Caso - 06 Genero Semantico - 07 Grado Apreciativo A

En el caso de los verbos, el lema siempre es el infinitivo, el atributo de Generosolo afecta a los participios, para el resto de formas este atributo no se especifica (0).Para las formas de infinitivo y gerundio no se especifican los atributos de Tiempo,Persona, Numero y Genero, por lo que su valor sera 0. Se puede saber mas acerca de lacomposicion de su codigo en la tabla 3.10.

Page 61: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

3.9. FREELING 43

Tabla 3.10: Etiquetas eagle para verbosPos. Atributo Valor Codigo

1 Categorıa Verbo V

2 TipoPrincipal MAuxiliar A

3 Modo

Indicativo ISubjuntivo SImperativo M

Condicional CInfinitivo NGerundio GParticipio P

4 Tiempo

Presente PImperfecto I

Futuro FPasado S

5 PersonaPrimera 1Segunda 2Tercera 3

6 NumeroSingular SPlural P

7 GeneroMasculino MFemenino F

Para el caso de los pronombres, el atributo Persona se especificara para los pronom-bres personales y posesivos, para el resto de formas el valor sera 0. El atributo Casoes especıfico para los pronombres personales, para el resto sera 0. El atributo Polite-ness (cortesıa) se especificara para los pronombres personales usted, ustedes y vos. Losdemas atributos estan especificados en la tabla 3.11.

El lema sera la forma masculina del pronombre con las mismas caracterısticas decaso y persona.

Page 62: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

44CAPITULO 3. HERRAMIENTAS TEORICAS PARA LA MINERIA DE OPINION

Tabla 3.11: Etiquetas eagle para pronombresPos. Atributo Valor Codigo

1 Categorıa Pronombre P

2 Tipo

Personal PDemostrativo D

Posesivo XIndefinido I

Interrogativo TRelativo R

3 PersonaPrimera 1Segunda 2Tercera 3

4 GeneroMasculino MFemenino F

Comun C

5 NumeroSingular SPlural P

Invariable N

6 Caso

Nominativo NAcusativo A

Dativo DOblicuo O

7 Poseedor

1a persona-sg 12a persona-sg 2

3a persona 01a persona-pl 42a persona-pl 5

8 Politeness Polite P

En la tabla 3.12 vemos como son etiquetadas las conjuciones, las cuales solo tendranla etiqueta CC o CS dependiendo si son coordinadas o subcordinadas. Ejemplos deconjuciones coordinadas son y, pero, sino, entre otros. Y el caso de las coordinacionessubcordinadas son aunque, como y conque.

Page 63: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

3.9. FREELING 45

Tabla 3.12: Etiquetas eagle para conjuncionesPos. Atributo Valor Codigo

1 Categorıa Conjuncion C

2 TipoCoordinada C

Subcordinada S

Interjecciones como ah, eh, ejem siempre tendran el mismo codigo: I. Tal y como semuestra en la tabla 3.13

Tabla 3.13: Etiquetas eagle para interjeccionesPos. Atributo Valor Codigo

1 Categorıa Interjeccion I

Para las preposiciones que se especifican en la tabla 3.14 los atributos de genero ynumero tan solo se especifican para las preposiciones contraıdas al y del. El analizadoractual separa las contracciones en sus componentes, por lo que se obtienen las catego-rias de la preposicion mas el artıculo por separado. Estas etiquetas tambien se usan paralas locuciones preposicionales.

Tabla 3.14: Etiquetas eagle para preposicionesPos. Atributo Valor Codigo

1 Categorıa Adposicion S2 Tipo Preposicion P

3 FormaSimple S

Contraıda C3 Genero Masculino M4 Numero Singular S

En el caso de los signos de puntuacion, todos ellos tienen como codigo una F tal ycomo se ve en la tabla 3.15

Tabla 3.15: Etiquetas eagle para signos de puntuacionPos. Atributo Valor Codigo

1 Categorıa Puntuacion F

Page 64: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

46CAPITULO 3. HERRAMIENTAS TEORICAS PARA LA MINERIA DE OPINION

Las cifras y numerales se etiquetaran con Z. Bajo esta etiqueta encontraremos: nume-ros, direcciones, numeros de telefono, tanteos, etc. Los numerales partitivos tendran ti-po d (una docena, un millon, un centenar,...). Las cantidades monetarias recibiran la eti-queta Zm, tendran como lema la cantidad (en cifras) y el nombre de la unidad monetariaen singular.Las fracciones i porcentajes recibiran la etiqueta Zp. El lema normalizarala proporcion y las magnitudes fısicas recibiran la etiqueta Zu. El lema normalizara launidad de medida y la magnitud. Esta informacion se encuentra especificada en la tabla3.16.

Tabla 3.16: Etiquetas eagle para numeralesPos. Atributo Valor Codigo

1 Categorıa Cifra Z

2 Tipo

partitivo dMoneda m

Porcentaje punidad u

3.10. Python

Python es un lenguaje de programacion interpretado y multiparadigma, esto quieredecir que adopta la forma y el estilo de los programadores ya que soporta diferentesformas de programar como orientacion a objetos, programacion imperativa y progra-macion funcional, otros paradigmas son soportados mediante el uso de extensiones.

Python es un lenguaje sencillo que se puede entender con facilidad, por ejemplo sepueden usar palabras en vez de sımbolos. Un ejemplo sencillo es en los operadoreslogicos and, not y or, los cuales en python se escriben como se han mencionado antes,en cambio en otros lenguajes de programacion deben escribirse con &&, ! y ——respectivamente.

Otra ventaja de este codigo es que no necesita usarse llaves para los bloques decodigo como bucles, funciones y clases, en Python solo basta con usar espacios o ta-bulaciones que se conocen como identacion. Tambien , a diferencia de otros lenguajespython no necesita un punto y coma ; al final de una linea para indicar que esta ha ter-minado, aquı solo es necesario dar un “enter” para cambiar de linea, solo si es necesariocambiar de linea pero no dividirla se puede usar una barra invertida \al final de dichalinea para continuar abajo.

Page 65: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

3.10. PYTHON 47

Comentarios: Los comentarios se definen de dos formas diferentes, una de ellas esusando tres apostrofos de apertura y tres de cierre, por ejemplo: ”’Comentario”’. Y laotra forma es usando un sımbolo # que hace que el comentario se extienda hasta el finalde la fila.

Variables. Siempre son definidas de forma dinamica, por lo que no es necesario de-finir de que tipo es y pueden tomar cualquier valor en otro momento, por ejemplo sia una variable se le ha asignado un entero es posible despues asignarle una cadena decaracteres.

Tipos de datos: La siguiente tabla resume los tipos de datos que hay en python.

Tabla 3.17: Tipos de datos en PythonTipo Clase Notas Ejemplostr Cadena Inmutable ’Cadena’

unicode CadenaVersion Unicode

de str u’Cadena’

list Secuencia Mutable, puede contener objetos de diversos tipos [4.0, ’Cadena’, True]tuple Secuencia Inmutable, puede contener objetos de diversos tipos (4.0, ’Cadena’, True)set Conjunto Mutable, sin orden, no contiene duplicados set([4.0, ’Cadena’, True])

frozenset Conjunto Inmutable, sin orden, no contiene duplicados frozenset([4.0, ’Cadena’, True])dict Mapping Grupo de pares clave:valor {’key1’: 1.0, ’key2’: False}

int Numero enteroPrecision fija, convertido en long en caso de

overflow. 42

long Numero entero Precision arbitraria 42L o 456966786151987643Lfloat Numero decimal Coma flotante de doble precision 3.1415927

complex Numero complejo Parte real y parte imaginaria j. (4.5 + 3j)bool Booleano Valor booleano verdadero o falso True o False

Listas y tuplas: Para declarar una lista se usan corchetes [] y para una tupla se usanparentesis (), ambos elementos se separan por comas y pueden usar elementos de dife-rentes tipos.

Diccionarios: Los diccionarios se declaran entre llaves y con cada elemento separa-do por comas, cada elemento esta formado de la siguiente forma clave:valor, separadopor dos puntos. Los diccionarios pueden cambiar su valor mientras se ejecutan, es decir,son mutables, sin embargo la clave es inmutable.

Funciones: Las funciones se definen con el nombre de la funcion antecedida con lapalabra def y seguida de sus parametros. El valor que se devuelve de la funcion sera elque se retorne con la instruccion return.

Page 66: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

48CAPITULO 3. HERRAMIENTAS TEORICAS PARA LA MINERIA DE OPINION

Clases: Las clases se definen con la palabra class, luego el nombre de la clase y si esuna clase heredada tambien el nombre de la otra clase. Al iniciar la clase debe ejecutarseel metodo (( init )) el cual se usa para para iniciar las propiedades y los metodos quenecesitara. Uno de los parametros de esta funcion es self, al menos debe usarse este yel resto ya son propios de la clase.

Existen diferentes implementaciones del lenguaje, algunas de ellas son las siguientes:

Cpython, la cual es la implementacion original.

IronPython, la cual es la implementacion para .NET.

Stackless Python, esta es una variante de Cpython que no usa el stack de C.

Jython es la implementacion de Java.

PyPy es la implementacion de Python escrita y optimizada mediante JIT.

3.11. TkInterTkinter es un paquete de Python-facto GUI estandar (Graphical User Interface). Es

una capa delgada orientada a objetos en la parte superior de Tcl / Tk[Ath14].

Tkinter no es el unico GuiProgramming kit de herramientas para Python. Sin embar-go, es el mas comunmente utilizado. CameronLaird (vicepresidente de Phaseit, Inc.)llama a la decision anual de mantener TkInter como ((una de las menores tradicionesdel mundo de Python.))

3.11.1. Introduccion

Esta es la introduccion Tkinter, ultima actualizacion en noviembre de 2005. Este esun trabajo en progreso.

El modulo Tkinter (interfaz Tk) es la interfaz estandar de Python para el conjuntode herramientas Tk GUI desde Scriptics (antes desarrollado por Sun Labs). Tanto Tky Tkinter estan disponibles en la mayorıa de las plataformas Unix, ası como en lossistemas Windows y Macintosh. Partir de la version 8.0, ofrece Tk aspecto nativo ysentir en todas las plataformas.

Page 67: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

3.11. TKINTER 49

Tkinter consiste en un numero de modulos. La interfaz Tk es proporcionado porun modulo de ampliacion binario llamado tkinter. Este modulo contiene la interfaz debajo nivel para Tk, y nunca debe ser utilizada directamente por los programadores deaplicaciones. Por lo general es una biblioteca compartida (o DLL), pero en algunoscasos podrıa ser estaticamente vinculado con el interprete de Python.

La interfaz publica se proporciona a traves de una serie de modulos de Python. Elmodulo Tkinter solo exporta clases de widgets y constantes asociadas, ası que ustedpuede utilizar con seguridad los de-en forma en la mayorıa de los casos.

3.11.2. ClasesTkinter soporta 15 widgets centrales mas 3 que se agregaron en la version de python

2.3 (Tk 8.4).

Boton: Un simple boton, que se utiliza para ejecutar un comando u otra opera-cion.

Graficos estructurados: Este widget se puede utilizar para dibujar graficos y dia-gramas, crear editores graficos, e implementar widgets personalizados.

CheckButton: Representa una variable que puede tener dos valores distintos. Alhacer clic en el boton cambia los valores.

Entrada: Un campo de entrada de texto.

Marco: Un widget contenedor. El marco puede tener un borde y un fondo, yse utiliza para agrupar otros widgets al crear una aplicacion o disposicion dedialogo.

Etiqueta: Muestra un texto o una imagen.

Listbox: Muestra una lista de alternativas. El cuadro de lista se puede configurarpara llegar boton de radio o comportamiento de lista de verificacion.

Menu: Se utiliza para implementar menus desplegables y emergentes.

Boton MENU: Se utiliza para implementar menus desplegables.

Mensaje: Muestra un texto. Al igual que en el widget etiqueta, puede envolverautomaticamente el texto a una relacion anchura o aspecto determinado.

Page 68: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

50CAPITULO 3. HERRAMIENTAS TEORICAS PARA LA MINERIA DE OPINION

Radiobutton: Representa un valor de una variable que puede tener uno de losmuchos valores. Al hacer clic en el boton cambia la variable a ese valor, y borratodos los otros botones de radio asociadas a la misma variable.

Escala: Permite establecer un valor numerico arrastrando un ((slider)).

Barra de desplazamiento: Barras de desplazamiento estandar para su uso con lalona, entrada, cuadro de lista y widgets de texto.

Pantalla de texto con formato: Le permite mostrar y editar texto con varios estilosy atributos. Tambien es compatible con imagenes y ventanas incrustadas.

Toplevel: Un widget contenedor aparece como una ventana independiente, denivel superior.

LabelFrame: Una variante del widget marco que puede sacar tanto una fronteray un tıtulo.

PanedWindow: Un widget contenedor que organiza Widgets de tamano variableen paneles.

SpinBox: Una variante del control Entry para la seleccion de valores de un rangoo un conjunto ordenado.

Tambien hay que tener en cuenta que no hay widget de jerarquıa de clases en Tkinter;todas las clases de widgets son hermanos en el arbol de herencia.

Todos estos widgets proporcionan los metodos Misc y gestion de la geometrıa, losmetodos de gestion de la configuracion, y metodos adicionales definidos por el propioartilugio. Ademas, la clase de Nivel Superior tambien proporciona la interfaz de admi-nistrador de ventanas. Esto significa que una tıpica clase Widget proporciona unos 150metodos.

Page 69: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

Capıtulo 4

Diseno del sistema

En este capıtulo se busca dar una vision introductoria de algunas tecnicas que pue-den ser utiles cuando se quiere realizar un analisis basico de las opiniones escritas enespanol. Estas tecnicas se obtuvieron directamente de la experiencia de proyectos de lavida real. No hay que esperar una introduccion teorica del analisis de sentimientos ylas multiples estrategias que hay para lograr la minerıa opinion. Esto es solo un caminopractico de la aplicacion de algunas normas basicas para extraer la polaridad (positivao negativa) de un texto.

4.1. El sentimiento

Para comenzar esta parte del pre-procesamiento del texto se citara una opinion enespanol del juego Minecraft en su version para Android. Este Comentario fue obtenidode https://play.google.com/store/apps/details?id=com.mojang.minecraftpe\&hl=es.

Me encanta. Esta muy bien, cada actualizacion se parece mas al mi-necraft del ordenador pero en otro dispositivo, aunque si hubieran masnovedades, de aquı en adelante serıa una pasada, gracias, descarguense-lo, vale la pena, los demas minecraft no le llegan ni a la suela del zapato.

- Elga Mira Moya 12 de junio de 2015

El comentario anterior se trata de un juicio positivo sobre esa version del juego. Aveces solo se quiere una calificacion general del sentimiento de toda la oracion, peroen otros casos, necesitamos un poco mas de detalle, y queremos que cada comentarionegativo o positivo sea identificado.

51

Page 70: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

52 CAPITULO 4. DISENO DEL SISTEMA

Este tipo de deteccion detallada puede ser bastante difıcil. A veces, el contexto esbastante explıcito. Otro ejemplo donde se observa con claridad es el siguiente comen-tario: Esta comida es muy aburrida, donde el aspecto criticado claramente es la comida.En otros casos, esta implıcito, por ejemplo en la frase: demasiado caro que nos da unaopinion negativa sobre el precio sin siquiera mencionarlo.

Esto es la deteccion de la polaridad general de un comentario en una sola revision,dejando para mas adelante la identificacion de las opiniones individuales sobre aspectosmas concretos del comentario. Para calcular la polaridad de una revision, se utilizaraun enfoque basado en los diccionarios y algunos algoritmos basicos como arboles ysentencias si-entonces.

4.1.1. Definicion de la estructura para el textoAntes de describir el codigo, hay una decision importante que tomar. Este metodo

tendra que interactuar con el texto, separacion, etiquetado y extraccion de la misma, asıque es hora de definir la estructura del texto a analizar.

Esta es una decision clave porque va a determinar el algoritmo en algunos aspectos.Se tiene que decidir si se desea diferenciar las frases dentro de un parrafo, o bien, sise desea definir una sentencia como una lista de marcas. Pero primero, hay que teneren cuenta que se busca asignar etiquetas a nuestras marcas. Entonces tenemos muchasopciones a escoger aquı.

Aquı es posible elegir una estructura muy simple, por ejemplo, definir el texto sim-plemente como una lista de palabras, o definir una estructura mas elaborada, llevandocada posible atributo de un texto o como son los lemas de palabras, formas de la pala-bra, multiples marcaciones, inflexiones, entre otras.

Como es de costumbre, una mezcla entre esas posibilidades, es una buena manerade avanzar y por eso se utilizara la siguiente estructura para el pre-procesamiento denuestros textos:

Cada texto es una lista de frases.

Cada frase es una lista de marcas.

Cada marca contiene tres elementos: una forma de la palabra (la palabra exactaque aparece en el texto), una palabra lema (una version generalizada de la pala-bra), una lista de etiquetas asociadas para su clasificacion.

Page 71: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

4.1. EL SENTIMIENTO 53

Ya que este es un tipo de estructura que resulta util, entonces esta listo para un pocode procesamiento avanzado (gracias a la lematizacion, varias etiquetas, etc.) sin serdemasiado complejo (por lo menos en Python).

A continuacion se mostrara un ejemplo del pre-procesamiento por cada etapa deltexto o comentario a analizar.

Entrada del texto

Para este ejemplo tomaremos un comentario de la mas reciente actualizacion 2.12.124de la aplicacion de mensajerıa instantanea Whatsapp, estos comentarios se muestran enel anexo B y fueron obtenidos de https://play.google.com/store/apps/details?id=com.whatsapp\&hl=es.

Estaba muy bueno La estan regando toda porque en cada actualizacionque le hacen pesa mas y mas y de masıa das tonterıas que le ponen vale-chetos ası hay gente que no tiene dinero para comprarse un buen celularpiensen en eso.

- Carrera Sala

Ordenar el texto en lista de frases

En este paso se trata de separar cada oracion del texto para tener una mejor visua-lizacion de lo que se va a analizar, es decir, lo acomodamos para tener una mejor dis-posicion del texto y dar un formato de entrada predeterminado al programa que va aanalizar el texto.

Pero en este paso nos encontramos con el primer problema, ya que una oracion secompone de sujeto + verbo + complemento y nos podemos encontrar con textos queestan mal escritos que no usan los signos de puntuacion adecuados o incluso al usartantas conjunciones o preposiciones, Freeling, quien es el que se encarga de esa tarealo puede tomar como una sola oracion y entonces pueden haber errores desde este paso.

Para nuestro ejemplo la salida de esta etapa del pre-procesamiento con el mismocomentario de la etapa anterior queda ası:

Estaba muy bueno La estan regando toda porque en cada actualizacionque le hacen pesa mas y mas y de masıa das tonterıas que le ponen vale-chetos ası hay gente que no tiene dinero para comprarse un buen celularpiensen en eso.

Page 72: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

54 CAPITULO 4. DISENO DEL SISTEMA

Donde se observa que no se ordeno por frases ese mismo comentario por lo ya ex-puesto anteriormente. Para dar mas enfasis en lo que se busca para la estructura deltexto a analizar se expondra otro nuevo ejemplo en donde se ve mas claramente la ideaque tenemos por hacer una lista de frases, donde se citamos un nuevo comentario.

No puedo utilizar las Caritas.. En esta nueva vercion,no puedo utilizarlas Caritas preciono el boton y no me aparece nada lo revise a la apli-cacion de la A a la Z y no logro solucionar el problema.. el resto estatodo bien.. arreglen eso por favor.. !!!!! Si tuvieran las Caritas les darıa 5estrellas! !!!.

- Usuario anonimo

Partiendo del comentario anterior, la salida del texto pre-procesado como lista defrases es la siguiente:

No puedo utilizar las Caritas. -

En esta nueva vercion,no puedo utilizar las Caritas preciono el boton y no meaparece nada lo revise a la aplicacion de la A a la Z y no logro solucionar elproblema. -

el resto esta todo bien. -

arreglen eso por favor. -

Si tuvieran las Caritas les darıa 5 estrellas! !!! -

Con este ultimo ejemplo se observa que tenemos 5 frases en una sola lista que perte-nece a un solo comentario. Por otro lado, la marca (( - )) que se utiliza para distinguir elinicio y el fin de una oracion con otra.

Etiquetado de cada palabra en cada oracion

Cuando se habla de etiquetado, en este escrito nos referimos al proceso que realizala librerıa Freeling. Dicho etiquetado es el paso final del pre-procesamiento del textode entrada del sistema, en esta parte el texto ya esta acomodado y estructurado paracomenzar a analizar el sentimiento de cada comentario.

Page 73: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

4.1. EL SENTIMIENTO 55

Este proceso tiene como entrada una serie de oraciones extraıdas de los comentariosoriginales, estas oraciones son separadas por palabras teniendo como salida algo similara la tabla 4.1.

Tabla 4.1: Ejemplo de un parrafo procesado por FeeelingPalabra Lema EtiquetaEstaba estar VAII1S0muy muy RG

bueno bueno AQ0MS0La la NP00000

estan estar VAIP3P0regando regar VMG0000

toda todo DI0FS0porque porque CS

en en SPS00cada cada DI0CS0

actualizacion actualizacion NCFS000que que PR0CN000le le PP3CSD00

hacen hacer VMIP3P0pesa pesar VMIP3S0mas mas NCMS000

y y CCmas mas NCMS000

y y CCde de SPS00

masıa masıa NCFS000das dar VMIP2S0

Page 74: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

56 CAPITULO 4. DISENO DEL SISTEMA

Tabla 4.1: Ejemplo de un parrafo procesado por Feeeling (cont.)Palabra Lema Etiquetatonterıas tonterıa NCFP000

que que PR0CN000le le PP3CSD000

ponen poner VIMP3P0valechetos valechetos NCMP000

ası ası RGhay haber VMIP3S0

gente gente NCFS000que que PR0CN000no no RN

tiene tener VMIP3S0dinero dinero NCMS000para para SPS00

comprar comprar VMN0000se se PP3CN000un uno DI0MS0

buen bueno AQ0MS0celular celular AQ0CS0piensen pensar VNSP3P0

en en SPS00eso ese PD0NS000- Fz

En la primera columna de dicha tabla se muestra el texto tal cual lo encontro Freeling.En la segunda columna se observa la raız de la palabra o lema. En la 3ra columna semuestra la etiqueta que proporciona Freeling. A pesar de las faltas de ortografıa, elprograma da un resultado, incluso a palabras inventadas, lo cual nos es de gran ayudapara el procesamiento del texto.

4.2. Una sencilla medida del sentimiento

Una vez que se ha decidido la forma estructural para el procesamiento del texto, po-demos empezar a definir un diagrama que nos permita entender el pre-procesamiento.Con el pre-proceso nos referimos a algunos primeros pasos comunes en procesamientodel lenguaje natural, tales como: marcado, division en oraciones y post etiquetado.

Page 75: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

4.2. UNA SENCILLA MEDIDA DEL SENTIMIENTO 57

Figura 4.1: Diagrama polarizacion

Page 76: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

58 CAPITULO 4. DISENO DEL SISTEMA

Inversores de polaridad

Con el enfoque que se ha seguido hasta ahora, algunas expresiones podrıan ser eti-quetadas incorrectamente. Por ejemplo: ((La interfaz no es mala)) contiene la palabramal pero en la sentencia es una opinion positiva sobre la interfaz. Esto es porque laaparicion de la palabra de negacion conmuta el significado de un adjetivo negativo oincluso uno positivo.

4.3. Diccionario

Un diccionario no es mas que una lista de palabras que comparten una categorıa. Porejemplo, si se tiene un diccionario de expresiones positivas, y otra para las palabrasnegativas o vacıas (inventadas).

El diseno de los diccionarios depende en gran medida del tema en concreto en elque se desea realizar la minerıa de opinion, por ejemplo, la minerıa de opiniones dehoteles es muy diferente a la minerıa de opiniones de portatiles. No solo las expresionespositivas y/o negativas podrıan ser diferentes, sino el vocabulario o el contexto tambienes muy distinto.

4.3.1. Definicion de un diccionario de expresiones positivas y nega-tivas

Para lograr el reconocimiento de expresiones positivas y negativas, se utilizan diccio-narios, es decir, archivos simples que contienen expresiones que se buscaran en nuestrotexto.

Por ejemplo, se definen dos diccionarios, uno para expresiones positivas y otro paralas negativas, tomando en cuenta que existen muchas palabras inventadas que son uti-lizadas muy frecuentemente en el dıa a dıa, por ello se decidio agregar estas palabrasinventadas a los diccionarios anteriores con nuestro criterio de polaridad que conside-ramos adecuado.

La tabla 4.2 muestra un extracto del diccionario de palabras positivas, negativas einventadas. Una version mas amplia viene detallada en el Anexo A.

Page 77: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

4.3. DICCIONARIO 59

Tabla 4.2: Extracto del diccionario de palabras positivas, negativas e inventadasPositivas Negativas InventadasAceptable Aborrecedor Aguitado

Alegre Absurdo CabronAlentador Agotador CabronAmable Apatico ChafaBarato Caduco ChaquetoBien Caro Chido

Bueno Debil ChimboComodo Decepcionante CuleroDigno Deplorable Gacho

Extraordinario Error GuaguaronFacil Escaso HuevonFeliz Feo Lacra

Impresionante Horripilante MamadoInspirador Ilogico PadreInteresante Inestable TruchaMagnıfico Lamentable Wey

Sorprendente Malo VergudoUtil Sucio Zope

4.3.2. Etiquetar el texto con los diccionarios

Para la etiquetacion del texto simplemente hacemos uso de las palabras dentro deldiccionario para poder comparar una palabra de un comentario con una palabra en eldiccionario, ya que este formato de diccionario sera util mas adelante. Hay que tener encuenta que estos dos ejemplos de diccionarios los hemos escogido porque nos facilitanlos metodos de comparacion y clasificacion.

En la figura 4.2 se muestra un diagrama a bloques que se va a utilizar para etiquetarnuestro texto pre-procesado con nuestros diccionarios previamente definidos.

Page 78: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

60 CAPITULO 4. DISENO DEL SISTEMA

Figura 4.2: Diagrama de prepocesamiento

El texto se va guardando en una lista de lıneas para que sea mas facil la etiquetaciony la comparacion con los diccionarios. De esta manera el texto queda estructurado parasu utilizacion.

4.4. Descripcion del sistema

Ya se ha hablado de las etapas y procesos por separado, que entre sı, todos estan re-lacionados. No obstante, ahora es momento de utilizar todo lo explicado anteriormentepara dar a conocer el prototipo y su funcionamiento.

Para dar a entender todo el proceso de clasificacion de las opiniones en espanolutilizando informacion lexica y diccionarios, se procede a definir diagrama a bloquesde la figura 4.3 que comprende todo el sistema.

Figura 4.3: Diagrama de bloques del sistema

Page 79: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

4.4. DESCRIPCION DEL SISTEMA 61

En la figura 4.3 se observan las etapas del pre-procesamiento, cuyas funciones sonseparar y estructurar el texto en listas de frases para su etiquetado y procesamientooptimo. Y por parte del proceso se encarga de utilizar algoritmos y metodologıas pa-ra obtener una medida del sentimiento cuantificado en un numero entero, esto es, lapolarizacion.

Partiendo de este esquema, se procede a mostrar la interfaz que se va a utilizar parael clasificador. Cabe destacar que las limitaciones ya mencionadas en el capıtulo 1se hacen presentes aquı, ya que usamos un sistema operativo de codigo abierto y supaqueterıa, por ello, la disponibilidad de este prototipo se queda presente solo paraLinux.

Este prototipo se llevo a cabo en la distribucion Ubuntu 14.04 LTS para linux y conpaqueterıa para Python de Tkinter.

La figura 4.4 muestra la interfaz que se uso. En ella, se observa que hay 2 botones.Un boton es para abrir los comentarios a analizar y otro boton es para procesar loscomentarios. La ruta de entrada se muestra en la caja de entrada que se encuentra allado de la etiqueta que dice Archivo de entrada. Y por ultimo hay tres cajas de texto,una donde se vaciaran los los autores y sus respectivos comentarios, ya sean estospositivos, negativos o neutros (sin opinion clara) respectivamente.

Figura 4.4: Interfaz del clasificador de opiniones

Page 80: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

62 CAPITULO 4. DISENO DEL SISTEMA

4.4.1. Ejemplo de procesamiento

Para terminar de ejemplificar e intentar dejar claro el funcionamiento del sistema, sedesarrollara el siguiente ejemplo.

Se toman los comentarios que se encuentran alojados en una carpeta ası que se pro-cede a buscarla como se ve en la figura 4.5. Mediante el explorador de archivos se buscala base de opiniones a analizar. Los comentarios usados para este ejemplo se encuentranen el anexo C.

Figura 4.5: Abriendo la base de datos de opiniones desde la interfaz

Una vez seleccionada la base de datos la caja de entrada guarda la ruta de la carpetadonde esta alojada, tal como se ve en la figura 4.6.

Page 81: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

4.4. DESCRIPCION DEL SISTEMA 63

Figura 4.6: Ruta de la base de datos de opiniones desde la interfaz

El siguiente paso es el procesamiento, ya que Freeling hara una tarea importanteaquı, estructurando los textos para procesaros.

En la figura 4.7se muestra el procesamiento de los comentarios por parte de Freelingdesde la terminal.

Page 82: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

64 CAPITULO 4. DISENO DEL SISTEMA

Figura 4.7: Procesamiento de Freeling desde la terminal de Ububutu

Ahora bien, cuando Freeling termina de procesar la base de datos, nos arroja 3 tiposde archivos por cada comentario encontrado, estos archivos tienen extension .txt, .tag y.dat. En el primero de ellos Freeling guarda el comentario textualmente como lo ha en-contrado, la unca diferencia es que en este archivo se encuentra separado en oraciones.En el segundo de ellos se almacena las etiquetas y el lema de cada palabra que conformael comentario. Y el ultimo aloja informacion binaria del respectivo comentario.

La figura 4.8 nos ensena la carpeta que aloja todos los archivos anteriormente men-cionados de una base de datos, en ella podemos ver cada uno de estos archivos por cadauno de los comentarios que encontro Freeling.

Page 83: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

4.4. DESCRIPCION DEL SISTEMA 65

Figura 4.8: Base de datos de listas de frases proporcionada por Freeling

Procesamiento

En la parte del procesamiento se encuentran los metodos para clasificar los comen-tarios que se han tocado en este capıtulo. Ahora bien, en la figura 4.9 se muestra elprocesamiento de las listas de frases por cada comentario que hay en la base de datos.

Page 84: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

66 CAPITULO 4. DISENO DEL SISTEMA

Figura 4.9: Procesamiento de las listas de frases

Cuando el procesamiento del texto finaliza, el programa crea archivos en donde estancontenidos los comentarios ya clasificados con extension .pos, .neg y .neu que hacenreferencia a comentarios positivos, negativos y neutros respectivamente.

Cuando estos comentarios son analizados se comparan con una base de datos depalabras positivas y negativas. Los diccionarios fungen un papel importante en la cla-sificacion de los comentarios, ya que con ellos se sabe si una opinion es positiva onegativa, por ello, en la siguiente figura se muestran los distintos tipos de diccionariosa utilizar.

Por ultimo la interfaz muestra los comentarios en las cajas de texto dependiendo dela polaridad que tengan los archivos creados. En la figura 4.10 se muestran los comen-

Page 85: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

4.4. DESCRIPCION DEL SISTEMA 67

tarios arrojados en las cajas de texto de la interfaz.

Figura 4.10: Clasificacion de comentarios en espanol

Ası es como funciona el sistema, para comprobar su efectividad en el siguientecapıtulo se expondran las pruebas y resultados obtenidos.

Page 86: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime
Page 87: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

Capıtulo 5

Pruebas y resultados

En este capıtulo se describe las pruebas que se han hecho y los resultados obtenidosde nuestro sistema.

Primero se comienza por explicar que el sistema tiene como entrada un archivo .txt elcual contiene una cantidad de comentarios que se extraen de cualquier base de datos. Enlas pruebas que se realizaron se utilizaron archivos .txt con 20 comentarios obtenidos alazar de opiniones depositadas en Google Play Store para dos aplicaciones: WhatsAppversion 2.12.124, los cuales fueron elegidos por la variedad de polaridad que podemosencontrar en ellos y Microsoft Word debido a que en esta aplicacion podemos encontrarcomentarios mejor escritos que en nuestra primera opcion, es decir, los productos estandirigidos a un publico diferente.

En cada uno de estos comentarios podemos ver que hay un clasificador basado en 5estrellas, donde cada usuario califica con ellas el producto. Google Play Store ha habili-tado este tipo de evaluacion y segun la cantidad de estrellas seleccionadas la valoracionsignifica lo siguiente:

* Lo odio** No me ha gustado

*** Aceptable**** Me ha gustado

***** Me ha encantado

El archivo .txt de comentarios tiene la siguiente estructura: en una lınea esta el nom-bre del autor del comentario, la cantidad de estrellas que este ha asignado como eva-luacion del producto y en una lınea abajo el comentario que ha hecho esta persona.

69

Page 88: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

70 CAPITULO 5. PRUEBAS Y RESULTADOS

Despues hay un salto de lınea y debajo otra vez inicia la misma estructura, ası se repitepor cada comentario en el archivo.

Este archivo es analizado por Freeling, el cual descompone el archivo en otros tresnuevos archivos por cada comentario, el primero es un archivo .txt que contiene ca-da uno de los comentarios (uno por comentario) dividido en oraciones. El segundo unarchivo .tag el cual contiene las etiquetas eagle por cada palabra del comentario corres-pondiente. Y finalmente el archivo .dat que contiene la informacion binaria de dichocomentario.

Estos archivos son analizados en nuestro sistema para obtener la polaridad de cadapalabra, esto lo hace comparando las palabras encontradas en los comentarios con losdiccionarios de palabras positivas y negativas que hemos creado, si una palabra incluidaen el comentario es encontrada en el diccionario positivo la polaridad suma +1, por otrolado, si la palabra esta en el diccionario negativo, la polaridad resta -1.

Al momento de estar analizando primero el sistema encuentra una polaridad parcialque corresponde a cada uno de las oraciones del comentario, al final estas polaridadesparciales son sumadas para encontrar la polaridad final de dicho comentario. Lo ideales que nuestro sistema asigne una polaridad negativa a valores de 1 y 2 de estrellas, un0 a los comentarios que no emiten una opinion o que emanan juicios opuestos en igualnumero y magnitud, y una polaridad positiva a valores de 3 a 5 estrellas respecto a laconsideracion de Google Play Store.

5.1. Prueba realizada con comentarios de WhatsApp

La primera prueba se realizo con 20 comentarios hechos hacia Whatsapp Messengerdentro de Google Play Store. En la tabla 5.1 se observan las polaridades que nuestrosistema ha asignado a cada comentario y la comparacion con el numero de estrellas queel autor de cada comentario otorgo.

Page 89: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

5.1. PRUEBA REALIZADA CON COMENTARIOS DE WHATSAPP 71

Tabla 5.1: Resultados obtenidos de la prueba

No. decomentario

Polaridad asignadapor nuestro sistema

Polaridad basada enel numero de estrellasde Google Play Store

Resultado

0 Positivo Positivo (5) Correcto1 Positivo Negativo (2) Incorrecto2 Negativo Negativo (1) Correcto3 Positivo Positivo (4) Correcto4 0 Positivo (3) -5 Positivo Negativo (2) Incorrecto6 Positivo Positivo (3) Correcto7 0 Positivo (5) -8 Negativo Negativo (2) Correcto9 Negativo Positivo (4) Incorrecto

10 Positivo Positivo (4) Correcto11 Negativo Negativo (2) Correcto12 Positivo Positivo (5) Correcto13 Positivo Positivo (5) Correcto14 Negativo Positivo (3) Incorrecto15 Positivo Positivo (4) Correcto16 0 Positivo (3) -17 Negativo Positivo (5) Incorrecto18 Negativo Negativo (2) Correcto19 Positivo Positivo (3) Correcto20 Positivo Positivo (5) Correcto

Se observan 4 columnas, en la ultima de ellas el Resultado se refiere a la comparacionentre la polaridad asignada por nuestro sistema y la asignada por el autor del comentariosegun el numero de estrellas que otorgo en Google Play Store. Cuando decimos que elresultado es correcto es porque ambas polaridades coinciden, si es incorrecto es porquehay una discrepancia. En algunos comentarios podemos ver que no hay un resultadocorrecto o incorrecto, esto se debe a que como el sistema no ha detectado una polaridaddominante en el comentario pasa a ser una frase, y no es posible hacer una comparacion.

Podemos ver que hay 13 comentarios bien clasificados por nuestro sistema, 5 que nohan sido bien clasificados y 3 casos donde no se le ha asignado polaridad. Ignorando es-tos ultimos podemos realizar la siguiente grafica, donde vemos que el se ha clasificadoel 72.2 % de los comentarios de forma correcta.

Page 90: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

72 CAPITULO 5. PRUEBAS Y RESULTADOS

Figura 5.1: Grafica de resultados de la primera prueba

5.2. Prueba realizada con comentarios de Word paraAndroid

La prueba numero 2 que se hizo fue otra vez con un producto de Google Play Store,esta vez fue con Microsoft Word para Android en el cual pudimos encontrar una grancantidad de comentarios valorados positivamente con la escala de las estrellas propiasde la misma plataforma. Se escogio analizar los comentarios de esta aplicacion porqueesta tiene un fin diferente a WhatsApp y por ende un tipo de usuarios diferentes ladescargan y valoran, por eso esperamos que los comentarios tengan menor cantidad deerrores ortograficos y gramaticales para tener un resultado mas fiable.

De dicha aplicacion se tomaron de nuevo 20 comentarios, se procedio a ser analiza-dos por nuestro sistema, y con el resultado comparandolo con las valoraciones dadaspor los mismos autores se ha llenado la tabla 5.2

Page 91: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

5.2. PRUEBA REALIZADA CON COMENTARIOS DE WORD PARA ANDROID73

Tabla 5.2: Resultados obtenidos de la prueba.

No. decomentario

Polaridad asignadapor nuestro sistema

Polaridad basada enel numero de estrellasde Google Play Store

Resultado

0 Negativo Positivo (4) Incorrecto1 0 Positivo (4) -2 Negativo Negativo (2) Correcto3 Positivo Positivo (4) Correcto4 Positivo Positivo (5) Correcto5 Positivo Positivo (5) Correcto6 0 Positivo (4) -7 Positivo Positivo (5) Correcto8 Positivo Positivo (5) Correcto9 Negativo Positivo (3) Incorrecto

10 Negativo Positivo (3) Incorrecto11 Positivo Positivo (4) Correcto12 Positivo Positivo (5) Correcto13 0 Negativo (1) -14 Positivo Positivo (5) Correcto15 Negativo Negativo (1) Correcto16 Positivo Positivo (5) Correcto17 0 Negativo (1) -18 Negativo Negativo (1) Correcto19 Positivo Positivo (5) Correcto

En esta ocasion se observa que fueron 13 los comentarios bien clasificados por elsistema, mientras que solo 3 fueron clasificados de forma erronea y a 4 comentariosno fue posible asignarles una polaridad. Ignorando nuevamente estos ultimos podemosgenerar la siguiente grafica, donde podemos ver que en esta ocasion que el 81.3 % decomentarios fueron clasificados de forma correcta.

Page 92: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

74 CAPITULO 5. PRUEBAS Y RESULTADOS

Figura 5.2: Grafica de resultados de la segunda prueba

5.3. ResultadosEs importante notar que al ser un prototipo, este sistema no ha encontrado la po-

laridad esperada de algunos comentarios, esto se debe a posibles errores tanto de lasherramientas que hemos usado hasta del material analizado.

Se debe destacar que los comentarios analizados son textos que no tienen una correc-ta estructura, esto incluye ortografıa y gramatica, por ejemplo, si uno de los comentariosincluye una palabra mal escrita, aunque la misma este depositada en uno de los diccio-narios, no lo va a reconocer porque el sistema no considerara la misma. Tambien si noes bien utilizada la palabra, aunque este bien escrita, es posible que agregue o eliminepolaridad al comentafrio que no deberıa, pues se espera que tenga una estructura bienutilizada para funcionar.

Otro posible error al hacer la comparacion con las estrellas de cada comentario yla polaridad obtenida es la subjetividad al calificar el producto. A pesar de que Goo-

Page 93: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

5.3. RESULTADOS 75

gle Play tiene rangos de satisfaccion en cada una de ellas (descritos anteriormente), elusuario muchas veces califica el producto sin tener el conocimiento de cuanto equivalecada estrella, o en su comentario no registra todo el valor sentimental en las palabrascomo el o ella quisiera.

Acerca de los posibles errores en las herramientas que se usaron, se tiene el usode Freeling. Esta es una herramienta confiable, que se ha caracterizado por ser unode los principales protagonistas en las herramientas del procesamiento del lenguajenatural, sin embargo, aunque es muy buena no es perfecta. Cuando los comentariosson analizados, se crean unos archivos .tag que se mencionaron al principio de estecapıtulo, estos se van formando con la palabra escrita por el usuario (en este caso cadauna de las que se encuentran en los comentarios analizados), la palabra normalizada, laetiqueta eagle y finalmente un numero que representa la probabilidad de que la palabraanalizada sea la normalizada que propone Freeling, por ejemplo:

Esta este DD0FS0buena bueno AQ0FS0

la la DA0FS0actualizacion actualizacion NCFS000

y y CCes ser VSIP3S0

bonita bonito AQ0FS0

Los errores ortograficos hacen que estas herramientas se vean un poco limitadas, enel ejemplo de anterior podemos deducir por la estructura de la oracion que la primerapalabra ((Esta)) hace referencia al verbo ((estar)), sin embargo al no aparecer bien escritanos damos cuenta (por la etiqueta eagle) que Freeling la considero como el determi-nante demostrativo ((este)) que es muy diferente a la idea que querıa plasmar el autor.

Tambien es importante mencionar que los diccionarios que estamos usando son unpoco limitados, esto se debe a que el idioma espanol es muy amplio, y al ser un idiomaque es hablado en muchos estados y paıses, es posible que algunos adjetivos regionalesno esten incluidos en los diccionarios que construimos, por lo que algunas caracterısti-cas del texto que denoten alguna polaridad, no sean consideradas.

Page 94: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime
Page 95: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

Capıtulo 6

Conclusiones

En este proyecto se observa que el analisis de opiniones en espanol es un tema com-plejo. Delimitar un idioma tan vasto en gramatica es una labor que no es facil, ya quehay escasas metodologıas que resuelven estas tareas en espanol.

El analisis de opiniones en espanol es una tarea innovadora dado que los retos sonmayores que los existentes en otros, debido a que nos enfrentamos a diversos factoresque desvıan los resultados de lo esperado.

Es importante senalar que a pesar de que la minerıa de opinion o analisis de senti-mientos es una rama de la computacion que ha tomado fuerza estas ultimas decadas,este es un concepto que ha venido desarrollandose desde hace mucho tiempo atras des-de el momento que el hombre sento las bases para el desarrollo de sistemas inteligentesinvestigando el funcionamiento del cerebro.

Para hacer el diseno de nuestro sistema, fue necesario investigar conceptos que sonclave para el desarrollo de un clasificador de comentarios, tales como minerıa de datos,la cual es un area de la computacion que se encarga de encontrar patrones en una basede datos. La minerıa de opinion es hija de la minerıa de datos, funciona igual, pero lospatrones que tiene que identificar esta, es la informacion subjetiva vertida en datos queen este caso se limitan a ser texto.

Ya dentro de nuestro sistema se pudo ver que el pre-procesamiento estandar de lasopiniones se hizo de manera correcta. Este pre-procesamiento abarco desde el momen-to que son ingresados los comentarios hasta cuando se obtuvo las palabras etiquetadasy con su respectivo lema. Este pre-procesamiento se hizo con ayuda de la librerıa Free-ling, incluye la separacion de los comentarios en oraciones, realizacion de un analisis

77

Page 96: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

78 CAPITULO 6. CONCLUSIONES

morfo-sintactico de cada palabra para identificar sus categorıas gramaticales a travesde las etiquetas eagle.

El paso anterior de nuestro sistema funciono de manera optima, la unica area de opor-tunidad que hubo fue con respecto a los acentos. Cuando Freeling encontro una palabraque incluıa un acento, esta librerıa dividio dicha palabra en 3 partes, una de ellas incluıael inicio de la palabra hasta una letra antes de la letra con acento, la segunda de ellas fueun caracter desconocido que sustituıa la letra con acento, y la tercera fue el resto de lapalabra. Esto se debe posiblemente a que nuestro sistema utiliza la codificacion UTF-8,la cual es una de las mas comunes y usadas y Freeling no especifica cual codificacionusa.

Uno de nuestros objetivos era asignar una polaridad a un comentario u opinion, sinembargo no es posible decir que tan correcto es el valor asignado de la polaridad de loscomentarios analizados. Como se planteo anteriormente en el capıtulo 3, el lenguajenatural es muy subjetivo y cada persona tiene una forma de interpretar un texto, porello solo lo mostramos como un comentario negativo, positivo o neutro, ya que que lainterpretacion del lenguaje nos obliga a dejar simplemente un resultado binario, pueslo que es ((bueno)) para nosotros, puede ser ((mucho muy bueno)) para alguien mas osimplemente ((un poco bueno)), por ende, se toma simplemente como un comentariopositivo y lo mismo para el caso de un comentario negativo.

Las pruebas que se realizaron se hicieron con comentarios extraıdos de Google PlayStore. Se hicieron con ellos porque al momento de dar un comentario un usuario enesa plataforma, tiene como obligacion calificar el producto que se esta evaluando enuna escala de 1 a 5 estrellas, cuyo significado esta detallado en el capitulo 5. Se supusoque el usuario que evalua el producto con esa escala, al emitir un comentario, la cargasentimental de este ultimo no distarıa mucho de la calificacion emitida, y para com-probar el correcto funcionamiento de nuestro sistema era necesario tener un punto decomparacion.

Como se detallo en el capitulo anterior, nuestro sistema no clasifico correctamente el100 % de comentarios, esto se debe a errores ajenos al sistema, como los acentos maletiquetados por freeling, las faltas de ortografıa y gramatica por parte de los usuariosque emiten su comentarios, y por la mala evaluacion de los productos con la escala delas estrellas de Google Play Store.

Se concluye que el sistema funciona de manera correcta, a pesar de las areas de opor-tunidad que tiene es posible extraer el analisis sentimental de los comentarios reflejados

Page 97: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

79

en un valor numerico que indica la polaridad de los mismos. Este sistema es un prototi-po que sentara las bases para seguir el desarrollo de clasificadores mas sofisticados queincluyan las mejoras a los posibles errores que este proyecto pueda tener, por ejemploquiza manana podamos ver un trabajo parecido que corrija los errores ortograficos ygramaticales de textos ya escritos antes de analizar el contenido o incluya diccionariosmas amplios para que el resultado sea mas preciso.

Por consiguiente, podemos decir con certeza que la hipotesis se cumplio. La clasi-ficacion de textos en espanol mediante el analisis morfo-sintactico de los comentarios,analizando los sentimientos que proyectan los adjetivos y adverbios asociando una po-laridad como indicadores sentimentales es posible y nuestros objetivos se llevaron acabo de principio a fin en el proyecto.

Es importante resaltar los siguientes aspectos acerca de nuestro proyecto:

Los diccionarios de polaridades que se usaron fueron extraıdos de diccionariosen ingles y han sido corregidos para adaptarlos a nuestro idioma.

Se ha hecho una compilacion de regionalismos y se le ha asignado polaridad.

Los resultados obtenidos son suficientemente coherentes.

Page 98: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime
Page 99: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

Anexo A

Comentarios usados para elexperimento 1

En este apendice se muestran los comentarios de WhatsApp Messenger proporcio-nados por Google Play Store.

Karyy Buu Medinaa ***** Excelente!!! Buena app, pero deberıan hacer que poda-mos personalizar lo que aparece en verde a distintos colores.

Usuario Annnimo ** No puedo utilizar las Caritas.. En esta nueva vercion,no puedoutilizar las Caritas preciono el boton y no me aparece nada lo revise a la aplicacion dela A a la Z y no logro solucionar el problema.. el resto esta todo bien.. arreglen eso porfavor.. !!!!! Si tuvieran las Caritas les darıa 5 estrellas! !!!

Sanpillo Ar Fz * Muy buena... Tiene de todo... Lo unico malo que lo hace pesi-mo,es no tener una opcion de que nadie te vea si estas en linea,y que no vean tu ultimaconexion... Si tuviese eso le darıa mil estrellas...

Sabrii Baez **** Muy buena solo faltaria poder elejir qien pueda ver tu ultima co-nexion y con qien no estaria muy bueno eso.. tamb qur se puedan ver gifs imagenes q cmuevan asi como poder personalizar los tmas como uno qiere..

Pilar LTM *** Demasiado peso La app es muy buena pero cada dia llevo peor lasactualizaciones obligadas, entre el play store obligatorio y la app sin nada mas se mequeda pillado el movil. demasiado peso, doy 3 estrellas, si solucionan el peso dare 5, sisigue subiendo pondre 1.

81

Page 100: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

82 ANEXO A. COMENTARIOS USADOS PARA EL EXPERIMENTO 1

Valeria Paz ** ?? Esta buena la actualizacion y es bonita y todo, pero ya no se venlos ticket azules. Por mi parte me gustaba saber cuando la persona leıa mi mensaje,deberıan arreglarlo ya que solo se ve en algunos chat y las llamada no se escuchan muybien los sonidos del habla no concuerdan son retardados arreglen eso y quedarıa perfect

Jesus Maria Araujo *** Mejor Pero seria mejor que tengan otros tipos de emoji ,porque el actual ya no es tan llamativo

Santiago Rinaldi ***** Contactos El problema es cuando quiero agendar a alguien,primero me aparece en whatsapp, pero al poco tiempo se me borra. Solucionen eso yles vuelvo a dar 5 estrellas

Alan David Prados ** No me gusta que el icono de llamar y el de adjuntar un archivoeste uno al lado del otro, un pequeno error y puede iniciar una llamada o deseada. Hacefalta una pestana especial para los grupos distinta a los contactos individuales

Ana Lilia Mijangos De La Cruz **** El WatsApp me gusta Muchiiiiisimo.pero,Tiene un defecto ,q aun teniendo saldo en ocasiones bloquea las entradas y salidas delwat..cuando sale uno de casa ,estando lejos del internet y eso molesta.

Carrera Sala **** Estaba muy bueno La estan regando toda porque en cada actuali-zacion que le hacen pesa mas y mas y de masıa das tonterıas que le ponen valechetosası hay gente que no tiene dinero para comprarse un buen celular piensen en eso

Cris Ibarra ** Deja que decear Samsung galaxy S5: La verdad es muy mala la ver-sion, anteriormente no habıa tenido problemas, pero en esta version al borrar una con-versacion los mensajes vuelven a llegar solos, al igual que las imagenes, lo que es algofastidioso cuando arreglen eso dare 5 estrellas gracias

Julieta Bidegain ***** Me encanta es la mejor app.!! Tengo grupos con mis amigos,yaparte no te cobran es lo mas y la nueva actualizacion esta re buena sigan asi! Le doy 5

Fabio Pena *** Problema al enviar fotos desde la galerıa! Tiene un problema, cuandoenvıo fotos, y quiero entrar a la galerıa desde la app otra vez, me sale la pantalla enblanco, y me toca salir de la app y volver a entrar para enviar otras fotos.

Page 101: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

83

Alfredo Alvarez Garcıa **** Opcion de llamada La app en general esta bien. Loque no me gusta es que, desde que actualizasteis a la version con Llamada Whatsapp,cuando pulsas el icono de llamada, llama directamente desde whatsapp. Lo suyo seriaque cuando pulses ese boton, te diga si quieres hacer una llamada convencional o atraves de la app.

Conrado Onses *** Habilitar boton para llamadas a traves del movil. Lo he comenta-do con mi entorno, y muchos nos habıamos acostumbrado a hacer las llamadas usandola agenda del propio whatsapp. Ahora, ese boton hace una llamada de voz, pero de da-tos. Estarıa bien que incluyeran uno adicional, o por lo menos ponerlo en el desplegabledonde estaba antes dandole al boton del menu... Ahora es muy enrevesado encontrar elnumero de telefono de una persona...

Paula Ramırez ***** Lo mismo siempre cansa Temas personalizados, mas iconospor favor y no vendrıa nada mal que se pueda elegir quien ve tus estados, conexion,imagenes...

Miguel Chaparro ** Debe mejorar en algunos aspectos Me ha ocurrido varias vecesque por accidente he llamado a varias personas, con solo pulsar en el lugar incorrectouna vez ya estas llamando a alguien, deberıa de haber un pequeno cuadro si estas segurode llamarlo o algo por el estilo

Wilfred Brown Vargasa *** Me gusta pero Lo que sacaron del telefono no me gustoporque si el otro tiene mas conexion y el otro no no se puede hablar se olle voroso se tecaı la llamada todo el tiempo y no te entra la llama fin...

FRACARBO LM ***** Todo iba bien. Todo bien como se ve pero ahora pero sirecibo un audio un mensaje o un vıdeo lo tengo que cancelar y volver a intentar esto nopasaba antes, por otra parte buen diseno ?? saludos!!!

alfredo reyes ***** Muchas gracias!! La mejor aplicacion de la actualidad!! Solo lefaltaba esto (telefonia) para ser perfecta! Lastima que en Argentina no funciona bien nies buena internet y todavıa estamos con el 3g, pero en cuanto cambien esto sera todoperfecto!

German Osvaldo Rojas ***** Muy bueno; Muy buena adaptacion a material designy con la foto de perfil de los contactos quedo genial.. Muy bien lograda, no use lasllamadas hasta ahora. Espero que hallan mejorado!

Page 102: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

84 ANEXO A. COMENTARIOS USADOS PARA EL EXPERIMENTO 1

Nataly Rivera Avila ** Me encanta Pero en verdad deverian de poner una opcion deque cada uno elija el color que quiera por que el color que esta ahora no me gusta paranada

Page 103: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

Anexo B

Comentarios usados para elexperimento 2

En este apendice se muestran los comentarios de Microsoft Office Word en su versionpara Android, proporcionados por Google Play Store.

Marcos Senabre **** Ahora sı A falta de ver que efectivamente la edicion de textoscreados en un PC no acarrea problemas de formato, la primera sensacion es que, ahorası, se trata de una herramienta verdaderamente util. (Me guardo la quinta estrella hastaverificarlo.) Me preocupa sobre todo que se pierdan elementos como las notas al pie,pues en documentos largos podrıa no echarlos en falta hasta que fuera demasiado tarde.Todavıa no se si fiarme...

Rodrigo Colatto **** Me encanta Es demasiado pesada la aplicacion, ademas de serun poco lenta. Sin embargo, tiene mas funciones qeu Docs y es mas fiel al software deMicrosoft para PC.

John E Marchena Pacheco ** Le falta la opcion de escritura de mano alzada Le faltala opcion de es crıtica de mano alzado o escritura con lapiz ya queda herramienta esmuy util es tableta

Milton Fernandez **** Muy buena Lo unico que le faltarıa agregar es poder eliminarel historial de archivos recientes. Sigan mejorando.

Jorge Valdivieso ***** Excelente aplicacion. Tiene buena interface, incluso mejorque la app de Google Doc, espero que no la vayan a danar con actualizaciones sin sersometido a todos los controles. Espero que sigan mejorando

85

Page 104: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

86 ANEXO B. COMENTARIOS USADOS PARA EL EXPERIMENTO 2

Jose Antonio Martin Quesada ***** Por fin un Microsoft Word a nivel Por fin se hapuesto las pilas Microsoft. Ha creado una version de Word muy completa, superior asu competencia (documentos de Google). Enhorabuena.

Hombre-x GSP **** Buena pero. Le hacen falta funciones de la edicion de Pc yoptimizar un poco mas la interfaz y las animaciones, de resto es una aplicacion exelente,esperaba mucho la edicion para moviles Android.

Nick Olaya ***** El office original Es muy agradable saber que esta aplicacion estasiempre mejorando y adaptandose para los usuarios, poder revisar los archivos que hetrabajado desde mi laptop y corregir es una ventaja muy util y agradezco que Microsoftla ponga al acceso de sus usuarios en diferentes plataformas

Daniel Mantilla ***** Excelente. Es incluso mejor de lo que esperaba que fuera.Puedo decir sin temor a duda que facilmente supera a cualquier otra suite de ofimaticadisponible en Android, pues se acopla bien a la interfaz y funcionalidad de un smartp-hone/tablet sin renunciar a las funciones y calidad que Office siempre ha ofrecido. Y lomejor: puede descargarse individualmente, yo no uso Excel, al menos no en un smartp-hone, pero si Word, ası que me basta con esto. Ojala cualquier cambio futuro sea solopara mejor.

Annshirly Vargas Angulo *** Se pierde la pagina por la que uno va Cuando es enedicion de texto es de lo mejor que hay, sin embargo cuando es de lectura de docu-mentos que son guardados de otro lugar a esta app es mala, ya que si uno cambia deaplicacion se pierde la pagina por la que uno iba eso es decepcionante mas si uno es unlector!

Emmanuel Baptista *** Tuve dificultades instalandola Pero por fin lo logre, funcionamuy bien excepto por 2 cosas, pudiese ser mas rapida, ya que algunas veces funcionamuy lento, y ocupa demasiado espacio, deberıa ser mas ligera.

Livaniel leal yate **** Inquietud Es muy bueno, lo que no he podido encontrar escomo eliminar un documento despues de creado y guardado en el equipo utilizado. Esbueno porque tu puedes adelantar trabajos e enviar al correo y luego si necesita hacerarreglos lo puedes descargar y hacerlos desde su computador.

Renkin269 ***** Insuperable! Definitivamente el mejor sobre todos, no me he to-pado con fallo alguno y corre muy fluido en mi dispositivo. Merece mas que 5 stars

Page 105: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

87

Paul Viteri * No sirve He pagado la suscripcion y no se activa. Quiero que me de-vuelvan mi dinero

Carlos Bravo ***** Muy buena y util Ha mejorado mucho en cuanto a las herra-mientas que tiene comparativamente con otras suites para Android. Sin embargo, poseeciertos problemas de estabilidad, lo que en ocasiones hace lento el tipeo e incluso pro-voca que se congele durante unos segundos. A esperar una pronta actualizacion.

Hernan Isidro Valdivia Donoso * No se pudo, Desgraciadamente no me funciona enesta tablero Dell Venue

Gerardo Ignacio Bonilla ***** Hasta el momento excelente Muy buen programa, unpoco pesado pero corre a buena velocidad en el telefono.

Carlos Clemente Ortega * No se abre La aplicacion esta bien, el problema es que unavez que la cierro ya no me deja abrirla mas. Despues de varios segundos de espera en elicono de Word la app se cierra sola. Necesito ayuda. Si se soluciona, pondre 5 estrellas.

Julio Pacheco * Solicito informacion Por que no se pueden editar los documentosque estan alojados en la microSD ??? Porque no se pueden guardar los documentos enla microSD? Me siento desepcionado por eso.

Cecilia Castaneda ***** Amo esta aplicacion Es muy util y rapida , mis trabajos seguardan en la nube y en mi dispositivo , nunca se pierde nada. Todo en su lugar orga-nizado y de facil acceso. Ojo lector, si se les pone lento el equipo revisen su memoriaram y la interna. La aplicacion no tiene nada que ver con la lentitud de su dispositivo.Gracias

Page 106: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime
Page 107: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

Anexo C

Extracto amplificado de losdiccionarios

Debido a que los diccionarios cuentan con mas de 1500 palabras para cada polaridad(positiva y negativa) solo mostramos el primer centenar de los mismos.

Tabla C.1: Extracto del diccionario de emocionesPositivas Negativas

abrazo abandonadoabunda abandonar

abundancia abandonosabundante abatidoabundar abatimientoaccesible abigarradoacegurar abismal

aclamacion abismalmenteaclamacion abismoaclamado abollado

aclarar abolladuraacogedor abolladuras

acomodadizo abominableacomodaticia abominablemente

acreditado abominacionactualizable abominaractualizado aborrecedores

89

Page 108: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

90 ANEXO C. EXTRACTO AMPLIFICADO DE LOS DICCIONARIOS

Tabla D.1: Extracto del diccionario de emociones (cont)Positivas Negativasadaptable aborreceradaptado aborrecimientoadecuado abortaadelanta abortado

adelantamiento abortaradelantar abrasador

adjudicado abrasadoramenteadmirable abrasivo

admirablemente abrumaadmiracion abrumadoadmirador abrumadoradmirar abrumadoramente

admirativamente abrumaradmirativo abruptamenteadorable abrupto

adoracion absurdamenteadorado absurdoadorador abucheosadorar abultamiento

adulacion aburridoadulador aburrimientoadular abusivo

aerodinamico abusoafabilidad abusos

afable accidentalafablemente accidentes

afan acechoafectacion acerbo

afecto acobardarafectuosa acosado

afectuosamente acosadosaficion acosar

aficionado acoseafiladısimo acoso

afilado acrementeafinidad acritud

afirmacion acusaafirmar acusacion

afirmativamente acusacionesafirmativo acusandoafluente acusar

afortunadamente acusatoriamenteafortunado adictivo

Page 109: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

91

Tabla D.1: Extracto del diccionario de emociones (cont)Positivas Negativas

agil adictoagil adictos

agilidad admonicionagilmente admonitorioagraciado adolorido

agrada adulteracionagradabilidad adulterado

agradable adulteraragradablemente adversarial

agradecer adversarioagradecido adversidadagradeser adverso

agradesido advertenciaagudamente afliccion

agudeza afligidoagudo afligir

ahorrador afligirseahorrativo afrenta

ahorro agitarseahorros agonıa

ajustable agonıasalabando agonicamentealabanza agonizante

alabar agonizaralcanzable agotado

alegrar agotadoralegre agotamiento

alegremente agotaralegrıa agravacion

alentador agravantealentadoramente agravar

alentar agraviadoaleteo agravio

alimento agraviosalisa agresion

aliviado agresividadaliviando agresivo

alivio agresoraltruista agriamentealtruista agrietado

alucinante agrio

Page 110: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime
Page 111: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

Referencias

[AKØ99] T Agotnes, Jan Komorowski, and Aleksander Øhrn. Finding high per-formance subsets of induced rule sets: Extended summary. In Procee-dings Seventh European Congress on Inteligent Techniques and SoftComputing (EUFIT’99), Aachen, Germany, 1999.

[AP81] I. Begg A. Pavio. Psychology of language. Prentice-Hall, 1981.

[Ath14] Dale Athanasias. Python tkinter. https://wiki.python.org/moin/TkInter,2014.

[Ber99] David K Berlo. El proceso de la comunicacion: introduccion a la teorıaya la practica. Buenos Aires, 1999.

[Ber01] Helena Beristain. Gramatica estructural de la lengua espanola. Univer-sidad autonoma de Mexico Direccion general de publicaciones, 2001.

[BL04] Michael JA Berry and Gordon S Linoff. Data mining techniques: formarketing, sales, and customer relationship management. John Wiley& Sons, 2004.

[Bro77] Jean-Paul Bronckart. Theories du langage: une introduction critique,volume 70. Editions Mardaga, 1977.

[Bur14] Deyse Sandoval Burrows. Icarito. Portal Educativo Chileno, COPESA,2014.

[CTK96] Karen Calabro, Wendell C Taylor, and Asha Kapadia. Pregnancy, al-cohol use and the effectiveness of written health education materials.Patient Education and Counseling, 29(3):301–309, 1996.

[Cua95] Luis Alberto Hernando Cuadrado. Introduccion a la teorıa y estructuradel lenguaje. Verbum Editorial, 1995.

93

Page 112: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

94 REFERENCIAS

[DSBS+80] Ferdinand De Saussure, Charles Bally, Albert Sechehaye, Albert Ried-linger, Amado Alonso, and Albert Sechehaye. Curso de linguısticageneral. Akal Madrid, 1980.

[Esp52] Real Academia Espanola. Real academia espanola. Perlado, Paez,1952.

[Esp09] Real Academia Espanola. Nueva gramatica de la lengua espanola. Ma-drid. Asociacion de Academias de la Lengua Espanola, 2009.

[Esp10] Real Academia Espanola. Manual de la nueva gramatica de la lenguaespanola. Madrid. Asociacion de Academias de la Lengua Espanola,2010.

[Fou14] Free Software Foundation. Gnu operating system.http://www.gnu.org/copyleft/gpl.html, 2014.

[Fre03] Betina Freidin. El interaccionismo simbolico-perspectiva y metodo.Delito y Sociedad, 1(2), 2003.

[Fue96] Juan Francisco Fuentes. C. baylon & x. mignot (1996): La comunica-cion. Questiones publicitarias: revista internacional de comunicaciony publicidad, (5), 1996.

[Gar10] Marta Rizo Garcıa. Semiotica y comunicologıa: Historias y propuestasde una mirada cientıfica en construccion. Razon y Palabra, 15(72),2010.

[GGC07] Angel Riviere Gomez, Jose Manuel Igoa Gonzalez, and Mercedes Be-linchon Carmona. Psicologıa del lenguaje: investigacion y teorıa.2007.

[Her10] Ivan Rıos Hernandez. El lenguaje: herramienta de reconstruccion delpensamiento. Razon y palabra, 1(72):39–25, 2010.

[HL04] Minqing Hu and Bing Liu. Mining and summarizing customer reviews.In Proceedings of the tenth ACM SIGKDD international conference onKnowledge discovery and data mining, pages 168–177. ACM, 2004.

[HORQFR05] Jose Hernandez Orallo, MJ Ramırez Quintana, and C Ferri Ramırez.Introduccion a la minerıa de datos, 2005.

Page 113: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

REFERENCIAS 95

[KJSY04] Hillol Kargupta, Anupam Joshi, Krishnamoorthy Sivakumar, and Yele-na Yesha. Data mining: Next generation challenges and future direc-tions. Aaai Press, 2004.

[KS06] Moshe Koppel and Jonathan Schler. The importance of neutral exam-ples for learning sentiment. Computational Intelligence, 22(2):100–109, 2006.

[LC57] Robert B Lees and N Chomsky. Syntactic structures. Language, 33(3Part 1):375–408, 1957.

[Lop07] Cesar Perez Lopez. Minerıa de datos: tecnicas y herramientas. Edito-rial Paraninfo, 2007.

[Lur77] A. Luria. Introduccion evolucionista a la psicologıa. 1977.

[MA03] Sushmita Mitra and Tinku Acharya. Data mining: Multimedia. SoftComputing, and Bioinformatics. John Wiley, New York, 2003.

[Mil11] Peter Mills. Efficient statistical classification of satellite measurements.International Journal of Remote Sensing, 32(21):6109–6132, 2011.

[Mor83] G. Moreno. Introduccion a la comunicacion social actual. Espana,1983.

[MR05] Oded Maimon and Lior Rokach. Data mining and knowledge discoveryhandbook, volume 2. Springer, 2005.

[Pad11] Lluıs Padro. Analizadores multilingues en freeling. Linguamatica, 3(2),December 2011.

[Pad15] Lluıs Padro. Freeling. http://nlp.lsi.upc.edu/freeling, 2015.

[PL04] Bo Pang and Lillian Lee. A sentimental education: Sentiment analy-sis using subjectivity summarization based on minimum cuts. In Pro-ceedings of the 42nd annual meeting on Association for Computatio-nal Linguistics, page 271. Association for Computational Linguistics,2004.

[PL05] Bo Pang and Lillian Lee. Seeing stars: Exploiting class relationships forsentiment categorization with respect to rating scales. In Proceedings ofthe 43rd Annual Meeting on Association for Computational Linguistics,pages 115–124. Association for Computational Linguistics, 2005.

Page 114: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

96 REFERENCIAS

[PLV02] Bo Pang, Lillian Lee, and Shivakumar Vaithyanathan. Thumbs up?:sentiment classification using machine learning techniques. In Pro-ceedings of the ACL-02 conference on Empirical methods in naturallanguage processing-Volume 10, pages 79–86. Association for Compu-tational Linguistics, 2002.

[PM02] Geno Pawlak and Parker MacCready. Oscillatory flow across an irregu-lar boundary. Journal of Geophysical Research: Oceans (1978–2012),107(C5), 2002.

[RAE12] RAE. Real academia espanola. http://lema.rae.es/drae/?val=lenguaje,2012.

[Rai03] Alejandro Raiter. Lenguaje y sentido comun: las bases para la forma-cion del discurso dominante. Editorial Biblos, 2003.

[Ram87] Juan Daniel Ramırez. Desarrollo del lenguaje y control de las acciones:En torno a la regulacion verbal. Infancia y aprendizaje, 10(37), 1987.

[Ric96] L. White Richard. Steps in developing a classifier. Methods for Classi-fication, 1996.

[Rod95] Miquel Rodrigo. Los modelos de la comunicacion. Madrid: Tecnos,,1995.

[Rod99] Miquel Rodrigo. La comunicacion intercultural. Barcelona: Anthropos,1999.

[RRG06] Jose C Riquelme, Roberto Ruiz, and Karina Gilbert. Mineria de da-tos: Conceptos y tendencias. Revista Iberoamericana de InteligenciaArtificial, 10(29):11–18, 2006.

[SB07] Benjamin Snyder and Regina Barzilay. Multiple aspect ranking usingthe good grief algorithm. In HLT-NAACL, pages 300–307, 2007.

[TM05] ZhaoHui Tang and Jamine Maclennan. Data mining with SQL Server2005. John Wiley & Sons, 2005.

[Tur02] Peter D Turney. Thumbs up or thumbs down?: semantic orientationapplied to unsupervised classification of reviews. In Proceedings ofthe 40th annual meeting on association for computational linguistics,pages 417–424. Association for Computational Linguistics, 2002.

Page 115: Clasificacion de opiniones en espa´ nol˜ utilizando informacion l´ … LC.pdf · Metodol´ogico Academia de Computacion´ Instituto Politecnico Nacional´ Jurado Dr. Jesus Jaime

REFERENCIAS 97

[VKA95] Lev Semenovich Vygotsky, Alex Kozulin, and Jose Pedro TosausAbadıa. Pensamiento y lenguaje. Paidos Buenos Aires, 1995.

[YK11] S Stanley Young and Alan Karr. Deming, data and observational stu-dies. Significance, 8(3):116–120, 2011.

[YN11] Bartolome Yankovic Nola. Tipos de memoria: sensorial, de corto plazoy de largo plazo, 2011.