Hacia un Lexicon Unificado´ de Sentimientos basado en...

275
UNIVERSIDAD POLIT ´ ECNICA DE MADRID ESCUELA T ´ ECNICA SUPERIOR DE INGENIEROS INFORM ´ ATICOS Hacia un Lexic ´ on Unificado de Sentimientos basado en Unidades de Procesamiento Gr ´ afico Tesis Doctoral Liliana Ibeth Barbosa Santill´ an Noviembre 2015

Transcript of Hacia un Lexicon Unificado´ de Sentimientos basado en...

  • UNIVERSIDAD POLITÉCNICA DEMADRID

    ESCUELA TÉCNICA SUPERIOR DEINGENIEROS INFORMÁTICOS

    Hacia un Lexicón Unificadode Sentimientos basado enUnidades de Procesamiento

    Gráfico

    Tesis Doctoral

    Liliana Ibeth Barbosa SantillánNoviembre 2015

  • Departamento de Matemática Aplicada a lasTecnoloǵıas de la Información y las

    ComunicacionesEscuela Técnica Superior de Ingenieros

    Informáticos

    Hacia un Lexicón Unificado deSentimientos basado en Unidades de

    Procesamiento Gráfico

    Candidata: Liliana Ibeth Barbosa Santillán

    Ingeniero en InformáticaHomologado en España aLicenciada en Ciencias de la Computación

    Director: Inmaculada Álvarez de Mon y Rego

    Doctor en Filoloǵıa InglesaUniversidad Politécnica de Madrid

    Madrid, Noviembre 2015

  • Tribunal nombrado por el Magfco. y Excmo. Sr. Rector de la UniversidadPolitécnica de Madrid, el d́ıa. . . . . . de. . . . . . . . . . . . . . . . . . . . . . . . de 201. . .

    Presidente:

    Vocal:

    Vocal:

    Vocal:

    Secretario:

    Suplente:

    Suplente:

    Realizado el acto de defensa y lectura de la Tesis el d́ıa . . . . . . de. . . . . . . . . . . . . . . . . .de 201. . . en la Escuela Técnica Superior de Ingenieros Informáticos

    EL PRESIDENTE LOS VOCALES

    EL SECRETARIO

  • A mi familia

  • AgradecimientosQuiero dar las gracias especialmente a mi directora de tesis, la Dra.

    Inmaculada Álvarez de Mon y Rego por confiar en mı́ y darme la oportunidadde concluir el proyecto de la tesis. Además de toda su orientación, conocimientos,soporte, paciencia y motivación a lo largo de estos años.

    A la Dra. Guadalupe Aguado por ser una parte fundamental en la gestióndel proyecto. A mis sinodales los doctores: Elena Montiel, Antonio ParejaLora y Socorro Bernardos que han hecho un esfuerzo importante en lasretroalimentaciones y las correcciones al trabajo.

    A la Ing. Aglae Ortiz Fernández que ha hecho posible las gestiones de latesis.

    A mis compañeros de doctorado, especialmente a Edisón Mera.A los grupos de investigación en los que estuve como: Laboratorio

    de computación lógica, lenguajes, implementación y paralelismo CLIP, yOntology Engineering Group (OEG). También, a los proyectos europeos enlos que participé, a los profesores que me orientaron y entrenaron; en especialal Dr. Germán Puebla.

    A mi esposo que me impulsó a desarrollar este proyecto dándome más delo que cualquier persona pudiera pedir.

    A mis padres que han seguido mi carrera y motivado hasta el d́ıa de hoy.Estoy en deuda con el Consejo Nacional de Ciencia y Tecnoloǵıa (México),

    Fundación Carolina y la UPM (España) por ofrecerme el soporte económicopara realizar los estudios doctorales.

    Finalmente, a la empresa NVIDIA en California por donar la infraestructuranecesaria para trabajar con las GPUs aśı como el material para la capacitaciónen el paradigma de programación en cómputo paralelo.

  • SinopsisEsta tesis presenta un modelo, una metodoloǵıa, una arquitectura, varios

    algoritmos y programas para crear un lexicón de sentimientos unificado (LSU)que cubre cuatro lenguas: inglés, español, portugués y chino.

    El objetivo principal es alinear, unificar, y expandir el conjunto delexicones de sentimientos disponibles en Internet y los desarrollados a lolargo de esta investigación.

    Aśı, el principal problema a resolver es la tarea de unificar de formaautomatizada los diferentes lexicones de sentimientos obtenidos por el crawlerCSR, porque la unidad de medida para asignar la intensidad de los valoresde la polaridad (de forma manual, semiautomática y automática) vaŕıa deacuerdo con las diferentes metodoloǵıas utilizadas para la construcción decada lexicón.

    La representación codificada de la estructura de datos de los términospresenta también una variación en la estructura de lexicón a lexicón. Por loque al unificar en un lexicón de sentimientos se hace posible la reutilizacióndel conocimiento recopilado por los diferentes grupos de investigación y seincrementa, a la vez, el alcance, la calidad y la robustez de los lexicones.

    Nuestra metodoloǵıa LSU calcula un valor unificado de la intensidad dela polaridad para cada entrada léxica que está presente en al menos dos delos lexicones de sentimientos que forman parte de este estudio. En contraste,las entradas léxicas que no son comunes en al menos dos de los lexiconesconservan su valor original.

    El coeficiente de Pearson resultante permite medir la correlación existenteentre las entradas léxicas asignándoles un rango de valores de uno a menosuno, donde uno indica que los valores de los términos están perfectamentecorrelacionados, cero indica que no existe correlación y menos uno significaque están inversamente correlacionados.

    Este procedimiento se lleva acabo con la función de MetricasUnificadastanto en la CPU como en la GPU.

    Otro problema a resolver es el tiempo de procesamiento que se requierepara realizar la tarea de unificación de la intensidad de la polaridad y conello alcanzar una cobertura mayor de lemas en los lexicones de sentimientos

  • existentes.Asimismo, la metodoloǵıa LSU utiliza el procesamiento paralelo para

    unificar los 155 802 términos.El algoritmo LSU procesa mediante cargas iguales el subconjunto de

    entradas léxicas en cada uno de los 1344 núcleos en la GPU.Los resultados de nuestro análisis arrojaron un total de 95 430 entradas

    léxicas donde 35 201 obtuvieron valores positivos, 22 029 negativos y 38 200neutrales.

    Finalmente, el tiempo de ejecución fue de 2,506 segundos para el totalde las entradas léxicas, lo que permitió reducir el procesamiento de cómputohasta en una tercera parte con respecto al algoritmo secuencial.

    De estos resultados se concluye que al lograr un lexicón de sentimientosunificado que permite homogeneizar la intensidad de la polaridad de lasunidades léxicas (con valores positivos, negativos y neutrales) deriva no sóloen el análisis semántico del corpus basado en los términos con una mayorcarga de polaridad, o del resumen de las valoraciones o las tendencias deneuromarketing, sino también en aplicaciones como el etiquetado subjetivode sitios web o de portales sintácticos y semánticos, por mencionar algunas.

  • Abstract

    This thesis presents an approach to create what we have called a UnifiedSentiment Lexicon (USL). This approach aims at aligning, unifying, andexpanding the set of sentiment lexicons which are available on the web inorder to increase their robustness of coverage.

    One problem related to the task of the automatic unification of differentscores of sentiment lexicons is that there are multiple lexical entries for whichthe classification of positive, negative, or neutral P, N, Z depends on the unitof measurement used in the annotation methodology of the source sentimentlexicon. Our USL approach computes the unified strength of polarity of eachlexical entry based on the Pearson correlation coefficient which measures howcorrelated lexical entries are with a value between 1 and -1, where 1 indicatesthat the lexical entries are perfectly correlated, 0 indicates no correlation, and-1 means they are perfectly inversely correlated and so is the UnifiedMetricsprocedure for CPU and GPU, respectively.

    Another problem is the high processing time required for computing allthe lexical entries in the unification task. Thus, the USL approach computesa subset of lexical entries in each of the 1344 GPU cores and uses parallelprocessing in order to unify 155,802 lexical entries. The results of the analysisconducted using the USL approach show that the USL has 95,430 lexicalentries, out of which there are 35,201 considered to be positive, 22,029negative, and 38,200 neutral. Finally, the runtime was 2.505 seconds for95,430 lexical entries; this allows a reduction of the time computing for theUnifiedMetrics by 3 times with respect to the sequential implementation.

    A key contribution of this work is that we preserve the use of a unifiedsentiment lexicon for all tasks. Such lexicon is used to define resources andresource-related properties that can be verified based on the results of theanalysis and is powerful, general and extensible enough to express a largeclass of interesting properties.

    Some applications of this work include merging, aligning, pruning andextending the current sentiment lexicons.

  • Índice general

    Abstract I

    I Contexto de la investigación 5

    1. Introducción 71.1. Contexto de la investigación . . . . . . . . . . . . . . . . . . . 10

    1.1.1. Definición del problema . . . . . . . . . . . . . . . . . 111.1.2. Objetivos de la investigación . . . . . . . . . . . . . . . 12

    1.2. Metodoloǵıa . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131.3. Contribuciones principales . . . . . . . . . . . . . . . . . . . . 151.4. Estructura del documento . . . . . . . . . . . . . . . . . . . . 16

    2. Estado del arte 172.1. Lexicones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

    2.1.1. Teoŕıa de la valoración . . . . . . . . . . . . . . . . . . 272.1.2. Actividades para construir lexicones . . . . . . . . . . . 302.1.3. Actividades para transformar lexicones . . . . . . . . . 352.1.4. Actividades para incorporar lexicones a los sistemas

    informáticos . . . . . . . . . . . . . . . . . . . . . . . . 382.1.5. Metodoloǵıa para construir lexicones de sentimientos . 40

    2.2. Tipos de lexicones . . . . . . . . . . . . . . . . . . . . . . . . . 412.2.1. Lexicones de sentimientos . . . . . . . . . . . . . . . . 412.2.2. Lexicones de sentimientos disponibles en la web . . . . 422.2.3. Lexicones generativos . . . . . . . . . . . . . . . . . . . 43

    iii

  • 2.3. Adquisición de diferentes lexicones de sentimientos disponiblesen la Web . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 442.3.1. Crawlers enfocados . . . . . . . . . . . . . . . . . . . . 442.3.2. Lexicón de sentimientos de Bing Liu . . . . . . . . . . 482.3.3. Lexicón de sentimientos de Wilson . . . . . . . . . . . 502.3.4. Lexicón de sentimientos de Wei . . . . . . . . . . . . . 512.3.5. Lexicón de sentimientos de Esuli . . . . . . . . . . . . 52

    2.4. Procesamiento paralelo . . . . . . . . . . . . . . . . . . . . . . 542.5. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

    II Lexicón de Sentimientos Unificado (LSU) 59

    3. Extracción del conocimiento subjetivo de diferentes fuentes 613.1. Extracción del conocimiento de texto . . . . . . . . . . . . . . 62

    3.1.1. Arquitectura para el etiquetado de texto (blogs deviajes) basado en la subjetividad (FATS) . . . . . . . . 64

    3.1.2. Patrones generales del lenguaje . . . . . . . . . . . . . 663.1.3. Patrones centrados en adjetivos . . . . . . . . . . . . . 713.1.4. Patrones centrados en verbos . . . . . . . . . . . . . . 72

    3.2. Adquisición de los recursos de la web . . . . . . . . . . . . . . 723.2.1. Arquitectura del crawler enfocado para adquirir los

    recursos semánticos de la web (CRS) . . . . . . . . . . 743.2.2. Experimentos y resultados . . . . . . . . . . . . . . . . 773.2.3. Conclusión . . . . . . . . . . . . . . . . . . . . . . . . . 83

    3.3. Adquisición de los recursos que contienen subjetividad . . . . 843.4. Extensión de los recursos con los lexicones de sentimientos

    desarrollados . . . . . . . . . . . . . . . . . . . . . . . . . . . 863.4.1. Lexicón de sentimientos STSL . . . . . . . . . . . . . . 873.4.2. Lexicón de sentimientos panamericano . . . . . . . . . 102

    3.5. Cuadro con siete caracteŕısticas de los lexicones de sentimientos120

    4. Metodoloǵıa para la unificación del valor de los términos deLSU 1234.1. Función MotorCrawlerEnfocado . . . . . . . . . . . . . . . . . 125

    iv

  • 4.2. Función SelectorLenguajes . . . . . . . . . . . . . . . . . . . . 1304.3. Función BuscadorValores . . . . . . . . . . . . . . . . . . . . . 1304.4. Función TransformadorValores . . . . . . . . . . . . . . . . . . 1304.5. Función InterseccionTerminos . . . . . . . . . . . . . . . . . . 1324.6. Función ReductorEntradasLexicas . . . . . . . . . . . . . . . . 1334.7. Función DivisorEntradasLexicas . . . . . . . . . . . . . . . . . 1334.8. Función MetricasUnificadas . . . . . . . . . . . . . . . . . . . 1334.9. Función MotorUnionLexiconSentimientos . . . . . . . . . . . 1344.10. Programa ConvertidorLSUOntoloǵıa . . . . . . . . . . . . . . 1344.11. Algoritmo que implementa la metodoloǵıa LSU . . . . . . . . 134

    4.11.1. Instrucciones del programa LSU que son ejecutadas enla CPU . . . . . . . . . . . . . . . . . . . . . . . . . . 135

    4.11.2. Instrucciones del programa que se ejecuta en la GPU . 136

    5. Detalles experimentales de la metodoloǵıa LSU 1415.1. Rendimiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1535.2. El procesamiento de las instrucciones en cada GPU . . . . . . 1555.3. Métricas del algoritmo de UnificarValores . . . . . . . . . . . . 1565.4. Operación para calcular el valor para cada entrada léxica . . . 1565.5. Suma de la subjetividad . . . . . . . . . . . . . . . . . . . . . 1625.6. Normalización del valor de la unificación para LSU . . . . . . 170

    6. Conclusiones y trabajos futuros 177Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190

    v

  • vi

  • Índice de figuras

    2.1. Número de patentes concedidas relacionadas conel análisis de sentimientos de algunas empresascomo Microsoft, que se coloca a la punta contrescientos catorce, en contraste con Fantab conuna . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

    2.2. Una parte del lexicón de sentimientos de Wei. . . . 522.3. los conceptos de los trabajos relacionados con

    las actividades principales de los algoritmos queestudian los lexicones. . . . . . . . . . . . . . . . . . . . 57

    3.1. Arquitectura para el etiquetado de texto (blogs deviajes) basada en la dimensión de la subjetividad(FATS). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

    3.2. La estructura de un blog. . . . . . . . . . . . . . . . . . 663.3. Los ocho patrones generales del lenguaje utilizados

    en el método FATS. . . . . . . . . . . . . . . . . . . . . . 673.4. Precisión y cobertura del método FATS para los

    elementos subjetivos. . . . . . . . . . . . . . . . . . . . . 713.5. Arquitectura del crawler CSR. . . . . . . . . . . . . . 753.6. Estructura de los datos semánticos de CSR. . . . . . 783.7. Las oraciones +, las palabras y los términos se

    presentan de acuerdo con su incidencia en losdistintos páıses. . . . . . . . . . . . . . . . . . . . . . . . . 96

    3.8. Las categoŕıas resultantes de la evaluación detodos los blogs. . . . . . . . . . . . . . . . . . . . . . . . . . 97

    3.9. Los adjetivos que aparecen más veces. . . . . . . . . . 98

    vii

  • 3.10. Los sustantivos que aparecen más veces. . . . . . . . . 993.11. Los verbos que aparecen más veces. . . . . . . . . . . . 993.12. La valoración de toda la colección de acuerdo con

    su polaridad y páıs. . . . . . . . . . . . . . . . . . . . . . . 1003.13. El algoritmo del método propuesto en los juegos

    panamericanos. . . . . . . . . . . . . . . . . . . . . . . . . . 1113.14. El número de los términos, los tokens, los unigramas,

    los bigramas, los trigramas basados en la identificaciónde 5600 mensajes. . . . . . . . . . . . . . . . . . . . . . . . 115

    3.15. Medallas ganadas en los juegos Pan Americanos2011 y los resultados del programa por cada páıs. . 118

    3.16. El coeficiente de correlación es igual a 0,74 loque indica una fuerte relación entre las medallasganadas y la polaridad encontrada en los mensajes. 118

    3.17. Polaridad de seis recursos de Internet para 30 páıses.122

    4.1. La arquitectura de la metodoloǵıa LSU. . . . . . . . 1264.2. Los puntos de inflexión de los valores lingǘısticos. 1314.3. El algoritmo principal de la metodoloǵıa LSU . . . 1394.4. Algunos de los procedimientos de la metodoloǵıa

    LSU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140

    5.1. Estructuras de datos y los datos de entrada alprograma de la arquitectura LSU . . . . . . . . . . . . 143

    5.2. Arquitectura de la metodoloǵıa LSU en la CPU yGPU. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144

    5.3. Porcentaje de entradas léxicas con respecto acada lexicón de sentimientos . . . . . . . . . . . . . . . 145

    5.4. Número de entradas léxicas por categoŕıa de lapolaridad para todos los lexicones de sentimientos 146

    5.5. La ganancia en diferentes escalas de las entradasléxicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154

    5.6. La proporción entre la pérdida del paralelismo . . 1575.7. El tamaño del bloque del kernel agrupado por

    variables. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158

    viii

  • 5.8. Los hilos por bloque. . . . . . . . . . . . . . . . . . . . . 1595.9. Los registros por hilo. . . . . . . . . . . . . . . . . . . . 1605.10. El taman̈o de la memoria compartida por bloque en

    bytes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1605.11. El nivel de utilización de las cuatro variables:

    carga o almacenamiento, operaciones aritméticas,flujo de control y la memoria de tipo textura. . . . 161

    5.12. El ancho de la memoria y su utilización para lassiguientes memorias: compartida, de cache, del dispositivoy del sistema. . . . . . . . . . . . . . . . . . . . . . . . . . 162

    5.13. El rendimiento del kernel con respecto a la relaciónentre el proceso de cómputo y el ancho de bandade la memoria. . . . . . . . . . . . . . . . . . . . . . . . . . 163

    5.14. Dependencia en la ejecución de las instrucciones. . 1645.15. El porcentaje de ocupación por Streaming Multiprocessor

    (SM). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1655.16. Los hilos por bloque. . . . . . . . . . . . . . . . . . . . . 1665.17. El número de registros por hilo. . . . . . . . . . . . . . 1675.18. El tamaño de la memoria compartida por bloque. . . 1675.19. El nivel de utilización de las operaciones aritméticas.1685.20. Las transacciones y el ancho de banda de la memoria

    para la operación de suma de la subjetividad. . . . . 1695.21. El nivel de utilización de cómputo y el balance de

    la carga de la memoria. . . . . . . . . . . . . . . . . . . 1715.22. Los ĺımites del dispositivo en sus diferentes dimensiones.1725.23. La variación del tamaño del bloque. . . . . . . . . . . 1735.24. El comportamiento de la variación de los registros

    por hilo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1745.25. La variación de la utilización de la memoria compartida.1745.26. La proporción de la dependencia con la ejecución

    de las instrucciones. . . . . . . . . . . . . . . . . . . . . . 1755.27. El nivel de utilización de las variables: memoria,

    operaciones artimeticas, y flujo de control. . . . . . 1755.28. El número de transacciones y el ancho de la memoria.176

    ix

  • x

  • Índice de cuadros

    3.1. Algunos de los diferentes etiquetados subjetivosrealizados por FATS de los ocho experimentos. . . . 69

    3.2. Los resultados de una colección de 180 oracionesen el proceso de etiquetado subjetivo. . . . . . . . . . 70

    3.3. Configuración de las variables del crawler CSR. . 793.4. Número de archivos después de realizar el proceso

    de extracción de los datos en la primera ejecuciónde CSR con un tiempo de 22,5 horas. . . . . . . . . . . 80

    3.5. Datos en MegaBytes después de realizar el procesode extracción de los datos en la segunda ejecuciónde CSR con un tiempo de 22,5 horas. . . . . . . . . . . 80

    3.6. Número de archivos del archivo normalizado enla segunda ejecución de CSR donde el tiempo deextracción de los datos fue de 162,51 horas. . . . . . 82

    3.7. Datos en MegaBytes del archivo normalizado enla segunda ejecución de CSR donde el tiempo deextracción de los datos fue de 162,51 horas. . . . . . 83

    3.8. Número de palabras, elementos de la valoración ytérminos por páıs . . . . . . . . . . . . . . . . . . . . . . . 95

    3.9. Elementos de valoración impĺıcitos y expĺıcitos . . 983.10. Los adverbios más usados. . . . . . . . . . . . . . . . . . 1003.11. Métricas de la ontoloǵıa OLM . . . . . . . . . . . . . . 1143.12. una vista parcial de la salida del programa en la

    función mineŕıa de opiniones . . . . . . . . . . . . . . . . 1153.13. Precisión detallada del componente mineŕıa de datos1163.14. Métricas del proceso de śıntesis . . . . . . . . . . . . . 117

    xi

  • 3.15. Identificador para cada páıs . . . . . . . . . . . . . . . . 1193.16. Cuatro lexicones de Sentimientos que están disponibles

    en la web y avalados por universidades. Dos lexiconesdesarrollados por el grupo de investigación ComunicaciónEspecializada en Múltiples Dominios . . . . . . . . . . 121

    4.1. Los puntos angulares desde no subjetivo hasta fuertementesubjetivo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131

    4.2. El proceso de calcular el valor de la intensidadde la polaridad de cada lema en LSU . . . . . . . . . . 138

    5.1. Una vista parcial de la fuerza de la polaridad parael Cluster en Inglés . . . . . . . . . . . . . . . . . . . . . 148

    5.2. Una vista parcial del valor de la polaridad calculadopor LSU para la agrupación en Español . . . . . . . . 149

    5.3. Una vista parcial del valor de la polaridad calculadopor LSU para la agrupación en el idioma Chino . . . 150

    5.4. Valor de la polaridad para cada entrada léxica enel Cuadro 5.1 para los lexicones de sentimientosunificados, SentiWordNet, PanAmerican, MPQA. . . 152

    6.1. Contribuciones internacionales producidas en lainvestigación . . . . . . . . . . . . . . . . . . . . . . . . . . 184

    2. abundante . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2133. acertado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2134. acogedor . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2135. activo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2136. adornado . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2147. afortunado . . . . . . . . . . . . . . . . . . . . . . . . . . . 2148. aliviado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2149. admirable . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21510. alucinante . . . . . . . . . . . . . . . . . . . . . . . . . . . 21511. amenizado . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21512. amistoso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21613. animado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 216

    xii

  • 14. apreciado . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21615. asequible . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21716. asombrado . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21717. cariñoso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21718. bucólico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21819. celestial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21820. engorroso . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21921. espeluznante . . . . . . . . . . . . . . . . . . . . . . . . . . 21922. exhausto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21923. fantasmagórico . . . . . . . . . . . . . . . . . . . . . . . . 22024. flojo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22025. fraudulento . . . . . . . . . . . . . . . . . . . . . . . . . . 22026. impersonal . . . . . . . . . . . . . . . . . . . . . . . . . . . 22027. insoportable . . . . . . . . . . . . . . . . . . . . . . . . . . 22128. inhóspito . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22129. injusto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22130. interminable . . . . . . . . . . . . . . . . . . . . . . . . . . 22131. lamentable . . . . . . . . . . . . . . . . . . . . . . . . . . . 22232. lúgubre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22233. mafioso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22234. miserable . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22335. nauseabundo . . . . . . . . . . . . . . . . . . . . . . . . . . 22336. armonizar . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22437. acomodar . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22438. admirar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22439. adornar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22540. agradar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22541. agradecer . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22542. aliviar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22543. alucinar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22644. anhelar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22645. animar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22646. amar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22647. aprovechar . . . . . . . . . . . . . . . . . . . . . . . . . . . 227

    xiii

  • 48. calmar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22749. cautivar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22750. ganar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22751. abrumar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22852. acusar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22853. agobiar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22854. ahogar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22955. asaltar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22956. asesinar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22957. atacar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22958. cabrear . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23059. decepcionar . . . . . . . . . . . . . . . . . . . . . . . . . . . 23060. descuidar . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23061. desilusionar . . . . . . . . . . . . . . . . . . . . . . . . . . . 23062. divagar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23163. fracasar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23164. malograr . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23165. ofender . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232

    xiv

  • Acrónimos

    A Atributos

    AdN Adverbio Negativo

    AdP Adverbio Positivo

    AIFB Instituto Tecnológico de Karlsruhe

    AN Adjetivo Negativo

    AP Adjetivo Positivo

    API La interfaz de programación de aplicaciones

    C Celsius

    C Conceptos

    C1 Cluster

    CPU Unidad Central de Procesamiento

    CSR A Focused Crawler in order to Get Semantic Web Resources

    CUDA Compute Unified Device Architecture

    CV Curriculum Vitae

    d Sección

    FATS Arquitectura para el etiquetado de texto (blogs de viajes) basada enla dimensión de la subjetividad (A Framework for Annotation ofTravel Blogs Based on Subjectivity)

    FN Falsos Negativos

    FP Falsos Positivos

    FPRate Rate of False Positives

    GPU Unidad de Procesamiento Gráfico

    1

  • H1 Hipṕtesis 1

    HS1 Hipótesis de sección 1

    HTML Lenguaje de Marcas de Hipertexto

    IPC CUDA Interprocess Communication

    K20 Kepler20

    KB KiloBytes

    Kepler Es el nombre de la microarquitectura de la GPU desarrollada porNvidia

    LS Lexicón de Sentimientos

    LSU Lexicón de Sentimientos Unificado

    MB MegaBytes

    MHz MegaHertz

    N-Quads N-Quads is a line-based, plain text format for encoding an RDFdataset

    N Negativa

    na Adjetivo

    nc Sustantivo Complemento

    NN Sustantivo Negativo

    NP Sustantivo Positivo

    NTUSD El diccionario de sentimientos de la universidad nacional deTaiwán

    NVIDIA American worldwide technology company

    OWL Web Ontology Languag

    2

  • P Positiva

    p Preposición

    PCI Peripheral Component Interconnect

    R Relaciones

    RAM Random-access memory

    RDF El Marco de Descripción de Recursos

    RW Retrieved Words

    S Sujeto

    SFU Unidad de Función Especial

    SMX Next Generation Streaming Multiprocessor

    SP Procesador de Streaming

    STSL The Spanish Travel Subjective Lexicon

    TESLA Es una arquitectura de la GPU desarrollada por Nvidia.

    TFLOP Tera FLoating-point Operations Per Second

    TN Verdaderos Negativos

    TP Verdaderos Positivos

    URL Unified Resource Location

    vc Verbo Complemento

    VN Verbo Negativo

    VP Verbo Positivo

    VSM Vector Space Model

    Warp Es el número de hilos ejecutandose concurrentemente en un MP

    3

  • Web World Wide Web

    XML Lenguaje de Marcas Extensible

    Z Neutral

    4

  • Parte I

    Contexto de la investigación

    5

  • Caṕıtulo 1

    Introducción

    El lenguaje ha sido el medio de comunicación preferido para expresarhechos, afirmaciones y opiniones. Internet ha facilitado la conexión depersonas, reduciendo las barreras establecidas por la ubicación, el lenguaje,las costumbres, el contexto y la cultura. Hoy en d́ıa los productores decontenidos expresan sus pensamientos mediante dispositivos electrónicos enblogs, páginas web, portales, redes sociales, correos electrónicos, mensajeŕıainstantánea, entre otros.

    Se ha creado aśı un nuevo espacio de comunicación digital en el quees imposible distinguir la ubicación de los hablantes a no ser que se utilicensistemas de posicionamiento global (GPS). También hay una migración globalen crecimiento y con ella la mezcla de lenguas.

    La relevancia multilingüe se presenta en dos ámbitos: (a) el americanoy (b) el europeo. En el ámbito americano, la dimensión de multilingüalidadse presenta también en la vida familiar donde los padres tienen diferentesidiomas de origen, utilizan un idioma común para la casa y sus descendientesviven en un páıs donde se habla otro idioma. Los niños de estas familias enpromedio intercambian diariamente cuatro idiomas de forma simultánea, sincontar los idiomas adicionales que aprenden en la escuela. Por ejemplo, deacuerdo con el censo de Estados Unidos (census.gov, 2013), en el año 2007el porcentaje de individuos de cinco o más años que hablaban inglés en casafue del 80,3 % y aquellos que utilizaban otro idioma además del inglés fuedel 19,7 %, entre ellos español, que abarca el 62,3 %, seguido por idiomas

    7

  • CAPÍTULO 1. INTRODUCCIÓN

    asiáticos con el 5,0 %.En la Europa plurilingüe la dimensión de multilingüalidad se presenta

    en el entorno comercial. En particular, existen más de 500 millones deciudadanos con 23 idiomas oficiales donde las soluciones humanas y tecnológicaspara los diferentes idiomas son importantes. Las compañ́ıas multilingüestienen una ventaja competitiva en el desarrollo y la venta de sus productoso servicios. La traducción, el aprendizaje de un idioma, la interpretación, elsubtitulado y el doblaje, la localización, y la organización de conferenciasmultilingües están siendo las ĺıneas estratégicas de las compañ́ıas.

    Por otro lado, el desarrollo de herramientas tecnológicas como la traducciónautomática, los verificadores de estilo, los motores de búsqueda multilingüesy las herramientas colaborativas están en fase de investigación y desarrollocontinuo. Sin embargo, las necesidades multilingües identificadas por lascompañ́ıas han ido creciendo. Por ejemplo, la movilidad del personal quehable otro idioma, la utilización de otros idiomas en el área de negocios,las soluciones para desarrollar las habilidades de los idiomas, la relación queexiste entre multilingüismo y creatividad, la implementación de la traducciónautomática, y la evaluación continua de las habilidades multilingües delpersonal.

    En este sentido la buenas prácticas (Europa, 2011) de los negociosmultilingües buscan (a) reclutar a personal multilingüe, (b) realizar juntasmultilingües, (c) documentar en varios idiomas, (d) usar los recursos dellenguaje y la terminoloǵıa multilingüe, (e) entrenar y aprender el lenguajecorporativo en varios idiomas, (f) delegar los servicios de interpretación ytraducción, (g) tener Internet e intranet con contenidos multilingües, (h)traducir mediante las herramientas semiautomáticas, (i) comunicar de formamultilingüe los contenidos en video o televisión por Internet, e (j) integrarlos dispositivos y las herramientas multilingües.

    Además, la economı́a global reclama que las aplicaciones digitales seanmultilingües. El comercio electrónico, el entretenimiento en ĺınea, las redessociales incluyendo las empresas sociales, la publicidad digital, el Internet delas cosas, el almacenamiento en la nube, entre otras contienen la dimensiónde multilingüalidad.

    Por esta razón, el tener un lexico que utilizen los sistemas multilingües

    8

  • permitirá conocer la opinión de los ciudadanos y su sentimientos. Lasempresas, los investigadores, el gobierno y los servicios de inteligenciaconsideran que los datos subjetivos deben ser monitorizados y analizados.Sin embargo, descubrir el sentimiento de la web es una tarea compleja porla imprecisión de los métodos existentes y la exigencia de calidad continua.

    Algunos esfuerzos están centrados en los algoritmos de aprendizajeautomático han obtenido resultados con una precisión del 50 % en laclasificación de sentimientos en dominios especializados mediante la utilizaciónde corpus controlados. La mayoŕıa de los estudios que analizamos (vercaṕıtulo 2) han utilizado técnicas de agrupaciones y análisis estad́ısticos conel objetivo de clasificar oraciones, párrafos y documentos según el estado dela técnica.

    Además de incorporar diferentes métricas y perfiles de usuarios para laevaluación colaborativa de servicios. En resumen, el interés particular estáen entender el pensamiento de una sociedad universal. En este contexto,los recursos lingǘısticos estructurados son de suma importancia y deben seravalados por un grupo experto de lingüistas que trabajen a una escala global.

    Un lexicón, “es una lista de términos en un lenguaje con conocimientode cómo puede ser utilizado” de acuerdo a Budanitsky y Hirst (2006).En está investigación los lexicones de sentimientos son recursos lingǘısticosatómicos que contienen lemas, una carga de su polaridad y la instensidadde ella. Además, son necesarios para procesar la información porque estosson utilizados para entrenar a los sistemas con datos subjetivos y entonceses posible procesar la información automáticamente.

    No obstante, la explosión de información que Internet y la web hanpermitido están haciendo insuficientes los lexicones de sentimientos disponiblesporque éstas son heterogéneas, multilingües y dinámicas. Aunque existeniniciativas para crear lexicones de sentimientos automáticamente, estos debenser mejorados principalmente en las tareas de verificación de la calidad de lapolaridad e intensidad de sus lemas.

    Esta investigación se centra en los cuatro idiomas con mayor número dehablantes (Lewis, Gary, y Charles, 2013): chino con 1.197 millones, españolcon 406 millones, inglés con 335 millones y portugués con 202 millones.

    Cada uno de estos idiomas contiene 15.000.000, 350.000, 88.000 y 100.000

    9

  • CAPÍTULO 1. INTRODUCCIÓN

    voces respectivamente, de acuerdo a los diccionarios: Cambridge, RealAcademia Española, Oxford y Grande Dicionario Houaiss da Ĺıngua Portuguesa,según las versiones del año 2013.

    Introduciremos los conceptos de: (1) lexicón de sentimientos, (2) polaridad,e (3) intesidad.

    1. El lexicón de sentimientos se entiende en términos generales como unalista de lemas finita de formas almacenadas y las posibilidades paracombinarlas con su polaridad y valor de la intensidad.

    2. La polaridad es el término utilizado para referirse al valor positivoo negativo de una expresión lingǘıstica. Tienen polaridad positivaexpresiones como “viaje magńıfico”, “libro entretenido” o “investigacióninnovadora”.

    3. La intensidad es un valor que identifica si la polaridad es fuerte o débil.

    Pretender construir un lexicón de sentimientos multilingüe robusto al100 % seŕıa una tarea titánica. Sin embargo, en nuestra investigación nosproponemos incrementar automáticamente su cobertura y precisión consiguiendouna mejora notable de la calidad, el tiempo de procesamiento y la reutilizaciónde los recursos existentes.

    Otro cambio importante tiene que ver con la representación del conocimientomediante la codificación léxica. En este sentido los investigadores estánproponiendo nuevos modelos (ver caṕıtulo 2). Sin embargo, la variedad deestructuras de datos usadas para su representación dificulta la reutilizaciónde los recursos y por consiguiente existe un problema de interoperabilidadpara estos sistemas.

    1.1. Contexto de la investigación

    En este apartado empezaremos con la definición del problema, laspreguntas de investigación y las hipótesis. Después, el objetivo y las variablesde investigación.

    10

  • 1.1. CONTEXTO DE LA INVESTIGACIÓN

    1.1.1. Definición del problema

    La calidad de los lexicones en general y de los lexicones de sentimientosen particular tiene importancia entre otras cosas para su reutilización enel procesamiento automático del lenguaje natural. Cada vez existen máslexicones de sentimientos disponibles en la web que definen sus propiasvaloraciones de la polaridad por lo que es más dif́ıcil que el algoritmo delcrawler CRS por śı solo decida cuál de todos los lexicones de sentimientosutilizar. La falta de interoperabilidad entre los lexicones y los criterios deselección, como son la cobertura, la calidad y el tiempo de ejecución conun rendimiento aceptable, hacen que sea impreciso el proceso de análisis desentimientos y que disminuya la reutilización. La dificutlad de la integraciónradica en la asignación de un valor único para los términos comunes de loslexicones integrados, ya que cada lexicón puede asignar un valor de polaridaddistinto, aśı como un valor de intensidad de dicha polaridad también distinto,y que, adicionalmente, algunos lexicones se encuentran en distintos idiomas.

    La evaluación de los recursos léxicos, especialmente aquellos semánticamenteanotados, consume tiempo y requiere mucho esfuerzo.

    Por ello, nuestras preguntas de investigación son:

    P1 ¿Es posible unificar y alinear los lexicones de sentimientos disponiblesen la web, automáticamente?

    P2 ¿Es posible transformar el Lexicón de Sentimientos Unificado en unaontoloǵıa para facilitar la interoperabilidad?

    El conjunto de hipótesis que abarca las principales caracteŕısticas denuestra investigación se citan a continuación:

    H1 La unificación de los lexicones de sentimientos permite crear un recursolingǘıstico robusto.

    H2 Dados diferentes valores de la intensidad de la polaridad de una mismaentrada léxica provenientes de distintos lexicones, es posible calcularun valor unificado.

    11

  • CAPÍTULO 1. INTRODUCCIÓN

    H3 El uso de la unidad de procesamiento gráfica (GPU) en el proceso deunificación para cada una de las entradas léxicas involucra la utilizaciónde memoria global y local, lo que permite una reducción de acceso aldisco duro e incrementa la velocidad de procesamiento.

    H4 La interoperabilidad del lexicón de sentimientos unificado se logra conuna ontoloǵıa de dominio.

    1.1.2. Objetivos de la investigación

    El principal objetivo de esta investigación es el desarrollo de un modeloque permita unificar el valor de la intensidad de la polaridad para los lexiconesde sentimientos mediante pruebas individuales de los componentes, validacióndinámica y verificación estática; y aśı lograr la aceleración del tiempo deprocesamiento. Con el fin de cumplir nuestro objetivo, esta investigaciónproporcionará soluciones a los desaf́ıos mencionados, centrándose en lassiguientes tareas:

    1. Definir el análisis estático de los recursos léxicos. Dicho análisis debeadaptarse a una variedad de recursos entre los que se incluyen loselaborados por otros grupos de investigación.

    2. Definir un programa que implemente el modelo de unificación cuidandola aceleración del tiempo de ejecución.

    3. Unificar los lexicones de sentimientos existentes mediante la selecciónde los términos léxicos comunes a todos los lexicones.

    4. Desarrollar un marco de trabajo para la aceleración dinámica deltiempo de ejecución del número de unidades léxicas unificadas calculadaspor segundo.

    5. Utilizar un cómputo paralelo para almacenar y recuperar las unidadesléxicas y expresar sus propiedades relacionadas.

    6. Implementar e integrar las técnicas propuestas para el análisis subjetivoen un entorno de desarrollo llamado LSU (Lexicón de SentimientosUnificado) con el objetivo de evaluar su viabilidad y practicidad.

    12

  • 1.2. METODOLOGÍA

    7. Disminuir el número de accesos del programa al disco duro en dondeestán los términos de los lexicones de sentimientos.

    8. Integrar un conjunto de pruebas individuales y globales para la validaciónde la unificación del lexicón de sentimientos mediante una metodoloǵıah́ıbrida que incluya la experimentación automática, semiautomática ymanual.

    9. Transformar el Lexicón de Sentimientos Unificado a una ontoloǵıa.

    Variables de investigación

    Nuestra investigación se centra en tres variables: la cobertura y la calidaddel lexicón de sentimientos, además del tiempo de ejecución del programa queconstruye el LSU.

    A continuación explicaremos qué significan estos términos en el contextode esta tesis doctoral.

    1. Cobertura del Lexicón de Sentimientos UnificadoEs el número de términos léxicos resultado de la intersección condos o más lexicones de sentimientos que permite tener un alcanceproporcional a la dimensión del lexicón resultante.

    2. Calidad del Lexicón de Sentimientos UnificadoSi la valoración de la intensidad de la polaridad de los términos de loslexicones de sentimientos no es correcto, no se puede garantizar que losresultados que se deriven de su utilización lo sean.

    3. Tiempo de ejecución del programa que unifica los términos enel Lexicón de Sentimientos UnificadoEl tiempo de procesamiento para la unificación de términos es deseableque sea lo más cercano posible al tiempo real.

    1.2. Metodoloǵıa

    En el caso en que una unidad léxica (lema) se encuentre en varios lexiconesde sentimientos y con diferentes evaluaciones de la intensidad de la polaridad,

    13

  • CAPÍTULO 1. INTRODUCCIÓN

    se realiza la unificación.Por otro lado, realizar un análisis manual para la verificación de las

    evaluaciones de la polaridad de cada una de las entradas léxicas no es factible,pues el número de elementos léxicos es del orden de 9.08E+009.

    Sin embargo, el problema de unificar el valor de la polaridad es principalmenteun problema de capacidad de procesamiento por el número de términos delos lexicones de sentimientos.

    Por lo tanto, nos enfrentamos a un problema de procesamiento donde loscálculos necesarios son enormes.

    Además existen recursos elaborados por otros grupos, por ello, nosotroshemos tratado de utilizar la mayoŕıa del trabajo realizado anteriormente ennuestro esfuerzo de construir un Lexicón de Sentimientos Unificado.

    Los Lexicones de Sentimientos que nuestra investigación ha reutilizadoson:

    LS1 SentiWordNet desarrollado por el Istituto di Scienza e Tecnologie dell′

    Informazione (Baccianella, Esuli, y Sebastiani, 2010).

    LS2 Lexicón de Sentimientos de Bing Liu desarrollado por la Universidadde Illinois (Bing, Minquin, y Junsheng, 2005).

    LS3 El Lexicón MPQA desarrollado por la Universidad de Pittsburgh(Wilson, Wiebe, y Hoffmann, 2005).

    LS4 El diccionario de sentimientos NTU (NTUSD) desarrollado por elInstituto de Ciencias de la Información de Taiwán (Lun-Wei y Hsin-Hsi,2007).

    LS5 El lexicón de Sentimientos Panamericano desarrollado por la UniversidadPolitécnica de Madrid (Barbosa Santillán y Álvarez de Mon y Rego,2013a).

    LS6 Lexicón Subjetivo de Español en el dominio de Viajes (STSL) desarrolladopor la Universidad Politécnica de Madrid (Barbosa Santillán y Álvarezde Mon y Rego, 2013b).

    14

  • 1.3. CONTRIBUCIONES PRINCIPALES

    1.3. Contribuciones principales

    Las principales contribuciones de esta investigación son:

    C1 Los lexicones de sentimientos del conjunto {LS1...LS6} han sido unificadosautomáticamente.

    C2 El Lexicón de Sentimientos Unificado se amplió con dos lexicones desentimientos desarrollados por el grupo de investigación “comunicaciónde dominios especializados”.

    C3 La fórmula para unificar lexicones de sentimientos en los que, además dela polaridad dan intensidad.

    Las contribuciones técnicas de esta investigación son:

    C1 La tarea de unificación utiliza un procesamiento paralelo para realizar elcálculo de la polaridad de cada unidad léxica mediante las unidades deprocesamiento gráficas (GPUs).

    C2 La rapidez en el procesamiento de los léxicos de LSU se redujo a untercio en relación con el algoritmo secuencial.

    C3 La cobertura del Lexicón de Sentimientos Unificado se ha incrementadoen un 40 % con respecto a los resultados obtenidos con otras metodoloǵıas(manual, semiautomática y automática) en la construcción de los seislexicones de sentimientos unificados.

    C4 Se ha logrado una representación uniforme de la subjetividad en lexiconesmediante una ontoloǵıa.

    En resumen, la investigación presenta la metodoloǵıa, la arquitectura, losalgoritmos y programas del Lexicón de Sentimientos Unificado (LSU) quepermiten alinear, unificar y extender los lexicones de sentimientos disponibles.La actividad se realiza de forma automática con el objetivo de incrementar sucobertura y robustez. Como resultado se obtuvo un Lexicón de SentimientosUnificado de gran tamaño mediante un proceso realizado en unidades deprocesamiento gráficas (GPUs).

    15

  • CAPÍTULO 1. INTRODUCCIÓN

    Las técnicas y modelos de esta investigación han sido publicados ypresentados en foros internacionales y clasificados, la mayoŕıa de ellos comoconferencias de primera clase (Barbosa Santillán y Álvarez de Mon y Rego,2013b, 2013a, 2013d; Álvarez de Mon y Rego y Barbosa Santillán, 2011;Barbosa Santillán y Álvarez de Mon y Rego, 2014c, 2014a, 2014b)

    1.4. Estructura del documento

    La estructura del documento es la siguiente: el caṕıtulo 2 presentalas bases de este trabajo mediante el estado de la técnica, el análisis desentimientos, los lexicones y el procesamiento paralelo.

    El caṕıtulo 3 introduce los casos de uso realizados para la extensiónde diferentes fuentes y la metodoloǵıa de construcción de los dos lexiconessubjetivos producidos como parte de esta investigación.

    El caṕıtulo 4 muestra la metodoloǵıa y la arquitectura LSU describiendode forma general y particular cada uno de sus componentes.

    El caṕıtulo 5 incluye una descripción detallada de cómo se llevó a caboel experimento. La primera parte describe los objetivos del experimento yla segunda se centra en los resultados obtenidos después de realizarse elexperimento.

    El caṕıtulo 6 presenta las conclusiones de esta tesis, aśı como el listadode las principales aportaciones de esta investigación.

    16

  • Caṕıtulo 2

    Estado del arte

    Este caṕıtulo se enmarca en el área de estudio conocida como análisisde sentimientos o mineŕıa de opiniones, ya que aborda la unificación de unaserie de lexicones de sentimientos y su utilización para el análisis automáticode la información subjetiva en Internet.

    Su objetivo prioritario es elaborar un marco de unificación que permitala utilización de recursos ya existentes y reducir el tiempo de trabajocomputacional mediante el procesamiento paralelo.

    Por esta razón, tiene también un doble objetivo computacional dirigidoa la mejora de los recursos y la disminución del tiempo de procesado de lainformación.

    El interés por la ĺınea de investigación denominada análisis de sentimientosradica, entre otras razones, en las posibilidades de negocio que ven lasempresas por el hecho de conocer la valoración de sus productos por partedel público.

    Áreas como la recuperación y la extracción de información, el aprendizajeautomático, el procesamiento del lenguaje natural, o la lingǘıstica computacional,etc. se han dedicado a este campo que el progreso de la internet y ladisponibilidad de cantidades ingentes de datos hacen cada vez más interesante.

    La creación de bitácoras, páginas de opinión y las múltiples manifestacionesde opiniones personales que se vuelcan en las redes sociales cargan cada vezmás de subjetividad la información existente en internet y permiten nuevosestudios y aplicaciones.

    17

  • CAPÍTULO 2. ESTADO DEL ARTE

    Para demostrarlo, se presentan tan sólo algunos datos de las búsquedasrealizadas mediante Google Académico en septiembre de 2014.

    Las dos expresiones de búsqueda del tema en inglés: (1) sentiment analysisy (2) subjectivity devuelven conjuntamente ciento seis mil resultados; opinionmining, un millón ciento setenta mil; y su equivalente español, “mineŕıa deopiniones”, treinta y tres mil novecientos documentos.

    Además, el gran número de trabajos existentes va acompañado de unacarga terminológica considerable que hace que se puedan encontrar en laspublicaciones en inglés sinónimos totales o parciales como feeling, emotiono affect. Para Pang y Lee (2008) el análisis de sentimientos y mineŕıa deopiniones son un mismo campo de estudio, que definen a: “Sentiment analysisand opinion mining is the field of study that analyzes people's opinions,sentiments, evaluations, attitudes, and emotions from written language”.

    En algún caso, la investigación sobre la intensidad del sentimiento se hacentrado exclusivamente en un dominio, como el caso del análisis de cŕıticasde cine, que se ha convertido en un ámbito de aplicación que concentramúltiples publicaciones (Thet, Na, y Khoo, 2010).

    Según Cambria y Hussain (2012), opinion mining “se refiere principalmentea la detección de la polaridad”, en el análisis de los tipos de sentimientos, talcomo lo define Pang y Lee (2008), es “la aplicación espećıfica de clasificar loscomentarios en cuanto a su polaridad (positiva o negativa)”. Opinion miningy análisis de los tipos de sentimientos se usan en esta investigación comosinónimos con el fin de hacer frente a la literatura relacionada con ambostemas.

    En años recientes, muchos investigadores han estudiado opinion mining.Los autores se han centrado en tres aspectos: a) los sistemas de preguntas yrespuestas, y b) los sistemas de recomendación.

    Los sistemas de preguntas y respuestas:

    Somasundaran, Wilson, Wiebe, y Stoyanov (2007) desarrollaron clasificadoresautomáticos para reconocer cuándo una oración expresa uno de los dostipos de actitud (positiva o negativa). Stoyanov, Cardie, y Wiebe (2005)desarrollaron una colección de preguntas y respuestas de las opiniones;su investigación comparó y contrastó los hechos con las opiniones en el

    18

  • momento de responder a las preguntas.

    Vlad Lita, Hazen Schlaikjer, Hong, y Nyberg (2005) definieron lasdimensiones cualitativas para evaluar las respuestas de los usuariosy demostraron cómo los términos que se ignoran en el proceso de ladefinición de la pregunta pueden ayudar a los usuarios a descubrir lainformación subyacente.

    Los sistemas de recomendación: en este área Chiluka, Andrade,y Pouwelse (2011) propusieron un sistema de análisis colaborativo queayuda a los usuarios a explorar los comentarios de las peĺıculas condiferentes puntos de vista.

    Aśı, la reputación es un tema de interés colectivo. Morinaga, Yamanishi,Tateishi, y Fukushima (2002) demostraron que es posible ayudara los usuarios a descubrir el conocimiento útil relacionado con lasreputaciones de los productos de interés mediante las siguientes tareas:la extracción de caracteŕısticas de los términos, la coocurrencia de lostérminos, y el análisis de la correspondencia entre la reputación de losproductos y las opiniones de los clientes.

    Hoy en d́ıa, el progreso de la tecnoloǵıa ha permitido que se realicentambién aplicaciones que analizan video y voz en lo que se denomina análisismultimodal (Partan y Marler, 2005).

    La evolución del análisis de sentimientos no sólo afecta al medio analizado,que de texto escrito ha pasado a voz y video, sino que se hacen nuevasmatizaciones.

    En un principio el análisis de la subjetividad distingúıa en el texto entreinformación objetiva y subjetiva, la clasificación del sentimiento diferenciabala polaridad u orientación semántica que pod́ıa ser positiva o negativa en unaprimera etapa y más adelante se añadió la distinción entre positivo, negativoo neutral [Pérez-Rosas et al., 2011].

    Además, ha habido también cambios en el alcance de los fragmentosanalizados. Dado que los primeros trabajos se centraban en la clasificaciónde términos como los adjetivos [Hatzivassiloglou y McKeown, 1995], másadelante se clasificaron oraciones y luego textos completos de mayor o menor

    19

  • CAPÍTULO 2. ESTADO DEL ARTE

    extensión, los art́ıculos de una bitácora o blog, denominados “posts” o másrecientemente los mensajes de Twitter.

    El trabajo de Hatzivassiloglou y McKeown (1997) y McKeown de 1995se caracteriza por dos rasgos t́ıpicos de la investigación en análisis desentimientos: el uso de una colección y la automatización del proceso declasificación.

    De acuerdo con Pang y Lee (2008), es en 2001 cuando el análisis desentimientos despega en las áreas del procesamiento del lenguaje naturaly de la recuperación de la información, impulsado por el desarrollo de losmétodos de aprendizaje automático y la disponibilidad de grandes conjuntosde datos que permiten el entrenamiento de los algoritmos asociados.

    Elaborar una revisión exhaustiva de los estudios y trabajos realizados eneste campo se convierte en una tarea inviable. Por esta razón, a continuacióndestacaremos una serie de trabajos y de autores que han sido fundamentalesen la evolución de la investigación en el ámbito del análisis de sentimientos ycuyas lecturas han inspirado y ayudado a elaborar el trabajo que se presentaaqúı.

    Uno de los primeros autores que se ha ocupado de la subjetividad esJanyce Wiebe, cuya tesis doctoral, que data de 1990, se centraba en elreconocimiento de oraciones subjetivas en el texto narrativo (Wiebe, 1990).

    De acuerdo a Wiebe (2008), la subjetividad es “la expresión lingǘısticade las opiniones, los tipos de sentimientos, las emociones, las evaluaciones,las creencias, y las especulaciones de alguien”.

    Son múltiples los trabajos en los que esta autora ha participado, como sepuede ver en la bibliograf́ıa Wilson, Hoffmann, y cols. (2005); Somasundarany cols. (2007); Stoyanov y cols. (2005); Wilson, Wiebe, y Hoffmann (2005).Otro de los estudios iniciales que resulta de especial importancia es elde Hatzivassiloglou y McKeown (1997), la relevancia es por la creación yorganización de los términos con respecto a la polaridad.

    En está la clasificación del sentimiento se hace a nivel de término (Chesley,Vincenct, Xu, y Srihari, 2006; Benamara, Cesarano, Picariello, Reforgiato,y Subrahmanian, 2007; Peng y Park, 2014). En estos primeros estudios lainformación lingǘıstica se centra en los adjetivos porque se consideran laclave para el análisis de sentimientos.

    20

  • El trabajo de investigación sobre la subjetividad se debe a los trabajosde Kanayama y Tetsuya (2006), quienes construyeron unos lexicones de lapolaridad dependiente del dominio para el lenguaje japonés; Andreevskaiay Sabine (2006), quienes propusieron varios métodos para el aprendizajede la subjetividad a partir de WordNet; Esuli y Sebastiani (2006a), queconstruyeron un método para identificar la subjetividad; y la polaridad deun término y también utilizaron WordNet; Wiebe y Rada (2006), que fueroncapaces de identificar automáticamente si un término en particular era o nosubjetivo con un algoritmo de aprendizaje; S.-M. Kim y Eduard (2005), queusaron pequeños conjuntos de semillas en un crawler junto con WordNetpara identificar los adjetivos y los verbos que tienen los datos subjetivos;Kobayashi, Kentaro, Yuji, Kenji, y Toshikazu (2004), que identificaron lasexpresiones subjetivas de los conjuntos de datos con dominios dependientes.

    En la actualidad, la extracción y la clasificación de los tipos de sentimientosse realiza en varios niveles: opiniones, enunciados, encuestas, art́ıculos ylibros. Hay que mencionar además que las actividades de extracción yclasificación se pueden realizar en tiempo real (Hertz, Roesler, y Cohen,2012), utilizando crowdsourcing* en las redes sociales (Minh, 2014), o degran tamaño (Bergler, 2001).

    Aśı mismo, el análisis de sentimientos se enfrenta al problema de manejardiferentes variables como: el tamaño, la diversidad, la dinamicidad, la validez,y la incertidumbre de los datos.

    El interés de las empresas como IBM, Microsoft, Oracle, Samsung, Xerox,Hewlett-Packard por llegar a ser los ĺıderes en el análisis de sentimientos entextos, imágenes, voz y video.

    Sin embargo, aún hace falta investigación en el área porque el lenguajenatural es complejo y analizar los sentimientos individuales y colectivos demanera automática lo es aun más.

    Hay que mencionar además que existen retos de investigación en elanálisis del lenguaje en uso como es el caso del slang. Las tareas deanalizar e identificar un sentimiento son importantes para inferir significadose interpretaciones que están ligadas al contexto.

    Por ejemplo, para un hablante de una lengua de una región geográfica*Apoyar el proceso de análisis de los datos por la multitud

    21

  • CAPÍTULO 2. ESTADO DEL ARTE

    donde un término es ofensivo y causa frustración, para un individuo de otraregión es un término irrelevante.

    Más aún, en un nivel de complejidad superior existen las unidadesmultipalabra, en el que el manejo de la interpretación del conjunto completoes clave.

    Precisamente entender la tendencia del comportamiento de un usuarioen un servicio se ha convertido en el oro contemporáneo del análisis desentimientos. La demanda es tan grande que existen al menos tres milpatentes concedidas en los últimos cinco años.

    Por otro lado, no solo los investigadores en universidades han tomadocartas en el asunto. De igual manera, las empresas ĺıderes en el mercado detecnoloǵıas han sostenido una guerra de patentes en las diferentes actividadesque permiten realizar el análisis de sentimientos.

    La mayoŕıa de las patentes han sido registradas en Estados Unidos deAmérica y en algunos casos tienen cobertura global.

    En enero de 2015 cuantificamos el número de patentes relacionadas conel análisis de sentimientos en diecisiete empresas y las graficamos como semuestra en la figura 2.1.

    22

  • Figura 2.1: Número de patentes concedidas relacionadas con elanálisis de sentimientos de algunas empresas como Microsoft,que se coloca a la punta con trescientos catorce, en contrastecon Fantab con una

    Indiscutiblemente, el interés de las empresas se debe a que el precio delproducto está en relación a su valoración hecha por el público. Dicho deotra manera, un producto puede cambiar de precio como resultado de lasdiferentes valoraciones positivas o negativas de los clientes.

    Por otro lado, los sentimientos de miedo y placer son instrumentos paravender productos, hacer campañas, reconocer páıses, generar poĺıticas deestado, o controlar a un colectivo.

    Hay que mencionar además que, las aplicaciones en esta área son diversasy hoy en d́ıa el espectro incluye desde el análisis de sentimientos de losconductores de autos hasta la identificación del sentimiento en la voz enlos contestadores automáticos de los centros de llamadas.

    Consideremos ahora, la aplicación que permite identificar por mediodel reconocimiento facial si el conductor de un auto está contento, triste,enojado, o ansioso. Esta permite ofrecer una retroalimentación al usuario,a las autoridades y a los productores de autos. La principal motivación es

    23

  • CAPÍTULO 2. ESTADO DEL ARTE

    minimizar los accidentes y salvar vidas (Jones y Jonsson, 2005).Sin embargo, es del texto escrito del que se han ocupado más en el

    análisis de sentimientos con ı́ndices simples, compuestos y resúmenes, conel fin de identificar la intención de compra de un producto. Este seguimientose observa con el tiempo que dedica un usuario a una sección de una páginaweb, el historial de compras y su perfil.

    De ah́ı que las ventajas para la industria sean enormes porque estasson capaces ya de tener productos dinámicos y ofrecer respuestas a grandesescalas con una distribución a nivel global.

    En este sentido, el abanico de posibilidades para el análisis es muy amplio,porque las ciudades son cada vez más inteligentes y los usuarios poseen lasherramientas tecnológicas para producir, identificar, analizar y predecir lostipos de sentimientos propios y colectivos.

    También, ha sido posible segmentar los tipos de sentimientos y con ellosalvar vidas en eventos multitudinarios donde, si el tipo sentimiento es depánico, entonces la reacción de un colectivo puede ser devastadora.

    Del mismo modo, en una sociedad digital es muy interesante el desarrollode algoritmos que permitan conocer la conducta de un individuo o uncolectivo. En el área tecnológica de la inteligencia social interesa conocerlos colectivos en el momento de tomar decisiones de compra, valorar lareputación, etc.

    Incluso el análisis de los tipos de sentimientos puede tener aplicación enel descubrimiento de psicópatas al poder relacionar perfiles de los individuoscon las diferentes clases de sentimientos.

    Una área de investigación que todav́ıa ofrece muchas posibilidades esla evaluación de los resultados del análisis de los tipos de sentimientos.Los avances se observan en las propuestas de métricas para conocer eltipo de sentimiento (Ritterman, Muñoz, y Emerson, 2013), establecer laprioridad y el orden de importancia de una clase de sentimiento sobre otro(Gahlot, Krueger, Preisler, y Leary, 2012), e ı́ndices de la intensidad de lossentimientos simples y compuestos (Andrews y cols., 2012).

    A pesar de que el proceso cognitivo que sucede en nuestro cerebro paraproducir una clase de sentimiento es un área que está en constante estudio,especialmente por los neurólogos, existen múltiples investigaciones en esta

    24

  • ĺınea.Para terminar, la visualización de los resultados es una de las actividades

    emergentes de interés colectivo donde se han hecho esfuerzos para la representaciónde los tipos de sentimientos con cubos (Dayal, Castellanos, Gupta, Wang, yHsu, 2014) y cuadrados (Vogel, 2010).

    El área de inteligencia artificial está acercando cada vez más a losordenadores y a los humanos. Precisamente el análisis de texto ya alcanzouna precisión del 97 % (Zweigenbaum, Demner-Fushman, Yu, y Cohen, 2007)el de voz de un 87 % (Yu, 2013) en el idioma inglés y chino, respectivamente.

    Estos cambios han hecho posible el despegue en la automatización detraducciones y en el dictado de instrucciones a nuestros dispositivos móviles.Lo que sigue es hacer que los algoritmos aprendan por śı solos la partesubjetiva y, con ello, tengan una visión objetiva y subjetiva en una ventanade tiempo con el fin de tener un pensamiento creativo.

    De ah́ı que la tarea de clasificar automaticamente los datos según susubjetividad no sea trivial. Sin embargo, existe ya un conjunto importantede algoritmos que están haciendo posible el cambio.

    De ah́ı que la principal ventaja sea la utilización de algoritmos paramejorar el análisis homogéneo del lenguaje subjetivo.

    En este trabajo hemos clasificado las patentes y los art́ıculos relacionadoscon el análisis de los tipos de sentimientos relevantes para nuestro estudio enfunción de las actividades predominantes teniendo en cuenta los métodos ylos algoritmos.

    La gran cantidad de investigaciones sobre el proceso de análisis desentimientos de forma automática escritas hasta el d́ıa de hoy, junto con ladisparidad de conceptos, objetivos, terminoloǵıa, algoritmos, metodoloǵıas,experimentos y programas hacen necesaria una acotación para poder abordarlas.

    Empezaremos por detallar las actividades identificadas en este trabajopara construir lexicones y las metodoloǵıas observadas en su análisis.

    Nos centraremos en las actividades utilizadas por programas para transformare incorporar lexicones. Los lexicones de sentimientos y generativos seránintroducidos al lector.

    Finalmente, se mencionará una introducción al cómputo paralelo con elobjetivo de acelerar los algoritmos utilizados en la construcción del lexicón

    25

  • CAPÍTULO 2. ESTADO DEL ARTE

    de sentimientos unificado.

    2.1. Lexicones

    Uno de los recursos lingǘısticos para realizar el análisis automático dellenguaje natural con carga valorativa son los diccionarios y los lexicones.

    A continuación, definiremos el concepto de que es un lexicón, despuéscitaremos los trabajos relacionados con las actividades involucradas para eldesarrollo y mantenimiento de los lexicones.

    Los lexicones son recursos lingǘısticos donde algunos de ellos estándisponibles en Internet, como: SentiWordnet (Esuli y Sebastiani, 2006b), eldiccionario de sentimientos NTU (“Sentiments”, 2013); Pak (Pak, 2012a),el lexicón de sentimientos construido automáticamente con los recursosen Internet y el sistema que busca opiniones mediante un análisis de lasubjetividad (Wilson, Hoffmann, y cols., 2005), entre otros.

    De acuerdo con Budanitsky y Hirst (2006), un lexicón “es una lista detérminos en un lenguaje con conocimiento de cómo puede ser utilizado cadauno”. Este caṕıtulo se enfoca en lexicones que son de diferentes complejidadesrelacionadas con la calidad, el número de términos, la cobertura de lacolección y la precisión de las valoraciones (ver caṕıtulo 3).

    La definición general de un lexicón es “el vocabulario de un lenguaje quecontiene todas los términos o lexemas de un lenguaje” (Swann, 2004).

    Una definición más espećıfica propuesta para nuestra investigación es “ellexicón de sentimientos se entiende en términos generales como una lista delemas finita de formas almacenadas y las posibilidades para combinarlas consu polaridad y valor de la intensidad”.

    Conviene subrayar que, los lexicones son la clave para el análisis de lostipos de sentimientos porque son el conocimiento que es utilizado en losprogramas para su entrenamiento; sin embargo, existen diferentes grados decomplejidad, relacionados con el tamaño y la calidad de los mismos.

    También los lexicones son utilizados en las traducciones automáticasmediante lenguajes controlados. Este tipo de traductores utilizan la colecciónde un lenguaje base y la colección del lenguaje destino; el método se iniciacomparando las palabras y busca en el lexicón el término a traducir.

    26

  • 2.1. LEXICONES

    Además, aplica reglas para identificar en pares los términos y las traducciones.Finalmente, se basa en la escritura, el contexto, la similaridad, la frecuenciade los términos, la escritura y el contexto, la escritura más la frecuencia, laescritura más el contexto más la frecuencia.

    Aśı, por ejemplo: “Ce’est pour cette raison que l’ initiative de le ministre...” y “It is for this reason that the party has proposed ...”. La primera partede la oración es alineada y “raison” está alineada con “reason”.

    El método busca en la colección oraciones similares para encontrar unaalineación buena. Más aún, los lexicones pueden manejar diferentes tiposde datos: texto, fonemas o expresiones multipalabra, entre otros. Además,pueden ser monolingües o multilingües, dinámicos o estáticos, encriptadoso actualizados en tiempo real en la transmisión de datos en diferentesprotocolos (como TCP/IP).

    2.1.1. Teoŕıa de la valoración

    Entendemos la teoŕıa de la valoración como la construcción discursiva dela actitud y postura intersubjetiva (Pérez Nieto y Redondo Delgado, 1997).

    Este método es un término de amplio alcance, que incluye todos losusos evaluativos del lenguaje mediante los cuales los oradores y escritoresno solo engloban actitudes de valor particular, sino que también negocianestas posiciones con sus interlocutores potenciales (Kaplan, 2004).

    Discutiremos la manera en la cual la teoŕıa de la valoración se divide entres dominios semánticos (actitud, compromiso y gradación), de acuerdo altrabajo de (Kaplan, 2004) con sus ejemplos y terminoloǵıa.

    ActitudLa actitud incluye los significados mediante los cuales los textos o los

    oradores atribuyen un valor o una valoración intersubjetiva a los participanteso procesos.

    Estos pueden estar relacionados con respuestas emocionales y con sistemasde valores que se determinan culturalmente. Todas las declaraciones seclasifican como actitudinales si transmiten una evaluación positiva y negativa,o se podŕıan interpretar como una invitación a los lectores para queproporcionen su propia evaluación negativa o positiva (Turney y Littman,

    27

  • CAPÍTULO 2. ESTADO DEL ARTE

    2003).Esta categoŕıa se divide en afecto, juicio y subsistemas de apreciación.

    Afecto El afecto es la evaluación de cómo el escritor indica su disposiciónemocional hacia la personas, las cosas, las situaciones o los eventos.

    Las emociones se concentran en tres grandes grupos, que tienen quever con la felicidad o la infelicidad; la seguridad y la inseguridad; lasatisfacción o la insatisfacción.

    Los indicadores lingǘısticos de afecto pueden ser: verbos de emoción quese refieren a los procesos mentales (ejemplo: amar / odiar); los adverbiosque indican las circunstancias del estado de ánimo (p.ej.: felizmente ytristemente); los adjetivos que expresan la emoción (p.ej.: feliz / triste)y las nominalizaciones, por ejemplo, las transformaciones de los verbosy los adjetivos en sustantivos (ejemplo: felicidad/desesperación).

    Juicio El juicio se puede entender como la institucionalización de lasemociones en el contexto de reglas sobre cómo la gente debe o no debecomportarse.

    Las normas sociales que actúan en los juicios de valoración toman laforma de las regulaciones o expectativas sociales.

    Los juicios de estima social se subdividen en: (a) los relacionados conla normatividad, (b) la capacidad o la determinación demostrada enla conducta. Todos se evaluan con el fin de saber cómo de normales la persona, cuán competente, decidida y determinada es, y (c) losjuicios de sanción social relacionados con la veracidad e integraciónmoral. Ejemplos de juicios de estima social positivos son: sincero,honesto, genuino. En contraste, los ejemplos negativos son: deshonesto,mentioroso, manipulador.

    Apreciación La apreciación se puede considerar como el sistema en el quela polaridad humana se expresa hacia los productos, los procesos, lasentidades que son evaluados positiva o negativamente.

    Con éstos se evalúan los componentes valorativos en los textos, las ideasabstractas, los planes, las poĺıticas y los objetos.

    28

  • 2.1. LEXICONES

    Los individuos también pueden ser evaluados por la apreciación, perosolo cuando se perciben como entidades y no como humanos. Deacuerdo con J. Martin (2000), la apreciación se categoriza en tresdimensiones:

    La reacción describe cuánto atrae nuestra atención el proceso, elobjeto o el texto evaluado y en qué forma nos impresionó. Esto sesubdivide en los valores de impacto y calidad.

    La composición está relacionada con nuestra percepción de laproporción y el detalle. Se subdivide en los valores de equilibrio ycomplejidad.

    La valoración está relacionada con nuestra apreciación de laimportancia social que tiene lo que se está evaluando.

    Compromiso Los que proponen la teoŕıa de la valoración admiten quela dimensión del compromiso se relaciona de manera cercana conotros conceptos similares, conocidos como evidencialidad y modalidadepistémica (Palmer, 2001).

    Sin embargo, consideran que estos recursos léxico-gramaticales sepueden integrar en términos semánticos discursivos o retóricos. Lasprincipales opciones en el sistema de compromiso están ubicadas endos dimensiones opuestas: la monoglosia y la heteroglosia.

    La monoglosia equivale a las aseveraciones declarativas absolutas,ignora la diversidad de voces que participan en cualquier acto decomunicación. Ejemplos de dos enunciados son:

    Australia era “terra nullius”, un territorio vacÃo, cuando llegaron losprimeros colonos europeos.

    De acuerdo con algunos historiadores parece que Australia era “terranullius”, un territorio vacÃo, cuando llegaron los primeros colonoseuropeos.

    La heteroglosia corresponde a las declaraciones que reconocen, dealguna manera, la existencia de otras voces y posiciones alternativas.

    29

  • CAPÍTULO 2. ESTADO DEL ARTE

    Un ejemplo de ello es “Liliana nos ha manifestado que cree que ésta esuna mala idea”.

    Gradación La tercera dimensión en la teoŕıa de la valoración es la gradación.Es una escala semántica espacial que está relacionada con la manera enla que los escritores intensifican o reducen la fuerza de sus declaracionesy hacen de la gradación el centro de sus categorizaciones semánticas.

    Los valores de fuerza están en una escala de baja a alta intensidad, yse tienen ejemplos claros con los adverbios, como: “intensificadores”,“amplificadores” y “empáticos”. Los valores centrales funcionan paraindicar que el valor representado tiene un estado central o arquet́ıpico,o, por el contrario, un estado marginal.

    De todo ello se deduce que entre las principales actividades relacionadascon los lexicones encontramos: la construcción de lexicones, la transformaciónde lexicones, la expansión de lexicones e integración de lexicones. Para ilustrarmejor cada una de las actividades anteriores se definirán y se citarán lostrabajos que se juzgan más relevantes.

    2.1.2. Actividades para construir lexicones

    Estas actividades se encargan de cohesionar partes de los datos y lainformación para que se transformen en una estructura de datos léxicos,de manera que las principales tareas son: construir, reconocer, adquirir,analizar y almacenar (que presentaremos a continuación).

    La investigación previa en la construcción de lexicones en inglés, tienetrabajos como: Higashinaka, Walker, y Prasad (2007), que utilizó un conjuntode diálogos para construir su propio lexicón. SentiWordNet (Esuli y Sebastiani,2006b), el diccionario de sentimientos NTU (NLG, 2011), y el buscador delexicones de opiniones (Wilson, Hoffmann, y cols., 2005) han evolucionadodesde su primera aparición hasta el d́ıa de hoy. Nuestra investigación se basaen un vocabulario controlado, con el objetivo de eliminar los términos queno son relevantes mediante una lista de términos preferidos y no preferidos.Las clases utilizadas son: los sustantivos, los adjetivos, los diminutivos, los

    30

  • 2.1. LEXICONES

    prefijos, los verbos, los adverbios, las interjecciones y las expresiones tomadasde un subconjunto del idioma español.

    Hay algunas colecciones en el idioma español para un análisis gramaticalo una anotación de textos (por ej., Atwell (Kuhn, 2005)). Además, existeun número significativo de bibliotecas de software para anotar los textosdesarrolladas en las universidades (Exmaralda por Thomas (2009)) y herramientas(MMax 2 por Müller (2006)). Sin embargo, en el año 2011 no se identificóninguna investigación para anotar cada lema de un mensaje como positivoo negativo. Los resultados más cercanos se encontraron en los trabajos de(Kuhn, 2005; Thomas, 2009; Müller, 2006) que anotaban solo una partede los elementos del discurso pero sin la dimensión de polaridad. Nuestrapropuesta se basó en la anotación subjetiva de los mensajes contenidos enlos blogs apoyada por un lexicón subjetivo.

    En la tarea de construir los lexicones podemos destacar seis trabajosdesde el año 2008 hasta el 2014 que ilustraremos mejor a continuación.

    En primer lugar, Mohammed (2008) propuso un método para construir unlexicón compactado. El método recibió como entrada una lista de términos yla información asociada a cada uno de ellos como la palabra, la pronunciacióny la representación de qué parte de la estructura es: sustantivo, verbo,adjetivo o adverbio.

    El método tiene un algoritmo para codificar la información asociada a lostérminos y un decodificador que permite descompactar los datos del lexicón.La estructura de datos que utiliza el método para la representación de lostérminos es una tabla hash.

    Los términos son almacenados en direcciones únicas de la memoriaprincipal de la computadora. La principal ventaja de esta organización esel acceso y la recuperación inmediata del término al no tener que realizaroperaciones de acceso y recuperación del disco duro.

    Habŕıa que decir también que Marcu, Knight, Munteanu, y Koehn (2012)plantearon construir un lexicón basado en dos colecciones que fueran muyparecidas. El método identificó las palabras idénticas, por su parte, generólos lemas del lexicón.

    Además, aplico reglas para identificar posibles pares en la alineación delenguajes. El método evaluó y determinó el mejor conjunto de entradas del

    31

  • CAPÍTULO 2. ESTADO DEL ARTE

    lexicón.El lexicón bilingüe inicial fue comparado con la alineación de las estructuras

    de los árboles binarios. Aśı, por ejemplo, los términos “friend” y “freund”comparten las letras (fr-e-nd) y ambas palabras tienen una longitud de 6,por lo que su similaridad es de 0.83.

    Sin embargo, mediante una búsqueda en las cláusulas de las diferentescolecciones se buscan los contextos en los que es aplicado el término y semuestran los resultados al usuario para que el método mejorase mediante elaprendizaje supervisado.

    Ahora veremos el trabajo de Kalyan y cols. (2012), quienes propusieron lageneración de un lexicón automático basado en un conjunto de documentos(correos electrónicos) con información que identifica los correos electrónicosno deseados (spam).

    El usuario, mediante sus expresiones de búsquedas de correos no deseados,entrenó el algoritmo que construye el lexicón. Este se expande con la lista delos términos contenidos en los correos electrónicos no deseados.

    Como resultado, el método realizó un análisis sintáctico de toda lacolección de correos electrónicos y marcó los posibles candidatos que tuvieranspam. Aśı, por ejemplo, la oración “orden del d́ıa de la junta” será importantesólo si contiene números. Además, hay correos electrónicos que contienen lostérminos “loteŕıa, dinero, sexo” entre otros, que suelen ser no deseados.

    También Zhang y Silver (2013) inventaron un método para la generaciónde un lexicón. El método determinó una lista de términos equivalentes conla lista inicial. Por su parte, buscó la frecuencia de cada uno de los términoscandidatos en la colección. Además, eliminó los términos que tuvieran unafrecuencia menor al ĺımite superior establecido por el umbral definido. Ellexicón es revisado para mejorar su calidad y almacenado en el disco duro.Con la ayuda del lexicón resultante se indexa una colección. Cada uno desus documentos es indexado y organizado automáticamente. Sin embargo, siel lema no fue consensuado y éste no es común a todos, los nuevos lemas nopueden ser considerados parte del lexicón.

    Del mismo modo, casi a la vez que surgen estos métodos lo hace el métodode Alspector, Chowdhury, y Kolcz (2014), quienes propusieron la creación deun lexicón simplificado para la detección de correos que no son deseados

    32

  • 2.1. LEXICONES

    por el usuario (spam). La diferencia con el trabajo de Kalyan y cols. (2012)consiste en el método para la reducción de lemas del lexicón.

    El método buscó y localizó los términos que no son confiables y estáncontenidos en el correo electrónico. Además, los comparó con el lexicónsimplificado para marcarlos como candidatos a contener spam.

    El método primero accedió a las firmas** de la colección de correoselectrónicos que contienen spam. Después, recibió el correo electrónico ydeterminó la firma del correo electrónico entrante.

    Además, verificó si coincide la firma del correo electrónico nuevo conla firma del spam. Si las firmas coinciden, entonces es clasificado en lascategoŕıas de spam: {personal, negocios, comercio electrónico, promociones};de lo contrario, se queda en la bandeja de entrada del visor de correoselectrónicos.

    Aronowitz y Erell (2008) plantearon una técnica para generar un lexicóncompactado. El método generó una lista determińıstica de cadenas defonemas a partir de una representación textual de un término. De manera quepermitió almacenar la pronunciación de los términos a partir de un lexicónbase y un algoritmo de predicción.

    Por otra parte, Alewine, Janke, Sharp, y Sicconi (2008) presentaron unmétodo que construyó un lexicón automáticamente para identificar a losusuarios nativos o no nativos de los términos y frases.

    El algoritmo fue entrenado mediante los términos del lenguaje originaly los fonemas derivados de los usuarios que no fueron nativos. Aśı, porejemplo, el número 69 es pronunciado de forma diferente para los siguienteslenguajes: a) Inglés → “sixty − nine′′, b) Francés → “soixant − neuf ′′ yen c) alemán → “neun − und − sechzig′′. Después, el método genera unatranscripción con los fonemas de los nativos al lenguaje. Además, utiliza lasunidades fonéticas de los nativos. Por otro lado, genera la transcripción ylas unidades fonéticas con las personas no nativas al lenguaje. Después, elmétodo transforma los términos no nativos a los nativos. Además, utiliza losfonemas transformados para ser almacenados en el lexicón de fonemas dellenguaje pronunciados por no nativos.

    **Un archivo que contiene los lemas y el contexto que el usuario del correo electrónicoha ido identificando como spam

    33

  • CAPÍTULO 2. ESTADO DEL ARTE

    Por su parte, la actividad de reconocer lexicones fue abordada porMittelbach, Mueller, y Schlegel (1990), quienes propusieron un método parareconocer los caracteres de los lemas automáticamente mediante un lexicónbase.

    El método buscó el nivel de similaridad o igualdad entre el texto a analizary los elementos del lexicón.

    Luego, la actividad de adquirir lexicones de diferentes fuentes la encontramosde manera puntual en los siguientes trabajos.

    Magdalen, Dayan, Mazel, y Cohen (2011) plantearon un método que,mediante algoritmos de aprendizaje no supervisado, aprendió los esquemasde representación de las entradas del lexicón. Los esquemas se formaronmediante el proceso de stemming, que consiste en reducir un término a suráız, eliminando los sufijos y prefijos. Aśı, por ejemplo: en el lenguaje inglésel verbo “tie” ya está en su ráız, si se le agrega el prefijo “un′′ → “unties′′ yel sufijo “es′′ → “ties′′.

    Además, el programa realizó un análisis sintáctico de una colección paraobtener el lexicón. El programa inició obteniendo una lista de palabras conayuda de un diccionario en idioma inglés, después, identificó las raices, losprefijos y los sufijos frecuentes.

    Realizo el proceso de stemming mediante la división de los términos, creólos esquemas, identificó los valores de los esquemas, modificó los mejoresesquemas y los depuró, recalculó los valores y ordenó los esquemas de mayora menor dependiendo la puntuación obtenida.

    Aśı mismo, Fang y Chen (2013) propusieron construir un lexicón desentimientos para un dominio con un algoritmo de clasificación de lapolaridad. El contenido del dominio fue analizado por un programa basadoen SVM (máquinas de vectores de soporte) y clasificado de acuerdo a laorientación de la polaridad del sentimiento (positivo o negativo).

    Finalmente, Macfarlane (2014) propuso un sistema para generar reportesbasado en un lexicón estructurado. El sistema trabajó iterativamente con unaplantilla de un reporte profesional, predijo las partes de la información quedeb́ıa contener. Además, estructuró de forma automática el reporte basadoen el lexicón.

    El objetivo fue realizar un análisis del contenido de otros reportes

    34

  • 2.1. LEXICONES

    dedicados a facturar para que el programa aprendiera los contenidos yconstruyera nuevos reportes basados en la información anterior.

    Examinaremos brevemente ahora la actividad de analizar lexicones conel trabajo de Jeong, Choi, Han, y Kim (2011).

    En primer lugar, Jeong y cols. (2011) plantearon un método para analizarlos lexicones de fonemas mediante un programa que inicia el análisis de lostérminos con uno de ellos (centroide) y va comparando la distancia que existeentre el término centroide y cada uno de los términos del lexicón. El objetivofue encontrar la similitud entre el término centroide y los términos del lexicónpara preparar un conjunto de términos en la asociación de los fonemas parael reconocimiento de la voz.

    En último lugar, la actividad de almacenar lexicones fue abordada porGili y Vitale (1991) y Iyengar, Neti, y Nock (2005).

    Gili y Vitale (1991) propusieron almacenar