Opinion Mining

24
Lic. Ernesto Mislej [email protected] - @fetnelio JADM 2012 – MDMKD – UBA Octubre 2012 – CABA – Argentina Minado de Opiniones #JADM2012

description

Presentación en el marco de las Séptimas Jornadas Argentinas de Data Mining. El objetivo del Minado de Opiniones - (OM) es recuperar y extraer la orientación semántica de un conjunto de textos para clasificarlos de acuerdo a ella como positivas o negativas.

Transcript of Opinion Mining

Page 1: Opinion Mining

Lic. Ernesto [email protected] - @fetnelio !

JADM 2012 – MDMKD – UBA!Octubre 2012 – CABA – Argentina !

Minado de Opiniones!#JADM2012 !

Page 2: Opinion Mining

Resumen

El objetivo del Minado de Opiniones - (OM) es recuperar yextraer la orientación semántica de un conjunto de textospara clasificarlos de acuerdo a ella como positivas onegativas.

Durante la charla desarrollaremos el proceso dedescubrimiento de conocimiento para el dominio deinformación de opinión: recuperación y confección delcorpus de opinión, modelado de actores y tópicos,extracción de frases y textos subjetivos, diseño de modelosde sentimiento y presentación de resultados.

Discutiremos diferentes particularidades del problema comoel dominio de información, particularidades del canal decomunicación, audiencia, entre otros.

Page 3: Opinion Mining

Outline

• Intro & Background• Modelo Formal• Subtareas

• Recuperación de Opiniones (Opinion Retrieval)• Modelos de Análisis de Sentimiento (Sentiment Analysis)• Resumen (Summarization)

• Problemas y desafíos• Referencias

Page 4: Opinion Mining

Intro

• OM es una disciplina relativamente reciente que utilizatécnicas de IR, AI, ML y NLP para recuperar textos deopinión e inducir la orientación/polaridad semántica.

• Más informalmente, extraer opiniones y sentimientos detextos.

• Incluye subtareas como:• Recuperación de Opiniones (Opinion Retrieval)• Modelos de Análisis de Sentimiento (Sentiment Analysis)• Resumen (Summarization)

• La social media es una gran espacio donde se compartenopiniones y experiencias de consumidores.

Page 5: Opinion Mining

Opinion Mining is Big Business

Alguien que quiere comprar unacámara• Busca comentarios y reviews.

Alguien que ya compró una cámara• Escribe su experiencia.• Fanático vs. contra-fanático.

Fabricante• Obtiene feedback de los

consumidores.• Mejora de los productos.• Adapta estrategias de márketing.

!

!"#$%&'#()*+,*-.%,,#%/01*234

!"#$#%$&'#$#$(&#)&*#(&*+)#$,))

! -%.,%$,&/0%&/1$2)&2%&3+4&1&51.,61

! 7%%8)&9%6&5%..,$2)&1$:&6,;#,/)

! -%.,%$,&/0%&<+)2&3%+(02&1&51.,61

! =%..,$2)&%$&#2

! >6#2,)&13%+2&20,#6&,?",6#,$5,

! =1.,61&'1$+9152+6,6

! @,2)&9,,:3158&96%.&5+)2%.,6

! A."6%;,&20,#6&"6%:+52)

! B:<+)2&'168,2#$(&-2612,(#,)

Page 6: Opinion Mining

Otras aplicaciones Opinion Mining

Ads placements• Relevar e identificar la ubicación para imprimir un ad en la

social media.• Teniendo en cuenta opiniones de la página huésped.• Opiniones propias y de la competencia.

Influencia y Reputación• Identificar usuarios líderes y formadores de opinión.• Predecir compra de usuarios.

Opinion Spam• Identificar opiniones falsas.• Identificar usuarios falsos/sesgados.

Page 7: Opinion Mining

El vestido de Venus

Page 8: Opinion Mining

El vestido de Venus

!

!"#$%&'#()*+,*-.%,,#%/01*234

!"#$#%$&'#$#$(&)*"%+)+&,-)+)&#$+#(-,+

Page 9: Opinion Mining

Online social media sentiment apps

• Twitter sentiment: http://twittersentiment.appspot.com/• Twends: http://twendz.waggeneredstrom.com/• Twittratr: http://twitrratr.com/• SocialMention: http://socialmention.com/• . . . +40 empresas en USA

• Tribatics: http://www.tribatics.com/• SocialMetrix: http://socialmetrix.com/• Zenzey: http://www.zenzey.com/• Ventura*: http://7puentes.com/products/ventura/

Page 10: Opinion Mining

Online social media sentiment apps - Issues

• Funciona para gente famosa!• Diferentes estrategias para construir los modelos de

sentiment analysis causan resultados muy dispares.• Basados en diccionarios, rule-based, SVM, EM, etc.• Dificultad para separar la polaridad general• Buzz (menciones) vs. Opiniones.• Muchas veces funciona muy bien. Y algunas muy mal.

Page 11: Opinion Mining

Pippa Middleton

Pippa Middleton has revealed thesecret to her perfect figure -Pilates classes.http://dlvr.it/S9Cy8

Accuracy of twitter sentiment apps• TweetFeel: 25 % ⊕, 75 % • Twendz: no encontró• TipTop: 42 % ⊕, 11 % • Twitter Sentiment: 62 % ⊕, 38 %

Page 12: Opinion Mining

No sólo cámaras y vestidos...

• Películas, obras de teatro, libros, moda.• Predicciones, tendencias, humor social.• Monitoreo de opinión pública de acciones de gobierno,

actos de campaña.• Feedback sobre congresos, eventos, conferencias.• Monitoreo de catástrofes, accidentes, estado del tránsito,

etc.

• Comportamiento del mercado de valores. Medir el buzz deacciones, bonos, títulos.

Page 13: Opinion Mining

¿La voz del pueblo o de un experto?

Depende de la complejidad de la pregunta. Y de la precisión dela respuesta.

¿Cuál es la altura del monteKilimanjaro?

1 19,341 ft

2 23,341 ft

3 15,341 ft

4 21,341 ft

¿Cuál es la capital de España?

1 Barcelona

2 Madrid

3 Valencia

4 Sevilla

Page 14: Opinion Mining

No todas las opiniones valen lo mismo

• ¿Cómo medir el valor de una opinión?• Usuario expertos del dominio.• Usuario frecuentes.• Spammer?• Expertos en un área no necesariamente son expertos en

otra.

Confianza• Basada en el vínculo (local): User-similarity, entramado

social.• Basada en la reputación (global): Esta recomendación me ha

sido útil

Page 15: Opinion Mining

Modelo Formal - Bing Liu

Una opinión tiene estas componentes:

< gi , ajk, soijkl , hi , tl >

Donde:

• gj es el objeto target.• akj es un aspecto o característica del objeto target.• soijkl el es valor de la orientación subjetiva que emite el

opinion holder hi, sobre el objeto gj para un aspecto akj en elmomento tl. soijkl puede ser positivo, negativo, neutro o unscore numérico.

• hi es el opinion holder o el autor de la opinión• tl es el momento en que la opinión es expresada

Page 16: Opinion Mining

Subtareas

Opinion Retrieval & Extraction• Recuperar de grandes volúmenes de textos, aquellos que

contienen referencia al objeto.• Luego identificar el contexto de opinión.

Sentiment Analysis• Extraer la polaridad de la opinión• Puede ser positivo-negativo, pos-neg-neutro, o una escala

numérica.

Opinion summarization• Resumir la opinión general de un conjunto de opiniones o

de una opinón con varias facetas.• El resumen puede ser una metáfora visual.

Page 17: Opinion Mining

Opinion Retrieval & Extraction

Me compré una cámara de fotos el día de ayer. Me saliómuy cara, pero saca unas fotos excelentes y la bateríadura mucho.

• Identificar zonas dentro de la página que responden a untexto de opinión.

• Reglas sintácticas, estructurales del sitio.• Modelos estadísticos sobre sliding windows.• Identificación del objeto, marca.• Contexto fijo y variable.• Detección de puntos, fin de párrafo, etc.• ID, hastag, sinónimos, hiperónimos, etc.

Page 18: Opinion Mining

Sentiment Analysis

Me compré una cámara de fotos el día de ayer. Me saliómuy cara, pero saca unas fotos excelentes y la bateríadura mucho.

• muy cara→ negativo.• fotos excelentes→ positivo.• dura poco→ negativo.

• Métodos basados en reglas: diccionarios, boosted weakrules, etc.

• Modelos de machine learning: SVM, NB, EM.• Prepos: steming, lematización, extracción de palabras por

función (ADJ, VER, ADV).

Page 19: Opinion Mining

Opinion summarization

• Precio: Negativo• Fotos: Positivo• Bateria: Negativo• Impresión general: 3/10.

4

Fig. 2. Visualization of feature-based opinion summary and comparison

The summary in Fig. 1 can be easily visualized using a bar chart [10]. Fig. 2(A) shows such a chart. In the figure, each bar above the X-axis gives the number of positive opinions on a feature (listed at the top), and the bar below the X-axis gives the number of negative opinions on the same feature. Obviously, other visualizations are also possible. For example, one may only show the percentage of positive (or negative) opinions on each feature. Comparing opinion summaries of a few competing objects is even more interesting [10]. Fig. 2(B) shows a visual comparison of consumer opinions on two competing digital cameras. One can clearly see how consumers view different features of each camera.

Sentiment Classification

Sentiment classification has been widely studied in the natural language processing (NLP) community [e.g., 2, 11, 13]. It is defined as follows: Given a set of evaluative documents D, it determines whether each document d D expresses a positive or negative opinion (or sentiment) on an object. For example, given a set of movie reviews, the system classifies them into positive reviews and negative reviews.

This is clearly a classification learning problem. It is similar but also different from the classic topic-based text classification, which classifies documents into predefined topic classes, e.g., politics, sciences, and sports. In topic-based classification, topic related words are important. However, in sentiment classification, topic-related words are unimportant. Instead, opinion words that indicate positive or negative opinions are important, e.g., great, excellent, amazing, horrible, bad, worst, etc. There are many existing techniques. Most of them apply some forms of machine learning techniques for classification [e.g., 11]. Custom-designed algorithms specifically for sentiment classification also exist, which exploit opinion words and phrases together with some scoring functions [2, 13].

This classification is said to be at the document level as it treats each document as the basic information unit. Sentiment classification thus makes the following assumption: Each evaluative document (e.g., a review) focuses on a single object O and contains opinions of a single opinion holder. Since in the above

Picture Battery Size Weight Zoom positive

negative Digital Camera 1

Picture Battery Size Weight Zoom positive

negative Digital Camera 1 Digital Camera 2

(A) Feature-based summary of opinions on a digital camera

(B) Opinion comparison of two digital cameras

CAMERA

CAMERA

Page 20: Opinion Mining

Opinion summarization

7puentes.com! Análisis Inteligente de Textos !

Ejemplo: AIT en opinión política!

Elecciones legislativas 2009 ! Controles de Alcoholemia!

Seguimiento Gripe A !

Page 21: Opinion Mining

Desafíos

• Opiniones comparativas.

El iphone 4 anda más lento que el Samsung S3

• Modelos de Sentiment Analisis independientes de dominio.• Resolución de correferencias.• Frases condicionales.

Si estás buscando un celular muy bueno, comprá unNokia.

• Sarcasmo e ironía. Muy presente en blogs y foros decontenido político.

• Utilidad de la opinión. Tu opinión me ha sido muy útil

Page 22: Opinion Mining

Opinion spam

• Opiniones falsas, sesgadas, pagas.• Manipulación de social media. Identidades falsas. Sock

puppetting.• Detección a partir del comportamiento del autor.• Individual spammer vs. Group spammer.• Patrones en la distribución del ranking y en el flujo de

apariciones de nuevas opiniones.• Opiniones duplicadas. Templates de opiniones.• Etiquetar el corpus y/o construirlo es muy costoso.

Mechanical turk.

Page 23: Opinion Mining

Referencias

• Opinion Mining: Exploiting the Sentiment of the Crowd,Diana Maynard, Adam Funk, Kalina Bontcheva. Universityof Sheffield, UK. 1995-2012

• Sentiment Analysis and Opinion Mining, Bing Liu,AAAI-2011, EACL-2012, and Sentiment AnalysisSymposium, Department of Computer Science, UniversityOf Illinois at Chicago

• Sentiment Analysis and Opinion Mining. Morgan & ClaypoolPublishers. May 2012., Bing Liu.

Page 24: Opinion Mining

Gracias por vuestra !atención !

Lic. Ernesto [email protected] - @fetnelio !