Tesis de Máster (presentación)

33
Explotaci´ on de la Informaci´on Temporal en Twitter para la organizaci´on de tweets Asunci´ on V´ azquez M´ endez Tesis para la obtenci´ on del t´ ıtulo de: aster en Lenguajes y Sistemas Inform´ aticos UNED-Madrid, Junio 2014 Dirigida por: Ana Garc´ ıa Serrano Asunci´ on V´ azquez M´ endez (UNED) Explotaci´on de la Informaci´ on Temporal en Twitter para la organizaci´on de UNED-Madrid, Junio 2014 1 / 33

description

El tiempo es un elemento de importancia capital en todo espacio de información y Twitter no es una excepción. Antes al contrario, el nacimiento, difusión y duración de los temas tratados, las tendencias, etc. son fenómenos que se definen en términos temporales. La explotación de la información temporal en tareas de Recuperación y Organización de Información, tiene una larga tradición. Sin embargo, esta clase de enfoques, basados en contenido, no han sido muy explorados para el dominio de Twitter. Este Trabajo se sitúa en el campo de la Organización Temporal de la Información en Twitter. Concretamente, se propone un modelo basado en Análisis Formal de Conceptos, en el que los atributos del contexto serán las expresiones temporales, eventos y tipos de eventos presentes en los tweets. Se define un Calendario, especialmente adecuado a los fenómenos de conmemoración de aniversarios y fechas señaladas en Twitter, el Calendario Imaginario-Colectivo. El Corpus de estudio es un subconjunto de la colección de RepLab2013, del que se hace una completa descripción en lo que concierne a sus aspectos temporales. Finalmente, la materialización de la propuesta requiere del desarrollo de un entorno computacional para la integración y uso de herramientas y recursos de Anotación Automática y Análisis Formal de Conceptos.

Transcript of Tesis de Máster (presentación)

Page 1: Tesis de Máster (presentación)

Explotacion de la Informacion Temporal en Twitter parala organizacion de tweets

Asuncion Vazquez Mendez

Tesis para la obtencion del tıtulo de:

Master en Lenguajes y Sistemas Informaticos

UNED-Madrid, Junio 2014

Dirigida por:Ana Garcıa Serrano

Asuncion Vazquez Mendez (UNED) Explotacion de la Informacion Temporal en Twitter para la organizacion de tweetsUNED-Madrid, Junio 2014 1 / 33

Page 2: Tesis de Máster (presentación)

Indice

1 PreliminaresMotivacionLa informacion temporalAnalisis Formal de Conceptos (AFC)

2 PropuestaFormalizacion

3 ExperimentacionCorpusExperimentos

4 Valoracion

Asuncion Vazquez Mendez (UNED) Explotacion de la Informacion Temporal en Twitter para la organizacion de tweetsUNED-Madrid, Junio 2014 2 / 33

Page 3: Tesis de Máster (presentación)

Indice

1 PreliminaresMotivacionLa informacion temporalAnalisis Formal de Conceptos (AFC)

2 PropuestaFormalizacion

3 ExperimentacionCorpusExperimentos

4 Valoracion

Asuncion Vazquez Mendez (UNED) Explotacion de la Informacion Temporal en Twitter para la organizacion de tweetsUNED-Madrid, Junio 2014 3 / 33

Page 4: Tesis de Máster (presentación)

Motivacion

Dimension temporal de la informacion: ¿Que?, ¿Como?, ¿Cuando?,¿Donde?La explotacion de la informacion temporal esta en auge:

El tiempo en Twitter:

Asuncion Vazquez Mendez (UNED) Explotacion de la Informacion Temporal en Twitter para la organizacion de tweetsUNED-Madrid, Junio 2014 4 / 33

Page 5: Tesis de Máster (presentación)

Indice

1 PreliminaresMotivacionLa informacion temporalAnalisis Formal de Conceptos (AFC)

2 PropuestaFormalizacion

3 ExperimentacionCorpusExperimentos

4 Valoracion

Asuncion Vazquez Mendez (UNED) Explotacion de la Informacion Temporal en Twitter para la organizacion de tweetsUNED-Madrid, Junio 2014 5 / 33

Page 6: Tesis de Máster (presentación)

¿Que es el tiempo?

Para el ser humano, el paso del tiempo es algo natural.

Pero, ¿puede un sistema informatico razonar temporalmente?

Ejemplo

¿Quien era el presidente del Gobierno espanol cuando se hundio el“Prestige”?

Logicas temporales: Intervalos (Allen, 1983)

Asuncion Vazquez Mendez (UNED) Explotacion de la Informacion Temporal en Twitter para la organizacion de tweetsUNED-Madrid, Junio 2014 6 / 33

Page 7: Tesis de Máster (presentación)

Representando el tiempo

Expresiones que denotan tiempo y expresiones que denotan eventos:

Eventos: El partido se jugo bajo la lluvia.Momentos: El proximo viernes estrenan la pelıcula.Relaciones temporales: Me levante antes de que saliera el sol.

Calendarios: (Goralwalla, 2001)

Lenguaje natural: ambiguedad y normalizacion.

Ejemplos

“4/5/2014”: ¿4 de mayo o 5 de abril?

“Las 4h”: ¿de la manana o de la tarde?

“Labour Day”: ¿Donde?

Asuncion Vazquez Mendez (UNED) Explotacion de la Informacion Temporal en Twitter para la organizacion de tweetsUNED-Madrid, Junio 2014 7 / 33

Page 8: Tesis de Máster (presentación)

¿Que informacion temporal contiene un documento?

Fechas de creacion, modificacion, etc.

Expresiones presentes en el contenido:

Explıcitas: Su cumpleanos es el 22 de febrero.Relativas: Hace tres dıas que no veo al gato.Implıcitas: La exposicion se inauguro el Dıa del Libro.

Su explotacion requiere de la localizacion y resolucion de la expresion.

Asuncion Vazquez Mendez (UNED) Explotacion de la Informacion Temporal en Twitter para la organizacion de tweetsUNED-Madrid, Junio 2014 8 / 33

Page 9: Tesis de Máster (presentación)

Anotacion temporal

Esquemas de anotacion

TimeML

Etiquetas EVENT , TIMEX3 y LINK

Anotacion automatica

Asuncion Vazquez Mendez (UNED) Explotacion de la Informacion Temporal en Twitter para la organizacion de tweetsUNED-Madrid, Junio 2014 9 / 33

Page 10: Tesis de Máster (presentación)

Indice

1 PreliminaresMotivacionLa informacion temporalAnalisis Formal de Conceptos (AFC)

2 PropuestaFormalizacion

3 ExperimentacionCorpusExperimentos

4 Valoracion

Asuncion Vazquez Mendez (UNED) Explotacion de la Informacion Temporal en Twitter para la organizacion de tweetsUNED-Madrid, Junio 2014 10 / 33

Page 11: Tesis de Máster (presentación)

Analisis Formal de Conceptos (AFC)

AFC es una teorıa matematica que trata de la formalizacion de conceptos y de suorganizacion en una estructura de retıculo. (Wille, 1984)Se basa en las definiciones de contexto y concepto formal.

Definicion

Un contexto formal es una terna K := (G ,M, I ) donde: G = {g} es el conjuntode objetos, M = {m} es el conjunto de atributos que se pueden aplicar sobre losobjetos e I ⊆ G ×M es una relacion binaria que relaciona los objetos de G conlos atributos de M que poseen o se les aplican.

Ejemplo

Sea G = {1, 2, ..., 10}, M = {par , impar , primo, compuesto, cuadrado}, I la formaen que los atributos M se aplican sobre los objetos de G (ver Cuadro),K (G ,M, I ) es un contexto formal.

Asuncion Vazquez Mendez (UNED) Explotacion de la Informacion Temporal en Twitter para la organizacion de tweetsUNED-Madrid, Junio 2014 11 / 33

Page 12: Tesis de Máster (presentación)

Analisis Formal de Conceptos (AFC)

Definicion

Sea K := (G ,M, I ) un contexto formal, sea A ⊆ G y B ⊆ M, (A,B) es unconcepto formal si y solo si:A={objetos de G sobre los que aplican todos los atributos de B}B={atributos de M que aplican sobre todos los objetos de A}

Dado un contexto formal, es posible encontrar todos sus conceptosformales, y representarlo en forma de retıculo.

Asuncion Vazquez Mendez (UNED) Explotacion de la Informacion Temporal en Twitter para la organizacion de tweetsUNED-Madrid, Junio 2014 12 / 33

Page 13: Tesis de Máster (presentación)

AFC y Recuperacion de Informacion

Por su capacidad para organizar informacion, AFC se ha aplicado a:

Modificacion de consultas (Godin, 1989)Clustering de documentos (Cigarran, 2008)Topic Detection en tweets basada en contenido (Castellanos et al.,2013)

Los objetos seran los documentos de la coleccion y los atributos unconjunto de descriptores o rasgos que definan a estos (terminos delvocabulario).

Asuncion Vazquez Mendez (UNED) Explotacion de la Informacion Temporal en Twitter para la organizacion de tweetsUNED-Madrid, Junio 2014 13 / 33

Page 14: Tesis de Máster (presentación)

Propuesta

Integrar la dimension temporal en tareas de organizacion yrepresentacion de informacion.

Se propone:

Definir un conjunto de descriptores de ındole temporal para la organizacionde documentos mediante AFC.

Asuncion Vazquez Mendez (UNED) Explotacion de la Informacion Temporal en Twitter para la organizacion de tweetsUNED-Madrid, Junio 2014 14 / 33

Page 15: Tesis de Máster (presentación)

Indice

1 PreliminaresMotivacionLa informacion temporalAnalisis Formal de Conceptos (AFC)

2 PropuestaFormalizacion

3 ExperimentacionCorpusExperimentos

4 Valoracion

Asuncion Vazquez Mendez (UNED) Explotacion de la Informacion Temporal en Twitter para la organizacion de tweetsUNED-Madrid, Junio 2014 15 / 33

Page 16: Tesis de Máster (presentación)

Formalizacion

Sea ∆ = {d1, ..., dn} una coleccion de documentos, su informaciontemporal puede ser de los siguientes tipos:

fechas de creacion: Φ = {f1, ..., fm}expresiones temporales: T = {t1, ...tp}eventos: E = {e1, ..., eq}

Definicion

Sea τ = Φ⋃

T⋃E , se define el contexto temporal de ∆, CT := (∆, τ, I ),

donde I es la relacion binaria de incidencia que relaciona cada documentocon los atributos que posee.

CT es un contexto formal.

Asuncion Vazquez Mendez (UNED) Explotacion de la Informacion Temporal en Twitter para la organizacion de tweetsUNED-Madrid, Junio 2014 16 / 33

Page 17: Tesis de Máster (presentación)

Descriptores y Calendarios

Seleccion de descriptores:

Unicidad, Normalizacion y Lematizacion.Extension

Calendarios y granularidad:

Calendario GregorianoCalendario Imaginario-Colectivo: Fechas “senaladas”

Asuncion Vazquez Mendez (UNED) Explotacion de la Informacion Temporal en Twitter para la organizacion de tweetsUNED-Madrid, Junio 2014 17 / 33

Page 18: Tesis de Máster (presentación)

Desarrollo computacional

PREPROCESADO I

HEIDELTIME

PREPROCESADO II

TARSQI

EXTRACCIÓN DE DESCRIPTORES

Documentos  del  Corpus  

Tweets  anotados  con  TimeML  

Tweets  anotados  con  <TIMEX3>  

Contexto  formal  (CXT)  

CIGARRÁN ET AL.2014

CONCEPT EXPLORER

Diagrama  de  Hasse  

Conceptos  formales  (estabilidad)  

Asuncion Vazquez Mendez (UNED) Explotacion de la Informacion Temporal en Twitter para la organizacion de tweetsUNED-Madrid, Junio 2014 18 / 33

Page 19: Tesis de Máster (presentación)

Indice

1 PreliminaresMotivacionLa informacion temporalAnalisis Formal de Conceptos (AFC)

2 PropuestaFormalizacion

3 ExperimentacionCorpusExperimentos

4 Valoracion

Asuncion Vazquez Mendez (UNED) Explotacion de la Informacion Temporal en Twitter para la organizacion de tweetsUNED-Madrid, Junio 2014 19 / 33

Page 20: Tesis de Máster (presentación)

Descripcion del Corpus

Corpus RepLab2013: 60 entidades, 2200 tweets (1500 test, 700 train)

Corpus Beatles

Temporalizacion y Tematica

Train 1-6 jun 2012 Temas genericos (70%)

Test 22-31 dic 2012 Temas actuales (10%)

Anotacion

Expresiones temporales 11,88% de los tweets

Eventos 65,85% ” ”

74%

7%

15%

4%

DATE

TIME

DURATION

SET

2%1%6%

74%

4%3%

10%

ASPECTUAL

I ACTION

I STATE

OCCURRENCE

PERCEPTION

REPORTING

STATE

Asuncion Vazquez Mendez (UNED) Explotacion de la Informacion Temporal en Twitter para la organizacion de tweetsUNED-Madrid, Junio 2014 20 / 33

Page 21: Tesis de Máster (presentación)

Indice

1 PreliminaresMotivacionLa informacion temporalAnalisis Formal de Conceptos (AFC)

2 PropuestaFormalizacion

3 ExperimentacionCorpusExperimentos

4 Valoracion

Asuncion Vazquez Mendez (UNED) Explotacion de la Informacion Temporal en Twitter para la organizacion de tweetsUNED-Madrid, Junio 2014 21 / 33

Page 22: Tesis de Máster (presentación)

Experimento I

DESCRIPTORES: fechas de creacion

OBJ. ATRIB. CONCEP.

BeatlesTra 693 7 7

Beatles 2195 18 19

Table : Contexto formal Experimento I

Asuncion Vazquez Mendez (UNED) Explotacion de la Informacion Temporal en Twitter para la organizacion de tweetsUNED-Madrid, Junio 2014 22 / 33

Page 23: Tesis de Máster (presentación)

Experimento II

DESCRIPTORES: fechas de creacion y expresiones temporales

OBJ. ATRIB. CONCEP.

BeatlesTra 693 21 35

Beatles 2195 42 47

Table : Contexto formal Experimento II

Asuncion Vazquez Mendez (UNED) Explotacion de la Informacion Temporal en Twitter para la organizacion de tweetsUNED-Madrid, Junio 2014 23 / 33

Page 24: Tesis de Máster (presentación)

Experimento II

Conceptos formales asociados al atributo “1967”: Topic “Sgt. PepperAlbum”

Asuncion Vazquez Mendez (UNED) Explotacion de la Informacion Temporal en Twitter para la organizacion de tweetsUNED-Madrid, Junio 2014 24 / 33

Page 25: Tesis de Máster (presentación)

Experimento III

DESCRIPTORES: fechas de creacion, expresiones temporales y eventos

OBJ. ATRIB. CONCEP.

BeatlesTra 297 75 339

Beatles 830 108 996

Table : Contexto formal Experimento III

Asuncion Vazquez Mendez (UNED) Explotacion de la Informacion Temporal en Twitter para la organizacion de tweetsUNED-Madrid, Junio 2014 25 / 33

Page 26: Tesis de Máster (presentación)

Experimentos con tipologıa de eventos

DESCRIPTORES:

fechas de creacion, expresiones temporales y tipos de eventos

OBJ. ATRIB. CONCEP.

BeatlesTra 297 26 115

Beatles 830 47 297

tipos de eventos

OBJ. ATRIB. CONCEP.

BeatlesTra 297 7 30

Beatles 830 7 36

Asuncion Vazquez Mendez (UNED) Explotacion de la Informacion Temporal en Twitter para la organizacion de tweetsUNED-Madrid, Junio 2014 26 / 33

Page 27: Tesis de Máster (presentación)

Diagrama de Hasse: tipos de eventos

Asuncion Vazquez Mendez (UNED) Explotacion de la Informacion Temporal en Twitter para la organizacion de tweetsUNED-Madrid, Junio 2014 27 / 33

Page 28: Tesis de Máster (presentación)

Agrupacion de temas: tipos de eventos

Asuncion Vazquez Mendez (UNED) Explotacion de la Informacion Temporal en Twitter para la organizacion de tweetsUNED-Madrid, Junio 2014 28 / 33

Page 29: Tesis de Máster (presentación)

Otros experimentos

BeatlesBackground: 50000 tweets

Fechas destacadas: 27 de julio de 1967 y 5 de octubre de 1962

Asuncion Vazquez Mendez (UNED) Explotacion de la Informacion Temporal en Twitter para la organizacion de tweetsUNED-Madrid, Junio 2014 29 / 33

Page 30: Tesis de Máster (presentación)

Otros experimentos

Bankia: dominio “banca”, contexto nacional

Crıticas y protestas: 9 de febrero de 2012 y 5 de junio de 2012

Asuncion Vazquez Mendez (UNED) Explotacion de la Informacion Temporal en Twitter para la organizacion de tweetsUNED-Madrid, Junio 2014 30 / 33

Page 31: Tesis de Máster (presentación)

Valoracion

Se responde satisfactoriamente a:

Expresion de la informacion temporal en Twitter

Organizacion temporal de los tweets

Deteccion de eventos asociados a fechas

Pero...

¿Como evaluar los retıculos?

Asuncion Vazquez Mendez (UNED) Explotacion de la Informacion Temporal en Twitter para la organizacion de tweetsUNED-Madrid, Junio 2014 31 / 33

Page 32: Tesis de Máster (presentación)

Conclusiones

Aportaciones del trabajo:

1 Analisis de corpus de tweets bajo la perspectiva temporal.

2 Propuesta de un modelo para la representacion de la informaciontemporal de tweets, basado en Analisis Formal de Conceptos.

3 Adaptacion e integracion de recursos web y paquetes software paraexperimentacion.

4 Experimentacion y valoracion de resultados en un sub-corpus de lacoleccion de RepLab 2013.

Lıneas futuras de investigacion:

Evaluacion de la calidad de los retıculos.

Duracion de los temas.

Asuncion Vazquez Mendez (UNED) Explotacion de la Informacion Temporal en Twitter para la organizacion de tweetsUNED-Madrid, Junio 2014 32 / 33

Page 33: Tesis de Máster (presentación)

Gracias por su atencion.

Asuncion Vazquez Mendez (UNED) Explotacion de la Informacion Temporal en Twitter para la organizacion de tweetsUNED-Madrid, Junio 2014 33 / 33