curso-escuela-verano-esp - UPF

13
29/07/2012 1 © Horacio Saggion - 2012 Universidad de verano Rafael Altamira Universidad de Alicante Introducción a la simplificación automática de textos Horacio Saggion Universitat Pompeu Fabra Barcelona http://taln.upf.edu/users/hsaggion © Horacio Saggion - 2012 Universidad de verano Rafael Altamira Universidad de Alicante Plan del curso Introducción del docente Quienes somos, donde estamos, de que nos ocupamos… Que es la simplificación de textos y porqué es importante? Desafíos y oportunidades Reglamentaciones, recomendaciones Iniciativas para la adaptación/simplificación de textos El procesamiento del lenguaje natural para la simplificación automática Niveles de dificultad de los textos, simplificación del léxico, simplificación de la estructura Estudio de caso: proyecto Simplext Simplificación de textos en español Resumen del curso © Horacio Saggion - 2012 Universidad de verano Rafael Altamira Universidad de Alicante El docente Horacio Saggion http://taln.upf.edu/users/hsaggion https://twitter.com/h_saggion http://www.taln.upf.edu Resumen automático: Sistemas: SumUM (Saggion & Lapalme, 2002); SUMMA (Saggion, 2008) Evaluación: (Saggion et al. 2002), (Saggion et al. 2010), Libro (Poibeau, Saggion, Piskorski, Yangarber 2012) Proyecto TOPAS para resúmenes de patentes Extracción de informaciones: Sistema GATE, creación de corpus http://www.taln.upf.edu/pages/concisus/index.html , Summbank Simplificación de textos: www.simplext.es © Horacio Saggion - 2012 Universidad de verano Rafael Altamira Universidad de Alicante Grupo TALN @ UPF TALN - Tractament Automàtic del Llenguatge Natural http://www.taln.upf.edu 15 miembros: 8 investigadores/profesores, 4 estudiantes de doctorado, un pre doctorando, un programador, un personal de administración. Estamos en la Universitat Pompeu Fabra, Campus de la Comunicación, Barcelona Generación de lenguaje A partir de datos/ontologías/representaciones conceptuales Procesamiento de lenguaje natural Resumen automático, extracción de informaciones, minería de textos Recursos Corpora, analizadores, generadores, herramientas de resumen, herramientas de anotación

Transcript of curso-escuela-verano-esp - UPF

Page 1: curso-escuela-verano-esp - UPF

29/07/2012

1

© Horacio Saggion - 2012

Universidad de verano Rafael Altamira

Universidad de Alicante

Introducción a la simplificación

automática de textos

Horacio Saggion

Universitat Pompeu Fabra

Barcelona

http://taln.upf.edu/users/hsaggion

© Horacio Saggion - 2012

Universidad de verano Rafael Altamira

Universidad de Alicante

Plan del curso

� Introducción del docente

� Quienes somos, donde estamos, de que nos ocupamos…

� Que es la simplificación de textos y porqué es importante?

� Desafíos y oportunidades

� Reglamentaciones, recomendaciones

� Iniciativas para la adaptación/simplificación de textos

� El procesamiento del lenguaje natural para la simplificación automática

� Niveles de dificultad de los textos, simplificación del léxico, simplificación de la estructura

� Estudio de caso: proyecto Simplext

� Simplificación de textos en español

� Resumen del curso

© Horacio Saggion - 2012

Universidad de verano Rafael Altamira

Universidad de Alicante

El docente

� Horacio Saggion

� http://taln.upf.edu/users/hsaggion

� https://twitter.com/h_saggion

� http://www.taln.upf.edu

� Resumen automático: � Sistemas: SumUM (Saggion & Lapalme, 2002); SUMMA (Saggion, 2008)

� Evaluación: (Saggion et al. 2002), (Saggion et al. 2010),

� Libro (Poibeau, Saggion, Piskorski, Yangarber 2012)

� Proyecto TOPAS para resúmenes de patentes

� Extracción de informaciones: Sistema GATE, creación de corpus

� http://www.taln.upf.edu/pages/concisus/index.html, Summbank

� Simplificación de textos: www.simplext.es

© Horacio Saggion - 2012

Universidad de verano Rafael Altamira

Universidad de Alicante

Grupo TALN @ UPF

� TALN - Tractament Automàtic del Llenguatge Natural http://www.taln.upf.edu� 15 miembros: 8 investigadores/profesores, 4 estudiantes de doctorado,

un pre doctorando, un programador, un personal de administración.

� Estamos en la Universitat Pompeu Fabra, Campus de la Comunicación, Barcelona

� Generación de lenguaje� A partir de datos/ontologías/representaciones conceptuales

� Procesamiento de lenguaje natural� Resumen automático, extracción de informaciones, minería de textos

� Recursos � Corpora, analizadores, generadores, herramientas de resumen, herramientas

de anotación

Page 2: curso-escuela-verano-esp - UPF

29/07/2012

2

© Horacio Saggion - 2012

Universidad de verano Rafael Altamira

Universidad de Alicante

Procesamiento del lenguaje natural (PLN)

� Es una rama de la informática que se encarga de la

investigación en comprensión y generación automática de

lenguaje

� Se estudian problemas o tareas de diverso tipo:

� etiquetado morfosintáctico, análisis sintáctico, análisis

semántico, desambigüación de sentidos, etc.

� Se estudia como automáticamente realizar tareas prácticas

� Traducción automática

� Generar resúmenes

� Responder a preguntas

� Extraer informaciones de un texto

� Identificar la subjetividad de un texto y su orientación

© Horacio Saggion - 2012

Universidad de verano Rafael Altamira

Universidad de Alicante

Procesamiento del lenguaje natural (PLN)

� Existen muchos conceptos/terminología propios

� Corpus: colección de textos generalmente construida para un fin específico,

pero también para estudiar el lenguaje en general

� Corpus paralelo: colección de pares de textos relacionados

� Anotación: proceso que enriquece datos con anotaciones o etiquetas de

diverso tipo

� Etiquetado morfosintáctico (parts-of-speech tagging – POS tagging) : asociar

una etiqueta lexical a cada palabra

� Análisis sintáctico: asociar una interpretación a una oración basada en una

gramática u otra teoría sintáctica

� Análisis semántico: mapear las palabras, frases, etc. a representaciones

conceptuales (lógica de predicados, formularios, etc.)

� Léxico: lista de palabras, a veces con información adicional

� WordNet: es la base de datos léxica mas utilizada en PLN

© Horacio Saggion - 2012

Universidad de verano Rafael Altamira

Universidad de Alicante

Procesamiento del lenguaje natural (PLN)

� Como en muchas otras disciplinas:

� Muchas tareas en las cuales se obtienen resultados muy buenos

� Etiquetado morfosintáctico

� Muchas más tareas en las cuales no se han alcanzado buenos

resultados

� Evaluación es un componente fundamental en PLN

� Evaluación intrínseca: comparar lo que produce la máquina con lo que

produce el humano

� Evaluación extrínseca: dar a un humano lo que produce la máquina y

pedirle que haga una tarea para la cual se espera un producto perfecto

� Métricas de evaluación son fundamentales para medir y comparar los

resultados de sistemas diferentes

� Baselines: son sistemas automáticos muy simples que hacen la tarea

pero “bastante” mal

© Horacio Saggion - 2012

Universidad de verano Rafael Altamira

Universidad de Alicante

Simplificación de textos

� Proceso de transformar un texto en un equivalente que es mas fácil de entender por una audiencia determinada

� En la simplificación las oraciones complejas se dividen en oraciones mas simples y el vocabulario complejo se reemplaza por un vocabulario común

� Comenzó a atraer la atracción del procesamiento de lenguaje natural hace más de 10 años (Chandrasekaret al. 1996)

� Varios eventos se organizan en el tema cada año:

� 2012: ICCHP, SLPAT, NLP4ITA, PITR

Page 3: curso-escuela-verano-esp - UPF

29/07/2012

3

© Horacio Saggion - 2012

Universidad de verano Rafael Altamira

Universidad de Alicante

La Cruz Roja ayuda a 500000 somalíes afectados por la guerra y la sequía.

La Cruz Roja ayuda a Somalía.

La Cruz Roja es una organización que ayuda a personas y países.

Difícil deentender

Fácil de entender

Dos ideas en una oración, vocabulario es complej o

Una oración, una ideaSe explican las palabras difíciles

Cruz Roja?

sequía?

Una

explicación de

Cruz Roja!

Ejemplo

© Horacio Saggion - 2012

Universidad de verano Rafael Altamira

Universidad de Alicante

Usuarios de textos simplificados

� Colectivos que necesitan textos simples

� Personas con poca alfabetización, inmigrantes, personas con

discapacidad cognitiva, personas que aprenden una segunda

lengua, ancianos, afásicos, disléxicos, autistas, etc.

� Es particular relevante la declaración de las naciones unidas sobre

los derechos de las personas con discapacidad

� La necesidad por contenido simplificado puede llegar al 25% de la

población

� A tener en cuenta: en 2025 9% de la población europea tendrá 75

años o más…

� La simplificación de textos es necesaria para: noticias, información

gubernamental, leyes y derechos, etc.

© Horacio Saggion - 2012

Universidad de verano Rafael Altamira

Universidad de Alicante

Simplificación manual de textos

� Iniciativas para la lectura fácil� Plain English / Basic English (Ogden, 1930);

� French Rationale (Barthe et al, 1999);

� Easy-to-Read network (Petz andTronbacke, 2008);

� Fácil Lectura (http://www.lecturafacil.net);

� European Association Inclusion Europe

� Guías de lectura fácil� Lenguaje simple y directo;

� Una idea por oración;

� Evitar tecnicismos y abreviaturas;

� Una palabra un concepto;

� Personalizar el texto;

� Usar la voz activa

© Horacio Saggion - 2012

Universidad de verano Rafael Altamira

Universidad de Alicante

Wikipedia simple (en inglés)

Opera is a drama set to music.An opera is a play in which everything is sung instead of spoken.

Operas are usually performed in opera houses.

Page 4: curso-escuela-verano-esp - UPF

29/07/2012

4

© Horacio Saggion - 2012

Universidad de verano Rafael Altamira

Universidad de Alicante

Wikipedia normal

Opera is an art form in which singers and musicians perform a dramatic work combining text (called a libretto) and musical score.

The performance is typically given in an opera house, accompanied by an orchestra or smaller musical ensemble.

© Horacio Saggion - 2012

Universidad de verano Rafael Altamira

Universidad de Alicante

Portal e-Include de la UE

© Horacio Saggion - 2012

Universidad de verano Rafael Altamira

Universidad de Alicante

Portal de noticias fáciles en español

© Horacio Saggion - 2012

Universidad de verano Rafael Altamira

Universidad de Alicante

Noticias fáciles en sueco

Page 5: curso-escuela-verano-esp - UPF

29/07/2012

5

© Horacio Saggion - 2012

Universidad de verano Rafael Altamira

Universidad de Alicante

Oportunidades para el procesamiento del

lenguaje natural

� Es mucho trabajo simplificar textos manualmente

� Es imposible esperar a que el contenido hoy existente sea simplificado manualmente

� Parte del trabajo podría ser realizado por máquinas� Simplificación total/parcial

� Herramientas como editores podrían incorporar útiles para la preparación de textos simples

� La simplificación podría ayudar también en otras tareas de procesamiento de lenguaje� Simplificar el texto antes de:

� Hacer un resumen

� Contestar a preguntas

� Extraer informaciones

© Horacio Saggion - 2012

Universidad de verano Rafael Altamira

Universidad de Alicante

� Reglas sintácticas sobre análisis superficial (Chandrasekar et al. 1996; Siddharthan, 2002)

� Análisis superficial (ckunking) para identificar grupos nominales y verbos

� Reglas: W X:NP, RELPRO Y, Z. => W X:NP Z. X:NP Y.

� Hu Jintao, who is the current Paramount Leader of the People’s Republic of China, was visiting Spain� W = ∅� X: =Hu Jintao

� RELPRO:=who

� Y = is the current Paramount Leader of the People’s Republic of China

� Z= was visiting Spain

� � Hu Jintao was visiting Spain. Hu Jintao is the current Paramount Leader of the People’s Republic of China.

� Reglas son manualmente desarrolladas

Primeros pasos en simplificación

automática

© Horacio Saggion - 2012

Universidad de verano Rafael Altamira

Universidad de Alicante

� Aprendiendo reglas de transformación (Chandrasekar & Srinivas, 1996)� (O) Talwinder Singh, who masterminded the 1984 Kanishka crash, was killed in a fierce

two-hour encounter.

� (S) Talwinder Singh was killed in a fierce two-hour encounter. Talwinder Singh

masterminded the 1984 Kanishka crash.

Primeros pasos en simplificación

automática

was killed

the… crash

Talwinder Singh

who

mastermined

in … encounter

was killed

the… crash

Talwinder Singh

mastermined

in … encounter

Talwinder Singh

CORTARCOPIAR

relativa

ORIGINAL SIMPLIFICADO

© Horacio Saggion - 2012

Universidad de verano Rafael Altamira

Universidad de Alicante

• Proyecto PSET: “Practical Simplification of English Texts” (Devlin & Tait, 1998)

• Específicamente para simplificar textos para personas con afasia

� Transformación de voz pasiva a voz activa� “A bid to build an incinerator on local wasteland was today accepted by the council.” => The

council today accepted a bid to build an incinerator on local wasteland.

� “Official documents were left on the underground by mistake.” => Mistake left officialdocument on the underground.

� Resolución de expresiones anafóricas� Se utilizó un sistema estándar de resolución de correferencia y se reemplazaron

pronombres por referentes

� Simplificación del vocabulario� Reemplazo de palabras poco frecuentes por un sinónimo más frecuente, se usa una

base de datos psicolingüística y WordNet

Primeros pasos en simplificación

automática

Page 6: curso-escuela-verano-esp - UPF

29/07/2012

6

© Horacio Saggion - 2012

Universidad de verano Rafael Altamira

Universidad de Alicante

¿Qué hace que un texto sea difícil de

leer/entender?

� Existe una serie de fórmulas que pretenden asociar

un texto con su nivel de legibilidad (“readability” en

inglés)

� Algunas de las fórmulas son sumamente simples

� se basan en conceptos como complejidad de la

palabra, frecuencia de palabras, longitud de

frases,…

� Se han usado en experimentos que muestran

correlación con niveles de legibilidad de textos

particulares

© Horacio Saggion - 2012

Universidad de verano Rafael Altamira

Universidad de Alicante

Algunas fórmulas para el inglés

� Flesch (1949)

� S=206.835 – (1.015*ASL) –(84.6*ASW)

� S va de 0 a 100, 30 es muy difícil, 70 razonable, 100 fácil

� ASL = promedio de longitud de las oraciones

� ASW = promedio de silabas por palabra

� FOG index (Gunning, 1952)

� S= 3.0680 + (0.877 * ASL) + (0.984 * PofM)

� PofM es el porcentaje de monosílabos sobre todas las palabras

© Horacio Saggion - 2012

Universidad de verano Rafael Altamira

Universidad de Alicante

Algunas fórmulas para el inglés

� Flesch-Kincaid (Kincaid et al, 1986)

� Nivel = (.39 x ASL) + (11.8 x ASW) - 15.59.

� ASL = promedio de palabras en oraciones (# palabras /#

oraciones).

� ASW = promedio de sílabas/palabra (# silabas /#

palabras).

� Un índice razonable de dificultad está entre 6 y 10.

© Horacio Saggion - 2012

Universidad de verano Rafael Altamira

Universidad de Alicante

Uso de modelos de lenguaje para la predicción

� Las medidas que usan longitud de palabra y longitud

de oración como predictores son bastante criticadas

� Los modelos de lenguaje son sumamente utilizados

en PLN y pueden usarse para medir la complejidad

de un texto (Si & Callan, 2001)� Predecir la complejidad puede tratarse como un problema de

clasificación clásico

� Aquí se estiman las probabilidades de que un grado de dificultad dado

un documento p(g|d)

� La formula usada se basa en la fórmula de Bayes

)(

)|()()|(

dp

gdpgpdgp =

Page 7: curso-escuela-verano-esp - UPF

29/07/2012

7

© Horacio Saggion - 2012

Universidad de verano Rafael Altamira

Universidad de Alicante

Uso de modelos de lenguaje para la predicción

� Las diferentes probabilidades se estiman de la siguiente

manera:

� P(d|g) como un modelo unigrama (el documento se considera un

conjunto de palabras)

� P(g) como la probabilidad a priori de una dificultad g

� P(d) se elimina de la ecuación pues no afecta el resultado

� Este modelo se combina con un modelo de longitud de frase,

que se estima asumiendo una distribución normal de

longitudes por cada nivel de dificultad

� Un modelo combinado tiene mucho mas poder predictivo que

el clásico test Flesch-Kincaid

© Horacio Saggion - 2012

Universidad de verano Rafael Altamira

Universidad de Alicante

Algunas fórmulas para el español

� La fórmula de Spaulding (1956)

� Encontró dos factores que tienen correlación con la

dificultad del texto

� Estos dos factores no se correlacionan entre ellos

� Longitud de la frase (promedio) = ASL

� La densidad o uso del vocabulario (excluyendo vocablos

de una lista pre-definida de 1500 palabras) =Densidad

� Dificultad = 1.609 * ASL + 33.8 * Densidad +22

� El método también tiene un grafico de legibilidad que se

usa para mapear los valores en una valor determinado

© Horacio Saggion - 2012

Universidad de verano Rafael Altamira

Universidad de Alicante

Algunas fórmulas para el español

� El método FRASE (Vari-Cartier, 1981)

adaptación del método FRY

� Seleccionar 3 pasajes al azar c/uno con 100 palabras

� Calcular el promedio de sílabas y el promedio del número

de oraciones en los 3 pasajes

� Representar la información en un gráfico (adaptado

p/español)

© Horacio Saggion - 2012

Universidad de verano Rafael Altamira

Universidad de Alicante

Base de datos léxica WordNet

• (Fellbaum, 1998)

Page 8: curso-escuela-verano-esp - UPF

29/07/2012

8

© Horacio Saggion - 2012

Universidad de verano Rafael Altamira

Universidad de Alicante

Base de datos léxica WordNet

© Horacio Saggion - 2012

Universidad de verano Rafael Altamira

Universidad de Alicante

Simplificación Léxica

� Combinación de un léxico y un modelo de lenguaje (De Belder & al. 2010)� Dada una palabra en un texto, se generan 2 listas de palabras

� L1: una lista de sinónimos de una base de datos léxica

� L2: una lista de palabras alternativas generadas a partir de un modelo de lenguaje

� Se usa un modelo probabilístico donde se estima la probabilidad de reemplazar una palabra por otra � P1(w|w_original)=P2(w|w_original,contexto)*P3(facil|w)

� La estimación de P2 es por un modelo de lenguaje

� La estimación de P3 es por frecuencia, complejidad morfosintáctica, etc.

� En otro trabajo crean un dataset para la evaluación en inglés

© Horacio Saggion - 2012

Universidad de verano Rafael Altamira

Universidad de Alicante

Extracción de simplificaciones léxicas de la

Wikipedia

� La hipótesis es que cambios en la Wikipedia Simple corresponden a simplificaciones, pero no siempre… (Yatskar et al. 2010)

� Se necesita un modelo que nos diga cuando el cambio es una simplificación probable

� Se crean varios modelos:� Un modelo calcula la probabilidad de que cambios de una palabra “A” por otra

“a” se deban a correcciones, simplificaciones, etc.

� Se asumen que cambios en Wiki normal para simplificar son despreciables

� Se asume que la proporción de correcciones en la simple es igual a la compleja

� Se estima la probabilidad de cambiar “A” por “a” usando frecuencias

� Se obtiene un modelo de cual es el reemplazo mas probable de A

� Otro método se fija en los comentarios dejados por los editores

� Se busca cual substitucion de “A” por “a” es mas fuerte utilizando la medida de asociación PMI (point-wise mutual information)

© Horacio Saggion - 2012

Universidad de verano Rafael Altamira

Universidad de Alicante

Extracción de simplificaciones léxicas de la

Wikipedia

� Extracción de los datos:

� Se alinean oraciones entre las diferentes versiones y se buscan que palabras fueron substituidas obteniendo pares A -> a

� Dos métodos baseline:

� Frecuencia: la substitución mas frecuente

� Random: una cualquiera del conjunto de substituciones

� Se compara con una lista creada manualmente por un editor de la Wikipedia

� Humano > Modelo de Lenguaje > PMI > FREQ >= RANDOM

Page 9: curso-escuela-verano-esp - UPF

29/07/2012

9

© Horacio Saggion - 2012

Universidad de verano Rafael Altamira

Universidad de Alicante

Aprendiendo reglas de simplificación

automáticas

� Se usan también WE y SWE (Biran et al. 2011)

� WE se usa para extraer vectores de contexto p/c palabra (co-occurrencias entre la palabra y sus vecinos)

� Para saber que palabras se pueden reemplazar por otras se calcula la “similitud” entre estos vectores

� Esta similitud se calcula como el coseno del ángulo entre los dos vectores

© Horacio Saggion - 2012

Universidad de verano Rafael Altamira

Universidad de Alicante

Aprendiendo reglas de simplificación

automáticas

� Como implementar la simplicidad de una

palabra, supongamos las palabras “canine”

(canino) y “dog” (perro)

� Verificar si ocurre mas en SWE o en WE

� Canine aparece 9620 veces en WE

� Canine aparece 62 veces en SWE

� Dog aparece 171000 veces en WE

� Dog aparece 1360 en SWE

© Horacio Saggion - 2012

Universidad de verano Rafael Altamira

Universidad de Alicante

Aprendiendo reglas de simplificación

automáticas

� complejidad(canine) = 9620/62 = 155

� complejidad(dog) = 171000/1360 = 125

� Tambien se determina la complejidad de una palabra según su longitud

� long(canine)=6, long(dog)=3

� complejidad_final=complejidad*long

� cf(canine)=155*6=930

� cf(dog)=125*3=375

� canine “es mas dificil que” dog

© Horacio Saggion - 2012

Universidad de verano Rafael Altamira

Universidad de Alicante

Aprendiendo reglas de simplificación

automáticas

� Gramaticalidad: generar los pares que son equivalentes, si una palabra en el pasado, su reemplazo en el pasado, etc.

� Para elegir que palabra usar para simplificar, se calcula la similitud del contexto donde la palabra aparece contra los contextos de los posibles reemplazos

� Evaluación no contempla un escenario realista donde varias palabras son simplificadas

Page 10: curso-escuela-verano-esp - UPF

29/07/2012

10

© Horacio Saggion - 2012

Universidad de verano Rafael Altamira

Universidad de Alicante

Tarea de simplificación léxica

� En 2012 se propuso la tarea de simplificación léxica para el inglés (Speciaet al. 2012) – SemEval-2012

� Basada en el trabajo previo de substitución léxica (McCarthy & Navigli, 2007)

� Tres aspectos

� análisis de complejidad

� búsqueda de substitutos

� ranking basado en contextos

� Se crea un conjunto de datos consensuado basado en la agregación de las informaciones de varios anotadores

� Ejemplo: “… a bright boy…”; bright = intelligent (3); clever (3); smart(1)

� La tarea: reemplazar la palabra por el substituto mas apropiado

� 10 sistemas participan de la evaluación, un sistema basado en frecuencia funciona muy bien y es superado por solo un sistema mas sofisticado (por pocos puntos)

© Horacio Saggion - 2012

Universidad de verano Rafael Altamira

Universidad de Alicante

� Estudio de casos de simplificación e implementación de procedimientos de simplificación (Aluísio & al, 2008)

� “The book, which John gave me, belongs to Paul”

� Encontrar pronombre relativo y verificar que se trata de una clausula no restrictiva

� Encontrar el final de la relativa

� Generar una oración con la relativa

� Generar una segunda oracion con la principal y reordenar

� “The book belongs to Paul. John gave me the book.”

� Varios procedimientos se ocupan de diferenctes fenómenos y una “cascada” de procedimientos se ocupa de procesar las oraciones

Simplificando portugués: PorSimples

© Horacio Saggion - 2012

Universidad de verano Rafael Altamira

Universidad de Alicante

Aprender a simplificar automáticamente

� El contexto de este trabajo está en considerar la simplificación

como un problema de traducción (Coster & Kauchak, 2011)

� lenguaje normal a lenguaje simple

� Se aplica en un contexto donde se tienen muchos ejemplos de

oraciones y sus simplificaciones

ORACIÓN ORIGINAL ORACIÓN SIMPLIFICADA

Greene agreed that she could earn more by

breaking away from 20th Century Fox.

Greene agreed that she could earn more by

leaving 20th Century Fox.

In 1962, Steinbeck received the Nobel Prize

for Literature.

Steinbeck won the Nobel Prize in Literature

in 1962.

They established themselves here and called

that port Menestheus’s port.

They called the port Menestheus’s port.

© Horacio Saggion - 2012

Universidad de verano Rafael Altamira

Universidad de Alicante

Aprender a simplificar automáticamente

� En contexto mas específico es el de traducción automática estadística y en particular la traducción por “frases”

� Un modelo de traducción automática estadística se basa en la fórmula de probabilidades siguiente:� P(e|f) la probabilidad de que un texto e sea la buena traducción de un

texto f

� esta probabilidad se aproxima con la fórmula P(e)*P(f|e)� P(e) es un modelo de lenguaje

� p(f|e) es un modelo de traducción

� dado un texto f se busca aquel texto e que maximiza la fórmula

� encontrar el mejor e requiere examinar todas las posibilidades lo que no es computacionalmente factible, se recurre entonces a una búsqueda heurística

� No se puede modelar directamente, sino que hay que recurrir a los componentes de los textos y las oraciones para aproximar estas probabilidades (ej. las palabras!)

Page 11: curso-escuela-verano-esp - UPF

29/07/2012

11

© Horacio Saggion - 2012

Universidad de verano Rafael Altamira

Universidad de Alicante

Aprender a simplificar automáticamente

� Creación de un corpus de entrenamiento y test

� Alinear articulos de la Wiki Simple y Wiki Normal

� Alinear parrafos en los textos utilizando una medida de similitud

� Alinear oraciones usando programación dinámica

� Modelo de simplificación basado en traducción automática estadística usando el sistema Moses (Koehn et al, 2007)

� cada si es una “frase” en una oración simple y cada ni es una “frase” en una oración normal

� Para el cálculo de “frases” de usa un paquete llamado GIZA++ (Och& Ney, 2000)

� Normalmente no hay frases nulas en los modelos de traducción por frases, pero en simplificación es necesario incorporarlas

∏ == m

iii nspnormalsimplep

1)|()|(

© Horacio Saggion - 2012

Universidad de verano Rafael Altamira

Universidad de Alicante

Aprender a simplificar automáticamente

� Algunas probabilidades aprendidas

� Experimentación y evaluación

� Se comparan diferentes técnicas� Sistema de traducción normal

� Sistema de traducción con la inclusión de borrado de frases

� Sistema que no hace nada (baseline)

� Otros sistemas conocidos de simplificación (Cohen & Lapata, 2009; Knight & Marcu, 2002)

� Medidas de evaluación� BLEU (Papineni et al, 2002) que se usa en traducción automática

� Simple string accuracy (Clarke & Lapata, 2006)

� F-score sobre las palabras

� Se muestra que en todas las medidas� El sistema de traducción automática por frases con borrado es el mejor y el

segundo es el sistema de traducción automática sin borrado

� El sistema que no hace nada es mejor que los más sofisticados

FRASE A BORRAR

PROB

, 0.057

however, 0.00095

the city of 0.00034

approximately 0.00025

© Horacio Saggion - 2012

Universidad de verano Rafael Altamira

Universidad de Alicante

Aprendiendo a partir de árboles sintácticos

� Se basa también en un corpus de textos comparables

<C,S> de textos complejos y simples (Zhu et al. 2010)

� Wikipedia/Wikipedia Simple

� Otras enciclopedias tienen versiones normales y simples,

pero generalmente no estan disponibles on-line

� Este trabajo modela:

� Reemplazo de palabras y frases

� Simplificación sintactica se modela como operaciones en

árboles

� “Split”, “Drop”, “Copying”, “Reordering”

© Horacio Saggion - 2012

Universidad de verano Rafael Altamira

Universidad de Alicante

August was the monthsixt

h

in the ancient Roman calendar

which

started

in 735BC

S

NP

NPPP

NP

WHNP

VPVP

PP

SBAR

S

PHRASE STRUCTURE OF COMPLEXT SENTENCE

August was the sixth month in the ancient Roman calendar which started in 735BC.

Aprendiendo a partir de árboles sintácticos

Page 12: curso-escuela-verano-esp - UPF

29/07/2012

12

© Horacio Saggion - 2012

Universidad de verano Rafael Altamira

Universidad de Alicante

August wa

s

the monthsixt

h

in the ancient Roman calendar

which

started

in 735BC

S

NP

NPPP

NP

WHNP

VPVP

PP

SBAR

S

SEGMENTACIÓNPROBABILIDADESASOCIADAS A PUNTOS DE CORTE

Aprendiendo a partir de árboles sintácticos

© Horacio Saggion - 2012

Universidad de verano Rafael Altamira

Universidad de Alicante

August was

in the

started

in 735BC

S

NP

NPPP

VPVP

PP

ancient Roman calendar

NP

S

the monthsixt

h

COPIADO DE SUJETOS

ancient Romancalendar

NP

the

PROBABILIDAD DECOPIAR UN COMPONENTE

Aprendiendo a partir de árboles sintácticos

© Horacio Saggion - 2012

Universidad de verano Rafael Altamira

Universidad de Alicante

August was

in the

started

in 735BC

S

NP

NPPP

VPVP

PP

ancient calendar

NP

S

the monthsixt

h

ELIMINAR Y REORDENARCOMPONENTES

ancient

calendar

NP

the

PROBABILIDADESDE ELIMINAR Y REORDENAR

Aprendiendo a partir de árboles sintácticos

© Horacio Saggion - 2012

Universidad de verano Rafael Altamira

Universidad de Alicante

August was

in the

started

in 735BC

S

NP

NPPP

VPVP

PP

old calendar

NP

S

the monthsixt

h

REEMPLAZO DE PALABRAS

oldcalendar

NP

the

PROBABILIDADESDE REEMPLAZARUNA PALABRA POR OTRAS

August was the sixth month in the old calendar. The old calendar started in 735BC.

Aprendiendo a partir de árboles sintácticos

Page 13: curso-escuela-verano-esp - UPF

29/07/2012

13

© Horacio Saggion - 2012

Universidad de verano Rafael Altamira

Universidad de Alicante

Aplicaciones: simplificación léxica en resumen

automático

� La idea es presentar un resumen de texto al cual se le

ha aplicado simplificación léxica (Pal & Ruger, 2002)

� Dada una oración para cada palabra se analiza su

complejidad usando una base de datos utilizada en

psicolingüística

� Para cada palabra de la oración se buscan las mas

complejas

� Se usa WordNet para buscar los sinónimos y se

escoge el mas fácil

� Se declina el sinónimo apropiadamente

© Horacio Saggion - 2012

Universidad de verano Rafael Altamira

Universidad de Alicante

Simplificación p/subtitulado

� Objetivo es reducir el número de caracteres dadas las restricciones físicas del medio, una operación importante es la eliminación de material (Daeleman et al, 2004)

� Substitución/parafrasear el texto

� Problemas: � se hace on-line a medida que se procesa el habla

� la cantidad de material a reducir debe computarse dinámicamente

� Datos: transcripciones del habla y los subtítulos generados

� Métodos:� algoritmos de aprendizaje de máquina

� sistema basado en conocimiento