Download - Azerhitz Sepln 08

IntroducciónExtracción de equivalencias terminológicas

Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro

Referencias

Extracción de Traducciones de Términos a partir deCorpus Comparables pertenecientes a áreas

específicas

Xabier Saralegi Iñaki San Vicente Maddalen López de Lacalle

Fundación ElhuyarI+D

SEPLN 2008, Leganés12/09/2008

Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas



Referencias

Indice

1 IntroducciónMarco y Contexto del TrabajoMétodos para la Extracción de Terminología Bilingüe

2 Extracción de equivalencias terminológicasEsquema General del ProcesoConstrucción de ContextosTraducción de los ContextosBúsqueda de Equivalentes

3 Experimentos Diseñados y ResultadosCreación del CorpusEvaluación del Método de Extracción

4 Conclusiones y Perspectivas para el Futuro




Referencias

Marco y Contexto del TrabajoMétodos para la Extracción de Terminología Bilingüe

Índice








Referencias


Marco y Contexto del Trabajo

Proyecto Azerhitz:Objetivo: crear una herramienta para la extracción de terminologíabilingüePar de lenguas euskera-castellano/inglés/francés/. . .Dominio científicoCorpus comparables como fuente. ¿Por qué?

El euskera es una lengua de recursos limitados,gran dificultad para obtener corpus paralelos

Trabajo precedente (Saralegi, San Vicente, and Gurrutxaga,2008):

Técnicas de extracción de terminología bilingüe eu-en partir decorpus comparablesEstudio sobre el grado de comparabilidad y su efecto en la calidadde la extracción




Referencias


Índice








Referencias


Métodos para la Extracción de Terminología Bilingüe

ParadigmasSimilitud entre contextos (Fung, 1995), (Rapp, 1999): “Lastraducciones equivalentes ocurren dentro de contextos similares”Similitud ortográfica-fonética: detección de cognados

Objetivos del trabajoMejorar el cálculo de similitud entre contextos:

Tratamiento de ambigüedad y falta de cobertura en la traducción decontextosModelos probabilísticos para el cálculo de similitud

Diseño de un método de extracción híbrido: Combinación de losdos paradigmas




Referencias

Esquema General del procesoConstrucción de ContextosTraducción de los ContextosRanking de Equivalentes

Índice








Referencias


Algoritmo de extracción




Referencias


Índice








Referencias


Construcción de Contextos




Referencias


Construcción de Contextos I

Preproceso:Corpus lematizado y etiquetado mediante Eustagger (euskera) yTreetagger (castellano)Palabras clave: nombres comunes, adjetivos, verbos




Referencias


Construcción de Contextos II

Representación de contextos:Básado en el paradigma ”bag-of-words”Contextos delimitados mediante ventanas y/o marcas de puntuación.Tamaños de ventana diferentes para cada lengua:

Euskera→ 10 (±5)Castellano→ 14 (±7)

Ejemplo

“ Las [ pilas de combustible funcionan de forma similar a las

baterías pero éstas sólo almacenan energía y las pilas la generan a

través de la combustión de hidrógeno de forma limpia, eficiente ] y

sostenible.”

Palabras ponderadas dentro del contexto mediante Log LikelihoodRatio (Baseline)




Referencias


Construcción de Contextos: Modelos Probabilísticos

Representación (implícita en el ranking) mediante modelosprobabilísticos para IR (Terrier1 )

Okapi (BM25)PL2: instancia del framework Divergence From Randomess

Por cada término candidato se indexa un documentoEse documento está formado por las palabras que aparecen enlos contextos del término candidato en el corpus

1http://http://ir.dcs.gla.ac.uk/terrier/Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas



Referencias


Índice








Referencias


Traducción de los Contextos




Referencias


Traducción de los Contextos

Para calcular el grado de semejanza entre contextos estos hande ser traducidos en una dirección

Traducción guiada por diccionarios electrónicos (MRD)Problemas inherentes a la traducción guiada por diccionarios:

Ambigüedad en la traducción→ Estrategias de selecciónFalta de cobertura→ Tratamiento de palabras OOV




Referencias


Selección de Traducción

Primera traducción: la primera es normalmente la más probable

Algoritmo basado en concurrencias (Gao et al., 2001)

Las traducciones correctas de las diferentes palabras queconforman un contexto tienen un grado de asociación mayor quela traducciones erróneas

El algoritmo busca la combinación de traducciones que maximizael grado de asociación global o cohesión




Referencias


Algoritmo Basado en Concurrencias (Gao et al., 2001)

(1) Given a Basque (source language) querye = {e1,e2, ...,en}, for each query term e, wedefine a set of m distinct Spanish translationsaccording to a bilingual dictionaryD : D(ei) = {ci,1,ci,2, ...,ci,m}.

(2) For each set D(ei):

(a) For each translation ci,j ∈ D(ei), definethe similarity score between the translation ci,j anda set D(ek )(k 6= i) as the sum of the similaritiesbetween ci,j and each translation in the set D(ek )according to Eq. (1)

am(ci,j ,D(ek )) = ∑ck ,l∈D(ek )

am(ci,j ,ck ,l) (1)

(b) Compute the cohesion score for ci,j as

cohesion(ci,j | e,D) = log ∑D(ek )

am(ci,j ,D(ek ))

(2)(c) Select the translation c ∈ D(ei) with the

highest cohesion score

c = argmaxce,j∈D(ei )cohesion(ce,j | e,D) (3)




Referencias


Tratamiento de Palabras OOV

Cobertura del MRD→' 55 %Incremento de la cobertura de la traducción del contextomediante el uso de cognados

Reglas de transformación:c→ k acta=akta normalizar n-gramas fonológicos equivalentes-ción→ -zio, acción=akzio transformaciones regulares-ción→ -zio, acción=akzio transformaciones regulares

Similitud ortográfica: Cálculo de LCSR entre término a traducir ycandidatos a traducción (LCSR > 0.8→ traducción correcta)

Ejemplo

Chimpancé - Txinpantze:chimpancé (é→ e) = chimpance (ch-→ tx) = tximpance (mp→ np) = txinpance (ce→ ze) =txinpanzeLCSR(txinpantze, txinpanze) = 0,9




Referencias


Índice








Referencias


Búsqueda de Equivalentes




Referencias


Ranking de Equivalentes I

El contexto traducido del término a traducir (euskera) escomparado con los contextos de los candidatos en el idioma dedestino (castellano).

Ranking en base a la similitud entre contextos

Restricción: Los candidatos a traducción comparten la categoríagramatical con la palabra de origen

Vectores de contexto (Baseline):Ranking de acuerdo a medidas de similitud: Jaccard, Dice,Cosine, . . .

Modelos probabilísticos:Ranking de acuerdo a modelos probabilísticos: Okapi, DFR




Referencias


Ranking de Equivalentes II

Mejora de la precisión obtenida en el ranking:

La detección de cognados se aplica entre los 100 primeroscandidatos, tal y como se ha explicado en la sección 3

LCSR > 0,834. Si más de un candidato supera el umbral aquelcon el valor LCSR mas alto es elegidoLos traducciones obtenidas con este método son promocionadasa la 1a posición del ranking




Referencias

Creación del CorpusEvaluación del Método de Extracción

Índice








Referencias


Creación del Corpus I

Corpus en euskera = noticias de www.zientzia.netCorpus en castellano = noticias de www.madrimasd.orgComparabilidad:

Periodo: 2000-2007Ambas webs ofrecen noticias científicas, del género divulgativo.Distribución temática de los documentos del corpus:

Tema Madri+d Zientzia.netBiología, Alimentación, Agricultura yPesca

36,59 % 24,31 %

Salud 9,73 % 16,26 %Ciencias de la Tierra 6,12 % 10,44 %Física, Química y Matemáticas 6,65 % 7,18 %Tecnología e Industria 29,45 % 24,15 %Energía y Medio Ambiente 11,45 % 7,35 %




Referencias


Creación del Corpus II

Características del corpus:

Corpus #palabras #doceu es eu es

Test Corpus 1.092K 1.107K 2521 1242




Referencias


Índice








Referencias


Test Set

Términos equivalentes euskera-castellano:Pares de términos que aparecen en los corpus y no estánrepresentados en el diccionario utilizado para traducir loscontextos

Equivalencia verificada automáticamente→ Diccionariosespecializados(Euskalterm, ZThiztegia)

Ambos términos tienen una frequencia mínima determinadaDos listas de términos (100 pares de términos por lista)

10≤ frecuencia del término ≤ 30frecuencia del término > 50




Referencias


Aspectos Evaluados

Representación de contextos y cálculo de similitud:LLR y cosenomodelos probabilísticos: Okapi (b=0,75) / Pl2 (c=1)

Métodos de Traducción:Selección de la primera traducciónAlgoritmo de selección de máxima coherencia

Detección de cognados para el tratamiento de palabrasdesconocidas (OOV)

Ranking de candidatos a traducciones:Similitud entre contextosHibridación similitud de contextos + cognados




Referencias


Representación de Contextos y Cálculo de Similitud

Precisión mediaTop1

Top5

Top10

Top15

Top20

LLR +cos

0,27 0,52 0,62 0,65 0,65

Okapi 0,34 0,47 0,60 0,65 0,69PL2 0,37 0,50 0,61 0,68 0,73

Cuadro: Precisión obtenida para lostérminos de frecuencia alta (> 50).Comparativa del baseline (LLR+cos) conlos modelos probabilísticos Okapi y PL2.


Top5

Top10

Top15

Top20

LLR +cos

0,07 0,15 0,17 0,18 0,23

Okapi 0,05 0,12 0,17 0,21 0,23PL2 0,06 0,16 0,21 0,23 0,24

Cuadro: Precisión obtenida para lostérminos de frecuencia media-baja([10..30]). Comparativa del baseline(LLR+cos) con los modelos probabilísticosOkapi y PL2.




Referencias


Influencia de los Métodos de Selección / Detección deCognados


Top5

Top10

Top15

Top20

PL2+First 0,37 0,50 0,61 0,68 0,73PL2+Coo 0,37 0,50 0,64 0,68 0,72PL2+First+Cog

0,30 0,54 0,59 0,72 0,74

PL2+Coo+Cog

0,32 0,55 0,67 0,71 0,74

PL2+Coo+Cog+Cog-re

0,38 0,61 0,72 0,75 0,78

Cuadro: Precisión obtenida para lostérminos de frecuencia alta (> 50)combinando el modelo PL2 con las distintastécnicas implementadas.


Top5

Top10

Top15

Top20

PL2+First 0,06 0,16 0,21 0,23 0,24PL2+Coo 0,07 0,13 0,19 0,22 0,22PL2+First+Cog

0,05 0,16 0,23 0,25 0,26

PL2+Coo+Cog

0,06 0,18 0,19 0,25 0,26

PL2+Coo+Cog+Cog-re

0,28 0,39 0,40 0,45 0,46

Cuadro: Precisión obtenida para lostérminos de frecuencia media-baja ([10..30])combinando el modelo PL2 con las distintastécnicas implementadas.




Referencias


Resultados

Efecto de los cognados:Proceso de traducción de contextos: precisión '↑Aplicado entre los candidatos incluidos en el ranking:precisión ↑↑

Modelos probabilísticos superan LLR + coseno.PL2 > Okapi > LLR+cos

Términos de frecuencia alta: precisión ↑




Referencias

ConclusionesPerspectivas para el Futuro

Conclusiones

Integración de diferentes técnicas existentes y su adaptación aun nuevo par de lenguasLa detección de cognados ayuda a mejorar los resultados,utilizada tanto en el proceso de traducción de contextos comosobre el ranking final→ adecuado para corpus del área científica(alta presencia de cognados)El algoritmo de selección basado en concurrencias obtienepeores resultados que el método de la 1a traducción.

Análisis de los resultadosAfinado del algoritmo

}+Experimentación

Corpus de pequeño tamaño (sólo el %18 de las palabras enEuskera alcanzan una frequencia de 10)→ cobertura ↓ ↓




Referencias

ConclusionesPerspectivas para el Futuro

Perpectivas para el Futuro

Creación de corpus de mayor tamañoProfundizar en los experimentos

Algoritmos de selección de traduccionesModelos probabilísticos

Expandir trabajo a otras lenguas (Francés, Alemán, . . . )




Referencias

Referencias I

Fung, Pascale. 1995. Compiling bilingual lexicon entries from anon-parallel English-Chinese corpus. In David Yarovsky and KennethChurch, editors, Proceedings of the Third Workshop on Very LargeCorpora, pages 173–183, Somerset, New Jersey. Association forComputational Linguistics.

Gao, Jianfeng, Jian-Yun Nie, Endong Xun, Jian Zhang, Ming Zhou,and Changning Huang. 2001. Improving query translation forcross-language information retrieval using statistical models. In SIGIR’01: Proceedings of the 24th annual international ACM SIGIRconference on Research and development in information retrieval,pages 96–104. ACM.




Referencias

Referencias II

Rapp, Reinhard. 1999. Automatic identification of word translationsfrom unrelated english and german corpora. In ACL37, pages519–512, University of Maryland.

Saralegi, Xabier, Iñaki San Vicente, and Antton Gurrutxaga. 2008.Similitud entre documentos multilingües de carácter técnico en unentorno web. In Proceedings of "Building and Using ComparableCorpora"workshop (LREC 2008), Marrakech, May.




Referencias

Extracción de Traducciones de Términos a partir deCorpus Comparables pertenecientes a áreas

específicas

Xabier Saralegi Iñaki San Vicente Maddalen López de Lacalle

Fundación ElhuyarI+D

SEPLN 2008, Leganés12/09/2008