IntroducciónExtracción de equivalencias terminológicas
Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro
Referencias
Extracción de Traducciones de Términos a partir deCorpus Comparables pertenecientes a áreas
específicas
Xabier Saralegi Iñaki San Vicente Maddalen López de Lacalle
Fundación ElhuyarI+D
SEPLN 2008, Leganés12/09/2008
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas
IntroducciónExtracción de equivalencias terminológicas
Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro
Referencias
Indice
1 IntroducciónMarco y Contexto del TrabajoMétodos para la Extracción de Terminología Bilingüe
2 Extracción de equivalencias terminológicasEsquema General del ProcesoConstrucción de ContextosTraducción de los ContextosBúsqueda de Equivalentes
3 Experimentos Diseñados y ResultadosCreación del CorpusEvaluación del Método de Extracción
4 Conclusiones y Perspectivas para el Futuro
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas
IntroducciónExtracción de equivalencias terminológicas
Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro
Referencias
Marco y Contexto del TrabajoMétodos para la Extracción de Terminología Bilingüe
Índice
1 IntroducciónMarco y Contexto del TrabajoMétodos para la Extracción de Terminología Bilingüe
2 Extracción de equivalencias terminológicasEsquema General del ProcesoConstrucción de ContextosTraducción de los ContextosBúsqueda de Equivalentes
3 Experimentos Diseñados y ResultadosCreación del CorpusEvaluación del Método de Extracción
4 Conclusiones y Perspectivas para el Futuro
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas
IntroducciónExtracción de equivalencias terminológicas
Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro
Referencias
Marco y Contexto del TrabajoMétodos para la Extracción de Terminología Bilingüe
Marco y Contexto del Trabajo
Proyecto Azerhitz:Objetivo: crear una herramienta para la extracción de terminologíabilingüePar de lenguas euskera-castellano/inglés/francés/. . .Dominio científicoCorpus comparables como fuente. ¿Por qué?
El euskera es una lengua de recursos limitados,gran dificultad para obtener corpus paralelos
Trabajo precedente (Saralegi, San Vicente, and Gurrutxaga,2008):
Técnicas de extracción de terminología bilingüe eu-en partir decorpus comparablesEstudio sobre el grado de comparabilidad y su efecto en la calidadde la extracción
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas
IntroducciónExtracción de equivalencias terminológicas
Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro
Referencias
Marco y Contexto del TrabajoMétodos para la Extracción de Terminología Bilingüe
Marco y Contexto del Trabajo
Proyecto Azerhitz:Objetivo: crear una herramienta para la extracción de terminologíabilingüePar de lenguas euskera-castellano/inglés/francés/. . .Dominio científicoCorpus comparables como fuente. ¿Por qué?
El euskera es una lengua de recursos limitados,gran dificultad para obtener corpus paralelos
Trabajo precedente (Saralegi, San Vicente, and Gurrutxaga,2008):
Técnicas de extracción de terminología bilingüe eu-en partir decorpus comparablesEstudio sobre el grado de comparabilidad y su efecto en la calidadde la extracción
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas
IntroducciónExtracción de equivalencias terminológicas
Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro
Referencias
Marco y Contexto del TrabajoMétodos para la Extracción de Terminología Bilingüe
Marco y Contexto del Trabajo
Proyecto Azerhitz:Objetivo: crear una herramienta para la extracción de terminologíabilingüePar de lenguas euskera-castellano/inglés/francés/. . .Dominio científicoCorpus comparables como fuente. ¿Por qué?
El euskera es una lengua de recursos limitados,gran dificultad para obtener corpus paralelos
Trabajo precedente (Saralegi, San Vicente, and Gurrutxaga,2008):
Técnicas de extracción de terminología bilingüe eu-en partir decorpus comparablesEstudio sobre el grado de comparabilidad y su efecto en la calidadde la extracción
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas
IntroducciónExtracción de equivalencias terminológicas
Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro
Referencias
Marco y Contexto del TrabajoMétodos para la Extracción de Terminología Bilingüe
Marco y Contexto del Trabajo
Proyecto Azerhitz:Objetivo: crear una herramienta para la extracción de terminologíabilingüePar de lenguas euskera-castellano/inglés/francés/. . .Dominio científicoCorpus comparables como fuente. ¿Por qué?
El euskera es una lengua de recursos limitados,gran dificultad para obtener corpus paralelos
Trabajo precedente (Saralegi, San Vicente, and Gurrutxaga,2008):
Técnicas de extracción de terminología bilingüe eu-en partir decorpus comparablesEstudio sobre el grado de comparabilidad y su efecto en la calidadde la extracción
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas
IntroducciónExtracción de equivalencias terminológicas
Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro
Referencias
Marco y Contexto del TrabajoMétodos para la Extracción de Terminología Bilingüe
Índice
1 IntroducciónMarco y Contexto del TrabajoMétodos para la Extracción de Terminología Bilingüe
2 Extracción de equivalencias terminológicasEsquema General del ProcesoConstrucción de ContextosTraducción de los ContextosBúsqueda de Equivalentes
3 Experimentos Diseñados y ResultadosCreación del CorpusEvaluación del Método de Extracción
4 Conclusiones y Perspectivas para el Futuro
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas
IntroducciónExtracción de equivalencias terminológicas
Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro
Referencias
Marco y Contexto del TrabajoMétodos para la Extracción de Terminología Bilingüe
Métodos para la Extracción de Terminología Bilingüe
ParadigmasSimilitud entre contextos (Fung, 1995), (Rapp, 1999): “Lastraducciones equivalentes ocurren dentro de contextos similares”Similitud ortográfica-fonética: detección de cognados
Objetivos del trabajoMejorar el cálculo de similitud entre contextos:
Tratamiento de ambigüedad y falta de cobertura en la traducción decontextosModelos probabilísticos para el cálculo de similitud
Diseño de un método de extracción híbrido: Combinación de losdos paradigmas
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas
IntroducciónExtracción de equivalencias terminológicas
Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro
Referencias
Marco y Contexto del TrabajoMétodos para la Extracción de Terminología Bilingüe
Métodos para la Extracción de Terminología Bilingüe
ParadigmasSimilitud entre contextos (Fung, 1995), (Rapp, 1999): “Lastraducciones equivalentes ocurren dentro de contextos similares”Similitud ortográfica-fonética: detección de cognados
Objetivos del trabajoMejorar el cálculo de similitud entre contextos:
Tratamiento de ambigüedad y falta de cobertura en la traducción decontextosModelos probabilísticos para el cálculo de similitud
Diseño de un método de extracción híbrido: Combinación de losdos paradigmas
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas
IntroducciónExtracción de equivalencias terminológicas
Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro
Referencias
Esquema General del procesoConstrucción de ContextosTraducción de los ContextosRanking de Equivalentes
Índice
1 IntroducciónMarco y Contexto del TrabajoMétodos para la Extracción de Terminología Bilingüe
2 Extracción de equivalencias terminológicasEsquema General del ProcesoConstrucción de ContextosTraducción de los ContextosBúsqueda de Equivalentes
3 Experimentos Diseñados y ResultadosCreación del CorpusEvaluación del Método de Extracción
4 Conclusiones y Perspectivas para el Futuro
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas
IntroducciónExtracción de equivalencias terminológicas
Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro
Referencias
Esquema General del procesoConstrucción de ContextosTraducción de los ContextosRanking de Equivalentes
Algoritmo de extracción
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas
IntroducciónExtracción de equivalencias terminológicas
Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro
Referencias
Esquema General del procesoConstrucción de ContextosTraducción de los ContextosRanking de Equivalentes
Índice
1 IntroducciónMarco y Contexto del TrabajoMétodos para la Extracción de Terminología Bilingüe
2 Extracción de equivalencias terminológicasEsquema General del ProcesoConstrucción de ContextosTraducción de los ContextosBúsqueda de Equivalentes
3 Experimentos Diseñados y ResultadosCreación del CorpusEvaluación del Método de Extracción
4 Conclusiones y Perspectivas para el Futuro
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas
IntroducciónExtracción de equivalencias terminológicas
Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro
Referencias
Esquema General del procesoConstrucción de ContextosTraducción de los ContextosRanking de Equivalentes
Construcción de Contextos
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas
IntroducciónExtracción de equivalencias terminológicas
Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro
Referencias
Esquema General del procesoConstrucción de ContextosTraducción de los ContextosRanking de Equivalentes
Construcción de Contextos I
Preproceso:Corpus lematizado y etiquetado mediante Eustagger (euskera) yTreetagger (castellano)Palabras clave: nombres comunes, adjetivos, verbos
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas
IntroducciónExtracción de equivalencias terminológicas
Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro
Referencias
Esquema General del procesoConstrucción de ContextosTraducción de los ContextosRanking de Equivalentes
Construcción de Contextos II
Representación de contextos:Básado en el paradigma ”bag-of-words”Contextos delimitados mediante ventanas y/o marcas de puntuación.Tamaños de ventana diferentes para cada lengua:
Euskera→ 10 (±5)Castellano→ 14 (±7)
Ejemplo
“ Las [ pilas de combustible funcionan de forma similar a las
baterías pero éstas sólo almacenan energía y las pilas la generan a
través de la combustión de hidrógeno de forma limpia, eficiente ] y
sostenible.”
Palabras ponderadas dentro del contexto mediante Log LikelihoodRatio (Baseline)
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas
IntroducciónExtracción de equivalencias terminológicas
Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro
Referencias
Esquema General del procesoConstrucción de ContextosTraducción de los ContextosRanking de Equivalentes
Construcción de Contextos: Modelos Probabilísticos
Representación (implícita en el ranking) mediante modelosprobabilísticos para IR (Terrier1 )
Okapi (BM25)PL2: instancia del framework Divergence From Randomess
Por cada término candidato se indexa un documentoEse documento está formado por las palabras que aparecen enlos contextos del término candidato en el corpus
1http://http://ir.dcs.gla.ac.uk/terrier/Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas
IntroducciónExtracción de equivalencias terminológicas
Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro
Referencias
Esquema General del procesoConstrucción de ContextosTraducción de los ContextosRanking de Equivalentes
Índice
1 IntroducciónMarco y Contexto del TrabajoMétodos para la Extracción de Terminología Bilingüe
2 Extracción de equivalencias terminológicasEsquema General del ProcesoConstrucción de ContextosTraducción de los ContextosBúsqueda de Equivalentes
3 Experimentos Diseñados y ResultadosCreación del CorpusEvaluación del Método de Extracción
4 Conclusiones y Perspectivas para el Futuro
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas
IntroducciónExtracción de equivalencias terminológicas
Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro
Referencias
Esquema General del procesoConstrucción de ContextosTraducción de los ContextosRanking de Equivalentes
Traducción de los Contextos
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas
IntroducciónExtracción de equivalencias terminológicas
Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro
Referencias
Esquema General del procesoConstrucción de ContextosTraducción de los ContextosRanking de Equivalentes
Traducción de los Contextos
Para calcular el grado de semejanza entre contextos estos hande ser traducidos en una dirección
Traducción guiada por diccionarios electrónicos (MRD)Problemas inherentes a la traducción guiada por diccionarios:
Ambigüedad en la traducción→ Estrategias de selecciónFalta de cobertura→ Tratamiento de palabras OOV
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas
IntroducciónExtracción de equivalencias terminológicas
Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro
Referencias
Esquema General del procesoConstrucción de ContextosTraducción de los ContextosRanking de Equivalentes
Traducción de los Contextos
Para calcular el grado de semejanza entre contextos estos hande ser traducidos en una dirección
Traducción guiada por diccionarios electrónicos (MRD)Problemas inherentes a la traducción guiada por diccionarios:
Ambigüedad en la traducción→ Estrategias de selecciónFalta de cobertura→ Tratamiento de palabras OOV
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas
IntroducciónExtracción de equivalencias terminológicas
Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro
Referencias
Esquema General del procesoConstrucción de ContextosTraducción de los ContextosRanking de Equivalentes
Selección de Traducción
Primera traducción: la primera es normalmente la más probable
Algoritmo basado en concurrencias (Gao et al., 2001)
Las traducciones correctas de las diferentes palabras queconforman un contexto tienen un grado de asociación mayor quela traducciones erróneas
El algoritmo busca la combinación de traducciones que maximizael grado de asociación global o cohesión
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas
IntroducciónExtracción de equivalencias terminológicas
Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro
Referencias
Esquema General del procesoConstrucción de ContextosTraducción de los ContextosRanking de Equivalentes
Selección de Traducción
Primera traducción: la primera es normalmente la más probable
Algoritmo basado en concurrencias (Gao et al., 2001)
Las traducciones correctas de las diferentes palabras queconforman un contexto tienen un grado de asociación mayor quela traducciones erróneas
El algoritmo busca la combinación de traducciones que maximizael grado de asociación global o cohesión
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas
IntroducciónExtracción de equivalencias terminológicas
Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro
Referencias
Esquema General del procesoConstrucción de ContextosTraducción de los ContextosRanking de Equivalentes
Algoritmo Basado en Concurrencias (Gao et al., 2001)
(1) Given a Basque (source language) querye = {e1,e2, ...,en}, for each query term e, wedefine a set of m distinct Spanish translationsaccording to a bilingual dictionaryD : D(ei) = {ci,1,ci,2, ...,ci,m}.
(2) For each set D(ei):
(a) For each translation ci,j ∈ D(ei), definethe similarity score between the translation ci,j anda set D(ek )(k 6= i) as the sum of the similaritiesbetween ci,j and each translation in the set D(ek )according to Eq. (1)
am(ci,j ,D(ek )) = ∑ck ,l∈D(ek )
am(ci,j ,ck ,l) (1)
(b) Compute the cohesion score for ci,j as
cohesion(ci,j | e,D) = log ∑D(ek )
am(ci,j ,D(ek ))
(2)(c) Select the translation c ∈ D(ei) with the
highest cohesion score
c = argmaxce,j∈D(ei )cohesion(ce,j | e,D) (3)
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas
IntroducciónExtracción de equivalencias terminológicas
Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro
Referencias
Esquema General del procesoConstrucción de ContextosTraducción de los ContextosRanking de Equivalentes
Tratamiento de Palabras OOV
Cobertura del MRD→' 55 %Incremento de la cobertura de la traducción del contextomediante el uso de cognados
Reglas de transformación:c→ k acta=akta normalizar n-gramas fonológicos equivalentes-ción→ -zio, acción=akzio transformaciones regulares-ción→ -zio, acción=akzio transformaciones regulares
Similitud ortográfica: Cálculo de LCSR entre término a traducir ycandidatos a traducción (LCSR > 0.8→ traducción correcta)
Ejemplo
Chimpancé - Txinpantze:chimpancé (é→ e) = chimpance (ch-→ tx) = tximpance (mp→ np) = txinpance (ce→ ze) =txinpanzeLCSR(txinpantze, txinpanze) = 0,9
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas
IntroducciónExtracción de equivalencias terminológicas
Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro
Referencias
Esquema General del procesoConstrucción de ContextosTraducción de los ContextosRanking de Equivalentes
Índice
1 IntroducciónMarco y Contexto del TrabajoMétodos para la Extracción de Terminología Bilingüe
2 Extracción de equivalencias terminológicasEsquema General del ProcesoConstrucción de ContextosTraducción de los ContextosBúsqueda de Equivalentes
3 Experimentos Diseñados y ResultadosCreación del CorpusEvaluación del Método de Extracción
4 Conclusiones y Perspectivas para el Futuro
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas
IntroducciónExtracción de equivalencias terminológicas
Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro
Referencias
Esquema General del procesoConstrucción de ContextosTraducción de los ContextosRanking de Equivalentes
Búsqueda de Equivalentes
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas
IntroducciónExtracción de equivalencias terminológicas
Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro
Referencias
Esquema General del procesoConstrucción de ContextosTraducción de los ContextosRanking de Equivalentes
Ranking de Equivalentes I
El contexto traducido del término a traducir (euskera) escomparado con los contextos de los candidatos en el idioma dedestino (castellano).
Ranking en base a la similitud entre contextos
Restricción: Los candidatos a traducción comparten la categoríagramatical con la palabra de origen
Vectores de contexto (Baseline):Ranking de acuerdo a medidas de similitud: Jaccard, Dice,Cosine, . . .
Modelos probabilísticos:Ranking de acuerdo a modelos probabilísticos: Okapi, DFR
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas
IntroducciónExtracción de equivalencias terminológicas
Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro
Referencias
Esquema General del procesoConstrucción de ContextosTraducción de los ContextosRanking de Equivalentes
Ranking de Equivalentes I
El contexto traducido del término a traducir (euskera) escomparado con los contextos de los candidatos en el idioma dedestino (castellano).
Ranking en base a la similitud entre contextos
Restricción: Los candidatos a traducción comparten la categoríagramatical con la palabra de origen
Vectores de contexto (Baseline):Ranking de acuerdo a medidas de similitud: Jaccard, Dice,Cosine, . . .
Modelos probabilísticos:Ranking de acuerdo a modelos probabilísticos: Okapi, DFR
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas
IntroducciónExtracción de equivalencias terminológicas
Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro
Referencias
Esquema General del procesoConstrucción de ContextosTraducción de los ContextosRanking de Equivalentes
Ranking de Equivalentes I
El contexto traducido del término a traducir (euskera) escomparado con los contextos de los candidatos en el idioma dedestino (castellano).
Ranking en base a la similitud entre contextos
Restricción: Los candidatos a traducción comparten la categoríagramatical con la palabra de origen
Vectores de contexto (Baseline):Ranking de acuerdo a medidas de similitud: Jaccard, Dice,Cosine, . . .
Modelos probabilísticos:Ranking de acuerdo a modelos probabilísticos: Okapi, DFR
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas
IntroducciónExtracción de equivalencias terminológicas
Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro
Referencias
Esquema General del procesoConstrucción de ContextosTraducción de los ContextosRanking de Equivalentes
Ranking de Equivalentes II
Mejora de la precisión obtenida en el ranking:
La detección de cognados se aplica entre los 100 primeroscandidatos, tal y como se ha explicado en la sección 3
LCSR > 0,834. Si más de un candidato supera el umbral aquelcon el valor LCSR mas alto es elegidoLos traducciones obtenidas con este método son promocionadasa la 1a posición del ranking
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas
IntroducciónExtracción de equivalencias terminológicas
Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro
Referencias
Creación del CorpusEvaluación del Método de Extracción
Índice
1 IntroducciónMarco y Contexto del TrabajoMétodos para la Extracción de Terminología Bilingüe
2 Extracción de equivalencias terminológicasEsquema General del ProcesoConstrucción de ContextosTraducción de los ContextosBúsqueda de Equivalentes
3 Experimentos Diseñados y ResultadosCreación del CorpusEvaluación del Método de Extracción
4 Conclusiones y Perspectivas para el Futuro
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas
IntroducciónExtracción de equivalencias terminológicas
Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro
Referencias
Creación del CorpusEvaluación del Método de Extracción
Creación del Corpus I
Corpus en euskera = noticias de www.zientzia.netCorpus en castellano = noticias de www.madrimasd.orgComparabilidad:
Periodo: 2000-2007Ambas webs ofrecen noticias científicas, del género divulgativo.Distribución temática de los documentos del corpus:
Tema Madri+d Zientzia.netBiología, Alimentación, Agricultura yPesca
36,59 % 24,31 %
Salud 9,73 % 16,26 %Ciencias de la Tierra 6,12 % 10,44 %Física, Química y Matemáticas 6,65 % 7,18 %Tecnología e Industria 29,45 % 24,15 %Energía y Medio Ambiente 11,45 % 7,35 %
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas
IntroducciónExtracción de equivalencias terminológicas
Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro
Referencias
Creación del CorpusEvaluación del Método de Extracción
Creación del Corpus I
Corpus en euskera = noticias de www.zientzia.netCorpus en castellano = noticias de www.madrimasd.orgComparabilidad:
Periodo: 2000-2007Ambas webs ofrecen noticias científicas, del género divulgativo.Distribución temática de los documentos del corpus:
Tema Madri+d Zientzia.netBiología, Alimentación, Agricultura yPesca
36,59 % 24,31 %
Salud 9,73 % 16,26 %Ciencias de la Tierra 6,12 % 10,44 %Física, Química y Matemáticas 6,65 % 7,18 %Tecnología e Industria 29,45 % 24,15 %Energía y Medio Ambiente 11,45 % 7,35 %
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas
IntroducciónExtracción de equivalencias terminológicas
Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro
Referencias
Creación del CorpusEvaluación del Método de Extracción
Creación del Corpus II
Características del corpus:
Corpus #palabras #doceu es eu es
Test Corpus 1.092K 1.107K 2521 1242
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas
IntroducciónExtracción de equivalencias terminológicas
Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro
Referencias
Creación del CorpusEvaluación del Método de Extracción
Índice
1 IntroducciónMarco y Contexto del TrabajoMétodos para la Extracción de Terminología Bilingüe
2 Extracción de equivalencias terminológicasEsquema General del ProcesoConstrucción de ContextosTraducción de los ContextosBúsqueda de Equivalentes
3 Experimentos Diseñados y ResultadosCreación del CorpusEvaluación del Método de Extracción
4 Conclusiones y Perspectivas para el Futuro
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas
IntroducciónExtracción de equivalencias terminológicas
Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro
Referencias
Creación del CorpusEvaluación del Método de Extracción
Test Set
Términos equivalentes euskera-castellano:Pares de términos que aparecen en los corpus y no estánrepresentados en el diccionario utilizado para traducir loscontextos
Equivalencia verificada automáticamente→ Diccionariosespecializados(Euskalterm, ZThiztegia)
Ambos términos tienen una frequencia mínima determinadaDos listas de términos (100 pares de términos por lista)
10≤ frecuencia del término ≤ 30frecuencia del término > 50
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas
IntroducciónExtracción de equivalencias terminológicas
Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro
Referencias
Creación del CorpusEvaluación del Método de Extracción
Aspectos Evaluados
Representación de contextos y cálculo de similitud:LLR y cosenomodelos probabilísticos: Okapi (b=0,75) / Pl2 (c=1)
Métodos de Traducción:Selección de la primera traducciónAlgoritmo de selección de máxima coherencia
Detección de cognados para el tratamiento de palabrasdesconocidas (OOV)
Ranking de candidatos a traducciones:Similitud entre contextosHibridación similitud de contextos + cognados
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas
IntroducciónExtracción de equivalencias terminológicas
Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro
Referencias
Creación del CorpusEvaluación del Método de Extracción
Representación de Contextos y Cálculo de Similitud
Precisión mediaTop1
Top5
Top10
Top15
Top20
LLR +cos
0,27 0,52 0,62 0,65 0,65
Okapi 0,34 0,47 0,60 0,65 0,69PL2 0,37 0,50 0,61 0,68 0,73
Cuadro: Precisión obtenida para lostérminos de frecuencia alta (> 50).Comparativa del baseline (LLR+cos) conlos modelos probabilísticos Okapi y PL2.
Precisión mediaTop1
Top5
Top10
Top15
Top20
LLR +cos
0,07 0,15 0,17 0,18 0,23
Okapi 0,05 0,12 0,17 0,21 0,23PL2 0,06 0,16 0,21 0,23 0,24
Cuadro: Precisión obtenida para lostérminos de frecuencia media-baja([10..30]). Comparativa del baseline(LLR+cos) con los modelos probabilísticosOkapi y PL2.
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas
IntroducciónExtracción de equivalencias terminológicas
Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro
Referencias
Creación del CorpusEvaluación del Método de Extracción
Influencia de los Métodos de Selección / Detección deCognados
Precisión mediaTop1
Top5
Top10
Top15
Top20
PL2+First 0,37 0,50 0,61 0,68 0,73PL2+Coo 0,37 0,50 0,64 0,68 0,72PL2+First+Cog
0,30 0,54 0,59 0,72 0,74
PL2+Coo+Cog
0,32 0,55 0,67 0,71 0,74
PL2+Coo+Cog+Cog-re
0,38 0,61 0,72 0,75 0,78
Cuadro: Precisión obtenida para lostérminos de frecuencia alta (> 50)combinando el modelo PL2 con las distintastécnicas implementadas.
Precisión mediaTop1
Top5
Top10
Top15
Top20
PL2+First 0,06 0,16 0,21 0,23 0,24PL2+Coo 0,07 0,13 0,19 0,22 0,22PL2+First+Cog
0,05 0,16 0,23 0,25 0,26
PL2+Coo+Cog
0,06 0,18 0,19 0,25 0,26
PL2+Coo+Cog+Cog-re
0,28 0,39 0,40 0,45 0,46
Cuadro: Precisión obtenida para lostérminos de frecuencia media-baja ([10..30])combinando el modelo PL2 con las distintastécnicas implementadas.
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas
IntroducciónExtracción de equivalencias terminológicas
Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro
Referencias
Creación del CorpusEvaluación del Método de Extracción
Resultados
Efecto de los cognados:Proceso de traducción de contextos: precisión '↑Aplicado entre los candidatos incluidos en el ranking:precisión ↑↑
Modelos probabilísticos superan LLR + coseno.PL2 > Okapi > LLR+cos
Términos de frecuencia alta: precisión ↑
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas
IntroducciónExtracción de equivalencias terminológicas
Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro
Referencias
ConclusionesPerspectivas para el Futuro
Conclusiones
Integración de diferentes técnicas existentes y su adaptación aun nuevo par de lenguasLa detección de cognados ayuda a mejorar los resultados,utilizada tanto en el proceso de traducción de contextos comosobre el ranking final→ adecuado para corpus del área científica(alta presencia de cognados)El algoritmo de selección basado en concurrencias obtienepeores resultados que el método de la 1a traducción.
Análisis de los resultadosAfinado del algoritmo
}+Experimentación
Corpus de pequeño tamaño (sólo el %18 de las palabras enEuskera alcanzan una frequencia de 10)→ cobertura ↓ ↓
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas
IntroducciónExtracción de equivalencias terminológicas
Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro
Referencias
ConclusionesPerspectivas para el Futuro
Conclusiones
Integración de diferentes técnicas existentes y su adaptación aun nuevo par de lenguasLa detección de cognados ayuda a mejorar los resultados,utilizada tanto en el proceso de traducción de contextos comosobre el ranking final→ adecuado para corpus del área científica(alta presencia de cognados)El algoritmo de selección basado en concurrencias obtienepeores resultados que el método de la 1a traducción.
Análisis de los resultadosAfinado del algoritmo
}+Experimentación
Corpus de pequeño tamaño (sólo el %18 de las palabras enEuskera alcanzan una frequencia de 10)→ cobertura ↓ ↓
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas
IntroducciónExtracción de equivalencias terminológicas
Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro
Referencias
ConclusionesPerspectivas para el Futuro
Conclusiones
Integración de diferentes técnicas existentes y su adaptación aun nuevo par de lenguasLa detección de cognados ayuda a mejorar los resultados,utilizada tanto en el proceso de traducción de contextos comosobre el ranking final→ adecuado para corpus del área científica(alta presencia de cognados)El algoritmo de selección basado en concurrencias obtienepeores resultados que el método de la 1a traducción.
Análisis de los resultadosAfinado del algoritmo
}+Experimentación
Corpus de pequeño tamaño (sólo el %18 de las palabras enEuskera alcanzan una frequencia de 10)→ cobertura ↓ ↓
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas
IntroducciónExtracción de equivalencias terminológicas
Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro
Referencias
ConclusionesPerspectivas para el Futuro
Conclusiones
Integración de diferentes técnicas existentes y su adaptación aun nuevo par de lenguasLa detección de cognados ayuda a mejorar los resultados,utilizada tanto en el proceso de traducción de contextos comosobre el ranking final→ adecuado para corpus del área científica(alta presencia de cognados)El algoritmo de selección basado en concurrencias obtienepeores resultados que el método de la 1a traducción.
Análisis de los resultadosAfinado del algoritmo
}+Experimentación
Corpus de pequeño tamaño (sólo el %18 de las palabras enEuskera alcanzan una frequencia de 10)→ cobertura ↓ ↓
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas
IntroducciónExtracción de equivalencias terminológicas
Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro
Referencias
ConclusionesPerspectivas para el Futuro
Perpectivas para el Futuro
Creación de corpus de mayor tamañoProfundizar en los experimentos
Algoritmos de selección de traduccionesModelos probabilísticos
Expandir trabajo a otras lenguas (Francés, Alemán, . . . )
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas
IntroducciónExtracción de equivalencias terminológicas
Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro
Referencias
Referencias I
Fung, Pascale. 1995. Compiling bilingual lexicon entries from anon-parallel English-Chinese corpus. In David Yarovsky and KennethChurch, editors, Proceedings of the Third Workshop on Very LargeCorpora, pages 173–183, Somerset, New Jersey. Association forComputational Linguistics.
Gao, Jianfeng, Jian-Yun Nie, Endong Xun, Jian Zhang, Ming Zhou,and Changning Huang. 2001. Improving query translation forcross-language information retrieval using statistical models. In SIGIR’01: Proceedings of the 24th annual international ACM SIGIRconference on Research and development in information retrieval,pages 96–104. ACM.
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas
IntroducciónExtracción de equivalencias terminológicas
Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro
Referencias
Referencias II
Rapp, Reinhard. 1999. Automatic identification of word translationsfrom unrelated english and german corpora. In ACL37, pages519–512, University of Maryland.
Saralegi, Xabier, Iñaki San Vicente, and Antton Gurrutxaga. 2008.Similitud entre documentos multilingües de carácter técnico en unentorno web. In Proceedings of "Building and Using ComparableCorpora"workshop (LREC 2008), Marrakech, May.
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas
IntroducciónExtracción de equivalencias terminológicas
Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro
Referencias
Extracción de Traducciones de Términos a partir deCorpus Comparables pertenecientes a áreas
específicas
Xabier Saralegi Iñaki San Vicente Maddalen López de Lacalle
Fundación ElhuyarI+D
SEPLN 2008, Leganés12/09/2008
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas
Top Related