N. Bel & M. Marimon 2005-06 Traducció Automàtica Aplicacions del PLN.

43
N. Bel & M. Marimon 2005- N. Bel & M. Marimon 2005- 06 06 Traducció Automàtica Aplicacions del PLN

Transcript of N. Bel & M. Marimon 2005-06 Traducció Automàtica Aplicacions del PLN.

Page 1: N. Bel & M. Marimon 2005-06 Traducció Automàtica Aplicacions del PLN.

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Traducció AutomàticaAplicacions del PLN

Page 2: N. Bel & M. Marimon 2005-06 Traducció Automàtica Aplicacions del PLN.

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Traducció basada en informació lingüística

• Característiques tècniques dels sistemes de traducció automàtica (anàlisi, generació, lèxic, parser, etc.)

• L'arquitectura dels sistemes de traducció automàtica: – sistemes de transferència– d’interlingua– explotació estadística d’informació lingüística

Page 3: N. Bel & M. Marimon 2005-06 Traducció Automàtica Aplicacions del PLN.

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

TA amb informació lingüística

Traduir és un procés de de-codificar un text en una llengua i tornar-lo a codificar en una altra llengua.

1) Analitzem el text en la LO2) Transferim informació3) Generem la informació en la LA

Page 4: N. Bel & M. Marimon 2005-06 Traducció Automàtica Aplicacions del PLN.

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Codificació de missatges Weaver 1949

• Compara la traducció amb la criptografiaText LO Text LA

Codi comú a totes les llengües

De-codificarCodifi

car

Page 5: N. Bel & M. Marimon 2005-06 Traducció Automàtica Aplicacions del PLN.

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Nivell d’anàlisi

ParaulesParaules ParaulesParaules

Inf. sintàcticaInf. sintàctica Inf. sintàcticaInf. sintàctica

Inf. semànticaInf. semàntica Inf. semànticaInf. semàntica

INTERLINGUAINTERLINGUA

Traducciódirecte

Transferència

Page 6: N. Bel & M. Marimon 2005-06 Traducció Automàtica Aplicacions del PLN.

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Problemes

Però assolir desxifrar el contingut d’un text en una llengua comportava problemes:

a) com es representava el “contingut”?b) com s’arribava a la representació d’aquest

contingut?

c) quina era la informació necessària per poder traduir?

Page 7: N. Bel & M. Marimon 2005-06 Traducció Automàtica Aplicacions del PLN.

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Recordatori:Informació necessària per traduir

• Coneixement equivalències entre llengües– Diccionari bilingüe– Construccions sintàctiques diferents:

• Subj Verb Predicat => Subj Predicat Verb• Passiva => Activa

• Coneixement llengua origen:– Reconèixer els constituents i les funcions: subj.

• Coneixement llengua meta:– Construir oracions correctes: la duda / el dubte

Page 8: N. Bel & M. Marimon 2005-06 Traducció Automàtica Aplicacions del PLN.

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Un exemple senzill

Anglès Català

You like them Ells t’agraden

1 2 2 1

1= subjecte anglès2= objecte anglès

Page 9: N. Bel & M. Marimon 2005-06 Traducció Automàtica Aplicacions del PLN.

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

De la traducció paraula per paraula a la transferència d’informació lingüística

1. The user was supplied with information by the system2. El usuario fue suministrado con información por el sistema

3. The user was allowed to be supplied with information by the system

4. El usuario fue permitido ser suministrado con información por el sistema

Page 10: N. Bel & M. Marimon 2005-06 Traducció Automàtica Aplicacions del PLN.

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

18. The user was allowed to be supplied with information by the system

19. Se permitía que el sistema facilitara información al usuario

Debe cambiar la categorización de los nudos:

- el objeto indirecto en la oración castellana debería ser un SP, mientras que como sujeto de la oración principal inglesa es un SN.

- también el objeto directo de facilitar, sin preposición en castellano, debería derivarse del objeto preposicional regido del verbo inglés supply with, etc.

Page 11: N. Bel & M. Marimon 2005-06 Traducció Automàtica Aplicacions del PLN.

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

18. The user was allowed to be supplied with information by the system

19. Se permitía que el sistema facilitara información al usuario

Los argumentos de las diferentes predicaciones cumplen diferentes funciones gramaticales:

the user es sujeto de la oración principal inglesa y lo quisiéramos objeto indirecto de la oración subordinada castellana;

the system será en castellano el sujeto de la oración subordinada y no el complemento agente, etc.

Sujeto

Obj. Ind

Obj. Agente

Sujeto

Page 12: N. Bel & M. Marimon 2005-06 Traducció Automàtica Aplicacions del PLN.

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

18. The user was allowed to be supplied with information by the system

19. Se permitía que el sistema facilitara información al usuario

Las características temporales morfosintácticas también son diferentes:

• la morfología temporal del castellano se expresa, dependiendo de la perfectividad por sufijación, mientras que la forma inglesa incorpora un auxiliar;

•la oración completiva inglesa está formulada en infinitivo y desearíamos que la castellana fuera una forma finita y en subjuntivo, que es un valor prácticamente inexistente en inglés, etc.

Page 13: N. Bel & M. Marimon 2005-06 Traducció Automàtica Aplicacions del PLN.

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Representació de la informació lingüística

• Per explicar les relacions entre aquestes frases hem usat conceptes lingüístics.

• Per poder posar condicions sobre com hem de traduir, fem referència a elements de representació lingüística: subjecte, SN, temps verbal ...

• Necessitem tenir una representació d’aquests conceptes lingüístics, i manipular la informació que ens subministren per guiar la traducció i la generació de les oracions en la llengua d’arribada

Page 14: N. Bel & M. Marimon 2005-06 Traducció Automàtica Aplicacions del PLN.

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Com obtenir una representació automàticament

• arribar a una representació amb informació que ens permeti traduir

• Necessitem un mecanisme, un programa que disposi de coneixement sobre la llengua.

• Aquest programa rep una frase i ens torna una representació amb informació lingüística de la frase: una anàlisi gramatical

Page 15: N. Bel & M. Marimon 2005-06 Traducció Automàtica Aplicacions del PLN.

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Programa per analitzar

• Necessitem:

1. Gramàtica: dades sobre com són les frases d’una llengua. Exactament, una definició formal del conjunt de frases que pertanyen a una llengua i solament aquestes(Formal = computacionalment tractable: que a partir de un nombre finit de símbols produeixi un nombre infinit d’expressions)

Page 16: N. Bel & M. Marimon 2005-06 Traducció Automàtica Aplicacions del PLN.

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Productivitat del llenguatge

• No podríem tenir mai totes les frases d’una llengua en una memòria o base de dades!!– la nena menja pa– la nena menja pa i formatge– la nena menja pa, formatge i pernil– la nena menja pa, formatge, pernil i galetes– la nena menja pa, formatge, pernil, galetes i iogurt– la nena menja pa, formatge, pernil, galetes, iogurt i ....

Page 17: N. Bel & M. Marimon 2005-06 Traducció Automàtica Aplicacions del PLN.

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Programa per analitzar..

2. La gramàtica conté regles de re-escriptura per descriure el conjunt de les oracions d’una llengua.

O -> PRO SVSV -> V PRO

(Re-escriptura: si es dóna el cas que tenim el que hi ha a la banda dreta de la fletxa, ho podem substituir pel símbol de la banda esquerra)

2. Diccionari amb informació sobre les paraules: el lèxic (pot ser part de la gramàtica)

PRO -> them, youV -> like, ..

Page 18: N. Bel & M. Marimon 2005-06 Traducció Automàtica Aplicacions del PLN.

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Programa per analitzar

3. Analitzador (parser): un mecanisme que llegeix, una per una, les paraules de l’oració que volem analitzar i construeix mitjançant les regles de re-escriptura la anàlisi de la fraseConceptualment l’analitzador i la gramàtica són dues coses diferents: la gramàtica és una definició d’un conjunt de frases; l’analitzador és un algorisme, una sèrie d’instruccions precises que compleixen les instruccions de la gramàtica

Page 19: N. Bel & M. Marimon 2005-06 Traducció Automàtica Aplicacions del PLN.

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Funcionament

O -> PRO SV

SV -> V PRO

PRO -> they, you

V -> like, ..

Page 20: N. Bel & M. Marimon 2005-06 Traducció Automàtica Aplicacions del PLN.

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Generació

• Una gramàtica (amb el lèxic) tal com l’hem definida, pot també fer l’operació inversa a l’anàlisis: genera oracions de la llengua descrita

• O -> PRO SV• PRO -> you, them• SV -> V PRO• V -> like• PRO -> you, them

Page 21: N. Bel & M. Marimon 2005-06 Traducció Automàtica Aplicacions del PLN.

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Generador

• Quan una gramàtica i l’analitzador construeixen cadenes de paraules, li direm generador i al procés generacióLa nostra gramàtica ha generat:1. you like them2. you like you3. them like you4. them like them

• Necessitem més informació per poder generar frases correctes...

Page 22: N. Bel & M. Marimon 2005-06 Traducció Automàtica Aplicacions del PLN.

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Generador

• Solament volem generar les oracions correctes.• Afegim informació de cas, per que és el que ens pot

ajudar a definir les oracions correctesPRO_NOM -> youPRO_AC -> themO -> PRO_NOM SVSV -> V PRO_AC

• “you like them”

Page 23: N. Bel & M. Marimon 2005-06 Traducció Automàtica Aplicacions del PLN.

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Gramàtica d’anàlisi/generació del català

O -> PRO_NOM SV

SV -> PRO_AC V

PRO_NOM -> ells, elles

PRO_AC -> te

V -> agraden

“ells t’agraden”

“elles t’agraden”

Page 24: N. Bel & M. Marimon 2005-06 Traducció Automàtica Aplicacions del PLN.

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

A cada interpretació una estructura

(S

(SN

(N pasajero))

(SV

(VT1 exhiba)

(SN

(SN

(N abono))

(CC o)

(SN

(N pase)))))

(S

(SN

(N pasajero))

(SV

(SV

(VT1 exhiba)

(SN

(N abono)))

(CC o)

(SV

(VI pase))))

Page 25: N. Bel & M. Marimon 2005-06 Traducció Automàtica Aplicacions del PLN.

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

INSTITUTO CERVANTES

What is it?

The Instituto Cervantes is a public institution founded by the Spanish Govermnent in 1991 to promote Spanish language teaching and knowledge of the cultures of Spanish speaking countries throughout the world. It is now the largest worldwide Spanish teaching organisation.

The Instituto Cervantes is a non profit-making organisation.

Cuál es él?

El Instituto Cervantes es una institución pública fundada por el Govermnent español en 1991 para promover la instrucción de lenguas y el conocimiento españoles de las culturas de países de habla hispana a través del mundo. Ahora es la organización española mundial más grande de la enseñanza. El Instituto Cervantes es una organización no de beneficiar-fabricación.

¿ Qué es esto?

El Instituto Cervantes es una institución pública fundada por el español Govermnent en 1991 para promover la enseñanza de idiomas española y el conocimiento de las culturas de español que habla países en todo el mundo. Esto es ahora lo más grande la organización de enseñanza de español mundial. El Instituto Cervantes es un no la organización con fines lucrativos.

1) ¿Qué es la traducción automática?

Spanish language teaching and knowledge

A N N c N

La enseñanza de la lengua española y el conocimiento ...

Page 26: N. Bel & M. Marimon 2005-06 Traducció Automàtica Aplicacions del PLN.

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

INSTITUTO CERVANTES

What is it?

The Instituto Cervantes is a public institution founded by the Spanish Govermnent in 1991 to promote Spanish language teaching and knowledge of the cultures of Spanish speaking countries throughout the world. It is now the largest worldwide Spanish teaching organisation.

The Instituto Cervantes is a non profit-making organisation.

¿ Qué es esto?

El Instituto Cervantes es una institución pública fundada por el español Govermnent en 1991 para promover la enseñanza de idiomas española y el conocimiento de las culturas de español que habla países en todo el mundo. Esto es ahora lo más grande la organización de enseñanza de español mundial. El Instituto Cervantes es un no la organización con fines lucrativos.

LycosReverso

Spanish language teaching and knowledge

A N N c N

La enseñanza de idiomas española y el conocimiento ...

Femeninosingular

Page 27: N. Bel & M. Marimon 2005-06 Traducció Automàtica Aplicacions del PLN.

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

INSTITUTO CERVANTES

What is it?

The Instituto Cervantes is a public institution founded by the Spanish Govermnent in 1991 to promote Spanish language teaching and knowledge of the cultures of Spanish speaking countries throughout the world. It is now the largest worldwide Spanish teaching organisation.

The Instituto Cervantes is a non profit-making organisation.

Cuál es él?

El Instituto Cervantes es una institución pública fundada por el Govermnent español en 1991 para promover la instrucción de lenguas y el conocimiento españoles de las culturas de países de habla hispana a través del mundo. Ahora es la organización española mundial más grande de la enseñanza. El Instituto Cervantes es una organización no de beneficiar-fabricación.

AltavistaSystran

Spanish language teaching and knowledge

A N N c N

La instrucción de lenguas y el conocimiento españoles

plural

Page 28: N. Bel & M. Marimon 2005-06 Traducció Automàtica Aplicacions del PLN.

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Context Free Grammars i Prolog

s(e,s(PRO,SV)) -->

pro(e,Num, nom,PRO),

sv(e,Num,SV).

Page 29: N. Bel & M. Marimon 2005-06 Traducció Automàtica Aplicacions del PLN.

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Funcionament

?- test(e,[you,like,them],A).A = s(pro(_, _, nom, you), sv(v(v2, _, hum, like),

pro(plu, _, ac, he)))

?- test(cas,[ellas,te,gustan],A).A = s(pro(plu, fem, nom, él), sv(pro(sing, _ ac, tú),

v(v2, plu, _, gustar)))

Page 30: N. Bel & M. Marimon 2005-06 Traducció Automàtica Aplicacions del PLN.

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

A = s( pro(_G358, _G359, nom, you), sv( v(v2, _G367, hum, like), pro(plu, _G372, ac, he)))

CAS = s( pro(plu, fem, nom, él), sv( pro(sing, _G391, ac, tú),

v(v2, plu, _G397, gustar)))

Page 31: N. Bel & M. Marimon 2005-06 Traducció Automàtica Aplicacions del PLN.

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Com projectem la informació?

A = s(pro(_, _, nom, you), sv( v(v2, _, hum,

like), pro(plu, _, ac,

he)))

CAS = s(pro(plu, fem, nom, él), sv( pro(sing, _, ac,

tú), v(v2, plu, _,

gustar)))

Page 32: N. Bel & M. Marimon 2005-06 Traducció Automàtica Aplicacions del PLN.

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Arquitectures de TA

Page 33: N. Bel & M. Marimon 2005-06 Traducció Automàtica Aplicacions del PLN.

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Traducció basada en informació lingüística

• Característiques tècniques dels sistemes de traducció automàtica (anàlisi, generació, lèxic, parser, etc.)

• L'arquitectura dels sistemes de traducció automàtica: – sistemes de transferència

– d’interlingua

– explotació estadística d’informació lingüística

Page 34: N. Bel & M. Marimon 2005-06 Traducció Automàtica Aplicacions del PLN.

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Transferència i Interlingua

• Transferència: tenen una component amb regles específiques per a cada parell de llengües que transformen la representació del text origen en una representació adequada per al generador de la llengua d’arribada

• Interlingüe: l’anàlisi del text origen dóna una representació en un llenguatge de representació del significat, neutre pel que fa a les llengües

Page 35: N. Bel & M. Marimon 2005-06 Traducció Automàtica Aplicacions del PLN.

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Sistemes de transferència

Text LOText LO

Representació LORepresentació LO

Representació LARepresentació LA

Text LAText LA

Anàlisi Generació

Gramàtica i

Lèxic LO

Gramàtica i

Lèxic LO

Gramàtica i

Lèxic LA

Gramàtica i

Lèxic LA

Lèxic LO->LA

Regles de trànsferencia

Lèxic LO->LA

Regles de trànsferencia

Page 36: N. Bel & M. Marimon 2005-06 Traducció Automàtica Aplicacions del PLN.

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Sistemes d’interlingua

Text LOText LO

Representació InterlingüeRepresentació Interlingüe Text LAText LA

Anàlisi Generació

Gramàtica i

Lèxic LO

Gramàtica i

Lèxic LO

Gramàtica i

Lèxic LA

Gramàtica i

Lèxic LALèxic

LO->INT>LA

Lèxic

LO->INT>LA

Page 37: N. Bel & M. Marimon 2005-06 Traducció Automàtica Aplicacions del PLN.

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Representació Interlingüe al sistema KANT

Page 38: N. Bel & M. Marimon 2005-06 Traducció Automàtica Aplicacions del PLN.

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Interlingua

• La traducció és un procés de 2 passes:– Traduir el text origen a una representació del coneixement

universal– Usar la representació per a generar el text d’arribada

• Avantatges:– Per n llengües, necessitem n components (no n2)

• Problemes:– Hem de construir un lèxic universal– Com representem el coneixement?

Page 39: N. Bel & M. Marimon 2005-06 Traducció Automàtica Aplicacions del PLN.

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Transferència

• La traducció és un procés de 3 passes:– Analitzar el text origen– Transformar la representació lingüística que ens ha

tornat l’anàlisi en una representació adequada per la generació de la llengua d’arribada

– Usem la representació de la llengua d’arribada per generar una frase correcte

Page 40: N. Bel & M. Marimon 2005-06 Traducció Automàtica Aplicacions del PLN.

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Com projectem la informació?Hem de transformar l’arbre

A = s(pro(_, _, nom, you), sv( v(v2, _, hum,

like), pro(plu, _, ac,

he)))

CAS = s(pro(plu, fem, nom, él), sv( pro(sing, _, ac,

tú), v(v2, plu, _,

gustar)))

Page 41: N. Bel & M. Marimon 2005-06 Traducció Automàtica Aplicacions del PLN.

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Regla específica de transferència anglès -> castellà per al verb ‘like’

s(PROe1,sv(Ve,PROe2)) <=>

s(PROcas2,sv(PROcas1,Vcas)) :-PROe1 <=> PROcas1,Ve = v(_,_,_,like),Ve <=> Vcas,PROe2 <=> PROcas2.

Page 42: N. Bel & M. Marimon 2005-06 Traducció Automàtica Aplicacions del PLN.

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Transferència d’informació i lèxic

• Lèxic a la gramàtica:

pro(N,G,_,you) <=> pro(N,G,_,tú).pro(N,G,_,he) <=> pro(N,G,_,él).

Page 43: N. Bel & M. Marimon 2005-06 Traducció Automàtica Aplicacions del PLN.

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Resultat de la transferència: A= anglès C= castellà

You like her

A = s(pro(_, _, nom, you), sv(v(v2, _, hum, like), pro(sing, fem, ac, he)))

C = s(pro(sing, fem, _, él), sv(pro(_, _, _, tú), v(_, _, _, gustar))) ;