La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de...

42
I Jornadas de Lingüística vasco-románica I Jornadas de Lingüística vasco-románica La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y lingüística de corpus Joseba Abaitua, JosuKa Díaz, Inés Jacob, Fernando Quintana DELi (Universidad de Deusto) DELi (Universidad de Deusto) Garikoitz Araolaza,Luistxo Fernández CodeSyntax CodeSyntax

Transcript of La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de...

Page 1: La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y lingüística de corpus (2004)

I Jornadas de Lingüística vasco-románicaI Jornadas de Lingüística vasco-románica

La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y

lingüística de corpus

Joseba Abaitua, JosuKa Díaz, Inés Jacob,

Fernando Quintana DELi (Universidad de Deusto)DELi (Universidad de Deusto)

Garikoitz Araolaza,Luistxo Fernández CodeSyntaxCodeSyntax

Page 2: La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y lingüística de corpus (2004)

2

– www.deli.deusto.es/SareBi• DELi (Letras - ESIDE)

– edición digital (XML)

– ingeniería lingüística

» tecnologías de traducción» lingüística de corpus

– grid semántica» web semántica» computación grid

– www.codesyntax.com

SARE-Bi: Sistema de gestión de documentación multilingüe

Page 3: La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y lingüística de corpus (2004)

3

– estándares XML– lingüística de corpus: TEI

– tecnología de traducción: TMX

– localización de software: XLIFF

– documática– catalogación, indización, búsquedas

– roles y permisos (redactor, traductor, validador...)

– estado y “visibilidad” (borrador, revisado; interno, público)

– tradumática– memoria de traducción– segmentación, alineación– control de versiones - ciclo de vida

SARE-Bi: Sistema de gestión de documentación multilingüe

Page 4: La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y lingüística de corpus (2004)

4

■ Antecedentes (DELi: 1998-2004)• LEGEBiDUNA (1995-1999)• XTRA-Bi (2000-2001)• XML-Bi (2001-2002)

• X-Flow (2002-2003)

• OAC (2003-2005)• TMGrid (2005-2007)

■ Participación (Uned, EHU,UPC, UB...)

• HAIN (1993-1996)

• TREVI (1996-1998)• ITEM (1997-1999)• HERMES (2000-2003)• CORDE (2002-2004)• ESP-EUS (2002-2004)

Page 5: La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y lingüística de corpus (2004)

5

■ Antecedentes (DELi: 1998-2004)• LEGEBiDUNA (1995-1999)• XTRA-Bi (2000-2001)• XML-Bi (2001-2002)

• X-Flow (2002-2003)

• OAC (2003-2005)• TMGrid (2005-2007)

■ Participación (Uned, EHU,UPC, UB...)

• HAIN (1993-1996)

• TREVI (1996-1998)• ITEM (1997-1999)• HERMES (2000-2003)• CORDE (2002-2004)• ESP-EUS (2002-2004)

Page 6: La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y lingüística de corpus (2004)

6

■ Antecedentes (DELi: 1998-2004)

• LEGEBiDUNA (1994-1999)– Textos paralelos bilingües en euskara y

castellano de las administraciones vascas con etiquetado SGML/TEI-P3

• XTRA-Bi (2000-2001)• XML-Bi (2001-2002)• X-Flow (2002-2003)• OAC (2003-2005)

• TMGrid (2005-2007)

Page 7: La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y lingüística de corpus (2004)

7

■ Antecedentes (DELi: 1998-2004)

• LEGEBiDUNA (1995-1999)• XTRA-Bi (2000-2001)

– Extracción automática de unidades bitextuales para memorias de traducción

• XML-Bi (2001-2002)• X-Flow (2002-2003)

• OAC (2003-2005)

• TMGrid (2005-2007)

Page 8: La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y lingüística de corpus (2004)

8

■ Antecedentes (DELi: 1998-2004)

• LEGEBiDUNA (1995-1999)• XTRA-Bi (2000-2001)

• XML-Bi (2001-2002)– Procedimientos para la gestión del flujo

documental multilingüe sobre XML/TEI-P3

• X-Flow (2002-2003)

• OAC (2003-2005)

• TMGrid (2005-2007)

Page 9: La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y lingüística de corpus (2004)

9

■ Antecedentes (DELi: 1998-2004)

• LEGEBiDUNA (1995-1999)• XTRA-Bi (2000-2001)

• XML-Bi (2001-2002)• X-Flow (2002-2003)

– Gestión de flujo de contenidos multilingües sobre XLIFF y TMX

• OAC (2003-2005)

• TMGrid (2005-2007)

Page 10: La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y lingüística de corpus (2004)

10

■ Antecedentes (DELi: 1998-2004)

• LEGEBiDUNA (1995-1999)• XTRA-Bi (2000-2001)

• XML-Bi (2001-2002)• X-Flow (2002-2003)• OAC (2003-2005)

– Open Archive Cataloger

• TMGrid (2005-2007)

Page 11: La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y lingüística de corpus (2004)

11

■ Antecedentes (DELi: 1998-2004)

• LEGEBiDUNA (1995-1999)• XTRA-Bi (2000-2001)

• XML-Bi (2001-2002)• X-Flow (2002-2003)• OAC (2003-2005)• TMGrid (2005-2007)

– Grid de memorias de traducción

Page 12: La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y lingüística de corpus (2004)

12

■ Participación (Uned, EHU,UPC, UB, RAE...)

• HAIN (1993-1996)– Entorno para aplicaciones lingüísticas

• TREVI (1996-1998)

– Text Retrieval and Enrichment for Vital Information

• ITEM (1997-1999)– Recuperación de Información Textual en un

Entorno Multilíngüe con Técnicas de Lenguaje Natural

• HERMES (2000-2003)– Hemerotecas electrónicas. Recuperación

multilingüe y extracción semántica• CORDE (2002-2004)

– Corpus diacrónico español

Page 13: La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y lingüística de corpus (2004)

13

■ Edición digital - lingüística de corpus

– DELi 2002-2005» CORDE» Rómulo. Edición digital plurilingüe de un

texto europeo del siglo XVII » La esfera. Edición hipertextual» UNAI (SPrako tranbia / Un tranvía en

SP)» Fondo Bonaparte

– Etiquetado/Metadatos XML/TEI

Page 14: La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y lingüística de corpus (2004)

14

Estructura de un texto TEI

Todos los textos TEI tienen ■ cabecera <teiHeader>

– descripción bibliográfica– descripción de la forma en que ha sido

codificado– descripción no bibliográfica del texto

(perfil)– historia de revisiones

■ texto <text>

Page 15: La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y lingüística de corpus (2004)

15

Estructura de un texto TEI (ii)Cada texto tiene un <front> y un <back>

opcionales

<TEI.2> <teiHeader> [ TEI Header information ] </teiHeader>

<text> <front> [ front matter ... ] </front>

<body> [ body of text ... ] </body>

<back> [ back matter ... ] </back>

</text></TEI.2>

Page 16: La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y lingüística de corpus (2004)

16

SARE-Bi: Campo de aplicación■ Universidad de Deusto

• genera numerosos documentos admisnistrativos

• la mayoría son bilingües español - euskara, lenguas oficiales del País Vasco

• algunos también en inglés, francés, italiano...

■ Dimensión de los documentos• largos (estatutos, normativas, informes...)• cortos (anuncios, cartas, convocatorias...)• de una única oración(“Atenderemos en el

despacho 535”)

Page 17: La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y lingüística de corpus (2004)

17

Arquitectura de SARE-Bi

■ SARE-Bi está implementado en Zope– desarrollado en Python– incluye una base de datos orientada a

objetos (ZODB)– los módulos que amplían Zope se

denominan productos– El producto TeiCorpus es el motor de

SARE-Bi

Page 18: La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y lingüística de corpus (2004)

18

Arquitectura de SARE-Bi (ii)■ Diagrama de clases del producto TeiCorpus

1 * has

ZObject ZObjectManagerCatalogAwareBase

DeliTei{persistent}

id: string

title: stringauthor: string...date: datecatRefTarget: stringDocDate: dateDocAuthor: stringhead_Place: stringhead_DepSup: stringhead_DepInf: string

owner: string

estado: string

visibility: string

add()manage()validar()tmx()

DeliLang{persistent}

id: string

add()tei()

DeliSeg{persistent}

id: string

content: text

add()

DeliCorpus{persistent}

id: string

add()

1 * has

1 * has

Page 19: La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y lingüística de corpus (2004)

19

SARE-Bi:funciones

■ Recuperación de documentos– filtrado

• basado en metadatos

– búsqueda• texto libre• cualquier

lengua

Page 20: La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y lingüística de corpus (2004)

20

SARE-Bi: resultados de filtrado■ una fila por documento

- enlace para - enlace para visualización modificación

Page 21: La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y lingüística de corpus (2004)

21

SARE-Bi:visualización

■ Exportación– TEI y TMX

■ Doc. completo– recuperación de

contenido

■ Doc. segmentado– correspondencia

entre lenguajes

Page 22: La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y lingüística de corpus (2004)

22

SARE-Bi:resultados de búsqueda

■ segmentos encontrados– en todas las

lenguas

– equivale a lo ofrecido por una memoria de traducción

■ incluye enlaces a visualización

Page 23: La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y lingüística de corpus (2004)

23

SARE-Bi: incorporación de un documento (primer paso)

■ El usuario proporciona:– valores para

los metadatos

– lenguas del documento (puede ser sólo una)

Page 24: La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y lingüística de corpus (2004)

24

Texto introducido Gestión de metadatos por el usuario

Segmentacióny alineado

■ ventana similar a la de modificación

SARE-Bi: incorporación de un documento (segundo paso)

Page 25: La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y lingüística de corpus (2004)

25

SARE-Bi: componentes

■ Corpus de documentos multilingües• anotados, segmentados y alineados• los segmentos son párrafos

■ Metadatos asociados a cada documento

• cabecera TEI• datos habituales: título, fechas, autor, lugar...

– Los metadatos más importantes son:• categoría, estado, visibilidad

Page 26: La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y lingüística de corpus (2004)

26

Metadatos: categoríaTaxonomía documental con 282

categorías estructuradas en tres niveles:

■ función comunicativa (reglamentar, informar, inquirir)

■ género (25)■ tema (256)

31000/inquirir 31400/instancia 31401/inscripción pruebas mayores 25 años 31402/solicitud de adaptacón de planes de estudio 31403/solicitud de convalidación asignaturas 31404/solicitud de reconocimiento complementos 31405/solicitud de reconsideración admisión 31406/solicitud de título 31407/solicitud de traslado expediente 31408/solicitud cambio de asignaturas opt. y LE

Page 27: La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y lingüística de corpus (2004)

27

Metadatos: estado y visibilidad

■ Dinámicos• los usuarios cambian el estado y la visibilidad

durante las diferentes etapas del ciclo de edición

• reflejan la situación del documento

• todos los demás metadatos son estáticos (con valores constantes)

■ Estado• no validado, validado, normativo

■ Visibilidad• borrador, confidencial, compartido, público

Page 28: La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y lingüística de corpus (2004)

28

SARE-Bi: usuarios

■ Asociados a diferentes perfiles– invitados, redactores, traductores,

administradores

■ y permisos, dependientes de– propietario del documento– estado– visibilidad

Page 29: La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y lingüística de corpus (2004)

29

SARE-Bi: ciclo de edición1 Un redactor añade un documento

monolingüe• al crearlo: visibilidad borrador, estado no

validado• al terminar: visibilidad compartida (por ejemplo)

• el redactor llama al traductor

2 El traductor al terminar su tarea• cambia el estado a validado• avisa al redactor

3 El redactor • accede al documento bilingüe• y lo publica

Page 30: La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y lingüística de corpus (2004)

30

SARE-Bi: variaciones del ciclo de edición

■ Redactores bilingües• pueden desarrollar documentos bilingües• el traductor se limita a revisar y validar la

traducción

■ Documento normativo• modelo en su categoría• el estado normativo es asignado por el

traductor• un redactor bilingüe podría utilizarlo para un

nuevo documento

Page 31: La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y lingüística de corpus (2004)

31

Conclusiones

■ Sare-Bi es una aplicación Web (basada en Zope)

• con interfaz multilingüe (localizado es-eu-en)• adecuada gestión de información y contenidos

• complejo sistema de gestión de usuarios

■ Base de datos orientada a objetos■ Funcionalidad XML

• exporta a formatos TEI y XML

Page 32: La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y lingüística de corpus (2004)

32

Conclusiones

■ En uso experimental desde mayo 2003• seis redactores / dos traductores• sin medidas cuantitativas, pero

• constante incremento del número de documentos del corpus

• aceptación de los usuarios

■ Mejoras del sistema (proyecto X-Flow)• automatización de las tareas de control de flujo• control de versiones de documentos (XLIFF)

Page 33: La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y lingüística de corpus (2004)

33

■ Las investigaciones presentadas en este proyecto han sido financiadas por:– Gobierno Vasco

• Depto. de Industria (proyecto X-Flow, OD-02UD04, 2002-2003)

• Depto. de Educación, Universidades e Investigación (proyecto XML-Bi, PI1999-72, 2000-2001)

– CodeSyntax (Eibar, España)■ Agradecimientos

– Josu Gómez, Arantza Domínguez (DELi, UD)– Guillermo Barrutieta (Mondragon Unibertsitatea)

Page 34: La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y lingüística de corpus (2004)

34

Gracias por su atención

Page 35: La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y lingüística de corpus (2004)

35

■ Documentos dirigidos a• los miembros de un departamento (aprox. 20)• los empleados (aprox. 1.000)• los estudiantes (aprox. 20.000)

■ La calidad es primordial • independientemente del número de lectores• independientemente de la transcendencia y la

longitud del documento.• está mal visto publicar documentos

incorrectamente escritos, ya sea en euskara o en castellano.

Page 36: La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y lingüística de corpus (2004)

36

■ Producción de un documento• a “writer” writes original document (in one

language)• he sends it to a “translator”• the “translator” produces the other language

version

• she sends it back to the “writer”• he publishes the multilingual document

■ Almost 100% of original writing in Spanish

• Basque: a minority language

• many can read/understand, only a few can write

Page 37: La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y lingüística de corpus (2004)

37

Case study: fieldwork

■ Cost of translation• mainly an economic concern (institution can

only afford to translate “important” documents)• but also a problem of time (urgent documents)

■ Key: many docs. have a fixed structure• short letters, calls, invitations...• published weekly, monthly, yearly...• small changes (date, place, name...)

– “writers” take advantage of this: they REUSE

– but “translators” MAY NOT REUSE

Page 38: La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y lingüística de corpus (2004)

38

How can MT help?

■ Goal: to increase the number of multilingual documents generated in our University

■ No Spanish to Basque MT tool yet• although a big research effort is being made• anyway, ¿quality?• translation is an important step, but not the only

one

■ Translators use some MAT tools• term-bases

• translation memories (not fully implemented yet)

Page 39: La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y lingüística de corpus (2004)

39

Solution (1):a document management system

■ To organise documents• cumulative document repository• classified under several criteria

■ Multilingual functionality• the textual correspondence between parts

(segments) of documents is explicitly shown

■ Collaborative system• writers and translators share the documents• allows to implement other stages in the

publication procedure

Page 40: La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y lingüística de corpus (2004)

40

Solution (2):translation memories

■ Experience of DELi• automatic extraction of translation memories

from bilingual (es-eu) docs (XTRA-Bi project, 2000-2001)

• several Gigabytes of TMX files• unorganised chunks of texts segments

■ Multilingual segmented document system

• not only the document as a whole• if we show the corresp. of multilingual

segments• then the system is also a translation memory

(TMX) repository

Page 41: La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y lingüística de corpus (2004)

41

Solution (3): metadata

■ Chaotic accumulation of contents• difficult management, search, retrieval...

■ Metadata• document = content + metacontent

• semantic web, ontologies, content syndication...

• XML technology

■ TEI (Text Encoding Initiative)• not so much for the purpose of linguistic mark-

up

• for structural and cataloguing aspects (TEI header)

Page 42: La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y lingüística de corpus (2004)

42

SARE-Bi: a first tour

■ SARE-Bi– multilingual document management system– allows incremental compilation of

documents– allows users to work collaboratively– uses metadata as a conceptual

mechanism

– can also be seen as a memory-based machine translation system

■ Demo