Clip 2003, Florencia Gestión de traducciones mediante metadatos TEI y XLIFF JosuKa Díaz, Joseba...
-
Upload
sarita-alcocer -
Category
Documents
-
view
212 -
download
0
Transcript of Clip 2003, Florencia Gestión de traducciones mediante metadatos TEI y XLIFF JosuKa Díaz, Joseba...
![Page 1: Clip 2003, Florencia Gestión de traducciones mediante metadatos TEI y XLIFF JosuKa Díaz, Joseba Abaitua, Inés Jacob, Fernando Quintana DELi (Universidad.](https://reader035.fdocuments.ec/reader035/viewer/2022070416/5665b42d1a28abb57c8fce37/html5/thumbnails/1.jpg)
Clip 2003, FlorenciaClip 2003, Florencia
Gestión de traducciones mediante metadatos TEI y XLIFF
JosuKa Díaz, Joseba Abaitua, Inés Jacob, Fernando Quintana
DELi (Universidad de Deusto)DELi (Universidad de Deusto)
Garikoitz Araolaza
CodeSyntaxCodeSyntaxGuillermo Barrutieta
Mondragon UnibertsitateaMondragon Unibertsitatea
![Page 2: Clip 2003, Florencia Gestión de traducciones mediante metadatos TEI y XLIFF JosuKa Díaz, Joseba Abaitua, Inés Jacob, Fernando Quintana DELi (Universidad.](https://reader035.fdocuments.ec/reader035/viewer/2022070416/5665b42d1a28abb57c8fce37/html5/thumbnails/2.jpg)
2
Introducción
SARE-Bi: Modelo de gestión de traducciones – utiliza metadatos– contempla todas las fases del ciclo de vida
documental– sistema Zope de publicación en web
![Page 3: Clip 2003, Florencia Gestión de traducciones mediante metadatos TEI y XLIFF JosuKa Díaz, Joseba Abaitua, Inés Jacob, Fernando Quintana DELi (Universidad.](https://reader035.fdocuments.ec/reader035/viewer/2022070416/5665b42d1a28abb57c8fce37/html5/thumbnails/3.jpg)
3
Estructura de un texto TEI
Todos los textos TEI tienen cabecera <teiHeader>
– descripción bibliográfica– descripción de la forma en que ha
sido codificado– descripción no bibliográfica del texto
(perfil)– historia de revisiones
texto <text>
![Page 4: Clip 2003, Florencia Gestión de traducciones mediante metadatos TEI y XLIFF JosuKa Díaz, Joseba Abaitua, Inés Jacob, Fernando Quintana DELi (Universidad.](https://reader035.fdocuments.ec/reader035/viewer/2022070416/5665b42d1a28abb57c8fce37/html5/thumbnails/4.jpg)
4
Estructura de un texto TEI (ii)Cada texto tiene un <front> y un
<back> opcionales
<TEI.2> <teiHeader> [ TEI Header information ]
</teiHeader> <text> <front> [ front matter ... ] </front> <body> [ body of text ... ] </body> <back> [ back matter ... ] </back> </text></TEI.2>
![Page 5: Clip 2003, Florencia Gestión de traducciones mediante metadatos TEI y XLIFF JosuKa Díaz, Joseba Abaitua, Inés Jacob, Fernando Quintana DELi (Universidad.](https://reader035.fdocuments.ec/reader035/viewer/2022070416/5665b42d1a28abb57c8fce37/html5/thumbnails/5.jpg)
5
Campo de aplicación Universidad de Deusto (Bilbao, España)
• genera numerosos documentos admisnistrativos• la mayoría son bilingües español - euskara, lenguas
oficiales del País Vasco• algunos también en inglés, francés, italiano...
Dimensión de los documentos• largos (estatutos, normativas, informes...)• cortos (anuncios, cartas, convocatorias...)• de una única oración(“Atenderemos en el despacho
535”)
![Page 6: Clip 2003, Florencia Gestión de traducciones mediante metadatos TEI y XLIFF JosuKa Díaz, Joseba Abaitua, Inés Jacob, Fernando Quintana DELi (Universidad.](https://reader035.fdocuments.ec/reader035/viewer/2022070416/5665b42d1a28abb57c8fce37/html5/thumbnails/6.jpg)
6
Arquitectura de SARE-Bi
SARE-Bi está implementado en Zope– desarrollado en Python– incluye una base de datos orientada a
objetos (ZODB)– los módulos que amplían Zope se
denominan productos– El producto TeiCorpus es el motor de
SARE-Bi
![Page 7: Clip 2003, Florencia Gestión de traducciones mediante metadatos TEI y XLIFF JosuKa Díaz, Joseba Abaitua, Inés Jacob, Fernando Quintana DELi (Universidad.](https://reader035.fdocuments.ec/reader035/viewer/2022070416/5665b42d1a28abb57c8fce37/html5/thumbnails/7.jpg)
7
Arquitectura de SARE-Bi (ii) Diagrama de clases del producto TeiCorpus
1 * has
ZObject ZObjectManagerCatalogAwareBase
DeliTei{persistent}
id: string
title: stringauthor: string...date: datecatRefTarget: stringDocDate: dateDocAuthor: stringhead_Place: stringhead_DepSup: stringhead_DepInf: string
owner: string
estado: string
visibility: string
add()manage()validar()tmx()
DeliLang{persistent}
id: string
add()tei()
DeliSeg{persistent}
id: string
content: text
add()
DeliCorpus{persistent}
id: string
add()
1 * has
1 * has
![Page 8: Clip 2003, Florencia Gestión de traducciones mediante metadatos TEI y XLIFF JosuKa Díaz, Joseba Abaitua, Inés Jacob, Fernando Quintana DELi (Universidad.](https://reader035.fdocuments.ec/reader035/viewer/2022070416/5665b42d1a28abb57c8fce37/html5/thumbnails/8.jpg)
8
SARE-Bi:funciones Recuperación
de documentos– filtrado
• basado en metadatos
– búsqueda• texto libre• cualquier
lengua
![Page 9: Clip 2003, Florencia Gestión de traducciones mediante metadatos TEI y XLIFF JosuKa Díaz, Joseba Abaitua, Inés Jacob, Fernando Quintana DELi (Universidad.](https://reader035.fdocuments.ec/reader035/viewer/2022070416/5665b42d1a28abb57c8fce37/html5/thumbnails/9.jpg)
9
SARE-Bi: resultados de filtrado una fila por documento
- enlace para - enlace para visualización modificación
![Page 10: Clip 2003, Florencia Gestión de traducciones mediante metadatos TEI y XLIFF JosuKa Díaz, Joseba Abaitua, Inés Jacob, Fernando Quintana DELi (Universidad.](https://reader035.fdocuments.ec/reader035/viewer/2022070416/5665b42d1a28abb57c8fce37/html5/thumbnails/10.jpg)
10
SARE-Bi:visualización
Exportación– TEI y TMX
Doc. completo– recuperación de
contenido Doc. segmentado
– correspondencia entre lenguajes
![Page 11: Clip 2003, Florencia Gestión de traducciones mediante metadatos TEI y XLIFF JosuKa Díaz, Joseba Abaitua, Inés Jacob, Fernando Quintana DELi (Universidad.](https://reader035.fdocuments.ec/reader035/viewer/2022070416/5665b42d1a28abb57c8fce37/html5/thumbnails/11.jpg)
11
SARE-Bi:resultados de búsqueda
segmentos encontrados– en todas las
lenguas– equivale a lo
ofrecido por una memoria de traducción
incluye enlaces a visualización
![Page 12: Clip 2003, Florencia Gestión de traducciones mediante metadatos TEI y XLIFF JosuKa Díaz, Joseba Abaitua, Inés Jacob, Fernando Quintana DELi (Universidad.](https://reader035.fdocuments.ec/reader035/viewer/2022070416/5665b42d1a28abb57c8fce37/html5/thumbnails/12.jpg)
12
SARE-Bi: incorporación de un documento (primer paso)
El usuario proporciona:– valores para
los metadatos
– lenguas del documento (puede ser sólo una)
![Page 13: Clip 2003, Florencia Gestión de traducciones mediante metadatos TEI y XLIFF JosuKa Díaz, Joseba Abaitua, Inés Jacob, Fernando Quintana DELi (Universidad.](https://reader035.fdocuments.ec/reader035/viewer/2022070416/5665b42d1a28abb57c8fce37/html5/thumbnails/13.jpg)
13
Texto introducido Gestión de metadatos por el usuario
Segmentacióny alineado
ventana similar a la de modificación
SARE-Bi: incorporación de un documento (segundo paso)
![Page 14: Clip 2003, Florencia Gestión de traducciones mediante metadatos TEI y XLIFF JosuKa Díaz, Joseba Abaitua, Inés Jacob, Fernando Quintana DELi (Universidad.](https://reader035.fdocuments.ec/reader035/viewer/2022070416/5665b42d1a28abb57c8fce37/html5/thumbnails/14.jpg)
14
SARE-Bi: componentes
Corpus de documentos multilingües• anotados, segmentados y alineados
• los segmentos son párrafos
Metadatos asociados a cada documento• cabecera TEI
• datos habituales: título, fechas, autor, lugar...
– Los metadatos más importantes son:• categoría, estado, visibilidad
![Page 15: Clip 2003, Florencia Gestión de traducciones mediante metadatos TEI y XLIFF JosuKa Díaz, Joseba Abaitua, Inés Jacob, Fernando Quintana DELi (Universidad.](https://reader035.fdocuments.ec/reader035/viewer/2022070416/5665b42d1a28abb57c8fce37/html5/thumbnails/15.jpg)
15
Metadatos: categoríaTaxonomía documental con 282 categorías
estructuradas en tres niveles: función comunicativa (reglamentar, informar,
inquirir) género (25) tema (256)
31000/inquirir 31400/instancia 31401/inscripción pruebas mayores 25 años 31402/solicitud de adaptacón de planes de estudio 31403/solicitud de convalidación asignaturas 31404/solicitud de reconocimiento complementos 31405/solicitud de reconsideración admisión 31406/solicitud de título 31407/solicitud de traslado expediente 31408/solicitud cambio de asignaturas opt. y LE
![Page 16: Clip 2003, Florencia Gestión de traducciones mediante metadatos TEI y XLIFF JosuKa Díaz, Joseba Abaitua, Inés Jacob, Fernando Quintana DELi (Universidad.](https://reader035.fdocuments.ec/reader035/viewer/2022070416/5665b42d1a28abb57c8fce37/html5/thumbnails/16.jpg)
16
Metadatos: estado y visibilidad Dinámicos
• los usuarios cambian el estado y la visibilidad durante las diferentes etapas del ciclo de edición
• reflejan la situación del documento• todos los demás metadatos son estáticos (con
valores constantes)
Estado• no validado, validado, normativo
Visibilidad• borrador, confidencial, compartido, público
![Page 17: Clip 2003, Florencia Gestión de traducciones mediante metadatos TEI y XLIFF JosuKa Díaz, Joseba Abaitua, Inés Jacob, Fernando Quintana DELi (Universidad.](https://reader035.fdocuments.ec/reader035/viewer/2022070416/5665b42d1a28abb57c8fce37/html5/thumbnails/17.jpg)
17
SARE-Bi: usuarios
Asociados a diferentes perfiles– invitados, redactores, traductores,
administradores y permisos, dependientes de
– propietario del documento– estado– visibilidad
![Page 18: Clip 2003, Florencia Gestión de traducciones mediante metadatos TEI y XLIFF JosuKa Díaz, Joseba Abaitua, Inés Jacob, Fernando Quintana DELi (Universidad.](https://reader035.fdocuments.ec/reader035/viewer/2022070416/5665b42d1a28abb57c8fce37/html5/thumbnails/18.jpg)
18
SARE-Bi: ciclo de edición1 Un redactor añade un documento monolingüe
• al crearlo: visibilidad borrador, estado no validado• al terminar: visibilidad compartida (por ejemplo)• el redactor llama al traductor
2 El traductor al terminar su tarea• cambia el estado a validado• avisa al redactor
3 El redactor • accede al documento bilingüe• y lo publica
![Page 19: Clip 2003, Florencia Gestión de traducciones mediante metadatos TEI y XLIFF JosuKa Díaz, Joseba Abaitua, Inés Jacob, Fernando Quintana DELi (Universidad.](https://reader035.fdocuments.ec/reader035/viewer/2022070416/5665b42d1a28abb57c8fce37/html5/thumbnails/19.jpg)
19
SARE-Bi: variaciones del ciclo de edición Redactores bilingües
• pueden desarrollar documentos bilingües• el traductor se limita a revisar y validar la
traducción
Documento normativo• modelo en su categoría• el estado normativo es asignado por el traductor• un redactor bilingüe podría utilizarlo para un
nuevo documento
![Page 20: Clip 2003, Florencia Gestión de traducciones mediante metadatos TEI y XLIFF JosuKa Díaz, Joseba Abaitua, Inés Jacob, Fernando Quintana DELi (Universidad.](https://reader035.fdocuments.ec/reader035/viewer/2022070416/5665b42d1a28abb57c8fce37/html5/thumbnails/20.jpg)
20
Conclusiones
Sare-Bi es una aplicación Web (basada en Zope)
• con interfaz multilingüe (localizado es-eu-en)• adecuada gestión de información y contenidos • complejo sistema de gestión de usuarios
Base de datos orientada a objetos Funcionalidad XML
• exporta a formatos TEI y XML
![Page 21: Clip 2003, Florencia Gestión de traducciones mediante metadatos TEI y XLIFF JosuKa Díaz, Joseba Abaitua, Inés Jacob, Fernando Quintana DELi (Universidad.](https://reader035.fdocuments.ec/reader035/viewer/2022070416/5665b42d1a28abb57c8fce37/html5/thumbnails/21.jpg)
21
Conclusiones
En uso experimental desde mayo 2003• seis redactores / dos traductores• sin medidas cuantitativas, pero• constante incremento del número de
documentos del corpus• aceptación de los usuarios
Mejoras del sistema (proyecto X-Flow)• automatización de las tareas de control de flujo• control de versiones de documentos (XLIFF)
![Page 22: Clip 2003, Florencia Gestión de traducciones mediante metadatos TEI y XLIFF JosuKa Díaz, Joseba Abaitua, Inés Jacob, Fernando Quintana DELi (Universidad.](https://reader035.fdocuments.ec/reader035/viewer/2022070416/5665b42d1a28abb57c8fce37/html5/thumbnails/22.jpg)
22
Las investigaciones presentadas en este proyecto han sido financiadas por:– Gobierno Vasco
• Depto. de Industria (proyecto X-Flow, OD-02UD04, 2002-2003)
• Depto. de Educación, Universidades e Investigación (proyecto XML-Bi, PI1999-72, 2000-2001)
– CodeSyntax (Eibar, España) Agradecimientos
– Josu Gómez, Arantza Domínguez (DELi, UD)– Luistxo Fernández (CodeSyntax)
![Page 23: Clip 2003, Florencia Gestión de traducciones mediante metadatos TEI y XLIFF JosuKa Díaz, Joseba Abaitua, Inés Jacob, Fernando Quintana DELi (Universidad.](https://reader035.fdocuments.ec/reader035/viewer/2022070416/5665b42d1a28abb57c8fce37/html5/thumbnails/23.jpg)
23
Gracias por su atención
![Page 24: Clip 2003, Florencia Gestión de traducciones mediante metadatos TEI y XLIFF JosuKa Díaz, Joseba Abaitua, Inés Jacob, Fernando Quintana DELi (Universidad.](https://reader035.fdocuments.ec/reader035/viewer/2022070416/5665b42d1a28abb57c8fce37/html5/thumbnails/24.jpg)
24
Documentos dirigidos a• los miembros de un departamento (aprox. 20)• los empleados (aprox. 1.000)• los estudiantes (aprox. 20.000)
La calidad es primordial • independientemente del número de lectores• independientemente de la transcendencia y la
longitud del documento.• está mal visto publicar documentos incorrectamente
escritos, ya sea en euskara o en castellano.
![Page 25: Clip 2003, Florencia Gestión de traducciones mediante metadatos TEI y XLIFF JosuKa Díaz, Joseba Abaitua, Inés Jacob, Fernando Quintana DELi (Universidad.](https://reader035.fdocuments.ec/reader035/viewer/2022070416/5665b42d1a28abb57c8fce37/html5/thumbnails/25.jpg)
25
Producción de un documento• a “writer” writes original document (in one language)• he sends it to a “translator”• the “translator” produces the other language version• she sends it back to the “writer”• he publishes the multilingual document
Almost 100% of original writing in Spanish• Basque: a minority language• many can read/understand, only a few can write
![Page 26: Clip 2003, Florencia Gestión de traducciones mediante metadatos TEI y XLIFF JosuKa Díaz, Joseba Abaitua, Inés Jacob, Fernando Quintana DELi (Universidad.](https://reader035.fdocuments.ec/reader035/viewer/2022070416/5665b42d1a28abb57c8fce37/html5/thumbnails/26.jpg)
26
Case study: fieldwork
Cost of translation• mainly an economic concern (institution can only afford
to translate “important” documents)• but also a problem of time (urgent documents)
Key: many docs. have a fixed structure• short letters, calls, invitations...• published weekly, monthly, yearly...• small changes (date, place, name...)
– “writers” take advantage of this: they REUSE– but “translators” MAY NOT REUSE
![Page 27: Clip 2003, Florencia Gestión de traducciones mediante metadatos TEI y XLIFF JosuKa Díaz, Joseba Abaitua, Inés Jacob, Fernando Quintana DELi (Universidad.](https://reader035.fdocuments.ec/reader035/viewer/2022070416/5665b42d1a28abb57c8fce37/html5/thumbnails/27.jpg)
27
How can MT help?
Goal: to increase the number of multilingual documents generated in our University
No Spanish to Basque MT tool yet• although a big research effort is being made
• anyway, ¿quality?
• translation is an important step, but not the only one
Translators use some MAT tools• term-bases
• translation memories (not fully implemented yet)
![Page 28: Clip 2003, Florencia Gestión de traducciones mediante metadatos TEI y XLIFF JosuKa Díaz, Joseba Abaitua, Inés Jacob, Fernando Quintana DELi (Universidad.](https://reader035.fdocuments.ec/reader035/viewer/2022070416/5665b42d1a28abb57c8fce37/html5/thumbnails/28.jpg)
28
Solution (1):a document management system To organise documents
• cumulative document repository• classified under several criteria
Multilingual functionality• the textual correspondence between parts
(segments) of documents is explicitly shown
Collaborative system• writers and translators share the documents• allows to implement other stages in the publication
procedure
![Page 29: Clip 2003, Florencia Gestión de traducciones mediante metadatos TEI y XLIFF JosuKa Díaz, Joseba Abaitua, Inés Jacob, Fernando Quintana DELi (Universidad.](https://reader035.fdocuments.ec/reader035/viewer/2022070416/5665b42d1a28abb57c8fce37/html5/thumbnails/29.jpg)
29
Solution (2):translation memories Experience of DELi
• automatic extraction of translation memories from bilingual (es-eu) docs (XTRA-Bi project, 2000-2001)
• several Gigabytes of TMX files
• unorganised chunks of texts segments
Multilingual segmented document system• not only the document as a whole
• if we show the corresp. of multilingual segments
• then the system is also a translation memory (TMX) repository
![Page 30: Clip 2003, Florencia Gestión de traducciones mediante metadatos TEI y XLIFF JosuKa Díaz, Joseba Abaitua, Inés Jacob, Fernando Quintana DELi (Universidad.](https://reader035.fdocuments.ec/reader035/viewer/2022070416/5665b42d1a28abb57c8fce37/html5/thumbnails/30.jpg)
30
Solution (3): metadata
Chaotic accumulation of contents• difficult management, search, retrieval...
Metadata• document = content + metacontent• semantic web, ontologies, content syndication...• XML technology
TEI (Text Encoding Initiative)• not so much for the purpose of linguistic mark-up• for structural and cataloguing aspects (TEI header)
![Page 31: Clip 2003, Florencia Gestión de traducciones mediante metadatos TEI y XLIFF JosuKa Díaz, Joseba Abaitua, Inés Jacob, Fernando Quintana DELi (Universidad.](https://reader035.fdocuments.ec/reader035/viewer/2022070416/5665b42d1a28abb57c8fce37/html5/thumbnails/31.jpg)
31
SARE-Bi: a first tour
SARE-Bi– multilingual document management system– allows incremental compilation of documents– allows users to work collaboratively– uses metadata as a conceptual mechanism– can also be seen as a memory-based
machine translation system Demo