XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 El projecte...

Post on 24-Jan-2016

220 views 0 download

Transcript of XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 El projecte...

XV Trobada de Serveis Lingüístics UniversitarisBarcelona, 1 i 2 de juny de 2006

El projecte RESTADEines per al buidatge automatitzat

de corpus textuals

2

XV Trobada de Serveis Lingüístics UniversitarisBarcelona, 1 i 2 de juny de 2006

Índex

Participants Objectius Tipus d’eines Processos

Obtenció de memòries de traducció Obtenció de terminologia (bilingüe)

Explotació

3

XV Trobada de Serveis Lingüístics UniversitarisBarcelona, 1 i 2 de juny de 2006

Participants

Serveis lingüístics universitaris Universitat Autònoma de Barcelona Universitat de Girona Universitat Oberta de Catalunya Universitat Politècnica de Catalunya

Institucions públiques DURSI (Departament d’Universitats, Recerca i Societat de la Informació)

4

XV Trobada de Serveis Lingüístics UniversitarisBarcelona, 1 i 2 de juny de 2006

Objectius

Disposar de materials multilingües Desenvolupar recursos que facilitin i millorin la traducció automatitzada

al català dels documents docents. Facilitar que l’alumnat universitari pugui disposar dels materials docents

almenys en català.Automatitzar els processos de treball Homogeneïtzar i automatitzar els processos de treball fent servir les

mateixes eines de suport lingüístic i compartint recursos (memòries de traducció i terminologia).

Reaprofitar la informació lingüística generada a les nostres universitats gràcies a eines informàtiques de suport lingüístic.

Disposar de recursos gratuïts Distribuir gratuïtament eines i recursos a totes les universitats,

institucions, empreses que hi estiguin interessades (descàrregues des d’Internet). Les aplicacions informàtiques seran de programari lliure.

5

XV Trobada de Serveis Lingüístics UniversitarisBarcelona, 1 i 2 de juny de 2006

Tipus d’eines

Eines bàsiques de buidatge Alineador automàtic de textos Extractor de terminologia

Utilitats: portabilitat (comunicació entre programes) Base de dades terminològica => Lèxic sistema TA Corpus paral·lel => Memòria de traducció Creació de formats estàndard: text tabulat => TMX/TBX

6

XV Trobada de Serveis Lingüístics UniversitarisBarcelona, 1 i 2 de juny de 2006

Flux de buidatge

7

XV Trobada de Serveis Lingüístics UniversitarisBarcelona, 1 i 2 de juny de 2006

Article 80.

Competències

1. Són competències del secretari

general:

- Redactar i custodiar les actes de les sessions del Claustre, del Consell de Govern, de l’Equip de Govern i de la Junta Consultiva, així com expedir certificacions de llurs acords.

Eina d’alineació: AlinUOC

Artículo 80.

Competencias

1. Son competencias del secretario

general:

- Redactar y custodiar las actas de las sesiones del Claustro, del Consejo de Gobierno, del Equipo de Gobierno y de la Junta Consultiva, así como expedir certificaciones de sus acuerdos.

8

XV Trobada de Serveis Lingüístics UniversitarisBarcelona, 1 i 2 de juny de 2006

Alineació de documents DOC

Articles català

Articles anglès

Articles espanyol

doc2txt

Articles català

Articles anglès

Articles espanyol

Articles cat-ang alineats

Articles cat-esp alineats

AlinUOC

DOC TXT

9

XV Trobada de Serveis Lingüístics UniversitarisBarcelona, 1 i 2 de juny de 2006

Alineació de documents HTML

Articles català

Articles anglès

Articles espanyol

html2txt

Articles català

Articles anglès

Articles espanyol

Articles cat-ang alineats

Articles cat-esp alineats

AlinUOC

HTML TXT

10

XV Trobada de Serveis Lingüístics UniversitarisBarcelona, 1 i 2 de juny de 2006

Alineació de documents PDF

PDF TXT

Articles català

Articles anglès

Articles espanyol

Pdf2txt

Articles català

Articles anglès

Articles espanyol

Resums cat-ang alineats

Resums cat-esp alineats

AlinUOC

Resums català

Resums anglès

Resums espanyol

11

XV Trobada de Serveis Lingüístics UniversitarisBarcelona, 1 i 2 de juny de 2006

Tractament de documents PDF

Problemes per a tractar documents PDF Recuperar paraules tallades per un salt de línia amb guionet. Ajuntar línies separades per peus de pàgina, encapçalaments,

peus de figura, etc.

12

XV Trobada de Serveis Lingüístics UniversitarisBarcelona, 1 i 2 de juny de 2006

Tractament de documents PDF

13

XV Trobada de Serveis Lingüístics UniversitarisBarcelona, 1 i 2 de juny de 2006

Tractament de documents PDF

14

XV Trobada de Serveis Lingüístics UniversitarisBarcelona, 1 i 2 de juny de 2006

Creació de memòries de traducció

Corpus paral·lel

(Text tabulat)txt2tmx MT

(TMX)

DéjàVu

ForeignDesk

(Frog Translator)MT

Access

15

XV Trobada de Serveis Lingüístics UniversitarisBarcelona, 1 i 2 de juny de 2006

Què és un candidat a terme?

El cinema digital i la televisió són el futur.

Una paraula (cinema) Dues paraules consecutives (cinema digital) Tres paraules consecutives (cinema digital i) … N-grams (subseqüència d’n paraules

consecutives)

16

XV Trobada de Serveis Lingüístics UniversitarisBarcelona, 1 i 2 de juny de 2006

Extracció de candidats a terme

Elaboració d’una llista de candidats a terme “Morim d’èxit!”

Filtratge de la llista de candidats Automàtic Manual

Cerca d’equivalents en altres llengües

17

XV Trobada de Serveis Lingüístics UniversitarisBarcelona, 1 i 2 de juny de 2006

Elaboració de la llista d’n-grams

Corpus paral·lel

(Text tabulat)

StemTES

n-grams

Llista

n-grams

18

XV Trobada de Serveis Lingüístics UniversitarisBarcelona, 1 i 2 de juny de 2006

Selecció dels n-gram

19

XV Trobada de Serveis Lingüístics UniversitarisBarcelona, 1 i 2 de juny de 2006

Filtratge de candidats a terme

De manera implícita ja hem explotat el corpus paral·lel Aplicació de coneixement lingüístic

Eliminar unigrams per freqüència ‘podem’, ‘anys’

Eliminar unigrans emprant patrons morfosintàctics ((els el DETMP) (artistes artista NMP) (volen voler (VERB3PP))

Filtratge amb cerques a Internet Cerques a Internet

net art + medicina + esports => nombre de pàgines Directori de dominis

20

XV Trobada de Serveis Lingüístics UniversitarisBarcelona, 1 i 2 de juny de 2006

Propostes de termes i equivalents de traducció

Corpus paral·lel

(Text tabulat)

StemTES

n-grams

Llista

n-grams

filtrats

Llista n-grams

Amb propostes d’equivalències

21

XV Trobada de Serveis Lingüístics UniversitarisBarcelona, 1 i 2 de juny de 2006

Propostes d’equivalents a terme: TOND

22

XV Trobada de Serveis Lingüístics UniversitarisBarcelona, 1 i 2 de juny de 2006

Un cas pràctic

Espai en xarxa: Artnodes Volum de text:

Unes 26.000 paraules

Nombre de candidats a terme sense filtratge previ 2.884

Nombre de candidats finals amb filtratge 998

23

XV Trobada de Serveis Lingüístics UniversitarisBarcelona, 1 i 2 de juny de 2006

24

XV Trobada de Serveis Lingüístics UniversitarisBarcelona, 1 i 2 de juny de 2006

Gràcies per la vostra atenció

Gracias por vuestra atención

Eskerrik asko zuen arretagatik

Grazas pola vosa atención

Thanks for your atention

Merci pour votre attention

25

XV Trobada de Serveis Lingüístics UniversitarisBarcelona, 1 i 2 de juny de 2006

Explotació

26

XV Trobada de Serveis Lingüístics UniversitarisBarcelona, 1 i 2 de juny de 2006

Base de dades terminològica en una eina TAO

27

XV Trobada de Serveis Lingüístics UniversitarisBarcelona, 1 i 2 de juny de 2006

Entrada lèxica sistema de TA Entrada transfer

28

XV Trobada de Serveis Lingüístics UniversitarisBarcelona, 1 i 2 de juny de 2006

Entrada lèxica llengua origen

29

XV Trobada de Serveis Lingüístics UniversitarisBarcelona, 1 i 2 de juny de 2006

Entrada lèxica llengua destí

30

XV Trobada de Serveis Lingüístics UniversitarisBarcelona, 1 i 2 de juny de 2006

Creació automàtica de glossaris

Suport electrònic o paper

Requeriments Format XML (TBX) Eina de conversió text tabulat a TBX