O procesamento da terminoloxía no WordNet do galegosli.uvigo.gal/arquivos/realiter_wordnet.pdfIA...

18
TERMINOLOXÍA E NORMALIZACIÓN. ACTAS DA XII XORNADA CIENTÍFICA REALITER (ISBN 978-84-16954-79-7) O procesamento da terminoloxía no WordNet do galego O procesamento da terminoloxía no WordNet do galego Xavier Gómez Guinovart / Miguel Anxo Solla Portela / Xosé María Gómez Clemente Grupo TALG / Universidade de Vigo 1. Introdución A terminoloxía defínese, seguindo a Cabré (2005), como un campo de coñece- mento, como un conxunto de recursos e como unha necesidade social que está relacionada co estudo e uso dos sistemas de símbolos e signos lingüísticos utiliza- dos para a comunicación humana en áreas especializadas do coñecemento 1 . No século pasado estivo dominada polos traballos de Eugen Wüster, que xus- tificaba a súa definición como disciplina autónoma xa que respondía á necesidade que tiñan os especialistas de utilizar denominacións normalizadas para os con- ceptos que manexaban. Este enxeñeiro vienés foi capaz de elaborar unha teoría e unha metodoloxía de traballo que os seus discípulos denominaron Teoría Xeral da Terminoloxía (Wüster, 1979). Neste momento existen novas propostas teóricas que conviven cunha Teoría Xeral da terminoloxía que agora foi ampliada con aspectos sociais e comunica- tivos. Son a Socioterminoloxía de Gaudin e Boulanger, a Teoría Comunicativa da Terminoloxía de Teresa Cabré, e a Teoría Sociocognitiva de Rita Temmerman, sen esquecer os traballos de Juan Carlos Sager (Temmerman 2000: 22-33). Todas elas coinciden en abandonar o enfoque prescritivo, reivindican a diacronía, defenden a 1. Esta investigación realízase no marco do proxecto TUNER (TIN2015-65308-C5-1-R) financiado polo Ministerio de Economía y Competitividad e o Fondo Europeo de Desenvolvemento Rexional (MINECO / FEDER, UE) .

Transcript of O procesamento da terminoloxía no WordNet do galegosli.uvigo.gal/arquivos/realiter_wordnet.pdfIA...

Page 1: O procesamento da terminoloxía no WordNet do galegosli.uvigo.gal/arquivos/realiter_wordnet.pdfIA AIACI Actas da II ornada Cientíca ealiter. 132. variación fronte á monosemia e

TERMINOLOXÍA E NORMALIZACIÓN. ACTAS DA XII XORNADA CIENTÍFICA REALITER (ISBN 978-84-16954-79-7) O procesamento da terminoloxía no WordNet do galego

O procesamento da terminoloxía no WordNet do galego

Xavier Gómez Guinovart / Miguel Anxo Solla Portela /Xosé María Gómez Clemente

Grupo TALG / Universidade de Vigo

1. Introdución

A terminoloxía defínese, seguindo a Cabré (2005), como un campo de coñece-mento, como un conxunto de recursos e como unha necesidade social que está relacionada co estudo e uso dos sistemas de símbolos e signos lingüísticos utiliza-dos para a comunicación humana en áreas especializadas do coñecemento1.

No século pasado estivo dominada polos traballos de Eugen Wüster, que xus-tificaba a súa definición como disciplina autónoma xa que respondía á necesidade que tiñan os especialistas de utilizar denominacións normalizadas para os con-ceptos que manexaban. Este enxeñeiro vienés foi capaz de elaborar unha teoría e unha metodoloxía de traballo que os seus discípulos denominaron Teoría Xeral da Terminoloxía (Wüster, 1979).

Neste momento existen novas propostas teóricas que conviven cunha Teoría Xeral da terminoloxía que agora foi ampliada con aspectos sociais e comunica-tivos. Son a Socioterminoloxía de Gaudin e Boulanger, a Teoría Comunicativa da Terminoloxía de Teresa Cabré, e a Teoría Sociocognitiva de Rita Temmerman, sen esquecer os traballos de Juan Carlos Sager (Temmerman 2000: 22-33). Todas elas coinciden en abandonar o enfoque prescritivo, reivindican a diacronía, defenden a

1. Esta investigación realízase no marco do proxecto TUNER (TIN2015-65308-C5-1-R) financiado polo Ministerio de Economía y Competitividad e o Fondo Europeo de Desenvolvemento Rexional (MINECO / FEDER, UE) .

Page 2: O procesamento da terminoloxía no WordNet do galegosli.uvigo.gal/arquivos/realiter_wordnet.pdfIA AIACI Actas da II ornada Cientíca ealiter. 132. variación fronte á monosemia e

TERMINOLOXÍA E NORMALIZACIÓNActas da XII Xornada Científica Realiter

132

variación fronte á monosemia e entenden o concepto de especialidade como gra-dual, aspectos negados ou relativizados na teoría de Wüster.

A terminoloxía ten un papel cada vez máis importante na sociedade da infor-mación. A necesidade dunha representación computacional da información termi-nolóxica capaz de ser explotada polas tecnoloxías da linguaxe (en aplicacións de tradución automática e asistida por ordenador, recuperación de información mul-tilingüe, web semántica, etc.) supón un novo reto para a investigación en termino-loxía. O uso de ontoloxías, entendidas como especificacións formais e compartidas da conceptualización dun dominio que poden ser transmitidas entre persoas e/ou sistemas, ofrece unha solución adecuada para esta tarefa. Isto é particularmente relevante nun contexto altamente multilingüe como o da actual sociedade da infor-mación, onde a simbiose entre terminoloxía e ontoloxías permite traballar con poderosas ferramentas conceptuais e metodolóxicas na representación axeitada do coñecemento especializado multilingüe.

2. A terminoloxía na Universidade de Vigo

No ámbito da terminoloxía galega, o traballo sobre terminoloxía e ontoloxías está representado polas investigacións do Grupo TALG da Universidade de Vigo deri-vados do deseño, construción e explotación de dous importantes recursos léxicos para a nosa lingua: a base de coñecementos terminolóxicos da Termoteca e a rede semántica Galnet elaborada para o galego seguindo o modelo de WordNet. Aso-ciado a Galnet dispoñemos do recurso de extracción semiautomática de termino-loxía denominado Termonet, que será descrito polo miúdo.

2.1. Termoteca

A Termoteca2 é un banco de datos terminolóxico para o galego baseado nos textos de especialidade monolingües e paralelos recompilados, respectivamente, nos corpus CTG e CLUVI (Gómez Guinovart 2008). A información terminolóxica extraída dos corpus inclúe, en primeiro lugar, os propios termos, xunto cos seus contextos, variantes formais intralingüísticas e interlingüísticas coas súas fre-cuencias de uso; en segundo lugar, a súa definición ou definicións, cando se poden documentar nos corpus; e, por último, as relacións semánticas que establecen con outros termos do corpus, cando aparecen explicitamente codificadas nos textos. Os rexistros terminolóxicos están catalogados, segundo o seu campo temático, en referencia a unha árbore conceptual xerarquizada da materia, e poden incluír información sobre as relacións semánticas (antonimia, hiperonimia, holonimia, etc.) que gardan con outros rexistros do banco de datos. Na actualidade, esta base de datos terminolóxica conta cuns 8.000 rexistros con información sobre 16.120 termos.

2. http://sli.uvigo.gal/termoteca/

Page 3: O procesamento da terminoloxía no WordNet do galegosli.uvigo.gal/arquivos/realiter_wordnet.pdfIA AIACI Actas da II ornada Cientíca ealiter. 132. variación fronte á monosemia e

133O pROCESAMENTO DA TERMINOLOXÍA NO WORDNET DO gALEgOXavier Gómez Guinovart / Miguel Anxo Solla Portela / Xosé María Gómez Clemente

2.2. WordNet e Galnet

A rede semántica WordNet é un recurso léxico computacional deseñado orixinal-mente cunha perspectiva psicolingüística (Fellbaum 1998), aínda que a meirande parte das súas aplicacións están actualmente orientadas ao campo do procesa-mento da linguaxe, en tarefas de desambiguación semántica automática (Agirre / Edmonds 2006), de recuperación da información (Zhao et al. 2012), de xeración de respostas a preguntas (Cai et al. 2016), de tradución automática (Vintar / Fišer / Vrščaj 2012), de recuperación interlingüística da información (Agirre et al. 2007), de busca plurilingüe de respostas (Ferrández et al. 2007), de clasificación automá-tica de textos (Elberrichi et al. 2008), de expansión de consultas (Fang 2008), de corrección ortográfica (Huang 2016) ou de resumo automático (Plaza et al. 2010). WordNet tamén se usa con proveito en aplicacións computacionais relacionadas co aprendizaxe de idiomas, por exemplo, na avaliación da competencia léxica de estudantes de inglés como segunda lingua (Hu / Graesser 1998), na xeración auto-mática de exercicios de vocabulario de elección múltiple para teléfonos móbiles intelixentes (Knoop / Wilske 2013) ou no deseño de sistemas de aprendizaxe do vocabulario asistido por ordenador (Sun / Huang / Liu 2011).

WordNet é unha base de datos léxica do inglés configurada como unha rede semántica onde os nós son os conceptos representados como grupos de sinóni-mos, e as ligazóns entre os nós son as relacións semánticas entre os conceptos léxicos (Fellbaum 1998 e Miller et al. 1990). Os nós da rede están formados por nomes, verbos, adxectivos e adverbios agrupados pola súa sinonimia. Na termi-noloxía asociada a WordNet, cada grupo de sinónimos é un synset, e cada sinó-nimo lematizado que forma parte dese grupo é unha variant ou variante léxica dun mesmo concepto. Deste xeito, un synset representa un concepto lexicalizado único e agrupa o conxunto de variantes sinonímicas dese concepto. Como com-plemento de cada synset, WordNet pode incluír unha breve definición distintiva (ou glosa) do significado compartido por todas as variantes do synset e, en certos casos, exemplos de uso das variantes en contexto.

No modelo de representación do léxico de WordNet, os synsets están conecta-dos por relacións léxico-semánticas. No caso dos substantivos, algunhas das rela-cións máis frecuentes representadas no WordNet son as de hiperonimia/hiponi-mia e as de holonimia/meronimia; no caso dos adxectivos, as de antonimia e as de cuasisinonimia; no caso dos adverbios, as de antonimia e as derivativas; e no caso dos verbos, as de implicación, hiperonimia/hiponimia, causatividade e oposición.

WordNet foi concibido orixinalmente para a lingua inglesa e, aínda que hoxe existen versións do WordNet en moitas linguas, o do inglés segue sendo arestora a versión de referencia e a máis desenvolvida. Os traballos do WordNet para esta lingua lévanse a cabo desde 1985 na Universidade de Princeton. Na súa versión 3.0, o WordNet do inglés contén 206.941 lemas ou variantes sinonímicas (155.287 das cales son formas únicas non homógrafas) agrupadas en 117.659 grupos de sinónimos ou synsets.

Page 4: O procesamento da terminoloxía no WordNet do galegosli.uvigo.gal/arquivos/realiter_wordnet.pdfIA AIACI Actas da II ornada Cientíca ealiter. 132. variación fronte á monosemia e

TERMINOLOXÍA E NORMALIZACIÓNActas da XII Xornada Científica Realiter

134

Na actualidade existen versións do WordNet en distintas fases de desenvol-vemento para moi diversas linguas, incluídas o hebreo (Ordan / Wintner 2007), o xaponés (Isahara et al. 2008), o sánscrito (Bhingardive et al. 2014), o portugués(Simões / Gómez Guinovart 2014), o castelán (Fernández / Vázquez 2010), o cata-lán (Oliver / Climent 2011) e o euskara (Pociello / Agirre / Aldezabal 2011). A maioría das versións en linguas distintas do inglés seguen o modelo de deseño de EuroWordNet (Vossen 2002), no que os synsets que forman parte do WordNet da lingua propia están vinculados cos synsets do resto das linguas a través dun índice interlingüístico (InterLingual Index ou ILI) que é único para cada concepto e que principalmente está baseado nos synsets do WordNet inglés de referencia. Deste modo, os léxicos WordNet nos distintos idiomas permiten a conexión entre os syn-sets de calquera par de linguas a través do ILI, constituíndo así un recurso de gran utilidade en aplicacións das tecnoloxías lingüísticas que precisan o procesamento plurilingüe da linguaxe. No caso de Galnet, o WordNet do galego, os synsets do galego atopan os seus equivalentes interlingüísticos en decenas de idiomas como os antes referidos a través do ILI xerado a partir do WordNet 3.0 do inglés.

O marco de desenvolvemento no que se integra o Galnet é o do Multilingual Central Repository (MCR) (González / Rigau, 2013), unha plataforma que abrangue na actualidade os léxicos WordNet de seis linguas (inglés, español, catalán, vasco, portugués e galego) enlazados interlingüisticamente polo ILI correspondente ao WordNet 3.0 e cos synsets categorizados na xerarquía de dominios IRST (Benti-vogli et al. 2004) e nas ontoloxías SUMO (Pease / Niles / Li 2002) e Top Concept Ontology (Álvez et al. 2008). A aplicación web deseñada para a explotación de Gal-net3 amplía as funcionalidades de consulta ofrecidas pola interface de EuroWord-Net4 cunha nova clasificación semántica de orientación terminolóxica baseada en epinónimos (Solla Portela / Gómez Guinovart 2015a), con novas posibilidades de visualización das relacións semánticas entre os synsets, cunha nova presenta-ción da información asociada aos synsets en formato de datos abertos enlazados mediante as aplicacións LodLive e Virtuoso Facets (Solla Portela / Gómez Guino-vart 2016) e cunha ferramenta especificamente deseñada para a extracción de campos léxico-semánticos (Termonet).

Na Táboa 1 preséntase o estado actual de desenvolvemento dos léxicos das seis linguas integradas no proxecto, tal como se pode consultar nestes momen-tos mediante a interface web de Galnet. A táboa amosa a cantidade de synsets e variantes sinonímicas dispoñibles en cada lingua, distinguindo entre as distintas categorías gramaticais, e inclúe o progreso alcanzado por cada léxico respecto o WordNet 3.0 do inglés (na fila rotulada como %EWN) e os datos actualizados de Galnet na súa versión 3.0.24:

3. http://sli.uvigo.gal/galnet/4. http://adimen.si.ehu.es/cgi-bin/wei/public/wei.consult.perl

Page 5: O procesamento da terminoloxía no WordNet do galegosli.uvigo.gal/arquivos/realiter_wordnet.pdfIA AIACI Actas da II ornada Cientíca ealiter. 132. variación fronte á monosemia e

135O pROCESAMENTO DA TERMINOLOXÍA NO WORDNET DO gALEgOXavier Gómez Guinovart / Miguel Anxo Solla Portela / Xosé María Gómez Clemente

Inglés (WordNet 3.0) Galego (Galnet 3.0.24)

variantes synsets variantes synsets

Nomes 146.312 82.115 45.040 30.039

Verbos 25.047 13.767 6.541 2.785

Adxectivos 30.002 18.156 10.039 6.135

Adverbios 5.580 3.621 1.038 706

Total 206.941 117.659 62.658 39.665

%EWN 100% 100% 30% 34%

Español Portugués

variantes synsets variantes synsets

Nomes 101.027 55.227 17.149 10.047

Verbos 20.953 9.541 8.407 3.786

Adxectivos 20.938 12.373 6.330 3.581

Adverbios 3.583 1.854 789 528

Total 146.501 78.995 32.675 17.942

%EWN 71% 67% 16% 15%

Catalán Vasco

variantes synsets variantes synsets

Nomes 73.810 46.917 40.420 26.710

Verbos 14.619 6.349 9.469 3.442

Adxectivos 11.212 6.818 148 111

Adverbios 1152 872 0 0

Total 100.793 60.956 50.037 30.263

%EWN 49% 52% 24% 26%

Táboa 1. Número de synsets e variantes sinonímicas por idioma

2.3. Termonet

Nesta sección descríbense a metodoloxía e os recursos que se utilizaron para o desenvolvemento de Termonet5 (Solla Portela / Gómez Guinovart 2015b), unha

5. http://sli.uvigo.es/galnet/termonet.php

Page 6: O procesamento da terminoloxía no WordNet do galegosli.uvigo.gal/arquivos/realiter_wordnet.pdfIA AIACI Actas da II ornada Cientíca ealiter. 132. variación fronte á monosemia e

TERMINOLOXÍA E NORMALIZACIÓNActas da XII Xornada Científica Realiter

136

ferramenta destinada á consulta e verificación en corpus de léxicos de especiali-dade mediante a explotación de WordNet. Termonet céntrase na exploración en WordNet dos sentidos (senses) enlazados nesta rede semántica, constituídos por conxuntos de variantes sinonímicas (synsets) para cada lingua. A estratexia baséase no tratamento dos senses coma se fosen nodos conceptuais con organización cog-nitiva nun traballo terminolóxico, dada a concomitancia na organización ontoló-xica en terminoloxía e en WordNet. No entanto, esta identificación de conceptos non está exenta de eivas desde unha perspectiva estritamente terminolóxica, pois os conceptos identifícanse nun contexto meramente cognitivo e ademais os sen-tidos de WordNet encerran, en certos casos, contido semántico moi xenérico que dificilmente encaixa como concepto terminolóxico. Malia estas tensións, a explora-ción das relacións entre conceptos terminolóxicos compórtase de xeito moi similar á exploración dos sentidos en WordNet6. Ora ben, WordNet constitúe unha rede léxico-semántica en toda a súa extensión, de tal xeito que practicamente todos os sentidos que contén están interconectados, mentres que o traballo terminolóxico dunha lingua de especialidade adoita abranguer un conxunto de relacións moito máis preciso e delimitado. Daquela, o reto principal do deseño da ferramenta foi configurar un método de navegar polas relacións semánticas de WordNet tratando os synsets como nodos conceptuais e, na medida do posible, tratar de cinguirse ao ámbito terminolóxico do sentido explícito que se escolle como synset de orixe. O funcionamento da aplicación fundaméntase en que a través de WordNet pódense obter moitos termos propios dun ámbito terminolóxico, localizados en synsets relacionados cun nodo raíz mediante certas configuracións de exploración das relacións semánticas e a determinadas distancias máximas deste nodo.

Termonet ofrece a posibilidade de explorar os diferentes conxuntos de synsets asociados ao synset de orixe para a selección de relacións exploradas e para o nivel máximo de exploración de cada relación en función das configuracións que se defi-nan. Ademais, ofrece a posibilidade de verificar os resultados da exploración nun corpus de textos especializados e localizar o sentido de cada termo na anotación semántica.

As funcionalidades de Termonet fundaméntanse en dous recursos básicos: un léxico WordNet e un corpus textual lematizado e desambiguado con respecto aos sentidos de WordNet. Na implementación actual de Termonet, que se utili-zou inicialmente para a súa aplicación en tarefas terminolóxicas relacionadas coa ampliación da cobertura léxica do WordNet do galego nos ámbitos da medicina e da economía, estes dous recursos son o léxico Galnet e o Corpus Técnico do Galego.

6. Pódese observar este comportamento en fichas terminolóxicas da Termoteca; por exemplo, as relacións de dente (http://sli.uvigo.gal/termoteca/pescuda_ic.php?pescuda_ic=555619) presentan un destacábel paralelismo coas relacións do synset de WordNet (http://sli.uvigo.gal/galnet/galnet_var.php?version=dev&ili=ili-30-05282746-n).

Page 7: O procesamento da terminoloxía no WordNet do galegosli.uvigo.gal/arquivos/realiter_wordnet.pdfIA AIACI Actas da II ornada Cientíca ealiter. 132. variación fronte á monosemia e

137O pROCESAMENTO DA TERMINOLOXÍA NO WORDNET DO gALEgOXavier Gómez Guinovart / Miguel Anxo Solla Portela / Xosé María Gómez Clemente

O Corpus Técnico do Galego7 (CTG) é un corpus de orientación terminolóxica que conta con 18 millóns de palabras, formado por textos especializados do galego contemporáneo nos ámbitos do dereito, a informática, a economía, as ciencias ambientais, as ciencias sociais e a medicina. Para esta aplicación, utilízase unha versión do CTG lematizada e etiquetada mediante FreeLing8 e UKB (Agirre / Soroa, 2009), empregando Galnet como léxico para a desambiguación semántica do cor-pus.

WordNet concibiuse orixinariamente desde a perspectiva da psicolexicoloxía e estruturouse a través das relacións semánticas entre os synsets en función das diferentes categorías gramaticais. En palabras dos seus impulsores, «WordNet is organized by semantic relations» (Miller et al., 1990: 6). Manifesta, polo tanto, certo paralelismo con aspectos metodolóxicos da terminoloxía no que respecta á tipoloxía e á estruturación dos conceptos, dado que relacións semánticas similares tamén se empregan en multitude de repertorios terminolóxicos na actualidade, como por exemplo no SNOMED Clinical Terms9 ou mesmo na Termoteca, o banco de datos terminolóxicos da Universidade de Vigo. No entanto, as relacións léxico-semánticas orixinarias en WordNet non delimitan ámbitos de especialidade, senón que se espallan tecendo unha rede que inclúe practicamente a totalidade dos nós semánticos.

Desde unha perspectiva terminolóxica, «un concepte forma part d’un con-junt estructurat de conceptes en referència als quals adquireix el seu valor. Així doncs, un concepte només ho és en relació a un determinat camp conceptual» (Cabré, 1992: 192). Presentáse, daquela, o desafío de tratar de delimitar campos conceptuais constrinxindo a dispersión das relacións semánticas e a extensión de nós conceptuais en WordNet. Agora ben, esta estratexia non segue os presupostos metodolóxicos da terminoloxía comunicativa, particularmente na identificación dos conceptos, que se obteñen directamente desde unha fonte léxico-semántica que contén tamén nós conceptuais semanticamente xenéricos que adoitan ficar fóra do obxecto dos estudos terminolóxicos, dos seus métodos e da súa produción.

Desde un primeiro momento asumiuse tamén a necesidade de ampliar desde a perspectiva da terminoloxía comunicativa o enfoque cognitivo do aproveitamento das relacións mediante a verificación empírica dos resultados, examinando expli-citamente a presenza dos sentidos e das variantes en corpus textuais de linguaxes de especialidade anotados semanticamente.

Para navegar polos nós semánticos a través das relacións léxico-semánticas presentes en Galnet cómpre considerar as súas características básicas. Por unha banda, a maior parte das relacións permiten unha lectura reversible, de tal xeito que a relación entre dous synsets pode reflectir, por exemplo, que un destes nós

7. http://sli.uvigo.gal/CTG/8. http://nlp.lsi.upc.edu/freeling/9. http://www.ihtsdo.org/snomed-ct/

Page 8: O procesamento da terminoloxía no WordNet do galegosli.uvigo.gal/arquivos/realiter_wordnet.pdfIA AIACI Actas da II ornada Cientíca ealiter. 132. variación fronte á monosemia e

TERMINOLOXÍA E NORMALIZACIÓNActas da XII Xornada Científica Realiter

138

conceptuais é hiperónimo do outro, mais a lectura desa mesma relación en sentido inverso infórmanos de que este segundo synset é hipónimo do primeiro. Por outra banda, a consulta das relacións reversibles pódese considerar en sentido vertical, en sentido de ascendencia ou descendencia, como a hiperonimia/hiponimia e a holonimia/meronimia, mais en WordNet débense incluír tamén as relacións do grupo «Domain»; mentres que as relacións dos grupos «Antonyms», «Synonyms», «Related» e «Verbs» están estabelecidas en dirección horizontal. A única relación non-reversible en Galnet é «see_also_wn15», que só permite a lectura nun sentido e en dirección horizontal. A distancia entre nós conceptuais enténdese como a can-tidade mínima de relacións léxico-semánticas que se precisan para chegar desde un synset a outro nó conceptual co que existe unha ruta de conexión a través das relacións, xa sexa directamente ou mediante synsets intermedios.

En Galnet, as relacións procedentes de WordNet reagrupáronse do modo que se ilustra na táboa 2 (onde idg representa o identificador do grupo e idr o identi-ficador da relación) e se exemplifica na ilustración 1 co WordNet do inglés e do galego.

grupo idg relación relación inversa idr

Antonyms 0 near_antonym near_antonym 34

Synonyms 1 near_synonym near_synonym 33

Hyperonyms 2 has_hyponym has_hyperonym 12

Hyponyms 3 has_xpos_hyponym has_xpos_hyperonym 21

HolonymsMeronyms

45

has_holo_part has_mero_part 8

has_holo_member has_mero_member 7

has_holo_madeof has_mero_madeof 6

Related 6

is_derived_from has_derived 31

pertains_to has_pertainym 47

see_also_wn15 49

related_to 64

Verbs 7

causes is_caused_by 2

has_subevent is_subevent_of 19

verb_group verb_group 52

Domain 8

category_term category 63

region_term region 66

usage_term usage 68

Glosses 9 rgloss gloss 61

Táboa 2. Grupos e relacións léxico-semánticas en Galnet

Page 9: O procesamento da terminoloxía no WordNet do galegosli.uvigo.gal/arquivos/realiter_wordnet.pdfIA AIACI Actas da II ornada Cientíca ealiter. 132. variación fronte á monosemia e

139O pROCESAMENTO DA TERMINOLOXÍA NO WORDNET DO gALEgOXavier Gómez Guinovart / Miguel Anxo Solla Portela / Xosé María Gómez Clemente

Ilustración 1. Exemplo gráfico de agrupacións e relacións

En WordNet conviven synsets de catro categorías gramaticais diferentes e, malia o peso cuantitativo dos substantivos e dos sentidos claramente conceptuais, a canti-dade de sentidos semánticos que a priori non encaixan como conceptos termino-lóxicos resulta aínda considerábel. De forma xenérica, o tratamento que se ideou para os adxectivos e adverbios foi intentar vinculalos, sempre que for posible, cun synset con relevancia terminolóxica a través de relacións léxicas transcategoriais; por exemplo, vincular os conceptos de cirúrxico e cirurxicamente co de cirurxía. Con todo, este procedemento presenta abondosas limitacións, primordialmente porque en moitos casos WordNet non contén esta relación léxica, mais tamén por-que cando estas relacións de raíz morfolóxica están codificadas en WordNet son relacións entre as variantes en lingua inglesa, e non necesariamente entre os nós conceptuais. Cando este tratamento non é posible, trátase de explotar o vínculo con relacións semánticas como a antonimia e mesmo a cuasisinonimia pese á súa tendencia a mudar o ámbito de especialidade con certos adxectivos. No caso dos verbos, explórase principalmente a hiponimia mais tamén as relacións léxicas que conectan o synset con outro nominal. E, finalmente, os synsets con categoría nomi-nal exploran fundamentalmente as relacións de descendencia e as estritamente léxicas para atraer synsets doutras categorías gramaticais.

Page 10: O procesamento da terminoloxía no WordNet do galegosli.uvigo.gal/arquivos/realiter_wordnet.pdfIA AIACI Actas da II ornada Cientíca ealiter. 132. variación fronte á monosemia e

TERMINOLOXÍA E NORMALIZACIÓNActas da XII Xornada Científica Realiter

140

A función principal de Termonet consiste en facilitar a extracción de varian-tes de WordNet relacionadas cun ámbito de especialidade. Con este fin, Termonet ofrece un formulario de consulta que permite seleccionar un synset da rede léxico-semántica e, a partir del, realizar unha extracción dos termos relacionados en fun-ción da configuración das relacións semánticas que se seleccione.

Ilustración 2. Mostra parcial dun exemplo de extracción

Aínda que Termonet permite a extracción desde calquera synset de WordNet, dada a súa orientación terminolóxica e o predominio dos substantivos para designar ámbitos de especialidade, a aplicación trata de suxerir sempre os sentidos nomi-nais máis próximos cando se propón iniciar a exploración desde un synset que non sexa nominal. Termonet precisa da indicación deste synset de orixe que definirá o ámbito de extracción terminolóxica e da selección do conxunto de relacións semán-ticas que se utilizarán para a identificación dos nós conceptuais dese ámbito, así como a distancia ou nivel de profundidade ata onde se desexa despregar cada tipo de relación. Deste xeito, Termonet despregará unha arborescencia de relacións desde o synset de orixe a través desa relación ata acadar o nivel de profundidade determinado. Véxase na ilustración 2, por exemplo, a terminoloxía do ámbito da

Page 11: O procesamento da terminoloxía no WordNet do galegosli.uvigo.gal/arquivos/realiter_wordnet.pdfIA AIACI Actas da II ornada Cientíca ealiter. 132. variación fronte á monosemia e

141O pROCESAMENTO DA TERMINOLOXÍA NO WORDNET DO gALEgOXavier Gómez Guinovart / Miguel Anxo Solla Portela / Xosé María Gómez Clemente

medicina que ofrece a exploración a partir do synset que representa a variante galega lingüística cos valores por omisión dos parámetros da ferramenta.

A aplicación deseñouse con afán interactivo, de modo que calquera persoa que use o formulario dispón da posibilidade de restrinxir o amplo abano das relacións presentes en WordNet co fin de artellar e tecer o seu propio campo conceptual. Tras a selección do synset inicial que representa o ámbito da exploración, o for-mulario de consulta ofrece os diferentes parámetros de configuración, tanto dos agrupamentos de relacións coma de cada relación en particular, en dous apartados claramente diferenciados. En primeiro lugar, defínese a distancia da exploración co fin de limitar a navegación cara a nós conceptuais ligados mediante relacións ascendentes e determinar a extensión da descendencia e da navegación en vertical. O segundo apartado permite indicar que grupos de relacións ou relacións indivi-duais deben ser omitidos da exploración que realiza a extracción dos conceptos e ofrece tamén a posibilidade de filtrar entre os resultados os synsets coas categorías gramaticais que se indiquen para cada relación.

O procedemento de extracción pódese iniciar desde calquera synset de Word-Net e compórtase de xeito similar en ámbitos conceptuais amplos, como por exem-plo a bioloxía, e con campos máis concisos como a microbioloxía, mais cómpre ter en conta que a cobertura das variantes léxicas resultantes depende da representa-tividade do synset desde o que se orixina a consulta.

Como xa se mencionou con anterioridade, Termonet permite verificar os resultados da extracción nun corpus textual lematizado e desambiguado respecto dos sentidos de WordNet. Na actualidade permite contrastar os termos galegos que se identifican nos corpus do ámbito da medicina, da ecoloxía, da economía, do dereito; da informática e da socioloxía que compoñen o Corpus Técnico do Galego.

Ilustración 3. Verificación en corpus

Os corpus lematizáronse e etiquetáronse utilizando unha versión de Freeling adap-tada para a identificación de termos pluriléxicos e utilizando UKB para a desambi-guación semántica, de tal xeito que as variantes procedentes da extracción poden ser contrastadas cos lemas do corpus mentres que a identificación do sentido se verifica na anotación semántica.

Page 12: O procesamento da terminoloxía no WordNet do galegosli.uvigo.gal/arquivos/realiter_wordnet.pdfIA AIACI Actas da II ornada Cientíca ealiter. 132. variación fronte á monosemia e

TERMINOLOXÍA E NORMALIZACIÓNActas da XII Xornada Científica Realiter

142

Ilustración 4. Avaliación dos termos

A presenza de cada variante no corpus Termonet avalíase aplicándolle catro cri-terios cuantificados de 0 a 1 e, como informe xenérico, os resultados que obteñen todos os termos combínanse nun índice xeral para cada criterio. Os catro paráme-tros que se avalían son os seguintes:

• A variante está presente (1) ou non (0) como lema do corpus e coa etiquetasemántica do synset correspondente.

• A variante está presente (1) ou non (0) como lema do corpus e coa etiquetasemántica máis probábel segundo UKB.

• Frecuencia absoluta da variante no corpus, ponderando o valor máximo (1)para as variantes etiquetadas semanticamente que se repiten 100 veces oumáis e o valor mínimo (0) para as variantes que non están presentes nocorpus.

Page 13: O procesamento da terminoloxía no WordNet do galegosli.uvigo.gal/arquivos/realiter_wordnet.pdfIA AIACI Actas da II ornada Cientíca ealiter. 132. variación fronte á monosemia e

143O pROCESAMENTO DA TERMINOLOXÍA NO WORDNET DO gALEgOXavier Gómez Guinovart / Miguel Anxo Solla Portela / Xosé María Gómez Clemente

• Frecuencia coa que UKB lle atribúe a maior probabilidade á etiqueta dosynset da variante, asignando o valor máximo (1) para a totalidade dasveces e o mínimo (0) para ningunha.

Ilustración 5. Termos en contexto

Na ilustración 3 amósanse os índices globais que se obtiveron coa extracción dos conceptos a partir do synset representado polas variantes galegas afección, doenza, enfermidade, patoloxía e cos parámetros predefinidos da aplicación. A partir da análise pormenorizada das variantes (ilustración 4), Termonet ofrece a posibili-dade de comprobar os seus contextos de uso no corpus especializado (ilustración 5), permitindo a adquisición dunha valiosa información terminolóxica sobre o uso real dos termos.

3. Conclusións

Nestes momentos, a investigación sobre a terminoloxía galega alcanzou un desen-volvemento razoable e, no que atinxe á Universidade de Vigo, está especialmente alicerzada no traballo en corpus e nos aspectos conceptuais derivados do desenvol-vemento de Galnet. Para que este traballo continúe e para que xurdan novas liñas

Page 14: O procesamento da terminoloxía no WordNet do galegosli.uvigo.gal/arquivos/realiter_wordnet.pdfIA AIACI Actas da II ornada Cientíca ealiter. 132. variación fronte á monosemia e

TERMINOLOXÍA E NORMALIZACIÓNActas da XII Xornada Científica Realiter

144

de investigación, é fundamental a consolidación de grupos de investigación univer-sitarios. Así mesmo é de grande importancia que se celebren encontros científicos sobre terminoloxía no noso país e que os grupos participen nos organizados fóra.

Teresa Cabré explicaba en 2005 que o futuro da terminoloxía pasaba polo des-envolvemento dunha teoría marco da terminoloxía, a creación de plataformas inte-gradas de traballo terminográfico, a aparición de portais virtuais de coñecemento (con textos, terminoloxía, documentación, imaxe e son), a consideración da termi-noloxía como unha peza fundamental na creación de sistemas automáticos para a recuperación da información, na confección de resumos, etc. Desde aquela data, tense avanzado moito na elaboración destes recursos e en Galicia desenvólvese un interesante traballo centrado no desenvolvemento de ferramentas orientadas ao tratamento computacional dos termos.

4. Bibliografía

Agirre, Eneko / Edmonds, Peter (2006): Word Sense Disambiguation. Berlín: Springer.

Agirre, Eneko / Alegria, Iñaki / Rigau, German / Vossen, Piek (2007): «MCR for CLIR», Procesamiento del Lenguaje Natural, 38, páx. 3-15.

Agirre, Eneko / Soroa, Aitor (2009): «Personalizing PageRank for Word Sense Disambiguation», en Proceedings of the 12th Conference of the European Chapter of the ACL, páx. 33-41.

Álvez, Javier / Atserias, Jordi / Carrera, Jordi / Climent, Salvador / Oliver, Antoni / Rigau, German (2008): «Consistent Annotation of EuroWordNet with the Top Concept Ontology», en Attila Tanács / Dóra Csendes / Veronika Vincze / Christiane Fellbaum / Piek Vossen, eds., Proceedings of the 4th Global WordNet Conference. Szeged: Global WordNet Association, s.p.

Bentivogli, Luisa / Forner, Pamela / Magnini, Bernardo / Pianta, Emanuele (2004): «Revising WordNet Domains Hierarchy: Semantics, Coverage, and Balancing», en Gilles Sérasset / Susan Armstrong / Christian Boitet / Andrei Popescu-Belis / Dan Tufis, eds., Proceedings of COLING Workshop on Multilingual Linguistic Resources. Ginebra: ACL, páx. 101-108.

Bhingardive, Sudha / Ajotikar, Tanuja / Kulkarni, Irawati / Kulkarni, Malhar / Bhattacharyya, Pushpak (2014): «Semi-Automatic Extension of Sanskrit Wordnet using Bilingual Dictionary», en Heili Orav / Christiane Fellbaum / Piek Vossen, eds., Proceedings of the Seventh Global WordNet Conference. Tartu: Global WordNet Association, páx. 324-329.

Cabré, Maria Teresa (1992): La terminologia. La teoria, els mètodes, les aplicacions. Barcelona: Empùries.

Cabré, Maria Teresa (2005): La terminología, una disciplina en evolución: pasado, presente y algunos elementos de futuro. Debate Terminológico 1, París: RITERM (Red Iberoamericana de Terminología).

Page 15: O procesamento da terminoloxía no WordNet do galegosli.uvigo.gal/arquivos/realiter_wordnet.pdfIA AIACI Actas da II ornada Cientíca ealiter. 132. variación fronte á monosemia e

155O pROCESAMENTO DA TERMINOLOXÍA NO WORDNET DO gALEgOXavier Gómez Guinovart / Miguel Anxo Solla Portela / Xosé María Gómez Clemente

Cai, Qingqing / Gung, James / Guan, Maochen / Kurlandski, Gerald / Pease, Adam (2016): «Word Substitution in Short Answer Extraction: A WordNet-based Approach», en Verginica Barbu Mititelu / Corina Forăscu / Christiane Fellbaum / Piek Vossen, eds., Proceedings of the Eighth Global WordNet Conference. Bucarest: University of Iaşi, páx. 66-73.

Elberrichi, Zakaria / Rahmoun, Abdelattif / Bentaalah, Mohamed Amine (2008): «Using WordNet for Text Categorization», The International Arab Journal of Information Technology, 5(1), páx. 16-24.

Fang, Hui (2008): «A Re-examination of Query Expansion Using Lexical Resources», en Proceedings of the 46th Annual Meeting of the Association for Computational Linguistics. Columbus: Association for Computational Linguistics, páx. 139-147.

Fellbaum, Christiane, ed. (1998): WordNet: An Electronic Lexical Database. Cambridge: MIT Press.

Fernández Montraveta, Ana / Vázquez, Gloria (2010): «La construcción del WordNet 3.0 en español», en María Auxiliadora Castillo / Juan Manuel García Platero, eds., La lexicografía en su dimensión teórica. Málaga: Universidad de Málaga, páx. 201-220.

Ferrández, Sergio / Ferrández, Antonio / Roger, Sandra / López–Moreno, Pilar (2007): «Búsqueda de respuestas bilingüe basada en ILI, el sistema BRILI», Procesamiento del Lenguaje Natural, 38, páx. 27-33.

Gómez Guinovart, Xavier (2008): A investigación en lexicografía e terminoloxía no Corpus Lingüístico da Universidade de Vigo (CLUVI) e no Corpus Técnico do Galego (CTG), en Ernesto González Seoane / Antón Santamarina / Xavier Varela Barreiro (eds.), A lexicografía galega moderna. Recursos e perspectivas, Santiago de Compostela: Consello da Cultura Galega / Instituto da Lingua Galega, páx. 209-228.

González Agirre, Aitor / Rigau, German (2013): «Construcción de una base de conocimiento léxico multilingüe de amplia cobertura: Multilingual Central Repository», Linguamática, 5(1), páx. 13-28.

Hu, Xiangen / Graesser, Arthur C. (1998): «Using WordNet and latent semantic analysis to evaluate the conversational contributions of learners in the tutorial dialog», en Proceedings of the International Conference on Computers in Education, vol. 2. Beijing: Springer, páx. 337-341.

Huang, Bill (2016): «WNSpell: a WordNet-Based Spell Corrector», en Verginica Barbu Mititelu / Corina Forăscu / Christiane Fellbaum / Piek Vossen, eds., Proceedings of the Eighth Global WordNet Conference. Bucarest: University of Iaşi, páx. 135-142.

Isahara, Hitoshi / Bond, Francis / Uchimoto, Kiyotaka / Utiyama, Masao / Kanzaki, Kyoko (2008): «Development of the Japanese WordNet», en Nicoletta Calzolari / Khalid Choukri / Bente Maegaard / Joseph Mariani / Jan Odjik / Stelios Piperidis / Daniel Tapias, eds., Proceedings of the Sixth International Language Resources and Evaluation. Marrakech: ELRA, s.p.

Page 16: O procesamento da terminoloxía no WordNet do galegosli.uvigo.gal/arquivos/realiter_wordnet.pdfIA AIACI Actas da II ornada Cientíca ealiter. 132. variación fronte á monosemia e

TERMINOLOXÍA E NORMALIZACIÓNActas da XII Xornada Científica Realiter

156

Knoop, Susanne / Wilske, Sabrina (2013): «WordGap - Automatic generation of gap-filling vocabulary exercises for mobile learning», en Elena Volodina / Lars Borin / Hrafn Loftsson, eds., Proceedings of the Second Workshop on NLP for Computer-Assisted Language Learning. Linköping: Linköpings Universitet, páx. 39-47.

Miller, George A. et al. (1990): «Wordnet: An on-line lexical database». International Journal of Lexicography, 3(4), páx. 235–244.

Oliver, Antoni / Climent, Salvador (2011): «Construcción de los WordNets 3.0 para castellano y catalán mediante traducción automática de corpus anotados semánticamente», Procesamiento del Lenguaje Natural, 47, páx. 293-300.

Ordan, Noam / Shuly Wintner (2007): «Hebrew WordNet: a Test Case of Aligning Lexical Databases Across Languages», International Journal of Translation, 19(1), páx. 39-58.

Pease, Adam / Niles, Ian / Li, John (2002): «The Suggested Upper Merged Ontology: A Large Ontology for the Semantic Web and its Applications», en Working Notes of the AAAI-2002 Workshop on Ontologies and the Semantic Web. Edmonton: AAAI, s.p.

Plaza, Laura / Díaz, Alberto / Gervás, Pablo (2010): «Automatic summarization of news using WordNet concept graphs», IADIS International Journal on Computer Science and Information Systems, 5(1), páx. 45-57.

Pociello, Elisabete / Agirre, Eneko / Aldezabal, Izaskun (2011): «Methodology and Construction of the Basque WordNet», Language Resources and Evaluation, 45(2), páx. 121-142.

Simões, Alberto / Gómez Guinovart, Xavier (2014): «Bootstrapping a Portuguese WordNet from Galician, Spanish and English wordnets», en Juan Luis Navarro Mesa et al.,eds., Advances in Speech and Language Technologies for Iberian Languages. Berlín: Springer, páx. 239-248.

Solla Portela, Miguel Anxo / Gómez Guinovart, Xavier (2015a): «Galnet: o WordNet do galego. Aplicacións lexicolóxicas e terminolóxicas», Revista Galega de Filoloxía, 16, páx. 169-201.

Solla Portela, Miguel Anxo / Gómez Guinovart, Xavier (2015b): «Termonet: Construcción de terminologías a partir de WordNet y corpus especializados», Procesamiento del Lenguaje Natural, 55, páx. 165-168.

Solla Portela, Miguel Anxo / Gómez Guinovart, Xavier (2016): «DBpedia del gallego: recursos y aplicaciones en procesamiento del lenguaje», Procesamiento del Lenguaje Natural, 57, páx. 139-142.

Sun, Koun-Tem / Huang, Yueh-Min / Liu, Ming-Chi (2011): «A WordNet-Based Near-Synonyms and Similar-Looking Word Learning System», Educational Technology & Society, 14(1), páx.121-134.

Temmerman, Rita (2000): Towards new ways of terminological description. The sociocognitive approach. Amsterdam / Philadelphia: John Benjamins.

Page 17: O procesamento da terminoloxía no WordNet do galegosli.uvigo.gal/arquivos/realiter_wordnet.pdfIA AIACI Actas da II ornada Cientíca ealiter. 132. variación fronte á monosemia e

157O pROCESAMENTO DA TERMINOLOXÍA NO WORDNET DO gALEgOXavier Gómez Guinovart / Miguel Anxo Solla Portela / Xosé María Gómez Clemente

Vintar, Špela / Fišer, Darja / Vrščaj, Aljoša (2012): «Were the clocks striking or surprising?: using WSD to improve MT performance», en Proceedings of the Joint Workshop on Exploiting Synergies between Information Retrieval and Machine Translation (ESIRMT) and Hybrid Approaches to Machine Translation (HyTra) (EACL 2012). Stroudsburg: ACL, páx. 87-92.

Vossen, Piek (2002): «WordNet, EuroWordNet and Global WordNet», Revue française de linguistique appliquée, 7, páx. 27-38.

Wüster, Eugen (1979): Einführung in die allgemeine Terminologielehre und terminologische Lexikographie. Vienna / New York: Springer.

Zhao, Feng / Fang, Fei / Yan, Fengwei / Jin, Hai / Zhang, Qin (2012): «Expanding approach to information retrieval using semantic similarity analysis based on WordNet and Wikipedia», International Journal of Software Engineering and Knowledge Engineering, 22(2), páx. 305-322.

Page 18: O procesamento da terminoloxía no WordNet do galegosli.uvigo.gal/arquivos/realiter_wordnet.pdfIA AIACI Actas da II ornada Cientíca ealiter. 132. variación fronte á monosemia e