ua€¦ · EDITORIAL COMARES Interlingua ˜˚˛˝˙ˆˇ Interlingua TIC, trabajo colaborativo e...

In te r l inguaE D I T O R I A L C O M A R E S

co

ma

re

sIn

terl

ing

ua

TIC, trabajo colaborativo e interacción en Terminología y Traducción

Chelo Vargas Sierra (ed.)

TIC, T

RABA

JO C

OLA

BORA

TIVO

E IN

TERA

CC

IÓN

EN TE

RMIN

OLO

GÍA

Y TR

ADU

CC

IÓN

colección:

I N T E R L I N G U A

132Dirigida por:

Emilio Ortega Arjonilla y Pedro San Ginés Aguilar

BREVE SINOPSIS

Los cambios que continuamente se producen en la actual Sociedad de la Información y el Conocimiento propician nuevas formas de interrelacionarse unos con otros, de crear cono-cimiento, de llevar a cabo nuestras profesiones. En este contexto, las nuevas Tecnologías de Información y Comunicación (TIC) ejercen un considerable impacto en el modo de construir y difundir el conocimiento en la sociedad en general, pero también, y más especí� camente, en los modos de trabajo, de investigación y de interrelación social tanto en Terminología como en Traducción.

Este volumen recoge una serie de estudios de investigadores e investigadoras que tienen en común su interés por la Terminología, la Traducción y los Lenguajes Profesionales y Acadé-micos, y dedican una especial atención a nuevos conceptos teóricos y aplicados, algunos de los cuales se plantean por la irrupción de las TIC y la web social en las áreas mencionadas.

Che

lo V

arga

s (e

d.)

TIC, trabajo colaborativo e interacción en Terminología

y Traducción

Chelo Vargas Sierra

(ed.)

Colección indexada en la mla International Bibliography desde 2005

Granada, 2014

E d i t o r i a l C o m a r E sDirector de publicaciones:

AnA del Arco BlAnco

i n t e r l i n g u a

???Directores académicos de la colección:

emilo ortegA ArjonillAPedro SAn ginéS AguilAr

Comité Científico (Asesor):

Envío DE propuEstAs DE publiCACión:las propuestas de publicación han de ser remitidas (en archivo adjunto, con formato PDF) a

alguna de las siguientes direcciones electrónicas: [email protected], [email protected] de aceptar una obra para su publicación en la colección INTERlINGUa, ésta habrá de ser so-

metida a una revisión anónima por pares. Para llevarla a cabo se contará, inicialmente, con los miem-bros del comité científico asesor. En casos justificados, se acudirá a otros especialistas de reconocido prestigio en la materia objeto de consideración.

los autores conocerán el resultado de la evaluación previa en un plazo no superior a 60 días. Una vez aceptada la obra para su publicación en INTERlINGUa (o integradas las modificaciones que se hiciesen constar en el resultado de la evaluación), habrán de dirigirse a la Editorial Comares para iniciar el proceso de edición.

© los autores

Editorial Comares, S.l.C/ Gran Capitán, 10 - Bajo

18002 GranadaTelf.: 958 465 382 • Fax: 958 272 736

E-mail: [email protected]://www.editorialcomares.com

http://www.comares.com

ISBN: 978-84-9045-046-8 • Depósito legal: …

Fotocomposición, impresión y encuadernación: comAreS

CleCi BevilaCqua Universidade Federal do Rio Grande do Sul, Brasilana María Cardero Universidad Nacional Autónoma de México

Joaquín GarCía PalaCios Universidad de SalamancaM. de Graça KrieGer Universidade do Vale do Rio dos Sinos, Brasilana Maria Granero Universidad Nacional de Córdoba, Argentina

rosa luna Universidad Femenina del Sagrado Corazón y Universidad Ricardo Palma, Lima, PerúluCía FaBri URUTERM, Uruguay

MerCé lorente Institut Universitari de Lingüística Aplicada, Universitat Pompeu Fabra, Barcelonaestela servente Colegio de Traductores Públicos de la Ciudad de Buenos Aires, Argentina

MerCedes suárez de la torre Universidad Autónoma de Manizales, ColombiaMaría isaBel diéGuez Morales Pontificia Universidad Católica de Chile

Esta publicación ha sido posible gracias a la financiación del Ministerio de Economía y Competitividad, Acción Comple-mentaria FFI2011-12733-E del Plan nacional de Investigación Científica, Desarrollo e Innovación Tecnológica 2008-2011.

Índice

Presentación, Chelo Vargas Sierra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

CoNFERENCIAS

Hacia la terminología 3.0: Evolución del uso de las tecnologías en terminología, Mercè Lorente Casafont . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

Terminología y traducción: un viaje de ida y vuelta desde un punto de vista ‘cultural’, que no ‘culturalista’, Emilio Ortega Arjonilla . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

Adaptación de la tecnología para la gestión terminológica desde la perspectiva de la tra-ducción, Miguel Ángel Candel-Mora . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

El trabajo colaborativo en traducción y terminología: situación actual y retos futuros, Laura Ramírez Polo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

El trabajo en equipo y las TICs en la enseñanza de traducción especializada, Isabel Durán Muñoz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

Hacia la construcción de los saberes del docente de traducción del siglo xxi, Rosa Luna . 79

Terminología, traducción y TIC: nuevos retos, nuevas oportunidades, M.ª Isabel Fijo León . 91

La formación en neología, peldaño fundamental para la autonomía del traductor especia-lizado, Rosa Estopà . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97

Consecuencias de la adopción del inglés como lingua franca en el mundo de la moda para la práctica de la traducción al español, Ana Belén Martínez López . . . . . . . . . . . . 105

CoMUNICACIoNES

seCCión i: terMinoloGía, traduCCión y nuevas teCnoloGías

Una metodología para depurar los resultados de los extractores de términos, Rogelio Nazar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133

VIII

tic, trabajo colaborativo e interacción en terminología y traducción

Propuesta de conceptualización de terminología especializada en la base de conoci-miento FunGramKB: desambiguación de términos comunes en el ámbito general y el especializado, María Enriqueta Cortés de los Ríos y Ángela Alameda Hernández . . . . 151

Granularidad y conceptualización de los conceptos espejo en la base de conocimiento FunGramKB, Diana Fernández Lloret y María Ángeles Gómez Castejón . . . . . . . . . . . . 163

«Simple extractor»: una aplicación informática sencilla para la extracción y gestión ter-minológica, Jesús Cardeñosa y Carolina Gallardo Pérez . . . . . . . . . . . . . . . . . . . . . . . . . 177

Satisfacción de los usuarios en la búsqueda multilingüe de respuestas como recursos de información terminológica, María Dolores Olvera Lobo y Juncal Gutiérrez Artacho . . 191

Nuevas posibilidades de búsqueda terminológica eficiente para traductores: la herra-mienta Trandix, Isabel Durán Muñoz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201

otras formas de explotación de las memorias de traducción (eLENA), Iker Etxebeste Zubi-zarreta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213

Gestor de anglicismos en textos de telecomunicación e informática, Inmaculada Álvarez de Mon y Rego y Luis Daniel Rosado Poveda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223

seCCión ii: terMinoloGía, traduCCión y la weB 2.0

Gestión terminológica en el ámbito humanitario: Humanterm en entorno TikiWiki, Celia Rico Pérez y Fernando Contreras Blanco . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 237

Como mejorar el aprendizaje mediante el uso de herramientas de la web 2.0, Bryan J. Robinson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243

Análisis de sitios web de turismo: terminología y traducción, Mercedes López Santiago . 259

El treball col·laboratiu en la normalització i el desenvolupament de la terminologia cata-lana, Glòria Fontova Hugas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273

El recurso a la web en el ámbito comercial: una experiencia pedagógica en la universi-dad, Hortensia López Lorca . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 279

Wikcionario, entre el deber y el ser, Sandra L. Mattalía . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 289

Glosarios especializados y web 2.0 en asignaturas de traducción en un programa de postgrado: práctica y evaluación, Raquel Lázaro Gutiérrez . . . . . . . . . . . . . . . . . . . . . . 299

seCCión iii: terMinoloGía y traduCCión esPeCializada

¿Canal anglais?, ¿Spanish omelette?, ¿Pasta italiana e Italian pasta? La geografía física y humana como escolio o escollo en traducción, Juan José Calvo García de Leonardo . 317

20 años del BTUC: base de datos terminológica en el área de acústica digital, María Isa-bel Diéguez Morales, Rosa María Lazo Rodríguez y Anabelle Vargas Zúñiga . . . . . . . . 331

El léxico en el ámbito de la gastronomía valenciana: un estudio de las técnicas de traduc-ción de los culturemas, Diana María González Pastor y Analía Rosa Cuadrado Rey . . 345

IX

íNDICE

Traducción jurada de documentos académicos inglés-portugués: aspectos culturales y terminológicos, Ivanir Azevedo Delvizio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 359

Lenguajes técnicos. Terminología oculta y jergas gremiales, Amaia Gómez Goikoetxea . . 371

La terminología de la demanda en inglés y su traducción al español, Kenneth Jordan Núñez . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 383

Las dificultades terminológicas del traductor judicial de informes forenses, Françoise Olmo Cazevieille y Pilar Albert Gómez . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 395

Innovación léxico-semántica en el ámbito de la informática e internet en lengua francesa: precisiones terminológicas desde la pragmática de la traducción, Mercedes Eurrutia Cavero . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 407

El derecho como sistema lingüístico y sus implicaciones para la terminología jurídica, Elena Macías Otón . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 423

seCCión iv: elaBoraCión de reCursos terMinoGráFiCos

Aproximación a la equivalencia de la terminología de la gestión universitaria español ruso, Oksana Polyakova y Miguel Ángel Candel Mora . . . . . . . . . . . . . . . . . . . . . . . . . . . 437

La elaboración de un diccionario terminológico multilingüe de genética en soporte elec-trónico, un recurso necesario para la comunidad científica internacional, Antonio Bueno García, Susana Álvarez Álvarez y Verónica Arnáiz Uzquiza . . . . . . . . . . . . . . . . . 449

Terminologia, equivalência e polissemia no desenvolvimento de frames semânticos para a linguagem do futebol, Rove Chishman, Anderson Bertoldi y Cassiane Ogliari . . . . . . 467

Evaluación de una base de conocimiento terminológica sobre el medio ambiente en el aula de traducción especializada, Alejandro García Aragón, Miriam Buendía Castro y Clara Inés López Rodríguez . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 477

A construção do saber científico em linguagem popular: um desafio para a terminologia e tradutologia, Vilma de Fátima Soares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 489

Base de datos terminológica geología de la exploración de hidrocarburos upstream, Este-la Lalanne de Servente y María Victoria Tuya . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 505

Glosario de diseño instruccional de la didáctica de lenguas extranjeras, Yamid Manuel Barbosa Rivera y Julián Andrés Antury Gómez . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 509

seCCión v: ForMaCión en terMinoloGía

Bases para el estudio de la terminología oral, Natalia Seghezzi . . . . . . . . . . . . . . . . . . . . . . 529

El papel de la terminología en la adquisición de conocimiento especializado en la forma-ción de los profesores de lenguas extranjeras, Irina Kostina . . . . . . . . . . . . . . . . . . . . . . 543

Estudio contrastivo de la variación de términos e imágenes en el discurso multimodal, María Luisa Carrió Pastor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 557

La ciencia de la información y su relación con la terminología, María Teresa Múnera Torres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 565

X

tic, trabajo colaborativo e interacción en terminología y traducción

seCCión vi: terMinoloGía, traduCCión y linGüístiCa de CorPus

La naturaleza situada de los conceptos médicos: por una representación multimodal del dolor, Juan Antonio Prieto Velasco y Maribel Tercedor Sánchez . . . . . . . . . . . . . . . . . . . 575

La jerarquización cognitiva de las entidades en la ontología satélite del crimen organiza-do y el terrorismo en FunGramKB, María de Gracia Carrión Delgado y Ángel Felices Lago . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 591

A terminologia da culinária típica brasileira em língua inglesa: um estudo sob o enfoque da linguística de corpus, Rozane Rodrigues Rebechi . . . . . . . . . . . . . . . . . . . . . . . . . . . . 609

Una aproximación a la dificultad de los textos. El proyecto CódiGo, José Jorge Amigo Ex-tremera . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 627

A terminologia e a utilização de ferramentas computacionais de análise de corpus, Lean-dro Henrique Mendonça de Oliveira y Alexandra Feldekircher Müller . . . . . . . . . . . . . . 641

Extracción automática de términos especializados en UKSCC y TEC, dos corpus específi-cos, María José Marín Pérez y Camino Rea Rizzo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 653

seCCión vii: terMinoloGía y CoMBinatoria léxiCa esPeCializada

Configurações terminológicas distintas e motivações para suas formações, Maria da Graça Krieger . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 663

La combinatoria verbo-nominal en estructuras lingüísticas que vehiculan metáforas en el discurso del genoma humano, Míriam Suárez Gallo y Mercè Lorente Casafont . . . . . . 671

Projeto combinatórias léxicas especializadas: extração e proposta de classificação, Cleci Regina Bevilacqua y Cristiane Krause Kilian . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 677

Estudio de elementos léxico-gramaticales y colocacionales en un corpus de artículos de investigación, Alicia Ricart Vayá y Miguel Ángel Candel Mora . . . . . . . . . . . . . . . . . . . . 687

Estudio contrastivo de las unidades fraseológicas especializadas eventivas en el ámbito jurídico, Ana María Granero, Marta Susana Baduy, María Ángela Brígido, María Paula Garda y María Laura Perassi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 697

A variacao na terminologia jurídico-policial aplicada à pessoa que comete o crime, Maria Izabel Plath da Costa y Cleci Regina Bevilácqua . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 705

Análisis fraseológico descriptivo inglés-español de los textos biomédicos experto-exper-to, Beatriz Méndez Cendón . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 715

Colocaciones a la carta: un sistema de relaciones léxicas dinámicas para el procesamien-to general de la información sintagmática, Andrés Domínguez Burgos y María Lara Sanz Vicente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 727

Tipologia das variantes terminológicas utilizadas por usuários do portal lexml na área do direito do trabalho, Rita do Carmo Ferreira Laipelt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 741

Disponibilidades combinatórias na terminologia de marketing, Roxana Ciolăneanu . . . . . 749

XI

íNDICE

seCCión viii: terMinoloGía y neoníMia

La terminologia informàtica en llengua catalana: ús i implantació, M. Amor Montané March y M. Teresa Cabré Castellví . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 761

Usos general y especializado en español de dos términos estrechamente relacionados: feminicidio/femicidio, María Pozzi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 777

Neonimia en la prensa: análisis de neologismos formados por acronimia, Elisabet Llopart Saumell y Judit Freixa Aymerich . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 787

La crisis económica española a través de la terminología utilizada en distintos medios de la prensa escrita, Natividad Gallardo San Salvador . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 801

La neología: un procedimiento lingüístico de uso remoto. Los manuscritos aljamiados como ejemplo, Kaoutar El Amri . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 813

Neologismos en la divulgación científica, Paula de Santiago González . . . . . . . . . . . . . . . 823

La terminología informática en el concierto discursivo de la sociedad venezolana, Melva J. Márquez Rojas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 835

Tratamiento de términos especializados en la prensa castellanoleonesa, Miguel Sánchez Ibáñez . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 849

El Atlas Lingüístico Galego como herramienta para el estudio del léxico gallego dialectal. Propuesta de análisis sociolingüístico de los términos de edad, sexo y profesión extraí-dos del proyecto, Noelia Estévez Rionegro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 857

Una metodología para depurar los resultados de los extractores de términos

rogelio nazarInstitut Universitari de Lingüística Aplicada

Universidad Pompeu Fabra, [email protected]

resumen

Este artículo presenta una metodología para mejorar la ordenación de un listado de candidatos a término (el resultado típico de un extractor) utilizando un método basado en estadísticas de coocurrencia sobre un corpus de grandes dimensiones, como la Web o la Wikipedia. El método se basa en el supuesto de que las unidades léxicas que funcionan como términos en una disciplina muestran una tendencia a aparecer en las mismas oracio-nes con otros términos que están conceptualmente relacionados. El algoritmo descrito en este artículo se basa en la selección y reposicionamiento en los primeros lugares de todas aquellas unidades del listado de entrada en las que se detecta este comportamiento. El artí-culo presenta una evaluación del método con los resultados de extracción de términos en distintas revistas científicas en catalán.

Palabras clave: estadísticas de coocurrencia, extracción de términos, semántica distribu-cional, terminografía computacional.

1. IntroduccIón

El presente trabajo se enmarca en el contexto de los mecanismos computacionales para la extracción de unidades terminológicas a partir de corpus y describe una metodo-logía para mejorar los resultados de un extractor. Se plantea, por tanto, como una etapa de pos-edición en un proceso de extracción y tiene sentido cuando se trabaja con grandes cantidades de datos, como en un glosario de varios miles de entradas.

El algoritmo descrito en este artículo recibe un listado de candidatos a término (en una lengua y un dominio cualquiera) ordenados según una determinada ponderación —el resultado típico de un extractor terminológico— y devuelve un reordenamiento de los mismos candidatos de acuerdo con una nueva ponderación basada en estadísticas de coocurrencia en un corpus de grandes dimensiones, como la Web o la Wikipedia. opcionalmente, el listado inicial puede ser completado con nuevos términos concep-tualmente relacionados presentes en el corpus, aunque este no es uno de los aspectos que se evalúa en el presente trabajo.

132

TIC, TRAbAjo CoLAboRATIVo E InTERACCIón En TERMInoLogíA y TRADUCCIón

En el ámbito de esta investigación, la coocurrencia es definida como una tendencia de dos unidades terminológicas (mono o poliléxicas) a aparecer en las mismas oraciones o párrafos con una frecuencia significativa sin importar el orden de aparición. Los térmi-nos especializados que están conceptualmente relacionados demuestran esta tendencia, entonces la intuición en la que se basa la presente propuesta es que aquellos términos que sean correctos demostrarán este comportamiento al aparecer en el corpus junto a otros términos de la misma lista de candidatos. Esto se da bajo el supuesto de que los candidatos a término de la lista pertenezcan a un mismo dominio o, al menos, a dominios relacionados, como suele ser el caso. Una manera de representar el método es pensar que las unidades terminológicas poseen como atributo natural una especie de «eco» termino-lógico, representado por todas aquellas unidades que tienen tendencia a coocurrir con ellas en el corpus y que representan lo que podríamos denominar su espacio conceptual.

Como demostración empírica del desempeño del método, el presente trabajo des-cribe un experimento en distintos ámbitos de especialidad en catalán en que se toman como punto de partida los resultados de Terminus, un extractor online desarrollado en la Universidad Pompeu Fabra (nazar y Cabré, 2012). Terminus no utiliza métodos basados en coocurrencia terminológica tal como el que se describe aquí sino en pistas como la estructura léxica, sintáctica y morfológica de los candidatos, y funciona mediante un proceso de entrenamiento con ejemplos de la terminología que interesa al usuario. El presente método, al estar basado en la coocurrencia entre términos, se funda en cambio en un componente conceptual.

Los resultados del experimento demuestran una mejora sustancial de la precisión de entre 10 y 20 puntos porcentuales. Esta mejora se traduce directamente en una reducción significativa del esfuerzo necesario para la posterior revisión manual de los resultados de la herramienta de extracción por parte de un experto o terminólogo, lo cual es importante sobre todo cuando se trabaja con grandes volúmenes de datos. naturalmente, es preciso mantener al mínimo la cantidad de movimientos repetitivos y mecánicos que se deben realizar con el ratón o el teclado para evaluar los resultados de una extracción.

El trabajo tiene la siguiente estructura: el apartado siguiente argumenta que el trabajo tiene un doble interés teórico y práctico; la sección 3 presenta un breve comentario sobre el estado de la cuestión; la sección 4 presenta materiales y métodos; la sección 5 presenta una evaluación de los resultados obtenidos y, finalmente, la sección 6 aporta conclusiones y algunas líneas de trabajo futuro.

2. reLevancIa de La InvestIgacIón en pLano teórIco y en eL práctIco

Si bien el tema del artículo es evidentemente práctico, técnico y especializado, existen no obstante otros aspectos de índole teórica que deben ser comentados, ya que sugieren que el tema es relevante en un foro de terminología de manera más amplia, es decir más allá de los detalles técnicos del funcionamiento del extractor. Esto iría en contra de la idea más bien extendida acerca de que el terminólogo profesional puede desentenderse de los aspectos técnicos de las herramientas informáticas usadas para el tratamiento de corpus, de la misma forma en que un profesional del periodismo radial no necesita conocer los

133

UnA METoDoLogíA PARA DEPURAR LoS RESULTADoS DE LoS EXTRACToRES DE TÉRMInoS

detalles técnicos de la transmisión de ondas de radio o tal como el profesional del diseño gráfico no necesita saber programación para utilizar aplicaciones de diseño.

En la historia de las ciencias y las artes se produce a menudo un momento en que un determinado conocimiento se hace opaco y permite así economizar esfuerzo mental para que el profesional pueda concentrarse en otros aspectos. De esta manera puede surgir toda una disciplina como la de los estudios de comunicación de masas en sociología que no necesitan conocer los aspectos técnicos de los medios de comunicación para elaborar sus teorías.

El presente artículo no establece tal paralelo. Al contrario, sostiene que en el estado de desarrollo actual de la lingüística de corpus, el terminólogo necesita estar familiari-zado con aspectos técnicos como el análisis estadístico-computacional de textos. Esta necesidad trasciende la mera automatización de las tareas, que ya es suficientemente importante en sí misma por la reducción de esfuerzo humano. La cuestión de fondo es la existencia o la legitimidad de una teoría cuantitativa de la terminología, que no es un tema de interés exclusivo para los foros de informática o de lingüística computacional. La cuestión merece ser tratada con detenimiento ya que su rechazo inmediato equivaldría al desconocimiento de la posibilidad de existencia de modelos cuantitativos en una teoría o metodología científica como la lingüística o la terminología, y por tanto a no discernir entre pensamiento científico e informática.

naturalmente, esta postura no tiene que ser necesariamente compartida por todos los terminólogos. Por eso, el trabajo pretende resultar útil a quienes tengan cualquiera de los dos puntos de vista, es decir, para quienes son escépticos con respecto al interés intrínseco del análisis estadístico del texto especializado como para quienes no lo son. El interés del trabajo para los primeros será el que les puede ofrecer una herramienta con una utilidad práctica para ahorrar tiempo y esfuerzo en la recolección de los datos para el análisis. Para los segundos, en cambio, hay interés por las posibilidades que las técnicas estadísticas abren para el análisis. En el caso particular de este artículo, estas serían las del análisis de coocurrencia de términos. El tema es relevante por la conexión que existe entre el fenómeno de la coocurrencia y las relaciones conceptuales que se producen entre los términos. Como regla general, los términos que están conceptualmente relacionados demuestran una tendencia a aparecer juntos en las mismas oraciones (sin importar el orden) con una frecuencia estadísticamente significativa y este fenómeno ofrece distintas posibilidades de investigación tanto teórica como aplicada. En terminología, particular-mente, la dimensión conceptual del término es de importancia vital y al mismo tiempo es la más difícil de tratar en términos precisos o de manera computacional.

En última instancia, el conocimiento de los sistemas de extracción es también de un orden práctico incluso para quienes son escépticos con respecto a la trascendencia teórica del tema, porque si uno desconoce cómo funcionan, puede caer en el error de invertir en una mala herramienta. En la actualidad se presentan como extractores de términos a sistemas que se limitan a ordenar el léxico del corpus (enegramas) por frecuencia. Lla-marle extractor terminológico a tal mecanismo es ignorar en qué consiste realmente el problema de la extracción. Presentar todo el vocabulario del corpus es trivial. Lo que no

134


es trivial es separar las unidades terminológicas de las que no lo son o, si la distinción no es binaria, al menos proponer una ordenación del vocabulario según un criterio tal que los mejores candidatos se encuentren en las primeras posiciones. La frecuencia de aparición no puede ser el único criterio para esto porque no hay una correlación entre frecuencia y terminologicidad, por tanto los algoritmos deben ser más complejos.

El análisis de la coocurrencia de términos es útil para la extracción de terminología pero también para otros campos como la obtención de equivalentes de términos en otras lenguas, o bien la extracción de taxonomías a partir de corpus. Estos son temas que están íntimamente relacionados y una de las líneas de trabajo futuro es fusionar estos aspectos ya que un extractor terminológico que sea también un «estructurador conceptual» fun-cionará mejor que un extractor que obedezca a los estándares actuales (sección 3). En lugar de ofrecer un listado ordenado de candidatos a término, una herramienta con un componente conceptual sería capaz de ubicar los términos extraídos en una taxonomía, lo cual a su vez otorgaría mayor certeza a la selección de los candidatos. Si el enfoque se aplica a la extracción de taxonomías, el análisis estadístico produce algo muy distinto a lo que se hace en inteligencia artificial con los «sistemas expertos» que incorporan una gran cantidad de conocimiento de la lengua y del mundo. Por el contrario, las taxonomías del análisis estadístico surgen naturalmente a partir del corpus, en una forma «bottom-up». La diferencia con la inteligencia artificial es que esto es en realidad una suerte de «inteligencia colectiva», la aportada por cada autor individual al total del conocimiento contenido en los textos.

3. trabajo reLacIonado

Como introducción al campo de la extracción de terminología siguen siendo vigentes los trabajos de Kageura y Umino (1996) y Cabré et al. (2001). Existe una gran cantidad de publicaciones más recientes, sin embargo los conceptos fundamentales no han cambiado: un extractor terminológico, ya sea basado en estadística o en sistemas de reglas, es siempre un mecanismo capaz de extraer un listado de candidatos a término ordenados con arre-glo a la ponderación que cada candidato recibe, por tanto la respuesta de estos sistemas suele ser un continuo de elementos ordenados de mayor a menor «terminologicidad».

Una gran diversidad de estrategias se han propuesto para la extracción. A modo de ejemplo introductorio, se puede reproducir un experimento basado en una idea simple pero brillante, presentada por juilland y Chang Rodriguez (1964), quienes en realidad no estaban interesados específicamente en la terminología especializada sino más bien en el vocabulario general. Desde el punto de vista terminológico, sin embargo, el método que proponen es igualmente válido. La idea consiste en agrupar en un corpus textos de distintos dominios y estudiar entonces cómo se distribuye la frecuencia de las unidades del vocabulario (la «dispersión», para usar su terminología). Aquellas unidades que sean propias de un dominio en particular tendrán tendencia a ser frecuentes en ese dominio, mientras que, en el caso contrario, muchas unidades del vocabulario general tendrán tendencia a aparecer en los documentos de cualquier dominio porque son unidades que pertenecen a la lengua misma.

135


Para reproducir el ejemplo, considérese un corpus en inglés 1 compuesto por docu-mentos de derecho, economía, genética, informática, medicina y medio ambiente, en las mismas proporciones. Las gráficas de las figuras 1 y 2 muestran la frecuencia relativa, en el eje vertical, de dos expresiones en inglés. En el caso de la primera de ellas se trata del par acid sequence (que forma parte de términos como amino acid sequence o nucleic acid sequence), mientras que en el caso del segundo se trata de la forma difference between, una expresión claramente no terminológica. En el primer caso la unidad tiene un uso especializado dentro de una disciplina, mientras que en el segundo se trata de una predicación que se puede aplicar a cualquier clase de entidades y por tanto puede aparecer un texto de cualquier temática. Esto se ve claramente reflejado en la distinta distribución de frecuencias en cada caso: en la primera, la unidad aparece solo en los documentos de genética y de medicina, mientras que en el segundo la expresión aparece con una frecuencia relativamente homogénea en todas las partes del corpus. A pesar de su simplicidad, esta es ya una estrategia de extracción de términos de gran potencia, ya que permite a un programa informático analizar todo el vocabulario del corpus y clasificar las unidades en función de su dispersión.

Figura 1. Distribución de frecuencia del par acid sequence en un corpus de distintos dominios

1 El corpus mencionado en este ejemplo forma parte del Corpus Técnico del IULA: http://bwananet.iula.upf.edu/

136


Figura 2. Distribución de una expresión no terminológica en el mismo corpus

El campo de la extracción de terminología experimentó una gran evolución desde la década de los años sesenta y las técnicas que se presentan actualmente son mucho más complejas que el ejemplo recién comentado. Es mayormente a partir de la década de los años noventa cuando se produce la explosión de publicaciones sobre extracción auto-mática de terminología. Una de las líneas de investigación consistió en la incorporación de información lingüística, tales como los patrones morfo-sintácticos en los candidatos a término. El sentido de esto es que las unidades terminológicas suelen tener un patrón morfo-sintáctico característico: en el caso de las unidades monoléxicas, la categoría gramatical suele ser el sustantivo, pero en el caso de las poliléxicas, tenemos distintos patrones que conforman generalmente grupos nominales. naturalmente, ni esta es condi-ción exclusiva de las unidades terminológicas, ni todas las unidades terminológicas tienen exclusivamente estos patrones, por tanto esta no puede ser la única pista que informa a un sistema de extracción automática. Sin embargo, la introducción de este tipo de cono-cimiento lingüístico en el análisis ha dado lugar a una corriente de investigación bastante amplia (justeson y Katz, 1995; bourigault, 1996; bourigault y jacquemin, 1999; jacquemin, 1997). De manera similar, se han propuesto otros recursos además de la sintaxis, como por ejemplo el uso de formantes cultos ya que, se supone, la terminología especializada —de algunos dominios— hace uso de ellos frecuentemente (Ananiadou, 1994).

En una línea distinta, otras publicaciones han hecho énfasis en el análisis estadístico. En primer lugar aparecieron propuestas basadas en estadísticas de distribución, como el trabajo de Spärck jones (1972) en el ámbito de la recuperación de información, un trabajo que recuerda al de juilland y Chang-Rodríguez (1964) comentado al inicio de este apartado, con la diferencia de que esta autora prescinde de la partición del corpus en dominios porque estudia cómo se distribuye el vocabulario del corpus a lo largo de los distintos documentos, sin importar el tema de los mismos. Se puede decir, por tanto, que estudia la especificidad de los términos, el concepto opuesto al de la dispersión. Los trabajos de corte cuantitativo que aparecieron más tarde están por lo general orientados al estudio de las unidades poliléxicas, por tanto aplican medidas de asociación para cal-

137


cular el grado en que los componentes de un término conforman realmente una unidad (Daille, 1994; Pantel y Lin, 2001). Por ejemplo, si la palabra inglesa carbon aparece con una frecuencia estadísticamente significativa precediendo a la palabra dioxide, entonces esto se toma como pista para ponderar el candidato a término carbon dioxide. Enguehard y Pantera (1994) enfatizan la necesidad de que los extractores sean puramente estadísticos para que sean independientes de lengua y de dominio. De cualquier modo, las estrategias no suelen aplicarse de manera aislada, sino que presentan distintos grados de hibrida-ción, combinando información lingüística y estadística. Dagan y Church (1994) utilizan información morfosintáctica además de estadística y están orientados a la extracción de terminología bilingüe a partir de corpus paralelos. Patry y Langlais (2005) combinan el uso de etiquetadores morfosintácticos con el feedback de usuario en forma de aprendizaje automático, en donde el usuario entrena al algoritmo mostrando un corpus con los térmi-nos marcados, convirtiendo la extracción de términos en un problema de clasificación. Se han utilizado estadísticas de distribución con el objeto de comparar la frecuencia de términos en corpus especializados con corpus de referencia (Scott, 1997; Drouin, 2003). Se ha intentado también incluir información semántica en forma de ontologías (Maynard y Ananiadou, 2000; Vivaldi, 2001) u otras fuentes de conocimiento como la Wikipedia (Vivaldi y Rodríguez, 2011). El ya mencionado Terminus (nazar, 2011; nazar y Cabré, 2012) está basado en criterios estadísticos y al mismo tiempo incorpora información lingüística. La clave está en que esa información no es explícita sino que el programa la infiere durante un proceso de entrenamiento que se tiene que hacer previo al análisis. El usuario le muestra ejemplos de términos (algunos centenares) y el programa automática-mente aprende sus características morfológicas, léxicas y sintácticas.

A pesar de la gran variedad de estrategias que se han propuesto, la que propone este artículo está basada en una idea que hasta ahora no se había aplicado a la extracción de terminología. El estudio de la coocurrencia léxica, tal como se plantea en este trabajo, tiene ya una tradición importante (una introducción a este campo de estudio se ofrece en nazar, 2010). El rango de aplicaciones, sin embargo, es mucho más amplio que la extracción de términos, incluyendo también la extracción de taxonomías y vocabularios bilingües así como la desambiguación semántica, entre otras.

4. materIaLes y método

A modo de consideración general sobre la metodología, antes de entrar en los deta-lles más técnicos, cabe explicar que, en esencia, lo que hace este sistema es aceptar un listado de candidatos a término ofrecido por un extractor y el resultado es la misma lista pero con un orden distinto que —se supone— será de mejor calidad que el inicial. Esto quiere decir que aquellos candidatos que son realmente términos aparecerán en las posiciones más altas de la lista y no hay, por tanto, aceptación o rechazo explícito de candidatos. Quedan para trabajo futuro otras posibilidades como la de engrosar la lista inicial con nuevas unidades terminológicas provenientes del corpus especializado o bien estructurar los términos en un mapa conceptual o una ontología, aunque sean temas igualmente interesantes.

138


Como una decisión metodológica de base, el algoritmo no incorpora conocimiento explícito de la lengua, ni siquiera lematización ni etiquetado morfosintáctico, y tampoco incluye información ontológica o del dominio. Esto puede resultar un tanto sorprendente a primera vista, pero hay varios motivos detrás de la decisión. En primer lugar, si esta metodología se plantea como una edición de los resultados de un extractor, entonces podemos suponer que operaciones tales como la segmentación de unidades poliléxicas (para la cual suele ser útil, por ejemplo, un etiquetador morfosintáctico) ya están en alguna medida resueltas por el extractor inicial. La razón fundamental, sin embargo, para elegir un método «pobre en conocimiento» es el encontrar una metodología que sea válida o, al menos, fácil de adaptar a más de una lengua y dominio. Desarrollar un proyecto únicamente válido para el dominio de la micología en catalán, por ejemplo, es algo que tiene evidentemente menos atractivo que un sistema que pueda hacer abstracción de las particularidades de cada lengua y dominio. no hay ninguna razón para no añadir o adaptar conocimiento específico lingüístico-ontológico en una aplicación concreta si este puede aportar una mejora de la calidad de los resultados, pero es deseable encontrar una metodología «nuclear» que sea común a todos las lenguas y ámbitos de aplicación.

A continuación se describe en primer lugar los materiales que se supone están dis-ponibles para el ensayo (letras a-d) y en segundo lugar la metodología en la forma de factores que contribuyen a recalcular la ponderación de los candidatos a término (en números romanos, I-VI).

a) Un listado de candidatos a término ordenados según una determinada pondera-ción de terminologicidad. Para este experimento se utilizó la salida del ya mencionado extractor Terminus, pero está claro que el experimento se puede realizar con el resultado de cualquier extractor que produzca un listado ordenado de candidatos.

b) El corpus especializado desde el que han sido extraídos los candidatos (de un tamaño mínimo de un millón de palabras). Para no hacer los experimentos en una lengua excesivamente representada como el inglés, el castellano o el francés, elegimos hacer la extracción en una lengua de relativa baja densidad como el catalán, aprovechando los materiales de un proyecto en curso en colaboración con el Institut d’Estudis Catalans, en donde hacemos extracción de terminología de su hemeroteca digital. En los experimentos que se describen en este artículo aparecen los resultados de la extracción de términos en revistas de biología, micología y sociología. Las revistas están publicadas en formato PDF en la página Web del Institut 2.

c) Un corpus de referencia de gran tamaño (como la Web o la Wikipedia). En este experimento se utiliza la Wikipedia solo como un corpus textual, es decir que se elimina toda la metainformación y la estructura, acumulando el texto de las páginas en ficheros de texto y pasando las páginas en orden aleatorio. Es seguro que se conseguirían mejores

2 La dirección de le Hemeroteca Científica Catalana Institut d’Estudis Catalans es http://revistes.iec.cat/. Hay que agradecer especialmente a Salvador Alegret por promover el uso del material para propósitos de investigación científica.

139


resultados utilizando la Web como corpus de referencia en lugar de la Wikipedia, pero en ese caso habría toda una serie de factores que no estaríamos en condiciones de controlar, como el ranking que cada motor de búsqueda da a sus resultados. naturalmente, depen-derá de la lengua analizada la disponibilidad de este tipo de materiales, pero cada día existe más material en la Web y el crecimiento de la Wikipedia todavía no ha alcanzado su punto de saturación 3.

d) opcionalmente, muestras de lenguas presentes en el corpus analizado (para eli-minar términos en otras lenguas). Las muestras de lengua general utilizadas en este experimento tienen una extensión de aproximadamente dos millones de palabras, con las que se confeccionan modelos de lengua que consisten simplemente en un listado de las palabras que aparecen en la muestra junto a su frecuencia de aparición. En este experimento se utilizaron muestras del proyecto Wortschatz, de la Universidad de Leipzig (Quasthoff et al., 2006).

En cuanto a los factores que intervienen en la nueva ponderación, tenemos los siguientes:

i. El elemento principal que este algoritmo tiene en cuenta a la hora de otorgar una nueva ponderación a los candidatos es el registro de los coocurrentes que cada uno tiene en el corpus de referencia. En la medida en que un candidato demuestre una tendencia a coocurrir en las mismas oraciones de la Wikipedia con otros términos de la lista inicial de candidatos, esto influirá de manera positiva en su ponderación final. Por ejemplo, podemos determinar que un candidato de la lista como tiroxina (los ejemplos están en catalán pero son transparentes para un hablante de castellano) es probablemente un término porque muestra una tendencia a aparecer en las mismas oraciones de la enciclopedia junto a otros como amiloide, arginina, artritis, cloramfenicol, clorur, enzim, glàndula tiroide, hipotàlem, hormona, hormones, iode, pèptid, petjades, ratolins, tiroide, tiroides o tirosina ya que estos son términos conceptualmente relacionados con tiroxina.

ii. Siguiendo una intuición similar a la del punto anterior, un determinado candidato es beneficiado si otros candidatos de la lista tienen tendencia a coocurrir con él en la Wikipedia. Es decir, siguiendo con el ejemplo anterior, términos como hormona, clorur o enzim son términos que también aparecen junto a muchos otros candidatos, es decir que son seleccionados de manera recurrente por otros términos y esto les hace ganar posiciones en la lista final.

iii. También en la línea del punto I, en este caso estudiamos no solamente si el candi-dato coocurre con otros candidatos en el corpus de referencia (Wikipedia), sino también si existe alguna coincidencia entre los términos con los que coocurre un candidato en el corpus de referencia con aquellos términos con los que coocurre dentro del mismo corpus especializado. Por ejemplo, en el caso del candidato citocrom, tal como se puede observar en la tabla 1, en el corpus analizado (LSP corpus), el término selecciona un determinado

3 En la misma Wikipedia se puede encontrar un estudio sobre su tasa de crecimiento: http://en.wikipedia.org/wiki/Wikipedia:Modelling_Wikipedia’s_growth

140


número de candidatos de la misma lista, y lo mismo ocurre con el corpus de referencia (Wikipedia). Este factor entonces promueve al candidato porque entre ambos conjuntos de coocurrentes existe una importante intersección, es decir un grupo de términos que citocrom selecciona de manera persistente tanto en un corpus como en el otro (enzim, metabolisme, oxidasa, proteïnes, etc.). Este es un patrón que se repite de manera sistemá-tica en los candidatos que son efectivamente terminológicos.

citocromlsP corpus Wikipedia

Elementos compartidos:

citocrom b, citocrom c, enzim, enzims, metabolisme, oxidasa, proteïnes, reductasa

Elementos no compartidos:

àcid, afinitat, concentració, contingut de citocrom, cubeta, espectre, espectre absolut,

espectre diferencial, espectres, fàrmacs, fenobarbital, fixació, floc, fosfat, fracció, glicerol, hexobarbital, injeccions, mcs, membranes, microsomes, mitocondrial,

monòxid, omura, oxidació, pentobarbital, pigment, quantitat de citocrom, solubletoxina

bacteris, cadena, cadena lateral, coenzim, complexos,

deshidrogenasa, fetge, gradient, hemoglobina,

matriu, membrana, metabolisme, mitocondri, mitocondrial, molecular,

oxidases, oxigen, proteïna, reaccions, ubiquinona

Tabla 1. Ejemplo de candidatos que coocurren con citocrom, en el corpus especializado y en el corpus de referencia (Wikipedia)

iV. Criterios de penalización: en este punto incorporamos una serie de medidas que no afectan positivamente la ponderación sino que penalizan al candidato haciéndole perder posiciones en el ranking. Esto se produce cuando se cumplen cualquiera de las siguientes condiciones, y la penalización aumenta conforme más condiciones se cumplan:

• Si no demuestra tendencia a coocurrir con ningún otro elemento de la lista. • Si tiene una frecuencia muy alta en el modelo de la lengua analizada • Si el candidato es un nombre propio, es decir si en el corpus la palabra aparece

generalmente escrita con mayúscula inicial. • Si el término está en otra lengua, lo cual se puede determinar por medio de los

modelos de lengua utilizados. Si, por ejemplo, el candidato effect tiene una frecuencia mucho más alta en el modelo de inglés en comparación con el de catalán, el término se puede penalizar. Lo mismo se puede hacer en caso de que el término no esté en los modelos de lengua. En este caso, lo que hacemos es analizar los contextos de aparición del término en el corpus especializado. Si el término aparece de manera sistemática en contextos que están en otra lengua, entonces tenemos los suficientes indicios como para suponer que el término pertenece efectivamente a una lengua distinta a la analizada y por tanto debe ser rechazado o reclasificado.

V. Finalmente, interviene como factor en la ponderación final la que había dado inicialmente el otro extractor (Terminus en este caso).

141


De esta manera, el puesto que se asigna a cada candidato se obtiene por el producto de los distintos factores, considerando que los de penalización multiplican por 10 el puesto que una unidad tenía en el listado inicial. naturalmente, el listado final ordena esta ponderación de menor a mayor.

5. experImentacIón y evaLuacIón de resuLtados

Para llevar a cabo este experimento se descargó el contenido de las revistas científicas desde la hemeroteca del IEC. Para este artículo se utilizaron concretamente cuatro revis-tas: dos de biología, una de micología y otra de sociología 4. El contenido de los ficheros PDF de cada revista se pasó a texto de forma automática (y por ende, con un margen de error) y el texto resultante se compactó en un corpus como un solo bloque de texto por cada revista. La extensión de cada uno de estos corpus varía entre 0.5 y 1.5 millones de palabras. Cada corpus fue analizado con el extractor de términos incorporado a Terminus y se tomaron los primeros 3000-5000 candidatos en cada caso. Estos listados se sometieron luego al proceso descrito en este artículo.

Dos hablantes nativos del catalán 5, estudiantes de terminología, revisaron manual-mente los resultados de Terminus marcando con una cruz en una planilla los términos considerados correctos. Lógicamente, el terminológo no tiene que ser necesariamente un especialista en el dominio analizado, pero sí tener conocimientos suficientes de la lengua y una serie de recursos tales como fuentes de referencia en Internet y diccionarios. Con frecuencia, es también el análisis manual de los contextos de aparición de las unidades en el corpus de especialidad lo que ayuda a determinar su estatus. naturalmente, la revi-sión de los resultados de los extractores resulta muy laboriosa cuando se trata de listados extensos, y por esto resulta crítico que el sistema extractor tenga la mayor precisión posible.

Tomando como referencia la revisión manual de los resultados de Terminus, es posi-ble representar de manera automática las gráficas que comparan la precisión y cobertura de cada algoritmo, tal como las que se presentan en las figuras 3-6, donde se exhibe la comparación entre el desempeño de Terminus (línea oscura) y el del nuevo extractor (la línea más clara). En estas figuras, el eje vertical representa el porcentaje de precisión y la horizontal el porcentaje de cobertura. La precisión mide la proporción de veces en que el candidato que el sistema propone es correcto, y la cobertura mide la cantidad de candidatos correctos que el sistema fue capaz de encontrar.

En el caso del primer experimento en uno de los corpus de biología (figura 3), en el eje horizontal se representa a los 5000 candidatos a término ordenados por cada sistema, de izquierda a derecha. Así, por ejemplo, en el caso de Terminus, vemos que en el primer 10% del ranking de términos que propone (es decir los primeros 500 candidatos) son

4 Las cuatro revistas utilizadas en este experimento fueron: Treballs de la Societat Catalana de Biologia, Omnis Cellula, Revista Catalana de Micologia y la Revista Catalana de Sociologia.

5 Me gustaría expresar mi agradecimiento a núria Tuda y Miquel Cornudella por la extensa labor que llevaron a cabo para evaluar los resultados de la extracción.

142


correctos en el 90% de los casos. Sin embargo, la precisión disminuye de manera consi-derable a medida que se tienen en cuenta más candidatos. De esta manera, llegando al 30% de cobertura, la precisión ha caído al 80%, por tanto, para obtener un listado de 1200 términos correctos, el evaluador ha debido rechazar manualmente 300 candidatos. De la comparación con el resultado del ordenamiento descrito en este artículo resulta evidente a simple vista que la diferencia de calidad de los resultados es sustancial, tanto en el caso de este corpus de biología como en los demás, expuestos en las figuras siguientes. En el caso de la figura 3, con la estrategia basada en la coocurrencia de términos se consigue un listado de una pureza del 90% incluso al pasar el 40% de cobertura, manteniéndose apenas por debajo de esa precisión llegando al 50% de cobertura.

Figura 3. Calidad de los resultados antes (negro) y después (gris) del proceso en un corpus de biología, medida en precisión (eje vertical) y cobertura (horizontal).

Figura 4. Comparación de los resultados en un corpus de biología celular

precisión

cobertura

precisión

cobertura

143


En el caso del corpus de biología celular (figura 4), observamos que si bien los resul-tados de Terminus son algo mejores que en el caso del primer corpus de biología, también en este caso la estrategia descrita aquí ofrece mejores resultados.

El caso siguiente es el del corpus de micología (figura 5), donde los resultados de ambos algoritmos son de calidad considerablemente inferior. Esto puede deberse a la naturaleza del mismo dominio. Por un lado, hay menor densidad terminológica, es decir que hay menor cantidad de unidades propiamente terminológicas en relación al total del vocabulario, lo cual lógicamente hace más difícil la extracción. Por otra parte, por la naturaleza del objeto de estudio de esta disciplina, hay una gran cantidad de unidades léxicas y expresiones en general que no son propiamente terminológicas aunque sean importantes para el dominio. Los hongos o setas, y particularmente los comestibles, se clasifican y caracterizan en este corpus por medio de características específicas como el color, el tamaño, el sabor y la morfología. Las descripciones de estos entes generan una gran cantidad de predicados con expresiones que no podrían tener entrada en un dic-cionario propiamente terminológico, por ejemplo, para referirse a las distintas gamas de colores (ataronjat, blanc brut, blanquinós, bru ocraci, bru rogenc, bru vermellós, brunenc, gris, groc, groguenc, ocraci, ocre, salmó, vermell); olores y sabores (olor complexa, olor de gerani, sabor suau); formas (cilíndrics, cutícula llisa, el·lipsoïdals, fusiformes, ovoide, paret prima, parets gruixudes, parets llises, pèls); tamaños (longitud màxima, longitud mínima, longitud variable, mida petita, mm convex, mm de diàmetre, mm de longitud), etc.

Figura 5. La misma comparación en el caso de un corpus de micología

precisión

cobertura

144


Figura 6. La comparación en el caso de un corpus de sociología

En el caso de la sociología (figura 6) se trata también de un dominio difícil porque, en comparación con las ciencias «duras», el vocabulario de las ciencias sociales incluye una mayor proporción de unidades no terminológicas y de otras unidades cuyo estatus es más difícil de determinar. En sociología, hay casos netamente terminológicos, como etnometodologia, interaccionisme, estructuralisme, capital cultural, societat postindustrial o determinisme, pero también se encuentra una gran cantidad de unidades léxicas del vocabulario común que son utilizadas con un sentido especializado y, al mismo tiempo, en muchos casos sólo se pude adjudicar un estatus terminológico a una unidad en un determinado contexto, como en el caso de hegemonia, acció racional, estereotip, red social, extracció social. otra característica muy notable del vocabulario de las ciencias sociales (particularmente la sociología) frente a las ciencias duras es la mayor presencia de nombres propios, ya que los sociólogos otorgan mayor importancia a la figura del autor, es decir que el discurso se teje en torno a personas en contraste con las ciencias duras, que parecen más centradas en los conceptos. El caso específico de los nombres propios no es, sin embargo, la causa del menor rendimiento, ya que el filtro de nombres propios es efectivo. Si bien el desempeño es inferior al del corpus de biología, se puede observar que sigue sin embargo el mismo patrón de diferencia de calidad con respecto al extractor anterior. Se mantiene por encima del 10% y llega por momentos a una diferencia en torno al 20%, como en los casos anteriores.

6. concLusIones y trabajo futuro

En este trabajo se ha presentado una metodología para la depuración de los resultados de un extractor. En rigor, el método no tiene que ser planteado necesariamente como un pos-proceso, ya que también sería posible implementar una herramienta de extracción de

precisión

cobertura

145


términos directamente desde el corpus. El motivo principal de haber elegido este enfoque es que, en comparación con otros algoritmos, este es computacionalmente más costoso. Es necesario todavía hacer ajustes en la implementación para que funcione más rápido, pero nunca llegará a tener la velocidad de respuesta de Terminus, que es capaz de hacer la extracción de un corpus de un millón de palabras en pocos segundos, lo que le convierte en la herramienta ideal para una aplicación Web. Con todo, si la diferencia de calidad es tan notable, y el tiempo de ejecución es de unos minutos en lugar de unos segundos, tal vez tenga sentido esperar, ya que donde más tiempo se pierde es en la revisión de los resultados. El esfuerzo de rechazar candidatos es arduo, y por eso el porcentaje de precisión o la «pureza» del listado resulta de una importancia crítica.

La cuestión de por qué utilizar un método puramente estadístico, dejando de lado el conocimiento lingüístico explícito u ontológico fue ya comentada. La motivación detrás de esta decisión fue diseñar un método que pudiera dar respuesta a personas que nece-sitan trabajar en una diversidad de lenguas y dominios y que les es imposible adquirir o desarrollar tecnologías específicas. Además, un método independiente de lengua resulta, en sí mismo, más interesante desde un punto de vista científico.

Una cuestión muy similar es la de por qué no usar la Wikipedia como una ontología, en lugar de utilizar solamente el texto de los artículos y sin respetar su orden jerárquico. La respuesta a esta pregunta es también similar a la anterior: lo que interesa aquí no es la Wikipedia en particular, sino el hecho de que es un corpus extenso, y que podría ser reemplazado por otro material como un motor de búsqueda.

otra cuestión relacionada es hasta qué punto esta enciclopedia es una fuente de información confiable. Se puede dejar de lado por el momento la cuestión sobre si la información que contiene es legítima o verídica, y centrar la atención sobre el hecho de que esta pregunta es relevante sólo cuando uno hace una lectura inocente del material. Si, en cambio de esto, uno hace un análisis estadístico de la coocurrencia de términos en la totalidad del corpus de la Wikipedia, entonces la cuestión se ve desde una perspectiva distinta, ya que si bien es perfectamente razonable esperar que un autor individual cometa una imprecisión o introduzca deliberadamente una falsedad, es mucho menos probable que la comunidad de redactores en su conjunto publique las mismas falsedades en forma frecuente y extendida. Evidentemente, esto a veces también ocurre, pero por regla general los errores o las falsedades muestran más diversidad, mientras que la información que representa el consenso es más recurrente. La misma respuesta se puede dar si se llevara a cabo este mismo estudio usando la Web como corpus.

En cuanto a líneas de trabajo futuro, una de ellas es complementar este enfoque con la incorporación de nuevos elementos o factores en el análisis que podrán servir para incrementar la calidad de los resultados. Uno de ellos puede ser incorporar conocimiento explícito de la lengua analizada y de cada uno de los dominios. otra es la utilización de una taxonomía. Aunque se tratara de una taxonomía de lengua general, esta aumentaría significativamente la calidad del resultado porque permitiría eliminar falsos candidatos con relativa facilidad. Es el caso, por ejemplo, de las palabras que designan colores, que tendría un fuerte impacto en un dominio como el de la micología. Además, si se puede

146


utilizar una taxonomía u ontología en la extracción, el sistema sería capaz de ubicar un determinado candidato dentro de una estructura conceptual, y entonces tendría mayor certeza sobre el estatus terminológico del candidato. Se han explorado ya estrategias para generar estas taxonomías de manera automática, utilizando también las estadísticas de coocurrencia de términos (nazar, 2010; nazar et al, 2012). Hay claras razones para esperar que en un futuro próximo los ámbitos de estudio de la extracción de terminología y de ontologías se fusionen en un mismo campo.

referencIas bIbLIográfIcas

ananiadoU, S. 1994. A Methodology for Auto-matic Term Recognition. Coling 1994, 15th International Conference on Computational Linguistics, Kyoto, japan, 1034-1038.

BoUrigaUlt, D.; gonzales-MUllier, I.; gros, C. 1996. LEXTER, a natural Language Tool for Terminology Extraction. Proceedings of the 7th EURALEX International Congress, göte-borg, 771-779.

CaBré, M. t.; estopà, r.; ViValdi, j. 2001. Auto-matic term detection: a review of current systems. In D. bourigault, C. jacquemin, M.-C. L’Homme (eds.) Recent Advances in Computational Terminology. Amsterdam, john benjamins, natural Language Process-ing, 2, 53-87.

daille, b. 1994. Approche mixte pour l’extraction automatique de terminologie : statistiques lexicales et filtres linguistiques. Thèse de Doctorat en Informatique Fondamentale. Université Paris 7.

dagan, i.; ChUrCh, K. 1994 Termight: identifying and translating technical terminology. AnLC ‘94 Proceedings of the fourth Conference on Applied natural Language Processing, 34-40.

droUin, P. 2003. Term extraction using non-technical corpora as a point of leverage. Ter-minology 9(1) : 99-117.

EngUehard, C.; pantera, L. 1994. Automatic nat-ural Acquisition of a Terminology. journal of Quantitative Linguistics, 2(1): 27-32.

KageUra, K.; UMino, b. 1996. Methods of Auto-matic Term Recognition. Terminology, 3(2): 259–290.

frantzi, K.T. 1997. Incorporating context infor-mation for extraction of terms. Proceedings of the Association for Computational Linguistics ACL/EACL), Madrid, Spain, 501-503.

frantzi, K.; ananiadoU, s.; MiMa, H. 2000. Auto-matic recognition of multi-word terms. In-ternational journal of Digital Libraries 3(2) : 117-132.

jaCqUeMin, C. 1997. Variation terminologique : Reconnaissance et acquisition automatiques de termes et de leurs variantes en corpus. Mé-moire d’habilitation à diriger des recherches en informatique.

jUilland, a.; Chang-rodrígUez, E. 1964. Frequen-cy Dictionary of Spanish Words. The Hague, Mouton.

jUsteson j.; Katz, S. 1995. Technical terminology: some linguistic properties and an algorithm for identification in text. natural Language Engineering, 1(1): 9–27.

nazar, R. 2010. A Quantitative Approach to Concept Analysis. Tesis doctoral en Lingüís-tica Aplicada y Ciencias del Lenguaje, Uni-versidad Pompeu Fabra.

— (2011). A Statistical Approach to Term Extrac-tion. International journal of English Studies 11(2) : 153-176.

nazar, r.; CaBré, M. T. 2012. Supervised Lear-ning Algorithms Applied to Terminology Ex-traction. Proceedings of the 10th Terminology and Knowledge Engineering Conference (TKE 2012); Madrid, 209-217.

nazar, r.; ViValdi, j.; wanner, L. 2012. Co-occurrence graphs Applied to Taxonomy

147


Extraction in Scientific and Technical Cor-pora. Procesamiento del Lenguaje natural 49:67-74.

pantel, p.; lin, D. 2001. A Statistical Corpus-based Term Extractor. Proceedings of the 14th biennial. Conference of the Canadian Society on Computational Studies of Intel-ligence, London, UK, 36-46.

patry, a.; langlais, P. 2005. Corpus-Based Terminology Extraction. 7th International Conference on Terminology and Knowledge Engineering, Copenhagen, Danemark, 313-321.

qUasthoff, U.; M. riChter; C. BieMann. 2006. Corpus Portal for Search in Monolingual

Corpora, Proceedings of the fifth internatio-nal conference on Language Resources and Evaluation, LREC 2006, genoa, 1799-1802.

sCott, M. 1997. PC Analysis of Key Words -- and Key Key Words. System 25(2): 233-245.

spärCK jones, K. 1972. A Statistical Interpreta-tion of Term Specificity and its Application in Retrieval. journal of Documentation, 28(1):11-21.

ViValdi, j. 2001/2004. Extracción de Candidatos a Término Mediante Combinación de Estrate-gias Heterogéneas, barcelona, IULA.

ViValdi, j.; rodrígUez, H. 2011. Extracting Termi-nology from Wikipedia. Procesamiento del lenguaje natural 47: 65-73.

Propuesta de conceptualización de terminología especializada en la base de conocimiento fungramkb:

desambiguación de términos comunes en el ámbito general y el especializado 1

Cortés de los ríos, María enriqUetaalaMeda hernández, ángela

[email protected]@ugr.es

resumen

FungramKb es una base de conocimiento léxico-conceptual diseñada para ser útil en aplicaciones que requieren el procesamiento del lenguaje natural. Para ello, FungramKb cuenta entre sus componentes con una ontología poblada de conceptos que recogen el conocimiento semántico. Dichos conceptos se formalizan en la base de conocimiento a través de un lenguaje de representación denominado CoREL. junto a esta ontología nuclear se está trabajando con ontologías satélites que almacenan conocimiento especializado. En concreto, nuestro trabajo se centra actualmente en la ontología satélite que cubre el ámbito del crimen organizado y terrorismo. El objetivo de esta comunicación es presentar en primer término el trabajo terminológico realizado para poblar dicha subontología (documentación, extracción terminológica automática y manual, modelado manual apoyado en fuentes lexi-cográficas y traslado a la base de conocimiento en lenguaje CoREL) para centrarnos luego en la complejidad que nos plantean ciertos términos del ámbito general que en el ámbito especializado cobran un significado muy específico: mule, strawman, deal y horse.

Palabras clave: ontología, terminología, FungramKb, base de conocimiento

1. IntroduccIón

FungramKb es una base de conocimiento léxico-conceptual diseñada para ser útil en aplicaciones que requieren el procesamiento del lenguaje natural (Periñán y Arcas, 2004, 2005 y 2007). Para ello, FungramKb cuenta entre sus componentes con una ontología poblada de conceptos que recogen el conocimiento semántico (Mairal y Ruiz de Mendoza, 2008, 2009; Ruiz de Mendoza y Mairal, 2008, entre otros). Esta ontología nuclear de FungramKb puede ser ampliada y enriquecida con conocimiento especializado a través

1 Este trabajo es fruto del proyecto del Plan nacional I+D+i, código: FFI2010-15983 (2011-2013): «Ela-boración de una subontología terminológica en un contexto multilingüe (español, inglés e italiano) a partir de la base de conocimiento FungramKb y en el ámbito de la cooperación internacional en materia penal: terrorismo y crimen organizado.

150


de su enlace con subontologías u ontologías satélites que recojan el conocimiento de ciertos ámbitos especializados. En esta línea, nuestra labor viene estando encaminada a elaborar y poblar la subontología que contiene el conocimiento experto relacionado con el ámbito del crimen organizado y terrorismo. Su dependencia de la ontología nuclear de FungramKb hace que la ontología satélite no sea un producto aislado, sino que facilita la descripción y reutilización de la información conceptual del nivel general al específico y viceversa. En la ontología de FungramKb, y por tanto también en las ontologías satélites dependientes de ésta, toda esta información conceptual está almacenada y codificada utilizando un lenguaje de representación que se ha denominado CoREL (COnceptual REpresentation Language) que cuenta con su propia semántica y sintaxis (Periñán y Arcas 2010).

En este artículo, los objetivos que planteamos son los siguientes:1. Presentar el trabajo terminológico realizado para poblar la subontología que

cubre el ámbito del crimen organizado y terrorismo (documentación, extracción terminológica automática y manual, modelado manual apoyado en fuentes lexi-cográficas y traslado a la base de conocimiento en lenguaje CoREL).

2. Analizar la complejidad que nos plantean ciertos términos del ámbito general que en el ámbito especializado cobran un significado muy específico.

El presente trabajo se estructura en las siguientes secciones. Comenzamos con una breve introducción sobre FungramKb y el trabajo terminológico. Seguidamente abor-damos aspectos relacionados con la subontología de Crimen organizado y Terrorismo dentro de FungramKb, más concretamente, la creación de un corpus especializado y la extracción de términos. En tercer lugar, nos centramos en la definición de la terminología especializada y la definición en CoREL. En cuarto lugar, presentamos la propuesta de desambiguación de términos especializados, tales como mule, strawman, deal, y horse. Finalmente, mostramos las conclusiones a las que hemos llegado tras este estudio.

2. La subontoLogía de crImen organIzado y terrorIsmo dentro de fungramKb

Como ya se ha introducido, FungramKb es una base de conocimiento léxico-con-ceptual y, por tanto, recoge aspectos tanto lingüísticos como cognitivos. Así pues, la arquitectura de esta base de conocimiento comprende tres niveles: el léxico, el gramatical y el cognitivo. Dentro del nivel léxico, FungramKb distingue dos módulos: el lexicón, que contiene principalmente información morfosintáctica sobre el comportamiento de las uni-dades léxicas de una determinada lengua; y el morficón que trata los casos de morfología flexiva que ocurren con las unidades del lexicón. Por su parte, el nivel gramatical recoge los gramaticones, es decir, módulos con información gramatical, de cada lengua. Estos dos primeros niveles, por tanto, albergan información relacionada con lenguas concretas. Sin embargo, el nivel conceptual recoge conocimiento universal que, aunque está motivado lingüísticamente por su presencia en al menos una lengua, no es dependiente de ninguna lengua concreta. El nivel conceptual comprende tres módulos: onomasticón, cognicón y ontología. El onomasticón almacena información sobre las entidades particulares, p.ej. ciudades, marcas, empresas, etc. El cognicón almacena nuestras macroestructuras cog-

151

DESAMbIgUACIón DE TÉRMInoS CoMUnES En EL ÁMbITo gEnERAL y EL ESPECIALIZADo

nitivas, cada una de las cuales se concibe como un esquema en el que una secuencia de acciones estereotípicas se organiza de acuerdo con relaciones como la causalidad o la continuidad temporal. Por último, la ontología de FungramKb es una estructura jerarquizada formada por unidades conceptuales universales (no por unidades léxicas, como por ejemplo EuroWordnet) que funciona por relaciones de herencia e inferencia. no se trata de una base de datos sino de una base de conocimiento. En FungramKb, la representación semántica de las unidades léxicas no se almacena en el lexicón, sino en la ontología. Uno de sus rasgos diferenciadores es que se basa en la ‘semántica profunda’ (Periñán y Arcas, 2004, 2005 y 2007).

En la ontología nuclear de FungramKb, los conceptos están organizados jerárqui-camente en tres niveles: metaconceptos (dimensiones cognitivas básicas, su número es cerrado), conceptos básicos (que sirven para definir otros conceptos) y conceptos termi-nales. Puesto que el nivel superior de los metaconceptos es un grupo cerrado, nuestra labor al trabajar en la creación de la subontología de Crimen organizado y Terrorismo se trata de identificar tanto los conceptos básicos como los terminales de nuestro ámbito especializado, es decir, su vocabulario definitorio. no es una tarea fácil ya que se trata de delimitar donde acaba el conocimiento general y donde empieza el conocimiento experto. Además, en este trabajo determinando los conceptos que hemos de incluir en la ontología satélite, encontramos con frecuencia que un concepto ya incluido en la ontología nuclear con un significado general se emplea además en el dominio de crimen organi-zado y terrorismo con un significado especializado. Es lo que se ha venido a denominar concepto espejo, es decir, casos en los que no hay ruptura en la continuidad de signifi-cado entre el conocimiento general y el experto, pero que en el dominio especializado el concepto adquiere una mayor especificidad y por tanto una mayor granularidad en su definición. Estos conceptos que se usan a nivel del lenguaje general pero también dentro del ámbito especializado tendrán dos entradas: una en la ontología nuclear y otra en la ontología satélite que recoge el conocimiento experto del ámbito de crimen organizado y terrorismo. En la ontología nuclear su postulado de significado será breve, mientras que en la ontología satélite su postulado de significado será más extenso para incluir toda la información detallada que incluye el concepto en este ámbito.

La identificación de los términos que poblarían la ontología satélite se llevó a cabo a partir de un corpus especializado creado a tal efecto. La siguiente sección describe su proceso de creación.

2.1. Creación de un corpus especializado

Uno de los primeros pasos para el trabajo con terminología especializada dentro de FungramKb consistió en el diseño y elaboración de un corpus textual ad hoc para la tarea que pretendíamos realizar, es decir, la recopilación de un conjunto de textos especializa-dos a partir de los cuales extraeríamos los términos de nuestro ámbito de conocimiento con los que luego poblaríamos la ontología satélite de Crimen organizado y Terrorismo. Esta tarea inicial requirió la toma de ciertas decisiones y elecciones que nos permitieran

152


compilar un corpus coherente y eficiente. Debido al ámbito en que nos centramos el corpus se denominó general Crime Term Corpus (gCTC).

En primer lugar, fue necesario buscar y seleccionar las fuentes de información, es decir, las instituciones y repositorios documentales cuyos textos compondrían el corpus. no se trata de una tarea superficial ya que de la acertada elección de fuentes dependerá que el corpus resulte óptimo, tanto cualitativa como cuantitativamente (Felices Lago et al. 2011: 69). En otras palabras, es fundamental que los textos que componen el corpus sean realmente representativos del dominio en el que trabajamos. Para la elaboración de gCTC se seleccionaron dos tipos de fuentes principales: por un lado, los documentos emitidos por organizaciones internacionales ligadas no sólo al ámbito legal general, sino a cuestiones de lucha contra el crimen organizado y terrorismo (tales como la Unión Europea, Europol, El Consejo de Europa, oSCE o la Corte Penal Internacional) y por otro, trabajos académicos y obras de referencia publicados en editoriales de reconocido prestigio. Tras una exhaustiva búsqueda, ambas fuentes proporcionaron textos centrados en nuestro dominio de conocimiento y, por tanto, con una alta concentración de térmi-nos especializados. Los textos seleccionados se almacenaron en formato digital para su posterior tratamiento. Como producto final, el gCTC se compone de más de 600 textos y contiene aproximadamente 6 millones de palabras.

2.2. la extracción de términos

Una vez que el gCTC se completó y cerró, el siguiente paso consistió en la extracción de la terminología especializada. Para ello contamos con la herramienta denominada Term Extractor dentro de la aplicación web de la plataforma de FungramKb. El extractor terminológico está diseñado para procesar los textos del corpus con un enfoque estadístico de manera que, como resultado del análisis, nos propone un listado de términos especiali-zados (o al menos, términos estadísticamente significativos y por tanto con potencial para ser términos especializados). De las iniciales 6 millones de palabras del corpus gCTC, el extractor de términos arrojó unos 5.700 términos potenciales (Ureña y Alameda, 2011: 305). Posteriormente, nuestra tarea como terminólogos consistió en decidir cuál de esos términos propuestos por la aplicación informática eran finalmente términos especializados de nuestro dominio de conocimiento. Esta tarea de selección final se lleva a cabo a través del estudio y comparación de abundantes fuentes lexicográficas que arrojen luz sobre el significado de cada término. Hemos trabajado con diccionarios monolingües de inglés y español, así como diccionarios bilingües, tanto generales como legales.

Por tanto, la extracción terminológica en FungramKb es un proceso semiautomático (Felices Lago et al. 2011: 72). Sin duda, la primera criba de los textos llevada a cabo automáticamente por el extractor, facilita y acelera la tarea manual del terminólogo, pero no la suplanta, ya que el extractor propone una serie de términos que denominamos candidatos y posteriormente, es el terminólogo, quien tras una detallada tarea de estudio de cada uno de ellos, ofrece la lista final de términos ganadores, es decir, los términos que pasarán a poblar la ontología especializada de Crimen organizado y Terrorismo. La tarea de selección de términos ganadores es, por tanto, de suma importancia, puesto que

153


de ella dependerá que el dominio especializado esté representado conceptualmente de modo adecuado en la subontología dentro de FungramKb. De los 5.700 términos poten-ciales que el extractor propuso, el trabajo del grupo de terminólogos analizando cada uno de los términos y cotejándolos con definiciones de diccionarios tanto generales como especializados (siempre que fue posible) arrojó una lista definitiva de términos ganadores que cuenta con 330 unidades.

3. defInIcIón en Lenguaje coreL

Como hemos anticipado anteriormente en la ontología nuclear de FungramKb, los conceptos están organizados jerárquicamente en tres niveles: metaconceptos, conceptos básicos y conceptos terminales. Las unidades conceptuales recogidas en Fungramkb se definen a través del lenguaje CoREL. Cada una de las unidades conceptuales tiene su propio sistema de notación como se especifica a continuación (Periñán & Mairal, 2010/21: 11-45):

(a) Los metaconceptos forman el nivel superior de la taxonomía. Coinciden con muchas de las unidades de nivel superior de otras ontologías, como por ejemplo SUMo o DoLCE. Los metaconceptos vienen precedidos por el símbolo # por ej. #CognITIon. Hay 42 repartidos entre las 3 subontologías (#entity, #event y #quality). Éstas últimas corresponden a las categorías lingüísticas de nombre, verbo y adjetivo, respectivamente.

(b) Los conceptos básicos, que fueron identificados a partir del vocabulario defini-torio del Longman Dictionary of Contemporary English (Procter, 1978) y del Diccionario para la Enseñanza de la Lengua Española (Alvar Ezquerra, 1995), se emplean para definir todos los términos recogidos en la ontología, es decir, en la creación de los Postulados de Significado y de las preferencias de selección de los Marcos Temáticos de cada concepto. Se utiliza el símbolo + para su representación, por ej. +THInK_00. Hay unos 1,390.

(c) Los conceptos terminales, que representan los nodos finales de la estructuración jerárquica conceptual, aparecen representados por el símbolo $, por ejemplo $ConS-PIRE_00. Surgen a partir de una búsqueda exhaustiva en diccionarios, tesauros y bases de datos.

Mención aparte merece un cuarto tipo de conceptos: los subconceptos. no aparecen (‘no cuelgan’) en la estructura jerarquizada de la ontología porque son una especificación conceptual de un concepto básico o uno terminal ya existente. Van precedidos de un guión (-) y en mayúsculas. Por ejemplo, dentro de +CLEAn_01, se ha creado el subcon-cepto denominado -PREEn, porque refina el contenido conceptual de éste al especificar que se aplica sólo a pájaros cuando limpian sus plumas (jiménez-briones, R. & Luzondo oyón, A., 2011)

Así pues, la ontología de FungramKb almacena conocimiento semántico en forma de Marcos Temáticos (MT) y Postulados del Significado (PS) presentando un catálogo jerárquico de todos los conceptos que una persona tiene en la mente. De esta manera, y como ya se ha indicado antes, uno de sus rasgos diferenciadores es que se basa en la semántica profunda a diferencia de la mayoría de ontologías que siguen un acercamiento de semántica superficial.

154


El MT es un constructo conceptual que especifica los participantes que intervienen típicamente en una situación cognitiva. En CoREL aparecen expresados mediante las variables x1, x2, etc., seguidas de las preferencias de selección, si las tuvieran, y del papel temático. A modo de ejemplo, véase el MT del concepto básico + SAy_00: (x1: +HUMAn_00)Theme (x2)Referent (x3: +HUMAn_00)goal que pertenece a la dimensión metaconceptual #CoMMUnICATIon. Más concretamente, «Theme» es la entidad que transmite un mensaje, «Referent» es el mensaje y «Goal» es la entidad que recibe el mensaje. La inclusión del concepto +HUMAn_00 en relación a los participantes theme y goal sirve para especificar que las entidades que emiten y reciben el mensaje han de ser humanos.

Los MT quedan perfectamente integrados en los PS. Un Postulado del Significado es un conjunto de una o más predicaciones (e1, e2, e3…) unidas lógicamente. Es un constructo cognitivo que representa las características genéricas de un concepto (no de una ‘palabra’).

Un PS recoge tanto nuestro conocimiento semántico como nuestro conocimiento del sentido común, que no aparece en ningún diccionario. Un PS está compuesto por predicaciones que identifican los rasgos pertinentes de cada concepto y que se representan con la variable «e» (e2, e3, etc.) precedida de los signos + o * dependiendo de si ese rasgo es estricto o rebatible. Por ejemplo, (e2: +bE_01 (x1)Theme (x3: +HAPPy_00) Attribute) sería una de las predicaciones del concepto básico +LAUgH_00. Además, el PS incluye satélites que añaden información circunstancial como manner, purpose, location, etc., representados por la variable «f». Pueden ir seguidas de un concepto básico como en (f1: +VIoLEnT_00)Manner) o de una predicación como en (f1: (e2: +SAy_00…).

FungramKb diferencia dos tipos de predicaciones en sus PS: predicaciones libres y pre-dicaciones ligadas. Las primeras son aquellas que por sí solas expresan una especificación conceptual completa. Las segundas dependen de otras especificaciones para expresar de forma completa e inequívoca la especificación conceptual. Las predicaciones ligadas se presentan dentro de paréntesis redondos, los cuales sirven para marcar el ámbito de actua-ción del ligamento cognitivo. Por ejemplo, véase el PS de $SWEAR_00: +((e1: +SAy_00 (x1)Theme (x2)Referent (x3)goal)(e2: n +bE_01 (x2)Theme (x4:+PoLITE_00)Attribute))

Por otra parte, en una predicación podemos utilizar distintos operadores tales como los operadores de razonamiento, los de evento y los de participante.

Respecto a los primeros, cada predicación tiene su operador de razonamiento indi-cando si la predicación es estricta +(e1…), es decir, todo lo que dice ‘e’ es siempre cierto, o rebatible *(e1…).

En cuanto a los operadores de evento, éstos adquieren diferentes valores referentes a la aspectualidad para marcar el desarrollo de un evento: ingresivo (ing), progresivo (pro) y egresivo (egr); temporalidad: pasado remoto (rpast), pasado (past) pasado cercano (npast), presente (pres), futuro cercano (nfut), futuro (fut) y futuro remoto rfut); modalidad episté-mica: certeza (cert), probabilidad (prob) y posibilidad (pos), y modalidad no-epistémica: obligación (obl), consejo (adv) y permiso (perm).

Finalmente, se emplea el operador de polaridad para expresar la negación fuerte (n).Ej: +((e1: +SAy_00 (x1)Theme (x2)Referent (x3)goal)(e2: n +bE_01

155


(x2)Theme(x4:+PoLITE_00)Attribute)):$SWEAR_00 Por último, los operadores de participante se subcategorizan en cuantificadores y

operadores lógicos. Un participante puede estar precedido por un operador que aplica un tipo específico de cuantificación al concepto expresado. Dichos cuantificadores se clasifican en absolutos ( 1 | 2 | 3 | 4 ), relativos (mucho, poco, algunos) e indefinidos.

Ej. (e2: +bE_01 (x2)Theme (x3: m +IMPoRTAnT_00)Attribute: +nEED_00Es importante resalta

ua€¦ · EDITORIAL COMARES Interlingua ˜˚˛˝˙ˆˇ Interlingua TIC, trabajo colaborativo e...

Documents

Transcript of ua€¦ · EDITORIAL COMARES Interlingua ˜˚˛˝˙ˆˇ Interlingua TIC, trabajo colaborativo e...