Descubrimiento de patrones léxicos en la Web para su...

UNIVERSIDAD POLITECNICA DE VALENCIA

DEPARTAMENTO DE SISTEMAS INFORMATICOS Y COMPUTACION

TRABAJO DE INVESTIGACION

Descubrimiento de patrones léxicos en la Web para su integración en sistemas de desambiguación del

sentido de las palabras Elaborado por: Rafael Guzmán-Cabrera Directores: Paolo Rosso UPV Manuel Montes y Gómez INAOE, Puebla, México

Valencia, España

Enero 2005

______________________________________________________________________

___________________________________________________________________ i

Índice General

Capítulo 1. Introducción 1.1 Motivación…………………………………………………………… 2 1.2 Planteamiento del problema…………………………………………. 5 1.3 Objetivo general de la investigación…………………………………. 6 1.4 Estructura del trabajo de investigación………………………………. 7

Capítulo 2. La tarea de la desambiguación léxica 2.1 Introducción.…………………………………....……………………… 8 2.2 La ontología de WordNet……………………....……………………… 9 2.3 La desambiguación léxica……………………….…………………….. 15

2.3.1 Sistemas supervisados………………………………………. 18 2.3.2 Sistemas no supervisados….…..…..………………………… 20

2.4 La competición Senseval……..……………..………………………… 23 2.4.1 Senseval-1…………………………………………………… 23 2.4.2 Senseval-2…………………………………………………… 26 2.4.3 Senseval-3…………………………………………………… 29

2.5 Minería de texto en la Web………………….………………………… 32 2.6 La Web como corpus………………………………………………….. 35

Capítulo 3. Descubrimiento de patrones léxicos 3.1 Introducción……………....……...…………………………………... 40 3.2 La metodología propuesta...……...…………………………………... 41 3.3 Medida de fuerza……………………………………………………... 43 3.4 Medidas de dispersión …………………...…………………………... 44

3.4.1 Dispersión local……………………………………….......... 45 3.4.2 Dispersión externa………………..…………….…………... 46

3.5 Asociaciones léxicas………………………….……………………… 47 3.5.1 Asociaciones léxicas simples……….….…………………… 47

3.5.2 Asociaciones léxicas compuestas...….……………………… 50 3.6 Secuencias…………………………………………………………….. 52

Capítulo 4. Experimentación y resultados 4.1 Introducción…………………………………………………………... 54 4.2 La estructura del corpus………..……………………………………... 54 4.3 Análisis de los resultados preliminares……………………………….. 57

4.3.1 El caso de instance……….………………………………….. 57 4.3.2 El caso de peak………………………………………………. 66

Capítulo 5. Conclusiones y trabajo futuro 5.1 Conclusiones……………….…..……………………………………... 69 5.2 Estado actual de la investigación…………….……………………….. 70 5.3 Actividades futuras………………………..………………………….. 72 5.4 Cronograma………………………………………………………….... 74

Referencias 75

______________________________________________________________________

___________________________________________________________________ ii

Índice de tablas

1 Número de palabras y Synsets en WordNet……………..………… 9 2 Matriz de vocabulario de WordNet………………….…..………… 10 3 Relaciones existentes en WordNet.……………..……………….… 12 4 Resumen de algunos de los sistemas participantes en la tarea english

all-words de Senseval-2..……………..…………………………… 28 5 Resumen de algunos de los sistemas participantes en la tarea english

all-words de Senseval-3..……………………….…………………. 30 6 Número estimado de páginas Web, indexadas por Altavista…….... 38 7 Frecuencias de frases en inglés en el corpus BNC y en la Web.….. 39 8 Número de snippets bajados de la Web para los sinónimos de

Instance…………………………..……………..…………………. 57 9 Resumen de estadísticas para Instance.……………..……………... 58 10 Palabras comunes antes de la medida de dispersión para instance... 58 11 Asociaciones léxicas simples para instance……………………...… 59 12 Asociaciones léxicas compuestas para instance-1.………..………. 61 13 Asociaciones léxicas compuestas para instance-2……………….… 62 14 Secuencias ininterrumpidas para Instace en la Web y el CLEF…… 63 15 Secuencias a la izquierda de instance.……………..………………. 64 16 Secuencias a la derecha de instance…………..………………….… 65 17 Resumen de estadísticas para peak..……………..………………… 66 18 Asociaciones léxicas simples para peak..………………………….. 67 19 Asociaciones léxicas compuestas para peak.………………………. 68

______________________________________________________________________

___________________________________________________________________ iii

Índice de figuras 1 Sitio Web WordNet para obtener relaciones léxicas entre palabras. 13 2 Conjunto de palabras relacionas con network y agent, por Google

sets.………………………………………….……….…..………… 14 3 Representación de los synsets para break.………………………… 22 4 Comparación entre diferentes motores de búsqueda..……………… 34 5 Composición de la Web..……………………….…………………. 37 6 Palabras de contexto tomadas en torno al sinónimo………………. 43 7 Salida de la medida de fuerza……………………………………… 44 8 Dispersión local ………………………………...…………………. 45 9 Palabras vinculadas a los sentidos de WordNet……..…………..… 46 10 Salida del sistema ……………………………………………….… 48 11 Estructura del archivo XML de la palabra polisémica.………….… 56 12 Relación entre las secuencias diferentes y las secuencias

significativas de instance.………………………….…………….… 64

Agradecimientos

La realización de la fase final del trabajo de investigación que se presenta en esta memoria ha sido posible gracias a los apoyos recibidos por parte de la Universidad Politécnica de Valencia, a través del programa de cooperación de la UPV con Ibero América, al proporcionar apoyo económico para la pasantia de 3 meses. Y de la Universidad de Guanajuato y el PROMEP por su apoyo a través de la beca UGTO-121.

______________________________________________________________________

___________________________________________________________________ 2

Capítulo 1. Introducción 1.1 Motivación

La lengua es uno de los aspectos fundamentales del comportamiento humano

y es un componente crucial de nuestras vidas. La lengua se estudia en

diversas disciplinas académicas. Cada disciplina define su propio sistema de

problemas y tiene sus propios métodos para tratarlos. La lingüística, por

ejemplo, estudia la estructura de la lengua misma, mientras que la psico-

lingüista por otra parte, estudia los procesos de la producción y de la

comprensión humana de la lengua. La lingüística de computo se encarga de la

solución de problemas que tienen que ver, por ejemplo, con la identificación de

la estructura de oraciones o con el modelado del conocimiento y el

razonamiento así como con la definición de estrategias que permitan el uso de

la lengua en tareas especifícas.

Uno de los aspectos centrales de estudio tanto en lingüística teórica como en

lingüística computacional es la polisemia, el cual es un problema controvertido

para la comprensión del lenguaje. A pesar de la gran cantidad de bibliografía

dedicada al respecto así como la existencia de varias teorías y orientaciones, la

polisemia sigue siendo un problema teórico de difícil solución [Pustejovsky96].

En particular, en el área de Procesamiento de Lenguaje Natural (PLN), la

polisemia se considera desde hace medio siglo como el mayor problema por

resolver [Weaver55] y las competiciones Senseval de sistemas de

desambiguación léxica (Word Sense Disambiguation, WSD) han revelado la

inmensa dificultad de la tarea [Kilgarriff01].

Cuando se trabaja sobre la estructura semántica de un documento es

necesario utilizar conocimiento sobre las estructuras del lenguaje; dicho

conocimiento debe ser de tipo morfológico, sintáctico, semántico y pragmático.

El morfológico nos proporciona información de cómo se construyen las

palabras. El conocimiento sintáctico por otro lado nos da información de cómo

______________________________________________________________________

___________________________________________________________________ 3

combinar las palabras para formar frases, mientras que el semántico esta

enfocado a saber qué significan las palabras y cómo contribuye el significado

de las mismas al significado completo de la frase. Por último el conocimiento

pragmático, nos proporciona información de cómo el contexto afecta a la

interpretación de las frases. Todas estas formas de conocimiento lingüístico,

tienen el problema asociado de la ambigüedad [Montoyo00].

La tarea de desambiguación del sentido de las palabras consiste en la

asociación de una palabra, dada en un contexto, con una definición o

significado que la distingue de otros significados atribuibles a dicha palabra.

Cualquier sistema de PLN necesita un módulo con estas características. WSD

no es un fin en sí misma, sino que es una etapa necesaria para realizar

acciones como son el análisis sintáctico o la interpretación semántica en tareas

del PLN, así como para el desarrollo de aplicaciones finales, tales como:

recuperación de información [Montes00], clasificación de textos [Kosala00],

análisis de discurso [Montes02] y traducción automática [Smrz01] entre otras.

Por ejemplo, un sistema de recuperación de información tradicional responderá

a la pregunta ¿Cuáles plantas que viven en el desierto? con todos los

documentos que contengan los términos plantas y desierto

independientemente de su significado. En algunos de estos documentos el

término planta aparecería con el sentido de ser vivo, mientras que en otros

significaría industria. Si el sistema de recuperación de información fuera capaz

de distinguir los sentidos de los términos de la consulta, devolvería solamente

los documentos en los que se usa el sentido de ser vivo. Para ello, el sistema

debe integrar un módulo de WSD, tanto para desambiguar los términos de la

consulta como los términos de los documentos indexados.

Últimamente, se resalta el diálogo necesario entre la lingüística teórica y la

lingüística computacional: por un lado no es posible un progreso significativo en

los aspectos computacionales de la polisemia sin avances serios en las

cuestiones teóricas; por otro lado, la labor teórica puede beneficiarse de los

resultados de la lingüística computacional y a la vez encontrar su comprobación

en las aplicaciones del procesamiento del lenguaje natural.

______________________________________________________________________

___________________________________________________________________ 4

Una posición de bastante relevancia en el área de WSD es la de quienes

sostienen la falta de concordancia entre el tipo de conocimiento sobre los

sentidos ofrecido por las fuentes léxicas y el necesario para desambiguar

ocurrencias en el texto [Kilgarriff97] [Véronis02]. Una opinión creciente en la

comunidad computacional es que el contexto desempeña un papel central en la

resolución de la polisemia y por ello tiene que ser parte integrante de su

solución [Pustejovsky96].

El objetivo general de los sistemas de PLN, es el tratamiento de la lengua a fin

de ser interpretada de la misma manera que lo hacemos los seres humanos.

En este sentido, el estudio de las secuencias y asociaciones de palabras es

muy importante, ya que son comunes en todos los idiomas y tipos de escritura

o incluso áreas técnicas o contextos específicos.

El uso de técnicas de minería de datos en corpus es esencial para la extracción

de características como son las asociaciones y secuencias léxicas entre

palabras. Además nos permiten “pesar” que tan significativas son el conjunto

de palabras encontradas, filtrando aquellas que no lo son.

Frente a esta diversidad, presentamos un método que permite dar solución

parcial a esta problemática encontrando asociaciones y secuencias

significativas de palabras en torno a un sentido de la ontología de WordNet.

Esta tarea es realizada, usando la redundancia de la Web como corpus y

haciendo uso del contexto inmediato de la palabra a desambiguar. El método

desarrollado tiene un carácter genérico, aplicable a cualquier idioma existente

en la Web. No obstante, esta genericidad necesita una fuente de datos léxica

que permita determinar los sentidos atribuibles a una palabra polisémica.

______________________________________________________________________

___________________________________________________________________ 5

1.2 Planteamiento del problema

Uno de los problemas claves en WSD es la falta de criterios y objetivos claros

que permitan discriminar, definir y delimitar los sentidos que puede tomar una

palabra polisémica, así como la necesidad de contar con un nivel de

granularidad adecuado que nos permita desarrollar esta tarea.

Para reorientar la lexicografía hacia las necesidades de la desambiguación

léxica y definir los sentidos a partir de los usos de las palabras en los textos es

necesario contar con modelos del significado adecuados para las diferentes

tareas del procesamiento del lenguaje natural.

En este trabajo de investigación se presenta un método innovador que permite

para una palabra polisémica dada en inglés, encontrar asociaciones y

secuencias usando la Web como corpus. Para extraer las secuencias y las

asociaciones se utilizan técnicas de minería de textos, minería de la Web y

medidas estadísticas que nos permiten recuperar sólo aquellas que son

significativas para los sentidos de WordNet de la palabra dada.

Las secuencias y asociaciones obtenidas se incorporarán en sistemas de

desambiguación léxica, como patrones léxicos, para que faciliten dicha tarea.

______________________________________________________________________

___________________________________________________________________ 6

1.3 Objetivo general de la investigación

El objetivo general del presente trabajo de investigación es definir, desarrollar e

implementar métodos que permitan, para una palabra dada en inglés, encontrar:

- Asociaciones léxicas simples, entendidas estas como la vinculación

significativa entre dos palabras en un contexto y no necesariamente

contiguas.

- Asociaciones léxicas compuestas, partiendo de las asociaciones

léxicas simples, encontrar un conjunto de dos o más palabras

vinculadas a otra en su contexto.

- Secuencias de palabras, entendidas estas como una secuencia

ininterrumpida de palabras, en un contexto determinado y en torno a

un sustantivo .

Las secuencias y asociaciones son encontradas usando la redundancia de la

Web como corpus. Con la finalidad de lograr la incorporación futura de los

resultados obtenidos en sistemas de desambiguación del sentido de las

palabras, utilizamos además técnicas de minería de texto, minería de la Web y

medidas estadísticas que nos permitan extraer el conjunto de palabras que sea

significativo a un sentido de WordNet de la palabra dada.

______________________________________________________________________

___________________________________________________________________ 7

1.4 Estructura del trabajo de investigación

Organizamos el presente trabajo de investigación en dos partes principales: en

la primera, delineamos el marco de trabajo y sentamos las bases teóricas y

metodológicas para la investigación que se presenta en la segunda parte. Así,

la primera parte contiene una síntesis de los enfoques fundamentales al estudio

del significado en WSD y minería de la Web (capítulo 2).

La segunda parte se dedica a la propuesta metodología , basada en el

descubrimiento de asociaciones y secuencias de palabras por sentido de

WordNet. En el capítulo 3 se presenta el método desarrollado para el

descubrimiento asociaciones léxicas simples, asociaciones léxicas compuestas

y secuencias ininterrumpidas de palabras. En el capítulo 4 se presenta la

descripción de la experimentación realizada utilizando este método, desde la

formación del corpus hasta la obtención de asociaciones y secuencias léxicas,

así como el análisis de los resultados obtenidos.

Concluimos el trabajo con una reflexión sobre los desarrollos, el estado actual

de la investigación y el trabajo futuro (capítulo 5), donde reunimos algunos de

los problemas abiertos en WSD y una síntesis del trabajo pendiente para la

continuación del presente proyecto en el desarrollo de la tesis.

En el anexo se presentan los resúmenes de las publicaciones realizadas con el

desarrollo del presente trabajo, así como las cartas de aceptación de las

conferencias en las que serán presentados.

______________________________________________________________________

___________________________________________________________________ 8

Capítulo 2. La tarea de la desambiguación léxica 2.1 Introducción

En este capítulo se presenta una introducción a diferentes áreas a las que se

hace referencia en el presente trabajo. En la sección 2.2 describimos la base

de datos léxica WordNet. Esta base de datos está estructurada en forma de red

semántica y es utilizada como fuente de conocimiento externo en sistemas de

desambiguación del sentido de las palabras. Existen tres enfoques en los

sistemas de desambiguación léxica basados en corpus: supervisados, no

supervisados e híbridos o mixtos. Si el sistema requiere una fase previa de

entrenamiento, usando para ello un corpus etiquetado, esto es, un corpus en el

que cada palabra del corpus tiene una etiqueta con información sintáctica y

semántica se trata de un sistema supervisado. En caso de no requerir un

entrenamiento previo, tenemos un sistema no supervisado. Estos enfoques de

desambiguación léxica, se detallan en el apartado 2.3.

Cada dos años se lleva a cabo una competencia de sistemas de

desambiguación léxica en varias categorías e idiomas. Dicha competencia es

conocida como Senseval y tiene el propósito de comparar diferentes sistemas

automáticos de desambiguación léxica y así poder establecer unas bases

objetivas para la evaluación de los mismos. Presentamos en la sección 2.4 un

resumen de los logros y avances que se han tenido en el área con las

competiciones Senseval.

Un área muy importante y de gran relevancia en el presente trabajo es minería

de texto en la Web, ya que en el presente trabajo es utilizada como

herramienta para encontrar las asociaciones y secuencias entre palabras. En la

sección 2.5 se describen las técnicas más usadas en esta área. Terminamos el

presente capítulo haciendo una amplia justificación del uso de la Web como

corpus lingüístico en la sección 2.6.

______________________________________________________________________

___________________________________________________________________ 9

2.2 La ontología de WordNet

WordNet es una base de datos léxico-conceptual del inglés estructurada en

forma de red semántica, de manera que el acceso a la información léxica no se

restrinja a un acceso meramente alfabético. Para ello se ha inspirado en teorías

psicolinguísticas sobre la memoria léxica humana. WordNet almacena

información sobre palabras pertenecientes a las categorías sintácticas de

sustantivo, verbo, adjetivo y adverbio. El coste de tener categorías sintácticas,

es una gran cantidad de redundancia que los diccionarios convencionales no

tienen.

WordNet se ha venido desarrollando desde los años 80 bajo la dirección del

psicolingüista George Miller en la Universidad de Princeton [Miller95]. La última

versión hecha pública es WordNet 2.0, la cual consta de más de 150.000

palabras distintas, organizadas dentro de más de 115.000 synsets, como se

muestra en la tabla 1. Esta ontología incluye las características de un

diccionario y la potencia de un tesauro, además está disponible de manera

gratuita1.

Tabla 1. - Número de palabras y Synsets en WordNet.

Las palabras en WordNet se organizan en conjuntos de sinónimos o synsets

(set of synonyms), cada uno de los cuales representa un concepto léxico

diferente. Cada synset contiene la lista de palabras sinónimas, además de

información de relaciones semánticas establecidas con otras palabras o

synsets. Así, en WordNet, las relaciones se establecen fundamentalmente

1 http://www.cogsci.princeton.edu/~wn/

Categoría sintáctica

Palabras simples

Synsets

Sustantivo 114648 79689 Verbo 11306 13508 Adjetivo 21436 18563 Adverbio 4669 3664 Total 152059 115424

Sustantivo Verbo Adjetivo Adverbio

______________________________________________________________________

___________________________________________________________________ 10

entre conceptos, no entre palabras, asumiéndose que un concepto viene

definido por el conjunto de formas léxicas que, en un contexto apropiado, sirven

para representarlo en el lenguaje. Un sistema de desambiguación léxica que

utilice WordNet como diccionario asignará a cada palabra ambigua un sentido

de WordNet.

En [Miller95], ilustran el concepto de matriz léxica, donde las formas léxicas son

representadas como un listado de encabezados de columna. En esta

representación, un synset es el resultado de cruzar una fila de la matriz de un

lado a otro y asignar un número arbitrario al conjunto de palabras obtenido.

Este número actuará como un identificador del concepto representado por el

conjunto de elementos léxicos que lo designan. Esta representación se muestra

en la tabla 2, donde la entrada E1.1 implica que la forma léxica F1 puede usarse

para expresar el significado M1. Si hay dos entradas en la misma columna, la

forma léxica es polisémica; si hay dos entradas en la misma fila, las dos formas

léxicas son sinónimas. Esto nos da acceso a la información de dos maneras

distintas, la primera es accediendo a una columna e ir bajando hasta el final: de

esta forma obtenemos todos los sentidos que una palabra puede tener en

diversos contextos. La segunda manera en que tenemos acceso a la

información es acceder por una fila y seguirla hasta el final: de este modo

obtendríamos todas las maneras posibles de expresar un determinado

concepto. Así, la matriz de vocabulario contempla dos de los principales

problemas de la semántica léxica: la polisemia y la sinonimia respectivamente.

Tabla 2. - Matriz de vocabulario de WordNet

Formas Léxicas Significados Léxicos

F1 F2 F3 ....... Fn M1

M2

M3

:

Mn

E1.1 E1.2

E2.2

E3.3

..

.....

Em.n

______________________________________________________________________

___________________________________________________________________ 11

Por ejemplo, la palabra car tiene los siguientes sentidos en WordNet: 1. car, auto, automobile, machine, motorcar -- (4-wheeled motor vehicle; usually propelled by

an internal combustion engine)

2. car, railcar, railway car, railroad car -- (a wheeled vehicle adapted to the rails of railroad)

3. cable car, car -- (a conveyance for passengers or freight on a cable railway)

4. car, gondola -- (car suspended from an airship and carrying personnel and cargo and power

plant)

5. car, elevator car -- (where passengers ride up and down)

Las relaciones las podemos ver por sentido, por ejemplo la sinonimia define los

conceptos o synsets, esto es, car-1 es sinónimo de auto, automobile, machine

y motorcar ; mientras que car-2 es sinónimo de railcar, railway car y railroad car.

Mientras que la taxonomía los ordena de forma jerárquica, a continuación se

muestran las relaciones de Hipónimia para el sentido 1 de car, en las cuales

podemos ver que car se encuentra relacionado taxonómicamente por hiponimia

sucesiva con motor vehicle, vehicle, artifact y object entre otros: car, auto, automobile, machine, motorcar

=> motor vehicle, automotive vehicle

=> self-propelled vehicle

=> wheeled vehicle

=> vehicle

=> conveyance, transport

=> instrumentality, instrumentation

=> artifact, artefact

=> object, physical object

=> entity

=> whole, whole thing, unit


=> entity

=> container

=> instrumentality, instrumentation

=> artifact, artefact


=> entity

=> whole, whole thing, unit


=> entity

______________________________________________________________________

___________________________________________________________________ 12

Los nodos superiores de la estructura taxonómica nominal constituyen un

conjunto de aproximadamente 30 conceptos con los que cualquier entidad del

modelo del conocimiento léxico está relacionada (entidad, abstracción, lugar,

forma, estado, evento, grupo, etc.). En la tabla 3 se muestran las relaciones

existentes en WordNet y ejemplos de cada una de ellas. Tabla 3. - Relaciones existentes en WordNet.

Relación Categorías en que se aplica

Ejemplos

Sinonimia sustantivos, verbos, adjetivos adverbios

rápido/veloz

Antonimia sustantivos, verbos, adjetivos, adverbios

veloz - lento

Hipéronimia -Hipónimia

sustantivos coche- vehículo èhipónimia vehículo – coche è hipéronimia

Merónimia - Holonimia

sustantivos el volante es parte del coche èMerónimia un coche tiene un volanteèholonimia

Implicaciones verbos roncar – dormir Similitud adjetivos positivo-bueno Atributo/Valor sustantivos - adjetivos altura-alto

Durante los últimos años se han desarrollado además, recursos similares a

WordNet para otras lenguas. En concreto, el proyecto EuroWordNet2 , que

finalizó en 1999, tuvo como objetivo la construcción de una base de datos

léxica multilingüe para varios idiomas europeos (alemán, checo, estonio,

español, francés, holandés e italiano).

En EuroWordNet, cada base de datos se estructura de forma similar al

WordNet inglés, estableciendo relaciones semánticas entre las distintas

palabras. Pero además, los diferentes WordNets están enlazados entre si

mediante el índice Inter-Lingual-Index basado en el WordNet 1.5 (actualmente

se encuentra disponible la versión 2.0 de WordNet). Continuamente se están

mejorando y ampliando las distintas bases de datos léxicas de las lenguas ya

existentes y desarrollando nuevas bases de datos para lenguas que aun no

cuentan con un WordNet.

2 http://www.illc.uva.nl/EuroWordNet

______________________________________________________________________

___________________________________________________________________ 13

Se encuentra disponible en la web 3 un browser de WordNet que permite

encontrar las relaciones léxicas entre palabras (sinonimia, Hipónimia,

hipéronimia, etc.). La figura 1 muestra la imagen del sitio Web.

Figura1.- Sitio Web WordNet para obtener relaciones léxicas entre palabras.

WordNet no es en absoluto un recurso perfecto para desambiguar el sentido de

las palabras, debido a que la granularidad para la distinción de significados y

las divisiones de un sentido son en ocasiones demasiado finas para el

propósito de muchos trabajos de PLN. Esto ocasiona una multiplicación

innecesaria de sentidos además de la falta de consistencia en las aplicaciones

de ciertas relaciones semánticas. Estas son algunas de las razones que crean

muchas dificultades a la hora de desambiguar el sentido de las palabras

automáticamente, debido a que hay que hacer elecciones en cuanto al

significado muchas veces difícil incluso manualmente.

3 www.cogsci.princeton.edu/cgi-bin/webwn2.0

______________________________________________________________________

___________________________________________________________________ 14

Existen otros recursos que permiten, para una o varias palabras dadas como

entrada, obtener un conjunto de palabras relacionadas con su sentido o

significado directamente de la Web. Por ejemplo la página de Google Sets4

proporciona un conjunto de palabras que tienen relación con el significado de

las palabras dadas como entrada de manera automática, aunque sin tener en

consideración directamente una ontología como WordNet y sus sentidos. Por

ejemplo, si damos como entrada las palabras network y Agent, la salida que

nos da es la que se muestra en la figura 2, como se puede observar las

palabras que devuelve están relacionadas con el sentido de las palabras

proporcionadas.

Figura 2.- Conjunto de palabras relacionas con network y agent, por Google sets.

4 http://labs.google.com/sets

______________________________________________________________________

___________________________________________________________________ 15

2.3 La desambiguación léxica

La desambiguación del sentido de las palabras es el problema de decidir cuál

es el sentido correcto de una palabra en un contexto determinado y es una de

las tareas primordiales en muchas de las aplicaciones del procesamiento del

lenguaje natural [Ide98]. Como ejemplo de ellas podemos encontrar a la

traducción de un lenguaje a otro, donde se requiere más que un buen

conocimiento de la estructura sintáctica y la representación semántica de los

lenguajes en cuestión [Smrz01], además se pueden aplicar en recuperación de

información, ya sea esta en un conjunto de documentos o de la Web.

[Montes00][Volk02].

La dificultad para abordar la tarea de WSD se debe a varias razones. Por un

lado están las dificultades intrínsecas de la tarea:

• El grado de ambigüedad medio por palabra es mayor que en

otras tareas, ya que, por ejemplo, mientras que en el etiquetado

morfosintáctico el grado de ambigüedad está entre 2 y 3 etiquetas

por palabra, en WSD puede ser de entre 5 y 6 sentidos por

palabra.

• El número de sentidos diferentes suele ser muy elevado, si no se

restringe el dominio de la aplicación. Esto ocasiona que los

métodos de aprendizaje deban ser capaces de estimar de forma

fiable un número elevado de parámetros.

• El contexto necesario para poder desambiguar una palabra puede

ser muy extenso, llegando incluso a requerir párrafos u oraciones

anteriores.

• Las fuentes de información necesarias para poder desambiguar

una palabra son muy diversas (morfología, sintaxis, conocimiento

pragmático, etc.). Al ser tantas y tan variadas, en ocasiones no se

dispone de ellas.

Por otro lado, se encuentran las dificultades en la evaluación de los sistemas

de desambiguación: la definición de sentidos utilizada (o diccionario), la lengua,

______________________________________________________________________

___________________________________________________________________ 16

las medidas de evaluación, el alcance del sistema, etc. Los recursos

disponibles hasta el momento son insuficientes para que las aproximaciones de

aprendizaje automático alcancen unos resultados satisfactorios. Además, la

mayoría de estos recursos se han construido principalmente para el inglés, por

lo que muchas veces en el resto de las lenguas se ven obligados a desarrollar

principalmente aproximaciones no supervisadas.

La asociación de una palabra, a un sentido, depende de dos tipos de recursos

de información: el contexto y los recursos léxicos de conocimientos externos. El

contexto del sustantivo a ser desambiguado se define como el conjunto de

palabras de la misma frase. Existen bases de datos léxicas, como WordNet

para el idioma inglés, que se pueden usar como recurso léxico de conocimiento

externo.

El conocimiento lingüístico puede ayudar al proceso de WSD no sólo como

aportación teórica, de orden general, sobre el lenguaje y las lenguas, sino

también como información particular, relacionada con el uso de las palabras en

un contexto particular. Así, la investigación en WSD debe tener una visión más

consistente con la teoría lingüística [Ide98]. Además, se debe explotar la visión

complementaria de la lingüística del corpus, fundada en grandes cantidades de

texto, que aportan datos concretos sobre las características individuales de las

palabras por desambiguar.

Los corpora constituyen una fuente de conocimiento lingüístico valioso para la

tarea de WSD, insuficientemente explotada. En este caso, la desambiguación

se realiza mediante un algoritmo que no usa la información explícita de una

fuente léxica, sino que adquiere conocimiento sobre los sentidos de las

palabras a partir de un corpus. Si cada palabra del corpus tiene una etiqueta

con información sintáctica y semántica, tenemos un sistema supervisado (se

necesita un corpus de entrenamiento), mientras que los métodos automáticos,

no necesitan ningún proceso de aprendizaje ya que se basan sólo en el

conocimiento proporcionado por una base de datos léxica como WordNet.

______________________________________________________________________

___________________________________________________________________ 17

Los métodos automáticos desarrollados para desambiguar el sentido de las

palabras son muy diversos. Existen estudios que presentan una clasificación

detallada [Ide98] o que exponen los problemas de evaluación de dichos

métodos [Resnik00]. Asimismo, recientemente se han presentado algunas tesis

doctorales sobre WSD que revisan el estado actual de esta área de

investigación [Nica04] [Molina04] [Montoyo02].

Una clasificación común de las aproximaciones a WSD es en dos categorías

muy generales: métodos basados en conocimiento (knowledge-based methods)

y métodos basados en corpus (corpus-based methods). Los primeros hacen

uso del conocimiento adquirido en forma de diccionarios, tesauros, lexicones,

ontologías, etc. Podemos decir que este conocimiento es preexistente al

proceso de desambiguación y, en la mayoría de los casos, adquirido de forma

manual. Los segundos extraen el conocimiento de grandes cantidades de

ejemplos (de un corpus) mediante métodos estadísticos y aprendizaje

automático. Cuando esos ejemplos están anotados previamente con la etiqueta

correcta (el sentido, en nuestro caso), se dice que son métodos de aprendizaje

supervisado, y no supervisado cuando no existe tal anotación. Dado el gran

número de métodos y soluciones propuestos actualmente, la clasificación suele

simplificarse y se habla de métodos supervisados y no supervisados, esto es,

únicamente si necesitan de un corpus anotado o no. En los siguientes dos sub-

apartados se presentan algunas aproximaciones supervisadas y no

supervisadas.

______________________________________________________________________

___________________________________________________________________ 18

2.3.1 Sistemas Supervisados Existen distintas aproximaciones estadísticas que calculan la probabilidad de

de asignar a una palabra determinado sentido, según el contexto en el que

aparezca. La mayoría de los sistemas supervisados basan su aprendizaje en

el corpus etiquetado semánticamente llamado SemCor.

SemCor (SEMantic COncoRdance) [Miller94] fue construido sobre un

fragmento del corpus Brown y de la novela The Red Badge of Courage de

Stephen Craig, dentro del proyecto WordNet, tiene aproximadamente 350.000

palabras y cada palabra está etiquetada con un concepto de WordNet. SemCor

es el único corpus libremente disponible con todas las palabras de clase abierta

etiquetadas. Este etiquetado posibilita la evaluación de los algoritmos de DSA

para todas las palabras. Sin embargo, aunque cubre un gran número de

palabras, contiene un conjunto muy bajo de ejemplos para cada una.

Dentro de las aproximaciones aplicadas a WSD tenemos, el modelo de máxima

entropía [Suárez02a], este sistema adquiere conocimiento de un corpus

etiquetado. Posteriormente este conocimiento es representado en varios

combinaciones de características, las cuales son analizadas, para ver cual es

la mejor, por un conjunto de clasificadores, los cuales “votan” y eligen al mejor

conjunto de características. Otra aproximación aplicada a WSD, es basada en

los modelos de ocultos de Markov y WordNet [Molina02], donde, primeramente

representan la información a desambiguar utilizando modelos clásicos de

unígramas y bíg ramas, después incorporan la información de las etiquetas

POS, esta información es utilizada como vocabulario de entrada con la finalidad

de generar conocimiento. Este conocimiento se ve plasmado en un conjunto de

etiquetas que les permitirá mejorar las prestaciones del sistema de

desambiguación, el cual es visto como un problema de etiquetado.

Existen además trabajos que investigan en la posibilidad de utilizar corpora

bilingües como datos de aprendizaje. La principal ventaja de estas

aproximaciones es que los corpora no necesitan estar etiquetados

semánticamente. Por otra parte, es necesario utilizar algún algoritmo que

______________________________________________________________________

___________________________________________________________________ 19

permita alinear palabra a palabra las oraciones de las dos lenguas (algoritmo

de alineación). El uso de un corpus bilingüe para WSD se fundamenta en la

idea de que una palabra ambigua en una lengua puede tener traducciones

diferentes en otra lengua, según el sentido de la palabra. Por ejemplo, la

palabra inglesa bar puede traducirse en español como bar (local para consumir

bebidas) o como barra (pieza alargada y cilíndrica).

Para desambiguar la palabra en inglés puede utilizarse como fuente de

conocimiento sus traducciones al español en un corpus alineado.

Recientemente, algunas aproximaciones se han evaluado sobre tareas de

Senseval y, aunque no superan a las aproximaciones supervisadas, los

resultados ofrecidos son prometedores si se tienen en cuenta las dificultades

para llevar a cabo la experimentación en de traducciones automáticas, por

ejemplo [Diab02] presenta un método basado en un corpus paralelo, el objetivo

es lograr un etiquetamiento a gran escala de palabras en un lenguaje, usando

recursos lingüísticos en otra lengua y para ello crean corporas artificiales de

traslación.

______________________________________________________________________

___________________________________________________________________ 20

2.3.2 Sistemas no supervisados

La escasez de corpora etiquetados semánticamente es gran problema. Las

aproximaciones basadas en conocimiento tienen la ventaja de no requerir

procesos de entrenamiento, además no necesitan etiquetado manual. Estos

métodos generalmente utilizan la información que se encuentra almacenada en

algún recurso (diccionarios, tesauros o bases de datos léxicas).

El uso de diccionarios electrónicos se inició con los trabajos de [Lesk86]. Lesk,

creó una base de conocimiento que asoció con cada sentido en un diccionario.

La desambiguación se llevaba a cabo seleccionando el sentido de la palabra

que tenía mayor número de traslapes en las palabras vecinas del contexto. El

método logró entre un 50 y un 70 % de palabras desambiguadas correctamente .

Este método es muy sensible a la redacción exacta de cada definición y ha

sido usado como base para los trabajos posteriores que se han realizado en el

área.

Posteriormente, otros autores han desarrollado otras aproximaciones utilizando

herramientas distintas, tales como el diccionario LDOCE5 (Longman Dictionary

of Comtemporary English) [Wilks90]. El funcionamiento básico de estos

métodos consiste en medir la similitud entre el contexto en que aparece una

palabra y sus definiciones en el diccionario. Una aproximación muy interesante

es la de [Montoyo02], el cual basa su sistema en el uso de conocimiento

lingüístico (información léxica y morfológica) y del conocimiento a partir de las

relaciones léxicas y semánticas de un recurso externo (WordNet) pero lo hace

no dependiente del dominio y de la lengua.

Un tesauro clasifica las palabras dentro de categorías. Los sistemas basados

en tesauros parten de la idea de que una palabra que está clasificada en

distintas categorías presenta sentidos diferentes en cada una de las categorías.

Estos sistemas necesitan conocer el contexto en el que aparece una palabra

para poder clasificarla correctamente. Por ejemplo [Yarowsky92] utilizó el

5 http://www.longman.com/ldoce/

______________________________________________________________________

___________________________________________________________________ 21

tesauro Roget6 del inglés y hace la extracción del contexto a partir de las

definiciones de las palabras a desambiguar presentes en una enciclopedia.

Los trabajos de [Rada89] y [Aguirre96] propusieron fórmulas de distancia

conceptual en las que se tiene en cuenta básicamente la longitud del camino

entre dos conceptos según las relaciones de hipónimia en WordNet. Mientras

que [Sussna93] introdujo una medida ponderada según el tipo de relación

(sinonimia, hipónimia, etc.). Aguirre y Rigau extendieron la fórmula de la

distancia conceptual, introduciendo la noción de densidad conceptual que

indica la cercanía entre dos palabras en una jerarquía conceptual estructurada.

En esta fórmula se tiene en cuenta la distancia entre conceptos de la jerarquía,

la altura de la sub-jerarquía por debajo del concepto y el número de conceptos

presentes en la sub-jerarquía, el cálculo de la densidad conceptual es realizado

aplicando la formula:

∑∑

−

=

−

== 1

0

1

0),( h

ii

m

ii

nhyp

nhypmcDC

donde c es el synset raíz de la sub-jerarquía , m es el número de sentidos de

la palabra a desambiguar, h la altura de la sub-jerarquía y nhyp el número

medio de hipónimos por cada nodo (synset) de la sub-jerarquía.

En la aproximación propuesta en [Rosso03] se considera sólo los synsets

relevantes, es decir, aquellos nodos terminales de los caminos del nombre a

desambiguar y de los sustantivos de su contexto, y por los cuales hay que

calcular la densidad. Se refieren a estas particiones como aglomeraciones;

además se introduce una fórmula diferente para el cálculo de la densidad

conceptual que está basada en el número m de synsets dividido por el número

total nh de synsets de la aglomeración. Se aprovecha además la información

disponible en WordNet respecto a la frecuencia de aparición en SemCor, con la

finalidad de mejorar los resultados del sistema. El cálculo es realizado usando:

f

nhMMfnhmDC log)(),,( α=

6 http://poets.notredame.ac.jp/Roget/

______________________________________________________________________

___________________________________________________________________ 22

donde a es una constante (empíricamente igual a 0.25) y f es un entero (entre 1

y 25) que representa la información sobre la frecuencia, (donde 1 representa el

sentido mas frecuente, 2 el segundo más frecuente, etc.). En el caso de

obtener la misma densidad por diferentes aglomeraciones, se incluye el factor

αM para dar un mayor peso a las aglomeraciones con un número mayor de

synsets relevantes. Con la finalidad de clarificar las expresiones, presentamos

un ejemplo para la palabra brake, los sentidos de WordNet para esta palabra

son:

1. brake -- (a restraint used to slow or stop a vehicle) 2. brake -- (any of various ferns of the genus Pteris having pinnately compound leaves and including several popular houseplants) 3. bracken, pasture brake, brake, Pteridium aquilinum -- (large coarse fern often several feet high; essentially weed ferns; cosmopolitan) 4. brake -- (an area thickly overgrown usually with one kind of plant)

y los hipónimos para cada sentido 4 se muestran a continuación: brake => brush, brushwood, coppice, copse, thicket => vegetation, flora => collection, aggregation, accumulation, assemblage => group, grouping En la figura 3 se muestra la representación de las aglomeraciones, de los

synsets relevantes para los 4 sentidos, además se muestra el valor de

densidad conceptual obtenido, así como los valores utilizados.

Figura 3.- Representación de los synsets para break

Subjerarquía sentido 1: M=9, nh=21 CD=90.10*(9/21)log 1=1.25

Subjerarquía sentido 2: M=1, nh=1, CD=1

Subjerarquía sentido 3: M=1, nh=1, CD=1

Sub jerarquía sentido 4: M=1, nh=5 CD=10.10*(1/5)log 4=0.07

______________________________________________________________________

___________________________________________________________________ 23

2.4 La competición Senseval

Dada la variedad de métodos de WSD y las notables diferencias en los

resultados publicados, debido principalmente a los diferentes conjuntos de

evaluación utilizados, la comparación se hace extremadamente difícil. Existe

actualmente un foro, en el que se puede establecer qué métodos son los más

adecuados para la desambiguación léxica, este foro es SENSEVAL, un evento

que aspira a ser marco de encuentro de la comunidad de WSD donde se

pueden evaluar y comparar los sistemas de desambiguación que participan en

un ejercicio controlado.

En 1997, bajo la supervisión del grupo SIGLEX (Special Interest Group of the

Association for Computational Linguistics), se sentaron las bases de una

competición libre y voluntaria, denominada Senseval7 (SENSe EVALuation),

con el propósito de explorar los aspectos científicos y técnicos de la

desambiguación léxica de manera automática y así poder establecer bases

objetivas para la evaluación de estos sistemas.

2.4.1. Senseval-1

En esta primera edición, se optó por la tarea de WSD limitada a un conjunto

restringido de palabras, o sea la variante lexical sample. Como fuente de

referencia para el inventario de sentidos, se ha elegido la base de datos léxica

HECTOR8. Además, para los sistemas cuya salida consistía en sentidos del

WordNet, se ha asegurado el enlace (mapping), entre los sentidos de WordNet

y de HECTOR.

De cara a la controversia sobre si separar el etiquetado morfo -sintáctico (POS

tagging) de WSD, generalmente se separaron ambas tareas: la clase de la

palabra (nombre, verbo, adjetivo, adverbio) formaba parte de la entrada del

7 http://www.senseval.org/senseval3 8 proyecto de “Oxford University Press” para etiquetar 300 lemas (200,000 instancias) de textos extraídos del “British Nacional Corpus”

______________________________________________________________________

___________________________________________________________________ 24

sistema de desambiguación. A cada ocurrencia por desambiguar se le añadió

una etiqueta sobre la clase: -n (nombre), -v (verbo), -a (adjetivo) o -p (para

'categoría no provista'). Los dos tipos de datos, entradas léxicas en el

diccionario e instancias en el corpus etiquetadas a mano, estaban destinados a

cubrir las necesidades de ambas clases de sistemas de WSD participantes en

la competencia: los sistemas basados en el conocimiento y sistemas basados

en corpus. Estos datos se suministraron a los sistemas en tres fases sucesivas

para:

- la adaptación de los sistemas al formato y estilo del ejercicio;

- el entrenamiento y

- la evaluación respectivamente.

La evaluación se realizó teniendo en cuenta tres niveles de granularidad:

1) granularidad fina, donde han contado sólo las etiquetas exactas,

idénticas con las respuestas de control;

2) granularidad gruesa, donde las etiquetas de sub-sentidos se han

asimilado a las de sentidos, con lo cual se ha restado importancia a la

identificación de los sub-sentidos, y se ha valorado tan sólo la anotación

a nivel de sentido. Por ejemplo palabras que disponen de un sentido

superordinado funcional completo, a modo de hiperónimo: cuchillo, ‘de

cubertería’, ‘de caza’, y ‘general, de tipo indefinido’;

3) granularidad mixta, llevando parte y parte de los anteriores.

En la competición para el inglés, participaron dieciocho sistemas, muy distintos

en cuanto a los datos de entrada y a la metodología seguida. Para la

comparación, fueron divididos en dos categorías: supervisados y no

supervisados. Algunos de los sistemas no supervisados eran flexibles, con

posibilidad de transformarse, en mayor o menor grado, en supervisados. Otras

lenguas implicadas en la competición fueron, además del inglés, el francés y el

italiano, reunidas en un ejercicio paralelo, Romanseval.

Las medidas de evaluación utilizadas fueron precisión y recall. Estas medidas

se basan en la teoría de la probabilidad y muestran sus resultados como

relaciones simples del tipo “eventos favorables a…” entre “el total de eventos

que…”. La precisión nos da una relación entre el número de palabras

______________________________________________________________________

___________________________________________________________________ 25

desambigüadas correctamente y el número de palabras desambigüadas.

Mientas que el recall nos muestra una relación entre el número de palabras

desambigüadas correctamente y el número total de palabras, esto es:

donde :

α Es el número de palabras desambiguadas correctamente.

λ Es el número de palabras desambiguadas.

η Es el número total de palabras.

Se logró un éxito notable para el etiquetado manual de los sentidos, de hasta

un 95%; el nivel actual de WSD para granularidad fina, con datos de

entrenamiento disponibles, es del 75% (o incluso de hasta el 80%). En este

último caso, se observa que los sistemas supervisados muestran resultados

considerablemente mejores que los que los no supervisados. Los sistemas no

supervisados pensados para ser tratados en técnicas supervisadas, o bien para

apoyarse en ejemplos del diccionario si no hay datos disponibles en el corpus

de entrenamiento, obtuvieron mejores resultados en la variante supervisada.

Todo ello demuestra que, si se usan datos para entrenamiento, el resultado es

mucho mejor. Para los sustantivos, los mejores resultados se sitúan por debajo

del 80%; para los verbos, los mejores resultados alcanzan un 70%; para los

adjetivos o categoría indeterminada, los mejores resultados oscilan entre el 70

y el 80%.

λα

=ecisiónPrηα

=callRe

______________________________________________________________________

___________________________________________________________________ 26

2.4.2. Senseval-2

La segunda edición se reali zó en 2001, sobre bases algo diferentes. Esta vez el

objetivo era evaluar los problemas de los sistemas de WSD respecto de

diferentes tipos de palabras, diferentes variedades de lenguaje y diferentes

lenguas.

Para esta edición se definieron tres tareas:

1) léxico no restringido (all-words): etiquetar la mayoría de las palabras

de clase abierta de una muestra de texto;

2) inventario limitado de palabras (lexical sample): para un pequeño

conjunto de palabras seleccionadas, etiquetar varias instancias suyas en

breves fragmentos de texto;

3) traducción (translation): como en el caso precedente, con la diferencia

de que las palabras se definen de acuerdo con su traducción.

Uno de los propósitos de esta edición fue el promover la participación de

nuevas lenguas, con lo cual, los 93 sistemas participantes han representado

sistemas en los siguientes 12 idiomas, clasificados por la tarea de participación:

1) checo, holandés, inglés, estonio;

2) español, inglés, italiano, japonés, koreano, sueco, vasco;

3) japonés.

Los tipos de datos proporcionados han variado ligeramente frente a Senseval-1:

a) un lexicón con correspondencias (mappings) entre palabras y sentidos,

con la posibilidad de información suplementaria para explicar, definir o

distinguir los sentidos (p.e. WordNet);

b) un corpus de texto o muestras de texto etiquetadas a mano, como gold

standard, que se podía dividir opcionalmente en corpus de entrenamiento

y corpus de prueba (test);

c) una jerarquía o agrupamiento de sentidos (opcionales), para permitir

distinciones finas o gruesas en el cálculo (scoring) de las respuestas.

Una importante novedad con respecto a la edición anterior, fue el uso del

WordNet 1.7, y del EuroWordNet, en sus versiones para el castellano,

______________________________________________________________________

___________________________________________________________________ 27

italiano y estonio, como lexicón de referencia para el inventario de

sentidos.

En Senseval-2 se ha usado la modalidad de evaluación aplicando la evaluación

de granularidad fina para todos los sistemas. Si hubo disponible una jerarquía o

un agrupamiento de sentidos, se ha aplicado también la evaluación de

granularidad gruesa. Para las jerarquías de sentido, se ha usado además una

evaluación de granularidad mixta.

Los resultados de Senseval-2, en su conjunto, representan un retroceso frente

a Senseval-1, para sustantivos y adjetivos, en media con un 14% [Kilgarriff01].

Este retroceso se atribuye al uso del WordNet: en su elaboración, se ha dado

prioridad a la construcción de los synsets frente al análisis coherente de los

diferentes significados de una palabra, mientras que WSD necesita unas

distinciones de sentido claras y bien motivadas. Se acordó que esta cuestión

debe constituir la base de investigaciones futuras en WSD. Además se añade

como causa la cantidad inferior de material de entrenamiento y la dificultad

superior de las palabras de test.

Senseval-2 abrió nuevas vías en la investigación de WSD y de la polisemia, en

una relación dialéctica. Partiendo de la constatación de que los sistemas

basados en aprendizaje supervisado obtienen los mejores resultados, dos

focos de interés son el diseño de métodos para la obtención de corpus

etiquetados a gran escala y la selección de los atributos en relación con el tipo

de polisemia a tratar. Se espera que el análisis del impacto que un conjunto de

atributos y algoritmos han tenido sobre la desambiguación de diferentes

palabras permita identificar tipos de polisemia. La comparación entre los

resultados de las dos ediciones ha puesto de manifiesto la necesidad de

identificar unos criterios y una metodología rigurosamente para la elaboración

de los inventarios de sentidos que se toman como punto de referencia en WSD.

En la tabla 4 se muestra un resumen de los resultados obtenidos en la

competición Senseval- 2.

______________________________________________________________________

___________________________________________________________________ 28

Tabla 4.- Resumen de algunos de los sistemas participantes en la tarea english all-words de Senseval-2. Sistema Precisión Recall

Sistemas supervisados SMUaw 69.0% 69.0% CNTS-Antwerp 63.6% 63.6% Sinequa-LIA 61.8% 61.8% UCLA-gchao2 47.5% 45.4% BCU-ehu-dlist-all 57.2% 29.1% Sistemas no supervisados UNED-AW-U2 57.5% 56.9% CL research-DIMAP 41.6% 45.1% Univ. Sains Malaysia-2 36.0% 36.0% IRST 74.8% 35.7% Univ. Sheffield 44.0% 20.0% Univ. Sussex-sel-ospd 56.5% 16.9% IIT 2 32.8% 38.0%

El sistema SMUaw [Mihalcea01] fue el que consiguió los mejores resultados

en Senseval-2 en la tarea all-words del inglés. El método, consiste en un

proceso iterativo en el cual se combinan las fuentes de conocimiento WordNet

y SemCor 9 y se aplican un conjunto de heurísticas. Este proceso permite

desambiguar con una precisión elevada (92%) el 55% de los nombres y los

verbos. Para el resto de palabras se asigna el primer sentido en WordNet.

9 http://www.cs.unt.edu/~rada/downloads.html

______________________________________________________________________

___________________________________________________________________ 29

2.4.3. Senseval-3

La tercera edición de Senseval se ha desarrollado en 2004 en el marco de la

conferencia de la Association of Computational Linguistics (ACL) de Barcelona.

Respecto a las ediciones anteriores, Senseval-3 aporta una serie de

novedades, ante todo en cuanto a las tareas. Así, se han incorporado las

tareas de adquisición automática de subcategorización, inventario multilingüe

de palabras, WSD de glosas de WordNet, papeles semánticos y formas lógicas.

La tarea de adquisición automática de subcategorización supone la evaluación

de los sistemas de WSD en el contexto de este proceso. La tarea se ha

organizado, en inglés, para 30 verbos altamente frecuentes y polisémicos, cada

verbo con unas 1000 ocurrencias.

La tarea multilingüe de inventario limitado de palabras (multilingual lexical

sample) ha tenido como objetivo crear un marco para la evaluación de sistemas

de traducción automática. En vez de usar el inventario de sentidos de un

diccionario, se usan las traducciones de las palabras por desambiguar en una

segunda lengua. Los contextos son en inglés y las etiquetas de las palabras

por desambiguar son sus traducciones a una segunda lengua. Se han elegido

palabras con diferentes grados de ambigüedad interlingüe. La tarea se ha

organizado para dos pares de idiomas, inglés - francés e inglés - hindi, con

aproximadamente cincuenta palabras por desambiguar en cada caso.

La desambiguación de las glosas de WordNet se ha desarrollado usando el

etiquetado manual de glosas realizado dentro de los proyectos WordNet 2.0 y

Extended WordNet como corpus de entrenamiento y de prueba. Extended

WordNet consiste en el etiquetado de las glosas de WordNet 1.7 con

información sintáctica, formas lógicas y sentidos. La anotación semántica se

realizó mediante un procedimiento semiautomático que no garantiza la correcta

anotación, pero que clasifica las palabras según el grado de acuerdo entre

anotadores. En total se etiquetaron 564,748 instancias (440,758 nombres,

44,469 verbos, 70,748 adjetivos y 8,516 adverbios). La tarea se ha concebido

______________________________________________________________________

___________________________________________________________________ 30

como all-words, esto es, debían desambiguar todas las palabras de contenido

léxico de las glosas: nombres, adjetivos, verbos, adverbios.

Además, el ejercicio Senseval se ha abierto hacia otras lenguas (como el chino

y el rumano) en la tarea de WSD para inventario limitado, mientras que para el

italiano se ha organizado por primera vez la tarea para inventario ilimitado.

Como novedad también, por primera vez se han coordinado (parcialmente) las

tareas de inventario limitado en varias lenguas; así, se han elegido diez

palabras comunes para el catalán, el español, el inglés, el italiano, el rumano y

el vasco.

En la tabla 5 se muestra un resumen que muestra los resultados obtenidos por

algunos de los sistemas participantes. Cabe resaltar que el sistema con los

mejores resultados, el sistema GAMBL-AW-S, es un sistema esta basado en

un enfoque evolutivo [Decadt03] en el que cada palabra es calificada, utilizando

aprendizaje basado en memoria, para hacer una selección de características,

las cuales son almacenadas con una clasificación en cascada, con lo que se

optimiza tanto el acceso al contexto local de características, como la salida al

usar identificadores por palabra.

Tabla 5.- Resumen de los sistemas participantes en la tarea english all-words de Senseval-3.

Sistema Precisión Recall GAMBL-AW-S 65.1% 65.1% SenseLearner-S 65.1% 64.2% Koc UNiversity-S 64.8% 63.9% R2D2:English-all-words

62.6% 62.6%

Meaning-allwords-S 62.5% 62.3% Meaning-simple-S 61.15 61.0% LCCaw 61.4% 60.6% Upv-shmm-eaw-S 61.6% 60.5% Upv-inige-CIAOSENSO-eaw-U

60.8% 45.1%

Upv.unige-CIAOSENSO2-eaw-U

58.1% 48.0%

______________________________________________________________________

___________________________________________________________________ 31

Respecto a la edición anterior de Senseval, el progreso de la calidad de los

sistemas no supervisados es de 25,6% frente al 8,7% en el caso de los

sistemas supervisados. A la vez, esto significa la reducción drástica de la

distancia entre los sistemas supervisados y los sistemas no supervisados, de

24,1% en Senseval-2 a sólo 7,2% en Senseval-3.

La evolución comentada indica que el enfoque no supervisado es una línea de

investigación con un potencial todavía por explorar, mientras que el enfoque

supervisado parece haber encontrado cierto tope. Significativamente, los

primeros catorce sistemas supervisados en la clasificación (de los 37

participantes) ocupan un intervalo de sólo 2%.

______________________________________________________________________

___________________________________________________________________ 32

2.5 Minería de texto en la Web

Con la denominada sociedad de la información día a día se multiplica la

cantidad de datos almacenados lo cual no supone un aumento de nuestro

conocimiento ya que la dificultad de procesarlos con los métodos clásicos

aumenta. Para superar este problema, en los últimos años han surgido una

serie de técnicas que facilitan el procesamiento avanzado de datos y que

permiten realizar un análisis en profundidad de los mismos en forma

automática. La idea clave es que los datos contienen más información oculta

de la que se ve a simple vista.

La minería de datos puede definirse como la extracción no trivial de información

implícita, previamente desconocida y potencialmente útil, a partir de los datos

[Frawley92]. Y se compone de un conjunto de técnicas de análisis que permiten:

- extraer patrones, tendencias y regularidades para descubrir y

comprender mejor los datos.

- extraer patrones y tendencias para predecir comportamientos futuros.

Debido al gran volumen de datos este análisis ya no puede ser manual, por lo

que se han de buscar los mecanismos, preferentemente automáticos, que

faciliten esta tarea. La minería de datos se diferencia del resto de las

herramientas en que no transforma y facilita el acceso a la información, para

que el usuario la analice más fácilmente, si no que la minería de datos analiza

los datos. En este orden de ideas podemos decir que la minería de datos es

una etapa del proceso de extracción de conocimiento a partir de datos. Este

proceso consta de varias partes:

- preparación de datos

o selección

o limpieza

o transformación

- minería de datos

- evaluación

- difusión y uso de modelos.

______________________________________________________________________

___________________________________________________________________ 33

Recordemos que la información reduce nuestra incertidumbre, sobre algún

aspecto de la realidad, y nos permite tomas mejores decisiones. La minería de

la Web por otro lado se refiere al proceso global de descubrir información o

conocimiento potencialmente útil y previamente desconocido a partir de datos

de la Web. Para realizar esta tarea, se utilizan técnicas de distintas áreas como

son: búsquedas WWW, bases de datos, minería de datos y procesamiento de

lenguaje natural entre otros.

La minería de la Web se puede estructurar en las siguientes fases:

- Descubrimiento de recursos: localización de documentos relevantes o

no usuales en la red. Esta es la función de índices buscadores que

extraen contenido en palabras, zona del documento e idioma y los

índices temáticos los cuales clasifican los documentos.

- Extracción de información: extracción de determinada información, ya

sea por ejemplo: HTML, XML, texto plano, ps o PDF entre otros.

- Generalización: descubrimiento de patrones generales a partir de sitios

Web individuales (clustering, asociaciones entre documentos);

- Análisis, validación e interpretación de los patrones.

Básicamente la minería de la Web se enfoca en el uso de técnicas de minería

de datos para descubrir y extraer automáticamente información de documentos

y servicios de la Web [Etzioni96]. La minería de la Web se puede clasificar en

tres áreas principales:

- Uso de minería de la Web (Web usage mining): se intenta extraer

información (hábitos, preferencias de los usuarios o contenidos y

relevancia de documentos) a partir de las sesiones y comportamiento

de los usuarios y navegantes, esto es, permite encontrar acceso a

patrones de sitios Web;

- Minería estructurada de la Web (Web estructure mining): se intenta

descubrir un modelo a partir de la topología de enlaces de la red.

Este modelo puede ser útil para clasificar o agrupar documentos.

- Minería del contenido de la Web (Web content mining): permite

encontrar información usual de documentos Web. Se puede clasificar

a su vez en:

______________________________________________________________________

___________________________________________________________________ 34

o Text mining: si los documentos son en texto plano;

o Hypertext mining: si los documentos contienen enlaces a otros

documentos o a sí mismos;

o Markup mining: si los documentos son estructurados, esto es,

con marcas;

o Multimedia mining: si los documentos contienen imágenes,

audio o video.

Son varias las investigaciones que se han realizado usando la minería de la

Web como herramienta, por Ejemplo [Mihalcea04] expone las principales líneas

de investigación referentes a la explotación de la Web como recurso lingüístico

en sistemas WSD. Además [Celina03] ha usado la Web para enriquecer

corpora etiquetados, que después faciliten la tarea de WSD. Por otro lado

[Baeza04] presenta los retos que implica el usar técnicas efectivas de

procesamiento de lenguaje natural en sistemas de recuperación de información

usando áreas de intersección de ambos campos, como son extracción de

información (information extractrion) y búsqueda de respuestas (question

answering), usando la semántica de la Web. El presente trabajo utilizamos la

Web como corpus para la extracción de relaciones interesantes entre palabras

haciendo minería del contenido de la Web, en nuestro caso utilizamos Google 10,

como motor de búsqueda, aunque en que en investigaciones recientes llevadas

a cabo para estudiar la posibilidad de usar la Web para desambiguar

sustantivos precedidos de un adjetivo [Rosso05] parecen mostrar que los

resultados no dependen mucho del motor de búsqueda utilizado, en la figura 4

se muestra un grafico comparativo entre 3 motores de búsqueda, las medidas

de precisión y recall se calculan como se menciono en el apartado 2.4

Figura 4.- comparación entre diferentes motores de búsqueda [Rosso05]

10 www.google.com

______________________________________________________________________

___________________________________________________________________ 35

2.6 La Web como corpus

El uso de los corpora como fuente de información está relacionado con la

evolución de la investigación empírica en lingüística. Se puede hablar de

análisis manual de textos ya a finales del siglo XIX, pero en lingüística se

empiezan a usar los corpora a mediados del siglo XX. Los corpora se tratan

como fuente de ejemplos y facilitan el desarrollo de los modelos numéricos del

lenguaje. El vínculo estrecho con los métodos empíricos explica su período de

declive alrededor de los años sesenta. El trabajo basado en corpus resucita en

los años ochenta, debido precisamente a la aparición de los corpora de

grandes dimensiones en soporte electrónico.

Los corpora son colecciones de textos accesibles por ordenador, construidas

para servir una determinada función, y según unos criterios explícitos de

acuerdo con un determinado objetivo. Debido a que ofrecen conjuntos amplios

de ejemplos para un determinado hecho lingüístico, los corpus permiten el

desarrollo de modelos estadísticos del lenguaje y, en consecuencia, el uso de

métodos empíricos.

El uso de la Web como corpus ha tenido gran interés en fechas recientes

principalmente por sus aplicaciones y tareas en el área de PLN [Kilgarriff03]. La

Web es un medio para acceder de manera rápida y fácil a una gran variedad de

información almacenada en formato electrónico en diferentes partes del mundo.

El rápido crecimiento y expansión de la Web se debe al constante crecimiento

de esta información y presenta nuevos retos, tales como el contar con mejores

métodos de acceso y análisis de la información que permitan realizar tareas

como: encontrar información relevante, extraer información potencial usando

conocimiento o aprender acerca de las preferencias de los usuarios [Kosala00].

La minería de la Web, que hemos abordado en el apartado anterior, es un área

de investigación que se enfoca a la solución de estos problemas. La Web es

inmensa y contiene cientos de billones de palabras de texto que pueden ser

usadas para muchas áreas de investigación del lenguaje ; además es gratis y

disponible con un clic del ratón.

______________________________________________________________________

___________________________________________________________________ 36

Las ciencias y tecnologías del lenguaje que usan la Web como fuente de datos

han incrementado, además se encuentra disponible en una gran variedad de

lenguajes. Tenemos entonces en la Web, un corpus dinámico, que día a día

crece y que pone a nuestra disposición una gran variedad de documentos en

una gran diversidad de idiomas que podemos usar para encontrar ejemplos de

contexto de uso común de prácticamente cualquier palabra.

A pesar del incremento de uso de la Web, sigue siendo común usar recursos

lingüísticos, para tareas de PLN. Entre estos corpora están: el corpus Brown 11,

CLEF12, TREC13 y el BNC14 (British National Corpus). En nuestro caso, además

de usar la Web como corpus, hemos utilizado también los corpora CLEF y

TREC, como describiremos en el capítulo cuatro de esta memoria, para que se

pueda apreciar la potencialidad de la Web en la tarea del descubrimiento de

patrones léxicos significativos con respecto al sentido de una palabra.

En las investigaciones en PLN es importante el uso de corpora para extraer

modelos de lenguaje: una lista de palabras o combinaciones de palabras

significativas que permitan saber cuales palabras están relacionadas, cual es

usada con cual otra o cuales de ellas son de un determinado dominio.

El tamaño de la Web en julio de 1999 se estimaba en 56 millones de

direcciones, 125 millones en enero del 2001 y 172 en enero del 2003, se puede

apreciar una enorme crecimiento de más del 300% en poco menos de 5 años.

En 1999, se encontraron 800 millones de páginas Web indexadas disponibles;

si estimamos que el tamaño de una página Web en promedio es de entre 7 y 8

Kilobytes de texto sin formato, tendremos entonces cerca de 6 Terabytes de

texto disponible en 1999 y aproximadamente 30 terabytes en el 2003. Con

estas cifras, claramente la Web es un corpus inmenso, por la cantidad de

información que está a nuestra disposición.

11 http://clwww.essex.ac.uk/w3c/corpus_ling/content/corpora/list/private/brown/brown.html 12 http://clef-qa.itc.it/2004/resources.html 13 http://trec.nist.gov 14 www.natcorp.ox.ac.uk/

______________________________________________________________________

___________________________________________________________________ 37

Una clasificación, respecto al tipo y tamaño de archivos, de la Web es

presentada en [Mihalcea04], esta clasificación se muestra en la figura 5.

Composición de la Web

Java0.1%

Texto (txt o rtf)0.1%

Microsoft Powerpoint

0.8%

Ejecutables1.4%

Audio2.6%

Comprimidos3.7%

Adobe (pdf)9,2%

Tipo de archivos no listados

20,0%

Otro tipo de archivos

3,2%

Peliculas/animaciones

4,3%

PHP13,0%

HTM/HTML17,9%

Imágenes23,3%

Microsoft Excel0.0%

Microsoft Word0.4%

Figura 5.- Composición de la Web.

Como se puede apreciar en la composición de la Web predominan las

imágenes y los archivos HTML, que son dos de los tipos de archivos mas

utilizados en la elaboración de páginas Web.

Además, la Web es multilingüe, ya que aproximadamente: 71% de las páginas

están escritas en el idioma inglés, 6.8% en japonés, 5.1% en alemán, 1.8% en

francés, 1.5% en chino, 1.1% en español, 0.9% en italiano, y el 0.7% en sueco,

el restante 11.1% está repartido en otros idiomas y dialectos con porcentajes

de presencia menores, en número de páginas escritas, que en sueco

[Kilgarriff03].

______________________________________________________________________

___________________________________________________________________ 38

En la tabla 6 se muestra el número aproximado de palabras que se

encontraban disponibles en varios lenguajes, indexadas por Altavista 15 en

marzo del 2001, la mayor cantidad de palabras están disponibles para el idioma

inglés con mas de 76 billones de palabras, pero como se puede apreciar, 8

idiomas mas rebasan el billón de palabras. Tabla 6. - Número estimado de páginas Web, indexadas por Altavista [Kilgarriff03]

Lenguaje Tamaño Web Lenguaje Tamaño Web

Albanes 10,332,000 Finlandés 326,379,000

Galés 14,993,000 Danés 346,945,000

Lituano 35,426,000 Húngaro 457,522,000

Vasco 55,340,000 Checo 520,181,000

Latín 55,943,000 Noruego 609,934,000

Rumano 86,392,000 Sueco 1,003,075,000

Irlandés 88,283,000 Holandés 1,063,012,000

Estonio 98,066,000 Portugués 1,333,664,000

Esloveno 119,153,000 Italiano 1,845,026,000

Croata 136,073,000 Español 2,658,631,000

Turco 187,356,000 Francés 3,836,874,000

Catalán 203,592,000 Alemán 7,035,850,000

Polaco 322,283,000 Inglés 76,598,718,000

En cuanto al aumento de ocurrencias de frases específicas, que es nuestro

interés, en la tabla 7 se muestra el crecimiento de ocurrencias en la Web en

tres años distintos de algunas secuencias, y se compara con las ocurrencias

encontradas en el corpus BNC de las mismas secuencias de palabras. Por

ejemplo, la secuencia “vital organ” en el corpus BNC (formado por 100 millones

de palabras) se encuentra 46 veces, mientras que el la Web, en el año 1998

ocurrió 7371 veces, en 2001 ocurrió 28829 veces y en 2003 un total de 35 819

veces que es mucho mayor (más de 750 veces) que el número de ocurrencias

encontradas en el BNC, y nos da una clara idea del crecimiento y potencial de

la Web en su uso como corpus. De hecho en los experimentos realizados en el

presente trabajo de investigación, que se detallan en el capítulo cuatro, hubo

palabras de las cuales no se encontró ni una sola ocurrencia en los corpus

CLEF y TREC: en estos casos sólo se realizaron los experimentos con el

corpus formado a partir de la Web. 15 www.altavista.com

______________________________________________________________________

___________________________________________________________________ 39

Tabla 7. - Frecuencias de frases en inglés en el corpus BNC y en la Web Altavista [Kilgarriff03]

Secuencia BNC Web

(100 M) 1998 2001 2003

medical treatment 414 46,064 627,522 1,539,367

prostate cancer 39 40,772 518,393 1,478,366

deep breath 732 54,550 170,921 868,631

acrylic paint 30 7,208 43,181 151,525

perfect balance 38 9,735 35,494 355,538

electromagnetic radiation 39 17,297 69,286 258,186

powerful force 71 17,391 52,710 249,940

concrete pipe 10 3,360 21,477 43,267

upholstery fabric 6 3,157 8,019 82,633

vital organ 46 7,371 28,829 35,819

Sin embargo la Web tiene varios aspectos negativos entre ellos el que es muy

heterogénea y desorganizada, además existe mucha información basura o con

etiquetas que dificultan su procesamiento. Aunado a que no se puede estar

seguro de que todo lo encontrado este correcto, ya que nadie lo revisa. Pero

gracias a la redundancia de la Web la información correcta suele prevalecer.

El uso de la Web en investigaciones es relativamente reciente, por ejemplo

[Mihalcea99] usa la Web para identificar frecuencias de sentido de palabras,

como una entrada a un sistema de desambiguación léxica. [Resnik00] muestra

el corpus paralelo, donde utiliza la Web para “complementar” un corpus finito.

El centro de investigación de la Web, CIW 16 , tiene como objetivo principal

realizar investigación básica en problemas relacionados con la Web, dentro de

los aspectos que manejan de manera específica se encuentra la minería de la

Web y la extracción de datos de la Web. En investigaciones recientes llevadas

a cabo en el CIW, se ha estado estudiando el gran potencial el uso de la Web

en actividades del PLN, entre estas actividades se encuentra el uso de la Web

como corpus en WSD [Baeza04].

16 http://www.ciw.cl/

______________________________________________________________________

___________________________________________________________________ 40

Capítulo 3. Descubrimiento de patrones léxicos en la Web 3.1 Introducción En este capítulo se presenta la metodología propuesta para la extracción de los

patrones léxicos usando la redundancia de la Web como corpus. En la sección

3.2 se hace un planteamiento de la idea general de la metodología, desde

proporcionar una palabra polisémica, hasta obtener como salida un conjunto de

asociaciones y secuencias léxicas vinculadas de manera significativa con

alguno de los sentidos de WordNet de la palabra proporcionada. Se menciona

la conformación del corpus a partir de la Web, sin embargo esta se muestra a

detalle en el capítulo 4.

El conjunto de palabras seleccionado como significativo debe superar filtros de

fuerza y dispersión. La medida de fuerza, se detalla en el apartado 3.3, es una

medida basada en frecuencia y nos permite discriminar aquellas palabras de

contexto que no sean recurrentes. Las medidas de dispersión se detallan en el

apartado 3.4 y nos permiten, primero ver que las palabras seleccionadas

formen parte del contexto de todos los sinónimos que componen al sentido y

segundo que estén sólo en sentido de la palabra polisémica.

En el apartado 3.5 hablamos de las asociaciones léxicas tanto simples como

compuestas, que las distingue y como se obtienen y algunos de sus principales

usos. Terminamos el capítulo con la metodología propuesta para la obtención

de secuencias ininterrumpidas de palabras. Estas tienen la característica de

empezar o terminar con la palabra polisémica.

______________________________________________________________________

___________________________________________________________________ 41

3.2 La metodología propuesta

En el lenguaje natural hay muchas combinaciones de palabras que co-ocurren

con frecuencia y corresponden a un uso particular de una palabra o de un

sentido de una frase. Estas combinaciones se pueden presentar como una

secuencia ininterrumpida de palabras, en este caso llamadas secuencias

simplemente, o puede ser que las palabras de la combinación no ocurran de

manera contigua en el contexto, llamadas en este caso asociaciones.

Tanto las secuencias como las asociaciones son comunes en todos los idiomas

y tipos de escritura o incluso áreas técnicas o contextos específicos. La

probabilidad de ocurrencia de una secuencia o asociación es diferente a la

probabilidad de ocurrencia de las palabras que la componen, esto es, las

palabras que forman una secuencia o asociación no son tomadas como si

fueran variables independientes. Estas características se deben tener en

cuenta a la hora de desarrollar técnicas estadísticas para recuperar e identificar

secuencias y asociaciones en un corpus.

En este trabajo de investigación presentamos una metodología que permite,

para una palabra dada en inglés, encontrar:

• asociaciones léxicas simples, esto es, una palabra vinculada a otra en

su contexto;

• asociaciones léxicas compuestas, un conjunto de dos o más palabras

vinculadas a otra en su contexto;

• secuencias de palabras, secuencias ininterrumpidas de palabras en un

contexto.

La palabra dada debe ser polisémica y existir en la base de datos léxica

WordNet [Miller95]. Esta base de datos se usa como recurso léxico de

conocimiento externo, ya que combina las características de los diccionarios y

de los tesauros con relaciones semánticas como sinonimia, hiperonimia e

hiponimia, que en la sección 2.2 se describe con detalle.

______________________________________________________________________

___________________________________________________________________ 42

La metodología propuesta consta de los siguientes pasos:

1.- para una palabra polisémica dada en inglés, obtenemos sus sentidos en

WordNet;

2.- para cada sentido obtenemos su conjunto de sinónimos (synsets);

3.- usando como patrón de búsqueda en la Web cada sinónimo, y dado un

motor de búsqueda (por ejemplo Google), bajamos ejemplos de uso común

(snippets), con la finalidad de construir un corpus por sentido de WordNet;

4.- el corpus es construido tomando 5 palabras de contexto a la derecha y 5

palabras a la izquierda del sinónimo. Los contextos se separan, además de por

su ubicación derecha e izquierda, por sinónimo y por sentido con etiquetas para

facilitar su recuperación posterior. El corpus formado es común tanto para la

obtención de las secuencias ininterrumpidas como para las asociaciones

léxicas.

5.- encontramos todas las secuencias o asociaciones significativas, según sea

el caso, que ocurren en cada corpus por sentido.

Para llevar a cabo el paso 5, básicamente seleccionamos las secuencias o

asociaciones más relevantes al sentido correspondiente con los siguientes

criterios:

A) Fuerza.- una secuencia o asociación es relevante si es frecuente,

esto es si ocurre un número de veces mayor a un valor de umbral o de

corte determinado previamente;

B) Dispersión local.- una secuencia o asociación es relevante si aparece

en el contexto de todos los sinónimos que componen al sentido

correspondiente.

C) Dispersión externa.- una secuencia o asociación es relevante si

aparece sólo en uno de los sentidos de la palabra polisémica dada.

En el capítulo 4 se detalla la construcción del corpus. La medida de fuerza se

detalla en el apartado 3.2, mientras que las medidas de dispersión están

comprendidas en la sección 3.3 .

______________________________________________________________________

___________________________________________________________________ 43

3.3 Medida de fuerza

La minería de datos en corpus es esencial para la extracción de características

como son las asociaciones y secuencias léxicas entre palabras. La medida de

fuerza ayuda a eliminar las combinaciones de palabras que no son frecuentes

en el contexto de algún sentido de WordNet. Básicamente se toman las

palabras de contexto de alguno de los sinónimos que componen al sentido,

como se muestra en la figura 6. Sentido i-esimo ={sinónimo 1……. sinónimo n}

Wi5 W i4 W i3 W i2 W i1 Sinónimo1 W d1 W d2 W d3 W d4 W d5 .

.

.

Wi5 W i4 W i3 W i2 W i1 Sinónimon W d1 W d2 W d3 W d4 W d5

Figura 6.- Palabras de contexto tomadas en torno al sinónimo.

Se lleva un conteo de la ocurrencia de cada una de las palabras de contexto y

se obtienen sus estadísticos, en base a estos se determina el conjunto de

palabras que superan la medida de fuerza, esta medida de fuerza es realizada

como en [Smadja93] y esta definida por:

1

_

≥−σ

ff

donde:

f es la frecuencia de ocurrencia de la palabra en cuestión;

_f es la frecuencia promedio y

σ es la desviación estándar.

El umbral o frecuencia de corte está definido en un valor igual a la suma de la

frecuencia promedio y la desviación estándar y es la frecuencia mínima que

deben tener las palabras para ser consideradas significativas. Con esta medida

aseguramos que la extracción sólo de aquellas ocurrencias que aparecen de

manera recurrente en los contextos del sentido de WordNet, eliminando todas

las palabras que pudieran aparecer de manera casual. Como salida de esta

______________________________________________________________________

___________________________________________________________________ 44

medida tenemos un conjunto de palabras vinculadas a un sinónimo, como se

muestra en la figura 7.

Figura 7.- Salida de la medida de fuerza.

3.4 Medidas de dispersión

El descubrimiento de asociaciones y secuencias se hace a partir de un corpus

formado de la Web, aunque en el capítulo 4 presentamos resultados utilizando

además el corpus CLEF, a manera de tener una comparación entre los corpora

y presentar la bondad de la metodología propuesta en su independencia del

corpus así como del idioma.

Las medidas de dispersión nos ayudan a encontrar aquellas palabras de

contexto que son utilizadas de manera común con un determinado sentido. En

los dos sub-apartados siguientes describimos dos tipos de medidas de

dispersión: la dispersión local, en la cual buscamos que las palabras que

superaron la medida de fuerza se encuentren además en el contexto de todos

los sinónimos que componen el sentido correspondiente. Con esta medida

aseguramos que esas palabras, al estar en el contexto de todos los sinónimos,

estén vinculadas fuertemente con el sentido. Y la dispersión externa en la cual

buscamos aquellas palabras (patrones léxicos), que además de haber pasado

la medida de fuerza y la de dispersión local pertenezcan a un sólo sentido. Esto

es, son eliminadas aquellas palabras que aparecen en más de un sentido. Con

estas medidas extraemos los patrones léxicos vinculados a un y solo un

sentido de WordNet de la palabra polisémica dada.

Sentido i Con junto

de Palabras

______________________________________________________________________

___________________________________________________________________ 45

.

.

.

3.4.1 Dispersión local

Dada una palabra polisémica, para encontrar el conjunto de secuencias y

asociaciones que sean representativas de cada uno de los sentidos de

WordNet de la palabra dada, es deseable que, además de haber pasado el

filtro anterior basado en la frecuencia, estén en el contexto de todos los

sinónimos que componen al sentido y esto es justamente lo que hace la

medida de la dispersión local; permite descartar aquellas palabras que no están

en el contexto de todos los sinónimos que componen al sentido de WordNet.

En este trabajo la medida fue tomada de manera binaria, esto es, sólo se

consideraron aquellas palabras que aparecían en el contexto de todos lo

sinónimos que componen al sentido, como se ilustra en la figura 8.

Sentido i-esimo ={sinónimo 1……. sinónimo n}

Figura 8.- Dispersión local

Al ser esta una medida binaria, recuperamos aquellas palabras que son muy

representativas de un sentido, ya que deben formar parte del contexto de todos

los sinónimos. Esto hace que la medida sea muy rígida y podemos estar

dejando fuera del análisis palabras que, aunque no se encuentren en el

contexto de todos los sinónimos, sean “interesantes” para el sentido. Es por

esto que para las actividades futuras (capítulo 5) se tiene pensado implementar

una ponderación que le de peso a las ocurrencias de cada sinónimo, aun y que

no aparezca en el contexto de todos los sinónimos del sentido, para de esta

manera asignar una probabilidad a la ocurrencia de dicha palabra en el

contexto de los sinónimos que componen el sentido. Por ejemplo, si un sentido

se compone de tres sinónimos, al ponderar esta medida, podríamos recuperar

palabras que estuvieran en el contexto de solo dos o incluso uno de los

sinónimos, con la ponderación correspondiente, que componen al sentido.

Sinónimo n

Sinónimo 1 Conjunto

de Palabras

______________________________________________________________________

___________________________________________________________________ 46

3.4.2. Dispersión externa

Como resultado de salida de la medida anterior tenemos un conjunto de

palabras por sentido que además de haber superado la medida de fuerza se

encuentran en el contexto de todos los sinónimos. Con la medida de dispersión

externa lo que buscamos es que el conjunto de palabras forme parte solo de

uno de los sentidos. Esto es, la dispersión externa nos permite la

discriminación de uno de sus sentidos con respecto a los demás, es decir, son

descartadas todas aquellas palabras que aparecen en más de un sentido.

Esta medida es utilizada para extraer sólo aquellas palabras que se encuentran

fuertemente ligadas al sentido de WordNet correspondiente. Como salida del

sistema, después de las tres medidas, tendríamos un conjunto de palabras

vinculadas de manera significativa a cada uno de los sentidos de WordNet de

la palabra polisémica dada, como se ilustra en la figura 9.

Palabra polisémica ={Sentido 1,…., Sentido n}

.

.

.

Figura 9.- Palabras vinculadas a los sentidos de WordNet.

En esta medida también seria deseable implementar una medida que nos

permita ponderar aquellas palabras que aparecen en más de un sentido y ver,

por ejemplo , en cual sentido aparece con mayor frecuencia, para a partir de

esta información discernir por un determinado sentido. En los apartados

siguientes se muestra la metodología usada para obtener tanto para las

secuencias como para las asociaciones las cuales utilizan las medidas de

fuerza y de dispersión mencionadas.

Sentido 1

Sentido n

Conjunto de

Palabras

Conjunto de

Palabras

______________________________________________________________________

___________________________________________________________________ 47

3.5 Asociaciones léxicas

Dentro de las técnicas y herramientas con que cuenta el PLN se encuentran

aquellas que nos permiten explorar y extraer las características lingüísticas del

texto. Un punto clave para entender el texto es comprender el significado de las

palabras así como de las asociaciones entre ellas. En este capítulo

presentamos la metodología que nos permite extraer las asociaciones léxicas

entre palabras. Básicamente extraemos las asociaciones léxicas en torno a un

sentido de WordNet de una palabra polisémica. En los dos subaparatados

siguientes se presenta la metodología utilizada para extraer las asociaciones

léxicas simples, entendidas estas como la asociación de una palabra a otra en

su contexto, y las asociaciones léxicas compuestas, entendidas estas como la

asociación de dos o mas palabras asociadas a otra en su contexto,

respectivamente.

3.5.1 Asociaciones léxicas simples

La técnica de minería de texto en corpus es muy importante para poder extraer

ciertas “características”, como pueden considerarse las asociaciones léxicas,

entre palabras. En este apartado presentamos la metodología utilizada en el

algoritmo implementado para extraer las asociaciones léxicas simples de

manera automática.

Pala la obtención de las asociaciones léxicas simples, de una palabra

polisémica, se parte de un corpus formado a partir de la Web usando como

patrón de búsqueda los sinónimos de cada uno de los sentidos de WordNet de

la palabra dada. Se forma un corpus por cada sentido de WordNet. En el

corpus, cada línea representa un ejemplo de contexto de uso de alguno de los

sinónimos que componen al sentido. En el capitulo 4 se describe la formación

del corpus así como su estructura.

______________________________________________________________________

___________________________________________________________________ 48

Las palabras de contexto de cada sinónimo se van introduciendo en una tabla

hash, básicamente para cada palabra encontrada en el contexto (5 palabras a

la izquierda y 5 palabras a la derecha del sinónimo) se hace la pregunta ¿existe

en la tabla? Si la respuesta es no, se incluye y se inicializa el valor de

frecuencia en uno, mientras que si la respuesta es si se incrementa su

frecuencia en uno. De esta manera recorremos todo el corpus .

Después de recorrer el corpus, tenemos una tabla con todas las palabras de

contexto de los sinónimos, así como la frecuencia de cada una de ellas. De

esta tabla resultante debemos seleccionar aquellas palabras de contexto que

superan la medida de fuerza y las medidas de dispersión descritas en los

apartados 3.3 y 4.4 respectivamente. Cabe mencionar que las palabras que se

encuentran en la tabla no es condición que se encuentren de manera contigua

al sinónimo o entre ellas, su posición dentro del contexto es variable dentro de

la ventana definida, de esta manera encontramos aquellas palabras que se

encuentran vinculadas de manera significativa con el sentido.

Como se ilustra en la figura 10, la salida de nuestro sistema para este apartado

es un conjunto de palabras vinculadas de manera significativa con un sentido

de WordNet. Estas palabras pueden estar en una posición variable con

respecto al sentido en una ventana de tamaño 10, es decir 5 palabras a la

izquierda y 5 palabras a al derecha .

Figura 10.- Salida del sistema

Por ejemplo, los sentidos en WordNet para la palabra instance, son los

siguientes: 1. case, instance, example -- (an occurrence of something)

2. example, illustration, instance, representative -- (an item of information that is representative

of a type)

Palabras significativas Sentido i

______________________________________________________________________

___________________________________________________________________ 49

Debemos encontrar palabras que se encuentren en el contexto de todos los

sinónimos de cada sentido y como podemos observar en este caso example e

intance pertenecen a los dos sentidos, el papel que tienen aquí las medidas de

dispersión es fundamental ya que, por un lado debemos encontrar un conjunto

de palabras que estén en el contexto de case, instance y example, pero por

otro lado debemos encontrar otro conjunto diferente de palabras que se

encuentren en el contexto de example, illustration, instance y representative

que componen al sentido 2.

En el capítulo 4 se muestra la relación completa de palabras que superaron las

tres medidas para los dos sentidos de instance, algunas de ellas, para el

sentido 1, son: database y make, mientras que para el sentido 2 tenemos a:

Secretary y Judicial. Estas palabras las encontramos en expresiones de uso

común, tales como: database instance y make the instance; las cuales

pertenecen al sentido 1 de instance “una ocurrencia de algo”, mientras que

instance of the secretary, instance of judicial activism corresponden al sentido

2 de instance “un artículo de información que es representativo de un tipo”.

Como se puede observar, no es requisito que las palabras significativas

encontradas para el caso de las asociaciones léxicas simples aparezcan de

manera contigua en el contexto.

______________________________________________________________________

___________________________________________________________________ 50

3.5.2 Asociaciones léxicas compuestas

El descubrimiento de conocimiento en corpus o grandes bases de datos es

parte importante de lo que hoy se ha dado en llamar minería de datos. Existen

tres problemas fundamentales a resolver en este campo: Clasificación,

Búsqueda de Reglas de Asociación y Búsqueda de Secuencias [Frawley92].

Mientras la mayor parte de los trabajos se han dedicado a resolver el primer

problema, en 1994 Agrawal y Srikant presentaron el novedoso algoritmo

“APriori” [Agrawal94] para resolver el segundo problema. El algoritmo ha sido

aplicado a la búsqueda de asociaciones entre los productos comprados en un

supermercado, lo cual podía utilizarse para la toma de decisiones en cuanto a

la ubicación más conveniente como estrategia de mercado a seguir con el fin

de aumentar las ventas. El objetivo en todo algoritmo de búsqueda de reglas de

asociación es encontrar todas las reglas que satisfacen con la condición de

confidencia y soporte mínimos dada por el usuario, esto es necesario ya que de

otra manera la búsqueda se haría exhaustiva, encontrándose al final un

número tan grande de reglas generadas que podrían colapsar al sistema.

Cuando se desea realizar la búsqueda en grandes bases de datos como

sucede en minería de datos, se debe minimizar la cantidad de tiempo que se

emplea en acceder las mismas, ya que por lo general las operaciones de

acceso a disco son las más lentas del proceso. Un algoritmo como APriori

satisface estos requerimientos y de hecho se ha convertido en referencia

obligada en esta área. El objetivo del algoritmo es encontrar todos los

conjuntos frecuentes de ítems. La idea se basa en que si un conjunto de ítems

cumple con la condición de soporte mínimo, entonces todo subconjunto de este

también la cumplirá. Una vez obtenido un conjunto de ítems se revisa que

todos los subconjuntos de este, medidos en la iteración anterior, cumplan con

la condición de mínimo soporte . Si se encuentra alguno que no la cumple se

puede concluir, "a priori", que dicho conjunto no la cumplirá y por tanto no es

necesario medirlo. Esto evita mucha medición innecesaria, optimizando de esta

manera el tiempo total de acceso a la base de datos.

______________________________________________________________________

___________________________________________________________________ 51

Para el descubrimiento de asociaciones léxicas compuestas, por sentido de

WordNet, se adaptó el uso del algoritmo “a priori” de minería de texto en la

Web y en particular a nuestra problemática. La idea básicamente es a partir de

asociaciones simples construir asociaciones compuestas del tipo (sentido-i ->

palabra-x...palabra-y) aplicando las mismas medidas de fuerza y dispersión que

para las asociaciones léxicas simples. El objetivo es identificar además cuáles

palabras suelen presentarse con otras en el mismo contexto.

Para esta tarea, una vez obtenidas las asociaciones léxicas simples, volvemos

a leer el corpus, pero ahora identificamos aquellas líneas de contexto que

contienen a alguna de las palabras obtenidas como asociaciones léxicas

simples. Una vez identificada la línea que la contiene, se toman las palabras de

contexto y se incluyen en una tabla, de manera que al final tenemos una tabla

que contiene las palabras que acompañan en el contexto a las asociaciones

léxicas simples, así como su frecuencia. A este conjunto de palabras se les

aplican las medidas de fuerza y dispersión descritas en los apartados 3.3 y 4.4

respectivamente.

Las palabras obtenidas como asociaciones léxicas compuestas, ocupan una

posición variable dentro del contexto, es decir, no es condición que aparezcan

de manera contigua o en el mismo orden de aparición, lo que encontramos es

la ocurrencia de una palabra en el contexto de otra, que en un futuro nos

permitan obtener conclusiones del tipo “el 60% de las veces que aparece la

palabra x, aparece también la palabra y” en el contexto de un sentido de

WordNet determinado de una palabra polisémica.

______________________________________________________________________

___________________________________________________________________ 52

3.6 Secuencias

El uso de secuencias de palabras es común en prácticamente todos los

idiomas, dialectos o incluso áreas especificas del conocimiento. La presencia

de una secuencia ininterrumpida de palabras implica o sugiere la ocurrencia de

las demás palabras que componen a la secuencia. Esto hace que tengan un

gran potencial para las representaciones computacionales ya que por un lado

encontramos varias formas de análisis futuro que pueden ser fácilmente

recuperadas y por otro lado, el contar con expresiones de uso común del

lenguaje que nos permitan su incorporación en actividades del PLN, para

facilitar tareas como la desambiguación léxica de palabras.

Existen sistemas desarrollados que permiten hacer el análisis entre secuencias

ininterrumpidas de palabras, como el N-Gram Statistics Package1. Este sistema

permite el análisis de n-gramas en un corpus, tales como el cómputo de n-

gramas frecuentes y varias medidas estadísticas que permiten tener una

relación de la asociación entre dos o más palabras como información mutua y

ocurrencia. El algoritmo Xtract [Smadja93], realiza una medida de cohesión

entre palabras y permite identificar n-gramas contiguos frecuentes usando la

técnica explicada en [Choueka83]. Las secuencias ininterrumpidas de palabras

(también llamadas colocaciones) son una solución parcial al problema de la

desambiguación léxica de palabras, en este sentido existen métodos como el

desarrollado por [Smrz01] que considera las secuencias como grupos léxicos

unidos (agrupaciones) de palabras, donde la presencia de una o más palabras

de la secuencia implica o sugiere el resto de la misma. Este conocimiento

puede ser utilizado, por ejemplo, para determinar la probabilidad de ocurrencia

de un sentido entre varios sentidos atribuibles a una palabra polisémica,

analizando su contexto.

La importancia de localizar las secuencias ininterrumpidas de palabras por

sentido de WordNet está en poder usar esta información para obtener patrones

1 http://www.d.umn.edu/~tpederse/code.html

______________________________________________________________________

___________________________________________________________________ 53

léxicos. A su vez, los patrones léxicos encontrados nos permitirán saber la

probabilidad de ocurrencia de un sentido dependiendo del contexto así como

su posible integración en sistemas de desambiguación léxica.

Para la obtención de las secuencias ininterrumpidas de palabras, se hace de

manera automática un proceso iterativo que va cambiando el tamaño de

ventana, esto es, el número de palabras que se toman a la izquierda y de

derecha del sinónimo, de uno a cinco. Para cada tamaño de ventana el proceso

es el siguiente, se toma la palabra o palabras respetando su ubicación respecto

al sinónimo, es decir si esta a la izquierda o a la derecha. Todas las secuencias

ininterrumpidas empiezan o terminan con el sinónimo. Al final tenemos un

conjunto de tablas que nos muestra las secuencias de contexto a la izquierda y

derechas del sinónimo para los diferentes tamaños de ventana. Para cada una

se obtienen sus estadísticos.

Al igual que para las asociaciones léxicas, simples y compuestas, las

secuencias ininterrumpidas resultantes son filtradas y recuperamos sólo

aquellas que son significativas al sentido i-esimo de WordNet correspondiente.

Nos enfocamos al descubrimiento de secuencias ininterrumpidas, que

empiecen o terminen con alguno de los sinónimos que componen el sentido de

WordNet de la palabra polisémica que queremos desambiguar.

______________________________________________________________________

___________________________________________________________________ 54

Capítulo 4

Experimentación y resultados obtenidos

4.1 Introducción

En este capitulo presentamos los patrones léxicos obtenidos para dos palabras

polisémicas: instance y peak. Estas palabras se eligieron debido que tienen

varios sinónimos por sentido y en el caso de peak, además tiene varios

sentidos.

En la sección 4.1 presentamos la estructura propuesta para la conformación del

corpus formado a partir de la Web. La idea principal es contar con un formato

que nos facilite la recuperación posterior de la información. Las asociaciones

léxicas simples y compuestas, así como las secuencias ininterrumpidas se

muestran en la sección 4.2 .

4.2 La estructura del corpus

El conocimiento lingüístico incluye información morfológica, sintáctica y

semántica que puede aplicarse en el proceso de recuperación de información,

para por ejemplo, expandir la búsqueda con términos relacionados (p.ej. con

sinónimos), con el objetivo final de obtener un mayor número de ejemplos de

contexto de uso de un sentido de WordNet de una palabra polisémica. Con

esta información podemos saber, por ejemplo, qué palabra es usada con

cualquier otra en el uso cotidiano del lenguaje natural. En esta tarea como en

muchas otras del PLN se facilitan usando un corpus. Por las ventajas

explicadas en el capítulo 2, acerca del tamaño y lenguajes disponibles en la

Web, en este trabajo hemos decidido utilizar la Web como corpus, aunque

______________________________________________________________________

___________________________________________________________________ 55

también hemos utilizado los corpora CLEF y TREC, para analizar y comparar

los resultados obtenidos y apreciar de esta manera la potencialidad de la Web

como corpus.

Para la formación del corpus partimos de un sustantivo, polisémico en inglés,

del cual obtenemos sus sentidos en WordNet y, por cada sentido, tomamos los

sinónimos que lo componen. Se quiere usar la Web como fuente de datos para

la elaboración del corpus por sentido de WordNet usando como patrón de

búsqueda en Google todos los sinónimos correspondientes a cada sentido. Por

cada sinónimo de WordNet se bajan en promedio 1000 snippets desde la Web,

cada uno de ellos con la siguiente estructura: <?xml version="1.0" encoding="UTF-8"?> <element id="8"> <title>Case Western Reserve University</title> <snippet> Creative hands of Case artist have stitched messages from nature for Bonfoey Gallery exhibit. ... Case's accreditation self-study draft is open for comments. ... </snippet><url>http://www.case.edu/</url> </element> Los snippets son filtrados, eliminando caracteres especiales como ,,©,|,

etc, además se realiza un proceso de tokenización, descomposición de la frase

en palabras, por caracteres especiales, números y espacios en blanco de

cualquier tipo (espacio, tab, salto de línea, etc.). Las líneas que contienen a

alguno de los sinónimos que componen el sentido correspondiente son

detectadas y delimitadas por frases. En el caso del snippet mostrado, después

del filtrado quedaría de la siguiente manera:

Los snippets de todos los sinónimos que componen el sentido son

concatenados y almacenados en un archivo XML, por las ventajas que

presenta a la hora de recuperar la información para la búsqueda de secuencias

y asociaciones. La estructura del archivo se muestra en la figura 11.

case western reserve university creative hands of case artist have stitched messages from nature for Bonfoey Gallery exhibit case accreditation self study draft is open for comments

______________________________________________________________________

___________________________________________________________________ 56

Figura 11.- estructura del archivo XML de la palabra polisémica.

Como podemos observar en la estructura mostrada, se tienen las etiquetas

<palabra_ambigua>….</palabra_ambigua> que son las “etiquetas madre” o

“raíz”, de las cuales dependen todas las existentes dentro de la estructura y

que identifican a la palabra polisémica de la cual se quiere obtener sus

secuencias y asociaciones; el número de sentido, esta contenido entra las

etiquetas <palabra_sentido> …. </palabra_sentido>. Mientras que las etiquetas

<sinonimo>…..</sinonimo> encierran a los sinónimos de un sentido. Las

palabras de contexto del sinónimo se muestran entre las etiquetas

<izq>…</izq> y <der>…</der> que representan el contexto a la izquierda y

derecha respectivamente. Como se puede observar se limita a un tamaño de

ventana de 5 a cada lado del sinónimo.

El corpus por sentido de WordNet de la palabra polisémica es utilizado como

entrada para las siguientes 3 pasos de la metodología que fueron presentados

en el capítulo 3.

<?xml version="1.0" encoding="ISO8859-1"?> <palabra_ambigua id=”instance”> <palabra_sentido id=”instance” sense=”1”>

<sinonimo syn=”case”> <der>Western Reserve University </der>

<izq></izq> <der>artist have stitched messages from</der>

<izq>Creative hands of</izq> <der>accreditation self study draft is</der>

<izq></izq> . . </sinonimo> <sinonimo syn=”instance”>

. .

</sinonimo> <sinonimo syn=”example”>

. .

</sinonimo> . .

</palabra_sentido> <palabra_sentido id=”instance” sense=”2”>

. .

Palabra polisémica, de la cual se quieren obtener patrones léxicos

Sentidos en WordNet de la palabra polisémica.

Sinónimos que componen un sentido

______________________________________________________________________

___________________________________________________________________ 57

4.3 Análisis de los resultados preliminares

Presentamos en este apartado los resultados obtenidos aplicando la

metodología propuesta para los lexical samples: Intance y peak.

4.3.1 El caso de instance

Los sentidos de WordNet del sustantivo instance, son: 1. case, instance, example -- (an occurrence of something)

2. example, illustration, instance, representative -- (an item of information that is representative

of a type)

Usando como patrón de búsqueda en Google los sinónimos de cada sentido,

se bajaron snippets de la Web, para formar el corpus con la estructura

mostrada en el apartado 4.1. El número de snippets recolectados por sinónimo

fue 960 por sinónimo, en promedio, y se resume en la tabla 8. Tabal 8. - Número de snippets bajados de la Web para los sinónimos de Instance.

case 919 instance 924 example 983

illustration 987

representative 987

Con estos snippets se formaron 2 corpus, uno para cada sentido. El corpus

para el sentido 1 fue formado por la concatenación de 2826 snippets mientras

que el del sentido 2 se formo con 3881 snippets (tiene un sinónimo mas). En la

tabla 9 se muestra el resumen de los resultados obtenidos para el corpus

formado a partir de la Web para la palabra instance. El corpus del sentido 1 se

formó con 12,684 ejemplos de contexto de uso común encontrados en la Web,

mientras que el corpus del sentido 2 con 15,848 ejemplos de uso de los

sinónimos que componen el sentido.

______________________________________________________________________

___________________________________________________________________ 58

Tabla 9. - Resumen de estadísticas para Instance.

Sentido1 Sentido 2

Palabra: instance Web Web

Número de ejemplos de uso en el corpus 12684.0 15848.0

Número de palabras distintas 2831 3590

Media 4.5 4.4

Desviación estándar 7.3 7.5

Frecuencia de corte (media + d. estándar) 11.8 11.96

Número de palabras que superan medida 1 179 238



Como se puede apreciar, se encontraron 2831 palabras de contexto distintas

en los 12,684 ejemplos de uso para el sentido 1. De estas 179 superan la

frecuencia de umbral (frecuencia mayor a la frecuencia promedio mas la

desviación estándar). Las palabras que, además de haber superado la

frecuencia de umbral, se encuentran en el contexto de todos los sinónimos del

sentido 1 son 87. A manera de ejemplificar la medida de dispersión externa,

presentamos en la tabla 10, un conjunto de palabras comunes a los dos

sentidos de instance, estas palabras superaron la frecuencia de umbral. Sin

embargo como pertenecían a los dos sentidos al final fueron descartadas. Es

de resaltar el caso de “for” el cual, como se vera mas adelante, es recuperado

como secuencia ininterrumpida para el sentido 2 de instance. Tabla 10.- Palabras comunes antes de la medida de dispersión para instance.

All Here Page An Home Programs And How Project Application In Search Are Information See As Is Services By List Site Class More Source Description Name That Development Of The For On This From One Title group Or To

Al final tenemos 34 palabras que nos podrían ayudar a desambiguar la palabra

instance (25 para el sentido1 y 9 para el sentido 2), estas palabras se muestran

______________________________________________________________________

___________________________________________________________________ 59

en la tabla 11. El corpus que formamos a partir de la Web es pequeño, por el

número de snippets bajados. Sin embargo en pruebas realizadas con el corpus

CLEF encontramos 3,931 palabras distintas que además de superar la

frecuencia de umbral formaban parte del contexto de los sinónimos del sentido

1. Tabla 11.- Asociaciones léxicas simples para Instance

Sentido 1 Sentido 2 based java english case learning free code multiple government data net library date number link definition org members documents our resources example process section examples proposal software file server index use instance will It

En las asociaciones léxicas simples no es necesario que las palabras

significativas encontradas aparezcan de manera contigua a la palabra instance.

A manera de ejemplificar el uso de las palabras significativas asociadas con

instance, presentamos algunas oraciones de uso común. Con la intención de

reforzar la idea del uso de estas palabras en sistemas de desambiguación

léxica separamos los ejemplos por sentido. El primer sentido de instance se

relaciona con “la ocurrencia de algo”, mientras que el sentido 2 tiene que ver

con “un artículo de información que es representativo de un tipo”.

Sentido 1: …..another instance of the same process already running on the current machina…..

... Enforcing a rule that only one instance of process is running is an interesting task. ...

... instance of "second proposal for hierarchical resources"……

Each instance handles multiple VLANs that have the same Layer 2 topology. ...

... PRO: An excellent introduction to instance-based learning…

Sentido 2: ... ACTIVITY in this instance involves the use of government facilities and equipment for …

... 2 For instance, see House Committee on Government Reform, Minority Staff, Special...

______________________________________________________________________

___________________________________________________________________ 60

…. Another difference between instance members and class members is that class ….

….each section instance must be a source for at least one occurs and as an association….

Al ser los ejemplos presentados extractos de frases, aunado a que hablamos

de palabras ambiguas de por sí, se puede dar el caso de no discernir de

manera clara y concisa entre un sentido y otro. En este caso, bien cabría la

posibilidad de aumentar las palabras de contexto inmediato alrededor de la

palabra ambigua, instance en nuestro ejemplo , para tener una idea más clara

del sentido de la oración. Sin embargo, esta tarea no es fácil aun manualmente,

como comentario decir que en la competencia Senseval-2 hubo solo un 75% de

acuerdo entre anotadores humanos para el inglés.

Las asociaciones léxicas compuestas están basadas en reglas de asociación

de minería de datos. Los ejemplos clásicos de reglas de asociación son del

tipo “40% de las personas que realizaron compras en un supermercado

compraron pañales y 2% de estas compraron también cerveza”. Este tipo de

reglas son usadas para tomar decisiones que nos permitan por ejemplo

programar ofertas o incluso para colocar los productos en el supermercado, al

saber las preferencias de los clientes. En nuestro caso, debemos encontrar las

palabras que ocurren en el contexto de las palabras mostradas en la tabla 10,

no importando el orden en el que aparecen en el contexto, siempre que se

encuentren dentro del tamaño de ventana definido, en este caso de 10 (5

palabras a la izquierda y 5 a la derecha del sinónimo).

La idea con estas asociaciones es, en un futuro, ponderar de manera

probabilística la decisión de dar a una palabra polisémica un determinado

sentido, entre varios atribuibles, dependiendo de las palabras que tienen como

contexto, y así, poder obtener conclusiones del tipo “el 20% de las veces que

aparece based en el contexto de instance sentido 1 aparece también learning”.

En la tabla 12 se muestran las asociaciones léxicas compuestas para el sentido

1 de instance.

______________________________________________________________________

___________________________________________________________________ 61

Tabla 12.- Asociaciones léxicas compuestas para instance-1.

Learning use machine the multiple based learning learning based case algorithms or altro reasoning instance based will altro rising methods interest instance scenario number worst instance your proposal home supporting rates classifier case case studies the in instance the multiple based learning case example proposal source supporting a study documents a policy classifier java lang object

Podemos observar, por ejemplo, que learning tiene como asociaciones léxicas

compuestas a las palabras: machine, multiple, learning, based, algorithms, altro

e instance, en el sentido 1 de instance. Esto lo interpretamos como que cuando

aparece learning, en el contexto de intance, podemos además encontrar las

palabras obtenidas como asociaciones léxicas compuestas para la misma.

En la tabla 13 se muestran las asociaciones léxicas compuestas para el sentido

2 de instance. En estas tablas (12 y 13) podemos observar en la columna

izquierda algunas de las palabras obtenidas como asociaciones léxicas simples,

el hecho de que no estén todas se debe a que las palabras de contexto deben

superar la frecuencia de umbral, así las palabras que recuperamos, son

______________________________________________________________________

___________________________________________________________________ 62

aquellas que aparecen de manera recurrente en el contexto, sin importar su

ubicación en el mismo. Tabla 13.- Asociaciones léxicas compuestas para instance-2.

government mill stuart software ihnen erstklassige vektor layout fur and english instance library illustration

En la tabla 13 podemos ver por ejemplo, que goverment se encuentra asociado,

como asociación léxica compuesta, con mill y stuart, esto en el contexto de

instance sentido 2. Este tipo de conocimiento, como se puede apreciar, no

estaba explicito en las asociaciones léxicas simples y mucho menos en el

corpus y nos permite tener una idea clara de la ocurrencia de palabras en el

contexto de otras y así de decir que cuando aparece library en el contexto de

instance, es muy probable que aparezca además illustration, sin importar la

ubicación en el contexto de library ni de illustration, la única condición es que

estén ambas dentro del tamaño de ventana (10 en nuestro caso) definido.

En el caso de las secuencias ininterrumpidas de palabras en torno a los

sinónimos de instance, los resultados obtenidos para diferentes valores de

ventana (V) se muestran en la tabla 14, así como el número de secuencias

diferentes y el número de secuencias significativas para el corpus formado a

partir de la Web y para el corpus CLEF. Los valores negativos en la columna de

ventana representan en número de palabras tomadas a la izquierda.

______________________________________________________________________

___________________________________________________________________ 63

Tabla 14.- Secuencias ininterrumpidas para Instace en la Web y el CLEF.

Instance Sentido 1 Instance Sentido 2 Web CLEF Web CLEF V Diferentes Significativas Diferentes Significativas Diferentes Significativas Diferentes Significativas -5 13 3 1608 253 20 2 1608 253 -4 17 3 2476 344 29 4 2476 344 -3 20 3 3879 422 35 5 3879 693 -2 29 6 3829 693 60 12 4829 422 -1 62 14 5423 956 100 20 5433 1253 1 72 18 5843 1125 140 28 5332 1364 2 57 8 4510 796 89 18 4510 985 3 23 3 3344 999 61 9 3344 796 4 20 5 1874 289 40 6 1874 289 5 13 2 1306 111 33 5 1306 111

Podemos observar que el número de secuencias obtenidas en el corpus CLEF

es mucho mayor que las obtenidas con el corpus formado a partir de la Web.

Esto se debe a que el corpus CLEF es mucho mas grande, por lo que las

palabras ocurren con mayor frecuencia, sin embargo observamos que los

contextos de este corpus están mas limitado a un determinado grupo de

palabras de uso común. En experimentos realizados hubo palabras para las

que no encontramos una sola ocurrencia en el corpus CLEF. Esta comparación

nos deja clara la necesidad de aumentar el número de snippets bajados de la

Web para aumentar el tamaño del corpus y de esta menara tener mas ejemplos

de uso [Guzmán05b].

En la figura 12 se muestra la variación que existe en el número de secuencias

encontradas y el número de secuencias significativas al variar el tamaño de la

ventana (número de palabras que se toman a al izquierda y a la derecha del

sinónimo), para el corpus formado a partir de la Web de los sentidos de

instance. Como se puede observar el número de colocaciones, respecto al

tamaño de ventana, tiene una distribución casi normal.

______________________________________________________________________

___________________________________________________________________ 64

0102030405060

7080

-5 -4 -3 -2 -1 1 2 3 4 50

2040

60

80

100

120

140160

-5 -4 -3 -2 -1 1 2 3 4 5

Figura 12.- Relación entre las secuencias diferentes y las secuencias significativas de instance.

La correlación entre el número de secuencias y las secuencias significativas es

de 0.94. Este valor nos dice que en la medida en que aumentemos el número

de secuencias, aumentará el número de secuencias significativas, lo cual es de

esperar por la distribución que se presenta. Para una secuencia que ha

superado las medidas de fuerza y dispersión, a mayor frecuencia será más

significativa [Guzmán05a].

Las secuencias ininterrumpidas tienen la característica de empezar o terminar

con la palabra polisémica. La tabla 15 muestra las secuencias ininterrumpidas

a la izquierda de los dos sentidos de instance, esto es, las encontraremos en

expresiones de uso común tales como customers instance o graphic design

instance. Tabla 15.- Secuencias a la izquierda de instance

Las secuencias significativas a la derecha de instance, se muestran en la tabla

16. Estas secuencias las encontraremos en expresiones de uso común, tales

como instance design o instance studies case.

Secuencias Instance-2 Design Page layout Art Visual arts Bouchard Of the mouth Medical Proactive core component The Multimedia design gt Fanny bouchard Objectweb proactive core component Graphic design Illustration of the mouth

Secuencias instance-1

Customers Bottle Home Us party Name The bottle Party Studies customers Resources To the This The us party To In the bottle Tools

Sentido 1 Sentido 2

______________________________________________________________________

___________________________________________________________________ 65

Tabla 16.- Secuencias a la derecha de instance

Algunas expresiones de uso común, por sentido, para las secuencias

encontradas en las tablas 12 y 13 se muestran a continuación:

Sentido 1: ... To add a new database partition server to the instance TESTMPP on the instance-owning computer SHAYER, where the new database partition server is known as ... ... Choosing to add stopwords to the instance stoplist does not affect any documents…. ... The engineering activities vary with the technical complexity of the release, but in general include instance design activities, server build activities ... Sentido 2: ... the presence of given types of design instance configurations. ... ... Perhaps the most notorious instance of judicial activism is captured in the century-old Supreme Court case, Rector of the Holy Trinity Church v. United States. ... ... Different groups fill in different values for X - for instance government by the UN General Assembly, or North-South transfer taxes. ... En nuestro trabajo no hemos prescindido de las palabras de paro (stop words)

ya que algunas de estas juegan un papel importante en la asignación de un

sentido a una frase. Por ejemplo el caso de “for” la encontramos asociada de

manera significativa con el sentido 2 de instance y es usada en expresiones de

uso común como “for instance”; esta secuencia tiene un único sentido en

WordNet (su sentido hace referencia a un ejemplo) y se encuentra etiquetada

en el corpus semcor, en el cual aparece 21 veces, como lema con este sentido.

Mientras que instace aparece en el corpus semcor 22 veces como sustantivo,

18 con el sentido 1 y 4 con el sentido 2. Es claro que la cantidad de ejemplos

etiquetados son muy pocos y la necesidad de enriquecer los corpus es

evidente.

Secuencias instance-2 and a formal example with clients of the mouth in livres d enfants children for employees post a job is of the mouth illustration of the a formal example with a of a government by john stuart in the of the secretary general livres d enfants livres d enfants children books employees post a employees post a job and of judicial activism government by john stuart mill and fine art of the mouth illustration of of the secretary government by john

of next gt

Secuencias instance-1

design Code Edu western reserve index studies case Law studies catalogs studies studies in study western reserve university western studies catalogs resources

______________________________________________________________________

___________________________________________________________________ 66

4.3.1 El caso de Peak

La segunda palabra seleccionada para mostrar los resultados obtenidos con la

metodología propuesta es la palabra peak , los sentidos de WordNet de esta

palabra se muestran a continuación. 1. extremum, peak -- (the most extreme possible amount or value)

2. flower, prime, peak, heyday, bloom, blossom, efflorescence, flush -- (the period of greatest

prosperity or productivity)

3. acme, height, elevation, peak, pinnacle, summit, superlative, top -- (the highest level or

degree attainable)

4. peak, crown, crest, top, tip, summit -- (the top point of a mountain or hill)

5. point, tip, peak -- (a V shape)

6. vertex, peak, apex, acme -- (the highest point (of something)

7. bill, peak, eyeshade, visor, vizor -- (a brim that projects to the front to shade the eyes)

En promedio se bajaron 960 snippets de la Web por cada sinónimo,

aproximadamente el tiempo que se tarda en bajar los snippets de un sinónimo

y hacer el corpus con la estructura mostrada en el apartado 4.1 son 3 minutos.

En la tabla 16 se muestra el resumen de los resultados obtenidos para el

corpus formado a partir de la Web para peak. Se Eligio esta palabra por tener

7 sentidos y varios sinónimos por sentido, se puede apreciar en la tabla 17,

como se incrementa el número de ejemplos de uso en el corpus en proporción

directa al número de sinónimos que componen al sentido. Por ejemplo para el

sentido 1 (formado por 2 sinónimos) encontramos 7624 ejemplos de uso de los

sinónimos que componen al sentido 1, mientras que para los sentidos 2 y 3

(formado por 8 sinónimos cada uno) encontramos 42.066 y 49196

respectivamente. Tabla 17.- Resumen de estadísticas para peak .

palabra/sentido: peak S 1 S 2 S 3 S 4 S 5 S 6 S 7

Número de ejemplos de uso en el corpus 7624 42066 49196 26895 11684 32772 22279

Número de palabras distintas 2279 7881 8359 5770 3127 6202 5516

Media 3.3 5.3 5.9 4.7 3.7 5.3 4.04

Desviación estándar 4.9 10.9 10.1 9.1 6.6 8.2 7.75

Frecuencia de corte (media + d. estándar) 8.2 16.2 16 13.8 10.3 13.5 11.8

Número de palabras que superan medida 1 136 414 521 326 173 465 278



______________________________________________________________________

___________________________________________________________________ 67

Al ser mayor el número de ejemplo de uso, la cantidad de palabras que tienen

una frecuencia mayor que la frecuencia de umbral también es mayor. Sin

embargo cuando entra la medida de dispersión interna las proporciones

cambian, ya que debemos seleccionar ahora solo las palabras que forman

parte del contexto de todos los sinónimos, además de tener una frecuencia

mayor que el umbral. La medida de dispersión, por ser varios sentidos, hace

que el número de palabras asociadas de manera significativa a cada uno de los

sinónimos sea aun menor.

Con este ejemplo podemos por un lado ver como al aumentar el tamaño del

corpus, aumenta el número de ejemplos de contexto de uso de los sinónimos

que componen al sentido, lo que hace que aumente el número de palabras

diferentes de contexto así como el número de palabras que superan la medida

de frecuencia estipulada como umbral. Pero por otro lado nos sirve también

para apreciar como en la medida que el número de sinónimos que componen a

un sentido aumenta, disminuye el número de palabras comunes de contexto y

disminuye aun más el número de palabras vinculadas con los sinónimos de

manera significativa en la medida en que aumenta el numero de sentidos de la

palabra polisémica. En la tabla 18 se muestran las 99 palabras significativas

encontradas para los sentidos de peak. Tabla 18.- Asociaciones léxicas simples para peak .

Peak

sentido 1 sentido

2

sentido

3

sentido 4 sentido 5 sentido 6 sentido 7

if will america media jobs center industrial modified electronics high accessories

global most based university magazine call pacific provides virtual system der

seeking series great science en consulting parent edit studio usa bill

properties time die please district computer review industry price date

extremum sites main prices fax corp equipment version

framework do pages class been used club

conditions updated mail corporation personal support programs

networks community estate way communications books process

large college digital business performance its data

training sports profile pm engineering best full

download north day nov technical

public electronic set standard

line art und case

______________________________________________________________________

___________________________________________________________________ 68

Las asociaciones léxicas compuestas para los 7 sentidos de peak se muestran

en la tabla 19. Tabla 19.- Asociaciones léxicas compuestas para peak .

sentido 1 sentido 2 sentido 3 sentido 6 if series america center modified is postcard of co description seeking of center size control a vertex last of book consulting name properties barker business edit and mary hauptstr edit extremum flower sungen a extremum fairies deutschland been form cicely seinen has maximum time computer performance is reading security is in prime labs the probs the research performance and time services and mail family index training lecture of pages communications estimators for white acme minp is pages inc framework in yellow voice for freeware phone engineering a radio mail college large a e products feedback order set very digital trade for dvd electronics multicast inc home training player dvd performance digital studio estate tattoo

sentido 4 sentido 5 sentido 7 real parlor university jobs bill public daray of nov eyeshade members acme science rebecca fighting java support in suspending words lang company technology rating vizor classvertex legal and wells economy vertex support do batch in object apex at out page methods standard just magazine to class vertex disk tip crown class radio it of brim vertex in solskogen en and public standard music ven topic include products cover district visor reference yaesu national peak a pilot park click of vxa holiday activate lt case guide projection corporation study district of link north cottages timeline corporation carolina peak united news business seinen hauptstr consulting sungen deutschland und

______________________________________________________________________

___________________________________________________________________ 69

Capítulo 5 Conclusiones y trabajo futuro

5.1 Conclusiones

En este trabajo de investigación presentamos un método de extracción de

patrones léxicos que, para una palabra dada, nos permite encontrar

asociaciones y secuencias significativas relacionadas con uno de sus sentidos

de WordNet, a partir de un corpus formado de la Web. Los primeros

experimentos realizados muestran la potencialidad de la Web como corpus

lingüístico. Además, que la incorporación de los patrones léxicos extraídos en

sistemas de desambiguación es viable.

Nuestra principal contribución es la búsqueda en la Web de patrones léxicos

significativos a cada uno de los sentidos de WordNet de una palabra polisémica,

a través de criterios de filtrado que nos permiten obtener los conjuntos de

palabras asociadas, así como las secuencias ininterrumpidas de palabras. Los

resultados preliminares presentados en este trabajo de investigación son para

sustantivos en inglés, sin embargo, la metodología puede ser aplicada a las

otras categorías morfosintácticas, así como a otros idiomas, siempre que en

estos idiomas exista una base de datos léxica, como WordNet para el inglés,

que nos permita saber los sentidos atribuibles a una palabras polisémica.

La metodología presentada, además, se puede aplicar a corpora finitos. En la

sección 4.3. se muestran las secuencias ininterrumpidas de palabras para la

palabra instance, obtenidas tanto del corpus de la Web como con el corpus

CLEF. La comparación nos deja clara la necesidad de aumentar el tamaño del

corpus de la Web, esto es, colectar más ejemplos de contextos de uso de los

sinónimos de la palabra polisémica en la Web. Una idea clara del potencial de

la Web como recurso lingüístico en la búsqueda de secuencias se muestra en

la tabla 7, en la cual se presenta el número de ocurrencias encontradas en un

corpus finito y en la Web, de secuencias ininterrumpidas, en tres años distintos.

Presentamos a continuación el estado actual de la investigación seguido de las

actividades futuras.

______________________________________________________________________

___________________________________________________________________ 70

5.2 Estado actual de la investigación

Hasta el momento, se han desarrollado las siguientes tres etapas del trabajo de

investigación.

Etapa 1.- Descubrimiento de asociaciones léxicas simples por sentido.

Para esta actividad se eligió un conjunto de 14 palabras polisémicas y se

implementaron los algoritmos que permiten descubrir asociaciones léxicas

simples por sentido usando la Web como corpus . Esta tarea se realizó usado

una ventana de tamaño 10 (5 y 5 alrededor del sinónimo). La salida del

algoritmo es un conjunto de palabras asociadas de manera significativa al

sinónimo correspondiente, estas asociaciones son del tipo (sentido i è palabra

x).

Las palabras seleccionadas como significativas superan tres medidas que nos

permiten filtrar las palabras menos significativas al sinónimo, estas medidas

son:

-Fuerza (un patrón léxico es candidato a ser relevante si supera la frecuencia

de umbral o de corte mayor a la frecuencia promedio más la desviación

estándar).

-Dispersión local (las palabras que superan la medida anterior, deben además

estar en el contexto de todos los sinónimos que componen al sentido

correspondiente).

-Dispersión externa (una palabra es relevante si aparece sólo en un sentido,

esto es, son descartadas todas aquellas palabras que aparecen en más de un

sentido.

Con estas medidas hemos intentado extraer aquellos patrones léxicos que se

encuentran fuertemente ligadas al sentido de WordNet correspondiente.

Se realizaron además experimentos usando los corpora CLEF y TREC para

algunas palabras, con la idea de tener un parámetro de comparación entre

______________________________________________________________________

___________________________________________________________________ 71

ellos. Así como con la Web para investigar la viabilidad y pertenencia de la

misma.

Etapa 2.- Descubrimiento de asociaciones léxicas compuestas por sentido

En esta etapa, se instrumentó el algoritmo “a priori” de data mining, y se adaptó

su uso a la Web y en particular a nuestra problemática. El objetivo de esta

etapa es descubrir asociaciones léxicas compuestas, del tipo (sentido-i ->

palabra-x...palabra-y), partiendo de asociaciones léxicas simples y aplicando

las medidas de fuerza y dispersión descritas. Se realizaron experimentos

usando tanto el corpus formado a partir de la Web, como los corpora CLEF y

TREC usando técnicas de minería de datos para extraer las asociaciones

léxicas compuestas. La idea básicamente es a partir de asociaciones simples

construir asociaciones compuestas aplicando las mismas medidas de fuerza y

dispersión tanto para la Web como para el CLEF o TREC.

Etapa 3.- Descubrimiento de secuencias léxicas por sentido.

En los experimentos realizados se tomó un tamaño de ventana de 1 a 5, esto

es el número de palabras que se toman a la derecha y a la izquierda del

sinónimo. Todas las secuencias ininterrumpidas de palabras deben empezar o

terminar con el sinónimo. Empezamos tomando una palabra a la izquierda y

una a la derecha y así de manera sucesiva hasta 5. Al igual que las etapas 1 y

2, las secuencias ininterrumpidas son filtradas para quedarnos sólo con las

secuencias que son significativas al sentido en cuestión aplicando las mismas

medidas de fuerza y dispersión. Se hicieron experimentos para el corpus

formado a partir de la Web como para los corpora CLEF y TREC.

______________________________________________________________________

___________________________________________________________________ 72

5.3 Actividades futuras

Actualmente, la medida de dispersión interna, es muy rígida ya que filtra las

palabras que no estén en el contexto de todos los sinónimos que componen al

sentido, independientemente de su frecuencia, lo que tal vez ocasione que

patrones léxicos significativos queden fuera del análisis. Por esta razón es

deseable implementar una ponderación que le de peso a las ocurrencias de

palabras de contexto de cada sinónimo basada en la frecuencia, aun y que no

aparezca en el contexto de todos los sinónimos del sentido. De esta manera se

podría asignar un valor probabilístico al discernir por un sentido, entre varios

sentidos atribuibles a una palabra polisémica, en función del peso del contexto

de los sinónimos que lo componen. Otra acción deseable es el utilizar la

metodología presentada por un lado a las demás categorías morfosintácticas y

por el otro aplicarla en otra lengua, por ejemplo el castellano, en la cual

podamos usar como recurso léxico externo EuroWordNet.

Se quiere además, integrar los patrones léxicos descubiertos con técnicas de

minería, en sistemas de desambiguación léxica, por ejemplo incluyéndolos en

el sistema basado en densidad conceptual con la idea de enriquecer el

contexto de las palabras a desambiguar.

A continuación se presenta un desglose de las actividades por etapa:

Etapa 4.- incremento del tamaño del corpus, colectando más ejemplos de la

Web. El objetivo es bajar más ejemplos de contextos de uso común de los

sinónimos que componen los sentidos, para poder, de esta forma identificar los

contextos usados con cada uno de ellos.

Etapa 5.- Aplicación de la metodología presentada en la extracción de patrones

léxicos para otras categorías morfosintácticas. El objetivo es recuperar

patrones léxicos pero no sólo para sustantivos, si no incluir además adjetivos,

verbos y adverbios.

______________________________________________________________________

___________________________________________________________________ 73

Etapa 6.- Aplicar la mitología a las palabras de la tarea lexical sample de

Senseval-3. El objetivo es obtener asociaciones y secuencias para este

conjunto de palabras tanto del corpus formado a partir de la Web como de los

corpora CLEF y TREC.

Etapa 7.- Integración de los patrones léxicos encontrados en varios sistemas

de desambiguación léxica. El objetivo tratar de mejorar las prestaciones que

ofrecen los sistemas de desambiguación de tanto supervisados como no

supervisados usando los patrones léxicos descubiertos.

Etapa 8.- Descubrir asociaciones y secuencias pero de las otras categorías

morfosintácticas e integrar dichos patrones léxicos en sistemas de

desambiguación del sentido de las palabras. El objetivo es repetir las etapas 2,

3 y 7 e integrar los patrones léxicos obtenidos en sistemas de desambiguación

del sentido de las palabras, tanto supervisados como no supervisados, y ver en

que porcentaje aumentan sus prestaciones al usar los patrones léxicos

obtenidos.

Etapa 9.- Descubrir asociaciones y secuencias entre synsets, utilizando sólo

textos etiquetados semánticamente . El objetivo es encontrar reglas de

asociación entre synsets y probar el impacto de nuevas conexiones semánticas

en el desempeño del método de densidad conceptual.

Etapa 10.- Enriquecimiento del corpus de entrenamiento con los patrones

obtenidos para los lexical sample en la etapa 7. el objetivo es comparar las

prestaciones (precisión y recall) de algunos de los métodos supervisados

(Bayes, modelos ocultos de Markov, vector machina, árboles de decisión, etc.)

entrenados con el corpus enriquecido.

Etapa 11.- Aplicación de la metodología propuesta a otros idiomas (por ejemplo

el castellano). El objetivo es encontrar patrones léxicos para palabras

polisémicas en castellano, usando EuroWordNet como recurso de

conocimiento externo y utilizar los patrones léxicos obtenidos con sistemas de

______________________________________________________________________

___________________________________________________________________ 74

desambiguación léxica y hacer un análisis del comportamiento de sus

prestaciones.

5.4 Cronograma

Cronograma 2005 2006 2007

Etaopa/mes Feb

Mar

Abr

May

Jun

Jul

Ago

Sep

Oct

Nov

Dic

Ene

Feb

Mar

Abr

May

Jun

Jul

Ago

Sep

Oct

Nov

Dic

Ene

Feb

Etapa 1

Etapa 2

Etapa 3

Etapa 4

Etapa 5

Etapa 6

Etapa 7

Etapa 8

Etapa 9

Etapa 10

Lectura Tesis

______________________________________________________________________

___________________________________________________________________ 75

Referencias

[Agrawal94] Agrawal R. y Srikant R., Fast algorithms for mining

association rules, VLDB-94, 1994.

[Aguirre96] Aguirre E. y Rigau G., A Proposal for Word Sense

Disambiguation using Conceptual Distance, Recents

advances in natural language processing, 1996.

[Baeza04] Baeza-Yates R., Challenges in the interaction of information

retrieval and natural lenguaje processing, CICLing, Mexico,

2004.

[Cavagliá01] Cavagliá G. y Kilgarriff A., Corpora from the Web,

Procedings 4th Annual CLUCK Colloquium, pp. 120-124,

2001.

[Celina03] Celina S., Gonzalo J. y Verdejo F., Automatic association of

web directories with word senses, Computacional

Linguistics, Volume 29, Number 3, pp.485-502, 2003.

[Choueka83] Choueka, Y., Klein, S. T., y Neuwitz, E. Automatic retrieval

of frequent idiomatic and collocational expressions in large

corpus, Association for Literary and Linguistic Computing

Journal 4(1):34–38, 1983.

[Decadt03] Decadt B., Hoste V., Daelemans W.: GAMBL, Genetic

Algorithm Optimization of Memory Based WSD, 3th

International conference, SENSEVAL-3, Barcelona España,

2004.

[Diab02] Diab M. y Resnik P., An unsupervised method for word

sense tagging using parallel corpora, Proc. 40th Annual

Meeting of the association for computational linguistics,

2002.

[Etzioni96] Etzioni O., The World Wide Web: Quagmire or Gold Mine?,

Communications of the ACM, Vol.39, No.11, pp. 65-68,

1996.

[Frawley92] Frawley W. y Piatesky-Shapiro G., Knowledge Discovery in

Databases: An Overview, AI Magazine, pag. 213-228, 1992.

______________________________________________________________________

___________________________________________________________________ 76

[Guzmán05a] Guzmán Cabrera R., Montes-y-Gomez M., Rosso P.,

Searching the Web for word sense collocations, IADIS

international conference, Algarve, Portugal, Febrero, 2005

[Guzmán05b] Guzmán Cabrera R., Rosso P., Montes-y-Gomez M.,

Gomez-Soriano J.M., Mining the Web for word sense

discrimination, Information and communication technologies

international symposium, Tetuan, Marruecos, Junio, 2005

[Ide98] Ide N. y Véronis J., Introduction to the Special Issue on

Word Sense Disambiguation: The State of the Art,

Computational Linguistics. Special Issue on Word Sense

Disambiguation, 24(1), 1 -40, 1998.

[Kilgarriff97] Kilgarriff A., I Don´t Believe in Word Senses, Computers

and the Humanities, 31(2),1997.

[Kilgarriff01] Kilgarriff A. y Palmer M., Introduction to the Special Issue

on SENSEVAL, Computers and the Humanities, 34 (1-2),

2001.

[Kilgarriff03] Kilgarriff A. y Greffenstette G., Introduction to the Special

Issue on Web as Corpus, Computational Linguistics 29(3),

pp.1-15, 2003.

[Kosala00] Kosala R. y Blockeel H., Web mining research: a survey,

SIG KDD Explorations, Vol. 2, pp. 1-15,2000.

[Lesk86] Lesk M.: Automatic sense disambiguation using machine-

readable directories: how to tell a pine cone from an ice

cream cone, Proc. SIGDOC conference, Canada, 1986.

[Mihalcea99] Mihalcea R. y Moldovan D., Automatic Acquisition of Sense

Tagged Corpora, Proceedings of Flairs '99, 1999.

[Mihalcea01] Mihalcea R. y Moldovan D.: A highly accurate bootstrapping

algorithm for word sense disambiguation, International

journal on artificial intelligence tools, 10(1-2), pp 5 -21, 2001.

[Mihalcea04] Mihalcea R., Making Sense Out of the Web, Workshop on

Lexical Resources and the Web for Word Sense

Disambiguation, IBERAMIA, Mexico, 2004.

[Miller 94] Miller, G.A., M. Chodorow, S. Landes, C. Leacock y R.G.

Thomas (1994), “Using a semantic concordance for sense

______________________________________________________________________

___________________________________________________________________ 77

identification”, en Proceedings of the ARPA Workshop on

Human Language Technology, 240-243, Plainsboro, NJ

[Miller95] Miller A., Wordnet: A lexical Database for English,

Comunications of the ACM, 38 (11): 39-41, 1995.

[Molina02] Molina A., Pla F., Segarra E., Moreno L.: Word sense

disambiguation using statistical models and wordnet, Proc.

3ed International conference on language resources and

evaluation, LREC2002, España, 2002.

[Molina04] Molina A., Desambiguación en procesamiento del lenguaje

natural mediante técnicas de aprendizaje automático, Tesis

doctoral, Dep. Sistemas Informáticos y Computación,

Universidad Politécnica de Valencia, 2004

[Montes00] Montes-y-Gómez M., López-López A. y Gelbukh A.,

Information Retrieval with Conceptual Graph Matching, 11th

International Conference on Database and Expert Systems

Applications DEXA 2000, Springer-Verlag, 2000.

[Montes02] Montes y Gómez M., Minería de Texto empleando la

Semejanza entre Estructuras Semánticas, Tesis Doctoral,

Centro de investigación en computación (CIC), Instituto

Politécnico Nacional (IPN), México, 2002.

[Montoyo00] Montoyo A., Método basado en marcas de especificidad

para WSD, Procesamiento del Lenguaje Natural, 24, 2000.

[Montoyo02] Montoyo A., Desambiguación léxica mediante marcas de

especificidad, Tesis Doctoral. Dep. de Lenguajes y

sistemas informáticos, Universidad de Alicante, 2002.

[Nica04] Nica M.L, El conocimiento lingüístico en la desambiguación

semántica automática, Tesis Doctoral, Facultad de filología

Departamento de Lingüística General, Universidad de

Barcelona, 2004.

[Pustejovsky96] Pustejovsky, J. y Boguraev B., Introduction: Lexical

Semantics in Context, Lexical Semantics: The Problem of

Polysemy, Oxford University Press, Oxford, 1996.

______________________________________________________________________

___________________________________________________________________ 78

[Rada89] Rada R., Mili H., Bicknell E., Blettner M.: Development an

application of metric on semantic nets. IEEE transantions

on systems, man and cibernetics, 19(1):17-30, 1989.

[Resnik00] Resnik P. y Yarowsky D., Distinguishing Systems and

Distinguishing Senses: New Evaluation Methods for Word

Sense Disambiguation, Natural Language Engineering 5(2),

113-133, 2000.

[Rosso03] Rosso P., Masulli F., Buscaldi D., Pla F., Molina A.:

Automatic noun sense disambiguation, Proc. CICLing 2003.

Lecture Notes in Computer Science, Apringer-Verlag, pp

275-278, 2003.

[Rosso05] Rosso P., Montes y Gomez M., Buscaldi D., Two web-

based approaches for noun sense disambiguation., CICLing,

pp 261-273, 2005.

[Smadja93] Smadja F., Retrieving collocations from text: Xtract,

Computational Linguistics. 7(4),143–177, 1993.

[Smrz01] Smrz P., Finding Semantically Related Words in Large

Corpora, FIMU Report Series:Masaryk University, 2001.

[Suárez02] Suárez A. y Palomar M., A maximum entropy-based word

sense disambiguation system, Proc. International

conference on computational linguistics (COLING-02),

Taipei, Taiwan, 2002.

[Sussna93] Sussna M.: Word sense disambiguation for free text

indexing using a massive semantic network, Proc. 2nd

International conference on information and knowledge

management, Airlington, Virginia, 1993.

[Véronis98] Véronis J., A study of polysemy judgements and inter-

annotator agreement, Programme and advanced papers of

the Senseval workshop, 1998.

[Véronis02] Véronis J., Sense tagging: does it make sense?, ACL-

Workshop on Word Sense Disambiguation, 2002.

[Volk01] Volk M.: Exploiting the WWW as a corpus to resolve PP

attachment ambiguities, Proc. Corpus Linguistics, Lancaster,

2001.

______________________________________________________________________

___________________________________________________________________ 79

[Volk02] Volk M., Using the web as a corpus for linguistic research,

publications of the Department of General Linguistics,

University of Tartu, 2002.

[Weaver55] Weaver, W., Translation, Machine Translation of

Languages, John Wiley & Sons, 15-23, 1955.

[Wilks90] Wilks Y., Fass D., Cheng-Ming Gou, McDonald J.E., Plate

T., Slator B.: Providing machine tractable dictionary tools,

Semantics and the lexicon MIT Press, 1990.

[Yarowsky92] Yarowsky D., Word sense disambiguation using statistical

models of Roget´s categories trained on large corpora, Proc.

14th international conference on computational linguistics,

COLING, France, 1992.

Descubrimiento de patrones léxicos en la Web para su...

Documents

Transcript of Descubrimiento de patrones léxicos en la Web para su...