L INGÜÍSTICA COMPUTACIONAL UNIDAD 2. AMBIGÜEDAD SEMÁNTICA Ana María Tangarife Patiño.

27
LINGÜÍSTICA COMPUTACIONAL UNIDAD 2. AMBIGÜEDAD SEMÁNTICA Ana María Tangarife Patiño

Transcript of L INGÜÍSTICA COMPUTACIONAL UNIDAD 2. AMBIGÜEDAD SEMÁNTICA Ana María Tangarife Patiño.

Page 1: L INGÜÍSTICA COMPUTACIONAL UNIDAD 2. AMBIGÜEDAD SEMÁNTICA Ana María Tangarife Patiño.

LINGÜÍSTICA COMPUTACIONALUNIDAD 2. AMBIGÜEDAD SEMÁNTICA

Ana María Tangarife Patiño

Page 2: L INGÜÍSTICA COMPUTACIONAL UNIDAD 2. AMBIGÜEDAD SEMÁNTICA Ana María Tangarife Patiño.

SEMÁNTICA COMPUTACIONAL La Semántica es central en el tratamiento computacional del

lenguaje.

“Es el ideal al cual aspira todo el que se dedica al procesamiento del lenguaje natural”, ya que, si queremos una “máquina parlante”, el dominio del significado es fundamental para lograr una interpretación del contenido de un texto.

T. Badia (2003:231-232) Esta área presenta las mayores dificultades por:

En Lingüística no existe una propuesta general, como ocurría con la sintaxis, que sea apta para su tratamiento computacional.

La suma del significado de las partes no garantiza en ocasiones una interpretación adecuada.

Page 3: L INGÜÍSTICA COMPUTACIONAL UNIDAD 2. AMBIGÜEDAD SEMÁNTICA Ana María Tangarife Patiño.

SEMÁNTICA COMPUTACIONAL La Semántica, en términos generales, se ocupa de:

El significado de las palabras: los contenidos asociados a cada palabra individual, cómo se obtienen, organizan y codifican para contribuir al proceso de interpretación.

El significado de las oraciones: los contenidos derivados de la combinación de las diferentes palabras en una unidad mayor

El significado del discurso: los contenidos que se desprenden de la combinación de unas oraciones con otras en un marco superior, el del discurso

Page 4: L INGÜÍSTICA COMPUTACIONAL UNIDAD 2. AMBIGÜEDAD SEMÁNTICA Ana María Tangarife Patiño.

COMPONENTES DE LA SEMÁNTICA COMPUTACIONAL

Sistema de representación conceptual: lenguaje manipulable por ordenador a partir de formalismos

Módulo de traducción relacionar las expresiones de una lengua natural con el lenguaje en que esté expresada la representación conceptual.

Transformación de representaciones conceptuales en entidades y relaciones de un dominio determinado.

Page 5: L INGÜÍSTICA COMPUTACIONAL UNIDAD 2. AMBIGÜEDAD SEMÁNTICA Ana María Tangarife Patiño.

PROBLEMAS DE LA SEMÁNTICA COMPUTACIONAL ¿Qué es el significado? Determinar la naturaleza de la relación entre el

significado de una oración y el significado de los constituyentes sintácticos que la conforman

Cómo representar el significado y definir la naturaleza de la interfaz entre sintaxis y semántica, si se parte de una postura que concibe el proceso de interpretación vinculado al análisis sintáctico.

Determinar el papel de los factores contextuales y discursivos en la interpretación final del significado de una oración.

Otros problemas Homonimia Polisemia Ambigüedad estructural Ambigüedad en la referencia de los pronombres Etc.

Page 6: L INGÜÍSTICA COMPUTACIONAL UNIDAD 2. AMBIGÜEDAD SEMÁNTICA Ana María Tangarife Patiño.

HOMONIMIA Y POLISEMIA

Homonimia y polisemia son situaciones en las que un conjunto de letras, o de sonidos, tiene varios significados. Se diferencian por la forma en la que esto ha llegado a ocurrir.

Las diferencias son más de orden etimológico.

Page 7: L INGÜÍSTICA COMPUTACIONAL UNIDAD 2. AMBIGÜEDAD SEMÁNTICA Ana María Tangarife Patiño.

HOMONIMIA

(Del latín homonymus, que a su vez procede del griego homōnymos: homo- 'mismo' + ōnymos 'nombre').

Dos palabras de etimologías completamente distintas han llegado a tener "el mismo nombre", el mismo significante, la misma forma, pero, evidentemente, por ser palabras diferentes, sus significados siguen siendo completamente distintos. Ejemplo: Hay una sola forma vino para 1. vino

(llegó) y 2. vino (bebida).

Page 8: L INGÜÍSTICA COMPUTACIONAL UNIDAD 2. AMBIGÜEDAD SEMÁNTICA Ana María Tangarife Patiño.

HOMONIMIA

Palabras homógrafas: Son aquellas que se escriben de la misma manera: Tomó una copa de vino (nombre común, masculino,

singular). Él vino desde Sevilla (verbo venir). Palabras homófonas: Se pronuncian de la

misma manera pero se escriben de distinta forma: Él tuvo un accidente. (verbo tener). El tubo es de

cobre. (nombre común, masculino, singular). Dado el relativo paralelismo entre expresión escrita

y hablada del español, y la existencia de pocas letras que se pronuncian igual (como 'b' y 'v' o, en determinadas circunstancias, 'c' y 'z'), las palabras homófonas son relativamente raras en este idioma.

Page 9: L INGÜÍSTICA COMPUTACIONAL UNIDAD 2. AMBIGÜEDAD SEMÁNTICA Ana María Tangarife Patiño.

POLISEMIA

(del griego polys = mucho, muchos y sema = significado) es el fenómeno por el que una misma palabra, con un solo origen, puede tener diferentes significados cuyo funcionamiento morfológico y sintagmático no varía (esto último quiere decir que no cambia su categoría gramatical ni las funciones sintácticas que puede desempeñar).

Los distintos significados son diversas acepciones de una misma palabra. Por ejemplo:

Sierra es una herramienta para cortar madera, así como una cordillera de montañas. Falda es una prenda de vestir femenina, así como la parte baja de un monte.

Page 10: L INGÜÍSTICA COMPUTACIONAL UNIDAD 2. AMBIGÜEDAD SEMÁNTICA Ana María Tangarife Patiño.

DISTINCIÓN ENTRE HOMONIMIA Y POLISEMIA

La diferencia fundamental está en el origen de las palabras, es decir, en su etimología.

Las homónimas tienen etimologías distintas

Las polisémicas tiene un mismo origen, cuyo significado se ha diversificado con el paso del tiempo.

Page 11: L INGÜÍSTICA COMPUTACIONAL UNIDAD 2. AMBIGÜEDAD SEMÁNTICA Ana María Tangarife Patiño.

DESAMBIGUACIÓN AUTOMÁTICA

Se refiere a los mecanismos, herramientas y modelos de representación usados para evitar la ambigüedad en sistemas de recuperación de información.

Necesidad de disponer de criterios para identificar y representar sentidos de palabras.

La interpretación de los fenómenos lingüísticos para el tratamiento automático de la lengua permite conocer los sentidos correctos de los componentes complejos del término en las lenguas para traducción automática o recuperación de información

Page 12: L INGÜÍSTICA COMPUTACIONAL UNIDAD 2. AMBIGÜEDAD SEMÁNTICA Ana María Tangarife Patiño.

PARA DESAMBIGUAR SENTIDOS...

Seguir un proceso de análisis e identificación del concepto correcto (sentido) para cada componente de un término,

Determinar las relaciones semánticas entre los conceptos

Construir un modelo conceptual complejo de un dominio en el cual se represente el discurso.  

Page 13: L INGÜÍSTICA COMPUTACIONAL UNIDAD 2. AMBIGÜEDAD SEMÁNTICA Ana María Tangarife Patiño.

EL TRATAMIENTO DE LA AMBIGÜEDAD CONTEMPLA:

Representación de un problema: cómo las diversas interpretaciones pueden ser representadas en un sistema

Interpretación del problema: qué estrategias se siguen cuando aparece una ambigüedad para determinar una u otra interpretación.

Definir método: integración de mapas conceptuales, ontologías, descripción automática de patrones verbales definitorios, categorizaciones verbales

Page 14: L INGÜÍSTICA COMPUTACIONAL UNIDAD 2. AMBIGÜEDAD SEMÁNTICA Ana María Tangarife Patiño.

DESAMBIGUACIÓN PROPUESTA EN ONTOLEARN1.Crear redes semánticas

Representen y establecer relaciones de hiperonimia, hiponimia, holonimia, cualidad, asunto, etc. que tienen los términos.

Identifica una intersección de tal forma que dependiendo del número y del tipo semántico de las palabras, se identifiquen y conecten los patrones centrales de la red semántica.

2. Representar las intersecciones Evaluar parejas de conceptos a partir de algoritmos para determinar las

relaciones correctas dentro de un corpus. Analizar para cada intersección las dependencias según el número y el

tipo semántico de los patrones que conectan conceptos en la red semántica.

Los patrones semánticos están definidos en 13 meta-patrones predefinidos.

3. Hallar las relaciones taxonómicas entre conceptos Eliminar ambigüedades independientemente usando Wordnet. Asociando los synset de WordNet con cada componente de un término

4. Interpretación Determinar las relaciones semánticas entre los componentes de un

concepto complejo Inventario las relaciones del dominio para obtener un modelo formal

Page 15: L INGÜÍSTICA COMPUTACIONAL UNIDAD 2. AMBIGÜEDAD SEMÁNTICA Ana María Tangarife Patiño.

DESAMBIGUACIÓN SEMÁNTICA USANDO CONTEXTOS DEFINITORIOS (CD)

Propuesto en la Universidad de Jaén Los CD incluyen: un término, una definición y

patrones de la lengua que puedan identificarse como elementos de alto contenido semántico.

Estos patrones son de tipo verbal y permiten la selección de conceptos que se asocien con definido como, constituido por. Descripción del rol de los patrones verbales

definitorios para la extracción de relaciones semánticas.

Page 16: L INGÜÍSTICA COMPUTACIONAL UNIDAD 2. AMBIGÜEDAD SEMÁNTICA Ana María Tangarife Patiño.

ANÁLISIS DE FRECUENCIAS

La noción de frecuencia es muy importante en las ciencias del lenguaje, especialmente en el dominio de la lexicología.

Pero, ¿De qué sirve un análisis de frecuencias de un corpus?

Page 17: L INGÜÍSTICA COMPUTACIONAL UNIDAD 2. AMBIGÜEDAD SEMÁNTICA Ana María Tangarife Patiño.

DEFINICIONES DE FRECUENCIA

• Es un dato cuantitativo

• Tiene el sentido de repetición

• Número de veces en que ocurre algo, un valor, un dato, una palabra, un acto, etc.

• El número de ondas completas que pasan por un punto determinado en una unidad de tiempo tal como segundos o minutos

• La cantidad de veces por segundo a la que oscila una onda electromagnética

Page 18: L INGÜÍSTICA COMPUTACIONAL UNIDAD 2. AMBIGÜEDAD SEMÁNTICA Ana María Tangarife Patiño.

DEFINICIÓN QUE NOS INTERESA

• Conteo del número de veces en que aparece una palabra o expresión en un corpus informatizado.

• La frecuencia es lo opuesto a la rareza.

• El dato de frecuencia nos permite saber cosas inusuales o características del texto

• La frecuencia indica la importancia de una palabra en el conjunto del vocabulario de una lengua.

Page 19: L INGÜÍSTICA COMPUTACIONAL UNIDAD 2. AMBIGÜEDAD SEMÁNTICA Ana María Tangarife Patiño.

¿PARA QUÉ SIRVEN LOS DATOS DE FRECUENCIA?

Una forma de aprovechar la información de un corpus es utilizando herramientas que permitan extraer listados de frecuencias de aparición de las palabras.

El listado de frecuencias establece el número de formas gráficas, lemas, categorías gramaticales y uso o combinación de letras

Page 20: L INGÜÍSTICA COMPUTACIONAL UNIDAD 2. AMBIGÜEDAD SEMÁNTICA Ana María Tangarife Patiño.

PALABRAS VACÍAS

Normalmente las palabras más frecuentes en un texto son aquellas que denominamos vacías o gramaticales, es decir palabras fijas necesarias para la construcción de las frases, por ejemplo: artículos, preposiciones, etc.

Page 21: L INGÜÍSTICA COMPUTACIONAL UNIDAD 2. AMBIGÜEDAD SEMÁNTICA Ana María Tangarife Patiño.

EJEMPLO: 13 CANCIONES DE LOSGAITEROS DE SAN JACINTO

Número de líneas Número de formas gráficas

Número de ocurrencias

520 552 2324

No.Forma Gráfica

Frecuencia

Longitud

1 Ay 68 22 de 65 23 el 62 24 la 55 25 Bis 49 36 Le 47 27 Que 44 38 te 36 29 me 35 210 que 35 3

Corpus compuesto por :13 canciones

Primeras 10 palabras con mayor frecuencia:

Page 22: L INGÜÍSTICA COMPUTACIONAL UNIDAD 2. AMBIGÜEDAD SEMÁNTICA Ana María Tangarife Patiño.

EJEMPLO: 13 CANCIONES DE LOSGAITEROS DE SAN JACINTO

• Pero una misma interjección puede expresar diferentes afectos según la ocasión y el tono en que se profieren, ó las palabras que preceden, ó se siguen: v. g. cuando decimos: – ay que viene mi padre! la interjección ay, puede

ser de alegría, y puede ser de pesar; – ay que pena! ay que gozo! la misma interjección

adquiere diferente valor y sentido por las palabras con que se junta.

• Tendríamos que ver los distintos contextos KWIC en que aparece la interjección «Ay» para saber realmente lo qué expresa en cada aparición.

Page 23: L INGÜÍSTICA COMPUTACIONAL UNIDAD 2. AMBIGÜEDAD SEMÁNTICA Ana María Tangarife Patiño.

EJEMPLO: 13 CANCIONES DE LOSGAITEROS DE SAN JACINTO

¿El autor o los autores de estas canciones son conscientes de la alta frecuencia de esta interjección?

¿Qué quiere decirnos el autor al usar tantas veces estas interjecciones?

Es cierto que las interjecciones contribuyen a la exteriorización de los sentimientos de dolor o de alegría.

Page 24: L INGÜÍSTICA COMPUTACIONAL UNIDAD 2. AMBIGÜEDAD SEMÁNTICA Ana María Tangarife Patiño.

ANÁLISIS DE 13 CANCIONES DE LOSGAITEROS DE SAN JACINTO

• Las interjecciones de dolor son muy frecuentes en los dramas. Muestran en páthos de los personajes de una obra.

• Las interjecciones son vistas por algunos como lo más primitivo de nuestra lengua debido a su origen onomatopéyico y a su similitud en distintas lenguas.

• Las Interjecciones según d. Fein, son síntesis del pensamiento, interrumpen el discurso y permite la entrada a lo íntimo, al sentimiento.

Page 25: L INGÜÍSTICA COMPUTACIONAL UNIDAD 2. AMBIGÜEDAD SEMÁNTICA Ana María Tangarife Patiño.

ANÁLISIS DE 13 CANCIONES DE LOSGAITEROS DE SAN JACINTO

• Las interjecciones carecen de valor conceptual, por ello no se consideran parte del discurso.

• Las interjecciones no son realmente una categoría gramatical; no forman parte de la oración ya que ellas por sí mismas, constituyen una oración.

• Cabe destacar la importancia el aspecto sonoro de las interjecciones.

• Las interjecciones refuerzan la musicalidad, añaden el sentimiento en el discurso.

Page 26: L INGÜÍSTICA COMPUTACIONAL UNIDAD 2. AMBIGÜEDAD SEMÁNTICA Ana María Tangarife Patiño.

ANÁLISIS DE 13 CANCIONES DE LOSGAITEROS DE SAN JACINTO

• El poco léxico utilizado en las canciones de los gaiteros de San Jacinto contrasta con el elevado número de interjecciones, particularmente la interjección «Ay».

• Las interjecciones ocupan más espacio que las palabras. Lo que se quiere expresar es un sentimiento hecho sonido no discurso.

Page 27: L INGÜÍSTICA COMPUTACIONAL UNIDAD 2. AMBIGÜEDAD SEMÁNTICA Ana María Tangarife Patiño.

REFERENCIAS Mercado Percia, Heiner. Análisis de frecuencias.

[Curso: Lingüística Computacional] TelloLeal, E., Lopez Arevalo, I., & Sosa- Sosa, V. (2010).

Prototipo para desambiguación del sentido de las palabras mediante etiquetado de palabras y relaciones semánticas. Revista Avances en Sistemas e Informática, Vol 7, No. 3, 27–32.

Villayandre Llamazares, M. (2010). Aproximación a la lingüística computacional (Tesis doctoral). Universidad de León. Departamento de Filología Hispánica y Clásica, León, España. En: http://www.revistacontextos.es/econtextos/tesis_milka_contextos.pdf

Wikilengua del español. En: http://www.wikilengua.org/index.php/Homonimia_y_polisemia