Análisis Léxico -...

57
Análisis Léxico Maestría en Sistemas Computacionales Clave: MPSCO-0108 6 Créditos Sesiones Sábados Rafael Vázquez Pérez sábado 28 de febrero de 15

Transcript of Análisis Léxico -...

Análisis Léxico

Maestría en Sistemas ComputacionalesClave: MPSCO-0108 6 Créditos

Sesiones Sábados

Rafael Vázquez Pérez

sábado 28 de febrero de 15

Agenda

• 2.1  Introducción al análisis léxico.

• 2.2  N-grams.

• 2.3  Part-of-Speech Tagging.

• 2.4  Modelo de Entropía Máxima.

sábado 28 de febrero de 15

Introducción• Los textos y las lenguas: diferentes unidades de análisis.

• Fundamento de cualquier sistema de PLN.

• Objetivo: analizar las palabras del texto.

• Palabras: léxico.

• Sintagmas: sintaxis.

• Argumentos: sintaxis y semántica.

• Proposiciones: semántica.

• Epígrafes: texto.

• Intervenciones: pragmática.

• etc.

sábado 28 de febrero de 15

Introducción: Análisis Léxico

• Fundamento de cualquier sistema de PLN

• Objetivo: analizar las palabras del texto

• Palabra: unidad básica de procesamiento

• Las oraciones y textos están formados palabras

• La palabra lleva asociada un conjunto de información morfológica, sintáctica y semántica necesaria en procesos de análisis posteriores.

• Toda esta información se almacena en el léxico o en el diccionario

sábado 28 de febrero de 15

Introducción: Análisis LéxicoIntroducción: análisis léxico ¿Qué es una palabra?

� Aproximación simple:� Cadena separada por blancos en un texto.

“La impresora ha sido limpiada por Juan.”p p p

� La: “La” vs. “la”.� impresora� impresora� ha� sido� sido� limpiada Æ vs. “ha sido limpiada”.� por� por� Juan. : signos de puntuación.

¿Qué es una palabra?� Otros problemas:

� Contracciones:� al =a + el, del = de + el, etc.al a el, del de el, etc.

� Adjunción de pronombres a verbos (clíticos):� díselo = di + se + lo� díselo = di + se + lo

� Unidades que se representan ortográficamente á d l bcon más de una palabra:

� “sin embargo”, “no obstante”, etc.

LA UNIDAD PALABRA

sábado 28 de febrero de 15

¿ Que es una palabra?• Aproximación simple:

• Cadena separada por blancos en un texto.“La impresora ha sido limpiada por Juan.”

• La: “La” vs. “la”.

• impresora

• ha

• sido

• limpiada vs. “ha sido limpiada”.

• por

• Juan. : signos de puntuación.

sábado 28 de febrero de 15

¿ Que es una palabra?

• Otros problemas:

• Contracciones:al =a + el, del = de + el, etc.

• Adjunción de pronombres a verbos (clíticos): díselo = di + se + lo

• Unidades que se representan ortográficamente con más de una palabra:

• “sin embargo”, “no obstante”, etc.

sábado 28 de febrero de 15

La Unidad PalabraToken-Type

• Dos conceptos:

• Token: aparición concreta de una palabra en un texto dentro de un contexto determinado.

• Type: Unidad abstracta que engloba a todas las apariciones de una misma palabra en un texto.

sábado 28 de febrero de 15

Token-Type

• Ejemplo:

• “El perro sin amo no es perro ni amo.”

• perro: 2 token 1 type.

• amo: 2 token 1 type.

sábado 28 de febrero de 15

Tokenización• Separación de un texto en secuencias de un unidades lingüísticas

elementales (palabras).

• Tokens

• Palabras entre espacios en blanco.

• Diferencias mayúscula-minúscula (si no es pertinente).

• No se considera la mayúscula

• Signos de puntuación.

• Algunas unidades multi-palabra: nombres propios.

• Fechas.

• Unidades monetarias.

• etc.

sábado 28 de febrero de 15

Tokenizacion ejemplo

• La Casa no es la casa? - No, es “la casa”

• La: tres tokens, un type.

• Casa: tres tokens, un type.

• No se considera las mayúsculas

• Separación de signos de puntuación como tokens independientes

sábado 28 de febrero de 15

Normalización• Problemas que no resuelve la tokenización:

• Homógrafos.

• Contracciones y adjunciones.

• Determinar una forma única común a todas las posibles formas de una misma palabra.

• Flexión y derivación léxica.

• Singular vs. plural | Masculino vs. femenino | etc.

• Flexión verbal

• Formas verbales complejas.

• Unidades multi-palabra complejas

sábado 28 de febrero de 15

Normalización

• Determinar una forma única común a todas las posibles formas de una misma palabra.

• Lema.- Lematización

• Raíz o tema.- Stemmer

sábado 28 de febrero de 15

Lema y Lematización• Muchas palabras pueden variar en su forma:

• Flexión y derivación.

• Todas responden a una misma palabra: lexema.

• Lema: forma única con la que se nombra un lexema.

• Forma no marcada:

• Nombres y adjetivos: masculino singular

• Verbos: infinitivo

• Forma canónica: ítem del diccionario.

sábado 28 de febrero de 15

Lema y Lexema• Lematización.- Proceso de asociar los tokens de un

texto a su lema correspondiente.

• Ejemplo

• “Andaría”,”he andado”,”anduve”,etc: “andar”

• “Blanca”,”blanco”:”blanco”

• “Casas”,”casa”,”casita”,”casona”,etc.: “casa”

sábado 28 de febrero de 15

Raiz y morfema• Estructura interna de una palabra:

• Raíz o tema: significado léxico.

• Morfema: significado gramatical.

• Libre – ría

• Carnice – ría

• Cant – abamos

• Luch – abamos

• Casa–s

sábado 28 de febrero de 15

Raiz y morfema• Stemmer: proceso de extracción de la raiz o tema de las

palabras de un texto.

• Ejemplo:

• Antes: Cantaría en todas las madrugadas

• Después: Canta en toda la madrugada

• Se pierden los rasgos morfológicos.

• Útil, por ejemplo, en recuperación de información, donde la morfología no es relevante.

• Stemmer de Porter y de Lancaster

sábado 28 de febrero de 15

Análisis Morfológico• Descomponer la palabra en raiz + morfemas :

• Stemmer: “Hermano” → “herman”

• Identificar morfema para interpretación y/o formación de nuevas palabras:

• “casa”(lugar para vivir) + “s” (plural)

• En-torp-e-cedor-es

• Obtener el lema asociado

• Necesario para acceder a la información del léxico

• “Hermano/a” → ”hermano”

• “Cantaríamos” → “cantar”

sábado 28 de febrero de 15

Análisis Morfológico• Formación y derivación de palabras.

• Composición: unión o concatenación de dos palabras distintas para formar una única

• Brisa→Parabrisas→Limpiaparabrisas

• Derivación: adjunción de morfemas a una raíz para formar una palabras diferente

• “Camión”→”Camionero”

• “Cantar”→”Cantante”

• Siglas y Acrónimos

• “Euro...”, CAM, etc

sábado 28 de febrero de 15

Análisis Morfológico

• PC-KIMMO tagger/análisis morfológico

• Universidad de Las Palmas de Gran Canaria

• Maco ++ analizador morfológico español y análisis sintáctico (UPC)

sábado 28 de febrero de 15

La unidad palabra

• No se puede definir qué es una palabra.

• Más que cadenas separadas por blancos

• Apariciones en un texto: tokens y types.

• Tokenizaciones

• Normalización: lema y raíz

• Lematización

• Stemmer

sábado 28 de febrero de 15

Léxico o Diccionario

• Repositorio de Información linguística estructurado por palabras (lexemas).

• Recurso básica para la mayoría de tareas de PLN.

sábado 28 de febrero de 15

Léxico

• Información que puede estar asociada a cada unidad léxica en un diccionario

• Categoría gramatical.

• Información morfológica

• Información sintáctica

• Información semántica

sábado 28 de febrero de 15

Información asociada al Lema

• Categoría sintáctica:

• Categorías cerradas

• determinante, preposición

• Otras abiertas

• verbo, adjetivos, nombres,

sábado 28 de febrero de 15

Información asociada al Lema

• Información morfológica:Características de concordancia: género, número, persona, tiempo, voz, aspecto, etc.

• Reglas de flexión y derivación: morfemas.

• Reglas de formación de las palabras: compuestas y derivadas.

• Información sintáctica:Subcategorización y patrones sintácticos. Concurrencias y n-gramas.

sábado 28 de febrero de 15

Información asociada al Lema

• Información semántica

• Restricciones de selección:

• Complementos que rige un verbo

• Significado léxico

• Forma Lógica

• Rol semántico

sábado 28 de febrero de 15

Representación de la Información

• Necesidad de representación formal.

• Estructuras de rasgos (Feature Structures)

• manzana:

• Sintáctica:

• Categoría: nombre

• Concordancia:

• Genero: femenino

• Número: singular

• .......

• Semántica:

• manzana(x)

sábado 28 de febrero de 15

Representación de la Información

• Necesidad de representación formal

• Redes (Wordnet):

• Manzana

• Hipónimo: Manzana Golden

• Hiperónimo: Fruto

sábado 28 de febrero de 15

Representación de la Información

• Actualmente los léxicos se desarrollan junto a ontologías (Niremburg & Raskin 2004):

• Ontología:

• Estructurado por conceptos

• Supra-lingüístico.

• Léxico:

• Información propia de cada lengua.

• Estructurado por palabra

sábado 28 de febrero de 15

Adquisición de la Información

• Fuentes de información léxica

• Humanos

• Recursos léxicos estructurados

• Recursos léxicos no estructurados

• Recursos híbridos

sábado 28 de febrero de 15

Adquisición de la Información

• Procedimiento de extracción de información léxica

• Construcción manual: Precisión.

• Adquisición automática a partir de recursos léxicos preesxistentes: Cobertura

• Procedimiento híbridos

sábado 28 de febrero de 15

Adquisición de la Información

• Recursos desarrollados por humanos:

• Wordnet.- Información Semántica

• CYC Ontology.- 100 000 términos

• Ontología semántica

• Linguistic String Project.- Información léxica para 10000 entradas

• Comlex.- Información sintáctica 38000 palabras en inglés

• LDOCE3-NLP.- Diccionario con 80 000 termino

sábado 28 de febrero de 15

Adquisición de la Información

• Recursos léxicos estructurados

• Diccionarios electrónicos monolingües: LDOCE

•  Diccionario para estudiantes.

•  35.956 entradas y 76.059 definiciones.

•  86% de códigos semánticos y 44% de pragmaticos.

• Diccionarios electrónicos bilingüesCollins Spanish/English (Knigth & Luk 94) Vox/Harrap’s Spanish/English (Rigau 98)

• Vocabulario controlado de 2.000 palabras para evitar circularidad.

sábado 28 de febrero de 15

Adquisición de la Información

• Recursos léxicos estructurados

• Diccionarios electrónicos bilingues

• EnciclopediasEncarta (Richardson et al. 98)

• Wikipedia

• Otros Guías telefónicas, etc.

sábado 28 de febrero de 15

Adquisición de la Información

• Recursos léxicos no estructurados

• Corpus:

• WSJ

• Brown Corpus

• SemCor

• 3LB

sábado 28 de febrero de 15

Adquisición de Información

• Ventajas uso de diccionarios y recursos estructurados:

•  Precisión

•  La información ha sido validada por que es en principio correcta.

• Desventaja:

• Muchos de estos recursos no han sido creados para tareas de PLN, por lo que presentan problemas específicos.

• Ejemplo: ambigüedad de las definicion

sábado 28 de febrero de 15

Adquisición de Información

• Ventajas uso corpus

• Muestra la información tal cual la usan los habitantes sin estar mediatizada por humanos

• Muestra las palabras en su contexto

• Permite adquirir información estadística

• Desventaja

• Mucha información linguistica es dificil de extraer al estar implícita (categorías gramaticales, sentidos)

sábado 28 de febrero de 15

Análisis léxico

• Acceso desde cualquier módulo al léxico, según la información que necesite (semántica, sintáctica, categorial, etc.)

• Siempre que se trate de información asociada a una unidad léxica

sábado 28 de febrero de 15

Análisis léxico• Análisis morfológico: forma de la palabra,

derivación , etc

• Análisis léxico-categorial: categoría de la palabra

• PoS taggers

• Análisis léxico-semántico: significados y sentidos

• Resolución de la ambiguedad de las palabras o Word Sense Disambiguation (WSD)

sábado 28 de febrero de 15

N-gramas

• Modelos del Lenguaje

sábado 28 de febrero de 15

Modelos Probabilisticos del Lenguaje

• La meta de hoy: asignar una probabilidad a una frase

• Traducción de Maquina

• P(vientos fuertes esta noche)>P(vientos grandes esta noche)

• Corrección Ortográfica

• La Oficina esta cerca 15 minuetos de mi casa

• P(cerca 15 minutos de) > P( cerca 15 minuetos de)

• Reconocimiento del Habla

• P(I saw a van) >> P( eyes awe of an)

• Resúmenes automáticos, Preguntas-Respuestas

sábado 28 de febrero de 15

Modelos Probabilisticos del Lenguaje

• Meta: Calcular la probabilidad de una frase o secuencia de palabras:

• P(W)=P(w1,w2,w3,w4,w5....wn)

• Tarea Relativa: Probabilidad de una palabra proxima.

• P(w5| w1,w2,w3,w4)

• Un modelo que calcule:

• P(W) o P(w5| w1,w2,w3,w4) es llamado modelo de lenguaje

• Mejor: Gramatica Pero el modelo de lenguaje es un standard

sábado 28 de febrero de 15

Como calcular P(W)

• P(su,agua,es,tan,transparente,que)

• Intuición: Regla de la cadena de la probabilidad

• Recordando:

• P(A,B,C,D)=P(A)P(B|A)P(C|A,B)P(D|A,B,C)

• La regla general de la cadena

sábado 28 de febrero de 15

La regla de la cadena aplicada para calcular la probabilidad conjunta de

palabras en una frase

• P(“su agua es tan transparente que”)=

• P(su)*P(agua|su)*P(es|su agua)*P(tan|su agua es)*P(transparente|su agua es tan)

sábado 28 de febrero de 15

Como estimar estas probabilidades ?

• ¿Podríamos contar y dividir?

• P(el|su agua es tan transparente que)=

• Count(su agua es tan transparente que el)

• Count(su agua es tan transparente que)

• No, son muchas frases posibles

• Nunca veremos suficientes datos para estimar estos

sábado 28 de febrero de 15

Suposición de Markov

• Suposición simplificada

• P(el|su agua es tan transparente que)≈P(el|que)

• o tal vez

• P(el|su agua es tan transparente que)≈P(el|transparente que)

sábado 28 de febrero de 15

Suposición de Markov

• En otras palabras, aproximamos cada componente en el producto.

sábado 28 de febrero de 15

Estimando Probabilidades de Bigramas

sábado 28 de febrero de 15

Ejemplo

sábado 28 de febrero de 15

Ejercicio• Jugadores del equipo de futbol  Tiburones  Rojos de Veracruz realizaron

este viernes una importante visita al Hospital Regional de Veracruz, como parte del acercamiento que la plantilla mantiene con sus aficionados.

• Edgar Melitón Hernández, Daniel Villalva y Leiton Jiménez, asistieron a dicho centro de salud, atendiendo el llamado de dos aficionados del equipo, quienes el pasado jueves sufrieron un lamentable accidente carretero cuando se dirigían al entrenamiento vespertino del equipo en los campos de la Finca Junior.

• Los Tiburones Rojos fueron recibidos por los doctores Roberto Ventura Zepeda y Roberto Carlos Muñoz Joachín, quienes guiaron a los futbolistas hasta los dormitorios en que los fieles seguidores de nuestro equipo son reportados afortunadamente como fuera de peligro.

CalcularP(Tiburones|de)P(Rojos|Tiburones)P(Tiburones|Los)

sábado 28 de febrero de 15

Part-of-Speech Tagging

• Tal vez todo comenzó con Aristóteles en (384-322 aC), tuvo la idea de dividir una oración en partes para su análisis.

• Categorías lexicales, clases de palabras, tags.

• Viene de Dionisio de Traxia de Alejandría (100 AC) la idea de que todavía está con nosotros que hay 8 partes del discurso

sábado 28 de febrero de 15

sábado 28 de febrero de 15

Clases Abiertas vs Cerradas

• Clases Cerradas

• Artículos: un, una, el, la,...

• Pronombres: yo, el, ella

• Preposiciones: a, ante, bajo , cabe

• Clases Abiertas:

• Nombres, Verbos, Adjetivos, Adverbios

sábado 28 de febrero de 15

Etiquetado POS

• Las palabras con frecuencia tienen mas de un POS: back

• he back door = JJ

• On my back=NN

• Win the voters back = RB

• Promised to back the bill = VB

sábado 28 de febrero de 15

POS Tagging

• El método mas usado: Diccionario

• Input:  Plays  well  with  others

• Ambiguity:  NNS/VBZ  UH/JJ/NN/RB  IN  NNS

• Output:  Plays/VBZ  well/RB  with/IN  others/NNS•

sábado 28 de febrero de 15

Etiquetado Gramatical• En linguística computacional, el etiquetado gramatical (conocido

también por su nombre en inglés, part-of-speech tagging, POS tagging o POST) es el proceso de asignar (o etiquetar) a cada una de las palabras de un texto su categoría gramatical

• Este proceso se puede realizar de acuerdo con la definición de la palabra o el contexto en que aparece, por ejemplo su relación con las palabras adyacentes en una frase, oración, o en un parrafo.

• Uno de los usos de este etiquetado tiene lugar en el contexto de la linguística computacional, mediante el empleo de algoritmos que realizan el etiquetado mediante etiquetas descriptivas predefinidas.

sábado 28 de febrero de 15

Modelo de Máxima Entropia

• Tarea

sábado 28 de febrero de 15