Margarita Alonso Ramos Master LUP 2011 Tema 4: Diccionario o Base de datos léxicos.

40
Margarita Alonso Ramos Master LUP 2011 Tema 4: Diccionario o Base de datos léxicos

Transcript of Margarita Alonso Ramos Master LUP 2011 Tema 4: Diccionario o Base de datos léxicos.

Page 1: Margarita Alonso Ramos Master LUP 2011 Tema 4: Diccionario o Base de datos léxicos.

Margarita Alonso Ramos

Master LUP 2011

Tema 4: Diccionario o Base de datos léxicos

Page 2: Margarita Alonso Ramos Master LUP 2011 Tema 4: Diccionario o Base de datos léxicos.

Organización de la exposición

1. Qué es un léxico computacional

2. Cómo representar la informaciónléxica

3. Aplicaciones de la LexComp

4. Proyectos de LexComp

1. Qué es un léxico computacional• Qué elementos son una unidad léxica• Qué información contiene una entrada lexicográfica

Page 3: Margarita Alonso Ramos Master LUP 2011 Tema 4: Diccionario o Base de datos léxicos.

1. ¿Qué es un léxico computacional?

No es solo un diccionario en soporte informáticohttp://elies.rediris.es/elies24/pampillon.htm

Los diccionarios en línea o en CD pueden ser una buena herramienta pero el usuario es un humano, no un sistema

http://www.diccionarios.com/consultas.php#http://www.ideasafines.com.ar/buscador-ideas-relacionadas.phpVOLGA: http://www.realacademiagalega.org/volga/index.jspDRAE: www.rae.esDicoPortugués: http://www.priberam.pt/dlpo/dlpo.aspxWordReference: http://www.wordreference.com/es/Bilingüe inglés: http://www.babylon.com/definition/give/SpanishCambridge: http://dictionary.cambridge.org Merrian-Webster:www.m-w.com/cgi-bin/dictionary?book=Dictionary&va=purchase&x=0&y=

htttp://oesi.cervantes.es/TLTODOS/recursos_linguisticos_1.htm

Page 4: Margarita Alonso Ramos Master LUP 2011 Tema 4: Diccionario o Base de datos léxicos.

1. ¿Qué es un léxico computacional?

Un “almacén” de información léxica

accesible por medios manuales o automáticos

para sistemas de PLN

Page 5: Margarita Alonso Ramos Master LUP 2011 Tema 4: Diccionario o Base de datos léxicos.

1.1.¿Qué se entiende por unidad léxica?

Unidades léxicas (UL): sentidos o acepciones

Concepto de acepción (polisemia):

Difícil delimitación

Diferente según el objetivo aplicativo

Actuar

1 intr. Ejercer una persona o cosa actos propios de su naturaleza

2 Ejercer las funciones propias de un oficio: ~ de secretario. 3 Representar en el teatro o en el cine. 4 Trabajar en un espectáculo público. 5 Defender, en las universidades, conclusiones públicas o practicar ejercicios de oposición. 6 DER. Realizar actuaciones

Page 6: Margarita Alonso Ramos Master LUP 2011 Tema 4: Diccionario o Base de datos léxicos.

¿Qué se entiende por unidad léxica? (2)

Granularidad en la diferenciación de sentidos (diccionarios)

libro monosémicocerdo monolingües: animal, carne, piel, ....

bilingües (desajustes: pig, pork) 

El tipo semántico no implica que haya una o más acepciones.

diferentes sentidos matices de un mismo sentido

¿?

Page 7: Margarita Alonso Ramos Master LUP 2011 Tema 4: Diccionario o Base de datos léxicos.

Polisemia

Criterios para limitar la polisemia

goodWordNet 12 acepcionesWebster 25 acepcionesAmerican Heritage 20 acepciones

¿Cuándo dejar de subdividir un sentido en nuevas acepciones?

Definición de principios Dependiente de la aplicación

-semánticos:-Diferente estructura argumental-Diferentes restricciones selectivas

-sintácticos:- diferente subcategorización-- diferente construcción

Page 8: Margarita Alonso Ramos Master LUP 2011 Tema 4: Diccionario o Base de datos léxicos.

1.2. ¿Qué información contienen ? (1)

Dependiendo de los objetivos del léxico: La trascripción fonética

La categoría gramatical y paradigma morfológico 

dar {vdtr}, 1ªconj.  La estructura argumental, patrón sintáctico-semántico básico

Page 9: Margarita Alonso Ramos Master LUP 2011 Tema 4: Diccionario o Base de datos léxicos.

La estructura argumental, patrón sintáctico-semántico básico 

SYNSEM | LOC HEAD | MAJOR V| SUBCAT = <SN [1], SN[2], SP [3]>

SEM [dar agente [1], tema [2], beneficiario [3]] 

¿Qué información contienen ?

Page 10: Margarita Alonso Ramos Master LUP 2011 Tema 4: Diccionario o Base de datos léxicos.

Información semántica: tipo semántico definido en una ontología.

chico [HUMANO] ordenador [ARTEFACTO]

Restricciones selectivas

Relaciones léxicas: Paradigmáticas: sinonimia, antonimia, hiponimiaSintagmáticas: colocaciones

Las equivalencias con otras lenguas, ...

¿Qué información contienen ?

Page 11: Margarita Alonso Ramos Master LUP 2011 Tema 4: Diccionario o Base de datos léxicos.

Organización de la exposición

1. Qué es un léxico computacional2. Cómo representar la información léxica

3. Aplicaciones de la LexComp

4. Proyectos de LexComp

2. Cómo representar la información léxica

Page 12: Margarita Alonso Ramos Master LUP 2011 Tema 4: Diccionario o Base de datos léxicos.

2. ¿Cómo representar la información?

Condiciones del lenguajede representación del conocimiento

1. Adecuado para mecanismos de inferencia: herencia, reglas léxicas, etc.

2. Eficiente en el acceso a la información

Page 13: Margarita Alonso Ramos Master LUP 2011 Tema 4: Diccionario o Base de datos léxicos.

Modelos de representación computacionales

Bases de datos

Modelos textuales

Bases de conocimiento léxico

Ontologías

Page 14: Margarita Alonso Ramos Master LUP 2011 Tema 4: Diccionario o Base de datos léxicos.

Modelos de representación computacionales

Bases de datos relacionales

las entradas se representan en tablas cada tabla consta de diversos rasgos que toman valores

Cat = NGen = Fem

ventajas software convencional de gestión de base de datos (Access de Microsoft)

mantenimiento, eficiencia y facilidad de interrogación

gran capacidad expresiva

limitaciones:

- falta de estructura jerárquica

– excesiva uniformidad

– poco apropiadas para los rasgos de tipo textual

Page 15: Margarita Alonso Ramos Master LUP 2011 Tema 4: Diccionario o Base de datos léxicos.

Modelos de representación computacionales

Modelos textuales

Corpus en bruto:Frecuencias léxicas Coapariciones de dos o más palabras

Corpus etiquetados: morfológicamente sintácticamente semánticamente identificación de colocaciones

Page 16: Margarita Alonso Ramos Master LUP 2011 Tema 4: Diccionario o Base de datos léxicos.

Modelos de representación computacionales

Representaciones orientadas a objetos

NOMBRE-F-REGcat= ntipo = comúngénero= femeninomorfología=

NFAAS

casaes-un: NOMBRE-F-

REGnúmero= singular

casases-un: NOMBRE-F-REGnúmero= plural

CLASECLASE

EJEMPLARES

Page 17: Margarita Alonso Ramos Master LUP 2011 Tema 4: Diccionario o Base de datos léxicos.

Modelos de representación computacionales Representaciones basadas en la unificación

Estructuras de Rasgos (ER)Relación de orden parcial: subsunciónOperación básica: unificaciónEntradas léxicas: implementadas como ERDos grandes clases:

Formalismos de unificación libre Formalismos de unificación tipificada

Page 18: Margarita Alonso Ramos Master LUP 2011 Tema 4: Diccionario o Base de datos léxicos.

género (OR masculino femenino neutro)

número (OR singular plural)

categoría (OR nombre verbo adjetivo determinante adverbio pronombre)

...

Modelos de representación computacionales

Estructuras de rasgos tipificadas

Page 19: Margarita Alonso Ramos Master LUP 2011 Tema 4: Diccionario o Base de datos léxicos.

Modelos de representación computacionales

Reglas léxicas Acquilex

grinding(LEX-RULE)

INPUT

OUTPUT

lex-noun-sign

lex-noun-sign

orth = [1]cat : count = +rqs = ind_obj

orth = [1]cat : count = -rqs = substance

Page 20: Margarita Alonso Ramos Master LUP 2011 Tema 4: Diccionario o Base de datos léxicos.

Modelos de representación computacionales Ontologías

semántica basada en una ontología

árabe

semítica

lengua

cada sentido se diferencia por uno o más rasgos

+ lengua

+ lengua+ semítica

+ lengua+ semítica

Page 21: Margarita Alonso Ramos Master LUP 2011 Tema 4: Diccionario o Base de datos léxicos.

árabe

semítica

lengua+ lengua

+ lengua+ semítica

+ lengua+ semítica+ árabe

hebreo ...

indo-europea

lenguaje

programación

semántica basada en una ontología

Page 22: Margarita Alonso Ramos Master LUP 2011 Tema 4: Diccionario o Base de datos léxicos.

Modelos de representación computacionales (15) Ontologías

WordNet

- Red de conocimiento léxico-semántica

- Relaciones semánticas: sinonimia, hiperonimia, hiponimia, meronimia...

- Unidad de descripción: synset

Page 23: Margarita Alonso Ramos Master LUP 2011 Tema 4: Diccionario o Base de datos léxicos.

vehículo

es-un

automóvil 1 ; coche 2 ; carro 2

se-compone-de motorruedavolante

ranchera;furgón

ambulancia

taxi

es-un

es-un

es-un

Modelos de representación computacionales (16)

Redes semánticas

Page 24: Margarita Alonso Ramos Master LUP 2011 Tema 4: Diccionario o Base de datos léxicos.
Page 25: Margarita Alonso Ramos Master LUP 2011 Tema 4: Diccionario o Base de datos léxicos.

Modelos de representación computacionales (17) Problemas

incompleto: dominios poco o nada representadossentidos básicos que no aparecen

Granularidad excesiva:Hombre= el que sirve en el ejército(10) opuesto a hembra

opuesto a esposacarácter de hombre...

Criterio poco claro de sinonimia hiperonimia/hiponimia

Page 26: Margarita Alonso Ramos Master LUP 2011 Tema 4: Diccionario o Base de datos léxicos.

Ejemplos de entrada léxica (1) Lexical Conceptual Structure (R. Jackendoff)

Descomposición de los predicados en primitivos Representación abstracta de los significados Interacción sintaxis-semántica

V_____ <NPj>

[Event CAUSE ([Thing ]i [Event GO ([Thing LIQUID]j,

[Path TO ([Place IN ([Thing MOUTH OF ([Thing ]i)])])])])]

drink

Page 27: Margarita Alonso Ramos Master LUP 2011 Tema 4: Diccionario o Base de datos léxicos.

Ejemplos de entrada léxica (2) (Somers)

Entrada por defecto para verbos de emoción

(case-Exp)(Synt Form (NP))(Sem Features (human))(Synt Function (Subj))

(case Pat) (Synt Form (NP))(Sem Features (any))(Synt Function (Dir. Obj Scomp))(Stype (infinitive gerundive))

Emotion-frame

Entrada para TO LOVE(LOVE (SyntFor (V))

(class (emotion)))

Page 28: Margarita Alonso Ramos Master LUP 2011 Tema 4: Diccionario o Base de datos léxicos.

 book 

ARG1 = x: informationARGSTR = ARG2 = y:phys_obj

 information·phys_obj

QUALIASTR = FORMAL = hold(y,x) TELIC = read(e1,w,x·y) AGENT = write(e2,v,x·y)

Ejemplos de entrada léxica (3) Léxico generativo (Pustejovsky)

Tipos complejos

Page 29: Margarita Alonso Ramos Master LUP 2011 Tema 4: Diccionario o Base de datos léxicos.

Cada UL dispone de tres secciones:

• Zona semántica:--> etiqueta semántica o definición--> estructura argumental

• Zona sintáctica:--> medios de realización superficial de los argumentos

• Zona de funciones léxicas (FFLL)

Ejemplos de entrada léxica (4) Lexicología Explicativa y Combinatoria (Mel’cuk)

Page 30: Margarita Alonso Ramos Master LUP 2011 Tema 4: Diccionario o Base de datos léxicos.

Ilustración de la Zona Semántica: DISGUSTO 1: Disimulaba el disgusto de estar haciendo algo que no

quería hacer

etiqueta semántica: ‘estado’ Syn: desgana, desagrado

forma proposicional: ‘disgusto de individuo X por hecho Y’

DISGUSTO 2a: Se llevará un disgusto cuando lo sepa

etiqueta semántica: ‘sentimiento’ Syn: sofocón, padecimiento

forma proposicional: ‘disgusto de individuo X por hecho Y’

DISGUSTO 2b: Aquello fue un gran disgusto para María

etiqueta semántica: ‘hecho’ Syn: penalidad, golpe

forma proposicional: ‘[hecho Y es] un disgusto para individuo X’

DISGUSTO 3: Ha tenido un disgusto con su cuñada

etiqueta semántica: ‘situación’ Syn: disputa, querella

forma proposicional: ‘disgusto de individuo X con individuo Y por Z’

Page 31: Margarita Alonso Ramos Master LUP 2011 Tema 4: Diccionario o Base de datos léxicos.

Ilustración de la zona de Régimen DISGUSTO 2a

Disgusto de individuo X por hecho YX = I:de N el disgusto de JuanApos su disgustoA disgusto familiar

Y = II:por N disgusto por el suspensopor Vinf disgusto por haber suspendidoante N disgusto ante su marcha

Page 32: Margarita Alonso Ramos Master LUP 2011 Tema 4: Diccionario o Base de datos léxicos.

Ilustración de la zona de FFLL DISGUSTO 2atener un D. (Oper1):

tener, sufrir, recibir,llevarse, pasar [un ˜] ;

Y causa que X tenga un D.(CausFunc1): dar, producir, acarrear, traer, costar [un ˜ a X] //disgustar [a X]

X causa que X tenga un D.(Caus1Func1): cosechar [˜s]

intentar no causar un D (nonCausFunc1) : ahorrar, evitar [un ˜ a X]

X no manifiesta el D.(nonPerm1Manif): ocultar, disimular [ART ˜ ]

el D. de X desaparece(FinFunc1): olvidarse, pasarse [a X]

Page 33: Margarita Alonso Ramos Master LUP 2011 Tema 4: Diccionario o Base de datos léxicos.

Organización de la exposición

1. Qué es un léxico computacional

2. Cómo representar la información

3. Aplicaciones de la LexComp

Page 34: Margarita Alonso Ramos Master LUP 2011 Tema 4: Diccionario o Base de datos léxicos.

Aplicaciones

Técnicas que incorporan conocimiento lingüísticoSistemas de tratamiento de la información

Extracción de informaciónRecuperación de informaciónTA

Aplicaciones: usuario finalLexicografíaAutoaprendizaje, Buscadores, etc.

Recursos (léxicos)

Page 35: Margarita Alonso Ramos Master LUP 2011 Tema 4: Diccionario o Base de datos léxicos.

ENTR ábacoETIM (Del lat. Abacus // gr. abax)ACEP 1SIGN Instrumento de cálculo consistente en un tablero de

madera con alambres h orizontales y paralelos, y unasbolas agujereadas que corren a lo largo de éstos , usadopara realizar operaciones de aritmética y paracontabilizar los tantos o btenidos en algunos juegos comoel billar.

CATG s.m.ACEP 2SIGN Gráfico de escalas para abreviar los cálculos aritméticos.SINO nomogramaCATG s.m.ACEP 3SIGN Parte superior en forma de tablero que corona el capitel de

la columna.TEMA ARQUITECTURA

ábaco ábaco NCMS000

Aplicaciones (1) Clasificación

Page 36: Margarita Alonso Ramos Master LUP 2011 Tema 4: Diccionario o Base de datos léxicos.

SANIDAD

Problemas de congestión en los centros hospitalarios catalanes

Pujol matiza a Rius y anuncia inversiones para reducir losplazos de las listas_de_espera

La_Vanguardia - 02:30 horas - 26/05/2000 MARTA_RICARTJOSEP_CORBELLA BARCELONA . -

inversiones inversión NCFP000

Aplicaciones (2) Clasificación semántica

Page 37: Margarita Alonso Ramos Master LUP 2011 Tema 4: Diccionario o Base de datos léxicos.

Aplicaciones (3)

Traducción Automática Diccionario monolingüe

("llegir" VST ALO [raíz] "lleg" ARGS ((($SUBJ N1 (TYPE P1)) OPT ($DOBJ N1 (TYPE P0) N0 (FCP 0)

(MD-0 IND)))) CL [modelo de flexion] (IR-E) CMT [prototipo flexivo] "Model: servir" ON CO PLC (NF) TAL [admite -eix-] -EIX AUTHOR "elisabel" DATE "1-Mar-99" SITE "FB52")

Page 38: Margarita Alonso Ramos Master LUP 2011 Tema 4: Diccionario o Base de datos léxicos.

"fer" VST --> "retroceder" VST = Tests (XFR-VST-CTEST :MW T :FIXEXPR T

:EXPR "enrere")Comment "no ens farem enrere =no retrocederemos"<< Fb52 FB52 Elisabel 23-Mar-99 >> "fer" VST --> "llegar" VST = Tests(XFR-VST-CTEST :MW T :FIXEXPR T :

EXPR "tard") Comment "fer tard =llegar tarde"<< Fb52 FB52 Elisabel 24-Mar-99 >> "fer" VST --> "pesar" VST =<< Fb52 FB52 Elisabel 23-Mar-99 >>

Aplicaciones (5)

Traducción Automática Diccionario Bilingüe Incita/SailLabs

Page 39: Margarita Alonso Ramos Master LUP 2011 Tema 4: Diccionario o Base de datos léxicos.

Organización de la exposición

1. Qué es un léxico computacional

2. Cómo representar la información

3. Aplicaciones de la Lexicografía computacional

4. Proyectos

Page 40: Margarita Alonso Ramos Master LUP 2011 Tema 4: Diccionario o Base de datos léxicos.

4. Proyectos lexicográficos

DiCE (Diccionario de colocaciones del español) http://www.dicesp.es

DiCoInfo (Dicctionario de informática)http://olst.ling.umontreal.ca/cgi-bin/dicoinfo/search.cgi?ui=es

EuroWordNethttp://adimen.si.ehu.es/cgi-bin/wei/public/wei.consult.perl

FrameNethttp://framenet.icsi.berkeley.edu

Spanish FrameNethttp://sato.fm.senshu-u.ac.jp/sfn20/notes/index2.html