Margarita Alonso Ramos Master LUP 2011 Tema 4: Diccionario o Base de datos léxicos.

Post on 11-Apr-2015

108 views 0 download

Transcript of Margarita Alonso Ramos Master LUP 2011 Tema 4: Diccionario o Base de datos léxicos.

Margarita Alonso Ramos

Master LUP 2011

Tema 4: Diccionario o Base de datos léxicos

Organización de la exposición

1. Qué es un léxico computacional

2. Cómo representar la informaciónléxica

3. Aplicaciones de la LexComp

4. Proyectos de LexComp

1. Qué es un léxico computacional• Qué elementos son una unidad léxica• Qué información contiene una entrada lexicográfica

1. ¿Qué es un léxico computacional?

No es solo un diccionario en soporte informáticohttp://elies.rediris.es/elies24/pampillon.htm

Los diccionarios en línea o en CD pueden ser una buena herramienta pero el usuario es un humano, no un sistema

http://www.diccionarios.com/consultas.php#http://www.ideasafines.com.ar/buscador-ideas-relacionadas.phpVOLGA: http://www.realacademiagalega.org/volga/index.jspDRAE: www.rae.esDicoPortugués: http://www.priberam.pt/dlpo/dlpo.aspxWordReference: http://www.wordreference.com/es/Bilingüe inglés: http://www.babylon.com/definition/give/SpanishCambridge: http://dictionary.cambridge.org Merrian-Webster:www.m-w.com/cgi-bin/dictionary?book=Dictionary&va=purchase&x=0&y=

htttp://oesi.cervantes.es/TLTODOS/recursos_linguisticos_1.htm

1. ¿Qué es un léxico computacional?

Un “almacén” de información léxica

accesible por medios manuales o automáticos

para sistemas de PLN

1.1.¿Qué se entiende por unidad léxica?

Unidades léxicas (UL): sentidos o acepciones

Concepto de acepción (polisemia):

Difícil delimitación

Diferente según el objetivo aplicativo

Actuar

1 intr. Ejercer una persona o cosa actos propios de su naturaleza

2 Ejercer las funciones propias de un oficio: ~ de secretario. 3 Representar en el teatro o en el cine. 4 Trabajar en un espectáculo público. 5 Defender, en las universidades, conclusiones públicas o practicar ejercicios de oposición. 6 DER. Realizar actuaciones

¿Qué se entiende por unidad léxica? (2)

Granularidad en la diferenciación de sentidos (diccionarios)

libro monosémicocerdo monolingües: animal, carne, piel, ....

bilingües (desajustes: pig, pork) 

El tipo semántico no implica que haya una o más acepciones.

diferentes sentidos matices de un mismo sentido

¿?

Polisemia

Criterios para limitar la polisemia

goodWordNet 12 acepcionesWebster 25 acepcionesAmerican Heritage 20 acepciones

¿Cuándo dejar de subdividir un sentido en nuevas acepciones?

Definición de principios Dependiente de la aplicación

-semánticos:-Diferente estructura argumental-Diferentes restricciones selectivas

-sintácticos:- diferente subcategorización-- diferente construcción

1.2. ¿Qué información contienen ? (1)

Dependiendo de los objetivos del léxico: La trascripción fonética

La categoría gramatical y paradigma morfológico 

dar {vdtr}, 1ªconj.  La estructura argumental, patrón sintáctico-semántico básico

La estructura argumental, patrón sintáctico-semántico básico 

SYNSEM | LOC HEAD | MAJOR V| SUBCAT = <SN [1], SN[2], SP [3]>

SEM [dar agente [1], tema [2], beneficiario [3]] 

¿Qué información contienen ?

Información semántica: tipo semántico definido en una ontología.

chico [HUMANO] ordenador [ARTEFACTO]

Restricciones selectivas

Relaciones léxicas: Paradigmáticas: sinonimia, antonimia, hiponimiaSintagmáticas: colocaciones

Las equivalencias con otras lenguas, ...

¿Qué información contienen ?

Organización de la exposición

1. Qué es un léxico computacional2. Cómo representar la información léxica

3. Aplicaciones de la LexComp

4. Proyectos de LexComp

2. Cómo representar la información léxica

2. ¿Cómo representar la información?

Condiciones del lenguajede representación del conocimiento

1. Adecuado para mecanismos de inferencia: herencia, reglas léxicas, etc.

2. Eficiente en el acceso a la información

Modelos de representación computacionales

Bases de datos

Modelos textuales

Bases de conocimiento léxico

Ontologías

Modelos de representación computacionales

Bases de datos relacionales

las entradas se representan en tablas cada tabla consta de diversos rasgos que toman valores

Cat = NGen = Fem

ventajas software convencional de gestión de base de datos (Access de Microsoft)

mantenimiento, eficiencia y facilidad de interrogación

gran capacidad expresiva

limitaciones:

- falta de estructura jerárquica

– excesiva uniformidad

– poco apropiadas para los rasgos de tipo textual

Modelos de representación computacionales

Modelos textuales

Corpus en bruto:Frecuencias léxicas Coapariciones de dos o más palabras

Corpus etiquetados: morfológicamente sintácticamente semánticamente identificación de colocaciones

Modelos de representación computacionales

Representaciones orientadas a objetos

NOMBRE-F-REGcat= ntipo = comúngénero= femeninomorfología=

NFAAS

casaes-un: NOMBRE-F-

REGnúmero= singular

casases-un: NOMBRE-F-REGnúmero= plural

CLASECLASE

EJEMPLARES

Modelos de representación computacionales Representaciones basadas en la unificación

Estructuras de Rasgos (ER)Relación de orden parcial: subsunciónOperación básica: unificaciónEntradas léxicas: implementadas como ERDos grandes clases:

Formalismos de unificación libre Formalismos de unificación tipificada

género (OR masculino femenino neutro)

número (OR singular plural)

categoría (OR nombre verbo adjetivo determinante adverbio pronombre)

...

Modelos de representación computacionales

Estructuras de rasgos tipificadas

Modelos de representación computacionales

Reglas léxicas Acquilex

grinding(LEX-RULE)

INPUT

OUTPUT

lex-noun-sign

lex-noun-sign

orth = [1]cat : count = +rqs = ind_obj

orth = [1]cat : count = -rqs = substance

Modelos de representación computacionales Ontologías

semántica basada en una ontología

árabe

semítica

lengua

cada sentido se diferencia por uno o más rasgos

+ lengua

+ lengua+ semítica

+ lengua+ semítica

árabe

semítica

lengua+ lengua

+ lengua+ semítica

+ lengua+ semítica+ árabe

hebreo ...

indo-europea

lenguaje

programación

semántica basada en una ontología

Modelos de representación computacionales (15) Ontologías

WordNet

- Red de conocimiento léxico-semántica

- Relaciones semánticas: sinonimia, hiperonimia, hiponimia, meronimia...

- Unidad de descripción: synset

vehículo

es-un

automóvil 1 ; coche 2 ; carro 2

se-compone-de motorruedavolante

ranchera;furgón

ambulancia

taxi

es-un

es-un

es-un

Modelos de representación computacionales (16)

Redes semánticas

Modelos de representación computacionales (17) Problemas

incompleto: dominios poco o nada representadossentidos básicos que no aparecen

Granularidad excesiva:Hombre= el que sirve en el ejército(10) opuesto a hembra

opuesto a esposacarácter de hombre...

Criterio poco claro de sinonimia hiperonimia/hiponimia

Ejemplos de entrada léxica (1) Lexical Conceptual Structure (R. Jackendoff)

Descomposición de los predicados en primitivos Representación abstracta de los significados Interacción sintaxis-semántica

V_____ <NPj>

[Event CAUSE ([Thing ]i [Event GO ([Thing LIQUID]j,

[Path TO ([Place IN ([Thing MOUTH OF ([Thing ]i)])])])])]

drink

Ejemplos de entrada léxica (2) (Somers)

Entrada por defecto para verbos de emoción

(case-Exp)(Synt Form (NP))(Sem Features (human))(Synt Function (Subj))

(case Pat) (Synt Form (NP))(Sem Features (any))(Synt Function (Dir. Obj Scomp))(Stype (infinitive gerundive))

Emotion-frame

Entrada para TO LOVE(LOVE (SyntFor (V))

(class (emotion)))

 book 

ARG1 = x: informationARGSTR = ARG2 = y:phys_obj

 information·phys_obj

QUALIASTR = FORMAL = hold(y,x) TELIC = read(e1,w,x·y) AGENT = write(e2,v,x·y)

Ejemplos de entrada léxica (3) Léxico generativo (Pustejovsky)

Tipos complejos

Cada UL dispone de tres secciones:

• Zona semántica:--> etiqueta semántica o definición--> estructura argumental

• Zona sintáctica:--> medios de realización superficial de los argumentos

• Zona de funciones léxicas (FFLL)

Ejemplos de entrada léxica (4) Lexicología Explicativa y Combinatoria (Mel’cuk)

Ilustración de la Zona Semántica: DISGUSTO 1: Disimulaba el disgusto de estar haciendo algo que no

quería hacer

etiqueta semántica: ‘estado’ Syn: desgana, desagrado

forma proposicional: ‘disgusto de individuo X por hecho Y’

DISGUSTO 2a: Se llevará un disgusto cuando lo sepa

etiqueta semántica: ‘sentimiento’ Syn: sofocón, padecimiento

forma proposicional: ‘disgusto de individuo X por hecho Y’

DISGUSTO 2b: Aquello fue un gran disgusto para María

etiqueta semántica: ‘hecho’ Syn: penalidad, golpe

forma proposicional: ‘[hecho Y es] un disgusto para individuo X’

DISGUSTO 3: Ha tenido un disgusto con su cuñada

etiqueta semántica: ‘situación’ Syn: disputa, querella

forma proposicional: ‘disgusto de individuo X con individuo Y por Z’

Ilustración de la zona de Régimen DISGUSTO 2a

Disgusto de individuo X por hecho YX = I:de N el disgusto de JuanApos su disgustoA disgusto familiar

Y = II:por N disgusto por el suspensopor Vinf disgusto por haber suspendidoante N disgusto ante su marcha

Ilustración de la zona de FFLL DISGUSTO 2atener un D. (Oper1):

tener, sufrir, recibir,llevarse, pasar [un ˜] ;

Y causa que X tenga un D.(CausFunc1): dar, producir, acarrear, traer, costar [un ˜ a X] //disgustar [a X]

X causa que X tenga un D.(Caus1Func1): cosechar [˜s]

intentar no causar un D (nonCausFunc1) : ahorrar, evitar [un ˜ a X]

X no manifiesta el D.(nonPerm1Manif): ocultar, disimular [ART ˜ ]

el D. de X desaparece(FinFunc1): olvidarse, pasarse [a X]

Organización de la exposición

1. Qué es un léxico computacional

2. Cómo representar la información

3. Aplicaciones de la LexComp

Aplicaciones

Técnicas que incorporan conocimiento lingüísticoSistemas de tratamiento de la información

Extracción de informaciónRecuperación de informaciónTA

Aplicaciones: usuario finalLexicografíaAutoaprendizaje, Buscadores, etc.

Recursos (léxicos)

ENTR ábacoETIM (Del lat. Abacus // gr. abax)ACEP 1SIGN Instrumento de cálculo consistente en un tablero de

madera con alambres h orizontales y paralelos, y unasbolas agujereadas que corren a lo largo de éstos , usadopara realizar operaciones de aritmética y paracontabilizar los tantos o btenidos en algunos juegos comoel billar.

CATG s.m.ACEP 2SIGN Gráfico de escalas para abreviar los cálculos aritméticos.SINO nomogramaCATG s.m.ACEP 3SIGN Parte superior en forma de tablero que corona el capitel de

la columna.TEMA ARQUITECTURA

ábaco ábaco NCMS000

Aplicaciones (1) Clasificación

SANIDAD

Problemas de congestión en los centros hospitalarios catalanes

Pujol matiza a Rius y anuncia inversiones para reducir losplazos de las listas_de_espera

La_Vanguardia - 02:30 horas - 26/05/2000 MARTA_RICARTJOSEP_CORBELLA BARCELONA . -

inversiones inversión NCFP000

Aplicaciones (2) Clasificación semántica

Aplicaciones (3)

Traducción Automática Diccionario monolingüe

("llegir" VST ALO [raíz] "lleg" ARGS ((($SUBJ N1 (TYPE P1)) OPT ($DOBJ N1 (TYPE P0) N0 (FCP 0)

(MD-0 IND)))) CL [modelo de flexion] (IR-E) CMT [prototipo flexivo] "Model: servir" ON CO PLC (NF) TAL [admite -eix-] -EIX AUTHOR "elisabel" DATE "1-Mar-99" SITE "FB52")

"fer" VST --> "retroceder" VST = Tests (XFR-VST-CTEST :MW T :FIXEXPR T

:EXPR "enrere")Comment "no ens farem enrere =no retrocederemos"<< Fb52 FB52 Elisabel 23-Mar-99 >> "fer" VST --> "llegar" VST = Tests(XFR-VST-CTEST :MW T :FIXEXPR T :

EXPR "tard") Comment "fer tard =llegar tarde"<< Fb52 FB52 Elisabel 24-Mar-99 >> "fer" VST --> "pesar" VST =<< Fb52 FB52 Elisabel 23-Mar-99 >>

Aplicaciones (5)

Traducción Automática Diccionario Bilingüe Incita/SailLabs

Organización de la exposición

1. Qué es un léxico computacional

2. Cómo representar la información

3. Aplicaciones de la Lexicografía computacional

4. Proyectos

4. Proyectos lexicográficos

DiCE (Diccionario de colocaciones del español) http://www.dicesp.es

DiCoInfo (Dicctionario de informática)http://olst.ling.umontreal.ca/cgi-bin/dicoinfo/search.cgi?ui=es

EuroWordNethttp://adimen.si.ehu.es/cgi-bin/wei/public/wei.consult.perl

FrameNethttp://framenet.icsi.berkeley.edu

Spanish FrameNethttp://sato.fm.senshu-u.ac.jp/sfn20/notes/index2.html