Frame netspanish

Post on 04-Jul-2015

397 views 2 download

Transcript of Frame netspanish

FrameNet Español:Una red semántica de marcos conceptuales

[Carlos Subirats Rüggeberg. Universidad Autónoma de Barcelona]

Esquema de la presentación

Esquema de la presentación

1. Presentación 1.1 referencias 1.2¿qué es FrameNet? 1.3¿qué se propone?2. Marco teórico 2.1 semántica cognitiva (Fillmore, 1985) 2.2 semántica estructural vs. cognitiva3. Argumentos semánticos 3.1 criterios 3.2 tipología 3.3 clases conceptuales4. Estructura 4.1 corpus 4.2 software 4.3 base de datos 4.4 usabilidad5. Conclusiones

1. Presentación

1.1 Referencias

• Artículo: Cognición y percepción lingüísticas: Comunicaciones presentadas al VI Congreso Internacional de Lingüística Hispánica (Leipzig, 8-12 de octubre de 2003)

1.1 Referencias

• Artículo: Cognición y percepción lingüísticas: Comunicaciones presentadas al VI Congreso Internacional de Lingüística Hispánica (Leipzig, 8-12 de octubre de 2003)

• Editores: Enrique Serra y Gerd Wotjak. Universidad de Valencia, 2004.

1.1 Referencias

• Artículo: Cognición y percepción lingüísticas: Comunicaciones presentadas al VI Congreso Internacional de Lingüística Hispánica (Leipzig, 8-12 de octubre de 2003)

• Editores: Enrique Serra y Gerd Wotjak. Universidad de Valencia, 2004.

• Autor: Carlos Subirats, Catedrático UAB, actualmente trabaja y dirige el proyecto de invesigación FrameNet en el International Computer Science Institute Berkeley, California.

1.1 Referencias• Artículo: Cognición y percepción lingüísticas: Comunicaciones

presentadas al VI Congreso Internacional de Lingüística Hispánica (Leipzig, 8-12 de octubre de 2003)

• Editores: Enrique Serra y Gerd Wotjak. Universidad de Valencia, 2004.

• Autor: Carlos Subirats, Catedrático UAB, actualmente trabaja y dirige el proyecto de invesigación FrameNet en el International Computer Science Institute Berkeley, California.

• Se ha dedicado al estudio del léxico desde una perspectiva cognitiva al que ha aplicado la lingüística de corpus y el tratamiento automático del lenguaje

1.2 ¿Qué es FrameNet Español?

¿Qué es FrameNet Español?

•“Es un proyecto de investigación de semántica cognitiva , cuyo

objetivo es el estudio de la organización conceptual de la red de

clases semánticas que configura semánticamente el léxico de

predicados de la lengua española” [p.1]

¿Qué es FrameNet Español?

•“Es un proyecto de investigación de semántica cognitiva , cuyo

objetivo es el estudio de la organización conceptual de la red de

clases semánticas que configura semánticamente el léxico de

predicados de la lengua española” [p.1]

•Enmarcado dentro de la propuesta de la semántica cognitiva

conocida como frame semantics (Fillmore, 1985)

¿Qué es FrameNet Español?

•“Es un proyecto de investigación de semántica cognitiva , cuyo

objetivo es el estudio de la organización conceptual de la red de

clases semánticas que configura semánticamente el léxico de

predicados de la lengua española” [p.1]

•Enmarcado dentro de la propuesta de la semántica cognitiva

conocida como frame semantics (Fillmore, 1985)

•Basado en los datos recopilados en un corpus

2.2 ¿Qué se propone?

¿Qué se propone?

•Triple objetivo:

¿Qué se propone?

•Triple objetivo:

1. Identificar marcos semánticos (frame semantics)

¿Qué se propone?

•Triple objetivo:

1. Identificar marcos semánticos (frame semantics)

2. Determinar los argumentos que los determinan (frame elements)

¿Qué se propone?

•Triple objetivo:

1. Identificar marcos semánticos (frame semantics)

2. Determinar los argumentos que los determinan (frame elements)

3. Anotar semántica y sintácticamente los predicados de dichos

marcos

2. Marco teórico

2.1 Semántica cognitiva

Semántica cognitiva

•Formas alternativas a la semántica estructural de entender

cómo se organiza el léxico

Semántica cognitiva

•Formas alternativas a la semántica estructural de entender

cómo se organiza el léxico

•El modelo de mayor influencia es el Fillmore: semántica de

marcos (frame semantics)

Semántica cognitiva

•Formas alternativas a la semántica estructural de entender

cómo se organiza el léxico

•El modelo de mayor influencia es el Fillmore: semántica de

marcos (frame semantics)

•No se trata solo de un modelo alternativo, es un

replanteamiento básico de los objetivos de la semántica

Semántica cognitiva

“Numerosos conceptos denotados por palabras concretas no pueden comprenderse al margen de las intenciones de los intervinientes o de las convenciones y los comportamientos sociales y culturales en los que se sitúa la acción, el estado o el objeto”

[Croft (2004) Lingüística cognitiva. p.30]

2.2 Semántica estructural vs. cognitiva

Semántica estructural vs. cognitiva

•Criterio veritativo-condicional para la conceptualización:

ej. [mujer > femenino, adulto, etc.]

Semántica estructural vs. cognitiva

•Criterio veritativo-condicional para la conceptualización:

ej. [mujer > femenino, adulto, etc.]

•Existen asimetrías semánticas que no se explican con la teoría de los

rasgos. El oyente evoca actitudes y comportamientos en el proceso de

comprensión: semántica de la comprensión

Semántica estructural vs. cognitiva•Criterio veritativo-condicional para la conceptualización:

ej. [mujer > femenino, adulto, etc.]

•Existen asimetrías semánticas que no se explican con la teoría de los

rasgos. El oyente evoca actitudes y comportamientos en el proceso de

comprensión: semántica de la comprensión

•Fillmore entiende al marco como una región coherente del

conocimiento humano y del espacio conceptual. Langacker lo llama

base, Lakoff lo llama dominio (domain)

Semántica estructural vs. cognitiva

• Ej. 1-Those are live lobsters/ those lobsters are alive

2-Her manner is very alive/ She has a very alive manner

3-His performance was live / He gave a live performance

•En estas oraciones la diferencia entre live - alive sería

inexplicable con la teoría de los rasgos

•Los conceptos se asocian de manera diferente a tres marcos

distintos: 1-vida, 2-personalidad, 3-modo de actuar

3. Argumentos semánticos

3.1 Criterios3.2 Tipología3.3 Clases conceptuales

3.1 Criterios

•¿Cómo se determinan los argumentos semánticos?

3.1 Criterios

•¿Cómo se determinan los argumentos semánticos?

=Propiedades formales:

3.1 Criterios

•¿Cómo se determinan los argumentos semánticos?

=Propiedades formales:

*Concordancia : nº y persona (1º argumentos)

3.1 Criterios

•¿Cómo se determinan los argumentos semánticos?

=Propiedades formales:

*Concordancia : nº y persona (1º argumentos)

*Pronombres clíticos de 3ªp (2º argumentos)

3.1 Criterios

•¿Cómo se determinan los argumentos semánticos?

=Propiedades formales:

*Concordancia : nº y persona (1º argumentos)

*Pronombres clíticos de 3ªp (2º argumentos)

*Preposiciones (2º argumentos)

3.1 Criterios

•¿Cómo se determinan los argumentos semánticos?

=Propiedades formales:

*Concordancia : nº y persona (1º argumentos)

*Pronombres clíticos de 3ªp (2º argumentos)

*Preposiciones (2º argumentos)

•Complementos adjuntos: no responden a esas propiedades formales

3.1 Criterios•¿Cómo se determinan los argumentos semánticos?

=Propiedades formales:

*Concordancia : nº y persona (1º argumentos)

*Pronombres clíticos de 3ªp (2º argumentos)

*Preposiciones (2º argumentos)

•Complementos adjuntos: no responden a esas propiedades formales

•Así se caracterizan los predicados del léxico y se estudia su

proyección sintáctica como reflejo de la estructura conceptual

3.1 Criterios

•Ej. Comentario > nombre predicativo >

Juan le hizo un comentario a María (sobre X a través de X)

1º argumento 2º argumento 1º compl. adj. 2º compl. adj.

quién comenta a quién comenta el tema el medio

3.2 Tipología

3.2 Tipología

•Externos: se manifiestan fuera del grupo analizado

ej. [los políticos]ext decidieron bajar los impuestos

3.2 Tipología

•Externos: se manifiestan fuera del grupo analizado

ej. [los políticos]ext decidieron bajar los impuestos

•Implícitos: están elididos, se utilizan etiquetas

sintácticas para dar cuenta de la elisión

ej. Ya no se estila ser ∅ galante con las mujeres

3.2 Tipología

•Externos: se manifiestan fuera del grupo analizado

ej. [los políticos]ext decidieron bajar los impuestos

•Implícitos: están elididos, se utilizan etiquetas

sintácticas para dar cuenta de la elisión

ej. Ya no se estila ser ∅ galante con las mujeres

•Incorporados: Se funden con el predicado

ej. les ametrallaron [ametralladora+disparar]

3.3 Clases conceptuales

•Son redes estructuradas conceptualmente que establecen

relaciones de herencia con los argumentos

3.3 Clases conceptuales

•Son redes estructuradas conceptualmente que establecen

relaciones de herencia con los argumentos

• Ej. empujar, cuyos argumentos nucleares son agente y tema

pertenece a una clase semántica general: la de los verbos

cuyos predicados son eventivos, de esta clase hereda los

argumentos no nucleares temporales o locativos

3.3 Clases conceptuales

“Las propiedades semánticas más generales, es decir, aquellas que afectan a múltiples clases semánticas, se pueden explicar por medio de las relaciones de herencia que se establecen en el marco de la red conceptual en al que se integran los predicados del léxico”

[p. 6]

4. Estructura

4.1 Corpus4.2 Software4.3 Base de datos4.4 Usabilidad

4.1 Corpus

• Consta de 350 millones de palabras: * 60% del español de América * 40% del español europeo

• Base textual: * 31% textos periodísticos * 45% textos de divulgación de noticias *14% lengua oral *Otros: ensayos humanísticos, críticas de libros

4.1 Corpus: aplicaciones

•Para la etiquetación, lematización y especificación

morfológica: aplicación de transducción léxica a través de

un diccionario electrónico expandido de 600 mil formas

•Reconocimiento, control y extracción (identificar

elementos léxicos que necesitan información sintáctica):

ALIA (Algoritmo de intersección de autómatas)

•Para las consultas de las palabras en concordancia:

XKWIC

4.1 Corpus: aplicaciones

4.1 Corpus: aplicaciones

•Para la etiquetación, lematización y especificación

morfológica: aplicación de transducción léxica a través de

un diccionario electrónico expandido de 600 mil formas

4.1 Corpus: aplicaciones

•Para la etiquetación, lematización y especificación

morfológica: aplicación de transducción léxica a través de

un diccionario electrónico expandido de 600 mil formas

•Reconocimiento, control y extracción (identificar

elementos léxicos que necesitan información sintáctica):

ALIA (Algoritmo de intersección de autómatas)

4.1 Corpus: aplicaciones

•Para la etiquetación, lematización y especificación

morfológica: aplicación de transducción léxica a través de

un diccionario electrónico expandido de 600 mil formas

•Reconocimiento, control y extracción (identificar

elementos léxicos que necesitan información sintáctica):

ALIA (Algoritmo de intersección de autómatas)

•Para las consultas de las palabras en concordancia:

XKWIC

4.2 Software

4.2 Software

•Las elementos extraídos del corpus se anotarán

semántica y sintácticamente: núcleo central del

desarrollo del proyecto

4.2 Software

•Las elementos extraídos del corpus se anotarán

semántica y sintácticamente: núcleo central del

desarrollo del proyecto

•Para ello se utilizará la aplicación FNDesktop que lo

realiza semiautomáticamente

4.2 Software•Las elementos extraídos del corpus se anotarán

semántica y sintácticamente: núcleo central del

desarrollo del proyecto

•Para ello se utilizará la aplicación FNDesktop que lo

realiza semiautomáticamente

•Permite tres niveles de anotación que permiten

especificar: el argumento semántico, su función

sintáctica y el tipo de constituyente

4.3 Base de datos

4.3 Base de datos

•Las oraciones extraídas del corpus y anotadas se

importarán a una base de datos

4.3 Base de datos

•Las oraciones extraídas del corpus y anotadas se

importarán a una base de datos

•Esa base estará en la plataforma MySQL (sistema de

gestión de bases de datos relacional)

4.3 Base de datos

•Las oraciones extraídas del corpus y anotadas se

importarán a una base de datos

•Esa base estará en la plataforma MySQL (sistema de

gestión de bases de datos relacional)

•Los datos se importarán en formato XML que

pertenece al lenguaje de marcas (formato semántico)

4.4 Usabilidad: consultas

4.4 Usabilidad: consultas

•Finalmente, la base de datos etiquetada se puede

consultar con el programa FrameSQL

4.4 Usabilidad: consultas

•Finalmente, la base de datos etiquetada se puede

consultar con el programa FrameSQL

•Permite consultar tanto la descripción de los marcos

semánticos y sus argumentos como la visualización de

la construcción sintáctica

4.4 Usabilidad: consultas

•Finalmente, la base de datos etiquetada se puede

consultar con el programa FrameSQL

•Permite consultar tanto la descripción de los marcos

semánticos y sus argumentos como la visualización de

la construcción sintáctica

•Consultas transversales: dentro de un marco semántico

o de toda la base datos

4.4 Usabilidad: aplicaciones

4.4 Usabilidad: aplicaciones

•La base de datos servirá como un diccionario semántico

en línea

4.4 Usabilidad: aplicaciones

•La base de datos servirá como un diccionario semántico

en línea

•También, como corpus de entrenamiento para

aplicaciones de etiquetación semántica automática

4.4 Usabilidad: aplicaciones

•La base de datos servirá como un diccionario semántico

en línea

•También, como corpus de entrenamiento para

aplicaciones de etiquetación semántica automática

•Además, al estar enlazada con otros corpus, actuará

como nodo entre un conjunto de bases de datos

5. Conclusiones

5.1 Algunas críticas5.2 Algunas sugerencias5.3 Para finalizar

5.1 Algunas críticas

•La interfaz es demasiado compleja

5.1 Algunas críticas

•La interfaz es demasiado compleja

•Las etiquetas deberían estar traducidas al español

5.1 Algunas críticas

•La interfaz es demasiado compleja

•Las etiquetas deberían estar traducidas al español

•Los textos son mayoritariamente periodísticos, lengua

[+formal], [+estándar]

5.1 Algunas críticas

•La interfaz es demasiado compleja

•Las etiquetas deberían estar traducidas al español

•Los textos son mayoritariamente periodísticos, lengua

[+formal], [+estándar]

•El porcentaje de textos del español europeo y del

español americano no es proporcionado (D 46)

5.1 Algunas críticas

•La interfaz es demasiado compleja

•Las etiquetas deberían estar traducidas al español

•Los textos son mayoritariamente periodísticos, lengua

[+formal], [+estándar]

•El porcentaje de textos del español europeo y del

español americano no es proporcionado

5.2 Algunas sugerencias

•Mejorar la visibilidad de la interfaz para poder entender

el concepto de red semántica

•Unificar la lengua

•Utilizar fuentes orales que presenten una sintaxis más

laxa donde actúen factores pragmáticos

5.3 Para finalizar

•El proyecto es muy interesante y ambicioso: hacer visibles

las redes congnitivas de la conceptualización

•Permite un tipo de consultas que pone de manifiesto la

determinación mútua entre sintaxis y semántica

•Gracias a la conjunción lingüísitica y tecnología puede

crear un mapa virtual a base de datos reales que son prueba

empírica de esquemas cognitivos

Bibliografía• BAKER, Collin F.; FILLMORE, Charles; CRONIN, Beau. 2003. The Structure of the

FrameNet Database. International Journal of Lexicography 16.3:281-296 (http://www3.oup.co.uk/lexico/hdb/Volume_16/Issue_03/pdf/160281.pdf).

• CROFT, W. and CRUSE, A. 2004. Cognitive linguistics. Cambridge University Press

• FILLMORE, Charles J. 1985. Frames and the semantics of understanding. Quaderni di Semántica 6.2:222-254.

• FILLMORE, Charles J.; BAKER, Collin F.; SATO, Hiroaki. 2002. The FrameNet Database and Software Tools. In Proceedings of the Third International Conference on Language Resources and Evaluation (LREC). Las Palmas, pp. 1157-1160 (http://framenet.icsi.berkeley.edu/~framenet/papers/demo4.pdf).

• SUBIRATS, Carlos; SATO, Hiroaki. 2004. Spanish FrameNet and FrameSQL 4th International Conference on Language Resources and Evaluation (LREC), 14Workshop on Building Lexical Resources from Semantically Annotated Corpora, May 30, 2004. Lisboa (http://seneca.uab.es/csubirats/Subirats-Sato_LREC-2004.doc)