S.E.P. S.E.S. D.G.E.S.T. - CENIDET · Cognitivo de nuevas unidades lingüísticas y generar sus...

76
S.E.P. S.E.S. D.G.E.S.T. CENTRO NACIONAL DE INVESTIGACIÓN Y DESARROLLO TECNOLÓGICO cenidet DESCRIPCIÓN AUTOMÁTICA DE IMÁGENES ESTÁTICAS EN LENGUAJE NATURAL T E S I S PARA OBTENER EL GRADO DE: MAESTRO EN CIENCIAS EN CIENCIAS COMPUTACIONALES P R E S E N T A : PABLO SÁNCHEZ LUNA DIRECTORES DE TESIS: DRA. AZUCENA MONTES RENDÓN DR. RAÚL PINTO ELÍAS CUERNAVACA, MORELOS DICIEMBRE DE 2005

Transcript of S.E.P. S.E.S. D.G.E.S.T. - CENIDET · Cognitivo de nuevas unidades lingüísticas y generar sus...

Page 1: S.E.P. S.E.S. D.G.E.S.T. - CENIDET · Cognitivo de nuevas unidades lingüísticas y generar sus reglas. Esta metodología es aplicable a otros lenguajes, sin embargo el análisis

S.E.P. S.E.S. D.G.E.S.T.

CENTRO NACIONAL DE INVESTIGACIÓN Y DESARROLLO TECNOLÓGICO

cenidet

DESCRIPCIÓN AUTOMÁTICA DE IMÁGENES

ESTÁTICAS EN LENGUAJE NATURAL

T E S I S

PARA OBTENER EL GRADO DE:

MAESTRO EN CIENCIAS

EN CIENCIAS COMPUTACIONALES P R E S E N T A : PABLO SÁNCHEZ LUNA

DIRECTORES DE TESIS:

DRA. AZUCENA MONTES RENDÓN DR. RAÚL PINTO ELÍAS

CUERNAVACA, MORELOS DICIEMBRE DE 2005

Page 2: S.E.P. S.E.S. D.G.E.S.T. - CENIDET · Cognitivo de nuevas unidades lingüísticas y generar sus reglas. Esta metodología es aplicable a otros lenguajes, sin embargo el análisis

DEDICATORIAS

A Dios por permitirme concluir este trabajo.

Dedico está tesis a mi amada esposa Concepción C. H. por su infinita paciencia y

sacrificios para ver concluido este trabajo. Una especial dedicación es para mi hijo

Vidal.

También esta tesis está dedica a mi padres; Pablo Sánchez S. y Luz Luna S. por

depositar su confianza y paciencia durante toda mi educación.

A mis hermanos Carmelo, Laura, Raúl y Matilde por apoyarme cuando lo necesite.

A todos mis amigos y amistades

Page 3: S.E.P. S.E.S. D.G.E.S.T. - CENIDET · Cognitivo de nuevas unidades lingüísticas y generar sus reglas. Esta metodología es aplicable a otros lenguajes, sin embargo el análisis

AGRADECIMIENTOS En primer lugar agradezco a mis asesores de tesis: la Dra. Azucena Montes R. y el Dr.

Raúl Pínto E., así como también a mis revisores: la M.C. Andrea Magadán S., la M.C.

Cinthya Saldaña G. y al M.C. J. Antonio Zárate M., por haberme guiado durante el

proceso que conlleva realizar la tesis así como compartir sus conocimientos y

retroalimentar iniciativas como esta.

También agradezco al Cosnet por apoyarme económicamente para poder concluir este

trabajo.

Agradezco a mis compañeros de generación por compartir sus ideas y conocimientos

para llevar a cabo este trabajo.

Finalmente, agradezco al departamento de Servicios Escolares por guiarme en el

proceso administrativo durante toda mi estancia en el Cenidet.

Page 4: S.E.P. S.E.S. D.G.E.S.T. - CENIDET · Cognitivo de nuevas unidades lingüísticas y generar sus reglas. Esta metodología es aplicable a otros lenguajes, sin embargo el análisis

ABSTRACT

In this work, the description of an image in natural language is carried out. The main idea is that from an image, with objects without movement, it is possible to obtain phrases in Spanish describing the position among the objects. In order to put this description into effect, we place ourselves in a theoretical model in which a cognitive-semantic analysis of linguistic units such as the prepositions sobre (on), en (in), entre (between) and the verb tocar (to touch) is realized. This analysis will allow to establish rules which will determine the relationship or position among the objects. The description of the image starts from two processes: the Geometric Description of the Objects of Image (GDOI) and the Cognitive-Semantic Analysis (CSA). In the first process the information related among objects, their coordinates, their areas and central points are obtained. In the second process, we place ourselves in a model called Cognitive and Applicative Grammar. In this model, the CSA of some linguistic units such as prepositions and a verb is carried out aiming to extract pertinent information to use with the GDOI in order to establish the rules which will determine the relationship in words among the objects. The present work shows how a CSA of linguistic units can take part in the creation of rules which comparing hard data, determine the position of the objects in natural language. For the description of large variety of images it is necessary to realize a CSA of new linguistic units and to generate their rules. This methodology is applicable to other languages; however the CSA and the rules not necessarily are the same. The type of images with which the tests are accomplished are of map of bits. It is important to point out that in Spanish, the preposition en (in) embraces the spatial uses of the preposition sobre (on); therefore, the same situation may be described using any of these two prepositions, but the cognitive representation is different. The algorithm fulfilled provides an acceptation result of a 90% from a total of 25 images. The 10 % of failing is due to the form in which the objects of the image are segmented. We have a margin of error due the borders of the objects and this has repercussions on the rules. We use sentence structures for constructing the phrases.

Page 5: S.E.P. S.E.S. D.G.E.S.T. - CENIDET · Cognitivo de nuevas unidades lingüísticas y generar sus reglas. Esta metodología es aplicable a otros lenguajes, sin embargo el análisis

INTRODUCCIÓN

En este trabajo, se lleva a cabo la descripción de una imagen en lenguaje natural. La principal idea es que a partir de una imagen con objetos sin movimiento, es posible obtener frases en Español describiendo la posición entre los objetos. Para llevar a cabo esta descripción, nos situamos en un modelo teórico en el cual se realiza un análisis semántico-cognitivo de unidades lingüísticas tales como las preposiciones sobre, en, entre y el verbo tocar. Este análisis permite establecer reglas las cuales determinan las relaciones o posiciones entre los objetos. La descripción de la imagen inicia a partir de dos procesos: La Descripción Geométrica de los Objetos de la Imagen (DGOI) y el análisis Semántico-Cognitivo. En el primer proceso se obtiene la información de los objetos como es, sus coordenadas, sus áreas y sus puntos centrales. En el segundo proceso, nos situamos en un modelo llamado Gramática Aplicativa y Cognitiva. En este modelo, se realiza un análisis Semántico-Cognitivo de algunas preposiciones y un verbo para extraer información pertinente y usarla con la DGOI para establecer las reglas que determinan las relaciones en palabras entre los objetos. El presente trabajo muestra como un análisis Semántico-Cognitivo de unidades lingüísticas puede tomar parte en la creación de reglas, las cuales al comparar datos duros, determinan la posición de los objetos en lenguaje natural. Para la descripción de una gran variedad de imágenes es necesario llevar a cabo un análisis Semántico-Cognitivo de nuevas unidades lingüísticas y generar sus reglas. Esta metodología es aplicable a otros lenguajes, sin embargo el análisis Semántico-Cognitivo y las reglas no son necesariamente las mismas. El tipo de imágenes con las que se realizaron las pruebas son de formato de mapa de bits. Es importante señalar que en Español, la preposición en abarca los usos espaciales de la preposición sobre; por lo tanto, la misma situación puede ser descrita usando cualquiera de estas dos preposiciones, pero la representación cognitiva es diferente. El algoritmo propuesto aquí arroja un resultado de de aceptación de un 90% de un total de 25 imágenes. El 10% de fallas se debe a la forma en la cual los objetos de la imagen son segmentados. Se tiene un margen de error debido a los bordes de los objetos y esto repercute en las reglas. Se usan estructuras de oración para construir las frases.

Page 6: S.E.P. S.E.S. D.G.E.S.T. - CENIDET · Cognitivo de nuevas unidades lingüísticas y generar sus reglas. Esta metodología es aplicable a otros lenguajes, sin embargo el análisis

CONTENIDO Lista de figuras ................................................................................................................................... i Lista de tablas .................................................................................................................................... iii Glosario ….......................................................................................................................................... iv CAPÍTULO I. INTRODUCCIÓN 1.1. Introducción ........................................................................................................................... 2 1.2. Objetivo de la tesis ....…..…..…..…..…..…..…..…..…..…..…..…..………………………. 3 1.3. Descripción del problema ...................................................................................................... 3 1.4. Beneficios ..…..…..…..…..…..…..…..…..…...…..…………...…..…..…..……………….. 5 1.5. Alcances y limitaciones …..…..…..…..…..…...…..…...…..…..…..………………………. 5 1.5.1. Alcances …..…..…..…..…..…...…..…...…..…..…..…………………………….. 5 1.5.2. Limitaciones …..…..…..…..…...…..…...…..…..…..…………………………….. 6 1.6. Disciplinas involucradas …..…..…..…..…..…...……...…..…..…..………………………. 7 1.7. Aplicaciones …..…..…..…..…..…...……...…..…..…..…………………………………… 7 1.8. Organización de la tesis ......................................................................................................... 8 CAPÍTULO II. TRABAJOS RELACIONADOS 2.1. Introducción .......................................................................................................................... 10 2.2. Incremental Natural Language Dscription of Dynamic Imagery …………………….....… 10 2.2.1. Evaluación simultánea y descripción en lenguaje natural de secuencias de

imágenes ………………………………………………………………………..

10 2.2.2. Estructura general ……………………………………………………………… 10 2.2.3. Capacidades del sistema ..……………………………………………………… 12 2.3 Integrating Vision and Language: Towards Automatic Description of Human Movements. 13 2.3.1. Reconocimiento basado en modelos de movimientos humanos ……………….. 13 2.3.2. Análisis de la escena a un alto nivel …………………………………………... 14 2.3.3. Generando descripciones en lenguaje natural ………………………………….. 15 2.4. Automatic Generation of Natural Language Descriptions for Images ……………………. 16 2.4.1. Algoritmo ………………………………………………………………………. 17 2.4.2. Segmentación de la imagen ……………………………………………………. 18 2.4.3. Indexación de la imagen ……………………………………………………….. 18 2.4.4. Procesamiento del texto ………………………………………………………... 19 2.5. Conclusiones ………………………………………………………...………………........... 19 CAPÍTULO III. GRAMÁTICA APLICATIVA Y COGNITIVA 3.1. Introducción ........................................................................................................................... 22 3.2. Gramática Aplicativa y Cognitiva ......................................................................................... 22 3.3. Niveles de la GAC ................................................................................................................. 22 3.4. Formalismo del tercer nivel de la GAC …............................................................................. 23 3.5. Redes semántico-cognitivas ................................................................................................... 26 CAPÍTULO IV. DISEÑO 4.1. Introducción ........................................................................................................................... 29 4.2. Descripción Geométrica de los Objetos de la Imagen (DGOI) …….…….…….…….……. 29 4.3. Tratamiento lingüístico ………...……………….…….…….…….…….…….…….……… 31 4.4. Propuesta de solución ............................................................................................................ 32 4.5. Características de las imágenes ............................................................................................. 33 4.5.1. Otros aspectos de interés ..................................................................................... 33

Page 7: S.E.P. S.E.S. D.G.E.S.T. - CENIDET · Cognitivo de nuevas unidades lingüísticas y generar sus reglas. Esta metodología es aplicable a otros lenguajes, sin embargo el análisis

CAPÍTULO V. TRATAMIENTO LINGÜÍSTICO

5.1. Análisis semántico-cognitivo ................................................................................................. 35 5.1.1. Introducción ............................................................................................................ 35 5.1.2. La preposición sobre …........................................................................................... 36 5.1.3. La preposición en ….…........................................................................................... 39 5.1.4. La preposición entre ……………………………...…............................................ 41 5.1.5. El verbo tocar …………......................................................................................... 43 5.2. Reglas generadas ................................................................................................................... 46 5.2.1. sobre …...………………...…………………………...………………...………… 46 5.2.2. en …...………………...…………………………...………………...……………. 47 5.2.3. entre …...………………...…………………………...………………...………… 48 5.2.4. tocar …...………………...…………………………...………………...………… 48 5.3. Análisis sintáctico .................................................................................................................. 49 5.3.1. Estructuras de oración ……………………………………………………………. 49 5.4. Conclusiones .......................................................................................................................... 50 CAPÍTULO VI. PRUEBAS Y RESULTADOS 6.1. Introducción ........................................................................................................................... 53 6.2. Pruebas y resultados .............................................................................................................. 53 6.2.1. Caso de prueba 1: Todas las preposiciones y el verbo analizados .......................... 53 6.2.2. Caso de prueba 2: Varios objetos sobre un mismo objeto ……….......................... 54 6.2.3. Caso de prueba 3: El verbo tocar y la locución prepositiva junto a ....................... 55 6.2.4. Caso de prueba 4: Pluralización de objetos ............................................................. 57 6.2.5. Caso de prueba 5: Un letrero, un anuncio y una mesa en la pared ......................... 58 6.2.6. Caso de prueba 6: Agregando elementos a la BDP. ………………....................... 58 6.2.7. Caso de prueba 7: Omitiendo objetos en la descripción de la imagen..................... 58 6.3. Comparación con otros trabajos ....................……….......………………………................. 59 CAPÍTULO VII. CONCLUSIONES 7.1. Introducción ........................................................................................................................... 61 7.2. Metas alcanzadas ................................................................................................................... 61 7.3. Trabajos futuros ..................................................................................................................... 62 Referencias ......................................................................................................................................... 63

Page 8: S.E.P. S.E.S. D.G.E.S.T. - CENIDET · Cognitivo de nuevas unidades lingüísticas y generar sus reglas. Esta metodología es aplicable a otros lenguajes, sin embargo el análisis

i

LISTA DE FIGURAS

Figura 1.1. Secuencia de las etapas para realizar la descripción de una imagen ... 4 Figura 1.2. Integración de diversas áreas en el intento por describir una imagen . 7 Figura 2.1. Arquitectura del sistema integrado .………………...……………….. 11 Figura 2.2. Ventana básica de Vitra ….……………...…………………………... 12 Figura 2.3. Modelo 3D del cuerpo humano .………...…………………………... 14 Figura 2.4. Niveles de representación en la transformación de datos visuales a descripciones verbales ….……...…………………………...………...………….. 15 Figura 2.5. Modelo de un evento para el concepto ‘move-across’ ...…….……… 15 Figura 2.6: Mensajes pre-verbales y sentencias generadas ....…………………… 16 Figura 2.7. Cuatro ejemplos de imágenes tratadas .………..…………….………. 17 Figura 2.8. Cinco objetos del diccionario. Firma (Signatura) del objeto ..…...….. 17 Figura 2.9. Tres pasos del algoritmo ....……………………....………………….. 18 Figura 2.10. Ejemplo de texto generado en francés ....…...…………………….... 19 Figura 3.1. ESC para el verbo estar, para la expresión: Pedro está en México …. 24 Figura 3.2. Representación de la expresión: Pedro está en México …….………. 24 Figura 3.3. ESC para el verbo dar, para la expresión: Juan da el libro a María .. 25 Figura 3.4. ESC para el verbo crecer, para la expresión: El maíz crece

rápidamente …....…..………..………..………..………..………..………..……. 26 Figura 3.5. RSC para el verbo entrar …….…..………..………..………..……… 26 Figura 3.6. ESC para el verbo entrar, para la expresión: Entrar a la casa ……... 27 Figura 3.7. ESC para el verbo entrar, para la expresión: El anillo me entra ….... 27 Figura 4.1. Representación de las coordenadas obtenidas para el objeto i …….... 30 Figura 4.2. Representación de la DGOI obtenida a partir de la imagen …….…... 30 Figura 4.3. Proceso y diseño de solución …….…..………..………..………..….. 33 Figura. 5.1. Análisis semántico-cognitivo para la expresión: El libro está sobre la mesa …….…..………..………..………..………..………..………..………… 37 Figura. 5.2. ESC para la expresión: El libro está sobre la mesa ….……..……… 37 Figura. 5.3. Análisis semántico-cognitivo para la expresión: Rosa puso su rebozo sobre la cabeza ………....………..………..………..………..………..…. 37 Figura 5.4. ESC para la expresión: Rosa se puso su rebozo sobre la cabeza ….... 38 Figura 5.5. Análisis semántico-cognitivo para la expresión: Las nubes están sobre los cerros ….……..………..………..………..………..………..…………. 38 Figura 5.6. ESC para la expresión: Las nubes están sobre los cerros. ………….. 38 Figura. 5.7. Análisis semántico-cognitivo para la expresión: El libro está en la caja ………..………..………..………..………..………..………..………..……. 40 Figura. 5.8. ESC para la expresión: El libro está en la caja .………..…………... 40 Figura. 5.9. Análisis semántico-cognitivo para la expresión: El parque del Retiro está en Madrid ………...………..………..………..………..………..…... 40 Figura. 5.10. ESC para la expresión: El libro está en la caja …….......…………. 41 Figura. 5.11. Análisis semántico-cognitivo para la expresión: Las cajas están entre el escritorio y el librero …….......………..………..………..………..……. 42 Figura. 5.12. ESC para la expresión: Las cajas están entre el escritorio y el librero………....………..………..………..………..………..………..………..… 42

Page 9: S.E.P. S.E.S. D.G.E.S.T. - CENIDET · Cognitivo de nuevas unidades lingüísticas y generar sus reglas. Esta metodología es aplicable a otros lenguajes, sin embargo el análisis

ii

Figura. 5.13. Análisis semántico-cognitivo para la expresión: El pantalón está en el armario entre la ropa sucia …….…..………..………..………..………..…

42

Figura. 5.14. ESC para la expresión: El pantalón está en el armario entre la

ropa socia …...…....………..………..………..………..…………..………..…… 43 Figura 5.15. ESC para la expresión: Juan toca el libro ………...………..……… 44 Figura. 5.16. ESC para la expresión: El escritorio toca al librero …….………... 45 Figura 5.17. ESC para la expresión: Juan toca la puerta …….…………………. 45 Figura 5.18. RSC para el verbo tocar ……….………………………………….. 45 Figura. 5.19. Objetos que cumplen y no cumplen las condiciones de sobre ….… 47 Figura. 5.20. Objetos que cumplen y no cumplen las condiciones de en ……….. 47 Figura. 5.21. Objetos que cumplen y no cumplen las condiciones de entre ….…. 48 Figura. 5.22. Objetos que cumplen y no cumplen las condiciones de tocar …….. 49 Figura 6.1. Generación de frases involucrando todas las preposiciones y el verbo analizados ………...………..………..………..………..………………………… 53 Figura 6.2. Generación de frases relacionando varios objetos con un mismo objeto ………...………..………..………..………..…………..………..………... 54 Figura 6.3. Generación de frases involucrando el verbo tocar …..……………. 56 Figura 6.4. Generación de frases involucrando la locución prepositiva junto a .... 56 Figura 6.5. Generación de frases pluralizando el objeto libros …….…………… 57 Figura 6.6. Generación de frases de forma errónea …….……………………….. 57 Figura 6.7. Agregando un objeto a la BDP ...…………………………………..... 58 Figura 6.8. Describiendo una imagen sin el objeto foco ………..………………….. 59 Figura 7.1.a. Reconocimiento automático de objetos …………………………… 61 Figura 7.1.b. Reconocimiento manual de de objetos con DIE ………………… 61

Page 10: S.E.P. S.E.S. D.G.E.S.T. - CENIDET · Cognitivo de nuevas unidades lingüísticas y generar sus reglas. Esta metodología es aplicable a otros lenguajes, sin embargo el análisis

iii

LISTA DE TABLAS

Tabla 3.1. Niveles en que se divide la Gramática Aplicativa y Cognitiva. ……… 23 Tabla 4.1. Convenciones utilizadas para representar las coordenadas de los objetos contenidos en la imagen (cuadros). ……………………………………… 30 Tabla 5.1. Convenciones utilizadas para representar las unidades lingüísticas de una estructura sintáctica. ……………………………………………………….. 50 Tabla 6.1. Descripciones completas para la figura 6.1. ………………………….. 54 Tabla 6.2. Comparación de trabajos relacionados. ………………………………. 59

Page 11: S.E.P. S.E.S. D.G.E.S.T. - CENIDET · Cognitivo de nuevas unidades lingüísticas y generar sus reglas. Esta metodología es aplicable a otros lenguajes, sin embargo el análisis

iv

GLOSARIO BDP Base de Datos de Palabras CHANG Cambio CONTR Control DGOI Descripción Geométrica de la Imagen ESC Esquema Semántico-Cognitivo GAC Gramática Aplicativa y Cognitiva MOUV Movimiento Polisemia Pluralidad de significados de verbos RSC Red Semántica-Cognitiva TELEO Intención

Page 12: S.E.P. S.E.S. D.G.E.S.T. - CENIDET · Cognitivo de nuevas unidades lingüísticas y generar sus reglas. Esta metodología es aplicable a otros lenguajes, sin embargo el análisis

Capítulo

I

Introducción Contenido:

Introducción Objetivo de la tesis Descripción del problema Beneficios Alcances y limitaciones Disciplinas involucradas Aplicaciones Organización de la tesis

Page 13: S.E.P. S.E.S. D.G.E.S.T. - CENIDET · Cognitivo de nuevas unidades lingüísticas y generar sus reglas. Esta metodología es aplicable a otros lenguajes, sin embargo el análisis

Descripción de imágenes estáticas en lenguaje natural Capítulo I. Introducción

2

1.1. Introducción

La interpretación de una escena1 a un alto nivel, consiste en “entenderla”, más allá de un reconocimiento de objetos. Las interpretaciones para una escena involucran varias características, como por ejemplo: un número variado de objetos, dependen de relaciones espaciales y temporales entre las partes de la escena, la describen en términos cualitativos omitiendo detalles geométricos, están basadas en conocimiento conceptual y experiencia acerca del mundo [1]. En varios trabajos [5, 6 y 7], la tarea de interpretar una escena, se divide en dos procesos, visión de bajo nivel y de alto nivel. En el primero, se realiza la adquisición, preprocesado, segmentación, seguimiento y reconocimiento de imágenes; en el segundo, se lleva a cabo un análisis para reconocer unidades conceptuales en un nivel de abstracción y se realiza el análisis lingüístico para generar las oraciones. Desde otro punto de vista, en González [4] se muestra que, para realizar el tratamiento de una imagen, se requieren las siguientes etapas: adquisición de la imagen, preprocesado, segmentación, representación y descripción y, reconocimiento e interpretación. Todas estas fases interactuando con una base de conocimientos. De esta manera, existen diferentes enfoques para llevar a cabo el tratamiento de imágenes o escenas. Independientemente de cualquier enfoque para interpretar una imagen o escena, se requiere que ésta sea considerada en un dominio restringido, ya que dependiendo del problema planteado se utilizará alguna técnica o algoritmo en particular para resolver cada una de dichas fases de interpretación/tratamiento de una escena o imagen. Debido a la complejidad que representa llevar a cabo la interpretación de una escena o imagen en el objetivo planteado en este trabajo, se propone describir una imagen asumiendo un reconocimiento e interpretación de los objetos contenidos en la misma en forma manual. De esta forma, esta tesis está delimitada a trabajar con imágenes estáticas excluyendo escenas en movimiento. Así, este proyecto se enfoca en la parte lingüística para describir la imagen basándose en la información de la imagen representada en términos numéricos. Para llevar a cabo la descripción de una imagen se consideran dos procesos: una Descripción Geométrica de los Objetos de la Imagen (DGOI) y un Análisis lingüístico. En el primer proceso, se obtiene la información de la imagen en términos cuantitativos. Las diferentes partes de la imagen constituyen los objetos contenidos en la imagen. Los objetos son guardados en un registro con sus respectivos datos, obteniendo así la DGOI. En el segundo proceso, se sitúa el modelo llamado Gramática Aplicativa y Cognitiva [2]. En éste, se realiza un análisis semántico-cognitivo de algunas unidades lingüísticas con el fin de extraer información cognoscitiva como posiciones, localización, tamaños, etc., y utilizar esta información y relacionarla con la obtenida en el proceso de la DGOI, con el objeto de establecer las reglas que determinen la relación en palabras. En este

1 Una escena es definida como: Sección del mundo real fija (3D) o en movimiento (4D). Una imagen es definida como: Vista de una escena (proyección, profundidad en la imagen, densidad de la imagen (2D), secuencia de la imagen (3D)) [1].

Page 14: S.E.P. S.E.S. D.G.E.S.T. - CENIDET · Cognitivo de nuevas unidades lingüísticas y generar sus reglas. Esta metodología es aplicable a otros lenguajes, sin embargo el análisis

Descripción de imágenes estáticas en lenguaje natural Capítulo I. Introducción

3

mismo proceso, se realiza un análisis sintáctico para generar las expresiones o frases de manera correcta sintáctica y semánticamente para describir la imagen. 1.2. Objetivo de la tesis

El objetivo general de este trabajo es realizar una descripción automática en lenguaje natural de imágenes estáticas. Se pretende obtener frases en español que describan la relación entre los objetos a partir de una imagen sin movimiento. Las frases generadas darán una descripción posicional de los objetos seleccionados y no una descripción de las características de los mismos. Para llevar a cabo esta descripción, se realiza un análisis lingüístico basado en un modelo llamado Gramática Aplicativa y Cognitiva en el cual se realiza un análisis semántico-cognitivo de unidades lingüísticas. De acuerdo a González [4] la tarea de la descripción de una imagen, corresponde a la etapa de la interpretación de la imagen según el proceso de Visión Artificial (VA). De acuerdo a [1] interpretar una imagen corresponde a un proceso de visión de alto nivel. En este trabajo, se asume que los objetos contenidos en la imagen son reconocidos o identificados manualmente y etiquetados para su posterior análisis. De esta forma, mediante el proceso de la DGOI descrito en el capítulo IV Diseño, se obtiene la información de la imagen en términos cuantitativos para su posterior análisis. Así, en este trabajo, a partir de una imagen se pretende, realizar la descripción que consiste en detallar la posición y relación entre los objetos que aparecen en una imagen utilizando frases en español. Estas frases no se limitan a posiciones “puntuales” como x está abajo de y, y está arriba de x, w está a la izquierda de y, sino que intentan realizar frases más completas y más precisas como el escritorio toca al librero, el libro está sobre la mesa, la lámpara está entre el sofá y la cama, etc., involucrando preposiciones (sobre, entre, y en) y un verbo (tocar) dando una idea más precisa de la situación de cada imagen. 1.3. Descripción del problema

El lenguaje y la percepción se encuentran estrechamente relacionados por la forma en que el ser humano percibe el mundo. En otras palabras, se tiene una visión del mundo que nos rodea; en la mente se forma un juicio de lo percibido y se conceptualiza para posteriormente verbalizarlo. Esta es la idea en que se fundamenta el presente trabajo al intentar describir una imagen mediante el lenguaje natural. Para que el ser humano pueda describir una escena del mundo real, éste percibe elementos que debe distinguir y ubicar en una situación para luego verbalizarlos. Una persona podría hacer una descripción verbal de una escena, mientras que otra persona podría tener otra descripción verbal diferente de la misma escena. Por ejemplo, la frase Juan pasea en el caballo, podría también ser descrita de la siguiente manera Juan pasea a caballo, utilizando así diferentes preposiciones. “Toda expresión lingüística es una forma peculiar de verbalizar el mundo que para ser perceptivamente accesible necesita diferenciar una parte más importante y otra que la es

Page 15: S.E.P. S.E.S. D.G.E.S.T. - CENIDET · Cognitivo de nuevas unidades lingüísticas y generar sus reglas. Esta metodología es aplicable a otros lenguajes, sin embargo el análisis

Descripción de imágenes estáticas en lenguaje natural Capítulo I. Introducción

4

menos” (A. López García, Gramática del español, Madrid, Arco libros, Tomo I, 1994, Pág. 71, [3]). Como se mencionó en el objetivo de este trabajo, se intenta realizar una descripción de una imagen en lenguaje natural. Esta descripción será el resultado de un análisis lingüístico relacionado con la información de la imagen expresada numéricamente (DGOI). El problema en este trabajo radica principalmente en poder establecer una relación entre los resultados del análisis lingüístico basado en el modelo de la GAC y la DGOI. Con la GAC se realiza un análisis semántico-cognitivo de unidades lingüísticas. Dichas unidades lingüísticas serán empleadas para construir las frases. La DGOI, contiene información de las partes de la imagen en términos de coordenadas como resultado de un reconocimiento y etiquetamiento manual. Con los resultados obtenidos del análisis semántico-cognitivo expresado mediante reglas (condiciones que deben cumplir los objetos) es posible establecer una relación con los datos de la DGOI (ver detalles en el capítulo IV. Diseño). La figura 1.1. muestra la relación que se busca entre el análisis lingüístico y la DGOI.

Descripción de la imagen

Descripción Geométrica de la Imagen (DGI)

Imagen por analizar

Análisis semántico-cognitivo

Extracción de características de los objetos y etiquetamiento

Figura 1.1. Secuencia de las etapas para realizar la descripción de una imagen.

Criterios para determinar la relación entre los objetos contenidos en la imagen

Page 16: S.E.P. S.E.S. D.G.E.S.T. - CENIDET · Cognitivo de nuevas unidades lingüísticas y generar sus reglas. Esta metodología es aplicable a otros lenguajes, sin embargo el análisis

Descripción de imágenes estáticas en lenguaje natural Capítulo I. Introducción

5

1.4. Beneficios

Al abordar el estudio del Tratamiento del Lenguaje Natural (TLN) generalmente se encuentran muchos problemas que no se pueden resolver al tratar dominios amplios y complejos. Generalmente muchos de los sistemas que usan técnicas del TLN resuelven ciertas tareas que están muy restringidas. Al tratar, por ejemplo, sistemas de conversación, los sistemas están delimitados y tratan un dominio restringido. Generalmente, la mayoría de los trabajos en TLN tienen su mayor dificultad al tratar la parte semántica. Existen muchas técnicas para tratar el significado del lenguaje, sin embargo, casi siempre es abordado desde un punto de vista informático, y los métodos usuales de solución se basan en la Estadística. Este trabajo se justifica al abordar, por una parte, el problema de la semántica y por otra parte, se pretende establecer una relación entre el área del TLN y el de Visión Artificial. A continuación se mencionan los beneficios que pueden ser obtenidos de este trabajo:

� Obtener una herramienta de ayuda para gente con capacidades diferentes, en particular, gentes con problemas de la vista.

� Establecer una relación entre Visión Artificial y el Tratamiento del Lenguaje Natural teniendo como fundamento la percepción.

1.5. Alcances y limitaciones

En esta sección, se presentan los alcances y limitaciones planteadas al realizar este proyecto de tesis. 1.5.1. Alcances

Para llevar a cabo la descripción de la imagen se realiza un análisis semántico-cognitivo de las siguientes preposiciones: sobre, en y entre, y del verbo tocar. En el análisis de estas unidades lingüísticas se considera sólo su uso espacial2. Esto debido a las restricciones que presentan las imágenes mostradas en el capítulo IV. Diseño. También, como se mencionó en las secciones precedentes, se lleva a cabo el proceso DGOI para obtener la información cuantitativa con la imagen a tratar. Finalmente, se propone un análisis sintáctico para establecer las estructuras de oración que permitirán generar una determinada frase. Ejemplo, el libro está sobre el escritorio tiene la siguiente estructura:

ARTI-SUST-VERB-PREP-ARTI-SUST Que corresponde a: ARTICULO-SUSTANTIVO-VERBO-PREPOSICIÓN-ARTICULO-SUSTANTIVO

Para poder generar una frase semánticamente correcta se recurre a una Base de Datos de Sustantivos (BDS) que contiene información de las palabras involucradas en la oración. Para una determinada palabra, se puede consultar su artículo definido e indefinido entre otra información gramatical (ver capítulo V. Tratamiento lingüístico).

2 En semántica los empleos o usos de unidades lingüística son espaciales, temporales o nocionales.

Page 17: S.E.P. S.E.S. D.G.E.S.T. - CENIDET · Cognitivo de nuevas unidades lingüísticas y generar sus reglas. Esta metodología es aplicable a otros lenguajes, sin embargo el análisis

Descripción de imágenes estáticas en lenguaje natural Capítulo I. Introducción

6

En resumen, los alcances en este proyecto son los siguientes:

� Descripción con frases en español a partir de una imagen estática. � Análisis semántico-cognitivo del verbo tocar, y las preposiciones sobre, en y

entre. � Representación cuantitativa de los objetos contenidos en la imagen obteniendo

una Descripción Geométrica de los Objetos de la Imagen. � Creación de una Base de Datos de Sustantivos (BDS) para almacenar

información de los objetos contenidos en las imágenes y después recuperarla cuando sea requerida.

� Análisis sintáctico para generar las frases de la descripción de la imagen. � Las imágenes son tomadas en un ángulo de 180º respecto del observador.

1.5.2. Limitaciones

La información obtenida por el proceso DGOI se realiza de manera semi-automática. Dada una imagen, el usuario selecciona los objetos contenidos en la imagen al encerrar con un rectángulo cada objeto de la imagen. Cada vez que un objeto es seleccionado, éste es etiquetado. De esta forma, para cada uno de los objetos seleccionados, son extraídos y calculados los siguientes datos: nombre del objeto, área, coordenadas y su punto central. Todos estos datos son almacenados en un registro. Una vez realizado el análisis lingüístico y concluido el proceso de la DGOI, se establecen criterios para determinar que preposición o verbo utilizar al momento de generar una determinada frase. Las imágenes de trabajo son sin movimiento y tomadas en lugares cerrados. Éstas son adquiridas de frente, es decir en un ángulo de 180º respecto del observador. El análisis lingüístico comprende trabajar con el lenguaje español considerando expresiones simples y en el caso del verbo en tiempo simple. Como un elemento auxiliar para generar las frases se recurre a la Base de Datos de Sustantivos recuperando información necesaria para construir adecuadamente las frases. La BDS contiene aproximadamente 120 registros. Resumiendo, las limitaciones en este proyecto son las siguientes:

� Restringido a un conjunto de preposiciones y a un verbo en siempre presente. � El tiempo de los verbos no será tratado en todas sus variantes, sólo en tiempo

presente. � Se analizarán imágenes sin movimiento. � La BDS contiene cerca de 120 registros. � El reconocimiento e interpretación de los objetos contenidos en la imagen a

tratar se realiza en forma semi-automática al reconocer y etiquetar manualmente cada objeto.

� Las imágenes son adquiridas de frente, es decir en un ángulo de 180º respecto del observador.

� Restringido a un conjunto de estructuras de oración para generar las frases.

Page 18: S.E.P. S.E.S. D.G.E.S.T. - CENIDET · Cognitivo de nuevas unidades lingüísticas y generar sus reglas. Esta metodología es aplicable a otros lenguajes, sin embargo el análisis

Descripción de imágenes estáticas en lenguaje natural Capítulo I. Introducción

7

1.6. Disciplinas involucradas

Este trabajo se realiza en el área de la IA3. Para llevar a cabo esta descripción de la imagen, se involucra el área del TLN4 y Visión Artificial, figura 1.2. Concretamente, se enfoca en la parte de la interpretación del tratamiento de una imagen [4]. Asumiendo la interpretación y el reconocimiento de objetos en la imagen, se desarrolla un análisis lingüístico basándose en el modelo de la Gramática Aplicativa y Cognitiva para generar la descripción de la imagen. 1.7. Aplicaciones

En esta tesis, se trabaja con imágenes estáticas. Sin embargo, se pretende que en este trabajo sea la base para trabajos futuros al tratar con imágenes ya sean estáticas o dinámicas en lenguaje español5. A continuación se mencionan algunas aplicaciones, relacionadas la mayoría con secuencias de imágenes [1].

• Observaciones de tráfico en una calle. • Monitoreo con cámaras en lugares de parques, plataformas de ferrocarril,

supermercados, plantas nucleares, entre otros. • Obtención y recuperación de video. • Narrador de un partido de soccer. • Cámaras inteligentes en cuartos. • Robots autónomos. • Enseñanza del uso adecuado de preposiciones en español. • Ayuda a personas con capacidades diferentes.

3 La IA (Inteligencia Artificial) como área pluridisciplinaria cuenta con los siguientes dominios: demostración automática de teoremas, tratamiento automático de la voz, interpretación de imágenes por computara, robótica, juegos, sistemas expertos, lógica, psicología cognitiva, lingüística, neurociencias y biología [31] 4 En este trabajo, el TLN (Tratamiento del Lenguaje Natural) está enfocado a analizar el proceso de razonamiento haciendo intervenir la información y el conocimiento que nos proporciona la lengua (léxico, sintaxis y semántica) [32]. 5 Imágenes con movimiento.

Figura 1.2. Integración de diversas áreas en el intento por describir una imagen.

Descripción de una imagen

Tratamiento del Lenguaje Natural

Visión Artificial

Análisis lingüístico

Inteligencia Artificial

Reconocimiento e interpretación

Page 19: S.E.P. S.E.S. D.G.E.S.T. - CENIDET · Cognitivo de nuevas unidades lingüísticas y generar sus reglas. Esta metodología es aplicable a otros lenguajes, sin embargo el análisis

Descripción de imágenes estáticas en lenguaje natural Capítulo I. Introducción

8

1.8. Organización de la tesis El presente trabajo está organizado en siete capítulos. En el capítulo I, se muestra una introducción al trabajo planteado en esta tesis, el objetivo, una descripción del problema, los beneficios, los alcances y limitaciones, las disciplinas involucradas, y finalmente se muestran algunas aplicaciones. En el segundo capítulo, se presentan algunos trabajos en los cuales sus objetivos son similares con el propuesto aquí. A diferencia de los trabajos relacionados mostrados en este capítulo, en los cuales se trabaja con secuencias de imágenes, en este proyecto se trabaja con imágenes estáticas, debido a que el objetivo en este trabajo es realizar un análisis lingüístico. En el capítulo III, se dan los elementos teóricos requeridos para llevar a cabo un análisis lingüístico, dicho análisis forma parte del proceso de solución. Como parte del proceso de solución, en el capítulo IV se presenta la forma de proceder para resolver el problema, es decir, el Diseño el cual se basa en una Descripción Geométrica de los Objetos de la Imagen y un análisis lingüístico. El capítulo V presenta, el Tratamiento lingüístico de las unidades lingüísticas empleadas en la generación de frases. A partir de este análisis se desprenden las reglas para realizar la generación de frases automáticamente. En el capítulo VI se presentan las pruebas realizadas y los resultados generados. Finalmente, en el capítulo VII se mencionan las metas alcanzadas con el desarrollo del tema de tesis presentado, así como las conclusiones y trabajos futuros que surgen a partir de la implementación.

Page 20: S.E.P. S.E.S. D.G.E.S.T. - CENIDET · Cognitivo de nuevas unidades lingüísticas y generar sus reglas. Esta metodología es aplicable a otros lenguajes, sin embargo el análisis

Capítulo

II

Trabajos relacionados

Contenido:

Introducción Incremental Natural Language Description of Dynamic Imagery

Evaluación simultánea y descripción en lenguaje natural de secuencias de imágenes Estructura general Capacidades del sistema

Integrating Vision and Language: Towards Automatic Description of Human

Movements Reconocimiento basado en modelos de movimientos humanos Análisis de la escena de alto nivel Generando descripciones en lenguaje natural

Automatic Generation of Natural Language Descriptions for Images

Algoritmo Segmentación de la imagen Indexación de la imagen Procesamiento del texto

Page 21: S.E.P. S.E.S. D.G.E.S.T. - CENIDET · Cognitivo de nuevas unidades lingüísticas y generar sus reglas. Esta metodología es aplicable a otros lenguajes, sin embargo el análisis

Descripción de imágenes estáticas en lenguaje natural Capítulo II. Trabajos relacionados

10

2.1. Introducción

En este capítulo, se muestran algunos trabajos que se tienen metas similares al objetivo propuesto en esta tesis. En dichos trabajos, se inicia a partir de una secuencia de imágenes después un sistema de visión construye una representación geométrica de la escena observada, incluyendo el tipo y localización de todos los objetos visibles en un determinado tiempo. Posteriormente, las relaciones espaciales entre los objetos reconocidos y los movimientos son extraídos y condensados en planes hipotéticos y de interacción entre los agentes observados. Las estructuras conceptuales son finalmente traducidas a lenguaje natural incluyendo preposiciones espaciales, verbos de movimiento, adverbios y conjunciones. Los trabajos presentados en esta sección, son una integración de diversos proyectos para poder llevar a cabo la tarea de la interpretación a un bajo y alto nivel [1]. A diferencia del trabajo propuesto en esta tesis, en el cual se tiene planteado trabajar con imágenes estáticas, en los trabajos relacionados presentados se trabaja con secuencias de imágenes. A continuación se da un resumen de dichos trabajos mostrando los procesos requeridos para llevar a cabo la tarea de la interpretación de una escena. 2.2. Incremental Natural Language Description of Dynamic Imagery [5]

En este trabajo, el objetivo es combinar un sistema de visión y un sistema de lenguaje natural para llevar a cabo una descripción automática simultanea de imágenes dinámicas, es decir, una interpretación de la imagen y el procesamiento del lenguaje sobre una base incremental. Se intenta realizar una integración de un sistema de visión de Karlsruhe llamado Actions y el componente de lenguaje natural Vitra desarrollado en Saarbrücken. Para llevar a cabo este trabajo se basa en componentes disponibles y se muestran algunos resultados a partir de escenas de tráfico y secuencias cortas de fútbol. 2.2.1. Evaluación simultánea y descripción en lenguaje natural de secuencias de imágenes

Primero se evalúan secuencias de imágenes del mundo real con múltiples agentes móviles u objetos, basándose en componentes que ya se encuentran parcialmente disponibles como consecuencia de investigaciones previas. Debido a la complejidad para analizar movimientos articulados, inicialmente se concretan a detectar objetos candidatos que se consideran esencialmente rígidos. Los enlaces determinantes entre los resultados visuales de la imagen y los pasos del procesamiento del lenguaje natural son proporcionados por eventos complejos, es decir, unidades conceptuales más altas capturando aspectos espacio-temporal de movimientos de objetos. Un evento complejo podría ser entendido en el sentido más amplio como un ‘evento’, como una ‘historia’ o como un ‘episodio’ [8]. Se descarta el reconocimiento de intenciones y planes [9]. 2.2.2. Estructura general

La tarea de generar descripciones en lenguaje natural involucra tres partes:

Page 22: S.E.P. S.E.S. D.G.E.S.T. - CENIDET · Cognitivo de nuevas unidades lingüísticas y generar sus reglas. Esta metodología es aplicable a otros lenguajes, sin embargo el análisis

Descripción de imágenes estáticas en lenguaje natural Capítulo II. Trabajos relacionados

11

i) Construir una descripción abstracta de proposiciones de la escena llamada, Descripción Geométrica de la Escena (DGE) [10].

ii) Realizar una interpretación de la DGE para reconocer eventos complejos. iii) Realizar una selección y verbalización de proposiciones apropiadas

derivadas en el paso ii para describir la escena. Debido a la simultaneidad de la descripción, estos tres pasos se llevan sobre una base incremental.

La figura 2.1. muestra la arquitectura del sistema integrado. Una secuencia de imágenes forma la entrada del sistema. A partir de los datos visuales de entrada, el componente de análisis de imágenes construye una representación geométrica de la escena, exponiendo las localidades los objetos visibles en puntos consecutivos del tiempo. El contenido de la DGE es construido incrementalmente, conforme llegan nuevos datos visuales, después es interpretado por el componente de reconocimiento de eventos. La información de los eventos parcialmente reconocidos es almacenada en un “buffer” de proposiciones de eventos y es actualizado continuamente conforme la escena progresa. El componente para la generación del lenguaje selecciona proposiciones relevantes a partir de este “buffer”, los ordena y finalmente los transforma en información verbal dentro de una secuencia ordenada de palabras alemanas escritas o habladas.

Análisis incremental de la imagen

- Reconocimientos de objetos - Conteo de objetos candidatos

Descripción Geométrica de

la Escena

Reconocimiento incremental de eventos

- Instancia de modelos de eventos

‘Buffer’ de proposiciones

de eventos

Generación del lenguaje incremental

- Selección - ‘Linearización’ - Verbalización

Base de conocimiento

Modelos de objetos

Modelo de discurso del mundo

Modelos de eventos

Conocimiento Lingüístico

Lexicón Conceptual

Memoria de texto

Modelos socio

Figura 2.1. Arquitectura del sistema integrado.

Page 23: S.E.P. S.E.S. D.G.E.S.T. - CENIDET · Cognitivo de nuevas unidades lingüísticas y generar sus reglas. Esta metodología es aplicable a otros lenguajes, sin embargo el análisis

Descripción de imágenes estáticas en lenguaje natural Capítulo II. Trabajos relacionados

12

2.2.3. Capacidades del sistema

La generación automática de descripciones simultáneas de imágenes revela un problema que no ha sido tratado dentro de los sistemas de generación. Por una parte, los aspectos temporales tales como el tiempo requerido para la generación de texto y el tiempo de decodificación del observador tienen que ser considerado para la coordinación de percepción y producción del lenguaje. La generación del lenguaje en Vitra incluye procesos que manejan la selección, ‘linearización’ y verbalización de proposiciones de eventos [11]. A partir de los primeros resultados descritos en [12] más de 3000 ‘frames’ de secuencias de imágenes registradas de tráfico en Karlsruhe han sido evaluadas por el sistema Actions. Por otra parte, los reportes de radio de juegos de ‘soccer’ son un buen ejemplo de descripciones simultáneas. El método descrito anteriormente ha sido aplicado a más de 1000 ‘frames’ de una secuencia de imágenes registradas a partir de un juego de ‘soccer’. La figura 2.2. muestra las trayectorias proyectadas de varios jugadores y como son detectados automáticamente. Esta escena demuestra la habilidad de Actions para aun tratar con objetos no rígidos en dominios diferentes. Las trayectorias parciales proporcionadas por Actions son usadas para sintetizar interactivamente una DGE realista, con objetos candidatos asignados a jugadores conocidos previamente y al balón. Junto con un modelo instanciado, esta información forma la entrada para el sistema Vitra. El sistema Vitra puede ser considerado como una estructura a ser usada para más investigación en la generación de reportes simultáneos. La ventana de salida en la figura 2.2. muestra parte de una descripción típica. El texto alemán puede ser traducido a ingles como: ‘Munk, el medio-campista tiene el balón. Pasa el balón a

Brandt, el barredor. El barredor patea en el área de penalti. Ahora Binkelmann, el

goleador, tiene el balón.’.

Figura 2.2. Ventana básica de Vitra.

Page 24: S.E.P. S.E.S. D.G.E.S.T. - CENIDET · Cognitivo de nuevas unidades lingüísticas y generar sus reglas. Esta metodología es aplicable a otros lenguajes, sin embargo el análisis

Descripción de imágenes estáticas en lenguaje natural Capítulo II. Trabajos relacionados

13

2.3 Integrating Vision and Language: Towards Automatic Description of Human Movements [6]

El objetivo en este trabajo es obtener una evaluación incremental y una descripción simultanea de escenas percibidas conforme varia el tiempo. Se investiga el problema de describir los movimientos de cuerpos articulados en secuencias de imágenes dentro de un sistema integrado de lenguaje natural y un sistema de visión por computadora. Concretamente, en este trabajo se reporta la percepción automática y la descripción verbal de los movimientos de cuerpos articulados, a saber personas caminando, en secuencias de imágenes. 2.3.1. Reconocimiento basado en modelos de movimientos humanos Con la consideración basada en modelos para reconocer movimientos humanos, el cuerpo humano así como su movimiento, este es representado explícitamente. Dada una secuencia de imágenes del mundo real registrada con una cámara, el algoritmo determina las posiciones 3D así como las posturas de las personas en movimiento. El algoritmo esta diseñado para analizar el movimiento de un humano caminando, pero también podría ser generalizado a otros movimientos. El algoritmo Se divide en dos partes:

1. Inicialización Evaluación independiente de 10-15 imágenes.

• Detección de regiones de la imagen que corresponden a personas en movimiento.

• Estimación de los estados de movimiento, es decir, posiciones 3D y posturas.

• Determinación de valores iniciales para el filtro Kalman [13].

2. Estimación incremental Después de la inicialización, el esquema del filtro de Kalman es aplicado a cada

imagen:

• Predicción del estado de movimiento. • Determinación de las dimensiones. • Estimación del estado del movimiento actual.

El cuerpo humano es representado por un volumen cilíndrico como es sugerido en [14 ] figura 2.3. Para modelar el movimiento al caminar se usa una consideración cinemática

(representación mental de un objeto) explorando datos a partir de un estudio médico de movimiento descrito en [15].

Page 25: S.E.P. S.E.S. D.G.E.S.T. - CENIDET · Cognitivo de nuevas unidades lingüísticas y generar sus reglas. Esta metodología es aplicable a otros lenguajes, sin embargo el análisis

Descripción de imágenes estáticas en lenguaje natural Capítulo II. Trabajos relacionados

14

En este trabajo, se usan los valores de los ángulos a partir de las curvas de movimiento para cada una de los empalmes del hombro, cadera y rodilla. Debido a que el trabajo propuesto en esta tesis está enfocado a la parte lingüística y esta forma del proceso de interpretación de una escena a un alto nivel, no se detalla en la parte de Visión (interpretación a un bajo nivel). 2.3.2. Análisis de la escena a un alto nivel

Como en el trabajo de la sección 2.2., la información relacionada con objetos visibles y sus localidades sobre el tiempo, junto con conocimiento del mundo adicional acerca de los objetos, constituyen la Descripción Geométrica de la Escena (DGE). Esta representación intermedia ha sido propuesta en [16] como una interfaz entre un sistema de visión y un sistema de acceso a lenguaje natural. Además de la interpretación de la DGE, se requiere a su vez traducir los resultados del proceso de visión de bajo nivel, en una descripción en lenguaje natural. El análisis de la escena a un alto nivel consta en reconocer unidades conceptuales a un nivel más alto de abstracción, incluyendo relaciones espaciales así como también eventos de movimiento para la representación cualitativa de movimientos de objetos. Estas estructuras conceptuales dejan un hueco entre datos visuales y conceptos de lenguaje natural, tales como preposiciones espaciales, verbos de movimiento y, adverbios temporales, ver figura 2.4. En este sistema, es posible realizar cálculos topológicos (por ejemplo, en, cerca de, etc.) así como también relaciones de dependencia-orientación (por ejemplo, a la izquierda de, sobre de, etc.). La interpretación de movimientos de objetos en términos de eventos de movimientos sirve para la abstracción simbólica de los aspectos temporales de una escena conforme varia el tiempo. En VITRA el reconocimiento de eventos de movimiento está basado en

Figura 2.3. Modelo 3D del cuerpo humano.

Page 26: S.E.P. S.E.S. D.G.E.S.T. - CENIDET · Cognitivo de nuevas unidades lingüísticas y generar sus reglas. Esta metodología es aplicable a otros lenguajes, sin embargo el análisis

Descripción de imágenes estáticas en lenguaje natural Capítulo II. Trabajos relacionados

15

modelos de eventos genéricos, es decir, descripciones declarativas de clases de movimientos de objetos interesantes. Estos conceptos de eventos son organizados en una abstracción jerárquica, cimentada sobre una especialización (por ejemplo, corriendo es un movimiento) y descomposición temporal, ver figura 2.5. Esta jerarquía conceptual puede ser utilizada en el proceso de producción del lenguaje a su vez para guiar la selección de las proposiciones relevantes.

Header: (MOVE-ACROSS ?o*mobile-object ?s*surface) Subconcepts: (MOVE ?o) [I1]

(LOC-INTERIOR ?o ?s) [I2] (LOC-EXTERIOR ?o ?s) [I3]

Temporal-Relations: [I2] :during [I1] [I2] :meets [I3] [I2] :equals [MOVE-ACROSS]

Figura 2.5. Modelo de un evento para el concepto ‘move-across’. 2.3.3. Generando descripciones en lenguaje natural

Conforme una escena varía con el tiempo, se tienen que generar oraciones en lenguaje natural. Estas oraciones tienen que ser generadas para proporcionar un reporte de la escena al variar el tiempo. En VITRA, esto abarca: (1) selección de proposiciones relevantes, (2) su orden dentro de una textura de texto lineal y, (3) la codificación sucesiva de proposiciones seleccionadas [7].

Nivel Sensorial

Nivel Conceptual

Nivel Lingüístico

(s-rel-on : refo street-segment01 : lo human01 …

Secuencia de imágenes digitalizadas

Geometrical Scene Description

Tuplas de relación

Proposiciones de eventos

Sentencias en L. N.

Estructuras superficiales

Estructures en profundidad

(proceed [0:01:04] (event : type move-cross : agent human01 ...

(description : object human01 : descriptors (location ...

(add-pp : head “auf-2” : func ‘location : identifier ‘pp-1 : regent ‘vp-1)

... auf der Strasse ...

NR X Y Z POSE

20 -240.82 105.17 -870.54 0.67

21 -235.50 104.49 -870.54 0.71

22 -228.25 103.95 -870.54 0.77 ...

Figura 2.4. Niveles de representación en la transformación de datos visuales a descripciones verbales.

Page 27: S.E.P. S.E.S. D.G.E.S.T. - CENIDET · Cognitivo de nuevas unidades lingüísticas y generar sus reglas. Esta metodología es aplicable a otros lenguajes, sin embargo el análisis

Descripción de imágenes estáticas en lenguaje natural Capítulo II. Trabajos relacionados

16

Generalmente, los eventos de movimiento más complejos son elegidos dado que proporcionan un grado más alto de información visual. Las proposiciones relevantes son seleccionadas y pasadas a un componente de codificación. Durante el proceso de la transformación simbólica de descripciones de eventos a sentencias en lenguaje natural, primero un verbo es seleccionado y los roles de casos asociados con lo que están siendo instanciados. El proceso de verbalización, incluye codificación gramatical, linearización e inflexión, recibe mensajes preverbales en una forma fragmentada. Esto está basado en el formalismo de [17]. La figura 2.6. muestra como la DGE ha sido derivada a partir de una secuencia de imágenes, y su correspondiente descripción en lenguaje natural. Aquí, la localización del objeto móvil tiene que ser descrita primero. En este ejemplo, atravesar una calle constituye un evento de movimiento, el cual es verbalizado como un movimiento continuo.

(add-utt-par :identifier ’utt-par-1

:intention ’declarativ)

(add-vp :head "geh" :identifier ’vp-1

:mood ’indicative)

(add-np :head "fussgaenger" :identifier ’np-1

:specifier ’definite)

(add-np :head "strasse" :regent ’pp-1

:func ’prepobject)

(add-pp :head "ueber" :func ’location

:identifier ’pp-1 :regent ’vp-1)

Der Fussgaenger geht ueber die Strasse. (The pedestrian walks across the street.)

Figura 2.6: Mensajes pre-verbales y sentencias generadas.

2.4. Automatic Generation of Natural Language Descriptions for Images [30]

En este trabajo, se presenta un método para la generación de descripciones en lenguaje natural de imágenes no complejas, es decir, imágenes sin problemas de oclusión. Este método, se propone en dos fases: indexación de imágenes y, la generación y procesamiento de lenguaje natural. La descripción de una imagen con oraciones requiere una extracción de características tales como el color, la forma y la textura de algunas regiones (césped, piedras, etc.). Estos criterios son extraídos y caracterizados con métodos de indexación de imágenes como en [18,19 y 20]. La elección apropiada de criterios puede ser ligada a una semántica fuerte tal como rojo, césped, círculo, etc. Entonces, se tiene una generación automática de palabras clave a partir de la figura. Sin embargo, se utiliza un nivel más alto de semántica al usar un diccionario de objetos indexado por pocas palabras clave traduciendo conceptos u objetos, los cuales podrían ser difíciles de extraer por un simple procesamiento de imágenes. Así, a partir del diccionario y el procesamiento de

Page 28: S.E.P. S.E.S. D.G.E.S.T. - CENIDET · Cognitivo de nuevas unidades lingüísticas y generar sus reglas. Esta metodología es aplicable a otros lenguajes, sin embargo el análisis

Descripción de imágenes estáticas en lenguaje natural Capítulo II. Trabajos relacionados

17

imágenes se habilita la generación de oraciones en lenguaje natural mediante técnicas lingüísticas. 2.4.1. Algoritmo Imágenes usadas, diccionario de objetos Se usa una base de datos que consiste de aproximadamente 4000 imágenes, (ver figura 2.7.) El fondo siempre es uniforme pero con diferentes colores y las imágenes representan diferentes combinaciones de objetos más o menos complejos (juguetes, lapiceros, etc.). Los objetos construyen el diccionario: 100 objetos tomados en 5 diferentes ángulos para tener un diccionario compuesto de cerca de 500 imágenes. La representación de un objeto a menudo implica más ruido que información útil. Cada objeto es indexado por una firma (SIGNATURE) de la imagen (a partir del color y características de la textura) y dos palabras clave: nombre y categoría, figura 2.8. Debido a que no se presentan problemas de oclusión (un objeto ocultando parte de otro), se obtiene una buena segmentación, obteniendo un buen conocimiento acerca del número de objetos y su posición.

SIGNATURA Image signature: Color + texture

Keywords: Toy, Rabbit

Figura 2.7. Cuatro ejemplos de imágenes tratadas.

Figura 2.8. Cinco objetos del diccionario. Firma (Signature) del objeto.

Page 29: S.E.P. S.E.S. D.G.E.S.T. - CENIDET · Cognitivo de nuevas unidades lingüísticas y generar sus reglas. Esta metodología es aplicable a otros lenguajes, sin embargo el análisis

Descripción de imágenes estáticas en lenguaje natural Capítulo II. Trabajos relacionados

18

Principio del algoritmo El primer paso del algoritmo es la segmentación (figura 2.9.), la cual aísla los diferentes objetos del fondo. Al final de este paso, el número de objetos es conocido, así como también su posición absoluta y relativa en la imagen. El segundo paso corresponde a la indexación de los objetos segmentados. Para cada uno de los objetos aislados, una es lanzada para encontrar el objeto más similar en el diccionario. Este paso está compuesto de dos partes; primero, la firma de cada objeto es creada de acuerdo a criterios ligados a la forma, color y textura. Segundo el sistema busca objetos similares en el diccionario al comparar las firmas. El tercer paso es la generación de la descripción textual de la imagen usando las palabras clave asociadas a las imágenes del diccionario.

2.4.2. Segmentación de la imagen La idea general es binarizar la imagen considerando su fondo, para entonces aislar los objetos. El fondo toma el valor de 0 y es removido de la imagen. Al final del proceso de segmentación, se obtiene la siguiente información: número de objetos en la imagen, localización de cada objeto y área de cada objeto. A partir de esta información se construye una descripción de la composición de la imagen. El objeto con la superficie de área más grande de la imagen es considerada como el objeto principal de la imagen. 2.4.3. Indexación de la imagen El método descrito para llevar a cabo la indexación aquí compara los objetos a partir de la imagen y el diccionario. La taza de error es muy baja para objetos complejos, y nula para objetos que son invariantes a la rotación. Generalmente la indexación de la imagen

Segmentación

Creación de la firma de la imagen

Búsqueda por similaridad

Imagen analizada

Base de datos de objetos

Descripciones en

lenguaje natural

Palabras clave + características de la imagen

Procesamiento lingüístico

Objetos segmentados 1

2

3

Figura 2.9. Tres pasos del algoritmo.

Page 30: S.E.P. S.E.S. D.G.E.S.T. - CENIDET · Cognitivo de nuevas unidades lingüísticas y generar sus reglas. Esta metodología es aplicable a otros lenguajes, sin embargo el análisis

Descripción de imágenes estáticas en lenguaje natural Capítulo II. Trabajos relacionados

19

es realizada considerando tres características de la imagen: color, forma y textura. En este trabajo relacionado con el propuesto en esta tesis, la indexación es realizada considerando el color y la textura. 2.4.4. Procesamiento del texto La creación de oraciones en lenguaje natural ofrece una interpretación de la descripción proporcionada por el sistema de indexación. La construcción de las oraciones es sistemática, son construidas usando la información a partir del procesamiento de la imagen. En la figura 2.10, las palabras subrayadas son determinadas por la información a partir del procesamiento de la imagen. Básicamente, se tienen tres categorías de descriptores. La primera categoría es, los nombres de los objetos. Por ejemplo, en la figura 2.10., se tiene un osito (nounours), un balón (balle) y un cubo (cube). La segunda categoría es la información del color. La figura 2.10. presenta colores oscuro (sombre), negro (noir), café ligero (marron clair), verde y blanco (verte et blanche) y multicolor (multicolore). En la categoría tercera, se encuentra la información espacial. En la figura 2.10, hay una imagen de 384 por 307 píxeles (384 par 307 pixels). Finalmente, se agregan el número de objetos y el tema general de la imagen. Para generar las oraciones se usa un sistema de indexación y consulta multi-lenguaje llamado ESPRIT EMIR [34]. El sistema está basado en un rastreo sintáctico y el reconocimiento de entidades nombradas. 2.5. Conclusiones

Los trabajos presentados aquí tienen como objetivo común generar descripciones en lenguaje natural de escenas (imágenes dinámicas) o imágenes estáticas.

Figura 2.10. Ejemplo de texto generado en francés.

Page 31: S.E.P. S.E.S. D.G.E.S.T. - CENIDET · Cognitivo de nuevas unidades lingüísticas y generar sus reglas. Esta metodología es aplicable a otros lenguajes, sin embargo el análisis

Descripción de imágenes estáticas en lenguaje natural Capítulo II. Trabajos relacionados

20

Básicamente, en estos trabajos se realiza una integración de sistemas para trabajar con la parte de visión artificial (interpretación a un bajo nivel) y la parte lingüística (interpretación a un alto nivel). Así, para poder generar descripciones en lenguaje natural se recurre a diversos sistemas, donde cada proyecto o sistema tiene tareas específicas. A su vez, para la integración de estos proyectos, participaron diversas instituciones de investigación de diversos países llegando a construir herramientas complejas. A diferencia de los trabajos mencionado aquí, el propuesto en esta tesis toma una representación visual de una imagen (se asume la parte del reconocimiento a un bajo nivel). Paralelamente, se realiza un análisis lingüístico (interpretación a un alto nivel) para después generar una descripción de la imagen. Las aplicaciones de estos sistemas de generación de descripciones en lenguaje natural presentadas en este capítulo, están principalmente enfocadas a escenas, es decir, secuencias de imágenes. Debido a la complejidad que se requiere para analizar una escena (secuencia de frames), el sistema propuesto en esta tesis realiza la función del sistema VITRA mencionado anteriormente en dos trabajos, el cual se enfoca en la parte lingüística. El sistema que se desarrolla en esta tesis para generar frases, está basado en un análisis lingüístico de un conjunto de unidades lingüísticas en lenguaje español. En el proceso de la búsqueda de trabajos relacionados no se encontró algún sistema que trabaje con el lenguaje español. Los resultados del análisis propuesto en está tesis, también son extensibles a otros trabajos futuros. Los trabajos mencionados en este capítulo, realizan la descripción de la imagen basándose en un análisis lingüístico para formar oraciones sintáctica y semánticamente correctas y su análisis es para generar adecuadamente las frases. La forma de proceder en esta tesis para generar las frases, es realizar un análisis semántico-cognitivo para ver determinar cuando usar una determinada unidad lingüística, posteriormente, se utiliza alguna estructura de oración para forma la frase. De esta forma, con el análisis se garantiza cuando usar una preposición o verbo trabajo, pero el análisis puede ser extendido a más unidades lingüísticas (adverbios, otros verbos, etc.).

Page 32: S.E.P. S.E.S. D.G.E.S.T. - CENIDET · Cognitivo de nuevas unidades lingüísticas y generar sus reglas. Esta metodología es aplicable a otros lenguajes, sin embargo el análisis

Capítulo

III

Gramática Aplicativa y Cognitiva

Contenido:

Introducción Gramática Aplicativa y Cognitiva Niveles de la GAC Formalismo del tercer nivel de la GAC Redes semántico-cognitivas

Page 33: S.E.P. S.E.S. D.G.E.S.T. - CENIDET · Cognitivo de nuevas unidades lingüísticas y generar sus reglas. Esta metodología es aplicable a otros lenguajes, sin embargo el análisis

Descripción de imágenes estáticas en lenguaje natural Capítulo III. Gramática Aplicativa y Cognitiva

22

3.1. Introducción

En este capítulo, se muestran los fundamentos teóricos para llevar a cabo el análisis lingüístico como parte del proceso que describirá una imagen. Este análisis, es un análisis semántico-cognitivo de algunas unidades lingüísticas. Básicamente, este capítulo conforma el marco teórico del presente trabajo.

3.2. Gramática Aplicativa y Cognitiva (GAC)

La GAC (Gramatica Aplicativa y Cognitiva) es un modelo teórico, que es tanto cognitivo como computacional, y que sirve para la descripción del lenguaje. Éste fue desarrollado en el laboratorio LaLICC (Langagues, Logiques et Informatique Cognitive et Comunication en Paris), Francia por el Dr. Jean Pierre Desclés [2]. Este modelo es una extensión de la Gramática Aplicativa Universal (GAU) desarrollada por Shaumyan [21, 22]. El modelo de la GAC manipula tres niveles de representaciones explícitas de la lengua: un nivel sintáctico, un nivel predicativo y un nivel semántico-cognitivo. En el primer nivel, se tiene una descripción a través de una gramática extendida categórica; en el segundo se formalizan las operaciones predicativas; finalmente, en el último nivel, se presentan significados de unidades lingüísticas bajo la forma de Esquemas Semántico-Cognitivos (ESCs) y Redes Semántico-Cognitivas (RSCs). La siguiente sección muestra la división de dichos niveles.

3.3. Niveles de la GAC

La GAC está dividida en tres niveles y a continuación se muestra una breve descripción de cada uno de ellos. En el primer nivel, se representan las relaciones sintácticas entre las unidades morfológicas; es aquí donde se habla de las categorías “verbo”, “sustantivo”, “adjetivo”, “adverbio”, “preposición”, “sintagma”, etc. En el segundo nivel, se describen las operaciones lógico-gramaticales que representan las relaciones entre predicado y argumentos. En el tercer nivel, son representados los significados de unidades léxicas y gramaticales en forma de Esquemas Semántico-Cognitivos y Redes Semántico-Cognitivas. Dichos esquemas son estructuras obtenidas a través de primitivas que tienen una interpretación cognitiva puesto que se encuentran ancladas en dominios de la percepción y de la acción. Estos tres niveles conforman la GAC. Este trabajo se enfocará en el tercer nivel, en el cual se realizará un análisis semántico-cognitivo de las preposiciones: sobre, en y entre, así como del verbo tocar. Este análisis semántico-cognitivo está basado en ESCs. La tabla 3.1 muestra la división de niveles de la GAC.

Page 34: S.E.P. S.E.S. D.G.E.S.T. - CENIDET · Cognitivo de nuevas unidades lingüísticas y generar sus reglas. Esta metodología es aplicable a otros lenguajes, sin embargo el análisis

Descripción de imágenes estáticas en lenguaje natural Capítulo III. Gramática Aplicativa y Cognitiva

23

Tabla 3.2. Niveles en que se divide la Gramática Aplicativa y Cognitiva.

Niveles Descripción Función Nivel 1 Configuraciones morfo-sintácticas Sintaxis, morfología,

léxico. Nivel 2 Representaciones lógico-

gramaticales Formalización de operaciones predicativas.

Nivel 3 Representaciones semántico-cognitivas

Representación de significados de unidades léxicas, gramaticales en forma de esquemas abstractos.

Para tener una buena descripción de una imagen en lenguaje natural, el papel del verbo y de ciertas unidades gramaticales como las preposiciones, son de suma importancia ya que ellas marcan las relaciones espaciales entre los objetos contenidos en la imagen. Es por ello que el análisis dentro de la GAC se centrará en el tercer nivel. En la siguiente sección se presenta el formalismo del tercer nivel de la GAC, de los ESCs y las RSCs con el objeto de formalizar algunas expresiones.

3.4. Formalismo del tercer nivel de la GAC

Los ESCs son estructuras semánticas construidas con primitivas. Algunos ejemplos de primitivas son; REP que significa localización, MOUV que significa movimiento, CONTR que significa control y CHANG que significa cambio. Estas estructuras semánticas representan tres tipos de situaciones las cuales son mostradas a continuación:

• Las situaciones estáticas describen estados que son una relación de localidad entre un objeto y un lugar de referencia. Esta relación es representada por REP.

• Las situaciones dinámicas, describen movimientos en una referencia espacio-temporal.

• Las situaciones cinemáticas describen cambios de estados asignados a un objeto. También se definen los siguientes tipos básicos de objetos:

I (individuales: Pierre, Paul, pizarrón,..., etc.) C (colectivos: fríjoles,..., etc.) L (lugares: jardín, casa,..., etc.) M (masivos: agua,..., etc.)

En general, un ESC es una estructura que:

• Describe el significado de un elemento verbal • Es representado con un arreglo con tipos • Se integra en una red de significados

También en estos ESCs se incluyen operadores de la lógica clásica tales como: ¬, ∧, ∨ y otros operadores del álgebra de Kuratowski [23] como INT que denota el interior de

Page 35: S.E.P. S.E.S. D.G.E.S.T. - CENIDET · Cognitivo de nuevas unidades lingüísticas y generar sus reglas. Esta metodología es aplicable a otros lenguajes, sin embargo el análisis

Descripción de imágenes estáticas en lenguaje natural Capítulo III. Gramática Aplicativa y Cognitiva

24

un lugar, EXT que denota el exterior, FRO la frontera y la cerradura que es la unión del interior con la frontera denotado por FE. Ejemplos de ESCs interpretando diferentes situaciones

Como parte del análisis semántico-cognitivo, en está sub-sección se muestran algunos ejemplos considerando las diferentes situaciones (estáticas, dinámicas y cinemáticas). Para llevar a cabo el análisis semántico-cognitivo de algún verbo o preposición se toma por ejemplo una expresión que involucre dicho verbo o preposición (o ambos en una misma expresión). Esta expresión, se puede formalizar mediante ESCs involucrado las diferentes primitivas y operadores requeridos dependiendo del tipo de situación que se este analizando. Los siguientes son ejemplos de ESCs interpretando diferentes situaciones.

Ejemplo de una situación estática

El siguiente, es un ejemplo de un ESC en el que se muestra la interpretación para

una situación estática involucrado al verbo estar y la preposición en. La expresión empleada para este ejemplo es, Pedro está en México. Aquí x es la variable que denota a Pedro, la variable y denota a México. El ESC es, una situación SIT en la cual x (Pedro) está localizado (denotado por la primitiva REP) en el interior (INT) del lugar México (loc(y)). Ambos Pedro y México son entidades individuales denotado por I, figura 3.1. La expresión en este ejemplo puede ser visualizada como se muestra en la figura 3.2. De la figura 3.2. FRO es un operador que denota la frontera del lugar en el que se encuentra localizado Pedro, INT y EXT también son operadores que denotan el interior

Figura 3.1. ESC para el verbo estar, para la expresión: Pedro está en México.

SIT

x REP INT (loc(y))

x: Pedro : I y: México : I

Figura 3.2. Representación de la expresión: Pedro está en México.

FRO México E XT

INT

Pedro

Page 36: S.E.P. S.E.S. D.G.E.S.T. - CENIDET · Cognitivo de nuevas unidades lingüísticas y generar sus reglas. Esta metodología es aplicable a otros lenguajes, sin embargo el análisis

Descripción de imágenes estáticas en lenguaje natural Capítulo III. Gramática Aplicativa y Cognitiva

25

y exterior respectivamente de dicho lugar. La primitiva REP indica localización y ésta es utilizada cuando se formaliza alguna expresión que contenga el verbo estar6.

Ejemplo de una situación dinámica

La figura 3.3. muestra un ejemplo de un ESC en el que se hace la interpretación

para una situación dinámica involucrando al verbo dar. La expresión para este caso es, Juan da el libro a María. En este ejemplo, x, y y z denotan a Juan, el libro y a Maria respectivamente. Se tiene primero una situación SIT1 en la cual y (libro) esta localizado (representado por la primitiva REP) en loc(x) (Juan), posteriormente por un movimiento (primitiva MOUV) y un control ejercido por parte de x sobre y (primitiva CONTR), la variable y (libro) pasa a estar localizado (REP) en loc(z) (María), figura 3.3. Todos los elementos que intervienen en la expresión son individuales denotados por I. Aquí se pueden ver dos situaciones (SIT1 y SIT2) y en cada una de éstas se involucra la primitiva REP. Esto se debe a que por un momento (SIT1) el libro se localiza en Juan, y REP representa esta localización. Lo mismo ocurre en una segunda situación (SIT2) cuando el libro se localiza en María.

Ejemplo de una situación cinemática

Las situaciones cinemáticas ocurren cuando se da un cambio de estado de las entidades por analizar. Un ejemplo de ello es el crecimiento de una planta. En un momento dado esta tiene una cierta altura, pasado un determinado tiempo ocurrirá un cambio en su altura.

6 Es importante señalar que la primitiva REP no es exclusiva del verbo estar. REP es una primitiva de localización.

x: Juan : I y: Libro : I z: María : I

y REP (loc(x))

SIT 1

y REP (loc(z))

SIT 2 MOV

CONTR

Figura 3.3. ESC para el verbo dar, para la expresión: Juan da el libro a María.

Page 37: S.E.P. S.E.S. D.G.E.S.T. - CENIDET · Cognitivo de nuevas unidades lingüísticas y generar sus reglas. Esta metodología es aplicable a otros lenguajes, sin embargo el análisis

Descripción de imágenes estáticas en lenguaje natural Capítulo III. Gramática Aplicativa y Cognitiva

26

Para este ejemplo se realiza el análisis semántico cognitivo del verbo crecer involucrado en la expresión: el maíz crece rápidamente. La figura 3.4. muestra el Esquema Semántico-Cognitivo. En la situación SIT1 el maíz denotado por x tiene la propiedad p1 (p1 corresponde a tener un cierto tamaño) y debido a un cambio CHANG se llega a una situación SIT2 en la cual, el maíz tiene la propiedad p2 (p2 corresponde a tener un tamaño superior, es decir, p2 > p1). A su vez, el maíz tiene la propiedad de ser del tipo masivo denotado por M, figura 3.4. 3.5. Redes semántico-cognitivas

En un ESC se realiza una descripción semántico-cognitiva de las unidades lingüísticas, es decir, para una expresión dada, se tiene el correspondiente ESC formalizando así algunas de las unidades lingüísticas involucradas en la expresión. En una RSC se tienen los diferentes significados de una misma unidad lingüística, en otras palabras se refleja la polisemia. La figura 3.5. es un ejemplo de una RSC mostrando dos significados (denotadas por S1 y S2 respectivamente) para el verbo entrar en dos expresiones diferentes. Al utilizar las RSCs se intenta describir los diferentes significados de un verbo7 utilizado según el contexto de la frase. Para realizar esta descripción se lleva a cabo un análisis representado en ESCs, los cuales a su vez hacen uso de elementos llamados primitivas y tipos para poder formalizar el significado de una expresión.

7 Se recuerda que los diferentes significados de unidades lingüísticas pueden ser tanto, espaciales, temporales como nocionales.

x: Maíz : M

Figura 3.4. ESC para el verbo crecer, para la expresión: El maíz crece rápidamente.

x (P1)

SIT 1

x (P2), p2 > p1

SIT 2

CHANG

S1

S2

entrar

S1: entrar en la casa

S2: el anillo me entra

Figura 3.5. RSC para el verbo entrar.

Page 38: S.E.P. S.E.S. D.G.E.S.T. - CENIDET · Cognitivo de nuevas unidades lingüísticas y generar sus reglas. Esta metodología es aplicable a otros lenguajes, sin embargo el análisis

Descripción de imágenes estáticas en lenguaje natural Capítulo III. Gramática Aplicativa y Cognitiva

27

Así, en la figura 3.5. se tienen dos ESCs, cada uno representando un significado diferente para el mismo verbo, en este caso el, verbo entrar. La figura 3.6 muestra el ESC para el significado S1: Entrar a la casa. Aquí x (alguien) estando primero en una situación 1 (SIT1) se encuentra localizado en el exterior de la casa (EXT (LOC(y))) y por un movimiento (MOUV) x pasa a una situación 2 (SIT2). Así x posteriormente se encuentra localizado en el interior de la casa (INT (LOC(y))). La figura 3.7. muestra el ESC del significado S2 : El anillo me entra. Esta expresión tiene un significado diferente al de la primera expresión de la figura 3.5. De los ejemplos anteriores se puede ver que las RSCs permiten, mediante los ESCs, reflejar los diferentes significados para un mismo verbo. Por lo tanto, las RSCs permitirán determinar el significado apropiado de un verbo analizando alguna expresión a nivel abstracto. Es importante destacar, que para efectos de este trabajo, las RSCs no fueron utilizadas, ya que se trabajó con situaciones espaciales. Sin embargo, se cree pertinente su explicación por la polisemia presente en la lengua y que sin duda serán utilizadas en trabajos futuros.

Figura 3.6. ESC para el verbo entrar, para la expresión: Entrar a la casa.

x: alguien : I y: casa : L

x REP EXT (loc(y))

SIT 1

x REP INT (loc(y))

SIT 2 MOV

x: anillo : I y: dedo : L

x REP EXT (loc(y))

SIT 1

¬x REP INT (loc(y)) ^ x REP (loc(y))

SIT 2 MOV

Figura 3.7. ESC para el verbo entrar, para la expresión: El anillo me entra.

Page 39: S.E.P. S.E.S. D.G.E.S.T. - CENIDET · Cognitivo de nuevas unidades lingüísticas y generar sus reglas. Esta metodología es aplicable a otros lenguajes, sin embargo el análisis

Capítulo

IV

Diseño Contenido:

Introducción Descripción Geométrica de los Objetos de la Imagen Tratamiento lingüístico Propuesta de solución Características de las imágenes

Otros aspectos de interés

Page 40: S.E.P. S.E.S. D.G.E.S.T. - CENIDET · Cognitivo de nuevas unidades lingüísticas y generar sus reglas. Esta metodología es aplicable a otros lenguajes, sin embargo el análisis

Descripción de imágenes estáticas en lenguaje natural Capítulo IV. Diseño

29

4.1. Introducción

En este capítulo, se muestra la forma de proceder para llevar a cabo la tarea de la descripción de la imagen. Para realizar dicha descripción se consideran dos procesos: una Descripción Geométrica de los Objetos de la Imagen (DGOI) y un análisis lingüístico. En el primer proceso, se obtiene información numérica perteneciente a la imagen. El segundo proceso, consiste en un análisis semántico-cognitivo de unidades lingüísticas. A parte de estos, se generan reglas para el uso adecuado en la generación automática de las frases. También en este análisis se incluye un análisis sintáctico para generar las frases correctamente. 4.2. Descripción Geométrica de los Objetos de la Imagen Para llevar a cabo el análisis y diseño de la implementación que permita describir una imagen, considérese primero el proceso de la DGOI. Se toma como referencia una imagen para obtener la información cuantitativa de ésta. Para obtener dicha información se requiere la intervención del usuario para reconocer y etiquetar los objetos contenidos en la imagen. El usuario selecciona partes de la imagen con el mouse denominados objetos. Cada objeto es delimitado por un área rectangular dibujada. En el momento en que un objeto es seleccionado, un nombre o etiqueta para dicho objeto es solicitado; el usuario, entonces, debe suministrar un nombre identificando a dicho objeto en ese momento. De esta manera, el reconocimiento e interpretación de los objetos contenidos en la imagen es llevado a cabo en forma manual. Al realizar la selección y etiquetamiento de un objeto, se obtiene la siguiente información: el punto central y el área del cuadro que delimita al objeto, así como las coordenadas de la esquina superior izquierda y la esquina inferior derecha de dicho cuadro8. El mismo proceso es repetido para cada uno de los objetos seleccionados y sus datos son guardados en un registro para su posterior análisis. Por ejemplo, para un objeto i (un objeto seleccionado) la abcisa del punto A del objeto i representa la esquina superior izquierda denotada por: pA.xi. La ordenada del punto A del objeto i representa la esquina superior izquierda denotada por: pA.yi. Por convención, se ha denotado pA como esquina superior izquierda del cuadro que delimita un objeto, pB esquina inferior derecha y pC como punto central del cuadro. La tabla 4.1. muestra el resto de las convenciones utilizadas para los datos obtenidos para un objeto i. La figura 4.1. muestra los datos obtenidos a partir de un objeto el cual es representado por un rectángulo.

8 El área del cuadrado que delimita al objeto sustituye al hecho de seleccionar un objeto mediante su borde o contorno en el tratamiento de imágenes. Tomando en cuenta que las esquinas superior izquierda, superior derecha, inferior izquierda e inferior derecha del cuadro corresponde a considerar la parte superior e inferior del objeto, ya que en este trabajo es de suma importancia el espacio que ocupa un objeto y no considerarlo como un punto, ni tampoco como un conjunto de puntos ya sean del borde o de su interior. Cabe mencionar que támbien podría emplearse algún otro tipo de figura para delimitar a un objeto en la imagen, como por ejemplo un polígono o ir delimitando la imagen mediante la union de puntos dados sobre la figura por el usuario.

Page 41: S.E.P. S.E.S. D.G.E.S.T. - CENIDET · Cognitivo de nuevas unidades lingüísticas y generar sus reglas. Esta metodología es aplicable a otros lenguajes, sin embargo el análisis

Descripción de imágenes estáticas en lenguaje natural Capítulo IV. Diseño

30

Tabla 4.3. Convenciones utilizadas para representar las coordenadas de los objetos contenidos en la imagen (cuadros).

Durante el proceso de selección de objetos en la imagen, el usuario tiene la libertad de seleccionar el número de objetos de la imagen tantos como existan. La forma de establecer las relaciones entre los objetos seleccionados consiste primero en fijar relaciones entre aquellos objetos que cumplan las condiciones de las reglas de las preposiciones sobre y en. La producción de estas reglas surge del análisis semántico-cognitivo el cual es mostrado en el capítulo V (Tratamiento lingüístico). Una vez establecidas estas relaciones, los objetos considerados (como ejemplo, vea los objetos: j y m de la figura 4.2.) son descartados para un posterior establecimiento de relaciones entre los objetos restantes, utilizando la preposición entre y el verbo tocar. Los objetos restantes (objetos: i, k y l, ver figura 4.2.) producirán relaciones siempre que cumplan las condiciones establecidas para entre y tocar. Esta manera de proceder fue el resultado de una reflexión de cómo relacionar todos los objetos. Es imposible relacionar todos contra todos los objetos ya que la lengua acepta sólo algunas relaciones según su posición para las preposiciones que aquí se trabajan. El símbolo ~ en la figura 4.2. representa una relación.

Una vez obtenido el registro completo de todos los objetos con sus respectivos datos, el siguiente paso es la generación de frases basándose en un análisis lingüístico. Para ello

Coordenadas Descripción Convención Punto A Esquina superior izquierda pA Punto B Esquina inferior derecha pB Punto C Punto central del objeto pC Abcisa de A Abcisa del punto A pA.x Ordenada de A Ordenada del Punto A pA.y Abcisa del objeto i Abcisa del punto A del objeto i pA.xi Área de i Área del objeto i Ai

Relaciones producidas Registro de objetos Selección de objetos en la imagen

Objeto i Objeto j

Objeto k

Objeto l

Objeto m

IMAGEN Objeto i

278

138

307

171

342

154

Objeto j

278

238

107

171

342

154

Objet k

278

138

407

171

342

154

Objeto l

278

138

407

171

342

154

Objet m

178

438

307

271

342

154

DGOI

Figura 4.2. Representación de la DGOI obtenida a partir de la imagen.

Objeto j ~ Objeto k

Objeto m ~ Objeto l

Se descartan: j y m

Objeto i ~ Objeto k

Objeto k ~ Objeto l

pA.x, pA.y

Figura 4.1. Representación de las coordenadas obtenidas para el objeto i.

área

Objeto i

pB.x, pB.y

pC.x, pC.y

Page 42: S.E.P. S.E.S. D.G.E.S.T. - CENIDET · Cognitivo de nuevas unidades lingüísticas y generar sus reglas. Esta metodología es aplicable a otros lenguajes, sin embargo el análisis

Descripción de imágenes estáticas en lenguaje natural Capítulo IV. Diseño

31

es necesario establecer relaciones entre los objetos contenidos en el registro de objetos, basándose en las reglas obtenidas a partir del análisis semántico-cognitivo de unidades lingüísticas. En la sección 4.3., se presenta la forma de proceder para verbalizar las relaciones entre los distintos objetos. Es importante señalar que las reglas obtenidas a partir del análisis lingüístico en este trabajo, también serán aplicables a aquellos objetos que sean reconocidos e interpretados automáticamente en la imagen en algunos sistemas. Sin embargo, este tipo de sistemas trabaja con imágenes sin oclusión y contienen objetos distinguibles por el humano facilitando reconocer e interpretar un objeto por las características de la imagen. En el caso del tratamiento automático de una imagen en todos los aspectos (segmentación, reconocimiento, interpretación, etc.) surge una clara ventaja sobre un tratamiento de semiautomático, debido a que este último tipo de tratamiento requeriría de la intervención humana pero podría abarcar un dominio más amplio de imágenes. 4.3. Tratamiento lingüístico Como parte del proceso de solución, la segunda tarea por realizar es el análisis lingüístico. Para llevar a cabo esta tarea, se contempla realizar lo siguiente:

a) Un análisis semántico-cognitivo de las siguientes unidades lingüísticas: sobre, en, entre, y tocar. Mediante este análisis se establecerán reglas que determinarán que unidades lingüísticas de las antes mencionadas utilizar

b) Como un elemento auxiliar se recurre a una Base de Datos de Sustantivos (BDS) conteniendo información gramatical acerca de dichos sustantivos y la cual servirá para validar los sustantivos (objetos) de la imagen, así como para construir y,

c) Un análisis sintáctico para formar expresiones sintáctica y semánticamente correctas consultando la BDS.

Análisis semántico-cognitivo. En esta tesis se trabaja con imágenes estáticas. Bajo esta consideración, se analizan las preposiciones sobre, en y entre ya que son unidades lingüísticas que permiten establecer relaciones entre entidades [25] considerando su uso espacial9. En el caso del verbo tocar, también es analizado en su uso espacial estático. Para generar una frase, se requiere establecer una relación entre al menos dos de los objetos de la imagen. Tal relación será determinada por alguna regla generada a partir del análisis de una preposición o un verbo. De esta forma, mediante las condiciones de alguna regla se determinará que unidad lingüística es la apropiada para establecer una relación entre los objetos involucrados. Para realizar el análisis semántico-cognitivo, se toman situaciones espaciales en donde la lengua permite o acepta el uso de alguna preposición antes mencionada. Se analizan todas estas situaciones con el fin de encontrar una “invariante”, es decir, aquellas características que se encuentran presentes en todas las situaciones espaciales. A partir de esta “invariante” se generan las reglas.

9 Hay tres usos: espacial, temporal y nocional [24, 25 y 27].

Page 43: S.E.P. S.E.S. D.G.E.S.T. - CENIDET · Cognitivo de nuevas unidades lingüísticas y generar sus reglas. Esta metodología es aplicable a otros lenguajes, sin embargo el análisis

Descripción de imágenes estáticas en lenguaje natural Capítulo IV. Diseño

32

Ejemplo, considérese las siguientes situaciones:

1. El libro está sobre la mesa. 2. Las hojas están sobre la pila de los libros. 3. El avión vuela sobre nosotros.

En 1 y 2 una característica a estas dos situaciones es el contacto. Esta característica no sería una invariante si consideramos la situación 3 donde ya se involucra el movimiento. Como el presente trabajo se refiere a una situación estática, se encontró que una de las características de la invariante es el contacto entre objetos (ver capítulo V). Base de Datos de Sustantivos. Cuando se establece una relación entre, al menos dos objetos, se procede a formar una expresión que involucre a ambos objetos. Los nombres de los objetos son sustantivos que se encuentran en la BDS. A través de la BDS se extrae información gramatical acerca de un determinado sustantivo como, artículo, artículo indefinido, género, número. Con está información obtenida y la relación establecida se construye una frase o expresión correcta gramaticalmente.

Análisis sintáctico. Para formar las expresiones que permitan verbalizar las relaciones entre los distintos objetos, se procede a concatenar los elementos que integran una expresión. Estos son: los objetos obtenidos del registro de objetos, la unidad lingüística que relaciona los objetos y la información gramatical extraída acerca de los objetos de la BDS. Para realizar está concatenación se emplea una estructura de oración. Un ejemplo de una estructura de oración es:

ARTI-SUST-VERB-PREP-ARTI-SUST

donde ARTI, SUST, VERB y PREP representan artículo, sustantivo, verbo y preposición respectivamente. Este análisis sintáctico es parcial debido a que sólo se generan frases a partir de estructuras de oración válidas definidas, verificando la parte semántica de una frase consulta la BDP. Este análisis lingüístico junto con el proceso de la DGOI permite realizar la verbalización de una imagen. La sección 4.4. muestra la unificación de ambos procesos y la secuencia de pasos a seguir para describir una imagen. 4.4. Propuesta de solución El proceso general para describir una imagen tiene como punto inicial una imagen (1). A partir de ésta, un usuario selecciona los objetos (localiza) en la imagen. Dichos objetos son entonces etiquetados (reconocimiento), contados y guardados en un registro (2). Guardados los datos en un registro éstos conformarán la DGOI (3). El tratamiento lingüístico consiste en aplicar las reglas obtenidas a partir del análisis semántico-cognitivo de las unidades lingüísticas a los datos de los objetos para establecer relaciones entre ellos. También se realizará un análisis sintáctico basado en consultas a la BDS para construir expresiones (4), generando las frases (5), figura 4.3.

Page 44: S.E.P. S.E.S. D.G.E.S.T. - CENIDET · Cognitivo de nuevas unidades lingüísticas y generar sus reglas. Esta metodología es aplicable a otros lenguajes, sin embargo el análisis

Descripción de imágenes estáticas en lenguaje natural Capítulo IV. Diseño

33

4.5. Características de las imágenes Debido a que se está trabajando con imágenes estáticas y a la amplia variedad de perspectivas que una imagen pueda tener, ángulos y diferentes formatos, se consideran las siguientes restricciones en las imágenes:

� Son tomadas de frente, es decir, con un ángulo de aproximadamente 180º respecto del observador.

� Contienen objetos distinguibles. � El formato es de mapa de bits.

4.5.1. Otros aspectos de interés

� Las expresiones generadas involucran sólo a los objetos seleccionados. � Sólo se consideran relaciones espaciales. � Los dominios están restringidos a fotografías tomadas en lugares cerrados como:

oficinas, casas, etc., debido a que contienen objetos inanimados. � La descripción cuantitativa de los objetos contenidos en la imagen es traducida a

una descripción cualitativa. � La descripción de la imagen es posicional y no de las características de los

objetos.

- Reconocimiento e interpretación manual de objetos - Conteo y registro de objetos

Generación de frases en lenguaje natural

Base de Datos de Sustantivos

Figura 4.3. Proceso y diseño de solución.

Tratamiento lingüístico

- Análisis semántico-cognitivo (reglas) - Análisis sintáctico

Descripción

Geométrica de los Objetos de la Imagen

3

4

5

2

1

Page 45: S.E.P. S.E.S. D.G.E.S.T. - CENIDET · Cognitivo de nuevas unidades lingüísticas y generar sus reglas. Esta metodología es aplicable a otros lenguajes, sin embargo el análisis

Capítulo

V

Tratamiento lingüístico Contenido:

Análisis semántico-cognitivo Introducción Preposición sobre Preposición en Preposición entre Verbo tocar

Reglas generadas Sobre En Entre Tocar

Análisis sintáctico Estructuras de oración

Conclusiones

Page 46: S.E.P. S.E.S. D.G.E.S.T. - CENIDET · Cognitivo de nuevas unidades lingüísticas y generar sus reglas. Esta metodología es aplicable a otros lenguajes, sin embargo el análisis

Descripción de imágenes estáticas en lenguaje natural Capítulo V. Tratamiento lingüístico

35

5.1. Análisis semántico-cognitivo 5.1.1. Introducción

Este capítulo presenta un análisis semántico-cognitivo de unidades lingüísticas, las reglas generadas para cada una de las unidades lingüísticas que determinan cuando usar cada una de éstas, la Base de Datos de Sustantivos y una sección de conclusiones.

Como parte del análisis semántico-cognitivo, a partir de los ESCs descritos en el capitulo III, se realiza un estudio de situaciones espaciales en las que la lengua acepta el uso de las siguientes preposiciones; sobre, en y entre así como el verbo tocar. Esto es con el fin de encontrar características comunes llamadas invariantes.

A partir de las invariantes se determinarán los criterios requeridos para seleccionar adecuada y automáticamente las unidades lingüísticas. Estos criterios son transformados en condiciones e involucran datos como: posiciones, orientaciones, etc., (datos numéricos) de las entidades involucradas. De esta forma se construyen las reglas para cada una de las unidades lingüísticas. La razón de expresar los resultados del análisis semántico-cognitivo en datos numéricos, es con el objeto de relacionar éstos con los de la DGOI. El análisis semántico-cognitivo se desarrolla en el nivel 3 de la GAC descrito en el capítulo III.

La BDS sirve como un elemento auxiliar para construir las frases correctamente al consultar, durante el proceso de la construcción de frases, información gramatical de un determinado sustantivo como su artículo, su género, etc. La BDS contiene aproximadamente 120 registros. Los elementos de la BDS son sustantivos que representan los nombres de los objetos contenidos en la imagen, así como el artículo, género, número para un determinado sustantivo.

El desarrollo del análisis semántico-cognitivo inicia por la preposición sobre seguida de en, entre y finalmente el verbo tocar. Definición de la preposición De acuerdo a [24] define a las preposiciones como “elementos relacionantes que no

tienen un valor autónomo, ni pueden utilizarse de forma independiente, y cuya función

es servir de enlace entre otros constituyentes oracionales, marcando la dependencia

sintáctica y/o semántica del constituyente que introduce respecto del otro. Morera, plantea que las preposiciones significan una relación sintáctica extrínseca u oblicua, queriendo decir con ello que se trata de signos que complementan la significación del elemento que los rige de forma indirecta. Portier [33], indica que cuando se usa el término relación no se hace desde una perspectiva funcional, sino que se refiere a la posición expresada por un elemento en relación a la sustancia predicativa de uno o varios lexemas. En el caso de las preposiciones espaciales, es lógicamente necesaria su definición como elementos relacionantes, pues un lugar no puede venir identificado por sí mismo, sino siempre en relación a otro lugar” (J. L. Cifuentes H.,. Locuciones prepositivas. Sobre la gramaticalización preposicional en español. Publicaciones: Universidad de Alicante, 2003, Págs. 65-69).

Page 47: S.E.P. S.E.S. D.G.E.S.T. - CENIDET · Cognitivo de nuevas unidades lingüísticas y generar sus reglas. Esta metodología es aplicable a otros lenguajes, sin embargo el análisis

Descripción de imágenes estáticas en lenguaje natural Capítulo V. Tratamiento lingüístico

36

En nuestra consideración, se asume la última de estás definiciones debido a que se considerara trabajar con posiciones espaciales. 5.1.2. La preposición sobre Definición

De acuerdo a [25] la preposición sobre expresa que una cosa está más alta que otra, en la misma vertical y en contacto o sin contacto con ella: llevaban el cántaro sobre la cabeza; la espada pendía de un hilo sobre su cabeza, el avión pasó sobre la ciudad. Expresa también la superioridad moral de una cosa con relación a otra: El bien común está sobre los intereses particulares. En [26] se define como un establecimiento de un límite entre dos entidades y una disyunción es creada, con el requerimiento de que el límite sea visto como “algo entre”. Para fines del análisis propuesto aquí se excluye el uso de sobre como sustantivo. Algunas de las definiciones mencionadas se basan en diferentes aspectos, es decir, pueden involucrar al tiempo, al espacio o describir situaciones nocionales. En el estudio y análisis de las preposiciones se consideran generalmente tres aspectos; espacial, temporal y nocional [24, 25 y 27]. Los siguientes son algunos ejemplos de expresiones con la preposición sobre considerando sus diferentes usos, tomados de [27]: Usos espaciales

Los platos hondos están sobre la mesa.

Rosa se puso su rebozo sobre la cabeza.

Usos temporales

Vendrá a casa sobre las cinco de la tarde.

Lo recibiremos sobre el 9 o el 10 de enero.

Usos nocionales

El capitán está sobre el sargento.

Ha realizado una tesis doctoral sobre la música en la Edad Media.

A continuación se presenta el análisis semántico-cognitivo de sobre considerando su uso espacial. Ejemplo 1: El libro está sobre la mesa. En este ejemplo, la preposición sobre implica considerar la frontera del lugar de referencia mesa. El objeto libro es localizado en la superficie de éste lugar. Esta localización está relacionada con un eje vertical que coincide con la fuerza de la gravedad y que mantienen el contacto entre los dos objetos, figura 5.1.

Page 48: S.E.P. S.E.S. D.G.E.S.T. - CENIDET · Cognitivo de nuevas unidades lingüísticas y generar sus reglas. Esta metodología es aplicable a otros lenguajes, sin embargo el análisis

Descripción de imágenes estáticas en lenguaje natural Capítulo V. Tratamiento lingüístico

37

Basándose en los ESCs descritos en el capítulo III, la figura 5.2. muestra el ESC para la expresión de este ejemplo. Aquí x es una variable que denota la entidad el libro, la variable y denota la entidad mesa. La situación SIT expresa una relación en la cual x (libro) está localizado (denotado por la primitiva REP) en la frontera (FRO) del lugar ocupado por la entidad mesa (loc(y)). Ejemplo 2: Rosa se puso su rebozo sobre la cabeza.

En este ejemplo, si el objeto rebozo está simplemente sobrepuesto se tiene la presencia de la fuerza de gravedad. Sin embargo, si éste objeto está atado alrededor de la cabeza ya no es la fuerza de la gravedad quien mantiene el contacto entre los dos objetos, es una fuerza que está dirigida a la superficie de la cabeza, figura 5.3. La figura 5.4. muestra el ESC correspondiente al ejemplo 2. En dicha figura, x es una variable que denota la entidad cabeza, la variable y denota la entidad rebozo y con z es denotada la entidad Rosa. Primero, se da una situación 1 denotado por SIT1 en la cual, y (rebozo) no se encuentra localizado en x (¬ y ∈ FRO (loc(x))). Posteriormente, por un

contacto gravedad

mesa

Figura. 5.1. Análisis semántico-cognitivo para la expresión: El libro está sobre la mesa.

libro

contacto

cabeza

Figura. 5.3. Análisis semántico-cognitivo para la expresión: Rosa puso su rebozo sobre la cabeza.

rebozo

x: mesa: L y: libro:I

SIT

x REP FRO (loc(y))

Figura. 5.2. ESC para la expresión: El libro está sobre la mesa.

Page 49: S.E.P. S.E.S. D.G.E.S.T. - CENIDET · Cognitivo de nuevas unidades lingüísticas y generar sus reglas. Esta metodología es aplicable a otros lenguajes, sin embargo el análisis

Descripción de imágenes estáticas en lenguaje natural Capítulo V. Tratamiento lingüístico

38

movimiento (MOUV) y un control (CONTR) ejercido por z (Rosa) y pasa a estar localizado en x (y ∈ FRO (loc(x))).

Ejemplo 3. Las nubes están sobre los cerros.

En este ejemplo, no se hay contacto entre los objetos. Sin embargo, la preposición sobre marca la posición de las nubes con relación a la frontera del lugar de referencia los cerros. Cabe mencionar que al emplear la preposición sobre el objeto que se toma como referencia siempre es de mayor tamaño (hay casos excepcionales, como en el que las nubes sean de mayor dimensión que los cerros), figura 5.5.

La figura 5.6. representa el ESC correspondiente al ejemplo 3. Del ESC de la figura 5.6, x es una variable que denota la entidad nubes, la variable y denota la entidad cerros. Se presenta una situación denotado por SIT en la cual, x (nubes) se encuentran localizadas en el exterior de los cerros (x REP EXT (loc(y))).

x: cabeza : I y: rebozo : I z: Rosa

¬ y REP FRO (loc(x))

SIT 1

y REP FRO (loc(x))

SIT 2 MOUV

CONTRz

Figura 5.4. ESC para la expresión: Rosa se puso su rebozo sobre la cabeza.

cerros

Figura 5.5. Análisis semántico-cognitivo para la expresión: Las nubes están sobre los cerros.

gravedad

nubes

Figura 5.6. ESC para la expresión: Las nubes están sobre los cerros.

x: nubes: L y: cerros:I

SIT x REP EXT (loc(y))

Page 50: S.E.P. S.E.S. D.G.E.S.T. - CENIDET · Cognitivo de nuevas unidades lingüísticas y generar sus reglas. Esta metodología es aplicable a otros lenguajes, sin embargo el análisis

Descripción de imágenes estáticas en lenguaje natural Capítulo V. Tratamiento lingüístico

39

En este ejemplo, se puede observar que no hay contacto entre las entidades nubes y cerros; sin embargo, en nuestro caso de estudio se consideran situaciones en las que se da un contacto entre las entidades involucradas. Al utilizar la preposición sobre empleando su uso espacial, se tiene que ésta puede ser utilizada también como la preposición en como por ejemplo: El libro está sobre la mesa, que es lo mismo que El libro está en la mesa. Para ver una justificación de esta afirmación véase el libro de Ma. Luisa López. Claudicación en el uso de las

preposiciones, cap. VI: Polisemia de las preposiciones (págs. 67-68). También, la preposición sobre considerando su uso espacial es equivalente a usar la locución prepositiva encima de como en El libro está sobre la mesa que también puede ser expresada como El libro está encima de la mesa, la justificación de esté uso puede ser vista en [24 y 28]. De acuerdo al análisis realizado de está preposición (sobre), esta tiene la siguiente invariante: localización con respecto a la frontera de un lugar según un gradiente y contacto entre las dos entidades. 5.1.3. La preposición en Definición

De igual forma en que la preposición sobre, la preposición en también puede ser empleada considerando sus tres usos: espacial, temporal y nocional. A continuación se presentan algunas definiciones de esta, posteriormente algunos ejemplos. De acuerdo a [28] en representa la interioridad en un doble límite, y también el movimiento franqueando un límite de interioridad. Todavía hay otra posibilidad respecto a en: según Portier [33], de la representación de interioridad se ha pasada a la de superposición: IN MENSA, “en el interior de los límites de la mesa”, se convierte, con eje de orientación vertical, en “sobre la mesa”. Desde otro punto de vista, en [25] se menciona que en la preposición en concurren dos significados fundamentales: el que indica un lugar al que se va, p. ej. entrar en casa, y el que señala un lugar en el que se está, p. ej. vivir en el campo, donde, este último significado es el que en este trabajo interesa. Ambos significados se daban ya en la preposición latina in. Otra definición que se da en [27] tomando en cuenta su uso espacial es la siguiente: indica el lugar en el que se localiza algo o en el que tiene lugar algún acontecimiento. Los siguientes son ejemplos de expresiones con la preposición en considerando sus diferentes usos tomados de [27]: Usos espaciales

El parque del Retiro está en Madrid.

Los platos ya están en la mesa.

Usos temporales

José vendrá en verano.

Hicieron el examen en dos horas.

Page 51: S.E.P. S.E.S. D.G.E.S.T. - CENIDET · Cognitivo de nuevas unidades lingüísticas y generar sus reglas. Esta metodología es aplicable a otros lenguajes, sin embargo el análisis

Descripción de imágenes estáticas en lenguaje natural Capítulo V. Tratamiento lingüístico

40

Usos nocionales

Se presentó en el baile de fin de curso en zapatillas.

Habla en voz baja para que no se despierte el niño.

Los siguientes ejemplos de en son tomados como base para analizar el uso espacial de dicha preposición. Ejemplo 1. El libro está en la caja. En este ejemplo, la preposición en implica considerar el interior del lugar de referencia caja. El objeto libro es localizado en el interior de este lugar. Esta localización está representada por la interioridad de los límites de la caja. En este caso en, hace referencia al interior del lugar mencionado, figura 5.7. La figura 5.8. representa el ESC correspondiente al ejemplo 1. La variable x denota la entidad libro, la variable y denota la entidad caja. La situación SIT expresa una relación en la cual x (libro) está localizado (denotado por la primitiva REP) en la interior (INT) del lugar ocupado por la entidad caja (loc(y)). Ejemplo 2. El parque del Retiro está en Madrid.

En este ejemplo, la preposición en implica considerar nuevamente la interior del lugar de referencia Madrid. La entidad parque del Retiro es localizado en el interior de este lugar. Esta localización está representada por la interioridad de los límites de Madrid. En este caso en, hace referencia al interior del lugar mencionado, figura 5.9.

caja

Figura. 5.7. Análisis semántico-cognitivo para la expresión: El libro está en la caja.

libro

INT

Figura. 5.9. Análisis semántico-cognitivo para la expresión: El parque del Retiro está en Madrid.

PARQUE DEL RETIRO

MADRID

Figura. 5.8. ESC para la expresión: El libro está en la caja.

x: libro: I y: caja :I

SIT x REP INT (loc(y))

Page 52: S.E.P. S.E.S. D.G.E.S.T. - CENIDET · Cognitivo de nuevas unidades lingüísticas y generar sus reglas. Esta metodología es aplicable a otros lenguajes, sin embargo el análisis

Descripción de imágenes estáticas en lenguaje natural Capítulo V. Tratamiento lingüístico

41

La figura 5.10. representa el ESC correspondiente al ejemplo 2. Aquí x es una variable que denota la entidad parque del Retiro, y es otra variable y denota la entidad Madrid. Existe una situación SIT que expresa una relación, en la cual x (parque del Retiro) está localizado (denotado por la primitiva REP) en la interior (INT) del lugar ocupado por la entidad Madrid (loc(y)). De acuerdo a este análisis semántico-cognitivo de los usos espaciales de la preposición en, se obtiene la siguiente invariante: localización con respecto a la cerradura (es decir, interior y frontera) de un lugar y contacto entre las dos entidades. 5.1.4. La preposición entre Definición

La preposición entre en [28] indica situación en el interior de dos límites expresamente señalados (de aquí que aparezca frecuentemente). En [29] se dan algunas interpretaciones como: denota la situación o estado en medio de dos o más cosas. Denota estado intermedio. Entre dulce y agrio. Denota cooperación de dos o más personas o cosas. Los siguientes son ejemplos de expresiones con la preposición entre considerando los diferentes usos tomados de [28]: Usos espaciales

Entre la casa y el río.

Entre los dos árboles.

Usos temporales

Entre la una y las dos de la tarde.

Entre Navidad y Semana Santa.

Usos nocionales

Entre los dos cocinamos.

Entre tú y yo lo haremos.

x: parque del Retiro: L y: Madrid :L

SIT

x REP INT (loc(y))

Figura. 5.10. ESC para la expresión: El libro está en la caja.

Page 53: S.E.P. S.E.S. D.G.E.S.T. - CENIDET · Cognitivo de nuevas unidades lingüísticas y generar sus reglas. Esta metodología es aplicable a otros lenguajes, sin embargo el análisis

Descripción de imágenes estáticas en lenguaje natural Capítulo V. Tratamiento lingüístico

42

A partir de las siguientes situaciones se analiza entre tomando en cuenta sólo su uso espacial. Ejemplo 1. Las cajas están entre el escritorio y el librero. En este ejemplo, la preposición entre se utiliza para localizar un(os) elemento (s) (cajas) en medio de dos o más personas o cosas (escritorio y librero). La entidad cajas está localizada en la frontera exterior de las entidades escritorio y librero, figura 5.11. La figura 5.12. representa el ESC correspondiente al ejemplo 1. Aquí x, y y z son variables que denotan cajas, escritorio y librero. Bajo una situación SIT, x está localizado en la frontera exterior (REP FRO-ext) de y. También, bajo la misma situación SIT, x está localizado en la frontera exterior (REP FRO-ext) de z. En ambos casos, puede o no haber contacto entre x e y, y x y z. Ejemplo 2. El pantalón está en el armario entre la ropa sucia.

En este ejemplo, entre es utilizado para una localización imprecisa en la que algo (pantalón) o alguien se encuentra rodeado de otros objetos (ropa sucia) o personas. Nuevamente, como el ejemplo anterior, la entidad pantalón está localizada en la frontera exterior de la entidad ropa, figura 5.13.

Eje horizontal

Figura. 5.11. Análisis semántico-cognitivo para la expresión: Las cajas están entre el escritorio y el librero.

escritorio cajas

sin contacto contacto

librero Eje horizontal

x: cajas: I y: escritorio :I z: librero: I

Figura. 5.12. ESC para la expresión: Las cajas están entre el escritorio y el librero.

SIT [ x REP FRO-ext (loc (y) ) ] ∧ [ x REP FRO-ext (loc (z) ) ]

armario

pantalón ropa sucia

ropa sucia

Figura. 5.13. Análisis semántico-cognitivo para la expresión: El pantalón está en el armario entre la

ropa sucia.

Page 54: S.E.P. S.E.S. D.G.E.S.T. - CENIDET · Cognitivo de nuevas unidades lingüísticas y generar sus reglas. Esta metodología es aplicable a otros lenguajes, sin embargo el análisis

Descripción de imágenes estáticas en lenguaje natural Capítulo V. Tratamiento lingüístico

43

La figura 5.14. representa el ESC correspondiente al ejemplo 2. Nuevamente, aquí x, y y z son variables que denotan pantalón, armario y ropa sucia. Bajo una situación SIT, x (pantalón) está localizado (REP) en el interior (INT) de y (armario), y a su vez x (pantalón) está localizado en la frontera exterior de z (la ropa sucia) es decir (x REP FRO-ext (loc(z)) ). De acuerdo a nuestro análisis semántico-cognitivo de los usos espaciales de la preposición entre, se obtiene la siguiente invariante: localización con respecto a la frontera exterior de entidades teniendo o no contacto, según un gradiente en sentido horizontal. 5.1.5. El verbo tocar Definición

Esta sección muestra el análisis semántico-cognitivo del verbo tocar. Se considera únicamente el significado de este verbo para situaciones estáticas y excluimos los restantes usos ya que sólo se analizan situaciones espaciales. El análisis de este verbo inicia al definirlo; posteriormente, se muestran ESCs de expresiones involucrado el verbo tocar para formar una RSC. A partir de la RSC se analiza únicamente su significado estático de este verbo. El verbo tocar es un verbo polisémico, es decir, con múltiples significados. Por ejemplo, en la expresión: El niño toca la flauta, toca no tiene el mismo significado que en: La mesa toca el sofá. También, el verbo toca de esta última expresión no tiene el mismo significado de esta expresión: Esta poesía está bien, no hay que tocarla. Esta pluralidad de significados puede ser analizada a través de las RSCs mencionadas en el capítulo III. Aquí se analizan algunos ejemplos para formar una RSC considerando sus diferentes usos. El análisis de este verbo, en este trabajo se restringe a considerar sólo uso espacial. Hay muchas definiciones para el verbo tocar dependiendo del contexto, aquí se presentan algunas tomadas de [29] analizando en particular su uso espacial. Las siguientes son las definiciones tomadas: (1) Ejercitar el sentido del tacto. (2) Hacer sonar según arte cualquier instrumento. (3) Interpretar una pieza musical. (4) Dicho de una cosa: Estar cerca de otra de modo que no quede entre ellas distancia alguna. Esta última definición (4) es tomada como referencia para determinar cuando usar este verbo en uso espacial.

SIT

[ x REP INT (loc (y) )) ] ∧

[ x REP FRO-ext (loc (z)) ]

Figura. 5.14. ESC para la expresión: El pantalón está en el armario entre la ropa socia.

Page 55: S.E.P. S.E.S. D.G.E.S.T. - CENIDET · Cognitivo de nuevas unidades lingüísticas y generar sus reglas. Esta metodología es aplicable a otros lenguajes, sin embargo el análisis

Descripción de imágenes estáticas en lenguaje natural Capítulo V. Tratamiento lingüístico

44

Los siguientes son ejemplos de expresiones con el verbo tocar considerando sus diferentes usos. Usos espaciales

El librero toca la mesa.

Las cajas tocan el archivero.

Usos temporales

Te toca comer a las 2:00 p.m.

José estará tocando con la banda la próxima semana.

Usos nocionales

El tocó la campana de la escuela.

Toca la guitarra muy bien.

Los siguientes son algunos de ejemplos de ESCs. Con estos ESCs se integrará una RSC de significados del verbo tocar. En una RSC se tienen diferentes significados de un mismo verbo. Cada ESC de la RSC es diferente. Esta diferencia marca el significado apropiado del verbo tocar en este caso. A continuación se presentan los ESCs y posteriormente la RSC. ESC-1para la expresión: Juan toca el libro. En este ejemplo, el significado del verbo tocar es de un contacto entre la mano de Juan y el libro. Como en los ejemplos anteriores de ESCs, x, y y z son variables que denotan mano de Juan, libro y Juan respectivamente.

Primero hay una situación (SIT1) en la cual el libro (y) no (¬) está (REP) localizado (loc) en la mano de Juan (x). En una segunda situación (SIT2) por un movimiento (MOUV) y un control ejercido por Juan (CONTRZ) el libro (y) está (REP) localizado (loc) en la mano de Juan (x), figura 5.15. ESC-2 para la expresión: El escritorio toca al librero.

Figura 5.15. ESC para la expresión: Juan toca el libro.

¬ (y REP loc(x))

SIT 1

y REP (loc(x))

SIT 2 MOUV

CONTRz

x: mano de Juan: I y: libro: I z: Juan

Page 56: S.E.P. S.E.S. D.G.E.S.T. - CENIDET · Cognitivo de nuevas unidades lingüísticas y generar sus reglas. Esta metodología es aplicable a otros lenguajes, sin embargo el análisis

Descripción de imágenes estáticas en lenguaje natural Capítulo V. Tratamiento lingüístico

45

En este ejemplo, el significado del verbo tocar también implica un contacto, en este caso entre el escritorio y el librero.

También aquí, x e y son variables que denotan al escritorio y librero respectivamente. Hay una situación (SIT) en la cual el escritorio (x) está (REP) localizado (loc) en la frontera (FRO) del librero (y). A su vez, bajo la misma situación (SIT) el librero (y) está (REP) localizado (loc) en la frontera (FRO) del escritorio (x), figura 5.16. ESC-3 para la expresión: Juan toca la puerta. Nuevamente en este ejemplo, el significado del verbo tocar es de un contacto, en este caso entre la mano de Juan y la puerta.

x, y y z son variables que denotan Juan, mano de Juan, y puerta respectivamente. Primero hay una situación (SIT1) en la cual la mano de Juan (y) no (¬) está (REP) localizado (loc) en Juan (x) y no es verdad que (¬) .la mano de Juan este localizada en la puerta (z). Por un movimiento (MOUV) y un control (CONTRx) ejercido por Juan. En una segunda situación (SIT2) por un movimiento (MOUV) y un control ejercido por Juan (CONTRZ) y una intención por Juan (TELEOx), la mano de Juan (y) está (REP) localizada (loc) en Juan (x) y la mano de Juan también esta (REP) localizada (loc) en la puerta (z), figura 5.17. La figura 5.18. muestra la RSC para el verbo tocar integrando el ESC-1, ESC-2 y ESC-3.

x: escritorio del Retiro: I y: librero :I

SIT

[ x REP FRO (loc (y) ) ] ∧ [ y REP FRO (loc (x)) ]

Figura. 5.16. ESC para la expresión: El escritorio toca al librero.

S1

tocar

S3 S2

S1: Juan toca el libro.

S2: El escritorio toca al librero.

S3: Juan toca la puerta.

Figura 5.18. RSC para el verbo tocar.

Figura 5.17. ESC para la expresión: Juan toca el libro.

y REP loc(x), ¬ (y REP loc(z))

SIT 1

y REP (loc(x)), y REP (loc(z))

SIT 2 MOUV

CONTRx ^ TELEOx

x: Juan: I y: mano de Juan: I z: puerta

Page 57: S.E.P. S.E.S. D.G.E.S.T. - CENIDET · Cognitivo de nuevas unidades lingüísticas y generar sus reglas. Esta metodología es aplicable a otros lenguajes, sin embargo el análisis

Descripción de imágenes estáticas en lenguaje natural Capítulo V. Tratamiento lingüístico

46

De la figura 5.18. S1, S2 y S3 representan tres significados del verbo tocar. De esta forma, en una RSC se integran los diferentes significados de un mismo verbo bajo la forma de ESCs. En este trabajo, se considera únicamente el significado estático de este verbo estableciendo en la sección 5.2. los criterios que se deben cumplir al utilizar este verbo teniendo la siguiente conclusión: El verbo tocar podrá ser aplicado entre dos entidades cuando exista contacto entre ambas en un sentido horizontal, y este contacto sea por el lado vertical de ambas. En caso de que ambas entidades estén muy cercanas pero sin llegar al contacto se empleará la locución prepositiva junto a, una justificación de este hecho puede ser vista en [29], donde se menciona que, como locución prepositiva significa cerca de o en compañía de. Debido a que sólo se utiliza el significado en situaciones estáticas se excluye cerca de y en compañía de.

5.2. Reglas generadas Esta sección, muestra los resultados obtenidos para: sobre, en, entre y tocar a partir de su análisis semántico-cognitivo visto. Los resultados obtenidos son traducidos a reglas, mostrando así las condiciones que cada una de las unidades lingüísticas debe cumplir para utilizarla considerando su uso espacial. Para poder establecer una relación entre la DGOI y las reglas obtenidas a partir del análisis lingüístico se busca “algo” en común que relacione a la DGOI y las reglas. Por una parte, la DGOI contiene los objetos representados en términos de coordenadas (información cuantitativa). Por otra parte, las reglas para cada unidad lingüística son expresadas mediante desigualdades involucrando las entidades (objetos) en términos de coordenadas. De esta manera, las coordenadas son el elemento en común que permitirá relacionar ambos: DGOI y reglas. De la tabla 4.1. se vio que por ejemplo, pA.xi representa la abcisa del punto A del objeto i. Bajo esta convención por medio de desigualdades se establecen condiciones que se deben cumplir para utilizar alguna preposición o verbo. A continuación, se muestran las reglas obtenidas para: sobre, en, entre y tocar. 5.2.1. Sobre

Sean, i y j objetos que representan entidades involucradas en expresiones (cosas o personas) como el libro (i) está sobre la mesa (j). De acuerdo al análisis semántico-cognitivo de ésta preposición, debe de existir un contacto entre los dos objetos a manipular. Uno de ellos será el lugar de referencia (objeto j) y el otro será el objeto localizado (objeto i). Por lo tanto, debe de existir una intersección pero no una inclusión entre ambos objetos. A partir del análisis semántico-cognitivo también se obtuvo una localización con respecto a la frontera del lugar de referencia según un gradiente. De esto se deriva la siguiente consideración: el lado horizontal inferior del objeto i debe ser menor o igual al lado superior del objeto j.

Page 58: S.E.P. S.E.S. D.G.E.S.T. - CENIDET · Cognitivo de nuevas unidades lingüísticas y generar sus reglas. Esta metodología es aplicable a otros lenguajes, sin embargo el análisis

Descripción de imágenes estáticas en lenguaje natural Capítulo V. Tratamiento lingüístico

47

Además, el área del objeto i debe ser menor o igual al área del objeto j. Traducido esto a coordenadas, genera las siguientes reglas: Regla 1 (localización en la frontera y un gradiente):pA.xj <= pA.xi ∧ pB.xj >= pB.xi Regla 2 (contacto): pB.yi <= pB.xj ^ pB.yi >= pA.yj Regla 3 (diferencia de tamaños): Ai <= Aj Donde ^ significa y (conjunción). La figura 5.19. muestra los objetos (representados por rectángulos) que cumplen (rectángulos con líneas punteadas) y los que no cumplen (rectángulos con doble línea) con las reglas de sobre. El rectángulo dibujado con una línea sencilla representa el objeto de referencia. 5.2.2. En

Sean, i y j objetos que representan entidades involucradas en expresiones (cosas o personas) como el libro (i) está en la mesa (j). De acuerdo al análisis semántico-cognitivo de esta preposición, se tiene que considerar un contacto entre los objetos y una localización en la cerradura del lugar de referencia. De esto se deriva la siguiente consideración: el área de un objeto i debe de estar contenida en el área (interior y frontera) de un objeto k. Las siguientes reglas son aplicadas para utilizar esta preposición: Regla 1 (localización en la cerradura y contacto): pA.xj <= pA.xi ∧ pB.xj >= pB.xi Regla 2 (localización en la cerradura y contacto): pB.yi <= pB.yj ^ pA.yj <= pA.yi Regla 3 (diferencia de tamaños): Ai <= Aj Donde ^ significa y (conjunción).

La figura 5.20. muestra los objetos (representados por rectángulos) que cumplen (rectángulos con líneas punteadas) y los que no cumplen (rectángulos con doble línea) con las reglas de en. El rectángulo dibujado con una línea sencilla representa el objeto de referencia.

Objeto de referencia

Figura. 5.19. Objetos que cumplen y no cumplen las condiciones de sobre.

libro

lápiz

vaso

manzana

Figura. 5.20. Objetos que cumplen y no cumplen las condiciones de en.

libro

lápiz

vaso

manzana

Objeto de referencia

Page 59: S.E.P. S.E.S. D.G.E.S.T. - CENIDET · Cognitivo de nuevas unidades lingüísticas y generar sus reglas. Esta metodología es aplicable a otros lenguajes, sin embargo el análisis

Descripción de imágenes estáticas en lenguaje natural Capítulo V. Tratamiento lingüístico

48

5.2.3. Entre

Sean, i, j y k objetos que representan entidades involucradas en expresiones (cosas o personas) como el sofá (i) está entre la mesa (j) y el librero (k). De acuerdo al análisis de esta preposición, uno objeto i está localizado en la frontera exterior de dos objetos k y j. Además, puede o no existir contacto entre i y j y k e i y este contacto es en un sentido horizontal. Las reglas para aplicar esta preposición son: Regla 1 (localización en la frontera): (pA.yj <= pB.yi ^ pB.yj >= pA.yj) ∨

(pB.yj >= pA.yi ^ pA.yj <= pB.yi) Regla 2 (localización en la frontera): (pA.yk <= pB.yi ^ pB.yk >= pA.yi) ∨

(pB.yk >= pA.yi ^ pA.yk <= pB.yi) Regla 3 (contacto en sentido horizontal): pB.xj <= pA.xi ∨

(pB.xj >= pA.xi ^ |pB.xj - pA.xi| <= rango) Regla 4 (contacto en sentido horizontal): pA.xk >= pB.xi ∨

(pA.xk >= pB.xi ^ |pB.xi - pA.xk| <= rango) Donde ∨ significa o (disyunción).

La figura 5.21. muestra los objetos (representados por rectángulos) que cumplen (rectángulos con líneas punteadas) y los que no cumplen (rectángulos con doble línea) con las reglas de entre. El rectángulo dibujado con una línea sencilla representa el objeto de referencia. 5.2.4. Tocar

De acuerdo al análisis de tocar, el verbo tocar podrá ser aplicado entre dos entidades cuando exista contacto entre ambas en un sentido horizontal, y este contacto sea por el lado vertical de ambas entidades. Sean, i y j objetos que representan entidades involucradas en expresiones (cosas o personas) como la mesa (i) toca al librero (j). Las reglas para este verbo de acuerdo al análisis son: las siguientes: Regla 1(localización horizontal). pC.xi < pC.xj Regla 2(contacto). pB.xi ± rango10 >= pA.xj

10 rango es un valor de distancia mínima.

Objeto de referencia

Figura. 5.21. Objetos que cumplen y no cumplen las condiciones de entre.

mesa bote

librero

cajas

sofá

Page 60: S.E.P. S.E.S. D.G.E.S.T. - CENIDET · Cognitivo de nuevas unidades lingüísticas y generar sus reglas. Esta metodología es aplicable a otros lenguajes, sin embargo el análisis

Descripción de imágenes estáticas en lenguaje natural Capítulo V. Tratamiento lingüístico

49

La figura 5.22. muestra los objetos (representados por rectángulos) que cumplen (rectángulos con líneas punteadas) y los que no cumplen (rectángulos con doble línea) con las reglas de tocar. El rectángulo dibujado con una línea sencilla representa el objeto de referencia. Como se mencionó en el capítulo anterior, las reglas obtenidas a partir del análisis lingüístico podrán también ser aplicadas a trabajos futuros, donde los objetos podrían ser reconocidos e interpretados en forma automática. De esta forma, la información cuantitativa obtenida de los objetos también podrá ser relacionada con la información obtenida de las reglas surgidas a partir del análisis semántico-cognitivo de sobre, en, entre y tocar. 5.3. Análisis sintáctico Una vez determinado que preposición o verbo utilizar entre las entidades involucradas, se procede a verbalizar la relación para formar una expresión o frase. Dicha expresión se construye concatenando las entidades (objetos) involucradas, el verbo o preposición según se trate, así como la información gramatical requerida. Esta construcción de la expresión o frase se basa en estructuras de oración sintácticamente válidas. Para verificar que la expresión se construya semánticamente bien, se recurre a la BDS para consultar información gramatical acerca de los objetos involucrados en la expresión. De esta forma, consultando la BDS se recupera información necesaria acerca de un determinado sustantivo (objeto) para darle un sentido a una expresión o frase, construyéndola sintáctica y semánticamente bien. 5.3.1. Estructuras de oración

La estructura de oración define que elementos intervienen en una oración, como en: ARTI-SUST-VERB-PREP-ARTI-SUST, donde ARTI, SUST, VERB y PREP representan un artículo, un sustantivo, un verbo y una preposición respectivamente. Las siguientes son las estructuras de oración empleadas para generar las frases:

ARTI-SUST-VERB-PREP-ARTI-SUST

ARTI-SUST-VERB-LOC-PREP-ARTI-SUST

ARTI-SUST-VERB-LOC-PREP-CONT-SUST

ARTI-SUST-VERB-PREP-ARTI-SUST-CONJ-ARTI-SUST

ARTI-SUST-VERB-PREP-CONT-SUST

Objeto de referencia

Figura. 5.22. Objetos que cumplen y no cumplen las condiciones de tocar.

bote

mesa

silla buró

vaso

Page 61: S.E.P. S.E.S. D.G.E.S.T. - CENIDET · Cognitivo de nuevas unidades lingüísticas y generar sus reglas. Esta metodología es aplicable a otros lenguajes, sin embargo el análisis

Descripción de imágenes estáticas en lenguaje natural Capítulo V. Tratamiento lingüístico

50

ARTI-SUST-VERB-ARTI-SUST

ARTI-SUST-VERB-CONT-SUST

PREP-ARTI-SUST-VERB-ARTI-SUST

PREP-ARTI-SUST-CONJ-ARTI-SUST-VERB-ARTI-SUST

PREP-ARTI-SUST-VERB-ARTI-SUST

LOC-PREP-ARTI-SUST-VERB-ARTI-SUST

PREP-CONT-SUST-VERB-ARTI-SUST

PREP-ARTI-SUST-VERB-ARTI-SUST-ARTI-SUST-. . . -CONJ-ARTI-SUST

La tabla 5.1. muestra las abreviaciones utilizadas para las partes de las estructuras de oración anteriores.

Tabla 5.1. Convenciones utilizadas para representar las unidades lingüísticas de una estructura de oración.

Convención Descripción

ARTI Artículo

SUST Sustantivo VERB Verbo PREP Preposición CONJ Conjunción CONT Contracción LOC-PREP Locución prepositiva

En la construcción de una expresión o frase teniendo la preposición o el verbo elegido y las entidades involucradas (objetos, también vistos como sustantivos en este análisis) se realiza la concatenación de estos y la información requerida en base a una estructura de oración. Sean mesa y libro las dos entidades relacionadas por la preposición sobre, al relacionar mesa y libro se determinó quien es el objeto de referencia (mesa) y el objeto (libro) localizado. La estructura de oración que se emplea aquí para construir la oración es: ARTI-SUST-VERB-PREP-ARTI-SUST, donde lo único que falta por determinar es el artículo en los dos sustantivos. Durante el proceso de la concatenación de los elementos de la expresión se realiza una búsqueda en la BDS de ambos sustantivos por separado para obtener lo que se requiera; el artículo definido, artículo indefinido, número, género, singular o plural. Con esta información adicional obtenida de la BDS se termina el proceso para generar la expresión o frase. 5.4. Conclusiones Como parte del análisis lingüístico, en este capítulo se presentó el análisis semántico-cognitivo de las preposiciones sobre, en y entre, así como del verbo tocar, basándose en el modelo de la GAC descrito en el capítulo III. Con el análisis de dichas unidades lingüísticas se procedió a establecer los criterios que deben cumplir éstas, obteniendo así las reglas requeridas. De esta manera las reglas obtenidas pueden ser aplicadas a la DGOI y generar las frases que describan una imagen.

Page 62: S.E.P. S.E.S. D.G.E.S.T. - CENIDET · Cognitivo de nuevas unidades lingüísticas y generar sus reglas. Esta metodología es aplicable a otros lenguajes, sin embargo el análisis

Descripción de imágenes estáticas en lenguaje natural Capítulo V. Tratamiento lingüístico

51

El análisis de las unidades lingüísticas vistas aquí analizadas arrojó un conjunto de reglas que podrán ser aplicables a trabajos futuros donde el reconocimiento e interpretación de los objetos se realice en forma automática.

Page 63: S.E.P. S.E.S. D.G.E.S.T. - CENIDET · Cognitivo de nuevas unidades lingüísticas y generar sus reglas. Esta metodología es aplicable a otros lenguajes, sin embargo el análisis

Capítulo

VI

Pruebas y resultados Contenido:

Introducción Pruebas y resultados

Caso de prueba 1: Todas las preposiciones y el verbo analizados Caso de prueba 2: Varios objetos sobre un mismo objeto Caso de prueba 3: El verbo tocar y la locución prepositiva junto a Caso de prueba 4: Pluralización de objetos Caso de prueba 5: Un letrero, un anuncio y una mesa en la pared Caso de prueba 6: Caso de prueba 6: Agregando elementos a la BDP Caso de prueba 7: Omitiendo objetos en la descripción de la imagen

Comparación con otros trabajos

Page 64: S.E.P. S.E.S. D.G.E.S.T. - CENIDET · Cognitivo de nuevas unidades lingüísticas y generar sus reglas. Esta metodología es aplicable a otros lenguajes, sin embargo el análisis

Descripción automática de imágenes estáticas en lenguaje natural Capítulo VI. Pruebas y resultados

53

6.1. Introducción

Los procesos de la DGOI y los resultados del análisis lingüístico son integrados al implementar un prototipo que permite generar expresiones o frases en lenguaje natural a partir de una imagen. El prototipo DIE toma como entrada una imagen, a partir de ésta se generan dos descripciones involucrando las preposiciones y el verbo analizados (sobre, en, entre y tocar). La primera de las descripciones, lista todos los objetos seleccionados por el usuario, involucrando las preposiciones o el verbo analizado dependiendo de la localización de los objetos en la imagen. La segunda descripción también lista todos los objetos seleccionados de la imagen, pero a diferencia de la primera, en esta sólo se listan los objetos más grandes. La razón para listar primero los objetos pequeños y después los más grandes, se debe a que generalmente al describir una imagen, los primeros objetos que se describen son los más grandes, posteriormente los más pequeños. La forma en que DIE marca esta diferencia al listarlos, es explicada en el capítulo. IV. Diseño. 6.2. Pruebas y resultados

A continuación se muestran pruebas y resultados obtenidos de la herramienta DIE. El tipo de imágenes con que se realizaron las pruebas son en formato de mapa de bits. Los resultados fueron aceptables en un 90% de un total de 25 imágenes. 6.2.1. Caso de prueba 1: Todas las preposiciones y el verbo analizados

En este caso de prueba, se muestra una imagen en la cual se genera una descripción de la misma involucrando todas las preposiciones y el verbo analizados. Como se vio en el análisis de la preposición sobre considerando su uso espacial, ésta puede ser vista como la locución prepositiva encima de o la preposición en. De esta forma cuando se trata de relacionar elementos mediante la preposición sobre, de acuerdo al análisis de sobre DIE genera aleatoriamente sobre, encima de o en, Fig. 6.1.

Figura 6.1. Generación de frases involucrando todas las preposiciones y el verbo analizados.

Page 65: S.E.P. S.E.S. D.G.E.S.T. - CENIDET · Cognitivo de nuevas unidades lingüísticas y generar sus reglas. Esta metodología es aplicable a otros lenguajes, sin embargo el análisis

Descripción automática de imágenes estáticas en lenguaje natural Capítulo VI. Pruebas y resultados

54

En este caso de prueba la imagen no está a 180º respecto del observador. La tabla 6.1. muestra las dos descripciones completas para la figura 6.1. La primera de las descripciones (DESCRIPCIÓN 1 DE LA IMAGEN) muestra un listado completo de los objetos seleccionados en la imagen, así como las correspondientes expresiones o frases. La segunda descripción (DESCRIPCIÓN 2 DE LA IMAGEN) muestra un listado de los objetos más grandes seleccionados en la imagen, así como las correspondientes expresiones o frases. Tabla 6.1. Descripciones completas para la figura 6.1.

DESCRIPCIÓN 1 DESCRIPCIÓN 2 La imagen contiene: un archivero un librero unas cajas un escritorio un libro unos jarrones una botella > el libro está en el escritorio. > la botella está en el archivero. > los jarrones están en el librero. > el librero está entre el archivero y las cajas. > las cajas están entre el librero y el escritorio. > el archivero toca el librero. > el librero toca las cajas. > las cajas tocan el escritorio.

La imagen contiene: un archivero un librero unas cajas un escritorio > en el escritorio está el libro. > en el archivero está la botella. > en el librero están los jarrones. > entre el archivero y las cajas está el librero. > entre el librero y el escritorio están las cajas. > toca el librero el archivero. > tocan las cajas el librero. > tocan las cajas el escritorio.

6.2.2. Caso de prueba 2: Varios objetos sobre un mismo objeto

En este caso de prueba, se muestra una imagen en la cual se genera una descripción de la misma involucrando varios objetos sobre un mismo objeto. Figura 6.2. Generación de frases relacionando varios objetos con un mismo objeto.

Page 66: S.E.P. S.E.S. D.G.E.S.T. - CENIDET · Cognitivo de nuevas unidades lingüísticas y generar sus reglas. Esta metodología es aplicable a otros lenguajes, sin embargo el análisis

Descripción automática de imágenes estáticas en lenguaje natural Capítulo VI. Pruebas y resultados

55

En este caso de prueba se genera dos frases para cada una de las descripciones de la imagen, para la primera descripción (DESCRIPCIÓN 1 DE LA IMAGEN) se tiene lo siguiente: Primero se listan todos los objetos seleccionados por el usuario. Posteriormente, se generan las descripciones para este caso son las siguientes:

1. el separador, los libros y el regulador están sobre la mesa.

2. la mesa toca la planta.

Donde la primera frase está relacionando el objeto referencia (mesa) con varios objetos referenciados (separador, libros y el regulador) mediante la preposición sobre. De acuerdo al análisis de esta preposición, la frase pudo haberse generado con la preposición en generando: el separador, los libros y el regulador están en la mesa., o también la siguiente frase: el separador, los libros y el regulador están encima de la mesa., involucrando la locución prepositiva encima de. De esta forma, cuando se trate de emplear la preposición sobre, se generará aleatoriamente la preposición en o la locución prepositiva encima de generando una frase con cualquiera de las siguientes unidades lingüísticas: sobre, en o encima de. Esto se debe al resultado del análisis lingüístico de la preposición sobre. La segunda frase implica considerar el verbo tocar. De acuerdo a las reglas generadas se requiere de un contacto entre las entidades a relacionar. De acuerdo a la forma de reconocer los objetos, éstos son seleccionados. Así, de la figura 6.2. se puede ver que hay un contacto entre los rectángulos que delimitan a los objetos mesa y planta, pero no necesaria y estrictamente entre ambas entidades. Sin embargo, DIE determina que se debe emplear tocar por el hecho de que se presente un contacto. La segunda descripción (DESCRIPCIÓN 2 DE LA IMAGEN) genera un listado de los objetos más grandes, para determinar que objetos cumplen tal condición, se descartan todos aquellos objetos referenciados que se encuentren relacionados por algunas de las preposiciones sobre o en. En este caso, la primera de las frases relaciona mediante sobre los elementos separador, libros, regulador y mesa dejando sólo el elemento de referencia que es mesa y excluyendo el resto al momento de listarlos. De esta manera solo se listan los objetos: mesa y planta. Generando las siguientes frases:

1. sobre la mesa está un separador, unos libros y un regulador.

2. toca la mesa la planta.

Estas frases a diferencia de las generadas en la primera descripción inician ya sea con la preposición o verbo según se trate. 6.2.3. Caso de prueba 3: El verbo tocar y la locución prepositiva junto a

Los siguientes dos ejemplos muestran el uso del verbo tocar (ver figura 6.3.) y la locución prepositiva junto a (ver figura 6.4.). En el caso del verbo tocar implica un contacto entre en los objetos necesariamente. En el caso de la locución prepositiva junto a no necesariamente debe haber contacto.

Page 67: S.E.P. S.E.S. D.G.E.S.T. - CENIDET · Cognitivo de nuevas unidades lingüísticas y generar sus reglas. Esta metodología es aplicable a otros lenguajes, sin embargo el análisis

Descripción automática de imágenes estáticas en lenguaje natural Capítulo VI. Pruebas y resultados

56

En este caso de prueba, de las dos figuras (6.3. y 6.4.) se tienen dos casos similares. Se involucra al verbo tocar y la locución prepositiva junto a. De la figura 6.3. se genera una frase con el verbo tocar debido a que hay contacto entre las entidades mesa y bote. Este contacto se da entre los cuadros que delimitan a ambos objetos considerando que cada cuadro que delimita a un objeto representa un objeto. De la figura 6.4. se genera una frase con la locución prepositiva junto a en la que se relacionan las entidades libreros y sofá debido a una cercanía entre ambas entidades.

Figura 6.3. Generación de frases involucrando el verbo tocar.

Figura 6.4. Generación de frases involucrando la locución prepositiva junto a.

Page 68: S.E.P. S.E.S. D.G.E.S.T. - CENIDET · Cognitivo de nuevas unidades lingüísticas y generar sus reglas. Esta metodología es aplicable a otros lenguajes, sin embargo el análisis

Descripción automática de imágenes estáticas en lenguaje natural Capítulo VI. Pruebas y resultados

57

6.2.4. Caso de prueba 4: Pluralización de objetos Aunque ya se mostró en los anteriores casos de prueba, pero no se hizo explicito, es posible pluralizar varios objetos, por ejemplo, al seleccionar el objeto libros dos veces se genera una frase en la que se consideran como un sólo objeto, expresando que se trata del objeto libros en una sola expresión, figura 6.5.

6.2.5. Caso de prueba 5: Un letrero, un anuncio y una mesa en la pared

Este caso de prueba muestra una debilidad de DIE al presentarse una imagen en

Figura 6.5. Generación de frases pluralizando el objeto libros.

Figura 6.6. Generación de frases de forma errónea.

Page 69: S.E.P. S.E.S. D.G.E.S.T. - CENIDET · Cognitivo de nuevas unidades lingüísticas y generar sus reglas. Esta metodología es aplicable a otros lenguajes, sin embargo el análisis

Descripción automática de imágenes estáticas en lenguaje natural Capítulo VI. Pruebas y resultados

58

la cual se tienen un letrero y un anuncio en la pared. La imagen contiene también una mesa, de acuerdo a la regla de en al seleccionar la pared como un objeto, se genera una frase incorrecta al indicar que la mesa esta en la pared, figura 6.6. 6.2.6. Caso de prueba 6: Agregando elementos a la BDP Este caso de prueba se muestra que es posible agregar un elemento (objeto) a la BDP si es que no se encuentra contenido en ésta. Al seleccionar objetos en la imagen automáticamente se hace una búsqueda, sino se encuentra el objeto seleccionado entonces se agrega a la BDP junto con información acerca de este objeto como: su número, género y artículo.

Al no encontrarse el elemento seleccionado por el usuario en la BDP automáticamente aparece un mensaje indicando que se agregará, la figura 6.7., muestra un ejemplo en el cual al seleccionar el objeto foco éste no se encuentra en la BDP considerándose su adición. 6.2.7. Caso de prueba 7: Omitiendo objetos en la descripción de la imagen En esta prueba se seleccionan varios objetos, sin embargo, al momento de generar las frases algunos objetos no son incluidos en la generación de frases. Este hecho se debe a que tales objetos no cumplen las reglas para alguna de las preposiciones analizadas o para el verbo analizado aquí. La figura 6.8. muestra un caso en el que el

Figura 6.7. Agregando un objeto a la BDP.

Page 70: S.E.P. S.E.S. D.G.E.S.T. - CENIDET · Cognitivo de nuevas unidades lingüísticas y generar sus reglas. Esta metodología es aplicable a otros lenguajes, sin embargo el análisis

Descripción automática de imágenes estáticas en lenguaje natural Capítulo VI. Pruebas y resultados

59

objeto foco no cumple algunas de todas las reglas, teniendo así una descripción que no involucra a este objeto.

6.3. Comparación con otros trabajos A continuación se muestra una tabla comparando las principales características de los trabajos relacionados descritos en el capítulo II con nuestro sistema DIE. Tabla 6.2. Comparación de trabajos relacionados

Trabajo Objetivo Sistemas Aplicación Idioma

Incremental natural language description

of dynamic imagery

Combinar un sistema de visión y un sistema de lenguaje natural para llevar a cabo una descripción automática simultanea de imágenes dinámicas

Actions (sistema de visión) y Vitra (sistema para la generación de oraciones)

Reportes de secuencias cortas de soccer. Reportes de escenas de tráfico.

Alemán

Integrating Vision and

Language: Towards

Automatic Description of Human Movements

Obtener una descripción simultanea de escenas percibidas conforme varia el tiempo

Actions (sistema de visión) y Vitra (sistema para la generación de oraciones)

Descripción verbal de los movimientos de cuerpos articulados (personas caminando) en secuencias de imágenes.

Alemán

Automatic generation

of natural language descriptions for images

Generar descripciones en lenguaje natural de imágenes no complejas, es decir, imágenes sin problemas de oclusión

ESPRIT EMIR (European Multilingual Information Retrieval)

Francés, ingles, alemán, español, árabe, italiano

Descripción

automática de

imágenes estáticas en

lenguaje natural

Generar una descripción posicional automática de imágenes en lenguaje natural

DIE (Descripción de Imágenes Estáticas)

Base para la descripción de imágenes estáticas.

Español

Figura 6.8.Describiendo una imagen sin el objeto foco.

Page 71: S.E.P. S.E.S. D.G.E.S.T. - CENIDET · Cognitivo de nuevas unidades lingüísticas y generar sus reglas. Esta metodología es aplicable a otros lenguajes, sin embargo el análisis

Capítulo

VII

Conclusiones Contenido:

Introducción Metas alcanzadas Trabajos futuros

Page 72: S.E.P. S.E.S. D.G.E.S.T. - CENIDET · Cognitivo de nuevas unidades lingüísticas y generar sus reglas. Esta metodología es aplicable a otros lenguajes, sin embargo el análisis

Descripción de imágenes estáticas en lenguaje natural Capítulo VII. Conclusiones

61

7.1. Introducción

En este capítulo, se presentan las conclusiones obtenidas como resultado del proceso llevado a cabo para describir una imagen. Por una parte, se muestran las metas alcanzadas mencionando las aportaciones de la herramienta DIE. Por otra parte, se presenta una sección denominada trabajos futuros, en donde se especifica los posibles cambios y/o extensiones que pudieran darse en la herramienta DIE para mejorarla. 7.2. Metas alcanzadas

Se desarrolló una herramienta denomina DIE para generar descripciones en lenguaje natural en el idioma español. De acuerdo a las limitaciones planteadas para llevar a cabo este trabajo, este estuvo enfocado en la parte lingüística y no en la parte de Visión Artificial. La principal aportación de este trabajo es el análisis semántico cognitivo aplicado a una imagen. Es decir, se analizaron situaciones donde la lengua permite el uso de ciertas unidades lingüísticas. A partir de ellas se detectaron características que no varían llamadas “invariantes” (información abstracta de significado). Estas “invariantes” son nuestros criterios que dan origen a las reglas que se utilizan en el sistema DIE. Se concluye que esta manera de proceder partiendo de un análisis semántico-cognitivo y llegando a reglas como producto de dicho análisis da un buen resultado en la relación de objetos. Dichos resultados fueron aceptables en un 90% de un total de 25 imágenes, el restante 10% de fallas se debió a la forma de reconocer los objetos. Sin embargo, el reconocimiento de objetos en forma automática aportaría más información y ayudaría a mejorar estas relaciones, sobre todo en caso de posiciones límites. Por ejemplo la figura 7.1.a., muestra un caso en el que la mesa no toca al bote; sin embargo, de acuerdo a las reglas establecidas en la herramienta DIE, ésta detectaría que la mesa toca al bote debido a la forma en que se seleccionan los objetos (ver figura 7.1.b.). Sin embargo al realizar un reconocimiento automático de los objetos en la imagen, se podría detectar con mayor precisión la relación entre dos objetos (ver figura 7.1.a.).

Figura 7.1.a. Reconocimiento automático de objetos.

Figura 7.1.b. Reconocimiento manual de de objetos con DIE.

Page 73: S.E.P. S.E.S. D.G.E.S.T. - CENIDET · Cognitivo de nuevas unidades lingüísticas y generar sus reglas. Esta metodología es aplicable a otros lenguajes, sin embargo el análisis

Descripción de imágenes estáticas en lenguaje natural Capítulo VII. Conclusiones

62

7.3. Trabajos futuros

Para generar una descripción más variada es requerido un análisis de más unidades lingüísticas, lo cual puede ser considerado como un trabajo pendiente. Las unidades lingüísticas por analizar pueden ser más verbos o preposiciones. Además, en caso de trabajar con escenas, se podrían analizar verbos de movimiento. También, para generar expresiones de una manera más variada, las reglas generadas a partir del análisis semántico-cognitivo pueden ser aplicadas a objetos cuya segmentación sea automática. Bajo está consideración, en trabajos posteriores donde el reconocimiento y la interpretación de objetos en una imagen o escena sean automáticos, nuestro análisis servirá como una base y aportación para describir una escena o imagen. Principalmente en este trabajo, se ha aportado un estudio semántico-cognitivo de las preposiciones sobre, en y entre, así como del verbo tocar. A partir de estudio se ha aplicado a una imagen para poder describir esta. Esta forma de proceder al estudiar las unidades lingüísticas la hace diferente de otros trabajos, debido a que los trabajos relacionados presentados aquí, utilizan información numérica para generar sus descripciones, y su análisis lingüístico esta enfocado al momento de las generar las frases. El análisis lingüístico realizado aquí ha sido planteado a partir de un modelo llamado Gramática Aplicativa y Cognitiva poco difundido y extensible a cualquier lengua, así como también a cualquier unidad lingüística. También, se puede concluir que DIE forma parte de un proyecto futuro más grande al generar una descripción completamente en forma automática.

Page 74: S.E.P. S.E.S. D.G.E.S.T. - CENIDET · Cognitivo de nuevas unidades lingüísticas y generar sus reglas. Esta metodología es aplicable a otros lenguajes, sin embargo el análisis

63

REFERENCIAS [1] B. Neumann (2005). High-level Vision, http://kogs.informatik.uni-hamburg.de/~neumann/HBD-WS-2004/HLV-Part1-04.pdf. [2] J. P. Desclés (1990). Langages applicatifs, langues naturelles et cognition. Hermes París. [3] A. L. García, (1994). Gramática del español, Madrid, Arco libros, Tomo I. [4] R. C. González, R.E. Woods, (1996). Tratamiento digital de imágenes. Addison-Wesley, EUA. [5] G. Herzog, C.-K. Sung, E. André, W. Enkelmann, H.-H. Nagel, T. Rist, W. Wahlster, G. Zimmermann, (1989). Incremental Natural Language Description of Dynamic Imagery. In: C. Freksa, W. Brauer, eds., Wissensbasierte Systeme. 3. Int. GI-Kongreß, pp. 153-162, Springer, Berlin, Heidelberg. [6] G. Herzog, K. Rohr, (1995). Integrating Vision and Language: Towards Automatic Description of Human Movements. Advances in Artificial Intelligence. 19th Annual German Conference on Artificial Intelligence, pp. 257-268, Springer, Berlin, Heidelberg. [7] G. Herzog und P.Wazinski, (1994). VIsual TRAnslator: Linking Perceptions and Natural Language Descriptions. Artificial Intelligence Review, 8(2/3):175–187. [8] H.-H. Nagel, (1988). From Image Sequences Towards Conceptual Descriptions. Image andVision Computing, 6(2), 59–74. [9]. G. Retz-Schmidt, (1988). A REPLAI of SOCCER: Recognizing Intentions in the Domain of Soccer Games. In: Proc. of the 8th ECAI, pp. 455–457, Munich. [10] B. Neumann, (1984). Natural Language Description of Time-Varying Scenes. Report 105, Fachbereich Informatik, Univ. Hamburg. [11] E. André, T. Rist, G. Herzog, (1987). Generierung natürlichsprachlicher Außerungen zur simultanen Beschreibung zeitveränderlicher Szenen. In: K. Morik, ed., GWAI-87. 11th German Workshop on Artificial Intelligence, pp. 330–337, Springer, Berlin, Heidelberg. [12] J. R. J. Schirra, G. Bosch, C.-K. Sung, G. Zimmermann, (1987). From Image Sequences to Natural Language: A First Step Towards Automatic Perception and Description of Motions. Applied Artificial Intelligence, 1, 287–305. [13] http://www.cs.unc.edu./~welch/media/pdf/kalman_intro.pdf., jueves, 18 de noviembre de 2004. [14] D. Marrund H. K. Nishihara, (1978). Representation and Recognition of the Spatial Organization of three-dimensional Shapes. In: Proc. Royal Society B200, pp. 269–294, London.

Page 75: S.E.P. S.E.S. D.G.E.S.T. - CENIDET · Cognitivo de nuevas unidades lingüísticas y generar sus reglas. Esta metodología es aplicable a otros lenguajes, sin embargo el análisis

64

[15] M. P. Murray, A. B. Drought und R. C. Kory, (1964). Walking Patterns of Normal Men. Journal of Bone and Joint Surgery, 46-A(2):335–360. [16] B. Neumann und H.-J. Novak, (1986). NAOS: Ein System zur nat¨urlichsprachlichen Beschreibung zeitver¨anderlicher Szenen. Informatik Forschung und Entwicklung, 1:83–92. [17] E. André, G. Herzog und T. Rist, (1995). Von der Bildfolge zur multimedialen Präsentation. In: Integration von Bild, Modell und Text ’95, pp.129–142, Madgeburg. ASIM, Techn. Univ. Wien. [18] M.Joint, P.A. Moëllic, P. Hède et P. Adam. (2004) “PIRIA: A General Tool for Indexing, Search and Retrieval of Multimedia Content”. SPIE.Electronic [19] M. Flickners, H. Sawhney, W. Niblack, J. Ashley, Q. Huang, B. Dom, M. Gorkani, J. Hafner, D. Lee, D. Petkovic, D. Steele, and P. Yanker, (1995). “Query by image and video content: the QBIC system”. IEEE computer, September. [20] J. Smith, S. Chang., (1997). Querying by color regions using the visualseek content-based visual query system. Intelligence Multimedia Information Retrieval AAAI Press. [21] S. Shaumyan (1977). Applicational Grammar as a Semantic Theory of Natural

Language, Chicago University Press, Chicago. [22] S. Shaumyan (1987). A Semantic Theory of Natural Language, Indiana University Press, Bloom-ington. [23] Kuratowski., K., (1958). Topology, Vol. I Zaklady Graficzne dom slowa polskiego, Pologne. [24] J. L. Cifuentes H., (2003). Locuciones prepositivas. Sobre la gramaticalización

preposicional en español. Publicaciones: Universidad de Alicante. [25] V. García. Y., (1998). Claudicación en el uso de las preposiciones. Madrid: Gredos. [26] L. M. Beale, (1978). Lexical analysis of the preposition in spanish: Semantics and

perception. Cornell University, Ph. D. [27] M. C. Fernández. L., (1999). Las preposiciones: valores y usos, construcciones preposicionales. Salamanca: Ediciones Colegio de España. [28] M. C. Fernández L., (1970). Problemas y métodos en el análisis de preposiciones. Madrid: Gredos. [29] http://www.rae.es, martes, 9 de marzo de 2005. [30] http://www.riao.org.Procedings-2004/papers/0240.pdf, viernes, 28 de enero de 2005.

Page 76: S.E.P. S.E.S. D.G.E.S.T. - CENIDET · Cognitivo de nuevas unidades lingüísticas y generar sus reglas. Esta metodología es aplicable a otros lenguajes, sin embargo el análisis

65

[31] A. Bonnet, (1984). L'intelligence artificielle. Promesses et réalités, Paris, Inter-Editions. [32] J. P. Haton, M. C. Haton.(1990). L' Intelligence Artificielle. Presses Universitaires de France. [33] B. Pottier, (2001). Represéntations mentales et catégorisations linguistiques. Editions Peeters, París. [34] http://cslu.cse.ogi.edu/HTLsurvey/ch8node7.html, martes, 8 de febrero de 2005.