SISTEMA DE APRENDIZAJE Y RECONOCIMIENTO DE...

Centro

Departamento

SISTEMA DE APRENDIZAJE Y RECONOCIMIENTO DE OBJETOS 3D APARTIR DE IMÁGENES PLANAS

de Trazegnies Otero

Carmen

E.T.S.I. de Telecomunicación

Tecnología Electrónica

84-689-5286-9ISBN

de Trazegnies OteroApellidosCarmenNombre

Sistema de aprendizaje y reconocimiento de objetos 3D apartir de imágenes planas

27 de marzo de 2004

E.T.S.I. de TelecomunicaciónCentroTecnología ElectrónicaDepartamento

Dra. Dª Cristina Urdiales GarcíaDirección de la Tesis

Dr. D. Francisco Sandoval HernándezPresidente/a

Dr. D. Luis Álvarez LeónDr. D. Jorge Miranda Dias

Dr. D. Juan Antonio Rodríguez FernándezSecretario/a

Vocales

COMPOSICIÓN DEL TRIBUNAL / DIRECCIÓN DE LA TESIS

NOMBRE Y APELLIDOS DEL AUTOR

TÍTULO DE LA TESIS DOCTORAL

FECHA DE LECTURA

CENTRO Y DEPARTAMENTO EN QUE FUE REALIZADA LA LECTURA

CALIFICACIÓN OBTENIDA

SOBRESALIENTE CUM LAUDE

MENÚ

Dr. D. Luis Baumela Molina

UNIVERSIDAD DE MALAGAESCUELA TECNICA SUPERIOR DE INGENIERIA DE

TELECOMUNICACION

TESIS DOCTORAL

SISTEMA DE APRENDIZAJE YRECONOCIMIENTO DE OBJETOS 3D A

PARTIR DE IMAGENES PLANAS

AUTOR: Carmen de Trazegnies OteroLicenciada en Ciencias Fısicas

2004

Dna. CRISTINA URDIALES GARCIA, PROFESORA DEL DEPARTAMENTO DE TEC-NOLOGIA ELECTRONICA DE LA UNIVERSIDAD DE MALAGA

CERTIFICO:

Que Dna. Carmen de Trazegnies Otero, Licenciada en Ciencias Fısicas, ha realizado en elDepartamento de Tecnologıa Electronica de la Universidad de Malaga, bajo mi direccion el tra-bajo de investigacion correspondiente a su Tesis Doctoral titulada:

SISTEMA DE APRENDIZAJE Y RECONOCIMIENTO DE OBJETOS 3D A PARTIR DEIMAGENES PLANAS

Revisado el presente trabajo, estimo que puede ser presentado al Tribunal que ha de juzgarlo.

Y para que conste a efectos de lo establecido en el Real Decreto 778/1998 regulador de losestudios de Tercer Ciclo-Doctorado, AUTORIZO la presentacion de esta Tesis en la Universidadde Malaga.

Malaga, a 22 de Enero de 2004

Fdo. Cristina Urdiales GarcıaProfesora de Tecnologıa Electronica

i

Departamento de Tecnologıa ElectronicaE. T. S. I. Telecomunicacion

Universidad de Malaga

TESIS DOCTORAL

SISTEMA DE APRENDIZAJE YRECONOCIMIENTO DE OBJETOS 3D A PARTIR

DE IMAGENES PLANAS

AUTOR: Carmen de Trazegnies Otero

Licenciada en Ciencias Fısicas

DIRECTOR: Dna. Cristina Urdiales Garcıa

Dra. Ingeniera en Telecomunicacion

iii

Antes de estudiar Zen, las montanas son montanas y los rıos son rıos;mientras estas estudiando Zen, las montanas ya no son montanas y los rıos ya no son rıos;

pero una vez que alcanzas la iluminacion las montanas son nuevamente montanasy los rıos nuevamente rıos.

(Proverbio Zen)

Agradecimientos

Los tres ultimos anos han sido especialmente intensos y estimulantes dentro de mi vidaprofesional. En este tiempo he tenido la suerte de conocer y compartir mi tiempo con personasque me han orientado, alentado y apoyado en la realizacion de esta tesis, y a las que estoyprofundamente agradecida. Quisiera expresar un recuerdo especial de gratitud a:

Cristina Urdiales, mi directora de tesis, por su dedicacion y esfuerzo, por ensenarme tantascosas. Gracias por haber confiado en mi, por plantearme como reto unos objetivos que parecıaninalcanzables y por apoyarme con decision hasta alcanzarlos.

Francisco Sandoval, director del Departamento de Tecnologıa Electronica, por sus consejos,sus correcciones, por su ayuda y, sobre todo, por ofrecerme la oportunidad de realizar estainvestigacion dentro del programa de investigacion que dirige.

Antonio Bandera, por nuestras largas discusiones sobre las funciones de curvatura.

Mis companeros de departamento, por sus consejos y palabras de aliento.

Juan Miguel, por empujarme a iniciar este camino, aun cuando eso significara aguantar misnervios y someterse a escuchar pacientemente mis divagaciones. Gracias por su intuicion paralas matematicas y, especialmente, por abrirnos los ojos al mundo de las PCAs. Gracias, en fin,por animarme siempre y acompanarme en todo.

Mi hermana, por estar siempre ahı, dispuesta a escuchar e incluso compartir mis problemas,por tener tantas energıas y transmitirlas a los demas.

Mis padres, por su carino, su confianza, su apoyo, y por ensenarme a no ser conformista.

Sadegh Abbasi, Josef Kittler y Farzin Mokhtarian, de la Universidad de Surrey, Reino Unido,por compartir su base de datos de siluetas de peces y animales marinos para su uso publico.

Fa-Shyang Chang y Shu-Yuan Chen, de la Universidad Yuan-Ze, Republica China, por faci-litarme amablemente su base de datos de figuras geometricas y figuras geometricas deformadas,para su uso en las pruebas de reconocimiento de figuras planas.

La Comision Interministerial de Ciencia y Tecnologıa (CICYT) que, a traves de los proyectosTIC98-0562 y TIC2001-1758, han apoyado parcialmente la financiacion de esta tesis.

v

Resumen

Esta tesis presenta un nuevo sistema de reconocimiento de objetos 3D a partir de una secuen-cia de vistas planas del mismo. El sistema no solo es capaz de clasificar objetos pertenecientes auna base de datos sino tambien de incluir nuevos objetos mediante un algoritmo de entrenamien-to no supervisado cuando estos no presenten un grado aceptable de similitud con ninguno deobjetos ya conocidos.

El sistema propuesto puede trabajar en un entorno virtual o bien con objetos reales pre-viamente segmentados. Si bien los sistemas de segmentacion constituyen un amplio tema deinvestigacion que no sera abordado en la presente tesis, se debe considerar que con cualquiersistema de segmentacion aplicado a imagenes reales la imagen resultante es susceptible de sufrirdistorsiones, transformaciones, deformaciones y ruido. El sistema de reconocimiento debe serpor lo tanto resistente ante estos factores.

Un sistema de reconocimiento basado en vistas planas implica el procesado de un conjuntode datos relativamente extenso. Para que se pueda efectuar en un tiempo razonable es impre-scindible reducirla por algun metodo de codificacion. En primer lugar se extrae la silueta delobjeto contenido en cada imagen. Las siluetas se representan mediante su funcion de curvatu-ra calculada segun un nuevo metodo, propuesto en la presente tesis, que se adapta a la escalanatural de la curva, filtrando el eventual ruido y respetando la informacion relevante. Es muy im-portante que la representacion de las siluetas sea invariante a rotacion y a escala. La invarianza aescala se puede conseguir sin mas que interpolar la funcion de curvatura a una longitud fija. Paraconseguir invarianza a rotacion se trabaja con el modulo de los coeficientes de la transformadadiscreta de Fourier de la funcion de curvatura. La informacion contenida en las transformadasde Fourier se reduce aun mas mediante un analisis por componentes principales. Ası, cada vistaplana queda representada por un vector de caracterısticas de dimension reducida.

Un objeto se representa pues mediante una secuencia de vectores de caracterısticas. Lanaturaleza de cada vista de la secuencia depende basicamente de cual haya sido la vista anteriordel objeto, por lo tanto se puede analizar como un proceso estocastico de Markov. Ası, se puededefinir un modelo de Markov que describa a cada objeto y evaluar la probabilidad de que cadaobjeto de la base de datos de lugar a una determinada secuencia de vistas. Ası, es un problemafundamental la definicion de los estados de cada modelo de Markov. Se puede definir cadaestado como un tipo particular de vista. Sin embargo, dada la naturaleza del problema, cadanueva vista de un objeto puede pertenecer a varias clases distintas pertenecientes a su vez auno o varios objetos. Para poder manejar esta indeterminacion en la asignacion de estados esnecesario trabajar con modelos ocultos de Markov.

El metodo de reconocimiento propuesto no solo ofrece una medida de la similitud de losobjetos observados respecto de los almacenados en la base de datos, sino que ademas es posiblerealizar el entrenamiento de objetos nuevos de una forma no supervisada. El sistema ha sidoprobado tanto con objetos virtuales como reales, agrupando siempre los objetos que desde elpunto de vista humano, presentan una similitud apreciable en la forma.

vii

Abstract

This thesis presents a new view based 3D object recognition system. The proposed systemallows both recognition of known object and learning of new ones by means of a non supervisedtraining algorithm when the input object is unknown.

The proposed system can operate in virtual environments and also with real, previouslysegmented objects. Even though segmentation is not covered in this thesis, it is assumed thatsegmenting real images is a very hard problem and, hence, the resulting object may be affectednot only by transformations but also by noise, distortions and deformations. The recognitionsystem must be, consequently, resistant against all these factors.

A view based recognition system involves a huge data volume. In order to achieve a reasonableprocessing time, it is important to reduce such information by using an efficient coding method.First, the contour of each planar view of the object is extracted. Contours are represented bymeans of their curvature function, which is calculated by a new method proposed in this thesis.This new curvature function adapts itself to the natural scale of the curve and, hence, removesnoise in an optimal way and does not alter relevant information. Resistance against scale can beachieved by simply interpolating or decimating functions to a fixed length. However, to achieveresistance against rotations, we work with the module of the discrete Fourier Transform of thecurvature function. The information in this module is further reduced by means of PrincipalComponents Analysis so that each planar view is represented by a short feature vector.

An object can be represented by a sequence of so defined feature vectors. The nature ofeach view in the sequence basically depends on the previous view in each object and, hence,recognition can be evaluated as an stochastic Markov process. Thus, each object can be definedby a Markov model and recognition can be achieved by calculating the probability of each viewsequence of belonging to a learnt model. Thus, definition of the Markov states is critical forrecognition. It would have been possible to assign each state to a particular view but, sincedifferent objects may present similar views, we require Hidden Markov Models.

The proposed recognition system does not only return a measure of similarity among observedobjects and stored ones, but also allows non supervised learning of unknown objects. It has beensuccesfully tested both for real and virtual objects, which have usually been reasonably groupedfrom a human point of view regarding shape criteria.

ix

Indice general

1. Vision artificial y reconocimiento de objetos 11. Introduccion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12. Vision artificial y modelos de aprendizaje . . . . . . . . . . . . . . . . . . . . . . 33. Reconocimiento de objetos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64. Objetivos y organizacion del texto . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2. Descripcion de formas planas 111. Introduccion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112. Metodos de descripcion de la forma . . . . . . . . . . . . . . . . . . . . . . . . . . 133. Representacion de formas planas . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

3.1. Representacion de objetos mediante curvatura . . . . . . . . . . . . . . . 153.2. Representacion de objetos mediante puntos caracterısticos . . . . . . . . . 223.3. Representacion de objetos mediante Componentes Principales de su cur-

vatura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 264. Resultados y experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

4.1. Reconocimiento basado en curvatura . . . . . . . . . . . . . . . . . . . . . 354.1.1. Metodo de reconocimiento y metrica . . . . . . . . . . . . . . . . 354.1.2. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

4.2. Reconocimiento basado en puntos caracterısticos . . . . . . . . . . . . . . 384.2.1. Metodo de reconocimiento . . . . . . . . . . . . . . . . . . . . . 384.2.2. Caracterizacion de puntos . . . . . . . . . . . . . . . . . . . . . . 404.2.3. Construccion del MOM . . . . . . . . . . . . . . . . . . . . . . . 414.2.4. Metrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 424.2.5. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

4.3. Reconocimiento por Componentes Principales de la Curvatura . . . . . . 504.3.1. Metodo de reconocimiento . . . . . . . . . . . . . . . . . . . . . 504.3.2. Extraccion de una base . . . . . . . . . . . . . . . . . . . . . . . 514.3.3. Metrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 584.3.4. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

5. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

3. Reconocimiento de objetos 3D. 671. Introduccion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 672. Descripcion de un conjunto de vistas . . . . . . . . . . . . . . . . . . . . . . . . . 723. Construccion de modelos de objetos 3D . . . . . . . . . . . . . . . . . . . . . . . 81

3.1. Definicion de los modelos ocultos de Markov . . . . . . . . . . . . . . . . 844. Aprendizaje y Reconocimiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . 865. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

xi

xii Indice

5.1. Funcionamiento del sistema de reconocimiento frente a una base de objetospredefinida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

5.2. Comportamiento del sistema frente a variaciones de escala de los objetospresentados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

5.3. Comportamiento del sistema frente a un conjunto de objetos de formasimilar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107

5.4. Comportamiento del sistema frente a deformaciones de los objetos originales1106. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116

4. Experimentos y resultados. 1191. Introduccion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1192. Metodo de Entrenamiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1203. Reconocimiento de objetos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124

3.1. Experimentos con objetos simples . . . . . . . . . . . . . . . . . . . . . . 1263.2. Experimentos con objetos complejos . . . . . . . . . . . . . . . . . . . . . 131

4. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143

5. Conclusiones 1451. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1452. Trabajo futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147

A. Modelos Ocultos de Markov. 1631. Modelos de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1632. Modelos Ocultos de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165

2.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1652.2. Elementos de los Modelos ocultos de Markov . . . . . . . . . . . . . . . . 1682.3. Definicion de tres problemas basicos . . . . . . . . . . . . . . . . . . . . . 1692.4. Resolucion del problema de evaluacion . . . . . . . . . . . . . . . . . . . . 169

2.4.1. Algoritmo de avance . . . . . . . . . . . . . . . . . . . . . . . . . 1702.5. Resolucion del problema de busqueda de secuencia optima . . . . . . . . . 1722.6. Resolucion del problema de entrenamiento . . . . . . . . . . . . . . . . . . 1732.7. Modelos Ocultos de Markov de sistemas con variables de observacion con-

tinuas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176

Lista de Sımbolos y Acronimos

3DS Formato grafico, perteneciente al programa 3DStudio, para el almacena-miento de modelos de objetos tridimensionales virtuales.

Ap En un Modelo de Markov, matriz de probabilidades de transicion de unobjeto p.

Api,j En un Modelo de Markov, probabilidad de transicion del estado H i al

estadoHj .

AECF Funcion de curvatura adaptativa (Adaptively Estimated Curvature Func-tion).

Ang Angulo que forma la pendiente de un contorno dado en un punto respectode la horizontal.

αt(i) Variable de avance evaluada en la observacion t para un estado oculto H i.

Bp En un Modelo Oculto de Markov, matriz probabilidad de observacion deun objeto p.

Bi(V q) En un Modelo de Markov de observaciones continuas, probabilidad de queuna observacion valga V q, siendo el estado oculto H i.

bpi,q En un Modelo Oculto de Markov, probabilidad de obtener la observacion

V q, siendo el estado oculto H i.−→βi Proyeccion del vector

−→Xi, que representa a la figura i-esima, sobre la base

de componentes principales.

βt(i) Variable de retroceso evaluada en la observacion t para un estado ocultoH i.

C Matriz de autocorrelacion.

Cx Secuencia de esquinas de una forma plana x.

Cix Esquina i-esima de la secuencia de esquinas de una forma plana x.

||CFFFT|| Modulo de las componentes de la transformada de Fourier de la funcion decurvatura (Curvature Function Fast Fourier Transform).

CHM Metodo de los histogramas circulares (Circular Histograms Method).

∆ Operador incremento.

xiii

xiv Sımbolos y Acronimos

−→δi Delta de Dirac centrada en el punto i.

δt(i) En un Modelo Oculto de Markov, el mejor resultado de probabilidad deocurrencia de una secuencia de observaciones cuando la secuencia de estadosocultos asociada termina en el estado H i

E Eficiencia. Relacion entre el numero de esquinas detectadas por el detectorde esquinas optimo y el evaluado.

ε2 Error cuadratico medio.

F Fidelidad. Relacion entre el error cometido por un detector de esquinasoptimo y el evaluado.

FBR Funciones Base Radiales.

FC Funcion de curvatura.

FFT Transformada rapida de Fourier (Fast Fourier Transform).

FV Vector de caracterısticas (Feature Vector).−→φk k-esimo vector perteneciente a una base ortogonal del subespacio de dimen-

sion P que se utiliza para representar todas las figuras planas.

ϕj j-esima componente principal del vector de caracterısticas que representaa una figura plana.

γt(i) Probabilidad de que, dados un Modelo Oculto de Markov y una secuenciade observaciones, el proceso este en el estado oculto H i en el instante t.

H Conjunto de estados accesibles a un Modelo de Markov.

Hp Conjunto de estados accesibles al Modelo de Markov de un objeto p.

Hp,i Cada uno de los estados del Modelo de Markov de un objeto p.

IA Inteligencia Artificial.

IFFT Transformacion inversa de la transformada rapida de Fourier.

ISE Error cuadratico integral (Integral Square Error).

ISEaprox Error cuadratico integral entre el contorno original y una aproximacionpoligonal del mismo.

ISEopt Error cuadratico integral entre el contorno original y la aproximacion polig-onal optima del mismo.

k Maxima longitud libre de discontinuidades medida desde un punto sobre uncontorno dado. Es una cantidad variable utilizada en la estimacion adap-tativa de la funcion de curvatura.

λk Cada uno de los autovalores de una matriz de autocorrelacion.

λp Modelo Oculto de Markov de un objeto p.

Sımbolos y Acronimos xv

M Numero de elementos de un subconjunto de figuras planas a partir del cualse calcula una base del espacio de todas las figuras planas.

Maprox Numero de lados de una aproximacion poligonal de un contorno.

Mopt Numero de lados de la aproximacion poligonal optima de un contorno.

MAP Maximos A Posteriori. Metodo bayesiano para la estimacion de parametrosprobabilısticos de un sistema.

Merito Medida de la bondad de un detector de esquinas como metodo de aproxi-macion poligonal de un contorno.

MM Modelo de Markov.

MOM Modelo Oculto de Markov.

MSV Maquinas de Soporte Vectorial.

max Indice de similitud obtenido de la correlacion circular de dos funciones decurvatura.

N Numero de componentes de cada ||CFFFT|| de un contorno.

N0 Longitud en pixeles del contorno de una figura plana cualquiera.

P Dimension de los vectores de caracterısticas que representan figuras planas.

P (A) Probabilidad de ocurrencia del suceso A.

P (A|B) Probabilidad de ocurrencia del suceso A, habiendo ocurrido el suceso B.

PCA Analisis de Componentes Principales (Principal Components Analysis).

Πp En un Modelo de Markov, vector de probabilidades iniciales de observacionde un objeto p.

πi En un Modelo de Markov, probabilidad de encontrar el estado H i comoprimer estado de una secuencia.

Q En un proceso de Markov, secuencia de estados.

Q Conjunto de clases de puntos caracterısticos de una forma plana.

Qq q-esimo estado de la secuencia en un proceso de Markov.

qi Clase q-esima de puntos caracterısticos de una forma plana y, por extension,vector que representa a su prototipo.

RN Espacio vectorial N -dimensional.

RBV Reconocimiento Basado en Vistas.

ρ Radio de curvatura definido en un punto de una curva.

S Conjunto de todas las posibles ||CFFFT||s de figuras planas.

xvi Sımbolos y Acronimos

S En un proceso de Markov, una secuencia de estados generica.

Si En un proceso de Markov, estado i-esimo de una secuencia de estados S.

Sα Subconjunto abierto del conjunto de todas las posibles ||CFFFT||s de fig-uras planas.

SUSAN Metodo de reconocimiento de objetos bidimensionales basado en la detec-cion de caracterısticas de las esquinas de una imagen mediante mascaras(Smallest Univalue Segment Asimilating Nucleus).

T Numero total de observaciones pertenecientes a una secuencia.

TamF Longitud de una funcion de curvatura.

V q En un Modelo de Markov, q-esima vista de una secuencia de observaciones.−−→Xm Modulo de las componentes de la transformada de Fourier de la funcion de

curvatura del contorno de la figura m escrito en notacion vectorial.

x Conjunto de cartas inyectivas de S.

x Funcion de curvatura generica.

x Vector generico −→x .

xα Carta inyectiva del conjunto S cuya imagen es Sα.

x(i) valor i-esimo de una funcion de curvatura generica x.

ξt(i, j) Probabilidad de que, dados un Modelo Oculto de Markov y una secuenciade observaciones, se produzca una transicion del estado oculto H i en elinstante t y Hj en el instante t + 1.

−→Y Vector que representa una figura plana generica en el espacio vectorial RN .

y Funcion de curvatura generica.

y(i) valor i-esimo de una funcion de curvatura generica y.

Indice de figuras

1.1. Disenos de sistemas autonomos moviles con guiado por vision para: a) fabricas;b) museos; c) hogares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.2. Interfaz hombre-maquina en la vision artificial . . . . . . . . . . . . . . . . . . . . 4

2.1. Representacion por curvatura: a) objeto generico; b) funcion resultante. . . . . . 192.2. Reconstruccion a partir de curvatura: a) objetos ruidosos ejemplo; b) AECF del

objeto; c) funcion de curvatura propuesta; d) reconstruccion a partir de AECF;y e) reconstruccion a partir de la funcion propuesta. . . . . . . . . . . . . . . . . 20

2.3. Comparativa entre detectores de esquinas: a) Contorno 1 y esquinas detectadascon los metodos CHM, AECF y propuesto ; b) contorno 2 y esquinas detectadascon el metodo CHM (k = 6); c)contorno 2 y esquinas detectadas con el metodoAECF; y d) contorno 2 y esquinas detectadas con el metodo propuesto . . . . . . 25

2.4. a) Variedad de dimension 1 extendida; y b) variedad de dimension 1 plegada . . 322.5. a) Conjunto de 6 figuras geometricas; y b) ejemplo de 15 deformaciones de una

de ellas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 342.6. a) Conjunto de 34 caracteres tomados de matrıculas de coches; y b) ejemplo de

30 versiones de un caracter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 342.7. a) Conjunto de 27 anagramas de senales de trafico: y b) ejemplos de deformaciones

aplicadas al conjunto anterior . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 352.8. Ejemplos de siluetas de prueba del conjunto de siluetas de peces (Mokhtarian y

Mackworth, 1986) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 362.9. Ejemplos de siluetas de prueba del conjunto de objetos tridimensionales . . . . . 362.10. a-b) Vistas rotadas del mismo objeto; c-d) funciones de curvatura; y e) correlacion

circular de c-d) y su maximo valor. . . . . . . . . . . . . . . . . . . . . . . . . . . 382.11. Objetos reconocidos mediante correlacion: a-d) clase 1; e-h) clase 2; i-l) clase 3;

y m-p) clase 4. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 392.12. Parametros de caracterizacion de una esquina . . . . . . . . . . . . . . . . . . . . 402.13. Patrones correctamente reconocidos: a) caracteres tipo letra; b) caracteres de

placas de matrıculas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 442.14. Reconocimiento de objetos distorsionados: a) prototipo y esquinas; b) caracteres

de entrada y esquinas; c) evolucion de la probabilidad de ser el prototipo con cadaesquina evaluada. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

2.15. Error de reconocimiento en objetos distorsionados: a) objeto de entrada y es-quinas; b) prototipos de la letra K y la letra N y sus esquinas; c) evolucion de laprobabilidad de ser cada uno de los prototipos con cada esquina evaluada. . . . . 45

2.16. Resultados de reconocimiento para conjunto de figuras geometricas: a) imagenesdeformada; b) lista de los elementos mas similares a cada uno de los propuestos. 46

xvii

xviii Indice de Figuras

2.17. a) Imagen original; b) caracteres extraıdos y sus esquinas; c) prototipos recono-cidos y sus esquinas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

2.18. Ejemplos de reconocimiento para los peces de a) a e), situados, de arriba a abajoen orden decreciente de probabilidad. . . . . . . . . . . . . . . . . . . . . . . . . . 48

2.19. Comparativa entre el metodo propuesto (HMM) y el metodo CSS para el re-conocimiento de peces de a) a d), situados, de arriba a abajo en orden decrecientede probabilidad. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

2.20. Ejemplos de reconocimiento para los peces de a) a d), que presentan oclusionparcial del contorno. Los resultados estan situados de arriba a abajo en ordendecreciente de probabilidad. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

2.21. Ejemplos de reconocimiento para los peces de a) a d), presentando una defor-macion del contorno. Los resultados estan situados de arriba a abajo en ordendecreciente de probabilidad. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

2.22. Porcentaje de varianza (lınea discontinua) y error medio de representacion (lıneacontinua) explicado con las primeras 50 componentes de una base PCA calculadacon a) el conjunto de figuras geometricas (base 1); y el conjunto ampliado defiguras geometricas (base 2) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

2.23. Porcentaje de varianza (lınea discontinua) y error medio de representacion (lıneacontinua) explicado con las primeras 50 componentes de una base PCA calculadacon a) el conjunto de 34 caracteres extraıdos de placas de matrıcula(base 3); y elconjunto ampliado de caracteres extraıdos de placas de matrıcula (base 4) . . . . 54

2.24. Porcentaje de varianza (lınea discontinua) y error medio de representacion (lıneacontinua) explicado con las primeras 50 componentes de una base PCA calculadacon a) el conjunto de anagramas de senales de trafico (base 5); y el conjuntoampliado de anagramas de senales de trafico (base 6) . . . . . . . . . . . . . . . . 54

2.25. Porcentaje de varianza (lınea discontinua) y error medio de representacion (lıneacontinua) explicado con las primeras 50 componentes de una base PCA calcu-lada con a) el conjunto de peces(base 7); y el conjunto de siluetas de objetostridimensionales(base 8) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

2.26. Error de representacion para: a) conjunto de siluetas de peces; y b) conjunto desiluetas de objetos tridimensionales . . . . . . . . . . . . . . . . . . . . . . . . . . 56

2.27. Error de representacion sobre la base 2, la base 5 y una combinacion de am-bas para: a) conjunto de siluetas de peces; y b) conjunto de siluetas de objetostridimensionales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

2.28. Error de representacion sobre la base 3, la base 5 y una combinacion de am-bas para: a) conjunto de siluetas de peces; y b) conjunto de siluetas de objetostridimensionales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

2.29. Distancias desde los vectores de caracterısticas del conjunto de caracteres ex-traıdos de matrıculas reales hasta cada uno de los cinco primeros modelos decaracteres: a) distancias euclıdeas; y b) distancias de Tanimoto . . . . . . . . . . 59

2.30. Vectores de caracterısticas: a) numeros 0; y b) numeros 4 . . . . . . . . . . . . . 602.31. Porcentaje de letras correctamente clasificadas en funcion del numero de compo-

nentes) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 632.32. Resultados de clasificacion para el numero 2: a) figuras correctamente clasificadas;

b) figuras incorrectamente clasificadas fuera del grupo; y c) figuras incorrecta-mente clasificadas dentro del grupo) . . . . . . . . . . . . . . . . . . . . . . . . . 64

Indice de Figuras xix

2.33. Resultados de clasificacion para la letra B: a) figuras correctamente clasificadas; b)figuras incorrectamente clasificadas fuera del grupo; y c) figuras incorrectamenteclasificadas dentro del grupo) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

2.34. Resultados de clasificacion para la letra R: a) figuras correctamente clasificadas; b)figuras incorrectamente clasificadas fuera del grupo; y c) figuras incorrectamenteclasificadas dentro del grupo) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

2.35. Resultados de clasificacion para la letra W : a) figuras correctamente clasificadas;b) figuras incorrectamente clasificadas fuera del grupo; y c) figuras incorrecta-mente clasificadas dentro del grupo) . . . . . . . . . . . . . . . . . . . . . . . . . 66

3.1. Puntos de vista para un objeto 3D; b) vista plana y su vector de caracterısticas;y c) otra vista plana y su vector de caracterısticas . . . . . . . . . . . . . . . . . 73

3.2. Mapas de clases de un objeto 3D: a) Objeto; b) mapa de clases de vistas tomadascon un intervalo angular de 9o; y c) mapa de clases de vistas tomadas con unintervalo angular de 30o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

3.3. a) Numero de clases de vistas frente al radio de agrupacion para un cubo; b)grupo de objetos de diversa complejidad; y c) Numero de clases de vistas frenteal radio de agrupacion para los objetos en (b) . . . . . . . . . . . . . . . . . . . . 80

3.4. Esquemas basicos de modelos de Markov sencillos: a) Modelo clasico de Markov;y b) Modelo oculto de Markov cuyas observaciones son elementos de un espaciovectorial bidimensional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

3.5. a) Dado normal de juego; b) dado con la cara 4 repetida; y c) dado con las carasdesordenadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

3.6. a) Conjunto de 27 anagramas de senales de trafico: y b) ejemplos de deformacionesaplicadas al conjunto anterior . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

3.7. a) Cubo; y b) mapa de clases del cubo . . . . . . . . . . . . . . . . . . . . . . . . 923.8. Conjunto de objetos de prueba . . . . . . . . . . . . . . . . . . . . . . . . . . . . 923.9. Prueba de reconocimiento para el objeto en Fig. 3.8.c . . . . . . . . . . . . . . . 943.10. Prueba de reconocimiento para el objeto en Fig. 3.8.d cuando el sistema aun no

tiene modelo para el mismo: a) partiendo de una vista lateral; y b) partiendo deuna vista cenital . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94

3.11. Prueba de reconocimiento para el objeto en Fig. 3.8.d una vez que el sistema tieneun modelo para el mismo: a) partiendo de una vista lateral; y b) partiendo deuna vista cenital . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

3.12. Prueba de reconocimiento para el objeto en Fig. 3.8.f: a) cuando el sistema aunno tiene modelo para el mismo; y b) una vez que su modelo ha sido adquirido . . 96

3.13. Prueba de reconocimiento para el objeto en Fig. 3.8.g: a) cuando el sistema aunno tiene modelo para el mismo; y b) una vez que su modelo ha sido adquirido . . 97

3.14. Prueba de reconocimiento para el objeto en Fig. 3.8.h: a) cuando el sistema aunno tiene modelo para el mismo; y b) una vez que su modelo ha sido adquirido . . 98

3.15. Prueba de reconocimiento para el objeto en Fig. 3.8.i: a) cuando el sistema aunno tiene modelo para el mismo; y b) una vez que su modelo ha sido adquirido . . 98

3.16. Prueba de reconocimiento erroneo para el objeto de la Fig. 3.8.j . . . . . . . . . . 993.17. Prueba de reconocimiento para el objeto en Fig. 3.8.k: a) cuando el sistema aun

no tiene modelo para el mismo; y b) una vez que su modelo ha sido adquirido . . 1003.18. Prueba de reconocimiento para el objeto en Fig. 3.8.l: a) cuando el sistema aun

no tiene modelo para el mismo; y b) una vez que su modelo ha sido adquirido . . 100

xx Indice de Figuras

3.19. Prueba de reconocimiento para el objeto en Fig. 3.8.m: a) cuando el sistema aunno tiene modelo para el mismo; y b) una vez que su modelo ha sido adquirido . . 101

3.20. Prueba de reconocimiento para el objeto en Fig. 3.8.n: a) cuando el sistema aunno tiene modelo para el mismo; y b) una vez que su modelo ha sido adquirido . . 101

3.21. Prueba de reconocimiento para el objeto en Fig. 3.8.p: a) cuando el sistema aunno tiene modelo para el mismo; y b) una vez que su modelo ha sido adquirido . . 102

3.22. Segunda prueba de reconocimiento para el objeto en Fig. 3.8.j cuando el sistemaya dispone de muchos modelos: a) mientras el sistema aun no tiene modelo parael mismo; y b) una vez que su modelo ha sido adquirido . . . . . . . . . . . . . . 104

3.23. FCs de tres circunferencias de distintas longitudes: a) circunferencia de 594 pixelesde longitud; b) de 282 pixeles; y c) de 86 pixeles. . . . . . . . . . . . . . . . . . . 105

3.24. a) Mesa del conjunto inicial de objetos y su mapa de clases; b) la misma mesa al150 % de su escala natural y su mapa respecto de las clases de la mesa en (a); c)la misma mesa al 75 % de su escala natural y su mapa respecto de las clases de lamesa en (a); d) la misma mesa al 50% de su escala natural y su mapa respectode las clases de la mesa en (a); y e) Porcentajes de reconocimiento correcto de(b)-(c) como similares al objeto en (a) . . . . . . . . . . . . . . . . . . . . . . . . 107

3.25. Conjunto de objetos cilındricos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1083.26. Porcentajes de reconocimiento de los cilindros de la Fig. 3.25: a) cuando el sistema

carece de modelos para los cilindros (a), (c) y (d); b) cuando carece de modelospara los (a) y (c); y c) cuando carece de modelo para el (a) . . . . . . . . . . . . 108

3.27. Porcentajes de reconocimiento de los cilindros de la Fig. 3.25 a) cuando el sistemacarece de modelos para los cilindros (b), (c) y (d); b) cuando carece de modelospara los (b) y (c); y c) cuando carece de modelo para el (b) . . . . . . . . . . . . 109

3.28. a) Objeto del conjunto de entrenamiento y su mapa de clases de vistas; b-d)deformaciones del objeto en (a) y sus mapas de clases de vistas; y e) Porcentajesde reconocimiento correcto de (b)-(c) como similares al objeto en (a) . . . . . . . 111

3.29. Prueba de reconocimiento para el objeto en Fig. 3.28.b: a) reconocimiento erroneo;y b) reconocimiento correcto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113

3.30. Prueba de reconocimiento para el objeto en Fig. 3.28.d: a) objeto desconocido; yb) reconocimiento correcto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114

3.31. Comparacion de las FCs de dos contornos de un objeto parcialmente ocluido, a)oclusion de perfil concavo; y b) oclusion de perfil recto . . . . . . . . . . . . . . . 115

4.1. Base de datos de sillas para 3DStudio descargada de Internet . . . . . . . . . . . 1224.2. 72 vistas de una silla generadas por el modulo virtual de entrenamiento . . . . . 1234.3. Aprendizaje de un modelo virtual: a) objeto virtual; y b) mapa de vistas. . . . . 1244.4. Fallo en reconocimiento: entrenamiento. . . . . . . . . . . . . . . . . . . . . . . . 1254.5. Conjunto de objetos aprendidos en orden de entrenamiento. . . . . . . . . . . . . 1254.6. Segmentacion por substraccion de fondo: a) fondo sin objetos; b) imagen captura-

da; c) objetos detectados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1264.7. Prueba de reconocimiento para la taza 1 cuando el sistema aun no ha aprendido

su modelo: a) cuando el asa no es visible en la primera vista; y b) cuando el asaes visible ya en la primera vista . . . . . . . . . . . . . . . . . . . . . . . . . . . 127

4.8. Prueba de reconocimiento para la taza 1, a) cuando el sistema aun no ha aprendidosu modelo pero contiene varios modelos compatibles con la primera vista; y b)cuando el sistema ya ha adquirido un modelo para la taza 1 . . . . . . . . . . . . 128

Indice de Figuras xxi

4.9. a-b) Distintas vistas de la taza 1; c-d) Siluetas segmentadas por sustraccion defondo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129

4.10. Reconocimiento de una taza: a) objeto virtual; b) objeto real. . . . . . . . . . . . 1304.11. a-c) Distintas vistas de la taza 2; d-f) Siluetas segmentadas por sustraccion de

fondo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1314.12. Reconocimiento de una taza: a) objeto virtual; b) objeto real. . . . . . . . . . . . 1324.13. Objeto con una sola vista distorsionada: a) vista distorsionada; y b) mapa de

vistas alterado respecto del mapa del mismo objeto sin distorsionar, mostrado enFig. 4.3.b. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133

4.14. a) Reconocimiento de una silla sin distorsionar; y b) reconocimiento de la mismasilla con oclusion parcial del respaldo en la primera vista. . . . . . . . . . . . . . 134

4.15. a) Reconocimiento de una silla sin distorsionar; y b) reconocimiento de la mismasilla con oclusion parcial de las patas en la primera vista. . . . . . . . . . . . . . 135

4.16. a) Reconocimiento de un objeto sin distorsion; y b) reconocimiento del mismoobjeto distorsionado. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136

4.17. a) Contorno de una vista no distorsionada de una silla; b) contorno de una vistadistorsionada de la silla; y c) funcion de curvatura del contorno en (a) (lınea rojapunteada) y del contorno en (b) (lınea azul continua). . . . . . . . . . . . . . . . 137

4.18. Reconocimiento con todas las vistas deformadas: a) ejemplo con la silla de la Fig.4.1.a; y b) ejemplo con la silla de la Fig.4.1.d. . . . . . . . . . . . . . . . . . . . . 138

4.19. Porcentajes de reconocimiento con todas las vistas deformadas. . . . . . . . . . . 1394.20. a) Imagen capturada de una silla real; y b) vista segmentada por sustraccion de

fondo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1394.21. Reconocimiento de una silla sin brazos real: a) a partir de una secuencia ordenada

de vistas; b) a partir de una secuencia que incluye vistas desordenadas. . . . . . . 1404.22. a) Imagen capturada de una silla real; y b) vista segmentada por sustraccion de

fondo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1424.23. Reconocimiento de una silla con brazos real: a) a partir de una secuencia ordenada

de vistas; b) a partir de una secuencia que incluye vistas desordenadas. . . . . . . 142

5.1. a) Objeto 1, presentando cuatro esquinas de 90o; b) objeto 2, presentando cuatroesquinas de −90o; y c) funcion de curvatura del objeto 1 (lınea azul) y del objeto2 (lınea roja) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148

A.1. a)Secuencia de operaciones para el calculo de la variable de avance, αt(i); b)secuencia de operaciones para el calculo de la variable de retroceso, βt(i); y c)secuencia de operaciones para el calculo de la probabilidad de transicion de H i aHj en el instante t . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171

Indice de tablas

2.1. Comparativa de diversos detectores de esquinas . . . . . . . . . . . . . . . . . . . 262.2. Rango de extraccion del metodo propuesto y el desarrollado en (Chang y Chen,

2000) para la base de datos geometrica . . . . . . . . . . . . . . . . . . . . . . . . 47

3.1. Probabilidades de observacion de la secuencia V 4 con MM’s de distintos dados . 883.2. Probabilidades de observacion normalizadas de la secuencia V 4 con MM’s de

distintos dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 893.3. Resultados de reconocimiento para distintos radios de clasificacion de vistas . . . 103

xxiii

Capıtulo 1

Vision artificial y reconocimiento deobjetos

1. Introduccion.

El vertiginoso avance de la tecnologıa en el siglo XX ha estado definitivamente marcado

por la aparicion del primer ordenador, el Eniac, en 1945, ası como por la rapidısima expansion

de las computadoras y su imbricacion en la mayorıa de las disciplinas de la ciencia 1. El de-

sarrollo de las computadoras ha creado, como cabıa esperar, la expectativa de integrarlas en la

vida cotidiana de forma que ayuden al ser humano en sus tareas. Evidentemente, el problema

a resolver se convirtio en dotar de un cuerpo fısico a las computadoras para que estas pudiesen

interactuar con el entorno. El asentamiento de la robotica como disciplina y la comercializacion

de prototipos industriales de robots en 1946 de la mano de George Devol y Joe Engleberger re-

solvio, al menos en parte, esta dificultad. Los robots constituıan maquinas capaces de actuar de

una u otra forma en funcion de un programa. Posteriormente, a efectos de que estas maquinas

pudiesen introducirse eficazmente en un mundo hasta ese momento exclusivo para humanos,

se dedico un gran esfuerzo a simplificar la interfaz entre ambos. A ese respecto, era necesario

establecer un puente entre la forma de procesar de una computadora y la forma de pensar de

un ser humano. De esta tarea se encargo la inteligencia artificial (IA), que surge como disciplina

en 1956, durante la conferencia de Darthmouth. La IA permite que, en lugar de indicarle con

precision que debe hacer a una maquina mediante un programa informatico directamente liga-

do a sus componentes mecanicos, se le soliciten determinadas tareas en lenguaje mas o menos

natural y estas se resuelvan satisfactoriamente para conseguir el resultado deseado. Sin embar-

go, el planteamiento original de la IA ha estado dominado por la vision de la mente humana1Se estima que a principios del siglo XXI el porcentaje de penetracion de los ordenadores personales en Europa

esta en torno al 41.3%

1

2 Capıtulo 1. Vision artificial y reconocimiento de objetos

de acuerdo a los parametros de una computadora. Dicho planteamiento condujo a que, hasta

principios de los 80, la IA estuviese afectada por lo que se conoce como trampa internalista,

que generaba programas independientes del mundo fısico y disenados para operar a partir de

una representacion interna de la realidad, dejando de lado el hecho de encontrarse inmersos en

un entorno fısico (Varela et al., 1991). A efectos de interactuar con ese entorno, las maquinas

inteligentes u organismos artificiales, al contrario que los programas de ordenador que operan de

forma aislada al mundo exterior, deben estar dotados de la capacidad de percibir dicho entorno

e influir sobre el. Para ello, la maquina no solo debe soportar una estructura mecanica capaz de

desplazarla en funcion de la respuesta de la computadora que hace las veces de su cerebro sino

tambien de un conjunto de sensores a partir de los cuales observa el estado del mundo externo y

que forman parte de los datos de entrada para el problema que la computadora debe resolver. Es

inmediato constatar que este esquema funciona de forma realimentada: cuando la maquina in-

teractua con el entorno, hace que este varıe y, por tanto, cambia la entrada al problema, lo que a

su vez puede alterar la respuesta de esta. En general, los sistemas que obedecen a estas premisas

no solo varıan su comportamiento en funcion del mundo externo, sino que incluso pueden ser

capaces de aprender y evolucionar. Esto es lo que se ha venido denominando comportamiento

adaptativo y ha dominado el concepto de robotica durante las ultimas dos decadas. Es impor-

tante notar que los comportamientos emergentes en un sistema de este tipo son el resultado de

la mencionada adaptacion mas que de un programa determinado y, por tanto, a veces pueden

no ser siquiera susceptibles de interpretacion por un ser humano (Prem, 1995).

Actualmente, el mundo depende cada vez mas de las computadoras para todo tipo de

tareas. De forma similar, los sistemas autonomos inteligentes, capaces de desplazarse y tomar

decisiones por si mismos, se usan cada vez con mayor frecuencia. Sin embargo, es inmediato

constatar que su uso queda restringido en muchas ocasiones a entornos industriales o, al menos,

altamente controlados, mientras que aparecen mucho mas residualmente en entornos fuertemente

dinamicos como hogares, oficinas o establecimientos de todo tipo (Fig. 1.1). Una de las principales

razones de este hecho reside en que la enorme complejidad de estos entornos obliga a utilizar

sistemas sensoriales capaces de percibirla en su mayor parte. Al igual que en el caso del ser

humano, el sentido natural para esta tarea es la vision. Sin embargo, resulta extremadamente

complejo determinar en un entorno cualquiera que se esta percibiendo para poder tomar la

decision de como actuar en un momento determinado. Este problema constituye lo que se conoce

como vision artificial.

2. Vision artificial y modelos de aprendizaje 3

Figura 1.1: Disenos de sistemas autonomos moviles con guiado por vision para: a) fabricas; b)museos; c) hogares

2. Vision artificial y modelos de aprendizaje

La vision artificial puede definirse como el proceso de extraer informacion del entorno

a partir de una o mas imagenes de dicho entorno mediante una computadora. El proceso se

basa en imitar la vision humana de forma que la computadora sea capaz de percibir, carac-

terizar y reconocer objetos en dicho entorno, usando esta informacion para tomar una decision

o llevar cabo una accion determinada. Es interesante observar que, de acuerdo a esta defini-

cion, el reconocimiento de objetos es el objetivo final del proceso de vision, ya que aporta la

informacion necesaria acerca del entorno para que una maquina pueda resolver un determinado

problema. Segun Turing, una maquina podra ejecutar cualquier calculo en tanto que alguien

pueda explicarlo en su lengua natural y sin ambiguedad. Es, por tanto, necesario, definir de

forma clara y eficaz una interfaz hombre-maquina que permita traducir problemas del mundo

fısico a un lenguaje que una computadora pueda entender. Tal como se ha comentado antes,

esta traduccion ha sido tradicionalmente la competencia basica de la inteligencia artificial. Ası,

de forma natural, la vision artificial surge de combinar sensores de captacion de imagen y al-

goritmos de procesado de esta con tecnicas de inteligencia artificial a efectos de comprender y

procesar una escena concreta. En particular, la interfaz entre humanos y maquinas en el campo


Figura 1.2: Interfaz hombre-maquina en la vision artificial

de la vision artificial se concreta en dos problemas: el renderizado, que permite traducir infor-

macion de la maquina al formato visual humano, y el problema inverso, la inferencia. La Fig.

1.2 muestra ambas interfaces. En un sistema perfecto, lo idoneo serıa cerrar el bucle y que a

partir de los resultados de la inferencia, se pudiese proceder al renderizado y obtener una imagen

completamente igual a la utilizada.

En un principio, las tecnicas de vision artificial se centraron en acercarse todo lo posible

al proceso visual humano. Debido a esto, la vision artificial ha estado mezclada con la neurologıa

visual en un intento de comprender los mecanismos del cortex que permiten ver a los animales.

Sin embargo, muy pronto se comprobo que dicho acercamiento no resultaba practico. El ser

humano es, hasta el momento, mucho mas flexible y adaptable que cualquier sistema basado

en computadoras. Sin embargo, los sistemas de vision artificial presentan la ventaja de ser mas

rapidos y precisos en tareas repetitivas, mediciones y procesado de volumenes elevados datos,

lo que ha facilitado su incorporacion en trabajos especıficos de este tipo como, por ejemplo,

inspeccion de calidad de montaje. El proceso de vision artificial comienza, pues, por la definicion

de la tarea a implementar. Dicha tarea debe descomponerse en partes que puedan afrontarse

desde un punto de vista hardware y software. Para cada uno de estos modulos, debe comenzarse

por cuantizar los parametros de entrada que un ser humano define desde un punto de vista

cualitativo, como grande, pequeno, oscuro o claro. Esta informacion debe procesarse para obtener

los datos necesarios para completar la tarea deseada. Para ello, hay que escoger los algoritmos

necesarios, que suelen incluir etapas de preproceso, segmentacion, deteccion y caracterizacion

de objetos y reconocimiento en su caso mas general. Por ultimo, una vez se ha extraıdo de esos

objetos la informacion relevante para la tarea deseada, esta puede llevarse a cabo. Es importante

2. Vision artificial y modelos de aprendizaje 5

notar que en ocasiones la informacion necesaria para completar una tarea puede no encontrarse

en una imagen o secuencia de estas independientemente de lo que pueda parecer, ya que el ser

humano usa informacion de contexto, patrones excesivamente sutiles y referencias visuales. En

estos casos, no podra usarse vision artificial para resolver el problema deseado. Por ejemplo,

con una unica imagen no se pueden medir distancias, a pesar de que el ser humano, gracias a

las referencias aprendidas y en funcion de la relacion de tamano de los objetos que reconoce en

una escena, puede determinar a partir de una sola imagen las distancias aproximadas a dichos

objetos. Es interesante notar que esta capacidad tambien hace al ser humano mas vulnerable a

enganos derivados de su experiencia previa, que se conocen como ilusiones opticas. No obstante,

si se desea conseguir un sistema de vision artificial robusto y flexible, es importante que, al igual

que el ser humano, este este dotado de la capacidad de aprender, adaptarse y evolucionar.

Construir sistemas que no requieran programacion explıcita no es un concepto nuevo.

La extension de las tecnicas clasicas de reconocimiento de patrones a problemas nuevos ha

abierto una nueva via, el aprendizaje supervisado o aprendizaje a partir de ejemplos, que, a

nivel de maquina, basicamente consiste en un problema de regresion para la interpolacion o

aproximacion de una funcion multivariable a partir de un conjunto discreto de datos. Desde

este punto de vista, la solucion tradicional al aprendizaje supervisado ha sido la regularizacion

o proceso que selecciona una entre las infinitas funciones que pueden ajustarse a un conjunto

discreto de puntos imponiendo que la funcion sea suave mediante minimizacion de una funcion

de coste (Wahba, 1990). De forma similar, el problema se ha enfrentado tambien mediante

metodos probabilısticos y Bayesianos (Poggio y Girosi, 1990), usando estimacion de maximos

a posteriori (MAP). Un segundo punto de partida para el aprendizaje lo constituye asumir

que, bajo condiciones generales, la solucion al problema de la aproximacion es una combinacion

lineal de funciones base centradas alrededor de cada dato. La forma de estas funciones base

depende depende del criterio de suavidad empleado (Girosi et al., 1995). Un caso especial de

esta tecnica lo constituyen las funciones base radiales (FBR) (Powell, 1987), que en su caso mas

general son gaussianas. Mas recientemente han cobrado protagonismo las maquinas de soporte

vectorial (MSV) (Vapnik, 1995), que parten del mismo concepto que la regularizacion pero se

basan en que para un conjunto finito de datos, la mejor aproximacion debe estar limitada a un

espacio de hipotesis reducido, lo que fuerza a que muchos de los coeficientes en las ecuaciones

de minimizacion sean nulos.

Desde un punto de vista practico, queda por ultimo destacar que la vision artificial se

ha utilizado tradicionalmente en mejora y restauracion de imagen, como filtrado adaptativo en

radiologıa (Hall, 1971) o inspeccion de placas de circuito impreso (Jarvis, 1980). Actualmente,


se han incluido en el grupo sistemas mas complejos, como los de extraccion de informacion

geografica a partir de imagenes capturadas desde el aire o el espacio (Matsumoto et al., 1981) o

los de reconocimiento automatico de caracteres (Bellegarda et al., 1993) (Connell y Jain, 2001)).

La medicina es probablemente uno de los campos que ha aceptado de mejor grado la inclusion

de tecnicas de este tipo para la construccion de cariotipos (Charters y Graham, 1999), tecnicas

visuales no intrusivas para deteccion de cancer de mama (Bartrum y Crow, 1984) (Wolberg et

al., 1994) o analisis de electroencefalogramas (Bourne et al., 1981) (Zhou y Zhou, 1999). Aun

posteriores son las tecnicas avanzadas basadas en vision 3D como el modelado visual para la

inspeccion industrial (Rosen y Nitzan, 1977) (Kim et al., 1999), la tomografıa (Bhattacharya y

Majumder, 2000) o la reconstruccion de objetos y entornos (Johnson y Hebert, 1998) (Beauvais

y Lakshmanan, 2000). Cabe destacar el campo de la vision activa, donde el proceso visual se

lleva a cabo de forma realimentada a traves de una interaccion con el entorno. La vision activa

se ha empleado tradicionalmente en videovigilancia (Howarth y Buxton, 1996) (Kanade et al.,

1997), monitorizacion del trafico (Davis et al., 1997) o control de la actividad humana a partir

de imagenes aereas (Rao, 1996).

3. Reconocimiento de objetos

Tal como se ha comentado en el apartado anterior, el reconocimiento de objetos es un

paso clave en cualquier proceso generico de vision artificial. No es, por tanto, sorprendente

el hecho de que se haya concentrado un gran esfuerzo en este tema en las ultimas decadas,

centrado en particular en objetos tridimensionales que son, a fin de cuentas, los que suelen

encontrarse en un entorno real. El proceso se entiende en este contexto como el proceso de

aprendizaje de objetos nuevos y su posterior reconocimiento la siguiente vez que se le presentan

al sistema por comparacion con los objetos ya adquiridos. En general, el reconocimiento se suele

basar en la creacion de modelos de los objetos estudiados, que en lugar de preservar toda la

informacion pertinente a dichos objetos, tratan de minimizar dicha informacion almacenando la

menor cantidad de ella posible para optimizar el proceso de reconocimiento. La seleccion de los

parametros que definen un modelo es uno de los pasos mas crıticos del proceso de reconocimiento.

Los modelos pueden suministrarse a priori al sistema mediante aprendizaje supervisado, pero

tambien cabe la posibilidad de permitirle al sistema adquirir modelos nuevos a partir de pautas

establecidas mediante aprendizaje no supervisado. Una vez se dispone de un conjunto de modelos

aprendidos, cualquier objeto entrante puede reconocerse por comparacion con ellos. El proceso

de comparacion define al algoritmo de reconocimiento en sı.

4. Objetivos y organizacion del texto 7

El reconocimiento de objetos tridimensionales se ha afrontado desde diversas perspec-

tivas. Originalmente, este se basaba en metodos geometricos (Ullman, 1996), donde el objeto

se aproximaba mediante la combinacion de un conjunto determinado de representaciones como

cilindros generalizados, supercuadricas o parches bicubicos. El problema principal de estas tecni-

cas radicaba en que era necesario adquirir un modelo 3D completo de cada objeto para poder

reconocerlo positivamente. Ademas, los metodos geometricos resultaban lentos y excesivamente

sensibles a ruido, distorsiones y oclusiones. De forma alternativa, la mayorıa de los metodos

actuales se han decantado por el reconocimiento basado en vistas (RBV). En lugar de requerir

un modelo 3D completo de cada objeto para su analisis, el RBV se basa en adquirir un con-

junto discreto de imagenes del objeto desde distintos puntos de vista (Campbell y Flynn, 1999)

(Murase y Nayar, 1995). Es destacable el hecho de que en las ultimas decadas se ha encontrado

evidencia de que las neuronas en el cortex del cerebro trabajan de forma similar reconociendo

objetos a partir de vistas discretas (Logothetis y Pauls, 1995).

En los procesos de RBV, los objetos entrantes se comparan con los modelos conocidos

una vez se ha adquirido suficiente informacion sobre ellos. En el mejor de los casos, cuando el

espacio de entrada no presenta objetos con vistas iguales, una sola imagen puede ser suficiente

para su correcta identificacion (Campbell y Flynn, 1999). Sin embargo, en la mayorıa de los

casos es necesario adquirir varias y combinar la informacion que ofrece cada una de forma

estadıstica para que no queden dudas acerca de la naturaleza del objeto entrante. Este proceso

de comparacion es lo que define un sistema de reconocimiento. Es importante que el proceso

contemple la posibilidad de que los objetos esten sometidos a transformaciones geometricas,

ruido de captura, ası como distorsiones y deformaciones, ya que este sera el caso habitual.

4. Objetivos y organizacion del texto

El objetivo de esta tesis es el desarrollo de un sistema de reconocimiento de objetos 3D

basado en vistas de estos. Aparte de los motivos expuestos en la introduccion de este capıtulo,

como complejidad computacional y resistencia a errores, esta decision ha estado forzada por el

hecho de que el hardware con que se va a trabajar incluye unicamente una camara de vıdeo

convencional y un PC estandar. A efectos de controlar la posicion relativa de camara y ob-

jeto, las simulaciones se han llevado a cabo sobre el programa 3DStudio, mientras que en las

pruebas reales la camara se ha montado sobre una cabeza robotica, cuyo desplazamiento puede

cuantizarse facilmente.

Esta tesis se ha dividido en dos grandes bloques de acuerdo a las etapas del proceso


de reconocimiento basado en vistas y cada uno de sus capıtulos se encarga de un bloque en

particular. Ası pues, presenta el siguiente contenido:

Capıtulo 2: Representacion de formas planas.

Este capıtulo contempla la extraccion de informacion a partir de cada una de las vistas del

objeto evaluado. En el se hace un breve recorrido por los distintos descriptores de objetos,

optando al final por la forma por las ventajas que se detallan en la seccion correspondi-

ente. De entre los criterios de representacion de forma existentes, se justifica la eleccion

de la curvatura para, a continuacion, proponer un metodo nuevo de extraccion de esta.

Dicho metodo ofrece una alta resistencia contra ruido, transformaciones, y distorsiones

moderadas. No obstante, la curvatura resulta poco practica para representar per se una

forma. Por tanto, se propone ası mismo una nueva tecnica para extraer la informacion

mas relevante de esta. A efectos de evaluar la bondad del sistema de representacion de

formas planas propuesto, se incluye un apartado de experimentos en que se proponen y

testean distintos metodos de reconocimiento de formas planas a partir de la informacion

que ofrece la funcion de curvatura desarrollada. La conclusion de estos experimentos es que

un numero reducido de componentes principales de dicha funcion de curvatura es suficiente

para representar de forma eficaz cualquier objeto plano y, por tanto, cualquier proyeccion

de un objeto 3D.

Capıtulo 3: Reconocimiento de objetos 3D.

Este capıtulo cubre el reconocimiento de objetos 3D a partir de secuencias de vistas.

Para ello, se efectua un breve recorrido por las tecnicas mas habituales de este tipo que,

basicamente, se diferencian en la tecnica de representacion de vistas escogida y en el metodo

de acumulacion de informacion a partir de un conjunto de estas. Usando el metodo de

representacion de figuras planas propuesto en el capıtulo 2, se propone un nuevo sistema

compacto de representacion de figuras 3D que permite reconocer estas mediante campos

ocultos de Markov. En el capıtulo se presenta tanto una nueva tecnica para aprender nuevos

objetos hasta entonces desconocidos como el proceso de reconocimiento basado en los

modelos 3D adquiridos. En este capıtulo se presentan diversas pruebas sobre un simulador

que permite observar los objetos desde cualquier punto de vista y segmentarlos de forma

simple. Ası, se testea el sistema basico en presencia de transformaciones geometricas y ruido

de cuantizacion pero sin ruido de captura y sin distorsiones, oclusiones o deformaciones

por segmentacion.

Capıtulo 4: Resultados

4. Objetivos y organizacion del texto 9

Este capıtulo presenta varios experimentos del sistema completo sobre imagenes reales a

efectos de probar su resistencia frente a los errores que no se comprobaron en el capıtulo

anterior. Asimismo, se testea, a traves de una fase de aprendizaje, la capacidad del sistema

para, habiendo aprendido modelos virtuales de objetos, reconocer su equivalente en el

mundo real. Por ultimo, se comprueba la capacidad del sistema para continuar aprendiendo

tras en entrenamiento inicial.

Capıtulo 5: Conclusiones

Este capıtulo presenta un resumen de las aportaciones mas significativas que se hacen a

lo largo del texto. Asimismo, se presentan las conclusiones que se han extraıdo de este

trabajo y finalmente se abren futuras lıneas de investigacion.

Capıtulo 2

Descripcion de formas planas

1. Introduccion.

El reconocimiento de objetos a partir de una secuencia de video esta ıntimamente ligado

al hecho de que dicha secuencia esta formada por imagenes 2D que corresponden a perspectivas

del objeto desde un determinados puntos de vista. Ası, una camara de video intrınsecamente

genera una representacion plana de un objeto tridimensional. En conjunto, la estructura 3D del

objeto vendra dada por la captura de un numero suficiente de vistas donde bien la camara o bien

el objeto se encuentren en movimiento (Buelthoff y Edelman, 1992). Es ası que la descripcion

de formas planas constituye una parte importante del reconocimiento de objetos 3D.

Existen varias tecnicas para el reconocimiento de objetos 3D a partir de secuencias de

imagenes planas. Partiendo de la aproximacion mas basica, algunos metodos optan por trabajar

con el bitmap completo correspondiente a una vista. Dado que un bitmap implica un elevado vo-

lumen de datos, generalmente se usan tecnicas como Analisis de Componentes Principales (PCA,

Principal Components Analysis), tambien conocidas como la transformada de Karhunen-Loeve

Transform (Sirovich y Everson, 1992), para reducir a un vector de caracterısticas las diferentes

vistas del objeto (Campbell y Flynn, 1999) (Mukherjee y Nayar, 1993). Desafortunadamente,

los bitmaps correspondientes a una vista suelen ser extremadamente sensibles a cambios de

iluminacion (Startchik et al., 1998), ası como a la naturaleza del fondo sobre el que se captura

el objeto a no ser que este se segmente y descarte.

Para evitar estos problemas, la mayorıa de los sistemas se basan en extraer algun tipo de

caracterıstica del objeto en si. En general, una de las principales caracterısticas que los diferencia

es la forma en que cada vista de un objeto se caracteriza de forma previa al reconocimiento.

Tradicionalmente, se define la forma como la propiedad de un objeto que depende de las posi-

11

12 Capıtulo 2. Descripcion de formas planas

ciones relativas de todos aquellos puntos que componen su contorno o superficie exterior. Esta

es una propiedad intrınseca de los objetos, de la que se pueden derivar muchas otras. El ser

humano suele asociar conceptos con formas, mas que con otras propiedades como el color o la

textura. Ademas, mientras que otras propiedades varıan considerablemente con las condiciones

de captura y la iluminacion e incluso no se mantienen constantes en objetos de una misma clase,

como por ejemplo el color de la portada de un libro o la textura de una silla, la forma resulta mas

resistente a estos factores. La caracterizacion de formas no es en absoluto un problema simple

por las siguientes razones:

La forma es difıcil de representar. Al contrario que otras propiedades que son facilmente

cuantificables, como intensidad o color, para definir correctamente una forma, habitual-

mente, es necesario extraer o calcular un gran numero de parametros, de entre los cuales

solo unos cuantos son adecuados para una aplicacion determinada.

No existe un fundamento biologico apropiado para inspirar una estrategia u otra, dado que

el ser humano trabaja simultaneamente con tal cantidad de parametros que es imposible

operar de forma similar.

La disciplina es relativamente nueva. Hasta la aparicion de la vision artificial, la descripcion

de formas complejas se ha llevado a cabo mediante descripciones verbales. La aparicion de

este nuevo campo acarreo la necesidad de presentar las formas en un formato apto para

su procesado y manipulacion automatico.

No obstante, existen diversos metodos en el campo del reconocimiento de objetos 3D

basados en la forma. Varios estudios se centran en caracterizar las mencionadas formas medi-

ante sus puntos relevantes, procediendo luego a compararlos con los puntos relevantes de un

conjunto limitado de vistas canonicas de cada objeto patron (Cross et al., 1999) (Lo y Kwok,

2001) (Roh y Kweon, 2000) (Rothwell et al., 1995). Las principales desventajas de los metodos de

este tipo son que la posicion y numero de puntos relevantes tiende a ser inestable frente a ruido

y condiciones de captura y no necesariamente se mantiene para distintos objetos de una misma

familia e incluso para versiones distorsionadas de un mismo objeto a poco que presenten mıni-

mas variaciones. Para evitar estos problemas, se han propuesto soluciones basadas en analisis

multiescala (Mikolajczyk y Schmid, 2001), pero tienden a resultar lentas y computacionalmente

costosas. Alternativamente, se puede trabajar con el contorno completo de un objeto, que tiende

a ser mas resistente a todos los factores mencionados y unicamente presenta variaciones impor-

tantes cuando aparecen errores significativos de segmentacion. La representacion de contornos

2. Metodos de descripcion de la forma 13

mediante funcion de curvatura (Urdiales et al., 2002) es particularmente aceptada en este campo

por sus caracterısticas de resistencia al ruido y transformaciones.

Este capıtulo se centra en la caracterizacion de objetos planos a partir de su forma, con

un especial enfasis en los sistemas que se han empleado en reconocimiento de objetos 3D: puntos

relevantes y curvatura. Dado que aun no se propone un sistema para el reconocimiento 3D,

se evaluaran las prestaciones de dichos sistemas en aplicaciones de reconocimiento de objetos

planos. La seccion 2 presenta una breve descripcion de los distintos sistemas de descripcion de

forma disponibles en la literatura. La seccion 3 se centra en la implementacion de tres metodos

de representacion de formas planas para su posterior comparacion. Los resultados de cada uno

de los tres metodos de representacion propuestos se presentan en la seccion 4. En la seccion 5

se discuten las conclusiones del presente capıtulo.

2. Metodos de descripcion de la forma

Tradicionalmente, los metodos de representacion de la forma se han dividido en dos

grandes bloques: escalares y del dominio espacial. Los metodos escalares dependen unicamente

de operaciones matematicas que se aplican de forma directa. Por tanto, presentan la ventaja de no

precisar ningun conocimiento sobre la forma a caracterizar. Los metodos del dominio espacial se

basan en describir las propiedades estructurales y relacionales de las formas en estudio mediante

la transformacion de informacion puramente numerica en datos explıcitos y con sentido.

Las tecnicas mas representativas entre los metodos escalares son las de escalar simple,

los descriptores de Fourier y los metodos estocasticos. Las tecnicas de escalar simple se basan en

parametros de la forma, como momentos de area, simetrıas, perımetro o elongaciones (Denisov,

1994) (Hsu y Hwang, 1997) (Inesta et al., 1996). Todos estos parametros son sencillos de obtener

y, en muchos casos, resistentes a transformaciones. No obstante, para describir una forma de

manera unica, habitualmente, es necesario un elevado numero de estos parametros, ya que ofrecen

en general informacion muy correlada, y es difıcil escoger un conjunto limitado de ellos que sirva

para una aplicacion minimamente general. Los descriptores de Fourier (Fonga, 1996) (Kauppinen

et al., 1995) son un numero limitado de coeficientes de la transformada de Fourier de la curvatura,

el radio o el contorno del objeto, capaces de caracterizar a este. Los descriptores son bastante

resistentes a transformaciones, pero el numero necesario de estos para caracterizar una forma

depende de su naturaleza y de la aplicacion a desarrollar. Ademas, en casi cualquier aplicacion

suele ser necesario un numero grande de descriptores. Los metodos estocasticos consisten en

ajustar modelos autoregresivos al contorno de los objetos, pero se ha probado que los descriptores


de Fourier ofrecen mejores resultados (Kauppinen et al., 1995).

Las tecnicas mas representativas del dominio espacial son las transformadas de eje medio

y simetrıas, la descomposicion de objetos en grupos simples, la aproximacion poligonal, la rep-

resentacion por puntos caracterısticos y la transformada de Hough. Las transformadas de eje

medio y simetrıas se basan en reducir la forma global del objeto a un esqueleto (Lerner et al.,

1995) (Zhou y Pavlidis, 1994) ya que resulta relativamente facil extraer los ejes de simetrıa de

contornos cerrados y la figura puede recuperarse si se almacena la distancia mınima al bor-

de desde cada punto del esqueleto. Su principal desventaja es que son muy sensibles al ruido

y resulta muy complejo medir la similitud entre dos esqueletos distintos. Ademas, los rasgos

asociados a concavidades del contorno no se representan de forma directa. Otras tecnicas se

basan en descomponer un objeto complejo en conjuntos de formas simples (Nair y Aggarwal,

1996). Desafortunadamente, estas tecnicas suelen ser computacionalmente costosas y la bondad

de la descomposicion resultante depende enormemente del tipo de objeto con que se trabaja. La

aproximacion poligonal de formas consiste en representar los contornos mediante un conjunto de

primitivas que se ajustan a estos entre ciertos puntos que se denominan puntos de ruptura (Lu,

1993). Sin embargo, no es obvio localizar de forma fiable dichos puntos ni encontrar primitivas

sencillas que permitan una baja carga computacional. Ademas, la descomposicion poligonal re-

sulta muy sensible a escala. Otras tecnicas se basan en reducir la forma a un conjunto de puntos

caracterısticos (Cheikh et al., 2000), bien minimizando algun tipo de error (Pavlidis y Horowitz,

1974) (Ray y Ray., 1993), bien localizando los puntos de maxima variacion de curvatura (Zhu y

Chirlian, 1995) (Chang y Chen, 2000) (de Trazegnies et al., 2002). La representacion por puntos

caracterısticos es similar a la descomposicion poligonal en tanto que tambien se basa en encontrar

puntos relevantes de un contorno. Sin embargo, como en este caso no es necesario aproximarlo,

estos sistemas no son tan sensibles a distorsiones de la forma, aunque si presentan sensibilidad

a ruido y a puntos que se presentan a distintas escalas naturales. La transformada de Hough

es una transformacion que permite detectar formas conocidas en una imagen (Costa y Sandler,

1993). Su principal ventaja es que es muy resistente al ruido, pero su complejidad se incrementa

en una dimension por cada variable adicional a la que ser insensible, como rotacion o escala.

Ademas, su eficiencia varıa considerablemente dependiendo de que forma se desee detectar.

Finalmente, merece la pena destacar que cuando se desea trabajar en entornos muy

sensibles a escala, puede hacerse uso de metodos de espacio-escala (Rosin, 1992), que trabajan

sobre un continuo de escalas simultaneamente. No obstante, es importante notar que estos

metodos pueden volverse excesivamente costosos si el numero de escalas a evaluar aumenta

demasiado.

3. Representacion de formas planas 15

3. Representacion de formas planas

Tal como se ha comentado en la introduccion, la mayorıa de los metodos de reconocimien-

to de objetos 3D a partir de formas planas se basan bien en extraccion de puntos caracterısticos

del contorno bien en el analisis de la curvatura de la forma. Por ello, el apartado siguiente se

centra en estos dos metodos. Adicionalmente, se va a proponer un metodo nuevo para repre-

sentar objetos planos a partir de los rasgos mas representativos de la curvatura de su contorno.

Todos los metodos propuestos en esta tesis se evaluaran en aplicaciones de reconocimiento de

objetos en el apartado de resultados para mostrar sus ventajas e inconvenientes.

3.1. Representacion de objetos mediante curvatura

Una de las formas mas tradicionales de caracterizar la forma es el estudio de su curvatura,

que es equivalente a cuanto se dobla el contorno en cada punto. Las principales ventajas de

trabajar con la curvatura de un objeto son que: i) se puede calcular con relativa facilidad y

rapidez; ii) no es necesario ningun conocimiento previo de la forma a describir; iii) la similitud

entre la curvatura de dos objetos se puede estimar de forma directa; y iv) es muy resistente a

transformaciones. La curvatura comienza a definirse como tal en el trabajo de Johannes Kepler

sobre el clasico Problema de Alhazin, pero no se formaliza de manera algebraica hasta los trabajos

de Fermat y Descartes y, en particular, Leibniz y Newton, que concretan el concepto de curvatura

partiendo de las siguientes premisas:

Un cırculo tiene curvatura constante e inversamente proporcional a su radio.

El mayor cırculo tangente a una curva por su parte concava en un punto cualquiera tiene

la misma curvatura que la curva en ese punto.

El centro de este cırculo es el centro de curvatura de la curva en dicho punto.

Mas adelante, define la curvatura en terminos infinitesimales, describiendo el centro de

curvatura como la interseccion de las normales a distancias infinitamente pequenas a ambos

lados del punto en cuestion (Whiteside, 1969). De ahı que Newton derive la siguiente formula

para la curvatura:

ρ =(1 + z2)3/2

z(2.1)

siendo z igual a yx , donde (x, y) son las coordenadas de los puntos que forman la curva. De acuerdo

a su teorıa, una curva generica presenta un numero indefinido de puntos de inflexion donde las


curvas se comportan como lıneas rectas y, por tanto, su radio de curvatura en dichos puntos es

infinito (Coolidge, 1952). Finalmente, Leonard Euler en 1774 (Kline, 1972) determina que para

cada vector tangente a una curva, puede asignarse un punto del cırculo unidad que corresponde a

la direccion del vector. A partir de esto, define la curvatura como ds′

ds , es decir, la variacion angular

de la tangente sobre la variacion del arco en longitud en terminos infinitesimales. Intuitivamente,

se aprecia que cambios grandes de angulo en pequenas distancias suponen curvaturas grandes y

viceversa. Euler propone la siguiente expresion analıtica para el radio de curvatura en un espacio

tridimensional:

ρ =1√

(x′′)2 + (y′′)2 + (z′′)2(2.2)

donde (x, y, z) son las coordenadas de los puntos de la curva. Actualmente, la definicion mas

utilizada es la que define la curvatura ρ de una curva cualquiera como la derivada de su pendiente

con respecto a la longitud del arco t:

ρ(t) =xy − yx

[x2 + y2]3/2(2.3)

siendo x, y, x y y la primera y segunda derivadas de las coordenadas de la curva x(t) e y(t)

respecto a t.

Para extender el concepto de curvatura al procesado de imagen es interesante conseguir

metodos que: i) sean poco costosos computacionalmente; ii) se puedan adaptar facilmente al

formato digital del problema; y iii) sean resistentes al ruido de cuantizacion y discretizacion.

Existen varios metodos para calcular la funcion de curvatura de un contorno digital. Freeman

y Davis (Freeman y Davis, 1977) calculan la curvatura de una forma como el producto de las

longitudes de secciones uniformes del codigo de cadena a ambos lados de cada pixel de la curva,

tras suavizar esta para eliminar parcialmente el ruido de cuantificacion. Liu y Srinath (Liu y

Srinath, 1990) utilizan el gradiente de bordes de cada pixel, calculado como la arcotangente

de su diferencia de Sobel en un vecindario 3x3, para generar la funcion, que luego normalizan

para evitar discontinuidades. Arrebola et al. (Arrebola et al., 1997) utilizan la correlacion de los

histogramas a derecha e izquierda en una vecindad k de cada punto, modificando despues la fun-

cion resultante para incluir informacion sobre concavidad y convexidad. Mas tarde, sustituyen

la correlacion por medias circulares de origen variable para incrementar la velocidad de proceso

del sistema, ası como para cuantificar mejor el angulo en las esquinas (Arrebola et al., 1999).

Agam y Dinstein (Agam y Dinstein, 1997) definen la curvatura como la diferencia de las pen-

dientes de los segmentos de curva a derecha e izquierda de cada punto, tomando las pendientes

precalculadas de una tabla. Bandera et al. (Bandera et al., 2000a) proponen un metodo similar

a este, pero variando de forma adaptativa la definicion de pendiente empleada para adaptarla


a la escala natural de los contornos. Usando este mismo concepto, Reche et al (Reche et al.,

2002) proponen un nuevo metodo para calcular la curvatura a partir del angulo que forman dos

vectores relacionados con los segmentos de maxima longitud libres de discontinuidades a ambos

lados de cada pixel evaluado. Basicamente, la mayorıa de los metodos comentados comparten la

idea de comparar, de una forma u otra, segmentos de k puntos a la derecha e izquierda del punto

en estudio para estimar la curvatura. Este proceso se conoce como evaluacion de pendiente-k,

donde la pendiente k de un pixel cualquiera se define como la pendiente de una lınea que conecta

dicho pixel con su k-esimo vecino a la derecha o izquierda. El problema de esta tecnica estriba

en que no es sencillo elegir un k adecuado. Si k es excesivamente pequeno, la curvatura es muy

ruidosa, pero si es grande, todos los puntos caracterısticos situados a distancia menor que k

pueden perderse y, por tanto, la informacion de curvatura se distorsiona. Solo en (Bandera et

al., 2000a) y (Reche et al., 2002) se introduce el concepto del calculo de k de acuerdo a la escala

natural de cada punto del contorno, si bien en ambos metodos la curvatura se obtiene finalmente

mediante una aproximacion que, salvo que se almacene el valor de k para todos los puntos del

contorno evaluado, hace imposible la recuperacion de la forma original a partir de la funcion

resultante.

En esta tesis se propone un nuevo metodo de calculo de curvatura adaptado a la escala

natural del contorno. En este metodo, la curvatura local de cada punto del contorno se va a car-

acterizar mediante el angulo subtendido por dos segmentos libres de discontinuidades a derecha

e izquierda del punto en cuestion pero, en lugar de calcular dicho angulo por aproximacion como

en metodos anteriores (Agam y Dinstein, 1997) (Bandera et al., 2000a) (Reche et al., 2002),

este se obtiene de forma analıtica como la integral de la funcion de curvatura adaptativa entre

los pasos por cero mas cercanos de dicha funcion a derecha e izquierda del punto analizado. La

ventaja mas representativa de este metodo reside en que, al no efectuarse aproximaciones, se

puede recuperar el contorno original filtrado a partir de la funcion de forma fiable. Ası, si es

necesario filtrado adicional, el metodo se puede aplicar iterativamente sin perdida de informacion

relevante. La funcion de curvatura propuesta consta de los siguientes pasos:

Codificacion del contorno mediante un codigo de cadena incremental. El codigo de cadena

incremental asociado a un pixel n es un vector (∆x(n),∆y(n)) que presenta la diferencia

en x e y entre los puntos n y n + 1 del contorno.

Para cada punto n, calculo de la maxima longitud de contorno k(n) libre de discon-

tinuidades en torno a n. El valor de k para cada pixel n, k(n), se obtiene comparando la

distancia Euclidea entre los pixeles n−k(n) y n+k(n) del contorno, ||n−k(n), n+k(n)||2,


con el numero de pıxeles de contorno entre ambos, lmax(k(n)). Ambas distancias tienden a

ser iguales en ausencia de puntos caracterısticos, incluso para contornos ruidosos. En caso

contrario, ||n− k(n), n + k(n)||2 es significativamente mas corta que lmax(k(n)). Ası, k(n)

es el valor mas alto que satisface la ecuacion:

||n− k(n), n + k(n)||2 ≥ lmax(k(n))− Uk (2.4)

donde Uk es una constante que depende unicamente del nivel de ruido tolerado en la

funcion. Cuando Uk es grande, los k(n) tienden a ser altos y algunos puntos relevantes

que se definen a pequena escala pueden llegar a desaparecer. Si Uk es bajo, sin embargo,

podrıa no eliminarse suficiente ruido y confundirse los picos generados por este con falsos

puntos relevantes. Afortunadamente, la eleccion de Uk no es un factor crıtico y, para la

resolucion de una camara de vıdeo estandar, un factor Uk = 0.4 suele funcionar en la

practica totalidad de los casos.

Calculo del codigo de cadena incremental adaptativo (∆x(n)k,∆y(n)k) asociado al pixel n

del contorno. Este nuevo codigo refleja la variacion en x e y entre los pıxeles del contorno

n− k(n) y n + k(n) y se calcula como:

∆x(n)k =n+k(n)∑

j=n−k(n)

∆x(j) (2.5)

∆y(n)k =n+k(n)∑

j=n−k(n)

∆y(j)

Calculo de la pendiente de la curva que forma el codigo de cadena incremental adaptativo

en cada punto del contorno n. Dicha pendiente puede aproximarse por el angulo formado

por el segmento (n− k(n), n + k(n)) y el eje vertical y. Dicho angulo se obtiene como:

Ang(n) = arctan(

∆x(n)k

∆y(n)k

)(2.6)

Calculo de la curvatura en cada punto n, que se define como la variacion de pendi-

ente con respecto a n, d(Ang(n))/dn. Este valor puede aproximarse por el incremento

∆(Ang(n))/∆n, o localmente por Ang(n + 1)−Ang(n).

La Fig. 2.1.b presenta la funcion de curvatura propuesta (FC) para explicar su senti-

do sobre una figura generica (Fig. 2.1.a). Las esquinas del objeto se han numerado de 1 a 7.

Puede observarse que las esquinas se marcan claramente como picos en la funcion, tanto mas

altos cuanto mas agudo es su angulo subtendido. Las esquinas convexas (1, 3, 4, y 6) aparecen


como picos positivos. Por otra parte, las rectas son tramos de curvatura 0, mientras que las

curvas presentan una curvatura aproximadamente constante. La funcion de curvatura presenta

desplazamientos en funcion del primer punto por el que comience su calculo. De forma analoga,

apareceran desplazamientos si se somete el objeto a rotacion. La escala produce un efecto de

diezmado o interpolacion sobre la curva, segun se disminuya o aumente el tamano del objeto,

si bien no varıa la forma de la funcion. El ruido se elimina de forma adaptativa, por lo que no

produce variacion alguna salvo en casos de relacion senal a ruido realmente pobres.

La bondad de la funcion de curvatura propuesta puede observarse en la Fig. 2.2, donde

se presentan dos contornos ruidosos distintos (Fig. 2.2.a) y los mismos contornos recuperados a

partir de la funcion de curvatura adaptativa (AECF,Adaptively Estimated Curvature Function)

(Bandera et al., 2000a) (Fig. 2.2.b) y de la funcion propuesta (Fig. 2.2.c). Tal como se observa en

la figura, el filtrado intrınseco al calculo habitual de curvatura provoca errores en la recuperacion

de los angulos en cada punto en los metodos habituales que degeneran en que los contornos no

pueden cerrarse en cuanto tengan un numero razonable de puntos caracterısticos. La funcion

propuesta, sin embargo, permite una recuperacion mucho mejor en tanto que pierde menos

informacion sobre el contorno. Tal como puede observarse, el contorno reconstruido resultante

esta visiblemente filtrado, pero no se han perdido puntos caracterısticos, lo que demuestra que

dicha funcion se comporta como un buen descriptor.

Las funciones de curvatura representan apropiadamente los contornos de objetos, son

resistentes frente a ruido, y deformaciones suaves. Siluetas parecidas representadas a distintas

escalas poseerıan funciones de curvatura de forma similar aunque de distintas longitudes. Por

lo tanto, la invarianza frente a cambios de escala se puede conseguir sin mas que interpolar las

funciones de curvatura a una longitud fija. Sin embargo, las funciones de curvatura no presentan

invarianza frente a rotacion, sino que sufren desplazamientos lineales en funcion de esta. Este

Figura 2.1: Representacion por curvatura: a) objeto generico; b) funcion resultante.


Figura 2.2: Reconstruccion a partir de curvatura: a) objetos ruidosos ejemplo; b) AECF del ob-jeto; c) funcion de curvatura propuesta; d) reconstruccion a partir de AECF; y e) reconstrucciona partir de la funcion propuesta.


problema se puede resolver si el punto de comienzo para el calculo de la funcion de curvatura

es siempre el mismo, independientemente de la posicion de la silueta sometida a analisis. Para

este fin es necesario definir un criterio, que dependera de caracterısticas globales de la silueta,

para elegir el punto de comienzo. En un sistema no supervisado la eleccion de tal criterio no es

trivial. Existen metodos de reconocimiento basados en contornos que necesitan definir un punto

de comienzo privilegiado. Los criterios utilizados para tal fin se pueden agrupar en dos grandes

grupos:

Metodos que dependen de caracterısticas globales de la figura. Por ejemplo, se pueden

definir unos ejes principales de la figura y escoger los puntos en los que cortan a la silueta

como puntos privilegiados (He y Kundu, 1991). Estos metodos tienen el problema de

que determinadas deformaciones de la figura original, aun sin ser muy intensas, pueden

desplazar los ejes principales de la figura.

Metodos que definen lo extremos de funciones locales como puntos privilegiados (Dreschler

y Nagel, 1982). Por ejemplo, se puede definir el punto de comienzo como el maximo o

el mınimo de la funcion de curvatura. Sin embargo, si seguimos este criterio el punto

de comienzo se puede ver desplazado si la silueta original se suaviza debido a ruido o

distorsion, de modo que puede aparecer un nuevo maximo o mınimo de la funcion de

curvatura situado en un punto distinto del original.

Si se requiere trabajar con funciones de curvatura cuyo punto de comienzo es eventual-

mente variable, es necesario que cualquier comparacion de similitud entre una pareja de funciones

de curvatura incluya la comparacion de la primera de ellas con todos los posibles desplazamien-

tos de la segunda. Esto es demasiado costoso desde el punto de vista computacional. Para evitar

este problema, cada silueta es representada por el modulo de la transformada discreta de Fouri-

er de su funcion de curvatura, calculada mediante el algoritmo de la transformada rapida de

Fourier (FFT). Un desplazamiento en la funcion de curvatura se traduce en un desfase en su

transformada de Fourier, por lo tanto la representacion mediante el modulo de la transforma-

da de Fourier de la funcion de curvatura (||CFFFT||) es independiente de la orientacion de la

figura original. Es importante notar que una vez extraıdo el modulo de la FFT de la funcion de

curvatura, se pierde la informacion de fase de la misma. La informacion extraıda de la figura no

es suficiente para realizar una transformacion inversa y reconstruir la figura original, es decir, el

metodo propuesto no puede funcionar como un metodo de compresion de imagenes. Sin embargo

sı podemos comprobar la validez de la representacion propuesta como metodo de caracterizacion

de formas para fines de reconocimiento.


Las funciones de curvatura que se van a utilizar en este trabajo cumplen la restriccion

de que su longitud es fija e igual a un cierto N0, lo que puede conseguirse mediante un sencillo

proceso de interpolacion o diezmado. Dado que las FCs son funciones reales, sus transformadas

de Fourier solo tienen N = N0/2 + 1 componentes independientes, por lo tanto consideraremos

las ||CFFFT||s como vectores de longitud N .

3.2. Representacion de objetos mediante puntos caracterısticos

La representacion por puntos caracterısticos de una forma se basa en localizar los puntos

del contorno que se consideran de interes. En general, dichos puntos son las esquinas de este,

aunque tambien pueden considerarse como tales los puntos de inflexion. Un caso especial es la

aproximacion poligonal, donde los puntos de interes se ajustan especıficamente para que el error

de aproximacion sera mınimo y, por tanto, no necesariamente tienen que presentar un sentido

estrictamente fısico de forma aislada. Existe un elevadısimo numero de tecnicas de deteccion de

esquinas en la literatura, que se dividen en dos grandes grupos: tecnicas basadas en procesar la

imagen completa y tecnicas basadas en presegmentar los objetos y codificar sus contornos en

funciones unidimensionales para, a continuacion, localizar los picos de dichas funciones mediante

algoritmos de umbralizacion mas o menos sofisticados.

Dentro de las tecnicas basadas en procesar la imagen completa, algunos sistemas se basan

en la relativamente sencilla deteccion de bordes mediante operadores para luego extraer la cur-

vatura de estos (Medioni y Yasumoto, 1987). Sin embargo, esta suficientemente documentado

que estos metodos fallan en las intersecciones. Moravec propone definir como puntos de interes

los picos de la funcion extraıda a partir del mınimo de la autocorrelacion local en cuatro di-

recciones de cada punto estudiado, pero la funcion que umbraliza suele resultar excesivamente

ruidosa (Moravec, 1979). Harris y Stephens mejoran dicha funcion estimando la autocorrelacion

a partir de las derivadas de primer orden de la imagen (Harris y Stephens, 1988). Si bien en este

caso las esquinas se detectan correctamente, su ubicacion no suele ser correcta. Kitchen y Rosen-

feld ajustan una superficie local cuadratica a la imagen para localizar las esquinas (Kitchen y

Rosenfeld, 1982). En (Dreschler y Nagel, 1982) y (Zuniga y Haralick, 1988) se usa el producto de

la magnitud del gradiente de la imagen por la curvatura del contorno de los bordes para detectar

las esquinas, pero los detectores propuestos son muy sensibles a ruido. Venkatesch (Venkatesh,

1990) y Rosenthaler (Rosenthaler et al., 1992) definen un conjunto de filtros para obtener la

energıa local de cada punto, quedandose con los maximos de dicha energıa. Liu y Tsai (Liu y

Tsai, 1990) utilizan momentos de gris para la tarea, pero tienen problemas con las intersecciones

y el ruido. El metodo SUSAN (Smith y Brady, 1997) se basa en detectar caracterısticas bidi-


mensionales de las esquinas en los pixeles de la imagen mediante una mascara y resuelve algunos

de estos problemas. Otros metodos combinan varios de los mencionados sistemas para mejorar

los resultados que obtienen individualmente (Singh y Shneier, 1990).

Los metodos basados en deteccion de puntos caracterısticos presentan la ventaja sobre

los anteriores de una menor carga computacional, en tanto que se aplican sobre un numero de

puntos muy reducido, ası como de una mayor independencia frente a condiciones de iluminacion

y captura. Sin embargo, dado que es necesaria una segmentacion previa, es importante asumir

que los contornos resultantes pueden ser ruidosos y presentar distorsiones mas o menos severas.

Dentro de la deteccion de puntos caracterısticos sobre el contorno del objeto presegmentado,

varios autores trabajan con aproximaciones poligonales (Ansari y Delp, 1991) (Perez y Vidal,

1994), que en su mayor parte se basan en el paradigma de division y mezclado o, lo que es

lo mismo, en dividir el contorno sucesivamente en un numero de puntos cada vez mas elevado

de forma aleatoria buscando que la aproximacion poligonal resultante tenga el error mas bajo

posible para proceder posteriormente a reducir dicho numero de forma controlada de acuerdo al

mismo criterio. Tambien suele usarse como criterio, a efectos de reducir la carga computacional

del proceso, el que el tramo de contorno entre dos de los puntos escogidos sea lo suficientemente

parecido a una recta, denominandose en este caso la aproximacion no optima. El principal

problema de estos metodos radica en que, dado que mas que buscar puntos representativos

se centran en minimizar el error de aproximacion de la curva, el numero y posicion de los

puntos resultantes suele resultar muy sensible a ruido, transformaciones y distorsiones. El resto

de las tecnicas de este grupo se basan en evaluar la curvatura del contorno para detectar los

puntos de maxima variacion, bien usando las coordenadas de este -metodos basados en caminos-

, bien estimando la orientacion de cada punto del contorno con respecto a una direccion de

referencia -metodos basados en orientacion-. Los metodos basados en caminos (Ansari y Delp,

1991) (Mokhtarian y Mackworth, 1986) suelen trabajar convolucionando las coordenadas del

contorno con un filtro gaussiano para extraer su curvatura. Resultan muy fiables siempre y

cuando el ancho de banda del filtro se escoja correctamente. Sin embargo, es muy complejo

escoger un valor unico valido para esquinas definidas a distintas escalas, lo que suele devenir en

una relacion senal a ruido muy pobre en la funcion de curvatura resultante y, por tanto, una

deteccion poco fiable en contornos de complejidad media y alta.

Los metodos basados en orientacion (Arrebola et al., 1997) (Freeman y Davis, 1977)

(Rosenfeld y Weszka, 1975) (Urdiales et al., 2003) utilizan, mayormente, las funciones de cur-

vatura descritas en el apartado anterior para detectar sus picos por umbralizacion. En estos

casos, la deteccion es tanto mejor cuanto mas resistente sea la funcion a ruido, distorsiones y


transformaciones. Un estudio efectuado en (Urdiales et al., 2003) muestra que la funcion que se

propone en esta tesis presenta unas caracterısticas especialmente deseables para su uso en apli-

caciones de deteccion de esquinas. Para probar esta afirmacion, se ha llevado a cabo un sencillo

experimento. En (Bandera et al., 2000b) se habıa evaluado comparativamente el comportamien-

to de varios detectores de esquinas, concluyendose que el metodo de los histogramas circulares

(CHM) (Arrebola et al., 1999) y el de umbralizacion de la funcion de curvatura adaptativa

(AECF) (Bandera et al., 2000a) eran los mas destacados en cuanto a estabilidad frente a ruido

y transformaciones. Es por ello que se van a comparar los resultados del detector propuesto

con dichos metodos para mostrar su bondad. La Fig. 2.3.a muestra un objeto ejemplo, en este

caso una letra A del alfabeto Times New Roman. Se ha escogido este objeto especificamente

porque dispone de esquinas definidas a distintas escalas, lo que supone un problema clasico para

detectores no adaptativos. Sobre dicha letra se encuentran marcadas con un cuadro las esquinas

que detectan el AECF, CHM y el metodo propuesto. En este caso, dado que el objeto tiene un

tamano elevado y no esta afectado por ruido, los resultados de los tres metodos son practicamente

similares y los puntos detectados coinciden correctamente con las esquinas del objeto. Las Figs.

2.3.b-d presentan una version rotada y escalada del mismo objeto, esta vez afectado por una

cantidad muy significativa de ruido. En estas condiciones mucho mas agresivas, los resultados de

los tres metodos comienzan a diferir. En particular, el CHM pierde algunas esquinas situadas a

la derecha del objeto y devuelve falsas detecciones en las zonas mas distorsionadas por el ruido.

El CHM detecta todas las esquinas, pero produce una falsa deteccion debido al ruido. El metodo

propuesto, sin embargo, ademas de devolver todas las esquinas, no produce falsas detecciones.

A efectos de evaluar de forma objetiva los resultados de este experimento, se usan dos criterios

distintos. El error cuadratico integral (ISE) es una de las medidas mas extendidas y se calcula

como:

ISE =N∑0

(di)2 (2.7)

donde N es la longitud del contorno en pixels y di es la distancia entre los puntos reales del

contorno y la aproximacion poligonal resultante a partir de los puntos detectados. Si bien esta

medida es representativa para detectar si se pierden esquinas o se ubican de forma incorrecta,

es inmediato apreciar que en contornos ruidosos el ISE disminuye incluso cuando todas las

esquinas se han detectado de forma correcta. Ademas, se pondera positivamente el que los

objetos tengan un numero de esquinas elevado, por lo que en objetos con curvas el ISE puede no

resultar representativo. Si bien en este ejemplo se ha usado un objeto sin curvas para evitar este


Figura 2.3: Comparativa entre detectores de esquinas: a) Contorno 1 y esquinas detectadas conlos metodos CHM, AECF y propuesto ; b) contorno 2 y esquinas detectadas con el metodo CHM(k = 6); c)contorno 2 y esquinas detectadas con el metodo AECF; y d) contorno 2 y esquinasdetectadas con el metodo propuesto

problema, se usa una segunda medida que se conoce como Merito, propuesta por Rosin (Rosin,

1996), que combina una medida de eficiencia E y una de fidelidad F :

Merito =√

EF =

√ISEopt ·Mopt

ISEaprox ·Maprox(2.8)

donde ISEopt e ISEaprox representan, respectivamente, el ISE de la aproximacion poligonal

optima y el de la construida con las esquinas obtenidas. Mopt y Mapprox equivalen al numero

de lados de los poligonos resultantes en ambos casos. En este experimento, se ha usado como

aproximacion poligonal optima el metodo de Perez y Vidal (Perez y Vidal, 1994). La tabla 2.1

presenta las medidas correpondientes a la figura para los ejemplos presentados. Puede observarse

que para la letra de la Fig. 2.3.a, el mayor ISE corresponde a la AECF. Las pequenas variaciones

que aparecen en el ISE se deben a que las esquinas inferiores de la letra estan redondeadas y,

por tanto, las esquinas se desplazan levemente de un metodo a otro. En este caso, la medida no


ISE contorno 1 Merito contorno 1 ISE contorno 2 Merito contorno 2CHM 194.84 98.9 1008.7 30.1AECF 200.39 97.5 234.84 65.9

Funcion propuesta 193.63 99.2 231.73 70.4

Tabla 2.1: Comparativa de diversos detectores de esquinas

es excesivamente representativa, ya que en las areas redondeadas la posicion de una esquina es

difıcil de determinar con precision. Acudiendo, por tanto, al Merito, se aprecia que en este caso el

metodo propuesto sale ganando ligeramente. No obstante, la diferencia con respecto al CHM no

es significativa, ya que en este caso sencillo los tres metodos se comportan bien y, por tanto, tanto

su ISE como su Merito es muy elevado. Las diferencias comienzan a hacerse notorias cuando

el objeto esta distorsionado (Figs. 2.3.b-d). Tal como se habıa comentado antes, en presencia

de ruido los metodos que producen falsas detecciones tienen un ISE muy superior al resto, ya

que aproximan el contorno con un mayor numero de lados. Ası, el CHM que, visualmente, es

claramente el peor de los tres metodos, presenta un ISE muy alto a pesar de devolver cuatro

falsas detecciones y dos esquinas perdidas. El ISE baja significativamente para el AECF, ya que

en este caso solo se produce una falsa deteccion que, sin embargo, justifica que sea ligeramente

superior al propuesto, donde se detectan las unicamente las esquinas correctas. El Merito, que

por su propia definicion es mas fiable en estos casos, muestra no obstante como el metodo

propuesto es significativamente mejor que el resto.

Es asimismo necesario resaltar que solo algunos metodos (Bandera et al., 2000a) (Urdiales

et al., 2003) preservan informacion sobre las esquinas que permite distinguir entre dos situadas

en posiciones similares a efectos de reconocimiento. Tal como se comento, la funcion propuesta

permite reconstruir el contorno, lo que demuestra que preserva toda la informacion relevante.

Es por ello que en esta tesis se propone detectar las esquinas mediante la umbralizacion de la

funcion de curvatura adaptativa propuesta en el apartado anterior.

3.3. Representacion de objetos mediante Componentes Principales de su cur-vatura

Tal como se ha mencionado anteriormente, las funciones de curvatura se van a representar

mediante sus transformadas de Fourier ||CFFFT||s de longitud N . El conjunto de todas las

posibles ||CFFFT||s de figuras planas S es un subconjunto del espacio vectorial RN . A partir de

su definicion y de las propiedades de los contornos cerrados de figuras planas podemos deducir

algunas de las propiedades topologicas del conjunto S:


El conjunto S es un conjunto continuo. Si se toma el contorno de una figura plana

cualquiera de longitud fija N0, se puede tomar un conjunto de contornos de figuras planas

obtenidas por deformaciones continuas de la primera figura. Este subconjunto del conjunto

de todas las figuras planas es un subconjunto continuo y abierto. La aplicacion que hace

corresponder a cada contorno cerrado el modulo de su transformada discreta de Fourier es

continua por definicion. El conjunto imagen de una aplicacion continua sobre un abierto

continuo es a su vez un conjunto abierto y continuo Por lo tanto S es continuo.

El conjunto S es conexo. Todo contorno de una figura plana se puede obtener mediante

la deformacion continua de cualquier otro contorno, por lo tanto el conjunto de todos los

posibles contornos cerrados es conexo. Como la aplicacion que hace corresponder a cada

contorno cerrado el modulo de su transformada discreta de Fourier es continua, el conjunto

S debe ser tambien conexo.

Existe una familia de cartas inyectivas de S. Si se supone un contorno inicial y un conjunto

de deformaciones del mismo que se puede obtener mediante la variacion de un conjunto

de parametros xα, entonces el conjunto imagen de la aplicacion definida por xα, al que se

denominara Sα es un subconjunto abierto de S. En ese caso xα es una carta de Sα. Si se

toma un conjunto de cartas x tal que la union de sus conjuntos imagen coincide con S,

entonces x es una familia de cartas de S

Dada una pareja de cartas xα y xβ del conjunto de todas las posibles ||CFFFT||s, si la

interseccion de sus imagenes Sα⋂

Sβ no es el conjunto vacıo, entonces existe una apli-

cacion diferenciable que relaciona xα y xβ para todo elemento que pertenezca a la inter-

seccion de las imagenes. Es decir si un cierto subconjunto abierto del conjunto S se puede

parametrizar mediante dos cartas distintas, entonces sus propiedades topologicas son las

mismas independientemente de que carta se escoja.

Un conjunto que cumple las propiedades anteriores es una variedad riemanniana (do

Carmo, 1990). En concreto, el conjunto de todas las posibles ||CFFFT||s de contornos de figuras

planas S es una variedad riemanniana incluida en el espacio vectorial euclıdeo RN de todas

las posibles funciones discretas de longitud N . Para que el subconjunto S de RN se pudiera

considerar un espacio vectorial serıa necesario definir una operacion suma y una operacion

producto interiores a S y que cumplieran una serie de propiedades. Se puede definir la suma

como la suma vectorial en RN . Sin embargo, dada una pareja de ||CFFFT||s de S, su suma

vectorial sera en general una funcion discreta de longitud N que no tiene por que corresponder

al modulo de la transformada de Fourier de un contorno cerrado. Por lo tanto la suma vectorial


no es una operacion cerrada en el conjunto S de todas las posibles ||CFFFT||s de figuras planas,

luego S no es un espacio vectorial.

Teniendo en cuenta que el objetivo es caracterizar los contornos planos mediante vectores

de caracterısticas y evaluar el parecido entre los mismos, se necesita definir una metrica de la

variedad riemanniana {S,x} de las ||CFFFT||s de figuras planas. En una variedad riemanniana

se puede definir una metrica natural en la cual la distancia entre cada dos puntos sea igual a

la longitud de una geodesica interior a la variedad (do Carmo, 1990). Para poder asignar una

distancia entre dos puntos cualesquiera es necesario calcular primero la geodesica optima que los

une. Este procedimiento es excesivamente costoso en tiempo de computacion. Para poder realizar

los calculos de distancias de una forma mas comoda convendrıa poder definir los elementos de S

como vectores de un espacio euclıdeo. Como todos los elementos de S pertenecen tambien a RN ,

se podrıa tomar como vectores de caracterısticas los vectores que representan a las ||CFFFT||sen este espacio. Sin embargo, aunque no se conozca la topologıa de S, es lıcito suponer que su

dimension intrınseca sea menor que N , por lo tanto serıa deseable encontrar una base de un

espacio vectorial de dimension menor que N que represente correctamente los elementos de S.

Para ello se van a hacer las siguientes suposiciones:

Las transformadas de Fourier presentan tıpicamente informacion redundante, luego se

puede suponer que la dimension intrınseca de S es mucho menor que N

Los elementos de la variedad {S,x} se pueden proyectar sobre un espacio vectorial de

dimension P , con P ≤ N , que sera un subespacio del espacio vectorial RN . Si S no

esta incluido en RP entonces se cometera un error de representacion al despreciar las

componentes de S exteriores al subespacio RP .

No se pueden generar todos los posibles contornos de figuras planas para encontrar el sube-

spacio RP optimo sobre el que proyectarlas, pero se puede suponer que dado un conjunto

limitado de M figuras planas, exigiendo que contenga figuras suficientemente variadas,

si encontramos una base de un subespacio RP tal que el error cometido en la proyec-

cion respecto de las ||CFFFT||s de las figuras originales sea suficientemente pequeno, esta

base sera valida para hacer una representacion de los elementos del conjunto S mediante

vectores de caracterısticas de longitud P .

El hecho de que se cometa un error apreciable en la representacion de figuras planas no

incluidas en el subconjunto utilizado para calcular la base indica que la dimension del

subespacio RP es demasiado pequena para proporcionar una representacion valida de S.

En efecto, si la base calculada para representar un subconjunto de figuras planas es una


base ortogonal, el error cometido en la representacion de cualquier figura no incluida en el

subconjunto inicial indicara que la figura propuesta contiene una componente adicional en

una direccion ortogonal a todas las de la base propuesta. Esto indicarıa que el subespacio

de todas las figuras planas tiene una dimension superior a la del subconjunto elegido.

Por lo tanto, el subconjunto elegido no serıa el mas adecuado para crear una base de

representacion generica.

Partiendo de estos supuestos, nuestro objetivo es encontrar un subespacio RP de RN de

la mınima dimension necesaria para representar a todos los contornos de figuras planas. Una base

del subespacio vectorial RP debe estar alineada con las direcciones principales de la variedad

{S,x} para que el error de representacion sea mınimo. El conjunto de figuras a partir del cual

calcularemos una base del subespacio RP es necesariamente limitado, pero lo consideraremos

suficientemente variado en el sentido anteriormente definido. Para este fin utilizaremos la tecnica

de Analisis de Componentes Principales (PCA, Principal Components Analysis). El metodo de

analisis por Componentes principales es una tecnica muy conocida para la reduccion dimensional

de conjuntos de datos extensos. Tiene muchas aplicaciones en compresion de informacion, analisis

de series temporales, procesado del lenguaje y reconocimiento de patrones (Startchik et al., 1998).

La mejor aproximacion de la proyeccion de un conjunto de ||CFFFT||s sobre un sube-

spacio vectorial de dimension P es la que se obtiene mediante las P Componentes Principales

asociadas a los P mayores autovalores de su matriz de autocorrelacion (Sirovich y Everson, 1992).

Los autovectores correspondientes a estos P autovalores forman una base ortogonal del subespa-

cio. Cada contorno correspondiente a una figura plana se puede representar en este subespacio

como un vector al que consideraremos su vector de caracterısticas (FV - Feature Vector).

Sea un conjunto de M FCs de longitud N0, obtenidas de un conjunto de M figuras planas.

Consideraremos sus ||CFFFT||s como vectores de longitud N = N0/2 + 1 . Este conjunto de

vectores,{−−→

Xm

}M

m=1, se puede representar como:

−→Xm =

N−1∑i=0

xim−→δi , (2.9)

siendo xim el i-esimo coeficiente de la m-esima ||CFFFT|| y−→δi una delta de Dirac centrada en

el punto i. Entonces el conjunto{−→

δi

}N

i=1es una base del espacio vectorial de dimension N que

contiene a todas las ||CFFFT||s de longitud N .


Para aproximar las ||CFFFT||s mediante solo P componentes, es necesario calcular una

base del subespacio de dimension P ,{−→

φk

}P

k=1tal que:

−→Xi=

P∑k=1

βik−→φ k, (2.10)

siendo βik los coeficientes aun desconocidos. La optimalidad de la base requerida se puede

cuantificar como el error cuadratico medio ε2 cometido en la representacion respecto de los

valores originales de los vectores{−−→

Xm

}M

m=1:

ε2 =1M

M∑i=1

∣∣∣∣∣∣−→Xi −P∑

j=1

βij−→φ j

∣∣∣∣∣∣2

(2.11)

Si la base es optima, su error asociado ε2 debe ser mınimo. En (Sirovich y Everson, 1992) se

demuestra que ε2 es mınimo si los P vectores{−→

φk

}P

k=1son los extraidos del conjunto de N

autovectores de la matriz de autocorrelacion de{−−→

Xm

}M

m=1, C:

C =1M

M∑i=1

−→Xi−→Xi

T (2.12)

donde T representa la operacion de transposicion vectorial. Los N autovectores{−→

φk

}N

k=1y

autovalores {λk}Nk=1 of C son las soluciones de:

C ·−→φ k = λk

−→φ k k = 1, ...n (2.13)

Si se ordenan los autovalores en orden decreciente, λ1 > λ2 > ... > λN y se representan los

autovectores correspondientes a estos autovectores como−→φ 1,

−→φ 2, ...

−→φ N , entonces el conjunto de

los P (P ≤ N) primeros autovectores es una base ortogonal del subespacio de dimension P en

el espacio vectorial original de dimension N . La proyeccion sobre este espacio de dimension P

de cada ||CFFFT|| del conjunto inicial,−→Xi, se puede representar como:

−→βi = [βi1, ...βij ...βiP ] (2.14)

donde βij es la j-esima Componente Principal de−→Xi y viene dada por:

βik = λ−1j (

−→φj

T−→X i) (2.15)

Por lo tanto la Componente Principal βij es un escalar que representa la norma del vector−→Xi

proyectado sobre el autovector−→φj .

Consecuentemente, la mejor aproximacion a los M vectores−→Xi del conjunto inicial se

obtiene mediante las P Componentes Principales asociadas a sus P mayores autovalores. Estas


P componentes forman una base ortogonal de un subespacio vectorial del espacio de todas

las posibles funciones reales y discretas de longitud N que contiene a las M ||CFFFT||s del

conjunto inicial salvo un error de representacion ε2. El nivel de error tolerable se puede ajustar

incluyendo mas o menos autovectores en la base, es decir, eligiendo una dimension adecuada

para el subespacio.

Si el conjunto inicial de M figuras es suficientemente variado, la base compuesta por los

vectores{−→

φk

}P

k=1se podra usar ademas para representar ||CFFFT||s de figuras inicialmente no

incluidas (−→βi). Dada una figura nueva, su vector asociado

−→X se obtiene proyectando su ||CFDFT||

sobre cada uno de los vectores de la base ortogonal propuesta. Ası, cada figura plana se puede

representar mediante un vector de caracterısticas−→Xi de dimension P . Este presenta al menos la

misma robustez frente a ruido y transformaciones que su correspondiente funcion de curvatura.

Para evaluar el error cometido al representar una figura no incluida en el conjunto inicial

utilizamos de nuevo la medida de ε2. En este caso, una figura generica viene representada por

un vector−→Y de dimension N que procede del calculo de su ||CFFFT|| y responde a la expresion

generica:

−→Y =

N−1∑i=0

yi−→δi , (2.16)

La optimalidad de su aproximacion mediante el vector de caracterısticas propuesto se puede

evaluar como:

ε2 =

∣∣∣∣∣∣−→Y −P∑

j=1

ϕj−→φ j

∣∣∣∣∣∣2

(2.17)

Siendo ϕj la proyeccion de−→Y sobre el autovector

−→φ j

Al contrario de lo que sucede con el error de representacion de las figuras del conjunto

inicial, el error cometido en la representacion de una figura generica no esta necesariamente

acotado a un valor maximo segun el numero de Componentes Principales escogido para la

representacion. En este caso el error depende ademas de la correlacion entre la ||CFFFT|| de

la nueva figura y las ||CFFFT||s de las figuras que componen el conjunto inicial. De aquı la

necesidad de incluir tantos elementos distintos como sea posible en el conjunto inicial.

La base ası obtenida es la base de un espacio vectorial sobre el que se proyecta la variedad

riemanniana S que contiene a todas las ||CFFFT||s de siluetas de figuras planas. En principio,

S es una variedad continua y conexa. Esto quiere decir que a figuras parecidas deben corre-

sponder puntos cercanos sobre la variedad. Sin embargo, si proyectamos una variedad sobre un


espacio vectorial cabe la posibilidad de que puntos lejanos sobre la variedad sean cercanos en el

espacio vectorial. Este hecho podrıa dificultar notablemente la tarea de clasificacion a partir de

vectores de caracterısticas, porque a figuras eventualmente muy distintas podrıan corresponder

puntos muy cercanos en el espacio, de modo que la separacion en clases del mismo las harıa

indistinguibles. Esto ocurre basicamente en dos casos:

1. Si la dimension intrınseca de la variedad S es igual a la dimension del espacio sobre el

que se proyecta pero la curvatura de S es muy pronunciada. En la Fig. 2.4 se muestra

un ejemplo de este caso. Por claridad en la representacion se ha escogido una variedad de

dimension intrınseca igual a 1 y se proyecta sobre una recta (Fig. 2.4.a). Los puntos A, B

y C estan colocados a intervalos regulares sobre S. Se puede observar como el pliegue en la

variedad hace que los puntos A y C parezcan mas cercanos entre sı que A y B cuando son

proyectados sobre la recta r que simula el espacio vectorial de representacion de dimension

1. Una posible solucion serıa aumentar la dimension del espacio de representacion de modo

que se pueda reflejar la diferencia entre A y C (Fig. 2.4.b)

Figura 2.4: a) Variedad de dimension 1 extendida; y b) variedad de dimension 1 plegada

2. Si la dimension del espacio de representacion es menor que la dimension intrınseca de

la variedad S, la proyeccion sobre el espacio vectorial se puede hacer a costa de perder

informacion. Si, por ejemplo, la variedad S es una superficie alabeada, y por tanto presenta

dimension intrınseca igual a 2, una proyeccion de S sobre una recta podrıa no ser valida

para la clasificacion de puntos pertenecientes a S. Este problema se puede solucionar

facilmente sin mas que aumentar la dimension del espacio vectorial a 2. Hay que destacar

tambien que no siempre es imprescindible que el espacio vectorial de representacion sea de

4. Resultados y experimentos 33

dimension igual o superior a la variedad S. Por ejemplo, una variedad que tuviera forma

de banda alargada tendrıa una dimension intrınseca igual a 2 pero su proyeccion sobre un

espacio de dimension 1 serıa suficiente, en general, con fines de clasificacion.

4. Resultados y experimentos

Hasta el momento, se han propuesto tres metodos distintos para representar un objeto

plano a partir de su forma: funcion de curvatura adaptativa, esquinas extraıdas a partir de esta

y proyeccion sobre las Componentes Principales de la transformada rapida de Fourier de dicha

funcion. Todos los metodos de representacion tienen sus pros y sus contras y, para evaluarlos,

es necesario establecer una metodologıa especıfica. Ya que el objetivo de esta tesis es el re-

conocimiento de objetos, se va a proceder a desarrollar los tres metodos para reconocimiento de

objetos planos a fin de evaluar cual es el mas apropiado como metodo de representacion. Para

ello, se va a hacer uso de algunas bases de datos propias y otras publicas a efectos de que puedan

compararse los resultados propuestos con otros metodos en igualdad de condiciones. Las bases

de datos empleadas son las siguientes:

1. Un conjunto reducido de 6 figuran geometricas simples cedido por los autores de (Chang

y Chen, 2000) a efectos comparativos (Fig. 2.5.a).

2. Un conjunto que incluye las 6 figuras del conjunto anterior junto con 14 deformaciones

de cada una hasta un total de 90 figuras. Las deformaciones se han creado utilizando un

software de tratamiento de imagenes e incluyen deformaciones por cambio de escala, pers-

pectiva, proyeccion esferica, cizalladura, ligeras oclusiones y algunas otras deformaciones

no lineales (Fig. 2.5.b).

3. Un juego de 24 caracteres alfabeticos mas 10 caracteres numericos, extraıdos de moldes de

matrıculas de coche espanolas. (Fig. 2.6.a).

4. El juego de caracteres anterior en el que se han incluido 30 ejemplos de cada caracter

hasta un total de 1020 figuras. Estos caracteres han sido obtenidos de imagenes reales

tomadas de matrıculas de coches, de modo que presentan ruido, sombras, deformacion por

perspectiva y errores de segmentacion en mayor o menor medida (Fig. 2.6.b).

5. Un conjunto de anagramas extraıdos de 27 senales de trafico. Este conjunto presenta formas

muy variadas, pero no incluye deformaciones ni ruido (Fig. 2.7.a).


Figura 2.5: a) Conjunto de 6 figuras geometricas; y b) ejemplo de 15 deformaciones de una deellas

Figura 2.6: a) Conjunto de 34 caracteres tomados de matrıculas de coches; y b) ejemplo de 30versiones de un caracter


Figura 2.7: a) Conjunto de 27 anagramas de senales de trafico: y b) ejemplos de deformacionesaplicadas al conjunto anterior

6. El conjunto de anagramas anterior incluyendo entre 3 y 5 versiones deformadas de ca-

da uno. Entre las deformaciones se pueden encontrar efectos de perspectiva, rotaciones,

cambios de escala o ruido (Fig. 2.7.b).

7. Un base de datos publica que presenta 1100 contornos distintos de peces y otro ani-

males marinos 1. Estos contornos no presentan distorsiones, pero varios contornos dis-

tintos pueden pertenecer al mismo tipo de pez. Esta base de datos fue la presentada en

(Mokhtarian y Mackworth, 1986) para ilustrar el metodo de indexado basado en CSS.

Algunos ejemplos de estas siluetas se muestran en la Fig. 2.8.

8. Un conjunto de figuras compuesto por figuras planas tomadas de imagenes sinteticas y

reales de objetos tridimensionales desde distintos puntos de vista. En este caso se han

incluido siluetas de objetos comunes. Algunas de estas siluetas se muestran en la Fig. 2.9.

4.1. Reconocimiento basado en curvatura

4.1.1. Metodo de reconocimiento y metrica

La forma mas intuitiva de reconocer objetos utilizando la funcion de curvatura (FC)

es emplearla en sı como descriptor. En este caso, para comparar dos objetos unicamente es

necesario comparar sus FCs (Bandera et al., 2000a). Sin embargo, a efectos de hacer el proceso

de reconocimiento invariante a transformaciones en la medida de lo posible, es necesario recordar1http://www.ee.surrey.ac.uk/Research/VSSP/imagedb/demo.html


Figura 2.8: Ejemplos de siluetas de prueba del conjunto de siluetas de peces (Mokhtarian yMackworth, 1986)

Figura 2.9: Ejemplos de siluetas de prueba del conjunto de objetos tridimensionales


que el tamano de la FC depende del numero de puntos del contorno y que las rotaciones provocan

desplazamientos en la funcion. Ası pues, resulta necesario diezmar o interpolar las funciones a

un tamano fijo, mientras que el efecto de las rotaciones obliga a usar una medida de similitud

que tenga en cuenta los desplazamientos, quedando excluidas distancias clasicas entre funciones

como los mınimos cuadrados. Una medida circular que tiene en cuenta este comportamiento

cıclico es, por ejemplo, la correlacion circular, en concreto, el maximo de esta:

max = maximo0≤i≤TamF−1(TamF−1∑

j=0

x(j) · y((j + i)modTamF )) (2.18)

donde max es el ındice de similitud, TamF es el tamano de las funciones de curvatura norma-

lizadas, y x(i) e y(i) son las funciones de curvatura a comparar.

La Fig. 2.10.c muestra la correlacion entre las FCs de las Figs. 2.10.a y 2.10.b. En este

caso en particular se puede apreciar como el maximo esta cercano a la unidad, ya que los

objetos comparados son muy similares. Para acelerar el proceso de correlacion, esta se efectua

en el dominio de Fourier, donde se transforma en un producto. A este efecto, cabe usar la

transformada rapida de Fourier (FFT), para lo que el tamano de normalizacion de las funciones

de curvatura se debe fijar en un multiplo de 2 (generalmente, 256 o 512). Ası, el valor del ındice

de similitud sera:

max = maximo0≤i≤TamF−1(IFFT [FFT [x(i)] · FFT [y(i)]]) (2.19)

donde max es el ındice de similitud, TamF es el tamano de las FFTs de las funciones de

curvatura, y x(i) e y(i) las funciones de curvatura.

4.1.2. Resultados

La Fig. 2.11 muestra diversas figuras reconocidas mediante el proceso descrito. Como

puede observarse, el mencionado proceso es resistente a ruido y transformaciones geometricas

como rotaciones, traslaciones y escala. Sin embargo, en tanto que se evalua la FC completa

como un todo, este proceso presenta inestabilidades con respecto a distorsiones y a elementos

que varıen la forma global del objeto, como por ejemplo, oclusiones parciales. Para evitar este

problema es necesario emplear criterios de reconocimiento mas complejos como se observa en

los subapartados siguientes.


Figura 2.10: a-b) Vistas rotadas del mismo objeto; c-d) funciones de curvatura; y e) correlacioncircular de c-d) y su maximo valor.

4.2. Reconocimiento basado en puntos caracterısticos

4.2.1. Metodo de reconocimiento

El problema del reconocimiento basado en puntos caracterısticos puede plantearse de

la forma siguiente. Sea x = [x0,x1, ...,xN] un vector de dimension N donde xi corresponde

al i-esimo punto caracterıstico de una forma y Q = {q0,q1, ...,qM} un conjunto de M clases

que corresponden a objetos conocidos. El reconocimiento consiste en establecer una metodologıa

que permita determinar el grado de pertenencia de x a cada una de las clases de Q a efectos de

identificar el objeto como aquel entre los conocidos al que mas se parece. Es igualmente posible

fijar un grado de pertenencia mınimo por debajo del cual se considera que el objeto de entrada

es desconocido. En estos casos, bien el objeto se incluye como una clase nueva, bien se descarta


Figura 2.11: Objetos reconocidos mediante correlacion: a-d) clase 1; e-h) clase 2; i-l) clase 3; ym-p) clase 4.

como desconocido, catalogandose los algoritmos como sistemas con aprendizaje o con rechazo

respectivamente.

El metodo mas facil para resolver si el objeto x pertenece a una clase cualquiera qi

es definir una metrica y calcular la distancia entre x y el prototipo de qi . Sin embargo, la

mencionada metrica no puede establecerse de forma sencilla en cuanto x y qi tengan un tamano

distinto. Naturalmente, los vectores relacionados con objetos diferentes tendran como dimension

el numero de puntos caracterısticos que presenten los objetos correspondientes que, no solo no

tiene que coincidir para distintos objetos sino que incluso puede variar en versiones transformadas

y distorsionadas de un mismo objeto. Para resolver este problema, algunos metodos se basan

en morphing o correspondencia de grafos (Amit et al., 1997) (Singh, 1996). Si los resultados

no son satisfactorios, puede recurrirse a hacer los procesos iterativos, pero esta medida tambien

los hace computacionalmente costosos y, caso de presentar un objeto distorsiones severas, se ha

expuesto que estos procesos suelen no converger. Alternativamente, puede recurrirse a metodos

estadısticos para comparar dos vectores, donde la probabilidad de x de pertenecer a la clase qi

se define mediante la regla de Bayes como:

P (qi|x) =p(x|qi)P(qi)

P(x)=

p(x|qi)P(qi)∑j p(x|qj)P(qj)

(2.20)

donde P (qi) es la probabilidad previa de pertenecer a qi y p(x|qi) es la probabilidad condicionada

a la clase. Para acumular probabilidad cada vez que se evalua un punto caracterıstico cuando se


Figura 2.12: Parametros de caracterizacion de una esquina

evaluan vectores de distinta dimension, hay que trabajar con la probabilidad de que el objeto

pertenezca a la clase qi cuando presenta el punto xj (P (qi|xj)). Los modelos Bayesianos simples

no permiten aprovechar la secuencialidad en la aparicion de los puntos caracterısticos de una

forma y, por ello, en estos casos se recurre a procesos de Markov (Taylor y Karlin, 1994). El

principal problema de los procesos simples de Markov es que no permiten que un elemento

determinado pueda aparecer en dos objetos distintos. Dado que este sera el caso habitual en las

formas planas, en estas situaciones se opta por Modelos Ocultos de Markov (MOM), donde se

incluye una capa oculta que contiene los distintos estados del sistema (Rabiner, 1989).

4.2.2. Caracterizacion de puntos

Para determinar si dos puntos caracterısticos son iguales, es necesario caracterizarlos

de algun modo. En principio, en una secuencia de N esquinas Cx = (C1x, C2x, ..., CNx), cada

una puede caracterizarse usando distintos rasgos. El mas simple es, naturalmente, su posicion

(x, y) en la imagen, pero esta posicion es extremadamente variable frente a transformaciones

y distorsiones. Usando la informacion que incluye la funcion de curvatura (FC) propuesta, se

puede caracterizar una esquina i con los parametros que aparecen en la Fig. 2.12, que son: i)

el angulo que subtiende la esquina (Cφix), que se calcula como la integral de la FC entre dos

cruces por cero consecutivos antes y despues de Cix; y ii) la longitud de contorno (Crix) entre Cix

y C(i+1)x. Estos parametros son invariantes a rotacion y traslacion y, si las FC se normalizan

previamente, tambien a escala. Tal como se comento en el apartado correspondiente, la FC

propuesta es igualmente resistente al ruido, por lo que los parametros escogidos son bastante

estables. Es importante notar que estos parametros no van referidos a ningun punto especıfico

del objeto, usualmente el centroide (Chang y Chen, 2000) (Zhu y Chirlian, 1995), por lo que

las deformaciones, si bien pueden hacer aparecer o desaparecer algunas esquinas, no variaran

significativamente el resto.


4.2.3. Construccion del MOM

Tal como se ha comentado en el subapartado anterior, los puntos caracterısticos de una

forma estan sujetos a las distorsiones que esta pueda presentar. Para conseguir resistencia frente

a estas, ası como para comparar objetos con un numero de puntos caracterısticos potencialmente

distinto, se va a utilizar un Modelo Oculto de Markov (MOM) (Rabiner, 1989) cuyos estados

ocultos estan asociados a Cφix y Crix. La estructura de un MOM para un prototipo cualquiera

p se extrae de su secuencia de esquinas Cp evaluadas en el sentido de las agujas del reloj. Cada

MOM presenta los siguientes elementos:

Un conjunto M de estados ocultos H = {H1,H2, ...,H i,HM}. Estos estados no correspon-

den a ningun prototipo en particular sino que caracterizan esquinas aisladas que pueden

presentarse en diversos objetos. Para obtener los estados ocultos, todas las esquinas de

todos los objetos a analizar se almacenan en coordenadas polares, siendo el modulo y fase

de una esquina Cip en el prototipo p iguales a Crip y Cφip, respectivamente. Sobre este

conjunto se aplica un algoritmo de agrupacion K-medias (Hartigan, 1979) para dividir las

esquinas en M clases en funcion de Crip y Cφip. Se ha observado que el modulo de las

esquinas es mas estable frente a deformaciones y ruido que la fase y, por tanto, utilizamos

como distancia en el K-medias un factor que pondera el modulo frente a la mencionada

fase:

D2(Cip, Cjq) = d2(Cip, Cjq) +cos2θsin2θ

(Crip − Crjq)2 (2.21)

donde Cip es la esquina i-esima del prototipo p y Cjq es la esquina j-esima del prototipo q,

D(Cip, Cjq) es la distancia propuesta y d(Cip, Cjq) es la distancia Euclidea entre Cip y Cjq.

Los pesos relativos de modulo y fase pueden controlarse fijando heurısticamente el valor

de θ. Los M prototipos {H1,H2, ...,HM} de las clases resultantes son los estados ocultos

del sistema.

Una distribucion inicial de probabilidad Πp = (π1, π2, ..., πi, ..., πM ). Para cada prototipo de

objeto conocido debe calcularse un vector Πp. Cada coeficiente πi del vector de distribucion

de probabilidad inicial representa la probabilidad de aparicion del estado oculto H i en la

esquina inicial C1p del prototipo p.

Una matriz de transicion Ap para cada prototipo conocido. Cada coeficiente Apij de la

matriz Ap representa la probabilidad de transicion del estado oculto H i al Hj siguiendo

la secuencia de esquinas del prototipo p. Estas probabilidades se obtienen mediante el

algoritmo de Baum-Welch (Rabiner, 1989).


Una matriz de probabilidad de distribucion de la observacion Bp de dimension MxN ,

donde N es el numero de esquinas del prototipo p. Cada coeficiente Bpij es igual a la

probabilidad de la esquina Cip del prototipo p de encontrarse en el estado oculto Hj . Para

calcular un coeficiente Bpij cualquiera, se usa una distribucion gaussiana sobre la distancia

D entre la esquina observada Cip y el estado oculto Hj :

Bpij =

1√2πσ

e[− 1√

2πσk2

ij ] (2.22)

siendo kij un ındice entre 0 y N−1 que depende de la distancia D entre Cip y Hj , y siendo

σ la desviacion estandar de la distribucion gaussiana. σ se calcula de forma que solo las

esquinas mas cercanas a la estudiada tengan una aportacion significativa. Ası, el proceso

es mas resistente a perdidas y apariciones de esquinas o a errores de caracterizacion de

estas.

4.2.4. Metrica

Una vez que se dispone de una observacion consistente en una secuencia de N esquinas

Cx = (C1x, C2x, ..., Cnx) para un objeto x, se calcula su matriz Bx al igual que previamente se

calcularon las de los prototipos. Cada coeficiente Bxij da la probabilidad de la esquina Cix de la

secuencia observada Cx de encontrarse en el estado oculto Hj . Dado que no pueden observarse

directamente los estados ocultos, se asume que la secuencia Cx se puede generar a partir de

cualquier secuencia de estados ocultos S = (S1, S2, ..., SN ). Cada estado Si de S pertenece a los

estados ocultos H y, por tanto, aparecen MN secuencias viables. La probabilidad P (Cx, S|p) de

la secuencia Cx de pertenecer a un prototipo p se calcula como:

P (Cx, S|p) = P (Cx|S)P (S|p) (2.23)

= πS1BxC1xS1

AxS1S2

BxC2xS2

AxS2S3

...BxCN−1xSN−1

AxSN−1SN

BxCNxSN

Ası, la probabilidad P (Cx|p) de la secuencia Cx de ser p, independientemente del estado oculto

generado, es igual a la suma de P (Cx, S|p) para todas las secuencias viables:

P (Cx|p) =∑all S

P (Cx|S)P (S|p) (2.24)

Este calculo se lleva a cabo de forma iterativa, pero se mantiene una carga computacional

reducida utilizando el metodo Forward-Backward, como se sugiere en (Rabiner, 1989).


Puede observarse que cada vez que se pierde, gana o distorsiona severamente una esquina,

la probabilidad del objeto de ser reconocido disminuye pero, en tanto que estos errores no

aproximen al objeto a un segundo patron conocido, siempre sera mas probable identificarlo

correctamente o rechazarlo que generar un falso reconocimiento. Es interesante senalar que

este metodo devuelve todos los objetos conocidos que se parecen al observado en orden de

probabilidad descendiente de identificacion correcta. Por ello, ademas de para reconocer formas,

el proceso propuesto puede emplearse para extraccion cualitativa de elementos de bases de datos

(de Trazegnies et al., 2002).

4.2.5. Resultados

El metodo de reconocimiento basado en esquinas propuesto en este subapartado se ha

probado con las bases de datos publicas que se usan en este capıtulo. La Fig. 2.13 muestra

algunos ejemplos correspondientes a la base de letras. En la Fig. 2.13.a se muestran algunas

letras correctamente reconocidas, apareciendo a la izquierda los prototipos de las clases que,

como puede observarse, no estan sujetos a ruido ni a distorsiones y, por tanto, son relativamente

sencillos de reconocer. Si se anaden distintas deformaciones a estas letras despues de haber con-

struido los MOM, puede evaluarse la resistencia del metodo propuesto a dichas deformaciones

y, por tanto, la bondad de la funcion de curvatura propuesta para la caracterizacion de formas.

Puede observarse que las deformaciones incluyen perspectivas, abombamientos y cambios sig-

nificativos que, no obstante, permiten que las letras en la columna derecha de la Fig. 2.13.a se

reconozcan correctamente. Es de senalar que en caso de distorsiones extremas, el sistema puede

equivocarse, como se demostrara cuando se usen figuras mas complejas. La Fig. 2.13.b presenta

un segundo ejemplo donde se usa la base de datos anterior pero se le introducen caracteres de

matrıculas de automoviles sin y con errores. En este caso los errores aparecen como resultado de

fallos de segmentacion o desperfectos en las placas, ya que las matrıculas se han capturado de

imagenes reales. De nuevo, la mayorıa de los caracteres se reconocieron correctamente a pesar

de las distorsiones y errores.

En la Fig. 2.14 se muestra un ejemplo de como la probabilidad de ser un objeto determi-

nado va creciendo o decreciendo en funcion de las esquinas detectadas. La Fig. 2.14.a muestra el

prototipo de una letra E sin distorsiones del conjunto usado para crear los MOM. La Fig. 2.14.b

muestra distintas letras E extraıdas de placas de matrıculas reales y que presentan distintos

niveles de distorsion. La Fig. 2.14.c muestra como evoluciona la probabilidad de ser el patron E

para los objetos en la Fig. 2.14.b con cada esquina detectada. Puede observarse que la mayorıa de

ellos se identifican inmediatamente con la E apenas se estudia la segunda o tercera esquina. No


Figura 2.13: Patrones correctamente reconocidos: a) caracteres tipo letra; b) caracteres de placasde matrıculas.

ocurre ası en la segunda letra de la Fig. 2.14.b, donde las distorsiones varıan todas las relaciones

entre esquinas. Sin embargo, eventualmente el proceso se recupera de estos errores y reconoce

correctamente el objeto mas en funcion de la secuencialidad que de las esquinas detectadas. La

Fig. 2.15 muestra un ejemplo de reconocimiento incorrecto. El objeto de entrada (Fig. 2.15.a)

presenta una esquina adicional a la izquierda que lo asemeja mas, dada su distorsion, al pro-

totipo de la N que de la K. Ası, incluso despues de evaluar cuatro esquinas, el sistema sigue

convencido de estar estudiando una N distorsionada. Es importante notar, no obstante, que si

bien en terminos de curvatura los objetos son distintos, en terminos de esquinas caracterizadas

por el angulo que subtienden y la longitud de contorno entre ellas, ambos caracteres se parecen

mucho. Este hecho viene a resaltar la importancia de no prescindir del resto de la funcion de

curvatura en el reconocimiento independientemente de la precision con que se puedan localizar

sus esquinas.

Para comprobar la bondad de metodo propuesto y, por tanto, de la funcion de curvatura

para la caracterizacion de los puntos caracterısticos es interesante establecer una comparativa

con otros metodos (de Trazegnies et al., 2002). No existen demasiados trabajos sobre MOM

aplicado a secuencias de puntos caracterısticos, probablemente por la inestabilidad que muchos

metodos de deteccion presentan frente a ruido, transformaciones y distorsiones. No obstante,

en (Chang y Chen, 2000) los autores presentan un metodo de este tipo basado en deteccion

recursiva de esquinas y caracterizacion de estas mediante cuatro parametros, dos de ellos referidos


Figura 2.14: Reconocimiento de objetos distorsionados: a) prototipo y esquinas; b) caracteresde entrada y esquinas; c) evolucion de la probabilidad de ser el prototipo con cada esquinaevaluada.

Figura 2.15: Error de reconocimiento en objetos distorsionados: a) objeto de entrada y esquinas;b) prototipos de la letra K y la letra N y sus esquinas; c) evolucion de la probabilidad de sercada uno de los prototipos con cada esquina evaluada.


al centroide del objeto. Amablemente, los autores han cedido su base de datos para poder

establecer comparativas. Al igual que en sus trabajos, en esta comparativa se va a emplear una

medida de eficiencia denominada rango de extraccion, que se define como la media del ındice

de extraccion. Este ındice corresponde a su vez con el orden en que el prototipo correcto se

escoge al compararse con el patron de entrada, ya que, como se comento con anterioridad, los

MOM permiten ordenar los distintos patrones de la base de datos en probabilidad decreciente

de corresponder al objeto de entrada. Ası, cuanto mas cercano a 1 se encuentre este rango, mejor

es el proceso de reconocimiento. La Fig. 2.16 muestra un conjunto de patrones deformados de la

base de datos empleada en (Chang y Chen, 2000) y una lista de los seis prototipos mas parecidos

a cada uno. Es notorio el hecho de que el procedimiento propuesto soporta oclusiones moderadas.

Para testear mas aun la resistencia del sistema a distintos factores, se ha recurrido tambien a

escribir manualmente caracteres similares a los prototipos de la base de datos, segmentarlos y

alimentarlos al sistema. Los resultados se muestran en la Fig. 2.17. La Fig. 2.17.a muestra una

imagen original con caracteres de este tipo, mientras que la Fig. 2.17.b muestra los caracteres

ya segmentados. La Fig. 2.17.c muestra los prototipos que devuelve el sistema que, como puede

observarse, son correctos en tanto que la escritura siga las pautas generales de los prototipos

aprendidos.

Figura 2.16: Resultados de reconocimiento para conjunto de figuras geometricas: a) imagenesdeformada; b) lista de los elementos mas similares a cada uno de los propuestos.

En la tabla 2.2 se muestra el rango de extraccion para la base de datos geometrica

utilizada tanto para el metodo propuesto como para el que se presentaba en (Chang y Chen,


Figura 2.17: a) Imagen original; b) caracteres extraıdos y sus esquinas; c) prototipos reconocidosy sus esquinas.

2000). En ambos casos, el rango medio de ambos metodos es similar y el metodo propuesto,

descartando el hecho de ser mas rapido por la filosofıa de trabajo empleada, solo ofrece una

ligera ventaja en cuanto a resultados cuando se usa su base de datos, que resulta relativamente

sencilla. Sin embargo, el sistema propuesto ofrece una ventaja importante: los parametros con

que se caracteriza una esquina no estan referidos al centroide y, por tanto, son insensibles a

variaciones de este producidas, por ejemplo, por manchas, distorsiones puntuales o no lineales,

errores de segmentacion y oclusiones como las que se observan, por ejemplo, en la Fig. 2.13.b.

Forma Arbol Cruz Elipse Rectangulo Estrella Triangulo Media(Chang y Chen, 2000) 1.29 1.14 1.0 1.57 1.00 1.93 1.32

Metodo propuesto 1.00 1.29 1.07 1.50 1.00 1.86 1.29

Tabla 2.2: Rango de extraccion del metodo propuesto y el desarrollado en (Chang y Chen, 2000)para la base de datos geometrica

Finalmente, se van a efectuar tambien pruebas con una base de datos mucho mas compleja

y disponible publicamente que contiene en su mayorıa figuras de peces (de Trazegnies et al.,

2002). En la mayorıa de los casos y salvo distorsiones serias, tambien para esta base de datos

el sistema reconoce correctamente los objetos de entrada. Sin embargo, dado que se trabaja

con formas mucho mas complejas, resulta interesante incluir aquı en orden descendente el resto

de formas que, de acuerdo a la filosofıa de diseno, tienen parecido con el objeto de entrada.

Ello va a permitir apreciar cualitativamente que rasgos esta usando el sistema para reconocer

dicho objeto. En este caso se van a presentar los cuatro objetos mas parecidos al de entrada

independientemente de cual sea dicho parecido. Esto implica la posibilidad de que en algunos

casos se presenten objetos muy diferentes al de entrada simplemente porque ya no queda ninguno

similar. En todas las imagenes, la primera fila representa el mejor candidato que, salvo que se

mencione lo contrario, coincide con el objeto de entrada, y filas sucesivas presentan candidatos

cada vez menos probables. Ası, la Fig. 2.18 muestra un conjunto de peces que se reconocen


Figura 2.18: Ejemplos de reconocimiento para los peces de a) a e), situados, de arriba a abajoen orden decreciente de probabilidad.

correctamente y la segunda, tercera y cuarta opcion para cada uno de ellos. Puede observarse,

por ejemplo, que el lenguado de la Fig. 2.18.a tiene como segunda opcion a un pez mas estrecho,

por lo que al observador casual puede parecerle que la tercera opcion serıa mas indicada. Sin

embargo, es necesario recordar que no se esta usando informacion global de curvatura, sino

puntual sobre las esquinas. Ası, el sistema se basa mas en el parecido entre la cola de ambos

peces que en la forma de su contorno. En formas con mas esquinas (Fig. 2.18.b y c), este detalle

no influye tanto porque la mayor parte del contorno esta recogido en dichas esquinas. Incluso

en formas complicadas (Fig. 2.18.c) puede observarse que la segunda opcion guarda un parecido

significativo con el objeto de entrada incluso aunque no se trate del mismo pez.

Es importante indicar que el sistema propuesto, al basarse unicamente en dos parametros

de cada esquina, presenta, como se comento en experimentos anteriores, la desventaja de barajar

relativamente poca informacion a la hora de tomar decisiones. Esto puede observarse en la Fig.

2.19, donde se compara el metodo propuesto con uno basado en informacion global del contorno,

el CSS (Mokhtarian y Mackworth, 1986). Fig. 2.19.a muestra un ejemplo en que no hay ningun

objeto en la base de datos parecido al de entrada salvo el mismo, por lo que la segunda opcion

no es significativa. En estos casos, el metodo propuesto trabaja mejor que el CSS desde el punto

de vista del observador humano, ya que el segundo es incapaz de encontrar una forma global


Figura 2.19: Comparativa entre el metodo propuesto (HMM) y el metodo CSS para el re-conocimiento de peces de a) a d), situados, de arriba a abajo en orden decreciente de prob-abilidad.

adecuada que ajustar mientras que el metodo propuesto se conforma con que exista un parecido

residual en alguna parte del contorno. Aunque esto podrıa tomarse como una ventaja, la Fig.

2.19.b muestra que no lo es. Si dos formas distintas muestran un tramo de contorno similar, el

metodo propuesto las relaciona y, ası, en casos en que no es sencillo escoger un segundo candidato,

el metodo propuesto puede basarse en criterios tan erraticos como parecidos en la cola (Fig.

2.19.b), el morro (Fig. 2.19.c) o la aleta dorsal (Fig. 2.19.c), mientras que el CSS siempre busca

el mejor candidato desde un punto de vista global. Una vez mas, esto apoya la necesidad de

no descartar informacion de curvatura trabajando unicamente con puntos caracterısticos. Esta

obvia desventaja del metodo propuesto basado en esquinas se compensa en parte por su alta

resistencia a oclusiones parciales, como se muestra en la Fig. 2.20. Las oclusiones en esta figura

provocan la perdida de entre el 20 y el 50% de las esquinas pero, como un parecido parcial del

contorno es suficiente para una identificacion positiva, el sistema siempre escoge el candidato

correcto salvo en la Fig. 2.20.d. En este caso, el error se debe a que el tiburon de la segunda

fila de esa Fig. 2.19.d presenta la misma distribucion de esquinas que el pez de entrada salvo en

la cola que, en este caso en particular, esta ocluıda. El segundo candidato es, sin embargo, la

eleccion correcta.

Finalmente, la Fig. 2.21 presenta algunos ejemplos mas cuando se distorsionan los pa-


Figura 2.20: Ejemplos de reconocimiento para los peces de a) a d), que presentan oclusionparcial del contorno. Los resultados estan situados de arriba a abajo en orden decreciente deprobabilidad.

trones de entrada. La segunda fila de la figura muestra los patrones de la primera tras las

deformaciones, mientras que la tercera muestra los prototipos que devuelve el sistema en cada

caso. Puede observarse que los resultados son razonables desde el punto de vista humano incluso

cuando el objeto escogido se parece mas en cuanto esquinas al distorsionado que al original.

4.3. Reconocimiento por Componentes Principales de la Curvatura

4.3.1. Metodo de reconocimiento

Tal como se comento en el apartado correspondiente, la representacion por Componentes

Principales de la Curvatura se basa en asignar un vector de caracterısticas a cada forma. Dicho

vector debe ser resistente a ruido, transformaciones geometricas y distorsiones en la medida de

lo posible. Ademas, para ser representativo, es necesario que formas distintas esten asociadas

a vectores distintos. En resumen, puede afirmarse que dos objetos son iguales si el parecido

entre sus vectores de caracterısticas esta por debajo de un cierto umbral, que viene fijado por

la resistencia a deformaciones y distorsiones que presenta el mencionado vector. En tanto que

para reconocer un objeto es necesario haberlo visto con anterioridad al menos en una ocasion,

el metodo mas simple de reconocimiento basado en vectores consiste en comparar el vector a

reconocer con todos los conocidos. Si la distancia de dicho vector a cualquiera de ellos esta por

debajo de un cierto umbral, se reconoce como tal. Si existen varios candidatos posibles, se


Figura 2.21: Ejemplos de reconocimiento para los peces de a) a d), presentando una defor-macion del contorno. Los resultados estan situados de arriba a abajo en orden decreciente deprobabilidad.

escoge como valido aquel cuya distancia al vector estudiado sea menor. Si, por el contrario, no

existe ningun vector conocido cuya distancia al estudiado este por debajo de un umbral, bien se

almacena el vector como un nuevo objeto conocido -sistemas con aprendizaje-, bien se descarta

como objeto desconocido -sistemas con rechazo-. Es, por tanto, necesario para este metodo de

reconocimiento establecer unicamente tres elementos: la base a utilizar, la distancia empleada y

el umbral de reconocimiento.

4.3.2. Extraccion de una base

A efectos de extraer un vector de caracterısticas a partir de un contorno, tal como

se comento en el apartado correspondiente, es necesario calcular una base lo suficientemente

representativa como para que el error de representacion para elementos no conocidos cuando se

calculo dicha base sea lo suficientemente pequeno para su correcta identificacion. Intuitivamente,

las bases seran tanto mas representativas cuantos mas elementos se evaluen en su calculo y mas

distintos sean estos. No obstante, es importante evaluar de una manera formal que objetos deben

incluirse en el calculo de una base y cuanta informacion se pierde al utilizarla a efectos de obtener

el mejor vector de caracterısticas posible.


Utilizando cada una de las bases de datos mencionadas en este apartado de resultados, se

han calculado distintas bases optimas de dimensiones entre 1 y el numero de elementos de cada

conjunto, M , mediante el metodo de analisis por componentes principales descrito en la seccion

3.3. Las Figs. 2.22 - 2.24 presentan el error cometido al representar las figuras pertenecientes al

un mismo conjunto con un numero n creciente de componentes principales (lınea continua) y

el porcentaje de varianza explicado por las primeras n componentes (lınea discontinua), con n

variando entre 1 y M . En cada figura se han agrupado los resultados obtenidos con dos de los

conjuntos anteriores, a fin de facilitar la comparacion. El ejemplo presentado en la Fig. 2.22.a es

un caso especial. El conjunto inicial esta formado tan solo por las 6 figuras del conjunto 1. Estas

son relativamente variadas, por lo que comparten solo el 67% de su informacion, como indica el

valor del porcentaje de varianza explicado por la primera componente. Evidentemente, no son

necesarias mas de seis componentes para representar de forma fiel las seis imagenes pertenecientes

al conjunto inicial, pero es mas que probable que no contengan suficiente informacion para

representar una figura cualquiera no incluida en el conjunto inicial. La Fig. 2.22.b muestra los

resultados del conjunto de figuras geometricas mas sus deformaciones (base 2). De forma parecida

a lo que ocurrıa en el caso anterior, las figuras comparten un 68 % de la informacion. El parecido

con el primer conjunto era de esperar, teniendo en cuenta que este conjunto simplemente amplıa

el primero mediante la inclusion de deformaciones de cada figura del mismo. En este caso, tanto

la evolucion del porcentaje de varianza como la del error son bastante mas lentas que en la Fig.

2.22.a. Esto es debido a que la mayor variedad de las figuras de este conjunto solo puede ser

representada con un numero mayor de componentes, es decir, la mayor variedad introduce un

mayor numero de grados de libertad en la representacion. Tambien es interesante observar que

en este conjunto (Fig. 2.22.b), y en menor medida tambien en el conjunto siguiente (Fig. 2.23.a),

se aprecia un descenso brusco del error de representacion en torno a la decima componente

principal. Esto parece indicar que, en ambos casos, la dimension intrınseca de las variedades que

contienen a los elementos de cada uno de los dos conjuntos debe estar cercana a 10.

Las Figs. 2.23.a y b presentan perfiles muy similares entre sı. Al estar formado por un

conjunto de caracteres obtenidos de imagenes reales de matrıculas de coches, el conjunto 3 (Fig.

2.23.a) presenta ya una variedad apreciable. El conjunto 4 esta formado por imagenes del mismo

tipo, tomadas de un mayor numero de placas de matrıcula reales y, por tanto, incluyendo el

mismo tipo de ruido o distorsion que presentan las figuras del conjunto 3. Esto determina que

la informacion aportada por el conjunto 4 sea muy similar a la del conjunto 3. Ası, la evolucion

del error de representacion y porcentaje de varianza explicado con las componentes de ambos

conjuntos es muy similar (2.23.b). Es logico suponer que las variedades que contienen a estos dos

conjuntos deben ser muy parecidas, en la misma medida en la que se parece su representacion.


Figura 2.22: Porcentaje de varianza (lınea discontinua) y error medio de representacion (lıneacontinua) explicado con las primeras 50 componentes de una base PCA calculada con a) elconjunto de figuras geometricas (base 1); y el conjunto ampliado de figuras geometricas (base 2)

En la Fig. 2.24 se muestra el mismo estudio realizado sobre los conjuntos de siluetas 5

(Fig. 2.24.a) y 6 (Fig. 2.24.b), procedentes de anagramas de senales de trafico. Como en el caso

anterior, el alto parecido en la evolucion de las dos graficas indica que las figuras del conjunto 6

no anaden demasiada informacion respecto de las del conjunto 5.

Es interesante observar que tanto el conjunto 7 de siluetas de peces (Fig. 2.25.a) co-

mo el conjunto 8 de siluetas de objetos tridimensionales (Fig. 2.25.b) presentan un error de

representacion relativamente bajo para la primera componente principal, no obstante, este no

disminuye notablemente a partir de la segunda. Este rasgo indica que la variabilidad interna de

cada uno de estos conjuntos es baja y, por tanto, la primera componente representa una cantidad

elevada de informacion comun a los elementos de cada conjunto. Sin embargo es esta falta de

variabilidad la que hace que sea difıcil distinguir entre dos elementos distintos del mismo con-

junto, por lo tanto serıa necesario tomar un numero elevado de componentes para representarlas

satisfactoriamente.

Es importante notar que, si la variedad de todas las posibles ||CFFFT||s de figuras planas

S estuviera incluida en un espacio vectorial de dimension reducida, el error de representacion con

cualquiera de los conjuntos propuestos decaerıa rapidamente a 0 para un numero de componentes

superior a dicha dimension. En las Figs. 2.22 - 2.25 se puede observar que esto no ocurre. El

error de representacion solo cae hasta valores cercanos a cero cuando el numero de componentes

principales consideradas n se acerca al numero de elementos del conjunto correspondiente M .

Este hecho sugiere que, aunque la dimension intrınseca de la variedad S pueda ser reducida, su

topologıa es tal que el menor espacio vectorial en el que esta incluida es de dimension similar

a N . A la luz de esta interpretacion podemos suponer que entre las caracterısticas deseables


Figura 2.23: Porcentaje de varianza (lınea discontinua) y error medio de representacion (lıneacontinua) explicado con las primeras 50 componentes de una base PCA calculada con a) elconjunto de 34 caracteres extraıdos de placas de matrıcula(base 3); y el conjunto ampliado decaracteres extraıdos de placas de matrıcula (base 4)

Figura 2.24: Porcentaje de varianza (lınea discontinua) y error medio de representacion (lıneacontinua) explicado con las primeras 50 componentes de una base PCA calculada con a) elconjunto de anagramas de senales de trafico (base 5); y el conjunto ampliado de anagramas desenales de trafico (base 6)


Figura 2.25: Porcentaje de varianza (lınea discontinua) y error medio de representacion (lıneacontinua) explicado con las primeras 50 componentes de una base PCA calculada con a) elconjunto de peces(base 7); y el conjunto de siluetas de objetos tridimensionales(base 8)

en un conjunto de figuras para calcular una base generica que represente a las ||CFFFT||s de

figuras planas deben estar: i) valores bajos del porcentaje de varianza explicado por las primeras

componentes principales; y ii) un descenso importante en el error cometido en la representacion

a partir de una cierta componente principal. Los conjuntos 2, 3, 4, 5 y 6, con un porcentaje

de varianza explicado por las primeras 5 componentes mayor que el 90 %, son los que mejor

cumplen la primera condicion, mientras que los conjuntos 3 y 4, con un error de representacion

menor a 10 % tambien para las primeras 5 componentes, son los que mejor cumplen la segunda

condicion. Teniendo en cuenta que los conjuntos 3 y 4 son muy parecidos entre sı, no es necesario

considerar ambos. De este modo, se pueden preseleccionar las bases 2, 3, 5 y 6 como bases

vectoriales adecuadas para la respresentacion.

En la discusion anterior se ha evaluado la validez de cada una de las bases vectoriales para

representar elementos del mismo conjunto utilizado para el calculo de los vectores de la base.

No obstante, dado que se pretende escoger una base vectorial con un buen comportamiento en

la representacion de figuras planas en general, es necesario estudiar tambien el error cometido

al proyectar figuras no pertenecientes a los conjuntos anteriores sobre cada una de las bases

calculadas. Para que la prueba sea significativa, es necesario que las nuevas figuras no guarden

relacion con las anteriores. Para este fin, se utilizaran figuras extraıdas de dos de los conjuntos

que se han desechado como generadores de bases vectoriales. El primero esta formado por 100

siluetas de peces y otros animales marinos de entre los propuestos en el conjunto 7 (Fig. 2.8). El

segundo es el conjunto 8 de imagenes sinteticas y reales de objetos tridimensionales, mostrado

en la Fig. 2.9. Como se puede observar, las siluetas de ambos conjuntos de prueba difieren

significativamente de las utilizadas para el calculo de las bases vectoriales.


En la Fig. 2.26 se muestran los errores de representacion para el conjunto de siluetas de

animales marinos y para el conjunto de siluetas de objetos tridimensionales. Por simplicidad en la

interpretacion, se han incluido solo las cuatro bases de componentes principales preseleccionadas

segun los criterios anteriores. La omision de las cuatro bases restantes no es relevante para este

analisis, puesto que, como se ha discutido anteriormente, no anaden informacion relevante para

la representacion. Los resultados de esta prueba se muestran en la Fig. 2.26. Se puede apreciar

que, para ambos conjuntos de prueba, el mayor error es el correspondiente a la base 3. Esto

es debido al hecho de que la distorsion mas frecuente en este conjunto de letras extraıdas de

matrıculas es el ruido de segmentacion, por lo que este serıa el rasgo mejor representado en

las imagenes de prueba. Las imagenes del conjunto de animales marinos no presentan ruido de

segmentacion y tienen perfiles muy diferentes a los de las letras, por lo tanto tienen rasgos que no

estan contenidos en el conjunto usado para la extraccion de la base y el error de representacion es

relativamente grande (Fig. 2.26.a). El conjunto de imagenes extraıdas de objetos 3D sı contiene

en cierta medida ruido de segmentacion, por lo que el error de representacion es menor que

en el caso anterior, pero, de todos modos, las siluetas son muy distintas de las de las letras

y el error de representacion es aun considerable (Fig2.26.b). Las tres bases de componentes

principales restantes presentan un error de representacion muy similar entre si. Es importante

observar que la similitud en el error de representacion aparece a pesar de que las bases de

componentes principales han sido calculadas con conjuntos de imagenes dispares. Entre el error

de representacion sobre las bases 5 y 6 practicamente no hay diferencias. Esto confirma la

hipotesis de que la ampliacion del conjunto 5, mediante la inclusion de figuras deformadas

del conjunto 6, no aporta informacion esencial para la representacion. Por lo tanto se puede

prescindir de la base calculada con el conjunto 6.

Figura 2.26: Error de representacion para: a) conjunto de siluetas de peces; y b) conjunto desiluetas de objetos tridimensionales

La diferencia entre los errores correspondientes a las bases calculadas con los conjuntos

2 y 5 es tambien muy pequena. En este caso los conjuntos iniciales no solo son distintos sino que


tienen un numero de elementos diferente. Esto podrıa indicar que los 27 elementos del conjunto

5 son tan variados que bastan para construir una base equivalente a la construida con los 90

elementos del conjunto 2. Si esta hipotesis es cierta, entonces una base de componentes princi-

pales construida con la union de los conjuntos 2 y 5 debe presentar un error de representacion

similar al de cada una por separado. Por el contrario, es posible que cada conjunto de imagenes

presente de modo casual el mismo nivel de error de representacion aunque ambos conjuntos

de imagenes presenten informaciones independientes entre sı. En este caso la union de los dos

conjuntos iniciales generarıa una base cuyo error de representacion serıa sensiblemente inferior

al de cada uno por separado. En la Fig. 2.27 se puede observar que, para los dos conjuntos de

prueba, el error de representacion de la base generada por la union de los conjuntos 2 y 5 es muy

similar al de cada una de las dos bases por separado. Por lo tanto los conjuntos 2 y 5 aportan

aproximadamente la misma informacion para la representacion, se puede ignorar uno de ellos.

En este caso se desechara el conjunto 2 por contener un mayor numero de elementos.

Figura 2.27: Error de representacion sobre la base 2, la base 5 y una combinacion de ambaspara: a) conjunto de siluetas de peces; y b) conjunto de siluetas de objetos tridimensionales

Siguiendo el mismo razonamiento, se puede comprobar si el conjunto 3, a pesar de presen-

tar un error de representacion mayor al de los anteriores, podrıa aportar informacion relevante al

conjunto 5.Para ello, se realiza de nuevo una comparacion entre los errores de representacion al

proyectar las figuras de los conjuntos 7 y 8 sobre las bases 3, 5 y una combinacion de ambas (Fig.

2.28). Se puede apreciar que, al igual que ocurrıa en el caso anterior, el error de representacion

de la base generada por la union de los conjuntos 3 y 5 no mejora los resultados obtenidos con

la base 5.

Puede pues concluirse que a partir de un numero relativamente pequeno de figuras se

puede calcular una base suficientemente representativa del conjunto de las siluetas de figuras

planas. Para que esto sea posible, es necesario que las figuras del conjunto sean muy diferentes

entre si, sus formas sean variadas y se incluyan contornos con oscilaciones a varias escalas. El

hecho de que un conjunto de figuras contenga un numero elevado de elementos no es suficiente


Figura 2.28: Error de representacion sobre la base 3, la base 5 y una combinacion de ambaspara: a) conjunto de siluetas de peces; y b) conjunto de siluetas de objetos tridimensionales

para que su correspondiente base sea representativa. Como demuestran las pruebas con los

conjuntos 3 y 4, si todas las figuras pertenecientes al conjunto inicial presentan rasgos comunes

y las distorsiones introducidas son siempre del mismo tipo, independientemente de que el numero

de elementos sea muy elevado (1020 elementos en el conjunto 4) el error de representacion de

figuras no pertenecientes al conjunto inicial puede ser relativamente grande. De acuerdo con los

criterios anteriores podemos seleccionar la base de componentes principales generada a partir

del conjunto 5 de 27 siluetas de senales de trafico, como una base valida para la representacion.

4.3.3. Metrica

Es de resaltar que en el metodo de reconocimiento de formas planas propuesto para

evaluar la bondad de representacion por vector de caracterısticas existıan dos alternativas: de-

terminar que cualquier objeto entrante es siempre conocido y optar por asignarlo al prototipo

disponible mas parecido o fijar un umbral de aprendizaje o rechazo que permita bien aprender

formas nuevas, bien rechazar las desconocidas. Este segundo procedimiento dota de mayor flexi-

bilidad y resistencia a error al sistema, ya que permite aumentar la base de datos de objetos

conocidos y no obliga a reconocer objetos que, en principio, pueden ser muy diferentes de los

conocidos. Sin embargo, en estos casos resulta necesario fijar un umbral que aporte tolerancia

frente a posibles errores, distorsiones, transformaciones y ruido pero tambien permita distinguir

correctamente objetos que se consideran distintos. A efectos de establecer este umbral, resulta

interesante observar la evolucion de las distancias entre objetos distorsionados y sus prototipos

en funcion de un conjunto de metricas.

Es importante notar que a partir de los experimentos realizados hasta el momento solo

puede deducirse que cuanto mas parecidas sean dos figuras menor sera la distancia entre sus

vectores de caracterısticas. Sin embargo, no se puede deducir que esta distancia vaya a estar


por debajo de un cierto orden de magnitud. En la Fig. 2.29.a se ha representado la distancia

desde cada una de las 1020 figuras propuestas y los modelos de los 5 primeros caracteres para la

metrica mas habitual: la distancia euclıdea. Se puede observar que, salvo casos aislados, el grupo

de figuras que corresponde a cada modelo presenta una distancia hasta el mismo claramente

inferior que el resto de figuras, pero la media de distancias de cada grupo de figuras a su modelo

varıa de uno a otro. Es decir, mientras la media de distancias de los vectores correspondientes

Figura 2.29: Distancias desde los vectores de caracterısticas del conjunto de caracteres extraıdosde matrıculas reales hasta cada uno de los cinco primeros modelos de caracteres: a) distanciaseuclıdeas; y b) distancias de Tanimoto

a distintos numeros 0 respecto al modelo del numero 0 es igual a 0.99 unidades la media de

las distancias entre los representantes del numero 4 y su modelo es igual a 2.97 unidades. Si se

quisiese establecer un umbral de parecido como una distancia por debajo de la cual dos figuras se

consideran similares, este umbral deberıa ser de al menos 3 unidades. Ası, podrıan definirse las

33 clases propuestas como hiper-esferas centradas en el vector de caracterısticas correspondiente

a cada modelo y de radio igual al umbral. Puede observarse en la Fig. 2.29.a que, segun este

criterio, la clase del numero 4 quedarıa correctamente definida, pero dentro de la clase del numero

0 quedarıan la mayorıa de los representantes del numero 8. Si, por el contrario, se toma como

umbral un valor igual a una unidad, ninguno de los numeros 4 serıa suficientemente parecido al

modelo del numero 4. La distancia euclıdea sirve, pues, para establecer una relacion de orden

en el conjunto de figuras propuestas de acuerdo con la similitud que presentan respecto de una

figura o un modelo dados, pero su valor numerico no da una idea del parecido que subjetivamente

se puede apreciar entre dos figuras cualesquiera.

Para poder definir una medida de similitud adecuada a este problema, debe observarse el

tipo de variabilidad que presentan los vectores de caracterısticas dentro de una misma clase. En


la Fig. 2.30 se muestran las primeras 13 componentes de los vectores de caracterısticas de todos

los numeros 0 (Fig. 2.30.a) y de todos los numeros 4 (Fig. 2.30.b). Los vectores de caracterısticas

de los numeros 4 son de mayor longitud que los de los numeros 0, por lo tanto es de esperar

que la distancia entre representantes de los numeros 0 sea mas pequena que la distancia entre

representantes de los numeros 4. Sin embargo, en ambos casos los elementos de una misma

clase estan fuertemente correlacionados entre sı. Es decir, para que una medida de similitud

cuantifique el parecido entre dos figuras es conveniente que incluya una medida de la correlacion

cruzada ası como una medida de la distancia euclıdea entre los vectores de caracterısticas que

las representan. Esta definicion intuitiva de distancia coincide con la definicion de la medida

Tanimoto de similitud entre vectores (Deichsel y Trampisch, 1985). Sean dos vectores x e y la

medida Tanimoto entre ellos se define como:

ST (x,y) =xTy

||x||2 + ||y||2 − xTy(2.25)

Figura 2.30: Vectores de caracterısticas: a) numeros 0; y b) numeros 4

De acuerdo con esta definicion, la medida Tanimoto es una medida adimensional que

evalua la correlacion cruzada entre los vectores x e y ponderandola de acuerdo con las longitudes

de ambos vectores. Esta definicion parece no considerar la distancia euclıdea entre los vectores

propuestos, sin embargo, operando aritmeticamente sobre ella es facil deducir que la expresion

2.25 es equivalente a:

ST (x,y) =1

1 + (x−y)T(x−y)xTy

(2.26)

Por tanto, la medida Tanimoto es inversamente proporcional al cuadrado de la distancia

euclıdea dividida por la correlacion entre x e y. Esta medida de similitud toma su valor maximo


e igual a 1 cuando ambos vectores son identicos. Independientemente de la distancia euclıdea,

si dos vectores son ortogonales la medida Tanimoto toma su valor mınimo e igual a 0. En el

caso de que dos vectores x este a la misma distancia euclıdea de dos vectores y y z, la medida

Tanimoto se alejara mas de uno para la pareja de vectores cuyo angulo relativo se acerque mas

a la ortogonalidad. Partiendo de la medida Tanimoto, puede definirse una distancia a la que se

llamara distancia Tanimoto como:

DT (x,y) = 1− ST(x,y) (2.27)

De este modo la distancia Tanimoto sera menor cuanto mas parecidos sean los vectores

llegando a 0 cuando ambos vectores sean iguales, lo que resulta mas adecuado como medida

de clasificacion. En la Fig. 2.29.b se puede ver la misma representacion que en la Fig. 2.29.a

cambiando la distancia euclıdea por la distancia Tanimoto. Se puede observar que, en este

caso, la distancia entre los vectores de caracterısticas de las figuras pertenecientes a una clase

y el modelo de la misma clase siempre toma un valor en torno a 0.05. La distancia al modelo

de una determinada clase de vectores de caracterısticas no pertenecientes a la misma es en

general mayor que 0.1. Es decir, podrıan definirse las clases correspondientes a los 33 caracteres

propuestos como los subconjuntos cuyos elementos esten dentro de un radio medido mediante

la distancia Tanimoto alrededor del vector que representa a cada modelo. El radio debe tomar

un valor entre 0.05 y 0.1.

Se concluye, por tanto, que la distancia Tanimoto entre dos vectores de caracterısticas

es una medida cuantificable del parecido subjetivo entre las dos figuras a las que dichos vectores

representan. Ası, en adelante se usara esta definicion de distancia para evaluar el parecido entre

figuras planas.

4.3.4. Resultados

Tal como ya se ha comentado anteriormente, una base puede no representar correc-

tamente determinadas formas planas, en particular, las que no se han utilizado a la hora de

calcularla. Asimismo, la calidad de la representacion depende de la dimension de la base em-

pleada, si bien se ha comprobado en el subapartado anterior que, en general, no se consiguen

mejoras apreciables a partir de una dimension determinada. En este subapartado se va a evaluar

mediante el metodo de reconocimiento propuesto la eficiencia de los Componentes Principales

de la curvatura como herramienta de representacion.


Es necesario, como se ha indicado, analizar la dimension de la base propuesta en relacion

con su capacidad para clasificar un conjunto de figuras. Para hacer esta prueba se ha escogido

el conjunto de figuras 4, compuesto por 1020 caracteres extraıdos de placas de matrıcula reales.

De acuerdo con la codificacion de las matrıculas, que elimina las letras O y Q por su parecido

con el numero 0, hay 10 numeros y 24 caracteres distintos entre sı. Nuestro conjunto incluye

30 ejemplos de cada uno. Se ha escogido este conjunto de prueba porque contiene una particion

natural en un maximo de 34 clases. Puede suponerse que las figuras que correspondan al mismo

caracter deben estar proximas entre si en el interior de la variedad S. Del mismo modo, los

grupos de figuras que correspondan a distintos caracteres estaran relativamente alejados. Es

importante notar que, en algunos casos, la diferencia entre dos caracteres depende solo de su

orientacion en el espacio. El ejemplo mas claro es el del 6 y el 9, cuyas siluetas son exactamente

iguales si se prescinde de la orientacion. La representacion propuesta en el presente trabajo e

invariante a rotacion, por lo tanto no debe apreciar diferencias entre ambos caracteres. Lo mismo

se puede decir de la comparacion entre la M y la W o entre la N y la Z, si bien en estos casos,

como se puede apreciar en la Fig. 2.6.a, cada silueta presenta algunas diferencias respecto de su

pareja. Por tanto, consideraremos en lo sucesivo que el conjunto propuesto contiene 33 clases

distintas, donde se incluyen el 6 y el 9 en una misma clase pero se distingue entre las letras M ,

N , W y Z.

Para evaluar la bondad de la clasificacion respecto de la dimension del espacio vectorial

de representacion, es decir, respecto del numero de componentes principales seleccionados para

la representacion, se han construido 33 modelos de caracteres. Cada uno de los modelos es

un vector de caracterısticas de dimension P calculado como el vector media aritmetica de los

vectores de caracterısticas de las primeras 10 siluetas correspondientes a cada uno de los 33

caracteres distintos. Ası, cada modelo engloba las caracterısticas comunes de los primeros diez

ejemplos de cada caracter. A continuacion, se ha hecho variar la dimension P desde 1 hasta

25. Para cada valor de P se ha ensayado una clasificacion de las 1020 figuras pertenecientes al

conjunto de prueba respecto de su distancia a los modelos calculados. Se considera que cada

figura pertenece a la clase de la cual esta mas cerca. Los resultados de este ensayo se muestran

en la Fig. 2.31, expresados en tanto por ciento de figuras correctamente clasificadas. Se puede

observar que la clasificacion mejora notablemente al crecer el numero de componentes utilizadas

entre una y cinco. A partir de cinco componentes, la mejora en la clasificacion es mas suave hasta

llegar a un valor estable cuando las componentes utilizadas son entre diez y quince. Es importante

notar que parece haber un maximo en la bondad de la clasificacion que se situa alrededor del

94 % de aciertos. Es decir, solo hay un numero limitado de componentes principales que aportan

informacion relevante para la clasificacion. Por encima de este numero la clasificacion no mejora.


Figura 2.31: Porcentaje de letras correctamente clasificadas en funcion del numero de compo-nentes)

El razonamiento anterior indica que la dimension optima P del espacio vectorial RP sobre el

que se proyecta la variedad S de todas las ||CFFFT||s de siluetas de figuras planas esta entre

10 y 15.

Salvo algunos casos de manifiesta ambiguedad en las figuras propuestas, cabe pensar

que la tasa remanente de error en torno al 5 % es debida a que el proceso de obtencion de los

vectores de caracterısticas introduce un filtrado de la informacion original, de modo que algunos

casos particulares se hacen imposibles de distinguir. Teniendo en cuenta que el objetivo de la

representacion propuesta es la definicion de una medida de similitud entre figuras planas, esta

tasa remanente de error no sera grave siempre y cuando las figuras incorrectamente clasificadas

guarden cierto parecido con las representantes de la clase en la que erroneamente se las haya

clasificado.

En las Figs. 2.32-2.35 se presentan algunos ejemplos de los resultados de clasificacion.

En cada una de ellas se muestran tanto las figuras que han sido correctamente clasificadas como

las figuras que deberıan haber sido clasificadas dentro del mismo grupo pero han quedado fuera

del mismo durante la clasificacion y las figuras de otros grupos que han sido incorrectamente

clasificadas dentro del grupo propuesto. Se puede observar como los ejemplos correspondientes

a letras cuya forma es bastante diferente de la de las demas (Fig. 2.34) no presentan errores

de clasificacion. Algunos de los elementos de la Fig. 2.34.a presentan distorsiones relativamente


Figura 2.32: Resultados de clasificacion para el numero 2: a) figuras correctamente clasificadas;b) figuras incorrectamente clasificadas fuera del grupo; y c) figuras incorrectamente clasificadasdentro del grupo)

Figura 2.33: Resultados de clasificacion para la letra B: a) figuras correctamente clasificadas;b) figuras incorrectamente clasificadas fuera del grupo; y c) figuras incorrectamente clasificadasdentro del grupo)

5. Conclusiones 65

Figura 2.34: Resultados de clasificacion para la letra R: a) figuras correctamente clasificadas;b) figuras incorrectamente clasificadas fuera del grupo; y c) figuras incorrectamente clasificadasdentro del grupo)

importantes debidas al ruido introducido por la segmentacion. Sin embargo, como la forma de

la figura distorsionada se parece mas a la R que a ninguna otra letra, el vector de caracterısticas

que la representa estara mas cerca del modelo de la R que de ningun otro. En cambio en la

Fig. 2.32 se puede observar que un grado comparable de distorsion aplicado sobre un caracter

que presenta una cierta similitud morfologica con otro u otros puede llevar a una clasificacion

incorrecta. En la Fig. 2.32.c se puede observar que los tres elementos incorrectamente incluidos

en este grupo pertenecen a letras muy parecidas al numero 2 que ademas estan deformadas de

modo que el parecido se acrecienta. Las dos letras Z tienen sus esquinas suavizadas y la letra S

tiene una protuberancia que le hace parecer un 2 invertido. Cuando la similitud entre parejas

de caracteres es mas fuerte, el error de clasificacion se puede producir aunque no exista una

deformacion importante. Ası, es frecuente el caso de Ms clasificadas como W s y viceversa (Fig.

2.35). Un caso especial que merece atencion es el de la letra B(Fig. 2.33). Morfologicamente

esta situada entre el numero 8 y la letra D. Al hacer el test de clasificacion se repiten los errores

entre la B y el 8 y entre la B y la D, siendo infrecuente el caso de confusion entre 8 y D.

Atendiendo a estos resultados, puede afirmarse que en el espacio de caracterısticas propuesto

la distancia entre puntos es un buen indicador de las diferencias morfologicas entre las figuras

representadas por dichos puntos.

5. Conclusiones

En este capıtulo se ha presentado un metodo para la caracterizacion de un objeto. Dicho

metodo se basa en la creacion de una funcion de curvatura del contorno del objeto que describe el


Figura 2.35: Resultados de clasificacion para la letra W : a) figuras correctamente clasificadas;b) figuras incorrectamente clasificadas fuera del grupo; y c) figuras incorrectamente clasificadasdentro del grupo)

comportamiento de este. La principal novedad de la funcion propuesta estriba en que se calcula

de forma adaptativa de acuerdo a las caracterısticas o naturaleza del tramo en estudio, lo que

permite eliminar gran parte del ruido de cuantificacion sin perdida de puntos significativos.

Para probar la bondad de la caracterizacion propuesta, se han implementado varias apli-

caciones tıpicas basadas en ella: deteccion de esquinas, aproximacion poligonal y reconstruccion

del contorno. En los tres casos, los resultados obtenidos han sido mas que aceptables, sobre

todo, si se tiene en cuenta que los procesos descritos son bastante sencillos y de baja carga

computacional.

Capıtulo 3

Reconocimiento de objetos 3D.

1. Introduccion.

El proceso de reconocimiento de objetos puede enfocarse desde dos puntos de vista com-

plementarios: i) el problema de la identificacion de objetos en un entorno conocido a priori, en

el que existe un conjunto predefinido de objetos de interes; y ii) el problema del reconocimiento

cuando cada objeto observado puede pertenecer a una clase ya definida o bien ser un repre-

sentante de una clase nueva de objetos. La principal diferencia entre ambos enfoques es que

mientras en el primero todo el proceso de aprendizaje se ha completado antes de que el sistema

sea operativo, el segundo debe ser capaz de aprender nuevos modelos cada vez que un objeto

sea designado como desconocido (Ullman, 1996).

En el primer caso se puede establecer una relacion de clasificacion entre todos los objetos

que van a ser sometidos posteriormente al proceso de reconocimiento. Serıa posible utilizar un

metodo de clasificacion supervisada independiente del algoritmo de reconocimiento en el que las

clases pueden ser designadas segun criterios mas o menos heterogeneos. Esta filosofıa es muy

util cuando el sistema de reconocimiento se encuentra circunscrito a un ambiente conocido en

el cual todos los objetos que se le presentan pertenecen necesariamente a una de las categorıas

previamente definidas (Adan et al., 2001) (Kovacic et al., 1998). Si se requiere, por ejemplo,

desarrollar un metodo de reconocimiento para identificar sımbolos alfanumericos, la clasificacion

general se realizara atendiendo a su forma, pero algunos elementos deberan distinguirse entre

sı por otros criterios. Ası, algunos caracteres se distinguiran por su orientacion espacial, como la

M de la W o la N de la Z, e incluso estaran sometidos a criterios de contexto, como el necesario

para distinguir la letra O del numero 0. Sistemas de reconocimiento de este tipo pueden incluso

aportar modelos extraordinariamente precisos de los objetos a estudiar, pudiendo utilizarse con

67

68 Capıtulo 3. Reconocimiento de objetos 3D.

una alta fiabilidad en aplicaciones industriales muy concretas, como el suministro automatico de

piezas o el rechazo de piezas defectuosas durante procesos de fabricacion (Roh y Kweon, 2000).

La segunda aproximacion es mas adecuada en aplicaciones de reconocimiento en entornos

no estructurados en los que se deba establecer una clasificacion dinamica, es decir, los objetos

observados puedan ser clasificados como pertenecientes a una de las clases ya conocidas por el

sistema o bien puedan ser considerados como elementos nuevos ajenos a todas las clases conocidas

hasta el momento. En general, este tipo de sistemas no realizan funciones de identificacion sino

de categorizacion (Ullman, 1996). Por lo tanto, el objetivo no es reconocer el objeto observado

como identico a uno almacenado sino clasificarlo como similar a un modelo de una cierta clase de

objetos (Edelman, 1997). Como consecuencia, la relacion entre el objeto observado y el modelo

de una cierta clase de objetos se establece no como una identificacion precisa sino como un grado

de parecido entre objeto y modelo (Ando et al., 1999) (Hornegger y Niemann, 2000) (Nayar et

al., 1996) (Poggio y Edelman, 1990) (Seibert y Waxman., 1992) (Selinger y Nelson, 1999). Ası,

para evaluar la bondad de un sistema de reconocimiento de este tipo se debera contabilizar no

solo el porcentaje de elementos correcta e incorrectamente clasificados (tasa de reconocimiento y

error respectivamente), sino tambien el porcentaje de objetos que, siendo nuevos, son clasificados

dentro de una de las clases de objetos (tasa de falso reconocimiento), ası como el porcentaje de

objetos que, siendo conocidos, son designados como nuevos (tasa de rechazo). De acuerdo con la

importancia que se asigne a cada uno de los tipos de fallo se pueden definir multiples criterios

de bondad de los clasificadores (Courtney y Thacker, 2001)

Por otro lado, el hecho de que puedan aparecer objetos nuevos que requieran el aprendiza-

je de nuevos modelos para ser incluidos en el conjunto de modelos disponibles al sistema de re-

conocimiento obliga a que los algoritmos de entrenamiento y de reconocimiento esten fuertemente

interrelacionados. Si el sistema de reconocimiento debe ademas funcionar de modo autonomo,

el proceso de entrenamiento debe ser del tipo no supervisado (Ullman, 1996).

Para resolver este problema se han propuesto diversos metodos de tipo probabilıstico,

como el metodo bayesiano de modelado y reconocimiento propuesto por Hornegger (Hornegger

y Niemann, 2000) o metodos basados en redes neuronales (Ando et al., 1999). Este tipo de

metodos, evaluan la probabilidad de que distintas observaciones de un objeto sean la concrecion

real de un modelo ideal de un cierto tipo de objeto. Para su entrenamiento es necesario prever

los tipos de distorsion especiales en el entorno de observacion y disponer de varias versiones

distintas del mismo objeto para que la variabilidad de cada clase de objetos este correctamente

representada en su modelo. Si el sistema de reconocimiento encuentra un nuevo objeto solo

dispondra de un ejemplar del nuevo tipo de objetos y en consecuencia su modelo sera poco

1. Introduccion. 69

tolerante incluso a pequenas perturbaciones en la observacion.

Como alternativa a los metodos probabilısticos se han presentado numerosos metodos

de reconocimiento, que definen medidas de similitud entre la observacion de un objeto y cada

uno de los modelos almacenados. Ası, en principio, cada modelo es una representacion ideal

del objeto tıpico de una clase. En este caso, la tolerancia frente a posibles distorsiones de la

observacion se consigue mediante una definicion flexible de la similitud entre la observacion y el

modelo. Esta vision presenta la ventaja de que no es necesario disponer a priori de un juego de

versiones distorsionadas de cada objeto para que el sistema de reconocimiento sea flexible. Adi-

cionalmente, durante la definicion de cada modelo no se requiere una elevada precision respecto

de la forma exacta del objeto a modelar, ya que el posterior reconocimiento no se basa en una

total identificacion entre la observacion y el modelo sino solo en una medida de parecido entre

ellos.

Sullivan y Ponce proponen la construccion de modelos volumetricos a partir de vistas

planas de cada objeto (Sullivan y Ponce, 1998). A partir de cada vista plana, conocida su

orientacion respecto del objeto se traza una proyeccion conica en el espacio. Los puntos de

interseccion de las distintas proyecciones son puntos del espacio tridimensional que se definen

como vertices del modelo. Los vertices se unen entre sı con superficies planas para formar

un volumen solido. Cuando un objeto es observado, se hace casar su silueta con las posibles

siluetas de todos los objetos almacenados para minimizar una funcion de error. Este sistema, si

bien ofrece una aproximacion muy intuitiva al problema del reconocimiento, requiere una gran

exactitud en la determinacion de la posicion relativa del observador y el objeto durante la fase

de entrenamiento (Bottino y Laurentini, 2003). Ademas, supone un elevado coste computacional

y no asegura un resultado optimo para figuras afectadas de ruido u oclusion.

Murase y Nayar (Murase y Nayar, 1995) introducen un metodo de reconocimiento en

el que los modelos se construyen por reduccion de la informacion contenida en un conjunto de

vistas planas de un objeto mediante la transformada de Karuhen-Loewe (Sirovich y Everson,

1992). Ası, cada vista del objeto a modelar queda representada por un punto en el espacio

de los autovectores de las vistas del objeto y un objeto completo queda representado por una

trayectoria en este espacio. El reconocimiento de un objeto observado se realiza a partir de

una de sus vistas planas: si la proyeccion de la vista estudiada sobre el espacio de autovectores

esta suficientemente cerca de una de las trayectorias correspondientes a los objetos modelados

por el sistema, este considera que el objeto observado guarda un alto grado de similitud con el

objeto. Es importante notar que Murase y Nayar no trabajan con todas las vistas de cada objeto

sino solo con las correspondientes a un unico giro alrededor de este, colocando al observador a una


distancia fija del objeto y siempre a la misma altura sobre el plano de apoyo del mismo. Es decir,

el metodo supone que existe un conjunto de vistas desde las cuales cada objeto es claramente

distinguible de los demas. Si una vista pudiera corresponder a varios objetos distintos, no habrıa

solucion para el problema de reconocimiento (Campbell y Flynn, 1999). Ademas, el sistema

trabaja con la imagen de color completa de cada vista, lo que hace que la clasificacion se haga

atendiendo no solo a la forma, sino tambien al color de los objetos (Nayar et al., 1996). Es

tambien importante notar que, en este caso, cambios de iluminacion o sombras anadidas a la

escena perturbarıan apreciablemente los resultados de su algoritmo (Startchik et al., 1998).

Ohba e Ikeuchi presentan un sistema en el que tambien se utiliza una descomposicion

por analisis de componentes principales, pero se aplica a segmentos de las imagenes en lugar

de a las imagenes completas (Ohba y Ikeuchi, 1997). Para reducir la cantidad de informacion

almacenada se utiliza un triple criterio de seleccion de segmentos atendiendo a su detectabilidad,

representatividad y unicidad. El reconocimiento de objetos se realiza mediante la busqueda en

una cualquiera de sus vistas de retazos que se puedan relacionar con los almacenados. Este

sistema se ha desarrollado con el objetivo de ser muy resistente a oclusiones. Sin embargo, no

presenta un buen comportamiento frente a cambios del entorno, como cambios de iluminacion

(Mamic y Bennamoun, 2002)

Selinger y Nelson (Selinger y Nelson, 1999) proponen un metodo cubista de reconocimien-

to. En este sistema se localizan rasgos diferenciadores contenidos en fragmentos de cada imagen.

Las imagenes son preprocesadas para extraer sus contornos, de modo que la informacion buscada

en la imagen sera puramente morfologica. El objeto es ası representado como una agrupacion

de rasgos locales combinados de forma flexible, que se pueden reconocer de forma independiente

y que se pueden asociar a uno o a varios de los objetos previamente modelados. Este tipo de

aproximaciones locales son muy robustas frente a oclusiones, puesto que no dependen de rasgos

globales del objeto y no requieren una segmentacion que extraiga cada objeto de la escena como

un objeto individual. Sin embargo, debido a que analizan rasgos muy parciales, pueden llevar a

confusion cuando la combinacion de los mismos sea compatible con varios objetos o bien cuando

los objetos no tengan rasgos individuales que se puedan circunscribir al entorno de unos pocos

pixeles sino que esten mas relacionados con la forma global del objeto (Carmichael y Hebert,

2002).

En la presente tesis, se propone un sistema de reconocimiento de objetos 3D basado

en la secuencialidad de un conjunto de vistas planas del objeto observado. La aplicacion de

este metodo guarda semejanzas con el metodo de reconocimiento de formas planas basado en

puntos caracterısticos expuesto en el capıtulo 2 (de Trazegnies et al., 2001) (de Trazegnies et al.,

1. Introduccion. 71

2003c). Para el reconocimiento de formas planas se utilizaba un modelo de tipo probabilıstico que

relacionaba secuencias de esquinas con el contorno de objetos bidimensionales. Un mismo tipo

de esquinas podıa pertenecer a varios contornos, no obstante, la secuencialidad de un conjunto

de esquinas permitıa la identificacion de cada uno de ellos. En el reconocimiento de objetos 3D

basado en vistas, cada observacion de un objeto consiste en una vista plana del mismo. Aun en

conjuntos de objetos de forma muy diversa, cada objeto presentara alguna vista comun con uno

o varios de los otros objetos del conjunto, es decir, en general, el analisis de una sola vista no es

suficiente para reconocer unıvocamente un objeto. En la presente tesis se propone la extension

del uso de modelos probabilısticos al reconocimiento de objetos tridimensionales mediante el

analisis de secuencias de vistas planas (de Trazegnies et al., 2003b) (de Trazegnies et al., 2003a).

El sistema de reconocimiento propuesto se divide en las siguientes fases: descripcion,

modelado y clasificacion, que se presentan en las secciones 2, 3 y 5 de este capıtulo, respectiva-

mente.

La fase de descripcion consiste en codificar cada objeto tridimensional, que puede ser

observado desde un numero ilimitado de puntos de vistas, donde cada vista consiste en una

imagen mapa de bits que contiene un volumen elevado de informacion. Para poder abordar

el problema del reconocimiento de objetos tridimensionales a partir de sus vistas planas es

imprescindible reducir esta cantidad ilimitada de informacion a un volumen manejable sin perder

la informacion relevante para la descripcion del objeto. El metodo de descripcion desarrollado

en esta tesis consiste en codificar cada vista como un vector de caracterısticas de dimension

reducida obtenido al extraer del contorno de la vista su funcion de curvatura adaptativa (de

Trazegnies et al., 2003a), calcular el modulo de su transformada de Fourier y proyectarlo sobre

una base vectorial ortogonal del espacio. Como se discutio en el capıtulo 2, esta representacion es

muy robusta frente a desplazamientos, giros, cambios de escala, deformaciones continuas o ruido.

Ası, cada objeto se describe mediante un mapa bidimensional en el que cada punto corresponde

a una vista. Los puntos de este mapa de vistas se pueden clasificar atendiendo a un criterio

de distribucion espacial de los vectores de caracterısticas indexados en cada punto, este criterio

tiene una correspondencia directa con el parecido entre vistas, de modo que el mapa de vistas

queda dividido en areas cada una de las cuales corresponde a un tipo de vistas del objeto original.

El mapa de vistas se puede representar a distintos grados de discretizacion, dependiendo de la

distancia angular prefijada entre vistas consecutivas, de modo que con un conjunto reducido de

vistas se obtiene un mapa representativo del objeto. Este metodo de caracterizacion se expone

en detalle en la seccion 2.

En la fase de modelado, dado que la sola descripcion de un objeto no es suficiente


para asegurar su reconocimiento, es necesario construir, a partir de su descripcion, un modelo.

Generalmente, el modelo no incluye la descripcion completa sino que extrae de ella unicamente

los rasgos que son determinantes para el reconocimiento. El modelado debe realizarse de tal

manera que se pueda definir de forma sencilla un criterio de parecido entre objetos. En el

sistema de reconocimiento propuesto, el modelo de cada objeto se concreta en un Modelo Oculto

de Markov (MOM) construido a partir de secuencias de vistas consecutivas del mismo. Un MOM

es un proceso estocastico doble, en el cual existe un proceso de Markov simple, cuya evolucion

queda oculta al observador, y una funcion o conjunto de funciones estocasticas que relacionan los

estados ocultos del proceso de Markov con magnitudes observables (Rabiner, 1989). El modelado

de los objetos mediante MOMs tiene la ventaja de que cada modelo lleva implıcita una definicion

del parecido entre objeto observado y modelo, de tal modo que se puede calcular la probabilidad

de que una secuencia particular de vistas sea compatible con un modelo propuesto. El proceso

de modelado se describe en la seccion 3

En la fase de clasificacion, una vez que se dispone de una tecnica para obtener los modelos,

es necesario definir un proceso que comprenda las acciones a seguir con el fin de clasificar cada

objeto observable como perteneciente a una de las clases conocidas. Adicionalmente, en el caso

de que el objeto observado fuera clasificado como nuevo o desconocido, el sistema debe iniciar el

proceso de aprendizaje del nuevo modelo, que comprende las fases de descripcion y modelado.

De acuerdo con lo expuesto anteriormente, el proceso de clasificacion propuesto en esta tesis

utiliza como datos de entrada una secuencia de vistas planas del objeto. Para juzgar el parecido

de la secuencia de vistas con cada modelo se computa la probabilidad de que en una hipotetica

observacion de cada modelo se hayan podido observar vistas parecidas y en el mismo orden

que las observadas. En el caso de que la secuencia de vistas observada sea incompatible con

todos los modelos, el objeto observado se designa como nuevo. Ası, los procesos de aprendizaje y

clasificacion se alternan dependiendo de si el objeto presentado es o no reconocido. De acuerdo

con esta caracterıstica del sistema propuesto, en la seccion 5 se presentan no solo una coleccion

de ensayos de reconocimiento sino tambien multiples ejemplos de la interaccion entre los procesos

de aprendizaje y clasificacion.

2. Descripcion de un conjunto de vistas

Tal como se ha comentado anteriormente, el proceso de descripcion de un objeto consiste

en su codificacion a partir de un conjunto de imagenes del mismo, tomadas desde distintos puntos

de vista. De cada imagen se extrae la informacion mas significativa que describe la forma del

2. Descripcion de un conjunto de vistas 73

objeto desde cada punto de vista y, posteriormente, la informacion de todas las vistas se combina

para construir un descriptor del objeto completo. La Fig. 3.1.a muestra un objeto tridimensional

observado desde puntos de vista equiespaciados alrededor del mismo, que se representan en

coordenadas esfericas sobre un sistema de referencia centrado en el objeto observado. Cuando se

observa el objeto desde un punto arbitrario del espacio, puede extraerse de la imagen el contorno

de dicha vista que puede ser caracterizado mediante un vector de caracterısticas (Fig. 3.1.b y c)

por el procedimiento presentado en el capıtulo 2. Como los vectores de caracterısticas propuestos

son muy resistentes frente a cambios de escala (de Trazegnies et al., 2003b) (Urdiales et al.,

2002), se puede suponer que a todos los puntos de vista con las mismas coordenadas angulares

les corresponde el mismo vector de caracterısticas independientemente del valor que tome su

coordenada radial. Esto sera cierto siempre que el objeto sea observable en su totalidad dentro

del campo de la imagen y que su tamano no se vea tan reducido que llegue a ser del orden de unos

pocos pixeles. Ası, un objeto tridimensional puede ser descrito por un mapa bidimensional en el

que a cada pareja de coordenadas radiales le corresponde el vector de caracterısticas del objeto

observado desde el punto de vista definido por esas coordenadas y a una distancia arbitraria del

mismo.

Figura 3.1: Puntos de vista para un objeto 3D; b) vista plana y su vector de caracterısticas; yc) otra vista plana y su vector de caracterısticas

Aunque un objeto tridimensional puede presentar vistas muy diferentes entre sı depen-

diendo de la posicion del observador, estas vistas tienden a variar suavemente cuando el ob-

servador se mueve lentamente alrededor del objeto en cuestion. De este modo, los vectores de

caracterısticas de vistas que correspondan a capturas consecutivas, o incluso a puntos de ob-

servacion cercanos, deben ser muy parecidas entre sı, ya que los vectores propuestos presentan


cierta resistencia frente a cambios de perspectiva (Urdiales et al., 2002). Ası, cabe la posibili-

dad de establecer una particion sobre el mapa de vistas de modo que se agrupen en zonas los

vectores de caracterısticas que muestren un elevado parecido entre sı. Por lo tanto, aunque en

teorıa se puede definir un vector de caracterısticas para cada punto del mapa de vistas, no es

necesario almacenar los vectores de todas las posibles vistas del objeto. En lugar de esto, es

posible almacenar solo un conjunto reducido de vistas significativas del objeto. Ası, en el mapa

de vectores de caracterısticas cada zona que corresponda a vistas parecidas entre sı se describe

con un unico vector de caracterısticas, que es representativo para toda esta zona.

En la practica es imposible trabajar con un conjunto de infinitos vectores de caracterısti-

cas, por lo que es indispensable discretizar este conjunto tomando, por ejemplo, muestras desde

puntos de vista angularmente equiespaciados. Con este fin, es necesario definir el nivel de dis-

cretizacion mas adecuado, es decir, la distancia angular entre dos vistas consecutivas, que mejor

describe el objeto. En principio, se podrıa pensar que cuanto mayor sea el numero de vistas

analizadas, mejor o mas exacta sera la descripcion. Sin embargo, se debe recordar que se pre-

tende agrupar los vectores de caracterısticas segun un criterio de parecido. Por lo tanto, tiene

sentido elevar el numero de vistas solo si las nuevas generan nuevas zonas de clasificacion. En

la Fig. 3.2.b y c se muestran dos ejemplos de mapas de representacion de un unico objeto, la

mesa de la Fig. 3.2.a, a dos resoluciones distintas. La clasificacion se ha realizado siguiendo el

mismo algoritmo que posteriormente se utilizara en las pruebas experimentales y cuya eleccion

se justifica mas abajo. A cada clase de vistas se ha asignado arbitrariamente un color a efectos de

visualizacion. Como se puede observar, al disminuir la resolucion del mapa (Fig. 3.2.c) se pierde

inevitablemente gran cantidad de informacion que aparecıa en el mapa de resolucion mayor (Fig.

3.2.b). El principal efecto de esta perdida de informacion es la simplificacion de la forma de las

clases sobre el mapa. No obstante, es logico suponer que los vectores de caracterısticas cercanos

a las fronteras entre zonas se parecen a ambas zonas y no son crıticos para el reconocimiento,

mientras que los vectores de caracterısticas del centro de las clases son muy representativos de

cada clase.

Este planteamiento coincide con la percepcion humana de los objetos tridimensionales.

Si tomamos como ejemplo un objeto geometrico sencillo como un cilindro, podemos observar que

para un ser humano este objeto esta caracterizado por presentar un perfil circular desde la vista

cenital y un perfil rectangular desde las vistas laterales. Para cualquier otra vista el observador

espera un perfil mas o menos elipsoidal de excentricidad variable. Sin embargo, la descripcion

exacta de dichos perfiles intermedios es irrelevante. Para la percepcion humana el hecho de

encontrar un objeto de perfil rectangular que al inclinarlo se suaviza hasta llegar a ser circular


Figura 3.2: Mapas de clases de un objeto 3D: a) Objeto; b) mapa de clases de vistas tomadascon un intervalo angular de 9o; y c) mapa de clases de vistas tomadas con un intervalo angularde 30o

es suficiente para identificarlo como un cilindro, independientemente de la posicion exacta del

lımite entre lo que se considera un rectangulo, un rectangulo suavizado por la perspectiva y un

cırculo.

Esto implica a su vez que es posible describir completamente el mapa de clases de un

objeto relativamente complejo tomando solo un conjunto reducido de vistas del mismo de tal

modo que las clases de vistas definidas por este conjunto sirvan para clasificar todas las vistas

posibles del objeto. En la presente tesis se ha escogido una representacion a partir de vistas

tomadas con 30o de separacion tanto en la direccion azimutal como en la polar.

En la discusion anterior se ha presentado un ejemplo del resultado del sistema de clasi-

ficacion utilizado en esta tesis. Para que el sistema de reconocimiento funcione de modo no

supervisado, es necesario que el sistema de clasificacion de las vistas de cada objeto sea un pro-

ceso automatico. A continuacion se presenta en detalle el algoritmo de clasificacion escogido y

se justifica su eleccion.


Para poder definir el mapa de clasificacion de un objeto se necesita:

Una medida de parecido entre vectores de caracterısticas.

Un algoritmo de clasificacion para los vectores de caracterısticas.

Una definicion del vector de caracterısticas que representa a cada clase.

Una funcion de pertenencia de todos los posibles vectores de caracterısticas sobre el con-

junto de clases.

Como medida de parecido se puede utilizar la distancia Tanimoto definida en la seccion

4.3.3 del capıtulo 2. Como se discutio en dicha seccion, la distancia Tanimoto proporciona

una medida cuantitativa del parecido entre dos siluetas calculado a partir de los vectores de

caracterısticas que las representan. Ademas, como tambien se discutio en la seccion 4.3.3, el

valor de la distancia Tanimoto es aproximadamente proporcional al parecido que una persona

subjetivamente podrıa encontrar entre un grupo de siluetas. Ası, en general se puede afirmar

que si un grupo de siluetas desde el punto de vista humano presentan una cierta similitud,

las distancias Tanimoto entre sus vectores de caracterısticas seran de un orden de magnitud

parecido.

Una vez establecida una medida de la distancia, se necesita realizar una clasificacion de las

siluetas obtenidas de un determinado objeto cuando es observado desde distintos puntos de vista.

Esta clasificacion debe ser de tipo no supervisado, ya que se requiere que los modelos de distintos

objetos se almacenen de modo automatico. Los algoritmos no supervisados de clasificacion o

agrupacion son tecnicas que dividen el espacio en zonas, a cada una de las cuales corresponde

un centroide, que es un elemento caracterıstico de la clase a la que representa. En este caso, la

clasificacion debe atender a criterios basados en la distancia entre vectores de caracterısticas.

Por lo tanto, sera necesario utilizar un algoritmo de agrupacion por busqueda de los vecinos mas

proximos.

La mayorıa de los algoritmos de agrupacion se pueden agrupar en uno de los sigu-

ientes tipos: algoritmos jerarquicos, de particion o de solapamiento (Hartigan, 1979). Los al-

goritmos jerarquicos establecen una relacion de equivalencia mediante una estructura multinivel

o jerarquica que constituye mas bien un arbol de clases o dendograma que se puede construir en

sentido ascendente o descendente (Jain y Dubes, 1988) (Kaufman y Rousseeuw, 1990), siendo la

aproximacion mas frecuente la ascendente. En este caso se considera que cada elemento del con-

junto a clasificar constituye una clase en el nivel 0. En los sucesivos pasos se establecen relaciones


entre las clases, normalmente siguiendo algun criterio de proximidad o parecido. En cada nivel

de la estructura se pueden encontrar clases constituidas por la fusion de varias de las clases del

nivel inferior. El proceso continua hasta que se cumple algun criterio de convergencia. Las clases

de los niveles intermedios no se vuelven a revisar una vez completado el proceso, con lo cual

es difıcil anadir elementos nuevos a un conjunto ya clasificado. Los algoritmos jerarquicos son

faciles de aplicar para la clasificacion basada en distancias pero normalmente presentan cierta

indeterminacion derivada del criterio de convergencia utilizado.

Los algoritmos de particion normalmente comienzan haciendo la suposicion de que existe

un determinado numero k de clases y asignando a cada una de ellas un centroide (Hartigan,

1979). Partiendo de estas hipotesis se utiliza un metodo iterativo de reajuste de la posicion

de los centroides. Para ello es necesario definir una funcion de pertenencia de cada elemento a

uno de los centroides, normalmente por reglas de minimizacion de la distancia. Los ejemplos

mas tıpicos de algoritmos de agrupacion por particion son el k-medias y el k-medoides. La

diferencia entre ambos radica en la definicion del centroide a partir de los elementos de cada

clase: mientras el algoritmo k-medias define el centroide como la media aritmetica de los vectores

que representen a cada uno de los elementos pertenecientes a la clase, el k-medoides escoge como

centroide el elemento mas apropiado entre los pertenecientes a la clase. Teniendo en cuenta cada

nuevo subconjunto de elementos pertenecientes a cada clase se puede redefinir el centroide de

cada clase y volver a evaluar su contenido. El proceso se realiza de forma iterativa hasta que

se cumpla un criterio de convergencia, normalmente la no existencia de cambios respecto de la

ultima iteracion. A diferencia de los algoritmos jerarquicos, se pueden modificar las posiciones

de los centroides en el caso de que el conjunto inicial se enriquezca con elementos nuevos. No

obstante, la particion final suele depender fuertemente de la eleccion inicial de centroides, de

modo que del mismo conjunto inicial se pueden obtener distintas particiones que se adapten

mejor o peor a los elementos clasificados dependiendo de las condiciones iniciales del algoritmo.

Tanto los algoritmos jerarquicos como los de particion asignan a cada elemento la perte-

nencia a una unica clase. Sin embargo, a veces es deseable contar con cierto solapamiento entre

clases. Algunos algoritmos (Kaufman y Rousseeuw, 1990) asignan a cada elemento un coeficiente

difuso de pertenencia a cada una de las clases definidas. El valor de este coeficiente debe estar en

un rango de 0 a 1 y se puede entender como la probabilidad de que el elemento pertenezca a cada

una de las clases. La suma de los coeficientes de un mismo elemento respecto de todas las clases

debe ser igual a 1. Normalmente la distribucion optima de clases se obtiene mediante algorit-

mos de optimizacion relativamente complicados, como el Expectation Maximization (Friedman,

1998). Estos algoritmos de optimizacion son tıpicamente iterativos y cuando el numero de ele-


mentos a clasificar es elevado la clasificacion es lenta.

Para seleccionar el tipo de agrupacion mas adecuado es necesario hacer un analisis de

los datos que se pretende clasificar. Dado un vector de caracterısticas arbitrario y un conjunto

de clases, teniendo en cuenta las consideraciones hechas en el capıtulo 2 sobre la relacion entre

parecido de las imagenes originales y distancia entre sus vectores de caracterısticas en el espacio

de representacion, es logico suponer que la pertenencia del vector propuesto a una de las clases

debe establecerse mediante un criterio de distancias. El criterio de distancia mınima, que en

principio puede parecer el mas adecuado, implica que siempre se va a establecer una relacion

de pertenencia, aun cuando la distancia mınima sea relativamente grande. Por otro lado, los

vectores de caracterısticas proceden de vistas obtenidas a intervalos regulares alrededor de un

mismo objeto. Es logico esperar que este conjunto de vectores se distribuya de forma mas o menos

regular ocupando una zona del espacio de caracterısticas (Campbell y Flynn, 1999) (Murase y

Nayar, 1995). Esto hace deseable que, al dividir esta zona del espacio de caracterısticas en clases,

estas presenten cierto grado de solapamiento. De lo contrario, un vector que estuviera situado a

una distancia similar de los centroides de dos clases, y por lo tanto solo fuera ligeramente mas

parecido a una que a otra, podrıa pertenecer solo a una clase, perdiendose ası la informacion

del parecido con la segunda clase, que podrıa ser valiosa para el reconocimiento. La forma mas

sencilla de representar el solapamiento entre clases es asignar una funcion de pertenencia que

tome un valor distinto de cero siempre que el vector propuesto este dentro de un radio definido

respecto del centroide de cada clase. Esta funcion de pertenencia se podrıa entender en un

sentido estadıstico como la probabilidad de que el vector propuesto pertenezca a cada una de

las clases de vectores de caracterısticas de un objeto dado. Para que no se pierda este significado

estadıstico, la suma de las probabilidades de pertenecer a cada una de las clases debe ser igual

a uno.

Hay que senalar tambien que el numero de clases resultante para cada objeto no tiene

por que coincidir. Es evidente que para describir, por ejemplo, una esfera, cuyas vistas son todas

identicas, solo se necesita una clase, mientras que la descripcion de un objeto de geometrıa

compleja puede incluir varios conjuntos de imagenes muy diferentes entre sı. Para obtener un

numero de clases variable se puede aplicar un algoritmo de clasificacion que crezca de forma

jerarquica.

El metodo de agrupacion que se ha utilizado en la presente tesis es una modificacion del

algoritmo de agrupacion por analisis modal (Urdiales et al., 2002) y cuyo desarrollo consta de

los siguientes pasos:


1. En el estado inicial, cada elemento del conjunto a clasificar se considera el centroide de

una clase que contiene un solo elemento.

2. A continuacion se compara cada centroide con todos los demas. Todos los elementos que

esten situados a una distancia del primero menor que el radio prefijado se consideraran

pertenecientes al mismo.

3. Cada clase se modificara de modo que el nuevo centroide estara situado en la media

aritmetica de todos los elementos que pertenezcan al mismo.

4. En el caso de que los centroides de varias clases coincidan en su posicion, se fusionan en

uno solo.

5. Se comparan los nuevos centroides con los elementos originales. Si hay alguna clase vacıa,

se elimina y si hay algun elemento que no pertenezca a ninguna clase, se anade como

centroide de una clase nueva.

6. Los pasos 2 al 5 se repiten hasta que el conjunto de centroides no sufra ningun cambio de

posicion.

Es de destacar que, tal como se ha definido el algoritmo de agrupacion por analisis modal,

no queda asegurada la convergencia para cualquier conjunto de datos de entrada. De hecho, se

puede demostrar que bajo ciertas condiciones el algoritmo no darıa una solucion estable sino

que oscilarıa entre dos o mas estados inestables. Sin embargo, dado el reducido numero de datos

de entrada y la distribucion aproximadamente regular que adoptan, es muy poco probable que

esto ocurra. De hecho, en los experimentos realizados no se ha llegado a dar nunca tal caso.

Un punto delicado en la implementacion del algoritmo de clasificacion propuesto es la

eleccion de un radio de agrupacion apropiado. Como se comento en la seccion 4.3.3 del capıtulo 2,

las figuras que muestran cierta similitud desde el punto de vista humano guardan entre ellas una

distancia que puede llegar a ser del orden de 0.1 unidades, pero pequenas variaciones alrededor

de este valor podrıan provocar grandes diferencias de interpretacion. Evidentemente, un valor

relativamente grande del radio no es deseable porque resta capacidad de diferenciacion entre

formas distintas. Sin embargo, la eleccion de un radio muy pequeno no es tampoco conveniente

porque esta opcion obligarıa a explorar el objeto a intervalos angulares mas pequenos debido

a que las imagenes del objeto captadas desde puntos intermedios a dos de los contemplados

en el mapa de clases podrıan quedar fuera de la clasificacion. Ademas, el numero de clases de

cada mapa serıa, en general, mayor y esto aumentarıa la carga computacional del sistema de

reconocimiento.


Para escoger un radio de agrupacion apropiado se ha escogido un criterio que intenta

encontrar el mayor valor del radio para el cual se pueden distinguir figuras que una persona

considerarıa diferentes. Es necesario resaltar que, en realidad, no existe un valor ideal de radio

de clasificacion, puesto que depende del grado de parecido entre vistas que se considere ra-

zonable. En todo caso, se puede encontrar un lımite maximo para el radio, por encima del

cual todas las vistas se consideran iguales, y un lımite mınimo, que considera distintas incluso

vistas consecutivas. Para poder escoger un radio adecuado se ha tomado, en primer lugar, un

objeto muy simple: un cubo. El cubo puede ofrecer al observador vistas cuadradas, rectangulares

o romboidales. Es evidente en este caso que el radio de clasificacion debe ser tal que divida el

mapa de vistas en dos o a lo sumo en tres clases. Como se observa en la grafica de la Fig. 3.3.a, el

numero de clases resultante del analisis de las vistas de un cubo se mantiene estable e igual a dos

para valores del radio entre 0.05 y 0.185. Para radios menores el numero de clases se incrementa

rapidamente y para radios mayores las distintas vistas de un cubo serıan indistinguibles entre

sı. En principio, cualquier valor en este rango representarıa un parecido razonable, con mayor

o menor grado de coincidencia, entre las vistas. Para fijar un valor dentro de este rango es

necesario recordar que, para un observador humano, cualquier objeto, por complicado que sea,

siempre tiene un numero limitado de clases de vistas porque siempre se encuentra parecido entre

distintas vistas del mismo objeto. Resulta, ademas, muy conveniente limitar el numero de clases

de vistas para cada objeto por debajo de un cierto nivel para que la carga computacional del

metodo de reconocimiento no sea excesiva.

Figura 3.3: a) Numero de clases de vistas frente al radio de agrupacion para un cubo; b) grupode objetos de diversa complejidad; y c) Numero de clases de vistas frente al radio de agrupacionpara los objetos en (b)

3. Construccion de modelos de objetos 3D 81

Siguiendo este criterio se ha escogido un grupo de objetos de complejidad creciente (Fig.

3.3.b) y se ha estudiado cuantas clases de vistas contienen en funcion del radio de clasificacion

(Fig. 3.3.c). Como se puede observar en la Fig. 3.3.c, para un radio de 0.15 el numero de clases

para los objetos propuestos se mantiene entre 3 y 5, lo que puede resultar una clasificacion

poco precisa, especialmente teniendo en cuenta que el conjunto de la Fig. 3.3.b incluye objetos

relativamente complicados. Para un radio de 0.05 el numero de clases se encuentra entre 6 y 12,

es decir, hay un numero elevado de clases, que necesariamente representan diferencias menores

entre las vistas. El intervalo de radios establecido con el ejemplo de la Fig. 3.3.c es muy parecido

al que se obtenıa analizando un cubo. Por lo tanto, se puede aceptar que cualquier radio de

clasificacion entre estos dos serıa valido. En la presente tesis se ha escogido un radio de 0.075,

para el que las vistas de cada objeto de la Fig. 3.3.b y la mayorıa de los estudiados en esta tesis

se clasifican en menos de 10 clases. Esta eleccion, en la practica, cumple el doble objetivo de

limitar el coste computacional a la vez que representa un grado razonable de parecido entre las

vistas de una misma clase.

3. Construccion de modelos de objetos 3D

En general, la disponibilidad de un buen metodo de descripcion de cada objeto tridimen-

sional no resuelve por sı misma el problema del reconocimiento. Un sistema de reconocimiento

debe extraer de la descripcion de cada objeto aquellos rasgos que sean determinantes para el

reconocimiento y establecer un criterio de similitud entre objetos. Esta fase del algoritmo de

reconocimiento se conoce como modelado.

Existen diversas aproximaciones para la extraccion de rasgos caracterısticos del objeto.

Ası, en los sistemas de reconocimiento clasicos (Bardinet et al., 1995) (Leonardis et al., 1997)

los modelos constan de una representacion parametrica mas o menos aproximada al volumen

del objeto observado. Podrıan entrar tambien en este grupo sistemas como el presentado por

Roh y Kweon (Roh y Kweon, 2000), que aproxima cada objeto por un conjunto de vertices

cuya posicion en el espacio es conocida. Si se pueden detectar los vertices de una observacion, se

puede determinar la naturaleza del objeto por un criterio de cercanıa. Estos metodos presentan

el inconveniente de que, es necesario disponer de un sistema de reconstruccion tridimensional

a partir de vistas planas de un objeto. Normalmente, esto se resuelve por metodos de vision

estereoscopica. Sin embargo, el calculo de la posicion por triangulacion pierde precision a medida

que el objeto observado se aleja del observador. Por otro lado, ligeros cambios de iluminacion o

contraste en las imagenes pueden alterar la posicion y hasta la cantidad de rasgos caracterısticos


de cada imagen observada, dificultando aun mas su comparacion con los modelos predefinidos

(Murase y Nayar, 1994).

En el extremo opuesto al anterior estarıan los metodos de modelado que extraen como

rasgos significativos algunas caracterısticas locales de los objetos. Un buen ejemplo de este tipo

de metodos es la aproximacion cubista de Selinger y Nelson (Selinger y Nelson, 1999).

En la presente tesis se propone el uso de Modelos Ocultos de Markov (MOM) para la

construccion de modelos de objetos tridimensionales. Los modelos de Markov (MM) son habit-

ualmente utilizados para modelar sistemas en los que se puede establecer una clara secuencialidad

de sucesos y se puede afirmar que la probabilidad de ocurrencia de un suceso depende unica-

mente del estado del sistema en el paso anterior y no de la historia del sistema. Una de las

aplicaciones tıpicas de los MM es el reconocimiento de estructuras que adoptan la forma de

una serie temporal, como el reconocimiento de palabras tanto en registros acusticos como en

textos mecanografiados o manuscritos (Kuo y Agazzi, 1994) (Natarajan et al., 2001). Tambien

se han aplicado con exito al reconocimiento de imagenes siempre en casos en los que se puede

extraer una clara secuencialidad del planteamiento del problema. En particular, los MOM han

sido aplicados al reconocimiento de figuras planas basado en la secuencialidad de su contorno.

He y Kundu (He y Kundu, 1991) presentan un sistema de clasificacion de formas planas basado

en modelos ocultos de Markov de densidad continua. En ese caso, la clasificacion se efectua

analizando las relaciones entre segmentos consecutivos del contorno de las figuras observadas.

En (Hornegger et al., 1991) el reconocimiento de figuras planas se basa en modelos ocultos de

Markov cuyos estados ocultos son rasgos de la aproximacion poligonal del contorno comple-

to. No dan resultados para contornos complejos o para figuras distorsionadas, ası que es difıcil

saber como se comportarıa en estos casos, especialmente teniendo en cuenta que las aproxima-

ciones poligonales suelen ser muy sensibles a transformaciones o ruido (Ansari y Delp, 1991).

En el capıtulo 2 se ha presentado un sistema de reconocimiento de figuras planas por medio de

modelos ocultos de Markov, aplicados a una secuencia de esquinas del contorno observado (de

Trazegnies et al., 2003c). En este caso cada contorno queda caracterizado por un conjunto de

esquinas definidas como los extremos de la funcion de curvatura del contorno y caracterizadas

por parametros geometricos locales. El contorno observado queda clasificado como perteneciente

a una clase si la secuencia de esquinas observada sobre su contorno presenta una probabilidad

alta de haber sido generada por el modelo de Markov de dicha clase.

La construccion de un MM para modelar un objeto 3D exige la definicion de los sucesos

o estados observables y el establecimiento de una secuencialidad de observacion. Ası, cada el

modelo de cada objeto constara de un conjunto limitado de estados del sistema y un conjunto


de variables que informaran sobre la probabilidad de encontrar cada estado como secuencial-

mente posterior a cualquier otro estado del sistema. Ası cada modelo llevara implıcita no solo

la informacion que describe al objeto que modela sino tambien la evaluacion de la probabilidad

de que una determinada observacion se corresponda con cada uno de los modelos previamente

almacenados. Una eleccion natural para el conjunto de estados de cada modelo serıa el conjunto

de clases de vistas descrito en la seccion 2. Sin embargo, dado que las clases de vistas pueden

solaparse entre sı, esta eleccion lleva asociada la posibilidad de que una cierta observacion pue-

da corresponder a varios estados del mismo modelo. Como ya se discutio en la seccion 2, una

clasificacion unıvoca de cada vista no serıa totalmente satisfactoria para clasificar un conjunto

de vistas cuya variacion es necesariamente continua. Si cada vista pudiera ser clasificada como

perteneciente a una unica clase, se podrıa resolver el problema con modelos clasicos de Markov.

Como cada vista del objeto puede pertenecer a multiples clases de vistas del mismo, es mas

adecuado el uso de modelos ocultos de Markov.

Un MOM es un MM cuyos estados no son directamente observables. En la Fig. 3.4.a se

muestra el diagrama de un ejemplo de MM con cuatro estados. Los estados son directamente

observables, es decir, en cada instante se puede determinar exactamente el estado actual. Como

se puede apreciar, desde cada estado Hi solo algunos de los otros estados son accesibles en el

orden que marcan las flechas. Cada transicion del estado Hi al estado Hj tiene una probabilidad

de ocurrencia Ai,j , siendo Ai,j = 0 para todas aquellas transiciones para las cuales no se ha

incluido una flecha en el diagrama de la Fig. 3.4.a. Ası, dada una secuencia de estados, se puede

comprobar facilmente si es compatible con el MM propuesto y, de ser ası, evaluar, con la ayuda de

las probabilidades de transicion Ai,j , la probabilidad de que dicha secuencia haya sido generada

como una concatenacion de transiciones entre estados del MM.

Figura 3.4: Esquemas basicos de modelos de Markov sencillos: a) Modelo clasico de Markov; yb) Modelo oculto de Markov cuyas observaciones son elementos de un espacio vectorial bidimen-sional


En un MOM (Fig. 3.4.b), cada estado Hi del sistema esta oculto al observador. Este

solo puede observar el estado de cada instante a traves de medidas indirectas. Ası, un proceso

no estarıa formado por una secuencia de estados Hi sino por una secuencia de observaciones Vi.

Las observaciones ni siquiera tiene por que ser de la misma naturaleza que los estados ocultos.

En este ejemplo se muestra un modelo en el que los estados ocultos pertenecen a un conjunto

discreto de cuatro elementos y las observaciones a un espacio vectorial bidimensional, que es un

conjunto continuo. Cada una de las observaciones se puede relacionar con uno o varios estados.

En el ejemplo de la Fig. 3.4.b se muestra una posible secuencia de tres observaciones (V1, V2, V3).

En este caso, la observacion V1 puede representar al estado H1 o al estado H2, la observacion V2

indica unıvocamente la ocurrencia del estado H2, y la observacion V3 de nuevo puede representar

dos estados: H3 y H4. En estas condiciones es imposible saber con toda seguridad cual ha sido

la secuencia de estados ocultos que subyace bajo la secuencia de observaciones. No obstante,

es posible evaluar la probabilidad de que la secuencia de observaciones haya sido generada por

el modelo propuesto. Para ello de debe elaborar una lista de todas las posibles secuencias de

estados compatibles con la secuencia de observaciones y evaluar la suma de las probabilidades de

que cada una de dichas secuencias de estados hayan sido generadas por el modelo. En la presente

tesis se propone la construccion de MOMs que representan objetos 3D. Cada observacion de un

objeto esta compuesta por una secuencia de vistas del mismo. En la siguiente seccion se presenta

una definicion formal de los parametros que definen el MOM de un objeto.

3.1. Definicion de los modelos ocultos de Markov

Cada modelo λp de un objeto p viene definido por un conjunto de parametros: λp =

(Hp,Πp, Ap, Bp). La eleccion de los parametros apropiados para la definicion de cada MOM es

crucial para el comportamiento del sistema de reconocimiento. En el sistema de reconocimiento

propuesto en esta tesis los parametros λp se han escogido como se detalla a continuacion:

Un conjunto de estados ocultos Hp = {Hp,1,Hp,2, ...,Hp,i, ...,Hp,M} para cada modelo p.

Como se introdujo en la seccion 2, cada objeto almacenado en la base consta de un conjun-

to de observaciones a angulos regulares alrededor del objeto. Los vectores de caracterısti-

cas que representan estas observaciones se clasifican mediante el algoritmo de agrupacion

propuesto. Cada una de las clases procedentes del proceso de agrupacion son los estados

ocultos del modelo y su numero y composicion dependen del radio de agrupacion escogido.

Es necesario observar que, con la presente definicion, los estados ocultos se definen para

cada modelo de forma independiente. Los conjuntos de estados ocultos pueden variar de


un modelo a otro no solo en composicion sino tambien en numero, lo cual facilita, como

se comento en la seccion 2, que cada modelo este adaptado a la complejidad del objeto al

que corresponde.

Un vector de probabilidades iniciales de observacion Πp = (π1, π2, ..., πi, ..., πM ). Cada

elemento πi del vector Πp representa la probabilidad de que, observando el objeto p, se

encuentre una vista perteneciente a la clase i en la primera posicion de la secuencia. Las

componentes de Πp toman valores proporcionales a la frecuencia de aparicion de cada clase

de vistas en el objeto modelado, ajustados de modo que la suma de todas las componentes

este normalizada a la unidad:

M∑i=1

πi = 1 (3.1)

siendo M el numero de clases para cada modelo p.

Una matriz de transicion Ap. Cada elemento ai,j de Ap representa la probabilidad de que,

observando el objeto p, se encuentre una vista correspondiente a la clase j despues de

una vista perteneciente a la clase i. Los coeficientes de la matriz de transicion se ajustan

mediante la aplicacion del algoritmo de Baum-Welch (Rabiner, 1989).

Una matriz de probabilidad de observacion Bp(V q). Los coeficientes bpi,q de la matriz

Bp(V q) relacionan la secuencia de vistas observadas con los estados ocultos del mode-

lo p. Representan la probabilidad de que la q-esima vista observada pertenezca a cada una

de las clases que se identifican con cada estado oculto del sistema. Si la distancia entre la

q-esima vista (V q) y el centroide de la clase i del modelo p (Hp,i) es mayor que el radio

de agrupacion predefinido, entonces bpi,q es igual a 0. Todos los elementos no nulos de cada

columna adoptan el mismo valor de modo que se satisface la igualdad:

M∑i=1

bpi,q = 1 (3.2)

El juego de parametros (Hp,Πp, Ap, Bp) debe ser ajustado de acuerdo con cada modelo

p en la base de datos durante el proceso de entrenamiento. Gracias a la informacion que tenemos

del problema se pueden definir los parametros Hp, Πp, y Bp como se indica arriba. Sin embargo

es conveniente ajustar los coeficientes de Ap de modo que se maximice la probabilidad de que

dada cualquiera de las posibles secuencias de un objeto p esta secuencia haya sido generada por

el modelo λp. Este calculo, como ya se ha comentado, se realiza mediante el algoritmo de Baum-

Welch (Rabiner, 1989). El algoritmo de Baum-Welch, derivado del algoritmo de maximizacion


de esperanza (Expectation Maximization Algorithm), es un metodo de optimizacion local. Por lo

tanto, la eleccion de los parametros iniciales del sistema determinan: i) el numero de iteraciones

necesarias para que el sistema converja a una solucion estable; y ii) la tendencia a converger a un

maximo optimo o de segundo orden. Con este fin se ha inicializado la matriz de transicion Ap con

los valores resultantes de la contabilizacion de transiciones entre cada pareja de estados ocultos

sobre el mapa de clases del objeto en cuestion. Estos valores deben estar cerca de los resultantes

del algoritmo de optimizacion y, de hecho, reducen el numero de iteraciones del algoritmo en la

mayorıa de los casos a menos de 5.

4. Aprendizaje y Reconocimiento

En el analisis mediante MOMs, la definicion de la probabilidad de que una determinada

secuencia de observaciones pertenezca a un objeto, representado por un modelo λp, no es un

problema trivial. En realidad el valor P (V Q|λp), proporcionado por el algoritmo de Baum-Welch

(Rabiner, 1989) indica la probabilidad de que, teniendo el modelo λp, se haya podido generar

una secuencia de observaciones como V Q de entre todas las posibles secuencias de observaciones

del objeto representado por el modelo.

Para ilustrar este punto se puede analizar un ejemplo sencillo de un dado de juego como

el de la Fig. 3.5.a, que puede girar sobre sı mismo, ofreciendo al observador una secuencia de

caras distintas y contiguas. En este caso, se supone que la observacion de cada cara da como

resultado el numero inscrito en la misma sin ninguna ambiguedad, por lo tanto se puede modelar

este proceso con un MM clasico que describa el dado.

El MM del dado se define mediante un vector de probabilidad inicial y una matriz de

transferencia entre estados, ya que, al ser un MM, no es necesario definir una probabilidad

de observacion. En este caso la probabilidad de encontrar una cara cualquiera como primer

elemento de la secuencia debe ser igual a 1/6. Por lo tanto el vector de probabilidad inicial del

dado tomara la forma:

πdado = (16,16,16,16,16,16) (3.3)

Una vez que se ha fijado la observacion de la primera cara, por ejemplo un 5, la probabil-

idad de que la siguiente observacion muestre cada una de las otras caras toma valores diferentes,

puesto que no todas las caras son accesibles desde la que contiene un 5. Es imposible que la

4. Aprendizaje y Reconocimiento 87

Figura 3.5: a) Dado normal de juego; b) dado con la cara 4 repetida; y c) dado con las carasdesordenadas

siguiente cara sea un 5, porque se supone que siempre se debe avanzar a una cara contigua, o

un 2, porque el 2 esta en la cara opuesta al 5 y no es accesible en un solo paso. Ası, se puede

construir una matriz de transicion del dado como:

Adado =

0 14

14

14

14 0

14 0 1

414 0 1

414

14 0 0 1

414

14

14 0 0 1

414

14 0 1

414 0 1

40 1

414

14

14 0

(3.4)

Si se propone una secuencia cualquiera de caras, por ejemplo V Q = (2, 4, 5, 3), se puede

calcular la probabilidad de que, observando una secuencia procedente del dado modelado, la

secuencia coincida con la propuesta:

P (V Q|λdado) = π2 ·A2,4 ·A4,5 ·A5,3 = 2.5 · 10−3 (3.5)

Evidentemente la probabilidad resultante no solo es baja sino que depende del numero

de vistas adquiridas, lo cual dificulta el uso de la probabilidad P (V Q|λdado), ası definida, para

calcular la probabilidad de que el objeto observado sea un dado. Si se quiere definir un umbral

fijo por debajo del cual se considere despreciable la probabilidad de que una secuencia se haya

obtenido de un determinado modelo, este umbral debera depender de una forma complicada


del numero de vistas de la secuencia, del numero de estados de cada modelo, etc. Sin embargo,

sı se puede usar como una medida comparativa. Por ejemplo, se considera que hay tres dados

distintos, el primero es un dado normal de juego (Fig. 3.5.a), el segundo es un dado con la cara

4 repetida y sin cara 3 (Fig. 3.5.b), y el tercero es un dado que no respeta la regla general de que

la suma de sus caras opuestas sea igual a 7 (Fig. 3.5.c). Los modelos de Markov correspondientes

a los dos nuevos dados seran:

πdadob = (16,16, 0,

13,16,16) πdadoc = (1

6 , 16 , 1

6 , 16 , 1

6 , 16) (3.6)

(3.7)

Adadob =

0 14 0 1

214 0

14 0 0 1

2 0 14

0 0 0 0 0 014

14 0 0 1

414

14 0 0 1

2 0 14

0 14 0 1

214 0

Adadoc =

0 0 14

14

14

14

0 0 14

14

14

14

14

14 0 1

414 0

14

14

14 0 0 1

414

14

14 0 0 1

414

14 0 1

414 0

(3.8)

Si se supone que las vistas se adquieren de una en una, y para cada paso se evaluan las

tres probabilidades, se puede observar su evolucion respecto del numero de vistas, representada

en la tabla 3.1:

P (V 1|λx) P (V 2|λx) P (V 3|λx) P (V 4|λx)dado a 1

6124

148

196

dado b 16

112

124 0

dado c 16

124 0 0

Tabla 3.1: Probabilidades de observacion de la secuencia V 4 con MM’s de distintos dados

Debe notarse que los valores de probabilidad ası obtenidos no son en modo alguno la

probabilidad de que el objeto observado sea cada uno de los tres dados modelados, sino de que

con cada uno de los modelos, se pueda obtener la secuencia observada. Ası, si se comparan

valores parciales, se pueden interpretar resultados incorrectos. Por ejemplo, despues de tres ob-

servaciones, el modelo del segundo dado ofrece la probabilidad mas alta de encontrar la secuencia

propuesta. Esto ocurre porque, al no contener la secuencia ninguna observacion de la cara 3, se

puede considerar ligeramente mas probable que la observacion se haya hecho sobre un dado que

no contenga dicha cara. Una vez que aparece la cara 3 en la cuarta vista, la observacion se hace

incompatible con el modelo del segundo dado. El tercer dado contiene las mismas caras que el

primero pero en distintas posiciones. Por lo tanto solo se podra distinguir uno de los dos dados

4. Aprendizaje y Reconocimiento 89

como mas probable si de la secuencialidad de la observacion se puede derivar una probabilidad

de ocurrencia muy baja, o la incompatibilidad con uno de ellos. En el ejemplo propuesto, es

imposible que se observen en el tercer dado las caras 4 y 5 de forma consecutiva, por esto, tras

la cuarta observacion, el unico modelo que aun es posible es el del primer dado.

Ası, se pueden utilizar las probabilidades de observacion de la secuencia dada con cada

uno de los modelos de Markov como una prueba negativa, tomando un numero creciente de

observaciones hasta que se hayan anulado las probabilidades respecto de todos los modelos

existentes menos uno, o hasta que se considere que la comparacion entre los valores de probabi-

lidades es significativamente favorable a uno de ellos. Como los valores de probabilidad se van a

usar solo a titulo comparativo, se puede facilitar la comparacion mediante una normalizacion de

estos valores. En el ejemplo propuesto la probabilidad normalizada toma los valores propuestos

en la tabla 3.2

P ′(V 1|λx) P ′(V 2|λx) P ′(V 3|λx) P ′(V 4|λx)dado a 0.33 0.25 0.33 1dado b 0.33 0.5 0.67 0dado c 0.33 0.25 0 0

Tabla 3.2: Probabilidades de observacion normalizadas de la secuencia V 4 con MM’s de distintosdados

Debe notarse que estos valores sı se pueden interpretar como las probabilidades de que la

secuencia observada corresponda respectivamente a uno de los tres modelos de dados definidos.

Es decir, se puede entender que, conocidos los modelos de dados a, b y c, si se observa la

secuencia propuesta, esta solo puede corresponder al dado a. Debe observarse ası mismo que, si

esta secuencia en particular constara de menos de cuatro vistas, la informacion disponible no

serıa suficiente para distinguir con toda certeza a que dado corresponde.

Es importante observar que un sistema de reconocimiento como el arriba descrito dara re-

sultados muy diferentes dependiendo de la variabilidad del conjunto de modelos elegido. Si los

modelos son muy diferentes entre sı, hasta el punto de que la primera vista sea incompatible

con todos los modelos menos uno, el sistema dara como resultado una probabilidad normalizada

de 1 para pertenencia de la observacion a dicho modelo y no necesitara analizar las siguientes

observaciones de la secuencia.

Es importante remarcar que en el ejemplo anterior se ha presupuesto que las caras de


los dados son perfectamente distinguibles y quedan identificadas unıvocamente por el numero

grabado sobre ellas. Es gracias a ello que este ejemplo se puede resolver mediante MMs. En esta

tesis se propone la resolucion del problema del reconocimiento de objetos 3D mediante MOMs

en lugar de MMs. No obstante, la probabilidad de observacion P (V q|λp), calculada mediante el

algoritmo de Baum-Welch, representa, al igual que en el ejemplo anterior, la probabilidad de

que, dado un objeto p, se encuentre una secuencia de observaciones V q. Este hecho justifica la

necesidad de normalizacion de las probabilidades calculadas respecto el total de los objetos de

cuyos modelos dispone el sistema en un momento dado. La normalizacion ası definida propor-

ciona una medida de la probabilidad de que la secuencia de vistas V q pertenezca al objeto p,

que es la medida de probabilidad utilizada en los resultados que se presentan a continuacion.

5. Resultados

Inicialmente el sistema carece totalmente de informacion sobre los objetos que le seran

presentados. La unica informacion de la que dispone el sistema al comienzo del proceso de

pruebas es una base vectorial del subespacio de dimension reducida que representa a las trans-

formadas discretas de Fourier de todos los posibles contornos de figuras planas y un valor fijado

a priori como radio de agrupacion.

La base vectorial, que se ha calculado como se introdujo en el capıtulo2, seccion 3.3, ha

sido extraıda del conjunto de 27 senales de trafico descrito en la seccion 4 del capıtulo 2 y que

se muestran de nuevo en la Fig. 3.6. La dimension de esta base vectorial es igual a 10 ya que,

como se discutio en la seccion 4.3 del capıtulo 2, esta dimension es suficiente para representar

cualquier contorno de un objeto plano con fines de clasificacion.

Durante el funcionamiento normal del sistema, el proceso de reconocimiento se inicia con

la observacion de la primera vista de un objeto. El sistema calcula la probabilidad de que dicha

vista pertenezca a cada uno de los modelos de los que disponga. Si existe un resultado unico

para el reconocimiento, el proceso se detiene y proporciona este resultado. De lo contrario, el

sistema adquiere una segunda vista y evalua la probabilidad de que la secuencia de dos vistas

pertenezca a cada modelo. El este paso del proceso se repite hasta que el reconocimiento sea

unico o hasta que ninguno de los modelos existentes sea compatible con la secuencia observada,

y por lo tanto se designe el objeto observado como nuevo. En este ultimo caso, se debe iniciar

el algoritmo de aprendizaje.

Al inicio del funcionamiento, dado que el sistema aun no dispone de ningun modelo, por

5. Resultados 91

Figura 3.6: a) Conjunto de 27 anagramas de senales de trafico: y b) ejemplos de deformacionesaplicadas al conjunto anterior

defecto se debe iniciar el aprendizaje del primer objeto presentado al sistema. En cualquiera de

los dos casos, el algoritmo de aprendizaje consta de los siguientes pasos:

1. Se capturan 72 vistas del objeto espaciadas regularmente alrededor del mismo cada 30o en

las direcciones azimutal y polar.

2. Se realiza un proceso de agrupacion no supervisado de las vistas almacenadas en clases.

El numero de clases, como se comento en la seccion 2 del presente capıtulo, depende del

radio de agrupacion escogido.

3. Se traza un mapa de las vistas del objeto de acuerdo con la distancia de cada una de ellas

a cada una de las clases de clasificacion. Para el caso del cubo de la Fig. 3.7.a, se muestra

este mapa en la Fig. 3.7.b, en la que se ha sobreimpreso, para mayor claridad, sobre cada

posicion del mapa una imagen de la vista a la que corresponde.

4. Se construye un modelo oculto de Markov correspondiente al mapa del objeto propuesto,

siguiendo el algoritmo Baum-Welch, como se describe en la seccion 3.1.

5.1. Funcionamiento del sistema de reconocimiento frente a una base de ob-jetos predefinida

Para comprobar el comportamiento del algoritmo propuesto, se ha generado un conjunto

de 15 objetos virtuales (Fig. 3.8). En este conjunto se han incluido intencionadamente objetos


Figura 3.7: a) Cubo; y b) mapa de clases del cubo

Figura 3.8: Conjunto de objetos de prueba

que, aun siendo distintos, presentan vistas similares, de modo que podrıan llegar a dar lugar a

confusion en su reconocimiento.

En primer lugar, como aun no hay objetos ya entrenados en el sistema con los que poder

comparar, se ha forzado el entrenamiento de dos objetos geometricos sencillos: una esfera y un

cubo (Fig. 3.8.a y b). Para cada objeto el proceso de entrenamiento consiste en los siguientes

pasos:

Tras el proceso de entrenamiento, un objeto p queda representado por un modelo oculto

de Markov λp. Es importante resaltar que la informacion contenida en cada modelo λp no

incluye datos sobre cada una de las vistas exploradas para crearlo. El juego de parametros

5. Resultados 93

(Hp,Πp, Ap, Bp) que definen al modelo λp contiene unicamente informacion sobre un conjunto

reducido de vistas tıpicas del objeto en cuestion y un conjunto de parametros que expresan

la probabilidad de encontrar una determinada secuencia de vistas tıpicas al explorar el objeto

original. Esto significa que cuando se presente un nuevo objeto al sistema, la probabilidad de que

la secuencia observada pertenezca a un cierto objeto ya almacenado sera no nula siempre que

cada una de las vistas observadas sea similar a uno de los estados ocultos del modelo de dicho

objeto y que el orden en que dichas vistas han sido observadas no sea incompatible con la matriz

de transicion Ap del modelo. Es necesario recordar asimismo que para poder establecer una

comparacion entre la probabilidad de que la secuencia observada pertenezca a uno u otro objeto,

la suma de todas las probabilidades de observacion respecto de todos los modelos almacenados

en el sistema se normaliza a la unidad como se describe en la seccion mas arriba.

Tras la esfera y el cubo, se presenta un tercer objeto al sistema. El objeto presentado es

un paralelepıpedo alargado (Fig. 3.8.c) que presenta vistas muy similares a las del cubo desde

determinadas perspectivas. Si alguna de estas vistas fuera presentada como primera vista de

la secuencia, el sistema interpretarıa que el objeto observado es un cubo, ya que de los dos

objetos conocidos, el unico compatible con la vista observada es el cubo. No obstante, durante

las pruebas la orientacion de la vista inicial es escogida al azar, y en este caso la primera vista

no es compatible con ninguno de los dos objetos a disposicion del sistema (Fig. 3.9.a). En

consecuencia, el sistema no reconoce el objeto propuesto y demanda el entrenamiento de un

nuevo modelo.

Una vez adquirido el tercer modelo se puede repetir el experimento de reconocimiento

con el mismo objeto. Como se puede observar en la Fig. 3.9.b, la primera vista es similar a

algun estado oculto del cubo y a alguno del paralelepıpedo. En este caso la probabilidad de

ser reconocido como cualquiera de los dos modelos anteriores coincide. Sin embargo, una vez

adquirida la segunda vista, queda claro que el unico reconocimiento posible se da para el tercer

modelo.

El cuarto objeto presentado al sistema es el cilindro mostrado en la Fig. 3.8.d. La vista

superior del cilindro es igual a cualquier vista de la esfera, mientras que las vistas laterales son

similares a algunas del paralelepıpedo (Fig. 3.8.c). En este caso es previsible que las diferencias

entre unos y otros queden marcadas por la secuencialidad del conjunto de observaciones. En

la Fig. 3.10 se presentan dos pruebas de reconocimiento del nuevo objeto. En Fig. 3.10.a la

primera vista es un rectangulo. El sistema conoce dos objetos con vistas rectangulares: el cubo

y el paralelepıpedo. Ası, el sistema considera necesario adquirir una vista mas para tomar una

decision. La segunda vista no guarda parecido con ninguno de los dos objetos propuestos. Esta


Figura 3.9: Prueba de reconocimiento para el objeto en Fig. 3.8.c

Figura 3.10: Prueba de reconocimiento para el objeto en Fig. 3.8.d cuando el sistema aun notiene modelo para el mismo: a) partiendo de una vista lateral; y b) partiendo de una vista cenital

5. Resultados 95

vista, por su forma redondeada, podrıa considerarse similar a la esfera, pero el modelo de la

esfera queda descartado por no casar con la primera vista. El nuevo objeto es etiquetado como

desconocido y comienza la rutina de entrenamiento.

Si la primera vista hubiera sido cenital (Fig. 3.10.b), el sistema habrıa dado un falso

positivo para la esfera, puesto que es el unico objeto conocido con vistas circulares. Por claridad

se ha anadido aquı una segunda vista que el sistema no pedirıa en este caso. Como la segunda

vista es similar a la circular, en este caso el reconocimiento queda confirmado como una esfera.

La Fig. 3.11 muestra las mismas pruebas de reconocimiento de la Fig. 3.10 una vez

que el sistema conoce el modelo del cilindro propuesto. En el primer ejemplo (Fig. 3.11.a), se

puede observar que ahora la primera vista lleva al sistema a una disyuntiva entre los modelos del

paralelepıpedo, el cubo y el cilindro. En principio los dos primeros aparecen con una probabilidad

de reconocimiento mayor. Esto es debido a que la probabilidad de encontrar una vista rectangular

en un paralelepıpedo es sensiblemente mayor a la probabilidad de encontrarla en un cilindro. Sin

embargo no es suficiente para clasificar el objeto observado, puesto que aun hay tres modelos

que casan con el objeto observado. En la siguiente vista ya aparece el perfil redondeado del

cilindro, gracias a lo cual el unico objeto al que puede corresponder esta secuencia es el cilindro.

En la Fig. 3.11.b el sistema necesita un total de tres vistas porque al empezar por figuras mas o

menos redondeadas, el sistema mantiene como posible solucion la esfera durante mas pasos de

la secuencia hasta poder distinguir claramente este cilindro.

Siguiendo el mismo proceso se han presentado al sistema los objetos que componen el

conjunto de prueba en el mismo orden en el que aparecen representados en la Fig. 3.8. La vista

de comienzo de la secuencia se ha elegido al azar. Si el sistema no lo reconoce, elabora el modelo

correspondiente y lo anade al conjunto de objetos conocidos para futuras pruebas. Los resultados

de estas pruebas se muestran en las Figs. 3.12-3.21.

Al presentar el cilindro de la Fig. 3.8.e el sistema considera que es similar al de la Fig.

3.8.d. En efecto, las diferencias entre ambos solo son patentes si se analiza una vista frontal, por

lo tanto el sistema no considera necesario el entrenamiento de un nuevo modelo para el mismo.

La primera vez que se presenta al sistema el cono en la Fig. 3.8.f, su forma caracterıstica

es ya apreciable en la primera vista, por lo que el sistema considera inmediatamente que es

desconocido. Despues de completar el proceso de entrenamiento del nuevo modelo, se vuelve

a presentar el mismo cono al sistema con el fin de confirmar que el modelo se ha almacenado

correctamente (Fig. 3.12.b). Se puede observar como el hecho de que la primera vista sea muy

caracterıstica hace que una vez que se dispone del modelo adecuado, el reconocimiento quede


Figura 3.11: Prueba de reconocimiento para el objeto en Fig. 3.8.d una vez que el sistema tieneun modelo para el mismo: a) partiendo de una vista lateral; y b) partiendo de una vista cenital

Figura 3.12: Prueba de reconocimiento para el objeto en Fig. 3.8.f: a) cuando el sistema aun notiene modelo para el mismo; y b) una vez que su modelo ha sido adquirido

5. Resultados 97

Figura 3.13: Prueba de reconocimiento para el objeto en Fig. 3.8.g: a) cuando el sistema aun notiene modelo para el mismo; y b) una vez que su modelo ha sido adquirido

determinado sin necesidad de adquirir nuevas vistas.

El cono de la Fig. 3.8.g es bastante mas obtuso que el anterior, en muchas de sus vis-

tas el vertice queda disimulado y su forma aproximadamente circular. En la Fig. 3.13.a se ha

presentado este objeto al sistema de forma que las dos primeras vistas pueden dar lugar a un

falso reconocimiento como una esfera o bien como un cilindro. Como el sistema no encuentra un

resultado unico, requiere una vista mas. En la tercera vista, el vertice es ya visible, la secuencia

resultante no puede pertenecer a ninguno de los objetos almacenados hasta el momento, por lo

tanto el sistema anade un modelo del nuevo objeto a los ya existentes. En la Fig. 3.13.b de nuevo

se muestra la confirmacion del reconocimiento correcto una vez adquirido el nuevo modelo.

Las Figs. 3.14 y 3.15 muestran dos ejemplos similares a los anteriores. En el primer

caso, la botella de la Fig. 3.8.h, todas las vistas del objeto presentado son muy distintas a los

objetos existentes. Tanto para la clasificacion del objeto como desconocido (Fig. 3.14.a) como

para la verificacion de reconocimiento posterior al entrenamiento (Fig. 3.14.b) una unica vista

es suficiente. En el caso de la botella en Fig. 3.8.i la vista cenital presenta un perfil circular, pero

una segunda vista es suficiente para que el sistema asigne una clasificacion correcta.

La Fig. 3.16 muestra un ejemplo de reconocimiento erroneo. En este caso el objeto prop-


Figura 3.14: Prueba de reconocimiento para el objeto en Fig. 3.8.h: a) cuando el sistema aun notiene modelo para el mismo; y b) una vez que su modelo ha sido adquirido

Figura 3.15: Prueba de reconocimiento para el objeto en Fig. 3.8.i: a) cuando el sistema aun notiene modelo para el mismo; y b) una vez que su modelo ha sido adquirido

5. Resultados 99

Figura 3.16: Prueba de reconocimiento erroneo para el objeto de la Fig. 3.8.j

uesto, la copa en Fig. 3.8.j, muestra una secuencia de vistas que induce al sistema a relacionarla

con un modelo que no le corresponde y que, en realidad, solo presenta un vago parecido con la

misma. Evidentemente el problema se resolverıa si alguna de las vistas disponibles fuera frontal,

de modo que el perfil caracterıstico de la copa fuera visible. Sin embargo en esta prueba se ha

querido respetar el caracter no supervisado del sistema de reconocimiento para no influir en el

resultado de los experimentos con informacion a priori sobre la naturaleza de los objetos estudi-

ados. En cualquier caso, es importante puntualizar que el sistema de reconocimiento propuesto

debe ser capaz de entrenar nuevos modelos a medida que los necesite, siempre que encuentre

objetos desconocidos en su entorno. Ası, si en el futuro se vuelve a presentar la misma copa

desde otra perspectiva y el sistema no encuentra ningun modelo parecido a ella, se iniciara una

secuencia de entrenamiento y se anadira el nuevo modelo al conjunto. Despues de esto, una

repeticion del mismo experimento de la Fig. 3.16 no devolverıa un resultado erroneo.

El proceso de observacion y eventual entrenamiento de nuevos modelos continua presen-

tando uno a uno los objetos de la Fig. 3.8 en el orden en el que aparecen en dicha figura. Algunas

de estas pruebas se muestran en las Figs. 3.17-3.21. En los casos en los que ha sido necesaria la

adquisicion de un nuevo modelo por considerar que el objeto presentado es desconocido, se ha

presentado una segunda vez el mismo objeto para realizar una confirmacion del reconocimiento

correcto. En estos casos se han representado ambas pruebas en la misma figura.


Figura 3.17: Prueba de reconocimiento para el objeto en Fig. 3.8.k: a) cuando el sistema aun notiene modelo para el mismo; y b) una vez que su modelo ha sido adquirido

Figura 3.18: Prueba de reconocimiento para el objeto en Fig. 3.8.l: a) cuando el sistema aun notiene modelo para el mismo; y b) una vez que su modelo ha sido adquirido

5. Resultados 101

Figura 3.19: Prueba de reconocimiento para el objeto en Fig. 3.8.m: a) cuando el sistema aunno tiene modelo para el mismo; y b) una vez que su modelo ha sido adquirido

Figura 3.20: Prueba de reconocimiento para el objeto en Fig. 3.8.n: a) cuando el sistema aun notiene modelo para el mismo; y b) una vez que su modelo ha sido adquirido


Figura 3.21: Prueba de reconocimiento para el objeto en Fig. 3.8.p: a) cuando el sistema aun notiene modelo para el mismo; y b) una vez que su modelo ha sido adquirido

Cada vez que se presente nuevamente un objeto al sistema, sera reconocido como corre-

spondiente a su propio modelo, como similar a alguno de los modelos existentes, o bien sera eti-

quetado como objeto desconocido y el sistema adquirira un nuevo modelo para el mismo. Al

cabo de algunos ensayos todos los objetos del conjunto de prueba deben tener un modelo propio

o bien un modelo al que son tan similares que no se justifica el entrenamiento de un modelo

propio. En el caso en particular de los objetos de la Fig. 3.8 finalmente se ha entrenado un

modelo para cada uno de los objetos. Es importante notar que el grado de parecido tolerable

entre objeto y modelo esta fuertemente influenciado por la eleccion del radio de clasificacion de

vistas, que se introdujo en la seccion 2. Si se hubiera escogido un radio mayor, para algunos

de los objetos del conjunto de entrenamiento no se habrıa requerido un modelo especıfico, en

lugar de esto, habrıan sido reconocidos como similares a alguno de los modelos a los que mas se

parecen. Para ilustrar este fenomeno, se ha incluido en la tabla 3.3 un resumen de los resultados

de la repeticion del conjunto de pruebas anteriores para varios valores del radio. En esta tabla,

en la primera columna aparecen los objetos del conjunto de pruebas, identificados por el mismo

codigo que se les asigno en la Fig. 3.8. En cada una de las columnas de la derecha aparecen

los objetos que han sido clasificados como similares a cada modelo. Los recuadros que aparecen

vacıos indican que para el radio de la columna correspondiente, el sistema no ha considerado

necesario adquirir ese modelo. Como se puede observar, a medida que aumenta el radio de clasi-

5. Resultados 103

Modelo \ Radio 0.075 0.1 0.15 0.2(a) esfera esfera esfera esfera esfera(b) cubo cubo cubo cubo cubo

paralelepıpedo paralelepıpedo(c) paralelepıpedo paralelepıpedo paralelepıpedo

(d) cilindro 1 cilindro 1 cilindro 1 cilindro 1 cilindro 1(e) cilindro 2 cilindro 2 cilindro 2 cilindro 2 cilindro 2

(f) cono 1 cono 1 cono 1 cono 1 cono 1bombilla

(g) cono 2 cono 2 cono 2 cono 2(h) botella 1 botella 1 botella 1 botella 1 botella 1

botella 2 botella 2tetera

(i) botella 2 botella 2 botella 2(j) copa 1 copa 1 copa 1 copa 1 copa 1

cono 2(k) copa 2 copa 2 copa 2 copa 2 copa 2

copa 3 copa 3botella 2 botella 2tetera tetera

(l) copa 3 copa 3 copa 3(m) bombilla bombilla bombilla bombilla

(n) mesa mesa mesa mesa mesa(p) tetera tetera tetera

Tabla 3.3: Resultados de reconocimiento para distintos radios de clasificacion de vistas

ficacion, el sistema necesita cada vez menos modelos para representar el conjunto de objetos.

No obstante, en todos los casos, los objetos para los cuales el sistema carece de un modelo, son

reconocidos como objetos con los cuales comparten un fuerte parecido. La eleccion de un radio

en particular depende del grado de similitud requerido en las pruebas. En la presente tesis se ha

fijado, como se comento en la seccion 2, el valor de 0.075.

Los objetos de la Fig. 3.8 han sido escogidos para presentar cierta similitud en algunas

vistas pero, en general, se pueden considerar distintos entre sı. Es interesante observar que el

hecho de que el sistema conozca mas objetos le dota de una mayor capacidad de resolucion para

distinguir entre objetos similares. Para ilustrar esta idea se ha repetido la prueba de la Fig.

3.16, donde habıa un error de reconocimiento, una vez que el sistema conoce modelos para la

mayorıa de los objetos propuestos. El resultado se muestra en la Fig. 3.22. En la prueba de la Fig.

3.16 el sistema solo conocıa los modelos de 6 objetos y eligio entre ellos el unico que resultaba

compatible con la secuencia de vistas. En esta ocasion (Fig. 3.22.a), el sistema ya conoce 13

modelos distintos. El hecho de que varios de los modelos conocidos sean compatibles con las dos


primeras vistas de la secuencia de observaciones hace que el sistema pida una tercera vista con

la cual puede decidir que efectivamente el objeto era desconocido y requiere un modelo propio.

Figura 3.22: Segunda prueba de reconocimiento para el objeto en Fig. 3.8.j cuando el sistemaya dispone de muchos modelos: a) mientras el sistema aun no tiene modelo para el mismo; y b)una vez que su modelo ha sido adquirido

Cabe imaginar que, como las secuencias de vistas pueden comenzar desde cualquier

orientacion arbitraria alrededor del objeto, podrıan darse casos de secuencias de vistas ambıguas

que indujeran al sistema a un error de reconocimiento. Para comprobar la fiabilidad del sistema

en el reconocimiento de los objetos originales sin distorsion de ningun tipo se ha realizado una

prueba estadıstica con los objetos de la Fig. 3.8. Para realizar esta prueba se han presentado

al sistema cincuenta secuencias de vistas de cada objeto. La orientacion de la vista inicial ha

sido escogida al azar de modo que se puede suponer que la prueba incluye secuencias de vistas

uniformemente distribuidas alrededor de cada objeto. El resultado del reconocimiento es correcto

en el 100 % de los casos, es decir, aun en los casos en los que algunas de las vistas observadas

sean comunes a varios objetos, el sistema es capaz de relacionar todas las secuencias con los

objetos correctos.

5. Resultados 105

5.2. Comportamiento del sistema frente a variaciones de escala de los objetospresentados

La primera variacion que se introduce en los objetos que se presentan al sistema para

su reconocimiento en esta serie de experimentos es una variacion de escala. En principio, el

sistema debe ser completamente invariante frente a distintas escalas siempre que el contorno

del objeto sea completamente visible dentro del campo de la imagen. Esto ocurre porque, como

se discutio en el capıtulo 2, la funcion de curvatura propuesta, una vez normalizada a una

longitud fija, es invariante a cambios de escala del contorno. Sin embargo, esta afirmacion tiene

una limitacion cuando el objeto se hace progresivamente mas pequeno. En efecto, si el objeto

es muy pequeno, aparece una deformacion por discretizacion que puede llegar a afectar a la

representacion del objeto a traves de su funcion de curvatura. En la Fig. 3.23 se puede observar

como cambia la funcion de curvatura de un contorno tan simple como una circunferencia a

medida que se reduce su escala.

Una circunferencia debe tener una curvatura constante, pero la representacion digital de

la misma tiene una curvatura que es solo aproximadamente constante. Se puede apreciar que

la aproximacion es bastante razonable en los dos primeros ejemplos (Fig. 3.23.a y b). En el

Figura 3.23: FCs de tres circunferencias de distintas longitudes: a) circunferencia de 594 pixelesde longitud; b) de 282 pixeles; y c) de 86 pixeles.


tercer ejemplo (Fig. 3.23.c) se puede ver sin embargo, que la longitud de la circunferencia es tan

pequena que su discretizacion produce el efecto de convertir lıneas curvas en rectas separadas

entre sı por vertices. Como se puede observar en la Fig. 3.23.c, los tramos de curva sustituidos

por vertices ocupan aproximadamente un 10% de la longitud total de la curva, lo que constituye

una fraccion apreciable de la misma. A esta escala, el ruido de discretizacion no es filtrado por la

funcion de curvatura adaptativa porque el algoritmo de calculo considera que forma parte de los

rasgos significativos de la figura. Ası, la representacion mediante la funcion de curvatura empieza

a presentar cuatro picos bien diferenciados, mostrando ya una clara evolucion hacia la funcion

de curvatura que corresponderıa a un cuadrado. En conclusion, las funciones de curvatura de

figuras pequenas no tienen por que parecerse a las de sus homologas mayores. El lımite inferior

del tamano requerido para que la funcion de curvatura sea representativa vendra determinado

por la relacion de escala entre los rasgos significativos de la imagen y el ruido de discretizacion,

de tal modo que la escala natural del objeto y la del ruido de discretizacion sean distinguibles.

Cuando se extiende este razonamiento al reconocimiento de objetos tridimensionales a

distintas escalas, aparece la misma limitacion. Es decir, el reconocimiento de objetos tridimen-

sionales sera invariante a la escala en la que se presenten siempre que el objeto no se presente a

una escala extremadamente reducida. En la Fig. 3.24 se muestra la mesa de la Fig. 3.8 y tres rep-

resentaciones de la misma al 150 %, 75% y 50 % de su escala original, respectivamente. Debajo

de cada una de las tres mesas se muestra el mapa de clasificacion de sus vistas. En esta ocasion

la clasificacion se hace siempre respecto de los estados ocultos del modelo de la mesa original de

modo que, en este caso, un mismo color en dos mapas distintos sı se corresponde con un mismo

estado oculto. Se han dejado en negro las posiciones correspondientes a vistas cuyo vector de

caracterısticas no se ha podido relacionar con ninguno de los estados ocultos del modelo. Como

se puede observar, tanto para la representacion de mayor tamano como para la intermedia los

mapas de clasificacion son casi identicos al original, mientras que se notan diferencias apreciables

en algunas vistas de la representacion mas pequena. Se puede ver en la grafica de la Fig. 3.24.e

que la tasa de reconocimiento de la mesa mas pequena desciende hasta el 68% mientras que

para las demas se mantiene al 100 %. Es decir, salvo en los casos de reduccion drastica de escala

del objeto observado, el sistema de reconocimiento considera identicos los objetos que presentan

la misma forma aunque distinta escala.

5. Resultados 107

Figura 3.24: a) Mesa del conjunto inicial de objetos y su mapa de clases; b) la misma mesa al150 % de su escala natural y su mapa respecto de las clases de la mesa en (a); c) la misma mesaal 75% de su escala natural y su mapa respecto de las clases de la mesa en (a); d) la misma mesaal 50 % de su escala natural y su mapa respecto de las clases de la mesa en (a); y e) Porcentajesde reconocimiento correcto de (b)-(c) como similares al objeto en (a)

5.3. Comportamiento del sistema frente a un conjunto de objetos de formasimilar

La siguiente prueba esta destinada a comprobar el funcionamiento del sistema cuando se

le presentan varios objetos del mismo tipo. A tal fin se ha seleccionado un conjunto de objetos

de forma cilındrica que a partir de ahora estaran referidos como cilindros (a), (b), (c) y (d)

segun el etiquetado de la Fig. 3.25. Al comienzo de la prueba el sistema contiene los modelos

de todos los objetos estudiados hasta este momento, excepto el correspondiente al cilindro (d),

es decir, no contiene modelos de ningun objeto de forma cilındrica. Los cilindros de la Fig.

3.25 se presentan al sistema sucesivamente. Cada vez que se completa la adquisicion de un

nuevo modelo, se comprueba la tasa de reconocimiento de cada objeto respecto de cada modelo.

Debido a que, en algunos casos, los nuevos objetos son etiquetados como desconocidos, si se

permitiera operar al sistema libremente, este realizarıa el entrenamiento de todos ellos mucho

antes de haber completado la comprobacion. Para evitar este inconveniente se ha bloqueado la

rutina de entrenamiento y solo se permite acceder a ella una vez completada la comprobacion de

los porcentajes de reconocimiento. Ası, el orden de entrenamiento se escogera de tal manera que

los nuevos objetos adquiridos seran aquellos para los que la suma de las tasas de reconocimiento

respecto de todos los modelos de los que el sistema disponga sea menor. Los resultados de este

experimento se muestran en la Fig. 3.26.

Como primer objeto se escoge el cilindro de la Fig. 3.25.b, cuya forma esta en un punto


Figura 3.25: Conjunto de objetos cilındricos

Figura 3.26: Porcentajes de reconocimiento de los cilindros de la Fig. 3.25: a) cuando el sistemacarece de modelos para los cilindros (a), (c) y (d); b) cuando carece de modelos para los (a) y(c); y c) cuando carece de modelo para el (a)

intermedio entre todos los demas cilindros y por tanto guarda cierto parecido con todos. Al

ser desconocido, el sistema adquiere un modelo para el mismo. De hecho, los porcentajes de

reconocimiento cuando el sistema solo dispone de este modelo son bastante satisfactorios. Como

se aprecia en la Fig. 3.26.b, dos de los cilindros estan relacionados incluso en un 100 % de

los ensayos con un modelo conocido. Los demas presentan tasas de reconocimiento que van

decreciendo a medida que la forma de los cilindros propuestos se va separando de la del cilindro

(b), utilizado para generar el modelo. Como el menor porcentaje de reconocimiento corresponde

al cilindro (d), se permite que se genere un modelo para el mismo.

Como se puede apreciar en la Fig. 3.26.b, las tasas de reconocimiento de los cilindros (a)

y (b) son identicas a las de la prueba anterior. Sin embargo, el cilindro (c) pasa de una tasa total

de reconocimiento del 86 % a 74 %, y ademas segun el punto de comienzo de la secuencia de

observaciones, el sistema le puede encontrar parecido con cualquiera de los dos modelos de los

cilindros (b) y (d) cuya forma es respectivamente un poco mas achatada o mas alargada que la

del cilindro (c). Es decir, ahora el sistema no solo es capaz de distinguir entre las observaciones

del cilindro (c) que se parecen mas al (b) o al (d) sino que tambien en ocasiones nota que se trata

5. Resultados 109

de un nuevo objeto. La adquisicion de un nuevo modelo para el cilindro (c) deja el conjunto de

objetos cilındricos completamente clasificado.

Es importante resaltar que la adquisicion por parte del sistema de un numero creciente

de modelos para objetos similares entre sı le dota de la capacidad de distinguir diferencias cada

vez menores. Ası, los resultados del sistema para un mismo objeto pueden evolucionar hacia el

modelo que en cada momento se le parezca mas. El sistema puede incluso llegar a notar que

un objeto, que anteriormente ha sido reconocido como similar a alguno de los modelos previos

en un gran porcentaje de los ensayos, en realidad presenta suficientes diferencias como para

considerarlo un objeto desconocido y requerir un nuevo modelo para el mismo. En realidad, este

comportamiento es bastante similar al de un ser humano, que distingue diferencias mas sutiles

conforme aumenta su educacion en un determinado ambito.

Tambien es interesante observar que el orden en el que se presenten los objetos al sistema

influye en cierta medida en la composicion de los modelos de los que dispondra para posteriores

ensayos. Ası, por ejemplo, si se eliminan todos los modelos de cilindros ya adquiridos y se repite

la prueba permitiendo que el sistema adquiera en primer lugar el modelo del cilindro (a), el

resultado final es ligeramente distinto (Fig. 3.27).

Como se puede apreciar en la grafica de la Fig.3.27.a, el cilindro (b) es reconocido como

similar al (a) en un 92 % de las secuencias de prueba. A diferencia del experimento anterior,

ahora la tasa de reconocimiento del cilindro (c) es muy baja debido a que el cilindro (c) presenta

diferencias importantes con el (a). El cilindro (d) es dado por desconocido en todos los ensayos.

El siguiente modelo en ser entrenado es el del cilindro (d). Al poseer el sistema modelos de los

dos cilindros de forma mas extrema, todos los cilindros del conjunto inicial presentan tasas de

Figura 3.27: Porcentajes de reconocimiento de los cilindros de la Fig. 3.25 a) cuando el sistemacarece de modelos para los cilindros (b), (c) y (d); b) cuando carece de modelos para los (b) y(c); y c) cuando carece de modelo para el (b)


reconocimiento relativamente altas y el conjunto inicial queda clasificado en dos clases claramente

diferenciadas por su forma. Sin embargo, la tasa de reconocimiento del cilindro (c) justifica que

se considere necesario adquirir un nuevo modelo para el mismo. Tras este paso, la clasificacion

del cilindro (b), para el cual el sistema no tiene modelo, pasa del modelo (a) al (c) con el que

guarda un mayor parecido. Es importante notar que, a pesar de que en este caso el numero

de modelos de que el sistema dispone tambien es igual a tres, la clasificacion del conjunto no

presenta la misma distribucion que en el caso anterior y, ademas, aun no es completa, es decir,

el orden en el que el sistema adquiere los modelos de los objetos de su entorno influye sobre

la distribucion de la clasificacion de los mismos y sobre el numero total de modelos que seran

necesarios para clasificar un determinado conjunto.

Estas caracterısticas del sistema de reconocimiento propuesto lo acercan en cierto modo

a la percepcion humana de la clasificacion. En efecto, el ser humano alcanza una gran resolucion

de clasificacion en conjuntos con los que esta muy familiarizado y sin embargo tiende a simplificar

cuando el conjunto de clasificacion le es parcialmente desconocido.

5.4. Comportamiento del sistema frente a deformaciones de los objetos orig-inales

Uno de los retos mas importantes en la tarea de reconocimiento de objetos es la capacidad

para reconocer o clasificar versiones deformadas de los objetos originales. Esto es especialmente

importante si se pretende que el sistema sea capaz de operar con objetos reales. Por ejem-

plo, los objetos observados en un entorno real pueden sufrir en mayor o menor grado fallos

de segmentacion como ruido u oclusiones. Ademas, algunos de los objetos observados pueden

pertenecer a la misma clase que uno de los modelos adquiridos aun cuando presenten pequenas

diferencias morfologicas.

Para que el sistema de reconocimiento sea flexible frente a distorsiones, deformaciones

o ruido de segmentacion es necesario que el metodo de representacion de figuras planas sea

invariante frente a distorsiones de la imagen plana o bien que el metodo de comparacion con

los modelos de objetos contemple cierta tolerancia. El sistema de reconocimiento propuesto en

la presente tesis desarrolla ambas estrategias. En primer lugar, el metodo de representacion de

vistas planas mediante vectores de caracterısticas filtra gran parte del eventual ruido en los

contornos de las figuras observadas. Como se demostro en el capıtulo 2, la funcion de curvatura

adaptativa representa cada contorno segun su propia escala natural, filtrando el ruido super-

puesto a la imagen. Posteriormente, la extraccion del vector de caracterısticas mediante Analisis

de Componentes Principales retiene unicamente la informacion relevante de la imagen. De este

5. Resultados 111

modo, los vectores de caracterısticas de una imagen y su version deformada seran muy parecidos

entre sı. Es decir, la representacion es robusta frente a deformaciones o distorsiones, pero no

es completamente invariante. Al no poder asegurar la identidad completa de los vectores de

caracterısticas de las versiones distorsionadas respecto del vector de caracterısticas de la ima-

gen original sin deformar, es necesario que la estrategia de reconocimiento tambien se plantee

considerando la posibilidad de pequenas diferencias entre los vectores de caracterısticas. Los

modelos ocultos de Markov son especialmente adecuados para este fin. Durante el proceso de

reconocimiento, como se detallo en la seccion 4, cada vista es relacionada de modo probabilıstico

con los estados ocultos del modelo correspondiente. Esta relacion se establece de acuerdo con

una medida del parecido entre el vector de caracterısticas de la vista observada y los asignados a

los estados ocultos. Ası, el hecho de que una vista se vea afectada de algun tipo de deformacion,

y por tanto su vector de caracterısticas cambie ligeramente respecto del original, solo afecta

ligeramente al valor de la probabilidad que lo relaciona con los estados ocultos del modelo. De

este modo las probabilidades de que la secuencia observada pertenezca a cada uno de los modelos

del sistema variara ligeramente en valor, pero no afectara significativamente al resultado final.

En la Fig. 3.28 se muestran los resultados una prueba de reconocimiento realizada sobre

distintas versiones deformadas de uno de los objetos del conjunto inicial. El objeto seleccionado

se muestra en la Fig. 3.28.a y las versiones deformadas en las Fig.3.28.b-d. Debajo de la repre-

sentacion de cada uno de los objetos se presenta el mapa de clasificacion de cada objeto respecto

de los estados ocultos del modelo del objeto en Fig. 3.28.a. Del mismo modo que se hizo en la

seccion 5.2, cuando una vista se pueda clasificar como dos o mas estados ocultos se representa

Figura 3.28: a) Objeto del conjunto de entrenamiento y su mapa de clases de vistas; b-d) defor-maciones del objeto en (a) y sus mapas de clases de vistas; y e) Porcentajes de reconocimientocorrecto de (b)-(c) como similares al objeto en (a)


en el mapa con el color del estado oculto del cuyo centroide esta mas cerca. Algunas vistas de

los objetos deformados no se pueden clasificar satisfactoriamente como ninguno de los estados

ocultos. Esto ocurre porque en estas vistas la deformacion es tan fuerte que la distancia desde

los vectores de caracterısticas hasta cualquiera de los estados ocultos del modelo excede el radio

prefijado, es decir, la deformacion es tan fuerte que algunas vistas ya no se pueden considerar

parecidas a las del modelo original. Estas vistas de nuevo se han representado en negro. Se puede

observar que el objeto de la Fig. 3.28.c tiene exactamente el mismo mapa de clasificacion que

la figura original. Esto quiere decir que la deformacion aplicada, una deformacion continua que

pliega la copa original, practicamente no tiene influencia en la representacion del objeto y por

lo tanto es esperable que su tasa de reconocimiento sea muy alta. Los objetos de la Fig. 3.28.b

y d representan respectivamente el objeto deformado por un rizado de la superficie del objeto

original y el objeto original al que se cortado un pedazo simulando una oclusion parcial. En

ambos casos aparecen no solo vistas desconocidas sino tambien variaciones en la clasificacion de

las vistas respecto del mapa original. Esto ocurre porque, tras la deformacion, algunas de las

vistas se parecen mas al objeto original visto desde una perspectiva distinta que al estado oculto

que corresponderıa a la perspectiva que realmente les corresponde.

Para evaluar la fiabilidad en el reconocimiento se han realizado 50 pruebas de reconoci-

miento con cada una de las versiones deformadas del objeto. Del mismo modo que en pruebas

anteriores, la orientacion inicial del observador respecto del objeto es escogida aleatoriamente, de

modo que se puede considerar que los resultados obtenidos son estadısticamente significativos.

Estos resultados se muestran en la Fig. 3.28.e. Como se puede observar, el objeto de la Fig.

3.28.c es reconocido correctamente en el 100 % de los casos. Esto ocurre porque la deformacion

no es suficiente para alterar significativamente la posicion de los vectores de caracterısticas

correspondientes a sus vistas y por tanto, la informacion que recibe el sistema de este objeto

es virtualmente identica a la informacion que caracteriza el objeto original. En el caso de los

objetos de la Fig. 3.28.c y d, el porcentaje de reconocimiento correcto es sensiblemente inferior,

alcanzando unos valores del 68 % y 88 % respectivamente. Es importante notar que, aunque en

estos casos algunas vistas no se pueden clasificar como pertenecientes a ninguno de los estados

ocultos del modelo de la copa, es posible que estas vistas adquieran cierto parecido con otros

objetos del conjunto de prueba. Es decir, muchos de los fallos de reconocimiento no etiquetan el

objeto deformado como desconocido sino que lo relacionan con un objeto distinto del conjunto

inicial. Es logico que ası ocurra si se tiene en cuenta que los objetos del conjunto de pruebas se

han escogido intencionadamente parecidos.

En la Fig. 3.29 se muestra una prueba de reconocimiento erroneo y uno correcto para el

5. Resultados 113

objeto representado en la Fig. 3.28.b. Como se puede observar, en este caso uno de los objetos

con los que confunde la copa deformada es la botella de la Fig. 3.8.h. En efecto, la copa defor-

mada presenta un perfil mucho mas anguloso que la original, por lo que en general sus vistas

guardaran cierto parecido con la botella citada, cuya forma es angulosa y ligeramente irregular.

De este modo, muchos de los ensayos estaran dudosos entre la copa y la botella, pudiendo dar

como resultado una u otra debido a ligeras variaciones en las vistas estudiadas. Es importante

puntualizar que, en ocasiones, la copa tambien es confundida con la botella de la Fig. 3.8.i y en

un 14 % de los casos es etiquetada como objeto desconocido.

Figura 3.29: Prueba de reconocimiento para el objeto en Fig. 3.28.b: a) reconocimiento erroneo;y b) reconocimiento correcto

En la Fig. 3.30 se muestra una prueba de reconocimiento erroneo y uno correcto para

el objeto representado en la Fig. 3.28.d. En ambos ejemplos la oclusion sobre el objeto original

es bien visible durante la secuencia. En el ejemplo de la Fig. 3.30.b el sistema duda entre

varios objetos parecidos. Debido a la deformacion es difıcil determinar a cual se parece mas.

Mientras el reconocimiento sea dudoso el sistema requerira mas vistas sucesivas para poder

juzgar. Gracias a esta estrategia, tras analizar 6 vistas, esta en condiciones de reconocer este

objeto como parecido a una copa a pesar de la deformacion que presenta. Ası, la adquisicion de

vistas sucesivas hace que el sistema se recupere del mal resultado inicial dando como resultado

un reconocimiento correcto. En la Fig. 3.30.a, sin embargo, se muestra un caso en el que con

el mismo objeto el sistema ha considerado que el objeto es desconocido. En este ejemplo la


vista inicial es un cırculo, que se puede identificar con cualquiera de los modelos de objetos

con simetrıa cilındrica almacenados, aunque, por simplicidad, se han omitido en el diagrama

los objetos cuya probabilidad de reconocimiento no alcanza el 10 %. En la siguiente vista la

deformacion se hace visible, pero la forma del objeto es suficientemente caracterıstica para

relacionarlo con el objeto original sin deformar ası como con la botella de la Fig. 3.8.i con la cual

guarda cierto parecido. Como aun no hay un resultado unico, el sistema requiere una vista mas

de la secuencia. Sin embargo la ultima vista difiere considerablemente de los estados ocultos de

los modelos almacenados tanto de la copa como de la botella, por lo tanto el objeto deformado

queda etiquetado como desconocido.

Figura 3.30: Prueba de reconocimiento para el objeto en Fig. 3.28.d: a) objeto desconocido; yb) reconocimiento correcto

Es importante notar que la mayor diferencia entre la secuencia de vistas de la Fig. 3.30.a

y la de la Fig. 3.30.b es que mientras en la primera el cambio es de un contorno que deberıa

ser convexo a uno concavo, en la segunda la deformacion provoca el suavizado de una esquina.

Se puede comprobar que aunque el tramo de contorno deformado del contorno de las figuras

planas observadas en cada vista es de longitud similar en ambos casos, el cambio en la funcion

de curvatura es bastante mas importante en una que en la otra. En la Fig. 3.31.a se compara

el contorno de la tercera vista de la Fig.3.30.a con el que tendrıa una copa sin deformar y

se muestra la diferencia entre sus respectivas funciones de curvatura. El tramo de funcion de

curvatura que corresponde a la deformacion consiste en un pico de curvatura negativa, que

5. Resultados 115

representa el tramo convexo, flanqueado de dos picos positivos de curvatura, que representan

las esquinas de union entre en tramo deformado y el resto del contorno. En la Fig. 3.31.b se

puede observar que la deformacion, consistente en el suavizado de la esquina superior izquierda

del contorno, produce un cambio en la magnitud de uno de los maximos parciales de curvatura

del contorno y un ligero desplazamiento en su posicion. El procesado posterior de la informacion

contenida en la funcion de curvatura hasta llegar a la representacion del contorno mediante

un vector de caracterısticas necesariamente mantiene la diferencia morfologica del primer caso,

mientras que tendera a minimizar las diferencias del segundo. Es decir, la representacion del

contorno de las figuras es resistente a oclusiones parciales siempre que estas no signifiquen un

cambio morfologico importante sobre las figuras originales.

Figura 3.31: Comparacion de las FCs de dos contornos de un objeto parcialmente ocluido, a)oclusion de perfil concavo; y b) oclusion de perfil recto


6. Conclusiones

En este capıtulo se ha presentado la extension del sistema de representacion de formas

planas, introducido en el capıtulo anterior, a la representacion y reconocimiento de objetos

tridimensionales a partir de un conjunto, no necesariamente completo, de sus vistas. Utilizando

el vector de caracterısticas de cada una de las vistas y agrupando en regiones todos los que

presentan cierto parecido, mediante tecnicas estadısticas, se analiza la secuencialidad de las

regiones obtenidas. El capıtulo se centra en dos actividades interrelacionadas: aprendizaje y

reconocimiento.

Cuando un objeto es desconocido, la fase de aprendizaje consiste en adquirir un conjunto

de vistas de este tan extenso como permitan las circunstancias. Cada vista se representa mediante

un vector de caracterısticas. Estos vectores se agrupan en clases en funcion de su parecido. La

distribucion espacial de clases resultante representa al objeto completo observado desde una

distancia determinada. Dado que se demostro que los vectores de caracterısticas son resistentes

a cambios de escala, siempre que se asegure una vista completa del objeto, la distancia entre el

observador y el objeto es irrelevante. A partir de la distribucion espacial de vistas se construye un

modelo oculto de Markov. El modelo de cada objeto constituye una herramienta para evaluar

la probabilidad de que, habiendo observado una secuencia de vistas, esta sea compatible con

cada objeto en particular. Ası, un objeto 3D queda aprendido una vez se dispone de un modelo

oculto de Markov para el.

El reconocimiento de un objeto conocido comienza con la primera vista entrante. Si

dicha vista solo es compatible con un objeto, el objeto queda reconocido. Si la primera vista

es compatible con varios modelos aprendidos, se procede a acumular evidencia a lo largo de

vistas consecutivas hasta que la probabilidad de ser un objeto determinado es significativamente

superior a la de ser cualquier otro. Esta comparacion se efectua mediante la evaluacion de

probabilidad con los modelos ocultos de Markov previamente aprendidos. Si no existe ningun

modelo compatible que de una probabilidad satisfactoriamente alta, se considera que el objeto

es desconocido y se procede a su aprendizaje por parte del sistema.

Para probar la eficacia del sistema, se han realizado pruebas de aprendizaje y recono-

cimiento con un conjunto de objetos sinteticos. Se ha demostrado que, en condiciones optimas

de segmentacion, los objetos del conjunto propuesto son correctamente diferenciados de acuerdo

con su forma. Para evitar que cada prueba de reconocimiento se realice con una unica vista,

caracterıstica de cada objeto, los objetos del conjunto propuesto han sido escogidos de modo

que, a pesar de corresponder a formas variadas, presenten numerosas vistas comunes.

6. Conclusiones 117

Durante el reconocimiento de una secuencia, los objetos que permanecen durante mas vis-

tas consecutivas como posibles soluciones son los mas similares al propuesto. Se ha comprobado

que la invarianza a escala de los vectores de caracterısticas se traduce en una invarianza a escala

del metodo de reconocimiento, siempre que el objeto sea completamente visible en el campo de

la imagen y que no sea tan pequeno que la distorsion por discretizacion sea mas importante que

la forma del objeto. Con respecto a la invarianza a rotacion, si bien se ha comprobado que la

posicion de cada silueta dentro de las vistas no afecta en general a su representacion plana, es

necesario indicar que cada objeto debe reposar siempre en la misma direccion respecto de su base

de apoyo, ya que el eje con respecto al cual se secuencian las vistas determina la estructura del

modelo oculto de Markov con que dicho objeto se aprende. En cuanto a invarianza a ruidos de

captura y discretizacion ası como a problemas puntuales de segmentacion que puedan afectar a

vistas aisladas, el sistema de reconocimiento 3D presenta caracterısticas de estabilidad similares

a las de la representacion 2D.

Se ha comprobado que cuantos mas objetos de forma similar se presenten, mejor resolu-

cion tendra el sistema de reconocimiento para distinguir entre objetos parecidos. Esto concuerda

con el tipo de aprendizaje que cabe esperar en un ser humano: cuanto mayor sea su conocimiento,

mayor es su capacidad de distinguir pequenos detalles. Sin embargo, se ha comprobado que el

sistema es capaz de clasificar correctamente versiones distorsionadas o deformadas de un mismo

objeto, siempre y cuando la forma global de este no se vea afectada.

Capıtulo 4

Experimentos y resultados.

1. Introduccion.

En capıtulos anteriores se ha presentado un sistema de reconocimiento 3D a partir de

vistas de un objeto y se ha comprobado su eficacia para reconocer objetos virtuales de diversa

complejidad. No obstante, para demostrar que un sistema de reconocimiento de objetos funciona,

es necesario probarlo en condiciones reales o, lo que es lo mismo, a partir de imagenes captadas

en un entorno real. Dado que el sistema propuesto es capaz tanto de reconocer objetos como

de aprenderlos, resultara, por tanto, necesario no solo evaluar si es capaz de reconocer objetos

potencialmente afectados por ruido de captura, cambios en las condiciones de iluminacion y

errores en la extraccion del objeto sino tambien si es capaz de crearse un modelo a partir de un

conjunto limitado de vistas afectadas por los mismos mencionados factores.

Existen varios metodos de reconocimiento de objetos 3D que permiten extraer modelos

de imagenes reales (Basri et al., 1998) (Poggio y Edelman, 1990) (Suzuki et al., 1999). Eviden-

temente, su gran ventaja es su capacidad de aprendizaje no supervisado. La mayorıa de estos

metodos, sin embargo, suelen basarse en trabajar con la imagen completa a color a efectos de

obviar los problemas de segmentacion. Este sistema de aprendizaje, a veces denominado apren-

dizaje por fuerza bruta (Nelson y Selinger, 2000), suele estar limitado a objetos mas o menos

complejos pero sobre un fondo homogeneo, ya que, en caso contrario, cambios sobre este in-

fluirıan en el reconocimiento. De forma alternativa, se han propuesto metodos para extraer y

aprender la silueta de un objeto a partir de multiples vistas de este (Lorensen y Cline, 1987)

(Martin y Aggarwal, 1983) (Szeliski, 1993), pero no resultan robustos cuando los objetos pre-

sentan concavidades. Similares a estos son los metodos de tallado espacial (Kutulakos y Seitz,

1998) que desafortunadamente resultan excesivamente sensibles a errores de segmentacion y,

119

120 Capıtulo 4. Experimentos y resultados.

una vez mas, requieren el uso de fondos homogeneos. Para evitar esta problematica se han desa-

rrollado metodos basados en sombras (Shafer y Kanade, 1983) (Hambrick et al., 1987), donde

la segmentacion es mucho mas simple, pero presentan la desventaja de estar limitados a unas

condiciones de captura muy especıficas. El problema del conjunto de metodos citado es que

busca trabajar con la forma de manera global. Si, en lugar de eso, se adquiere informacion de

manera incremental como en el metodo propuesto en esta tesis, se gana tolerancia contra errores

de captura y adquisicion. Murase y Nayar (Murase y Nayar, 1995) usan una tecnica de tipo

incremental en la lınea de la que se propone pero solo ofrecen resultados para objetos virtuales.

Es, finalmente, importante resaltar que la bondad de los modelos adquiridos a partir de imagenes

reales, ası como el reconocimiento de objetos ya almacenados, depende particularmente para el

caso de imagenes reales de la resistencia de los vectores de caracterısticas que definen cada vista

frente a distorsiones y errores.

En este capıtulo, por tanto, se van a mostrar los resultados de emplear el metodo de

reconocimiento de objetos 3D propuesto en entornos reales. Para ello, se va a presentar en la

seccion 2 un metodo de entrenamiento. Es de resaltar que el hecho de que el sistema pueda

aprender de forma no supervisada a partir de imagenes capturadas del mundo real no excluye

en absoluto la existencia de este tipo de entrenamiento, que resulta mas que justificado bajo las

condiciones que se comentaran en esa misma seccion. En la seccion 3 se presentan resultados del

sistema de reconocimiento, tanto para objetos simples como para objetos de cierta complejidad,

bajo diversas condiciones de observacion. Con objeto de comprobar el funcionamiento del sistema

en un entorno real, se han incluido pruebas con objetos reales que presentan un gran parecido

con algunos de los objetos virtuales utilizados para el entrenamiento. En la seccion 4 se discuten

las conclusiones de los resultados expuestos en este capıtulo.

2. Metodo de Entrenamiento

Uno de los principales problemas de los metodos de reconocimiento basados en vistas

radica en que requieren tantas de estas vistas como sean necesarias hasta que la identidad

del objeto quede claramente definida. Si bien en algunos casos un par de vistas pueden ser

suficientes, en otros, y en particular para objetos que compartan vistas similares, puede ser

necesario un numero elevado de estas. El problema es especialmente complejo para objetos que

presentan fuertes simetrıas, ya que a lo largo de una secuencia cabe la posibilidad de obtener

una y otra vez la misma informacion. Naturalmente, la solucion a este problema estriba en coger

un numero lo suficientemente elevado de vistas equiespaciadas alrededor del objeto en cuestion.

2. Metodo de Entrenamiento 121

Sin embargo, en el mundo real no todos los puntos de vista se encuentran accesibles, ya que

los objetos forzosamente presentan una base de apoyo y, en el caso mas general, no pueden

manipularse, en especial si son grandes o pesados. Evidentemente, este hecho supone que los

modelos capturados siempre se construyen a partir de un numero limitado de vistas que, ademas,

pueden estar sujetas a error. Ello significa que en ocasiones no se podra distinguir entre objetos

que presenten vistas comunes y que un objeto conocido no se reconocera salvo que presente una

vista incluida en su modelo.

Para evitar, al menos parcialmente, este tipo de problemas es posible recurrir a un

entrenamiento del sistema en un entorno virtual. Este entrenamiento consiste en mostrarle a

dicho sistema un conjunto de objetos virtuales, que es probable que se encuentre en el entorno en

que trabaja. La gran ventaja de trabajar con objetos virtuales es que se tiene la seguridad de que

no estan afectados por distorsiones, ası como la posibilidad de observar el objeto desde cualquier

punto de vista. Naturalmente, la desventaja radica en que rara vez los objetos encontrados

en el mundo real van a ser identicos a los del modelo aprendido. Incluso en el mejor de los

casos, cuando el modelo virtual sea una copia exacta del real, las vistas reales estaran afectadas,

tal como se ha comentado previamente, por ruido de captura y errores de segmentacion. Ası,

en ocasiones, puede resultar complejo identificar un objeto real con su homonimo virtual. No

obstante, la experiencia ha demostrado que la naturaleza secuencial del proceso permite resolver

este problema de forma satisfactoria en la mayorıa de los casos, tal como se vera en la seccion

siguiente, aportando ademas datos interesantes sobre que implican los conceptos que el sistema

almacena sobre un tipo de objetos determinado. Es interesante notar que el ser humano funciona

de forma similar cuando, a partir de una serie de fotos o videos, es capaz de reconocer objetos

que jamas habıa visto anteriormente.

Una vez se ha optado por efectuar una fase de entrenamiento supervisado a partir de

objetos virtuales, es importante establecer la mecanica de este proceso de aprendizaje. En prin-

cipio, a nivel algorıtmico, no existe diferencia alguna entre el aprendizaje de objetos reales y

el de objetos virtuales a excepcion de que las vistas virtuales deben ser renderizadas y que,

en estos casos, puede trabajarse por comodidad con fondos homogeneos facilmente separables.

Por tanto, el unico requisito necesario para implementar este modulo de aprendizaje previo es

disponer de un sistema de renderizado que ofrezca un interfaz compatible con el algoritmo de

reconocimiento propuesto. Existen diversas opciones para manipular objetos virtuales: desde

librerias graficas hasta programas completos de alto nivel. Las librerıas graficas, como OpenGL

o Direct3D resultan, en general, demasiado basicas para manejar de forma eficiente objetos

complejos en el sistema de entrenamiento. Por otra parte, las aplicaciones de alto nivel como


Figura 4.1: Base de datos de sillas para 3DStudio descargada de Internet

MilkShape o 3DStudio presentan la desventaja de ofrecer muy poca capacidad de interaccion

con programas externos. Esto deja como alternativa el uso de motores graficos, que supone un

compromiso entre ambos extremos.

Los motores graficos ofrecen un conjunto de funciones de alto nivel al tiempo que per-

miten establecer interfaces con cualquier programa externo. Una ventaja adicional es que gran

variedad de ellos son de libre distribucion. Para escoger uno en particular para la aplicacion pro-

puesta, es recomendable que sea capaz de operar con formatos de graficos 3D estandarizados, de

forma que no sea necesario modelar los objetos que se desea ensenar al sistema si no que, por el

contrario, puedan usarse bases de datos ya disponibles. A este respecto, se ha comprobado que el

formato grafico 3D mas extendido en Internet y del que se encuentran disponibles publicamente

mas modelos es el 3DS, perteneciente al programa 3DStudio. La Fig. 4.1 muestra, por ejem-

plo, una de estas bases de datos consistente en un conjunto de sillas. Una vez evaluados todos

los puntos comentados, en esta tesis se ha optado por usar Genesis3D (Eclipse-Entertainment,

http://www.genesis3d.com) que, ademas de ser un motor de libre distribucion, soporta no solo

el formato 3DS sino tambien la mayorıa de los formatos comerciales. Utilizando Genesis3D, se

ha desarrollado una aplicacion capaz de abrir cualquier fichero 3DS y conectarse al sistema de

reconocimiento propuesto (de Trazegnies et al., 2003a). Cada vez que dicho sistema solicita un

punto de vista, esta aplicacion renderiza el objeto de que dispone en ese momento sobre un

fondo homogeneo y envıa la imagen resultante al sistema de reconocimiento. A partir de tantas

vistas de cada objeto como sean necesarias, el sistema aprende el prototipo del objeto virtual.

En particular, en la fase de aprendizaje desarrollada el sistema construye los prototipos

a partir de 72 vistas de estos, equiespaciadas sobre la superficie de una esfera de radio constante

2. Metodo de Entrenamiento 123

Figura 4.2: 72 vistas de una silla generadas por el modulo virtual de entrenamiento

alrededor del objeto estudiado (Fig. 4.2). En realidad, no son necesarias tantas vistas para

reconocer un objeto. Sin embargo, si bien en el mundo virtual los objetos flotan en el aire, en el

mundo real estan limitados a una posicion determinada en funcion de su punto de apoyo. Ası,

para adquirir una cierta inmunidad contra este, se contemplan todas las posibles posiciones que

un objeto podrıa tener, si bien muchas de ellas son fısicamente imposibles. Es interesante notar

que, incluso en el mejor de los casos posible, la captura de 72 vistas equiespaciadas llevarıa

muchısimo mas tiempo en el mundo real que en el sistema de aprendizaje propuesto, ya que

serıa necesario desplazar la camara una y otra vez. Ası, es inmediato observar que en la fase

de aprendizaje es posible adquirir un volumen elevado de informacion en un tiempo reducido.

Esto presenta interesantes ventajas, ya que, al trabajar con formatos de datos estandarizados,

el sistema puede adquirir un volumen muy elevado de conocimientos a partir de bases de datos

disponibles publicamente. Estos conocimientos podran ser utilizados para el reconocimiento de

objetos reales.

El proceso de entrenamiento a partir de un objeto 3D virtual comienza, pues, por la so-

licitud de una vista del mismo sobre fondo homogeneo, que se segmenta para extraer el contorno

del objeto y, de este, el vector de caracterısticas de la vista. Una vez se han extraıdo los vectores

de caracterısticas de las vistas necesarias del modelo virtual, tal como se indico en el capıtu-

lo anterior, dichos vectores se agrupan en clases (Fig. 4.3), extrayendose de esta agrupacion los


Figura 4.3: Aprendizaje de un modelo virtual: a) objeto virtual; y b) mapa de vistas.

modelos ocultos de Markov necesarios para su posterior reconocimiento. Este proceso se describe

en detalle en el capıtulo 3.

Es importante senalar que, si se intentan entrenar objetos similares, el sistema los re-

conocera y no creara ningun prototipo para ellos. Ası, antes de aprender un objeto determinado,

el sistema intenta reconocerlo a partir de la informacion de que dispone en ese momento. Solo si

ese objeto no se identifica, el sistema pasa a almacenarlo. Por ejemplo, en la base de datos que

se ha seleccionado en la Fig. 4.1, todos los objetos son lo suficientemente distintos como para

haberse aprendido por separado en el orden en que se presentan. La Fig. 4.4 muestra como, por

ejemplo, el sistema fracasa al intentar reconocer la silla de la Fig. 4.1.i a pesar de que ya ha

aprendido las de las Figs. 4.1.a-h. Si bien al principio supone que puede tratarse de los prototipos

en las Figs. 4.1.c o g, por la forma de los brazos o las patas, una segunda vista frontal descarta

ambas posibilidades y dispara el modulo de entrenamiento virtual, haciendo que se memorice

un nuevo modelo para ella.

3. Reconocimiento de objetos

A efectos de evaluar el sistema para imagenes reales, se han llevado a cabo una serie

de experimentos. En estos experimentos, previamente se entreno el sistema tanto con la base

de datos de la Fig. 4.1 como con una base de datos mucho mas simple (Fig. 4.5). Una base de

objetos compleja presenta la ventaja de que los objetos se diferencian mas entre sı, mientras

que en una base de datos simple, son mas faciles de almacenar y, en general, suelen ser menos

sensibles a los errores de captura y segmentacion porque su naturaleza no se define por detalles

pequenos. Ası, con las dos bases de datos entrenadas se contemplan los casos extremos.

Una vez el sistema disponıa de ambas bases de datos, se procedio a capturar secuencias

3. Reconocimiento de objetos 125

Figura 4.4: Fallo en reconocimiento: entrenamiento.

de objetos reales utilizando una camara fotografica digital Sony DSC-S70. Usando esta camara,

se han capturado manualmente diversas secuencias de objetos, estando todos los puntos de vista

situados en un anillo a una altura aproximadamente fija alrededor del objeto, que siempre se

soporta sobre la misma base. Resulta notable el hecho de que, al capturarse las imagenes de

forma manual, los puntos de vista no tienen por que coincidir con ninguno de los entrenados.

No obstante, dado que, tal como se comento en el capıtulo 2, los vectores de caracterısticas

presentan una cierta resistencia contra pequenos cambios de perspectiva, esto no constituye un

problema en la mayorıa de los casos.

Dado que esta tesis no se centra en segmentacion y, ademas, la segmentacion es un

problema difıcil de resolver en condiciones generales, para extraer los objetos de las imagenes

capturadas se ha optado por un metodo simple de extraccion de fondo (McKenna et al., 2000).

Figura 4.5: Conjunto de objetos aprendidos en orden de entrenamiento.


Figura 4.6: Segmentacion por substraccion de fondo: a) fondo sin objetos; b) imagen capturada;c) objetos detectados.

Este tipo de metodos se basan en disponer de una imagen del fondo sobre el que se situan los

objetos en ausencia de estos (Fig. 4.6.a). Cuando se captura una imagen con un objeto (Fig.

4.6.b), ambas se sustraen pixel a pixel y, despues de un procesado que habitualmente se basa en

eliminar ruido, etiquetar y eliminar clases pequenas, basicamente queda todo lo que en la imagen

no era fondo (Fig. 4.6.c). En los experimentos que se presentan en esta seccion no se ha incluido

en ningun caso mas de un objeto en la escena. Es importante indicar que los algoritmos de

segmentacion por sustraccion de fondo tambien estan sujetos a errores, principalmente debidos

a sombras y cambios de iluminacion o a que los objetos presenten colores parecidos al fondo.

Estos errores, que pueden afectar de distinta manera incluso a vistas consecutivas, provocaran

deformaciones en los contornos de objetos percibidos.

3.1. Experimentos con objetos simples

Un primer conjunto de experimentos se llevo a cabo escogiendo objetos reales que se

asemejaran a los que incluıa la base de datos mas simple de que se disponıa (Fig. 4.5). Dado

que, como ya se ha comentado, el principal problema de estas bases radica en que los objetos

se diferencian menos entre sı y presentan fuertes simetrıas, puede observarse que se incluyeron

a proposito en el entrenamiento tanto un conjunto de formas simples -esfera, paralelepıpedos y

cilindros- como dos modelos de tazas, de los cuales uno se asemeja bastante a un cilindro desde

varios puntos de vista.


Siguiendo el mismo metodo que en el capıtulo anterior, se han presentado al sistema los

objetos propuestos en las Fig. 4.5.a-f, pero se ha dejado fuera del conjunto inicial el objeto de

la Fig. 4.5.g. El sistema de reconocimiento crea modelos para cada uno de los objetos siempre

que no puede identificarlos con uno de los ya aprendidos. Como sucedıa en el capıtulo 3, es

posible que el sistema no considere necesario entrenar algunos de los objetos presentados si

casualmente la primera o primeras vistas del mismo se parecen a uno de los ya adquiridos. En

el caso del conjunto propuesto, debido al elevado numero de vistas comunes entre objetos, es

muy probable que esto ocurra. En particular, si cuando se presenta la taza 1, de la Fig.4.5.d,

la primera vista es cilındrica, la taza 1 sera reconocida como el cilindro de la Fig. 4.5.c. El

siguiente objeto en ser presentado es la taza de la Fig. 4.5.e, que es claramente distinta de

todos los objetos anteriores y, por lo tanto, se adquirira su modelo. Este efecto es muy sencillo

de corregir, forzando simplemente al sistema a tomar un numero mınimo de vistas antes de

proceder al reconocimiento. Sin embargo, durante las pruebas no se ha fijado este mınimo, con

el fin de analizar los resultados del algoritmo de reconocimiento tal como ha sido descrito en el

capıtulo anterior, sin la intervencion de rectificaciones de ningun tipo.

Figura 4.7: Prueba de reconocimiento para la taza 1 cuando el sistema aun no ha aprendido sumodelo: a) cuando el asa no es visible en la primera vista; y b) cuando el asa es visible ya en laprimera vista

Es interesante notar que todas las vistas de la taza 1 son parecidas a alguna del cilindro 1

o de la taza 2, pero el cilindro 1 y la taza 2 no tienen vistas comunes. Ası, al presentar al sistema


Figura 4.8: Prueba de reconocimiento para la taza 1, a) cuando el sistema aun no ha aprendidosu modelo pero contiene varios modelos compatibles con la primera vista; y b) cuando el sistemaya ha adquirido un modelo para la taza 1

la taza 1, el estudio de su primera vista lleva a un resultado unico y que se corresponde con uno de

estos dos objetos (Fig. 4.7). Es importante puntualizar que este resultado no se puede considerar

como un fallo del sistema sino como una consecuencia logica de su funcionamiento aplicado a un

numero reducido de objetos con muchas vistas comunes. Si se obligara al sistema a adquirir una

segunda vista, serıa evidente que la secuencia de vistas resultante no es compatible con ninguno

de los dos modelos anteriores. En principio, sin embargo, el sistema solo requiere una segunda

vista si el resultado del reconocimiento no es unico. Ası, si el sistema contuviera un objeto mas

que presentara vistas compatibles con la taza 1, se harıa evidente la necesidad de aprender un

modelo para la taza 1. Ası ocurre cuando el conjunto de objetos se amplıa con el paralelepıpedo

de la Fig. 4.5.g, como se puede observar en la Fig. 4.8.a. En este ejemplo la vista inicial de

la taza observada es un rectangulo. Cuando el unico objeto que conocıa el sistema con vistas

rectangulares era un cilindro (Fig. 4.7.a), con solo la primera vista se reconoce inmediatamente

la taza como un cilindro. Si, como se muestra en la Fig. 4.8.a, el sistema conoce dos objetos

con vistas rectangulares, es necesario adquirir una segunda vista, que evidencia que el objeto

observado no es ninguno de los dos inicialmente propuestos, puesto que la segunda vista muestra

visiblemente el asa de la taza, rasgo que indica que la observacion es incompatible tanto con el

cilindro como con el paralelepıpedo. Por lo tanto el sistema adquiere un modelo nuevo para esta


Figura 4.9: a-b) Distintas vistas de la taza 1; c-d) Siluetas segmentadas por sustraccion de fondo.

taza.

Como se observa en la Fig. 4.8.b, una vez que el sistema contiene un modelo de la

taza, este aparece como candidato posible en la primera vista. Es interesante notar que, tras la

observacion de una sola vista rectangular, el candidato mas probable es el paralelepıpedo con una

probabilidad relativamente elevada. Esto ocurre porque, teniendo en cuenta que el paralelepıpedo

contiene un elevado numero de vistas rectangulares, es mucho mas probable encontrar una vista

rectangular durante la observacion del mismo que cuando el objeto observado es un cilindro y,

por supuesto, mucho mas probable que con la taza. Sin embargo, el proceso de reconocimiento

no se detiene hasta que solo hay un candidato con probabilidad de reconocimiento significativa.

Por lo tanto, es necesario adquirir una segunda vista. En este ejemplo, la secuencia de dos vistas

sı determina unıvocamente el reconocimiento como la taza 1.

El experimento resulta mas interesante cuando se trabaja con objetos reales. La Fig.

4.9 muestra una serie de vistas capturadas de una taza real que, aunque no coincide exacta-

mente con el modelo entrenado, que resulta mas esbelto, se parece a este considerablemente. La

primera vista disponible de la taza muestra claramente su asa y, por tanto, resultarıa sencillo

identificarla inmediatamente. Sin embargo, como la silueta esta afectada de ruido, tambien se

podrıa interpretar como un cilindro deformado, por lo que el resultado del reconocimiento para

la primera vista no es unico. Puede observarse en la Fig. 4.10.b que inicialmente el sistema

estima que el objeto evaluado puede ser tanto una taza como cualquiera de los dos cilindros. Es

de senalar como curiosidad que la taza esbelta entrenada no se confundıa en ningun caso con el

cilindro mas bajo. En este caso se incluye esa posibilidad porque el asa redondea la silueta de


Figura 4.10: Reconocimiento de una taza: a) objeto virtual; b) objeto real.

la taza y la aproxima algo mas a una elipse, si bien el parecido no es muy alto y, por tanto, la

probabilidad de ser dicho cilindro es algo inferior a 0.2. Al captar una segunda vista, sin embar-

go, el sistema opta claramente por la taza entrenada, dejando atras los dos cilindros. Este hecho

no deja de resultar llamativo en tanto que la segunda vista sı que coincide plenamente con un

cilindro. Sin embargo, es necesario recordar que el sistema acumula informacion y, de acuerdo a

su esquema, si a la forma inicial, donde se intuye el asa, le sigue un cilindro, la probabilidad de

estar observando una taza es muy alta.

A continuacion, se procedio a capturar vistas de una segunda taza de forma distinta a

la anterior (Fig. 4.11). Si bien esta taza no es ni mucho menos identica a la de la Fig. 4.5.e,

se parece mas a ella que a la de la Fig. 4.5.d. No obstante, antes de experimentar con ella,

es importante determinar hasta que punto el sistema distingue entre las dos tazas aprendidas.

Para ello, se alimenta el sistema con una primera vista de la taza virtual de la Fig. 4.5.e. En la

Fig. 4.12.a puede apreciarse como, para esta primera vista, el sistema duda entre las dos tazas.

Una sola vista mas permite al sistema reconocer eficazmente la taza de la Fig. 4.5.e. Ahora se

alimenta al sistema con una vista de la taza real (Fig. 4.12.b), en la que cabe destacar que la

base es significativamente distinta de la de las tazas aprendidas. De nuevo el sistema reconoce ya

en la primera vista (Fig. 4.12.b) que se trata de una de las dos tazas, aunque no distingue cual

de ellas. En la segunda vista se empieza a ver el asa, pero su forma aun no es muy definida, por


lo que podrıa ser cualquiera de las dos tazas entrenadas. Dado que sigue habiendo dos opciones

plausibles, se captura una tercera vista, que muestra claramente el asa resaltada sobre el perfil

de la figura. Dado que la forma del asa es mas parecida a la de la taza de la Fig. 4.5.e que

a la de la taza de la Fig. 4.5.d, esta vista es determinante para que el sistema reconozca la

taza propuesta como la taza de la Fig. 4.5.e. Cabrıa, por tanto, vistos los resultados de ambos

experimentos, considerar que el sistema entiende como tazas objetos con cierta simetrıa y asas.

3.2. Experimentos con objetos complejos

Una vez comprobada la eficiencia del metodo de reconocimiento propuesto para reconocer

objetos sencillos y potencialmente parecidos, una segunda tanda de experimentos consistio en

tratar de reconocer objetos mas complejos, en particular, la base de datos de sillas de la Fig.

4.1. Tal como se ha comentado, el principal problema de los objetos complejos es que se definen

mediante detalles mas o menos significativos. La presencia de distorsiones, ruido de captura o

errores de segmentacion puede no afectar de forma muy significativa un cubo o un cilindro, pero

es mas que probable que cambie la naturaleza de, por ejemplo, una llave. Adicionalmente, los

objetos simples, como las tazas del subapartado anterior, suelen parecerse mucho entre sı, pero

los contornos de objetos complejos pueden presentar diferencias significativas. Ası, podrıa darse

el caso de que una silla parecida a cualquiera en la base de datos aprendida no se reconociese de

forma efectiva por, por ejemplo, diferencias en la inclinacion de las patas. Los experimentos de

este apartado han ido, por tanto, encaminados primero a probar la resistencia frente a errores

y distorsiones del reconocimiento de objetos complejos y, a continuacion, a probar la validez de

Figura 4.11: a-c) Distintas vistas de la taza 2; d-f) Siluetas segmentadas por sustraccion defondo.


Figura 4.12: Reconocimiento de una taza: a) objeto virtual; b) objeto real.

los objetos aprendidos para reconocer otros similares en el mundo real.

Dado que es complejo controlar los errores de segmentacion y distorsiones en el mundo

real, un primer conjunto de pruebas ha consistido en producir distorsiones controladas sobre

los modelos aprendidos y alimentarlos al sistema de reconocimiento. Ası se puede evaluar la

resistencia de este frente a los mencionados factores en condiciones conocidas. Una primera

prueba consistio en deformar unicamente una vista del objeto manualmente, para comprobar

la capacidad de recuperacion del sistema frente a errores puntuales. Dado que generalmente es

suficiente con unas pocas vistas para reconocer un objeto, en este caso se opto por distorsionar la

primera vista disponible. Para ello, se borro un pedazo irregular de la esquina superior izquierda

del respaldo de la primera silla. En la Fig. 4.13 se muestra la silla distorsionada (Fig. 4.13.a)

junto a su mapa de clases (Fig. 4.13.b). La clasificacion se ha realizado con el mismo codigo de

color que la de la Fig. 4.3 de modo que ambos mapas de clases se puedan comparar de forma

sencilla. Como se puede observar, el mapa de clases se ve afectado por la distorsion de esta vista,

de modo que la posicion del mapa correspondiente a la misma toma ahora otro color, es decir,

la vista distorsionada aun guarda parecido con algunas de las vistas de la silla sin distorsionar,

aunque no necesariamente con la vista que deberıa ocupar su posicion.

Un ejemplo de prueba de reconocimiento de la silla deformada de la Fig. 4.13 se muestra

en la Fig. 4.14.b. En la Fig. 4.14.a se ha incluido, a efectos de comparacion, una prueba de

reconocimiento para la silla sin deformar a partir de la misma secuencia de vistas. El sistema


reacciona de forma similar en ambos casos tanto en la naturaleza de los prototipos propuestos

inicialmente como en la evolucion de la probabilidad de que correspondan a cada uno de los mis-

mos. Tras analizar la primera vista de la silla sin distorsionar, la probabilidad de que pertenezca

a la silla correcta es ya la mas alta, mientras que para la silla distorsionada esta probabilidad

es relativamente baja. Sin embargo, dada la resistencia de los vectores de caracterısticas de las

vistas frente a distorsiones de este tipo, mantiene una cierta confianza en estar en presencia de

la silla de la Fig. 4.1.a. Para que el sistema pueda tomar una decision es necesario ponderar

la secuencialidad de las vistas. Con solo una segunda vista, esta vez sin distorsion, el sistema

reafirma en estar frente al prototipo de la Fig. 4.1.a, descartando completamente los demas. Es

importante senalar que este resultado satisfactorio solo es posible gracias a la tolerancia de los

MOMs ante la alteracion del orden de vistas de la secuencia de observaciones.

Esta prueba, si bien necesaria ya que no todas las vistas de un objeto tienen que estar

sujetas a los mismos errores, es relativamente simple, porque la perdida de parte del respaldo

de la silla de la Fig. 4.1.b no significa un cambio radical en su forma. De hecho, como se puede

observar en la Fig. 4.14, los candidatos propuestos para las sillas distorsionada o sin distorsionar

son inicialmente los mismos. La unica diferencia aparece en el valor de las probabilidades iniciales.

En vista de esto, en una segunda prueba se procedio a eliminar parcialmente las patas traseras

para observar como se comporta el sistema en este caso (Fig. 4.15). En la primera vista de la

secuencia sin distorsionar (Fig. 4.15.a) se puede observar un perfil de la silla de la Fig. 4.1.a. Tal

como cabrıa esperar, esta silla vista de perfil es similar a la mayorıa de las sillas del conjunto

inicial, ya que comparte rasgos muy significativos comunes a cualquier silla, tales como el perfil

del respaldo y el asiento formando un angulo entre sı cercano al recto. A medida que avanza

la secuencia de vistas, se impone como unico prototipo posible el de la Fig. 4.1.a, que es el

Figura 4.13: Objeto con una sola vista distorsionada: a) vista distorsionada; y b) mapa de vistasalterado respecto del mapa del mismo objeto sin distorsionar, mostrado en Fig. 4.3.b.


correcto. En la Fig. 4.15.b se presenta la prueba en la que se han eliminado parcialmente las

patas traseras en la primera vista. Es interesante observar que para la silla distorsionada aparecen

muchos menos prototipos compatibles con la primera vista. Esto ocurre porque el tener patas es

un rasgo fundamental de cualquier silla. Varios de los prototipos propuestos para las primeras

vistas de la prueba en Fig. 4.15.a lo son por el parecido que presentan sus patas con las de

la silla observada. Ası, eliminando las patas de la primera vista, el parecido con los prototipos

estara basado en otros rasgos, como la forma del respaldo o el perfil del asiento (Fig. 4.15.b).

El numero de candidatos en este caso sera necesariamente mas limitado: entre ellos esta la silla

de la Fig. 4.1.a, pero no necesariamente con la probabilidad de reconocimiento mas alta. No

obstante, una segunda vista, ya no distorsionada, permite reconocer la silla correctamente.

Dado que lo mas frecuente es que si una vista esta sujeta a una distorsion determinada,

tambien lo esten el resto, se ha efectuado un nuevo experimento bajo estas condiciones. Para

ello, se ha sometido el objeto completo a una distorsion suave y se ha alimentado al sistema

(Fig. 4.16). En este caso no se contemplan errores de segmentacion, pero la curvatura de la silla

varıa con respecto de la del prototipo. Puede observarse en la Fig. 4.17.a-b que la distorsion que

altera el contorno produce que algunos vertices esten ligeramente desplazados de su posicion

original, suavizados o resaltados segun los casos. El efecto sobre las correspondientes funciones

de curvatura es un ligero desplazamiento de algunos de los extremos locales, una diferencia en la

altura de los mismos o, incluso, la aparicion de nuevos extremos locales secundarios (Fig. 4.17.c).

Figura 4.14: a) Reconocimiento de una silla sin distorsionar; y b) reconocimiento de la mismasilla con oclusion parcial del respaldo en la primera vista.


Figura 4.15: a) Reconocimiento de una silla sin distorsionar; y b) reconocimiento de la mismasilla con oclusion parcial de las patas en la primera vista.

Como puede apreciarse en el resultado del reconocimiento, este cambio de curvatura hace que,

una vez mas, una primera vista conflictiva haga que los candidatos mas probables no coincidan

con el modelo correcto (Fig. 4.16.b). A lo largo de la secuencia de vistas puede observarse como

se mantiene una cierta probabilidad de reconocimiento de la silla correcta, si bien es menor que

la probabilidad de reconocimiento de otros modelos. En este caso es necesario llegar hasta la

cuarta vista para poder establecer un resultado unico de reconocimiento (Fig. 4.16.b), mientras

que con las vistas sin distorsionar es suficiente con analizar tres vistas para llegar a un resultado

correcto (Fig. 4.16.a).

Por ultimo, antes de pasar a las pruebas reales, se evaluo un caso mas en el que todas

las vistas del objeto se distorsionaron de forma independiente. Cada una de las vistas ha sufrido

una deformacion no afın que produce una ondulacion regular de su contorno. Ası se pretendıa

evaluar la combinacion de variaciones frente al prototipo y errores de segmentacion, que va a ser

el caso habitual con imagenes reales. La Fig. 4.18 muestra los resultados de dos pruebas de este

tipo. A pesar de que ninguna de las vistas de las que dispone en este caso el sistema son iguales a

las de los prototipos, sus vectores de caracterısticas sı son en cierto grado similares a los estados

ocultos de varios de los modelos. Se puede observar que, debido a la distorsion, los resultados

del reconocimiento con las primeras vistas son mas dudosos que con los ejemplos anteriores. Sin

embargo, gracias a la secuencialidad del proceso, el sistema es capaz de recuperar el resultado

correcto en la mayorıa de los casos sin mas que aumentar el numero de vistas de la secuencia.


Figura 4.16: a) Reconocimiento de un objeto sin distorsion; y b) reconocimiento del mismoobjeto distorsionado.

Para evaluar el comportamiento del sistema frente a la deformacion anterior se ha provo-

cado la misma sobre todas las sillas de la Fig. 4.1 y se han presentado al sistema 50 secuencias

de vistas de cada una de ellas comenzando siempre desde un punto de vista aleatorio. Los resul-

tados de esta prueba se presentan en la Fig. 4.19. Se ha resaltado para cada silla deformada la

columna correspondiente al modelo correcto de la misma con un ancho superior a los demas. La

silla de la Fig. 4.1.e no genero durante el proceso de entrenamiento ningun modelo propio, ya

que comparte muchos de sus rasgos con otras sillas de la base de datos y, por lo tanto, siempre

fue reconocida como alguna de las sillas ya entrenadas. Por este motivo, la version deformada

de esta silla no presenta una columna de resultados resaltada en la Fig. 4.19. No obstante, es

reconocida como alguna de las otras sillas en un 83% de las pruebas. Como se puede observar,

entre las siete sillas que tienen un modelo propio, la tasa media de reconocimiento correcto a

partir de vistas deformadas es del 78 %, alcanzando el 100 % para la silla de la Fig. 4.1.g. Por

otro lado, debe recordarse que el conjunto de prototipos de que dispone el sistema durante estas

pruebas esta compuesto no solo por los modelos de las sillas de la Fig. 4.1, sino tambien por

los de los objetos de la Fig. 4.5. En principio, serıa posible que el sistema hubiera confundido

algunas de las sillas deformadas con otros objetos. Sin embargo, esto no ocurre en ningun caso.

Este hecho prueba que, aun en los casos de reconocimiento erroneo, este esta basado en rasgos

caracterısticos comunes a todas las sillas cuyos modelos contiene el sistema. Tambien es desta-

cable que, a pesar de la deformacion inducida sobre las vistas, la tasa de rechazo media de los


Figura 4.17: a) Contorno de una vista no distorsionada de una silla; b) contorno de una vistadistorsionada de la silla; y c) funcion de curvatura del contorno en (a) (lınea roja punteada) ydel contorno en (b) (lınea azul continua).


Figura 4.18: Reconocimiento con todas las vistas deformadas: a) ejemplo con la silla de la Fig.4.1.a; y b) ejemplo con la silla de la Fig.4.1.d.

resultados de la Fig. 4.19 es del 5.4 %: las sillas deformadas fueron reconocidas correctamente

segun el prototipo correspondiente a la misma silla sin distorsionar en un 78.1 % de las pruebas,

como sillas en un 94.6 % de los casos y ninguna vez como otro objeto diferente de las sillas.

Comprobado el buen funcionamiento del sistema bajo condiciones optimas -entorno vir-

tual y errores controlados-, cabe proceder a experimentar con objetos reales. Para ello se ha

capturado una serie de imagenes de sillas disponibles en un entorno de oficinas. Es importante

destacar que las vistas se han obtenido manualmente y, aunque se ha intentado que la separacion

angular entre dos vistas consecutivas sea de 30o, hay que considerar este valor como aproximado.

Incluso, con objeto de modelar eventuales errores en la secuenciacion, se han incluido secuencias

con algunas vistas en orden alterado o con vistas repetidas. Ademas, las sillas reales escogidas

no coinciden exactamente con ninguno de los modelos.

En primer lugar, se ha analizado el comportamiento del sistema frente a secuencias

de vistas de la silla real de la Fig. 4.20. Esta silla no solo es susceptible de contener errores de

segmentacion o ruido, ademas no es igual a ninguno de los modelos entrenados, aunque comparte

rasgos con muchas de ellas: tiene cuatro patas rectas, separadas y algo inclinadas de forma muy

similar a las sillas de las Figs. 4.1.a y f, e incluso similares a las patas de las sillas de las Figs.

4.1.c y h. Asimismo, el respaldo de la silla real tiene una forma rectangular algo redondeada en

las esquinas, como las sillas de las Figs. 4.1.c, d, f y g. Ademas, la silla real carece de brazos.


Figura 4.19: Porcentajes de reconocimiento con todas las vistas deformadas.

Figura 4.20: a) Imagen capturada de una silla real; y b) vista segmentada por sustraccion defondo.


Figura 4.21: Reconocimiento de una silla sin brazos real: a) a partir de una secuencia ordenadade vistas; b) a partir de una secuencia que incluye vistas desordenadas.

La Fig. 4.21.a muestra dos ejemplos de pruebas de reconocimiento con secuencias de

vistas de la silla real. En primer lugar se ha presentado una secuencia que comienza con una

vista lateral (Fig. 4.21.a). En la primera vista se puede observar un perfil cuyos rasgos dominantes

son el poseer unas patas bien separadas y la inclinacion del respaldo respecto del asiento. A pesar

de que la silla observada no tiene brazos, su asiento es lo suficientemente grueso como para que

el sistema confunda su contorno con el de la silla de la Fig. 4.1.f, que tiene unos brazos bajos.

De hecho, es esta silla la que aparece como candidato mas probable para la primera vista (Fig.

4.21.a). En la segunda vista se hace mas patente la inclinacion de las patas y la carencia de

brazos de la silla real, quedando como unico modelo compatible el de la silla de la Fig. 4.1.a,

aunque la forma de su respaldo no se corresponda completamente con la de la silla real. Hay

que resaltar que, si bien esto es un error, ya que la silla observada y los prototipos con los que

se la relaciona no son iguales y tal vez cabrıa entrenar al sistema con este nuevo objeto, dicho

error es razonable, ya que se reconoce el objeto lo mejor que se puede en virtud a las vistas

disponibles. Este comportamiento permite englobar ciertos objetos bajo un mismo concepto y

reducir el numero de modelos a aprender de forma razonable.

En la Fig. 4.21.b se presenta una segunda prueba de reconocimiento para la misma silla

real. En esta ocasion la secuencia contiene un error en el orden de las vistas de modo que la

primera vista es igual a la tercera. Estas dos vistas son muy parecidas al prototipo de la silla


de la Fig. 4.1.f. Se puede observar que en estos dos pasos la probabilidad de la secuencia de

vistas de pertenecer al prototipo de la silla citada crece notablemente. La segunda vista, que es

muy similar a la primera de la secuencia de prueba en Fig. 4.21.a, es compatible con todos los

prototipos propuestos y, por tanto, no ayuda a distinguir entre ellos. La cuarta vista muestra

claramente la forma del respaldo, casi identica al de la silla en Fig. 4.1.d. Esta silla aparece

ahora como unico candidato posible, si bien es cierto que sus patas son distintas a las de la silla

observada, el parecido general de la forma del respaldo y del asiento justifican este resultado.

En una nueva prueba algo mas compleja, se presenta al sistema la silla real de la Fig.

4.22. Esta silla guarda cierto parecido con la de la Fig. 4.1.d, pero es necesario observar que no

son exactamente iguales: la forma de los brazos es distinta y tanto el respaldo como el asiento

de la silla real son mas gruesos que los del modelo virtual. En primer lugar, se alimenta al

sistema con una secuencia de vistas a partir de un perfil de la silla real (Fig. 4.23.a). Tal como se

puede observar, a partir de la primera vista se manejan como posibles candidatas dos sillas de

respaldo cuadrado y con brazos: las de las Figs. 4.1.d y h. Aunque las patas de la segunda son

significativamente distintas de las de la silla real, hay que recordar que el sistema solo ve siluetas

y que, desde este punto de vista elevado, lo que mas llama la atencion de la silla es su respaldo

y asiento cuadrado. Tambien aparecen como posibles candidatas, aunque con una probabilidad

muy baja, las sillas de la Fig. 4.1.a y g. La segunda y la tercera vistas hacen que la probabilidad

de ser la silla de la Fig. 4.1.d crezca sensiblemente, si bien se mantiene aun por debajo de la silla

de la Fig. 4.1h. Las probabilidades de reconocimiento de las otras sillas decrecen hasta casi ser

eliminadas. Es necesaria una cuarta vista para que el resultado sea unico. Esto ocurre porque la

vista posterior de la silla propuesta es muy reconocible, ya que muestra claramente la forma del

respaldo y la estructura de las patas mientras los brazos sobresalen visiblemente a los lados.

En la Fig. 4.23.b se presenta una prueba en la que se ha alimentado de nuevo el sistema

con la silla real de la Fig. 4.22, pero esta vez incluyendo un error de secuenciacion que consiste en

la repeticion de la primera vista. En las primeras dos vistas los brazos no son un rasgo dominante,

ya que quedan parcialmente disimulados por el asiento. Consecuentemente, el sistema encuentra

algunos candidatos con probabilidad alta de reconocimiento pero sin brazos. Se puede observar

que, al principio de la secuencia, el candidato mas probable es una silla que, a primera vista, no

se parece excesivamente a la observada. Este efecto se puede explicar notando que casualmente

la pata de la silla observada presenta un perfil similar al del respaldo y el asiento de la silla de la

Fig. 4.1.b, de modo que el sistema puede estar percibiendo el contorno de la silla observada como

una combinacion de dos respaldos y dos asientos de la citada silla. Se podrıa considerar que esta

asociacion es un error del sistema. Sin embargo, gracias a que el reconocimiento esta basado


Figura 4.22: a) Imagen capturada de una silla real; y b) vista segmentada por sustraccion defondo.

Figura 4.23: Reconocimiento de una silla con brazos real: a) a partir de una secuencia ordenadade vistas; b) a partir de una secuencia que incluye vistas desordenadas.

4. Conclusiones 143

en la secuencialidad del conjunto de vistas y dado que es poco probable que estas relaciones

casuales se den en varias vistas consecutivas, el sistema se podra recuperar de las mismas en

vistas sucesivas. De hecho, se puede observar que la tercera vista determina un reconocimiento

unico. Al igual que en el ejemplo de la Fig. 4.23.a, el resultado es la silla de la Fig. 4.1.d, que

es la que mas se parece a la silla real. Debe notarse tambien que el prototipo de la silla de la

Fig. 4.1.h aparece tambien entre los candidatos posibles en las dos primeras vistas. Esta silla

es muy similar tanto a la silla real como a la que aparece como resultado del reconocimiento,

siendo sus principales diferencias con aquellas su carencia de brazos y su mayor anchura. De

hecho, despues de analizar las dos primeras vistas la probabilidad de que la silla observada sea

la de la Fig. 4.1.h es incluso mayor que la de que sea la de la Fig. 4.1.d. Para explicar por que el

reconocimiento final se decanta por el modelo con brazos debe observarse que la tercera vista

muestra claramente las proporciones de la silla observada, que es bastante mas estrecha que la

de la Fig. 4.1.h. Ademas, a los lados de la silla se pueden observar los dos pequenos salientes

que indican la presencia de brazos.

Es de resaltar que en ningun momento el sistema ha barajado en estos experimentos que

los objetos entrantes no fuesen sillas. Si a ello se suma el hecho de que basicamente ha decidido

entre unos modelos y otros por la forma del respaldo y el asiento, los brazos y las patas, podrıa

considerarse que el concepto de silla se ha adquirido correctamente.

4. Conclusiones

En este capıtulo se han presentado varias pruebas y experimentos para comprobar el

funcionamiento del sistema de reconocimiento propuesto con objetos de diversa complejidad y

afectados por distintos errores. Se han mezclado intencionadamente objetos reales y virtuales

para probar la posibilidad de reconocerlos de forma cruzada. Esto ha permitido realizar parte

del entrenamiento del sistema con la ayuda de bases de datos virtuales. El entrenamiento con

objetos virtuales resulta muy util porque permite suministrar al sistema objetos libres de error y

desde cualquier punto de vista. Ademas, este tipo de entrenamiento es mucho mas rapido que el

efectuado con objetos reales, puesto que no implica el desplazamiento de camaras alrededor del

objeto. El hecho de que se puedan identificar correctamente objetos reales a partir de los modelos

de sus homologos virtuales es equivalente al hecho de que un ser humano pueda identificar un

objeto que no hubiera visto antes a partir, por ejemplo, de la fotografıa de otro similar.

Los experimentos realizados han resultado satisfactorios en todos los casos, ya que los

objetos iguales se han identificado correctamente, los desconocidos se han incorporado al sis-


tema como cabıa esperar y los errores han estado justificados siempre debido a un parecido en

ciertos rasgos comunes de distintos objetos. Deformaciones puntuales en las vistas capturadas

o distorsiones globales de la forma del objeto 3D se han recuperado satisfactoriamente, en la

mayorıa de los casos, gracias a la naturaleza secuencial del proceso.

Por ultimo, cabe resaltar que en los experimentos llevados a cabo, tanto los sucesivos

pasos del algoritmo de reconocimiento como los resultados finales, han sido siempre justificables

desde el punto de vista de un observador humano. Esto corrobora que el sistema de reconocimien-

to utiliza criterios de forma similares a los que utilizarıa un ser humano y que selecciona los

objetos paso a paso siguiendo una secuencia logica que resulta natural desde el punto de vista

humano.

Capıtulo 5

Conclusiones

1. Conclusiones

En esta tesis se ha presentado un nuevo sistema de reconocimiento de objetos 3D a partir

de secuencias de vistas planas de longitud variable de estos. Esta aproximacion ha sido motivada

por la tendencia al uso de camaras de vıdeo en la mayorıa de los sistemas de vision artificial por

factores de coste, disponibilidad, generalidad, etc. La vision convencional usando una o incluso

dos camaras (vision estereo) esta fuertemente condicionada por el hecho de que la mayor parte

del objeto permanece invisible en funcion de la posicion de dichas camaras, lo que puede dificul-

tar su reconocimiento en presencia de objetos con vistas comunes. Este problema se soluciona

intuitivamente desplazando las camaras alrededor del objeto para capturar las zonas ocultas.

Esta aproximacion permitirıa, en caso de necesidad, extraer informacion volumetrica usando una

unica camara (Sullivan y Ponce, 1998), lo que permite descartar la computacionalmente costosa

vision estereo.

El reconocimiento basado en vistas no es una idea nueva, sino que hay diversos trabajos

que se centran en esta aproximacion (Campbell y Flynn, 1999) (Murase y Nayar, 1995) (Kovacic

et al., 1998). La novedad de la presente tesis consiste en que en lugar de trabajar con imagenes

completas para cada una de las vistas capturadas, ya que esta suficientemente documentada la

bondad de la forma como descriptor de un objeto, se trabaja con dicha forma, reduciendose

ası significativamente el volumen de datos para representar cada vista y, en consecuencia, el

objeto completo. Esto es particularmente deseable en tanto que el sistema debe almacenar los

conocimientos que va adquiriendo de cada objeto y un formato compacto de datos facilita tanto

el almacenamiento de estas como el acceso posterior.

A efectos de codificar la forma de un objeto, es necesario desarrollar un sistema que

145

146 Capıtulo 5. Conclusiones

aporte invarianza con respecto a transformaciones, ruido y posibles distorsiones derivadas de la

separacion objeto-fondo. Una manera habitual de describir la forma es a traves de la curvatura

del contorno de la misma. Sin embargo, obtener la curvatura de un contorno discretizado y posi-

blemente afectado por ruido no resulta trivial. Si bien se han desarrollado numerosos algoritmos

para este fin, estos adolecen de la capacidad de adaptarse a la escala natural del contorno, ya

que implıcita o explıcitamente llevan a cabo un filtrado de este con un factor constante. Ası,

para obtener una mejor representacion, se ha desarrollado una nueva funcion de curvatura capaz

de adaptarse a la escala local del contorno en cada punto, de modo que respeta rasgos signi-

ficativos a cualquier escala pero filtra eficazmente el ruido. Esta funcion se ha comparado con

exito con las funciones de curvatura no adaptativas (Urdiales et al., 2003), si bien su bondad

queda lo suficientemente probada por el hecho de que conserva toda la informacion necesaria

para recuperar los contornos originales libres de ruido (de Trazegnies et al., 2003c).

La comparacion entre distintos contornos a traves de sus funciones de curvatura presenta

la dificultad adicional de que las funciones de curvatura pueden estar desplazadas entre sı.

Este desplazamiento depende del punto del contorno desde el cual se inicia el calculo. Dada

la imposibilidad de escoger un punto de comienzo de cada contorno que sea invariante frente

a giros, transformaciones, ruido, distorsiones u oclusiones parciales, es necesario definir una

descripcion del contorno independiente de la orientacion del mismo. Con este fin, aprovechando

la invarianza de la transformada de Fourier frente a traslaciones de la funcion original, la presente

tesis ha optado por una descripcion a partir del modulo de la transformada de Fourier de cada

funcion de curvatura. Si bien al realizar esta operacion se pierde inevitablemente la informacion

correspondiente a la fase de la transformada de Fourier, se ha comprobado que esta perdida no

reduce de forma significativa la capacidad de clasificacion de formas planas. Adicionalmente,

se ha comprobado que esta representacion es fuertemente redundante, por lo que en la tesis se

ha aplicado Analisis en Componentes Principales para extraer un vector de caracterısticas de

dimension reducida para representar cada vista (de Trazegnies et al., 2003b) (de Trazegnies et

al., 2003a).

Algunos sistemas de reconocimiento de objetos 3D basados en vistas utilizan, al igual

que en la presente tesis, la forma para identificar un objeto (Kovacic et al., 1998) (Mokhtar-

ian, 1997). Sin embargo, no aprovechan la disposicion global de las vistas del objeto para su

reconocimiento, perdiendo ası la posibilidad de distinguir entre objetos con vistas similares pero

dispuestas de forma diferente. Esto resulta especialmente grave en tanto que, si solo se trabaja

con contornos, muchos objetos comparten vistas parecidas. Ası, en esta tesis se ha propuesto un

nuevo algoritmo de reconocimiento basado en aprovechar la secuencialidad de las vistas de un

2. Trabajo futuro 147

objeto mediante acumulacion estadıstica de informacion. Para ello se ha hecho uso de Modelos

Ocultos de Markov. Este sistema se ha probado con exito tanto con objetos virtuales como reales

de distinta naturaleza (de Trazegnies et al., 2003b) (de Trazegnies et al., 2003a).

Es importante senalar que cada uno de los nuevos procedimientos propuestos en esta tesis

funcionan de manera no supervisada, lo que posibilita que los procesos de aprendizaje de nuevos

conceptos y reconocimiento de los mismos no se realicen de forma aislada sino que puedan inter-

actuar, de modo que el sistema pueda adquirir nuevos modelos toda vez que encuentre objetos

que no conoce. Una caracterıstica especialmente interesante derivada del buen comportamiento

frente a ruido, transformaciones o distorsiones del sistema es que es posible reconocer objetos

reales a partir de modelos virtuales. Ası, se abre la posibilidad de entrenarlo con bases de datos

predefinidas ya disponibles para el entorno en el que el sistema deba trabajar, sin perjuicio de

que, durante su funcionamiento, pueda adquirir nuevos modelos del mundo real.

2. Trabajo futuro

El sistema de reconocimiento presentado no responde a un esquema de ejecucion total-

mente cerrado, sino que es un desarrollo flexible que aborda el problema del reconocimiento de

objetos 3D de manera modular. Ası, es posible introducir diversas mejoras al algoritmo basico

sin alterar la estructura general del sistema y, por lo tanto, sin perder sus caracterısticas de

flexibilidad y adaptabilidad al entorno en el que deba operar. Para su exposicion en esta sec-

cion, entre las posibles mejoras que cabrıa proponer, se han seleccionado algunas por su especial

interes para subsanar las limitaciones del sistema y por constituir una continuacion natural de

la lınea de investigacion propuesta en esta tesis.

En primer lugar, es importante notar que una posible mejora en el metodo de repre-

sentacion de las vistas de un objeto redundarıa en una mayor fiabilidad en el reconocimiento.

Cualquier mejora en el metodo de representacion debe ir encaminada a presentar un mejor

comportamiento frente a ruido o distorsion o deformacion de los contornos, o bien a subsanar

defectos del metodo propuesto, sin por ello perder la invarianza frente a traslacion, rotacion o

cambio de escala. El comportamiento frente a distorsion o ruido de la representacion mediante

los vectores de caracterısticas descritos en el capıtulo 2 es suficientemente satisfactorio, por lo

que una mejora en este sentido no serıa muy significativa. Sin embargo, esta resistencia frente

a transformaciones, en casos muy especiales, podrıa dar lugar a la sobrevaloracion del parecido

entre dos imagenes que, en realidad, son distintas. En efecto, el vector de caracterısticas prop-

uesto como descriptor, es invariante frente a rotaciones debido a que retiene la informacion solo

148 Capıtulo 5. Conclusiones

Figura 5.1: a) Objeto 1, presentando cuatro esquinas de 90o; b) objeto 2, presentando cuatroesquinas de −90o; y c) funcion de curvatura del objeto 1 (lınea azul) y del objeto 2 (lınea roja)

del modulo de la transformada de Fourier de la funcion de curvatura. Para ello es necesario des-

preciar la informacion contenida en la fase de la funcion de curvatura. Si bien esta informacion,

en general, no es crıtica para diferenciar entre contornos distintos, es previsible que prescindir de

ella en algunos casos particulares pueda dar lugar a confusion. En la Fig. 5.1 se muestra un buen

ejemplo de este caso. Como se puede comprobar, los contornos de los objetos que se presentan

en las Figs. 5.1.a y b son muy distintos entre sı. Sus funciones de curvatura (Fig. 5.1.c) presen-

tan una evolucion parecida, pero son distinguibles porque su signo es opuesto. Sin embargo, las

transformadas de Fourier de estas dos funciones solo mostraran diferencias significativas en su

fase, lo que hace indistinguible una figura de otra. Dado que la rotacion de una vista produce

una traslacion circular de su funcion de curvatura, tambien se podrıa corregir este defecto si se

dispusiera de un descriptor cıclico del contorno. De esta manera se evitarıa tener que pasar por

una transformacion de Fourier del mismo y en su lugar se realizarıa directamente el Analisis por

Componentes Principales sobre el descriptor cıclico.

Como se ha comentado en los capıtulos 3 y 4, el resultado de reconocimiento de un ob-

jeto determinado depende en ocasiones de la idoneidad de la secuencia observada del mismo.

2. Trabajo futuro 149

Ası, es posible que dos objetos distintos de la base de datos, aun teniendo algunas vistas que

los diferencian claramente, tengan un alto numero de vistas comunes. Si la secuencia de obser-

vacion de cada uno de ellos solo incluye vistas comunes, seran indistinguibles para el sistema

de reconocimiento. Este problema se eliminarıa si el sistema pudiera prever cuales de las vistas

pueden diferenciar mejor a los candidatos propuestos, de modo que las secuencias de vistas con

las que se alimenta el sistema fueran siempre las optimas para distinguir entre objetos similares.

Es importante senalar que el modelo de cada objeto, tal como se describe en el capıtulo 3, no

contiene ninguna informacion sobre la distribucion de las vistas alrededor del objeto, sino solo

la informacion probabilıstica que relaciona cada vista con la siguente. Sin embargo, se podrıa

guardar tambien, junto con los datos de cada modelo, el mapa de clases de vistas del objeto.

De este modo, se podrıa plantear un algoritmo de planificacion de la mirada tal que, dados dos

o mas modelos compatibles con la primera o primeras vistas de un objeto observado, se trazara

el recorrido optimo alrededor del mismo para obtener una secuencia de vistas que permitiera el

reconocimiento correcto. El desarrollo de un sistema de planificacion de la mirada no supondrıa

un coste computacional elevado y evitarıa gastar tiempo analizando secuencias de vistas exce-

sivamente largas, situacion que se da frecuentemente cuando el resultado de reconocimiento es

ambiguo.

Las bases de datos escogidas en el desarrollo de esta tesis contienen un numero reduci-

do de objetos. Esto es ası porque, aunque teoricamente el numero de objetos podrıa crecer

indefinidamente, en la practica aparecen ciertas limitaciones. Ası, cuanto mayor sea la base de

datos mayor sera la probabilidad de que contenga a la vez dos modelos de objetos muy similares,

que solo son distinguibles desde puntos de vista privilegiados. Si se obtiene una secuencia de

vistas de uno de ellos, de modo que los rasgos diferenciadores queden ocultos, el sistema puede

llegar a realizar una vuelta completa alrededor del objeto sin que ninguna de las probabilidades

de reconocimiento de los dos modelos similares destaque respecto de la otra. Como no existe

un resultado unico, serıa necesario adquirir un nuevo modelo para este objeto. Sin embargo,

el sistema ya disponıa de un modelo adecuado al objeto presentado. A partir de ese momento,

cada vez que el sistema observe el mismo objeto, sera incapaz de decidir entre los dos modelos

repetidos y se vera en la obligacion de adquirir un nuevo, empeorando cada vez mas la situacion.

Esto plantea la necesidad de eliminar del sistema los modelos duplicados y la conveniencia de

eliminar modelos que, aun no siendo duplicados exactos, guarden un gran parecido con alguno de

los ya existentes. Para ello, es necesario desarrollar un criterio de parecido entre modelos. Esta

extension evitarıa el riesgo de este comportamiento no deseado y facilitarıa el uso del sistema

de reconocimiento en conjuntos extensos de modelos.

Bibliografıa

A. Adan, C. Cerrada, y V. Feliu. Global shape invariants: a solution for 3D free-form object

discrimination/identification problem. Pattern Recognition, 34(7), pp. 1331–1348, 2001.

G. Agam y I. Dinstein. Geometric separation of partially overlapping nonrigid objects applied

to automatic chromosome classification. IEEE Trans. on Pattern Analysis and Machine In-

telligence, 19(11), pp. 1212–1222, 1997.

Y. Amit, D. Geman, y K. Wilder. Joint induction of shape features and tree classifiers. IEEE

Trans. on Pattern Analysis and Machine Intelligence, 19(11), pp. 1300–1306, 1997.

H. Ando, S. Suzuki, y T. Fujita. Unsupervised visual learning of three dimensional objects using

a modular network architecture. Neural Networks, 12(7), pp. 1037–1051, 1999.

N. Ansari y E. Delp. On detecting dominant points. Pattern Recognition, 24(5), pp. 441–451,

1991.

F. Arrebola, A. Bandera, P. Camacho, y F. Sandoval. Corner detection by local histograms of

contour chain. Electronics Letters, 33(21), pp. 1769–1771, 1997.

F. Arrebola, P. Camacho, A. Bandera, y F. Sandoval. Corner detection and curve representation

by circular histograms of contour chain code. Electronics Letters, 35(13), pp. 1065–1067, 1999.

A. Bandera, C. Urdiales, F. Arrebola, y F. Sandoval. Corner detection by means of adaptively

estimated curvature function. Electronics Letters, 36(2), pp. 124–126, 2000a.

A. Bandera, C. Urdiales, J. Rodriguez, y F. Sandoval. Corner detection techniques for planar

images. En S. G. Pandalai, (Ed.), Recent Research Developments in Pattern Recognition, pp.

137–150. Transworld Research Network, Kerala, India, 2000b.

E. Bardinet, L. Cohen, y N. Ayache. Superquadrics and free-form deformations: a global model

to fit and track 3D medical data. International Conference on Computer Vision, Virtual

Reality and Robotics in Medicine (CVRMed’95), Nice, France, 1995.

151

152 Referencias

R. J. Bartrum y H. C. Crow. Transillumination light scanning to diagnose breast cancer: a

feasibility study. American Journal of Radiology, 142, pp. 409–414, 1984.

R. Basri, D. Roth, y D. Jacobs. Clustering appearances of 2D objects. En IEEE Conference

on Computer Vision and Pattern Recognition, pp. 414–420, Santa Barbara - CA, USA, June

1998.

M. Beauvais y S. Lakshmanan. CLARK: a heterogeneous sensor fusion method for finding lanes

and obstacles. Image and Vision Computing, 18(5), pp. 397–413, 2000.

E. J. Bellegarda, J. R. Bellegarda, D. Nahamoo, y K. S. Nathan. A probabilistic framework for

on-line handwritting recognition. En Proc. of the 3rd International Workshop on Frontiers in

Handwritting Recognition, pp. 225–234, Buffalo, USA, 1993.

M. Bhattacharya y D. D. Majumder. Registration of CT and MR images of Alzheimer’s patient:

a shape theoretic approach. Pattern Recognition Letters, 21(6-7), pp. 531–548, 2000.

A. Bottino y A. Laurentini. Introducing a new problem: Shape-from-silhouette when the relative

positions of the viewpoints is unknown. IEEE Trans. on Pattern Analysis and Machine

Intelligence, 25(11), pp. 1484–1493, 2003.

J. R. Bourne, V. Jagannathan, B. Hamel, B. H. Jansen, J. W. Ward, J. R. Hughes, y C. W. Erwin.

Evaluation of a syntactic pattern recognition approach to quantitative electroencephalographic

analysis. Electroencephalography and Clinical Neurophysiology, 52, pp. 57–64, 1981.

H. H. Buelthoff y S. Edelman. Psychophysical support for a 2D view interpolation theory of

object recognition. Proc. of the National Academy of Science, 89, pp. 60–64, 1992.

R. Campbell y P. Flynn. Eigenshapes for 3D object recognition in range data. En Proc. of

the International Conference on Computer Vision and Pattern Recognition (CVPR’99), pp.

505–510, Fort Collins - Colorado, USA, 1999.

O. Carmichael y M. Hebert. Object recognition by a cascade of edge probes. British Machine

Vision Conference (BMVC 2002), Cardiff, UK, 2002.

F. S. Chang y S. Y. Chen. Deformed shape retrieval based on Markov Model. Electronics Letters,

36(2), pp. 126–127, 2000.

G. C. Charters y J. Graham. Trainable grey-level models for disentangling overlapping chromo-

somes. Pattern Recognition, 32(8), pp. 1335–1349, 1999.

Referencias 153

F. A. Cheikh, A. Quddus, y M. Gabbouj. Shape recognition based on wavelet transform mod-

ulus maxima. En Proc. of VII International Conference on Electronics Circuits and Systems

(ICECS 2000), pp. 461–464, Beirut, Lıbano, 2000.

S. D. Connell y A. K. Jain. Template-based online character recognition. Pattern Recognition,

34(1), pp. 1–14, 2001.

J. Coolidge. The unsatisfactory story of curvature. The American Mathematical Monthly, 59

(6), 1952.

L. Costa y M. Sandler. Effective detection of bar segments with Hough transform. Computer

Vision, Graphics, and Image Processing: Graphical Models and Image Processing, 55(3), pp.

180–191, 1993.

P. Courtney y N. A. Thacker. Performance characterisation in computer vision: The role of

statistics in testing and design. En J. Blanc-Talon y D. Popescu, (Eds.), Imaging and Vision

Systems: Theory, Assessment and Applications. NOVA Science Books, New York, USA, 2001.

M. K. Cowles y B. P. Carlin. Markov Chain Monte Carlo convergence diagnostics: A comparative

review. Journal of the American Statistical Association, 91, pp. 883–904, 1996.

G. Cross, A. W. Fitzgibbon, y A. Zisserman. Parallax geometry of smooth surfaces in multiple

views. En Proc. 7th International Conference on Computer Vision, pp. 323–329, Korfu, Grecia,

1999.

L. Davis, R. Chellapa, Y. Yacoob, y Q. Zheng. Visual surveillance and monitoring of human

and vehicle activity. En Proc. of the Defense Advanced Research Projects Agency Image

Understanding Workshop, pp. 19–27, New Orleans - LA, USA, 1997.

C. de Trazegnies, J. Bandera, C. Urdiales, y F. Sandoval. A real 3D object recognition algorithm

based on virtual training. En IASTED Conference on Signal Processing, Pattern Recognition

and Applications, (SPPRA 2003), pp. 342–347, Rodas, Grecia, July 2003a.

C. de Trazegnies, F. J. Miguel, C. Urdiales, A. Bandera, y F. Sandoval. Planar shape recognition

based on Hidden Markov Models. Electronics Letters, 37(24), pp. 1448–1449, 2001.

C. de Trazegnies, C. Urdiales, A. Bandera, y F. Sandoval. Planar shapes indexing and retrieval

based on Hidden Markov Models. Pattern Recognition Letters, 23(10), pp. 1143–1151, 2002.

C. de Trazegnies, C. Urdiales, A. Bandera, y F. Sandoval. 3D object recognition based on

curvature information of planar views. Pattern Recognition, 36(11), pp. 2571–2584, 2003b.

154 Referencias

C. de Trazegnies, C. Urdiales, A. Bandera, y F. Sandoval. A Hidden Markov Model object recog-

nition technique for incomplete and disorted corner sequences. Image and Vision Computing,

21(10), pp. 879–889, 2003c.

G. Deichsel y H. J. Trampisch. Clusteranalyse und Diskriminanzanalyse. Gustav Fischer Verlag,

Stuttgart, 1985.

D. A. Denisov. Model-based chromosome recognition via hypotheses construction/verification.

Pattern Recognition Letters, 15(3), pp. 299–307, 1994.

M. P. do Carmo. Geometrıa diferencial de curvas y superficies. Alianza Universidad, Madrid,

1a edicion, 1990.

L. Dreschler y H. Nagel. On the selection of critical points and local curvature extrema of region

boundaries for interframe matching. En International Conference on Pattern Recognition, pp.

542–544, Munich, Alemania, 1982.

Eclipse-Entertainment. Genesis3D. 1998, http://www.genesis3d.com.

S. Edelman. Computational theories of object recognition. Trends in Cognitive Sciences, 1(8),

pp. 296–304, 1997.

H. Fonga. Pattern recognition in gray-level images by Fourier analysis. Pattern Recognition

Letters, 17(14), pp. 1477–1489, 1996.

H. Freeman y L. S. Davis. A corner-finding algorithm for chain-coded curves. IEEE Trans. on

Computers, 26, pp. 287–303, 1977.

N. Friedman. The Bayesian structural EM algorithm. En Proc. of the 14th Annual Conf. on

Uncertainty in Artificial Intelligence (UAI-98), pp. 129–138. Morgan Kaufmann Publishers,

San Francisco - CA, USA, 1998.

F. Girosi, M. Jones, y T. Poggio. Regularization theory and neural networks architectures.

Neural Computation, 7, pp. 219–269, 1995.

E. L. Hall. A survey of preprocessing and feature extraction techniques for radiographic images.

IEEE Trans. on Computers, 20(9), pp. 1032–1044, 1971.

L. N. Hambrick, M. H. Loew, y R. L. Carroll. The entry-exit. IEEE Trans. on Pattern Analysis

and Machine Intelligence, 9(5), pp. 597–607, 1987.

Referencias 155

C. Harris y M. Stephens. A combined corner and edge detector. En M. M. Matthews, (Ed.),

Proceedings of the 4th ALVEY vision conference, pp. 147–151, University of Manchester, UK,

September 1988.

J. Hartigan. A k-means clustering algorithm. Applied Statistics, 28, pp. 100–108, 1979.

Y. He y A. Kundu. 2D shape classification using Hidden Markov Models. Trans. on Pattern

Analysis and Machine Intelligence., 13(11), pp. 1172–1184, 1991.

J. Hornegger y H. Niemann. Probabilistic modeling and recognition of 3D objects. International

Journal of Computer Vision, 39(3), pp. 229–251, 2000.

J. Hornegger, H. Niemann, D. Paulus, y G. Schlottke. Object recognition using Hidden Markov

Models,. En E. Gelsema y L. Kanal, (Eds.), Pattern Recognition in Practice IV, pp. 37–44,

Amsterdam, 1991. Elsevier.

R. Howarth y H. Buxton. Visual surveillance monitoring and watching. En Proc. of the 4th

European Conf. on Computer Vision (ECCV’96), pp. 321–334, Oxford, UK, 1996.

J. Hsu y S. Hwang. A machine learning approach for acquiring descriptive classification rules of

shape contours. Pattern Recognition, 30(2), pp. 245–252, 1997.

J. M. Inesta, M. Buendia, y M. A. Sarti. Local symmetries of digital contours from their chain

codes. Pattern Recognition, 29(10), pp. 1737–1749, 1996.

A. Jain y R. Dubes. Algorithms for clustering data. Prentice-Hall, Englewood Cliffs - NJ, USA,

1988.

J. F. Jarvis. A method for automating the visual inspection of printed wiring boards. IEEE

Trans. on Pattern Analysis and Machine Intelligence, 2, pp. 77–82, 1980.

A. E. Johnson y M. Hebert. Surface matching for object recognition in complex three-

dimensional scenes. Image and Vision Computing, 16(9-10), pp. 635–651, 1998.

T. Kanade, Collins, R. T., A. Lipton, P. Anandan, P. Burt, y L. Wixson. Cooperative multi-

sensor video surveillance. En Proc. of the Defense Advanced Research Projects Agency Image

Understanding Workshop, pp. 3–10, New Orleans - LA, USA, 1997.

L. Kaufman y P. Rousseeuw. Finding groups in data: An introduction to cluster analysis. John

Wiley and Sons, New York, NY, 1990.

156 Referencias

H. Kauppinen, T. Seppanen, y M. Pietikainen. An experimental comparison of autoregressive

and fourier-based descriptors in 2D shape classification. IEEE Trans. on Pattern Analysis

and Machine Intelligence, 17(2), pp. 201–207, 1995.

T. Kim, T. Cho, Y. S. Moon, y S. H. Park. Visual inspection system for the classification of

solder joints. Pattern Recognition, 32(4), pp. 565–575, 1999.

L. Kitchen y A. Rosenfeld. Gray level corner detection. Pattern Recognition Letters, 1(2), pp.

95–102, 1982.

M. Kline. Mathematical Thought From Ancient To Modern Times. Oxford University Press,

New York, 1972.

S. Kovacic, A. Leonardis, y F. Pernus. Planning sequences of views for 3D object recognition

and pose determination. Pattern Recognition, 31(10), pp. 1407–1417, 1998.

S. S. Kuo y O. E. Agazzi. Keyword spotting in poorly printed documents using pseudo 2D

Hidden Markov Models. Trans. on Pattern Analysis and Machine Intelligence, 16(8), pp.

842–848, 1994.

K. N. Kutulakos y S. M. Seitz. A theory of shape by Space Carving. Technical Report TR692,

Computer Science Dept., University of Rochester, USA, 1998.

A. Leonardis, A. Jaklic, y F. Solina. Superquadrics for segmenting and modeling range data.

IEEE Trans. on Pattern Analysis and Machine Intelligence, 19(11), pp. 1289–1295, 1997.

B. Lerner, H. Guterman, I. Dinstein, y Y. Romem. Medial axis transform-base features and

neural network for human chromosome classification. Pattern Recognition, 28(11), pp. 1673–

1683, 1995.

H. Liu y D. Srinath. Partial shape classification using contour matching in distance transfor-

mation. IEEE Trans. on Pattern Analysis and Machine Intelligence, 12(11), pp. 1072–1079,

1990.

S. T. Liu y W. H. Tsai. Moment-preserving corner detection. Pattern Recognition, 23(5), pp.

441–460, 1990.

K. C. Lo y S. K. W. Kwok. Recognition of 3D planar objects in canonical frames. Pattern

Recognition Letters, 22(6-7), pp. 715–723, 2001.

N. Logothetis y J. Pauls. Psychophysical and physiological evidence for viewer-centered object

representations in the primate. Cerebral Cortex, 3, pp. 270–288, 1995.

Referencias 157

W. Lorensen y H. Cline. A high resolution 3D surface construction algorithm. Computer

Graphics, 21, pp. 163–169, 1987.

C. Lu. Shape matching using polygon approximation and dynamic alignment. Pattern Recog-

nition Letters, 14(12), pp. 945–949, 1993.

G. Mamic y M. Bennamoun. Representation and recognition of 3D free-form objects. Digital

Signal Processing, 12, pp. 47–76, 2002.

W. N. Martin y J. K. Aggarwal. Volumetric descriptions of objects from multiple views. Trans.

on Pattern Analysis and Machine Intelligence, 5, pp. 150–159, 1983.

K. Matsumoto, M. Naka, y H. Yamamoto. A new clustering method for landsat images using

local maximums of a multidimensional histogram. En Proc. of the Symposium on Machine

Processing Remotely Sensed Data, pp. 321–326, Purdue - IN, USA, 1981.

S. McKenna, S. Jabri, Z. Duric, A. Rosenfeld, y H. Wechsler. Tracking groups of people. Com-

puter Vision and Image Understanding, 80(1), pp. 42–56, 2000.

G. G. Medioni y Y. Yasumoto. Corner detection and curve representation using cubic B-splines.

Computer Vision, Graphics, and Image Processing, 39(3), pp. 267–278, 1987.

K. Mikolajczyk y C. Schmid. Indexing based on scale invariant interest points. En International

Conference of Computer Vision, pp. 525–531, Vancouver, Canada, July 2001.

F. Mokhtarian. Silhouette-based occluded object recognition through Curvature Scale Space.

Machine Vision and Applications, 10(3), pp. 87–97, 1997.

F. Mokhtarian y A. K. Mackworth. Scale-based description and recognition of planar curves

and two-dimensional shapes. IEEE Trans. Pattern Analysis and Machine Intelligence, 8(1),

pp. 34–43, 1986.

H. Moravec. Visual mapping by robot rover. En International Joint Conferences on Artifitial

Intelligence, pp. 598–600, Tokyo, Japon, 1979.

S. Mukherjee y S. K. Nayar. Object recognition and pose estimation in eigenspace using a RBF

network. Technical Report 40-93, Department of Computer Science, University of Columbia,

USA, 1993.

H. Murase y S. K. Nayar. Illumination planning for object recognition in structured environ-

ments. En Proc. of the IEEE, Computer Society Conference on Computer Vision and Pattern

Recognition, pp. 31 –38, Seattle, Washington, USA, June 1994.

158 Referencias

H. Murase y S. K. Nayar. Visual learning and recognition of 3D objects from appearance.

International Journal of Computer Vision, 14, pp. 5–24, 1995.

D. Nair y J. K. Aggarwal. A focused target segmentation paradigm. En Proc. of the 4th European

Conference in Computer Vision, (ECCV’96), pp. 579–588, Oxford, UK, 1996.

P. Natarajan, Z. Lu, R. Schwartz, I. Bazzi, y J. Makhoul. Multilingual machine printed OCR.

International Journal of Pattern Recognition and Artificial Intelligence, 15(1), pp. 43–63, 2001.

S. K. Nayar, S. A. Nene, y H. Murase. Real-time 100 object recognition system. En Proc. of

the IEEE,International Conference on Robotics and Automation, volume 3, pp. 2321 –2325,

Minneapolis, Minnesota, USA, April 1996.

R. Nelson y A. Selinger. Learning 3D recognition models for general object from unlabeled

imagery: An experiment in intelligent Brute Force. En International Conference on Pattern

Recognition(ICPR00), pp. 1–8, Barcelona, Espana, September 2000.

K. Ohba y K. Ikeuchi. Detectability, uniqueness, and reliability of eigen windows for stable

verification of partially occluded objects. IEEE Trans. on Pattern Analysis and Machine

Intelligence, 19(7), pp. 1043–1047, 1997.

T. Pavlidis y S. Horowitz. Segmentation of plane curves. IEEE Trans. on Computers, 23, pp.

860–870, 1974.

J. Perez y E. Vidal. Optimum polygonal approximation of digitized curves. Pattern Recognition

Letters, 15(8), pp. 743–750, 1994.

T. Poggio y S. Edelman. A network that learns to recognize three-dimensional objects. Nature,

343, pp. 263–266, 1990.

T. Poggio y F. Girosi. Networks for approximation and learning. Proceedings of the IEEE, p.

78, September 1990.

M. J. D. Powell. Radial basis functions for multivariable interpolation: A review. En J. C. Mason

y M. G. Cox, (Eds.), Algorithms for Approximation of Functions and Data, pp. 143–167, New

York, 1987. Oxford University Press.

E. Prem. Symbol grounding and transcendental logic. En L. Niklasson y M. Boden, (Eds.),

Current Trends in Connectionism, pp. 271–282. Lawrence Erlbaum, Hillsdale, NJ, USA, 1995.

L. R. Rabiner. A tutorial on Hidden Markov Models and selected applications in speech recog-

nition. Proceedings of the IEEE, 77(2), pp. 257–286, 1989.

Referencias 159

K. Rao. Shape description of curved 3D objects for aerial surveillance. En M. Kaufmann, (Ed.),

Proc. of the ARPA Image Understanding Workshop, pp. 1065–1076, Palm Springs - CA, USA,

1996.

B. Ray y K. Ray. Determination of optimal polygon from digital curve using L1 norm. Pattern

Recognition, 26(4), pp. 505–509, 1993.

P. Reche, C. Urdiales, A. Bandera, C. de Trazegnies, y F. Sandoval. Corner detection by means

of contour local vectors. Electronics Letters, 38(14), pp. 699–701, 2002.

K. S. Roh y I. S. Kweon. 3D object recognition using a new invariant relationship by single

view. Pattern Recognition, 33(5), pp. 741–754, 2000.

C. A. Rosen y D. Nitzan. Use of sensors in programmable automation. Computer, 10(12), pp.

12–23, 1977.

A. Rosenfeld y J. Weszka. An improved method of angle detection on digital curves. IEEE

Trans. on Computers, 24, pp. 940–941, 1975.

L. Rosenthaler, F. Heitger, O. Kubler, y R. von der Heydt. Detection of general edges and

keypoints. En Proc. 2nd European Conference on Computer Vision, (ECCV’92), pp. 78–86.

Springer-Verlag, 1992.

P. L. Rosin. Representing curves at their natural scales. Pattern Recognition, 25(11), pp.

1315–1325, 1992.

P. L. Rosin. Augmenting corner descriptors. Graphical Models and Image Processing, 58(3), pp.

286–294, 1996.

C. A. Rothwell, A. Zisserman, D. A. Forsyth, y J. L. Mundy. Planar object recognition using

projective shape representation. International Journal of Computer Vision, 16(1), pp. 57–99,

1995.

M. Seibert y A. M. Waxman. Adaptive 3D object recognition from multiple views. IEEE Trans.

on Pattern Analysis and Machine Intelligence, 14(2), pp. 107–124, 1992.

A. Selinger y R. Nelson. A perceptual grouping hierarchy for appearance-based 3D object

recognition. Computer Vision and Image Understanding, 76(1), pp. 83–92, 1999.

S. A. Shafer y T. Kanade. Using shadows in finding surface orientations. Computer Vision,

Graphics and Image Processing, 22, pp. 145–176, 1983.

160 Referencias

A. Singh y M. O. Shneier. Grey level corner detection: A generalization and a robust real time

implementation. Computer Vision, Graphics, and Image Processing, 51(1), pp. 54–69, 1990.

S. Singh. Shape detection using gradient features for handwritten character recognition. En

Proc. of the 13th International Conference on Pattern Recognition (ICPR’96), volume 3, pp.

145–149, Vienna, Austria, 1996.

L. Sirovich y R. Everson. Analysis and management of large scientific databases. Int. Journal

of Supercomputing Applications, 6(1), pp. 50–68, 1992.

S. Smith y J. Brady. SUSAN: A new approach to low-level image-processing. International

Journal of Computer Vision, 23(1), pp. 45–78, 1997.

S. Startchik, R. Milanse, y T. Pun. Projective and illumination invariant representation of

disjoint shapes. En Proc. of the Fifth European Conference on Computer Vision (ECCV ’98),

p. 264, Freiburg, Alemania, 1998.

S. Sullivan y J. Ponce. Automatic model construction and pose estimation from photographs

using triangular splines. IEEE Trans. on Pattern Analysis and Machine Intelligence, 20(10),

pp. 1091–1097, 1998.

S. Suzuki, H. Ando, y T. Fujita. Unsupervised visual learning of three-dimensional objects using

a modular network architecture. Neural Networks, 12(7-8), pp. 1037–1051, 1999.

R. Szeliski. Rapid octree construction from image sequences. Computer Vision, Graphics and

Image Processing, 58(1), pp. 23–32, 1993.

H. Taylor y S. Karlin. An introduction to stochastic modelling. Academic Press, New York,

1994.

S. Ullman. High-level Vision: Object Recognition and Visual Cognition. MIT Press, Cambridge

- MA, USA, 1996.

C. Urdiales, A. Bandera, y F. Sandoval. Non parametric planar shape representation based on

adaptive curvature functions. Pattern Recognition, 35(1), pp. 43–53, 2002.

C. Urdiales, C. de Trazegnies, A. Bandera, y F. Sandoval. Corner detection based on adaptively

filtered curvature function. Electronic Letters, 39(5), pp. 426–428, 2003.

V. Vapnik. The Nature of Statistical Learning Theory. Springer, New York, 1995.

F. J. Varela, E. Rosch, y E. Thompson. The Embodied Mind: Cognitive Science and Human

Experience. MIT Press/Bradford Books, Cambridge - MA, USA, 1991.

Referencias 161

S. Venkatesh. A Study of Energy Based Models for the Detection and Classification of Image

Features. PhD thesis, The University of Western Australia, Department of Computer Science,

1990.

G. Wahba. Spline Models for Observation Data. Regional Conference series in applied mathe-

matics. Society for Industrial and Applied Mathematics, Philadelphia, PA, 1990.

D. Whiteside. The Mathematical Papers of Isaac Newton, volume II. Cambridge University

Press, Cambridge, 1969.

W. Wolberg, W. Street, y O. Mangasarian. Machine learning techniques to diagnose breast

cancer from image-processed nuclear features of fine needle aspirates. Cancer Letters, 77, pp.

163–171, 1994.

J. Zhou y T. Pavlidis. Discrimination of characters by a multi-stage recognition process. Pattern

Recognition, 27(11), pp. 1539–1549, 1994.

W. D. Zhou y J. Zhou. The development of EEG real-time monitoring system. Shandong Journal

of Biomedical Engineering, 18(3), pp. 22–26, 1999.

P. Zhu y P. M. Chirlian. On critical point detection of digital shapes. IEEE Trans. Pattern

Analysis and Machine Intelliggence, 17(8), pp. 737–748, 1995.

O. A. Zuniga y R. M. Haralick. Gradient threshold selection using the Facet Model. Pattern

Recognition, 21(5), pp. 493–503, 1988.

Apendice A

Modelos Ocultos de Markov.

Un Modelo Oculto de Markov (MOM) es un proceso doblemente estocastico, que consta

de un proceso de Markov no observable (oculto) Q = {Q1, Q2, ..., QN}, constituido por una

secuencia no observable de estados y un proceso observado V q = {V q,1, V q,2, ..., V q,T }. El estado

del sistema en cada instante t, Qt, puede ser uno cualquiera a escoger entre los estados de un

conjunto predefinido H = {H1,H2, ...,HM}, que se conoce como conjunto de los estados ocultos

del proceso. Cada una de las observaciones V q de la secuencia presenta un valor dependiente es-

tocasticamente de los estados ocultos. A continuacion se presenta, en la seccion 1, una definicion

formal de los Modelos de Markov. En la seccion 2 se extiende la definicion a los Modelos Ocultos

de Markov. En esta seccion se incluye una breve explicacion de la construccion de un Modelo

Oculto de Markov, introduciendo los algoritmos usualmente empleados para la resolucion de

problemas tıpicos. En particular, en la seccion 2.6, se presenta el algoritmo de entrenamiento de

Modelos Ocultos de Markov utilizado en la presente tesis.

1. Modelos de Markov

Un Modelo de Markov (MM) es un modelo matematico capaz de predecir probabilıstica-

mente el comportamiento de un proceso de Markov. No todos los procesos estocasticos, que se

puedan representar como una cadena de estados, se pueden modelar mediante MMs. Un proceso

estocastico se puede llamar de Markov solo si se cumple que, para todo instante de tiempo t, el

estado del proceso en el instante t, Qt, depende unicamente del estado del sistema en el instante

t− 1, Qt−1, y no de la historia del proceso, es decir:

P (Qt = Hj |Qt−1 = H i, Qt−2 = Hk, ...) = P (Qt = Hj |Qt−1 = H i) (A.1)

163

164 Capıtulo A. Modelos Ocultos de Markov.

Ası, se puede definir, para cada proceso de Markov, una matriz de transicion A = Ai,j , a

cada una de cuyas componentes Ai,j se llama probabilidad de transicion del estado H i al estado

Hj , y expresa la probabilidad de que, en un proceso de Markov dado, se presente el estado Hj

en el instante t, habiendose observado el estado H i en el instante anterior t− 1:

Ai,j = P (Qt = Hj |Qt−1 = H i) (A.2)

Como los parametros Ai,j se definen como valores de probabilidad, su valor debe estar

comprendido entre 0 y 1. Ademas se debe cumplir que:

n∑j=1

P (Qt = Hj |Qt−1 = H i) = 1, para todo i (A.3)

ya que en el instante t el proceso debe presentar necesariamente uno de los estados incluidos en

el conjunto H. Esta propiedad tambien se puede expresar mediante los parametros Ai,j de la

siguiente forma:

n∑j=1

Ai,j = 1, para todo i (A.4)

El siguiente ejemplo muestra como se aplica el modelado de Markov a la prediccion del

comportamiento de un sistema simple, cuyos estados representan el estado del clima con una

frecuencia diaria:

H = {lluvia, nubes, sol} (A.5)

Cada dıa se observa si el clima corresponde a una de estas tres categorıas y se anota

su evolucion. Para poder aplicar MMs es necesario suponer que el clima observado unicamente

depende del clima que hiciera el dıa anterior. El proceso queda descrito por una matriz de

transicion A. La matriz de transicion puede haberse definido basada en informacion a priori

sobre las relaciones entre los estados, o bien haberse deducido de la informacion experimental

disponible por la evolucion previa del proceso. Se supone que los coeficientes de la matriz A

toman los siguientes valores:

A =

0.2 0.3 0.50.6 0.3 0.10.1 0.3 0.7

(A.6)

Segun esta matriz, por ejemplo, si un dıa estuvo nublado, lo mas probable, con una

probabilidad de 0.6, es que al dıa siguiente llueva, aunque tambien puede permanecer nublado

2. Modelos Ocultos de Markov 165

o despejarse con una probabilidad de 0.3 y 0.1 respectivamente. Asimismo, disponiendo de un

modelo como el descrito, se puede evaluar la probabilidad de que ocurra una secuencia cualquiera

de estados Q = (lluvia, sol, nubes, nubes) mediante la concatenacion de las probabilidades de

transicion:

P (Q) = Alluvia,sol ·Asol,nubes ·Anubes,nubes = 0.5 · 0.3 · 0.3 = 0.045 (A.7)

En un modelo de Markov ideal, se supone que siempre hay un instante anterior respecto

del cual se puede medir una probabilidad de transicion. Sin embargo, algunos procesos de tipo

secuencial, aun cumpliendo las condiciones para ser procesos de Markov en todas sus transiciones,

tienen un momento de comienzo, antes del cual el estado del sistema no esta definido. Para poder

extender el tratamiento mediante modelos de Markov a este tipo de procesos, es necesario definir

un vector de probabilidad inicial Π. Cada uno de los elementos Πi del vector de probabilidad

inicial representa la probabilidad de que en el instante inicial el sistema presente el estado H i.

En el ejemplo anterior se ha tomado una secuencia de observaciones que comienza en

un instante t = 0 con la observacion del estado lluvia. Se han evaluado las probabilidades de

transicion a partir de este instante, pero no para la transicion de t = −1 a t = 0, puesto que el

proceso no esta definido en t = −1. Para evaluar completamente la probabilidad de ocurrencia

de la secuencia anterior, es necesario anadir la estimacion de la probabilidad de encontrar el

estado lluvia como primer estado. Dado un vector probabilidad inicial Π = (0.2, 0.2, 0.6) se

puede anadir la correccion al calculo de P (Q):

P (Q) = Πlluvia ·Alluvia,sol ·Asol,nubes ·Anubes,nubes = 0.2 · 0.5 · 0.3 · 0.3 = 0.009 (A.8)

Los MMs son utiles para modelar procesos directamente observables, que son, en general,

procesos relativamente sencillos. Para abordar problemas mas complejos, en los que existe cierta

inexactitud en la determinacion de los estados del proceso en cada instante, es necesario extender

este desarrollo a los Modelos Ocultos de Markov.

2. Modelos Ocultos de Markov

2.1. Introduccion

Un Modelo Oculto de Markov es un Modelo de Markov junto con un proceso estocastico

que relaciona los estados ocultos del proceso con una secuencia de observaciones. En el caso


mas sencillo, cada una de las observaciones V t, toma valores de un conjunto discreto S =

{S1, S2, ..., SN} de posibles observaciones.

Un proceso oculto de Markov evoluciona en el tiempo pasando aleatoriamente de un

estado a otro, sin que esta evolucion sea observable, y ofreciendo a un observador externo en

cada paso, al azar, algun elemento del conjunto S.

Del mismo modo que ocurrıa en los procesos simples de Markov, cuando en el instante

t− 1, el proceso se encuentra en el estado Qt−1 = H i, tiene la probabilidad Ai,j de encontrarse

en el instante t en el estado Qt = Hj . Sin embargo, se debe recordar que la observacion de los

estados Qt−1 y Qt no es posible sino a traves del conjunto de posibles observaciones S. Ası, si

las observaciones en los instantes t − 1 y t han sido respectivamente V t−1 = Su y V t = Sv,

sera necesario contabilizar tambien la probabilidad de que, dado el estado oculto H i se haya

obtenido la observacion Su y de que, dado el estado oculto Hj , se haya obtenido Sv. Estas

probabilidades, que se llaman probabilidades de observacion se definen formalmente como:

Bi(Su) = P (Su|H i) (A.9)

Para ilustrar esta idea, se puede retomar el ejemplo de la seccion anterior para el mo-

delado del clima. Los estados del sistema siguen siendo la descripcion diaria del clima, pero

ahora no son directamente observables, por ejemplo, porque el observador este encerrado en una

habitacion desde la que no puede ver el exterior. Los datos climatologicos deben ser observados

a traves de medios indirectos, como puede ser a traves de las medidas de un higrometro y un

termometro. Ası, el observador define el siguiente conjunto de observaciones segun la humedad

relativa, HR, sea mayor o menor del 80% y la temperatura, T , mayor o menor de 15o:

S =

S1| HR < 80 % , T > 15o;S2| HR < 80 % , T < 15o;S3| HR > 80 % , T > 15o;S4| HR > 80 % , T < 15o

(A.10)

El numero de estados ocultos no tiene, necesariamente, que coincidir con el numero de

posibles observaciones, y de hecho en este ejemplo no lo es. De este modo, para interpretar el

clima que hace en el exterior, el observador se ve obligado a definir un conjunto de probabili-

dades de observacion, B. Como tanto los estados como las observaciones pertenecen a conjuntos

discretos, las probabilidades de observacion se pueden definir en forma matricial:

B =

0.1 0.1 0.3 0.50.1 0.2 0.6 0.10.6 0.2 0.1 0.1

(A.11)


Al igual que en la seccion anterior, el observador parte de una secuencia de observa-

ciones, V = (V 1 = S4, V 2 = S2, V 3 = S1), y pretende determinar la probabilidad de que su

modelo climatico la haya generado. La diferencia fundamental con el caso anterior es que aho-

ra la secuencia de observaciones pertenece al conjunto S y no al H. En un MOM para cada

secuencia de observaciones hay multiples posibles secuencias de estados ocultos que podrıan

haberlas generado. Ası, el observador del ejemplo podrıa plantearse cual es la probabilidad

de que se haya observado la secuencia V y que ademas la secuencia de estados ocultos sea

Q1 = (lluvia, sol, nubes). Esta probabilidad se calcularıa de la siguiente manera:

P (V|Q1) = P (lluvia|t = 0) · P (S4|lluvia) · P (sol|lluvia) · P (S2|sol) · P (nubes|sol) · P (S1|nubes)

P (V|Q1) = Πlluvia · blluvia(S4) ·Alluvia,sol · bsol(S2) ·Asol,nubes · bnubes(S1) (A.12)

Este calculo es solo valido para la secuencia de estados ocultos propuesta. Hay que

considerar que en este caso, al haber tres posibles estados ocultos y tratarse de una secuencia

de tres observaciones, hay 33 posibles secuencias de estados ocultos que, con mayor o menor

probabilidad, podrıan haber generado la secuencia de observaciones propuesta. En general, para

una secuencia de T observaciones en un proceso de M estados, hay MT secuencias posibles de

estados ocultos. Ası, la probabilidad total de haber obtenido la secuencia de observaciones V con

el modelo climatico propuesto vendra dada por la suma de las probabilidades de haber obtenido

dicha secuencia de observaciones con cada una de las posibles secuencias de estados ocultos:

P (V) =∑todo i

P (V|Qi) (A.13)

Para tener una vision general del problema hay que tener en cuenta tambien que el modelo

propuesto no es el unico posible modelo climatico que se adapta a la observacion efectuada. Para

respetar una notacion rigurosa del problema, es necesario incluir explıcitamente en el calculo la

referencia al modelo con el cual se han hecho los calculos. Si se denomina λ al modelo arriba

definido, la ecuacion A.13 queda:

P (V|λ) =∑todo i

P (V,Qi|λ)

=∑todo i

P (V|Qi, λ) · P (Qi|λ)

=∑todo i

ΠQ1i· bQ1

i(S4) ·AQ1

i ,Q2i· bQ2

i(S2) ·AQ2

i ,Q3i· bQ3

i(S1) (A.14)


2.2. Elementos de los Modelos ocultos de Markov

Formalmente, un MOM discreto λ se define como una quintupla que describe un proceso

oculto de Markov:

λ = (S,H,Π,A,B) (A.15)

A continuacion se define cada uno de los elementos del MOM:

S representa un conjunto discreto de N elementos que describen las N posibles observa-

ciones que se pueden dar en el proceso.

H es un conjunto discreto de M estados ocultos del sistema. La correcta eleccion de los

estados ocultos y del conjunto de observaciones con el fin de describir fielmente el proceso

es crucial para facilitar la construccion del MOM.

Un vector de probabilidades iniciales de observacion Π = (Π1,Π2, ...,ΠM ). Cada elemento

Πi del vector Π representa la probabilidad de que el estado H i sea el primero de la secuencia

Q de estados ocultos del conjunto H. Las componentes de Πp toman valores de probabilidad

de modo que, como con toda seguridad el primer estado de la secuencia pertenece al

conjunto H, la suma de todas las componentes de Π esta normalizada a la unidad:

M∑i=1

πi = 1 (A.16)

siendo M el numero de clases para cada modelo p.

Una matriz de transicion Ap. Cada elemento Ai,j de Ap representa la probabilidad de que

mediante el modelo λ, el proceso llegue al estado Hj en el instante t, dado el estado H i

en el instante t − 1. Como el estado al que llega el sistema en el instante t debe estar

comprendido entre los estados del conjunto H, la suma de las probabilidades de transicion

desde un estado H i a todos los estados del conjunto H debe estar normalizada a la unidad:

n∑j=1

Ai,j = 1, para todo i (A.17)

Una matriz de probabilidad de observacion B. Los coeficientes bi,u de la matriz B son

iguales a las probabilidades de observacion Bi(Su) y relacionan el conjunto de observaciones

S con el conjunto de estados ocultos H. Cada bi,u equivale a la probabilidad de que, dado

el modelo λ, se observe Su cuando el estado oculto es el H i. Como, dado un estado oculto

H i, la observacion del mismo debe dar como resultado uno de los elementos de S, la suma


de las probabilidades de observar todos los elementos de S debe estar normalizada a la

unidad:

N∑u=1

bi,u = 1, para todo i (A.18)

Un Modelo Oculto de Markov ası definido puede entenderse como el modelo matematico

de un proceso real. En este caso, el analisis mediante MOMs se puede aplicar a resolver en

general problemas de modelado, como pueden ser la generacion de secuencias de observaciones

equivalentes a las que habrıa generado un proceso real , o la explicacion por que un proceso real

da una determinada secuencia de observaciones.

2.3. Definicion de tres problemas basicos

Siempre que se aplican MOMs a problemas de modelado resulta necesario resolver proble-

mas matematicos relativamente complejos. Afortunadamente, los la mayorıa de estos problemas

pueden reducirse a los tres siguientes:

1. Dada una secuencia de observaciones V = {V q,1, V q,2, ..., V q,T } y un modelo λ, calcular

eficientemente la probabilidad de que ocurra la secuencia de observacion con este modelo,

P (V|λ).

2. Dada una secuencia de observaciones V = {V q,1, V q,2, ..., V q,T } y el modelo λ, elegir la

secuencia Q de estados ocultos que resulta optima para explicar la secuencia de observa-

ciones.

3. Dado un proceso, un conjunto S de posibles observaciones y un conjunto H de estados

ocultos, encontrar los valores de los parametros Π, A y B del modelo λ que maximizan

la probabilidad de ocurrencia de las secuencias de observaciones V que pueda generar el

sistema.

2.4. Resolucion del problema de evaluacion

El problema 1 o problema de evaluacion tal como se ha formulado arriba consiste en

calcular eficientemente la probabilidad de que ocurra una determinada secuencia de observacion

con un modelo, P (V|λ). No obstante tambien se puede entender como la evaluacion de en

que medida un modelo λ se ajusta a una secuencia de observaciones dada V. Este punto de

vista es especialmente util cuando se intenta elegir de entre varios modelos posibles cual es el


que mejor se ajusta a la secuencia de observaciones. El calculo, evidentemente, se puede realizar

mediante la ecuacion A.14. Sin embargo, este calculo implicarıa un tiempo de computo excesivo

para sistemas de tamano mediano. Si se cuenta con M estados ocultos y T observaciones, como

hay MT posibles secuencias ocultas de estados, hay que realizar una suma de MT sumandos.

Ademas, cada sumando es un producto de 2 ·T terminos, por lo tanto, en total, hay que realizar

2 ·T ·MT operaciones. Afortunadamente, se puede reducir este numero de operaciones mediante

el algoritmo de avance (Forward Propagation Algorithm) (Rabiner, 1989).

2.4.1. Algoritmo de avance

Considerese la variable de avance αt(i) definida como la probabilidad ocurra una secuen-

cia parcial de longitud t < T , (V 1, V 2, ...V t) y que se de el estado H i en el instante t.

αt(i) = P (V 1, V 2, ...V t, Qt = H i|λ) (A.19)

αt(i) se puede definir por induccion de la siguiente manera:

1. Inicializacion:

α1(i) = Πi ·Bi(V 1) 1 ≤ i ≤ M (A.20)

2. Induccion:

αt+1(i) =

[M∑i=1

αt(i) ·Ai,j

]·Bj(V t+1) 1 ≤ i ≤ M

1 ≤ t ≤ T − 1 (A.21)

3. Terminacion

P (V|λ) =M∑i=1

αt(i) (A.22)

En el paso 1 se define α1(i) como la probabilidad de ocurra el estado H i en t = 1 y

se observe V 1, es decir P (V 1, Q1 = H i|λ). En el paso 2 se presenta ilustrado en la Fig. A.1.a.

En dicha figura se muestra como el estado Hj en el instante t + 1 puede ser alcanzado desde

cualquiera de los estados de H en el instante t. La probabilidad de llegar a Hj desde H i, habiendo


observado la secuencia V 1, V 2, ...V t es igual a la probabilidad de llegar a H i habiendo observado

V 1, V 2, ..., V t − 1 multiplicada por la probabilidad de transicion de H i a Hj , es decir:

P (V 1, V 2, ..., V t, Qt+1 = Hj |Qt = H i, λ) = P (V 1, V 2, ..., V t, Qt = H i|λ) ·Ai,j (A.23)

La probabilidad de, ademas, observar V t+1 en el instante t + 1 es:

P (V 1, V 2, ...V t+1, Qt+1 = Hj |Qt = H i, λ) = (A.24)

= P (V 1, V 2, ..., V t, Qt = H i|λ) ·Ai,j ·Bj(V t+1)

Las ecuaciones A.23 y A.24 representan la probabilidad de ocurrencia de Hj y observacion

de V 1, V 2, ..., V t+1, limitando la ocurrencia del estado anterior a H i. Si se quiere calcular la

Figura A.1: a)Secuencia de operaciones para el calculo de la variable de avance, αt(i); b) secuenciade operaciones para el calculo de la variable de retroceso, βt(i); y c) secuencia de operacionespara el calculo de la probabilidad de transicion de H i a Hj en el instante t


probabilidad anterior pudiendose haber presentado cualquier estado oculto en el instante t, es

necesario sumar los terminos obtenidos en la ecuacion A.24 para todo i:

P (V 1, V 2, ..., V t+1, Qt+1 = Hj |λ) = (A.25)

=

[M∑i=1

P (V 1, V 2, ...V t, Qt = H i|λ) ·Ai,j

]·Bj(V t+1)

Esta ecuacion es equivalente a A.21. Es evidente que, con esta definicion de αt(i), la

igualdad en 2 es equivalente a esta otra:

P (V|λ) =M∑i=1

P (V 1, V 2, ...V t, QT = H i|λ) (A.26)

es decir, representa fielmente la probabilidad de haber observado la secuencia (V 1, V 2, ...V t, QT )

dado el modelo λ. se puede comprobar que de este modo se reduce el numero de operaciones

necesarias para calcular P (V|λ) a M2 · T .

2.5. Resolucion del problema de busqueda de secuencia optima

El segundo problema se plantea como la busqueda de la secuencia de estados ocultos

que mejor se adapta a la secuencia de observaciones, dado un modelo λ. Al contrario que en

el problema 1, este no tiene necesariamente una solucion unica. Una de las dificultades para

resolverlo es la definicion de un criterio de adaptabilidad entre secuencia de observaciones y

secuencia de estados ocultos. Una de las posibles soluciones, conocida como algoritmo de Viterbi

(Rabiner, 1989) esta basada en la definicion de secuencia de estados optima Qk, para unas

observaciones dadas V, a aquella que maximiza la probabilidad P (V,Qk|λ). De manera similar

a como se4 hizo en el algoritmo de avance, se define la cantidad δt(i), que contabiliza el mejor

resultado de probabilidad para una secuencia de observaciones (V 1, V 2, ...V t) y cuyo proceso

oculto termina en H i:

δt(i) = maxQ1,Q2,...,Qt−1

P (Q1, Q2, ..., Qt−1, Qt = H i, V 1, V 2, ...V t|λ) (A.27)

Por induccion se puede definir:

δt+1(j) =[max

iδt(i) ·Ai,j

]·Bj(V t+1) (A.28)


Para encontrar la secuencia optima de estados ocultos basta, entonces, con seguir la

secuencia de argumentos que maximizan A.28 desde el instante t = 1 hasta t = T (Rabiner,

1989).

2.6. Resolucion del problema de entrenamiento

El problema 3, o problema de entrenamiento, es el mas difıcil de resolver de los tres

propuestos, consiste en determinar los parametros Π A y B que mejor describen un proceso

dado. En primer lugar hay que notar que el problema, en realidad, empieza por la definicion del

conjunto de observaciones de interes y el conjunto de estados ocultos que resulta mas adecuado

para el modelado. Esto es especialmente importante si se tiene en cuenta que, en ocasiones,

incluso la naturaleza de los estados ocultos es desconocida al observador. Para entender esto,

imagınese que el observador del ejemplo de la seccion 2.1 anterior nunca hubiera salido de su

habitacion cerrada. En este caso, ignorarıa que los estados climaticos se corresponden en realidad

a una situacion exterior de sol, nubes o lluvia. No obstante, podrıa desarrollar un MOM que

describiera la secuencia de observaciones de la que ha sido testigo, aunque, evidentemente, una

eleccion correcta le resultarıa mucho mas difıcil que si tuviera un conocimiento a priori del

problema.

En realidad, no existe un modo analıtico de resolver el problema completo de entre-

namiento del modelo. De hecho, dada una secuencia de observaciones, no hay un metodo optimo

para obtener los parametros del modelo. A lo mas que se puede aspirar es a encontrar un

maximo local que proporcione unos parametros razonables para el modelo. Para ello se puede

utilizar el algoritmo de avance-retroceso (forward-backward algorithm), basado en el algoritmo

Baum-Welch, adaptado por Rabiner (Rabiner, 1989), que se presenta a continuacion.

Para desarrollar el algoritmo, es necesario definir una variable de retroceso βt(i), que

representa la probabilidad de que, dado el modelo λ y el estado en el instante t, H i, se produzca

la secuencia de observaciones V t+1, V t+2, ...V T entre los instantes t + 1 y T :

βt(i) = P (V t+1, V t+2, ...V T |Qt = H i, λ) (A.29)

De nuevo se puede definir la variable de retroceso por induccion, a partir del instante T :

1. Inicializacion:

βT (i) = 1 1 ≤ i ≤ M (A.30)


2. Induccion:

βt(i) =M∑

j=1

Ai,j ·Bj(V t+1) · βt + 1(j) 1 ≤ i ≤ M

1 ≤ t ≤ T − 1 (A.31)

El paso 1 define el valor de βT (i) arbitrariamente como la unidad. El paso 2, que se

muestra de forma grafica en la Fig. A.1.b, define inductivamente βt(i) de modo que iguala la

probabilidad propuesta en la ecuacion A.29.

Con ayuda de las variables de avance y retroceso, αt(i) y βt(i), se puede definir una

nueva variable, ξt(i, j), como la probabilidad de que, dados el modelo λ y la observacion V =

(V 1, V 2, ...V T ), el proceso pase por el estado H i y el estado Hj en los instantes t y t + 1

respectivamente:

ξt(i, j) = P (Qt = H i, Qt+1 = Hj |V, λ) (A.32)

Se puede observar que, combinando el significado de las variables de avance y retroceso

(Fig. A.1.c), se puede igualar la definicion de la variable ξt(i, j) a la siguiente:

ξt(i, j) =αt(i) ·Ai,j ·Bj(V t+1) · βt

P (V|λ)(A.33)

Asimismo, se puede definir la variable γt(i) como la probabilidad de que el proceso pase

por el estado H i en el instante t, dados la secuencia de observaciones y el modelo. Esta nueva

variable es simplemente la suma de las variables ξt(i, j) para cualquier estado oculto en t + 1,

es decir:

γt(i) =M∑

j=1

ξt(i, j) (A.34)

Si se suma la variable γt(i) para todo instante t, dara una medida del numero de transi-

ciones esperables desde el estado H i, dado el modelo λ. De modo similar, si se suma la variable

ξt(i, j), el resultado sera el numero de transiciones esperables del estado H i al Hj , dado el

modelo λ:

T∑t=1

γt(i) = numero de transiciones esperables desde el estado H i (A.35)

T∑t=1

ξt(i, j) = numero de transiciones esperables del estado H i al Hj (A.36)


Usando estas dos cantidades, y el concepto de probabilidad como recuento de eventos,

se pueden recalcular los parametros del modelo:

Πi = frecuencia esperada de ocurrencia del estado H i en (t = 1) = γ1(i) (A.37)

Ai,j =numero de transiciones esperables del estado H i al Hj

frecuencia esperada de ocurrencia del estado H i=

=∑T

t=1 ξt(i, j)∑Tt=1 γt(i)

(A.38)

Bj(Su) =frecuencia esperada de ocurrencia del estado Hj y observando Su

frecuencia esperada de ocurrencia del estado Hj=

=

∑Tt=1,V t=Su γt(i)∑T

t=1 γt(i)(A.39)

Se puede ver que, dado un modelo λ optimo para la secuencia de observaciones, la eval-

uacion de las cantidades Πi , Ai,j y Bj(Su) deben dar como resultado los parametros originales

del modelo: Π, A y B. De lo contrario, las ecuaciones A.38, A.39 y A.39 se pueden utilizar para

hacer una estimacion iterativa de los mismos, hasta que la variacion de los parametros entre dos

pasos consecutivos de la iteracion sea suficientemente pequena.

Es importante notar que, dado que el procedimiento de estimacion de los parametros

del modelo no asegura la obtencion de una maximo global, es conveniente seguir un proceso de

inicializacion que situe el valor inicial de los mismos dentro de un rango razonable. Este proceso

puede hacerse facilmente si se dispone de alguna informacion sobre el comportamiento esperable

del sistema. Si no es ası, habrıa que complementar este metodo iterativo con algun mecanismo

estadıstico que estimara la bondad del maximo esperado, como el metodo de Montecarlo (Cowles

y Carlin, 1996).

Tambien se puede simplificar en gran medida el calculo si se pueden asignar las proba-

bilidades de observacion Bj(Su) a priori, de modo que no sea necesario evaluar su reestimacion

durante el entrenamiento del modelo. Esto es posible en muchos casos, siempre que se conozcan

o se puedan asignar los estados ocultos a mano y se conoce la relacion causa-efecto que gobierna

el proceso de generacion de observaciones.


2.7. Modelos Ocultos de Markov de sistemas con variables de observacioncontinuas

Hasta ahora se ha considerado que todas las posibles observaciones pertenecen a un con-

junto discreto. Esto no siempre es conveniente para ajustar el modelo a la observacion, puesto

que la discretizacion de las variables de salida puede provocar una perdida de informacion, aun

a pesar de que los estados ocultos puedan pertenecer a un conjunto discreto. Para evitar esta

perdida se puede introducir la variabilidad continua de las observaciones en el tratamiento ante-

rior sin mas que sustituir la matriz de probabilidades de observacion B por una funcion densidad

de probabilidad de observacion Bj(s) para cada estado Hj , donde s es una variable observa-

da, perteneciente a un conjunto continuo de posibles observaciones S. Esta extension resulta

especialmente util a la hora de modelar sistemas reales, en los que las variables son continuas.

Ası, por ejemplo, en el modelo climatico propuesto, introducir en el modelo la observacion de

humedad relativa y temperatura como variables continuas serıa mucho mas fiel a la realidad. De

este modo se pueden representar las probabilidades de que el dıa sea lluvioso, nublado o soleado

como tres funciones densidad de probabilidad dependientes de la temperatura y la humedad.

Esta mejor adaptabilidad a la realidad redunda en una representacion mas precisa del proceso

modelado.

SISTEMA DE APRENDIZAJE Y RECONOCIMIENTO DE...

Documents

Transcript of SISTEMA DE APRENDIZAJE Y RECONOCIMIENTO DE...