Identificación de peatones en imágenes aéreas con redes ...

79
1 “Identificación de peatones en imágenes aéreas con redes neuronales explicativas y fusión de sensores.” Por José de Jesús Velázquez Arreola Tesis sometida como requisito parcial para obtener el grado de: Maestría en Ciencias en el área de Ciencia y Tecnología del Espacio en el Instituto Nacional de Astrofísica, Óptica y Electrónica. Supervisada por: Dra. Raquel Díaz Hernández Sta. Ma. Tonantzintla, Cholula, Puebla Febrero, 2019 ©INAOE 2019 Derechos Reservados El autor otorga al INAOE el permiso de reproducir y distribuir copias de esta tesis en su totalidad o en partes.

Transcript of Identificación de peatones en imágenes aéreas con redes ...

Page 1: Identificación de peatones en imágenes aéreas con redes ...

1

“Identificación de peatones en imágenes aéreas con redes neuronales

explicativas y fusión de sensores.”

Por

José de Jesús Velázquez Arreola

Tesis sometida como requisito parcial para obtener el grado de:

Maestría en Ciencias en el área de Ciencia y

Tecnología del Espacio en el

Instituto Nacional de Astrofísica, Óptica y Electrónica.

Supervisada por:

Dra. Raquel Díaz Hernández

Sta. Ma. Tonantzintla, Cholula, Puebla

Febrero, 2019

©INAOE 2019

Derechos Reservados

El autor otorga al INAOE el permiso de reproducir y distribuir copias de esta tesis en su totalidad o en partes.

Page 2: Identificación de peatones en imágenes aéreas con redes ...

2

IDENTIFICACIÓN DE PEATONES EN

IMÁGENES AÉREAS CON REDES

NEURONALES EXPLICATIVAS Y

FUSIÓN DE SENSORES

Page 3: Identificación de peatones en imágenes aéreas con redes ...

3

Resumen

Los inicios de la observación de la Tierra son referenciados a la primera

guerra mundial, al montar cámaras normales en aviones de reconocimiento

para identificar las posiciones y movimientos de las tropas enemigas. Esta

tecnología fue evolucionando con el pasar de los años, permitiendo montar

sensores multiespectrales en satélites para obtener imágenes de la Tierra

para diferentes estudios de la misma. Sin embargo, desarrollar tecnología

satelital es costosa y tiene como una limitante las resoluciones que se

pueden obtener en estas imágenes para propósitos específicos. Los

vehículos aéreos no tripulados (UAV) cubren estas limitaciones. Por esta

razón, los UAV son ampliamente utilizados, por ejemplo, en seguridad

nacional, topografía, minería, búsqueda y rescate. Este último es la

motivación del presente trabajo de tesis. Obteniendo información de una

cámara en el espectro visible y una segunda cámara con respuesta espectral

en el infrarrojo de longitud de onda larga, la cámara térmica aporta

información importante principalmente en escenarios con poca luminosidad.

Se clasifican las imágenes haciendo uso de dos redes neuronales

convolucionales (CNN), una para cada tipo de imagen. Estas redes son

entrenadas con imágenes obtenidas de la base de datos KAIST, que consta

de una secuencia de imágenes visibles y térmicas con peatones etiquetados,

en escenarios de día y de noche para tener datos con cambios de

luminosidad que se puede presentar en actividades diarias. Posteriormente

se implementa el método Layer-wise Relevance Propagation que permite

visualizar a través de un mapa de calor aquellos pixeles que fueron

relevantes para la decisión de las redes neuronales, finalizando el proceso

con la fusión de la información obtenida de las redes neuronales aplicando

una arquitectura de la fusión por decisión. Con esta metodología se obtiene

Page 4: Identificación de peatones en imágenes aéreas con redes ...

4

94.98% de exactitud al realizar la clasificación de las imágenes, para definir

la presencia o la ausencia personas en la escena en cuestión.

Abstract

The beginnings of the observation of the Earth are referenced to the first

world war, with the mounting of normal cameras on reconnaissance aircraft to

identify the positions and movements of the enemy troops. This technology

evolved over the years, allowing the installation of multispectral sensors in

satellites to obtain images of the Earth for different studies. However,

developing this technology is very expensive and has as a limitation the

resolutions that can be obtained in these images for specific purposes.

Unmanned aerial vehicles (UAV) cover these limitations. For this reason,

UAVs are widely used, for example, in national security, surveying, mining,

search and rescue. The latter is the motivation for the present thesis.

Obtaining information from a camera in the visible spectrum (RGB) and a

second camera with long wavelength infrared spectral range (LWIR), the

thermal camera provides important information mainly in poor light scenes.

The images are classified using two convolutional neural networks (CNN),

one for each type of image. These networks are trained with images obtained

from the KAIST database, which consists of a sequence of visible and

thermal images with pedestrians labeled, in day and night times, to have data

with changes in luminosity that can occur in daily activities. Afterwards, the

Layer-wise Relevance Propagation method is implemented, which allows to

visualize through a heatmap those pixels that were relevant for the decision

of the neural networks, ending the process with the fusion of the information

obtained from the neural networks applying an architecture of score fusion.

With this methodology 94.98% accuracy is obtained when classifying the

images, to define the presence or absence of person in the scene.

Page 5: Identificación de peatones en imágenes aéreas con redes ...

5

Agradecimientos

Agradezco al Consejo Nacional de Ciencia y Tecnología (CONACYT) por la

beca otorgada, la cual sustentó mis estudios durante este periodo,

permitiendo lograr esta meta personal.

Al Instituto Nacional de Astrofísica, Óptica y Electrónica por todo el apoyo

recibido de todo tipo. A los doctores y compañeros que hoy en día son mis

amigos les digo ¡gracias!, gracias por compartir su conocimiento, alentar y

motivar mis deseos de seguir el camino de la ciencia.

Gracias a la Dra. Raquel Díaz Hernández, quien ha sido y es parte

importante en el desarrollo de este trabajo de tesis y sobre todo por sus

consejos que desde un inicio de esta maestría me ha brindado.

Gracias al Dr. Leopoldo Altamirano Robles por la atención brindada,

aportando sus conocimientos, ideas y las herramientas necesarias para esta

tesis.

A mi equipo de trabajo del Laboratorio de Percepción Autónoma,

particularmente al M.C. Ariel, le agradezco por compartir sus conocimientos

para el desarrollo de este trabajo y a la M.C. Andrea por la motivación y

conocimientos compartidos, gracias.

Page 6: Identificación de peatones en imágenes aéreas con redes ...

6

Dedicatorias

Dedico este trabajo a mi familia, por ser mi soporte y mi principal inspiración

para alcanzar este sueño y los que están por venir. Sin su apoyo nada de

esto sería posible. Gracias a mi padre, por las grandes enseñanzas que me

has dado a lo largo de la vida, en especial a no darme por vencido ante

cualquier dificultad. Gracias por estar en cada momento presente, por guiar

mis pasos. A mi madre le doy las gracias, por estar siempre al pendiente de

mi salud, mis ánimos y sobre todo de no abandonar mis sueños, por

recordarme a diario la presencia de Dios en cada paso que doy, por estas

razones y muchas más también te dedico este trabajo. A mis hermanas

también les quiero dedicar este trabajo y agradecerles todo el apoyo

incondicional que me han dado a lo largo de la vida, por los hermosos

sobrinos que me han dado, que también son parte de mi motivación. A todos

ustedes les agradezco por hacerme sentir amado aún en la distancia. Por

último, pero no menos importante quiero dedicar este trabajo a Dios. Gracias

a ti que me has ido permitiendo descubrir la inmensidad de tu creación, sobre

todo por encontrarte en cada paso que doy y en toda persona con la que

convivo en el día a día, por ver gran amor que me tienes.

Page 7: Identificación de peatones en imágenes aéreas con redes ...

7

Tabla de contenido Resumen .................................................................................................................. 3

Abstract .................................................................................................................... 4

Agradecimientos ....................................................................................................... 5

Dedicatorias .............................................................................................................. 6

Tabla de contenido ................................................................................................... 7

Índice de figuras. ...................................................................................................... 8

Índice de tablas. ..................................................................................................... 12

Introducción ............................................................................................................ 13

1.1 Motivación. .................................................................................................................. 15

1.2 Justificación ................................................................................................................ 15

1.3 Objetivos ..................................................................................................................... 16

1.3.1 Objetivo general ................................................................................................. 16

1.3.2 Objetivos específicos ......................................................................................... 16

1.4 Alcances y Limitaciones ........................................................................................... 17

1.4.1 Alcances .............................................................................................................. 17

1.4.2 Limitaciones ........................................................................................................ 17

1.5 Estructura del documento ........................................................................................ 17

Marco Teórico ......................................................................................................... 19

2.1 La observación de la tierra con imágenes aéreas. .............................................. 19

2.2 Fundamentos teóricos .............................................................................................. 22

2.3 Técnicas de aprendizaje automático ...................................................................... 23

2.3.1 Máquina de soporte vectorial (SVM) ............................................................... 24

2.3.2 Árboles de decisión ............................................................................................ 25

2.3.3 K-NN (Vecino más cercano) ............................................................................. 25

2.3.4 Redes Neuronales ............................................................................................. 26

2.4. Métodos Explicativos de Técnicas de Aprendizaje Automático. ....................... 32

2.4.1 Método Layer-wise Relevance Propagation. ................................................. 33

2.5 Fusión Profunda en Redes Neuronales Convolucionales. ................................. 36

Trabajo Relacionado ............................................................................................... 39

3.1 Identificación de peatones con fusión de sensores. ............................................ 40

Page 8: Identificación de peatones en imágenes aéreas con redes ...

8

Trabajo desarrollado ............................................................................................... 43

4.1 Base de datos KAIST. ............................................................................................... 43

4.2 Imágenes de entrenamiento y prueba. .................................................................. 45

4.3 LRP .............................................................................................................................. 48

4.4 Fusión de información. ............................................................................................. 52

4.4.1 Fusión Máscaras. ............................................................................................... 52

4.4.2 Fusión Media IR ................................................................................................. 54

4.4.3 Fusión Media IR + Máscara RGB .................................................................... 57

4.4.4 Fusión Media IR + Score NN RGB. ................................................................. 58

4.5 Conclusión del capítulo. ........................................................................................... 59

Resultados y discusión ........................................................................................... 60

5.1 Resultados del entrenamiento de las Redes Neuronales. .................................. 60

5.2 Máscaras. ................................................................................................................... 61

5.3 Heatmaps.................................................................................................................... 62

5.4 Resultados Finales .................................................................................................... 64

5.5 Conclusión del capítulo. ........................................................................................... 74

Conclusiones y trabajo futuro. ................................................................................. 75

6.1 Conclusiones. ............................................................................................................. 75

6.2 Principales contribuciones. ...................................................................................... 77

6.3 Trabajo Futuro............................................................................................................ 77

Referencias ............................................................................................................ 78

Índice de figuras. Figura 1. Espectro electromagnético, obtenida de [6] ................................... 23

Figura 2. Espectro electromagnético Infrarrojo, obtenida de [8].................... 23

Figura 3. Técnicas de aprendizaje automático: aprendizaje supervisado y

aprendizaje no supervisado. ......................................................................... 24

Figura 4. Desafíos que se presenta en la clasificación de objetos en un

sistema computacional, obtenido de [12]. ..................................................... 28

Figura 5. Estructura de una neurona real y una neurona artificial, obtenido de

[12]. ............................................................................................................... 29

Page 9: Identificación de peatones en imágenes aéreas con redes ...

9

Figura 6. Ejemplo de una red neuronal. ........................................................ 29

Figura 7. Estructura de una Red Neurona Profunda (DNN) .......................... 30

Figura 8. Estructura de una Red Neuronal Convolucional (CNN) ................. 31

Figura 9. Estructura de una Red Neuronal Recurrente (RNN) ...................... 32

Figura 10. Diagrama de una red neuronal convolucional y la explicación por

el método LRP .............................................................................................. 36

Figura 11. Seis arquitecturas de fusión que integran modalidades de color y

térmicas en diferentes etapas: (a) Input Fusion, (b) Early Fusion (c) Halfway

Fusion (d) Late Fusion (e) Score Fusion I (f) Score Fusion II. Obtenido de [14]

...................................................................................................................... 38

Figura 12. Comparación de los seis arquitecturas de fusión en términos de

MR, figura obtenida de [14] ........................................................................... 42

Figura 13. Esquema general de la metodología desarrollada en este trabajo

de tesis ......................................................................................................... 43

Figura 14. Ejemplo de pares de imágenes de las etiquetas dentro de la base

de datos KAIST. Obtenido de [17] ................................................................ 44

Figura 15. Ejemplos de imágenes omitidas para el proceso de entrenamiento.

(a) imágenes muy obscuras, (b) imágenes con altura inferior a 45 pixeles que

dificulta el reconocimiento. (c) imagen de persona ocluida más de un 50% del

cuerpo. .......................................................................................................... 45

Figura 16. Ejemplo de pares de imágenes empleado para la etapa de

pruebas. Las imágenes de la izquierda corresponden a imágenes RGB y las

imágenes a la derecha corresponde a su par en el canal térmico. (a) captura

realizada en el día y (b) captura realizada en condiciones nocturnas. .......... 46

Figura 17. Proceso de redimensionado de las imágenes de para crear el

dataset. Las imágenes son redimensionadas a un tamaño de 32x32 pixeles

...................................................................................................................... 46

Figura 18. Proceso de conversión de matriz a vector. .................................. 47

Figura 19. En la matriz de entrenamiento m = 20000 y para el dataset de

prueba m = 3018. .......................................................................................... 47

Figura 20. Arquitectura de las redes neuronales entrenadas. ...................... 48

Figura 21. Comparación de mapas de calor con el método Alpha-Beta,

Épsilon y el método Simple. La fila superior corresponde a los heatmaps de

la imagen térmica y la fila inferior los heatmaps de la imagen RGB. ............ 50

Figura 22. Comparación de los mapas de calor en la red neuronal entrenada

para imágenes térmicas. (b) corresponde la primera convolución. (c)

corresponde la 2da. convolución. (d) corresponde la 3ra convolución. (e)

corresponde la 4ta convolución. (f) corresponde la última capa de la red

neuronal. ....................................................................................................... 51

Page 10: Identificación de peatones en imágenes aéreas con redes ...

10

Figura 23. Comparación de los mapas de calor en la red neuronal entrenada

para imágenes RGB. (b) corresponde la primera convolución. (c)

corresponde la 2da. convolución. (d) corresponde la 3ra convolución. (e)

corresponde la 4ta convolución. (f) corresponde la última capa de la red

neuronal. ....................................................................................................... 51

Figura 24. Esquema de la arquitectura de Fusión Máscaras. ....................... 53

Figura 25. Media de las imágenes IR. (a) Valores obtenidos al calcular la

media para imágenes IR capturadas de día. (b) Valores obtenidos al calcular

la media para imágenes IR capturadas de noche. ........................................ 55

Figura 26. Media de las imágenes RGB. (a) Valores obtenidos al calcular la

media para imágenes RGB capturadas de día. (b) Valores obtenidos al

calcular la media para imágenes RGB capturadas de noche. ...................... 56

Figura 27.Esquema de la arquitectura de Fusión Media IR .......................... 57

Figura 28. Esquema de la arquitectura de Fusión Media IR + Máscara RGB

...................................................................................................................... 58

Figura 29.Esquema de la arquitectura de Fusión Media IR + Score NN RGB.

...................................................................................................................... 59

Figura 30. Figura de máscaras creadas con el método Otsu. a) imagen

original de la cámara LWIR, b) máscara resultante al aplicar el método Otsu a

la imagen LWIR, c) Imagen original en escala grises de la cámara RGB, d)

máscara resultante al aplicar el método Otsu a la imagen RGB. .................. 62

Figura 31. Mapa de colores JET. .................................................................. 62

Figura 32. Figura de los mapas de calor (heatmaps) creadas con el método

LRP. a) imagen original de la cámara LWIR, b) heatmap resultante al aplicar

el método LRP a la imagen LWIR, c) Imagen original en escala grises de la

cámara RGB, d) heatmap resultante al aplicar el método LRP a la imagen

RGB .............................................................................................................. 64

Figura 33. Resultados comparativos de exactitud de las redes neuronales

RGB, LWIR y los diferentes casos al realizar la Fusión. ............................... 65

Figura 34. Comparación de las predicciones realizadas en los casos en

donde las redes neuronales RGB y LWIR discrepan entre ellas. ................. 66

Figura 35. a) imagen original de la cámara LWIR, b) máscara resultante al

aplicar el método Otsu a la imagen LWIR, c) Heatmap resultante al aplicar el

método LRP a la imagen LWIR, d) Traslape de la imagen a) y c), e) Imagen

original en escala grises de la cámara RGB, f) máscara resultante al aplicar

el método Otsu a la imagen RGB, g) Heatmap resultante al aplicar el método

LRP a la imagen RGB, h) Traslape de la imagen e) y g). ............................. 67

Figura 36. a) imagen original de la cámara LWIR, b) máscara resultante al

aplicar el método Otsu a la imagen LWIR, c) Heatmap resultante al aplicar el

método LRP a la imagen LWIR, d) Traslape de la imagen a) y c), e) Imagen

Page 11: Identificación de peatones en imágenes aéreas con redes ...

11

original en escala grises de la cámara RGB, f) máscara resultante al aplicar

el método Otsu a la imagen RGB, g) Heatmap resultante al aplicar el método

LRP a la imagen RGB, h) Traslape de la imagen e) y g). ............................. 68

Figura 37. a) imagen original de la cámara LWIR, b) máscara resultante al

aplicar el método Otsu a la imagen LWIR, c) Heatmap resultante al aplicar el

método LRP a la imagen LWIR, d) Traslape de la imagen a) y c), e) Imagen

original en escala grises de la cámara RGB, f) máscara resultante al aplicar

el método Otsu a la imagen RGB, g) Heatmap resultante al aplicar el método

LRP a la imagen RGB, h) Traslape de la imagen e) y g). ............................. 69

Figura 38. a) imagen original de la cámara LWIR, b) máscara resultante al

aplicar el método Otsu a la imagen LWIR, c) Heatmap resultante al aplicar el

método LRP a la imagen LWIR, d) Traslape de la imagen a) y c), e) Imagen

original en escala grises de la cámara RGB, f) máscara resultante al aplicar

el método Otsu a la imagen RGB, g) Heatmap resultante al aplicar el método

LRP a la imagen RGB, h) Traslape de la imagen e) y g). ............................. 70

Figura 39. a) imagen original de la cámara LWIR, b) máscara resultante al

aplicar el método Otsu a la imagen LWIR, c) Heatmap resultante al aplicar el

método LRP a la imagen LWIR, d) Traslape de la imagen a) y c), e) Imagen

original en escala grises de la cámara RGB, f) máscara resultante al aplicar

el método Otsu a la imagen RGB, g) Heatmap resultante al aplicar el método

LRP a la imagen RGB, h) Traslape de la imagen e) y g). ............................. 71

Figura 40. a) imagen original de la cámara LWIR, b) máscara resultante al

aplicar el método Otsu a la imagen LWIR, c) Heatmap resultante al aplicar el

método LRP a la imagen LWIR, d) Traslape de la imagen a) y c), e) Imagen

original en escala grises de la cámara RGB, f) máscara resultante al aplicar

el método Otsu a la imagen RGB, g) Heatmap resultante al aplicar el método

LRP a la imagen RGB, h) Traslape de la imagen e) y g). ............................. 72

Figura 41. a) imagen original de la cámara LWIR, b) máscara resultante al

aplicar el método Otsu a la imagen LWIR, c) Heatmap resultante al aplicar el

método LRP a la imagen LWIR, d) Traslape de la imagen a) y c), e) Imagen

original en escala grises de la cámara RGB, f) máscara resultante al aplicar

el método Otsu a la imagen RGB, g) Heatmap resultante al aplicar el método

LRP a la imagen RGB, h) Traslape de la imagen e) y g). ............................. 73

Figura 42. a) imagen original de la cámara LWIR, b) máscara resultante al

aplicar el método Otsu a la imagen LWIR, c) Heatmap resultante al aplicar el

método LRP a la imagen LWIR, d) Traslape de la imagen a) y c), e) Imagen

original en escala grises de la cámara RGB, f) máscara resultante al aplicar

el método Otsu a la imagen RGB, g) Heatmap resultante al aplicar el método

LRP a la imagen RGB, h) Traslape de la imagen e) y g). ............................. 73

Page 12: Identificación de peatones en imágenes aéreas con redes ...

12

Figura 43. a) imagen original de la cámara LWIR, b) máscara resultante al

aplicar el método Otsu a la imagen LWIR, c) heatmap resultante al aplicar el

método LRP a la imagen LWIR, d) Traslape de la imagen a) y c), e) Imagen

original en escala grises de la cámara RGB, f) máscara resultante al aplicar

el método Otsu a la imagen RGB, g) heatmap resultante al aplicar el método

LRP a la imagen RGB, h) Traslape de la imagen e) y g). ............................. 74

Índice de tablas.

Tabla 1. Tabla comparativa de trabajos relacionados con esta tesis. ........... 39

Tabla 2. Tabla de resultados obtenidos en [16] ............................................ 41

Tabla 3. Reglas de decisión para fusión máscaras. ...................................... 52

Tabla 4. Reglas de decisión para etapa de fusión media IR. ........................ 56

Tabla 5. Reglas de decisión para etapa de fusión media IR + máscara RGB.

...................................................................................................................... 58

Tabla 6. Reglas de decisión para etapa de fusión media IR + Score NN RGB

previo a aplicar el método LRP. .................................................................... 59

Tabla 7. Tabla de resultados de exactitud obtenidos en el proceso de

entrenamiento en las redes neuronales. ....................................................... 61

Page 13: Identificación de peatones en imágenes aéreas con redes ...

13

Capítulo 1

Introducción

Los sistemas de identificación de personas en imágenes son ampliamente

estudiados y desarrollados para la aplicación en las áreas de seguridad

nacional, búsqueda y rescate, flujo peatonal, entre otros. México tiene una

gran extensión territorial con diferentes regiones naturales y, todos años se

ve afectado por fenómenos hidrometeorológicos, sismológicos, geológicos,

etc. que pone en riesgo la vida de personas. Una eventualidad como esta

puede suscitarse en cualquier momento del día, bajo diferentes condiciones

atmosféricas. Cuando un grupo de personas se encuentra en peligro durante

algún fenómeno natural, desconociendo su paradero y necesitan ser recatas,

el tiempo de reacción el equipo de rescate tiene que ser el mínimo para

salvaguardar las vidas de las personas. En México no se puede disponer

siempre con helicópteros para realzar una búsqueda aérea, el procedimiento

de búsqueda se realiza a pie, tardando horas o incluso días en poder

localizar a las personas extraviadas. Los vehículos aéreos no tripulados

(UAV) con un costo accesible y la capacidad de incorporar sensores sobre

ellos, permite equipar estos dispositivos para diferentes aplicaciones en

distintas áreas, por ejemplo, en la topografía, agricultura e incluso en

búsqueda y rescate. El presente trabajo de tesis tiene como principal

motivación la identificación de peatones con la aplicación de búsqueda y

rescate en casos de emergencias y desastres. Típicamente sistemas de

búsqueda y rescate emplean un solo sensor, por ejemplo, una cámara a

color (RGB) o cámara térmica. Usar sólo un sensor están limitadas en ciertas

circunstancias. La cámara RGB se puede ver limitada en condiciones a baja

iluminación y la cámara en del rango térmico del espectro electromagnético

Page 14: Identificación de peatones en imágenes aéreas con redes ...

14

se ve limitado en escenarios con altas temperaturas dónde el objeto de

interés se confunde con el fondo o algún otro objeto que se encuentre a la

misma temperatura.

Por otra parte, automatizar el proceso de identificación de objetos requiere

de técnicas de aprendizaje automático, las redes neuronales convolucionales

(CNN), máquinas de soporte vectorial (SVM) o los árboles de decisión, son

algunos ejemplos de estas técnicas. En este trabajo se implementará la

CNN, este tipo de red neuronal es la más utilizada el análisis de imágenes y

clasificar los objetos por la arquitectura que posee. AlexNet y GoogleNet son

algunas de las redes neuronales convolucionales implementadas en distintas

aplicaciones por su gran capacidad de identificación. Las CNN dentro de su

estructura tiene unas capas a las que se les llama “capas ocultas”, debido a

que se desconoce el aprendizaje adquirido en la etapa de aprendizaje, por tal

motivo, estas capas se pueden considerar como una “caja negra”, al no

saber cuál o cuáles fueron las características importantes en la clasificación

realizada por la CNN. En los últimos años, se han propuesto algunos

métodos como se exponen en [1] y [2] para identificar los pixeles con mayor

relevancia en el proceso de clasificación por la red neuronal, permitiendo de

cierta manera el dar una explicación al resultado obtenido por la CNN.

En el presente trabajo, se propone la identificación de personas empleando

dos sensores, una cámara en el espectro visible y una cámara infrarroja de

longitud de onda larga, las redes neuronales convolucionales para su

clasificación y el uso del método Layer-wase Relevance Propagation (LRP)

propuesto en [1] para su explicación de la misma. Se finaliza el proceso con

la fusión de la información de los sensores, obteniendo como resultado final

la clasificación (Ausencia o Presencia de persona) y los mapas de índices de

relevancia que representan los pixeles que fueron importantes para la

identificación del objeto por la CNN.

Page 15: Identificación de peatones en imágenes aéreas con redes ...

15

1.1 Motivación.

México por su gran extensión y variedad de regiones naturales es catalogado

como un lugar principal de visita para de la población fanática de la

excursión. En Puebla existen dos montañas principales para practicar esta

actividad, los volcanes “La Malinche” e “Iztaccíhuatl”. Personas inexpertas o

que desconocen de las rutas existentes para escalar los volcanes, se pierden

o resultan lesionadas en el trayecto. El tiempo para su localización es de vital

importancia para salvar la vida es estas personas. Actualmente en México la

actividad de búsqueda y rescate de personas extraviadas en alta montaña,

se ve limitada a las actividades que pueden realizar los rescatistas,

generalmente ésta búsqueda es realizada a pie y durante la luz del día. Esta

tesis es motivada por este hecho, para crear un sistema pueda identificar la

presencia de personas en imágenes aéreas, por ejemplo, imágenes

capturadas desde un UAV, empleando dos cámaras, una operando en el

rango visible y la otra en el rango infrarrojo térmico del espectro

electromagnético y, con ello resolver la problemática que se podría presentar

al emplear una de ellas. La identificación se realiza por redes neuronales

convolucionales, entrenadas para la identificación de personas y a su vez

implementar un método explicativo LRP que le permita al operador

corroborar la identificación hechas por las redes neuronales.

1.2 Justificación

La identificación de objetos en imágenes aéreas se aplica para diferentes

estudios en la observación de la Tierra, uno de ellos es la identificación de

objetos en estas imágenes aéreas, por ejemplo, la identificación de

personas. Esto presenta varios retos, entre ellos se tienen las variaciones de

intensidad lumínica y la correcta identificación de los objetos de interés. En

Page 16: Identificación de peatones en imágenes aéreas con redes ...

16

ese sentido las técnicas automáticas, como lo son las redes neuronales

convolucionales, mejoran el procedimiento. Sin embargo, en nuestra

aplicación, es necesario que un experto corrobore el resultado obtenido por

la CNN y realizarlo sin tener un método explicativo incorporado en el sistema,

puede volverse algo complicado o tardado.

1.3 Objetivos

1.3.1 Objetivo general

Realizar una metodología propia para la identificación de peatones en

imágenes aéreas adquiridas desde un vehículo aéreo no tripulado

empleando redes neuronales convolucionales, el método explicativo Layer-

wise Relevance Propagation y fusión información obtenida de datos de

sensores.

1.3.2 Objetivos específicos

Crear un conjunto de datos de imágenes visibles y térmicas del mismo

escenario. El conjunto de datos servirá para el entrenamiento y

pruebas de las redes neuronales.

Entrenar dos redes neuronales convolucionales, una para cada tipo de

imagen, que permita la identificación de la presencia o ausencia de

personas en la escena.

Aplicar un método de explicación de inteligencia artificial para la

obtención los pixeles relevantes de las redes neuronales.

Fusionar la información obtenida de los resultados de la clasificación

de las redes neuronales.

Page 17: Identificación de peatones en imágenes aéreas con redes ...

17

1.4 Alcances y Limitaciones

1.4.1 Alcances

Los sistemas de aprendizaje automático clasificarán el conjunto de

datos de prueba con altos índices de exactitud y precisión con

referencia a trabajos previos.

La aplicación de la metodología explicativa permitirá corroborar las

predicciones realizadas por las redes neuronales y observar el

comportamiento de éstas en la clasificación.

La implementación de las redes neuronales separadas permitirá que

en la etapa de fusión se resuelva favorablemente los casos en dónde

las clasificaciones de las redes neuronales sean discrepantes.

1.4.2 Limitaciones

Lograr que una CNN tenga un índice alto de exactitud y precisión, es

necesario contar con un gran número de imágenes para realizar el

entrenamiento de la red neuronal, además, de un poder

computacional alto, modo tal que la CNN aprenda una gran cantidad

de características de los objetos a identificar.

1.5 Estructura del documento

Para describir de manera detallada los conceptos necesarios para la

realización de este trabajo de tesis, el documento presentado tiene la

siguiente estructura:

Capítulo 1: Introducción, en este capítulo se explica el planteamiento del

problema, la justificación. Así mismo se puntualizan los objetivos, los

alcances y limitaciones de este trabajo de tesis.

Page 18: Identificación de peatones en imágenes aéreas con redes ...

18

Capítulo 2: Marco teórico, se presentan los planteamientos teóricos que

sustentan el desarrollo de esta tesis. Se ofrecen conceptos generales de las

técnicas utilizadas en el desarrollo del proyecto.

Capítulo 3: Trabajo relacionado. En este capítulo se presenta una

descripción detallada a trabajos relacionados al presente trabajo de

investigación respecto a identificación de peatones, implementando fusión de

información de sensores y métodos explicativos de inteligencia artificial para

las redes neuronales. Finalmente se muestra la conclusión de este capítulo.

Capítulo 4: Trabajo desarrollado. En este capítulo se detalla el proceso que

se llevó a cabo para la identificación de personas. En primera instancia se

muestra el conjunto de datos empleado, el procesamiento de las imágenes

utilizadas, las técnicas de aprendizaje automático implementadas, la

aplicación del método explicativo LRP, la etapa de la fusión de información y

finalmente se exponen las conclusiones de este capítulo.

Capítulo 5: Resultados y discusión. En este capítulo se detallan los

resultados obtenidos de las técnicas descritas en el Marco Teórico. Se

realizaron diferentes pruebas, logrando cumplir con los objetivos planteados

en este trabajo de tesis.

Capítulo 6: Conclusiones. Se muestran las conclusiones con base en los

experimentos y resultados, y se expone el trabajo que se pretende realizar a

futuro.

En la sección final del documento se presenta la lista de las referencias

consultadas.

Page 19: Identificación de peatones en imágenes aéreas con redes ...

19

Capítulo 2

Marco Teórico

El capítulo está organizado de la siguiente manera: en la primera sección se

hace referencia al estudio de la Tierra y su importancia a través de imágenes

aéreas o satelitales. Posteriormente, se describen los fundamentos teóricos

del espectro electromagnético, principalmente del rango espectral visible e

infrarrojo de los cuales obtendremos información para este trabajo. En el

siguiente subtema se describen las técnicas de aprendizaje automático

haciendo énfasis en las redes neuronales convolucionales, técnica aplicada

en la tesis para la clasificación de las personas. Se continúa con la sección

de métodos explicativos de redes neuronales en dónde se detalla el método

Layer-wise Relevance Propagation, esta técnica se implementa en este

trabajo de tesis. Finalmente se exponen algunas técnicas de fusión de

información obtenidas de una cámara en el espectro visible y una segunda

cámara con respuesta espectral en el infrarrojo de longitud de onda.

2.1 La observación de la Tierra con imágenes aéreas.

Según la Agencia Espacial Europea [3] la observación de la Tierra inició

durante la Primera Guerra Mundial, cuando aviones de reconocimiento

volaron sobre las fuerzas enemigas para observar los movimientos de las

tropas. Al utilizar cámaras normales montadas en los aviones, se

desarrollaron los precursores de los modernos sistemas de teledetección.

Sobre la base de las fotografías, fue posible observar la posición y

movimientos de las fuerzas enemigas.

Durante la Segunda Guerra Mundial la técnica de teledetección fue

desarrollada aún más. Como parte de los preparativos para la invasión de

Page 20: Identificación de peatones en imágenes aéreas con redes ...

20

Normandía (día D), se utilizaron fotografías aéreas para hacer un mapa de

las condiciones costeras para identificar los sitios más adecuados para

aterrizar. Al estudiar las olas cerca de la costa, fue posible determinar la

longitud de onda y, por lo tanto, calcular la profundidad del agua. Además, se

utilizó una película infrarroja para identificar la vegetación verde y distinguirla

de las redes de camuflaje.

La década de 1960 fue testigo del desarrollo de una película sensible a las

longitudes de onda del infrarrojo cercano que podría usarse para mapear

características como diferentes tipos de vegetación.

El desarrollo de otras tecnologías de teledetección continuó a buen ritmo.

Los experimentos de mapeo se realizaron con sistemas de radar en el aire.

TIROS 1, el primer satélite meteorológico, fue enviado a la órbita

geoestacionaria en 1960. Proporcionó a la Oficina Meteorológica de los EE.

UU. imágenes diarias de formación de nubes y representó un hito en el

pronóstico del tiempo.

El desarrollo de la tecnología de sensores remotos no fotográficos progresó

rápidamente después de que el primer satélite cartográfico, Landsat 1, se

pusiera en órbita en 1972. Estaba equipado con un nuevo tipo de sensor

conocido como escáner multiespectral (MSS). Con esta nueva tecnología, los

datos se produjeron en forma de matrices corológicas digitales que

permitieron avances sustanciales en el procesamiento de imágenes.

Hoy en día, el escáner multiespectral es un instrumento muy importante en la

detección remota. Se utiliza en tierra, y a bordo de aviones y satélites. Los

detectores de cada escáner están diseñados para recibir radiación en

canales específicos. El número de canales (o bandas), su ancho y su

ubicación en el espectro electromagnético varían para cada sensor, lo que da

como resultado diferentes características de resolución espectral. Esta

combinación de factores determina los usos para los cuales las imágenes del

sensor son más adecuadas.

Page 21: Identificación de peatones en imágenes aéreas con redes ...

21

La resolución obtenida de estas imágenes depende del tamaño del sensor, el

sistema óptico enfrente del sensor y de la altura al que se encuentre el avión

o el satélite que realiza las capturas. Los satélites militares más avanzados

pueden escanear áreas con resolución suficiente, del orden de unos cuantos

centímetros, para detectar detalles muy pequeños, como individuos,

vehículos e instalaciones pequeñas.

En el otro extremo de resolución espacial, el satélite meteorológico Meteosat

tiene una resolución de 5x5 km. Se ven menos detalles, pero es posible

obtener un estudio completo de un hemisferio en una sola imagen.

J. Berni [4], considera que los vehículos aéreos no tripulados (unmanned

aerial vehicle, UAV) cubren las limitaciones que hoy en día tienen el uso de

satélites y aviones para la detección de objetos de tamaño del orden de un

metro, como son la falta de imágenes con resolución espacial y espectral

necesaria para detectar determinadas situaciones en la Tierra, y los costos

requeridos para obtener información satelital o desde aviones especializados

para este propósito.

S. Montesinos [5], declara que los UAV pueden trasportar sensores o

cámaras teniendo una mayor capacidad temporal de adquisición de datos e

imágenes comparada a los satélites y aviones. Si bien es cierto que estos

últimos también pueden tener sensores multiespectrales, son los UAV los

que permiten obtener información más específica, aunque sobre áreas más

pequeñas que lo que cubren a los satélites y aviones. Por ejemplo, los UAV

son útiles en la búsqueda de objetos una zona en particular de observación,

reduciendo los recursos tanto económicos como de optimización del tiempo

de obtención de datos. De esta forma se posibilita la observación e

identificación a largo plazo de objetivos en tierra con imágenes en tiempo

real y datos transmitidos a una estación en tierra para la guía y operación del

UAV.

Actualmente son muchos los usos dados a los UAV como, la recreación,

agricultura, topografía, minería, gestión de recursos naturales, etc. Sin

Page 22: Identificación de peatones en imágenes aéreas con redes ...

22

embargo, para esta investigación se emplea un UAV para la adquisición de

imágenes aéreas para la identificación de peatones.

2.2 Fundamentos teóricos

En esta sección se establecen los conceptos relevantes para desarrollar esta

investigación, mismos que se plantean a continuación.

Espectro electromagnético: Proviene del latín espectrum y significa forma o

aspecto. Se le denomina espectro a la radiación electromagnética que emite

o absorbe un objeto. Referido a un objeto se denomina espectro

electromagnético o simplemente espectro a la radiación electromagnética

que emite (espectro de emisión o de reflexión) o absorbe (espectro de

absorción) el objeto [6]. En otras palabras, es el conjunto de longitudes de

onda que puede adoptar la radiación. Aunque se trata de una sucesión

continua de valores de longitud de onda, se suelen agrupar en bandas donde

la radiación electromagnética manifiesta comportamientos similares [7]. En la

figura 1 se muestran las agrupaciones del espectro electromagnético

enfatizando el espectro visible. Este es el rango en que opera la cámara a

color (RGB: Red-Green-Blue). En la figura 2 se ilustran las subdivisiones del

grupo infrarrojo. La cámara térmica empleada en esta investigación, su rango

espectral es de 7.5𝜇𝑚 𝑎 13.5𝜇𝑚 correspondientes al infrarrojo de longitud de

onda larga (LWIR por sus siglas en inglés).

Page 23: Identificación de peatones en imágenes aéreas con redes ...

23

Figura 1. Espectro electromagnético, obtenida de [6]

Figura 2.Espectro electromagnético Infrarrojo, obtenida de [8]

2.3 Técnicas de aprendizaje automático

Aprendizaje automático (Machine Learning) es una técnica de análisis de

datos que le permite a las computadoras hacer procesos que resulta natural

para las personas y los animales: aprender de la experiencia [7]. Los

algoritmos de aprendizaje automático emplean métodos de cálculo para

“aprender” información directamente de los datos sin depender de una

ecuación predeterminada como modelo. Los algoritmos mejoran su

rendimiento de forma adaptativa a medida que aumenta el número de

muestras disponibles para el aprendizaje.

Page 24: Identificación de peatones en imágenes aéreas con redes ...

24

Mathworks en [9] describe dos tipos de técnicas empleadas por el

aprendizaje automático: el aprendizaje supervisado, que entrena un modelo

con datos de entrada y salida conocidos para que pueda predecir salidas

futuras, y el aprendizaje no supervisado que encuentra patrones ocultos o

estructuras intrínsecas en los datos de entrada, como se muestra en la figura

3.

Figura 3. Técnicas de aprendizaje automático: aprendizaje supervisado y aprendizaje no supervisado.

2.3.1 Máquina de soporte vectorial (SVM)

Una máquina de soporte vectorial (SVM) construye un hiperplano óptimo en

forma de superficie de decisión, de modo que el margen de separación entre

dos clases de datos se amplía al máximo [10]. Los vectores de soporte

hacen referencia a un pequeño subconjunto de las observaciones de

entrenamiento que se utilizan como soporte para la ubicación óptima de la

superficie de decisión.

Una máquina de soporte vectorial se entrena en dos fases:

1) Transformar los datos de entrada en un espacio de características

altamente dimensional. En esta fase es suficiente con especificar el

kernel; los datos nunca se transforman explícitamente al espacio de

características. Este proceso se conoce comúnmente como el truco

del kernel.

Aprendizaje automático

Aprendizaje supervisado

Clasificación

Regresión

Aprendizaje no supervisado

Agrupamiento

Page 25: Identificación de peatones en imágenes aéreas con redes ...

25

2) Resolver un problema de optimización cuadrática que se ajuste a un

hiperplano óptimo para clasificar las características transformadas en

dos clases. El número de características transformadas está

determinado por el número de vectores de soporte.

Para construir la superficie de decisión solo se requieren los vectores de

soporte seleccionados de los datos de entrenamiento. Una vez entrenados,

el resto de los datos de entrenamiento son irrelevantes [7].

2.3.2 Árboles de decisión

El método de árboles de decisión es empleado principalmente en estadística,

minería de datos y aprendizaje automático. Dado un conjunto de datos se

fabrican diagramas de construcciones lógicas, muy similares a los sistemas

de predicción basados en reglas, que sirven para representar y categorizar

una serie de condiciones que ocurren de forma sucesiva, para la resolución

de un problema. Los modelos de árbol donde la variable destino puede tomar

un conjunto finito de valores se denominan árboles de clasificación. En estas

estructuras de árbol, las hojas representan etiquetas de clase y las ramas

representan las conjunciones de características que conducen a esas

etiquetas de clase. Los árboles de decisión, donde la variable destino puede

tomar valores continuos (por lo general números reales) se llaman árboles de

regresión. De forma más concreta, se puede decir que los árboles de

decisión son diagramas de decisiones secuenciales que muestran sus

posibles resultados. Estos ayudan a determinar cuáles son sus opciones al

mostrar distintas decisiones y resultados [7].

2.3.3 K-NN (Vecino más cercano)

En aplicaciones para reconocimiento de patrones en base de datos,

el algoritmo de vecinos k –más cercanos (k -NN) es un método de

Page 26: Identificación de peatones en imágenes aéreas con redes ...

26

clasificación no paramétrico, que estima el valor de la función de densidad de

probabilidad o directamente la probabilidad a posteriori de un elemento 𝑥

pertenezca a la clase 𝐶𝑗 a partir de la información de la información

proporcionada por el conjunto de prototipos [11]. En el reconocimiento de

patrones, el algoritmo k-NN es usado como método de clasificación de

objetos (elementos) basado en un entrenamiento mediante ejemplos

cercanos en el espacio de los elementos. k-NN es un tipo de aprendizaje

vago (lazy learning), donde la función se aproxima solo localmente y todo el

cómputo es diferido a la clasificación. En la clasificación k-NN, la salida es

una membrecía de clase; un objeto se clasifica por mayoría de votos de sus

vecinos, y el objeto se asigna a la clase más común entre sus 𝑘 vecinos más

cercanos (𝑘 es un número entero positivo, típicamente

pequeño). Cuando 𝑘 = 1, entonces el objeto simplemente se asigna a la

clase de ese vecino más cercano. En la regresión k-NN, la salida es el valor

de propiedad del objeto. Este valor es el promedio de los valores de

sus k vecinos más cercanos. Tanto para la clasificación como para la

regresión, se puede usar una técnica útil para asignar peso a las

contribuciones de los vecinos, de modo que los vecinos más cercanos

contribuyan más al promedio que los más distantes [11].

Los vecinos se toman de un conjunto de objetos para los que se conoce la

clase (para la clasificación k -NN) o el valor de la propiedad del objeto (para

la regresión k -NN). Esto puede considerarse como el conjunto de

entrenamiento para el algoritmo, aunque no se requiere ningún paso de

entrenamiento explícito. Una peculiaridad del algoritmo k -NN es que es

sensible a la estructura local de los datos [7].

2.3.4 Redes Neuronales

Una imagen digital está representada por una matriz de tamaño 𝑚 𝑥 𝑛 con

valores entre 0 - 255 que representa el tono de gris para imágenes en

Page 27: Identificación de peatones en imágenes aéreas con redes ...

27

escalas grises, en matrices de tamaño 𝑚 𝑥 𝑛 𝑥 3 en imágenes en RGB, existe

una matriz de tamaño 𝑚 𝑥 𝑛 por cada canal (rojo, verde y azul) con las

intensidades de color para cada canal. Uno de los problemas centrales de la

visión por computadora es la clasificación de imágenes. Esto es, pasar de los

valores de una matriz a una categoría como perro, gato, persona, etc.

Clasificar objetos en la vida cotidiana es una tarea fácil para un humano, sin

embargo, se convierte en algo complejo para un sistema computacional,

dado que tiene que afrontar algunos desafíos como se describe a

continuación:

Variación en la perspectiva. El objeto puede estar orientado de

distintas formas con respecto a la posición de la cámara.

Variación de escala. El objeto puede estar a una distancia mayor o

menor de la cámara en distintos momentos o los objetos son de

distintos tamaños.

Deformación. El objeto de interés no necesariamente es un cuerpo

rígido por lo que puede deformarse, es decir, puede tomar una forma

inusual.

Oclusión. En una escena el objeto puede estar ocluido por otro objeto

y sólo ser apreciable una pequeña sección de dicho objeto,

dificultando su reconocimiento.

Variación de iluminación. Las imágenes están sujetas a variaciones

constantes de iluminación y estas variaciones causan drásticos

cambios en los valores numéricos de los pixeles.

Confusión con el fondo. El objeto puede tener una apariencia similar al

fondo de la escena y mezclarse con ella, complicando la identificación

del objeto respecto al fondo.

Page 28: Identificación de peatones en imágenes aéreas con redes ...

28

Variación en la misma categoría. Puede existir una gran cantidad de

variantes de la misma categoría de objeto, por ejemplo, si la clase es

silla, como se sabe existe una gran variedad de formas de ella.

En la figura 4 se observa alguno de estos ejemplos.

Figura 4. Desafíos que se presenta en la clasificación de objetos en un sistema computacional, obtenido de [12].

Una de las técnicas desarrollas para resolver la problemática enlistadas

anteriormente, es a través las redes neuronales. Este tipo de clasificación se

basa en el uso de redes neuronales artificiales, una neurona artificial es un

objeto lógico (software) que recibe diversas entradas, realiza una suma

ponderada de las mismas y produce una salida a partir de la aplicación de

una función umbral a la medida ponderada [13], en la figura 5 se ilustra la

estructura de una neurona real y una neurona artificial. La conexión de las

salidas de unas neuronas con la entrada de otras, se le conoce como una

red neuronal.

Page 29: Identificación de peatones en imágenes aéreas con redes ...

29

Figura 5. Estructura de una neurona real y una neurona artificial, obtenido de [12].

En las redes neuronales la información fluye en una única dirección, de la

capa de entrada, pasando por la o las capas ocultas hacia la capa de salida.

Cada neurona de cualquier capa está conectada (en la dirección de flujo) con

todas las neuronas de la siguiente capa. Un ejemplo típico de una red

neuronal es muestra en la figura 4.

Figura 6. Ejemplo de una red neuronal.

Castillo menciona en [13], que el proceso de clasificación sigue tres fases:

1) Entrenamiento: Se introducen datos cuya clase se conoce, y se

compara la salida con la realidad. Con el resultado de la comparación

se modifican los coeficientes de ponderación de todas las neuronas

para obtener la respuesta adecuada, es decir valores de 1 en la clase

correcta y cero en la clase incorrecta.

Page 30: Identificación de peatones en imágenes aéreas con redes ...

30

2) Estabilización: Al inicio del entrenamiento los factores de ponderación

cambian rápidamente, pero conforme este se desarrolla los factores

comienzan a estabilizarse, en el momento en que no se modifican

más, finaliza la fase de entrenamiento.

3) Clasificación: Se introducen los datos de una clase no conocida y se

adjudican a la clase con la respuesta más alta.

2.3.4.1 Tipos de Redes Neuronales

Existen varios tipos de arquitecturas de redes neuronales, sin embargo, las

más usadas se pueden clasificar en Redes Neuronales Profundas (DNN),

Redes Neuronales Convolucionales (CNN) y Redes Neuronales Recurrentes

(RNN) cada una de estas se describen a continuación

Red Neuronal Profunda (DNN). Con este tipo de red se puede

procesar texto, imágenes pequeñas o datos. La estructura de esta red

se muestra en la Figura 7.

Figura 7. Estructura de una Red Neurona Profunda (DNN)

Page 31: Identificación de peatones en imágenes aéreas con redes ...

31

Este tipo de red tiene una limitante, debido a la existencia de tantas

conexiones en cada una de las capas que cuando se requiere

procesar datos grandes, por ejemplo, una imagen de tamaño 300 x

300 pixeles se tienen un total de 90 000 datos en la capa de entrada,

realizar los cálculos para cada uno de los pixeles es demasiado y

requeriría mayor poder computacional con este tipo de red neuronal.

Para darle solución a este problema con las imágenes, se crea la red

neurona convolucional.

Red Neuronal Convolucional (CNN), el uso común de esta red

neuronal es para el procesamiento de imágenes, sin embargo, se ha

estado implementando también para el procesamiento de texto. La

estructura de esta red se muestra en Figura 8. Generalmente esta red

neuronal en la última capa oculta tiene una función Softmax, que le

permitirá conectar todas las neuronas de las convoluciones y

maxpooling que emplea la red.

Figura 8. Estructura de una Red Neuronal Convolucional (CNN)

Page 32: Identificación de peatones en imágenes aéreas con redes ...

32

Red Neuronal Recurrente. Este tipo de redes se usan para tipos de

datos que son secuenciales, es decir, datos en el que el valor de una

variable en particular dependerá de el o los valores que se tuvo

previamente. Por ejemplo, datos de tipo texto. A diferencia de las

redes anteriores, esta red dentro de sus capas ocultas, cuenta con

capas recurrentes con celdas de Long Short-Term Memory (LSTM),

que le permite saber el valor que tenía anteriormente. La estructura de

esta red la podemos ver en Figura 9

Figura 9. Estructura de una Red Neuronal Recurrente (RNN)

2.4. Métodos Explicativos de Técnicas de Aprendizaje

Automático.

Recientemente se han publicado trabajos en dónde presentan métodos de

explicación de algunas técnicas de aprendizaje automático con lo son las

redes neuronales. Esto nos lleva a las preguntas ¿Para qué explicar una Red

Neuronal? ¿Es realmente necesario explicar una Red Neuronal?

Cómo lo vimos en la sección anterior las redes neuronales contienen unas

capas ocultas para el usuario, es decir, no se sabe exactamente lo que está

aprendiendo la red neuronal de los objetos de interés, por esta razón se le

puede considerar como una “caja negra” a las capas ocultas, limitando el uso

de las redes neuronales para cierto tipo de aplicaciones. Por ejemplo, se

quiere emplear una red neuronal para clasificar el tipo de cáncer que se tiene

Page 33: Identificación de peatones en imágenes aéreas con redes ...

33

en cierta muestra de una imagen digital, para ello se analizan imágenes de la

muestra de células con la red neuronal, obteniendo como resultado el tipo de

cáncer que se encuentra en la muestra. Sin embargo, el sistema sólo nos

presenta el tipo de cáncer y no sabemos que o cuales fueron las

características que la red neuronal encontró para arrojar ese resultado. Un

mal diagnóstico por parte de la red neuronal puede ser fatal para el paciente.

Para evitar un mal diagnóstico se requiere de un experto humano para

corroborar dichos resultados. Es aquí en donde encontramos la ventaja de

explicar una red neuronal. Los métodos explicativos generan de forma

gráfica un mapa de índices de relevancias, con los pixeles que fueron

importantes para la decisión que toma la red neuronal. Estos mapas le

permiten al experto corroborar de una forma más rápida los resultados que

arroja la red y con ello dar un diagnóstico en menos tiempo al paciente.

Estos métodos permiten ver de forma gráfica las características relevantes

para la red en cada categoría de clasificación. Este mapa proporciona

información incluso de los casos en donde la clasificación es errónea, con

ello se puede identificar las fortalezas y debilidades de la red y las

características en dónde requiere mayor entrenamiento. Algunos de estos

métodos se reportan en [1] y [2]

2.4.1 Método Layer-wise Relevance Propagation.

El método Layer-wise Relevance Propagation (LRP) explica la predicción de

un clasificador asignando valores de relevancia a los componentes de la

entrada, asumiendo que el algoritmo del clasificador empleado puede ser

descompuesto en varias capas computacionales; las redes neuronales, las

máquinas de soporte vectorial, son alguno ejemplos de algoritmos que se

pueden descomponer en capas [1]. Estas capas son parte de la extracción

de características de la imagen considerando que la primera capa

Page 34: Identificación de peatones en imágenes aéreas con redes ...

34

corresponde a las entradas o pixeles de la imagen y la última capa son las

predicciones. Las redes neuronales multicapas que están construidas por un

conjunto de neuronas interconectadas. Estas neuronas definen una función 𝑧

que mapea la entrada en una predicción, donde 𝑧 es un vector que contiene

el valor y el peso para esa neurona de cierta capa. Un mapeo común de una

capa a otra consiste en una proyección, como se muestra en la ecuación (1).

𝑧𝑖𝑗 = 𝑥𝑖𝑤𝑖𝑗, (1)

Dónde 𝑤𝑖𝑗 es el peso conectando la neurona 𝑥𝑖 a la neurona 𝑥𝑗

𝑧𝑗 = ∑ 𝑧𝑖𝑗 +𝑖 𝑏𝑗, (2)

Dónde 𝑏𝑗 es el bias y ∑i denota la suma a través de todas las neuronas de

esa capa.

𝑥𝑗 = 𝑔(𝑧𝑗) (3)

Dónde 𝑔 es una función de activación. Las redes multicapa contienen

múltiples capas compuestas por un gran número de neuronas.

La descomposición de las relevancias se hace hacia atrás en función de las

relevancias de la capa anterior hasta llegar a la capa de entrada. Una

alternativa para descomponer la relevancia en cada capa es mediante el

siguiente método: Cuando se conoce la relevancia de cierta neurona 𝑅𝑗(𝑙+1)

para la predicción 𝑓(𝑥) se desea obtener la descomposición de la relevancia

en función de la información (o mensajes) 𝑅𝑖←𝑗 enviada a las neuronas de las

capas anteriores. Estos mensajes cumplen con la ley de conservación

expresada en la ecuación (4).

Page 35: Identificación de peatones en imágenes aéreas con redes ...

35

∑ 𝑅𝑖←𝑗(𝑙.𝑙+1)

= 𝑅𝑗(𝑙+1)

𝑖 (4)

Para aproximarse a las propiedades de conservación, se tratan las

preactivaciones positivas y negativas por separado. Sea 𝑧𝑗+ = ∑ 𝑧𝑖𝑗

+ + 𝑏𝑗+

𝑖 y

𝑧𝑗− = ∑ 𝑧𝑖𝑗

− + 𝑏𝑗−

𝑖 , donde “-” y “+” denotan la parte positiva y negativa de 𝑧𝑖𝑗 y

𝑏𝑗. La relevancia está definida en la ecuación (5).

𝑅𝑖←𝑗(𝑙.𝑙+1)

= 𝑅𝑖←𝑗(𝑙+1)

(𝛼𝑧𝑖𝑗

+

𝑧𝑗+ + 𝛽

𝑧𝑖𝑗−

𝑧𝑗−) (5)

Dónde 𝛼 + 𝛽 = 1. De ésta manera, se tiene control de la importancia de la

evidencia positiva y negativa eligiendo diferentes factores 𝛼, 𝛽.

La relevancia de cada neurona es determinada con la suma de todas las

neuronas de capas anteriores, como se muestra en la ecuación (6).

𝑅𝑖(𝑙)

= ∑ 𝑅𝑖←𝑗(𝑙.𝑙+1)

𝑗 (6)

Dónde ∑j denota la suma a través de todas las neuronas de otra capa.

La relevancia de cada neurona es determinada con la suma de todas las

neuronas de capas anteriores, como se muestra en la ecuación (6).

Cabe mencionar que la ecuación (6) es aplicable para capas que cumplen

con cierta estructura en su activación, como se muestra en la ecuación (3),

ya que 𝑔𝑗 determina el valor de 𝑥𝑗 y con esto la relevancia de 𝑅𝑗

En la Figura 10, se describe de forma gráfica el procedimiento de las redes

neuronales y la explicación de las mismas, hasta obtener el mapa de índices

de relevancias con los pixeles importantes para esa decisión.

Page 36: Identificación de peatones en imágenes aéreas con redes ...

36

Figura 10. Diagrama de una red neuronal convolucional y la explicación por el método LRP

El método de Layer-wise Relevance Propagation es uno de los métodos que

actualmente se han propuesto para la explicación de redes neuronales.

Emplear el método con la ecuación alpha-beta, permite darle mayor o menor

importancia a los pixeles, esto según los valores que se le establezcan a 𝛼 y

𝛽. Siendo 𝛼 los valores más relevantes para la clase en cuestión

En este trabajo de tesis, se asignó 𝛼 = 1 para encontrar los pixeles más

importantes para la decisión de la red neuronal y se obtuvo el mapa con los

índices de relevancia como se observa en la Figura 10, posicionándose los

pixeles más importantes dentro del objeto a identificar.

2.5 Fusión Profunda en Redes Neuronales Convolucionales.

Cuando se emplean dos cámaras con distinto rango espectral (RGB y LWIR)

para la identificación de peatones, una de las cuestiones que se presenta es

¿en qué nivel de fusión se debe implementar para obtener mejores

resultados? La arquitectura de fusión dependerá principalmente de la

Page 37: Identificación de peatones en imágenes aéreas con redes ...

37

aplicación que se le vaya a dar a la red neuronal. En [14] Chengyang Li,

expone en su publicación algunas arquitecturas de fusión más utilizadas con

imágenes RGB y LWIR en redes neuronales para aplicaciones de

reconocimiento de peatones. Estas arquitecturas se describan a

continuación.

Input Fusion. Simplemente apila imágenes en color (RGB) y térmicas

(T) antes de introducirlas en la red. Esta fusión se hace pixel a pixel,

obteniendo una imagen de cuatro canales (RGBT).

Early Fusion. Integra las subredes térmicas y de color

inmediatamente después del primer bloque convolucional,

concatenando primero los mapas de características de ambas

subredes y una red en red (Network in Network: NIN) posterior para la

reducción de dimensión.

Halfway Fusion. Combina las subredes térmicas y de color en una

etapa posterior, en algún bloque convolucional intermedio, mediante

una concatenación de mapas de características similares y una

reducción de dimensión basada en NIN.

Late Fusion. Es un tipo de fusión de alto nivel, que concatena las

últimas capas totalmente conectadas de las subredes térmicas y de

color. Los mapas de características después de los últimos bloques

convolucionales de las dos subredes se concatenan, esta

concatenación es previo a realizar la clasificación de las redes

Score Fusion I. Genera propuestas y detecciones por parte de las

dos subredes por separado. Las detecciones luego se envían a la otra

subred para volver a calificar la confianza. Las detecciones finales se

obtienen al fusionar las puntuaciones de confianza de detección en

dos etapas con pesos iguales de 0.5. Por lo tanto, se puede ver como

un diseño en cascada de las dos subredes.

Score Fusion II. Es una forma de fusión no en cascada a nivel de

puntuación. Al igual que en Late Fusion, las propuestas humanas se

Page 38: Identificación de peatones en imágenes aéreas con redes ...

38

generan explotando mapas de características de dos subredes.

Luego, las dos subredes toman las propuestas como entrada para

generar los resultados de detección por separado. Finalmente, se

promedian las puntuaciones de detección y las regresiones de cuadro

delimitador de dos subredes para obtener las detecciones finales.

Estas arquitecturas se pueden visualizar de forma gráfica en Figura 11.

Aún no se tiene una estandarización de las diferentes arquitecturas que se

han publicado, y algunos autores como J. Wagner en [15] en su trabajo

emplea dos arquitecturas de fusión: una fusión pixel a pixel al que él le llama

Early Fusion, sin embargo, comparado con Chengyang Li corresponde a la

arquitectura Input Fusion. Por esta razón en algunos trabajos las

descripciones de las arquitecturas empleadas pueden ser similares, sin

embargo, el nombre asignado a esas arquitecturas puede variar de un autor

a otro.

Figura 11. Seis arquitecturas de fusión que integran modalidades de color y térmicas en diferentes etapas: (a) Input Fusion, (b) Early Fusion (c) Halfway Fusion (d) Late Fusion (e) Score Fusion I (f) Score Fusion II. Obtenido de

[14]

Page 39: Identificación de peatones en imágenes aéreas con redes ...

39

Capítulo 3

Trabajo Relacionado

En el presente capítulo se detallan los trabajos relacionados que sustentan y

forman parte del desarrollo de este proyecto de tesis. Se realiza una revisión

de distintos trabajos relacionados al área de identificación de peatones

empleando la fusión de sensores, particularmente una cámara en el espectro

visible (RGB) y una segunda cámara con respuesta espectral en el infrarrojo

de longitud de onda larga (LWIR) y la aplicación de un método explicativo

para redes neuronales. En el primer subtema, se describen los trabajos

relacionados con la identificación de peatones empleando la fusión de

sensores. Posteriormente los trabajos relacionados con los métodos

explicativos de sistemas de aprendizaje automático. En la Tabla 1, se

muestra una comparativa de los trabajos relacionados con esta tesis.

Autor / año Identificación

Peatones Cámara

IR Cámara

RGB Fusión

Redes Neuronales

Método Explicativo

J. Wagner (2016)

✔ ✔ ✔ ✔ ✔

Ya-Li Hou (2018)

✔ ✔ ✔ ✔ ✔

Chengyang Li (2019)

✔ ✔ ✔ ✔ ✔

G. Montavon (2017)

✔ ✔

S. Bach (2015)

✔ ✔ ✔

J. Velázquez (2019)

✔ ✔ ✔ ✔ ✔ ✔

Tabla 1. Tabla comparativa de trabajos relacionados con esta tesis.

Page 40: Identificación de peatones en imágenes aéreas con redes ...

40

3.1 Identificación de peatones con fusión de sensores.

La identificación de personas en imágenes es un tema que se ha estudiado

por varios años, derivado de estos estudios se han obtenido resultados en

los que emplear un solo sensor no suele tener buenos resultados

principalmente cuando el escenario está en condiciones de baja iluminación.

Por esta razón recientemente se ha profundizado en estudiar la identificación

personas fusionando la información de cámaras a color (RGB) y cámaras

infrarrojas (T). La principal problemática de esto es definir en qué nivel y

método de fusión se obtienen mejores resultados. J. Wagner en [15], en su

trabajo emplea dos tipos de arquitecturas para realizar la fusión de las

imágenes y aplicarlas en las redes neuronales. La primera arquitectura es la

fusión a nivel pixel, que consiste en fusionar las imágenes pixel a pixel para

crear una imagen de cuatro canales (RGBT), esta fusión se realiza previo a

ser introducida la red neuronal. La segunda arquitectura empleada por J.

Wagner, consiste en una fusión conocida como Late Fusion, la arquitectura

consta dos subredes neuronales, entrenadas para la identificación de

personas en sus respectivos canales (RGB y Térmico) y la fusión se realiza

una capa antes de realizar la clasificación en las redes neuronales, las

características de estas redes se fusionan en un solo conjunto para

posteriormente aplicar la capa final que lleva a la clasificación de la red. J.

Wagner concluye que la late fusion obtiene mejores resultados en

comparación con la fusión a nivel pixel, 43.80% y 53.94% respectivamente.

Wagner emplea la base de datos KAIST y la arquitectura y la red pre-

entrenada CaffeNet en la investigación.

En [16] Ya-Li Hou hace uso de la red neuronal VGG-16 pre-entrenada para

realizar el trabajo de investigación, que consiste en probar arquitecturas de

fusión y el método Single Shot Detector (SSD). Las arquitecturas empleadas

por Ya-Li Hou son: fusión a nivel pixel, Early Fusion y Late Fusion. Prueban

tres métodos clásicos de fusión basados en la transformación y método de

Page 41: Identificación de peatones en imágenes aéreas con redes ...

41

fusión espacial, que incluye Lapace Pyramid, Wavelet fusion, curvelet fusion

y fusión basado en un joint bilateral filter. Los resultados obtenidos por Ya-Li

Hou se muestran en la Tabla 2.

Methods Day (%) Night (%)

RGB 68.11 70.86

Early Fusion (RGBT)

66.24 59.51

Late Fusion (RGB + T)

65.01 48.23

Wavelet 66.15 65.88

Laplace 65.08 67.23

Curvelet 64.78 68.14

Join 71.31 46.08

Early Fusion, Wavelet

63.77 (RGBWaveletI)

54.54 (WaveletT)

Early Fusion, Laplace

62.51 (RGBLaplaceI)

57.81 (LaplaceT)

Early Fusion, Curvelet

62.03 (RGBCurveletI)

53.71 (CurveletT)

Early Fusion, Joint bilateral filter

70.69 (RGBJoin) 43.46 (JoinT)

Late Fusion, Wavelet

62.81 (RGB + WaveletI)

47.15 (Wavelet + T)

Late Fusion, Laplace

61.13 (RGB + LaplaceI)

46.10 (Laplace + T)

Late Fusion, Curvelet

60.73 (RGB + CurveletI)

45.38 (Curvelet + T)

Late Fusion, Joint bilateral filter

70.44 (RGB + Join) 38.02 (Join + T)

Tabla 2. Tabla de resultados obtenidos en [16]

Page 42: Identificación de peatones en imágenes aéreas con redes ...

42

Chengyang Li en [14] prueba seis arquitecturas de fusión distintas, en la

sección 2.5 se exponen las arquitecturas probadas en la investigación. El

autor emplea la arquitectura definida por la red neuronal VGG-16. Para las

pruebas emplea la base de datos KAIST, seleccionando aquellas las

etiquetas razonables, es decir, sólo se consideran las imágenes de personas

que cuentan con tamaño mayor a 55 pixeles, de esta manera omite las

etiquetas que son muy pequeñas y difíciles de identificar. Los resultados

obtenidos se muestran en Figura 12

Figura 12. Comparación de los seis arquitecturas de fusión en términos de MR, figura obtenida de [14]

Hasta el momento no se tiene reporte de algún trabajo realizado en dónde se

apliquen los métodos explicativos a redes neuronales con imágenes

térmicas. En el capítulo 5 se exponen algunos hallazgos que son

prometedores para futuras investigaciones.

Page 43: Identificación de peatones en imágenes aéreas con redes ...

43

Capítulo 4

Trabajo desarrollado

En el trabajo desarrollado, se describe la base de datos empleada para el

entrenamiento y las pruebas. En la Figura 13, se observa la metodología

empleada para obtener los datos de entrenamiento y de prueba, para poder

aplicar la solución propuesta durante éste trabajo.

Figura 13. Esquema general de la metodología desarrollada en este trabajo de tesis

4.1 Base de datos KAIST.

La base de datos KAIS creada por S. Hwang, J. Park, N. Kim, Y. Choi y I. S.

Kweon [17] consiste en secuencia de imágenes capturadas con una cámara

a color (modelo: PointGary Flea3) y una cámara infrarroja de longitud de

onda larga (modelo: FLIR-A35, rango 7.5 𝜇𝑚 a 13.5 𝜇𝑚). Las escenas

Page 44: Identificación de peatones en imágenes aéreas con redes ...

44

capturadas son de tráfico regular, tomadas durante el día y noche para

considerar los cambios de condiciones de luz.

El conjunto de datos peatonales multiespectrales KAIST consta de 95 mil

pares de imágenes color-térmico (imágenes de tamaño 640x480 pixeles,

capturadas a 20 imágenes por segundo) tomados desde un vehículo. Todos

los pares son etiquetados manualmente (persona, personas, ciclista) con un

total de 103,128 anotaciones.

En la Figura 14, se muestra un ejemplo de estos pares de imágenes.

Figura 14. Ejemplo de pares de imágenes de las etiquetas dentro de la base de datos KAIST. Obtenido

de [17]

Page 45: Identificación de peatones en imágenes aéreas con redes ...

45

4.2 Imágenes de entrenamiento y prueba.

El entrenamiento de las redes neuronales se realiza con un conjunto de

datos de 20,000 imágenes para cada red neuronal (RGB y LWIR) de los

cuales, 10,000 son etiquetados como verdaderos y el resto como falsos. Las

imágenes son seleccionadas del conjunto total de la base de datos KAIST;

sólo se consideran las etiquetadas como persona y que se visualicen

adecuadamente, es decir, que la imagen de la persona tenga una altura

mayor de 45 pixeles, se omiten las que están ocluidas con más del 50% de la

persona o los casos en donde las imágenes son muy obscuras en las

capturas nocturnas para RGB. En la Figura 15 se muestran algunos ejemplos

de las imágenes que han sido omitidas para el proceso de pruebas. De forma

similar se seleccionan las imágenes térmicas. Al tratarse de redes

neuronales independientes, para el proceso de entrenamiento no es

importante que las imágenes correspondan a la misma escena.

Figura 15. Ejemplos de imágenes omitidas para el proceso de entrenamiento. (a) imágenes muy obscuras, (b) imágenes con altura inferior a 45 pixeles lo que dificulta el reconocimiento. (c) imagen de persona ocluida más de

un 50% del cuerpo.

El conjunto de imágenes de prueba está formado por 3108 pares de

imágenes correspondientes a la misma escena para cada canal. En la Figura

Page 46: Identificación de peatones en imágenes aéreas con redes ...

46

16 se pueden visualizar unos de ejemplos de los pares de imágenes en los

canales visibles y térmicos con el que fue creado este dataset de prueba.

Figura 16. Ejemplo de pares de imágenes empleado para la etapa de pruebas. Las imágenes de la izquierda corresponden a imágenes RGB y las imágenes a la derecha corresponden a su par en el canal térmico. (a) captura

realizada en el día y (b) captura realizada en condiciones nocturnas.

Estas imágenes de entrenamiento y prueba se redimensionan a tamaño

32x32, este proceso se representa en la Figura 17. Al tratarse de imágenes

con una altura mayor a los 45 pixeles, estas imágenes se redimensionan a

una imagen más pequeña de tamaño.

Figura 17. Proceso de redimensionado de las imágenes de para crear el dataset. Las imágenes son redimensionadas a un tamaño de 32x32 pixeles

Page 47: Identificación de peatones en imágenes aéreas con redes ...

47

Posteriormente las imágenes son transformadas a escala grises, y los

valores de niveles de gris de cada imagen que está presentada en forma de

matriz de tamaño 32x32, se convierten a un vector horizontal de tamaño

1x1024 para que sea admitida por las redes neuronales. Este proceso se

ilustra en la Figura 18. Esta conversión no modifica los valores de niveles de

gris que componen la imagen.

Figura 18. Proceso de conversión de matriz a vector.

Las colecciones de imágenes de entrenamiento y de prueba, se almacenan

en una matriz de tamaño 20,000x1024 y otra de tamaño 3108x1024

respectivamente. En la Figura 19 se ejemplifica este paso.

Figura 19. En la matriz de entrenamiento m = 20,000 y para el dataset de prueba m = 3018.

El proceso de sección de imágenes para crear un dataset razonable, fue una

de las actividades más laboriosas al desarrollar este trabajo, pues como se

menciona anteriormente, la base de datos cuenta con un gran número de

Page 48: Identificación de peatones en imágenes aéreas con redes ...

48

etiquetas y se revisaron cada una de ellas para corroborar que las imágenes

cumplieran con las condiciones propuestas para ser razonable, similar a

como lo exponen otros autores en sus publicaciones [14] y [16].

4.3 Layer-wise Relevance Propagation.

En éste trabajo se aplica el método Layer-wise Relevance Propagation (LRP)

explicado en la sección 2.4, con base en el trabajo presentado por Bach S.

en [1] para explicar una red neuronal. Este método se puede aplicar a otros

clasificadores como SVM por mencionar alguno. La implementación de LRP

se encuentra desarrollado en código abierto [18]. El algoritmo LRP es

aplicado usando el modelo alpha-beta, correspondiente a la ecuación (5) de

la sección 2.4, (siendo 𝛼=1 y 𝛽=0) para la descomposición. Utilizar estos

valores permite visualizar en el mapa de índices de relevancias sólo aquellos

pixeles con mayor importancia.

Las redes neuronales (RGB y LWIR) tienen la estructura siguiente. En la

primera capa de convolución (5x5, 10), la segunda capa de convolución (5x5,

25), la tercera capa de convolución (4x4, 100) y finalmente la última capa de

convolución (1x1, 2). Esta estructura se ilustra en la Figura 20.

Figura 20. Arquitectura de las redes neuronales entrenadas.

Page 49: Identificación de peatones en imágenes aéreas con redes ...

49

Previo a decidir cuál ecuación que se emplearía en el método explicativo

LRP, se realizaron pruebas con tres ecuaciones que emplea Bach S. en su

artículo [1]. En la Figura 21 se observan los comportamientos de las distintas

ecuaciones empleadas en el método LRP de la misma escena para las

imágenes capturadas con la cámara térmica y la cámara a color. La

ecuación (56) en [1] lleva el nombre de Simple y su comportamiento tiene

cierta similitud con la ecuación (58) en [1] que corresponde al caso Épsilon.

La ecuación (56) tiene como inconveniente que cuando se cuenta con

valores muy pequeños de 𝑧𝑗 las relevancias toman valores fuera del límite

esperado y es por eso que en la ecuación (58) se usa el valor de épsilon

como estabilizador ɛ ≥ 0. Para ambos casos, en la Figura 21 se observa que

con RGB es complicado diferenciar entre los rojos y azules ya que se

encuentran concentrados dentro de la misma zona. También se puede ver

que en el caso de IR se marca en azul una pequeña zona de la persona, sin

embargo, no se distingue una persona como tal. Es por eso que se decidió

trabajar con la ecuación nombrado como Alpha-beta en la sección 2.4,

también citado del trabajo [1], ya que es posible darle niveles de importancia

a los casos positivos y negativos mediante valores de alfa y beta (siendo en

este caso sólo considerado el de alfa). Así, se genera un mejor mapa de

relevancia para las imágenes RGB e IR, visualizando mejor el contorno o el

lugar donde se encuentra el objeto de interés.

Page 50: Identificación de peatones en imágenes aéreas con redes ...

50

Figura 21. Comparación de mapas de calor con el método Alpha-Beta, Épsilon y el método Simple. La fila superior corresponde a los heatmaps de la imagen térmica y la fila inferior los heatmaps de la imagen RGB.

Por otra parte, se realizaron pruebas de los mapas generados en cada una

de las capas de convoluciones de las redes neuronales. Conforme se avanza

de capa en capa se va perfeccionando los pixeles relevantes como se puede

observar claramente en el caso RGB de la Figura 23. En el caso de IR

correspondiente a la Figura 22, el perfeccionamiento no es tan visible a

menos que se observe con detenimiento que hay variaciones principalmente

en los pixeles relevantes de color amarillo al transcurrir por las diferentes

capas de convoluciones. Cómo se hace mención en el capítulo 3 de trabajo

relacionado, hasta el momento no se tiene reportes de investigaciones en

dónde se explique los resultados obtenidos en los mapas de relevancias al

transcurrir por las diferentes capas de la red neuronal para imágenes

térmicas.

Page 51: Identificación de peatones en imágenes aéreas con redes ...

51

Figura 22. Comparación de los mapas de calor en la red neuronal entrenada para imágenes térmicas. (b) corresponde la primera convolución. (c) corresponde la 2da. convolución. (d) corresponde la 3ra convolución. (e)

corresponde la 4ta convolución. (f) corresponde la última capa de la red neuronal.

Figura 23. Comparación de los mapas de calor en la red neuronal entrenada para imágenes RGB. (b) corresponde la primera convolución. (c) corresponde la 2da. convolución. (d) corresponde la 3ra convolución. (e) corresponde

la 4ta convolución. (f) corresponde la última capa de la red neuronal.

Page 52: Identificación de peatones en imágenes aéreas con redes ...

52

4.4 Fusión de información.

4.4.1 Fusión Máscaras.

El Heatmap o mapa de índice de relevancias se genera en formato de

imagen RGB. Como se menciona en la sección 5.2, los pixeles más

relevantes serán marcados en un color rojo más intenso, por este motivo

podemos decir que aquellos pixeles con mayor relevancia se encuentran en

el canal Rojo de RGB. Para poder comparar la máscara contra éstos pixeles

primero se binarizan los valores correspondientes al canal Rojo del heatmap

usando un umbral que proviene del óptimo local arrojado por el método Otsu

[19].

Esto se aplica para el caso donde las imágenes de entrada a la red neuronal

son la imagen RGB y la imagen IR. Al ejecutar las respectivas redes

neuronales, cada una determina la clase por separado.

Cuando ambas determinan lo mismo no hay necesidad de decidir, pero

cuando son diferentes se determinó que se decidiera basándose en la

proporción de píxeles dentro del área de interés o máscara. En la Tabla 3 se

describen las reglas empleadas en esta técnica de fusión. Esta arquitectura

de fusión es un método de Score Fusion, ya que emplean los resultados de

las redes neuronales después de su predicción.

NN IR NN RGB Fusión empleando las Máscaras

Ausencia Ausencia Ausencia

Ausencia Presencia SI los puntos relevantes dentro de la

máscara en RGB >15 entonces Presencia

Presencia Ausencia SI los puntos relevantes dentro de la

máscara en IR >15 entonces Presencia

Presencia Presencia Presencia

Tabla 3. Reglas de decisión para fusión máscaras.

Page 53: Identificación de peatones en imágenes aéreas con redes ...

53

El procedimiento aplicado se muestra en la Figura 24. La entrada son ambas

imágenes en un solo canal, es decir, se convierten a escala de grises. A

continuación, se transforman a un tamaño de 32x32 y se vectoriza para

facilitar la manipulación de todas las imágenes. Se aplica la clasificación y se

analiza la explicación de la misma, obteniendo los píxeles más relevantes

para tomar la decisión. Una vez conociendo los pixeles relevantes se evalúa

la proporción de píxeles que caen dentro del área considerada (marcada

mediante una máscara previamente). Para esto se supone que, al identificar

un peatón en la imagen, la zona relevante (o que ayudó a tomar la decisión)

coincidirá con la silueta indicada por la máscara, donde se encuentra ubicada

la persona. Más adelante veremos a detalle que se cumple en el caso de las

imágenes RGB pero que en el caso de las imágenes IR no es así. Una vez

calculada la proporción dentro de la máscara se realiza la fusión.

Recordemos que el uso de ambos tipos de imágenes es para complementar

la decisión final. Las reglas que se seleccionen para fusionar las decisiones

en los casos donde no haya empate determinarán si efectivamente se usa a

su favor las características de cada escenario.

Figura 24. Esquema de la arquitectura de Fusión Máscaras.

Page 54: Identificación de peatones en imágenes aéreas con redes ...

54

4.4.2 Fusión Media IR

En las imágenes de tipo RGB que cuentan con la iluminación suficiente para

identificar los objetos capturados, la red neuronal RGB no presenta mayor

problema para hacer la identificación correcta de los objetos en la mayoría de

los casos. No obstante, en los escenarios con escasa iluminación se espera

que sean las imágenes térmicas las permitan identificar los objetos por la

emisión de calor. Considerando esto, se calcula la media de los valores o

pixeles que conforman una imagen RGB, permitiendo evaluar si la imagen

fue tomada con la suficiente exposición de luz (sin excederse) para identificar

si fue tomada durante el día o noche, de tal manera que se puedan identificar

los objetos. De forma análoga, se analiza si es posible identificar por medio

de la imagen térmica si la captura fue realizada en día o noche, esto

mediante la cantidad de radiación térmica que se puede capturar en toda la

escena, puesto que las temperaturas de las escenas diurnas serán mayores

en comparación con las nocturnas. En esta prueba se utilizan 519 imágenes

tomadas durante el día y 519 imágenes capturadas de noche.

Durante dicho análisis, se observó que aquellos casos en la imagen térmica

donde la media en los niveles de gris se encuentra por debajo del valor 50,

suelen ser aquellas con menor radiación recibida, perteneciendo a las

imágenes capturadas durante la noche y aquellas con valor mayor a 50

corresponden a las diurnas, debido a estar expuesta la escena a la radiación

del sol aumentando la temperatura. Respecto a las medias obtenidas en las

imágenes RGB, difícilmente se puede identificar si la captura pertenece a

una realizada durante el día o la noche, puesto que los valores son similares

entre las imágenes diurnas y nocturnas debido a que en las imágenes

capturadas en la noche la escena puede estar iluminada por alguna lámpara,

resultando en un escenario similar al capturado de día. Estos resultados los

podemos ver en la Figura 25. En (a) de Figura 25, se observa que para

imágenes IR, los valores de las medias en imágenes diurnas van de los 53 a

Page 55: Identificación de peatones en imágenes aéreas con redes ...

55

95, mientras que en las nocturnas los valores son 18 a 52 como se puede

apreciar en (b) de la Figura 25. Respecto a las medias de las imágenes RGB

de día en (a) de la Figura 26, se puede que los valores van de 35 a 108,

mientras que para las imágenes de noche los valores son entre 15 y 130,

esto se puede corroborar en (b) de la Figura 26. Ante estos resultados se

puede concluir que las imágenes térmicas permiten identificar mejor las

imágenes capturadas de noche o de día.

Figura 25. Media de las imágenes IR. (a) Valores obtenidos al calcular la media para imágenes IR capturadas de día. (b) Valores obtenidos al calcular la media para imágenes IR capturadas de noche.

Page 56: Identificación de peatones en imágenes aéreas con redes ...

56

Figura 26. Media de las imágenes RGB. (a) Valores obtenidos al calcular la media para imágenes RGB capturadas

de día. (b) Valores obtenidos al calcular la media para imágenes RGB capturadas de noche.

En la Tabla 4 se muestran las reglas para la etapa de fusión. Nuevamente

este tipo de fusión pertenece a una arquitectura de tipo Score Fusion, al

emplear los resultados de salida de las redes neuronales.

Fusión empleando la media IR

SI NN IR es igual a NN RGB entonces FUSION es igual a el valor de NN RGB

SI NN IR es diferente de NN RGB Y la media IR < 50 entonces FUSIÓN es igual a NN IR de lo

contrario FUSIÓN es igual a NN RGB

Tabla 4. Reglas de decisión para etapa de fusión media IR.

En la Figura 27 se muestra el diagrama completo del método desde la

entrada de las imágenes hasta obtener los resultados de la fusión.

Page 57: Identificación de peatones en imágenes aéreas con redes ...

57

Figura 27.Esquema de la arquitectura de Fusión Media IR

4.4.3 Fusión Media IR + Máscara RGB

Al trabajar las imágenes térmicas, en la máscara se observó que los pixeles

arrojados como relevantes en el mapa de calor tenían otro comportamiento

en comparación con las imágenes RGB. La red neuronal IR considera

relevantes para la decisión final los pixeles alrededor del objeto de interés.

Por otro lado, al trabajar a la par con imágenes RGB donde se sabe que

fueron tomadas durante la noche o en la sombra, es decir, menor exposición

de luz, se observó que en estos casos se tiene mayor éxito de identificación

con la red neuronal IR. En cualquier otro caso, las imágenes RGB muestran

un buen funcionamiento con las máscaras calculadas partiendo de la imagen

de entrada a la red. Bajo estos análisis se decide realizar una prueba de

fusión, donde las variables a considerar para la fusión es la media IR y el

resultado obtenido de correlación entre la máscara RGB y el heatmap

obtenido por la red neuronal de la imagen RGB. De esta manera, se le

permite al algoritmo aprovechar que las imágenes IR son buen medio para el

reconocimiento de los objetos que emiten calor en condiciones de poca

iluminación. También se le permite aprovechar que las imágenes RGB

cuentan con mayor información cuando la luz de la escena permite distinguir

entre los objetos presentes durante la captura. Las reglas de fusión se

describen en la Tabla 5. Al estar trabajando directamente con las

Page 58: Identificación de peatones en imágenes aéreas con redes ...

58

predicciones realizadas por las redes neuronales, esta red es considerada de

tipo Score Fusion.

Fusión empleando la media IR + máscara RGB

SI media IR < 50 Y máscara RGB < 45 entonces FUSIÓN es igual a NN IR de lo contrario FUSIÓN es

igual a NN RGB

Tabla 5. Reglas de decisión para etapa de fusión media IR + máscara RGB.

La estructura de método empleando esta arquitectura de fusión se puede ver

en la Figura 28.

Figura 28. Esquema de la arquitectura de Fusión Media IR + Máscara RGB

4.4.4 Fusión Media IR + Score NN RGB.

Chengyang Li propone en [14], el uso del score obtenidos por las redes

neuronales, como una variable para la etapa de fusión. De una forma similar

al método de fusión descrito en 4.4.3, se sustituye a puntaje obtenido por la

máscara por el score obtenido de la red neuronal RGB. En esta arquitectura

de fusión, se obtienen los resultados de la red neuronal previo a ser

implementado el método LRP. Sin embargo, los heatmaps son calculados,

pero no usados para la etapa de fusión. Las reglas de decisión de fusión son

presentadas en la tabla 6.

Page 59: Identificación de peatones en imágenes aéreas con redes ...

59

Fusión empleando la media IR + Score NN RGB

SI media IR < 50 Y Score NN RGB < 0.5 entonces FUSIÓN es igual a NN IR de lo contrario FUSIÓN es

igual a NN RGB

Tabla 6. Reglas de decisión para etapa de fusión media IR + Score NN RGB previo a aplicar el método LRP.

La arquitectura para esta etapa de fusión se ilustra en la Figura 29.

Figura 29.Esquema de la arquitectura de Fusión Media IR + Score NN RGB.

4.5 Conclusión del capítulo.

Las pruebas realizadas en este trabajo de tesis, fueron enfocadas

principalmente en probar diferentes arquitecturas de fusión, haciendo uso de

los mapas de calor que se obtienen al aplicar el método LRP. Se proponen

cuatro arquitecturas de fusión. Al incluir la media IR para la etapa de fusión

incrementa el porcentaje de exactitud en las etapas de fusión. Los resultados

de comparación se reportan en el capítulo 5.

Page 60: Identificación de peatones en imágenes aéreas con redes ...

60

Capítulo 5

Resultados y discusión

En este capítulo, se exponen los resultados obtenidos en el proceso del

entrenamiento de las redes neuronales, los porcentajes de exactitud y

precisión que se obtiene con ellas (RGB y LWIR), algunos ejemplos de las

máscaras creadas para realizar la fusión, así como los heatmaps que se

obtienen. Finalmente se presentan ejemplos de los diferentes casos que son

el aporte principal de este trabajo de tesis.

5.1 Resultados del entrenamiento de las Redes Neuronales.

El proceso de entrenamiento de la red neuronal para imágenes RGB y la red

neuronal para imágenes LWIR, se realiza con capturas obtenidas de la base

de datos KAIST, dicha base de datos cuenta con material en los intervalos

visible (RGB) e infrarrojo (LWIR) de la misma escena. Durante el proceso de

entrenamiento la red neuronal recorre todo el conjunto de datos de

entrenamiento, al finalizar cada recorrido se van ajustando los pesos de cada

capa y se inicia un nuevo recorrido, este proceso se realiza las veces

necesarias con el fin de mejorar el aprendizaje de la red neuronal y que esta

aprenda la mayor cantidad de características del objeto de interés. Después

de cada iteración, el entrenamiento arroja el porcentaje de exactitud que se

obtiene a través de este proceso. Al finalizar los entrenamientos (red para

RGB y red para LWIR) se alcanzan los siguientes resultados: 98.5% y

90.01% respectivamente, mismos que se muestran en Tabla 7

Page 61: Identificación de peatones en imágenes aéreas con redes ...

61

Red Neuronal Exactitud

Red Neuronal con imágenes

RGB 98.52%

Red Neuronal con imágenes

LWIR 90.01%

Tabla 7. Tabla de resultados de exactitud obtenidos en el proceso de entrenamiento en las redes

neuronales.

En el capítulo 4, se expone que los datasets de entrenamiento constan de un

total de 20,000 imágenes para cada una de las redes neuronales,

catalogadas el 50% de ellas como verdadero y el resto como falsos. En

comparación con otras redes como GoogleNet o AlexNet, mencionada en

[20], el número de imágenes, el tiempo empleado para el entrenamiento y el

poder computacional disponible para este trabajo parecen ser escasos. Sin

embargo, en esta investigación son significativas y suficientes, ya que los

resultados obtenidos permiten hacer una clasificación adecuada alcanzando

los objetivos de este trabajo.

5.2 Máscaras.

Dado que los pixeles que conforman cada imagen tienen diferentes

intensidades, se calcula un umbral mediante el método de Otsu [19]. Dicho

umbral, es usado para binarizar la imagen y de esta forma genera una

máscara que a su vez permite evaluar la cantidad de pixeles que se

posicionan dentro o fuera del área de interés, es decir, cuantos pixeles

importantes dados por el heatmap se ubican dentro de la región blanca de la

máscara; el uso principal de esta máscara es aplicada en la fusión. En la

Figura 30, se muestra un ejemplo de las máscaras obtenidas, la imagen b)

corresponde a una máscara para la imagen LWIR a su vez la imagen d) la

máscara para una imagen RGB. Los pixeles en blanco representan la parte

interna de la máscara y los píxeles en negro la parte externa de la misma.

Page 62: Identificación de peatones en imágenes aéreas con redes ...

62

Figura 30. Figura de máscaras creadas con el método Otsu. a) imagen original de la cámara LWIR, b)

máscara resultante al aplicar el método Otsu a la imagen LWIR, c) Imagen original en escala grises de

la cámara RGB, d) máscara resultante al aplicar el método Otsu a la imagen RGB.

5.3 Heatmaps.

Cada mapa de índices de relevancias obtenidos de la red neuronal es una

matriz formada por los valores normalizados entre 0 a 1. Los valores son

representados por una gama de colores que van desde el azul hasta el rojo,

pasando por matices como el amarillo y el naranja. Al analizar una imagen,

se le asigna uno de estos colores según su relevancia, como se muestra en

la Figura 31 (mapa de color ‘jet’), siendo de un color azul los píxeles menos

importantes y los más relevantes de un color rojo. De esta forma se puede

evidenciar el conjunto de datos más significativos para la red neuronal.

Figura 31. Mapa de colores JET.

Page 63: Identificación de peatones en imágenes aéreas con redes ...

63

En las figuras b) y d) de la Figura 32, se observan ejemplos de los heatmaps

para las imágenes LWIR y RGB respectivamente. Es importante notar que el

resultado presentado por el mapa de relevancias entregado para el caso de

las imágenes LWIR en la Figura 32, muestra una configuración de píxeles

diferente a la de RGB. En otras palabras, los píxeles importantes para la red

neuronal en las imágenes RGB se localizan en la región de píxeles que

describe a la persona, esto a la vista de un humano, mientras que en las

imágenes LWIR la relevancia se proyecta en el contorno del objeto de

interés, en este caso de las personas. Esto puede afectar la decisión si es o

no una persona en la etapa de fusión cuando se emplea la máscara ya que

se espera que los pixeles relevantes se posicionen de forma similar a las

RGB. Por ello que es importante destacar la revisión de dichos datos para

estudios posteriores.

En la literatura, no se han reportado trabajos que implementen el método

LRP a imágenes infrarrojas, y que a su vez aporte información para dar

explicación de este fenómeno que se presenta en dichas imágenes.

Page 64: Identificación de peatones en imágenes aéreas con redes ...

64

Figura 32. Figura de los mapas de calor (heatmaps) creadas con el método LRP. a) imagen original de

la cámara LWIR, b) heatmap resultante al aplicar el método LRP a la imagen LWIR, c) Imagen original

en escala grises de la cámara RGB, d) heatmap resultante al aplicar el método LRP a la imagen RGB

5.4 Resultados Finales

En éste trabajo, las clases a identificar indican la ausencia o presencia de

una persona en una imagen. En la Figura 33, se observa que para las

imágenes RGB los resultados de exactitud son mejores que para los demás

casos. Sin embargo, se propone complementar la información con las

imágenes IR debido a que las imágenes están sometidas a cambios

constantes de luminosidad. Cuando la imagen RGB es capturada en

condiciones de poca luz, se presentan dificultades para distinguir objetos.

Los resultados obtenidos aplicando la etapa de fusión se pueden mejorar. En

el siguiente capítulo se plantea como estos pueden ser mejorados en futuras

investigaciones.

Page 65: Identificación de peatones en imágenes aéreas con redes ...

65

Figura 33. Resultados comparativos de exactitud de las redes neuronales RGB, LWIR y los diferentes

casos al realizar la Fusión.

Se realizó un número de pruebas piloto, donde se emplearon un conjunto de

imágenes diferentes a las usadas en el proceso de entrenamiento. Éste

dataset compuesto por un total de 3,108 imágenes de las cuales el 50%, es

decir, 1554 son catalogadas como verdaderas, de estas 519 son imágenes

capturadas de noche, y el otro 50% del total de la imágenes de prueba se

catalogaron como falsos (imágenes creadas aleatoriamente de escenas

donde no se encuentran personas en capturas diurnas y nocturnas,

distribuidas de la misma manera que las verdaderas). Todas estas imágenes

pertenecen a la base de datos KAIST. Como se observa en la Figura 33, se

resuelve satisfactoriamente en la mayoría de los casos del dataset de

prueba.

Uno de los aportes de este trabajo de tesis es la etapa de la fusión; para los

casos donde ambas redes neuronales coinciden en su predicción, los

90.60 98.26 94.98 96.24 98.07 98.13

0102030405060708090

100

IR RGB Máscara 𝜇 LWIR 𝜇 LWIR / Máscara

𝜇 LWIR / ACCRGB

%

Exactitud

Page 66: Identificación de peatones en imágenes aéreas con redes ...

66

resultados de salida de la fusión se mantendrán. La fusión permitirá decidir a

qué red neuronal creerle cuando ambas respondan con diferente

reconocimiento. En estos casos, contamos con 4 métodos propuestos en los

cuales se obtienen 55.82%, 69.18%, 88.7% y 89.38% de una predicción

correcta, como se muestra en la Figura 34. La red neuronal para LWIR crea

falsos positivos, es decir, la red identifica la presencia de una persona

cuando en realidad no la hay.

Figura 34. Comparación de las predicciones realizadas en los casos en donde las redes neuronales

RGB y LWIR discrepan entre ellas.

Como trabajo a futuro, se propone entrenar con más ejemplos ambas redes

neuronales y mejorar el método de fusión, principalmente la asignación de

pesos en casos ambiguos, esto con el fin de mejorar la predicción en la

etapa de la fusión permitiendo que cada técnica aporte según sus

características.

A continuación, se exponen algunos casos que se presentaron en las

pruebas realizadas durante este trabajo. La Figura 35 y la Figura 36,

55.8269.18

88.7 89.38

0

10

20

30

40

50

60

70

80

90

100

Máscara 𝜇 LWIR 𝜇 LWIR / Máscara

𝜇 LWIR / ACCRGB

%

Predicción sólo fusión

Page 67: Identificación de peatones en imágenes aéreas con redes ...

67

pertenecen a los casos en los cuales ambas redes neuronales lograron hacer

correctamente la clasificación para eventos, en los que existe una persona

en la escena. Las imágenes d) y h) de dichas figuras, representan el traslape

de la imagen original con los píxeles relevantes del Heatmap. En estas

últimas representaciones se visualiza con mejor detalle las posiciones en las

que se localizan los píxeles con mayor relevancia sobre la imagen de entrada

(RGB o IR).

Figura 35. a) imagen original de la cámara LWIR, b) máscara resultante al aplicar el método Otsu a la

imagen LWIR, c) Heatmap resultante al aplicar el método LRP a la imagen LWIR, d) Traslape de la

imagen a) y c), e) Imagen original en escala grises de la cámara RGB, f) máscara resultante al aplicar

el método Otsu a la imagen RGB, g) Heatmap resultante al aplicar el método LRP a la imagen RGB, h)

Traslape de la imagen e) y g).

Page 68: Identificación de peatones en imágenes aéreas con redes ...

68

Figura 36. a) imagen original de la cámara LWIR, b) máscara resultante al aplicar el método Otsu a la

imagen LWIR, c) Heatmap resultante al aplicar el método LRP a la imagen LWIR, d) Traslape de la

imagen a) y c), e) Imagen original en escala grises de la cámara RGB, f) máscara resultante al aplicar

el método Otsu a la imagen RGB, g) Heatmap resultante al aplicar el método LRP a la imagen RGB, h)

Traslape de la imagen e) y g).

En la Figura 37, se expone una escena capturada de noche, misma en que el

vehículo con las cámaras montadas ilumina de forma parcial la escena. En

este evento ambas redes neuronales clasifican de forma correcta los datos

obtenidos por los sensores y se puede destacar que el resultado por el

método LRP proyectado en el mapa de calor para la imagen RGB denotan

mejor la forma de la persona, en comparación a la máscara.

Page 69: Identificación de peatones en imágenes aéreas con redes ...

69

Figura 37. a) imagen original de la cámara LWIR, b) máscara resultante al aplicar el método Otsu a la

imagen LWIR, c) Heatmap resultante al aplicar el método LRP a la imagen LWIR, d) Traslape de la

imagen a) y c), e) Imagen original en escala grises de la cámara RGB, f) máscara resultante al aplicar

el método Otsu a la imagen RGB, g) Heatmap resultante al aplicar el método LRP a la imagen RGB, h)

Traslape de la imagen e) y g).

Como se menciona al principio de esta Sección, una de las principales

razones por las cuales agregar la información que aporta una cámara térmica

(LWIR) se refleja en las escenas con poca luminosidad, por ejemplo,

capturas realizadas en la noche y no hay alguna fuente de luz que pueda

iluminar el escenario lo suficiente para distinguir claramente los objetos

existentes en ella. En la Figura 38, se muestran los resultados obtenidos en

la imagen RGB, donde no aporta suficiente información para identificar a la

persona, clasificando la imagen en la categoría de ausencia de persona. Por

otra parte, la imagen LWIR contiene información suficiente para identificar a

Page 70: Identificación de peatones en imágenes aéreas con redes ...

70

la persona. Logrando obtener como resultado de la fusión la identificación

correcta del objeto en cuestión.

Figura 38. a) imagen original de la cámara LWIR, b) máscara resultante al aplicar el método Otsu a la

imagen LWIR, c) Heatmap resultante al aplicar el método LRP a la imagen LWIR, d) Traslape de la

imagen a) y c), e) Imagen original en escala grises de la cámara RGB, f) máscara resultante al aplicar

el método Otsu a la imagen RGB, g) Heatmap resultante al aplicar el método LRP a la imagen RGB, h)

Traslape de la imagen e) y g).

La contraparte de lo expuesto en el párrafo anterior sucede cuando en la

imagen LWIR no se cuenta con la información adecuada para realizar una

exitosa identificación. En éste caso, el resultado de la red neuronal de RGB

se puede fusionar para complementar con la información captada por RGB.

Este suceso se expone en la Figura 39, observe que para el caso LWIR el

calor que emite la persona es similar a la emitida por un objeto en el fondo de

la imagen, haciendo que el objeto en cuestión se confunda con el fondo y la

red neuronal entrenada para estas imágenes no realiza una clasificación

Page 71: Identificación de peatones en imágenes aéreas con redes ...

71

correcta. Estos eventos son más frecuentes en capturas realizadas durante

el día en comparación a escenarios nocturnos.

Figura 39. a) imagen original de la cámara LWIR, b) máscara resultante al aplicar el método Otsu a la

imagen LWIR, c) Heatmap resultante al aplicar el método LRP a la imagen LWIR, d) Traslape de la

imagen a) y c), e) Imagen original en escala grises de la cámara RGB, f) máscara resultante al aplicar

el método Otsu a la imagen RGB, g) Heatmap resultante al aplicar el método LRP a la imagen RGB, h)

Traslape de la imagen e) y g).

Un caso similar se presenta cuando la red neuronal para LWIR considera los

píxeles como si se tratara de una persona, sin embargo, la otra red identifica

la ausencia de ésta con un mayor peso, logrando con ello que la fusión tenga

el resultado esperado, como se muestra en la Figura 40.

Page 72: Identificación de peatones en imágenes aéreas con redes ...

72

Figura 40. a) imagen original de la cámara LWIR, b) máscara resultante al aplicar el método Otsu a la

imagen LWIR, c) Heatmap resultante al aplicar el método LRP a la imagen LWIR, d) Traslape de la

imagen a) y c), e) Imagen original en escala grises de la cámara RGB, f) máscara resultante al aplicar

el método Otsu a la imagen RGB, g) Heatmap resultante al aplicar el método LRP a la imagen RGB, h)

Traslape de la imagen e) y g).

En algunos casos, las redes hacen una clasificación errónea. Por ejemplo, el

evento de la Figura 41 ocurre en una escena nocturna, la persona es

iluminada parcialmente y el efecto generado por la luz del vehículo causa

que la red neuronal de RGB no logre clasificar correctamente. Por otra parte,

la imagen LWIR no aporta suficiente información para identificar a la

persona.

En este segundo caso, en la Figura 42 la captura es realizada en condiciones

de luz de día, sin embargo, ambas redes neuronales confunden el objeto que

se observa en la escena con una persona, por la tanto la etapa de fusión

también resulta errónea.

Page 73: Identificación de peatones en imágenes aéreas con redes ...

73

Figura 41. a) imagen original de la cámara LWIR, b) máscara resultante al aplicar el método Otsu a la imagen LWIR,

c) Heatmap resultante al aplicar el método LRP a la imagen LWIR, d) Traslape de la imagen a) y c), e) Imagen

original en escala grises de la cámara RGB, f) máscara resultante al aplicar el método Otsu a la imagen RGB, g)

Heatmap resultante al aplicar el método LRP a la imagen RGB, h) Traslape de la imagen e) y g).

Figura 42. a) imagen original de la cámara LWIR, b) máscara resultante al aplicar el método Otsu a la imagen LWIR,

c) Heatmap resultante al aplicar el método LRP a la imagen LWIR, d) Traslape de la imagen a) y c), e) Imagen

original en escala grises de la cámara RGB, f) máscara resultante al aplicar el método Otsu a la imagen RGB, g)

Heatmap resultante al aplicar el método LRP a la imagen RGB, h) Traslape de la imagen e) y g).

Page 74: Identificación de peatones en imágenes aéreas con redes ...

74

Para el último caso, se quiere exponer una captura realizada en la noche, en

donde la red neuronal RGB confunde los píxeles de la imagen con una

persona, y por el peso obtenido al momento de comparar la máscara, los

valores son superiores a la otra red que realiza una clasificación correcta,

como se muestra en la Figura 43. Estos últimos eventos nos indican que se

pueden obtener resultados aún mejores a los presentados al inicio de este

capítulo.

Figura 43. a) imagen original de la cámara LWIR, b) máscara resultante al aplicar el método Otsu a la

imagen LWIR, c) heatmap resultante al aplicar el método LRP a la imagen LWIR, d) Traslape de la

imagen a) y c), e) Imagen original en escala grises de la cámara RGB, f) máscara resultante al aplicar

el método Otsu a la imagen RGB, g) heatmap resultante al aplicar el método LRP a la imagen RGB, h)

Traslape de la imagen e) y g).

5.5 Conclusión del capítulo.

Los resultados obtenidos en estos experimentos son satisfactorios: Las redes

neuronales logran identificar en la mayoría de los casos y de forma exitosa la

presencia de la persona, así mismo, la fusión implementada logra resolver en

Page 75: Identificación de peatones en imágenes aéreas con redes ...

75

la mayoría de los casos de forma adecuada. De los casos especiales

expuestos en la sección anterior, se identifica que es necesario reentrenar

las redes con un mayor número de muestras en distintos escenarios y

condiciones de luminosidad. La fusión se puede mejorar, se propone agregar

la información del histograma de las imágenes, para poder identificar si el

escenario es diurno o nocturno, esto con el fin de darle mayor peso a la

decisión que realice una u otra red, según sea el caso.

Capítulo 6

Conclusiones y trabajo futuro.

6.1 Conclusiones.

En los procesos de entrenamiento de las redes neuronales, se decide no

emplear estructuras de redes neuronales preentrenadas; esto con la finalidad

de generar los mapas de calor que permita visualizar el aprendizaje que cada

red neuronal realiza por sí misma. Como parte de este proceso, como se

muestra en el capítulo 4, los heatmaps que corresponden a cada etapa de

convolución, en donde se demuestra que, conforme se avanza en cada capa

de convolución, los pixeles más relevantes describen de mejor forma al

objeto identificado.

Este trabajo de tesis se centró en presentar métodos de fusión de imágenes

en el espectro visible y térmico, para ser aplicadas en redes neuronales. Se

aplicó un método explicativo de reciente publicación, llamado Layer-wise

Relevance Propagation, que se puede emplear en técnicas de aprendizaje

automático. Al aplicar este método se hicieron 3 experimentos con tres

Page 76: Identificación de peatones en imágenes aéreas con redes ...

76

ecuaciones distintas propuestas para este método. Como resultado de este

experimento se demostró que para esta aplicación la ecuación llamada

alpha-beta dio mejores resultados para generar los mapas de calor. Los

mapas de calor obtenidos en la red neuronal entrenada con imágenes

térmicas, son resultados visualizados por primera vez con un método

explicativo (aún no se tiene reporte de la aplicación de métodos explicativos

a redes neuronales entrenadas con imágenes térmicas).

De acuerdo a la literatura, al emplear dos redes neuronales paralelas para

analizar las imágenes visibles y térmicas por separado, se obtienen mejores

resultados, esto en comparación a realizar una fusión pixel a pixel previo a

ser ingresadas a las redes neuronales.

De los experimentos realizados con las cuatro arquitecturas propuestas en la

sección 4.4, se puede concluir que la integración de la media IR, arroja

mejores resultados que en comparación con las estructuras de fusión en

donde esta no es incluida. Por otro lado, la arquitectura Fusión Media IR +

Máscara RGB, no obtiene mejores resultados en comparación a la estructura

Fusión Media IR + Score RGB. De esto podemos concluir que, el emplear la

máscara y el heatmap, puede ser omitido de la etapa de fusión para obtener

una decisión. Sin embargo, se sigue aplicando el método LRP para que un

experto corrobore las decisiones que toman las redes neuronales, cómo se

explica en la justificación de esta investigación. El emplear estos mapas en el

proceso de fusión es una propuesta que surge durante el desarrollo de este

trabajo.

En general, los resultados obtenidos en este trabajo son bastante

prometedores de que se debe seguir desarrollando investigación en esta

misma línea.

Page 77: Identificación de peatones en imágenes aéreas con redes ...

77

6.2 Principales contribuciones.

Las principales contribuciones se enlistan a continuación:

Se obtiene una metodología de identificación de peatones empleando

redes neuronales y fusión de sensores, que permite por medio del

método LRP explicar las decisiones que toman las redes neuronales.

Por primera vez se visualiza con un método explicativo, el aprendizaje

de una red neuronal entrenado con imágenes térmicas. En los

heatmaps que se obtienen por esta red neuronal, los pixeles con

mayor relevancia se posicionan en el contorno de la persona de forma

distinta a la esperada. Se esperaría que se posicionaran de forma

similar a los resultados obtenidos con la red entrenada con imágenes

a color, en la que los pixeles relevantes se ubican sobre el objeto de

interés y no en su contorno exterior.

Los resultados obtenidos en esta tesis son publicables.

6.3 Trabajo Futuro.

Para trabajo futuro, se propone reentrenar las redes con un mayor número

de ejemplos de imágenes RGB e IR para mejorar sus resultados. Otra

propuesta, es emplear redes neuronales preentrenadas como por ejemplo

GoogleNet o AlexNet, incorporar los tres canales de las imágenes visibles y

corroborar si los heatmaps son similares a los obtenidos en este trabajo.

Aplicar otros métodos explicativos, por ejemplo, un método llamado Deep

Taylor Decomposition, y comparar los resultados principalmente en los casos

de las redes neuronales entrenadas con imágenes térmicas.

Respecto a la etapa de fusión se propone realizar dos experimentos.

Realizar pruebas con otros métodos de fusión propuestos por algunos

Page 78: Identificación de peatones en imágenes aéreas con redes ...

78

autores e incorporar a la metodología una tercera red neuronal como parte

de la fusión que permitan identificar si las imágenes de entrada pertenecen a

un escenario diurno o nocturno, con esto asignarle un mayor peso a la red

neuronal que aporte mayor información según sea el caso; por ejemplo, en

eventos nocturnos usualmente la red neuronal con imágenes térmicas aporta

más información en comparación con la red neuronal entrenada con

imágenes RGB.

Referencias

[1] B. A. M. G. K. F. M. K.-R. S. W. Bach S, «On Pixel-Wise Explanations for Non-Linear

Classifier Decisions by Layer-Wise Relevance Propagation,» PLoS ONE, nº 10(7):

e0130140, 2015.

[2] S. L. A. B. W. S. K.-R. M. G. Montavon, «Explaining nonlinear classification decisions with

deep Taylor decomposition,» sciencedirect, vol. 65, nº ISSN 0031-3203, pp. 211-222,

2017.

[3] The European Space Agency, «esa.int,» [En línea]. Available:

http://www.esa.int/SPECIALS/Eduspace_EN/SEM1NP3Z2OF_0.html. [Último acceso: 23

08 2018].

[4] J. A. &. Z.-T. P. &. S. L. &. F. E. J. Berni, «Thermal and Narrowband Multispectral Remote

Sensing for Vegetation Monitoring From an Unmanned Aerial Vehicle.,» Geoscience and

Remote Sensing, IEEE Transactions , nº 47, pp. 722 - 738, 2009.

[5] M. &. L. F. A. &. M. S. &. F. B. J. Erena, «The use of remote sensing and geographic

information systems for irrigation management in Southwest Europe.,» researchgate,

nº 67, 2012.

[6] H. K. Resnick, Física Vol. 2 5ta ed., México: Continental, S.A de C.V, 1999.

[7] A. E. O. E. R. D. H. y. L. R. A. A. P. Avila Guzmán, «tellar Spectra Classification with

Machine Learning Classifier Systems and Chebyshev Coefficients using the Tonantzintla

Schmidt Camera Plate Collection,» de Mexican International Conference on Artificial

Intelligence, Guadalajara, Jalisco, 2019, 2018.

Page 79: Identificación de peatones en imágenes aéreas con redes ...

79

[8] Visiononline, «Visiononline,» [En línea]. Available:

https://www.visiononline.es/productos/camaras/attachment/espectro-

electromagnetico-vision-artificial-visiononline/. [Último acceso: 15 06 2018].

[9] Matlab, «Machine Learning,» [En línea]. Available:

https://la.mathworks.com/discovery/machine-learning.html?s_tid=srchtitle. [Último

acceso: 20 Febrero 2018].

[10] Matlab, «SVM,» [En línea]. Available: https://la.mathworks.com/discovery/svm-

maquina-vectores-soporte.html. [Último acceso: Marzo 26 2018].

[11] Matlab, «K-NN,» [En línea]. Available:

https://la.mathworks.com/help/stats/classification-nearest-neighbors.html. [Último

acceso: 3 Abril 2018].

[12] J. J. &. A. Karpathy, « CS231n: Convolutional Neural Networks for Visual Recognition,»

Stanford, [En línea]. Available: http://cs231n.github.io/classification/. [Último acceso:

22 02 2018].

[13] J. L. C. Carrillo, «Módulo Clasificador de Imágenes Ópticas Multiespectrales Aplicado al

área de Geociencias.,» San Luis Potosí, 2016.

[14] D. S. R. T. &. M. T. Chengyang Li, «Illumination-aware faster R-CNN for robust

multispectral pedestrian detection,» ELSEVIER, vol. 85, nº

10.1016/j.patcog.2018.08.005, pp. 161-171, 2019.

[15] V. F. M. H. &. S. B. J. Wagner, «Multispectral Pedestrian Detection using Deep Fusion

Convolutional Neural Networks,» Researchgate, 2016.

[16] Y. S. X. H. Y. S. M. Q. &. H. C. Y. Hou, «Multispectral pedestrian detection based on deep

convolutional neural networks,» Elsevier, vol. 94, pp. 67-77, 2018.

[17] J. P. N. K. Y. C. I. S. K. S. Hwang, «Multispectral Pedestrian Detection: Benchmark

Dataset and Baselines,» de Proceedings of IEEE Conference on Computer Vision and

Pattern Recognition (CVPR), 2015.

[18] A. B. G. M. K.-R. M. W. S. S. Lapuschkin, «The LRP Toolbox for Artificial Neural

Networks,» Journal of Machine Learning Research, vol. 17, pp. 1-5, 2016.

[19] J. N. W. Gerhard X. Ritter, Handbook of computer vision algorithms in image algebra,

Florida, USA: CRC Press LLC, 2000.

[20] E. C. &. A. P. A. Canziani, «An Analysis of Deep Neural Network Models For Practical

Applications,» arXiv.org, nº arXiv:1605.07678v4, 2017.