Asesor: Sandra Patricia Cano Mazuera, PhD en Ciencias de...
Transcript of Asesor: Sandra Patricia Cano Mazuera, PhD en Ciencias de...
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
1
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO
TECNOLOGÍA BASADA EN PINART PARA PERSONAS CON DISCAPACIDAD VISUAL
José Luis Araujo Silva, [email protected]
Christian Andrés Cardona Escobar, [email protected]
Johan Sebastián Delgado Vargas, [email protected]
Proyecto de grado para optar al título de Ingeniero Multimedia
Asesor: Sandra Patricia Cano Mazuera, PhD en Ciencias de la Electrónica
Universidad de San Buenaventura Colombia
Facultad de Ingeniería
Ingeniería Multimedia
Santiago de Cali
2018
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
2
Citar/How to cite [1]
Referencia/Reference
Estilo/Style:
IEEE (2014)
[1] J. L. Araujo Silva, C. A. Cardona Escobar, y J. S. Delgado Vargas,
“Reconocimiento Facial para Representar Rostros en 2d Usando Tecnología
Basada en Pinart para Personas con Discapacidad Visual”, Proyecto de Grado,
Universidad de San Buenaventura Cali, Facultad de Ingeniería, 2018.
Bibliotecas Universidad de San Buenaventura
● Biblioteca Fray Alberto Montealegre OFM - Bogotá.
● Biblioteca Fray Arturo Calle Restrepo OFM - Medellín, Bello, Armenia, Ibagué.
● Departamento de Biblioteca - Cali.
● Biblioteca Central Fray Antonio de Marchena – Cartagena.
Universidad de San Buenaventura Colombia
Universidad de San Buenaventura Colombia - http://www.usb.edu.co/
Bogotá - http://www.usbbog.edu.co
Medellín - http://www.usbmed.edu.co
Cali - http://www.usbcali.edu.co
Cartagena - http://www.usbctg.edu.co
Editorial Bonaventuriana - http://www.editorialbonaventuriana.usb.edu.co/
Revistas - http://revistas.usb.edu.co/
Biblioteca Digital (Repositorio)
http://bibliotecadigital.usb.edu.co
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
3
Dedicatoria
Este proyecto de grado está dedicado a nuestros padres quienes no encontraron satisfacción solo
en darnos la vida, sino que también nos colmaron de valores y garantizaron nuestra educación
profesional. Su apoyo, consejos y confianza siempre estuvieron allí.
Agradecimientos
El presente trabajo de investigación fue desarrollado bajo la supervisión de la doctora Sandra
Patricia Cano Mazuera, a quien agradecemos su paciencia y dirección.
Al equipo humano de la sala Hellen Keller de la Biblioteca Departamental Jorge Garcés Borrero
de Santiago de Cali por abrirnos sus puertas y facilitar la interacción con el público objetivo.
A Ivone Erazo, Darling Montoya y Angie Vélez, mujeres increíbles en quienes encontramos
siempre la mejor de las disposiciones y la más sincera confianza en el equipo de investigación.
A John Jaime Chaparro, Efraín Solís y Osvaldo Pérez, por el entusiasmo mostrado y a quienes
debemos en gran parte el afecto desarrollado hacia este proyecto de investigación.
A Elizabeth Sánchez quien con su arte y amor por la madera nos brindó todo el apoyo necesario
para la construcción de los diferentes prototipos usados a lo largo de la investigación.
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
4
TABLA DE CONTENIDO
Contenido
RESUMEN ....................................................................................................................................... 9
I. INTRODUCCIÓN ...................................................................................................................... 10
II. PLANTEAMIENTO DEL PROBLEMA .................................................................................. 11
Antecedentes .............................................................................................................................. 13
inFORM, Ken Nakagaki, Luke Vink*, Jared Counts, Daniel Windham, Daniel Leithinger,
Sean Follmer, Hiroshi Ishi . .................................................................................................... 13
Brainport-V100, Dr. Bach-y-Rita’s ........................................................................................ 14
Blitab Braille Thecnology, Krisina Tsuvetanova, Slavi slaveu, Stanislav Slaveu, Daniel Ng,
smart Eze ................................................................................................................................. 15
MegaFaces, A. Khan, Iart ....................................................................................................... 16
3D Shape Scanning with a Time-of-Flight Camera, Y. Cui, S. Schuon, D. Chan, S. Thrun, C.
Theobalt .................................................................................................................................. 18
Design of Web-Based Tools to Study Blind People’s Touch-Based Interaction with
Smartphones, M. C. Buzzi, M. Buzzi, B. Leporini y A. Trujillo ............................................ 19
Basic Human Computer Interface for the Blind, R. Borges y A. Alvear ............................... 19
S K. Kane, O. Wobbrock y R. Lander. Usable Gestures for Blind People: Understending
Preference and Performance ................................................................................................... 20
III. JUSTIFICACIÓN ..................................................................................................................... 21
IV. OBJETIVOS ............................................................................................................................ 23
Objetivo General: ....................................................................................................................... 23
Objetivos Específicos: ................................................................................................................ 23
V. PROBLEMA DE INVESTIGACIÓN ....................................................................................... 24
VII. PLANEACIÓN DEL PROYECTO ........................................................................................ 27
Matriz de marco lógico .............................................................................................................. 27
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
5
Definición de actividades ........................................................................................................... 28
Costeo de actividades ................................................................................................................. 32
VIII. METODOLOGÍA ................................................................................................................. 33
Empatizar ................................................................................................................................... 34
Definir ........................................................................................................................................ 34
Idear ............................................................................................................................................ 34
Prototipado ................................................................................................................................. 34
Testeo ......................................................................................................................................... 35
Desarrollo de las etapas del Diseño del pensamiento: ............................................................... 35
Empatizar ................................................................................................................................ 35
X. DISCUSIÓN .............................................................................................................................. 35
Empatizar ................................................................................................................................... 36
Definir ........................................................................................................................................ 38
Idear ............................................................................................................................................ 46
Prototipado ................................................................................................................................. 50
Propuesta de la aplicación de escritorio .................................................................................. 50
Aplicación móvil ..................................................................................................................... 52
PinArt Análogo ....................................................................................................................... 56
Arreglo de leds ........................................................................................................................ 57
XI. DESARROLLO E IMPLEMENTACIÓN ............................................................................... 59
Alcances ..................................................................................................................................... 59
Aplicación de escritorio ............................................................................................................. 60
Transformación de los puntos a mapa de profundidad ........................................................... 61
Servidor ................................................................................................................................... 65
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
6
Aplicación móvil ..................................................................................................................... 66
XII. VALIDACIÓN DE PROTOTIPOS ........................................................................................ 69
Pruebas de usuario aplicación de escritorio y Kinect ................................................................. 69
Prueba de extracción de rostro ................................................................................................ 69
Prueba de gestos ...................................................................................................................... 69
Pruebas de iluminación ........................................................................................................... 69
Pruebas de velocidad ............................................................................................................... 70
Pruebas de distancia ................................................................................................................ 70
Pruebas de interfaz en aplicación de escritorio (persona 3) .................................................... 71
Pruebas de usuario de la aplicación móvil (persona 1 y 2) ..................................................... 73
Resultados prueba de usuario aplicación móvil ...................................................................... 75
Pruebas de Hardware .............................................................................................................. 75
XIII. CONCLUSIONES ................................................................................................................. 77
REFERENCIAS ............................................................................................................................. 80
ANEXOS ........................................................................................................................................ 86
Matriz de marco lógico .............................................................................................................. 86
Actividades ................................................................................................................................. 89
Ruta Crítica ................................................................................................................................ 90
Costeo y actividades ................................................................................................................... 91
Reporte primer encuentro con grupo objetivo ............................................................................ 93
Pruebas de usuario PinArt análogo .......................................................................................... 108
Prueba Kinect misma expresión ............................................................................................... 113
Prueba de extracción expresiones faciales ............................................................................... 118
Prueba aplicación móvil ........................................................................................................... 123
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
7
LISTA DE ILUSTRACIONES
Ilustración 1 Fotografía Inform. tomada de [11] ............................................................................. 14
Ilustración 2 Brainport V-100. Tomada de [12] .............................................................................. 15
Ilustración 3 Fotografía Blitab. Extraída de [13] ............................................................................. 16
Ilustración 4 Representación de selfie. Tomada de [14] ................................................................. 17
Ilustración 5 Disposición de cámaras para capturar mapa de profundidad. Tomada de [15] .......... 18
Ilustración 6 Reconstrucción de imagen en 3D. Tomada de [16] .................................................. 18
Ilustración 7 Desglose de actividades ............................................................................................ 31
Ilustración 8 Ruta crítica ................................................................................................................ 31
Ilustración 9 Metodología Design thinking. Tomada de [32] ......................................................... 33
Ilustración 10 Uso de tecnología de las personas con discapacidad visual .................................... 36
Ilustración 11 Interacción con personas desconocidas ................................................................... 37
Ilustración 12 Deseo de tocar rostro de otra persona ..................................................................... 37
Ilustración 13 Dispositivo Kinect. Tomada de [35] ........................................................................ 39
Ilustración 14 Concepto de PinArt propuesto por Ward fleming. Tomado de [37] ........................ 40
Ilustración 15 Rostro en yeso ......................................................................................................... 41
Ilustración 16 Rostro representado en PinArt ................................................................................ 41
Ilustración 17 Mano representada en PinArt .................................................................................. 42
Ilustración 18 Perfil 1 del Usuario con Discapacidad Visual de la Sala Hellen Keller, Cali -
Colombia. ....................................................................................................................................... 44
Ilustración 19 Perfil 2 del Usuario con Discapacidad Visual de la Sala Hellen Keller, Cali -
Colombia. ....................................................................................................................................... 45
Ilustración 20 Perfil 3 del Usuario relacionado al que tiene Discapacidad Visual de la Sala Hellen
Keller, Cali - Colombia. ................................................................................................................. 46
Ilustración 21 Esquema inicial del sistema .................................................................................... 47
Ilustración 22 Esquema final del sistema ....................................................................................... 49
Ilustración 23 Componentes del sistema ........................................................................................ 49
Ilustración 24 Interfaz gráfica Skype: Llamada. Extraída de [40] .................................................. 50
Ilustración 25 Mapa de interactividad aplicación de escritorio ...................................................... 51
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
8
Ilustración 26 Grabar audio en aplicación de escritorio ................................................................. 51
Ilustración 27 Enviar imagen desde la aplicación de escritorio ..................................................... 52
Ilustración 28 Mapa de interacción de la aplicación móvil ............................................................ 53
Ilustración 29 Diseño de la aplicación Móvil, interfaz de inicio ................................................... 53
Ilustración 30 Bandeja de entrada aplicación móvil ...................................................................... 54
Ilustración 31 Sección imagen de la aplicación móvil ................................................................... 55
Ilustración 32 Sección “Estado" de la aplicación móvil ................................................................ 55
Ilustración 33 Proceso de elaboración PinArt análogo .................................................................. 56
Ilustración 34 Cilindros delgados del PinArt análogo ................................................................... 57
Ilustración 35 Prototipo arreglo de leds ......................................................................................... 57
Ilustración 36 Esquema electrónico arreglo de leds, arduino, módulo Bluethooth y fuente.......... 58
Ilustración 37 Alcances del proyecto ............................................................................................. 59
Ilustración 38 Puntos extraídos con librería HD FACE ................................................................. 61
Ilustración 39 Conversión de binario a decimal para envío al hardware ....................................... 68
Ilustración 40 Representación de rostro en arreglo de leds ............................................................ 76
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
9
RESUMEN
El humano usa la vista de forma tácita en su día a día, desde que elige qué bus abordar hasta la
forma en cómo interactúa y genera contenido en sus redes sociales. La mayoría de las interacciones
sociales giran alrededor de este sentido, por lo que en la cotidianidad se da por hecho su uso, pero
¿qué sucede con las personas que carecen de éste? Este proyecto pretende desarrollar un sistema
que permita mostrar rostros a partir de imágenes capturadas desde el dispositivo Kinect para ser
representadas por medio del concepto de PinArt. Lo que podría significar una contribución en el
campo de las tecnologías creadas y que puedan favorecer a las personas con discapacidad visual.
Palabras clave: Discapacidad visual, reconocimiento facial, PinArt, Arduino, Kinect.
ABSTRACT
The human being uses the sense of sight in a tacit way. Since the transportation method they pick,
until the way they interact and generate content for social networks. Most social interactions are
built around this sense, so day by day they take its use for granted. But what about people who lack
this sense? This project aims to develop a system that generate a PinArt based representation of the
face from an image taken from a Kinect device. This could mean a contribution to the current
technologies that improve the life of people with visual disability.
Keywords: Visual impairment, facial recognition, PinArt, Arduino, Kinect.
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
10
I. INTRODUCCIÓN
Actualmente se están desarrollando diferentes proyectos en el campo de tecnologías para mejorar
la calidad de vida de personas con discapacidad visual, entre estos cabe destacar aquellos que
buscan maneras innovadoras para que estas personas puedan ver a través de sus otros sentidos.1
El presente trabajo de grado tiene como objetivo desarrollar un sistema de reconocimiento facial
para representar rostros en 2D en una matriz de leds que pueda ser escalada a un sistema utilizando
tecnología basada en PinArt accesible por personas con discapacidad visual. Esto con el fin de
mejorar la calidad de vida de estas y abrir nuevas líneas de investigación que profundicen en los
temas aquí expuestos.
La metodología de diseño del pensamiento (Design Thinking en inglés) promueve un acercamiento
y una interacción constante con el usuario por lo cual fue la seleccionada para desarrollar el
proyecto. Esta metodología se desarrolla a través de cinco etapas iterativas: empatizar, definir,
idear, prototipar y probar. Estas se pueden evidenciar en cada una de las fases de desarrollo del
proyecto y, debido a su naturaleza no lineal, fue posible desarrollar el sistema en conjunción con
el grupo de usuarios.
El grupo objetivo está compuesto por seis personas entre los 18 y 35 años de edad asistentes a la
sala Hellen Keller de la Biblioteca Departamental Jorge Garcés Borrero de Santiago de Cali. Su
discapacidad visual fue producto de diversas razones, algunos nacieron ciegos y otros sufrieron
algún tipo de accidente o enfermedad que los privó de este sentido.
Para lograr el objetivo, se desarrolla un sistema compuesto por tres estaciones que permiten la
extracción de un rostro a través de un Kinect y su representación física en un arreglo de leds gracias
a través de un servidor web. Lo anterior sustentado en la tecnología de mayor uso por los usuarios.
1 D. P. Bach-y-Rita, «Brainport Technologies,» History, 2017. [En línea]. Available: https://www.wicab.com/history.
[Último acceso: 28 04 2017].
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
11
II. PLANTEAMIENTO DEL PROBLEMA
El mundo está representado por diferentes objetos físicos, la mayoría de estos, diseñados para ser
usados por personas que pueden ver. El humano usa la vista de forma tácita en su día a día, desde
que elige qué bus abordar hasta la forma en cómo interactúa y genera contenido en sus redes
sociales. La realidad está permeada por el uso de este sentido, pero ¿qué sucede con las personas
que carecen de éste? La OMS ha publicado un informe en el que indica que 285 millones de
personas en el mundo tienen discapacidad visual y entre 40 y 45 millones tienen ceguera total, cifra
que va en aumento.2
La carencia de visión priva a las personas de usar el desarrollo tecnológico como es debido, un
trabajo realizado por el Lic Koon y la Lic De la Vega.3, expone una investigación llamada “El
impacto tecnológico en las personas con discapacidad”, donde hacen referencia a las condiciones
mínimas que una persona ciega debe tener para acceder a internet, y de cómo en muchos casos
éstas no se cumplen y aunque la tecnología y la globalización han reducido las distancias en el
mundo, todavía falta un camino largo por recorrer para que las tecnologías puedan ser accesibles
para personas que carecen alguna discapacidad, como la visual.
En la AppStore hay 2.200.000.4 de aplicaciones y en la PlayStore 3.000.000.5, la mayoría
diseñadas para personas sin discapacidad visual. Empresas como Apple y Google han hecho
grandes esfuerzos por desarrollar software inclusivo que permita a las personas con esta
discapacidad afrontar las diferentes interacciones con su teléfono móvil6. Android Talkback y
2 World Health Organization, «Media Centre,» Vision impairment and blindness, 10 2017. [En línea]. Available:
http://www.who.int/mediacentre/factsheets/fs282/en/. [Último acceso: 25 09 2017]. 3 R. K. y. M. D. l. Vega, «El impacto tecnológico en las personas con discapacidad,» de II Congreso Iberoamericano
de Informática Educativa Especial, 2017. 4 Statista, Number of apps available in leading app stores as of March 2017, 03 2017. [En línea]. Available:
https://www.statista.com/statistics/276623/number-of-apps-available-in-leading-app-stores/. [Último acceso: 15 07
2017]. 5 Statista, «Google Play: number of available apps 2009-2017,» Number of available applications in the Google Play
Store from December 2009 to September 2017, 09 2017. [En línea]. Available:
https://www.statista.com/statistics/266210/number-of-available-applications-in-the-google-play-store/. [Último
acceso: 15 09 2017]. 6 J. S. y. J. Selva, «Designing Mobile Apps for Visually Impaired and Blind Users,» de The Fifth International
Conference on Advances in Computer-Human Interactions, 2012.
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
12
Apple VoiceOver son herramientas que describen a la persona, por medio del sonido, la pantalla
del móvil, aunque estos programas resuelven en gran medida los problemas básicos de interacción,
no presentan soluciones a problemas de mayor complejidad. Un trabajo propuesto por Leopirini y
Buzzi7, titulado Interacting with Mobile Devices via VoiceOver: Usability and Accessibility Issues,
plantean una serie de inconvenientes que presentan los usuarios al intentar hacer actividades más
complejas dentro de su móvil cómo navegar entre tablas o escuchar los mensajes cuando están en
ambientes con ruido en el fondo. Al final del día, estas herramientas siguen siendo tecnologías
pensadas para personas sin discapacidad, pero con una adaptación que resuelve parcialmente la
usabilidad para persona sin visión8.
En tareas complejas en el móvil y en general la tecnología que poco toma en cuenta el diseño de
aplicaciones orientado a este tipo de población, es donde radica el principal problema. Mientras
que, para un usuario sin discapacidad visual, reconocer a las personas resulta sencillo, para una
persona con discapacidad visual no lo es. Es por esto que dichos usuarios deben valerse de otros
sentidos como el tacto o la audición para generar un concepto o descripción acerca de la persona
que, estando físicamente alejados, no pueden lograr.
Las personas utilizan el sentido del tacto para reconocer su entorno, así como también reconocer
los objetos con los que interactúan. Un estudio realizado por la universidad de McMaster de Canadá
demuestra la capacidad superior que tienen las personas ciegas versus personas sin problemas de
visión para reconocer objetos9. El estudio evaluó a 21 personas con diferentes niveles de ceguera
y 55 adultos con condiciones de vista normal. La prueba consistió en hacer palpar a los usuarios
una serie de patrones en relieve mientras una máquina sostenía de manera fija los dedos. Los
resultados de la prueba fueron contundentes: los usuarios ciegos, que en este caso eran lectores de
7 M. C. B. y. M. B. B. Leporini, «Interacting with mobile devices via VoiceOver: usability and accessibility issues,»
de 2 Proceedings of the 24th Australian Computer-Human Interaction Conference, 2012. 8 R. B. y. A. Alvear, «Basic Human Computer Interface for the Blind,» de English LACCEI Latin American and
Caribbean Conference for Engineering and Technology (LACCEI' 2010) Innovation and Development for the
Americas, 2010. 9 V. G. a. D. G. Michael Wong, «Tactile Spatial Acuity Enhancement in Blindness: Evidence for Experience-
Dependent Mechanisms. The Journal of Neuroscience,» 11 May 2011.
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
13
braille experimentados, fueron capaces de identificar los patrones de forma inmediata, mientras
que las personas en condiciones de vista normal no pudieron hacerlo con la misma eficiencia.
Finalmente, el estudio concluyó que estos resultados podrían ayudarnos a diseñar pruebas que
permitan el mejoramiento del sentido del tacto. Sin embargo, también responde o al menos da
indicios de responder, a la pregunta de si las personas ciegas tienen el sentido del tacto más
desarrollado que una persona sin este impedimento.
Ya que el sentido del tacto juega un papel importante en la interpretación del espacio de una
persona, tal como lo describe, Ochaita. E, en su trabajo investigativo Conocimiento del espacio,
representación y movilidad en las personas ciegas10 encontramos el problema que busca mejorar
este proyecto en la falta de tecnologías desarrolladas para ampliar el mundo a las personas que no
cuentan con el sentido de la vista.
Antecedentes
Los trabajos expuestos en esta sección se dividen en tres grupos: trabajos realizados para personas
invidentes, tecnologías parecidas al PinArt y sistemas de extracción de rostros.
inFORM, Ken Nakagaki, Luke Vink*, Jared Counts, Daniel Windham, Daniel Leithinger, Sean
Follmer, Hiroshi Ishi 11. Consiste en una matriz de 900 pines diseñada como una interfaz de
usuario física. El objetivo principal del proyecto se basa en la posibilidad de generar una interfaz
de usuario cambiante, es decir, un entorno físico que se adapte a diferentes tipos de interactividad.
Cada pin está conectado a un eslabón que es movido por un motor con un microprocesador.
10 J. A. H. ESPERANZA OCHAITA, "Conocimiento del espacio, representación". 11 D. L. A. O. A. H. y. H. I. S. Follmer, «inFORM: Dynamic Physical Affordances and Constraints through Shape and
Object Actuation,» Cambridge, 2013.
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
14
Ilustración 1 Fotografía Inform. tomada de [11]
Esta tecnología abrió la puerta a un nuevo espectro investigativo en el ámbito de las interfaces de
usuario tangibles, los proyectos derivados van desde la creación de interfaces gráficas interactivas
hasta la reconstrucción de rostros humanos. Este proyecto fue uno de los principales referentes en
la investigación, pues sus aplicaciones van desde la creación de simples formas hasta la de
interfaces tangibles para personas ciegas. También, podría ser un indicio de cómo construir el
PinArt mecánico.
Brainport-V100, Dr. Bach-y-Rita’s 12 Es un sustituto para el sentido de la vista, le da al usuario la
percepción de profundidad y forma a través de estimulaciones eléctricas en la lengua. El objetivo
del producto está basado en la premisa de que el ser humano no ve a través de sus ojos, lo hace a
través de sus sentidos. El sistema captura las imágenes y las traduce en un arreglo de pulsos
electrónicos que le permiten a la persona interpretar la forma que la cámara está capturando.
12 B. Technologies, "History," [Online]. Available: https://www.wicab.com/brainport-v100. [Accessed 10 04 2017].
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
15
Ilustración 2 Brainport V-100. Tomada de [12]
Este proyecto dio a entender al grupo investigativo que existe la tecnología para que una persona
que carezca de un sentido, en este caso la vista, pueda ser remplazado por otro, el del gusto y
reinterpretar toda su realidad.
Blitab Braille Thecnology, Krisina Tsuvetanova, Slavi slaveu, Stanislav Slaveu, Daniel Ng,
smart Eze 13. El proyecto centra todos sus esfuerzos en crear una interfaz de usuario con la
capacidad de traducir cualquier línea de texto digital a braille en tiempo real que reemplaza la
pantalla táctil convencional incorporando una tableta digital y otra en braille, esta última, con
tecnología touch, permitiéndole al usuario navegar y hacer uso de todas las funciones interactivas
de la tableta.
13 A. S. y. M. K. O. Krutikova, «Creation of a Depth Map from Stereo Images of Faces for 3D Model Reconstruction,»
Procedia Computer Science, vol. 104, pp. 452-459, 2017.
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
16
Ilustración 3 Fotografía Blitab. Extraída de [13]
Producto pensado para persona con discapacidad visual. Representó un ejemplo claro de
tecnologías inclusivas desarrolladas exclusivamente para personas con cierta condición física.
MegaFaces, A. Khan, Iart 14. Proyecto creado para los Olímpicos de invierno del 2014 en Sochi.
El proyecto recreaba las selfies tomadas por los espectadores en una instalación de 11.000 pines
con 8 metros de alto cada uno en un marco de 18 x 8 metros. El concepto general de la campaña
era que cualquier persona podía ser la “cara de los olímpicos” es por esto que el equipo de Lart
instaló cabinas donde las personas podían tomarse la foto especialmente diseñadas para generar
una imagen en 3D.
14 A. K. Iart, "The Kinetic Facade of the MegaFaces Pavilion," 07 02 2017. [Online]. Available: https://iart.ch/en/-/die-
kinetische-fassade-des-megafaces-pavillons-olympische-winterspiele-2014-in-sotschi. [Accessed 05 04 2017].
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
17
Ilustración 4 Representación de selfie. Tomada de [14]
Esta estructura permitió visualizar otra posible solución a la creación del Pinart mecánico en futuras
líneas de investigación, también, ayudó a concluir la necesidad de al menos dos cámaras en la
extracción del mapa de profundidad del rostro.
Creation of a Depth Map from Stereo Images of Faces for 3D Model, O.Krutikovaa, A.
Sisojevsa, M. Kovalovsa 13. En este estudio se propuso un método que pretendía determinar un
mapa de profundidad con el fin de ser utilizado en la reconstrucción de un modelo en 3D de rostros.
Este método fue probado en un ambiente virtual utilizando el "Autodesk 3Ds Max" en donde se
creó una escena virtual que contenía una cámara estéreo y una cabeza humana. También se probó
en un ambiente real, utilizando dos cámaras que fueron calibradas y usadas para reconstruir un
modelo 3D de un objeto real. Los autores concluyeron que no fue posible reconstruir un modelo
3D de las imágenes que fueron tomadas por la cámara real. Determinan que lo anterior demuestra
la necesidad de utilizar cámaras de alta resolución en tareas de reconocimiento facial (ver figura
5).
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
18
Ilustración 5 Disposición de cámaras para capturar mapa de profundidad. Tomada de [15]
3D Shape Scanning with a Time-of-Flight Camera, Y. Cui, S. Schuon, D. Chan, S. Thrun, C.
Theobalt 15. Iniciaron por coleccionar una serie de imágenes monoculares de ambientes sin
estructura que incluyen bosques, aceras, arboles, edificios, etc. y sus verdaderos campos de
profundidad. Luego aplicaron aprendizaje supervisado para predecir el valor de la profundidad
como función de la imagen. Su modelo usa la multiescala jerarca Markov Random Field (MRF)
que incorpora "características de imagen global y local multiescala" y modela la profundidad de
diferentes puntos en la imagen. Demostraron que aun en escenas no estructuradas, el algoritmo
utilizado es frecuentemente capaz de recuperar mapas precisos [16] (ver figura 6).
Ilustración 6 Reconstrucción de imagen en 3D. Tomada de [16]
15 S. S. D. C. S. T. y. C. T. Y. Cui, "3D Shape Scanning with a Time-of-Flight Camera".
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
19
Design of Web-Based Tools to Study Blind People’s Touch-Based Interaction with
Smartphones, M. C. Buzzi, M. Buzzi, B. Leporini y A. Trujillo 16. El objetivo de la investigación
corresponde a determinar que los gestos permitidos en los dispositivos móviles podrían enriquecer
de manera sustancial la experiencia de usuario de personas con discapacidad visual teniendo en
cuenta la precisión del usuario con discapacidad visual. Para lograrlo, se utilizó un sistema
inalámbrico basado en servicios web que facilitó la captura de los datos del grupo objetivo
compuesto por 36 sujetos (14 mujeres y 22 hombres). Como resultado obtuvieron una percepción
de baja dificultad en la mayoría de los gestos evaluados. Sin embargo, fue en los gestos de “de un
lado a otro birlado (to and fro swiped en inglés)” y “rotor” dónde los usuarios manifestaron mayor
dificultad.
Este trabajo mostró al grupo investigativo la realidad a la que se enfrentan las personas con
discapacidad visual al interactuar con aplicaciones móviles y sus gestos y aunque en la mayoría de
los casos los usuarios no tuvieron mayor inconveniente al realizar las tareas que se les propuso,
con ciertos gestos como “de un lado a otro” y “rotor” tuvieron especial problema, representando
para este grupo un impedimento a la hora de tener una experiencia de usuario optima en
aplicaciones que usaran estos gestos
Basic Human Computer Interface for the Blind, R. Borges y A. Alvear 17. El objetivo de la
investigación consiste en desarrollar una interfaz gráfica, basada en los comportamientos y
características únicas de las personas con discapacidad visual 18. La metodología empleada para
lograrlo fue la del diseño centrado en el usuario, dentro de la cual se destaca la importancia de la
retroalimentación constante por parte del usuario. Ya que el proyecto se encuentra en etapa de
desarrollo, no ha sido posible confirmar su efectividad, sin embargo, una de las metas principales
del proyecto es la de superar el 75% en el nivel de satisfacción de los usuarios.
16 M. B. B. L. y. a. M.C. Buzzi, "Design of Web-Based tool to study Blind People´s touch Based Interaction with
Smartphones". 17 R. B. y. A. Alvear, «Basic Human Computer Interface for the Blind,» de English LACCEI Latin American and
Caribbean Conference for Engineering and Technology (LACCEI' 2010) Innovation and Development for the
Americas, 2010. 18 M. Avancini, «Using Kinect to emulate an Interactive,» 2012.
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
20
S K. Kane, O. Wobbrock y R. Lander. Usable Gestures for Blind People: Understending
Preference and Performance 19. En esta investigación se realizaron dos estudios de usuario que
pretendía comparar los gestos realizados por personas ciegas y no ciegas en pantallas táctiles,
solicitando inicialmente a ambos grupos inventar gestos para desempeñar las mismas tareas de
cómputo en una tablet PC. Encontraron que las personas ciegas tenían diferentes preferencias en
cuanto a gestos en comparación con el grupo de personas no ciegas, incluidas las preferencias de
gestos basadas en la edad y gestos que involucran escribir en el teclado del móvil. Posteriormente
realizaron un estudio de desempeño en el cual los participantes debían realizar una serie de gestos
determinados. Encontraron diferencias significativas en la velocidad, tamaño y forma de los gestos
desempeñados por las personas ciegas en comparación con las no ciegas.
19 O. W. y. R. L. S K . Kane, «Usable Gestures for Blind People: Understending Preference and Performance,» de
Conference: Proceedings of the International Conference on Human Factors in Computing Systems.
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
21
III. JUSTIFICACIÓN
La mayoría de las aplicaciones móviles están diseñadas para personas sin discapacidad visual, lo
que permite que se desarrollen estudios como el que se presenta en este documento, abogando al
mejoramiento de la calidad de vida de personas con discapacidad visual. Entendiéndose esto como
un concepto que engloba la ceguera y baja visión [20].
Tecnologías actuales como el BrainPort V-100 [21], muestran que el sentido de la vista puede ser
sustituido por otro funcional mediante la representación de pulsos electromagnéticos proyectados
en la lengua. La persona captura las imágenes a través de una cámara dispuesta en unos lentes que
transforman la información en pequeños pulsos transmitidos a una plaqueta con un arreglo de
sensores dispuesta en la lengua.
BliTab [22] es otra tecnología especialmente diseñada para las personas con discapacidad visual,
consiste en una tableta digital que reemplaza la pantalla táctil convencional, por una página
completa de texto braille, funciona como un E-book que permite una navegación más natural en
las diferentes aplicaciones.
Con la realización de este trabajo se pretende mejorar la calidad de vida de las personas con
discapacidad visual, específicamente aquellas que debido a la distancia y por la discapacidad
misma, carecen de los medios necesarios para reconocer el rostro de sus familiares o amigos en la
distancia.
20 Gobierno de Chile: Ministerio de Educación, «Ministerio de eduación: Educación especial,» 12 2007. [En línea].
Available: http://especial.mineduc.cl/wp-content/uploads/sites/31/2016/08/GuiaVisual.pdf. [Último acceso: 30 09
2017]. 21 D. P. Bach-y-Rita, «Brainport Technologies,» History, 2017. [En línea]. Available: https://www.wicab.com/history.
[Último acceso: 28 04 2017]. 22 Blitlab: Feeling get visible, «About Blitlab,» The "IPAD" for the blind, 2017. [En línea]. Available:
https://blitab.com. [Último acceso: 15 05 2017].
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
22
Para lograr este objetivo, se propone desarrollar un sistema que extrae los rostros por medio de la
Kinect y los representa en un arreglo de leds construido con base en la tecnología PinArt. Está
constituido por tres estaciones principales, captura, servidor y representación. El primero permitirá
al usuario capturar el rostro de él por medio de la Kinect, el cual se hace un reconocimiento facial
para representar una imagen binaria para luego poder representarse con el concepto de PinArt,
formando en 2D el contorno del rostro.
La metodología elegida para el diseño y desarrollo del sistema es la del diseño del pensamiento (en
inglés, Design Thinking), usada principalmente para encontrar soluciones centradas en el usuario.
Esta metodología permite extraer y construir, a partir de constantes interacciones con el grupo
objetivo, los diferentes requerimientos. Entender el comportamiento del usuario en su día a día,
sus pensamientos, opiniones y necesidades son fundamentales para la construcción de las interfaces
de usuario.
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
23
IV. OBJETIVOS
Objetivo General:
Desarrollar un sistema de reconocimiento facial por medio del dispositivo Kinect que permita
simular la representación de rostros 3D en un arreglo de leds que pueda ser escalado a tecnología
basada en PinArt para personas con discapacidad visual.
Objetivos Específicos:
1. Definir los parámetros del sistema a nivel de experiencia de usuario usando la metodología
de pensamiento de diseño (en inglés Design thinking).
2. Identificar los métodos y tecnologías a usar en cada uno de los procesos involucrados en el
proyecto.
3. Implementar la plataforma siguiendo las directivas del diseño orientadas a personas con
discapacidad visual.
4. Evaluar el prototipo del sistema de reconocimiento facial con un grupo de personas con
discapacidad visual del Valle del Cauca.
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
24
V. PROBLEMA DE INVESTIGACIÓN
El mundo está representado por diferentes objetos físicos, la mayoría de estos, diseñados para ser
usados por personas que pueden ver. El humano usa la vista de forma tácita en su día a día, desde
que elige qué bus abordar hasta la forma en cómo interactúa y genera contenido en sus redes
sociales. La realidad está permeada por el uso de este sentido, pero ¿qué sucede con las personas
que carecen de éste? La OMS ha publicado un informe en el que indica que 285 millones de
personas en el mundo tienen discapacidad visual y entre 40 y 45 millones tienen ceguera total, cifra
que va en aumento [23].
La carencia de visión priva a las personas de usar el desarrollo tecnológico como es debido, un
trabajo realizado por el Lic Koon y la Lic De la Vega [24], expone una investigación llamada “El
impacto tecnológico en las personas con discapacidad”, donde hacen referencia a las condiciones
mínimas que una persona ciega debe tener para acceder a internet, y de cómo en muchos casos
éstas no se cumplen y aunque la tecnología y la globalización han reducido las distancias en el
mundo, todavía falta un camino largo por recorrer para que las tecnologías puedan ser accesibles
para personas que carecen alguna discapacidad, como la visual.
En la AppStore hay 2.200.000 [25] de aplicaciones y en la PlayStore 3.000.000 [26], la mayoría
diseñadas para personas sin discapacidad visual. Empresas como Apple y Google han hecho
grandes esfuerzos por desarrollar software inclusivo que permita a las personas con esta
23 World Health Organization, «Media Centre,» Vision impairment and blindness, 10 2017. [En línea]. Available:
http://www.who.int/mediacentre/factsheets/fs282/en/. [Último acceso: 25 09 2017]. 24 R. K. y. M. D. l. Vega, «El impacto tecnológico en las personas con discapacidad,» de II Congreso Iberoamericano
de Informática Educativa Especial, 2017. 25 Statista, Number of apps available in leading app stores as of March 2017, 03 2017. [En línea]. Available:
https://www.statista.com/statistics/276623/number-of-apps-available-in-leading-app-stores/. [Último acceso: 15 07
2017]. 26 Statista, «Google Play: number of available apps 2009-2017,» Number of available applications in the Google Play
Store from December 2009 to September 2017, 09 2017. [En línea]. Available:
https://www.statista.com/statistics/266210/number-of-available-applications-in-the-google-play-store/. [Último
acceso: 15 09 2017].
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
25
discapacidad afrontar las diferentes interacciones con su teléfono móvil [27]. Android Talkback y
Apple VoiceOver son herramientas que describen a la persona, por medio del sonido, la pantalla
del móvil, aunque estos programas resuelven en gran medida los problemas básicos de interacción,
no presentan soluciones a problemas de mayor complejidad. Un trabajo propuesto por Leopirini y
Buzzi [28], titulado Interacting with Mobile Devices via VoiceOver: Usability and Accessibility
Issues, plantean una serie de inconvenientes que presentan los usuarios al intentar hacer actividades
más complejas dentro de su móvil cómo navegar entre tablas o escuchar los mensajes cuando están
en ambientes con ruido en el fondo. Al final del día, estas herramientas siguen siendo tecnologías
pensadas para personas sin discapacidad, pero con una adaptación que resuelve parcialmente la
usabilidad para persona sin visión [29].
En tareas complejas en el móvil y en general la tecnología que poco toma en cuenta el diseño de
aplicaciones orientado a este tipo de población, es donde radica el principal problema. Mientras
que, para un usuario sin discapacidad visual, reconocer a las personas resulta sencillo, para una
persona con discapacidad visual no lo es. Es por esto que dichos usuarios deben valerse de otros
sentidos como el tacto o la audición para generar un concepto o descripción acerca de la persona
que, estando físicamente alejados, no pueden lograr.
Las personas utilizan el sentido del tacto para reconocer su entorno, así como también reconocer
los objetos con los que interactúan. Un estudio realizado por la universidad de McMaster de Canadá
demuestra la capacidad superior que tienen las personas ciegas versus personas sin problemas de
visión para reconocer objetos [30]. El estudio evaluó a 21 personas con diferentes niveles de ceguera
y 55 adultos con condiciones de vista normal. La prueba consistió en hacer palpar a los usuarios
una serie de patrones en relieve mientras una máquina sostenía de manera fija los dedos. Los
27 J. S. y. J. Selva, «Designing Mobile Apps for Visually Impaired and Blind Users,» de The Fifth International
Conference on Advances in Computer-Human Interactions, 2012. 28 M. C. B. y. M. B. B. Leporini, «Interacting with mobile devices via VoiceOver: usability and accessibility issues,»
de 2 Proceedings of the 24th Australian Computer-Human Interaction Conference, 2012. 29 R. B. y. A. Alvear, «Basic Human Computer Interface for the Blind,» de English LACCEI Latin American and
Caribbean Conference for Engineering and Technology (LACCEI' 2010) Innovation and Development for the
Americas, 2010. 30 V. G. a. D. G. Michael Wong, «Tactile Spatial Acuity Enhancement in Blindness: Evidence for Experience-
Dependent Mechanisms. The Journal of Neuroscience,» 11 May 2011.
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
26
resultados de la prueba fueron contundentes: los usuarios ciegos, que en este caso eran lectores de
braille experimentados, fueron capaces de identificar los patrones de forma inmediata, mientras
que las personas en condiciones de vista normal no pudieron hacerlo con la misma eficiencia.
Finalmente, el estudio concluyó que estos resultados podrían ayudarnos a diseñar pruebas que
permitan el mejoramiento del sentido del tacto. Sin embargo, también responde, o al menos da
indicios de responder, a la pregunta de si las personas ciegas tienen el sentido del tacto más
desarrollado que una persona sin este impedimento.
Ya que el sentido del tacto juega un papel importante en la interpretación del espacio de una
persona, tal como lo describe, Ochaita. E, en su trabajo investigativo Conocimiento del espacio,
representación y movilidad en las personas ciegas [31] encontramos el problema que busca mejorar
este proyecto en la falta de tecnologías desarrolladas para ampliar el mundo a las personas que no
cuentan con el sentido de la vista.
31 J. A. H. ESPERANZA OCHAITA, "Conocimiento del espacio, representación".
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
27
VII. PLANEACIÓN DEL PROYECTO
Matriz de marco lógico
Se nombran los principales elementos extraídos del marco lógico, la información completa puede
ser consultada en el anexo “Matriz de marco lógico”.
Indicadores
Objetivo fin La ciudad de Cali tendrá un sistema que represente rostros
en un matriz de leds, basados en el PinArt
Objetivo
propósito
La ciudad de Cali tendrá un sistema que represente rostros en un matriz de
leds, basados en el PinArt
Componentes Se definieron los parámetros del sistema a nivel experiencia de usuario,
usando
la metodología de diseño del pensamiento (Design thinking).
Se definieron los métodos y tecnologías a usar en cada uno de los procesos
involucrados
Se diseñó, desarrolló e implementó la plataforma siguiendo las directivas del
diseño
Se evaluaron las diferentes estaciones del proyecto con usuarios con
discapacidad visual
Actividades Se realizó un primer acercamiento con el grupo objetivo para informar sobre
los
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
28
propósitos del proyecto.
Se realiza una segunda reunión con prototipos no funcionales
Generar informe sobre pruebas con prototipos no funcionales
Determinar la tecnología a usar en la estación de captura
Determinar la tecnología a usar en la estación de representación
Determinar la tecnología a usar en la aplicación móvil
Determinar la tecnología a usar en el servidor
Implementar la tecnología a usar en la estación de captura
Implementar la tecnología a usar en la estación de representación
Implementar la tecnología a usar en la aplicación móvil
Implementar la tecnología a usar en el servidor
Pruebas de usuario a la estación de captura
Pruebas de usuario a la estación de representación
Pruebas técnicas al servidor
Tabla Matriz de marco lógico
Definición de actividades
Estos son los principales elementos extraídas de las actividades, la información completa puede ser
consultada en el anexo “Actividades”.
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
29
ACTIVIDAD
A1 Realizar reunión para contextualizar al grupo objetivo sobre el proyecto
A1.1 Contactar con el grupo objetivo
A1.2 Celebrar reunión
A1.3 Generar reporte inicial de primer contacto con el grupo objetivo
A2 Realizar una segunda reunión con prototipos no funcionales
A2.1 Celebrar reunión
A2.2 Generar reporte de reunión con usuarios y prototipos no funcionales
A3 Generar informe sobre pruebas con prototipos no funcionales
A3.1 Generar reporte con requerimientos extraídos de las dos reuniones anteriores
B1 Determinar la tecnología a usar en la estación de captura
B1.1 Extraer de las reuniones anteriores requerimientos técnicos a incorporar y tener en
cuenta
B1.2 Realizar una búsqueda bibliográfica para determinar la tecnología a usar
B2 Determinar la tecnología a usar en la estación de representación
B2.1 Extraer de las reuniones anteriores requerimientos técnicos a incorporar y tener en
cuenta
B2.2 Realizar una búsqueda bibliográfica para determinar la tecnología a usar
B3 Determinar la tecnología a usar en la aplicación móvil
B3.1 Extraer de las reuniones anteriores requerimientos técnicos a incorporar y tener en
cuenta
B3.2 Realizar una búsqueda bibliográfica para determinar la tecnología a usar
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
30
B4 Determinar la tecnología a usar en el servidor
B4.1 Extraer de las reuniones anteriores requerimientos técnicos a incorporar y tener en
cuenta
B4.2 Realizar una búsqueda bibliográfica para determinar la tecnología a usar
C1 Implementar la tecnología a usar en la estación de captura
C1.1 Diseño de la estación de captura
C1.2 Desarrollo de la estación de captura
C2 Implementar la tecnología a usar en la estación de representación
C2.1 Diseño de la estación de representación
C2.2 Desarrollo de la estación de representación
C3 Implementar la tecnología a usar en la aplicación móvil
C.3.1 Diseño de la estación móvil
C.3.2 Desarrollo de la estación móvil
C4 Implementar la tecnología a usar en el servidor
C.4.1 Diseño de la estructura del servidor
C.4.2 Desarrollo de la estructura del servidor
D1 Pruebas de usuario a la estación de captura
D1.1 Realizar pruebas de usuario con la estación de captura
D1.2 Redactar informe sobre prueba
D2 Pruebas de usuario a la estación de representación
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
31
D2.1 Realizar pruebas de usuario con la estación de representación
D2.2 Redactar informe sobre prueba
D3 Pruebas técnicas a la aplicación móvil
D3.1 Realizar pruebas de usuario con la app móvil
D3.2 Redactar informe sobre prueba
Tabla Actividades
Ilustración 7 Desglose de actividades
Ilustración 8 Ruta crítica
En la Figura 2 se observa el diagrama de Gantt. El cronograma, así como también una imagen
mejor detalla de la ruta crítica pueden ser encontrados en el anexo “Ruta crítica".
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
32
Costeo de actividades
El costo total del proyecto es de $8.196.500, los detalles de cada objeto se pueden encontrar en el
anexo “Costeo y actividades”
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
33
VIII. METODOLOGÍA
El desarrollo de este proyecto está basado en la metodología de diseño del pensamiento (Design
Thinking), es una metodología creada para encontrar soluciones innovadoras centradas en el
usuario 32. Es un proceso iterativo que involucra a todos los actores del proyecto y busca romper
con asunciones, encontrar intereses y busca crear un profundo entendimiento del usuario [33] [34].
Esta metodología no es lineal ya que cada etapa se encuentra en constante cambio ante la
posibilidad de verificaciones que persisten en el tiempo, a través de las pruebas de usuario y el
prototipado (Figura 9).
Ilustración 9 Metodología Design thinking. Tomada de [32]
32 R. A. y. T. Siand, "What is Design Thinking and why is it so popular?," 09 2017. [Online]. Available:
https://www.interaction-design.org/literature/article/what-is-design-thinking-and-why-is-it-so-popular. [Accessed 30
09 2017]. 33 R. García, «Design Thinking en Español,» [En línea]. Available: http://designthinking.es/inicio/index.php. [Último
acceso: 15 09 2017]. 34 R. A. y. T. Siand., "Five Stages of Design Thinking," 2017. [Online]. Available: https://www.interaction-
design.org/literature/article/5-stages-in-the-design-thinking-process. [Accessed 30 09 2017].
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
34
No existe un consenso sobre el número exacto de fases o modos en el Design Thinking. Sin
embargo, en el desarrollo de esta investigación fueron utilizadas cinco etapas [32] [34]. Estas se
describen a continuación.
Empatizar
Es la etapa donde se intenta ganar una mirada más empática del problema que se quiere resolver.
Esto incluye generar un acercamiento hacia los usuarios, entender su comportamiento,
motivaciones, pensamientos y se intenta romper con posibles asunciones. Finalmente, se busca
reunir la mayor cantidad información que permitirá ayudar para el desarrollo de las siguientes
etapas.
Definir
Durante esta etapa se analiza toda la información reunida y se definen los principales problemas
de los usuarios. Son definidos como frases eje: “Los usuarios buscan características únicas en el
rostro de una persona para reconocerlo como la nariz larga, mandíbula ancha, ojos saltones o
cicatrices.” como lo dice Adam y Siang en su artículo “5 Stages in the Design Thinking Process”
[34]
Idear
A partir de esta etapa es posible generar alternativas de solución a los problemas identificados y
establecidos habiendo empatizado y analizado al grupo objetivo y sus dificultades. “Es importante
reunir tantas ideas o soluciones al problema como sea posible durante el principio de esta etapa”
[34]
Prototipado
Es una fase experimental en la que el equipo de diseñadores creará prototipos de bajo costo, con el
objetivo de verificar características puntuales del producto o para intentar resolver determinado
problema. [34]
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
35
Testeo
Corresponde a la quinta y última etapa del Design thinking; busca comprobar de manera rigurosa
que la idea escogida anteriormente cumpla con los diferentes requerimientos extraídos en etapas
anteriores.
Las primeras tres etapas se verán reflejadas en este apartado; prototipar y probar serán expuestas
en los apartados de prototipo, desarrollo e implementación y validación de prototipo.
Desarrollo de las etapas del Diseño del pensamiento:
Empatizar
En esta etapa se contextualiza al grupo objetivo sobre el proyecto. Se analizan algunos aspectos
del usuario con discapacidad visual, como: comportamientos, intereses y necesidades. Para
lograrlo, se establece un canal directo de comunicación con la sala Hellen Keller de la Biblioteca
Departamental de la Ciudad de Cali, Colombia, cuya función principal es la de incluir socialmente
a personas con discapacidad visual a través del acceso a la información y tecnología [20]. El grupo
objetivo está compuesto por seis personas entre los 18 y 35 años, todos de diferentes oficios y el
origen de su ceguera se derivó de diversas razones, algunos la adquirieron por alguna enfermedad
o accidente y otros nacieron ciegos. Para el primer acercamiento se utilizó el método de evaluación
de entrevista para cada usuario. El objetivo consistió en descubrir qué tecnologías eran usadas por
los usuarios, si interactúan con otras personas a través de llamadas telefónicas, celulares o internet,
si tenían conversaciones con personas que no conocían físicamente y si encontraban necesario tocar
el rostro de las personas con las que sostenían algún tipo de relación. La transcripción de cada
audio a texto puede, así como las preguntas realizadas en la entrevista pueden ser encontradas en
el anexo “Reporte primer encuentro con grupo objetivo”.
De las seis personas, todas manifestaron usar alguna herramienta tecnológica para interactuar con
otras personas. A continuación, mostramos los datos extraídos del primer acercamiento.
X. DISCUSIÓN
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
36
Los usuarios hacen uso de diferentes herramientas para comunicarse con otros, aunque, WhatsApp,
Facebook Messenger y el teléfono fueron el factor común. Es necesario mencionar que, aunque
todos los usuarios usan Google TalkBack como puente comunicacional entre la interfaz gráfica y
la navegación, sólo dos hablaron de su uso. El grupo objetivo no es ajeno a las tecnologías recientes
y todos sus integrantes sostienen conversaciones regulares con varias personas a través de su móvil
o el computador.
Empatizar
Cuatro usuarios del grupo objetivo manifestaron sostener conversaciones con personas que no
conocían de primera mano, eran parientes, amigos o miembros del grupo (figura 10)
Ilustración 10 Uso de tecnología de las personas con discapacidad visual
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
37
Ilustración 11 Interacción con personas desconocidas
Ilustración 12 Deseo de tocar rostro de otra persona
La mayoría de los usuarios manifestaron un interés por querer percibir el rostro de las personas
(ver Figura 12) con las que sostenían conversaciones por medio del tacto, principalmente para crear
un vínculo más cercano, generar una imagen mental de la persona y fortalecer la relación, pero
ninguno de ellos contaba con algún tipo de tecnología que les permitiera realizar esta acción desde
la distancia.
Finalmente, todas las personas evaluadas manifestaron interés en querer adquirir una herramienta
tecnológica que les permita reconocer los rostros a distancia.
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
38
Definir
En esta etapa, además de definir los requerimientos usables extraídos de las diferentes pruebas,
también se hizo necesario definir ciertos conceptos que sería usados a lo largo de todo el proceso
de diseño y desarrollo, como lo es el termino de discapacidad visual, qué es el dispositivo Kinect
y qué es el PinArt.
El Ministerio de Educación de Chile define la discapacidad visual como:
“la dificultad que presentan algunas personas para participar en actividades propias de la vida
cotidiana, que surge como consecuencia de la interacción entre una dificultad específica
relacionada con una disminución o pérdida de las funciones visuales y las barreras presentes en el
contexto en que desenvuelve la persona” [20].
Esta condición trae consigo una clasificación importante de mencionar, en relación a los grados de
visión y diferentes tipos de problemas visuales; entre los cuales se destaca la pérdida o disminución
de la agudeza visual correspondiente a la distancia a través de la cual se discriminan los objetos y
figuras [20]. También las relacionadas con la pérdida o disminución del campo visual frente al
contorno que abarca la visión [20] y la ausencia o disminución de ambos.
Lo anterior permite distinguir entre dos conceptos específicos, a saber: la ceguera y la baja visión.
La primera es definida por la Organización Nacional de Ciegos Españoles [35] como "la pérdida
total de visión", a partir de la cual se utilizan habilidades para sustituirla, tales como la apropiación
de los demás sentidos en funcionamiento y tecnologías diversas.
Por otro lado, la baja visión corresponde con un grado menor de pérdida cuyo funcionamiento se
optimiza utilizando productos de apoyo [35], ésta se relaciona con carencias específicas, tales como:
deficiencia visual ligera en la que se requiere la utilización de gafas convencionales, deficiencia
visual moderada cuyo funcionamiento requiere de un apoyo más específico como una lupa.
Deficiencia visual grave concerniente a la "capacidad suficiente para efectuar una actividad
35 Organización Nacional de Ciegos Españoles, «Discapacidad visual e incidencia en la autonomía,» de Discapacidad
visual y autonomía personal, enfoque práctico de la rehabilitación, 2011, pp. 77-110.
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
39
apoyándose en la visión, pero con productos de apoyo para ver y necesitando más tiempo y/o con
mayor fatiga" [20]. Por último, deficiencia visual profunda, donde el individuo encuentra
limitaciones para leer y desplazarse aun utilizando productos de apoyo por lo que es necesario el
uso del resto de sus sentidos, en la deficiencia visual casi total la información que llega a través de
la vista no resulta fidedigna, por ello "es imprescindible el uso de la información que llega a través
de los otros sentidos" [35], por último la deficiencia visual total requiere completamente la ayuda
de los otros sentidos funcionales del individuo.
El Kinect es un sensor creado por la compañía Microsoft, según la documentación de Microsoft
Developer Network “A Kinect sensor (also called a Kinect) is a physical device that contains
cameras, a microphone array, and an accelerometer as well as a software pipeline that processes
color, depth, and skeleton data.” [35]
Ilustración 13 Dispositivo Kinect. Tomada de [35]
Avancini, en su trabajo “Using Kinect to emulate an Interactive Whiteboard” define al Kinect” …
un dispositivo de interacción natural, que opera en el contexto de las interfacez gráficas naturales
(IGN), un paradigma metafísico emergente en la interacción humano computador” [35].
Por otro lado, el concepto de PinArt o PinScreen es un dispositivo creado en 1976 por el artista
Ward Fleming [36]; consiste en un arreglo de agujeros dispuesto equidistantemente en una base (ya
36 W. Fleming, «PIN SCREEN». United States Patente 4,536,980, 27 10 1985.
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
40
sea metálica o de madera) (Figura 14), así mismo, el dispositivo también está conformado por un
arreglo de pines o cilindros delgados con un tope en la punta de cada uno y su cantidad sería la
misma que el de agujeros en la base. Los pines se encontrarán dispuestos individualmente en cada
uno de los agujeros. Paralelo a ellos y a la base se posiciona una placa de plástico transparente cuya
labor principal consistirá en evitar que los pines se deslicen y caigan de la estructura.37
Ilustración 14 Concepto de PinArt propuesto por Ward fleming. Tomado de [37]
37 Neowin, "Skype gets a new UI, downloads now available for Windows and OS X," [Online]. Available:
https://www.neowin.net/news/skype-gets-a-new-ui-downloads-now-available-for-windows-and-os-x. [Accessed 20
10 2017].
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
41
El siguiente paso consistió en realizar una prueba de reconocimiento facial con un prototipo
análogo de PinArt. La prueba se dividió en dos partes, primero, el usuario intenta reconocer un
objeto diferente a un rostro representado en el PinArt (en este caso una mano ver Figura 8) y
segundo, intenta reconocer un rostro. Para esto, fue creado uno a escala 1:1 con yeso (ver Figura
6) que permitía la correcta colocación del PinArt y el posterior desplazamiento de los cilindros
delgados en sus diferentes alturas formando el rostro (Ver Figura 7). El registro audiovisual de las
pruebas puede ser encontrado en el anexo “Pruebas de usuario PinArt análogo”.
Ilustración 15 Rostro en yeso
Ilustración 16 Rostro representado en PinArt
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
42
Ilustración 17 Mano representada en PinArt
La prueba arrojó los siguientes resultados
De los seis usuarios evaluados, cuatro de ellos no presentaron alguna dificultad al identificar la
mano o el rostro; los restantes, no pudieron identificar correctamente los objetos. Los usuarios que
fallaron al reconocer los objetos fueron aquellos cuya ceguera se había dado de nacimiento.
Lograron identificar las partes del rostro únicamente después de haberles informado de su
naturaleza.
Los miembros del grupo cuya ceguera derivó de diferentes circunstancias, no tuvo problema al
identificar los dos objetos; no presentaron inconvenientes en ubicar las partes del rostro (frente,
nariz, boca y ojos) y en algunos casos, tampoco presentaron inconvenientes en identificar el género
del rostro, aunque la mayoría de los usuarios manifestaron necesitar de mayor información.
Ya que el proceso de diseño del Design Thinking es iterativo y no lineal, en esta etapa se listan
todos los puntos clave de cada una de ellas. Estos son:
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
43
1. Aunque los usuarios manifiestan no poder recordar un rostro únicamente a partir del tacto,
todos mostraron una actitud positiva respecto al proyecto y coincidieron en que su vida
social se vería enriquecida con el producto.
2. Los usuarios buscan características únicas en el rostro de una persona para reconocerlo
como la nariz larga, mandíbula ancha, ojos saltones o cicatrices.
3. Los usuarios usan el celular exactamente como lo haría cualquier otro. Las personas con
ceguera total usan Google Talkback- Esta aplicación traduce en sonido cada texto que
encuentra en la pantalla del celular; de esta forma el usuario ciego puede chatear, hablar
por teléfono, usar facebook o twitter sin ningún problema.
4. Google TalkBack modifica la interactividad del celular, el usuario debe de arrastrar su dedo
pulgar por toda la pantalla, en ese recorrido, la aplicación irá leyendo cada uno de los
botones o textos que se encuentra en su camino, al llegar al botón al que el usuario desea
acceder, el programa le pedirá que pulse dos veces.
5. Los usuarios en su mayoría no confían de la opinión de una sola persona cuando de describir
a otra se trata, lo que normalmente hacen es recoger varias opiniones y asumir como ciertos
los factores comunes de cada una.
6. El sistema de representación facial deberá tener la suficiente “resolución” que permita al
usuario identificar las características faciales principales o predominantes en una persona.
7. El alto de cada pin deberá ser superior a 13 cm, pues con el actual, los rostros no se pueden
representar de forma correcta, ya que quedarán a la altura de los pómulos, y características
del rostro como labios, barbilla y mejilla no pueden ser apreciados de forma correcta.
8. El arreglo de leds, que en este caso se pretende simular el PinArt mecánico, deberá de tener
un nombre impreso en braille; esto con el objetivo de permitir a la persona ciega identificar
el nombre de su dispositivo cuando la aplicación móvil pretenda conectarse por medio de
Bluetooth.
Durante las diferentes interacciones con el grupo objetivo se pudo diferenciar tres clases de
usuarios, para hacerlo, se utilizó el caso persona, que consiste en generar personajes ficticios que
abarquen o engloben un arquetipo de usuario en específico, por lo que se han seleccionado 3
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
44
perfiles de usuario con discapacidad visual. En las Figuras 3 a 5 se muestra el perfil de cada usuario
con discapacidad visual que fue identificado.
Ilustración 18 Perfil 1 del Usuario con Discapacidad Visual de la Sala Hellen Keller, Cali - Colombia.
El primer tipo de usuario nació ciego; tacto y audición se usaron desde pequeños como sentidos
principales para afrontar sus tareas diarias, al haber nacido ciegos nunca tuvieron que afrontar el
choque psicológico de perder la vista. Por lo tanto, no tuvieron un periodo de aceptación. Les
resulta más complicado identificar los objetos, ya que carecen de un referente visual al cual
adjudicar lo que están palpando.
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
45
Ilustración 19 Perfil 2 del Usuario con Discapacidad Visual de la Sala Hellen Keller, Cali - Colombia.
El segundo usuario nació con vista y debido a diferentes circunstancias la perdió, pasó buscando
por mucho tiempo recuperarla, pero al final no tuvo ninguna solución, por lo que, fue un proceso
muy duro para él, ya que debió recibir terapia psicológica para aceptar su discapacidad visual. Al
ser la vista su principal sentido durante gran parte de su vida, audición y tacto se convirtieron en
sentidos secundarios, pero ahora ciego, debe entrenarse y pasar por un periodo de adaptación. Por
tener experiencia de haber visto, reconoce las figuras con mayor rapidez comparado con una
persona que nació ciega, ya que tiene referentes visuales.
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
46
Ilustración 20 Perfil 3 del Usuario relacionado al que tiene Discapacidad Visual de la Sala Hellen Keller, Cali -
Colombia.
El tercer tipo carece de algún impedimento en su vista, es familiar, amigo o conocido de una
persona con discapacidad visual, su función principal en este contexto es la de querer enviar su
rostro al usuario con la discapacidad, quiere apoyar a su conocido enviando la fotografía de su hija,
madre o amiga para que este la pueda reconocer y así hacer su calidad de vida mejor.
Idear
A partir de la información recolectada y analizada al evaluar el PinArt análogo, se propone un esquema inicial del sistema, el cual se muestra en la Figura 19.
Este sistema contiene los siguientes módulos: móvil transmisor, servidor, móvil receptor y hardware que interpreta.
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
47
Ilustración 21 Esquema inicial del sistema
Se propone crear una aplicación que detecte el rostro del usuario y extraiga el mapa de profundidad
del rostro, lo cual permitirá representarlo hardware, por lo que el esquema inicial del sistema está
compuesto por cuatro módulos. Móvil-Transmisor estaría encargado de hacer la captura y
extracción del rostro por medio de un aplicativo móvil; servidor recibirá y almacenará la
información en una base de datos. El módulo Móvil-receptor, estaría incluido en el mismo
aplicativo, sería el encargado de notificar al usuario de un nuevo mensaje y finalmente, el módulo
Hardware-interpreta transformaría la información enviada desde el aplicativo móvil por medio de
una conexión inalámbrica BlueTooth en un arreglo de leds.
La aplicación móvil es desarrollada en Android Studio, el servidor en NodeJs y el hardware se hace
uso de Arduino y un arreglo de matrices de leds para la visualización del rostro.
El esquema inicial del sistema presenta un inconveniente. Para la extracción del rostro se usa un
modelo, el cual fue propuesto por Olga Krutikovaa et al. en su investigación titulada “Creation of
a Depth Map from Stereo Images of Faces for 3D Model” [38]. Este modelo propuesto consiste
básicamente en tres pasos:
38 A. S. y. M. K. O. Krutikova, «Creation of a Depth Map from Stereo Images of Faces for 3D Model Reconstruction,»
Procedia Computer Science, vol. 104, pp. 452-459, 2017.
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
48
1. Calibración de las cámaras
2. Localización de los puntos referentes según la perspectiva de dos cámaras
3. Construcción del objeto en 3D
El modelo utiliza una imagen estéreo con dos puntos de referencia, lo cual permite extraer el mapa
de profundidad.
El primer paso consiste en usar dos cámaras, sin embargo, es un inconveniente ya que el usuario
sólo cuenta con una integrada en el celular. Crear un sistema que por medio de una cámara puedan
ser capturadas dos imágenes es todo un desafío de desarrollo que creaba conflicto con los tiempos
que se tenían para el proyecto.
Por lo que, se decidió que era imperante el uso de dos cámaras, o al menos dos imágenes [38] para
extraer el mapa de profundidad. Aunque existen investigaciones que lo hacen a partir de una sola
[39], son necesarias las dos si se requiere tener una mayor precisión. En relación al hardware se
hace necesario un dispositivo que logre visualizar la cara en 2D, por lo que es uno de los objetivos
fundamentales para el desarrollo del proyecto. También es importante tener en cuenta que se
exploraron alternativas menos drásticas como desarrollar un módulo en la aplicación móvil que
permita al usuario tomar las dos fotografías y calibrar el sistema, pero esa solución, aunque no
afectaba drásticamente el esquema, requiere de un tiempo superior de desarrollo que impide
cumplir con los tiempos estipulados.
Por lo que se propone un segundo prototipo, como se observa en la Figura 22, el cual tiene 3
módulos. Estos son: Estación de captura, servidor y estación de representación.
39 M. S. a. A. Y. N. A. Saxena, «Make3D: Depth Perception from a Single Still Image,» Palo Alto, California.
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
49
Ilustración 22 Esquema final del sistema
La estación de captura está constituida por un Kinect y un computador, la cual hace toda la captura
y procesamiento de la imagen. El servidor será el encargado de recibir y enviar la información de
transmisor a receptor. Por último, la estación de representación está constituida por una aplicación
móvil y un arreglo de leds que servirá para representar la imagen enviada.
Ilustración 23 Componentes del sistema
Como se observa en la Figura 16, la estación de captura fue tomada en cuenta para que
sea operada por un usuario que carezca de cualquier impedimento de la vista o también,
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
50
en caso tal, que asista a una persona con discapacidad visual. El servidor recibe la
información, la almacena en una base de datos, y luego envía una notificación al
aplicativo móvil alertando al usuario de un nuevo mensaje en la bandeja de entrada. Por
último, la estación de representación consiste en un prototipo básico creado con Arduino
y un arreglo de leds. Tiene como objetivo representar los datos enviados desde el servidor
y de esa forma probar que el envío de los datos se hace de forma correcta por todo el
sistema. Este arreglo de leds también emula la disposición de los cilindros delgados. Ya
que el arreglo de leds sólo sirve para comprobar el envío de los datos, también fue
desarrollado un PinArt análogo con el interés de conocer si las personas con
discapacidad visual podían percibir algunas características del rostro de una persona.
Prototipado
Propuesta de la aplicación de escritorio
La aplicación de escritorio cumple con tres tareas básicas, como: (1) capturar el rostro, (2) grabar
el audio y (3) enviar la imagen. Para diseñar esta aplicación se tomó en cuenta que la imagen era
la protagonista, era necesario crear una interfaz gráfica que diera prioridad y que permitiera ver la
extracción del rostro antes de enviarla. Para esto, se tomó como referente la interfaz gráfica de la
aplicación Skype (Figura 24). Un aspecto minimalista, con la menor cantidad de botones posibles
y con una distribución sencilla.40
Ilustración 24 Interfaz gráfica Skype: Llamada. Extraída de [40]
40 Neowin, "Skype gets a new UI, downloads now available for Windows and OS X," [Online]. Available:
https://www.neowin.net/news/skype-gets-a-new-ui-downloads-now-available-for-windows-and-os-x. [Accessed 20
10 2017].
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
51
En la aplicación de escritorio el rostro de la persona es el protagonista ya que ocupa toda la pantalla
(Ver figura 25), en el centro-bajo de la composición se ubica el menú de opciones; grabar audio,
tomar foto y enviar imagen serán los únicos botones que despliega inicialmente la interfaz.
Ilustración 25 Mapa de interactividad aplicación de escritorio
Grabar audio despliega una grabadora/reproductor, dándole la posibilidad al usuario de escuchar
el mensaje que acaba de grabar. También tendrá la posibilidad de volver a grabar el audio (ver
figura 26), si anteriormente había realizado alguno, la aplicación mostrará una alerta informando
al usuario de una posible pérdida del audio original si decide continuar.
Ilustración 26 Grabar audio en aplicación de escritorio
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
52
La aplicación inmediatamente muestra en paralelo la imagen extraída a enviar después de presionar
el botón de “tomar foto”, si el usuario se encuentra satisfecho con la imagen, puede enviarla
oprimiendo el botón de “enviar imagen” el cual desplegará un campo que le pedirá el ID de la
persona a quién quiere enviar la imagen. Una vez se haya introducido el ID en el campo, el usuario
podrá confirmar su envío y la aplicación desplegará un mensaje de confirmación exitosa (ver Figura
27).
Ilustración 27 Enviar imagen desde la aplicación de escritorio
Si por el contrario el usuario decide tomar otra fotografía, el programa desplegará un mensaje
advirtiendo sobre la pérdida de la imagen inicial.
Aplicación móvil
Fueron creadas zonas de interacción que permiten al usuario acceder a las principales acciones de
la aplicación sin tener que hacer largos recorridos dentro de la pantalla, también, se tuvo en cuenta
el desplazamiento del dedo de la persona por la pantalla, es decir, se prestó atención al diseñar
elementos que no fueran especialmente pequeños ni que la distancia entre estos fuera inferior a la
de un dedo pulgar promedio.
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
53
Ilustración 28 Mapa de interacción de la aplicación móvil
La interfaz funcionará en conjunción con Google TalkBack y estaría constituida por cuatro
regiones principales, bandeja de entrada, galería, estado y salir, como se muestra en la Figura 29.
Ilustración 29 Diseño de la aplicación Móvil, interfaz de inicio
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
54
La opción bandeja de entrada almacenará las imágenes nuevas recibidas. La opción galería
contendrá el repositorio de imágenes ya vista, y que el usuario decidió almacenar. La opción estado
determinará si el móvil se encuentra conectado al hardware (arreglo de leds) por medio de
bluetooth, en caso de no estarlo, desplegará un texto mostrando este estado. Por último, la opción
salir permitirá al usuario cerrar la aplicación. Cada botón debe contener un texto que permita a
Google TalkBack leerlo y así facilitar su interpretación; para ingresar a cada sección de la
aplicación el usuario debe dar un doble toque (ver figura 29).
En la sección de “bandeja de entrada” el usuario se encontrará con una lista de las imágenes que
aún no reproduce y que le han sido enviadas; cada sección es un botón al cual acceder y poder
reproducir la imagen (ver figura 30).
Ilustración 30 Bandeja de entrada aplicación móvil
Los botones conservan una separación que le permiten a Google TalkBack identificar su región,
así como también un texto. Dentro de cada imagen habrá cuatro regiones principales, el título de
la imagen, representar imagen, reproducir audio y volver. Representar imagen permite enviar la
imagen al hardware siempre y cuando la conexión haya sido establecida previamente, una vez la
imagen representada, en la región representar aparecerá un letrero de confirmación y dos botones,
guardar o eliminar. Reproducir audio se divide en tres sub regiones, reproducir, pausar y detener;
esta región le permitirá al usuario reproducir el audio enviado por el emisor para enriquecer su
experiencia al palpar el rostro (ver Figura 31).
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
55
Ilustración 31 Sección imagen de la aplicación móvil
En la región de estado, el usuario encontrará dos momentos, si su dispositivo ya se encuentra
conectado a un hardware, esta región desplegará un texto con. En caso de no tener una conexión,
la región desplegará un texto informando al usuario y le dará la opción, a través de un botón de
encontrar y conectarse a un dispositivo (ver Figura 32).
Ilustración 32 Sección “Estado" de la aplicación móvil
En la sección encontrar dispositivo el usuario podrá buscar el nombre la conexión a Bluetooth y
conectarse a él. El nombre del dispositivo estará escrito en Braille en la parte frontal del hardware.
Debido a la naturaleza del grupo objetivo, aspectos gráficos como el color, tipografía e iconografía
no fueron tenidos en cuenta, en cambio, se dio total prioridad a la experiencia de usuario. El primer
prototipo fue desarrollado en HTML, CSS3 y JavaScript con el objetivo de confirmar que el Google
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
56
Talkback estuviera en la capacidad de leer los textos de cada botón. El segundo prototipo fue
desarrollado en Android Studio siguiendo los lineamientos gráficos y de distribución del primero.
PinArt Análogo
Consiste en una tabla de MDF (Fibras de Densidad Media, en inglés Medium Density Fibreboard)
de 4 milímetros de espesor, 19 centímetros de ancho y 24 centímetros de alto, con 768
perforaciones espaciadas 3,5 milímetros y distribuidas en 24 columnas y 32 filas. A través de cada
perforación pasa un cilindro delgado de acero de 7 centímetros de largo (ver figura 33).
Ilustración 33 Proceso de elaboración PinArt análogo
En el extremo del cilindro delgado se encuentra una protuberancia en forma de esfera que permite
que el mismo no pase de un lado a otro por completo y permite el tacto cómodo por parte del
usuario. Cada perforación está suavizada con grafeno en polvo para facilitar el paso de los cilindros
metálicos (ver Figura 34).
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
57
Ilustración 34 Cilindros delgados del PinArt análogo
Arreglo de leds
Dispositivo que integra tres módulos de matrices led de 32 x 8 MAX7219, una placa Arduino
MEGA y un módulo Bluetooth HC-05 en una caja de MDF de 4 milímetros de espesor, 6.8
centímetros de profundidad, 17 centímetros de alto y 14 centímetros de ancho. Los elementos
electrónicos están alimentados por una mini fuente para montaje sobre protoboard con salidas de
3.3 y 5 voltios (Figura 35).
Ilustración 35 Prototipo arreglo de leds
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
58
Ilustración 36 Esquema electrónico arreglo de leds, arduino, módulo Bluethooth y fuente
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
59
XI. DESARROLLO E IMPLEMENTACIÓN
Alcances
Los alcances técnicos del proyecto están representados en la siguiente gráfica (ver figura 36):
Ilustración 37 Alcances del proyecto
El software de la estación de captura se hizo para versiones iguales o superiores a Windows 8,
procesadores con arquitectura de 64 Bits cuyo núcleo vaya a mínimo 2.66 GHz. El hardware debe
tener conexión USB 3.0 o mayor y mínimo 2 GB de RAM. Así mismo, el Kinect usado para hacer
la captura fue la versión 2.0 para desarrolladores (Windows) y la distancia establecida para que la
captura del rostro sea posible está entre los 0.8m y los 1.5m.
Para la creación del servidor fue usado Amazon Web Services EC2 Micro como servicio de
almacenamiento en la nube, NodeJs 6.11.3 como entorno en tiempo de ejecución y MySQL para
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
60
la base de datos. La aplicación móvil fue creada para correr en versiones iguales o superiores a
Android 4.4.
El hardware fue creado con Arduino Mega 2560 R3 como plataforma de prototipo base, se incluyó
un módulo Bluetooth HC-05, una fuente MB102, una protoboard de 400 pines, un cargador DC
12V, un cable USB - A/B y finalmente, doce matrices de LED 8x8 Max7219.
El Kinect 2.0 para Windows representó una alternativa al problema inicial de las imágenes estéreo
y la extracción del mapa de profundidad. Cuenta con un arreglo de cámaras de diferentes tipos, que
le dan la capacidad técnica para generar una malla de puntos del rostro. También cuenta con una
librería actualizada de su versión anterior que facilita la correcta extracción de esta maya. Para su
correcto funcionamiento, Kinect 2.0 debe correrse en sistemas operativos iguales o mayores a
Windows 8, permite usar arquitecturas de 32 a 64 Bits y el procesador debe correr a mínimo a
2.66Ghz.
NodeJs es un entorno de ejecución de JavaScript orientado a eventos asíncronos, lo cual representa
una ventaja al desarrollar aplicaciones de comunicación en tiempo real.
La totalidad de los usuarios del grupo objetivo contaban con sistema operativo Android en sus
celulares y a partir de la versión 4.4 es dónde se ubican la mayor cantidad de usuarios a nivel
mundial [41].
Aplicación de escritorio
Para la captura de la información del rostro se desarrolló una aplicación de escritorio para
dispositivos con sistema operativo Windows 10 utilizando las tecnologías de Windows
Presentation Foundation (WPF) a través de las cuales se puede recibir y manipular el dispositivo
Kinect V2. Inicialmente, usando los sensores del Kinect, se encuentra la cara situada frente a la
41 Developers, "Dashboards," [Online]. Available: https://developer.android.com/about/dashboards/index.html.
[Accessed 30 09 2017].
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
61
cámara y con ayuda de la librería HD FACE [42] que provee el kit de desarrollo del dispositivo, se
encuentran los puntos principales del rostro y su profundidad con los cuales se recreará el mapa de
profundidad (ver Figura 38).
Ilustración 38 Puntos extraídos con librería HD FACE
Transformación de los puntos a mapa de profundidad
Lo primero que se debe hacer para obtener el mapa de profundidad es encontrar los puntos que
forman el contorno del rostro. Para esto se utiliza el algoritmo de cadena monótona, que permite
obtener la envolvente convexa. Dada las características del rostro éste es suficiente para obtener
todos los puntos que forman el contorno. Posteriormente éstos se unen para terminar de formar el
borde que contiene los demás puntos.
A continuación, se recorre cada pixel de la imagen para encontrar el color que le corresponde según
los N puntos más cercanos a cada pixel. A cada uno de estos puntos cercanos se les asigna un peso
según la distancia a la que se encuentren del pixel y según el color y el peso del punto se le asigna
un color al pixel actual.
Por último, se aplica un filtro de promedio de vecinos cercanos en cada uno de los píxeles de la
imagen para obtener un resultado más uniforme.
Grabación de audio
42 Microsoft, «FaceModelBuilder Class,» [En línea]. Available: https://msdn.microsoft.com/en-
us/library/microsoft.kinect.face.facemodelbuilder.aspx. [Último acceso: 20 07 2017].
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
62
Además de tomar el mapa de profundidad, es posible también grabar un mensaje para ser enviado
al aplicativo móvil. Para esto se utiliza el micrófono del dispositivo Kinect el cual retorna los
frames del audio a una frecuencia de 16KHz, 32 bits y un canal.
Envío de la información
La información recolectada desde el aplicativo web es enviada hacia un servidor NodeJS donde es
redirigida al dispositivo destinatario. El envío se realiza de dos maneras:
Si el usuario está conectado en ese momento, se le enviará la información inmediatamente y se
guardará el mensaje como “Enviado”.
Si el usuario no se encuentra conectado, el mensaje se guardará como “Pendiente” y se enviará la
siguiente vez que se conecte. Para esto se realiza una validación al momento de conectar el
dispositivo donde se busque si tiene algún mensaje pendiente por recibir.
Para la captura de la información del rostro se desarrolló una aplicación de escritorio para
dispositivos con sistema operativo Windows utilizando las tecnologías de Windows Presentation
Foundation (WPF) a través de las cuales se puede recibir y manipular el dispositivo Kinect V2.
Inicialmente el aplicativo se conecta con el servidor para registrarse como remitente y así poder
reconocer desde qué instancia se envía el mensaje. Para esto se hace una solicitud usando el
protocolo REST enviando la información de un identificador único global generado para cada
instancia de la aplicación. Como respuesta a esta solicitud el servidor envía un estatus y, si se
guardó la información correctamente o si se encontró un usuario registrado con ese identificador,
el id del registro en la base de datos.
Inmediatamente después de obtener una respuesta satisfactoria de parte del servidor se inician los
sensores del Kinect y se asignan métodos para los eventos de captura de los fotogramas que llegan
de los sensores: profundidad, color y detección de cuerpos.
Los datos que llegan desde el sensor de color son presentados al usuario a través de la interfaz
gráfica. Por otra parte, los datos de profundidad, color y detección de cuerpos son usados para
detectar el rostro que se encuentre frente a la cámara [43]. El canal de audio sólo se inicia cuando
el usuario presiona el botón de grabar con el fin de no realizar procesamiento innecesario.
43 Microsoft, "Microsoft Developers Network," [Online]. Available: https://msdn.microsoft.com/en-
us/library/dn785525.aspx. [Accessed 01 10 2017].
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
63
Para obtener un modelo fiel del rostro se utiliza la librería FaceModelBuilder de Kinect v2.0 [44]
,el cual genera un modelo del rostro basado en una serie de fotos que toma en diferentes
inclinaciones. Por esto es necesario darle una retroalimentación al usuario acerca de qué lados
necesita el constructor para poder generar correctamente el modelo.
Ya con el modelo generado se activa la casilla de captura de imagen la cual se realiza de la siguiente
manera:
Los vértices del modelo se pasan a un plano 2D donde la profundidad del vértice se convierte en
la intensidad de gris. El valor más cercano a la cámara será el mayor valor de intensidad (255) y el
más lejano de los puntos será el menor valor de intensidad (0). De esta manera los vértices que se
encuentren más alejados de la cámara serán más oscuros. Para realizar esta conversión se toma el
valor mínimo m y se resta del valor de profundidad p. Luego se normaliza el valor resultante
dividiéndolo entre el valor máximo de intensidad M y el resultado se multiplica por 255. (Ver
Ecuación 1).
((p - m)*255)/M Ecuación 1
Teniendo todos los puntos en un plano 2D se procede a encontrar aquellos puntos que forman el
contorno del rostro para pintar los píxeles dentro del mismo y omitir aquellos que estén por fuera.
Para este proceso se usó el algoritmo de envolvente convexa implementado en la librería Loyc [32]
el cual implementa el algoritmo de cadena monótona de A. M. Andrew, "Another Efficient
Algorithm for Convex Hulls in Two Dimensions" [45]. A partir de los puntos obtenidos con la
envolvente convexa se dibujan las líneas del contorno. Dado que los puntos se encuentran
ordenados solo es necesario recorrerlos una vez e ir uniendo cada punto con el punto siguiente y el
último punto se une con el primero para cerrar el contorno.
Con el contorno dibujado se asigna un valor de intensidad a cada uno de los píxeles que se
encuentren dentro del contorno. Para definir si un punto se encuentra dentro del contorno se utiliza
el algoritmo de Ray Casting [46]. Este algoritmo consiste en crear una línea desde el punto hacia
una de las caras de la imagen. Si el punto cruza un contorno una cantidad impar de veces significa
44 Microsoft, «FaceModelBuilder Class,» [En línea]. Available: https://msdn.microsoft.com/en-
us/library/microsoft.kinect.face.facemodelbuilder.aspx. [Último acceso: 20 07 2017]. 45 A. ANDREW, «Another Efficient algorithm for convex hulls in two dimensions,» Proc, Letters, 1979. 46 A. A. K. Hormann, «The point in polygon problem for arbitrary polygons,» Am Weichselgarten, 2000.
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
64
que el punto se encuentra dentro. Si por el contrario cruza una cantidad par de contornos entonces
el punto se encuentra por fuera del rostro.
Después de validar si el punto se encuentra dentro del contorno se buscan los 4 puntos del modelo
original más cercanos recorriendo cada uno de los puntos y guardando en un arreglo de 4 casillas
las menores distancias encontradas. Posteriormente se calcula el color que le pertenece a ese pixel
según la distancia y el color de sus puntos aledaños como se demuestra en la ecuación 2 donde c
es el valor de color de cada punto n, M es la distancia del punto que se encuentra más alejado del
pixel y d es la distancia de cada punto n al pixel.
Posteriormente se guarda la imagen en la carpeta base de la aplicación para enviarla al momento
de enviar el mensaje.
Desde el aplicativo también puede grabarse un mensaje de audio el cual tiene un máximo de 3
minutos de duración, aunque el usuario puede detener la grabación en cualquier momento. Este se
graba usando el canal de audio del Kinect. Cuando el usuario presiona el botón de “Grabar” se abre
la conexión con el sensor de audio del Kinect y los fotogramas de audio que llegan se guardan en
un archivo wav en la carpeta base de la aplicación.
La última función disponible para el usuario es la de enviar el mensaje. Esta sólo está disponible si
existe una imagen con el mapa del rostro que no se haya enviado y si el usuario destinatario existe
en la base de datos remota. Si estos dos casos se cumplen entonces se suben los archivos de audio,
si existe, e imagen al servidor. Estos archivos se envían a través de una solicitud http con
codificación multipart/form-data. El servidor guarda la información e los archivos y responde con
el id generado en la base de datos. Estos id se envían junto con el cuerpo del mensaje, el destinatario
y el emisor del mensaje.
El servidor retorna un estado y un mensaje que indican si el mensaje se entregó correctamente y,
si no fue así, la razón por la cual no se pudo entregar el mensaje. Esta información es
retroalimentada al usuario.
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
65
Servidor
Para que el mensaje pueda llegar correctamente desde la estación de captura hasta el dispositivo
hardware es necesario contar con un puente que los conecte a través de una red de internet. Por esta
razón se implementó un servidor con entorno en tiempo de ejecución Nodejs versión 6.11.3 alojado
en Amazon Web Services.
La información de los mensajes, los archivos de audio e imagen, los datos de los módulos de
captura y de representación que se conectan al aplicativo se almacenan en una base de datos
MySQL.
Desde el servidor se exponen un socket a través del cual se pueden conectar los módulos de captura
y representación. El módulo de captura se conecta por demanda para realizar el registro de la
aplicación, subir la información multimedia y, finalmente, enviar el mensaje. Para esto se ponen a
disposición, a través del socket establecido, varios servicios que reciben la información necesaria
para realizar las tareas requeridas.
La conexión con el módulo de representación se realiza a través del dispositivo móvil que tiene la
aplicación instalada. Para eso se establece una conexión en tiempo real por sockets donde el
dispositivo y el servidor están constantemente escuchando por los mensajes que pueden enviarse
desde un extremo al otro. Al momento de iniciar la conexión el servidor registra el móvil en la base
de datos y guarda la información de conexión en un arreglo local que sólo existe en tiempo de
ejecución, es decir, esta información no es persistente. En el momento en que se pierde la conexión
se elimina el registro y este valor ya no puede encontrarse entre los dispositivos conectados.
Cuando el dispositivo móvil se conecta al hardware PinArt, envía la información de este para crear
un vínculo entre los dos. De este modo los mensajes dirigidos a un determinado hardware llegarán
a través del móvil asociado.
Para el registro de la información del módulo de captura se recibe la información del id único
generado por esa instancia del aplicativo. Esta información es buscada en la base de datos. Si la
información ya se encuentra almacenada entonces se retorna el id del registro previamente
guardado. En el caso contrario se crea un nuevo registro en la base de datos y se retorna el nuevo
id generado.
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
66
En el caso del envío de archivos se expone un servicio que recibe los datos del archivo enviado a
través de la codificación multipart/form-data y se almacena en una carpeta de acceso público para
facilitar la descarga desde el aplicativo móvil. Cuando ya se ha guardado el archivo se guarda un
registro en la base de datos con la ubicación de este y se retorna el id generado a quien consume el
servicio.
Por último, se expone un servicio para el envío del mensaje el cual requiere los identificadores del
remitente, la imagen y el audio, si existe uno. Para identificar al destinatario se incluye la
información de la dirección MAC del dispositivo hardware. La primera validación que se realiza
es si la información de dirección MAC corresponde a uno de los dispositivos hardware registrados
en el sistema, si no es así se retorna un error explicando que no existe el destinatario del mensaje.
Si sí existe un registro con esa dirección MAC se procede a buscar si tiene un dispositivo móvil
asociado. Dado el caso de que no tenga un dispositivo asociado se guarda el mensaje en estado
“Pendiente”, se envía cuando se asocie un dispositivo y se retorna un mensaje indicándole al
consumidor del servicio que el mensaje no pudo entregarse. Si existe un dispositivo móvil
conectado entonces se valida si existe en la lista de dispositivos conectados para enviarle el mensaje
inmediatamente.
Aplicación móvil
La función principal del aplicativo móvil es la de mostrarle al usuario, de manera oportuna, los
mensajes que recibe para ser representados por el pin art y poder escuchar el audio adjunto, para
los casos donde este exista. Para este fin se desarrollan dos servicios [47] en segundo plano que
controlan la comunicación con el servidor y la comunicación con el hardware a través del
Bluetooth.
Antes de poder ingresar a visualizar los mensajes, se realiza una validación de conexión a algún
dispositivo Bluetooth ya que este es necesario para la representación del mensaje. Esto se logra
47 Developers, "Services," [Online]. Available: https://developer.android.com/guide/components/services.html.
[Accessed 10 09 2017].
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
67
guardando la información del dispositivo conectado en el servicio y haciendo que esta información
sea persistente entre las Actividades [48] [49].
El servicio que recibe la información del mensaje envía inmediatamente un mensaje a la actividad
principal a través de un mensaje interno de la aplicación [50] el cual lo recibe y guarda la
información en una base de datos local (SQLite haciendo uso de la clase nativa SQLiteDatabase
[51]) con el estado “nuevo”. Posteriormente el usuario debe decidir si guardar el mensaje (estado
“guardado”) o eliminarlo. Estos estados permiten filtrar los mensajes para las interfaces de
“Bandeja de entrada” y “Galería”. La información que recibe el servicio es: el título del mensaje,
la URL de la imagen, la URL del audio si está disponible y el emisor del mensaje.
Al seleccionar un mensaje, ya sea desde la bandeja de entrada o la galería, se carga el audio desde
la URL guardada. Si no hay audio disponible se esconden los controles relacionados a este.
El botón de “Representar imagen” inicia el proceso de envío de la imagen desde el móvil al
hardware a través de la conexión establecida por el usuario. Debido a que la representación se
realiza de manera demostrativa en un arreglo de leds, la información debe tener un pre-
procesamiento a través del cual se crean los fotogramas que se van a visualizar en el hardware.
Proceso de envío de la imagen
Inicialmente se descarga la imagen guardada en el servidor en escala de grises y se convierte en un
arreglo de enteros con el valor de cada pixel expresado como un número entre 0 y 255. El arreglo
resultante se divide en bloques de 8 x 8 que representan cada una de las matrices de leds.
Luego se divide cada uno de estos bloques en 24 arreglos que representan cada fotograma. Para
esto se resta del valor de intensidad del pixel el valor de intensidad que representa el fotograma
resultando en la ecuación 3 donde f es el índice del fotograma actual, F es la cantidad total de
fotogramas, p es el valor de intensidad de ese pixel y m es el valor máximo de intensidad que puede
tener el pixel.
48 Developers, "Activities," [Online]. Available: https://developer.android.com/guide/components/activities..
[Accessed 25 09 2017]. 49 Developers, "Intent," [Online]. Available: https://developer.android.com/reference/android/content/Intent.html.
[Accessed 10 10 2017]. 50 Developers, "Broadcasts," [Online]. Available: https://developer.android.com/guide/components/broadcasts.html.
[Accessed 10 10 2017]. 51 Developers, "SQLiteDatabase," [Online]. Available:
https://developer.android.com/reference/android/database/sqlite/SQLiteDatabase.html. [Accessed 12 10 2017].
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
68
Para enviar la información al hardware se convierte cada columna de cada bloque en su valor
decimal correspondiente teniendo en cuenta que el primer dígito binario es el que se encuentra al
final de la columna figura 38-a ya que es de esta manera que se envía la información a la matriz de
leds. Para esto se gira cada bloque 90 grados en el sentido de las manecillas del reloj, se concatenan
los números en forma de texto figura 38-b para luego tomar el valor binario obtenido y convertirlo
en una decimal figura 38-c.
Ilustración 39 Conversión de binario a decimal para envío al hardware
Todos los valores resultantes se agregan a un arreglo de bytes que es enviado al hardware por medio
del Bluetooth.
Al terminar este proceso el usuario debe elegir si guardar el mensaje para que permanezca en la
galería o eliminarlo.
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
69
XII. VALIDACIÓN DE PROTOTIPOS
Pruebas de usuario aplicación de escritorio y Kinect
Prueba de extracción de rostro
A través de la aplicación de escritorio desarrollada se extraen diez muestras del rostro de una misma
persona con el objetivo de comprobar la fidelidad del mapa generado. Cada fotografía podrá ser
encontrada con una mejor resolución en el anexo “Prueba Kinect misma expresión”.
Ilustración 40 Representación del mismo rostro
Como se puede observar en la Figura 40, el sistema capturó con éxito el rostro con una
frecuencia de diez veces.
Prueba de gestos
Se tomaron diez fotografías, cada una de ellas con una expresión facial distinta, con el objetivo de
corroborar que el sistema está en la capacidad de capturar rostros con diferentes expresiones, las
fotografías con mayor resolución pueden ser encontradas en el anexo “Prueba de extracción
expresiones faciales”.
Ilustración 41
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
70
Ilustración 42 Prueba de iluminación
Como se puede ver en la Figura 42, el sistema captura el rostro incluso en un ambiente de baja
luminiscencia.
Pruebas de velocidad
Registro en el servidor
Captura de la imagen
Encontrar el rostro
Subida de imagen
Subida de audio
Envío mensaje a servidor
Envío de servidor a móvil
Prueba 1 00:00.8 00:14.6 00:09.6 00:00.4 00:00.9 00:00.330 00:00.4
Prueba 2 00:01.0 00:15.3 00:11.5 00:00.5 00:47.5 00:00.320 00:00.8
Prueba 3 00:01.4 00:13.0 00:13.2 00:00.5 00:41.2 00:00.310 00:00.9
Prueba 4 00:00.7 00:12.6 00:13.1 00:00.5 00:25.8 00:00.320 00:00.5
Prueba 5 00:00.7 00:12.3 00:05.0 00:00.6 00:49.7 00:00.330 00:00.1
Registro del servidor
Pruebas de distancia
Se tomaron fotografías a diferentes distancias para identificar el rango de captura óptima para el
sistema:
0.2 Metros
0.8 Metros
1.0 Metros
1.2 Metros
2.0 Metros
Ilustración 43 Distancia permitida para la captura del rostro
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
71
Como se puede observar en la Figura 43, después de 1.2 Metros, la captura del rostro se deshabilita
ya que, a partir de esta distancia, el sistema empieza a tener problemas ubicando el rostro en el
plano. Así mismo para la distancia mínima, después de 0.8 metros el sistema desactiva el botón de
captura de imágenes.
Pruebas de interfaz en aplicación de escritorio (persona 3)
El objetivo consistió en poner a prueba la interfaz gráfica con un prototipo de alta fidelidad. Los
usuarios, una vez contextualizados, debían realizar tareas específicas. Con ello, se mediría la
usabilidad de la interfaz. Se reunieron un total de cinco usuarios, a los cuales se les pidió realizar
tareas específicas, como tomar una foto, grabar un audio y finalmente enviarlo.
Resultados
Los usuarios no parecían tener claro por dónde empezar, para ninguno resultó entendible cómo
tomar la fotografía, después de tomar la fotografía no entendían por dónde o qué paso seguir. Ya
que el programa desactiva el botón de tomar imagen cuando el sistema detecta alguna
imposibilidad, ya sea por la distancia o porque no encuentra un rostro, los usuarios se vieron
muchas veces inhabilitados para tomar la fotografía sin saber el motivo.
En general se pudo diferenciar un impedimento para realizar cualquier actividad a pesar de haber
sido anteriormente contextualizados. Los usuarios se enfrentaron a una interfaz gráfica que no los
guiaba en sus tareas. Fue por esto que se agregaron las siguientes modificaciones a la interfaz
gráfica.
Fue añadida una pantalla de inicio donde se le da la posibilidad al usuario de acceder a un tutorial
o pasar directamente a la captura del rostro.
Dentro de la pantalla de tutorial se contextualiza al usuario sobre las tareas que necesita realizar
para enviar su mensaje con éxito (ver Figura 44 - 45).
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
72
Ilustración 44 Pantalla de inicio aplicación de escritorio
Ilustración 45 Pantalla tutorial aplicación de escritorio
También fueron agregadas ayudas a cada botón que servirán como ayuda auxiliar en caso de que
el usuario tenga dudas sobre qué hacer. Al iniciar la aplicación, se agregó una ventana emergente
que alerta al usuario sobre la distancia requerida para la captura del rostro, también, el mensaje
alerta sobre la inactivación del botón “capturar imagen” si el usuario no se encuentra en la distancia
requerida (ver imagen 27).
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
73
Ilustración 46 Advertencia de distancia aplicación de escritorio
Pruebas de usuario de la aplicación móvil (persona 1 y 2)
A cada usuario se le suministró un teléfono celular marca HUAWEI modelo P9 Lite, el cual cuenta
con una pantalla de 5.2 pulgadas y sistema operativo Android 6.0. Contaron con siete minutos para
que se familiarizaran con el tamaño del dispositivo, la navegación y la ubicación de las aplicaciones
instaladas en el mismo. Al finalizar los siete minutos, se solicitó a cada usuario que abriera la
aplicación “CAD APP” y que navegara a través de la misma durante cinco minutos para finalmente
decir para qué cree que sirve la aplicación.
Se le pidió a cada usuario que navegara hasta una imagen específica ubicada en la galería de la
aplicación y le avisara al entrevistador cuando estuviese seguro de haber abierto la imagen
solicitada. Se midió la cantidad de errores cometidos por el usuario y el tiempo requerido para
cumplir con la solicitud.
Los usuarios tuvieron la oportunidad de dar sus comentarios acerca de la distribución de los botones
de la aplicación, el tamaño de los mismos y la estructura de navegación. Estos comentarios y la
experiencia en la ejecución de esta prueba se registran en las siguientes tablas.
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
74
Usuario 1
Imagen solicitada:
Imagen 4 Errores cometidos:
0
Tiempo usado: 53 segundos Resumen de la experiencia:
Sencillo
Comentarios frente a distribución de botones:
Los botones están bien de tamaño, la bandeja de entrada y la
galería pueden ser un mismo botón. y hacer algo como “Tienes un nuevo mensaje” en lugar de
tener el botón siempre disponible.
¿Qué cree que hace la aplicación?
“Creo que la aplicación
administra y controla el dispositivo
PinArt”
Usuario 2
Imagen solicitada: Imagen 2 Errores cometidos:
0
Tiempo usado: 2 minutos y 10 segundos
Resumen de la experiencia:
Es fácil de usar la aplicación y lo sería aún más en mi
propio celular.
Comentarios frente a distribución de botones:
Todo muy bien.
¿Qué cree que hace la aplicación?
“Selecciona qué rostro mostrar.”
Usuario 3
Imagen solicitada: Imagen 5 Errores cometidos:
0
Tiempo usado: 1 minuto y 12 segundos
Resumen de la experiencia:
Muy buena, me gustaría instalarla en mi celular y probarla.
Comentarios frente a distribución de botones:
Los tamaños son muy buenos para las
personas invidentes.
¿Qué cree que hace la aplicación?
Es para seleccionar qué rostro mostrar en
el dispositivo.
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
75
Usuario 4
Imagen solicitada:
Imagen 7 Errores cometidos:
0
Tiempo usado: 2 minutos y 50 segundos Resumen de la experiencia:
Es buena y puede ser mejor y más fácil de
manejar
Comentarios frente a distribución de botones:
Hay descripciones sonoras que confunden, dicen algo como “gallery activity” y otras que dicen “buscando
imagen” ... no entendía muy bien qué hace cada botón ¿y la
aplicación se llama CAD APP?, pensé que era “PinArt”
¿Qué cree que hace la aplicación?
“Me permite conectarme con quien me va a
enviar su rostro”
Resultados prueba de usuario aplicación móvil
Con esta prueba se pudo confirmar que el tamaño establecido para los botones era el correcto para
crear una experiencia de usuario satisfactoria, ya que, de todos los usuarios evaluados, ninguno
tuvo inconvenientes al pulsar los botones. Sin embargo, cabe mencionar que uno de ellos reportó
haber tenido dificultades con la descripción auditiva que dio el Google TalkBack.
Ninguno de los usuarios falló en la instrucción que se le dio para realizar la prueba y tuvieron un
promedio de tiempo para resolver el problema de 1 minuto y 46 segundos.
Los usuarios no tuvieron problema en identificar el propósito de la aplicación después de realizar
las pruebas.
Pruebas de Hardware
Tiempo de transmisión de datos
La prueba consistió en medir el tiempo que tardaba la aplicación en enviar un mensaje al hardware
a través de Bluetooth y representarlo. Se realizaron diez pruebas de envío de datos de un mismo
rostro (ver Figura 47).
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
76
Ilustración 40 Representación de rostro en arreglo de leds
El tiempo promedio que tarda la aplicación en enviar el mismo rostro diez veces es de 3.55 Seg.
Se observa que los resultados arrojados de la prueba no se encuentran muy alejados unos de otros,
por lo que se puede concluir que la aplicación es consistente en el envío del mensaje.
Tiempo que tarda en mostrar los 24 fotogramas:
El objetivo de la prueba fue el de medir el tiempo que tardaba el hardware en representar 24
fotogramas de un mismo rostro.
El tiempo promedio que tarda el hardware en representar los 24 fotogramas de un mismo rostro
diez veces es de 2.1 Seg. Se observa que durante las pruebas no se evidenciaron problema en la
conexión entre los dos dispositivos, también, los resultados muestran consistencia en los datos que
recibe el hardware versus los que envía el aplicativo.
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
77
XIII. CONCLUSIONES
El acercamiento y la aplicación de la metodología de diseño del pensamiento con el grupo objetivo
permitió la extracción de características usables que facilitaron el correcto desarrollo de la interfaz
gráfica de la aplicación móvil. De los cuatro usuarios evaluados en la prueba de la aplicación móvil,
ninguno tuvo inconvenientes en navegar y completar la tarea que se le pidió, también, los usuarios
manifestaron estar cómodos con la navegación propuesta en la aplicación, finalmente, sólo uno de
ellos reportó un error en la lectura del Google TalkBack en ciertos botones, un punto a tener en
cuenta a la hora desarrollar la aplicación, ya que si la lectura de los botones es errónea, el usuario
podría perderse en la aplicación.
2. Como se puede observar en la prueba de extracción del mismo rostro y de expresiones faciales,
la librería HD Faces extrae correctamente los rostros, pero se precisa de un método que permita
hacerlo con una mayor fidelidad, ya que los usuarios buscan características únicas en los rostros
para poder reconocerlos y en el estado actual la similitud entre un rostro y otro es muy alta.
3. Para la correcta representación de un rostro en el PinArt análogo se concluyó que el alto de los
pines debe de ser superior a 13 Cm, ya que con la medida actual (7 cm), el rostro solo se puede
representar parcialmente hasta cierta altura, dejando de lado parte de los pómulos, barbilla y
mejillas, haciendo que su correcta identificación se dificulte.
5. De los seis usuarios pertenecientes al tipo persona 3 evaluados en la aplicación de escritorio,
ninguno pudo completar la tarea específica que se le pidió (enviar un mensaje compuesto por un
rostro y audio) ya que la interfaz gráfica presenta inconvenientes en la experiencia de usuario y por
lo tanto se hace necesario evaluar la implementación de un asistente guiado que contextualice al
usuario sobre las tareas que la aplicación puede realizar y como.
6. Al visualizar la información en la matriz de leds se puede evidenciar que cada led muestra la
información de altura de la manera indicada. Por lo tanto es posible escalar el sistema a otros
medios de representación como puede ser un modelo de PinArt automatizado.
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
78
XII. RECOMENDACIONES
Como en todo proyecto, existen diferentes líneas investigativas derivadas del trabajo realizado que
se esperan puedan ser asumidas por posteriores equipos. Durante todo el proceso, se evidenciaron
etapas, temas y procedimientos que, al ser investigados con mayor rigor, podrían representar una
mejora en la efectividad y aplicabilidad de todos los conceptos aquí planteados.
No cabe duda alguna de las posibilidades de este proyecto en cuanto a mejorar y desarrollar
tecnologías inclusivas para personas con discapacidad visual. Es por esto que a continuación se
listan una serie de trabajos futuros que se cree, podrían mejorar sustancialmente los resultados de
este:
• Implementar un método más efectivo para la captura y extracción del rostro, que resulte en
imágenes con mejor definición que permita una representación de mayor fidelidad en el
arreglo de leds.
• Escalar la aplicación y hardware para que pueda reproducir video, ya sea como archivo
grabado o en tiempo real.
• Desarrollar una aplicación móvil que reemplace la estación de captura, y escale todo el
sistema a uno pensado únicamente para personas con discapacidad visual, es decir, el
programa deberá estar en la capacidad de asistir a la persona en la captura de su rostro, le
permita grabar un audio y enviarlo. Así mismo, deberá también cumplir con las tareas de la
aplicación móvil de la estación de representación.
• Proponer un sistema de estaciones de captura públicas donde los usuarios de cualquier tipo
puedan registrar sus rostros y enviarlos.
• Desarrollar un PinArt funcional que permita representar por medio de cilindros delgados
un rostro o un video en tiempo real.
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
79
• Debido a la naturaleza social de este proyecto de grado, realizar una investigación que
permita determinar el mejoramiento de la calidad de vida de las personas con discapacidad
visual al usar el PinArt se hace necesario.
• Realizar un estudio comparativo que demuestre o refute la efectividad en la representación
de rostros con el PinArt versus otras tecnologías.
• Escalar el módulo de audio a uno de reconocimiento automático que pueda reconocer el
rostro, extraer sus características principales y posteriormente narrarlo.
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
80
REFERENCIAS
1 D. P. Bach-y-Rita, «Brainport Technologies,» History, 2017. [En línea]. Available:
https://www.wicab.com/history. [Último acceso: 28 04 2017].
2 World Health Organization, «Media Centre,» Vision impairment and blindness, 10 2017. [En
línea]. Available: http://www.who.int/mediacentre/factsheets/fs282/en/. [Último acceso: 25 09
2017].
3 R. K. y. M. D. l. Vega, «El impacto tecnológico en las personas con discapacidad,» de II Congreso
Iberoamericano de Informática Educativa Especial, 2017.
4 Statista, Number of apps available in leading app stores as of March 2017, 03 2017. [En línea].
Available: https://www.statista.com/statistics/276623/number-of-apps-available-in-leading-app-
stores/. [Último acceso: 15 07 2017].
5 Statista, «Google Play: number of available apps 2009-2017,» Number of available applications
in the Google Play Store from December 2009 to September 2017, 09 2017. [En línea]. Available:
https://www.statista.com/statistics/266210/number-of-available-applications-in-the-google-play-
store/. [Último acceso: 15 09 2017].
6 J. S. y. J. Selva, «Designing Mobile Apps for Visually Impaired and Blind Users,» de The Fifth
International Conference on Advances in Computer-Human Interactions, 2012.
7 M. C. B. y. M. B. B. Leporini, «Interacting with mobile devices via VoiceOver: usability and
accessibility issues,» de 2 Proceedings of the 24th Australian Computer-Human Interaction
Conference, 2012.
8 R. B. y. A. Alvear, «Basic Human Computer Interface for the Blind,» de English LACCEI Latin
American and Caribbean Conference for Engineering and Technology (LACCEI' 2010) Innovation
and Development for the Americas, 2010.
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
81
9 V. G. a. D. G. Michael Wong, «Tactile Spatial Acuity Enhancement in Blindness: Evidence for
Experience-Dependent Mechanisms. The Journal of Neuroscience,» 11 May 2011.
10 J. A. H. ESPERANZA OCHAITA, "Conocimiento del espacio, representación".
11 D. L. A. O. A. H. y. H. I. S. Follmer, «inFORM: Dynamic Physical Affordances and Constraints
through Shape and Object Actuation,» Cambridge, 2013.
12 B. Technologies, "History," [Online]. Available: https://www.wicab.com/brainport-v100.
[Accessed 10 04 2017].
13 A. S. y. M. K. O. Krutikova, «Creation of a Depth Map from Stereo Images of Faces for 3D
Model Reconstruction,» Procedia Computer Science, vol. 104, pp. 452-459, 2017.
15 A. K. Iart, "The Kinetic Facade of the MegaFaces Pavilion," 07 02 2017. [Online]. Available:
https://iart.ch/en/-/die-kinetische-fassade-des-megafaces-pavillons-olympische-winterspiele-
2014-in-sotschi. [Accessed 05 04 2017].
16 M. B. B. L. y. a. M.C. Buzzi, "Design of Web-Based tool to study Blind People´s touch Based
Interaction with Smartphones".
17 R. B. y. A. Alvear, «Basic Human Computer Interface for the Blind,» de English LACCEI Latin
American and Caribbean Conference for Engineering and Technology (LACCEI' 2010) Innovation
and Development for the Americas, 2010.
18 M. Avancini, «Using Kinect to emulate an Interactive,» 2012.
19 O. W. y. R. L. S K . Kane, «Usable Gestures for Blind People: Understending Preference and
Performance,» de Conference: Proceedings of the International Conference on Human Factors in
Computing Systems.
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
82
20 Gobierno de Chile: Ministerio de Educación, «Ministerio de eduación: Educación especial,» 12
2007. [En línea]. Available: http://especial.mineduc.cl/wp-
content/uploads/sites/31/2016/08/GuiaVisual.pdf. [Último acceso: 30 09 2017].
21 D. P. Bach-y-Rita, «Brainport Technologies,» History, 2017. [En línea]. Available:
https://www.wicab.com/history. [Último acceso: 28 04 2017].
22 Blitlab: Feeling get visible, «About Blitlab,» The "IPAD" for the blind, 2017. [En línea].
Available: https://blitab.com. [Último acceso: 15 05 2017].
23 World Health Organization, «Media Centre,» Vision impairment and blindness, 10 2017. [En
línea]. Available: http://www.who.int/mediacentre/factsheets/fs282/en/. [Último acceso: 25 09
2017].
24 R. K. y. M. D. l. Vega, «El impacto tecnológico en las personas con discapacidad,» de II
Congreso Iberoamericano de Informática Educativa Especial, 2017.
25 Statista, Number of apps available in leading app stores as of March 2017, 03 2017. [En línea].
Available: https://www.statista.com/statistics/276623/number-of-apps-available-in-leading-app-
stores/. [Último acceso: 15 07 2017].
26 Statista, «Google Play: number of available apps 2009-2017,» Number of available applications
in the Google Play Store from December 2009 to September 2017, 09 2017. [En línea]. Available:
https://www.statista.com/statistics/266210/number-of-available-applications-in-the-google-play-
store/. [Último acceso: 15 09 2017].
27 J. S. y. J. Selva, «Designing Mobile Apps for Visually Impaired and Blind Users,» de The Fifth
International Conference on Advances in Computer-Human Interactions, 2012.
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
83
28 M. C. B. y. M. B. B. Leporini, «Interacting with mobile devices via VoiceOver: usability and
accessibility issues,» de 2 Proceedings of the 24th Australian Computer-Human Interaction
Conference, 2012.
29 R. B. y. A. Alvear, «Basic Human Computer Interface for the Blind,» de English LACCEI Latin
American and Caribbean Conference for Engineering and Technology (LACCEI' 2010) Innovation
and Development for the Americas, 2010.
30 V. G. a. D. G. Michael Wong, «Tactile Spatial Acuity Enhancement in Blindness: Evidence for
Experience-Dependent Mechanisms. The Journal of Neuroscience,» 11 May 2011.
31 J. A. H. ESPERANZA OCHAITA, "Conocimiento del espacio, representación".
32 R. A. y. T. Siand, "What is Design Thinking and why is it so popular?," 09 2017. [Online].
Available: https://www.interaction-design.org/literature/article/what-is-design-thinking-and-why-
is-it-so-popular. [Accessed 30 09 2017].
33 R. García, «Design Thinking en Español,» [En línea]. Available:
http://designthinking.es/inicio/index.php. [Último acceso: 15 09 2017].
34 R. A. y. T. Siand., "Five Stages of Design Thinking," 2017. [Online]. Available:
https://www.interaction-design.org/literature/article/5-stages-in-the-design-thinking-process.
[Accessed 30 09 2017].
35 Organización Nacional de Ciegos Españoles, «Discapacidad visual e incidencia en la
autonomía,» de Discapacidad visual y autonomía personal, enfoque práctico de la rehabilitación,
2011, pp. 77-110.
36 W. Fleming, «PIN SCREEN». United States Patente 4,536,980, 27 10 1985.
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
84
37 Neowin, "Skype gets a new UI, downloads now available for Windows and OS X," [Online].
Available: https://www.neowin.net/news/skype-gets-a-new-ui-downloads-now-available-for-
windows-and-os-x. [Accessed 20 10 2017].
38 A. S. y. M. K. O. Krutikova, «Creation of a Depth Map from Stereo Images of Faces for 3D
Model Reconstruction,» Procedia Computer Science, vol. 104, pp. 452-459, 2017.
39 M. S. a. A. Y. N. A. Saxena, «Make3D: Depth Perception from a Single Still Image,» Palo Alto,
California.
40 Neowin, "Skype gets a new UI, downloads now available for Windows and OS X," [Online].
Available: https://www.neowin.net/news/skype-gets-a-new-ui-downloads-now-available-for-
windows-and-os-x. [Accessed 20 10 2017].
41 Developers, "Dashboards," [Online]. Available:
https://developer.android.com/about/dashboards/index.html. [Accessed 30 09 2017].
42 Microsoft, «FaceModelBuilder Class,» [En línea]. Available: https://msdn.microsoft.com/en-
us/library/microsoft.kinect.face.facemodelbuilder.aspx. [Último acceso: 20 07 2017].
43 Microsoft, "Microsoft Developers Network," [Online]. Available:
https://msdn.microsoft.com/en-us/library/dn785525.aspx. [Accessed 01 10 2017].
44 Microsoft, «FaceModelBuilder Class,» [En línea]. Available: https://msdn.microsoft.com/en-
us/library/microsoft.kinect.face.facemodelbuilder.aspx. [Último acceso: 20 07 2017].
45 A. ANDREW, «Another Efficient algorithm for convex hulls in two dimensions,» Proc, Letters,
1979.
46 A. A. K. Hormann, «The point in polygon problem for arbitrary polygons,» Am Weichselgarten,
2000.
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
85
47 Developers, "Services," [Online]. Available:
https://developer.android.com/guide/components/services.html. [Accessed 10 09 2017].
48 Developers, "Activities," [Online]. Available:
https://developer.android.com/guide/components/activities.. [Accessed 25 09 2017].
49 Developers, "Intent," [Online]. Available:
https://developer.android.com/reference/android/content/Intent.html. [Accessed 10 10 2017].
50 Developers, "Broadcasts," [Online]. Available:
https://developer.android.com/guide/components/broadcasts.html. [Accessed 10 10 2017].
51 Developers, "SQLiteDatabase," [Online]. Available:
https://developer.android.com/reference/android/database/sqlite/SQLiteDatabase.html. [Accessed
12 10 2017].
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
86
ANEXOS
Matriz de marco lógico
Indicadores Medios de Verificación Supuestos
OBJETIVO FIN
Mejorar la
calidad de vida de
las personas
invidentes en la
ciudad de Cali
Se mejoró la calidad
de vida de las
personas invidentes
en la ciudad de Cali
Encuestas de
satisfacción
OBJETIVO
PROPÓSITO
La ciudad de Cali
tendrá un
sistema que
represente
rostros
en un matriz de
leds, basados en
el PinArt
Estación de
reconocimiento,
estación de captura,
hardware de
representación
de rostros
Documento de análisis,
levantamiento de
requerimientos,
pruebas de usuario,
diagramas, resultados
de pruebas con
prototipo de hardware
COMPONENTES
Se definieron los
parámetros del
sistema a nivel
experiencia de
usuario, usando
la metodología
de pensamiento
de diseño (Design
thinking).
Documentos con
requerimientos de
usuario y pruebas
Entrevistas, pruebas de
usuario, documento de
requerimientos
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
87
Se definieron los
métodos y
tecnologías a usar en
cada uno de los
procesos
involucrados
Documentos con pruebas Diagramas de flujos,
levantamiento de
requerimientos, bocetos de
interfaces, documento del
estado del arte
Se diseñó, desarrolló
e implementó la
plataforma siguiendo
las directivas del
diseño
Estación de captura,
estación de
representación y
aplicación móvil
Diagramas, pruebas de
usuario, grabaciones,
encuestas, app móvil
Se evaluaron las
diferentes estaciones
del proyecto con
usuarios con
discapacidad visual
Informe con resultado de
las pruebas
Resultados de las pruebas de
usuario, resultados de pruebas
al prototipo de hardware,
código fuente, editables de la
interfaz
ACTIVIDADES
Se realizó un primer
acercamiento con el
grupo objetivo para
informar sobre los
propósitos del
proyecto.
Se generó un informe
con las apreciaciones
iniciales del usuario
sobre el proyecto.
Se realiza una
segunda reunión con
prototipos no
funcionales
Se generó un informe de
pruebas de usuarios con
prototipos no
funcionales
Generar informe
sobre pruebas con
prototipos no
funcionales
Se generó un
informe detallado
con los
requerimientos
y apreciaciones de
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
88
los usuarios para el
diseño y desarrollo
de la plataforma
Determinar la
tecnología a usar en
la estación de captura
Se determinó la
tecnología a usar en
la estación de
captura
Determinar la
tecnología a usar en
la estación de
representación
Se determinó la
tecnología a usar en
la estación de
representación
Determinar la
tecnología a usar en
la aplicación móvil
Se determinó la
tecnología a usar en
la aplicación móvil
Determinar la
tecnología a usar en
el servidor
Se determinó la
tecnología a usar en
el servidor
Implementar la
tecnología a usar en
la estación de captura
Se implementó la
tecnología a usar en
la estación de
captura
Implementar la
tecnología a usar en
la estación de
representación
Se implementó la
tecnología a usar en
la estación de
representación
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
89
Implementar la
tecnología a usar en
la aplicación móvil
Se implementó la
tecnología a usar en
la estación de móvil
Implementar la
tecnología a usar en
el servidor
Se implementó la
tecnología a usar en
el servidor
Pruebas de usuario a
la estación de captura
Se realizaron
pruebas de usuario a
la estación de
captura
Pruebas de usuario a
la estación de
representación
Se realizaron
pruebas de usuario a
la estación de
representación
Pruebas técnicas al
servidor
Se realizaron
pruebas de usuario a
la aplicación móvil
Actividades
Objetivo
1
Definir los parámetros del sistema a
nivel experiencia
de usuario usando la metodología de
pensamiento
de diseño (Design thinking).
Realizar reunión para contextualizar al grupo objetivo
sobre el proyecto
Realizar una segunda reunión con prototipos no
funcionales
Generar informe sobre pruebas con prototipos no
funcionales
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
90
Objetivo
2
Determinar los métodos y tecnologías
a usar en cada
uno de los procesos involucrados en el
proyecto.
Determinar la tecnología a usar en la estación de captura
Determinar la tecnología a usar en la estación de
representación
Determinar la tecnología a usar en la aplicación móvil
Determinar la tecnología a usar en el servidor
Objetivo
3
Implementar la plataforma siguiendo
las directivas del diseño.
Implementar la tecnología a usar en la estación de captura
Implementar la tecnología a usar en la estación de
representación
Implementar la tecnología a usar en la aplicación móvil
Implementar la tecnología a usar en el servidor
Objetivo
4
Evaluar el prototipo del sistema a
través de pruebas
con usuarios con discapacidad visual.
Pruebas de usuario a la estación de captura
Pruebas de usuario a la estación de representación
Pruebas de usuario a la aplicación móvil
Objetivo General
Reconocimiento facial para representar rostros usando tecnología basada
en PinArt para personas con discapacidad visual.
Ruta Crítica
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
91
Costeo y actividades
ACTIVIDAD DESCRIPCIÓN ITEM
COSTO
UNI UNIDADES
TOTAL
ITEM
A1.1 Contactar con el grupo objetivo
Horas hombre $8.000 5 $40.000
Plan celular $32.000 1 $32.000
A1.2 Celebrar reunión
Horas hombre $8.000 6 $48.000
IPAD $850.000 1 $850.000
A1.3 Generar reporte inicial de primer contacto
con el grupo objetivo Horas hombre $8.000 3 $24.000
A2.1 Celebrar reunión con prototipos no
funcionales
Horas hombre $8.000 6 $48.000
Materiales
prototipo
PinArt $350.000 1 $350.000
A2.2 Generar reporte de reunión con usuarios y
prototipos no funcionales Horas hombre $8.000 5 $40.000
A3.1 Generar reporte con requerimientos
extraídos de las dos reuniones anteriores Horas hombre $8.000 10 $80.000
B1.1
Extraer de las reuniones anteriores
requerimientos técnicos a
incorporar y tener en cuenta Horas hombre $8.000 3 $24.000
B1.2
Realizar una búsqueda
bibliográfica para determinar la
tecnología a usar Horas hombre $8.000 16 $128.000
B2.1
Extraer de las reuniones anteriores
requerimientos técnicos a
incorporar y tener en cuenta Horas hombre $8.000 3 $24.000
B2.2
Realizar una búsqueda
bibliográfica para determinar la
tecnología a usar Horas hombre $8.000 16 $128.000
B3.1
Extraer de las reuniones anteriores
requerimientos técnicos a
incorporar y tener en cuenta Horas hombre $8.000 3 $24.000
B3.2
Realizar una búsqueda
bibliográfica para determinar la
tecnología a usar Horas hombre $8.000 16 $128.000
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
92
B4.1
Extraer de las reuniones anteriores
requerimientos técnicos a
incorporar y tener en cuenta Horas hombre $8.000 3 $24.000
B4.2
Realizar una búsqueda
bibliográfica para determinar la
tecnología a usar Horas hombre $8.000 16 $128.000
C1.1 Diseño de la estación de captura Horas hombre $8.000 50 $400.000
C1.2 Desarrollo de la estación de captura
Horas hombre $8.000 120 $960.000
Kinect para
desarrollo $360.000 1 $360.000
Transportes $1.900 15 $28.500
PC de pruebas $800.000 1 $800.000
C2.1 Diseño de la estación de representación Horas hombre $8.000 130 $1.040.000
C2.2 Desarrollo de la estación de
representación Horas hombre $8.000 50 $400.000
C.3.1 Diseño de la aplicación móvil Horas hombre $8.000 20 $160.000
C.3.2 Desarrollo de la estación móvil Horas hombre $8.000 150 $1.200.000
C.4.1 Diseño de la estructura del servidor Horas hombre $8.000 10 $80.000
C.4.2
Desarrollo de la estructura del servidor
Horas hombre $8.000 25 $200.000
Servidor AWS $17.000 2
D1.1 Realizar pruebas de usuario con la
estación de captura Horas hombre $8.000 8 $64.000
D1.2 Redactar informe sobre prueba Horas hombre $8.000 8 $64.000
D2.1 Realizar pruebas de usuario con la
estación de representación Horas hombre $8.000 8 $64.000
D2.2 Redactar informa sobre prueba Horas hombre $8.000 8 $64.000
D3.1 Realizar pruebas de usuario con la app
móvil Horas hombre $8.000 8 $64.000
D3.2 Redactar informe sobre prueba Horas hombre $8.000 16 $128.000
Total: $8.196.500
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
93
Reporte primer encuentro con grupo objetivo
Entrevistado: Angie Vélez
Teléfono de contacto: 317 777 6186
Entrevistador: José Luis Araujo Silva
Lugar: Sala Hellen Keller, Biblioteca Departamental - Santiago de Cali
¿Interactúas o hablas a través de llamadas telefónicas, celulares o por internet?
Sí, por todas.
¿Cómo haces para comunicarte?
¿Cómo así?
A través de estas plataformas que me dices.
Sí, pues normal. A través de todas, de Internet, de todas.
Tú te comunicas con personas que conoces, que te encuentras en la calle, familiares o ¿hay personas
con las que te comunicas y que nunca has tenido frente a frente?
Sí, yo he tratado con gente que nunca he visto físicamente.
¿En algún momento te parece que es útil o necesario saber cómo es el rostro de la persona con la
que estás hablando?
Sí, de pronto cuando uno la escucha; por la voz, uno dice “¿cómo será?”.
¿Surge entonces el deseo de tocar ese rostro?
Sí, claro, de uno saber cómo es, tocarlo… ¿cómo es?
¿Normalmente qué herramientas tienes para reconocer el rostro de una persona?
Las manos.
¿Las pozas directamente sobre el rostro y te vas haciendo una idea?
Claro, uno lo va palpando, si la piel es suave.
¿En qué características te fijas al tocar un rostro?
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
94
Pues así lo que uno puede percibir por el tacto, la piel, si tiene la naríz ancha…
¿Puedes reconocer el rostro de un amigo o un familiar, solo con tocar su rostro, sin escuchar su
voz?
A veces lo confunden a uno, porque hay personas parecidas… en la voz, en la loción que usan.
¿Crees entonces que sería muy difícil reconocer a alguien solo a partir de palpar su rostro?
Yo creo que sí.
¿Te parece útil una herramienta que te permita tocar un rostro, aunque la persona no esté allí
físicamente?
Pues sí.
¿Cómo te la imaginas?
Tendría que ser como una imagen que salga allí de la persona…
¿Te has encontrado alguna vez con algo parecido a un rostro, aunque no sea una persona?
En algunos adornos, sí.
¿Has llegado a tocar máscaras?
Sí.
¿Qué sensación has podido percibir? ¿Se sienten como rostros?
Algunos, algunos son muy parecidos y otros que no se perfeccionan bien, aunque uno puede tocar
y decir “Sí, es una cara”.
¿En algún momento de tu día tocas el rostro de alguien?
Hay días que paso sin tocar un rostro.
¿Hay rostros que ya has palpado anteriormente, en algún momento te interesaría volver a tocarlo?
Sí, claro.
Hablemos de cantantes, actores… ¿Te resultaría útil tener la oportunidad de tocar el molde del
rostro de un actor?
Sí, uno siempre tiene la curiosidad. Si tuviese la oportunidad, obvio.
Si por ejemplo estás tocando un rostro y al mismo tiempo escuchas que te dicen “Esta persona es
trigueña”. ¿Consideras útil esta descripción?
Sí, claro.
¿Se te ocurre algo más de este tipo que te serviría para reconocer un rostro?
La forma, el color de la piel.
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
95
¿Te parece necesario conocer la altura de la persona?
Sí, uno también se fija en esas cosas.
¿Cómo transcurre un día normal para ti?
Me levanto, me arreglo, salgo, hoy por lo menos ando por aquí. Hago deporte, llego a mi casa, me
reúno con mi familia, enciendo el televisor…
¿Interactúas con amigos?
Sí, por lo menos hoy vengo a la sala y estoy con mis amigos… me meto a WhatsApp…
¿Cómo interactúas con tu WhatsApp?
Pues él habla. Tiene un programa especial, uno le va pasando el dedo y él va diciendo todos los
elementos que hay en la pantalla.
Si llegas a un lugar y no tienes datos, ¿tú preguntas la clave del wifi?
Sí.
¿Puedes ingresar la contraseña sin problemas?
Sí, claro. Simplemente si el teléfono tiene el programa, tú consigues la contraseña y la vas
ingresando.
¿Es habitual que tú ingreses la contraseña y te arroje error?
Sí, claro. Entonces borro y vuelvo a intentar, hasta que conecte.
Mientras usas tu teléfono, ¿has pensado que algunas cosas podrían mejorar?
Sí.
Lo ideal es que, al posar el dedo sobre un botón, ¿este te diga qué hace?
Sí, sí…
¿Qué otras aplicaciones hablan mientras navegas, YouTube?
Sí, él te dice cada barra y cada botón que aparece.
¿Cómo se llama este programa?
Talkback. Él te dice todo lo que aparece en pantalla.
¿Hace cuánto tiempo lo estás usando?
Hace como dos años.
¿En algún momento te sientes frustrada al usarlo?
No, ya no.
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
96
Entrevistado: Darling Mayora
Teléfono de contacto: 315 792 5215
Entrevistador: José Luis Araujo Silva
Lugar: Sala Hellen Keller, Biblioteca Departamental - Santiago de Cali
¿Interactúas con alguien a través de llamadas telefónicas, celulares o Internet?
Sí, yo hablo por WhatsApp, llamadas telefónicas con mis amigos y por Facebook.
¿Cómo haces para comunicarte con alguien que no está presente físicamente?
A través de las redes sociales o por llamadas telefónicas.
¿En algún momento de la conversación consideras que es útil tocar el rostro de la persona con la
cual estás hablando?
A veces sí es necesario para tener una imagen o una descripción de la persona.
¿Qué herramientas usas para hacer este reconocimiento?
Más que todo uso el tacto y, a veces, la voz.
¿A través de la voz de la persona la puedes reconocer?
Sí.
¿Puedes reconocer a través del tacto a una persona que has palpado previamente?
Sí.
¿En qué te basas para hacer ese reconocimiento?
Uno toca el rostro y siempre va a encontrar una característica referente a la persona o cuando uno
escucha la voz, se graba el tono y cuando vuelve a ver a la persona la puede identificar.
¿Te basta cuando te dicen “él es más o menos narizón, ojón…”?
No me gusta, no me baso en eso; busco otras opiniones y finalmente digo “no, esta es más parecida
a las demás opiniones” y me quedo con esa.
¿A medida que te cuentan cómo es el rostro de una persona, tú te vas haciendo una imagen mental
de ella?
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
97
Sí, me voy haciendo una imagen mental y cuando se da la oportunidad de conocer a esa persona,
ya uno tiene adelantada una imagen de ella.
En este orden de ideas, ¿tú crees que sería útil una herramienta que te permita tocar el rostro, no el
rostro real, pero sí algo así como una máscara muy parecida a una persona?
Sí, sería chévere un elemento que le describa a uno la persona.
Tú has llegado a tocar una estatua, ¿sí?
Sí.
¿Puedes hacerte una idea de que eso es un rostro, aunque sea una estatua?
Sí, de que es una persona.
Si existiera una herramienta que te permitiera a ti, a través de tus manos, reconocer el rostro de una
persona que no está allí; no importa si es un amigo tuyo, un familiar, un actor famoso, un cantante,
no importa quién sea. ¿Cómo te imaginas que sería esa herramienta?
Que la herramienta fuera como una máscara o un sensor, que uno a través de las manos identifique
que es un rostro, qué persona es la que uno está tocando o está sintiendo.
En caso de existir esta herramienta, ¿te gustaría utilizarla?
Sí, me encantaría, hacer uso de ella para poder tener idea de algunas personas.
Al nivel de detalle que tú consideres, por favor cuéntame cómo es un día normal para ti; cualquier
día.
Un día normal para mí es levantarme, cepillarme, desayunar, bañarme, luego de arreglar algunas
cosas cuando tengo que salir para mis entrenos y luego entrenar, salir; venir a la biblioteca, a mi
clase y luego llego a mi casa a hablar por WhatsApp y luego a sentarme y mis novelas.
¿Normalmente usas mucho WhatsApp?
Sí.
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
98
Entrevistado: Efraín Solís
Teléfono de contacto: 320 797 1720
Entrevistador: José Luis Araujo Silva
Lugar: Sala Hellen Keller, Biblioteca Departamental - Santiago de Cali
¿Tú interactúas o hablas con alguien a través de llamadas telefónicas, celulares o por internet?
Por todas.
¿Sí, sí, ¿sí?
Sí, señor.
¿Qué usas para interactuar con estas personas?
Pues, está el WhatsApp, el Skype, el Messenger, por esas interactúo yo.
¿En algún momento del día o de la semana puedes llegar a estar físicamente cerca de estas
personas?
Físicamente… en ocasiones.
¿Pero existe alguna con la que nunca hayas estado frente a frente?
Sí, también.
Cuando estás interactuando con esta persona en particular, ¿a ti te surge la necesidad o te parecería
útil tocar su rostro?
Sí, a uno siempre le da la curiosidad, ¿cómo será? narizona, bocona, ojona, peli larga. Uno se hace
una imaginación, pero usted sabe que a veces la imaginación le falla a uno.
¿Más allá de la curiosidad, para ti es útil tocar el rostro de alguien?
No, no.
¿Nunca depende algo específico de que tú le hayas tocado o no el rostro a alguien?
No.
¿Es más que todo por gusto?
¿Qué herramientas tienes para imaginarte el rostro de esa persona?
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
99
Solamente imaginación.
¿La más apropiada sería directamente tocar?
Exactamente.
Cuando ya has tocado un rostro, ¿puedes recordarlo?
En ocasiones. Hay puntos claves, por ejemplo, si la nariz es ancha, la boca grande o pequeña. Uno
tiene que buscar el punto de referencia.
¿Es más que todo buscar un rasgo?
Exactamente, sí señor.
¿Si luego tocas otro rostro y encuentras ese rasgo, tú inmediatamente piensas en la otra persona?
Sí, si no habla uno pensaría que es la primera persona.
Si tienes frente a ti a dos personas y nunca has escuchado sus voces…
Sí, si los rostros son similares… ahí sí es difícil.
¿Los rostros los enriqueces con el tema de la voz?
Sí, lo complemento con eso.
Si en algún momento tienes la oportunidad de tocar un rostro, el de algún actor que escuches que
todo el mundo habla de él… ¿quién se te viene a la mente?
Angelina…
Digamos que está la oportunidad de tocar el rostro de Angelina Jolie…
¡Ay, mamacita!
¿Hay otra información que te gustaría obtener de ese rostro, además de la obtenida del tacto?
Sí, claro… digamos que ya pasó el punto de tocar, ahora uno quiere saber más información: color
de labios, color de pelo. Más que todo depende del interés que uno tenga en esa persona, porque si
no le interesa uno la tocó y ya.
Si no es una necesidad, si no es del todo útil… a ti te gustaría que existiera una herramienta que
sin que la persona esté allí físicamente, ¿tú puedas tocar su rostro?
Sí, me parece interesante. ¡Obvio!
¿Cómo crees que sería eso?
Más que todo relieve.
¿Tú has llegado a tocar algo similar?
No.
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
100
Por ejemplo, cuando en Halloween los niños andan con máscaras…
¡Ah, sí!
¿Tú puedes decir que es una cara, que se siente como una cara?
Sí, sí, claro.
Si se desarrolla esa herramienta y tú tienes la posibilidad de elegir qué cara mostrar. Por ejemplo,
la cara de Laura. Entonces te aparece la cara de Laura y tú la puedes tocar, ¿te parecería útil?
¡Sí, claro! porque uno así no está dependiendo de nada. A veces uno pide asesoría y lo cuentean a
uno. Uno se hace una ilusión falsa y luego alguien le dice la verdad y…
Si a ti te interesa que la información sea clara, ¿en qué te basarías para pensar que no te están
cuenteando?
No, uno a veces duda de la persona; es como el instinto.
Si fuese una máquina que te diga el color de los ojos es tal, ¿tú le creerías?
Siempre está el beneficio de la duda, así sea una máquina.
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
101
Entrevistado: Ivone Erazo
Teléfono de contacto: 314 751 1552
Entrevistador: José Luis Araujo Silva
Lugar: Sala Hellen Keller, Biblioteca Departamental - Santiago de Cali
¿Normalmente interactúas o hablas con alguien a través de tu teléfono celular o Internet?
Sí.
¿Qué usas para comunicarte?
WhatsApp, llamadas y Facebook Messenger.
¿Conoces a todas las personas con las cuales hablas, te has encontrado con ellas físicamente?
Entrevistado: John Jaime Chaparro
Teléfono de contacto: 310 495 8549
Entrevistador: José Luis Araujo Silva
Lugar: Sala Hellen Keller, Biblioteca Departamental - Santiago de Cali
¿Usted normalmente interactúa o habla con alguien por teléfono o por internet?
Sí, normalmente.
¿A través de qué herramientas realiza estas interacciones?
En el computador a través de un programa lector de pantalla y en el teléfono por medio de un
software llamado TalkBack, a través del cual podemos llevar a cabo todas las funciones del
teléfono.
¿En algún momento hablas con alguien a quien únicamente conoces por internet o por WhatsApp?
Sí.
¿En algún momento te parece útil hacerte una idea del rostro de esa persona a través del tacto?
¡Uy, sí!
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
102
¿Es necesario o es por gusto?
Para saber cómo es la persona.
¿Qué herramientas tiene actualmente para conocer cómo es el rostro de una persona?
En este momento el tacto, tocarla.
Le sirve de algo que le digan “él es blanco, alto…”
¿Qué otra persona me lo diga?
Sí, que otra persona se lo describa.
Sí, normalmente es lo que uno hace, pero no confío en cuanto a eso en todas las personas. Eso es
confiar en el gusto de otro, entonces no.
Cuando usted tiene la oportunidad de tocar un rostro, ¿usted sabe que es un rostro?
Sí.
¿Qué le hace pensar a usted que se trata de un rostro?
Los rasgos, la forma.
¿Qué otra cosa? ¿Usted ha llegado a estar en la calle y tocar algo y pensar que es un rostro?
Sí, pero no. Un día me llevaron a un sitio y me dijeron qué hay aquí…
¿Usted ha llegado a tocar un maniquí?
Sí.
¿Cree que es similar a un rostro, al menos en forma?
Un maniquí no… tiene que ser un maniquí muy bien hecho. De pronto el cuerpo sí, pero la cara
no.
Si usted toca un rostro y a la semana siguiente va a tocarlo otra vez, ¿usted puede reconocer a la
persona solo palpando el rostro?
No, tiene que ser que tenga algo muy característico, algo que lo diferenciara. No creo tener esa
habilidad para reconocerlo.
Te parecería útil contar con una herramienta que te muestre un rostro así la persona no esté allí, sin
necesidad de que la persona esté físicamente.
Uy, sí… y cómo, o sea… ¡jum! ¿pero más o menos cómo sería?
Nosotros traeremos nuestra idea de proyecto, para ver si definitivamente se puede entender como
un rostro o no, pero ¿sí te parecería interesante que esa herramienta exista?
Sí, claro, ¿pero no siempre va a ser el mismo rostro si no el rostro que uno quiere?
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
103
De la persona que digamos… a través de una llamada él te diga “ahí te envié mi rostro”, ¿qué tal
suena?
Uy, sí… suena interesante, pero ¿quién se lo describe a uno?
Tu propio tacto, tú tocas. Como si fuese un celular muy grande.
¿Sí? Uy, sí. A mí me parecería… imagínate uno chateando con una hembra y que “¿ve vos cómo
sos?” y “no ahí te mando mi rostro”. ¡Uy, sí!
Si te mandan entonces un rostro. ¿Tú qué otra información consideras útil? como por ejemplo el
tono de voz o que la misma máquina te diga “el rostro que usted está tocando, la piel es blanca” o
“es trigueño”. ¿Te parecería útil?
Sí, claro.
En este momento tú sabes que existe la iniciativa de hacer algo así. Nosotros estamos trabajando
en un prototipo, la idea es que al tenerlo se lo traeremos a las personas que participaron en esta
entrevista. ¿A usted le gustaría participar?
Sí, claro, ¿dónde, en la San Buenaventura?
Pues, nosotros podemos traerlo. ¿Cómo le puedo avisar que lo vamos a traer?
Anote mi número...
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
104
Entrevistado: Osbaldo Pérez
Teléfono de contacto: 310 501 9940
Entrevistador: José Luis Araujo Silva
Lugar: Sala Hellen Keller, Biblioteca Departamental - Santiago de Cali
Osbaldo, ¿usted interactúa o habla con alguien a través de llamadas telefónicas, celulares o por
internet?
Sí, con mucha gente, claro.
¿Qué herramientas usa para esto?
El internet, digamos. A veces el Skype, el teléfono. Esos son los medios para yo comunicarme.
Las personas con las cuales usted habla a través de estos medios, ¿son personas que usted en algún
momento se encuentra físicamente?
Sí, claro.
¿Hay alguna que no haga parte de este grupo, alguien que nunca haya tenido cerca físicamente?
Sí, en una ocasión conocí a una persona de Chile y la comunicación era únicamente por Skype
porque por razones obvias ella estaba allá y yo acá y pues dialogábamos.
Interactuando con esta persona ¿a usted le surge la curiosidad o la necesidad de tocar su rostro?
No necesariamente, que me haya dado esa inquietud no porque digamos que me enfocaba más en
la conversación.
En su interactuar diario con personas, en algún momento a ¿usted le gustaría reconocer el rostro de
esa persona a través del tacto o que alguien se la describiera?
Pues, yo veía… así que cuando yo veía no había necesidad de que nadie me describiera porque yo
podía darme cuenta, pero digamos que ahora para mí pesa más quién es que cómo es, pero no
estaría de más en algunos casos conocer el rostro de la persona. No le puedo negar que uno no
diga… no es mi prioridad, pero si hubiese una manera, pues la aceptaría, claro; no podría
rechazarla.
¿Usted en este momento tiene algún índice de visión o un espectro?
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
105
En este momento mi visión es mínima, no veo ni distingo nada.
¿Usted ha empezado a valerse de sus manos para hacerse una idea de cómo es el rostro de alguien?
De pronto cuando la situación se presta, no con todo el mundo.
¿Qué factor hay que promueva la situación?
La cercanía, la confianza, si es una relación. Este último es el caso que más puede adecuarse a la
pregunta que me hace. Porque pues no todos los rostros se pueden tocar.
Usted que ya tuvo visión, que sabe cómo son los colores, las formas y ahora que está en esta
situación, ¿usted logra recrear en su cerebro a partir del tacto? que usted toque…
Sí, correcto. Se televisa más fácil por decirlo de alguna manera. Se hace uno la idea y la puede
asemejar a alguien. Uno se hace el dibujo, utilizando personas del pasado o que alguien se puede
parecer a determinada persona y pues ya tiene uno la idea más precisa porque como antes podía
ver pues se hace más exacto lo que se está tocando con lo que se está imaginando.
Le ha llegado a pasar que usted toca un rostro y se le parece al de otra persona.
Del pasado, sí. De alguna compañera de alguna persona… y si no pues ya uno de pronto vio pasar
a alguien así y ya el prototipo o la idea más o menos la saca.
Cree usted que si tan solo tocando, sin escuchar la voz… solo poniendo las manos sobre un rostro
y recorriéndolo, ¿si en un mes usted vuelve a tocar ese mismo rostro, usted puede saber que se trata
de esa persona que nunca escuchó hablar?
Es difícil, recordarlo sería complicado. A no ser que tenga alguna característica especial, de lo
contrario no. Porque si se toca a alguien similar uno podría pensar que es la misma persona que
tocó hace un mes, tendría que ser algo que lo marcara a uno.
¿Qué actor recuerda de cuando podía ver?
A Laura Cristina Geyner, una actriz a la que admiraba mucho.
¿Usted la llegó a ver?
En las novelas, no veía televisión, pero lo prendía solo para verla a ella.
Si en este momento alguien le hablara de una artista y usted dice “eh, tan chévere verla”, pero
obviamente se dificulta sea porque la persona vive lejos o incluso porque la gente a veces muere
sin uno conocerla. ¿Usted cree que si hubiese una herramienta que pudiese reproducir el rostro de
una persona sin necesidad de que esté físicamente a usted le serviría para hacerse una idea de cómo
era?
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
106
Por supuesto que sí, con la circunstancia que usted está planteando, claro. Si se me aparece una
imagen que más o menos yo asocio con la persona, fantástico, sería de mucha utilidad.
¿Cómo se imagina que sería esa herramienta? Que permita que con sus manos usted toque el rostro
de una persona, aunque no esté físicamente frente a usted. ¿Cómo se imagina que sería?
No, pues hablamos de algo muy palpable. No sabría qué decirle.
Si esta herramienta pudiese dar más información sobre el rostro, ¿qué tipo de información a usted
le parecería útil?
Un fragmento de la grabación de voz serviría para asociar o conocer las características. Los olores
también ayudan.
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
107
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
108
Pruebas de usuario PinArt análogo
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
109
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
110
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
111
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
112
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
113
Prueba Kinect misma expresión
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
114
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
115
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
116
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
117
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
118
Prueba de extracción expresiones faciales
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
119
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
120
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
121
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
122
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
123
Prueba aplicación móvil
A cada usuario se le suministró un teléfono celular marca HUAWEI modelo P9 Lite, el cual cuenta
con una pantalla de 5.2 pulgadas y sistema operativo Android 6.0. Contaron con siete minutos para
que se familiarizaran con el tamaño del dispositivo, la navegación y la ubicación de las aplicaciones
instaladas en el mismo. Al finalizar los siete minutos, se solicitó a cada usuario que abriera la
aplicación “CAD APP” y que navegara a través de la misma durante cinco minutos para finalmente
decir para qué cree que sirve la aplicación.
Se le pidió a cada usuario que navegara hasta una imagen específica ubicada en la galería de la
aplicación y le avisara al entrevistador cuando estuviese seguro de haber abierto la imagen
solicitada. Se midió la cantidad de errores cometidos por el usuario y el tiempo requerido para
cumplir con la solicitud.
Los usuarios tuvieron la oportunidad de dar sus comentarios acerca de la distribución de los botones
de la aplicación, el tamaño de los mismos y la estructura de navegación. Estos comentarios y la
experiencia en la ejecución de esta prueba se registran en las siguientes tablas.
Usuario 1
Imagen
solicitada:
Imagen 4 Errores
cometidos:
0
Tiempo usado: 53 segundos Resumen de la
experiencia:
Sencillo
Comentarios
frente a
distribución de
botones:
Los botones están bien de tamaño, la
bandeja de entrada y la galería
pueden ser un mismo botón. y hacer
algo como “Tienes un nuevo
mensaje” en lugar de tener el botón
siempre disponible.
¿Qué cree que
hace la
aplicación?
“Creo que la
aplicación
administra y
controla el
dispositivo PinArt”
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
124
Usuario 2
Imagen
solicitada:
Imagen 2 Errores
cometidos:
0
Tiempo usado: 2 minutos y 10 segundos Resumen de la
experiencia:
Es fácil de usar la
aplicación y lo sería
aún más en mi
propio celular.
Comentarios
frente a
distribución de
botones:
Todo muy bien. ¿Qué cree que
hace la
aplicación?
“Selecciona qué
rostro mostrar.”
Usuario 3
Imagen solicitada: Imagen 5 Errores
cometidos:
0
Tiempo usado: 1 minuto y 12 segundos Resumen de la
experiencia:
Muy buena, me gustaría
instalarla en mi celular y
probarla.
Comentarios frente a
distribución de
botones:
Los tamaños son muy
buenos para las
personas invidentes.
¿Qué cree que
hace la
aplicación?
Es para seleccionar qué
rostro mostrar en el
dispositivo.
RECONOCIMIENTO FACIAL PARA REPRESENTAR ROSTROS EN 2D USANDO TECNOLOGÍA BASADA…
125
Usuario 4
Imagen
solicitada:
Imagen 7 Errores
cometidos:
0
Tiempo usado: 2 minutos y 50 segundos Resumen de la
experiencia:
Es buena y puede
ser mejor y más
fácil de manejar
Comentarios
frente a
distribución de
botones:
Hay descripciones sonoras que
confunden, dicen algo como “gallery
activity” y otras que dicen “buscando
imagen” ... no entendía muy bien qué
hace cada botón ¿y la aplicación se
llama CAD APP?, pensé que era
“PinArt”
¿Qué cree que
hace la
aplicación?
“Me permite
conectarme con
quien me va a
enviar su rostro”