Alberto Ruiz Ariza. Recursos para investigación audio-visual aplicada a la Educación Física
Grupo de Ing. Electrónica aplicada a Espacios INteligentes y TRAnsporte – Área Audio-Visual...
-
Upload
belen-collar -
Category
Documents
-
view
15 -
download
1
Transcript of Grupo de Ing. Electrónica aplicada a Espacios INteligentes y TRAnsporte – Área Audio-Visual...
Grupo de Ing. Electrónica aplicada a Espacios INteligentes y TRAnsporte – Área Audio-Visual
SD-TEAM UAHTecnologías de fusión sensorial audio-visual para
sistemas de diálogo hablado multidominioReunión Valencia – 24 y 25 de noviembre de 2011
Javier Macías GuarasaDepartamento de Electrónica – Universidad de Alcalá
email: [email protected]
2 de 34 SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011
Índice Introducción Revisión de tareas UAH en curso
Descripción técnica: Localización de locutores activos usando
técnicas de compressive sensing Mejoras en seguimiento de posición de
articulaciones basada en vídeo Estimación de pose y movimiento de manos en
tareas de inferencia psicológica
3 de 34 SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011
IntroducciónPresupuesto, personal, objetivo
Presupuesto:
Personal:
Sistemas robustos de detección, localización, seguimiento y estimación de pose multimodal de múltiples locutores en espacios inteligentes: fusión sensorial
Marta Marrón Romera José Luis Martín Sánchez Javier Macías Guarasa
UPV 9 7 90.000,00 € 56.800,00 € 146.800,00 € 151.000,00 € 103% 7.190,48 € UPM 7 6,5 57.000,00 € 86.000,00 € 143.000,00 € 80.000,00 € 56% 4.102,56 € UAH 3 2 17.250,00 € 27.053,00 € 44.303,00 € 22.000,00 € 50% 3.666,67 €
#inv EDPs Personal Ejecución Total Total Total
UPV 9 7 90.000,00 € 56.800,00 € 146.800,00 € 151.000,00 € 103% 7.190,48 € UPM 7 6,5 57.000,00 € 86.000,00 € 143.000,00 € 80.000,00 € 56% 4.102,56 €
Concedido % Concedido INDICADOR COSTE ANUAL REAL
Solicitado
4 de 34 SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011
Tareas en cursoM24-M36: Repaso general
M Tarea Nombre de la tarea T1 T2 T3 T4 T1 T2 T3 T4 T1 T2 T3 T4
M1 X X X X X X X X X X X
T1.1 T1.1Tecnologías para el tratamiento de entradas multimodales
X X X X X X X
T1.3 T1.3Tecnologías para la autoevaluación e integración en el proceso de aprendizaje
X X X X X X X X
M2 X X X X X X X X X
T2.1 T2.1Tecnologías para la obtención automática de información de la tarea y del usuario
X X X X X X X X
M3 X X X X X X X X
T3.2 T3.2 Integración de la multimodalidad X X X X X
M4 X X X X X X X X X X X X
T4.1 T4.1Desarrollo software de la arquitectura e integración de componentes
X X X X X X X X X
T4.2 T4.2Sistemas de diálogo dinámicos para el acceso a servicios desde el hogar
X X X X X X
Mó
du
lo 2 Tecnologías para la interacción y cooperación
Mó
du
lo 4
Mó
du
lo 3 Arquitectura
Aplicaciones y demostradores
Tecnologías para la detección de entorno, la autoevaluación y el aprendizaje autónomo
Mó
du
lo 1
NÚMERO DE MES
Primer año Segundo año Tercer año
5 de 34 SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011
Tareas en cursoMódulo 1
M1. Tecnologías para la detección de entorno, la autoevaluación y el aprendizaje autónomo: T1.1. Tecnologías para el tratamiento de
entradas multimodales (M1-M27) Localización audio, vídeo, audio+vídeo Nuevo: Estimación de pose + movimiento
manos T1.3. Tecnologías para la autoevaluación e
integración en el proceso de aprendizaje (M4-M33) Medidas fiabilidad estimación localización
6 de 34 SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011
Tareas en cursoMódulos 2 y 3 M2. Tecnologías para la interacción y cooperación:
T2.1 Tecnologías para la obtención automática de información de la tarea y del usuario (M1-M30) Identificación del estado emocional de los locutores:
Análisis de viabilidad del uso de información visual para identificación del usuario y su estado emocional (capturas vídeo buena resolución).
Nuevo: Estimación de movimiento de manos para inferencia psicológica
Pendiente evaluación con capturas de SEV: No se abordará
M3. Arquitectura T3.2 Integración de la multimodalidad (M9-M30)
Pendiente consorcio (definición metodología integración y sincronización)
7 de 34 SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011
Tareas en cursoMódulo 4 M4. Aplicaciones y demostradores
T4.1 Desarrollo SW de la arquitectura e integración de componentes (M1-M33) Pendiente: implementación módulos suministro
secuencias vídeo e identificación de gestos T4.2 Sistemas de diálogo dinámicos para el acceso a servicios
desde el hogar (M13-M36) Planificación y equipamiento de la instalación de captura y
procesamiento de audio y vídeo multicanal para su integración en el espacio inteligente de demostración del grupo de la UAH
Generación de demostradores de seguimiento audio (disponible para evaluación proyecto), vídeo (disponible para evaluación proyecto) y fusión (disponibles dos prototipos para evaluación proyecto)
Pendiente: Integración con demostrador control equipos multimedia
8 de 34 SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011
Descripción técnicaLocalización basada en compressive sensing
Planteamiento: Problema de estimación de posición de un
número reducido de locutores en un espacio puede caracterizarse como un problema resoluble con técnicas de compressive sensing
Evaluaremos su rendimiento en competencia con la mejor técnica disponible: SRP-PHAT
Objetivo: Usar técnicas alternativas
de estimación de posición basadas en compressive sensing
José Velasco, Daniel Pizarro,Javier Macías
SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011
Descripción técnicaLocalización basada en compressive sensing
SRP-PHAT: Basado en la estimación de la potencia acústica
analizada en un conjunto discreto de puntos del espacio
Posición del hablante Posición de máximo SRP
SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011
Descripción técnicaLocalización basada en compressive sensing
SRP-PHAT: Estimación genera soluciones que se organizan
en hipérbolas generadas por cada par de micros para cada fuente activa
Ventajas: Procesado Sencillo Preciso
Desventajas: Difícil distinguir múltiple hablantes Análisis local:
No aprovecha la redundancia espacial que caracteriza al problema
SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011
Descripción técnicaLocalización basada en compressive sensing
Nuevo método: Espacio generativo de SRP
SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011
Descripción técnicaLocalización basada en compressive sensing
Nuevo método: Espacio generativo de SRP
SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011
Descripción técnicaLocalización basada en compressive sensing
Nuevo método: Espacio generativo de SRP Idea subyacente:
Cada fuente activa genera tantas hipérbolas como pares de micros
Objetivo: Tratar de explicar la imagen como un conjunto de hipérbolas
¿Cómo?
SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011
Descripción técnicaLocalización basada en compressive sensing
Antecedentes: El desarrollo de
Fourier trata de explicar una señal a partir de sumas de sinusoidales
Misma idea para wavelets, …
Todas ellas representaciones lineales:
Y=A·X
SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011
Descripción técnicaLocalización basada en compressive sensing
Modelo:
SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011
Descripción técnicaLocalización basada en compressive sensing
Consideraciones: El vector posición del
hablante (X) toma valor no nulo en las posiciones donde existe un locutor
En una situación real la mayor parte del espacio está desocupado
Esto es equivalente a exigir que el vector X sea 'Sparse', es decir, pocos elementos no nulos.
SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011
Descripción técnicaLocalización basada en compressive sensing
Objetivo: Encontrar vector X “lo más sparse posible” que
consiga
Equivalente a minimizar la siguiente función de coste:
Costoso computacionalmente (np-hard).
02Xλ+M·XY
XY M·medido
SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011
Descripción técnicaLocalización basada en compressive sensing
Aproximación:
Solución similar Problema convexo Existen algoritmos eficientes Ampliamente utilizado en Compressive Sensing
12Xλ+M·XY
SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011
Descripción técnicaLocalización basada en compressive sensing
Resultados del problema juguete:
SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011
Descripción técnicaLocalización basada en compressive sensing
Resultados del problema juguete:
SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011
Descripción técnicaLocalización basada en compressive sensing
Resultados del problema real: AV16.3 secuencia 01
SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011
Descripción técnicaLocalización basada en compressive sensing
Resultados del problema real: AV16.3 secuencia 01
SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011
Descripción técnicaLocalización basada en compressive sensing
Resultados del problema real: AV16.3 secuencia 01
SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011
Descripción técnicaLocalización basada en compressive sensing
Resultados del problema real: AV16.3 secuencia 01
SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011
Descripción técnicaMejoras en seguimiento articulaciones usando vídeo
Objetivos: Capturar movimiento de múltiples personas sin
equipamiento MOCAP Propuesta:
- HumanEva I & IIHumanEva I & II- Estándar de la comunidadEstándar de la comunidad- 4 sujetos4 sujetos- Posición 3D de las articulacionesPosición 3D de las articulaciones- Secuencias de entrenamiento y de Secuencias de entrenamiento y de testtest
- GPLVMGPLVM
- 46D -> 3D46D -> 3D
Álvaro MarcosMarta MarrónDaniel Pizarro
SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011
Descripción técnicaMejoras en seguimiento articulaciones usando vídeo
Seguimiento en espacio reducido:
SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011
Descripción técnicaMejoras en seguimiento articulaciones usando vídeo
Seguimiento en espacio reducido: Cuánta información hace falta
SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011
Descripción técnicaMejoras en seguimiento articulaciones usando vídeo
Resultados:
SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011
Descripción técnicaEstimación de movimiento para inferencia psicológica
Work in collaboration with IDIAP Database:
Single camera Long sequences
(around 15 minutes each) Constraints:
1 person Only torso Static background
Objective: We will try to find out if it is possible
to reconstruct the whole upper body in monocular sequences
This information could be used in psicological inference studies (emotional state, intended attitude)
Álvaro MarcosMarta MarrónDaniel Pizarro
SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011
Descripción técnicaEstimación de movimiento para inferencia psicológica Idea:
Extremities of the human body show more movement along a video sequence than the rest of the body.
Face localization is possible with state of the art algorithms
A priori information about human motion is available via dataset training data
Hand properties: Along a sequence, they move quicker and in different
directions than the average whole body speed vector They are usually skin colored, but the face also is Assuming a static background, hands will be part of the
foreground data Combining all this information, we build a probability
function for the hands
SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011
Descripción técnicaEstimación de movimiento para inferencia psicológica
Optimization algorithm: We have the whole sequence since the beginning We should take advantage of that: use an optimization
algorithm to avoid local minima and solve tracking errors.
We propose Ant Colony Optimization. “Ant” agents: like in nature, they look for the quickest
route in a problem. They drop pheromone in their path The best path will have lots of phermone. Until now, only applied to discrete problems. We have to define a distance measure: the higher the
probability of a pixel, and the nearer that pixel is, the shorter the distance.
SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011
Descripción técnicaEstimación de movimiento para inferencia psicológica
Dealing with the database: Encode via PCA or other dimensionality
reduction algorithm the dynamics of the human movement
The more information about different movements there are, the better
With the help of psychologists, we have defined the most relevant movements in our job interview situation
With the help of a range sensor (Kinect) we obtained the information of the joint movements in 3D
SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011
Descripción técnicaEstimación de movimiento para inferencia psicológica
Training:
SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011
Descripción técnicaEstimación de movimiento para inferencia psicológica
Hands probability function:
SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011
Descripción técnicaEstimación de movimiento para inferencia psicológica
Ant colony optimization: