Aprendizaje por Refuerzo Transfiriendo Conocimiento · INAOE - Computación • 23 investigadores...
Transcript of Aprendizaje por Refuerzo Transfiriendo Conocimiento · INAOE - Computación • 23 investigadores...
![Page 1: Aprendizaje por Refuerzo Transfiriendo Conocimiento · INAOE - Computación • 23 investigadores de tiempo completo • 95% en el SNI y 40% niveles II y III • Maestría PNPC –](https://reader033.fdocuments.ec/reader033/viewer/2022042914/5f4d961368593756d475df6d/html5/thumbnails/1.jpg)
Aprendizaje por Refuerzo Transfiriendo Conocimiento
Esteban Omar García Eduardo F. Morales, Enrique Muñoz de Cote
Instituto Nacional de Astrofísica, Óptica y Electrónica
![Page 2: Aprendizaje por Refuerzo Transfiriendo Conocimiento · INAOE - Computación • 23 investigadores de tiempo completo • 95% en el SNI y 40% niveles II y III • Maestría PNPC –](https://reader033.fdocuments.ec/reader033/viewer/2022042914/5f4d961368593756d475df6d/html5/thumbnails/2.jpg)
Instituto Nacional de Astrofísica, Óptica y Electrónica (INAOE)
• 27 Centros Públicos de Investigación - Conacyt
• Creado en 1971
![Page 3: Aprendizaje por Refuerzo Transfiriendo Conocimiento · INAOE - Computación • 23 investigadores de tiempo completo • 95% en el SNI y 40% niveles II y III • Maestría PNPC –](https://reader033.fdocuments.ec/reader033/viewer/2022042914/5f4d961368593756d475df6d/html5/thumbnails/3.jpg)
INAOE - Computación • 23 investigadores de tiempo completo • 95% en el SNI y 40% niveles II y III • Maestría PNPC – Consolidado • Doctorado PNPC – Internacional • Aprendizaje – Recon. Patrones, Robótica,
Tratamiento de Lenguaje Natural, Visión, Cómputo Reconfig. y de Alto Desempeño, Proc. de Bio-Señales y Aplicaciones Médicas, Cómputo y Proc. Ubicuo
![Page 4: Aprendizaje por Refuerzo Transfiriendo Conocimiento · INAOE - Computación • 23 investigadores de tiempo completo • 95% en el SNI y 40% niveles II y III • Maestría PNPC –](https://reader033.fdocuments.ec/reader033/viewer/2022042914/5f4d961368593756d475df6d/html5/thumbnails/4.jpg)
Contenido • Motivación • Conceptos:
• Aprendizaje por Refuerzo • Aprendizaje por Transferencia • Procesos Gaussianos
• Propuestas • Experimentos • Conclusiones y Trabajo Futuro
![Page 5: Aprendizaje por Refuerzo Transfiriendo Conocimiento · INAOE - Computación • 23 investigadores de tiempo completo • 95% en el SNI y 40% niveles II y III • Maestría PNPC –](https://reader033.fdocuments.ec/reader033/viewer/2022042914/5f4d961368593756d475df6d/html5/thumbnails/5.jpg)
Introducción • Los robots han evolucionado y
realizan tareas muy diferentes que hace algunos años
• Los ambientes son dinámicos, las tareas son complejas y difíciles de modelar
Ø Se ha recurrido a sistemas de aprendizaje
![Page 6: Aprendizaje por Refuerzo Transfiriendo Conocimiento · INAOE - Computación • 23 investigadores de tiempo completo • 95% en el SNI y 40% niveles II y III • Maestría PNPC –](https://reader033.fdocuments.ec/reader033/viewer/2022042914/5f4d961368593756d475df6d/html5/thumbnails/6.jpg)
Aprendizaje por Refuerzo • Modelado como un MDP: <S,A,P,R> • En cada estado (s), se selecciona una
acción (a), se cambia de estado (P(s’|s,a) y se recibe una recompensa (R(s,a))
• Se aprende por prueba y error a realizar una tarea explorando el ambiente
![Page 7: Aprendizaje por Refuerzo Transfiriendo Conocimiento · INAOE - Computación • 23 investigadores de tiempo completo • 95% en el SNI y 40% niveles II y III • Maestría PNPC –](https://reader033.fdocuments.ec/reader033/viewer/2022042914/5f4d961368593756d475df6d/html5/thumbnails/7.jpg)
Aprendizaje por Refuerzo
• V(s) y Q(s,a) = funciones de valor: Lo que espero recibir de recompensa
• π(s) => a: política:Define qué acción a realizar en cada estado
• Objetivo: Encontrar la política que maximice la recompensa acumulada esperada
![Page 8: Aprendizaje por Refuerzo Transfiriendo Conocimiento · INAOE - Computación • 23 investigadores de tiempo completo • 95% en el SNI y 40% niveles II y III • Maestría PNPC –](https://reader033.fdocuments.ec/reader033/viewer/2022042914/5f4d961368593756d475df6d/html5/thumbnails/8.jpg)
Aprendizaje por Refuerzo
ü No requiere un modelo del ambiente ü El agente aprende solo ü Converge a la política óptima ✗ El aprendizaje es lento ✗ Pocos desarrollos en ambientes
complejos con variables contínuas ✗ No se pueden reutilizar políticas
![Page 9: Aprendizaje por Refuerzo Transfiriendo Conocimiento · INAOE - Computación • 23 investigadores de tiempo completo • 95% en el SNI y 40% niveles II y III • Maestría PNPC –](https://reader033.fdocuments.ec/reader033/viewer/2022042914/5f4d961368593756d475df6d/html5/thumbnails/9.jpg)
Transfer Learning • Idea: Aprender una tarea más rápido usando
información de otra tarea similar
![Page 10: Aprendizaje por Refuerzo Transfiriendo Conocimiento · INAOE - Computación • 23 investigadores de tiempo completo • 95% en el SNI y 40% niveles II y III • Maestría PNPC –](https://reader033.fdocuments.ec/reader033/viewer/2022042914/5f4d961368593756d475df6d/html5/thumbnails/10.jpg)
TL en RL
![Page 11: Aprendizaje por Refuerzo Transfiriendo Conocimiento · INAOE - Computación • 23 investigadores de tiempo completo • 95% en el SNI y 40% niveles II y III • Maestría PNPC –](https://reader033.fdocuments.ec/reader033/viewer/2022042914/5f4d961368593756d475df6d/html5/thumbnails/11.jpg)
TL en RL • En RL se pueden transferir diferentes
aspectos: • Política (π) • Funciones de valor (Q o V) • Tuplas o ejemplos • Parámetros de aprendizaje
• En este trabajo transferimos parámetros y sintetizamos tuplas
![Page 12: Aprendizaje por Refuerzo Transfiriendo Conocimiento · INAOE - Computación • 23 investigadores de tiempo completo • 95% en el SNI y 40% niveles II y III • Maestría PNPC –](https://reader033.fdocuments.ec/reader033/viewer/2022042914/5f4d961368593756d475df6d/html5/thumbnails/12.jpg)
Transferencia de Tuplas • Se tiene que definir qué tuplas transferir • Filtro de Lazaric:
• ¿De dónde transferir? La probabilidad de que la tarea origen genere muestras de la tarea destino (task compliance)
• ¿Cuáles transferir? Muestras muy relevantes o muy alejadas (relevance)
![Page 13: Aprendizaje por Refuerzo Transfiriendo Conocimiento · INAOE - Computación • 23 investigadores de tiempo completo • 95% en el SNI y 40% niveles II y III • Maestría PNPC –](https://reader033.fdocuments.ec/reader033/viewer/2022042914/5f4d961368593756d475df6d/html5/thumbnails/13.jpg)
Procesos Gaussianos • Distribución Gaussiana
multivariada: • Un Proceso Gaussiano es una
generalización a un número infinito de variables
![Page 14: Aprendizaje por Refuerzo Transfiriendo Conocimiento · INAOE - Computación • 23 investigadores de tiempo completo • 95% en el SNI y 40% niveles II y III • Maestría PNPC –](https://reader033.fdocuments.ec/reader033/viewer/2022042914/5f4d961368593756d475df6d/html5/thumbnails/14.jpg)
Procesos Gaussianos • Aunque parece peor trabajar con
dimensionalidad infinita, lo que se calcula se hace en dimensiones finitas
![Page 15: Aprendizaje por Refuerzo Transfiriendo Conocimiento · INAOE - Computación • 23 investigadores de tiempo completo • 95% en el SNI y 40% niveles II y III • Maestría PNPC –](https://reader033.fdocuments.ec/reader033/viewer/2022042914/5f4d961368593756d475df6d/html5/thumbnails/15.jpg)
Procesos Gaussianos • Kernel e Hiperparámetros
![Page 16: Aprendizaje por Refuerzo Transfiriendo Conocimiento · INAOE - Computación • 23 investigadores de tiempo completo • 95% en el SNI y 40% niveles II y III • Maestría PNPC –](https://reader033.fdocuments.ec/reader033/viewer/2022042914/5f4d961368593756d475df6d/html5/thumbnails/16.jpg)
Cálculo de Hiperparámetros • Se minimiza el logaritmo de los
datos con respecto a los hiperparámetros
• Se obtiene su derivada con respecto a los hiperparámetros para optimizarlos
• Se puede caer en mínimos locales
![Page 17: Aprendizaje por Refuerzo Transfiriendo Conocimiento · INAOE - Computación • 23 investigadores de tiempo completo • 95% en el SNI y 40% niveles II y III • Maestría PNPC –](https://reader033.fdocuments.ec/reader033/viewer/2022042914/5f4d961368593756d475df6d/html5/thumbnails/17.jpg)
PILCO • Usa GP para modelar funciones de
transición (P(s’|s,a)) • Usa funciones de base radial para
representar la política • Ciclo:
• Dada una π obten datos • Con datos infiere función de transición • Con función de transición evalúa y
mejora π
![Page 18: Aprendizaje por Refuerzo Transfiriendo Conocimiento · INAOE - Computación • 23 investigadores de tiempo completo • 95% en el SNI y 40% niveles II y III • Maestría PNPC –](https://reader033.fdocuments.ec/reader033/viewer/2022042914/5f4d961368593756d475df6d/html5/thumbnails/18.jpg)
PILCO
![Page 19: Aprendizaje por Refuerzo Transfiriendo Conocimiento · INAOE - Computación • 23 investigadores de tiempo completo • 95% en el SNI y 40% niveles II y III • Maestría PNPC –](https://reader033.fdocuments.ec/reader033/viewer/2022042914/5f4d961368593756d475df6d/html5/thumbnails/19.jpg)
QTL y SST
En este trabajo usamos GP para: • Modelar funciones de transición • Transferimos hiperparámetros • Encontramos diferencias de funciones para
sintetizar tuplas
![Page 20: Aprendizaje por Refuerzo Transfiriendo Conocimiento · INAOE - Computación • 23 investigadores de tiempo completo • 95% en el SNI y 40% niveles II y III • Maestría PNPC –](https://reader033.fdocuments.ec/reader033/viewer/2022042914/5f4d961368593756d475df6d/html5/thumbnails/20.jpg)
QTL • Idea de transferir hiperparámetros (sesgo
sobre distribución de posibles P(s’|s,a))
![Page 21: Aprendizaje por Refuerzo Transfiriendo Conocimiento · INAOE - Computación • 23 investigadores de tiempo completo • 95% en el SNI y 40% niveles II y III • Maestría PNPC –](https://reader033.fdocuments.ec/reader033/viewer/2022042914/5f4d961368593756d475df6d/html5/thumbnails/21.jpg)
Integración de Hiperparámetros • Usando un factor
de olvido • Actualización
Bayesiana
![Page 22: Aprendizaje por Refuerzo Transfiriendo Conocimiento · INAOE - Computación • 23 investigadores de tiempo completo • 95% en el SNI y 40% niveles II y III • Maestría PNPC –](https://reader033.fdocuments.ec/reader033/viewer/2022042914/5f4d961368593756d475df6d/html5/thumbnails/22.jpg)
SST Síntesis de tuplas: • Aprender función de transición en tarea
objetivo, aprender/usar fn. en tarea original, aprender fn. de su diferencia
• En espacios poco explorados generar ejemplos usando ejemplos de tarea original transformados por función de diferencia
![Page 23: Aprendizaje por Refuerzo Transfiriendo Conocimiento · INAOE - Computación • 23 investigadores de tiempo completo • 95% en el SNI y 40% niveles II y III • Maestría PNPC –](https://reader033.fdocuments.ec/reader033/viewer/2022042914/5f4d961368593756d475df6d/html5/thumbnails/23.jpg)
¿Dónde y Cuántas Tuplas?
• En lugares desconocidos (alejados en <s,a>): Si ya tengo ejemplos no necesito generar
• Generar hasta completar el número de ejemplos usados en la tarea original
• Mantener ese número fijo => ir reduciendo el número de ejemplos de la tarea original conforme se explora la tarea objetivo
![Page 24: Aprendizaje por Refuerzo Transfiriendo Conocimiento · INAOE - Computación • 23 investigadores de tiempo completo • 95% en el SNI y 40% niveles II y III • Maestría PNPC –](https://reader033.fdocuments.ec/reader033/viewer/2022042914/5f4d961368593756d475df6d/html5/thumbnails/24.jpg)
SST
![Page 25: Aprendizaje por Refuerzo Transfiriendo Conocimiento · INAOE - Computación • 23 investigadores de tiempo completo • 95% en el SNI y 40% niveles II y III • Maestría PNPC –](https://reader033.fdocuments.ec/reader033/viewer/2022042914/5f4d961368593756d475df6d/html5/thumbnails/25.jpg)
SST
![Page 26: Aprendizaje por Refuerzo Transfiriendo Conocimiento · INAOE - Computación • 23 investigadores de tiempo completo • 95% en el SNI y 40% niveles II y III • Maestría PNPC –](https://reader033.fdocuments.ec/reader033/viewer/2022042914/5f4d961368593756d475df6d/html5/thumbnails/26.jpg)
SST
![Page 27: Aprendizaje por Refuerzo Transfiriendo Conocimiento · INAOE - Computación • 23 investigadores de tiempo completo • 95% en el SNI y 40% niveles II y III • Maestría PNPC –](https://reader033.fdocuments.ec/reader033/viewer/2022042914/5f4d961368593756d475df6d/html5/thumbnails/27.jpg)
SST
![Page 28: Aprendizaje por Refuerzo Transfiriendo Conocimiento · INAOE - Computación • 23 investigadores de tiempo completo • 95% en el SNI y 40% niveles II y III • Maestría PNPC –](https://reader033.fdocuments.ec/reader033/viewer/2022042914/5f4d961368593756d475df6d/html5/thumbnails/28.jpg)
Experimentos
Probar en 3 dominios: • Péndulo invertido
(clásico) • Auto en la montaña
(transferencia negativa)
• De cuadróptero a helicóptero
![Page 29: Aprendizaje por Refuerzo Transfiriendo Conocimiento · INAOE - Computación • 23 investigadores de tiempo completo • 95% en el SNI y 40% niveles II y III • Maestría PNPC –](https://reader033.fdocuments.ec/reader033/viewer/2022042914/5f4d961368593756d475df6d/html5/thumbnails/29.jpg)
Experimentos QTL Probar: • Transferencia desde diferentes variantes • Usar hiperparámetros de tarea original • Usar la política de tarea original • Diferentes valores de γ (γ=0 => PILCO) • Enfoque Bayesiano
![Page 30: Aprendizaje por Refuerzo Transfiriendo Conocimiento · INAOE - Computación • 23 investigadores de tiempo completo • 95% en el SNI y 40% niveles II y III • Maestría PNPC –](https://reader033.fdocuments.ec/reader033/viewer/2022042914/5f4d961368593756d475df6d/html5/thumbnails/30.jpg)
Experimentos QTL
![Page 31: Aprendizaje por Refuerzo Transfiriendo Conocimiento · INAOE - Computación • 23 investigadores de tiempo completo • 95% en el SNI y 40% niveles II y III • Maestría PNPC –](https://reader033.fdocuments.ec/reader033/viewer/2022042914/5f4d961368593756d475df6d/html5/thumbnails/31.jpg)
QTL
1.8 x masa original
4 x masa original
![Page 32: Aprendizaje por Refuerzo Transfiriendo Conocimiento · INAOE - Computación • 23 investigadores de tiempo completo • 95% en el SNI y 40% niveles II y III • Maestría PNPC –](https://reader033.fdocuments.ec/reader033/viewer/2022042914/5f4d961368593756d475df6d/html5/thumbnails/32.jpg)
Experimentos QTL
50% motor 150% motor
300% motor
![Page 33: Aprendizaje por Refuerzo Transfiriendo Conocimiento · INAOE - Computación • 23 investigadores de tiempo completo • 95% en el SNI y 40% niveles II y III • Maestría PNPC –](https://reader033.fdocuments.ec/reader033/viewer/2022042914/5f4d961368593756d475df6d/html5/thumbnails/33.jpg)
Experimentos QTL
![Page 34: Aprendizaje por Refuerzo Transfiriendo Conocimiento · INAOE - Computación • 23 investigadores de tiempo completo • 95% en el SNI y 40% niveles II y III • Maestría PNPC –](https://reader033.fdocuments.ec/reader033/viewer/2022042914/5f4d961368593756d475df6d/html5/thumbnails/34.jpg)
Experimentos SST
• PILCO • Transferir todas las tuplas • Transferir usando filtro simple • Transferir usando filtro Lazaric • Todas las tuplas + SST • Filtro simple + SST • Filtro Lazaric + SST
![Page 35: Aprendizaje por Refuerzo Transfiriendo Conocimiento · INAOE - Computación • 23 investigadores de tiempo completo • 95% en el SNI y 40% niveles II y III • Maestría PNPC –](https://reader033.fdocuments.ec/reader033/viewer/2022042914/5f4d961368593756d475df6d/html5/thumbnails/35.jpg)
Experimentos SST
Recompensa total
![Page 36: Aprendizaje por Refuerzo Transfiriendo Conocimiento · INAOE - Computación • 23 investigadores de tiempo completo • 95% en el SNI y 40% niveles II y III • Maestría PNPC –](https://reader033.fdocuments.ec/reader033/viewer/2022042914/5f4d961368593756d475df6d/html5/thumbnails/36.jpg)
SST
0.25 Kg.
2.0 Kg.
![Page 37: Aprendizaje por Refuerzo Transfiriendo Conocimiento · INAOE - Computación • 23 investigadores de tiempo completo • 95% en el SNI y 40% niveles II y III • Maestría PNPC –](https://reader033.fdocuments.ec/reader033/viewer/2022042914/5f4d961368593756d475df6d/html5/thumbnails/37.jpg)
Experimentos SST
![Page 38: Aprendizaje por Refuerzo Transfiriendo Conocimiento · INAOE - Computación • 23 investigadores de tiempo completo • 95% en el SNI y 40% niveles II y III • Maestría PNPC –](https://reader033.fdocuments.ec/reader033/viewer/2022042914/5f4d961368593756d475df6d/html5/thumbnails/38.jpg)
Experimentos SST
![Page 39: Aprendizaje por Refuerzo Transfiriendo Conocimiento · INAOE - Computación • 23 investigadores de tiempo completo • 95% en el SNI y 40% niveles II y III • Maestría PNPC –](https://reader033.fdocuments.ec/reader033/viewer/2022042914/5f4d961368593756d475df6d/html5/thumbnails/39.jpg)
Ejemplo
![Page 40: Aprendizaje por Refuerzo Transfiriendo Conocimiento · INAOE - Computación • 23 investigadores de tiempo completo • 95% en el SNI y 40% niveles II y III • Maestría PNPC –](https://reader033.fdocuments.ec/reader033/viewer/2022042914/5f4d961368593756d475df6d/html5/thumbnails/40.jpg)
Conclusiones
• RL opción para aprender en robótica • En dominios con muchas variables
(continuas) se tarda mucho y no puede re-utilizar lo aprendido
• Transfer learning es una opción para aprender más rápido reutilizando lo aprendido
![Page 41: Aprendizaje por Refuerzo Transfiriendo Conocimiento · INAOE - Computación • 23 investigadores de tiempo completo • 95% en el SNI y 40% niveles II y III • Maestría PNPC –](https://reader033.fdocuments.ec/reader033/viewer/2022042914/5f4d961368593756d475df6d/html5/thumbnails/41.jpg)
Conclusiones • Dos opciones para hacer TL en RL en
dominios contínuos • Transferir/integrar parámetros (QTL) • Sintetizar ejemplos (SST)
• Buenos resultados en distintos dominios
• Dominios con diferentes variables de estado
• Transfer desde múltiples tareas
Trabajo Futuro
![Page 42: Aprendizaje por Refuerzo Transfiriendo Conocimiento · INAOE - Computación • 23 investigadores de tiempo completo • 95% en el SNI y 40% niveles II y III • Maestría PNPC –](https://reader033.fdocuments.ec/reader033/viewer/2022042914/5f4d961368593756d475df6d/html5/thumbnails/42.jpg)
Gracias [email protected]
![Page 43: Aprendizaje por Refuerzo Transfiriendo Conocimiento · INAOE - Computación • 23 investigadores de tiempo completo • 95% en el SNI y 40% niveles II y III • Maestría PNPC –](https://reader033.fdocuments.ec/reader033/viewer/2022042914/5f4d961368593756d475df6d/html5/thumbnails/43.jpg)