Representación de funciones multidimensionales mediante...
Transcript of Representación de funciones multidimensionales mediante...
![Page 1: Representación de funciones multidimensionales mediante ...lya.fciencias.unam.mx/gfgf/cubamex2013/miercoles/gabrielgil.pdf• Una ventaja de las RN es que los datos de referencia](https://reader033.fdocuments.ec/reader033/viewer/2022042019/5e76e41c8c675673fd5c9532/html5/thumbnails/1.jpg)
Representación de funciones multidimensionales mediante
Redes Neurales
Gabriel Gil Pérez
EMNO 2013, 23 de enero.
Instituto de Cibernética, Matemática y Física (ICIMAF)
Aplicaciones en problemas de Dinámica Molecular
![Page 2: Representación de funciones multidimensionales mediante ...lya.fciencias.unam.mx/gfgf/cubamex2013/miercoles/gabrielgil.pdf• Una ventaja de las RN es que los datos de referencia](https://reader033.fdocuments.ec/reader033/viewer/2022042019/5e76e41c8c675673fd5c9532/html5/thumbnails/2.jpg)
SUMARIO
• Motivación física. Construcción de Superficies de Energía Potencial de sistemas atómicos.
• Redes Neurales
§ Descripción general de Redes Neurales.
§ Estructura feed-forward.
§ Entrenamiento. Algoritmo back-propagation.
§ Overfitting. Validación y prueba.
§ Generación del conjunto de datos de entrenamiento.
• Hacia una aplicación en la dinámica del sistema NO-H2(n=24)
Behler, J., Chem. Modell. 7, 1-41 (2010)
![Page 3: Representación de funciones multidimensionales mediante ...lya.fciencias.unam.mx/gfgf/cubamex2013/miercoles/gabrielgil.pdf• Una ventaja de las RN es que los datos de referencia](https://reader033.fdocuments.ec/reader033/viewer/2022042019/5e76e41c8c675673fd5c9532/html5/thumbnails/3.jpg)
MOTIVACIÓN
• Las simulaciones de Dinámica Molecular y de Monte Carlo dependen de la Superficie de Energía Potencial.
{ }2
2 ( )II I n Id RM Rdt
ε= −∇
SEP
![Page 4: Representación de funciones multidimensionales mediante ...lya.fciencias.unam.mx/gfgf/cubamex2013/miercoles/gabrielgil.pdf• Una ventaja de las RN es que los datos de referencia](https://reader033.fdocuments.ec/reader033/viewer/2022042019/5e76e41c8c675673fd5c9532/html5/thumbnails/4.jpg)
MOTIVACIÓN
• Las simulaciones de Dinámica Molecular y de Monte Carlo dependen de la Superficie de Energía Potencial.
1d
2d
E• Función multidimensional que depende de las posiciones de los átomos.
• Evaluar cada punto es muy costoso computacionalmente.
Se requiere obtener una forma analítica fácil de evaluar. § Solución 1: Ajustes de formas funcionales semiempíricas.
Si la forma funcional asumida no es la apropiada…
![Page 5: Representación de funciones multidimensionales mediante ...lya.fciencias.unam.mx/gfgf/cubamex2013/miercoles/gabrielgil.pdf• Una ventaja de las RN es que los datos de referencia](https://reader033.fdocuments.ec/reader033/viewer/2022042019/5e76e41c8c675673fd5c9532/html5/thumbnails/5.jpg)
MOTIVACIÓN
• Las simulaciones de Dinámica Molecular y de Monte Carlo dependen de la Superficie de Energía Potencial.
1d
2d
E• Función multidimensional que depende de las posiciones de los átomos.
• Evaluar cada punto es muy costoso computacionalmente.
Se requiere obtener una forma analítica fácil de evaluar. § Solución 1: Ajustes de formas funcionales semiempíricas. § Solución 2: Splines
…solo para funciones de pocas variables.
![Page 6: Representación de funciones multidimensionales mediante ...lya.fciencias.unam.mx/gfgf/cubamex2013/miercoles/gabrielgil.pdf• Una ventaja de las RN es que los datos de referencia](https://reader033.fdocuments.ec/reader033/viewer/2022042019/5e76e41c8c675673fd5c9532/html5/thumbnails/6.jpg)
MOTIVACIÓN
• Las simulaciones de Dinámica Molecular y de Monte Carlo dependen de la Superficie de Energía Potencial.
1d
2d
E• Función multidimensional que depende de las posiciones de los átomos.
• Evaluar cada punto es muy costoso computacionalmente.
Se requiere obtener una forma analítica fácil de evaluar. § Solución 1: Ajustes de formas funcionales semiempíricas. § Solución 2: Splines
§ Solución 3: Redes Neurales
Behler, J., Parrinello, M., Phys. Rev. Lett. 98, 146401 (2007)
![Page 7: Representación de funciones multidimensionales mediante ...lya.fciencias.unam.mx/gfgf/cubamex2013/miercoles/gabrielgil.pdf• Una ventaja de las RN es que los datos de referencia](https://reader033.fdocuments.ec/reader033/viewer/2022042019/5e76e41c8c675673fd5c9532/html5/thumbnails/7.jpg)
• Las redes neurales artificiales son un modelo matemático inspirado en la estructura y funcionamiento de de las redes neurales biológicas.
REDES NEURALES
Σ f y2x
1x
3x
1ω
2ω
3ω
![Page 8: Representación de funciones multidimensionales mediante ...lya.fciencias.unam.mx/gfgf/cubamex2013/miercoles/gabrielgil.pdf• Una ventaja de las RN es que los datos de referencia](https://reader033.fdocuments.ec/reader033/viewer/2022042019/5e76e41c8c675673fd5c9532/html5/thumbnails/8.jpg)
• Las redes neurales artificiales son un modelo matemático inspirado en la estructura y funcionamiento de de las redes neurales biológicas.
• Consisten en un grupo interconectado de neuronas artificiales.
REDES NEURALES
Σ f y2x
1x
3x
1ω
2ω
3ω
i ii
y f xω⎛ ⎞= ⎜ ⎟
⎝ ⎠∑
( )xΘ
…unidad de procesamiento o nodo…
• El propósito más general de una Red Neural es construir una relación entrada-salida para analizar o clasificar datos.
• Las redes neurales artificiales son un modelo matemático inspirado en la estructura y funcionamiento de de las redes neurales biológicas.
• Consisten en un grupo interconectado de neuronas artificiales.
![Page 9: Representación de funciones multidimensionales mediante ...lya.fciencias.unam.mx/gfgf/cubamex2013/miercoles/gabrielgil.pdf• Una ventaja de las RN es que los datos de referencia](https://reader033.fdocuments.ec/reader033/viewer/2022042019/5e76e41c8c675673fd5c9532/html5/thumbnails/9.jpg)
REDES NEURALES
Σ f y2x
1x
3x
1ω
2ω
3ω
• Se ha demostrado que las redes neurales artificiales son aproximantes universales.
• En problemas de regresión o aproximación de funciones se sustituye la función paso-unitario por una función continua.
( )xΘ tanh( )xa
i ii
y f xω⎛ ⎞= ⎜ ⎟
⎝ ⎠∑
![Page 10: Representación de funciones multidimensionales mediante ...lya.fciencias.unam.mx/gfgf/cubamex2013/miercoles/gabrielgil.pdf• Una ventaja de las RN es que los datos de referencia](https://reader033.fdocuments.ec/reader033/viewer/2022042019/5e76e41c8c675673fd5c9532/html5/thumbnails/10.jpg)
RED NEURAL FEED-FORWARD
3 3 2 2 1 101 1 0 0( ( ( )))i i ji j kj k
i j kE f f f Gω ω ω ω ω ω= + + +∑ ∑ ∑
Bias
1G
2G
3G
21y22y
11y12y13y13y
E23y
Capa de entrada Capa oculta No. 1 y No. 2
Capa de salida
Estructura feed-forward:
El flujo de información va de la entrada a la salida, unidireccionalmente.
No hay conexiones entre nodos de la misma capa.
![Page 11: Representación de funciones multidimensionales mediante ...lya.fciencias.unam.mx/gfgf/cubamex2013/miercoles/gabrielgil.pdf• Una ventaja de las RN es que los datos de referencia](https://reader033.fdocuments.ec/reader033/viewer/2022042019/5e76e41c8c675673fd5c9532/html5/thumbnails/11.jpg)
RED NEURAL FEED-FORWARD
• Normalmente, las funciones de activación se eligen entre:
1( )1 xf xe−
=−
( ) tanh( )f x x= 2
( ) xf x e−=
( ) xf x e−= ( )f x x=
preferidas para la estabilidad numérica del optimización de la red…
• Las funciones de forma sigmoidal o la gaussiana tienen un estrecho rango de valores que puede no coincidir con el rango de valores de los datos.
§ Solución 1: Emplear una función lineal como función de activación en la capa de salida.
§ Solución 2: Escalar los datos para que su rango coincida con el de las funciones.
![Page 12: Representación de funciones multidimensionales mediante ...lya.fciencias.unam.mx/gfgf/cubamex2013/miercoles/gabrielgil.pdf• Una ventaja de las RN es que los datos de referencia](https://reader033.fdocuments.ec/reader033/viewer/2022042019/5e76e41c8c675673fd5c9532/html5/thumbnails/12.jpg)
RED NEURAL FEED-FORWARD
• Una Red Neural es una función anidada con elementos funcionales simples, cuya aplicación depende del conjunto de parámetros que pesan las conexiones entre neuronas.
Estos aportan la flexibilidad necesaria para aproximar un amplio rango de funciones.
{ }(_; ) : nE ω →° °
Hallar la función que aproxima a los datos de referencia.
⇔Encontrar los pesos que minimizan la diferencia entre el output y la referencia.
Esquema de regresión
• Los pesos son inicializados aleatoriamente y luego se procede a la optimización de manera iterativa. Esto se conoce como entrenamiento.
![Page 13: Representación de funciones multidimensionales mediante ...lya.fciencias.unam.mx/gfgf/cubamex2013/miercoles/gabrielgil.pdf• Una ventaja de las RN es que los datos de referencia](https://reader033.fdocuments.ec/reader033/viewer/2022042019/5e76e41c8c675673fd5c9532/html5/thumbnails/13.jpg)
ENTRENAMIENTO
( )2, ,1
12
N
j NN j refjE E
N =
Γ = −∑Error
Número de puntos en el ‘set de entrenamiento’
Salida de la Red
Referencia
• El objetivo es minimizar la función de costo para un conjunto de N puntos.
![Page 14: Representación de funciones multidimensionales mediante ...lya.fciencias.unam.mx/gfgf/cubamex2013/miercoles/gabrielgil.pdf• Una ventaja de las RN es que los datos de referencia](https://reader033.fdocuments.ec/reader033/viewer/2022042019/5e76e41c8c675673fd5c9532/html5/thumbnails/14.jpg)
ENTRENAMIENTO
( )2, ,1
12
N
j NN j refjE E
N =
Γ = −∑
1 1i i ii
ω ω η µ ωω+ −
∂Γ= − + Δ
∂
Peso general en la época i-ésima Ritmo de aprendizaje
Parámetro auxiliar para evitar oscilaciones y divergencias
• El objetivo es minimizar la función de costo para un conjunto de N puntos.
§ Algoritmo back-propagation:
La evaluación de los gradientes se realiza eficientemente de forma contraria a la propagación de los datos de entrada.
Converge lentamente y puede quedar atrapado en mínimos locales.
![Page 15: Representación de funciones multidimensionales mediante ...lya.fciencias.unam.mx/gfgf/cubamex2013/miercoles/gabrielgil.pdf• Una ventaja de las RN es que los datos de referencia](https://reader033.fdocuments.ec/reader033/viewer/2022042019/5e76e41c8c675673fd5c9532/html5/thumbnails/15.jpg)
( )2 2, ,
1 1
12
N M
j NN j ref kj kE E
Nα ω
= =
Γ = − +∑ ∑
ENTRENAMIENTO
• Para mejorar el proceso de optimización se pueden tomar las siguientes medidas:
penalización
Examinar varias condiciones iniciales aleatorias para los pesos.
Escoger un orden aleatorio para los datos de entrada para evitar dependencias de la secuencia.
Escalar los datos de entrada para que su rango coincida con el rango de la función de activación.
En rigor, se debería optimizar la arquitectura de la red. (Número de nodos por capa, número de capas.)
![Page 16: Representación de funciones multidimensionales mediante ...lya.fciencias.unam.mx/gfgf/cubamex2013/miercoles/gabrielgil.pdf• Una ventaja de las RN es que los datos de referencia](https://reader033.fdocuments.ec/reader033/viewer/2022042019/5e76e41c8c675673fd5c9532/html5/thumbnails/16.jpg)
VALIDACIÓN Y PRUEBA
Γ
iter
Conjunto de entrenamiento Conjunto de validación
Red Neural optimizada
Para evaluar el error de la red se emplea el Conjunto de Prueba.
{ }ijkω E
• El Error del conjunto de entrenamiento no es necesariamente representativo de la exactitud de la Red para predecir valores que toma la función en puntos nuevos.
( )50 90%−
• Primero, se aprenden las características generales de la función, luego se produce un overfitting...
![Page 17: Representación de funciones multidimensionales mediante ...lya.fciencias.unam.mx/gfgf/cubamex2013/miercoles/gabrielgil.pdf• Una ventaja de las RN es que los datos de referencia](https://reader033.fdocuments.ec/reader033/viewer/2022042019/5e76e41c8c675673fd5c9532/html5/thumbnails/17.jpg)
DATOS DE ENTRENAMIENTO
• Una ventaja de las RN es que los datos de referencia no tienen que ser tomados en una malla regular.
ε
Rregión de interés para la dinámica
• Pueden emplearse métodos de muestreo más eficientes, que generen puntos en la región relevante del espacio de configuraciones.
1) Trayectorias de Dinámica Molecular con una SEP más simple.
2) Método autoconsistente.
![Page 18: Representación de funciones multidimensionales mediante ...lya.fciencias.unam.mx/gfgf/cubamex2013/miercoles/gabrielgil.pdf• Una ventaja de las RN es que los datos de referencia](https://reader033.fdocuments.ec/reader033/viewer/2022042019/5e76e41c8c675673fd5c9532/html5/thumbnails/18.jpg)
HACIA UNA APLICACIÓN...
excitación relajación
estructura hcp
gran amplitud de movimiento de punto cero
3.78a = Αo
• El sistema: NO en para-H2 sólido
• El fenómeno: dinámica de fotoexcitación
Bonacina, L., et al., J. Chem. Phys. 125, 054507 (2006)
![Page 19: Representación de funciones multidimensionales mediante ...lya.fciencias.unam.mx/gfgf/cubamex2013/miercoles/gabrielgil.pdf• Una ventaja de las RN es que los datos de referencia](https://reader033.fdocuments.ec/reader033/viewer/2022042019/5e76e41c8c675673fd5c9532/html5/thumbnails/19.jpg)
§ Entrenamiento con porque es una función muy fluctuante y las zonas de mayor no son de interés para la dinámica.
1/ ε εε
HACIA UNA APLICACIÓN...
§ Detalles computacionales:
- Dos capas de neuronas.
- Tantas variable como neuronas por capa.
- Función de activación: tanh(x)
¡Se requieren más pruebas!
ü Distancias H2 –NO
ü Ángulos entre los ejes de NO y H2.
ü Ángulos H2–NO –H2
o Distancia H-H
o Distancia N-O
Considerar simetrías § Variables de entrada:
![Page 20: Representación de funciones multidimensionales mediante ...lya.fciencias.unam.mx/gfgf/cubamex2013/miercoles/gabrielgil.pdf• Una ventaja de las RN es que los datos de referencia](https://reader033.fdocuments.ec/reader033/viewer/2022042019/5e76e41c8c675673fd5c9532/html5/thumbnails/20.jpg)
¡Muchas Gracias!
Seminario de Física Teórica, ICIMAF, 16 de Noviembre de 2012.