Representación de funciones multidimensionales mediante...

Representación de funciones multidimensionales mediante

Redes Neurales

Gabriel Gil Pérez

EMNO 2013, 23 de enero.

Instituto de Cibernética, Matemática y Física (ICIMAF)

Aplicaciones en problemas de Dinámica Molecular

SUMARIO

•  Motivación física. Construcción de Superficies de Energía Potencial de sistemas atómicos.

•  Redes Neurales

§  Descripción general de Redes Neurales.

§  Estructura feed-forward.

§  Entrenamiento. Algoritmo back-propagation.

§  Overfitting. Validación y prueba.

§  Generación del conjunto de datos de entrenamiento.

•  Hacia una aplicación en la dinámica del sistema NO-H2(n=24)

Behler, J., Chem. Modell. 7, 1-41 (2010)

MOTIVACIÓN

•  Las simulaciones de Dinámica Molecular y de Monte Carlo dependen de la Superficie de Energía Potencial.

{ }2

2 ( )II I n Id RM Rdt

ε= −∇

SEP

MOTIVACIÓN


1d

2d

E•  Función multidimensional que depende de las posiciones de los átomos.

•  Evaluar cada punto es muy costoso computacionalmente.

Se requiere obtener una forma analítica fácil de evaluar. §  Solución 1: Ajustes de formas funcionales semiempíricas.

Si la forma funcional asumida no es la apropiada…

MOTIVACIÓN


1d

2d



Se requiere obtener una forma analítica fácil de evaluar. §  Solución 1: Ajustes de formas funcionales semiempíricas. §  Solución 2: Splines

…solo para funciones de pocas variables.

MOTIVACIÓN


1d

2d



Se requiere obtener una forma analítica fácil de evaluar. §  Solución 1: Ajustes de formas funcionales semiempíricas. §  Solución 2: Splines

§  Solución 3: Redes Neurales

Behler, J., Parrinello, M., Phys. Rev. Lett. 98, 146401 (2007)

•  Las redes neurales artificiales son un modelo matemático inspirado en la estructura y funcionamiento de de las redes neurales biológicas.

REDES NEURALES

Σ f y2x

1x

3x

1ω

2ω

3ω


•  Consisten en un grupo interconectado de neuronas artificiales.

REDES NEURALES

Σ f y2x

1x

3x

1ω

2ω

3ω

i ii

y f xω⎛ ⎞= ⎜ ⎟

⎝ ⎠∑

( )xΘ

…unidad de procesamiento o nodo…

•  El propósito más general de una Red Neural es construir una relación entrada-salida para analizar o clasificar datos.


•  Consisten en un grupo interconectado de neuronas artificiales.

REDES NEURALES

Σ f y2x

1x

3x

1ω

2ω

3ω

•  Se ha demostrado que las redes neurales artificiales son aproximantes universales.

•  En problemas de regresión o aproximación de funciones se sustituye la función paso-unitario por una función continua.

( )xΘ tanh( )xa

i ii

y f xω⎛ ⎞= ⎜ ⎟

⎝ ⎠∑

RED NEURAL FEED-FORWARD

3 3 2 2 1 101 1 0 0( ( ( )))i i ji j kj k

i j kE f f f Gω ω ω ω ω ω= + + +∑ ∑ ∑

Bias

1G

2G

3G

21y22y

11y12y13y13y

E23y

Capa de entrada Capa oculta No. 1 y No. 2

Capa de salida

Estructura feed-forward:

El flujo de información va de la entrada a la salida, unidireccionalmente.

No hay conexiones entre nodos de la misma capa.


•  Normalmente, las funciones de activación se eligen entre:

1( )1 xf xe−

=−

( ) tanh( )f x x= 2

( ) xf x e−=

( ) xf x e−= ( )f x x=

preferidas para la estabilidad numérica del optimización de la red…

•  Las funciones de forma sigmoidal o la gaussiana tienen un estrecho rango de valores que puede no coincidir con el rango de valores de los datos.

§  Solución 1: Emplear una función lineal como función de activación en la capa de salida.

§  Solución 2: Escalar los datos para que su rango coincida con el de las funciones.


•  Una Red Neural es una función anidada con elementos funcionales simples, cuya aplicación depende del conjunto de parámetros que pesan las conexiones entre neuronas.

Estos aportan la flexibilidad necesaria para aproximar un amplio rango de funciones.

{ }(_; ) : nE ω →° °

Hallar la función que aproxima a los datos de referencia.

⇔Encontrar los pesos que minimizan la diferencia entre el output y la referencia.

Esquema de regresión

•  Los pesos son inicializados aleatoriamente y luego se procede a la optimización de manera iterativa. Esto se conoce como entrenamiento.

ENTRENAMIENTO

( )2, ,1

12

N

j NN j refjE E

N =

Γ = −∑Error

Número de puntos en el ‘set de entrenamiento’

Salida de la Red

Referencia

•  El objetivo es minimizar la función de costo para un conjunto de N puntos.

ENTRENAMIENTO

( )2, ,1

12

N

j NN j refjE E

N =

Γ = −∑

1 1i i ii

ω ω η µ ωω+ −

∂Γ= − + Δ

∂

Peso general en la época i-ésima Ritmo de aprendizaje

Parámetro auxiliar para evitar oscilaciones y divergencias

•  El objetivo es minimizar la función de costo para un conjunto de N puntos.

§  Algoritmo back-propagation:

La evaluación de los gradientes se realiza eficientemente de forma contraria a la propagación de los datos de entrada.

Converge lentamente y puede quedar atrapado en mínimos locales.

( )2 2, ,

1 1

12

N M

j NN j ref kj kE E

Nα ω

= =

Γ = − +∑ ∑

ENTRENAMIENTO

•  Para mejorar el proceso de optimización se pueden tomar las siguientes medidas:

penalización

Examinar varias condiciones iniciales aleatorias para los pesos.

Escoger un orden aleatorio para los datos de entrada para evitar dependencias de la secuencia.

Escalar los datos de entrada para que su rango coincida con el rango de la función de activación.

En rigor, se debería optimizar la arquitectura de la red. (Número de nodos por capa, número de capas.)

VALIDACIÓN Y PRUEBA

Γ

iter

Conjunto de entrenamiento Conjunto de validación

Red Neural optimizada

Para evaluar el error de la red se emplea el Conjunto de Prueba.

{ }ijkω E

•  El Error del conjunto de entrenamiento no es necesariamente representativo de la exactitud de la Red para predecir valores que toma la función en puntos nuevos.

( )50 90%−

•  Primero, se aprenden las características generales de la función, luego se produce un overfitting...

DATOS DE ENTRENAMIENTO

•  Una ventaja de las RN es que los datos de referencia no tienen que ser tomados en una malla regular.

ε

Rregión de interés para la dinámica

•  Pueden emplearse métodos de muestreo más eficientes, que generen puntos en la región relevante del espacio de configuraciones.

1)  Trayectorias de Dinámica Molecular con una SEP más simple.

2)  Método autoconsistente.

HACIA UNA APLICACIÓN...

excitación relajación

estructura hcp

gran amplitud de movimiento de punto cero

3.78a = Αo

•  El sistema: NO en para-H2 sólido

•  El fenómeno: dinámica de fotoexcitación

Bonacina, L., et al., J. Chem. Phys. 125, 054507 (2006)

§  Entrenamiento con porque es una función muy fluctuante y las zonas de mayor no son de interés para la dinámica.

1/ ε εε

HACIA UNA APLICACIÓN...

§  Detalles computacionales:

-  Dos capas de neuronas.

-  Tantas variable como neuronas por capa.

-  Función de activación: tanh(x)

¡Se requieren más pruebas!

ü  Distancias H2 –NO

ü  Ángulos entre los ejes de NO y H2.

ü  Ángulos H2–NO –H2

o  Distancia H-H

o  Distancia N-O

Considerar simetrías §  Variables de entrada:

¡Muchas Gracias!

Seminario de Física Teórica, ICIMAF, 16 de Noviembre de 2012.

Representación de funciones multidimensionales mediante...

Documents

Transcript of Representación de funciones multidimensionales mediante...