Redes Neuronales Recurrentes - Diapositivas

7/25/2019 Redes Neuronales Recurrentes - Diapositivas

1/19

Redes Neuronales RecurrenDr. Erik Zamora


2/19

Contenido Qu es?

Para qu sirve?

Estructuras Generales

Aprendizaje Supervisado (Problema del

gradiente) Mejores Redes Recurrentes

LSTM

Maquinas Neuronales de Turing

Redes de Memoria

Clockwork RNN

Redes con LSTM Arquitectura

Variantes

Libreras

Tarea


3/19

Qu es una RNN?

= 1+ = ()

Propiedades

Datos secuenc Memoria

Aprende depe

pasado o futur

Aproxima prog

Mas poder de computo. En principio, cualquier problema resuelto por una red feedforward, pue

resuelta por una RNN. Pero no es cierto lo converso.

[Hinton et al. 2015]


4/19

Para qu sirven las RNN?

Modelos de Lenguaje

Generador de Texto: aprende la sintaxis y la gramtica

Shakespeare[Kar

[Karpathysblog 2015]


5/19


Modelos de Lenguaje

Generador de Texto: aprende la sintaxis y la gramtica

Texto en Latex

[Karpathysblog 20

[Karpathysblog 2015]

Cdigo fuente en C

(con pocos errores de sin


6/19


Traduccin de Idiomas

[Curso Stanford cs224d]

Reconocimiento de Voz

[Graves, et

[Karpathy & Fei 2015]

Generacin de Descripciones verbales para imgenes

Ms ejemplos http://cs.stanford.edu/people/karpathy/deepimagesen
http://cs.stanford.edu/people/karpathy/deepimagesent/http://cs.stanford.edu/people/karpathy/deepimagesent/http://cs.stanford.edu/people/karpathy/deepimagesent/


7/19


Quin lo escribi? Generador de texto manuscrito

[Graves2013]

Ejecutar program

[Zaremban & Su

Dibujar: Generacin de imgenes

[Gregor, et al. 2015]

Generacin de imgenes con atencin visual

[Kelvin Xu,


8/19


https://youtu.be/-yX1SYeDHbg?t=49m29s

Prediccin de video (Graves, et al. 2015)Aproximar programas arbitrarios (a partir

[Gra

[Wikipedia]
https://youtu.be/-yX1SYeDHbg?t=49m29shttps://youtu.be/-yX1SYeDHbg?t=49m29shttps://youtu.be/-yX1SYeDHbg?t=49m29shttps://youtu.be/-yX1SYeDHbg?t=49m29shttps://youtu.be/-yX1SYeDHbg?t=49m29s


9/19


BidireccionalesBidireccionales Multicap

[Britzsblog 2015]

[Britzsblog 2015]


10/19

Aprendizaje Supervisado

Problema del Gradiente[Explicacin en pizarrn]

Las RNN convencionales NO pueden aprender dependencias de largo plazo:

Las nubes estn en el _______

Yo crec en Mxico.[texto].Hablo _______ fluido


11/19

Mejores Redes Recurrentes

[Vinyals, et al. 2015]

[Graves, et al. 2014]

[Sukhbaatar, et al. 2015]

Redes con Gran Memoria

de Corto Plazo (LSTM)

Maquinas Neuronales de Turing RNN con Reloj

(Clockwork RN

Redes de Memoria


12/19

Redes con LSTM

Fueron introducidas por Hochreiter & Schmidbuber en 1997

(Long Short-Term Memory)

[Explicacion en pizarron]


13/19

Redes con LSTM Fueron introducidas por Hochreiter & Schmidbuber en 1997 (Long Short-Term Mem[Explicacion en pizarron]

= 1+

= 1, +

= 1, + = 1, +

= 1+

= 1, +

=

RNN Convencional

LSTM

[Olahsblog 2015]

[Olahsblog 2015]


14/19

[Olahsblog 2015]

Redes con LSTM: Variantes

[Olahsblog 2015]

[Olahsblog 2015]

[Yao, et al. 2

Depth-Gated RN

Conexiones Peephole

Olvido y Escritura acopladas

Gated Recurrent Unit (GRU)


15/19

Redes con LSTM: Variantes

Grid LSTM

[Kalchbenner, et al. 2015]


16/19

Redes con LSTM: Cules de ests variantes son las mejores?

LSTM: A Search Space Odyssey, Greff, et al. 2015

An Empirical exploration of RN arquitecture, Jozefowics, et al. 2015

Ninguna variante supera a la LSTM estndar de manera significativa (sin incluir G

Algunas simplificaciones no daan el desempeo significativamente, por ejemplo: el acoplamiede las compuertas de entrada y olvido, o quitar las conexiones peephole(mirilla).

El uso de compuerta de olvido mejora consistentemente el desempeo de la red.

La funcin de activacin de salida es necesaria si el estado de la clula es no acotado.

El uso de momento en el aprendizaje no fue importante.

El tamao de la red y el ndice de aprendizaje son los hiperparametros ms crticos, pero puede

ser ajustados de manera independiente.

No encuentra una variante que supere a la LSTM estndar de manera significati

Grid LSTM)

Aadiendo el sesgo de 1 a la compuerta de olvido en la LSTM se iguala el desempeo de LSTM

que lo recomienda.

Tambin el uso del dropout mejora el desempeo de la LSTM, a veces superando a la GRU.


17/19

Libreras

Caffe (C++ con interfaces para Matlab y Python) Es la ms popular

http://caffe.berkeleyvision.org/

Theano(Python) http://deeplearning.net/software/theano/

Torch (C y Lua) usado por Facebook Research, Google Deepmind y Twitter

http://torch.ch/docs/cvpr15.html

PyBrain http://www.pybrain.org/Jrgen Schmidhuber (LSTM, RNN)

Quora - Is there a recurrent neural networks toolkit?

https://www.quora.com/Is-there-a-recurrent-neural-networks-toolkit

Reddit - What is the simplest LSTM Library to Use?

https://www.reddit.com/r/MachineLearning/comments/2zxfma/what_is_the_simplest_lstm_library_to_use/

Deep Learning Libraries by Languagehttp://www.teglor.com/b/deep-learning-libraries-language-cm569/
http://caffe.berkeleyvision.org/https://en.wikipedia.org/wiki/Theano_(software)http://deeplearning.net/software/theano/http://torch.ch/docs/cvpr15.htmlhttp://www.pybrain.org/https://www.quora.com/Is-there-a-recurrent-neural-networks-toolkithttps://www.reddit.com/r/MachineLearning/comments/2zxfma/what_is_the_simplest_lstm_library_to_use/https://www.reddit.com/r/MachineLearning/comments/2zxfma/what_is_the_simplest_lstm_library_to_use/http://www.teglor.com/b/deep-learning-libraries-language-cm569/http://www.teglor.com/b/deep-learning-libraries-language-cm569/http://www.teglor.com/b/deep-learning-libraries-language-cm569/http://www.teglor.com/b/deep-learning-libraries-language-cm569/http://www.teglor.com/b/deep-learning-libraries-language-cm569/http://www.teglor.com/b/deep-learning-libraries-language-cm569/http://www.teglor.com/b/deep-learning-libraries-language-cm569/http://www.teglor.com/b/deep-learning-libraries-language-cm569/http://www.teglor.com/b/deep-learning-libraries-language-cm569/http://www.teglor.com/b/deep-learning-libraries-language-cm569/https://www.reddit.com/r/MachineLearning/comments/2zxfma/what_is_the_simplest_lstm_library_to_use/https://www.reddit.com/r/MachineLearning/comments/2zxfma/what_is_the_simplest_lstm_library_to_use/https://www.quora.com/Is-there-a-recurrent-neural-networks-toolkithttps://www.quora.com/Is-there-a-recurrent-neural-networks-toolkithttps://www.quora.com/Is-there-a-recurrent-neural-networks-toolkithttps://www.quora.com/Is-there-a-recurrent-neural-networks-toolkithttps://www.quora.com/Is-there-a-recurrent-neural-networks-toolkithttps://www.quora.com/Is-there-a-recurrent-neural-networks-toolkithttps://www.quora.com/Is-there-a-recurrent-neural-networks-toolkithttps://www.quora.com/Is-there-a-recurrent-neural-networks-toolkithttps://www.quora.com/Is-there-a-recurrent-neural-networks-toolkithttps://www.quora.com/Is-there-a-recurrent-neural-networks-toolkithttps://www.quora.com/Is-there-a-recurrent-neural-networks-toolkithttps://www.quora.com/Is-there-a-recurrent-neural-networks-toolkithttps://www.quora.com/Is-there-a-recurrent-neural-networks-toolkithttp://www.pybrain.org/http://torch.ch/docs/cvpr15.htmlhttp://deeplearning.net/software/theano/https://en.wikipedia.org/wiki/Theano_(software)http://caffe.berkeleyvision.org/


18/19

Tarea


19/19

Resumen Qu es?

Para qu sirve?


Aprendizaje Supervisado (Problema del

gradiente) Mejores Redes Recurrentes

LSTM

Maquinas Neuronales de Turing

Redes de Memoria

Clockwork RNN

Redes con LSTM

Arquitectura

Variantes

Libreras

Tarea

Las RNN so

Redes Neuronales Recurrentes - Diapositivas

Documents

Transcript of Redes Neuronales Recurrentes - Diapositivas