Redes Neuronales Recurrentes - Diapositivas

download Redes Neuronales Recurrentes - Diapositivas

of 19

Transcript of Redes Neuronales Recurrentes - Diapositivas

  • 7/25/2019 Redes Neuronales Recurrentes - Diapositivas

    1/19

    Redes Neuronales RecurrenDr. Erik Zamora

  • 7/25/2019 Redes Neuronales Recurrentes - Diapositivas

    2/19

    Contenido Qu es?

    Para qu sirve?

    Estructuras Generales

    Aprendizaje Supervisado (Problema del

    gradiente) Mejores Redes Recurrentes

    LSTM

    Maquinas Neuronales de Turing

    Redes de Memoria

    Clockwork RNN

    Redes con LSTM Arquitectura

    Variantes

    Libreras

    Tarea

  • 7/25/2019 Redes Neuronales Recurrentes - Diapositivas

    3/19

    Qu es una RNN?

    = 1+ = ()

    Propiedades

    Datos secuenc Memoria

    Aprende depe

    pasado o futur

    Aproxima prog

    Mas poder de computo. En principio, cualquier problema resuelto por una red feedforward, pue

    resuelta por una RNN. Pero no es cierto lo converso.

    [Hinton et al. 2015]

  • 7/25/2019 Redes Neuronales Recurrentes - Diapositivas

    4/19

    Para qu sirven las RNN?

    Modelos de Lenguaje

    Generador de Texto: aprende la sintaxis y la gramtica

    Shakespeare[Kar

    [Karpathysblog 2015]

  • 7/25/2019 Redes Neuronales Recurrentes - Diapositivas

    5/19

    Para qu sirven las RNN?

    Modelos de Lenguaje

    Generador de Texto: aprende la sintaxis y la gramtica

    Texto en Latex

    [Karpathysblog 20

    [Karpathysblog 2015]

    Cdigo fuente en C

    (con pocos errores de sin

  • 7/25/2019 Redes Neuronales Recurrentes - Diapositivas

    6/19

    Para qu sirven las RNN?

    Traduccin de Idiomas

    [Curso Stanford cs224d]

    Reconocimiento de Voz

    [Graves, et

    [Karpathy & Fei 2015]

    Generacin de Descripciones verbales para imgenes

    Ms ejemplos http://cs.stanford.edu/people/karpathy/deepimagesen

    http://cs.stanford.edu/people/karpathy/deepimagesent/http://cs.stanford.edu/people/karpathy/deepimagesent/http://cs.stanford.edu/people/karpathy/deepimagesent/
  • 7/25/2019 Redes Neuronales Recurrentes - Diapositivas

    7/19

    Para qu sirven las RNN?

    Quin lo escribi? Generador de texto manuscrito

    [Graves2013]

    Ejecutar program

    [Zaremban & Su

    Dibujar: Generacin de imgenes

    [Gregor, et al. 2015]

    Generacin de imgenes con atencin visual

    [Kelvin Xu,

  • 7/25/2019 Redes Neuronales Recurrentes - Diapositivas

    8/19

    Para qu sirven las RNN?

    https://youtu.be/-yX1SYeDHbg?t=49m29s

    Prediccin de video (Graves, et al. 2015)Aproximar programas arbitrarios (a partir

    [Gra

    [Wikipedia]

    https://youtu.be/-yX1SYeDHbg?t=49m29shttps://youtu.be/-yX1SYeDHbg?t=49m29shttps://youtu.be/-yX1SYeDHbg?t=49m29shttps://youtu.be/-yX1SYeDHbg?t=49m29shttps://youtu.be/-yX1SYeDHbg?t=49m29s
  • 7/25/2019 Redes Neuronales Recurrentes - Diapositivas

    9/19

    Estructuras Generales

    BidireccionalesBidireccionales Multicap

    [Britzsblog 2015]

    [Britzsblog 2015]

  • 7/25/2019 Redes Neuronales Recurrentes - Diapositivas

    10/19

    Aprendizaje Supervisado

    Problema del Gradiente[Explicacin en pizarrn]

    Las RNN convencionales NO pueden aprender dependencias de largo plazo:

    Las nubes estn en el _______

    Yo crec en Mxico.[texto].Hablo _______ fluido

  • 7/25/2019 Redes Neuronales Recurrentes - Diapositivas

    11/19

    Mejores Redes Recurrentes

    [Vinyals, et al. 2015]

    [Graves, et al. 2014]

    [Sukhbaatar, et al. 2015]

    Redes con Gran Memoria

    de Corto Plazo (LSTM)

    Maquinas Neuronales de Turing RNN con Reloj

    (Clockwork RN

    Redes de Memoria

  • 7/25/2019 Redes Neuronales Recurrentes - Diapositivas

    12/19

    Redes con LSTM

    Fueron introducidas por Hochreiter & Schmidbuber en 1997

    (Long Short-Term Memory)

    [Explicacion en pizarron]

  • 7/25/2019 Redes Neuronales Recurrentes - Diapositivas

    13/19

    Redes con LSTM Fueron introducidas por Hochreiter & Schmidbuber en 1997 (Long Short-Term Mem[Explicacion en pizarron]

    = 1+

    = 1, +

    = 1, + = 1, +

    = 1+

    = 1, +

    =

    RNN Convencional

    LSTM

    [Olahsblog 2015]

    [Olahsblog 2015]

  • 7/25/2019 Redes Neuronales Recurrentes - Diapositivas

    14/19

    [Olahsblog 2015]

    Redes con LSTM: Variantes

    [Olahsblog 2015]

    [Olahsblog 2015]

    [Yao, et al. 2

    Depth-Gated RN

    Conexiones Peephole

    Olvido y Escritura acopladas

    Gated Recurrent Unit (GRU)

  • 7/25/2019 Redes Neuronales Recurrentes - Diapositivas

    15/19

    Redes con LSTM: Variantes

    Grid LSTM

    [Kalchbenner, et al. 2015]

  • 7/25/2019 Redes Neuronales Recurrentes - Diapositivas

    16/19

    Redes con LSTM: Cules de ests variantes son las mejores?

    LSTM: A Search Space Odyssey, Greff, et al. 2015

    An Empirical exploration of RN arquitecture, Jozefowics, et al. 2015

    Ninguna variante supera a la LSTM estndar de manera significativa (sin incluir G

    Algunas simplificaciones no daan el desempeo significativamente, por ejemplo: el acoplamiede las compuertas de entrada y olvido, o quitar las conexiones peephole(mirilla).

    El uso de compuerta de olvido mejora consistentemente el desempeo de la red.

    La funcin de activacin de salida es necesaria si el estado de la clula es no acotado.

    El uso de momento en el aprendizaje no fue importante.

    El tamao de la red y el ndice de aprendizaje son los hiperparametros ms crticos, pero puede

    ser ajustados de manera independiente.

    No encuentra una variante que supere a la LSTM estndar de manera significati

    Grid LSTM)

    Aadiendo el sesgo de 1 a la compuerta de olvido en la LSTM se iguala el desempeo de LSTM

    que lo recomienda.

    Tambin el uso del dropout mejora el desempeo de la LSTM, a veces superando a la GRU.

  • 7/25/2019 Redes Neuronales Recurrentes - Diapositivas

    17/19

    Libreras

    Caffe (C++ con interfaces para Matlab y Python) Es la ms popular

    http://caffe.berkeleyvision.org/

    Theano(Python) http://deeplearning.net/software/theano/

    Torch (C y Lua) usado por Facebook Research, Google Deepmind y Twitter

    http://torch.ch/docs/cvpr15.html

    PyBrain http://www.pybrain.org/Jrgen Schmidhuber (LSTM, RNN)

    Quora - Is there a recurrent neural networks toolkit?

    https://www.quora.com/Is-there-a-recurrent-neural-networks-toolkit

    Reddit - What is the simplest LSTM Library to Use?

    https://www.reddit.com/r/MachineLearning/comments/2zxfma/what_is_the_simplest_lstm_library_to_use/

    Deep Learning Libraries by Languagehttp://www.teglor.com/b/deep-learning-libraries-language-cm569/

    http://caffe.berkeleyvision.org/https://en.wikipedia.org/wiki/Theano_(software)http://deeplearning.net/software/theano/http://torch.ch/docs/cvpr15.htmlhttp://www.pybrain.org/https://www.quora.com/Is-there-a-recurrent-neural-networks-toolkithttps://www.reddit.com/r/MachineLearning/comments/2zxfma/what_is_the_simplest_lstm_library_to_use/https://www.reddit.com/r/MachineLearning/comments/2zxfma/what_is_the_simplest_lstm_library_to_use/http://www.teglor.com/b/deep-learning-libraries-language-cm569/http://www.teglor.com/b/deep-learning-libraries-language-cm569/http://www.teglor.com/b/deep-learning-libraries-language-cm569/http://www.teglor.com/b/deep-learning-libraries-language-cm569/http://www.teglor.com/b/deep-learning-libraries-language-cm569/http://www.teglor.com/b/deep-learning-libraries-language-cm569/http://www.teglor.com/b/deep-learning-libraries-language-cm569/http://www.teglor.com/b/deep-learning-libraries-language-cm569/http://www.teglor.com/b/deep-learning-libraries-language-cm569/http://www.teglor.com/b/deep-learning-libraries-language-cm569/https://www.reddit.com/r/MachineLearning/comments/2zxfma/what_is_the_simplest_lstm_library_to_use/https://www.reddit.com/r/MachineLearning/comments/2zxfma/what_is_the_simplest_lstm_library_to_use/https://www.quora.com/Is-there-a-recurrent-neural-networks-toolkithttps://www.quora.com/Is-there-a-recurrent-neural-networks-toolkithttps://www.quora.com/Is-there-a-recurrent-neural-networks-toolkithttps://www.quora.com/Is-there-a-recurrent-neural-networks-toolkithttps://www.quora.com/Is-there-a-recurrent-neural-networks-toolkithttps://www.quora.com/Is-there-a-recurrent-neural-networks-toolkithttps://www.quora.com/Is-there-a-recurrent-neural-networks-toolkithttps://www.quora.com/Is-there-a-recurrent-neural-networks-toolkithttps://www.quora.com/Is-there-a-recurrent-neural-networks-toolkithttps://www.quora.com/Is-there-a-recurrent-neural-networks-toolkithttps://www.quora.com/Is-there-a-recurrent-neural-networks-toolkithttps://www.quora.com/Is-there-a-recurrent-neural-networks-toolkithttps://www.quora.com/Is-there-a-recurrent-neural-networks-toolkithttp://www.pybrain.org/http://torch.ch/docs/cvpr15.htmlhttp://deeplearning.net/software/theano/https://en.wikipedia.org/wiki/Theano_(software)http://caffe.berkeleyvision.org/
  • 7/25/2019 Redes Neuronales Recurrentes - Diapositivas

    18/19

    Tarea

  • 7/25/2019 Redes Neuronales Recurrentes - Diapositivas

    19/19

    Resumen Qu es?

    Para qu sirve?

    Estructuras Generales

    Aprendizaje Supervisado (Problema del

    gradiente) Mejores Redes Recurrentes

    LSTM

    Maquinas Neuronales de Turing

    Redes de Memoria

    Clockwork RNN

    Redes con LSTM

    Arquitectura

    Variantes

    Libreras

    Tarea

    Las RNN so