Deep Learning Seminario Minería de Datos · 4 0 1 0 0 3 7 7 7 5. ... Creaci on de features para...
Transcript of Deep Learning Seminario Minería de Datos · 4 0 1 0 0 3 7 7 7 5. ... Creaci on de features para...
![Page 1: Deep Learning Seminario Minería de Datos · 4 0 1 0 0 3 7 7 7 5. ... Creaci on de features para otra tarea (por ejemplo ... Transducer: Se utilizan todos los estados y outputs. Por](https://reader034.fdocuments.ec/reader034/viewer/2022052022/6037a648dde5bd66dd6a868c/html5/thumbnails/1.jpg)
Introduccion Modelo Logit Redes Neuronales Aplicaciones Redes en el contexto de NLP Otras arquitecturas
Deep LearningSeminario Minerıa de Datos
Alvaro RiascosMonica Ribero
2 de mayo de 2017
![Page 2: Deep Learning Seminario Minería de Datos · 4 0 1 0 0 3 7 7 7 5. ... Creaci on de features para otra tarea (por ejemplo ... Transducer: Se utilizan todos los estados y outputs. Por](https://reader034.fdocuments.ec/reader034/viewer/2022052022/6037a648dde5bd66dd6a868c/html5/thumbnails/2.jpg)
Introduccion Modelo Logit Redes Neuronales Aplicaciones Redes en el contexto de NLP Otras arquitecturas
Contenido
1 Introduccion
2 Modelo Logit
3 Redes Neuronales
4 Aplicaciones
5 Redes en el contexto de NLP
6 Otras arquitecturasConvolutional NetworksRecurrent Networks
![Page 3: Deep Learning Seminario Minería de Datos · 4 0 1 0 0 3 7 7 7 5. ... Creaci on de features para otra tarea (por ejemplo ... Transducer: Se utilizan todos los estados y outputs. Por](https://reader034.fdocuments.ec/reader034/viewer/2022052022/6037a648dde5bd66dd6a868c/html5/thumbnails/3.jpg)
Introduccion Modelo Logit Redes Neuronales Aplicaciones Redes en el contexto de NLP Otras arquitecturas
Introduccion
![Page 4: Deep Learning Seminario Minería de Datos · 4 0 1 0 0 3 7 7 7 5. ... Creaci on de features para otra tarea (por ejemplo ... Transducer: Se utilizan todos los estados y outputs. Por](https://reader034.fdocuments.ec/reader034/viewer/2022052022/6037a648dde5bd66dd6a868c/html5/thumbnails/4.jpg)
Introduccion Modelo Logit Redes Neuronales Aplicaciones Redes en el contexto de NLP Otras arquitecturas
Problema
Sea (~x1, y1), (~x1, y2), ..., (~x1, yn) una muestra marcada convariables independientes ~xi = (xi1, xi2, ..., xim) y dependienteyi , i = 1, ..., n.
Queremos predecir el valor de yi dado xi .
Asumimos que existe una funcion tal que f (xi ) = yi yqueremos encontrar su mejor aproximacion
![Page 5: Deep Learning Seminario Minería de Datos · 4 0 1 0 0 3 7 7 7 5. ... Creaci on de features para otra tarea (por ejemplo ... Transducer: Se utilizan todos los estados y outputs. Por](https://reader034.fdocuments.ec/reader034/viewer/2022052022/6037a648dde5bd66dd6a868c/html5/thumbnails/5.jpg)
Introduccion Modelo Logit Redes Neuronales Aplicaciones Redes en el contexto de NLP Otras arquitecturas
Problema – Regresion
~xi = (salario, cantidad de personas con las que vive)
yi = precio de su vivienda
![Page 6: Deep Learning Seminario Minería de Datos · 4 0 1 0 0 3 7 7 7 5. ... Creaci on de features para otra tarea (por ejemplo ... Transducer: Se utilizan todos los estados y outputs. Por](https://reader034.fdocuments.ec/reader034/viewer/2022052022/6037a648dde5bd66dd6a868c/html5/thumbnails/6.jpg)
Introduccion Modelo Logit Redes Neuronales Aplicaciones Redes en el contexto de NLP Otras arquitecturas
Problema – Clasificacion
~xi = informacion pixeles en imagen de resonancia
yi = tiene tumor
![Page 7: Deep Learning Seminario Minería de Datos · 4 0 1 0 0 3 7 7 7 5. ... Creaci on de features para otra tarea (por ejemplo ... Transducer: Se utilizan todos los estados y outputs. Por](https://reader034.fdocuments.ec/reader034/viewer/2022052022/6037a648dde5bd66dd6a868c/html5/thumbnails/7.jpg)
Introduccion Modelo Logit Redes Neuronales Aplicaciones Redes en el contexto de NLP Otras arquitecturas
Problema – Clasificacion
~xi = (cuentas de palabras en un documento)
yi = sentimiento (positivo, neutro, negativo)
![Page 8: Deep Learning Seminario Minería de Datos · 4 0 1 0 0 3 7 7 7 5. ... Creaci on de features para otra tarea (por ejemplo ... Transducer: Se utilizan todos los estados y outputs. Por](https://reader034.fdocuments.ec/reader034/viewer/2022052022/6037a648dde5bd66dd6a868c/html5/thumbnails/8.jpg)
Introduccion Modelo Logit Redes Neuronales Aplicaciones Redes en el contexto de NLP Otras arquitecturas
Problema – Clasificacion
~xi = (calificaciones de un usuario a varios restaurantes)
yi = perfil de cliente
![Page 9: Deep Learning Seminario Minería de Datos · 4 0 1 0 0 3 7 7 7 5. ... Creaci on de features para otra tarea (por ejemplo ... Transducer: Se utilizan todos los estados y outputs. Por](https://reader034.fdocuments.ec/reader034/viewer/2022052022/6037a648dde5bd66dd6a868c/html5/thumbnails/9.jpg)
Introduccion Modelo Logit Redes Neuronales Aplicaciones Redes en el contexto de NLP Otras arquitecturas
Modelos
Regresion lineal
Regresion logıstica
Arboles de decision
Random Forests y Boosting de arboles
![Page 10: Deep Learning Seminario Minería de Datos · 4 0 1 0 0 3 7 7 7 5. ... Creaci on de features para otra tarea (por ejemplo ... Transducer: Se utilizan todos los estados y outputs. Por](https://reader034.fdocuments.ec/reader034/viewer/2022052022/6037a648dde5bd66dd6a868c/html5/thumbnails/10.jpg)
Introduccion Modelo Logit Redes Neuronales Aplicaciones Redes en el contexto de NLP Otras arquitecturas
Modelo Logit
![Page 11: Deep Learning Seminario Minería de Datos · 4 0 1 0 0 3 7 7 7 5. ... Creaci on de features para otra tarea (por ejemplo ... Transducer: Se utilizan todos los estados y outputs. Por](https://reader034.fdocuments.ec/reader034/viewer/2022052022/6037a648dde5bd66dd6a868c/html5/thumbnails/11.jpg)
Introduccion Modelo Logit Redes Neuronales Aplicaciones Redes en el contexto de NLP Otras arquitecturas
Regresion Logıstica – Clasificacion
En vez de representar el valor de y , representar laProbabilidad de que y perteneza a cierta categorıa dado x
Pr(y = 1|x) = g(θtx)
=1
1 + e−θtx
yi = hθ(xi ) =
{1 g(θtxi ) ≥ 0,5
0 g(θtxi ) < 0,5
![Page 12: Deep Learning Seminario Minería de Datos · 4 0 1 0 0 3 7 7 7 5. ... Creaci on de features para otra tarea (por ejemplo ... Transducer: Se utilizan todos los estados y outputs. Por](https://reader034.fdocuments.ec/reader034/viewer/2022052022/6037a648dde5bd66dd6a868c/html5/thumbnails/12.jpg)
Introduccion Modelo Logit Redes Neuronales Aplicaciones Redes en el contexto de NLP Otras arquitecturas
Regresion Logıstica
Funcion de costo
J(θ) = −1
n
n∑i=1
(yi log(hθ(xi ))) + (1− yi )(1− log(hθ(xi ))
+λ
2m
m∑i=1
θ2i
θ = argmin(J(θ))
![Page 13: Deep Learning Seminario Minería de Datos · 4 0 1 0 0 3 7 7 7 5. ... Creaci on de features para otra tarea (por ejemplo ... Transducer: Se utilizan todos los estados y outputs. Por](https://reader034.fdocuments.ec/reader034/viewer/2022052022/6037a648dde5bd66dd6a868c/html5/thumbnails/13.jpg)
Introduccion Modelo Logit Redes Neuronales Aplicaciones Redes en el contexto de NLP Otras arquitecturas
Desventajas del modelo Logit
Problemas de reconocimiento visual pequenos tienen 50× 50pixeles.
Hipotesis no lineales requieren muchas features
2500 features + terminos cuadraticos (n2
2 ) ≈ 3,1 millones
![Page 14: Deep Learning Seminario Minería de Datos · 4 0 1 0 0 3 7 7 7 5. ... Creaci on de features para otra tarea (por ejemplo ... Transducer: Se utilizan todos los estados y outputs. Por](https://reader034.fdocuments.ec/reader034/viewer/2022052022/6037a648dde5bd66dd6a868c/html5/thumbnails/14.jpg)
Introduccion Modelo Logit Redes Neuronales Aplicaciones Redes en el contexto de NLP Otras arquitecturas
Redes Neuronales
![Page 15: Deep Learning Seminario Minería de Datos · 4 0 1 0 0 3 7 7 7 5. ... Creaci on de features para otra tarea (por ejemplo ... Transducer: Se utilizan todos los estados y outputs. Por](https://reader034.fdocuments.ec/reader034/viewer/2022052022/6037a648dde5bd66dd6a868c/html5/thumbnails/15.jpg)
Introduccion Modelo Logit Redes Neuronales Aplicaciones Redes en el contexto de NLP Otras arquitecturas
Neurona
Unidad que recibe inputs y devuelve un output
Por ejemplo una regresion logıstica
![Page 16: Deep Learning Seminario Minería de Datos · 4 0 1 0 0 3 7 7 7 5. ... Creaci on de features para otra tarea (por ejemplo ... Transducer: Se utilizan todos los estados y outputs. Por](https://reader034.fdocuments.ec/reader034/viewer/2022052022/6037a648dde5bd66dd6a868c/html5/thumbnails/16.jpg)
Introduccion Modelo Logit Redes Neuronales Aplicaciones Redes en el contexto de NLP Otras arquitecturas
Feed Forward Networks
Cada neurona
1 Recibe un input x
2 Realiza unatransformacion lineal(wix + bi )
3 Aplica unatransformacion no linealg , para obtenerout = g(wix + bi )
![Page 17: Deep Learning Seminario Minería de Datos · 4 0 1 0 0 3 7 7 7 5. ... Creaci on de features para otra tarea (por ejemplo ... Transducer: Se utilizan todos los estados y outputs. Por](https://reader034.fdocuments.ec/reader034/viewer/2022052022/6037a648dde5bd66dd6a868c/html5/thumbnails/17.jpg)
Introduccion Modelo Logit Redes Neuronales Aplicaciones Redes en el contexto de NLP Otras arquitecturas
Redes Neuronales
Modelos no parametricosde Machine Learningcompuestos de unidadescomputacionales(neuronas)
Aproximar la funcionf : F → O que relacionaun conjunto de featuresF ⊂ Rn con un conjuntode outputs O ⊂ R
![Page 18: Deep Learning Seminario Minería de Datos · 4 0 1 0 0 3 7 7 7 5. ... Creaci on de features para otra tarea (por ejemplo ... Transducer: Se utilizan todos los estados y outputs. Por](https://reader034.fdocuments.ec/reader034/viewer/2022052022/6037a648dde5bd66dd6a868c/html5/thumbnails/18.jpg)
Introduccion Modelo Logit Redes Neuronales Aplicaciones Redes en el contexto de NLP Otras arquitecturas
Redes Neuronales
Concatenacion de capasde neuronas
Capa inputCapas ocultasCapa output
![Page 19: Deep Learning Seminario Minería de Datos · 4 0 1 0 0 3 7 7 7 5. ... Creaci on de features para otra tarea (por ejemplo ... Transducer: Se utilizan todos los estados y outputs. Por](https://reader034.fdocuments.ec/reader034/viewer/2022052022/6037a648dde5bd66dd6a868c/html5/thumbnails/19.jpg)
Introduccion Modelo Logit Redes Neuronales Aplicaciones Redes en el contexto de NLP Otras arquitecturas
Capa externa
Regresion: Una neurona
Clasificacion Binaria: Probabilidad de exito
Clasificacion k−categorıas: Probabilidad de pertenecer a cadacategorıa. Para el entrenamiento, las etiquetas se conviertenen vectores:
yi =
0100
![Page 20: Deep Learning Seminario Minería de Datos · 4 0 1 0 0 3 7 7 7 5. ... Creaci on de features para otra tarea (por ejemplo ... Transducer: Se utilizan todos los estados y outputs. Por](https://reader034.fdocuments.ec/reader034/viewer/2022052022/6037a648dde5bd66dd6a868c/html5/thumbnails/20.jpg)
Introduccion Modelo Logit Redes Neuronales Aplicaciones Redes en el contexto de NLP Otras arquitecturas
Feed Forward Networks
NNMLP2(x) = y
h1 = g1(W1x + b1)
h2 = g2(W2h1 + b2)
y = h2W 3
Si las capa j y j + 1tienen sj y sj+1 neuronasrespectivamente,Wj+1 ∈ Rsj+1×sj
Si usa un termino desesgo, Wj+1 ∈ Rsj+1×sj+1
![Page 21: Deep Learning Seminario Minería de Datos · 4 0 1 0 0 3 7 7 7 5. ... Creaci on de features para otra tarea (por ejemplo ... Transducer: Se utilizan todos los estados y outputs. Por](https://reader034.fdocuments.ec/reader034/viewer/2022052022/6037a648dde5bd66dd6a868c/html5/thumbnails/21.jpg)
Introduccion Modelo Logit Redes Neuronales Aplicaciones Redes en el contexto de NLP Otras arquitecturas
Funciones de Activacion
sigmoid(x) =1
1 + e−x
![Page 22: Deep Learning Seminario Minería de Datos · 4 0 1 0 0 3 7 7 7 5. ... Creaci on de features para otra tarea (por ejemplo ... Transducer: Se utilizan todos los estados y outputs. Por](https://reader034.fdocuments.ec/reader034/viewer/2022052022/6037a648dde5bd66dd6a868c/html5/thumbnails/22.jpg)
Introduccion Modelo Logit Redes Neuronales Aplicaciones Redes en el contexto de NLP Otras arquitecturas
Funciones de Activacion
tanh(x) =e2x − 1
e2x + 1
![Page 23: Deep Learning Seminario Minería de Datos · 4 0 1 0 0 3 7 7 7 5. ... Creaci on de features para otra tarea (por ejemplo ... Transducer: Se utilizan todos los estados y outputs. Por](https://reader034.fdocuments.ec/reader034/viewer/2022052022/6037a648dde5bd66dd6a868c/html5/thumbnails/23.jpg)
Introduccion Modelo Logit Redes Neuronales Aplicaciones Redes en el contexto de NLP Otras arquitecturas
Funciones de Activacion
ReLU(x) = max(0, x)
![Page 24: Deep Learning Seminario Minería de Datos · 4 0 1 0 0 3 7 7 7 5. ... Creaci on de features para otra tarea (por ejemplo ... Transducer: Se utilizan todos los estados y outputs. Por](https://reader034.fdocuments.ec/reader034/viewer/2022052022/6037a648dde5bd66dd6a868c/html5/thumbnails/24.jpg)
Introduccion Modelo Logit Redes Neuronales Aplicaciones Redes en el contexto de NLP Otras arquitecturas
Funcion de Costo
J(θ) = −1
n
n∑i=1
K∑k=1
(yki log(hθ(xi )))k + (1− yki )(1− log(hθ(xi ))k
+λ
2m
L−1∑l=1
sj∑i=1
sj+1∑j=1
Θ(l)2i ,j
θ = argmin(J(θ))
![Page 25: Deep Learning Seminario Minería de Datos · 4 0 1 0 0 3 7 7 7 5. ... Creaci on de features para otra tarea (por ejemplo ... Transducer: Se utilizan todos los estados y outputs. Por](https://reader034.fdocuments.ec/reader034/viewer/2022052022/6037a648dde5bd66dd6a868c/html5/thumbnails/25.jpg)
Introduccion Modelo Logit Redes Neuronales Aplicaciones Redes en el contexto de NLP Otras arquitecturas
Entrenamiento
Mejor mas neuronas que menos, capturar mas no linearidades
Evitar overfitting con regularizacion
Escalar las variables
Mınimos locales: Hacer varias inicializaciones.
![Page 26: Deep Learning Seminario Minería de Datos · 4 0 1 0 0 3 7 7 7 5. ... Creaci on de features para otra tarea (por ejemplo ... Transducer: Se utilizan todos los estados y outputs. Por](https://reader034.fdocuments.ec/reader034/viewer/2022052022/6037a648dde5bd66dd6a868c/html5/thumbnails/26.jpg)
Introduccion Modelo Logit Redes Neuronales Aplicaciones Redes en el contexto de NLP Otras arquitecturas
Minimizacion de la funcion de costo
Algoritmo Backpropagation
![Page 27: Deep Learning Seminario Minería de Datos · 4 0 1 0 0 3 7 7 7 5. ... Creaci on de features para otra tarea (por ejemplo ... Transducer: Se utilizan todos los estados y outputs. Por](https://reader034.fdocuments.ec/reader034/viewer/2022052022/6037a648dde5bd66dd6a868c/html5/thumbnails/27.jpg)
Introduccion Modelo Logit Redes Neuronales Aplicaciones Redes en el contexto de NLP Otras arquitecturas
Aplicaciones
![Page 28: Deep Learning Seminario Minería de Datos · 4 0 1 0 0 3 7 7 7 5. ... Creaci on de features para otra tarea (por ejemplo ... Transducer: Se utilizan todos los estados y outputs. Por](https://reader034.fdocuments.ec/reader034/viewer/2022052022/6037a648dde5bd66dd6a868c/html5/thumbnails/28.jpg)
Introduccion Modelo Logit Redes Neuronales Aplicaciones Redes en el contexto de NLP Otras arquitecturas
Carros autonomos
https://www.coursera.org/learn/machine-learning/lecture/zYS8T/autonomous-driving
![Page 29: Deep Learning Seminario Minería de Datos · 4 0 1 0 0 3 7 7 7 5. ... Creaci on de features para otra tarea (por ejemplo ... Transducer: Se utilizan todos los estados y outputs. Por](https://reader034.fdocuments.ec/reader034/viewer/2022052022/6037a648dde5bd66dd6a868c/html5/thumbnails/29.jpg)
Introduccion Modelo Logit Redes Neuronales Aplicaciones Redes en el contexto de NLP Otras arquitecturas
Medicina
Diagnostico a partir de imagenes
Diagnostico a partir de lenguaje
Genomica
![Page 30: Deep Learning Seminario Minería de Datos · 4 0 1 0 0 3 7 7 7 5. ... Creaci on de features para otra tarea (por ejemplo ... Transducer: Se utilizan todos los estados y outputs. Por](https://reader034.fdocuments.ec/reader034/viewer/2022052022/6037a648dde5bd66dd6a868c/html5/thumbnails/30.jpg)
Introduccion Modelo Logit Redes Neuronales Aplicaciones Redes en el contexto de NLP Otras arquitecturas
Redes en el contexto de NLP
![Page 31: Deep Learning Seminario Minería de Datos · 4 0 1 0 0 3 7 7 7 5. ... Creaci on de features para otra tarea (por ejemplo ... Transducer: Se utilizan todos los estados y outputs. Por](https://reader034.fdocuments.ec/reader034/viewer/2022052022/6037a648dde5bd66dd6a868c/html5/thumbnails/31.jpg)
Introduccion Modelo Logit Redes Neuronales Aplicaciones Redes en el contexto de NLP Otras arquitecturas
Input x
En las aplicaciones de NLP, el input x codifica palabras, POS,informacion linguistica.
Para cada documento se cuenta, en general, con un conjuntode vectores.
Se utiliza una funcion c : F → Rd
c ’s comunes incluyen concatenacion y suma.
![Page 32: Deep Learning Seminario Minería de Datos · 4 0 1 0 0 3 7 7 7 5. ... Creaci on de features para otra tarea (por ejemplo ... Transducer: Se utilizan todos los estados y outputs. Por](https://reader034.fdocuments.ec/reader034/viewer/2022052022/6037a648dde5bd66dd6a868c/html5/thumbnails/32.jpg)
Introduccion Modelo Logit Redes Neuronales Aplicaciones Redes en el contexto de NLP Otras arquitecturas
Embeddings
Supervisados: Entrenar redes para contexto particular (‘onehot representations”)
No supervisados: GloVe, LDA y modelos de topicos.
![Page 33: Deep Learning Seminario Minería de Datos · 4 0 1 0 0 3 7 7 7 5. ... Creaci on de features para otra tarea (por ejemplo ... Transducer: Se utilizan todos los estados y outputs. Por](https://reader034.fdocuments.ec/reader034/viewer/2022052022/6037a648dde5bd66dd6a868c/html5/thumbnails/33.jpg)
Introduccion Modelo Logit Redes Neuronales Aplicaciones Redes en el contexto de NLP Otras arquitecturas
Otras arquitecturas
![Page 34: Deep Learning Seminario Minería de Datos · 4 0 1 0 0 3 7 7 7 5. ... Creaci on de features para otra tarea (por ejemplo ... Transducer: Se utilizan todos los estados y outputs. Por](https://reader034.fdocuments.ec/reader034/viewer/2022052022/6037a648dde5bd66dd6a868c/html5/thumbnails/34.jpg)
Introduccion Modelo Logit Redes Neuronales Aplicaciones Redes en el contexto de NLP Otras arquitecturas
Convolutional Networks
Arquitectura que permite detectar features importantes sinimportar la ubicacion
Ha permitido avances importantes en NLP y procesamientode imagenes
Aplica un filtro (funcion no lineal aprendida) a cadak−ventana de palabras para crear un vector
Se hace pooling para combinar estos vectores en uno solo queconcentre las caracterısticas mas importantes sin importar laubicacion
![Page 35: Deep Learning Seminario Minería de Datos · 4 0 1 0 0 3 7 7 7 5. ... Creaci on de features para otra tarea (por ejemplo ... Transducer: Se utilizan todos los estados y outputs. Por](https://reader034.fdocuments.ec/reader034/viewer/2022052022/6037a648dde5bd66dd6a868c/html5/thumbnails/35.jpg)
Introduccion Modelo Logit Redes Neuronales Aplicaciones Redes en el contexto de NLP Otras arquitecturas
Convolutional Networks
![Page 36: Deep Learning Seminario Minería de Datos · 4 0 1 0 0 3 7 7 7 5. ... Creaci on de features para otra tarea (por ejemplo ... Transducer: Se utilizan todos los estados y outputs. Por](https://reader034.fdocuments.ec/reader034/viewer/2022052022/6037a648dde5bd66dd6a868c/html5/thumbnails/36.jpg)
Introduccion Modelo Logit Redes Neuronales Aplicaciones Redes en el contexto de NLP Otras arquitecturas
Convolutional Networks
Sea x1, x2, ..., xn una secuencia de palabras con vectoresv(x1), ..., v(xn)
Para cada ventana i sea wi = [vi+1, ..., vi+k ]
Convolucion: Calcule pi = g(wiW + b)
Pooling: Calculec = [cj ]
dondecj = max1<i≤mpij
![Page 37: Deep Learning Seminario Minería de Datos · 4 0 1 0 0 3 7 7 7 5. ... Creaci on de features para otra tarea (por ejemplo ... Transducer: Se utilizan todos los estados y outputs. Por](https://reader034.fdocuments.ec/reader034/viewer/2022052022/6037a648dde5bd66dd6a868c/html5/thumbnails/37.jpg)
Introduccion Modelo Logit Redes Neuronales Aplicaciones Redes en el contexto de NLP Otras arquitecturas
Convolutional Networks
Cada dimension se especializara en una clase de predictores yla operacion max escogera el mas importante de cada tipo
![Page 38: Deep Learning Seminario Minería de Datos · 4 0 1 0 0 3 7 7 7 5. ... Creaci on de features para otra tarea (por ejemplo ... Transducer: Se utilizan todos los estados y outputs. Por](https://reader034.fdocuments.ec/reader034/viewer/2022052022/6037a648dde5bd66dd6a868c/html5/thumbnails/38.jpg)
Introduccion Modelo Logit Redes Neuronales Aplicaciones Redes en el contexto de NLP Otras arquitecturas
Convolutional Networks
![Page 39: Deep Learning Seminario Minería de Datos · 4 0 1 0 0 3 7 7 7 5. ... Creaci on de features para otra tarea (por ejemplo ... Transducer: Se utilizan todos los estados y outputs. Por](https://reader034.fdocuments.ec/reader034/viewer/2022052022/6037a648dde5bd66dd6a868c/html5/thumbnails/39.jpg)
Introduccion Modelo Logit Redes Neuronales Aplicaciones Redes en el contexto de NLP Otras arquitecturas
Recurrent Networks
Si bien las redes convolucionales tienen en cierta forma elorden, se restringen a patrones locales.
Las Redes Neuronales Recurrentes permiten representar inputsde tamanos arbitrarios en un vector de tamano fijo teniendoen cuenta propiedades estructurales.
![Page 40: Deep Learning Seminario Minería de Datos · 4 0 1 0 0 3 7 7 7 5. ... Creaci on de features para otra tarea (por ejemplo ... Transducer: Se utilizan todos los estados y outputs. Por](https://reader034.fdocuments.ec/reader034/viewer/2022052022/6037a648dde5bd66dd6a868c/html5/thumbnails/40.jpg)
Introduccion Modelo Logit Redes Neuronales Aplicaciones Redes en el contexto de NLP Otras arquitecturas
Recurrent Networks
Dados vectores x1, ..., xn y un vector s0 que sera el estadoinicial
RNN(s0, x1:n) = s1:n, y1n
si = R(si−1, x1:i )
yi = O(si )
![Page 41: Deep Learning Seminario Minería de Datos · 4 0 1 0 0 3 7 7 7 5. ... Creaci on de features para otra tarea (por ejemplo ... Transducer: Se utilizan todos los estados y outputs. Por](https://reader034.fdocuments.ec/reader034/viewer/2022052022/6037a648dde5bd66dd6a868c/html5/thumbnails/41.jpg)
Introduccion Modelo Logit Redes Neuronales Aplicaciones Redes en el contexto de NLP Otras arquitecturas
Recurrent Networks
Figura: Red Neuronal recurrente
![Page 42: Deep Learning Seminario Minería de Datos · 4 0 1 0 0 3 7 7 7 5. ... Creaci on de features para otra tarea (por ejemplo ... Transducer: Se utilizan todos los estados y outputs. Por](https://reader034.fdocuments.ec/reader034/viewer/2022052022/6037a648dde5bd66dd6a868c/html5/thumbnails/42.jpg)
Introduccion Modelo Logit Redes Neuronales Aplicaciones Redes en el contexto de NLP Otras arquitecturas
Recurrent Networks
El output puede ser unicamente el ultimo estado o utilizar tambienlos intermedios
Acceptor: Solo se utiliza el ultimo estado para determinar ycalcular la funcion de perdida a partir de yn(Analisis desentimiento)
Encoder: Creacion de features para otra tarea (por ejemploresumir un documento). Solo se utiliza yn
Transducer: Se utilizan todos los estados y outputs. Porejemplo, encontrar la distribucion de la palabra ii a partir delas palabras 1 : (i − 1)
Encoder - Decoder: Se utiliza un encoder para producir ynque se entrega como input a otra RNN que utiliza las palabrasya traducidas y el utlimo output para decodificar. Muy buenosresultados para traducir (o poner tags a las palabras)
![Page 43: Deep Learning Seminario Minería de Datos · 4 0 1 0 0 3 7 7 7 5. ... Creaci on de features para otra tarea (por ejemplo ... Transducer: Se utilizan todos los estados y outputs. Por](https://reader034.fdocuments.ec/reader034/viewer/2022052022/6037a648dde5bd66dd6a868c/html5/thumbnails/43.jpg)
Introduccion Modelo Logit Redes Neuronales Aplicaciones Redes en el contexto de NLP Otras arquitecturas
![Page 44: Deep Learning Seminario Minería de Datos · 4 0 1 0 0 3 7 7 7 5. ... Creaci on de features para otra tarea (por ejemplo ... Transducer: Se utilizan todos los estados y outputs. Por](https://reader034.fdocuments.ec/reader034/viewer/2022052022/6037a648dde5bd66dd6a868c/html5/thumbnails/44.jpg)
Introduccion Modelo Logit Redes Neuronales Aplicaciones Redes en el contexto de NLP Otras arquitecturas
Recurrent Networks – S-RNN
Red Recurrente Simple: Muy buenos resultados ensequence tagging y modelaje de lenguaje.
si = g(xi ,Wx + si−1W
s + b)
yi = O(si ) = si
![Page 45: Deep Learning Seminario Minería de Datos · 4 0 1 0 0 3 7 7 7 5. ... Creaci on de features para otra tarea (por ejemplo ... Transducer: Se utilizan todos los estados y outputs. Por](https://reader034.fdocuments.ec/reader034/viewer/2022052022/6037a648dde5bd66dd6a868c/html5/thumbnails/45.jpg)
Introduccion Modelo Logit Redes Neuronales Aplicaciones Redes en el contexto de NLP Otras arquitecturas
Recurrent Networks –S-RNN
Simple RNN es difıcil de entrenar por problema de vanishinggradients
Difıcil capturar dependencias muy lejanas.
![Page 46: Deep Learning Seminario Minería de Datos · 4 0 1 0 0 3 7 7 7 5. ... Creaci on de features para otra tarea (por ejemplo ... Transducer: Se utilizan todos los estados y outputs. Por](https://reader034.fdocuments.ec/reader034/viewer/2022052022/6037a648dde5bd66dd6a868c/html5/thumbnails/46.jpg)
Introduccion Modelo Logit Redes Neuronales Aplicaciones Redes en el contexto de NLP Otras arquitecturas
Recurrent Networks – LSTM
Introducir en el estado s celdas de memoria que preserven losgradientes.
El acceso a la memoria esta controlado por puertas. Estas sonfunciones con rango en [0, 1]n
![Page 47: Deep Learning Seminario Minería de Datos · 4 0 1 0 0 3 7 7 7 5. ... Creaci on de features para otra tarea (por ejemplo ... Transducer: Se utilizan todos los estados y outputs. Por](https://reader034.fdocuments.ec/reader034/viewer/2022052022/6037a648dde5bd66dd6a868c/html5/thumbnails/47.jpg)
Introduccion Modelo Logit Redes Neuronales Aplicaciones Redes en el contexto de NLP Otras arquitecturas
Recurrent Networks – LSTM
Long Short Term Memory:
sj = RLSTM(sj−1, xj) = [cj;hj]
cj = cj−1 � f + g � i
hj = tanh(cj)� o
i = σ(xjWxi + hj−1W
hf)
f = σ(xjWxf + hj−1W
hf)
o = σ(xjWxo + hj−1W
ho)
g = tanh(xjWxg + hj−1W
hg)
yj = O(sj) = hj
![Page 48: Deep Learning Seminario Minería de Datos · 4 0 1 0 0 3 7 7 7 5. ... Creaci on de features para otra tarea (por ejemplo ... Transducer: Se utilizan todos los estados y outputs. Por](https://reader034.fdocuments.ec/reader034/viewer/2022052022/6037a648dde5bd66dd6a868c/html5/thumbnails/48.jpg)
Introduccion Modelo Logit Redes Neuronales Aplicaciones Redes en el contexto de NLP Otras arquitecturas
Recurrent Networks – GRU
LSTM es efectiva pero complicada y computacionalmentecostosa.
GRU (Gated Recurrent Unit)
![Page 49: Deep Learning Seminario Minería de Datos · 4 0 1 0 0 3 7 7 7 5. ... Creaci on de features para otra tarea (por ejemplo ... Transducer: Se utilizan todos los estados y outputs. Por](https://reader034.fdocuments.ec/reader034/viewer/2022052022/6037a648dde5bd66dd6a868c/html5/thumbnails/49.jpg)
Introduccion Modelo Logit Redes Neuronales Aplicaciones Redes en el contexto de NLP Otras arquitecturas
Recurrent Networks – GRU
sj = RGRU(sj−1, xj) = (1− z)� sj−1 + z� h
z = σ(xjWxz + hj−1W
hz)
r = σ(xjWxr + hj−1W
hr)
h = tanh(xjWxh + (hj−1 � r)Whg)
yj = O(sj) = hj
![Page 50: Deep Learning Seminario Minería de Datos · 4 0 1 0 0 3 7 7 7 5. ... Creaci on de features para otra tarea (por ejemplo ... Transducer: Se utilizan todos los estados y outputs. Por](https://reader034.fdocuments.ec/reader034/viewer/2022052022/6037a648dde5bd66dd6a868c/html5/thumbnails/50.jpg)