Usando representaciones distribuidas para el análisis de ...
Representaciones Distribuidas de las Palabras y … · Representaciones Distribuidas de las...
Transcript of Representaciones Distribuidas de las Palabras y … · Representaciones Distribuidas de las...
Representaciones Distribuidas de las Palabras
y Redes Neuronales Artificiales
para el PLN
3er Encuentro de Ciudades Inteligentes
Mathias Etcheverry
2 de agosto, 2017
Grupo de PLN, InCo, Fing, UdelaR
Representaciones distribuidas
para las palabras
Las diferencias en los significados de las
palabras se corresponde con diferencias en las
distribuciones de los contextos en los que
ocurren. (Z. Harris, 1954)
0
DSMs. Ejemplo. (1)
(Ejemplo tomado de la charla de Alessandro Lenci en la Global WordNet Conference (GWC 2014).)
1
DSMs. Ejemplo. (2)
(Ejemplo tomado de la charla de Alessandro Lenci en la Global WordNet Conference (GWC 2014).)
2
DSMs. Ejemplo. (3)
(Ejemplo tomado de la charla de Alessandro Lenci en la Global WordNet Conference (GWC 2014).)
3
Conteo y Factorizacion de Matrices
• La matriz de coocurrencias palabra-palabra da representaciones de
dimension extremadamente grande.
• Reducir la dimension con tecnicas de factorizacion de matrices (Ej.
SVD), ademas de obtener vectores mas compactos, mejora los
resultados. (Analisis Semantico Latente) (Deerwester,
1990)(Landauer, 1997)
4
Es posible construir representaciones con
Redes Neuronales Artificiales.
4
(Parentesis - Nocion de Redes Neuronales)
4
Neurona Artificial
x2 w2 Σ f
Funcion de
Activacion
ySalida
x1 w1
x3 w3
Parametros
b
Entradas
5
Red Feed-Forward (fully Connected)
EntradaCapa
OcultaSalida
x1
x2
x3
x4
x5
y1
y2
Figure 1: Ejemplo de red neuronal feed forward.
6
Entrenamiento supervisado de una red
• Funcion que mide el error de la red respecto a un conjunto de
entrenamiento D.
Ej. ∑(xi ,yi )∈D
|yi − Fw (xi )|2
• Como es diferenciable se puede minimizar con descenso por
gradiente (backpropagation).
7
Red Recurrente
Entrada
Capa
Oculta
(rec.)
Salida
x1
x2
x3
x4
x5
y1
y2
8
Red Recurrente (despliegue)
salida
oculta
entrada
wi wi wi wi
wh wh wh wh wh
wo wo wo wo
9
(Fin del parentesis)
9
NLP (almost) from scratch. (Collober, 2011)
(Imagen tomada de Natural Almost Processing (almost) from scratch. (Collober et al., 2011).) 10
Representaciones Distribuidas - Analogıas (Mikolov, 2013)
• El test de analogıas se basa en que los pares de palabras
relacionadas bajo un mismo tipo de relacion tienden a tener el mismo
vector diferencia. Por ejemplo, vhombre − vmujer ≈ vrey − vreina .
• Las relaciones pueden ser:
• semanticas:
Ej. paıs-capital → canada:toronto::china:pekın
• sintacticas:
Ej. infinitivo-gerundio → reır:riendo::vivir:viviendo.
11
Visualizacion de Representaciones Distribuidas
Figure 2: Reduccion a 2 dimensiones usando t-sne de representaciones de
dimension 150 construidas con GloVe (Pennington, 2014) de un dump de la
Wikipedia en espanol de 130 millones de palabras. 12
Aplicaciones de PLN con ANNs
y Embeddings de Palabras
Deteccion de Expresiones Temporales y
Eventos
12
Expresiones Temporales
Las expresiones temporales son aquellas expresiones linguısticas que
localizan o indican la duracion de un evento en un texto.
El grupo britanico se ha visto obligado a aplazar los conciertos que
tenıa programados para el proximo martes en Razzmatazz (que se pospone
al 25 de abril) y, un dıa despues, en la Sala Multiusos de Zaragoza.
1
1Ejemplo extraıdo del corpus de TempEval3 (UzZaman, 2012)
13
Expresiones Temporales - Embeddings y ANN
• Es habitual en este tipo de problemas utilizar ontologıas, patrones,
lexicos, etc., es decir, recursos que contienen conocimiento
especıfico del problema a resolver.
• Se pretende resolver el problema utilizando exclusivamente
datos supervisados (texto anotado) y no supervisados (texto).
• No se utilizan recursos adicionales ni ingenierıa de atributos.
14
Expresiones Temporales y Eventos - Resultados
P R F
Eventos (sin ETemps) (ES) 81.2 79.4 80.3
Eventos (con ETemps) (ES) 84.3 79.1 81.6
CRF+Morph+SRL+WNet(Llorens, 2010) 83.4 79.5 81.4
Eventos (con ETemps) (EN) 79.3 79.6 79.5
ATT1(MaxEnt+Syn+Sem) (Jung, 2013) 81.4 80.7 81.1
ETemps (con Eventos) (EN) 99.0 71.0 82.7
Semantic Parsing (Lee, 2014) 86.1 80.4 83.1
15
Traduccion Automatica
15
Traduccion Automatica (1)
(Imagen tomada de https://medium.com/@ageitgey/
machine-learning-is-fun-part-5-language-translation-with-deep-learning-and-the-magic-of-sequences-2ace0acca0aa)
16
Traduccion Automatica (2)
(Imagen tomada de https://medium.com/@ageitgey/
machine-learning-is-fun-part-5-language-translation-with-deep-learning-and-the-magic-of-sequences-2ace0acca0aa)
17
Traduccion Automatica (3)
(Imagen tomada de ”Neural Machine Translation and Sequence-to-sequence Models: A Tutorial. Graham Neubig”)
18
Descripcion Automatica de Imagenes
18
Descripcion Automatica de Imagenes
(Imagenes obtenidas de slides de Andrej Karpathy. (https://cs.stanford.edu/people/karpathy/sfmltalk.pdf))
19
Descripcion Automatica de Imagenes
(Imagenes obtenidas de slides de Andrej Karpathy. (https://cs.stanford.edu/people/karpathy/sfmltalk.pdf))
20
Descripcion Automatica de Imagenes
(Imagenes obtenidas de slides de Andrej Karpathy. (https://cs.stanford.edu/people/karpathy/sfmltalk.pdf))
21
Descripcion Automatica de Imagenes
(Imagenes obtenidas de slides de Andrej Karpathy. (https://cs.stanford.edu/people/karpathy/sfmltalk.pdf))
22
Descripcion Automatica de Imagenes
(Imagenes obtenidas de slides de Andrej Karpathy. (https://cs.stanford.edu/people/karpathy/sfmltalk.pdf))
23
Descripcion Automatica de Imagenes
(Imagenes obtenidas de slides de Andrej Karpathy. (https://cs.stanford.edu/people/karpathy/sfmltalk.pdf))
24
Gracias!
24