Representaciones Distribuidas de las Palabras y … · Representaciones Distribuidas de las...

Post on 04-Oct-2018

228 views 0 download

Transcript of Representaciones Distribuidas de las Palabras y … · Representaciones Distribuidas de las...

Representaciones Distribuidas de las Palabras

y Redes Neuronales Artificiales

para el PLN

3er Encuentro de Ciudades Inteligentes

Mathias Etcheverry

2 de agosto, 2017

Grupo de PLN, InCo, Fing, UdelaR

Representaciones distribuidas

para las palabras

Las diferencias en los significados de las

palabras se corresponde con diferencias en las

distribuciones de los contextos en los que

ocurren. (Z. Harris, 1954)

0

DSMs. Ejemplo. (1)

(Ejemplo tomado de la charla de Alessandro Lenci en la Global WordNet Conference (GWC 2014).)

1

DSMs. Ejemplo. (2)

(Ejemplo tomado de la charla de Alessandro Lenci en la Global WordNet Conference (GWC 2014).)

2

DSMs. Ejemplo. (3)

(Ejemplo tomado de la charla de Alessandro Lenci en la Global WordNet Conference (GWC 2014).)

3

Conteo y Factorizacion de Matrices

• La matriz de coocurrencias palabra-palabra da representaciones de

dimension extremadamente grande.

• Reducir la dimension con tecnicas de factorizacion de matrices (Ej.

SVD), ademas de obtener vectores mas compactos, mejora los

resultados. (Analisis Semantico Latente) (Deerwester,

1990)(Landauer, 1997)

4

Es posible construir representaciones con

Redes Neuronales Artificiales.

4

(Parentesis - Nocion de Redes Neuronales)

4

Neurona Artificial

x2 w2 Σ f

Funcion de

Activacion

ySalida

x1 w1

x3 w3

Parametros

b

Entradas

5

Red Feed-Forward (fully Connected)

EntradaCapa

OcultaSalida

x1

x2

x3

x4

x5

y1

y2

Figure 1: Ejemplo de red neuronal feed forward.

6

Entrenamiento supervisado de una red

• Funcion que mide el error de la red respecto a un conjunto de

entrenamiento D.

Ej. ∑(xi ,yi )∈D

|yi − Fw (xi )|2

• Como es diferenciable se puede minimizar con descenso por

gradiente (backpropagation).

7

Red Recurrente

Entrada

Capa

Oculta

(rec.)

Salida

x1

x2

x3

x4

x5

y1

y2

8

Red Recurrente (despliegue)

salida

oculta

entrada

wi wi wi wi

wh wh wh wh wh

wo wo wo wo

9

(Fin del parentesis)

9

NLP (almost) from scratch. (Collober, 2011)

(Imagen tomada de Natural Almost Processing (almost) from scratch. (Collober et al., 2011).) 10

Representaciones Distribuidas - Analogıas (Mikolov, 2013)

• El test de analogıas se basa en que los pares de palabras

relacionadas bajo un mismo tipo de relacion tienden a tener el mismo

vector diferencia. Por ejemplo, vhombre − vmujer ≈ vrey − vreina .

• Las relaciones pueden ser:

• semanticas:

Ej. paıs-capital → canada:toronto::china:pekın

• sintacticas:

Ej. infinitivo-gerundio → reır:riendo::vivir:viviendo.

11

Visualizacion de Representaciones Distribuidas

Figure 2: Reduccion a 2 dimensiones usando t-sne de representaciones de

dimension 150 construidas con GloVe (Pennington, 2014) de un dump de la

Wikipedia en espanol de 130 millones de palabras. 12

Aplicaciones de PLN con ANNs

y Embeddings de Palabras

Deteccion de Expresiones Temporales y

Eventos

12

Expresiones Temporales

Las expresiones temporales son aquellas expresiones linguısticas que

localizan o indican la duracion de un evento en un texto.

El grupo britanico se ha visto obligado a aplazar los conciertos que

tenıa programados para el proximo martes en Razzmatazz (que se pospone

al 25 de abril) y, un dıa despues, en la Sala Multiusos de Zaragoza.

1

1Ejemplo extraıdo del corpus de TempEval3 (UzZaman, 2012)

13

Expresiones Temporales - Embeddings y ANN

• Es habitual en este tipo de problemas utilizar ontologıas, patrones,

lexicos, etc., es decir, recursos que contienen conocimiento

especıfico del problema a resolver.

• Se pretende resolver el problema utilizando exclusivamente

datos supervisados (texto anotado) y no supervisados (texto).

• No se utilizan recursos adicionales ni ingenierıa de atributos.

14

Expresiones Temporales y Eventos - Resultados

P R F

Eventos (sin ETemps) (ES) 81.2 79.4 80.3

Eventos (con ETemps) (ES) 84.3 79.1 81.6

CRF+Morph+SRL+WNet(Llorens, 2010) 83.4 79.5 81.4

Eventos (con ETemps) (EN) 79.3 79.6 79.5

ATT1(MaxEnt+Syn+Sem) (Jung, 2013) 81.4 80.7 81.1

ETemps (con Eventos) (EN) 99.0 71.0 82.7

Semantic Parsing (Lee, 2014) 86.1 80.4 83.1

15

Traduccion Automatica

15

Traduccion Automatica (1)

(Imagen tomada de https://medium.com/@ageitgey/

machine-learning-is-fun-part-5-language-translation-with-deep-learning-and-the-magic-of-sequences-2ace0acca0aa)

16

Traduccion Automatica (2)

(Imagen tomada de https://medium.com/@ageitgey/

machine-learning-is-fun-part-5-language-translation-with-deep-learning-and-the-magic-of-sequences-2ace0acca0aa)

17

Traduccion Automatica (3)

(Imagen tomada de ”Neural Machine Translation and Sequence-to-sequence Models: A Tutorial. Graham Neubig”)

18

Descripcion Automatica de Imagenes

18

Descripcion Automatica de Imagenes

(Imagenes obtenidas de slides de Andrej Karpathy. (https://cs.stanford.edu/people/karpathy/sfmltalk.pdf))

19

Descripcion Automatica de Imagenes

(Imagenes obtenidas de slides de Andrej Karpathy. (https://cs.stanford.edu/people/karpathy/sfmltalk.pdf))

20

Descripcion Automatica de Imagenes

(Imagenes obtenidas de slides de Andrej Karpathy. (https://cs.stanford.edu/people/karpathy/sfmltalk.pdf))

21

Descripcion Automatica de Imagenes

(Imagenes obtenidas de slides de Andrej Karpathy. (https://cs.stanford.edu/people/karpathy/sfmltalk.pdf))

22

Descripcion Automatica de Imagenes

(Imagenes obtenidas de slides de Andrej Karpathy. (https://cs.stanford.edu/people/karpathy/sfmltalk.pdf))

23

Descripcion Automatica de Imagenes

(Imagenes obtenidas de slides de Andrej Karpathy. (https://cs.stanford.edu/people/karpathy/sfmltalk.pdf))

24

Gracias!

24