Presentación de PowerPoint -...

Post on 25-Sep-2018

224 views 0 download

Transcript of Presentación de PowerPoint -...

Análisis,

Parsing GRAMÁTICAS FORMALES

U: U n i v e r s o d e t o d a s

l a s p o s i b l e s

c a d e n a s d e t e x t o

EL LENGUAJE NATURAL Y LAS

GRAMÁTICAS FORMALES

L: S u b c o n j u n t o

e s p e c í f i c o q u e

c o n f o r m a

p a l a b r a s c o n

s i g n i f i c a d o

G(L): G r a m á t i c a

f o r m a l q u e

d e s c r i b e u n

l e n g u a j e

f o r m a l

U: U n i v e r s o d e t o d a s

l a s p o s i b l e s

c a d e n a s d e t e x t o

EL LENGUAJE NATURAL Y LAS

GRAMÁTICAS FORMALES

L: S u b c o n j u n t o

e s p e c í f i c o q u e

c o n f o r m a

p a l a b r a s c o n

s i g n i f i c a d o

LN: E v o l u c i o na , s e

a d a p t a , t i e n e

e x c e p c i o ne s e n

s u d e f i n i c i ó n

f o r m a l

G(L): G r a m á t i c a

f o r m a l q u e

d e s c r i b e u n

l e n g u a j e

f o r m a l

U: U n i v e r s o d e t o d a s

l a s p o s i b l e s

c a d e n a s d e t e x t o

EL LENGUAJE NATURAL Y LAS

GRAMÁTICAS FORMALES

L: S u b c o n j u n t o

e s p e c í f i c o q u e

c o n f o r m a

p a l a b r a s c o n

s i g n i f i c a d o

LN: E v o l u c i o na , s e

a d a p t a , t i e n e

e x c e p c i o ne s e n

s u d e f i n i c i ó n

f o r m a l

G’(L): G r a m á t i c a s

f o r m a l e s q u e

a p r o x i me n u n

l e n g u a j e n a t u r a l

Los algoritmos de análisis de lenguaje natural no se pueden

basar en gramáticas que tengan características fijas definibles

como las de los lenguajes de programación.

…PERO… Algunos formalismos gramaticales son muy difíciles de analizar

computacionalmente, por lo que, se usa una aproximación libre

de contexto incluso si la estructura no es libre de contexto para

obtener una primera simplificación.

SIMPLIFICACIÓN

U n r i o d e s a n g re , V i o l e t a P a r r a .

Tipo 3: (regulares, RG) Tienen la estructura más sencilla.

No describen lenguajes sino morfologías de los componentes del lenguaje (tokens).

Tipo 2: ( l ibres del contexto, CFG) Se restringe la liber tad de la formación de reglas gramaticales.

El signif icado de una palabra es totalmente independiente de su posición en la frase.

Describen completamente lenguajes formales (ar tif iciales).

Tipo 1: (sensibles al contexto) Introducen algunas limitaciones en la formación de frases.

El signif icado de las palabras depende de su posición en la frase (contexto).

Muchos lenguajes ar tif iciales y naturales per tenecen realmente a este grupo, aunque gran par te de las reglas de su gramática pueden reducirse al tipo 2 más práctico.

Tipo 0: (recursivos) A estas gramáticas no se les impone restricción alguna.

El conjunto de los lenguajes de tipo 0 coincide con todos los posibles.

Computacionalmente más complejos de expresar y procesar.

h t t p : / / e s . w i k i p e d i a . o r g / w i k i / J e r a r q u % C 3 % A D a _ d e _ C h o m s k y

JERARQUÍA LENGUAJES

DE CHOMSKY

GRAMÁTICAS, LENGUAJES Y

MÁQUINAS

MAPA CONCEPTUAL

JERARQUÍA DE CHOMSKY

PROPIEDADES DE LAS GRAMÁTICAS

Análisis léxico: Identificación de tokens (unidades léxicas).

Gramáticas de tipo 3.

Indicado mediantes Expresiones Regulares.

Análisis sintáctico: Identificación de sentencias.

Creación de estructura de árbol.

Gramáticas de tipo 2 (o 1 simplificadas).

Indicado mediante reglas Backus-Naur Form (BNF).

FASES DEL ANÁLISIS

Los interpretas autómatas finitos.

Se describen con expresiones regulares.

Práctica:

Instalar Ultrapico Expresso (solo Windows)

http://www.ultrapico.com/Expresso.htm

Alternativa en la web:

http://gskinner.com/RegExr/

ANALIZADORES LÉXICOS

Un analizador sintáctico determina si una entrada puede ser

derivada desde el símbolo inicial, usando las reglas de una

gramática formal. Existen dos aproximaciones:

Descendente LL(k) (Top-Down-Parser):

Empiezan con el símbolo inicial para alcanzar la entrada, Ej: ANTLR,

JavaCC.

Ascendente LR, SLR, LALR (Bottom-Up-Parser):

Empezar con la entrada para alcanzar el símbolo inicial, Ej: Gold

Parser, Yacc.

Mixto (Earley, CYK, Chart): (demo CYK)

Es un Top-Down con momentos de Bottom-Up, Ej: NLTK.

ANALIZADORES SINTÁCTICOS

TOP-DOWN EN PROFUNDIDAD

TOP-DOWN EN ANCHURA

BOTTOM-UP

Top-Down (LL)

Ventajas:

No explora árboles que pueden llegar a ser S.

Los subárboles encajan entre si bajo S.

Desventajas:

Se pueden explorar demasiados árboles de manera infructuosa.

Puede “divagar” en el proceso.

Bottom-Up (LR)

Ventajas:

Todos los árboles explorados son consecuentes con la entrada.

Suele ser más directo.

Desventajas:

Se realiza la exploración aun cuando es imposible alcanzar S.

Se pueden desarrollar subárboles que puede que no acaben por combinar.

COMPARACIÓN DE APROXIMACIONES

Left-Corner

Ventajas:

Ambas aproximaciones puras tienen deficiencias.

Soluciona muchos de sus problemas.

Desventajas:

Recursividad por la izquierda (S-> S and S, NP->NP PP)

Parsing sobre el mismo subarbol varias pasadas.

Ambigüedad.

Dinámicos (Chart, EARLEY, …)

Ventajas:

Son Top-Down con lef t -corner o Bottom-up parciales.

Evita repetir la misma pasada (parsing sobre el mismo subárbol) .

Reduce t iempo de proceso.

Desventajas:

Es un reconocedor no un parser porque los pasos que real iza no apuntan a las reglas aplicadas.

COMPARACIÓN DE APROXIMACIONES

PARSING SOBRE MISMO SUBÁRBOL

[Old men] and women vs. Old [men and women]

Se desambigüiza con métodos estadísticos, semánticos o

conocimiento pragmático del contexto.

AMBIGÜEDAD

Argumenta cada regla con una probabilidad condicionada

A → α (p) P(A → α)

p representa la probabilidad de que dado un no terminal A

pueda ser expandido con la secuencia α .

La probabilidad del árbol de derivación es el producto de las

probabilidades de las reglas usadas en su construcción.

http://en.wikipedia.org/wiki/Stochastic_context-free_grammar

http://web.media.mit.edu/~havasi/MAS.S60/pcfg.pdf

GRAMÁTICAS LIBRES DE CONTEXTO

PROBABILÍSTICAS (PCFG)

GRAMÁTICAS LIBRES DE CONTEXTO

PROBABILÍSTICAS (PCFG)

EJEMPLO

P(T l) = 0.15*0.40*0.05* 0.05*0.35*0.75* 0.40*0.40*0.30* 0.40*0.50= 3.78*10 -7

P(Tr) = 0.15*0.40*0.40* 0.05*0.05*0.75* 0.40*0.40*0.30* 0.40*0.50= 4.32*10 -7

¿Cuál es la probabilidad

del árbol de derivación

alternativo?

GRAMÁTICAS LIBRES DE CONTEXTO

PROBABILÍSTICAS (PCFG)

GRAMÁTICAS LIBRES DE CONTEXTO

PROBABILÍSTICAS (PCFG)

GRAMÁTICAS LIBRES DE CONTEXTO

PROBABILÍSTICAS (PCFG)

EJEMPLO DE GRAMÁTICA

PROBABILÍSTICA

S → NP VP S → Aux NP VP S → VP NP → Pronoun NP → Proper-Noun NP → Det Nominal Nominal → Noun Nominal → Nominal Noun Nominal → Nominal PP VP → Verb VP → Verb NP VP → VP PP PP → Prep NP

Orig

inal

Gram

ma

r

Ch

om

sky N

orm

al

Form

S → NP VP S → X1 VP X1 → Aux NP S → book | include | prefer 0.01 0.004 0.006 S → Verb NP S → VP PP NP → I | he | she | me 0.1 0.02 0.02 0.06 NP → Houston | NWA 0.16 .04 NP → Det Nominal Nominal → book | flight | meal | money 0.03 0.15 0.06 0.06 Nominal → Nominal Noun Nominal → Nominal PP VP → book | include | prefer 0.1 0.04 0.06 VP → Verb NP VP → VP PP PP → Prep NP

0.8 0.1 0.1 0.2 0.2 0.6 0.3 0.2 0.5 0.2 0.5 0.3 1.0

0.8 0.1 1.0 0.05 0.03 0.6 0.2 0.5 0.5 0.3 1.0

PROBABILISTIC CKY PARSER

27

Book the flight through Houston

S :.01, VP:.1,

Verb:.5

Nominal:.03

Noun:.1

Det:.6

Nominal:.15

Noun:.5

None

NP:.6*.6*.15

=.054

PROBABILISTIC CKY PARSER

28

Book the flight through Houston

S :.01, VP:.1,

Verb:.5

Nominal:.03

Noun:.1

Det:.6

Nominal:.15

Noun:.5

None

NP:.6*.6*.15

=.054

VP:.5*.5*.054

=.0135

PROBABILISTIC CKY PARSER

29

Book the flight through Houston

S :.01, VP:.1,

Verb:.5

Nominal:.03

Noun:.1

Det:.6

Nominal:.15

Noun:.5

None

NP:.6*.6*.15

=.054

VP:.5*.5*.054

=.0135

S:.05*.5*.054

=.00135

PROBABILISTIC CKY PARSER

30

Book the flight through Houston

S :.01, VP:.1,

Verb:.5

Nominal:.03

Noun:.1

Det:.6

Nominal:.15

Noun:.5

None

NP:.6*.6*.15

=.054

VP:.5*.5*.054

=.0135

S:.05*.5*.054

=.00135

None

None

None

Prep:.2

PROBABILISTIC CKY PARSER

31

Book the flight through Houston

S :.01, VP:.1,

Verb:.5

Nominal:.03

Noun:.1

Det:.6

Nominal:.15

Noun:.5

None

NP:.6*.6*.15

=.054

VP:.5*.5*.054

=.0135

S:.05*.5*.054

=.00135

None

None

None

Prep:.2

NP:.16

PropNoun:.8

PP:1.0*.2*.16

=.032

PROBABILISTIC CKY PARSER

32

Book the flight through Houston

S :.01, VP:.1,

Verb:.5

Nominal:.03

Noun:.1

Det:.6

Nominal:.15

Noun:.5

None

NP:.6*.6*.15

=.054

VP:.5*.5*.054

=.0135

S:.05*.5*.054

=.00135

None

None

None

Prep:.2

NP:.16

PropNoun:.8

PP:1.0*.2*.16

=.032

Nominal:

.5*.15*.032

=.0024

PROBABILISTIC CKY PARSER

33

Book the flight through Houston

S :.01, VP:.1,

Verb:.5

Nominal:.03

Noun:.1

Det:.6

Nominal:.15

Noun:.5

None

NP:.6*.6*.15

=.054

VP:.5*.5*.054

=.0135

S:.05*.5*.054

=.00135

None

None

None

Prep:.2

NP:.16

PropNoun:.8

PP:1.0*.2*.16

=.032

Nominal:

.5*.15*.032

=.0024

NP:.6*.6*

.0024

=.000864

PROBABILISTIC CKY PARSER

34

Book the flight through Houston

S :.01, VP:.1,

Verb:.5

Nominal:.03

Noun:.1

Det:.6

Nominal:.15

Noun:.5

None

NP:.6*.6*.15

=.054

VP:.5*.5*.054

=.0135

S:.05*.5*.054

=.00135

None

None

None

Prep:.2

NP:.16

PropNoun:.8

PP:1.0*.2*.16

=.032

Nominal:

.5*.15*.032

=.0024

NP:.6*.6*

.0024

=.000864

S:.05*.5*

.000864

=.0000216

PROBABILISTIC CKY PARSER

35

Book the flight through Houston

S :.01, VP:.1,

Verb:.5

Nominal:.03

Noun:.1

Det:.6

Nominal:.15

Noun:.5

None

NP:.6*.6*.15

=.054

VP:.5*.5*.054

=.0135

S:.05*.5*.054

=.00135

None

None

None

Prep:.2

NP:.16

PropNoun:.8

PP:1.0*.2*.16

=.032

Nominal:

.5*.15*.032

=.0024

NP:.6*.6*

.0024

=.000864

S:.0000216

S:.03*.0135*

.032

=.00001296

PROBABILISTIC CKY PARSER

36

Book the flight through Houston

S :.01, VP:.1,

Verb:.5

Nominal:.03

Noun:.1

Det:.6

Nominal:.15

Noun:.5

None

NP:.6*.6*.15

=.054

VP:.5*.5*.054

=.0135

S:.05*.5*.054

=.00135

None

None

None

Prep:.2

NP:.16

PropNoun:.8

PP:1.0*.2*.16

=.032

Nominal:

.5*.15*.032

=.0024

NP:.6*.6*

.0024

=.000864

S:.0000216 Pick most probable

parse, i.e. take max to

combine probabilities

of multiple derivations

of each constituent in

each cell.

PCFG: CUANDO LO EVIDENTE NO LO

ES TANTO

LEXICAL PGFG (LPCFG): PROB. COND.

A PAPELES TEMÁTICOS (FILLMORE)

PCFG: TREE BANKS

Mediante aprendizaje supervisado, pasamos las

reglas de la gramática por un conjunto de

sentencias de aprendizaje y estimamos los

parámetros de probabilidad, con cierto suavizado.

.

.

.

Tree Bank

Supervised

PCFG

Training

S → NP VP

S → VP

NP → Det A N

NP → NP PP

NP → PropN

A → ε

A → Adj A

PP → Prep NP

VP → V NP

VP → VP PP

0.9

0.1

0.5

0.3

0.2

0.6

0.4

1.0

0.7

0.3

English

S

NP VP

John V NP PP

put the dog in the pen

S

NP VP

John V NP PP

put the dog in the pen

ESTIMACIÓN DE PROBABILIDADES

CONDICIONADAS

)count(

)count(

)count(

)count()|(

P

Dado un conjunto de sentencias, buscamos la gramática que

maximice la probabilidad de que haya sido generada por ella

misma.

Se realiza a nivel de:

1. Palabra: Yo lo haré mañana -> I will do it tomorrow

2. Frase: Yo lo haré mañana -> I will do it tomorrow

3. Árbol: Busca que la unidad léxica mantenga el mismo papel

sintáctico. Lo visto en el capítulo,

4. Significado: Doing -> do verb (does; doing; past did; past

part. done). Perform or carry out (an action), work on

(something) to bring it to completion or to a required state .

Busca la semántica de la unidad léxica para comprender su

función así identificar las papeles que intervienen.

TRADUCCIÓN (MT)

Jurafsky,D . & Mar t in , J . (2007) :

Speech and Language Processing

An Int roduct ion to Speech Recogni t ion , Computat ional L inguis t ics and Natural Language Processing ,

Second Edi t ion, New York , Pearson.

SUMARIO EN LA

BIBLIOGRAFÍA

I n m a ny la n g u a g es , g ro u p s o f c o n sec u t i ve wo r d s a c t a s a g ro u p o r a c o n s t i t u en t , w h ic h c a n b e

m o d e led by c o n tex t - f r ee g r a m m ar s ( a l so k n ow n a s p h r a se - s t r u c t u r e g r a m m a r s ) .

A c o n tex t - f r ee g r a m m a r c o n s i s t s o f a s e t o f r u les o r p ro d u c t io n s , ex p r essed ove r a set o f n o n -

te r m in a l s y m b o ls a n d a set o f te r m in a l s y m b o ls . Fo r m a l l y, a p a r t i c u la r c o n tex t - f r ee l a n g u ag e i s t h e

set o f s t r in g s w h ic h c a n b e d e r i ved f ro m a p a r t i c u la r c o n tex t - f r ee g r a m m a r.

A g e n er at i ve g r a m m a r i s a t r a d i t i o n a l n a m e in l i n g u is t i c s fo r a fo r m a l la n g u a g e w h ic h i s u sed to

m o d e l t h e g r a m m a r o f a n a t u r a l l a n g u a g e .

T h er e a r e m a ny s e n ten ce - leve l g r a m m a t ica l c o n s t r uc t io ns in E n g l i sh ; d ec la r a t ive , im p er a t i ve , yes -

n o - q u es t io n , a n d w h - q u es t io n a r e fo u r ve r y c o m m o n t y p es , w h ic h c a n b e m o d e led w i t h c o n tex t - f r ee

r u l es .

A n E n g l i sh n o u n p h r a se c a n h ave d ete r m in er s , n u m b er s , q u a n t i f i e r s , a n d a d jec t i ve p h r a ses

p r ec ed in g t h e h ea d n o u n , w h ic h c a n b e fo l l owed by a n u m b er o f p o s t m o d i f i e r s ; g e r u n d ive ,

i n f in i t i ves , a n d p a s t p a r t i c ip ia l a r e c o m m o n p o ss ib i l i t i es .

Tr ee b a n ks o f p a r sed sen ten c es ex i s t fo r m a ny g en r es o f E n g l i sh a n d fo r m a ny la n g u a g es . Tr ee

b a n k s c a n b e sea r c h ed u s in g t r ee - sea r c h to o l s .

A ny c o n tex t - f r ee g r a m m a r c a n b e c o nve r ted to C h o m sky n o r m a l f o r m , in w h ic h t h e r i g h t - h a n d - s ide

o f ea c h r u le h a s e i t h e r t wo n o n - te r m in a ls o r a s in g le te r m in a l .

SUMARIO CAPÍTULO 12

P a r s in g c a n b e v iewed a s a s e a r c h p r o b lem .

To p - down ( s t ar t in g w i t h t h e ro o t S a n d g row in g t r ees d ow n to t h e in p u t wo r d s ) a n d B o t to m -u p

( s t a r t in g w i t h t h e wo r d s a n d g row in g t r ees u p towa r d t h e ro o t S ) .

A m b ig u i t y a n d r ep ea ted p a r s in g o f su b - t r ees p o se p r o b lem s fo r s im p le b a c k t r a c k in g a lg o r i t h m s .

A sen ten c e i s s t r u c t u r a l l y a m b ig u o us i f t h e g r a m m a r a ss ig n s i t m o r e t h a n o n e p o ss ib le p a r se .

T h e d y n am ic p r o g r am m i n g p a r s i n g a l g o r i t h m s u se a t a b le o f p a r t ia l - p a r ses to e f f i c ien t ly p a r se

a m b ig u o u s sen ten c es . T h e C KY, E a r ley, a n d C h a r t - Pa r s in g a lg o r i t h m s a l l u se d y n a m ic p ro g r a m m in g

to so l ve t h e r ep ea ted p a r s in g o f su b t r ees p ro b lem .

T h e C K Y a l g o r i t hm r es t r i c t s t h e fo r m o f i t s g r a m m a r to C h o m sk y -No r m a l Fo r m ; t h e E a r l ey a n d C h a r t -

p a r se r s a c c ep t u n r es t r i c ted c o n tex t - f r ee g r a m m a r s .

P r a c t i c a l p ro b lem s in c lu d in g in fo r m a t io n ex t r a c t io n p ro b lem s c a n b e so l ved w i t h o u t f u l l p a r s in g .

P a r t ia l p a r s in g a n d c h u n k i n g a r e m et h o d s fo r i d en t i f y ing sh a l low sy n t a c t i c c o n s t i t u en t s in a tex t .

S h a l low p a r s i n g i s a n a n a l y s i s o f a sen ten c e w h ic h id en t i f i es t h e c o n s t i t u en t s ( n o u n g ro u p s , ve r b s ,

ve r b g ro u p s , e t c . ) , b u t d o es n o t sp ec i f y t h e i r i n te r n a l s t r u c t u r e , n o r t h e i r ro le in t h e m a in sen ten c e .

Ac c u r a c y p a r t ia l p a r s in g c a n b e a c h ieved e i t h e r t h ro u g h r u le - b a sed o r m a c h in e - lea r n in g m et h o d s .

SUMARIO CAPÍTULO 13

CONCLUSIONES SOBRE

PARSING ESTADÍSTICO

Consiguen una resolución adecuada de la ambigüedad.

Son un recurso a nuestro alcance en forma de Treebanks.

Necesita de una buena fase previa de “lexicalización”

(head words) para resolver ambigüedades y obtener

buenos resultados.

Los resultados actuales son adecuados pero no llegan al

nivel de un experto humano.

45

HERRAMIENTAS

NLTK:

PARSERS

import n l tk

mygrammar = n l tk . parse_cfg ("" "

S -> N P VP

PP -> P N P

N P -> Det N | Det N PP | ' I '

VP -> V N P | VP PP

Det -> ' an ' | ' my ' | ' a ' | ' the '

N -> ' e lephant ' | 'pa jamas ' | 'dog ' | ' cat ' | ' cookie '

V -> ' shot ' | ' saw ' | 'ate '

P -> ' in ' | ' o n ' | 'by ' | 'w i th '

" "" )

sent = " I shot an e lephant in my pa jamas " .sp l i t ( )

parser = n l tk .ChartParser (mygrammar )

t rees = parser.nbest_parse (sent )

for t ree in t rees :

pr int t ree

parser = nl tk . Shi f tReduceParser (mygrammar, t race=2) sent = ‘ I saw a dog ' . sp l i t ( ) pr int parser.parse (sent ) parser = nl tk . Recurs iveDescentParser (mygrammar )

RESULTADO