Presentación de PowerPoint -...

51
Análisis, Parsing GRAMÁTICAS FORMALES

Transcript of Presentación de PowerPoint -...

Page 1: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad

Análisis,

Parsing GRAMÁTICAS FORMALES

Page 2: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad

U: U n i v e r s o d e t o d a s

l a s p o s i b l e s

c a d e n a s d e t e x t o

EL LENGUAJE NATURAL Y LAS

GRAMÁTICAS FORMALES

L: S u b c o n j u n t o

e s p e c í f i c o q u e

c o n f o r m a

p a l a b r a s c o n

s i g n i f i c a d o

G(L): G r a m á t i c a

f o r m a l q u e

d e s c r i b e u n

l e n g u a j e

f o r m a l

Page 3: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad

U: U n i v e r s o d e t o d a s

l a s p o s i b l e s

c a d e n a s d e t e x t o

EL LENGUAJE NATURAL Y LAS

GRAMÁTICAS FORMALES

L: S u b c o n j u n t o

e s p e c í f i c o q u e

c o n f o r m a

p a l a b r a s c o n

s i g n i f i c a d o

LN: E v o l u c i o na , s e

a d a p t a , t i e n e

e x c e p c i o ne s e n

s u d e f i n i c i ó n

f o r m a l

G(L): G r a m á t i c a

f o r m a l q u e

d e s c r i b e u n

l e n g u a j e

f o r m a l

Page 4: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad

U: U n i v e r s o d e t o d a s

l a s p o s i b l e s

c a d e n a s d e t e x t o

EL LENGUAJE NATURAL Y LAS

GRAMÁTICAS FORMALES

L: S u b c o n j u n t o

e s p e c í f i c o q u e

c o n f o r m a

p a l a b r a s c o n

s i g n i f i c a d o

LN: E v o l u c i o na , s e

a d a p t a , t i e n e

e x c e p c i o ne s e n

s u d e f i n i c i ó n

f o r m a l

G’(L): G r a m á t i c a s

f o r m a l e s q u e

a p r o x i me n u n

l e n g u a j e n a t u r a l

Page 5: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad

Los algoritmos de análisis de lenguaje natural no se pueden

basar en gramáticas que tengan características fijas definibles

como las de los lenguajes de programación.

…PERO… Algunos formalismos gramaticales son muy difíciles de analizar

computacionalmente, por lo que, se usa una aproximación libre

de contexto incluso si la estructura no es libre de contexto para

obtener una primera simplificación.

SIMPLIFICACIÓN

U n r i o d e s a n g re , V i o l e t a P a r r a .

Page 6: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad

Tipo 3: (regulares, RG) Tienen la estructura más sencilla.

No describen lenguajes sino morfologías de los componentes del lenguaje (tokens).

Tipo 2: ( l ibres del contexto, CFG) Se restringe la liber tad de la formación de reglas gramaticales.

El signif icado de una palabra es totalmente independiente de su posición en la frase.

Describen completamente lenguajes formales (ar tif iciales).

Tipo 1: (sensibles al contexto) Introducen algunas limitaciones en la formación de frases.

El signif icado de las palabras depende de su posición en la frase (contexto).

Muchos lenguajes ar tif iciales y naturales per tenecen realmente a este grupo, aunque gran par te de las reglas de su gramática pueden reducirse al tipo 2 más práctico.

Tipo 0: (recursivos) A estas gramáticas no se les impone restricción alguna.

El conjunto de los lenguajes de tipo 0 coincide con todos los posibles.

Computacionalmente más complejos de expresar y procesar.

h t t p : / / e s . w i k i p e d i a . o r g / w i k i / J e r a r q u % C 3 % A D a _ d e _ C h o m s k y

JERARQUÍA LENGUAJES

DE CHOMSKY

Page 7: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad

GRAMÁTICAS, LENGUAJES Y

MÁQUINAS

Page 8: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad

MAPA CONCEPTUAL

JERARQUÍA DE CHOMSKY

Page 9: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad

PROPIEDADES DE LAS GRAMÁTICAS

Page 10: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad

Análisis léxico: Identificación de tokens (unidades léxicas).

Gramáticas de tipo 3.

Indicado mediantes Expresiones Regulares.

Análisis sintáctico: Identificación de sentencias.

Creación de estructura de árbol.

Gramáticas de tipo 2 (o 1 simplificadas).

Indicado mediante reglas Backus-Naur Form (BNF).

FASES DEL ANÁLISIS

Page 11: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad

Los interpretas autómatas finitos.

Se describen con expresiones regulares.

Práctica:

Instalar Ultrapico Expresso (solo Windows)

http://www.ultrapico.com/Expresso.htm

Alternativa en la web:

http://gskinner.com/RegExr/

ANALIZADORES LÉXICOS

Page 12: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad

Un analizador sintáctico determina si una entrada puede ser

derivada desde el símbolo inicial, usando las reglas de una

gramática formal. Existen dos aproximaciones:

Descendente LL(k) (Top-Down-Parser):

Empiezan con el símbolo inicial para alcanzar la entrada, Ej: ANTLR,

JavaCC.

Ascendente LR, SLR, LALR (Bottom-Up-Parser):

Empezar con la entrada para alcanzar el símbolo inicial, Ej: Gold

Parser, Yacc.

Mixto (Earley, CYK, Chart): (demo CYK)

Es un Top-Down con momentos de Bottom-Up, Ej: NLTK.

ANALIZADORES SINTÁCTICOS

Page 13: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad

TOP-DOWN EN PROFUNDIDAD

Page 14: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad

TOP-DOWN EN ANCHURA

Page 15: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad

BOTTOM-UP

Page 16: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad

Top-Down (LL)

Ventajas:

No explora árboles que pueden llegar a ser S.

Los subárboles encajan entre si bajo S.

Desventajas:

Se pueden explorar demasiados árboles de manera infructuosa.

Puede “divagar” en el proceso.

Bottom-Up (LR)

Ventajas:

Todos los árboles explorados son consecuentes con la entrada.

Suele ser más directo.

Desventajas:

Se realiza la exploración aun cuando es imposible alcanzar S.

Se pueden desarrollar subárboles que puede que no acaben por combinar.

COMPARACIÓN DE APROXIMACIONES

Page 17: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad

Left-Corner

Ventajas:

Ambas aproximaciones puras tienen deficiencias.

Soluciona muchos de sus problemas.

Desventajas:

Recursividad por la izquierda (S-> S and S, NP->NP PP)

Parsing sobre el mismo subarbol varias pasadas.

Ambigüedad.

Dinámicos (Chart, EARLEY, …)

Ventajas:

Son Top-Down con lef t -corner o Bottom-up parciales.

Evita repetir la misma pasada (parsing sobre el mismo subárbol) .

Reduce t iempo de proceso.

Desventajas:

Es un reconocedor no un parser porque los pasos que real iza no apuntan a las reglas aplicadas.

COMPARACIÓN DE APROXIMACIONES

Page 18: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad

PARSING SOBRE MISMO SUBÁRBOL

Page 19: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad

[Old men] and women vs. Old [men and women]

Se desambigüiza con métodos estadísticos, semánticos o

conocimiento pragmático del contexto.

AMBIGÜEDAD

Page 20: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad

Argumenta cada regla con una probabilidad condicionada

A → α (p) P(A → α)

p representa la probabilidad de que dado un no terminal A

pueda ser expandido con la secuencia α .

La probabilidad del árbol de derivación es el producto de las

probabilidades de las reglas usadas en su construcción.

http://en.wikipedia.org/wiki/Stochastic_context-free_grammar

http://web.media.mit.edu/~havasi/MAS.S60/pcfg.pdf

GRAMÁTICAS LIBRES DE CONTEXTO

PROBABILÍSTICAS (PCFG)

Page 21: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad

GRAMÁTICAS LIBRES DE CONTEXTO

PROBABILÍSTICAS (PCFG)

Page 22: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad

EJEMPLO

P(T l) = 0.15*0.40*0.05* 0.05*0.35*0.75* 0.40*0.40*0.30* 0.40*0.50= 3.78*10 -7

P(Tr) = 0.15*0.40*0.40* 0.05*0.05*0.75* 0.40*0.40*0.30* 0.40*0.50= 4.32*10 -7

Page 23: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad

¿Cuál es la probabilidad

del árbol de derivación

alternativo?

GRAMÁTICAS LIBRES DE CONTEXTO

PROBABILÍSTICAS (PCFG)

Page 24: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad

GRAMÁTICAS LIBRES DE CONTEXTO

PROBABILÍSTICAS (PCFG)

Page 25: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad

GRAMÁTICAS LIBRES DE CONTEXTO

PROBABILÍSTICAS (PCFG)

Page 26: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad

EJEMPLO DE GRAMÁTICA

PROBABILÍSTICA

S → NP VP S → Aux NP VP S → VP NP → Pronoun NP → Proper-Noun NP → Det Nominal Nominal → Noun Nominal → Nominal Noun Nominal → Nominal PP VP → Verb VP → Verb NP VP → VP PP PP → Prep NP

Orig

inal

Gram

ma

r

Ch

om

sky N

orm

al

Form

S → NP VP S → X1 VP X1 → Aux NP S → book | include | prefer 0.01 0.004 0.006 S → Verb NP S → VP PP NP → I | he | she | me 0.1 0.02 0.02 0.06 NP → Houston | NWA 0.16 .04 NP → Det Nominal Nominal → book | flight | meal | money 0.03 0.15 0.06 0.06 Nominal → Nominal Noun Nominal → Nominal PP VP → book | include | prefer 0.1 0.04 0.06 VP → Verb NP VP → VP PP PP → Prep NP

0.8 0.1 0.1 0.2 0.2 0.6 0.3 0.2 0.5 0.2 0.5 0.3 1.0

0.8 0.1 1.0 0.05 0.03 0.6 0.2 0.5 0.5 0.3 1.0

Page 27: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad

PROBABILISTIC CKY PARSER

27

Book the flight through Houston

S :.01, VP:.1,

Verb:.5

Nominal:.03

Noun:.1

Det:.6

Nominal:.15

Noun:.5

None

NP:.6*.6*.15

=.054

Page 28: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad

PROBABILISTIC CKY PARSER

28

Book the flight through Houston

S :.01, VP:.1,

Verb:.5

Nominal:.03

Noun:.1

Det:.6

Nominal:.15

Noun:.5

None

NP:.6*.6*.15

=.054

VP:.5*.5*.054

=.0135

Page 29: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad

PROBABILISTIC CKY PARSER

29

Book the flight through Houston

S :.01, VP:.1,

Verb:.5

Nominal:.03

Noun:.1

Det:.6

Nominal:.15

Noun:.5

None

NP:.6*.6*.15

=.054

VP:.5*.5*.054

=.0135

S:.05*.5*.054

=.00135

Page 30: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad

PROBABILISTIC CKY PARSER

30

Book the flight through Houston

S :.01, VP:.1,

Verb:.5

Nominal:.03

Noun:.1

Det:.6

Nominal:.15

Noun:.5

None

NP:.6*.6*.15

=.054

VP:.5*.5*.054

=.0135

S:.05*.5*.054

=.00135

None

None

None

Prep:.2

Page 31: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad

PROBABILISTIC CKY PARSER

31

Book the flight through Houston

S :.01, VP:.1,

Verb:.5

Nominal:.03

Noun:.1

Det:.6

Nominal:.15

Noun:.5

None

NP:.6*.6*.15

=.054

VP:.5*.5*.054

=.0135

S:.05*.5*.054

=.00135

None

None

None

Prep:.2

NP:.16

PropNoun:.8

PP:1.0*.2*.16

=.032

Page 32: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad

PROBABILISTIC CKY PARSER

32

Book the flight through Houston

S :.01, VP:.1,

Verb:.5

Nominal:.03

Noun:.1

Det:.6

Nominal:.15

Noun:.5

None

NP:.6*.6*.15

=.054

VP:.5*.5*.054

=.0135

S:.05*.5*.054

=.00135

None

None

None

Prep:.2

NP:.16

PropNoun:.8

PP:1.0*.2*.16

=.032

Nominal:

.5*.15*.032

=.0024

Page 33: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad

PROBABILISTIC CKY PARSER

33

Book the flight through Houston

S :.01, VP:.1,

Verb:.5

Nominal:.03

Noun:.1

Det:.6

Nominal:.15

Noun:.5

None

NP:.6*.6*.15

=.054

VP:.5*.5*.054

=.0135

S:.05*.5*.054

=.00135

None

None

None

Prep:.2

NP:.16

PropNoun:.8

PP:1.0*.2*.16

=.032

Nominal:

.5*.15*.032

=.0024

NP:.6*.6*

.0024

=.000864

Page 34: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad

PROBABILISTIC CKY PARSER

34

Book the flight through Houston

S :.01, VP:.1,

Verb:.5

Nominal:.03

Noun:.1

Det:.6

Nominal:.15

Noun:.5

None

NP:.6*.6*.15

=.054

VP:.5*.5*.054

=.0135

S:.05*.5*.054

=.00135

None

None

None

Prep:.2

NP:.16

PropNoun:.8

PP:1.0*.2*.16

=.032

Nominal:

.5*.15*.032

=.0024

NP:.6*.6*

.0024

=.000864

S:.05*.5*

.000864

=.0000216

Page 35: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad

PROBABILISTIC CKY PARSER

35

Book the flight through Houston

S :.01, VP:.1,

Verb:.5

Nominal:.03

Noun:.1

Det:.6

Nominal:.15

Noun:.5

None

NP:.6*.6*.15

=.054

VP:.5*.5*.054

=.0135

S:.05*.5*.054

=.00135

None

None

None

Prep:.2

NP:.16

PropNoun:.8

PP:1.0*.2*.16

=.032

Nominal:

.5*.15*.032

=.0024

NP:.6*.6*

.0024

=.000864

S:.0000216

S:.03*.0135*

.032

=.00001296

Page 36: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad

PROBABILISTIC CKY PARSER

36

Book the flight through Houston

S :.01, VP:.1,

Verb:.5

Nominal:.03

Noun:.1

Det:.6

Nominal:.15

Noun:.5

None

NP:.6*.6*.15

=.054

VP:.5*.5*.054

=.0135

S:.05*.5*.054

=.00135

None

None

None

Prep:.2

NP:.16

PropNoun:.8

PP:1.0*.2*.16

=.032

Nominal:

.5*.15*.032

=.0024

NP:.6*.6*

.0024

=.000864

S:.0000216 Pick most probable

parse, i.e. take max to

combine probabilities

of multiple derivations

of each constituent in

each cell.

Page 37: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad

PCFG: CUANDO LO EVIDENTE NO LO

ES TANTO

Page 38: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad

LEXICAL PGFG (LPCFG): PROB. COND.

A PAPELES TEMÁTICOS (FILLMORE)

Page 39: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad

PCFG: TREE BANKS

Mediante aprendizaje supervisado, pasamos las

reglas de la gramática por un conjunto de

sentencias de aprendizaje y estimamos los

parámetros de probabilidad, con cierto suavizado.

.

.

.

Tree Bank

Supervised

PCFG

Training

S → NP VP

S → VP

NP → Det A N

NP → NP PP

NP → PropN

A → ε

A → Adj A

PP → Prep NP

VP → V NP

VP → VP PP

0.9

0.1

0.5

0.3

0.2

0.6

0.4

1.0

0.7

0.3

English

S

NP VP

John V NP PP

put the dog in the pen

S

NP VP

John V NP PP

put the dog in the pen

Page 40: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad

ESTIMACIÓN DE PROBABILIDADES

CONDICIONADAS

)count(

)count(

)count(

)count()|(

P

Dado un conjunto de sentencias, buscamos la gramática que

maximice la probabilidad de que haya sido generada por ella

misma.

Page 41: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad

Se realiza a nivel de:

1. Palabra: Yo lo haré mañana -> I will do it tomorrow

2. Frase: Yo lo haré mañana -> I will do it tomorrow

3. Árbol: Busca que la unidad léxica mantenga el mismo papel

sintáctico. Lo visto en el capítulo,

4. Significado: Doing -> do verb (does; doing; past did; past

part. done). Perform or carry out (an action), work on

(something) to bring it to completion or to a required state .

Busca la semántica de la unidad léxica para comprender su

función así identificar las papeles que intervienen.

TRADUCCIÓN (MT)

Page 42: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad

Jurafsky,D . & Mar t in , J . (2007) :

Speech and Language Processing

An Int roduct ion to Speech Recogni t ion , Computat ional L inguis t ics and Natural Language Processing ,

Second Edi t ion, New York , Pearson.

SUMARIO EN LA

BIBLIOGRAFÍA

Page 43: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad

I n m a ny la n g u a g es , g ro u p s o f c o n sec u t i ve wo r d s a c t a s a g ro u p o r a c o n s t i t u en t , w h ic h c a n b e

m o d e led by c o n tex t - f r ee g r a m m ar s ( a l so k n ow n a s p h r a se - s t r u c t u r e g r a m m a r s ) .

A c o n tex t - f r ee g r a m m a r c o n s i s t s o f a s e t o f r u les o r p ro d u c t io n s , ex p r essed ove r a set o f n o n -

te r m in a l s y m b o ls a n d a set o f te r m in a l s y m b o ls . Fo r m a l l y, a p a r t i c u la r c o n tex t - f r ee l a n g u ag e i s t h e

set o f s t r in g s w h ic h c a n b e d e r i ved f ro m a p a r t i c u la r c o n tex t - f r ee g r a m m a r.

A g e n er at i ve g r a m m a r i s a t r a d i t i o n a l n a m e in l i n g u is t i c s fo r a fo r m a l la n g u a g e w h ic h i s u sed to

m o d e l t h e g r a m m a r o f a n a t u r a l l a n g u a g e .

T h er e a r e m a ny s e n ten ce - leve l g r a m m a t ica l c o n s t r uc t io ns in E n g l i sh ; d ec la r a t ive , im p er a t i ve , yes -

n o - q u es t io n , a n d w h - q u es t io n a r e fo u r ve r y c o m m o n t y p es , w h ic h c a n b e m o d e led w i t h c o n tex t - f r ee

r u l es .

A n E n g l i sh n o u n p h r a se c a n h ave d ete r m in er s , n u m b er s , q u a n t i f i e r s , a n d a d jec t i ve p h r a ses

p r ec ed in g t h e h ea d n o u n , w h ic h c a n b e fo l l owed by a n u m b er o f p o s t m o d i f i e r s ; g e r u n d ive ,

i n f in i t i ves , a n d p a s t p a r t i c ip ia l a r e c o m m o n p o ss ib i l i t i es .

Tr ee b a n ks o f p a r sed sen ten c es ex i s t fo r m a ny g en r es o f E n g l i sh a n d fo r m a ny la n g u a g es . Tr ee

b a n k s c a n b e sea r c h ed u s in g t r ee - sea r c h to o l s .

A ny c o n tex t - f r ee g r a m m a r c a n b e c o nve r ted to C h o m sky n o r m a l f o r m , in w h ic h t h e r i g h t - h a n d - s ide

o f ea c h r u le h a s e i t h e r t wo n o n - te r m in a ls o r a s in g le te r m in a l .

SUMARIO CAPÍTULO 12

Page 44: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad

P a r s in g c a n b e v iewed a s a s e a r c h p r o b lem .

To p - down ( s t ar t in g w i t h t h e ro o t S a n d g row in g t r ees d ow n to t h e in p u t wo r d s ) a n d B o t to m -u p

( s t a r t in g w i t h t h e wo r d s a n d g row in g t r ees u p towa r d t h e ro o t S ) .

A m b ig u i t y a n d r ep ea ted p a r s in g o f su b - t r ees p o se p r o b lem s fo r s im p le b a c k t r a c k in g a lg o r i t h m s .

A sen ten c e i s s t r u c t u r a l l y a m b ig u o us i f t h e g r a m m a r a ss ig n s i t m o r e t h a n o n e p o ss ib le p a r se .

T h e d y n am ic p r o g r am m i n g p a r s i n g a l g o r i t h m s u se a t a b le o f p a r t ia l - p a r ses to e f f i c ien t ly p a r se

a m b ig u o u s sen ten c es . T h e C KY, E a r ley, a n d C h a r t - Pa r s in g a lg o r i t h m s a l l u se d y n a m ic p ro g r a m m in g

to so l ve t h e r ep ea ted p a r s in g o f su b t r ees p ro b lem .

T h e C K Y a l g o r i t hm r es t r i c t s t h e fo r m o f i t s g r a m m a r to C h o m sk y -No r m a l Fo r m ; t h e E a r l ey a n d C h a r t -

p a r se r s a c c ep t u n r es t r i c ted c o n tex t - f r ee g r a m m a r s .

P r a c t i c a l p ro b lem s in c lu d in g in fo r m a t io n ex t r a c t io n p ro b lem s c a n b e so l ved w i t h o u t f u l l p a r s in g .

P a r t ia l p a r s in g a n d c h u n k i n g a r e m et h o d s fo r i d en t i f y ing sh a l low sy n t a c t i c c o n s t i t u en t s in a tex t .

S h a l low p a r s i n g i s a n a n a l y s i s o f a sen ten c e w h ic h id en t i f i es t h e c o n s t i t u en t s ( n o u n g ro u p s , ve r b s ,

ve r b g ro u p s , e t c . ) , b u t d o es n o t sp ec i f y t h e i r i n te r n a l s t r u c t u r e , n o r t h e i r ro le in t h e m a in sen ten c e .

Ac c u r a c y p a r t ia l p a r s in g c a n b e a c h ieved e i t h e r t h ro u g h r u le - b a sed o r m a c h in e - lea r n in g m et h o d s .

SUMARIO CAPÍTULO 13

Page 45: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad

CONCLUSIONES SOBRE

PARSING ESTADÍSTICO

Consiguen una resolución adecuada de la ambigüedad.

Son un recurso a nuestro alcance en forma de Treebanks.

Necesita de una buena fase previa de “lexicalización”

(head words) para resolver ambigüedades y obtener

buenos resultados.

Los resultados actuales son adecuados pero no llegan al

nivel de un experto humano.

45

Page 46: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad

HERRAMIENTAS

Page 48: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad

NLTK:

PARSERS

import n l tk

mygrammar = n l tk . parse_cfg ("" "

S -> N P VP

PP -> P N P

N P -> Det N | Det N PP | ' I '

VP -> V N P | VP PP

Det -> ' an ' | ' my ' | ' a ' | ' the '

N -> ' e lephant ' | 'pa jamas ' | 'dog ' | ' cat ' | ' cookie '

V -> ' shot ' | ' saw ' | 'ate '

P -> ' in ' | ' o n ' | 'by ' | 'w i th '

" "" )

sent = " I shot an e lephant in my pa jamas " .sp l i t ( )

parser = n l tk .ChartParser (mygrammar )

t rees = parser.nbest_parse (sent )

for t ree in t rees :

pr int t ree

parser = nl tk . Shi f tReduceParser (mygrammar, t race=2) sent = ‘ I saw a dog ' . sp l i t ( ) pr int parser.parse (sent ) parser = nl tk . Recurs iveDescentParser (mygrammar )

Page 49: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad

RESULTADO