ANALISIS DE TEXTOS

20
Analisis de Textos Jorge Galbiati 1 ANALISIS DE TEXTOS Se seleccionaron 20 páginas, al azar, de un texto de Jorge Inostrosa (JI), y otras 20 páginas de un texto de Alberto Blest Gana (ABG), ambos referidos al tema de la guerra de independencia de Chile. En cada página se midió la frecuencia de ocurrencia de 10 palabras, con el objeto de diferenciar lo escrito por ambos autores.

description

ANALISIS DE TEXTOS. Se seleccionaron 20 páginas, al azar, de un texto de Jorge Inostrosa (JI) , y otras 20 páginas de un texto de Alberto Blest Gana (ABG) , ambos referidos al tema de la guerra de independencia de Chile. - PowerPoint PPT Presentation

Transcript of ANALISIS DE TEXTOS

Page 1: ANALISIS DE TEXTOS

Analisis de Textos Jorge Galbiati 1

ANALISIS DE TEXTOS

Se seleccionaron 20 páginas, al azar, de un texto

de Jorge Inostrosa (JI), y otras 20 páginas de un

texto de Alberto Blest Gana (ABG), ambos

referidos al tema de la guerra de independencia de

Chile.

En cada página se midió la frecuencia de

ocurrencia de 10 palabras, con el objeto de

diferenciar lo escrito por ambos autores.

Page 2: ANALISIS DE TEXTOS

Analisis de Textos Jorge Galbiati 2

Las 10 palabras seleccionadas, que denominaremos palabras

discriminantes, son:

Artículos definidos el, la, los, las

Artículos indefinidos un, una

Adjetivo posesivo su

Preposiciones en, por

Pronombre me

Son, entonces, 40 observaciones de 10 variables.

Page 3: ANALISIS DE TEXTOS

Analisis de Textos Jorge Galbiati 3

El conteo de palabras se muestra a continuación

Texto de Jorge Inostrosa

obs el la los las un una su en por me1 5 8 0 2 1 5 2 11 7 12 14 11 14 4 2 2 4 14 0 03 11 17 9 10 7 2 6 10 9 04 10 10 14 6 2 0 2 10 1 15 19 9 8 1 2 9 3 10 3 16 16 12 6 5 4 0 4 10 3 07 13 20 9 10 7 2 6 12 9 08 18 15 4 5 2 3 9 8 7 29 15 21 4 3 5 2 5 8 4 010 17 10 4 1 7 4 7 10 3 011 17 10 4 1 7 4 7 10 3 012 7 20 8 5 8 3 6 3 6 213 15 15 2 5 4 4 3 7 5 014 18 14 9 12 2 1 6 8 1 115 8 13 5 4 3 2 9 4 2 116 10 18 5 4 7 1 4 6 3 417 9 14 9 5 6 2 4 3 3 518 5 11 0 2 1 5 2 11 7 319 9 12 9 4 4 3 5 6 4 220 15 8 9 5 3 4 8 10 1 2

Prom 9.95 18.6 6.55 3.65 3.8 3.1 5.7 10.15 4.05 1.1ds 4.47 4.06 3.90 3.01 2.35 2.05 2.20 3.70 2.50 1.45

Page 4: ANALISIS DE TEXTOS

Analisis de Textos Jorge Galbiati 4

Texto de Alberto Blest Gana

obs el la los las un una su en por me21 9 12 11 2 6 3 2 6 0 322 11 26 3 3 0 3 10 9 3 023 8 29 10 11 1 5 4 16 3 024 17 20 8 1 2 0 6 9 3 025 8 11 9 5 5 4 4 17 2 226 13 11 3 2 9 3 6 6 3 327 16 15 8 4 3 2 0 9 3 028 6 4 2 1 2 2 2 11 3 129 6 15 6 4 2 4 8 7 8 130 7 16 6 3 5 6 8 8 6 431 9 23 14 7 7 3 5 8 3 032 11 15 1 3 8 6 6 8 3 233 11 19 6 4 1 1 6 10 2 034 6 24 8 2 3 2 13 15 6 035 18 30 9 5 1 3 7 15 6 036 6 18 6 1 5 3 2 11 6 337 11 6 6 4 5 1 3 5 6 038 9 21 3 2 7 5 2 11 8 239 8 22 8 7 3 3 13 9 4 140 9 35 4 2 1 3 7 13 3 0

Prom 12.55 13.4 6.6 4.7 4.2 2.9 5.1 7.5 3.75 1.25ds 3.63 7.97 3.28 2.48 2.65 1.59 3.56 3.47 2.11 1.33

Page 5: ANALISIS DE TEXTOS

Analisis de Textos Jorge Galbiati 5

Se puede observar una sorprendente similitud en las

frecuencias de las palabras, al comparar ambos autores. El

gráfico muestra las frecuencias promedio, en ambos casos.

Promedios

0

2

4

6

8

10

12

14

16

18

20

el la los las un una su en por me

JI

ABG

Esto hará difícil discriminar entre los dos autores.

Page 6: ANALISIS DE TEXTOS

Analisis de Textos Jorge Galbiati 6

Se aplicó un análisis discriminante canónico de Fisher,

que no requiere supuestos distribucionales, utilizando

S.Plus.

Los resultados son los siguientes:

Page 7: ANALISIS DE TEXTOS

Analisis de Textos Jorge Galbiati 7

Los coeficientes de la función discriminante

canónica, en una dimensión, dieron :

el 0.12833 la -0.09759 los -0.02523las 0.17526un -0.05302una -0.01133su 0.00307en -0.07180por 0.09369me 0.11432

Page 8: ANALISIS DE TEXTOS

Analisis de Textos Jorge Galbiati 8

El análisis de errores dio como resultado una tasa de error

bastante alta. La tabla de clasificación bruta es

clasificación Tasa

JI ABG de Error

Autor JI 15 5 0.25

verdadero ABG 4 16 0.20

Tasa de error global 0.225

Page 9: ANALISIS DE TEXTOS

Analisis de Textos Jorge Galbiati 9

La tabla de clasificación cruzada (dejando unma observación

fuera a la vez), muestra obviamente más error

clasificación Tasa

JI ABG de Error

Autor JI 12 8 0.40

verdadero ABG 8 12 0.40

Tasa de error global 0.40

Page 10: ANALISIS DE TEXTOS

Analisis de Textos Jorge Galbiati 10

Ahora se va a probar la regla discriminante en textos nuevos.

Se tomaron tres páginas, al azar, de Jorge Inostrosa y tres

páginas de Alberto Blest Gana.

Jorge Inostrosa

Alberto Best Gana

obs el la los las un una su por en me41 14 20 5 4 3 2 8 8 8 442 17 11 5 5 3 4 8 9 4 143 14 16 10 6 3 3 4 7 8 044 7 7 5 1 0 5 3 3 7 445 6 13 4 1 5 1 4 9 0 146 5 17 11 9 3 4 6 15 6 1

Page 11: ANALISIS DE TEXTOS

Analisis de Textos Jorge Galbiati 11

Para llevar estos vectores a la dimensión discriminante, se

deben multiplicar por el vector de coeficientes de la función

discriminante,

el 0.12833 la -0.09759 los -0.02523 las 0.17526un -0.05302una -0.01133su 0.00307en -0.07180por 0.09369me 0.11432

Page 12: ANALISIS DE TEXTOS

Analisis de Textos Jorge Galbiati 12

También se deben multiplicar los vectores de centros (medias)

de las observaciones de ambos autores, por el vector de

coeficientes:

el la los las un una su por en meJI 12.55 13.4 6.6 4.7 4.2 2.9 5.1 7.5 3.75 1.25

ABG 9.95 18.6 6.55 3.65 3.8 3.1 5.7 10.15 4.05 1.1

Los resultados obtenidos son valores en la dimensión

discriminante, que se muestran a continuación.

Page 13: ANALISIS DE TEXTOS

Analisis de Textos Jorge Galbiati 13

El primer producto, correspondiente a la observación 41, da

( 0.12833 ) x 14 + ( -0.09759 ) x 20 + ( -0.02523 ) x 5

+ ( 0.17526 ) x 4 + ( -0.05302 ) x 3 + ( -0.01133 ) x 2

+ ( 0.00307 ) x 8 + ( -0.07180 ) x 8 + ( 0.09369 ) x 8

+ ( 0.11432 ) x 4 = 0.8948

Esta es su valor en la dimensión de discriminación. De la misma

manera se procede con todas los demás, y con los centros de los

grupos, obteniéndose los siguientes resultados:

Page 14: ANALISIS DE TEXTOS

Analisis de Textos Jorge Galbiati 14

Resumen de todos los resultados:

Observaciones a clasificar:

Jorge Inostrosa Alberto Blest Gana

41 0.8948 44 1.1145

42 1.5212 45 1.2205

43 1.1004 46 0.3043

Centros:

Jorge Inostrosa Alberto Blest Gana

Page 15: ANALISIS DE TEXTOS

Analisis de Textos Jorge Galbiati 15

Estos valores se pueden visualizar en la siguiente representación

gráfica

Claramente se aprecia que una de las páginas de Alberto Blest

Gana, la 44, queda en la región de Jorge Inostrosa, por lo tanto

mal clasificada.

Las observaciones se clasifican en el grupo cuyo centro está a menor

distancia.

Page 16: ANALISIS DE TEXTOS

Analisis de Textos Jorge Galbiati 16

Las distancias de las observaciones a los dos centros, en valor

absoluto, son

De al centro IJ al centro ABG Se clasifica en

41 0.219 1.401 IJ

42 0.845 2.028 IJ

43 0.425 1.607 IJ

44 0.439 1.621 IJ (mal clas.)

45 1.896 0.714 ABG

46 0.980 0.202 ABG

Page 17: ANALISIS DE TEXTOS

Analisis de Textos Jorge Galbiati 17

Como se vió en el gráfico, la observación 44 quedó mal

clasificada. Se muestra junto con los promedios de los dos

grupos:

el la los las un una su por en meObservación 44 7 7 5 1 0 5 3 3 7 4

Promedio JI 12.55 13.4 6.6 4.7 4.2 2.9 5.1 7.5 3.75 1.25Promedio ABG 9.95 18.6 6.55 3.65 3.8 3.1 5.7 10.15 4.05 1.1

Aparentemente el déficit de las palabras la y por es en parte

responsable de la mala clasificación de esta página de texto de

Blest gana.

El hecho que haya una página mal clasificada es consistente

con las altas tasas de error.

Page 18: ANALISIS DE TEXTOS

Analisis de Textos Jorge Galbiati 18

Ahora veremos qué pasa si intentamos clasificar páginas de

texto que pertenecen a otro autor, en particular de Liborio

Brieva, en una de las dos categorías aquí definidas.

Se obtuvieron las siguientes tres observaciones:

obs el la los las un una su por en me47 6 6 1 3 4 5 3 4 5 348 8 12 6 2 3 1 2 6 2 149 7 9 4 2 5 8 4 7 1 4

Page 19: ANALISIS DE TEXTOS

Analisis de Textos Jorge Galbiati 19

Se aplicará la misma transformación para llevar las

observaciones a la dimensión discriminante, y allí se calculará la

diferencia con los centros de ambos grupos.

Da las siguientes distancias:

De al centro IJ al centro ABG Se clasifica en

47 0.274 1.456 IJ

48 0.914 0.268 ABG

49 0.701 0.481 ABG

Como se esperaba, puede ver que quedan clasificados de

cualquier manera.

Page 20: ANALISIS DE TEXTOS

Analisis de Textos Jorge Galbiati 20

Fin