ANALISIS DE TEXTOS
description
Transcript of ANALISIS DE TEXTOS
Analisis de Textos Jorge Galbiati 1
ANALISIS DE TEXTOS
Se seleccionaron 20 páginas, al azar, de un texto
de Jorge Inostrosa (JI), y otras 20 páginas de un
texto de Alberto Blest Gana (ABG), ambos
referidos al tema de la guerra de independencia de
Chile.
En cada página se midió la frecuencia de
ocurrencia de 10 palabras, con el objeto de
diferenciar lo escrito por ambos autores.
Analisis de Textos Jorge Galbiati 2
Las 10 palabras seleccionadas, que denominaremos palabras
discriminantes, son:
Artículos definidos el, la, los, las
Artículos indefinidos un, una
Adjetivo posesivo su
Preposiciones en, por
Pronombre me
Son, entonces, 40 observaciones de 10 variables.
Analisis de Textos Jorge Galbiati 3
El conteo de palabras se muestra a continuación
Texto de Jorge Inostrosa
obs el la los las un una su en por me1 5 8 0 2 1 5 2 11 7 12 14 11 14 4 2 2 4 14 0 03 11 17 9 10 7 2 6 10 9 04 10 10 14 6 2 0 2 10 1 15 19 9 8 1 2 9 3 10 3 16 16 12 6 5 4 0 4 10 3 07 13 20 9 10 7 2 6 12 9 08 18 15 4 5 2 3 9 8 7 29 15 21 4 3 5 2 5 8 4 010 17 10 4 1 7 4 7 10 3 011 17 10 4 1 7 4 7 10 3 012 7 20 8 5 8 3 6 3 6 213 15 15 2 5 4 4 3 7 5 014 18 14 9 12 2 1 6 8 1 115 8 13 5 4 3 2 9 4 2 116 10 18 5 4 7 1 4 6 3 417 9 14 9 5 6 2 4 3 3 518 5 11 0 2 1 5 2 11 7 319 9 12 9 4 4 3 5 6 4 220 15 8 9 5 3 4 8 10 1 2
Prom 9.95 18.6 6.55 3.65 3.8 3.1 5.7 10.15 4.05 1.1ds 4.47 4.06 3.90 3.01 2.35 2.05 2.20 3.70 2.50 1.45
Analisis de Textos Jorge Galbiati 4
Texto de Alberto Blest Gana
obs el la los las un una su en por me21 9 12 11 2 6 3 2 6 0 322 11 26 3 3 0 3 10 9 3 023 8 29 10 11 1 5 4 16 3 024 17 20 8 1 2 0 6 9 3 025 8 11 9 5 5 4 4 17 2 226 13 11 3 2 9 3 6 6 3 327 16 15 8 4 3 2 0 9 3 028 6 4 2 1 2 2 2 11 3 129 6 15 6 4 2 4 8 7 8 130 7 16 6 3 5 6 8 8 6 431 9 23 14 7 7 3 5 8 3 032 11 15 1 3 8 6 6 8 3 233 11 19 6 4 1 1 6 10 2 034 6 24 8 2 3 2 13 15 6 035 18 30 9 5 1 3 7 15 6 036 6 18 6 1 5 3 2 11 6 337 11 6 6 4 5 1 3 5 6 038 9 21 3 2 7 5 2 11 8 239 8 22 8 7 3 3 13 9 4 140 9 35 4 2 1 3 7 13 3 0
Prom 12.55 13.4 6.6 4.7 4.2 2.9 5.1 7.5 3.75 1.25ds 3.63 7.97 3.28 2.48 2.65 1.59 3.56 3.47 2.11 1.33
Analisis de Textos Jorge Galbiati 5
Se puede observar una sorprendente similitud en las
frecuencias de las palabras, al comparar ambos autores. El
gráfico muestra las frecuencias promedio, en ambos casos.
Promedios
0
2
4
6
8
10
12
14
16
18
20
el la los las un una su en por me
JI
ABG
Esto hará difícil discriminar entre los dos autores.
Analisis de Textos Jorge Galbiati 6
Se aplicó un análisis discriminante canónico de Fisher,
que no requiere supuestos distribucionales, utilizando
S.Plus.
Los resultados son los siguientes:
Analisis de Textos Jorge Galbiati 7
Los coeficientes de la función discriminante
canónica, en una dimensión, dieron :
el 0.12833 la -0.09759 los -0.02523las 0.17526un -0.05302una -0.01133su 0.00307en -0.07180por 0.09369me 0.11432
Analisis de Textos Jorge Galbiati 8
El análisis de errores dio como resultado una tasa de error
bastante alta. La tabla de clasificación bruta es
clasificación Tasa
JI ABG de Error
Autor JI 15 5 0.25
verdadero ABG 4 16 0.20
Tasa de error global 0.225
Analisis de Textos Jorge Galbiati 9
La tabla de clasificación cruzada (dejando unma observación
fuera a la vez), muestra obviamente más error
clasificación Tasa
JI ABG de Error
Autor JI 12 8 0.40
verdadero ABG 8 12 0.40
Tasa de error global 0.40
Analisis de Textos Jorge Galbiati 10
Ahora se va a probar la regla discriminante en textos nuevos.
Se tomaron tres páginas, al azar, de Jorge Inostrosa y tres
páginas de Alberto Blest Gana.
Jorge Inostrosa
Alberto Best Gana
obs el la los las un una su por en me41 14 20 5 4 3 2 8 8 8 442 17 11 5 5 3 4 8 9 4 143 14 16 10 6 3 3 4 7 8 044 7 7 5 1 0 5 3 3 7 445 6 13 4 1 5 1 4 9 0 146 5 17 11 9 3 4 6 15 6 1
Analisis de Textos Jorge Galbiati 11
Para llevar estos vectores a la dimensión discriminante, se
deben multiplicar por el vector de coeficientes de la función
discriminante,
el 0.12833 la -0.09759 los -0.02523 las 0.17526un -0.05302una -0.01133su 0.00307en -0.07180por 0.09369me 0.11432
Analisis de Textos Jorge Galbiati 12
También se deben multiplicar los vectores de centros (medias)
de las observaciones de ambos autores, por el vector de
coeficientes:
el la los las un una su por en meJI 12.55 13.4 6.6 4.7 4.2 2.9 5.1 7.5 3.75 1.25
ABG 9.95 18.6 6.55 3.65 3.8 3.1 5.7 10.15 4.05 1.1
Los resultados obtenidos son valores en la dimensión
discriminante, que se muestran a continuación.
Analisis de Textos Jorge Galbiati 13
El primer producto, correspondiente a la observación 41, da
( 0.12833 ) x 14 + ( -0.09759 ) x 20 + ( -0.02523 ) x 5
+ ( 0.17526 ) x 4 + ( -0.05302 ) x 3 + ( -0.01133 ) x 2
+ ( 0.00307 ) x 8 + ( -0.07180 ) x 8 + ( 0.09369 ) x 8
+ ( 0.11432 ) x 4 = 0.8948
Esta es su valor en la dimensión de discriminación. De la misma
manera se procede con todas los demás, y con los centros de los
grupos, obteniéndose los siguientes resultados:
Analisis de Textos Jorge Galbiati 14
Resumen de todos los resultados:
Observaciones a clasificar:
Jorge Inostrosa Alberto Blest Gana
41 0.8948 44 1.1145
42 1.5212 45 1.2205
43 1.1004 46 0.3043
Centros:
Jorge Inostrosa Alberto Blest Gana
Analisis de Textos Jorge Galbiati 15
Estos valores se pueden visualizar en la siguiente representación
gráfica
Claramente se aprecia que una de las páginas de Alberto Blest
Gana, la 44, queda en la región de Jorge Inostrosa, por lo tanto
mal clasificada.
Las observaciones se clasifican en el grupo cuyo centro está a menor
distancia.
Analisis de Textos Jorge Galbiati 16
Las distancias de las observaciones a los dos centros, en valor
absoluto, son
De al centro IJ al centro ABG Se clasifica en
41 0.219 1.401 IJ
42 0.845 2.028 IJ
43 0.425 1.607 IJ
44 0.439 1.621 IJ (mal clas.)
45 1.896 0.714 ABG
46 0.980 0.202 ABG
Analisis de Textos Jorge Galbiati 17
Como se vió en el gráfico, la observación 44 quedó mal
clasificada. Se muestra junto con los promedios de los dos
grupos:
el la los las un una su por en meObservación 44 7 7 5 1 0 5 3 3 7 4
Promedio JI 12.55 13.4 6.6 4.7 4.2 2.9 5.1 7.5 3.75 1.25Promedio ABG 9.95 18.6 6.55 3.65 3.8 3.1 5.7 10.15 4.05 1.1
Aparentemente el déficit de las palabras la y por es en parte
responsable de la mala clasificación de esta página de texto de
Blest gana.
El hecho que haya una página mal clasificada es consistente
con las altas tasas de error.
Analisis de Textos Jorge Galbiati 18
Ahora veremos qué pasa si intentamos clasificar páginas de
texto que pertenecen a otro autor, en particular de Liborio
Brieva, en una de las dos categorías aquí definidas.
Se obtuvieron las siguientes tres observaciones:
obs el la los las un una su por en me47 6 6 1 3 4 5 3 4 5 348 8 12 6 2 3 1 2 6 2 149 7 9 4 2 5 8 4 7 1 4
Analisis de Textos Jorge Galbiati 19
Se aplicará la misma transformación para llevar las
observaciones a la dimensión discriminante, y allí se calculará la
diferencia con los centros de ambos grupos.
Da las siguientes distancias:
De al centro IJ al centro ABG Se clasifica en
47 0.274 1.456 IJ
48 0.914 0.268 ABG
49 0.701 0.481 ABG
Como se esperaba, puede ver que quedan clasificados de
cualquier manera.
Analisis de Textos Jorge Galbiati 20
Fin