Estadística i Homogeneïtat d’estil en el Tirant lo...

33
1 Estadística i Homogeneïtat d’estil en el Tirant lo Blanc Autors: Alexandre Riba i Civil, Josep Ginebra Molins UAB, 21 de Febrer de 2003 2 Homogeneïtat d’estil en el Tirant lo Blanc Índex 1. Motivació i Objectius 2. La qüestió de l’autoria del Tirant 3. Estilometria 4. Quantificació de l’estil 5. Anàlisi Descriptiva de les Dades 6. Punt de canvi 7. Anàlisi Cluster 8. Assignació de capítols a autors 9. Conclusions 10. Problemes pendents

Transcript of Estadística i Homogeneïtat d’estil en el Tirant lo...

Page 1: Estadística i Homogeneïtat d’estil en el Tirant lo Blancsct.uab.cat/.../files/SeminariTirant.pdf3 Homogeneïtat d’estil en el Tirant lo Blanc 52.1 La qüestió de l’autoria

1

Estadística i Homogeneïtat d’estil en el Tirant lo Blanc

Autors: Alexandre Riba i Civil,

Josep Ginebra Molins

UAB, 21 de Febrer de 2003

2Homogeneïtat d’estil en el Tirant lo Blanc

Índex

1. Motivació i Objectius

2. La qüestió de l’autoria del Tirant

3. Estilometria

4. Quantificació de l’estil

5. Anàlisi Descriptiva de les Dades

6. Punt de canvi

7. Anàlisi Cluster

8. Assignació de capítols a autors

9. Conclusions

10. Problemes pendents

Page 2: Estadística i Homogeneïtat d’estil en el Tirant lo Blancsct.uab.cat/.../files/SeminariTirant.pdf3 Homogeneïtat d’estil en el Tirant lo Blanc 52.1 La qüestió de l’autoria

2

3Homogeneïtat d’estil en el Tirant lo Blanc

1.1 Motivació i objectius

• Neix de l’aplicació a un problema real

• Originalitat del problema

• Treball amb dades categòriques

• Tirant: obra mestra de la literatura medieval catalana

• Existeixen diverses teories sobre la seva autoria

• Excel·lent banc de proves

4Homogeneïtat d’estil en el Tirant lo Blanc

2.1 La qüestió de l’autoria del Tirant: un autor

Arguments a favor de l’autoria única

• La dedicatòria

• Al llarg de tot el llibre hi ha accions anunciades a la dedicatòria

• Coherència de l’esperit de croada

• Ús de la intertextualitat

Vaeth (1916), Givanel (1918), Marinesco (1978), Riquer (1990),Hauf (1993), Chiner (1991,93), Casanova (1994), Badia (1993)

Page 3: Estadística i Homogeneïtat d’estil en el Tirant lo Blancsct.uab.cat/.../files/SeminariTirant.pdf3 Homogeneïtat d’estil en el Tirant lo Blanc 52.1 La qüestió de l’autoria

3

5Homogeneïtat d’estil en el Tirant lo Blanc

2.1 La qüestió de l’autoria del Tirant: un autor

Dedicatòria:

“E perquè en la present obra altre no puixa ésser increpat si

defalliment algú trobat hi serà, jo, Joanot Martorell, cavaller,

sols vull portar lo càrrec, e no altri ab mi; com per mi sols sia

estada ventilada ...”

6Homogeneïtat d’estil en el Tirant lo Blanc

2.2 La qüestió de l’autoria del Tirant: dos autors

Arguments a favor de l’autoria compartida

• El colofó

• Episodis no indispensables en l’acció

• Diferències estilístiques i ús de la Valenciana Prosa

• Estudis morfològics i de lèxic

Martínez y Martínez (1916), Entwistle (1927), Moll (1933), Menéndez y Pelayo (1934), Riquer (1947), Coromines (1956), Nicolau d’Olwer (1961), Goerz (1967), Ferrando (1987,95), Rubiera (1990,92), Wittlin (1990,93)

Page 4: Estadística i Homogeneïtat d’estil en el Tirant lo Blancsct.uab.cat/.../files/SeminariTirant.pdf3 Homogeneïtat d’estil en el Tirant lo Blanc 52.1 La qüestió de l’autoria

4

7Homogeneïtat d’estil en el Tirant lo Blanc

2.2 La qüestió de l’autoria del Tirant: dos autors

Colofó:

“Aquí feneix lo llibre del valerós e estrenu cavaller Tirant lo Blanc, ..., lo qual fon traduït d’anglès en llengua portuguesa, e aprés en vulgar llengua valenciana, per lo magnífic e virtuós cavaller Mossèn Joanot Martorell lo qual, per mort sua, no en pogué acabar de traduir sinó les tres parts. La quarta part, queés la fi del llibre, és estada traduïda, ...., per lo magnífic cavaller Mossèn Martí Joan de Galba; e si defalt hi serà trobat, vol sia atribuït a la sua ignorància; ....”.

8Homogeneïtat d’estil en el Tirant lo Blanc

2.3 La qüestió de l’autoria del Tirant: altres teories

• Existència de plagis de Corella (Guia, 1995, 96)

Page 5: Estadística i Homogeneïtat d’estil en el Tirant lo Blancsct.uab.cat/.../files/SeminariTirant.pdf3 Homogeneïtat d’estil en el Tirant lo Blanc 52.1 La qüestió de l’autoria

5

9Homogeneïtat d’estil en el Tirant lo Blanc

2.4 la qüestió de l’autoria del tirant

Objectiu: Estudiar l’homogeneïtat d’estil en el Tirant

1. Detectar l’existència d’un o més d’un autors

2. En cas de més d’un autor:

a) Determinar les fronteres d’estil

b) Determinar què caracteritza cada estil

10Homogeneïtat d’estil en el Tirant lo Blanc

3.1 Estilometria

Estilometria: estudi de característiques quantificables en texts

– rellevants, estructurals, freqüents, fàcilment quantificables

– inmunes al control conscient de l’autor

– pròpies de l’autor, no del gènere, de l’època o de l’editor

Holmes (1985)

Page 6: Estadística i Homogeneïtat d’estil en el Tirant lo Blancsct.uab.cat/.../files/SeminariTirant.pdf3 Homogeneïtat d’estil en el Tirant lo Blanc 52.1 La qüestió de l’autoria

6

11Homogeneïtat d’estil en el Tirant lo Blanc

3.2 Estilometria: tipus de problema

1. Dos o més candidats amb texts reconeguts de tots ellscomparables amb el text en estudi

(Mosteller i Wallace, 1964,84; Kjetsaa, 1979)

2. Un candidat amb texts comparables al text en estudi, i altrescandidats dels que no es disposa de texts

(Mendelhall, 1887; Brinegar, 1963; Guia, 1995,96)

3. Estudi de l’homogeneïtat d’estil d’un text

(Adams i Rencher, 1973; Morton, 1978; Ginebra i Cabos, 1998)

12Homogeneïtat d’estil en el Tirant lo Blanc

3.3 Estilometria: quantificació d’estil

Nivells de quantificació de l’estil del nostre estudi

• Llargades de paraula, frase, capítol

• Freqüència d’ús d’unitats simples (lletres, paraules)

• Riquesa de vocabulari

Page 7: Estadística i Homogeneïtat d’estil en el Tirant lo Blancsct.uab.cat/.../files/SeminariTirant.pdf3 Homogeneïtat d’estil en el Tirant lo Blanc 52.1 La qüestió de l’autoria

7

13Homogeneïtat d’estil en el Tirant lo Blanc

Índex

1. Motivació i Objectius2. La qüestió de l’autoria del Tirant3. Estilometria

4. Quantificació de l’estil1. Unitats analitzades2. Diversitat de vocabulari3. Base de dades4. Criteris per a la quantificació de l’estil

5. Anàlisi Descriptiva de les Dades

6. Punt de canvi

7. Anàlisi Cluster

8. Assignació de capítols a autors

9. Conclusions

10. Problemes pendents

14Homogeneïtat d’estil en el Tirant lo Blanc

4.1 unitats analitzades

• Llargada de paraula (nº de lletres)

• Llargada de frase i capítol (nº de paraules)

• Ús de lletres

• Ús de les 12 i de les 25 paraules més freqüents

• Diversitat de Vocabulari

Page 8: Estadística i Homogeneïtat d’estil en el Tirant lo Blancsct.uab.cat/.../files/SeminariTirant.pdf3 Homogeneïtat d’estil en el Tirant lo Blanc 52.1 La qüestió de l’autoria

8

15Homogeneïtat d’estil en el Tirant lo Blanc

Long 1 2 3 4 5 6 7 8 9 10 + Ni Cap 1 21 59 44 19 33 20 16 17 9 17 255 4,47

2 53 113 80 49 52 33 28 36 16 16 476 4,15 3 109 274 239 128 112 110 76 51 43 32 1174 4,06 4 69 150 126 71 60 71 47 32 23 21 670 4,14 5 119 207 231 123 128 102 61 55 29 34 1089 4,09 6 69 136 126 69 60 61 37 27 15 15 615 3,96 7 32 63 51 18 29 28 15 15 19 13 283 4,34 8 26 52 41 19 27 29 11 16 5 11 237 4,25 ... ... ... ... ... ... ... ... ... ... ... ... ...

480 78 123 150 57 54 65 42 25 34 13 641 4,05 481 159 282 262 137 124 122 63 71 56 46 1322 4,08 482 50 47 61 18 32 47 23 32 14 11 335 4,50 483 158 220 207 80 120 93 65 54 62 50 1109 4,21 484 59 67 68 37 26 32 15 14 17 6 341 3,82 485 96 174 106 57 77 86 42 54 24 25 741 4,18 486 45 88 91 46 40 28 13 30 11 10 402 3,94 487 48 49 62 53 41 36 21 9 16 13 348 4,20

Long.: llargada de paraula, en nombre de lletres

yji: nombre de paraules de j lletres en el capítol i

ill

4.1 Unitats analitzades: llargada de Paraula

16Homogeneïtat d’estil en el Tirant lo Blanc

Par. e de la que lo en a per no l los com Ni Cap 1 12 15 9 8 10 6 1 4 1 7 5 2 255

2 26 28 19 9 10 12 11 8 3 2 1 3 476 3 66 46 48 53 26 20 22 20 19 9 13 11 1174 4 33 29 34 13 9 21 13 11 5 7 3 4 670 5 63 46 42 34 33 17 16 21 8 12 20 16 1089 6 35 15 27 23 27 16 13 11 7 10 6 3 615 7 20 20 10 16 3 6 4 5 5 5 0 2 283 8 13 9 13 6 1 9 6 6 4 5 1 4 237 ... ... ... ... ... ... ... ... ... ... ... ... ... ...

480 45 32 15 33 19 9 9 19 3 12 11 2 641 481 82 54 42 40 43 26 32 37 12 28 12 7 1322 482 31 8 11 14 1 3 9 7 5 7 1 3 335 483 85 59 39 36 24 12 23 16 14 25 16 9 1109 484 31 19 13 12 10 7 15 3 2 7 4 0 341 485 59 66 28 14 12 21 7 8 2 15 7 1 741 486 28 29 14 10 14 13 4 14 1 8 5 3 402 487 29 13 8 10 8 4 4 4 2 10 4 3 348

4.1 Unitats analitzades: ús de paraules freq.

Par.: paraulayji: nombre de vegades que trobem la paraula j en el capítol i

Page 9: Estadística i Homogeneïtat d’estil en el Tirant lo Blancsct.uab.cat/.../files/SeminariTirant.pdf3 Homogeneïtat d’estil en el Tirant lo Blanc 52.1 La qüestió de l’autoria

9

17Homogeneïtat d’estil en el Tirant lo Blanc

d Vd 1 107 2 16 3 6 4 2 5 2 6 2 7 2 8 1 9 1

10 1 12 1 15 1

Distribució de vocabulari, útil per calcular índexs de diversitat

4.1 Unitats analitzades: distrib. vocabulari

Capítol 1

V: nombre de paraules diferents

Vd: nombre de paraules que surten d vegades en el text

: proporció de paraulesque surten d vegades

=ˆ dd

Vp

V

= =∑ 142ddV V

18Homogeneïtat d’estil en el Tirant lo Blanc

4.2 Unitats analitzades: Diversitat

Donat un text de llargada N, com més gran el nombre de paraules diferents, V, més ric i divers és el vocabulari.

Donat un text amb N i V donades, com més uniforme , més divers és el vocabulari.

ˆdp

Page 10: Estadística i Homogeneïtat d’estil en el Tirant lo Blancsct.uab.cat/.../files/SeminariTirant.pdf3 Homogeneïtat d’estil en el Tirant lo Blanc 52.1 La qüestió de l’autoria

10

19Homogeneïtat d’estil en el Tirant lo Blanc

4.2 Diversitat de vocabulari

Alguns índexs de diversitat

• V (nombre de paraules diferents)

• V1 (hapax legomena), V2 (hapax dislegomena)

• D (índex de Simpson)

• H (Entropia)

20Homogeneïtat d’estil en el Tirant lo Blanc

ddd d 1 V

DN N 1

−=

−∑ ( )

( )

V2j

j 1E D

=

= π∑( )

4.2 Diversitat de vocabulari

Índex de Simpson (D)

on πj és la probabilitat d’aparició de la paraula j.

Virtut: E(D) no depèn de N

Page 11: Estadística i Homogeneïtat d’estil en el Tirant lo Blancsct.uab.cat/.../files/SeminariTirant.pdf3 Homogeneïtat d’estil en el Tirant lo Blanc 52.1 La qüestió de l’autoria

11

21Homogeneïtat d’estil en el Tirant lo Blanc

4.3 Base de dades

Base de dades

3 Conjunts de dades

– Unitats analitzades

– Distribució de vocabulari

– Freqüència d’ús de totes les paraules

22Homogeneïtat d’estil en el Tirant lo Blanc

d 1 2 3 4 5 6 7 8 9 10 11 12 ... Ni Cap 1 107 16 6 2 2 2 2 1 1 1 0 1 ... 255

2 172 26 19 7 2 2 2 2 1 1 1 1 ... 476 3 299 70 32 16 10 5 4 2 5 1 2 0 ... 1174 4 205 52 20 7 10 3 2 2 1 0 1 1 ... 670 5 302 54 27 18 7 4 4 1 1 1 1 2 ... 1089 6 238 37 18 6 2 2 1 1 0 1 2 0 ... 615 7 123 20 7 3 3 1 0 0 0 1 0 0 ... 283 8 97 11 9 4 1 3 0 1 2 0 0 0 ... 237 ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...

480 154 45 17 19 5 2 1 0 2 0 3 1 ... 641 481 299 63 37 17 18 5 7 2 3 1 0 3 ... 1322 482 116 24 10 7 2 0 2 1 1 0 1 0 ... 335 483 284 59 36 13 6 6 1 5 3 1 1 1 ... 1109 484 106 25 10 7 0 1 3 0 0 1 0 1 ... 341 485 213 49 14 6 5 4 4 2 0 3 1 1 ... 741 486 108 25 10 13 2 2 0 1 0 2 0 0 ... 402 487 129 29 10 6 1 1 0 2 2 2 0 0 ... 348

4.3 Base de dades

Distribucions de vocabulari

yij: nombre de paraules que surten d vegades en el text

Page 12: Estadística i Homogeneïtat d’estil en el Tirant lo Blancsct.uab.cat/.../files/SeminariTirant.pdf3 Homogeneïtat d’estil en el Tirant lo Blanc 52.1 La qüestió de l’autoria

12

23Homogeneïtat d’estil en el Tirant lo Blanc

4.4 Criteris de quantificació de l’estil

• No lematitzem

• Tot el que va separat per guions o apòstrofs són formes diferents

• Hem considerat frase tot el que acaba en punt, signe d’interrogació o signe d’exclamació

• Hem eliminat les paraules en cursiva (Edició MOLC)

24Homogeneïtat d’estil en el Tirant lo Blanc

Índex

1. Motivació i Objectius2. La qüestió de l’autoria del Tirant3. Estilometria4. Quantificació de l’estil

5. Anàlisi Descriptiva de les Dades 1. Llargada de paraula2. Ús de paraules3. Diversitat

6. Punt de canvi

7. Anàlisi Cluster

8. Assignació de capítols a autors

9. Conclusions

10. Problemes pendents

Page 13: Estadística i Homogeneïtat d’estil en el Tirant lo Blancsct.uab.cat/.../files/SeminariTirant.pdf3 Homogeneïtat d’estil en el Tirant lo Blanc 52.1 La qüestió de l’autoria

13

25Homogeneïtat d’estil en el Tirant lo Blanc

0 1 0 0 2 0 0 3 0 0 4 0 0 5 0 0

4 ,0

4 ,5

5 ,0

C a p i to l

Llar

gada

Mitj

ana

5.1 A.D.D.: llargada de paraula

0 1 0 0 2 0 0 3 0 0 4 0 0 5 0 0

0 ,0 0

0 ,0 1

0 ,0 2

0 ,0 3

0 ,0 4

0 ,0 5

0 ,0 6

0 ,0 7

0 ,0 8

C a p i to l

Y10+

i/Ni

5 0 04 0 03 0 02 0 01 0 00

5 , 0

4 , 5

4 , 0

C a p i to l

Llar

gMitj

a

26Homogeneïtat d’estil en el Tirant lo Blanc

70006000500040003000200010000

0,15

0,10

0,05

Ni

Y1i/N

i

5.1 A.D.D.: llargada de paraula

70006000500040003000200010000

5,0

4,5

4,0

Ni

Llar

gada

Mitj

ana

Page 14: Estadística i Homogeneïtat d’estil en el Tirant lo Blancsct.uab.cat/.../files/SeminariTirant.pdf3 Homogeneïtat d’estil en el Tirant lo Blanc 52.1 La qüestió de l’autoria

14

27Homogeneïtat d’estil en el Tirant lo Blanc

-0,2 -0,1 0,0 0,1

-0,2

-0,1

0,0

0,1

Component 1

Com

pone

nt 2

1

2

3

45

6

7

8

9

10

Column Plot

0,20,10,0-0,1-0,2-0,3-0,4-0,5

0,3

0,2

0,1

0,0

-0,1

-0,2

Component 1

Com

pone

nt 2

Row Plot

5.1 A.D.D.: llargada de paraula

Anàlisi de correspondències

28Homogeneïtat d’estil en el Tirant lo Blanc

5.1 A.D.D.: llargada de paraula

0 100 200 300 400 500

-0,5

-0,4

-0,3

-0,2

-0,1

0,0

0,1

0,2

Capitol

Com

pone

nt 1

Page 15: Estadística i Homogeneïtat d’estil en el Tirant lo Blancsct.uab.cat/.../files/SeminariTirant.pdf3 Homogeneïtat d’estil en el Tirant lo Blanc 52.1 La qüestió de l’autoria

15

29Homogeneïtat d’estil en el Tirant lo Blanc

5.2 A.D.D.: ús de paraules

0 100 200 300 400 500

0,01

0,02

0,03

0,04

0,05

0,06

0,07

0,08

0,09

0,10

Capítol

e/N

i

0 100 200 300 400 500

0,00

0,01

0,02

0,03

0,04

0,05

0,06

0,07

0,08

0,09

Capítol

de/N

i

0 100 200 300 400 500

0,00

0,01

0,02

0,03

0,04

0,05

0,06

0,07

0,08

Capítol

la/N

i

0 100 200 300 400 500

0,00

0,01

0,02

0,03

0,04

Capítol

per/N

i

30Homogeneïtat d’estil en el Tirant lo Blanc

5004003002001000

0,35

0,30

0,25

0,20

Capítol

12i/N

i

0101

5004003002001000

150

100

50

0

Capítol

Chi

Sq 1

2

5004003002001000

0,5

0,0

-0,5

Capítol

1a C

ompo

nent

(12

Para

ules

ein

a)

0101

5004003002001000

0,4

0,3

0,2

0,1

0,0

-0,1

-0,2

-0,3

-0,4

-0,5

Capítol

Com

pone

nt 2

(12

Para

ules

ein

a)

5.2 A.D.D.: ús de paraules

Page 16: Estadística i Homogeneïtat d’estil en el Tirant lo Blancsct.uab.cat/.../files/SeminariTirant.pdf3 Homogeneïtat d’estil en el Tirant lo Blanc 52.1 La qüestió de l’autoria

16

31Homogeneïtat d’estil en el Tirant lo Blanc

70006000500040003000200010000

0,020

0,015

0,010

Ni

D

0 100 200 300 400 500

0,010

0,015

0,020

Capitol

D

5.3 A.D.D.: diversitat

70006000500040003000200010000

90

80

70

Ni

H

70006000500040003000200010000

1400

1200

1000

800

600

400

200

0

Ni

V

32Homogeneïtat d’estil en el Tirant lo Blanc

Índex

1. Motivació i Objectius2. La qüestió de l’autoria del Tirant3. Estilometria4. Quantificació de l’estil5. Anàlisi Descriptiva de les Dades

6. Punt de canvi1. El problema2. Aportacions3. Aplicació

7. Anàlisi Cluster

8. Assignació de capítols a autors

9. Conclusions

10. Problemes pendents

Page 17: Estadística i Homogeneïtat d’estil en el Tirant lo Blancsct.uab.cat/.../files/SeminariTirant.pdf3 Homogeneïtat d’estil en el Tirant lo Blanc 52.1 La qüestió de l’autoria

17

33Homogeneïtat d’estil en el Tirant lo Blanc

6. El problema del punt de canvi

La seqüència y1, y2,..., yn té punt de canvi a r ∈ {1,2,...,n} si

• yi per i ∈ {1,2,...,r} té F. de Distribució Fa(y, θa)

• yi per i ∈ {r+1,r+2,...,n} té F. de Distribució Fd(y ,θd)

Amb θa, θd i r desconeguts

Objectiu: estimar r

34Homogeneïtat d’estil en el Tirant lo Blanc

1 1

( , , ) ( ) ( )= = +

θ θ α∏ ∏r n

a d a i d ii i r

l r f y f y

1 1( , , ) ( ) ( )

= = +

θ θ α +∑ ∑r n

a d a i d ii i r

L r f y f y

6.1 El problema del punt de canvi

Estimació màxim versemblant

Siguin fa(y) i fd(y) les PDF abans i després de r

MV és l’enter positiu que maximitza L(r,θa ,θd)

Page 18: Estadística i Homogeneïtat d’estil en el Tirant lo Blancsct.uab.cat/.../files/SeminariTirant.pdf3 Homogeneïtat d’estil en el Tirant lo Blanc 52.1 La qüestió de l’autoria

18

35Homogeneïtat d’estil en el Tirant lo Blanc

6.1 El problema del punt de canvi

Estimació del punt de canvi (r)

Normals: r que fa màxima la diferència de mitjanes de les dues subseqüènciesSen i Srivastava (1975 a,b,c)

Binomials: r que fa màxima la diferència de proporcions de les dues subseqüènciesHinkley i Hinkley (1970), Smith (1980)

Multinomials: reducció al cas univariantWolfe i Chen (1990)

36Homogeneïtat d’estil en el Tirant lo Blanc

6.2 punt de canvi: aportacions

Per tots els possibles punts de canvi, r, comparem les mitjanes de les dues subseqüències definides per r.

Ens quedem amb la r per la que la és més significativa la diferència de mitjanes.

Seqüència de Normals

Page 19: Estadística i Homogeneïtat d’estil en el Tirant lo Blancsct.uab.cat/.../files/SeminariTirant.pdf3 Homogeneïtat d’estil en el Tirant lo Blanc 52.1 La qüestió de l’autoria

19

37Homogeneïtat d’estil en el Tirant lo Blanc

0 100 200 300 400 500

4,0

4,5

5,0

Capitol

Llar

gada

Mitj

ana

0 100 200 300 400 500

4,0

4,5

5,0

Capitol

Llar

gada

Mitj

ana

6.2 punt de canvi: aportacions

r

Seqüència de Normals

38Homogeneïtat d’estil en el Tirant lo Blanc

( )( ) ( ) ( ) 20 1 1 ,r r r

i i i iy N Indµ β β σ∼ = +

)(

1riInd

6.2 punt de canvi: aportacions

Seqüència de Normals

Estimar r ajustant n-1 de models de regressió lineal simple:

= 0 per i = 1,2,...,r

= 1 per i = r+1,...,n

on:

{ }1 1ˆ ˆ: maxN r j n j NMVr r F F r≤ ≤ −= = =

Estimem r com:

Page 20: Estadística i Homogeneïtat d’estil en el Tirant lo Blancsct.uab.cat/.../files/SeminariTirant.pdf3 Homogeneïtat d’estil en el Tirant lo Blanc 52.1 La qüestió de l’autoria

20

39Homogeneïtat d’estil en el Tirant lo Blanc

0 100 200 300 400 500

0

50

100

150

Capitol

F(lla

rgm

itja)

0 100 200 300 400 500

0

50

100

150

C a pito l

F(lla

rgm

itja)

6.2 punt de canvi: aportacions

0 1 0 0 2 0 0 3 0 0 4 0 0 5 0 0

4 , 0

4 , 5

5 , 0

C a p i t o l

Llar

gada

Mitj

ana

40Homogeneïtat d’estil en el Tirant lo Blanc

6.2 punt de canvi: aportacions

Gràfic de Fr vs. r

0 100 200 300 400 500

0

50

100

150

Capitol (r)

Fr(ll

i)

Cap. 345-346 Cap. 371-372

Page 21: Estadística i Homogeneïtat d’estil en el Tirant lo Blancsct.uab.cat/.../files/SeminariTirant.pdf3 Homogeneïtat d’estil en el Tirant lo Blanc 52.1 La qüestió de l’autoria

21

41Homogeneïtat d’estil en el Tirant lo Blanc

( )( )

++

+=∼ )(

1)(

1)(

0

)(1

)(1

)(0

exp1exp, r

irr

ri

rr

iii IndIndNBinomialy

ββββπ

6.2 punt de canvi: aportacions

Seqüència de Binomials

Estimar r ajustant de n-1 models logístics

( ) ( ){ }( ) ( )1 1

ˆ ˆˆ ˆ: , max ,r jL j n BMVr r L r L j rβ β≤ ≤ −= = =

Estimem r com:

( ) ( ) ( )0 1 1( ) log

1r r ri

i ii

g Indππ β βπ

= = +−

42Homogeneïtat d’estil en el Tirant lo Blanc

6.2 punt de canvi: aportacions

Gràfic de Lr vs. r

5004003002001000

-46350

-46400

-46450

-46500

Capitol (r)

L10+

(Bet

a)

Cap. 345

Page 22: Estadística i Homogeneïtat d’estil en el Tirant lo Blancsct.uab.cat/.../files/SeminariTirant.pdf3 Homogeneïtat d’estil en el Tirant lo Blanc 52.1 La qüestió de l’autoria

22

43Homogeneïtat d’estil en el Tirant lo Blanc

)(1

)(1

)(0

1

log)( ri

rj

rj

i

jiij Indg ββ

ππ

π +==

6.2 punt de canvi: aportacions

Seqüència de Multinomials

yi = (y1i, y2i,..., yli ) ~ Mult(Ni, πi =(π1i, π2i,..., πli))

Proposem estimar r via l’ajust de models per dades politòmiques:

g(πi)= (g2(πi), g3(πi),....,gl(πi))

on:

per j = 1,2,...l

( ) ( ){ }( ) ( )1 1

ˆ ˆˆ ˆ: , max ,r jM j n MMVr r L r L j rβ β≤ ≤ −= = =

Estimem r com:

44Homogeneïtat d’estil en el Tirant lo Blanc

6.2 punt de canvi: aportacions

Gràfic de Lr vs. r

0 100 200 300 400 500

-828200

-828100

-828000

-827900

Capítol (r) Cap. 345 Cap. 371

L(r,Beta(r))

Page 23: Estadística i Homogeneïtat d’estil en el Tirant lo Blancsct.uab.cat/.../files/SeminariTirant.pdf3 Homogeneïtat d’estil en el Tirant lo Blanc 52.1 La qüestió de l’autoria

23

45Homogeneïtat d’estil en el Tirant lo Blanc

( )( )( ) ( ) ( ) ( ) ( ) 20 1 1 1 1... ,r r r r r

i i i p i iy N E y Ind Indβ β β σ−∼ = + + +

6.2 punt de canvi: aportacions

Més d’un punt de canvi

Aplicació a seqüència de Normals

Hi ha p-1 punts de canvi a r = (r1,r2,..., rp-1)

Proposem estimar r via l’ajust de models de regressió lineal:

{ }ˆ : maxNp r j jr r F F= =

Estimem r com:

46Homogeneïtat d’estil en el Tirant lo Blanc

6.2 punt de canvi: aportacions

Gràfic de Fr vs. rAplicació a dos punts de canvi

50 70 90

60 70 80 90 100 110 120 130

300

310

320

330

340

350

360

r1

r2

Contour Plot of F(Simpson -D)

Page 24: Estadística i Homogeneïtat d’estil en el Tirant lo Blancsct.uab.cat/.../files/SeminariTirant.pdf3 Homogeneïtat d’estil en el Tirant lo Blanc 52.1 La qüestió de l’autoria

24

47Homogeneïtat d’estil en el Tirant lo Blanc

Quadre Resum de les estimacions del punt de canviUnitat Model Pt. canvi

Llargada mitjana Normal 345(371) Ús paraules 1 lletra Binomial 387 Ús paraules 2 lletres Binomial 327 Ús paraules 9 lletres Binomial 371 Ús paraules 10+ lletres Binomial 345

Llargada de paraula

Distribució Llargada Multinomial 371(345) Llargada mitjana Normal 263 Llargada de

frase Distribució Llargada Multinomial 269

6.3 punt de canvi: aplicació

Ús d’e (més freqüent) Binomial 382 Ús de de (2a més freq.) Binomial 381 Ús de la (3a més freq) Binomial 356 12 més freqüents Multinomial 382

Ús de Paraules

25 més freqüents Multinomial 382 24 Lletres Multinomial 300 5 Vocals Multinomial 371 36 Lletres Multinomial 299 (369)

Ús de Lletres

14 Vocals Multinomial 368(383)

48Homogeneïtat d’estil en el Tirant lo Blanc

2

0 1 1 3 13 1~ ln( ) ln( ),i i i i ii

y N Ind N Ind NNσβ β β β

+ + + ⋅

98765

7

6

5

ln(N)

ln(V

)

98765

4,5

4,4

4,3

4,2

ln(N)

ln(H

)

Diversitat

6.3 punt de canvi: aplicació

Unitat Model Pt. canvi Índex Simpson, D Normal 382 Nombre de tipus, V Normal 382

Diversitat

Entropia, Hs Normal 382

Page 25: Estadística i Homogeneïtat d’estil en el Tirant lo Blancsct.uab.cat/.../files/SeminariTirant.pdf3 Homogeneïtat d’estil en el Tirant lo Blanc 52.1 La qüestió de l’autoria

25

49Homogeneïtat d’estil en el Tirant lo Blanc

+= ===

===

+

+

)382ˆ(1

)382ˆ(

1

)382ˆ(

0

)382ˆ(1

)382ˆ(

1

)382ˆ(

0

1,~ r

irr

ri

rr

Ind

Ind

ijiij eeNBinomialy ββ

ββ

π

3)(1

1 >=bsbLogitZ

= )382ˆ(

1riInd

6.3 punt de canvi: aplicació

Paraules Discriminants

Ajustem per les 100 paraules més freqüents (excepte les sensibles al context) el model:

on: = 0 per i = 1,2,...,382

= 1 per i = 383,...,n

Considerem discriminants aquelles que tenen

50Homogeneïtat d’estil en el Tirant lo Blanc

6.3 punt de canvi: aplicació

Llista de Paraules Discriminants

Més abundants en els primers 382 capítols:

e (9.79), de (9.91), la (8.69), l (5,82), del (4,13), molt (8,05), era (4,17)féu (4,04), sua (5,43), molta (4,19), foren (7,57), qual (3,73).

Més abundants en els capítols 383-final:

no (10,01), com (4,85), és (7,27), jo (10,01), si (8,48), dix (7,76), un (4,26), hi (6,28), aquell (4,98), bé (4,67), ho (7,09), ni (3,84), tal (4,26), o (5,72), sinó (4,55), dir (4,30)

Page 26: Estadística i Homogeneïtat d’estil en el Tirant lo Blancsct.uab.cat/.../files/SeminariTirant.pdf3 Homogeneïtat d’estil en el Tirant lo Blanc 52.1 La qüestió de l’autoria

26

51Homogeneïtat d’estil en el Tirant lo Blanc

Índex

1. Motivació i Objectius2. La qüestió de l’autoria del Tirant3. Estilometria4. Quantificació de l’estil5. Anàlisi Descriptiva de les Dades 6. Punt de canvi

7. Anàlisi Cluster

8. Assignació de capítols a autors1. Resum Anàlisi Cluster anteriors2. Anàlisi Cluster fixant grandària

9. Conclusions

10. Problemes pendents

52Homogeneïtat d’estil en el Tirant lo Blanc

7. Anàlisi Cluster

)(1

)(1

)(0

1

log)( ci

cj

cj

i

jiij Indg ββ

ππ

π +==

)(

1ciInd

Proposem: un algorisme no jeràrquic basat en l’ajust de models per a dades politòmiques:

g(πi)= (g2(πi), g3(πi),....,gl(πi))

on:

per j = 1,2,...l= 0 per i ∈ Cluster 0

= 1 per i ∈ Cluster 1

Cluster de les files d’una Taula de Contingència

Motivació: Alguns capítols queden mal classificats pel punt de canvi

Page 27: Estadística i Homogeneïtat d’estil en el Tirant lo Blancsct.uab.cat/.../files/SeminariTirant.pdf3 Homogeneïtat d’estil en el Tirant lo Blanc 52.1 La qüestió de l’autoria

27

53Homogeneïtat d’estil en el Tirant lo Blanc

7. Anàlisi Cluster

Algorisme

1. S’assignen les n files a un dels m=2 grups

Procés Iteratiu

2. S’ajusten els n models en els que una fila canvia d’assignació i les altres n-1 no

3. Es consolida el canvi pel que es màxim l’augment en

1. la versemblança del model

2. la distància χ2 entre els dos clusters

4. Es torna a 2.

54Homogeneïtat d’estil en el Tirant lo Blanc

-0,5 -0,4 -0,3 -0,2 -0,1 0,0 0,1 0,2

-0,2

-0,1

0,0

0,1

0,2

0,3

1a Component

2a C

ompo

nent

7. Anàlisi Cluster

Discussió de Resultats

• Resultats molt semblants en els dos casos

• Separació en funció de la 1a Component d’A.C.

Page 28: Estadística i Homogeneïtat d’estil en el Tirant lo Blancsct.uab.cat/.../files/SeminariTirant.pdf3 Homogeneïtat d’estil en el Tirant lo Blanc 52.1 La qüestió de l’autoria

28

55Homogeneïtat d’estil en el Tirant lo Blanc

7. Anàlisi Cluster

Unitats analitzades

• Llargada de paraula

• Llargada de frase

• 5, 14 vocals

• 24, 36 lletres

• 12 paraules més freqüents

• 25 paraules més freqüents

• Paraules discriminants

• Diversitat

56Homogeneïtat d’estil en el Tirant lo Blanc

8. Assignació de capítols a autors

• Resum Anàlisi Cluster anteriors

• Anàlisi Cluster fixant grandària

Page 29: Estadística i Homogeneïtat d’estil en el Tirant lo Blancsct.uab.cat/.../files/SeminariTirant.pdf3 Homogeneïtat d’estil en el Tirant lo Blanc 52.1 La qüestió de l’autoria

29

57Homogeneïtat d’estil en el Tirant lo Blanc

• 7 unitats

• Codifiquem

• Sumem Cu per u=1,2,...,7

8.1 Resum Anàlisi Cluster anteriors

= 0 per i ∈ Cluster 0

= 1 per i ∈ Cluster 1uC

58Homogeneïtat d’estil en el Tirant lo Blanc

Ll.Par 36Llet 5Voc 12Par 25Par Par.disc Diver S7 S3

Cap 1 1 1 1 1 0 0 0 4 1 2 1 0 0 0 1 1 0 3 2 3 0 0 1 0 0 0 0 1 0 4 1 0 0 0 1 1 0 3 2 5 0 1 1 1 1 1 0 5 1 6 0 0 0 1 1 1 0 3 1 7 1 0 1 0 0 1 1 4 3 8 1 0 0 0 0 0 0 1 1 ... ... ... ... ... ... ... ... ... ...

480 1 0 1 1 1 1 1 6 3 481 1 0 1 1 1 1 1 6 3 482 1 0 0 0 0 1 1 3 3 483 1 1 1 1 1 1 1 7 3 484 0 1 1 1 1 1 1 6 2 485 1 1 1 1 1 1 1 7 3 486 0 1 1 1 1 1 1 6 2 487 1 0 1 1 1 1 1 6 3

8.1 Resum Anàlisi Cluster anteriors

Resultats de l’anàlisi cluster per les 7 unitats analitzades

Page 30: Estadística i Homogeneïtat d’estil en el Tirant lo Blancsct.uab.cat/.../files/SeminariTirant.pdf3 Homogeneïtat d’estil en el Tirant lo Blanc 52.1 La qüestió de l’autoria

30

59Homogeneïtat d’estil en el Tirant lo Blanc

8.1 Resum Anàlisi Cluster anteriors

0 100 200 300 400 500

0

1

2

3

4

5

6

7

Capitol

S7

60Homogeneïtat d’estil en el Tirant lo Blanc

0 100 200 300 400 500

0

1

2

3

Capitol

S3

3 unitats– llargada de paraula

– ús de les paraules discriminants

– diversitat de vocabulari

8.1 Resum Anàlisi Cluster anteriors

Page 31: Estadística i Homogeneïtat d’estil en el Tirant lo Blancsct.uab.cat/.../files/SeminariTirant.pdf3 Homogeneïtat d’estil en el Tirant lo Blanc 52.1 La qüestió de l’autoria

31

61Homogeneïtat d’estil en el Tirant lo Blanc

Anàlisi Cluster fixant grandària

• Fixem gràndaria del cluster del final en 100 capítols

• 7 (3) unitats

• Codifiquem

• Sumem Cu per u=1,2,...,7

8.2 Anàlisi Cluster fixant grandària

= 0 per i ∈ Cluster 0

= 1 per i ∈ Cluster 1uC

62Homogeneïtat d’estil en el Tirant lo Blanc

5004003002001000

3

2

1

0

Capitol

S3

8.2 Anàlisi Cluster fixant grandària

3 unitats– llargada de paraula

– ús de les paraules discriminants

– diversitat de vocabulari

Page 32: Estadística i Homogeneïtat d’estil en el Tirant lo Blancsct.uab.cat/.../files/SeminariTirant.pdf3 Homogeneïtat d’estil en el Tirant lo Blanc 52.1 La qüestió de l’autoria

32

63Homogeneïtat d’estil en el Tirant lo Blanc

8.3 Assignació de capítols a autors

Resum capítols clarament mal classificats

Anteriors al 382:

– 44, 52, 80

Posteriors al 382:

– 403, 411, 412, 424, 432, 433, 434, 435, 436, 437, 438, 439, 460. 472, 473, 474, 475

64Homogeneïtat d’estil en el Tirant lo Blanc

1. Hem adaptat tècniques d’anàlisi descriptiva de dades, proposat un mètode per a l’estimació del punt de canvi i hem fet servir un mètode cluster per les files d’una taula de contingència

2. Gairebé totes les unitats estilomètriques coincideixen: llargada de paraula, ús de paraules freqüents i índexs de diversitat. L’ús de lletres reforça els resultats.

3. La llargada de frase i de capítol donen resultats diferents

4. Hi ha canvi d’estil entre els capítols 371 i 382

5. Després del punt de canvi conviuen capítols amb els dos estils

9. Conclusions

Page 33: Estadística i Homogeneïtat d’estil en el Tirant lo Blancsct.uab.cat/.../files/SeminariTirant.pdf3 Homogeneïtat d’estil en el Tirant lo Blanc 52.1 La qüestió de l’autoria

33

65Homogeneïtat d’estil en el Tirant lo Blanc

• Ajust de distribucions de vocabulari– Llei de Zipf– Distribució de Waring Herdan– Distribució de Sichel

• Agrupació de distribucions de vocabulari

10. Problemes pendents

• Data mining amb freqüència d’ús de totes les paraules

• Modelar la dependència de llenguatge (Hidden Markov Chains)

66Homogeneïtat d’estil en el Tirant lo Blanc

Par. Freq. Cp1 Cp2 Cp3 Cp4 Cp5 Cp6 Cp7 Cp8 Cp9 Cp10 e 22114 12 26 66 33 63 35 20 13 12 44 de 14890 15 28 46 29 46 15 20 9 9 27 la 14202 9 19 48 34 42 27 10 13 9 29 que 13556 8 9 53 13 34 23 16 6 7 21 lo 9413 10 10 26 9 33 27 3 1 6 16 en 7765 6 12 20 21 17 16 6 9 4 14 a 7528 1 11 22 13 16 13 4 6 4 19 per 6871 4 8 20 11 21 11 5 6 7 18 no 5849 1 3 19 5 8 7 5 4 3 11 l 5169 7 2 9 7 12 10 5 5 4 15 los 4666 5 1 13 3 20 6 0 1 4 6 com 4379 2 3 11 4 16 3 2 4 0 10 ab 4342 1 7 8 12 12 2 0 0 1 19 les 3813 3 6 15 5 7 1 3 3 2 13 d 3702 0 3 6 6 16 5 2 1 2 5 tirant 2913 0 0 0 0 0 0 0 0 0 0 li 2680 1 3 4 5 3 8 0 0 0 1 qui 2615 1 1 11 2 11 3 2 2 1 7 del 2430 3 1 3 3 5 4 1 0 1 6 se 2409 1 4 3 5 7 3 0 0 0 2

10. Problemes pendents: Data mining

Taula de 13.828 formes * 487 capítolsyji: nombre de vegades que trobem la paraula j en el capítol i