L’Extensió de la Poisson-IG Truncadasct.uab.cat/estadistica/sites/sct.uab.cat.estadistica/...V...
Transcript of L’Extensió de la Poisson-IG Truncadasct.uab.cat/estadistica/sites/sct.uab.cat.estadistica/...V...
![Page 1: L’Extensió de la Poisson-IG Truncadasct.uab.cat/estadistica/sites/sct.uab.cat.estadistica/...V és el nombre total de paraules diferents (types) Marta Pérez-Casany (UPC) Servei](https://reader033.fdocuments.ec/reader033/viewer/2022060309/5f0a59ed7e708231d42b37ff/html5/thumbnails/1.jpg)
L’Extensió de la Poisson-IG Truncada
Marta Pérez-Casany1, Xavier Puig2, Josep Ginebra2
1 Departament de Matemàtica Aplicada II i DAMA-UPC2 Departament d’Estadística i Investigació Operativa
Universitat Politècnica de Catalunya
Marta Pérez-Casany (UPC) Servei d’Estadística UAB Març 2008 1 / 38
![Page 2: L’Extensió de la Poisson-IG Truncadasct.uab.cat/estadistica/sites/sct.uab.cat.estadistica/...V és el nombre total de paraules diferents (types) Marta Pérez-Casany (UPC) Servei](https://reader033.fdocuments.ec/reader033/viewer/2022060309/5f0a59ed7e708231d42b37ff/html5/thumbnails/2.jpg)
Objectiu
a) Posar de manifest que l’espai de paràmetres de la Poisson-IG potextendre’s quan es considera la seva versió zero-truncada.
b) Il.lustrar que l’extensió és útil quan es volen modelar dades ambuna elevada freqüència d’uns, i amb cues amb pes superior al casno extès.
Marta Pérez-Casany (UPC) Servei d’Estadística UAB Març 2008 2 / 38
![Page 3: L’Extensió de la Poisson-IG Truncadasct.uab.cat/estadistica/sites/sct.uab.cat.estadistica/...V és el nombre total de paraules diferents (types) Marta Pérez-Casany (UPC) Servei](https://reader033.fdocuments.ec/reader033/viewer/2022060309/5f0a59ed7e708231d42b37ff/html5/thumbnails/3.jpg)
Índex de la Presentació
1 La Tipologia de les dades: freqüències de freqüències
2 Les distribucions Poisson, Inversa-Gaussiana i Poisson-IG
3 L’extensió
4 Exemples d’Aplicació
5 Extensió d’altres distribucions
6 Conclusions
7 Bibliografía
Marta Pérez-Casany (UPC) Servei d’Estadística UAB Març 2008 3 / 38
![Page 4: L’Extensió de la Poisson-IG Truncadasct.uab.cat/estadistica/sites/sct.uab.cat.estadistica/...V és el nombre total de paraules diferents (types) Marta Pérez-Casany (UPC) Servei](https://reader033.fdocuments.ec/reader033/viewer/2022060309/5f0a59ed7e708231d42b37ff/html5/thumbnails/4.jpg)
1. Tipologia de les dades: freqüències de freqüències
Situacions:
1) observació d’espècies (Engen, 1974 i Sichel 1997). Es tractad’observar el nombre de vegades que apareix una determinadaespècie animal en una mostra.
2) estudis de compres repetides (Sichel, 1982). Es tracta d’observarel nombre de vegades que un client compra un producte al llargd’un període de temps determinat.
3) estudis de vocabulari (Sichel H.S., 1986a, 1986b, 1992). Es tractad’observar el nombre de vegades que apareix una parauladeterminada en un determinat text (capítol, plana, etc).
Observació: Tindrem una taula de freqüències d’una variable queobserva freqüències. La forma d’obtindre les observacions porta a lano observació del zero.
Marta Pérez-Casany (UPC) Servei d’Estadística UAB Març 2008 4 / 38
![Page 5: L’Extensió de la Poisson-IG Truncadasct.uab.cat/estadistica/sites/sct.uab.cat.estadistica/...V és el nombre total de paraules diferents (types) Marta Pérez-Casany (UPC) Servei](https://reader033.fdocuments.ec/reader033/viewer/2022060309/5f0a59ed7e708231d42b37ff/html5/thumbnails/5.jpg)
Característiques d’aquest tipus de dades:
No contenen el zero;
Elevada freqüència de la unitat;
hi ha força paraules que apareixent només un cop.
Elevada assimetria, cua dreta amb un pes important;
hi ha poques paraules que apareixent moltes vegades.
Sovint són sobredispersionades;
Distribució de freqüències J-invertida.
Marta Pérez-Casany (UPC) Servei d’Estadística UAB Març 2008 5 / 38
![Page 6: L’Extensió de la Poisson-IG Truncadasct.uab.cat/estadistica/sites/sct.uab.cat.estadistica/...V és el nombre total de paraules diferents (types) Marta Pérez-Casany (UPC) Servei](https://reader033.fdocuments.ec/reader033/viewer/2022060309/5f0a59ed7e708231d42b37ff/html5/thumbnails/6.jpg)
Exemple: Dades textuals del Tirant lo Blanc.
Novel.la caballeresca de finals del segle XV;
Major part escrita per Joanot Martorell;
Primera novel.la impresa en la península;
Obra mestra esmentada al Quixot.
Marta Pérez-Casany (UPC) Servei d’Estadística UAB Març 2008 6 / 38
![Page 7: L’Extensió de la Poisson-IG Truncadasct.uab.cat/estadistica/sites/sct.uab.cat.estadistica/...V és el nombre total de paraules diferents (types) Marta Pérez-Casany (UPC) Servei](https://reader033.fdocuments.ec/reader033/viewer/2022060309/5f0a59ed7e708231d42b37ff/html5/thumbnails/7.jpg)
Taula de freqüències dels quatre primers capítols del Tirant
1 2 3 4 5 6 7 8 9 · · · 354 N VC 1 107 16 6 2 2 2 2 1 1 · · · 0 255 142C 2 172 26 19 7 2 2 2 2 1 · · · 0 476 239C 3 299 70 32 16 10 5 4 2 5 · · · 1 1174 459C 4 205 52 20 7 10 3 2 2 1 · · · 0 670 310
N és el nombre total de paraules del capítol (tokens)
V és el nombre total de paraules diferents (types)
Marta Pérez-Casany (UPC) Servei d’Estadística UAB Març 2008 7 / 38
![Page 8: L’Extensió de la Poisson-IG Truncadasct.uab.cat/estadistica/sites/sct.uab.cat.estadistica/...V és el nombre total de paraules diferents (types) Marta Pérez-Casany (UPC) Servei](https://reader033.fdocuments.ec/reader033/viewer/2022060309/5f0a59ed7e708231d42b37ff/html5/thumbnails/8.jpg)
Taula amb els principals estadístics.
x S2 S2/xC 1 1.80 8.33 4.64C 2 1.99 12.87 6.46C 3 2.56 36.28 14.19C 4 2.16 16.61 7.68
Marta Pérez-Casany (UPC) Servei d’Estadística UAB Març 2008 8 / 38
![Page 9: L’Extensió de la Poisson-IG Truncadasct.uab.cat/estadistica/sites/sct.uab.cat.estadistica/...V és el nombre total de paraules diferents (types) Marta Pérez-Casany (UPC) Servei](https://reader033.fdocuments.ec/reader033/viewer/2022060309/5f0a59ed7e708231d42b37ff/html5/thumbnails/9.jpg)
Quina és la distribució de probabilitat d’aquest tipus de dades?
Sigui pN la probabilitat d’observar una paraula concreta en un text delongitud N,
Sigui X la v. a. que ens diu el nombre d’aparicions de la paraula en eltext, té sentit pensar que
X ∼ Bin(N, pN).
Ara bé,
pN és molt petita (hi ha moltíssimes paraules) i pN →N→∞ 0.
té sentit pensar que N · pN tendeix a una constant quan Naugmenta.
Així doncs, té sentit assumir que
X ∼ Po(λ);
λ nombre d’aparicions esperat en un text de longitud infinita.Marta Pérez-Casany (UPC) Servei d’Estadística UAB Març 2008 9 / 38
![Page 10: L’Extensió de la Poisson-IG Truncadasct.uab.cat/estadistica/sites/sct.uab.cat.estadistica/...V és el nombre total de paraules diferents (types) Marta Pérez-Casany (UPC) Servei](https://reader033.fdocuments.ec/reader033/viewer/2022060309/5f0a59ed7e708231d42b37ff/html5/thumbnails/10.jpg)
Ara bé, és difícil pensar que les diferents paraules tenen la mateixaprobabilitat de ser observades.
En textos escrits en anglès, la probabilitat estimada de the és 0.07, mentreque la probabilitat de les paraules menys freqüents és de l’ordre de 10−6
(Sichel, 1986a).
En conseqüència haurem d’assumir que X ∼ mixtura d’una Poisson
λ ∼ φ(λ); P(X = k) =
∫ ∞
0e−λ λk
k!φ(λ)dλ.
Per tal de tenir en compte que el zero no és observable, haurem deconsiderar la mixtura truncada en zero
P(X zt = k) =P(X = k)
1 − P(X = 0), ∀k ≥ 1.
Marta Pérez-Casany (UPC) Servei d’Estadística UAB Març 2008 10 / 38
![Page 11: L’Extensió de la Poisson-IG Truncadasct.uab.cat/estadistica/sites/sct.uab.cat.estadistica/...V és el nombre total de paraules diferents (types) Marta Pérez-Casany (UPC) Servei](https://reader033.fdocuments.ec/reader033/viewer/2022060309/5f0a59ed7e708231d42b37ff/html5/thumbnails/11.jpg)
2. Distribucions: Poisson, Inv.-Gaussiana i Poisson-IG
2.1 La Poisson
Una v.a. X té distribució de Poisson ssi ∃λ > 0 t. q.
P(X = k) = e−λ λk
k!, ∀k ∈ {0, 1, 2, · · · }
Moments E(X ) = Var(X ) = λ.
Si els esdeveniments es donen de forma independent i la població éshomogènia és útil per a:
modelar els esdeveniments ocurreguts en un interval de temps fix;
modelar els esdeveniments ocurreguts en una regió de l’espaifixada.
Marta Pérez-Casany (UPC) Servei d’Estadística UAB Març 2008 11 / 38
![Page 12: L’Extensió de la Poisson-IG Truncadasct.uab.cat/estadistica/sites/sct.uab.cat.estadistica/...V és el nombre total de paraules diferents (types) Marta Pérez-Casany (UPC) Servei](https://reader033.fdocuments.ec/reader033/viewer/2022060309/5f0a59ed7e708231d42b37ff/html5/thumbnails/12.jpg)
2.2 La Inversa-Gaussiana Generalitzada
Una v.a. X té distribució IGG ssi té funció de densitat de la forma:
f (x) = xγ−1e−ax−b/x · C ∀x > 0;
essent C la constant normalitzadora.
Tenim la següent partició tenint en comte l’espai de paràmetres
1) a > 0, b > 0, γ ∈ R (IGG de tres paràmetres);
2) a > 0, b = 0 i γ > 0 (és la Gamma(γ, a));
3) a = 0, b > 0 i γ < 0 (és la reciprocal gamma).
El cas particular de 1) amb γ = −1/2 és coneguda com laInv-Gaussiana de dos paràmetres.
Marta Pérez-Casany (UPC) Servei d’Estadística UAB Març 2008 12 / 38
![Page 13: L’Extensió de la Poisson-IG Truncadasct.uab.cat/estadistica/sites/sct.uab.cat.estadistica/...V és el nombre total de paraules diferents (types) Marta Pérez-Casany (UPC) Servei](https://reader033.fdocuments.ec/reader033/viewer/2022060309/5f0a59ed7e708231d42b37ff/html5/thumbnails/13.jpg)
Pel que respecta a la de dos paràmetres,
rep aquest nom atès que la funció generatriu de cumulants és lainversa de la funció generatriu de cumulants de la Normal. Tambés’anomena distribució de Wald;
quan b tendeix a ∞ la distribució tendeix a la Normal;
és una família exponencial bi-paramètrica amb estadístic minimali suficient (x , 1/x);
els paràmetres són independents;
és la distribució del temps per arribar a un punt determinat en elmoviment Brownià.
Referència: Raj Chhikara R. i Folks L.(1989).
Marta Pérez-Casany (UPC) Servei d’Estadística UAB Març 2008 13 / 38
![Page 14: L’Extensió de la Poisson-IG Truncadasct.uab.cat/estadistica/sites/sct.uab.cat.estadistica/...V és el nombre total de paraules diferents (types) Marta Pérez-Casany (UPC) Servei](https://reader033.fdocuments.ec/reader033/viewer/2022060309/5f0a59ed7e708231d42b37ff/html5/thumbnails/14.jpg)
2.3 La Poisson-IG
La Posson-IG és la mixtura d’una Poisson i una IGG.
Si suposem que el paràmetre de la Poisson és proporcional a lalongitud del text, N,;
Po − IGG(a, b, γ) = Po(λ · N)∧
λ
IGG(a, b, γ)
És útil per ajustar dades amb una elevada assimetria, en camps tantdiversos com:
lingüística;
bibliometria;
assegurances;
estudis de mercat, etc
Marta Pérez-Casany (UPC) Servei d’Estadística UAB Març 2008 14 / 38
![Page 15: L’Extensió de la Poisson-IG Truncadasct.uab.cat/estadistica/sites/sct.uab.cat.estadistica/...V és el nombre total de paraules diferents (types) Marta Pérez-Casany (UPC) Servei](https://reader033.fdocuments.ec/reader033/viewer/2022060309/5f0a59ed7e708231d42b37ff/html5/thumbnails/15.jpg)
Seguint la notació de Sichel (1986),
X ∼ Poisson-IGG(b, c, γ) sii
P(X = k) =[
(1 + c N)γ/2Kγ(b)]
−1 1k !
( b c N2(1 + c N)1/2
)kKk+γ
(
b(1 + c N)1/2];
on −∞ < γ < +∞, b > 0 i c > 0 essent Kγ(·) la funció de Besselmodificada de segona espècie d’ordre γ.
Marta Pérez-Casany (UPC) Servei d’Estadística UAB Març 2008 15 / 38
![Page 16: L’Extensió de la Poisson-IG Truncadasct.uab.cat/estadistica/sites/sct.uab.cat.estadistica/...V és el nombre total de paraules diferents (types) Marta Pérez-Casany (UPC) Servei](https://reader033.fdocuments.ec/reader033/viewer/2022060309/5f0a59ed7e708231d42b37ff/html5/thumbnails/16.jpg)
Per γ = −1/2, K−1/2(z) =√
Π2 z e−z , i definint
α = b (1 + cN)1/2, θ =c N
1 + c N;
Poisson-IG(α, θ) té probabilitats:
P(X = k) = eα√
1−θ
√
2 α
Π
(1/2αθ)k
k!Kk− 1
2(α), , k = 0, 1, 2 · · · ....
Notar que:
1) l’espai de paràmetres ara és (0,+∞) × (0, 1)
2) la parametrització captura la depandència dels paràmetresrespecte de la longitud del text.
Comentari: Aquesta distribució es coneix com a distribució de Sichel.
Marta Pérez-Casany (UPC) Servei d’Estadística UAB Març 2008 16 / 38
![Page 17: L’Extensió de la Poisson-IG Truncadasct.uab.cat/estadistica/sites/sct.uab.cat.estadistica/...V és el nombre total de paraules diferents (types) Marta Pérez-Casany (UPC) Servei](https://reader033.fdocuments.ec/reader033/viewer/2022060309/5f0a59ed7e708231d42b37ff/html5/thumbnails/17.jpg)
Tenint en compte que P(X = 0) = eα (√
1−θ−1), i notant perpk = P(X zt = k), la Po-IG zero-truncada té probabilitats:
pk =eα
eα[1−(1−θ)1/2] − 1
√
2α
Π
(1/2αθ)k
k!Kk− 1
2(α) ∀k ≥ 1.
En particular,
p1 =12
αθ[exp(α (1 −√
1 − θ)) − 1]−1, i p2 =14
θ (1 + α) p1
Marta Pérez-Casany (UPC) Servei d’Estadística UAB Març 2008 17 / 38
![Page 18: L’Extensió de la Poisson-IG Truncadasct.uab.cat/estadistica/sites/sct.uab.cat.estadistica/...V és el nombre total de paraules diferents (types) Marta Pérez-Casany (UPC) Servei](https://reader033.fdocuments.ec/reader033/viewer/2022060309/5f0a59ed7e708231d42b37ff/html5/thumbnails/18.jpg)
Tenint en compte la recurrència:
Kν+1(z) =2 ν
zKν(z)
les probabilitats es poden calcular a partir de p1 i p2 i la fórmularecurrent
pk =(
1 − 32k
)
θ pk−1 +(0.5θα)2
k(k − 1)pk−2,∀k ≥ 3
on α > 0 i 0 < θ < 1.
Marta Pérez-Casany (UPC) Servei d’Estadística UAB Març 2008 18 / 38
![Page 19: L’Extensió de la Poisson-IG Truncadasct.uab.cat/estadistica/sites/sct.uab.cat.estadistica/...V és el nombre total de paraules diferents (types) Marta Pérez-Casany (UPC) Servei](https://reader033.fdocuments.ec/reader033/viewer/2022060309/5f0a59ed7e708231d42b37ff/html5/thumbnails/19.jpg)
3. L’extensió
La Po-IG zero-truncada té sentit en el domini α > −1 i 0 < θ < 1.
p1 =12
αθ[eα (1−√
1−θ) − 1]−1 i p2 =14
θ (1 + α) p1
compleixen:
si −1 < α < 0, p1 > 0 i p2 > 0;
si p2 < 1 per a α > 0, llavors p2 < 1 per a −1 < α < 0
p1 és una funció decreixent de α, donat que
limα→−1
p1 = −12
θ(
e√
1−θ−1 − 1)−1
< 1,
es conclou que p1 < 1 també per a valors d’α negatius.
Numèticament s’ha provat que la suma de probabilitats és 1 perα > −1.
Comentari: En l’espai ampliat, no es pot interpretar com una mixtura.
Marta Pérez-Casany (UPC) Servei d’Estadística UAB Març 2008 19 / 38
![Page 20: L’Extensió de la Poisson-IG Truncadasct.uab.cat/estadistica/sites/sct.uab.cat.estadistica/...V és el nombre total de paraules diferents (types) Marta Pérez-Casany (UPC) Servei](https://reader033.fdocuments.ec/reader033/viewer/2022060309/5f0a59ed7e708231d42b37ff/html5/thumbnails/20.jpg)
0.75 0.85 0.95
−1.0
−0.5
0.00.5
1.0θ
α
P1:n(α, θ)
0.75 0.85 0.95
−1.0
−0.5
0.00.5
1.0
θ
α
P2:n(α, θ)
0.75 0.85 0.95
−1.0
−0.5
0.00.5
1.0
θ
α
P3:n(α, θ)
0.75 0.85 0.95
−1.0
−0.5
0.00.5
1.0
θ
α
P4:n(α, θ)
0.75 0.85 0.95
−1.0
−0.5
0.00.5
1.0
θ
α
P5:n(α, θ)
0.75 0.85 0.95
−1.0
−0.5
0.00.5
1.0
θ
α
P6:n(α, θ)
0.75 0.85 0.95
−1.0
−0.5
0.00.5
1.0
θ
α
P7:n(α, θ)
0.75 0.85 0.95
−1.0
−0.5
0.00.5
1.0
θ
α
P8:n(α, θ)
0.75 0.85 0.95
−1.0
−0.5
0.00.5
1.0
θ
α
P9:n(α, θ)
0.75 0.85 0.95
−1.0
−0.5
0.00.5
1.0
θ
α
P10:n(α, θ)
0.75 0.85 0.95
−1.0
−0.5
0.00.5
1.0
θ
α
P15:n(α, θ)
0.75 0.85 0.95
−1.0
−0.5
0.00.5
1.0
θ
α
P20:n(α, θ)
Figura: Probabilitats com a funció d’α i θ per a diferents tamanys del text
Marta Pérez-Casany (UPC) Servei d’Estadística UAB Març 2008 20 / 38
![Page 21: L’Extensió de la Poisson-IG Truncadasct.uab.cat/estadistica/sites/sct.uab.cat.estadistica/...V és el nombre total de paraules diferents (types) Marta Pérez-Casany (UPC) Servei](https://reader033.fdocuments.ec/reader033/viewer/2022060309/5f0a59ed7e708231d42b37ff/html5/thumbnails/21.jpg)
Com estimem els paràmetres?
Els estimadors són els màxim versemblants, i els trobem maximitzant
l(α, θ) =
r∑
i=1
fa(i) · log pi ;
essent r el valor màxim observat, i fa(i) la freqüència observada de i .
El m.l.e. no es troba solucionant les equacions de versemblança sinoque es calcula a partir de tècniques de progamació no linealimplementades en R.
Per tal de veure que l’estimador és únic, prèviament dibuixem lescorbes de nivell de la log-versemblança.
Marta Pérez-Casany (UPC) Servei d’Estadística UAB Març 2008 21 / 38
![Page 22: L’Extensió de la Poisson-IG Truncadasct.uab.cat/estadistica/sites/sct.uab.cat.estadistica/...V és el nombre total de paraules diferents (types) Marta Pérez-Casany (UPC) Servei](https://reader033.fdocuments.ec/reader033/viewer/2022060309/5f0a59ed7e708231d42b37ff/html5/thumbnails/22.jpg)
4. Exemples d’aplicació
4.1 Dades del tirant
0.0 0.2 0.4 0.6 0.8 1.0
05
10
15
theta
alpha
capítulo 1
0.0 0.2 0.4 0.6 0.8 1.0
05
10
15
theta
alpha
capítulo 2
0.0 0.2 0.4 0.6 0.8 1.0
05
10
15
theta
alpha
capítulo 3
0.0 0.2 0.4 0.6 0.8 1.0
05
10
15
theta
alpha
capítulo 4
Figura: Contorns proporcionals a la log-versemblança, pel quatre primerscapítols del tirant
Marta Pérez-Casany (UPC) Servei d’Estadística UAB Març 2008 22 / 38
![Page 23: L’Extensió de la Poisson-IG Truncadasct.uab.cat/estadistica/sites/sct.uab.cat.estadistica/...V és el nombre total de paraules diferents (types) Marta Pérez-Casany (UPC) Servei](https://reader033.fdocuments.ec/reader033/viewer/2022060309/5f0a59ed7e708231d42b37ff/html5/thumbnails/23.jpg)
Taula ajustos primer capítol del Tirant
Frec. Obs. EsperatsPoisson Bin. Neg Sichel
1 107 68, 6 88,4 106,52 16 45,0 28,5 14,83 6 19,7 12,3 7,14 2 6,5 5,9 4,05 2 1,7 3,1 2,56 2 0,4 1,6 1,7
≥ 7 7 0,1 2,1 5,3χ2 637,014 26,665 2,045
g. ll. 5 4 4p-valor 0,00000 0,00002 0,72740
λ̂ = 1, 3124 k̂ = 8, 2e − 7 α̂ = −0, 3793p̂ = 0, 3546 θ̂ = 0, 8956
Marta Pérez-Casany (UPC) Servei d’Estadística UAB Març 2008 23 / 38
![Page 24: L’Extensió de la Poisson-IG Truncadasct.uab.cat/estadistica/sites/sct.uab.cat.estadistica/...V és el nombre total de paraules diferents (types) Marta Pérez-Casany (UPC) Servei](https://reader033.fdocuments.ec/reader033/viewer/2022060309/5f0a59ed7e708231d42b37ff/html5/thumbnails/24.jpg)
Taula ajustos segón capítol del Tirant
Frec. Obs. EsperatsPoisson Bin. Neg. Sichel
1 172 97,8 154,8 172,02 26 77,4 47,2 26,93 19 40,8 19,2 12,94 7 16,1 8,8 7,55 2 5,1 4,3 4,86 2 1,3 2,2 3,3
≥ 7 11 0,4 2,5 11,6χ2 408,375 42,156 5,081
g. ll. 5 4 4p-valor 0,00000 0,00002 0,27905
λ̂ = 1, 5824 k̂ = 2, 9e − 6 α̂ = −0, 3182p̂ = 0, 3900 θ̂ = 0, 9170
Marta Pérez-Casany (UPC) Servei d’Estadística UAB Març 2008 24 / 38
![Page 25: L’Extensió de la Poisson-IG Truncadasct.uab.cat/estadistica/sites/sct.uab.cat.estadistica/...V és el nombre total de paraules diferents (types) Marta Pérez-Casany (UPC) Servei](https://reader033.fdocuments.ec/reader033/viewer/2022060309/5f0a59ed7e708231d42b37ff/html5/thumbnails/25.jpg)
Taula ajustos tercer capítol del Tirant
Frec. Obs. EsperatsPoisson Bin. Neg. Sichel
1 299 117,5 200,7 297,42 70 135,2 86,3 60,43 32 103,8 49,5 28,94 16 59,7 31,9 17,55 10 27,5 22,0 11,46 5 10,5 15,7 8,1
≥ 7 27 4,8 52,8 35,6χ2 510,356 91,755 5,380
g. ll. 5 4 4p-valor 0,00000 0,00002 0,25045
λ̂ = 2, 3017 k̂ = 1, 6e − 6 α̂ = −0, 1435p̂ = 0, 1400 θ̂ = 0, 9486
Marta Pérez-Casany (UPC) Servei d’Estadística UAB Març 2008 25 / 38
![Page 26: L’Extensió de la Poisson-IG Truncadasct.uab.cat/estadistica/sites/sct.uab.cat.estadistica/...V és el nombre total de paraules diferents (types) Marta Pérez-Casany (UPC) Servei](https://reader033.fdocuments.ec/reader033/viewer/2022060309/5f0a59ed7e708231d42b37ff/html5/thumbnails/26.jpg)
Taula ajustos quart capítol del Tirant
Frec. Obs. EsperatsPoisson Bin. Neg. Sichel
1 205 110,1 197,3 204,62 52 99,4 61,8 44,03 20 59,8 25,8 20,14 7 27,0 12,1 11,55 10 9,8 6,1 7,46 3 2,9 3,2 5,1
≥ 7 13 1,0 3,8 17,3χ2 294,830 29,829 6,064
g. ll. 5 4 4p-valor 0,00000 0,00002 0,19438
λ̂ = 2, 2288 k̂ = 1, 4e − 6 α̂ = −0, 0583p̂ = 0, 3740 θ̂ = 0, 9141
Marta Pérez-Casany (UPC) Servei d’Estadística UAB Març 2008 26 / 38
![Page 27: L’Extensió de la Poisson-IG Truncadasct.uab.cat/estadistica/sites/sct.uab.cat.estadistica/...V és el nombre total de paraules diferents (types) Marta Pérez-Casany (UPC) Servei](https://reader033.fdocuments.ec/reader033/viewer/2022060309/5f0a59ed7e708231d42b37ff/html5/thumbnails/27.jpg)
1 2 3 4 5 6 7
0.0
0.2
0.4
0.6
0.8
1.0
r
pro
babili
dad
empirica
poisson positiva
binomial negativa Positiva
Sichel Positiva
capítulo 1
1 2 3 4 5 6 7
0.0
0.2
0.4
0.6
0.8
1.0
r
pro
babili
dad
empirica
poisson positiva
binomial negativa Positiva
Sichel Positiva
capítulo 2
1 2 3 4 5 6 7
0.0
0.2
0.4
0.6
0.8
1.0
r
pro
babili
dad
empiricapoisson positiva
binomial negativa Positiva
Sichel Positiva
capítulo 3
1 2 3 4 5 6 70.0
0.2
0.4
0.6
0.8
1.0
r
pro
babili
dad
empiricapoisson positiva
binomial negativa Positiva
Sichel Positiva
capítulo 4
Figura: Distribució empírica i distribucions ajustades, pel quatre primerscapítols del Tirant.
Marta Pérez-Casany (UPC) Servei d’Estadística UAB Març 2008 27 / 38
![Page 28: L’Extensió de la Poisson-IG Truncadasct.uab.cat/estadistica/sites/sct.uab.cat.estadistica/...V és el nombre total de paraules diferents (types) Marta Pérez-Casany (UPC) Servei](https://reader033.fdocuments.ec/reader033/viewer/2022060309/5f0a59ed7e708231d42b37ff/html5/thumbnails/28.jpg)
0 1000 2000 3000 4000 5000 6000
-0.5
0.0
0.5
1.0
N
alpha
0.5 0.6 0.7 0.8 0.9 1.0
-0.5
0.0
0.5
1.0
thetaalpha
Figura: Estimador màxim versemblant de α, en funció de N i θ, per a tots elscapítols del Tirant de més de 200 paraules, en total 425 capítols.
Marta Pérez-Casany (UPC) Servei d’Estadística UAB Març 2008 28 / 38
![Page 29: L’Extensió de la Poisson-IG Truncadasct.uab.cat/estadistica/sites/sct.uab.cat.estadistica/...V és el nombre total de paraules diferents (types) Marta Pérez-Casany (UPC) Servei](https://reader033.fdocuments.ec/reader033/viewer/2022060309/5f0a59ed7e708231d42b37ff/html5/thumbnails/29.jpg)
4.2 Altres obres
0.75 0.85 0.95
−1.0
−0.5
0.00.5
1.0
θ
αEassays on Bacon
0.75 0.85 0.95
−1.0
−0.5
0.00.5
1.0
θ
α
War of the Worlds
0.75 0.85 0.95
−1.0
−0.5
0.00.5
1.0
θ
α
Through the Looking
0.75 0.85 0.95
−1.0
−0.5
0.00.5
1.0
θ
α
Max Havelaar
0.75 0.85 0.95
−1.0
−0.5
0.00.5
1.0
θ
α
Alice in Wonderland
0.75 0.85 0.95
−1.0
−0.5
0.00.5
1.0
θ
α
Turkish Archeology
Figura: Corbes de nivell per a la log-versemblança associada a diferentsobres.
Marta Pérez-Casany (UPC) Servei d’Estadística UAB Març 2008 29 / 38
![Page 30: L’Extensió de la Poisson-IG Truncadasct.uab.cat/estadistica/sites/sct.uab.cat.estadistica/...V és el nombre total de paraules diferents (types) Marta Pérez-Casany (UPC) Servei](https://reader033.fdocuments.ec/reader033/viewer/2022060309/5f0a59ed7e708231d42b37ff/html5/thumbnails/30.jpg)
Pel text turc d’arqueologia (Baayen, 2001) comparem els ajustos de laSichel Extesa amb la sichel no Extesa.
Sichel No Extesa Sichel Extesaα 0 -0.25θ 0.9 0.92χ2 103,03 66,39
Marta Pérez-Casany (UPC) Servei d’Estadística UAB Març 2008 30 / 38
![Page 31: L’Extensió de la Poisson-IG Truncadasct.uab.cat/estadistica/sites/sct.uab.cat.estadistica/...V és el nombre total de paraules diferents (types) Marta Pérez-Casany (UPC) Servei](https://reader033.fdocuments.ec/reader033/viewer/2022060309/5f0a59ed7e708231d42b37ff/html5/thumbnails/31.jpg)
Frec. Obs. Sichel No extesa Sichel Extesa1 2326 2167,2 2303,62 477 488,8 399,93 178 220,5 189,64 107 124.4 109.85 53 78,5 71,06 33 53,1 49,27 22 37,7 35,78 26 27,6 26,89 7 20,8 20,6
10 7 15,9 16,211 12 12,4 12,912 8 9,8 10,413 4 7,8 8,514 3 6,3 7,0
15-16 9 9,3 10,717-18 6 6,3 7,619-20 1 4,3 5,521-23 6 4,2 5,624-29 4 4,1 6,0> 29 13 2,8 5,4
Marta Pérez-Casany (UPC) Servei d’Estadística UAB Març 2008 31 / 38
![Page 32: L’Extensió de la Poisson-IG Truncadasct.uab.cat/estadistica/sites/sct.uab.cat.estadistica/...V és el nombre total de paraules diferents (types) Marta Pérez-Casany (UPC) Servei](https://reader033.fdocuments.ec/reader033/viewer/2022060309/5f0a59ed7e708231d42b37ff/html5/thumbnails/32.jpg)
Preguntes:
Què determina que α sigui negativa?
Si trunquessim en un valor a > 0, podriem extendre encara mésl’espai de paràmetres?
És possible extendre l’espai de paràmetres d’altres mixturestruncades?
Podriem extendre l’espai de paràmetres si primer trunquessim idesprés barregessim?
Marta Pérez-Casany (UPC) Servei d’Estadística UAB Març 2008 32 / 38
![Page 33: L’Extensió de la Poisson-IG Truncadasct.uab.cat/estadistica/sites/sct.uab.cat.estadistica/...V és el nombre total de paraules diferents (types) Marta Pérez-Casany (UPC) Servei](https://reader033.fdocuments.ec/reader033/viewer/2022060309/5f0a59ed7e708231d42b37ff/html5/thumbnails/33.jpg)
5. Extensió d’altres distribucions
La Beta-Binomial (BB) truncada en zero admet també unaextensió de l’espai de paràmetres (Griffiths, 1973).
Si parametritzem la BB truncada mitjançant
π =α
α + β, θ =
1α + β
,
per tal de tenir una distribució de probabilitat, n’hi haprou amb que θ > 0 i π > −θ.
Ara bé, el resultat no es demostra, i les dades analitzades enl’article corresponen al nombre de malalts d’una família degrandària N, i per a tots els conjunts de dades π pren valorspositius.
Marta Pérez-Casany (UPC) Servei d’Estadística UAB Març 2008 33 / 38
![Page 34: L’Extensió de la Poisson-IG Truncadasct.uab.cat/estadistica/sites/sct.uab.cat.estadistica/...V és el nombre total de paraules diferents (types) Marta Pérez-Casany (UPC) Servei](https://reader033.fdocuments.ec/reader033/viewer/2022060309/5f0a59ed7e708231d42b37ff/html5/thumbnails/34.jpg)
La Binomial-Negativa (BN) truncada en zero admet també unaextensió de l’espai de paràmetres (Engen, 1974).
El paràmetre de forma k de la BN zero-truncada que enprincipi es pren positiu, n’hi ha prou amb que siguik > −1 per tal de definir una distribució de probabilitat.
En aquest cas sí que es demostra el resultat, i es posa unexemple de dades corresponents a insectes que dónen lloc a unaestimació negativa del paràmetre de forma.
Marta Pérez-Casany (UPC) Servei d’Estadística UAB Març 2008 34 / 38
![Page 35: L’Extensió de la Poisson-IG Truncadasct.uab.cat/estadistica/sites/sct.uab.cat.estadistica/...V és el nombre total de paraules diferents (types) Marta Pérez-Casany (UPC) Servei](https://reader033.fdocuments.ec/reader033/viewer/2022060309/5f0a59ed7e708231d42b37ff/html5/thumbnails/35.jpg)
6. Conclusions
Hem vist que la Poisson-IG zero-truncada admet una extensió del’espai de paràmetres.
L’estimador màxim versemblant dels paràmetres cau en la zonaampliada quan la freqüència del zero i la probabilitat de la cua sónsuperiors als respectius valors del model no extès.
Hem provat que l’extensió és útil per a modelar freqüències deparaules de textes en llegua no anglesa.
Marta Pérez-Casany (UPC) Servei d’Estadística UAB Març 2008 35 / 38
![Page 36: L’Extensió de la Poisson-IG Truncadasct.uab.cat/estadistica/sites/sct.uab.cat.estadistica/...V és el nombre total de paraules diferents (types) Marta Pérez-Casany (UPC) Servei](https://reader033.fdocuments.ec/reader033/viewer/2022060309/5f0a59ed7e708231d42b37ff/html5/thumbnails/36.jpg)
7. Bibliografía
Baayen H. (2001) Word frequency distributions, Dordretch: Kluwer.
Chou, C. W. and Huang, W.J . (2004) On characterizations of thegamma and generalized inverse Gaussian distributions, Statistics andProbability Letters, 69, 381-388.
Engen, S. (1974) On species frequency models, Biometrika 61,263-270.
Griffiths D.A. (1973). Maximum likelihood estimation for thebeta-binomial distribution and an application to the householddistribution of the total of cases of a disease. Biometrics, 29, 637-648.
Johnson, N.L., Kotz, S. y Kemp, A.W. (1992). Univariate DiscreteDistributions, Jhon Wiley & sons, INC.
Marta Pérez-Casany (UPC) Servei d’Estadística UAB Març 2008 36 / 38
![Page 37: L’Extensió de la Poisson-IG Truncadasct.uab.cat/estadistica/sites/sct.uab.cat.estadistica/...V és el nombre total de paraules diferents (types) Marta Pérez-Casany (UPC) Servei](https://reader033.fdocuments.ec/reader033/viewer/2022060309/5f0a59ed7e708231d42b37ff/html5/thumbnails/37.jpg)
Puig, X. Ginebra, J. Pérez-Casany, M. (2007) Extended truncatedInverse Gaussian Poisson model en procés de revisió.
Riba, A. y Ginebra, J. (2005). Diversity of vocabulary and homogeneityof literary style. To appear in Journal of Applied Statistics.
Sichel, H.S. (1975). On a distribution law for words frequencies. J.Amer. Statist. Ass. , 70, 542-547.
Sichel, H.S. (1986). Word frequency distributions and Type-Tokencharacteristics. Mathematical Scientist, 11, 45-72.
Yule, GU (1944). The Statistical Study of Literary Vocabulary. London,Cambridge University Press.
Zipf, GK (1932). Selected Studies of the Principle of RelativeFrequency in Language, Cambridge, Harvard University Press
Marta Pérez-Casany (UPC) Servei d’Estadística UAB Març 2008 37 / 38
![Page 38: L’Extensió de la Poisson-IG Truncadasct.uab.cat/estadistica/sites/sct.uab.cat.estadistica/...V és el nombre total de paraules diferents (types) Marta Pérez-Casany (UPC) Servei](https://reader033.fdocuments.ec/reader033/viewer/2022060309/5f0a59ed7e708231d42b37ff/html5/thumbnails/38.jpg)
MOLTES GRÀCIES!!!!!!
Marta Pérez-Casany (UPC) Servei d’Estadística UAB Març 2008 38 / 38