2009 M.P.Díaz1 Introducción a los Modelos Lineales Generalizados Continuación …. Algunos...

36
2009 M.P.Díaz 1 Introducción a los Modelos Lineales Generalizados Continuación …. Algunos ejemplos de motivación

Transcript of 2009 M.P.Díaz1 Introducción a los Modelos Lineales Generalizados Continuación …. Algunos...

2009 M.P.Díaz 1

Introducción a los Modelos Lineales Generalizados

Continuación ….

Algunos ejemplos de motivación

2009 M.P.Díaz 2

Ejemplo 1.

Dieta y ganancia de peso: di xi

2 134 2 127 1 70

2 146 2 73 1 118

2 104 2 113 1 101

2 119 2 129 1 84

2 124 2 97 1 107

2 161 2 123 1 132

1 94

Datos de ganancia de peso bajo dos tratamientos

de dieta, duranteun período de tiempo

dado.

2009 M.P.Díaz 3

gpeso

70

80

90

100

110

120

130

140

150

160

170

di et a

1. 0 1. 1 1. 2 1. 3 1. 4 1. 5 1. 6 1. 7 1. 8 1. 9 2. 0

(1) Veamos su distribución…..

2009 M.P.Díaz 4

gpeso

  Sum of

Source DF Squares Mean Square F Value Pr > F

 Model 1 1620.090226 1620.090226 3.62 0.1043

 Error 17 7616.857143 448.050420

Corrected Total 18 9236.947368

 

 

R-Square Coeff Var Root MSE gpeso Mean

0.175392 18.74077 21.16720 112.9474

 

Source DF Type I SS Mean Square F Value Pr > F

dieta 1 1620.090226 1620.090226 3.62 0.1043

 

Ajuste de un modelo lineal (clásico): Anava.

2009 M.P.Díaz 5

Pear son Res i dual

- 50

- 40

- 30

- 20

- 10

0

10

20

30

40

50

Pr edi ct ed Val ue

100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121

Y los residuos..?

Indaguemos más sobre los componentes del modelo!!

2009 M.P.Díaz 6

Componentes del Modelo (cq. sea).

• Variable respuesta (parte estocástica)• Variables de clasificación o regresoras (parte

sistemática)• Necesidad de cambio de escala del valor esperado.

En qué pensar primero?

Por qué?

Desde dónde lo construimos?

2009 M.P.Díaz 7

Estadística Exploratoria: (DIETA 1) Variable: gpeso  Moments  N 7 Sum Weights 7 Mean 100.857143 Sum Observations 706 Std Deviation 20.2559515 Variance 430.809524 Skewness 0.0255939 Kurtosis -0.3258568 Uncorrected SS 73790 Corrected SS 2584.85714 Coeff Variation 20.0795553 Std Error Mean 7.84501228

(DIETA 2)

  N 12 Sum Weights 12 Mean 119.166667 Sum Observations 1430 Std Deviation 23.0881053 Variance 533.060606 Skewness -0.1586624 Kurtosis 0.68027525 Uncorrected SS 176272 Corrected SS 5863.66667 Coeff Variation 19.3746338 Std Error Mean 6.6649619

 

2009 M.P.Díaz 8

Modelo Gama (anova, 1 vía,MLG, enlace identidad).

Criterion DF Value Value/DF Deviance 17 0.9783 0.0641 Scaled Deviance 17 19.1173 1.1245 Pearson Chi-Square 17 0.9670 0.0592 Log Likelihood -85.0779

En qué hacer incapié?Cómo es la formulación del componente aleatorio?

Está siendo respetado?  

2009 M.P.Díaz 9

Modelo Gama (anova, 1 vía,MLG, enlace identidad).

Parameter Estimate Pr > ChiSq

________________________________________ 

Intercept 119.1667 <.0001

Dieta 1 -18.3015 0.0439

Dieta 2 0.0000 .

Scale 26.9912  

2009 M.P.Díaz 10

Pear son Res i dual

- 0. 4

- 0. 3

- 0. 2

- 0. 1

0. 0

0. 1

0. 2

0. 3

0. 4

Pr edi ct ed Val ue

100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121

2009 M.P.Díaz 11

Ejemplo 2.

Tiempos de sobrevida (en unidades de 10 horas) de animales, sometidos a 3 tipos de veneno, y 4 tratamientos antitóxicos.

Antitóxico_____ __A B C D Veneno39 94 56 60 I34 79 58 5546 88 54 5751 77 60 5633 69 34 60 II24 71 41 5725 63 35 6226 64 27 6036 72 31 6415 48 29 27 III20 49 29 4119 43 10 36

Describir la influencia de ambos

factores en la sobrevida

2009 M.P.Díaz 12

1 2 3

Veneno

10

20

30

40

50

60

70

80

90

100

sob

rev

Antitoxico 1 Antitoxico 2 Antitoxico 3 Antitoxico 4

Descripción de valores medios.

2009 M.P.Díaz 13

Level of Column Estimate Standard Wald p

Intercept 1 3,788181 0,029967 15979,95 0,000000

Antitoxico 1 2 -0,401895 0,065202 37,99 0,000000

Antitoxico 2 3 0,414485 0,038954 113,22 0,000000

Antitoxico 3 4 -0,160917 0,055255 8,48 0,003588

Veneno 1 5 0,279909 0,036333 59,35 0,000000

Veneno 2 6 -0,008019 0,042163 0,04 0,849163

Antitoxico*Veneno 1 7 0,083310 0,078110 1,14 0,286167

Antitoxico*Veneno 2 8 -0,082430 0,093106 0,78 0,375977

Antitoxico*Veneno 3 9 -0,045823 0,047965 0,91 0,339403

Antitoxico*Veneno 4 10 0,006307 0,054552 0,01 0,907955

Antitoxico*Veneno 5 11 0,135878 0,065338 4,32 0,197559

Antitoxico*Veneno 6 12 -0,085558 0,078303 1,19 0,274543

Scale 7,867391 0,802962 96,00 0,000000

Estimación de Parámetros, modelo Normal.

2009 M.P.Díaz 14

Gamma probability plot of observed values

0 10 20 30 40 50 60 70 80 90 100 110

Observed values

0

2

4

6

8

10

12

14

Sta

nd

ard

ga

mm

a q

ua

ntit

le

0.01

0.15

0.30

0.50

0.70

0.85

0.95

0.99

2009 M.P.Díaz 15

Df Stat. Stat/Df

Deviance 36 2,673 0,074239

Scaled Deviance 36 48,441 1,345590

Pearson Chi² 36 2,365 0,065703

Scaled P. Chi² 36 42,872 1,190879

Loglikelihood -179,511

Level of Column Estimate Standard Wald p

Intercept 1 0,02448 0,000895 748,4988 0,000000

Antitoxico 1 2 0,01053 0,001947 29,2392 0,000000

Antitoxico 2 3 -0,00925 0,001163 63,2545 0,000000

Antitoxico 3 4 0,00334 0,001650 4,0875 0,043200

Veneno 1 5 -0,00686 0,001085 40,0469 0,000000

Veneno 2 6 0,00001 0,001259 0,0001 0,993341

Antitoxico*Veneno 1 7 -0,00461 0,002332 3,9072 0,048080

Antitoxico*Veneno 2 8 0,00202 0,002780 0,5296 0,466779

Antitoxico*Veneno 3 9 0,00347 0,001432 5,8751 0,015356

Antitoxico*Veneno 4 10 -0,00026 0,001629 0,0249 0,874583

Antitoxico*Veneno 5 11 -0,00340 0,001951 3,0456 0,050957

Antitoxico*Veneno 6 12 0,00137 0,002338 0,3454 0,556755

Scale 18,12523 3,666258 24,4411 0,000001

Estimaciónde

Parámetros

2009 M.P.Díaz 16

Histogram of Raw Residuals

-30 -25 -20 -15 -10 -5 0 5 10 15 20 25 30

Raw Residuals

0

2

4

6

8

10

12

14

16

18

20

Fre

qu

en

cy

Predicted values by Residuals

10 20 30 40 50 60 70 80 90 100

Predicted values

-30

-25

-20

-15

-10

-5

0

5

10

15

20

25

30

Ra

w R

esi

du

als

Antitoxico*Veneno Predicted Means

Wald X²(6)=15,462, p=,01695

1 2 3

Veneno

0

10

20

30

40

50

60

70

80

90

100

110

120

sob

rev

Antitoxico 1 Antitoxico 2 Antitoxico 3 Antitoxico 4

2009 M.P.Díaz 17

Tiempos de sobrevida de pacientes con cáncer avanzado de estómago, bronquio, colon, ovario o mama,

tratados con ascorbato (no hay datos sobre controles). Estóm. Bronq. colon ovario mama124 81 248 1234 123542 461 377 89 2425 20 189 201 158145 450 1843 356 1166412 246 180 2970 4051 166 537 456 7271112 63 519 380846 64 455 791103 155 406 1804876 859 365 3460146 151 942 719340 166 776396 37 372

223 163138 10172 20

245 283

2009 M.P.Díaz 18

est bron col ova mam

tumor

-400

-200

0

200

400

600

800

1000

1200

1400

1600

1800

2000

2200

2400

tiem

po

Mean Mean±0,95 Conf. Interval

2009 M.P.Díaz 19

SS Df MS F p

Intercept 23149151 1 23149151 51,64067 0,000000

tumor 11535761 4 2883940 6,43344 0,000229

Error 26448144 59 448274

0 200 400 600 800 1000 1200 1400 1600

Predicted Values

-2000

-1500

-1000

-500

0

500

1000

1500

2000

2500

3000

Ra

w R

esi

du

als

-500 0 500 1000 1500 2000 2500 3000

Abs(Residual)

0,0

0,5

1,0

1,5

2,0

2,5

3,0

De

via

tion

fro

m E

xpe

cte

d

,05

,25

,45

,65

,75

,85

,95

,99

Modelo normal con Enlace identidad

2009 M.P.Díaz 20

-2500 -2000 -1500 -1000 -500 0 500 1000 1500 2000 2500 3000

X <= Category Boundary

0

5

10

15

20

25

30

35

40

No

. o

f o

bs.

-500 0 500 1000 1500 2000 2500 3000 3500 4000 4500

Observed Values

0

200

400

600

800

1000

1200

1400

1600

Pre

dict

ed V

alue

s

Modelo normal con Enlace identidad

2009 M.P.Díaz 21

tiempo

No

of

ob

s

tumor: est

-5000

5001000

15002000

25003000

35004000

45000

2

4

6

8

10

12

14

16

18

tumor: bron

-5000

5001000

15002000

25003000

35004000

4500

tumor: col

-5000

5001000

15002000

25003000

35004000

4500

tumor: ova

-5000

5001000

15002000

25003000

35004000

45000

2

4

6

8

10

12

14

16

18

tumor: mam

-5000

5001000

15002000

25003000

35004000

4500

Distribución de frecuencias por grupo

2009 M.P.Díaz 22

tumorTiempo medio

Error Estandar

LI 95% LS 95% N

1 est 286,000 185,6949 -85,575 657,575 13

2 bron 211,588 162,3855 -113,344 536,521 17

3 col 457,412 162,3855 132,479 782,344 17

4 ova 884,333 273,3355 337,390 1431,276 6

5 mam 1395,909 201,8716 991,965 1799,853 11

Estadística Descriptiva por grupo

2009 M.P.Díaz 23

Df Stat. Stat/Df

Deviance 59 66,970 1,135078

Scaled Deviance 59 73,142 1,239702

Pearson Chi² 59 62,882 1,065799

Scaled P. Chi² 59 68,678 1,164038

Loglikelihood -452,901

Degr. of Wald p

Intercept 1 34,77640 0,000000

tumor 4 15,47810 0,003806

Modelo gama con Enlace identidad

2009 M.P.Díaz 24

Level Column Estimate SE Wald p

Intercept c 1 647,048 109,7222 34,77640 0,000000

tumor est 2 -361,048 124,4811 8,41248 0,003727

tumor bron 3 -435,460 116,1280 14,06123 0,000177

tumor col 4 -189,637 137,1138 1,91286 0,166646

tumor ova 5 237,285 289,2118 0,67314 0,411958

Scale 1,092 0,1713 40,64460 0,000000

Deviance residuals by predicted values

-3,0 -2,5 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 2,5

Deviance residuals

-200

0

200

400

600

800

1000

1200

1400

1600

Pre

dic

ted

va

lue

s

2009 M.P.Díaz 25

Economic Data for Selected Countries

1INFLACIÓN

2DÉBITO

Algeria Australia Austria Belgium Britain Brazil China Czech Republic Denmark Egypt Ethiopia Finland France Germany Greece Haiti Hungary India Indonesia Ireland Italy Japan Kenia Korea Luxemburg Malaysia Mexico Netherlands Norway Peru Poland Portugal South Africa Spain Sri Lanka Sweden Switzerland Taiwan Thailand USA

11,9 19,72,6 4,31,9 3,23,0 10,24,0 1,9

11,1 16,88,0 12,75,9 7,02,5 2,3

16,5 22,218,9 20,1

3,6 3,51,4 2,91,2 2,1

10,2 9,820,2 23,1

7,8 4,912,2 18,9

6,1 11,16,7 4,57,3 8,32,0 1,0

15,7 23,46,0 8,00,8 1,18,2 13,46,7 12,63,7 3,02,0 3,1

13,4 25,46,9 6,99,1 5,9

12,9 14,36,8 3,0

12,4 17,61,7 3,61,9 2,93,3 8,87,1 6,91,4 3,4

Ejemplo:Relación entre nivel

de Inflación y Deuda (por cápita)

OBJETIVO:Construir un

Modelo para finespredictivos

2009 M.P.Díaz 26

0,0 2,0 4,0 6,0 8,0 10,0 12,0 14,0 16,0 18,0 20,0 22,0 24,0 26,0 28,0

DÉBITO

0

2

4

6

8

10

12

14

16

18

20

22

INF

LA

CIÓ

N

1,0000 4,4857 7,9714 11,4571 14,9429 18,4286 21,9143 25,4000

DÉBITO

0

2

4

6

8

10

12

14

16

No

of

ob

s

0,8000 2,9556 5,1111 7,2667 9,4222 11,5778 13,7333 15,8889 18,0444 20,2000

INFLACIÓN

0

2

4

6

8

10

12

No

of

ob

s

2009 M.P.Díaz 27

Normal probability plot of observed vales

-2 0 2 4 6 8 10 12 14 16 18 20 22 24

Observed values

-3,0

-2,5

-2,0

-1,5

-1,0

-0,5

0,0

0,5

1,0

1,5

2,0

2,5

3,0

Sta

nd

ard

no

rma

l qu

an

tile

0.01

0.05

0.15

0.30

0.50

0.70

0.85

0.95

0.99

Predicted values by Residuals

0 2 4 6 8 10 12 14 16 18 20 22

Predicted values

-8

-6

-4

-2

0

2

4

6

8

Ra

w R

esi

du

als

Df Stat. Stat/Df

Deviance 38 243,0367 6,395703

Scaled Deviance 38 40,0000 1,052632

Pearson Chi² 38 243,0367 6,395703

Scaled P. Chi² 38 40,0000 1,052632

Loglikelihood -92,8442

Modelo NORMAL con

Enlace LOG

2009 M.P.Díaz 28

Level of Column Estimate Standard Wald p

Intercept 1 1,177671 0,124420 89,5915 0,00

DEBT 2 0,070617 0,006575 115,3543 0,00

Scale 2,464938 0,275588 80,0000 0,00

Prediced values by observed values

0 2 4 6 8 10 12 14 16 18 20 22

Predicted values

-2

0

2

4

6

8

10

12

14

16

18

20

22

24

Ob

serv

ed

va

lue

s )exp(

)log(

1

1

Deb

Deb

o

o

exp(ˆ

)0706.017.1exp(ˆ Deb

2009 M.P.Díaz 29

Df Stat. Stat/Df

Deviance 38 7,4068 0,194917

Scaled Deviance 38 41,1949 1,084075

Pearson Chi² 38 7,5462 0,198584

Scaled P. Chi² 38 41,9698 1,104468

Loglikelihood -89,9091

Level of Column Estimate Standard Wald p

Intercept 1 0,983284 0,375953 6,84054 0,008911

DÉBITO 2 0,667382 0,081687 66,74836 0,000000

Scale 5,561727 1,208184 21,19109 0,000004

Modelo GamaCon enlace Identidad

Deb6673.09832.0ˆ

2009 M.P.Díaz 30

1 1 0,291 1 0,331 2 0,331 2 0,321 3 0,341 3 0,312 1 0,402 1 0,402 2 0,432 2 0,362 3 0,422 3 0,403 1 0,403 1 0,353 2 0,383 2 0,32

3 3 0,383 3 0,334 1 0,904 1 1,304 2 0,904 2 1,104 3 0,904 3 0,905 1 0,445 1 0,445 2 0,455 2 0,455 3 0,425 3 0,46

Lab. Tanda Conc.

Lab. Tanda Conc. Ejemplo:Comportamiento de los

laboratorios que participan en ensayos

cooperativos de análisis químicos.

OBJETIVO:Evaluar componentes

de variación

2009 M.P.Díaz 31

1 2 3 4 5 6

Lab

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1,0

1,1

1,2

Co

nc

Tanda 1 Tanda 2 Tanda 3

2009 M.P.Díaz 32

SS df MS F p

Intercept 9,292336 1 9,292336 1475,625 0,000000

Lab 1,890214 5 0,378043 60,033 0,000000

Tanda 0,009939 2 0,004969 0,789 0,469330

Lab*Tanda 0,194461 10 0,019446 3,088 0,078068

Error 0,113350 18 0,006297

0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 1,1 1,2

Predicted Values

-0,3

-0,2

-0,1

0,0

0,1

0,2

0,3

Ra

w R

esi

du

als

Modelo Normal clásico, con predictor

correspondiente aun ANAVA

2009 M.P.Díaz 33

-0,04 -0,02 0,00 0,02 0,04 0,06 0,08 0,10 0,12 0,14 0,16 0,18 0,20 0,22

Abs(Residual)

0,0

0,5

1,0

1,5

2,0

2,5

3,0D

evi

atio

n f

rom

Exp

ect

ed

,05

,25

,45

,65

,75

,85

,95

,99

Case Numbers vs. Residuals

-5 0 5 10 15 20 25 30 35 40

Case Number

-0,3

-0,2

-0,1

0,0

0,1

0,2

0,3

Ra

w R

esi

du

als

Mal comportamiento delModelo normal

2009 M.P.Díaz 34

Df Stat. Stat/Df

Deviance 18 0,29982 0,016657

Scaled Deviance 18 36,00000 2,000000

Pearson Chi² 18 0,29641 0,016467

Scaled P. Chi² 18 35,59029 1,977238

Loglikelihood 76,48752

Modelo Normal Inverso, con enlace

identidad

Y va. NI(,2)E(Y)= =

2009 M.P.Díaz 35

Level of Column Estimate Standard Wald p

Intercept 1 0,508056 0,007453 4647,075 0,000000

Lab 1 2 -0,188056 0,009269 411,645 0,000000

Lab 2 3 -0,106389 0,010750 97,950 0,000000

Lab 3 4 -0,148056 0,009942 221,787 0,000000

Lab 4 5 0,491944 0,031614 242,151 0,000000

Lab 5 6 -0,064722 0,011671 30,755 0,000000

Tanda 1 7 -0,006389 0,010863 0,346 0,556432

Tanda 2 8 -0,016389 0,010297 2,533 0,111480

Lab*Tanda 1 9 -0,003611 0,013264 0,074 0,785430

Lab*Tanda 2 10 0,021389 0,012968 2,720 0,039071

Lab*Tanda 3 11 0,004722 0,015402 0,094 0,759154

Lab*Tanda 4 12 0,009722 0,014936 0,424 0,515085

Lab*Tanda 5 13 0,021389 0,014494 2,178 0,140034

Lab*Tanda 6 14 0,006389 0,013748 0,216 0,642129

Lab*Tanda 7 15 0,106389 0,047891 4,935 0,026318

Lab*Tanda 8 16 0,016389 0,044444 0,136 0,712311

Lab*Tanda 9 17 0,003056 0,016658 0,034 0,854460

Lab*Tanda 10 18 0,023056 0,016463 1,961 0,161368

Scale 0,091259 0,010755 72,000 0,000000

2009 M.P.Díaz 36

Lab*Tanda Predicted Means

1 2 3 4 5 6

Lab

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1,0

1,1

1,2

1,3

1,4

Co

nc

Tanda 1 Tanda 2 Tanda 3

Deviance residuals by predicted values

-0,3 -0,2 -0,1 0,0 0,1 0,2

Deviance residuals

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1,0

1,1

1,2

Pre

dict

ed v

alue

s

Inverse normal probability plot of observed values

0,0 0,2 0,4 0,6 0,8 1,0 1,2 1,4 1,6

Observed values

0

1

2

3

4

5

6

7

8

9

10

Sta

nd

ard

inve

rse

no

rma

l qu

an

tile

0.01

0.50

0.70

0.80

0.90

0.95

0.98

0.99