LA PRUEBA F DE BONDAD DE AJUSTE 2 Vamos a considerar el caso general donde hay k – 1 variables...

Post on 31-Jan-2016

225 views 0 download

Transcript of LA PRUEBA F DE BONDAD DE AJUSTE 2 Vamos a considerar el caso general donde hay k – 1 variables...

LA PRUEBA F DE BONDAD DE AJUSTE

2

Vamos a considerar el caso general donde hay k – 1 variables explicativas. Para la prueba F de bondad de ajuste de la ecuación, la hipótesis nula es que el modelo no tiene ninguna capacidad explicativa.

uXXY kk ...221

0 oneleast at :

0...:

1

20

H

H k

1

Esta secuencia describe dos pruebas F de bondad de ajuste en un modelo de regresión múltiple. La primera de ellas relacionada a la bondad de ajuste de la ecuación como tal.

uXXY kk ...221

0 oneleast at :

0...:

1

20

H

H k

LA PRUEBA F DE BONDAD DE AJUSTE

3

Por supuesto, esperamos rechazarla y concluir que el modelo sí tiene cierto poder explicativo.

uXXY kk ...221

0 oneleast at :

0...:

1

20

H

H k

LA PRUEBA F DE BONDAD DE AJUSTE

4

El modelo no tendrá poder explicativo si resulta que Y no está relacionada con ninguna de las variables explicativas. Po lo tanto, en términos matemáticos la hipótesis nula es que todos los coeficientes 2, ..., k son cero.

uXXY kk ...221

0 oneleast at :

0...:

1

20

H

H k

LA PRUEBA F DE BONDAD DE AJUSTE

uXXY kk ...221

0 oneleast at :

0...:

1

20

H

H k

5

La hipótesis alternativa es que al menos uno de estos ceoficientes es diferente de cero.

LA PRUEBA F DE BONDAD DE AJUSTE

uXXY kk ...221

0 oneleast at :

0...:

1

20

H

H k

6

En el modelo de regresión multiple existe una diferencia entre el papel de la prueba F y la prueba t. La prueba F analiza el poder explicativo conjunto de las variables, mientras que la prueba t prueba el poder explicativo individualmente.

LA PRUEBA F DE BONDAD DE AJUSTE

uXXY kk ...221

0 oneleast at :

0...:

1

20

H

H k

7

En el modelo de regresión simple la prueba F era equivalente a la prueba t (de dos colas) del coeficeinte de la pendiente, porque el ‘grupo’ consiste en una sola variable.

LA PRUEBA F DE BONDAD DE AJUSTE

)()1()1(

)(

)1(

)()1(

),1(

2

2

knRkR

knTSSRSS

kTSSESS

knRSSkESS

knkF

uXXY kk ...221

0 oneleast at :

0...:

1

20

H

H k

8

El estadítico F para la prueba fue definido en la última presentación del Capítulo 2. ESS es la suma explicada de cuadrados y RSS es la suma del cuadrado de los residuales.

LA PRUEBA F DE BONDAD DE AJUSTE

)()1()1(

)(

)1(

)()1(

),1(

2

2

knRkR

knTSSRSS

kTSSESS

knRSSkESS

knkF

uXXY kk ...221

0 oneleast at :

0...:

1

20

H

H k

9

Puede ser expresado en términos de R2 al dividir el numerador y el denominador entre TSS, la suma total de cuadrados.

LA PRUEBA F DE BONDAD DE AJUSTE

10

)()1()1(

)(

)1(

)()1(

),1(

2

2

knRkR

knTSSRSS

kTSSESS

knRSSkESS

knkF

uXXY kk ...221

0 oneleast at :

0...:

1

20

H

H k

ESS / TSS es la definición de R2. RSS / TSS es igual a (1 – R2). (Vea la última presentación del Capítulo 2.)

LA PRUEBA F DE BONDAD DE AJUSTE

11

uSFSMASVABCS 4321

El modelo de asistencia educativa será utilizado como ejemplo. Vamos a suponer que S depende de ASVABC, el puntaje de habilidad, de SM, y de SF, el mayor grado alcanzado por la madre y el padre de los encuentados, respectivamente.

LA PRUEBA F DE BONDAD DE AJUSTE

12

0: 4320 H

La hipótesis nula para la prueba F de bondad de ajuste es que los tres coeficientes de las pendientes son iguales a cero. La hipótesis alternativa es que por lo menos uno de ellos no es diferente de cero.

uSFSMASVABCS 4321 LA PRUEBA F DE BONDAD DE AJUSTE

. reg S ASVABC SM SF

Source | SS df MS Number of obs = 540-------------+------------------------------ F( 3, 536) = 104.30 Model | 1181.36981 3 393.789935 Prob > F = 0.0000 Residual | 2023.61353 536 3.77539837 R-squared = 0.3686-------------+------------------------------ Adj R-squared = 0.3651 Total | 3204.98333 539 5.94616574 Root MSE = 1.943

------------------------------------------------------------------------------ S | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+---------------------------------------------------------------- ASVABC | .1257087 .0098533 12.76 0.000 .1063528 .1450646 SM | .0492424 .0390901 1.26 0.208 -.027546 .1260309 SF | .1076825 .0309522 3.48 0.001 .04688 .1684851 _cons | 5.370631 .4882155 11.00 0.000 4.41158 6.329681------------------------------------------------------------------------------

13

Aquí se presenta el resultado de la regresión al utlizar la Base de Datos 21.

uSFSMASVABCS 4321 0: 4320 H

. reg S ASVABC SM SF

Source | SS df MS Number of obs = 540-------------+------------------------------ F( 3, 536) = 104.30 Model | 1181.36981 3 393.789935 Prob > F = 0.0000 Residual | 2023.61353 536 3.77539837 R-squared = 0.3686-------------+------------------------------ Adj R-squared = 0.3651 Total | 3204.98333 539 5.94616574 Root MSE = 1.943

------------------------------------------------------------------------------ S | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+---------------------------------------------------------------- ASVABC | .1257087 .0098533 12.76 0.000 .1063528 .1450646 SM | .0492424 .0390901 1.26 0.208 -.027546 .1260309 SF | .1076825 .0309522 3.48 0.001 .04688 .1684851 _cons | 5.370631 .4882155 11.00 0.000 4.41158 6.329681------------------------------------------------------------------------------

14

uSFSMASVABCS 4321 0: 4320 H

En este ejemplo, k – 1, el número de grados de libertad, es igual a 536.

)/()1/(

),1(knRSS

kESSknkF

3.104

536/20243/1181

)536,3( F

. reg S ASVABC SM SF

Source | SS df MS Number of obs = 540-------------+------------------------------ F( 3, 536) = 104.30 Model | 1181.36981 3 393.789935 Prob > F = 0.0000 Residual | 2023.61353 536 3.77539837 R-squared = 0.3686-------------+------------------------------ Adj R-squared = 0.3651 Total | 3204.98333 539 5.94616574 Root MSE = 1.943

------------------------------------------------------------------------------ S | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+---------------------------------------------------------------- ASVABC | .1257087 .0098533 12.76 0.000 .1063528 .1450646 SM | .0492424 .0390901 1.26 0.208 -.027546 .1260309 SF | .1076825 .0309522 3.48 0.001 .04688 .1684851 _cons | 5.370631 .4882155 11.00 0.000 4.41158 6.329681------------------------------------------------------------------------------

15

uSFSMASVABCS 4321 0: 4320 H

)/()1/(

),1(knRSS

kESSknkF

3.104

536/20243/1181

)536,3( F

El numerador del estadístico F es la suma explicada de cuadrados dividida entre k – 1. En el resultado de Stata esto números están dados por el Modelo row. these numbers are given in the Model row.

. reg S ASVABC SM SF

Source | SS df MS Number of obs = 540-------------+------------------------------ F( 3, 536) = 104.30 Model | 1181.36981 3 393.789935 Prob > F = 0.0000 Residual | 2023.61353 536 3.77539837 R-squared = 0.3686-------------+------------------------------ Adj R-squared = 0.3651 Total | 3204.98333 539 5.94616574 Root MSE = 1.943

------------------------------------------------------------------------------ S | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+---------------------------------------------------------------- ASVABC | .1257087 .0098533 12.76 0.000 .1063528 .1450646 SM | .0492424 .0390901 1.26 0.208 -.027546 .1260309 SF | .1076825 .0309522 3.48 0.001 .04688 .1684851 _cons | 5.370631 .4882155 11.00 0.000 4.41158 6.329681------------------------------------------------------------------------------

16

uSFSMASVABCS 4321 0: 4320 H

)/()1/(

),1(knRSS

kESSknkF

3.104

536/20243/1181

)536,3( F

El denominador es la suma del cuadrado de los residuales dividido entre el número de grados de libertad restante.

. reg S ASVABC SM SF

Source | SS df MS Number of obs = 540-------------+------------------------------ F( 3, 536) = 104.30 Model | 1181.36981 3 393.789935 Prob > F = 0.0000 Residual | 2023.61353 536 3.77539837 R-squared = 0.3686-------------+------------------------------ Adj R-squared = 0.3651 Total | 3204.98333 539 5.94616574 Root MSE = 1.943

------------------------------------------------------------------------------ S | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+---------------------------------------------------------------- ASVABC | .1257087 .0098533 12.76 0.000 .1063528 .1450646 SM | .0492424 .0390901 1.26 0.208 -.027546 .1260309 SF | .1076825 .0309522 3.48 0.001 .04688 .1684851 _cons | 5.370631 .4882155 11.00 0.000 4.41158 6.329681------------------------------------------------------------------------------

17

uSFSMASVABCS 4321 0: 4320 H

)/()1/(

),1(knRSS

kESSknkF

3.104

536/20243/1181

)536,3( F

Por lo tanto, el estadístico F es 104.3. Todos los programas estadísitcos serios lo calculan por ti, como parte del diagnóstico en el resultado de una regresión.

. reg S ASVABC SM SF

Source | SS df MS Number of obs = 540-------------+------------------------------ F( 3, 536) = 104.30 Model | 1181.36981 3 393.789935 Prob > F = 0.0000 Residual | 2023.61353 536 3.77539837 R-squared = 0.3686-------------+------------------------------ Adj R-squared = 0.3651 Total | 3204.98333 539 5.94616574 Root MSE = 1.943

------------------------------------------------------------------------------ S | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+---------------------------------------------------------------- ASVABC | .1257087 .0098533 12.76 0.000 .1063528 .1450646 SM | .0492424 .0390901 1.26 0.208 -.027546 .1260309 SF | .1076825 .0309522 3.48 0.001 .04688 .1684851 _cons | 5.370631 .4882155 11.00 0.000 4.41158 6.329681------------------------------------------------------------------------------

18

uSFSMASVABCS 4321 0: 4320 H

3.104536/20243/1181

)536,3( F

El valor crítico de F(3,536) no está dado en la tablas F, pero sabemos que debe ser menor que F(3,500), que está dado. En el nivel de 0.1%, esto es 5.51. Por consiguiente, rechazamos facilmente H0 con un nivel de 0.1%.

51.5)500,3(crit,0.1% F

. reg S ASVABC SM SF

Source | SS df MS Number of obs = 540-------------+------------------------------ F( 3, 536) = 104.30 Model | 1181.36981 3 393.789935 Prob > F = 0.0000 Residual | 2023.61353 536 3.77539837 R-squared = 0.3686-------------+------------------------------ Adj R-squared = 0.3651 Total | 3204.98333 539 5.94616574 Root MSE = 1.943

------------------------------------------------------------------------------ S | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+---------------------------------------------------------------- ASVABC | .1257087 .0098533 12.76 0.000 .1063528 .1450646 SM | .0492424 .0390901 1.26 0.208 -.027546 .1260309 SF | .1076825 .0309522 3.48 0.001 .04688 .1684851 _cons | 5.370631 .4882155 11.00 0.000 4.41158 6.329681------------------------------------------------------------------------------

19

uSFSMASVABCS 4321 0: 4320 H

3.104536/20243/1181

)536,3( F51.5)500,3(crit,0.1% F

Este resultado podría haber sido anticipado porque ASVABC y SF tienen una t estadística altamente significativa. Por lo que sabíamos que 2 y 4 no diferentes de cero.

. reg S ASVABC SM SF

Source | SS df MS Number of obs = 540-------------+------------------------------ F( 3, 536) = 104.30 Model | 1181.36981 3 393.789935 Prob > F = 0.0000 Residual | 2023.61353 536 3.77539837 R-squared = 0.3686-------------+------------------------------ Adj R-squared = 0.3651 Total | 3204.98333 539 5.94616574 Root MSE = 1.943

------------------------------------------------------------------------------ S | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+---------------------------------------------------------------- ASVABC | .1257087 .0098533 12.76 0.000 .1063528 .1450646 SM | .0492424 .0390901 1.26 0.208 -.027546 .1260309 SF | .1076825 .0309522 3.48 0.001 .04688 .1684851 _cons | 5.370631 .4882155 11.00 0.000 4.41158 6.329681------------------------------------------------------------------------------

20

uSFSMASVABCS 4321 0: 4320 H

3.104536/20243/1181

)536,3( F51.5)500,3(crit,0.1% F

Es inusual que el estadístico F no sea significativo si algunos de los estadíticos t lo son. Sin embargo, ello puede pasar en principio. Suponemos que corremos una regresión con 40 variables explicativas y ninguna es determinante en la variable dependiente.

. reg S ASVABC SM SF

Source | SS df MS Number of obs = 540-------------+------------------------------ F( 3, 536) = 104.30 Model | 1181.36981 3 393.789935 Prob > F = 0.0000 Residual | 2023.61353 536 3.77539837 R-squared = 0.3686-------------+------------------------------ Adj R-squared = 0.3651 Total | 3204.98333 539 5.94616574 Root MSE = 1.943

------------------------------------------------------------------------------ S | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+---------------------------------------------------------------- ASVABC | .1257087 .0098533 12.76 0.000 .1063528 .1450646 SM | .0492424 .0390901 1.26 0.208 -.027546 .1260309 SF | .1076825 .0309522 3.48 0.001 .04688 .1684851 _cons | 5.370631 .4882155 11.00 0.000 4.41158 6.329681------------------------------------------------------------------------------

21

uSFSMASVABCS 4321 0: 4320 H

3.104536/20243/1181

)536,3( F51.5)500,3(crit,0.1% F

A continuación, el estadístico F debe ser lo suficientemente menor para que H0 no sea rechazada. Sin embargo, si estás desarrollando una prueba t en los coeficientes de la pendiente con un nivel de 5%, con un 5% de probabilidad de error Tipo I , en promedio 2 de 40 variables tendrán coeficientes significativos.

. reg S ASVABC SM SF

Source | SS df MS Number of obs = 540-------------+------------------------------ F( 3, 536) = 104.30 Model | 1181.36981 3 393.789935 Prob > F = 0.0000 Residual | 2023.61353 536 3.77539837 R-squared = 0.3686-------------+------------------------------ Adj R-squared = 0.3651 Total | 3204.98333 539 5.94616574 Root MSE = 1.943

------------------------------------------------------------------------------ S | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+---------------------------------------------------------------- ASVABC | .1257087 .0098533 12.76 0.000 .1063528 .1450646 SM | .0492424 .0390901 1.26 0.208 -.027546 .1260309 SF | .1076825 .0309522 3.48 0.001 .04688 .1684851 _cons | 5.370631 .4882155 11.00 0.000 4.41158 6.329681------------------------------------------------------------------------------

22

uSFSMASVABCS 4321 0: 4320 H

3.104536/20243/1181

)536,3( F51.5)500,3(crit,0.1% F

Sin embargo, lo opuesto podría pasar. Vamos a suponer que tenemos un modelo de regresión múltiple que está perfectamente especificado y con una R2 elevada. Deberíamos esperar tener un estadístico F significativo.

. reg S ASVABC SM SF

Source | SS df MS Number of obs = 540-------------+------------------------------ F( 3, 536) = 104.30 Model | 1181.36981 3 393.789935 Prob > F = 0.0000 Residual | 2023.61353 536 3.77539837 R-squared = 0.3686-------------+------------------------------ Adj R-squared = 0.3651 Total | 3204.98333 539 5.94616574 Root MSE = 1.943

------------------------------------------------------------------------------ S | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+---------------------------------------------------------------- ASVABC | .1257087 .0098533 12.76 0.000 .1063528 .1450646 SM | .0492424 .0390901 1.26 0.208 -.027546 .1260309 SF | .1076825 .0309522 3.48 0.001 .04688 .1684851 _cons | 5.370631 .4882155 11.00 0.000 4.41158 6.329681------------------------------------------------------------------------------

23

uSFSMASVABCS 4321 0: 4320 H

3.104536/20243/1181

)536,3( F51.5)500,3(crit,0.1% F

No obstante, si las variables explicativas están altamente correlacionadas y el modelo es sujeto de multicolinearidad, el error estandard de los coeficientes de la pendiente podrían ser tan grandes que ningúno de los estadísticos t sea significativo.

. reg S ASVABC SM SF

Source | SS df MS Number of obs = 540-------------+------------------------------ F( 3, 536) = 104.30 Model | 1181.36981 3 393.789935 Prob > F = 0.0000 Residual | 2023.61353 536 3.77539837 R-squared = 0.3686-------------+------------------------------ Adj R-squared = 0.3651 Total | 3204.98333 539 5.94616574 Root MSE = 1.943

------------------------------------------------------------------------------ S | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+---------------------------------------------------------------- ASVABC | .1257087 .0098533 12.76 0.000 .1063528 .1450646 SM | .0492424 .0390901 1.26 0.208 -.027546 .1260309 SF | .1076825 .0309522 3.48 0.001 .04688 .1684851 _cons | 5.370631 .4882155 11.00 0.000 4.41158 6.329681------------------------------------------------------------------------------

24

uSFSMASVABCS 4321 0: 4320 H

3.104536/20243/1181

)536,3( F51.5)500,3(crit,0.1% F

En esta situación deberíamos saber que nuestro modelo es bueno, pero no estamos en una posición para pinpoint las contribuciones hechas individualmente por las variables explicativas.

uXXXY 4433221

uXY 221 1RSS

2RSS

25

Ahora pasamos a la otra prueba F de bondad de ajuste: es una prueba del poder explicativo conjunto de un grupo de variables cuando son añadidas a un modelo de regresión .

uXXXY 4433221

uXY 221 1RSS

2RSS

26

Por ejemplo, en la especificación original, Y puede ser escrito como una función simple de X2. En la segunda, añadimos X3 y X4.

0 and bothor 0 or 0 :

0:

43431

430

H

H

uXXXY 4433221

uXY 221 1RSS

2RSS

27

La hipótesis nula para la prueba F es que X3 y X4 no pertenecen al modelo. La hipótesis alternativa es que al menos una pertenece, tal vez la dos.

0 and bothor 0 or 0 :

0:

43431

430

H

H

uXXXY 4433221

uXY 221 1RSS

2RSS

F(cost, d.f. remaining) =improvement cost

remainingunexplained

degrees of freedomremaining

28

Para esta prueba F y muchas más que nos econtraremos, es útil pensar en el estadístico F con una estructura similar a la de arriba.

0 and bothor 0 or 0 :

0:

43431

430

H

H

uXXXY 4433221

uXY 221 1RSS

2RSS

F(cost, d.f. remaining) =improvement cost

remainingunexplained

degrees of freedomremaining

29

The ‘improvement’ es la reducción de la suma de cuadrados cuando se hace el cambio, en este caso, cuando se agrega el grupo de nuevas variables.

0 and bothor 0 or 0 :

0:

43431

430

H

H

uXXXY 4433221

uXY 221 1RSS

2RSS

F(cost, d.f. remaining) =improvement cost

remainingunexplained

degrees of freedomremaining

30

El ‘costo’ es la reducción de los grados de libertad que quedan después de hacer el cambio. En este caso es igual al número de nuevas variables añadidas, porque es el número de nuevo parámetros que son estimados.

0 and bothor 0 or 0 :

0:

43431

430

H

H

uXXXY 4433221

uXY 221 1RSS

2RSS

F(cost, d.f. remaining) =improvement cost

remainingunexplained

degrees of freedomremaining

31

(Recordemos que el número de grados de libertad en una ecuación de regresión es el número de observaciones menos el número de parametros estimados. En este ejemplo, caerá de n – 2 a n – 4 cuando X3 y X4 son añadidas.)

0 and bothor 0 or 0 :

0:

43431

430

H

H

uXXXY 4433221

uXY 221 1RSS

2RSS

F(cost, d.f. remaining) =improvement cost

remainingunexplained

degrees of freedomremaining

32

Lo que permanece sin explicación es la suma del cuadrado de los residuales después de hacer el cambio.

33

0 and bothor 0 or 0 :

0:

43431

430

H

H

uXXXY 4433221

uXY 221 1RSS

2RSS

Los ‘grados de libertad restantes’ es el número de grados de libertad restantes después de hacer el cambio.

F(cost, d.f. remaining) =improvement cost

remainingunexplained

degrees of freedomremaining

. reg S ASVABC

Source | SS df MS Number of obs = 540-------------+------------------------------ F( 1, 538) = 274.19 Model | 1081.97059 1 1081.97059 Prob > F = 0.0000 Residual | 2123.01275 538 3.94612035 R-squared = 0.3376-------------+------------------------------ Adj R-squared = 0.3364 Total | 3204.98333 539 5.94616574 Root MSE = 1.9865

------------------------------------------------------------------------------ S | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+---------------------------------------------------------------- ASVABC | .148084 .0089431 16.56 0.000 .1305165 .1656516 _cons | 6.066225 .4672261 12.98 0.000 5.148413 6.984036------------------------------------------------------------------------------

34

Ilustraremos la prueba con un ejemplo de asistencia educativa. Esta es al regresión de S con base en ASVABC utlizando la Base de 21. Haremos una nota sobre la suma de los residuales al cuadrado.

. reg S ASVABC SM SF

Source | SS df MS Number of obs = 540-------------+------------------------------ F( 3, 536) = 104.30 Model | 1181.36981 3 393.789935 Prob > F = 0.0000 Residual | 2023.61353 536 3.77539837 R-squared = 0.3686-------------+------------------------------ Adj R-squared = 0.3651 Total | 3204.98333 539 5.94616574 Root MSE = 1.943

------------------------------------------------------------------------------ S | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+---------------------------------------------------------------- ASVABC | .1257087 .0098533 12.76 0.000 .1063528 .1450646 SM | .0492424 .0390901 1.26 0.208 -.027546 .1260309 SF | .1076825 .0309522 3.48 0.001 .04688 .1684851 _cons | 5.370631 .4882155 11.00 0.000 4.41158 6.329681------------------------------------------------------------------------------

35

Ahora agregamos el grado máximo completado por cada pariente. ¿La educación de los padres tiene un impacto significativo? Podemos observar que una prueba t mostrará que SF tiene un coeficiente altamente signficativo, pero de todos modos llevaremos a cabo la prueba.

0 and bothor 0 or 0 :

0:

43431

430

H

H

uXXXY 4433221

uXY 221 1RSS

2RSS

F(cost, d.f. remaining) =improvement cost

remainingunexplained

degrees of freedomremaining

36

La mejora en el ajuste al añadir las variables de los padres es la reducción en la suma del cuadrado de los residuales.

16.13536/6.2023

2/)6.20230.2123()4540(2)(

)4540,2(2

21

RSS

RSSRSSF

0 and bothor 0 or 0 :

0:

43431

430

H

H

uXXXY 4433221

uXY 221 1RSS

2RSS

F(cost, d.f. remaining) =improvement cost

remainingunexplained

degrees of freedomremaining

37

El costo son 2 grados de libertad debido a que se estimaron 2 parámetros adicionales.

16.13536/6.2023

2/)6.20230.2123()4540(2)(

)4540,2(2

21

RSS

RSSRSSF

0 and bothor 0 or 0 :

0:

43431

430

H

H

uXXXY 4433221

uXY 221 1RSS

2RSS

F(cost, d.f. remaining) =improvement cost

remainingunexplained

degrees of freedomremaining

38

Lo que permanece sin explicación es la suma de los residuales al cuadrado después de añadir SM y SF.

16.13536/6.2023

2/)6.20230.2123()4540(2)(

)4540,2(2

21

RSS

RSSRSSF

0 and bothor 0 or 0 :

0:

43431

430

H

H

uXXXY 4433221

uXY 221 1RSS

2RSS

F(cost, d.f. remaining) =improvement cost

remainingunexplained

degrees of freedomremaining

39

El número de grados de libertad que permanece es n – k, esto es, 540 – 4 = 536.

16.13536/6.2023

2/)6.20230.2123()4540(2)(

)4540,2(2

21

RSS

RSSRSSF

0 and bothor 0 or 0 :

0:

43431

430

H

H

uXXXY 4433221

uXY 221 1RSS

2RSS

F(cost, d.f. remaining) =improvement cost

remainingunexplained

degrees of freedomremaining

16.13536/6.2023

2/)6.20230.2123()4540(2)(

)4540,2(2

21

RSS

RSSRSSF

40

El estadístico F es 13.16.

0 and bothor 0 or 0 :

0:

43431

430

H

H

uXXXY 4433221

uXY 221 1RSS

2RSS

F(cost, d.f. remaining) =improvement cost

remainingunexplained

degrees of freedomremaining

41

El valor crítico de F(2,500) con un nivel de 0.1% es 7.00. El valor crítico de F(2,536) debe ser menor, por lo que rechazamo H0 y concluimos que las variables de la educación de los padres tienen gran poder explicativo.

00.7)500,2(crit,0.1% F

16.13536/6.2023

2/)6.20230.2123()4540(2)(

)4540,2(2

21

RSS

RSSRSSF

1RSS

2RSS

uXXY 33221

uXXXY 4433221

42

Esta presentación concluirá al mostar que las pruebas t son equivalentes a las pruebas F marginales cuando el grupo adicional de variables consiste en una sola variable.

1RSS

2RSS

uXXY 33221

uXXXY 4433221

43

Suponemos que en el modelo original Y es una función de X2 y X3, y en el modelo revisado se agrega X4.

1RSS

2RSS

0 :

0:

41

40

H

H

uXXY 33221

uXXXY 4433221

44

La hipótesis nula para la prueba F del poder explicativo del grupo adicional de variables es que la nuevos coeficientes de las pendientes son iguales a cero. Por supuesto, sólo existe un nuevo coeficiente de la pendiente, 4.

45

1RSS

2RSS

La prueba F tiene la estructura usual. Esto lo demostraremos con un modelo de asistencia educativa, donde S depende de ASVABC y SM en el modelo original y, también, de SF en el modelo revisado.

F(cost, d.f. remaining) =improvement cost

remainingunexplained

degrees of freedomremaining

0 :

0:

41

40

H

H

uXXY 33221

uXXXY 4433221

. reg S ASVABC SM

Source | SS df MS Number of obs = 540-------------+------------------------------ F( 2, 537) = 147.36 Model | 1135.67473 2 567.837363 Prob > F = 0.0000 Residual | 2069.30861 537 3.85346109 R-squared = 0.3543-------------+------------------------------ Adj R-squared = 0.3519 Total | 3204.98333 539 5.94616574 Root MSE = 1.963

------------------------------------------------------------------------------ S | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+---------------------------------------------------------------- ASVABC | .1328069 .0097389 13.64 0.000 .1136758 .151938 SM | .1235071 .0330837 3.73 0.000 .0585178 .1884963 _cons | 5.420733 .4930224 10.99 0.000 4.452244 6.389222------------------------------------------------------------------------------

46

Esta es la regresión de S con base en ASVABC y SM. Haremos una nota de la suma de los residuales al cuadrado.

47

Ahora, añadimos SF y, nuevamente, hacemos nota de la suma de los residuales al cuadrado.

. reg S ASVABC SM SF

Source | SS df MS Number of obs = 540-------------+------------------------------ F( 3, 536) = 104.30 Model | 1181.36981 3 393.789935 Prob > F = 0.0000 Residual | 2023.61353 536 3.77539837 R-squared = 0.3686-------------+------------------------------ Adj R-squared = 0.3651 Total | 3204.98333 539 5.94616574 Root MSE = 1.943

------------------------------------------------------------------------------ S | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+---------------------------------------------------------------- ASVABC | .1257087 .0098533 12.76 0.000 .1063528 .1450646 SM | .0492424 .0390901 1.26 0.208 -.027546 .1260309 SF | .1076825 .0309522 3.48 0.001 .04688 .1684851 _cons | 5.370631 .4882155 11.00 0.000 4.41158 6.329681------------------------------------------------------------------------------

0 :

0:

41

40

H

H

uXXXY 4433221

uXXY 33221 1RSS

2RSS

F(cost, d.f. remaining) =improvement cost

remainingunexplained

degrees of freedomremaining

48

La mejora al añadir SF es la reducción en la suma de los residuales al cuadrado.

10.12536/6.2023

1/)6.20233.2069()4540(1)(

)4540,1(2

21

RSS

RSSRSSF

0 :

0:

41

40

H

H

uXXXY 4433221 1RSS

2RSS

F(cost, d.f. remaining) =improvement cost

remainingunexplained

degrees of freedomremaining

49

El costo es sólo el grado de libertad que perdimos al estimar 4.

uXXY 33221

10.12536/6.2023

1/)6.20233.2069()4540(1)(

)4540,1(2

21

RSS

RSSRSSF

0 :

0:

41

40

H

H

uXXXY 4433221 1RSS

2RSS

F(cost, d.f. remaining) =improvement cost

remainingunexplained

degrees of freedomremaining

50

Lo que permanece sin explicación es la suma de los residuales al cuadrado después de añadir SF.

uXXY 33221

10.12536/6.2023

1/)6.20233.2069()4540(1)(

)4540,1(2

21

RSS

RSSRSSF

0 :

0:

41

40

H

H

uXXXY 4433221 1RSS

2RSS

F(cost, d.f. remaining) =improvement cost

remainingunexplained

degrees of freedomremaining

51

El número de grados de libertad que queda después de añadir SF es 540 – 4 = 536.

uXXY 33221

10.12536/6.2023

1/)6.20233.2069()4540(1)(

)4540,1(2

21

RSS

RSSRSSF

0 :

0:

41

40

H

H

uXXXY 4433221 1RSS

2RSS

F(cost, d.f. remaining) =improvement cost

remainingunexplained

degrees of freedomremaining

10.12536/6.2023

1/)6.20233.2069()4540(1)(

)4540,1(2

21

RSS

RSSRSSF

uXXY 33221

52

Por lo tanto, el estadítico F es 12.10.

0 :

0:

41

40

H

H

uXXXY 4433221 1RSS

2RSS

F(cost, d.f. remaining) =improvement cost

remainingunexplained

degrees of freedomremaining

10.12536/6.2023

1/)6.20233.2069()4540(1)(

)4540,1(2

21

RSS

RSSRSSF

uXXY 33221

53

96.10)500,1( crit,0.1% F

El valor crítico de F con un nivel de significancia de 0.1% y con 500 grados de libertad es 10.96. El valor crítico con 536 grados de libertad debe ser menor, por lo que rechazamos H0 con un nivel de 0.1%.

0 :

0:

41

40

H

H

uXXXY 4433221 1RSS

2RSS

F(cost, d.f. remaining) =improvement cost

remainingunexplained

degrees of freedomremaining

10.12536/6.2023

1/)6.20233.2069()4540(1)(

)4540,1(2

21

RSS

RSSRSSF

uXXY 33221

54

La hípótesis nula que estamos probando es exactamente igual que la prueba t de “dos colas” sobre el coeficiente SF.

96.10)500,1( crit,0.1% F

55

Vamos a desarrollar la prueba t. El estadístico t es 3.48.

96.10crit,0.1% F

. reg S ASVABC SM SF

Source | SS df MS Number of obs = 540-------------+------------------------------ F( 3, 536) = 104.30 Model | 1181.36981 3 393.789935 Prob > F = 0.0000 Residual | 2023.61353 536 3.77539837 R-squared = 0.3686-------------+------------------------------ Adj R-squared = 0.3651 Total | 3204.98333 539 5.94616574 Root MSE = 1.943

------------------------------------------------------------------------------ S | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+---------------------------------------------------------------- ASVABC | .1257087 .0098533 12.76 0.000 .1063528 .1450646 SM | .0492424 .0390901 1.26 0.208 -.027546 .1260309 SF | .1076825 .0309522 3.48 0.001 .04688 .1684851 _cons | 5.370631 .4882155 11.00 0.000 4.41158 6.329681------------------------------------------------------------------------------

10.12536/6.2023

1/)6.20233.2069()536,1(

F

56

96.10crit,0.1% F

. reg S ASVABC SM SF

Source | SS df MS Number of obs = 540-------------+------------------------------ F( 3, 536) = 104.30 Model | 1181.36981 3 393.789935 Prob > F = 0.0000 Residual | 2023.61353 536 3.77539837 R-squared = 0.3686-------------+------------------------------ Adj R-squared = 0.3651 Total | 3204.98333 539 5.94616574 Root MSE = 1.943

------------------------------------------------------------------------------ S | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+---------------------------------------------------------------- ASVABC | .1257087 .0098533 12.76 0.000 .1063528 .1450646 SM | .0492424 .0390901 1.26 0.208 -.027546 .1260309 SF | .1076825 .0309522 3.48 0.001 .04688 .1684851 _cons | 5.370631 .4882155 11.00 0.000 4.41158 6.329681------------------------------------------------------------------------------

10.12536/6.2023

1/)6.20233.2069()536,1(

F

El valor crítico con un nivel de 0.1% y 500 grados de libertad es 3.31. El valor crítico con 536 grados de libertad debe ser menor. Por lo que rechazamos H0 nuevamente.

31.3crit,0.1% t

57

96.10crit,0.1% F

. reg S ASVABC SM SF

Source | SS df MS Number of obs = 540-------------+------------------------------ F( 3, 536) = 104.30 Model | 1181.36981 3 393.789935 Prob > F = 0.0000 Residual | 2023.61353 536 3.77539837 R-squared = 0.3686-------------+------------------------------ Adj R-squared = 0.3651 Total | 3204.98333 539 5.94616574 Root MSE = 1.943

------------------------------------------------------------------------------ S | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+---------------------------------------------------------------- ASVABC | .1257087 .0098533 12.76 0.000 .1063528 .1450646 SM | .0492424 .0390901 1.26 0.208 -.027546 .1260309 SF | .1076825 .0309522 3.48 0.001 .04688 .1684851 _cons | 5.370631 .4882155 11.00 0.000 4.41158 6.329681------------------------------------------------------------------------------

10.12536/6.2023

1/)6.20233.2069()536,1(

F

31.3crit,0.1% tPuede demostrase que el estadístico F para la prueba F del poder explicativo de un ‘grupo’ de variables debe ser igual al cuadrado del estádístico t para esa variable. (La diferencia en el último dígito es debido al error de redondeo.)

11.1248.3 2

58

96.10crit,0.1% F

. reg S ASVABC SM SF

Source | SS df MS Number of obs = 540-------------+------------------------------ F( 3, 536) = 104.30 Model | 1181.36981 3 393.789935 Prob > F = 0.0000 Residual | 2023.61353 536 3.77539837 R-squared = 0.3686-------------+------------------------------ Adj R-squared = 0.3651 Total | 3204.98333 539 5.94616574 Root MSE = 1.943

------------------------------------------------------------------------------ S | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+---------------------------------------------------------------- ASVABC | .1257087 .0098533 12.76 0.000 .1063528 .1450646 SM | .0492424 .0390901 1.26 0.208 -.027546 .1260309 SF | .1076825 .0309522 3.48 0.001 .04688 .1684851 _cons | 5.370631 .4882155 11.00 0.000 4.41158 6.329681------------------------------------------------------------------------------

10.12536/6.2023

1/)6.20233.2069()536,1(

F

31.3crit,0.1% t11.1248.3 2 96.1031.3 2 También se puede ver que el valor crítico de F debe ser igual al cuadrado de los valores críticos de t. (Los valores críticos mostrados corresponden a 500 grados de libertad, pero esto también debe ser cierto para 536 grados de libertad.)

59

96.10crit,0.1% F

. reg S ASVABC SM SF

Source | SS df MS Number of obs = 540-------------+------------------------------ F( 3, 536) = 104.30 Model | 1181.36981 3 393.789935 Prob > F = 0.0000 Residual | 2023.61353 536 3.77539837 R-squared = 0.3686-------------+------------------------------ Adj R-squared = 0.3651 Total | 3204.98333 539 5.94616574 Root MSE = 1.943

------------------------------------------------------------------------------ S | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+---------------------------------------------------------------- ASVABC | .1257087 .0098533 12.76 0.000 .1063528 .1450646 SM | .0492424 .0390901 1.26 0.208 -.027546 .1260309 SF | .1076825 .0309522 3.48 0.001 .04688 .1684851 _cons | 5.370631 .4882155 11.00 0.000 4.41158 6.329681------------------------------------------------------------------------------

10.12536/6.2023

1/)6.20233.2069()536,1(

F

31.3crit,0.1% t11.1248.3 2 Por lo tanto, las conclusiones de las dos pruebas deben coincidir.

96.1031.3 2

60

96.10crit,0.1% F

. reg S ASVABC SM SF

Source | SS df MS Number of obs = 540-------------+------------------------------ F( 3, 536) = 104.30 Model | 1181.36981 3 393.789935 Prob > F = 0.0000 Residual | 2023.61353 536 3.77539837 R-squared = 0.3686-------------+------------------------------ Adj R-squared = 0.3651 Total | 3204.98333 539 5.94616574 Root MSE = 1.943

------------------------------------------------------------------------------ S | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+---------------------------------------------------------------- ASVABC | .1257087 .0098533 12.76 0.000 .1063528 .1450646 SM | .0492424 .0390901 1.26 0.208 -.027546 .1260309 SF | .1076825 .0309522 3.48 0.001 .04688 .1684851 _cons | 5.370631 .4882155 11.00 0.000 4.41158 6.329681------------------------------------------------------------------------------

10.12536/6.2023

1/)6.20233.2069()536,1(

F

31.3crit,0.1% t11.1248.3 2 96.1031.3 2 Estos resultados significan que la prueba t del coeficiente de una variable es una prueba de su poder explicativo marginal, después que todas las otra variables fueron incluidas en la ecuación.

61

96.10crit,0.1% F

. reg S ASVABC SM SF

Source | SS df MS Number of obs = 540-------------+------------------------------ F( 3, 536) = 104.30 Model | 1181.36981 3 393.789935 Prob > F = 0.0000 Residual | 2023.61353 536 3.77539837 R-squared = 0.3686-------------+------------------------------ Adj R-squared = 0.3651 Total | 3204.98333 539 5.94616574 Root MSE = 1.943

------------------------------------------------------------------------------ S | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+---------------------------------------------------------------- ASVABC | .1257087 .0098533 12.76 0.000 .1063528 .1450646 SM | .0492424 .0390901 1.26 0.208 -.027546 .1260309 SF | .1076825 .0309522 3.48 0.001 .04688 .1684851 _cons | 5.370631 .4882155 11.00 0.000 4.41158 6.329681------------------------------------------------------------------------------

10.12536/6.2023

1/)6.20233.2069()536,1(

F

31.3crit,0.1% t11.1248.3 2 96.1031.3 2 Si al variable está correlacionada con una o más variables, su poder explicativo marginal puede ser muy bajo, incluso si pertenece originalmente al modelo.

62

96.10crit,0.1% F

. reg S ASVABC SM SF

Source | SS df MS Number of obs = 540-------------+------------------------------ F( 3, 536) = 104.30 Model | 1181.36981 3 393.789935 Prob > F = 0.0000 Residual | 2023.61353 536 3.77539837 R-squared = 0.3686-------------+------------------------------ Adj R-squared = 0.3651 Total | 3204.98333 539 5.94616574 Root MSE = 1.943

------------------------------------------------------------------------------ S | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+---------------------------------------------------------------- ASVABC | .1257087 .0098533 12.76 0.000 .1063528 .1450646 SM | .0492424 .0390901 1.26 0.208 -.027546 .1260309 SF | .1076825 .0309522 3.48 0.001 .04688 .1684851 _cons | 5.370631 .4882155 11.00 0.000 4.41158 6.329681------------------------------------------------------------------------------

10.12536/6.2023

1/)6.20233.2069()536,1(

F

31.3crit,0.1% t11.1248.3 2 96.1031.3 2 Si todas las variables están correlacionadas, es posible que todas tenga un poder explicativo muy bajo y que para ninguan de ellas la prueba t sea significativa, incluso si la prueba F para el poder explicativo conjunto sea altamente significativo.

63

96.10crit,0.1% F

. reg S ASVABC SM SF

Source | SS df MS Number of obs = 540-------------+------------------------------ F( 3, 536) = 104.30 Model | 1181.36981 3 393.789935 Prob > F = 0.0000 Residual | 2023.61353 536 3.77539837 R-squared = 0.3686-------------+------------------------------ Adj R-squared = 0.3651 Total | 3204.98333 539 5.94616574 Root MSE = 1.943

------------------------------------------------------------------------------ S | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+---------------------------------------------------------------- ASVABC | .1257087 .0098533 12.76 0.000 .1063528 .1450646 SM | .0492424 .0390901 1.26 0.208 -.027546 .1260309 SF | .1076825 .0309522 3.48 0.001 .04688 .1684851 _cons | 5.370631 .4882155 11.00 0.000 4.41158 6.329681------------------------------------------------------------------------------

10.12536/6.2023

1/)6.20233.2069()536,1(

F

31.3crit,0.1% t11.1248.3 2 96.1031.3 2 Si este es el caso, se dice que el modelo sufre del problema de multicolinearidad discutido en capítulos previos.

Copyright Christopher Dougherty 1999–2006. This slideshow may be freely copied for personal use. Traducido por Diego Forcada Gallardo

22.08.06