TRABAJO VOLUNTARIO - UVavalentin/mem/2015/trabajos_alumnos_14-15/RLM/... · TRABAJO VOLUNTARIO...

Paula López Casado 1

UNIVERSIDAD DE VALLADOLID

TRABAJO VOLUNTARIO

REGRESIÓN LINEAL MULTIVARIANTE

MODELOS ESTADÍSTICOS MULTIVARIANTES

Paula López Casado


RESUMEN ENUNCIADO El conjunto de datos hace referencia a 36 países miembros de la OECD según diferentes índices basados

en la calidad de vida. Se tienen cuatro variables respuesta y siete variables explicativas:

RESP1 - Habilidades estudiantes Media puntuaciones de las pruebas PISA (lengua, matemáticas y ciencias)

RESP2 - Esperanza de vida Esperanza de vida referida a las personas nacidas en 2011

RESP3 - Salud Porcentaje de gente que considera que está bien de salud

RESP4 - Satisfacción de vida Evaluación subjetiva personal de la satisfacción de vida de cada persona, de 0-10

VAR1 - Habitaciones por persona Nº promedio de habitaciones compartidas por persona en una vivienda

VAR2 - Ratio empleo Porcentaje de trabajadores en activo respecto a la población de entre 15-64 años

VAR3 - Salario medio anual Salario medio anual en dólares estadounidenses (valor a 2012)

VAR4 - Años en educación Número de años de educación recibida por la población de entre 5 a 39 años

VAR5 - Contaminación del aire Microgramos por metro cúbico de contaminación en el aire

VAR6 - Calidad del agua Porcentaje de gente que está satisfecha con la calidad del agua en la zona donde vive

VAR7 – Ocio y cuidado personal Tiempo invertido (en horas/día) en ocio y cuidado personal

Se trata de explicar mediante un modelo adecuado de Regresión Lineal Multivariante la Satisfacción de

vida, la Esperanza de Vida, la Salud y las Habilidades de los estudiantes a través de los diferentes

indicadores socio-económicos generales del país. Con el modelo adecuado, se harán contrastes de

interés.

MODELO Para la elección de las variables que formarán parte de nuestro modelo final multivariante se aplica el

método backward, que consiste en ir eliminando las variables no significativas secuencialmente

partiendo del modelo completo. Se obtiene finalmente el modelo las variables 2,3 y 4 y el orden de

salida de las varibles ha sido:

Siendo la ecuación del modelo resultante:

VAR7 VAR6 VAR5 VAR1


Teniendo en cuenta que se ha eliminado un outlier: la observación 36 correspondiente a la Federación

Rusa.

NOTA: Las variables marcadas en color rojo son no significativas a un nivel 0.05.

CONCLUSIONES GENERALES El salario medio anual y los años en educación son 10 veces mayores en la primera ecuación

de regresión respecto a la segunda.

El ratio de empleo tiene un peso cinco veces menor que el número de años promedio en

educación sobre la esperanza de vida y la salud.

Las ecuaciones de la esperaza de vida y la salud tienen un intercept similar.

El salario medio anual influye como variable explicativa cuatro veces más sobre la salud que

sobre la esperanza de vida del país.

El ratio de empleo no tiene significancia en las variables respuesta Habilidades de los

Estudiantes, Esperanza de Vida o Salud sin embargo sí tiene un efecto significativo sobre la

Satisfacción de Vida del país.

Los años de educación no tienen efecto sobre la Salud de los países de nuestro conjunto.

El salario medio anual de un país explica muy significativamente la esperanza de vida del

mismo.

Tanto el salario medio anual como el número de años en educación tiene un efecto

significativo sobre las habilidades de los estudiantes en las puntuaciones medias de las

pruebas PISA.

La esperanza de vida de un país se ve muy influida por el salario medio anual del mismo.

La calidad del agua, la contaminación del aire, el número de habitaciones por persona o el

tiempo de ocio dedicado al día son variables no significativas sobre las cuatro variables

respuesta simultáneamente: Habilidades estudiantiles, Esperanza de Vida, Salud o

Satisfacción de Vida.


ANEXO I – TRABAJO ENUNCIADO El conjunto de datos hace referencia a 36 países miembros de la OECD según diferentes índices basados

en la calidad de vida. Se tienen cuatro variables respuesta y siete variables explicativas:

RESP1 - Habilidades estudiantes Media puntuaciones de las pruebas PISA (lengua, matemáticas y ciencias)

RESP2 - Esperanza de vida Esperanza de vida referida a las personas nacidas en 2011

RESP3 - Salud Porcentaje de gente que considera que está bien de salud

RESP4 - Satisfacción de vida Evaluación subjetiva personal de la satisfacción de vida de cada persona, de 0-10

VAR1 - Habitaciones por persona Nº promedio de habitaciones compartidas por persona en una vivienda

VAR2 - Ratio empleo Porcentaje de trabajadores en activo respecto a la población de entre 15-64 años

VAR3 - Salario medio anual Salario medio anual en dólares estadounidenses (valor a 2012)

VAR4 - Años en educación Número de años de educación recibida por la población de entre 5 a 39 años

VAR5 - Contaminación del aire Microgramos por metro cúbico de contaminación en el aire

VAR6 - Calidad del agua Porcentaje de gente que está satisfecha con la calidad del agua en la zona donde vive

VAR7 – Ocio y cuidado personal Tiempo invertido (en horas/día) en ocio y cuidado personal

Se trata de explicar mediante un modelo adecuado de Regresión Lineal Multivariante la Satisfacción de

vida, la Esperanza de Vida, la Salud y las Habilidades de los estudiantes a través de los diferentes

indicadores socio-económicos generales del país. Con el modelo adecuado, se harán contrastes de

interés.

ANÁLISIS DESCRIPTIVO A través del procedimiento proc means de SAS realizamos un análisis breve descriptivo sobre todas las

variables del data set.

Procedimiento MEANS

Variable Etiqueta N Media Dev tip Mínimo Máximo ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ RESPUESTA1 RESPUESTA1 36 493.2500000 30.2847203 401.0000000 543.0000000 RESPUESTA2 RESPUESTA2 36 79.6000000 3.1109943 69.8000000 82.8000000 RESPUESTA3 RESPUESTA3 36 67.7222222 14.5044055 30.0000000 90.0000000 RESPUESTA4 RESPUESTA4 36 6.5916667 0.8553612 4.7000000 7.8000000 VAR1 VAR1 36 1.6416667 0.4403732 0.9000000 2.6000000 VAR2 VAR2 36 66.1111111 7.1545301 48.0000000 79.0000000 VAR3 VAR3 36 33401.89 12370.80 9885.00 54450.00 VAR4 VAR4 36 17.4444444 1.1958128 14.9000000 19.6000000 VAR5 VAR5 36 20.7500000 9.3239323 9.0000000 53.0000000 VAR6 VAR6 36 83.0277778 10.8798270 49.0000000 97.0000000 VAR7 VAR7 36 14.6405556 0.8317312 11.7300000 16.0600000 Ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ


Vemos que los rangos de oscilación de los posibles valores que toman las variables son muy diferentes,

esto puede suponer que a la hora de ajustar la ecuación de regresión algunos coeficientes sean

extremadamente pequeños encomparación con el resto. Esto no querrá decir que por ello dicha variable

tenga poca significancia en el ajuste.

ANÁLISIS DE CORRELACI ONES Realizamos una matriz de correlaciones en SAS viendo las relaciones entre variables explicativas y

variables respuesta.

proc sgscatter data=oecd;

matrix respuesta1 respuesta2 respuesta3 respuesta4 var1 var2 var3 var4

var5 var6 var7;

run;

Se aprecia que son las varaibles VAR2 y VAR3 las más correladas con las cuatro variables respuesta

simultáneamente, siendo la VAR5 la más dispersa al representarla con las variables respuesta. Así

mismo existe cierta correlación entre la RESP3 y RESP4.


MODELO A continuación aplicamos el Método Backward para la selección de variables que formarán parte de

nuestro modelo multivariante.

Statistic Value F Value Num DF Den DF Pr > F

VAR1 Wilks' Lambda 0.82020179 1.37 4 25 0.2726 VAR2 Wilks' Lambda 0.54668937 5.18 4 25 0.0035 VAR3 Wilks' Lambda 0.67241090 3.04 4 25 0.0357 VAR4 Wilks' Lambda 0.62488582 3.75 4 25 0.0159 VAR5 Wilks' Lambda 0.79279201 1.63 4 25 0.1971 VAR6 Wilks' Lambda 0.85238796 1.08 4 25 0.3864 VAR7 Wilks' Lambda 0.90127856 0.68 4 25 0.6093

En cada iteracción ha de salir la variable menos significativa, en este caso sería VAR7


VAR1 Wilks' Lambda 0.83531218 1.28 4 26 0.3028 VAR2 Wilks' Lambda 0.54656006 5.39 4 26 0.0027 VAR3 Wilks' Lambda 0.69184476 2.90 4 26 0.0416 VAR4 Wilks' Lambda 0.64258820 3.62 4 26 0.0180 VAR5 Wilks' Lambda 0.82358550 1.39 4 26 0.2642 VAR6 Wilks' Lambda 0.85038681 1.14 4 26 0.3582

Como vemos el modelo se quedaría sin la variable seis por no ser significativa.

Statistic Value F Value Num DF Den DF Pr > F VAR1 Wilks' Lambda 0.80682489 1.62 4 27 0.1990 VAR2 Wilks' Lambda 0.45590801 8.06 4 27 0.0002 VAR3 Wilks' Lambda 0.66231685 3.44 4 27 0.0213 VAR4 Wilks' Lambda 0.62728705 4.01 4 27 0.0111 VAR5 Wilks' Lambda 0.81926105 1.49 4 27 0.2332

Sale lavariable VAR5 con un p-valor de contraste 0.2332. Statistic Value F Value Num DF Den DF Pr > F VAR1 Wilks' Lambda 0.78642376 1.90 4 28 0.1381 VAR2 Wilks' Lambda 0.49132175 7.25 4 28 0.0004 VAR3 Wilks' Lambda 0.66741811 3.49 4 28 0.0197 VAR4 Wilks' Lambda 0.62546384 4.19 4 28 0.0088

En este caso saldría la variable VAR1.

Statistic Value F Value Num DF Den DF Pr > F Wilks' Lambda 0.46799316 8.24 4 29 0.0001 Wilks' Lambda 0.41057232 10.41 4 29 <.0001 Wilks' Lambda 0.61557092 4.53 4 29 0.0058

Ya finalmente obtenemos un modelo en el que todas las variables tendrían algún efecto sobre las

variables respuesta por tanto preseleccionamos dicho modelo y contrastamos la hipótesis básica del

modelo.

H0: BASICA proc glm data=oecd;

model respuesta1 respuesta2 respuesta3 respuesta4 = var2 var3 var4;

contrast 'H0: Basica' var2 1, var3 1, var4 1;

manova;run;

The GLM Procedure Number of Observations Read 36 Number of Observations Used 36

Dependent Variable: RESPUESTA1 RESPUESTA1


Sum of Source DF Squares Mean Square F Value Pr > F Model 3 18131.95797 6043.98599 13.85 <.0001 Error 32 13968.79203 436.52475 Corrected Total 35 32100.75000 R-Square Coeff Var Root MSE RESPUESTA1 Mean 0.564845 4.235818 20.89317 493.2500 Source DF Type I SS Mean Square F Value Pr > F VAR2 1 5726.425267 5726.425267 13.12 0.0010 VAR3 1 5404.903276 5404.903276 12.38 0.0013 VAR4 1 7000.629429 7000.629429 16.04 0.0003 Source DF Type III SS Mean Square F Value Pr > F VAR2 1 0.582133 0.582133 0.00 0.9711 VAR3 1 4329.106623 4329.106623 9.92 0.0035 VAR4 1 7000.629429 7000.629429 16.04 0.0003 Contrast DF Contrast SS Mean Square F Value Pr > F H0: Basica 3 18131.95797 6043.98599 13.85 <.0001 Standard Parameter Estimate Error t Value Pr > |t| Intercept 231.6100354 54.21794595 4.27 0.0002 VAR2 -0.0220501 0.60381389 -0.04 0.9711 VAR3 0.0010383 0.00032970 3.15 0.0035 VAR4 13.0939797 3.26969735 4.00 0.0003


Sum of Source DF Squares Mean Square F Value Pr > F Model 3 184.2611456 61.4203819 12.72 <.0001 Error 32 154.4788544 4.8274642 Corrected Total 35 338.7400000 R-Square Coeff Var Root MSE RESPUESTA2 Mean 0.543960 2.760238 2.197149 79.60000 Source DF Type I SS Mean Square F Value Pr > F VAR2 1 49.0372513 49.0372513 10.16 0.0032 VAR3 1 117.5417475 117.5417475 24.35 <.0001 VAR4 1 17.6821468 17.6821468 3.66 0.0646 Source DF Type III SS Mean Square F Value Pr > F VAR2 1 0.5545932 0.5545932 0.11 0.7369 VAR3 1 108.6874849 108.6874849 22.51 <.0001 VAR4 1 17.6821468 17.6821468 3.66 0.0646 Contrast DF Contrast SS Mean Square F Value Pr > F H0: Basica 3 184.2611456 61.4203819 12.72 <.0001 Standard Parameter Estimate Error t Value Pr > |t| Intercept 64.04812016 5.70161850 11.23 <.0001 VAR2 -0.02152216 0.06349773 -0.34 0.7369 VAR3 0.00016451 0.00003467 4.74 <.0001 VAR4 0.65806776 0.34384495 1.91 0.0646

Dependent Variable: RESPUESTA3 RESPUESTA3 Sum of Source DF Squares Mean Square F Value Pr > F Model 3 1907.997385 635.999128 3.73 0.0209 Error 32 5455.224837 170.475776 Corrected Total 35 7363.222222


R-Square Coeff Var Root MSE RESPUESTA3 Mean 0.259125 19.27969 13.05664 67.72222 Source DF Type I SS Mean Square F Value Pr > F VAR2 1 443.234378 443.234378 2.60 0.1167 VAR3 1 1321.976799 1321.976799 7.75 0.0089 VAR4 1 142.786208 142.786208 0.84 0.3669 Source DF Type III SS Mean Square F Value Pr > F VAR2 1 19.133191 19.133191 0.11 0.7398 VAR3 1 1389.547448 1389.547448 8.15 0.0075 VAR4 1 142.786208 142.786208 0.84 0.3669 Contrast DF Contrast SS Mean Square F Value Pr > F H0: Basica 3 1907.997385 635.999128 3.73 0.0209 Standard Parameter Estimate Error t Value Pr > |t| Intercept 72.33815026 33.88207207 2.13 0.0405 VAR2 0.12641318 0.37733753 0.34 0.7398 VAR3 0.00058824 0.00020604 2.85 0.0075 VAR4 -1.87001998 2.04331092 -0.92 0.3669

Dependent Variable: RESPUESTA4 RESPUESTA4 Sum of Source DF Squares Mean Square F Value Pr > F Model 3 15.78805031 5.26268344 17.15 <.0001 Error 32 9.81944969 0.30685780 Corrected Total 35 25.60750000 R-Square Coeff Var Root MSE RESPUESTA4 Mean 0.616540 8.403754 0.553947 6.591667 Source DF Type I SS Mean Square F Value Pr > F VAR2 1 12.81699082 12.81699082 41.77 <.0001 VAR3 1 1.77065471 1.77065471 5.77 0.0223 VAR4 1 1.20040478 1.20040478 3.91 0.0566 Source DF Type III SS Mean Square F Value Pr > F VAR2 1 7.18657863 7.18657863 23.42 <.0001 VAR3 1 2.02411518 2.02411518 6.60 0.0151 VAR4 1 1.20040478 1.20040478 3.91 0.0566 Contrast DF Contrast SS Mean Square F Value Pr > F H0: Basica 3 15.78805031 5.26268344 17.15 <.0001 Standard Parameter Estimate Error t Value Pr > |t| Intercept 3.710881851 1.43749787 2.58 0.0146 VAR2 0.077474673 0.01600911 4.84 <.0001 VAR3 0.000022451 0.00000874 2.57 0.0151 VAR4 -0.171461641 0.08669054 -1.98 0.0566 Multivariate Analysis of Variance Characteristic Roots and Vectors of: E Inverse * H, where H = Contrast SSCP Matrix for H0: Basica E = Error SSCP Matrix Characteristic Characteristic Vector V'EV=1 Root Percent RESPUESTA1 RESPUESTA2 RESPUESTA3 RESPUESTA4 3.90325975 78.90 0.00660613 0.02637528 0.00041962 0.24841836 0.86704951 17.53 -0.00270612 -0.03581680 -0.00891132 0.31811034 0.17683865 3.57 -0.00442728 0.02939070 0.00943932 -0.05154624 0.00000000 0.00 0.00432303 -0.06294933 0.01129897 -0.03469290


MANOVA Test Criteria and F Approximations for the Hypothesis of No Overall H0: Basica Effect H = Contrast SSCP Matrix for H0: Basica E = Error SSCP Matrix S=3 M=0 N=13.5 Statistic Value F Value Num DF Den DF Pr > F Wilks' Lambda 0.09282017 9.34 12 77.018 <.0001 Pillai's Trace 1.41071545 6.88 12 93 <.0001 Hotelling-Lawley Trace 4.94714791 11.63 12 46.609 <.0001 Roy's Greatest Root 3.90325975 30.25 4 31 <.0001 NOTE: F Statistic for Roy's Greatest Root is an upper bound.

Se rechaza la hipótesis básica del modelo sobre el NO EFECTO de los regresores. Así mismo los tests

univariatnes serán analizados más adelante puesto que antes debemos comprobar que no existan

outliers en el modelo así como contrastar las hipótesis generales.

DETECCION DE OUTLIERS

En este caso aplicando el código de SAS correspondiente a la detección de outliers obtenemos como

resultado que sólo una observación es atípica. La número 36 que se correspondería con la Federación

Rusa. Por el tipo de datos que estamos tratando no sería aconsejable eliminar ninguno de ellos pues lo

que tratamos es de explicar lo que ocurre del conjunto no extrapolar a otros países. Sin embargo,

también podemos realizar los análisis sin este dato atípico teniendo en cuenta que se ha eliminado de la

muestra y por tanto que las conclusiones que se obtegan no serán extrapolables al resto de países que

no formen parte del conjunto.

VALIDACION DEL MODELO Para validar el modelo analizamos diferentes plots de residuos ya sin la observación 36.

data oecd2;

set oecd;

obs=_n_;run;

proc glm data=oecd2 plot(unpack)=diagnostics(label);



where obs^=36;

manova;run;

The GLM Procedure

Number of Observations Read 35 Number of Observations Used 35


Sum of Source DF Squares Mean Square F Value Pr > F Model 3 17528.33821 5842.77940 12.97 <.0001 Error 31 13967.54750 450.56605 Corrected Total 34 31495.88571 R-Square Coeff Var Root MSE RESPUESTA1 Mean 0.556528 4.297368 21.22654 493.9429 Source DF Type I SS Mean Square F Value Pr > F VAR2 1 5908.231598 5908.231598 13.11 0.0010 VAR3 1 4726.744469 4726.744469 10.49 0.0029 VAR4 1 6893.362146 6893.362146 15.30 0.0005


Source DF Type III SS Mean Square F Value Pr > F VAR2 1 0.941940 0.941940 0.00 0.9638 VAR3 1 4125.351130 4125.351130 9.16 0.0050 VAR4 1 6893.362146 6893.362146 15.30 0.0005 Contrast DF Contrast SS Mean Square F Value Pr > F H0: Basica 3 17528.33821 5842.77940 12.97 <.0001 Standard Parameter Estimate Error t Value Pr > |t| Intercept 231.4470199 55.17029530 4.20 0.0002 VAR2 -0.0286260 0.62607863 -0.05 0.9638 VAR3 0.0010425 0.00034453 3.03 0.0050 VAR4 13.1182523 3.35381933 3.91 0.0005

Dependent Variable: RESPUESTA2 RESPUESTA2 Sum of Source DF Squares Mean Square F Value Pr > F Model 3 139.4798635 46.4932878 14.34 <.0001 Error 31 100.4761365 3.2411657 Corrected Total 34 239.9560000 R-Square Coeff Var Root MSE RESPUESTA2 Mean 0.581273 2.253785 1.800324 79.88000 Source DF Type I SS Mean Square F Value Pr > F VAR2 1 55.65366556 55.65366556 17.17 0.0002 VAR3 1 73.88480395 73.88480395 22.80 <.0001 VAR4 1 9.94139398 9.94139398 3.07 0.0898 Source DF Type III SS Mean Square F Value Pr > F VAR2 1 0.54605593 0.54605593 0.17 0.6843 VAR3 1 70.81860307 70.81860307 21.85 <.0001 VAR4 1 9.94139398 9.94139398 3.07 0.0898 Contrast DF Contrast SS Mean Square F Value Pr > F H0: Basica 3 139.4798635 46.4932878 14.34 <.0001 Standard Parameter Estimate Error t Value Pr > |t| Intercept 65.12194807 4.67925479 13.92 <.0001 VAR2 0.02179557 0.05310070 0.41 0.6843 VAR3 0.00013659 0.00002922 4.67 <.0001 VAR4 0.49817746 0.28445335 1.75 0.0898

Dependent Variable: RESPUESTA3 RESPUESTA3 Sum of Source DF Squares Mean Square F Value Pr > F Model 3 1607.284834 535.761611 3.47 0.0278 Error 31 4785.115166 154.358554 Corrected Total 34 6392.400000 R-Square Coeff Var Root MSE RESPUESTA3 Mean 0.251437 18.11095 12.42411 68.60000 Source DF Type I SS Mean Square F Value Pr > F VAR2 1 505.6367042 505.6367042 3.28 0.0800 VAR3 1 864.4816666 864.4816666 5.60 0.0244 VAR4 1 237.1664628 237.1664628 1.54 0.2244 Source DF Type III SS Mean Square F Value Pr > F VAR2 1 89.4796447 89.4796447 0.58 0.4522 VAR3 1 910.8934114 910.8934114 5.90 0.0211


VAR4 1 237.1664628 237.1664628 1.54 0.2244 Contrast DF Contrast SS Mean Square F Value Pr > F H0: Basica 3 1607.284834 535.761611 3.47 0.0278 Standard Parameter Estimate Error t Value Pr > |t| Intercept 76.12083216 32.29173854 2.36 0.0249 VAR2 0.27900486 0.36645023 0.76 0.4522 VAR3 0.00048988 0.00020166 2.43 0.0211 VAR4 -2.43325189 1.96302478 -1.24 0.2244


Sum of Source DF Squares Mean Square F Value Pr > F Model 3 15.83988076 5.27996025 18.69 <.0001 Error 31 8.75611924 0.28245546 Corrected Total 34 24.59600000 R-Square Coeff Var Root MSE RESPUESTA4 Mean 0.644002 8.028178 0.531465 6.620000 Source DF Type I SS Mean Square F Value Pr > F VAR2 1 13.17196698 13.17196698 46.63 <.0001 VAR3 1 1.16191408 1.16191408 4.11 0.0512 VAR4 1 1.50599969 1.50599969 5.33 0.0278 Source DF Type III SS Mean Square F Value Pr > F VAR2 1 8.02464739 8.02464739 28.41 <.0001 VAR3 1 1.30368484 1.30368484 4.62 0.0396 VAR4 1 1.50599969 1.50599969 5.33 0.0278 Contrast DF Contrast SS Mean Square F Value Pr > F H0: Basica 3 15.83988076 5.27996025 18.69 <.0001 Standard Parameter Estimate Error t Value Pr > |t| Intercept 3.861563722 1.38134151 2.80 0.0088 VAR2 0.083553112 0.01567562 5.33 <.0001 VAR3 0.000018533 0.00000863 2.15 0.0396 VAR4 -0.193897796 0.08397218 -2.31 0.0278 The GLM Procedure Multivariate Analysis of Variance Characteristic Roots and Vectors of: E Inverse * H, where H = Contrast SSCP Matrix for H0: Basica E = Error SSCP Matrix Characteristic Characteristic Vector V'EV=1 Root Percent RESPUESTA1 RESPUESTA2 RESPUESTA3 RESPUESTA4 4.87706699 83.69 0.00618919 0.04932700 0.00209001 0.25947316 0.76791940 13.18 -0.00354785 -0.03260479 -0.00842191 0.30449665 0.18266123 3.13 -0.00451146 0.04380754 0.01127397 -0.10221192 0.00000000 0.00 0.00434677 -0.06896254 0.01057775 -0.01584305 MANOVA Test Criteria and F Approximations for the Hypothesis of No Overall H0: Basica Effect H = Contrast SSCP Matrix for H0: Basica E = Error SSCP Matrix S=3 M=0 N=13 Statistic Value F Value Num DF Den DF Pr > F Wilks' Lambda 0.08137978 9.80 12 74.373 <.0001 Pillai's Trace 1.41865978 6.73 12 90 <.0001 Hotelling-Lawley Trace 5.82764762 13.22 12 44.865 <.0001 Roy's Greatest Root 4.87706699 36.58 4 30 <.0001 NOTE: F Statistic for Roy's Greatest Root is an upper bound.


De nuevo, al eliminar el outlier la hipótesis básica del modelo de No efecto de los regresores se sigue

rechazando.

ANÁLISIS DE RESIDUOS

HO M O C E D A S T I C I D A D Y L I NE A L I D A D


Como vemos en los plots anteriores no existe heterocedasticidad ni falta de linealidad en el modelo,

cumpliéndose así las hipótesis básicas del modelo asociadas. También se aprecia que las observaciones

18 y 19 no se ajustan bien en la RESPUESTA3.

N O R M A L I D A D

En los QQ-Plot vemos cómo se ajustan los residuos a la distribución Normal.

Se ve que los residuos podrían considerarse Normales, a pesar de que para la respuetsa3 las colas no se

ajustan demasiado bien.

ECUACIONES DEL MODELO

Standard Parameter Estimate Error t Value Pr > |t| Intercept 231.4470199 55.17029530 4.20 0.0002 VAR2 -0.0286260 0.62607863 -0.05 0.9638 VAR3 0.0010425 0.00034453 3.03 0.0050 VAR4 13.1182523 3.35381933 3.91 0.0005


Standard Parameter Estimate Error t Value Pr > |t| Intercept 65.12194807 4.67925479 13.92 <.0001 VAR2 0.02179557 0.05310070 0.41 0.6843 VAR3 0.00013659 0.00002922 4.67 <.0001 VAR4 0.49817746 0.28445335 1.75 0.0898

Standard Parameter Estimate Error t Value Pr > |t| Intercept 76.12083216 32.29173854 2.36 0.0249 VAR2 0.27900486 0.36645023 0.76 0.4522 VAR3 0.00048988 0.00020166 2.43 0.0211 VAR4 -2.43325189 1.96302478 -1.24 0.2244

Standard Parameter Estimate Error t Value Pr > |t| Intercept 3.861563722 1.38134151 2.80 0.0088 VAR2 0.083553112 0.01567562 5.33 <.0001 VAR3 0.000018533 0.00000863 2.15 0.0396 VAR4 -0.193897796 0.08397218 -2.31 0.0278

CONCLUSIONES SOBRE EL MODELO El ratio de empleo (VAR2) no tiene significancia en las variables respuesta Habilidades de los

Estudiantes, Esperanza de Vida o Salud sin embargo sí tiene un efecto significativo sobre la

Satisfacción de Vida del país.

Los años de educación no tienen efecto sobre la Salud de los países de nuestro conjunto.

El salario medio anual sí tiene un efecto significativo sobre la esperanza de vida.

Tanto el salario medio anual como el número de años en educación tiene un efecto

significativo sobre las habilidades de los estudiantes en las puntuaciones medias de las

pruebas PISA.

El salario medio anual de un país explica muy significativamente la esperanza de vida del

mismo.

La calidad del agua, la contaminación del aire, el número de habitaciones por persona o el

tiempo de ocio dedicado al día son variables no significativas sobre las cuatro variables

respuesta simultáneamente: Habilidades estudiantiles, Esperanza de Vida, Salud o

Satisfacción de Vida.


CONTRASTES

TEST 1 - ECUACIONES DE REGRES ION DE RESPUESTA 2 Y RESPUES TA 3

SON IGUALES Queremos contrastar si las ecuaciones de la variable respuesta 2 (Esperanza de Vida) y respuesta 3

(Salud) podrían considerarse iguales. En términos matriciales sería:

proc glm data=oecd2;


contrast '' intercept 1, var2 1, var3 1, var4 1;

where obs^=36;

manova m=respuesta2-respuesta3;run;

The GLM Procedure

Multivariate Analysis of Variance

M Matrix Describing Transformed Variables

RESPUESTA1 RESPUESTA2 RESPUESTA3 RESPUESTA4 MVAR1 0 1 -1 0

Characteristic Roots and Vectors of: E Inverse * H, where H = Contrast SSCP Matrix for E = Error SSCP Matrix Variables have been transformed by the M Matrix Characteristic Characteristic Vector V'EV=1 Root Percent MVAR1 1.07908042 100.00 0.01406304 MANOVA Test Criteria and Exact F Statistics for the Hypothesis of No Overall Effect on the Variables Defined by the M Matrix Transformation H = Contrast SSCP Matrix for E = Error SSCP Matrix S=1 M=1 N=14.5 Statistic Value F Value Num DF Den DF Pr > F Wilks' Lambda 0.48098187 8.36 4 31 0.0001 Pillai's Trace 0.51901813 8.36 4 31 0.0001 Hotelling-Lawley Trace 1.07908042 8.36 4 31 0.0001 Roy's Greatest Root 1.07908042 8.36 4 31 0.0001

Se rechaza que ambas ecuaciones de regresión sean iguales.


TEST 2- VAR3 Y VAR4 ES 10 V ECES LA RESPUESTA 1 RESPECTO A LA

DOS Como se ha visto, la ecuación para las respuesta 1 y 2 eran:

Y se puede observar que la variable 3 y 4 son aproximadamente 10 veces mayores en la primera

ecuación respecto a la segunda. Por tanto realizaremos dicho contraste. Matricialmente:



contrast '' var3 1, var4 1;

where obs^=36;

manova m=10*respuesta2-respuesta1;run;

M Matrix Describing Transformed Variables RESPUESTA1 RESPUESTA2 RESPUESTA3 RESPUESTA4 MVAR1 -1 10 0 0 Characteristic Roots and Vectors of: E Inverse * H, where H = Contrast SSCP Matrix for E = Error SSCP Matrix Variables have been transformed by the M Matrix Characteristic Characteristic Vector V'EV=1 Root Percent MVAR1 0.13933164 100.00 0.00687496 MANOVA Test Criteria and Exact F Statistics for the Hypothesis of No Overall Effect on the Variables Defined by the M Matrix Transformation H = Contrast SSCP Matrix for E = Error SSCP Matrix S=1 M=0 N=14.5 Statistic Value F Value Num DF Den DF Pr > F Wilks' Lambda 0.87770757 2.16 2 31 0.1324 Pillai's Trace 0.12229243 2.16 2 31 0.1324 Hotelling-Lawley Trace 0.13933164 2.16 2 31 0.1324 Roy's Greatest Root 0.13933164 2.16 2 31 0.1324

Efectivamente no se rechaza la hipótesis nula entonces podríamos considerar que tanto VAR3 como

VAR4 son 10 veces mayores en la primera ecuación de regresión respecto a la segunda. Es decir que

tanto el salario medio anual como el número de años de educación de un país afectan 10 veces más en

las habilidades de los estudiantes que en la esperanza de vida.


TEST 3- VAR 2 ES 1/5 LA VAR 4 EN LAS ECUACIONES PA RA LA

RESPUESTA 2 Y 3 A la vista de ambas ecuaciones de regresión:

Cabe preguntarse si el beta estimado para VAR 2 es un quinto el correspondiente a VAR 4.

Véase:



contrast 'TEST 3' var2 5 var4 -1;

where obs^=36;

manova m=respuesta2, respuesta3;run;

Multivariate Analysis of Variance


RESPUESTA1 RESPUESTA2 RESPUESTA3 RESPUESTA4

MVAR1 0 1 0 0 MVAR2 0 0 1 0

Characteristic Roots and Vectors of: E Inverse * H, where

H = Contrast SSCP Matrix for TEST 3 E = Error SSCP Matrix

Variables have been transformed by the M Matrix

Characteristic Characteristic Vector V'EV=1

Root Percent MVAR1 MVAR2

0.06474468 100.00 -0.05062260 0.01158602 0.00000000 0.00 0.08685203 0.00882976

MANOVA Test Criteria and Exact F Statistics for the Hypothesis of No Overall TEST 3 Effect on the Variables Defined by the M Matrix Transformation


S=1 M=0 N=14


Wilks' Lambda 0.93919229 0.97 2 30 0.3902 Pillai's Trace 0.06080771 0.97 2 30 0.3902 Hotelling-Lawley Trace 0.06474468 0.97 2 30 0.3902 Roy's Greatest Root 0.06474468 0.97 2 30 0.3902

Efectivamente se podría decir que la VAR2 (ratio de empleo) tiene un peso cinco veces menor que la

VAR4 (años en educación) sobre la esperanza de vida (respuesta 2) y la salud (respuesta 3).


TEST 4 – MISMO INTERCEPT EN LA S ECUACIONES RESPU ES TA 2 Y

RESPUESTA 3 Veíamos que los valores de los intercepts eran muy similares en estas dos ecuaciones (65.122 y 76.121)

además de ser significativos, por tanto sería de interés conocer si se podrían considerar valores iguales o

si las diferencias son debidas a factores ajenos al muestreo.



contrast 'TEST 4' intercept 1;

where obs^=36;




Characteristic Roots and Vectors of: E Inverse * H, where H = Contrast SSCP Matrix for TEST 4

E = Error SSCP Matrix


Characteristic Characteristic Vector V'EV=1 Root Percent MVAR1

0.00354163 100.00 0.01406304



S=1 M=-0.5 N=14.5



No se rechaza H0, por lo que efectivamente podríamos considerar los intercepts de ambas ecuaciones

iguales. Véase la esperaza de vida y la salud tienen un intercept similar.


TEST 5 – SALARIO MEDIO ANUAL ES 4 VECES MAYOR EN LA ECUACIÓN

DE SALUD (RESPUESTA 3) RESPECTO A LA DE LA ESPERANZA DE VIDA

(RESPUESTA 2)

Se quiere comprobar si el salario medio anual influye cuatro veces más sobre la salud que sobre la

esperanza de vida.



contrast 'TEST 5' var3 1;

where obs^=36;


The GLM Procedure Multivariate Analysis of Variance



Characteristic Roots and Vectors of: E Inverse * H, where



Characteristic Characteristic Vector V'EV=1

Root Percent MVAR1

0.00171198 100.00 0.01188796



S=1 M=-0.5 N=14.5



No se rechaza la hipótesis nula, entonces el salario medio anual influye cuatro veces más sobre la salud

que sobre la esperanza de vida del país.


ANEXO II – CÓDIGO SAS

*Datos de la OECD;

proc import file='LIBRO1.xlsx'

out=OECD;

run;

proc print;run;

proc sgscatter data=oecd;

matrix respuesta1 respuesta2 respuesta3 respuesta4 var1 var2 var3 var4

var5 var6 var7;

run;

proc glm data=oecd;

model respuesta1 respuesta2 respuesta3 respuesta4 = var1 var2 var3

var4 var5 var6 var7 /nouni;

contrast '' var1 1;

manova;run;

proc glm data=oecd;


var4 var5 var6 var7 /nouni;

contrast '' var2 1;

manova;run;

proc glm data=oecd;


var4 var5 var6 var7 /nouni;contrast '' var3 1;

manova;run;

proc glm data=oecd;



manova;run;

proc glm data=oecd;



manova;run;

proc glm data=oecd;



manova;run;

proc glm data=oecd;



manova;run;

proc glm data=oecd;


var4 var5 var6 var7 /nouni;run;quit;

proc glm data=oecd;


var4 var5 var6 /nouni;

contrast '' var1 1;

manova;run;

proc glm data=oecd;



contrast '' var2 1;

manova;run;


proc glm data=oecd;



contrast '' var3 1;

manova;run;

proc glm data=oecd;



contrast '' var4 1;

manova;run;

proc glm data=oecd;



contrast '' var5 1;

manova;run;

proc glm data=oecd;



contrast '' var6 1;

manova;run;

proc glm data=oecd;


var4 var5/nouni;

contrast '' var1 1;

manova;run;

proc glm data=oecd;


var4 var5 /nouni;

contrast '' var2 1;

manova;run;

proc glm data=oecd;


var4 var5 /nouni;

contrast '' var3 1;

manova;run;

proc glm data=oecd;


var4 var5 /nouni;

contrast '' var4 1;

manova;run;

proc glm data=oecd;


var4 var5 /nouni;

contrast '' var5 1;

manova;run;

proc glm data=oecd;


var4 /nouni;

contrast '' var1 1;

manova;run;

proc glm data=oecd;


var4 /nouni;

contrast '' var2 1;

manova;run;

proc glm data=oecd;



var4 /nouni;

contrast '' var3 1;

manova;run;

proc glm data=oecd;


var4 /nouni;

contrast '' var4 1;

manova;run;

proc glm data=oecd;


/nouni;

contrast '' var2 1;

manova;run;

proc glm data=oecd;


/nouni;

contrast '' var3 1;

manova;run;

proc glm data=oecd;


/nouni;

contrast '' var4 1;

manova;run;

proc glm data=oecd;



manova;run;

Deteccion de outliers;

proc iml;

* lectura de datos; reset print;

use oecd;

read all var {respuesta1 respuesta2 respuesta3 respuesta4

var2 var3 var4};

show names; *LCURRENT_trans LSTART EDUC SENIOR AGE EXPERIENCE

;

print respuesta1 respuesta2 respuesta3 respuesta4 var2 var3

var4;

* matriz de diseño X y matriz de respuestas Y;

Y=respuesta1|| respuesta2|| respuesta3|| respuesta4;

n=nrow(Y); * observaciones;

s=ncol(Y); * vbles respuesta;

X=j(n,1)||var2|| var3|| var4;

p=ncol(X)-1; * vbles explicativas;

* estimacion;

* parametros; Bhat=inv(X`*X)*X`*Y;

* medias/Valores predichos; Yhat=X*Bhat;

* errores; err=Y-Yhat;

create

resid from err;

append

from err;


* detecccion de outliers mediante analisis de residuos;

* ====================================================;

proc iml;reset noprint;

*cargo matriz de datos X desde SDS;

use resid;

read all into X;

n=nrow(X); p=ncol(X); *dimensiones;

Ind=(1:n)`; * Identificador de los individuos;

* nivel del test;

alfa=0.10;

*inicializo las variables condicion y el contador de

outliers nout;

Qdmax=0;Qalfa=0;

nout=0; *inicializo nout, contador del

nº de outliers detectados;

************************************ comienzo bucle

*******************;

do until (Qdmax<Qalfa);

*computo medias y covarianzas empiricas;

Xmed=X[:,]`;

Q=X`*X-n*Xmed*Xmed`;

S=Q/(n-1);

* matriz de datos centrados;

Xcen=X-J(n,1,1)*(Xmed)`;

* matriz de productos

desviaciones_i`*inv(S)*desviaciones_j ;

D=Xcen*inv(S)*Xcen`;

* en la diagonal de D encuentro las DM2 de los

n individuos;

DM2=vecdiag(D); DM=sqrt(DM2);

* busco la observacion con mayor DM2;

Qdmax=max(DM2);

outlier=DM2[<:>];

* calculo el punto critico de nivel alfa;

calfa=p*finv(1-alfa/n,p,n-p-1)/(n-p-

1);

Qalfa=calfa/(1+calfa); Qalfa=Qalfa*(n-

1)**2/n;

* decision;

if Qdmax<Qalfa then do; *he terminado,

guardo los datos depurados;

print 'Finalizada Deteccion de

outliers ';

print nout ' observaciones

declaradas outliers y eliminadas';

create bank_sinout from X;

append from X;

abort;

end;

*si no, es que hay outlier. Lo elimino

y repito el proceso;

print 'la observacion '

(ind[outlier]) ' es un outlier';

print (X[outlier,]);

print Qdmax Qalfa ;

* ordeno los individuos por

atipicidad creciente;

r=rank(DM);


Xcop=X;

Indcop=Ind;

X[r,]=Xcop;

Ind[r]=Indcop;

* elimino el outlier y

modifico n y nout;

X=X[1:(n-1),];

Ind=Ind[1:(n-1)];

n=n-1;

nout=nout+1;

end;

************************************ finalizo bucle

*******************;

*Validacion del modelo;

data oecd2;

set oecd;

obs=_n_;run;

proc glm data=oecd2 plot(unpack)=diagnostics(label);



where obs^=36;

manova;run;

Un outlier detectado: obs nº 36,

* Tests;



contrast '' var2 1, var3 1, var4 1;

where obs^=36;

manova;run;

*

Standard

Parameter Estimate Error t Value

Pr > |t|

Intercept 231.4470199 55.17029530 4.20

0.0002

VAR2 -0.0286260 0.62607863 -0.05

0.9638

VAR3 0.0010425 0.00034453 3.03

0.0050

VAR4 13.1182523 3.35381933 3.91

0.0005

Standard


Pr > |t|

Intercept 65.12194807 4.67925479 13.92

<.0001

VAR2 0.02179557 0.05310070 0.41

0.6843

VAR3 0.00013659 0.00002922 4.67

<.0001

VAR4 0.49817746 0.28445335 1.75

0.0898


Standard


Pr > |t|

Intercept 76.12083216 32.29173854 2.36

0.0249

VAR2 0.27900486 0.36645023 0.76

0.4522

VAR3 0.00048988 0.00020166 2.43

0.0211

VAR4 -2.43325189 1.96302478 -1.24

0.2244

Standard


Pr > |t|

Intercept 3.861563722 1.38134151 2.80

0.0088

VAR2 0.083553112 0.01567562 5.33

<.0001

VAR3 0.000018533 0.00000863 2.15

0.0396

VAR4 -0.193897796 0.08397218 -2.31

0.0278

test 1 - ecuaciones de regresion de respuesta 2 y respuesta 3 son

iguales;



contrast '' intercept 1, var2 1, var3 1, var4 1;

where obs^=36;


*TEST 2- Var3 y var4 es 10 veces la respuesta 1 respectoa la dos;



contrast '' var3 1, var4 1;

where obs^=36;


*TEST 3- VAR 2 ES 1/5 LA VAR 4 EN LAS ECUACIONES PARA LA RESPUESTA 2 Y

3;



contrast 'TEST 3' var2 5 var4 -1;

where obs^=36;

manova m=respuesta2, respuesta3;run;

*TEST 4 – MISMO INTERCEPT EN LAS ECUACIONES RESPUESTA 2 Y RESPUESTA 3;



contrast 'TEST 4' intercept 1;

where obs^=36;



*TEST 5 – SALARIO MEDIO ANUAL ES 4 VECES MAYOR EN LA ECUACIÓN DE SALUD

(RESPUESTA 3) RESPECTO A LA DE LA ESPERANZA DE VIDA (RESPUESTA 2);



contrast 'TEST 5' var3 1;

where obs^=36;


TRABAJO VOLUNTARIO - UVavalentin/mem/2015/trabajos_alumnos_14-15/RLM/... · TRABAJO VOLUNTARIO...

Documents

Transcript of TRABAJO VOLUNTARIO - UVavalentin/mem/2015/trabajos_alumnos_14-15/RLM/... · TRABAJO VOLUNTARIO...