Regresion Multiple

download Regresion Multiple

of 17

Transcript of Regresion Multiple

ANLISIS DE REGRESIN

TRABAJO FINAL

Profesor: Julio Fernando Suarez

Universidad Nacional de Colombia Sede Manizales Facultad de Ingeniera y arquitectura Probabilidad y Estadstica Manizales Febrero de 2012

INTRODUCCIN

La estadstica en general se ha concebido por el hombre como un instrumento de anlisis cuantitativo que sirva en lo fundamental para la toma de decisiones. Para ello se utilizan todas las herramientas de la estadstica descriptiva e inferencial; principalmente sta ltima cimentada en los principios de la probabilidad, proporcionndole al ingeniero una gran cantidad de herramientas que puede utilizar con muy buenas posibilidades de xito. Una de estas herramientas es el anlisis de regresin, el cual permite investigar la relacin estadstica que existe entre una variable dependiente (Y) y una o ms variables independientes ( X 1 , X 2 , X 3 , ... ). Para poder realizar esta investigacin, se debe postular una relacin funcional entre las variables. Debido a su simplicidad analtica, en este trabajo se desarrollara regresiones lineales mltiples y regresiones no lineales (exponencial y logartmica). Cuando se tiene mltiples variables independientes, se construyen varios modelos, a cada uno se les aplica las pruebas correspondientes para determinar si dichas variables estn asociadas a ir mejorando el modelo; por ultimo, se elige la ecuacin de regresin estimada que resulta estadsticamente significativa, y sta permitir predecir una medida en funcin de otras medidas. Debido a que se requieren muchos clculos en el anlisis de regresin, existen varios software que permiten hacerlo de una forma rpida y rigurosa como lo es el Excel que es el utilizado en el trabajo desarrollado. Se realiz un anlisis de regresin mltiple a una serie de datos obtenidos en una entidad prestadora de servicios de salud con el fin de prevenir y disminuir los riesgos a las personas que sufren o que puedan tener una futura deficiencia en su salud.

OBJETIVOS

OBJETIVO GENERALRealizar un anlisis de regresin para encontrar la relacin que existe entre el riesgo de padecer cncer con una serie de variables.

OBJETIVOS ESPECFICOS Realizar una regresin lineal, una exponencial y una logartmica. Realizar matrices de correlacin entre variables independientes y entredependientes e independientes.

Realizar anlisis de varianza. Encontrar coeficientes para las variables segn la regresin trabajada Analizar las pruebas de hiptesis segn el p-value y encontrar el modelo apropiado.

TABLA DE DATOS

Y Paciente 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Riesgo 12 24 13 56 28 51 18 31 37 15 22 36 15 48 15 36 8 34 3 37

X1 Edad 57 67 58 86 59 76 56 78 80 78 71 70 67 77 60 82 66 80 62 59

X2 Presin 152 163 155 177 196 189 155 120 135 98 152 173 135 209 199 119 166 125 117 207

X3 Fumador No No No Si No Si Si No Si No No Si Si Si No Si No Si No Si

X4 Deporte Si Si Si No Si No Si Si No No Si No No No Si No No No Si Si

Al tener los datos, se procede a identificar las variables del modelo teniendo en cuentas cuales son cualitativas, cuantitativas, dependientes e independientes. Sea Y= Riesgo. Sea X1 = Edad. Sea X2 = Presin. Sea X3 = Fumador. Sea X4 = Deporte. Variable dependiente Variable independiente cuantitativa Variable independiente cuantitativa Variable independiente cualitativa Variable independiente cualitativa

Para introducir variables del tipo independiente cualitativo se deben crear unas variables ficticias y que su cantidad se determina por nmero de niveles menos uno. Para introducir las variables condicin de Fumador y la prctica de algn deporte en el modelo de regresin se definirn las siguientes variables (variables ficticias o indicadoras): Condicin de Fumador: Se tienen dos niveles que son Si y No, por tal razn se tendr un nmero de variables ficticias igual a 1 puesto que 2 1 = 1 Variable X3. Fumador X3 No 1 Si 0 Condicin de Deporte: Se tienen dos niveles que son Si y No por tal razn se tendr un nmero de variables ficticias igual a 1 puesto que 2 1 = 1 Variable X4. Deporte X4 No 0 Si 1 Tabla con todas las variables incluyendo las independientes cualitativas representadas por la variable ficticia o indicadora X3 para Fumador y X5 para Deporte.

REGRESIN LINEAL

Ecuacin de la forma Y = 0 + 1 X1 + 2 X2 + .P XP. En este ejercicio se realiza una regresin lineal mltiple que se analiza con todos los siguientes pasos:

Y Paciente 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Riesgo 12 24 13 56 28 51 18 31 37 15 22 36 15 48 15 36 8 34 3 37

X1 Edad 57 67 58 86 59 76 56 78 80 78 71 70 67 77 60 82 66 80 62 59

X2 Presion 152 163 155 177 196 189 155 120 135 98 152 173 135 209 199 119 166 125 117 207

X3 Fumador 1 1 1 0 1 0 0 1 0 1 1 0 0 0 1 0 1 0 1 0

X4 Deporte 1 1 1 0 1 0 1 1 0 0 1 0 0 0 1 0 0 0 1 1

COEFICIENTE DE CORRELACIN Ahora mediante el uso de la herramienta de Excel denominada coeficiente de correlacin, se determinara si existen problemas de multicolinealidad entre las variables independientes.

A continuacin se muestra el resultado obtenido: Riesgo Riesgo Edad Presin Fumador Deporte1 0,650239601 0,388163473 -0,680448073 -0,459388801

Edad1 -0,30895167 -0,41076745 -0,72017671

Presin

Fumador

Deporte

1 -0,16664607 0,14149195

1 0,6

1

Observando los resultados arrojados por el anlisis de coeficiente de correlacin de Excel, podemos concluir que SI existe problema potencial de multicolinealidad, ya que para algunas de las variables independientes como son edad y deporte, presentan un coeficiente de correlacin mayor que + 0,70 o menor que -0,70 para dos variables independientes lo cual se considera el factor que determina que existe multicolinealidad entre variables (Todas las celdas que se encuentran en verde). Tambin se puede notar que la variable que ms aporta o que mayor poder explicatorio da a la variable dependiente Riesgo es la variable independiente Fumador con una correlacin de -0.68, lo que se puede considerar razonable puesto que las personas que fuman se pueden considerar en una escala de mayor riesgo. ANLISIS DE REGRESIN. Todas las variables (Edad, Presin Arterial, Fumador, Deporte) Como paso siguiente se har un anlisis de regresin a todas las variables para determinara las caractersticas de los resultados y as poder obtener y determinar el modelo Aplicando regresin a todas las variables tendremos el siguiente resultado: Estadsticas de la regresin Coeficiente de correlacin mltiple 0,964812723 Coeficiente de determinacin R^2 0,930863591 R^2 ajustado 0,912427216 Error tpico 4,395052005 Observaciones 20

ANLISIS DE VARIANZAGrados de libertad 4 15 19 Suma de Promedio de los cuadrados cuadrados 3901,202768 975,300692 289,7472319 19,31648213 4190,95 Valor crtico de F 1,58447E-08

Regresin Residuos Total

F 50,49059583

Analizando los resultados se tiene que: El coeficiente de determinacin R^2 indica que el 93,09% de los datos son representados, es decir, la bondad de ajuste es buena puesto que se pueden explicar el 93,09% de la suma de los cuadrados del total con la ecuacin de regresin que se obtiene. Del valor de F podemos concluir que con un nivel de significancia a = 5%, o de confianza del 95%, el valor crtico de F (valor p = 1,58447E-08) con F= 50,4905, indica que existe evidencia estadstica suficiente para afirmar que el modelo de regresin representa una relacin lineal significativa entre las variables independientes y la variable dependiente, pues el p-value asociado con la prueba F es menor que el alfa (alfa = 0,05).Coeficientes Error tpico -109,1070836 14,76612856 1,414607312 0,158825555 0,245896779 0,034569653 -13,0492101 2,596302675 11,41365377 3,234926515 Estadstico t Probabilidad -7,389010814 2,2585E-06 8,90667318 2,24079E-07 7,113082081 3,54688E-06 -5,026074282 0,000150573 3,528257509 0,003041943

Riesgo Edad Presin Fumador Deporte

Los coeficientes son los valores que forman la ecuacin del modelo que se obtiene al hacer regresin a todas las variables: = -109,1071 + 1,4146 X1 + 0,24590 X2 - 13,0492 X3 + 11,4137 X4 Siendo, el intercepto: -109,1071; 1: 1,4146; 2:0,24590; 3: 13,0492; 1: 11,4137 La probabilidad equivale al p-value relacionado con la prueba t debe ser menor que el alfa (alfa = 5%) para que los datos sean propicios, lo que nos dice que al

mirar cada una de las variables todas rechazan la hiptesis nula, es decir todas son significativas para el modelo. Cabe resaltar que aunque la variable que mas tiene correlacin con el riesgo de tener cncer de pulmn es el consumo de cigarrillo, para el caso de este modelo resulta equivoco ya que lo que nos muestra la regresin es que al aumentar una unidad el consumo del cigarrillo decrece 13,0492% el riesgo, siendo esto falso por las estadsticas mundiales que dicen que el aumento del consumo de cigarrillo es el factor mas relevante para tener cncer de pulmn.

REGRESIN EXPONENCIAL (SEMI-LOGARITMICO)

Ecuacin de la forma: Y = abX1cX2 dX3. pXp. Para realizar regresiones de este tipo lo que se hace es normalizar la ecuacin y trabajarla como una regresin lineal, la normalizacin se hace de la siguiente manera:LOG Y

= LOG a + X1LOG b + x2 LOG c xp LOG p o 1 2 p

LOG Y Paciente1 2 3 4 5 6 7 8 9

X1 Edad57 67 58 86 59 76 56 78 80

X2 Presin152 163 155 177 196 189 155 120 135

X3 Fumador1 1 1 0 1 0 0 1 0

X4 Deporte1 1 1 0 1 0 1 1 0

Riesgo1,079181246 1,380211242 1,113943352 1,748188027 1,447158031 1,707570176 1,255272505 1,491361694 1,568201724

10 11 12 13 14 15 16 17 18 19 20

1,176091259 1,342422681 1,556302501 1,176091259 1,681241237 1,176091259 1,556302501 0,903089987 1,531478917 0,477121255 1,568201724

78 71 70 67 77 60 82 66 80 62 59

98 152 173 135 209 199 119 166 125 117 207

1 1 0 0 0 1 0 1 0 1 0

0 1 0 0 0 1 0 0 0 1 1

COEFICIENTE DE CORRELACIN Ahora mediante el uso de la herramienta de Excel denominada coeficiente de correlacin, se determinara si existen problemas de multicolinealidad entre las variables independientes. A continuacin se muestra el resultado obtenido: Riesgo Riesgo Edad Presin Fumador Deporte Edad Presin Fumador Deporte

1 0,567086041 1 0,36833029 -0,30895167 1 -0,621866649 -0,41076745 -0,16664607 -0,375811883 -0,72017671 0,14149195

1 0,6

1

Observando los resultados arrojados por el anlisis de coeficiente de correlacin de Excel, podemos concluir que SI existe problema potencial de multicolinealidad, ya que para algunas de las variables independientes como son edad y deporte, presentan un coeficiente de correlacin mayor que + 0,70 o menor que -0,70 para dos variables independientes lo cual se considera el factor que determina que existe multicolinealidad entre variables (Todas las celdas que se encuentran en verde). Tambin se puede notar que la variable que ms aporta o que mayor poder explicatorio da a la variable dependiente Riesgo es la variable independiente

Fumador con una correlacin de -0.62, lo que se puede considerar razonable puesto que las personas que fuman se pueden considerar en una escala de mayor riesgo.

ANLISIS DE REGRESIN. Todas las variables (Edad, Presin Arterial, Fumador, Deporte) Como paso siguiente se har un anlisis de regresin a todas las variables para determinara las caractersticas de los resultados y as poder obtener y determinar el modelo Aplicando regresin a todas las variables tendremos el siguiente resultado:Estadsticas de la regresin Coeficiente de correlacin mltiple Coeficiente de determinacin R^2 R^2 ajustado Error tpico Observaciones 0,883301546 0,780221621 0,721614053 0,163747242 20

ANLISIS DE VARIANZAGrados de libertad 4 15 19 Suma de Promedio de los cuadrados cuadrados 1,427816059 0,356954015 0,40219739 0,026813159 1,830013449 Valor crtico de F 7,95579E-05

Regresin Residuos Total

F 13,31264289

Analizando los resultados se tiene que: El coeficiente de determinacin R^2 indica que el 78,02% de los datos son representados, es decir, la bondad de ajuste es moderadamente buena puesto que se pueden explicar el 78,02% de la suma de los cuadrados del total con la ecuacin de regresin que se obtiene. Del valor de F podemos concluir que con un nivel de significancia a = 5%, o de confianza del 95%, el valor crtico de F (valor p = 7,95579E-05) con F= 13,3126, indica que existe evidencia estadstica suficiente para afirmar que el modelo de

regresin representa una relacin lineal significativa entre las variables independientes y la variable dependiente, pues el p-value asociado con la prueba F es menor que el alfa (alfa = 0,05).Coeficientes -1,285057769 0,0273657 0,004686587 -0,27462998 0,264676393 Error tpico 0,550144305 0,005917392 0,001287968 0,096730915 0,120524238 Estadstico t -2,335855807 4,62462159 3,638745626 -2,839112803 Probabilidad 0,03379399 0,000330459 0,002425149 0,012437349

Riesgo Edad Presin Fumador Deporte

2,19604286 0,044228243

La probabilidad equivale al p-value relacionado con la prueba t debe ser menor que el alfa (alfa = 5%) para que los datos sean propicios, lo que nos dice que al mirar cada una de las variables todas rechazan la hiptesis nula, es decir todas son significativas para el modelo. Los coeficientes son los valores que forman la ecuacin del modelo que se obtiene al hacer regresin a todas las variables: Ya que este es un modelo exponencial la ecuacin queda de la siguiente forma: Log = log -1,28506 + X1 log 0,0274 + X2 log 0,00469 + X3 log - 0,27463 + X4 log 0,26468 Para hallar la ecuacin de la forma general y el verdadero valor de los interceptos en una regresin exponencial se saca el antilogaritmo de cada uno de estos El antilogaritmo de un logaritmo en base 10 es: 10^(n) siendo n el valor de cada coeficiente. TRANSFORMACIN o = 10^(-1,28506) 1 = 10^(0,0274) 2 = 10^(0,00469) 3 = 10^(- 0,27463) 4 = 10^(0,26468) Y = 0,05187 * 1,06504X1

real de la muestra 0,051873103 1,065039463 1,010849701 0,531336952 1,839400894

* 1,01085X2 * 0,53134X3 * 1,83940X4

Al analizar el coeficiente de la variable X1 es decir de la edad nos dice lo siguiente: Tomamos el coeficiente como: p= 1 + i I= p 1 Donde i es la parte decimal que acompaa la unidad y es el valor a analizar. i1 - 1 i = 1,06504 1 =0,06504 Lo que podemos notar es que cuando el X1 aumente en una unidad, Y va a aumentar 6,5%. Si analizamos la variable X3 es decir fumar, obtenemos lo siguiente: Tomamos el coeficiente como: i3 - 1 i = 0,53134 1 = - 0,46866 Lo que podemos encontrar al interpretar este valor es que por cada unidad que aumente la variable fumar el (Y) decrecer 46,86%.

REGRESIN LOGARTMICA (POTENCIA)

Ecuacin de la forma: Y = aX11X22 X3. Pp. Para realizar regresiones de este tipo lo que se hace es normalizar la ecuacin y trabajarla como una regresin lineal, la normalizacin se hace de la siguiente manera:LOG Y

= LOG a + 1LOG X1 + 2 LOG X2 PLOG Xp o

Para la regresin logartmica que se va realizar se van a excluir las variables que contengan dentro de sus datos valores de cero por no existir su logaritmo. Como variable dependiente esta la que se a tenido durante todo el trabajo riesgo, y como variables independientes se utilizaran edad y presin.

log Y Paciente 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Riesgo 1,1 1,4 1,1 1,7 1,4 1,7 1,3 1,5 1,6 1,2 1,3 1,6 1,2 1,7 1,2 1,6 0,9 1,5 0,5 1,6

log X1 Edad 1,8 1,8 1,8 1,9 1,8 1,9 1,7 1,9 1,9 1,9 1,9 1,8 1,8 1,9 1,8 1,9 1,8 1,9 1,8 1,8

log X2 Presin 2,2 2,2 2,2 2,2 2,3 2,3 2,2 2,1 2,1 2,0 2,2 2,2 2,1 2,3 2,3 2,1 2,2 2,1 2,1 2,3

COEFICIENTE DE CORRELACIN Ahora mediante el uso de la herramienta de Excel denominada coeficiente de correlacin, se determinara si existen problemas de multicolinealidad entre las variables independientes.

A continuacin se muestra el resultado obtenido:

RIESGO RIESGO EDAD PRESIN 1 0,556409799 0,357971052

EDAD 1 -0,32982212

PRESIN

1

Observando los resultados arrojados por el anlisis de coeficiente de correlacin, podemos concluir que NO existe problema potencial de multicolinealidad, ya que ninguna de las variables independientes presentan un coeficiente de correlacin mayor que + 0,70 o menor que -0,70 para dos variables independientes lo cual se considera el factor que determina que existe multicolinealidad entre variables (Todas las celdas que se encuentran en verde). Tambin se puede notar que la variable que ms aporta o que mayor poder explicatorio da a la variable dependiente Riesgo es la variable independiente Edad con una correlacin de 0,56.

ANLISIS DE REGRESIN. Como paso siguiente se har un anlisis de regresin a algunas de las variables representativas para determinara las caractersticas de los resultados y as poder obtener y determinar el modelo. Aplicando a las variables (Riesgo, Edad, presion tendremos el siguiente resultado:

Estadsticas de la regresin Coeficiente de correlacin mltiple Coeficiente de determinacin R^2 R^2 ajustado Error tpico Observaciones 0,799118022 0,638589613 0,596070744 0,197243634 20

ANLISIS DE VARIANZAGrados de libertad Regresin Residuos Total 2 17 19 Suma de cuadrados 1,16862758 0,661385869 1,830013449 Promedio de los cuadrados 0,58431379 0,038905051 Valor crtico de F 0,000174987

F 15,01896985

Analizando los resultados se tiene que: El coeficiente de determinacin R^2 indica que el 63,86% de los datos son representados, es decir, la bondad de ajuste es regular puesto que se pueden explicar el 63,86% de la suma de los cuadrados del total con la ecuacin de regresin que se obtiene. Del valor de F podemos concluir que con un nivel de significancia a = 5%, o de confianza del 95%, el valor crtico de F (valor p = 0,000174987) con F= 15,01890, indica que existe evidencia estadstica suficiente para afirmar que el modelo de regresin representa una relacin lineal significativa entre las variables independientes y la variable dependiente, pues el p-value asociado con la prueba F es menor que el alfa (alfa = 0,05).Coeficientes RIESGO EDAD PRESIN -10,21485768 3,88427401 2,022744644 Error tpico 2,114008469 0,792703301 0,514186241 Estadstico t Probabilidad

-4,83198522 0,000155966 4,900035111 0,000135141 3,933875474 0,001070106

La probabilidad equivale al p-value relacionado con la prueba t debe ser menor que el alfa (alfa = 5%) para que los datos sean propicios, lo que nos dice que al mirar cada una de las variables todas rechazan la hiptesis nula, es decir todas son significativas para el modelo.

CONCLUSIONES

Para la eleccin del modelo no solo se tuvo en cuenta el coeficiente de determinacin y el de correlacin, tambin se observo el nivel de significancia el cual debe ser pequeo para que garantice un mnimo valor de equivocacin. El modelo de regresin mas indicado para el anlisis de la muestra es el que tiene mayor coeficiente de correlacin mltiple y coeficiente de determinacin que para este estudio fue el caso de regresin lineal. Los modelos no son del todo representativos ya que el anlisis se realizo a una muestra de 20 personas y no a una poblacin. Fumar es nocivo para la salud, al ser el valor de mayor correlacin con el riesgo en el modelo de regresin lineal y no lineal (exponencial), pero como se dijo anteriormente para este ejercicio resulto un poco equivoco el resultado al dar una relacin inversa con el riesgo de poseer cncer de pulmn.

En cada uno de los modelos trabajados se hizo su correspondiente interpretacin.