Javier Roca Pardiñas - Inicio · Multiple R-squared: 0.645, Adjusted R-squared: 0.639 F ... El...
Transcript of Javier Roca Pardiñas - Inicio · Multiple R-squared: 0.645, Adjusted R-squared: 0.639 F ... El...
Javier Roca Pardiñas Prof. Titular de Universidade Dpto. Estatística e I.O. Universidade de Vigo
30/10/2013
Modelos Lineales de Regresión
3
Índice
1. Planteamiento de modelo
– Caso práctico
2. Estimación y predicción
– Aspectos computacionales
3. Inferencia
– Intervalos de confianza
– Contrastes de hipótesis
4. Bondad de ajuste
– Comprobación de hipótesis
5. Caso multivariante
6. Resumen
7. Bibliografía
4
1. Planteamiento del modelo
5
Introducción
Una de las aplicaciones más importantes de la estadística consiste en establecer la relación entre
• un conjunto de covariables explicativas 𝑋1, … , 𝑋𝑝 , y
• el valor medio de la variable respuesta 𝑌.
Objetivos del estudio:
• estudiar el posible efecto de las covariables en la respuesta
• predecir el valor de la repuesta dados los valores de las covariables
• seleccionar las covariables que influyen en la respuesta
• etc.
6
Ejemplo: estudio de la tensión arterial
En un estudio se pretende conocer la influencia que tienen las covariables
• edad, y
• el sexo del paciente
en el comportamiento de
• la tensión arterial.
Para ello se dispone de una muestra de 69 pacientes a los que se le han registrado las variables en estudio.
Paciente Sexo Edad Tensión
1 mujer 17 114
2 mujer 19 124
3 mujer 20 116
…
… … …
68 hombre 18 134
69 hombre 19 128
Fuente: www.fisterra.com (Atención Primaria en la Red)
7 FEGAS
20 30 40 50 60 70
120
140
160
180
edad
tensio
n
El gráfico de dispersión permite intuir visualmente la posible relación entre
dos variables continuas.
8 FEGAS
20 30 40 50 60 70
120
140
160
180
edad
tensio
n
hombres
mujeres
9
Planteamiento del modelo
respuesta media error aleatorio
Los modelos de regresión establecen la siguiente relación
𝑌 = 𝑎0 + 𝑎1𝑋1 +⋯+ 𝑎𝑝𝑋𝑝 + 𝜀
𝑎0, 𝑎1, … , 𝑎𝑝 son los coeficientes del modelo
• 𝑎0 : término independiente
• 𝑎𝑗 : coeficiente asociado a la covariable 𝑋𝑗 (𝑗 = 1,… , 𝑝)
𝜀 representa la componente aleatoria del modelo (no se puede predecir). Es habitual suponer
𝜀~𝑁(0, 𝜎)
10
Interpretación de los coeficientes
FEGAS
Cada coeficiente 𝑎𝑗 representa el incremento medio de la respuesta al
aumentar una unidad el valor de la covariable 𝑋𝑗 .
• 𝑎𝑗 = 0: no existe relación
• 𝑎𝑗 > 0: relación directa. Valores altos de 𝑋𝑗 corresponden con valores
altos de la respuesta 𝑌
• 𝑎𝑗 < 0: relación inversa. Valores altos de 𝑋𝑗 corresponden con valores
bajos de 𝑌 El término independiente 𝑎0 no siempre tiene un interpretación :
• Coincide con el valor de 𝑌 cuando todas las covariables son nulas
11 FEGAS
Dado el modelo de regresión
tensión = 𝑎0 + 𝑎1edad + 𝜀
• 𝑎1: representa el incremento medio de tensión por año de edad.
• 𝑎0: no tiene interpretación
• representaría la tensión media para un paciente de cero años de edad.
• 𝜀: representa las perturbaciones debidas a otras variables no observadas.
• Por ejemplo, el consumo de tabaco, consumo de alcohol, hábitos alimenticios, hábitos deportivos,...
12
2. Estimación y predicción
13 FEGAS
Para la estimación de los coeficientes del modelo
𝑌 = 𝑎0 + 𝑎1𝑋1 +⋯+ 𝑎𝑝𝑋𝑝 + 𝜀
se utiliza el llamado método de mínimos cuadrados. Los coeficientes estimados se denotan por 𝑎 0, 𝑎 1… , 𝑎 𝑝 dando lugar a la recta
ajustada
𝑌 = 𝑎 0 + 𝑎 1𝑋1 +⋯+ 𝑎 𝑝𝑋𝑝
14
Aspectos Computacionales
15 FEGAS
La mayoría de los programas informáticos (Excel, SPSS, R, …) con alguna capacidad estadística permiten hacer el ajuste de los modelos de regresión. Dentro de estos programas nos centraremos en el programa llamado R :
• paquete estadístico que incluye herramientas de análisis de datos y generación de gráficos
• software libre y gratuito que funciona bajo Windows, MAC OS, Linux y Ubuntu.
Por todo ello R es una herramienta estadística muy adecuada ya que permite que los usuarios la descarguen, y utilicen de forma libre y gratuita, desde la página web
http://www.r-project.org
16
> modelo=lm(tension~edad)
> modelo
Call:
lm(formula = tension ~ edad)
Coefficients:
(Intercept) edad
103.3527 0.9836
FEGAS
Se obtiene que hay un incremento medio de tensión de 0.98 unidades por cada año de edad
17
Predicciones
FEGAS
La recta de regresión puede servir para hacer predicciones de la respuesta para nuevos valores de las covariables. El método es muy sencillo: • A partir de los datos observados se obtiene la recta ajustada
𝑌 = 𝑎 0 + 𝑎 1𝑋1 +⋯+ 𝑎 𝑝𝑋𝑝
• Entonces, dados los valore 𝒙0 = 𝑥01, … , 𝑥0𝑝 de las covariables, la predicción
para la respuesta viene dada por
𝑌 𝒙0 = 𝑎 0 + 𝑎 1𝑥01 +⋯+ 𝑎 𝑝𝑥0𝑝
18 FEGAS
edad tensión
20 123,0
30 132,9
40 142,7
50 152,5
60 162,4
70 172,2
En el estudio de tensión se había obtenido la recta ajustada
tensión =103.35 + 0.98 ∙ edad En la tabla de la derecha se muestran las predicciones de tensión media para distintos valores de edad.
19
3. Inferencia
Intervalos de confianza
Contrastes de hipótesis
20
Inferencia
FEGAS
Para poder obtener conclusiones significativas será necesario la utilización de métodos inferenciales (contrastes e intervalos). • Contraste de significación conjunta del modelo: F de Snedecor
𝐻0: 𝑎1 = ⋯ = 𝑎𝑝 = 0
• Contraste de significación individual de cada covariable: t de Student
𝐻0: 𝑎𝑗 = 0
21
> summary(modelo)
Call:
lm(formula = tensión ~ edad)
Residuals:
Min 1Q Median 3Q Max
-26.79 -7.02 1.96 8.19 22.63
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 103.3527 4.3261 23.9 <2e-16 ***
edad 0.9836 0.0892 11.0 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 11.1 on 67 degrees of freedom
Multiple R-squared: 0.645, Adjusted R-squared: 0.639
F-statistic: 122 on 1 and 67 DF, p-value: <2e-16
FEGAS
Significación individual
Significación conjunta
Los p-valores obtenidos son muy pequeños obteniéndose significación estadística
22 FEGAS
A continuación se muestran los intervalos de confianza (IC) al 95% de los
coeficientes del modelo.
Los intervalos obtenidos no contienen al cero, lo que concuerda con el hecho de que los p-valores obtenidos antes fuesen pequeños
> confint(modelo)
2.5 % 97.5 %
(Intercept) 94.718 111.99
edad 0.806 1.16
23
Intervalos para la respuesta
FEGAS
Como ya se ha comentado con anterioridad, dados los valores de las covariables
𝒙0 = 𝑥01, … , 𝑥0𝑝 , la predicción para la respuesta viene dada por
𝑌 𝒙0 = 𝑎 0 + 𝑎 1𝑥01 +⋯+ 𝑎 𝑝𝑥0𝑝
Sin embargo, para la construcción de intervalos de confianza (IC) se necesita
distinguir entre:
• IC para la respuesta media
• IC para un valor específico de la respuesta (intervalo de predicción)
Lógicamente, los IC en el segundo caso serán mucho más amplios.
24 FEGAS
edad tensión IC para valor medio IC de predicción
20 123.02 (117.66, 128.39) (100.24, 145.81)
30 132.86 (128.94, 136.78) (110.37, 155.35)
40 142.69 (139.81, 145.58) (120.36, 165.03)
50 152.53 (149.78, 155.28) (130.22, 174.85)
60 162.37 (158.73, 166.00) (139.93, 184.81)
70 172.20 (167.19, 177.22) (149.50, 194.91)
25 FEGAS
20 30 40 50 60 70
120
140
160
180
edad
tensión
valor mediopredicción
• La longitud de los intervalos aumentan a medida que la edad se distancia de su valor medio (46.1 años)
• La longitud de los intervalos es mucho mayor para el caso de la predicción que para el caso del valor medio.
26
3. Bondad de ajuste del modelo
Comprobación de hipótesis
27 FEGAS
El ajuste a los datos dada por la recta de regresión no estará completamente resuelto si no está acompañada de una medida de su bondad. La media más importante de la bondad de ajuste es el llamado coeficiente de determinación 𝑹𝟐.
𝑹𝟐=porcentaje de explicación de la respuesta a través del ajuste Interpretación: • 𝑹𝟐 toma valores entre 0 y 1 • 𝑹𝟐 próximo a 1: buen ajuste (los datos estarán próximos a la recta) • 𝑹𝟐 próximo a 0: mal ajuste
28 FEGAS
¿Cuándo de puede considerar bueno el valor de 𝑹𝟐 obtenido? La respuesta dependerá del área de aplicación: • En bilogía y ciencias sociales, es habitual que las variables tengan bastante ”ruido”
y las correlaciones no suelen ser muy altas. En estas áreas un valor 𝑅2=0.6 puede ser considerado bueno
• En cambio, en física e ingeniería, cuando los datos vienen de experimentos controlados se espera un valor de 𝑅2 mucho valor y un valor de 𝑅2=0.6 se considerará bajo.
29 FEGAS
De forma general, una regla razonable es decir que la relación es:
• débil: 0 < 𝑅2 <0.25
• moderada: 0.25 ≤ 𝑅2 <0.6
• fuerte: 𝑅2 ≥0.6
En nuestro estudio se obtiene un "buen" valor de 𝑅2=0.64.
• la edad explica el 64% de la variabilidad de la tensión.
30
Verificación de las hipótesis del modelo
FEGAS
Para que un estudio tenga validez será necesario comprobar las hipótesis del modelo:
• linealidad
• normalidad
• variabilidad constante (homocedasticidad)
• ausencia de valores alejados y/o influyentes
Las comprobaciones anteriores se harán mediante el estudio de los residuos del modelo
residuos=respuestas observadas-respuestas predichas
31 FEGAS
20 30 40 50 60 70
120
140
160
180
edad
tensión
residuos
32 FEGAS
El análisis de los residuos se hace gráficamente a través de un gráfico de dispersión • abscisas: respuestas estimadas • ordenadas: residuos Habrá un buen ajuste cuando la nube de puntos no muestre ningún tipo de estructura (hipótesis de linealidad). Además la amplitud de los errores se mantendrá aproximadamente constante (hipótesis de varianza constante).
120 130 140 150 160 170
-30
-20
-10
010
20
Fitted values
Resid
uals
lm(tension ~ edad)
Residuals vs Fitted
7
60
9
Hipótesis de linealidad y variabilidad constante
33
Observaciones atípicas
FEGAS
Gráficos de residuos estudentizados: • abscisas: respuestas estimadas • ordenadas: raíz cuadrada de los
residuos estudentizados En el gráfico se destaca la presencia de posibles valores atípicos
120 130 140 150 160 170
0.0
0.5
1.0
1.5
Fitted values
Sta
ndard
ized r
esid
uals
lm(tension ~ edad)
Scale-Location
7
609
34
Hipótesis de normalidad
FEGAS
-2 -1 0 1 2
-2-1
01
2
Theoretical Quantiles
Sta
ndard
ized r
esid
uals
lm(tension ~ edad)
Normal Q-Q
7
60
9
Para comprobar la normalidad se utilizaran los llamados QQ-plots.
• La hipótesis cumple cuando los puntos del gráfico están cercanos a la línea diagonal.
Además, es conveniente pasar algún test de normalidad a los residuos.
> shapiro.test(modelo$res)
Shapiro-Wilk normality test
data: modelo$res
W = 0.9726, p-value = 0.1339
El p-valor obtenido es elevado y se acepta la hipótesis de normalidad.
35
Observaciones influyentes
FEGAS
Una observación es influyente si al ser eliminada de la muestra se obtiene un modelo ajustado muy diferente al obtenido con la muestra completa. Uno de los criterios para detectar estos valores influyentes se basa en el calculo de la distancia de Cook. • Mide la diferencia de los coeficientes
obtenidos incluyendo dicha observación y sin incluirla.
• En general, un caso con una distancia de Cook superior a 1 debe ser revisado
0 10 20 30 40 50 60 70
0.0
00.0
20.0
40.0
60.0
8
Obs. number
Cook's
dis
tance
lm(tension ~ edad)
Cook's distance
7
24
60
36
5. Estudio multivariante
37
Estudio tensión arterial
FEGAS
Hasta ahora, en el estudio de la tensión se ha considerado únicamente como covariable la edad. Para estudiar de forma conjunta el efecto de la edad y del sexo del paciente se puede utilizar el modelo
tensión = 𝑎0 + 𝑎1edad + 𝑎2sexo + 𝜀 Variables dummy: Nótese la variable sexo es un factor con dos posibles valores: “hombre” y “mujer”. Esta variable es introducida en el modelo anterior utilizando la siguientes codificación:
𝑠𝑒𝑥𝑜∗ = 0 si hombre1 si mujer
Por lo tanto el coeficiente 𝑎2 representa el incremento de la tensión de las mujeres al considerar como referencia a los hombres.
38 FEGAS
Coeficientes significativos
> modelo=lm(tensión~edad+sexo)
> summary(modelo)
Call:
lm(formula = tensión ~ edad + sexo)
Residuals:
Min 1Q Median 3Q Max
-20.72 -3.33 1.25 4.34 21.16
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 110.2844 3.6271 30.41 < 2e-16 ***
edad 0.9566 0.0713 13.41 < 2e-16 ***
sexomujer -13.5363 2.1640 -6.26 3.3e-08 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 8.86 on 66 degrees of freedom
Multiple R-squared: 0.777, Adjusted R-squared: 0.77
F-statistic: 115 on 2 and 66 DF, p-value: <2e-16
39 FEGAS
Se ha obtenido el ajuste
tensión =110.28 + 0.96 ∙ edad − 17.86 ∙ sexo Conclusiones: • La edad es un factor de riesgo: la tensión aumenta 0.96 (0.81, 1.09) unidades por año de edad.
• Ser mujer es un factor protector: las mujeres tienen una tensión -13.53
(-17.86, -9.21) unidades más baja que la de los hombres.
40 FEGAS
edad hombres mujeres
20 129.4 (124.7, 134.2) 115.9 (111.0, 120.7)
30 139.0 (135.3, 142.7) 125.4 (121.5, 129.4)
40 148.5 (145.6, 151.5) 135.0 (131.7, 138.4)
50 158.1 (155.3, 160.9) 144.6 (141.2, 147.9)
60 167.7 (164.3, 171.0) 154.1 (150.2, 158.1)
70 177.2 (172.9, 181.6) 163.7 (158.9, 168.5)
En la tabla se muestra la tensión media (IC al 95%) ajustada por edad y sexo.
41 FEGAS
20 30 40 50 60 70
120
140
160
180
edad
tensión
hombres
mujeres
42
6. Resumen
43
Los modelos de regresión lineal sirven para establecer una relación lineal entre:
• Una variable respuesta de interés, y
• Un conjunto de covariables explicativas
Hipótesis del modelo:
• Linealidad
• Normalidad
• Variabilidad constante
• Ausencia de valores atípicos y/o influyentes
44
7. Bibliografía
45 FEGAS
• Seber GAF. Linear Regression Analysis. New York: John Wiley & Sons, 1977. • Julian J. Faraway. Practical Regression and Anova using R.
http://www.maths.bath.ac.uk/~jjf23/book/pra.pdf • Virasakdi Chongsuvivatwong. Analysis of Epidemiological Data Using R and Epicalc.
http://cran.r-project.org/doc/contrib/Epicalc_Book.pdf