Javier Roca Pardiñas - Inicio · Multiple R-squared: 0.645, Adjusted R-squared: 0.639 F ... El...

45
Javier Roca Pardiñas Prof. Titular de Universidade Dpto. Estatística e I.O. Universidade de Vigo 30/10/2013

Transcript of Javier Roca Pardiñas - Inicio · Multiple R-squared: 0.645, Adjusted R-squared: 0.639 F ... El...

Page 1: Javier Roca Pardiñas - Inicio · Multiple R-squared: 0.645, Adjusted R-squared: 0.639 F ... El ajuste a los datos dada por la recta de regresión no estará completamente resuelto

Javier Roca Pardiñas Prof. Titular de Universidade Dpto. Estatística e I.O. Universidade de Vigo

30/10/2013

Page 2: Javier Roca Pardiñas - Inicio · Multiple R-squared: 0.645, Adjusted R-squared: 0.639 F ... El ajuste a los datos dada por la recta de regresión no estará completamente resuelto

Modelos Lineales de Regresión

Page 3: Javier Roca Pardiñas - Inicio · Multiple R-squared: 0.645, Adjusted R-squared: 0.639 F ... El ajuste a los datos dada por la recta de regresión no estará completamente resuelto

3

Índice

1. Planteamiento de modelo

– Caso práctico

2. Estimación y predicción

– Aspectos computacionales

3. Inferencia

– Intervalos de confianza

– Contrastes de hipótesis

4. Bondad de ajuste

– Comprobación de hipótesis

5. Caso multivariante

6. Resumen

7. Bibliografía

Page 4: Javier Roca Pardiñas - Inicio · Multiple R-squared: 0.645, Adjusted R-squared: 0.639 F ... El ajuste a los datos dada por la recta de regresión no estará completamente resuelto

4

1. Planteamiento del modelo

Page 5: Javier Roca Pardiñas - Inicio · Multiple R-squared: 0.645, Adjusted R-squared: 0.639 F ... El ajuste a los datos dada por la recta de regresión no estará completamente resuelto

5

Introducción

Una de las aplicaciones más importantes de la estadística consiste en establecer la relación entre

• un conjunto de covariables explicativas 𝑋1, … , 𝑋𝑝 , y

• el valor medio de la variable respuesta 𝑌.

Objetivos del estudio:

• estudiar el posible efecto de las covariables en la respuesta

• predecir el valor de la repuesta dados los valores de las covariables

• seleccionar las covariables que influyen en la respuesta

• etc.

Page 6: Javier Roca Pardiñas - Inicio · Multiple R-squared: 0.645, Adjusted R-squared: 0.639 F ... El ajuste a los datos dada por la recta de regresión no estará completamente resuelto

6

Ejemplo: estudio de la tensión arterial

En un estudio se pretende conocer la influencia que tienen las covariables

• edad, y

• el sexo del paciente

en el comportamiento de

• la tensión arterial.

Para ello se dispone de una muestra de 69 pacientes a los que se le han registrado las variables en estudio.

Paciente Sexo Edad Tensión

1 mujer 17 114

2 mujer 19 124

3 mujer 20 116

… … …

68 hombre 18 134

69 hombre 19 128

Fuente: www.fisterra.com (Atención Primaria en la Red)

Page 7: Javier Roca Pardiñas - Inicio · Multiple R-squared: 0.645, Adjusted R-squared: 0.639 F ... El ajuste a los datos dada por la recta de regresión no estará completamente resuelto

7 FEGAS

20 30 40 50 60 70

120

140

160

180

edad

tensio

n

El gráfico de dispersión permite intuir visualmente la posible relación entre

dos variables continuas.

Page 8: Javier Roca Pardiñas - Inicio · Multiple R-squared: 0.645, Adjusted R-squared: 0.639 F ... El ajuste a los datos dada por la recta de regresión no estará completamente resuelto

8 FEGAS

20 30 40 50 60 70

120

140

160

180

edad

tensio

n

hombres

mujeres

Page 9: Javier Roca Pardiñas - Inicio · Multiple R-squared: 0.645, Adjusted R-squared: 0.639 F ... El ajuste a los datos dada por la recta de regresión no estará completamente resuelto

9

Planteamiento del modelo

respuesta media error aleatorio

Los modelos de regresión establecen la siguiente relación

𝑌 = 𝑎0 + 𝑎1𝑋1 +⋯+ 𝑎𝑝𝑋𝑝 + 𝜀

𝑎0, 𝑎1, … , 𝑎𝑝 son los coeficientes del modelo

• 𝑎0 : término independiente

• 𝑎𝑗 : coeficiente asociado a la covariable 𝑋𝑗 (𝑗 = 1,… , 𝑝)

𝜀 representa la componente aleatoria del modelo (no se puede predecir). Es habitual suponer

𝜀~𝑁(0, 𝜎)

Page 10: Javier Roca Pardiñas - Inicio · Multiple R-squared: 0.645, Adjusted R-squared: 0.639 F ... El ajuste a los datos dada por la recta de regresión no estará completamente resuelto

10

Interpretación de los coeficientes

FEGAS

Cada coeficiente 𝑎𝑗 representa el incremento medio de la respuesta al

aumentar una unidad el valor de la covariable 𝑋𝑗 .

• 𝑎𝑗 = 0: no existe relación

• 𝑎𝑗 > 0: relación directa. Valores altos de 𝑋𝑗 corresponden con valores

altos de la respuesta 𝑌

• 𝑎𝑗 < 0: relación inversa. Valores altos de 𝑋𝑗 corresponden con valores

bajos de 𝑌 El término independiente 𝑎0 no siempre tiene un interpretación :

• Coincide con el valor de 𝑌 cuando todas las covariables son nulas

Page 11: Javier Roca Pardiñas - Inicio · Multiple R-squared: 0.645, Adjusted R-squared: 0.639 F ... El ajuste a los datos dada por la recta de regresión no estará completamente resuelto

11 FEGAS

Dado el modelo de regresión

tensión = 𝑎0 + 𝑎1edad + 𝜀

• 𝑎1: representa el incremento medio de tensión por año de edad.

• 𝑎0: no tiene interpretación

• representaría la tensión media para un paciente de cero años de edad.

• 𝜀: representa las perturbaciones debidas a otras variables no observadas.

• Por ejemplo, el consumo de tabaco, consumo de alcohol, hábitos alimenticios, hábitos deportivos,...

Page 12: Javier Roca Pardiñas - Inicio · Multiple R-squared: 0.645, Adjusted R-squared: 0.639 F ... El ajuste a los datos dada por la recta de regresión no estará completamente resuelto

12

2. Estimación y predicción

Page 13: Javier Roca Pardiñas - Inicio · Multiple R-squared: 0.645, Adjusted R-squared: 0.639 F ... El ajuste a los datos dada por la recta de regresión no estará completamente resuelto

13 FEGAS

Para la estimación de los coeficientes del modelo

𝑌 = 𝑎0 + 𝑎1𝑋1 +⋯+ 𝑎𝑝𝑋𝑝 + 𝜀

se utiliza el llamado método de mínimos cuadrados. Los coeficientes estimados se denotan por 𝑎 0, 𝑎 1… , 𝑎 𝑝 dando lugar a la recta

ajustada

𝑌 = 𝑎 0 + 𝑎 1𝑋1 +⋯+ 𝑎 𝑝𝑋𝑝

Page 14: Javier Roca Pardiñas - Inicio · Multiple R-squared: 0.645, Adjusted R-squared: 0.639 F ... El ajuste a los datos dada por la recta de regresión no estará completamente resuelto

14

Aspectos Computacionales

Page 15: Javier Roca Pardiñas - Inicio · Multiple R-squared: 0.645, Adjusted R-squared: 0.639 F ... El ajuste a los datos dada por la recta de regresión no estará completamente resuelto

15 FEGAS

La mayoría de los programas informáticos (Excel, SPSS, R, …) con alguna capacidad estadística permiten hacer el ajuste de los modelos de regresión. Dentro de estos programas nos centraremos en el programa llamado R :

• paquete estadístico que incluye herramientas de análisis de datos y generación de gráficos

• software libre y gratuito que funciona bajo Windows, MAC OS, Linux y Ubuntu.

Por todo ello R es una herramienta estadística muy adecuada ya que permite que los usuarios la descarguen, y utilicen de forma libre y gratuita, desde la página web

http://www.r-project.org

Page 16: Javier Roca Pardiñas - Inicio · Multiple R-squared: 0.645, Adjusted R-squared: 0.639 F ... El ajuste a los datos dada por la recta de regresión no estará completamente resuelto

16

> modelo=lm(tension~edad)

> modelo

Call:

lm(formula = tension ~ edad)

Coefficients:

(Intercept) edad

103.3527 0.9836

FEGAS

Se obtiene que hay un incremento medio de tensión de 0.98 unidades por cada año de edad

Page 17: Javier Roca Pardiñas - Inicio · Multiple R-squared: 0.645, Adjusted R-squared: 0.639 F ... El ajuste a los datos dada por la recta de regresión no estará completamente resuelto

17

Predicciones

FEGAS

La recta de regresión puede servir para hacer predicciones de la respuesta para nuevos valores de las covariables. El método es muy sencillo: • A partir de los datos observados se obtiene la recta ajustada

𝑌 = 𝑎 0 + 𝑎 1𝑋1 +⋯+ 𝑎 𝑝𝑋𝑝

• Entonces, dados los valore 𝒙0 = 𝑥01, … , 𝑥0𝑝 de las covariables, la predicción

para la respuesta viene dada por

𝑌 𝒙0 = 𝑎 0 + 𝑎 1𝑥01 +⋯+ 𝑎 𝑝𝑥0𝑝

Page 18: Javier Roca Pardiñas - Inicio · Multiple R-squared: 0.645, Adjusted R-squared: 0.639 F ... El ajuste a los datos dada por la recta de regresión no estará completamente resuelto

18 FEGAS

edad tensión

20 123,0

30 132,9

40 142,7

50 152,5

60 162,4

70 172,2

En el estudio de tensión se había obtenido la recta ajustada

tensión =103.35 + 0.98 ∙ edad En la tabla de la derecha se muestran las predicciones de tensión media para distintos valores de edad.

Page 19: Javier Roca Pardiñas - Inicio · Multiple R-squared: 0.645, Adjusted R-squared: 0.639 F ... El ajuste a los datos dada por la recta de regresión no estará completamente resuelto

19

3. Inferencia

Intervalos de confianza

Contrastes de hipótesis

Page 20: Javier Roca Pardiñas - Inicio · Multiple R-squared: 0.645, Adjusted R-squared: 0.639 F ... El ajuste a los datos dada por la recta de regresión no estará completamente resuelto

20

Inferencia

FEGAS

Para poder obtener conclusiones significativas será necesario la utilización de métodos inferenciales (contrastes e intervalos). • Contraste de significación conjunta del modelo: F de Snedecor

𝐻0: 𝑎1 = ⋯ = 𝑎𝑝 = 0

• Contraste de significación individual de cada covariable: t de Student

𝐻0: 𝑎𝑗 = 0

Page 21: Javier Roca Pardiñas - Inicio · Multiple R-squared: 0.645, Adjusted R-squared: 0.639 F ... El ajuste a los datos dada por la recta de regresión no estará completamente resuelto

21

> summary(modelo)

Call:

lm(formula = tensión ~ edad)

Residuals:

Min 1Q Median 3Q Max

-26.79 -7.02 1.96 8.19 22.63

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 103.3527 4.3261 23.9 <2e-16 ***

edad 0.9836 0.0892 11.0 <2e-16 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 11.1 on 67 degrees of freedom

Multiple R-squared: 0.645, Adjusted R-squared: 0.639

F-statistic: 122 on 1 and 67 DF, p-value: <2e-16

FEGAS

Significación individual

Significación conjunta

Los p-valores obtenidos son muy pequeños obteniéndose significación estadística

Page 22: Javier Roca Pardiñas - Inicio · Multiple R-squared: 0.645, Adjusted R-squared: 0.639 F ... El ajuste a los datos dada por la recta de regresión no estará completamente resuelto

22 FEGAS

A continuación se muestran los intervalos de confianza (IC) al 95% de los

coeficientes del modelo.

Los intervalos obtenidos no contienen al cero, lo que concuerda con el hecho de que los p-valores obtenidos antes fuesen pequeños

> confint(modelo)

2.5 % 97.5 %

(Intercept) 94.718 111.99

edad 0.806 1.16

Page 23: Javier Roca Pardiñas - Inicio · Multiple R-squared: 0.645, Adjusted R-squared: 0.639 F ... El ajuste a los datos dada por la recta de regresión no estará completamente resuelto

23

Intervalos para la respuesta

FEGAS

Como ya se ha comentado con anterioridad, dados los valores de las covariables

𝒙0 = 𝑥01, … , 𝑥0𝑝 , la predicción para la respuesta viene dada por

𝑌 𝒙0 = 𝑎 0 + 𝑎 1𝑥01 +⋯+ 𝑎 𝑝𝑥0𝑝

Sin embargo, para la construcción de intervalos de confianza (IC) se necesita

distinguir entre:

• IC para la respuesta media

• IC para un valor específico de la respuesta (intervalo de predicción)

Lógicamente, los IC en el segundo caso serán mucho más amplios.

Page 24: Javier Roca Pardiñas - Inicio · Multiple R-squared: 0.645, Adjusted R-squared: 0.639 F ... El ajuste a los datos dada por la recta de regresión no estará completamente resuelto

24 FEGAS

edad tensión IC para valor medio IC de predicción

20 123.02 (117.66, 128.39) (100.24, 145.81)

30 132.86 (128.94, 136.78) (110.37, 155.35)

40 142.69 (139.81, 145.58) (120.36, 165.03)

50 152.53 (149.78, 155.28) (130.22, 174.85)

60 162.37 (158.73, 166.00) (139.93, 184.81)

70 172.20 (167.19, 177.22) (149.50, 194.91)

Page 25: Javier Roca Pardiñas - Inicio · Multiple R-squared: 0.645, Adjusted R-squared: 0.639 F ... El ajuste a los datos dada por la recta de regresión no estará completamente resuelto

25 FEGAS

20 30 40 50 60 70

120

140

160

180

edad

tensión

valor mediopredicción

• La longitud de los intervalos aumentan a medida que la edad se distancia de su valor medio (46.1 años)

• La longitud de los intervalos es mucho mayor para el caso de la predicción que para el caso del valor medio.

Page 26: Javier Roca Pardiñas - Inicio · Multiple R-squared: 0.645, Adjusted R-squared: 0.639 F ... El ajuste a los datos dada por la recta de regresión no estará completamente resuelto

26

3. Bondad de ajuste del modelo

Comprobación de hipótesis

Page 27: Javier Roca Pardiñas - Inicio · Multiple R-squared: 0.645, Adjusted R-squared: 0.639 F ... El ajuste a los datos dada por la recta de regresión no estará completamente resuelto

27 FEGAS

El ajuste a los datos dada por la recta de regresión no estará completamente resuelto si no está acompañada de una medida de su bondad. La media más importante de la bondad de ajuste es el llamado coeficiente de determinación 𝑹𝟐.

𝑹𝟐=porcentaje de explicación de la respuesta a través del ajuste Interpretación: • 𝑹𝟐 toma valores entre 0 y 1 • 𝑹𝟐 próximo a 1: buen ajuste (los datos estarán próximos a la recta) • 𝑹𝟐 próximo a 0: mal ajuste

Page 28: Javier Roca Pardiñas - Inicio · Multiple R-squared: 0.645, Adjusted R-squared: 0.639 F ... El ajuste a los datos dada por la recta de regresión no estará completamente resuelto

28 FEGAS

¿Cuándo de puede considerar bueno el valor de 𝑹𝟐 obtenido? La respuesta dependerá del área de aplicación: • En bilogía y ciencias sociales, es habitual que las variables tengan bastante ”ruido”

y las correlaciones no suelen ser muy altas. En estas áreas un valor 𝑅2=0.6 puede ser considerado bueno

• En cambio, en física e ingeniería, cuando los datos vienen de experimentos controlados se espera un valor de 𝑅2 mucho valor y un valor de 𝑅2=0.6 se considerará bajo.

Page 29: Javier Roca Pardiñas - Inicio · Multiple R-squared: 0.645, Adjusted R-squared: 0.639 F ... El ajuste a los datos dada por la recta de regresión no estará completamente resuelto

29 FEGAS

De forma general, una regla razonable es decir que la relación es:

• débil: 0 < 𝑅2 <0.25

• moderada: 0.25 ≤ 𝑅2 <0.6

• fuerte: 𝑅2 ≥0.6

En nuestro estudio se obtiene un "buen" valor de 𝑅2=0.64.

• la edad explica el 64% de la variabilidad de la tensión.

Page 30: Javier Roca Pardiñas - Inicio · Multiple R-squared: 0.645, Adjusted R-squared: 0.639 F ... El ajuste a los datos dada por la recta de regresión no estará completamente resuelto

30

Verificación de las hipótesis del modelo

FEGAS

Para que un estudio tenga validez será necesario comprobar las hipótesis del modelo:

• linealidad

• normalidad

• variabilidad constante (homocedasticidad)

• ausencia de valores alejados y/o influyentes

Las comprobaciones anteriores se harán mediante el estudio de los residuos del modelo

residuos=respuestas observadas-respuestas predichas

Page 31: Javier Roca Pardiñas - Inicio · Multiple R-squared: 0.645, Adjusted R-squared: 0.639 F ... El ajuste a los datos dada por la recta de regresión no estará completamente resuelto

31 FEGAS

20 30 40 50 60 70

120

140

160

180

edad

tensión

residuos

Page 32: Javier Roca Pardiñas - Inicio · Multiple R-squared: 0.645, Adjusted R-squared: 0.639 F ... El ajuste a los datos dada por la recta de regresión no estará completamente resuelto

32 FEGAS

El análisis de los residuos se hace gráficamente a través de un gráfico de dispersión • abscisas: respuestas estimadas • ordenadas: residuos Habrá un buen ajuste cuando la nube de puntos no muestre ningún tipo de estructura (hipótesis de linealidad). Además la amplitud de los errores se mantendrá aproximadamente constante (hipótesis de varianza constante).

120 130 140 150 160 170

-30

-20

-10

010

20

Fitted values

Resid

uals

lm(tension ~ edad)

Residuals vs Fitted

7

60

9

Hipótesis de linealidad y variabilidad constante

Page 33: Javier Roca Pardiñas - Inicio · Multiple R-squared: 0.645, Adjusted R-squared: 0.639 F ... El ajuste a los datos dada por la recta de regresión no estará completamente resuelto

33

Observaciones atípicas

FEGAS

Gráficos de residuos estudentizados: • abscisas: respuestas estimadas • ordenadas: raíz cuadrada de los

residuos estudentizados En el gráfico se destaca la presencia de posibles valores atípicos

120 130 140 150 160 170

0.0

0.5

1.0

1.5

Fitted values

Sta

ndard

ized r

esid

uals

lm(tension ~ edad)

Scale-Location

7

609

Page 34: Javier Roca Pardiñas - Inicio · Multiple R-squared: 0.645, Adjusted R-squared: 0.639 F ... El ajuste a los datos dada por la recta de regresión no estará completamente resuelto

34

Hipótesis de normalidad

FEGAS

-2 -1 0 1 2

-2-1

01

2

Theoretical Quantiles

Sta

ndard

ized r

esid

uals

lm(tension ~ edad)

Normal Q-Q

7

60

9

Para comprobar la normalidad se utilizaran los llamados QQ-plots.

• La hipótesis cumple cuando los puntos del gráfico están cercanos a la línea diagonal.

Además, es conveniente pasar algún test de normalidad a los residuos.

> shapiro.test(modelo$res)

Shapiro-Wilk normality test

data: modelo$res

W = 0.9726, p-value = 0.1339

El p-valor obtenido es elevado y se acepta la hipótesis de normalidad.

Page 35: Javier Roca Pardiñas - Inicio · Multiple R-squared: 0.645, Adjusted R-squared: 0.639 F ... El ajuste a los datos dada por la recta de regresión no estará completamente resuelto

35

Observaciones influyentes

FEGAS

Una observación es influyente si al ser eliminada de la muestra se obtiene un modelo ajustado muy diferente al obtenido con la muestra completa. Uno de los criterios para detectar estos valores influyentes se basa en el calculo de la distancia de Cook. • Mide la diferencia de los coeficientes

obtenidos incluyendo dicha observación y sin incluirla.

• En general, un caso con una distancia de Cook superior a 1 debe ser revisado

0 10 20 30 40 50 60 70

0.0

00.0

20.0

40.0

60.0

8

Obs. number

Cook's

dis

tance

lm(tension ~ edad)

Cook's distance

7

24

60

Page 36: Javier Roca Pardiñas - Inicio · Multiple R-squared: 0.645, Adjusted R-squared: 0.639 F ... El ajuste a los datos dada por la recta de regresión no estará completamente resuelto

36

5. Estudio multivariante

Page 37: Javier Roca Pardiñas - Inicio · Multiple R-squared: 0.645, Adjusted R-squared: 0.639 F ... El ajuste a los datos dada por la recta de regresión no estará completamente resuelto

37

Estudio tensión arterial

FEGAS

Hasta ahora, en el estudio de la tensión se ha considerado únicamente como covariable la edad. Para estudiar de forma conjunta el efecto de la edad y del sexo del paciente se puede utilizar el modelo

tensión = 𝑎0 + 𝑎1edad + 𝑎2sexo + 𝜀 Variables dummy: Nótese la variable sexo es un factor con dos posibles valores: “hombre” y “mujer”. Esta variable es introducida en el modelo anterior utilizando la siguientes codificación:

𝑠𝑒𝑥𝑜∗ = 0 si hombre1 si mujer

Por lo tanto el coeficiente 𝑎2 representa el incremento de la tensión de las mujeres al considerar como referencia a los hombres.

Page 38: Javier Roca Pardiñas - Inicio · Multiple R-squared: 0.645, Adjusted R-squared: 0.639 F ... El ajuste a los datos dada por la recta de regresión no estará completamente resuelto

38 FEGAS

Coeficientes significativos

> modelo=lm(tensión~edad+sexo)

> summary(modelo)

Call:

lm(formula = tensión ~ edad + sexo)

Residuals:

Min 1Q Median 3Q Max

-20.72 -3.33 1.25 4.34 21.16

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 110.2844 3.6271 30.41 < 2e-16 ***

edad 0.9566 0.0713 13.41 < 2e-16 ***

sexomujer -13.5363 2.1640 -6.26 3.3e-08 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 8.86 on 66 degrees of freedom

Multiple R-squared: 0.777, Adjusted R-squared: 0.77

F-statistic: 115 on 2 and 66 DF, p-value: <2e-16

Page 39: Javier Roca Pardiñas - Inicio · Multiple R-squared: 0.645, Adjusted R-squared: 0.639 F ... El ajuste a los datos dada por la recta de regresión no estará completamente resuelto

39 FEGAS

Se ha obtenido el ajuste

tensión =110.28 + 0.96 ∙ edad − 17.86 ∙ sexo Conclusiones: • La edad es un factor de riesgo: la tensión aumenta 0.96 (0.81, 1.09) unidades por año de edad.

• Ser mujer es un factor protector: las mujeres tienen una tensión -13.53

(-17.86, -9.21) unidades más baja que la de los hombres.

Page 40: Javier Roca Pardiñas - Inicio · Multiple R-squared: 0.645, Adjusted R-squared: 0.639 F ... El ajuste a los datos dada por la recta de regresión no estará completamente resuelto

40 FEGAS

edad hombres mujeres

20 129.4 (124.7, 134.2) 115.9 (111.0, 120.7)

30 139.0 (135.3, 142.7) 125.4 (121.5, 129.4)

40 148.5 (145.6, 151.5) 135.0 (131.7, 138.4)

50 158.1 (155.3, 160.9) 144.6 (141.2, 147.9)

60 167.7 (164.3, 171.0) 154.1 (150.2, 158.1)

70 177.2 (172.9, 181.6) 163.7 (158.9, 168.5)

En la tabla se muestra la tensión media (IC al 95%) ajustada por edad y sexo.

Page 41: Javier Roca Pardiñas - Inicio · Multiple R-squared: 0.645, Adjusted R-squared: 0.639 F ... El ajuste a los datos dada por la recta de regresión no estará completamente resuelto

41 FEGAS

20 30 40 50 60 70

120

140

160

180

edad

tensión

hombres

mujeres

Page 42: Javier Roca Pardiñas - Inicio · Multiple R-squared: 0.645, Adjusted R-squared: 0.639 F ... El ajuste a los datos dada por la recta de regresión no estará completamente resuelto

42

6. Resumen

Page 43: Javier Roca Pardiñas - Inicio · Multiple R-squared: 0.645, Adjusted R-squared: 0.639 F ... El ajuste a los datos dada por la recta de regresión no estará completamente resuelto

43

Los modelos de regresión lineal sirven para establecer una relación lineal entre:

• Una variable respuesta de interés, y

• Un conjunto de covariables explicativas

Hipótesis del modelo:

• Linealidad

• Normalidad

• Variabilidad constante

• Ausencia de valores atípicos y/o influyentes

Page 44: Javier Roca Pardiñas - Inicio · Multiple R-squared: 0.645, Adjusted R-squared: 0.639 F ... El ajuste a los datos dada por la recta de regresión no estará completamente resuelto

44

7. Bibliografía

Page 45: Javier Roca Pardiñas - Inicio · Multiple R-squared: 0.645, Adjusted R-squared: 0.639 F ... El ajuste a los datos dada por la recta de regresión no estará completamente resuelto

45 FEGAS

• Seber GAF. Linear Regression Analysis. New York: John Wiley & Sons, 1977. • Julian J. Faraway. Practical Regression and Anova using R.

http://www.maths.bath.ac.uk/~jjf23/book/pra.pdf • Virasakdi Chongsuvivatwong. Analysis of Epidemiological Data Using R and Epicalc.

http://cran.r-project.org/doc/contrib/Epicalc_Book.pdf