Tema 2: Regresión por mínimos cuadrados: bondad del ajuste ... · Biologíasanitaria-UAH Tema2:...

13
Tema 2: Regresión por mínimos cuadrados: bondad del ajuste - II Biología sanitaria - UAH Marcos Marvá Ruiz Biología sanitaria - UAH Tema 2: Regresión por mínimos cuadrados: bondad del ajuste - II Marcos Marvá Ruiz 1 / 13

Transcript of Tema 2: Regresión por mínimos cuadrados: bondad del ajuste ... · Biologíasanitaria-UAH Tema2:...

Page 1: Tema 2: Regresión por mínimos cuadrados: bondad del ajuste ... · Biologíasanitaria-UAH Tema2: Regresiónpormínimoscuadrados: bondaddelajuste-II MarcosMarváRuiz 2/13. Rectaderegresión

Tema 2: Regresión por mínimos cuadrados: bondad del ajuste - II

Biología sanitaria - UAH

Marcos Marvá Ruiz

Biología sanitaria - UAH Tema 2: Regresión por mínimos cuadrados: bondad del ajuste - II Marcos Marvá Ruiz 1 / 13

Page 2: Tema 2: Regresión por mínimos cuadrados: bondad del ajuste ... · Biologíasanitaria-UAH Tema2: Regresiónpormínimoscuadrados: bondaddelajuste-II MarcosMarváRuiz 2/13. Rectaderegresión

La recta de regresiónLos pares de variables,

¿varían conjuntamente?¿hay relación entre ellas?

40 50 60 70

100

200

300

400

500

600

700 Framingham

Edad

Col

este

rol t

otal

15 20 25 30 35 40 4520

3040

50

Leptograpsus variegatus

Longitud caparazón

Anc

hura

cap

araz

ón

Medir grado de asociación o variabilidad conjunta

Biología sanitaria - UAH Tema 2: Regresión por mínimos cuadrados: bondad del ajuste - II Marcos Marvá Ruiz 2 / 13

Page 3: Tema 2: Regresión por mínimos cuadrados: bondad del ajuste ... · Biologíasanitaria-UAH Tema2: Regresiónpormínimoscuadrados: bondaddelajuste-II MarcosMarváRuiz 2/13. Rectaderegresión

Recta de regresión

15 20 25 30 35 40 45

2030

4050

Leptograpsus variegatus

Longitud caparazón

Anc

hura

cap

araz

ón

15 20 25 30 35 40 45

2030

4050

Leptograpsus variegatus, por especie

Longitud caparazón

Anc

hura

cap

araz

ón

Fuentes de variabilidadSeñal: asociación lineal.Ruido: Variabilidad individual, variables no consideradas

Disponemos de

Valores observados (xj , yj )Valores predichos yj

Biología sanitaria - UAH Tema 2: Regresión por mínimos cuadrados: bondad del ajuste - II Marcos Marvá Ruiz 3 / 13

Page 4: Tema 2: Regresión por mínimos cuadrados: bondad del ajuste ... · Biologíasanitaria-UAH Tema2: Regresiónpormínimoscuadrados: bondaddelajuste-II MarcosMarváRuiz 2/13. Rectaderegresión

ANOVA: variabilidad debida al azar (ruido)Cada individuo es diferente: para X fijo se observan distintos valores de Y .

Variabilidadazar = SSresiduos =∑

(observado − predicho)2 =∑

(yj − yj )2

¡Este es el EC!

Biología sanitaria - UAH Tema 2: Regresión por mínimos cuadrados: bondad del ajuste - II Marcos Marvá Ruiz 4 / 13

Page 5: Tema 2: Regresión por mínimos cuadrados: bondad del ajuste ... · Biologíasanitaria-UAH Tema2: Regresiónpormínimoscuadrados: bondaddelajuste-II MarcosMarváRuiz 2/13. Rectaderegresión

Variabilidad debida al modelo (señal)Si existe relación lineal entre dos variables

y(x) = b1x + b0

la recta traslada la variabilidad de X a la variable Y

Variabilidad en Y : diferencia entre la media de lo observado y cada ‘’predicción”:

Variabilidadmodelo = SSmodelo =∑

(yj − y)2

La variable X está presente a través de yBiología sanitaria - UAH Tema 2: Regresión por mínimos cuadrados: bondad del ajuste - II Marcos Marvá Ruiz 5 / 13

Page 6: Tema 2: Regresión por mínimos cuadrados: bondad del ajuste ... · Biologíasanitaria-UAH Tema2: Regresiónpormínimoscuadrados: bondaddelajuste-II MarcosMarváRuiz 2/13. Rectaderegresión

La identidad ANOVAReagrupando términos, se verifica la identidad Anova (Analysis of variance)

n∑i=1

(yi − yi )2︸ ︷︷ ︸Variabilidad azar

+n∑

i=1

(yi − y)2︸ ︷︷ ︸variabilidad modelo

=n∑

i=1

(yi − y)2︸ ︷︷ ︸Variabilidad total

PizarraSobre identidad ANOVA

Dispersión debida al azar = ECI El EC= 0 si los puntos están exáctamente alineadosI El EC aumenta conforme los puntos se “desalinean”

Biología sanitaria - UAH Tema 2: Regresión por mínimos cuadrados: bondad del ajuste - II Marcos Marvá Ruiz 6 / 13

Page 7: Tema 2: Regresión por mínimos cuadrados: bondad del ajuste ... · Biologíasanitaria-UAH Tema2: Regresiónpormínimoscuadrados: bondaddelajuste-II MarcosMarváRuiz 2/13. Rectaderegresión

Coeficientes de correlación r y determinación r2

¿Tiene más peso el azar o el modelo?

¡¡calcular sus pesos relativos respecto de la variabilidad total!!

1 = Variabilidad azarVariabilidad total + Variabilidad modelo

Variabilidad total ⇔ 1 = ECMs2(y) +

(cov(x,y)s(x)s(y)

)2

r = Cov(x , y)s(x) · s(y)

r 2I Es el coeficiente de determinaciónI Es la proporción de la variabilidad total explicada por el modelo

rI Es el coeficiente de correlación de Pearson

Se dice que dos variables están fuertemente correlacionadas si el correspondiente r ≈ 1

Biología sanitaria - UAH Tema 2: Regresión por mínimos cuadrados: bondad del ajuste - II Marcos Marvá Ruiz 7 / 13

Page 8: Tema 2: Regresión por mínimos cuadrados: bondad del ajuste ... · Biologíasanitaria-UAH Tema2: Regresiónpormínimoscuadrados: bondaddelajuste-II MarcosMarváRuiz 2/13. Rectaderegresión

Propiedades de los coeficientes de correlación r y determinación r2

−1 < r < 1Signo de r es el signo de la pendiente de la rectaPara r > 0, se tiene 0 < r 2 < r < 1

Si r 2 = 1, entonces EC = 0 y los valores observados están sobre la rectaSi r , r 2 ∼ 0⇒ seguro, mal ajuste (poco peso del modelo y mucho el azar)Si el ajuste es bueno, ⇒ r , r 2 ∼ 1PERO si r , r 2 ∼ 1, el ajuste podría ser malo (Cuarteto de Anscombe!)

Biología sanitaria - UAH Tema 2: Regresión por mínimos cuadrados: bondad del ajuste - II Marcos Marvá Ruiz 8 / 13

Page 9: Tema 2: Regresión por mínimos cuadrados: bondad del ajuste ... · Biologíasanitaria-UAH Tema2: Regresiónpormínimoscuadrados: bondaddelajuste-II MarcosMarváRuiz 2/13. Rectaderegresión

Un valor de ‘r‘ alto NO implica que la recta sea un buen modelo

0.0 0.4 0.8

2.5

3.5

4.5

r = 0.89−1.0 0.0 0.5 1.0

−1.

00.

00.

51.

0

r = 0.97−1.0 0.0 0.5 1.0

−3

−2

−1

01

2

r = 0.99

Por eso, siempre (siempre, siempre) hay que representar los datos!!!

Sólo el de la izquierda es un buen ajuste

Biología sanitaria - UAH Tema 2: Regresión por mínimos cuadrados: bondad del ajuste - II Marcos Marvá Ruiz 9 / 13

Page 10: Tema 2: Regresión por mínimos cuadrados: bondad del ajuste ... · Biologíasanitaria-UAH Tema2: Regresiónpormínimoscuadrados: bondaddelajuste-II MarcosMarváRuiz 2/13. Rectaderegresión

Estudio de residuosAsegurate de que no hay patrones subyacentes.

Ejemplo: residuos de los gráficos anteriores

0.0 0.4 0.8

−0.

50.

5

−1.0 0.0 0.5 1.0

−0.

60.

00.

4

−1.0 0.0 0.5 1.0

−0.

60.

00.

4

Biología sanitaria - UAH Tema 2: Regresión por mínimos cuadrados: bondad del ajuste - II Marcos Marvá Ruiz 10 / 13

Page 11: Tema 2: Regresión por mínimos cuadrados: bondad del ajuste ... · Biologíasanitaria-UAH Tema2: Regresiónpormínimoscuadrados: bondaddelajuste-II MarcosMarváRuiz 2/13. Rectaderegresión

Estudio de residuosEjemplo: otros residuos “sospechosos”

1.0 1.4 1.8

26

12

Datos

1.0 1.4 1.8

−2

4

Residuos

0.5 1.5 2.5

−1

13

Datos

0.5 1.5 2.5

−0.

40.

4

Residuos

−1.5 0.0 1.0 2.0

−1.

50.

0

Datos

−1.5 0.0 1.0 2.0

−0.

40.

4Residuos

Biología sanitaria - UAH Tema 2: Regresión por mínimos cuadrados: bondad del ajuste - II Marcos Marvá Ruiz 11 / 13

Page 12: Tema 2: Regresión por mínimos cuadrados: bondad del ajuste ... · Biologíasanitaria-UAH Tema2: Regresiónpormínimoscuadrados: bondaddelajuste-II MarcosMarváRuiz 2/13. Rectaderegresión

Correlación y causalidad

La correlación no implica causalidad

Para esta muestra (procedente de spurious-correlations):

se obtiene r = 0.9979 pero. . . ¿crees que hay relación causa-efecto? (ver tambiénInvestigación y Ciencia).

Biología sanitaria - UAH Tema 2: Regresión por mínimos cuadrados: bondad del ajuste - II Marcos Marvá Ruiz 12 / 13

Page 13: Tema 2: Regresión por mínimos cuadrados: bondad del ajuste ... · Biologíasanitaria-UAH Tema2: Regresiónpormínimoscuadrados: bondaddelajuste-II MarcosMarváRuiz 2/13. Rectaderegresión

Resumen

Para la relacion entre dos variables

Idea intuitiva de ruido y modeloSignificado de r 2

Qué dicen y qué no dicen r y r 2

Importancia de estudiar los residuosCorrelación no implica causa-efecto

Biología sanitaria - UAH Tema 2: Regresión por mínimos cuadrados: bondad del ajuste - II Marcos Marvá Ruiz 13 / 13