Tema 2: La recta de regresión por mínimos cuadrados - I · 2019-09-16 · La recta de regresión...

14
Tema 2: La recta de regresión por mínimos cuadrados - I Biología sanitaria - UAH Marcos Marvá Ruiz Biología sanitaria - UAH Tema 2: La recta de regresión por mínimos cuadrados - I Marcos Marvá Ruiz 1/1

Transcript of Tema 2: La recta de regresión por mínimos cuadrados - I · 2019-09-16 · La recta de regresión...

Page 1: Tema 2: La recta de regresión por mínimos cuadrados - I · 2019-09-16 · La recta de regresión Ideas buscarunarecta y(x) = b 0 + b 1 · x que‘’mejordescriba”lanubedepuntos

Tema 2: La recta de regresión por mínimos cuadrados - I

Biología sanitaria - UAH

Marcos Marvá Ruiz

Biología sanitaria - UAH Tema 2: La recta de regresión por mínimos cuadrados - I Marcos Marvá Ruiz 1 / 1

Page 2: Tema 2: La recta de regresión por mínimos cuadrados - I · 2019-09-16 · La recta de regresión Ideas buscarunarecta y(x) = b 0 + b 1 · x que‘’mejordescriba”lanubedepuntos

La recta de regresiónConsideramos dos variables cuantitativas medidas sobre los mismos individuos

X Yx1 y1x2 y2x3 y3· · · · · ·xn yn

Queremos relacionar dos variables cuantitativas:1 Variable explicativa (independiente)2 Variable respuesta (dependiente)

Construir modelo ideal del tipo y = f (x)

Biología sanitaria - UAH Tema 2: La recta de regresión por mínimos cuadrados - I Marcos Marvá Ruiz 2 / 1

Page 3: Tema 2: La recta de regresión por mínimos cuadrados - I · 2019-09-16 · La recta de regresión Ideas buscarunarecta y(x) = b 0 + b 1 · x que‘’mejordescriba”lanubedepuntos

La recta de regresiónConocemos relaciones funcionales

−1.0 −0.5 0.0 0.5 1.0

−1.

0−

0.5

0.0

0.5

−1.0 −0.5 0.0 0.5 1.0

−0.

20.

20.

4

−1.0 −0.5 0.0 0.5 1.0

−1.

0−

0.5

0.0

0.5

−1.0 −0.5 0.0 0.5 1.0

02

46

Biología sanitaria - UAH Tema 2: La recta de regresión por mínimos cuadrados - I Marcos Marvá Ruiz 3 / 1

Page 4: Tema 2: La recta de regresión por mínimos cuadrados - I · 2019-09-16 · La recta de regresión Ideas buscarunarecta y(x) = b 0 + b 1 · x que‘’mejordescriba”lanubedepuntos

La recta de regresiónObserva las siguientes nubes de puntos: ¿hay relación entre cada par de variables?

40 50 60 70

100

200

300

400

500

600

700

Framingham

Edad

Col

este

rol t

otal

15 20 25 30 35 40 45

2030

4050

Leptograpsus variegatus

Longitud caparazón

Anc

hura

cap

araz

ón

10 20 30 40 50

010

0020

0030

0040

00

Hayas, parcela Navarra

Diámetro medio

Pie

s/H

a

Fuentes de ruido: variabilidad individual, variables no consideradas

Las relaciones y = f (x): son unívocas pero obvian el ruido

Biología sanitaria - UAH Tema 2: La recta de regresión por mínimos cuadrados - I Marcos Marvá Ruiz 4 / 1

Page 5: Tema 2: La recta de regresión por mínimos cuadrados - I · 2019-09-16 · La recta de regresión Ideas buscarunarecta y(x) = b 0 + b 1 · x que‘’mejordescriba”lanubedepuntos

Número de “cricks” que hace un grillo y la temperatura ambiente

Big bang theory

Biología sanitaria - UAH Tema 2: La recta de regresión por mínimos cuadrados - I Marcos Marvá Ruiz 5 / 1

Page 6: Tema 2: La recta de regresión por mínimos cuadrados - I · 2019-09-16 · La recta de regresión Ideas buscarunarecta y(x) = b 0 + b 1 · x que‘’mejordescriba”lanubedepuntos

En la realidad hay señal + ruidoNo todos los individios responden igual a un estímuloVariables no consideradas

<!– Las relaciones y = f (x) son unívocas pero obvian el ruido –>

0.0 0.4 0.8

2.5

3.5

4.5

0.0 0.4 0.8

0.00

0.15

0.0 0.4 0.8

−4

02

4

Izq. y centro: mucha señal y poco ruido. Dcha: poca señal y mucho ruido.

Empezaremos con rectas

Biología sanitaria - UAH Tema 2: La recta de regresión por mínimos cuadrados - I Marcos Marvá Ruiz 6 / 1

Page 7: Tema 2: La recta de regresión por mínimos cuadrados - I · 2019-09-16 · La recta de regresión Ideas buscarunarecta y(x) = b 0 + b 1 · x que‘’mejordescriba”lanubedepuntos

La recta de regresiónIdeas buscar una recta

y(x) = b0 + b1 · x

que ‘’mejor describa” la nube de puntos

Hay que comprender:1 Cómo elegir la "mejor" recta2 En qué sentido es la mejor3 Que, a veces, la mejor recta sigue siendo muy mala

Sección 10.2 del libro

Biología sanitaria - UAH Tema 2: La recta de regresión por mínimos cuadrados - I Marcos Marvá Ruiz 7 / 1

Page 8: Tema 2: La recta de regresión por mínimos cuadrados - I · 2019-09-16 · La recta de regresión Ideas buscarunarecta y(x) = b 0 + b 1 · x que‘’mejordescriba”lanubedepuntos

La recta de regresiónEn rojo: valores observados En verde: valores predichos

Residuo = observado - predicho

Buscar b0 y b1 que minimizan la media de los residuos (errores) al cuadrado

Interpretación geométrica del EC fichero GeoGebra

Biología sanitaria - UAH Tema 2: La recta de regresión por mínimos cuadrados - I Marcos Marvá Ruiz 8 / 1

Page 9: Tema 2: La recta de regresión por mínimos cuadrados - I · 2019-09-16 · La recta de regresión Ideas buscarunarecta y(x) = b 0 + b 1 · x que‘’mejordescriba”lanubedepuntos

La recta de regresiónComparar los valores observados para la variable respuesta

y1, y2, · · · , yn

con los valores predichos por la recta

y1, y2, · · · , yn

Objetivo: minimizar error cuadrático asociado a la recta y = b0 + b1x

EC =n∑

i=1

(yi − yi )2 =n∑

i=1

(yi − b0 − b1 · xi )2

Recuerda:

xi , yi , yi son números concretos

Cada elección de b0 y b1 produce residuos diferentes

El error cuadrático medio ECM muestral es:

ECM = ECn − 1

Biología sanitaria - UAH Tema 2: La recta de regresión por mínimos cuadrados - I Marcos Marvá Ruiz 9 / 1

Page 10: Tema 2: La recta de regresión por mínimos cuadrados - I · 2019-09-16 · La recta de regresión Ideas buscarunarecta y(x) = b 0 + b 1 · x que‘’mejordescriba”lanubedepuntos

Recta de regresión (o de mínimos cuadrados). Covarianza.

Dado el conjunto de puntos (x1, y1), (x2, y2), (x3, y3), . . . , (xn, yn), Los val-ores que minimizan el ECM son

b1 = Cov(x , y)s2

x, b0 = y − Cov(x , y)

s2x

· x .

donde

Cov(x , y) =

n∑i=1

(xi − x)(yi − y)

n − 1es la covarianza muestral. Al sustituir en y = b0 + b1x se tiene la rectade regresión o de mínimos cuadrados que, al reordenar términos, estádada por

(y − y) = Cov(x , y)s2

x· (x − x),

La recta de regresión pasa por el punto (x , y)

Biología sanitaria - UAH Tema 2: La recta de regresión por mínimos cuadrados - I Marcos Marvá Ruiz 10 / 1

Page 11: Tema 2: La recta de regresión por mínimos cuadrados - I · 2019-09-16 · La recta de regresión Ideas buscarunarecta y(x) = b 0 + b 1 · x que‘’mejordescriba”lanubedepuntos

Ejemplo: medidas des carazón de ciertos cangrejos

Longitud (mm) 81 97 103 123 150 182 195Anchura (mm) 54.5 59.5 63.5 67.5 72.0 78.5 83.0

80 100 120 140 160 180

5560

6570

7580

Longitud

Anc

hura

Biología sanitaria - UAH Tema 2: La recta de regresión por mínimos cuadrados - I Marcos Marvá Ruiz 11 / 1

Page 12: Tema 2: La recta de regresión por mínimos cuadrados - I · 2019-09-16 · La recta de regresión Ideas buscarunarecta y(x) = b 0 + b 1 · x que‘’mejordescriba”lanubedepuntos

Ejemplo: medidas des carazón de ciertos cangrejos

Longitud (mm) 81 97 103 123 150 182 195Anchura (mm) 54.5 59.5 63.5 67.5 72.0 78.5 83.0

partir de estos datos calculamos

x = mean(x) ≈ 133, s2x = var(x) ≈ 1922.333

y = mean(y) ≈ 68.36, Cov(x , y) = cov(x,y) ≈ 443.42Por lo tanto, la recta de regresión es

Anchura(mm) = 37.7 + 0.23 · longitud(mm)

80 100 120 140 160 180

5565

75

Longitud

Anc

hura

Biología sanitaria - UAH Tema 2: La recta de regresión por mínimos cuadrados - I Marcos Marvá Ruiz 12 / 1

Page 13: Tema 2: La recta de regresión por mínimos cuadrados - I · 2019-09-16 · La recta de regresión Ideas buscarunarecta y(x) = b 0 + b 1 · x que‘’mejordescriba”lanubedepuntos

Observaciones: usos de la recta de regresiónla recta de regresión es

Anchura(mm) = 37.7 + 0.23 · longitud(mm)

Usos de la recta de regresión

Predecir valores no observados: ¿anchura para ‘longitud‘=140?

Interpretar la pendiente

ExtrapolaciónNunca, bajo ningún concepto, puedes usar de la recta para predecir valores de ycorrespondientes a valores de x fuera del recorrido de x en la muestra. Hacer eso sedenomina extrapolación, y es uno de los errores más graves que pueden cometerse usandola recta de regresión.

Recuerda que

Una predicción debe ir acompañada de una estimación del error que se comete.Volveremos sobre esto más adelante.

Biología sanitaria - UAH Tema 2: La recta de regresión por mínimos cuadrados - I Marcos Marvá Ruiz 13 / 1

Page 14: Tema 2: La recta de regresión por mínimos cuadrados - I · 2019-09-16 · La recta de regresión Ideas buscarunarecta y(x) = b 0 + b 1 · x que‘’mejordescriba”lanubedepuntos

Observaciones: usos de la recta de regresiónLa recta es una buena aproximación local

Biología sanitaria - UAH Tema 2: La recta de regresión por mínimos cuadrados - I Marcos Marvá Ruiz 14 / 1