Teoria y Problemas Resueltos de Regreseion y Correlacion Lineal

37
REGRESIÓN LINEAL Y CORRELACIÓN “Un vaso medio vacío de vino es también uno medio lleno, pero una mentira a medias , de ninguna manera es una media verdad” Jean Cocteau “Entre afirmar que la calidad de un proceso es 50% buena o afirmar que es 50% mala, se marca el futuro del empleo del gerente” MOVE El método de los mínimos cuadrados Ha sido de interés en muchos problemas prácticos hallar la relación entre dos o más variables y medir el grado de tal relación. Cuando se presume una relación lineal entre dos variables, se utiliza el método de los mínimos cuadrados – debido al científico alemán Kart Gauss, 1777-1855- para conseguir la línea recta o de regresión que mejor pronostica los valores de una variable a partir de la otra y se emplea el coeficiente de correlación de Pearson para medir la fuerza de la relación entre las dos variables. Supongamos que queremos hallar una relación entre el puntaje obtenido en la componente de Matemáticas del examen de admisión de la Universidad y el puntaje – calificación definitiva- obtenida al finalizar el curso de 18

description

Problemas resueltos

Transcript of Teoria y Problemas Resueltos de Regreseion y Correlacion Lineal

Page 1: Teoria y Problemas Resueltos de Regreseion y Correlacion Lineal

REGRESIÓN LINEAL Y CORRELACIÓN

“Un vaso medio vacío de vino es también uno medio lleno, pero una mentira a medias , de ninguna manera es una media verdad”

Jean Cocteau

“Entre afirmar que la calidad de un proceso es 50% buena o afirmar que es 50% mala, se marca el futuro del empleo del gerente”

MOVE

El método de los mínimos cuadrados

Ha sido de interés en muchos problemas prácticos hallar la relación entre dos

o más variables y medir el grado de tal relación. Cuando se presume una

relación lineal entre dos variables, se utiliza el método de los mínimos

cuadrados –debido al científico alemán Kart Gauss, 1777-1855- para

conseguir la línea recta o de regresión que mejor pronostica los valores de

una variable a partir de la otra y se emplea el coeficiente de correlación de

Pearson para medir la fuerza de la relación entre las dos variables.

Supongamos que queremos hallar una relación entre el puntaje obtenido en la

componente de Matemáticas del examen de admisión de la Universidad y el puntaje –

calificación definitiva- obtenida al finalizar el curso de matemáticas. Para esto dispone

de la información siguiente:

Estudiante No. Puntaje matemático al Puntaje al finalizar 1 39 652 43 783 21 524 64 829 57 256 47 897 28 738 75 989 34 5610 52 75

18

Page 2: Teoria y Problemas Resueltos de Regreseion y Correlacion Lineal

Ala tabla anterior se le asocia un gráfico de puntos denominado “diagrama de

dispersión”.

Este diagrama da apoyo intuitivo a la idea de que existe una relación lineal

entre X y Y. ¿Cuál es un modelo razonable para los datos anteriores?

Supondremos que Y es una variable aleatoria, cuyo valor depende, entre

otras consideraciones, del valor de X, específicamente, esto es

En donde α y β son constantes (desconocidas), X es el puntaje matemático

en el examen de admisión (conocido) que permitiría hacer un pronóstico para

el valor de Y, el puntaje en matemáticas, y ε es una variable aleatoria, acerca

de la cual haremos la hipótesis siguiente:

Es decir, el valor esperado y la varianza de ε no dependen del valor de X.

Así:

Observemos que aquí X no es una variable aleatoria. Supongamos que se

escogen n valores de X, x1, x2,…, xn. Para cada xi sea yi una observación

independiente de la variable aleatoria Y, por tanto (x1, y1),…, (xn, yn) puede

19

Page 3: Teoria y Problemas Resueltos de Regreseion y Correlacion Lineal

considerarse como una muestra aleatoria de la variable aleatoria T para los

valores (x1, x2,…, xn) dados.

Definición: Supóngase que tenemos E(Y)=βX+α con el significado previo.

Sea (x1, y1),…,(xn, yn) una muestra aleatoria de Y. Los estimadores de

“mínimos cuadrados” de Y son los valores de α y β que minimizan a

Este criterio se puede interpretar intuitivamente en la figura siguiente. Para

cada par (xi, yi) calculamos la diferencia entre yi, el valor observado, y βXi+α,

el valor esperado. Puesto que sólo nos interesa la magnitud de esta

diferencia, se eleva al cuadrado y sumamos todas las diferencias, la línea

buscada es aquella para la cual esta suma es más pequeña.

A fin de obtener los estimadores pedidos para α y β procedemos como sigue:

Sea . Para minimizar a SCE debemos resolver las

ecuaciones que conducen a un sistema de dos ecuaciones

lineales con incógnitas α y β de fácil solución por determinantes, por ejemplo,

denotando por a y b las soluciones óptimas se encuentra que:

y

20

Page 4: Teoria y Problemas Resueltos de Regreseion y Correlacion Lineal

El estimador del parámetro σ2 no pude obtenerse por los métodos anteriores.

Establecemos simplemente que la estimación mediante los mínimos

cuadrados está dada por el estadígrafo

Ejercicio 1. Estime la línea de regrsión de mínimos cuadrados con los datos

de la página 1. Si un estudiante obtiene 60% en la adisión, ¿cuánto esperará

en la nota final de matemáticas? Comente.

Observación.

a y b son funciones lineales de los valores maestrales y1, y2,…, yn; basta

visualizar las soluciones óptimas antes mencionadas.

Ejercicio 2. Recordando que a y b son estimaciones puntuales de α y β que

dependen de la muestra observada de tamaño n, que pueden a su vez

considerarse como valores de las variables aleatorias A y B , demuestre que:

y

y

Observaciones adicionales

En el ejercicio 2 se prueba que A y B son estimadores insesgados de α y β,

pero hay más aún, son también los más eficientes. La prueba de esto es un

caso particular del “Teorema general de Gauss-Markov”, que establece que

bajo ciertas condiciones los estimadores de mínimos cuadrados y los

estimadores más eficientes son siempre los mismos.

21

Page 5: Teoria y Problemas Resueltos de Regreseion y Correlacion Lineal

El método de los mínimos cuadrados puede aplicarse a modelos no lineales

por ejemplo si , podemos estimar α, β y de manera que

Sea minimizada.

Si se impone la hipótesis adicional de que la variable aleatoria ε sea normal

n(ε, 0, σ2) se podría utilizar una estimación por máxima verosimilitud.

Ejercicio 3. Probar que si:

Entonces la estimación puntual de β se puede expresar así:

Y la estimación puntual de σ2 así:

Pruebe también que s2 es una estimación insesgada de σ2.

Nota: La estimación puntual de β es mas cómoda de resolver en el ejercicio 1.

Obsérvese que s en este modelo mide la dispersión de los puntos maestrales

alrededor de la recta de mínimos cuadrados estimada. Por lo tanto, puede

22

Page 6: Teoria y Problemas Resueltos de Regreseion y Correlacion Lineal

esperarse empíricamente que el 95% se encuentren a una distancia menor de

2s de la recta de mínimos cuadrados.

Ejercicio 4. Calcule una estimación puntual de σ2, con los datos de los

puntajes. ¿Qué significa?

Ejercicio 5. Estamos familiarizados con el hecho de que la temperatura del aire

disminuye con la altura del lugar, los datos siguientes refuerzan la idea y hacen

presumir una relación lineal entre la temperatura Y y la altura X observada en ciertos

puntos del Valle de Aburrá al amanecer.

X altura en metros Y temperatura en ºC1642 182242 121000 19937 21

1178 181502 162043 01502 141603 10975 16

1549 151066 201495 151508 181000 231000 191971 19982 23

1173 18907 21

1790 122109 111410 141777 6910 19

a) Grafique el diagrama de dispersión.

23

Page 7: Teoria y Problemas Resueltos de Regreseion y Correlacion Lineal

b) Estime la línea de mínimos cuadrados.

c) Si usted se encontrara al amanecer, a 2000 m en inmediaciones de

este Valle, ¿qué temperatura esperaría soportar?

d) Estime σ2.

Coeficiente de correlación

Algunas veces es deseable tener un indicador del grado de intensidad o

fuerza de la relación lineal entre dos variables Y e X que sea independiente

de sus respectivas escalas de medición. A este indicador se le denomina

coeficiente de correlación lineal entre X e Y. El estadígrafo comúnmente

utilizado se llama coeficiente de correlación del producto momento de

Pearson.

Definiciones. Sea (X, Y) una variable aleatoria bidimensional, definimos PXY

el coeficiente de correlación entre X e Y como sigue:

El coeficiente de correlación muestral Γ de Pearson es un estadígrafo para

PXY y se define así:

Observaciones

El signo de Γ es igual al de b así:

Si Γ>0 la relación será lineal creciente.

Si Γ>0 la relación será lineal decreciente.

Si Γ=0 no hay relación lineal.

Si la relación lineal es muy buena.

Si Γ 0 la relación lineal es muy débil.

24

Page 8: Teoria y Problemas Resueltos de Regreseion y Correlacion Lineal

La ausencia de relación lineal entre dos variables no implica que sean

independientes, a lo mejor existe otra relación no lineal.

Límites de confianza y pruebas de significación en la regresión lineal

Además de la estimación de la línea de regresión entre X e Y para efectuar

pronósticos, al estudioso le es muy útil poder hacer inferencia acerca de la

pendiente b del intercepto a y de la validez general de la línea de regresión

calculada. Es importante saber qué tan bien estima b a β o que tan bien

pronostica la recta estimada el valor medio de Y.

Asumiendo que B es una variable aleatoria normal que según el ejercicio 2

posee media E(B) = β y varianza V(B) = , sabiendo también que

es unna variable chi-cuadrado con (n-2) grados de libertad,

concluimos por un teorema anterior que el estadígrafo

Tiene una distribución t con (n-2) grados de libertad lo que nos permite

establecer el siguiente intervalo de confianza para la pendiente β.

Un intervalo de confianza al (1-α)% para la pendiente β de la línea de

regresión es:

Donde tα/2 es un valor de la variable aleatoria t de forma que

Con n-2 grados de libertad.

25

Page 9: Teoria y Problemas Resueltos de Regreseion y Correlacion Lineal

Ejercicio 6

a) Calcule el coeficiente de Pearson para los datos de los puntajes y halle

un intervalo de confianza al 95% para β en la línea de regresión

asociada. Comente.

b) Igual que en a), pero con los datos del ejercicio 5.

Asociado al intervalo de confianza previo se puede diseñar una dócima para

la pendiente β con la siguiente metodología:

1) HO: β = βO

2) Ha: β< βO ó β > βO ó β βO (una o dos colas).

3) Seleccionar el nivel de significación α y determinar la región crítica o

región de rechazo para:

4) Calcular

5) Si t cae en RC concluir que se rechaza HO; si t no cae en RC, no se

puede rechazar HO, o sea que β no difiere significativamente de βO.

Ejemplo: Usando los datos de los puntajes determinar si existe una relación

lineal entre los puntajes en la admisión y en matemáticas sabiendo que b

0.77.

1) HO: β = 0 (no hay relación lineal)

2) Ha: β βO (existe alguna relación lineal)

3) α = 5%

4)

5) Rechazamos HO es decir β difiere significativamente de 0.

26

Page 10: Teoria y Problemas Resueltos de Regreseion y Correlacion Lineal

De una manera análoga, debido a que el coeficiente de Pearson Γ se anula

cuando la pendiente b se anula, según la expresión , el

contraste de hipótesis para β lo es también para pxy el coeficiente de

correlación.

Ejercicio 7. Usando los datos del ejercicio 5, determinar si existe una relación

lineal entre la altura y la temperatura.

El intervalo de confianza y la prueba de hipótesis para el intercepto α1 de la

linea de regresión parte también de que la variable aleatoria A está distribuida

normalmente con media E(A) = α y varianza

Tiene una distribución t con (n-2) grados de libertad.

Tiene una distribución t con (n-2) grados de libertad.

Esto posibilita el siguiente intervalo de confianza para el intercepto α1 de la

línea de regresión es

Donde tiene el significado usual.

Siguiendo la misma metodología de la dócima para la pendiente β se puede

diseñar una para el intercepto α1.

Ejercicio 8. Usando los datos del ejercicio 5:

a) Halle un intervalo de confianza al 95% para el intercepto α1.

b) Contraste con el nivel de significación del 10% las hipótesis:

27

Page 11: Teoria y Problemas Resueltos de Regreseion y Correlacion Lineal

HO: α1 = 5

Ha: α1 > 5

Ejercicio 9. Usando los datos de la página 1:

a) Hallar un intervalo de confianza al 95% para el intercepto α1.

b) Contraste con el nivel de significación del 10% las hipótesis:

HO: α1 = 40

Ha: α1 40

Intervalo de confianza para la respuesta media a un nivel fijo de entrada

X0

Sabemos que E(Y) = α+βX y que si X=X0 entonces es

estimada mediante el estadígrafo así

Donde es el estadígrafo insesgado para .

Con el estadígrafo , que tiene una distribución t con

(n-2) grados de libertad establecemos:

Un intervalo al (1-α)100% de confianza para la respuesta media está

dada por :

Con el significado usual para .

Ejemplo: Hallar un intervalo de confianza al 95% para el valor esperado de la

calificación definitiva de matemáticas si en la admisión obtuvo 50.

Aquí x0 = 50 entonces

Y sustituyendo en la fórmula para el intervalo de confianza obtenemos

28

Page 12: Teoria y Problemas Resueltos de Regreseion y Correlacion Lineal

79.28 6.55 o sea

En el 95% de las veces cuando los estudiantes obtienen un puntaje 50 en la

admisión se espera obtendrán un puntaje entre 72.73 y 85.83 en

matemáticas.

Ejercicio 10. Halle un intervalo de confianza al 90% para la temperatura

esperada a una altura de 2000 metros con los datos del ejercicio 5.

29

Page 13: Teoria y Problemas Resueltos de Regreseion y Correlacion Lineal

Solución con el programa SAS para el ejercicio 5 de la página 22

OBS ALTURA TEMP P STDP L95M U95M L95 U95 R H PRESS STDI1 1642 18 14,4196 0,69331 12,9853 15,8538 8.0194 20.8197 3.58044 0.05287 3.78032 3.093872 2242 12 9,6944 1,36989 6,8606 12.5282 2.8434 16.5454 2.30560 0.20641 2.90530 3.311793 1000 19 19,4755 0,85634 17,7040 21.2469 12.9914 25.9595 -0.47570 0.08066 0.51719 3.134444 937 21 19,9716 0,92486 18,0584 21.8848 13.4474 26.4958 1.02839 0.09409 1.13519 3.153855 1178 18 18,0737 0,69454 16,6369 19.5104 11.6729 24.4744 -0.07368 0.05306 0.07780 3.094156 1502 16 15,5221 0,61794 14,2438 16.8004 9.1550 21.8891 0.47791 0.04200 0.49886 3.077867 2043 9 11,2616 1,11304 8,9591 13.5641 4.6128 17.9104 1.16158 0.13627 2.61837 3.214078 1502 14 15,5221 0,61794 14,2438 16.8004 9.1550 21.8891 1.52209 0.04200 1.51882 3.077869 1603 10 14,7267 0,66673 13,3475 16.1059 8.3386 21.1148 4.72669 0.04890 4.96968 3.0880310 975 16 19,6724 0,88299 17,8458 21.499 13.1730 26.1717 3.67235 0.08576 4.01683 3.1418211 1549 15 15,1520 0,63676 13,8347 16.4692 8.7770 21.5269 0.15195 0.04460 0.15905 3.0816912 1066 20 18,9557 0,78999 17,3215 20.5899 12.5078 25.4036 1.04430 0.06865 1.12127 3.1169613 1495 15 15,5772 0,61577 14,3034 16.851 9.2111 21.9434 0.57722 0.04171 0.60234 3.0774314 1508 18 15,4748 0,61994 14,1924 16.7573 9.1070 21.8427 2.52516 0.04227 2.63662 3.0782615 1000 23 19,4755 0,85634 17,7040 21.2469 12.9914 25.9595 3.52453 0.08066 3.83376 3.1344416 1000 19 19,4755 0,85634 17,7040 21.2469 12.9914 25.9595 0.47547 0.08066 0.51719 3.1344417 1971 19 11,8286 1,02511 9,7080 13.9492 5.2406 18.4166 7.17141 0.11559 8.10866 3.1846918 982 23 19,6172 0,87545 17,8062 21.4282 13.1222 26.1122 3.38277 0.08430 3.69420 3.1397119 1173 18 18,1131 0,69824 16,6686 19.5575 11.7106 24.5155 0.11305 0.05363 0.11946 3.0949820 907 21 20,2079 0,95896 18,2241 22.1916 13.6626 26.7531 0.79213 0.10115 0.88127 3.1640121 1790 12 13,2540 0,82371 11,5500 14.958 6.7881 19.7200 1.25402 0.07463 1.35515 3.1256822 3109 11 10,7418 1,19630 8,2671 13.2166 4.0314 17.4522 0.25819 0.15742 0.30643 3.2438423 1410 14 16,2466 0,60304 14,9991 17.4941 9.8857 22.6075 2.24662 0.04000 2.34022 3.0749024 1777 6 13,3564 0,81073 11,6793 15.0335 6.8975 19.8153 7.35639 0.07230 7.92969 3.1222825 910 19 20,1842 0,95551 18,2076 22.1609 13.641 26.7223 1.18424 0.10043 1.31645 3.16297

Page 14: Teoria y Problemas Resueltos de Regreseion y Correlacion Lineal
Page 15: Teoria y Problemas Resueltos de Regreseion y Correlacion Lineal
Page 16: Teoria y Problemas Resueltos de Regreseion y Correlacion Lineal
Page 17: Teoria y Problemas Resueltos de Regreseion y Correlacion Lineal

PROBLEMAS SELECCIONADOS

En los siguientes problemas:

a) Dibuje el diagrama de dispersión y observe si existe una relación lineal

entre las variables.

b) Determine los valores de y para la curva de regresión lineal, e

interprete de acuerdo al contexto del problema.

c) Calcule a , e interprete el significado de s de acuerdo al contexto del

problema.

d) Determine el intervalo de confianza del 96% para . Interprete.

e) Determine un intervalo de confianza del 95% para . Interprete.

f) Determine un valor esperado de la variable respuesta de acuerdo a la

línea de regresión en un nivel de la variable explicativa que sea diferente

de los valores dados. Calcule el intervalo de confianza e interprete.

g) Determine un valor esperado para una sola respuesta en el mismo punto

de la variable explicativa del punto anterior y calcule el intervalo de

confianza e interprete.

h) Pruebe una hipótesis con respecto a . Interprete en el contexto del

problema.

i) Pruebe una hipótesis con respecto a una respuesta media y con respecto

a una sola respuesta. Interprete en el contexto del problema.

Page 18: Teoria y Problemas Resueltos de Regreseion y Correlacion Lineal

j) Pruebe la hipótesis si la asociación lineal p es significativa entre las

variables X y Y.

1. Se realizó una prueba para determinar la relación entre el contenido de

fósforo en una solución y la temperatura de cristalización. Los datos son

los siguientes:

Cantidad de P (g/l)

Temperatura de cristalización

1.1 1.72.3 0.43.2 0.24.3 1.15.4 2.36.6 3.17.8 4.28.8 5.3

2. Se desarrolló un método analítico para el benzoilmetronidazol y desean

saber si existe linealidad en el método. Se agrega una cantidad conocida

de benzoilmetronidazol y se determina la cantidad de activo con el

método analítico desarrollado. Se obtienen los siguientes resultados

Benzoilmetronidazol(mg)

Activo(mg)

0.5 0.5100.7 0.6871.0 1.0001.3 1.3301.5 1.510

Page 19: Teoria y Problemas Resueltos de Regreseion y Correlacion Lineal

3. Se obtuvieron los siguientes datos sobre la cantidad de bromuro de

potasio que se puede disolver en 100 gramos de agua, a distintas

temperaturas.

0 10 20 30 40 50g 52 60 64 73 76 81

4. Los siguientes datos representan el efecto del tiempo en la pérdida de

hidrógeno en muestras de acero almacenadas a una temperatura de

.

Tiempo t (h) Contenido de H perdido (ppm)1 82 76 617 530 4

5. Se hicieron determinaciones de la cantidad (ppm) de un compuesto

soluble presente a dos diferentes profundidades en cierto número de

suelos.

12 plg. 20 plg. 12 plg. 20 plg.24 20 66 8484 103 31 3013 16 43 6213 20 19 2648 86 7 2161 36 50 73

112 53 72 83

Page 20: Teoria y Problemas Resueltos de Regreseion y Correlacion Lineal

6. Se realizó una prueba para determinar la relación entre la concentración

de conservador en fase acuosa y la concentración en fase oleosa para la

distribución de clorocrezol. Los resultados obtenidos son:

Conc. fase acuosa(g/l)

Conc. fase oleosa(g/l)

0.2 0.40.4 0.70.6 1.01.0 1.60.8 1.30.3 0.50.5 0.80.7 1.2

7. Una muestra de 12 hojas fue recogida aleatoriamente de un árbol y la

longitud y el ancho de cada hoja fueron medidos con una precisión de un

milímetro. Los datos se muestran a continuación

Hoja Longitud Ancho1 35 552 21 443 25 464 35 605 26 556 40 577 35 648 40 689 25 5110 42 6111 23 4612 25 44

Page 21: Teoria y Problemas Resueltos de Regreseion y Correlacion Lineal

8. Se ha establecido que la presión de vapor del Eugenol (mmHg) depende

de la temperatura ( ). La siguiente tabla muestra la relación entre estas

dos variables.

T( ) 78.4 108.1 123.0 138.7 155.8 167.3 182.2 204.7 228.3 253.5F(mmHg) 1 5 10 20 40 60 100 200 400 760

9. Se realiza un experimento para observar el efecto de un aumento en la

temperatura sobre la potencia de un antibiótico . Tres porciones de 1

onza del antibiótico se almacenaron durante períodos de tiempo iguales,

a cada una de las siguientes temperaturas: . Las

potencias observadas a las temperaturas correspondientes fueron:

Potencia, y 38, 43, 29 32, 26, 33 19, 27, 23 14, 19, 21Temperatura, x

a) Encuentre la recta de mínimos cuadrados apropiada para estos

datos.

b) Represente los puntos y la recta, como verificación de sus cálculos.

c) Calcule .

10. Se realiza un experimento psicológico para estudiar la relación entre el

tiempo necesario para que un ser humano tome una decisión y el número

de alternativas que se le presentan. La situación presentada a los

participantes requiere la clasificación de un objeto en una de dos o más

categorías, similar a la situación que se encontraría al clasificar un

Page 22: Teoria y Problemas Resueltos de Regreseion y Correlacion Lineal

producto de acuerdo a su calidad (de primera, segunda, etc.). Cinco

individuos clasificaron un artículo en dos categorías posibles. Otros cinco

clasificaron un artículo en 3 categorías posibles y otros cinco en 4

categorías posibles. A cada uno de los 15 participantes se le tomó el

tiempo necesario para llegar a una decisión.

Tiempo de reacción y (seg) 1, 3, 3, 2, 4 2, 4, 3, 4, 5 5, 6, 5, 7, 4Número de alternativas, x 2 3 4

a) Encuentre la recta de mínimos cuadrados apropiada para estos

datos.

b) Represente los puntos y la recta para verificar sus cálculos.

c) Calcule .

11. Se realiza un experimento para investigar el efecto de un programa de

entrenamiento sobre el tiempo que le toma a un estudiante universitario

típico, correr los 100 metros planos. Nueve estudiantes se sometieron al

programa. Después de dos semanas, se midió la reducción y del tiempo

para correr los 100 metros planos a tres estudiantes. Después de cuatro

semanas se hizo lo mismo para otros tres estudiantes. Después de

cuatro semanas se hizo lo mismo para otros tres estudiantes y después

de seis semanas de entrenamiento para los tres restantes. Los datos

obtenidos son los siguientes:

Page 23: Teoria y Problemas Resueltos de Regreseion y Correlacion Lineal

Reducción del tiempo, y(segundos) 1.6, 8, 1.0 2.1, 1.6, 2.5 3.8, 2.7, 3.1

Semanas deentrenamiento, x 2 4 6

a) Encuentre la recta de mínimos cuadrados para estos datos.

b) Estime la reducción media del tiempo después de cuatro semanas de

entrenamiento. Use un intervalo de confianza del 90%.

c) Supongamos que se emplean sólo 3 estudiantes en el experimento y

que se mide la reducción del tiempo para cada estudiante al final de

2, 4 y 6 semanas. ¿Se cumplirían las suposiciones requeridas para

el intervalo de confianza?

d) Explique la respuesta.

12. Los siguientes datos codificados representan la producción, y, de un

compuesto químico para distintos niveles de la temperatura, x :

X - 2 - 1 0 1 2Y 4 3 3 2 1

a) Calcule la recta de mínimos cuadrados para estos datos.

b) Para verificar los cálculos de a), represente los puntos (x, y) y la

recta adjustada .

c) Calcule SCE y s para estos datos.

d) ¿Presentan los datos suficiente evidencia que indique que hay una

relación lineal entre y y x? Use

Page 24: Teoria y Problemas Resueltos de Regreseion y Correlacion Lineal

e) Estime el verdadero valor de usando un intervalo de confianza del

95%.

f) Haga una predicción de un valor particular de y para , usando

un intervalo de predicción del 90%.

g) Si tuviéramos que estimar el valor esperado de y para ,

¿sería la cota del error mayor o menor? (Asuma que el coeficiente

de confianza es .90).

h) Calcule el coeficiente de correlación.

i) ¿En qué porcentaje se reduce la suma de cuadrados de error al usar

el predictor lineal en lugar de .

13. Supongamos que los siguientes datos corresponden a pacientes de

enfisema: el número de años que el paciente ha fumado (x) y la

evaluación subjetiva del médico en relación al daño sufrido por los

pulmones (y). La última variable se mide en una escala de 0 a 100. Las

observaciones correspondientes a 10 pacientes son las siguientes:

Paciente Años que hafumado, x

Daño enpulmones, y

12345678910

25362215483942312833

55605030757070553035

Page 25: Teoria y Problemas Resueltos de Regreseion y Correlacion Lineal

a) Calcule el coeficiente de correlación r entre el número de años que

ha fumado (x) y el daño a los pulmones (y).

b) Calcule el coeficiente de determinación . Interprete

c) Ajuste una recta de mínimos cuadrados a los datos. Represente la

recta y los puntos. Compare la gráfica con la recta y los valores de r

y calculados.

14. Algunas variedades de lombrices viven en la tierra y se alimentan de las

raíces del césped y de las plantas de los jardines. Esta plaga, que es

particularmente problemática en los climas cálidos, se puede combatir

con la aplicación de pesticidas. Los siguientes datos corresponden al

porcentaje de lombrices eliminadas para varias tasas de aplicación (kilos

de ingrediente activo por cada 4.000 metros cuadrados).

Tasa de aplicación, x 2 3 4 5Porcentaje eliminado, y 50, 56, 48 63, 69, 71 86, 82, 76 94, 99, 97

a) Calcule el coeficiente de correlación r, entre la tasa de aplicación (x)

y el porcentaje (y).

b) Calcule el coeficiente de determinación e interprételo.

c) Ajuste una recta de mínimos cuadrados a los datos.

d) Supongamos que se desea estimar el porcentaje medio de lombrices

eliminadas correspondiente a una aplicación de 4 kilos de pesticida

Page 26: Teoria y Problemas Resueltos de Regreseion y Correlacion Lineal

por 4.000 metros cuadrados. ¿Satisfacen los datos las suposiciones

requeridas por los intervalos de confianza?

15. La producción de soya importante fuente de proteínas, varía con el clima,

con la cantidad de lluvia y con la producción de productos alternos. Los

datos de la tabla siguiente muestran la producción anual en los Estados

Unidos (en cientos de miles de toneladas) para los años 1960 y 1977.

Año Año - 1960x

Producción de soyay

1960 0 91961 1 101962 2 111963 3 101964 4 111965 5 121966 6 131967 7 131968 8 141969 9 171970 10 181971 11 171972 12 161973 13 191974 14 161975 15 201976 16 181977 17 20

a) Ajuste una recta de mínimos cuadrados a estos datos.

b) Pronostique la producción de soya en los estados Unidos para el año

1978, usando un intervalo de predicción del 90%.

c) Obsérvese que se ha pronosticado un valor de y fuera del intervalo

de valores de x usados para desarrollar la ecuación de predicción.

Page 27: Teoria y Problemas Resueltos de Regreseion y Correlacion Lineal

¿Cómo podría afectar esto la interpretación del intervalo de

predicción?.

16. Los siguientes datos corresponden a dos tipos de analizadores del

aliento, para los choferes sospechosos de encontrarse bajo la influencia

del alcohol. Estos tipos se denominan “Analizador” y “V.S.”. Los datos

corresponden a las mediciones hechas por estos dos dispositivos en 15

personas.

Analizadory

V. S.X

.15 .15

.10 .08

.09 .07

.14 .14

.08 .07

.11 .07

.12 .09

.10 .08

.09 .08

.09 .07

.09 .08

.09 .09

.08 .06

.08 .07

.06 .05

a) Encuentre la recta de mínimos cuadrados que relaciona las

mediciones del Analizador (y) con las del dispositivo V.S. (x).

b) Represente la recta y los puntos.

c) ¿Proporcionan los datos suficiente evidencia que indique que las

mediciones de los dos dispositivos están relacionadas linealmente?

Page 28: Teoria y Problemas Resueltos de Regreseion y Correlacion Lineal

d) Supongamos que el aliento de una persona se analiza usando el

dispositivo V.S. y que se obtiene el valor .01. Haga una predicción

de la medición que se obtendría con el Analizador, usando un

intervalo de predicción del 90%.