Teoria y Problemas Resueltos de Regreseion y Correlacion Lineal
-
Upload
ronald-ricardo-tomairo-proleon -
Category
Documents
-
view
80 -
download
30
description
Transcript of Teoria y Problemas Resueltos de Regreseion y Correlacion Lineal
REGRESIÓN LINEAL Y CORRELACIÓN
“Un vaso medio vacío de vino es también uno medio lleno, pero una mentira a medias , de ninguna manera es una media verdad”
Jean Cocteau
“Entre afirmar que la calidad de un proceso es 50% buena o afirmar que es 50% mala, se marca el futuro del empleo del gerente”
MOVE
El método de los mínimos cuadrados
Ha sido de interés en muchos problemas prácticos hallar la relación entre dos
o más variables y medir el grado de tal relación. Cuando se presume una
relación lineal entre dos variables, se utiliza el método de los mínimos
cuadrados –debido al científico alemán Kart Gauss, 1777-1855- para
conseguir la línea recta o de regresión que mejor pronostica los valores de
una variable a partir de la otra y se emplea el coeficiente de correlación de
Pearson para medir la fuerza de la relación entre las dos variables.
Supongamos que queremos hallar una relación entre el puntaje obtenido en la
componente de Matemáticas del examen de admisión de la Universidad y el puntaje –
calificación definitiva- obtenida al finalizar el curso de matemáticas. Para esto dispone
de la información siguiente:
Estudiante No. Puntaje matemático al Puntaje al finalizar 1 39 652 43 783 21 524 64 829 57 256 47 897 28 738 75 989 34 5610 52 75
18
Ala tabla anterior se le asocia un gráfico de puntos denominado “diagrama de
dispersión”.
Este diagrama da apoyo intuitivo a la idea de que existe una relación lineal
entre X y Y. ¿Cuál es un modelo razonable para los datos anteriores?
Supondremos que Y es una variable aleatoria, cuyo valor depende, entre
otras consideraciones, del valor de X, específicamente, esto es
En donde α y β son constantes (desconocidas), X es el puntaje matemático
en el examen de admisión (conocido) que permitiría hacer un pronóstico para
el valor de Y, el puntaje en matemáticas, y ε es una variable aleatoria, acerca
de la cual haremos la hipótesis siguiente:
Es decir, el valor esperado y la varianza de ε no dependen del valor de X.
Así:
Observemos que aquí X no es una variable aleatoria. Supongamos que se
escogen n valores de X, x1, x2,…, xn. Para cada xi sea yi una observación
independiente de la variable aleatoria Y, por tanto (x1, y1),…, (xn, yn) puede
19
considerarse como una muestra aleatoria de la variable aleatoria T para los
valores (x1, x2,…, xn) dados.
Definición: Supóngase que tenemos E(Y)=βX+α con el significado previo.
Sea (x1, y1),…,(xn, yn) una muestra aleatoria de Y. Los estimadores de
“mínimos cuadrados” de Y son los valores de α y β que minimizan a
Este criterio se puede interpretar intuitivamente en la figura siguiente. Para
cada par (xi, yi) calculamos la diferencia entre yi, el valor observado, y βXi+α,
el valor esperado. Puesto que sólo nos interesa la magnitud de esta
diferencia, se eleva al cuadrado y sumamos todas las diferencias, la línea
buscada es aquella para la cual esta suma es más pequeña.
A fin de obtener los estimadores pedidos para α y β procedemos como sigue:
Sea . Para minimizar a SCE debemos resolver las
ecuaciones que conducen a un sistema de dos ecuaciones
lineales con incógnitas α y β de fácil solución por determinantes, por ejemplo,
denotando por a y b las soluciones óptimas se encuentra que:
y
20
El estimador del parámetro σ2 no pude obtenerse por los métodos anteriores.
Establecemos simplemente que la estimación mediante los mínimos
cuadrados está dada por el estadígrafo
Ejercicio 1. Estime la línea de regrsión de mínimos cuadrados con los datos
de la página 1. Si un estudiante obtiene 60% en la adisión, ¿cuánto esperará
en la nota final de matemáticas? Comente.
Observación.
a y b son funciones lineales de los valores maestrales y1, y2,…, yn; basta
visualizar las soluciones óptimas antes mencionadas.
Ejercicio 2. Recordando que a y b son estimaciones puntuales de α y β que
dependen de la muestra observada de tamaño n, que pueden a su vez
considerarse como valores de las variables aleatorias A y B , demuestre que:
y
y
Observaciones adicionales
En el ejercicio 2 se prueba que A y B son estimadores insesgados de α y β,
pero hay más aún, son también los más eficientes. La prueba de esto es un
caso particular del “Teorema general de Gauss-Markov”, que establece que
bajo ciertas condiciones los estimadores de mínimos cuadrados y los
estimadores más eficientes son siempre los mismos.
21
El método de los mínimos cuadrados puede aplicarse a modelos no lineales
por ejemplo si , podemos estimar α, β y de manera que
Sea minimizada.
Si se impone la hipótesis adicional de que la variable aleatoria ε sea normal
n(ε, 0, σ2) se podría utilizar una estimación por máxima verosimilitud.
Ejercicio 3. Probar que si:
Entonces la estimación puntual de β se puede expresar así:
Y la estimación puntual de σ2 así:
Pruebe también que s2 es una estimación insesgada de σ2.
Nota: La estimación puntual de β es mas cómoda de resolver en el ejercicio 1.
Obsérvese que s en este modelo mide la dispersión de los puntos maestrales
alrededor de la recta de mínimos cuadrados estimada. Por lo tanto, puede
22
esperarse empíricamente que el 95% se encuentren a una distancia menor de
2s de la recta de mínimos cuadrados.
Ejercicio 4. Calcule una estimación puntual de σ2, con los datos de los
puntajes. ¿Qué significa?
Ejercicio 5. Estamos familiarizados con el hecho de que la temperatura del aire
disminuye con la altura del lugar, los datos siguientes refuerzan la idea y hacen
presumir una relación lineal entre la temperatura Y y la altura X observada en ciertos
puntos del Valle de Aburrá al amanecer.
X altura en metros Y temperatura en ºC1642 182242 121000 19937 21
1178 181502 162043 01502 141603 10975 16
1549 151066 201495 151508 181000 231000 191971 19982 23
1173 18907 21
1790 122109 111410 141777 6910 19
a) Grafique el diagrama de dispersión.
23
b) Estime la línea de mínimos cuadrados.
c) Si usted se encontrara al amanecer, a 2000 m en inmediaciones de
este Valle, ¿qué temperatura esperaría soportar?
d) Estime σ2.
Coeficiente de correlación
Algunas veces es deseable tener un indicador del grado de intensidad o
fuerza de la relación lineal entre dos variables Y e X que sea independiente
de sus respectivas escalas de medición. A este indicador se le denomina
coeficiente de correlación lineal entre X e Y. El estadígrafo comúnmente
utilizado se llama coeficiente de correlación del producto momento de
Pearson.
Definiciones. Sea (X, Y) una variable aleatoria bidimensional, definimos PXY
el coeficiente de correlación entre X e Y como sigue:
El coeficiente de correlación muestral Γ de Pearson es un estadígrafo para
PXY y se define así:
Observaciones
El signo de Γ es igual al de b así:
Si Γ>0 la relación será lineal creciente.
Si Γ>0 la relación será lineal decreciente.
Si Γ=0 no hay relación lineal.
Si la relación lineal es muy buena.
Si Γ 0 la relación lineal es muy débil.
24
La ausencia de relación lineal entre dos variables no implica que sean
independientes, a lo mejor existe otra relación no lineal.
Límites de confianza y pruebas de significación en la regresión lineal
Además de la estimación de la línea de regresión entre X e Y para efectuar
pronósticos, al estudioso le es muy útil poder hacer inferencia acerca de la
pendiente b del intercepto a y de la validez general de la línea de regresión
calculada. Es importante saber qué tan bien estima b a β o que tan bien
pronostica la recta estimada el valor medio de Y.
Asumiendo que B es una variable aleatoria normal que según el ejercicio 2
posee media E(B) = β y varianza V(B) = , sabiendo también que
es unna variable chi-cuadrado con (n-2) grados de libertad,
concluimos por un teorema anterior que el estadígrafo
Tiene una distribución t con (n-2) grados de libertad lo que nos permite
establecer el siguiente intervalo de confianza para la pendiente β.
Un intervalo de confianza al (1-α)% para la pendiente β de la línea de
regresión es:
Donde tα/2 es un valor de la variable aleatoria t de forma que
Con n-2 grados de libertad.
25
Ejercicio 6
a) Calcule el coeficiente de Pearson para los datos de los puntajes y halle
un intervalo de confianza al 95% para β en la línea de regresión
asociada. Comente.
b) Igual que en a), pero con los datos del ejercicio 5.
Asociado al intervalo de confianza previo se puede diseñar una dócima para
la pendiente β con la siguiente metodología:
1) HO: β = βO
2) Ha: β< βO ó β > βO ó β βO (una o dos colas).
3) Seleccionar el nivel de significación α y determinar la región crítica o
región de rechazo para:
4) Calcular
5) Si t cae en RC concluir que se rechaza HO; si t no cae en RC, no se
puede rechazar HO, o sea que β no difiere significativamente de βO.
Ejemplo: Usando los datos de los puntajes determinar si existe una relación
lineal entre los puntajes en la admisión y en matemáticas sabiendo que b
0.77.
1) HO: β = 0 (no hay relación lineal)
2) Ha: β βO (existe alguna relación lineal)
3) α = 5%
4)
5) Rechazamos HO es decir β difiere significativamente de 0.
26
De una manera análoga, debido a que el coeficiente de Pearson Γ se anula
cuando la pendiente b se anula, según la expresión , el
contraste de hipótesis para β lo es también para pxy el coeficiente de
correlación.
Ejercicio 7. Usando los datos del ejercicio 5, determinar si existe una relación
lineal entre la altura y la temperatura.
El intervalo de confianza y la prueba de hipótesis para el intercepto α1 de la
linea de regresión parte también de que la variable aleatoria A está distribuida
normalmente con media E(A) = α y varianza
Tiene una distribución t con (n-2) grados de libertad.
Tiene una distribución t con (n-2) grados de libertad.
Esto posibilita el siguiente intervalo de confianza para el intercepto α1 de la
línea de regresión es
Donde tiene el significado usual.
Siguiendo la misma metodología de la dócima para la pendiente β se puede
diseñar una para el intercepto α1.
Ejercicio 8. Usando los datos del ejercicio 5:
a) Halle un intervalo de confianza al 95% para el intercepto α1.
b) Contraste con el nivel de significación del 10% las hipótesis:
27
HO: α1 = 5
Ha: α1 > 5
Ejercicio 9. Usando los datos de la página 1:
a) Hallar un intervalo de confianza al 95% para el intercepto α1.
b) Contraste con el nivel de significación del 10% las hipótesis:
HO: α1 = 40
Ha: α1 40
Intervalo de confianza para la respuesta media a un nivel fijo de entrada
X0
Sabemos que E(Y) = α+βX y que si X=X0 entonces es
estimada mediante el estadígrafo así
Donde es el estadígrafo insesgado para .
Con el estadígrafo , que tiene una distribución t con
(n-2) grados de libertad establecemos:
Un intervalo al (1-α)100% de confianza para la respuesta media está
dada por :
Con el significado usual para .
Ejemplo: Hallar un intervalo de confianza al 95% para el valor esperado de la
calificación definitiva de matemáticas si en la admisión obtuvo 50.
Aquí x0 = 50 entonces
Y sustituyendo en la fórmula para el intervalo de confianza obtenemos
28
79.28 6.55 o sea
En el 95% de las veces cuando los estudiantes obtienen un puntaje 50 en la
admisión se espera obtendrán un puntaje entre 72.73 y 85.83 en
matemáticas.
Ejercicio 10. Halle un intervalo de confianza al 90% para la temperatura
esperada a una altura de 2000 metros con los datos del ejercicio 5.
29
Solución con el programa SAS para el ejercicio 5 de la página 22
OBS ALTURA TEMP P STDP L95M U95M L95 U95 R H PRESS STDI1 1642 18 14,4196 0,69331 12,9853 15,8538 8.0194 20.8197 3.58044 0.05287 3.78032 3.093872 2242 12 9,6944 1,36989 6,8606 12.5282 2.8434 16.5454 2.30560 0.20641 2.90530 3.311793 1000 19 19,4755 0,85634 17,7040 21.2469 12.9914 25.9595 -0.47570 0.08066 0.51719 3.134444 937 21 19,9716 0,92486 18,0584 21.8848 13.4474 26.4958 1.02839 0.09409 1.13519 3.153855 1178 18 18,0737 0,69454 16,6369 19.5104 11.6729 24.4744 -0.07368 0.05306 0.07780 3.094156 1502 16 15,5221 0,61794 14,2438 16.8004 9.1550 21.8891 0.47791 0.04200 0.49886 3.077867 2043 9 11,2616 1,11304 8,9591 13.5641 4.6128 17.9104 1.16158 0.13627 2.61837 3.214078 1502 14 15,5221 0,61794 14,2438 16.8004 9.1550 21.8891 1.52209 0.04200 1.51882 3.077869 1603 10 14,7267 0,66673 13,3475 16.1059 8.3386 21.1148 4.72669 0.04890 4.96968 3.0880310 975 16 19,6724 0,88299 17,8458 21.499 13.1730 26.1717 3.67235 0.08576 4.01683 3.1418211 1549 15 15,1520 0,63676 13,8347 16.4692 8.7770 21.5269 0.15195 0.04460 0.15905 3.0816912 1066 20 18,9557 0,78999 17,3215 20.5899 12.5078 25.4036 1.04430 0.06865 1.12127 3.1169613 1495 15 15,5772 0,61577 14,3034 16.851 9.2111 21.9434 0.57722 0.04171 0.60234 3.0774314 1508 18 15,4748 0,61994 14,1924 16.7573 9.1070 21.8427 2.52516 0.04227 2.63662 3.0782615 1000 23 19,4755 0,85634 17,7040 21.2469 12.9914 25.9595 3.52453 0.08066 3.83376 3.1344416 1000 19 19,4755 0,85634 17,7040 21.2469 12.9914 25.9595 0.47547 0.08066 0.51719 3.1344417 1971 19 11,8286 1,02511 9,7080 13.9492 5.2406 18.4166 7.17141 0.11559 8.10866 3.1846918 982 23 19,6172 0,87545 17,8062 21.4282 13.1222 26.1122 3.38277 0.08430 3.69420 3.1397119 1173 18 18,1131 0,69824 16,6686 19.5575 11.7106 24.5155 0.11305 0.05363 0.11946 3.0949820 907 21 20,2079 0,95896 18,2241 22.1916 13.6626 26.7531 0.79213 0.10115 0.88127 3.1640121 1790 12 13,2540 0,82371 11,5500 14.958 6.7881 19.7200 1.25402 0.07463 1.35515 3.1256822 3109 11 10,7418 1,19630 8,2671 13.2166 4.0314 17.4522 0.25819 0.15742 0.30643 3.2438423 1410 14 16,2466 0,60304 14,9991 17.4941 9.8857 22.6075 2.24662 0.04000 2.34022 3.0749024 1777 6 13,3564 0,81073 11,6793 15.0335 6.8975 19.8153 7.35639 0.07230 7.92969 3.1222825 910 19 20,1842 0,95551 18,2076 22.1609 13.641 26.7223 1.18424 0.10043 1.31645 3.16297
PROBLEMAS SELECCIONADOS
En los siguientes problemas:
a) Dibuje el diagrama de dispersión y observe si existe una relación lineal
entre las variables.
b) Determine los valores de y para la curva de regresión lineal, e
interprete de acuerdo al contexto del problema.
c) Calcule a , e interprete el significado de s de acuerdo al contexto del
problema.
d) Determine el intervalo de confianza del 96% para . Interprete.
e) Determine un intervalo de confianza del 95% para . Interprete.
f) Determine un valor esperado de la variable respuesta de acuerdo a la
línea de regresión en un nivel de la variable explicativa que sea diferente
de los valores dados. Calcule el intervalo de confianza e interprete.
g) Determine un valor esperado para una sola respuesta en el mismo punto
de la variable explicativa del punto anterior y calcule el intervalo de
confianza e interprete.
h) Pruebe una hipótesis con respecto a . Interprete en el contexto del
problema.
i) Pruebe una hipótesis con respecto a una respuesta media y con respecto
a una sola respuesta. Interprete en el contexto del problema.
j) Pruebe la hipótesis si la asociación lineal p es significativa entre las
variables X y Y.
1. Se realizó una prueba para determinar la relación entre el contenido de
fósforo en una solución y la temperatura de cristalización. Los datos son
los siguientes:
Cantidad de P (g/l)
Temperatura de cristalización
1.1 1.72.3 0.43.2 0.24.3 1.15.4 2.36.6 3.17.8 4.28.8 5.3
2. Se desarrolló un método analítico para el benzoilmetronidazol y desean
saber si existe linealidad en el método. Se agrega una cantidad conocida
de benzoilmetronidazol y se determina la cantidad de activo con el
método analítico desarrollado. Se obtienen los siguientes resultados
Benzoilmetronidazol(mg)
Activo(mg)
0.5 0.5100.7 0.6871.0 1.0001.3 1.3301.5 1.510
3. Se obtuvieron los siguientes datos sobre la cantidad de bromuro de
potasio que se puede disolver en 100 gramos de agua, a distintas
temperaturas.
0 10 20 30 40 50g 52 60 64 73 76 81
4. Los siguientes datos representan el efecto del tiempo en la pérdida de
hidrógeno en muestras de acero almacenadas a una temperatura de
.
Tiempo t (h) Contenido de H perdido (ppm)1 82 76 617 530 4
5. Se hicieron determinaciones de la cantidad (ppm) de un compuesto
soluble presente a dos diferentes profundidades en cierto número de
suelos.
12 plg. 20 plg. 12 plg. 20 plg.24 20 66 8484 103 31 3013 16 43 6213 20 19 2648 86 7 2161 36 50 73
112 53 72 83
6. Se realizó una prueba para determinar la relación entre la concentración
de conservador en fase acuosa y la concentración en fase oleosa para la
distribución de clorocrezol. Los resultados obtenidos son:
Conc. fase acuosa(g/l)
Conc. fase oleosa(g/l)
0.2 0.40.4 0.70.6 1.01.0 1.60.8 1.30.3 0.50.5 0.80.7 1.2
7. Una muestra de 12 hojas fue recogida aleatoriamente de un árbol y la
longitud y el ancho de cada hoja fueron medidos con una precisión de un
milímetro. Los datos se muestran a continuación
Hoja Longitud Ancho1 35 552 21 443 25 464 35 605 26 556 40 577 35 648 40 689 25 5110 42 6111 23 4612 25 44
8. Se ha establecido que la presión de vapor del Eugenol (mmHg) depende
de la temperatura ( ). La siguiente tabla muestra la relación entre estas
dos variables.
T( ) 78.4 108.1 123.0 138.7 155.8 167.3 182.2 204.7 228.3 253.5F(mmHg) 1 5 10 20 40 60 100 200 400 760
9. Se realiza un experimento para observar el efecto de un aumento en la
temperatura sobre la potencia de un antibiótico . Tres porciones de 1
onza del antibiótico se almacenaron durante períodos de tiempo iguales,
a cada una de las siguientes temperaturas: . Las
potencias observadas a las temperaturas correspondientes fueron:
Potencia, y 38, 43, 29 32, 26, 33 19, 27, 23 14, 19, 21Temperatura, x
a) Encuentre la recta de mínimos cuadrados apropiada para estos
datos.
b) Represente los puntos y la recta, como verificación de sus cálculos.
c) Calcule .
10. Se realiza un experimento psicológico para estudiar la relación entre el
tiempo necesario para que un ser humano tome una decisión y el número
de alternativas que se le presentan. La situación presentada a los
participantes requiere la clasificación de un objeto en una de dos o más
categorías, similar a la situación que se encontraría al clasificar un
producto de acuerdo a su calidad (de primera, segunda, etc.). Cinco
individuos clasificaron un artículo en dos categorías posibles. Otros cinco
clasificaron un artículo en 3 categorías posibles y otros cinco en 4
categorías posibles. A cada uno de los 15 participantes se le tomó el
tiempo necesario para llegar a una decisión.
Tiempo de reacción y (seg) 1, 3, 3, 2, 4 2, 4, 3, 4, 5 5, 6, 5, 7, 4Número de alternativas, x 2 3 4
a) Encuentre la recta de mínimos cuadrados apropiada para estos
datos.
b) Represente los puntos y la recta para verificar sus cálculos.
c) Calcule .
11. Se realiza un experimento para investigar el efecto de un programa de
entrenamiento sobre el tiempo que le toma a un estudiante universitario
típico, correr los 100 metros planos. Nueve estudiantes se sometieron al
programa. Después de dos semanas, se midió la reducción y del tiempo
para correr los 100 metros planos a tres estudiantes. Después de cuatro
semanas se hizo lo mismo para otros tres estudiantes. Después de
cuatro semanas se hizo lo mismo para otros tres estudiantes y después
de seis semanas de entrenamiento para los tres restantes. Los datos
obtenidos son los siguientes:
Reducción del tiempo, y(segundos) 1.6, 8, 1.0 2.1, 1.6, 2.5 3.8, 2.7, 3.1
Semanas deentrenamiento, x 2 4 6
a) Encuentre la recta de mínimos cuadrados para estos datos.
b) Estime la reducción media del tiempo después de cuatro semanas de
entrenamiento. Use un intervalo de confianza del 90%.
c) Supongamos que se emplean sólo 3 estudiantes en el experimento y
que se mide la reducción del tiempo para cada estudiante al final de
2, 4 y 6 semanas. ¿Se cumplirían las suposiciones requeridas para
el intervalo de confianza?
d) Explique la respuesta.
12. Los siguientes datos codificados representan la producción, y, de un
compuesto químico para distintos niveles de la temperatura, x :
X - 2 - 1 0 1 2Y 4 3 3 2 1
a) Calcule la recta de mínimos cuadrados para estos datos.
b) Para verificar los cálculos de a), represente los puntos (x, y) y la
recta adjustada .
c) Calcule SCE y s para estos datos.
d) ¿Presentan los datos suficiente evidencia que indique que hay una
relación lineal entre y y x? Use
e) Estime el verdadero valor de usando un intervalo de confianza del
95%.
f) Haga una predicción de un valor particular de y para , usando
un intervalo de predicción del 90%.
g) Si tuviéramos que estimar el valor esperado de y para ,
¿sería la cota del error mayor o menor? (Asuma que el coeficiente
de confianza es .90).
h) Calcule el coeficiente de correlación.
i) ¿En qué porcentaje se reduce la suma de cuadrados de error al usar
el predictor lineal en lugar de .
13. Supongamos que los siguientes datos corresponden a pacientes de
enfisema: el número de años que el paciente ha fumado (x) y la
evaluación subjetiva del médico en relación al daño sufrido por los
pulmones (y). La última variable se mide en una escala de 0 a 100. Las
observaciones correspondientes a 10 pacientes son las siguientes:
Paciente Años que hafumado, x
Daño enpulmones, y
12345678910
25362215483942312833
55605030757070553035
a) Calcule el coeficiente de correlación r entre el número de años que
ha fumado (x) y el daño a los pulmones (y).
b) Calcule el coeficiente de determinación . Interprete
c) Ajuste una recta de mínimos cuadrados a los datos. Represente la
recta y los puntos. Compare la gráfica con la recta y los valores de r
y calculados.
14. Algunas variedades de lombrices viven en la tierra y se alimentan de las
raíces del césped y de las plantas de los jardines. Esta plaga, que es
particularmente problemática en los climas cálidos, se puede combatir
con la aplicación de pesticidas. Los siguientes datos corresponden al
porcentaje de lombrices eliminadas para varias tasas de aplicación (kilos
de ingrediente activo por cada 4.000 metros cuadrados).
Tasa de aplicación, x 2 3 4 5Porcentaje eliminado, y 50, 56, 48 63, 69, 71 86, 82, 76 94, 99, 97
a) Calcule el coeficiente de correlación r, entre la tasa de aplicación (x)
y el porcentaje (y).
b) Calcule el coeficiente de determinación e interprételo.
c) Ajuste una recta de mínimos cuadrados a los datos.
d) Supongamos que se desea estimar el porcentaje medio de lombrices
eliminadas correspondiente a una aplicación de 4 kilos de pesticida
por 4.000 metros cuadrados. ¿Satisfacen los datos las suposiciones
requeridas por los intervalos de confianza?
15. La producción de soya importante fuente de proteínas, varía con el clima,
con la cantidad de lluvia y con la producción de productos alternos. Los
datos de la tabla siguiente muestran la producción anual en los Estados
Unidos (en cientos de miles de toneladas) para los años 1960 y 1977.
Año Año - 1960x
Producción de soyay
1960 0 91961 1 101962 2 111963 3 101964 4 111965 5 121966 6 131967 7 131968 8 141969 9 171970 10 181971 11 171972 12 161973 13 191974 14 161975 15 201976 16 181977 17 20
a) Ajuste una recta de mínimos cuadrados a estos datos.
b) Pronostique la producción de soya en los estados Unidos para el año
1978, usando un intervalo de predicción del 90%.
c) Obsérvese que se ha pronosticado un valor de y fuera del intervalo
de valores de x usados para desarrollar la ecuación de predicción.
¿Cómo podría afectar esto la interpretación del intervalo de
predicción?.
16. Los siguientes datos corresponden a dos tipos de analizadores del
aliento, para los choferes sospechosos de encontrarse bajo la influencia
del alcohol. Estos tipos se denominan “Analizador” y “V.S.”. Los datos
corresponden a las mediciones hechas por estos dos dispositivos en 15
personas.
Analizadory
V. S.X
.15 .15
.10 .08
.09 .07
.14 .14
.08 .07
.11 .07
.12 .09
.10 .08
.09 .08
.09 .07
.09 .08
.09 .09
.08 .06
.08 .07
.06 .05
a) Encuentre la recta de mínimos cuadrados que relaciona las
mediciones del Analizador (y) con las del dispositivo V.S. (x).
b) Represente la recta y los puntos.
c) ¿Proporcionan los datos suficiente evidencia que indique que las
mediciones de los dos dispositivos están relacionadas linealmente?
d) Supongamos que el aliento de una persona se analiza usando el
dispositivo V.S. y que se obtiene el valor .01. Haga una predicción
de la medición que se obtendría con el Analizador, usando un
intervalo de predicción del 90%.