PRESENTACIÓN - UNAMasesorias.cuautitlan2.unam.mx... · REGRESION Y CORRELACION LINEAL MULTIPLE A)...

PRESENTACIÓN

Regresión y Correlación lineal múltiple es el décimo fascículo, de una serie de guías de estudio en las

que se desarrollan los temas de los programas de las asignaturas del área de Probabilidad y

Estadística, así como temas selectos que complementan el aprendizaje de de esta disciplina. Tienen

la característica de que el estudiante adquiera sólo aquella que trate el tema que necesite reforzar o

el que sea de su propio interés.

Estas guías de estudio pretenden reorientar y actualizar el enfoque con el que se debe abordar el

estudio de los métodos estadísticos, despertando la inquietud por aprender y resolver los problemas

y casos planteados.

Cada guía integra el desarrollo del tema con ejercicios, casos de estudio y con la sección llamada

Aprendiendo.com. En esta última sección se le proporciona al estudiante un ambiente interactivo,

utilizando los recursos disponibles en Internet, de tal forma que los casos planteados los desarrolle

en ambientes de aprendizaje que le permitan encontrarse con el conocimiento, “manipularlo”,

hacerlo suyo. Con esta filosofía se utilizan applets, sitios de internet con acceso a bases de datos

reales, software de uso libre y en general los recursos de la Web 2.0, que se refieren a una segunda

generación en la historia de la Web basada en comunidades de usuarios, que fomentan la

colaboración y el intercambio ágil de información entre los mismos.

Nuestro reconocimiento a la Dirección General de Asuntos del Personal Académico de nuestra Casa

de Estudios, que a través del Programa de Apoyo a Proyectos para la Innovación y Mejoramiento de

la Enseñanza (PAPIME) ha apoyado nuestro proyecto “Implantación de un Laboratorio Virtual de

Estadística y Elaboración de las Guías de Estudio con Soporte Multimedia” clave PE302709.

Los Autores

REGRESION Y CORRELACION LINEAL MULTIPLE

A) REGRESION LINEAL MULTIPLE

Ahora considere una variable dependiente (Y) y varias variables independientes (X1, X2,

etc.). Entonces la regresión múltiple, mide el comportamiento o actitud de la variable Y

con respecto a todas las variables X.

La relación entre las variables puede ser lineal o no lineal.

Considere solamente la regresión lineal múltiple de Y sobre X1 y X2 (pues se puede

generalizar fácilmente por inducción), que es una relación E (Y) = α + β1 X1+ β2 X2.

Ajustando las observaciones (ternas ordenadas con representación gráfica de puntos

en un espacio tridimensional) a un plano de regresión, con ecuación:

Ŷ= a + b1X1 + b2 X2

Donde:

= Valor estimado de Y para valores dados de X1 y X2,

a = Intersección al origen del plano en el eje Y,

b1 = Coeficiente de regresión parcial (pendiente) de Y sobre X1, con X2 constante,

b2 =Coeficiente de regresión parcial (pendiente) de Y sobre X2, con X1 constante.

Para calcular estos parámetros muestrales, efectúe las siguientes operaciones a los

valores muestrales observados:

… … … … … … … … …

Σ Σ Σ Σ Σ Σ Σ

n 1 2 n 1

n 2 n 2

Σ Σ Σ Σ

Σ y Σ

Donde el último renglón se obtiene de restar los dos anteriores; por ejemplo, en la

cuarta columna se tiene:

Σ = Σ

- n 1, y se calcula finalmente:

D= (Σ ) (Σ

) – (Σ ) 2 (denominador)

a = – b1 1 – b2 2

La barra de ajuste de los puntos al plano se mide con el error estándar de regresión

lineal múltiple de Y sobre X1 y X2

A continuación, basándose en los resultados muestrales, se puede hacer la inferencia

estadística para los parámetros poblacionales de las siguientes formas:

1) Prueba de hipótesis para el coeficiente de regresión parcial de Y sobre X1 con X2

constante en la población (β1). Se plantean las hipótesis

H0: β1= 0 (u otro valor)

H1: β1 ≠ 0 (u otro valor, con pruebas unilaterales también)

y se compara

tc = (b1 – 0) / (u otro valor) con tt

donde:

= es la variación natural del estimador b1

2) Prueba de hipótesis para el coeficiente de regresión parcial de Y sobre X2 con X1

constante en la población (β2). Se plantean las hipótesis

H0: β2 = 0 (u otro valor)

H1: β2 = 0 (u otro valor, con pruebas unilaterales también)

y se compara

tc= (b2 – 0) / ( 0 u otro valor) con tt

donde:

es la variación natural del estimador b2

Si se desea en cualquier caso o si en los casos 1) y 2), la prueba resulta significativa,

se puede encontrar los intervalos de confianza respectivos.

3) Intervalo de confianza para estimar β1

β1 = b1 ± t0

4) Intervalo de confianza para estimar β2

β1 = b2 ± t0

otro valor que se puede estimar es el valor individual Y, para valores de X1 y X2 dados.

5) Intervalo de confianza para estimar Y:

Y= ± t0 sY

Donde sŷ= sY•X1•X2 es aproximadamente la variación natural del estimador Y.

B) CORRELACION LINEAL MULTIPLE

El coeficiente de correlación lineal múltiple es una medida del grado de

relación mutua entre la variable Y y las variables X1 y X2 en la muestra.

El cuadrado del coeficiente de correlación lineal múltiple

es el % de la

variación de Y, explicado por la regresión lineal múltiple con X1 y X2.

Dicho coeficiente se calcula de la siguiente forma:

Donde:

= Σ y /

Es el coeficiente de correlación lineal simple

entre Y y X1.

entre Y y X2.

entre X1 y X2.

Y sus cuadrados

son los coeficientes de determinación,

que explican el % de variación de la primer variable, debido a la regresión lineal simple con la segunda variable.

Otra forma (más simple) de calcular el coeficiente de correlación lineal múltiple es

utilizando los coeficientes de regresión parcial muestrales b1 y b2 con la siguiente

fórmula:

También se puede calcular el coeficiente de correlación lineal múltiple como el

coeficiente de correlación lineal simple, que mide la relación entre

Y y ŷ = a + b1X1+b2X2 es decir:

Ejemplo 1.

A continuación se anotan los resultados de una muestra de probetas de acero

templadas en frío que tienen X1= contenido de cobre en % y X2 = temperatura de

aleación en miles de , a las que se les midió la dureza = Y.

X1 0.02 0.02 0.02 0.02 0.10 0.10 0.10 0.10 0.18 0.18 0.18 0.18

X2 1.0 1.1 1.2 1.3 1.0 1.1 1.2 1.3 1.0 1.1 1.2 1.3 Y 78.9 65.1 55.2 56.4 80.9 69.7 57.4 55.4 85.3 71.8 60.7 58.9

a) Encuentre la ecuación del plano de regresión de Y sobre X1 y X2 para la muestra

b) ¿Cuál será la dureza, estimada puntualmente de una probeta que tenga 0.13% de

cobre y 0.9 miles de de temperatura de aleación?

c) Calcular el error estándar de regresión lineal múltiple de Y sobre X1 y X2.

d) Si se mantiene la temperatura de aleación constante, ¿será cierto que a la dureza no

le afecta el contenido de cobre con 5% de significación? A partir de la muestra dada.

e) Si se conserva el contenido de cobre constante, la dureza disminuye 55º cada que

aumentamos 1000 la temperatura de aleación; este coeficiente, ¿habrá disminuido

con 1% de significación en base a la muestra?

f) Encontrar el intervalo de 99% de confianza para estimar el coeficiente de regresión

parcial de dureza sobre contenido de cobre, con temperatura de aleación constante.

g) Encontrar el intervalo de 90% de confianza para estimar el coeficiente de regresión

parcial de dureza sobre temperatura de aleación con el contenido de cobre constante.

h) Calcular el intervalo de 95% de confianza para estimar la dureza de una probeta que

tiene 0.20% de cobre y 1.5 miles de de temperatura de aleación.

Solución:

X1 X2 Y X1X2 X1 Y

X2Y Y2

0.02 0.02 0.02 0.02

1.0 1.1 1.2 1.3

78.9 65.1 55.2 56.4

0.0004 0.0004 0.0004 0.0004

0.020 0.022 0.024 0.026

1.578 1.302 1.104 1.128

1.00 1.21 1.44 1.69

78.90 71.61 66.24 73.32

6225.21 4238.01 3047.04 3180.96

0.10 0.10 0.10 0.10

1.0 1.1 1.2 1.3

80.9 69.7 57.4 55.4

0.0100 0.0100 0.0100 0.0100

0.100 0.110 0.120 0.130

8.090 6.970 5.740 5.540

1.00 1.21 1.44 1.69

80.90 76.67 68.88 72.02

6544.81 4858.09 3294.76 3069.16

0.18 0.18 0.18 0.18

1.0 1.1 1.2 1.3

85.3 71.8 60.7 58.9

0.0324 0.0324 0.0324 0.0324

0.180 0.198 0.216 0.234

15.354 12.924 10.926 10.602

1.00 1.21 1.44 1.69

85.30 78.98 72.84 76.57

7276.09 5155.24 3684.49 3469.21

1.20 13.8 795.7 0.1712 1.38 81.258 16.02 902.23 54043.07

0.1 1.15 66.3083 0.12 1.38 79.57 15.87 915.055 52761.5403

n=12 0.0512 0 1.688 0.15 -12.825 1281.5292

a) Después de la tabla anterior, se calculan los valores:

D = (0.0512) (0.15) – (0)2 = 0.00768

= 32.96875

= -85.5

a = 66.3083 – (32.96875) (0.1) – (-85.5) (1.15) = 161.3365

y finalmente:

Y = 161.3365+32.96875 X1 -85.5 X2 Es la ecuación del plano de regresión de

Y sobre X1 y X2.

X1 = 0.13 y X2 = 0.9

Entonces:

Ŷ = 161.3365+32.96875 (0.13) – 85.5 (0.9) = 88.6724 grados de dureza

= 3.7909

H0: β1 = 0 R. de D.: si tc está entre ± tt aceptar H0

H1: β1 ≠ 0 b1 = 32.96785

= 3.7909

= 16.7537

= 1.968 con 9 g.l. y α = 0.05 ± tt = ± 2.262

Como 1.968 está entre ± 2.262, acepte H0, es decir que el coeficiente de regresión

parcial de Y sobre X1 con X2 constante es cero, por lo tanto, el contenido de cobre no

le afecta a la dureza, con 5% de significación.

β2 = -55 H0: β2 = -55 R. de D. si tc ± es mayor que –tt, aceptar H0

H1: β2 < -55

b2 = -85.5

= 3.7909

= 9.7881 tC=

= -3.116

Con 9 g.l. y α = 0.01 -tt = -2.821

como - 3.116 es menor que – 2.821, rechace H0, es decir que β2 si ha disminuido con

1% de significación.

Y = 0.99 9 g.l. t0 = 3.250

b1= 32.96875 = 16.7537

β1 = 32.96875 ± (3.250) (16.7537) = 32.96875 ± 54.4495

– 21.4808 < β1 < 87.4183 grados de dureza por cada unidad de % cobre

Y = 0.90 9 g.l. t0= 1.833

b2 = -85.5 = 9.7881

β2 = -85.5 ± (1.833) (9.7881) = -85.5 ± 17.9417

– 103.4417< β2 < -67.5583 grados de dureza por cada 1000

Y= 0.95 9 g.l. t0= 2.262

X1= 0.20 X2 = 1.5

Ŷ = 161.3365+32.96875 (0.20) – 85.5 (1.5) = 39.6802

= 3.7909

Y = 39.6802 ± (2.262) (3.7909) = 39.6802 ± 8.5751

31.1051 < Y < 48.2553 grados de dureza.

EJEMPLO 2

Para los datos del ejemplo 1 calcule:

a) Los 3 coeficientes de correlación lineal simple.

b) El coeficiente de correlación lineal múltiple de Y= dureza, sobre X1 = contenido de

cobre y X2 = temperatura de aleación ( ) utilizando los coeficientes de correlación

lineal simple.

c) utilizando los coeficientes de regresión parcial.

d) Los valores estimados de dureza ( ) para los valores dados de contenido de cobre

(X1) y temperatura de aleación (X2) y grafíquelos contra los valores reales de dureza (Y)

para observar la correlación (diagrama de dispersión).

e) utilizando la correlación lineal simple entre Y y .

f) El % de variación no explicada de la dureza sobre el contenido de cobre y la

temperatura de aleación.

SOLUCIÓN:

= 0.2084 baja correlación lineal entre dureza y

contenido de cobre

= -0.9250 alta correlación lineal entre dureza y

temperatura de aleación (en sentido negativo).

= 0 nula correlación lineal entre contenido de cobre

y temperatura de aleación.

=0.9482

Alta correlación lineal de la dureza sobre el contenido de cobre y la temperatura de

aleación.

X1 X2 Y

0.02 1.0 76.50 78.9

0.02 1.1 67.95 65.1

0.02 1.2 59.40 55.2

0.02 1.3 50.85 56.4

0.10 1.0 79.13 80.9

0.10 1.1 70.58 69.7

0.10 1.2 62.03 57.4

0.10 1.3 53.48 55.4

0.18 1.0 81.77 85.3

0.18 1.1 73.22 71.8

0.18 1.2 64.67 60.7

0.18 1.3 56.12 58.9

FIGURA 1.

78.9 76.50 6225.21 6035.52 5851.61 65.1 67.95 4238.01 4423.27 4616.64 55.2 59.40 3047.04 3278.65 3527.87 56.4 50.85 3180.96 2867.70 2585.30 80.9 79.13 6544.81 6401.89 6262.08 69.7 70.58 4858.09 4919.66 4982.01 57.4 62.03 3294.76 3560.71 3848.13 55.4 53.48 3069.16 2962.98 2860.47 85.3 81.77 7276.09 6975.05 6686.47 71.8 73.22 5155.24 5257.26 5361.29 60.7 64.67 3684.49 3925.52 4182.32 58.9 56.12 3469.21 3305.52 3149.55

795.7 795.7 54043.07 53913.73 53913.73

66.31 66.31 52761.54 52761.54 52761.54

n = 12 1281.53 1152.19 1152.19

aproximadamente 90% de la variación es explicada

Es decir, aproximadamente existe un 10% de variación en la dureza , que no se explica

debido al contenido de cobre y a la temperatura de aleación; este 10% de variación se

podría explicar estudiando otras variables que afectan a la dureza, tales como,

contenido de: carbón, manganeso, cromo, etc.

EJEMPLO 3

Cuando se realiza el envasado del sulfato de amonio es de gran importancia que fluya

libremente, con objeto de que las máquinas automáticas que llenan y pesan los

envases puedan funcionar correctamente. Sin embargo, a veces, los cristales se

adhieren a las paredes del conducto de alimentación. Las adherencias pueden deberse

en parte a la humedad, pero pueden también depender del % de impurezas. Para

Investigar las causas de las adherencias se realizó un ensayo que correspondía

aproximadamente a las condiciones de envasado y en el que se dejó fluir cierta

cantidad de sulfato de amonio por un pequeño conducto circular, determinándose la

velocidad de flujo.

En la siguiente tabla se dan las velocidades de flujo y otros datos de las muestras

examinadas.

Y velocidad de flujo (gr/seg)

X1 humedad inicial en unidades de 0.01%

X2 % de impurezas en unidades de 0.01%

X1 21 20 16 18 16 18 12 12 13 13

X2 0 0 0 0 0 1 1 0 0 0 Y 5 4.81 4.46 4.81 4.46 3.85 3.21 3.25 4.55 4.85

a) Encuentre la ecuación del plano de regresión de Y sobre X1 y X2 para la muestra

b) Cual será la velocidad de flujo, estimada puntualmente para sulfato de amonio con

11 unidades de humedad inicial y 0.01% de impurezas.

d) Si se mantiene el % de impurezas constante, pruebe si a la velocidad de flujo no le

afecta el % de humedad con 5% de significación.

e) Si se mantiene el % de humedad constante, pruebe si a la velocidad de flujo no le

afecta el % de impurezas con 5% de significación.

f) Encontrar el intervalo de confianza al 95% para estimar al coeficiente de regresión

parcial de la velocidad de flujo sobre el % de humedad con % de impurezas constante.

g) Encontrar el intervalo de confianza al 95% para estimar el coeficiente de regresión

parcial de la velocidad de flujo sobre el % de impurezas con % de humedad constante.

h) calcular el intervalo del 95% de confianza para estimar la velocidad de flujo del

sulfato de amonio que tenga 15 unidades de humedad y 1 unidad de impurezas.

SOLUCIÓN:

X1 X2 Y

X1X2 X1Y X2Y Y2

21 0 5 441 0 0 105 0 25

20 0 4.81 400 0 0 96.2 0 23.1361

16 0 4.46 256 0 0 71.36 0 19.8916

18 0 4.81 324 0 0 86.58 0 23.1361

16 0 4.46 256 0 0 71.36 0 19.8916

18 1 3.85 324 1 18 69.30 3.85 14.8225

12 1 3.21 144 1 12 38.52 3.21 10.3041

12 0 3.25 144 0 0 39.0 0 10.5625

13 0 4.55 169 0 0 59.15 0 20.7025

13 0 4.85 169 0 0 63.05 0 23.5225

159 2 43.25 2627 2 30 699.52 7.06 190.9695

15.9 0.2 4.325 2528.1 1.4 31.8 687.675 8.65 187.0562

98.9 1.6 -1.8 11.845 -1.59 3.91325

D = 98.9 (1.6) – (-1.8)2 = 155

a = 4.325 – 0.1038 (15.9) – (-0.8769) (0.2) = 2.8499

tenemos entonces:

Si X1 = 15 y X2 = 1

Y = 2.8499 + 0.1038 (15) – 0.8769 (1) = 3.52994

H0: 1 = 0 Regla de decisión: si tc está entre ± tt aceptar H0:

b1 = 0.1038

ttablas con = 5% y 7 g.l. = 2.365

como tc = 2.38 no se encuentra entre ± tt =2.365 se rechaza H0 es decir, sí existe

relación entre la velocidad de flujo y el % de humedad con % de impurezas constante.

H0: β2 = 0 regla de decisión si tc está entre ± tt aceptar H0:

H1: β2 ≠ 0

b2 = -0.87696

tt con = 5% y 7 g.l. = 2.365, por tanto se rechaza H0, es decir si existe relación entre

la velocidad de flujo y él % de impurezas con el % de humedad constante.

Y = 95% 7 g.l. t0 = 2.365

b1 = 0.1038 = 0.04360

1 = b1 ± t0

1 = 0.1038 ± 2.365 = (0.04360)

0.000686<1<0.206914 aumento de velocidad de flujo por cada unidad

de % de humedad.

Y= 95% 7 g.l. t0 = 2.365

B2 = -0.87696 = 0.34282

2 = -0.87696 ± 2.365 (0.34282)

-1.68772 < 2 < -0.06619 disminución de velocidad de flujo por cada

unidad de % de impurezas.

Y = 0.95 7 g.l. t0 = 2.365

X1 = 15 X2 = 1

= 2.8499 + 0.1038 (15) – 0.87696 (1) = 3.52994

= 0.42918

Y = 3.52994 ± 2.365 (0.42918)

2.5149 < Y < 4.5449 gr/seg de velocidad de flujo

EJEMPLO 4

b) El coeficiente de correlación lineal múltiple de Y velocidad de flujo sobre X1 = % de

humedad y X2 = % de impurezas. Utilizando los coeficientes de correlación lineal

simple.

c) = utilizando los coeficientes de regresión parcial.

e) El % de variación no explicado de la velocidad de flujo sobre él % de humedad y él

% de impurezas del sulfato de amonio.

SOLUCIÓN

= 0.3624

Aproximadamente el 36.24% de las

variaciones de la velocidad de flujo se

explican debido a las variaciones en el %

de humedad.

= -0.6354

= 0.4037

Aproximadamente el 40% de las

variaciones en la velocidad de flujo se

explican debido a las variaciones en el %

de impurezas.

= 0.0204

Baja correlación entre % de humedad y

% de impurezas.

= 0.8188

= (0.8188)2 = 0.6704

= 1 -0.6704 = 0.3296

Es decir el 67% de las variaciones en la velocidad de flujo se explican debido al % de

humedad y al % de impurezas, y aproximadamente el 33% no es explicado, debido a

estos factores; este 33% se podría explicar estudiando otras variables que podrían

afectar a la velocidad de flujo de las cuales unas muy importantes serían la forma de la

partícula y el tamaño de la partícula.

EJEMPLO 5

Mastitis es el nombre genérico que se utiliza para referir a las infecciones de la

glándula mamaria, las cuales son de mucha importancia para el ganado lechero.

Cuando se encuentran presentes microorganismos patógenos en la leche y sin

embargo, el animal no presenta síntomas clínicos se conoce vagamente como “mastitis

subclínica”.

En un estudio sobre mastitis subclínica efectuado en 19 hatos lecheros localizados en

el altiplano mexicano se midieron tres variables:

X1 = el estado del equipo de ordeño.

X2 = la higiene en la sala de ordeño.

Y = el porcentaje del hato libre de mastitis subclínica.

Las primeras dos variables se calificaron en una escala del 1 al 10 en base a un

promedio de calificaciones parciales, obtenidas sobre aspectos de higiene y

mediciones efectuadas al equipo de ordeño.

La calificación de Y para cada hato fue determinada en base a exámenes

bacteriológicos de la leche de una muestra de vacas del hato.

En seguida se muestra la tabla de los resultados:

HATO # 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19

X1 8.7 6.0 7.0 8.0 7.7 6.0 6.3 8.0 5.0 5.7 7.7 7.0 5.3 4.7 6.3 8.0 7.0 8.7 5.3 X2 8.0 7.3 5.3 4.0 4.0 5.0 4.0 8.0 6.0 7.3 5.7 4.7 6.0 5.7 7.0 4.0 4.7 8.0 6.7 Y 77 60 72 45 44 46 49 79 60 60 56 30 56 38 47 43 18 81 53

a) Encuentre la ecuación de regresión múltiple del % libre de mastitis subclínica (Y) en

base al equipo (X1) e higiene (X2).

b) Estime cual será el % promedio de animales libres de mastitis subclínica en establos

que tengan una calificación de 7.0 en equipo y 8.5 de higiene.

c) Calcular el error estándar de la regresión lineal múltiple

d) ¿Es significativo el efecto del estado del equipo (X1) sobre Y cuando la calificación

de la higiene (X2) se mantiene constante?

e) ¿Es significativo el efecto de la higiene (X2) sobre Y cuando la calificación del equipo

(X1) se mantiene constante?

f) Estime el coeficiente del efecto de higiene β2 con 95% de confianza.

g) Calcular un intervalo de confianza de 90% para estimar el porcentaje de vacas libres

de mastitis subclínica en un hato con calificación de 6 en equipo y 5 en higiene.

SOLUCION:

Como primer paso se forma la siguiente tabla:

X1 X2 Y X1X2 X1Y

X2Y Y2

8.7 6.0 7.0 8.0 7.7

8.0 7.3 5.3 4.0 4.0

77 60 72 45 44

75.69 36.00 49.00 64.00 59.29

69.60 43.80 37.10 32.00 30.80

669.9 360.0 504.0 360.0 338.8

64.00 53.29 28.09 16.00 16.00

616.0 438.0 381.6 180.0 176.0

5929 3600 5184 2025 1936

6.0 6.3 8.0 5.0 5.7

5.0 4.0 8.0 6.0 7.3

46 49 79 60 60

36.00 36.69 64.00 25.00 32.49

30.00 25.20 64.00 30.00 41.61

276.0 308.7 632.0 300.0 342.0

25.00 16.00 64.00 36.00 53.29

230.0 196.0 632.0 360.0 438.0

2116 2401 6241 3600 3600

7.7 7.0 5.3 4.7 6.3

5.7 4.7 6.0 5.7 7.0

56 30 56 38 47

59.29 49.00 28.09 22.09 36.69

43.89 32.90 31.80 26.79 44.10

431.2 210.0 296.8 178.6 296.1

32.49 22.09 36.00 32.49 49.00

319.2 141.0 336.0 216.6 329.0

3136 900 3136 1440 2209

8.0 7.0 8.7 5.3

4.0 4.7 8.0 6.7

43 18 81 53

64.00 49.00 75.69 28.09

32.00 32.90 69.60 35.51

344.0 126.0 704.7 280.9

16.00 22.09 64.00 44.89

172.0 84.6 648.0 355.1

1849 324 6561 2809

128.4 114.4 1014 896.10 753.60 6959.7 690.72 6249.1 59000

6.76 5.86 53.37 867.71 752.83 6852.5 653.16 5945.2 54116

n=19 28.39 0.77 107.2 37.56 303.9 4884

a) En base a la tabla anterior se calculan los valores:

D = (28.34) (37.56) – (0.77)2 = 1065.74

a= 53.37 – (3.56) (6.76) – (8.02) (5.86) = - 17.69

y se tiene finalmente:

= -17.69 + 3.56 X1 + 8.02 X2

o en otros términos

% promedio estimado

libres de mastitis = -17.69 + 3.55 EQUIPO + 8.02 HIGIENE subclínica.

X1 = 7.0 y X2 = 8.5

entonces:

= -17.69 + 3.56 (7.0) + 8.02 (8.5) = 75.40% de animales libres de mastitis subclínica..

H0: β1 = 0 vs H1: β1 ≠ 0

ahora:

b1 = 3.56

= 11.36

con 16 g.l.

El valor tt = 2.12 con α = 5% para la prueba bilateral y se acepta H0. Sin embargo, si se

considera la prueba unilateral (si el efecto del equipo existe, debe de ser positivamente

correlacionado con Y),

H0: β1 < 0 vs H1: β1 > 0

entonces tt = 1.75 con α = 5% para esta prueba unilateral y se observa que se tiene una

evidencia de peso moderado a favor del efecto del estado del equipo sobre el % de

animales libres de mastitis subclínica (aunque no llega a ser significativo al nivel 5%).

Por las razones mencionadas anteriormente se prueba:

H0: β2 < 0 vs H1: β > 0

y se calcula:

b2 = 8.02

= 11.36

lo cual es significativo al nivel α = 0.0005, reflejando una relación muy definida entre %

libre de mastitis subclínica e higiene.

Nivel de confianza =95% g.l. = 16

entonces:

t = 2.12

y se tiene:

β2= 8.02 ± 2.12 (1.85) = 8.02 ± 3.92

4.10 < β2 < 11.94

% de animales adicionales libres de mastitis subclínica por cada punto adicional de

calificación de higiene.

Nivel de confianza = 90% g.l. = 19

tt = 1.729

X1= 6.0

X2= 5.0

entonces:

Y= 43.77 ± (1.729) (11.36) = 43.77 ± 19.64

24.13% < Y < 63.41%

libres de mastitis subclínica.

EJEMPLO 6

a) Los tres coeficientes de correlación lineal simple.

b) El coeficiente de correlación lineal múltiple de Y sobre X1 = equipo y

X2 = higiene ( ).

c) utilizando los coeficientes de regresión parcial de b1 y b2.

d) El % de variación no explicada de Y por equipo e higiene.

Solución:

correlación moderada entre Y y equipo.

correlación altamente significativa entre Y e higiene.

casi nula correlación entre la calificación de equipo y la

calificación de higiene en esta muestra de hatos lecheros.

que son iguales excepto por errores de redondeo (el último es más preciso, ya que se

utilizaron más dígitos significativos).

d) El % de variación en el porcentaje de animales libres de mastitis en un hato que no está

explicado por el estado del equipo y la higiene en la sala de ordeño

Este porcentaje puede deberse a factores no tomados en cuenta en la ecuación, tales

como sobre-ordeño, edad de las vacas, producción láctea y otros.

EJEMPLO 7

En un experimento, se hizo pasar un gas a través de un cierto medidor de orificio (mide

velocidad de flujo). Para una relación de presión X1 (Pb/Pa : Pa es la presión antes del orificio y

Pb es la presión después del orificio) y una relación de diámetros X2 (dt/d0 : dt es el diámetro del

tubo y d0 es el diámetro del orificio), se obtuvieron los siguientes datos del factor de expansión.

Y del medidor de orificio (factor adimensional, el cual es útil para cuantificación de transporte y

medida de fluídos en la mecánica de fluidos).

a) Encontrar la ecuación del plano de regresión de Y sobre X1 y X2, para la muestra dada.

b) ¿Cuál será el factor de expansión, estimado puntualmente, para una relación de presión

X1 = 0.90 y una relación de diámetros X2 = 0.10?

d) Si se mantiene constante la relación de diámetros (X2), ¿usted afirmaría que la relación

de presión (X1) no afecta al factor de expansión con un nivel del 5% de significancia?, a

partir de la muestra dada.

e) Si se conserva constante la relación de presión (X1), ¿usted afirmaría que la relación de

diámetros (X2) afecta al factor de expansión con un nivel del 5% de significancia?, a

partir de la muestra dada.

f) Encontrar el intervalo de 95% de confianza para estimar el coeficiente de regresión

parcial del factor de expansión (Y) sobre la relación de presión (X1), con una relación de

diámetros constante.

g) Encontrar el intervalo de 95% de confianza para estimar el coeficiente de regresión

parcial del factor de expansión (Y) sobre la relación de diámetro (X2), con una relación

de presión constante.

h) Calcular el intervalo de 95% de confianza para estimar el factor de expansión para el

caso de una relación de presión X1 = 0.75 y una relación de diámetros X2 = 0.70.

0.80 0.80 0.92 0.80 0.60 0.93 0.80 0.40 0.94 0.70 0.80 0.88 0.70 0.60 0.90 0.70 0.40 0.91 0.60 0.80 0.84 0.60 0.60 0.87 0.60 0.40 0.89

Solución:

a) Con los datos anteriores se obtiene la siguiente tabla:

0.80 0.80 0.92 0.64 0.64 0.736 0.64 0.736 0.8464

0.80 0.60 0.93 0.64 0.48 0.744 0.36 0.558 0.8649

0.80 0.40 0.93 0.64 0.32 0.744 0.16 0.372 0.8649

0.70 0.80 0.88 0.49 0.56 0.616 0.64 0.704 0.7744

0.70 0.60 0.90 0.49 0.42 0.630 0.36 0.540 0.8100

0.70 0.40 0.91 0.49 0.28 0.637 0.16 0.364 0.8281

0.60 0.80 0.84 0.36 0.48 0.504 0.64 0.672 0.7056

0.60 0.60 0.87 0.36 0.36 0.522 0.36 0.522 0.7569

0.60 0.40 0.88 0.36 0.24 0.528 0.16 0.352 0.7744

6.30 5.40 8.06 4.47 3.78 5.661 3.48 4.820 7.2256

0.70 0.60 0.896 4.41 3.78 5.642 3.24 4.836 7.2182

n =9 0.06 0 0.019 0.24 -0.016 0.0074

D = ( ) (

) – ( x1X2)2 = (0.06) (0.24) – 02 = 0.0144

= 0.3167

= - 0.0667

Por lo tanto, la ecuación del plano de regresión es:

b) Si X1= 0.90 y X2 = 0.10, entonces:

H0: β1 = 0 H1: β1 ≠ 0

Regla de decisión: si tc está entre ± tt aceptar H0

b1 = 0.3167

con 6 g.l. y α = 5% se obtiene ± tt = ± 2.447

como 10.323 no está entre ± 2.447, se rechaza H0, es decir, que el coeficiente de

regresión parcial de Y sobre X1, con X2 constante, es diferente de cero, por lo tanto, la

relación de presión afecta al factor de expansión.

H0: β2 =0 H1: β2 ≠ 0

Regla de decisión: si tc está entre ± tt aceptar H0.

b2 = -0.0667

con 6 g.l. y α = 5% se obtiene ± tt = ± 2.447

como -4.359 no está entre ± 2.447, se rechaza H0, es decir, que el coeficiente de

regresión parcial de Y sobre X2, con X1 constante, es diferente de cero, por lo tanto, la

relación de diámetros afecta al factor de expansión.

Para Y = 0.95 y 6 g.l. se obtiene t0 = 2.447

b1 = 0.3167 = 0.03068

β1 = 0.3167 ± (2.447) (0.03068) = 0.3167 ± 0.0751

0.2416 < β1 < 0.3918

b2 = -0.0667 = 0.0153

β2 = -0.0667 ± (2.447) (0.0153) = -0.0667 ± 0.0374

-0.1041 < β2 < -0.0293

X1 = 0.75 X2 = 0.70

= 0.7139 + (0.3167) (0.75) – (0.0667) (0.70) = 0.9048

= = 0.0075

Y = 0.9048 ± (2.447) (0.0075) = 0.9048 ± 0.0184

0.8864 < Y < 0.9232

EJEMPLO 8

Para los datos del ejemplo 7 calcular:

b) El coeficiente de correlación lineal múltiple de Y = factor de expansión, sobre X1 =

relación de presión y X2 = relación de diámetros ( ), utilizando los coeficientes de

correlación lineal simple.

c) El coeficiente de correlación lineal múltiple ( ), utilizando los coeficientes de

regresión parcial.

d) Los valores estimados del factor de expansión ( ) para los valores dados de la

relación de presión (X1) y la relación de diámetros (X2) y graficarlos contra los valores

dados del factor de expansión (Y) y observar la correlación mediante un diagrama de

dispersión.

e) El coeficiente de correlación lineal múltiple ( ), como el coeficiente de

correlación lineal simple que mide la relación mutua entre Y y .

f) El porcentaje de variación explicada y variación no explicada del factor de expansión

(Y) sobre la relación de presión (X1) y la relación de diámetros (X2).

SOLUCION

alta correlación lineal entre el factor de

expansión y la relación de presión.

baja correlación lineal entre el factor

de expansión y la relación de diámetros.

no existe correlación lineal entre la

relación de presión y la relación de diámetros, es decir, casi son independientes.

alta correlación lineal del factor de expansión sobre la relación de presión y la relación

de diámetros.

0.8956

0.7138 + 0.3167 X1 – 0.0667 X2

X1 X2 Y Y- (Y- 2 0.80 0.80 0.80 0.70 0.70 0.70 0.60 0.60 0.60

0.80 0.60 0.40 0.80 0.60 0.40 0.80 0.60 0.40

0.92 0.93 0.93 0.88 0.90 0.91 0.84 0.87 0.88

0.9139 0.9272 0.9406 0.8822 0.8956 0.9089 0.8506 0.8639 0.8772

.0344 -.0156 .0044 .0144 -.0556 -.0256 -.0156

.0450 -0.133

0 .0133 -.0450 -.0317 -.0183

.0002 0

.0003 SUMA 0 .0074 0 .0071

FIGURA 2.

El porcentaje de variación explicada es de 95.43% y el porcentaje de variación no

explicada es de 4.57%, el cual puede se debido a transmisiones de calor a través de la

tubería, variaciones de densidad, temperatura, etc.

REGRESIÓN Y CORRELACIÓN LINEAL.

A) REGRESIÓN NO LINEAL.

Cuando la relación entre la variable dependiente o aleatoria (Y) con respecto a la

variable independiente o controlada (X), no tiene la forma de una línea recta, se aplica

la regresión no lineal que consta de 3 opciones generales que son:

1) TRANFORMACIÓN A LINEAL.

Cuando el problema original por antecedentes específicos o por observación de su

diagrama de dispersión se puede ajustar a una curva conocida, entonces es factible

efectuar la transformación (principalmente por logaritmos, por inverso, por raíz, etc.) de

una o las 2 variables, de tal manera que es posible obtener la ecuación de una recta

( = a + b X); una vez obtenida ésta, se puede efectuar toda la inferencia en forma

similar a la utilizada en la Técnica X.

Si se realiza un nuevo diagrama de dispersión con la(s) variable(s) transformada(s), se

observará que los puntos se dispersan muy aproximadamente en una línea recta.

Es importante tener en cuenta la transformación, para la obtención de la ecuación

original y para efectuar la inferencia estadística respectiva.

Algunos ejemplos de curvas conocidas y su respectiva transformación a recta son los

siguientes:

Recuerde que la ecuación de una recta es:

Y = a + b X donde:

a = – b

Y además:

= ∙ aproximadamente

2) REGRESIÓN POLINOMIAL.

Cuando la relación entre las variables es un polinomio de la forma:

Y = a + b X + c + d + … + m

La más común de las relaciones polinomiales es la regresión parabólica (polinomio de

2° grado), que con la función:

E (Y) = α + β X + γ

Mide el comportamiento esperado de la variable dependiente Y con respecto a la

variable independiente X en la forma de una parábola a la que se ajustan los puntos

(pares ordenados), es decir las observaciones de la muestra.

La ecuación de la parábola es:

= a + b X + c

Donde:

Es el valor de Y, estimado parabólicamente para un valor de X dado.

a Es la intersección de la parábola en el eje Y.

b Es el coeficiente de linealidad, y

c El coeficiente de curvatura de 2° grado.

Para calcular los parámetros muestrales, se efectúan las siguientes operaciones

a los valores muestrales observados:

X Y XY X2Y Y2

… Xn

… Yn

X Y XY

De los tres últimos renglones, el primero es el de las sumatorias, el segundo de los

términos de corrección y el último de sumatorias corregidas, se obtiene restando los

dos anteriores: por ejemplo en la 7ª columna:

( ) ( )

Y se calcula:

D = ( ) ( ) – ( )2 (denominador)

a = – b - c ( )/n

La falta de ajuste de los puntos a la parábola, se mide con el error estándar de

regresión parabólica:

La inferencia estadística de la regresión parabólica para los parámetros

poblacionales se puede hacer principalmente de la siguiente manera:

a) Prueba de hipótesis para el coeficiente de linealidad poblacional (β). Se plantean

las hipótesis.

H0 : β = 0 (u otro valor)

H1: β ≠ 0 (u otro valor con pruebas unilaterales también)

Y se compara

(u otro valor con t t )

Donde:

= Es la variación natural del estimador b.

b) Prueba de hipótesis para el coeficiente de curvatura de 2° grado poblacional (γ).

H 0 : γ = 0 (u otro valor)

H 1 : γ ≠ 0 (u otro valor con pruebas unilaterales también)

Y se compara:

(u otro valor con t t )

Donde:

= Es la variación natural del estimador c.

Si se desea en cualquier caso o si en los casos (a y b) anteriores, la prueba

resulta significativa, se puede encontrar los intervalos de confianza respectivos.

c) Intervalo de confianza para estimar β.

β = b ± t0 sb

d) Intervalo de confianza para estimar γ.

γ = c ± t 0 sc

e) Intervalo de confianza para estimar un valor individual Y, para un valor de X

Y = ± t 0 sY

Donde = a + b X + c X2 es el estimador y = SY∙X es aproximadamente la

variación del estimador.

En toda la inferencia tt y t0 se obtienen de las tablas con n – 3 g.l. y los niveles

de significación y confianza dados respectivamente.

3) FUNCIONES ESPECIALES (NO LINEALES EN LOS PARAMETROS).

Es la opción cuando se trata de estimar la relación funcional con una ecuación

muestral especial, cuyos parámetros no son fáciles de calcular, pues dicho cálculo

es mediante un sistema de ecuaciones no lineales.

La solución no es imposible, pues se puede resolver el sistema de ecuaciones

por medio de métodos iterativos de computación, pero en esta técnica, no se tratará

esta opción.

Algunos ejemplos de funciones especiales son:

Y = a – b ∙ pX

REGRESIÓN ASINTOTICA

B) CORRELACIÓN NO LINEAL.

Si se quiere medir el grado de relación no lineal mutua entre dos variables, se calcula el

coeficiente de correlación no lineal muestral que es:

En donde r2 es el coeficiente de determinación que indica el % de variación explicada

entre las variables. Es decir,

CURVA DE CRECIMIENTO LOGISTICO

Y = a/ (1+b ∙ pX)

Y Indica los valores observados.

Los valores estimados correspondientes a Y.

el valor medio de los valores observados.

NOTA: el método anterior es general, pues los valores pueden estar estimados con

cualquier relación funcional, pero se puede simplificar mucho en los siguientes casos:

1) Si se efectúa una transformación de no lineal a lineal para la regresión (inciso

A.1), entonces el coeficiente de correlación no lineal para las 2 variables

originales se puede calcular como el coeficiente de correlación lineal entre las 2

variables ya transformadas, en forma análoga a la efectuada en la técnica X, en

donde:

2) Si la relación funcional no lineal es un polinomio de 2° grado (inciso A.2), la que

se estima con la ecuación de una parábola = a + b X + c X2, entonces el

coeficiente de correlación parabólico se puede calcular como:

EJEMPLO 1

Se anota a continuación R = cantidad de rodamiento de cierto tipo de llanta

radial (en miles de millas) y los valores observados aleatoriamente de V = porcentaje

de vida útil que aún le queda, después de haber rodado R miles de millas, en una

muestra experimental.

R 1 2 5 10 20 30 40 50

V 98.2 91.7 81.3 64.0 36.4 32.6 17.1 11.3

Por experiencias anteriores se tiene la seguridad de que él % de vida útil

decrece exponencialmente con una ecuación de la forma V = A ∙ BR y se pide en base

a los datos observados:

a) Estimar los parámetros A y B encontrando la transformación de la curva

exponencial a una recta de la forma Y = a + b X.

b) Dibujar en papel adecuado (según las transformaciones) un diagrama de

dispersión y la recta encontrada.

c) ¿Cuál es la ecuación original?

d) Calcular el error estándar de regresión lineal Y sobre X, es decir, la medida de la

falta de ajuste de los puntos a la recta.

e) Si una llanta ha recorrido 18.5 miles de millas, ¿Cuál será su porcentaje de vida

útil que le resta, estimado puntualmente?

f) En función de los datos transformados, ¿se puede afirmar con 5% de

significación que el coeficiente de regresión es diferente de cero?

g) Si en el inciso anterior, el coeficiente resultó significativo, estimarlo con un

intervalo de 99% de confianza.

h) Si una llanta ha recorrido 35 miles de millas, ¿Cuál será el porcentaje de vida útil

que le queda, estimada con un intervalo de 95% de confianza?

Solución:

a) V = A • BR Log V = log A + R log B

Y = a + X b

Y = log V a = log A

X = R b = log B

Entonces se efectúan las transformaciones a los datos observados.

R V X Y X2 XY Y2

10 20 30 40 50

98.2 91.7 81.3 64.0 36.4 32.6 17.1 11.3

10 20 30 40 50

1.9921 1.9624 1.9101 1.8062 1.5611 1.5132 1.2330 1.0531

1 4 25

100 400 900

1600 2500

1.9921 3.9247 9.5505

18.0618 31.2220 45.3965 49.3198 52.6539

3.9685 3.8509 3.6484 3.2623 2.4370 2.2898 1.5203 1.1090

158 13.0311 5530 212.1214 22.0863

19.75 1.6289 3120.5 257.3651 21.2263

2409.5 -45.2437 0.8599

= - 0.0188

a = 1.6289 – (-0.0188) (19.75) = 1.9997

= 1. 9997 – 0.0188 X

X = 0 = 1.9997

R = 0 V = 99.9408

X = 50 = 1.0609

R = 50 V = 11.5051

A = antilog a A = antilog 1.9997 = 99.9408

B = antilog b B = antilog (- 0.0188) = 0.9577

R = X V = antilog Y

b) Figura 1

c) V = 99.9408 x 0.9577R

d) sYX =

= 0.0416

e) Si R = 18.5 X = 18.5

= 1.9997 – 0.0188(18.5) = 1.6524

V = antilog 1.6524 = 44.91% de vida útil.

O también

V = 99.9408 (0.9577)18.5 = 44.91% de vida útil.

f) H0 : β = 0 ; H1 : β ≠ 0

b = -0.0188 sb = 0.0416/ = 0.0008

Regla de decisión: si tc esta entre ± tt, aceptar H0.

tc = (-0.0188 – 0) / 0.0008 = - 22.182

Con α = 5% se obtiene ± tt = ± 2.447

Como – 22.182 no está entre ± 2.447 se rechaza H0, es decir que el coeficiente de

regresión Y sobre X poblacional no es cero.

FIGURA 1

g) Con 99% de confianza y 6 g. l. t0 = 3.707

b = -0.0188 sb = 0.0008

β = -0.0188 ± (3.707)(0.0008) = -0.0188 ± 0.0031

-0.0219 < β < -0.0156

h) Con 95% de confianza y 6 g. l. t0 = 2.447

Si R = 35 X = 35 ,

Entonces

= 1.9997 – 0.0188 (35) = 1.3425

V = antilog 1.3425 = 22.00% de vida útil.

sY = sYX = 0.0416 aproximadamente

Y = 1.3425 ± (2.447) (0.0416) = 1.3425 ± 0.1017

1.2409 < Y < 1.4442 y al transformar queda

17.41 < V < 27.81% de vida útil.

Nótese que el intervalo de confianza no es simétrico alrededor del valor estimado de V

= 22%. Esto es debido, al efecto de aplicar la transformación inversa.

EJEMPLO 2

En la tabla siguiente se anota X = la cantidad de barniz anticorrosivo (en

gramos) y también Y = el tiempo de secado promedio (en horas) de una pintura

aplicada en placas de acero, de uso industrial.

X 0 1 2 3 4 5 6 7 8

Y 12.0 10.5 10.0 8.0 7.0 8.0 7.5 8.5 9.0

a) Dibujar un diagrama de dispersión.

b) Calcular la ecuación de la parábola que se ajusta a los puntos de la muestra y

dibujarla en el diagrama.

c) ¿Qué tiempo tardara en secar una pintura que tenga 10gr de barniz, estimado

puntualmente?

d) Calcular el error estándar de regresión parabólica de Y sobre X para la muestra

e) Probar con el 1% de significación, si al tiempo de secado, le afecta la cantidad

de barniz en forma lineal y en forma no lineal.

f) Si en el inciso anterior, los coeficientes de linealidad (β) y de curvatura de 2°

grado (y) poblacionales, resultan significativos, estimarlos mediante intervalos de

95% de confianza.

g) Estimar con un intervalo de 90% de confianza, el tiempo que tarda en secar una

pintura que tiene 4.5 gr de barniz.

SOLUCIÓN:

a) Ver figura 2

b) La ecuación = a + b X + c X2 se obtiene con las siguientes operaciones de los

valores observados.

X Y X2 X3 X4 XY X2Y Y2

110.25

100.00

8.9444

1824.6667

-127.6667

740.75

720.0278

20.7222

FIGURA 2

Y se calcula

D = (60)(4148) - (480)2 = 18480

b = –

a = 8.9444 – (-1.8465) (4) – (0.1829) (204)/9 = 12.1848

= 12.1848 – 1.8465 X + 0.1829 X2 es la ecuación de la parábola de

regresión de Y sobre X.

La figura 2 representa también la parábola con los valores estimados

c) Si X = 10 entonces:

= 12.1848 – 1.8465 (10) + 0.1829 (10)2 = 12.0095 horas

sY∙X =

H0: = 0 R. de D. si tc está entre ± tt aceptar H0

H1: ≠ 0 b = -1.8465

Sb = 0.5167

tc = (-1.8465) / 0.2448 = -7.542

con 6 g. l. y α = 0.01 ± tt = ± 3.707

Como -7.542 no está entre ± 3.707, se rechaza H0, es decir que el coeficiente de

linealidad poblacional no es cero por lo tanto, el tiempo de secado le afecta linealmente

a la cantidad de barniz.

H0: γ = 0 R. de D. si tc está entre ± tt aceptar H0

H1: γ ≠ 0 c =0.1829

Sc = 0.5157 = 0.0294

tc = (0.1829 – 0) 10.0294 = 6.212

con 6 g. l. y

Como 6.212 no está entre 3.707 rechace H0, es decir que el coeficiente de curvatura

de 2° grado poblacional no es cero, por lo tanto, al tiempo de secado le afecta también

no linealmente la cantidad de barniz.

f) Como los dos coeficientes resultaron significativos entonces:

95% de confianza

6 g. l. to=2.447

b = -1.8465

sb = 0.2448

β = -1.8465 ± (2.447) (0.2448) = -1.8465 ± 0.5991

-2.4456 < β < -1.2475 horas de secado por cada gramo de barniz.

c = 0.1829

sc= 0.0294 γ = 0.1829 ± (2.447) (0.0294) = 0.1829 ± 0.0721

0 .1109 < γ < 0.2550

g) 90 % de confianza

6 g. l. t0 = 1.943

Si X = 4.5

sY = 0.5167

= 12.1848 – 1.8465 (4.5) + 0.1829 (4.5)2 = 7.5792

aproximadamente

Y = 7.5792 ± (1.943) (0.5167) = 7.5792 ± 1.0040

6.5751 < Y < 8.5832 horas de secado.

EJEMPLO 3

Para los datos del ejemplo 2:

a) Calcular el coeficiente de correlación no lineal, por el método general, para la

muestra dada.

b) ¿Qué % de variación es explicada?

c) ¿Qué % de variación no es explicada?

d) Tomando en cuenta que a los valores observados se les ajustó una parábola,

calcular el coeficiente de correlación no lineal (parabólico) por el método

simplificado.

SOLUCIÓN:

a) n=9

= 12.1848 - 1.8465 x + 0.1829 X2

Y Ŷ Ŷ- (Ŷ- )2 Y- (Y- )2

12.1848

10.5212

9.2234

8.2913

7.7251

7.5247

7.6900

8.2212

9.1182

3.2404

1.5768

0.2789

-0.2789

-1.2193

-1.4198

-1.2544

-0.7232

-0.1737

10.5502

2.4862

0.0778

0.4265

1.4868

2.0157

1.5735

0.5231

0.0302

19.1201

3.0556

1.5556

1.0556

-0.9444

-1.9444

-0.9444

-1.4444

-0.4444

0.0556

9.3364

2.4198

1.1142

0.8920

3.7809

0.8920

2.0864

0.1975

0.0031

20.7222

Variación total = 20.7222

Variación explicada = 19.1201

Variación no explicada = 20.7222 - 19.1201 = 1.6022

a) r= = = 0.9606

o también:

r = = = 0.9606

Altísima correlación no líneal entre el tiempo de secado promedio y la cantidad de

barniz.

b) r2= 0.9227 Es decir, 92.27% de la variación en el tiempo de secado es

explicada por la caridad de barniz anticorrosivo en la pintura

aplicada a las placas de acero.

c) 1-r2 = 1 -0.9227 = 0.0773

7.73% de la variación en el tiempo de secado es no explicada, es

decir, que esta variación restante puede deberse a otros diferentes

factores (humedad o temperatura del medio ambiente,

concentración del barniz, pulido de la superficie, etc.).

d) Como el Ejemplo 2 se tiene:

Y = 12.1848 – 1.8465 X + 0.1829 X2

b = -1.8465

c = 0.1829

Entonces se puede calcular:

EJEMPLO 4

En un ejemplo anterior se observa, de la gráfica de contenido de carbono contra partes

por millón de oxigeno, que la relación funcional existente pudiera ser una parábola; por

lo cual se tomaron datos de X = contenido de carbono en puntos de carbono (1 punto

de carbono es igual a 0.01% de carbono) y Y = partes por millón de oxigeno en el

horno, inmediatamente antes de vaciar (recuerde que la temperatura de vaciado y la

velocidad de vaciado influyen en el contenido de oxigeno) a una temperatura de 1600°

C y son los siguientes:

X 9 12 15 22 25 34 38 70 77 80

Y 325 264 200 151 122 93 70 59 54 50

dibujarla en un diagrama.

c) Estimar las partes por millón de un acero que contenga 90 puntos de carbono.

d) Calcular el error estándar de la regresión parabólica de Y sobre X para la

muestra dada.

e) Probar con un nivel del 5% de significación, si el contenido de carbono afecta en

forma lineal y en forma no lineal al contenido de oxígeno en el acero líquido.

f) Si en el inciso anterior, los coeficientes de linealidad (β) y de curvatura (γ)

poblacionales, resultan significativos, estimarlos mediante intervalos de 95% de

confianza.

g) Estimar con un intervalo de 95% de confianza, las partes por millón de oxígeno

de un acero con 60 puntos de carbono.

Solución:

a) Ver figura 3

b) La ecuación = a + b X + c X2 se obtiene con las siguientes operaciones de los

valores observados.

FIGURA 3

Y se calcula

D = (6795.6) (58502661.6) – (620792.4)2 = 12177483271.2

a = 135.6 – (-13.173) (38.2) – (0.111) (21388)/10= 401.50

X Y X2 X3 X4 XY X2Y Y2

343000

456533

512000

234256

390625

1336336

2085136

24010000

35153041

40960000

107508

101080

235200

254947

256000

105625

291.83

259.32

228.78

165.32

141.45

∑382

14592.4

1437814

817021.6

104247316

45744654.4

51799.2

1213410

2900212.8

272308

183873.6

n=10 6795.6 620792.4 58502661.6 -20641.2 -1686802.8 88434.4

La ecuación de la parábola de regresión de Y sobre X es :

= 401.40- 13.173 X + 0.111 X2

La figura 3 representa también la parábola con los valores estimados .

c) Si X = 90 entonces:

= 401.40 – 13.173 (90) + 0.111(90)2 = 114.93

d) sY∙X=

e) H0 : β = 0 H1 : β ≠ 0

Regla de decisión: si tc esta entre ± tt aceptar H0.

b = -13.173

sb = sY∙X = 5.082

tc = (b-0)/ sb = -13.173/0.055 = -2.592

con 7 g. l. y α = 5% se obtiene tt = ± 2.365

Como -2.592 no está entre ± 2.365, se rechaza H0, es decir que el coeficiente de

linealidad poblacional no es cero, por lo tanto, el contenido de carbono afecta

linealmente al contenido de oxigeno libre en el acero líquido.

H0 : γ = 0 H1 : γ ≠ 0

Rango de decisión: si t0 está entre ± tt aceptar H0

c = 0.111

sc= sY∙X

= 0.0173

tc= (c-0)/sc = 0.111 / 0.0173 = 6.409

con 7 g. l. y α = 5% se obtienen tt = ± 2.365

Como 6.409 no esta entre ± 2.365, se rechaza H0, es decir, que el coeficiente de

cuadratura de segundo grado poblacional no es cero, por lo tanto, el contenido de

carbono afecta no-linealmente al contenido de oxigeno libre en el acero.

f) Como los dos coeficientes resultaron significativos, entonces se obtienen los

siguientes intervalos de confianza:

para 7 g. l. y α = 5%, t0=2.365

β = b ±

= - 13.173 ± (2.365) (5.082) = - 13.173 ± 12.019

-25.192 < β < -1.154

γ = c ± t0 sc

= 0.111 ± (2.365) (0.0173) = 0.111 ± 0.041

0.070 < γ < 0.152

g) Para X = 60 se obtiene

= 401.40 – 13.173 (30) + 0.111(30)2 = 10.62

Para 7 g. l. y α = 5%, t0 = 2.365

Por lo tanto, el intervalo de confianza resultante es :

Y = ± t0 SY•X

= 10.62 ± (2.365) (23.186) = 10.62 ± 54.83

-44.21 < γ < 65.45 ppm oxígeno.

Como no es posible obtener una cantidad negativa de ppm de oxigeno, el intervalo es:

0 < γ < 65.45 ppm oxigeno.

Ejemplo 5

Para los datos del ejemplo 4

a) Calcular el coeficiente de correlación no lineal por el método general, para la

muestra dada.

b) ¿Qué porcentaje de variación es explicada?

c) ¿Qué porcentaje de variación es no explicada?

d) Tomando en cuenta que a los valores observados se les ajusto una parábola,

calcular el coeficiente de correlación no lineal (parabólico) por el método

simplificado.

Solución:

a) n = 10 = 135.6

= 401.40 -13.173 X + 0.111 X2

variación explicada = 84589.09

variación no explicada = 3845.31

Por lo tanto, existe un buena correlación entre el contenido de oxigeno y el contenido

de carbono.

b) r2 = 0.9566

325 291.83 156.23 24407.8129 189.4 35872.36

264 259.32 123.72 15306.6384 128.4 16486.56

200 228.78 93.18 8682.5124 64.4 4147.36

151 165.32 29.72 883.2784 15.4 237.16

122 141.45 5.85 34.2225 -13.6 184.96

93 81.83 -53.77 2891.2129 -42.6 1814.76

70 61.12 -74.48 5547.2704 -65.6 4303.36

48 23.19 -112.41 12636.0081 -87.6 7673.76

43 45.20 -90.40 8172.16 -92.6 8574.76

40 57.96 -77.64 6027.9696 -95.6 9139.36

1356 0 0 84589.09 0 88434.4

El 95.66% de la variación en el contenido de oxigeno (ppm) es explicada por los puntos

de carbono del acero.

c) 1-r2 = 1 – 0.9566 = 0.0434

El 4.34% de la variación en el contenido de oxigeno (ppm) no es explicada, es decir,

esta variación restante puede deberse a otros factores como pequeñas alteraciones en

la temperatura, tipo de horno, medio ambiente, etc., los cuales pueden haber alterado

el equilibrio químico carbono-oxigeno.

d) Del ejemplo 4 se tiene:

= 401.40 - 13.173 X + 0.111 X2

b= -13.173 c = 0.111

Entonces:

EJEMPLO 6

En los 4 y 5 se realizaron los cálculos de regresión y correlación, suponiendo que una

curva cuadrática (parábola) es una relación entre el contenido de oxígeno y el

contenido de carbono en la fabricación química del acero líquido. Sin embargo, aunque

estadísticamente se obtuvieron resultados satisfactorios respecto a la variación

explicada en la correlación no lineal existente, químicamente no es aceptable que un

acero aumente su contenido de oxigeno al aumentar el contenido de carbono

(obsérvense los contenidos de oxigeno obtenidos por la regresión parabólica para 77 y

80 puntos de carbono; de hecho, cuando se extrapoló a 90 puntos de carbono se

estimó un contenido de oxigeno de 114.93 ppm, el cual es superior en oxidación a un

acero con 34 puntos de carbono).

Por lo mencionado y por pláticas con los ingenieros químicos de la fábrica, se supuso

que una relación hiperbólica que pudiera resultar satisfactoria es:

Z Y = K

Donde:

Z = puntos de carbono

Y = ppm de oxigeno

K = constante

Y los argumentos pueden ser resumidos en los siguientes:

1) No es químicamente aceptable que se obtenga un acero con 0 ppm de oxigeno,

aunque sea muy grande la cantidad de carbono.

2) No se deben obtener contenidos negativos de oxigeno

3) Al aumentar el contenido de carbono debe disminuirse la cantidad de oxigeno y

viceversa.

4) No existe un contenido de carbono tal que se obtenga un mínimo en la cantidad

de oxigeno. (En la regresión parabólica del ejemplo 2 se obtiene un mínimo para

59 puntos de carbono)

Si se efectúa la transformación X =

se obtiene la relación:

Y= b X, donde b = K

Que es la ecuación de una recta; y para los datos del ejemplo 2 se pide:

a) Dibujar un diagrama de dispersión con la transformación indicada.

b) Indicar la ecuación original.

c) Estimar las partes por millón de un acero que contenga 90 puntos de carbono.

d) Calcular el error estándar de regresión lineal Y sobre X, es decir, la medida de la

e) En función de los datos transformados ¿se puede afirmar con 5% de significancia

que el coeficiente de regresión es diferente de cero?

f) Si en el inciso anterior, el coeficiente resulto significativo, estimarlo con un intervalo

de 95% de confianza.

g) Estimar con un intervalo de 95% de confianza, las partes por millón de oxígeno de

un acero con 60 puntos de carbono.

Solución:

a) Ver figura 4

b) La ecuación:

Y = b X ; X = 1/Z

Se obtiene con las siguientes operaciones de los valores observados.

Z X Y X2(*) XY Y2

9 12 15 22 25 34 38 70 77 80

0.111 0.083 0.067 0.045 0.040 0.029 0.026 0.014 0.013 0.013

325 264 200 151 122 93 70 48 43 40

0.012 0.007 0.004

0.0021 0.0016 0.0009 0.0007 0.0002 0.0002 0.0002

36.111 22.000 13.333 6.864 4.880 2.735 1.842 0.686 0.558 0.500

105625 69696 40000 22801 14884 8649 4900 2304 1849 1600

0.4421 1356 0.0295 89.5096 272308

0.04421 135.6 0.0195 59.9441 183873.6

0.009945 29.5655 88434.4

FIGURA 4.

(*) Los cálculos fueron hechos en una calculadora y no aparecen indicadas todas las

cifras significativas tomadas en cuenta.

b = = 29.5655 / 0.009945 = 2972.9

Y = 2972.9 X

Y la ecuación original es:

Z = 2972.9

O equivalente:

= 2972.9 / Z

c) = 2972.9 / Z = 2972.9 / 90 = 33.03

Obsérvese que las ppm de oxígeno con 90 puntos de carbono son inferiores a las

observadas con 80 puntos de carbono.

d) sY∙X =

= 8.21

obsérvese que el error estándar de la regresión lineal transformada es inferior al

error estándar de la regresión parabólica.

e) H0 : β = 0 ; H1 : β ≠ 0

b = 2972.9 sb = sY∙X / = 8.21 / = 82.32

Regla de decisión: si tc está entre ± tt se acepta H0

tc = (2972.9 – 0) / 82.32 = 36.11

con α = 5% y con 8 g. l. se obtiene ± tt = ± 2.306

Como 36.11 no está entre ± 2.306, se rechaza H0 , es decir, que el coeficiente de

regresión Y sobre X poblacional no es cero.

Obsérvese que se tiene una mayor significancia estadística con la transformación

hecha que con la regresión parabólica.

f) Con 95% de confianza y 8 g. l. se obtiene t0 = 2.306

b = 2972.9 sb = 82.32

β = 2972.9 ± (2.306) (82.32) = 2972.9 ± 189.9

2783.1 < β < 3162.7

g) Con 95% de confianza y 8 g. l. se obtiene t0 = 2.306

SY ≈ sY∙X = 8.21

Si Z = 60 entonces:

Y = 297.9 / 60 = 49.5

Por lo tanto,

Y = 49.5 ± (2.306) (8.21) = 49.5 ± 18.9

30.6 < Y < 68.4

EJEMPLO 7

a) Calcular el coeficiente de correlación lineal para la ecuación transformada, para

la muestra dada, utilizando la fórmula:

b) Calcular el coeficiente de correlación no lineal por el método general, para la

muestra dada.

c) De una explicación de la diferencia que existe entre los coeficientes de

correlación calculados en los incisos (a) y (b).

d) ¿Qué porcentaje de la variación es explicada?

e) ¿Qué porcentaje de la variación es no explicada?

f) ¿Qué conclusiones se pueden obtener al comparar los resultados obtenidos en

este ejemplo, respecto a los resultados del ejemplo 5.

Solución:

325 264 200 151 122 93 70 48 43 40

330.3 247.7 198.2 135.1 118.9 87.4 78.2 42.5 38.6 37.2

194.7 112.1 62.6 -0.5

-16.7 -48.2 -57.4 -93.1 -97.0 -98.4 -41.9

37908.1 12566.4 3918.8

0.3 278.9

2323.2 3294.8 8667.6 9409.0 9682.6

88049.6

189.4 128.4 64.4 15.4 -13.6 -42.6 -65.6 -87.6 -92.6 -95.6

35872.4 16486.6 4147.4 237.2 185.0

1814.8 4303.4 7673.8 8574.8 9139.4

88434.4

Obsérvese que es diferente de cero y esto es debido a que la

transformación hecha supone que la recta pasa por el origen, pero se utilizaron

fórmulas para una relación del tipo:

Y = a + bX

y de hecho se obtiene que a = 4.19 y al ser incrementada cada una de las 10

estimaciones Y por este valor, se obtendría que

Variación explicada = 88049.6

= 0.9978

c) La principal razón es que la fórmula:

solo sirve para calcular la correlación lineal entre dos variables que tienen una ecuación

de regresión del tipo:

Y = a + bX

y por lo explicado en el inciso anterior, queda claro que la forma correcta de hacer el

cálculo es por el método general.

d) r2 = 0.9956

el 99.56% de la variación en el contenido de oxígeno (ppm) es explicada por los puntos

de carbono del acero.

e) 1- r2 = 1- 0.9956 = 0.0044

el 0.44% de la variación en el contenido de oxígeno (ppm) no es explicada, es decir,

esta variación restante puede deberse a otros factores (supuestamente controlados)

como temperatura, tipo de horno, medio ambiente, etc., los cuales pueden haber

alterado el equilibrio químico carbono-oxígeno.

g) La estadística es de gran utilidad para la modelación matemática de procesos reales, pero debe ser aplicada con buen criterio, tanto estadístico como del área tecnológica del problema, para evitar que el modelo ajustado pueda no proporcionar la adecuada información e incluso pueda proporcionar información errónea.

EJEMPLO 8

Los datos de la tabla representan el número de bacterias (en cientos) que sobreviven

por irradiación por rayos X (200 kilovoltios) durante 1 a 15 períodos de 6 minutos cada

uno en un experimento. El propósito del experimento fue probar la hipótesis de choque

único de la acción de rayos-X. Según esta teoría, existe un único centro vital en cada

bacteria al cual le tiene que pegar un rayo antes de que se muera la bacteria. De

hecho, esto indica que en cualquier momento el número de bacterias que se mueren es

proporcional al número de bacterias vivas. Entonces un poco de ecuaciones

diferenciales dan la siguiente relación funcional.

Donde: = el número de sobrevivientes después del tiempo t de irradiación.

= el número de bacterias al principio del experimento.

= la razón de destrucción.

Si se toman logaritmos (naturales) de ambos lados de esta ecuación se

obtiene:

Donde: α = ln no y se tiene ln nt expresado como función lineal de t.

Número de bacterias sobrevivientes (Unidades de 100)

FIGURA 5

Tiempo (No. De Períodos) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

nt = No. De bacterias 355 211 197 166 142 106 104 60 56 38 36 32 21 19 15

a) Estimar los parámetros α y β.

b) En las escalas transformadas, haga el diagrama de dispersión y trace la recta de

mínimos cuadrados que se encontró en el inciso a.

c) ¿Cuál es la ecuación original?

d) Estimar el número de bacterias nt, que sobreviven una irradiación de 45 minutos

(7.5 períodos).

e) Calcular el error estándar de ajuste.

f) Calcular un intervalo de confianza para la razón de destrucción β (nivel de

confianza 95%).

g) Para el inciso d) calcular los límites de confianza (90%) para esta estimación.

Solución:

Se llena la tabla siguiente:

1 355 5.872 1 5.872 34.482

2 211 5.353 4 10.704 28.642

3 197 5.283 9 15.850 27.912

4 166 5.112 16 20.448 26.132

5 142 4.956 25 24.779 24.560

6 106 4.663 36 27.981 21.748

7 104 4.644 49 32.511 21.570

8 60 4.094 64 32.755 16.764

9 56 4.025 81 36.228 16.204

10 38 3.638 100 36.376 13.232

11 36 3.584 121 39.419 12.842

12 32 3.466 144 41.589 12.011

13 21 3.045 169 39.579 9.269

14 19 2.944 196 41.222 8.670

15 15 2.708 225 40.621 7.334

120 x 64.406 1,240 446.073 281.552

8.00 x 4.227 960 507.248 268.021

280 -61.175 13.531

a) b = -61.175/280 = -0.218

a = 4.117 – (-0.218)(8.00)

= 5.975

ln nt = 5.975 – 0.218 t

FIGURA 6

b) Ver figura 6

c) La ecuación en las escalas originales depende de:

= antilog natural (5.975) = = 393.438 bacterias.

Por lo tanto:

Es la ecuación que se buscaba.

d) t = 7.5 períodos

76.702 bacterias sobrevivientes es la cantidad estimada

para un tiempo de irradiación de 45 minutos.

Por lo tanto el error estándar de ajuste de nt a t es:

snt.t = antilog (0.122) = 1.13024

lo cual se puede considerar como el error porcentual de estimación.

tt = 2.160 con g.l. = 13 y 95% de confianza.

Entonces

β = - 0.218 ± 2.16 (0.0073) = -0.218 ± 0.016

Es decir β la razón de destrucción de las bacterias está entre

-0.234 y -0.202 con 95% de confianza.

g) Con 90% y 13 g.l., tt= 1.771 y se hace el intervalo primero en las escalas

transformadas.

ln n7.5 = 5.975 – 0.218 (7.5) ± (1.771) (0.122) = 4.34 ± 0.216

Entonces

4.124 < ln n7.5 < 4.556

y 61.68 < n7.5 < 95.2 bacterias con 90% de confianza.

Nota: El excelente ajuste del modelo con los datos transformados según la teoría de

choque único corrobora la validez de esta teoría.

EJEMPLO 9

a) Calcular el coeficiente de correlación entre las variables ln nt y t, utilizando la fórmula

simplificada.

b) ¿Qué porcentaje de la variación en los logaritmos de las cuentas es explicada y

cuánto queda por explicar?

SOLUCION:

es decir 98.8% de la variación es explicada y queda únicamente 1.2% por explicar que

bien puede ser debido a “error experimental” en las cuentas de las bacterias, la

preparación del material, etc. Así que se tiene un modelo excelente para describir el

número de bacterias sobrevivientes y puesto que el modelo fue deducido bajo la

hipótesis de choque único se tiene una confirmación de esta teoría en base al

experimento.

EJEMPLO 10

En una estación experimental se realizó el siguiente experimento para averiguar la

respuesta al nitrógeno de una variedad de de arroz que se cultivaba en la región . En

10 parcelas muy parecidas se sembraron la variedad de interés previamente habiendo

aplicado el fertilizante de tal manera que en dos parcelas escogidas al azar la cantidad

de nitrógeno fue de 80 kg/Ha, en otras dos a razón de 160 kg/Ha y así sucesivamente

hasta 400 kg/Ha. Se obtuvieron los siguientes rendimientos en Ton/Ha:

X= Cantidad de nitrógeno (en unidades de 100 kg/Ha)

Y= Rendimientos

0.8 1.6 2.4 3.2 4.0

5.24 5.80 7.05 7.63 7.46

5.42 5.39 7.57 8.19 6.69

En base a estos resultados:

a) Dibujar el diagrama de dispersión.

b) Comentar sobre la forma del diagrama, utilizando su conocimiento a priori de la Ley

de Mitsherlich.

c) Calcular la ecuación de la parábola que se ajusta a los puntos a la muestra y

d) Estimar el rendimiento que tendré una parcela fertilizada a razón de 260 kg/Ha (2.6

unidades).

e) Calcular el error estándar de regresión parabólica de Y sobre X.

f) Estimar el coeficiente lineal β y el coeficiente cuadrático Y con intervalos de

confianza de 90%.

g) Construir un intervalo de confianza de 95% para la estimación hecha en el inciso d).

Solución:

a) Ver la figura 7

b) Se observa en el diagrama de dispersión que la respuesta al nitrógeno parece

ser lineal en un rango desde 80 hasta 240 ó posiblemente 320 kg/Ha nivel en el

cual ya hay un cambio y se observa que el rendimiento promedio en 400 kg/Ha

es menor que él de 320. Esto está de acuerdo con la ley de Mitscherlich que

postula solo un pequeño o nula respuesta adicional al fertilizante cuando se

acerca al óptimo fisiológico de la planta. Por lo tanto ajustar una recta no es tan

adecuado como una parábola (polinomio de 2º. grado) que puede modelar más

adecuadamente este comportamiento cerca del máximo.

c) La ecuación Y = a + bX + cX2 se obtiene en base a las siguientes operaciones

con los valores observados:

0.8 5.24 0.64 0.512 0.4096 4.192 3.3536 27.4576

0.8 5.42 0.64 0.512 0.4096 4.336 3.4688 29.3764

1.6 5.80 2.56 4.096 6.5536 9.280 14.8480 33.6400

1.6 5.39 2.56 4.096 6.5536 8.624 13.7984 29.0521

2.4 7.05 5.76 13.824 33.1776 16.920 40.6080 49.7025

2.4 7.57 5.76 13.824 33.1776 18.168 43.6032 57.3049

3.2 7.63 10.24 32.768 104.8576 24.416 78.1312 58.2169

3.2 8.19 10.24 32.768 104.8576 26.208 83.8656 67.0761

4.0 7.46 16 64.000 256.0000 29.840 119.36 55.6516

4.0 6.69 16 64.000 256.0000 26.760 107.04 44.7561

24 66.44 70.4 230.400 801.9968 168.744 508.0768 452.2342

2.4 6.644 57.6 168.960 495.616 159.456 467.7376 441.4274

12.8 61.44 306.3808 9.288 40.3392 10.8068

FIGURA 7

y se calcula:

D = (12.8) (306.3808) – (61.44)2 = 146.80

Es la ecuación de la parábola de regresión de rendimiento (Y) sobre nivel de nitrógeno

(X). En la figura 7 está trazada también la parábola con los valores estimados .

d) Si X = 2.6 entonces

ton/Ha.

Ton/Ha.

y tt = 1.895 con 7 g.l. y nivel 90%

con 90% de confianza.

0.7043 < <-0.0357 con 90% de confianza.

g) 95% de confianza, 7 g.l., tt = 2.365

Si X = 2.6 ya se determinó que

Y = 7.2479 entonces

Y = 7.2479 ± (2.365) (0.5167)

= 7.2479 ± 1.222 ó

6.026 < Y < 8.470 con 95% de confianza.

Es decir el rendimiento de una parcela fertilizada a razón de 260 kg/Ha estará entre 6.026 y

8.470 ton/ha con 95% de confianza.

EJEMPLO 11

En una placa se colocaron seis concentraciones de penicilina pura en progresión geométrica de

1 a 32 unidades por mililitro. En la tabla a continuación se proporcionan los diámetros de los

círculos de las zonas de inhibición en el crecimiento del bacilo subtilis en milímetros para cada

concentración, para más detalle acerca del experimento ver el ejemplo 11

Concentración de penicilina en solución

Diámetro del

círculo

1 15.87

2 17.78

4 19.52

8 21.35

16 23.13

32 24.77

De estudios anteriores se conoce que tomando logaritmo de base 2 de la concentración, la

relación entre concentración y diámetro del círculo de inhibición se linealiza.

A partir de los datos de este experimento:

a) Efectuar la transformación y calcular la ecuación de la recta de la forma

(curva tipo)

b) Dibujar el diagrama de dispersión con los datos originales y el diagrama de

dispersión y la recta encontrada con los datos transformados.

c) Calcular el error estándar de regresión lineal de Y sobre X, es decir, la medida de la

d) Si se mide un diámetro de 20.08 mm ¿Cuál será la concentración de penicilina

estimada puntualmente?

e) En función de los datos transformados ¿se puede afirmar con el 5% de significación

si el coeficiente de regresión es diferente de cero?

f) Estimar con 95% de confianza el coeficiente de regresión de la población.

g) Estimar mediante un intervalo de confianza del 95% el diámetro de inhibición para

una concentración de 5 unidades/ml.

Solución:

a) Se tiene que:

Entonces:

Donde:

Entonces se efectúa la transformación de los datos originales y se tiene:

1 0 15.87 0 0 25.8569

2 1 17.78 1 17.78 316.1284

4 2 19.52 4 39.04 381.0304

8 3 21.35 9 64.05 455.8225

16 4 23.13 16 92.52 534.9969

32 5 24.77 55 123.85 613.5529

15 122.42 55 337.24 2553.388

2.5 20.40 37.5 306.05 2497.776

17.5 31.19 55.612

, por cada U.I. por ml.

b) Ver Figura 8

Y = 20.08 mm

De la ecuación de la recta despejando se tiene:

e) H0: β = 0

H1: β ≠ 0

b = 1.78228

Regla de decisión: si tc esta entre ± tt aceptar H0.

Con α = 5% y 4 g.l. se obtiene ± tt = 2.78

Como tc = 99 no se encuentra entre ± tt rechazar H0, esto es que el coeficiente de

regresión no es cero y sí hay relación entre concentración y diámetro de inhibición.

f) Con 95% de confianza y 4 g.l. tt = 2.78

b = 1.78228

β = 1.78228 ± 2.78 (0.018)

1.73224 ≤ β ≤ 1.83232 mm/ U.I./ml.

g) Si X = 5 se tiene:

tt con 95% de confianza y 4 g.l. tt = 2.78

Y = 20.0824 ± 2.78 (0.07531)

19.87303 ≤ Y ≤ 20.29176 mm.

FIGURA 8

EJEMPLO 12

Los datos que aparecen enseguida son los rendimientos mensuales en una fábrica de

gas de agua. Se burbujea vapor de agua y aire alternadamente a través de carbón de

coque para producir una mezcla gaseosa, cuyos principales componentes son

nitrógeno, hidrógeno y monóxido de carbono. La medida del rendimiento es el coque

consumido por cada 1000 m3 de (H2 + CO) producido.

X Proporción aire/vapor

(1000m3 de aire/ton. de vapor)

Y Consumo mensual de coque

(unidades de coque/1000 m3 de H2 + CO producido)

2.11 2.32 2.22 2.19 1.99 1.62 1.76 1.23 1.42 1.26

120 128 114 141 78 31 51 50 50 40

A partir de estos datos:

c) ¿Cuál será el consumo de coque estimado puntualmente si la relación aire/vapor es

de 1.45 x 1000m3 de aire/ton. de vapor?.

d) Calcular el error estándar de regresión parabólica de Y sobre X para la muestra

e) Probar con 5% de significación si al consumo de coque le afecta la relación

aire/vapor en forma lineal y no lineal.

f) Si en el inciso anterior, los coeficientes de linealidad () y curvatura (y) poblacionales

resultan significativos, estimarlos mediante intervalos del 95% de confianza.

g) Estimar con un intervalo del 95% de confianza el consumo de coque para una

relación de 1.45 x 1000m3 de aire/ton. de vapor.

SOLUCION

a) Ver figura 9

FIGURA 9

2.11 2.32 2.22 2.19 1.99 1.62 1.76 1.23 1.42 1.26

120 128 114 141 78 31 51 50 50 40

4.4521 5.3824 4.9284 4.7961 3.9601 2.6244 3.0976 1.5129 2.0164 1.5876

9.3939 12.4871 10.9410 10.5034 7.8805 4.2515 5.4517 1.8608 2.8632 2.0003

19.8211 28.9702 24.2891 23.0025 15.6823 6.8874 9.5951 2.2888 4.0658 2.5204

253.20 296.96 253.08 308.79 155.22 50.22 89.76 61.50 71.00 50.40

534.252 688.9472 561.8376 676.2501 308.8876 81.3564 157.9776 75.645

100.820 63.504

14400 16384 12996 19881 6084 961

2601 2500 2500 1600

18.12 803 34.358 67.6334 137.1227 1590.13 3249.4775 79907 1.812 80.3 32.83344 62.25566 118.0472 1455.036 2758.9474 64480.9

1.52456 5.37834 19.0755 135.094 490.5301 15426.1

D = (1.52456) (19.0755) – (5.37834)2 = 0.1552

b = [(135.094) (19.0755) – (490.5301) ( 5.37834)] / 0.1552 = - 394.6653

c = [(490.5301) ( 1.52456) – (135.094) ( 5.37834)] / 0.1552 = 136.9916

a = 80.3 – (394.6653) (1.812) – ( 136.9916) (34.358) / 10 = 324.7577

= 324.7577 – 394.6653X + 136.9916X2 es la ecuación de la parábola de regresión de

Y sobre X.

X = 1.45

Entonces:

= 324.7577 – 394.6653 (1.45) + 136.9916 (1.45)2

= 40.5178 unidades de trabajo

unidades de trabajo

e) H0: = 0

H1: ≠ 0

b = -394.6653

= 14.8541

tc = 394.6653/164.679 = 2.396

con 7 g.l. y = 0.05, ± tt = 2.37

Como t = 2.396 no se encuentra entre ± tt = 2.37 se rechaza H0, es decir que el

coeficiente de linealidad poblacional no es cero, por lo tanto la relación aire/ vapor

afecta linealmente al consumo de carbón de coque.

H0: y = 0

H1: y≠ 0

c = 136.9916

sc= 14.8541

= 2.94

con = 0.05 y 7 g.l. ± tt = 2.37

Como tc= 2.94 no está entre ± tt = 2.37 rechazar H0 , es decir, que el coeficiente de

curvatura de 2º grado poblacional no es cero, por lo tanto al consumo de coque le

afecta no linealmente la relación aire/vapor.

f) Intervalo de confianza para al 95%

tt con 95% y 7 g.l. es igual a 2.37, entonces:

b = -394.6653 sb= 164.679

= -394.6653 ± 2.37 (164.679)

-784.9545 < < -4.37607 unidades de trabajo por cada 1000 m3 de aire

por tonelada de vapor.

Intervalo de confianza para y al 95%

c = 136.9916 sc = 46.5556

tt con 95% de confianza y 7g.l. es igual a 2.37

y = 136.9916 ± 2.37 (46.5556)

26.6548 < y < 247.3283

X= 1.45x (1000 m3 aire/ton. de vapor)

Entonces según el inciso c):

= 40.5178

tt= 2.37 con 95% de confianza y 7 g.l.

= 14.8541

Y = 40.5178 ± 2.37 (14.854)

5.3135 < Y < 75.7220 unidades de trabajo de consumo de coque.

EJEMPLO 13

Con los datos del problema 11:

a) Calcular el coeficiente de correlación no lineal.

b) ¿Qué % de variación es explicada?

c) ¿Qué % de variación no es explicada?

SOLUCION

r2 = (0.99979)2 = 0.9995

es decir, el 99.95% de las variaciones en el diámetro del círculo de inhibición son

explicadas por las variaciones en la concentración de la penicilina.

1-0.9995 = 0.0005

Es decir, el .05% de las variaciones en el diámetro del círculo de inhibición no son

explicadas por las variaciones en la concentración de penicilina. Está variación se

puede deber a factores exclusivamente operativos del trabajo de laboratorio porque

casi es cero.

PRESENTACIÓN - UNAMasesorias.cuautitlan2.unam.mx... · REGRESION Y CORRELACION LINEAL MULTIPLE A)...

Documents

Transcript of PRESENTACIÓN - UNAMasesorias.cuautitlan2.unam.mx... · REGRESION Y CORRELACION LINEAL MULTIPLE A)...

PRESENTACIÓN - asesorias.cuautitlan2.unam.mxasesorias.cuautitlan2.unam.mx/Laboratoriovirtualdeestadistica... · REGRESIÓN Y CORRELACIÓN LINEAL MULTIPLE A) REGRESION LINEAL MULTIPLE

Regresion Lineal y No Lineal

Ej Regresion Lineal Multiple

Regresion Lineal Múltiple

Regresion Multiple

Analsis de Regresion Multiple (2)

Texto de Ejercicios Regresion Lineal Multiple

Regresion lineal multiple

Regresion Multiple Lineal Prediccion

REGRESION MULTIPLE Y OTRAS TECNICAS MULTIVARIADAS...Y EN SISTEMAS asoriano@sigma.iimas.unam.mx 7 de agosto de 2016 Antonio Soriano Flores REGRESION LINEAL Objetivo del CursoUNIDAD

REGRESION LINEAL

Regresion Lineal y Multiple

Regresion Lineal Multiple Rev9dic11

Material de Regresion Lineal Simple y Multiple

Ejemplo Regresion Lineal Multiple 1

ANALISIS DE REGRESION MULTIPLE Dr. Porfirio Gutiérrez Gonzálezadidex.com/files/regresion-multiple-.pdf · ANALISIS DE REGRESION MULTIPLE Dr. Porfirio Gutiérrez González. Regresión

Modelo de Regresion Lineal Multiple

Regresion Lineal y Regresion Poligonal

Aacap 13 Regresion Multiple y Modelado

3 regresion lineal multiple estimacion y propiedades