ANALISIS DE REGRESION LINEAL · Web viewLa Regresión lineal se refiere a la predicción del valor...

27
ANÁLISIS DE REGRESIÓN ANALISIS DE REGRESION LINEAL La Regresión lineal se refiere a la predicción del valor de una variable a partir de una o más variables. En ocasiones se denomina a la variable dependiente (y) variable de respuesta y a la variable independiente (x) variable de predicción. En muchos problemas hay dos o más variables inherentemente relacionadas, y es necesario explorar la naturaleza de esta relación. El análisis de regresión puede emplearse por ejemplo para construir un modelo que exprese el rendimiento como una función de la temperatura. Este modelo puede utilizarse luego para predecir el rendimiento en un nivel determinado de temperatura. También puede emplearse con propósitos de optimización o control del proceso. Comenzaremos con el caso más sencillo, la predicción de una variable (y) a partir de otra variable (x). REGRESIÓN LINEAL SIMPLE Para las situaciones siguientes establezca cual es la variable dependiente y cual es la independiente. a) Un actuario quiere predecir el monto del seguro de vida alcanzado por los maestros a partir de sus salarios mensuales. Solución: la variable dependiente o de respuesta, es el monto del seguro de vida alcanzado por un maestro, y la variable independiente o variable de predicción es el salario anual del docente. b) El gerente de un restaurante quiere estimar el número de clientes que puede esperar cierta noche a partir del número de reservaciones para cenar recibidas hasta las 5:00 PM Solución: El número de clientes es la variable de respuesta, el número de reservaciones es la variable independiente. Supuestos para el modelo de regresión lineal 1 1. Para cada valor de x, la variable aleatoria se distribuye normalmente. 2. Para cada valor de x, la media o valor esperado de es 0; esto es, . 3. Para cada valor de x, la varianza de es la constante (llamada varianza del error). 4. Los valores del término de error son independientes. 5. Para un valor fijo de x, la distribución muestral de y es normal, porque sus valores dependen de los de . Página 1

Transcript of ANALISIS DE REGRESION LINEAL · Web viewLa Regresión lineal se refiere a la predicción del valor...

Page 1: ANALISIS DE REGRESION LINEAL · Web viewLa Regresión lineal se refiere a la predicción del valor de una variable a partir de una o más variables. En ocasiones se denomina a la

ANÁLISIS DE REGRESIÓN

ANALISIS DE REGRESION LINEAL

La Regresión lineal se refiere a la predicción del valor de una variable a partir de una o más variables. En ocasiones se denomina a la variable dependiente (y) variable de respuesta y a la variable independiente (x) variable de predicción.En muchos problemas hay dos o más variables inherentemente relacionadas, y es necesario explorar la naturaleza de esta relación. El análisis de regresión puede emplearse por ejemplo para construir un modelo que exprese el rendimiento como una función de la temperatura. Este modelo puede utilizarse luego para predecir el rendimiento en un nivel determinado de temperatura. También puede emplearse con propósitos de optimización o control del proceso.

Comenzaremos con el caso más sencillo, la predicción de una variable (y) a partir de otra variable (x).

REGRESIÓN LINEAL SIMPLE

Para las situaciones siguientes establezca cual es la variable dependiente y cual es la independiente.

a) Un actuario quiere predecir el monto del seguro de vida alcanzado por los maestros a partir de sus salarios mensuales.Solución: la variable dependiente o de respuesta, es el monto del seguro de vida alcanzado por un maestro, y la variable independiente o variable de predicción es el salario anual del docente.

b) El gerente de un restaurante quiere estimar el número de clientes que puede esperar cierta noche a partir del número de reservaciones para cenar recibidas hasta las 5:00 PMSolución: El número de clientes es la variable de respuesta, el número de reservaciones es la variable independiente.

Supuestos para el modelo de regresión lineal1

1. Para cada valor de x, la variable aleatoria se distribuye normalmente.2. Para cada valor de x, la media o valor esperado de es 0; esto es, .3. Para cada valor de x, la varianza de es la constante (llamada varianza del error).4. Los valores del término de error son independientes.5. Para un valor fijo de x, la distribución muestral de y es normal, porque sus valores dependen

de los de .

6. Para un valor fijo x, es posible predecir el valor de y.7. Para un valor fijo x, es posible estimar el valor promedio de y

Página 1

Page 2: ANALISIS DE REGRESION LINEAL · Web viewLa Regresión lineal se refiere a la predicción del valor de una variable a partir de una o más variables. En ocasiones se denomina a la

ANÁLISIS DE REGRESIÓN

1

Ejemplo 1:La revista Motor Trend presenta con frecuencia datos de rendimiento para automóviles, que compara el tamaño del motor en pulgadas cúbicas de desplazamiento (pcd) y las millas por galón (mpg) estimadas para ocho modelos representativos de automóviles subcompactos modelo 1984.

Graficando los datos de la tabla en el “diagrama de dispersión” podemos observar la colección de los ocho pares de datos (x,y) como muestra de una población de pares, donde las medidas pulgadas cúbicas de desplazamiento (pcd) “x” pueden tomar cualquier valor en el rango de valores que se extiende de 85 a 122. Para cada pcd posible hay muchos millajes asociados con ella. Por ejemplo para un tamaño del motor de 97 hay un gran número de millajes asociados, uno por cada coche cuyo tamaño sea 97 pcd. Asumamos que existe una relación lineal para la población de pares de datos de pcd y mpg. (Se entiende por relación lineal cuando la variable y tiene una tendencia a crecer o decrecer, cuando la variable x aumenta).

1 Estadística, Richard C.Weimer, CECSA, Segunda edición, 2000

Página 2

coches compactos tamaño del motor (pcd) x millas/galón (mpg), yChevrolet Cavalier 121 30Datsun Nissan Stanza 120 31Dodge Omni 97 34Ford Escort 98 27Mazda 626 122 29Plymouth Horizon 97 34Renault Alliance/Encore 85 38Toyota Corolla 122 32

Page 3: ANALISIS DE REGRESION LINEAL · Web viewLa Regresión lineal se refiere a la predicción del valor de una variable a partir de una o más variables. En ocasiones se denomina a la

ANÁLISIS DE REGRESIÓN

Usamos el modelo probabilístico siguiente para explicar el comportamiento de los millajes para las ocho medidas de tamaño de motor, este se llama modelo de regresión lineal, y expresa la relación lineal entre tamaño de motor (x) y millas por galón (y).

Modelo de regresión lineal

Donde y = variable dependiente

ordenada al origen = pendiente

x = variable independiente = Error aleatorio

La expresión se denomina componente determinística del modelo de regresión lineal. La muestra de pares de datos se usará para estimar los parámetros de la componente determinística. La diferencia principal entre un modelo pobabilístico y uno determinístico es la inclusión de un término de error aleatorio en el modelo probabilístico. En el ejemplo los diferentes rendimientos para un mismo tamaño de motor se atribuyen al término de error en el modelo de regresión.

Cálculo de la ecuación de regresión

También es llamada ecuación de predicción de mínimos cuadrados. La ecuación de regresión estimada es:

Donde:Valor predicho de para un valor particular de x.

b0 = Estimador puntual de .(ordenada al origen)b1= Estimador puntual de (pendiente)

Para el cálculo de b0 y b1 se utilizamos las siguientes fórmulas:

Página 3

Page 4: ANALISIS DE REGRESION LINEAL · Web viewLa Regresión lineal se refiere a la predicción del valor de una variable a partir de una o más variables. En ocasiones se denomina a la

ANÁLISIS DE REGRESIÓN

Donde:SS = suma de cuadradosb1 = pendienteb0 = ordenada al origenn = número de pares de datos

En la tabla incluimos las sumatorias que utilizaremos para el cálculo de las fórmulas.

Calculando b0 y b1 tenemos:SSx = 1575.50SSy = 82.88SSxy = -212.25b1 = -0.13472b0 = 46.39099

La ecuación de predicción de mínimos cuadrados es: =>

Página 4

Gráfica de la ecuación de regresión

y =46.391 -0.1347x

0

10

20

30

40

50

0 50 100 150

Variable X

Y

Y

Lineal (Y)

coches compactos tamaño del motor (pcd) x millas/galón (mpg), y x^2 y^2 xyChevrolet Cavalier 121 30 14641 900 3630Datsun Nissan Stanza 120 31 14400 961 3720Dodge Omni 97 34 9409 1156 3298Ford Escort 98 27 9604 729 2646Mazda 626 122 29 14884 841 3538Plymouth Horizon 97 34 9409 1156 3298Renault Alliance/Encore 85 38 7225 1444 3230Toyota Corolla 122 32 14884 1024 3904SUMAS 862 255 94456 8211 27264Media 107.75 31.875

Page 5: ANALISIS DE REGRESION LINEAL · Web viewLa Regresión lineal se refiere a la predicción del valor de una variable a partir de una o más variables. En ocasiones se denomina a la

ANÁLISIS DE REGRESIÓN

Error

Los errores se denominan frecuentemente residuales. Podemos observar en la gráfica de regresión los errores indicados por segmentos verticales.

Página 5

¿Qué tan normales son los residuales?

¿Residuales individuales -tendencias; o separados?

Histograma -¿curva de campana?

Ignórese para grupos pequeños de información

(<30)

¿Aleatorio alrededor de

cero, sin tendencias?Buscar las inconsistencias

mayoresBuscar las inconsistencias

mayores

Diagnóstico del Modelo de ResidualesGráfica Normal de Residuales Tabla de Residuales

Histograma de Residuales Residuales vs. Ajustes

Marcador Normal Número de Observación

Ajuste

Frec

uenc

ia

151050-5-10-15-20-25

3

2

1

0

1050

50403020100

-10-20-30-40-50

X=0.000

3.0SL=43.26

-3.0SL=-43.26

550500450

20

10

0

-10

-20

210-1-2

20

10

0

-10

-20

151050-5-10-15-20-25

3

2

1

0

1050

50403020100

-10-20-30-40-50

X=0.000

3.0SL=43.26

-3.0SL=-43.26

550500450

20

10

0

-10

-20

210-1-2

20

10

0

-10

-20

Res

idua

lR

esid

ual

Res

idua

l

Page 6: ANALISIS DE REGRESION LINEAL · Web viewLa Regresión lineal se refiere a la predicción del valor de una variable a partir de una o más variables. En ocasiones se denomina a la

ANÁLISIS DE REGRESIÓN

Al usar el criterio de mínimos cuadrados para obtener la recta que mejor se ajuste a nuestros datos, podemos obtener el valor mínimo para la suma de cuadrados del error (SSE)

A la varianza de los errores e se le llama varianza residual siendo denotada por , se encuentra dividiendo SSE entre n-2

La raíz cuadrada positiva de la varianza residual se llama error estándar de estimación y se denota por Se.

Aplicando las fórmulas en obtenemos la suma de cuadrados del error, la varianza residual y el error estándar de la estimación:

SSE = 82.88-(-0.13472)(-212.25) =54.2849

Se = 3.007

Ejemplo 2: Una firma de renta de coches recabó los datos adjuntos sobre los costos de mantenimiento y, y las millas recorridas x para siete de sus automóviles.

Encuentre:

a) Una estimación puntual para .b) Una estimación puntual para c) Una estimación puntual para la varianza del error .d) Una estimación puntual para el costo promedio del mantenimiento de un coche con 36,000

millas recorridas.e) Prediga el costo para un coche con 29,000 millas recorridas.

Página 7

Automóvil Millas recorridas x Costos de manteni-en miles miento y (dólares)

A 55 299B 27 160C 36 215D 42 255E 65 350F 48 275G 29 207

Automóvil x y x^2 y^2 xyA 55 299 3025 89401 16445B 27 160 729 25600 4320C 36 215 1296 46225 7740D 42 255 1764 65025 10710E 65 350 4225 122500 22750F 48 275 2304 75625 13200G 29 207 841 42849 6003

Suma 302 1761 14184 467225 81168Media 43.14 251.57

Page 7: ANALISIS DE REGRESION LINEAL · Web viewLa Regresión lineal se refiere a la predicción del valor de una variable a partir de una o más variables. En ocasiones se denomina a la

ANÁLISIS DE REGRESIÓN

SSx = 1154.86SSy = 24207.71SSxy = 5193.43b1 = 4.4970b0 =57.5567SSE = 852.70

= 170.54y = 57.5567 + 4.497x

a) b0 =57.5567b) b1 = 4.4970c) = 170.54d) 57.5567 + 4.497(36) = 219.44 usde) 57.5567 + 4.497(29) = 187.96 usd

Inferencias sobre el modelo de regresión lineal.

Para usar la ecuación de regresión , con propósitos de predicción, queremos estar

razonablemente seguros de que la pendiente de la ecuación de regresión

no es cero. Ya que si , entonces para cualquier valor de x, sería idéntica a , como se muestra en la figura. Siendo este el caso el modelo no sería apropiado.

Con el propósito de determinar si la pendiente de la regresión poblacional es diferente de cero, separemos SSy en dos componentes, SSE y SSR.Tenemos la siguiente relación:SSy = SSE + SSR

Donde:SSE = Suma de cuadrados del errorSSR = Suma de cuadrados de la regresión

SSE = SSy-b1SSxy

SSR = b1SSy

Página 8

Page 8: ANALISIS DE REGRESION LINEAL · Web viewLa Regresión lineal se refiere a la predicción del valor de una variable a partir de una o más variables. En ocasiones se denomina a la

ANÁLISIS DE REGRESIÓN

Prueba de hipótesis utilizando la distribución FSi fuera cierta , el estadístico F serviría como estadístico de prueba: F está definido como:

Con gl = (1,n-2), se puede usar el estadístico F para determinar si es diferente de cero. Si la pendiente de la ecuación de regresión poblacional es diferente de cero, entonces la ecuación se puede usar con propósitos de predicción.

Ejemplo 3: Para los datos del ejemplo 1 haga una prueba para determinar si , usando

En el ejemplo 1 y 2 obtuvimos los siguientes valores:SSxy = -212.25b1 = -0.13472

La suma de cuadrados para la regresión SSR se calcula mediante:SSR = b1SSxy = (-212.25)(-0.1347) =28.5901

Hallamos el estadístico de prueba F:

=

Se encuentra el valor crítico F0.05(1,6) = 5.99. Como F = 3.16<5.99, no rechazamos . Concluimos que la ecuación no debe usarse con propósitos

de predicción, y no tenemos evidencia que apoye que el modelo lineal es correcto para nuestros datos.

Prueba de hipótesis utilizando la distribución t

Otra manera de realizar la prueba de hipótesis es usando la distribución t.

El estadístico de prueba es:

, donde gl = n-2

Ejemplo 4: Usando los datos del ejemplo 1, haga una prueba para determinar si usando la prueba de t y .

Página 9

Page 9: ANALISIS DE REGRESION LINEAL · Web viewLa Regresión lineal se refiere a la predicción del valor de una variable a partir de una o más variables. En ocasiones se denomina a la

ANÁLISIS DE REGRESIÓN

=

Los valores críticos para gl = 6 son . Como –t.025 < t no rechazamos . Por tanto no tenemos evidencia que sugiera que el modelo lineal es apropiado para nuestros datos.

Análisis de correlación

Establece si existe una relación entre las variables y responde a la pregunta,”¿Qué tan evidente es esta relación?".La correlación es una prueba fácil y rápida para eliminar factores que no influyen en la predicción, para una respuesta dada. Coeficiente de Correlación de Pearson

Es una medida de la fuerza de la relación lineal entre dos variables x y y. Es un número entre -1 y 1 Un valor positivo indica que cuando una variable aumenta, la otra variable aumenta Un valor negativo indica que cuando una variable aumenta, la otra disminuye Si las dos variables no están relacionadas, el coeficiente de correlación se aproxima a 0.

El coeficiente de correlación r se calcula mediante la siguiente fórmula:

Página 10

Page 10: ANALISIS DE REGRESION LINEAL · Web viewLa Regresión lineal se refiere a la predicción del valor de una variable a partir de una o más variables. En ocasiones se denomina a la

ANÁLISIS DE REGRESIÓN

Ejemplo 5: En un esfuerzo por determinar la relación entre el pago anual de los empleados y el número de faltas al trabajo por causa de enfermedad, una corporación grande estudió los registros personales de una muestra de doce empleados. Los datos pareados aparecen en la siguiente tabla.

Página 11

Pago anualEmpleado (miles de dólares) Inasistencias

1 15.7 42 17.2 33 13.8 64 24.2 55 15 36 12.7 127 13.8 58 18.7 19 10.8 12

10 11.8 1111 25.4 212 17.2 4

Correlación PositivaEvidente

0

5

10

15

20

25

0 5 10 15 20 25

X

YCorrelación Negativa

Evidente

0

5

10

15

20

25

0 5 10 15 20 25

X

Y

CorrelaciónPositiva

0

5

10

15

20

25

0 5 10 15 20 25

X

Y

CorrelaciónNegativa

0

5

10

15

20

25

0 5 10 15 20 25

X

Y

Sin Correlación

10

15

20

25

5 10 15 20 25

XY

0

5

0

Correlación PositivaEvidente

0

5

10

15

20

25

0 5 10 15 20 25

X

YCorrelación Negativa

Evidente

0

5

10

15

20

25

0 5 10 15 20 25

X

Y

CorrelaciónPositiva

0

5

10

15

20

25

0 5 10 15 20 25

X

Y

CorrelaciónNegativa

0

5

10

15

20

25

0 5 10 15 20 25

X

Y

Sin Correlación

10

15

20

25

5 10 15 20 25

XY

0

5

0

Page 11: ANALISIS DE REGRESION LINEAL · Web viewLa Regresión lineal se refiere a la predicción del valor de una variable a partir de una o más variables. En ocasiones se denomina a la

ANÁLISIS DE REGRESIÓN

Determine el coeficiente de correlación e interprete el resultado.

SSxy = -130.06667SSx = 230.569167SSy = 164.666667

= -0.6675

En el diagrama de dispersión observamos que al aumentar x, y disminuye, por lo cual la correlación es negativa. Comparando el coeficiente de correlación calculado, con la tabla de correlaciones observamos que .66 > .58, por lo cual la correlación entre las variables es fuerte.

Página 12

Empleado x y x^2 y^2 xy1 15.7 4 246.49 16 62.82 17.2 3 295.84 9 51.63 13.8 6 190.44 36 82.84 24.2 5 585.64 25 121.05 15 3 225.00 9 45.06 12.7 12 161.29 144 152.47 13.8 5 190.44 25 69.08 18.7 1 349.69 1 18.79 10.8 12 116.64 144 129.6

10 11.8 11 139.24 121 129.811 25.4 2 645.16 4 50.812 17.2 4 295.84 16 68.8

SUMATORIA 196.3 68 3441.71 550 982.3

Diagrama de dispersión

02468

101214

0 5 10 15 20 25 30

Pago anual (miles usd)

Inas

iste

ncia

s

Serie1

Lineal (Serie1)

Page 12: ANALISIS DE REGRESION LINEAL · Web viewLa Regresión lineal se refiere a la predicción del valor de una variable a partir de una o más variables. En ocasiones se denomina a la

ANÁLISIS DE REGRESIÓN

Regresión lineal en ExcelMediante el uso de análisis de datos resolveremos el Ejemplo 1.Seleccione: herramientas > análisis de datos > regresión En la ventana seleccione el rango de entrada para X y Y, el rango de salida y seleccione la opción: gráfico de residuales y curva de regresión ajustada.

Página 13

Page 13: ANALISIS DE REGRESION LINEAL · Web viewLa Regresión lineal se refiere a la predicción del valor de una variable a partir de una o más variables. En ocasiones se denomina a la

ANÁLISIS DE REGRESIÓN

Página 15

Page 14: ANALISIS DE REGRESION LINEAL · Web viewLa Regresión lineal se refiere a la predicción del valor de una variable a partir de una o más variables. En ocasiones se denomina a la

ANÁLISIS DE REGRESIÓN

Análisis de resultados de la tabla de Excel:

Analizando los resultados de Excel, tenemos los siguiente:

En la sección Estadísticas de la regresión vemos que el coeficiente de correlación = .5873 comparando este valor con la tabla de correlaciones observamos que el valor .5873 < .71 lo cual indica una relación débil entre las variables. En la gráfica “de regresión ajustada” observamos que la correlación es negativa ya que al aumentar X, Y disminuye; Cabe mencionar que el coeficiente de correlación calculado por el sistema siempre es positivo, por lo cual debemos basarnos la gráfica de regresión para determinar el signo.

Ecuación de la regresión: Para obtener la ecuación de regresión usamos los coeficientes de los renglones Intercepción y variable X1, estos son 46.3909 y – 0.1347 respectivamente, siendo la ecuación de regresión: y = 46.3909- 0.1347X1.

Análisis de Varianza: La tabla muestra la suma de cuadrados de la regresión SSR = 28.5901, la suma de cuadrados de los residuos o error SSE = 54.2806, El promedio de los cuadrados de la regresión que es la varianza residual = 9.0468 . El sistema calcula

el valor de F dividiendo SSR/ como ya se trato anteriormente. El valor crítico F es menor que el valor F (0.125< 3.16), por lo que no tenemos evidencia para rechazar la H0:

, en consecuencia el modelo de regresión no es apropiado.

Análisis de residuos: muestra los pronósticos y residuos para cada observación, así como el gráfico de residuales, en el cual observamos inconsistencias ya que la mayoría de los puntos se encuentran en la región positiva.

ANÁLISIS DE REGRESIÓN MULTIPLE

Página 17

Page 15: ANALISIS DE REGRESION LINEAL · Web viewLa Regresión lineal se refiere a la predicción del valor de una variable a partir de una o más variables. En ocasiones se denomina a la

ANÁLISIS DE REGRESIÓN

En ocasiones la información de una variable independiente no es suficiente, por ejemplo en el caso de los autos compactos además de tener la variable del tamaño del motor, podríamos tener otras variables, que nos permitan tener mayor información como por ejemplo el peso del coche, el tipo de recorrido, el tamaño de las llantas, estos factores también influyen sobre la razón del consumo de gasolina.Cuando se usa más de una variable independiente para predecir los valores de una variable dependiente, el proceso se llama análisis de regresión múltiple, incluye el uso de ecuaciones lineales y no lineales, en este estudio nos ocuparemos de las ecuaciones de regresión lineales.

Ejemplo 6 Muchos programas de estudios premédicos usan los promedios de las calificaciones del MCAT de los estudiantes egresados como un indicador de la calidad de sus programas. Las variables que se sabe influencian esos promedios del MCAT(y) son: la combinación de las calificaciones del SAT en matemáticas y en oratoria (x1) y el GPA (x2) de los prospectos a médicos. La tabla muestra las medidas de x1, x2 y y de seis estudiantes que han cursado un programa de premedicina y que han presentado el MCAT

Con esta información podemos encontrar una ecuación lineal que nos permita predecir el promedio de calificaciones del MCAT para un estudiante si se conocen su GPA y su calificación combinada del SAT.La ecuación lineal para los datos del ejemplo tiene la forma Es posible encontrar los valores de b0, b1, y b2 usando el método de mínimos cuadrados, al igual que en el método de regresión lineal simple. El método en este caso requiere resolver tres ecuaciones lineales con tres incógnitas, estas ecuaciones, conocidas como ecuaciones normales, son:

Página 18

Calificación Calificación pro-Estudiante SAT (X1) GPA (X2) medio del MCAT (Y)

1 1200 3.8 12.42 1350 3.4 13.33 1000 2.9 9.24 1250 3.3 10.65 1425 3.9 13.26 1340 3.1 11.2

Page 16: ANALISIS DE REGRESION LINEAL · Web viewLa Regresión lineal se refiere a la predicción del valor de una variable a partir de una o más variables. En ocasiones se denomina a la

ANÁLISIS DE REGRESIÓN

La siguiente tabla organiza los cálculos para obtener las ecuaciones:

Las ecuaciones normales para este ejemplo son:

Resolviendo el sistema de ecuaciones lineales obtenemos:

b0 = -2.537, b1=0.005425, b2 = 2.161.

La ecuación de regresión es:

Suma de cuadrados

La suma total de cuadrados SST, se descompone en dos componentes: suma de cuadrados para la regresión, y suma de cuadrados del error.

SST = SSR + SSE La suma de cuadrados para la regresión es aquella parte de la suma total de cuadrados que se atribuye a las variables independientes. Mientras que la suma de cuadrados del error es aquella porción de la suma de cuadrados total y que no se debe a las variables independientes, por ello se llama suma de cuadrados del error.

Grados de libertad para la regresión:

donde:k = número de variables independientes

Cálculo de cuadrados medios:

Página 19

X1 X2 Y X1^2 X2^2 X1X2 X1Y X2Y1200 3.8 12.4 1440000 14.44 4560 14880 47.121350 3.4 13.3 1822500 11.56 4590 17955 45.221000 2.9 9.2 1000000 8.41 2900 9200 26.681250 3.3 10.6 1562500 10.89 4125 13250 34.981425 3.9 13.2 2030625 15.21 5557.5 18810 51.481340 3.1 11.2 1795600 9.61 4154 15008 34.727565 20.4 69.9 9651225 70.12 25886.5 89103 240.2

Page 17: ANALISIS DE REGRESION LINEAL · Web viewLa Regresión lineal se refiere a la predicción del valor de una variable a partir de una o más variables. En ocasiones se denomina a la

ANÁLISIS DE REGRESIÓN

Donde:MSR= Cuadrado medio de la regresiónMSE= Cuadrado medio del error.

Prueba de hipótesis

Para determinar si el modelo lineal describe adecuadamente los datos, se usa la prueba F.Para los datos del ejemplo las hipótesis son:

El valor del estadístico F se encuentra dividiendo MSR entre MSE.

Buscando el valor crítico para =7.71.Como 7.71 > 7.20 no podemos rechazar H0, lo cual nos indica que podría ser arriesgado utilizar la ecuación de regresión con propósitos predictivos.

Coeficiente de determinación múltiple

Utilizando los datos del ejemplo:

Esto significa que aproximadamente el 83% de la variación en el promedio de las calificaciones se atribuye a la variación de las variables independientes y solamente el 17% de la variación de la variable dependiente no se atribuye a eso.

Regresión múltiple en Minitab

Página 20

Page 18: ANALISIS DE REGRESION LINEAL · Web viewLa Regresión lineal se refiere a la predicción del valor de una variable a partir de una o más variables. En ocasiones se denomina a la

ANÁLISIS DE REGRESIÓN

Ejemplo 7 La tabla enlista el consumo de combustible en millas por galón bajo condiciones normales de manejo, los pesos de los coches en libras y la capacidad del motor en cc para seis coches deportivos modelo 1990.

a) Determine una ecuación de regresión para predecir el promedio de consumo de combustible usando la capacidad del motor y el peso, y calcule el coeficiente de determinación R2.

Una vez capturados los datos de las variables en Minitab seleccionamos STAT>REGRESIÓN>REGRESIÓN y se presenta la siguiente pantalla

Seleccionamos la variable de respuesta (response) que corresponde a la Columna 3 C3, y las variables de predicción (predictors): C1 y C2.

Página 21

Page 19: ANALISIS DE REGRESION LINEAL · Web viewLa Regresión lineal se refiere a la predicción del valor de una variable a partir de una o más variables. En ocasiones se denomina a la

ANÁLISIS DE REGRESIÓN

Damos Clic en el Icono Graphs, y en la opción gráficos de residuos “residual plots” dejamos la opción que el sistema da por de fault: “Regular”. y seleccionamos la opción residual vs. fits y normal plot of residuals. También existen otras opciones de gráficos que podemos usar en caso de ser necesario.

Página 22

Page 20: ANALISIS DE REGRESION LINEAL · Web viewLa Regresión lineal se refiere a la predicción del valor de una variable a partir de una o más variables. En ocasiones se denomina a la

ANÁLISIS DE REGRESIÓN

En la opción Resultados “Results” seleccionamos el circulo: Regresión equation....

Damos clic en ok.

Regression AnalysisThe regression equation isC3 = 10,9 - 0,00050 C1 + 0,00270 C2

Predictor Coef StDev T PConstant 10,91 12,90 0,85 0,460C1 -0,000496 0,001329 -0,37 0,734C2 0,002702 0,004982 0,54 0,625

S = 2,805 R-Sq = 9,1% R-Sq(adj) = 0,0%

Analysis of Variance

Source DF SS MS F PRegression 2 2,368 1,184 0,15 0,866Residual Error 3 23,605 7,868Total 5 25,973

Analizando los resultados tenemos:

De la tabla resultante podemos determinar que la ecuación de Regresión es Y = 10.9 – 0.00050X1+.00270X2Donde X1 representa el tamaño del motor (capacidad) y X2 el peso del coche, Y representa el rendimiento predicho para el consumo del combustible.El coeficiente de determinación R-Sq o R2 es 9.1% y esto indica que el 9.1% de la variación en el consumo de combustible se atribuye a la capacidad y al peso. El 90.9% no se atribuye a estas variables.

Página 23

Page 21: ANALISIS DE REGRESION LINEAL · Web viewLa Regresión lineal se refiere a la predicción del valor de una variable a partir de una o más variables. En ocasiones se denomina a la

ANÁLISIS DE REGRESIÓN

Examinando el valor del estadístico F(F=0.15), que es significativo al nivel P = 0.866 concluimos que el modelo no es adecuado para fines de predicciòn en un nivel

Analizando los gráficos anteriores, podemos observar en el grafico de probabilidad que las observaciones aparentan ser normales. Sin embargo en el gráfico de residuales observamos una tendencia ya que la mayoría de los puntos se encuentran a bajo del cero.

Página 24

43210-1-2

1

0

-1

Nor

mal

Sco

re

Residual

Normal Probability Plot of the Residuals(response is C3)

191817

4

3

2

1

0

-1

-2

Fitted Value

Res

idua

l

Residuals Versus the Fitted Values(response is C3)