Analisis de Regresion Lineal

8
ANALISIS DE REGRESION LINEAL la regresión lineal se refiere a la predicción del valor de una variable a partir de una o mas variables. En ocasiones se denomina a la variable dependiente (y) variabe de respuesta y a la variable independiente (x) variable de predicción. En muchos problemas hay dos o mas varianbles inherentes relacionadas, y es necesario explorar la naturaleza de esta relación. El análisis de regresión, puede emplearse por ejemplo para construir un modelo que exprese el rendimiento como una función de la temperatura. Este modelo puede utilizarse luego para predecir el rendimiento en un nivel determnado de temperatura. Tambien puede emplearse con propósito de optimización o control del proceso. Comenzaremos con el caso mas sencillo, la predicción de una variable (y) a partir de otra variable (X) RGRESIÓN LINEAL SIMPLE Para las sitiuaciones siguiente establezca cual es la variable dependiente y cual es la independiente. a) Un actuario quiere predecir el monto del seguro de vida alcanzado por los maestros a partir de sus salarios mensuales. b) El gerente de un restaurante quiere estimar el numero de clientes que puede esperar a cierta noche a partir de un numero de reservaciones para cnar recibidas desde las 5:00 PM Solucion: el numero de clientes es la variable de respuesta, el numero de reservaciones es la variable independiente. SUPUESTO PARA EL MODELO DE REGRESION LINEAL. 1. Para cada valor de x, la variable aleatoria ɛ se distribuye normalmente. 2. Para cada valor de x, la media o valor esperado de ɛ es 0; esto es, E(ɛ)= μ × =0 3. Para cada valor de x, la varianza de ɛ esla constante de σ 2 (llamada varianza del error) 4. Para los valores del termino de error ɛ son independientes

Transcript of Analisis de Regresion Lineal

Page 1: Analisis de Regresion Lineal

ANALISIS DE REGRESION LINEAL

la regresión lineal se refiere a la predicción del valor de una variable a partir de una o mas variables. En ocasiones se denomina a la variable dependiente (y) variabe de respuesta y a la variable independiente (x) variable de predicción.

En muchos problemas hay dos o mas varianbles inherentes relacionadas, y es necesario explorar la naturaleza de esta relación. El análisis de regresión, puede emplearse por ejemplo para construir un modelo que exprese el rendimiento como una función de la temperatura. Este modelo puede utilizarse luego para predecir el rendimiento en un nivel determnado de temperatura. Tambien puede emplearse con propósito de optimización o control del proceso.

Comenzaremos con el caso mas sencillo, la predicción de una variable (y) a partir de otra variable (X)

RGRESIÓN LINEAL SIMPLE

Para las sitiuaciones siguiente establezca cual es la variable dependiente y cual es la independiente.

a) Un actuario quiere predecir el monto del seguro de vida alcanzado por los maestros a partir de sus salarios mensuales.

b) El gerente de un restaurante quiere estimar el numero de clientes que puede esperar a cierta noche a partir de un numero de reservaciones para cnar recibidas desde las 5:00 PM Solucion: el numero de clientes es la variable de respuesta, el numero de reservaciones es la variable independiente.

SUPUESTO PARA EL MODELO DE REGRESION LINEAL.

1. Para cada valor de x, la variable aleatoria ɛ se distribuye normalmente.2. Para cada valor de x, la media o valor esperado de ɛ es 0; esto es, E(ɛ)=μ×=0

3. Para cada valor de x, la varianza de ɛ esla constante de σ 2 (llamada varianza del error)4. Para los valores del termino de error ɛ son independientes5. Para un valor fijo de x, la distribuccion muestral de (y) es normal, porque sus valores

dependen de los de ɛ.

6. Para un valor fijo x, es posible predecir el valor de y.

Page 2: Analisis de Regresion Lineal

ANALISIS DE REGRESION LINEAL

7. Para un valor fijo x,es posible estimar el valor promedio de y.

Ejemplo 1:

La revista motor trend presenta con frecuencia datos de rendimiento para automóviles, que compara el tamaño del motor en pulgadas cubicas de desplazamiento (pcd) y las millas por galon(mpg) estimadas para ocho modelos representativos de automóviles subcompactos modelo 1984.

Graficando los datos de la tabla en el “diagrama de dispersión” podemos observar la colección de las ocho pares de datos (x,y) como muestra de una población de pares,donde las medidas pulgadas cubicas de desplazamiento (pcd)”x”. pueden tomar cualquier valor en el rango de valores que se extiende de 85 a 122. Para cada pcd posible hay muchos millajes asociados con ella. Por ejemplo para un tamaño de motor de 97 hay un gras numero de millajes asociados, uno por cada coche cuyo tamaño sea 97 pcd. Asumamos que existe una relación lineal para la población de pares de datos de pcd y mpg. (se extiende por relación lineal cuando la variable (Y) tiene una tendencia a crecer o decrecer, cuando la variable (x) aumenta)

coches compactos tamaño del motor (pcd) x millas/galón (mpg), yChevrolet Cavalier 121 30Datsun Nissan Stanza 120 31Dodge Omni 97 34Ford Escort 98 27Mazda 626 122 29Plymouth Horizon 97 34Renault Alliance/Encore 85 38Toyota Corolla 122 32

Page 3: Analisis de Regresion Lineal

ANALISIS DE REGRESION LINEAL

Usamos el modelo probabilístico siguiente para explicar el comportamiento de los millajes para las ocho medidas de tamaño de motor, este se llama modelo de regresión lineal, y expresa ña relación lineal entre tamaño de motor (x) y millas por galon (y).

Modelo de regresión lineal

Y= β0+β1×+ε

Donde :

y = variable dependiente

β0=ordenada al origen

β1 = pendiente

x = variable independiente

ε = Error aleatorio

La expresión β0+β1 x se denomina componente determinista del modelo de regresión lineal.

La muestra de pares de datos se usara para estimar los parámetros β0 yβ1 de la componente

deterministica.

La diferencia principal entre un modelo probabilístico y uno deterministico es la conclucion de un termino de error aleatorio en el modelo probabilístico. En el ejemplo los diferentes rendimientos para un mismo tamaño de motor se atribuyen al termino de error en el modelo de regresión.

Calculo de ecuación de regresión.

También es llamda ecuación de predicción de minimos cuadrados. La ecuación de regresión

estimada es: y=b0+b1 x .

Donde :

y= Valor predicho de y para un valor particular de x.

b0 = Estimador puntual de β0 .(ordenada al origen)

b1= Estimador puntual de β1. (pendiente)

Page 4: Analisis de Regresion Lineal

ANALISIS DE REGRESION LINEAL

Para el cálculo de b0 y b1 se utilizamos las siguientes fórmulas:

SSx=∑ x2−(∑ x )2

n

SS y=∑ y2−(∑ y )2

n

SSxy=∑ xy−(∑ x ) (∑ y )

n

b1=SS xySSx

b0= y−b1 x

Donde:

SS = suma de cuadrados

b1 = pendiente

b0 = ordenada al origen

n = número de pares de datos

En la tabla incluimos las sumatorias que utilizaremos para el calculo de las formulas.

Calculando b0 yb1 tenemos:

SSx= 1575.5 SSy= 82.88 SSxy= -212.25 b1=-0.13472 b0= 46.39099

coches compactos tamaño del motor (pcd) x millas/galón (mpg), y x^2 y^2 xyChevrolet Cavalier 121 30 14641 900 3630Datsun Nissan Stanza 120 31 14400 961 3720Dodge Omni 97 34 9409 1156 3298Ford Escort 98 27 9604 729 2646Mazda 626 122 29 14884 841 3538Plymouth Horizon 97 34 9409 1156 3298Renault Alliance/Encore 85 38 7225 1444 3230Toyota Corolla 122 32 14884 1024 3904SUMAS 862 255 94456 8211 27264Media 107.75 31.875

Page 5: Analisis de Regresion Lineal

ANALISIS DE REGRESION LINEAL

La ecuación de predicción de mínimos cuadrados es:

y=b0+b1 x . => y=46 .39099−0 .37472x

Error

Los errores se denominan frecuentemente residuales. Podemos observar en la gráfica de regresión los errores indicados por segmentos verticales.

Gráfica de la ecuación de regresión

y =46.391 -0.1347x

0

10

20

30

40

50

0 50 100 150

Variable X

Y

Y

Lineal (Y)

Page 6: Analisis de Regresion Lineal

ANALISIS DE REGRESION LINEAL

Al usar el criterio de mínimos cuadrados para obtener la recta que mejor se ajuste a nuestros datos, podemos obtener el valor mínimo para la suma de cuadrados del error (SSE)

SSE=SS y−b1 SSxy

A la varianza de los errores e se le llama varianza residual siendo denotada por se2

, se encuentra dividiendo SSE entre n-2

Se2= SSEn−2

La raíz cuadrada positiva de la varianza residual se llama error estándar de estimación y se denota por Se.

Aplicando las fórmulas en obtenemos la suma de cuadrados del error, la varianza residual y el error estándar de la estimación:

SSE = 82.88-(-0.13472)(-212.25) =54.2849

Se2=54 .2849

6=9.0475

Se = 3.007

¿Qué tan normales son los residuales?

¿Residuales individuales -tendencias; o separados?

Histograma -¿curva de campana?

Ignórese para grupos pequeños de información

(<30)

¿Aleatorio alrededor de

cero, sin tendencias?Buscar las inconsistencias

mayores

Buscar las inconsistenciasmayores

Diagnóstico del Modelo de ResidualesGráfica Normal de Residuales Tabla de Residuales

Histograma de Residuales Residuales vs. Ajustes

Marcador Normal Número de Observación

Ajuste

Fre

cue

nci

a

151050-5-10-15-20-25

3

2

1

0

1050

50403020100

-10-20-30-40-50

X=0.000

3.0SL=43.26

-3.0SL=-43.26

550500450

20

10

0

-10

-20

210-1-2

20

10

0

-10

-20

151050-5-10-15-20-25

3

2

1

0

1050

50403020100

-10-20-30-40-50

X=0.000

3.0SL=43.26

-3.0SL=-43.26

550500450

20

10

0

-10

-20

210-1-2

20

10

0

-10

-20

Res

idu

al

Res

idu

al

Res

idu

al

Page 7: Analisis de Regresion Lineal

ANALISIS DE REGRESION LINEAL

Bibliografía :

Estadística, Richard C. Weimer, CECSA, Segunda edición, 2000

http://es.wikipedia.org/wiki/Regresi%C3%B3n_lineal