Download - Analisis de Regresion y Correlacion

3. ANALISIS DE REGRESION Y CORRELACION

3.1. INTRODUCCION. En la realidad cotidiana encontramos muchos fenmenos donde se observa que existe una relacin entre dos ms variables por ejemplo: a) nmero de clientes y ventas semanales. b) cantidades de ventas hechas por varios vendedores y los aos de experiencia de cada vendedor. Con el fn de expresar esta relacin en forma matemtica (ecuacin que relacione las variables) hacemos uso del anlisis de regresin el cul bsicamente se utilizar para hacer predicciones, el objetivo es predecir los valores de una variable repuesta dependiente (a menudo se identifica con la letra y ) basados en los valores de una variables independiente explicatora (que por lo general se identifica con la letra x), y para medir la intensidad de la asociacin de las variables se usar el anlisis de correlacin.

3.2. DIAGRAMA DE DISPERSION. (Diagrama de esparcimiento nube de datos) El primer paso del anlisis de regresin es coleccionar los datos indicando el valor de las variables (tabla 1.) y se representa en un sistema de coordenadas cartesianas, al conjunto de estos puntos se le llama: diagrama de dispersin (ver grfica).

Tabla 1. Nmero de clientes y Ventas semanales (muestra 20 almacenes)

Almacenes Clientes Ventas 1 907 11.20 2 926 11.05 3 506 6.84 4 741 9.21 5 789 9.42 6 889 10.08 7 874 9.45 8 510 6.73 9 529 7.24

10 420 6.12 11 679 7.63 12 872 9.43 13 924 9.46 14 607 7.64 15 452 6.92 16 729 8.95 17 794 9.33 18 844 10.23 19 1010 11.77 20 621 7.41

- 24 -

02468

101214

0 500 1000 1500

Ven

tas

sem

anal

es

Nmero de clientes

Diagrama de dispersin de las ventas semanales y nmero de

clientes

En este diagrama observamos una lnea que representa aproximadamente los datos, a la cul se le denomina: lnea interpolante.

3.3. TIPOS MODELOS DE REGRESION. La naturaleza de la relacin puede tomar formas desde las ms sencillas hasta la funciones matemticas complicadas. La ms sencilla es la relacin lineal como la del ejemplo y que se representa por: Y = a + bx + error El modelo matemtico apropiado que se debe seleccionar est influenciado por la distribucin de los valores de x y y en el diagrama de dispersin, como ejemplo tenemos los siguientes de la grfica de abajo. En el panel A sera como el ejemplo, en el B que sera una relacin lineal negativa, un ejemplo podra ser el precio de un producto y las ventas. En el panel C no observamos ninguna relacin entre variables. El panel D muestra una relacin curvilnea positiva entre X y Y. Los valores de y aumentan al aumentar x pero luego este incremento disminuye cuando se sobrepasan ciertos valores de x, un ejemplo podra ser la edad y el costo de mantenimiento de una mquina, el panel E muestra una relacin parablica en forma de U, entre X y Y. Conforme aumenta X al principio Y disminuye pero a medida que X sigue incrementndose y no solamente deja de disminuir sino que en realidad aumenta por encima de su valor mnimo. Un ejemplo podra ser el nmero de errores por hora cometidos en una cierta tarea y el nmero de horas trabajadas en ella. En el panel F se presenta una relacin exponencial curvilnea negativa, Y disminuye rpidamente en la medida que X aumenta, pero luego la disminucin se hace ms lenta conforme X sigue aumentando. Un ejemplo sera el valor de reventa de un tipo particular de automvil con respecto a su antigedad.

A F

B C

D E

- 25 -

010

2030

40

5060

7080

90

0 2 4 6 8 10

Series1

0102030405060708090

0 2 4 6 8 10

Series1

0

10

20

30

40

50

60

70

80

90

0 2 4 6 8 10

Series1

0

10

20

30

40

50

60

70

80

0 2 4 6 8 10

Series1

0

1000

2000

3000

4000

5000

6000

0 20 40 60 80

01020

30405060

708090

0 5 10 15 20 25

Series1

3.4. USO DE ECUASIONES NORMALES. 3.5. ERROR ESTNDAR DE LA ESTIMACION. 3.6. METODO DE MINIMOS CUADRADOS. El Tipo mas simple de curva de regresin es el de la

lnea recta, aunque como ya vimos pueden existir otros tipos, lo que al final buscamos es encontrar la lnea que mejor se ajusta a los datos matemticamente esto significa hallar la lnea que minimice la suma de los cuadrados de las distancias entre la lnea del modelo y los puntos de la base de datos original (medidas en direccin vertical y); para esto se requiere del clculo diferencial (ver apndice B en Estadstica para negocios de Hanke). Con las siguientes frmulas encontraremos la pendiente (b) y la ordenada al origen de la recta de regresin muestral.

Donde: x = suma de valores de x. y = suma de valores y

x^2 = suma de los cuadrados de los valores de x (x)^2= cuadrado de la suma de los valores de x xy = suma de productos de x e y para cada observacin pareada n = nmero de observaciones x-y

Para estos clculos desarrollamos la siguiente hoja electrnica.

Con estos resultados realizamos los clculos:

b = 0.00873 - 26

= 22 )())((

xxn

yxxynb

n

xbn

ya

=

x y xy x^2 y^21 907 11.2 10158.4 822649 125.442 926 11.05 10232.3 857476 122.10253 506 6.84 3461.04 256036 46.78564 741 9.21 6824.61 549081 84.82415 789 9.42 7432.38 622521 88.73646 889 10.08 8961.12 790321 101.60647 874 9.45 8259.3 763876 89.30258 510 6.73 3432.3 260100 45.29299 529 7.24 3829.96 279841 52.4176

10 420 6.12 2570.4 176400 37.454411 679 7.63 5180.77 461041 58.216912 872 9.43 8222.96 760384 88.924913 924 9.46 8741.04 853776 89.491614 607 7.64 4637.48 368449 58.369615 452 6.92 3127.84 204304 47.886416 729 8.95 6524.55 531441 80.102517 794 9.33 7408.02 630436 87.048918 844 10.23 8634.12 712336 104.652919 1010 11.77 11887.7 1020100 138.532920 621 7.41 4601.61 385641 54.9081

14623 176.11 134127.9 11306209 1602.0971

2)14623()11306209(20)1.176)(14623()9.134127(20

=b

La ecuacin para la mejor lnea recta que se ajusta a estos datos es:

Y = 2.423 + .00873 x

Este modelo de regresin que ha sido ajustado a los datos puede utilizarse ahora para predecir las ventas semanales. Por ejemplo, digamos que nos gustara utilizar el modelo para predecir las ventas semanales de una tienda con 600 clientes. Podemos determinar el valor predicho si hacemos X = 600 en nuestra ecuacin:

Y = 2.423 + 0.00873 ( 600 ) = 7.661

Cuando se hacen predicciones fuera del rango de los valores originales se presupone que la relacin ajustada es vlida para todos los valores, en donde debe de tenerse cuidado pues el alcance relevante que tenamos ahora se ha convertido en una extrapolacin. Cuando el calculo se realiza dentro del rango estamos hablando de una interpolacin.

3.7. COEFICIENTE DE CORRELACION. El coeficiente de correlacin es un valor entre 1 y +1 que indica la fuerza de la relacin lineal. Para una poblacin se identifica como (la letra griega rho) y para una muestra se identifica como r. El valor de 1 indica una relacin lineal negativa perfecta, +1 una relacin lineal positiva perfecta y 0 indica que no hay relacin lineal. La siguiente ecuacin se usa para calcular este coeficiente:

En el ejemplo que venimos desarrollando:

Esto indica un grado de correlacin bastante aceptable.

3.7. MEDICIONES DE VARIACION EN REGRESION Y CORRELACION. Con el fin de examinar que tan bien una variable independiente predice a la variable dependiente en nuestro modelo estadstico, necesitamos desarrollar algunas medidas de variacin. La primera de ellas es la SUMA TOTAL DE CUADRADOS (SST), que es una medida de la variacin de los valores Yi alrededor de su media, Y. Esta se divide en: VARIACION EXPLICADA SUMA DSE CUADRADOS DEBIDA A LA REGRESION (SSR) que se puede atribuir a la relacin entre X y Y; y la VARIACION NO EXPLICADA SUMA DE CUADRADOS DEL ERROR (SSE), que se puede atribuir a factores diferentes a la relacin entre X y Y.

- 27

423.220

)14623(00873.020

11.176==a

=2222 )()(

))((yynxxn

yxxynr

9555.0)11.176()0971.1602(2014623)11306209(20

)11.176)(14623()9.134127(2022

=

=r

==

222)( YnYYYSST

== XYbYaYYYSSE 22)(

SSESSTyySSR ==

2)(

+= 2ynxybyaSSR

En el ejemplo:

SSE = 1602.0971-(2.423)(176.11)-(0.00873)(134127.90)=4.446

SST = 1602.0971-20(8.8055)^2 = 51.3605

SSR = (2.423)(176.11)+(0.00873)(134127.90)-20(8.8055)^2=46.9145

SST = SSR + SSE

51.3605 = 46.9145 + 4.446

COEFICIENTE DE DETERMINACIN r^2 puede definirse como:

913.03605.519145.462

====

SSTSSR

cuadradostotalsumaregresindebidocuadradossuma

r

El coeficiente de correlacin puede calcularse tambin a travs de calcular la raz cuadrada del coeficiente de determinacin. (comprobar esto con el resultado obtenido por la frmula.

EL ERROR ESTANDAR DE LA ESTIMACIN

La ecuacin de regresin no es un pronosticador perfecto, en realidad es un pronosticador aproximado. La medida de la variabilidad alrededor de la lnea de regresin (su variacin estndar) se conoce como error estndar de la estimacin. La forma de calcular este error estndar es:

2)( 2

=

n

ypyS yx

El clculo puede simplificarse debido a la siguiente identidad:

= xybyayypy 22)(

Quedando de la siguiente forma:

2

2

=

n

xybyayS yx

En el ejemplo:

497.0220

)90.134127)(00873.0()11.176)(423.2(0971.1602=

=yxS

Con esta informacin podramos construir intervalos de confianza para la ecuacin sumndole el valor (Syx) (z) a la ecuacin encontrada. El z variar dependiendo del nivel de confianza que deseemos.