ANÁLISIS DE REGRESIÓN Y CORRELACIÓN LIC. OSCAR NOÉ LÓPEZ CORDÓN [email protected]...

57
ANÁLISIS DE REGRESIÓN Y CORRELACIÓN LIC. OSCAR NOÉ LÓPEZ CORDÓN [email protected] ESTADÍSTICA I

Transcript of ANÁLISIS DE REGRESIÓN Y CORRELACIÓN LIC. OSCAR NOÉ LÓPEZ CORDÓN [email protected]...

ANÁLISIS DE REGRESIÓN Y CORRELACIÓN

LIC. OSCAR NOÉ LÓPEZ CORDÓ[email protected]

ESTADÍSTICA I

Algunos Ejemplos de Variables y su relación

¿Existe alguna relación entre la cantidad que Healthtex gasta por mes en publicidad y sus ventas mensuales?

Con base en el costo de calefacción de una casa en el mes de enero. ¿Es posible estimar el área de la casa?

¿Hay alguna relación entre las millas por galón que rinde una camioneta grande y el tamaño del motor?

¿Hay alguna relación entre el número de horas que estudiaron los alumnos para un examen y la calificación que obtuvieron?

Movimientos Seculares o de Larga Duración (Tendencia Lineal)

Movimientos Cíclicos Movimientos Estacionales Movimientos Irregulares o al Azar

CLASIFICACIÓN DE MOVIMIENTOS, VARIACIONES O PATRONES DE LAS SERIES

Es la que puede señalarse en una línea recta o curva suave, y puede ser ascendente o descendente.

TENDENCIA LINEAL

REGRESIÓN Y CORRELACIÓN

LOS ANÁLISIS DE REGRESIÓN Y DE CORRELACIÓN ESTÁN BASADOS EN LA RELACIÓN O ASOCIACIÓN, ENTRE 2 O MÁS VARIABLES:•UNA VARIABLE CONOCIDA LLAMADA VARIABLE INDEPENDIENTE. •LA VARIABLE QUE SE ESTÁ TRATANDO DE PREDECIR ES LA VARIABLE DEPENDIENTE.

LA REGRESIÓN Y LOS ANÁLISIS DE CORRELACIÓN MUESTRAN COMO DETERMINAR TANTO LA NATURALEZA COMO LA FUERZA DE UNA RELACIÓN ENTRE DOS VARIABLES.

6

La Regresión y la correlación son dos técnicas estadísticas que se pueden utilizar para solucionar problemas comunes en los negocios.Muchos estudios se basan en la creencia de que es posible identificar y cuantificar alguna Relación Funcional entre dos o más variables, donde una variable depende de la otra variable.Se puede decir que Y depende de X, en donde Y y X son dos variables cualquiera en un modelo de Regresión Simple.

REGRESIÓN Y CORRELACIÓN

Métodos para obtener una línea recta y su ecuación:

Método Gráfico, de Mano Alzada o Mano Libre, Método de Semipromedios, Método de Promedios Móviles y Método de Mínimos Cuadrados.

Para el ajuste de la línea se utiliza el Método de Mínimos Cuadrados, con la Ecuación de la

Línea Recta:

Y = a + bx

Y cuando se usa para describir la tendencia es escrita así:

Yc = a + bx

Método de Mínimos Cuadrados:

ANALISIS DE REGRESIÓN

Es la técnica mas usada en investigación económica y comercial para buscar una relación entre 2 o mas variables ligadas de un modo causal.

Consiste en general en: una función a partir de datos o información conocida para hacer estimaciones .

TIPOS ANÁLISIS DE REGRESIÓN

a) REGRESION LINEAL SIMPLESe refiere al análisis de 2 variables.

b) REGRESION MÚLTIPLECuando se relacionan 3 o mas variables.

Regresión Lineal Simple

EN EL ANÁLISIS DE REGRESIÓN SE DESARROLLA UNA ECUACIÓN DE ESTIMACIÓN, ESTO ES, UNA FÓRMULA MATEMÁTICA QUE RELACIONA LAS VARIABLES CONOCIDAS CON LA VARIABLE DESCONOCIDA.

12

Modelo de Regresión

1212

 

En el Modelo de Regresión es muy importante identificar cuál es la variable dependiente y cuál es la variable independiente. En el Modelo de Regresión Simple se establece que “Y” es una función de sólo una variable independiente, razón por la cual se le denomina también Regresión Divariada porque sólo hay dos variables, una dependiente y otra independiente y se representa así:

13

Modelo de Regresión

1313

La variable dependiente es la variable que se desea explicar, predecir. También se le llama REGRESANDO ó VARIABLE DE RESPUESTA.

La variable Independiente «X» se le denomina VARIABLE EXPLICATIVA ó REGRESOR y se le utiliza para EXPLICAR «Y» 

14

Técnicas más utilizadas en el análisis de regresión lineal

simple

1) ORDENAMIENTO Y ANÁLISIS DE LA INFORMACIÓN ORIGINAL2) DIAGRAMA DE DISPERSIÓN E INTERPRETACIÓN

EL PRIMER PASO PARA DETERMINAR SI EXISTE O NO UNA RELACIÓN ENTRE DOS VARIABLES ES ANALIZAR LA GRÁFICA DE DATOS OBSERVADOS.

1414

15

Técnicas más utilizadas en el análisis de regresión lineal

simple

LA GRÁFICA SE LLAMA DIAGRAMA DE DISPERSIÓN Y ES UN DIAGRAMA QUE NOS PUEDE DAR DOS TIPOS DE INFORMACIÓN:•(VISUALMENTE) PATRONES QUE NOS INDIQUEN QUE LAS VARIABLES ESTÁN RELACIONADAS•ENTONCES (SI ESTO SUCEDE), PODEMOS VER QUE TIPO DE LÍNEA, O ECUACIÓN DE ESTIMACIÓN, DESCRIBE ESTA RELACIÓN.

16

Diagrama de Dispersión

1616

Es una gráfica con datos muestrales apareados (x, y) en un sistema de ejes rectangular, y cada par ordenado representa un solo punto. Sirve más para visualizar la asociación entre las variables que las gráficas de barras de los hechos aislados, que nos muestran tendencias al estar ordenados en una secuencia temporal.

Al observar una gráfica debemos “ver”Existe un patrón?Que dirección tiene?Si una variable se incrementa, que sucede con la otra?Existen datos distantes?

17

Diagramas de Dispersión

1717

  

Tipos de relaciones lineales:

RELACION LINEAL ASCEDENTERELACION LINEAS DESCENDENTERELACION LINEAL CURVILÍNEARELACION LINEAL CONSTANTE

REGRESIÓN LINEAL SIMPLE

Para este análisis es necesario ajustar los datos a una línea recta, para poder estimar una variable con relación a otra. Para esto utilizamos la ecuación de la línea recta:

Y = a+ bx === yc = a+ bx = Ecuación

de Regresión

Donde:

Yc = Variable estimada o calculada.a y b = Coeficientes de regresión.X = Variable que sirve para estimar la otra variable. Predictor en base a ella se estima el predictando.

(Variable Independiente).Y = Constituye la Variable a estimar y

recibeel nombre de Predictando. (Variable Dependiente).

ECUACIONES NORMALES:

y = n.a + X b

Xy = X a + X^2b

FÓRMULAS PARA ENCONTRAR "a" y "b":

a = x^2 (y - xxy n(x ^2) - x^2

b = n(xy) - xy n(x ^2) - x^2

ERROR ESTANDAR DE REGRESIÓN:(SÍMBOLO Syx)

Mide el grado de error de las estimaciones alrededor de la línea de regresión; si este es igual a cero ( 0 ) se dirá que existe una estimación perfecta.

Propiedades de Syx;

Yc, +, - Syx = Agrupa aproximadamente al 68.26% de los datos.

Yc , +, - 2 (Syx)= Agrupa aproximadamente al 95.46% de los datos.

Yc , +, - 3 (Syx) = Agrupa aproximadamente al 99.72% de los datos.

Hay dos formas de calcularlo:

1.) VARIANZA NO EXPLICADA (VE) ___________Syx = (y- yc)^2 n-2

2.) FORMULA GENERAL

Syx = y^2 - y a - XY b n-2

INTERVALO DE CONFIANZA:

Yc +- Z. Syx

Análisis de Correlación

EL ANÁLISIS DE CORRELACIÓN SE APLICA PARA DETERMINAR EL GRADO EN EL QUE ESTÁN RELACIONADAS LAS VARIABLES. EL ANÁLISIS DE CORRELACIÓN, INDICA QUÉ TAN BIEN ESTÁN RELACIONADAS LAS VARIABLES. EL ANÁLISIS DE CORRELACIÓN, MUESTRA QUE TAN BIEN LA ECUACIÓN DE ESTIMACIÓN REALMENTE DESCRIBE LA RELACIÓN

2626

ANALISIS DE CORRELACIÓN :

Mide el grado de asociación de dos o más variables. La correlación también se puede usar por si misma para medir el grado de asociación de dos variables.

SÍMBOLO " r "

28

Coeficiente de Correlación Lineal “r”

Mide la fuerza de la relación lineal entre dos valores cualitativos apareados, en una muestra. También se llama “Coeficiente de correlación producto momento de Pearson.”.

Si r es igual a 0 = no existe correlación

Si r mayor que 0 = correlación positivaSi r menor que 0 = correlación negativaSi r es igual a menos 1 = correlación

perfecta negativaSi r es igual a uno = correlación perfecta

positiva.

Los límites o extremos del coeficiente de correlación son –1 y 1.

30

Coefifiente de Correlación - Interpretación

Mapa de DispersiónMapa de Dispersión

Correlación perfecta positiva r = 1Correlación perfecta positiva r = 1

Mapa de DispersiónMapa de Dispersión

Correlación perfecta negativa r = -1Correlación perfecta negativa r = -1

Mapa de DispersiónMapa de Dispersión

No hay correlación r = 0No hay correlación r = 0

COEFICIENTE DE DETERMINACIÓN:

Es la forma primaria por la cual se puede medir la extensión o fuerza, de la asociación que existe entre 2 variables X y Y.

r^2= a (y) + b (xy) - n ( y )^2 y - n ( y ) ^2

Dónde y = x/n

COEFICIENTE DE CORRELACIÓN:

Sirve para medir la relación entre dos variables. Es la segunda medida que se pueda usar para describir lo bien que una variable se explica por otra. Cuando se está tratando de muestras, el coeficiente de correlación se denota por “1” y es la raíz cuadrada del coeficiente de determinación muestral .

Fórmula

r = r^2

R = a (y) + b (xy) - n ( y )^2 y - n ( y ) ^2

Estadística I

APLICACIÓN: Al tabular los costos Unitarios y la producción de una empresa industrial durante el año anterior, se encontró el siguiente comportamiento:

COSTO POR PROD EN MILES

UNIDAD DE UNIDADESQ 1.00 20Q. 2.00 15Q 3.00 12Q. 4.00 11Q. 5.00 7

Estadística I

1.) Con los datos tabulados de la contabilidad de la empresa se pide: Elaborar la representación gráfica sabiendo que la empresa desea estimar su producción.

0

5

10

15

20

25

0 2 4 6

Costo Unitario

Prod

ucci

ón (M

iles

Q)

Serie1

Estadística I

DESARROLLO:

xx yy xx yy xyxy

11 2020 11 400400 2020

22 1515 44 225225 3030

33 1212 99 144144 3636

44 1111 1616 121121 4444

55 77 2525 4949 3535

1515 6565 5555 939939 165165

DATOSDATOS

NN = = 55

x x = = 1515

y y = = 6565

xx = = 5555

yy = = 939939

xy xy == 165165

Estadística I

65 = 5 a + 15b165 = 15 a + 55b

15/5 = 3 al cual se le cambia signo a negativo (-) y se usa como factor que multiplica a toda la ecuación de la siguiente forma:

-195 = - 15 a - 45b (-3) Factor que multiplica a la Ec.

165 = 15 a + 55b -30 = 10b

b = -30 = b= -3 10

2). Encuentre la Ecuación de Regresión del 2). Encuentre la Ecuación de Regresión del comportamiento de la producción en función comportamiento de la producción en función de los costos unitariosde los costos unitarios

Estadística IEncontrar "a":

65 = 5 a + 15 (-3) Valor de “b”65 = 5 a - 4565 + 45 = 5 a

110 = 5a

a = 110 = a = 22 5

La Ecuación de regresión de la Producción en función de los costos = Yc = 22 – 3x

Estadística I

3.) OBTENER "a" y "b" por Fórmula:

OBTENER “a”a = (x ) (y) – (x) (xy) n( x) - (x)

a = ( 55 ) (65) – (15) (165) = 3575 – 2475 = 1100 5 (55) - (15) 275 - 225 50

a = 22

Estadística I

OBTENER “b”b = n xy - (x) (y) n( x ) - (x)

b = 5 (165) – (15) (65) = 825 – 975 = -150 5 (55) - (15) 275 – 225

50 b = -3

Estadística I

4.)El Departamento de Ventas de la empresa solicita le indique qué número de unidades puede producir el presente año, si según estudios se considera que su costo unitario será igual a Q.3.75

Y = a + bx

Yc = 22 – 3 (3.75)

Yc = 22 – 11.25 = 10.75

Estadística I

5.) CALCULAR EN ERROR ESTANDAR DE REGRESION;

Syx = y - y.a - xy.b N

Syx = 939 – ( 65) 22 –165 (-3) 5

Syx = 939 – 1430 + 495 = 4

55

Syx = 0.894427191

Estadística I

YcYc Yc=22-3xYc=22-3x (y-Yc)(y-Yc) (y-Yc)(y-Yc)

1919 22 - 3 (1)22 - 3 (1) 11 11

1616 22 - 3 (2)22 - 3 (2) -1-1 11

1313 22 - 3 (3)22 - 3 (3) -1-1 11

1010 22 - 3 (4)22 - 3 (4) 11 11

77 22 - 3 (5)22 - 3 (5) 00 00

6565 xxxxxxxx 00 44

Explicación del Cálculode la columna Yc

Estadística I

Otra forma:

___________Syx = (y- yc) N ___________Syx = 4 5Syx = 0.894427191

Estadística I

Fórmula

r = r

o bien:

r = a (y) + b (xy) - n ( y promedio)

y - n (y promedio)

Estadística I

APLICACIÓN:Con los datos del ejemplo que se ha desarrollado en el Análisis de Regresión, calcular la forma en que primariamente se relacionan las variables:

r = a (y) + b (xy) - n ( y promedio)

y - n (y promedio)

r = (22) 65 + (-3) 165 - 5 ( 13) 939 - 5 (13)

r = 0.957447

Estadística I

A continuación calcular el grado de asociación entre las dos variables, (la fuerza o extensión en que se asocian las variables):

r = 0.957447

r = 0.978492Por ser “r” mayor que cero se dice que la

correlación es positiva.

51

Ejemplo de Regresión

El gerente de ventas de Copier Sales of America que tiene una fuerza de ventas muy grande en Estados Unidos y Canadá, desea determinar si hay alguna relación entre el número de llamadas de ventas en un mes y el número de copiadoras vendidas en ese mes. El gerente selecciona una muestra aleatoria de 10 representantes de ventas y determina el número de llamadas de ventas que cada uno hizo el mes pasado y el número de copiadoras vendidas. La información muestral aparece a continuación:

52

Diagrama de Dispersión

53

Coeficiente de Correlación – Ejemplo en Excel

54

Coeficiente de Correlación - Ejemplo

55

Coeficiente de Correlación - Ejemplo

¿Cómo se interpreta una correlación de 0.759?Es positiva, por lo que se observa una relación directaEntre el número de llamadas de ventas y el número de copiadorasVendidas.

56

Coeficiente de Correlación – Ejemplo con Excel

No. Llamadas realizadas

No. De Copiadoras Vendidas

x y20 3040 6020 4030 6010 3010 4020 4020 5020 3030 70

Promedios 22 45