Trabajo de Recuperación

36
ANALISIS DE REGRESION Y CORRELACIÓN LINEAL Y MULTIPLE KEYSI MILAGROS CEDILLO PRECIADO ESTADÍSTICA GENERAL Mg. Walter Castañeda Guzmán Por “Año de la Promoción de la Industria Responsable y del Compromiso Climático” Facultad de Ciencias Económicas Escuela Académico Profesional de Contabilidad

description

Estadística, Walter Castañeda

Transcript of Trabajo de Recuperación

ANALISIS DE

REGRESION Y

CORRELACIÓN

LINEAL Y MULTIPLE

KEYSI MILAGROS CEDILLO PRECIADO

ESTADÍSTICA GENERAL

Mg. Walter Castañeda Guzmán

Por

“Año de la Promoción de la Industria Responsable y del Compromiso Climático”

Facultad de Ciencias Económicas

Escuela Académico Profesional de Contabilidad

1

El objetivo de este trabajo es

analizar el grado de la relación

existente entre variables

utilizando modelos matemáticos

y representaciones gráficas. Así

pues, para representar la

relación entre dos o más

variables desarrollaremos una

ecuación que permitirá estimar

una variable en función de la

otra.

Por ejemplo, ¿en qué medida, un

aumento de los gastos en

publicidad hace aumentar las

ventas de un determinado

producto?, ¿cómo representamos

que la bajada de temperaturas

implica un aumento del consumo

de la calefacción?,...

A continuación, estudiaremos

dicho grado de relación entre dos

variables en lo que llamaremos

análisis de correlación. Para

representar esta relación

utilizaremos una representación

gráfica llamada diagrama de

dispersión y, finalmente,

estudiaremos un modelo

INTRODUCCIÓN

2

En primer lugar agradezco a

Dios por darme la oportunidad

de tener un día más de vida,

estudiando la Carrera que más

anhelo, Contabilidad.

En segundo lugar, a mis padres,

Norma y Charly, quienes me

guían y me acompañan siempre.

En tercer lugar, a mis hermanos,

Oreste y Samir, y a mi novio,

Percy, por su apoyo

incondicional, A sí mismo a mi

docente encargado de la

Asignatura de Estadística

General, Mg. Walter Castañeda

Guzmán, que nos brinda las

pautas necesarias de nuestro

curso.

DEDICATORIA

3

Mediante este trabajo quiero

dar a conocer todos los

beneficios de trabajar los

métodos estadísticos como como

son: Regresión y correlación.

También ejemplos practicos de

su utilización en la vida diaria,

mediante casos prácticos, que

refuercen los conociemintos

aprendidos antes en clase.

PRESENTACIÓN

4

Indice TABLA DE CONTENIDO

Análisis de Regresión y Correlación .......................................................................... 6

Métodos a usar ......................................................................................................... 6

Regresión: ................................................................................................................ 6

minimos cuadrados ............................................................................................... 9

Correlación: ............................................................................................................ 9

DIFERENCIA ENTRE REGRESIÓN Y CORRELACIÓN .............................................. 11

PASOS PARA PODER EFECTUAR ESTOS MÉTODOS: ............................................. 12

Regresión lineal .................................................................................................... 12

correlación lineal ................................................................................................. 13

mínimos cuadrados: ............................................................................................ 13

Bibliografía .................................................................................................................. 35

5

CAPITULO I:

Teoría del Análisis de Regresión y Correlación Lineal

6

Análisis de Regresión y Correlación Lineal

MÉTODOS A USAR

REGRESIÓN:

Expresándolo en forma simple, la regresión lineal es una técnica que permite

cuantificar la relación que puede ser observada cuando se grafica un diagrama de

puntos dispersos correspondientes a dos variables, cuya tendencia general es

rectilínea (Figura la); relación que cabe compendiar mediante una ecuación “del

mejor ajuste” de la forma:

𝑦 = 𝑎 + 𝑏𝑥

En esta ecuación, “y” representa los valores de la coordenada a lo largo del eje

vertical en el gráfico (ordenada); en tanto que “x” indica la magnitud de la

coordenada sobre el eje horizontal (absisa). El valor de “a” (que puede ser negativo,

positivo o igual a cero) es llamado el intercepto; en tanto que el valor de “b” (el cual

puede ser negativo o positivo) se denomina la pendiente o coeficiente de regresión.

Ecuación de regresión estimada:

�̂� = 𝛽0 + 𝛽1𝑥

A la gráfica de la ecuación de regresión simple estimada se le llama recta de

regresión estimada; 𝛽0 es la intersección con el eje 𝑦 y 𝛽1 es la pendiente. En la

sección siguiente se muestra el uso del método de mínimos cuadrados para calcular

los valores de 𝛽0 y 𝛽1 para la ecuación de regresión estimada

7

Como el valor de proporciona tanto una estimación puntual de E(x) para un valor

dado de x como una estimación puntual de un solo valor de y para un valor dado

de x, a se le llamará simplemente valor estimado de y.

PROCESO DE ESTIMACIÓN EN LA REGRESIÓN LINEAL SIMPLE

SUPOSICIONES ACERCA DEL TÉRMINO DEL ERROR EN EL

ANÁLISISDE REGRESIÓN:

�̂� = 𝛽0 + 𝛽1𝑥+∈

El término del error ∈ es una variable aleatoria cuya media, o valor

esperado, es cero; es decir: 𝐸( )∈ = 0

o Implicación: 𝛽0 𝑦 𝛽1, 𝑠𝑜𝑛 𝑐𝑜𝑛𝑠𝑡𝑎𝑛𝑡𝑒𝑠, 𝑝𝑜𝑟 𝑙𝑜 𝑡𝑎𝑛𝑡𝑜,

𝐸 𝛽0 = 𝛽0 𝑦 𝐸 𝛽1 = 𝛽1,

𝐴𝑠𝑖,

𝑝𝑎𝑟𝑎 𝑐𝑢𝑎𝑙𝑞𝑢𝑖𝑒𝑟 𝑣𝑎𝑙𝑜𝑟 𝑒𝑠𝑝𝑒𝑟𝑎𝑑𝑜 𝑑𝑒 𝑥, 𝑒𝑙 𝑣𝑎𝑙𝑜𝑟 𝑒𝑠𝑡𝑖𝑚𝑎𝑑𝑜 𝑑𝑒 𝑌 𝑒𝑠:

�̂� = 𝛽0 + 𝛽1𝑥

Modelo de regresión:

•Ecuación de Regresión:

•Parámetros Desconocidos

Datos Muestrales

Ecuación de Regresión estimada:

•Estadísticos Muestrales

Son las estimaciones de

:

�̂� = 𝛽0 + 𝛽1𝑥+∈

𝐸(𝑦) = 𝛽0 + 𝛽1𝑥

𝛽0 𝑦 𝛽1

𝛽0 𝑦 𝛽1

𝑏0 𝑦 𝑏1

8

La varianza de∈, que se denota 𝜎2, es la misma para todos los valores

de x.

o Implicación: La varianza de y respecto a la recta de regresión es

igual a 𝜎2 y es la misma para todos los valores de x

Los valores de ∈ son independientes.

o Implicación: El valor de ∈ correspondiente a un determinado

valor de x no está relacionado con el valor de ∈ correspondiente

a ningún otro valor de x; por lo tanto, el valor de y correspondiente

a un determinado valor de x no está relacionado con el valor de

y de ningún otro valor de x.

El término del error ∈ es una variable aleatoria distribuida normalmente.

o Implicación: como y es función lineal de ∈, también y es una

variable aleatoria distribuida normalmente.

SUPOSICIONES DEL MODELO DE REGRESIÓN

9

MINIMOS CUADRADOS

El método de mínimos cuadrados es un método en el que se usan los datos muestrales

para hallar la ecuación de regresión estimada.

CRITERIO DE MÍNIMOS CUADRADOS

min (𝑦𝑖 − �̂�𝑖)2

donde:

𝑦𝑖 = 𝑣𝑎𝑙𝑜𝑟 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑑𝑜 𝑑𝑒 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑑𝑒𝑝𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒 𝑒𝑛 𝑙𝑎 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑐𝑖ó𝑛 𝑖

�̂�𝑖 = 𝑣𝑎𝑙𝑜𝑟 𝑒𝑠𝑡𝑖𝑚𝑎𝑑𝑜 𝑑𝑒 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑖𝑛𝑑𝑒𝑝𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒 𝑒𝑛 𝑙𝑎 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑐𝑖ó𝑛 𝑖

PENDIENTE E INTERSECCIÓN CON EL EJE y DE LA ECUACIÓN DE REGRESIÓN ESTIMADA

𝛽1 =∑ (𝑋𝑡 − �̅�)(𝑌𝑡 − �̅�)𝑛

𝑡=1

∑ (𝑋𝑡 − �̅�)2𝑛𝑡=1

𝛽0 = �̅� − �̅�𝛽0

Donde:

𝑥𝑡 = 𝑣𝑎𝑙𝑜𝑟 𝑑𝑒 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑖𝑛𝑑𝑒𝑝𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒 𝑒𝑛 𝑙𝑎 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑐𝑖ó𝑛 𝑖

𝑦𝑡 = 𝑣𝑎𝑙𝑜𝑟 𝑑𝑒 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑑𝑒𝑝𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒 𝑒𝑛 𝑙𝑎 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑐𝑖ó𝑛 𝑖

�̅� = 𝑚𝑒𝑑𝑖𝑎 𝑑𝑒 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑖𝑛𝑑𝑒𝑝𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒

�̅� = 𝑚𝑒𝑑𝑖𝑎 𝑑𝑒 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑑𝑒𝑝𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒

𝑛 = 𝑛ú𝑚𝑒𝑟𝑜 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑐𝑖𝑜𝑛𝑒𝑠

CORRELACIÓN:

El análisis de correlación se encuentra estrechamente vinculado con el análisis de

regresión y ambos pueden ser considerados de hecho como dos aspectos de un

mismo problema.

La correlación entre dos variables es - otra vez puesto en los términos más simples - el

grado de asociación entre las mismas. Este es expresado por un único valor llamado

coeficiente de correlación (r), el cual puede tener valores que ocilan entre -1 y +1.

10

Cuando “r” es negativo, ello significa que una variable (ya sea “x” o “y”) tiende a

decrecer cuando la otra aumenta (se trata entonces de una “correlación negativa”,

correspondiente a un valor negativo de “b” en el análisis de regresión). Cuando “r”

es positivo, en cambio, esto significa que una variable se incrementa al hacerse

mayor la otra (lo cual corresponde a un valor positivo de “b” en el análisis de

regresión).

Los valores de “r” pueden calcularse fácilmente en base a una serie de pares de

datos de “x” e “y”, utilizando la misma table y montos que se indican en el Paso 2 de

la sección “regresión” de este capítulo. De este modo “r” puede ser obtenido -

indirectamente - a partir de la relación:

𝑟2 =∑𝑥𝑦 − [

(∑𝑥)(∑𝑦)𝑛 ]

2

[∑𝑥2 −(∑𝑥)2

𝑛 ] [∑𝑦2 −(∑𝑦)2

𝑛 ]

Tambien se dice que es el conjunto de técnicas estadísticas empleado para medir la

intensidad de la asociación entre dos variables.

El principal objetivo del análisis de correlación consiste en determinar que tan intensa

es la relación entre dos variables. Normalmente, el primer paso es mostrar los datos

en un diagrama de dispersión.

11

DIFERENCIA ENTRE REGRESIÓN Y CORRELACIÓN

•Estudiar y predecir el valor promedio de una variable sobre la base de valores fijos de otras variables

•Existe una asimetría en el tratamiento que se les da a las variables.

•La variable dependiente es aleatoria o estocástica: su valor depende de una distribución de probabilidades.

•Las variables independientes tienes valores fijos en muestras repetidas

Regresión

•El objetivo es medir el grado de asociación lineal entre dos variables

•El tratamiento de las variables es simétrico:

•No se distinguen entre variable dependiente y variable explicativa

•Se asume que las dos variables son simétricasCorrelación

12

PASOS PARA PODER EFECTUAR ESTOS MÉTODOS:

REGRESIÓN LINEAL

Serie de datos para el cálculo de una regresión (“a” y “b”) y del coeficiente de

correlación (“r”)

El procedimiento para obtener valores de “a” y “b” para una serie de pares de datos

de “x” y de “y” es como sigue:

Primero. Calcule, para cada par de valores de “x” e “y”, las cantidades “x²”, “y²”,

y “x.y”.

Segundo. Obtenga las sumas (∑) de estos valores para todos los pares de datos

de “x” e “y”, así como las sumas del total de los valores de “x” e “y”. Los

resultados de los Pasos 1 y 2 aparecerán en forma similar a la siguiente.

Número 𝑿 𝑿𝟐 𝒀 𝒀𝟐 𝑿𝒀

1

2

. . . . . .

. . . . . .

. . . . . .

SUMA ∑𝑿 ∑𝑿𝟐 ∑𝒀 ∑𝒀𝟐 ∑𝑿𝒀

Tercero. Estime la pendiente (b) por medio de la relación:

𝑏 =∑𝑥𝑦 −

(∑𝑥)(∑𝑦)𝑛

∑𝑥2 −(∑𝑥)2

𝑛

Cuarto. Estime el intercepto (a) por medio de la relación:

𝑎 =∑𝑦

𝑛− (𝑏.

∑ 𝑥

𝑛)

A partir de esos valores de “a” y de “b” obtenidos mediante las Ecuaciones 2 y 3, es

posible trazar a lo largo de los puntos dispersos de un gráfico la línea recta mejor

ajustada a los mismos, y verificar visualmente si tales puntos están bien “expresados”

por la línea

13

CORRELACIÓN LINEAL

Utilizaremos la siguiente Fórmula:

𝑟2 =∑𝑥𝑦 − [

(∑𝑥)(∑𝑦)𝑛 ]

2

[∑𝑥2 −(∑𝑥)2

𝑛 ] [∑𝑦2 −(∑𝑦)2

𝑛 ]

¡Atención!: si no hay correlación de ningún tipo entre dos v.a., entonces tampoco

habrá correlación lineal, por lo que r = 0. Sin embargo, el que ocurra r = 0 sólo nos dice

que no hay correlación lineal, pero puede que la haya de otro tipo.

MÍNIMOS CUADRADOS:

La ecuación de la recta de mínimos cuadrados (en forma punto-pendiente) es la

siguiente:

𝑦 − �̅� =𝐶𝑜𝑣(𝑥, 𝑦)

𝑆𝑥2 ∗ (𝑥 − �̅�)

14

CAPITULO II:

Casos Prácticos (simple)

15

Problema 1) Según los datos, encontrar la ecuación de regresión:

Número Compras Ingresos Obtenidos

1 9.0 0.5

2 9.4 0.5

3 7.4 1.2

4 9.7 1.0

5 10.4 0.3

6 5.0 1.5

7 6.7 1.0

8 8.4 0.5

9 8.0 0.5

10 10,0 0.5

11 9.2 0.5

12 6.2 1.0

13 7.7 0.5

a) Obtenemos las sumas:

Número 𝑿 𝑿𝟐 Y 𝒀𝟐 XY

1 9.0 81.00 0.5 0.25 4.50

2 9.4 88.36 0.5 0.25 4.70

3 7.4 54.76 1.2 1.51 9.10

4 9.7 94.09 1.0 1.00 9.70

5 10.4 108.16 0.3 0.09 3.12

6 5.0 25.00 1.5 2.25 7.50

7 6.7 44.89 1.0 1.00 6.70

8 8.4 70.56 0.5 0.25 4.20

9 8.0 64.00 0.5 0.25 4.00

10 10.0 100.00 0.5 0.25 5.00

11 9.2 84.64 0.5 0.25 4.60

12 6.2 38.44 1.0 1.00 6.20

13 7.7 59.29 0.5 0.25 3.85

SUMA 107.10 913.19 9.53 8.60 73.17

Obtenemos los

datos de aquí

16

a) Encontramos los valores de a y b:

I. Primero el valor de b:

𝑏 =∑𝑥𝑦 −

(∑𝑥)(∑𝑦)𝑛

∑𝑥2 −(∑𝑥)2

𝑛

=72.17 −

107.10 ∗ 9.5313

913.19 −(107.10)2

13

= −0.2

II. Luego el valor de a:

𝑎 =∑𝑦

𝑛− (𝑏.

∑𝑥

𝑛) =

9.53

13− ((−0.2).

107.10

13) = 2.2

b) Reemplazamos en la Ecuación:

�̂� = 𝑎 + 𝑏𝑥

�̂� = 2.2 − 0.2𝑥

Comparando Datos en Excel: (si concuerdan)

𝑦 = −0.1731𝑥 + 2.1592

𝑅² = 0.5718

c) Graficamos la Ecuación:

y = 2.2-0.2x

0.0

0.2

0.4

0.6

0.8

1.0

1.2

1.4

1.6

0.0 2.0 4.0 6.0 8.0 10.0 12.0

Ing

reso

s O

bte

nid

os

Compras

Relación entre Compras e Ingresos

Obtenidos

17

Problema 2) Según los datos obtenidos de la empresa Copymax SAC.

Obtenidos en los 6 años anteriores con relación a las ventas obtenidas:

AÑO VENTA GASTO EN PUBLICIDAD

2009 600 330

2010 440 220

2011 330 150

2012 550 180

2013 340 200

2014 490 190

En este modelo queremos comprobar qué influencia tienen los gastos de

publicidad sobre el volumen de facturación o las ventas de la empresa.

Para cuantificar la relación entre ambas variables y tener una aproximación

de la magnitud de la influencia de los gastos en publicidad sobre las ventas de

la empresa debemos estimar el modelo por mínimos cuadrados ordinarios

(M.C.O.) donde se minimiza la suma de los cuadrados de los residuos

a) La diferencia entre un valor observado y el valor estimado lo

denominaremos residuo.

𝑅𝑒𝑠𝑖𝑑𝑢𝑜 = 𝑦𝑡 − �̂�𝑡

b) Como ya hemos citado anteriormente, la ecuación de la recta de

mínimos cuadrados (en forma punto-pendiente) es la siguiente:

𝑦 − �̅� =𝐶𝑜𝑣(𝑥, 𝑦)

𝑆𝑥2∗ (𝑥 − �̅�) =

∑ (𝑋𝑡 − �̅�)(𝑌𝑡 − 𝑌)𝑛𝑡=1

∑ (𝑋𝑡 − �̅�)2𝑛𝑡=1

∗ (𝑥 − �̅�)

Encontramos la pendiente:

𝑦 − �̅�

(𝑥 − �̅�)=

∑ (𝑋𝑡 − �̅�)(𝑌𝑡 − 𝑌)𝑛𝑡=1

∑ (𝑋𝑡 − �̅�)2𝑛𝑡=1

𝛽 =∑ (𝑋𝑡 − �̅�)(𝑌𝑡 − �̅�)2014

𝑡=2009

∑ (𝑋𝑡 − �̅�)22014𝑡=2009

Sabiendo que: �̅� = 475 y �̅� = 200:

18

𝛽 =∑ (𝑋𝑡 − 475)(𝑌𝑡 − 200)2014

𝑡=2009

∑ 𝑋𝑡 − 475̅̅ ̅̅ ̅ 22014

𝑡=2009

AÑO x y (x-u)(y-u) (x-u)

2009 600 250 7159.67 94.00 8836

2010 550 220 2031.33 44.00 1936

2011 500 150 143.00 -6.00 36

2012 450 110 3574.67 -56.00 3136

2013 456 123 2541.67 -50.00 2500

2014 480 190 -420.33 -26.00 676

suma 3036 1043 15030 0 17120

u 506 174

𝛽1 =15030

17120

𝛽1 = 0.88

Y para encontrar la ecuación:

𝛽0 = �̅� − �̅�𝛽0

𝛽0 = 174 − 506(0.88)

𝛽0 = −270.39

Entonces la ecuación tendrá la forma:

�̂� = 𝛽0 + 𝛽1𝑥

�̂� = −270.39+ 0.88𝑥

Comparando Datos en Excel: (si concuerdan)

y = 0.8779x - 270.39

R² = 0.8557

19

a) Graficamos la Ecuación:

y = 0.8779x - 270.39

R² = 0.8557

0

50

100

150

200

250

300

0 100 200 300 400 500 600 700

Ga

sto

s e

n P

ub

licid

ad

Ventas

Relación entre Ventas y Gastos en

Publicidad

20

Problema 3) Dadas las siguientes cinco observaciones de las variables x y y.

x y

1 3

2 7

3 5

4 11

5 14

I. Trace el diagrama de dispersión correspondiente a estos datos

II. Use la ecuación de regresión estimada para predecir el valor de

y cuando x = 4.

Solución:

a) Encontramos las medias:

�̅� = ∑ 𝑥𝑖

𝑛𝑖=1

𝑛=

15

5= 3

�̅� = ∑ 𝑦𝑖

𝑛𝑖=1

𝑛=

40

5= 8

b) Encontramos los valores de 𝛽1 y 𝛽0:

𝛽1 =∑ (𝑋𝑡 − �̅�)(𝑌𝑡 − �̅�)𝑛

𝑡=1

∑ (𝑋𝑡 − �̅�)2𝑛𝑡=1

𝛽1 =∑ (𝑋𝑡 − 3)(𝑌𝑡 − 8)𝑛

𝑡=1

∑ (𝑋𝑡 − 3)2𝑛𝑡=1

=26

10= 2.6

Luego encontramos 𝛽0:

𝛽0 = �̅� − �̅�𝛽1

𝛽0 = 8 − 3 ∗ 2.6

𝛽0 = 8 − 7.8

𝛽0 = 0.2

c) Encontramos la ecuación:

�̂� = 𝛽0 + 𝛽1𝑥

21

�̂� = 0.2 + 2,26𝑥

Comparamos con Excel (si concuerdan):

y = 2.6x + 0.2

R² = 0.845

d) Graficamos el diagrama:

e) Use la ecuación de regresión estimada para predecir el valor de y

cuando x = 4.

�̂� = 0.2 + 2,26(4)

�̂� = 10.6

y = 2.6x + 0.2

R² = 0.845

0

2

4

6

8

10

12

14

16

0 1 2 3 4 5 6

y

x

Relación entre X y Y

22

CAPITULO III:

Teoría del Análisis de Regresión y Correlación Múltiple

23

Análisis De Regresión Y Correlación Múltiple

MODELO DE REGRESIÓN Y ECUACIÓN DE REGRESIÓN

Los conceptos de modelo de regresión y ecuación de regresión vistos en el

capítulo previo, son aplicables en el caso de la regresión múltiple. A la

ecuación que describe cómo está relacionada la variable dependiente y

con las variables independientes x 1 , x 2, . . ., x p se le conoce como modelo

de regresión múltiple. Se supone que el modelo de regresión múltiple toma la

forma siguiente:

𝑦 = 𝛽0+𝛽1𝑥1 + 𝛽2𝑥2 + 𝛽3𝑥3 +⋯+ 𝛽𝑝𝑥𝑝+∈

En el modelo de regresión múltiple, 𝛽0, 𝛽1, 𝛽2, 𝛽3, …𝛽𝑝 son parámetros y el

término del error ∈, es una variable aleatoria. Examinando con atención este

modelo se ve que y es una función lineal de 𝑥1, 𝑥2, 𝑥3 …𝑥𝑝 (la parte

𝛽0+𝛽1𝑥1 + 𝛽2𝑥2 + 𝛽3𝑥3 +⋯+ 𝛽𝑝𝑥𝑝) más el término del error ∈. El término del

error corresponde a la variabilidad en y que no puede atribuirse o explicarse

al efecto lineal de las p variables independientes.

24

Ecuación de regresión múltiple estimada:

�̂� = 𝑏0+𝑏1𝑥1 + 𝑏2𝑥2 + 𝑏3𝑥3 +⋯+ 𝑏𝑝𝑥𝑝+∈

Donde:

𝑏0, 𝑏1, 𝑏2, 𝑏3, … 𝑏𝑝 Son las aproximaciones de 𝛽0, 𝛽1, 𝛽2, 𝛽3, …𝛽𝑝

�̂� = 𝑣𝑎𝑙𝑜𝑟 𝑒𝑠𝑡𝑖𝑚𝑎𝑑𝑜 𝑑𝑒 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑑𝑒𝑝𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒

Para una muestra de n observaciones (cada Observación estará formada por una

tupla con los valores de 𝑋2, 𝑋3, … , 𝑋𝑘 y el valor de Y asociado), tendremos el

siguiente sistema de n ecuaciones lineales:

{

𝑌1 = 𝛽1 + 𝛽2 ∗ 𝑋21 +⋯+ 𝛽𝑘 ∗ 𝑋𝑘1 + 𝑢1

𝑌1 = 𝛽1 + 𝛽2 ∗ 𝑋22 +⋯+ 𝛽𝑘 ∗ 𝑋𝑘2 + 𝑢2…𝑌1 = 𝛽1 + 𝛽2 ∗ 𝑋23 +⋯+ 𝛽𝑘 ∗ 𝑋𝑘3 + 𝑢3

25

Regresión múltiple: Fórmulas

Variables independientes: α = (𝑋2, 𝑋3, … , 𝑋𝑘)

Modelo de regresión múltiple: �̂� = 𝑏0+𝑏1𝑥1 + 𝑏2𝑥2 + 𝑏3𝑥3 +⋯+ 𝑏𝑝𝑥𝑝+∈

Criterio de mínimos cuadrados: 𝑚𝑖𝑛∑(𝑦𝑖 − 𝑦�̅�)

2

Relación entre SCT, SCR y SCE:

𝑆𝐶𝑇 = 𝑆𝐶𝑅 + 𝑆𝐶𝐸

Coeficiente de determinación múltiple:

𝑟2 =𝑆𝐶𝑅

𝑆𝐶𝑇=

𝑆𝐶𝑇 − 𝑆𝐶𝐸

𝑆𝐶𝑇= 1 −

𝑆𝐶𝐸

𝑆𝐶𝑇

Coeficiente de determinación múltiple ajustado:

Cuadrado medio debido a la regresión:

𝐶𝑀𝑅 =𝑆𝐶𝑅

𝑝

Cuadrado medio del error:

𝐶𝑀𝐸 =𝑆𝐶𝐸

𝑛 − 𝑝 − 1

Estadístico de la prueba F:

𝐹 =𝐶𝑀𝑅

𝐶𝑀𝐸

Estadístico de la prueba t:

𝑡 =𝑏𝑖𝑆𝑏𝑖

26

La figura siguiente muestra la relación entre las variables independientes y Y.

PROBLEMAS

A fin de ejemplificar los temas anteriormente vistos, analizaremos el siguiente

problema:

El dueño de un restaurante de hamburguesas en la ciudad de Tumbes desea

determinar la interrelación entre la introducción de aderezos importados y las

utilidades que recibe.

Utilidades 70 40 100 80 30 100

Demanda de catsup nacional 2 1 3 2 1 3

Demanda de catsup importada 50 65 75 30 45 35

Con esta información determinaremos lo siguiente:

1.- La ecuación de regresión lineal múltiple.

2.- La prueba de significancia del modelo. = 0.05

3.- Intervalos de confianza del 95 % para los parámetros del modelo.

4.- Intervalos de confianza del 90 % para la utilidad esperada y la futura

cuando la demanda de catsup nacional sea de 4 y la de catsup importada

de 50.

5.- El coeficiente de determinación múltiple.

X1

X2

Y

22110 XXY

27

De acuerdo al enunciado del ejercicio, Y representa a las utilidades, X1

representa a la demanda de catsup nacional y X2 representa a la demanda

de catsup importada.

El objetivo principal es establecer si las dos variables independientes tienen

efecto o no sobre las utilidades del restaurante, a fin de establecer

diferencias entre las dos. Es decir, si es indiferente cual de las dos variables

utilizar en el proceso.

A fin de solucionar cada uno de los incisos del ejercicio, empezaremos

calculando las sumatorias de los valores de X1, X2 y Y.

n = 6 X1X2 = 600

X1 = 12 Y = 420

X12 = 28 Y2 = 33800

X2 = 300 X1Y = 970

X22 = 16500 SX2Y = 20850

Puesto que YXXXβ 1ˆ entonces:

10

532

10

20850

970

420

000666600333330

025050

0333330508333332

20850

970

420

16500600300

6002812

3001261

.

.

..

..

...

β̂

de aquí, entonces, el modelo de regresión lineal múltiple solicitado en el

inciso 1 es:

21 1053210 XXY ..ˆ

a partir del modelo anterior, podemos concluir lo siguiente:

El plano de regresión cortará al eje Y en y = 10.

Por cada incremento en la demanda de catsup nacional, las

utilidades se incrementarán 32.5 veces, en promedio; siempre y

cuando la demanda de catsup importada permanezca

constante.

Por cada incremento en la demanda de catsup importada, las

utilidades disminuirán 0.1 veces, en promedio; siempre y cuando

la demanda de catsup nacional permanezca constante.

28

Para realizar la prueba de significancia en el inciso 2, calcularemos primero los

valores de Syy, SSR y SSE:

4400

6

42033800

2

2

2

Syy

Syy

n

YYSyy

4240

6

420

20850

970

420

10532102

2

SSR

SSR

n

YSSR

..

YXβ

160

42404400

SSE

SSE

SSRSyySSE

Planteamos las hipótesis:

0

0210

iaH

H

:

:

el nivel de significancia de la prueba es de 0.05. Realizando la tabla de análisis de varianza:

Fuente de Variación

Suma de cuadrados

Grados de

libertad

Media de cuadrados Estadístico de prueba

Regresión 4240 2 2120

2

4240MSR 7539

333353

21200 .

.F

Error 160 3 333353

3

160.MSE

Total 4400 5

29

El valor de tablas de la distribución F con = 0.05, v1 = 2 y v2 = 3 grados de libertad en

el numerador y el denominador, respectivamente, es 9.55.

Al comparar el estadístico de prueba contra el valor de tablas vemos que F0 es mayor

que F, 2, 3; rechazamos la hipótesis nula. Por lo tanto, podemos afirmar que las

utilidades del restaurante están significativamente relacionadas con la demanda de

catsup nacional ó con la demanda de catsup importada ó con ambas.

A fin de determinar exactamente con cuales variables se relaciona la variable Y,

realizaremos pruebas de hipótesis sobre coeficientes individuales.

Para determinar si la demanda de catsup nacional tiene efecto o no sobre las

utilidades, planteamos los siguiente.

0

0

1

10

:

:

aH

H

el estadístico de prueba es:

98

250333353

532

0

0

11

10

.

..

.

ˆ

t

t

CMSEt

El valor de tablas de la distribución t-student con = 0.025 y v = 3 grados de libertad es 3.182.

Comparando el valor absoluto del estadístico de prueba con el valor de las tablas,

notamos que t0 es mayor que t, 3 por lo que rechazamos la hipótesis nula.

Concluiremos entonces que la demanda de catsup nacional sí tiene efecto

significativo sobre las utilidades del restaurante. La siguiente prueba de hipótesis nos permitirá determinar si la demanda de catsup importada tiene o no efecto sobre las utilidades:

0

0

2

20

:

:

aH

H

el estadístico de prueba es:

30

530

00066660333353

10

0

0

22

20

.

..

.

ˆ

t

t

CMSEt

El valor de tablas de la distribución t-student con = 0.025 y v = 3 grados de libertad

es 3.182.

Al comparar el valor absoluto del estadístico de prueba con el valor de las tablas,

vemos que t0 es menor que t, 3 por lo que no se puede rechazar la hipótesis nula.

Lo anterior nos lleva a concluir que no existen los elementos suficientes para afirmar

que la demanda de catsup importada tenga efecto sobre las utilidades del

restaurante.

En el inciso 3 se pide calcular intervalos de confianza del 95 % para los parámetros

del modelo (0, 1 y 2)

Como el intervalo de confianza es del 95 %, el valor de es igual a 0.05.

El valor de tablas de la distribución t-student con 0.025 y 3 grados de libertad es de

3.182

El intervalo de confianza del 95% para 0 queda de la siguiente manera:

49.1154β29.1154 0

83333323333531823108333332333353182310 0

002

00002

0

......

ˆˆ,,

CMSEtCMSEtpnpn

Como conclusión, se afirmar con un 95% de certeza que la ordenada en el origen

será por los menos -29.1154 y a lo mucho 49.1154. Este es el rango de valores por

donde cortará el plano al eje Y.

El intervalo de confianza del 95% para 1 lo calculamos de la siguiente manera:

44.1190β20.8809 1

25033335318235322503333531823532 1

112

11112

1

........

ˆˆ,,

CMSEtCMSEtpnpn

31

Como los dos valores del intervalo resultaron positivos, se puede afirmar con un 95%

de certeza que por cada incremento en la demanda de catsup nacional, las

utilidades se incrementarán por lo menos 20.8809 y a lo mucho 44.1190 veces, en

promedio; siempre y cuando la demanda de catsup importada permanezca

constante.

Por último, para calcular el intervalo de confianza del 95 % para 2:

.4997β.6997 2

0006660333353182310000666333353182310 2

222

22222

2

........

ˆˆ,,

CMSEtCMSEtpnpn

En el resultado anterior se tienen un valor negativo y uno positivo a la izquierda y a la

derecha, respectivamente; simplemente no se puede afirmar que la demanda de

catsup importada tenga efecto sobre las utilidades.

En el inciso 4 se requiere calcular intervalos de confianza del 90% para la respuesta

media y para una observación futura de la utilidad del restaurante cuando la

demanda de castup nacional es de 4 y la de catsup importada sea de 50.

Aquí el intervalo de confianza solicitado es de 90%, por lo que el valor de será igual a 0.10

El valor de tablas de la distribución t-student con 0.05 y 3 grados de libertad es: 2.353.

Primero se tiene que calcular la utilidad estimada cuando X1 = 4 y X2 = 50.

En forma matricial:

135

10

532

10

5041

0

0

0

Y

Y

Y

ˆ

.

ˆˆ βX!0

Cuando la demanda de catsup nacional sea de 4 y la demanda de catsup

importada sea de 50, las utilidades esperadas del restaurante serán de 135 unidades.

32

El intervalo de confianza del 90% para la utilidad esperada está dado por:

153.55μ116.45

XXXX

Y

0

1!0

50

4

1

00066600033330

025050

03333050833332

50413333533532135

20

..

..

...

..

ˆ,

Y

pnY MSEtY

Se puede afirmar con un 90% de certeza que cuando la demanda de catsup

nacional sea de 4 y la de catsup importada sea de 50, la utilidad esperada del

restaurante será por lo menos 116.45 y a lo mucho 153.55 unidades.

El intervalo de confianza del 90 % para la observación futura de la utilidad del

restaurante bajo las mismas condiciones de X1 y X2 está dado por:

160.2861Y109.7139

XXXX

0

0

1!0

50

4

1

00066600033330

025050

03333050833332

504113333533532135

1

0

200

..

..

...

..

ˆ,

Y

MSEtYYpn

Se puede Afirmar con un 90% de certeza que cuando la demanda de catsup

nacional sea de 4 y la de catsup importada de 50, la utilidad del restaurante será por

lo menos 109.7139 y a lo mucho 160.2861 unidades.

Por último, en el inciso 5 se pide calcular e interpretar el coeficiente de determinación

múltiple:

9636

4400

4240

2

2

2

.

R

R

Syy

SSRR

esto indica que el 96.36 % de la variabilidad de la utilidad del restaurante se explica

mediante el modelo de regresión lineal múltiple:

21 1053210 XXY ..ˆ

33

cuando se utilizan la demanda de catsup nacional y la demanda de catsup

importada como variables regresoras.

A continuación se muestran los resultados del ejercicio anterior calculados en una

hoja de cálculo diseñada para resolver los problemas de regresión lineal múltiple (con

2 variables independientes).

34

CAPITULO III:

Bibliografía

35

BIBLIOGRAFÍA

Alicia Vil, M. S. (enero de 2014).

http://www.uoc.edu/in3/emath/docs/RegresionLineal.pdf. Obtenido

de Secretaría de Estado.

Pesca, D. d. (s.f.). Algunos métodos simples para la evaluación de recursos

pesqueros tropicales.

http://www.fao.org/docrep/003/X6845S/X6845S02.htm.

http://www.uoc.edu/in3/emath/docs/T01_Reg_Lineal_Multiple.pdf

http://es.wikipedia.org/wiki/Regresi%C3%B3n_lineal