Regres Ssimp y Mult

50
Reciba asesoria virtual en: www.utpl.edu.ec AUTOR: Ing. Wehrli Enrique Pérez. Ing. Karina Bajaña Zambrano. UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja MODALIDAD ABIERTA Y A DISTANCIA ESCUELA DE ECONOMÍA 1. Datos informativos 4 CRÉDITOS Guía didáctica STADÍSTICA II E CICLOS CARRERAS UTPL-ECTS 3 Administración de Empresas Turísticas y Hoteleras • Contabilidad y Auditoría • Administración en Banca y Finanzas 5 • Administración de Empresas Economía 4 19508 MATERIAL DE USO DIDÁCTICO PARA ESTUDIANTES DE LA UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA, PROHIBIDA SU REPRODUCCIÓN TOTAL O PARCIAL POR CUALQUIER MEDIO

Transcript of Regres Ssimp y Mult

Page 1: Regres Ssimp y Mult

Reciba asesoria virtual en: www.utpl.edu.ec

AUTOR:

Ing. Wehrli Enrique Pérez.Ing. Karina Bajaña Zambrano.

UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA

La Universidad Católica de Loja

MODALIDAD ABIERTA Y A DISTANCIA

ESCUELA DE ECONOMÍA

1. Datos informativos

4 CRÉDITOS

Guía didáctica

STADÍSTICA IIE

CICLOS CARRERAS

UTP

L-EC

TS

3 • Administración de Empresas Turísticas y Hoteleras

• Contabilidad y Auditoría• Administración en Banca y Finanzas

5 • Administración de Empresas • Economía

4

19508

MATERIAL DE USO DIDÁCTICO PARA ESTUDIANTES DE LA UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA,PROHIBIDA SU REPRODUCCIÓN TOTAL O PARCIAL POR CUALQUIER MEDIO

Page 2: Regres Ssimp y Mult

ESTADÍSTICA IIGuía didácticaWehrli Enrique PérezKarina Bajaña Zambrano

© UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA

Diagramación, diseño e impresión:EDITORIAL DE LA UNIVERSIDAD TÉCNICA PARTICULAR DE LOJACall Center: 593 - 7 - 2588730, Fax: 593 - 7 - 2611418C. P.: 11- 01- 608www.utpl.edu.ecSan Cayetano Alto s/nLoja-Ecuador

Cuarta edición

ISBN-978-9942-08-120-9

Reservados todos los derechos conforme a la ley. No está permitida la reproducción total o parcial de esta guía, ni su tratamiento informático, ni la transmisión de ninguna forma o por cualquier medio, ya sea electrónico, mecánico, por fotocopia, por registro u otros métodos, sin el permiso previo y por escrito de los titulares del Copyright.

Abril, 2012

Primera reimpresión

Page 3: Regres Ssimp y Mult

3. Introducción ........................................................................................................................................ 7

4. Bibliografía ......................................................................................................................................... 8

4.1 Básica .................................................................................................................................................. 8

4.2 Complementaria ................................................................................................................................ 8. Orientaciones generales para el estudio ................................................... 9

6. Proceso de enseñanza-aprendizaje para el logro de competencias ..................................................................................................................................... 11

PRIMER BIMESTRE

6.1 CompetenciasGenéricas .............................................................................................................. 116.2 Planificaciónparaeltrabajodelalumno .............................................................................. 116.3 Sistemadeevaluación ................................................................................................................. 136.4 Orientacionesespecíficasparaelaprendizajeporcompetencias .................................. 15

CAPÍTULO1:REGRESIONLINEAL .................................................................................................................. 15

1.1. Introducción .......................................................................................................................................... 15

1.2. Supuestos generales del modelo ....................................................................................................... 15

1.3. Supuesto específico de Normalidad .................................................................................................. 16

1.4. Modelo de Regresión Lineal Simple .................................................................................................. 16

1.5. Coeficiente de Determinación R² ....................................................................................................... 22

1.6. Potencia de Explicación del Modelo .................................................................................................. 23

1.7. Coeficiente de Correlación ƿ .............................................................................................................. 24

1.8. Coeficiente de Correlación Muestral r ................................................................................................ 24

1.9. Relación entre el Coeficiente de Determinación y el Coeficiente de Correlación ........................ 24

1.10. Prueba de Significancia del modelo ............................................................................................... 27

1.11. Valor p ................................................................................................................................................. 28

1.12. Tabla de Análisis de Varianza .......................................................................................................... 29

1.13. Estimación de σ² ............................................................................................................................. 30

1.14. Análisis Residual ................................................................................................................................ 35

Autoevaluación 1 .......................................................................................................................................... 40

CAPÍTULO2:REGRESIONMULTIPLE.............................................................................................................. 41

2.2. Suposiciones del modelo ..................................................................................................................... 41

2.3. Supuesto específico de Normalidad .................................................................................................. 41

2.4. Método de Mínimos Cuadrados ......................................................................................................... 42

2.5. Coeficiente de Determinación Múltiple R2 ....................................................................................... 42

2.6. Potencia de Explicación del Modelo R2 * 100% ............................................................................ 43

2.7. Coeficiente de Determinación Múltiple Ajustado ............................................................................. 44

2.8. Prueba de Significancia ....................................................................................................................... 44

2.9. Tabla de Análisis de Varianza ............................................................................................................ 46

Autoevaluación 2 ......................................................................................................................................... 56

2. Índice

Page 4: Regres Ssimp y Mult

CAPÍTULO3:ANÁLISISDEREGRESIÓN:CONSTRUCCIÓNDEMODELOS ...................................................... 57

3.1. Introducción .......................................................................................................................................... 57

3.2. Modelo de orden superior ................................................................................................................... 57

3.3. Modelo con interacción ....................................................................................................................... 62

3.4. Determinación de cuándo agregar variables ................................................................................... 65

3.5. Determinación de cuándo agregar variables, el caso general ...................................................... 70

Autoevaluación 3 .......................................................................................................................................... 75

SEGUNDO BIMESTRE

6.5 Competenciasgenéricas ............................................................................................................. 776.6 Planificaciónparaeltrabajodelalumno .............................................................................. 776.7 Orientacionesespecíficasparaelaprendizajeporcompetencias .................................. 80

CAPÍTULO4:NÚMEROSÍNDICES

4.1. Introducción .......................................................................................................................................... 80

4.2. Precios relativos .................................................................................................................................... 80

4.3. Índices de precios agregados ............................................................................................................. 80

4.4. Índices de precios agregados no ponderado .................................................................................... 82

4.5. Índice de precios agregados ponderados ......................................................................................... 82

4.6. Cálculo de un índice de precios agregados ponderados a partir de precios relativos ............... 84

4.7. Algunos índices de precios importantes ............................................................................................ 86

4.8. Deflactar una serie mediante índices de precios ............................................................................. 88

Autoevaluación 4 .......................................................................................................................................... 93

CAPÍTULO5:PRONÓSTICOS ........................................................................................................................... 94

5.1. Introducción .......................................................................................................................................... 94

5.2. Serie de Tiempo .................................................................................................................................... 94

5.3. Pronóstico .............................................................................................................................................. 94

5.4. Componentes de una serie de tiempo ............................................................................................... 94

5.5. Componente de tendencia .................................................................................................................. 94

5.6. Componente cíclico .............................................................................................................................. 94

5.7. Componente estacional ....................................................................................................................... 94

5.8. Componente irregular .......................................................................................................................... 94

5.9. Métodos de suavizamiento ................................................................................................................. 94

5.10. Promedios móviles ............................................................................................................................. 95

5.11. Promedios móviles ponderados ....................................................................................................... 101

5.12. Suavizamiento exponencial.............................................................................................................. 101

5.13. Proyección de tendencia ................................................................................................................... 109

5.14. Componentes de tendencia y estacionales .................................................................................... 112

Page 5: Regres Ssimp y Mult

5.15. Modelo multiplicativo ....................................................................................................................... 113

5.16. Cálculo de los índices estacionales ................................................................................................. 113

5.17. Desestacionalización de una serie de tiempo ............................................................................... 118

5.18. Uso de una serie de tiempo desestacionalizada para la identificación de tendencias ........... 120

5.19. Ajustes estacionales ........................................................................................................................... 123

Autoevaluación 5 .......................................................................................................................................... 124

CAPÍTULO6:MÉTODOSNOPARAMÉTRICOS ................................................................................................. 126

6.1. Introducción .......................................................................................................................................... 126

6.2. Prueba de los signos ............................................................................................................................ 126

6.3. Caso de muestras pequeñas ............................................................................................................... 126

6.4. Nivel de Significación y Valor p ......................................................................................................... 127

6.5. Caso de muestras grandes .................................................................................................................. 130

6.6. Nivel de significación y Valor p......................................................................................................... 131

6.7. Prueba de hipótesis acerca de la mediana ...................................................................................... 132

6.8. Prueba de los rangos con signo de Wilcoon .................................................................................... 134

6.9. Distribución Muestral De T Para Poblaciones Idénticas ................................................................. 137

6.10. Prueba de Mann - Whitney - Wilcoxon .......................................................................................... 138

6.11. Caso para muestras pequeñas ......................................................................................................... 138

6.12. Caso de muestras grandes ................................................................................................................ 141

6.13. Distribución Muestral De T Para Poblaciones Idénticas ............................................................... 141

6.14. Prueba de Kruskal-Wallis ................................................................................................................. 143

6.15. Correlación de rangos ........................................................................................................................ 145

6.16. Prueba de significancia de correlación de rangos ........................................................................ 147

Autoevaluación 6 .......................................................................................................................................... 149

7. Solucionario ....................................................................................................................................... 150

Page 6: Regres Ssimp y Mult

UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 7

Page 7: Regres Ssimp y Mult

PRELIMINARES Guía didáctica: Estadística II

UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 7

3. Introducción

La Estadística II es una asignatura de carácter genérica que se desarrolla de manera conjunta en las carreras del área administrativa de la UTPL, distribuida de la siguiente manera: Economía, Administración de Empresas, Asistencia Gerencial y Relaciones Públicas en quinto ciclo; Contabilidad y Auditoría, Administración en Banca y Finanzas en el cuarto ciclo, y en Administración de Empresas Turísticas en el tercer ciclo. Esta asignatura contempla un total de 4 créditos académicos.

La importancia de la materia radica en su aplicación para la toma de decisiones. En los últimos años hemos visto que se aplica estadística en todas las áreas, las oficinas de estadística del gobierno publican cada mes nueva información numérica sobre la inflación, el desempleo, y la inseguridad. Los especialistas, asesores financieros y los que determinan las políticas de una empresa y del gobierno estudian los datos para tomar decisiones basadas en la información, para ofrecer un tratamiento adecuado en sus estrategias.

“Un día las estadísticas serán tan necesarias para la vida ciudadana como el leer y escribir” por Herbert George Wells (1866-1946)

La asignatura de Estadística II está estructurada en 6 capítulos. En el primer bimestre se estudia los tres primeros capítulos, muestran cómo construir modelos de regresión, sean estos modelos de regresión simple o modelos de regresión múltiple, interpretar sus resultados, así mismo la construcción e interpretación de la tabla ANOVA (Análisis de Varianza) para determinar la validez del modelo mediante una Prueba de Hipótesis.

El segundo bimestre comprende tres capítulos. En el capítulo 4 veremos el uso de los números índices, permiten hacer comparaciones entre los precios actuales por unidad de un artículo en particular con los precios de los mismos productos en el año base. Este tipo de procedimiento se utiliza para determinar un índice de precios (Inflación). También se analizarán los índices de precios agregados ponderados y los no ponderados quienes miden la variación combinada de un grupo de artículos.

En el capítulo 5 llamado “Pronósticos”, trata de realizar una estimación de lo que podría ocurrir en un futuro con una serie de tiempo, y ver la tendencia que tienen los datos que en algunos casos se presenta como una línea creciente, también se observaran otras que no necesariamente tienen un comportamiento lineal.

Y el último capítulo llamado métodos no paramétricos, que son alternativas más robustas para Probar Hipótesis sobre el valor central que siguen un conjunto de datos.

La asignatura de Estadística II es parte fundamental de su formación por esto le motivo para que realice un estudio sistematizado, utilizando el texto básico paralelo con la guía didáctica, y que utilice los recursos virtuales como videoconferencias y el sistema de aprendizaje EVA.

Estamos gustosos de presentarles este material didáctico que ha sido elaborado para que le acompañe durante su proceso formativo.

¡Éxito en su estudio!

Page 8: Regres Ssimp y Mult

UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 9

PRELIMINARESGuía didáctica: Estadística II

UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja8

4.1 Básica

El texto básico es:

Anderson D. Sweeney D. y Williams T. (2009). Estadística para Administración y Economía. Décima edición”. Cosegraf. México

Los autores del libro son expertos en el tema, lo cual les permite presentar un texto con gran cantidad de ejercicios, utilizando el Excel como herramienta principal.

Pérez W. (2011). Guía didáctica de Estadística II. Loja-Ecuador: Editorial UTPL.

La guía didáctica ha sido elaborada en base al libro de Anderson D., y otros. Estadística para Administración y Economía, décima edición.

Contiene el desarrollo de los principales temas de la estadística utiliza recursos didácticos como autoevaluaciones, actividades recomendadas, casos prácticos y ejemplos, todo esto junto con el texto básico serán sus principales herramientas para el desarrollo de la asignatura.

4.1 Complementaria

Berenson M. Levine D. Krenhbiel T. (2001). Estadística para administración. México. Editorial Pearson Educación.

Este libro es bastante didáctico por cuanto los contenidos se encuentran agrupados de forma sistemática, al igual que sus ejercicios, lo que permite manejar, de mejor manera, los diferentes temas tratados.

Lind D. Marchall W. Wathen S. (2004). Estadística para Administración y Economía. Onceava edición Alfaomega. Colombia.

Los autores del libro son expertos en la materia, lo cual les permite presentar un texto con gran cantidad de ejercicios, utilizando el Excel como herramienta principal.

4. Bibliografía

Page 9: Regres Ssimp y Mult

PRELIMINARES Guía didáctica: Estadística II

UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 9

Estimado estudiante, considere las siguientes indicaciones para obtener los mejores resultados en el estudio de la materia:

Materiales:

1. Usted dispone del libro básico y guía didáctica, realice una lectura simultánea deteniéndose en los ejemplos que se indican en cada uno.

2. El trabajo a distancia y la evaluación presencial han sido elaborados en función del texto básico y la guía didáctica por lo que su lectura debe concentrarse en estas dos herramientas.

3. Para una mejor comprensión de cada tema realice las actividades complementarias y las autoevaluaciones propuestas al final de cada unidad. Puede comparar las respuestas en el solucionario adjunto al final de este texto.

4. Dispone del Entorno Virtual de Aprendizaje EVA, encontrará un mensaje semanal con la explicación de los contenidos críticos de la asignatura, claves de respuesta de las evaluaciones a distancia y presenciales, o alguna comunicación específica.

5. Dispone de un horario de tutoría semanal, utilícelo para obtener información y explicación de los contenidos de la materia. La tutoría puede realizarse por Internet a través del Entorno Virtual de Aprendizaje EVA, correo electrónico o teléfono.

Contenidos:

6. Los conocimientos previos que se requieren para la asignatura son las nociones generales de economía que revisó en Microeconomía II.

7. Para mejor comprensión de los contenidos se utiliza gráficos y algunos ejemplos.

Estudio de la materia:

8. En la guía didáctica dispone de la planificación bimestral, luego de revisarla verifique el cumplimiento de los indicadores de aprendizaje, de esta forma podrá medir sus avances académicos, aptitudes y habilidades desarrolladas con el estudio de la materia.

9. Realice un estudio sistemático, distribuyendo su tiempo de manera que disponga de al menos dos horas diarias para leer los contenidos y una semana para que prepare las pruebas bimestrales.

10. Le sugiero que utilice un método específico para su estudio, por ejemplo el método científico. Este supone la observación, inducción, planteamiento y demostración de hipótesis y elaboración de conclusiones. Este método tiene algunas tipologías por lo que le sugiero utilizar la lógica (hacer analogías), deducciones y síntesis.

11. Utilice activamente los recursos tecnológicos como EVA, biblioteca virtual, videoconferencias, recursos educativos abiertos, etc. Antes de ello le propongo que:

5. Orientaciones generales para el estudio

Page 10: Regres Ssimp y Mult

UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 11UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 11

PRELIMINARESGuía didáctica: Estadística II

UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja10

Verifique el horario de tutorías con su profesor.

Revise las fechas propuestas para las tutorías por videoconferencia, éstas se dictan una vez por bimestre, es su oportunidad para resolver dudas sobre los contenidos de la materia.

Durante su estudio utilice una libreta de notas para que durante las tutorías formule todas las preguntas que tiene respecto del tema.

12. Recuerde que ante alguna duda comuníquese con su tutor vía correo electrónico o por teléfono.

Page 11: Regres Ssimp y Mult

PRIMER BIMESTRE Guía didáctica: Estadística II

UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 11UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 11

6.1 COMPETENCIAS GENÉRICAS

- Adquirir hábitos y técnicas de estudio eficaces

- Capacidad de abstracción, análisis y síntesis

- Capacidad de aplicar los conocimientos en la práctica

- Capacidad de investigación

- Capacidad para identificar, plantear y resolver problemas

- Capacidad creativa e innovadora

- Capacidad para tomar decisiones

6.2 PLANIFICACIÓN PARA EL TRABAJO DEL ALUMNO.

Competencias Específicas

Indicadores de Aprendizaje

Contenido Actividades de Aprendizaje

Cronograma Orientativo

Unidades/Temas Tiempo estimadoDesarrollar el pensamiento lógico para la aplicación en aspectos económicos y la interpretación de resultados, gráficas y análisis de datos en modelos reales.

Utiliza la regresión lineal simple para la toma de decisiones

Unidad 1: Regresión lineal

1.1 Supuestos generales del modelo

1.2 Supuesto especifico de normalidad

1.3 Modelo de regresión lineal simple

1.4 Coeficiente de determinación

1.5 Coeficiente de correlación muestral

1.6 Relación entre el coeficiente de determinación y el coeficiente de correlación

1.7 Prueba de significancia del modelo

1.8 Valor p1.9 Tabla de análisis de

varianza1.10 Estimación de σ21.11 Análisis residual

• Lectura comprensiva

• Desarrollo de autoevaluación

• Elaboración de cuadro sinópticos

• Elaborar ejercicios

• Desarrollo de la evaluación a distancia

Semanas: 1 y 2 8 horas de estudio a la semana y 8 horas de interacción por el EVA

PRIMER BIMESTRE

6. Proceso de enseñanza-aprendizaje para el logro de competencias

Page 12: Regres Ssimp y Mult

UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 13

PRIMER BIMESTREGuía didáctica: Estadística II

UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja12

Utiliza la regresión múltiple para la toma de decisiones

Unidad 2: Regresión múltiple

2.1 Supuestos del modelo

2.2 Supuesto específico de normalidad

2.3 Método de Mínimos Cuadrados

2.4 Coeficiente de determinación Múltiple R2

2.5 Potencia de explicación del Modelo R2

2.6 Coeficiente de determinación Múltiple Ajustado

2.7 Prueba de significancia

2.8 Tabla de análisis de varianza

• Lectura comprensiva

• Desarrollo de autoevaluación

• Elaboración de cuadro sinópticos

• Desarrollo de la evaluación a distancia

• Interacción con el EVA

Semanas: 3 y 48 horas de estudio a la semana y 8 horas de interacción por el EVA

Construye modelos de regresión

Unidad 3: Análisis de regresión: Construcción de modelos

3.1 Modelo de orden superior

3.2 Modelo con interacción

3.3 Determinación de cuando agregar variables

3.4 Determinación de cuando agregar variables, el caso general

• Lectura comprensiva

• Desarrollo de autoevaluación

• Elaboración de cuadro sinópticos

• Desarrollo de la evaluación a distancia

• Interacción con el EVA

Semanas: 5 y 6

8 horas de estudio a la semana y 8 horas de interacción por el EVA

Unidades del 1-3

• Resolver autoevaluaciones

• Resolver trabajo a distancia

• Realizar cuadros sinópticos

Semanas:7 y 8

Page 13: Regres Ssimp y Mult

PRIMER BIMESTRE Guía didáctica: Estadística II

UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 13

3. C

oeva

luac

ión

xx

xx

xx

xx

xx

Activ

idad

es

Pres

enci

ales

y e

n el

eva

Para aprobar la asignatura se requiere obtener un puntaje mínimo de 28/40 puntos, que equivale al 70%.

* Son estrategias de aprendizaje, no tienen calificación; pero debe responderlas con el fin de autocomprobar su proceso de

aprendizaje.

** Recuerde: que la evaluación a distancia del primer bimestre y segundo bimestre consta de dos partes: una objetiva y otra

de ensayo, debe desarrollarla y entregarla en su respectivo Centro Universitario.

2. Heteroevaluación

Eva luac ión

Presencial

Pr

ue

ba

Obj

etiv

a y

de E

nsay

o

xx

xx

xx

xx

xx

70%

14

20 Puntos

Evaluación a Distancia**

Inte

racc

ión

en e

l EVA

xx

xx

xx

xx

xx

x

Máx

imo

1 pu

nto

(Com

plet

a la

eval

uaci

ón a

dist

anci

a)

Part

e de

Ensa

yo

xx

xx

xx

xx

xx

30%

6

20%

4

TOTAL

Pa

rt

e

Obj

etiv

a

xx

xx

10%

2

1. A

utoe

valu

ació

n*x

xx

xEs

trate

gia

de

Apre

ndiz

aje

Formas de Evaluación

Competencia: Criterio

Comportamiento ético

Cumplimiento, puntualidad y responsabilidad

Esfuerzo e interés en los trabajos

Respeto a las personas y a las normas de

comunicación

Creatividad e iniciativa

Contribución en el trabajo colaborativo y de equipo

Presentación, orden y ortografía

Emite juicios de valor argumentadamente

Dominio del contenido

Investigación (cita fuentes de consulta)

Aporta con criterios y soluciones

Análisis y profundidad en el desarrollo de los temas

PORCENTAJE

Puntaje

Actit

udes

Hab

ilida

des

Con

ocim

ient

os

Señor estudiante:

Tenga presente que la finalidad de la valoración cualitativa es principalmente formativa.

6.3 Sistema de evaluación

Page 14: Regres Ssimp y Mult

UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 15

Page 15: Regres Ssimp y Mult

PRIMER BIMESTRE Guía didáctica: Estadística II

UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 15

UNIDAD 1

REGRESIÓN LINEAL

Para el desarrollo de este capítulo, vaya revisando conjuntamente con esta guía el capítulo 14 del texto básico Anderson, D., Sweeney, D., y Williams, T. Estadística para administración y economía, decima edición.

INTRODUCCIÓN

La Regresión Lineal es un modelo estadístico que utiliza una fórmula para explicar la relación lineal entre una variable “y” en términos de otras variables “xi”, para i=1, 2,…, p en un conjunto de individuos o unidades analizadas.

RECUERDE:La variable y es la variable a ser explicada o también llamada variable dependiente, y las variables x se las denomina variables de explicación o variables independientes.

El modelo es de la forma:

y = β₀ + β₁x₁ + β₂x₂ + ... + βp x p + ε

Los valores βi para i=1,2,…, p son llamados coeficientes de regresión (parámetros del modelo), y serán calculados (estimados) por un método estadístico.

El valor ε es la expresión de la variable aleatoria del error del modelo conformado por todos los εi errores en cada individuo u observaciones.

En esta unidad vamos a estudiar el modelo más sencillo de análisis de regresión en el cual solo intervienen dos variables, la variable de explicación o independiente x y la variable a ser explicada o dependiente y; a este modelo se lo conoce como modelo de Regresión Lineal Simple.

SUPUESTOS GENERALES DEL MODELO

En Estadística, todos los métodos de estimaciones de parámetros se realizan bajo ciertos supuestos que deben verificarse para no utilizar un método inapropiado o concluir de forma incorrecta.

6.4 Orientaciones específicas para el aprendizaje por competencias

Page 16: Regres Ssimp y Mult

UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 17

PRIMER BIMESTREGuía didáctica: Estadística II

UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja16

En el modelo de regresión lineal simple y = β₀ + β₁x + ε , los supuestos son:

⇨ El valor esperado o media, de los errores de estimación del modelo sobre las observaciones es cero;

E [εi] = 0;

⇨ Es decir que la varianza del error, será la misma para todos los valores de la variable x , en este caso al modelo se lo conoce con el nombre de modelo homocedástico. Cuando la varianza no es constante al modelo se lo conoce con el nombre de modelo heterocedástico.

Var ( εi) = σ²

⇨ La covarianza del error entre observaciones es cero, suponemos que las variables aleatorias del error son independientes.

Cov (εi εj) = 0; i ≠ j ; i = 1,2,...,n;

SUPUESTO ESPECÍFICO DE NORMALIDAD

Es muy común utilizar el supuesto adicional de normalidad, en un modelo de regresión.

La variable aleatoria sigue una distribución Normal con media cero y varianza σ², esto se expresa como ε~N ( 0 , σ² ).

Se puede demostrar que si y= β₀ + β₁ x + ε, y además ε~N (0, σ²); entonces es una función lineal de , por lo tanto

es una variable aleatoria también distribuida normalmente.

y~N (β₀+β₁x, σ²)

Este es un supuesto muy importante que debe cumplirse cuando utilizamos regresión lineal simple.

MODELO DE REGRESIÓN LINEAL SIMPLE

En regresión lineal simple tratamos de explicar a y en términos de x, con el modelo:

y = β₀ +β₁ x + ε

Donde β₀ y β₁ son los parámetros del modelo y son desconocidos, pero se los puede estimar por β₀ y β₁ respectivamente. Por otra parte,

es la variable aleatoria que representa el error de estimación.

IMPORTANTE:Para estimar los valores de β₀ y β₁ se necesita encontrar la ecuación de regresión estimada:

;

Page 17: Regres Ssimp y Mult

PRIMER BIMESTRE Guía didáctica: Estadística II

UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 17

y x b b xi i i

^ ^ ^

= + = +β β0 1 0 1

i = 1,2,...,n, son las observaciones

Para realizar las estimaciones de β₀ y β₁ mediante β β0 1

^ ^

y

utilizaremos el Método de Mínimos Cuadrados.

Este es un método mediante el cual se utilizan los datos para hallar la ecuación de regresión estimada.

La ecuación de regresión como ya habíamos visto antes es:

ŷ = b₀ + b₁ x₁

Los valores de b₀ y b₁ se los halla con las siguientes fórmulas:

b₁ = x−

- b₁ x−

Donde:

xi : Valor de la variable independiente en la i-ésima observación.yi : Valor de la variable dependiente en la i-ésima observación.

x−

: Media de la variable independiente.

y−

: Media de la variable dependiente.n : Número total de observaciones.

Ejemplo 1.1

A seis clientes del servicio de cajeros automáticos de un banco se les pide califiquen la calidad de tal servicio en una escala de cero a veinte; para el efecto se escogen los clientes de acuerdo al número de años que han estado relacionados con el banco que ofrece el servicio. Se selecciona un cliente por cada año de “antigüedad”, mínimo un año y máximo seis1. Los resultados se muestran en la siguiente tabla.

Xi (Antigüedad en años) 1 2 3 4 5 6

Yi (Calificación) 4.8 7.3 8.4 11.0 13.1 15.2

Tabla 1.1

1. Zurita, G. Probabilidad y Estadística. Fundamentos y Aplicaciones. Primera edición. Ecuador. Centro de Difusión y Publicaciones - ESPOL.

bx x y y

x x

in

i i

in

i

11

1

2=− −

=

− −

=

∑∑

( )( )

( )

Page 18: Regres Ssimp y Mult

UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 19

PRIMER BIMESTREGuía didáctica: Estadística II

UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja18

Se nos pide: determinar los estimadores de Mínimos Cuadrados para un modelo de Regresión Lineal Simple.

Desarrollo:

Con las instrucciones que nos han dado ya estamos preparados para realizar el ejercicio con las fórmulas anteriores para determinar el modelo de Regresión Simple que se ajuste a estos datos.

Cliente i xi yi (xi - x−

) (yi- y−

) (xi - x−

)(yi - y−

) (xi - x−

)²1 1 4,8 -2,5 -5,17 12,92 6,252 2 7,3 -1,5 -2,67 4,00 2,253 3 8,4 -0,5 -1,57 0,78 0,254 4 11 0,5 1,03 0,52 0,255 5 13,1 1,5 3,13 4,70 2,256 6 15,2 2,5 5,23 13,08 6,25

Totales x−

y−

3,5 9,97 36,00 17,50

Utilizando las ecuaciones ya antes vistas procedemos a calcular el valor de b₁

x−b1 36 00

17 50=

.,

b₁=2,057

Ahora calculamos el valor de b₀

b₀ = y−

- b₁ x−

b₀ = 9,97 - (2,057 + 3,5)

b₀ = 2,775

Por lo tanto, la ecuación de regresión estimada es:

^ ⇨ y = 2,775 + 2,057x

El gráfico de los datos con la recta de regresión estimada, se presenta a continuación:

Page 19: Regres Ssimp y Mult

PRIMER BIMESTRE Guía didáctica: Estadística II

UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 19

Figura 1.1

Como la pendiente de la ecuación es positiva nos indica que a medida que se incrementa los años de antigüedad del cliente, se incrementará la calificación que este le da al servicio que el Banco le ofrece.

Si nosotros quisiéramos estimar el valor de la calificación (variable y) que le daría al Banco un cliente que tiene 6,5 años de antigüedad, haríamos lo siguiente:

Ya tenemos nuestra ecuación de regresión estimada que es ŷ = 2,775 + 2,057x, solo reemplazaríamos en la variable x el valor de años de antigüedad del cliente y así obtendremos la calificación estimada que daría este cliente en particular.

ŷ= 2,775 + 2,057(6,5)=16,15

Dado que el modelo es de la forma y = β₀ +β₁ x + ε , entonces ε = y - ( β₀ +β₁ x ).

Pero la expresión en paréntesis se la reemplaza por ŷ₁ = β∧

₀ + β∧

₁ xi . De esta forma el error para cada observación i se estima como:

εi =y i - y−

i

Así, en cada observación evaluamos el error de estimación.

Cliente i xi yi ŷi = 2,775 + 2,057 (xi) Ei = yi - ŷi

1 1 4,8 4,83 -0,032 2 7,3 6,89 0,413 3 8,4 8,95 -0,554 4 11,0 11,00 -0,005 5 13,1 13,06 0,046 6 15,2 15,12 0,08

Totales x−

y−

3,5 9,97

Page 20: Regres Ssimp y Mult

UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 21

PRIMER BIMESTREGuía didáctica: Estadística II

UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja20

Ejemplo 1.2

¿Esperaría que los automóviles más confiables fueran los más caros? Consumer Reports evalúo 15 de los mejores automóviles sedan, la confiabilidad se evalúo con una escala de 5 puntos: mala (1), regular (2), buena (3), muy buena (4) y excelente (5).

Los precios y la evaluación sobre la confiabilidad de estos 15 automóviles son los siguientes:

Marca y Modelo Confiabilidadxi

Precioyi

Acura TL 4 33.150BMW 330i 3 40.570Lexus IS300 5 35.105Lexus ES330 5 35.174Mecedes-Benz C320 1 42.230Lincoln LS Premium (V6) 3 38.225Audi A4 3.0 Quattro 2 37.605Cadillacc CTS 1 37.695Nissan Maxima 3.5 SE 4 34.390Infiniti I35 5 33.845Saab 9-3 Aero 3 36.910Infiniti G35 4 34.695Jaguar X-Type 3.0 1 37.995Saab 9-5 Arc 3 36.955Volvo S60 2.5T 3 33.890

Tabla 1.2 Consumer Reports, febrero de 20042

Se nos pide ahora determinar la ecuación de regresión utilizando el criterio de mínimos cuadrados para determinar los valores de b₀ y b₁

Realizando un diagrama de dispersión con estos datos, observamos que hay una tendencia lineal.

Figura 1.2

2. Anderson D. Sweeney D. Williams T. (2009). Estadística para administración y economía. Decima edición. México.

Page 21: Regres Ssimp y Mult

PRIMER BIMESTRE Guía didáctica: Estadística II

UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 21

Realizando los cálculos, tenemos:

Calculando el valor de b₁:

bx x y y

x x

b

in

i i

in

i

11

1

2

136 086 5327 73

1 3

=− −

=−

= −

=

− −

=

∑∑

( )( )

( )

. ,,

. 001 20,

ahora calculamos el valor de b₀

b₀ = y−

- b₁ x−

b₀ = 36.562,27 - (1.301,35* 3,13)

b₀ = 40.639,35

Por lo tanto, la ecuación de regresión estimada es:

⇨ Como se puede apreciar al estimar la recta de regresión, b₁ tiene signo negativo, lo que nos indica que la pendiente de esta recta es negativa.Interprete los resultados, analizando la ecuación de regresión estimada, y observando detenidamente el gráfico de dispersión.

ŷ = 40.639,35 - 1.301,20x

Page 22: Regres Ssimp y Mult

UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 23

PRIMER BIMESTREGuía didáctica: Estadística II

UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja22

Figura 1.3

En este ejemplo, se puede observar a medida que la confiabilidad del automóvil aumenta, disminuye el precio del mismo.

Ahora se pide que se estime el precio de un automóvil sedán cuya evaluación de confiabilidad es 4.

Como ya tenemos la ecuación de regresión, podemos estimar cuanto sería el precio de un automóvil cuyo valor de confiabilidad fue de 4, en este caso, en la ecuación de regresión evaluamos en la variable x el valor de 4 de la siguiente forma:

⇨ ŷ = 40.639,35 - 1.301,20 (4) = 35.434,55

Es decir, a estos automóviles si alguien le asigna el valor de confiabilidad de 4, el costo del mismo será de $ 35.434,55

COFICIENTE DE DETERMINACIÓN R2

IMPORTANTE:El coeficiente de determinación es aquel que indica la proporción de la varianza de la variable y ; es decir de la variable a ser explicada, por el modelo de regresión que se ha estimado. Se lo denota como R2.

Se define al coeficiente de determinación como el cociente entre la suma cuadrática de regresión (SCR) y la suma cuadrática total (SCT), este cociente es no negativo y su valor se encuentra entre cero y uno, y se lo define de la siguiente manera: R SCR

SCT2 =

en donde:

La Suma Cuadrática de Regresión se la define como la suma de la diferencia al cuadrado de los valores estimados de y es decir los valores de ŷi con el valor promedio de los mismos;

SCR Y Yii

n

= −−

=∑ ( )

^2

1

La Suma Cuadrática Total se la define como la suma de la diferencia al cuadrado de los valores observados de y , con el valor promedio de los mismos;

Page 23: Regres Ssimp y Mult

PRIMER BIMESTRE Guía didáctica: Estadística II

UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 23

SCT Y Yii

n

= −−

=∑ ( )21

y; la Suma Cuadrática del Error o Residuos que se la define como la suma de la diferencia al cuadrado de los valores observados de y , y los valores estimados de y es decir los valores de ŷi. Y es la medida de variabilidad de las observaciones reales con respecto a la línea de regresión estimada.

A este lo utilizaremos más adelante cuando veamos la estimación de σ².

SCE Y Yi ii

n

= −=∑ ( )

^2

1

De tal forma que existe una relación entre estas tres sumas cuadráticas:

SCT = SCR + SCE

En caso de que solo tengamos información de dos de las tres sumas cuadráticas, podemos utilizar la fórmula anterior para encontrar aquella que nos hace falta, de la siguiente forma.

Si poseemos información de la SCT y de la SCR, y nos piden hallar el valor de la SCE, al despejar la ecuación nos queda que;

SCE= SCT - SCR

Siguiendo la misma analogía, y ahora poseemos información de la SCT y de la SCE, y nos piden hallar el valor de la SCR, al despejar la ecuación nos queda que;

SCR= SCT – SCE

POTENCIA DE EXPLICACIÓN DEL MODELO

Se define como el porcentaje R2 * 100%, es aquel porcentaje que va a explicar que tan bueno es el modelo.

RECUERDE:

Si el porcentaje se acerca más a 100% significa que el modelo de regresión tiene perfecta explicación para los datos, si por el contrario el porcentaje se acerca más a 0%, significa que el modelo de regresión no puede explicar los datos.

En la práctica encontrar 0% ó 100% es imposible, por lo que debemos acostumbrarnos a encontrar porcentajes menores de 100% en las ecuaciones de regresión y realizar diversos tipos de pruebas para comprobar que tan bueno es un modelo alternativo.

COEFICIENTE DE CORRELACIÓN Ρ

Page 24: Regres Ssimp y Mult

UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 25

PRIMER BIMESTREGuía didáctica: Estadística II

UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja24

El coeficiente de correlación nos indica el grado de relación lineal que existe entre las variables que están siendo objeto de estudio, en nuestro caso la relación lineal entre las variables x y y , es un número que se encuentra entre -1 y 1.

IMPORTANTE:

A medida que el valor de ρ se acerque a 1, entonces decimos que la relación entre el par de variables es perfecta linealmente con pendiente positiva, si el valor de ρ se va acercando a -1, se indica que la relación entre el par de variables es perfecta linealmente pero con pendiente negativa, y, si este valor de ρ se va acercando a cero (0) diremos que la relación lineal entre este par de variables va desapareciendo o “no existe”.

Entiéndase por “no existe”, que estas variables no están relacionadas linealmente, pero puede ser que estén relacionadas de forma exponencial, cuadrática, logarítmica, etc.

Se define al coeficiente de correlación entre el par de variables x y y como:

-1≤ρ xy ≤1

COEFICIENTE DE CORRELACIÓN MUESTRAL R

El coeficiente de correlación muestral realiza las mismas acciones que el coeficiente de correlación , para datos que son tomados de una misma muestra y en los cuales se quiere medir la relación lineal que existe entre ellas. También es un número que se encuentra entre -1 y 1 como el coeficiente de correlación, y se lo calcula de la siguiente manera:

rx x y y

x x y yxy

i ii

n

i ii

n=− −

− −

− −

=− −

=

( )( )

( ) ( )

1

2 2

1

RELACIÓN ENTRE EL COEFICIENTE DE DETERMINACIÓN Y EL COEFICIENTE DE CORRELACIÓN

Se puede determinar el valor del coeficiente de correlación muestral a partir del coeficiente de determinación de la siguiente forma:

r xy=±√R²

Donde el signo es positivo o negativo dependiendo del signo de la pendiente en el modelo de regresión que se ha estimado, es decir el signo que tenga b₁.

Ejemplo 1.3

Con los datos del Ejemplo 1.2, que trataba sobre de la confiabilidad de los automóviles, determine la SCT, SCE y SCR, calcule además el coeficiente de determinación y el coeficiente de correlación muestral.Desarrollo:

Page 25: Regres Ssimp y Mult

PRIMER BIMESTRE Guía didáctica: Estadística II

UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 25

Procedemos a calcular los valores de la SCT, SCR y SCE, con las fórmulas que ya hemos visto en líneas previas, y nos queda de la siguiente manera:

SCT; la sumatoria de cada uno de los valores observados restados del valor de la media al cuadrado, es decir;

SCE; la sumatoria de cada uno de los valores observados restados de cada uno de los valores estimados al cuadrado.

Los valores estimados son aquellos donde al reemplazar el valor de la variable independiente x , en la ecuación de regresión que se ha encontrado este genera los valores estimados de y. La ecuación de regresión estimada es ŷ =40.639,35 - 1.301,20x, entonces reemplazamos cada uno de los valores que toma la variable x de la siguiente forma:

35.434,56

36.735,76

:

:

36.735,76

Al encontrar cada uno de los valores de

ŷ, hacemos resta de los valores observados de y con los valores de ŷ y esto lo elevamos al cuadrado, de la siguiente forma:

Y la SCR Y Yii

n

= −−

=∑ ( )

^2

1

pero también podemos obtenerla por la diferencia entre la SCT con la SCE,

de esta forma.

SCT= (33.150 – 36.562,27)2 +

(40.570 – 36.562,27)2 +… +

(33.890 – 36.562,27)2

SCT = 94.072.518,93.

SCE= (33.150 - 35.434,56)2 +

(40.570 - 36.735,76)2 + … +

(33.890 - 36.735,76)2

SCE= 47.116.825,86

Page 26: Regres Ssimp y Mult

UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 27

PRIMER BIMESTREGuía didáctica: Estadística II

UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja26

Sabemos que la SCT = SCR+SCE, despejando la SCR nos que lo siguiente:

SCR = SCT - SCESCR = 94.072.518,93 - 47.116.825,86SCR = 46.955.693,07

En la tabla adjunta se muestran los cálculos de cómo se ha desarrollado el ejercicio.

El coeficiente de determinación es:

R SCRSCT

2 46 955 693 0794 072 518 93

0 50= = =. . ,. . ,

,

Y el coeficiente de correlación muestral es:

r xy=±√R²

r xy=-√0,50r xy≠-0,71

En este caso el coeficiente de correlación muestral es negativo porque la pendiente de la ecuación de regresión b₁ lo es, como ya lo habíamos mencionado.

Page 27: Regres Ssimp y Mult

PRIMER BIMESTRE Guía didáctica: Estadística II

UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 27

PRUEBA DE SIGNIFICANCIA DEL MODELO

Al momento de nosotros realizar un modelo de regresión lineal simple, y al hacer las estimaciones siempre esperamos obtener un modelo como el que ya hemos visto, la variable que es la variable a ser explicada en términos de la variable x:

ŷ = b₀ + b₁ xi

¿Qué pasaría si b₁ es cero?

Entonces el modelo quedaría de la siguiente forma:

ŷi = b₀

Si esto llegase a pasar, entonces no existirá relación alguna entre este par de variables, por lo que sería conveniente realizar un contraste de hipótesis para determinar si el valor de b₁ es o no cero.

El contraste de hipótesis sería el siguiente:

H₀: β₁ = 0

Vs.

Donde en la H0 sugiere que el valor de la constante β₁ es igual a cero, versus, la H1 que postula que esta constante tiene un valor diferente a cero.

El estadístico de prueba para este contraste es el siguiente:

F MCRMCE

SCR pSCE n p

= =−−

//

1

Con (1 - α ) * 100% de confianza se rechaza la H0 en favor de H1 si el valor del estadístico de prueba F es mayor que el percentil (1 - α ) * 100 de la Distribución F de Fisher con (p-1) grados de libertad en el numerador y (n-p) grados de libertad en el denominador, es decir; se rechaza H0 si;

Page 28: Regres Ssimp y Mult

UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 29

PRIMER BIMESTREGuía didáctica: Estadística II

UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja28

F MCRMCE

F p n p= > − −( , , )α 1

Figura 1.4

Valor p

O también conocido como p-value por sus siglas en inglés, el valor p es la probabilidad de que se rechace la hipótesis nula H0, en cualquiera de los contrastes de hipótesis que se vayan a realizar, y como tal es un número que se encuentra entre 0 y 1.

¿Cómo sabemos cuándo debemos rechazar o no la hipótesis nula?

Es fácil determinar cuando tenemos que rechazar la hipótesis nula (h0);

Si el “valor p > 0.1”, entonces no existe evidencia estadística para rechazar la hipótesis nula (h0);

Si el “valor p < 0.05”, entonces existe evidencia estadística para rechazar la hipótesis nula (h0);

y; si el valor p está “0.05 < p < 0.1”, entonces en este caso no podemos concluir nada,

Nota No decimos se “acepta” la hipótesis nula, sino que “no se rechaza” la hipótesis nula.

Page 29: Regres Ssimp y Mult

PRIMER BIMESTRE Guía didáctica: Estadística II

UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 29

Figura 1.5

TABLA DE ANÁLISIS DE VARIANZA

IMPORTANTE:La tabla de análisis de varianza o también conocida como tabla ANOVA, se utiliza en regresión para analizar la validez del modelo de regresión que hemos estimado.

En la tabla adjunta podemos destacar en columnas las Fuentes de Variación, Grados de Libertad, las Sumas y Medias Cuadráticas, el valor del Estadístico de Prueba F y la columna del valor p. Algunas fórmulas ya son conocidas para nosotros, como son las sumas cuadráticas. En los Grados de libertad vemos que intervienen los valores de n y p, donde el valor de n como ya habíamos mencionado es el tamaño de la muestra y p es el número total de parámetros que estamos estimando.

También se puede observar las Medias Cuadráticas de Regresión y Error que son el cociente de las Sumas Cuadráticas con sus respectivos Grados de Libertad, el Estadístico de Prueba F, que es el cociente entre la Media Cuadrática de Regresión con la Media Cuadrática del Error y el valor p, que nos indicará si rechazamos o no H0 (hipótesis nula).

Fuentes de Variación

Grados de Libertad

Sumas Cuadráticas

Medias Cuadráticas

Estadístico de Prueba F

Valor p

Regresión p-1

Error n-p

Total n-1

Tabla 1.3

Page 30: Regres Ssimp y Mult

UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 31

PRIMER BIMESTREGuía didáctica: Estadística II

UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja30

ESTIMACIÓN DE σ²

RECUERDE:Como ya sabemos σ²eslavarianzadelError ; y como ya habíamos mencionado en

líneas previas la suma cuadrática del error ó SCE es la medida de variabilidad de las observaciones reales con respecto a la línea de regresión estimada.

La SCE dividida para sus grados de libertad (n-p), es decir; MCE es un estimador insesgado de σ².Paradenotarestevalorutilizaremoss².

s SCEn p

2 =−

o en otras palabras

s² = MCE

en el caso de que requiera estimar σ , el cual lo llamaremos s, conocido también como el error estándar deestimación,procedemosacalcularlaraízcuadradades²;esdecir;

Ejemplo 1.4

Continuando con el Ejemplo 1.2 de los automóviles sedán y la confiabilidad en los mismos, se pide construir la tabla de análisis de varianza, ANOVA, y comprobar la hipótesis de existe una relación entre las variables que están siendo tratadas.

Para construir la tabla ANOVA, podemos hacerlo de dos formas, la primera es que haremos uso de los datos que ya hemos calculado, y la otra forma es mediante la ayuda del Software Excel.

Para construir la tabla ANOVA necesitamos del valor de n, del valor de p, y los valores de las sumas cuadráticas que ya tenemos, y reemplazamos en tabla descrita en líneas previas.

p = 2; n = 15;

SCR = 46.955.693,1; SCE =47.116.825,86; SCT = 94.072.518,9;

Fuentes de Variación

Grados de Libertad

Sumas Cuadráticas

Medias Cuadráticas

Estadístico de Prueba F Valor p

Regresión 1 46.955.693,1 46.955.693,1 12,96 ≅ 0,00

Error 13 47.116.825,9 3.624.371,2

Total 14 94.072.518,9

Page 31: Regres Ssimp y Mult

PRIMER BIMESTRE Guía didáctica: Estadística II

UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 31

Como ya habíamos mencionado antes, se rechaza la hipótesis nula si

F MCRMCE

F p n p= > − −( , , )α 1

F F= = >49 955 693 13 624 371 2

12 96 0 01 1 13. . ,. . ,

, ( . , . )

12,96 > 9,07

Figura 1.6

Debido a que el estadístico de prueba es mayor que el percentil (1 - α )*100 de la distribución F de Fisher, como se puede apreciar en la figura 1.6, por lo tanto el valor p es un número aproximadamente cero con dos decimales de precisión, entonces existe evidencia estadística para rechazar H0 que postula que β₁= 0 , a favor de H1quepostulaque≠0.

Adicionalmente, para calcular la estimación de la varianza del error de estimación:

s²=MCEs²=3.624.371,2

Y para calcular el error estándar de estimación:

s=√3.624.371,2=1.903,78

Ejemplo 1.5

Veamos ahora como con Excel podemos realizar estos mismos cálculos.

Page 32: Regres Ssimp y Mult

UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 33

PRIMER BIMESTREGuía didáctica: Estadística II

UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja32

Primero debemos confirmar de que en la pestaña de “Datos” de Excel, podamos visualizar el ícono de “Análisis de Datos” en el extremo derecho del menú, como se muestra aquí:

Figura 1.7

Si no lo podemos ver, es porque no está instalado y nos debe aparecer una pantalla como esta:

Figura 1.8

Si nos parece como el segundo ejemplo (donde no se visualiza “Análisis de Datos”), entonces necesitamos hacer un procedimiento previo. Vamos a dar enter en el “Botón de Office” (Círculo arriba a la izquierda del Excel) y luego daremos enter en “Opciones de Excel”.

Figura 1.9

Page 33: Regres Ssimp y Mult

PRIMER BIMESTRE Guía didáctica: Estadística II

UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 33

Luego en el menú de la izquierda seleccionamos la opción “Complementos”, se despliega un cuadro de opciones. Comprobar en la parte inferior que nos encontramos en “Administrar = Complementos de Excel” y a continuación daremos enter en el botón “Ir”, en donde aparece el siguiente cuadro, donde debemos dar enter hasta habilitar la opción “Herramientas para Análisis” y daremos enter en “Aceptar”.

Figura 1.10

Ahora, ya podemos verificar que en el menú de Excel “Datos”, aparece “Análisis de Datos”.

Figura 1.11

Solucionado esto, ahora procedemos a resolver el ejercicio de regresión.

En una hoja de Excel tenemos la información tanto de la variable como de la variable , en el menú de Datos escogemos la opción “Análisis de datos”, aparece un cuadro de diálogo llamado “Análisis de datos / Funciones para análisis” que presenta una serie de opciones con los que podemos trabajar, en nuestro caso escogeremos la opción “Regresión” y hacemos clic en aceptar.

Page 34: Regres Ssimp y Mult

UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 35

PRIMER BIMESTREGuía didáctica: Estadística II

UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja34

Figura 1.12

A su vez aparecerá otro cuadro de diálogo donde en “Rango Y de entrada” escogemos los valores de la variable dependiente desde el nombre que caracteriza a la variable, y así mismo en “Rango X de entrada”, escogemos los valores de la variable independiente desde el nombre que caracteriza a esta variable, marcamos la opción de “Rótulos”, la opción de “Nivel de confianza” en el cual escribimos 99%, y escogemos por último las opciones de salida, si queremos ver los resultados en una nueva hoja de cálculo, en un libro nuevo, o que empiece a mostrar los resultados en cualquiera de las celdas del libro en el que se está trabajando, como se muestra en la figura 1.13; y clic en “Aceptar”.

Figura 1.13

Como se puede observar en los resultados de Excel, este presenta un resumen de lo que se ha trabajado, Excel muestra el valor del coeficiente de determinación; el coeficiente de correlación muestral aquí es denominado “Coeficiente de correlación múltiple”, aunque no nos da el signo que este lleva, pero nosotros sabemos que signo debe llevar con solo ver el signo de b1, presenta además el error estándar de estimación aquí llamado “Error típico” y el número de observaciones que hay.

La tabla de Análisis de Varianza o ANOVA muestra las fuentes de variación como ya lo hubiéramos mencionado en líneas anteriores, con sus respectivos grados de libertas (gl), las sumas cuadráticas (SC), las medias cuadráticas (MC), el valor calculado mediante el estadístico de prueba F, y el valor p que si nos damos cuenta para este ejemplo es un número aproximadamente cero con dos decimales de precisión.

Page 35: Regres Ssimp y Mult

PRIMER BIMESTRE Guía didáctica: Estadística II

UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 35

Lo mismo que ya habíamos hallado antes; y con estos resultados concluimos exactamente lo mismo, que existe evidencia estadística para rechazar H0 a favor de H1.

Resumen Estadísticas de la regresión

Coeficiente de correlación múltiple 0,71

R^2 0,50 R^2 ajustado 0,47

Estadísticas de la regresión

Error típico 1.903,78 Observaciones 15 ANÁLISIS DE VARIANZA

gl SC MC F Valor p Regresión 1 46.955.693,08 46.955.693,1 12,96 0,0032 Residuos 13 47.116.825,86 3.624.371,22 Total 14 94.072.518,93

Coeficientes Error

típico Estadístico t Probabilidad

Intercepción 40.639,35 1.234,78 32,93 6,6095E-14

Confiabilidad x

-1.301, 20 361,51 -3,60 0,0032

Y en las últimas filas se muestran los parámetros estimados, para este caso b₀ y b₁ ,que si comparamos con nuestros resultados, nos daremos cuenta que son los mismos.

⇨ ŷ = 40.639,35 - 1.301,20x

ANÁLISIS RESIDUAL

En esta sección vamos a analizar lo que nosotros conocemos como los residuos (errores de estimación), que como sabemos es la diferencia entre los valores observados de y con los valores estimados a partir de la ecuación de regresión ŷ.

Lo que nos permite observar en el análisis residual es que se cumplan los supuestos bajo los cuales hemos construido el modelo de regresión, en este caso del supuesto general de que la varianza del error es la misma para todos los valores de x,

Var (∈i) = σ²

Un tipo de comprobación de este supuesto es visual, haciendo un gráfico de dispersión entre los residuos y la variable x. Dependiendo de los datos, en esta prueba gráfica pueden ocurrir tres casos.

Page 36: Regres Ssimp y Mult

UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 37

PRIMER BIMESTREGuía didáctica: Estadística II

UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja36

Caso 1: El primer caso es que se cumplen con el supuesto de que la varianza es la misma para todos los valores de y, es decir la varianza es constante, como se muestra en el gráfico a continuación:

Figura 1.14

Caso 2: El otro caso que podría ocurrir es el siguiente, en el cual no se cumple el supuesto de que la varianza sea constante, sino que depende de los valores de la variable :

Figura 1.15

Caso 3: El tercer gráfico que podría ocurrir es aquel que al hacer la grafica de los residuos, este no represente la relación que existe entre el par de variables.

Figura 1.16

Page 37: Regres Ssimp y Mult

PRIMER BIMESTRE Guía didáctica: Estadística II

UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 37

Ejemplo 1.6

Siguiendo con el ejemplo de los automóviles sedán, hemos calculado anteriormente los valores del Error o Residuos y estos los graficamos junto con los valores observados de x (variable independiente).

Los datos y el gráfico se presentan a continuación:

Confiabilidad Residuos4 -2.284,563 3.834,245 971,635 1.040,631 2.891,853 1.489,242 -431,961 -1.643,154 -1.044,565 -288,373 174,244 - 739,561 -1.343,153 219,243 -2.845,76

Tabla 1.4

Figura 1.17

Lo que se puede observar en el gráfico es que al parecer si cumple con el supuesto de que la varianza es constante, tiene un aparecido con el gráfico de la figura 1.14, pero los altos valores de los residuos según el eje, podrían confundir nuestra apreciación.

Una forma de reducir este riesgo de observación es el de estandarizar los residuos y observar el gráfico con los residuos estandarizados.

Page 38: Regres Ssimp y Mult

UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 39

PRIMER BIMESTREGuía didáctica: Estadística II

UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja38

Para estandarizar los residuos lo que hacemos es al residuo le restamos su media que se supone es cero por los supuestos, y se lo divide para la raíz cuadrada de la MCE es decir s.

Realizamos los pasos para el primer resultado, los demás se realizan de manera similar; solo se cambian los valores del error.

e eMCE

ii

^=

− µ

e

e

e

^

^

^

1

1

1

2 284 56 03 624 371 22

2 284 561 903 78

1 20

=− −

=−

= −

. ,. . ,

. ,. ,

.

Confiabilidad ResiduosResiduos

Estandarizados4 -2.284,56 -1,203 3.834,24 2,015 971,63 0,515 1.040,63 0,551 2.891,85 1,523 1.489,24 0,782 -431,96 -0,231 -1.643,15 -0,864 -1.044,56 -0,555 -288,37 -0,153 174,24 0,094 -739,56 -0,391 -1.343,15 -0,713 219,24 0,12

3 -2.845,76 -1,49

Page 39: Regres Ssimp y Mult

PRIMER BIMESTRE Guía didáctica: Estadística II

UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 39

Figura 1.18

Como nos podemos dar cuenta el gráfico prácticamente es el mismo, solo que a diferentes escalas, pues en el primero el eje Y está representado por los residuos, en cambio el otro gráfico en el eje Y muestra los residuos estandarizados. Por lo tanto podemos concluir que el modelo de regresión lineal empleado en este caso, es un modelo válido.

Actividades recomendadas

Es conveniente desarrollar actividades recomendadas que le permitan establecer el nivel de comprensión de los temas estudiados en esta unidad, por lo que le sugiero efectuar lo siguiente:

1. Identifique un caso real donde pueda utilizar la regresión lineal.2. De ese caso, identifique el cumplimiento de los supuestos generales del modelo.3. El caso real, ¿cumple el supuesto específico de normalidad?. Justifique su respuesta.4. Plantee un caso en el que determine la SCT, SCE y SCR.5. Del caso anterior calcule el coeficiente de determinación.6. De ese mismo caso calcule el coeficiente de correlación muestral.

Page 40: Regres Ssimp y Mult

UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 41

PRIMER BIMESTREGuía didáctica: Estadística II

UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja40

Le sugiero, resolver a continuación, la presenta autoevaluación que le ayudará a conocer la comprensión de esta unidad. En caso de resolverla satisfactoriamente (80% o más) podría pasar a la siguiente unidad y, en caso contrario, se debería revisar nuevamente el tema o los temas en los que haya tenido dificultad.

En los siguientes enunciados conteste con una V o una F, dentro de los paréntesis correspondientes, si considera que el enunciado es verdadero o es falso, respectivamente.

1. ( ) La variable y es la variable a ser explicada o también llamada variable dependiente

2. ( ) En estadística no todos los métodos de estimaciones de parámetros se realizan bajo ciertos supuestos que deben verificarse

3. ( ) Para estimar los valores de β₀ y β₁ se necesita encontrar la ecuación de regresión estimada

4. ( ) El coeficiente de determinación es aquel que indica la proporción de la varianza de la variable x.

5. ( ) Se define al coeficiente de determinación como el cociente entre la suma cuadrática de regresión (SCR) y la suma cuadrática total (SCT)

6. ( ) El valor del coeficiente de determinación se ecuentra entre cero y uno

7. ( ) El coeficiente de correlación nos indica el grado de relación exponencial que existe entre las variables que están siendo objeto de estudio

8. ( ) No se puede determinar el valor del coeficiente de correlación muestral a partir del coeficiente de determinación

9. ( ) El valor p es la probabilidad de que se acepta la hipótesis nula H0 .

10. ( ) Los residuos (errores de estimación) son la diferencia entre los valores observados de y con los valores estimados a partir de la ecuación de regresión ŷ.

Autoevaluación 1

Page 41: Regres Ssimp y Mult

PRIMER BIMESTRE Guía didáctica: Estadística II

UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 41

UNIDAD 2

REGRESION MÚLTIPLE

Para el desarrollo de este capítulo, vaya revisando conjuntamente con esta guía el capítulo 15 del texto básico Anderson, D., Sweeney, D., y Williams, T. Estadística para administración y economía, decima edición.

INTRODUCCIÓN

IMPORTANTE:El modelo de regresión múltiple busca la explicación de la variable dependiente y; en términos de dos o más variables independientes x; en vez de solo una variable x como lo hace la regresión lineal simple.

Si recordamos el modelo en regresión lineal simple es:

y = β₀ + β₁x + є

En regresión múltiple el modelo será:

y = β₀ + β₁ xXi₁ + β₂ xi₂ + ... + βρXiƿ + єi

En el modelo de regresión lineal simple solo teníamos dos parámetros a estimar β₀ y β₁ , a través del método de mínimos cuadrados, algo que varía ahora en el modelo de regresión múltiple que tendremos que estimar β₀, β₁, β₂ hasta βρ, como ya hemos visto en el modelo anterior.

De forma similar, los p parámetros en el modelo tendríamos que estimarlos mediante el método de mínimos cuadrados como ya habríamos hecho en el caso de regresión lineal simple.

SUPOSICIONES DEL MODELO

En regresión múltiple los supuestos son similares a los supuestos de regresión lineal simple:

⇨El valor esperado o media, de los errores de estimación del modelo sobre las observaciones es cero;

ε [εi] = 0

Page 42: Regres Ssimp y Mult

UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 43

PRIMER BIMESTREGuía didáctica: Estadística II

UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja42

La varianza del error, será la misma para misma todos los valores de las variables X, Xi1, xi2, ... , xip al igual que en regresión lineal al modelo será llamado homocedástico. Y cuando la varianza no es constante, al modelo se le da el nombre de modelo heterocedástico.

Var ( єi ) = σ²

La covarianza del error entre observaciones es cero, suponemos que las variables aleatorias del error son independientes.

Cov (єi, єi)=0;i≠j;i=1,2,...,n

Supuesto específico de Normalidad

La variable aleatoria ∈~ N (0, σ²) , es decir se distribuye normalmente con media cero y varianza σ² entonces;

E[y] = E [β₀ + β₁Xi1, β₂xi2 +... +βp xip + ∈i]

y = β₀ + β₁Xi1, β₂xi2 +... +βp xip

Al igual que en regresión lineal simple y es una función lineal de , por lo tanto y es una variable aleatoria distribuida normalmente.

y ~ N (β₀ + β₁Xi1, β₂xi2 +... +βp xip, σ²)

MÉTODO DE MÍNIMOS CUADRADOS

RECUERDE:

En muchas ocasiones una variable (independiente) explica perfectamente a otra (dependiente), pero existen casos que una sola variable no es suficiente, y en ese caso se incorporan más variables al modelo.

Al igual que en regresión lineal simple, se presentan los parámetros del modelo, que son los β’s, que sabemos que son desconocidos pero estimables.

El modelo de regresión múltiple y la ecuación de regresión estimada se presentan a continuación:

y = β₀ + β₁Xi1, β₂xi2 +... +βp xip + ∈i

ŷ = b₀ + b₁Xi1, b₂xi2 +... +bp xip

Page 43: Regres Ssimp y Mult

PRIMER BIMESTRE Guía didáctica: Estadística II

UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 43

Para las estimaciones del caso de regresión lineal simple, teníamos dos ecuaciones con dos incógnitas.

En el caso de regresión múltiple tendremos dos o más ecuaciones con dos o más incógnitas, como veremos a continuación:

y b n b x b x b x

x y

i oi

n

ii

n

i pi

n

ipi

n

i i

= + + + += = = =∑ ∑ ∑ ∑* * * ... *

*

11

1 21

21 1

1 == + + + += = = =∑ ∑ ∑ ∑b x b x b x x b xi

n

ii

n

ii

n

ii

n

i p i01

1 11

21 2

11

12 1* * * * ... * **

* * * * *

x

x y b x b x x b x

ipi

n

i ii

n

ii

n

i ii

n

i

=

= = =

∑ ∑ ∑= + + +

1

2 01

2 11

2 1 21

22

ii

n

i i pi

n

i ipi

n

ip ii

n

x b x b x x

x y b x

= = =

=

∑ ∑ ∑

+ +

=

11 2

22

12

1

01

... * * * *

* * iipi

n

ip ii

n

ipi

n

i ip ii

n

b x x b x x x x+ + + + += = = =∑ ∑ ∑ ∑11

1 21

2

12 2

1

* * * * ...++=∑b xp ipi

n

* 2

1

Así tendremos tantas ecuaciones como parámetros se deban estimar.

Dada la complejidad en la resolución de este sistema, utilizaremos Microsoft Excel para estimar los valores de los parámetros β’s.

COEFICIENTE DE DETERMINACIÓN MÚLTIPLE R2

Al igual que en regresión lineal simple, el coeficiente de determinación R² explica la proporción de la variación de la variable a ser explicada y , por el modelo de regresión múltiple que se ha estimado, y se lo denota de la misma forma:

R SCRSCT

2 =

En donde SCT, SCR y SCE son las mismas fórmulas que utilizábamos en regresión lineal simple:

SCR y yii

n

= −−

=∑ ( )

^2

1 SCE y yi i

i

n

= −=∑ ( )

^2

1 SCT y yi

i

n

= −−

=∑ ( )21

Page 44: Regres Ssimp y Mult

UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 45

PRIMER BIMESTREGuía didáctica: Estadística II

UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja44

Si nos hacen falta alguna de las sumas cuadráticas, las podemos hallar despejando la fórmula como en regresión lineal simple, sabiendo que:

Despejamos el término que nos hace falta:

Potencia de Explicación del Modelo R2 * 100%

Se lo define como el porcentaje R2 * 100%, al porcentaje que va a explicar que tan bueno es el modelo.

RECUERDE:En regresión múltiple a medida que se aumenta el número de variables independientes, también aumenta el valor de este cociente. Aunque este incremento puede no ser significativo.

En el caso de que este valor sea muy bajo puede deberse a que no se ha incluido alguna variable en el modelo, pero esto no significa que el valor de R2 aumentará de forma significativa, solo lo hará siempre y cuando la variable a incluir aporta con gran información al modelo.

Obviamente también cambiarán los valores de las sumas cuadráticas y específicamente el valor del Error disminuirá para que este cociente sea alto.

COEFICIENTE DE DETERMINACIÓN MÚLTIPLE AJUSTADO

Se utiliza el coeficiente de determinación ajustado para comparar dos o más modelos que tengan en común la misma variable a ser explicada y, para determinar cual modelo ajusta mejor. Este número siempre será menor que el Coeficiente de Determinación, además, penaliza al modelo que contenga más variables explicativas. Su fórmula es:

Donde R² es el coeficiente de determinación, n es el número de observaciones y k es el número de variables independientes.

PRUEBA DE SIGNIFICANCIA

Recordemos el modelo con el que estamos trabajando en regresión múltiple; nosotros tratamos de explicar a una variable dependiente y, mediante varias variables independientes xp = 1,2,...,p;

SCT= SCR + SCE

SCR= SCT – SCE

SCE= SCT – SCR

Page 45: Regres Ssimp y Mult

PRIMER BIMESTRE Guía didáctica: Estadística II

UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 45

⇨ y = β₀ + β₁Xi1, β₂xi2 +... +βp xip + ∈i

Como sabemos los valores de los coeficientes β's

son estimados mediante el método de mínimos cuadrados, y lo que se espera es que ninguno de estos coeficientes al momento de ser estimados sea cero (0), para esto postularemos un contraste de hipótesis en donde se rechace o no la posibilidad de que esto ocurra.

El contraste de hipótesis es el siguiente:

Donde en H0 se afirma que los valores de las constantes β₁, β₂, ... , βp son iguales a cero, versus, la H1 que postula que al menos una de estas constantes tiene un valor diferente a cero.

El estadístico de prueba para este contraste es el mismo que ya utilizáramos cuando teníamos solo una variable de explicación:

Con (1 - α)*100% de confianza se rechaza la H0 en favor de H1 si el valor del estadístico de prueba F es mayor que el percentil (1 - α)*100 de la Distribución F de Fisher con (p-1) grados de libertad en el numerador y (n-p) grados de libertad en el denominador, es decir;

Si H0 es rechazada como es lo esperado, ahora tendremos que determinar cuál de todos los β’s, no es cero, es decir cuál de los β’s es realmente significativo para el modelo; y esto lo haremos mediante otro contraste de hipótesis, pero ahora analizaremos esto para cada uno de los valores de los β ’s, como se ve a continuación;

En general, tendríamos varios contrastes, uno para cada uno de los βi ,así:

H₀: β₁ = β₂ = ... = Bp = 0

Vs.

H₁ : Al menos uno de los β 's no es cero

MCRF = ______ MCE

H₀: β₂ = 0

Vs.

H₁ : β₁≠0;i-1,2,...,(p-1)

MCRF = ______ > T (α , p 1 , n p) MCE

Page 46: Regres Ssimp y Mult

UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 47

PRIMER BIMESTREGuía didáctica: Estadística II

UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja46

H0 postula que uno β₁ es igual a cero (0), versus H1 que postula que el valor es diferente de cero (0).

El estadístico de prueba para este contraste de hipótesis es:

donde b₁ ; es el valor estimado del parámetro βi y sbi es la estimación de la desviación estándar de bi, es decir;

S s

x xb

ii

ni=

−−

=∑ ( )21

dondes=√MCF,elerrorestándardeestimación.

A medida que se aumentan variables al modelo, para realizar los cálculos este se vuelve un poco difícil determinar las sumas cuadráticas, realizar cada uno de los contrastes de hipótesis, etc., por lo que recurriremos a Microsoft Excel para estos cálculos.

TABLA DE ANÁLISIS DE VARIANZA

La tabla ANOVA que vamos a utilizar para Regresión Múltiple será la misma que hemos utilizado en Regresión Lineal Simple:

Fuentes de Variación

Grados de Libertad

Sumas Cuadráticas

Medias Cuadráticas

Estadístico de Prueba F

Valore p

Regresión p - 1 ( )y yii

n ^−

=∑ 2

1

SCRP −1

F MCRMCE

= p = Prob (F p-1, n - p≥F)

Error n - p ( )y yi ii

n

−=∑

^2

1

SCEn p−

Total n - 1 ( )y yi ii

n

−=∑

-2

1

Tabla 2.1

Page 47: Regres Ssimp y Mult

PRIMER BIMESTRE Guía didáctica: Estadística II

UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 47

Veamos el siguiente ejemplo:

Ejemplo 2.1

En el béisbol, el éxito de un equipo se suele considerar en función del desempeño en bateo y en lanzamiento de equipo. Una medida del desempeño en el bateo es la cantidad de cuadrangulares que anota el equipo y una medida del desempeño en lanzamiento es el promedio de carreras ganadas por el equipo que lanza. En general, se cree que los equipos que anotan más cuadrangulares (home run) y tienen un promedio menor de carreras ganadas ganan un mayor porcentaje de juegos. Los datos siguientes pertenecen a 16 equipos que participaron en la temporada de la Liga Mayor del Béisbol de 2003; se da la proporción de juegos ganados, la cantidad de cuadrangulares del equipo (HR) y el promedio de carreras ganadas (ERA) (www.usatoday.com, 17 de enero de 2004) 33.

Equipo Proporción de ganados HR ERA

Arizona 0,519 152 3,857Atlanta 0,623 235 4,106Chicago 0,543 172 3,842Cincinnati 0,426 182 5,127Colorado 0,457 198 5,269Florida 0,562 157 4,059Houston 0,537 191 3,88Los Angeles 0,525 124 3,162Milwaukee 0,42 196 5,058Montreal 0,512 144 4,027New York 0,41 124 4,517Philadelphia 0,531 166 4,072Pittsburgh 0,463 163 4,664San Diego 0,395 128 4,904San Francisco 0,621 180 3,734

St. Louis 0,525 196 4,642

Tabla 2.2

Obtenga la ecuación de regresión estimada para predecir la proporción de juegos ganados en función de la cantidad de cuadrangulares. Interprete resultados.

Desarrollo:

Al usar el Software Excel con los mismos pasos como en Regresión Lineal Simple, con la diferencia de que cuando vayamos a seleccionar las variables independientes, tenemos que tomarlas en conjunto las dos columnas (o tres columnas en caso de que se cuenten con tres variables independientes) junto con el nombre que las caracteriza igual como hiciéramos en Regresión Lineal.

3. Anderson, D., Sweeney, D., y Williams, T. Estadística para administración y economía, decima edición México.

Page 48: Regres Ssimp y Mult

UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 49

PRIMER BIMESTREGuía didáctica: Estadística II

UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja48

En el menú Datos, opción “Análisis de datos”, aparece el cuadro de diálogo en el que escogemos la opción “Regresión”, en el cuadro de diálogo “Regresión”, como ya hiciéramos antes, el rango de entrada serán las celdas donde se encuentra la variable dependiente y, en este caso es la proporción de juegos ganados, como se muestra en la figura:

Figura 2.1Para escoger el rango de entrada x, es decir las variables independientes en este caso son dos, señalaremos las dos columnas HR y ERA, como se muestra en la figura.

Page 49: Regres Ssimp y Mult

PRIMER BIMESTRE Guía didáctica: Estadística II

UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 49

Figura 2.2

Señalamos la opción “Rótulos”, “Nivel de confianza” con 99%, y en el “Rango de salida” escogemos la celda en la que queremos que se muestren los resultados, en este caso en la celda “W6” pero podemos escoger cualquier celda para esto. Al hacer clic en el botón aceptar, Excel muestra los siguientes resultados:

Page 50: Regres Ssimp y Mult

UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 51

PRIMER BIMESTREGuía didáctica: Estadística II

UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja50

Resumen

Estadísticas de la regresión Coeficiente de correlación múltiple 0,93

R^2 0,86 R^2 ajustado 0,84 Error típico 0,03 Observaciones 16

ANÁLISIS DE VARIANZA gl SC MC F Valor p

Regresión 2 0,06 0,03 39,37 3,0462E-06 Residuos 13 0,01 0,0008

Total 15 0,07

Veamos cómo se han obtenido estos resultados, con las fórmulas conocidas:

*Estadísticas de la regresión

El coeficiente de determinación es:

R SCRSCT

2 0 060 07

0 86= = =,,

,

el coeficiente de correlación muestral es:

rxy=±√R²

rxy=√0,86rxy ≅ 0,93

el coeficiente de determinación múltiple ajustado es:

R R nn ka

2 21 1 11

= − −−

− −( )

R

R

a

a

2

2

1 1 0 86 16 116 2 1

0 84

= − −−

− −

=

( , )

,

Error típico o error estándar de estimación

s MCE=