Exposicion seminario 2012

31

description

Seminario Internacional de Estadística y Matemáticas. Universidad Nacional de San Agustín de Arequipa. 09 de mayo del 2012. Auria Julieta Flores Luna, Ingeniero Estadístico. Docente Principal del Departamento Académico de Estadística - UNSA

Transcript of Exposicion seminario 2012

Page 1: Exposicion seminario 2012
Page 2: Exposicion seminario 2012

• Realizar un Análisis de Regresión Lineal Simple completo cuando se presentaen los pares de observaciones a ser asociadas, datos atípicos.

• Mostrar el uso de la RLS cuando cumple con los requisitos exigidos al aplicardicho método, de tal manera que el modelo fijado sea correcto.

Objetivos específicos:

• Presentar la Prueba de Hipótesis que nos permitirá decidir si la observaciónsospechosa es realmente atípica.

• Eliminar científicamente los datos atípicos.• Encontrar una ecuación del modelo de regresión que presente lo más preciso

posible la relación entre dos variables en torno al problema de los datosatípicos haciendo uso de la estadística inferencial.

• Hacer inferencias respecto a sus parámetros.

Objetivos generales:

Page 3: Exposicion seminario 2012

Problemas en el Análisis de Regresión:

Algunos de los problemas estadísticos implicados en el análisis de regresión son:

• Identificar la existencia de datos atípicos • Obtener un buen estimador de los parámetros del

modelo• Contrastar hipótesis sobre dichos parámetros• Determinar la bondad del modelo para los datos

particulares• Comprobar que se cumplen las hipótesis exigidas

Page 4: Exposicion seminario 2012

FUNDAMENTO TEÓRICO

Regresión Lineal Simple.- Cuando la relación entre las dos variables tiende auna recta, se dice Regresión Lineal. Así por ejemplo, observar las Figuras a,b y c.

Y X ui i i ˆˆY X ei i i

ibXaiY ˆ

El modelo de regresión lineal simple

Modelo aleatorio(MRLSM)

MRLSP

Modelo determinístico

Page 5: Exposicion seminario 2012

Método de Mínimos Cuadrados Ordinarios

ibXaiY ˆ

Los valores de los estimadores resultan de la aplicación del Método de Mínimos Cuadrados Ordinariosque consiste en minimizar los errores (ei).

De ese procedimiento se obtiene dos ecuaciones normales:

11 1

n

i

n

i iXbnaiY

21 1

21

n

i

n

i iXbn

i iXaiXiY

Estimadores de Regresión:

nesobservacio ... /n)2iX( - X 2

i

/niYiX-iYiX = b

esdesviacion .......... x2i

iyix = b

Xb - Y = a

Page 6: Exposicion seminario 2012

Propiedades de los erroresLos errores definidos como ˆe Y Yi i i satisface las siguientes propiedades:

10

n

ii

e

1)

2)

3)

1 1 1 1 1

ˆ ˆˆ ˆ ˆ( ) ( ) 0n n n n n

i i i i i i ii i i i i

e Y Y Y X Y n X

10

n

i ii

e X

1 1 1

ˆˆ ˆ( ) ( )n n n

i i i i i i i ii i i

e X Y Y X Y X X

2

1 1 1

ˆˆ 0n n n

i i i ii i i

Y X X X

1

ˆ 0n

i ii

eY

1 1 1 1

ˆ ˆˆ ˆ ˆ( ) 0n n n n

i i i i i i ii i i i

eY e X e e X

Page 7: Exposicion seminario 2012

ˆe Y Yi i i ˆ ˆ ˆ( ) ( ) )(Y Y Y Y Y Y Y Y Y Yi i i i i i

2 2 2

1 1 1

ˆ ˆ( ) ) ( )(n n n

i i iY Y Y Y Y Yi i i i

Análisis de VarianzaPara obtener la estimación de la varianza de los errores, se debe descomponer la varianza total del modelo. Para ello se parte de la definición de los errores:

2

2 1

ˆ( )

2 2

n

i ii

e CMEY YSCES

n n

La varianza de los errores representada por es desconocida y se estimautilizando la suma de cuadrados de los errores. Un estimador insesgado dees:

Page 8: Exposicion seminario 2012

Distribución de los estimadores MCO

Para hacer inferencias, se asumen que los errores son independientes y2(0, )ie N . También las son una combinación

lineal de as Yi. Por lo tanto, una combinación lineal de v.a. normales e independientes

se distribuyen normalmente, es decir:

2

2ˆ ,

ix N

i)

ii)

iii)

2

22 1ˆ ,

i

Xn x

N

22

2

1ˆ , ii i

xn x

Y N X

iv)0

22

0 2

1 ( )/ 1ˆ , oi XX

X Xn x

Y N X

Page 9: Exposicion seminario 2012

Inferencia acerca de los parámetros

0 0ˆ ˆˆ ˆ 1P t S t S a l f a

0 0ˆ ˆˆ ˆ 1P t S t S

Page 10: Exposicion seminario 2012

2 22 2

2 2

0 01 1ˆ ˆ 1( / )ii e i e

i ix xS S

n x n xP Y t Y tE Y X

0

2 22 2

2 20 01 ( ) 1 ( )

/1 1ˆ ˆ 1o oi e i eXX

X X X XS Y S

n x n xP Y t Y t

Page 11: Exposicion seminario 2012

0:oH 1)

2)3)

4)

5)

6)

0

1 0

0

): )

)

aH b

c

0:oH

0

1 0

0

): )

)

aH b

c

Elegir la distribución t de studentn.s. alfa

1 ; 2 0?,c nSi t t entonces se rechaza H a)

b)

c)

; 2 0?,c nSi t t entonces se rechaza H

1 / 2 ; 2 0?,c nS i t t en to n ces se rech a za H

ˆ

ˆc St

ˆ

ˆc St

Conclusión

Page 12: Exposicion seminario 2012

Elegir la distribución t de student

n.s. alfa

Conclusión

1)

2)

3)

4)

5)

6)

1 / 2 ; 2 0?,c nS i t t en to n ces se rech a za H

0:o S SH Y Y

01 : S SH Y Y

ˆ

ˆ

S

S S

Yc

Y YSt Donde :

22

2ˆ1 ( )1

S

oY e

X XS

n xS

Page 13: Exposicion seminario 2012

Aplicación

Un investigador debe realizar el análisis de regresión para un conjunto de profesionales cuando las variables de estudio son los años de experiencia y los ingresos que perciben. Uno de los objetivos es fijar un modelo de regresión sin considerar las observaciones sospechosas y otro objetivo es hacer inferencias acerca de sus parámetros. Los datos considerados en el estudio son:

Page 14: Exposicion seminario 2012

Verificando la normalidad de los errores y detectando los datos atípicos

El gráfico permitirá verificar:

• Si la distribución de los errores es normal y sin “outliers” o datos atípicos.

• Si la varianza de los errores es constante y si se requieren transformaciones de las variables.

• Si la relación entre las variables es efectivamente lineal o presenta algún tipo de curvatura.

• Si hay dependencia de los errores, especialmente en el caso de que la variable independiente sea el tiempo.

Page 15: Exposicion seminario 2012

Realizando las pruebas de hipótesis para eliminar datos sospechosos o extraños.

Page 16: Exposicion seminario 2012
Page 17: Exposicion seminario 2012

Realizando la prueba de hipótesis para la primera observación sospechosa:

Page 18: Exposicion seminario 2012
Page 19: Exposicion seminario 2012

Realizando la prueba de hipótesis para la segunda observación sospechosa:

Page 20: Exposicion seminario 2012
Page 21: Exposicion seminario 2012

Realizando la prueba de hipótesis para la tercera observación sospechosa:

Page 22: Exposicion seminario 2012

FIJACIÓN DEL MODELO DE REGRESIÓN LINEAL SIMPLE SIN LAS OBSERVACIONES ATÍPICAS

Antes de utilizar el modelo de regresión lineal debemos preguntarnos:

• Qué también se ajusta la ecuación a los datos?• El modelo puede ser utilizado para la predicción?• Cumple con los supuestos para que garantice su correcta aplicación?

Para responder las primeras interrogantes observamos el siguiente cuadro:

Ahora procedemos a la comprobación de supuestos.

Para que tenga validez las inferencias como las pruebas de hipótesis y las estimaciones es necesario comprobar los supuestos básicos.

Page 23: Exposicion seminario 2012

El diagrama de dispersión es un gráfico que visualiza una primera aproximación no muy rigurosa al estudio de la linealidad. En este caso, como no presenta alguna configuración especial entonces se corrobora la supuesta linealidad. Aquí se comparan los errores y las estimaciones de Y, siendo:

LINEALIDAD

Esto mismo lo podemos hacer de una manera más directa recurriendo al diagrama de dispersión con observaciones estandarizadas para los errores y las estimaciones de Y. Una ventaja es de que las variables están en la misma escala.

Page 24: Exposicion seminario 2012

NORMALIDAD

Se puede observar en ambos casos una buena aproximación a la normalidad.Pero, si queremos ser más rigurosos recurrir a procedimientos analíticos. Uno delos métodos estadísticos que prueba la normalidad de los datos es la prueba deKolmogorov-Smirnov o la prueba de Shapiro-Wilk.

Page 25: Exposicion seminario 2012

HOMOSCEDASTICIDAD

Este exige que para todo el recorrido de lavariable X la varianza del error sea constante.Uno de los recursos es el gráfico de los errores ylas estimaciones de Y estandarizadas paracomprobar la homocedasticidad. Si no hayhomocedasticidad (heterocedasticidad) la nubede puntos tiene forma de "embudo", sea a laderecha o a la izquierda, lo que es indicativo quela magnitud de los residuos varía en un sentido oen otro.

Pero, para ser más rigurosos, unmétodo analítico es calcular lacorrelación entre los errores en valoresabsolutos y las puntuacionespredichas. Se considera en valoresabsolutos para que la correlación nosea cero.

Page 26: Exposicion seminario 2012

INDEPENDENCIA DE LOS ERRORES

Para verificar la independenciade los errores utilizamos laDurbin-Watson

Page 27: Exposicion seminario 2012

INFERENCIA ACERCA DE LOS PARÁMETROS

Page 28: Exposicion seminario 2012
Page 29: Exposicion seminario 2012

CONCLUSIÓN:

• En la aplicación expuesta se ha mostrado el análisis deregresión lineal simple completo, desde la verificación de lanormalidad de los errores, detección de datos atípicos,eliminación científica de los datos sospechosos, identificacióndel modelo sin observaciones sospechosas, comprobación desupuestos e inferencia acerca de los parámetros.

• Se ha mostrado en detalle los métodos estadísticos utilizadoscuando se realiza un Análisis de Regresión Lineal Simple.

• Se ha encontrado la ecuación del modelo de regresión lo másprecisa posible sin los datos atípicos.

• Se ha eliminado mediante pruebas de hipótesis los datosatípicos .

• Se ha realizado inferencias acerca de los parámetros en losresultados de las pruebas F y t.

Page 30: Exposicion seminario 2012

BIBLIOGRAFÍA

• Johnston J. J. Dinardo (1997), · “Métodos Econométricos”, Mc Graw-Hill.

• Gujarati D. N. (1997), “Econometría” , Mc Graw-Hill.

• Salvatore, Dominick , “Econometría”, Serie Schaum. Mc Graw-Hill.

• G. S. Maddala (1996), “Introducción a la Econometría”, 2da. Edición Pretince Hall, México.

• Draper, N y Smith, H. (1998). Applied Regression Analysis, Third Edition. John Wiley, New York.

• Rao, C.R. (1973). Linear Statistical Inference and its applications. John Wiley and Sons, New York.

Page 31: Exposicion seminario 2012