TEORÍA Mg. Ing. Susana Vanlesberg

Post on 28-Jun-2022

2 views 0 download

Transcript of TEORÍA Mg. Ing. Susana Vanlesberg

Universidad Nacional del Litoral

Facultad de Ingeniería y Ciencias Hídricas

ESTADÍSTICA

Ingenierías: RH-Amb-Agr

TEORÍAMg. Ing. Susana Vanlesberg

REGRESIÓNY CORRELACIÓN

• RETOMAMOS EL ESTUDIO DE VARIABLES QUE SE DISTRIBUYEN DE FORMA CONJUNTA

• El estudio de la asociación entre variables se hace a través de dos aspectos:

• ANÁLISIS DE REGRESIÓN: permite encontrar el modelo que vincula a las variables en cuestión, brindando así un mecanismo de pronóstico.

• ANÁLISIS DE CORRELACIÓN: determina la medida del grado de exactitud de la relación entre variables.

• Por ejemplo una empresa de servicios públicos establece la relación entre la temperatura diaria y la demanda de electricidad para predecir la necesidad del fluido eléctrico considerando las temperaturas diarias que se esperan para el mes siguiente. Algunas veces los directivos se apoyan en la intuición para juzgar la relación entre dos variables.

• Sin embargo, cuando los datos están disponibles, puede emplearse un procedimiento estadístico llamado análisis de regresión para obtener una ecuación que indique cuál es la relación entre las variables.

• Se comienza realizando el gráfico que permite visualizar a las variables y su comportamiento, es lo que se denomina Dispersiograma, ya que muestra la variabilidad o dispersión entre ambas variables.

DISPERSIOGRAMA

• REGRESIÓN LINEAL SIMPLE

• Es el análisis en el que se estudia la relación en la que interviene una variable independiente y una variable dependiente, que se aproxima mediante una línea recta.

• Al análisis en el que intervienen dos o más variables independientes se le llama análisis de regresión múltiple.

ECUACIÓN DE REGRESIÓN

iii β XαY

ΙΙΙ

β XαY ii

i

• I se denomina parte sistemática

• II es la parte aleatoria

• Debido a esta parte aleatoria el proceso de obtención del modelo no es como la determinación del ajuste de una función matemática a una serie de puntos.

α y β parámetros del modelo, deberán ser estimados

Xi variable independiente, fija, conocida, variable explicativa.

ε término de error aleatorio

Supuestos del modelo de regresión

• - Ɛ es una variable aleatoria cuyo valor esperado es cero: E (Ɛ)= 0.• -La varianza de Ɛ, es la misma para todos los valores de x.

Var(ε) =σ2

• Implicancia. La varianza de Y respecto al modelo de regresión es igual a σ2

y es la misma para todos los valores de x.• - Los valores de Ɛ son independientes.• Implicancia. El valor de Ɛ correspondiente a un determinado valor de x no

está relacionado con el valor de Ɛ para cualquier otro valor; por tanto, el valor de y correspondiente a un valor particular de x no está relacionado con el valor de y de ningún otro valor de x.

• - El término del error Ɛ es una variable aleatoria distribuida normalmente.• Implicancia. Como Y es una función lineal de Ɛ, también será una variable

aleatoria distribuida normalmente.

• Lo que se determina es que para cada valor fijo de x existen distintos valores de la variable dependiente, ya que ella tiene parte aleatoria y eso provoca que se tengan subpoblaciones para cada valor de x.

• Cada una de estas distribuciones tiene su propia media o valor esperado.

• A la ecuación que describe la relación entre el valor esperado de y, que se simboliza E(y), y x se le llama ECUACIÓN DE REGRESIÓN.

Significado de los parámetros

α : intercepción de la línea de regresión con el eje Y.

β : pendiente de la recta, proporción de cambio en la media de la distribución de

probabilidad de Y por unidad de cambio de X.

ESTIMACIÓN DE LOS PARÁMETROS DEL MODELO

• Método de Mínimos cuadrados

Debido a que se pretende encontrar el mejor modelo que ajuste a la nube de puntos se utiliza este método.

• Se parte de considerar que la subpoblación de Y es normal, y que la suma de los cuadrados de las desviaciones de las observaciones respecto de la recta verdadera sea mínima

Se parte de considerar las distancias entre valores observados y estimados a través del modelo de regresión

n

i

ii

n

i

iiii

n

i

ii

bXaYSluego

bXaYYYS

XYS

1

2

1

2

1

2

ˆˆ

Los estimadores a y b de los parámetros serán aquellos que minimicen el valor de S:

0

S0

S

n

i

iii

n

i

ii

XYXS

XYS

1

1

2

2

Luego:

n

ii

n

i

n

i

iiii

n

i

n

i

ii

XbXaYX

XbnaY

1 1

2

1 1

0

0

xbya

SS

mb

XX

YYXX

b

xx

n

i

i

n

i

ii

22

1,1

1

2

1

cov

• El análisis de regresión no puede entenderse como un procedimiento para establecer una relación de causa y efecto entre las variables. Sólo indica cómo o en qué medida las variables están relacionadas una con otra. Cualquier conclusión acerca de una relación causa y efecto debe basarse en los conocimientos de los especialistas en la aplicación de que se trate.

• Hay que tener cuidado al usar la ecuación de regresión estimada para hacer predicciones fuera del rango de valores de la variable independiente, ya que fuera de ese rango no puede asegurarse que esta relación siga siendo válida.

Varianza de la regresión

• Se suele llamar ecuación predictiva a la ecuación de regresión, ya que su principal objetivo es predecir valores medios de la variable dependiente asociados con un valor dado de la variable independiente.

• Para saber si realmente es conveniente utilizar esta ecuación como herramienta de predicción, puede analizarse la variabilidad del valor estimado a través del modelo de regresión.

• La medida numérica de la desviación de las observaciones respecto al modelo es el estimador de la varianza de la regresión poblacional:

• S2y/x =Se

2

• El análisis de la varianza de regresión se basa en la partición de la suma de cuadrados.

La variación de las variables dependientes Yi generalmente se mide en términos de las desviaciones respecto al valor medio:

• La variación total siempre se mide respecto al valor medio:

n

i

i YY1

2

• Cuanto mayor es este valor, mayor es la variación de la curva ajustada respecto a las observaciones.

Utilizando el modelo ajustado, la variación total queda expresada de acuerdo a la diferencia con los valores ajustados:

• Con base en el modelo de regresión y sus supuestos, podemos decir que σ2, la varianza de Ɛ, representa también la varianza de los valores de y respecto de la recta de regresión.

• Las desviaciones de los valores de y respecto de la recta de regresión estimada se denominan residuos o residuales.

• La suma de los cuadrados de los residuales, es una medida de la variabilidad de las observaciones reales respecto de la línea de regresión estimada: SCE Suma de cuadrados residuales o error.

• Si se divide SCE por los grados de libertad que en este caso es (n-2) ya que a partir de la muestra se obtienen 2 estimadores puntuales de los parámetros, se obtiene una estimación puntual insesgada de la varianza de regresión σ2 que es desconocida:

i i

iiii

ii

bxayyySCE

xbay

22 )()ˆ(

ˆ

• El error estándar de estimación es la raíz de S2

y/x

2

2

/

n

SCEECMS xy

Análisis de la tabla de Varianza de regresión:

• Generalmente del análisis hecho con los softwars se obtiene una tabla que resume el análisis de cuadrados que permite obtener la varianza , los residuos y que sirve también para otros análisis de bondad del modelo.

• POR EJEMPLO:

ANÁLISIS DE VARIANZA

Grados de libertadSuma de

cuadradosPromedio de los

cuadrados

Regresión 1 1701032,819 1701032,819

Residuos 21 1493449,89 71116,66145

Total 22 3194482,71

Varianza estimada de la regresión

Interpretación

• Regresión, error y total son las etiquetas de las tres fuentes de variación, y SCR, SCE y STC son las sumas de cuadrados correspondientes que aparecen en la columna 2.

• En la columna 3 se indican los grados de libertad 1 para SCR ya que en este caso la variable independiente es 1, n - 2 para SCE y n -1 para STC.

• ECM es el cuadrado medio debido al error y es lo que se calculó como varianza de la regresión.

Estimadores de los parámetros

• La base para inferencia referida a los parámetros de la regresión la proporcionan las propiedades de la distribución de muestreo de a y b, obtenidos mediante el método de mínimos cuadrados.

• Considerar qué ocurriría si para el mismo estudio de regresión se usaran muestras aleatorias diferentes. No puede esperarse que se obtenga exactamente la misma ecuación. Los estimadores a y b, obtenidos por el método de mínimos cuadrados, son estadísticos muestrales que tienen su propia distribución de muestreo.

• Se presentan las propiedades de la distribución de muestreo de cada uno:

• Distribución muestral de b:Valor esperado: se obtiene de aplicar el operador esperanza a la expresión de b y trabajarlo matemáticamente:

Desvío estándar: se obtiene de aplicar el operador varianza y trabajar matemáticamente

Y distribución muestral Normal

)(bE

2

2

)()(

:σparaestimadodesvíoelcony

)()(

xx

SbS

xxb

i

i

• Y esto permite encontrar intervalos de confianza especialmente para la pendiente de la regresión:

)(1 bStb

• Distribución muestral de a:

De la misma forma, se obtiene la esperanza:

Desvío estándar: se obtiene de aplicar el operador varianza y trabajar matemáticamente:

Y distribución muestral Normal

)(

)()()()(

aE

XXXbEYEXbYEaE

n

i

i XX

X

na

1

2

222 1

• Y esto permite encontrar el intervalo de confianza para la ordenada del modelo de regresión:

)(1 aSta

• Estos intervalos también se brindan en la salida de regresión que se obtiene de aplicar este análisis en los softwars:

• Por ejemplo:

Coeficientes Error típico Inferior 95% Superior 95%

Intercepción -1032,201975 432,099881 -1930,80287 -133,6010803

Pendiente 437,7332939 89,50327239 251,6010495 623,8655383

Uso de la ecuación de regresiónestimada para estimación y predicción• Si existe una relación significativa entre x

e y, y se determina que la ecuación de regresión estimada es adecuada entonces es útil para usarla para estimación y predicción.

• Tanto los intervalos de confianza como los de predicción indican la precisión de los resultados de la regresión. Los intervalos más estrechos proporcionan un mayor grado de precisión.

• Las estimaciones puntuales no proporcionan información alguna acerca de la precisión de una estimación. Para eso es necesario obtener estimaciones por intervalo que son muy parecidas a las ya estudiadas.

• El primer tipo de estimación por intervalo, es el intervalo de confianza de una estimación del valor medio de las y que corresponden a un valor dado de x.

• El segundo tipo, el intervalo de predicción, se usa cuando se necesita una estimación por intervalo de un solo valor de y para un valor dado de x.

• La estimación puntual del valor medio de y es igual a la estimación puntual de un solo valor de y. Pero las estimaciones por intervalo que se obtienen para estos dos casos son diferentes. En un intervalo de predicción el margen de error es mayor ya que los errores para caso son diferentes.

Predicción

• Predicción: es la estimación del valor medio de Y dado un valor particular de X:

• Se considera la recta de regresión y su precisión.

a + bX es el estimador insesgado de α + βX, su distribución es normal, ya que es una combinación lineal de variables aleatorias normales.

Entonces la variación depende de la variación o error en ambos estimadores, o sea en a y b:

hh bXaY ˆ

• En general, no se puede esperar que sea exactamente igual a

• Para hacer una inferencia acerca de qué tan cerca está de la media verdadera es necesario estimar la varianza de . La fórmula para estimar la varianza de para un xp dado, es

py

pyE ˆ

py pyE ˆ

py

py pyS ˆ2

Intervalo de confianza para el valor medio

pynp Sty ˆ2;1ˆ

Intervalo de predicción para un solo valor de y (Pronóstico)

• Para obtener un intervalo de predicción, es necesario determinar primero la varianza correspondiente al uso de como estimación de un valor individual de y cuando a x= xp. Esta varianza está formada por la suma de los dos componentes siguientes:

• 1. La varianza de los valores individuales de y respecto de la media para la cual una estimación está dada por

• 2. La varianza correspondiente al uso de para estimar para la cual una estimación está dada por

py

pyE ˆ 2S

py pyE ˆ

pyS ˆ2

• La expresión para estimar la varianza de un valor individual de yp, Sind es:

2

2

2

2

2

22

2

ˆ

22

)(

)(11

)(

)(1

xx

xx

nS

xx

xx

nSS

SSS

i

p

i

p

yind p

• Luego el intervalo es:

indnp Sty 2;1

ˆ

Análisis de Correlación

• Brinda medidas que dicen cuan fuerte o importante es la asociación entre las variables

Se analizan los coeficientes de

Correlación y Determinación

Coeficiente de Correlación ρ

1 - Las variables X e Y son variables aleatorias, esto significa que no es fijo decir variable dependiente o independiente, cualquiera de las dos puede ser la

variable independiente o a la inversa.

2 - Las variables proceden de una población Normal bivariada, o sea X e Y están distribuidas

conjuntamente como normal.

3 - X e Y tienen cada una distribución Normal

4 - La relación entre X e Y es lineal ; este supuesto implica decir que las medias de Y para valores de X

caen sobre la recta Yi = α + β Xi , de la misma manera que para

Xi = α + β Yi

5 - Si las dos rectas de regresión ( con X dependiente o con Y dependiente) son iguales, quiere decir que la

relación es perfecta.

Coeficiente de Correlación poblacional:

yxyx

yx

yx

YEXE

YXE

1,1

22

cov

)()(

))((

Variación de ρ

),cov(

1

)1,0(..

,

yx

, luego: iguales a y σσ Siendoσσ

Cov(xy)ρ

NsonavlasSi

) N(x e y son

)μ)(yμ(xECov(x,y)

yx

yx

yx

11

022

0211

02

adasestandariz normales variables

ρ-

ρ

ρ

Cov Var(y*) Var(x*)

y*ex*

y*)Var(x*

Coeficiente de correlación muestral

yx

i

i

i

i

i

ii

SS

m

yyxx

yyxx

r1,1

22 )()(

)()(

ˆ

Coeficiente de determinación

• Se parte del mismo análisis realizado para la Varianza de regresión, la partición de cuadrados:

(SCError))y(y

R)aos (SCdebid)yy(

s) (SCTotale)y(y

)y(y)yy()y(y

i

ii

i

i

i

i

i

ii

i

i

i

i

2

2

2

222

ˆ

ˆ

ˆˆ

SCT

SCE

SCT

SCR

SCT

SCR

SCT

SCT

SCT

SCE

SCRSCTSCE

1

SCT

SCR

SCT

SCEr 12

r2 varía entre 0 y 1, ya que SCR es menor o igual que SCT.

Algunos comentarios:

Si SCE = 0, implica que SCR = SCT, luego r2 es igual a 1. Esto significa que todos los puntos están sobre la recta

estimada.

Si SCR = 0, implica que SCE = SCT, con lo cualr 2 = 0

Esto significaría que la pendiente de la recta es igual a cero. Esto puede

deberse a que la línea de regresión sea horizontal.

Esto puede ser relacionado a distintas causas:

• las observaciones se dispersan alrededor del valor medio en forma aleatoria.

• todas las observaciones tienen el mismo valor, cualquiera sea el valor de x

• las observaciones se dispersan alrededor de una curva tal que la línea mejor ajustada es una línea recta horizontal

Análisis de residuos: confirmación de los supuestos del modelo

• Otro análisis interesante y que ayuda a confirmar si el modelo es adecuado es el análisis de residuos.

• Como ya se indicó, el residuo de la observación i es la diferencia entre el valor observado de la variable dependiente (yi) y el valor estimado de ella usando el modelo de regresión iy

• Se plantearon al comienzo los siguientes supuestos para el término del error Ɛ:

• 1. E (Ɛ)= 0

• 2. La varianza de Ɛ, σ2, es la misma para todos los valores de x.

• 3. Los valores de Ɛ son independientes.

• 4. El término del error Ɛ tiene una distribución Normal.

Se puede hacer el análisis de los residuos para saber si se cumplen esos supuestos:

Gráfica de probabilidad normal

• Otro enfoque para determinar la validez del supuesto de que el término del error tiene una distribución normal es la gráfica de probabilidad normal.

• Se usa S en lugar de σ, la distribución de probabilidad de los residuos estandarizados no es técnicamente normal. Sin embargo, en la mayoría de los estudios de regresión el tamaño de la muestra es suficientemente grande para que una aproximación normal sea muy buena.

• También puede hacerse un histograma de los residuos, un diagrama box plot, etc o bien verificar las características del modelo Normal de estos residuos: coincidencia de los valores de la media , mediana y moda, y el valor de asimetría aproximadamente igual a cero y la kurtosis próxima a tres.

0

2

4

6

8

10

12

14

16

18

20

Fre

cuen

cia

Clase

Histograma de residuos

Frecuencia