DIOS LES BENDIGA Semana 7. Clase 7 MS.C JUAN CARLOS ORUNA LARA MAGISTER EN ESTADÌSTICA E...

Post on 22-Jan-2016

222 views 0 download

Transcript of DIOS LES BENDIGA Semana 7. Clase 7 MS.C JUAN CARLOS ORUNA LARA MAGISTER EN ESTADÌSTICA E...

DIOS LES BENDIGA

Semana 7. Clase 7

MS.C JUAN CARLOS ORUNA LARA

MAGISTER EN ESTADÌSTICA E INFORMATICADIPLOMADO EN ESTADÌSTICA EN INFORMATICADOCTORANDO EN DIDÁCTICA DE LAS CIENCIAS

Análisis de Regresión Lineal y de CorrelaciónEl análisis de regresión lineal y de correlación

comprende el estudio de los datos muestrales para saber si dos o más variables están relacionadas entre sí en una población.

El análisis de regresión lineal da como resultado una ecuación matemática que describe cierta relación determinada. La ecuación puede usarse para estimar o predecir los valores de una variable cuando se conocen o se suponen conocidos los valores de otra variable. Proceso de calculo del os dastos que se van ha expresar en la funcion matematica

El análisis entre dos variables da como resultado un trabajo exploratorio cuando el investigador desea encontrar el grado o la fuerza de esa relación.

Ejemplo¿Cuál será el gasto que incurrirá una familia

cuyo ingreso mensual es 4 000 soles?¿Cuál será el costo de una vivienda según el

número de habitaciones?Usualmente tales predicciones requieren que

se encuentre una fórmula que relaciones tales variables.

El Diagrama de dispersiónEl primer paso en el análisis de regresión, es

construir una gráfica de los datos muestrales en un plano bidimensional: Donde:

X: es la variable independiente. Variable que se utiliza para predecir.

Y: es la variable dependiente. Variable que se va a predecir o estimar.

Esta gráfica denominada de dispersión, nos permite visualizar el tipo de tendencia entre las dos variables. Esta tendencia puede ser líneal o no lineal. Tambien se puede observar si es una relación directamente proporcional o inversamente proporcional.

En estos casos se tiene una tendencia o relación.

Coef. de correlación lineal de PearsonLa coeficiente de correlación lineal de Pearson de dos

variables, r, nos indica si los puntos tienen una tendencia a disponerse alineadamente (excluyendo rectas horizontales y verticales).

tiene el mismo signo que Sxy por tanto de su signo obtenemos el que la posible relación sea directa o inversa.

r es útil para determinar si hay relación lineal entre dos variables, pero no servirá para otro tipo de relaciones (cuadrática, logarítmica,...)

La covarianza entre dos variables, Sxy, nos indica si la posible relación entre dos variables es directa o inversa.Directa: Sxy >0

Inversa: Sxy <0

Incorreladas: Sxy =0

El signo de la covarianza nos dice si el aspecto de la nube de puntos es creciente o no, pero no nos dice nada sobre el grado de relación entre las variables.

))((1

yyxxn

S ii

ixy

Es adimensionalSólo toma valores en [-1,1]Las variables son incorrelacionadas r=0Relación lineal perfecta entre dos variables r=+1 o r=-1

Excluimos los casos de puntos alineados horiz. o verticalmente.

Cuanto más cerca esté r de +1 o -1 mejor será el grado de relación lineal.Siempre que no existan observaciones anómalas.

Propiedades de r

Relación inversa perfecta

Variables incorreladas

Relación directa

casi perfecta

-1 0 +1

correlaciones positivas

r=0,1

30

80

130

180

230

280

330

140 150 160 170 180 190 200

r=0,4

30405060708090

100110120130

140 150 160 170 180 190 200

r=0,8

30

40

50

60

70

80

90

100

140 150 160 170 180 190 200

r=0,99

30

40

50

60

70

80

90

100

140 150 160 170 180 190 200

Bondad de un ajusteFijémonos ahora en los errores de predicción (líneas

verticales). Los proyectamos sobre el eje Y.

Se observa que los errores de predicción, residuos, están menos dispersos que la variable Y original.

Cuanto menos dispersos sean los residuos, mejor será la bondad del ajuste.

En el modelo de regresión lineal simple, dado dos variablesY (dependiente)X (independiente, explicativa, predictora)

buscamos encontrar una función de X muy simple (lineal) que nos permita aproximar Y medianteŶ = b0 + b1X

b0 (ordenada en el origen, constante) b1 (pendiente de la recta)

Y e Ŷ rara vez coincidirán por muy bueno que sea el modelo de regresión. A la cantidad e=Y-Ŷ se le denomina residuo o error residual

El método de los mínimos cuadradosPara encontrar la ecuación de la recta de mejor

ajuste a un conjunto de datos o puntos, el método más utilizado es conocido como el método de mínimos cuadrados, cuya ecuación resultante tiene dos características importantes.

Consiste en determinar los valores de "a" y "b " a partir de la muestra, es decir, encontrar los valores de a y b con los datos observados de la muestra. El método de estimación es el de Mínimos Cuadrados, mediante el cual se obtiene:

Ecuaciones de regresión

La línea recta estimadaLa línea recta tiene dos importantes

componentes, llamados coeficientes de regresión: b0 y b1

InterpretaciónLa pendiente b1: indica el cambio promedio en

la variable respuesta (y), cuando la variable predictora (x) aumenta en una unidad adicional.

El intercepto b0 indica el valor promedio de la variable respuesta (y), cuando la variable predictora (x) es igual a cero. Sin embargo carece de interpretación práctica si dicho valor está fuera del rango del conjunto de valores X.

Y= b0 + b1X

Ejemplo 1Se desea realizar un estudio sobre los

ingresos por ventas (en millones de dólares) y el gasto en publicidad (en millones de dólares. A continuación se muestra los datos de los últimos 8 meses

Gasto en publicidad (x)

2 1 3 4 3 2 4 5

Ingresos por ventas (y)

7 5 7 9 8 6 11 13

Realice el diagrama de dispersión

Se observa una tendencia lineal y directa, es decir a mayor gasto en publicidad, mayores son los ingresos por ventas.La ecuación de la recta que se va a estimar mediante la hoja de cálculo Excel o mediante el paquete estadístico SPSS, se basa en el método de mínimos cuadrados.

Siguiendo con el ejemplo:Estime la ecuación de la recta del ejemplo

anterior, valide e interprete, en la salida del SPSS.

Un ejemplo. La recta de regresión representada corresponde a la estimación obtenida a partir de 20 pares de observaciones: x representa la temperatura fijada en un recinto cerrado e Y el ritmo cardíaco de un vertebrado