DIOS LES BENDIGA Semana 7. Clase 7 MS.C JUAN CARLOS ORUNA LARA MAGISTER EN ESTADÌSTICA E...

20
DIOS LES BENDIGA Semana 7. Clase 7 MS.C JUAN CARLOS ORUNA LARA MAGISTER EN ESTADÌSTICA E INFORMATICA DIPLOMADO EN ESTADÌSTICA EN INFORMATICA DOCTORANDO EN DIDÁCTICA DE LAS CIENCIAS

Transcript of DIOS LES BENDIGA Semana 7. Clase 7 MS.C JUAN CARLOS ORUNA LARA MAGISTER EN ESTADÌSTICA E...

Page 1: DIOS LES BENDIGA Semana 7. Clase 7 MS.C JUAN CARLOS ORUNA LARA MAGISTER EN ESTADÌSTICA E INFORMATICA DIPLOMADO EN ESTADÌSTICA EN INFORMATICA DOCTORANDO.

DIOS LES BENDIGA

Semana 7. Clase 7

MS.C JUAN CARLOS ORUNA LARA

MAGISTER EN ESTADÌSTICA E INFORMATICADIPLOMADO EN ESTADÌSTICA EN INFORMATICADOCTORANDO EN DIDÁCTICA DE LAS CIENCIAS

Page 2: DIOS LES BENDIGA Semana 7. Clase 7 MS.C JUAN CARLOS ORUNA LARA MAGISTER EN ESTADÌSTICA E INFORMATICA DIPLOMADO EN ESTADÌSTICA EN INFORMATICA DOCTORANDO.

Análisis de Regresión Lineal y de CorrelaciónEl análisis de regresión lineal y de correlación

comprende el estudio de los datos muestrales para saber si dos o más variables están relacionadas entre sí en una población.

El análisis de regresión lineal da como resultado una ecuación matemática que describe cierta relación determinada. La ecuación puede usarse para estimar o predecir los valores de una variable cuando se conocen o se suponen conocidos los valores de otra variable. Proceso de calculo del os dastos que se van ha expresar en la funcion matematica

El análisis entre dos variables da como resultado un trabajo exploratorio cuando el investigador desea encontrar el grado o la fuerza de esa relación.

Page 3: DIOS LES BENDIGA Semana 7. Clase 7 MS.C JUAN CARLOS ORUNA LARA MAGISTER EN ESTADÌSTICA E INFORMATICA DIPLOMADO EN ESTADÌSTICA EN INFORMATICA DOCTORANDO.

Ejemplo¿Cuál será el gasto que incurrirá una familia

cuyo ingreso mensual es 4 000 soles?¿Cuál será el costo de una vivienda según el

número de habitaciones?Usualmente tales predicciones requieren que

se encuentre una fórmula que relaciones tales variables.

Page 4: DIOS LES BENDIGA Semana 7. Clase 7 MS.C JUAN CARLOS ORUNA LARA MAGISTER EN ESTADÌSTICA E INFORMATICA DIPLOMADO EN ESTADÌSTICA EN INFORMATICA DOCTORANDO.

El Diagrama de dispersiónEl primer paso en el análisis de regresión, es

construir una gráfica de los datos muestrales en un plano bidimensional: Donde:

X: es la variable independiente. Variable que se utiliza para predecir.

Y: es la variable dependiente. Variable que se va a predecir o estimar.

Page 5: DIOS LES BENDIGA Semana 7. Clase 7 MS.C JUAN CARLOS ORUNA LARA MAGISTER EN ESTADÌSTICA E INFORMATICA DIPLOMADO EN ESTADÌSTICA EN INFORMATICA DOCTORANDO.

Esta gráfica denominada de dispersión, nos permite visualizar el tipo de tendencia entre las dos variables. Esta tendencia puede ser líneal o no lineal. Tambien se puede observar si es una relación directamente proporcional o inversamente proporcional.

En estos casos se tiene una tendencia o relación.

Page 6: DIOS LES BENDIGA Semana 7. Clase 7 MS.C JUAN CARLOS ORUNA LARA MAGISTER EN ESTADÌSTICA E INFORMATICA DIPLOMADO EN ESTADÌSTICA EN INFORMATICA DOCTORANDO.

Coef. de correlación lineal de PearsonLa coeficiente de correlación lineal de Pearson de dos

variables, r, nos indica si los puntos tienen una tendencia a disponerse alineadamente (excluyendo rectas horizontales y verticales).

tiene el mismo signo que Sxy por tanto de su signo obtenemos el que la posible relación sea directa o inversa.

r es útil para determinar si hay relación lineal entre dos variables, pero no servirá para otro tipo de relaciones (cuadrática, logarítmica,...)

Page 7: DIOS LES BENDIGA Semana 7. Clase 7 MS.C JUAN CARLOS ORUNA LARA MAGISTER EN ESTADÌSTICA E INFORMATICA DIPLOMADO EN ESTADÌSTICA EN INFORMATICA DOCTORANDO.

La covarianza entre dos variables, Sxy, nos indica si la posible relación entre dos variables es directa o inversa.Directa: Sxy >0

Inversa: Sxy <0

Incorreladas: Sxy =0

El signo de la covarianza nos dice si el aspecto de la nube de puntos es creciente o no, pero no nos dice nada sobre el grado de relación entre las variables.

))((1

yyxxn

S ii

ixy

Page 8: DIOS LES BENDIGA Semana 7. Clase 7 MS.C JUAN CARLOS ORUNA LARA MAGISTER EN ESTADÌSTICA E INFORMATICA DIPLOMADO EN ESTADÌSTICA EN INFORMATICA DOCTORANDO.

Es adimensionalSólo toma valores en [-1,1]Las variables son incorrelacionadas r=0Relación lineal perfecta entre dos variables r=+1 o r=-1

Excluimos los casos de puntos alineados horiz. o verticalmente.

Cuanto más cerca esté r de +1 o -1 mejor será el grado de relación lineal.Siempre que no existan observaciones anómalas.

Propiedades de r

Relación inversa perfecta

Variables incorreladas

Relación directa

casi perfecta

-1 0 +1

Page 9: DIOS LES BENDIGA Semana 7. Clase 7 MS.C JUAN CARLOS ORUNA LARA MAGISTER EN ESTADÌSTICA E INFORMATICA DIPLOMADO EN ESTADÌSTICA EN INFORMATICA DOCTORANDO.

correlaciones positivas

r=0,1

30

80

130

180

230

280

330

140 150 160 170 180 190 200

r=0,4

30405060708090

100110120130

140 150 160 170 180 190 200

r=0,8

30

40

50

60

70

80

90

100

140 150 160 170 180 190 200

r=0,99

30

40

50

60

70

80

90

100

140 150 160 170 180 190 200

Page 10: DIOS LES BENDIGA Semana 7. Clase 7 MS.C JUAN CARLOS ORUNA LARA MAGISTER EN ESTADÌSTICA E INFORMATICA DIPLOMADO EN ESTADÌSTICA EN INFORMATICA DOCTORANDO.

Bondad de un ajusteFijémonos ahora en los errores de predicción (líneas

verticales). Los proyectamos sobre el eje Y.

Se observa que los errores de predicción, residuos, están menos dispersos que la variable Y original.

Cuanto menos dispersos sean los residuos, mejor será la bondad del ajuste.

Page 11: DIOS LES BENDIGA Semana 7. Clase 7 MS.C JUAN CARLOS ORUNA LARA MAGISTER EN ESTADÌSTICA E INFORMATICA DIPLOMADO EN ESTADÌSTICA EN INFORMATICA DOCTORANDO.

En el modelo de regresión lineal simple, dado dos variablesY (dependiente)X (independiente, explicativa, predictora)

buscamos encontrar una función de X muy simple (lineal) que nos permita aproximar Y medianteŶ = b0 + b1X

b0 (ordenada en el origen, constante) b1 (pendiente de la recta)

Y e Ŷ rara vez coincidirán por muy bueno que sea el modelo de regresión. A la cantidad e=Y-Ŷ se le denomina residuo o error residual

Page 12: DIOS LES BENDIGA Semana 7. Clase 7 MS.C JUAN CARLOS ORUNA LARA MAGISTER EN ESTADÌSTICA E INFORMATICA DIPLOMADO EN ESTADÌSTICA EN INFORMATICA DOCTORANDO.

El método de los mínimos cuadradosPara encontrar la ecuación de la recta de mejor

ajuste a un conjunto de datos o puntos, el método más utilizado es conocido como el método de mínimos cuadrados, cuya ecuación resultante tiene dos características importantes.

Page 13: DIOS LES BENDIGA Semana 7. Clase 7 MS.C JUAN CARLOS ORUNA LARA MAGISTER EN ESTADÌSTICA E INFORMATICA DIPLOMADO EN ESTADÌSTICA EN INFORMATICA DOCTORANDO.

Consiste en determinar los valores de "a" y "b " a partir de la muestra, es decir, encontrar los valores de a y b con los datos observados de la muestra. El método de estimación es el de Mínimos Cuadrados, mediante el cual se obtiene:

Ecuaciones de regresión

Page 14: DIOS LES BENDIGA Semana 7. Clase 7 MS.C JUAN CARLOS ORUNA LARA MAGISTER EN ESTADÌSTICA E INFORMATICA DIPLOMADO EN ESTADÌSTICA EN INFORMATICA DOCTORANDO.

La línea recta estimadaLa línea recta tiene dos importantes

componentes, llamados coeficientes de regresión: b0 y b1

Page 15: DIOS LES BENDIGA Semana 7. Clase 7 MS.C JUAN CARLOS ORUNA LARA MAGISTER EN ESTADÌSTICA E INFORMATICA DIPLOMADO EN ESTADÌSTICA EN INFORMATICA DOCTORANDO.
Page 16: DIOS LES BENDIGA Semana 7. Clase 7 MS.C JUAN CARLOS ORUNA LARA MAGISTER EN ESTADÌSTICA E INFORMATICA DIPLOMADO EN ESTADÌSTICA EN INFORMATICA DOCTORANDO.

InterpretaciónLa pendiente b1: indica el cambio promedio en

la variable respuesta (y), cuando la variable predictora (x) aumenta en una unidad adicional.

El intercepto b0 indica el valor promedio de la variable respuesta (y), cuando la variable predictora (x) es igual a cero. Sin embargo carece de interpretación práctica si dicho valor está fuera del rango del conjunto de valores X.

Y= b0 + b1X

Page 17: DIOS LES BENDIGA Semana 7. Clase 7 MS.C JUAN CARLOS ORUNA LARA MAGISTER EN ESTADÌSTICA E INFORMATICA DIPLOMADO EN ESTADÌSTICA EN INFORMATICA DOCTORANDO.

Ejemplo 1Se desea realizar un estudio sobre los

ingresos por ventas (en millones de dólares) y el gasto en publicidad (en millones de dólares. A continuación se muestra los datos de los últimos 8 meses

Gasto en publicidad (x)

2 1 3 4 3 2 4 5

Ingresos por ventas (y)

7 5 7 9 8 6 11 13

Page 18: DIOS LES BENDIGA Semana 7. Clase 7 MS.C JUAN CARLOS ORUNA LARA MAGISTER EN ESTADÌSTICA E INFORMATICA DIPLOMADO EN ESTADÌSTICA EN INFORMATICA DOCTORANDO.

Realice el diagrama de dispersión

Se observa una tendencia lineal y directa, es decir a mayor gasto en publicidad, mayores son los ingresos por ventas.La ecuación de la recta que se va a estimar mediante la hoja de cálculo Excel o mediante el paquete estadístico SPSS, se basa en el método de mínimos cuadrados.

Page 19: DIOS LES BENDIGA Semana 7. Clase 7 MS.C JUAN CARLOS ORUNA LARA MAGISTER EN ESTADÌSTICA E INFORMATICA DIPLOMADO EN ESTADÌSTICA EN INFORMATICA DOCTORANDO.

Siguiendo con el ejemplo:Estime la ecuación de la recta del ejemplo

anterior, valide e interprete, en la salida del SPSS.

Page 20: DIOS LES BENDIGA Semana 7. Clase 7 MS.C JUAN CARLOS ORUNA LARA MAGISTER EN ESTADÌSTICA E INFORMATICA DIPLOMADO EN ESTADÌSTICA EN INFORMATICA DOCTORANDO.

Un ejemplo. La recta de regresión representada corresponde a la estimación obtenida a partir de 20 pares de observaciones: x representa la temperatura fijada en un recinto cerrado e Y el ritmo cardíaco de un vertebrado