Geo Esta Div Tica

12
Regresión lineal La importancia de las distribuciones bidimensionales radica en investigar cómo influye una variable sobre la otra. Esta puede ser una dependencia causa efecto, por ejemplo, la cantidad de lluvia (causa), da lugar a un aumento de la producción agrícola (efecto). O bien, el aumento del precio de un bien, da lugar a una disminución de la cantidad demandada del mismo. Si utilizamos un sistema de coordenadas cartesianas para representar la distribución bidimensional, obtendremos un conjunto de puntos conocido con el diagrama de dispersión, cuyo análisis permite estudiar cualitativamente, la relación entre ambas variables tal como se ve en la figura. El siguiente paso, es la determinación de la dependencia funcional entre las dos variables x e y que mejor ajusta a la distribución bidimensional. Se denomina regresión lineal cuando la función es lineal, es decir, requiere la determinación de dos parámetros: la pendiente y la ordenada en el origen de la recta de regresión, y=ax+b. La regresión nos permite además, determinar el grado de dependencia de las series de valores X e Y, prediciendo el valor y estimado que se obtendría para un valor x que no esté en la distribución. Vamos a determinar la ecuación de la recta que mejor ajusta a los datos representados en la figura. Se denomina error e i a la diferencia y i -y, entre el valor observado y i , y el valor ajustado y= ax i +b, tal como se ve en la figura inferior. El criterio de ajuste se toma como aquél en el que la desviación cuadrática media sea mínima, es decir, debe de ser mínima la suma

description

regresion lineal en geoestadisctica

Transcript of Geo Esta Div Tica

Page 1: Geo Esta Div Tica

Regresión lineal

La importancia de las distribuciones bidimensionales radica en investigar cómo influye una variable sobre la otra. Esta puede ser una dependencia causa efecto, por ejemplo, la cantidad de lluvia (causa), da lugar a un aumento de la producción agrícola (efecto). O bien, el aumento del precio de un bien, da lugar a una disminución de la cantidad demandada del mismo.Si utilizamos un sistema de coordenadas cartesianas para representar la distribución bidimensional, obtendremos un conjunto de puntos conocido con el diagrama de dispersión, cuyo análisis permite estudiar cualitativamente, la relación entre ambas variables tal como se ve en la figura. El siguiente paso, es la determinación de la dependencia funcional entre las dos variables x e y que mejor ajusta a la distribución bidimensional. Se denomina regresión lineal cuando la función es lineal, es decir, requiere la determinación de dos parámetros: la pendiente y la ordenada en el origen de la recta de regresión, y=ax+b.La regresión nos permite además, determinar el grado de dependencia de las series de valores X e Y, prediciendo el valor y estimado que se obtendría para un valor x que no esté en la distribución.

Vamos a determinar la ecuación de la recta que mejor ajusta a los datos representados en la figura. Se denomina error ei a la diferencia yi-y, entre el valor observado yi, y el valor ajustado y= axi+b, tal como se ve en la figura inferior. El criterio de ajuste se toma como aquél en el que la desviación cuadrática media sea mínima, es decir, debe de ser mínima la suma

Page 2: Geo Esta Div Tica

Los extremos de una función: máximo o mínimo se obtiene cuando las derivadas de s respecto de a y de b sean nulas. Lo que da lugar a un sistema de dos ecuaciones con dos incógnitas del que se despeja a y b.

El coeficiente de correlación es otra técnica de estudiar la distribución bidimensional, que nos indica la intensidad o grado de dependencia entre las variables X e Y. El coeficiente de correlación r es un número que se obtiene mediante la fórmula.

El numerador es el producto de las desviaciones de los valores X e Y respecto de sus valores medios. En el denominador tenemos las desviaciones cuadráticas medias de X y de Y.El coeficiente de correlación puede valer cualquier número comprendido entre -1 y +1.

Cuando r=1, la correlación lineal es perfecta, directa. Cuando r=-1, la correlación lineal es perfecta, inversa. Cuando r=0, no existe correlación alguna, independencia total de los valores X e Y

REGRESIÓN SIMPLE Y CORRELACIÓN.La Regresión y la correlación son dos técnicas estadísticas que se pueden utilizar para solucionar problemas comunes en los negocios. Muchos estudios se basan en la creencia de que es posible identificar y cuantificar alguna Relación Funcional entre dos o más variables, donde una variable depende de la otra variable.Se puede decir que Y depende de X, en donde Y y X son dos variables cualquiera en un modelo de Regresión Simple."Y es una función de X", Y = f(X)

Como Y depende de X, Y es la variable dependiente, y X es la variable independiente.

En el Modelo de Regresión es muy importante identificar cuál es la variable dependiente y cuál es la variable independiente.En el Modelo de Regresión Simple se establece que Y es una función de sólo una variable independiente, razón por la cual se le denomina también Regresión Divariada porque sólo hay dos variables, una dependiente y otra independiente y se representa así:Y = f (X), "Y está regresando por X"La variable dependiente es la variable que se desea explicar, predecir. También se le llama regresando o variable de respuesta.La variable Independiente X se le denomina variable explicativa ó regresor y se le utiliza para explicar y.

Page 3: Geo Esta Div Tica

ANÁLISIS ESTADÍSTICO: REGRESIÓN LINEAL SIMPLE.En el estudio de la relación funcional entre dos variables poblacionales, una variable X, llamada independiente, explicativa o de predicción y una variable Y, llamada dependiente o variable respuesta, presenta la siguiente notación:

Y = a + b X + eDónde:a es el valor de la ordenada donde la línea de regresión se intercepta con el eje Y.b es el coeficiente de regresión poblacional (pendiente de la línea recta)e es el error

SUPOSICIONES DE LA REGRESIÓN LINEAL:1. Los valores de la variable independiente X son fijos, medidos sin error.2. La variable Y es aleatoria3. Para cada valor de X, existe una distribución normal de valores de Y (subpoblaciones Y)4. Las variancias de las subpoblaciones Y son todas iguales.5. Todas las medias de las subpoblaciones de Y están sobre la recta.6. Los valores de Y están normalmente distribuidos y son estadísticamente independientes.

ESTIMACIÓN DE LA ECUACIÓN DE REGRESIÓN MUESTRAL.Consiste en determinar los valores de "a" y "b " a partir de la muestra, es decir, encontrar los valores de a y b con los datos observados de la muestra. El método de estimación es el de Mínimos Cuadrados, mediante el cual se obtiene:

Luego, la ecuación de regresión muestral estimada es

Que se interpreta como:a es el estimador de a. Es el valor estimado de la variable Y cuando la variable X = 0b es el estimador de b , es el coeficiente de regresión. Está expresado en las mismas unidades de Y por cada unidad de X. Indica el número de unidades en que varía Y cuando se produce un cambio, en una unidad, en X (pendiente de la recta de regresión).Un valor negativo de b sería interpretado como la magnitud del decremento en Y por cada unidad de aumento en X.

Page 4: Geo Esta Div Tica

ESTADÍSTICA DESCRIPTIVA BIVARIADA

Definición: Una tabla de contingencia es una tabla donde los individuos de una muestra se clasifican en función de dos variables cualitativas. Nota: las tablas de contingencia se conocen también como: tablas de doble entrada, tablas de asociación o tablas de f x c, donde f es el número de filas y c el número de columnas en la tabla.

El término tabla de contingencia se refiere a que las tablas construidas se usan para contrastar una asociación o relación entre dos variables. Usaremos tablas de contingencia para describir dos variables cualitativas. Veremos que la asociación entre dos variables se puede describir mejor calculando apropiadamente los porcentajes y usando gráficos de barras. ¿Existirá relación entre el estado nutricional y el rendimiento académico de estudiantes de enseñanza básica? Se midió el estado nutricional de 1000 niños de enseñanza básica, el que fue clasificado como "malo", "regular", "bueno". El rendimiento académico fue clasificado como “bajo el promedio”, “promedio” o “sobre el promedio”.

¿Qué información podemos obtener de la tabla?

1. La distribución marginal de cada variable: La distribución marginal del Estado Nutricional es:

Ejemplo

Calcule la distribución marginal del rendimiento académico.

¿Qué porcentaje de los niños de enseñanza básica tienen: a) un rendimiento académico sobre el promedio?b) En el promedio?

Page 5: Geo Esta Div Tica

c) Bajo el promedio?

Definiciones: La distribución marginal de la variable fila se encuentra calculando los porcentajes de cada fila en el gran total (tamaño de la muestra). La distribución marginal de la variable columna se encuentra calculando el porcentaje de cada columna en el gran total.

¿Qué otra información podemos obtener de la tabla? La asociación entre dos variables cualitativas se presenta calculando algunos de los porcentajes en la forma de distribución condicional. 2. La distribución condicional de una variable dada otra variable:

Definiciones: La distribución condicional de la variable fila, dada la variable columna, se encuentra expresando los números como porcentajes del total de la columna. La distribución condicional de la variable columna, dada la variable fila, se encuentra expresando los números como porcentajes del total de la fila. Si una variable es considerada como variable explicatoria y la otra como variable respuesta, entonces debemos analizar la distribución condicional de la variable respuesta, dada la variable explicatoria.

ESTADÍSTICA DESCRIPTIVA BIVARIADA

Definición: Una tabla de contingencia es una tabla donde los individuos de una muestra se clasifican en función de dos variables cualitativas. Nota: las tablas de contingencia se conocen también como: tablas de doble entrada, tablas de asociación o tablas de f x c, donde f es el número de filas y c el número de columnas en la tabla.

El término tabla de contingencia se refiere a que las tablas construidas se usan para contrastar una asociación o relación entre dos variables. Usaremos tablas de contingencia para describir dos variables cualitativas. Veremos que la asociación entre dos variables se puede describir mejor calculando apropiadamente los porcentajes y usando gráficos de barras. ¿Existirá relación entre el estado nutricional y el rendimiento académico de estudiantes de enseñanza básica? Se midió el estado nutricional de 1000 niños de enseñanza básica, el que fue clasificado como "malo", "regular", "bueno". El rendimiento académico fue clasificado como “bajo el promedio”, “promedio” o “sobre el promedio”.

Page 6: Geo Esta Div Tica

¿Qué información podemos obtener de la tabla?

2. La distribución marginal de cada variable: La distribución marginal del Estado Nutricional es:

Ejemplo

Calcule la distribución marginal del rendimiento académico.

¿Qué porcentaje de los niños de enseñanza básica tienen: a) un rendimiento académico sobre el promedio?b) En el promedio? c) Bajo el promedio?

Definiciones: La distribución marginal de la variable fila se encuentra calculando los porcentajes de cada fila en el gran total (tamaño de la muestra). La distribución marginal de la variable columna se encuentra calculando el porcentaje de cada columna en el gran total.

¿Qué otra información podemos obtener de la tabla? La asociación entre dos variables cualitativas se presenta calculando algunos de los porcentajes en la forma de distribución condicional. 2. La distribución condicional de una variable dada otra variable:

Page 7: Geo Esta Div Tica

Definiciones: La distribución condicional de la variable fila, dada la variable columna, se encuentra expresando los números como porcentajes del total de la columna. La distribución condicional de la variable columna, dada la variable fila, se encuentra expresando los números como porcentajes del total de la fila. Si una variable es considerada como variable explicatoria y la otra como variable respuesta, entonces debemos analizar la distribución condicional de la variable respuesta, dada la variable explicatoria.

Ejemplo

Perfil cardiovascular En el año 2005 un grupo de investigadores de la U. de Talca, realizan una encuesta sobre perfil cardiovascular en la ciudad de Talca1 . Se tiene una muestra de personas entre 18 y 74 años. Una de las preguntas de interés fue investigar si: ¿Existe asociación entre el hábito de fumar y la edad?

Page 8: Geo Esta Div Tica

Test de hipótesis:

Con el programa SPSS podemos calcular el valor-p para el test de asociación, que aparece bajo el título de “Significancia”. El valor-p es menor que 0,001, indicando que existe una asociación estadísticamente significativa entre fumar y la edad, al 5%.

Covarianza (Sxy)

Mide la relación lineal entre dos variables y se expresa mediante la siguiente fórmula:

Propiedades:

Page 9: Geo Esta Div Tica

Sxy es un valor que varía entre -∞ y + ∞ Si Sxy es positivo, entonces la correlación es directa (a mayor valor de X, mayor valor de Y)

y, por tanto, la recta de regresión es ascendente. Si Sxy es negativo, entonces la correlación es inversa (a mayor valor de X, menor valor de

Y) y, por tanto, la recta de regresión es descendente. Si Sxy es cero, entonces no hay correlación entre X e Y.

Coeficiente de correlación de Pearson (rxy)

La covarianza depende de los valores de las variables y por tanto de sus unidades. Para tener una medida adimensional se utiliza el coeficiente de correlación de Pearson (r xy) que nos indica qué tipo de relación existe entre dos variables, así como la magnitud de dicha correlación, siendo invariante frente a transformaciones lineales (cambio de origen y escala) de las variables.

El coeficiente de correlación de Pearson fue construido bajo el supuesto de que los datos siguen una distribución normal bivariada y la escala de medición es al menos de intervalo.El Coeficiente de Correlación de Pearson mide la relación lineal entre dos variables y se define como el cociente entre la covarianza y el producto de las desviaciones típicas de ambas variables. Toma la siguiente expresión para el cálculo:

Propiedades:

Es un coeficiente adimensional. Es decir, que es independiente de las unidades en que están expresadas las variables. Por ello sirve de valor de comparación aunque la variables vengan expresadas en unidades diferentes.

-1 ≤ rxy ≥ 1

Si rxy =1 ó rxy = -1, la relación es funcional. Una variable depende matemáticamente de la otra ( puede expresarse mediante una fórmula en la que intervenga la otra, por ejemplo la longitud de una circunferencia depende del radio mediante la fórmula L=2πr).

Interpretación:

Si rxy está próximo a 1 ó -1 la correlación es fuerte (por encima de ±0.8). Si rxy está próximo a 0, la correlación es débil. Si rxy >0 la correlación es directa. Hay relación lineal positiva.

Page 10: Geo Esta Div Tica

Si rxy <0 la correlación es inversa. Hay relación lineal negativa. Si Sxy = 0 y por tanto rxy = 0 la correlación es nula. La relación lineal es nula.

Interpretación gráfica:

Si rxy = 1 los puntos (x,y) forman una línea ascendente. Si rxy = -1 los puntos (x,y) forman una línea descendente. Si rxy > 0 los puntos (x,y) forman una nube ascendente más cercana a una recta cuanto más

cercano sea este valor a 1. Si rxy < 0 los puntos (x,y) forman una nube descendente más cercana a una recta cuanto

más cercano sea este valor a -1. Si rxy = 0 la nube de puntos sigue una distribución totalmente aleatoria (circular).