Laboratorio Análisis Cuantitativo IIModelos lineales
Correlación yCorrelación y
Regresión Lineal (Simple)Regresión Lineal (Simple)
Dr. Mauricio Padrón Innamorato
CorrelaciónCorrelación
• Dos variables cuantitativas están relacionadas entre sí
cuando los valores de una de ellas varían de forma
sistemática con respecto a los valores de la otra.
• Si tenemos dos variables, A y B, existe relación entre ellas
si al aumentar los valores de A también lo hacen los de B, o
por el contrario si al aumentar los valores de A disminuyen
los de B.
CorrelaciónCorrelación
• Para variables métricas, el gráfico de dispersión es la
manera más sencilla de comprobar la relación entre las dos
variables, pudiendo esta adoptar diferentes formas.
• El método más usual para medir la intensidad de la
relación lineal entre dos variables métricas, es la
correlación de Pearson.
CorrelaciónCorrelación
Los componentes fundamentales de una relación entre dos
variables cuantitativas son:
• La Fuerza
• El Sentido
• La Forma
CorrelaciónCorrelación
• La fuerza mide el grado en que la línea representa
a la nube de puntos. Si la nube es estrecha y
alargada una línea recta representará adecuadamente
a la nube de puntos y a la relación, y por tanto ésta
será fuerte.
CorrelaciónCorrelación
•El sentido de la relación se refiere a cómo varían
los valores de B con respecto a A. Si al crecer los
valores de la variable A lo hacen los de B, será una
relación positiva o directa. Si al aumentar A,
disminuye B, será una relación negativa o inversa.
CorrelaciónCorrelación
• La forma establece el tipo de línea a emplear para
definir el mejor ajuste. Se pueden emplear tres tipos
de líneas: una línea recta, una curva monotónica y
una curva no monotónica.
CorrelaciónCorrelación
• En el caso de usar una recta, se admite que existe una
proporción entre la diferencia entre dos valores A y la
diferencia entre dos valores de B.
•A ese factor de ajuste entre ambas series se le llama
pendiente de la recta, y se asume que es constante a lo largo
de toda la recta.
Correlación
• En el caso de usar una curva monotónica, ese
factor de proporción entre las dos variables no es
constante a lo largo de toda la recta, y por lo tanto la
pendiente de la misma es variable en su recorrido.
• Se dice que la línea de ajuste es no lineal puesto
que es una curva.
CorrelaciónCorrelación
• En el caso de usar una curva no monotónica varía
tanto la pendiente de la curva como el sentido de la
relación, que en unos sectores puede ser positiva
(ascendente) y en otros negativa (descendente).
CorrelaciónCorrelación
• Dadas dos variables X y Y tomadas sobre el mismo
elemento de la población, el diagrama de dispersión es
simplemente un gráfico de dos dimensiones, donde en un
eje (la abscisa) se grafica una variable, y en el otro eje (la
ordenada) se grafica la otra variable.
CorrelaciónCorrelación
• Si las variables están correlacionadas, el gráfico mostraría
algún nivel de correlación (tendencia) entre las dos
variables.
• Si no hay ninguna correlación, el gráfico presentaría una
figura sin forma, una nube de puntos dispersos en el gráfico.
Correlación y la Recta de regresiónCorrelación y la Recta de regresión
• La relación entre dos variables métricas puede ser
representada mediante la línea de mejor ajuste a los datos.
• Esta recta se le denomina recta de regresión, que puede
ser negativa o positiva, la primera con tendencia decreciente
y la segunda creciente.
Correlación y Regresión Lineal
• La ecuación general de la recta es: y = α + βx
• A partir de esta sencilla ecuación se puede calcular para
cualquier punto de una recta, el valor estimado que tomaría
y a partir del conocimiento de su valor x, de la pendiente de
la recta (β) y del punto de corte sobre las ordenadas (α).
La recta de regresión
• Para el cálculo de la recta de regresión se aplica el método
de mínimos cuadrados entre dos variables.
• Esta línea es la que hace mínima la suma de los cuadrados
de los residuos, es decir, es aquella recta en la que las
diferencias elevadas al cuadrado entre los valores
calculados por la ecuación de la recta y los valores reales de
la serie, son las menores posibles.
Regresión LinealRegresión Lineal
• Dada una variable dependiente y un conjunto de una o más
variables independientes, todas ellas cuantitativas, la
regresión lineal consiste en obtener una función lineal de las
variables independientes que permita explicar o predecir el
valor de la dependiente.
Regresión LinealRegresión Lineal
• A partir de (y1, x1, …, xp), …, (yn, xn, …, xnp), muestra de n
observaciones de las variables Y, X1, …, Xp, se trata de
aproximar los valores de Y, mediante una función de las
variables X1, …, Xp, que exprese la asociación lineal entre Y
y X1, …, Xp:
Regresión LinealRegresión Lineal
Y = β0 + β1X1 +…+ βpXp + e
donde β0,…, βp son parámetros desconocidos a
estimar y e es una variable error N(0,σ2)
Regresión LinealRegresión Lineal
Origen histórico del termino
A pesar de una tendencia en la que los padres de estatura
alta tenían hijos altos y viceversa, la estatura promedio de
los niños nacidos de padres de una estatura dada tendían a
moverse o “regresar” hacia la estatura promedio de la
población total, regreso a la “mediocridad” (Francis
Galton).
Regresión LinealRegresión Lineal
Origen histórico del termino
La Ley de regresión universal de Galton fue confirmada por
Karl Pearson, quien a partir de mil registros de estaturas de
miembros de grupos familiares encontró que la estatura
promedio de los hijos de un grupo de padres de estatura alta
era menor que la estatura de sus padres y a la inversa.
Regresión LinealRegresión Lineal
Interpretación moderna de la regresión
El análisis de la regresión trata del estudio de la
dependencia de Y, respecto a una o mas variables X´s, con
el objetivo de estimar y/o predecir la media o valor
promedio poblacional de Y en términos de los valores
conocidos o fijos (en muestras repetidas) de las X´s.
Regresión LinealRegresión Lineal
Galton estaba preocupado por averiguar las razones por las cuales existía estabilidad en la distribución de estaturas dentro de una población.
En el enfoque moderno la preocupación no esta dirigida a esta explicación sino en averiguar la manera en que cambia la estatura promedio de los hijos, dada la estatura de los padres.
Se esta interesado en predecir la estatura promedio de los hijos conociendo la estatua de sus padres.
Regresión LinealRegresión Lineal
En la figura se ve que para cualquier estatura dada de un
padre existe un rango (distribución) de estaturas de los
hijos.
Sin embrago, a pesar de la naturaleza variable e la estatura
de los hijos, dado un valor de la estatura de los padres, el
promedio de la estatura de aquellos por lo general se
incrementa en la misma medida que lo que se acrecienta la
de los padres.
Regresión LinealRegresión Lineal
De la anterior queda claro que cada medida condicional
E(Y,X) es función de X, donde X, es un valor dado de X.
Simbólicamente,
E (Y / Xi) = f(Xi)
Regresión LinealRegresión Lineal
La ecuación anterior se conoce como la función de
expectativa condicional o función de regresión poblacional.
Esta función denota únicamente que el valor esperado de la
distribución de Y dada X, esta relacionada funcionalmente
con X.
Dice como la media o respuesta promedio de Y varia con X.
Regresión LinealRegresión Lineal
Dados los supuestos del modelo de regresión clásico, se
cumple que al tomar la esperanza condicional de Y a ambos
lados de la ecuación, se obtiene
E (Y / X1, X2) = β0 + β1X1 + β2X2
Así se obtiene, la media condicional o el valor esperado de
Y condicionado a los valores dados o fijos de las variables
X1 y X2.