Introducción a la Estadística. Tema 4
-
Upload
juan-jose-gibaja-martins -
Category
Education
-
view
12.070 -
download
5
description
Transcript of Introducción a la Estadística. Tema 4
TEMA 4
ANÁLISIS DE CORRELACIÓN Y DE REGRESIÓN LINEALES
JGM. 03/09/04
ÍNDICE DEL TEMA 4
INTRODUCCIÓN ANÁLISIS DE CORRELACIÓN LINEAL
Objetivos El diagrama de dispersión El coeficiente de correlación La covarianza
ANÁLISIS DE REGRESIÓN LINEAL Objetivos El criterio de mínimos cuadrados Análisis de la variación total El coeficiente de determinación Predicción con la recta de regresión
JGM. 03/09/04
INTRODUCCIÓN
El análisis de correlación lineal (ACL) y el análisis de regresión lineal (ARL) forman la pareja de técnicas más “populares” para estudiar la existencia de una relación lineal entre dos variables de naturaleza cuantitativa.
Sus objetivos, aunque complementarios, son diferentes.
JGM. 03/09/04
INTRODUCCIÓN (II)
El ACL estudia la intensidad y la dirección de la relación lineal entre dos variables de naturaleza cuantitativa. ¿En qué medida y dirección están relacionados de modo lineal el gasto en publicidad y las ventas de una empresa?
El ARL ayuda en la predicción de los valores de una variable cuantitativa (llamada dependiente) cuando se conoce el valor de otra variable cuantitativa (llamada independiente) con la que tiene una relación de tipo lineal. ¿Cuánto venderá una empresa que gasta 83.000 euros en publicidad?
JGM. 03/09/04
ANÁLISIS DE CORRELACIÓN
El análisis de correlación lineal estudia la intensidad y la dirección de la asociación lineal entre dos variables de naturaleza cuantitativa.¿Existe una relación lineal entre el coeficiente intelectual de una persona y sus ingresos?
JGM. 03/09/04
ANÁLISIS DE CORRELACIÓN (II)
El proceso para determinar el grado de relación lineal se puede resumir en los siguientes pasos: Elaboración del diagrama de dispersión. Inspección del diagrama en busca de una
relación lineal. Cálculo de la covarianza entre las dos
variables Cálculo de las desviaciones estándar Cálculo del coeficiente de correlación
JGM. 03/09/04
DIAGRAMA DE DISPERSIÓN
Consiste en la representación en ejes de coordenadas de los puntos correspondientes a los pares de valores de cada individuo.Es indiferente qué variable representemos en abscisas y qué variable en ordenadas. En el análisis de correlación se da una simetría entre las dos variables. No cabe hablar, por tanto, de variable dependiente o independiente.
JGM. 03/09/04
DIAGRAMA DE DISPERSIÓN (II)
Diagrama de dispersión
0
10
20
30
40
50
60
70
80
90
100
0 10 20 30
PUBLICIDAD
VEN
TA
S
Diagrama de dispersión
0
10
20
30
40
50
60
70
80
90
100
0 10 20 30
PUBLICIDAD
VEN
TA
S
JGM. 03/09/04
INSPECCIÓN DEL DIAGRAMA
La relación entre dos variables cuantitativas puede ser de naturaleza no lineal, por ejemplo cuadrática, cúbica, logarítmica, etcétera.
El análisis de correlación lineal sólo debe aplicarse cuando de la inspección del diagrama de dispersión se pueda deducir la existencia de una relación lineal.
En caso contrario habrá que proceder a transformaciones en las variables.
JGM. 03/09/04
CÁLCULO DE LA COVARIANZA
La covarianza es una medida del grado en que dos variables cuantitativas evolucionan paralelamente. Si cuando la primera variable toma valores altos la segunda
también lo hace y cuando la primera toma valores bajos la segunda también lo hace, tendremos una covarianza positiva.
Si cuando la primera variable toma valores altos la segunda toma valores bajos y cuando la primera toma valores bajos la segunda toma valores altos, tendremos una covarianza negativa.
Si cuando la primera variable toma valores altos la segunda toma valores tanto altos como bajos y lo mismo ocurre cuando la primera variable toma valores bajos, tendremos una covarianza cercana a cero.
JGM. 03/09/04
CÁLCULO DE LA COVARIANZA (II)
N
YXN
iYiXi
XY
1
JGM. 03/09/04
CÁLCULO DE LA COVARIANZA (III)
Problemas de la covarianza: Unidades: ¿en qué unidades está
medida? No está acotada: Puede tomar
cualquier valor real.¡Qué bien! Tengo una covarianza de 617.514 euros al cuadrado
entre ventas y publicidad.
JGM. 03/09/04
EL COEFICIENTE DE CORRELACIÓN
Surge ante los problemas que plantea la covarianza.
Se designa con la letra griega ( )Ventajas:
Carece de unidades Está acotado
11
JGM. 03/09/04
EL COEFICIENTE DE CORRELACIÓN (II)
YX
XY
JGM. 03/09/04
EL COEFICIENTE DE CORRELACIÓN (III)
Si el coeficiente de correlación vale -1 estamos ante una relación lineal perfecta e inversa entre las dos variables.
Diagrama de dispersión
0
10
20
30
40
50
60
70
80
0 5 10 15 20
X
Y
¡Cuidado!: la pendienteno es necesariamente -1
JGM. 03/09/04
EL COEFICIENTE DE CORRELACIÓN (IV)
Si el coeficiente de correlación vale +1 estamos ante una relación lineal perfecta y directa entre las dos variables.
Diagrama de dispersión
0
10
20
30
40
50
60
70
80
90
0 5 10 15 20
X
Y
¡Cuidado!: la pendienteno es necesariamente +1
JGM. 03/09/04
EL COEFICIENTE DE CORRELACIÓN (V)
Si el coeficiente de correlación vale 0 no existe relación lineal entre las dos variables.
Diagrama de dispersión
0
2
4
6
8
10
12
0 5 10 15
X
Y
JGM. 03/09/04
EL COEFICIENTE DE CORRELACIÓN (VI)
Los valores extremos (0, -1 y +1) son fácilmente interpretables pero ¿cómo de grande (en valor absoluto) debe ser el coeficiente de correlación para poder afirmar que existe una relación lineal entre dos variables cuantitativas?
Depende: De la situación exploratoria o concluyente Del tipo de variables estudiado
JGM. 03/09/04
ANÁLISIS DE REGRESIÓN
El ARL es una herramienta que persigue ayudar en la predicción de los valores de una variable cuantitativa supuestos conocidos los valores de otra variable cuantitativa con la que la primera tiene una relación de tipo lineal.
JGM. 03/09/04
PREDICCIÓN
En situación de incertidumbre: No podemos asignar una distribución de probabilidad a los distintos estados de naturaleza. Si queremos predecir la única estrategia posible es generar un número aleatorio.
En situación de riesgo: No sabemos cuál es el estado de naturaleza pero al menos somos capaces de asignar una distribución de probabilidad a los distintos estados posibles. En este caso, nuestra mejor predicción vendrá dada por la media de la distribución de probabilidad
JGM. 03/09/04
PREDICCIÓN (II)
“¿Cuánto pesa un ente?” exige una estimación en situación de incertidumbre. No sabemos qué es un ente y, en consecuencia, no tenemos ninguna idea de cuánto puede pesar.
Digamos que...mmm...¿32 miligramos?
JGM. 03/09/04
PREDICCIÓN (III)
“¿Cuánto pesa un ser humano?” supone una estimación en situación de riesgo. Al menos sabemos que los seres humanos pesan alrededor de 75 kgrs. con una cierta dispersión alrededor de este valor.
La media son 75 kilos.Creo que lo más acertado es
que diga 75 kilos
JGM. 03/09/04
PREDICCIÓN (IV)
En situación de riesgo es muy razonable pedir más información, cuyo objetivo no es otro que reducir la dispersión. En una población con dispersión cero (esto es, en la que
todos los individuos son iguales) la media sería una estimación perfecta en todos los casos.
En una población muy heterogénea (con gran varianza) la estimación basada en la media llevaría implícito un elevado riesgo de error.
Esa información adicional puede venir dada por preguntas como: ¿Es un hombre o una mujer? ¿Cuánto mide?
JGM. 03/09/04
PREDICCIÓN (V)
Preguntamos si es hombre o mujer porque sospechamos que dentro de cada género la variabilidad en el peso es menor que en el conjunto de seres humanos.
Preguntamos cuánto mide porque entre los seres humanos que tienen una determinada altura la variabilidad en el peso es menor que en el conjunto, o sea, porque sospechamos o sabemos que existe una relación (a lo mejor de tipo lineal) entre la altura y el peso de los seres humanos y vamos a aprovechar la existencia de esa relación para que, conociendo la altura, seamos capaces de estimar el peso con un riesgo menor.
TRATAMOS DE REDUCIR VARIABILIDAD
JGM. 03/09/04
DIAGRAMA DE DISPERSIÓN
Partimos del diagrama de dispersión (igual que en ACL), pero hemos de distinguir entre: Variable dependiente: la que
queremos predecir. Variable independiente: la que nos
va a servir para predecir.Situaremos la variable dependiente
en ordenadas (Y) y la independiente en abscisas (X).
JGM. 03/09/04
RECTA DE REGRESIÓN
Sobre el diagrama de dispersión vamos a trazar la recta que “mejor” se ajuste a la nube de puntos; la recta que, en conjunto, minimice su distancia al conjunto de puntos.
El criterio empleado para definir la “mejor” recta es el de los mínimos cuadrados.
JGM. 03/09/04
RECTA DE REGRESIÓN (II)
La recta escogida será la que minimice la expresión:
con:
N
iii YY
1
2ˆ
BAXY ii ˆ
JGM. 03/09/04
RECTA DE REGRESIÓN (III)
N
iii YY
1
2ˆ
Valor observado
Valor estimadopor la recta
JGM. 03/09/04
RECTA DE REGRESIÓN (IV)
Diagrama de dispersión
0
5
10
15
20
25
30
35
40
0 5 10 15
X
Y
JGM. 03/09/04
RECTA DE REGRESIÓN (V)
Los valores de A y B vienen dados por las expresiones:
XAYB
XNX
YXNYXA N
ii
N
iii
1
22
1
JGM. 03/09/04
ANÁLISIS DE LA VARIACIÓN TOTAL
Si no empleáramos la recta para predecir, utilizaríamos la media y, para cada observación, cometeríamos un error...
En cambio, si empleamos la recta, para cada observación cometemos un error
YYi
ii YY ˆ
JGM. 03/09/04
ANÁLISIS DE LA VARIACIÓN TOTAL (II)
Para cada observación podemos hacer...
iiii YYYYYY ˆˆ
Elevando al cuadrado y sumando para todas las observaciones...
YYYYYYYYYY i
N
ii
N
iii
N
ii
N
ii
ˆˆ2ˆˆ11
2
1
2
1
2
JGM. 03/09/04
ANÁLISIS DE LA VARIACIÓN TOTAL (III)
El tercer sumando se hace nulo y la expresión queda...
N
iii
N
ii
N
ii YYYYYY
1
2
1
2
1
2 ˆˆ
El primer miembro es la variación total y es una medida de la variabilidad de la variable a predecir respecto a su media. ¿No se parece a algo ya visto? El segundo sumando del segundo miembro es la variación no explicada. Es lo que hemos minimizado con la recta de regresión. El primer sumando del segundo miembro es la variación explicada.
JGM. 03/09/04
ANÁLISIS DE LA VARIACIÓN TOTAL (IV)
En consecuencia, la recta de regresión es la que MAXIMIZA la variación explicada o lo que es lo mismo...
La recta de regresión es la que consigue eliminar una mayor proporción de la variabilidad original de la variable a predecir. Reducimos al máximo el riesgo en la predicción.
Esto era lo que estábamos buscando, ¿no?
JGM. 03/09/04
COEFICIENTE DE DETERMINACIÓN
A la proporción de variabilidad eliminada por la recta de regresión se le llama coeficiente de determinación (R2)
Como es una proporción, toma valores entre 0 y 1
2
2 1
2
1
ˆN
iiN
ii
Y YVE
RVT Y Y
JGM. 03/09/04
COEFICIENTE DE DETERMINACIÓN (II)
Coincide con el cuadrado del coeficiente de correlación. Cuando el coeficiente de correlación es +1 o -1, la
relación lineal es perfecta y la recta de regresión consigue eliminar toda la variabilidad de la variable a estimar, en consecuencia R2=1.
Cuando el coeficiente de correlación es 0, no existe relación lineal entre las variables. En consecuencia, el conocimiento de la variable independiente no ayuda a estimar la variable dependiente y la recta de regresión no consigue eliminar nada de la variación total. Así, R2=0
22 R
JGM. 03/09/04
¿Cómo estimo sin la recta de regresión?
ALTURA PESO175 69184 85192 93165 68174 72182 87191 102
¿Cuánto pesa un individuo?
82,28 Kg. (el peso promedio del conjunto de individuos)
¿Me equivoco?
Seguro, el riesgo en la predicciónes mayor cuanto mayor sea lavarianza del peso, que en estecaso es 145,63 Kg2
JGM. 03/09/04
¿Cómo estimo con la recta de regresión?
Diagrama de dispersión
y = 1,243x - 141,98R2 = 0,8634
0
20
40
60
80
100
120
160 170 180 190 200
ALTURA
PES
O
¿Cuánto pesa un individuoque mide 186 cm.?
1,243x186-141,98=89,218
¿Me equivoco?
Seguro, pero corres menos riesgo que si no conocieras su altura.De hecho, has reducido lavariabilidad del peso en un 86,34%