ANÁLISIS DE CORRELACIÓN Y REGRESIÓN LINEAL
-
Upload
richartlopez -
Category
Documents
-
view
71 -
download
6
description
Transcript of ANÁLISIS DE CORRELACIÓN Y REGRESIÓN LINEAL
-
Dr. Christian Acosta Vil legas
ANLISIS DE CORRELACIN
Y REGRESIN LINEAL
SIMPLE APLICACIONES
Bioestadstica 2015
Martes 26 de mayo del 2015
-
TEMAS A TRATAR
Diagrama de dispersin
Correlacin Coeficiente de correlacin de Pearson (r)
Regresin Ecuacin de regresin lineal
Coeficiente de Determinacin (R)
-
Datos Cuantitativos Datos Cualitativos
(Dicotmica o
Politmica) Distribucin
Normal
Distribucin
Anormal (NO-
N)
Comparar 2 grupos
(variable independiente:
dicotmica)
- T No pareada
- T pareada
- Mann-
Whitney
- Wilcoxon
- Chi-cuadrado
- Exacta de Fisher
Comparar 3 o ms
grupos (variable
independente:
politmica)
- ANOVA
- Kruskal -
Wallis
- Friedman
- Chi-cuadrado
- Exacta de Fisher
Asociacin entre 2
variables (variable
independiente:
continua)
- Correlacin de
Pearson
- Correlacin
de Spearman
Asociacin entre 3 o
ms (variable
independiente:
continua)
- Regresin
lineal mltiple
- Regresin
logstica mltiple
-
Datos Cuantitativos Datos Cualitativos
(Dicotmica o
Politmica) Distribucin
Normal
Distribucin
Anormal (NO-
N)
Comparar 2 grupos
(variable independiente:
dicotmica)
- T No pareada
- T pareada
- Mann-
Whitney
- Wilcoxon
- Chi-cuadrado
- Exacta de Fisher
Comparar 3 o ms
grupos (variable
independente:
politmica)
- ANOVA
- Kruskal -
Wallis
- Friedman
- Chi-cuadrado
- Exacta de Fisher
Asociacin entre 2
variables (variable
independiente:
continua)
- Correlacin de
Pearson
- Correlacin
de Spearman
Asociacin entre 3 o
ms (variable
independiente:
continua)
- Regresin
lineal mltiple
- Regresin
logstica mltiple
-
ACLARACIONES
Las pruebas que han aprendido hasta ahora sirven para comprar dos o ms grupos entre ellos. En
estos casos se ha tratado de determinar si existe o
no una asociacin entre el grupo al cual se
pertenece y la variable de interes.
Pero tambin: muchas veces vamos a estar interesados en evaluar si es que existe una
asociacin entre dos variables continuas.
Ejemplo clsico: el peso de una persona est relacionado con su talla?
-
DIAGRAMA DE
DISPERSIN
-
EJEMPLO
La medicin ms comn del volumen del cerebro es la Fraccin Parenquimal Cerebral (FPC).
-
EJEMPLO
(A)Paciente varn de 31 aos de edad. FPC: 0.87.
(B)Paciente mujer de 36 aos de edad con EM con
reacada-remisin. Tiempo de enfermedad de 2
aos. FPC: 0.85.
(C)Paciete mujer de 43 aos de edad con EM
progresiva secundaria. TE: 19 aos. FPC: 0.71.
-
Se tienen datos de 30 pacientes sanos a quienes se les realiz resonancias magnticas, obteniendo de
esta manera las fracciones del parnquima cerebral
de cada uno de ellos. Se cuenta tambin entre los
datos obtenidos la edad de los 30 pacientes.
Qu se debe hacer?
EJEMPLO
Edad 39 48 52 56 51 54 38 29 20 ...X30
FPC 0.81 0.77 0.78 0.73 0.79 0.75 0.80 0.98 0.85 ...Y30
-
EJEMPLO
Edad 39 48 52 56 51 54 38 29 20 ...X30
FPC 0.81 0.77 0.78 0.73 0.79 0.75 0.80 0.98 0.85 ...Y30
-
Existe un patrn de lnea recta o asociacin?
El patrn o asociacin va hacia arriba o cuesta
abajo?
Estn los valores muy agrupados en el patrn o
muy separados?
Existen desviaciones notorias en el patrn?
EJEMPLO
-
Se observa alguna relacin entre ambas variables? (asociacin)
A la edad de 40 aos, cul ser el FPC? (prediccin)
EJEMPLO
-
CORRELACIN
-
CORRELACIN
Definicin: el grado en el cual dos variables continuas estn relacionadas de manera linear, y la medicin de intesidad de dicha relacin.
Correlacin Positiva mientras una variable aumenta, la otra variable tambin aumenta (Pendiente positiva)
Correlacin Negativa mientras una variable aumenta, la otra disminuye (Pendiente negativa)
-
No correlation (quadratic)
0
2
4
6
8
10
12
14
16
18
0 2 4 6 8 10
No correlation
0
1
2
3
4
5
6
7
8
9
10
0 2 4 6 8 10 12
Negative correlation
0
2
4
6
8
10
12
0 2 4 6 8 10 12
Positive correlation
0
2
4
6
8
10
12
0 2 4 6 8 10 12
-
CORRELACIN
Hay dos medidas que se usan para describir la correlacin:
El coeficiente de correlacin: r (estadstico) , (parametro).
El coeficiente de determinacin.
Rangos de la Correlacin (r) van desde -1 (correlacin negativa perfecta) hasta +1 (correlacin positiva perfecta)
Una correlacin de 0 significa que no hay una relacin linear entre las dos variables
Una correlacin perfecta quiere decir que conociendo una variable podemos conocer de manera perfecta la otra variable
-
Por ejemplo, si se quiere conocer la relacin entre los datos de talla y peso de 30 individuos que se
presentan a continuacin:
Los datos pueden ser representados en un diagrama de dispersin, en el cual cada individuo es un punto
que se ubica en el espacio segn los valores de sus
variables talla (X) y peso (Y).
Talla
(cm) 162 154 180 158 171 169 166 176 163 ...X30
Peso
(kg) 61 60 78 62 60 60 54 84 68 ...Y30
30
40
50
60
70
80
90
100
140 150 160 170 180 190 200
TALLA
PE
SO
-
Con este diagrama se puede suponer, por observacin, que existe una relacin directa
entre ambas variables. Sin embargo, se
requiere de un anlisis de correlacin para comprobar y validar la suposicin.
-
CORRELACIN DE PEARSON
El coeficiente de correlacin lineal de Pearson indica si los puntos en el diagrama tienen una tendencia a
disponerse alineadamente (relacin lineal).
Siendo este el caso, indica tambin el grado de relacin y el sentido (relacin directa o inversa). Este
coeficiente se halla con la siguiente frmula:
-
Cuando se aplica a un conjunto de datos es recomendable ordenar la informacin de la
siguiente forma e incluyendo los siguientes clculos:
De esta forma, se obtienen ordenadamente los datos que se requieren para hallar el coeficiente de
correlacin de Pearson (r).
# de
observacin Talla (cm) Peso (kg)
X2 Y2 XY
1 162 61 26244 3721 9882 2 154 60 23716 3600 9240
...n Xn Yn Xn2 Yn
2 (Xn )(Yn) TOTAL X Y X2 Y2 XY
Talla (cm) 162 154 180 158 171 169 166 176 163 ...X30
Peso (kg) 61 60 78 62 60 60 54 84 68 ...Y30
-
INTERPRETACIN DEL
COEFICIENTE DE CORRELACIN
El valor del coeficiente de correlacin (r) va a indicar el sentido y la intensidad de la relacin entre
variables (X e Y).
-
A) SENTIDO
-
El valor del coeficiente r es positivo, se cumple que:
A los valores de X mayores que la media le corresponden valores de Y tambin mayores que la media.
A los valores de X menores que la media le corresponden valores de Y tambin menores que la media.
RELACIN DIRECTA
-
RELACIN INVERSA
El valor del coeficiente r es negativo, se cumple que:
A los valores de X mayores que la media le corresponden valores de Y menores que la media.
A los valores de X menores que la media le corresponden valores de Y mayores que la media.
-
B) INTENSIDAD
-
CORRELACIN POSITIVA PERFECTA
r= +1
CORRELACIN POSITIVA INTENSA
0.5 < r < 1
-
CORRELACIN POSITIVA MODERADA
r = 0.5
CORRELACIN POSITIVA DBIL
0 < r < 0.5
-
CORRELACIN NEGATIVA PERFECTA
r= -1
CORRELACIN NEGATIVA INTENSA
r= -1 < r < -0.5
-
CORRELACIN NEGATIVA MODERADA
r= -0.5
CORRELACIN NEGATIVA DBIL
r = -0.4
r= -0.5 < r < 0
-
Coeficiente de Correlacin de Pearson
-1 0 0,5 0,9 1 -0,9 -0,5
Perfecta
Negativa
Perfecta
Positiva
Fuerte
Negativa
Dbil
Negativa
Dbil
Positiva
Moderada
Positiva
Fuerte
Positiva
Moderada
Negativa
No existe correlacin
-
INCORRELACIN
En el caso de que el coeficiente de correlacin sea cero (r=0) NO EXISTE RELACIN ENTRE
VARIABLES.
Es decir, para valores de X por encima de la media se tienen valores de Y por encima y por debajo en
proporciones similares.
-
PROPIEDADES DEL
COEFICIENTE DE RELACIN
Es adimensional
Slo toma valores en [ -1,1]
Si r=0 las variables son incorrelacionadas
Relacin lineal perfecta entre dos variables r=+1 o r=-1.
Cuanto ms cerca est r de +1 o -1 mejor ser el grado de relacin lineal.
-
SIGNIFICANCIA ESTADSTICA:
PRUEBA DE HIPTESIS El valor del coeficiente de correlacin (r) determina si existe
una relacin lineal entre las variables, sin embargo, no indica
si esta relacin es estadsticamente significativa .
Para ello se aplica la prueba de hiptesis del parmetro r (rho).
La hiptesis nula (Ho) establece que no existe una relacin, es decir, que el coeficiente de correlacin (r) es igual a 0.
La hiptesis alterna (H1) propone que s existe una relacin significativa por lo que r debe ser diferente a 0.
Ho: r = 0
H1: r 0
Bilateral
-
El estadstico de prueba que revela si la hiptesis nula (Ho) es o no verdadera es el siguiente: (ver tabla
T)
ESTADSTICO DE PRUEBA
-
Se tienen 2 mtodos distintos para la medicin de la presin sistlica de 25 pacientes con hipertensin.
Se puede establecer que existe una relacin lineal significativa entre ambos mtodos?
EJEMPLO
Paciente Mtodo I Mtodo II X2 Y2 XY
1 132 130 17424 16900 17160
2 138 134 19044 17956 18492
3 144 132 20736 17424 19008
4 146 140 21316 19600 20440
...25 220 202 48400 40804 44440
TOTAL 4440 4172 808408 710952 757276
X Y X2 Y2 XY
4440 4172 808408 710952 757276
-
X Y X2 Y2 XY
4440 4172 808408 710952 757276
Primero se debe hallar el coeficiente de correlacin de Peason (r)
r= 0.95
El coeficiente de correlacin indica una relacin lineal directa intensa
EJEMPLO
-
Teniendo un r= 0.95, se procede a plantear la prueba de hiptesis del parmetro r:
Ho: r = 0
H1: r 0
El nivel de significancia no se indica, por lo tanto se considera que es 0.05.
EJEMPLO
-
Para determinar si se rechaza o no la hiptesis nula (Ho), se compara el valor de tc con el valor hallado en la tabla (t n-2 )
segn el nivel de significancia y el grado de libertad.
tt = t n-2 t23 = 2.069
tc = 14.59 vs. tt = 2.069
Debido a que el valor de tc es mayor al valor hallado en la tabla (t 23 ) , se debe rechazar la hiptesis nula (Ho).
Interpretacin: Hay evidencia de que existe una alta correlacin lineal positiva entre la respuesta al tratamiento
medida con ambos mtodos para medir la presin sangunea,
con un nivel de significacin de 0.05.
DECISIN Y CONCLUSIN
-
REGRESIN
-
REGRESIN
El anlisis de regresin es til para averiguar la forma probable de las relaciones entre las variables,
y el objetivo final, cuando se emplea este mtodo de
anlisis, es predecir o estimar el valor de una
variable que corresponde al valor dado de otra
variable.
-
VARIABLES X E Y
X= variable independiente, bajo el control del investigador.
Los valores de X son seleccionados previamente por el investigador, de modo que en la recoleccin de datos estos no
pueden variar.
Y= variable dependiente.
Se habla de regresin de Y sobre X.
-
ECUACIN DE REGRESIN
Lo que el investigador desea es encontrar una lnea que pueda predecir lo que le sucede a Y con cada cambio de X.
Esta ecuacin describe la relacin real entre las variables X e Y.
Como es una relacin lineal, dicha ecuacin ser la ecuacin de una recta:
Y= a +bX
La informacin tiene que ser presentada con un diagrama de dispersin.
-
Estudio de la relacin funcional entre dos variables.
Establecer una relacin cuantitativa entre dos o ms variables relacionadas.
Se trata de PREDECIR y/o EXPLICAR el valor de una variable (v. Dependiente), dado el valor de otra(s) variable(s) relacionada(s) (v. Independiente(s)).
Las variables X e Y deben ser de naturaleza cuantitativa y de preferencia continua.
OBJETIVO DEL ANLISIS DE
REGRESIN
-
Es una tcnica estadstica que permite determinar la mejor ecuacin que represente la relacin entre dos variables relacionadas.
REGRESIN LINEAL SIMPLE
-
Para poder hallar la relacin cuantitativa entre las variables, mediante la regresin lineal, se debe ajustar una lnea entre
los puntos observados.
Luego, ser posible usar la lnea para predecir el valor de Y (variable dependiente) a partir de un valor conocido de X (la
variable independiente).
En toda regresin l ineal:
Para cada valor de X hay una subpoblacin de valores Y.
Cada subpoblacin de los valores de Y tiene distribucin normal.
REGRESIN LINEAL SIMPLE
-
Variable
Dependiente
Variable
Independiente
Todos los puntos no estn exactamente
sobre una lnea recta
X
o
o
o
o
o o
o o
o Y
En una ecuacin como Y = 30 + 3X, el valor de Y depende del valor que toma X, por eso a Y se le llama variable dependiente, y a X se le l lama variable independiente.
Y = a + b X
La ecuacin general Y = a + bX se l lama ecuacin de regresin y permite estimar o predecir los valores de Y.
ECUACIONES LINEALES
SIMPLES
-
Si se tienen dos variables, como X e Y, que estn relacionadas, se puede expresar de la siguiente manera:
Y = 3 + 1,5X ( Y= a +bX )
Al conocer la ecuacin se puede:
a) Calcular el valor de Y para cualquier valor dado de X.
b) Conocer el cambio en Y, cuando X vara en 1.
ECUACIONES LINEALES
SIMPLES
-
Valor Valor Cambio
dado de X calculado de Y de Y
1 4,5 -
2 6,0 1,5
3 7,5 1,5
4 9,0 1,5
5 10,5 1,5
Por ejemplo: Y = 3 + 1,5X
-
12 11 10 9 8 7 6 5 4 3 2 1
1 2 3 4 5
Y
.
X
. . .
.
(1,4.5)
(4,9)
(3,7.5)
(2,6)
(5,10.5)
X 1 2 3 4 5
Y 4 , 5 6 , 0 7 , 5 9 , 0 1 0 , 5
GRFICA DE LA ECUACIN
Ejemplo: Y = 3 + 1,5X
Los cinco pares de valores se diagraman de
la forma siguiente.
-
El aumento en Y, cuando X vara en una unidad, est dado por el coeficiente de X.
Ejemplo:
En Y = 10 + 2X
cuando X aumenta en 1, Y aumenta en 2
En Y = 5 - 0,8X
cuando X aumenta en 1, Y disminuye en 0,8
ECUACIONES LINEALES
SIMPLES
-
X
o
o
o
o
o
o
o
o
o Y
Cuando cambios en X provoca cambios en Y en igual sentido (aumentos o disminuciones), las variables
estn directamente relacionadas. Se observa el
signo +.
Ejemplo:
Y = 30 + 5X
TIPOS DE RELACIONES
-
o
o
o
o
o
o
o
o
X
Y
Cuando cambios en X, provoca variaciones en Y en sentido inverso (X aumenta, Y disminuye o
viceversa), las variables estn inversamente
relacionadas. Se observa en la ecuacin el signo -.
Ejemplo:
Y = 20 - 3X
TIPOS DE RELACIONES
-
. b0 = 3
Y
X
FORMA GENERAL
La ecuacin simple de primer grado tiene la siguiente forma general
Y = a + b X
Donde:
b: pendiente, o sea, el cambio en Y cuando X = 1.
a: el valor autnomo intercepto, es decir, Y = a cuando X =
0. En la grfica es la interseccin con el eje Y.
Ejemplo:
Y = 3 + 1.5X
-
Los valores constantes de la ecuacin son a y b . El primer paso para determinar la ecuacin es hallar la
pendiente b con la frmula:
Conociendo b es posible hallar el valor del intercepto a con la ecuacin:
Sin embargo, an con la ecuacin, como todos los puntos no estn exactamente sobre una lnea recta, se cometen errores en el ajuste.
PASOS
-
# de
observacin
X Y X2 Y2 XY
1 X1 Y1 X12 Y1
2 (X1 )(Y1)
2 X2 Y2 X22 Y2
2 (X2 )(Y2)
...n Xn Yn Xn2 Yn
2 (Xn )(Yn)
TOTAL X Y X2 Y2 XY
Debido a la complejidad de la frmula para hallar b y a, es recomendable ordenar los datos observados y
los respectivos clculos en un cuadro igual al
propuesto en el anlisis de correlacin:
PASOS
-
Tiempo
de sueo
(horas)
4 6 5 9 8 7 13 11 9
Dosis
(mM/ kg) 3 3 3 10 10 10 15 15 15
EJEMPLO
Una compaa farmacutica conduce un estudio piloto para evaluar la relacin entre tres dosis en un
nuevo agente hipntico y tiempo de sueo. Los
resultados de este estudio son presentados de la
siguiente manera.
-
02
4
6
8
10
12
14
16
0 2 4 6 8 10 12 14
Dosis (mM/ kg)
SOLUCIN
El diagrama de dispersin que se construye a partir de estos datos es el siguiente:
-
Segn el diagrama de dispersin, se espera una relacin positiva o directa entre ambas variables. Se puede aplicar el
modelo de regresin para ajustar los puntos y establecer una
relacin lineal que permita conocer la relacin cuantitativa
entre ambas variables.
Modelo de regresin y = a + b x
EJEMPLO
-
Esta organizacin de los datos facilita la estimacin
de la recta de regresin, debido a que proporciona
todos los datos requeridos para hallar b y a.
Sujeto Dosis Tiempo
de
sueo
X2 Y2 XY
1 3 4 9 16 12
2 3 6 9 36 18
3 3 5 9 25 15
4 10 9 100 81 90
5 10 8 100 64 80
6 10 7 100 49 70
7 15 13 225 169 195
8 15 11 225 121 165
9 15 9 225 81 135
TOTAL 84 72 1002 642 780
-
Conociendo los valores de b y a , se tiene el modelo de regresin estimado que sera:
Y = 3.33 + 0.5X
Interpretacin:
Por cada incremento de dosis del agente hipntico, el tiempo de sueo
promedio aumenta en 0.5 puntos.
X Y X2 Y2 XY
84 72 1002 642 780
-
COEFICIENTE DE
DETERMINACIN
-
Es una medicin que nos permite determinar la certeza de las predicciones hechas usando la recta de regresion.
Mide la proporcin de la variabilidad en la variable dependiente que es explicada por el modelo de la recta de
regression a traves de la variable independiente.
Es obtenido al elevar al cuadrado el valor del Coeficiente de correlacin de Pearson.
COEFICIENTE DE
DETERMINACIN
= ( r )2 R2
-
Tener en cuenta que: 0 R2 1.
Donde: Valores de R2 cercanos a 1 implicaran que el modelo explica
la mayor parte de la variacin en la variable dependiente y que podra ser un modelo muy til.
Valores de R2 cercanos a 0 implicaran que el modelo explica poco sobre la variacin de la variable dependiente y que no podra ser un modelo til.
Cuanto mayor sea R2, ms cerca estn todos los puntos a la recta.
COEFICIENTE DE
DETERMINACIN
-
EJEMPLO
Si: r = 0.95, cul sera el Coeficiente de Determinacin?
R2 = 0.9025
Interpretacin: 90% de las variaciones Y, pueden explicarse por X.
-
CORRELACIN NO IMPLICA
CAUSALIDAD
-
Diagrama de Dispersin. Utilidad e interpretacin.
Correlacin.
Coeficiente de correlacin de Pearson. Como calcularlo. Interpretacin de Sentido e Intensidad.
Regresin.
Ecuacin de regresin lineal. Como calcular la pendiente y el intercepto. Interpretacin.
Coeficiente de Determinacin.
Como calcularlo. Interpretacin.
RESUMEN DE LA CLASE
-
Aqu es donde nuestros caminos se bifurcanpor ahora
GRACIAS POR SU ATENCIN!
XITOS EN SUS CARRERAS!