Post on 25-Jun-2022
Correlación lineal:coeficiente de correlación de Pearson
ESTADÍSTICA
UNIDAD ACADÉMICA DE ESTUDIOS GENERALES
Al termino de la sesión, el estudiante estará en capacidad
de determinar la asociación variables con gráficas y el
coeficiente de correlación de Pearson.
COMPETENCIAS DE LA SESIÓN
3
El Coeficiente de Correlación de Pearson es una medida
de la relación lineal entre dos variables aleatorias
cuantitativas.
A diferencia de la covarianza, la correlación de Pearson es
independiente de la escala de medida de las variables.
De manera menos formal, podemos definir el coeficiente
de correlación de Pearson como un índice que puede
utilizarse para medir el grado de relación de dos variables
siempre y cuando ambas sean cuantitativas.
Coeficiente de Correlación de Pearson
4
En el caso de que se esté estudiando dos variables
aleatorias x e y sobre una población; el coeficiente de
correlación de Pearson se simboliza con la letra , siendo la
expresión que nos permite calcularlo:
La covarianza está dado por:
Coeficiente de Correlación de Pearson
5
Donde;
es la covarianza de (X,Y)
es la desviación típica de la variable X
es la desviación típica de la variable Y
De manera análoga podemos calcular este coeficiente sobre un
estadístico muestral, denotado como a:
6
Ventajas y Desventajas del Coeficiente de
Pearson• Ventajas
El valor del coeficiente de
correlación es independiente de
cualquier unidad usada para
medir variables.
Mientras mas grande sea la
muestra mas exacta será la
estimación.
• Desventajas Requiere supuestos acerca de la
naturaleza o formas de las
poblaciones afectadas.
Requiere que las dos variables
hayan ido medidas hasta un nivel
cuantitativo continuo y que la
distribución de ambas sea
semejante a la de la curva normal.
7
Permite predecir el valor de una
variable dado un valor determinado de
la otra variable.
Se trata de valorar la asociación entre
dos variables cuantitativas estudiando
el método conocido como correlación.
Dicho cálculo es el primer paso para
determinar la relación entre las
variables.
Consiste en la posibilidad de calcular
su distribución muestral y así poder
determinar su error típico de
estimación.
Usos del Coeficiente de Correlación de
Pearson
8
Reporta un valor de correlación cercano
a 0 como un indicador de que no hay
relación lineal entre 2 variables.
Reporta un valor de correlación cercano
a 1 como un indicador de que existe
una relación lineal positiva entre las 2
variables. Un valor mayor a cero que se
acerque a 1 da como resultado una
mayor correlación positiva entre la
información.
Usos del Coeficiente de Correlación de
Pearson
9
La r de Pearson es una medida que indica hasta que punto los mismos
individuos o sucesos ocupan la misma posición relativa a 2 variables.
La r de Pearson refleja únicamente la relación lineal entre 2 variables.
Cuando la relación es perfecta positiva, cada individuo obtiene
exactamente las mismas calificaciones en ambas variables.
Un valor alto positivo alto de r de Pearson indica que cada individuo
obtiene, aproximadamente; las mismas calificaciones en ambas
variables.
Características de la R de Pearson
10
Interpretación del Coeficiente R de Pearson
Correlación negativa perfecta10
9
8
7
6
5
4
3
2
1
0
0 1 2 3 4 5 6 7 8 9 10
X
Y
Correlación positiva perfecta10
9
8
7
6
5
4
3
2
1
0
0 1 2 3 4 5 6 7 8 9 10
X
Y
Correlación cero
10
9
8
7
6
5
4
3
2
1
0
0 1 2 3 4 5 6 7 8 9 10
Y
X
Correlación positiva fuerte
Y
X
10
9
8
7
6
5
4
3
2
1
0
0 1 2 3 4 5 6 7 8 9 10
En un Centro de Salud hacen el seguimiento de la tensión arterial a
sus pacientes, y los resultados constatan que aquéllos que tienen
sobrepeso, tienen una tensión arterial superior a la media.
Vamos a ver los datos y a calcular la covarianza y el coeficiente de
correlación de Pearson de este estudio. Para simplificar los cálculos,
tomaremos una muestra de 10 pacientes.
Ejemplo:
Hipertensión en pacientes obesos
Nota: se desarrolla en Ms excel o manualmente
X = Peso (kg) 72 76 78 81 89 95 108 115 120 130
Y = Tensión
sistólica (mm Hg)115 121 125 130 141 150 165 170 177 178
Datos:
En nuestro caso tenemos que el número de datos totales es N=10.
Para calcular la covarianza necesitamos:
• Las medias marginales de X e Y.
• El producto de cada xi por cada yi.
Para las desviaciones típicas marginales necesitamos:
• El cuadrado de xi y de yi.
xi yi xi·yi xi2 yi
2
72 115
76 121
78 125
81 130
89 141
95 150
108 165
115 170
120 177
130 178
Cálculo de x Cálculo de y Cálculo de xy Cálculo de yCálculo de x
Para poder realizar los cálculos con mayor
comodidad, utilizaremos la siguiente tabla:
xi yi xi·yi xi2 yi
2
72 115 8280 5184 13225
76 121 9196 5776 14641
78 125 9750 6084 15625
81 130 10530 6561 16900
89 141 12549 7921 19881
95 150 14250 9025 22500
108 165 17820 11664 27225
115 170 19550 13225 28900
120 177 21240 14400 31329
130 178 23140 16900 31684
964 1472 146305 96740 221910
Vamos a quedarnos sólo con la última fila para hacer los cálculos
xi yi xi·yi xi2 yi
2
964 1472 146305 96740 221910
• Media marginal de X:
• Media marginal de Y:
• Desviación típica marginal de X:
• Desviación típica marginal de Y:
• Covarianza:
• Coef. Correlación de Pearson:
La covarianza y el coeficiente de correlación son positivos, luego la
correlación es directa.
Además el Coeficiente de correlación está muy cercano a 1, por lo que la
correlación es muy fuerte.
60
80
100
120
140
160
180
200
65 85 105 125 145
Ten
sió
n s
istó
lica
(mm
Hg)
Peso (kg)
Estudio de hipertensión
21
Procedimiento con el SPSS1. En primer lugar se debe obtener el gráfico de dispersión y describir
la tendencia.
Eje X: X = Peso (kg)
Eje Y: Y = Tensión sistólica (mm Hg)
Aceptar
22
23
24
Procedimiento
2. Obtener el coeficiente de correlación de Pearson para analizar la
magnitud de asociación de las variables.
Eje X: X = Peso (kg)
Eje Y: Y = Tensión sistólica (mm Hg)
25
26
Correlaciones
X = Peso (kg)Y = Tensión sistólica
(mm Hg)X = Peso (kg) Correlación de
Pearson 1 ,986**
Sig. (bilateral),000
N 10 10Y = Tensión sistólica (mm Hg)
Correlación de Pearson ,986** 1
Sig. (bilateral),000
N 10 10**. La correlación es significativa en el nivel 0,01 (2 colas).
La correlación de Pearson entre el Peso (Kg) y la Tensión Sistólica
(mm Hg) de 0,986 que es muy alta
Ejercicio 1
• Juan Escobedo, presidente de la sociedad de alumnos de
la Universidad Wiener, se ocupa de estudiar el costo de
los libros de texto.
• Él cree que hay una relación entre el número de páginas
en el texto y el precio de venta del libro.
• Para proporcionar una prueba, selecciona una muestra de
ocho libros de texto actualmente en venta en la librería.
• Dibuje un diagrama de dispersión.
• Compruebe el coeficiente de correlación.
Ejercicio 1 (Continuación)
Libro Páginas Precio (S/.)
IIntroducción a la Historia 500 84
Álgebra 700 75
Introducción a la Psicología 800 99
Introducción a la Sociología 600 72
Mercadotecnia 400 69
Introducción a la Biología 500 81
Fundamentos de Jazz 600 63
Introducción a la Enfermería 800 93
29
Véliz Capuñay, Carlos, 2011, México. Estadística para la
administración y los negocios, Primera Edición, 2011, Prentice
Hall. Pearson
Correlación en Wikipedia (español):
http://es.wikipedia.org/wiki/Correlaci%C3%B3n Relación entre
variables cuantitativas.
http://www.fisterra.com/mbe/investiga/var_cuantitativas/var_cuantit
ativas2.pdf Correlation en Wikipedia (inglés).
http://personal.us.es/vararey/adatos2/correlacion.pdf.
https://es.wikipedia.org/wiki/Coeficiente_de_correlaci%C3%B3n_d
e_Pearson.
Bibliografía