coeficiente de correlacion

11
REPÚBLICA BOLIVARIANA DE VENEZUELA MINISTERIO DEL PODER POPULAR PARA LA EDUCACION INSTITUTO UNIVERSITARIO POLITECNICO “SANTIAGO MARIÑO” Coeficiente de Correlación de Spearman y Pearson. Profesor: Bachiller: Pedro Beltrán. Glelvimar Laréz C.I: 26.135.300

Transcript of coeficiente de correlacion

Page 1: coeficiente de correlacion

REPÚBLICA BOLIVARIANA DE VENEZUELAMINISTERIO DEL PODER POPULAR PARA LA EDUCACIONINSTITUTO UNIVERSITARIO POLITECNICO “SANTIAGO

MARIÑO”

Coeficiente de Correlación de Spearman y Pearson.

Profesor: Bachiller:Pedro Beltrán. Glelvimar Laréz C.I: 26.135.300 Barcelona, Julio 2016.

Page 2: coeficiente de correlacion

COEFICIENTE DE PEARSON: Es un índice estadístico que mide la relación lineal entre dos variables cuantitativas. A diferencia de la covarianza, la correlación de Pearson es independiente de la escala de medida de las variables. El cálculo del coeficiente de correlación lineal se realiza dividiendo la covarianza por el producto de las desviaciones estándar de ambas variables:

Ejemplos de diagramas de dispersión con diferentes valores del coeficiente de correlación (ρ

Page 3: coeficiente de correlacion

DEFINICIÓN: En el caso de que se esté estudiando dos variables aleatorias X y Y sobre una población; el coeficiente de correlación de Pearson se simboliza con la letra: siendo la expresión que nos permite calcularlo:

Donde:

* Es la covarianza de (X, Y)

• Es la desviación típica de X

• Es la desviación típica de la variable Y

De manera análoga podemos calcular este coeficiente sobre un estadístico muestral, denotado como: a:

Page 4: coeficiente de correlacion

VENTAJAS DE PEARSON: 1. Puede utilizarse para medir el grado de relación de dos variables siempre y cuando ambas sean cuantitativas

2. Su magnitud indica el grado de asociación entre las variables. 

Desventajas:

1. No refleja cambios en los patrones de compra conforme pasa el tiempo.

2. Error que se comete para la medida , cuanto mayor numero de pares o de personas es mas fiable

Page 5: coeficiente de correlacion

COEFICIENTE DE SPEARMANEn estadística, el coeficiente de correlación de Spearman, ρ (rho) es una medida de la correlación (la asociación o interdependencia) entre dos variables aleatorias continuas. Para calcular ρ, los datos son ordenados y reemplazados por su respectivo orden

El coeficiente de correlación de Spearman es menos sensible que el de Pearson para los valores muy lejos de lo esperado. En este ejemplo: Pearson = 0.30706 Spearman = 0.76270

Page 6: coeficiente de correlacion

El estadístico ρ viene dado por la expresión:

donde D es la diferencia entre los correspondientes estadísticos de orden de x - y. N es el número de parejas.Se tiene que considerar la existencia de datos idénticos a la hora de ordenarlos, aunque si éstos son pocos, se puede ignorar tal circunstanciaPara muestras mayores de 20 observaciones, podemos utilizar la siguiente aproximación a la distribución t de Student

La interpretación de coeficiente de Spearman es igual que la del coeficiente de correlación de Pearson. Oscila entre -1 y +1, indicándonos asociaciones negativas o positivas respectivamente, 0 cero, significa no correlación pero no independencia. La tau de Kendall es un coeficiente de correlación por rangos, inversiones entre dos ordenaciones de una distribución normal bivariante.

Page 7: coeficiente de correlacion

EJEMPLO:

CI Horas de TV a la semana

106 786 0100 28100 5099 28103 2897 20113 12113 7110 17

•El primer paso es ordenar los datos de la primera columna. Se agregan dos columnas 'orden(i)' y 'orden(t)

•Para el orden i, se corresponderán con el número de fila del cuadro, para 99, orden(i) =3 ya que ocupa el 3.er lugar, ordenado de menor a mayor

•para el orden t, se debe hacer lo mismo pero ordenando por 'Horas de TV a la semana', para no hacer otro cuadro, la secuencia ordenada quedaría:

T = { 0, 7, 7, 12, 17, 20, 28, 28, 28, 50 } para este caso, el orden sería para cada elemento, respectivamente:orden(t) = { 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 }

Page 8: coeficiente de correlacion

Sin embargo, el valor de orden está dado por el valor promedio de sus posiciones, así para:7 aparece 2 veces, sumando sus posiciones = ( 2 + 3 ) / 2 = 2.528 aparece 3 veces, sumando sus posiciones = ( 7 + 8 + 9 ) / 3 = 850 aparece 1 vez, sumando sus posiciones = 10 / 1 = 10

Después, se crean dos columnas más, una columna "d" que muestra las diferencias entre las dos columnas de orden y, otra columna "d2". Esta última es sólo la columna "d" al cuadrado.

Después de realizar todo esto con los datos del ejemplo, se debería acabar con algo como lo siguiente:CI (i) Horas de TV a

la semana (t) orden(i) orden(t) d d2

86 0 1 1 0 097 20 2 6 4 1699 28 3 8 5 25100 50 4.5 10 5.5 30.25100 28 4.5 8 3.5 12.25103 28 6 8 2 4106 7 7 2.5 4.5 20.25110 17 8 5 3 9113 7 9.5 2.5 7 49113 12 9.5 4 5.5 30.25

Page 9: coeficiente de correlacion

Nótese como el número de orden de los valores que son idénticos es la media de los números de orden que les corresponderían si no lo fueran.Los valores de la columna d2 pueden ser sumados para averiguar  El valor de n es 10. Así que esos valores pueden ser sustituidos en la fórmula.

De lo que resulta:

Page 10: coeficiente de correlacion

VENTAJAS DE SPEARMAN:1. Al ser Sperman una técnica no paramétrica es libre de distribución probabilística (2, 5, 9)

2. Los supuestos son menos estrictos. Es robusto a la presencia de outliers (es decir permite ciertos desvíos del patrón normal). La manifestación de una relación causa- efecto es posible sólo a través de la comprensión de la relación natural que existe entre las variable y no debe manifestarse sólo por la existencia de una fuerte correlación (1, 5).

3. Miden el grado de relación de dos variables siempre y cuando ambas sean cuantitativas.Desventajas:

1. Es un coeficiente de correlación por rangos

2. Solo se cumple con un requisito que es, que los datos deben ser clasificados o al menos convierten en filas.