mariafatimadossantosestadistica1.files.wordpress.com…  · Web viewEl coeficiente de Spearman...

13
COEFICIENTE DE CORRELACIÓN DE SPEARMAN Díaz, M.; Espinoza, D.; Fernández, A.; Figueroa, F.; Franco, B.; Quintero, H. Universidad Central de Venezuela Mayo, 2018. También llamado Coeficiente de Correlación Ordinal ó Coeficiente de Correlación de Rangos, se le considera un método bivariado y no paramétrico que se emplea en situaciones donde la distribución de la muestra estudiada no se ajusta a una distribución conocida (real). Además, es robusto a la presencia de outliers y permite ciertos desvíos del patrón normal, lo que significa que nos brindará un coeficiente de correlación bastante real a pesar de que en la distribución que examine hayan varios sujetos que se alejen considerablemente de la media. En relación con el Coeficiente de Correlación de Pearson, solo brinda un 91% de eficacia en el cálculo de correlación. 1. Requisitos para la Aplicación del coeficiente. El coeficiente de Spearman es una medida de asociación lineal que requiere que las dos variables estudiadas sean medidas en una escala ordinal (o que se hayan recodificado desde niveles superiores a nivel ordinal) a fin de utilizar rangos (números en orden para cada sujeto) y compararlos. Se podrá aplicar Spearman cuando la distribución de los datos estudiados no cumpla con el supuesto de normalidad y cuando su representación gráfica sea lineal.

Transcript of mariafatimadossantosestadistica1.files.wordpress.com…  · Web viewEl coeficiente de Spearman...

Page 1: mariafatimadossantosestadistica1.files.wordpress.com…  · Web viewEl coeficiente de Spearman trabaja con rangos por lo que se procede a añadir dos columnas adicionales en la tabla

COEFICIENTE DE CORRELACIÓN DE SPEARMAN

Díaz, M.; Espinoza, D.; Fernández, A.; Figueroa, F.; Franco, B.; Quintero, H.

Universidad Central de Venezuela

Mayo, 2018.

También llamado Coeficiente de Correlación Ordinal ó Coeficiente de

Correlación de Rangos, se le considera un método bivariado y no paramétrico que se

emplea en situaciones donde la distribución de la muestra estudiada no se ajusta a

una distribución conocida (real). Además, es robusto a la presencia de outliers y

permite ciertos desvíos del patrón normal, lo que significa que nos brindará un

coeficiente de correlación bastante real a pesar de que en la distribución que examine

hayan varios sujetos que se alejen considerablemente de la media. En relación con el

Coeficiente de Correlación de Pearson, solo brinda un 91% de eficacia en el cálculo de

correlación.

1. Requisitos para la Aplicación del coeficiente.

El coeficiente de Spearman es una medida de asociación lineal que requiere

que las dos variables estudiadas sean medidas en una escala ordinal (o que se

hayan recodificado desde niveles superiores a nivel ordinal) a fin de utilizar

rangos (números en orden para cada sujeto) y compararlos.

Se podrá aplicar Spearman cuando la distribución de los datos estudiados no

cumpla con el supuesto de normalidad y cuando su representación gráfica sea

lineal.

Se puede aplicar cuando se quiere conocer el grado de relación entre las

variables de muestras pequeñas y continuas.

El coeficiente de correlación de Spearman "es exactamente el mismo que el

coeficiente de correlación de Pearson, calculado sobre el rango de observaciones"

(Abreu, Cánovas, Martínez, y Tuya Pendás. 2009, p. 7) con la flexibilidad en cuanto a

normalidad, otros aspecto mencionados y su aplicabilidad a pequeños números de

sujetos.

Page 2: mariafatimadossantosestadistica1.files.wordpress.com…  · Web viewEl coeficiente de Spearman trabaja con rangos por lo que se procede a añadir dos columnas adicionales en la tabla

2. Fórmulas, explicación del cálculo y ejemplo.

A continuación se presenta una tabla de resultados que contiene datos

indicando el tiempo (en minutos), en el que varios competidores terminaron dos

competencias deportivas.

Competidores

Tiempo (min) de finalización en una competencia de Natación.

Tiempo (min) de finalización en una competición de Maratón.

Carlos 5:20 3:21

Diana 3:10 8:43

Ariana 7:35 6:43

Ismael 1:73 5:26

PASO 1: El coeficiente de Spearman trabaja con rangos por lo que se procede

a añadir dos columnas adicionales en la tabla 2. Una para asignarle los rangos

respectivos a los datos de X (en este caso, el tiempo en la competencia de natación) y

la otra para hacer la respectiva asignación de rangos a Y (tiempo en la competencia

de maratón). Por ejemplo: Ismael posee el menor tiempo en terminar la competencia,

por lo cual le asignamos el 1er lugar en la columna de X . Mientras que en el maratón,

en la columna de las Y, obtuvo el segundo menor tiempo, por lo que le asignamos el

2do lugar.

Competidores Tiempo (min) Natación

Tiempo (min) Maratón

Rango X Rango Y

Carlos 5:20 3:21 3 1

Diana 3:10 8:43 2 4

Ariana 7:35 6:43 4 3

Ismael 1:73 5:26 1 2

PASO 2: Para calcular el coeficiente de Spearman es necesario aplicar la

siguiente fórmula:

Page 3: mariafatimadossantosestadistica1.files.wordpress.com…  · Web viewEl coeficiente de Spearman trabaja con rangos por lo que se procede a añadir dos columnas adicionales en la tabla

Por lo cual, nuestro siguiente paso consiste en buscar el valor de d1 y d2.. Así

que, luego de tener nuestras columnas X y Y, que contienen los rangos de nuestras

dos variables ordinales (Tiempo de finalización de la competencia de natación y los

resultados de un maratón), procedemos a agregar dos columnas más a la tabla

elaborada en el paso 1. Una para encontrar d1 restando un par X-Y (es decir, la

diferencia entre los rango X e Y). Por ejemplo: el sujeto número uno tiene en la

columna X=3 y en la Y=1, ambos valores se restan para darnos un total de 2. Ese

valor será elevado al cuadrado y nos dará el valor de d2. =4

Competidores Rango X Rango Y d1 d2

Carlos 3 1 2 4

Diana 2 4 2 4

Ariana 4 3 1 1

Ismael 1 2 -1 1

TOTALES Σ 10

PASO 3: Al tener todos nuestros datos, procedemos a reemplazar los datos en

la fórmula de la siguiente manera:

rs ¿1−6Σd2

n(n2−1)=1−

6 (10)4 (42−1)

=1−6060

=0

3. Procedimiento de Spearman con empate

A continuación, se observará el cálculo de Spearman en observaciones ligadas

cuando dos o más sujetos obtienen el mismo puntaje en las variables

correspondientes.

Ejercicio: En una academia de baile, se desea estudiar si existe correlación

entre el número de días que los alumnos faltan a la academia y el número de

evaluaciones reprobadas. Para ello, se seleccionó aleatoriamente una muestra de 10

alumnos de las cuales se obtuvieron los siguientes resultados:

Page 4: mariafatimadossantosestadistica1.files.wordpress.com…  · Web viewEl coeficiente de Spearman trabaja con rangos por lo que se procede a añadir dos columnas adicionales en la tabla

N° de días que faltan los alumnos a la

academia(x)

N° de evaluaciones reprobadas

(y) Rango X Rango Y di di2

0 0 2 1,5 0,5 0,250 0 2 1,5 0,5 0,250 1 2 4,5 -2,5 6,252 1 4 4,5 -0,5 0,253 1 5 4,5 0,5 0,255 2 6 7,5 -1,5 2,257 1 7,5 4,5 3 97 3 7,5 9,5 -2 4

12 2 9 7,5 1,5 2,2515 3 10 9,5 0,5 0,25

25

En éste ejercicio, se ordenaron a los sujetos de menor a mayor para ubicar las

posiciones en las que se encuentran. Se puede elegir de dos maneras: mayor a menor

o menor a mayor, dependiendo cómo lo prefiera emplear el investigador.

En el caso de los puntajes de empate en la distribución, se debe ubicar las

agrupaciones de los datos que se repiten para asignarles un promedio de los rangos en las columnas X e Y. Para calcular dicho promedio, se debe tomar en cuenta el

rango que tendrían los valores repetidos de la distribución, en caso de NO repetirse el

resultado, se debe dividir entre el número de sujetos cuyos valores son los mismos.

N° de días que faltan los alumnos a la academia

(x)

0 (rango n° 1)

0 (rango n° 2)

0 (rango n° 3)

2 (rango n° 4)

3 (rango n° 5)

5 (rango n° 6)

7 (rango n° 7)

7 (rango n° 8)

12 (rango n° 9)

15 (rango n° 10)

PASO 1: Para establecer los rangos en la columna X, se puede observar dos

grupos de observaciones ligadas:

Page 5: mariafatimadossantosestadistica1.files.wordpress.com…  · Web viewEl coeficiente de Spearman trabaja con rangos por lo que se procede a añadir dos columnas adicionales en la tabla

1) Tres veces que se repite el n° 0

2) Dos veces que se repite el n° 7

PASO 2: Para sacar el promedio de aquellos sujetos que comparten el valor 0,

se toma en cuenta el rango que tendrían de NO repetirse, es decir: rango n° 1 para el

primer valor 0, rango n° 2 para el segundo valor 0 y rango n° 3 para el tercer valor 0.

Luego de eso, se suman los rangos asignados y el resultado se divide, en este caso,

entre 3 (que son el número de veces que se repite el valor 0):

1+2+3=6 6/3= 2

El resultado es 2; este es el rango que se le debe asignar a cada valor 0 que se

repite en la columna X. Una vez obtenido dicho rango, se procede a seguir

estableciendo el orden en la columna X; el valor 2 (que es el dato que sigue a los

valores repetidos en la columna X) se le asignará un rango de acuerdo a los puestos

tomados en cuenta para calcular el promedio entre los valores repetidos. En este caso,

como el último rango que se utilizó para el tercer valor 0 fue el rango n° 3, el puesto

que corresponde al valor 2 sería el rango n°4.

En el caso del segundo grupo, cuyos valores repetidos son el n° 7, se aplica el

mismo procedimiento descrito previamente, tomando en cuenta que para calcular el

promedio entre estos valores, se debe tomar en cuenta el “Paso 2”; siguiendo el orden

establecido para la columna X, el rango para los dos sujetos cuyos valores son el n° 7,

son puesto n° 7 y puesto n° 8; quedaría de esta forma:

7 + 8= 15 15/2 = 7,5 7,5

El resultado obtenido, en este caso 7,5 sería el rango para cada valor 7 que se

repite en esta columna X. Una vez realizado esto, para asignarle rango al siguiente

valor, se toma en cuenta el orden de referencia con el cual se estableció el promedio,

es decir, si el último valor 7 repetido le correspondió el rango n° 8, el siguiente valor

toma el puesto n° 9.

▪Para el caso de la columna Y, donde también se aprecian grupo de

observaciones ligadas, se aplica a cada valor repetido los pasos 1 y 2 explicados

previamente.

Para establecer los rangos en la columna Y, se puede observar cuatro grupos

de observaciones ligadas:

1) Dos veces que se repite el n° 0

Page 6: mariafatimadossantosestadistica1.files.wordpress.com…  · Web viewEl coeficiente de Spearman trabaja con rangos por lo que se procede a añadir dos columnas adicionales en la tabla

2) Cuatro veces que se repite el n° 1

3) Dos veces que se repite el n° 2

4) Dos veces que se repite el n° 3

N° de evaluaciones reprobadas

(y)

0 (rango n° 1)

0 (rango n° 2)

1 (rango n° 3)

1 (rango n° 4)

1 (rango n° 5)

2 (rango n° 7)

1 (rango n° 6)

3 (rango n° 9)

2 (rango n° 8)

3 (rango n° 10)

PASO 3: Fórmula de factor de corrección:

Si en el empate de las columnas X e Y, se presentan más de dos datos

repetidos, es necesario aplicar factor de corrección. Si son menos dos datos los que

se repiten, su efecto en sobre el coeficiente será mínimo y por lo tanto, no se aplicará

el factor de corrección.

▪ T: Es el número de observaciones ligadas o empates que se encuentran en

los rangos dados de las variables X e Y.

Tx = t3 – t Tx= (33 – 3) + (23 – 2) = 30 = 2,5 12 12 12

Ty = t3 – t Ty= (23 – 2) + (43 - 4) + (23 – 2) + (33 2) = 78 = 6,5 12 12 12

PASO 3: Una vez corregido, el efecto de los rangos que presentan empate las

grandes proporciones de las observaciones ligadas en la variable X e Y, es necesario

determinar la suma de los cuadrados, la cual se convierte en la siguiente fórmula que

se debe aplicar:

= N3-N - ∑Tx = 103 - 10 – 2,.5 = 80∑ x2∑ x2

Page 7: mariafatimadossantosestadistica1.files.wordpress.com…  · Web viewEl coeficiente de Spearman trabaja con rangos por lo que se procede a añadir dos columnas adicionales en la tabla

12 12

▪Sumatoria de la variable =

N (n° de sujetos elevado al cubo) – N (n° de sujetos) Sumatoria de T (se resta

12 con el resultado que dio en

Tx y Ty)

∑ y2 = N3-N - ∑Ty ∑ y2 = 103 - 10 6,5 = 76

12 12

PASO 4: La tercera fórmula que se debe aplicar es cuando ya se han corregido

los efectos de las observaciones ligadas o empates, de manera que se substituyen los

valores en el siguiente estadístico de prueba:

rs=80+76−252√(80) .(76 )

=0 ,84

▪ Nota: En el numerador de la fórmula, los efectos de los rangos que son

+ ∑ y2, se le resta la diferencia de rango elevado al cuadrado di2 (no se le suma).

4. Interpretación de los resultados

Para la interpretación del coeficiente de Spearman, hay que tomar en cuenta

que los valores obtenidos pueden adoptar un rango que va desde -1 hasta +1, siendo

0 el valor que indica que no hay correlación. Los valores cercanos a +1 indican que

hay una asociación fuerte y positiva entre las variables, mientras que los valores

cercanos a -1, señalan que hay una fuerte asociación negativa.

En este sentido, los signos indican si la correlación es directa o inversa; en el

caso de ser positiva, la correlación sería directa y se entiende que al aumentar un

rango, el otro también lo hace; en caso de ser valores negativos, la correlación sería

inversa, es decir, al aumentar un rango, el otro decrece (y viceversa).

∑ x2

rs=∑ x2+∑ y2−∑ d2

2√∑ x2∑ y2

Page 8: mariafatimadossantosestadistica1.files.wordpress.com…  · Web viewEl coeficiente de Spearman trabaja con rangos por lo que se procede a añadir dos columnas adicionales en la tabla

En el caso sin empate, el resultado fue 0, se puede interpretar que: La relación

entre las variables tiempo de finalización (min) en una competencia de natación y

tiempo de finalización en el maratón es 0, lo que quiere decir que no existe relación

entre dichas variables.

En el caso con empate, el resultado fue 0.84; se puede interpretar que: La

relación entre el número de días que los alumnos faltan a la academia y el número de

evaluaciones reprobadas es de 0,84, por lo tanto es una correlación directamente

proporcional y muy fuerte. Se dice que es directamente proporcional ya que mientras

más faltas tengan los alumnos en la academia, mayores serán las evaluaciones

reprobadas.

Para tener una somera idea acerca de la interpretación de los valores

obtenidos del coeficiente de Spearman, a continuación se presenta una de las escalas

más utilizadas y que sirve de referencia:

5. Limitaciones, peligros o casos especiales

En caso de Spearman, se desconoce la distribución de la población de la cual

se obtiene la muestra o se trata de una distribución que no se ajusta a una de

tipo normal.

Al carecer de especificación del supuesto sobre la distribución, es difícil inferir

sobre la población estudiada.

Page 9: mariafatimadossantosestadistica1.files.wordpress.com…  · Web viewEl coeficiente de Spearman trabaja con rangos por lo que se procede a añadir dos columnas adicionales en la tabla

No suele utilizarse con grandes cantidades de datos, normalmente se limita a

muestras pequeñas.

REFERENCIAS BIBLIOGRÁFICAS

Abreu, A.; Cánovas, A.; Martínez, R. y Tuya Pendás, L. (2009). El coeficiente de correlación de los rangos de Spearman caracterización. Revista Habanera de Ciencias Médicas, 8 (2), 30-49.

Boccardo, G. y Lizama, P. (2014). Guía de Asociación entre variables (Pearson y Spearman en SPSS). Recuperado el 19 de mayo de 2018 de https://www.u-cursos.cl/facso/2014/2/SO01007/1/material_docente/bajar?id_material=994690

Cruz-López, R.; Ruseil, L.; Siegel, S. y Villalobos, J. (1972). Estadística no paramétrica aplicada a las ciencias de la conducta. México: Trillas.

González, J. y Restrepo, L. (2007). De Pearson a Spearman. Revista Colombiana de Ciencias Pecuarias, 20 (2), 183-192.

Mondragón, M. (2014). Uso de la Correlación de Spearman en un estudio de intervención en Fisioterapia. Movimiento Científico, 8 (1), 98-104.