Unidad 6 Análisis de Correlación

6. Análisis de correlación. La estadística es una ciencia que demuestra que si mi vecino tiene dos coches y yo ninguno, los dos

tenemos uno (George Bernard Shaw, escritor irlandés)

6.1. Conceptualización de la correlación.

El maestro de matemáticas de primero de secundaria se encuentra en un dilema, los alumnos de su grupo obtuvieron calificaciones muy bajas, él no entiende a qué se debe, sin embargo cree que la principal razón es que los alumnos no estudiaron el tiempo necesario para el examen….

¿Será cierto esto? ¿Habrá una relación entre las horas de estudio de los alumnos y las calificaciones que obtuvieron? ¿Si hay una relación, de qué tan fuerte es? ¿Es posible demostrar si existe una relación entre estas variables?

Lo que el profesor busca es saber es si existe una relación entre las horas de estudio y las calificaciones de los alumnos. Esto puede ser el ejemplo de una correlación… Si la hipótesis del profesor fuera correcta, es decir, si existiera una correlación entre horas de estudio y calificación obtenida entonces….

A menudo encontramos relaciones entre dos o más variables en la vida diaria. Así, si una persona es jugador de baloncesto, pensamos que probablemente será muy alta, o si alguien tiene un alto coeficiente intelectual pensamos que probablemente obtiene buenas calificaciones en matemáticas y, en general, en el resto de materias. Asimismo, tendemos a pensar que entre más alta sea una persona más pesará. Es decir, establecemos que existen relaciones entre diferentes variables llegando a intuir, incluso, cuándo ésta relación es muy fuerte (el caso del jugador de

A más horas de estudio…

Mayor calificación

A menos horas de estudio…

Menor calificación.

Objetivo de la Unidad:

Identificar qué es una correlación así como los elementos que intervienen en ésta.

baloncesto y la altura), o es más débil (si supusiéramos que entre mayor coeficiente intelectual, más rápido encontrará trabajo), o incluso podemos pensar que no existe ninguna relación (las personas altas tienen mayor coeficiente intelectual que las bajas).

La pregunta a la que trataremos de responder en este tema son: ¿En qué medida están relacionadas dos variables? ¿Cómo es la relación de estas dos variables? Conociendo el valor de una de ellas buscaremos responder a la pregunta ¿Hasta qué punto puedo predecir el valor de la otra? (esta última pregunta se buscará responder en la siguiente unidad).

Cuando intentamos medir esa relación, decimos que estamos midiendo la correlación entre las variables. Si se trata de dos variables solamente, decimos que estudiamos una correlación simple, y cuando se trata de más de dos variables decimos que estudiamos una correlación múltiple. La estadística descriptiva bivariada (de dos variables) aborda el estudio de los sucesos en los que intervienen dos variables simultáneamente.

La correlación se define cómo:

a. “El grado de relación o asociación entre dos variables” (Hopkins, et al., 1997).

b. “Las propiedades, cálculos y uso de una medida de relación entre dos variables” (Young, R. y Veldman, D., 1977).

c. El grado y forma de relación entre dos variables.

La correlación bivariada se define cómo: Relación existente entre dos variables.

La correlación múltiple se define cómo: Relación existente entre más de dos variables.

El siguiente esquema muestra los distintos tipos de correlación que pueden existir.

Resuelve el ejercicio 1 antes de continuar leyendo

6.2. ¿Cómo medimos la correlación entre dos variables? Existen dos formas de medir o cuantificar el grado de relación entre dos variables: el “método gráfico” y el “método analítico”.

6.2.1. Método gráfico. A este método se le conoce como “gráfica de dispersión”, “dispersigrama” o “nube de puntos”. Este método consiste en graficar por medio de puntos, los valores correspondientes a las variables “A” y “B” para cada uno de los sujetos analizados. La “gráfica de dispersión” puede ser definida como “una gráfica de pares de valores X y Y” (Pagano, 2006).

¿Cómo se hace una gráfica de dispersión? Después de dibujar sus ejes X y Y, asigne a cada uno de ellos una variable “A” (en el eje de las X’s) y “B” (en el eje de las Y’s). Tome los valores de “A” y “B” de un sujeto “K”. Localice el valor del sujeto “K” para la variable “A” y trace una línea imaginaria vertical. Localice el valor del sujeto “K” para la variable “B” y trace una línea imaginaria horizontal. Busque la intersección de las dos líneas y marque con un punto. Repita lo anterior para los demás sujetos a analizar.

Si observamos la forma de la gráfica, podemos deducir porqué es que se le llama “nube de puntos”. Es de suma importancia hacer una “gráfica de dispersión” cuando se busca hacer una correlación bivariada con el fin de observar cómo se distribuyen los puntos.

Si trazamos una línea imaginaria que cruce a través de los puntos formando un patrón (una línea, una curva, etc.) podemos tratar de intuir la fuerza y la forma de la correlación. Mientras los puntos dibujados se acerquen más a la línea trazada imaginariamente indicaría que existe una mayor

correlación entre los datos y viceversa, entre menos se acerquen los puntos dibujados a la línea trazada imaginariamente, indicaría que existe un poco correlación entre dos datos.

No se nota ningún tipo de patrón por lo que no hay relación entre las

dos variables.

6.2.2. Método analítico. El “método analítico” involucra a las ecuaciones matemáticas. ¡No te preocupes, no hay que alarmarse! En este curso sólo revisaremos una de estas (la más famosa y utilizada), la de Karl Peason conocida como “producto momento de Pearson” y como su nombre lo indica, arroja un producto conocido como r de Pearson cuando se habla de muestras y como ρ de Pearson cuando hablamos de poblaciones (recordemos que el símbolo ρ proviene del alfabeto griego y corresponde a la r latina). Este coeficiente analiza la relación bivariada (dos variables) lineal. La r de Pearson puede ir de ‐1 a +1 pasando por “0”. En una sección posterior de este capítulo, analizaremos cómo es que interpreta este coeficiente.

Kart Pearson fue el inventor del coeficiente r de Pearson. Kart lo diseñó con el fin de comprobar hipótesis en el campo de la Biología. Fue tan famoso y útil el coeficiente que se extendió su uso en todas las ciencias empíricas (incluidas las ciencias sociales). Su fórmula es:

r NΣXY ΣX ΣY

NΣX ΣX NΣY ΣY

En donde:

a. N es el número de sujetos correlacionar. b. ΣX y ΣY es la suma de los datos de X y de Y respectivamente. c. ΣX2 y ΣY2 es la suma de los datos elevados al cuadrado de X y Y respectivamente.

Este “producto momento de Pearson” tiene tres requisitos que estudiaremos a continuación:

a. Variables continuas (de intervalo, razón). b. Existencia de relación lineal entre las variables. c. Homoscedasticidad.

6.2.3. Requisito para el análisis de correlación de Pearson.

a. Variables Continuas. Este requisito es muy simple. Simplemente piensa en qué tipo de variable puede graficarse en una “gráfica de dispersión”. Una variable de intervalo, de razón pueden graficarse en una “gráfica de dispersión” (si tienes duda de los tipos de variables, consulta el capítulo X). Las variables que no pueden ser graficado en una “gráfica de dispersión” son el nominal (o categórico) y el ordinal. Si tienes variables continuas, cumples con el primer requisito para usar el “producto momento de Pearson”.

b. Relación lineal. A este requisito de la correlación bivariada de Pearson se le llama relación lineal porque nos habla de que es necesario que la forma en que estén relacionadas las dos variables sea de una forma “lineal”, es decir que si graficamos las variables en una “gráfica de dispersión”, deberíamos observar cómo es que la “nube de puntos” forma un patrón de “línea recta”. Esta línea recta

puede indicarnos una relación “directamente” (positiva) o “inversamente” (negativa) proporcional. ¿Qué significa esto?

Como ya hemos mencionado, es muy fácil encontrarnos en la vida diaria frente a situaciones que “están relacionadas”. En la escuela suponemos que una persona “inteligente” tendrá altas calificaciones. Cuando hacemos ejercicio sabemos que entre más esfuerzo y tiempo dediquemos, al final estaremos más cansados. Otras posibles relaciones serían:

A mayor dinero en la cartera más posibilidades de compra.

A más lejano el destino mayor será el número de caminos posibles a tomar.

A mayor número de ofertas en una tienda mayor número de consumidores.

A mayor número de horas dedicadas al estudio, mayor calificación.

A menor peso en un avión, menor será combustible a utilizar.

A menor capacidad del USB, menor es el número de cosas que puedes grabar en él.

Todas estas relaciones son “directamente proporcionales” (relación positiva), esto quiere decir que conforme más dinero tengo en la cartera (A), más posibilidades de compra tengo (B). De una misma forma, entre menos capacidad de memoria tenga mi USB (A), el número de cosas que puedo grabar en él será menor (B). Con esto vemos que una relación “directamente proporcional” (o positiva) se da cuando una variable “A” aumenta al mismo tiempo en que lo hace una variable “B” (o viceversa). De una misma forma, cuando una variable “A” disminuye al mismo tiempo que lo hace una variable “B” (o viceversa), decimos que nos encontramos frente a una relación “directamente proporcional” (o positiva).

Por otra parte podemos hablar de las relaciones “inversamente proporcionales” (o negativas). A diferencia de la relación “directamente proporcional” en donde mientras la variable “A” aumenta o disminuye decimos que “B” aumenta o disminuye, una relación “inversamente proporcional” (o negativa) es, como su nombre lo indica, inversa: Mientras la variable “A” aumenta, la variable “B” debe disminuir (o viceversa), asimismo si la variable “A” disminuye, la variable “B” debe aumentar (o viceversa). ¿Dónde podemos ver esto en la vida diaria?

Entre más agua beba, tendré menos sed.

A menor cansancio mayor actividad.

A menor edad mayor condición física.

A mayor contaminación ambiental, menor calidad de vida.

A menor número de clientes, el servicio podrá ser más personalizado.

A menor número de mascotas, mayor será limpieza en el hogar.

A mayor confusión al hacer algo, menor eficiencia.

Es muy importante mencionar que existen relaciones no lineales. Para su análisis estadístico (forma y grado de relación), es necesario utilizar otros tipos de coeficientes de correlación distintos a Pearson. ¿Qué puede ser una relación no lineal? Cuando nacemos poseemos poca capacidad de memoria. Entre más avanza nuestra vida más poseemos más capacidad de memoria. Sin embargo los años no pasan en balde. Llega una cierta edad en que en lugar de adquirir más memoria, la vamos perdiendo poco a poco. Esta relación edad‐memoria se vería de la siguiente forma:

En la gráfica podemos observar cómo es que en una temprana edad podemos afirmar que existe una aparente relación directamente proporcional (o positiva). Sin embargo llega la vejez y esta relación positiva cambia a una relación inversamente proporcional (o negativa). Podríamos ver cómo la “nube de puntos” forma una curva y no una línea recta. Si utilizáramos el “producto momento de Pearson” probablemente nos encontraríamos en la situación de que el coeficiente que arroja anularía la posibilidad de relación. En parte esto es cierto, anula la posibilidad de relación lineal mas no anula la posibilidad de relación de otro tipo. Otros tipos de relaciones

pueden ser: curvilineas, exponenciales, logarítimicas, en fin, mientras exista un patrón claro y una tendencia, se puede hablar de que existe una relación entre las variables.

c. Homoscedasticidad. Se refiere a que exista aproximadamente la misma desviación de los puntos a lo largo de la línea imaginaria.

En una gráfica, para poder muestra homoscedasticidad, sólo basta con observar si la dispersión de los puntos forma un cigarro.

Ejemplo:

En las siguientes gráficas no hay homoscedasticidad.


6.3. ¿Cómo interpretar el coeficiente r de Pearson? Como ya mencionamos, el coeficiente r de Pearson consta de dos partes, un signo positivo (+) o negativo (‐) y un número (de 0 a 1). Si quieres interpretar una r de Pearson, debes:

a. Separa el signo de la cifra (te dan informaciones diferentes pero complementarias). b. El signo indica la dirección de la correlación, positiva o directamente proporcional (a

mayor A mayor B o a menor B menor A) y negativa o inversamente proporcional (a menor A mayor B o viceversa).

c. La cifra te indica la “fuerza de la correlación”. Una correlación perfecta tendría una cifra cercana al 1, mientras que una ausencia de correlación tendría una cifra cercana al 0.

En el gráfico X podemos observar cómo se representa lo anterior. La cifra indica la “fuerza de la correlación”, mientras que el signo indica la dirección de la correlación.

Ahora bien, ¿qué es una “correlación perfecta” (r=+1, ‐1)? Es aquella correlación donde todos los puntos que marcamos en la “gráfica de dispersión” se encuentran sobre la recta imaginaria (véase la gráfica X). Encontrar esto en una investigación es muy raro, por lo que coeficientes cercanos a 1 son considerados como coeficientes “fuertes”.

Por otra parte, ¿qué es una “correlación nula” (r=0)? Es aquella correlación donde ninguno de los puntos que marcamos en la “gráfica de dispersión” se encuentra cerca de la recta imaginaria (véase la gráfica X). Podríamos decir que la gráfica se vería como si disparáramos perdigones contra una pared. Nuevamente, encontrar esto en una investigación es muy raro, por lo que coeficientes cercanos a 0 son considerados como coeficientes “nulos”.

Se podría decir que una1:

a. r= +1, ‐1 es la más fuerte que puede existir. b. r= +0.70, ‐0.70 es una correlación fuerte. c. r= +0.50, ‐0.50 es una correlación media. d. r= +0.30, ‐0.30 es una correlación débil. e. r= 0 es una correlación nula o inexistente.

1 Para este curso se opta por hacer esta clasificación de los coeficientes de correlación sin embargo es necesario señalar que entre más grande sea el tamaño de la muestra se admiten coeficientes más pequeños y viceversa, entre más pequeño sea el tamaño de la muestra se requieren coeficientes más grandes. Este tema involucra el concepto de significancia estadística que no tratamos en este curso pero que puedes conocerlo en algunos de los textos de las referencias que este libro utiliza.


6.4. ¿Relación o Causalidad? La correlación, como su nombre lo indica, busca analizar si existe una relación, en qué medida existe la relación y de qué forma están relacionadas dos variables. Si sabemos que una variable A, es causa de una variable B, lógicamente estarán correlacionas de alguna forma (lineal, curvilínea, etcétera). Sin embargo, esta premisa no se aplica de forma inversa, estos es: que cuando exista una relación entre la variable A y la variable B no se puede afirmar tan “a la ligera” que A produce B. ¿Por qué? Muchas veces vemos fenómenos que van de la mano uno con el otro. Por ejemplo: si midiésemos el tamaño de una tienda y al mismo tiempo contáramos el número de personas que compran en ella, tal vez al correlacionarlas podríamos observar una correlación fuerte y positiva. Sin embargo no sería lógico afirmar que el tamaño de una tienda es lo que hace que halla o no clientes en ella. Existen mil y un variables que afectan la popularidad de una tienda, desde el prestigio de la marca hasta sus precios o su ubicación.

Es importante aclarar que la correlación es un primer análisis que da pie a otros posteriores que apoyan que una variable A sea causa de B. Para dar una “probadita” de uno de estos análisis que sugieren la causalidad de B debido a A, haremos una breve referencia al “coeficiente de determinación” (también conocido con los nombres de “varianza explicada/atribuida”, o “reducción proporcional al error”).

Este coeficiente suele representarse por r2 y se obtiene elevando al cuadrado la “r de Pearson”. Este es un segundo paso que permite afirmar que A explica el X% de B. Es más que necesario mencionar que si es necesario un sustento teórico de una relación, la existencia de un sustento teórico en el “coeficiente de determinación” también debe existir. Por ejemplo, si medimos el número de fábricas y la contaminación de varias ciudades alrededor del mundo y las correlacionamos podríamos observar una correlación fuerte y positiva, digamos que obtenemos una r=+0.91. Si eleváramos al cuadrado la r (0.91X0.91), tenemos un coeficiente de determinación de r2=0.8281 que indicaría que la existencia de fábricas explica el 82.81% de la contaminación de una ciudad.

6.5. Correlación imaginaria o espuria. Resuelve el ejercicio 4 antes de continuar leyendo


Unidad 6 Análisis de Correlación

Education

Transcript of Unidad 6 Análisis de Correlación