Unidad 6 Análisis de Correlación

15
6. Análisis de correlación. La estadística es una ciencia que demuestra que si mi vecino tiene dos coches y yo ninguno, los dos tenemos uno (George Bernard Shaw, escritor irlandés) 6.1. Conceptualización de la correlación. El maestro de matemáticas de primero de secundaria se encuentra en un dilema, los alumnos de su grupo obtuvieron calificaciones muy bajas, él no entiende a qué se debe, sin embargo cree que la principal razón es que los alumnos no estudiaron el tiempo necesario para el examen…. ¿Será cierto esto? ¿Habrá una relación entre las horas de estudio de los alumnos y las calificaciones que obtuvieron? ¿Si hay una relación, de qué tan fuerte es? ¿Es posible demostrar si existe una relación entre estas variables? Lo que el profesor busca es saber es si existe una relación entre las horas de estudio y las calificaciones de los alumnos. Esto puede ser el ejemplo de una correlación… Si la hipótesis del profesor fuera correcta, es decir, si existiera una correlación entre horas de estudio y calificación obtenida entonces…. A menudo encontramos relaciones entre dos o más variables en la vida diaria. Así, si una persona es jugador de baloncesto, pensamos que probablemente será muy alta, o si alguien tiene un alto coeficiente intelectual pensamos que probablemente obtiene buenas calificaciones en matemáticas y, en general, en el resto de materias. Asimismo, tendemos a pensar que entre más alta sea una persona más pesará. Es decir, establecemos que existen relaciones entre diferentes variables llegando a intuir, incluso, cuándo ésta relación es muy fuerte (el caso del jugador de A más horas de estudio… Mayor calificación A menos horas de estudio… Menor calificación. Objetivo de la Unidad: Identificar qué es una correlación así como los elementos que intervienen en ésta.

description

Unidad 6 del curso "Una mirada a través del lente estadístico".

Transcript of Unidad 6 Análisis de Correlación

Page 1: Unidad 6 Análisis de Correlación

6. Análisis de correlación. La estadística es una ciencia que demuestra que si mi vecino tiene dos coches y yo ninguno, los dos 

tenemos uno (George Bernard Shaw, escritor irlandés) 

 

 

 

 

6.1. Conceptualización de la correlación.  

El maestro de matemáticas de primero de secundaria se encuentra en un dilema, los alumnos de su grupo obtuvieron calificaciones muy bajas, él no entiende a qué se debe, sin embargo cree que la principal razón es que los alumnos no estudiaron el tiempo necesario para el examen…. 

¿Será cierto esto? ¿Habrá una relación entre las horas de estudio de los alumnos  y  las  calificaciones  que  obtuvieron?  ¿Si  hay  una  relación,  de  qué  tan  fuerte  es?  ¿Es posible demostrar si existe una relación entre estas variables? 

Lo  que  el  profesor  busca  es  saber  es  si  existe  una  relación  entre  las  horas  de  estudio  y  las calificaciones de  los alumnos. Esto puede  ser el ejemplo de una correlación… Si  la hipótesis del profesor fuera correcta, es decir, si existiera una correlación entre horas de estudio y calificación obtenida entonces…. 

 

A menudo encontramos relaciones entre dos o más variables en la vida diaria.  Así, si una persona es jugador de baloncesto, pensamos que probablemente será muy alta, o si alguien tiene un alto coeficiente  intelectual  pensamos  que  probablemente  obtiene  buenas  calificaciones  en matemáticas y, en general, en el resto de materias. Asimismo, tendemos a pensar que entre más alta sea una persona más pesará.   Es decir, establecemos que existen relaciones entre diferentes variables    llegando a  intuir,  incluso,  cuándo ésta  relación es muy  fuerte  (el  caso del  jugador de 

 A más horas de estudio… 

Mayor calificación 

A menos horas de estudio… 

Menor calificación. 

Objetivo de la Unidad: 

Identificar  qué  es  una  correlación  así  como  los  elementos  que intervienen en ésta. 

Page 2: Unidad 6 Análisis de Correlación

baloncesto y  la altura), o es más débil  (si supusiéramos que entre mayor coeficiente  intelectual, más  rápido  encontrará  trabajo),  o  incluso  podemos  pensar  que  no  existe  ninguna  relación  (las personas altas tienen mayor coeficiente intelectual que las bajas). 

La  pregunta  a  la  que  trataremos  de  responder  en  este  tema  son:  ¿En  qué  medida  están relacionadas dos variables? ¿Cómo es  la relación de estas dos variables? Conociendo el valor de una de ellas buscaremos responder a la pregunta ¿Hasta qué punto puedo predecir el valor de la otra? (esta última pregunta se buscará responder en la siguiente unidad). 

Cuando  intentamos medir esa  relación, decimos que estamos midiendo  la  correlación entre  las variables. Si se trata de dos variables solamente, decimos que estudiamos una correlación simple, y cuando se trata de más de dos variables decimos que estudiamos una correlación múltiple. La estadística descriptiva bivariada  (de dos  variables)  aborda  el  estudio de  los  sucesos  en  los que intervienen dos variables simultáneamente. 

 

 

   

La correlación se define cómo: 

a. “El grado de relación o asociación entre dos variables” (Hopkins, et al., 1997). 

b. “Las propiedades, cálculos y uso de una medida de relación entre dos variables” (Young, R. y Veldman, D., 1977). 

c. El grado y forma de relación entre dos variables. 

La correlación bivariada se define cómo: Relación existente entre dos variables. 

La correlación múltiple se define cómo: Relación existente entre más de dos variables. 

Page 3: Unidad 6 Análisis de Correlación

El siguiente esquema muestra los distintos tipos de correlación que pueden existir. 

 

Resuelve el ejercicio 1 antes de continuar leyendo 

 

 

   

Page 4: Unidad 6 Análisis de Correlación

6.2. ¿Cómo medimos la correlación entre dos variables? Existen dos  formas de medir o  cuantificar el grado de  relación entre dos  variables: el  “método gráfico” y el “método analítico”. 

6.2.1. Método gráfico. A este método se  le conoce como “gráfica de dispersión”, “dispersigrama” o “nube de puntos”. Este método consiste en graficar por medio de puntos, los valores correspondientes a las variables “A” y “B” para cada uno de  los sujetos analizados. La “gráfica de dispersión” puede ser definida como “una gráfica de pares de valores X y Y” (Pagano, 2006). 

¿Cómo se hace una gráfica de dispersión? Después de dibujar sus ejes X y Y, asigne a cada uno de ellos una variable “A” (en el eje de las X’s) y “B” (en el eje de las Y’s). Tome los valores de “A” y “B” de un sujeto “K”. Localice el valor del sujeto “K” para  la variable “A” y trace una  línea  imaginaria vertical. Localice el valor del sujeto “K” para la variable “B” y trace una línea imaginaria horizontal. Busque la intersección de las dos líneas y marque con un punto. Repita lo anterior para los demás sujetos a analizar. 

Si  observamos  la  forma  de  la  gráfica,  podemos  deducir  porqué  es  que  se  le  llama  “nube  de puntos”. Es de  suma  importancia hacer una  “gráfica de dispersión”  cuando  se busca hacer una correlación bivariada con el fin de observar cómo se distribuyen los puntos. 

Si trazamos una línea imaginaria que cruce a través de los puntos formando un patrón (una línea, una curva, etc.) podemos tratar de intuir la fuerza y la forma de la correlación. Mientras los puntos dibujados  se  acerquen más  a  la  línea  trazada  imaginariamente  indicaría  que  existe  una mayor 

Page 5: Unidad 6 Análisis de Correlación

correlación entre  los datos y viceversa, entre menos se acerquen  los puntos dibujados a  la  línea trazada imaginariamente, indicaría que existe un poco correlación entre dos datos. 

 

Page 6: Unidad 6 Análisis de Correlación

 

 

   

No se nota ningún tipo de patrón por lo que no hay relación entre las 

dos variables. 

Page 7: Unidad 6 Análisis de Correlación

6.2.2. Método analítico. El  “método  analítico”  involucra  a  las  ecuaciones matemáticas.  ¡No  te  preocupes,  no  hay  que alarmarse!  En  este  curso  sólo  revisaremos  una  de  estas  (la más  famosa  y  utilizada),  la  de  Karl Peason conocida como “producto momento de Pearson” y como su nombre  lo  indica, arroja un producto conocido como r de Pearson cuando se habla de muestras y como ρ de Pearson cuando hablamos  de  poblaciones  (recordemos  que  el  símbolo  ρ  proviene  del  alfabeto  griego  y corresponde a  la r  latina). Este coeficiente analiza  la relación bivariada (dos variables)  lineal. La r de  Pearson  puede  ir  de  ‐1  a  +1  pasando  por  “0”.  En  una  sección  posterior  de  este  capítulo, analizaremos cómo es que interpreta este coeficiente. 

Kart Pearson fue el  inventor del coeficiente r de Pearson. Kart  lo diseñó con el fin de comprobar hipótesis en el campo de la Biología. Fue tan famoso y útil el coeficiente que se extendió su uso en todas las ciencias empíricas (incluidas las ciencias sociales). Su fórmula es: 

r  NΣXY ΣX ΣY

NΣX ΣX NΣY ΣY 

En donde: 

a. N es el número de sujetos correlacionar. b. ΣX y ΣY es la suma de los datos de X y de Y respectivamente. c. ΣX2 y ΣY2 es la suma de los datos elevados al cuadrado de X y Y respectivamente. 

Este “producto momento de Pearson” tiene tres requisitos que estudiaremos a continuación: 

a. Variables continuas (de intervalo, razón). b. Existencia de relación lineal entre las variables. c. Homoscedasticidad. 

6.2.3. Requisito para el análisis de correlación de Pearson. 

a. Variables Continuas. Este requisito es muy simple. Simplemente piensa en qué tipo de variable puede graficarse en una “gráfica de dispersión”. Una variable de  intervalo, de razón pueden graficarse en una “gráfica de dispersión” (si tienes duda de  los tipos de variables, consulta el capítulo X). Las variables que no pueden ser graficado en una “gráfica de dispersión” son el nominal (o categórico) y el ordinal. Si tienes variables continuas, cumples con el primer  requisito para usar el “producto momento de Pearson”. 

b. Relación lineal. A este requisito de la correlación bivariada de Pearson se le llama relación lineal porque nos habla de que es necesario que  la  forma en que estén relacionadas  las dos variables sea de una  forma “lineal”,  es  decir  que  si  graficamos  las  variables  en  una  “gráfica  de  dispersión”,  deberíamos observar  cómo  es  que  la  “nube  de  puntos”  forma  un  patrón  de  “línea  recta”.  Esta  línea  recta 

Page 8: Unidad 6 Análisis de Correlación

puede  indicarnos  una  relación  “directamente”  (positiva)  o  “inversamente”  (negativa) proporcional. ¿Qué significa esto? 

 

Como ya hemos mencionado, es muy fácil encontrarnos en la vida diaria frente a situaciones que “están  relacionadas”.  En  la  escuela  suponemos  que  una  persona  “inteligente”  tendrá  altas calificaciones. Cuando hacemos ejercicio sabemos que entre más esfuerzo y tiempo dediquemos, al final estaremos más cansados. Otras posibles relaciones serían: 

A mayor dinero en la cartera más posibilidades de compra. 

A más lejano el destino mayor será el número de caminos posibles a tomar. 

A mayor número de ofertas en una tienda mayor número de consumidores. 

A mayor número de horas dedicadas al estudio, mayor calificación. 

A menor peso en un avión, menor será combustible a utilizar. 

A menor capacidad del USB, menor es el número de cosas que puedes grabar en él. 

Todas  estas  relaciones  son  “directamente  proporcionales”  (relación  positiva),  esto  quiere  decir que conforme más dinero tengo en la cartera (A), más posibilidades de compra tengo (B). De una misma  forma,  entre menos  capacidad  de memoria  tenga mi USB  (A),  el  número  de  cosas  que puedo grabar en él será menor (B). Con esto vemos que una relación “directamente proporcional” (o positiva) se da cuando una variable “A” aumenta al mismo tiempo en que lo hace una variable “B” (o viceversa). De una misma forma,  cuando una variable “A” disminuye al mismo tiempo que lo  hace  una  variable  “B”  (o  viceversa),  decimos  que  nos  encontramos  frente  a  una  relación “directamente proporcional” (o positiva). 

 

Page 9: Unidad 6 Análisis de Correlación

 

Por otra parte podemos hablar de  las relaciones “inversamente proporcionales”  (o negativas). A diferencia de la relación “directamente proporcional” en donde mientras la variable “A” aumenta o disminuye decimos que “B” aumenta o disminuye, una relación “inversamente proporcional” (o negativa) es, como su nombre lo indica, inversa: Mientras la variable “A” aumenta, la variable “B” debe disminuir (o viceversa), asimismo si la variable “A” disminuye, la variable “B” debe aumentar (o viceversa). ¿Dónde podemos ver esto en la vida diaria? 

Entre más agua beba, tendré menos sed. 

A menor cansancio mayor actividad. 

A menor edad mayor condición física. 

A mayor contaminación ambiental, menor calidad de vida. 

A menor número de clientes, el servicio podrá ser más personalizado. 

A menor número de mascotas, mayor será limpieza en el hogar. 

A mayor confusión al hacer algo, menor eficiencia. 

Page 10: Unidad 6 Análisis de Correlación

 

Es muy  importante mencionar  que  existen  relaciones  no  lineales.  Para  su  análisis  estadístico (forma  y  grado  de  relación),  es  necesario  utilizar  otros  tipos  de  coeficientes  de  correlación distintos  a  Pearson.  ¿Qué  puede  ser  una  relación  no  lineal?  Cuando  nacemos  poseemos  poca capacidad de memoria. Entre más avanza nuestra vida más poseemos más capacidad de memoria. Sin embargo  los años no pasan en balde. Llega una cierta edad en que en  lugar de adquirir más memoria,  la vamos perdiendo poco a poco. Esta  relación edad‐memoria se vería de  la siguiente forma: 

 

En la gráfica podemos observar cómo es que en una temprana edad podemos afirmar que existe una aparente  relación directamente proporcional  (o positiva).  Sin embargo  llega  la  vejez y esta relación  positiva  cambia  a  una  relación  inversamente  proporcional  (o  negativa).  Podríamos  ver cómo  la  “nube  de  puntos”  forma  una  curva  y  no  una  línea  recta.  Si  utilizáramos  el  “producto momento de Pearson” probablemente nos encontraríamos en  la situación de que el coeficiente que  arroja  anularía  la  posibilidad  de  relación.  En  parte  esto  es  cierto,  anula  la  posibilidad  de relación  lineal mas  no  anula  la  posibilidad  de  relación  de  otro  tipo. Otros  tipos  de  relaciones 

Page 11: Unidad 6 Análisis de Correlación

pueden ser: curvilineas, exponenciales, logarítimicas, en fin, mientras exista un patrón claro y una tendencia, se puede hablar de que existe una relación entre las variables. 

 

c. Homoscedasticidad. Se refiere a que exista aproximadamente la misma desviación de los puntos a lo largo de  la línea imaginaria.  

En una gráfica, para poder muestra homoscedasticidad, sólo basta con observar si la dispersión de los puntos forma un cigarro. 

Ejemplo: 

 

   

 

Page 12: Unidad 6 Análisis de Correlación

En las siguientes gráficas no hay homoscedasticidad. 

 

Resuelve el ejercicio 2 antes de continuar leyendo 

 

6.3. ¿Cómo interpretar el coeficiente r de Pearson? Como ya mencionamos, el coeficiente r de Pearson consta de dos partes, un signo positivo (+) o negativo (‐) y un número (de 0 a 1). Si quieres interpretar una r de Pearson, debes: 

a. Separa el signo de la cifra (te dan informaciones diferentes pero complementarias). b. El  signo  indica  la  dirección  de  la  correlación,  positiva  o  directamente  proporcional  (a 

mayor A mayor B o a menor B menor A) y negativa o inversamente proporcional (a menor A mayor B o viceversa). 

Page 13: Unidad 6 Análisis de Correlación

c. La cifra te  indica  la “fuerza de  la correlación”. Una correlación perfecta tendría una cifra cercana al 1, mientras que una ausencia de correlación tendría una cifra cercana al 0. 

En el gráfico X podemos observar cómo se representa  lo anterior. La cifra  indica  la “fuerza de  la correlación”, mientras que el signo indica la dirección de la correlación. 

 

Ahora bien, ¿qué es una “correlación perfecta” (r=+1, ‐1)? Es aquella correlación donde todos los puntos que marcamos en la “gráfica de dispersión” se encuentran sobre la recta imaginaria (véase la gráfica X). Encontrar esto en una investigación es muy raro, por lo que coeficientes cercanos a 1 son considerados como coeficientes “fuertes”. 

Por otra parte, ¿qué es una “correlación nula” (r=0)? Es aquella correlación donde ninguno de los puntos  que marcamos  en  la  “gráfica  de  dispersión”  se  encuentra  cerca  de  la  recta  imaginaria (véase  la  gráfica  X).  Podríamos  decir  que  la  gráfica  se  vería  como  si  disparáramos  perdigones contra  una  pared.   Nuevamente,  encontrar  esto  en  una  investigación  es muy  raro,  por  lo  que coeficientes cercanos a 0 son considerados como coeficientes “nulos”. 

Se podría decir que una1: 

a. r= +1, ‐1 es la más fuerte que puede existir. b. r= +0.70, ‐0.70 es una correlación fuerte. c. r= +0.50, ‐0.50 es una correlación media. d. r= +0.30, ‐0.30 es una correlación débil. e. r= 0 es una correlación nula o inexistente. 

 

                                                            1 Para este curso se opta por hacer esta clasificación de los coeficientes de correlación sin embargo es necesario señalar que entre más grande sea el tamaño de la muestra se admiten coeficientes más pequeños y viceversa, entre más pequeño sea el tamaño de la muestra se requieren coeficientes más grandes. Este tema involucra el concepto de significancia estadística que no tratamos en este curso pero que puedes conocerlo en algunos de los textos de las referencias que este libro utiliza.

Page 14: Unidad 6 Análisis de Correlación

Resuelve el ejercicio 3 antes de continuar leyendo 

 

 

6.4. ¿Relación o Causalidad? La  correlación,  como  su nombre  lo  indica, busca analizar  si existe una  relación, en qué medida existe la relación y de qué forma están relacionadas dos variables. Si sabemos que una variable A, es causa de una variable B, lógicamente estarán correlacionas de alguna forma (lineal, curvilínea, etcétera). Sin embargo, esta premisa no se aplica de  forma  inversa, estos es: que cuando exista una relación entre la variable A y la variable B no se puede afirmar tan “a la ligera” que A produce B. ¿Por qué? Muchas veces vemos fenómenos que van de la mano uno con el otro. Por ejemplo: si midiésemos el tamaño de una tienda y al mismo tiempo contáramos el número de personas que compran en ella, tal vez al correlacionarlas podríamos observar una correlación fuerte y positiva. Sin embargo no sería  lógico afirmar que el  tamaño de una tienda es  lo que hace que halla o no clientes  en  ella.  Existen mil  y  un  variables  que  afectan  la  popularidad  de  una  tienda,  desde  el prestigio de la marca hasta sus precios o su ubicación. 

Es  importante aclarar que  la correlación es un primer análisis que da pie a otros posteriores que apoyan que una variable A sea causa de B. Para dar una “probadita” de uno de estos análisis que sugieren  la  causalidad  de  B  debido  a  A,  haremos  una  breve  referencia  al  “coeficiente  de determinación”  (también  conocido  con  los  nombres  de  “varianza  explicada/atribuida”,  o “reducción proporcional al error”). 

Este coeficiente suele representarse por r2 y se obtiene elevando al cuadrado  la “r de Pearson”. Este es un  segundo paso que permite afirmar que A explica el X% de B. Es más que necesario mencionar que si es necesario un sustento  teórico de una  relación,  la existencia de un sustento teórico  en  el  “coeficiente  de  determinación”  también  debe  existir.  Por  ejemplo,  si medimos  el número  de  fábricas  y  la  contaminación  de  varias  ciudades  alrededor  del  mundo  y  las correlacionamos podríamos observar una correlación  fuerte y positiva, digamos que obtenemos una r=+0.91.  Si eleváramos al cuadrado la r (0.91X0.91), tenemos un coeficiente de determinación de r2=0.8281 que indicaría que la existencia de fábricas explica el 82.81% de la contaminación de una ciudad. 

   

Page 15: Unidad 6 Análisis de Correlación

6.5. Correlación imaginaria o espuria. Resuelve el ejercicio 4 antes de continuar leyendo 

 

Resuelve el ejercicio 5 antes de continuar leyendo