t5 Asociación

21
Tema 5: Asociación. 1. Introducción. 2. Tablas y gráficas bivariadas. 3. Variables cuantitativas. 3.1. Covarianza. 3.2. Coeficiente de correlación de Pearson. 3.3. Matriz de varianzas/covarianzas y matriz de correlaciones. 4. Variables semicuantitativas: Coeficiente de Spearman. 5. Variables cualitativas: Indices Ji Cuadrado y V de Cramer. 6. Asociación entre variables de escalas diferentes. 7. Concepto de relaciones no lineales.

description

Estadistica

Transcript of t5 Asociación

  • Tema 5: Asociacin.1. Introduccin. 2. Tablas y grficas bivariadas.3. Variables cuantitativas.3.1. Covarianza.3.2. Coeficiente de correlacin de Pearson.3.3. Matriz de varianzas/covarianzas y matriz de correlaciones.4. Variables semicuantitativas: Coeficiente de Spearman.5. Variables cualitativas: Indices Ji Cuadrado y V de Cramer.6. Asociacin entre variables de escalas diferentes.7. Concepto de relaciones no lineales.

  • 5.1 Introduccin

    Hasta ahora nos hemos centrado en medidas de tendencia central, variabilidad, asimetra y curtosis de una nica variable.

    No obstante, en la prctica es comn examinar dos o ms variables conjuntamente (v.g., relacin entre inteligencia y rendimiento, etc.)

    En este tema nos centraremos en la relacin entre 2 variables (a partir de n observaciones apareadas) y calcularemos (en particular) un ndice que nos dar el grado de relacin/asociacin entre ambas variables: el coeficiente de correlacin lineal (de Pearson)

  • 5.2 Representacin grfica de una relacin

    inteligenciarendimiento

    rendimiento

    rendimiento

    inteligenciainteligenciaRelacin lineal positivaRelacin lineal negativaSin relacinNota: El coeficiente de correlacin de Pearson mide relacin LINEAL.

  • Representacin grfica de una relacin (2)

    rendimiento

    rendimiento

    inteligenciainteligenciaRelacin linealRelacin no linealNota: El coeficiente de correlacin de Pearson mide relacin LINEAL.

  • Representacin grfica de una relacin (3)

    inteligenciarendimiento

    rendimiento

    rendimiento

    inteligenciainteligenciaRelacin lineal perfecta (casi perfecta)Relacin lineal dbilRelacin lineal fuerte/moderada

    Ahora necesitamos un ndice que nos informe tanto del grado en que X e Y estn relacionadas, y si la relacin es positiva o negativa

  • 5.3 Covarianza e ndice de correlacin de Pearson

    rendimiento

    inteligenciaObservad que cuando la relacin lineal es positiva, cuando las puntuaciones diferenciales de X son positivas, las puntuaciones diferenciales de Y suelen ser positivas.inteligencia

    rendimiento

    Observad que cuando la relacin lineal es negativa, cuando las puntuaciones diferenciales de X son positivas, las puntuaciones diferenciales de Y suelen ser negativas.Caso 1Caso 2

  • CovarianzaLa covarianza aprovecha esta caracterstica sealada en la transparencia anterior (al emplear el producto de las puntuaciones diferencias de X e Y). He aqu la frmula:En el caso 1, la covarianza ser un valor positivo, y en el caso 2, la covarianza ser un valor negativo. Por tanto la covarianza nos da una idea de si la relacin entre X e Y es positiva o negativa.Problema: la covarianza no en un ndice acotado (v.g., cmo interpretar una covarianza de 6 en trminos del grado de asociacin), y no tiene en cuenta la variabilidad de las variables. Por eso se emplea el siguiente ndice....

  • Coeficiente de correlacin (lineal) de PearsonEl coeficiente de correlacin de Pearson parte de la covarianza:Ahora veremos varias propiedades del ndice...

  • Coeficiente de correlacin (lineal) de PearsonPropiedad 1. El ndice de correlacin de Pearson no puede valer menos de -1 ni ms de +1.

    Un ndice de correlacin de Pearson de -1 indica una relacin lineal negativa perfecta

    Un ndice de correlacin de Pearson de +1 indica una relacin lineal positiva perfecta.

    Un ndice de correlacin de Pearson de 0 indica ausencia de relacin lineal. (Observad que un valor cercano a 0 del ndice no implica que no haya algn tipo de relacin no lineal: el ndice de Pearson mide relacin lineal.)

  • Coeficiente de correlacin (lineal) de PearsonPropiedad 2. El ndice de correlacin de Pearson (en valor absoluto) no vara cuando se transforman linealmente las variables.

    Por ejemplo, la correlacin de Pearson entre la temperatura (en grados celsius) y el nivel de depresin es la misma que la correlacin entre la temperatura (medida en grados Fahrenheit) y el nivel de depresin.

    Evidentemente, el ndice de correlacin de Pearson es el mismo entre las puntaciones directas de X e Y, o entre las puntuaciones diferenciales de X e Y, o entre las puntuaciones tpicas de X e Y. (Recordad que las puntuaciones diferenciales y las puntuaciones tpicas son transformaciones lineales de las puntuaciones directas.)

  • Coeficiente de correlacin (lineal) de PearsonInterpretacinHemos de tener en cuenta qu es lo que estamos midiendo para poder interpretar cun grande es la relacin entre las variables bajo estudio. En muchos casos, depende del rea bajo estudio.

    rendimiento

    inteligenciaEn todo caso, es muy importante efectuar el diagrama de dispersin. Por ejemplo, en el caso de la izquierda, es claro que no hay relacin entre inteligencia y rendimiento. Sin embargo, si calculamos el ndice de correlacin de Pearson nos dar un valor muy elevado, causado por la puntuacin atpica en la esquina superior derecha.

  • Coeficiente de correlacin (lineal) de PearsonInterpretacin (2)

    Es importante indicar que CORRELACIN NO IMPLICA CAUSACIN. El que dos variables estn altamente correlaciones no implica que X causa Y ni que Y causa X.

    (Esa es una de las razones empleadas por las tabaqueras en el tema de la correlacin entre cncer de pulmn y el hecho de fumar.)

  • Coeficiente de correlacin (lineal) de PearsonInterpretacin (3)Es importante indicar que el coeficiente de correlacin de Pearson puede verse afectado por la influencia de terceras variables. Por ejemplo, si furamos a un colegio y medimos la estatura y pasamos una prueba de habilidad verbal, saldr que los ms altos tambin tienen ms habilidad verbal...claro, que eso puede ser debido simplemente a que en el colegio los nios ms altos sern mayores en edad que los ms bajos. Habilidad numricaEstatura

    6 aos8 a10 a12 a14 aSi se parcializa esta tercera variable (mediante correlacin parcial, que ya veremos ms adelante), difcilmente habr una relacin de importancia entre estatura y habilidad numrica.

    Hay muchos casos en que es la tercera variable la causante de una alta relacin entre X e Y (y ello muchas veces es difcil de identificar)

  • Coeficiente de correlacin (lineal) de PearsonInterpretacin (3)Por otra parte, el valor del coeficiente de Pearson depende en parte de la variabilidad del grupo.Rendimientointeligencia

    CI bajoCI altoSi efectuamos el coeficiente de Pearson entre inteligencia y rendimiento con todos los sujetos, el valor del coeficiente de Pearson ser bastante elevado.Sin embargo, si empleamos nicamente los individuos con CI bajo (o CI alto) y calculamos la correlacin con Rendimiendo, el valor del coeficiente de Pearson ser claramente menor.Un grupo heterogneo dara pues un mayor grado de relacin entre variables que un grupo homogneo.

  • 5.4 Otros coeficientes: variables semi-cuantitativas Claro est, es posible obtener medidas del grado de relacin de variables cuando stas no sean cuantitativas. El caso en que las variables X e Y sean ordinalesRecordad, cuando tenemos variables con escala ordinal, podemos establecer el orden entre los valores, pero no sabemos las distancias entre los valores. (Si supiramos la distancia entre los valores ya estaramos al menos en una escala de intervalo)Podemos calcular el coeficiente de correlacin de Spearman o el coeficiente de correlacin de Kendall. (Veremos el primero.)

  • Coeficiente de correlacin de Spearman Lo que tenemos ahora son 2 sucesiones de valores ordinales.

    El coeficiente de Spearman es un caso especial del coeficiente de correlacin de Pearson aplicada a dos series de los n primeros nmeros naturales (cuando no hay empates; si hay muchos- empates hay otra frmulaes la diferencia entre el valor ordinal en X y el valor ordinal en Y del sujeto i

  • Coeficiente de correlacin de Spearman (propiedades) Primera. Se encuentra acotado, como el coeficiente de Pearson entre -1 y +1.

    Un coeficiente de Spearman de +1 quiere decir que el que es primero en X es primero en Y, el que es segundo en X es segundo en I, etcUn coeficiente de Sperman de -1 quiere decir que el que es primero en X es ltimo en Y, el segundo en X es el penltimo en Y, etc.Segunda. Su clculo es muy sencillo (ms que el del coeficiente de correlacin de Pearson). No obstante, con los ordenadores y un programa estadstico, esto es irrelevante estos das...

  • 5.5 Variables cualitativas Prueba c2 como medida de asociacin y como prueba de contraste

    La prueba chi-cuadrado es una prueba no paramtrica que se emplea para medir la asociacin entre dos variables cuando tenemos tablas de contingencia. Tambin es empleada, de manera general, para evaluar la divergencia entre una puntuaciones observadas (empricas) y unas puntuaciones predichas (tericas).

    De manera general, el estadstico chi-cuadrado se obtiene as:

    Donde fe representa las frecuencias empricas y ft representa las frecuencias tericas

  • Prueba c2 como medida de asociacin: El caso de independencia de 2 variables cualitativas

    Las frecuencias empricas son las que tenemos en la tabla de contingencia. Ahora bien, cmo computar las frecuencias tericas? Tal proceso es simple:Si ambas variables son independientes, la frecuencia terica de cada celdilla ser el resultado de multiplicar la suma de frecuencias de la fila x la suma de frecuencia de las columnas, y ese resultado se divide por N

    Para calcular "chi-cuadrado" con tablas de contingencia en internet:http://faculty.vassar.edu/lowry/newcs.html

  • Prueba c2 como medida de asociacin. Coeficientes derivados e interpretacin

    A partir de la prueba chi-cuadrado, se han propuesto cierto nmero de medidas de asociacin entre variables cuando tenemos frecuencias en tablas de contingencia. Se trata de cuantificar la fuerza de la relacin entre dos variables.

    Caso de tener tablas 2x2: Coeficiente phi

    Este ndice se interpreta de manera anloga al coeficiente de Pearson (pero observa que phi no puede ser negativo...slo de 0 a 1)

  • Prueba c2 como medida de asociacin: Coeficientes derivados e interpretacin

    Este ndice se interpreta anlogamente al ndice de Pearson (excepto por el tema del signo).Caso de tener ms de 2 filas columnas: Prueba de Cramerm es el nmero menor entre el nmero de filas-1 y columnas-1Observa que si la tabla es 2x2 este ndice coincide con el ndice phi