Capitulo Vi

13
CAPITULO VI: MEDIDAS DE RELACION Hasta ahora en las unidades anteriores hemos trabajados con solamente con grupos de datos que corresponden una variable cuando se da este case se denominan distribuciones unidimensionales, pero existen momentos en los cuales se hace necesario el estudio de dos distribuciones correspondientes a un mismo grupo de registro, es decir parejas de datos, se denominan distribuciones bidimensionales por lo tanto vienen en forma conjunta: en algunos otros momentos corresponden a más variables y se denominan multidimensionales. Uno de los aspectos más interesantes de la estadística es el estudio de la relación entre dos o más fenómenos representados por las variables, de allí que se presenta un concepto muy interesante y es correlación. Correlación Se define como la relación concomitantes entre dos variables, por lo tanto expresa lo que ocurre en una variable ocurre o no en la otra y esto se expresa a través del coeficiente de correlación. Coeficiente de correlación Consiste en la expresión cuantitativa del grado de relación existente entre por lo menos dos variables, dicho coeficiente presenta dos partes una que se refiere al sentido y otra a la magnitud. Existe diferentes tipos de coeficientes y la selección de cada uno de ellos dependerá de la escala de medida y de la naturaleza de la variable y la relación lineal o no de la distribución bidimensional. Tipos de Correlación Cuando las variables se intercorrelacionan se pueden dar varios tipos de correlación, seguiremos las correlaciones que se pueden representar mediante una línea recta la correlación existente, y son a saber:

description

Este es unos de los temas de estadistica

Transcript of Capitulo Vi

CAPITULO VI: MEDIDAS DE RELACIONHasta ahora en las unidades anteriores hemos trabajados con solamente con grupos de datos que corresponden una variable cuando se da este case se denominan distribuciones unidimensionales, pero existen momentos en los cuales se hace necesario el estudio de dos distribuciones correspondientes a un mismo grupo de registro, es decir parejas de datos, se denominan distribuciones bidimensionales por lo tanto vienen en forma conjunta: en algunos otros momentos corresponden a ms variables y se denominan multidimensionales.

Uno de los aspectos ms interesantes de la estadstica es el estudio de la relacin entre dos o ms fenmenos representados por las variables, de all que se presenta un concepto muy interesante y es correlacin.

CorrelacinSe define como la relacin concomitantes entre dos variables, por lo tanto expresa lo que ocurre en una variable ocurre o no en la otra y esto se expresa a travs del coeficiente de correlacin.

Coeficiente de correlacinConsiste en la expresin cuantitativa del grado de relacin existente entre por lo menos dos variables, dicho coeficiente presenta dos partes una que se refiere al sentido y otra a la magnitud. Existe diferentes tipos de coeficientes y la seleccin de cada uno de ellos depender de la escala de medida y de la naturaleza de la variable y la relacin lineal o no de la distribucin bidimensional.

Tipos de CorrelacinCuando las variables se intercorrelacionan se pueden dar varios tipos de correlacin, seguiremos las correlaciones que se pueden representar mediante una lnea recta la correlacin existente, y son a saber: Correlacin Positiva, se dice cuando a los cambios que ocurren en una variable se dan en el mismo sentido en la otra, si sea un aumento en una se da una aumento en la otra y viceversa.

Fig. 6.1 Nube de puntos para Matemtica y FsicaLa correlacin positiva puede ser perfecta, lo cual indica que las unidades estadstica que ocupan las primeras posiciones en una variable tambin ocupan primeras posiciones en la otra y viceversa. Correlacin Negativa, se dice cuando a los cambios que ocurren en una variable se dan en sentido contrario en la otra, si sea da un aumento en una se da una disminucin en la otra y viceversa.

Fig. 6.2. Nube de puntos para Tiempo y Rapidez de lectura

Al igual que la correlacin positiva, la correlacin negativa puede ser perfecta lo cual significa que las unidades estadsticas que ocupan primeras posiciones en una variable ocupan ltimas posiciones en la otra y viceversa.

Correlacin Nula, se dice cuando las variables no se intercorrelacionan, por lo tanto son independientes una de la otra.

Fig. 6.3. Nube de puntos para Educacin Fsica y Rapidez de lectura

Una forma expedita para ver como se representan grficamente la intercorrelacin de las variables es mediante un grfico denominado nube de puntos o diagrama de dispersin, el de manera grfica nos seala la correlacin y su tendencia de acuerdo a la concentracin de los datos.

Coeficiente de Correlacin Producto de los Momentos de PearsonEs el coeficiente que se utiliza cuando las variables que se intercorrelacionan son continuas, esto significa que han sido medidas en escala de intervalos o razones. Este coeficiente es lineal y paramtrico, por lo tanto solo puede se utilizado cuando exista una pareja de variables correspondiente a una misma muestra ya que lo hace es comparar la covarianza existente entre ellas. Como hemos sealado la correlacin en perfecta, positiva o negativa, cuando se dan los criterios, pero en el resto de las situaciones exceptuando cuando las variables sean independientes se dar la existencia de una tendencia y en este caso se necesita determinar el valor del coeficiente de correlacin para saber en cuanto se da la intercorrelacin de las variables. El Coeficiente de Pearson se simbolizar as rxy , para la determinacin del mismo se utiliza de forma manual las siguientes frmulas:

Otras frmulas son tambin de fcil uso sonFrmula de los desvosFrmula de las puntuaciones originales

El paquete estadstico asume para su uso la de las puntuaciones originales.

Para interpretar el coeficiente de correlacin de Pearson asumiremos la siguiente tabla:rxyGrado de relacin

0Nula

0,01 - 0,20Muy baja o despreciable

0,21 - 0,40Baja o leve

0,41 - 0,60Media o sustancial

0,61 - 0,80Alta o importante

0,81 - 0,99Muy alta

1Perfecta

Esta escala es solamente una sugerencia no es un dogma, ya que su interpretacin esta sujeta a un conjunto de factores que influyen sobre el valor del coeficiente de correlacin.

Por ejemplo si existe un coeficiente de correlacin entre dos variables, talla y peso, de 0,80 (rxy = 0,80), para interpretarlo debemos establecer algunas consideraciones iniciales como son el sentido, positiva, el grado de relacin alta, pero no es perfecta por lo tanto es una tendencia, diramos entonces Correlacin imperfecta positiva de tipo alto lo cual indica una lata tendencia a que quienes posean una alta talla tienden a tener un alto peso y viceversa quienes tenga una talla baja tienden a tener un peso bajo.

Es necesario aclarar que la correlacin no implica necesariamente causalidad, o sea que una variable es producto de la otra.

Para la utilizacin del coeficiente de correlacin de Pearson debemos considerar que se cumplen los siguientes supuestos:a. Cada para de datos es independiente de los dems.b. Las dos variables a correlacionar son continuas.c. La relacin existente entre ellas es rectilnea.

Procedimiento de determinacin por el paquete.1. Pulsar el botn Describe de la barra de men2. Seleccionar del men Numeric Data3. Seleccionar Multiple-Variable Analysis4. Seleccionar las variables a correlacionar5. Pulsar el botn Ok.A continuacin aparece la ventana de anlisis con el resumen.6. Seleccionar la opcin tabular (Option tabular) y escoger de ella Correlations7. Pulsar el botn Ok, y a continuacin muestra una matriz de correlaciones.

Fig. 6.4. Matriz de correlaciones que muestra el Statgraphics

Los elementos que se presentan al final de anlisis son en primer lugar las correlaciones (Correlation), el tamao de la muestra (Simple Size) y la probabilidad de significacin (p-value) que tratemos en el capitulo VIII.

Regresin y PrediccinComo tratamos anteriormente el coeficiente de correlacin es un resumen del grfico de dispersin o nube de puntos entre las variables objeto de estudio, pero la diferencia entre regresin y correlacin esta en que la primera trata de de prever la variable dependiente en funcin de los valores de la variable dependiente, en consecuencia si cambiamos el papel de las variables cambiar tambin la ecuacin de regresin , ya que la recta de regresin se adapta a las unidades de las variable que desea predecir, sin embargo la recta es la misma independiente del orden de las variables, por lo tanto describen como vara la media de una variable en funcin de la otra y de una dispersin que es la desviacin tpica residual.

El poder de prediccin de las variables lo determinamos partiendo de la ecuacin de la recta mostrada en la frmula anterior, que ahora se adecuara, para la estimacin, mediante las siguientes ecuaciones de prediccionesEstimacin de X a partir de Y Estimacin de Y a partir de X

Es necesario sealar tambin la existencia del coeficiente de determinacin rxy2 que es el cuadrado del coeficiente de correlacin.

Procedimiento para la determinacin con el procesador1. Pulsar el botn Relate de la barra de men2. Seleccionar del men Simple Regresion3. Seleccionar la variable dependiente en Y, y la independiente en X4. Pulsar el botn Ok.A continuacin muestra la ventana con el anlisis respectivo

Fig. 6. 5. Anlisis de Regresin simple que muestra el Statgraphics

Si observamos detenidamente la ventana del anlisis de regresin simple nos muestra una primera parte que corresponde a la ordenada (Intercept) y la pendiente de la recta (Slope); en segunda instancia un anlisis de la varianza que no mostramos en este parte pero que trataremos en el captulo X, de seguida muestra un cuadro con el coeficiente de correlacin y el coeficiente de correlacin al cuadrado (R squared), expresado en porcentaje y por ltimo en Statadvisor, el cual presenta la ecuacin de prediccin para la estimacin en este caso se uso como variable dependiente la Y. El R-squared se interpreta como coeficiente de determinacin y expresa la ganancia de la precisin que se obtiene utilizando la recta de regresin, en otras palabras india la proporcin de la varianza de la variable dependiente que es explicada por la varianza de la variable independiente, en este caso solo se explica el 5,15% de ella, ya que la correlacin entre las variables fue baja (0,23).Asi mismo podemos predecir con dicha ecuacin el valor en nota1 de acuerdo al valor que se plantee de puntos, para ello utilizaremos 12 puntos, aplicamos la frmula:

Fig. 6.6. Grfico de la recta de regresinLo cual significa que el que haya obtenido 12 en la variable puntos obtendra 12,87, si la relacin fuera perfecta esta prediccin sera absolutamente cierta, no habra error, pero como el coeficiente de correlacin no fue igual a uno se esta cometiendo un error de estimacin el cual aparece en el anlisis como Error estndar of Est en este caso es igual a 3, 66, su frmula de clculo es

Donde s es la desviacin tpica de la variable dependiente.

Coeficiente de Correlacin Ordinal de Spearman (rs)Cuando las diferencia de los datos con respecto a un rasgo en particular y que no puede medirse directamente sino mediante una escala ordinal, se utiliza el coeficiente de correlacin ordinal de Spearman, el cual es no paramtrico y se deriva del coeficiente de correlacin de Pearson, mide la diferencia entre los rangos. Su frmula es la siguiente:

Donde d es la diferencia de los rangos entre las variables y n el nmero de los pares de medidas.

El coeficiente de correlacin de Spearman no es ms que un caso particular del de Pearson, por lo tanto tomaremos para su interpretacin la misma escala.Procedimiento de clculo1. Pulsar el botn Describe de la barra de men2. Seleccionar del men Numeric Data3. Seleccionar Multiple-Variable Analysis4. Seleccionar las variables a correlacionar5. Pulsar el botn Ok.A continuacin aparece la ventana de anlisis con el resumen.

6. Seleccionar la opcin tabular (Option tabular) y escoger de ella Rank Correlations7. Pulsar el botn Ok, y a continuacin muestra una matriz de correlaciones.

Fig. 6.7. Matriz de correlacin de Spearman

Como sealbamos en el coeficiente de correlacin de Pearson, es la misma identificacin de los elementos, y su interpretacin es con la misma escala.

Coeficiente de Correlacin Biserial Puntual (rbp)Se utiliza para determinar el grado de relacin existente entre una variable de naturaleza continua (escala de intervalo o razones) y otra variable de naturaleza dicotoma o dicotmica es decir por su naturaleza se divide en solo dos categoras o modalidades.

Donde: Xp: Corresponde a la media de la variable continua de los que se encuentran en el criterio.Xq: Corresponde a la media de la variable continua de los que no se encuentran en el criterio.s: desviacin tpica de la variable continua.p: proporcin de unidades estadsticas que se encuentra en el criterio.q: proporcin de unidades estadsticas que no se encuentra en el criterio.

Aunque el paquete estadstico no permite determinar dicho coeficiente, se pueden obtener los elementos para aplicar manualmente la frmula mediante el siguiente proceso: Describe Numeric data One-Variable Analysis seleccionar la variable continua y luego utilizar SELECT de acuerdo a la variable categrica, para obtener las medias parciales y la desviacin tpica.

Coeficiente de Correlacin Phi ()Se utiliza cuando las variables a correlacionar poseen naturaleza dicotomica o al menos uno lo sea, la otra pudiera ser dicotomizada es decir se tiene un punto y a partir de el se divide la variable continua en dos categoras, se presentan en tablas de 2 x 2, y se aplica la siguiente frmula:

Donde las letras (a, b, c, d) corresponde a las frecuencias de las celdas y p, q, p y q corresponden a las frecuencias marginales. De una tabla de 2 x 2 como sealamos.

ba

d

c

p

q

q pEl paquete tampoco nos suministra el coeficiente phi, solamente el phi cuadrado que tratemos ms adelante, pero podemos construir la tabla cruzada con las variables que necesitemos establecer la relacin y luego aplicar manualmente la frmula.Al igual que los dos coeficientes anteriores tambin se utiliza para interpretarlo la tabla que tenemos para el coeficiente de correlacin de Pearson. Coeficiente de Correlacin Parcial (r12.3)Se utiliza cuando se desea determinar el verdadero grado de relacin entre dos variables cuando se controla o elimina la influencia de una tercera.

Procedimiento para determinarlo con el paquete estadstico:1. Pulsar el botn Describe de la barra de men2. Seleccionar del men Numeric Data3. Seleccionar Multiple-Variable Analysis4. Seleccionar las variables a correlacionar5. Pulsar el botn Ok.A continuacin aparece la ventana de anlisis con el resumen.6. Seleccionar la opcin tabular (Option tabular) y escoger de ella Partial Correlations7. Pulsar el botn Ok, y a continuacin muestra una matriz de correlaciones.

Fig. 6.8. Matriz de Correlacin Parcial que muestra el Statgraphics

InterpretacinSupngase que se desea determinar el verdadero grado e relacin entre las variables puntos y nota1 cuando se controla la influencia de la edad, se tiene un coeficiente de correlacin parcial (r12.3) de 0,1224, lo cual indica que es el verdadero grado de correlacin entre dichas variable al controlar la edad, si se compara con el obtenido por Pearson (rxy), fue de 0,2270, lo cual nos lleva a la conclusin que la edad si ejerce influencia sobre puntos y nota1.

Coeficiente de Correlacin Mltiple (R1.23)Se utiliza cuando se desea determinar la relacin existente entre una variable dependiente o predicha y por lo menos dos variables independientes o predictoras tomadas de manera conjunta, de all que el resultado del coeficiente indica cuanto de la variable dependiente es predicho por las variables independientes en forma conjunta.

Significa que es la raz cuadrada del coeficiente de determinacin mltiple, el cual trata de explicar cuanto de la varianza de la variable dependiente es explicado en forma conjunta por la varianza de las variables dependientes, su frmula de clculo es

Procedimiento para la determinacin por el procesador1. Pulsar el botn Relate de la barra de men2. Seleccionar del men Multiple-Variable Analysis3. Seleccionar las variables a correlacionar, para ello coloque la variable dependiente y luego las independientes.4. Pulsar el botn Ok.A continuacin aparece la ventana de anlisis con el resumen

Fig. 6.9. Analisis de regresin mltiple del StatgraphicsAparece al igual que en la regresin simple la variable dependiente, la ordenada y la pendiente, luego un anlisis de varianza los cuales no estudiaremos en este momento y posteriormente el coeficiente de determinacin (R-squared) expresado como porcentaje, para convertirlo en coeficiente de correlacin mltiple le extraemos la raz cuadrada a la proporcin y lo interpretamos.

Si consideramos el coeficiente de determinacin (R-squared) es igual a 10,477% indica la proporcin de la varianza de nota1 que es explicada en forma conjunta por puntos y edad, ahora vemos el coeficiente de correlacin mltiple y es 0,32368, lo cual indica que nota1 es determinada en forma conjunta por puntos y edad.