Post on 05-Mar-2016
description
Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez
Contenido:
Introducción
I.1 Términos y simbología utilizada en pruebas de hipótesis
I.2 Verificación de los supuestos para pruebas paramétricas
1. Pruebas T de Diferencia entre Medias 1.1 Prueba T para Muestras Independientes: Comparación de Promedios.
1.2 Prueba T para Muestras Relacionadas (o Pareadas).
2. Análisis de Varianza de un Factor
3. Coeficiente de Correlación de Pearson 3.1 Cálculo del Coeficiente de Correlacion Lineal Simple (r).
3.2 El Diagrama de Dispersión.
3.3 Interpretación del Coeficiente de Correlación (r).
Fuentes Consultadas
Lecturas Recomendadas
Ejercicios de Autoevaluación
Objetivo:
Conocer las principales medidas de asociación entre variables.
Introducción.
En la ficha anterior hicimos referencia a un aspecto de especial importancia en los estudios o investigaciones que tienen como objetivo someter a prueba una hipótesis o supuesto a cerca de las variables indagadas. No obstante que a partir de la experiencia del investigador así como de la observación de los datos
Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez
2
obtenidos podría advertirse el cumplimiento o no de un supuesto, desde el punto de vista estadístico (y científico) es necesario realizar una prueba con base en la cual sea posible establecer que el resultado obtenido con base una muestra no es una casualidad, sino que es realmente significativo.
De esa manera, para determinar la significancia de los valores obtenidos en una investigación debe identificarse la prueba más adecuada de acuerdo con el tipo de variables. A nivel general, las pruebas estadísticas podemos clasificarlas en paramétricas y no paramétricas. Las primeras son aplicables principalmente para comprobar hipótesis referentes a variables cuantitativas que cumplen determinados requisitos o supuestos, y las pruebas no paramétricas pueden ser utilizadas en pruebas donde intervienen variables cualitativas así como en los casos en que no se cumplen los requisitos para realizar una prueba paramétrica.
La mayoría de programas estadísticos incluyen opciones para realizar distintos tipos de pruebas de manera automática. Por ello, lo más importante es poder seleccionar una prueba que sea adecuada de acuerdo con los objetivos la investigación y que sea aplicable a los datos disponibles.
Dado que este es un tema muy amplio, lo que pretendemos es brindarle a los/as participantes del curso una breve exposición de las pruebas utilizadas con mayor frecuencia, con el propósito que cuenten con criterios para plantear posibles aplicaciones de las mismas en futuros estudios o proyectos de investigación.
A continuación vamos a revisar algunos términos relacionados con pruebas de hipótesis que servirán como base para el desarrollo de estos últimos temas.
I.1 Términos y Simbología Utilizada en Pruebas de Hipótesis.
Antes de iniciar con la descripción de las principales pruebas paramétricas, es pertinente conocer los términos básicos y la simbología utilizada en las pruebas estadísticas.
Prueba de Hipótesis:
Es un procedimiento que se sigue para decidir a cerca de la aceptación o rechazo de una hipótesis o supuesto.
Hipótesis Nula (Ho):
Es la hipótesis que sometemos a prueba, para tomar la decisión de mantenerla o rechazarla. Generalmente, la hipótesis nula establece una relación de igualdad entre los parámetros o estimadores a contrastar, o propone que el resultado obtenido no va a ser suficientemente alto o bajo (según sea el caso) para poder rechazarla.
Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez
3
Hipótesis Alternativa (H1):
La hipótesis alternativa expresa la decisión a la que se llegará si rechazamos la hipótesis nula.
Significancia:
A las pruebas de hipótesis también se les conoce como pruebas de significancia.
Para un/a investigador/ra usualmente es importante que la prueba sea
significativa, es decir, que se rechaza Ho porque hay una diferencia “significativa”
entre el resultado esperado en la muestra y el resultado obtenido. En general, el
concepto de significancia está asociado con el rechazo de la hipótesis nula.
Nivel de Significancia (α):
Cuando trabajamos con muestras siempre existe alguna posibilidad de error. Por
ello también al contrastar o someter a prueba una hipótesis no hay una certeza del
100% con relación al resultado obtenido. Para denominar el nivel de significancia
se utiliza la letra alfa (α) y los valores más comúnmente aceptados para α son 1%
y 5%. Este valor indica la probabilidad de rechazar la hipótesis nula Ho cuando en
realidad es verdadera, lo cual se conoce como error tipo 1:
α = Probabilidad de rechazar Ho siendo cierta = P (Rechazar Ho/Ho cierta)
En el caso que una prueba no resulte significativa, no implica necesariamente que
Ho sea verdadera. Lo que sucede es que la evidencia obtenida es insuficiente para
rechazarla y por ello debemos mantenerla como cierta.
Regla de Decisión:
Una vez definida Ho y el nivel de significancia aceptable para la prueba de
hipótesis, podemos establecer la regla de decisión a partir de la cual vamos a
rechazar o mantener Ho. En la definición de esta regla también interviene el
estadístico o tipo de prueba que vamos a utilizar y su respectiva distribución de
probabilidades. Entre las distribuciones utilizadas con mayor frecuencia están: la
normal, la “t de student”, la chi-cuadrado X2 y la distribución F; entre otras.
Para aplicar la regla de decisión existen diferentes opciones según los medios
disponibles para realizar los cálculos. Si no contamos con un programa o software
estadístico, podemos obtener (manualmente o con calculadora) el valor calculado
con base en los datos de la muestra y luego compararlo con el valor tabular que
Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez
4
se obtiene de la distribución de probabilidades para la respectiva prueba. Según lo
que establezca la regla de decisión, rechazaremos Ho si el valor calculado es
menor o mayor al valor tabular.
Si realizamos la prueba de hipótesis utilizando algún programa estadístico, lo
usual es que nos proporcione la probabilidad (p) asociada al valor obtenido con
base en la muestra. En este caso comparamos dicha probabilidad con el nivel de
significancia (α) establecido para la prueba: si la probabilidad es menor o igual a
alfa (p ≤ α) podemos rechazar Ho, y en caso contrario (p ≥ α) se mantiene Ho.
Por lo tanto, para interpretar correctamente el resultado que se obtiene al realizar
una prueba por medio un software estadístico es indispensable saber cuál es el
procedimiento que sigue dicho programa; ya sea a través de las herramientas de
ayuda donde se indican algunos detalles y en otros casos, como el InfoStat, puede
revisarse el manual incluido dentro del mismo programa.
I.2 Verificación de los Supuestos para las Pruebas Paramétricas.
Un aspecto importante a tomar en cuenta cuando elegimos entre diferentes
pruebas, es lo que se conoce como la potencia o eficiencia de la prueba. Este
concepto está relacionado con el grado de certeza con que la prueba nos va a
conducir hacia un resultado verídico y, en general, las pruebas paramétricas son
más potentes que las no paramétricas,
Por lo tanto, cuando un/a investigador/a tiene la opción de elegir entre una prueba
paramétrica y otra no paramétrica, la recomendación es decidirse por la primera
opción. No obstante, antes de aplicarla debe revisar que los datos cumplan los
supuestos o requisitos correspondientes, entre los cuales comúnmente están los
siguientes:
Escala de Medición: Que la variable dependiente sea cuantitativa (escala de intervalo o de razón)
Normalidad: Que los valores de la variable dependiente sigan una distribución
normal o aproximadamente normal (Prueba aplicable: Kolmogorov Smirnov)
Igualdad de Variancias (Homocedasticidad): Que las varianzas de la variable dependiente en los grupos que se comparan sean aproximadamente iguales (Prueba aplicable: Test de Levene)
Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez
5
*Nota: En los supuestos anteriores podemos entender por variable dependiente aquella cuyo comportamiento nos interesa analizar en relación con otras variables.
El cumplimiento de los requisitos para aplicar pruebas paramétricas no es
absolutamente rígido. Por ejemplo, en algunos casos podría darse que la variable
dependiente sea categórica (ordinal) pero con una cantidad relativamente grande
de categorías, y en dicho caso sería posible considerarla como una variable
cuantitativa.
Por otra parte, según el comportamiento que muestren los datos, se cuenta con la
opción de realizar transformaciones a los mismos para que su distribución sea
similar a la normal. En esos casos puede trabajarse con alguna transformación de
los datos originales, tal como la raíz cuadrado, el logaritmo u otra.
En otros casos es posible que alguno de los supuestos no se cumpla debido a una
alta variabilidad en los datos. Para solventar esa situación, el/la investigador/ra
debe analizar la pertinencia de excluir los casos que presentan valores extremos,
o bien podría agrupar los casos en grupos que sean internamente más
homogéneos o similares.
Si definitivamente no es posible cumplir con los supuestos para aplicar una prueba
paramétrica debe optarse por una prueba no paramétrica que sea equivalente y
permita contrastar la hipótesis del estudio.
1. Pruebas T para Comparación entre Medias.
En el tema anterior indicamos que la distribución “T de Student” puede utilizarse
como alternativa a la distribución normal, para los casos en que se trabaja con
muestras y no conocemos el valor de la variancia poblacional. Una aplicación de la
misma, utilizada con alta frecuencia, corresponde a las pruebas para verificar
diferencias entre promedios; tanto para muestras independientes así como para
muestras relacionadas.
1.1 Prueba T para Muestras Independientes: Comparación de Promedios.
Por medio de la prueba T para muestras independientes se pueden comparar las medias o promedios muestrales de dos grupos de casos. Lo ideal es que la asignación de los sujetos o unidades a los grupos haya sido realizada de forma aleatoria, de manera que ningún otro factor influya en los resultados obtenidos, sino solamente el factor (o tratamiento) que requerimos someter a prueba.
Supuestos:
Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez
6
Para la prueba t con igualdad de variancias, las observaciones deben ser muestras aleatorias independientes de distribuciones normales con la misma variancia de población.
En caso de variancias desiguales, las observaciones deben ser muestras aleatorias independientes de distribuciones normales.
Al examinar las distribuciones gráficamente, debe comprobarse que son simétricas y que no contienen valores atípicos.
Al realizar esta prueba pueden presentarse las siguientes condiciones:
a. Comparación cuando las variancias poblacionales son conocidas:
Si tenemos dos poblaciones con medias µ1 y µ2 y con variancias σ1 y σ2, y necesitamos comprobar si sus medias son iguales o no, la hipótesis nula sería:
Ho: µ1 = µ2 (lo cual implica que µ1 - µ2 = 0)
Y, la hipótesis alternativa en este caso es:
H1: µ1 = µ2
Para someter a prueba la hipótesis nula, tomaríamos una muestra n1 del primer grupo o población y una muestra n2 del segundo grupo, y con base en los datos obtenidos calculamos sus respectivos promedios muestrales. Si las muestras son grandes, o si sabemos que las poblaciones de donde fueron tomadas son normales, entonces los promedios y la diferencia entre ellos también se distribuyen normalmente con la siguiente media y variancia:
µd = µ1 - µ2
σ2d = σ1
2/n1 + σ22/n2
Con base en lo anterior, podemos realizar la prueba utilizando el estadístico Zc que luego comparamos con el valor correspondiente de la distribución normal, para el nivel de significancia establecido.
b. Comparación cuando las variancias poblacionales no son conocidas y las muestras son pequeñas:
zc = d - µd = X1 - X2
σd √ σ12/n1 + σ2
2/n2
Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez
7
Cuando las muestras son pequeñas pero las poblaciones de donde fueron extraídas se distribuyen normalmente, y a pesar que las variancias son desconocidas podemos suponer que son iguales, la prueba de igualdad de medias puede realizarse utilizando un estadístico que sigue la distribución “T de Student”.
En primera instancia necesitamos calcular S2w que corresponde a la variancia
combinada o variancia promedio de las dos muestras:
El denominador de esta última forma (n1+n2-2) representa el número de grados de libertad con que se distribuye el estadístico tc y con base en los cuales buscamos en la la distribubión T de Student el valor tabular correspondiente (tt) al nivel de significancia elegido para la prueba de hipótesis.
Ejemplo 1: Supongamos que un investigador desee saber sí la tensión afecta al nivel de aprovechamiento académico en unas pruebas de solución de problemas. Para ello se registraron las puntuaciones obtenidas por dos grupos de 15 alumnos matriculados en un curso de cálculo. El grupo 1 tomó la prueba bajo ninguna tensión y el grupo 2 contestó la prueba bajo condiciones de tensión, obteniéndose los siguientes resultados: n1 = 15, n2 = 15
X1 = 14, X2 = 10
S2w = 0,714
La hipótesis nula en este caso es Ho: µ1 = µ2, la cual vamos a contrastar con la hipótesis alternativa H1: µ1 = µ2 .
Calculamos el estadístico:
tc = 14 – 10 / √0,714 = 4/0,85 = 4,71
tc = X1 - X2
√ S2w /n1 + S
2w /n2
S2w = (n1-1)* S
21 + (n2-1)*S
22
n1 + n2 - 2
Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez
8
Para verificar si la diferencia encontrada es suficiente para concluir que existe
diferencia significativa entre las puntuaciones promedio de los dos grupos,
debemos comparar el valor calculado con el valor de la distribución “t de student”
para el respectivo nivel de significancia (en este caso α = 0,05) y los grados de
libertad (15+15-2 = 28) que corresponden.
En este ejemplo, como la diferencia entre los promedios podría ser tampoco
negativa como positiva (prueba de dos colas), debemos dividir el nivel de
significancia entre dos (α/2 = 0,005/2 = 0,0025) y luego buscar en la tabla de la
distribución de probabilidades acumuladas “T de Student” la columna
correspondiente a 1-α/2 = 0,975 y ubicar su intersección con la fila para 28 grados
de libertad:
g.l 0,995 0,99 0,975
27
28 2,76 2,47 2,05
29
Dado que el valor calculado (tc = 4,71) es mayor que el valor tabular (tt = 2,05),
podemos rechazar la hipótesis nula y concluir que existe una diferencia
significativa entre las puntuaciones promedio obtenidas por los estudiantes no
expuestos a tensión con respecto a los estudiantes que si estaban bajo tensión.
1.2 Prueba T para Muestras Relacionadas (Pareadas).
La prueba T para muestras relacionadas compara las medias de dos variables que fueron medidas para un solo grupo. El procedimiento calcula las diferencias (d) entre los valores de las dos variables de cada caso y contrasta si la media de dichas diferencias es distinta de cero.
Para realizar la prueba debemos obtener la diferencia promedio entre cada pareja de valores y su respectiva desviación estándar:
d = ∑ d/n
S2d = 1/(n-1) [∑d2- (∑d)2/n] y Sd = √S2
d
Con base en los valores anteriores se obtiene el estadístico:
Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez
9
Supuestos:
Las observaciones de cada par deben hacerse en las mismas condiciones
Las diferencias entre las medias deben estar normalmente distribuidas
Las varianzas de cada variable pueden ser iguales o desiguales.
Ejemplo2: Un grupo de 9 personas con problemas de obesidad siguieron una dieta baja en calorías durante 12 semanas para comprobar si hay una disminución significativa en el peso con dicho tratamiento. A continuación se presentan los datos:
Peso antes Peso después Diferencias
del trabamiento del tratamiento d d2
117,3 83,3 34 1156
114,4 85,9 28,5 812,25
98,6 75,8 22,8 519,84
104,3 82,9 21,4 457,96
105,4 82,3 23,1 533,61
100,4 77,7 22,7 515,29
81,7 62,7 19 361
89,5 69 20,5 420,25
78,2 63,9 14,3 204,49
206,3 4980,7
Lo se requiere comprobar es que el peso promedio de las personas antes de haber seguido la dieta (µ1) sea significativamente mayor al peso después del tratamiento (µ2). Por tanto, las hipótesis pueden plantearse así:
Ho: µ1 = µ2
H1: µ1 ˃ µ2
Para contrastar la hipótesis nula realizamos los cálculos:
d = 206,3 / 9 = 22,9
tc = d
Sd / √n
Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez
10
S2d = 1/8 * [4980,7- (-206,3)2/9] = 31,5
Sd = √31,5 = 5,6
Tc = 22,9/ (5,6/√9) = 22,9/1,9 = 12,05
En este caso debemos buscar en la tabla de la distribución “T de Student” el valor correspondiente a n-1 = 8 grados de libertad y α = 0,005 (es decir para 1-α= 0,95) por tratarse de una prueba para una cola. El valor a comparar es 1,86 y dado que tc = 12,05 es evidentemente mayor, se rechaza la hipótesis nula y puede concluirse que la dieta fue eficaz para disminuir el peso de las personas.
2. Análisis de Variancia de Un Factor: Comparación para Más de Dos
Medias.
El Análisis de Variancia (Andeva) de un factor se utiliza para contrastar la hipótesis de que varias medias son iguales, por ello puede considerarse como una extensión de la prueba t para dos muestras independientes y es de gran utilidad en el análisis estadístico.
Si además de determinar que existen diferencias entre las medias se requiere saber cuáles medias difieren entre sí, existen dos tipos de contrastes para comparar medias: a priori y post hoc. Los contrastes a priori se plantean antes de ejecutar el experimento y los contrastes post hoc se realizan después de haber llevado a cabo el experimento. La mayoría de programas estadísticos incluyen opciones dentro del procedimiento de Análisis de Variancia para aplicar dichas pruebas.
Supuestos:
Cada grupo es una muestra aleatoria independiente procedente de una población normal.
El análisis de varianza es robusto a las desviaciones de la normalidad, aunque los datos deberán ser simétricos.
Los grupos deben proceder de poblaciones con varianzas iguales.
Dado que el análisis de variancia es un tema bastante amplio y requiere el estudio previo de algunos conceptos, no será desarrollado a fondo en este curso, pero es posible conseguir una gran cantidad de materiales sobre el mismo, tanto en libros de texto así como en Internet y otras fuentes.
Ejemplo 3: Suponga que se realizó una investigación experimental para comparar el rendimiento académico de tres grupos de estudiantes en una tarea de solución
Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez
11
de problemas. Un grupo trabaja dentro de una condición alta de tensión, el segundo bajo condiciones moderadas y el tercero sin ninguna tensión. Los resultados son los siguientes:
Primero debe obtenerse la suma total de los cuadrados de las puntuaciones individuales. Se calcula aplicando la fórmula:
Luego, debemos calcular la suma total de los cuadrados que resulta de las desviaciones de las medias de los grupos con la media principal, que se conoce como la suma de los cuadrados entre los grupos y se calcula mediante la siguiente fórmula:
Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez
12
Como tercer paso se procede a calcular la suma total de los cuadrados que se deba a las desviaciones de las puntuaciones de cada individuo con la media de su propio grupo. Este índice se conoce como la suma de los cuadrados dentro de los grupos y puede calcularse restando la suma de los cuadrados entre los grupos a la suma total de los cuadrados:
En el siguiente cuadro Andeva aparece el resumen de los resultados anteriores.
La columna “df” muestra los grados de libertad correspondientes a grupos (3-1 =2) y al total de observaciones (10-1 + 10-1 + 10-1= 27) y a la variancia total (30-1 = 29). En la columna identificada por “MS” observamos el cuadrado medio entre grupos y el cuadrado medio dentro de grupos, los cuales se obtienen al dividir la respectiva suma de cuadrados “SS” entre los correspondientes grados de libertad. Con base en los cálculos anteriores se obtiene la razón F = 8.14.
Para verificar si el valor F es significativo, se procede a compararlo con el valor tabular correspondiente de la distribución F, en este caso para 2 y 27 grados de libertad. En la tabla encontraríamos que dicho valor es de 3.35 para un nivel de significancia del 1% (α = 0,001), y dado que el valor calculado F = 8.14 es mayor, podemos rechazar la hipótesis de igualdad de medias entre los tres grupos.
3. Coeficiente de Correlación de Pearson.
Un coeficiente de correlación es una medida de la intensidad de asociación entre
dos variables. Además, nos puede indicar la dirección o sentido en que se
relacionan; ya sea de manera positiva o directa, o bien de forma negativa o
inversa.
En este tema vamos a estudiar un tipo de asociación específica, que corresponde
a la correlación lineal simple. Se denomina simple porque es aplicable a las
situaciones en que analizamos la asociación solamente entre dos variables,
postulándose que dicha relación es lineal (puede representarse por medio de una
línea recta), no obstante, es posible extender estos conceptos a situaciones en
Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez
13
que intervienen más de dos variables (correlación múltiple) así como a relaciones
no lineales.
3.1 Cálculo del Coeficiente de Correlacion Lineal Simple (r).
Para verificar si existe relación lineal entre dos variables (X, Y) se utiliza un parámetro que mida la fuerza de asociación lineal entre ambas variables. La medida de asociación lineal más frecuentemente utilizada entre dos variables cuantitativas es el coeficiente de correlación lineal de Pearson (R), el cual está basado en la covarianza de X, Y. Este coeficiente asume valores que pueden variar entre −1 y 1, los cuales pueden interpretarse según las siguientes pautas generales:
• Si R = 1: existe una correlación positiva perfecta entre X, Y
• Si R = -1: existe una correlación negativa perfecta entre X, Y
• Si R = 0: no existe correlación lineal, pudiendo existir otro tipo de relación
• Si −1 ≤ R ≤ 0: existe correlación negativa y dependencia inversa, mayor cuanto
más se aproxime a - 1.
• Si 0 ≤ R ≤ 1: existe correlación positiva, y dependencia directa, mayor cuanto
más se aproxime a 1.
Nota: Es importante reiterar que un coeficiente R = 0 no implica
necesariamente que las variables no están relacionadas. Este resultado
solamente indica que no existe una relación lineal, siendo posible encontrar
otro tipo de asociación entre las variables, por ejemplo: cuadrática,
exponencial, logarítmica u otra.
En la mayoría de los casos, el coeficiente de correlación es calculado con base en
los datos obtenidos mediante una muestra y, por lo tanto, lo que hacemos es
estimar el grado de asociación que existe entre dos variables determinadas. Para
ello calculamos el coeficiente de correlación muestral (r):
r = Sxy
Sx * Sy
Donde:
Sxy: es la covarianza de x,y
Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez
14
Sx: es la desviación estándar de x
Sy: es la desviación estándar de y
La covarianza de x,y (Sxy) mide la asociación lineal entre las dos variables,
pudiendo ser negativa, positiva o cero, según el grado y tipo de relación que exista
entre dichas variables. Para efectos de cálculo, es común utilizar la siguiente
fórmula para obtener el valor del coeficiente:
Para realizar el cálculo aplicando la fórmula anterior, se requiere obtener los
siguientes valores:
n: número de observaciones (tamaño de muestra)
∑x : sumatoria de los valores para la variable x
∑y: sumatorio de los valores para la variable y
∑xy: sumatoria de los productos (multiplicación) de los valores de x por y
∑x2: suma de los valores de x elevados al cuadrado
∑y2: suma de los valores de y elevados al cuadrado
Hoy día es común obtener los valores de los coeficientes de correlación y otras
mediciones afines por medio del uso de algún software estadístico o a través de
otros medios electrónicos. Por tanto, lo más importante es conocer las condiciones
en las cuales puede utilizarse cada medida de asociación y la forma en que
pueden interpretarse los valores obtenidos.
3.2 El Diagrama de Dispersión.
Una forma de explorar la existencia de asociación entre dos variables es por
medio de la inspección visual del diagrama de dispersión. Este diagrama (gráfico)
se obtiene al dibujar los puntos de intersección entre los valores de la variable “x”
(en el eje horizontal) y correspondientes valores de “y” (eje vertical). La forma en
que se distribuyen los puntos en el diagrama brindan “pistas” o indicios a cerca de
una posible asociación lineal o de otro tipo entre variables. Asimismo, pueden
indicar la ausencia de relación entre las mismas.
r =
√ [n*∑x2 - (∑x)
2] [n*∑y
2 - (∑y)
2]
n*∑xy - ∑x ∑y
Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez
15
Ejemplo 4: Observe los siguientes diagramas de dispersión:
En el diagrama de la izquierda podríamos trazar una línea recta inclinada y la
mayoría de puntos quedarían cerca de la misma. La situación contraria se da en el
diagrama de la derecha, ya que no sería posible trazar una línea cercana a la
mayoría de puntos. Por tanto, solo es factible la existencia de correlación lineal
entre los valores de “x” y “y” correspondientes al diagrama de la izquierda.
3.3 Interpretación del Coeficiente de Correlación (r).
Al igual que el coeficiente de correlación poblacional (R), su estimador muestral (r)
también asume valores entre -1 y 1: -1 ≤ r ≤ 1. Por tanto, para su interpretación
debe tomarse en cuenta tanto su valor como su signo.
El valor que asume “r” indica el grado o la intensidad de asociación entre las
variables y su signo indica si dicha asociación es directa (cuando es un valor
positivo) o si es una relación inversa (si es negativo). La asociación positiva indica
que los valores bajos de la variable “x” están asociados a valores bajos de la
variable “y”, de manera que conforme aumenta “x” también aumenta “y”. Lo
contrario sucede cuando hay una relación negativa o inversa, en la cual los
valores bajos de la variable “x” están asociados con valores altos de la variable “y”,
es decir, a medida que aumenta “x” disminuye “y”, o viceversa.
Los dos valores extremos indicarían una asociación perfecta entre las dos
variables, ya sea positiva (+1) o negativa (-1). En este sentido, cuanto más
cercano sea el valor de “r” a 1 o -1 mayor es el grado de asociación entre las
variables. Por otra parte, entre más cercano sea el valor de “r” a cero, menor es la
asociación lineal entre las variables.
Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez
16
En relación con los valores intermedios que puede asumir “r” no hay reglas
establecidas para determinar si un valor específico puede considerarse como una
correlación alta o baja, lo cual depende de diferentes aspectos tal como el grado
de asociación que es factible encontrar en el campo o área de conocimiento en
que se realiza la investigación o estudio. De manera orientativa, podrían utilizarse
como referencia las siguientes valoraciones para el valor “r” obtenido:
Valor del coeficente "r" Consideración
Mayor o igual que 0, 80 Muy alta
0,60 a 0,79 Alta
0,40 a 0,59 Moderada
0,20 a 0,39 Baja
Menor que 0,20 Muy baja
Sugerencia: Para comprobar si la correlación entre dos variables es significativa, se recomienda realizar la prueba correspondiente. En el libro de texto (págs. 517 a 520) se brindan ejemplos al respecto. Asimismo, los programas estadísticos cuentan con opciones para el cálculo estos coeficientes y sus respectivas pruebas.
A partir del cálculo del coeficiente de correlación de Pearson podemos verificar la
existencia de asociación lineal entre dos variables. Sin embargo, el hecho que dos
variables estén correlacionadas no implica necesariamente que una sea causa de
la otra, simplemente indica que existe alguna relación entre ambas. Para
comprobar una posible relación causa-efecto tendría que realizarse un análisis de
regresión.
Ejemplo 5: Los siguientes datos corresponden al peso (en kg.) y los niveles de
glucosa en la sangre (mg/100ml.) de 16 hombres adultos:
Peso (x) Glucosa (y) x*y x2 y2
64,0 108 6912,0 4096,0 11664
75,3 109 8207,7 5670,1 11881
73,0 104 7592,0 5329,0 10816
82,1 102 8374,2 6740,4 10404
76,2 105 8001,0 5806,4 11025
95,7 121 11579,7 9158,5 14641
59,4 79 4692,6 3528,4 6241
93,4 107 9993,8 8723,6 11449
82,1 101 8292,1 6740,4 10201
Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez
17
78,9 85 6706,5 6225,2 7225
76,7 99 7593,3 5882,9 9801
82,1 100 8210,0 6740,4 10000
83,9 108 9061,2 7039,2 11664
73,0 104 7592,0 5329,0 10816
64,4 102 6568,8 4147,4 10404
77,6 87 6751,2 6021,8 7569
1237,8 1621,0 126128,1 97178,6 165801
Aplicamos la fórmula para obtener el coeficiente de correlación lineal simple (r):
r = (16*126128,1) - 1237,8*1621 / √(16*97178,6 - 1237,82)*(16*165801 - 16212)
r= 11575,8 / √22708,8*25175 = 11575,8 / √571693033 = 11575,8/23910 = 0,48
A partir del resultado anterior podemos concluir que hay una asociación lineal, que
podríamos considerar moderada, entre el peso y el nivel de glucosa en este grupo
de 16 hombres adultos. Dado que el coeficiente es positivo, dicha relación es
directa, lo cual indica que los pesos altos están asociados con niveles de glucosa
también mayores.
Fuentes Consultadas.
- Daniel, Wayne W. Bioestadística: Base para el Análisis de las Ciencias de la
Salud. 4 edición. Editorial Limusa Wiley. México, 2008.
- Gómez Barrantes, Miguel. Elementos de Estadística Descriptiva. 3º edición.
EUNED. Costa Rica, 2010.
- Lininger, Charles A. y Warwick, Donald P. La Encuesta por Muestreo: Teoría y
Práctica. Quinta edición. Compañía Editorial Continental S.A. de C.V. México,
1985.
Lecturas Recomendadas en el libro “Elementos de Estadística Descriptiva.
- Tema XIII. Prueba de Hipótesis: de la pág. 447 a 457 y de la pág. 469 a 475.
r =
√ [n*∑x2 - (∑x)
2] [n*∑y
2 - (∑y)
2]
n*∑xy - ∑x ∑y
Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez
18
- Tema XIV. Correlación y Regresión, de la pág. 489 a 502.
Como lectura adicional se recomienda leer de la pág. 502 a la 520.