Tema 9

18
Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez Contenido: Introducción I.1 Términos y simbología utilizada en pruebas de hipótesis I.2 Verificación de los supuestos para pruebas paramétricas 1. Pruebas T de Diferencia entre Medias 1.1 Prueba T para Muestras Independientes: Comparación de Promedios. 1.2 Prueba T para Muestras Relacionadas (o Pareadas). 2. Análisis de Varianza de un Factor 3. Coeficiente de Correlación de Pearson 3.1 Cálculo del Coeficiente de Correlacion Lineal Simple (r). 3.2 El Diagrama de Dispersión. 3.3 Interpretación del Coeficiente de Correlación (r). Fuentes Consultadas Lecturas Recomendadas Ejercicios de Autoevaluación Objetivo: Conocer las principales medidas de asociación entre variables. Introducción. En la ficha anterior hicimos referencia a un aspecto de especial importancia en los estudios o investigaciones que tienen como objetivo someter a prueba una hipótesis o supuesto a cerca de las variables indagadas. No obstante que a partir de la experiencia del investigador así como de la observación de los datos

description

Pruebas básicas: variables cuantitativas

Transcript of Tema 9

Page 1: Tema 9

Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez

Contenido:

Introducción

I.1 Términos y simbología utilizada en pruebas de hipótesis

I.2 Verificación de los supuestos para pruebas paramétricas

1. Pruebas T de Diferencia entre Medias 1.1 Prueba T para Muestras Independientes: Comparación de Promedios.

1.2 Prueba T para Muestras Relacionadas (o Pareadas).

2. Análisis de Varianza de un Factor

3. Coeficiente de Correlación de Pearson 3.1 Cálculo del Coeficiente de Correlacion Lineal Simple (r).

3.2 El Diagrama de Dispersión.

3.3 Interpretación del Coeficiente de Correlación (r).

Fuentes Consultadas

Lecturas Recomendadas

Ejercicios de Autoevaluación

Objetivo:

Conocer las principales medidas de asociación entre variables.

Introducción.

En la ficha anterior hicimos referencia a un aspecto de especial importancia en los estudios o investigaciones que tienen como objetivo someter a prueba una hipótesis o supuesto a cerca de las variables indagadas. No obstante que a partir de la experiencia del investigador así como de la observación de los datos

Page 2: Tema 9

Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez

2

obtenidos podría advertirse el cumplimiento o no de un supuesto, desde el punto de vista estadístico (y científico) es necesario realizar una prueba con base en la cual sea posible establecer que el resultado obtenido con base una muestra no es una casualidad, sino que es realmente significativo.

De esa manera, para determinar la significancia de los valores obtenidos en una investigación debe identificarse la prueba más adecuada de acuerdo con el tipo de variables. A nivel general, las pruebas estadísticas podemos clasificarlas en paramétricas y no paramétricas. Las primeras son aplicables principalmente para comprobar hipótesis referentes a variables cuantitativas que cumplen determinados requisitos o supuestos, y las pruebas no paramétricas pueden ser utilizadas en pruebas donde intervienen variables cualitativas así como en los casos en que no se cumplen los requisitos para realizar una prueba paramétrica.

La mayoría de programas estadísticos incluyen opciones para realizar distintos tipos de pruebas de manera automática. Por ello, lo más importante es poder seleccionar una prueba que sea adecuada de acuerdo con los objetivos la investigación y que sea aplicable a los datos disponibles.

Dado que este es un tema muy amplio, lo que pretendemos es brindarle a los/as participantes del curso una breve exposición de las pruebas utilizadas con mayor frecuencia, con el propósito que cuenten con criterios para plantear posibles aplicaciones de las mismas en futuros estudios o proyectos de investigación.

A continuación vamos a revisar algunos términos relacionados con pruebas de hipótesis que servirán como base para el desarrollo de estos últimos temas.

I.1 Términos y Simbología Utilizada en Pruebas de Hipótesis.

Antes de iniciar con la descripción de las principales pruebas paramétricas, es pertinente conocer los términos básicos y la simbología utilizada en las pruebas estadísticas.

Prueba de Hipótesis:

Es un procedimiento que se sigue para decidir a cerca de la aceptación o rechazo de una hipótesis o supuesto.

Hipótesis Nula (Ho):

Es la hipótesis que sometemos a prueba, para tomar la decisión de mantenerla o rechazarla. Generalmente, la hipótesis nula establece una relación de igualdad entre los parámetros o estimadores a contrastar, o propone que el resultado obtenido no va a ser suficientemente alto o bajo (según sea el caso) para poder rechazarla.

Page 3: Tema 9

Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez

3

Hipótesis Alternativa (H1):

La hipótesis alternativa expresa la decisión a la que se llegará si rechazamos la hipótesis nula.

Significancia:

A las pruebas de hipótesis también se les conoce como pruebas de significancia.

Para un/a investigador/ra usualmente es importante que la prueba sea

significativa, es decir, que se rechaza Ho porque hay una diferencia “significativa”

entre el resultado esperado en la muestra y el resultado obtenido. En general, el

concepto de significancia está asociado con el rechazo de la hipótesis nula.

Nivel de Significancia (α):

Cuando trabajamos con muestras siempre existe alguna posibilidad de error. Por

ello también al contrastar o someter a prueba una hipótesis no hay una certeza del

100% con relación al resultado obtenido. Para denominar el nivel de significancia

se utiliza la letra alfa (α) y los valores más comúnmente aceptados para α son 1%

y 5%. Este valor indica la probabilidad de rechazar la hipótesis nula Ho cuando en

realidad es verdadera, lo cual se conoce como error tipo 1:

α = Probabilidad de rechazar Ho siendo cierta = P (Rechazar Ho/Ho cierta)

En el caso que una prueba no resulte significativa, no implica necesariamente que

Ho sea verdadera. Lo que sucede es que la evidencia obtenida es insuficiente para

rechazarla y por ello debemos mantenerla como cierta.

Regla de Decisión:

Una vez definida Ho y el nivel de significancia aceptable para la prueba de

hipótesis, podemos establecer la regla de decisión a partir de la cual vamos a

rechazar o mantener Ho. En la definición de esta regla también interviene el

estadístico o tipo de prueba que vamos a utilizar y su respectiva distribución de

probabilidades. Entre las distribuciones utilizadas con mayor frecuencia están: la

normal, la “t de student”, la chi-cuadrado X2 y la distribución F; entre otras.

Para aplicar la regla de decisión existen diferentes opciones según los medios

disponibles para realizar los cálculos. Si no contamos con un programa o software

estadístico, podemos obtener (manualmente o con calculadora) el valor calculado

con base en los datos de la muestra y luego compararlo con el valor tabular que

Page 4: Tema 9

Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez

4

se obtiene de la distribución de probabilidades para la respectiva prueba. Según lo

que establezca la regla de decisión, rechazaremos Ho si el valor calculado es

menor o mayor al valor tabular.

Si realizamos la prueba de hipótesis utilizando algún programa estadístico, lo

usual es que nos proporcione la probabilidad (p) asociada al valor obtenido con

base en la muestra. En este caso comparamos dicha probabilidad con el nivel de

significancia (α) establecido para la prueba: si la probabilidad es menor o igual a

alfa (p ≤ α) podemos rechazar Ho, y en caso contrario (p ≥ α) se mantiene Ho.

Por lo tanto, para interpretar correctamente el resultado que se obtiene al realizar

una prueba por medio un software estadístico es indispensable saber cuál es el

procedimiento que sigue dicho programa; ya sea a través de las herramientas de

ayuda donde se indican algunos detalles y en otros casos, como el InfoStat, puede

revisarse el manual incluido dentro del mismo programa.

I.2 Verificación de los Supuestos para las Pruebas Paramétricas.

Un aspecto importante a tomar en cuenta cuando elegimos entre diferentes

pruebas, es lo que se conoce como la potencia o eficiencia de la prueba. Este

concepto está relacionado con el grado de certeza con que la prueba nos va a

conducir hacia un resultado verídico y, en general, las pruebas paramétricas son

más potentes que las no paramétricas,

Por lo tanto, cuando un/a investigador/a tiene la opción de elegir entre una prueba

paramétrica y otra no paramétrica, la recomendación es decidirse por la primera

opción. No obstante, antes de aplicarla debe revisar que los datos cumplan los

supuestos o requisitos correspondientes, entre los cuales comúnmente están los

siguientes:

Escala de Medición: Que la variable dependiente sea cuantitativa (escala de intervalo o de razón)

Normalidad: Que los valores de la variable dependiente sigan una distribución

normal o aproximadamente normal (Prueba aplicable: Kolmogorov Smirnov)

Igualdad de Variancias (Homocedasticidad): Que las varianzas de la variable dependiente en los grupos que se comparan sean aproximadamente iguales (Prueba aplicable: Test de Levene)

Page 5: Tema 9

Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez

5

*Nota: En los supuestos anteriores podemos entender por variable dependiente aquella cuyo comportamiento nos interesa analizar en relación con otras variables.

El cumplimiento de los requisitos para aplicar pruebas paramétricas no es

absolutamente rígido. Por ejemplo, en algunos casos podría darse que la variable

dependiente sea categórica (ordinal) pero con una cantidad relativamente grande

de categorías, y en dicho caso sería posible considerarla como una variable

cuantitativa.

Por otra parte, según el comportamiento que muestren los datos, se cuenta con la

opción de realizar transformaciones a los mismos para que su distribución sea

similar a la normal. En esos casos puede trabajarse con alguna transformación de

los datos originales, tal como la raíz cuadrado, el logaritmo u otra.

En otros casos es posible que alguno de los supuestos no se cumpla debido a una

alta variabilidad en los datos. Para solventar esa situación, el/la investigador/ra

debe analizar la pertinencia de excluir los casos que presentan valores extremos,

o bien podría agrupar los casos en grupos que sean internamente más

homogéneos o similares.

Si definitivamente no es posible cumplir con los supuestos para aplicar una prueba

paramétrica debe optarse por una prueba no paramétrica que sea equivalente y

permita contrastar la hipótesis del estudio.

1. Pruebas T para Comparación entre Medias.

En el tema anterior indicamos que la distribución “T de Student” puede utilizarse

como alternativa a la distribución normal, para los casos en que se trabaja con

muestras y no conocemos el valor de la variancia poblacional. Una aplicación de la

misma, utilizada con alta frecuencia, corresponde a las pruebas para verificar

diferencias entre promedios; tanto para muestras independientes así como para

muestras relacionadas.

1.1 Prueba T para Muestras Independientes: Comparación de Promedios.

Por medio de la prueba T para muestras independientes se pueden comparar las medias o promedios muestrales de dos grupos de casos. Lo ideal es que la asignación de los sujetos o unidades a los grupos haya sido realizada de forma aleatoria, de manera que ningún otro factor influya en los resultados obtenidos, sino solamente el factor (o tratamiento) que requerimos someter a prueba.

Supuestos:

Page 6: Tema 9

Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez

6

Para la prueba t con igualdad de variancias, las observaciones deben ser muestras aleatorias independientes de distribuciones normales con la misma variancia de población.

En caso de variancias desiguales, las observaciones deben ser muestras aleatorias independientes de distribuciones normales.

Al examinar las distribuciones gráficamente, debe comprobarse que son simétricas y que no contienen valores atípicos.

Al realizar esta prueba pueden presentarse las siguientes condiciones:

a. Comparación cuando las variancias poblacionales son conocidas:

Si tenemos dos poblaciones con medias µ1 y µ2 y con variancias σ1 y σ2, y necesitamos comprobar si sus medias son iguales o no, la hipótesis nula sería:

Ho: µ1 = µ2 (lo cual implica que µ1 - µ2 = 0)

Y, la hipótesis alternativa en este caso es:

H1: µ1 = µ2

Para someter a prueba la hipótesis nula, tomaríamos una muestra n1 del primer grupo o población y una muestra n2 del segundo grupo, y con base en los datos obtenidos calculamos sus respectivos promedios muestrales. Si las muestras son grandes, o si sabemos que las poblaciones de donde fueron tomadas son normales, entonces los promedios y la diferencia entre ellos también se distribuyen normalmente con la siguiente media y variancia:

µd = µ1 - µ2

σ2d = σ1

2/n1 + σ22/n2

Con base en lo anterior, podemos realizar la prueba utilizando el estadístico Zc que luego comparamos con el valor correspondiente de la distribución normal, para el nivel de significancia establecido.

b. Comparación cuando las variancias poblacionales no son conocidas y las muestras son pequeñas:

zc = d - µd = X1 - X2

σd √ σ12/n1 + σ2

2/n2

Page 7: Tema 9

Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez

7

Cuando las muestras son pequeñas pero las poblaciones de donde fueron extraídas se distribuyen normalmente, y a pesar que las variancias son desconocidas podemos suponer que son iguales, la prueba de igualdad de medias puede realizarse utilizando un estadístico que sigue la distribución “T de Student”.

En primera instancia necesitamos calcular S2w que corresponde a la variancia

combinada o variancia promedio de las dos muestras:

El denominador de esta última forma (n1+n2-2) representa el número de grados de libertad con que se distribuye el estadístico tc y con base en los cuales buscamos en la la distribubión T de Student el valor tabular correspondiente (tt) al nivel de significancia elegido para la prueba de hipótesis.

Ejemplo 1: Supongamos que un investigador desee saber sí la tensión afecta al nivel de aprovechamiento académico en unas pruebas de solución de problemas. Para ello se registraron las puntuaciones obtenidas por dos grupos de 15 alumnos matriculados en un curso de cálculo. El grupo 1 tomó la prueba bajo ninguna tensión y el grupo 2 contestó la prueba bajo condiciones de tensión, obteniéndose los siguientes resultados: n1 = 15, n2 = 15

X1 = 14, X2 = 10

S2w = 0,714

La hipótesis nula en este caso es Ho: µ1 = µ2, la cual vamos a contrastar con la hipótesis alternativa H1: µ1 = µ2 .

Calculamos el estadístico:

tc = 14 – 10 / √0,714 = 4/0,85 = 4,71

tc = X1 - X2

√ S2w /n1 + S

2w /n2

S2w = (n1-1)* S

21 + (n2-1)*S

22

n1 + n2 - 2

Page 8: Tema 9

Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez

8

Para verificar si la diferencia encontrada es suficiente para concluir que existe

diferencia significativa entre las puntuaciones promedio de los dos grupos,

debemos comparar el valor calculado con el valor de la distribución “t de student”

para el respectivo nivel de significancia (en este caso α = 0,05) y los grados de

libertad (15+15-2 = 28) que corresponden.

En este ejemplo, como la diferencia entre los promedios podría ser tampoco

negativa como positiva (prueba de dos colas), debemos dividir el nivel de

significancia entre dos (α/2 = 0,005/2 = 0,0025) y luego buscar en la tabla de la

distribución de probabilidades acumuladas “T de Student” la columna

correspondiente a 1-α/2 = 0,975 y ubicar su intersección con la fila para 28 grados

de libertad:

g.l 0,995 0,99 0,975

27

28 2,76 2,47 2,05

29

Dado que el valor calculado (tc = 4,71) es mayor que el valor tabular (tt = 2,05),

podemos rechazar la hipótesis nula y concluir que existe una diferencia

significativa entre las puntuaciones promedio obtenidas por los estudiantes no

expuestos a tensión con respecto a los estudiantes que si estaban bajo tensión.

1.2 Prueba T para Muestras Relacionadas (Pareadas).

La prueba T para muestras relacionadas compara las medias de dos variables que fueron medidas para un solo grupo. El procedimiento calcula las diferencias (d) entre los valores de las dos variables de cada caso y contrasta si la media de dichas diferencias es distinta de cero.

Para realizar la prueba debemos obtener la diferencia promedio entre cada pareja de valores y su respectiva desviación estándar:

d = ∑ d/n

S2d = 1/(n-1) [∑d2- (∑d)2/n] y Sd = √S2

d

Con base en los valores anteriores se obtiene el estadístico:

Page 9: Tema 9

Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez

9

Supuestos:

Las observaciones de cada par deben hacerse en las mismas condiciones

Las diferencias entre las medias deben estar normalmente distribuidas

Las varianzas de cada variable pueden ser iguales o desiguales.

Ejemplo2: Un grupo de 9 personas con problemas de obesidad siguieron una dieta baja en calorías durante 12 semanas para comprobar si hay una disminución significativa en el peso con dicho tratamiento. A continuación se presentan los datos:

Peso antes Peso después Diferencias

del trabamiento del tratamiento d d2

117,3 83,3 34 1156

114,4 85,9 28,5 812,25

98,6 75,8 22,8 519,84

104,3 82,9 21,4 457,96

105,4 82,3 23,1 533,61

100,4 77,7 22,7 515,29

81,7 62,7 19 361

89,5 69 20,5 420,25

78,2 63,9 14,3 204,49

206,3 4980,7

Lo se requiere comprobar es que el peso promedio de las personas antes de haber seguido la dieta (µ1) sea significativamente mayor al peso después del tratamiento (µ2). Por tanto, las hipótesis pueden plantearse así:

Ho: µ1 = µ2

H1: µ1 ˃ µ2

Para contrastar la hipótesis nula realizamos los cálculos:

d = 206,3 / 9 = 22,9

tc = d

Sd / √n

Page 10: Tema 9

Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez

10

S2d = 1/8 * [4980,7- (-206,3)2/9] = 31,5

Sd = √31,5 = 5,6

Tc = 22,9/ (5,6/√9) = 22,9/1,9 = 12,05

En este caso debemos buscar en la tabla de la distribución “T de Student” el valor correspondiente a n-1 = 8 grados de libertad y α = 0,005 (es decir para 1-α= 0,95) por tratarse de una prueba para una cola. El valor a comparar es 1,86 y dado que tc = 12,05 es evidentemente mayor, se rechaza la hipótesis nula y puede concluirse que la dieta fue eficaz para disminuir el peso de las personas.

2. Análisis de Variancia de Un Factor: Comparación para Más de Dos

Medias.

El Análisis de Variancia (Andeva) de un factor se utiliza para contrastar la hipótesis de que varias medias son iguales, por ello puede considerarse como una extensión de la prueba t para dos muestras independientes y es de gran utilidad en el análisis estadístico.

Si además de determinar que existen diferencias entre las medias se requiere saber cuáles medias difieren entre sí, existen dos tipos de contrastes para comparar medias: a priori y post hoc. Los contrastes a priori se plantean antes de ejecutar el experimento y los contrastes post hoc se realizan después de haber llevado a cabo el experimento. La mayoría de programas estadísticos incluyen opciones dentro del procedimiento de Análisis de Variancia para aplicar dichas pruebas.

Supuestos:

Cada grupo es una muestra aleatoria independiente procedente de una población normal.

El análisis de varianza es robusto a las desviaciones de la normalidad, aunque los datos deberán ser simétricos.

Los grupos deben proceder de poblaciones con varianzas iguales.

Dado que el análisis de variancia es un tema bastante amplio y requiere el estudio previo de algunos conceptos, no será desarrollado a fondo en este curso, pero es posible conseguir una gran cantidad de materiales sobre el mismo, tanto en libros de texto así como en Internet y otras fuentes.

Ejemplo 3: Suponga que se realizó una investigación experimental para comparar el rendimiento académico de tres grupos de estudiantes en una tarea de solución

Page 11: Tema 9

Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez

11

de problemas. Un grupo trabaja dentro de una condición alta de tensión, el segundo bajo condiciones moderadas y el tercero sin ninguna tensión. Los resultados son los siguientes:

Primero debe obtenerse la suma total de los cuadrados de las puntuaciones individuales. Se calcula aplicando la fórmula:

Luego, debemos calcular la suma total de los cuadrados que resulta de las desviaciones de las medias de los grupos con la media principal, que se conoce como la suma de los cuadrados entre los grupos y se calcula mediante la siguiente fórmula:

Page 12: Tema 9

Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez

12

Como tercer paso se procede a calcular la suma total de los cuadrados que se deba a las desviaciones de las puntuaciones de cada individuo con la media de su propio grupo. Este índice se conoce como la suma de los cuadrados dentro de los grupos y puede calcularse restando la suma de los cuadrados entre los grupos a la suma total de los cuadrados:

En el siguiente cuadro Andeva aparece el resumen de los resultados anteriores.

La columna “df” muestra los grados de libertad correspondientes a grupos (3-1 =2) y al total de observaciones (10-1 + 10-1 + 10-1= 27) y a la variancia total (30-1 = 29). En la columna identificada por “MS” observamos el cuadrado medio entre grupos y el cuadrado medio dentro de grupos, los cuales se obtienen al dividir la respectiva suma de cuadrados “SS” entre los correspondientes grados de libertad. Con base en los cálculos anteriores se obtiene la razón F = 8.14.

Para verificar si el valor F es significativo, se procede a compararlo con el valor tabular correspondiente de la distribución F, en este caso para 2 y 27 grados de libertad. En la tabla encontraríamos que dicho valor es de 3.35 para un nivel de significancia del 1% (α = 0,001), y dado que el valor calculado F = 8.14 es mayor, podemos rechazar la hipótesis de igualdad de medias entre los tres grupos.

3. Coeficiente de Correlación de Pearson.

Un coeficiente de correlación es una medida de la intensidad de asociación entre

dos variables. Además, nos puede indicar la dirección o sentido en que se

relacionan; ya sea de manera positiva o directa, o bien de forma negativa o

inversa.

En este tema vamos a estudiar un tipo de asociación específica, que corresponde

a la correlación lineal simple. Se denomina simple porque es aplicable a las

situaciones en que analizamos la asociación solamente entre dos variables,

postulándose que dicha relación es lineal (puede representarse por medio de una

línea recta), no obstante, es posible extender estos conceptos a situaciones en

Page 13: Tema 9

Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez

13

que intervienen más de dos variables (correlación múltiple) así como a relaciones

no lineales.

3.1 Cálculo del Coeficiente de Correlacion Lineal Simple (r).

Para verificar si existe relación lineal entre dos variables (X, Y) se utiliza un parámetro que mida la fuerza de asociación lineal entre ambas variables. La medida de asociación lineal más frecuentemente utilizada entre dos variables cuantitativas es el coeficiente de correlación lineal de Pearson (R), el cual está basado en la covarianza de X, Y. Este coeficiente asume valores que pueden variar entre −1 y 1, los cuales pueden interpretarse según las siguientes pautas generales:

• Si R = 1: existe una correlación positiva perfecta entre X, Y

• Si R = -1: existe una correlación negativa perfecta entre X, Y

• Si R = 0: no existe correlación lineal, pudiendo existir otro tipo de relación

• Si −1 ≤ R ≤ 0: existe correlación negativa y dependencia inversa, mayor cuanto

más se aproxime a - 1.

• Si 0 ≤ R ≤ 1: existe correlación positiva, y dependencia directa, mayor cuanto

más se aproxime a 1.

Nota: Es importante reiterar que un coeficiente R = 0 no implica

necesariamente que las variables no están relacionadas. Este resultado

solamente indica que no existe una relación lineal, siendo posible encontrar

otro tipo de asociación entre las variables, por ejemplo: cuadrática,

exponencial, logarítmica u otra.

En la mayoría de los casos, el coeficiente de correlación es calculado con base en

los datos obtenidos mediante una muestra y, por lo tanto, lo que hacemos es

estimar el grado de asociación que existe entre dos variables determinadas. Para

ello calculamos el coeficiente de correlación muestral (r):

r = Sxy

Sx * Sy

Donde:

Sxy: es la covarianza de x,y

Page 14: Tema 9

Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez

14

Sx: es la desviación estándar de x

Sy: es la desviación estándar de y

La covarianza de x,y (Sxy) mide la asociación lineal entre las dos variables,

pudiendo ser negativa, positiva o cero, según el grado y tipo de relación que exista

entre dichas variables. Para efectos de cálculo, es común utilizar la siguiente

fórmula para obtener el valor del coeficiente:

Para realizar el cálculo aplicando la fórmula anterior, se requiere obtener los

siguientes valores:

n: número de observaciones (tamaño de muestra)

∑x : sumatoria de los valores para la variable x

∑y: sumatorio de los valores para la variable y

∑xy: sumatoria de los productos (multiplicación) de los valores de x por y

∑x2: suma de los valores de x elevados al cuadrado

∑y2: suma de los valores de y elevados al cuadrado

Hoy día es común obtener los valores de los coeficientes de correlación y otras

mediciones afines por medio del uso de algún software estadístico o a través de

otros medios electrónicos. Por tanto, lo más importante es conocer las condiciones

en las cuales puede utilizarse cada medida de asociación y la forma en que

pueden interpretarse los valores obtenidos.

3.2 El Diagrama de Dispersión.

Una forma de explorar la existencia de asociación entre dos variables es por

medio de la inspección visual del diagrama de dispersión. Este diagrama (gráfico)

se obtiene al dibujar los puntos de intersección entre los valores de la variable “x”

(en el eje horizontal) y correspondientes valores de “y” (eje vertical). La forma en

que se distribuyen los puntos en el diagrama brindan “pistas” o indicios a cerca de

una posible asociación lineal o de otro tipo entre variables. Asimismo, pueden

indicar la ausencia de relación entre las mismas.

r =

√ [n*∑x2 - (∑x)

2] [n*∑y

2 - (∑y)

2]

n*∑xy - ∑x ∑y

Page 15: Tema 9

Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez

15

Ejemplo 4: Observe los siguientes diagramas de dispersión:

En el diagrama de la izquierda podríamos trazar una línea recta inclinada y la

mayoría de puntos quedarían cerca de la misma. La situación contraria se da en el

diagrama de la derecha, ya que no sería posible trazar una línea cercana a la

mayoría de puntos. Por tanto, solo es factible la existencia de correlación lineal

entre los valores de “x” y “y” correspondientes al diagrama de la izquierda.

3.3 Interpretación del Coeficiente de Correlación (r).

Al igual que el coeficiente de correlación poblacional (R), su estimador muestral (r)

también asume valores entre -1 y 1: -1 ≤ r ≤ 1. Por tanto, para su interpretación

debe tomarse en cuenta tanto su valor como su signo.

El valor que asume “r” indica el grado o la intensidad de asociación entre las

variables y su signo indica si dicha asociación es directa (cuando es un valor

positivo) o si es una relación inversa (si es negativo). La asociación positiva indica

que los valores bajos de la variable “x” están asociados a valores bajos de la

variable “y”, de manera que conforme aumenta “x” también aumenta “y”. Lo

contrario sucede cuando hay una relación negativa o inversa, en la cual los

valores bajos de la variable “x” están asociados con valores altos de la variable “y”,

es decir, a medida que aumenta “x” disminuye “y”, o viceversa.

Los dos valores extremos indicarían una asociación perfecta entre las dos

variables, ya sea positiva (+1) o negativa (-1). En este sentido, cuanto más

cercano sea el valor de “r” a 1 o -1 mayor es el grado de asociación entre las

variables. Por otra parte, entre más cercano sea el valor de “r” a cero, menor es la

asociación lineal entre las variables.

Page 16: Tema 9

Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez

16

En relación con los valores intermedios que puede asumir “r” no hay reglas

establecidas para determinar si un valor específico puede considerarse como una

correlación alta o baja, lo cual depende de diferentes aspectos tal como el grado

de asociación que es factible encontrar en el campo o área de conocimiento en

que se realiza la investigación o estudio. De manera orientativa, podrían utilizarse

como referencia las siguientes valoraciones para el valor “r” obtenido:

Valor del coeficente "r" Consideración

Mayor o igual que 0, 80 Muy alta

0,60 a 0,79 Alta

0,40 a 0,59 Moderada

0,20 a 0,39 Baja

Menor que 0,20 Muy baja

Sugerencia: Para comprobar si la correlación entre dos variables es significativa, se recomienda realizar la prueba correspondiente. En el libro de texto (págs. 517 a 520) se brindan ejemplos al respecto. Asimismo, los programas estadísticos cuentan con opciones para el cálculo estos coeficientes y sus respectivas pruebas.

A partir del cálculo del coeficiente de correlación de Pearson podemos verificar la

existencia de asociación lineal entre dos variables. Sin embargo, el hecho que dos

variables estén correlacionadas no implica necesariamente que una sea causa de

la otra, simplemente indica que existe alguna relación entre ambas. Para

comprobar una posible relación causa-efecto tendría que realizarse un análisis de

regresión.

Ejemplo 5: Los siguientes datos corresponden al peso (en kg.) y los niveles de

glucosa en la sangre (mg/100ml.) de 16 hombres adultos:

Peso (x) Glucosa (y) x*y x2 y2

64,0 108 6912,0 4096,0 11664

75,3 109 8207,7 5670,1 11881

73,0 104 7592,0 5329,0 10816

82,1 102 8374,2 6740,4 10404

76,2 105 8001,0 5806,4 11025

95,7 121 11579,7 9158,5 14641

59,4 79 4692,6 3528,4 6241

93,4 107 9993,8 8723,6 11449

82,1 101 8292,1 6740,4 10201

Page 17: Tema 9

Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez

17

78,9 85 6706,5 6225,2 7225

76,7 99 7593,3 5882,9 9801

82,1 100 8210,0 6740,4 10000

83,9 108 9061,2 7039,2 11664

73,0 104 7592,0 5329,0 10816

64,4 102 6568,8 4147,4 10404

77,6 87 6751,2 6021,8 7569

1237,8 1621,0 126128,1 97178,6 165801

Aplicamos la fórmula para obtener el coeficiente de correlación lineal simple (r):

r = (16*126128,1) - 1237,8*1621 / √(16*97178,6 - 1237,82)*(16*165801 - 16212)

r= 11575,8 / √22708,8*25175 = 11575,8 / √571693033 = 11575,8/23910 = 0,48

A partir del resultado anterior podemos concluir que hay una asociación lineal, que

podríamos considerar moderada, entre el peso y el nivel de glucosa en este grupo

de 16 hombres adultos. Dado que el coeficiente es positivo, dicha relación es

directa, lo cual indica que los pesos altos están asociados con niveles de glucosa

también mayores.

Fuentes Consultadas.

- Daniel, Wayne W. Bioestadística: Base para el Análisis de las Ciencias de la

Salud. 4 edición. Editorial Limusa Wiley. México, 2008.

- Gómez Barrantes, Miguel. Elementos de Estadística Descriptiva. 3º edición.

EUNED. Costa Rica, 2010.

- Lininger, Charles A. y Warwick, Donald P. La Encuesta por Muestreo: Teoría y

Práctica. Quinta edición. Compañía Editorial Continental S.A. de C.V. México,

1985.

Lecturas Recomendadas en el libro “Elementos de Estadística Descriptiva.

- Tema XIII. Prueba de Hipótesis: de la pág. 447 a 457 y de la pág. 469 a 475.

r =

√ [n*∑x2 - (∑x)

2] [n*∑y

2 - (∑y)

2]

n*∑xy - ∑x ∑y

Page 18: Tema 9

Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez

18

- Tema XIV. Correlación y Regresión, de la pág. 489 a 502.

Como lectura adicional se recomienda leer de la pág. 502 a la 520.