Seminario 9

53
Seminario 9: Correlación.

Transcript of Seminario 9

Page 1: Seminario 9

Seminario 9:Correlación.

Page 2: Seminario 9

Correlación: • La correlación es la relación o dependencia que existe entre dos variables o

cambio sistemático en las puntuaciones de dos variables de intervalo/razón.

Coeficiente de Correlación: • El coeficiente de correlación es el estadístico que cuantifica la correlación, la

relación, entre dos variables:

- r de Pearson

- Rho de Spearman

Page 3: Seminario 9

Usando la base de datos obesidad.sav explorar la correlación entre las variables peso y glucemia. Comentar los resultados.

Ejercicio 1:

Page 4: Seminario 9

Paso 1: Descargamos la base de datos Obesidad.sav de la enseñanza virtual

Page 5: Seminario 9

Esta es la base de datos de la que vamos a obtener las distintas variables y todos los datos

Page 6: Seminario 9

Paso 2: Abrimos un nuevo conjunto de datos en SPSS para trabajar en él

Page 7: Seminario 9

Paso 3: Copiamos los datos de las variables que deseamos de la base de datos Obesidad.sav y los pegamos en nuestro nuevo conjunto de datos

Copiamos la variable peso

Y la pegamos en nuestra

nueva base de datos

Clickamos con el botón derecho del ratón para que

aparezca la ventana emergente

Page 8: Seminario 9

Hacemos lo mismo con la variable glucemia:

Copiamos la variable

Y la pegamos en nuestra

nueva base de datos

Page 9: Seminario 9

Aquí vemos definidas las variables peso y glucemia:

Page 10: Seminario 9

Paso 4: A continuación, vamos a hacer un gráfico de dispersión para tener una idea acerca de lo que nos debe salir

Page 11: Seminario 9

Seleccionar el gráfico que queremos ver. En

este caso será un gráfico de Dispersión

A continuación del paso anterior, nos aparece esta ventana emergente en la que tenemos que:

2ºArrastramos el gráfico

que deseamos a la “Vista previa”

Page 12: Seminario 9

Aceptamos

A continuación del paso anterior, nos aparece esta ventana emergente en la que tenemos que:

3ºArrastramos las

variables a los ejes deseados

Page 13: Seminario 9

En la pestaña de resultados podemos ver el gráfico de dispersión que SPSS ha creado:

Page 14: Seminario 9

Paso 5: Ahora vamos a realizar las pruebas de normalidad de las variables para determinar si usar una prueba paramétrica (r de

Pearson) o no paramétrica (Rho de Spearman)

Page 15: Seminario 9

Tras el paso anterior, aparece en esta ventana emergente en la cual vamos a hacer Click en “gráficos”

1ºPosteriormente, aparece esta otra ventana emergente en la que vamos a seleccionar: - Gráficos de normalidad con pruebas - Descriptivos de: tallo y hojas

(seleccionado por defecto) e histograma

Page 16: Seminario 9

Para analizar la normalidad de la variable glucemia (que es la que vamos a hacer en primer lugar), vamos a hacerlo tanto analíticamente como

gráficamente (mediante gráficos de Box-Plot e “Histogramas”). Nosotros solo vamos a interpretar los datos pues todo aparece en la pestaña de

resultados de SPSS

Page 17: Seminario 9

Analíticamente

Vamos a fijarnos en la prueba de

Kolmogorov-Smirnov pues N > 50

Como el valor de significación estadística es 0 y nuestro pvalor es de 0,05: 0 < 0,05, rechazamos Ho (los datos siguen una distribución normal) y aceptamos H1 (los datos no siguen una distribución normal)

pues son excluyentes

Page 18: Seminario 9

Gráficamente

Histograma Box-Plot

Page 19: Seminario 9

Seleccionamos las mismas opciones que

antes

Ahora vamos a hacer lo mismo para la variable “Peso”:

Seleccionamos la variable peso1º

Page 20: Seminario 9

Analíticamente

Vamos a fijarnos en la prueba de

Kolmogorov-Smirnov pues N > 50

Como el valor de significación estadística es 0,003 y nuestro pvalor

es de 0,05: 0,003 < 0,05, rechazamos Ho (los datos siguen

una distribución normal) y aceptamos H1 (los datos no siguen una distribución normal) pues son

Page 21: Seminario 9

Gráficamente

Histograma Box-Plot

Page 22: Seminario 9

Paso 6: Ahora que sabemos que ambas variables no siguen una distribución normal, vamos a utilizar una prueba no

paramétrica como es Rho de Spearman ya que esta no exige que las variables se distribuyan normalmente

Page 23: Seminario 9
Page 24: Seminario 9

En primer lugar, seleccionamos las variables

en las que buscamos una correlación

En segundo lugar, seleccionamos la prueba que queremos realizar: Spearman

Page 25: Seminario 9

Paso 7: Por último, vamos a analizar los resultados que nos han aparecido en la tabla de resultados al darle a “Aceptar” en el paso anterior

Page 26: Seminario 9

La tabla que se nos presenta es una tabla con dos variables: peso y glucemia en ayunas. Como observamos, el cuadro 1 y 4 tienen coeficientes de correlación de 1 pues la relación de una variable consigo misma es máxima. Sin embargo, como vemos, el número de individuos de nuestra muestra difiere pues en la variable glucemia hay datos perdidos (suponemos que son individuos a los que por una razón u otra no se les ha podido medir el nivel de glucemia).

1

4

2

3

Page 27: Seminario 9

Por otro lado, vemos que tanto el cuadro 2 como el 3 son iguales y que estos manifiestan la correlación entre la variable peso y glucemia.

N = 120 pues el número de individuos en los cuales se han podido medir las dos variables es 110.

Coeficiente de correlación = 0,485. Esto quiere decir que ambas variables presentan una correlación moderada.**

1

4

2

3

**Los asteriscos relacionan el valor del coeficiente de correlación con un dato significativo que hay bajo la tabla: la correlación es significativa en el nivel 0,01. Esto quiere decir que si en lugar de aceptar un pvalor de 0,05 lo hubiésemos aceptado de 0,01 también habríamos acertado.

Page 28: Seminario 9

Por otro lado, vemos que tanto el cuadro 2 como el 3 son iguales y que estos manifiestan la correlación entre la variable peso y glucemia.

Significación estadística (bilateral) = 0. Como 0 < 0,05 entonces rechazamos la hipótesis nula (Ho: no hay correlación entre el peso y la glucemia) y aceptamos la hipótesis alternativa (H1: hay correlación entre el peso y laglucemia).

1

4

2

3

Page 29: Seminario 9

Usando la base de datos obesidad.sav explorar la correlación entre las variables presión arterial sistólica y colesterol. Comentar los resultados.

Ejercicio 2:

Page 30: Seminario 9

Paso 1: Abrimos un nuevo conjunto de datos en SPSS

Page 31: Seminario 9

Paso 2: Copiamos los datos de las variables que deseamos de la base de datos Obesidad.sav y los pegamos en nuestro nuevo conjunto de datos

Copiamos la variable colesterol

Y la pegamos en nuestra

nueva base de datos

Page 32: Seminario 9

Hacemos lo mismo con la variable presión arterial sistólica (tas):

Copiamos la variable

Y la pegamos en nuestra

nueva base de datos

Page 33: Seminario 9

Aquí vemos definidas las variables colesterol y presión arterial sistólica:

Page 34: Seminario 9

Paso 3: A continuación, vamos a hacer un gráfico de dispersión para tener una idea acerca de lo que nos debe salir

Page 35: Seminario 9

Seleccionar el gráfico que queremos ver. En

este caso será un gráfico de Dispersión

A continuación del paso anterior, nos aparece esta ventana emergente en la que tenemos que:

2ºArrastramos el gráfico

que deseamos a la “Vista previa”

Page 36: Seminario 9

Aceptamos

A continuación del paso anterior, nos aparece esta ventana emergente en la que tenemos que:

3ºArrastramos las

variables a los ejes deseados

Page 37: Seminario 9

En la pestaña de resultados podemos ver el gráfico de dispersión que SPSS ha creado:

Page 38: Seminario 9

Paso 4: Ahora vamos a realizar las pruebas de normalidad de las variables para determinar si usar una prueba paramétrica (r de

Pearson) o no paramétrica (Rho de Spearman)

Page 39: Seminario 9

Tras el paso anterior, aparece en esta ventana emergente en la cual vamos a hacer Click en “gráficos”

1ºPosteriormente, aparece esta otra ventana emergente en la que vamos a seleccionar: - Gráficos de normalidad con pruebas - Descriptivos de: tallo y hojas

(seleccionado por defecto) e histograma

Page 40: Seminario 9

Para analizar la normalidad de la variable colesterol (que es la que vamos a hacer en primer lugar), vamos a hacerlo tanto analíticamente como

gráficamente (mediante gráficos de Box-Plot e “Histogramas”). Nosotros solo vamos a interpretar los datos pues todo aparece en la pestaña de

resultados de SPSS

Page 41: Seminario 9

Analíticamente

Vamos a fijarnos en la prueba de

Kolmogorov-Smirnov pues N > 50

Como el valor de significación estadística es 0,2 y nuestro pvalor es de 0,05: 0,2 > 0,05, aceptamos Ho (los datos siguen una distribución

normal) y rechazamos H1 (los datos no siguen una distribución normal)

pues son excluyentes

Page 42: Seminario 9

Gráficamente

Histograma Box-Plot

Page 43: Seminario 9

Seleccionamos las mismas opciones que

antes

Ahora vamos a hacer lo mismo para la variable “Tensión arterial sistólica”:

Seleccionamos la variable tensión1º

Page 44: Seminario 9

Analíticamente

Vamos a fijarnos en la prueba de

Kolmogorov-Smirnov pues N > 50

Como el valor de significación estadística es 0 y nuestro pvalor es de 0,05: 0 < 0,05, rechazamos Ho (los datos siguen una distribución normal) y aceptamos H1 (los datos no siguen una distribución normal)

pues son excluyentes

Page 45: Seminario 9

Gráficamente

Histograma Box-Plot

Page 46: Seminario 9

Paso 5: Ahora que sabemos que una variable sigue una distribución normal y la otra no, vamos a utilizar una prueba no

paramétrica como es Rho de Spearman ya que esta no exige que las variables se distribuyan normalmente

Page 47: Seminario 9
Page 48: Seminario 9

En primer lugar, seleccionamos las variables

en las que buscamos una correlación

En segundo lugar, seleccionamos la prueba que queremos realizar: Spearman

Page 49: Seminario 9

Paso 6: Por último, vamos a analizar los resultados que nos han aparecido al darle a “Aceptar” en el paso anterior en la tabla de resultados

Page 50: Seminario 9

La tabla que se nos presenta es una tabla con dos variables: colesterol y tensión arterial sistólica. Como observamos el cuadro 1 y 4 tienen coeficientes de correlación de 1 pues la relación de una variable consigo misma es máxima. Sin embargo, como vemos, el número de individuos de nuestra muestra difiere pues en la variable colesterol hay datos perdidos (suponemos que son individuos a los que por una razón u otra no se les ha podido medir el nivel de colesterol).

1

4

2

3

Page 51: Seminario 9

Por otro lado, vemos que tanto el cuadro 2 como el 3 son iguales y que estos manifiestan la correlación entre la variable colesterol y tensión.

N = 105 pues el número de individuos en los cuales se han podido medir las dos variables es 105.

Coeficiente de correlación = 0,263. Esto quiere decir que ambas variables presentan una correlación baja.**

1

4

2

3

**Los asteriscos relacionan el valor del coeficiente de correlación con un dato significativo que hay bajo la tabla: la correlación es significativa en el nivel 0,01. Esto quiere decir que si en lugar de aceptar un pvalor de 0,05 lo hubiésemos aceptado de 0,01 también habríamos acertado.

Page 52: Seminario 9

Por otro lado, vemos que tanto el cuadro 2 como el 3 son iguales y que estos manifiestan la correlación entre la variable colesterol y tensión.

Significación estadística (bilateral) = 0,007. Como 0,007<0,05 entonces rechazamos la hipótesis nula (Ho: no hay correlación entre el colesterol y la tensión arterial sistólica) y aceptamos la hipótesis alternativa (H1: hay correlación entre el colesterol y la tensión arterial sistólica).

1

4

2

3

Page 53: Seminario 9