Análisis de-varianza-de-un-factor

45
PRÁCTICAS ESTADÍSTICA Curso de formación adicional 2011 Prof. María José Ponce Darós.

Transcript of Análisis de-varianza-de-un-factor

PRÁCTICAS ESTADÍSTICA

Curso de formación adicional 2011

Prof. María José Ponce Darós.

Recordatorio:Recordatorio:

2 variables categóricas (ordinales o nominales):

Prueba de Chi-cuadrado (tabla de contingencia 2x2 o IxJ).

2 variables categóricas (ordinales o nominales):

Prueba de Chi-cuadrado (tabla de contingencia 2x2 o IxJ).

1 variable categórica + 1 variable cuantitativa:

Prueba t (variable categórica con dos categorías o modalidades). Análisis de varianza (variable categórica con 3 o más categorías).

1 variable categórica + 1 variable cuantitativa:

Prueba t (variable categórica con dos categorías o modalidades). Análisis de varianza (variable categórica con 3 o más categorías).

2 variables cuantitativas:

Pruebas: Correlación y regresión.

2 variables cuantitativas:

Pruebas: Correlación y regresión.

ANÁLISIS DE VARIANZA:

Variable cuantitativa + variable cualitativa con 3 o más categorías.

- Análisis de varianza de un factor (entre-sujetos: grupos independientes).

- Análisis de varianza de medidas repetidas (intra-sujetos: grupos relacionados).

- Análisis de varianza factorial.

Análisis de varianza de un factor:

Cuando hay un factor o variable independiente que agrupa a los sujetos en grupos o muestras independientes, y queremos saber si existen diferencias entre las medias de esos grupos en una variable cuantitativa.

Variable independiente: cualitativa. Variable dependiente: cuantitativa.

Ejemplo: queremos saber si el tipo de familia en que vive el alumno afecta a su rendimiento en matemáticas.

Tipo de familia: variable cualitativa con 5 categorías. Rendimiento en matemáticas: variable cuantitativa.

Menú ANALIZAR → comparar medias → ANOVA de un factor.

Variable dependiente.Variable independiente o factor.

Descriptivos

Pruebas a posteriori (o post-hoc)

Variable dependiente: razonamiento numérico. Variable independiente o factor: tipo de familia.

Opciones: - Pedir los descriptivos por grupos, lo que ofrece

información sobre la media y la desviación típica de cada grupo.

- La homogeneidad de varianzas, mediante la prueba de Levene que ya vimos en las pruebas t.

- Un gráfico de medias. - Pruebas a posteriori (o post-hoc) adecuadas.

Resultados del ANOVA entre-sujetos: homogeneidad de varianzas:

Prueba de homogeneidad de varianzas

rendimiento matemáticas

2,833 4 176 ,026

Estadísticode Levene gl1 gl2 Sig.

Como puede apreciarse la prueba de homogeneidad de varianzas resulta estadísticamente significativa (p< 0.05) por lo que las varianzas de los distintos grupos son distintas entre sí, y no se cumple el supuesto de homogeneidad de varianzas.

Resultados del ANOVA entre-sujetos: prueba F del ANOVA:

ANOVA

rendimiento matemáticas

21,950 4 5,488 6,611 ,000

146,098 176 ,830

168,048 180

Inter-grupos

Intra-grupos

Total

Suma decuadrados gl Media cuadrática F Sig.

La prueba de ANOVA (F) vale 6.61 → p< 0.05: es estadísticamente significativa.

Esto indica que efectivamente sí hay diferencias entre las medias de razonamiento numérico en función del tipo de familia. Es decir, sí hay alguna relación entre el razonamiento numérico y el tipo de familia en que vives.

Como ya sabemos que el resultado del ANOVA es estadísticamente significativo, tenemos evidencia de que hay al menos un grupo que es diferente (en promedio) a los demás.

Es decir, al menos un tipo de familia tiene una media distinta a las demás.

Pero saber que al menos uno es diferente es saber bien poco. Porque podrían ser más.

¿Cómo lo averiguamos? Pruebas post-hoc: sirven para detectar cuántos son

diferentes a los demás y cuáles son diferentes.

Si las varianzas son iguales: Tukey. Si las varianzas no son iguales: Games-Howell.

En nuestro caso, como ya sabemos con anterioridad que las varianzas no son homogéneas, nos iremos directamente a los resultados de la prueba de Games-Howell.

La forma de entender la prueba es simple.

Aquellas comparaciones que tengan un arterisco es que son estadísticamente significativas, es decir, que efectivamente ahí se tiene una diferencia entre las dos medias.

Comparaciones múltiples

Variable dependiente: rendimiento matemáticas

,51461 ,31149 ,466 -,3439 1,3732

-,12727 ,22984 ,981 -,7608 ,5062

,47596 ,22091 ,202 -,1329 1,0848

,98485* ,30508 ,013 ,1440 1,8257

-,51461 ,31149 ,466 -1,3732 ,3439

-,64188 ,27274 ,133 -1,3936 ,1099

-,03865 ,26526 1,000 -,7698 ,6925

,47024 ,33857 ,636 -,4630 1,4034

,12727 ,22984 ,981 -,5062 ,7608

,64188 ,27274 ,133 -,1099 1,3936

,60323* ,16174 ,002 ,1574 1,0490

1,11212* ,26539 ,000 ,3806 1,8436

-,47596 ,22091 ,202 -1,0848 ,1329

,03865 ,26526 1,000 -,6925 ,7698

-,60323* ,16174 ,002 -1,0490 -,1574

,50889 ,25770 ,283 -,2014 1,2192

-,98485* ,30508 ,013 -1,8257 -,1440

-,47024 ,33857 ,636 -1,4034 ,4630

-1,11212* ,26539 ,000 -1,8436 -,3806

-,50889 ,25770 ,283 -1,2192 ,2014

,51461 ,28889 ,411 -,3509 1,3801

-,12727 ,19527 ,966 -,6750 ,4204

,47596* ,16523 ,044 ,0079 ,9440

,98485* ,22456 ,001 ,3294 1,6403

-,51461 ,28889 ,411 -1,3801 ,3509

-,64188 ,29563 ,227 -1,5190 ,2352

-,03865 ,27671 1,000 -,8793 ,8020

,47024 ,31575 ,579 -,4607 1,4011

,12727 ,19527 ,966 -,4204 ,6750

,64188 ,29563 ,227 -,2352 1,5190

,60323* ,17675 ,008 ,1123 1,0941

1,11212* ,23317 ,000 ,4404 1,7838

-,47596* ,16523 ,044 -,9440 -,0079

,03865 ,27671 1,000 -,8020 ,8793

-,60323* ,17675 ,008 -1,0941 -,1123

,50889 ,20866 ,140 -,1069 1,1247

-,98485* ,22456 ,001 -1,6403 -,3294

-,47024 ,31575 ,579 -1,4011 ,4607

-1,11212* ,23317 ,000 -1,7838 -,4404

-,50889 ,20866 ,140 -1,1247 ,1069

(J) tipo de famiia

vive con madre sola

vive con los dos padres

vive dos padres y más familia

vive con abuelos

vive con padre solo

vive con los dos padres

vive dos padres y más familia

vive con abuelos

vive con padre solo

vive con madre sola

vive dos padres y más familia

vive con abuelos

vive con padre solo

vive con madre sola

vive con los dos padres

vive con abuelos

vive con padre solo

vive con madre sola

vive con los dos padres

vive dos padres y más familia

vive con madre sola

vive con los dos padres

vive dos padres y más familia

vive con abuelos

vive con padre solo

vive con los dos padres

vive dos padres y más familia

vive con abuelos

vive con padre solo

vive con madre sola

vive dos padres y más familia

vive con abuelos

vive con padre solo

vive con madre sola

vive con los dos padres

vive con abuelos

vive con padre solo

vive con madre sola

vive con los dos padres

vive dos padres y más familia

(I) tipo de famiia

vive con padre solo

vive con madre sola

vive con los dos padres

vive dos padres y más familia

vive con abuelos

vive con padre solo

vive con madre sola

vive con los dos padres

vive dos padres y más familia

vive con abuelos

HSD de Tukey

Games-Howell

Diferencia demedias (I-J) Error típico Sig. Límite inferior Límite superior

Intervalo de confianza al 95%

La diferencia de medias es significativa al nivel .05.*.

Por ejemplo en la prueba de Games-Howell en el primer recuadro aparece la comparación de los que viven sólo con el padre, contra todos los demás tipos de familia.

Hay asteriscos frente a vive con los padres y más familia y frente a vive con los abuelos.

Por tanto esas dos diferencias de medias sí son estadísticamente significativas.

Como, además la diferencia entre las medias puede verse que en esos casos es positiva, quiere decir que los que viven sólo con el padre presentan una media de razonamiento numérico mayor que los que viven con sus padres y más familia o los que viven con sus abuelos, de ahí la diferencia positiva.

Y así sucesivamente tenemos todas las comparaciones de los grupos dos a dos.

vive con abuelosvive dos padres y más familia

vive con los dos padres

vive con madre sola

vive con padre solo

tipo de famiia

3,80

3,60

3,40

3,20

3,00

2,80

2,60

Me

dia

de

re

nd

imie

nto

ma

tem

áti

ca

s

Para finalizar, la siguiente figura muestra el gráfico de medias, donde puede verse de forma descriptiva dónde están situados los promedios de razonamiento numérico de los distintos tipos de familia de la muestra.

ACTIVIDADES: Matriz_P3_exploratorio.sav

¿Hay relación estadísticamente significativa entre la localización del dolor de espalda y la cantidad de dolor antes del tratamiento?

Variable dependiente: intens_pre Variable independiente /factor: localiz_dolor (cervical,

dorsal y lumbar).

¿Qué conclusión extraes? ¿Aceptamos o rechazamos la H0? ¿Por qué?

Menú ANALIZAR → comparar medias → ANOVA de un factor.

Descriptivos. Prueba de homogeneidad de varianzas. Gráfico medias. Pruebas post-hoc.

¿Qué zona de la espalda les duele más a los pacientes antes de iniciar el tto?

Zona lumbar (14 personas).

¿Qué zona es más dolorosa? Zona lumbar (6´28).

¿Cuál de los 3 grupos es más heterogéneo respecto al dolor? Cervical.

¿Qué información nos da esta tabla?

Como el valor de Sig. es mayor de 0´05, asumimos varianzas iguales.

Tukey.

¿Qué información nos da esta tabla?

F: 4´7 → Sig. 0´018 (p< 0´05) → Relación estadísticamente significativa.

Esto indica que efectivamente sí hay diferencias entre las medias de intensidad del dolor en función de la región de la espalda (cervical, dorsal o lumbar).

Pruebas post-hoc: detectar cuántos grupos son diferentes a los demás y cuáles son diferentes.

Varianzas iguales: Tukey. Estadísticamente significativos: arterisco. Comprobarlo viendo el nivel de sig.

¿Cuántos grupos son diferentes a los demás y cuáles son?

Dorsal y lumbar.

Esas dos diferencias de medias sí son estadísticamente significativas.

La diferencia entre las medias de dorsal y lumbar es: - 2´4 (negativa).

La diferencia entre las medias de lumbar y dorsal es: 2´4 (positiva).

Quiere decir que los que tienen dolor en la zona lumbar presentan una media de dolor mayor que los que tienen dolor en la zona dorsal.

¿Aceptamos o rechazamos la H0? La rechazamos.

¿Por qué? Porque sí que hay relación estadísticamente significativa

entre la región de la espalda que presenta dolor y la cantidad de dolor.

¿En todos los grupos? ¿Qué conclusión extraeríamos?

Hay diferencias estadísticamente significativas entre los pacientes que presentan dolor en la zona lumbar y dorsal, presentando más dolor los pacientes que tienen dolor en la zona lumbar (6´3), respecto a los que tienen dolor en la zona dorsal (3´8).

¿Tiene algo que ver con quién se comparte vivienda a sacar más o menos nota para acceder a la carrera de Fisioterapia?

Explica los pasos a seguir para realizar el análisis pertinente.

¿Aceptamos o rechazamos la H0? ¿Qué conclusión podemos extraer?

Menú ANALIZAR → comparar medias → ANOVA de un factor.

Variable dependiente: nota Variable independiente /factor: domicilio.

Como el valor de Sig. es mayor de 0´05, asumimos varianzas iguales.

Tukey

F: 5´46 → Sig. 0´003 (p< 0´05) → Relación estadísticamente significativa.

Esto indica que efectivamente sí hay diferencias entre las medias de los grupos.

Pruebas post-hoc: ver en resultados. Observaríamos la prueba de Tukey (se

han asumido varianzas iguales. ¿Qué grupos presentan diferencias

estadísticamente significativas entre el domicilio (¿con quién comparten vivienda?) y la nota de acceso?

Otros: vive con sus padres (-2´15). Otros: vive sólo de forma independiente (-1´74). Otros: vivienda transitoria compartida (-2´15).

¿Qué significan estos datos? Hay diferencia estadísticamente significativa entre las medias de

estos grupos, siendo menor la nota de acceso de las personas que viven con “otros”.

¿Qué conclusión extraemos? Rechazamos la H0, ya que sí que existe relación estadísticamente

significativa entre sacar más o menos nota para acceder a la carrera y con quién se comparte vivienda. Hay diferencias estadísticamente significativas entre las medias de los que viven con “otros” (que sacan una nota más baja), frente a los que viven con los padres, los que viven solos de forma independiente y los que comparten vivienda transitoriamente.

Después de observar el siguiente gráfico, ¿qué conclusiones extraes?

¿Qué análisis deberías realizar para saber si existen diferencias estadísticamente significativas entre los diferentes grupos?

¿Se cumple la H0?

Se han asumido varianzas iguales → Tukey.

Hay diferencias estadísticamente significativas entre los grupos.

¿Entre todos los grupos? ¿Cuáles? → Pruebas post-hoc.

PAU: CF (-0´74) PAU: mayor de 25 años (0´68). PAU: otros (2´19).

CF: mayor de 25 años (1´42) CF: otros (2´93).

Mayor de 25 años: otros (1´51).

¿Qué quiere decir? Hay relación estadísticamente significativa entre todos los grupos.

Los que acceden por PAU tienen una nota menor que los que acceden por CF, y una nota mayor que los que acceden por vía para mayores de 25 años y otros. A su vez, los que acceden por CF, tienen una nota mayor que los que acceden por la vía mayores de 25 años y por “otros”. Y los que acceden por la vía mayores de 25 años tienen una nota más alta que los que acceden por “otros”.

¿Se cumple la H0? No. Sí que hay relación estadísticamente

significativa.

Los que acceden por CF son los que presentan una nota de acceso más alta (8´8).

Realiza otro análisis de varianza de un factor con las variables que creas convenientes de la base de datos.

¿Qué conclusión extraes?

Variables cuantitativas: Edad Altura Peso Nº de hermanos Nota Intensidad dolor inicial Test de flexibilidad inicial Intensidad dolor posterior Test de flexibilidad posterior Dolor a los 30 días Flexibilidad a los 30 días Satisfacción

Variables cualitativas (de 3 o más categorías: Domicilio Acceso Localización dolor de espalda Fase evolución patología