Cuestionario 4_ALCHAPAR.doc

16
Cuestionario 4: Semana 7 y 8 Ejercicio 1: Marcar la respuesta correcta a cada una de las afirmaciones siguientes, o completar la frase: 1. Con los modelos de ANOVA se pueden comparar más de dos muestras a la vez. V F 2. Y también más de un factor, con varias muestras a la vez. V F 3. Para poder aplicar los modelos de ANOVA las muestras deben ser: aleatorias, independientes, normales y de igual varianza. 4. En ANOVA se pueden usar muestras de diferente tamaño. V F 5. La distribución teórica del F es una distribución Chi Cuadrado. V F 6. El coeficiente de correlación se usa para medir el grado de asociación de 2 variables. V F 7. La correlación se usa cuando el investigador busca establecer el grado de asociación. V F 8. El cuadrado del coeficiente de regresión es el coeficiente de determinación. V F 9. Para un mismo problema se puede usar Regresión o Correlación. V F 10. El análisis de regresión se usa cuando se conoce la relación teórica Y = f (X). V F 11. Para el análisis de peso y talla se puede usar la regresión. V F 12. El método de los mínimos cuadrados es el usado en regresión. V F 13. Todas las muestras a lo largo de la curva de regresión son homocedásticas. V F Pablo Salgado EMAIL: [email protected] 1

Transcript of Cuestionario 4_ALCHAPAR.doc

Page 1: Cuestionario 4_ALCHAPAR.doc

Cuestionario 4: Semana 7 y 8

Ejercicio 1:Marcar la respuesta correcta a cada una de las afirmaciones siguientes, o completar la frase:

1. Con los modelos de ANOVA se pueden comparar más de dos muestras a la vez. V F

2. Y también más de un factor, con varias muestras a la vez. V F

3. Para poder aplicar los modelos de ANOVA las muestras deben ser: aleatorias, independientes,

normales y de igual varianza.

4. En ANOVA se pueden usar muestras de diferente tamaño. V F

5. La distribución teórica del F es una distribución Chi Cuadrado. V F

6. El coeficiente de correlación se usa para medir el grado de asociación de 2 variables. V F

7. La correlación se usa cuando el investigador busca establecer el grado de asociación. V F

8. El cuadrado del coeficiente de regresión es el coeficiente de determinación. V F

9. Para un mismo problema se puede usar Regresión o Correlación. V F

10. El análisis de regresión se usa cuando se conoce la relación teórica Y = f (X). V F

11. Para el análisis de peso y talla se puede usar la regresión. V F

12. El método de los mínimos cuadrados es el usado en regresión. V F

13. Todas las muestras a lo largo de la curva de regresión son homocedásticas. V F

14. La ecuación de regresión de Y sobre X, es igual a la de X sobre Y. V F

15.El ensayo de hipótesis en regresión se hace con una Tabla de ANOVA. V F

Ejercicio 2:

Se quiere evaluar la eficacia de distintas dosis de un fármaco contra la hipertensión arterial, comparándola con la de una dieta sin sal. Para ello se seleccionan al azar 25 hipertensos y se distribuyen aleatoriamente en 5 grupos. Al primero de ellos no se le suministra ningún tratamiento, al segundo una dieta con un contenido pobre en sal, al tercero una dieta sin sal, al cuarto el fármaco a una dosis determinada y al quinto el mismo fármaco a otra dosis. Las presiones arteriales sistólicas de los 25 sujetos al finalizar los tratamientos son: 

Grupos1 2 3 4 5

180 172 163 158 147

173 158 170 146 152

175 167 158 160 143

182 160 162 171 155

181 175 170 155 160 

Descriptivos

Pablo Salgado EMAIL: [email protected] 1

Page 2: Cuestionario 4_ALCHAPAR.doc

Presión sistólica

N MediaDesviación

típicaError típico

Intervalo de confianza para la media al 95%

Mínimo MáximoLímite inferior

Límite superior

Control 5 178,20 3,962 1,772 173,28 183,12 173 182Poca sal 5 166,40 7,369 3,295 157,25 175,55 158 175Sin sal 5 164,60 5,273 2,358 158,05 171,15 158 170Fármaco dosis 1

5 158,00 9,028 4,037 146,79 169,21 146 171

Fármaco dosis 2

5 151,40 6,656 2,977 143,14 159,66 143 160

Total 25 163,72 11,002 2,200 159,18 168,26 143 182

Prueba de homogeneidad de varianzas

Presión sistólica Estadístico de Levene gl1 gl2 Sig.

,484 4 20 ,748

Hipótesis:H0: σ21 = σ22= σ23= σ24= σ25. Las varianzas de las muestras son iguales.Ha: σ21 ≠ σ22 ≠ σ23 ≠ σ24 ≠ σ25. Las varianzas de las muestras son distintas.

Dado que la significación calculada (0.748) es mayor que el valor de alfa (0.05), se acepta la hipótesis nula que afirma que existe una homogeneidad entre las varianzas (homocedásticas). Por lo tanto, se puede aplicar la prueba de Anova.

La tabla de anova es: 

Fuente de variación GL SS MS F

Tratamiento 4 2010,64 502,66 11,24

Error 20 894,4 44,72  

Total 24 2905,04  

F0,05(4,20) =2,87

Para determinar la influencia de la variable independiente (tratamientos) sobre la variable dependiente cuantitativa (presión arterial), se realiza la prueba de Anova.

Dónde las hipótesis planteadas son las siguientes:H0: μ1 = μ2 = μ3 = μ4 = μ5. Las medias de las muestras son iguales, por lo tanto no existe relación entre tratamiento y presión.Ha : μ1 ≠μ2 ≠ μ3 ≠ μ4 ≠ μ5. Las medias de las muestras son distintas, por lo tanto el valor de presión arterial está relacionado con el tratamiento realizado.

Pablo Salgado EMAIL: [email protected] 2

Page 3: Cuestionario 4_ALCHAPAR.doc

F 0,05 (4,20) = 2.87 < F calculado = 11.24

Se rechaza la H0 porque el valor de F calculado (11.24) es mayor que el F teórico (2.87). Por lo tanto se observan diferencias significativas al 5% entre los grupos. Esto nos indica que los tratamientos no tienen el mismo efecto sobre las presiones arteriales de los pacientes estudiados, por lo tanto la presión es una variable dependiente del tratamiento.

Comparaciones múltiples

Variable dependiente: Presión sistólica t de Dunnett (bilateral)

(I) Tipo de Tratamiento

(J) Tipo de Tratamiento

Diferencia de medias (I-J)

Error típico Sig.

Intervalo de confianza al 95%

Límite superior

Límite inferior

Poca sal Control -11,800(*) 4,229 ,037 -23,01 -,59Sin sal Control -13,600(*) 4,229 ,015 -24,81 -2,39Fármaco dosis 1 Control -20,200(*) 4,229 ,000 -31,41 -8,99Fármaco dosis 2 Control -26,800(*) 4,229 ,000 -38,01 -15,59

* La diferencia de medias es significativa al nivel .05.a Las pruebas t de Dunnett tratan un grupo como control y lo comparan con todos los demás grupos.

Por medio del t de Dunnett, se concluye que lo 4 tratamientos presentan diferencias con respecto al grupo de control (sin tratamiento). Se observa que la mayor diferencia de medias con el tratamiento de control es el tratamiento con el Fármaco 2.Siendo el fármaco 2 el tratamiento que más se aleja de la media de control (-26,800) y por lo tanto, su administración resulta la más efectiva. Seguido de éste se encuentra el tratamiento del fármaco 1 con una diferencia de media igual a -20,200.

Pablo Salgado EMAIL: [email protected] 3

Page 4: Cuestionario 4_ALCHAPAR.doc

Comparaciones múltiples Scheffé

Variable dependiente: Presión sistólica

(I) Tipo de Tratamiento

(J) Tipo de Tratamiento

Diferencia de medias (I-J)

Error típico

Sig.

Intervalo de confianza al 95%

Límite superior

Límite inferior

Control

Poca sal 11,800 4,229 ,142 -2,52 26,12Sin sal 13,600 4,229 ,068 -,72 27,92

Fármaco dosis 1 20,200(*) 4,229 ,003 5,88 34,52Fármaco dosis 2 26,800(*) 4,229 ,000 12,48 41,12

Poca sal

Control -11,800 4,229 ,142 -26,12 2,52Sin sal 1,800 4,229 ,996 -12,52 16,12

Fármaco dosis 1 8,400 4,229 ,438 -5,92 22,72Fármaco dosis 2 15,000(*) 4,229 ,037 ,68 29,32

Sin sal

Control -13,600 4,229 ,068 -27,92 ,72Poca sal -1,800 4,229 ,996 -16,12 12,52

Fármaco dosis 1 6,600 4,229 ,661 -7,72 20,92Fármaco dosis 2 13,200 4,229 ,081 -1,12 27,52

Fármaco dosis 1

Control -20,200(*) 4,229 ,003 -34,52 -5,88Poca sal -8,400 4,229 ,438 -22,72 5,92Sin sal -6,600 4,229 ,661 -20,92 7,72

Fármaco dosis 2 6,600 4,229 ,661 -7,72 20,92

Fármaco dosis 2

Control -26,800(*) 4,229 ,000 -41,12 -12,48Poca sal -15,000(*) 4,229 ,037 -29,32 -,68Sin sal -13,200 4,229 ,081 -27,52 1,12

Fármaco dosis 1 -6,600 4,229 ,661 -20,92 7,72

* La diferencia de medias es significativa al nivel .05.

Presión sistólicaScheffé

Tipo de Tratamiento NSubconjunto para alfa = .052 3 1

Fármaco dosis 2 5 151,40Fármaco dosis 1 5 158,00 158,00Sin sal 5 164,60 164,60 164,60Poca sal 5 166,40 166,40Control 5 178,20Sig. ,081 ,438 ,068

¿Qué conclusiones puede llegar?Archivos: “hipertensión.xls” o “hipertensión.sav”

Para un nivel de significación de 0.05, se acepta la hipótesis nula en los tres subconjuntos, siendo más significativa en el subconjunto 3. Lo que nos indica que en éstos tres tratamientos (fármaco dosis 1, sin sal, poca sal) tienen comportamientos más similares entre sí que los que conforman los subconjuntos 1 y 2.

Dónde,

Pablo Salgado EMAIL: [email protected] 4

Page 5: Cuestionario 4_ALCHAPAR.doc

H01a: μ sin sal= μ poca sal H01b: μ poca sal = μ control

H01c: μ sin sal = μ control

H02a : μ farm 2 = μ farm 1 H02b : μ farm 1 = μ sin sal

H02c : μ farm 2 = μ sin sal

H03a: μ farm 1 = μ sin sal H03b: μ sin sal = μ poca sal

H03c: μ farm 1 = μ poca sal

Ha1a: μ sin sal ≠ μ poca sal

Ha1b: μ poca sal ≠ μ control

Ha1c: μ sin sal ≠ μ control

Ha2a : μ farm 2 ≠ μ farm 1 Ha2b : μ farm 1 ≠ μ sin sal

Ha2c : μ farm 2 ≠ μ sin sal

Ha3a: μ farm 1 ≠ μ sin sal Ha3b: μ sin sal ≠μ poca sal

Ha3c: μ farm 1 ≠ μ poca sal

Ejercicio 3:En un estudio sobre la efectividad de 3 métodos para dejar de fumar se quiere saber si la reducción media en el número de cigarrillos semanales difiere de un método a otro. Se diseña un experimento con 3 grupos de 15 fumadores cada uno, que consumían la misma cantidad, y se obtienen las siguientes reducciones en el número de cigarrillos que deja de fumar cada uno. Los resultados fueron los siguientes:Archivos: fumar.xls o fumar.sav

Cigarrillo que dejaron de fumarMétodo 1 Método 2 Método 3

50 41 4951 40 4752 39 4552 40 4751 40 4650 39 4851 41 4552 41 4752 39 4453 41 4549 41 4851 40 4952 41 4650 41 4848 38 47

Los resultados fueron los siguientes:

Descriptivos

Pablo Salgado EMAIL: [email protected] 5

Page 6: Cuestionario 4_ALCHAPAR.doc

Número de cigarrillo que dejo de consumir

N MediaDesviación

típicaError típico

Intervalo de confianza para la media al 95%

Mínimo MáximoLímite inferior Límite superiorMétodo1 15 50,93 1,335 ,345 50,19 51,67 48 53Método2 15 40,13 ,990 ,256 39,58 40,68 38 41Método3 15 46,73 1,534 ,396 45,88 47,58 44 49Total 45 45,93 4,673 ,697 44,53 47,34 38 53

A partir de analizar las variables, se puede deducir que el método que más efectividad muestra es el nº1, con una media (50.93) 5 puntos superior a la media total (45.93). El método 2 es el que muestra menos efectividad en su tratamiento (40.13), sin embargo es el que presenta menos dispersión en sus datos. Ésto indica que todos los pacientes han respondido al método 2 de forma más homogénea.

Prueba de homogeneidad de varianzas

Número de cigarrillo que dejo de consumir

Estadístico de Levene gl1 gl2 Sig.

1,380 2 42 ,263

Hipótesis:H0: σ21 = σ22= σ23. Las varianzas de las muestras son iguales.Ha: σ21 ≠ σ22 ≠ σ23. Las varianzas de las muestras son distintas.

Dado que la significación calculada (0.263) es mayor que el valor de alfa (0.05), se acepta la hipótesis nula que afirma que existe una homogeneidad entre las varianzas (homocedásticas). Por lo tanto, se puede aplicar la prueba de Anova.

ANOVA

Número de cigarrillo que dejo de consumir

Suma de

cuadrados glMedia

cuadrática F Sig.Inter-grupos 889,200 2 444,600 260,799 ,000Intra-grupos 71,600 42 1,705Total 960,800 44

Para determinar la influencia de la variable independiente (métodos) sobre la variable dependiente cuantitativa (cantidad de cigarrillos), se realiza la prueba de Anova.

Dónde las hipótesis planteadas son las siguientes:

H0: μ1 = μ2 = μ3. Las medias de los métodos son iguales, por lo tanto no existe relación entre tratamiento y la reducción de cigarrillo.

Pablo Salgado EMAIL: [email protected] 6

Page 7: Cuestionario 4_ALCHAPAR.doc

Ha: μ1 ≠μ2 ≠ μ3. Las medias de los métodos son distintas, por lo tanto la reducción de cigarrillos está relacionada con el método aplicado.

F 0.05 (2,42) = 3.232 < Fcalculado = 260.799Se rechaza la H0 porque el valor de F calculado (260.799) es mayor que el F teórico (3.232). Por lo tanto se observan diferencias significativas al 5% entre los grupos. Esto nos indica que los métodos aplicados no tienen el mismo efecto sobre las personas fumadoras estudiadas, por lo tanto la reducción de cigarrillos es una variable dependiente del método.

Comparaciones múltiples

Variable dependiente: Número de cigarrillo que dejo de consumir Scheffé

(I) Métodos (J) MétodosDiferencia de medias (I-J) Error típico Sig.

Intervalo de confianza al 95%

Límite superior Límite inferior

Método 1 Método 2 10,800(*) ,477 ,000 9,59 12,01Método 3 4,200(*) ,477 ,000 2,99 5,41

Método 2 Método 1 -10,800(*) ,477 ,000 -12,01 -9,59Método 3 -6,600(*) ,477 ,000 -7,81 -5,39

Método 3 Método 1 -4,200(*) ,477 ,000 -5,41 -2,99Método 2 6,600(*) ,477 ,000 5,39 7,81

* La diferencia de medias es significativa al nivel .05.

Número de cigarrillo que dejo de consumir

Scheffé

Métodos N

Subconjunto para alfa = .05

2 3 1Método 2 15 40,13Método 3 15 46,73Método 1 15 50,93Sig. 1,000 1,000 1,000

Se muestran las medias para los grupos en los subconjuntos homogéneos.a Usa el tamaño muestral de la media armónica = 15,000.

Explique los resultados y a que conclusiones puede llegar.La diferencia de medias de cada método respecto a los otros dos son muy significativa al nivel 0,05. La mayor diferencia de medias es entre el método nº 1 y el método nº 2 (10,800).Las significaciones en los tres métodos son iguales a cero, por lo tanto no se pueden agrupar en subconjuntos homogéneos. Por lo tanto la comparación se dá interna entre cada método. Con lo que se obtiene para un nivel de significación de 0.05 un valor de significación igual a 1, acepto hipótesis nula que afirma que hay semejanza de medias entre los tres subconjuntos.

Dónde, H0= Las medias de los métodos son iguales.Ha= Las medias de los tratamientos son distintas. Ejercicio 4:

Pablo Salgado EMAIL: [email protected] 7

Page 8: Cuestionario 4_ALCHAPAR.doc

Se quiere saber si hay relación entre el peso y la talla en niños varones. Para ello se miden las dos variables y se comparan.¿Hay asociacion/correlación entre las dos variables?Si la correlación lineal es alta, calcule la regresión lineal y escriba la función que relaciona las dos variables. Los bases de datos son las siguientes resultados:Archivos: peso y talla.xls o peso y talla.sav

Los resultados obtenidos son los siguientes:

peso (kg) talla (cm)9 72

10 766 598 68

10 605 588 707 654 54

11 837 647 666 618 665 57

11 815 599 716 62

10 75

Correlaciones Peso en Kg Altura en cmPeso en Kg Correlación de Pearson 1 ,885(**)

Sig. (bilateral) ,000

N 20 20Altura en cm Correlación de Pearson ,885(**) 1

Sig. (bilateral) ,000N 20 20

** La correlación es significativa al nivel 0,01 (bilateral).

Pablo Salgado EMAIL: [email protected] 8

Page 9: Cuestionario 4_ALCHAPAR.doc

4,00 6,00 8,00 10,00

Peso en Kg

60,00

70,00

80,00

Alt

ura

en

cm

1Altura en cm = 40,89 + 3,35 * pesoR-cuadrado = 0,78

Hay una fuerte asociación entre las dos variables. Dado que el valor r de correlación de Pearson es igual a 0.885 (próximo a 1). Ésta indica que a medida que aumentan los valores de las variables altura, aumentan los de peso. En la figura de dispersión se indica gráficamente ésta relación.

Estadísticos descriptivos

MediaDesviación

típ. NAltura en cm 66,3500 8,08686 20Peso en Kg 7,6000 2,13739 20

Resumen del modelo (b)

Modelo R R cuadradoR cuadrado corregida

Error típ. de la estimación Durbin-Watson

1 ,885 (a) ,784 ,772 3,86079 2,067

a Variables predictoras: (Constante), Peso en Kgb Variable dependiente: Altura en cm

El valor del estadístico de Durbin-Watson (igual a 2,067) es próximo a 2, lo que confirma la incorrelación de los residuos. El hecho de que los residuos sean independientes es consecuencia directa de que las observaciones lo son también. Dónde se supone que los sujetos observados son independientes entre sí.

Pablo Salgado EMAIL: [email protected] 9

Page 10: Cuestionario 4_ALCHAPAR.doc

ANOVA (b)

Modelo Suma de

cuadrados glMedia

cuadrática F Sig.1 Regresión 974,247 1 974,247 65,361 ,000(a)

Residual 268,303 18 14,906

Total 1242,550 19

a Variables predictoras: (Constante), Peso en Kgb Variable dependiente: Altura en cm

Dónde las hipótesis planteadas son las siguientes:

H0: No existe algún tipo de asociación entre la variable dependiente (peso) y la dependiente (altura).Ha: Existe algún tipo de asociación entre la variable dependiente (peso) y la dependiente (altura).

F 0.05 (1,18) = 4.414 < Fcalculado = 65.361Se rechaza la H0, dado que la variabilidad observada en la variable respuesta no es producto del azar. El valor de F calculado (65.361) es mayor que el F teórico (4.414). Por lo tanto se observan diferencias significativas al 5% entre los grupos. Esto nos indica que la altura es una variable dependiente del peso.

Coeficientes (a)

Modelo

Coeficientes no estandarizados

Coeficientes estandarizados t Sig.

Intervalo de confianza para B al 95%

B Error típ. BetaLímite inferior

Límite superior B Error típ.

1 (Constante) 40,888 3,266 12,521 ,000 34,027 47,749 Peso en Kg 3,350 ,414 ,885 8,085 ,000 2,480 4,221

a Variable dependiente: Altura en cm

Función de regresión lineal que relaciona las dos variables: Y=β1 X + β0 + eTalla i =3.35* peso i + 40.888 + ei=1,2,……20

peso (kg) talla (cm) Y9 72 71

10 76 746 59 618 68 68

10 60 745 58 588 70 687 65 644 54 54

Pablo Salgado EMAIL: [email protected] 10

Page 11: Cuestionario 4_ALCHAPAR.doc

11 83 787 64 647 66 646 61 618 66 685 57 58

11 81 785 59 589 71 716 62 61

10 75 74

ver ejercicios 4_cuestionario 4.xlsx.Ejercicio 5:Se realizó una encuesta para saber si las preferencias de los consumidores con respecto a seis marcas del mismo producto está en relación con el precio del mismo.

Opinión sobre el productoTotalMuy

malaMala Indiferente Buena

Muy buena

Excelente

Costo del producto

muy económico 0 8 6 30 26 18 88

Económico 1 9 8 27 17 13 75

Costo medio 2 15 17 24 15 7 80

Costo medio alto 3 22 18 15 9 5 72

Costo alto 7 26 19 12 8 3 75

Costo muy alto 12 21 22 16 7 2 80

Total 25 101 90 124 82 48 470

De acuerdo con los datos muestrales, ¿existe evidencia suficiente para afirmar que los consumidores tienen la misma opinión acerca de las seis marcas comerciales?¿Hay relación entre el precio y la preferencia?Archivos: “calidad precio producto.xls” o “calidad precio producto.sav”

Por ser dos variables cualitativas ordinales se realiza la prueba parámetrica de chi (x2) cuadrado y el coeficiente de contingencias (C):

Ho: Las variables precio y preferencia son independientes.Ha: Las variables precio y preferencia están relacionadas.

- Test de Chi Cuadrado: 78.92- Grados de libertad: 20- Chi cuadrado de tabla (20 gl; alfa=0,05) = 31.41

El valor calculado x2=78.92 es mayor que el valor crítico de la tabla (31.41) para un Nivel de Confianza de 95% y 20 grados de libertad. El valor de probabilidad (p=0.00) es menor al valor de α=0.05.Por lo que rechazo Ho y acepto Ha que afirma que existe relación entre precio y preferencia de los seis producto estudiados.

Pablo Salgado EMAIL: [email protected] 11

Page 12: Cuestionario 4_ALCHAPAR.doc

Mediante los coeficientes de asociación para dos variables en escala nominal se calcula:- Coeficiente de Contingencia (C)= 0.379

Existe una muy débil dependencia entre variables debido a que el coeficiente (=0.379) está muy alejado del valor 1. ver ejercicios 5_cuestionario 4.xlsx.

Pablo Salgado EMAIL: [email protected] 12