Análisis de Varianza

45
Análisis de varianz Mayo, 2010

description

Tema de Estadística nivel Posgrado.

Transcript of Análisis de Varianza

Page 1: Análisis de Varianza

Análisis de varianza

Mayo, 2010

Page 2: Análisis de Varianza

Qué es y para qué sirve el Análisis de Varianza

Compara SI los valores de un conjunto de datos numéricos son significativamente distintos a los valores de otro o más conjuntos de datos.

Se utiliza para decidir si las medias de dos o más poblaciones son iguales.

Los datos se obtienen tomando una muestra de cada población y calculando la media muestral y la varianza en el caso de cada muestra.

Page 3: Análisis de Varianza

Los tres supuestos.

• Las muestras deben ser de tipo aleatorio independiente.1

• Las muestras deben ser obtenidas a partir de poblaciones normales.2

• Las poblaciones deben tener varianzas iguales3

Page 4: Análisis de Varianza

Pretenda medir la influencia que tiene en la venta de un producto, la posición en que se exhibe.

ESTABLECIMIENTO NIVEL VENTAS

BAJO MEDIO ALTO

1 X

2 X

3 X

4 X

5 X

6 X

7 X

8 X

9 X

10 X

11 X

12 X

Page 5: Análisis de Varianza

Se pretende responder.

1º.¿Tiene alguna influencia el posicionamiento del producto en la venta del mismo?.2º.¿Qué posicionamiento es más eficaz?3º.¿Son estadísticamente significativas las diferencias obtenidas?

El análisis de varianza será útil en supuestos en los que queramos analizar distintas situaciones o alternativas de actuación y donde de alguna forma podemos intervenir en la realización del experimento.

A diferencia de otros análisis donde las series históricas son dadas y no podemos repetir la situación, ni modificar alguna de las condiciones o variables (pensemos en el P.I.B., inflación, etc.)

Page 6: Análisis de Varianza

Varianza muestral.

Es el promedio de las desviaciones elevadas al cuadrado de la media del grupo.

VARIANZA=∑(Xi – X)2 n – 1

Procedimiento :1. Calcular la media muestral.2. Restar la media de cada valor de la muestra.3. Elevar al cuadrado cada una de las diferencias.4. Sumar las diferencias elevadas al cuadrado.5. Dividir entre n -1.

Page 7: Análisis de Varianza

Explicación del análisis de varianza. Si las dos estimaciones son aproximadamente

iguales,

esto tiende a confirmar Ho Si una de las dos estimaciones es mucho mayor que

la otra, esto tiende a confirmar H1

Se utilizan dos métodos un poco diferentes para estimar las varianzas de la población:

ESTIMACIÓN INTERNA DE VARIANZA

(Sw2)

ESTIMACIÓN INTERMEDIANTE DE VARIANZA

(Sb2)

Page 8: Análisis de Varianza

Estimación interna de varianza.

Sw2=S1

2+S22+S3

2+S42+…+Sk

2

k En la cual:S1

2=varianza de la varianza de una muestra

S22=varianza de la varianza de dos muestras

Sk2=varianza de la varianza de k muestras

K= número de muestras

Page 9: Análisis de Varianza

Estimación intermediante de varianza.

Sb2

Obtener X, que es la media de los valores medios de la muestra:

X= 15.2+15.0+15.4+15.6 = 15.3 4 Determinar las desviaciones elevadas al cuadrado,

sumarlas y dividirlas entre K-1:(15.2-15.3)2+(15.0-15.3)2+(15.4-15.3)2+(15.6-15.3)2 =

0.067 4-1 Como cada muestra consta de 6 observaciones, n =6

y la estimación de las varianzas de población es: Sb

2=nsx2= 6(0.067)= 0.402

Page 10: Análisis de Varianza

Estimación intermediante de varianza.

Sb2

Obtener X, que es la media de los valores medios de la muestra:

X= 15.2+15.0+15.4+15.6 = 15.3 4 Determinar las desviaciones elevadas al cuadrado,

sumarlas y dividirlas entre K-1:(15.2-15.3)2+(15.0-15.3)2+(15.4-15.3)2+(15.6-15.3)2 =

0.067 4-1 Como cada muestra consta de 6 observaciones, n =6

y la estimación de las varianzas de población es: Sb

2=nsx2= 6(0.067)= 0.402

Page 11: Análisis de Varianza

Estimaciones.

Sw2

Es la norma de comparación No se afecta si Ho es verdadera o falsa

Sb2

Aproximadamente igual a Sw2 cuando Ho es

verdadera. Mayor que Sw

2 cuando Ho es falsa

Page 12: Análisis de Varianza

Definición.

Distribución F.

En muchas situaciones estamos interesados en probar si dos poblaciones independientes tiene la misma variabilidad.

Con el fin de probar la igualdad de las varianzas de dos poblaciones independientes, se ha diseñado un procedimiento estadístico, basado en el cociente de los varianzas de muestra. Si se supone que los datos obtenido de cada población están distribuidos normalmente, entonces el cociente sigue una distribución denominada distribución F que recibe su nombre al famoso estadístico Ronald Fisher.

Dependen de dos conjuntos de grados de libertad – los grados de libertad en el numerador y en el denominador.

2

1S / S

2

2

2

1S / S

2

2

Page 13: Análisis de Varianza

F(n1-1),(n2-1) =

2

1S

S2

2

F(n1-1),(n2-1) =

2

1S

2

1S

S2

2S

2

2

Donde:n1 = tamaño de muestra en el grupo 1n2 = tamaño de muestra en el grupo 2n1 - 1 = grados de libertad en el grupo 1n2 - 1 = grados de libertad en el grupo 2 = varianza de la muestra en el grupo 1

= varianza de la muestra en el grupo 2

2

1S

2

1S

S2

2S

2

2

Page 14: Análisis de Varianza

Al probar la igualdad de dos varianzas se pueden emplear pruebas de una cola o de dos colas como se muestra a continuación.

Page 15: Análisis de Varianza

Si deseamos determinar la variabilidad en la cantidad de llenado de cajas de cereales en la planta A que en la planta B, se puede establecer una prueba de cola de la siguiente manera:

2

AH0: σ ≤ σ

2

B

H1: σ2

A> σ

2

B

2

AH0: σ ≤ σ

2

B

2

AH0: σ ≤ σH0: σ ≤ σ

2

B

H1: σ2

A> σ

2

BH1: σ

2

A> σ

2

B

Para este ejemplo el grupo 1 consta de cajas de cereales llenadas en la planta A y el grupo 2 llenadas en la planta B, la región de rechazo está ubicada en la cola de la distribución.

Page 16: Análisis de Varianza

Tenemos un valor de significación de 0.01 con 24 y 19 grados de libertad

F(n1-1),(n2-1) =

2

1S

S2

2

F(n1-1),(n2-1) =

2

1S

2

1S

S2

2S

2

2

F(25 -1),(20-1) =

2

A S

S 2

B

Page 17: Análisis de Varianza

En este caso el valor de SA = 16.71 y SB = 14.20

F24,19 =(16.91)2

(14.20)2= 1.385F24,19 =

(16.91)2

(14.20)2= 1.385

Como 1.385 < 2.92, no se rechaza H0

El gerente concluirá que no es evidente la variabilidad en la cantidad de cereal de llenado sea mayor en la planta A.

Page 18: Análisis de Varianza

Suponga que un investigador de mercados quisiera estudiar el efecto de la ubicación del producto sobre las ventas de hojas de afeitar desechables, de hecho querría determinar si hay alguna diferencia en las ventas, si las hojas de afeitar se colocaron en la caja registradora y en las otras seis tiendas en el departamento de cosméticos. Se seleccionó una muestra aleatoria de 13 tiendas de igual tamaño de la cadena de supermercados; en 7 tiendas las hojas de afeitar se colocaron en la caja registradora y en las otras seis tiendas en el departamento de cosméticos.

El investigador de mercados desea determinar si hay alguna diferencia en la variabilidad entre la caja registradora y el departamento de cosméticos.

Se puede establecer una prueba de dos colasen la forma siguiente:

2

AH0: σ = σ

2

B

H1: σ2

A= σ

2

B

2

AH0: σ = σ

2

B

2

AH0: σ = σH0: σ = σ

2

B

H1: σ2

A= σ

2

BH1: σ

2

A= σ

2

B

Ejemplo.

Page 19: Análisis de Varianza

TiendaCaja

Registradora

Sección de Cosmeticos

1 107 902 153 833 82 864 158 945 141 896 87 937 119

Total 847 535Media 121 89.17

Varianza 945 17.37n1 7 6.00

X1 X1

1 107 121 -14 196 90 89.17 0.83 0.692 153 121 32 1024 83 89.17 -6.17 38.033 82 121 -39 1521 86 89.17 -3.17 10.034 158 121 37 1369 94 89.17 4.83 23.365 141 121 20 400 89 89.17 -0.17 0.036 87 121 -34 1156 93 89.17 3.83 14.697 119 121 -2 4

121 Total 5670 89.17 Total 86.83Varianza 945 Varianza 17.37

Caja Registradora Sección de CosmeticosTienda

XX (X1 - )2X(X1 - )2XX(X1 - )X(X1 - )XX XX (X1 - )2X(X1 - )2XX(X1 - )X(X1 - )XX (X1 - )2X(X1 - )2XX(X1 - )X(X1 - )XX

F(n1-1),(n2-1) =

2

1S

S2

2

F(n1-1),(n2-1) =

2

1S

2

1S

S2

2S

2

2

Ejemplo.

Page 20: Análisis de Varianza

Puesto que es una prueba de dos colas, la región de rechazo se decide en las colas inferior y superior de la distribución F. Si se selecciona el nivel de significancia 0.05, cada región de rechazo contendría 0.025.

En este caso deseamos obtener el valor superior de 0.025 con 5 grados de libertad en el numerador y 6 grados de libertad en el denominador.

La tabla nos indica que este valor es de 5.99

Ejemplo.

Page 21: Análisis de Varianza
Page 22: Análisis de Varianza

FL(a,b) = 1FU(b,a)

FL(a,b) = 1FU(b,a)

FL(6,5) = 1FU(5,6)

= 15.99

= 0.167FL(6,5) = 1FU(5,6)

FL(6,5) = 1FU(5,6)

= 15.99

= 0.167

Para este ejemplo si = 945 y = 17.37 utilizando la fórmula:2

1S

2

1S S

2

2S

2

2

F(n1-1),(n2-1) =

2

1S

S2

2

F(n1-1),(n2-1) =

2

1S

2

1S

S2

2S

2

2

F6,5 = 495

17.37= 54.40F6,5 =

495

17.37= 54.40

Si sustituimos la fórmula que nos permite verificar esto tenemos:

La regla de expresión se puede expresar así:Rechazar H0 si F6,5 > 6.98O bien si F6,5 < 0.167De lo contrario H0

Tenemos que Por lo tanto F6,5 = 54.50 > 6.98 se rechaza H0

Existe una variabilidad del número de hojas de afeitar vendidas cada semana según su ubicación.

Ejemplo.

Page 23: Análisis de Varianza

Los resultados del análisis de varianza se presentan en una tabla ANOVA que resume los valores importantes de la prueba.

En dicha tabla se resumen los cálculos necesarios para la prueba de igualdad de las medias poblacionales usando análisis de varianza.

Tabla ANOVA.

Page 24: Análisis de Varianza

Tabla ANOVA.

Page 25: Análisis de Varianza

Donde:j = Número de la columna

i = Número de la fila

k = Número de columnas (grupos)

n = Número de elementos en cada grupo (tamaño de la muestra)

Tabla ANOVA.

Page 26: Análisis de Varianza

Esta Tabla nos muestra tres puntos importantes:

Realmente existen tres formas diferentes de estimar la varianza real de la población si la hipótesis nula es verdadera.

Los cálculos fueron ideados de manera deliberada para mostrar lo que ocurre cuando las estimaciones de varianza de la población son exactamente iguales.

Los grados de libertad totales, pueden servir como una rápida comprobación de los valores de los grados de libertad Internos (Dentro) e Intermediantes (Entre). En teoría, la suma total de los cuadrados puede también servir como comprobación de la suma de los cuadrados internos e intermediantes, pero, debido a que en la práctica los cálculos son muy laboriosos, se evita llegar al total, a menos que los cálculos se realicen mediante computadora.

Tabla ANOVA.

Page 27: Análisis de Varianza

Una analista de una cadena de supermercados, quiere saber si las tres tiendas tienen el mismo promedio en dólares por compra. Se elige una muestra aleatoria de seis compras en cada tienda. La tabla número 1 presenta los datos recolectados de esta muestra junto con las medias maestrales para cada tienda y la media global de todos los datos. Hará una prueba con un nivel de significancia de 0.01.

Ejemplo.

La hipótesis nula que se quiere probar es que todas las poblaciones de las que se obtuvieron los datos maestrales tienen la misma media. La hipótesis alternativa es que las poblaciones no tienen la misma media. Las primeras dos medias maestrales en la tabla número 1 sugieren que la hipótesis nula es cierta, ya que son muy cercanas. La tercera media muestral, es considerablemente mas pequeña que las otras dos. Pero, ¿Se debe esta diferencia a la aleatoriedad del muestreo o al hecho de que las poblaciones tienen medias distintas? Esta es la pregunta que vamos a responder con el procedimiento de ANOVA.

Page 28: Análisis de Varianza

Tabla número 1 Datos maestrales para ANOVA (en dólares) para el ejemplo.

Ejemplo.

Tienda 1 Tienda 2 Tienda 3

---------------------------------------------------------------------------

12.05 15.17 9.48

23.94 18.52 6.92

14.63 19.57 10.47

25.78 21.40 7.63

17.52 13.59 11.90

18.45 20.57 5.92

Media 18.73 / 18.14 / 8.72

Media global: x = 15.20, k=3, n=6

Page 29: Análisis de Varianza

Se usan ambos métodos, dentro y entre, para estimar la varianza de las tres poblaciones.

Recuerde la suposición fundamental de ANOVA: todas las poblaciones tienen la misma varianza sin importar si tienen la misma media.

La tabla número 2 contiene los cálculos para el método dentro, y la tabla número 3 da los cálculos para el método entre.

Tabla número 2 Cálculos del método dentro para el ejemplo.

Tienda 1 (12.05 – 18.73)2 + (23.94 – 18.73)2 + (14.63 – 18.73)2 + (25.78 – 18.73)2 + (17.52 – 18.73)2 + (18.45 – 18.73)2 = 139.82

Tienda 2 (15.17 – 18.14)2 + (18.52 – 18.14)2 + (19.57 – 18.14)2 + (21.40 – 18.14)2 + (13.59 – 18.14)2 + (20.57 – 18.14)2 = 48.25

Tienda 3 (9.48 – 8.72)2 + (6.92 – 8.72)2 + (10.47 – 8.72)2 + (7.63 – 8.72)2 + (11.90 – 8.72)2 + (5.92 – 8.72)2 = 26.02

Suma de cuadrados dentro (SCw) = 139.82 + 48.25 + 26.02 = 214.09

Ejemplo.

Page 30: Análisis de Varianza

Tabla número 3 Cálculos del método entre para el ejemplo.

(18.73 – 15.20)2 + (18.14 – 15.20)2 + (8.72 – 15.20)2 = 63.09

Suma de los cuadrados entre (SCb) = 6(63.09) = 378.54

Los valores calculados en las tablas 2 y 3 se usan para llenar la tabla ANOVA.

Como se tienen tres poblaciones en la prueba, k = 3. Se obtuvo una muestra de seis valores de cada población, así que n = 6. La tabla número cuatro presenta la tabla ANOVA para este ejemplo.

Ejemplo.

Page 31: Análisis de Varianza

Tabla número 4 Tabla ANOVA para el ejemplo.

Ejemplo.

Fuente de Variación / SC / gl / Estimación de varianza / Coeficiente F

----------------------------------------------------------------------------------------------------------

Grupos entre 378.54 / 2 / 189.27 / 13.26

Grupos dentro 214.09 / 15 / 14.27

TOTAL 592.63 / 17

Los grados de libertad se calcularon como sigue:

k- 1 = 3 - 1 = 2 (Grupos entre)

k (n - 1) = 3 ( 6 - 1 ) = 15 (Grupos dentro)

Page 32: Análisis de Varianza

Ejemplo.

Como se puede ver en la tabla número 4, el método entre para estimar la varianza, produce un valor de 189.27, mientras que la estimación del método dentro es de 14.27. El cociente F indica que la estimación del método ente es 13.26 veces el valor del método dentro. ¿Se debe esta diferencia al error de muestreo, o se debe a que la hipótesis nula es falsa? Para contestar a esta pregunta se consulta la tabla F y se determina un valor crítico.

Dos grados de libertad están asociados con el numerador del cociente de F, y se asocian quince grados de libertad con el denominador. De la tabla F el valor crítico es 6.36 para estos grados de libertad a un nivel de significancia de 0,01. El valor F calculado de 13.26 es mayor que el valor crítico, lo que significa que se tiene suficiente evidencia muestral para rechazar la hipótesis nula de medias poblacionales iguales.

Page 33: Análisis de Varianza

Análisis de Varianza.

Pruebas ParamétricasPruebas No

Paramétricas

Cuando una prueba de significancia, requiere de

normalidad y de una medida de nivel por intervalos.

Estas pruebas son:

• F• t

Pruebas cuya lista de requisitos no incluye una distribución normal o el

nivel de medición por intervalos. Tienen exigencias menos estrictas y constituyen pruebas de significancia

menos poderosas.

• La chi cuadrada.• Prueba de la mediana.

• Análisis de varianza Kruskal-Wallis• Análisis de varianza Friedman.

Page 34: Análisis de Varianza

Pruebas No Paramétricas (La Chi Cuadrada).

Definición

Es la prueba de significancia no paramétrica más popular en la investigación social.

Se utiliza para hacer comparaciones entre dos o más muestras.

Se emplea para hacer comparaciones entre frecuencias más que entre puntajes medios. La fórmula se representa de la siguiente manera:

x2 = Chi Cuadrada.

fo = La frecuencia obtenida.

fe = La frecuencia esperada.

Page 35: Análisis de Varianza

Cálculo de Chi Cuadrada.

Tiene que ver esencialmente con la distribución entre las frecuencias

esperadas (fe) y las frecuencias obtenidas (fo).

Las frecuencias esperadas se refieren a los términos de la hipótesis nula. En contraste las frecuencias obtenidas se refieren a los resultados que obtenemos realmente al realizar el estudio.

Sólo si la diferencia entre las frecuencias esperadas y obtenidas es lo suficientemente grande, rechazamos la hipótesis nula y decidimos que existe una diferencia poblacional verdadera.

Page 36: Análisis de Varianza

Otras fórmulas involucradas en Cálculo de Chi Cuadrada.

Frecuencias Esperadas (fe)

Grados de Libertad

gl=(r-1)(c-1)

Donde:

gl = Grados de libertad.r = Número de renglones en la tabla de frecuencias obtenidas .c = Número de columnas en la tabla de frecuencias obtenidas.

(total marginal de renglón)(total marginal de columna)

Nfe =

Donde:

N = Total de la muestra

Page 37: Análisis de Varianza

Ejemplo del cálculo de chi cuadrada.

Supongamos que queremos estudiar el uso de drogas en estudiantes de bachillerato, con relación a sus planes de ingreso a la universidad.

Las hipótesis se platearían de la siguiente manera:

Hipótesis nula: La proporción de estudiantes de bachillerato orientados hacia la universidad y que usan drogas es igual a la de los estudiantes que no piensan asistir a la universidad. Hipótesis alternativa: La proporción de estudiantes de bachillerato orientados hacia la universidad y que usan drogas no es igual a la de los estudiantes que no piensan asistir a la universidad.

Para verificar esta hipótesis al nivel de confianza de 0.05, digamos que debemos entrevistar a dos muestras aleatorias de la población de una escuela de bachillerato acerca del uso de drogas: una muestra de 21 estudiantes que van a ingresar a la universidad y una muestra de 15 estudiantes que no planean extender su educación más allá del bachillerato.

Situación

Page 38: Análisis de Varianza

Ejemplo del cálculo de chi cuadrada.

Paso 1. Vaciar los datos en una tabla de frecuencias obtenidas (fo).

Universidad No Universidadfo fo

Consumidores 15 5No consumidores 6 10

Total 21 15

Orientación hacia la universidad

Uso de Drogas

Paso 2. Reordenar los datos en forma de Tabla 2 x 2. En este espacio integraremos la

frecuencia esperada (fe)

Page 39: Análisis de Varianza

Ejemplo del cálculo de chi cuadrada.

Paso 3. Obtener la frecuencia esperada (fe) para cada casilla.

Page 40: Análisis de Varianza

Ejemplo del cálculo de chi cuadrada.

Paso 4. Restar las frecuencias esperadas (fe) e las frecuencias obtenidas (fo).

Paso 5. Elevar al cuadrado esta diferencia.

Page 41: Análisis de Varianza

Ejemplo del cálculo de chi cuadrada.Paso 6. Dividir entre la frecuencia esperada (fe).

Paso 7. Sumar estos cocientes para obtener el valor de chi cuadrada.

Page 42: Análisis de Varianza

Ejemplo del cálculo de chi cuadrada.

Paso 8.Encontrar los grados de libertad.

Page 43: Análisis de Varianza

Ejemplo del cálculo de chi cuadrada.

Paso 9. Comparar el valor de chi cuadrada obtenido con el valor de chi cuadrada correspondiente en la Tabla de Valores de Chi Cuadrada a los Niveles de Confianza de 0.05 y 0.01.

Page 44: Análisis de Varianza

Ejemplo del cálculo de chi cuadrada.

Para rechazar la hipótesis nula, al nivel de confianza de 0.05 con 1 grado de libertad, nuestro valor de chi cuadrada calculado tendría que ser de 3.84 ó más. Como hemos obtenido un valor de chi cuadrada de 5.13 podemos rechazar la hipótesis nula y aceptar la hipótesis de investigación.

Conclusión.

Nuestros resultados sugieren que la proporción de consumidores de alguna droga es mayor entre los estudiantes de bachillerato que van a ingresar a la universidad que entre los estudiantes cuyos planeas no incluyen el ingreso a la universidad.

Page 45: Análisis de Varianza

Fuentes.

LEVIN, Jack y William C. Levin, Fundamentos de estadística en la investigación social, Edit. Oxford University Press, México, 2008, 305 pp.

STEVENSON, William, Estadística para administración y economía: Conceptos y aplicaciones, Edit. Oxford University Press, México, 2004, 585 pp.