Tema 6: Análisis de la Varianza. PROBLEMA 1: Dada una variable cuantitativa continua Y, y una...

Post on 02-Feb-2016

226 views 1 download

Transcript of Tema 6: Análisis de la Varianza. PROBLEMA 1: Dada una variable cuantitativa continua Y, y una...

Tema 6: Análisis de la Varianza

PROBLEMA 1: Dada una variable cuantitativa continua Y, y una variablecualitativa F, determínese si entre ambas hay relación, o no.

Ejemplos: Tiempo de cura / medicamento utilizado Rendimiento de cosechas / fertilizante Renta familiar / hábito de lectura

Número de préstamos / ubicación

PROBLEMA 2: Dada una variable cuantitativa continua Y, y varias variablescualitativas F1, F2,…, Fn, determínese cuáles de ellas infuyen en Y, y cuálesno (es decir, cuáles guardan relación con Y).

Ejemplos: Tiempo de cura / medicamento utilizado, grupo sanguíneo Número de préstamos / sexo, nivel de estudios, afición al cine

PROBLEMA 1: Dada una variable cuantitativa continua Y, y una variablecualitativa F, determínese si entre ambas hay relación, o no.

PROBLEMA 2: Dada una variable cuantitativa continua Y, varias variablescualitativas F1, F2,…, Fn, determínese cuáles de ellas infuyen en Y, y cuálesno (es decir, cuáles guardan relación con Y).

ANOVA simple

ANOVA multifactorial

Y: variable respuesta (numérica)F: factor (cualitativa)

Y: variable respuesta (numérica)F1, F2,…, Fn : factores (cualitativas)

1. ANOVA simple: idea

¿Son independientes Y y F? ¿Hay relación entre Y y F? ¿Hay diferencias significativas en el valor de Y, según que F tome

uno u otro valor? ¿Influye F en el valor de Y?

Y: variable respuesta (numérica)F: factor (cualitativa)

F

Y

1 2 3

µ1

µ2

µ3

Niveles de factor

Medias en cada nivelde factor

F

Y

1 2 3

µ1

µ2

µ3

Si el valor de F no guarda relación con el de Y… ¿Cómo deberían serµ1, µ2, µ3?

Y: variable respuesta (numérica)F: factor (cualitativa)

µ

Media global

H0: µ1= µ2= µ3

H1: alguna µi es distinta

H0 equivalente a: Y, F son independientes; Y, F no guardanrelación; F no influye en el valor de Y; no hay diferencias

significativas en Y según distintos valores de F, etc.

Rechazar H0 equivale a encontrar dependencia entre F e Y.

¿Cómo contrastar H0: µ1= µ2= … = µn

H1: alguna µi es distinta ?

Mala idea: varios contrastesH0: µi=µk

H1: µi≠µk

Error de tipo I se acumula,la confianza “total” es demasiado baja

Buena idea: descomposiciónde la variabilidad

Pizarra

F

Y

1 2 3

µ1

µ2

µ3

µ

Media global

Yik

Residuo del dato Yik:Yik-µi

Yik: el primer subíndice (i) indica el valor del nivel del factor; el segundo (k), el orden que ocupa el dato dentro de los perte- necientes a ese nivel del factor.

Análisis de la Varianza------------------------------------------------------------------------------Fuente Sumas de cuad. Gl Cuadrado Medio Cociente-F P-Valor------------------------------------------------------------------------------Entre grupos 1,05061E9 3 3,50202E8 1,21 0,3104Intra grupos 2,69068E10 93 2,8932E8------------------------------------------------------------------------------Total (Corr.) 2,79574E10 96

SCE: suma de cuadr. explicada o entre-grupos

SCR: suma de cuadr. residual o intra-grupos

SCT: suma de cuadr. totales

TABLA DE ANOVA:TABLA DE ANOVA:

EXPLICADA ADVARIABILID 100 SCT

SCE

H0: µ1= µ2= … = µn

H1: alguna µi es distinta ?

Rechazamos si p-valor < nivel de significación

Intuitivamente, aceptaremos cuando la variabilidad explicada es pequeña(es decir, rechazamos cuando la variabilidad explicada es grande)

Statgraphics

2. El modelo de ANOVA simple

Descripción del modelo: PIZARRA

Requisitos del modelo:

1.- Normalidad en cada nivel de factor.2.- Homocedasticidad (igual varianza en cada nivel de factor)3.- Independencia de las observaciones: residuos aleatorios.

H0: σ1= σ2= … = σn

H1: alguna σi es distinta

Statgraphics

3. Contraste de Kruskal-Wallis

- Método no-paramétrico

-Util si fallan los requisitos del ANOVA.

- Realiza un contraste sobre las medianas

H0: M1= M2=…= Mn

H1: alguna Mi es distinta.

- Utiliza la noción de rango. La idea es ordenar de menor a mayor todos los datos (sin atender al nivel del factor del que provienen), asignar rangos, y comparar después los rangos medios correspondientes a los distintos niveles del factor.

4. Anova multifactorial

PROBLEMA: Dada una variable cuantitativa continua Y, varias variablescualitativas F1, F2,…, Fn, determínese cuáles de ellas influyen en Y, y cuálesno (es decir, cuáles guardan relación con Y).

Y: variable respuesta (numérica)F1, F2,…, Fn : factores (cualitativas)

Si Fi influye en el valor de Y (si existen diferencias significativas en Y según los distintos valores de Fi) decimos que Fi es SIGNIFICATIVO.

Ejemplo: Y tiempo de cura, F1 medicamento administrado, F2 gruposanguíneo; Y nº de visitas a una página web, F1 nivel de estudios,F2 sexo.

Por tanto, un primer problema consiste en determinar cuáles de los factores considerados en un cierto estudio, son significativos.

1. Sin interacción: consideramos que los efectos de los factores se suman, sin que la combinación de factores produzca cambios cualitativos.

PROBLEMA: Determinar factores significativos.

2. Con interacción: consideramos la posibilidad de que la combinación de factores produzca cambios cualitativos.

PROBLEMA 1: Determinar factores significativos.PROBLEMA 2: Determinar la existencia de “interacción” entre

factores (es decir, qué combinaciones de factores pueden tener un efecto cualitativo distinto a la mera suma de efectos).

Dos modelos:

1. Sin interacción: consideramos que los efectos de los factores se suman, sin que la combinación de factores produzca cambios cualitativos.

PROBLEMA: Determinar factores significativos.

2. Con interacción: consideramos la posibilidad de que la combinación de factores produzca cambios cualitativos.

PROBLEMA 1: Determinar factores significativos.PROBLEMA 2: Determinar la existencia de “interacción” entre

factores (es decir, qué combinaciones de factores pueden tener un efecto cualitativo distinto a la mera suma de efectos).

Dos modelos:

Un intento de visualizar qué implica que un factor sea o no significativo….

A

B

1 2

F1

F2

Y

A

B

1 2

F1

F2

YLas medias en A y B parecen muy

diferentes; por tanto, F1 significativo.

µA

µB

A

B

1 2

F1

F2

Yµ1

µ2

Las medias en 1 y 2 parecen muy

similares; por tanto, F2 NO significativo.

5. Modelo de ANOVA multifactorial sin interacción

- Modelo: PIZARRA

- Requisitos del modelo: suponemos que F1 tiene “a” niveles, y F2 tiene “b” niveles. Por tanto, en total hay a.b subgrupos.

1.- Cada uno de los subgrupos es normal. 2.- La varianza es la misma en todos ellos (Homocedasticidad) 3.- Independencia de las observaciones (residuos aleatorios)

1 + 2 + 3 = Residuos normales N(0,σ); σ: error experimental

Esto es lo que, en este caso, debemoscomprobar

6. Modelo de ANOVA multifactorial con interacción

Idea intuitiva de lo que suponela existencia de interacción…

Decimos que existe INTERACCION si los factores no son indepen-dientes, es decir, si el efecto de alguno de ellos depende del nivel en que esté el otro.

A

B

1 2

F1

F2

Y

A

B

1 2

F1

F2

YF1 NO significativo.

A

B

1 2

F1

F2

YF2 NO significativo.

A

B

1 2

F1

F2

YSin embargo, para aquellos que

tienen el primer factor en A, parece

haber diferencias significativas…

A

B

1 2

F1

F2

YY análogamente para los que tienen

el primer factor en B

- Modelo: PIZARRA

- Requisitos del modelo: 1,2,3 como en el caso sin interacción (ojo, los residuos no son los mismos en uno y otro caso).

1 + 2 + 3 = Residuos normales N(0,σ); σ: error experimental

Esto es lo que, en este caso, debemoscomprobar

Statgraphics