Tema_3a_ANOVA_I

63
DiseÒos con una fuente de variaciÛn (I): DiseÒo con un factor completamente aleatorizado Tema 3 (I) EstadÌstica 2 Curso 08/09 Tema 3 (I) (EstadÌstica 2) ANOVA I Curso 08/09 1 / 63

description

Anova

Transcript of Tema_3a_ANOVA_I

  • Diseos con una fuente de variacin (I):Diseo con un factor completamente aleatorizado

    Tema 3 (I)

    Estadstica 2

    Curso 08/09

    Tema 3 (I) (Estadstica 2) ANOVA I Curso 08/09 1 / 63

  • Introduccin

    Diseo con un factor completamente aleatorizadoIntroduccin

    En cursos anteriores (ver tema 1) se describieron mtodos para hacerinferencias sobre medias y varianzas de dos poblaciones. En estetema se plantea el problema extender estos mtodos para el casode ms de dos poblaciones bajo hiptesis similares.

    El anlisis de la varianza (ANOVA) es una herramienta quepermite descomponer la variabilidad de un experimento encomponentes independientes que pueden asignarse a distintascausas reconocibles, y utilizar esta informacin para contrastarhiptesis de inters (comparando varianzas entre s).

    Ronald A. Fisher fue el innovador del uso del anlisis de la varianza(en la Estacin Agrcola Experimental Rothamsted durante los aostreinta).

    Tema 3 (I) (Estadstica 2) ANOVA I Curso 08/09 2 / 63

  • Introduccin

    El objetivo principal del diseo de experimentos: estudiar losefectos que una o ms variables cualitativas (factores) tienen sobreuna variable cuantitativa de inters (respuesta). Los valores que tomaun factor se denominan niveles o tratamientos.

    En este tema se tratar el problema ms sencillo: Se dispone de nelementos (u.e.) y para cada uno de ellos se observa el valor de unavariable respuesta y nivel que presentan para un nico factor. Elpropsito del estudio es la comparacin de las medias de la variablerespuesta correspondientes a cada uno de los niveles del factor.

    Diseo completamente aleatorizado: los niveles se asignan alazar a las unidades experimentales.

    Tema 3 (I) (Estadstica 2) ANOVA I Curso 08/09 3 / 63

  • Introduccin Ejemplo

    Ejemplo

    En un estudio (e.g. Hix y Hartson, 1986) para evaluar la utilidad de unentorno interactivo para el diseo de cuadros de dilogo (user-interfacemanagement system) frente al mtodo tradicional de escribir el cdigofuente, se midi el tiempo (en horas) de desarrollo de interfaces empleandodistintos mtodos (UIMS, Programacin, UIMS+Programacin).

    MtodoProgramacin UIMS UIMS+Programacin

    1.92.41.12.3

    0.81.50.41.0

    1.20.80.20.6

    NOTA: Se supone que los programadores y las tareas se asignaron al azarde forma que no inuyen en los resultados.

    Tema 3 (I) (Estadstica 2) ANOVA I Curso 08/09 4 / 63

  • Introduccin Ejemplo

    Grco descriptivo: Diagrama de cajas o Box Plot

    Tema 3 (I) (Estadstica 2) ANOVA I Curso 08/09 5 / 63

  • Introduccin Notacin

    Notacin

    I numero de niveles (tratamientos)

    Yij , i = 1, ....I , j = 1, ...., ni , variable aleatoria que representa larespuesta de la j-sima observacin en el i-simo nivel del factor.yij valor observado.

    ni , nmero de elementos de la muestra que presentan el i-simo niveldel factor.

    n = n1 + n2 + ...+ nI , numero total de observaciones.

    i , i = 1, ....I , media terica o respuesta esperada para el i-simonivel del factor.

    , media terica o respuesta esperada ignorando los niveles del factor,o equivalentemente, media de la poblacin que resulta de lacombinacin en una nica poblacin de las I poblacionescorrespondientes a cada uno de los niveles del factor.

    .Tema 3 (I) (Estadstica 2) ANOVA I Curso 08/09 6 / 63

  • Introduccin Notacin

    La inferencia sobre las medias se realizar a traves de las correspondientesmedias muestrales (estimadores mnimo-cuadrticos):

    Nivel! ! ! i ! ! !

    ! ! !Yi1...

    Yini

    ! ! ! Totales

    Sumas ! ! ! Yi !=nij=1

    Yij ! ! ! Y!!=Ii=1

    Yi !=Ii=1

    nij=1

    Yij

    Tamaos ! ! ! ni ! ! ! nMedias

    muestrales! ! ! Yi !=Yi !ni =

    1ni

    nij=1

    Yij ! ! ! Y!!=Y!!n =1n

    Ii=1

    nij=1

    Yij

    Tema 3 (I) (Estadstica 2) ANOVA I Curso 08/09 7 / 63

  • Introduccin Notacin

    EjemploTiempo de desarrollo de interfaces

    MtodoProg UIMS UIMS+Prog1.92.41.12.3

    0.81.50.41.0

    1.20.80.20.6

    Totales

    Sumas y1!= 7.7 y2!= 3.7 y3!= 2.8 y!!= 14.2Tamaos n1= 4 n2= 4 n3= 4 n = 12Medias

    muestralesy1!= 1.925 y2!= 0.925 y3!= 0.7 y !!= 1.183

    Tema 3 (I) (Estadstica 2) ANOVA I Curso 08/09 8 / 63

  • Introduccin Notacin

    Contraste principal

    Se quiere contrastar la hiptesis nula de que los niveles del factor tienen lamisma respuesta media:!

    H0 : 1 = 2 = ... = IH1 : i 6= j para algn i 6= j

    Equivalentemente:!H0 : El factor no inuye en la respuesta (media)H1 : El factor si inuye en la respuesta (media)

    Tema 3 (I) (Estadstica 2) ANOVA I Curso 08/09 9 / 63

  • El modelo del ANOVA I

    Modelo

    Se supone:

    Yij i .i .d . N"i , s

    2# ,i = 1, ....I , j = 1, ...., ni

    Hiptesis del modelo:

    Normalidad: Yij # N"i , s

    2#, 8i , j .

    Independencia: Cov(Yij ,Ykh) = 0, si i 6= k o j 6= h (bajo normalidad)Igualdad de varianzas (homocedasticidad): Var (Yij ) = s2, 8i , j .

    Tema 3 (I) (Estadstica 2) ANOVA I Curso 08/09 10 / 63

  • El modelo del ANOVA I

    Equivalentemente:

    Yij = i + (Yij % i )Yij|{z}

    aleatorio

    = i|{z}determinista

    + #ij ,|{z}aleatorio

    donde #ij = Yij % i es el error aleatorio.

    Suposiciones:

    Normalidad: #ij # N"0, s2

    #, 8i , j .

    Independencia: Cov(#ij , #kh) = 0, si i 6= k o j 6= h (bajo normalidad)Igualdad de varianzas (homocedasticidad):Var (#ij ) = Var (Yij ) = s2, 8i , j .

    Tema 3 (I) (Estadstica 2) ANOVA I Curso 08/09 11 / 63

  • El modelo del ANOVA I

    Yij # N"i , s

    2#

    Generacion datos (Click!)

    Tema 3 (I) (Estadstica 2) ANOVA I Curso 08/09 12 / 63

    Camila Francisca

  • El modelo del ANOVA I

    Parametrizacin alternativa

    Yij = + (i % ) + (Yij % i )Yij|{z}

    aleatorio

    = + ai| {z }determinista

    + #ij ,|{z}aleatorio

    donde ai = i % es el efecto del nivel i del factor.En este caso es necesario (sobreparametrizacin) incluir la restriccin:

    I

    i=1

    piai = 0

    donde pi es la proporcin de individuos en el nivel i . Si el diseo esequilibrado (p1 = . . . = pI = p), esta condicin es

    I

    i=1

    ai = 0

    Tema 3 (I) (Estadstica 2) ANOVA I Curso 08/09 13 / 63

    Camila Francisca

    Camila Francisca

  • El modelo del ANOVA I

    El contraste principal ser:!H0 : a1 = ... = aI = 0H1 : ai 6= 0 para algn i

    En cualquier caso el nmero de parmetros a estimar es I + 1:

    1, . . . , I , s2.

    En el modelo alternativo:

    , a1, . . . , aI%1,s2.

    Los estimadores (mnimo-cuadrticos) de las medias/efectos se obtendranreemplazando las medias tericas por las correspondientes muestrales:

    i = Y i ! = Y !!ai = Y i ! % Y !!,

    Tema 3 (I) (Estadstica 2) ANOVA I Curso 08/09 14 / 63

  • El contraste ANOVA I

    El contraste ANOVA IIdea

    i 1 2 3

    yij

    20.118.919.921.1

    22.121.922.221.8

    23.724.323.624.4

    y i ! 20 22 24

    i 1 2 3

    yij

    45.20.810.523.5

    8.430.637.511.5

    15.244.81.434.6

    y i ! 20 22 24

    444N =

    Envase

    321

    Vent

    as

    25

    24

    23

    22

    21

    20

    19

    18444N =

    Envase

    321

    Vent

    as

    50

    40

    30

    20

    10

    0

    Tema 3 (I) (Estadstica 2) ANOVA I Curso 08/09 15 / 63

  • El contraste ANOVA I

    Los datos de ambas tablas presentan las mismas diferencias en lasmedias de los niveles del factor, sin embargo en el primer caso,parece que estas medias son diferentes y en el segundo caso no estclaro si las diferencias son reales o si se deben a la variabilidad delexperimento.Las diferencias en las medias en el primer caso son grandescomparadas con la variabilidad experimental, mientras que en elsegundo ejemplo las diferencias en las medias son pequeas si secomparan con la variabilidad de los datos.

    Lo que sugiere como estadstico del contraste, un cociente:

    Variabilidad entre gruposVariabilidad dentro de grupos

    si resulta "signicaticamente grande aceptaremos que hay diferenciasentre las medias de los grupos.

    Tema 3 (I) (Estadstica 2) ANOVA I Curso 08/09 16 / 63

  • El contraste ANOVA I

    Identidad de la suma de cuadrados

    Las diferencias entre los datos observados y la media global:

    (Yij % Y!!)pueden expresarse mediante la siguiente identidad:

    (Yij % Y!!) = (Yi ! % Y!!) + (Yij % Yi !)a partir de la cual se obtiene la denominada identidad de la suma decuadrados:

    I

    i=1

    ni

    j=1

    (Yij % Y!!)2| {z }VTotal

    =I

    i=1

    ni (Yi ! % Y!!)2| {z }VTr

    +I

    i=1

    ni

    j=1

    (Yij % Yi !)2| {z }VR

    Tema 3 (I) (Estadstica 2) ANOVA I Curso 08/09 17 / 63

  • El contraste ANOVA I

    En esta identidad pueden identicarse tres componentes:

    1 La variabilidad total o suma total de cuadrados:

    VTotal = SSTotal =I

    i=1

    ni

    j=1

    (Yij % Y!!)2 =I

    i=1

    ni

    j=1

    Y 2ij %Y 2!!n

    mide la variabilidad de los datos respecto a la media global.2 La variabilidad explicada por los tratamientos o suma de

    cuadrados de los tratamientos:

    VTr = SSTr =I

    i=1

    ni (Yi ! % Y!!)2 =I

    i=1

    Y 2i !ni% Y

    2!!n

    mide las diferencias entre los niveles del factor.3 La variabilidad no explicada o residual o suma de cuadrados del

    error:

    VR = SSR =I

    i=1

    ni

    j=1

    (Yij % Yi !)2 = SSTotal % SSTr

    mide la variabilidad dentro de los niveles del factor.Tema 3 (I) (Estadstica 2) ANOVA I Curso 08/09 18 / 63

  • El contraste ANOVA I

    VTotal = VTr + VR

    Tema 3 (I) (Estadstica 2) ANOVA I Curso 08/09 19 / 63

  • El contraste ANOVA I

    Los valores esperados de las sumas de cuadrados dependen del nmero desumandos, es preferible utilizar otras medidas de variabilidad: varianzas.

    Dividiendo por los correspondientes grados de libertad (nmero desumandos - restricciones que verican) se obtienen las varianzas ocuadrados medios:

    S2Y = MSTotal =SSTotaln% 1 =

    1n% 1

    I

    i=1

    ni

    j=1

    (Yij % Y!!)2

    S2Tr = MSTr =SSTrI % 1 =

    1I % 1

    I

    i=1

    ni (Yi ! % Y!!)2

    S2R = MSR =SSRn% I =

    1n% I

    I

    i=1

    ni

    j=1

    (Yij % Yi !)2

    Tema 3 (I) (Estadstica 2) ANOVA I Curso 08/09 20 / 63

  • El contraste ANOVA I Distribucin del estadstico del contraste

    Distribucin del estadstico del contraste

    Puede verse que:

    E (MSR ) = s2

    E (MSTr ) = s2 +

    Ii=1

    ni (i % )2

    I % 1

    Por tanto:

    MSR es siempre un estimador insesgado de s2:

    MSR =Ii=1(ni % 1)S2iIi=1(ni % 1)

    siendo S2i =1

    ni % 1ni

    j=1

    (Yij % Yi !)2

    MSTr es un estimador insesgado de s2 slo si la hiptesis nulade igualdad de medias es cierta (en caso contrario cuanto mayor seanlos efectos de los niveles mayor ser su esperanza).

    Tema 3 (I) (Estadstica 2) ANOVA I Curso 08/09 21 / 63

  • El contraste ANOVA I Distribucin del estadstico del contraste

    Puede verse adems que:SSRs2

    # c2n%Iy bajo la hiptesis nula:

    SSTrs2

    # c2I%1Por tanto:

    F0 =

    SSTrs2

    I%1SSRs2

    n%I

    =SSTrI%1SSRn%I

    =MSTrMSR

    #Si.H0 cierta

    FI%1,n%I

    El estadstico del contraste F0 tiende a tomar valores pequeos(prximos a 1) cuando la hiptesis nula es cierta y grandes cuando esfalsa (ms grandes cuanto mayores sean los efectos de los niveles delfactor ai = i % ).

    Tema 3 (I) (Estadstica 2) ANOVA I Curso 08/09 22 / 63

  • El contraste ANOVA I Realizacin del contraste

    Realizacin del contraste

    Teniendo en cuenta las observaciones anteriores, se rechaza H0 al nivel designicacin a si:

    F0 =msTrmsR

    > FI%1,n%I ,1%a

    en caso contrario se acepta.Conviene obtener el nivel crtico del test o p-valor (probabilidad de obtenerun resultado tan extrao o ms que el observado bajo H0):

    p = P"FI%1,n%I & F0

    #Este valor proporciona mayor informacin, en el sentido de que cuantomayor sea este nivel crtico (comparado con a), ms seguros estaremos enla aceptacin de la hiptesis nula y viceversa.

    Tema 3 (I) (Estadstica 2) ANOVA I Curso 08/09 23 / 63

  • El contraste ANOVA I Realizacin del contraste

    Los resultados se suelen presentar en la tabla del ANOVA I:

    Fuente de

    variacinSS gl MS F p-valor

    Tratamiento ssTr I % 1 msTr= ssTrI%1 F0=msTrmsR pResidual ssR n% I msR= ssRn%ITotal ssTotal n% 1 msTotal= ssTotaln%1

    Como medida de la variabilidad debida al factor se utiliza normalmente elcoeciente de determinacin:

    R2 =ssTrssTotal

    proporcin de variabilidad de la respuesta explicada por el factor (debida adiferencias entre niveles).

    Tema 3 (I) (Estadstica 2) ANOVA I Curso 08/09 24 / 63

  • El contraste ANOVA I Realizacin del contraste

    EjemploTiempo de desarrollo de interfaces

    MtodoProg UIMS UIMS+Prog1.92.41.12.3

    0.81.50.41.0

    1.20.80.20.6

    Totales

    yi ! y1!= 7.7 y2!= 3.7 y3!= 2.8 y!!= 14.2ni n1= 4 n2= 4 n3= 4 n = 12y i ! y1!= 1.925 y2!= 0.925 y3!= 0.7 y !!= 1.183bai=y i !%y !! ba1= 0.742 ba2= %0.258 ba3= %0.484 0

    Tema 3 (I) (Estadstica 2) ANOVA I Curso 08/09 25 / 63

  • El contraste ANOVA I Realizacin del contraste

    ssTr =I

    i=1

    ni (y i ! % y !!)2 = 43

    i=1

    ba2i= 4' "0.7452 + 0.2552 + 0.4802# = 3.406

    ssTot = ij(yij % y !!)2 =

    ijy2ij % ny2!! =

    = 22.4% 12' 1.1832 = 5.606

    ssR = ije2ij = ssTot % ssTr =

    = 5.606% 3.406 = 2.2

    Tema 3 (I) (Estadstica 2) ANOVA I Curso 08/09 26 / 63

  • El contraste ANOVA I Realizacin del contraste

    F. var. SS gl MS F p-valorMtodo 3.406 2 1.703 6.98 p = P (F2,9 & 6.98) = 0.015Residual 2.2 9 0.244Global 5.606 11 0.51

    Como F0 = 6.94 > F2,9,0.95 = 4.26) Rechazamos H0 (al nivel designicacin a = 0.05)

    El p%valor (a partir de las tablas):0.01 = P (F2,9 & 8.02) < p < P (F2,9 & 5.71) = 0.025

    p ) a = 0.05) Rechazamos H0.

    R2 ("Mtodo") =3.4065.606

    = 0.61

    El modelo explica un 61% de la variabilidad de la respuesta (debida adiferencias entre mtodos).

    Tema 3 (I) (Estadstica 2) ANOVA I Curso 08/09 27 / 63

  • El contraste ANOVA I Realizacin del contraste

    En caso de que el contraste sea estadsticamente signicativo (p ) a),aceptamos H1 : i 6= j para algn i 6= j , se suele estudiar entre queniveles hay diferencias signicativas utilizando algn mtodo decomparaciones mltiples: (

    Hij0 : i = jHij1 : i 6= j

    se comparan todos los pares de niveles (en total m = (I2) =I (I%1)

    2comparaciones posibles).

    En el caso de aceptar H0 no tienen sentido (e incluso se puede pensar enutilizar mtodos estadsticos univariantes).

    Hay que tener en cuenta tambin que el resultado del test puede no serestadsticamente signicativo debido a no haber considerado factoresadicionales o a tamaos muestrales pequeos.

    Tema 3 (I) (Estadstica 2) ANOVA I Curso 08/09 28 / 63

  • Inferencia sobre los parmetros Estimaciones puntuales y por IC

    Inferencia sobre los parmetros

    Los estimadores mnimo-cuadrticos de las medias tericas son las mediasmuestrales:

    i = Y i !=1ni

    ni

    j=1

    Yij

    Puede verse fcilmente que:

    i = Y i ! # N*i ,

    s2

    ni

    +y adems son independientes.

    Adicionalmente, por el teorema de Gauss-Markov, estos estimadores sonlos estimadores lineales insesgados de varianza mnima (los msecientes).

    Tema 3 (I) (Estadstica 2) ANOVA I Curso 08/09 29 / 63

  • Inferencia sobre los parmetros Estimaciones puntuales y por IC

    i = Y i ! # N*i ,

    s2

    ni

    +

    Generacion datos (Click!)

    Tema 3 (I) (Estadstica 2) ANOVA I Curso 08/09 30 / 63

  • Inferencia sobre los parmetros Estimaciones puntuales y por IC

    i = Y i ! # N*i ,

    s2

    ni

    +

    Generacion datos (Click!)

    Tema 3 (I) (Estadstica 2) ANOVA I Curso 08/09 31 / 63

  • Inferencia sobre los parmetros Estimaciones puntuales y por IC

    Con la parametrizacin alternativa:

    = Y !!ai = Y i ! % Y !!,

    sin embargo estos estimadores no son independientes.

    = Y !! # N*,

    s2

    n

    +En el caso de diseos equilibrados:

    ai # N*ai , s

    2 (I % 1)n

    +NOTA: Diferencias en las medias equivalen a diferencias en los efectos:

    i % j = ai % aj , 8i , ji % j = ai % aj , 8i , j

    Tema 3 (I) (Estadstica 2) ANOVA I Curso 08/09 32 / 63

  • Inferencia sobre los parmetros Estimaciones puntuales y por IC

    Como ya se vi anteriormente, un estimador insesgado de la varianza es lavarianza residual:

    S2R =SSRn% I =

    1n% I

    I

    i=1

    ni

    j=1

    (Yij % Yi !)2

    y el estadstico pivote asociado es:

    (n% I ) S2Rs2

    =SSRs2

    # c2n%IA partir del cual, p.e. obtendramos las estimaciones por intervalo deconanza, de nivel 1% a, de s2:

    (n% I ) S2Rc2n%I , a2

    ;(n% I ) S2Rc2n%I ,1% a2

    !=

    SSRc2n%I , a2

    ;SSR

    c2n%I ,1% a2

    !NOTA: Si denotamos por Yij = i = + ai = Y i ! las predicciones con elmodelo estimado, se denominan residuos a las diferencias:

    eij = Yij % Yij = Yij % Y i !Tema 3 (I) (Estadstica 2) ANOVA I Curso 08/09 33 / 63

  • Inferencia sobre los parmetros Estimaciones puntuales y por IC

    Como (normalmente) la varianza es desconocida, las distribucionestericas de los estimadores de los parmetros no son de utilidad en laprctica. Sustituyendo la varianza por su estimador insesgado, obtenemoslos correspondientes estadsticos pivote:

    Yi ! % is (Yi !)

    # tn%I

    donde:

    s2 (Yi !) =S2Rni

    Se pueden utilizar, siguiendo el procedimiento habitual, para construirintervalos de conanza:

    IC(1%a) (i ) =.Yi ! * tn%I ,1% a2 s (Yi !)

    /o realizar contrastes de hiptesis.

    Tema 3 (I) (Estadstica 2) ANOVA I Curso 08/09 34 / 63

  • Inferencia sobre los parmetros Estimaciones puntuales y por IC

    EjemploTiempo de desarrollo de interfaces

    MtodoProg UIMS UIMS+Prog

    i = y i ! y1!= 1.925 y2!= 0.925 y3!= 0.7 = y !!= 1.183bai=y i !%y !! ba1= 0.742 ba2= %0.258 ba3= %0.484

    F. var. SS gl MS F p-valorMtodo 3.406 2 1.703 6.98 p = P (F2,9 & 6.98) = 0.015Residual 2.2 9 0.244Global 5.606 11 0.51

    s2 = s2R = 0.244

    Tema 3 (I) (Estadstica 2) ANOVA I Curso 08/09 35 / 63

  • Inferencia sobre los parmetros Estimaciones puntuales y por IC

    IC0.95(s2) =

    ssR

    c29,0.975,

    ssRc29,0.025

    !=

    *2.219.02

    ,2.22.7

    += (0.116, 0.815)

    IC0.95 (i ) =

    0@y i ! * t9,0.95s

    s2Rni

    1A = y i ! * 2.262r0.2444!

    = (y i ! * 2.262 ! 0.247 ) = (y i ! * 0.559)

    IC0.95 (1) = (1.925* 0.559) = (1.366, 2.484)IC0.95 (2) = (0.925* 0.559) = (0.366, 1.484)IC0.95 (3) = (0.7* 0.559) = (0.141, 1.259)

    Tema 3 (I) (Estadstica 2) ANOVA I Curso 08/09 36 / 63

  • Comparaciones mltiples

    Comparaciones mltiples

    Cuando en el contraste del ANOVA se acepta H1 : i 6= j para algni 6= j , se suele estudiar entre que niveles hay diferencias signicativas, p.e.realizando los contrastes:(

    Hij0 : i = j + ai = ajHij1 : i 6= j + ai 6= aj

    , 8i < j

    En total hay m = (I2) =I (I%1)

    2 comparaciones posibles, las cualesaumentan considerablemente al aumentar el nmero de niveles, porejemplo, si I = 6 entonces m = 15.

    Hay una gran cantidad de mtodos disponibles en la actualidad. Hay quetener en cuenta que resulta importante tener controlada la probabilidadglobal de error tipo I, i.e.:

    P (aceptar que hay alguna diferenciaj no hay diferencias) ) aTema 3 (I) (Estadstica 2) ANOVA I Curso 08/09 37 / 63

  • Comparaciones mltiples LSD

    El mtodo LSD

    El mtodo LSD o mtodo de la mnima diferencia signicativa esequivalente a realizar mltiples test t entre los pares de medias (con nivelde signicacin a cada una).Se utiliza el estadstico pivote:

    T ij0 =Y i . % Y j .

    SRq

    1ni+ 1nj

    #Si i=j

    tn%I

    rechazndose la hiptesis nula Hij0 : i = j + ai = aj , si:777tij0 777 =77y i . % y j .77sRq

    1ni+ 1nj

    & tn%I ,1% a2

    El p%valor ser:p = 2P

    .tn%I &

    777tij0 777/Tema 3 (I) (Estadstica 2) ANOVA I Curso 08/09 38 / 63

  • Comparaciones mltiples LSD

    EjemploTiempo de desarrollo de interfaces

    tn%I ,1% a2 = t9,0.975 = 2.262

    Diseo equilibrado ) s "Y i . % Y j .# = sRq 24 =r

    0.2442

    = 0.349

    H120 : 1 = 2 + a1 = a2y1. % y2. = 1.925% 0.925 = 1.077t120 77 = j1.0j0.349 = 2.865 & 2.262) rechazamos H120p12 = 2 ! P (t9 & 2.865) = 0.0192 ! 0.005 < p12 < 2 ! 0.01 (tablas)

    Tema 3 (I) (Estadstica 2) ANOVA I Curso 08/09 39 / 63

  • Comparaciones mltiples LSD

    H130 : 1 = 3 + a1 = a3y1. % y3. = 1.925% 0.7 = 1.22577t130 77 = j1.225j0.349 = 3.510 & 2.262) rechazamos H130p13 = 2 ! P (t9 & 3.510) = 0.007p13 < 2 ! 0.005 (tablas)

    H230 : 2 = 3 + a2 = a3y2. % y3. = 0.925% 0.7 = 0.22577t230 77 = j0.225j0.349 = 0.645 < 2.262) aceptamos H230p23 = 2 ! P (t9 & 0.645) = 0.535p23 > 2 ! 0.25 (tablas)

    Tema 3 (I) (Estadstica 2) ANOVA I Curso 08/09 40 / 63

  • Comparaciones mltiples LSD

    El principal problema del mtodo LSD es que la probabilidad de errortipo I puede ser mucho mayor que a cuando el nmero de niveles esgrande.Si denotamos los sucesos:

    A = rechazar alguna Hij0 siendo 1 = . . . = I "

    Aij = rechazar Hij0 siendo i = j"

    entonces P(Aij ) = a, y si suponemos (por simplicidad) que sonindependientes:

    P(A) = P"[mij Aij# = P .\mij Aij/ = 1% P "\mij Aij#

    = 1% (1% a)m / aPor ejemplo, si a = 0.05 e I = 6 entonces m = 15 yP(A) = 1% 0.9515 = 0.54/ 0.05.

    Tema 3 (I) (Estadstica 2) ANOVA I Curso 08/09 41 / 63

  • Comparaciones mltiples Bonferroni

    El mtodo de Bonferroni

    Este mtodo es una ligera modicacin del LSD para controlar a un nivela, la probabilidad global de error tipo I (P(A) ) a).

    El estadstico es el empleado en el mtodo LSD, diferencindose en que laspruebas se realizan con un nivel de signicacin:

    a0 =a

    m

    considerando como punto crtico:

    tn%I ,1% a02= tn%I ,1% a2m

    con lo que la diferencia entre dos promedios muestrales tiene que sermayor para ser considerada signicativa (pudiendo aparecer problemascuando el nmero de niveles es grande).

    Tema 3 (I) (Estadstica 2) ANOVA I Curso 08/09 42 / 63

  • Comparaciones mltiples Sche

    El mtodo de Sche

    El mtodo de Sche controla tambin la probabilidad global de error tipoI (P(A) = a).

    En este caso se considera como punto crticoq(I % 1) FI%1,n%I ,1%a

    rechazndose la hiptesis nula si:77Y i . % Y j .77sRq

    1ni+ 1nj

    &q(I % 1) FI%1,n%I ,1%a

    Este mtodo es "coherente" con el contraste del ANOVA e independientedel nmero de comparaciones (adecuado tambin para otros contrastes).

    NOTA: Otro mtodo que puede ser de inters (especialmente para el casode diseos equilibrados) es el mtodo de Tukey.

    Tema 3 (I) (Estadstica 2) ANOVA I Curso 08/09 43 / 63

  • Comparaciones mltiples Ejemplo

    EjemploTiempo de desarrollo de interfaces

    Equivalentemente, rechazamos Hij0 si77y i . % y j .77 & wasR

    s1ni+

    1nj

    LSD: wa = tn%I ,1% a2 = t9,0.975 = 2.262) d = 2.262 ! 0.349 = 0.789Bonferroni: wa = tn%I ,1% a2m = t9,0.9916 = 2.95 (' 2.9, tablas)) d = 2.95 ! 0.349 = 1.029Sche: wa =

    p2 ! F2,9,0.95 =

    p2 ! 4.26 = 2.919

    ) d = 2.919 ! 0.349 = 1.019

    y i . % y j . LSD Bonferroni ScheH120 : 1 = 2 1.0 1 6= 2 1 = 2 1 = 2H130 : 1 = 3 1.225 1 6= 3 1 6= 3 1 6= 3H230 : 2 = 3 0.225 2 = 3 2 = 3 2 = 3

    Tema 3 (I) (Estadstica 2) ANOVA I Curso 08/09 44 / 63

  • Comparaciones mltiples Intervalos de conanza

    Intervalos de conanza

    Anlogamente:

    IC(1%a).i % j

    /= IC(1%a) (ai % aj )=

    "Y i . % Y j . *was

    "Y i . % Y j .

    ##=

    Y i . % Y j . *waSR

    s1ni+

    1nj

    !

    Considerando como puntos crticos wa:

    LSD: wa = tn%I ,1% a2Bonferroni: wa = tn%I ,1% a2mSche: wa =

    p(I % 1) FI%1,n%I ,1%a

    Tema 3 (I) (Estadstica 2) ANOVA I Curso 08/09 45 / 63

  • Comparaciones mltiples Intervalos de conanza

    EjemploTiempo de desarrollo de interfaces

    1 % 2y1. % y2. = 1.925% 0.925 = 1.0

    I LSD0.95 (1 % 2) = (1.0 3 2.262 ! 0.349) = (1.0 3 0.789)= (0.211, 1.789)

    I Bonferroni0.95 (1 % 2) = (1.0 3 2.95 ! 0.349) = (1.0 3 1.029)= (%0.029, 2.029)

    I Sche e0.95 (1 % 2) = (1.0 3 2.919 ! 0.349) = (1.0 3 1.019)= (%0.019, 2.019)

    Tema 3 (I) (Estadstica 2) ANOVA I Curso 08/09 46 / 63

  • Comparaciones mltiples Intervalos de conanza

    1 % 3y1. % y3. = 1.925% 0.7 = 1.225

    I LSD0.95 (1 % 3) = (1.225 3 0.789) = (0.436, 2.014)I Bonferroni0.95 (1 % 3) = (1.2253 1.029) = (0.196, 2.254)I Sche e0.95 (1 % 3) = (1.225 3 1.019) = (0.206, 2.244)

    2 % 3y2. % y3. = 0.925% 0.7 = 0.225

    I LSD0.95 (2 % 3) = (0.225 3 0.789) = (%0.564, 1.014)I Bonferroni0.95 (2 % 3) = (0.2253 1.029) = (%0.76, 1.21)I Sche e0.95 (2 % 3) = (0.225 3 1.019) = (%0.804, 1.254)

    Tema 3 (I) (Estadstica 2) ANOVA I Curso 08/09 47 / 63

  • Caso general: Contrastes

    Caso general: Contrastes

    Las comparaciones mltiples son un caso particular de inferencia sobrecontrastes.Se denomina contraste q, a una combinacin lineal de la forma:

    q =I

    i=1

    biai , conI

    i=1

    bi = 0

    El estimador puntual (lineal insesgado de varianza mnima) del contraste qes

    q =I

    i=1

    bi ai =I

    i=1

    biY i !

    de donde se deduce que:

    q =I

    i=1

    biY i # N

    I

    i=1

    biai , s2I

    i=1

    b2ini

    !

    Tema 3 (I) (Estadstica 2) ANOVA I Curso 08/09 48 / 63

  • Caso general: Contrastes

    Principales contrastes:

    Contrastes a pares (pairwise):

    q b1 b2 b3a1 % a2 1 -1 0a1 % a3 1 0 -1a2 % a3 0 1 -1

    Tratamientos frente a control:q b1 b2 b3

    a1 % a3 1 0 -1a2 % a3 0 1 -1

    Diferencias entre grupos:q b1 b2 b3

    a1 % (a2%a3)2 1 -12 - 12

    Contrastes polinmicos: Cuando el factor es ordinal (p.e. nivelesequiespaciados) puede interesar contrastar si hay una tendencia lineal,cuadrtica,...

    Tema 3 (I) (Estadstica 2) ANOVA I Curso 08/09 49 / 63

  • Caso general: Contrastes

    A partir del estadstico pivote:

    q % qs(q)

    # tn%I

    siendo:

    s(q) = SR

    vuut Ii=1

    b2ini

    se pueden construir intervalos de conanza y realizar contrastes dehiptesis, considerando distintos puntos crticos wa:

    LSD: wa = tn%I ,1% a2Bonferroni (m contrastes simultneos): wa = tn%I ,1% a2mSche: wa =

    p(I % 1) FI%1,n%I ,1%a

    Tema 3 (I) (Estadstica 2) ANOVA I Curso 08/09 50 / 63

  • Caso general: Contrastes

    Los intervalos de conanza son de la forma:

    "q *was(q)

    #=

    0@ Ii=1

    bi ai *waSR

    vuut Ii=1

    b2ini

    1ASe rechaza la hiptesis nula H0 : q = 0 si:77q77

    s(q)=

    777Ii=1 bi ai 777SRqIi=1

    b2ini

    & wa

    Tema 3 (I) (Estadstica 2) ANOVA I Curso 08/09 51 / 63

  • Caso general: Contrastes Ejemplo

    EjemploTiempo de desarrollo de interfaces

    Constrastar si hay diferencias al considerar UIMS(H0 : 1 =

    2+32 + a1 = a2+a32

    H1 : 1 6= 2+32 + a1 6= a2+a32q = y1. % 12y2. % 12y3.

    = 1.925% 0.925% 0.7 = 0.3s2(q) = s2R

    1+ 1/4+ 1/44

    = 0.244 ! 38= 0.092

    jt0j = j0.3jp0.092

    = 0.989 < 2.262) aceptamos H0

    Tema 3 (I) (Estadstica 2) ANOVA I Curso 08/09 52 / 63

  • Diagnosis del modelo

    Diagnosis del modelo

    Es importante recordar que las conclusiones obtenidas con este mtodose basan en las hiptesis bsicas del modelo:

    normalidad (homogeneidad)

    homocedasticidad

    independencia

    Si alguna de estas hiptesis no es cierta, las conclusiones obtenidaspueden no ser ables, o incluso totalmente erroneas.

    Es importante vericar si las hiptesis bsicas del modelo son adecuadaspara los datos: Diagnosis del modelo.

    Para ello se pueden emplear desde mtodos descriptivos (p.e. el grco decajas) hasta contrastes de hiptesis, como por ejemplo los descritos en elcaptulo 1 (principalmente aplicados sobre los residuos).

    Tema 3 (I) (Estadstica 2) ANOVA I Curso 08/09 53 / 63

  • Diagnosis del modelo Observaciones

    Observaciones

    La falta de normalidad tiene poca inuencia en el contraste F delANOVA (tctica robusta frente a desviaciones de la normalidad).Aunque si el nmero de observaciones es pequeo, la distribucin delos datos debera ser simtrica. Por el contrario, si que puede verseafectada la estimacin de la varianza (y la inferencia sobre losparmetros).

    El efecto de varianzas desiguales, depende en gran medida delnmero de observaciones por grupo, si el diseo es ms o menosequilibrado, los resultados obtenidos con el test F son vlidos. Sinembargo, si el nmero de observaciones vara mucho entre losdistintos grupos (p.e. ni / 2nj ), el efecto puede ser bastanteacusado. Inuye sobre todo en la estimacin de la varianza.

    La dependencia entre observaciones puede tener un efectomucho ms grave, el procedimiento ms adecuado para prevenir ladependencia es hacer uso de la aleatorizacin.

    Tema 3 (I) (Estadstica 2) ANOVA I Curso 08/09 54 / 63

  • Diagnosis del modelo Residuos y datos atpicos

    Residuos y datos atpicos

    Como los errores tericos son desconocidos, se puede pensar en chequearhiptesis sobre su distribucin a partir de la de los residuos eij = yij % y i !.Por ejemplo, los residuos estandarizados:

    rij =eijsR

    ,

    deberan seguir una distribucin prxima a la normal estandar.Un dato atpico (outlier) es una observacin "rara" comparada con elresto de observaciones (anormalmente ms grande o ms pequea de loesperado). Se detectan cuando el correspondiente residuo es un valorinusual (poco probable) en relacin a la distribucin asociada. Uncriterio general bastante aceptado es considerar un valor atpico cuando:

    jrij j > 3.Si las conclusiones obtenidas dependen en gran medida de una observacinatpica, esta se denomina inuyente y debe ser examinada con cuidadopor el experimentador.

    Tema 3 (I) (Estadstica 2) ANOVA I Curso 08/09 55 / 63

  • Diagnosis del modelo Mtodos descriptivos

    Mtodos descriptivos

    Una de las formas para llevar la diagnosis del modelo es a partir degrcos. Entre ellos, estn:

    Los diagramas de cajas:

    Estos grcos son de utilidad para detectar heterocedasticidad (alturade las cajas), falta de normalidad (simetra de las cajas) o presencia dedatos atpicos

    Tema 3 (I) (Estadstica 2) ANOVA I Curso 08/09 56 / 63

  • Diagnosis del modelo Mtodos descriptivos

    Los grcos de residuos y residuos estandarizados (histogramas,dispersin, residuos frente al indice temporal (t, et ), residuos frente aresiduos retardados (et%1, et ) , etc).

    Es especialmente recomendable generar el grco de residuos tipicados"rij = eij/SR

    #frente a predicciones (yij ) ser til para detectar

    heterocedasticidad y valores atpicos (falta de normalidad):

    o el efecto de un factor omitido: mala especicacin del modelo.Tema 3 (I) (Estadstica 2) ANOVA I Curso 08/09 57 / 63

  • Diagnosis del modelo Mtodos descriptivos

    Si se quiere chequear con mayor detalle la normalidad, se puedenemplear los grcos de probabilidad normal (P-P plot, Q-Q plot)

    Tema 3 (I) (Estadstica 2) ANOVA I Curso 08/09 58 / 63

  • Diagnosis del modelo Mtodos descriptivos

    Para chequear la igualdad de varianzas se puede utilizar tambin elgrco varianzas-medias dispersin-nivel:

    Tema 3 (I) (Estadstica 2) ANOVA I Curso 08/09 59 / 63

  • Diagnosis del modelo Mtodos descriptivos

    Estadsticos descriptivos

    Es recomendable calcular estadsticos bsicos (media,mediana, varianza,desviacin tpica, coeciente de asimetra y de curtosisestandarizados) de la variable respuesta (o de los residuos) para cadanivel del factor.Pueden proporcionar una idea sobre la inuencia del factor, la normalidadde los datos, la presencia de datos atpicos, detectar heterocedasticidad ysu inuencia en las conclusiones obtenidas con el ANOVA.

    Por ejemplo, si los tamaos muestrales de los grupos son similares y:

    S2maxS2min

    < 3

    es de esperar que la heterocedasticidad no afecte al test F , ni a losmtodos de comparaciones mltiples.

    Tema 3 (I) (Estadstica 2) ANOVA I Curso 08/09 60 / 63

  • Diagnosis del modelo Contrastes de hiptesis

    Contrastes de hiptesis

    Si se quiere llevar a cabo un contraste formal sobre las hiptesis delmodelo pueden emplearse contrastes de normalidad:

    Kolmogorov-Smirnov-Lilliefors.

    Shapiro-Wilks.

    Test chi-cuadrado de bondad de ajuste.

    Contrastes de asimtra y curtosis...

    Para contrastar independencia se pueden utilizar:

    contrastes de aleatoriedad basados en rachas.

    contrastes basados en autocorrelaciones (p.e. el test de Ljung-Box),...

    Tema 3 (I) (Estadstica 2) ANOVA I Curso 08/09 61 / 63

  • Diagnosis del modelo Contrastes de hiptesis

    Para contrastar la igualdad de varianzas:!H0 : s21 = s22 = ... = s2IH1 : s2i 6= s2j para algn i 6= j

    es recomendable emplear el test de Levene.

    Es un contraste para la homogeneidad de varianzas menos dependiente delsupuesto de normalidad que la mayora de las pruebas.

    Para cada caso, se calcula la diferencia entre el valor de dicho caso y lamedia (o uno de los estimadores robustos) del grupo correspondiente y selleva a cabo un anlisis de varianza de un factor sobre estas diferencias envalor absoluto.

    Tema 3 (I) (Estadstica 2) ANOVA I Curso 08/09 62 / 63

  • Diagnosis del modelo Alternativas

    Alternativas

    Cuando no se satisfacen los supuestos bsicos puede llevarse a cabouna transformacin de los datos para corregir la heterocedasticidady/o falta de normalidad (normalmente "suelen ocurrir en la mismaescala"). El grco dispersin-nivel puede ayudar a seleccionar latransformacin.

    Como contrastes de hiptesis no paramtricos alternativos sepuede pensar en utilizar el test de Kruskal-Wallis, como alternativaal test F (y la prueba de la suma de rangos de Wilcoxon para lascomparaciones mltiples, Bonferroni).

    Si no se cumple la hiptesis de independencia, puede ser adecuadoutilizar modelos ANOVA para medidas repetidas.

    Tema 3 (I) (Estadstica 2) ANOVA I Curso 08/09 63 / 63

    Diseo con un factor completamente aleatorizadoIntroduccinEjemploNotacin

    El modelo del ANOVA IEl contraste ANOVA IDistribucin del estadstico del contrasteRealizacin del contraste

    Inferencia sobre los parmetrosEstimaciones puntuales y por IC

    Comparaciones mltiplesLSDBonferroniScheffEjemploIntervalos de confianza

    Caso general: ContrastesEjemplo

    Diagnosis del modeloObservacionesResiduos y datos atpicosMtodos descriptivosContrastes de hiptesisAlternativas