II Verano de las Matem¶aticas del CIMAT IV Verano de Probabilidad y Estad¶‡stica · 2011. 7....

30
II Verano de las Matem´ aticas del CIMAT IV Verano de Probabilidad y Estad´ ıstica Pruebas Secuenciales de Hip´otesis Optimalidad en Estad´ ıstica: El Caso de Prueba de Hip´otesis. Nakamura-Villa-Ramos Guanajuato, Gto. 11-22 de julio del 2011. 1

Transcript of II Verano de las Matem¶aticas del CIMAT IV Verano de Probabilidad y Estad¶‡stica · 2011. 7....

  • II Verano de las Matemáticas del CIMAT

    IV Verano de Probabilidad y Estad́ıstica

    Pruebas Secuenciales de Hipótesis

    Optimalidad en Estad́ıstica:

    El Caso de Prueba de Hipótesis.

    Nakamura-Villa-Ramos

    Guanajuato, Gto. 11-22 de julio del 2011.

    1

  • Pruebas Secuenciales de Hipótesis

    Abraham Wald (1902-1950)

    2

  • Recordar: Lema de Neyman-Pearson

    Tenemos x1, · · · , xn i.i.d. f(x; θ). Para contrastarH0 : θ = θ0 vs H1 : θ = θ1 θ0 < θ1

    La prueba más poderosa es: Rechazar H0 si

    Λn > C, donde Λn =

    ∏ni=1 f(xi; θ1)∏ni=1 f(xi; θ0)

    y el valor espećıfico de C se determina dependiendo del tamaño

    de la prueba, i.e. C es tal que P0(Λn > C) = α.

    • Rechazo H0—————————–>——————————–|——————————–

    C

    3

  • Prueba Secuencial de Razón de Probabilidades

    Sean A < B ciertas constantes. Observo x1, entonces, si

    • Λ1 < A acepto H0.

    • Λ1 > B acepto H1.

    • A ≤ Λ1 ≤ B tomo un nueva observación, calculo Λ2 y regresoal primer punto. Iteramos.

    Acepto H0

    ————–|——————–|————–Continúo

    4

  • Prueba Secuencial de Razón de Probabilidades

    • ¿Cómo determino A y B?

    • ¿Cómo tomo una decisión si pasara que siempre A ≤ Λn ≤ B?

    • ¿Qué se gana con respecto a la prueba basada en el Lema deNeyman-Pearson?

    Acepto H0

    ————–|——————–|————–Continúo

    5

  • Determinación de A y B

    Supongamos α y β con valores dados por el experto en el problema.

    α = P (Rech.H0 | H0)= P (Rech. a la primera ó a la segunda ó · · · | H0)

    =∞∑

    j=1

    P (Λj > B y A ≤ Λk ≤ B, k = 1, · · · , j − 1 | H0)

    β = P (Acep.H0 | H1)= P (Acep. a la primera ó a la segunda ó · · · | H1)

    =∞∑

    j=1

    P (Λj < A y A ≤ Λk ≤ B, k = 1, · · · , j − 1 | H1)

    Hay resolver para A y B con este par de ecuaciones · · ·6

  • Determinación de A y B

    Para darnos una idea del problema numérico involucrado, supon-gamos que x ∼ N(µ, σ2 = 1) y deseamos contrastar

    H0 : µ = µ0 vs H1 : µ = µ1

    α =∞∑

    j=1

    P (Λj > B y A ≤ Λk ≤ B, k = 1, · · · , j − 1 | H0)

    = P0(Λ1 > B) + P0(Λ2 > B y A ≤ Λ1 ≤ B) + · · ·= P0(Λ1 > B) + P0(A ≤ Λ1 ≤ B) P0(Λ2 > B | A ≤ Λ1 ≤ B) + · · ·

    y hay que resolver para A y B, pero, por ejemplo, sólo una de estasexpresiones es:

    P0(A ≤ Λ1 ≤ B) = Φ(logB + (µ21 − µ20)/2

    µ1 − µ0

    )−Φ

    (logA + (µ21 − µ20)/2

    µ1 − µ0

    )

    y ya nos podemos imaginar que si esta complicado · · ·7

  • Cotas para A y B

    Resultado: Para la prueba SPRT de Wald se tiene:

    β

    1− α ≤ A y B ≤1− β

    α

    Justificación: Sea x = (x1, · · · , xk)

    Ek ={

    x ∈ Rk | H1 se acepta}

    Fk ={

    x ∈ Rk | H0 se acepta}

    Note que los Ek’s son mutuamente excluyentes y los Fk’s también.

    Supongamos que la prueba secuencial termina en tiempo finito (lo

    cual, veremos, no es un supuesto muy restrictivo). Entonces

    P [ (∪Ek) ∪ (∪Fk) | H0 ] = 1P [ (∪Ek) ∪ (∪Fk) | H1 ] = 1

    8

  • Cotas para A y B

    Note que

    Λk =

    ∏ki=1 f(xi; θ1)∏ki=1 f(xi; θ0)

    ≡ f1(x)f0(x)

    y que, en Ek, se cumple que Λk > B, de modo que f1(x) > Bf0(x).Entonces

    α = P ( Rech. H0 | H0 ) = P (∪Ek | H0 ) =∞∑

    k=1

    P ( Ek | H0 )

    =∞∑

    k=1

    Ekf0(x) dx ≤

    1

    B

    ∞∑

    k=1

    Ekf1(x) dx =

    1

    B

    ∞∑

    k=1

    P ( Ek | H1 )

    =1− β

    Bde aqúı que

    B ≤ 1− βα

    9

  • Cotas para A y B

    Procediendo en forma similar (hacerlo de ejercicio), se ve que

    β = P ( Acep. H0 | H1 ) ≤ A(1− α)y, por lo tanto

    β

    1− α ≤ A

    Resumiendo: Dados α y β, los valores de A y B que definen la

    SPRT, satisfacen:

    β

    1− α ≤ A y B ≤1− β

    α

    10

  • Relación de α y β con A y B

    Una forma equivalente de ver las cotas anteriores es: Dados A yB, los valores posibles para α y β satisfacen:

    α +1

    Aβ ≤ 1

    Bα + β ≤ 1• Elección conservadora:

    A = β y B = 1/α

    • Frontera de Wald

    A = β/(1−α) y B = (1−β)/α1/B 1

    A

    1

    α

    β

    11

  • SPRT en el caso Bernoulli

    Supongamos xi ∼ B(p) y consideremos el juego de hipótesisH0 : p = 0.5 vs H1 : p = 0.6

    Sea Λ1 = f1(x1)/f0(x1), la SPRT nos dice que aceptemos H1 si

    Λ1 > B, que aceptemos H0 si Λ1 < A y que continuemos muestre-

    ando si A ≤ Λ1 ≤ B.

    En el paso k:

    Sk ≡ logΛk = log∏k

    i=1 f1(xi)∏ki=1 f0(xi)

    = Sk−1 + logf1(xk)

    f0(xk)

    Si definimos zj = log[f1(xj)/f0(xj)], entonces

    Sk = z1 + z2 + · · ·+ zk−1 + zk = Sk−1 + zkNote que las zj’s son i.i.d., de aqui que Sk es una caminata aleato-

    ria.12

  • SPRT en el caso Bernoulli

    Note que f1(x) = px1(1 − p1)1−x y f0(x) = px0(1 − p0)1−x, con

    p0 = 0.5 y p1 = 0.6.

    zj = logf1(xj)

    f0(xj)=

    logp1p0si xj = 1

    log1−p11−p0 si xj = 0=

    {0.18232 si xj = 1

    −0.22314 si xj = 0Aśı que, en el paso k:

    si xk = 1 : Sk = Sk−1 + 0.18232 > logB ⇒ H1si xk = 0 : Sk = Sk−1 − 0.22314 < logA ⇒ H0

    si logA ≤ Sk ≤ logB ⇒ ir al paso k + 1Si queremos α = 0.01 y β = 0.05 y usando los valores de Wald:

    logA = logβ

    1− α = −2.986 y logB = log1− β

    α= 4.554

    Este proceso es ilustrado en las gráficas siguientes.

    13

  • 0 50 100 150 200 250 300

    −4

    −2

    02

    46

    Ejemplo SPRT bajo H0

    Sk

    14

  • 0 50 100 150 200 250 300

    −4

    −2

    02

    46

    Ejemplo SPRT bajo H1

    Sk

    15

  • Simulación anterior en R

    # H0 : p = 0.5 vs H1 : p = 0.6graf

  • Ejercicio: SPRT en pruebas con la Normal

    Supongamos xi ∼ N(µ, σ2 = 1) y consideremos el contraste de lashipótesis

    H0 : µ = µ0 vs H1 : µ = µ1

    a. Para valores de α y β dados, muestre que se puede tomar una decisión altiempo N , donde N es el primer valor de n tal que

    n∑

    i=1

    xi /∈ (an, bn)

    donde

    an =logA

    µ1 − µ0+ n

    µ1 + µ02

    bn =logB

    µ1 − µ0+ n

    µ1 + µ02

    b. Para el caso particular µ0 = 4, µ1 = 5, simule este proceso de decisión.

    c. Use simulación para estimar el tamaño de muestra esperado.

    17

  • Tamaño Esperado de Muestra

    Consideremos la prueba SPRT para el contraste

    H0 : f(x) = f0(x) vs H1 : f(x) = f1(x)

    Deseamos tener una idea del tamaño de muestra requerido bajoerrores tipos I y II dados. En otras palabras, queremos el tiempoesperado en el que la caminata SPRT alcanza ciertas barreras.

    Resultado: Sea N el tiempo (aleatorio) de paro. Entonces

    Ek(logΛN) = µkEk(N)

    donde

    µk = Ek

    (log

    f1(x)

    f0(x)

    )≡ Ek(z), k = 0,1

    Usando este resultado, se tiene que

    Ek(N) =Ek(logΛN)

    µk, k = 0,1

    18

  • Tamaño Esperado de Muestra

    Justificación: Sea SN = logΛN =∑N

    1 zi. Entonces (obviando

    notación de con respecto a cual distribución se calculan las esperanzas) :

    E(SN) = E

    N∑

    i=1

    zi

    = EN E

    N∑

    i=1

    zi | N

    = EN [ NE(z) ] = E(z) E(N)

    Esto es,

    Ek(logΛN) = µkEk(N), k = 0,1

    19

  • Aproximación al Valor de Ek(logΛN)

    Lo siguiente es un razonamiento heuŕıstico, para un argumento

    formal ver Siegmund (1985).

    Recuerde que para la SPRT, A, B, α y β están relacionados por

    β

    1− α ≤ A y B ≤1− β

    α

    La propuesta de Wald implica tomar A y B en la frontera. Estas

    aproximaciones son buenas si, al tiempo de paro, SN = logΛN no

    queda muy arriba de log(B) o muy por abajo de log(A). Esto

    es, podemos pensar a SN , al tiempo de paro, como una variable

    Bernoulli. Por lo tanto,

    E(logΛN) ≈ log(A) P (SN < logA) + log(B) P (SN > logB)

    20

  • Tamaño Esperado de Muestra de la SPRT

    Como vimos Ek(N) = Ek(logΛN) / µk, k = 0,1, entonces

    Ek(N) ≈1

    µk{ log(A) Pk(SN < logA) + log(B) Pk(SN > logB) }

    de aqúı que, bajo H0 y H1, los números esperados de observaciones

    necesarias para tomar una decisión son, respectivamente:

    E0(N) ≈1

    E0(z){ log(A) (1− α) + log(B) α }

    ≈ 1E0(z)

    {α log

    (1− β

    α

    )+ (1− α) log

    1− α) }

    E1(N) ≈1

    E1(z){ log(A) β + log(B) (1− β) }

    ≈ 1E1(z)

    {β log

    1− α)

    + (1− β) log(1− β

    α

    ) }

    21

  • Ejemplo: Comparación Wald vs Neyman-Pearson

    Supongamos el caso Normal con varianza conocida y el contrasteH0 : µ = µ0 contra H1 : µ = µ1. El tamaño de muestra requeridopara la prueba más poderosa de tamaño α y con poder fijo en1− β, está dado por (suponiendo σ = 1):

    nα,β =(z1−β − zα)2(µ1 − µ0)2

    El porcentaje de ahorro en tamaño de muestra de la prueba secuen-cial con respecto al tamaño requerido por la prueba más poderosaes:

    100

    (1− Ek(N)

    nα,β

    )%

    Para calcular Ek(N) se requieren E0(z) y E1(z). Para la Normales fácil ver que

    E0(z) = −1

    2(µ1 − µ0)2 y E1(z) =

    1

    2(µ1 − µ0)2

    22

  • Ejemplo: Comparación Wald vs Neyman-Pearson

    Bajo H0 la comparación arroja:

    αβ .01 .02 .03 .04 .05

    .01 58 54 51 49 47

    .02 60 56 53 50 49

    .03 61 57 54 51 50

    .04 62 58 55 52 50

    .05 63 59 55 53 51

    y, bajo H1, los ahorros en tamaños de muestra son:

    αβ .01 .02 .03 .04 .05

    .01 58 60 61 62 63

    .02 54 56 57 58 59

    .03 51 53 54 55 55

    .04 49 50 51 52 53

    .05 47 49 50 50 51

    23

  • Comparación Wald vs Neyman-Pearson

    • Las buenas noticias:

    – La prueba de Wald reduce sustancialmente el esfuerzo ex-

    perimental necesario para tomar una decisión.

    – En palabras de Wald: “While current tests cannot be car-

    ried out without finding the probability distribution of the

    statistic on which the test is based, there are no distribution

    problems in connection with sequential tests”.

    24

  • Comparación Wald vs Neyman-Pearson

    • Las malas:

    – Las propiedades óptimas (que veremos enseguida) de mini-

    mización de tamaño esperado de muestra, son válidas para

    hipótesis simples y no es claro que se extiendan automáticamente

    a hipótesis compuestas.

    – Si queremos hacer estimación puntual, algunas propiedades,

    por ejemplo insesgamiento, no necesariamente se cumplen

    cuando los datos provienen de un proceso de toma de de-

    cisiones secuencial.

    25

  • Resultados Preliminares para Optimalidad

    Sea A ⊂ Rn, entonces∫

    AΛn(x)f0(x) =

    A

    f1(x)

    f0(x)f0(x)dx =

    Af1(x)dx = P1(A)

    Ahora, si N es un tiempo de paro, se tiene la Identidad de Waldpara Razones de Verosimilitudes:

    AΛN(x)f0(x)dx = P1(A)

    donde interpretamos a A como su intersección con {ω|N es tiempo de paro}.

    Sea g una función convexa, entonces, usando la desigualdad deJensen y la igualdad anterior (y recordando que N es un tiempode paro), se obtiene: (siguiente lámina)

    Jensen : Si g es convexa, entonces E[g(x)] ≥ g[E(x)].26

  • Resultados Preliminares para Optimalidad

    Denotemos por {D = H1} al evento que lleva a la decisión deaceptar H1 y similarmente definimos el evento {D = H0}.∫

    Ωg(ΛN)f0(x)dx = α

    [∫

    D=H1

    g(ΛN)1

    αf0(x)dx

    ]+ (1− α)

    [∫

    D=H0

    g(ΛN)1

    1− αf0(x)dx]

    ≥ αg(∫

    D=H1

    ΛN1

    αf0(x)dx

    )+ (1− α)g

    (∫

    D=H0

    ΛN1

    1− αf0(x)dx)

    = αg

    (P1(D = H1)

    α

    )+ (1− α)g

    (P1(D = H0)

    1− α

    )

    = αg

    (1− β

    α

    )+ (1− α)g

    1− α

    )

    En particular, para g(x) = −log(x), tenemos que∫

    Ωlog(ΛN)f0(x)dx ≤ αlog

    (1− β

    α

    )+ (1− α)log

    1− α)

    Importante: Este resultado no depende de la SPRT, es general,

    para cualquier procedimiento secuencial con la propiedad de que

    sus probabilidades de los dos tipos de errores son α y β.

    27

  • Optimalidad de la SPRT

    Recuerde que

    E0(N) =E0(logΛN)

    E0(z)

    note que (Jensen con g cóncava):

    E0(z) = E0

    (log

    f1(x)

    f0(x)

    )≤ log

    [E0

    (f1(x)

    f0(x)

    )]= log(1) = 0

    esto es, E0(z) es negativo. Entonces, de la desigualdad en lalámina anterior:

    E0(N) ≥1

    E0(z)

    {αlog

    (1− β

    α

    )+ (1− α)log

    1− α)}

    El tamaño de muestra esperado de cualquier prueba secuen-cial con probabilidades de error α y β es mayor o igual queel tamaño de muestra esperado para la SPRT. Un argumentobasado en simetŕıa justifica que también es válida esta afirmaciónbajo H1.

    28

  • Optimalidad de la SPRT

    La prueba secuencial de Wald es óptima en el sentido de que

    es la prueba secuencial con el ḿınimo tamaño de muestra

    esperado, entre todas las pruebas secuenciales de tamaño α

    y potencia 1− β.

    29

  • Hipótesis Compuestas

    Supongamos, por ejemplo, que estamos interesados en

    H0 : θ ≤ θ∗ vs H1 : θ > θ∗en principio, podŕıamos considerar hipótesis auxiliares

    H0 : θ = θ0 vs H1 : θ = θ1

    donde θ0 ≤ θ∗ y θ1 > θ∗ y constrúır la función de potencia com-pleta. Existen procedimientos para hacer esto, (por supuesto sinnecesidad de efectuar las pruebas individuales) para algunos casos,e.g. para miembros de la familia exponencial de 1 parámetro. Eneste curso no cubriremos este tema pero recomendamos:

    • Siegmund, D. (1985). Sequential Analysis. Springer.

    • Wetherill, G.B. & Glazenbrook, K.D. (1986). Sequential Meth-ods in Statistics. Chapman and Hall.

    30