Bioestadística Tema 7: Introducción a los contrastes de hipótesis.

73
Bioestadística Tema 7: Introducción a los contrastes de hipótesis

Transcript of Bioestadística Tema 7: Introducción a los contrastes de hipótesis.

Page 1: Bioestadística Tema 7: Introducción a los contrastes de hipótesis.

Bioestadística

Tema 7: Introducción a los contrastes de hipótesis

Page 2: Bioestadística Tema 7: Introducción a los contrastes de hipótesis.

Objetivos del tema

• Conocer el proceso para contrastar hipótesis y su relación con el método científico.

• Diferenciar entre hipótesis nula y alternativa

• Nivel de significación

• Significación

• Toma de decisiones, tipos de error y cuantificación del error.

Page 3: Bioestadística Tema 7: Introducción a los contrastes de hipótesis.

Contrastando una hipótesis

Creo que la edad media es 40

años...

Son demasiados...

años 20X

¡Gran diferencia!

Rechazo la hipótesis

Muestra aleatoria

Page 4: Bioestadística Tema 7: Introducción a los contrastes de hipótesis.

¿Qué es una hipótesis?

• Una creencia sobre la población, principalmente sus parámetros:– Media– Varianza– Proporción/Tasa

• OJO: Si queremos contrastarla, debe establecerse antes del análisis.

Creo que el porcentaje de

enfermos será el 5%

Page 5: Bioestadística Tema 7: Introducción a los contrastes de hipótesis.

Identificación de hipótesis• Hipótesis nula Ho

– La que contrastamos

– Los datos pueden refutarla

– No debería ser rechazada sin una buena razón.

• Hip. Alternativa H1

– Niega a H0

– Los datos pueden mostrar evidencia a favor

– No debería ser aceptada sin una gran evidencia a favor.

:H

:H

1

0%50p

%50p

, ,

, ,

Page 6: Bioestadística Tema 7: Introducción a los contrastes de hipótesis.

¿Quién es H0?

• Problema: ¿La osteoporosis está relacionada con el género?

• Solución:

– Traducir a lenguaje estadístico:

– Establecer su opuesto:

– Seleccionar la hipótesis nula

%50p

%50p

%50:0 pH

Page 7: Bioestadística Tema 7: Introducción a los contrastes de hipótesis.

¿Quién es H0?

• Problema: ¿El colesterol medio para la dieta mediterránea es 6 mmol/l?

• Solución:

– Traducir a lenguaje estadístico:

– Establecer su opuesto:

– Seleccionar la hipótesis nula

6

6

6:0 H

Page 8: Bioestadística Tema 7: Introducción a los contrastes de hipótesis.

Razonamiento básico

4020X

Si supongo que H0 es cierta...

... el resultado del experimento sería improbable. Sin embargo ocurrió.

¿qué hace un científico cuando su teoría no coincide con sus predicciones?

Page 9: Bioestadística Tema 7: Introducción a los contrastes de hipótesis.

Razonamiento básico

4020X

Si supongo que H0 es cierta...

... el resultado del experimento sería improbable. Sin embargo ocurrió.

Rechazo que H0 sea cierta.

Page 10: Bioestadística Tema 7: Introducción a los contrastes de hipótesis.

Razonamiento básico

4038X

Si supongo que H0 es cierta...

... el resultado del experimento es coherente.

• No hay evidencia contra H0

•No se rechaza H0

•El experimento no es concluyente

•El contraste no es significativo

¿Si una teoría hace predicciones con éxito, queda probado que es cierta?

Page 11: Bioestadística Tema 7: Introducción a los contrastes de hipótesis.

Región crítica y nivel de significación

Región crítica• Valores ‘improbables’ si...• Es conocida antes de realizar el

experimento: resultados experimentales que refutarían H0

Nivel de significación: • Número pequeño: 1% , 5%• Fijado de antemano por el

investigador• Es la probabilidad de rechazar H0

cuando es cierta

No rechazo H0

Reg. Crit.Reg. Crit.

=5%

=40

Page 12: Bioestadística Tema 7: Introducción a los contrastes de hipótesis.

Contrastes: unilateral y bilateralLa posición de la región crítica depende de la hipótesis alternativa

Unilateral Unilateral

Bilateral

H1: <40 H1: >40

H1: 40

Page 13: Bioestadística Tema 7: Introducción a los contrastes de hipótesis.

Significación: p

H0: =40

Page 14: Bioestadística Tema 7: Introducción a los contrastes de hipótesis.

Significación: p

43X

No se rechazaH0: =40

H0: =40

Page 15: Bioestadística Tema 7: Introducción a los contrastes de hipótesis.

Significación: p

43X

No se rechazaH0: =40

Es la probabilidad que tendría una región crítica que comenzase exactamente en el valor del estadístico obtenido de la muestra. Es la probabilidad de tener una muestra que discrepe aún más que la nuestra de H0. Es la probabilidad de que por puro azar obtengamos una muestra “más extraña” que la obtenida.p es conocido después de realizar el experimento aleatorioEl contraste es no significativo cuando p>

P

P

Page 16: Bioestadística Tema 7: Introducción a los contrastes de hipótesis.

Significación : p

50X

Se rechaza H0: =40

Se acepta H1: >40

Page 17: Bioestadística Tema 7: Introducción a los contrastes de hipótesis.

Significación : p

P

P

50X

Se rechaza H0: =40

Se acepta H1: >40

El contraste es estadísticamente significativo cuando p<Es decir, si el resultado experimental discrepa más de “lo tolerado” a priori.

Page 18: Bioestadística Tema 7: Introducción a los contrastes de hipótesis.

Resumen: , p y criterio de rechazo

• Sobre – Es número pequeño,

preelegido al diseñar el experimento

– Conocido sabemos todo sobre la región crítica

• Sobre p– Es conocido tras realizar el

experimento

– Conocido p sabemos todo sobre el resultado del experimento

• Sobre el criterio de rechazo– Contraste significativo = p menor que

Page 19: Bioestadística Tema 7: Introducción a los contrastes de hipótesis.

Resumen: , p y criterio de rechazo

• Sobre el criterio de rechazo– Contraste significativo = p menor que

Estadísticos de contrastea

259753,500

462319,500

-2,317

,021

U de Mann-Whitney

W de Wilcoxon

Z

Sig. asintót. (bilateral)

Edad delencuestado

Variable de agrupación: Sexo del encuestadoa.

Page 20: Bioestadística Tema 7: Introducción a los contrastes de hipótesis.

Ejemplo

• Problema: ¿Está sesgada la moneda?

:H

:H

1

0%50cruz prob

%50cruz prob

Experimento: Lanzar la moneda Experimento: Lanzar la moneda repetidamente:repetidamente:

P=50% P=25% P=12,5% P=6,25% P=3% P=1,5%

Page 21: Bioestadística Tema 7: Introducción a los contrastes de hipótesis.

Ejemplo 1: Se juzga a un individuo por la Ejemplo 1: Se juzga a un individuo por la presuntapresunta comisión de un delito comisión de un delito

• H0: Hipótesis nula– Es inocente

• H1: Hipótesis alternativa– Es culpable

Los datos pueden refutarla

La que se acepta si las pruebas no indican lo contrario

Rechazarla por error tiene graves consecuencias

Riesgos al tomar decisiones

No debería ser aceptada sin una gran evidencia a favor.

Rechazarla por error tiene consecuencias consideradas menos graves que la anterior

Page 22: Bioestadística Tema 7: Introducción a los contrastes de hipótesis.

Ejemplo 2: Se cree que un nuevo tratamiento ofrece buenos resultadosEjemplo 2: Se cree que un nuevo tratamiento ofrece buenos resultados

Ejemplo 3: Parece que hay una incidencia de enfermedad más alta de lo normalEjemplo 3: Parece que hay una incidencia de enfermedad más alta de lo normal

• H0: Hipótesis nula– (Ej.1) Es inocente– (Ej.2) El nuevo tratamiento no tiene

efecto– (Ej.3) No hay nada que destacar

• H1: Hipótesis alternativa– (Ej.1) Es culpable– (Ej.2) El nuevo tratamiento es útil– (Ej. 3) Hay una situación anormal

Riesgos al contrastar hipótesis

No especulativa

Especulativa

Page 23: Bioestadística Tema 7: Introducción a los contrastes de hipótesis.

Tipos de error al tomar una decisión

Realidad

Inocente Culpable

veredicto

Inocente OK Error

Menos grave

Culpable Error

Muy grave

OK

Page 24: Bioestadística Tema 7: Introducción a los contrastes de hipótesis.

Tipos de error al contrastar hipótesis

Realidad

H0 cierta H0 Falsa

No Rechazo H0 CorrectoEl tratamiento no tiene efecto y así se decide.

Error de tipo IIEl tratamiento si tiene efecto pero no lo percibimos.

Probabilidad β

Rechazo H0

Acepto H1

Error de tipo IEl tratamiento no tiene efecto pero se decide que sí.

Probabilidad α

CorrectoEl tratamiento tiene efecto y el experimento lo confirma.

Page 25: Bioestadística Tema 7: Introducción a los contrastes de hipótesis.

No se puede tener todo

• Para un tamaño muestral fijo, no se pueden reducir a la vez ambos tipos de error.

• Para reducir , hay que aumentar el tamaño muestral.

Recordad lo que pasaba con

sensiblidad y especificidad

Page 26: Bioestadística Tema 7: Introducción a los contrastes de hipótesis.

Conclusiones• Las hipótesis no se plantean después de observar los datos.

• En ciencia, las hipótesis nula y alternativa no tienen el mismo papel:

– H0 : Hipótesis científicamente más simple.– H1 : El peso de la prueba recae en ella.

• α debe ser pequeño

• Rechazar una hipótesis consiste en observar si p<α

• Rechazar una hipótesis no prueba que sea falsa. Podemos cometer error de tipo I

• No rechazar una hipótesis no prueba que sea cierta. Podemos cometer error de tipo II

• Si decidimos rechazar una hipótesis debemos mostrar la probabilidad de equivocarnos.

Page 27: Bioestadística Tema 7: Introducción a los contrastes de hipótesis.

¿Qué hemos visto?• Hipótesis

– Nula– Alternativa

• Nivel de significación– α– Probabilidad de error de tipo I

• Significación, p.– Criterio de aceptación/rechazo.

• Tipos de error– Tipo I– Tipo II

Page 28: Bioestadística Tema 7: Introducción a los contrastes de hipótesis.

Análisis de identidad de dos distribuciones

Test de t-Student: ¿Tienen dos distribuciones la misma media?Suposiciones: las muestras están derivadas de distribuciones gaussianas con la misma variancia. Por lo tanto, el test es paramétrico.Estrategia: medir el número de desviaciones estándar que las separa (err = σ/√N)Método: sean las muestras A ≡ {xi}, i=1,...,NA de media xA

B ≡ {xi}, i=1,...,NB de media xB

e igual variancia σ2. Se definen sD y t

La probabilidad de que t tome un valor así de grande o más viene dada por la distribución t-Student con n ≡ NA+NB grados de libertad, donde un valor pequeño significa que la diferencia es muy significante.

Esta función está tabulada en los libros de estadística básica, y se puede encontrar codificada en la mayoría de las bibliotecas de programación.

2/1

1 1

2211

2

)()(

BABA

N

i

N

i BiAiD NNNN

xxxxs

A B

D

BA

s

xxt

2

)1(2

1)2/(

2/)1(1),(

nt

t n

xdx

n

n

nntP

(Press et al., “Numerical Recipes”)

Page 29: Bioestadística Tema 7: Introducción a los contrastes de hipótesis.

Análisis de identidad de dos distribuciones

Variante del test de t-Student: ¿Tienen dos distribuciones la misma media?En el caso de que las variancias de las dos muestras sean diferentes,σA

2 ≠ σB2, se definen t y n

donde n no tiene por qué ser un número entero.La probabilidad de que t sea así de grande o más viene aproximadamente dada por la misma distribución P(t,n) anterior.

2/122 )//( BBAA

BA

NN

xxt

1)/(

1)/(

//2222

222

B

BB

A

AA

BBAA

NN

NN

NNn

(Press et al., “Numerical Recipes”)

Page 30: Bioestadística Tema 7: Introducción a los contrastes de hipótesis.

Análisis de identidad de dos distribuciones

Test F: ¿Tienen dos distribuciones diferente variancia?Suposiciones: las distribuciones son gaussianas. El test es, por lo tanto, paramétrico. Estrategia: se analiza el cociente de las variancias y su desviación de la unidad.Método: sean las muestras A ≡ {xi}, i=1,...,NA de media xA y variancia σA

2

B ≡ {xi}, i=1,...,NB de media xB y variancia σB2

Se define F ≡ σA2/σB

2, donde σA>σB.

La significancia de que la variancia de la distribución A sea mayor que la de la distribución B viene dada por la distribución F con nA ≡ NA−1 y nB ≡ NB−1 grados de libertad en el numerador y denominador:

donde

La distribución F está tabulada en los libros de estadística básica, y se encuentra codificada en la mayoría de las bibliotecas de programación.

12

0

12 )1(

)2/()2/(

2/)(2),(

AB nx n

BA

BABA ttdt

nn

nnnnFP

2/2/

2/

AB

B

nFn

nx

(Press et al., “Numerical Recipes”)

Page 31: Bioestadística Tema 7: Introducción a los contrastes de hipótesis.

0 si xi<x

1 si xi≥x

)2exp()1(2)( 22

1

1 jPj

j

KS

DNN ee /11.012.0

Análisis de identidad de dos distribuciones

Test Kolmogorov-Smirnov: ¿Son dos distribuciones diferentes?Suposiciones: las distribuciones son continuas. El test no es paramétrico, lo que lo hace muy eficaz. Es un test muy popular en Astronomía.Estrategia: medir la desviación máxima de las distribuciones acumuladas.Método: sean las muestras A ≡ {xi}, i=1,...,NA B ≡ {xi}, i=1,...,NB

Se define la distribución acumulada SN(x) ≡ 1/N ∑i f(xi) , donde

f(xi) ≡ { para cada muestra. La diferencia máxima entre ellas

viene dada por D ≡ max |SA(x)−SB(x)|

La significancia de que las dos distribuciones difieran viene dada aproximadamente por

donde

y Ne=NANB/(NA+NB). La expresión es buena

para Ne≥4 (Stephens 1970) .

Page 32: Bioestadística Tema 7: Introducción a los contrastes de hipótesis.

Análisis de identidad de dos distribuciones

El test de Kolmogorov-Smirnov no es muy sensible si la diferencia máxima entre las distribuciones acumuladas ocurre en los extremos de las mismas.Para solucionar este problema, se introdujo una variante del test.

Test de Kuiper: ¿Son dos distribuciones diferentes?Suposiciones y estrategia: las mismas que K-S.Método: se definen las diferencias máximas por exceso, D+ , y por defecto, D− , y la diferencia combinada

D ≡ D+ + D− = max [ SA(x) − SB(x) ] + max [ SB(x) − SA(x) ] .

La significancia con la que las dos distribuciones difieren viene dada por

PKP = 2 ∑j (4j2λ2−1) exp(−2j2λ2) ,

donde λ ≡ [ √Ne + 0.155 + 0.24 / √Ne ] D y Ne ≡ NANB/(NA+NB)

Análisis de identidad de una distribución observada con una distribución teórica: tanto KS y KP se pueden aplicar a una sola distribución para estudiar si se deriva de una distribución teórica P(x). La estrategia es la misma, y las ecuaciones son válidas, substituyendo SB(x) por P(x) y haciendo Ne=NA.

(Press et al., “Numerical Recipes”)

Page 33: Bioestadística Tema 7: Introducción a los contrastes de hipótesis.

QSOs: 85%

RQ QSOs: 39%

RL QSOs: 99.5%

(Aragón-Salamanca et al. 1996, MNRAS, 281, 945) Ejemplo: distribución de galaxias débiles entorno a QSOs

Page 34: Bioestadística Tema 7: Introducción a los contrastes de hipótesis.

Análisis de identidad de dos distribuciones

Test Kolmogorov-Smirnov multidimensional: (Peacock 1983, MNRAS, 202, 615; Fasano & Franceschini 1987, MNRAS, 225, 155)

Dificultad: en una dimensión, K-S es independiente de cómo se ordenan los datos, pero en N dimensiones, existe más de una forma de ordenarlos.

Estrategia: se consideran las cuatro posibles acumulaciones de los n datos de una muestra siguiendo los ejes de coordenadas. En 2D, se considera el número de datos de la muestra que cae en cada cuadrante (x<Xi, y<Yi), (x<Xi, y>Yi), (x>Xi, y<Yi), (x>Xi, y>Yi) , i=1,...,n,y se compara con la distribución padre o la distribución de comparación. Se define DBKS como la diferencia normalizada más grande de entre todos los cuadrantes y todos los puntos. En 3D, de igual manera, (x<Xi, y<Yi, z<Zi), (x<Xi, y<Yi, z>Zi), (x<Xi, y>Yi, z>Zi), (x>Xi, y<Yi, z<Zi), (x>Xi, y<Yi, z>Zi), (x>Xi, y>Yi, z>Zi), i=1,...,n.

Significancia: formalmente no existe una expresión rigurosa que dé la probabilidad de que las dos distribuciones difieran. Se han realizado diversos Monte Carlos con distribuciones en el plano y el espacio que presentan diferentes niveles de correlación. Fasano & Franceschini (1987) proveen de tablas y expresiones polinomiales para calcular la diferencia crítica Zn≡DBKS√Ne que rechaza la identidad de las dos distribuciones, dados n, CC (coeficiente de correlación) y SL (el nivel de significancia).

Page 35: Bioestadística Tema 7: Introducción a los contrastes de hipótesis.

Análisis de identidad de dos distribuciones

Cálculo de la dependencia de la diferencia crítica entre dos distribuciones 2D con el coeficiente de correlación de los puntos, el número de puntos y el nivel de confianza escogido para rechazar la hipótesis nula de identidad (Fasano & Franceschini 1987).

Modelos de correlación entre los datos explorados

yx

yxCC

),cov(

Page 36: Bioestadística Tema 7: Introducción a los contrastes de hipótesis.

Análisis de identidad de dos distribuciones

Aproximaciones polinomiales a las significancias encontradas en el Monte Carlo. Estos polinomios están codificados en varios paquetes de análisis estadístico (ejem. “Numerical Recipes”)

Page 37: Bioestadística Tema 7: Introducción a los contrastes de hipótesis.

(Wall J.V., 1996, Q. Jr. R. Astr. Soc., 37, 519)

Page 38: Bioestadística Tema 7: Introducción a los contrastes de hipótesis.

Inferencia clásica frente a inferencia bayesiana (Loredo T. 1992, en “Statistical Challenges in Modern Astronomy”, ed. Feigelson & Babu, Springer, http://www.astro.cornell.edu/staff/loredo/bayes/tjl.html)

Dos diferentes interpretaciones del término probabilidad:

• frecuentista: frecuencia con que un cierto resultado se obtiene en la repetición infinita de un proceso.

• bayesiana: plausibilidad de que una proposición (modelo) pueda dar cuenta de un conjunto de datos.

En muchas situaciones se obtiene el mismo resultado utilizando las dos técnicas, pero existen excepciones notables (ejem. Kraft et al. 1991, ApJ, 374, 344).

Los dos métodos son fundamentalmente diferentes. Parten de concepciones opuestas sobre cuál es la información fidedigna y por evaluar (modelo o datos). Los cálculos bayesianos discriminan entre hipótesis plausibles, mientras que los cálculos frecuentistas evalúan la validez del conjunto de datos dada una hipótesis que se toma como cierta.

Teorema de Bayes: )(

)()()(

DP

HDPHPDHP

Page 39: Bioestadística Tema 7: Introducción a los contrastes de hipótesis.

Inferencia bayesiana

Pasos a seguir en la inferencia Bayesiana: 1. Especificar el modelo, o hipótesis a evaluar: en general tendremos varias Hi a comparar

2. Asignar las probabilidades: a priori o anterior P(Hi) anterior predictiva P(D) de muestreo P(D|Hi)

3. Calcular la probabilidad posterior mediante el teorema de Bayes.

4. Comparar los resultados entre los diferentes modelos, mediante el cociente de probabilidades posteriores P(Hi|D)/P(Hj|D), por ejemplo.

)(

)()()(

DP

HDPHPDHP

Page 40: Bioestadística Tema 7: Introducción a los contrastes de hipótesis.

Ejemplo: estimación de una media poissoniana

Supongamos que hemos obtenido una medida de n eventos en un intervalo de tiempo T, y que deseamos inferir la frecuencia de eventos, r .

1.- Especificamos la hipótesis H, que el proceso es poissoniano con una frecuencia de eventos 0 r rmax.

2.- Asignamos probabilidades:

de muestreo:

a priori (anterior): , que en este caso es una probabilidad no informativa

anterior predictiva:

3.- Aplicamos el teorema de Bayes para calcular la probabilidad posterior:

Si Trmax>> n, entonces la función incompleta gamma se puede aproximar por

y la probabilidad posterior resulta

Para el caso particular en el que se detectan 7 eventos en 1 segundo, la probabilidad de que el

proceso tenga una media de 10 eventos por segundo es del 9%:(nota: compárese con la probabilidad frecuentista) P(10 | 7)

(Loredo 1992)

Page 41: Bioestadística Tema 7: Introducción a los contrastes de hipótesis.

Ejemplo: estimación de una media poissoniana sobre un fondo

Supongamos que hemos obtenido una medida de Non eventos en un intervalo de tiempo Ton, y que deseamos inferir la frecuencia de eventos de la señal, s , sobre el fondo, b. Se supone que se puede estimar el fondo de una medida independiente de Noff eventos en un intervalo Toff.

Como en el caso anterior

Para la medida con señal y fondo conjuntamente:

donde

es la probabilidad de muestreo

p(s|b) = p(s)= 1/smax

p(b) = p(b | Noff)

p(Non) = 1/Tonsmax prob. anterior predictiva

Para calcular la probabilidad posterior de la señal, hay que marginar el parámetro b, calculando p(s|Non) = db p(sb|Non). Realizando la expansión del término (s+b)N

on se encuentra

dan la probabilidad a priori }

(Loredo 1992)

!

)()|(

off

offoffoff

offoff

N

ebTTNbp

bTN

)(

)|()()|(

)(

)|()()|(

on

on

on

onon Np

sbNpbpbsp

Np

sbNpsbpNsbp

!

])[()|(

on

)(on

on

onon

N

eTbssbNp

TbsN

on

on on

0 on

offononoff

on

offononof

0

ononon

)!()!(

)/1(

)!()!(

)/1(

, !

)()|( N

j

j

if

i

N

i

sTi

i

jNjNN

TT

iNiNN

TT

Ci

esTTCNsp

Page 42: Bioestadística Tema 7: Introducción a los contrastes de hipótesis.

Se debe resaltar que éste es un cálculo ambiguo bajo la inferencia frecuentista, aunque hay algunas publicaciones con aproximaciones no libres de inconsistencias (O’Morgain, 1973, Nature, 241, 376; Cherry et al. 1980, ApJ, 242, 1257)

♦ Ejemplo: medida en la que b ≥ n (Kraft et al. 1991, ApJ, 374,344) — inconsistencias de los cálculos frecuentistas.Supóngase que b de conoce por un método alternativo con una gran precisión

• Cálculo frecuentista para constreñir s: Existen muchos métodos propuestos que no son correctos desde el punto de vista del planteamiento real del problema (véase Kraft et al.). Lo que sí es correcto, es calcular los límites de confianza (CL) de un s+b dado, con la función de probabilidad

y substraer a estos el b previamente determinado.

• Cálculo bayesiano: No existe ninguna ambigüedad en el planteamiento del problema. Se deben calcular los CL de la densidad de la probabilidad posterior P(s| n,b)

El intervalo de s para diferentes valores de CL, n, b se encuentra tabulado, aunque es simple calcularlo al resolver los CL con la expresión anterior.

bs

nbs

b

Nb

NN s

Ns

NNnn

bse

N

se

N

senP

b

bs

s

donde ,!

)(

!!)(

)(

,

!

)(

!)(

)(1

0 n

bne

i

benbsP

nbsn

i

ib

Page 43: Bioestadística Tema 7: Introducción a los contrastes de hipótesis.

(Kraft et al. 1991)

Page 44: Bioestadística Tema 7: Introducción a los contrastes de hipótesis.

(Kraft et al. 1991)

La comparación de ambos métodos indica que el cálculo frecuentista incurre en contradicciones cuando n<b, ya que los límites superiores de los CL llegan a ser negativos.Sin embargo, para casos en que b<n, los límites calculados son prácticamente iguales.

frecuentista

bayesiana

frecuentista

bayesiana

Page 45: Bioestadística Tema 7: Introducción a los contrastes de hipótesis.

Nancy LacourlyNancy Lacourly

FONDEF D99I1049FONDEF D99I1049

Tests de hipótesisTests de hipótesis

Page 46: Bioestadística Tema 7: Introducción a los contrastes de hipótesis.

Se busca comprobar alguna información sobre la población a partir de los datos obtenidos sobre una muestra.

• Valverde tendrá más de 55% de los votos.

• Menos de 3% de las ampolletas del lote de 5000 duran menos de 1000 horas

• Las ampolletas duran más de 1000 horas en promedio.

Page 47: Bioestadística Tema 7: Introducción a los contrastes de hipótesis.

¿Como elegir la muestra para responder?

Depende de

• las alternativas

• de lo que se mide en la población

Page 48: Bioestadística Tema 7: Introducción a los contrastes de hipótesis.

¿Porque en la elección municipal de Santiago (J. Lavin, M. Larrachea) se pudo decir temprano quíen iba a ser el ganador?

¿Porque en la última elección presidencial de Estados Unidos no se puede dar el nombre del ganador, siendo que faltan conocer 2000 votos?

Es decir en el primer caso se puede usar una muestra, pero no en el segundo caso.

Page 49: Bioestadística Tema 7: Introducción a los contrastes de hipótesis.

La razón esta en la diferencia tan estrecha de los resultados. Es más fácil decir cual de los dos cuadrados es más obscuro:

entre y

que entre y

Page 50: Bioestadística Tema 7: Introducción a los contrastes de hipótesis.
Page 51: Bioestadística Tema 7: Introducción a los contrastes de hipótesis.

Tenemos 4 tasas con la leche puesta antesy 4 tasas con le leche puesta después del té.

Una Dama Inglesa acierta reconociendo las tasa con la leche antes del té.

¿Es solamente suerte?

NO. ¿Por qué?

Page 52: Bioestadística Tema 7: Introducción a los contrastes de hipótesis.

Tenemos 4 tasas con la leche puesta antesy 4 tasas con le leche puesta después del té.

Una Dama Inglesa acierta reconociendo las tasa con la leche antes del té.

¿Es solamente suerte?

NO. ¿Por qué?

Page 53: Bioestadística Tema 7: Introducción a los contrastes de hipótesis.

¿Cuantas repuestas posibles hay?

Hay posibles.

Hay un resultado correcto solamente.

Suponiendo que alguien contesta al azar, hay una probabilidad de 1/70 de dar la repuesta correcta.¡No es suerte!¡No es suerte!

704

8

Page 54: Bioestadística Tema 7: Introducción a los contrastes de hipótesis.

¿Este dado esta cargado al 4?

Lo que significaría que la probabilidad de sacar un 4 es mayor que 1/6.

Tenemos dos alternativas:

HHoo:: = 1/6 y = 1/6 y HH11:: > 1/6 > 1/6

Page 55: Bioestadística Tema 7: Introducción a los contrastes de hipótesis.

Se hace un experimento: se lanza Se hace un experimento: se lanza 120120 veces el dado y se observa el veces el dado y se observa el número número XX de veces que se obtuvo un de veces que se obtuvo un 44..

XX es un número aleatorio es un número aleatorio

Si fuera cierto queSi fuera cierto que = 1/6, = 1/6, es decires decir el dado no cargado alel dado no cargado al 4, 4, se podría se podría dar la distribución de la variable dar la distribución de la variable aleatoria aleatoria X.X.

Page 56: Bioestadística Tema 7: Introducción a los contrastes de hipótesis.

X ~ Binomial(120, 1/6)X ~ Binomial(120, 1/6)

120)1()0X(P

k120k )1(k

120)kX(P

119)1(120)1X(P

Page 57: Bioestadística Tema 7: Introducción a los contrastes de hipótesis.

j120j120

kj

)1(j

120)kX(P

Si se encontro Si se encontro X=25, X=25, la probabilidadla probabilidadde encontrar de encontrar XX25 25 es igual aes igual a

09,0)25X(P

Page 58: Bioestadística Tema 7: Introducción a los contrastes de hipótesis.

Si el suceso “Si el suceso “obtener una proporción obtener una proporción de 4 igual 25/120” de 4 igual 25/120” ocurrío cuando ocurrío cuando tiene una pequña probabilidad de tiene una pequña probabilidad de ocurrir si el dado no esta cargado,ocurrir si el dado no esta cargado,es que el dado efectivamente esta es que el dado efectivamente esta cargado a favor del cargado a favor del 4.4.

Page 59: Bioestadística Tema 7: Introducción a los contrastes de hipótesis.

Si decidemos que el dado esta Si decidemos que el dado esta cargado, lo hacemos con un riesgo cargado, lo hacemos con un riesgo calculado: tenemos una calculado: tenemos una probabilidad de 9% de probabilidad de 9% de equivocarnos. Obviamente si no equivocarnos. Obviamente si no queremos tomar un riesgo tan queremos tomar un riesgo tan alto, tendremos que abstenernos alto, tendremos que abstenernos de declarar que el dado cargadode declarar que el dado cargadoa favor del a favor del 4.4.

Page 60: Bioestadística Tema 7: Introducción a los contrastes de hipótesis.

Pero si nos abstenemos de Pero si nos abstenemos de declarar que el dado esta declarar que el dado esta cargado a favor del cargado a favor del 4, 4, sera sera ¿¿con que riesgo?con que riesgo?

Esto dependrá con que Esto dependrá con que probabilidad probabilidad comparamos. comparamos.

Page 61: Bioestadística Tema 7: Introducción a los contrastes de hipótesis.

j120j120

25j

)3

2(

3

1

j

120)25X(P

Si comparamos Si comparamos = = 1/61/6 a a = = 1/3, 1/3, el errorel error sera: sera:

0018,0)25X(P

Page 62: Bioestadística Tema 7: Introducción a los contrastes de hipótesis.

j120j120

25j

)4

3(

4

1

j

120)25X(P

Si comparamos Si comparamos = = 1/61/6 a a = = 1/4, 1/4, el errorel error sera: sera:

017,0)25X(P

Page 63: Bioestadística Tema 7: Introducción a los contrastes de hipótesis.

j120j120

25j

)5

4(

5

1

j

120)25X(P

Si comparamos Si comparamos = = 1/61/6 a a = = 1/5, 1/5, el errorel error sera: sera:

64,0)25X(P

Page 64: Bioestadística Tema 7: Introducción a los contrastes de hipótesis.

0 1/6 0.4 0.6 0.8 1

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Probabilidad en H1

Rie

sgo

de

equi

voca

rse

Page 65: Bioestadística Tema 7: Introducción a los contrastes de hipótesis.

Sea ahora la comparación de dos Sea ahora la comparación de dos grupos o dos poblaciones. Por grupos o dos poblaciones. Por ejemplo, ejemplo,

¿Las niñas tienen un mejor ¿Las niñas tienen un mejor rendimiento escolar que los niños rendimiento escolar que los niños en Chile en 1º medio?en Chile en 1º medio?

Page 66: Bioestadística Tema 7: Introducción a los contrastes de hipótesis.

Si Si H H y y MM son las medias de los son las medias de los

rendimientos en1º medio de los rendimientos en1º medio de los niños y de las niñas, plateamos las niños y de las niñas, plateamos las dos alternativas:dos alternativas:

contracontraMHo :H MH1 :H

Page 67: Bioestadística Tema 7: Introducción a los contrastes de hipótesis.

Se toma una muetsra de 500 niñas Se toma una muetsra de 500 niñas y de 600 niños y de 600 niños

Sean y las medias en las Sean y las medias en las muestrasmuestras

Son variables aleatorias: Son variables aleatorias:

Hx Mx

)600

s,(N~x

2H

HH )500

s,(N~x

2M

MM

Page 68: Bioestadística Tema 7: Introducción a los contrastes de hipótesis.

),0(N~xx 2MH

ConCon

cuando cuando

0057.0500

s

600

s 2M

2H2

MHo :H

Page 69: Bioestadística Tema 7: Introducción a los contrastes de hipótesis.

52.5xH 6.5xM Si ySi y

08,0xx MH

3,1sH 2,1sM Si ySi y

0057,0500

s

600

s 2M

2H2

Page 70: Bioestadística Tema 7: Introducción a los contrastes de hipótesis.

Entonces, se considera el valor de Entonces, se considera el valor de la probabilidad:la probabilidad:

para decidir:para decidir:

)08.0xx(P MH

Page 71: Bioestadística Tema 7: Introducción a los contrastes de hipótesis.

Para calcular esta probabilidad, Para calcular esta probabilidad, se considera las tablas de la se considera las tablas de la variable aleatoria y el variable aleatoria y el hecho que hecho que si entonces si entonces

)1,0(N~Z

)0057.0

08.0z(P)08.0xx(P MH

144.0)08.0xx(P MH

),(N~X 2

)1,0(N~X

Page 72: Bioestadística Tema 7: Introducción a los contrastes de hipótesis.

Si decido, a partir de estas dos Si decido, a partir de estas dos muestras, que los rendimientos muestras, que los rendimientos son diferentes, esta decisión se son diferentes, esta decisión se hace con una probabilidad de hace con una probabilidad de 14% de equivocarse.14% de equivocarse.

Page 73: Bioestadística Tema 7: Introducción a los contrastes de hipótesis.

p*=0 .6595 %

n=32: [0.485, 0.815]n=68: [0.537, 0.764] n=100: [0.556, 0.743]

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09