Curso de Bioestadística Parte 9 Comparación de dos medias

Curso de BioestadísticaParte 9

Comparación de dos medias

Dr. en C. Nicolás Padilla RaygozaDepartamento de Enfermería y ObstetriciaDivisión Ciencias de la Salud e Ingenierías

Campus Celaya-SalvatierraUniversidad de Guanajuato México

Presentación

Médico Cirujano por la Universidad Autónoma de Guadalajara. Pediatra por el Consejo Mexicano de Certificación en Pediatría. Diplomado en Epidemiología, Escuela de Higiene y Medicina

Tropical de Londres, Universidad de Londres. Master en Ciencias con enfoque en Epidemiología, Atlantic

International University. Doctorado en Ciencias con enfoque en Epidemiología, Atlantic

International University. Profesor Titular A, Tiempo Completo, Universidad de

Guanajuato. Nivel 1 del Sistema Nacional de Investigadores [email protected] [email protected]

Competencias

Aplicará prueba de Z para obtener inferencias de la comparación de dos medias pareadas.

Aplicará prueba de Z para obtener inferencias de dos medias independientes.

Aplicará prueba de t para dos medias pareadas en una muestra pequeña.

Aplicará prueba de t para dos medias independientes en una muestra pequeña.

Obtendrá el intervalo de confianza para dos medias pareadas e independientes.

Introducción

Con frecuencia queremos hacer comparaciones de dos grupos.

Los métodos estadísticos usados para la comparación de dos medias dependen de cómo las dos medias fueron obtenidas. Los datos pueden ser obtenidos de muestras pareadas o no pareadas.

Datos pareados

¿Cómo obtenemos datos pareados? Muestras pareadas ocurren cuando las

observaciones individuales en la primera muestra son pareadas a las observaciones individuales de la segunda muestra.

Para datos cuantitativos usualmente ocurre cuando hay mediciones repetidas en la misma persona.

Ejemplo

En un estudio para determinar si las mediciones de peso al nacer son adecuadas, se comparó el peso al nacer de recién nacidos de un hospital en Celaya, Gto.

Las mediciones fueron realizadas por diferentes personas, para controlar el sesgo de medición, estando un observador cegado a la medición del otro observador.

Datos no pareados

¿Cómo obtenemos datos no pareados? Obtenemos datos no pareados cuando

observaciones individuales en una muestra son independientes de las observaciones individuales de la segunda.

Ejemplo

Para estudiar los efectos de un nuevo medicamento para tratar la carga parasitaria de Ascaris lumbricoides, los pacientes fueron aleatorizados para recibir nitazoxanida (grupo A) y albendazol (grupo B).

El efecto del medicamento en cada grupo fue medido y comparado.

En el análisis de datos pareados calculamos la diferencia entre la primera y la segunda medición. Esto nos da una muestra de diferencias, para luego aplicar los métodos de análisis para datos cuantitativos de una muestra.

Análisis de datos cuantitativos pareados Cuando analizamos datos pareados, lo primero es calcular la

diferencia entre las dos observaciones individuales en cada par. Se midieron los pesos al nacer del recién nacidos en Celaya,

por dos observadores.Paciente Observador 1 (g) Observador 2 (g) Diferencia

(d)

1 2970 3010 - 40

2 3525 3650 -125

3 3100 3125 - 25

4 2750 2550 200

5 4000 4050 - 50

6 3200 3300 -200

7 3000 3000 0

8 2500 2700 -200

9 3200 3400 -200

10 3900 3700 200

Análisis de datos cuantitativos pareados Para evaluar la diferencia en mediciones pareadas podemos calcular la

media de las diferencias y su intervalo de confianza; también podemos calcular si la media de las diferencias es significativamente diferente de 0.

La notación que usamos para indicar la media de las diferencias y desviación estándar en la muestra y la población se muestran:

Población Muestra

Media de las

diferencias

_

δ

_

d

Desviación estándar σ s

Intervalo de confianza

Si no hay diferencia entre las mediciones pareadas, la media de las diferencias será 0.

Para calcular el intervalo de confianza de la media de las diferencias de la muestra y probar la hipótesis de que es igual a 0, necesitamos conocer: La media de las diferencias La desviación estándar de las diferencias El error estándar de la media de las

diferencias


Podemos calcular el intervalo de confianza alrededor de la media de las diferencias de la muestra en la misma forma que los hicimos para la media de una muestra.

El intervalo de confianza al 95% nos dice que tenemos 95% de confianza de que la verdadera media de la población está entre el intervalo de confianza al 95% a los lados de la media de la muestra.


La fórmula general para el intervalo de confianza al 95% es: Estimación de la muestra ±1.96 x ES de la estimación

de la muestra Entonces el intervalo de confianza al 95% para la

media de las diferencias es: δ±1.96 x (s(δ)/√n)

δ es la media de las diferencias. 1.96 es el multiplicador que usamos al calcular el

intervalo de confianza al 95%. Si lo calculamos al 90% usamos 1.64 como

multiplicador.

Ejemplo

Intervalo de confianza al 95% d de pesos al nacer = -34.0 s= 140.94 ES= 140.94/√10=44.60 -34±1.96 (44.60) = -121.42 a 53.42

Ejemplo

Intervalo de confianza al 90% d de pesos al nacer = -34.0 s= 140.94 ES= 140.94/√10=44.60 -34±1.64 (44.60) = -107.14 a 39.1

Prueba de hipótesis para una media de diferencias Un intervalo de confianza al 95% nos da un

rango de valores a los lados de la media de las diferencias que estamos confiados en un 95% que incluye la media de diferencias en la población.

También podemos calcular la probabilidad de que, en promedio, no hay diferencia entre las observaciones pareadas en la población, usando una prueba de hipótesis.

Prueba de hipótesis para una media de diferencias La hipótesis nula es que la media de las

diferencias en la población es cero:Ho: δ = 0

Esto es equivalente a decir que la distribución de la media de las diferencias de la muestra es Normal, con media 0 y un error estándar que depende de la desviación estándar de la diferencia en la población.

La hipótesis alternativa es que la media de la diferencia en la población no es cero: HA: δ ≠ 0

Prueba de hipótesis para una media de diferencias La prueba de hipótesis:

Para probar la hipótesis nula calculamos la prueba Z

Media de las diferencias de la muestra –

media de las diferencias de la hipótesis d - 0

z = ----------------------------------------------------- = ------------

error estándar de la diferencia de ES(d)

medias de la muestra Donde la media de las diferencias de la hipótesis es cero.

Prueba de hipótesis para una media de diferencias Calcular el valor de z en la prueba de

hipótesis, nos dice a cuantos errores estándar de la media observada está el centro de la distribución, definida por la hipótesis nula.

δ - 0

Z= -----------------

S(δ) /√n

Ejemplo

Hemos visto que la media de la diferencia de peso en 10 recién nacidos fue de -34, con s=140.9 e intervalos de confianza al 95% de -121.42 a 53.42 gr.

Queremos encontrar si las mediciones tomadas por los dos observadores fueron realmente diferentes.

Ejemplo

Debemos señalar la hipótesis nula: “En promedio, todas las mediciones posibles

tomadas por los dos observadores son idénticas”, o

La media de las diferencias en la población es cero.

La hipótesis alternativa será: la media de la diferencia en la población no es cero.

Ejemplo

-34 – 0Para probar la hipótesis calculamos z = ----------- = - 0.76 44.52

Asumiendo que la media de las diferencias está Normalmente distribuida con media de cero, el resultado de la prueba dice que la media de las diferencias estimada está a -0.76 errores estándar del centro de la distribución.

Refiriendo el valor de z de -0.76 a las tablas de dos colas de la distribución Normal estándar el valor de p es 0.44.

La conclusión es que aceptamos la hipótesis nula y decimos la variación de muestreo es una probable explicación para las diferencias en las medias.

Como obtener el valor de p

En la tabla de la distribución Normal o Z, buscamos en la columna Z el valor que obtuvimos con nuestra prueba y vemos en la columna p el valor que corresponde.

Esta tabla se puede encontrar en libros de texto de Bioestadística.

Muestras pareadas pequeñas

Cuando el tamaño de muestra es pequeño, la distribución de las muestras no es exactamente Normal, pero sigue la distribución t.

Por este motivo, si el tamaño de muestra es pequeños (menos de 50) usamos los valores de la distribución t, para el cálculo del intervalo de confianza y prueba de hipótesis.

Intervalo de confianza para muestras pareadas pequeñas La fórmula para el intervalo de confianza al 95% es

estimación ± t0.05 (ES)

Donde estimación es la media de las diferencias t0.05 es el valor de la distribución t a 0.05 de p con n-1

grados de libertad. La primera columna de la distribución t es grados de

libertad que corresponde a n-1. Vamos a la derecha hasta donde cruce el valor que corresponda con p 0.05 y ese es el multiplicador que usamos para el intervalo de confianza.

Prueba de hipótesis para muestras pareadas pequeñas La fórmula para la prueba de hipótesis es:

t = media de diferencias – 0 /ES La fórmula es similar que la prueba de Z, sólo

que el resultado, para obtener el valor de p, se busca en la tabla de la distribución t.

La primer columna es grados de libertad (n-1) y se busca a la derecha el valor de t que obtuvimos y en la columna se comprueba el valor de p.

Análisis de muestras independientes

Difiere del análisis de datos pareados, ya que observamos la diferencia entre dos medias independientes en lugar de la media de las diferencias de dos observaciones pareadas.

Ejemplos ¿Los fumadores tienen diferente presión arterial que

los no fumadores? En una muestra de fumadores y no fumadores:

La presión arterial sistólica fue en promedio de 148 y entre no fumadores de 138.

La diferencia en medias es 148-138 =10.

Análisis de muestras independientes

Notación: Ya que estamos observando dos poblaciones

independientes y dos muestras son necesarias, necesitamos notaciones adicionales. Que se muestran en la tabla de abajo:

Recuerde que usamos letras griegas para parámetros de la población y letras latinas para estimaciones de la muestra:

Los números inferiores nos sirven para diferenciar entre la muestra 1 y la muestra 2, y entre las poblaciones 1 y 2.

Población Muestra 1 2 1 2

_ _Media μ1 μ2 X1 X2

Desviación estándar σ1 σ2 s1 s2

Distribución de muestreo para dos muestras independientes La distribución de muestreo de la diferencia entre

dos medias independientes es encontrada usando los mismos procedimientos usados para una sola muestra.

Tomamos repetidamente muestras aleatorias de tamaño n1 y de tamaño n2 de una segunda población y cada vez calculamos las medias (x1,x2) y las desviaciones estándar (s1, s2) en ambas poblaciones y luego medimos la diferencia entre las medias para cada par de muestras.

El resultado es una distribución de muestreo de diferencias entre las dos medias independientes.

Distribución de muestreo para dos muestras independientes Generando esta distribución podemos ver que:1.- La media de la distribución de muestreo es el valor de la

población, que es la diferencia entre las dos medias de la población.

2.- La desviación estándar de la distribución de muestreo depende de n1 y n2, que son los tamaños de muestra.

3.- La forma de la distribución se vuelve más parecida a la Normal cuando n1 y n2, se incrementan.

Sabemos que la distribución de muestreo de cualquier estimación de la muestra puede ser inferida de los datos reunidos de sólo una muestra.

Los mismos principios aplican en este caso: la distribución de muestreo de la diferencia de medias puede ser inferida de sólo un grupo de dos muestras. Para realizar esto, necesitamos: La diferencia entre las dos medias de las muestras El error estándar de la diferencia entre las dos medias de las muestras

Error estándar para la distribución de la diferencia de medias El error estándar de la diferencia entre dos medias

independientes es la combinación de los errores estándar de las dos distribuciones de muestreo independiente.

Sabemos que el error estándar de una media de la muestra es:

s

ES = --------

√ n Varianza de la media es el cuadrado del error

estándar: Varianza = σ2 / n

Error estándar para la distribución de la diferencia de medias Se puede mostrar que la varianza de dos medias independientes es

igual a la suma de las varianzas de las dos medias de las muestras, ya que:

σ1 σ2

ES (X1) = ------- ES (X2) = -------- n n _ _ σ2

1 σ22

Varianza (X1 –X2) = varianza de X1 + varianza de X2 = --------- + ------- n1 n2 Las varianzas son sumadas debido a que cada una de las muestras

contribuye al error de muestreo de la distribución de las diferencias. Entonces, el error estándar de la diferencia entre dos muestras

independientes es dado por:

σ21 σ2

2 ES (X1 – X2) = √ ------- + ------ n1 n2

Error estándar para la distribución de la diferencia de medias En la mayoría de las situaciones no

conocemos las desviaciones estándar de la población (σ1 y σ2); en la práctica comúnmente, usamos las desviaciones estándar de la muestra (s1 y s2), por lo que:

s21 s2

1

ES(X1 – X2) = √ ------- + ---------

n1 n2

Intervalo de confianza para la diferencia de dos medias Asumiendo que la distribución de muestreo

de (X1 – X2) es Normal, podemos calcular el intervalo de confianza para la diferencia entre dos medias usando la fórmula general:

Diferencia en medias ± 1.96 (ES (X1 –X2)) Para un intervalo de confianza al 95%,

asumiendo distribución Normal:

_ _

(X1 – X2) ± 1.96 [√(s21 / n1) + (s2

1 / n2)]

Ejemplo

En un estudio para evaluar la eficacia de la solución de rehidratación oral (SRO) en niños con diarrea aguda, 40 niños estuvieron en el grupo de tratamiento y 40 en el grupo control. Se midió la duración media en horas de la diarrea y la desviación estándar.

Grupo n Media de duración de diarrea s

Tratamiento 40 72 10

Control 40 120 12

Ejemplo

Para calcular el intervalo de confianza al 95% para la diferencia en medias de muestras independientes, necesitamos primero calcular la diferencia en medias y el error estándar:

_ _ X1 – X2 = 72 – 120 = - 48 horas

s21 s2

2 102 122

ES(X1 – X2) = √ -----+ ----- = √------ + ---- =√2.5+3.6 = 2.47

n1 n2 40 4095% IC = -48 ± 1.96 (2.47)= - 52.8 a – 43.16

Ejemplo

La diferencia en medias fue de -48 horas con un error estándar de 2.47.

Los intervalos de confianza al 95% nos dicen que tenemos 95% de confianza en que la diferencia en las medias de la duración de diarrea en toda la población está entre – 52.8 horas y -43.16 horas.

Como no incluye la unidad, puedo adelantar que las diferencias en las medias son estadísticamente significativas.

Prueba de hipótesis para dos medias independientes Para calcular la probabilidad (valor de p) de que las dos medias

son iguales, usamos la prueba de hipótesis. Usamos la prueba de z en la misma forma, que lo hicimos para

la media de diferencias de muestras pareadas: La hipótesis nula es que las dos medias son iguales: Ho:

μ1 – μ2 = 0 La hipótesis alternativa es: H1: μ1 - μ2 ≠ 0 Así, la fórmula para la prueba de z es:

_ _ (X1 – X2) - 0z = ------------------

ES(X1 –X2)

ES (X1 –X2) = √(s21 /n1) + (s2

1 /n2)

Ejemplo Apliquemos la prueba de hipótesis para el estudio de solución de

rehidratación oral, de que la duración de la diarrea es en promedio la misma para ambos grupos. La diferencia de medias es – 48 horas. El error estándar es 2.47.

- 48 - 0 Z = ----------- = - 19.43 2.47

Esto nos dice que la diferencia observada es -19.43 errores estándar del centro de la distribución (0).

El valor de p, para z = - 19.43 es <0.0001 Si no hubiera diferencia en la duración de la diarrea entre los dos

grupos, debería haber una pequeña oportunidad (p<0.0001) de observar una diferencia tan extrema como la observamos.

Podemos decir que es más probable que la diferencia entre las dos medias sea diferentes, o sea, que la diferencia en el promedio del grupo con SRO con el control, son estadísticamente diferentes.

Muestras pequeñas con dos medias independientes Cuando comparamos dos muestras independientes

que son pequeñas, usamos la distribución t en lugar de la distribución Normal para calcular los intervalos de confianza y para probar hipótesis.

El procedimiento es similar al que hemos usado para datos de una muestra, con una excepción: el cálculo del error estándar.

La varianza común: Con muestras pequeñas estimamos una varianza

común usando los datos de dos muestras independientes. Es el promedio de las dos varianzas:

(n1 – 1)s21 + (n2 -1)s2

1 S2 = --------------------------- (n1 – 1) + (n2 -1)

Muestras pequeñas con dos medias independientes El error estándar de la diferencia entre la

media de la muestra es:

ES(X1-X2) = s x √1/n1 + 1/n2

Ejemplo

En un estudio para el tratamiento de anemia por deficiencia de hierro, con dos tipos diferentes de hierro, se aleatorizaron los escolares de un pueblo, para recibir uno u otro tratamiento.

Al inicio, los niveles de hemoglobina (HB) en g/Dl. eran similares en ambos grupos.

Después de 3 meses de tratamiento se midieron los niveles de HB.

Ejemplo

Hemoglobina n Media (g/Dl.) s Hierro A 15 14.8 0.5Hierro B 13 12.1 1.1Intervalo de confianza al 95% = diferencia de

medias ± multiplicador t0.05 x ES

Multiplicador t0.05 con n-2 grados de libertad = 2.056

S2 = (15-1)0.52 + (13 -1)1.12 /15-1 + 13-1 =3.5 +14.52/26 = 18/26 =0.69

Ejemplo

Hemoglobina n Media (g/Dl.) s Hierro A 15 14.8 0.5Hierro B 13 12.1 1.1Intervalo de confianza al 95% = 14.8 - 12.1 ±

2.056 x 1.21

ES = s √1/n1 + 1/n2 = √0.69 x√1/15 + 1/13=0.83 x 0.379 = 0.32 IC95% = 2.7± 0.66 = 2.04 a 3.36

Ejemplo

Hemoglobina n Media (g/Dl.) s Hierro A 15 14.8 0.5Hierro B 13 12.1 1.1

Ho: µ1=µ2 o µ1-µ2= 0

HA: µ1≠µ2 o µ1-µ2≠ 0t= (14.8 - 12.1)-0 / 0.32 = 8.44gl n-2 = 26 p<0.05

Bibliografía

1.- Last JM. A dictionary of epidemiology. New York, 4ª ed. Oxford University Press, 2001:173.

2.- Kirkwood BR. Essentials of medical ststistics. Oxford, Blackwell Science, 1988: 1-4.

3.- Altman DG. Practical statistics for medical research. Boca Ratón, Chapman & Hall/ CRC; 1991: 1-9.

Curso de Bioestadística Parte 9 Comparación de dos medias

Documents

Transcript of Curso de Bioestadística Parte 9 Comparación de dos medias