Calculo del tamanio de la muestra - gedic.files. · PDF file- 2 - 1. Cálculo del...

- 1 -

Cálculo del tamaño de la muestra

Dr. Carlos Daniel Tajer

ÍNDICE

1. CÁLCULO DEL TAMAÑO DE LA MUESTRA.....................................2

1.1. ¿CUÁNTOS PACIENTES NECESITAMOS? .....................................................2 1.2. ESTUDIOS OBSERVACIONALES ..................................................................3 CÁLCULO DEL TAMAÑO DE LA MUESTRA PARA DETERMINAR UN VALOR

CONFIABLE EN UN RELEVAMIENTO ..................................................................3 1.2.1. Error Standard de un porcentaje ......................................................3 1.2.2. Cálculo de la muestra para un porcentaje ........................................4

1.3. ESTUDIOS COMPARATIVOS........................................................................6 CÁLCULO DEL TAMAÑO DE LA MUESTRA PARA DETECTAR DIFERENCIAS ENTRE

PORCENTAJES. .................................................................................................6 1.3.1. Error alfa y nivel de confianza o confiabilidad de un estudio.........8

1.3.1.1.Error Alfa ...................................................................................8 1.3.1.2. Nivel de confianza o "confidence level" ..................................9 1.3.1.3. Selección del error alfa y nivel de confiabilidad......................9

1.3.1.3.1. Cuando seleccionar p ≤ 0,05 o p ≤ 0,01 ............................9 1.3.1.4. Error beta y poder del estudio.................................................10 1.3.1.5. Poder del estudio.....................................................................11 1.3.1.6. Selección del poder de un estudio ..........................................12

1.3.2. A calcular la muestra. Manos a la obra..........................................13 1.3.2.1. Cálculo del tamaño de la muestra para datos cuantitativos....16 1.3.2.2. Calculo de la muestra para el estudio de vacunación.............17 1.3.2.3. Cálculo del poder e interpretación clínica de ensayos publicados ............................................................................................18

1.4. RESUMEN FINAL .....................................................................................21

- 2 -

1. Cálculo del tamaño de la muestra Uno de los aspectos importantes en el diseño de ensayos clínicos es determinar el número de pacientes que deberán ser incluidos para poder evaluar adecuadamente la hipótesis del estudio. Cada diseño experimental tiene fórmulas diferentes para calcular la muestra de pacientes necesaria, pero comparte algunos elementos comunes que hacen a la racionalidad del cálculo del tamaño de la muestra y que desarrollaremos en esta clase. Se aconseja leer previamente la clase de Inferencia estadística en este mismo módulo. En “Materiales complementarios” encontrarán una planilla excel para el cálculo del tamaño de la muestra. Los ejercicios que se van proponiendo en la clase con calculadora pueden ser resueltos en forma más sencilla con la planilla. 1.1. ¿Cuántos pacientes necesitamos? Esta pregunta debe ser respondida en una negociación que concilie los recursos reales con que se cuentan, la disponibilidad de los pacientes y la prevalencia de la patología, requisitos éticos y requerimientos científicos de las diferencias a detectar. Existen inicialmente dos tipos de objetivos, con una íntima relación, que queremos contestar con el estudio: 1) Determinar un valor confiable (prevalencia o media y distribución de un

dato cuantitativo en la población), en los estudios observacionales de relevamiento.

2) Establecer si existen diferencias entre proporciones, valores cuantitativos, intervenciones, eventos en el seguimiento o todo aquello que pueda ser analizado estadísticamente en los estudios de intervención o cohorte.

- 3 -

1.2. Estudios observacionales

Cálculo del tamaño de la muestra para determinar un valor confiable en un relevamiento En un mismo relevamiento pueden determinarse diferentes parámetros (prevalencia de tabaquismo, hipertensión, diabetes) pero el cálculo del número de pacientes necesario se ajusta al parámetro considerado de mayor importancia. Tanto en los relevamientos como en los estudios comparativos, sólo el objetivo principal determina el tamaño del estudio.

Tomaremos dos ejemplos de relevamiento: uno dirigido a conocer la prevalencia de diabetes en una población y en otro, porcentaje de intención de voto de un candidato. 1.2.1. Error Standard de un porcentaje

Al efectuar un relevamiento sobre la prevalencia porcentual de un parámetro, lo informamos en términos de % ± Error standard del porcentaje o % e intervalo de confianza del 95%. Fórmula de Error estándar = √ (p x q / n) La p indica el porcentaje y la q es igual a 1-p. Por ejemplo, en una encuesta de 400 pacientes, se encontró que el 30% eran diabéticos.

p = 30; q = 100-30=70 ES = √ (p x q / n) = √ (30 * 70 / 400) = 2,3

El intervalo de confianza del 95% se establece como 30 ± 2.3 % * 1,96 = 30 ± 4,5 %. Expresamos que el porcentaje de diabéticos fue de 30 ± 2,3% o lo que es equivalente, que el porcentaje de diabéticos fue de 30% con un intervalo de confianza del 95% de 25,5 a 34,5%. ¿Qué significa esto? Que sobre la base de este relevamiento podemos estimar que la verdadera prevalencia de diabetes en una población de la cual esta muestra de 400 pacientes es representativa, tiene una probabilidad menor del

- 4 -

5% de ser menor de 25,5 o mayor de 34,5%, y una probabilidad del 95% de estar abarcada entre 25,5 y 34,5%. Hasta aquí hemos repasado conceptos desarrollados en las clases previas. 1.2.2. Cálculo de la muestra para un porcentaje Invirtamos ahora la pregunta: cuando planificamos un relevamiento, ¿cuántos pacientes necesitamos encuestar para conocer con exactitud el porcentaje de diabéticos, o en el ejemplo político, la intención de voto? Para despejar N de la fórmula ES = √ (p x q / n), elevamos todo al cuadrado, y pasamos de término n y ES. El número de pacientes a incluir es:

N = p*q / ES2

Queda claro que para establecer N en un estudio de relevamiento necesitamos estimar: 1) ¿Cuál es el porcentaje que estimamos posible de detectar? 2) ¿Con qué nivel de precisión o qué intervalo de confianza aceptaríamos en

el estudio? 3) ¿Qué nivel de error alfa vamos a aceptar? Si aceptamos un error del 5%, convencional, tendremos una confiabilidad del resultado del 95%, y si aceptamos un error del 1% requeriremos más pacientes pero tendremos una confiabilidad del 99%. 1) ¿Cuál es el porcentaje que estimamos posible de detectar?

La primera pregunta se responde sobre la base de experiencias previas u otras encuestas. Dado que el factor fundamental a evitar con el cálculo de la muestra es no quedarse corto, si desconocemos totalmente el porcentaje a estimar, se utiliza p = 0,5 o porcentaje 50 %, que siempre estimará el número más alto. Esto es obvio: 50 x 50 = 2500. Cualquier otra distribución de p y q resulta menor = 60 x 40 = 2400, 70 x 30 = 2100, etc. 2) ¿Con qué nivel de precisión o qué intervalo de confianza aceptaríamos en

el estudio?

- 5 -

La segunda pregunta requiere una estimación subjetiva, de acuerdo a la intención con los datos. Tomemos el ejemplo de la evaluación de la intención de voto. Estamos trabajando en una empresa que intenta evaluar la modificación que ocurre en la intención de votos a lo largo del tiempo o luego de una campaña. Si estimamos que la campaña modificará la intención de voto en un 4%, es importante que en el relevamiento preliminar el intervalo de confianza del porcentaje sea menor que este 4%. Expresado en otros términos, supongamos que con el número de personas encuestadas el porcentaje en el relevamiento inicial fue de 30% con un intervalo de confianza del 24 al 36 %. En la segunda encuesta observamos que el porcentaje es del 34%. Se ha observado un aumento del 4%, pero como esta variación estaba contenida en el intervalo de confianza inicial no podemos afirmar que ha habido un cambio, sino que por azar en una muestra dio 30 y en otra 34. Si hubiéramos efectuado el relevamiento con mayor precisión y arribado a un intervalo de confianza del 27 al 33% (lo que hubiera implicado mayor número de encuestados) podríamos ya confiar que esta variación del 4% no es por azar, dado que no está contenida en el intervalo de confianza de la encuesta inicial. Calculemos las muestras necesarias para el ejemplo anterior:

N = p*q / ES2

Conocemos p y q (30 y 70), y conocemos el intervalo de confianza de ± 6%. El error standard en caso de alfa 0,05 se calcula:

ES = Intervalo de confianza / 1,96 = 6/1,96 = 3,06 (recordamos que % ± 1,96 * ES = intervalo de confianza del 95%)

Reemplazamos en la fórmula:

N = 30 x 70 / 3,062 = 2100 / 9,37 = 224 encuestados En el segundo ejemplo, con un intervalo de confianza del 3%:

ES = 3/1,96 = 1,53. N = 30 x 70 / 1,532 = 2100 / 2,34 = 897 encuestados

- 6 -

Para bajar el error a la mitad nos vimos obligados a cuadruplicar el número de pacientes a relevar, es decir, que el N de pacientes aumenta exponencialmente con la disminución de error que queremos estimar. Figura 1. Número de pacientes necesarios para estimar una prevalencia sospechada del 20% asumiendo diferentes intervalo de confianza aceptables para la encuesta. Vemos que al pasar de un intervalo de confianza del ± 5% a 2,5% el número de pacientes se cuadruplica.

1.3. Estudios comparativos. Cálculo del tamaño de la muestra para detectar diferencias entre porcentajes.

Para evaluar los efectos de un tratamiento sobre un evento determinado, comparamos generalmente el porcentaje de eventos en el grupo tratado con el placebo, o entre dos tratamientos, uno de ellos de referencia. Para calcular el tamaño de la muestra debemos contestar seis preguntas fundamentales: 1) ¿Cuál es el objetivo del estudio?

±05 ±04 ±03 ±2,514

16

18

20

22

24

26

%

Intervalo de confianza esperado en la encuesta

prevalencia esperada

245

383

678

974

±05 ±04 ±03 ±2,50

200

400

600

800

1000

1200

Número de encuestados

- 7 -

2) ¿Cómo se medirá el punto final? 3) ¿Qué se analizará para estimar si hubo respuesta al tratamiento? 4) ¿Qué prevalencia de evento esperamos que ocurra en el grupo control? 5) ¿Qué modificación del evento esperamos con el tratamiento? 6) ¿Con qué nivel de certeza queremos establecer los resultados (errores alfa

y beta, confiabilidad y poder del estudio)? Ejemplificaremos con un estudio sobre el efecto de la prevención de mortalidad en ancianos con la vacunación antigripal y antineumocóccica. 1) ¿Cuál es el objetivo del estudio? En este caso, evaluar los efectos de la vacunación sobre la mortalidad en los ancianos. 2) ¿Cómo se medirá el punto final? Mortalidad anual. 3) ¿Qué se analizará para estimar si hubo respuesta al tratamiento? Se comparará la mortalidad entre el grupo vacunado y el grupo placebo o control. 4) ¿Qué prevalencia de evento esperamos que ocurra en el grupo control? La prevalencia se obtiene de estudios previos, o de un relevamiento inicial para estimar la verdadera prevalencia del fenómeno. Aquí puede ser obtenido de las tablas de mortalidad de las estadísticas de salud pública. Consideremos preliminarmente una mortalidad en mayores de 70 años del 5% anual. 5) ¿Qué modificación del evento esperamos con el tratamiento? a) Búsqueda bibliográfica La modificación del evento esperado con el tratamiento surge habitualmente de una exploración bibliográfica sobre los efectos previos en estudios de menor número de pacientes. En general los primeros estudios que se publican sobre una intervención en poblaciones reducidas sobrestiman el efecto real, por el fenómeno de sesgo de publicación (se envían a publicar y se aceptan con mayor facilidad estudios pequeños exitosos que estudios no exitosos). b) Juicio clínico

- 8 -

Cuando no tenemos información bibliográfica podemos recurrir al razonamiento clínico y basar nuestra estimación en la modificación que consideramos clínicamente relevante. La relevancia clínica no surge de ninguna consideración estadística sino del problema clínico a tratar. Por ejemplo, en el caso de mortalidad, una reducción modesta del 10-30% es lo que se espera habitualmente de intervenciones de aplicación masiva en patologías prevalentes. Reducciones de la mortalidad del 50% son sólo encontradas con intervenciones que implican un cambio revolucionario en la faz clínica y habitualmente en la comprensión fisiopatológica, como ha sido la aspirina en el contexto de la angina inestable. Los trombolíticos en el infarto, que han cambiado todo el enfoque y son considerados el mayor aporte a la unidad coronaria en los últimos 15 años, sólo reducen la mortalidad un 20-30%. Asumamos para nuestro estudio una reducción del 30% de la mortalidad, es decir, del 5% al 3,5% con la vacunación. 6) ¿Con qué nivel de certeza queremos establecer los resultados (errores alfa

y beta, confiabilidad y poder del estudio)? 1.3.1. Error alfa y nivel de confianza o confiabilidad de un estudio. 1.3.1.1.Error Alfa Al comenzar un estudio se establece qué p se considerará estadísticamente significativa. Lo habitual es utilizar p ≤ 0,05. Esta p asumida es el denominado error alfa. El error alfa es el error que podemos cometer al afirmar que la diferencia es significativa cuando en realidad la misma es sólo

debida al azar. También puede expresarse al error alfa como la probabilidad

de incurrir en un estudio falsamente positivo. (considerar a la diferencia

como significativa cuando este hallazgo es por azar y en la realidad no

existe). Un error alfa de 0,05 implica que tenemos sólo 1 posibilidad en 20

de considerar al estudio falsamente positivo, es decir, que la diferencia sea

sólo debida al azar. En un ejemplo, se ha observado una reducción de la incidencia de neumonías del 25% en pacientes vacunados, con una p < 0,05. Afirmamos entonces que la vacuna se asocia a una reducción significativa de la neumonía, y cuando afirmamos esto asumimos que la probabilidad que esta diferencia haya sido por azar es sólo de 1/20.

- 9 -

En la clase del Dr. Tessler se expresa el mismo concepto pero referido a la hipótesis de nulidad: define al error tipo I (error alfa), como el error que cometemos al considerar falsa (afirmando que existe diferencia significativa) una hipótesis (de nulidad) cierta. Expresado en otras palabras, error que se puede cometer al considerar falsa la hipótesis de nulidad (es decir, afirmar que existe una diferencia significativa) cuando la misma es cierta (es decir, no existe en realidad diferencia entre ambos grupos). 1.3.1.2. Nivel de confianza o "confidence level"

La inversa del error alfa es el nivel de confianza (confidence level) que no debe ser confundido con el intervalo de confianza que ya hemos expuesto con detenimiento. Cuando afirmamos que la diferencia entre los dos grupos fue estadísticamente significativa con una p ≤ 0,05 estamos diciendo que tenemos un nivel de confianza igual o superior al 95% de que la diferencia estimada es real, y una probabilidad igual o menor al 5% (error alfa) que la diferencia observada sea atribuible al azar. Nunca podemos asegurar con certeza absoluta que la intervención es mejor que el control, sino sólo estimar el nivel de confianza que tenemos en la afirmación y el error máximo que aceptamos al afirmar que son diferentes. 1.3.1.3. Selección del error alfa y nivel de confiabilidad En general no se admiten trabajos diseñados para una p > 0,05 (nivel de confiabilidad menor del 95%). 1.3.1.3.1. Cuando seleccionar p ≤ 0,05 o p ≤ 0,01

La elección de utilizar un error alfa de 1%, p ≤ 0,01, nivel de confiabilidad del 99%, se limita a estudios con una intención de grandes implicancias poblacionales o económicas, donde un error del 5% puede considerarse excesivo. En este caso, dada la relevancia de la intervención con vacunación que se va

a evaluar y la posibilidad de que se admita su aplicación masiva

estableceremos un error alfa del 1%.

- 10 -

1.3.1.4. Error beta y poder del estudio Analicemos el ejemplo del gráfico de la figura 2. El evento se redujo del 15 al 10% en los cuatro estudios, fue no significativo en los dos primeros con 200 y 400 pacientes, y alcanzó significación estadística en los estudios de mayores dimensiones. Estos último estudios nos permiten conocer que la diferencia existe con una confiabilidad del 95% o un error alfa del 5% o de 99% y error alfa de 1% en el último. ¿Pero qué ocurre al intentar informar los primeros dos estudios?

Figura 2. Efectos de droga versus placebo y nivel de significación en estudios de diferente número de pacientes. Deberíamos afirmar que la prevalencia se redujo del 15% al 10%, en forma no significativa, es decir, que no podemos rechazar la hipótesis de nulidad de que el efecto de la droga es similar al placebo. En realidad esta diferencia es real, como hemos confirmado en los estudios de mayores dimensiones, por lo que hemos cometido un error. Este es el denominado error beta, es decir, la probabilidad de afirmar que no hay diferencias entre droga o placebo cuando en realidad esta existe.

10

15

101010

15 1515

0

2

4

6

8

10

12

14

16

200p 400p 1000p 2000p

droga

placebo

p<0,01 p<0,05 NS NS

%

- 11 -

Tomando la nomenclatura utilizada para el error alfa, podemos afirmar que el error beta es la probabilidad de considerar que el estudio es negativo en forma falsa (falso negativo: afirmamos que no existen diferencias cuando en realidad las hay). De acuerdo a Pocock, “si afirmo que el porcentaje de eventos fue similar en el grupo droga y placebo, la posibilidad de que fueran distintos y no lo hubiera detectado por azar es: error 0,1 : 10% (1 cada 10 estudios) error 0,2 : 20% (1 cada 5 estudios) error 0,5 : 50% (1 cada 2 estudios)”

"De tal manera, el error beta es el riesgo de que el estudio sea un falso

negativo"

1.3.1.5. Poder del estudio. Restando el error beta a la unidad se obtiene el denominado poder del estudio, 1- ß, es decir, la probabilidad de no incurrir en un estudio falsamente negativo. También puede expresarse como la capacidad de detectar una diferencia si esta existe. En los estudios habituales se utilizan niveles de error ß de 0,05 - 0,1 - 0,2 y excepcionalmente 0,5. Con un poder del 90%, la probabilidad de que si existe una diferencia se la detecte es del 90%. La probabilidad de que no la detecte (falso negativo) es del 10%.

Error beta Probabilidad de falso negativo

Poder del estudio

0,05 5% 95%

- 12 -

0,1 10% 90% 0,2 20% 80% 0,5 50% 50%

1.3.1.6. Selección del poder de un estudio Para calcular el número de pacientes es imprescindible conocer que error beta se considerará admisible, o su inversa, que poder consideramos aceptable. Si aceptamos un poder del 90%, afirmamos que si efectuamos 10 estudios y la diferencia existe, sólo aceptaríamos que, por azar en uno de ellos no se detecte (falso negativo aceptable: 10%, error beta 0,1). Si preferimos un poder del 80%, aceptamos que en 2 de 10 estudios pueda no detectarse una diferencia significativa (falsos negativos 20%), y un poder del 50% implica que en la mitad de los estudios no detectaremos la diferencia (falsos negativos 50%). El poder habitual en el diseño de estudios no debe ser menor del 80%, y se admite el 50% sólo en estudios piloto. Se seleccionan poderes mayores del 90% cuando los temas son de gran relevancia o para estudios de equivalencia. Existe en realidad un conflicto entre la rigidez del estadígrafo (no deben encararse estudios con poder menor del 80%) y la mayor audacia del clínico (con diferentes argumentos: a veces hay que tirarse el lance, el beneficio puede ser mayor, aunque no se encuentre significación puede marcarse una tendencia que justifique estudios de mayores dimensiones). De hecho, existen (aunque pocos) estudios de gran relevancia como el CONSENSUS I, que demostró por primera vez que los inhibidores de la enzima convertidora reducen la mortalidad en la insuficiencia cardíaca cuyo tamaño de la muestra fue calculado para un poder del 50%. Para nuestro estudio de vacunación, de grandes implicancias poblacionales,

utilizaremos un poder (elevado) del 95%; aceptamos así un error beta de 5%,

de tal manera que elegiremos un tamaño de la muestra que garantice que si

la diferencia a buscar existe (descenso del 5% a 3,5%) la detectaremos en 19

de cada 20 estudios que se encaren. La posibilidad de un estudio falso

negativo será de sólo 1/20, 5%.

- 13 -

1.3.2. A calcular la muestra. Manos a la obra. Habiendo establecido el porcentaje esperado de eventos en el grupo control, el porcentaje de reducción y de tal manera los eventos en el grupo tratado, el error alfa y el error beta, los programas estadísticos nos informan el número de pacientes necesarios para cada grupo y en forma total. Con fines didácticos utilizaremos la aproximación matemática de Pocock en su libro Clinical Trials, que recomendamos como lectura imprescindible para todos los alumnos del curso. Fórmula de N para cada grupo es: N = (p1*q1) + (p2*q2) (p2-p1) 2 El factor f (α ,ß) surge de la tabla:

Beta ALFA 0,05 0,1 0,2 0,5

0,1 10,8 8,6 6,2 2,7 0,05 13 10,5 7,9 3,8 0,02 15,8 13 10 5,4 0,01 17,8 14,9 11,7 6,6

Con esta fórmula, que puede ser efectuada a mano ó con una calculadora sencilla, podemos estimar rápidamente el tamaño de la muestra. Requiere conocer cuatro datos:

p1: prevalencia del evento en el grupo droga p2: prevalencia del evento en el grupo placebo o control α: error alfa ß: error beta

x f (α, ß)

- 14 -

El resultado de la primera parte de la ecuación se multiplica por el valor de la tabla que corresponde a los errores alfa y beta elegidos. Tomemos un ejemplo y luego efectuaremos el cálculo de la muestra para el estudio de vacunación: Estimamos que la prevalencia de un evento es del 20% en el grupo placebo y consideraremos relevante el efecto del tratamiento si en el grupo tratado la prevalencia no supera el 15%. Utilizaremos un error alfa de 0,05 y un error beta de 0,2. La primera parte de la ecuación resulta:

N = (15*85) + (20*80) (20-15)**2

lo que da un resultado de 115. El factor alfa/beta en este caso en la tabla es de 7,9. N = 115 x 7,9 = 908 pacientes en cada grupo de tratamiento, es decir, en total 1816 pacientes a incluir en el estudio. Algunas observaciones de la fórmula tienen gran importancia conceptual: 1) El número de pacientes depende en forma exponencial de la diferencia esperada entre droga y placebo. Si se duplica la diferencia, se reduce aproximadamente cuatro veces el número de pacientes a incluir y si se reduce la diferencia a la mitad se cuadruplica el número de pacientes necesarios.

Ejemplo: A) Placebo 20%, droga 10%:

N = (10*90) + (20*80) = 2500 = 25 (20-10)**2 100

lo que da un resultado de 25. Con el mismo error alfa y beta, se calcula N = 25 * 7,9 = 197,5 pacientes por grupo.

- 15 -

B) Placebo 20%, droga 17,50%:

N = (17,5 *82,5) + (20*80) = 3043 = 487 (20-17,5)**2 6,25

lo que da un resultado de 487. Con el mismo error alfa y beta, se calcula N = 487 * 7,9 = 3847 pacientes por grupo. Para un error alfa de 0,05 y un poder del 80%

Placebo Droga Diferencia Pacientes por grupo 20% 10% 10% 198 20% 15% 5% 908 20% 17,5% 2,5% 3847

2) La modificación del error alfa de 0,05 a 0,01 implica modificar el factor alfa/beta de 7,9 a 11,7 es decir, un incremento aproximado del 50%.

Para un error alfa de 0,01 y un poder del 80%, comparada con alfa 0,01:

Pacientes por grupo de acuerdo a error alfa Placebo Droga Diferencia

0,05 0,01 20% 10% 10% 198 292 20% 15% 5% 908 1345 20% 17,5% 2,5% 3847 5698

3) La modificación del error beta de 0,2 a 0,05, es decir del poder del 80 al 95% implica modificar el factor alfa/beta de 7,9 a 13, es decir, que incrementa en un 60% el número de pacientes de cada grupo de tratamiento.

Para un error alfa de 0,05 y un poder del 95%, comparada con poder 80%:

- 16 -

Pacientes por grupo de acuerdo al poder Placebo Droga Diferencia 80% 95%

20% 10% 10% 198 325 20% 15% 5% 908 1495 20% 17,5% 2,5% 3847 6331

Si bajamos el poder al 50%, el factor alfa/beta se reduce a 3,8, es decir, requiere la mitad de pacientes que con poder 80% (factor 7,9) y un tercio que con poder 95% (factor 13). Para un error alfa de 0,05, comparamos entre poder del 80%, 95% y 50%:

Pacientes por grupo de acuerdo al poder Placebo Droga Diferencia

80% 95% 50% 20% 10% 10% 198 325 95 20% 15% 5% 908 1495 437 20% 17,5% 2,5% 3847 6331 1850

1.3.2.1. Cálculo del tamaño de la muestra para datos cuantitativos Al analizar datos cuantitativos, cuando queremos comparar por ejemplo si los niveles de colesterol son diferentes entre pacientes diabéticos o no diabéticos, o si se modifican con un determinado tratamiento, el cálculo de la muestra utiliza el mismo esquema conceptual, pero la diferencia se establece entre las medias de los grupos, y se requiere conocer el desvío standard, el poder y el error alfa a utilizar. En general los números requeridos son mucho menores que los necesarios para demostrar modificación de eventos porcentuales. En las próximas clases, cuando se analicen tests estadísticos para comparar datos cuantitativos, volveremos sobre los métodos de cálculo.

- 17 -

1.3.2.2. Calculo de la muestra para el estudio de vacunación Tenemos ya todos los elementos para estimar el tamaño de la muestra necesario para nuestro estudio de vacunación. Punto final: mortalidad en el primer año Prevalencia esperada en el grupo control: 5% Prevalencia en el grupo vacunado: 3,5% Error alfa: 1 % (p<0,01), nivel de confiabilidad 99%. Error beta: 5%, poder 95% Ecuación: N = (p1*q1) + (p2*q2)

(p2-p1)2

Primera parte:

N = (3,5*96,5) + (5*95) = 813 = 361,33 (5-3,5)2 2,25

Segunda parte: El f (α , ß) por tabla es 17,8 (columna de error beta 0,05 y error alfa 0,01)

N = 361,33 x 17,8 = 6431 El número de pacientes a incluir en cada grupo de tratamiento es de 6431, es decir, que en total requeriremos 12862 pacientes para cumplir con los objetivos establecidos en el estudio de vacunación. Utilizando el programa Statcalc del Software EPI6 y el software contenido en el libro Primer of Biostatistics, se indica 6573 pacientes por grupo, con corrección de continuidad, o 6441 pacientes sin corrección de continuidad, cifras similares a las obtenidas con nuestro cálculo casero.

x f (α, ß)

- 18 -

1.3.2.3. Cálculo del poder e interpretación clínica de ensayos publicados

Frente a ensayos de pequeñas dimensiones o cuando los eventos tienen baja incidencia es con frecuencia necesario estimar el poder real del trabajo que se está publicando para poder interpretar adecuadamente los datos. Esto puede ser muy útil en dos circunstancias: 1) El estudio no demuestra resultados significativos pero se observa una tendencia.

Por ejemplo, en 300 pacientes divididos en dos grupos de tratamiento, se observó en el grupo A una mortalidad del 10% y en el grupo B una mortalidad del 6%, diferencia no significativa. Sin embargo la mortalidad se redujo un 40% con el tratamiento B. Al afirmar que la diferencia es no significativa podemos estar incurriendo en un error tipo II (error beta), es decir, afirmar que no existe diferencia cuando en realidad puede haberla. Es necesario entonces estimar con este número de pacientes cuál fue el poder real de detectar una reducción importante de la mortalidad. No nos extenderemos en el aspecto matemático del cálculo, dado que todos los programas lo calculan en forma directa, con un razonamiento derivado de las ecuaciones para estimar el tamaño de la muestra despejando justamente el error ß. En este caso, al introducir el número de pacientes de cada grupo y la prevalencia de mortalidad en el grupo control (tratamiento A), el poder real de detectar una diferencia fue de:

Reducción Prevalencia A Prevalencia B Poder 40% 10% 6% 18% 30% 10% 7% 10,8% 20% 10% 8% 6%

Vemos que con 150 pacientes por grupo y una prevalencia del 10% de eventos, el poder para detectar una diferencia significativa era inferior al 18% aun con reducciones del 40%, y mucho menor si el beneficio era más escaso. Aplicando la fórmula de cálculo del tamaño de la muestra, para lograr un poder del 80% capaz de detectar una reducción del 40% con una prevalencia de eventos del 10% y un error alfa de 0,05, hubiéramos requerido la inclusión

- 19 -

de 770 pacientes por grupo, quintuplicando la población efectivamente incluida en el ejemplo.

Interpretamos que el estudio publicado puede ser un falso negativo, pues no

tenía poder suficiente para detectar diferencias aún muy importantes de la

mortalidad. En inglés se indica que el estudio estaba "underpowered".

2) Un estudio pequeño reporta un resultado extraordinariamente positivo. Tomemos un ejemplo ficticio. Una droga A ha reducido la mortalidad del 10% al 2% en un estudio abarcando 300 pacientes. La p es < 0,05. ¿Cómo debemos interpretar este estudio? a) La droga A es maravillosa, dado que reduce la mortalidad un 80%. b) El resultado es un hallazgo casual fortuito en un estudio no diseñado para

detectarlo. Dado que nadie es tan optimista para diseñar un estudio esperando una reducción del 80% del riesgo como lo observado, podemos calcular cual era el poder que tenía el estudio para detectar beneficios biológicamente plausibles. En este caso con 300 pacientes y una prevalencia del 10% de eventos, (mantenemos en este ejemplo la misma cifra de pacientes por grupo y la prevalencia para poder usar la tabla anterior) el poder para detectar una reducción del 20% como hemos visto era sólo del 6% y para detectar una reducción del 30% era sólo del 11%. Llegamos a la conclusión de que este no es un estudio diseñado tal cual se publicó, sino un reporte de un hallazgo. Es cierto que los hallazgos no se discuten, pero ¿por qué es importante este concepto? Porque los resultados maravillosos en grupos pequeños suelen no reproducirse cuando se evalúan en poblaciones más numerosas. Esto es debido al fenómeno denominado sesgo de publicación. Cómo hemos comentado anteriormente, existe una probabilidad mucho mayor de que un trabajo sea enviado a publicación y aceptado cuando es positivo. Si el resultado de este mismo estudio hubiera mostrado una reducción del 10 al 7%, (no significativa con este número de pacientes pero potencialmente importante por la caída del 30% en el riesgo), nadie lo hubiera enviado a publicación. En caso de haberlo enviado, con la conclusión que no existió diferencia

- 20 -

significativa, las revistas no lo hubieran aceptado. Su respuesta afirmaría que existe la sospecha de un resultado falso negativo y el estudio carecía del poder suficiente por el escaso número de pacientes. La ausencia de significación podía atribuirse al reducido tamaño de la muestra.

Es muy importante considerar estas limitaciones cuando se interpreta el resultado de estos estudios, para evitar trasladar en forma rápida a la práctica clínica hallazgos poco plausible biológicamente que no tengan confirmación.

- 21 -

1.4. Resumen final En su libro Clinical Trials, Pocock sugiere la siguiente aproximación realista al manejo del tamaño de la muestra. Pasos sucesivos: 1) Establecer el cálculo del número de pacientes de acuerdo a los criterios

establecidos (% grupo control y tratado, errores alfa y beta dependiendo de las características del estudio y las expectativas iniciales)

2) Analizar la tasa posible de inclusión de esa patología, lo que permitirá

estimar la duración del estudio, la posibilidad de llevarlo adelante en una solo institución y los eventuales costos

3) Cuando el período estimado de reclutamiento es muy largo, caben tres

alternativas: a) Incrementar la tasa de inclusión:

Invitando más instituciones a participar Incrementando los estímulos para la inclusión Modificando los criterios de inclusión (edad, etc.) b) Modificar los criterios de expectativa: Errores alfa, beta, % de beneficio

Pequeñas modificaciones del % de beneficio reducen mucho el número estimado: duplicando el efecto, cae el número necesario a un cuarto. Error alfa: nunca debe ser menor de 0,05 Error beta: no es conveniente que sea menor de 0,2 (poder del estudio 80%). Puede llegarse a 0,5 (50%) en estudios piloto.

c) Abandonar la idea si no puede hacerse con alfa 0,05 y beta 0,5 por el

número de pacientes requerido

Calculo del tamanio de la muestra - gedic.files. · PDF file- 2 - 1. Cálculo del...

Documents

Transcript of Calculo del tamanio de la muestra - gedic.files. · PDF file- 2 - 1. Cálculo del...