Significación Estadística y Significación Clínica

Significacin estadstica y significacin clnica.

IntroduccinLa necesidad creciente por investigar genera preguntas a contestar cada vez ms complejas. Hoy en da el uso de trminos estadsticos y epidemiolgicos invade la literatura mdica. La importancia de la estadstica es tal, que muchos de los trabajos y de las conclusiones procedentes de la investigacin, se deben respaldar en ella.

En la actualidad la estadstica ha experimentando un importante avance gracias a las nuevas tecnologas y los potentes medios informticos que permiten el manejo de grandes volmenes de datos. Desgraciadamente todos estos avances tambin han provocado que en los ltimos aos haya disminuido la accesibilidad y la capacidad de lectura crtica de los profesionales sanitarios. Muchos investigadores tienen dificultades a la hora de planificar un proyecto de investigacin adecuado que responda a su pregunta de estudio por falta de formacin estadstica y metodolgica.

Hoy en da se hace imprescindible la ayuda de profesionales cualificados en estadstica y epidemiologa que proporcionen apoyo y asesoramiento a los investigadores en la planificacin de los estudios en todas sus fases, as como en el diseo, anlisis e interpretacin de la los resultados.

Qu quiere decir significativo?Para algunos investigadores, la estadstica es un fin ms que un medio para encontrar respuesta a sus preguntas. Qu trabajo estadstico de una publicacin cientfica no viene acompaado por una P?. Es ms, en muchas ocasiones su trabajo solo tiene sentido o es relevante si esta P es menor de cierto valor: 0,05. Pero, realmente que es la P? cmo se debe interpretar?

Lo primero que debemos hacer es diferenciar dos conceptos totalmente distintos: significativo e importante. El trmino significativo suele generar confusin y no muchos investigadores lo comprenden bien. En general, cuando hablamos que algo es significativo, implica que es importante o destacado. Sin embargo, en la terminologa estadstica, un resultado significativo quiere decir altamente improbable, pero no necesariamente tiene que ser importante.

Muchas veces, por desconocimiento o por pereza mental, solemos utilizar ambos trminos cmo equivalentes. A pesar de las muchas advertencias de los estadsticos y epidemilogos sobre la importancia de diferenciar ambos conceptos, sigue habiendo cierta confusin. Es fcil poner ejemplos en los que podemos ver como estadsticamente significativo no quiere decir necesariamente importante o relevante. La significacin indica una asociacin o diferencia entre variables que difcilmente se puede explicar por el azar, aunque esta asociacin no indica por s sola causalidad1.

Antes de empezar un trabajo de investigacin se debe hacer el esfuerzo por definir la magnitud de lo que vamos a considerar clnicamente importante: una diferencia de proporciones del 5%, una reduccin del riesgo relativo del 40%, un coeficiente de correlacin de 0,6, etc. Debe ser el propio investigador el que ha de decidir lo que entiende por importante. La relevancia vendr determinada por la gravedad del problema, la morbimortalidad generada, el coste, etc2. Despus de analizar los datos, obtendremos unos resultados que podrn ser o no estadsticamente significativos. Medidas como el nmero necesario de pacientes a tratar (NNT) o la reduccin relativa del riesgo (RRR) nos pueden servir de ayuda para valorar la relevancia clnica de nuestros hallazgos. Veamos un ejemplo y de paso recordaremos cmo funcionan los test de hiptesis.

Los dos tipos de errores estadsticosSupongamos que disponemos de dos tratamientos (A y B) para una misma enfermedad, y deseamos conocer cual de ellos es mejor. Al mismo tiempo vamos a considerar como mejor si la diferencia que hay entre ambos es de al menos un 10% en el porcentaje de enfermos curados. Acabamos de definir lo que entendemos por diferencia clnicamente importante: un 10%. Realizado el experimento en 40 personas y despus de aleatorizar los tratamientos A y B en dos grupos se obtienen los resultados de la Tabla I.

Tabla I. Resultados en una muestra de 40 pacientes.

CuracinTratamientoATratamientoBp

Si6 (30%)12 (60%)0,057

No14 (70%)8 (40%)

Total2020

Con el tratamiento A se curaron 6 personas (30%) mientras que con el B se curaron 12 (60%). Como podemos ver la diferencia de curaciones observada entre uno y otro del 30% es muy superior al 10% que previamente nos habamos fijado como importante. Utilizando la prueba ji-cuadrado de Pearson adecuada para comparar proporciones, obtenemos una p=0,057. La p es una probabilidad, un valor continuo que va desde 0 hasta 1. Para nuestra desgracia es un resultado no significativo, si tomamos como umbral de significacin el famoso valor de p=0,05. Nos encontramos ante un ejemplo de una diferencia clnicamente muy importante pero estadsticamente no significativa.

La formulacin del problema desde el punto de vista estadstico con los test de hiptesis es la siguiente:

Hiptesis nula (Ho)= Los tratamientos A y B son iguales, o tienen la misma eficacia.

Hiptesis alternativa (H1)= Los tratamientos son distintos.

La Hiptesis nula (Ho) es una afirmacin que hacemos sobre una o ms caractersticas de la poblacin y que ponemos a prueba mediante una prueba estadstica. Suele ser la que mantiene que no existe asociacin o que las diferencias encontradas pueden ser explicadas por el azar. La Hiptesis alternativa es la que cogemos cuando rechazamos la Ho. Como vemos ambas son excluyentes, o cogemos una o la otra. En nuestro ejemplo no podramos rechazar la hiptesis nula (p>0,05) y por lo tanto debemos concluir que no hay evidencia suficiente para decir que un tratamiento es mejor que otro.

Es el momento de recordar los dos tipos de error que podemos cometer al decidirnos por considerar como cierta cualquiera de las dos hiptesis:

Error Tipo I (?): Es el que estamos cometiendo al rechazar la hiptesis nula cuando en realidad es verdadera. Decir que hay diferencias o asociacin cuando en realidad no es as.

Error Tipo II (?): Sucede al aceptar la hiptesis nula cuando en realidad es falsa. Decir que no hay diferencias o asociacin, cuando realmente s las hay. Aqu tambin hablamos de potencia de un test o de capacidad para encontrar una diferencia o asociacin que realmente existe, que se calcula como 1- ??

La veracidad de la H0 no se demuestra nunca, si al comparar los dos grupos decimos que no hemos encontrado diferencias estadsticamente significativas y nos quedamos con la Ho, no podremos afirmar que los grupos son iguales.

La probabilidad de cometer un error tipo I es el valor de la p, que en el ejemplo de la Tabla I era de 0,057. Sin embargo el valor de p no nos informa en absoluto de la probabilidad de cometer un error tipo II. El valor de p nos indica que tenemos un 5,7% de probabilidad de haber encontrado en nuestro experimento esas diferencias u otras an mayores entre los frmacos A y B cuando en realidad los dos tienen la misma eficacia. Esto nos ha pasado en una muestra de 40 pacientes, pero si hubiramos hecho un estudio con el doble de pacientes y hubisemos obtenido los resultados de la Tabla II, obtendramos una p de 0,007 que ahora sera un resultado significativo. Las diferencias siguen siendo las mismas: con el frmaco A se han curado el 30% de pacientes mientras que con el frmaco B se han curado el 60%. El valor de p lo podemos interpretar como la probabilidad de encontrar esa diferencia u otra an mayor, si la hiptesis nula de igualdad fuese cierta.

Tabla II. Resultados en una muestra de 80 pacientes.

CuracinTratamientoATratamientoBp

Si12 (30%)24 (60%)0,007

No28 (70%)16 (40%)

Total4040

La p mide probabilidad, no asociacinAl aumentar el tamao muestral conseguimos aumentar la precisin de nuestras mediciones y disminuir la variabilidad explicada por el azar. Por eso, ante la misma diferencia pero con un mayor tamao muestral hemos conseguido reducir el valor de la p de 0,057 a 0,007. Como vemos el valor de p depende no solo de la diferencia de los grupos de estudio, sino del tamao muestral. Siempre podemos encontrar diferencias estadsticamente significativas con un tamao muestral lo suficientemente grande aunque las diferencias sean muy pequeas e irrelevantes desde un punto de vista clnico o cientfico. Sirva como ejemplo la Tabla III. Como conclusin podemos decir que la p no es una medida de asociacin, tan solo de azar y por ello se ve muy influenciada por el tamao muestral.

Tabla III. Muestra de 10000 pacientes.

CuracinTratamientoCTratamientoDp

Si4000 (80%)3900 (78%)0,014

No1000(20%)1100 (40%)

Total50005000

Despus de estos ejemplos tambin podemos deducir ciertas debilidades de las pruebas de hiptesis y de la debilidad de tomar una decisin dicotmica en funcin del valor de una p mayor o menor de 0,05. Hemos visto que con pocos casos como en el ejemplo de la Tabla I no podamos llegar a encontrar diferencias estadsticamente significativas a pesar de tener una diferencia importante entre ambos tratamientos, mientras que cuando tenemos un tamao muestral muy grande como en la Tabla III, obtenemos una p significativa an siendo estas diferencias muy pequeas. A efectos prcticos, lo que nos interesa conocer es la magnitud de la diferencia, y para esto la p carece por completo de utilidad3.

Por convenio o arbitrariedad, se han establecido como valores de significacin estadstica aquellos valores de p por debajo de 0,05 0,01. Cuando un investigador asume como nivel de significacin el valor de 0,05 quiere decir que est dispuesto a asumir un riesgo de equivocarse de hasta el 5% de las veces al coger la H1 y decir que los dos grupos son diferentes cuando en realidad es que son iguales.

Los intervalos de confianzaComo vemos con la p no tenemos una idea de la magnitud ni de la precisin del efecto observado. Desde hace algn tiempo se recomienda insistentemente el uso de los intervalos de confianza acompaando o incluso sustituyendo a los valores de la p, ya que esta herramienta s que nos aporta informacin sobre la magnitud y la precisin del efecto4. El intervalo de confianza construido a partir de una muestra, es un rango de valores mnimo y mximo entre los cuales esperamos que se encuentre el verdadero valor del parmetro que tratamos de estimar. En las distribuciones normales los intervalos de confianza se construyen sumando y restando a la media su error estndar multiplicado por dos para obtener intervalos de confianza del 95%. Con los resultados de nuestra muestra, podemos construir intervalos de diferente amplitud en funcin de la confianza deseada, pero cuanta ms confianza deseemos, ms anchos sern nuestros intervalos y menor informacin estaremos dando. Normalmente los intervalos se construyen con un 95% o 99% de confianza, la amplitud de los intervalos tambin depender de la variabilidad o desviacin estndar de las observaciones de nuestra muestra. Un intervalo de confianza del 95% quiere decir que si repitiramos nuestro experimento con 100 muestras distintas, en 95 veces nuestro intervalo de confianza incluira el verdadero parmetro poblacional que tratamos de estimar. Vemoslo con los ejemplos de la Tabla I y la Tabla II:

Ejemplo 1, Tabla I: Diferencia entre curacin tratamiento B y A= 30%, IC95%(-4%; 64%); p=0,057 con n=40 pacientes.

Ejemplo 2, Tabla II: Diferencia entre curacin tratamiento B y A= 30%, IC95%(7%; 53%); p=0,007 con n=80 pacientes.

Podemos ver que ambos intervalos de confianza del 95% tienen amplitudes distintas, en el segundo caso el intervalo es ms estrecho porque el tamao muestral es mayor. Tambin podemos hacernos una idea de la magnitud de la diferencia entre ambos tratamientos. En el primer caso, el intervalo de confianza incluye al cero, y la p es mayor de 0,05 por lo que no podemos descartar que no haya diferencias entre ambos tratamientos. En el segundo caso, el intervalo no abarca el 0 y la p es menor de 0,05. Si uno de los extremos del intervalo es exactamente 0, la p tendr un valor de 0,05.

REFERENCIAS1 Ramalle-Gmara, E. and R. Bermejo-Ascorbe (1996). El significado de lo significativo. Algunas consideraciones sobre los test de significacin y el uso del valor p. Atencin primaria 14(5): 863-865.

2 Pita Fernndez, S. and S. Prtega Daz (2001). http://www.Fisterra.com. Significancia estadstica y relevancia clnica. Cad Aten Primaria 8: 191-195.

3 Clark, M. L. (2004). Los valores de P y los intervalos de confianza. Rev Panam Salud Publica 15(5): 293-6.

4 Gardner, M. J. and D. G. Altman (1986). Confidence intervals rather than P values: estimation rather than hypothesis testing. Br Med J (Clin Res Ed) 292(6522): 746-50.

Significación Estadística y Significación Clínica

Documents

Transcript of Significación Estadística y Significación Clínica