El Valor P en Epidemiología - Revista Chilena de Salud ...

TEMAS DE ACTUALIDADRev Chil Salud Pública 2006; Vol 10 (1):47-51

47

El Valor P en Epidemiología

CAROLINA MENDOZA(1)

(1) Programa de Doctorado en Salud Pública. Escuela de Salud Pública. Facultad de Medicina Universidad de Chile.Becaria proyecto MECESUP UCH 0219. [email protected]

El valor p es una herramienta ampliamenteusada en Epidemiología. Forma parte del procesode inferencia científica, entendiendo por éste elproceso reflexivo de evaluar teorías a partir deobservaciones1. Sin embargo, a pesar de su usomasivo, no ha estado libre de cuestionamientos,dando pie a interesantes debates entre losexpertos.

Este trabajo tiene como objetivo revisar lahistoria del valor p, desde su origen hasta hoy,destacando los antecedentes que permitancomprender sus usos y abusos en Epidemiología,y así promover el uso adecuado de esteimportante elemento de la inferencia científica.

ORIGEN Y EVOLUCIÓN DEL VALOR P

El valor p tiene su origen en la propuesta deRonald A Fisher llamada Dócima deSignificación. Esta fue planteada alrededor de1920 y su objetivo era establecer si un resultadoera significativo. Para ello, Fisher propuso elvalor p o probabilidad de significación, que fuepensado como el indicador que permitiría evaluarla significación. Luego fue definido como laprobabilidad bajo la hipótesis nula de obtenervalores de la estadística de trabajo iguales o másextremos que los observados en el experimento2.Así, fue concebido como la medida de la evidenciaen un único experimento, lo que reflejaba lacredibilidad de la hipótesis nula a la luz de losdatos. Dicho de otro modo, el valor p correspondíaa una medida de la discrepancia entre los datosy la hipótesis nula2-4.

Sin embargo, Fisher fue claro al plantear queeste indicador debía ser utilizado con flexibilidaddentro de los procesos complejos de descripcióne inferencia de la investigación científica. Debíaser combinado con otras fuentes de informaciónsobre el fenómeno en estudio y en caso deutilizar un umbral para evaluar significación,éste debía ser flexible y depender delconocimiento acumulado sobre el fenómeno enestudio. Esto transformaba al valor p en unindicador informal que no formaba parte de unmétodo formal de inferencia, dejando finalmentesu interpretación en manos del investigador2.

Fisher, quien compartía intereses entre laestadística y la genética, deseaba resolverproblemas reales y sus propuestas teóricassiempre estaban relacionadas con aplicacionesprácticas5. Estas características de su trabajo,permiten comprender mejor su propuesta deracionamiento inductivo para evaluar laevidencia de un experimento, propuesta quegeneró distintas reacciones entre suscontemporáneos. Tal vez los más críticos de supropuesta fueron Jerzy Neyman y Egon Pearson,quienes plantearon en 1928 una nueva propuestallamada Dócima de Hipótesis tendiente areemplazar la Dócima de Significación ideadapor RA Fisher.

Neyman se caracterizó por un mayor énfasisen el razonamiento lógico y matemático, aunquesin dejar de lado la importancia de la aplicaciónpráctica, ya que planteaba que los problemasprácticos eran la fuente de inspiración para lateoría estadística6. Junto a Pearson criticaron

duramente la propuesta de RA Fisher declarandoque “ninguna dócima basada en la teoría deprobabilidades puede proveer por sí sola algunaevidencia valiosa sobre la veracidad o falsedadde una hipótesis”3.

La propuesta de Dócima de Hipótesisbuscaba reg las que gobernaran e lcomportamiento relacionado a las hipótesisplanteadas, de manera de reducir los errores alargo plazo2. Esto introdujo los conceptos dehipótesis alternativa junto al de hipótesis nulay al error tipo II junto al tipo I. Los errores tipoI y II fueron definidos como aquellos que puedecometer el investigador en el proceso de Dócimade Hipótesis, siendo el tipo I referido a laobtención de resultados falsos positivos (plantearque hay diferencia entre los grupos cuando nola hay), mientras que el tipo II estaba referidoa los resultados falsos negativos (plantear queno hay diferencia cuando los grupos sondiferentes). La magnitud de estos errores sedebía ajustar a cada experimento en particulary debía estar en función de las consecuenciasde cometer cada uno de ellos. Con su definiciónera posible identificar regiones críticas quepermitían rechazar o no rechazar la hipótesiscorrespondiente. Si el resultado caía dentro dela región crítica, la hipótesis alternativa debíaser aceptada y rechazada la hipótesis nula. Porel contrario, si el resultado caía fuera de la regióncrítica, la hipótesis nula debía ser aceptada yrechazada la alternativa3.

Por lo tanto, esta propuesta implicaba unrazonamiento deductivo que buscaba disminuirlos errores a lo largo de distintos experimentos,en oposición al razonamiento inductivo basadoen un único experimento planteado por Fisher.Esto significaba un avance en términosmatemáticos y conceptuales, pero implicabadificultades para la práctica científica, ya queno incluía ninguna medida de evidencia2.Tiempo después de ser planteadas estaspropuestas, comenzó a gestarse anónimamenteel recurso híbrido surgido de la fusión de ambas,dando origen a lo que hoy conocemos comoDócimas de Hipótesis Basadas en el Cálculodel Valor p o Dócimas de SignificaciónEstadística7. Este método combinado consistebásicamente en establecer la magnitud del error

tipo I y II previo al experimento, luego calcularel valor p en base a las observaciones yfinalmente rechazar la hipótesis nula si el valorp es menor a la magnitud del error tipo Iestablecida previamente2. En este método, lamagnitud de los errores se establecearbitrariamente, siendo utilizado en casi todoslos casos 0.05 como magnitud del error tipo I,transformando al proceso en algo mecánico.Es decir, este método combina elementos deambas propuestas originales, aunque sinconsiderar las restricciones de Neyman y Pearsonquienes planteaban la imposibilidad de evaluarla evidencia en un único experimento, ni laflexibilidad de Fisher quien requería laincorporación del conocimiento acumuladosobre el fenómeno en estudio en el proceso deinferencia.

Quien hizo posible la combinación de estaspropuestas rivales fue el valor p. Al observar lacurva que representa la probabilidad bajo lahipótesis nula de todos los valores posibles dela estadística de trabajo asociada al experimento(Figura 1), es clara la similitud entre laprobabilidad de error tipo I (•'5f) y el valor p,al referirse ambos a áreas de la cola de la curva.Sin embargo, mientras el área bajo la curva para•'5f es definida antes del experimento, el áreadefinida para el valor p es establecida sólodespués de realizadas las observaciones. Ellopermitió que éste fuera interpretado como untipo especial de probabilidad de error tipo I

48

Figura 1. Curva que representa la probabilidad de todoslos resultados posibles bajo la hipótesis nula. (X: estadísticade trabajo)

0x

P value

Observed data

Rev Chil Salud Pública 2006; Vol 10 (1):47-51

(•'5f), el error tipo I asociado a los datos. Elvalor p adquirió entonces una aparente doblefunción, ya que por un lado era una medida dela evidencia contra la hipótesis nula (como loplanteó Fisher) y por otro, era un tipo especialde probabilidad de error tipo I, el error asociadoa los datos. Luego el valor p fue aceptado comouna medida de la evidencia en un únicoexperimento que no se oponía la lógica de largoplazo de la Dócima de Hipótesis de Neyman yPearson, permitiendo la fusión de ambaspropuestas2.

EL VALOR P EN EPIDEMIOLOGÍA

Las propuestas tanto de Fisher como deNeyman y Pearson se refieren principalmentea los estudios experimentales, ya que fueronmotivadas por los problemas prácticos a los quese veían enfrentados en esa época losinvestigadores en sus experimentos5-6. En losestudios experimentales, el investigadorinterviene directamente en el estudio, lograndocontrolar en gran medida la confusión y el sesgoa través de herramientas como la aleatorizacióny el enmascaramiento. Luego, dado que el valorp representa la probabilidad de obtener resultadosiguales o más extremos que el observadoasumiendo que no hay diferencia entre los grupos(hipótesis nula), el valor p se transforma en laprobabilidad de obtener resultados igual o másextremos que el observado por efecto del azar,ya que éste es la principal fuente de variabilidadal asumir que no hay diferencia entre los grupos.Por lo tanto el valor p en los estudiosexperimentales evalúa el rol del azar en laobtención de los resultados, al estar controladospor el diseño la confusión y los sesgos.En los estudios epidemiológicos observacionalescon muestras probabilísticas, el investigador noestá interesado en intervenir directamente, sinoque pretende comprender a través de laobservación los fenómenos de salud-enfermedadtal como ocurren en la realidad. Ante ello, lossesgos y la confusión son siempre explicacionesa evaluar, ya que difícilmente pueden sercontrolados completamente en el diseño. Enestas circunstancias, el uso e interpretación delvalor p se hacen complejos, ya que el azar no

es la principal explicación alternativa a evaluar.K. Rothman define al azar como el “conjuntode etiologías demasiado complejas para nuestropoder de explicación” y justifica el uso de lasDócimas de Significación por el hecho de que“siempre parece haber mayor variabilidad dela que podemos predecir”. Sin embargo, tambiénplantea que el usar estas dócimas implica ponerirracionalmente en el primer lugar al azar comoprincipal explicación alternativa a evaluar, sindiscutir la existencia de otras explicacionesalternativas más relevantes al problema1.Esto ha llevado a algunos autores a plantear queel valor p no debe utilizarse en los estudiosobservacionales, ya que no tendría unainterpretación directa y, por lo tanto, no aportaríainformación válida para el proceso deinferencia8. Otros desaconsejan su uso,planteando que entrega información confusa yambigua, ya que mezcla la magnitud del efectoobservado con el tamaño del estudio9.Probablemente sea esta complejidad en lainterpretación, ayudada por la utilización masivade programas computacionales que permitenobtener el valor p de manera fácil y rápida, loque explica su uso excesivo e inapropiado enla literatura epidemiológica. Tal vez la evidenciamás clara sobre este fenómeno sea un editorialde la revista Epidemiology que señala que “detodas las herramientas de nuestra disciplina,probablemente no hay ninguna que haya sidomás abusada que el valor p”10.

El valor p se convirtió en una herramientaque llevaba al investigador a evaluar losresultados de manera mecánica, informando deforma dicotómica si los resultados eransignificativos o no significativos en base al valorp obtenido, olvidando el proceso descriptivo,reflexivo e interpretativo requerido en lainvestigación científica.

El reconocimiento de este mal uso llevó aimportantes revistas epidemiológicas adesaconsejar enérgicamente el uso del valor p7.Probablemente una de las primeras fuera BritishMedical Journal, quien en 1986 publicó unartículo titulado “Intervalos de confianza enlugar de valor p: estimación en lugar de dócimasde hipótesis”11. Este desaconsejaba su uso,argumentando que existen mejores métodos

49

El Valor P en Epidemiología - Carolina Mendoza

50

para interpretar los resultados de un estudio,como es el caso de los Intervalos de Confianza. Los Intervalos de Confianza aparecen entoncescomo una alternativa al uso del valor p, luegode reconocer que su utilización no estabaaportando al proceso de generar informaciónque permitiera acumular conocimientos paramejorar la comprensión de los fenómenos enestudio12.

Un intervalo con un nivel de confianza de95%, indica que existe ese porcentaje deprobabilidad de que el rango de valores delintervalo incluya al parámetro poblacional.Dicho de otro modo, si se realizara una serie deestudios idénticos en diferentes muestras de unamisma población y para cada uno se calcularael Intervalo de Confianza, el 95% incluiría elvalor real en la población11. Por ello, losIntervalos de Confianza entregan un rango devalores que parecen ser plausibles para lapoblación de la que proviene la muestra,indicando a la vez la precisión de la estimación.Esta corresponde a la amplitud del intervalo yes función del tamaño del estudio y del nivelde confianza establecido. Luego, los Intervalosde Confianza permiten realizar una estimaciónde la magnitud del efecto en la misma escalade medición de los datos, informando a la vezsobre la precisión de esta estimación, lo quefacilita la interpretación de los resultados.Además, es posible inferir el resultado de unaDócima de Significación a partir de un Intervalode Confianza, ya que si éste alcanza a 95% deconfianza incluye el valor nulo, entonces esposible establecer que el resultado no esestadísticamente significativo a un nivel de •'5fde 5%. Sin embargo, al interpretar los Intervalosde Confianza solamente como Dócimas deSignificación para determinar si un resultadoes significativo o no, se desprecia parte de lainformación contenida en él y no se diferenciaríademasiado de la interpretación mecánica ydicotómica del valor p.

Estas características transforman a losIntervalos de Confianza en una alternativa másadecuada para presentar los resultados en losestudios epidemiológicos, ya que entregan másinformación que el valor p, permitiendo unamejor interpretación de los hallazgos del estudio.

Es por esto que se ha planteado que los intervalosde confianza deberían ser el método estándarpara presentar los resultados de un estudio,aceptando el uso del valor p comocomplemento11.

CONCLUSIÓN

Desde su origen, el valor p ha sufrido unproceso de transformación conceptualmentecontrovertido, ya que implicó la combinación depropuestas incompatibles entre sí. Esto hacepensar que es un elemento problemático de lainferencia, ya que en su desarrollo existen aspectosconceptualmente cuestionables.

En el caso de los estudios epidemiológicosobservacionales, a la complejidad conceptual sesuma una interpretación especialmente delicadapor el rol de la confusión y sesgos comoexplicaciones alternativas de los resultados aevaluar. Sin embargo su uso es frecuente perono siempre adecuado, llevando al valor p a serconsiderado como la herramienta más abusadaen Epidemiología10.

Este abuso generó un movimiento lideradopor los cuerpos editoriales de las principalesrevistas epidemiológicas tendiente a disminuirsu uso como principal método del proceso deinferencia. Algunas revistas -como Epidemiology- adoptaron estrictas políticas editoriales quedesaconsejaban fuertemente la publicación deartículos que incluyeran el uso de las Dócimasde Significación13, mientras otras fueron menosestrictas11. Los Intervalos de Confianza fueronentonces propuestos como el método de lainferencia más adecuada a utilizar, ya fuera comocomplemento al valor p o en su reemplazo. Sinembargo, los Intervalos de Confianza tambiénhan sido objeto de mal uso al ser interpretadossimplemente como Dócimas de Significación, loque impide superar la interpretación mecánica ydicotómica que inducía el valor p.

Hoy, tal vez reconociendo que los métodosno son tan culpables como quienes los utilizan14,los llamados son a hacer un uso reflexivo de ellosen lugar de prohibirlos. Cada método tienecaracterísticas propias que determinan su utilidaden el proceso de generar conocimiento científico.Esto implica que el investigador no sólo debe

Rev Chil Salud Pública 2006; Vol 10 (1):47-51

ROTHMAN KJ. Significance questing. Ann InternMed 1986, 15(3): 445-47.GOODMAN SN. Toward evidence-based medicalstatistics. 1: the p value fallacy. Ann Intern Med 1999,130(12): 995-1004.GOODMAN SN. P values, hypothesis tests, andlikelihood: implications for epidemiology of aneglected historical debate. Am J Epidemiol 1993,137(5): 485-96.

STERNE JAC, SMITH GD, y COX DR. Sifting theevidence {---} what's wrong with significance tests?BMJ 2001, 322(7280): 226-31.BODMER W. RA Fisher. statistician and geneticistextraordinary: a personal view. Int J Epidemiol 2003,32(6): 938-42.CHIANG CL. Jerzy Neyman. Statisticians in history.Disponible en: (consultado en diciembre 2005).SARRIA M, y SILVA L. Las pruebas de significaciónestadística en tres revistas biomédicas: una revisióncrítica. Rev Panam Salud Pública 2004, 15(5):300-06.BRENNAN P, y CROFT P. Interpreting the resultsof observational research: chance is not such a finething. BMJ 1994, 309(6956): 727-30.LANG JM, ROTHMAN KJ, y CANN CI. Thatconfounded p-value. Epidemiology 1998; 9(1): 7-8.THE VALUE OF P. EPIDEMIOLOGY 2001,12 (3): 286.GARDNER M, y ALTMAN D. Confidence intervalsrather than p values: estimation rather than hypothesistesting. BMJ 1986, 292: 746-50.CLARK M. Los valores p y los intervalos deconfianza: ¿en qué confiar? Rev Panam Salud Pública2004, 15(5): 293-96.ROTHMAN K. Writing for Epidemiology.Epidemiology 1998, 9(3): 333-37.WEINBERG CR. It´s time to rehabilitate the p-value.Epidemiology 2001, 12(3): 288.

tener claro los objetivos del estudio que realiza,sino que –además- debe tener un conocimientosuficiente de los métodos disponibles para poderdeterminar cuales de entre ellos son adecuadospara cumplir los objetivos planteados. Luego, eluso de los diferentes métodos debe responder alas necesidades particulares de cada investigadory no sólo a una recomendación editorialdeterminada.

Tal vez sea el fomento de la reflexión y delrazonar lo que logre disminuir los errores en el usode los distintos métodos y en la interpretación delos resultados que tanto daño le hacen al desarrollode la ciencia.

REFERENCIAS

51

El Valor P en Epidemiología - Carolina Mendoza

1.-

2.-

3.-

4.-

5.-

6.-

7.-

8.-

9.-

10.-

11.-

12.-

13.-

14.-

El Valor P en Epidemiología - Revista Chilena de Salud ...

Documents

Transcript of El Valor P en Epidemiología - Revista Chilena de Salud ...