Lectura. valor de p y significancia estadística

86 Rev. Chilena de Cirugía. Vol 60 - Nº 1, Febrero 2008

El valor de “p” y la “significación estadística”.Aspectos generales y su valor en la práctica clínica*

Interpretation of medical statistics

Drs. CARLOS MANTEROLA D.,1,2 VIVIANA PINEDA N.1, GRUPO MINCIR1Departamento de Cirugía, Facultad de Medicina, 2CIGES (Capacitación, Investigación y Gestión para la Salud

Basada en Evidencia), Universidad de La Frontera, Temuco, Chile.

Rev. Chilena de Cirugía. Vol 60 - Nº 1, Febrero 2008; págs. 86-89

DOCUMENTOS

*Recibido el 1 de Julio de 2007 y aceptado para publicación el 28 de Agosto de 2007.Correspondencia: Dr. Carlos Manterola D.

Casilla 54-D, Temuco, Chile.Fax: 56-45-325761e-mail: [email protected]

INTRODUCCIÓN

Desarrollar cualquier estudio clínico tienecomo objetivo poner de manifiesto la existencia deasociación entre variables. Sin embargo, esta aso-ciación puede ser real o ficticia, ya sea producto delazar, la existencia de sesgos, presencia de confun-dentes, etc.

Es quizás por esto que los clínicos, nos basa-mos habitualmente en la “significación estadística”para nuestra toma de decisiones. Este artículo, in-tenta poner una nota de alerta al respecto en rela-ción a que, si bien es cierto que es una herramientaútil, no necesariamente va ligada a la relevanciaclínica del fenómeno en estudio; esto se debe a quela “significación estadística” puede no resolver laincertidumbre clínica ante un escenario puntual,dado que es un concepto exclusivamente matemá-tico y no de garantía de calidad.

El concepto “significación estadística” se rela-ciona con la necesidad de “probar hipótesis”, situa-ción a la cual los clínicos no estamos habituados y,quizás, sea ésta una de las razones por las queconfiamos tanto en el concepto de “significaciónestadística” y nos dejamos llevar por el “valor de p”.

Antes de valorar el “valor de p”, es relevantetener en cuenta que este concepto depende de doselementos esenciales: la magnitud de la diferencia

que queremos probar y el tamaño de la muestra; siestos elementos no están adecuadamente conside-rados en el estudio permitirán la generación deresultados espurios, que pueden finalmente llevar ala toma incorrecta de decisiones, ya sea por erroresde tipo I ó II.

Existen formas más apropiadas de representarlos resultados en investigación clínica como la ra-zón de odds, el riesgo relativo, el número necesariode pacientes a tratar para reducir un evento, entreotras, que se asocian a la significación clínica ypermiten dilucidar de mejor forma la incertidumbreexistente frente a una situación clínica puntual.

Desarrollar cualquier estudio clínico tienecomo objetivo poner de manifiesto la existencia ono de asociación entre diversas variables. La aso-ciación encontrada puede ser real; sin embargo,con mayor frecuencia de la que uno se imaginaésta es producto del azar, de la existencia desesgos, de la presencia de variables de confusióno de la variabilidad biológica del fenómeno en estu-dio. Para dilucidar este problema existen una seriede pasos fundamentales al momento de diseñar yconducir una investigación; y, posteriormente, almomento del análisis de los datos, que es dondeaparece recién la utilización de herramientas estadís-ticas tanto de carácter descriptivo como analítico. Yes la utilización de estas últimas la que permite

87El valor de “p” y la “significación estadística”. Aspectos generales... / Carlos Manterola y cols.

generalizar resultados, o inferir los resultados obte-nidos de la muestra estudiada a la población blancoque la generó1.

Por todo lo anteriormente expuesto es que re-sulta fundamental el cuidadoso diseño del estudio,tomar en consideración los criterios de selección yla estimación del tamaño de la muestra, puesto quemientras más grande es el tamaño de la muestra,mayor es la precisión; y por ende, la variabilidadsecundaria al azar se reduce. De todos modos, elrol que siempre jugará el azar debe tenerse encuenta, evaluarse y medirse, por ejemplo conside-rando los intervalos de confianza que nos permitenconocer la precisión de la estimación dentro de unmargen de error previamente establecido2,3.

Es por todo esto que, desde la perspectivaclínica, el concepto de “significación estadística” noes relevante, pues no resuelve la incertidumbre. Sedebe tener en cuenta que estamos hablando de unconcepto matemático, por lo que una asociaciónestadísticamente significativa puede no ser clínica-mente relevante; una asociación estadísticamentesignificativa puede no ser causal; y una asociaciónestadísticamente no significativa puede deberse aun problema de tamaño de muestra insuficiente. Esdecir, podemos encontrar asociaciones “estadísti-camente significativas y conceptualmente espu-rias”4; por ello, hay que tener siempre presente queel término “estadísticamente significativo” no es"garantía de calidad".

El concepto “significación estadística” se rela-ciona con la necesidad de “probar hipótesis”. Esteproceso se realiza utilizando “pruebas de hipóte-sis”, las que permiten cuantificar hasta que punto lavariabilidad de la muestra en estudio es responsa-ble de los resultados obtenidos en el estudio. Es asícomo H0 o hipótesis nula, representa la afirmaciónde que no hay asociación entre las dos variables; yHa, o hipótesis alternativa, afirma que existe asocia-ción entre las dos variables. Entonces, la estadísti-ca nos permite decidir sobre que hipótesis debe-mos elegir, lo que será con el nivel de seguridadque previamente se haya establecido por el equipode investigación (habitualmente en clínica es 95%).

Las pruebas estadísticas funcionan entoncesde la siguiente forma: se verifica la magnitud de ladiferencia existente entre los grupos a comparar (Ay B). Si esta magnitud es mayor que un errorestándar definido multiplicado por una seguridaddefinida, concluimos que la diferencia entre A y Bes significativa; por ende, “se rechaza la hipótesisnula” y se “acepta la hipótesis alternativa”. Porejemplo, en un estudio en el que se compararon losresultados obtenidos en 641 pacientes colecis-tectomizados por vía laparoscópica (199 disecados

con KTP/532 láser y 442 disecados con electro-cirugía monopolar), se observó desarrollo de com-plicaciones graves en 16 pacientes disecadoscon KTP/532 láser y 11 con electrocirugía mono-polar. ¿Existe diferencia significativa respecto delporcentaje de complicaciones graves entre ambastécnicas de disección?5.

H0 (hipótesis nula)= No hay diferencia entreambas técnicas de disección.

Ha (hipótesis alternativa)= Sí existe diferenciaentre ambas técnicas de disección.

Tratamiento Nº pacientes Respuesta p

KTP/532 láser 199 16/199 = 0,080 p1Electrocirugía mono- 422 11/422 = 0,026 p2polar

Si [p1 - p2] es mayor que el producto de 1,96 (Zα-0,05)multiplicado por el error estándar, concluimos que la dife-rencia es significativa. Por lo tanto, hemos de calcular elerror estándar para luego compararlo con la diferenciaobservada en los grupos en estudio.

[p1 - p2] = [0,080 - 0,026] = 0,054p= [p1 + p2] / 2 = [0,080 + 0,026] / 2= 0,053

El error estándar se calcula de la siguiente forma:Error estándar= √ p (1-p) (1/n1+ 1/n2) =

= √ 0,053 (1-0,053) (1/199+ 1/422)= 0,00035

Error estándar multiplicado por Zα-0,05 = 0,00035 * 1,96=0,00069

Entonces, si la diferencia de [p1 - p2] = 0,054supera al error estándar multiplicado por Zα-0,05(0,00069) concluimos que existe una diferenciaestadísticamente significativa entre los grupos enestudio; razón por la cual rechazamos H0, por ende,aceptamos la Ha.

No obstante ello, se ha de tener en cuenta queel rechazo de H0 tiene implícito el riesgo de cuan-tificar el “valor de p”, que representa la probabilidadde aceptar la Ha, cuando en realidad la hipótesiscorrecta podría ser H0.

El “valor de p” que indica que la asociación esestadísticamente significativa ha sido arbitraria-mente aceptado por consenso; y, en clínica, seadmite 0,05. Dicho en otros términos, esto repre-senta una seguridad del 95% que la asociación queestamos estudiando no sea por el azar; por lo quesi queremos trabajar con un margen de seguridadde 99%, éste lleva implícito un valor de p inferior a0,01.

Pero ¿qué significa que el “valor de p" seasuperior a 0,05? Entonces hemos de plantearnos

88 Rev. Chilena de Cirugía. Vol 60 - Nº 1, Febrero 2008

que los resultados pueden estar influidos por elazar y entonces no podemos rechazar H0, queavala que las variables no están asociadas6.

Sin embargo, es relevante tener en cuenta queel concepto de “significación estadística” dependede dos elementos esenciales: la magnitud de ladiferencia que queremos probar y el tamaño de lamuestra. Con respecto a la magnitud de la diferen-cia, es importante comprender que a mayor diferen-cia entre las variables en estudio, más fácil serápoder demostrar que la diferencia es significativa;al revés, si la diferencia es pequeña las posibilida-des de detectar diferencias se minimizan. Ahora,respecto del tamaño de la muestra, es fácil com-prender que mientras mayor sea éste, más fácilserá detectar diferencias entre las variables en es-tudio; entonces, cuando las diferencias son peque-ñas se requiere de muestras de gran tamaño; alrevés, cuando las diferencias son grandes se nece-sita de muestras pequeñas para conducir el estu-dio. Así, el tamaño de la muestra afecta la significa-ción estadística a través del error estándar que sehace más pequeño cuantos más pacientes tenga elestudio. En resumen, cualquier diferencia entre lasvariables en estudio puede ser “estadísticamentesignificativa” si se dispone del número suficiente depacientes.

Por ejemplo, en un estudio referente a trata-miento de cáncer gástrico, al calcular la muestranecesaria con una supervivencia de 50% para elgrupo de cirugía y quimiorradioterapia y 41% parael grupo con cirugía exclusiva (resultados reporta-dos en el artículo), un alfa de 0,05 y una potenciade 80%, la muestra necesaria para la conduccióndel estudio es de 960 sujetos (480 por grupo); y no556 en total (281 para el grupo de cirugía yquimiorradioterapia; 275 para el grupo de cirugíaexclusiva)7,8.

Con este ejemplo, se hace patente la apariciónde dos conceptos: el de error tipo I o alfa y el deerror tipo II o beta. El error tipo I corresponde a un“falso positivo”, es decir rechazar la H0 cuando enrealidad es verdadera; en términos más sencillos,creer que hay una asociación estadísticamente sig-nificativa cuando no la hay, que es lo que ocurrió enel estudio de MacDonald7,8. Éste es un claro ejem-plo que el “valor de p” no es un indicador de fuerzade una asociación, como tampoco de su importan-cia (para ello existen la razón de Odds, el riesgorelativo, etc.). Por otra parte, el error tipo II corres-ponde a un “falso negativo”, es decir, consiste enaceptar H0 cuando es falsa; en términos más sen-cillos, creer que no existe una asociación estadís-ticamente significativa cuando quizás la hay9.

¿Cómo reducir la probabilidad de cometer un

error tipo I? Realizar un adecuado diseño y planifi-cación del estudio de forma tal de evitar buscarasociación entre variables “por si resulta” o “dispa-rar a la bandada esperando que caiga algo”; reducirel número de pruebas estadísticas a utilizar, sólo alas necesarias, evitando sobreutilizar herramientasestadísticas; limpiar la base de datos para evitarerrores de valores extremos que puedan producirhallazgos falsamente significativos; recurrir al usode valores de alfa más pequeños o reducir losintervalos de confianza (0,01 ó 0,001); observar silos resultados del estudio se pueden reproducir.

¿Cómo reducir la probabilidad de cometer unerror tipo II? Incrementar el tamaño de la muestra,evaluar el poder estadístico del estudio, aumentarel tamaño del efecto a detectar, elevar el valor dealfa y utilizar pruebas estadísticas más robustascomo las denominadas pruebas paramétricas (t-test, ANOVA, etc.).

Por todas las razones antes expuestas, másrelevante que hablar de “significación estadística”es utilizar el concepto de “relevancia clínica”; esto,debido a que la relevancia clínica de un fenómenova más allá de cálculos matemáticos y depende dela gravedad del problema, la morbilidad y mortali-dad generada por el mismo, la magnitud de la dife-rencia, la vulnerabilidad, los costes involucrados,etc.

De este modo, las formas más apropiadas derepresentar los resultados en investigación clínicason la razón de odds, el riesgo absoluto (RA), elriesgo relativo (RR), la reducción relativa del riesgo(RRR), la reducción absoluta del riesgo (RAR), elnúmero necesario de pacientes a tratar para reducirun evento (NNT) y el número necesario de pacien-tes a dañar (NND)10-12; y la significación estadísticano es nada más que eso, “la significación estadís-tica”, que en ocasiones puede ser positiva yclínicamente irrelevante, o negativa, sin que esosignifique necesariamente que no hay diferenciasreales entre las variables en estudio.

Por ello es que el “valor de p”, debe ser obser-vado con cautela y siempre tomado en cuenta en elcontexto del estudio, su diseño, las característicasde la muestra o la población en estudio, de lospotenciales sesgos, etc. Y no como una cifra mági-ca que nos seduzca de tal forma, que nos invite oautorice a tomar decisiones o cambiar conductasrelacionadas con la práctica clínica cotidiana.

Por último, antes de tomar decisiones o cam-biar conductas basadas en un “valor de p”, se ha deconsiderar además la validez externa o generaliza-ción de los resultados obtenidos en ese estudiorespecto de la población blanco y, particularmente,respecto de nuestros pacientes o nuestra realidad

89El valor de “p” y la “significación estadística”. Aspectos generales... / Carlos Manterola y cols.

laboral, que pueden ser no necesariamente equiva-lentes a los utilizadas en el estudio valorado pornosotros.

REFERENCIAS

1. Manterola C. El proceso que conduce al desarrollode la investigación científica. Su aplicación en ciru-gía. Rev Chil Cir 2001; 53: 104-109.

2. Altman DG. Confidence intervals for the nemberneeded to treat. BMJ 1998; 317: 1309-1312.

3. Daly LE. Confidence limits made easy: intervalestimation using a subsitution method. Am J Epide-miol 1998; 147: 783-790.

4. Silva Ayçaguer LC. Cultura estadística e investiga-ción científica en el campo de la salud: una miradacrítica. Editorial Díaz de Santos, Madrid, 1997.

5. Lane GE, Lathrop JC. Comparison of results of KTP/532 laser versus monopolar electrosurgical dissec-tion in laparoscopic cholecystectomy. J Laparo-endosc Surg 1993; 3: 209-214.

6. Jekel JF, Elmore JG, Katz DL. Epidemiology Biosta-tistics and Preventive Medicine. WB SaundersCompany, Philadelphia, 1996.

7. MacDonald JS, Smalley SR, Benedetti J, HundahlSA, Estes NC, Stemmermann GN et al. Chemora-diotherapy after surgery compared with surgeryalone for adenocarcinoma of the stomach or thegastroesophageal junction. New Engl J Med 2001;345: 725-730.

8. Manterola C, Torres R, Burgos L, Vial M, Pineda V.Methodological quality of an article on the treatmentof gastric cancer adopted as protocol by someChilean hospitals. Rev Med Chil 2006; 134: 920-926.

9. Daly LE, Bourke GJ. Interpretation and uses of me-dical statistics. Blackwell science, Oxford, 5th ed,2000.

10. Cook RJ, Sackett DL. The number needed to treat: aclincally useful measure of treatment effect. BMJ1995; 310: 452-454.

11. Laupacis A, Sackett DL, Roberts RS: An assesmentof clinically useful measures of treatment. New EnglJ Med 1988; 318: 1728-1733.

12. Sackett DL, Richarson WS, Rosenberg W, HynesRB. Evidence-based medicine: how to practice andteach EBM. Churchill-livingstone; London, 2nd ed.2000.

Lectura. valor de p y significancia estadística

Education

Transcript of Lectura. valor de p y significancia estadística