Evaluacion de Resultados Clinicos II

15
La cita que sigue al título de este artículo —una adaptación de la ofrecida por Cantervill y recogida en la editorial a este número de la revista Norte de salud mental—, pretende ser un a priori de la idea que se aspira a transmitir en las páginas siguientes: la estadística es un medio, no un fin para dar respuesta a las pre- guntas científicas. Es una herramienta útil y váli- da utilizada en el método científico, pero se espera que quien la utilice lo haga con rigor y Evaluación de resultados clínicos I: Entre la significación estadística y la relevancia clínica Ioseba Iraurgi Psicólogo clínico Módulo de Asistencia Psicosocial de Rekalde. Bilbao Resumen: Resulta frecuente encontrar en las publicaciones biomédicas y psicosociales estudios orientados a valorar efectos entre tratamientos o intervenciones que presentan el grado de significación p como el principal argumento científico sobre la existencia o ausencia de tales efectos. Esta tendencia a centrar las conclusiones estadísticas en el grado de significación conlleva un grave problema: confundir la ‘significación o importancia clínica o científica’ con la ‘significación estadística’. Inicialmente, a partir de datos simulados, se presenta evidencia de que ambas significaciones corresponden a procesos diferentes, los cuales han de considerarse en conjunto y no de manera excluyente. Se repasan los conceptos de significación estadística, el proceso de investigación e inferencia estadística y, finalmente, el concepto de significación o importancia clínica. Palabras clave: Significación estadística, Significación clínica, Contraste de hipótesis, Inferencia estadística. Summary: In the biomedical and psychosocial publications, result frequent to find studies guided to value effects between treatments or interventions that present the p value as the principal scientific argument on the existence or absence of such effects. This trend to center the statistics conclusions in the significance value involve a serious problem: to confuse the ‘clinic/scientific significance or importance’ with the ‘statistical significance’. Initially, on the basis of simulated data, is presented evidence of the fact that both significances correspond from different processes, those which have of be considered by and large and not of excluding way. The concepts of statistical significance, investigation process and statistical inference and, finally, the clinical significance or clinical importance are reviewed. Key words: Statistical significance, clinic significance, Hypothesis contrast, Statistical inference. Hay quien utiliza la estadística como el borracho la farola: más para apoyarse que para iluminarse NORTE DE SALUD MENTAL nº 33 • 2009 • PAG 94–108 FORMACIÓN CONTINUADA 94

description

Evaluación de investigaciones clínicas

Transcript of Evaluacion de Resultados Clinicos II

Page 1: Evaluacion de Resultados Clinicos II

La cita que sigue al título de este artículo—una adaptación de la ofrecida por Cantervilly recogida en la editorial a este número de larevista Norte de salud mental—, pretende ser una priori de la idea que se aspira a transmitir en

las páginas siguientes: la estadística es unmedio, no un fin para dar respuesta a las pre-guntas científicas. Es una herramienta útil y váli-da utilizada en el método científico, pero seespera que quien la utilice lo haga con rigor y

Evaluación de resultados clínicos I: Entre la significación estadística

y la relevancia clínica

Ioseba IraurgiPsicólogo clínico

Módulo de Asistencia Psicosocial de Rekalde. Bilbao

Resumen: Resulta frecuente encontrar en las publicaciones biomédicas y psicosociales estudiosorientados a valorar efectos entre tratamientos o intervenciones que presentan el grado designificación p como el principal argumento científico sobre la existencia o ausencia de tales efectos.Esta tendencia a centrar las conclusiones estadísticas en el grado de significación conlleva un graveproblema: confundir la ‘significación o importancia clínica o científica’ con la ‘significación estadística’.Inicialmente, a partir de datos simulados, se presenta evidencia de que ambas significacionescorresponden a procesos diferentes, los cuales han de considerarse en conjunto y no de maneraexcluyente. Se repasan los conceptos de significación estadística, el proceso de investigación einferencia estadística y, finalmente, el concepto de significación o importancia clínica.

Palabras clave: Significación estadística, Significación clínica, Contraste de hipótesis, Inferenciaestadística.

Summary: In the biomedical and psychosocial publications, result frequent to find studies guidedto value effects between treatments or interventions that present the p value as the principalscientific argument on the existence or absence of such effects. This trend to center the statisticsconclusions in the significance value involve a serious problem: to confuse the ‘clinic/scientificsignificance or importance’ with the ‘statistical significance’. Initially, on the basis of simulated data,is presented evidence of the fact that both significances correspond from different processes,those which have of be considered by and large and not of excluding way. The concepts ofstatistical significance, investigation process and statistical inference and, finally, the clinicalsignificance or clinical importance are reviewed.

Key words: Statistical significance, clinic significance, Hypothesis contrast, Statistical inference.

Hay quien utiliza la estadística como el borracho la farola: más para apoyarse que para iluminarse

NORTE DE SALUD MENTAL nº 33 • 2009 • PAG 94–108

FORMACIÓN CONTINUADA

94

Page 2: Evaluacion de Resultados Clinicos II

ser clínicamente relevante y, además, la signifi-cación estadística puede no ser causal. Es decir,podemos encontrar asociaciones estadística-mente posible y conceptualmente estériles(Silva, 1997).

Veamos qué queremos decir mediante unejemplo práctico, aunque para el cálculo sehallan utilizado datos simulados. Supongamosque disponemos de dos tratamientos (A y B)para el manejo de una enfermedad, dolencia osíntoma (p.ej.: un trastorno del sueño), y dese-amos conocer cuál de ellos es mejor. Las inter-venciones pueden ser tanto farmacológicas,como psicoterapéuticas, como de otra índole.El tratamiento A, al que llamaremos experi-mental (Exp), es una modalidad de intervenciónnovedosa que se espera tenga más éxito que eltratamiento B estándar, al que llamaremos con-trol (Ctrol). Para valorar el éxito del trata-miento se consideran dos criterios: una induc-ción del sueño en menos de 20 minutos y unmínimo de duración del sueño de 6 horas. Porotra parte, para considerar mejor un trata-miento sobre el otro se espera una diferenciade mejoría de al menos un 10% en el porcen-taje de enfermos que logran el objetivo. Conello, estaríamos definiendo lo que entendemospor diferencia clínicamente importante, que ennuestro caso es de un 10%. Para llevar a caboel experimento se diseña un ensayo clínico ale-atorio con dos grupos de intervención realiza-do con condiciones óptimas de ejecución ycontrol exhaustivo de los sesgos. Este ensayoes realizado en cuatro contextos diferentes: enun Centro de Salud Mental (CSM) de una loca-lidad pequeña (Estudio 1), en un CSM de unagran ciudad (Estudio 2), y a través de la colabo-ración multicéntrica de 20 CSMs (Estudios 3 y4). Los resultados obtenidos se presentan en latabla 1 bien a través de una medida basada enun indicador dicotómico (obtiene o no, mejo-ría), por lo que estaríamos comparando unamedida basada en proporciones, o a través deuna escala de medida continua, donde la com-paración sería de medias.

no de forma inapropiada, sea de forma inten-cionada porque conoce su utilidad y perviertesu uso, o bien de forma ingenua, por descono-cimiento de las normas que la rigen y ante lanecesidad de publicar unos resultados. A estoúltimo ha contribuido enormemente la dispo-nibilidad de sofisticados programas informáti-cos que ponen a nuestro alcance todo un aba-nico de pruebas y algoritmos estadísticos, hastael punto que muchos usuarios de estos pro-gramas creen ser expertos en estadística. Perono basta con cruzar unas variables y observarlos valores de significación estadística que nosdan estos programas para elaborar un adecua-do informe de investigación, no por tener másdatos y pruebas de contraste complicadas seofrece un mejor informe. Hacer investigaciónno es manejar la estadística; se puede ser unbuen investigador sin tener ni idea de estadísti-ca. Dominar el método científico es lo que hacea uno buen investigador, la estadística sólo esuna de sus herramientas. Pero, precisamente porser una utilidad para la ciencia, es ineludible queun buen investigador conozca qué es lo que sub-yace a la estadística y a su interpretación.

En el ámbito clínico, donde muchos profe-sionales sanitarios muestran interés en losavances diagnósticos y terapéuticos y siguenperiódicamente las novedades en los mediosde divulgación científica, o incluso colaboran enellos, es de especial importancia tener unosconocimientos básicos de lo que nos ofrece laestadística. Muy a menudo se malinterpretanlos resultados de las pruebas de contraste dehipótesis para descubrir las diferencias entredos tipos de terapias, considerando que unresultado estadísticamente significativo implicaun resultado clínicamente concluyente. Y resul-ta de enorme importancia diferenciar entre loque es estadísticamente significativo de lo quees clínicamente importante o sustantivamenterelevante. Como bien plantean Pita y Pértega(2001), desde el punto de vista clínico la signifi-cación estadística no resuelve todos los inte-rrogantes que hay que responder ya que la aso-ciación estadísticamente significativa puede no

EVALUACIÓN DE RESULTADOS CLÍNICOS I: ENTRE LA SIGNIFICACIÓN ESTADÍSTICA Y LA RELEVANCIA CLÍNICA

95

Page 3: Evaluacion de Resultados Clinicos II

pos que en el Estudio 1, de modo que la dife-rencia de mejoría del grupo Exp frente al Ctrolsigue siendo de un 20%. Ahora bien, en estecaso se obtiene una prueba de χ2= 8,33 con unvalor de probabilidad estadísticamente muy sig-nificativo (p≤0,005). Incluso en el Estudio 3, con1000 casos en cada grupo, se sigue mantenien-do la misma diferencia de mejoría del 20%,siendo la χ2= 83,33, pero en este caso alcan-zando un valor de probabilidad de 0,00001. Yaquí encontramos una primera observaciónobvia: la significación estadística aumenta amedida que incrementamos el tamaño de lamuestra, sin que se modifique en absoluto elefecto de mejoría del tratamiento.

Pero centrémonos ahora en el Estudio 4respecto al 3; en los cuales participan 1000 per-sonas en cada grupo de tratamiento. Comohemos podido observar en el Estudio 3 se halogrado una diferencia clínicamente importante(un 20% de mejoría, superior al 10% planteadocomo diferencia mínima importante) y estadís-ticamente significativa (p≤0,05; concretamentep≤0,00001). En el Estudio 4 también se obtieneuna diferencia estadísticamente significativa(p≤0,025), pero la importancia clínica lograda(de un 5%) no alcanza la diferencia clínica míni-mamente importante del 10%. Es decir, el estu-dio arroja datos estadísticamente significativospero clínicamente irrelevantes.

Es aquí donde resulta apropiada una refle-xión de Guttman que, en una obra ya clásica dela estadística —‘What is not what statistics’, de1977— proponía lo siguiente: “Una pruebaestadística ‘no es una prueba de relevancia cien-tífica’. Bajo ningún concepto la relevancia deldato se encuentra en la técnica de análisis, sinoen la repercusión del mismo en el conocimientodel objeto de estudio. Es perfectamente compa-tible encontrar diferencias estadísticamente sig-nificativas que no suponen relevancia clínica, yviceversa”.

Volviendo a nuestro ejemplo, ¿qué podemosconcluir de estos datos?. Pues que al aumentar

En el Estudio 1 han participado 10 personaspor grupo y observamos como con el trata-miento A (Exp) se han curado 7 personas(7/10*100= 70%) mientras que con el B (Ctrol)han mejorado 5 (5/10*100= 50%). Como pode-mos ver la diferencia de curaciones observadaentre uno y otro es del 20% (70%–50%) yresulta bastante superior al 10% que previa-mente nos habíamos fijado como importante.Utilizando la prueba adecuada para la compa-ración de proporciones, la Ji–cuadrado de Pear-son, obtenemos un valor de χ2= 0,83 y un valorde probabilidad asociado de p=0,361. Paranuestra desgracia es un resultado no significativo,si tomamos como umbral de significación elfamoso valor de p≤0,05. Nos encontramos anteun ejemplo de una diferencia clínicamente impor-tante pero estadísticamente no significativa.

Por su parte, en el Estudio 2 intervienen100 personas en cada grupo y se observan lasmismas proporciones de éxito en ambos gru-

NORTE DE SALUD MENTAL nº 33 • 2009

96

Page 4: Evaluacion de Resultados Clinicos II

la teoría de la probabilidad. La inferencia es elproceso de toma de decisiones, sobre la basede unos datos parciales pertenecientes a unapoblación, para extraer conclusiones acerca deesa población. En el ámbito clínico trabajamoscon personas que presentan una determinadaenfermedad, trastorno o síntoma, por ejemplouna depresión, a las cuales tratamos con una(s)determinada(s) terapéutica(s). Acumulamoscierta experiencia y obtenemos resultados,pero el acceso al número de pacientes con esapatología, por muy larga que sea nuestra vidaprofesional, rara vez se aproxima al total deindividuos que constituyen la población de per-sonas con diagnóstico de depresión. En defini-tiva, en nuestro estudio contamos con unamuestra limitada que forma parte de las infini-tas posibles muestras de una población de refe-rencia, lo cual implica que los resultados obte-nidos pueden presentar fluctuaciones debidaspuramente al azar. No obstante, trabajamoscon unos pocos e inferimos que su respuestaes la que tendría el total de las personas conesa afección que fueran tratadas con esa deter-minada terapéutica. Pero para hacer esa extra-polación nos estaríamos manejando con uncierto grado de incertidumbre, y es ahí dondela estadística nos permitiría estimar el grado oprobabilidad de acertar o equivocarnos. Sipudiéramos tratar al total de la población, nosería necesaria la estadística para llegar a con-clusiones, ya que tendríamos la certeza absolu-ta. El ejemplo más evidente de este principio sehalla en las elecciones de un país: antes del ple-biscito los sondeos ofrecen una estimación delvoto que perfila la posible configuración de loselectos, con un nivel de confianza del 95% y unmargen de error del 3% —¿les suena?—; unavez celebradas las elecciones la configuraciónde electos es de tantos y cuantos, sin horquillasni variaciones posibles.

Pero cuál es la implicación de la estadísticaen el proceso de investigación. Pongamos uncaso y vayamos desarrollándolo. En la situaciónmás sencilla de investigación, por ejemplo, eva-luar el efecto de un tratamiento sobre la mejo-

el tamaño muestral conseguimos aumentar laprecisión de nuestras mediciones y disminuir lavariabilidad explicada por el azar. Por eso, antela misma diferencia pero con un mayor tamañomuestral hemos conseguido reducir el valor dela p de 0,361 a 0,005, e incluso a un valormenor de 0,0001. Como vemos el valor de pdepende no solo de la diferencia de los gruposde estudio, sino del tamaño muestral. Siemprepodemos encontrar diferencias estadísticamen-te significativas con un tamaño muestral lo sufi-cientemente grande aunque las diferencias seanmuy pequeñas e irrelevantes desde un puntode vista clínico o científico, como es el caso delEstudio 4. En definitiva, la p no es una medidade asociación, sino la probabilidad de que elresultado observado se deba al azar, y por ellose ve muy influenciada por el tamaño muestralya que con ello se aumenta la precisión al redu-cirse el error de medida. Por tanto, las pruebasestadísticas, y por ende los valores p, son fun-ción de dos características fundamentales, eltamaño de las muestras y del tamaño del efec-to encontrado; si ambos o alguno de elloaumenta considerablemente, los valores de pcada vez se hacen más pequeños. De estemodo, lograr resultados estadísticamente signi-ficativos es relativamente fácil, aunque costoso,simplemente aumentando el número de efecti-vos participantes en un estudio; aumentar eltamaño de los efectos es precisamente lo quese pretenden con la investigación, pero estelogro resulta normalmente ser más arduo delograr.

La investigación y el proceso de contraste de hipótesis

Hasta el momento hemos venido hablandode la significación estadística, la cual no puededesligarse del proceso de inferencia a partir delcontraste de hipótesis, el cual conlleva toda unaconceptualización que a menudo es el causan-te de las miradas de perplejidad hacia la esta-dística. Como venimos diciendo reiteradamen-te, la estadística es una disciplina fundamentadaen la matemática que tiene su principal base en

EVALUACIÓN DE RESULTADOS CLÍNICOS I: ENTRE LA SIGNIFICACIÓN ESTADÍSTICA Y LA RELEVANCIA CLÍNICA

97

Page 5: Evaluacion de Resultados Clinicos II

sus efectos tienden, a largo plazo, a anularsemutuamente.

Los sesgos son controlados usualmente através del diseño de investigación. Un buenprotocolo, una adecuada implementación y uncorrecto seguimiento permiten controlar elefecto de tales sesgos. La experiencia del inves-tigador, la evidencia recogida en estudios simi-lares ya realizados, la supervisión de expertospermiten detectar muchos de los sesgos usual-mente comunes. Ahora bien, nunca se tienegarantía de que algún sesgo pudiera influir en lainvestigación, y en el caso de que actuase afec-taría a la validez de los datos recogidos impi-diendo la correcta interpretación de los resul-tados (Iraurgi, 2000; Argimón y Jiménez, 2004).

En cuanto a los errores variables, ademásde los esfuerzos que puede hacer el investiga-dor para minimizar la varianza de error a tra-vés del diseño de la investigación, una forma deafrontar dichos errores es mediante la inferen-cia estadística. Como hemos comentado másarriba, esta expresión se aplica a un conjuntode procedimientos utilizados para determinarel grado en que la relación observada entre dosvariables puede explicarse como resultado delazar o, por el contrario, son producto delefecto del tratamiento investigado. Para estadeterminación, históricamente se han venidorealizando dos tipos de procedimientos (Do-ménech, 1998; Argimón y Jiménez, 2004): elbasado en la prueba de significación estadísticao prueba de la hipótesis nula, originaria deFisher (1922), y la prueba de contraste de hipó-tesis de Neyman–Pearson (1928a, 1928b).

En el enfoque de Fisher se parte de la espe-cificación a priori de una hipótesis nula, la cualplantea la no asociación entre dos variables;que para el caso de un estudio clínico en el quese comparan dos tratamientos, la hipótesis nulaestablece que no existen diferencias entre lostratamientos evaluados. Del mismo, en la prue-ba de significación estadística, Fisher proponeun valor de ‘p’ como criterio utilizado para eva-

ría de un trastorno, nos encontramos con dosvariables: una independiente —la primera—con al menos dos niveles de variación (ofrecerun tratamiento experimental —Exp— frente aotro alternativo o no ofrecer nada, denomina-do usualmente control —Ctrol—), y otradependiente —la segunda— que puede sermedida también a través de dos niveles (éxitovs fracaso, existe o no sintomatología, etc.) omediante una medida de tipo continuo (p.ej.: uninventario de síntomas como la BPRS) —recor-demos los datos de la Tabla 1—. La tarea delinvestigador consiste en determinar el gradoen que los datos de la investigación reflejan unarelación entre las variables independiente ydependiente; o dicho de otro modo, el análisisestadístico de los datos persigue determinar sidos grupos que difieren en el lugar que ocupanen la variable independiente (exp vs Ctrol),difieren también en la variable dependiente(éxito vs fracaso). Pues bien, tanto en la rela-ción entre las variables como la ausencia derelación entre las mismas, pueden resultarenmascaradas por dos clases de errores: 1) loserrores constantes, también llamados sesgos, y2) los errores variables o error estocástico odebido al azar. Los sesgos son producidos porvariables extrañas que afectan de manera cons-tante los resultados de una investigación; porejemplo afectan siempre de la misma manera larelación (o la falta de relación) entre las dosvariables (independiente y dependiente), oafectan siempre de la misma manera (favorableo desfavorablemente) a los grupos de la inves-tigación, es decir, a los niveles de la variableindependiente. Ejemplos de sesgos sería ofre-cer una atención especial al grupo Exp másallá de lo estipulado en el protocolo, utilizarinstrumentos mal calibrados, que los partici-pantes del estudio reciban tratamiento simul-táneo en otro servicio sin conocerlo, etc.).Por su parte, los errores estocásticos sonproducidos por variables extrañas que afectande manera variable los resultados de la inves-tigación; se trata de variables ajenas a la inves-tigación que actúan aleatoriamente sobretodos los sujetos, y que por esa misma razón,

NORTE DE SALUD MENTAL nº 33 • 2009

98

Page 6: Evaluacion de Resultados Clinicos II

Por su parte, en el enfoque de Ney-man–Pearson —o contraste de hipótesis— seestablecen unas reglas de decisión para inter-pretar los resultados del estudio con antela-ción a la realización de éste, y el resultado delanálisis es sencillamente el rechazo o la acepta-ción de la hipótesis nula. La primera de ellas fijaun punto de corte, llamado nivel de significa-ción o nivel Alfa (α), usualmente de 0,05 ó 0,01,para juzgar al valor de ‘p’ y este criterio se usapara rechazar o no la hipótesis nula (si p≤0,05se rechaza la hipótesis nula, si p>0,05 se acep-ta). En contraste con el enfoque de Fisher, bajola perspectiva de Neyman–Pearson los valoresde ‘p’ no son interpretados, sino que el valor ‘p’es valorado con respecto al nivel alfa preesta-blecido. Es decir, el nivel alfa se especifica en eldiseño y planificación del estudio y el valor de‘p’ es la cantidad derivada del estudio una vezconcluidos y analizados los datos de éste. Porello, el nivel de significación alfa es una de lasincorporaciones distintivas de estos autores.Otra aportación interesante del enfoque deNeyman–Pearson es que, además de la hipóte-sis nula (H0), se debe especificar también apriori una hipótesis alternativa (H1) lo más pre-cisa posible. Es decir, no basta con sólo señalarque no hay diferencias entre los tratamientosevaluados, sino que hay que indicar cuánto esmejor el tratamiento a prueba respecto al decomparación. El contraste de hipótesis plantea-do por Neyman–Pearson no establece la ver-dad de la hipótesis, sino un criterio que nospermite decidir si una hipótesis se acepta o serechaza, o el determinar si las muestras obser-vadas difieren significativamente de los resulta-dos esperados. En este proceso podemos incu-rrir en dos tipos de errores según sea lasituación real o falsa y la decisión que tomemos(Figura 1), siendo esta la tercera gran innova-ción de estos autores al proceso de inferenciaestadística. Estos errores consisten en losiguiente: 1) Si la hipótesis para probar (H0) esrealmente verdadera y ésta se rechaza demanera errónea a favor de la alternativa (H1),es decir, no existen diferencias y se asume quesí las hay, se estaría cometiendo un error Tipo

luar la hipótesis nula; es la probabilidad, bajo elsupuesto de que la hipótesis nula es correcta,de encontrar un resultado igual o más extremoque el observado en el estudio —en el supues-to también de no hay fuentes de sesgo en larecolección de los datos o en el proceso deanálisis—. En la prueba de significación estadís-tica fisheriana valores de ‘p’ muy pequeños indi-can bajo grado de compatibilidad entre la hipó-tesis nula y los datos del estudio, por tanto estevalor de ‘p’ es un índice que mide la fuerza deevidencia contra la hipótesis nula. Así, Fisherpropuso que valores de ‘p’ menores a 0,05 fue-ran tomados como criterios de evidencia encontra de la hipótesis nula, pero no como cri-terio absoluto. Es más, un valor de ‘p’ alrededorde 0,05 no podría llevar ni al rechazo ni a laaceptación de la hipótesis nula, sino a la deci-sión de realizar otro experimento. Es decir,Fisher pretendía ofrecer un criterio objetivo alas conclusiones, pero sin pretender que fueraun método rígido.

EVALUACIÓN DE RESULTADOS CLÍNICOS I: ENTRE LA SIGNIFICACIÓN ESTADÍSTICA Y LA RELEVANCIA CLÍNICA

99

Page 7: Evaluacion de Resultados Clinicos II

co de la inferencia estadística y del papel quejugaron estos padres de la estadística es des-crita de forma ejemplar por Rodríguez–Arias(2005) y al cual seguiremos en el apartadosiguiente al abordar los pasos del ritual de laspruebas de significación estadística.

Pasos del ritual de la prueba de significación estadística

El texto que sigue en este apartado ha sidotomado de Rodríguez–Arias (2005) práctica-mente de forma textual, en la convicción deque es una de las mejores descripciones delproceso de inferencia que conozco y que difí-cilmente podría mejorar. Discúlpenme estalicencia, sin duda abusiva, pero con ello quierorendir tributo a su autor, al cual se debe citarsin duda cuando se quiera referenciar algo delo que a continuación se detalle.

Rodríguez–Arias, plantea cuatro pasos en elritual de la prueba de significación estadística; asaber:

«1. El investigador formula la hipótesis nula.En términos generales, la hipótesis nula afirma

I, lo cual supondría asumir un falso positivo; y 2)si la hipótesis para probar (H0) es realmentefalsa y ésta no se rechaza, es decir, existen dife-rencias pero se asume que no las hay, se come-tería un error Tipo II, que implicaría una deci-sión falsa negativa. El riesgo de cometer elerror tipo II se designa con una probabilidad:llamada probabilidad Beta (β), siendo su com-plemento (1–β) la llamada ‘potencia’ o poderdel estudio, el cual se puede definir como laprobabilidad que tiene un estudio para detectardiferencias entre tratamientos cuando real-mente existen. En otras palabras, la potencia deun estudio es la probabilidad de rechazar lahipótesis nula cuando ésta es falsa, o lo que eslo mismo, la probabilidad de aceptar la hipóte-sis alternativa cuando ésta es cierta. Por otrolado, minimizar los errores no es una cuestiónsencilla, un tipo suele ser más grave que otro ylos intentos de disminuir uno suelen producirel aumento del otro. En la Tabla 2 se proponenalgunas recomendaciones para disminuirambos tipos de errores.

Estas serían las bases de ambas posiciones,enfrentadas por otra parte, y que aún hoy sudebate está sin resolver. Un desarrollo históri-

NORTE DE SALUD MENTAL nº 33 • 2009

100

Page 8: Evaluacion de Resultados Clinicos II

decir, descartar el azar como explicación cuan-do los resultados podrían explicarse razonable-mente con base en el mismo. Este es el errorque comete el investigador que ve más de loque hay en los datos; es decir, el investigadorconcluye que existe una relación real o verda-dera entre las variables independiente y depen-diente de la investigación, cuando en realidad larelación observada se puede explicar razona-blemente como resultado del azar. El llamadoerror tipo I es el error del investigador que seapresura a concluir a favor de su hipótesis deinvestigación. Fisher no habló de ningún otroerror, pues la prueba de la hipótesis nula paraél no era otra cosa que un freno a la tendencianatural de un investigador a creer que la hipó-tesis ha sido confirmada por el simple hecho deque los resultados de la investigación siguen lamisma dirección de la hipótesis.»

«En la estrategia de Fisher sólo hay unerror posible: rechazar una hipótesis nula ver-dadera. Una segunda forma de error (se cono-ce como el error tipo II), introducida por EgonPearson y Jerzy Neyman consiste en no recha-zar una hipótesis nula falsa, es decir, no descar-tar el azar aun cuando éste no constituye unaexplicación razonable de los datos. Este es elerror que comete el investigador que ve menosque lo que hay en los datos; por miedo a recha-zar incorrectamente el azar, el investigadorpuede exponerse al riesgo de pasar por altouna relación real o verdadera entre las varia-bles de su investigación. Fueron Pearson y Ney-man los que, al introducir un segundo tipo deerror, bautizaron como error tipo I al error delque había hablado Fisher.»

«En la perspectiva fisheriana el nivel de sig-nificación estadística es el punto que separa lasprobabilidades que nos conducen a rechazar laposibilidad de que la relación observada entrelas variables de una investigación se deba com-pletamente a errores variables (errores de azar)de aquellas probabilidades que nos conducen ano rechazar esa posibilidad. Según Fisher, el nivelde significación estadística equivale a la magni-

que no existe ninguna relación real o verdade-ra entre las variables independiente y depen-diente de una investigación, y que, por tanto, sialguna relación es observada entre dichasvariables en los datos de la investigación, lamisma podría explicarse como resultado delazar. Es por eso que a la hipótesis nula se lellama la hipótesis del azar. Dicho de otra mane-ra, la hipótesis nula expresa que si se repitierala investigación un número suficiente de veces,siempre con una muestra distinta extraída ale-atoriamente de la misma población, las diferen-cias en la variable dependiente entre los gruposde la investigación tenderían a neutralizarse yterminarían siendo cero. El razonamiento implí-cito en la hipótesis nula es el siguiente: supo-niendo que el resultado de una investigaciónparticular constituye una selección al azar deentre una multitud de resultados posibles, elinvestigador se pregunta cuál sería la probabili-dad de obtener por azar la diferencia que él haencontrado entre los grupos de su investiga-ción. Si esa probabilidad es igual o menor queun nivel de probabilidad convencional previa-mente establecido (p≤0,05), entonces el inves-tigador concluye que los resultados por élobservados no se deben al azar y, por tanto,rechaza la hipótesis nula. Si, en cambio, la pro-babilidad de que la diferencia observada entrelos grupos se pueda explicar como resultadodel azar es superior al nivel de probabilidadconvencional previamente establecido(p>0,05), entonces no se puede descartar elazar, es decir, no se rechaza la hipótesis nula.Esta formulación es puramente fisheriana.»

«2. Es obvio que la decisión sobre la hipó-tesis nula requiere de que se haya establecidopreviamente un nivel de significación estadísti-ca, es decir, un criterio que sirva de base a ladecisión de rechazar o no rechazar la hipótesisnula. Al establecer un criterio de decisión sobrela hipótesis nula, el investigador puede valorarlos errores que podría cometer en su decisiónsobre la hipótesis nula. Una primera forma deerror (se conoce como el error tipo I) consis-te en rechazar una hipótesis nula verdadera, es

EVALUACIÓN DE RESULTADOS CLÍNICOS I: ENTRE LA SIGNIFICACIÓN ESTADÍSTICA Y LA RELEVANCIA CLÍNICA

101

Page 9: Evaluacion de Resultados Clinicos II

(homoscedasticidad, u homogeneidad de lasvarianzas); y que la variable dependiente estémedida en una escala que sea por lo menos deintervalo, aunque este último requisito no escompartido por todos los estadísticos (McGui-gan, 1993; Siegel, 1956). Cuando los datos cum-plen con los requisitos indicados, especialmen-te con los dos primeros, las pruebasestadísticas paramétricas exhiben su máximopoder, es decir, su máxima capacidad paradetectar una relación real o verdadera entredos variables, si es que la misma existe. Laspruebas paramétricas más conocidas y usadasson la prueba t de Student, la prueba F, llamadaasí en honor a Fisher, y el coeficiente de corre-lación de Pearson, simbolizado por r. Cuandoestas pruebas estadísticas se aplican a datosque violan los dos primeros de los requisitosseñalados, pierden parte de su poder. Las prue-bas estadísticas no paramétricas, en cambio, nohacen a los datos ninguna de las exigencias queles hacen las pruebas estadísticas paramétricas,por eso se les denomina ‘pruebas estadísticaslibres de distribución’. Las más conocidas y usa-das de estas pruebas son la Ji cuadrada de Pear-son, la prueba de la probabilidad exacta de Fis-her, los coeficientes de contingencia de Pearsony Cramer, la prueba U de Mann–Whitney, elcoeficiente de correlación de rangos de Spear-man, y el coeficiente de asociación ordinal deGoodman–Kruskal (coeficiente gamma), (Co-nover, 1999; Leach, 1979; Siegel, 1956). Todasestas pruebas poseen menos poder que laspruebas paramétricas correspondientes, perohan demostrado ser muy útiles como alternati-vas cuando no se considera apropiado el usode pruebas paramétricas.»

«4. El último paso del ritual de la prueba designificación estadística consiste en compararel valor arrojado por la prueba estadística apli-cada a los datos con el valor que, en circuns-tancias comparables, puede ocurrir por azarcon una probabilidad de 0,05 ó 0,01, según elvalor de la probabilidad que se haya adoptadocomo nivel de significación estadística. Si, alconsultar la tabla de los resultados de la prue-

tud del riesgo que está dispuesto a correr elinvestigador de cometer el error de rechazaruna hipótesis nula verdadera (el llamado errortipo I). Para la mayoría de los propósitos, elnivel de significación previamente establecidosuele ser de 0,05, aunque en áreas de investiga-ción más rigurosas se trabaja con un nivel designificación de 0,01. Suponiendo que se traba-ja con un nivel de significación de 0,05, serechazaría la hipótesis nula siempre que la pro-babilidad de explicar los resultados obtenidosen una investigación, como si fueran obra delazar, sea igual o menor que 0,05.»

«En la perspectiva de Pearson y Neyman,para establecer el nivel de significación estadís-tica habría que atender al impacto de cada tipode error en el objetivo del investigador, y a par-tir de ahí se decidiría cuál de ellos es preferibleminimizar. Pearson y Neyman llamaron alfa alerror tipo I y beta al error tipo II; a partir deeste último tipo de error, introdujeron el con-cepto de “poder de una prueba estadística”, elcual se refiere a su capacidad para evitar elerror tipo II, y está definido por 1–beta, y enestrecha relación con éste se ha desarrollado elconcepto de “tamaño del efecto” que algunoshan propuesto como sustituto de los valores pen los informes de investigación científica».(Cohen, 1990, 1994; Kraemer y Thiemann,1987; Murphy y Myors, 2004).

«3. El tercer paso del llamado ritual de laprueba de significación estadística consiste enla elección de la prueba estadística que se utili-zará para someter a prueba la hipótesis nula.Hay dos clases de pruebas estadísticas: las para-métricas y las no paramétricas. Se llama para-métricas a aquellas pruebas estadísticas queexigen que los datos a los que se aplican cum-plan con los siguientes requisitos: que los valo-res de la variable dependiente sigan la distribu-ción de la curva normal, por lo menos en lapoblación a la que pertenezca la muestra en laque se hizo la investigación; que las varianzas delos grupos que se comparan en una variabledependiente sean aproximadamente iguales

NORTE DE SALUD MENTAL nº 33 • 2009

102

Page 10: Evaluacion de Resultados Clinicos II

dimos de está lógica y tendemos a interpretardirectamente los valores–p de las pruebas esta-dísticas haciendo atribuciones muchas vecesinciertas. En la Tabla 3 se presentan algunos delos equívocos más usuales y de las precaucio-nes que debiéramos tener en cuenta cuandointerpretamos el resultado de una prueba designificación.

De forma sintética, y a sabiendas de que setrata de una simplificación, cabe concluir quelas pruebas de significación estadística nos pro-porcionan un valor ‘p’ que nos permiten cono-cer la probabilidad de que nuestros resultadoshayan sido producto del azar, o bien efecto denuestra intervención. Obtener un valor de ‘p’pequeño (inferior al nivel de significación elegi-do; p≤0,05 ó p≤0,01 ó p≤0,001) implica queexiste una probabilidad pequeña —y por tantoasumible— de que los resultados obtenidos sedeban al azar y en este caso admitimos que lasdiferencias o asociación entre las variables sonreales (recordemos que podemos estar incu-rriendo en un error en la decisión). Ahora bien,que podamos asumir que los resultados encon-trados se hayan producido verdaderamente, no

ba estadística que pueden ocurrir por azar condiferentes niveles de probabilidad, se observaque el resultado de la investigación tiene unaprobabilidad de ocurrir por azar igual o menorque la probabilidad adoptada como nivel de sig-nificación estadística, entonces no se rechaza lahipótesis nula. Si, en cambio, el resultado de lainvestigación tiene una probabilidad de ocurrirpor azar mayor que la probabilidad adoptadacomo nivel de significación estadística, enton-ces no se rechaza la hipótesis nula. Esto es todocuanto diría Fisher al terminar la prueba de lahipótesis nula. Pearson y Neyman, en cambio,incorporaron la idea de simetría entre el recha-zo y la confirmación de la hipótesis nula; es apartir de ellos que los libros de texto de esta-dística han incorporado la expresión ‘se aceptala hipótesis nula’, pues para Fisher sólo eraposible rechazar o no rechazar la hipótesisnula».

Esta lógica de decisiones sobre la acepta-ción y/o rechazo de hipótesis o de la significa-ción estadística es una de las bases de la infe-rencia estadística que articulan y justifican eluso de esta herramienta. Usualmente prescin-

EVALUACIÓN DE RESULTADOS CLÍNICOS I: ENTRE LA SIGNIFICACIÓN ESTADÍSTICA Y LA RELEVANCIA CLÍNICA

103

Page 11: Evaluacion de Resultados Clinicos II

ello, el IC a demás de utilizarse como estima-dor de la magnitud y precisión, también es váli-do como medida de significación estadística.

Veámoslo con los ejemplos de la Tabla I. Enel estudio 1 se ha obtenido una diferencia deproporciones del 20% que arroja un RiesgoRelativo (RR) de 1,55 a favor del grupo Exprespecto al Ctrol. La prueba de significaciónestadística a ofrecido una p=0,361 y el IC del95% ha resultado de (0,56 a 4,29). Comovemos, este intervalo de confianza contiene elvalor ‘1’, lo cual quiere decir que en alguna delas muestras aleatorias que pudiéramos obte-ner ambos grupos presentarían la misma pro-porción de éxitos del tratamiento (numeradory denominador serían iguales). En el estudio 2 seha observado la misma diferencia de proporcio-nes (20%) y el mismo RR (1,55), pero en estecaso el IC del 95% es de (1,13 a 2,14). Comopodemos apreciar, el valor 1 esta fuera del reco-rrido observado, por lo que podríamos concluirque en el 95% de las muestras aleatorias encon-traríamos RR de la magnitud del encontrado ennuestro estudio. Observemos como en este casoel valor de la prueba de significación es dep<0,005. También ha que destacar como el IC del95% del Estudio 2 es más estrecho que el delestudio 1, es decir, resulta más preciso: en el Estu-dio 1 el verdadero valor de la RR en la poblaciónoscilaría entre valores de 0,56 a 4,29, mientrasque en el Estudio 2 lo haría entre valores de 1,13a 2,14. En nuestro ejemplo, esta mayor precisiónse debe al tamaño de la muestra, 20 casos en elEstudio 1 y 200 en el Estudio 2.

Los intervalos de confianza, a diferencia delos valores ‘p’, no reducen los resultados a unsimple ‘blanco o negro’, ‘estadísticamente sig-nificativo o no significativo’, sino que nos ofre-cen un límite inferior y otro superior entrelos cuales se sitúa el verdadero efecto en lapoblación, es decir, nos ofrece una aproxima-ción a la estimación del efecto. En el ámbitoclínico, y en el científico en general, es precisoconocer si los resultados obtenidos en nues-tra investigación pueden ser extrapolables a la

nos dicen nada de la magnitud del efecto logra-do ni de su precisión (Porta, elt al, 1988;Pita–Fernández y Pertega, 2001; Rebasa, 2003).

A este respecto, desde hace ya tiempo serecomienda, con acierto, acompañar a los valo-res ‘p’ con el uso de los intervalos de confian-za —e incluso sustituyendo a los propios valo-res ‘p’—, ya que esta herramienta sí que nosaporta información sobre la magnitud y la pre-cisión del efecto (Gardner y Altman, 1986;Clark, 2004). El Intervalo de Confianza (IC)construido a partir de una muestra, es un rangode valores mínimo y máximo entre los cualesesperamos que se encuentre el verdaderovalor del parámetro que tratamos de estimar.En las distribuciones normales los intervalos deconfianza se construyen sumando y restando alestimador del efecto (la media, la razón de ries-gos, etc.) su error estándar [EE=DT/√n] multi-plicado por el valor de z=1,96 para obtenerintervalos de confianza del 95%, o por el valorde z= 2,58 si se pretende obtener un IC del99%. Por tanto, la amplitud de los intervalosdependerá de la variabilidad o desviaciónestándar (numerador en la fórmula del EE) y delos efectivos utilizados en la muestra (denomi-nador de la fórmula), de forma que si disminu-ye el numerador (menor variabilidad) o seincrementa el denominador (aumento deltamaño de la muestra) se reduce el error demedida y, por tanto, aumenta la precisión. Unintervalo de confianza del 95% quiere decir quesi se toman 100 muestras de un mismo tamañoy se utiliza cada muestra para construir un ICdel 95%, se podría esperar que en promedio 95de los intervalos incluirían el verdadero efectode la terapia y cinco no lo hicieran. Una de lascaracterísticas del IC es que existe una relaciónentre éste y la prueba de hipótesis: cuando elIC del 95% no contiene el valor ‘0’ (en el casode diferencias de medias) o el valor ‘1’ (en elcaso de la razón de riesgos) se presenta unadiferencia estadísticamente significativa(p<0,05), mientras que si el IC contiene el ‘0’, oel ‘1’ según el caso, entonces no existirían efec-tos significativos estadísticamente (p>0,05). Por

NORTE DE SALUD MENTAL nº 33 • 2009

104

Page 12: Evaluacion de Resultados Clinicos II

105

EVALUACIÓN DE RESULTADOS CLÍNICOS I: ENTRE LA SIGNIFICACIÓN ESTADÍSTICA Y LA RELEVANCIA CLÍNICA

población con un riesgo mínimo de equivoco—con una probabilidad inferior a un 5%—,pero también nos interesa sobre manera cuáles la magnitud del efecto logrado o la impor-tancia de un resultado.

Clínicamente significativo, relevante o importante

Ernest Rutherford, considerado el padre dela física nuclear, planteaba que “si tu experimen-to necesita estadística deberías haber hecho unomejor”. La cita no es un descrédito a las poten-cialidades de la estadística, sino que descubredos cuestiones desde mi punto de vista funda-mentales: 1) que el éxito de una investigaciónestá en su diseño y planificación (Iraurgi, 2000),y 2) que la magnitud de los resultados deberíanser tan evidente que estuviera más allá de la másmínima probabilidad de error. Lo que buscamosal investigar, en definitiva, no es tanto la significa-ción estadística sino la significación práctica(Kirt, 1996), o lo que Levy (1967) denominó sig-nificación sustantiva y que dentro del área asis-tencial se conoce como significación o relevan-cia clínica (Jacobson, Follette y Revenstorf, 1984;Kendall, Flannery y Ford, 1999).

Cuando se trata de analizar el denominadocambio terapéutico el efecto formulado en lahipótesis científica recoge el cambio hacia losvalores de normalidad dentro del área clínicasometida a intervención, por ejemplo unareducción de la sintomatología depresiva hacianiveles no patológicos. Como hemos podidoapreciar en apartados anteriores, en estoscasos puede suceder que el cambio estadística-mente significativo no indique el verdaderovalor terapéutico, es decir, como en el Estudio4 del ejemplo (Tabla 1), el efecto logrado noalcance la diferencia clínicamente significativa.Entonces, ¿qué se entiende por clínicamentesignificativo?. Veamos algunas definicionesencontradas en la literatura:

• “La relevancia clínica de un fenómeno vamás allá de cálculos aritméticos y estádeterminada por el juicio clínico. La rele-

vancia depende de la magnitud de la dife-rencia, la gravedad del problema a investigar,la vulnerabilidad, la morbimortalidad gene-rada por el mismo, su coste y por su fre-cuencia entre otros elementos” (Pita–Fer-nández y Pértega, 2001).

• “Se entiende por significación clínica la mag-nitud del cambio atribuida al tratamientoterapéutico que permite que el funciona-miento del sujeto pueda ser consideradonormal” (Kendall, Flannery y Ford, 1999).

• Hollon y Flick sugieren que (1988) “la uni-dad mínima de importancia clínica debe serdefinida en términos del más pequeño cam-bio fiable de algún interés, pero no necesa-riamente a todas las partes interesadas”.

• El grupo de Lindgren proponen que “cuan-do se comparan dos métodos del trata-miento, la diferencia más pequeña entre lasterapias con respecto a una variable delresultado importante que llevaría a la deci-sión de modificar el tratamiento denotaríaun resultado de importancia clínica” (Lind-gren, Wielinsky, Finkelstein y Warwick,1993).

• LeFort plantea que el término ‘clínicamentesignificativo’ refleja “la magnitud de cambio,si verdaderamente el cambio representauna diferencia real para conservar la vida,una duración en el tiempo de los efectos, laaceptación del paciente, la relacióncosto–efectividad y la facilidad de aplica-ción”.

• Kingman (1992) propone que la significa-ción estadística deviene en una condiciónnecesaria para la importancia clínica y queambas, la importancia estadística y la clínica,deben coincidir. Para ello, se requiere deuna definición de lo que se entiende porimportancia clínica, y para lograr este requi-sito es necesario un consenso entre exper-tos reconocidos.

• Killoy (2002) sugiere que la significación clí-nica es una valoración subjetiva realizada porel clínico y que antes de que pueda hallarseun hallazgo clínicamente significativo, deberíahaberse logrado la significación estadística.

Page 13: Evaluacion de Resultados Clinicos II

106

NORTE DE SALUD MENTAL nº 33 • 2009

Varias ideas afloran en el conjunto de estaspropuestas. Siguiendo a Greenstein (2003), laimportancia clínica de los datos necesita serinterpretada por el médico antes de tomar lasdecisiones terapéuticas. Sin embargo, no existeuna manera precisa de definir la relevancia clíni-ca ya que es cada situación la que especificarácuán pequeño ha de ser la mejora mínima nece-saria. Por consiguiente, teniendo en la cuenta lasdefiniciones anteriores, se podría plantear lasiguiente propuesta sobre lo que comporta uncambio clínicamente significativo o relevante: “laimportancia clínica implica la existencia de uncambio que puede influir en la decisión de un clí-nico sobre cómo tratar a un paciente. Para lle-gar a la conclusión de que un resultado es clíni-camente relevante, el hallazgo ha de ser,simultáneamente, clínicamente y estadísticamen-te significativo. No obstante, este criterio supo-

ne un juicio de valor que varia en función de lasituación clínica de cada caso. Médicos, pacien-tes, investigadores, representantes de la saludpública, la industria farmacéutica, y otros prota-gonistas del escenario socio–sanitario (Tabla 4)pueden interpretar la relevancia clínica de formadiferente, en tanto que cada uno de ellos puedenponer su(s) objetivo(s) de resultado(s) en opcio-nes diversas (p.ej.: el tamaño de efecto, el aliviode la dolencia, los costes, la duración del trata-miento, la comodidad de la implementación, elmantenimiento de la mejora de salud y acepta-ción del tratamiento por el paciente, etc.). Deeste modo, un resultado puede ser estadística yclínicamente significativo pero tener poca rele-vancia médica porque el beneficio no supera elriesgo o el coste del tratamiento o porque elbeneficio sólo se observa en un grupo depacientes muy pequeño.

Page 14: Evaluacion de Resultados Clinicos II

107

EVALUACIÓN DE RESULTADOS CLÍNICOS I: ENTRE LA SIGNIFICACIÓN ESTADÍSTICA Y LA RELEVANCIA CLÍNICA

ConclusionesVarias son las conclusiones básicas que qui-

siéramos destacar de esta revisión:1. La estadística debe entenderse como una

humilde herramienta para ayudarnos en lacomprensión, organización o estructura-ción de los datos de la realidad obtenidosen nuestros estudios. Es importante nodejarse seducir por ella hasta el punto deconvertirla en la base de la investigación.Investigar consiste en conocer bien lasbases teóricas que fundamentan el estudio,realizar un buen diseño y una correcta pla-nificación y seguimiento, la utilización ade-cuada de la estadística para el análisis de losdatos, y la competencia intelectual para aso-ciar los resultados a las evidencias existen-tes y a los retos de investigación futuros. Laestadística, por tanto, es un medio, no un fin.

2. La utilización de la estadística en general, yde la inferencia, en particular, han de enten-derse y utilizarse dentro del marco de suscompetencias: la estadística nos informa delnivel de probabilidad que el estudio nos ofre-ce de que el efecto encontrado se haya pro-ducido por casualidad. Si la probabilidadhallada, esto es el valor–p, es menor que elque a priori se ha establecido como criterio(puede ser del 0,05, ó bien del 0,01, o inclu-so podría llegar a plantearse el del 0,1),entonces podremos asumir que los hallazgosson efectos de nuestra intervención (asu-miendo que nos podemos equivocar en un5%, 1% ó 10% de las veces, respectivamente).

3. Pero no olvidemos que el objetivo de la inves-tigación no es sólo verificar la plausibilidad denuestros hallazgos, esto es, encontrar que losefectos son estadísticamente significativos,sino también determinar la magnitud del fac-tor, evento o relación objeto de estudio.Debemos, por tanto, diferenciar claramente loque es estadísticamente significativo y lo quees clínicamente relevante, pues la conjunciónde ambas cuestiones son las que dan sentidoa la investigación. Un resultado estadística-mente significativo sin relevancia clínica no

deja de ser una anécdota; un hallazgo clínica-mente importante sin significación clínica nopuede ser asumido como concluyente, ya queno podemos atribuir con seguridad el hallaz-go clínico a la intervención realizada.

4. La significación, relevancia o importancia clíni-ca o terapéutica de una intervención, o si seprefiere, la significación práctica o sustantivade un efecto, supone el establecimiento apriori de un criterio que puede venir dadopor la evidencia recogida en estudios previossobre el área de interés, o bien por juicio arbi-trario de expertos. De este modo, no existencriterios fijos y en su definición sería conve-niente tener en cuenta los intereses de todoslos protagonistas que directa o indirectamen-te se hallasen implicados en los objetivos delestudio. Solo a nivel practico, y tomandocomo referencia el ámbito clínico, propondrí-amos el siguiente principio general: “efecto clí-nicamente significativo es aquel efecto mínimoentre subgrupos de pacientes a partir del cualmerece la pena modificar una actitud tera-péutica, diagnóstica o preventiva a favor de laque se haya mostrado más beneficiosa”.

En definitiva, se hace necesario evitar el usoindiscriminado de las pruebas de significación y,cuando éstas se utilicen, deberían complemen-tarse acompañándolas con procedimientos esta-dísticos que informen acerca de la magnitud, ladirección y la importancia real de los resultadosobtenidos con las pruebas de significación. Estosprocedimientos deben pasar por la aplicación deíndices del tamaño del efecto, ya que son capacesde proporcionar información acerca de la rele-vancia clínica, social, práctica o sustancial de unresultado empírico. Repasar, describir e interpre-tar estos índices del tamaño del efecto será elobjetivo del siguiente artículo sobre esta serieque acabamos de iniciar sobre la evaluación deresultados terapéuticos.

Contacto: Ioseba Iraurgi

MAPS Rekalde. Villabaso 24, bajo. Bilbao [email protected]

Page 15: Evaluacion de Resultados Clinicos II

108

NORTE DE SALUD MENTAL nº 33 • 2009

BIBLIOGRAFÍA • Argimon JM y Jiménez-Villa J (2004). Métodos de investigación clínica y epidemiológica. Tercera edición. Barcelona: Elsevier. Accesible en:

http://books.google.es/books?id=_BLemLvp9XAC&pg=PA257&lpg=PA257&dq=clinicamente+significativo+relevante&source=web&ots=k6vBs5TQCL&sig=u32SczY0z6CCIRa9zS2CMQJxbn0&hl=es&sa=X&oi=book_result&resnum=9&ct=result#PPP1,M1

• Barrera M. (2008). Diferencias estadísticamente significativas vs relevancia clínica. Rev CES Med; 22 (1): 89-96. Accesible en:www.ces.edu.co/Descargas/CES%20Diferencias%20estadisticamente%20 significativas%20Vol22N1.pdf

• Cohen J. (1990). Things I have learned (so far). American Psychologist; 45(12): 1304-1312. Traducción: Cohen J. (1992). Cosas que he aprendido (hasta ahora).Anales de Psicología, 8, 1-2, 3-17. Accesible en: http://www.um.es/analesps/v08/02-08.pdf

• Cohen J. (1994). The earth is round (p<.05). American Psychologist; 49(12): 997-1003.

• Conover WJ. (1999). Practical Nomparametric Statistics (3rd Ed.). New York: John Wiley & Sons, Inc.

• Clark ML. (2004). Los valores de P y los intervalos de confianza. Rev Panam Salud Publica; 15(5): 293-296. Accesible en:http://www.scielosp.org/pdf/rpsp/v15n5/21999.pdf

• Domènech JM. (1998). Comprobación de hipótesis. Pruebas de significación y pruebas de hipótesis. En Doménech JM. Métodos estadísticos en ciencias de la salud.Unidad didáctica 6. Barcelona: Signo.

• Fisher RA. (1922). On the mathematical foundations of theoretical statistics. Philosophical transactions of the Royal Society of London; 222A: 309-368.

• Frías MD, Pascual J, García JF. (2002). La hipótesis nula y la significación práctica. Metodología de las Ciencias del Comportamiento; 181-185. Accesible en: http://www.uv.es/garpe/C_/A_/C_A_0020.pdf

• Gardner MJ, Altman DG. (1986). Confidence intervals rather than P values: estimation rather than hypothesis testing. British Medical Journal; 292: 746-750.Accesible en: http://www.pubmedcentral.nih.gov/articlerender.fcgi?artid=1339793

• Greenstein G. (2003). Clinical versus statistical significance as they relate to the efficacy of periodontal therapy. JADA; 134: 583-591. Accesible en: http://jada.ada.org/cgi/content/full/134/5/583

• Guttman L. (1977). What is not what statistics. The Statistician 26, 81-107. Traducido al castellano: Guttman L. (1977). Malos usos en estadística, REIS; 6: 101-117.Accesible en: www.dialnet.unirioja.es/servler/ fichero_articulo?codigo=665680&orden=80913

• Hollon SD, Flick SN. (1988). On the meaning if clinical significance. Behav Assess; 10: 197-206.

• Iraurgi I. (2000). Cuestiones metodológicas en la evaluación de programas terapéuticos. Trastornos Adictivos; 2(2): 99-113. Accesible en:http://db2.doyma.es/pdf/182/182v2n2a10017604pdf001.pdf.

• Jacobson NS, Follette WC, Revenstorf D. (1984). Psychotherapy outcome research: Methods for reporting variability and evaluating clinical significance. Journalof Consulting and Clinical Psychology; 15: 336-352.

• Jacobson NS, Roberts LJ, Berns SB, McGlinchey JB. (1999). Methods for defining and determining the clinical significance of treatment effects: Description,application and alternatives. Journal of Consulting and Clinical Psychology; 67(3): 300-307.

• Kendall PC, Grove WM. (1988). Normative comparisons in therapy outcome. Behavioral Assessment; 10: 147-158.

• Kendall PC, Flannery-Schroeder EC, Ford JD. (1999).Therapy outcome research methods. En PC Kendall, JN Butcher y GN Holmbeck (eds.). Handbook ofresearch methods in clinical psychology. New York: Wiley and Sons.

• Killoy WJ. (2002). The clinical significance of local chemotherapies. J Clin Periodontol; Supplement 2: 22-29.

• Kingman A. (1992). Statistical vs clinical significance in product testing: can they be designed to satisfy equivalence?. J Public Health Dent; 52: 353-360.

• Kirk RE. (1996). Practical significance: a concept whose time has come. Educational and Psychological Measurement; 56: 746-759.

• Kraemer HC, Thiesman S. (1987). How Many Subjects? Statistical Power Analysis in Research. Newbury Park, CA: Sage Publications, Inc.

• Leach C. (1979). Introduction to Statistics: A Nomparametric Approach for Social Sciences. New York: John Wile y & Sons, Inc.

• LeFort SM. (1993). The statistical versus clinical significance debate. Image J Nurs Surg; 25: 57-62.

• Levy P. (1967). Substantive significance of significant differences between two groups. Psychological Bulletin, 67, 37-40.

• Lindgren BR, Wielinskyi CL, Finkelstein SM, Warwick WJ. (1993). Contrasting clinical and statistical significance within the research setting. Pediatr Pulmonol;16: 336-340.

• McGuigan FJ. (1993). Experimental Psychology: Methods of Research (6th Ed.). New York: Prentice-Hall.

• Murphy KR, Myors B. (2004). Statistical Power Analysis. Mahwah, NJ: Lawrence Erlbaum Associates, Publishers.

• Neyman J, Pearson ES. (1928a). On the use and interpretation of certain test criteria for purposes of statistical inference (Part I). Biométrica; 20A: 175-240.

• Neyman J, Pearson ES. (1928b). On the use and interpretation of certain test criteria for purposes of statistical inference (Part II). Biométrica; 20A: 263-294.

• Pita-Fernández S, Pértega S. (2001). Significación estadística y relevancia clínica. Cad Aten Primaria, 8: 191-195. Accesible en: http://www.fisterra.com/mbe/investiga/signi_estadi/signi_estadi.asp

• Porta M, Plasencia A, Sanz F. (1998). La calidad de la información clínica (y III): ¿estadísticamente significativo o clínicamente importante? Medicina Clínica; 90:463-468. Accesible en: http://clon.uab.es/recursos/listatipos.asp?tipo=PDF&page=82

• Rebasa P. (2003). Entendiendo la ‘p<0,001’. Cir Esp; 73(6): 361-365. Accesible en: www.aecirujanos.es/ revisiones_cirugia/2003/Junio2.pdf

• Rodríguez-Arias E. (2005). Estadística y psicología: análisis histórico de la inferencia estadística. Perspectivas Psicológicas; 5: 96-102. Accesible en: www.psicologiacientifica.com/publicaciones/ biblioteca/articulos/ar-rodriguez01.htm

• Shaver, W.D. (1993). Interpreting statistical significance and nonsignificance. Journal of Experimental Education; 61: 383-387.

• Siegel S. (1956). Nomparametric Statistics for the Behavioral Sciences. New York: McGraw-Hill Book Company.

• Silva-AyÇaguer LC (1997). Cultura estadística e investigación científica en el campo de la salud: Una mirada crítica. Madrid: Díaz de Santos. Accesible en:http://books.google.com/books?id=hi7pxRZGa4C&pg=PA284&lpg=PA284&dq=What+is+not+what+statistics+Guttman+1977&source=web&ots=1x5ZR04H9S&sig=COVIWprHlpgxr9-NoUHQJStL6Xo&hl=es&sa=X&oi=book_result&resnum= 3&ct=result#PPR11, M1

• Thompson B, Snyder PA. (1997). Statistical significance testing practices in the Journal of Experimental Education. Journal of Experimental Education; 66: 75-83.