La cuantifica~:ión de la variabilidad en ... - oc.lm.ehu.es · bablemente lo que afirma 110 es...

6
f. EPIDEAfIOLOGIA PARA CLINICOS La cuantifica~:ión de la variabilidad en las observc3ciones clínicas l. Hernández Aguado", M. Porta Serra**'***, M. Miralles** F. García Benavides*'.** y F. Bolúmar*'**** .Instituto Valenciano de E.studios en Salud Pública. Valencia. *. Instituto MuniCipal de Investigación Médica. élarcelona. ..*Facultad de Medicina. Universidad Autónoma. Barcelona. *..* Departaml!nto de Salud Comunitaria. Universidad de Alicante EXACTITUD (accuracy, exactitudeJ', Grado en el que una medición representa el verdadero valor del atributo que está siendo medido, es decIr, grado en el que se ajusta a un valor estándar o verdadero. CONSISTENCIA (consistencyJ. Propiedad que define el nivel de acuerdo o conformidad de un conjunto de mediciones consigo mis- mas. En castellano el término consistencia se refiere normalmente a estrecha uniformidad en los hallazgos. Se habla entonces de conSIS- tencia de una asociación cuando en una investigación ésta se observa en distintos grupos de individuos, o de consistencia de estudios, cuando se observa un mismo resultado en diferentes estudios FIABiliDAD (reliability, fiabilltéJ. Grado de estabilidad conseguido en los resultados cuando se repite una medición en condiciones Idén- ticas. Informa sobre la reproducibilidad de resultados obtenidos por un procedimiento de medición. Aunque reproducibilidad y repetibi- lidad se usan como SinÓnimOS, no se refieren a una cualidad de la medición, sino sólo a la acción de realizar algo más de una vez. En léxico epidemiológico se pueden considerar fiabilidadad y consisten- cia como sinónimos. cuando son empleados para describir un pro- cedimiento de medición. aunque su significado en lengua usual es distinto; fiabilidad Implica confianza y consistencia implica estabi- lidad o solidez. No son. por tanto. términos sinónimos y su signifi- cado dista, como se ve. del que les atribuimos en nuestra definición. VARIABiliDAD INTEROBSERVADOR (interobserver variability. varia- bilité interobservateurJ. Diferencias existentes entre los resultados aportados por distintos observadores. VARIABiliDAD INTRAOBSERVADOR (intraobserver variability, varia- billté intraobservateurJ. Diferencias existentes entre los resultados que obtiene el mismo observador cuando informa más de una vez sobre un mismo hecho. INDICE KAPPA. Proporción del acuerdo potencial por encima del azar que obtienen distintas mediciones de un mismo hecho En el transcurso de la práctica clínica tiene lugar una serie de operaciones que concluye habitualmente en una toma de decisiones. En ocasiones, los resultados e información producidos por alguna o algunas de las actividades clínicas se emplean en investigación. El éxito de ambos procesos, la asistencia y la investigación clínicas, depende de la ve- racidad de la información proporcionada en cada una de las etapas u operaciones desarrolladas. La calidad de los datos es un requisito básico de cualquier actividad científica. En el transcurso de! proceso de asistencia clínica, desde la anamnesis hasta la evaluación del tratamiento, realizamos un conjunto de actividades que, básicamente, son medi- ciones. Mediciones que van desde procedimientos tales como el interrogatorio (c:uando medimos variables como los antecedentes patológiccls del enfermo o el grado de bienes- tar producido por un tratamiento), a la exploración (cuando medimos signos clínicos como el tamaño del hígado o la coloración de la orina), o también la práctica de pruebas diagnósticas (cuando, por ejemplo, determinamos si en una radiografía hay presencia o no de una fractura). Hay un cierto grado de error intrínseco en cualquier pro- cedimiento de medición, particularmente cuando el com- ponente principal del proceso es la apreciación subjetiva de un observador. Estos errores de medición, en la práctica clí- nica constituyen potenc:ialmente un grave problema, que puede llegar a invalidar todo el proceso de atención clínica a un paciente. Los errores raramente pueden ser eliminados totalmente, pero el conocimiento de sus causas y su eva- luación cuantitativa pueden contribuir decisivamente a me- jorar la calidad de la pr;~ctica e investigación clínicas. El grado de error que conlleva cualquier observación clínica puede ser evaluado de1:erminando su exactitud (tabla 1). Este tipo de evaluación, ya expuesta en dos artículos an- teriores de esta misma serie1.2, consiste en comparar la me- dición realizada mediarlte el procedimiento a evaluar, con otro considerado de referencia o patrón. Por ejemplo, po- demos comparar el dia~:nóstico clínico de faringitis estrep- tocócica con el resultad!o del cultivo y determinar la sensi- bilidad y la especificidad que tiene la observación clínica en el diagnóstico de esta enfermedad3. Pero además de la exac:titud, los procedimientos de medi- ción deben poseer otro atributo básico para que la infor- mación que produzcan tenga suficiente calidad. Este atri- Correspondencia:Dr. l. HernándezAguado. Instituto Valenciano de Estudios en Salud Pública. Juan de Garay,21. 46017 Valencia Manuscrito recibido el 19-2-1 '~90 Med G/in (BarcJ 1990; 95: 424-429 "El prImer termIno es la equivalenCia Inglesa y el segundo la francesa ,1"!.. buto es la consistencia o fiabilidad (es decir. la capacidad de un procedimiento para producir el mismo resultado cuando el proceso se repite por el mismo método u obser- vador o por otro observador en las mismas condiciones) (ta- bla l).La consistencia implica la ausencia de variabilidad o desacuerdo en repetidas observaciones o mediciones. Los procedimientos de medición como los mencionados ante- riormente deben tener como característica un grado de con- sistencia aceptable. además de una buena exactitud. De hecho. cuando un procedimiento de observación clínica muestra una alta variabilidad, no es ni siguiera procedente evaluar su exactitud. Volviendo al ejemplo clínico de la fa- ringitis estreptocócica (es decir, si hay un frecuente desa- cuerdo entre diferentes observadores o de un observador consigo mismo sobre los distintos signos diagnósticos o so- bre el diagnóstico final). no vale la pena evaluar al exactitud de este procedimiento diagnóstico. TABLA 1 Definición de algunos términos introducidos en este artículo

Transcript of La cuantifica~:ión de la variabilidad en ... - oc.lm.ehu.es · bablemente lo que afirma 110 es...

f.

EPIDEAfIOLOGIA PARA CLINICOS

La cuantifica~:ión de la variabilidaden las observc3ciones clínicas

l. Hernández Aguado", M. Porta Serra**'***, M. Miralles**F. García Benavides*'.** y F. Bolúmar*'****

.Instituto Valenciano de E.studios en Salud Pública. Valencia. *. Instituto MuniCipal

de Investigación Médica. élarcelona. ..*Facultad de Medicina. Universidad Autónoma.Barcelona. *..* Departaml!nto de Salud Comunitaria. Universidad de Alicante

EXACTITUD (accuracy, exactitudeJ', Grado en el que una mediciónrepresenta el verdadero valor del atributo que está siendo medido, esdecIr, grado en el que se ajusta a un valor estándar o verdadero.CONSISTENCIA (consistencyJ. Propiedad que define el nivel deacuerdo o conformidad de un conjunto de mediciones consigo mis-mas. En castellano el término consistencia se refiere normalmente aestrecha uniformidad en los hallazgos. Se habla entonces de conSIS-tencia de una asociación cuando en una investigación ésta se observaen distintos grupos de individuos, o de consistencia de estudios,cuando se observa un mismo resultado en diferentes estudiosFIABiliDAD (reliability, fiabilltéJ. Grado de estabilidad conseguidoen los resultados cuando se repite una medición en condiciones Idén-ticas. Informa sobre la reproducibilidad de resultados obtenidos porun procedimiento de medición. Aunque reproducibilidad y repetibi-lidad se usan como SinÓnimOS, no se refieren a una cualidad de lamedición, sino sólo a la acción de realizar algo más de una vez. Enléxico epidemiológico se pueden considerar fiabilidadad y consisten-cia como sinónimos. cuando son empleados para describir un pro-cedimiento de medición. aunque su significado en lengua usual esdistinto; fiabilidad Implica confianza y consistencia implica estabi-lidad o solidez. No son. por tanto. términos sinónimos y su signifi-cado dista, como se ve. del que les atribuimos en nuestra definición.VARIABiliDAD INTEROBSERVADOR (interobserver variability. varia-bilité interobservateurJ. Diferencias existentes entre los resultadosaportados por distintos observadores.VARIABiliDAD INTRAOBSERVADOR (intraobserver variability, varia-billté intraobservateurJ. Diferencias existentes entre los resultadosque obtiene el mismo observador cuando informa más de una vezsobre un mismo hecho.INDICE KAPPA. Proporción del acuerdo potencial por encima delazar que obtienen distintas mediciones de un mismo hecho

En el transcurso de la práctica clínica tiene lugar una seriede operaciones que concluye habitualmente en una tomade decisiones. En ocasiones, los resultados e informaciónproducidos por alguna o algunas de las actividades clínicasse emplean en investigación. El éxito de ambos procesos,la asistencia y la investigación clínicas, depende de la ve-racidad de la información proporcionada en cada una de lasetapas u operaciones desarrolladas. La calidad de los datoses un requisito básico de cualquier actividad científica.En el transcurso de! proceso de asistencia clínica, desde laanamnesis hasta la evaluación del tratamiento, realizamosun conjunto de actividades que, básicamente, son medi-ciones. Mediciones que van desde procedimientos talescomo el interrogatorio (c:uando medimos variables como losantecedentes patológiccls del enfermo o el grado de bienes-tar producido por un tratamiento), a la exploración (cuandomedimos signos clínicos como el tamaño del hígado o lacoloración de la orina), o también la práctica de pruebasdiagnósticas (cuando, por ejemplo, determinamos si en unaradiografía hay presencia o no de una fractura).Hay un cierto grado de error intrínseco en cualquier pro-cedimiento de medición, particularmente cuando el com-ponente principal del proceso es la apreciación subjetiva deun observador. Estos errores de medición, en la práctica clí-nica constituyen potenc:ialmente un grave problema, quepuede llegar a invalidar todo el proceso de atención clínicaa un paciente. Los errores raramente pueden ser eliminadostotalmente, pero el conocimiento de sus causas y su eva-luación cuantitativa pueden contribuir decisivamente a me-jorar la calidad de la pr;~ctica e investigación clínicas.El grado de error que conlleva cualquier observación clínicapuede ser evaluado de1:erminando su exactitud (tabla 1).Este tipo de evaluación, ya expuesta en dos artículos an-teriores de esta misma serie1.2, consiste en comparar la me-dición realizada mediarlte el procedimiento a evaluar, conotro considerado de referencia o patrón. Por ejemplo, po-demos comparar el dia~:nóstico clínico de faringitis estrep-tocócica con el resultad!o del cultivo y determinar la sensi-bilidad y la especificidad que tiene la observación clínicaen el diagnóstico de esta enfermedad3.Pero además de la exac:titud, los procedimientos de medi-ción deben poseer otro atributo básico para que la infor-mación que produzcan tenga suficiente calidad. Este atri-

Correspondencia: Dr. l. Hernández Aguado. Instituto Valenciano deEstudios en Salud Pública. Juan de Garay, 21. 46017 Valencia

Manuscrito recibido el 19-2-1 '~90

Med G/in (BarcJ 1990; 95: 424-429"El prImer termIno es la equivalenCia Inglesa y el segundo la francesa

,1"!..

buto es la consistencia o fiabilidad (es decir. la capacidadde un procedimiento para producir el mismo resultadocuando el proceso se repite por el mismo método u obser-vador o por otro observador en las mismas condiciones) (ta-bla l).La consistencia implica la ausencia de variabilidado desacuerdo en repetidas observaciones o mediciones. Losprocedimientos de medición como los mencionados ante-riormente deben tener como característica un grado de con-sistencia aceptable. además de una buena exactitud. Dehecho. cuando un procedimiento de observación clínicamuestra una alta variabilidad, no es ni siguiera procedenteevaluar su exactitud. Volviendo al ejemplo clínico de la fa-ringitis estreptocócica (es decir, si hay un frecuente desa-cuerdo entre diferentes observadores o de un observadorconsigo mismo sobre los distintos signos diagnósticos o so-bre el diagnóstico final). no vale la pena evaluar al exactitudde este procedimiento diagnóstico.

TABLA 1

Definición de algunos términos introducidosen este artículo

gias para reducirla, ni siquiera en aquellas formas de me-dición más sujetas a inconsistencia.El grado de inconsistencia en algunas observaciones ha sidopuesto en evidencia por medio de investigaciones diseñadasal efecto; el lector interesado puede consultar una guía pu-blicada sobre estudios de variabilidad4. Entre los diversosejemplos, se pueden citar los estudios sobre el desacuerdoobservado en el examen de fotografías de fondo de ojo, enla interpretación de estudios radiográficos o en la realiza-ción de encuestas sobre antecedentes o exposiciones a tó-XICOS de diverso tipoS-7.

Por otro lado, hemos de dejar claro desde el principio queuna buena consistencia no significa que la medición seaexacta: con frecuencia la exactitud de una observación nopuede ser evaluada ante la ausencia de un patrón de refe-rencia. Un lunático que repite continuamente que él esCobi, la mascota olímpica, es muy consistente, pero pro-bablemente lo que afirma 110 es verdad. Exactitud y consis-tencia son dos dimensiones distintas, pero a la vez com-plementarias, de un mismo problema: el problema de lamedición.En este artículo vamos a tratar de la frecuencia del desa-cuerdo o variabilidad en las observaciones clínicas y sus re-percusiones, de las formas de evaluarlo cuantitativamentey de sus causas. Formas de evaluar la variabilidad

De los diferentes métodos que han surgido para valorar elgrado de acuerdo o desacuerdo entre los clínicos, los quehan demostrado ser más ventajosos (dependiendo del tipode datos que comparemos) son los siguientes: 1) índicekappa. para categorías nominales o binarias; 2) índice kap-pa ponderado, para categorías ordinales (tres o más cate-gorías ordenadas), y 3) coeficiente de correlación intracla-ses, para categorías cuantitativas.

Variabilidad en la observal:ión clínica

La ausencia de consistencia, es decir, la variabilidad sepuede producir entre las valoraciones hechas por dos o másobservadores (variabilidad interobservadorJ, o por un mismoobservador en ocasiones separadas ent~e sí por un lapso detiempo (variabilidad intraobservadorJ. Esta puede apareceren cualquiera de las etapas del proceso asistencial. Así, sepueden poner en evidencia desacuerdos sobre: a) los an-tecedentes o la slntomatología que tiene determinado pa-ciente; b) la existencia o no de determinados hallazgos ex-ploratorios;' c) la interpretación de pruebas diagnósticas;d) la decisión terapéutica, y por último, e) los efectos quela intervención ha tenido sobre el paciente.La mayoria de los clínicos son conscientes de la existenciadel desacuerdo o variabilidad en sus valoraciones, entreotros motivos porque la práctica diaria se lo recuerda cons-tantemente al discrepar de sus colegas respecto a las mis-mas obsenlaciones clínicas. En el período de formación semanifiesta con más facilidad la existencia de desacuerdoen las observaciones, pues los médicos en formación suelenpedir a su ,tutor la corroboración de los distintos actos clí-nicos reali~ados. comprobando por ejemplo, y no sin ciertadecepción, que la esplenomegalia observada no era tal, queesas supuestas ondas q no son lo que parecen o que no seha detectado un soplo cardiaco; incluso pueden llegar a es-cuchar con estupor cómo el paciente dice lo que no dijo olo desmiente delante del adjunto o jefe clínico. A este tipode desacuerdo no se le da excesiva importancia, ya que seconsidera al tutor como el patrón de referencia con quiense compara el médico en formación. Sin embargo, lo queya es más preocupante es que tampoco se le dé demasiadaimportancia fuera de este período de formación. Algunosclínicos se sienten incóm,odos cuando su práctica clínica esvalorada por otros profesionales; otros, por el contrario, me-nos susceptibles, solicitan a menudo la colaboración de suscolegas en la confirmacIón o no de una observacIón dudosay comprueban lo frecuente que en ocasiones llega a ser lavariabilidad. Sin embargo, no siempre se diseñan estrate-

Indice kappa

Ya hemos apuntado que el índice kappa se utiliza cuandohay únicamente dos categorías de valoración, o cuando haymás de dos sin un orden jerárquico entre ellas (nominalespolicotómicas), como por ejemplo los grupos sanguíneos oel estado civil. Veamos cómo se calcula el índice kappa enel supuesto de dos observadores ante una variable dicotó-mica (por ejemplo enfermo, no enfermo).La tabla 2 resume los datos obtenidos por dos observadores(A y B) al clasificar a 110 pacientes según dos posibles gra-dos de evolución de una supuesta patología (grados I y 11).En la tabla 2 se han as~do las letras a, b, c y d a cadauna de las cuatro casillas; a y d son las casillas donde serepresentan las frecuencias del acuerdo o concordancia en-tre los dos observadores; con b y c se representa la fre-cuencia de desacuerdo..EI índice de acuerdo observado (lo) se calcula dividiendo lasuma de las casillas en que los observadores han coincidido(a y d) por el total de observaciones:

lo = (a + d) / n = (37 + 52) / 110 = 0,81 (81 %)

TABLA 2

Frecuencias obtenidas por los observadores A y Bal clasificar el mismo grupo de 110 pacientesen dos categorías de su enfermedad (grados I y 11):frecuencias reales u observadas

Observador AObservadorB

Gr,1do I

Este sería el índice que Fleiss denomina de concordanciasimple y nos mide la proporción (o el tanto por ciento) deacuerdo respecto al total de observaciones8. Sin embargo,no es una medida suficiente de la concordancia, ya que siuno de los observadores hubiera hecho sus diagnósticostirando una moneda al aire (cara = grado I y cruz = gra-do 11), posiblemente hallaríamos también una cierta coin-cidencia, debida exclusivamente al azar, entre los resulta-dos de ambos. Debemos, pues, tener en cuenta esta posibleinfluencia del azar y cuantificarla. Para averiguar en quéproporción coinciden realmente nuestros dos observadores,tendríamos que preguntarnos primero cuál sería la frecuen-cia en cada casilla si la única relación entre las conclusio-nes de los observadores A y B fuese el azar. La tabla 3 ilus-tra las frecuencias que obtendríamos si las observacionesde A y B no tuviesen otra relación que el azar, o lo que eslo mismo, si fuesen independientes.Con estas frecuencias teóricas, calculamos el índice deacuerdo debido al azar (lA) análogamente a como habíamoscalculado lo:

lA = (a' + d') / n = (20,51 + 35,51) /110 =0,51 (51 %)

42535

TABLA 3

Frecuencias que habriéln obtenido los mismosobservadores A y 8 (tabla 2), si hubies.~n clasificadoa los 110 pacientes de un modo totalmente arbitrarioy diferente para cada u no de ellos (esto es, no hubieserelación alguna entre sus criterios de valoración de losdistintos pacientes): frl~cuencias teóricas o esperadas

Acueroo _o

781%

, 1\ "

~

, v "--rAcuerdo esperado [XX azar Acuerdo real

51 % no debido al azar

27%

~

Grado I 48 x 47

1 110 ~

110

62 x 47-,110

62 x 63

110

47= 20.51 a = 26.49

Grado 63= 27.49

48

= 35.51

62 110

100%

, v

Acuerdo polenClalno debido al azar

49%

S, doS sucesos. x y l. son Independientes. probabilidad (x " II = P(x)" P(l) S, entre los

observadores A y B no hubiera un tactor de COincidencia distinto del alar probabilidad4B 47(grado l. " grado 18) = probabilidad (grado 18) = -x -

110 110Para convertIr la probabilidad a las mismas unidades en Que tenemos expresados los va-lores de la tabla. debemos multlpllcarla por n (1101. con lo cual slmplltlcamos un 110en el denominadorSuponIendo la Independencia de las observaciones. entonces la trecuencla a de la casIlla

4B x 47(grado I .8) sera Igual a -; y analagamente en todas las casIllas

Fig. 1. Representaclon graf¡ca del cálculo dellndlce Kappa

Acuerdo real no debido al azar 27 ..Kaooa = --= -= 0.55

49 ':.Acuerdo potencial no debido al azar

Adaotado de Sackett9

TABLA 4

Frecuencias obtenidas por los observadores A y Bal clasificar el mismo ~:rupo de 40 pacientes en cuatrocategorías de su enferrnedad (definida, probable, posiblee improbable): frecuencias reales u ob~;ervadas

ObservadOIA~B

I Definida

4

Definida 63

102

111

13

40

21

31

3

31

10

Probable

Posible

Improbable

16I

Los números en negrita representan el peso o factor de ponderaclon (n)

Esto quiere decir que el 51 % de las veces que los obser-vadores coinciden puede explicarlo el azar. Por lo tanto,sólo el 30 % (81 % -=)1 %) se debe únicamente a que es-tán usando los mismos criterios de diagnóstico. A este30 % (0,30) le llamaremos acuerdo observado no debidoal azar y será el numerador del índice kappa.Para el denominador calcularemos la cantidad de acuerdoobservado. no debida al azar, que hallaríamos si el acuerdoobservado (lo) fuese pE!rfecto (1 o 100 %):

1 --0,51 = 0,49.

De este modo, el índice kappa es:

índice kappa = acuerdo observado no debido al azar /máximo acuerdo posible no debido al azar =

! (lo -lA) / (1 -lA).i

En nuestro ejemplo:ín~ice kappa = (0,81 -0,51) I (1 -0,51) =

i 0,61 (61 %)

Esto es.161 de cada 1.00 (61 %) observaciones son coin-cidentes entre los dos observadores, una vez eliminada laparte que puede ser e~:plicada por el azar (fig. 1).

36426

indice kappa ponderado

El índice kappa ponderado se utiliza cuando hay más de doscategorias de valoración con un orden jerárquico entre ellas,ya que no es lo mismo discrepar de I a II que de I a 111; porejemplo, no es lo mismo de leve a moderado que de leve agrave. Se calcula de forma análoga al indice kappa simple,pero multiplicando el valor de cada casilla por un valor(peso o w) que pondere la magnitud del desacuerdo con suscasillas vecinas. Veámoslo de nuevo mediante un ejemplo(tablas 4 y 5).La tabla 4 contiene las frecuencias reales halladas al cali-ficar dos observadores distintos si las manifestaciones quepresentaban 40 pacientes de un estudio clínico eran de-bidas al fármaco con que se trataban, según cuatro cate-gorías: definida, probable, posible e improbable. En la ta-bla 5 hemos incluido las frecuencias que hubiésemos ha-llado si los investigadores hubiesen asignado los pacientesa cada categoría de forma aleatoria, es decir, si hubiesenactuado de forma independiente.El índice kappa ponderado se define igual que el índice kap-pa, pero se calcula a partir de la proporción de desacuerdos,asignando a cada frecuencia un peso o factor de pondera-ción (W, números en negrita en las tablas 4 y 5) en funciónde la magnitud de desacuerdo que representa.Así, en el ejemplo de la tabla asignamos:W = 1, cuando la magnitud del desacuerdo es de una solacategoría (por ejemplo, observador A definida, observadorB probable);W = 2, si hay desacuerdo de magnitud entre dos categorías(por ejemplo, observador A definida, observador B posible),y así sucesivamente.Una vez asignados los pesos y calculadas las frecuenciasdebidas al azar o teóricas (tabla 5), el cálculo del índicekappa ponderado se realiza del modo siguiente (tabla 6):índice kappa ponderado = 1 -proporción de desacuerdosreal (00) / proporción de desacuerdos que hallaríamos porazar (OA);00 = sumatorio w x frecuencias observadas / sumatorio defrecuencias (N);

l. HERNANDEZ AGUADO ET AL.- LA CUANTIFICACION DE LA VARIABILIDAD EN LAS OBSERVACIONES CLlNICAS

TABLA 5

Frecuencias que habrían obtenido los mismos observadores si hubiesen clasificado a los 40 pacientes de un modototalmente arbitrario y diferente para cada uno de ellos (esto es, no hubiese relación alguna entre sus criteriosde valoración de los distintos pacientes): frecuencias teóricas o esperadas por azar

~AObS«Y.-B

Definida

~ = 1.0540

Probable Posible Im~

10 x 6

40

Definida 16 x 6

40

7 x 6

40

7 x 10

40

= 2.4 = 1,05 = 1,56

Probable 10 x 1040

~= 1,7540

~=440

= 1,75 = 2.5 101

7 xII40

16 xlI40

7 xii40

10 xlI40

I

Posible = 1.95 =44 = 1.93 = 2.75 111

7 x 13

40

16 x 13

40

7 x 1340

10 x 1340

Improbable = 2.27 = 5.2 = 2.27 = 3.25 13

407 16 7 10

Los numeros en negrita representan el ,'"so O factor de ponderacIón (n).

QA = sumatorio w x frec:uencias teóricas I sumatorio de

frecuencias (N).En la tabla 6 podemos ver la aplicación de estas fórmulasal ejemplo presentado anteriormente en las tablas 4 y 5;por tanto el índice kappa ponderado sería igual a 0,05, estoes, 5 de cada 100 ó el 5 % de las observaciones coinci-dentes no pueden ser atrit)uidas al azar.

Coeficiente de correlación intraclases

El coeficiente de correlación intraclases se utiliza para va-lorar la coincidencia cuando las variables medidas soncuantitativas. Combina una prueba de correlación con unaprueba de diferencia de medias, de forma que corrige elerror sistemático (el coefi<:iente disminuye cuando una va-riable es constantemente mayor o menor que la otra). Secalcula de forma parecida a un análisis de la varianza. Nonos extendemos más, pues, pensamos que es un tipo de aná-lisis a realizar por personas iniciadas en la materia. El lectorinteresado puede consultar la bibliografías.Es incorrecto utilizar el cc,eficiente de correlación de Pear-son u otros índices de tendencia para describir coinciden-cia, porque dos variables pueden estar relacionadas en altogrado (esto es, tener un alto coeficiente de correlación) ysin embargo no coIncidir; por ejemplo, c.uando una de ellases el mismo número de vl~ces superior o inferior a la otra:una perfecta correlación inversa equivaldría a un totaldesacuerdo1O.

Consideraciones sobre kappa (simple o ponderado)

Los valores de kappa pueden oscilar entre -1 y +1, deforma que kappa igual a () denota que el acuerdo obtenidose puede explicar exclusivamente por el azar, si kappa tiene

TABLA 6Cálculo del índice kappa ponderado (Kp) basándonos en ~

00 = prOpOrclon de desacuerdo real: a. -proporclon de desacuerdo que nallarLamos por azar

42737

valor negativo indica un acuerdo menor que el que hallaría-mos meramente por azar y kappa igual a 1 indica un acuer-do perfecto.Nos podemos preguntar a partir de qué valor de kappa pue-de considerarse que hay una concordancia aceptable. Hayalgunas propuestas para contestar a esta pregunta, la másutilizada es la de Fleiss8, que establece que un valor dekappa inferior a 0,40 indica concordancia deficiente, de0,40 a 0,75 acuerdo aceptable a bueno y más de 0,75 in-dica acuerdo excelente. Sin embargo, puede ser incorrectocomparar valores de kappa obtenidos en poblaciones dife-rentes, por los motivos que pasamos a comentar.Kappa tiene algunas influencias que limitan su utilidad. Laprincipal es que varía su valor según la prevalencia de laanomalía o enfermedad que se estudie, a pesar de que losobservadores mantengan su misma calidad en la obser-vaciónll. En particular, en los valores extremos de preva-lencia, tanto si es muy baja como muy alta, kappa tiende adisminuir. Por ello, no sería comparable, por ejemplo, unvalor de kappa obtenido en un estudio de concordancia enel diagnóstico de linfadenopatía generalizada en un grupode pacientes en los que la mitad tienen la anomalía (pre-valencia = 50 %), con el valor de kappa obtenido por otroso los mismos observadores al estudiar pacientes en los quela anomalía se presenta sólo en el 5 % de los mismos.Cuando se calcula kappa para datos con más de dos cate-gorías, debemos tener en cuenta que a medida que aumen-ta el número de categorías disminuye el valor de kappa. de-pendiendo su magnitud más de cómo fueron definidas lascategorías que del grado de reproducibilidad de los métodosusados. Cuando hay más de dos categorías puede ser mejorcomparar cada una de ellas con la suma de todas lasdemás8.

frecuencias de las tablas 4 y 5

MEDICINA CLíNICA VOL. 95. NUM. 11. 1990

l. Un medlco del servicio especial de urgencias conocido de los autores,Ingreso en una ocasión a un niño en el hospital con el diagnostiCO deneumonia. Al consultar el caso telefónica mente con el medlco de puer-tas. constató con satisfacción que ambos comcldlan en el diagnostiCO yque el Ingreso era correcto: sin embargo. se quedo estupefacto a medidaque este le comentaba lo impresionado que estaDa por la gravedad delsarampión que padecla el niño y que se habla complicado con la neu-monia. Un factor ambiental. la ausenCia de luz adecuada en la vIvIendadel pacIente. habia interferido en su observación, Impidiendo que apre-Ciara un evidente sarampión. Tal vez. la misma ausencia de luz le agudízóel oído y no erró en otra observación mas decIsiva. En cualquier caso. esprecIso realizar la exploración clinica en las melores condicIones am-bientales posibles.2 Para verificar la calidad de algunos de los datos en una Investigaciónsobre síndrome de inmunodeficienc~a adquirIda (SI DA) y complelo re-lacionado con el SIDA. Coates et all, valoraron el grado de acuerdo cli-nico entre diferentes medicos sobre la presencia o ausenCia de linfade-nopatla generalizada. Los resultados oDtenidos IndIcan que la formacIóny experiencia del clínico son determinantes de la fiabilidad de este tIPOde exploración y que se puede cuestionar la !nformaclon sobre Ilnfade-nopatla generalizada. SI no procede de personas experimentadas que hanestandarizado cuidadosamente el examen clinlco. En esta misma Inves-tlgaclon se puso en evidenCia un alto grado de dlscreoancla entre cllnlcosal valorar el tamaño y numero de adenopatlas. Los autores concluyen quelos ensayos clínicos que monitoricen cambiOs en tamaño y numero delos gangllOS linfaticos como respuesta al tratamIento. deben ser Inter-pretados con precaución.3 Si a dos radiólogos les pedimos que nos clasifiquen radiografías detórax según la presencia o ausencia de embolla pulmonar. parte de lavarIabilidad que podríamos observar entre ellos puede ser consecuenciade no incluir la categoría dudosa. es decir. una categoría con la que losobservadores puedan expresar la incertidumDre y no verse oblIgados aseparar entre anormalidad r normalidad. dado Que el abanico de POSI-bilidades siempre es mayor 4

4. En una Investigación reciente. se analizo la variabilidad Inter e in-traobservador en la interpretación de una prueba de inmunofluorescenciapara la detección de Chlamydia trachomafis en exudado genital. En unaprimera fase se encontró una pobre concordancia Interobservador (kappa= 0,41) e intraoDservador (kappa = 0.78 y 0.61). consecuencia de la

subJetividad en la aplIcación de los criterios diagnósticos. En una se-gunda fase se pudo comprobar como mediante una comunicación y es-tandarlzacion adecuadas meJoraba sensiblemente la consistencia en el

diagnóstico15.5 Un excelente eJemplo de cómo el observador puede ~st~r influenciadopor sus propias previsiones. fue el trabalo de Day et all" sobre auscul-tación de la frecuencia cardlaca fetal. Al comparar la frecuencia recogidapor auscultación y la registrada en la monitorlzación fetal. se observó quecuando la frecuencia cardiaca fetal registrada en el monitor estaDa entre130 y 150 mm. es decir dentro de los limites normales. había una buenaconcordancia con los clínicos. En cambio, cuando la frecuencia cardlacaera mayor de 150 mmHg los clínicos tendlan a recoger valores mas balosy cuando era menor de 130 mmHg los recogían mas altos. En amboscasos los clínicos daban una frecuencia mas acorde con la normalidaddeseada.

Causas de la variabilidad en la observación

Cuando evaluamos la corlsistencia, el objetivo principal nodebe ser la constatación de que hay variabilidad. El objetivode un estudio de variabilidad debe ser la investigación delos factores que la originan. e intentar determinar qué tipode variabilidad actúa en el procedimiento de medición es-tudiado y cuáles son los factores que la producen. Al pre-parar una investigación de este tipo debemos diseñar losmecanismos para poder alcanzar estos objetivos. Vamos adiscutir ahora, con algunos ejemplos, a fin de orientar eldiseño de estos estudios" las distintas causas de la varia-bilidad.Se pueden distinguir tres fuentes de variabilidad12; 1) lavariabilidad atribuible al procedimiento, 2) la variabilidaddebida a las discrepancials entre los observadores o usuariosdel procedimiento de ot)servación y 3) la variabilidad delente o individuo observado.Entre los errores debidos al procedimiento de medición, nosólo hay que tener en cuenta los debidos al incorrecto fun-cionamiento o manejo de los instrumentos físicos emplea-dos, y que obviamente ~,ueden dar lugar a desacuerdos enlas observaciones, sino que también hay que considerar losfactores que alteran la realización de estas mediciones. De-ben tenerse en cuenta, por ejemplo, la influencia de fac-tores ambientales, como frío, calor, luz, ruido y otros, enla exploración física, o la relación médico-paciente en laanamnesis.El usuario u observador es siempre una fuente importantede variabilidad. Pensemos en primer lugar en la variaciónbiológica de los sentidos. Recordemos que exploracionescomo la palpación o la ,auscultación se inician a través delos sentidos para posteriormente, en una segunda fase, serinterpretadas y reducidas a categorías semiológicas. Hayuna variabilidad bien conocida, fruto de las distintas sen-sibilidades o agudezas de los sentidos, entre diferentes ob-servadores; otra menos conocida, pero bien probada, es lavariación de los sentido:s de los observadores en diferentessituaciones (hora del díél, niveles de tensión y cansancio..).La inconsistencia en la observación también puede ser de-bida (entre otras causas), a la diferente formación de losobservadores o a la inslJficiente formación de alguno o al-guno de ellos, que los lleva a utilizar distintos criterios enla interpretación de los datos o, lo que sería más grave des-de el punto de vista de la reducción de la discordancia, arecoger datos o hacer observaciones diferentes.Otras formas de variabil idad que tienen su origen en el ob-servador no son exclusi~'amente achacables a éste. Hayoca-siones en que los sistemas de clasificación tienen límitesarbitrarios (casi todos lo son) entre distintas categorías diag-nósticas. lo que produc:e discrepancias, como por ejemploocurre cuando hay acuerdo en lo que se observa, pero nosobre a qué categoría ~feestablecida corresponde.También hay que señalar que el observador puede estar in-fluenciado más por lo que espera encontrar que por la rea-lidad de lo observado, 1:endiendo a recoger los datos que leayuden a confirmar su hipótesis diagnóstica preestablecida.La última fuente de variabilidad es la debida al ente ob-servado. Cuando ésto!; son pacientes debemos tener encuenta, fundamentalm,ente, la variación biológica al explo-rar determinados signos. Un ejemplo bien conocido es lavariación que observamos en varias tomas sucesivas de latensión arteria/, razón por la que se recomienda utilizar elvalor medio de las diferentes tomas. Por otro lado, tambiénpueden producirse desacuerdos en las anamnesis debido aque los pacientes intE~rrogados sobre determinados ante-cedentes o exposicion,es pueden recordar en una segundaentrevista datos no recogidos anteriormente, debido a la re-

428 38

TABLA 7

Algunos ejemplos sobre las distintas fuentesde variabilidad

flexión realizada en el período entre ambas entrevistas. Enla tabla 7 se resumen algunos ejemplos sobre las distintasfuentes de variabilidad.

Conclusión

Se pueden demostrar inconsistencias en cada uno de losdatos recogidos en la clínica; sin embargo, no tiene por quéhaber preocupación acerca de valoraciones que tienen pocoo ningún impacto en decisiones cruciales. La importanciade la variabilidad es decisiva cuando dichas valoracionesconducen a intervenciones quirúrgicas, cambios en el estilode vida del paciente, terapéuticas prolongadas, arriesgadasy costosas, o cuando afectan a los principales resultados deun proyecto de investigación.Los clínicos interesados en detectar y cuantificar la varia-bilidad en aspectos claves de sus actividades clínicas, nodeben dejarse impresionar por la relativa complejidad ma-temática de los numerosos índices usados en la literatura

l. HERNANDEZ AGUADO ET Al.- LA CUANTIFICACIÓN DE LA VARIABiliDAD EN LAS OBSERVACIONES cliNICAS

científica para valorar la concordancia entre mediciones. Aesto se añaden los probllemas de interpretación y uso querodean algunos de los más conocidos, como es el caso delíndice kappa17. El conocimiento de estos índices puede serdecisivo para interpretar investigaciones sobre el tema. peroen muchas ocasiones el íl'ldice de concordancia simple o lamera descripción pormenorizada de los acuerdos y desa-cuerdos observados es suficiente. y más aún si tenemos encuenta que el estudio de la variabilidad no tiene como metaúnicamente la cuantificación. sino la detección de susfuentes y $U prevención. La extensión de este tipo de in-vestigaciones. que evalúen el nivel de variabilidad en dis-tintas actividades clínicas. detecten su origen y establezcanlos métodos para reducirl¡~, puede contribuir a la mejora dela calidad de la atención médica:

3. Hidalgo MA, Lobos JM, Seguido P, García-Perea P, Urdiola P, ContheP Farlngltis aguda: valor predictivo de los datos clínicos en el diagnósticode etiología estreptocócica. Med Clin (Barc) 1988: 90: 156-159.4 Feínstein AR. A bibliography 01 publications on observer variabllity. JChronic Dis 1985; 38: 619-632.5 Sperduto RD, Hiller R. Podgor MJ et al. Comparability 01 ophtalmic diag-noses by clinical and reading center examiners ín the visual acuity impair-ment survey pilot study. Am J Epidemiol 1986; 124: 994-1.003.

6. Kjaersgaard-Andersen P. Christensen F. Schmidt SA, Pedersen NW. Anew method 01 stimation 01 interobserver varlation and its application to theradiological assessment 01 osteoarthrosis in hip joints. Stat Med 1988; 7:639-647.7. Pron GE, Burch JD, Howe GR, Miller AB. The reliability 01 passive smo-king histories reported In a case-control study 01 lung cancer. Am J Epidemiol1988; 127: 267-273.

8. Fleíss JL. Statistical methods lor rates and proportions. Nueva York:John Wiley and Sons, 1981; 212-225.9. Sackett DI, Haynes RB, Tugwell P Epidemiología Clínica. Una cienciabásica. Madrid: Diaz de Santos SA, 1989; 37.10. Bland JM, Altman DG. Statistical methods lor assessing agreementbetween two methods 01 clinical measurement. Lancet 1988; 1: 307-310.11. Thompson WD, Walter SD. A reappraisal 01 the kappa coefficient. JClin Epidemiol 1988; 41: 949-958.12. Feinstein AR. Clinimetrics. New Haven: Yale University Press, 1987;167-189.13. Coates RA, Fanning MM, Johnson JK, Calzavara L. Assessment 01 ge-neralized Iymphadenopathy in aids research: the degree 01 climcal agree-mento J Clin Epidemiol 1988; 41: 267-273.14. Feinstein AR. Clinical Epidemiology. The architecture 01 clinical re-search. Filadellia: WB Saunders Company, 1985: 635.15. Hern,ández Aguado 1, Ruiz Atienza L, Fernández Garcla 1, FernándezGarcía E, Alvarez-Dardet C. Evaluación de la variabilidad del diagnóstico rá-pido de infección por Chlamydia trachomatis mediante inmunolluorescenciadirecta. Med Clin (Barc) 1990; 94: 9-11.16. Day E, Maddern L, Wood C. Auscultation 01 loetal heart rate: an as-sessment 01 its error and signilicance. Br Med J 1968; 4: 422-424.17. Maclure M, Willett WC. Misinterpretation and misuse 01 the Kappa sta-tistic. Am J Epidemiol 1987: 126: 161-169.

Agradecimiento

A Manuel Arranz Lázaro, responsable de la Biblioteca delInstituto Valenciano de E:studios en Salud Pública, por ha-cer más comprensible el texto, y a Virginia Barrachina pormejorar su forma final.

BIBLIOGRAFíAl. Pozo Rodríguez F. La eficacia de las pruebas diagnósticas (1). Med Clin(Barc) 1988: 90: 779-785.2. Pozo Rod~íguez F. La eficaci¡! de las pruebas diagnósticas (11). Med Clin(Barc) 1988: 91: 177-183.

42939