(AR)Virtudes y Limitaciones de La Teoría de Respuesta Al Ítem Para La Evaluación Educativa en Las...

16
Inv Ed Med 2014;3(9):40-55 http://riem.facmed.unam.mx ISSN: 2007-5057 – see front matter © 2014 Facultad de Medicina Universidad Nacional Autónoma de México. Arte, diseño, composición tipográca y proceso fotomecánico por Elsevier México. Todos los derechos reservados. Correspondencia: Secretaría de Educación Médica, Facultad de Medicina, Universidad Nacional Autónoma de México. Edif. B, 3er piso, Av. Universidad N° 3000, Circuito escolar CU, C.P. 04510, México D.F., México. Teléfono: 5623 2300, ext. 43034. Correo electrónico: [email protected] METODOLOGÍA DE INVESTIGACIÓN EN EDUCACIÓN MÉDICA Virtudes y limitaciones de la teoría de respuesta al ítem para la evaluación educativa en las ciencias médicas Iwin Leenen Facultad de Medic ina, Universida d Nacional Autónoma de México, México D.F ., México Recepci ón 26 de septiembre de 2013; aceptación 30 de octubre de 2013 PALABRAS CLAVE Teoría clásica de los tests; teoría de respuesta al ítem; psicometría; evalua- ción educativa; análisis de ítems; México. Resumen La teoría clásica de los tests (TCT) y la teoría de respuesta al ítem (TRI) constituyen los dos enfoques principales de la psicometría. Aunque los fundamentos de la TRI se elaboraron a mediados del siglo XX y numerosas publicaciones han argumentado la superioridad teórica de la TRI sobre la TCT, el enfoque clásico sigue siendo, por mucho, lo más utilizado para la evaluación educativa, también en el campo de la educación médica. En este artículo, se re- visan los fundamentos y conceptos centrales de ambos enfoques psicométricos y se esbozan las posibles ventajas de los modelos de la TRI en el contexto de la evaluación educativa en las ciencias de la salud. Sin embargo, al evaluar los supuestos que subyacen los modelos TRI básicos, es notable una discrepancia signicativa entre los mismos y la compleja realidad en la evaluación educativa. Dicha discrepancia lleva a la conclusión que, para poder aprovechar las ventajas de la TRI, muchas veces es necesario considerar modelos más complejos que los conocidos tradicionalmente, como los modelos multidimensionales y/o modelos que toman en cuenta dependencias entre preguntas particulares. KEYWORDS Classical test theory; item response theory; psycho- metrics; educational mea- surement; item analysis; Mexico. Virtues and limitations of item response theory for educational assessment in the medical sciences  Abstract Classical test theory (CTT) and item response theory (IRT) constitute the two main paradigms in psychometrics. Although the foundations of IRT were already introduced in the middle of the twentieth century and despite the numerous publications since which show the theoreti- cal superiority of IRT over CTT, the classical approach is still, by far, the most commonly used

Transcript of (AR)Virtudes y Limitaciones de La Teoría de Respuesta Al Ítem Para La Evaluación Educativa en Las...

Page 1: (AR)Virtudes y Limitaciones de La Teoría de Respuesta Al Ítem Para La Evaluación Educativa en Las Ciencias Médicas (2014)

8/15/2019 (AR)Virtudes y Limitaciones de La Teoría de Respuesta Al Ítem Para La Evaluación Educativa en Las Ciencias Médic…

http://slidepdf.com/reader/full/arvirtudes-y-limitaciones-de-la-teoria-de-respuesta-al-item-para-la-evaluacion 1/16

Inv Ed Med 2014;3(9):40-55

http://riem.facmed.unam.mx

ISSN: 2007-5057 – see front matter © 2014 Facultad de Medicina Universidad Nacional Autónoma de México. Arte, diseño, composición tipográca y

proceso fotomecánico por Elsevier México. Todos los derechos reservados.

Correspondencia: Secretaría de Educación Médica, Facultad de Medicina, Universidad Nacional Autónoma de México. Edif. B,3er piso, Av. Universidad N° 3000, Circuito escolar CU, C.P. 04510, México D.F., México. Teléfono: 5623 2300, ext. 43034. Correoelectrónico: [email protected]

METODOLOGÍA DE INVESTIGACIÓN EN EDUCACIÓN MÉDICA

Virtudes y limitaciones de la teoría de respuesta al ítem para la

evaluación educativa en las ciencias médicas

Iwin Leenen

Facultad de Medicina, Universidad Nacional Autónoma de México, México D.F., México

Recepción 26 de septiembre de 2013; aceptación 30 de octubre de 2013

PALABRAS CLAVETeoría clásica de los tests;teoría de respuesta alítem; psicometría; evalua-ción educativa; análisis deítems; México.

ResumenLa teoría clásica de los tests (TCT) y la teoría de respuesta al ítem (TRI) constituyen los dosenfoques principales de la psicometría. Aunque los fundamentos de la TRI se elaboraron amediados del siglo XX y numerosas publicaciones han argumentado la superioridad teóricade la TRI sobre la TCT, el enfoque clásico sigue siendo, por mucho, lo más utilizado para laevaluación educativa, también en el campo de la educación médica. En este artículo, se re-visan los fundamentos y conceptos centrales de ambos enfoques psicométricos y se esbozanlas posibles ventajas de los modelos de la TRI en el contexto de la evaluación educativa enlas ciencias de la salud. Sin embargo, al evaluar los supuestos que subyacen los modelos TRIbásicos, es notable una discrepancia signicativa entre los mismos y la compleja realidad en

la evaluación educativa. Dicha discrepancia lleva a la conclusión que, para poder aprovecharlas ventajas de la TRI, muchas veces es necesario considerar modelos más complejos que losconocidos tradicionalmente, como los modelos multidimensionales y/o modelos que toman encuenta dependencias entre preguntas particulares.

KEYWORDSClassical test theory; itemresponse theory; psycho-metrics; educational mea-surement; item analysis;

Mexico.

Virtues and limitations of item response theory for educational assessment in the medicalsciences

 Abstract

Classical test theory (CTT) and item response theory (IRT) constitute the two main paradigms

in psychometrics. Although the foundations of IRT were already introduced in the middle ofthe twentieth century and despite the numerous publications since which show the theoreti-cal superiority of IRT over CTT, the classical approach is still, by far, the most commonly used

Page 2: (AR)Virtudes y Limitaciones de La Teoría de Respuesta Al Ítem Para La Evaluación Educativa en Las Ciencias Médicas (2014)

8/15/2019 (AR)Virtudes y Limitaciones de La Teoría de Respuesta Al Ítem Para La Evaluación Educativa en Las Ciencias Médic…

http://slidepdf.com/reader/full/arvirtudes-y-limitaciones-de-la-teoria-de-respuesta-al-item-para-la-evaluacion 2/16

Virtudes y limitaciones de la teoría de respuesta al ítem para la evaluación educativa en las ciencias médicas 41

Introducción

A la luz del objetivo de formar profesionales de la saludcompetentes y preparados para proporcionar atenciónmédica de calidad, se considera una tarea esencial de laeducación médica monitorear y evaluar de forma conti-nua el proceso educativo de los estudiantes de medicina.En este sentido, la psicometría juega un papel importante

dentro del campo de la educación médica, ya que estadisciplina investiga cómo medir y evaluar de forma ópti-ma los constructos y atributos centrales en el aprendizajede los estudiantes (como conocimientos, competencias,actitudes, entre otros). Por ejemplo, la psicometría per-mite analizar la validez de los instrumentos utilizadospara la evaluación educativa y propicia el desarrollo deideas o propuestas para mejorar dichos instrumentos.

Existen dos enfoques principales de la psicometría: lateoría clásica de los tests (TCT) y la teoría de respuestaal ítem (TRI). El primero, que se conoce también comomodelo de la puntuación verdadera o teoría del error demedición, se cimentó en las ideas originales de CharlesSpearman, cuyas elaboraciones matemáticas publica-das al inicio del siglo XX implicaban la diferenciación delos conceptos puntuación verdadera y puntuación obser-vada como resultado de la aplicación de una prueba. 1,2 La TRI, por otro lado, cuyos fundamentos se elaboraronen la segunda mitad del siglo pasado a partir de las con-tribuciones seminales de Louis Guttman, Frederic Lordy George Rasch, aproxima el análisis de las respuestasen una prueba de forma radicalmente diferente, enfo-cándose en los componentes constituyentes de la misma(es decir, los ítems) en vez del resultado global de lamedición.3-5

Gracias a los avances tecnológicos y los nuevos desa-rrollos teóricos, la TRI creció en relevancia e importan-

cia durante las últimas tres décadas y cada vez más seconsidera una alternativa viable para la TCT. Actualmen-te, constituye una familia muy extensa de modelos psi-cométricos, los cuales tienen en común que relacionanformalmente ―generalmente a través de una(s) ecua-ción(es) matemática(s)― las características latentes (esdecir, hipotéticas, no observables) de los ítems en unaprueba y de las personas que la contestan, con el n dellegar a armaciones (probabilísticas) de la conductade cada persona en cada ítem. Aunque entre los expertosen psicometría existe consenso general sobre la superio-ridad teórica de la TRI, el enfoque principal en contextosaplicados para el análisis de los resultados de los testssigue siendo la TCT. Especícamente, en el área de la

educación médica son escasos los estudios que analizanlos datos de instrumentos de evaluación dentro del marcode la TRI.

Este artículo dará una introducción conceptual de losdos enfoques principales de la psicometría; espera daruna presentación clara de los conceptos claves de ca-da uno de estos paradigmas y quiere invitar a los inves-tigadores en educación médica a considerar ―y reexio-nar críticamente sobre― la perspectiva que ofrece la TRIcomo alternativa para la TCT. Además, se espera aclararque la TRI es mucho más que los dos o tres modelos quese suelen presentar en los artículos introductorios y quela familia de modelos TRI incluye miembros cuyos supues-tos se ajustan mejor a los contextos típicos de evaluaciónen medicina. La introducción a los modelos en este ar-tículo es necesariamente limitada; para un tratamientomás completo, el lector interesado puede consultar lasdiversas publicaciones que existen sobre el tema, tantoen español6-8 como en inglés.9-13

La primera y segunda sección, revisan los conceptosy supuestos básicos y la lógica subyacente de la TCT y la

TRI, respectivamente. En la tercera sección se comparanambas aproximaciones y se evalúan las diferencias desdeun punto de vista teórico a través de un análisis de (al-gunos de) los argumentos que manejan los expertos paracolegir la superioridad de la TRI. La cuarta sección recon-sidera los modelos más comunes de la TRI; en particular,se contrastan sus supuestos con la realidad compleja conque se suele topar en la evaluación educativa y se discu-ten algunos modelos alternativos que pueden ofrecer unarespuesta a los inconvenientes percibidos. La última sec-ción concluirá el artículo con unas reexiones generalessobre las ideas expuestas.

Conceptos básicos de la teoría clásica de lostests

Puntuación verdadera y la ecuación básica de la

TCTLa TCT es una teoría sobre la medición que se obtieneal aplicar un instrumento a una persona. Consideremos,en primera instancia, la aplicación del instrumento a sólouna persona, digamos la persona  p, y representemos elresultado de esta medición como  x 

 p  (lo cual, entonces,

corresponde a una puntuación codicada como un númeroreal). Spearman1,2 reconoció que, debido a la interferen-cia de factores perturbantes,  x 

 p generalmente no  coin-

cide con la medición que uno realmente desea tener, es

 for educational measurement, not the least in the eld of medical education. In this article,I revise the fundamentals and basic concepts of both psychometric approaches and highlightthe advantages that IRT models may offer in the context of educational assessment in thehealth sciences. However, based on an evaluation of the assumptions underlying the mostcommonly used IRT models, it is argued that these assumptions are signicantly discrepantwith the complex reality often encountered in educational measurement. As a result, it isconcluded that, in order to take proper advantage of the IRT framework, often more complex

models, beyond the traditionally known, must be considered, including multidimensional mo-dels and/or models that take into account local dependencies among test items.

Page 3: (AR)Virtudes y Limitaciones de La Teoría de Respuesta Al Ítem Para La Evaluación Educativa en Las Ciencias Médicas (2014)

8/15/2019 (AR)Virtudes y Limitaciones de La Teoría de Respuesta Al Ítem Para La Evaluación Educativa en Las Ciencias Médic…

http://slidepdf.com/reader/full/arvirtudes-y-limitaciones-de-la-teoria-de-respuesta-al-item-para-la-evaluacion 3/16

Leenen I42

decir, que el resultado observado va acompañado con unerror de medición. Los factores perturbantes que causanel error de medición pueden tener su origen en la perso-na, en el instrumento, o en la situación. Como ejemplodel primer tipo de errores, se puede pensar en la medi-ción de la presión arterial, que uctúa considerablementeen el transcurso de un día por lo cual una única mediciónsuele ser insuciente. Para un ejemplo del segundo tipode perturbaciones, considérese el termómetro, el cualintercambia calor con el cuerpo sujeto de la medicióny, por lo tanto, no dará la temperatura exacta de estecuerpo. Factores perturbantes que tienen su origen en lasituación ocurren, por ejemplo, en la aplicación de unexamen mientras que en la plaza de a lado un candidatopresidencial ha organizado un mitin y pronuncia su dis-curso electoral bajo los fuertes aplausos y las porras desus simpatizantes. Dentro de la TCT, se formulan supues-tos sobre el efecto de los factores perturbantes (es decir,sobre el error de medición) y se desarrollan procedimien-tos para cuanticar su inuencia en el resultado obtenido.

El supuesto básico de la TCT es que, en cada medición,el error se extrae aleatoriamente de alguna distribuciónde probabilidad.14 Si ε

 p representa el error que acompaña

la medición x  p, la diferencia

 x  p − ε

 p

corresponde con la “puntuación puricada”, es decir, lapuntuación de la cual se ha quitado el error de medición.La teoría clásica denomina este resultado puntuación ver-dadera y se representa por τ

 p. Es decir, se dene

τ p = x 

 p − ε

 p,

lo cual es algebraicamente equivalente a

 x  p = τ

 p + ε

 p.

Mientras que x  p es el valor observado de la medición

y por lo tanto conocido, la puntuación verdadera τ p y el

error de medición ε p  son constructos hipotéticos ―que

existen sólo gracias a la teoría― y desconocidos, o bien,latentes.  (Nótese que en este artículo me adhiero a lacostumbre de representar parámetros latentes por mi-núsculas griegas y los valores observados por minúsculasromanas; las mayúsculas se reservan para representar va-riables). Aunque nunca se conoce con exactitud la pun-tuación verdadera y el error asociados con una mediciónconcreta, dentro de la TCT se han desarrollado métodosque permiten llegar a conclusiones sobre estas entidadesa partir de los datos de una muestra.

Para aclarar y precisar las implicaciones del supues-to básico mencionado anteriormente de que el error demedición es el resultado de una extracción de alguna dis-tribución de probabilidad, considérese el siguiente expe-rimento mental. Supongamos que fuese posible repetir ungran número de veces la medición de la persona  p bajocircunstancias similares a las de la medición inicial, esdecir, sin que las aplicaciones anteriores inuyesen en lasnuevas mediciones (no hay efectos de memoria, fatiga,aburrimiento, etc., como si se le lavase el cerebro a lapersona antes de cada nueva aplicación). Entonces, elsupuesto básico implica que en cada una de estas repeti-ciones (a) se extrae un nuevo valor para el error de me-dición de su distribución probabilística, mientras que (b) la

puntuación verdadera no cambia. En otras palabras, con-siderando las réplicas hipotéticas de la persona p, el errorde medición es una variable aleatoria, la cual se repre-senta por E 

 p, y la puntuación verdadera es una constante

(τ p). Esto implica que la puntuación observada de la per-

sona p también es una variable aleatoria: X  p.

La Figura 1 ilustra esta idea grácamente. Para con-

cretar el ejemplo, supongamos que las puntuaciones sonde un examen clínico objetivo estructurado (ECOE) que seha calicado como un porcentaje, es decir, son calica-ciones sobre 100 (que se calcularon a partir de las cali -caciones en una serie de estaciones). La distribución enla parte superior izquierda representa la distribución deprobabilidad de E 

 p para una primera persona ( p=1). Para

este ejemplo se escogió una distribución normal (aunqueel supuesto de normalidad no es parte del núcleo de laTCT). En la tabla debajo de la distribución de E 

1 se resu-

men los resultados obtenidos en ocho de las réplicas hi-potéticas que se realizaron en el experimento mental. Seobserva que, por un lado, la puntuación verdadera de estapersona (τ

1

 = 64.30) es una constante; el valor de E 1

, porotro lado, es diferente en cada réplica y se ha extraído dela distribución arriba (por ejemplo, ε11, el error que acom-paña la primera medición de la primera persona, es iguala −2.31; ε12, el error de su segunda medición, es +2.59,etc.). Puesto que el modelo supone que la puntuación ob-servada es la suma de una constante y una variable,  X 

 p 

varía también entre las réplicas de la misma persona.La gráca de la distribución en la Figura 1 tácitamente

reeja otro supuesto de la TCT: el valor esperado (es decir,la media) de la distribución de probabilidad que se suponepara E 

 p es igual a 0, para cada persona  p. En algunas ré-

plicas la puntuación observada sobreestima la puntuaciónverdadera, en otras la subestima, pero, a la larga, los

efectos positivos y negativos de los factores perturbantesse equilibran. Por otro lado, la varianza de la distribuciónde probabilidad de E 

 p, denotada σE 

2p, es un índice de la

precisión de las mediciones de la persona p: si es grande,los valores de E 

 p uctúan mucho entre las réplicas; en el

caso extremo de que σE 2

p = 0, E 

 p siempre asume el mismo

valor, igual a la media 0, y entonces no hay error. Nóteseque de lo anterior directamente sigue que:

E  ( X  p) = τ

 p  y σ X 

2p = σE 

2p.

Este resultado implica que la puntuación verdadera dela persona p se podría estimar a partir de la media de laspuntuaciones observadas en una muestra de réplicas yque la varianza de las mismas puntuaciones observadas

sería un indicador de la precisión de las mediciones paraesta persona.La parte superior derecha de la Figura 1 representa

el mismo proceso para otra persona ( p=2). Nótese que ladistribución de probabilidad de los errores de medición deesta persona tiene mayor varianza: la TCT, en su desarro-llo inicial, no restringe que las distribuciones de probabi-lidad para diferentes personas sean idénticas.

En la realidad, sin embargo, varios obstáculos prác-ticos impiden obtener réplicas de la medición de la mis-ma persona bajo las circunstancias especicadas en elexperimento mental. Con el objetivo de poder estimarlos parámetros de interés, la TCT cambia un poco el en-foque y añade unos nuevos supuestos al modelo: en lugar

Page 4: (AR)Virtudes y Limitaciones de La Teoría de Respuesta Al Ítem Para La Evaluación Educativa en Las Ciencias Médicas (2014)

8/15/2019 (AR)Virtudes y Limitaciones de La Teoría de Respuesta Al Ítem Para La Evaluación Educativa en Las Ciencias Médic…

http://slidepdf.com/reader/full/arvirtudes-y-limitaciones-de-la-teoria-de-respuesta-al-item-para-la-evaluacion 4/16

Virtudes y limitaciones de la teoría de respuesta al ítem para la evaluación educativa en las ciencias médicas 43

de considerar a las personas por separado, se extiende lateoría a una población de personas. La tabla en la parte in-ferior de la Figura 1 sirve para aclarar dicha extensión: laconceptualización de la TCT para una población sigue, talcomo la construcción de la tabla, un proceso de dos pasos.Primero, para cada persona se saca independientementeun error de medición ε

 p de su distribución, el cual, según

lo anteriormente expuesto, se suma a la puntuación ver-dadera τ

 p de esta persona para obtener la puntuación ob-

servada  x  p. Segundo, se denen tres nuevas variables

E , T  y X , que representan la variación del error de me-dición y las puntuaciones verdaderas y observadas, res-pectivamente, dentro de la población de personas. Comomuestran las tres columnas correspondientes de la tablainferior de la Figura 1, hay variación en las tres variables(contrario al caso de las réplicas dentro de cada persona,donde únicamente varían el error de medición y la pun-tuación observada). Estas tres variables se relacionan enla ecuación central de la TCT:

  X  = T  + E   (1)

Confabilidad y error estándar de mediciónEn la sección anterior se identicó la varianza σE 

2p como

un índice de la precisión de las mediciones de la persona p. Además, se mencionó que, en principio, las varianzasde distintas personas pueden diferir. Sin embargo, al con-siderar la población de personas y la variable E , cuyosvalores se extraen de las respectivas distribuciones indi-viduales (es decir, son valores realizados de las variablesE  p asociadas con las distintas personas), la teoría clásica

incorpora como supuesto adicional que dichas distribucio-nes individuales sean idénticas y, particularmente, quepara cualquier persona p se cumpla

  σE 2

p = σE 2. (2)

En relación con la Figura 1, este supuesto implica que(a) se cambien las distribuciones en la parte superior paraque sean idénticas (con la misma varianza) y, por consi-guiente, (b) que la varianza de los valores de E 1 en la se-gunda la de la tabla de la persona 1 sea igual a la va-rianza de los valores en la la de E 2 de la persona 2 yque, además, (c) las varianzas en estas las sean igualesa la varianza de los valores en la última columna de la ta-

bla inferior.El desarrollo del modelo hasta el momento permitederivar la siguiente igualdad en la población de personas:

σ X 2

p = σT 2  + σE 

2.

E 1

−6 −4 −2 0 +2 +4 +6

E 1  ∼   N   (0 , 4)

Persona 1 ( τ1

= 64.30)

Réplicas

 τ1

E 1

X 1

ε11

1

64.30

−2.31

61.99

ε12

2

64.30

2.59

66.89

ε13

3

64.30

−0.55

63.75

ε14

4

64.30

0.92

65.22

ε15

5

64.30

1.54

65.84

ε16

6

64.30

−1.57

62.73

ε17

7

64.30

3.65

67.95

ε18

8

64.30

0.36

64.66

. . .

. . .

. . .

. . .

E 2

−6 −4 −2 0 +2 +4 +6

E 2  ∼   N   (0, 8)

Persona 2 ( τ2

= 81.87)

Réplicas

 τ2

E 2

X 2

ε21

1

81.87

4.69

86.56

ε22

2

81.87

−1.71

80.16

ε23

3

81.87

1.63

83.50

ε24

4

81.87

−0.24

81.63

ε25

5

81.87

−3.40

78.47

ε26

6

81.87

3.69

85.56

ε27

7

81.87

−4.28

77.59

ε28

8

81.87

0.36

82.23

. . .

. . .

. . .

. . .

Población

Persona p

Puntuaciónobservada

Puntuaciónverdadera

T  

Error demedición

1 61.99 64.30 −2.31

2 86.56   81.87   4.69

3 80.58 78.62 −1.95

4 68.43   69.39 0.96

5 59.11 58.07 −1.05

N   72.63 76.53   3.90

.

.

....

.

.

....

Figura 1. Representación gráca del experimento mental que subyace a la teoría clásica de los tests.

Page 5: (AR)Virtudes y Limitaciones de La Teoría de Respuesta Al Ítem Para La Evaluación Educativa en Las Ciencias Médicas (2014)

8/15/2019 (AR)Virtudes y Limitaciones de La Teoría de Respuesta Al Ítem Para La Evaluación Educativa en Las Ciencias Médic…

http://slidepdf.com/reader/full/arvirtudes-y-limitaciones-de-la-teoria-de-respuesta-al-item-para-la-evaluacion 5/16

Leenen I44

Esta ecuación descompone la varianza observadaen dos partes: varianza verdadera y varianza del error.En otras palabras, las diferencias que se observan entrelas puntuaciones de las personas reejan, por una parte,diferencias verdaderas entre las personas y, por otra par-te, diferencias debidas a factores perturbantes.

Un concepto central en la TCT es la conabilidad .

Analizando la ecuación anterior, es claro que un instru-mento es más conable conforme las diferencias observa-das son más diferencias verdaderas (y menos diferenciaspor errores de medición). De esta idea sigue la deni-ción de la conabilidad de un instrumento, representa-da por ρ, como la razón entre la varianza verdadera y laobservada:

ρ = σ

T2

  σX2.

o, de forma equivalente:

ρ = 1 ― σ

E2

  σX

2.

Esta denición implica que la conabilidad es un nú-

mero entre 0 y 1 (siempre y cuando σ X 2 > 0) y alcanza

su máximo de 1 si σ X 2 = σT 

2  (toda la varianza observada

es varianza verdadera) y su mínimo de 0 cuando σ X 2 = σE 

(todas las diferencias que se observan se deben a erroresde medición).

Dado que la denición de la conabilidad incluye untérmino desconocido (no se conocen las puntuaciones ver-daderas ni su varianza), se desarrollaron métodos paraestimar   la conabilidad a partir de una muestra. Losmétodos más conocidos incluyen el método de formasparalelas, el test-retest, el método de dos mitades y elanálisis interno (que incluye el famoso coeciente α deCronbach).6 La exposición de estos métodos y su lógica seencuentra fuera del alcance de este artículo.

A la raíz cuadrada de la varianza de E  se le llama errorestándar de medición. Si se dispone de (una estimaciónde) la conabilidad del instrumento y la varianza obser-vada, se obtiene (una estimación de) el error estándar através de la siguiente ecuación:

σE = σ

X  1—ρ.   (3)

Teoría de respuesta al ítem: conceptos y mo-

delos básicos

La TRI aproxima la medición de los constructos que uninstrumento pretende evaluar de una forma radicalmen-te diferente que la teoría clásica. Mientras que la TCTconsidera la puntuación asociada con una prueba en su

 globalidad ―nótese que el error de medición y la puntua-ción observada y verdadera se reeren a la prueba en sutotalidad―, los modelos TRI analizan cómo las personas secomportan en los elementos constituyentes de la prue-ba, es decir, analizan las respuestas de cada persona encada ítem de la prueba. Por lo tanto, la TRI es apropiadapara analizar instrumentos compuestos de elementos másbásicos (donde el ejemplo típico son los exámenes queconsisten en diferentes preguntas) y menos como modelo

para mediciones indivisibles, como la presión arterial o latemperatura corporal de una persona.

La TRI es una amplia familia de modelos psicométricosque comparten los siguientes supuestos básicos:

1. Subyacente a la prueba existen uno o más cons-tructos o rasgos latentes (ciertas habilidades, ac-titudes, competencias, etc.) que intervienen cuan-

do las personas responden a los ítems;2. tanto las personas como los ítems tienen caracte-

rísticas relevantes (para los constructos mencio-nados) que se pueden resumir en uno o más  pa-rámetros (parámetros en la TRI son números quecaracterizan un ítem o una persona);

3. las características de los ítems se denen indepen-dientemente de (es decir, existen sin referencia a)las personas, y viceversa, las características de laspersonas son independientes de los ítems;

4. es posible hacer una armación sobre la conduc-ta de una persona especíca en un ítem especí-co (por ejemplo, sobre la probabilidad de que lo

acierte) tras la aplicación de una regla (general-mente, una función o una ecuación) que combinalos parámetros de la persona y del ítem.

Los miembros de la familia TRI dieren entre sí res-pecto de (a) el número de rasgos latentes que suponensubyacentes a la prueba, (b) el número de parámetrosque especican para los ítems y, similarmente, el númerode parámetros para las personas y (c) la regla que deter-mina cómo combinar los parámetros de personas e ítemspara llegar a una armación sobre la conducta observa-ble en la prueba. Éste último tiene implicaciones directaspara el formato de respuesta de los ítems (por ejemplo,ítems dicotómicos, con sólo dos respuestas posibles, vs. politómicos con múltiples categorías de respuesta) y el

tipo de constructos subyacentes que el modelo permiteanalizar. A continuación, se introducen los conceptos bá-sicos de la TRI a partir del modelo de Rasch.

El modelo de RaschRasch5 no fue el primero para proponer un modelo TRI: lasideas básicas de la TRI ya se formaron en los años 1940 yunos ocho años anteriores a Rasch, Lord había elabora-do un modelo que se parece en varios sentidos al modelode Rasch. Sin embargo, su elegancia, debido no sólo ala sencillez matemática y fácil aplicación, sino tambiéna sus propiedades teóricas e implicaciones losócas,11,15 hace que muchos expertos consideren el modelo de Rasch

como el primus inter pares de la TRI.Rasch modela la probabilidad de que una persona  p (de alguna población de personas) conteste correctamen-te un ítem i (de alguna población de ítems). Por lo tanto,es para ítems con dos posibles respuestas, que típicamen-te se clasican en “correcta” (o “acertar”) e “incorrecta”(o “fallar”). A la respuesta de la persona  p en el ítem i corresponde una variable aleatoria X 

 pi, que se dene con

los siguientes valores:

 X  pi

= { 1 si la persona p acierta el ítem i

  0 si la persona p  falla el ítem i

Respecto de (a) el número de rasgos latentes, el mo-delo supone unidimensionalidad : un rasgo latente es

Page 6: (AR)Virtudes y Limitaciones de La Teoría de Respuesta Al Ítem Para La Evaluación Educativa en Las Ciencias Médicas (2014)

8/15/2019 (AR)Virtudes y Limitaciones de La Teoría de Respuesta Al Ítem Para La Evaluación Educativa en Las Ciencias Médic…

http://slidepdf.com/reader/full/arvirtudes-y-limitaciones-de-la-teoria-de-respuesta-al-item-para-la-evaluacion 6/16

Virtudes y limitaciones de la teoría de respuesta al ítem para la evaluación educativa en las ciencias médicas 45

suciente para describir el comportamiento de las per-sonas en los ítems. Además, supone (b) que cada ítem ycada persona se caracterizan por sólo un parámetro: elparámetro del ítem i se representa por β

i, el parámetro

de la persona p por θ p, donde β

i y θ

 p son números reales

cualesquiera. Finalmente, en el modelo de Rasch, (c) laregla que combina β

i  y θ

 p  para llegar a una armación

sobre la probabilidad de que la persona acierte el ítem es

Pr( X  pi

 = 1| θ pi,β

i) - e

θ p―βi

1 + eθ p―βi   (4a)

donde e es la base de los logaritmos naturales (e ≈ 2.718).Nótese que la expresión al lado derecho de la Ecua-ción (4a) transforma la diferencia θ

 p − β

i (la cual, en prin-

cipio, puede variar de −∞  a +∞) a un número entre 0y 1, propio para una probabilidad. Dicha transformaciónse conoce como la transformación logística y entra, porejemplo, también como función de enlace en modelos deregresión logística. Por lo tanto, el modelo de Rasch per-tenece a la subfamilia de modelos logísticos dentro de laTRI.

Obviamente, puesto que el modelo considera única-mente dos categorías de respuesta, la probabilidad deque la persona p falle el ítem i es la complementaria de laEcuación (4a):

Pr( X  pi

 = 0| θ p,β

i) = 1 ― Pr( X 

 pi = 1| θ

 p,β

i),

lo cual, si se elabora algebraicamente, lleva a:

Pr( X  pi

 = 0| θ p,β

i) =

1

1 + eθ p―βi   (4b)

Al considerar la probabilidad de acertar en función dela habilidad latente (es decir, al considerar en la Ecua-ción (4a) la variable θ en vez del valor   θ

 p que tiene la

persona p en esta variable), se dene la curva caracterís-tica del ítem:

 f i(θ) = e

θ―βi

1 + eθ―β

i  (5)

La curva característica dene el modelo; o en otraspalabras, se puede identicar un modelo TRI a partir delas curvas características de los ítems. En la gráca iz-quierda de la Figura 2 se representan las curvas carac-terísticas de dos ítems en el modelo de Rasch. La única

diferencia entre los ítems es su posición sobre la dimen-sión latente. Nótese que el parámetro de dicultad deter-mina la posición de un ítem en el rasgo latente: β

i corres-

ponde al nivel del rasgo para el cual la probabilidad deacertar el ítem i es 0.5. Efectivamente, de la Ecuación (5)sigue que, si θ = β

i, entonces f 

i(θ) = 0.5.

Cabe resaltar algunas propiedades más de las curvas

características en el modelo de Rasch. Primero, las cur-vas son crecientes ―a mayor habilidad, mayor probabili-dad de acertar―, lo cual es justo en un contexto donde elconstructo subyacente es de rendimiento óptimo. Segun-do, las asíntotas izquierda y derecha de la función son 0y 1, respectivamente, lo cual quiere decir que la proba-bilidad de acertar un ítem se acerca a 1, conforme la habi-lidad de la persona incrementa y que, conforme la ha-bilidad de la persona disminuye, la probabilidad de acertarcualquier ítem se acerca a 0. Tercero, como se observa enla gráca derecha de la Figura 2, donde se representan lascurvas características de varios ítems en un modelo Rasch,las curvas nunca intersectan. Se puede vericar en laEcuación (5) que, si el ítem i es más fácil que el ítem  j [β

i < β

 j], entonces la probabilidad de acertar i es mayor

que la probabilidad de acertar j [ f i(θ) > f 

 j(θ)], para cual-

quier  nivel θ en el rasgo latente.

El supuesto de independencia localSupongamos que se conocen el parámetro θ

 p de una per-

sona p y los parámetros βi, β

 j y β

k de tres ítems. En este

caso, la Ecuación (4a) permite derivar la probabilidad,según el modelo de Rasch, de que la persona  p  dé larespuesta correcta en cada uno de los tres ítems. Sin em-bargo, la ecuación sólo proporciona dichas probabilidades

 por separado; no especica cómo derivar la probabilidadconjunta de que, por ejemplo, la persona  p acierte los

ítems i y j y que falle el ítem k. Para llegar a armacionessobre tales probabilidades, el modelo de Rasch (y la granmayoría de otros modelos TRI) incluye un supuesto adicio-nal: la independencia local. De este supuesto se despren-de que la probabilidad conjunta equivale al producto delas probabilidades separadas.

Es esencial entender bien la cualidad de local en estesupuesto; quiere decir que la independencia entre res-puestas es condicional a la habilidad θ

 p  de la persona.

θ

f   (θ)

.00

.50

1.00

βi   β j  θ

f   (θ)

.00

.50

1.00

β1β2β3   β4   β5β6

Figura 2. Ejemplos de curvas características en el modelo de Rasch.

Page 7: (AR)Virtudes y Limitaciones de La Teoría de Respuesta Al Ítem Para La Evaluación Educativa en Las Ciencias Médicas (2014)

8/15/2019 (AR)Virtudes y Limitaciones de La Teoría de Respuesta Al Ítem Para La Evaluación Educativa en Las Ciencias Médic…

http://slidepdf.com/reader/full/arvirtudes-y-limitaciones-de-la-teoria-de-respuesta-al-item-para-la-evaluacion 7/16

Leenen I46

Consideremos a dos personas p y q  con el mismo nivel enel rasgo latente que responden los mismos tres ítems y su-pongamos que la persona p acertó los primeros dos ítems,mientras que la persona q  los falló. A partir de esta infor-mación, ¿se concluirá que la persona p tendrá una proba-bilidad mayor que la persona q  de acertar el tercer ítem?Si se acepta el supuesto de independencia local, la res-

puesta a esta pregunta es no. Bajo este supuesto, la pro-babilidad de acertar un ítem no cambiará a la luz de in-formación adicional sobre las respuestas en otros ítems ydepende únicamente del parámetro del ítem y el pará-metro de la persona; puesto que en el ejemplo asumimosque θ

 p = θ

q , la probabilidad de acertar el tercer ítem (y

cualquier otro ítem) es la misma para ambas personas.Si no se especicase que θ

 p = θ

q , entonces la valora-

ción de la probabilidad de acertar el tercer ítem sí seríadiferente para las dos personas: después de haber obser-vado que la persona p acertó los primeros dos ítems y lapersona q  los falló, es más plausible que θ

 p > θ

q  y por lo

tanto, es plausible que la persona  p tenga una probabi-

lidad mayor de acertar el tercer ítem. Lo importante eneste razonamiento es que, en el modelo de Rasch y todoslos demás modelos que incluyen independencia local en-tre sus supuestos, el ajuste en la probabilidad después deobservar las respuestas en otros ítems se atribuye exclu-sivamente a la revaloración del nivel de la persona en elrasgo latente. Es decir, el nivel en el rasgo latente fun-ciona como variable mediadora, lo cual implica que, si semantiene θ

 p jo, entonces la probabilidad de acertar un

ítem ya no se afecta por conocer las respuestas en otrosítems.

En resumen, el supuesto de independencia en los mo-delos TRI es local porque hace referencia a subgrupos depersonas con idénticos valores en θ. Dentro de un grupo

de personas en el cual todos tienen el mismo valor en θ,no hay correlación entre las variables  X 

i  y  X 

 j para cual-

quier par de ítems i y j; en otras palabras, si hay correla-ción, entonces es porque las personas dieren respecto deθ. La única causa de correlación entre los ítems es el ras-go latente. Esta consideración relaciona conceptualmentelos supuestos de independencia local y de unidimensiona-lidad y ha llevado a algunos autores a la conclusión que elprimero sigue directamente del segundo o que son empí-ricamente indistinguibles.6,16,17

Estimación de parámetrosLos valores de los parámetros de ítems y personas son in-

herentemente desconocidos. El objetivo principal de unaaplicación del modelo de Rasch suele ser obtener estima-ciones para estos parámetros a través de un análisis de lasrespuestas observadas en una muestra.

Existen varios métodos de estimación para modelosTRI. El método más común se conoce como estimación

 por máxima verosimilitud  (en inglés: maximum likelihoodestimation, MLE). MLE es una herramienta de estimacióngeneral en la estadística (introducida en los albores delsiglo XX por R. A. Fisher)18 y tiene una serie de propieda-des teóricas atractivas que se sostienen en general bajocondiciones leves. Una exposición detallada de MLE enmodelos TRI excede el alcance de este artículo; no obs-tante, se ilustra el principio con un ejemplo sencillo.

Supongamos que se conocen los parámetros β1, β2,…,β6 de los seis ítems que se gracaron en la parte derechade la Figura 2  y que se desea estimar el parámetro θ

 p 

con base en las respuestas observadas de la persona p enestos ítems. La segunda y tercera columna de la Tabla 1 muestran para cada ítem los valores del parámetro dedicultad y la respuesta que dio la persona  p, respecti-

vamente. Al aplicar MLE se considera la probabilidad delas respuestas observadas bajo los supuestos del modelo.En la cuarta columna de la tabla, se incluye la Fórmu-la (4a) o (4b) en función de la respuesta en cada ítem;por ejemplo, para el primer ítem, la cual no se contestócorrectamente, la tabla aplica la Ecuación (4b). Nóteseque en este ejemplo el único parámetro desconocido enlas expresiones de la cuarta columna es θ

 p. La idea fun-

damental de MLE es que se consideran diferentes valorespara θ

 p  y, a continuación, se evalúa la probabilidad de

las respuestas observadas. Esta última probabilidad es unindicador de la plausibilidad del parámetro y se llama laverosimilitud  de θ

 p.

Las últimas columnas de la Tabla 1 muestran la verosi-militud para algunos valores ilustrativos de θ

 p. Se observa,por ejemplo, que θ

 p = 4 es más verosímil que θ

 p = 6 para la

respuesta observada en el primer ítem, mientras que parael segundo ítem la conclusión es al revés. Sin embargo,en vez de evaluar cada ítem por separado, se considerala verosimilitud del parámetro θ

 p para el patrón de res-

puestas: bajo el supuesto de independencia local, la ve-rosimilitud de θ

 p dada las respuestas en los seis ítems, es

el producto de las verosimilitudes de cada ítem. La últimala de la Tabla 1 ilustra el cálculo para los cuatro valoresde θ

 p; cada resultado es el producto de las seis probabili-

dades precedentes en la misma columna.Para examinar cómo la verosimilitud varía en función

de todos los posibles valores de θ p, se puede investigarla función de verosimilitud . La Figura 3 muestra que lafunción de verosimilitud para el ejemplo anterior llega asu máximo si θ

 p = 5.433. Esto quiere decir que 5.433 es

el más plausible entre todos los valores para θ p. Se dice

que θ p = 5.433 es la estimación por máxima verosimilitud

del parámetro θ p (se pone un sombrero arriba del símbo-

lo del parámetro para distinguir la estimación del valorverdadero).

En el contexto de estimar los parámetros de un mo-delo TRI, el problema resulta ser considerablemente máscomplejo debido a que se estiman simultáneamente múl-tiples parámetros. Sin embargo, la esencia del métodosigue siendo la misma que lo expuesto para el caso an-

terior simple: se busca una solución para los parámetrosdesconocidos que tenga máxima verosimilitud a la luz delos datos observados. Cabe mencionar que se han desa-rrollado diversas variantes de MLE, principalmente pararesolver algunos inconvenientes del método estándar. Porotro lado, en la última década ha incrementado sustan-cialmente el número de aplicaciones donde la estimaciónse realiza dentro del marco alternativo ofrecido por laestadística bayesiana.19

Para terminar esta sección, conviene señalar que elmodelo de Rasch en su formulación general sufre de unafalta de identicabilidad. Quiere decir que la solución delos parámetros no es única, que la función de verosimili-tud no tiene uno, sino varios máximos. Un simple análisis

^

Page 8: (AR)Virtudes y Limitaciones de La Teoría de Respuesta Al Ítem Para La Evaluación Educativa en Las Ciencias Médicas (2014)

8/15/2019 (AR)Virtudes y Limitaciones de La Teoría de Respuesta Al Ítem Para La Evaluación Educativa en Las Ciencias Médic…

http://slidepdf.com/reader/full/arvirtudes-y-limitaciones-de-la-teoria-de-respuesta-al-item-para-la-evaluacion 8/16

Virtudes y limitaciones de la teoría de respuesta al ítem para la evaluación educativa en las ciencias médicas 47

de la Ecuación (4) provee el argumento: la probabili-dad de acertar o fallar un ítem depende de los paráme-tros de la persona y del ítem únicamente a través de sudiferencia θ

 p − β

i. Por lo tanto, cuando se dispone de una

estimación de los parámetros (θ1, θ2,…, θN , β1, β2,…, β

n)

a partir de las respuestas de N  personas en n  ítems, sepuede construir otra solución sumando una constante c arbitraria a los parámetros de todas las personas y todoslos ítems, como sigue:

θ* p ← θ p + c

β*i ← βi + c

En este caso, la solución (θ1* , θ2*,…,θN* ,β1* ,β2*,…,βn* )produce las mismas probabilidades a través de la Ecua-ción (4) que la solución original, puesto que θ

 p*− β

i*= θ

 p − β

para cualquier combinación de una persona  p y un ítemi. Una forma común para resolver esta indeterminacióndel modelo consiste en añadir la restricción que la mediaaritmética de los parámetros β

i de los ítems sea 0.

Función de informaciónEl método de MLE que se introdujo en la sección anteriorproporciona una estimación puntual de los parámetros.En muchas ocasiones, es deseable tener también una in-dicación de la precisión de la estimación, por ejemplo,

en términos de un intervalo de conanza para el valorverdadero del parámetro. Un teorema en la teoría deMLE muy relevante al respecto dice que el valor de unparámetro estimado por máxima verosimilitud se puedeconsiderar aproximadamente como una extracción de unadistribución normal cuya media es el valor verdadero delparámetro y cuya varianza es el inverso de la función deinformación.20

La función de información se dene en términos delvalor esperado de la segunda derivada del logaritmo dela función de verosimilitud. Aplicado al parámetro θ enel modelo de Rasch, se puede derivar que la informaciónproporcionada por un test de n ítems para estimar θ seda por:

 (θ) = Σ  f i(θ)[1― f 

i(θ)]

n

i=1

Ι   (6)

donde f i(θ) se dene como en la Ecuación (5). El pro-

ducto en la suma del lado derecho,  f i(θ) [1 −  f 

i(θ)], se

llama la función de información del ítem i sobre el pará-metro θ (generalmente presentada por I

i(θ). El resultado

en la Ecuación (6) implica que la información proporcio-nada por el test en su totalidad es una suma simple delas informaciones proporcionadas por los ítems. Esto semuestra en la Figura 4, donde se representa la funciónde información para los seis ítems y del test en su totali-

dad para el ejemplo de la Tabla 1. Además, la gura ilus-tra que la función de información de cada ítem es máximacuando θ coincide con el parámetro de dicultad. Estoquiere decir que un ítem proporciona más informaciónpara estimar la habilidad de las personas cuyo paráme-tro se encuentra cerca del parámetro de dicultad delítem y menos para las personas que se encuentran lejosdel ítem en la dimensión latente. Extendiendo esta ideaal test en su totalidad, se concluye que proporciona más

Probabilidad de las respuestas observadas

Parámetro Respuesta Prob. respuesta   para algunos valores concretos de θp

´ I tem del ı́ tem observada Ecuación (4)   θp = 4.0   θp = 5.0   θp  = 5.5   θp  = 6.0

1   β1 = 4.249   X  p 1 = 0   11 + eθp −β1

  .562 .321 .223 .148

2   β2 = 3.279   X  p 2 = 1   eθp −β2

1 + eθp −β2  .673 .848 .902 .938

3   β3 = 1.627   X  p 3 = 1   eθp −β3

1 + eθp −β3  .915 .967 .980 .988

4   β4 = 6.014   X  p 4 = 1   eθp −β4

1 + eθp −β4  .118 .266 .374 .497

5   β5 = 7.235   X  p 5 = 0   11 + eθp −β5

  .962 .903 .850 .775

6   β6 = 3.620   X  p 6 = 1   eθp −β6

1 + eθp −β6  .594 .799 .868 .915

Verosimilitud   l (θp   ): .023 .051 .054 .048

Tabla 1. Ilustración del principio de estimación por máxima verosimilitud para estimar el parámetro θp

θp 1

 l 

2 3 4   5 6   7 8

(θp )

0.01

0.02

0.03

0.04

0.05

0.06

 ˆ θp  = 5.433

Figura 3. Función de verosimilitud para el parámetro θ p del ejem-

plo en la Tabla 1.

Page 9: (AR)Virtudes y Limitaciones de La Teoría de Respuesta Al Ítem Para La Evaluación Educativa en Las Ciencias Médicas (2014)

8/15/2019 (AR)Virtudes y Limitaciones de La Teoría de Respuesta Al Ítem Para La Evaluación Educativa en Las Ciencias Médic…

http://slidepdf.com/reader/full/arvirtudes-y-limitaciones-de-la-teoria-de-respuesta-al-item-para-la-evaluacion 9/16

Leenen I48

información para estimar los valores de θ que se encuen-tran entre las βi de los ítems.

El teorema mencionado al inicio de esta sección per-mite derivar intervalos de conanza para el parámetrode interés. Para calcular el intervalo de conanza aso-ciado con θ

 p = 5.433 en el ejemplo anterior, se considera

primero el error estándar de la estimación:

I(θ)

1σθ p ≈

^   (7)

Puesto que se desconoce el valor verdadero θ p  de

la persona p en el ejemplo, se utiliza el valor estimadoθ= 5.433 para calcular la información. Como se puede leeren la Figura 4, I(5.433) = 0.766, por lo cual

1 = 1.143

0.766

σθ p ≈^

A continuación, se utiliza el método común para de-rivar un intervalo de conanza para la media de una dis-tribución normal (con desviación estándar conocida); seobtiene el siguiente intervalo de 95% para el valor verda-dero del parámetro θ

 p en nuestro ejemplo:

  [θ p  ― 1.96 ×  σθ

 p

, θ p  + 1.96 × σθ p

]

≈[5.433 ― 1.96 × 1.143, 5.433 + 1.96 × 1.143]

=[ 3.193 , 7.673 ]

^ ^

Nótese que este intervalo de conanza es muy amplio,

lo cual se debe a que el ejemplo conformaba sólo seisítems.En aplicaciones reales, donde se desconocen los pará-

metros de los ítems (contrario al caso de nuestro ejem-plo), se reemplazan también los β

i  en la Ecuación (6)

por las respectivas estimaciones . Cuando se requierenintervalos de conanza para los parámetros β

i, se puede

aplicar un procedimiento similar a la que se acaba de pre-sentar para los θ

 p (aunque la función de información I(β)

es otra). Por otro lado, si se ha optado por una estimacióndentro del marco bayesiano, se examina la distribuciónposterior del parámetro de interés (y especícamen-te su varianza) para evaluar la precisión de las estima-ciones.

Dos modelos alternativos: el 2PL y 3PLEn esta sección se describen brevemente otros dos mode-los TRI, que relajan los supuestos del modelo de Rasch enel sentido que permiten que los ítems dieran en otra(s)característica(s) que sólo el parámetro de dicultad. Enotras palabras, en dichos modelos cada ítem se cuanticaen dos o tres parámetros, lo cual explica sus nombres: 2PL

(modelo logístico de 2 parámetros) y 3PL (modelo logísti-co de 3 parámetros).21 En muchos otros aspectos, como elsupuesto de unidimensionalidad e independencia local,el 2PL y 3PL son similares al modelo de Rasch.

El 2PL añade un parámetro de discriminación a cadaítem, el cual se representa por α

i. En el panel superior iz-

quierdo de la Figura 5, se representan las curvas caracte-rísticas de dos ítems, i y j, que tienen la misma dicultad(β

i = β

 j) pero que dieren en su parámetro de discrimi-

nación: α j > α

i. Se observa que la curva del ítem j es más

pronunciada cerca de su posición en el rasgo latente. Enparticular, comparando cualquier par de personas  p y q ,con parámetros θ

 p < β

i = β

 j < θ

q  (es decir, uno se encuentra

por debajo de los parámetros de dicultad, el otro por

encima), se cumple la siguiente desigualdad:

Pr( X qj = 1) − Pr( X 

 pj = 1) > Pr( X 

qi = 1) − Pr( X 

 pi = 1).

Esta expresión signica que, si los parámetros de di-cultad de dos ítems coinciden, entonces la diferenciaentre ambas personas respecto de su probabilidad deacertar los ítems es más grande en el ítem con mayorgrado de discriminación. En la gráca izquierda, la dife-rencia entre las probabilidades de acertar de las perso-nas  p  y q  es .769 − .289 = .480 en el ítem  j, pero sólo.630 − .401 = .229 en el ítem i. Efectivamente, el ítem j discrimina más entre (las probabilidades de acertar de)estas dos personas. De forma alternativa, la probabilidadde encontrar una diferencia entre las respuestas de am-bas personas (que uno acierte y el otro falle) es más gran-de en el ítem j que en el ítem i.

La ecuación matemática de la curva característica deun ítem i en el 2PL es la siguiente:

 f i(θ) = e

αi(θ―βi)

1 + eαi(θ―βi)

 

Para que  f i(θ) sea creciente, se añade la restricción

que αi  > 0. Alineado con la interpretación anterior, la

ecuación enseña que el parámetro de discriminación en-coge (si α

i < 1) o estira (si α

i > 1) la diferencia entre los

parámetros de la persona y del ítem. En el panel superiorderecho de la Figura 5, se gracan las curvas característi-cas de una familia de ítems que dieren tanto en dicul-tad como en discriminación.

El tercer parámetro para los ítems, que se introduceen el modelo 3PL, se suele denominar el parámetro deseudo-adivinación. Dicho parámetro, que se representapor γ

i, cambia la asíntota izquierda de la curva caracte-

rística: mientras que en el modelo de Rasch y el 2PL, laspersonas con una habilidad muy baja tienen (casi) nulaprobabilidad de acertar el ítem, en el 3PL está proba-bilidad se acerca a γ

i, donde γ

i satisface la restricción:

0 ≤ γi ≤ 1. La curva característica de un ítem i según el

3PL se da por:

 f i(θ) = γ

i + (1 ― γ

i) e

αi(θ―βi)

1 + eαi(θ―βi)

  (8)

θ0 1 2 3 4   5 6   7 8 9

Ι  ( θ)

0.20

0.40

0.60

0.80

1.00

Infoı́tem 1

Infoı́tem 2

Infoı́tem 3

Infoı́tem 4

Infoı́tem 5

Infoı́tem 6

I   n   f    o  r   m   a  c  i   ó   

n   d   e  l    t   e  s  t   

Figura 4. Función de información de los seis ítems de la Tabla 1,por separado y conjuntamente (del test en su totalidad) para es-timar el parámetro θ. La línea discontinua muestra la informacióndel test (I(θ) = 0.766) para un valor de θ = 5.433.

^

^

<  

Page 10: (AR)Virtudes y Limitaciones de La Teoría de Respuesta Al Ítem Para La Evaluación Educativa en Las Ciencias Médicas (2014)

8/15/2019 (AR)Virtudes y Limitaciones de La Teoría de Respuesta Al Ítem Para La Evaluación Educativa en Las Ciencias Médic…

http://slidepdf.com/reader/full/arvirtudes-y-limitaciones-de-la-teoria-de-respuesta-al-item-para-la-evaluacion 10/16

Virtudes y limitaciones de la teoría de respuesta al ítem para la evaluación educativa en las ciencias médicas 49

En la parte inferior de la Figura 5 se ejemplican unascurvas características típicas del 3PL. El panel izquierdoilustra el efecto del parámetro de seudo-adivinación com-parando dos ítems cuyos valores en los otros dos paráme-tros son iguales. Nótese que β

i en el 3PL ya no correspon-

de con la habilidad para la cual la probabilidad de acertares .50 (sino con la posición donde esta probabilidad es

.50 + γi / 2).Se suele interpretar γi como la probabilidad de acertar

el ítem i en caso de que se “desconozca la respuesta”, porlo cual este modelo parece ser adecuado para el análisisde ítems de opción múltiple, o bien, ítems que se puedenacertar adivinando, sin conocer la respuesta. Sin embar-go, la interpretación que se adhiere a un parámetro, porejemplo, interpretar γ

i en términos de “la probabilidad

de adivinar correctamente” no es parte (de la deniciónformal) del modelo. Es posible que las respuestas en unítem i se describan bien por la Ecuación (8), aunque laspersonas no adivinen, sino que, por ejemplo, hayan llega-do a la respuesta correcta con base en un razonamientoerróneo.22

En general, la interpretación de los parámetros en el2PL y 3PL es menos unívoca que en el modelo de Rasch.Por ejemplo, se mencionó anteriormente que Rasch im-plica que si β

i < β

 j, entonces el ítem i es más fácil que

el ítem j para todas las personas. En el 2PL, sin embar-go, esta interpretación no es necesariamente correcta,como se ilustra con los ítems 3 y 6 en la gráca en el

panel superior derecho de la Figura 5: a pesar de que elítem 6 tiene el parámetro de dicultad más grande queel ítem 3, la probabilidad de acertarlo es más alta  (esdecir, el ítem 6 es más fácil) para una parte signicati- va de la dimensión latente (en especíco, para las perso-nas con niveles altos en θ). En el 3PL, la interpretaciónes aún más confusa. Es posible que el ítem i  sea más

 fácil que el ítem j en términos de su parámetro de di-cultad (β

i < β

 j), sin embargo, que el ítem i sea más difícil 

en el sentido que su curva característica se encuentrepor debajo de ―o bien, la probabilidad de acertarlo seamás baja que― la del ítem j para todos los niveles de lahabilidad subyacente (para un ejemplo, compárense losítems 2 y 4 en el panel inferior derecho). Este tipo de

θ

f ( θ)

.00

.50

1.00

βi 

β j 

 i t  e m  i

i tem   j

αi   < α  j 

.401

.289

θp 

.630

.769

θq   θ

f ( θ)

.00

.50

1.00

β1   β2   β3   β4β5   β6

Curvas características en el modelo logístico de tres parámetros

Curvas características en el modelo logístico de dos parámetros

´ 

θ

f ( θ)

.00

.50

1.00

βi β j 

αi  =  α j 

γ i 

γ  j 

θ

f ( θ)

.00

.50

1.00

β1   β2β3   β4   β5   β6

Figura 5. Ejemplos de curvas características en los modelos logísticos de dos y tres parámetros.

Page 11: (AR)Virtudes y Limitaciones de La Teoría de Respuesta Al Ítem Para La Evaluación Educativa en Las Ciencias Médicas (2014)

8/15/2019 (AR)Virtudes y Limitaciones de La Teoría de Respuesta Al Ítem Para La Evaluación Educativa en Las Ciencias Médic…

http://slidepdf.com/reader/full/arvirtudes-y-limitaciones-de-la-teoria-de-respuesta-al-item-para-la-evaluacion 11/16

Leenen I50

consideraciones han sido objeto de un debate intenso afavor y en contra del 3PL.

Al terminar esta introducción de los modelos TRI bá-sicos, cabe señalar que el modelo de Rasch es un casoespecial del modelo 2PL, que se obtiene restringiendo losparámetros de discriminación a 1. Similarmente, el 2PL esun caso especial que se obtiene por la restricción de γ

i = 0

para cada ítem i. En la siguiente sección se considera labondad de ajuste de un modelo a los datos. La jerarquíaentre los tres modelos introducidos en esta sección im-plica que el modelo 3PL es más exible y generalmentetiene mejor ajuste a los datos, mientras que el modelo deRasch es el más exigente y fácilmente se rechaza. Comose explicó en el párrafo anterior, esta exibilidad vienecon el precio de una interpretación menos clara de losparámetros.

Análisis teórico de las diferencias entre am-

bos enfoques psicométricos

Desde un punto de vista teórico, las ventajas de la TRI sondifíciles de negar. Un análisis TRI generalmente propor-ciona información más detallada, más sosticada y con unsustento teórico más sólido. En esta sección se discutenbrevemente cuatro ventajas de la TRI sobre la TCT.

Interpretación de las puntuacionesEn la gran mayoría de los casos, el objetivo nal de unamedición es hacer inferencias sobre alguna habilidad abs-tracta o algún constructo subyacente a la prueba utiliza-da. Una pregunta que la TCT (en su formulación original)deja sin contestar es hasta qué grado la puntuación en laprueba contiene información sobre este constructo subya-cente. Incluso en el caso de que se midiese con exactitudla puntuación verdadera, no es claro qué conclusiones sepueden sacar sobre un constructo latente con base en elresultado obtenido; el modelo de la TCT simplemente noespecica la relación entre la habilidad latente que su-puestamente se mide y el resultado observado en el test.Los parámetros en los modelos TRI, por otro lado, tienenuna relación directa con la dimensión que se pretende me-dir, lo cual conlleva a una interpretación más clara de losresultados. Por ejemplo, θ coincide con (una cuantica-ción de) la habilidad abstracta subyacente a la prueba.

La falta de la especicación de la relación entre lapuntuación en el test y la habilidad que se pretende me-dir tiene, además de su relevancia teórica, varias impli-

caciones prácticas. En primera instancia, no es evidentecuál es el nivel de medición de la puntuación (observadao verdadera) de la TCT. Si, por ejemplo, la puntuación dela persona p en una prueba es mayor que la de la perso-na q , entonces ¿se puede concluir que  p tiene más de lahabilidad que mide el test que la persona q ? En la TCT, esmuy común calcular la puntuación en el test por la sumade puntuaciones en los ítems, la cual en el caso de ítemsbinarios corresponde con el número de respuestas correc-tas. Se puede derivar que, si los supuestos del modeloRasch son ciertos, entonces la respuesta a la pregunta an-terior es armativa: la puntuación obtenida por el númerode respuestas correctas reeja el orden entre las personasen la dimensión subyacente que se mide. Sin embargo,

si los ítems dieren en discriminación (como en el 2PL),es posible que una persona con una puntuación más altaque otra persona reciba una estimación más baja para suparámetro de habilidad. Con el mismo razonamiento, sepuede cuestionar incluso si las puntuaciones de la TCTcumplen con los requisitos más básicos de medición.

Una segunda implicación apunta al signicado de las

puntuaciones en la TCT con relación a algún estándar ocriterio de decisión. Los exámenes en México se apruebanusualmente al obtener el 60% de la calicación máxima,pero el enfoque tradicional de la TCT carece de ilación so-bre lo que “sabe” la persona que logra aprobar el examencon esta calicación. Los modelos de la TRI, al contrario,ponen las habilidades de las personas en la misma dimen-sión que las dicultades de los ítems y permiten concluircuáles son los ítems que una persona domina (donde “do-minar” tiene un signicado preciso; en el modelo Rasch,por ejemplo, se dice que una persona p domina un ítemi si θ

 p > β

i y entonces la probabilidad de que lo acierte

es mayor que .50). Es decir, a partir de un análisis TRI,

se obtiene información sobre el nivel de la persona en elconstructo subyacente en relación con los ítems incluidosen el test.

Chequeo y falsabilidad del modeloAlgunos autores han defendido la TCT reriéndose a losleves supuestos del modelo, que “no requieren evalua-ciones estrictas del ajuste a los datos”.23 Sin embargo, escuestionable abogar a favor del uso de un modelo (o unateoría cientíca en general) con el argumento de que haypocas posibilidades que los datos lo rechacen. La losofíade la ciencia (y especialmente el principio popperiano defalsabilidad) adopta una posición opuesta.24

Más fundamental es la objeción de que la teoría clá-sica (y especícamente el supuesto central de que ε p seextrae aleatoriamente de una distribución de probabili-dad y que su efecto en τ

 p es aditivo) no es comprobable.

Además, se ha reconocido que otros supuestos (menosesenciales) son poco realistas y/o se violan en la práctica(como el supuesto en la Ecuación 2 o el supuesto de que E  es independiente de T  en la Ecuación 1).25,26 Sin embargo,entre los usuarios de la TCT existe la cultura de no preo-cuparse por los supuestos del modelo y proceder como sifuesen correctos.

Los supuestos en la TRI, por otro lado, generalmenteson más exigentes y aunque se admite que ningún mode-lo es una representación perfecta del proceso cognitivo

que subyace a los datos, se considera esencial evaluar,a través de pruebas estadísticas de bondad de ajuste, sies justicable mantener el modelo como hipótesis paralos mismos. Comúnmente, ajustar un modelo TRI implicaun proceso iterativo: a partir de un modelo inicial, (a) seevalúa el ajuste global a los datos y en caso de que re-sulte inaceptable, (b) se aplican pruebas tendientes a ha-llar violaciones especícas, con base en las cuales (c) serealizan modicaciones precisas; después se regresa alpunto (a) hasta obtener un modelo nal con un ajuste sa-tisfactorio. En la siguiente sección se ejemplicará cómose pueden adaptar los modelos TRI para acomodar viola-ciones comunes en el contexto de la evaluación educativaen las ciencias de la salud.

Page 12: (AR)Virtudes y Limitaciones de La Teoría de Respuesta Al Ítem Para La Evaluación Educativa en Las Ciencias Médicas (2014)

8/15/2019 (AR)Virtudes y Limitaciones de La Teoría de Respuesta Al Ítem Para La Evaluación Educativa en Las Ciencias Médic…

http://slidepdf.com/reader/full/arvirtudes-y-limitaciones-de-la-teoria-de-respuesta-al-item-para-la-evaluacion 12/16

Virtudes y limitaciones de la teoría de respuesta al ítem para la evaluación educativa en las ciencias médicas 51

Error estándar de mediciónComo se discutió anteriormente (véase la Ecuación 2), laTCT añade a sus supuestos que el error estándar de me-dición es una constante para cualquier nivel de la pun-tuación verdadera. La TRI, por otro lado, permite que elerror estándar varíe en función de la habilidad subyacen-te (véase la Ecuación 7) y, efectivamente, evidencia que

la precisión asociada con una medición no  es constanteen toda la escala, sino menor a los extremos. Además,intuitivamente parece lógico que una medición sea menosconable en caso de una discordancia entre la dicultadglobal de la prueba y el nivel de la persona cuyo nivel sedesea medir (es decir, si la prueba es demasiado fácil odifícil).

Si el supuesto de un error estándar de medición parejono es correcto, la estimación de σ

E  (a través de, por ejem-

plo, una estimación de la conabilidad por el coecien-te α de Cronbach y una aplicación de la Fórmula 3) co-rresponde aproximadamente con la media de los erroresestándares individuales.25 Por lo tanto, para unas personas

el error estándar global es una subestimación de su errorestándar individual; para otras es una sobreestimación.En consideración de que la precisión de la medición en elcontexto de la evaluación educativa no es igualmente im-portante para todos los niveles en la escala ―subestimaruna calicación verdadera de 60% con 2% generalmentetiene implicaciones mucho más graves que cometer unerror del mismo tamaño cuando la calicación verdade-ra sea 82%―, conviene concentrar las fuerzas para queel error estándar se minimice alrededor de la(s) línea(s)divisoria(s) relacionada(s) con las decisiones que se pla-nean tomar con base en el instrumento.

Invarianza de los parámetros

La diferencia más saliente entre los dos enfoques princi-pales de la psicometría probablemente es la invarianza delos parámetros en la TRI. Quiere decir que, si los supues-tos de un modelo TRI se cumplen para una población depersonas y una población de ítems, entonces:

a. las propiedades de los ítems (es decir, sus pará-metros como dicultad y discriminación) o deuna prueba en su totalidad (por ejemplo, la fun-ción de información) no cambian al considerarloso aplicarlos en diferentes muestras de personas;las propiedades serían las mismas en una muestrade personas dotadas y una muestra de personasmenos capaces. En la TCT esto no es el caso: los

índices asociados con una prueba generalmenteson distintos en diferentes muestras de personas.Por ejemplo, la conabilidad suele ser más baja enun grupo de personas más homogéneo y el grado dedicultad de un ítem (el cual se dene, en el casode que la respuesta se codique de forma binaria,como la proporción de personas que lo acierta) esdiferente en grupos de personas capaces y menoscapaces.

b. los parámetros de las personas son los mismos in-dependientemente de la muestra de ítems que seincluyan en la prueba; no importa, por ejemplo,que la prueba tenga mayoritariamente ítems fá-ciles, o bien, difíciles, las θs de las personas son

idénticas en cualquier caso. Las característicasde las personas en la TCT ―más notablemente,sus puntuaciones verdaderas― no  son idénticasen diferentes pruebas: si la versión A de un exa-men incluye más preguntas fáciles que otra ver-sión B, las puntuaciones verdaderas de la versión Aserán más altas.

Es importante insistir en la interpretación correcta dela propiedad de invarianza de los parámetros en modelosTRI, ya que a veces publicaciones sobre el tema difundenuna interpretación errónea. La invarianza o la indepen-dencia de la muestra no implica que la estimación de losparámetros de los ítems sea independiente de la muestrade personas. Esto sólo es cierto para un subgrupo (impor-tante) de modelos TRI, a saber la familia de modelos tipoRasch, la cual además del modelo de Rasch introducidoanteriormente, incluye varios modelos que compartenlas propiedades especiales del modelo de Rasch (véaseel libro de Wright y Stone27 o el editado por Fischer y Mo-lenaar28 para una discusión más profunda). Además, in-

cluso para modelos tipo Rasch, aunque el valor esperadode la estimación de los parámetros es independiente dela muestra, la precisión de la estimación no lo es, comose mostró en la sección donde se introdujo la función deinformación.

Desde la perspectiva clásica es, en principio, imposi-ble separar la inuencia de la versión utilizada para unaprueba, por un lado, y la contribución de las personas,por otro lado, en las calicaciones obtenidas. Gracias ala invarianza de los parámetros de los ítems, la TRI per-mite comparar el rendimiento de distintos (grupos de) in-dividuos aunque contestaron diferentes versiones de unaprueba. Un tipo de aplicaciones que explota máximamen-te esta propiedad son los tests adaptativos informatiza-

dos (TAI).29 Lo típico de un TAI, para lo cual se requierenuna computadora equipada de un software especial y unbanco amplio de ítems calibrados, es que se estima elnivel θ de la persona después de cada  respuesta y quese elige entre los ítems restantes del banco el más ade-cuado (generalmente el más informativo condicional a laestimación actual de θ) para presentar como el siguiente.Las pruebas populares Test of English as Foreign Language (TOEFL) y Test of English for International Communica-tion (TOEIC) tienen una versión adaptativa.30

Los supuestos de modelos TRI vs. la realidad

de la evaluación educativa en medicina

En esta sección se reconsideran los supuestos de los mo-delos TRI básicos y se contrastan con las circunstancias enlas que se realizan las evaluaciones típicas en medicina.Ampliando la perspectiva y considerando las posibles so-luciones cuando un modelo muestra un ajuste decientea los datos, se pueden clasicar generalmente las solucio-nes en dos grupos, dependiendo de si se sitúa la causa delproblema en el modelo, o bien, en los datos. En el primercaso, la estrategia para remediar el mal ajuste consisteen modicar el modelo; en el segundo caso, se procedea la resolución del problema cambiando los datos, másespecícamente, eliminando ítems y/o personas con ín-dices de ajuste problemáticos. Ciertamente, un análisis

Page 13: (AR)Virtudes y Limitaciones de La Teoría de Respuesta Al Ítem Para La Evaluación Educativa en Las Ciencias Médicas (2014)

8/15/2019 (AR)Virtudes y Limitaciones de La Teoría de Respuesta Al Ítem Para La Evaluación Educativa en Las Ciencias Médic…

http://slidepdf.com/reader/full/arvirtudes-y-limitaciones-de-la-teoria-de-respuesta-al-item-para-la-evaluacion 13/16

Leenen I52

psicométrico puede revelar problemas especícos en al-gunos ítems, que después de un escrutinio más a fondo,puede llevar a la conclusión de que no son aptos, porejemplo, porque traen una interpretación ambigua. Asi-mismo, se puede justicar la eliminación de una personadespués de examinar a fondo sus respuestas al instrumen-to y constatar, por ejemplo, que no respondió con serie-

dad a la tarea.Sin embargo, demasiadas veces se consigue un ajuste

aceptable al modelo contemplado después de la elimina-ción de un porcentaje signicativo de los ítems, con lajusticación que tienen un “mal ajuste” o “valores extre-mos/inaceptables para los parámetros”. En general, esimportante tratar los datos “con respeto” y utilizar conmucha cautela la estrategia de dejar fuera del análisisparte de los datos para obtener un ajuste a un modeloestadístico. Comúnmente, a cada ítem en la prueba se leconcedió una importancia en la fase de la construcción dela prueba, por lo cual la eliminación de ítems generalmen-te afecta la validez de contenido. Aunque en casos muy

particulares las propiedades únicas de un modelo psico-métrico (como el modelo de Rasch) pueden justicar supreponderancia sobre los datos, en la mayoría de las apli-caciones el modelo es secundario a los datos. Es decir, si seencuentra un ajuste deciente para una parte signicativade las personas e ítems, casi siempre es más apropiadoreconsiderar el modelo en vez de censurar los datos.

En el resto de esta sección se discuten brevementealgunos modelos TRI alternativos que se han desarrolla-do precisamente para responder a las implicaciones quetienen ciertos contextos de evaluación educativa para lossupuestos de la TRI.

Adivinar aleatoriamente en ítems de opción múl-

tipleEn la práctica de la evaluación educativa, el 3PL es elmodelo estándar para analizar exámenes de opción múl-tiple desde la perspectiva de la TRI. Sin embargo, variosautores31,32 han criticado el supuesto inherente de que laprobabilidad de acertar un ítem adivinando (lo cual esla interpretación común del parámetro γ

i) únicamente

depende del ítem y es constante para todas las personas.Han argumentado que, en caso de que no se sepa la res-puesta, también las características de la persona -comosu nivel de habilidad- afectan qué tan atractivas le pa-recen las distintas opciones de respuesta. Por ejemplo,para una persona con un nivel muy  bajo en la habilidad

subyacente, las alternativas pueden parecer igualmenteatractivas, así que la probabilidad de acertar el ítem adi-vinando se acerca a 1/k (con k el número de opciones derespuesta); por otro lado, una persona de un nivel másalto, aunque no sepa la respuesta correcta, a lo mejorpuede identicar uno o más distractores (por lo cual seincrementaría la probabilidad de acertar adivinando),mientras que también es posible que una alternativa in-correcta engañe a personas de cierto nivel de habilidad(en cuyo caso, la probabilidad de acertar el ítem se dismi-nuiría). En resumen, es poco plausible suponer que la op-ción correcta atraiga igualmente a todas las personas queno saben la respuesta. San Martín y cols.32 presentaronevidencia que este supuesto del 3PL se viola más fácil en

preguntas que permiten que el conocimiento se manies-te de forma gradual.

Bock33 y Thissen y Steinberg34 propusieron alternativaspara el análisis de ítems de opción múltiple. Al asignar pa-rámetros a las distintas opciones de respuesta, estos mo-delos denen una curva característica para cada opción.La Figura 6 muestra para un ítem de cuatro alternativas

cómo varía la probabilidad de elegir cada opción en fun-ción de la habilidad θ. Observando la curva característicade la opción correcta, se nota que inicialmente la proba-bilidad de acertar el ítem disminuye conforme θ incre-menta, hasta cierto punto desde el cual la probabilidadde acertar se acerca a 1 para θ yendo a innito. Esta grá-ca ejemplica cómo las características de los distractoresconllevan a una curva característica fundamentalmentedistinta a la del 3PL.

Además de que representan mejor el proceso cogni-tivo de responder a un ítem de opción múltiple, los mo-delos mencionados anteriormente acarrean otra ventaja:aprovechan toda la información presente en los datos.

El 3PL no diferencia las respuestas en los distractores deun mismo ítem (analiza la información dicotomizadade respuesta correcta vs. incorrecta). Estudios han mos-trado que incluir esta información conlleva a una mejorestimación de la habilidad de las personas.35,36

UnidimensionalidadTodos los modelos examinados hasta ahora suponen quesólo un rasgo latente subyace a las respuestas observadas:para nes de la prueba estudiada, cada persona p se pue-de reducir a una posición θ

 p en la dimensión subyacente,

la cual se combina con los parámetros de los ítems paraconocer la probabilidad de acertarlos. Sin embargo, enpocas ocasiones la evaluación educativa de estudiantesen medicina (y en otras áreas) es unidimensional; general-mente, un examen sondea diversas subáreas en las cualeslas diferencias entre estudiantes se maniestan de formadistinta. Esto no es sólo el caso en exámenes que explí-citamente incluyen preguntas de diversas áreas clínicas yciencias básicas,37 sino también en exámenes de una asig-natura en particular y aun cuando cubren sólo parte de lamateria (como en los exámenes parciales).

θ

f   (θ)

.00

.50

1.00

Figura 6. Curvas características para un ítem de cuatro opcionesen el modelo para ítems de opción múltiple de Thissen y Stein-berg.34 La curva gruesa representa la opción correcta.

Page 14: (AR)Virtudes y Limitaciones de La Teoría de Respuesta Al Ítem Para La Evaluación Educativa en Las Ciencias Médicas (2014)

8/15/2019 (AR)Virtudes y Limitaciones de La Teoría de Respuesta Al Ítem Para La Evaluación Educativa en Las Ciencias Médic…

http://slidepdf.com/reader/full/arvirtudes-y-limitaciones-de-la-teoria-de-respuesta-al-item-para-la-evaluacion 14/16

Page 15: (AR)Virtudes y Limitaciones de La Teoría de Respuesta Al Ítem Para La Evaluación Educativa en Las Ciencias Médicas (2014)

8/15/2019 (AR)Virtudes y Limitaciones de La Teoría de Respuesta Al Ítem Para La Evaluación Educativa en Las Ciencias Médic…

http://slidepdf.com/reader/full/arvirtudes-y-limitaciones-de-la-teoria-de-respuesta-al-item-para-la-evaluacion 15/16

Leenen I54

Respecto de la TCT, cabe mencionar que este artículose limitó a la formulación original del modelo clásico yque no indagó en las contribuciones más recientes quehan propuesto soluciones para remediar algunos de losproblemas del modelo original. Aunque estas solucionesgeneralmente son parches ad hoc que no resuelven el pro-blema fundamental (por ejemplo, las fórmulas para deri-

var múltiples errores estándares de medición para la mis-ma población o los métodos para lograr una equiparaciónde las puntuaciones obtenidas en diferentes versiones deuna prueba), dos extensiones aportaron una perspectivadistinta al enfoque tradicional: la perspectiva del análi-sis factorial de los ítems en una prueba13  y la teoría dela generalizabilidad.45,46 La primera se acerca mucho a laTRI debido a que realiza un análisis a nivel de los ítemsy examina la estructura de una prueba apelando a unoo más factores subyacentes (que son conceptualmenteidénticos a los rasgos latentes en la TRI). La teoría dela generalizabilidad, por otro lado, extiende el modeloclásico examinando las posibles fuentes de variación y suscontribuciones relativas a los datos observados. En estesentido, explicita cómo pueden variar las condiciones enel experimento mental que se introdujo en la sección so-bre la teoría clásica.

Esperamos que este artículo haya aclarado que la TRIes una familia muy extensa de modelos, a pesar de quetocó nada más una selección muy limitada de los mismos.Por ejemplo, todos los modelos revisados (excepto losmodelos que analizan las k categorías de respuesta en laspreguntas de opción múltiple) son para datos binarios;existen extensiones de modelos para preguntas cuyas res-puestas se codican en múltiples categorías ordenadas eincluso para el caso de calicaciones continuas. Otros mo-delos que no se tocaron en este artículo incluyen los que

permiten el análisis de datos provenientes de múltiplesjueces (como por ejemplo en el examen oral largo antepaciente real, que es una de las alternativas para aprobarel examen profesional en la Facultad de Medicina), mo-delos para analizar datos longitudinales para investigarcambios en el rasgo latente durante el tiempo, y modelosmultidimensionales que permiten investigar las reglas dedecisión y los esquemas implícitos utilizados por los médi-cos (por ejemplo, los criterios necesarios y sucientes quellevan a los diagnósticos en ciertos contextos). El alcancede modelos TRI para el análisis de datos de evaluacióneducativo es virtualmente ilimitado.

Este artículo no prestó mucha atención a algunas limi-taciones prácticas de la TRI. Entre las más importantes se

encuentran las muestras más amplias que generalmentese requieren para obtener estimaciones estables para losparámetros; aunque el tamaño requerido por un modeloTRI generalmente depende de su complejidad y el númerode parámetros incluidos ―modelos con más parámetrosgeneralmente requieren muestras más grandes―, casisiempre la TRI resulta más exigente que la TCT al res-pecto. También la complejidad matemática y cuestionestécnicas (como el uso de programas especializados parala estimación) pueden disuadir a los investigadores que noson expertos en psicometría y poner trabas a la toma dedecisiones adecuadas en aplicaciones concretas.23

Concluyendo, cabe reconocer que se enfatizaron máslas diferencias que las similitudes entre los dos enfoques

psicométricos. Efectivamente, varios autores han buscadotender un puente entre los dos paradigmas.13,47,48 Especial-mente, la reconsideración del modelo clásico dentro dela perspectiva del análisis factorial llevó a cierta reconci-liación entre la TCT y la TRI y mostró, para modelos par-ticulares, que ambos enfoques pueden llegar a resultadosy conclusiones similares en aplicaciones prácticas y que

las diferencias se relacionan más con perspectivas losó-cas distintas.

Agradecimientos

El autor agradece a Florina Gatica Lara por sus sugeren-cias sobre una versión anterior y a Alma Jurado Núñezpor compartir sus ideas y reexiones que enriquecieronel texto actual.

Financiamiento

Ninguno. 

Conicto de intereses

El autor declara no tener ningún conicto de intereses.

Presentaciones previas

Ninguna.

Referencias

1. Spearman C. Demonstration of formulae for true measurementof correlation. Am J Psychol 1907;18:161–169.

2. Spearman C. Correlation calculated from faulty data. Br JPsychol 1910;3:271–295.

3. Guttman L. A basis for scaling qualitative data. Am Social Rev1944;9:139–150.

4. Lord F. A theory of test scores. Psychometric Monograph 7. Rich-mond, VA: Psychometric Corporation; 1952.

5. Rasch G. Probabilistic models for some intelligence and attain-ment tests. Chicago, IL: University of Chicago Press; 1980.

6. Abad FJ, Olea J, Ponsoda V, García C. Medición en ciencias socia-les y de la salud. Madrid, España: Síntesis; 2011.

7. Muñiz J. Introducción a la teoría de respuesta a los ítems. Ma-drid, España: Pirámide; 1997.

8. Muñiz J. Teoría clásica de los tests. 2a ed. Madrid, España: Pirá-mide; 2002.

9. Crocker L, Algina J. Introduction to classical and modern testtheory. New York, NY: Holt, Rinehart and Winston; 1986.

10. de Ayala RJ. The theory and practice of item response theory.New York, NY: Guilford; 2009.

11. Embretson SE, Reise SP. Item response theory for psychologists.Mahwah, NJ: Erlbaum; 2000.

12. Furr RM, Bacharach VR. Psychometrics: An introduction. Thou-sand Oaks, CA: Sage; 2008.

13. McDonald RP. Test theory: A unied treatment. Mahwah, NJ: Erl-baum; 1999.

14. Novick MR. The axioms and principal results of classical testtheory. J Math Psychol 1966;3:1–18.

15. Andrich D. Controversy and the Rasch model: A characteristic ofincompatible paradigms? Med Care 2004;42(S1):7–16.

16. Lord FM, Novick MR. Statistical theories of mental test scores.Reading, MA: Addison-Wesley; 1968.

17. Ip EH. Empirically indistinguishable multidimensional IRT and lo-cally dependent unidimensional item response models. Br J MathStat Psychol 2010;63:395–416.

Page 16: (AR)Virtudes y Limitaciones de La Teoría de Respuesta Al Ítem Para La Evaluación Educativa en Las Ciencias Médicas (2014)

8/15/2019 (AR)Virtudes y Limitaciones de La Teoría de Respuesta Al Ítem Para La Evaluación Educativa en Las Ciencias Médic…

http://slidepdf.com/reader/full/arvirtudes-y-limitaciones-de-la-teoria-de-respuesta-al-item-para-la-evaluacion 16/16

Virtudes y limitaciones de la teoría de respuesta al ítem para la evaluación educativa en las ciencias médicas 55

18. Aldrich J. R. A. Fisher and the making of maximum likelihood1912 – 1922. Stat Sci 1997;12:162–176.

19. Fox JP. Bayesian item response modeling: Theory and applica-tions. Nueva York, NY: Springer; 2010.

20. Mood AM, Graybill FA, Boes DC. Introduction to the theory ofstatistics. 3a ed. Nueva York, NY: McGraw-Hill; 1974.

21. Birnbaum A. Some latent trait models and their use in inferringan examinee’s ability. En: Lord FM, Novick MR, editores. Statisti-

cal Theories of Mental Test Scores. Reading, MA: Addison-Wesley;1968. p. 396–479.

22. Glas CAW, Verhelst ND. Een overzicht van itemresponsmodellen.En: Eggen TJHM, Sanders PF, editores. Psychometrie in de Prakti-jk. Arnhem, Holanda: Cito; 1993. p. 179–238.

23. Hambleton RK, Jones RW. Comparison of classical test theoryand item response theory and their applications to test develop-ment. Educ Meas Issues Pract 1993;12(3):38–47.

24. Echeverría J. Filosofía de la ciencia. 2a ed. Madrid, España: Akal;1998.

25. Raju NS, Price LR, Oshima TC, et al. Standardized conditio-nal SEM: A case for conditional reliability. Appl Psychol Meas2007;31:169–180.

26. Zimmerman DW, Williams RH. Chance success due to guessingand non-independence of true scores and error scores in mul-

tiple-choice tests: Computer trials with prepared distributions.Psychol Rep 1965;17:159–165.27. Wright BD, Stone MH. Best test design: Rasch measurement. Chi-

cago, IL: MESA; 1979.28. Fischer GH, Molenaar IW, editores. Rasch models: Foundations,

recent developments, and applications. Nueva York, NY: Sprin-ger-Verlag; 1995.

29. Olea J, Ponsoda V. Tests adaptativos informatizados. Madrid, Es-paña: UNED; 2013.

30. Olea J, Abad FJ, Ponsoda V, et al. eCAT-Listening: Design andpsychometric properties of a computerized adaptive test onEnglish Listening. Psicothema 2011;23:802–807.

31. Samejima F. A new family of models for the multiple choiceitem. Reporte de Investigación 79-4. Knoxville, TN: Universidadde Tennessee, Departamento de Psicología; 1979.

32. San Martín E, del Pino G, De Boeck P. IRT models for ability-basedguessing. Appl Psychol Meas 2006;30:183–203.

33. Bock RD. Estimating item parameters and latent ability whenresponses are scored in two or more nominal categories. Psycho-metrika 1972;37:29–51.

34. Thissen D, Steinberg L. A response model for multiple choiceitems. Psychometrika 1984;49:501–519.

35. Levine MV, Drasgow F. The relation between incorrect optionchoice and estimated ability. Educ Psychol Meas 1983;43:675–685.

36. Thissen DM. Information in wrong responses to the Raven Pro-gressive Matrices. J Educ Meas 1976;13:201–214.

37. Delgado-Maldonado L, Sánchez-Mendiola M. Análisis del examen

profesional de la Facultad de Medicina de la UNAM: Una expe-riencia de evaluación objetiva del aprendizaje con la teoría derespuesta al ítem. Inv Educ Med 2012;1:130–139.

38. Reckase MD. Multidimensional item response theory. Nueva York,NY: Springer; 2009.

39. Gibbons RD, Hedeker DR. Full-information item bi-factor analy-sis. Psychometrika 1992;57:423–436.

40. Rijmen F. Hierarchical factor item response theory models forPIRLS: Capturing clustering effects at multiple levels. En: vonDavier M, Hastedt D, editores. Issues and Methodologies in Large-Scale Assessments. vol. 4 of IERI Monograph Series. Hamburgo,Alemania: 2011. p. 59–74.

41. Chen CT, Wang WC. Effects of ignoring item interaction on itemparameter estimation and detection of interacting items. ApplPsychol Meas 2007;31:388–411.

42. Hoskens M, De Boeck P. A parametric model for local dependenceamong test items. Psychol Methods 1997;2:261–277.43. Wainer H, Kiely GL. Item clusters and computerized adaptive

testing: A case for testlets. J Educ Meas 1987;24:185–201.44. Wainer H, Wang X. Using a new statistical model for testlets to

score TOEFL. J Educ Meas 2000;37:203–220.45. Cronbach LJ, Gleser GC, Nanda H, et al. The dependability of

behavioral measurements: Theory of generalizability for scoresand proles. Nueva York, NY: Wiley; 1972.

46. Brennan RL. Generalizability theory. Nueva York, NY: Springer;2010.

47. Lord FM. Applications of item response theory to practical tes-ting problems. Mahwah, NJ: Lawrence Erlbaum; 1980.

48. Takane Y, de Leeuw J. On the relationship between item respon-se theory and factor analysis of discretized variables. Psychome-trika 1987;52:393–408.