Teoría Clásica de los Tests versus Teoría de Respuesta al Item

Psicoloacutegica (1994) 15 175-208

Teoriacutea Claacutesica de los Tests versus Teoriacutea de Respuesta al Item

iexcl Mariacutea Joseacute Navas

UNED Madrid

La deacutecada de los 80 ha sido testigo de la transicioacuten de la teoriacutea claacutesica de los tests a la teoriacutea de respuesta al item (Baker 1989) El presente trabajo tiene por objetO reflexionar acerca del papel que han jugado y juegan ambos modelos en el campo de la medida psicoloacutegica y educativa Para ello se realizaraacute en primer lugar un breve recorrido hisloacuterico por dichas teoriacuteas y se examinaraacute el modo en que abordan el problema baacutesico de la medida A continuacioacuten se analizaraacuten las semejanzas y diferencias middotque existel1 en aspectos como los supuestos en los que se basan el modo de evaluar la precisioacuten de la medida la dependenciaindependencia contextual de los paraacutemetros etc Por uacuteltimo se estudiaraacuten las respuestas que dan estas teoriacuteas a importantes problemas psicomeacutetricos como el estudio del sesgo la equiparacioacuten de puntuaciones y la construccioacuten de tcsts examinando para ello los tests referidos al criterio los tests a medida y los bancos de iexcltems

PALABRAS CLAVE Teoriacutea claacutesica de los tests teoriacutea de respuesta al item sesgo equiparacioacuten teSLlt referido~ al criterio tests a medida bancos de items

El campo de la medida ha avanzado de fOffi1a muy significativa durante los uacuteltimos 25-30 antildeos hasta el punto de que la medicioacuten psicoloacutegica y educativa es ahora maacutes uacutetil que nunca para individuos particulares instituciones y sociedad en general (Snow y Lohman 1989) Son muy numerosos los cambios que han acontecido en las uacuteltimas deacutecadas y estos cambios han resultado ser criacuteticos o dramaacuteticos (Yoes 1990) ya que ban supuesto un giro muy importante tanto en los modelos de medida como en el campo praacutectico de la evaluacioacuten

Un cambio sin duda fundamental ha sido la transicioacuten durante la deacutecada de los ochenta desde la Teoriacutea Claacutesica de los Tests (TCf) a la Teoriacutea de Respuesta al Item (TRI) Esta teoriacutea representa de hecho el mayor avance en la medicioacuten psicoloacutegica y educativa en los uacuteltimos antildeos y tiene actualmente un status hegemoacutenico dentro de la Psicometriacutea (Muntildeiz y Hambleton 1992)

176

177 MI Nayas

El objetivo del presente trabajo es examinar las semejanzas Ydiferencias entre el modelo claacutesico y los modelos de respuesta al item (Goldstein Y Wood 1989) Para ello en primer teacutennino se realizaraacute un breve recorrido histoacuterico por ambos modelos teoacutericos cuacuteando surgen Y en queacute contexto particular queacute difusioacuten han tenido y porqueacute Ademaacutes se analizaraacute coacutemo abordan el problema central de cualquier teoriacutea de tests la relacioacuten entre la actuacioacuten -observable- del sujeto en el test con la habilidad o rasgo -inobservable- que eacuteste pretende medir En segundo lugar se analizaraacuten las diferencias que existen entre la TCf y la TRI en relacioacuten a aspectos como los supuestos en los que se basa una Y otra el modo en el que se evaluacutea la precisioacuten de la medida la dependenciaindependencia contextual de los paraacutemetros de los modelos etc El tercer apartado estaacute dedicado a estudiar las respuestas que dan estas teoriacuteas a importantes problemas psicomeacutetricos como el estudio del sesgo de los items la equiparacioacuten de puntuaciones Y la construccioacuten de tests examinando para ello los Tests Rereridos al Criterio (TRC) los tests a medida y los bancos de items Para finalizar se haraacuten algunas reflexiones acerca del peso especiacutefico de estos modelos acerca de lo que han supuesto Y suponen realmente la TCT y la TRI en el campo de la medida psicoloacutegica y educativa

INTRODUCCION La TCf ha sido el modelo dominante en la teoriacutea de tests durante gran

parte de siglo y aun hoy en diacutea tiene una vigencia maacutes que notable en el campo de la praacutectica de la evaluacioacuten psicoloacutegica Y educativa Esta teoriacutea arranca de los trabajos pioneros de S pearman (1904 1907 1913) Y se desarrolla en conjuncioacuten con las teoriacuteas sobre la inteligencia No en vano Spearman no es soacutelo el padre de la TCf sino que es tambieacuten el primero en formular una teoriacutea psicoloacutegica de la inteligencia (Spearrnan 1923 1927)

A su vez los oriacutegenes de la TRI se pueden remontar a los trabajos de Thurstone en la deacutecada de los 20 Sin embargo a pesar de la aparicioacuten de trabajos esporaacutedicos en los antildeos 30 y 40 (Lawley 1943 1944 Richardson 1936 Tucker 1946) es en la deacutecada de los 50 y 60 cuando realmente emerge la TRI siendo un hito fundamental en la historia de estos modelos la publicacioacuten en 1968 del libro de Lord y Novick Statictical Theories ofMental Tests Scores que sentildeala el comienzo de la influencia de la TRI A partir de ese momento se multiplican los trabajos con estos modelos se ampliacutea cada vez maacutes su campo de aplicacioacuten aparecen monografiacuteas sobre el tema en las revistas maacutes importantes del aacuterea a la vez que crece considerablemente el nuacutemero de libros y manuales publicados Y se generaliza su uso en grandes empresas y compantildeiacuteas de tests asiacute como en los departamentos de educacioacuten de distintos paiacuteses y estados americanos (Goldstein 1987 Guion e Ironson 1983 Hambleton Swaminathan Arrasmith Gower Rogers y Zhou 1986 Messick Beaton y Lord 1983 Mislevy y Bock 1989 pandey y Carlson

Teoriacutea de lesls

1983 Raju Steinhaus Edwards y Delessio 1991 van Thiel y Zwarts 1986 Yen 1983)

No obstante a pesar de que los oriacutegenes de la TRI son soacutelo un poco posteriores a los de la TCf hay que esperar a la deacutecada de los 80 para asistir a la transicioacuten de la TCf a la TRI (Baker 1989) y es que por un lado la TRI se desarrolla en un contexto bastante diferente al de la TCf su desarrollo no se vincula a teoriacuteas de la inteligencia sino a problemas teacutecnicos en la construccioacuten de tests y en la estadiacutestica matemaacutetica (Embretson 1985) y por otro aunque las ideas no son nuevas el soporte matemaacutetico informaacutetico y tecnoloacutegico necesario para ser aplicada siacute lo es (Jaeger 1987) Es decir soacutelo recientemente se ha dispuesto de la tecnologiacutea necesaria de ordenador para implementar los algoritmos que pemiten estimar los paraacutemetros de estos modelos

Como sentildealan certeramente Gulliksen (1961) Y Lewis (1986) el problema central de la teoriacutea de tests es la relacioacuten entre la habilidad del sujeto y su puntuacioacuten observada en el tests el objetivo de cualquier teoriacutea de tests es realizar inferencias sobre el nivel en que los sujetos poseen la caracteriacutestica o rasgo inobservable que mide el test a partir de las respuestas que eacutestos han dado a los elementos que forman el mismo Es decir para medir o mejor dicho estimar las caracteriacutesticas latentes de los sujetos es necesario relacionar eacutestas con la actuacioacuten observable en una prueba y esta relacioacuten debe de ser adecuadamente descrita por una funcioacuten matemaacutetica

En efecto tanto la TCf como la TRI tratan de estimar o inferir una variable qqe no se puede observar directamente una variable latente la puntuacioacuten verdadera V -en la TCT- y el nivel 8 en el rasgo latente -en la TRI- No obstante conviene notar que V y 8 son el mismo rasgo o habilidad latente si bien expresados en escalas diferentes en distintas meacutetricas Realmente la diferencia entre el modelo claacutesico y los modelos de respuesta al item estriba en la ecuacioacuten que relaciona la variable inobservable con la actuacioacuten observable en el test En el caso de la TCT esta relacioacuten viene expresada por una funcioacuten lineal entre la puntuacioacuten verdadera de un sujeto

en el test y la puntuacioacuten que de hecho ha obtenido (X=V+E) En el caso de la TRI esta relacioacuten viene expresada por una funcioacuten no lineal entre el nivel del sujeto en el rasgo latente y las respuestas dadas a los items del test

n (V(8) = I P (8))

i =1 l middot Esta ecuacioacuten conocida como funcioacuten caracteriacutestica del test es ademaacutes la ecuacioacuten que permite pasar de la meacutetrica del paraacutemetro de habilidad en la TCf a la meacutetrica del paraacutenletro de habilidad en la TRI

En un intento de buscar la unidad subyacente a la diversidad de modelos del anaacutelisis multivariable McDonald (1986 1989) caracteriza a la TRI dentro de los modelos del factor comuacuten y considera que la TCT es solamente un caso especial de la teoriacutea del factor comuacuten Asimismo Weissmiddot (1983) sostiene que la TCf es un modelo de rasgo latente aunque un modelo muy sencillo (p 3) En definitiva lo que se quiere poner de

179

178 MJ Navas

manifiesto es que la TCf y la TRI pueden ser consideradas como teoriacuteas que se solapan parcialmente soacutelo que la TRI hace supuestos maacutes fuertes y obtiene por tanto resultados maacutes fuertes que la TCT Esta afirmacioacuten general sin embargo debe ser convenientemente matizada o puede inducir a error En efecto el hecho de imponer maacutes y maacutes fuertes restricciones a los datos redunda en la obtencioacuten de resultados tambieacuten maacutes fuertes pero a costa de incrementar (1) el tamantildeo muestral y (2) la complejidad matemaacutetica de las teacutecnicas usadas para la estimacioacuten de paraacutemetros Como sentildeala de forma muy graacutefica Muntildeiz (1992) la parsimonia y la sencillez del modelo lineal claacutesico lo hace apropiado en numerosas ocasiones en las que la maquinaria pesada de la TRI no puede maniobrar con eficacia (p 22) Y es que al basarse la TCT en supuestos deacutebiles eacutestos son satisfechos por la mayor parte de las matrices de datos obtenidas en la aplicacioacuten de tests Esta es la razoacuten que explica que el modelo claacutesico haya sido aplicado a una gran variedad de problemas de construccioacuten de tests y de anaacutelisis de sus puntuaciones

DIFERENCIAS EN LOS MODELOS

Uno de los aspectos que ha recibido numerosas criacuteticas en el modelo claacutesico se relaciona precisamente con los supuestos de los que parte ya que no son falsables sino que tienen un caraacutecter claramente tautoloacutegico (Hambleton y van der Linden 1982 Warrn 1978) Esta deficiencia es superada por los modelos de la TRI puesto que sus supuestos siacute son susceptibles de comprobacioacuten empiacuterica

Uno de los supuestos maacutes criticados es el de la independencia de las puntuaciones verdaderas y el error supuesto que ya intuitivamente resulta bastante cuestionable Lo que este supuesto viene a decir es que la precisioacuten de la medida es independiente de la habilidad del sujeto o del nivel que eacuteste muestra en el rasgo o caracteriacutestica evaluados Este punto conduce directamente al segundo aspecto que ha sido seriamente cuestionado en la TCf la evaluacioacuten de la precisioacuten de la medida

Los dos iacutendices baacutesicos de precisioacuten de la medida en la TCT son el error tiacutepico de medida y la fiabilidad del test

El problema que plantea el error tiacutepico de medida es doble Por un lado se define para un test global no para cada item particular y por otro la TCT supone que es el mismo para todos los niveles del rasgo latente evaluado supone que la varianza error es homocedaacutestica en todos los niveles de e

Por lo que respecta a la fiabilidad hay que sentildealar que seguacuten Weiss y Davinson (1981) la mayor debilidad de la TCT reside en el hecho de que las estimaciones de la fiabilidad son especiacuteficamente una funcioacuten del conjunto particular de items y de la muestra de sujetos sobre la que han sido recogidos los datos razoacuten por la cual su generalizabilidad resulta bastante limitada Ademaacutes este caraacutecter dependiente del grupo puede dar lugar a inconsistencias importantes

Teoria de tests

En efecto si se evaluacutea a un mismo sujeto con un mismo test en dos ocasiones distintas con muestras diferentes de sujetos -aunque el patroacuten de respuestas del individuo en cuestioacuten se puede Suponer que es el mismo- el error cometido al evaluar a dicho sujeto seraacute distinto en las dos ocasiones y los valores estimados para su puntuacioacuten verdadera tambieacuten diferiraacuten ya que el coeficiente de fiabilidad seraacute distinto al modificarse la variabilidad de las muestras La siguiente cita de van der Linden (1986) ilustra eacutesta y otras inconsistencias posibles generadas en el marco de la TCf

En principio para cualquier dominio de conocimiento o habilidad se pueden disentildear multitud de items diferentes De este modo todos los tests se seleccionan de un dominio virtualmente infinito de items Dado que son posibles muchas selecciones de items y cada una de ellas tiene el mismo derecho a ser considerada como el el test estandard surge un serio problema la teoriacutea claacutesica de los tests proporciona distintas escalas de

middot1 puntuaciones verdaderas en distintos tests Incluso es posible que las distintas I

I escalas ordenen de forma diferente a la misma poblacioacuten de sujetos En tal

I caso la asignacioacuten de puntuaciones en un test estandard no puede seguir siendo condiderada como un intento serio de medida (pp 327-8)

Otros problemas que se plantean al modelo claacutesico en relacioacuten al concepto de fiabilidad son por un lado el hecho de que su definicioacuten se apoya en gran medida en la disponibilidad de medidas paralelas y tal Como se sentildealan Hambleton y van der Linden (1982) eacutestas son bastante difiacuteciles de obtener en la praacutectica y por otro lado el coeficiente de fiabilidad sugiere un modo de seleccionar items para construir tests contradictorio en algunos aspectos con el sugerido por el coeficiente de validez (Rubin y Babbie 1989)

Todas estas deficiencias conducen a autores como Samejima (1977) a concluir que la fiabilidad es un concepto muerto en la teoriacutea de tests (p 243) oacute a Lumsden (1976) a afim1ar que no tiene sentido continuar prolongando la vida de la puntuacioacuten verdadera y del coeficiente de fiabilidad definidos seguacuten el modelo claacutesico como conceptos de la teoriacutea de tests (p 261)

La alternativa que ha planteado la TRI a la fiabilidad definida seguacuten el I modelo claacutesico es la fiabilidad como informacioacuten En efecto la funcioacuten de informacioacuten del item (y del ~est) son medidas locales de fiabilidad (BoekkooishyTimminga y van der Linden 1988) que especifican la precisioacuten con la que el item (o el test) mide cada una de los posibles valores de la escala e de habilidad Es decir la funcioacuten de la infom1acioacuten a diferencia del error tiacutepico de medida variacutea a lo largo de la escala e pero no depende de la muestra de sUjetos que ha respondido a los items del test en cuestion sino uacutenicamente de los items que lo integran Ademaacutes es posible evaluar la contribucioacuten

i indivi~ual de cada item a la precisioacuten total del test lo que permitiraacute seleCCIonar los tems de un modo no contradictorio con otros criterios tambieacuten

imprantes e~ la construccioacuten de tests (no se produciraacute un choque entre fiablhdad y validez Como en el modelo claacutesico)

180

181 MJ Navas

Ahora bien la caracteriacutestica que diferencia radicalmente la TCf de la TRI es el caraacutecter dependienteindependiente de los paraacutemetros del modelo (Bock y Wood 1971 Gulliksen 1986 Hambleton Y Swaminathan 1985 Wright 1968) En la TCT los paraacutemetros de los sujetos Y de los items dependen respectivamente de las caracteriacutesticas de los items del test Y de la muestra de sujetos a la que eacuteste ha sido aplicado El valor de la variable medida depende del instrUmento utilizado para medirla y a su vez las carecteriacutesticas de dicho instrUmento por las de la muestra de sujetos a la que eacuteste fue aplicado Como sentildealan Muntildeiz y Hambleton (1992) si se aspira a una medicioacuten rigurosa y cientiacutefica resulta difiacutecil justificar que las mediciones esteacuten enfuncioacuten del instrUmento utilizado (p 44) Por el contrario en la TRI los paraacutemetros del item son independientes de la habilidad de los sujetos utilizados en su estimacioacuten y el nivel de un sujeto en el rasgo latente no depende de los items concretos que se han utilizado para estimarlo Es justamente la invarianza de los paraacutemetros del modelo en la TRI lo que permite abrir nuevas perspectivas en la teoriacutea de tests ya que se va a poder dar respuesta a cuestiones que la TCT no podiacutea responder adecuadamente

(Lord 1980) Una cuestioacuten interesante que tambieacuten emerge de este caraacutecter

dependiente o independiente de los paraacutemetros tiene que ver con el significado e interpretacioacuten de la escala de puntuacienes con la que se trabaja En el caso de la TCT la muestra en la que se estiman los paraacutemetros de los items se asume representativa de la poblacioacuten de sujetos a la que posteriormente se va a aplicar el test y por consiguiente se utiliza como grupo de referencia o norma con la que se compararaacuten las puntuaciones obtenidas en la prueba por otroS sujetos Por tanto el significado de la escala de puntuaciones asiacute generada tiene un caraacutecter absoluto en su origen y unidad de medida Por el contrario en la TRI la escala e es invariante respecto al conjunto de items utilizados para estimar el rasgo latente pero es arbitraria ya que su origen y unidad de medida no estaacuten determinados no son fijos sino que variacutean de una aplicacioacuten a otra por lo que soacutelo tienen sentido las comparaciones entre sujetos (o entre items) aunque tambieacuten ofrece posibilidades muy interesantes para interpretaciones referidas a la norma muy uacutetiles en audiencias no profesionales

DIFERENCIAS EN LA RESPUESTA A PROBLEMAS APLICADOS

Son muchos los autores que subrayan la capacidad de los modelos de la TRI para dar soluciones potentes a una gran variedad de problemas psicomeacutetricos aplicados (Hambleton y Swaminathan 1985 Harrison 1986 Lord 1980 Weiss 1983) Como sentildeala este uacuteltimo autor una de las grandes aportaciones de la TRI es su capacidad de aplicacioacuten a situaciones praacutecticas de medida que resultaban ciertamente problemaacuteticas desde la pespectiva claacutesica

I 1

I

TeorIacuteLl de tests

En este apartado se trataraacute de ilustrar de forma breve algunas de las aplicaciones maacutes interesantes de la TRI poniendo especial eacutenfasis en aquellas en las que esta teoriacutea realiza una aportacioacuten novedosa a los planteamientos del modelo claacutesico Concretamente se comentaraacuten las aplicaciones de la TRI en el estudio del sesgo en la equiparacioacuten de puntuaciones y en la construccioacuten de tests

Sesgo middot En la actualidad los meacutetodos de estudio del sesgo basados en la TRI

son muy populares y son los meacutetodos preferidos des~e el punto de vista teoacuterico por muchos investigadores (Mellenbergh 1982Shepard Camilli y Averill 1981 Shepard Carnilli y Williams 1984 1985) Si se defme como itemo test sesgado aqueacutel que da lugar a medidas distintas en sujetos con el mismo nivel en el rasgo o variable medida por el item o el test resulta bastante obvio que la TRI tiene algo que decir sobre la cuestioacuten En efecto un item estaraacute sesgado si su curva caracteriacutestica es distinta para diferentes grupos de sujetos un item estaacute sesgado si es distinta la probabilidad que tiene un sujeto de responder correctamente seguacuten penenezca a un grupo u otro supuesto que su nivel en la escala e sea el mismo Esta definicioacuten de sesgo con la que opera la TRI engancha directamente con las definiciones maacutes comuacutenmente aceptadas se define el sesgo como dimensionalidad respecto al grupo (Ackerman 1993) como una violacioacuten de la independencia condicional (Mellenbergh 1985 1989 Oon 1992) o como funcionamiento diferencial del item Este uacuteltimo teacutermino se estaacute imponiendo cada vez maacutes en la literatura sobre el teacutermino tradicionalmente utilizado sesgo ya que parece maacutes adecuado para distinguir la evidencia empiacuterica de la existencia de un rendimiento diferencial necesario -impacto- de la conclusioacuten de que el item o el test estaacuten sesgados Precisamente eacutesta es una de las criacuteticas fundamentales que se hace a los meacutetodos de la TCT para estudiar el sesgo su incapacidad para manejar adecuadamente las diferencias reales en habilidad entre los grupos de intereacutes Como sentildealan claramente Hunter (1975) Lord (1977) y Peterson (1977) los meacutetodos claacutesicos pueden confundir las diferencias reales en la habilidad media de los grupos con el sesgo

Los meacutetodos usados por la TCT para la deteccioacuten del sesgo son dos y se basan en los paraacutemetros fundamentales del item en esta teoriacutea el meacutetodo delta (Angoff 1972 Angoffy Ford 1973 Angoffy Sharon 1974) basado en las diferencias en el paraacutemetro de dificultad obtenido en cada grupo y el meacutetodo de la discriminacioacuten (Green y Draper 1972 Ozenne van Gelder y Cohen 1974) basado en las diferencias en la correlacioacuten biserial puntual obtenida en cada grupo

El problema que plantea el uso del meacutetodo delta es que no tiene en cuenta la discriminacioacuten del item lo que supone que en presencia de grupos con distinta habilidad se va a confundir la discriminacioacuten con el sesgo las diferencias en discriminacioacuten crean diferencias en el valor de la dificultad del item en los grupos y eacutestas son interpretadas erroacuteneamente como indicadores

182 MJ Navas Teoriacutea de testsI 183

del sesgo Y es que el paraacutemetro de dificultad del item en la TCf es tanto una medida de la actuacioacuten del grupo como una caracteriacutestica del item En definitiva el meacutetodo delta produce evidencia espuacuterea de sesgo a no ser que todos los items tengan la misma capacidad discriminativa o que los grupos comparados tengan una habilidad media similar Angoff (1982) propone una modificacioacuten del meacutetodo para corregir estas fuentes de error Shepard Camilli y Williams (1985) comparan este iacutendice modificado con otros iacutendices de sesgo habitualmente utilizados y concluyen que su eficacia es similar a la

2 del iacutendice X para identificar sesgo conocido cuando se trabaja con tamantildeos muestrales pequentildeos (N ~ 300)

El problema que plantea el uso del meacutetodo de la discriminacioacuten es obviamente el mismo que el sen alado para el meacutetodo delta cuando los grupos difieren en habilidad Ironson y Subkoviak (1979) y Merz y-Grossen (1979) comparan este ineacutetodo con otros iacutendices y concluyen que es claramente inadecuado en la deteccioacuten del sesgo

Los meacutetodos basados en la TRI superan a los meacutetodos claacutesicos por varias razones En primer lugar la invarianza de los paraacutemetros del modelo en la TRl hace que sea mucho menos probable la confusioacuten entre diferencias reales en habilidad y sesgo En el caso de la TRI el paraacutemetro de dificultad del iacutetem estaacute en la misma escala que el paraacutemetro de habilidad pero no se relaciona en modo alguno con la actuacioacuten del grupo En segundo lugar los meacutetodos de la TRI examinan el funcionamiento diferencial del item a lo largo de toda la escala e de habilidad y no en el punto que corresponde a la habilidad media de los grupos implicados en el estudio En tercer lugar la TRI estudia el sesgo condicionado al nivel de habilidad de los sujetos de la muestra pero condicionado al nivel real no al observado en la habilidad o rasgo medido por el test

Como ya se ha sentildealado anteriornlente la idea baacutesica en estos meacutetodos es calcular y comparar laacute curva caracteriacutestica del item (CCI) en los grupos de intereacutes (Rudner 1977) La comparacioacuten de las curvas obtenidas se puede realizar de distinta forma Un modo habitual consiste en calcular el aacuterea existente entre las curvas bien el aacuterea total (Hambleton y Rogers 1989a Kim y Cohen 1991 Raju 1988 1990 Rogers y Hambleton 1989) bien las diferencias al cuadrado entre las probabilidades de una respuesta correcta para cada valor de la escala e (Linn Levine Hastings y Wardrop 1981) bien esas diferencias ponderadas por la varianza error de dicha probabilidad Seguacuten Shepard Camilli y Williams (1984) este uacuteltimo iacutendice es el maacutes adecuado para cuantificar las diferencias entre las CCIs de los distintos grupos

Otra posibilidad es comparar no directamente las curvas sino los paraacutemetros que las caracterizan comparar los valores de los paraacutemetros de los items obtenidos en uno y otro grupo probar la hipoacutetesis nula de igualdad de las CCIs (Hulin Drasgow y Komocor 1982 Lord 1977 1980 Mellenbergh 1972 Wright Mead y Draba 1976) Ademaacutes de estadiacutesticos

I para probar dicha hipoacutetesis la TRI dispone de otros iacutendices para evaluar el tamantildeo del sesgo encontrado MeIlenbergh (1989) hace una presentacioacuten sistemaacutetica y clara de los estadiacutesticos e iacutendices maacutes comuacutenmente utilizados Las limitaciones de esta aproximacioacuten se relacionan con el recurso a pruebas estadiacutesticas de significacioacuten en tamantildeos muestrales grandes habitualmente

requeridos para un uso adecuado de los modelos de la TRI

Otra aproximacioacuten muy fructiacutefera en la comparacioacuten de las CCIs es la que utiliza el recurso a una liacutenea base que ayude en la interpretacioacuten de los resultados obtenidos al comparar las CCfs de los grupos de intereacutes La liacutenea base se define (1) mediante la construccioacuten de la distribucioacuten muestra del estadiacutestico utilizado como indicador de sesgo a partir de dos submuestras aleatorias extraiacutedas de un mismo grupo (Linn y Harnish 1981) oacute (2) mediante la simulacioacuten de la distribucioacuten muestral en el supuesto de que no existe sesgo (Hambleton Rogers y Arrasmiacuteth 1986 Rogers y Hambleton 1989) oacute (3) comparando las CCIs obtenidas en submuestras aleatorias extraiacutedas bien del grupo mayoritario bien del grupo minotario bien de ambos (Shepard Camilli y WilIiams 1984 Wilson-Burt Fitzmatin y Skaggs 1986) La ventaja que presenta la simulacioacuten es que no es necesario reducir la muestra a la mitad y dadas las exigencias en cuanto a tamantildeo muestra de los modelos de la TRI eacutesta es una ventaja a tener en cuenta

I Un uacuteltimo meacutetodo a destacar dentro de los meacutetodos basados en la TRI

para el estudio del sesgo es el propuesto por Linn y Harnish (1981) y conocido como pseudomeacutetodo de la TRI Muy brevemente este meacutetodo consiste en lo siguiente en el grupo minoritario se compara la CCI teoacuterica obtenida en el grupo combinado Con la CCf empiacuterica obtenida en el grupo

minoritario concluyendo que el item estaacute insesgado si ambas curvas son - parecidas Shepard Camilli y Williams (1985) sostienen que eacuteste debe de ser el meacutetodo de eleccioacuten cuando el tamantildeo muestral de uno de los grupos es pequentildeo

El cuadro pintado hasta ahora presenta a los meacutetodos basados en la TRI no soacutelo como los preferidos desde el punto de vista teoacuterico sino tambieacuten como meacutetodos muy adecuados para la deteccioacuten del sesgo Ahora bien no estaacuten exentos de problemas Ya se ha sentildealado una de las cuestiones maacutes espinosas que tienen planteados estos modelos y es la relativa a los grandes tamantildeos muestrales necesarios para garantizar la adecuacioacuten en el funcionamiento de estos meacutetodos (Hoover y Kolen 1984) Ademaacutes la utilizacioacuten de la TRI Supone el recurso a procedimientos sofisticados y co~tosos desde el punto de vista computacional que pueden limitar senamente su uso Otro problema importante tiene que ver con la incidencia que pueden tener la variaciones muestrules en la estimacioacuten de paraacutemetros es posible que las diferencias observadas cntre las CCIs de los grupos se deban a no la existenci~ de sesgo en el item en cuestioacuten sino a que el error de estImaCIoacuten cometldo en uno y otro grupo es sencillamente distinto Este problema se puede acentuar ademaacutes si los grupos de intereacutes difieren notablemente en su habilidad media Una uacuteltima cuestioacuten que no puede ser

185

184 MJ Navas

obviada es la posible introduccioacuten de error como consecuencia de la equiparacioacuten -absolutamente necesaria- de las estimaciones de los paraacutemetros obtenidas en uno y otro grupo (Cole y Moss 1989)

Toda esta problemaacutetica hace inevitable una referencia a meacutetodos que constituyen una aproximacioacuten a los meacutetodos basados en la TRI como son los

2 meacutetodos de X (Camilli 1979 Scheuneman 1979) el modelo logit (Mellenbergh 1982 van der Flier Mellenbergh Ader y Wijn 1984) el meacutetodo Mantel-Haenszel (Holland y Thayer 1986 1988) la medida omnibus (Johnson 1989) y el modelo de regresioacuten logiacutestica (Swaminathan y Rogers 1990) Aunque posiblemente el meacutetodo maacutes profusamente utilizado

2 es el de X el que estaacute recibiendo uacuteltimamente maacutes atencioacuten es el meacutetodo de Mantel-Haenszelya que comparte con los meacutetodos basados en la TRI algunas de sus caracteriacutesticas maacutes deseables pero no comparte la mayor parte de las dificultades que eacutestos presentan Si a esto se antildeade su simplicidad conceptual la disponibilidad de pruebas de significacioacuten y se considera ademaacutes que hay estudios que ponen de manifiesto que existe un acuerdo importante entre los resultados obtenidos con este meacutetodo y con los meacutetodos basados en la TRI (Hambleton y Rogers 1989a Hambleton Rogers y Arrasmith 1988) resulta patente que estos uacuteltimos meacutetodos han encontrado un competidor serio en el meacutetodo de Mantel-Haenszel

Equiparacioacuten El proceso de equiparacioacuten de puntuaciones es un proceso fundamental

cuando se trabaja con distintos instrumentos de medida ya que representa el medio baacutesico de que se dispone para poder garantizar la adecuada comparacioacuten de las puntuaciones obtenidas en distintas pruebas es el proceso que permite el desarrollo de una conversioacuten del sistema de unidades de un test al sistema de unidades de otro (Angoff 1984)

Tradicionalmente la TCT ha utilizado dos meacutetodos muy sencillos pero eficientes en algunas situaciones de equiparacioacuten el meacutetodo lineal yel meacutetodo equipercentil Skaggs y Lissitz (1986a) hacen una exhaustiva revisioacuten de la literatura sobre equiparacioacuten de puntuaciones y sentildealan que los meacutetodos claacutesicos funcionan muy bien en situaciones de equiparacioacuten horizontal es decir con tests de dificultad similar y con inuestras de sujetos con un nivel parecido en la habilidad medida por los tests Ahora bien eacutesta es soacutelo una de las muchas situaciones que se pueden plantear a la hora de equiparar puntuaciones

Este no es sin embargo el mayor inconveniente de los meacutetOdos de la TCT en este campo sino que eacuteste radica en las condiciones que la TCf impone a los tests para que sus puntuaciones puedan ser equiparadas simetriacutea invarianza y equidad (equity ) El problema que se plantea con estos requisitos es que tal como sentildeala Lord (1980 1982) las puntuaciones de los tests soacutelo pueden satisfacer estos criterios cuando no hay necesidad de

Te(lriacutea de tests

I equiparacioacuten En efecto si se admite que el proceso de equiparacioacuten debe ser tal que para sujetos con la misma habilidad debe ser indiferente realizar un test u otro estaacute claro que los tests deben ser bien perfectamente fiables bien formas estrictamente paralelas en la acepcioacuten fuerte del teacutermino (Samejima 1977) Por consiguiente una equiparacioacuten estricta s610 es posible cuando es innecesaria (Muntildeiz 1990) y es que las condiciones formuladas especialmente la de equidad son muy difiacuteciles de cumplir utilizando meacutetodos iexcl claacutesicos de equiparacioacuten

La gran ventaja que presenta trabajar con modelos de la TRI es que dentro de este marco se obvia la necesidad de equiparar las puntuaciones de los tests por la propiedad de invarianza de los paraacutemetros del modelo No es necesario equiparar las puntuaciones de dos sujetos que han realizado tests distintos porque el paraacutemetro de habilidad e es invariante respecto al conjunto de items utilizados en su estimacioacuten Por esta razoacuten hay autores como Cook y Eignor (1983) Hambleton Swaminathan y Rogers (1991) y Kolen (1988) que prefieren hablar de escalamiento para lograr comparabilidad en vez de equiPantcioacuten la escala e es invariante pero arbitraria por lo que es necesario escalarla determinar su origen y unidad de medida

Ademaacutes de superar las condiciones exigidas por la TCT para la equiparacioacuten la TRI posibilita la equiparacioacuten de puntuaciones en situaciones en las que eacutesta no era posible trabajando con la TCT

Uno de los supuestos impliacutecitos en la condicioacuten de equidad es que los tests deben de tener la misma fiabilidad lo que a su vez implica que stricto sensu soacutelo se pueden equiparar tests Con niveles semejantes de dificultad (si variacutea el nivel de dificultad los tests no mediraacuten con la misma precisioacuten en todos los pUntos de la escala de habilidad) lo que excluye automaacuteticamente a los meacutetodos claacutesicos Como meacutetodos de eleccioacuten en situaciones de equiparacioacuten vertical Ahora bien su inadecuacioacuten a priori para este tipo de situaciones no significa que no se hayan utilizado (Harris 1991 Kolen 1981 Marco Petersen y Stewart 1983 Patience 1981) pero los trabajos realizados confirman que se trata de meacutetodos poco vaacutelidos -especialmente el meacutetodo lineal- para equiparar las puntuaciones de tests con distinto nivel de dificultad (Skaggs y Lissitz 1986b) o incluso con distinto contenido o longitud (Peterson Cook y Stocking 1983) Sin embargo si se cumplen los supuestos del modelo los meacutetodos de equiparacioacuten de la TRI siacute deberiacutean de funcionar bien en todas las combinaciones de diferencias en la dificultad del test y en la habilidad de los grupos (Cook Y Eignor 1983 1989)

Como ya se indicoacute en situaciones de equiparacioacuten horizontal los meacutetodos d~ la TCT funcionan muy bien si los grupos de sujetos alos que se les hll aplIcado las pruebas tienen niveles de habilidad similares el panorama cambIa conforme van variando en dificultad las formas del test y en habilidad los grupos de sujetos

Marco Petersen y Stewart (1983) llevan a cabo un estudio de equiparacioacuten en el que manipulan distimas variables -nivel de dificultad de los

187

186 MI Navas

tests nivel de habilidad de las muestras tipo de test de anclaje y tipo de criterio- y concluyen que en las situaciones de equiparacioacuten horizontal la TCf y la TRI proporcionan resultados similares soacutelo cuando se trabaja con muestras aleatorias de sujetos Este estudio confirma lo ya apuntado por Kolen y Whitney (1982) Lord (1975) y Marco Petersen y Stewart (1980) la similitud entre la TCT y la TRI cuando se trabaja con tests paralelos y grupos equivalentes de sujetos y la superioridad de la TRI frente a la TCf en tests no paralelos y con grupos no equivalentes de sujetos Ahora bien este resultado tampoco se ha encontrado de forma uniacutevoca en la literatura

En efecto Skaggs y Lissitz (1986b) llevan a cabo un estudio de simulacioacuten en el que comparan el meacutetodo lineal equipercentil y los basados en los modelos logiacutesticos de uno (lPL) y tres paraacutemetros (3PL) cuando se equiparan tests que variacuteaacuten en dificultad discriminacioacuten y pseudoadivinacioacuten concluyendo que el meacutetodo de eleccioacuten cuando variacutean considerablemente los tests es el equipercentil Harris y Kolen (1986) realizaron un estudio en el que confirmaron la robustez frente a diferencias en la habilidad del grupo del meacutetodo lineal del equipercentil y del 3PL A su vez Skaggs y Lissitz (1986c 1988) trabajan con datos simulados utilizando el meacutetodo equipercentil el 3PL y el 1PL Concluyen tambieacuten la invarianza de los tres meacutetodos de equiparacioacuten respecto al nivel de habilidad de los sujetos utilizados

A pesar del marcado caraacutecter especiacutefico de algunas aplicaciones de la TRI a situaciones de equiparacioacuten en las que la TCT puede aportar poco su intereacutes y relevancia en la praacutectica de la eval uacioacuten psicoloacutegica y educativa pueden justificar su inclusioacuten aquiacute La primera aplicacioacuten se relaciona con lo que Se ha dado en llamar pre-equiparacioacuten y consiste sencillamente en equiparar las puntuaciones de dos tests antes de que se haya aplicado uno de ellos (Bejar y Wingersky 1982) Otra aplicacioacuten muy interesante es la llevada a cabo por Holmes (1980) equipara las puntuaciones de un test construido a partir de un banco de items local con las puntuaciones de un test estandarizado para el que se dispone de informacioacuten normativa a nivel nacional Por uacuteltimo Cook Dunbar y Eignor (1981) realizan un estudio en el que demuestran que es posible equiparar las puntuaciones de tests no paralelos aplicados a grupos no equivalentes de sujetos cuando no existen items en comuacuten ni tests de anclaje

Hasta el momento se ha realizado uacutenicamente un anaacutelisis comparativo de la TCf y la TRI acerca de las condiciones necesarias para llevar a cabo una equiparacioacuten y acerca de las situaciones que se pueden manejar desde una y otra perspectiva teoacuterica A continuacioacuten se describiraacute brevemente lo que aporta de novedoso la TRI a la metodologiacutea de equiparacioacuten de las puntuaciones

En primer lugar la TRI ofrece varias posibilidades a la hora de equiparar puntuaciones se pueden equiparar las puntuaciones verdaderas las puntuaciones observadas y las puntuaciones en la escala e de habilidad

Teoriacutea de tests

Muy brevemente se consideran equivalentes las puntuaciones verdaderas de dos tests cuando corresponden al mismo nivel de habilidad Seguacuten Cook y Eignor (1983) este meacutetodo es adecuado cuando Se trabaja con tests cuyo nivel de dificultad difiere considerablemente La equiparacioacuten de las puntuaciones observadas en la TRI (Lord 1980) se realiza aplicando el meacutetodo equipercentil a las distribuciones estimadas para las puntuaciones observadas en los dos tests a equiparar Lord y Wingersky (1983) llevan a cabo un estudio comparando estos dos meacutetodos y aIlfIllan que producen praacutecticamente los mismos resultados Ahora bien a igualdad de resultados el meacutetodo de las puntuaciones observadas resulta maacutes complicado y costoso y es dependiente del grupo en el que se estiman las puntuaciones

La segunda gran aportacioacuten de la TRI tiene que ver con la equiparacioacuten de las puntuaciones e de la escala de habilidad y consiste en un nuevo

meacutetodo para determinar los paraacutemetros (ex y 13) que definen la relacioacuten lineal que existe entre las estimaciones de la habilidad de sujetos evaluados con distintos conjuntos de items o tests (la escala e es invariante frente a una transformacioacuten lineal) Este meacutetodo conocido como meacutetodo de la curva caracteristica del test (CCn fue propuesto por Haebara (1980) y Stocking y

Lord (1983) y consiste en determinar los valores de ex y 13 de forma que se minimicen las diferencias cuadraacuteticas entre las puntuaciones verdaderas de los dos tests a equiparar en la muestra considerada Stocking y Lord (1983) comparan este meacutetodo con el meacutetodo iterativo de la media y la desviacioacuten tiacutepica robustas y ponderadas en maacutes de una veintena de pares de tests y concluyen que en todas las comparaciones el meacutetodo de la ccr proporciona un ajuste mejor a las dificultades estimadas de los items Realmente la ventaja que presenta este meacutetodo frente al meacutetodo de la media y la desviacioacuten tiacutepica -en cualquiera de sus variantes- es que pard detemunar el valor de ex y

p el meacutetodo de la eCT utiliza informacioacuten de todos los paraacutemetros que definen la Ccr mientras que el meacutetodo de la media y la desviacioacuten tiacutepica soacutelo utiliza informacioacuten relativa al paraacutemetro b Un meacutetodo simple y econoacutemico que tambieacuten utiliza informacioacuten sobre todos los paraacutemetros del iacutetem e incluso

2 sus errores tiacutepicos de estimacioacuten es el meacutetodo de X propuesto por Divgi (1985)

En suma se puede decir que la TRI proporciona un marco teoacuterico oacuteptimo en el que se desvanece en parte la problemaacutetica asociada a la equiparacioacuten de puntuaciones ya que en ciena medida se obvia la necesidad de equ~parar ofrece la posibilidad de equiparar destintos tipos depun~acIones y apona metodologiacutea propia para la equiparacioacuten Ahora bien conVIene tener presente que ninguacuten meacutetodo es Superior alos demaacutes en todos los Cntextos El meacutetodo de equiparacioacuten que resulta ser mejor parece ser unaf~ncon ~e muchos actores incluyendo la longitud y contenido del test la dIStribUCIoacuten del parametro de habilidad de la muestra y de dificultad de los

189

188 MI Navas

items coacutemo se estiman los paraacutemetros y coacutemo se hace la igualacioacuten (Skaggs y Lissitz 1986a p 516)

Construccioacuten de ~ Ya en 1980 Willingham afmna que los meacutetodos de la TRI no son la

panacea pero que con emiddotl tiempo deberiacutean de proporcionar un aumento importante en la flexibilidad y precisioacuten en la construccioacuten de tests (p 74) La realidad no ha desmentido sus palabras Son muchas las aportaciones que la TRI ha realizado a la teoriacutea de tests en este campo por dos razones fundamentales

En primer lugar la invarianza de los paraacutemetros del modelo en la TRI abre nuevas posibilidades en el campo de la evaluacioacuten psicoloacutegica y educativa En efecto si la escala e es invariante respecto al conjunto de items administrados es posible comparar a sujetos que han realizado tests diferentes que han respondido a distintos conjuntos de items Esto significa que es posible utilizar con garantiacutea disentildeos como el muestreo matricial muacuteltiple (Bock y Mislevy 1981 1988 Pandey 1988 Sirotnik 1974 Sirotnik y Wellington 1977) muy econoacutemico y eficiente en proyectos de evaluacioacuten a gran escala Asimismo si se dispone de un conjunto calibrado de items se puede determinar cuaacutel seriacutea el comportamiento de un sujeto -cuya habilidad se conoce de antemano- en un test sin necesidad de aplicarlo sin maacutes que calcular la probabilidad que eacuteste tiene de responder correctamente a cada item del test y sumar estas probabilidades Esta cuestioacuten es sumamente interesante pues puede permitir por ejemplo evaluar a un sujeto con un TRC y al mismo tiempo dar una interpretacioacuten referida a la norma

En segundo lugar la funcioacuten de informacioacuten constituye una herramienta muy valiosa a la hora de construir y revisar distintas versiones o meacutetodos de puntuacioacuten de un test En efecto cuando en el proceso de estimacioacuten de paraacutemetros se utiliza el meacutetodo maximo-verosiacutemil o se pondera de forma oacuteptima los estimadores se obtiene una funcioacuten de informacioacuten para el test que es la suma de las funciones de informacioacuten de cada uno de los items que componen el test Esto significa que si se dispone de un conjunto de items calibrados se puede saber antes de aplicar el test cuaacutel es la contribucioacuten individual de cada item a la informacioacuten que el test proporciona sobre el rasgo latente Pero hay maacutes dado que la informacioacuten depende directamente de e se puede saber a priori queacute items son los que proporcionan maacutes informacioacuten sobre el rasgo latente en cada uno de los puntos de la escala e Ademaacutes la dificultad del item y la habilidad del sujeto a diferencia de lo que ocurre en la TCT se miden en la misma escala lo que permite faacutecilmentela seleccioacuten de los items maacutes uacutetiles en determinadas regiones de la escala e Todo esto permite construir tests que sean maacuteximamente eficientes para cumplir el objetivo para el que fueron disentildeados

Teorfa de tests

Seguacuten Hambleton Swaminathan y Rogers (1991) eacuteste es el caballo de batalla para los meacutetodos de la TCf en la construccioacuten de tests no se pueden seleccionar los items de forma que el test cumpla unas determinadas especificaciones en cuanto a precisioacuten de la medida Yes que en la TCf no es posible determinar ni la discriminacioacuten de un itero ni su contribucioacuten a la fiabilidad del test de forma independiente de las caracteriacutesticas del resto de items que integran el test ya que la puntuacioacuten en el test depende de la seleccioacuten particular de items que se haya hecho Por consiguiente en la TCf la evaluacioacuten se realiza a posteriori no conforme se va construyendo el test La TRI sin embargo no soacutelo permite construir tests con caracteriacutesticas muy determinadas en cuanto al error de medida admisible en cada zona de la escala e sino que posibilita la evaluacioacuten del test a priori antes de ser construido Y es que la TRI como su propio nombre indica tiene como unidad baacutesica de anaacutelisis el item mientras que en la TCf el modelado tiene lugar a nivel de test no de item la TCT no proporciona informacioacuten sobre la actuacioacuten en items concretos e individuales no indica coacutemo responderaacuten sujetos con un determinado nivel de habilidad a Iacutetems particulares Como sentildealan certeramente Hambleton y van der Linden (1982) mientras que la TCf proporciona modelos de puntuaciones de tests la TRI consiste en modelos que proporcionan puntuaciones de tests y de Iacutetems

Dentro del campo de la construccioacuten de tests la TRI ha realizado aportaciones fundamentales en tres grandes aacutereas a saber en los TRCs en los tests a medida y en los bancos de items

Tests referidos al criterio

Seguacuten Hambleton y Rogers (l989b) el intereacutes en la evaluacioacuten referida al criterio y el resurgir Con fuerza de la TRI han ido paralelos en el tiempo proporcionando esta uacuteltima un marco muy apropiado para la construccioacuten de TRCs

La TCT se revela como un modelo poco adecuado en el campo de los TRCs ya que los paraacutemetros que en es le modelo se utilizan para caracterizar los items -dificultad y discriminacioacuten- no permiten determinar en queacute parte de la escala funciona mejor el item es decir en queacute parte de -la escala tiene una dificultad maacutes adecuada o acorde Con la puntuacioacuten de Corte tomada como criterio y en queacute parte de la escala discrimina maacutes entre los sujetos Ademaacutes la dificultad del item no se puede relacionar con el aspecto o caracteriacutestica evaluada por el test ya que estaacuten en escalas diferentes Por tanto los paraacutemetros del item en la TCT no se pueden usar para seleccionar de forma oacuteptima los items que deben ser utilizados para construir un TRC

La TRI sin embargoConstituye una aproximacioacuten mucho maacutes adecuada para los TRCs En efecto uno de los criterios que se utiliza con maacutes frecuencia consiste en que el sujeto debe conocer o dominar una serie determinada de cuestiones que a su vez se operativiza en que el sujeto debe responder correctamente un deternlinado porcentaje de items en un test que

191

190 MI Navas

represente de forma adecuada el dominio o campo de conocimiento que se estaacute evaluando En la TRI la puntuacioacuten de cone 1t y el aspecto o rasgo

V(8) que se trata de evaluar 8 estaacuten directamente relacionados (1t = - n-) y

esta relacioacuten da una pauta baacutesica en la construccioacuten de un TRC Sea 1to el criterio que deben superar los sujetos para que se pueda considerar que dominan adecuadamente la materia evaluada Pues bien la seleccioacuten de los items debe-de realizarse de modo que su discriminacioacuten sea maacutexima en el

punto 8 asociado a 1to y dentro de eacutestos habraacute que seleccionar los items que proporcionan la mayor informacioacuten en ese punto de la escala De este

modo se estimaraacute de forma maacutes precisa la zona de la escala asociada a 1to que es la zona en la que es maacutes faacutecil cometer un error de clasificacioacuten

El procedimiento descrito se conoce como el meacutetodo oacuteptimo de seleccioacuten de items en un TRC Un meacutetodo similar a eacuteste es el meacutetodo oacuteptimo del contenido (optima-content method ) que es ideacutentico al anterior soacutelo que se pone una restriccioacuten al test final y es que debe de satisfacer una serie de condiciones en cuanto a especificaciones de contenido De Gruijter y Hambleton (1983) y Hambleton y de Gruijter (1983) comparan estos dos meacutetodos de seleccioacuten de items con los usados tradicionalmente por laTcr el meacutetodo aleatorio -seleccioacuten de una muestra aleatoria o estratificada aleatoria de items- y el meacutetodo claacutesico -seleccioacuten de items con iacutendices moderados de dificultad y con iacutendices altos de discriminacioacuten-o Estos estudios ponen de manifiesto que en la regioacuten de intereacutes cercana a la puntuacioacuten de cOrte los dos meacutetodos basados en la TRI proporcionan casi el doble de informacioacuten que el meacutetodo claacutesico y el aleatorio

De especial intereacutes es el meacutetodo oacuteptimo del contenido porque a la hora de seleccionar iterns combina criterios estadiacutesticos con criterios relacionados con el contenido Como sentildealan Kingston y Stocking (1986) esta consideracioacuten es baacutesica en la construccioacuten de un TRC Van der Linden y Boekkoi-Timminga (1989) han desarrollado un procedimiento que permite la seleccioacuten de items a partir de la funcioacuten de informacioacuten especificada para el test pero que a su vez permite el cstablicimiento de condiciones que aseguren la validez de contenido del test y la longitud deseada para el mismo entre otras caracteriacutesticas

Una herramienta muy uacutetil a la hora de construir y evaluar un TRC es el programa TESTLEN creado por MilIs y Simon (1981) Este programa simula las respuestas de sujetos a TRCs via la TRI proporcionando la posibilidad de manipular factores como la distribucioacuten de las puntuaciones de dominio la eleccioacuten de la puntuacioacuten de cone las caracteriacutesticas estadiacutesticas del banco de items la longitud del test y el meacutetodo de seleccioacuten de iterns

Por uacuteltimo no se puede cerrar este apartado sin hacer referencia a un trabajo de Lewis y Sheehan (1990) a caballo entre los TRCs y los tests a medida Estos autores desarrollan la idea de un test de dominio computerizado (CMT Computerized Mastery Test) En este tipo de test se


conjuga la idea de la evaluacioacuten individualizada con los TRCs del siguiente modo se aplican tests maacutes cortos a ~os sujetos que son claramente competentes o incompetentes y tests maacutes largos a los sujetos para los que no estaacute tan clara la decisioacuten acerca de su competencia (regla de terminacioacuten adaptada al sujeto) De es~e molti~ ~eguacuten los aut~~es se puede educ~r a la mitad la longitud del test Sin peIJUlcIo en la preclSlon de las claSIficacIones Ademaacutes otra caracteriacutestica que hace panicularmente interesante a este tipo de test es que el proceso secuencial de evaluacioacuten opera no sobre items individuales sino sobre bloques de items

Esta idea de combinar los tests a medida con los TRCs no es nueva Ya en 1982 Weiss apunta que los tests a medida disentildeados para llevar a cabo clasificaciones dicotoacutemicas presentan mejoras respecto a los tests convencionales disentildeados para el mismo objetivo y describe estudios que muestran una reduccioacuten en la longitud del test y un aumento en la precisioacuten de la clasificacioacuten a favor de los tests a medida (Kingsbury y Weiss 1979 1980 1981) Estudios posteriores de estos dos autores realizados en 1983 vuelven a poner de manifiesto que este meacutetodo combinado puede dar lugar a una clasificacioacuten maacutes eficiente que los tests convencionales de longitud fija

Tests a medida

La idea de la evaluacioacuten individualizada de la aplicacioacuten de tests adaptados o hechos a la medida de los sujetos objeto de la evaluacioacuten no es en absoluto nueva sino que Como sentildeala Weiss (1985) se remonta ya a los trabajos de Binet y Simon sobre la inteligencia en 1908 Sin embargo apenas se trabajoacute sobre esta idea hasta finales de la deacutecada de los 60 Una razoacuten baacutesica para entender el abandono de esta orientacioacuten durante maacutes de medio siglo se relaciona con la ausencia hasta la deacutecada de los 70 de ordenadores interactivos que hicieran factibles los tests a medida Con el advenimiento de los ordenadores la evaluacioacuten individualizada se conviene en evaluacioacuten individualizada computerizada (CAT Computerized Adaptive Testing) Bunderson Inouye y Olsen (1989) se refieren al CA T como a la segunda generacioacuten en la medida educativa computerizada y Wainer (1990) sentildeala que la sigla crucial en CATes la C

Van der Linden y Zwarts (1989) consideran que Son dos los hechos que han posibilitado la automatizacioacuten en la evaluacioacuten El primero de ellos seriacutea como ya se ha sentildealado la introduccioacuten a gran escala del ordenador en los cole~ios y el intereacutes creciente que sus aplicaciones en el proceso educativo ha SUscItado entre los profesores y administradores educativos El segundo seriacutea la introduccioacuten de la TRI en la teoriacutea de tests Seguacuten Weiss y Vale (1987)~u~n~o se cmbina Con la TRI y la aplicacioacuten computerizada la evalua~Ion rndIylduaJiexcl~da proporciona una familia de teacutecnicas que dan lugar a SOIuclones mas efectIvas y eficientes a una gran variedad de problemas de ~e~l~a ~p260) Como sentildeala Weiss (1983) aunque la evaluacioacutenmd~VlduaJiexclzada no depende de la TRI eacutesta siacute resulta sumamente uacutetil a la hora de Implementar de forma efectiva la primera Hamblenton Swaminathan y

193

192 MJ Navas

Rogers (1991) van todaviacutea maacutes lejos al afirmar que el CAT no seriacutea realmente factible sin la TRI

La idea baacutesica de los meacutetodos del CA T basados en la TRI es la siguiente Se trata de escoger items cuya dificultad sea similar al nivel estimado en el rasgo latente del sujeto de modo que al aplicar items con esas

(be a fi=ln a)l bmiddot dIcaractensucas 1 a esumacloQ que se o uene e rasgo latente es muy precisa La caracteriacutestica distintiva es la seleccioacuten automatizada de los items durante el proceso de aplicacioacuten del test

Kingsbury y Zara (1989) y Thissen y Mislevy (1990) sentildealan dos estrategias fundamentales en la seleccioacuten de items cuando se uuacuteliza la TRI para implementar el CAT La primera de ellas es la estrategia de maacutexima informacioacuten (Weiss 1982) se selecciona el item que proporciona la maacutexima informacioacuten en el nivel estimado de habilidad del sujeto en cuestioacuten Variaciones interesantes de este meacutetodo son las realizadas por Green Bock Humphreys Linn y Reckase (1984) que proponen una seleccioacuten aleatoria de entre todos los items que proporcionan maacutexima informacioacuten para un valor e determinado y la realizada por Sympson Weiss y Ree (1982) que proponen una estrategia estratificada de maacutexima infomlacioacuten muy uacutetil cuando puede resultar problemaacutetico el tiempo de CPU en el ordenador Theunissen (1985 1986) Y Theunissen y Verstralen (1986) fueron los primeros en formular modelos de optimizacioacuten para implementar procesos de seleccioacuten de items basados en funciones de informacioacuten La segunda gran estrategia utilizada por la TRI es la seleccioacuten bayesiana del item (Owen 1969 1975) se selecciona el item que reduce en mayor medida la varianza de la distribucioacuten a posteriori del valor estimado de la habilidad e

Ahora bien iquestqueacute ventajas reales presenta el uso de la TRI en el CA T frente al uso de meacutetodos de la TCT -meacutetodoup-and-down de rama fija o variable meacutetodo bietaacutepico o multietaacutepico- considerablemente maacutes faacuteciles de implementar que los primeros Weiss y Vale (1987) sostienen que la ventaja fundamental de los meacutetodos basados en la TRI son la eficiencia y el control sobre la precisioacuten en la medida

Por eficiencia se quiere significar que un CAT permite obtener la mayor cantidad de informacioacuten sobre el sujeto por item aplicado Esto se traduce loacutegicamente en un incremento en la precisioacuten de la medida y en un considerable ahorro de tiempo ya que se requiere soacutelo entre un 10 y un 50 del nuacutemero de items que exigiriacutea un test no adaptado a la caracteriacutesticas del sujeto para proporcionar la misma informacioacuten sobre su habilidad (Brown y Weiss 1977 Kent y Albanesse 1987 Kiely Zara y Weiss 1983 McBride y Martin 1983 Moreno Wetzel McBride 1984 Olsen 1990 Warm 1978 Weiss 1982)

Por control se quiere significar que se puede evaluar la habilidad de cada sujeto con un nivel previamente especificado de error La TRI permite determinar no soacutelo los items que tienen una dificultad similar al nivel

estimado inicialmente para el sujeto que se desea evaluar sino los items que


en ese nivel proporcionan la maacutexima informacioacuten sobre el rasgo latente los items que en ese nivel estiman de forma maacutes precisa el rasgo latente Esto no es posible en la TCT ya que la precisioacuten de la medida es independiente del nivel del rasgo latente que se mide con el test el error tiacutepico de medida es el miyno en todos los puntos de la escala e Ademaacutes el nivel de precisioacuten en

la medida de la habilidad proporciona en la TRI un criterio para la terminacioacuten del test individualizado la aplicacioacuten del test termina cuando el error tiacutepico de estimacioacuten de e muestra un valor ideacutentico al establecido por el evaluador de antemano Esto representa una ventaja importante frente a los meacutetodos de la TCT ya que en la perspectiva claacutesica la uacutenica regla loacutegica de terminacioacuten del

test representaba paradoacutejicamente una seria limitacioacuten al CA T la regla consistiacutea en la aplicacioacuten de un determinado nuacutemero -fijo- de items

Estrechamente ligada con la anterior se encuentra otra de las ventajas de la TRI y es que con su aplicacioacuten se obtiene una mayor validez aparente ya que el sujeto no tiene que responder items demasiado faacuteciles -que pueden aburrirle- o demasiado difiacuteciles -que pueden desmotivarle y generar ansiedad~ Estos items contribuyen muy poco 11 la precisioacuten y a la economiacutea de la medida (Homke 1981)

Por uacuteltimo la gran ventaja que presenta la TRI sobre la TCT en el campo del CATes que la habilidad del sujeto y la dificultad de los items estaacuten en la misma escala 10 que proporciona una pauta clara en la seleccioacuten Oacuteptima de los items aplicar items de dificultad similar al nivel estimado para la habilidad del sujeto para obtener estimaciones precisas de la misma Esto es imposible trabajando con el modelo claacutesico ya que los paraacutemetros de habilidad y dificultad estaacuten en meacutetricas distintas En este caso para seleccionar los items es necesario acudir a estructuras ramificadas basadas en el iacutendice de dificultad de items individuales o grupos de items Para complicar todaviacutea maacutes las Cosas las puntuaciones obtenidas por distintos sujetos no son directamente comparables Sin embargo si se dispone de un banco de items calibrados seguacuten un modelo de TRI se pueden obtener puntuaciones comparables cuando se aplican distintos items a distintos sujetos ya que el paraacutemetro de habilidad es invariante respecto al conjunto particular de items administrados a cada sujeto

Bancos de items

Un banco de items no es maacutes que un conjunto de elementos que miden un mismo rasgo campo o aacuterea de conocimiento almacenados en un ordenador junto con sus propiedades estadiacutesticas junto con sus paraacutemetros Es decir un banco de items es un conjunto de items calibrados un conjunto de items caracterizados por unos paraacutemetros que han sido estimados en la misma escala

Los primeros trabajos realizados sobre bancos de items tuvieron lugar al final de la deacutecada de los 60 y comienzos de los 70 pero fracasaron seguacuten Hambleton (1986) debido a la ingente cantidad de papel y al nivel de

195

194 MJ Navas

aplicacioacuten y organizacioacuten necesarias para implantarlos Y es que los procedimientos implicados en un banco de iteros -almacenamiento clasificacioacuten y recuperacioacuten de items estimacioacuten y actualizacioacuten de los valores estimados para los paraacutemetros de los items disentildeo y puntuacioacuten de los tests estimacioacuten y actualizacioacuten de distribuciones normativas- difiacutecilmente pueden ser implimentados sin el recurso a un ordenador (Brzezinski y Hiscox 1984)

Van der Linden y Eggen (1986) sentildealan dos ventajas fundamentales de los bancos de items frente a los tests estandarizados La primera de ellas tiene que ver con la flexibilidad que esta alternativa introduce en la evaluacioacuten en el campo psicoloacutegico y educativo se posibilita la construccioacuten de tests basaacutendose uacutenicamente en consideraciones praacutecticas de caraacutecter especiacutefico relacionadas con las necesidades de evaluacioacuten que en un momento determinado exigen el desarrollo de un test concreto La segunda ventaja tiene que ver con el uso eficiente en las respuesta de los sujetos a los items cualquier conjunto de datos se puede incorporar al sistema para una actualizacioacuten perioacutedica de las estimaciones de los paraacutemetros de los items Otra ventaja adicional de los bancos de items sobre los tests estandarizados es como se ha puesto de manifiesto en los dos apartados anteriores que permite el desarrollo significativo de la evaluacioacuten individualizada y de la evaluacioacuten referida al criterio

Aunque en principio tanto la TCf como la TRI pueden trabajar con bancos de items la TCf resulta poco adecuada para operar con ellos

Un banco de items tiene sentido si presenta una dimensioacuten considerable si contiene un cierto nuacutemero de items En caso contrario se estaacute trabajando con la nocioacuten claacutesica de tests Pues bien dado que en la TCT los paraacutemetros de los items dependen de la muestra de sujetos que ha sido utilizada para estimarlos y dado que todos los sujetos de la muestra no pueden responder a todos los items del banco es difiacutecil conseguir que los valores estimados para los paraacutemetros de todos los items sean estrictamente comparables Por el contrario la invarianza de los paraacutemetros del item en la TRI convierte a esta teoriacutea en el marco adecuado para trabajar con bancos de items ya que permite disponer de una escala comuacuten para los paraacutemetros de todos los items

Una vez estimados y puestos en dicha escala los paraacutemetros de los items del banco se puede pasar a utilizar el modelo de la TRI como un modelo de medida para determinar el nivel en el rasgo latente deacute los sujetos para estimar el paraacutemetro de habilidad Si el patroacuten de respuesta del sujeto es vaacutelido entonces su medida estima el nivel de dominio del sujeto en teacuterminos de todos los items que definen el banco (no soacutelo en teacuterminos de los items que le han sido realmente aplicados) y la posicioacuten del sujeto en el rasgo o campo de conocimiento evaluado por el banco lo situacutea en relacioacuten a todos los sujetos que en alguacuten momento han realizado items de ese banco no lo relaciona uacutenicamente con los sujetos que han respondido al mismo conjunto de items (Wright y Bell 1984) En suma a diferencia de la TCT la TRI proporciona


un marco adecuado para una interpretacioacuten de las puntuaciones en el test referida al criterio pero al mismo tiempo tambieacuten referida a la norma

En un intento de integrar la construccioacuten y el anaacutelisis de iteros con la teoriacutea psicoloacutegica Homke y Habon (1986) ~onstruyen ~n banco de636 items mediante el recurso a reglaacutes que combInan operacIOnes cognItIvas Aplican estos i~ems agrupados en 35 tests distintos a una muestra ~e 7400 sujetos (aproxImadamente cada Item es respondido por 211 sUJetos) y utilizan el modelo logiacutestico lineal (Fischer 1974) revelando el anaacutelisis que existen 446 items homogeacuteneos Este resultado pone de manifiesto claramente que las operacione~ cognitiva~ utilizadas ~ la hora de consUir los items explican bastante ~Ien los para~etro~ de dIficultad d~ los nusmo~ En este punto reside preCIsamente el Interes de este estudIO ya que Ilustra la posibilidad de calibrar los items de un banco antes de ser realmen~e aplic~~os siempre y cuando se recurra para su constrUCCIoacuten a una teona cogmtIva sustantiva se supone que eacutesta puede proporcionar las reglas necesarias para construir items cuyo nivel de dificultad sea estimable en gran medida a partir de las demandas cognitivas del item antes de su aplicacioacuten efectiva Aunque eacutesta es una posibilidaacuted interesante la literatura psicomeacutetrica lo que ilustra de forma sistemaacutetica es el uso de bancos de items en combinacioacuten Con una teoriacutea de tests fundamentalmente la TRI aunque tambieacuten en algunos casos la TCT (veacutease por ejemplo Nitko y Hsu 1984)

Como sentildealan MilIman y Aner (1984) los bancos de items presentan caracteriacutesticas muy diversas Los hay que representan conjuntos

computerizados de decenas de miles de items (Brown 1982 Epstein 1974 Rentz y Bashaw 1977) y los hay tambieacuten que representan a conjuntos de items muy pequentildeos mecanografiados en fichas-iacutendice y reproducidos en los tests de forma mecaacutenica o manual (Mershon 1982 Rodel 1979) La diversidad en los bancos de items no soacutelo estaacute presente en sus caracteriacutesticas sino tambieacuten en sus aacutembitos de aplicacioacuten Asiacute se han construiacutedo bancos de items en sectores tan distintos como las Fuerzas Armadas grandes compantildeiacuteas de tests y en imponiquestp1tes organizaciones meacutedicas y relacionadas con la salud pero donde se ha observado el desarrollo maacutes floreciente ha sido en el campo educativo De nuevo la diversidad de aplicaciones es la toacutenica dominante desde el programa de evaluacioacuten del sistema educativo americano (NAEP National Assessment 01 Educational Progress) y los bancos de items de la International Association lor the Evaluation 01 Educational Achievement (LEA) hasta las aplicacionesmiddot dentro del aula pasando por los distritos escolares y los Departamentos o Ministerios de Educacioacuten de distintosestados o paiacuteses

~ tiacutetulo de ejemplo dentro de los bancos de items desarrollados para ser utIhzados en el COntexto del aula se pueden citar los trabajos de Nitko y Hsu (l84~ l OBrien y Hampilos (1988) Nitko y Hsu (1984) desarrollan una aphcacIOn para ordenadores personales que pretende ser una herramienta que puedan usar los profesores para mejorar la ensentildeanza y los tests o pruebas que pasan a sus alumnos asiacute como para evaluar e informar sobre el

197

196 MJ Navas

aprendizaje de los mismos Las limitaciones de este trabajo tienen que ver con el tamantildeo de la muestra de sujetos e items que admite con la imposibilidad de aplicaciones computerizadas de los tests y con el uso de paraacutemetros del item en la TCT OBrien y Hampilos (1988) estudian la plausibilidad de la creacioacuten de un banco de items a partir de un test construido por un profesor y aplicado a dos clases distintas de alumnos -comparables- cuya instruccioacuten ha corrido a cargo de la misma persona

En EEUU los distritos escolares de Florida Los Angeles Oregon y Portland entre otros han desarrollado proyectos que suponen la construccioacuten para aacutereas curriculares de intereacutes de bancos de items y escalas de rendimiento basadas en modelos de la TRI para aplicar tests y proporcionar informacioacuten a los centros escolares y a la opinioacuten puacuteblica Por ejemplo en 1978 el Centro para el Desarrollo de Tests de Los Angeles tratoacute de calibrar los items de un aacuterea curricular detenninada -las Matemaacuteticas- en distintos cursos Menos ambiciosos que este proyecto son los trabajos realizados por Bejar Weiss y Kingsbury (1977) Douglas (1980) y Eisenberg y Book (1980) en los que se incluye un solo curso escolar no varios como en el anterior Otros proyectos que tambieacuten surgieron en EEUU se pueden encontrar en los trabajos de Foster y Archer (1977) Foster y Doherty (1978) Hankins (1990) Koslin Koslin Zeno y Wainer (1977) Smith (1985) y Wongbundhit (1985)

Ahora bien EEUU no es el uacutenico foro en el que se crean bancos de items sino que eacutestos se desarrollan tambieacuten en paiacuteses como Australia (Cornish y Wines 1977 Hill 1985 Tognolini 1982) Austria (Kubinger 1985) Canadaacute (Popyuk 1982) o Gran Bretantildea (Choppin 1968 1976 1978 1981 Elliot 1983 Haksar 1983 Pollitt iexcl(amp(iquest 1985 Wood y Skurnik 1969)

Por uacuteltimo como ejemplos del uso de bancos de items en Departamentos de Educacioacuten se sentildealaraacute el trabajo de Burke Kaufman y Webb (1985) desarrollado en el Departamento de Instruccioacuten Puacuteblica de Wisconsin y el trabajo de van Thiel y Zwarts (1986) en el Instituto de la Medida Educativa de Holanda (CITO)

El banco de items de Wisconsin es un sistema computerizado de 1()()()() items repartidos en tres aacutereas (matemaacuteticas lenguaje y lectura) para los curso 3Q a 12Q

cuyo objetivo es proporcionar tests a los centroacutes de los distritos escolares que participan en el programa de evaluacioacuten de competencia llevado a cabo por dicho estado Es muy efectivo para el examen y seleccioacuten de items y para la produccioacuten impresa de tests pero no almacena informacioacuten estadiacutestica sobre los items sino uacutenicamente informacioacuten relativa a su contenido y objetivos curriculares

Van Thiel y Zwarts (1986) desarrollan un sistema de evaluacioacuten (TSS Testing Service System) que es un sistema integrado para el almacenamiento de los items y la construccioacuten y anaacutelisis de tests en el que se utiliza como herramienta de desarrollo ellSAC (lnformation System Work and Analysisoi Change) Este sistema tiene dos variantes el CITO-TSS y el TSS de

Tcoriacutea de tcsts

(

centros El CITO-TSS es un sistema Con dos actividades fundamentales la construccioacuten de bancos de items que estructura en teacutern1inos de su contenido y caracteriacutesticas psicomeacutetricas y la construccion de tests a partir de los items del beacute1l)co los cuales a su vez pueden ser tambieacuten almacenados en un banco de tests El TSS de centros estaacute dirigido a profesores sin conocimientos especiacuteficos ni de psicometriacutea ni de metodologiacutea de la evaluacioacuten y proporciona a los mismos la posibilidad de construir tests a partir de los bancos de items creados por el CITO-TSS aunque es tambieacuten posible que los profesores creen sus propios items y los utilizen de fonna conjunta con los del banco Asimismo este sistema pennite la evaluacioacuten individualizada a traveacutes de la creacioacuten y aplicacioacuten de tests a medida Una vez procesadas las respuestas se generan informes que pueden ser muy uacutetiles para la toma de deci~iones del profesor

CONSIDERACIONES FINALES

A lo largo de estas paacuteginas se ha puesto de manifiesto que la TRI es una teoriacutea de tests conceptualmente maacutes poderosa que la Ter (Baker 1985) pennite solucionar problemas difiacuteciles de abordar desde la perspectiva claacutesica pero ademaacutes esta teoriacutea abre viacuteas a nuevas preguntas y fonnas de investigar en Psicometriacutea y tiene profundas implicaciones para la mejora de la medida psicoloacutegica (Weiss 1983) Como sentildeala Hambleton (1989a) las caracteriacutesticas distintivas de la TRI son las que han dado lugar al desarrollo de procedimientos muy prometedores en el aacutembito de la evaluacioacuten computerizada De hecho este autor considera el uso de la TRI como un prerrequisito en un sistema de evaluacioacuten que se precise de operativo

Sin embargo no se puede olvidar que siempre es conveniente plantearse queacute es mejor una solucioacuten basada en una teoriacutea fuerte (restrictiva) a la que la realidad no se ajusta muy bien (por ejemplo la teoriacutea del rasgo latente) o un procedimiento ad hoc con una base teoacuterica deacutebil (no restrictiva) si es que la tiene Para algunos problemas la respuesta a esta cuestioacuten es clara siendo preferida la teoriacutea del rasgo latente pero para otros problemas la respuesta estaacute lejos de ser obvia (Traub y Wolfe 1981 p 342) Wood (1987) subraya la importancia del problema del ajuste de los datos a los modelos de la TRI y sentildeala asimismo que esta teoriacutea tiende a producir ceguera a la significacioacuten del mundo real ya que conduce por siacute misma a la matematizacioacuten y trivializacioacuten de los problemas Ahora bien tampoco hay que perder de vista el gran avance que Supone la modelizacioacuten del error en la TRI y la posibilidad de respuesta a problemas y aplicaciones psicomeacutetricas que introduce la independencia Contextual de los paraacutemetros del modelo

El caso de la construccioacuten de bancos de items como metodologiacutea de construccioacuten de tests es un ejemplo incontestable de la superioridad de la TRI sob~e ~ ~er ~s difiacutecil concebir los bancos de items sin la TRI pero tambieacuten es dlUumlctllmaglllar la TRI SIn los bancos de items De hecho el tandem TRIshyBancos de items estaacute realmente sustituyendo en el campo de la evaluacioacuten

199 198 MJ Navas

psicoloacutegica y educativa al tandem claacutesico TCT-Tests estandarizados Como sentildeala Hambleton (1989b) los modelos de la TRI han demostrado ser muy uacutetiles a los expertos en medida para resolver una variedad de problemas de medida Pero la TRI no es una varita maacutegica con la que tocar un conjunto de datos para solventar la falta de adecuacioacuten en el disentildeo de un test o en los procedimientos de evaluacioacuten Al contrario los constructores del test deben centrar su atencioacuten en cuestiones de contenido del test en la preparacioacuten de items teacutecnicamente correctos y en otras praacutecticas de evaluacioacuten importantes Entonces cuando se encuentra que los datos del test se ajustan en un grado razonable a los modelos de la TRI y cuando se usan e interpretan correctamente los modelos y resultados asociados los modelos de la TRI seraacuten muy uacutetiles para dar cuenta de un gran nuacutemero de cuestiones teacutecnicas que surgen en el desarrollo y uso de los tests (p 125)

En cualquier caso hay que convenir con Yen (1986) que lo que siacute es importante e innegable es que la TRI ha sacado a relucir supuestos tradicionales de medida y convenciones que exigen un reexamen y que ponen de manifiesto que se necesita maacutes investigacioacuten para definir los rasgos de rendimiento para reevaluar los convenciones de medida para examinar las propiedades de distintos meacutetodos de escalamiento para desarrollar criterios para juzgar la calidad de distintas escalas y asegurar la significacioacuten de las decisiones educativas basadas en resultados de las escalas de medida (p 322) middot

ABSTRACT

The decade of the 1980s saw the basis of measurement practice begin to make the transition from c1asical test thcory to item response thcory (Baker 1989) This work aims to think about the role playcd by these modcls in tbe field of psychological and cducational mcasurementFirst of all we will briefly examine the history of both test theories and the way they cope with the basic mcasurement problem Then it will be discussed tbe similariuacutees and differences in such aspects as assumptions made by tbe models tbe assessment of measurement error tbe parameters invariance etc Finally it will be considercd how these test tbcorics solve sorne measurement problems as important as item and test bias cquating scores and test construcuacuteon particulary criterion-referenccd tests tailorcd tesl and item banks shy

KEY WORDS Classical test theory item response thcory bias equating criterion-referenced tests tailorcd tests item banks

Teoriacutea de leSls

REFERENCIAS Ackerrnan T (1993) Differenlial ilem funclioning as a funClion of lhe valid Sublesl space

Comunicacioacuten presentada en la 1993 European Meeting of the Psychometric Society Barcelona

Angoff W H (1972) A lechnique for Ihe invesligalion of cullural differences Comunicacioacuten presentada en la reunioacuten de la American Psycholigical Associauacuteon (APA) Honolulu

Angoff W H (1982) Use of difficulty and discrimination iacutendices for detecting item bias En R A Berk CEd) Handbook of melhods for delecling lesl bias Baltimore MD The Johns Hopkins University

Angoff W H (1984) Scales norms and equivalent scores Princeton NJ Educatonial Testing Service

Angoff W H y Ford S F (1973) ltem-mce interaction on a test of sholasuacutec aptitude Joumal ofEducaional M easuremenl 10 95-106

Angoff W H y Sharon A L (1974) The eva1ution of differences in test performance of two or more groups Educalional and psychological Measuremenl 34 807-816

Baker F B (1985) The basics ofilem response lheory Portsmouth NH Heinemann Baker F B (1989) Computer tcchnology in test construction and processing En R L

Linn CEd) Educational Measurement New York Macmillan Bejar 1 l Weiss D J Y Kingsbury G (1977) Calibralion of an ilem pool for Ihe

adaplive measuremen of achivement (Psychometric Metbods Program Research Repon N2 77-7) Minneapolis University of Minnesota Department ofPsychology

Bejar 1 I Y Wingersky M S (1982) Astudy of the pre-equating based on item response theory Applied Psychological Measuremenl 6 309-325

Binet A y Simon T H (1908) Le devclopment de nntelligence chez les enfants LAnneacutee Psychologique1J 191-244

Bock R D Y Mislevy R J (1981) An item response curve model for matrix-sampling data The California grade-Lhree assesmenl New DireClions for Tesling and Measuremenl 1065-90

Bock R D Y Mislevy R J (1988) Comprehensive educational assessment for the States The duplex designo Educalional Evalualion and Policy Analysislo 89-105

Bock R D YWood R (1971) Test theory Annual Review of Psychology 22 193-224 Boekkooi-Timminga E y van der Linden W J (1988) Algoritbms for automated test

construction En F Maarse L Mulder W Sjoaw y A Akkerman CEds) Compulers in psychology melhods inslrumenlalion and psychodiagnoslic LisseSwets y Zeiuacuteinger

Brown B (1982) Automaled test quiz produclion Classron computer News 2 4 33-35 Brown J M Y Weiss D J (1977) An adaplive lesling slralegy for aeacutehievemenl lesl

balleries (Research Repon Nordm 77-6) Minneapolis University of Minnesota Department of Psychology Psychometrics MeLhods Programo

Brzezinski E J Y Hiscox M D (1984) Microcomputers and testing Educalional Measuremenl Issues and Praclice 3 4-34

Bunderson C V Inouye D K Y Olsell J B (1989) The four generations of computerized educational measurernent En R L Linn (Ed) Educalional Measurement New York MacMillan

Burke N W Kaufman B D Y Webb N L (1985) The Wisconsin Iacutelem bank Development operalion and relaled issues Madinson Wisconsin Departrnent ofPublic Instruetion

201 200 Ml Navas

Camilli G (1979) A critique of lhe chi-square melhod ofassessing item bias Laboratory ofEducational Rescarch Boulder CO University ofColorado

Cole N S y Moss P A (1989) Bias in trst use En R L Linn (Ed) Educalional Measuremenl New York MacMillan

Cook L L Dunbar S B y Eignor D R (1981) IRT Equaling A flexible alternative lo conventional melhods for solving praclical lesling problems Comunicacioacuten presentada en la reunioacuten anual de la American Educational Research Association (AERA)iexclNational Council on Measurement in Education (NCME) Los Angeles

Cook L L YEignor D R (1983) Practical considerations regarding the use of item response theory to equate tests En R K Hambleton (Ed) Applications of Ilem Response Theory Vancouver BC Educational Research Institute of British Columbia

Cook L L YEignor D R (1989) Using iacutetem response theory in test score equating lnlernalionalJournal ofEducalional Research 132 161-173

Comish G y Wines R (1977) Malhemalics profile series Hawthom Victoria Australian Council for Educational Research

Choppin K H (1968)) An item bank using sample-free calibration Nalure 219 870shy872

Coppin B H (1976) Recent developments in iacutetem banking En D N M de Gruijter y L J Th van der Kamp (Eds) Advances in Psychological and Educational Measuremenl New York Wiley

Choppin B H (1978) llem banking and lhe monitoring of achievemenl research in progress series (N2 1) Slough England National Foundation for Educational Research

Choppin B H (1981) Educational Measurement and the iacutetem bank model En C Lacey y D Lawton (Eds) lssues in evalualion and accounlability London Methuen

Divgi D R (1985) A minium chi-square method for developing a common metric in IRT Applied Psychological Measuremcnl 94413415

Douglas1 B (1980) Applyng lalenllrait lheory 10 a classron examinalion syslem Model comparison and selection Comunicacioacuten presentada en la reunioacuten anual de la AREA Boston

Eisenberg E M Y Book C L (1980) Applyng lalenl lraIacutel lheory 10 a course examination syslem AdminiSlration maintenance and lraining Comunicacioacuten presentada en la reunioacuten anual de la AREA Boston

ElIiot C D (1983) Brilish ability scales Manuals 1-4 Windsor England NFERshyNelson

EmbrelSOn S (1985) Studying intelligence with test theory modelsCurrent Topics in Human lnlelligence 198-140

Epstein M G (1974) Classificalion schemefor items in CAT Comunicacioacuten presentada en la Computer Assisted Test Construction conference San Diego (Ed 110505)

Fischer A G (1974) Einfuumlhrung in die Theorie psychologischer Tesis Bem Huber Foster F y Archer G (1977) The Rasciexcl calibraled item bank A new 1001 for

compelency based evalualion POrlland OR Portland Schools Oregon State Department of Education

Foster F y Doherty V (1978) Using lhe Rasch approach 10 measuremenl lO solve praclical schoollesling problems Comunicacioacuten presentada en la reunioacuten anual de la AREA Toronto

Goldstein H (1987) Multilevel models in educational and social research London Oxford University Press


Goldstein H YWood R (1989) Five decades of item response modelling British Journal ofMalhemalical and Slalislical Psychology 42 139-167

Green B F Bock R D Humphreys L G Linn R B YReclcaSe M D (1984) Technical guidelines for assessing computerized adaptive tests Journal 01 Educalional Measurement 214347-360

Green B F Y Draper J F (1972) ExploralOry sludies of bias in achievemenl leSls Comunicacioacuten presentada en la reunioacuten anual de la AREA Honoluluacute

Gruijter D N M de y Hambleton R k (1983) Using iacutetem response models in criterionshyreferenced test iacutetem selection En R K Hambleton (Ed) Applicalions of iacutetem response lheory Vancouver BC Educational Research Institute of British Columbia

Guion R M Y Ironsoo G H (1983) latent trait theory for organizational research Organizalional Behavior amp Human Performance 31154-87

Gulliksen H (1961) Measurement of leaming and mental abilities Psychomelrika 26 93-107

Gulliksen H (1986) Perspective on edutational measuremenL Appied Psychological Measurement 10 109-l32

Haebara T (1980) Equating logistic ability scales by a weighted least squares method Japanese Psychological Research 22144-149

Haksar L (1983) Dcsign and usage of an item bank Programmed learning and educaJional lechnology 20 253-262

Hambleton R K (1986) The changing cOllception of measurement A commentary Appied Psychological Measurement 10415421

Hambleton R K (1989a) Principies and ScIccted applications of item response theory En R L Linn (Ed) Educational Measuremenl New York MacMillan

Hambleton R K (1989b) Applications of itcm response theorylnlernalional Joumal of Educalional Research l3 2123-125

Hambleton R K Y Gruijter D N M de (1983) Applications of item response models to criterion-referenced test iacutetem sclection 10urnal ofEducational Measurement 204355-367

Hambleton R K Y Rogers J (1989a) Detccting potentially biased test items Comparison of IRT area and Mantel-Haenszel methods Applied Measurement in Educalion 24 3l3-334

Hambleton R K Y Rogers J (l989b) Solving criterion-referenced measurement problems with item response modelsJnternalionallournal ofEducalional Research l32 145-160

Hambleton R K Rogers J y Arrasmith D (1986) ldentifying pOlenliaUy biased leSl iacutetems Acomparision of lhe Manlel-Iiaenszel slalislic and several iacutetem response lheory melhods Comunicacioacuten presentada en la reunioacuten anual de la APA Washington

Hamblelon R K Rogers J y Arrasmith D (I988) Identifying pOleniaUy biased lest items Acomparision of lhe Manlel-Iiaenszel slalislic and several ilem response lheory melhods (LabOflltory of Psychometric and Evalutive Research Report N2 154) Amhersl Universiacutety of MassachusctlS School of Education

Hambleton R K Y Swaminathan H (1985) Item Response Theory Principies and Applicalions Boston Kluwer-Nijhoff

Hambleton R K Y Swaminathan H Arrasmith Gower C Rogers J y Zhou A (1 ~86) Developmenl ofan inlegraled syslem lO assess and enhance basic job skills (Au Force Research Repon Ndeg 2) Amherst MA School of Education University of MassachussetlS

203 202 MJ Navas

Hambleton R K Y Swaminathan H y Rogers J (1991) Fundamenlals 01 item response lheory Sage

Hamb1eton R K Yvan der Linden W J (1982) Advances in lRT and applications An introduction Applied Psychological MeasuremenL 6 4 373-378

Hankins J A (1990) Floridas vocational testing programo Journal 01 Employmenl Counseling 27 3 130-138

Harris D J (1991) A comparision of Angoffs Design 1 and Ddesing 11 for vertical equating using traditional and IRT methofology Journal 01 Educalional Measuremenl 28 3 221-235

Harris D J Y Kolen M J (1986) Effect of examinee group on equating relationships Applied Psychological Measuremenl 1035-43

Harrison D A (1986) Rohustness of lRT parameter estirnation to violations of the unidimensionality assumption Journal 01Educational Slaiislics 11291-115

Hill P W (1985) The TesIs 01 Reading Comprehension (TORCH) Comunicacioacuten presentada en la reunioacuten anual de la IEA Oxford

Holmes S (1980) ESEA Tille 1 linking projecl Final repon Salem OR Oregon Dcparunent of Education

Holland P W y Thayer D T (1986) Differenlial item lunclioning and Ihe ManlelshyHaenszel procedJiexclre (Tcchnical Report NQ 86-89) Princeton NJ Educational Testing Service

Holland P W y Thayer D T (1988) Differential ilem performance and Ihe ManlelshyHaenszel procedure En H Wainer y H 1 Braun (Eds) Tesl validily Hillsdale NJ Lawrence Earlbaun Associatcs Inc

Hoover H D Y Kolen M J (1984) The reliability oC six item bias indices Applied Psychological Measurement 8 173-181

Hornke LF (1981) Computeruntcrstuumltztes Testen (CUT) von PruumlfungsangsL Zeitschrifl luumlr Differenlielle und Diagnositsche PSJchologie 2 325-335

Hornke L F Y Habon MW (1986) Rulcd-bascd item bank construction and evaluation within the linear logistic framework Applied psychological Measuremenl 10369shy380

Hulin C L Drasgow F y Komocar J (1982) Applications of item response theory to analysis of auitude scale translations J(Jurnal 01Applied Psychology 67 818-825

Hunter J E (1975) A critical analysis 01 the use 01 item means and ilem-lesl coelations lo delermine Ihe presence or absence 01 contenl bias in achivemenl test ilems Comunicacioacuten presentada en la Nationl lnstitute of Education Conference on Test Bias Annapolid MD

lroson G H Y Subkoviak M (1979) A comparision of several methods of assessing item bias Journal 01Educalional Measuremenl 16209-225

Jaeger R M (1987) T~o decades of revolution in educational measurement Educalional Measurement Issues and Praclice 4 6-14

Johnson E G (1989) Theoretical justification of the omnibus measure of differential item functioning En B J King R Bertrand y F A Dupuis A world 01 differences An Inlernalional Assessment 01Mathematics and Science (Technical Report)

Kent T H Y Albanese M A (1987) A comparision of the relative efficiency and validity of tailored tesLSand conventional quizzcs Evalulion and lhe Heallh 01 Prolessions la 167-69

Kiely G L Zara A R YWeiss D J (1983) Alternatelorms reliabilily and concurrenl validity 01adaplive and conventionallesls with mililary recruils Infonne presentado al Navy Personnes Research and Devclopment Center San Diego


Kirn S y Cohen A S (1991) A comparision of two area measures for detecting differential item functioning Applied Psychological Measuremenl 15 3269-278

Kingsbury G G Y Weiss D J (1979) An adaptive lesling stralegy lor maslery decisions (Research Report Ndeg 79-5) Minneapolis University of Minnesota Department of Psych010gy Psychometric Methods Programo

Kingsbury G G Y Weiss D J(1980) A comparis~on 01 adaptive sequential and conventionaltesting strategles lor maslery declSlons (Research Report NO 80-4) Minneapolis University of Minnesota Department of Psychology Psychometric Methods Program Computerized Adaptive Testing Laboratory

Kingsbury G G Y Weiss D J (1981) A validiry comparision 01 ad~ptive ad convenlional strategieslor mastery lestlng (Research Report 81-3) Minneapohs University of Minnesota Jgtepartment of Psychology Computerized Adaptive Testing Laboratory

Kingsbury G G Y Weiss D J (1983) A comparision of IRT-hased adaptive mastery testing and a sequential mastery testing procedure En D J Weiss (Ed) New horizons in testing Latenttrait lesttheory and computerized adaptive testing NewY orlc Academic Press

Kingsbury G G Y Zara A R (1989) Proccdures for selecting items for tomputerized adaptive tests Appied Measurement in Education 2 4 359375

Kingston N M y Stoking M (1986) Psychometric issues in IRT-based test construccion Comurucacioacuten presentada en la reunioacuten de la APA Washington

Kolen M J (1981) Comparison of traditional and IRT methods for equating tests Journal01Educational Measurement18 111

Kolen M J (1988) Traditional equating methodology Educalional Measurement Issues and Practice 7 4 29-36

Kolen M J YWhitney D R (1982) Comparision of four procedures for equating the Test of General Educational Development JOUrnal 01Edllcational Measuremenl 19 4279-293

Koslin B Koslin S Zeno S y Wainer H (I977) The validiiy and reliabiliry 01 the Degree 01 Reading Power Test Elmsford NY Touchstone Applied Sciences Associates

Kunbinger K D (1985) On a Rasch model based test lor noncomputerized adaptive testing Comunicacioacuten presentada en la 13th IPN Conference on Latent Trait and Latent Class Models in Educational Research Kiel

Lawley D N (1943) On problems connected with iacutetem selection and test construction Proceeding 01 the Royal Sociery olEdinburgh 61273-287

Lawley D N (1944) The factorial analysis of multiple iacutetem tests Proceeding 01 the Royal Society 01 Edinburgh 62-A 74-82

Lewis C (1986) Test theory and Psychometrika The past twenty-five yearsPsychomentrika51 11-22

Lewis C Sheehan K (1990) Using bayesian decision theory lo design a computerized masLCry tesL Applied Psychological Measurement14 4 367-386

Linn R L Y Harnisch D L (1981) Intcraction between item Content and group membership on achievement test items Journal 01 Educational Measurement 18 109-118

Linn R L Levine M V Hastings C N y Wardrop J L (1981) Item bias in a test of reading comprehension Applied Psychological Measurement 5 159-173

Lord F M (1975) A suvey 01equating melhods based on item characteristic curve theory (Research BulIeun Ndeg 75-13) Princeton NJ Educational Testing Service

205 204 MJ Navas

Lord F M (1977) Practical applications of item charactenstic curve theory Princeton NJ Educational Testing Service

Lord FM (1980) Applications of item response theory to practical testing problems Hillsdale NI LEA

Lord F M (1982) Standard error of an cquating by IRT Applied Psychological Measurement 64463-472

Lord F M Y Novick M R (1968) Statisticaltheories of mental test scores New York Addison Wesley

Lord F M Y Wingersky M (1983) Comparision of IRT observed-score and true-score -equatings- (Research BuIletin Ndeg 83-86) Princelon NI Educational Testing Service

Lumsden I (1976) Test theory En M R Rosenzweig y L W Poner (Eds) Annual Review of Psychdlogy Palo Allo CA Annual Reviews Inc

Marco G L Petersen N S y Stewart E E (1980) A lest of the adequacy of curvilinear score equating methods En D 1 Weiss (Ed) Proceedings 01 the 1979 CompUlenzed AdaptiveTesling Conference Minneapolis

Marco G L Petersen N S y Stewart E E (1983) A test of the adequacy of curvilinear score equating modeIs En D I Weiss (Ed) New Honzons in Testing LatentlTail theory and computenzed adaptive testing New York Academic Press

McBride I R Y Martiacuten J T (1983) Reliabilily and validity of adaptive ability tests in a military seLting En D I Weiss (Ed) New Horizons in Testing LatentlTait theory and computerized adaptive testing New York Academic Press

McDonald RP (1986) A survey of sorne sludiacutees in methods for the structural anaIysis of multivariate data in Lhe social scienceslnterchange 17225-40

McDonald RP (1989) Future directions for item response theoryJnternacional Journal of Educational Research 132 205-220

MelIenbergh G I (1972) ApplicabililY of the Rasch model in two cultures En L I C Cronbach y P J D Drenth (Eds) Mental tests and cultural adaption The Hague Mouton

MelIenbergh G J (1982) Conlingency tablc modcls for assessing item bias Journal of Educational Statistics 7 105-118

MeIlenbergh G J (1985) Vraag-onzuiverheid definitie delectie en onderzoek (ltem bias Definition detcction and explanaLion) Nederlands Tijdschrift Voor de Psychologie 40425-435

MelIenbergh G J (1989) Item bias and ilem response Lheory International Journa1 of Educational Research 132 127-143

Mershon D H (1982) An inexpensive system for producing examinations with minimal typing and proofreading Teaching ofPsychology 92108-109

Merz W R y Grossen N E (1979) An empirical invesligation of sixmelhods for examining test item bias Informe presentado al National Inslilute of Education GraIl~ NIE-6-78-0067 California State UniversilY Sacramento_

Messick Beaton A y Lord F M (1983) A new designfor a new era Princeton NI Educational Testing Service

Millman J y Arter J A (1984) Issues in ilem banking JournaJ ofEducacional Research 21315-330

MilIs C N y Simon R (1981) A method for determinig the length of cnterionshyreferenced tests using reliability and validity indices (Laboratory of Psychometric and Evaluation Research Repon Ndeg 110) AmherSl MA School of Education Universily of Massachussets


Mislevy R J Y Bock R D (1989) A hierarchical item response model for educational testing En R D Bock (Ed) Multilevd analysis of educational data New York Academic Press

Moreno K E Wetzel C D McBride J R Y Weiss D J (1984) Relationship between corresponding Armed Services Vocational Apitude Bauery (ASVAB) and computerized adaptive testing (CA T) sublests Applied Psychological Measurement 8 155-163

Muntildeiz J (1990) Teoriacutea de respuesta a los Items Un nuevo enfoque en la evoluci6n psicol6gica y educativa Madrid Piraacutemide

Muntildeiz J (1992) Teoria claacutesica de los tesIS Madrid Piraacutemide Muntildeiz J y Hambleton R K (1992) Medio siglo de teoriacutea de respuesta a los ilems

Anuario de Psicol6gica 52 41-66

Nitko A J Y Hsu T C (1984) A comprehensive microcomputer c1assroom testing syslemJournal ofEducational Measurement 21377-390_

OBrien M L Y Hampilos 1 P (1988) The feasibility of creating an item bank from a teacher-made test using theRasch mOdel Educational and PsychologicalMeasurement 48 201-212

Olsen J B (1990) Appying computerized adaptive testing in schools Measurementand Evaluation in Counseling and Development 23 131-38

Oort F J (1992) Using reslIicled faclor analysis lo dCClCCl item bias Methodika VI 150-166

Owen R J (1969) A bayesian appoach to tailored testing (Research Report 69-92) Princeton NJ Educational Tesling Servicc

Owen R J (1975) A bayesian sequential proccdure for quantale response in the eontext of adaptive mental testing Journal of the American Statistical Association 70 351shy356

Osenne D G Gelder N C van y Cohen A J (1974) Emergency school aid act (ESAA) national evaluation achievement test standardization Santa Monica

California Systems Developmem COrporation

Pandey R T (1988) Application of multiple matrix sampling in large-scale assessment programs Comunicacioacuten presentada en el Symposium on Large-Scale Assessments in an Intemational Perspective Deideshcim

Pandey T H Y Carslon D (1983) Applicalion of item response modeIs to reporting assessment data In R K Hamblelon (Ed) Applications of item response theory Vancouver BC Educational Rcscarch Institule of British Columbia

Pauacuteence W (1981) A comparision of latent lrail and equipercentile methods ofvertically equaling tests Comunicacioacuten presentada en la reunioacuten anual del NCME LosAngeles

Petersen N S (1977) Bias inthe selection rule Bias in the test Comunicacioacuten presentada en el Third Internalional Symposium on Educational Testing University of Leyden The NeLherlands

Petersen N S Cook L L Y Stocking M L (1983) IRT versus conventional equating methods A comparative Sludy of scale stability Journal ofEducational Statistics 8 2137-156

Pollit A B (1979) Item banking issues in educatiolal assessment Edinburgh Scottish middotEducatlon DepartmenL

Pollit A B (1985) Ilem banking and school assessmenL En N EntwhisUe (Ed) New Directions in Educational Psychology Easl Susscx England The Falmer Press

206 MI Navas

Popuyk W (1982) A model for an item bank in second language proficiency testing Comunicacioacuten presentada en el 5lh Internalional Congress of Applied Linguisuacutecs Montreal

Raju N S (1988) The area betwccn two item characteristic curves Psychometrika 53 495-502

Raju N S (1990) Deterrnining lhe significance of esuacutemated signed and unsigned areas between two item response functions Applied Psychological Measurement 142 197-207

Raju N S Steinhaus S D Edwardsl E Y Delessio J (1991) A 10gistic regiexclession modcl for personnel selecuacuteon Applied Psychological Measurement 152 139-152

Rentz R R Y Bashaw W L (1977) The Nauacuteonal Reference Scale for Reading An application of lhe Rasch model JournalofEducaJional M easurement 14 161-179

Richardson M W (1936) The relauacuteonship between difficulty aacutend lhe differential validit)r of a test Psychometrika 1 33-49

Rodel L J (1979) CAM~s coordinator manual Hopkins Independent School District274 MN (ED 183580)

Rogers J Y Hambleton R k (1989) Evalualion of computer simulated baseline statistics for use in item bias sludies Educational and Psychological Measurement 49 355shy369

Rubin A y Babbie E (1989) Research methods for social work Belmont CA Wadswonh

Rudner 1 M (1977) Weakly paralell tests in lalent trail lheory wilh sorne criuacutecims of CIT Psychometrika 42 2193-198

Scheuneman J (1979) A melhod of assessing bias in tesl items Journal of Educational Measurement163143middot152

Shearp L A Camilli G Y Averill M (1981) Comparision of procedures for detecting test item bias wilh bolh inlernal and external ability crileria Journal ofEducational Statistics 6317-375

Shearp L A Camilli G y Williams D M (1984) Accounting for statisticaI artifacts in item bias research Joumal of Educational Statistics 9 93-128

Shearp L A Camilli G y Williams D M (1985) Validity of approximation techniques for detecling ilem bias Journal ofEducational Measurement 22277shy105

Sirotnik K (1974) Introduclion lO matrix sampling for lhe practilioner En w J Popham (Ed) Evaluation in Education Current Applications Berkeley CA McCutchen Publishing Corporation

Sirotnik K y Wellinglon R (1977) Indidence sampling An integrated lheory for matrix sampling Journal of Educational Measurement14 4343-399

Skaggs G y Lissitz RW (1986a) IRT tesl equauacuteng Relevant issues and a review of recent research Review ofEducational Research 56 495-529

Skaggs G y Lissitz RW (1986b) An exploration of lhe robustness of four test equauacuteng models Applied Psychological Measurement 10 303-317

Skaggs G y Lissitz RW (1986c) The effecl of examinee ability on tesl equating invariance Comunicacioacuten presentada en la reunioacuten anual de la AREA San Francisco

Skaggs G y LissitzRW (1988) Effect of 0xamine ability on test equating invariance Applied Psychological Measurement 12 169-82

Smilh I L (1985) Content validity study of the AASPB item bank New York Professional Examination Service Division ofRcarch and Development

Teoriacutea de tests W7

Snow R E Y Lohman D F (1989) Implications of cognitive psychology for educational measuremenL En R L Linn (Ed) Educational Measurement NewYork Macmillan

Spearman C (1904) The proof and measurement of association belween two lhings American Journal of Psychology 15 72-101

Spearman C (1907) Demostration of formulae for true measurement of correlation American Journal ofPsychology 18 161-169

Spearrnan C (1913) CorrelaLions of sums and differences British Journal ofPsychology5417426

Speannan C (1923) Tlze nature of intelligence and the principies of cognition LondonEngland Mcmillan and Company Ltd

Spearman C (1927) The abilities ofmano New York Mcmillan Stoking M y Lord F M (1983) Developing a common metric in IRT Applied

Psychological Measurement 7 2201-210

Swaminalhan H y Rogers J (1990) Detecuacuteng differential item funcuacuteoning using Iogistic regression procedures Journal ofEducational Measurement 27 4361-370

Sympson J B Weiss D J Y Ree M J (1982) Predictive validity of conventional ami adaptive tests in an Air Force training environment (AFHRL TR 8140) Brooks Air Force TX Manpower and Personnel Division Air Force Human Resources Laboratory

Theunissen T J J M (1985) Binary programming and test designo Psychometrika 50 411420

Theunissen T J J M (1986) Sorne applications of opLimization algorithms in test design and adaptive testing Applied Psychological MeasurementlO 333-344

Theunissen T J J M Y Verstralen H H F M (1986) Algoritem voor het sarnenstellen van tOCsLsen En W J van der Linden (Ed ) Moderne methoden Voor toetsgebruik en constructie Lisse The Netherlands University of Twente

Thissen D y Mislevy R J (1990) Tcsting algorithms En H Wainer (Ed) CompUlerized Adaptive Testing A Primer Hillsdale NJ LEA

Tognolini J (1982) Pupil achievemem in stage 6 mathematics (Discussion paper N2 15)Perth Education DepartJnent of Weslern Australia

Traub R E YWolfe R G (1981) Latent trait theories and lhe assessment of educauacuteonal achievcment Review ofResearch in Education 9 377435

Tucker L R (1946) Maxium validity of a test with equivalent items Psychomemka 11 1-13

van der Flier H Mellenbergh G J Ader H J YWijn M (1984) An iterauacuteve item bias detection method fournal ofEducational Measurement 21 131-145

van der Linden W J (1986) The changing conception of measurement in educauacuteon and PSychology Applied PSYChological Measurement 104325-332

van der ~inden Y1 J YBoc~ooi-Timminga E (1989) A maximun model for test design wlth practlcal constramts Psychometrika 54237-247

van der Linden W J y Eggent T J H M (1986) An empirical bayesian approach to item banking Applied Psychological Measurement 10345-354

van der Li~den W J Zwarts M A (1989) Sorne procedures for computerized ability testlngmernatlOnal Journal ofEducational Research 13 2 175-187

van Thiel C C y Zwarts M A (1986) Development of a testing service system Applied Psychological Measurement 10 391404

Wainer H (1990) Computerized adaptive testing A primer Hillsdale NJ LEA Warm T A (1978) A primerof IRT U S Coat Guard lnsutute Oklahoma City

208 MI Navas

Weiss D J (1982) Improving measurement quality and efficiency with adapLive tesLing Applied Psychological Measurcment 64473-492

Weiss D J (1983) New horizons in testing New York Academic Press Weiss D J (1985) AdapLive testing by computer lournal of Consulting and Clinical

Psychology 53 774-789 Weiss D J Y Davinson M L (1981) Test Theory and methods Annual Review of

Psychology 32629-658 Weiss D 1 Y Vale C D (1987) Adaptive tesLing Applied Psychology An

lnternational Review 36 34249-262 Wilson-Burt C FitzmanLin R D Y Skaggs G (1986) Baseline strategies in evaluating

IRT item bias indices Comunicacioacuten presentada en la reunioacuten anual de la AREA San Francisco

Willingham WW (1980) New melhods and direcLions in achivement measuremenL New Directionsfor Testing and Measurement 573-80

Wongbundhit Y (1985) ltem banking procedure and quality control in Dade County public schools Comunicacioacuten presentada en la reuninoacuten anual de la AERA Chicago

Wood R (1987) Measurement and assessment in education and psychology Philadelphia PA Falmer Press

Wood R y Skurnik LS (1969) ltcm banking London NaLional Foundation for EducationaI Research

Wright BD (1968) Sample-frec test calibration and person measuremenL Proceedings of lhe 1967 Invitational Conference on Trsting Problems Princeton NJ EducaLionaI Testing Service

Wright BD y Bell SR (1984)ltem banks What why and how Journal of Educational Measurement 21 4331-346

Wright BD Mead R y Draba R (1976) Detecting and correcting item bias with a logistic response model (Rcsearch Memorandum No 22) Chicago University of Chicago Statistical Lab Departrnent of Education

Yen WM (1983) Tau equivalence and equipcrcentile equating Psychometrika 48 353shy369

Yen WM (1986) The choice of scales for educational measurement An IRT perspective Journal ofEducational Measurcment 23299-325

Yoes ME (1990) A comparison of microcomputer-based item parameter estimation procedures used with the 3-parametcr lRT model Comunicacioacuten presentada en la reunioacuten anual del NCME Boston

(Revisioacuten aceptada 1811193)

176

177 MI Nayas

El objetivo del presente trabajo es examinar las semejanzas Ydiferencias entre el modelo claacutesico y los modelos de respuesta al item (Goldstein Y Wood 1989) Para ello en primer teacutennino se realizaraacute un breve recorrido histoacuterico por ambos modelos teoacutericos cuacuteando surgen Y en queacute contexto particular queacute difusioacuten han tenido y porqueacute Ademaacutes se analizaraacute coacutemo abordan el problema central de cualquier teoriacutea de tests la relacioacuten entre la actuacioacuten -observable- del sujeto en el test con la habilidad o rasgo -inobservable- que eacuteste pretende medir En segundo lugar se analizaraacuten las diferencias que existen entre la TCf y la TRI en relacioacuten a aspectos como los supuestos en los que se basa una Y otra el modo en el que se evaluacutea la precisioacuten de la medida la dependenciaindependencia contextual de los paraacutemetros de los modelos etc El tercer apartado estaacute dedicado a estudiar las respuestas que dan estas teoriacuteas a importantes problemas psicomeacutetricos como el estudio del sesgo de los items la equiparacioacuten de puntuaciones Y la construccioacuten de tests examinando para ello los Tests Rereridos al Criterio (TRC) los tests a medida y los bancos de items Para finalizar se haraacuten algunas reflexiones acerca del peso especiacutefico de estos modelos acerca de lo que han supuesto Y suponen realmente la TCT y la TRI en el campo de la medida psicoloacutegica y educativa

INTRODUCCION La TCf ha sido el modelo dominante en la teoriacutea de tests durante gran

parte de siglo y aun hoy en diacutea tiene una vigencia maacutes que notable en el campo de la praacutectica de la evaluacioacuten psicoloacutegica Y educativa Esta teoriacutea arranca de los trabajos pioneros de S pearman (1904 1907 1913) Y se desarrolla en conjuncioacuten con las teoriacuteas sobre la inteligencia No en vano Spearman no es soacutelo el padre de la TCf sino que es tambieacuten el primero en formular una teoriacutea psicoloacutegica de la inteligencia (Spearrnan 1923 1927)

A su vez los oriacutegenes de la TRI se pueden remontar a los trabajos de Thurstone en la deacutecada de los 20 Sin embargo a pesar de la aparicioacuten de trabajos esporaacutedicos en los antildeos 30 y 40 (Lawley 1943 1944 Richardson 1936 Tucker 1946) es en la deacutecada de los 50 y 60 cuando realmente emerge la TRI siendo un hito fundamental en la historia de estos modelos la publicacioacuten en 1968 del libro de Lord y Novick Statictical Theories ofMental Tests Scores que sentildeala el comienzo de la influencia de la TRI A partir de ese momento se multiplican los trabajos con estos modelos se ampliacutea cada vez maacutes su campo de aplicacioacuten aparecen monografiacuteas sobre el tema en las revistas maacutes importantes del aacuterea a la vez que crece considerablemente el nuacutemero de libros y manuales publicados Y se generaliza su uso en grandes empresas y compantildeiacuteas de tests asiacute como en los departamentos de educacioacuten de distintos paiacuteses y estados americanos (Goldstein 1987 Guion e Ironson 1983 Hambleton Swaminathan Arrasmith Gower Rogers y Zhou 1986 Messick Beaton y Lord 1983 Mislevy y Bock 1989 pandey y Carlson


1983 Raju Steinhaus Edwards y Delessio 1991 van Thiel y Zwarts 1986 Yen 1983)

No obstante a pesar de que los oriacutegenes de la TRI son soacutelo un poco posteriores a los de la TCf hay que esperar a la deacutecada de los 80 para asistir a la transicioacuten de la TCf a la TRI (Baker 1989) y es que por un lado la TRI se desarrolla en un contexto bastante diferente al de la TCf su desarrollo no se vincula a teoriacuteas de la inteligencia sino a problemas teacutecnicos en la construccioacuten de tests y en la estadiacutestica matemaacutetica (Embretson 1985) y por otro aunque las ideas no son nuevas el soporte matemaacutetico informaacutetico y tecnoloacutegico necesario para ser aplicada siacute lo es (Jaeger 1987) Es decir soacutelo recientemente se ha dispuesto de la tecnologiacutea necesaria de ordenador para implementar los algoritmos que pemiten estimar los paraacutemetros de estos modelos

Como sentildealan certeramente Gulliksen (1961) Y Lewis (1986) el problema central de la teoriacutea de tests es la relacioacuten entre la habilidad del sujeto y su puntuacioacuten observada en el tests el objetivo de cualquier teoriacutea de tests es realizar inferencias sobre el nivel en que los sujetos poseen la caracteriacutestica o rasgo inobservable que mide el test a partir de las respuestas que eacutestos han dado a los elementos que forman el mismo Es decir para medir o mejor dicho estimar las caracteriacutesticas latentes de los sujetos es necesario relacionar eacutestas con la actuacioacuten observable en una prueba y esta relacioacuten debe de ser adecuadamente descrita por una funcioacuten matemaacutetica

En efecto tanto la TCf como la TRI tratan de estimar o inferir una variable qqe no se puede observar directamente una variable latente la puntuacioacuten verdadera V -en la TCT- y el nivel 8 en el rasgo latente -en la TRI- No obstante conviene notar que V y 8 son el mismo rasgo o habilidad latente si bien expresados en escalas diferentes en distintas meacutetricas Realmente la diferencia entre el modelo claacutesico y los modelos de respuesta al item estriba en la ecuacioacuten que relaciona la variable inobservable con la actuacioacuten observable en el test En el caso de la TCT esta relacioacuten viene expresada por una funcioacuten lineal entre la puntuacioacuten verdadera de un sujeto

en el test y la puntuacioacuten que de hecho ha obtenido (X=V+E) En el caso de la TRI esta relacioacuten viene expresada por una funcioacuten no lineal entre el nivel del sujeto en el rasgo latente y las respuestas dadas a los items del test

n (V(8) = I P (8))

i =1 l middot Esta ecuacioacuten conocida como funcioacuten caracteriacutestica del test es ademaacutes la ecuacioacuten que permite pasar de la meacutetrica del paraacutemetro de habilidad en la TCf a la meacutetrica del paraacutenletro de habilidad en la TRI

En un intento de buscar la unidad subyacente a la diversidad de modelos del anaacutelisis multivariable McDonald (1986 1989) caracteriza a la TRI dentro de los modelos del factor comuacuten y considera que la TCT es solamente un caso especial de la teoriacutea del factor comuacuten Asimismo Weissmiddot (1983) sostiene que la TCf es un modelo de rasgo latente aunque un modelo muy sencillo (p 3) En definitiva lo que se quiere poner de

179

178 MJ Navas








Teoria de tests











180

181 MJ Navas






I 1

I





















185

184 MJ Navas
















187

186 MI Navas














189

188 MI Navas






Teorfa de tests







191

190 MI Navas













Tests a medida



193

192 MJ Navas















Bancos de items



195

194 MJ Navas












197

196 MJ Navas









(






199 198 MJ Navas



ABSTRACT

























201 200 Ml Navas









































203 202 MJ Navas









































205 204 MJ Navas










































206 MI Navas














































208 MI Navas


















179

178 MJ Navas








Teoria de tests











180

181 MJ Navas






I 1

I





















185

184 MJ Navas
















187

186 MI Navas














189

188 MI Navas






Teorfa de tests







191

190 MI Navas













Tests a medida



193

192 MJ Navas















Bancos de items



195

194 MJ Navas












197

196 MJ Navas









(






199 198 MJ Navas



ABSTRACT

























201 200 Ml Navas









































203 202 MJ Navas









































205 204 MJ Navas










































206 MI Navas














































208 MI Navas


















180

181 MJ Navas






I 1

I





















185

184 MJ Navas
















187

186 MI Navas














189

188 MI Navas






Teorfa de tests







191

190 MI Navas













Tests a medida



193

192 MJ Navas















Bancos de items



195

194 MJ Navas












197

196 MJ Navas









(






199 198 MJ Navas



ABSTRACT

























201 200 Ml Navas









































203 202 MJ Navas









































205 204 MJ Navas










































206 MI Navas














































208 MI Navas
































185

184 MJ Navas
















187

186 MI Navas














189

188 MI Navas






Teorfa de tests







191

190 MI Navas













Tests a medida



193

192 MJ Navas















Bancos de items



195

194 MJ Navas












197

196 MJ Navas









(






199 198 MJ Navas



ABSTRACT

























201 200 Ml Navas









































203 202 MJ Navas









































205 204 MJ Navas










































206 MI Navas














































208 MI Navas


















187

186 MI Navas














189

188 MI Navas






Teorfa de tests







191

190 MI Navas













Tests a medida



193

192 MJ Navas















Bancos de items



195

194 MJ Navas












197

196 MJ Navas









(






199 198 MJ Navas



ABSTRACT

























201 200 Ml Navas









































203 202 MJ Navas









































205 204 MJ Navas










































206 MI Navas














































208 MI Navas


















189

188 MI Navas






Teorfa de tests







191

190 MI Navas













Tests a medida



193

192 MJ Navas















Bancos de items



195

194 MJ Navas












197

196 MJ Navas









(






199 198 MJ Navas



ABSTRACT

























201 200 Ml Navas









































203 202 MJ Navas









































205 204 MJ Navas










































206 MI Navas














































208 MI Navas


















191

190 MI Navas













Tests a medida



193

192 MJ Navas















Bancos de items



195

194 MJ Navas












197

196 MJ Navas









(






199 198 MJ Navas



ABSTRACT

























201 200 Ml Navas









































203 202 MJ Navas









































205 204 MJ Navas










































206 MI Navas














































208 MI Navas


















193

192 MJ Navas















Bancos de items



195

194 MJ Navas












197

196 MJ Navas









(






199 198 MJ Navas



ABSTRACT

























201 200 Ml Navas









































203 202 MJ Navas









































205 204 MJ Navas










































206 MI Navas














































208 MI Navas


















195

194 MJ Navas












197

196 MJ Navas









(






199 198 MJ Navas



ABSTRACT

























201 200 Ml Navas









































203 202 MJ Navas









































205 204 MJ Navas










































206 MI Navas














































208 MI Navas


















197

196 MJ Navas









(






199 198 MJ Navas



ABSTRACT

























201 200 Ml Navas









































203 202 MJ Navas









































205 204 MJ Navas










































206 MI Navas














































208 MI Navas


















199 198 MJ Navas



ABSTRACT

























201 200 Ml Navas









































203 202 MJ Navas









































205 204 MJ Navas










































206 MI Navas














































208 MI Navas


















201 200 Ml Navas









































203 202 MJ Navas









































205 204 MJ Navas










































206 MI Navas














































208 MI Navas


















203 202 MJ Navas









































205 204 MJ Navas










































206 MI Navas














































208 MI Navas


















205 204 MJ Navas










































206 MI Navas














































208 MI Navas


















206 MI Navas














































208 MI Navas


















208 MI Navas


















Teoría Clásica de los Tests versus Teoría de Respuesta al Item

Documents

Transcript of Teoría Clásica de los Tests versus Teoría de Respuesta al Item