PONENCIA III - digitum.um.es · PONENCIA III MODELOS DE CONSTRUCCIÓN Y VALIDACIÓN DE INSTRUMENTOS...

50
Revista Investigación Educativa - N.º 23 - 1994 PONENCIA III MODELOS DE CONSTRUCCIÓN Y VALIDACIÓN DE INSTRUMENTOS DIAGNÓSTICOS por Arturo de la Orden Hoz, José Luis Gaviria Soto, Aurora Fuentes Vicente, Ángel Lázaro Martínez Universidad Complutense de Madrid 1. INTRODUCCIÓN Esta ponencia se centra en las alternativas instrumentales en la evaluación diag- nóstica de los alumnos en el contexto del sistema educativo. Independientemente de sus múltiples connotaciones, en este trabajo, identificamos el diagnóstico con la evaluación tendente a la identificación de los procesos mentales que subyacen el funcionamiento cognitivo de los alumnos con la finalidad de determinar el patrón de las representaciones cognitivas de un sujeto y el estadio de su conocimiento y destreza en relación con la competencia total en un campo de instrucción determina- do. Las pruebas existentes hasta ahora han permitido situar a los sujetos en un conjunto de capacidad o competencia global, pero no analizar la estructura cogniti- va propia de un sujeto en un determinado estadio (diagnóstico): Se precisan nuevos test o, más precisamente, nuevos tipos de ítems. La adecuación de un ítem para ser aplicado en un momento determinado dependerá del conocimiento que se tenga del sujeto. Este conocimiento permite elegir en cada momento el ítem potencialmente más informativo. Obviamente, para determinar cuál es la naturaleza de los ítems que se precisa aplicar para incrementar el conocimiento acerca del patrón procesual del sujeto, es necesario partir de un modelo cognitivo de alumno o aprendiz, de modo análogo a como se procede en el diagnóstico médico, partiendo de un conoci- miento de la relación causal entre enfermedad y síntomas como guía para decidir el tipo de pruebas necesarias para detectar ciertos síntomas. En resumen, el desarrollo de una nueva generación de tests diagnósticos no tiende simplemente a conseguir los mismos fines que las pruebas tradicionales con 129

Transcript of PONENCIA III - digitum.um.es · PONENCIA III MODELOS DE CONSTRUCCIÓN Y VALIDACIÓN DE INSTRUMENTOS...

Page 1: PONENCIA III - digitum.um.es · PONENCIA III MODELOS DE CONSTRUCCIÓN Y VALIDACIÓN DE INSTRUMENTOS DIAGNÓSTICOS por Arturo de la Orden Hoz, José Luis Gaviria Soto, Aurora Fuentes

Revista Investigación Educativa - N.º 23 - 1994

PONENCIA III

MODELOS DE CONSTRUCCIÓN Y VALIDACIÓN DE INSTRUMENTOS DIAGNÓSTICOS

por Arturo de la Orden Hoz, José Luis Gaviria Soto, Aurora Fuentes Vicente, Ángel Lázaro Martínez

Universidad Complutense de Madrid

1. INTRODUCCIÓN

Esta ponencia se centra en las alternativas instrumentales en la evaluación diag­nóstica de los alumnos en el contexto del sistema educativo. Independientemente de sus múltiples connotaciones, en este trabajo, identificamos el diagnóstico con la evaluación tendente a la identificación de los procesos mentales que subyacen el funcionamiento cognitivo de los alumnos con la finalidad de determinar el patrón de las representaciones cognitivas de un sujeto y el estadio de su conocimiento y destreza en relación con la competencia total en un campo de instrucción determina­do.

Las pruebas existentes hasta ahora han permitido situar a los sujetos en un conjunto de capacidad o competencia global, pero no analizar la estructura cogniti­va propia de un sujeto en un determinado estadio (diagnóstico): Se precisan nuevos test o, más precisamente, nuevos tipos de ítems. La adecuación de un ítem para ser aplicado en un momento determinado dependerá del conocimiento que se tenga del sujeto. Este conocimiento permite elegir en cada momento el ítem potencialmente más informativo. Obviamente, para determinar cuál es la naturaleza de los ítems que se precisa aplicar para incrementar el conocimiento acerca del patrón procesual del sujeto, es necesario partir de un modelo cognitivo de alumno o aprendiz, de modo análogo a como se procede en el diagnóstico médico, partiendo de un conoci­miento de la relación causal entre enfermedad y síntomas como guía para decidir el tipo de pruebas necesarias para detectar ciertos síntomas.

En resumen, el desarrollo de una nueva generación de tests diagnósticos no tiende simplemente a conseguir los mismos fines que las pruebas tradicionales con

129

Page 2: PONENCIA III - digitum.um.es · PONENCIA III MODELOS DE CONSTRUCCIÓN Y VALIDACIÓN DE INSTRUMENTOS DIAGNÓSTICOS por Arturo de la Orden Hoz, José Luis Gaviria Soto, Aurora Fuentes

Revista Investigación Educativa - N.º 23 - 1994

mayor perfección o eficiencia, sino que, a partir de una reconceptualización del propósito de los tests en general y de la propia función evaluativa, apunta a obtener una información diferente de cada sujeto para responder a las exigencias de mejora de la instrucción. Concretando, el diagnóstico a través de los nuevos tests es conce­bido como un medio para desarrollar un retrato muy elaborado de un individuo en orden a facilitar la toma de decisiones en un proceso de aprendizaje en marcha (Frederiksen, Mislevy y Bejar, 1993).

Para desarrollar una evaluación diagnóstica de este tipo, probablemente (She­pard, 1991) sería necesario girar 180 grados lo que Resnik: y Resnik: (1989) llama­ron presunciones de descomponibilidad y descontextualización de las teorías tradi­cionales del aprendizaje. Los tests no deben pedir la demostración de pequeñas destrezas discretas practicadas aisladamente, sino que deben convertirse en instru­mentos más ambiciosos que intenten detectar las representaciones mentales que los estudiantes tienen de ideas importantes y su facilidad de aplicarlas a la resolución de problemas nuevos.

¿En qué grado, pues, los tests actualmente en uso generalizado y las teorías que los subyacen pueden responder a estas exigencias diagnósticas?

En un informe de investigación, Mislevy (1993a), uno de los más productivos académicos del Educational Testing Service, afirma sin rubor que resulta solamente un poco exagerado describir la teoría de los tests, hoy dominante en la medida y el diagnóstico educativos, como la aplicación de la «estadística del siglo XX a la psicología del siglo XIX». Así, procedimientos sofisticados de estimación y avan­ces teóricos sobre modelamiento de variables latentes, por ejemplo, se aplican a modelos psicológicos que intentan explicar la capacidad para resolver problemas en términos de una variable continua única. Aunque tomadas literalmente estas pala­bras van más allá de lo que parece razonable inferir a partir de un análisis de la realidad, resulta evidente una cierta incongruencia entre las pruebas convencionales y las nuevas finalidades diagnósticas.

El problema básico es que la visión de las capacidades humanas implícita en la teoría convencional de los tests -tanto en la teoría clásica (respuesta verdadera) como en la IRT- no parece compatible con la visión que emerge con gran fuerza y rapidez de la moderna psicología cognitiva y educacional. Los alumnos incremen­tan su competencia no por la simple acumulación de nuevos datos y destrezas, sino por la reconfiguración de sus estructuras de conocimiento, por la automatización de procedimientos y reorganización de la información para reducir peso en la memoria y por el desarrollo de estrategias y modelos que les indican cuándo y cómo los datos y las destrezas son relevantes. Los tipos de observaciones y los patrones en los datos, que reflejan la forma en que los alumnos piensan, realizan y aprenden, no pueden acomodarse a los métodos y modelos tradicionales.

La base, pues, de una nueva teoría de los tests sería la áplicación de los moder­nos métodos estadísticos a modelos psicológicos también modernos.

En realidad, la psicometría es la historia de un proceso de formalización. Pode­mos decir que hay una continuidad básica en el proceso de modernizar la conducta

130

Page 3: PONENCIA III - digitum.um.es · PONENCIA III MODELOS DE CONSTRUCCIÓN Y VALIDACIÓN DE INSTRUMENTOS DIAGNÓSTICOS por Arturo de la Orden Hoz, José Luis Gaviria Soto, Aurora Fuentes

Revista Investigación Educativa - N.º 23 - 1994

de un sujeto al responder a un test. Las tendencias psicométricas actuales intentan superar las limitaciones detectadas en las fases previas del proceso de modelizar alumnos. Estas fases pueden concretarse en la teoría clásica de los tests y en la teoría de respuesta al ítem, que constituyen los antecedentes de las corrientes más recientes.

En la teoría clásica, el test es considerado como un estímulo único, cuya respues­ta observada está incluida en el modelo solamente como una única cantidad, X. Ésta es la única magnitud observable, y el modelo no prejuzga cómo se obtiene esta medida. De hecho, este modelo representa una respuesta observable y cuantificable de los sujetos a cualquier tipo de estímulo, aunque lo más común sea la considera­ción de X como proviniente de la respuesta a un test de lápiz y papel.

La fiabilidad es parte del núcleo fundamental de esta teoría. Se define como la proporción de varianza observada que es varianza verdadera. Como tal, la fiabili­dad, probablemente la más importante característica técnica en esta teoría, es una propiedad del test. Para su definición operativa es preciso la definición de las condiciones de paralelismo. Sólo en el caso de que dichas condiciones se cumplan es posible poner en relación la fiabilidad, una magnitud inobservable, con alguna cantidad observable.

Una nota peculiar de esta teoría, consecuencia de la definición del modelo, es que algo tan común en el trabajo ordinario de los constructores de tests, como los ítems, no está incluido en el mismo. Por esa misma razón el conjunto de técnicas y parámetros con los que ordinariamente se opera cuando se trabaja con los ítems, resulta ser un añadido que no tiene relación formal con el núcleo de la teoría. Así, resulta que las características técnicas de los ítems son cantidades referidas siempre a una muestra específica de sujetos y a un conjunto concreto de ítems. Por esto, el cambio tanto de grupo de referencia, como de ítems determinados con los que uno dado se presenta, hace que cambien sus características técnicas como dificultad y discriminación. En particular la discriminación de un ítem depende de cómo son los restantes ítems del test. La dificultad es función de los sujetos que lo han contesta­do. La dificultad, se define como la simple proporción de respuestas correctas dada al ítem, y está por eso mismo definido en una escala distinta de aquella en la que se presentan las puntuaciones de los sujetos. No hay, en definitiva, ninguna explica­ción del origen psicológico de la dificultad, y ni siquiera está relacionada con la magnitud que el test mide.

Esto nos lleva a hablar del modelo psicológico latente en la Teoría clásica de los tests. No puede hablarse de un único modelo psicológico. Existen razones históricas que han llevado a una determinada formulación, y varios influjos de corrientes psicológicas dominantes en cada período, como el funcionalismo y las teorías factoriales, y el conductismo.

La teoría de respuesta al ítem implica un avance en varios sentidos con relación a la teoría clásica. En primer lugar, el estímulo cuya respuesta se quiere modernizar ya no es un test, sino más bien un ítem. De hecho esta teoría tampoco prejuzga como se obtiene la puntuación de un ítem, aunque lo más frecuente sea referirse a

131

Page 4: PONENCIA III - digitum.um.es · PONENCIA III MODELOS DE CONSTRUCCIÓN Y VALIDACIÓN DE INSTRUMENTOS DIAGNÓSTICOS por Arturo de la Orden Hoz, José Luis Gaviria Soto, Aurora Fuentes

Revista Investigación Educativa - N.º 23 - 1994

ítems de opción múltiple en tests de lápiz y papel. En estos modelos, lo esencial es la curva característica del ítem, que pone en relación la puntuación de un sujeto en una variable latente, con la probabilidad de responder correctamente. Los distintos modelos de respuesta al ítem tienen en general la forma

donde u¡. es la puntuación del sujeto j en el ítem i, siendo 1 si la respuesta es correcta/ y O en caso contrario, a. y b son, respectivamente, los parámetros de discriminación y dificultad del íterri j. J

Una primera ventaja resulta de la integración entre las técnicas de análisis de ítems y las características técnicas de los tests. De hecho en esta teoría los tests son agregados de ítems cuyas características técnicas son acumulativas. La más impor­tante característica es la invarianza de los parámetros de los ítems respecto a las muestras y al resto de los ítems.

Con relación a la dificultad, en la Teoría de respuesta al ítem este importante parámetro sitúa al ítem en la misma escala que las puntuaciones de los sujetos. Aquí se define ya la dificultad en relación a la magnitud latente que queremos medir. La dificultad de un ítem viene dada por aquél punto de la escala en el que se produce la inflexión de la curva característica. Esta definición resulta más clara si la referimos a un modelo de uno o dos parámetros. En ese caso la dificultad de un ítem viene dada por la puntuación para la que la probabilidad de responder correctamente es 0.5. Aunque no hay una explicación causal de la dificultad, ya tenemos al menos una definición más psicológica de la misma. Mientras en la teoría clásica la dificul­tad es simplemente una proporción, una cantidad que es totalmente contingente respecto a la muestra, aquí su definición tiene una mejor interpretación, por una parte, mientras que por otra nos permite situar a los ítems en el mismo continuo que los sujetos.

Los modelos iniciales de IRT no suponen ninguna ruptura con respecto a las ideas psicológicas dominantes en la psicometría anterior, pero su propia formula­ción supone la posibilidad de superar ese marco. Y lo que lo hace posible es que, mientras que en la teoría clásica los supuestos iniciales y enunciados no siempre han estado claramente explicitados, en la IRT los axiomas han sido formulados de forma clara y meridiana desde un primer momento (Lord & Novick, 1968): El supuesto de unidimensionalidad no es más que un caso particular del supuesto más general denominado de «independencia local» o «independencia condicional». Así ex­presado este principio supone que las correlaciones entre los ítems quedan comple­tamente explicadas por el rasgo o variable latente a todos los ítems. Dicho de otra forma, si obtenemos la correlación entre todos los posibles pares de ítems, parciali­zando el rasgo latente, esas correlaciones son cero. Naturalmente lo que se propug­na no es que los ítems de un test no están correlacionados entre sí, sino que lo único que explica que estén correlacionados es la dimensión única que todos miden en común. En definitiva el supuesto de independencia local equivale a conceder carta

132

Page 5: PONENCIA III - digitum.um.es · PONENCIA III MODELOS DE CONSTRUCCIÓN Y VALIDACIÓN DE INSTRUMENTOS DIAGNÓSTICOS por Arturo de la Orden Hoz, José Luis Gaviria Soto, Aurora Fuentes

Revista Investigación Educativa - N.º 23 - 1994

de naturaleza causal a las variables condicionantes. Dados dos fenómenos concomi­tantes, afirmar su independencia condicionada a los valores de cierta variable, equivale a decir que esa variable es la única causa que explica aquellos efectos. La importancia de este supuesto en la causalidad en general ha sido destacada por Pearl, 1988:

« ... la independencia condicional no es una gracia de la naturaleza por la que debemos esperar pasivamente, sino más bien una necesidad psicoló­gica que satisfacemos activamente organizando nuestro conocimiento en una forma específica. Una importante herramienta en tal organización es la identificación de variables intermedias que inducen independencia con­dicional entre [variables] observables; si tales variables no están en nuestro vocabulario, las creamos. En diagnóstico médico, por ejemplo, cuando algunos síntomas se influyen mutuamente de forma directa, la profesión médica busca un nombre para esa interacción (es decir, "sín­drome", "complicación", "estado patológico") y la trata como una nue­va variable auxiliar que induce independencia condicional; la dependen­cia entre dos sistemas interactuantes se atribuye completamente a las dependencias de cada uno con la variable auxiliar.» (p. 44)

La inclusión por tanto de este supuesto confiere a la teoría de respuesta al ítem una cualidad de explicación causal que no estaba presente en los modelos anterio­res.

En definitiva, este supuesto, que es el axioma central de la teoría, nos permite romper con el marco inicial de referencia, ya que podemos pensar en varios rasgos latentes, que en conjunto cumplirían con el supuesto de independencia local. De esta forma se abre la puerta a modelos multidimensionales (McDonald, 1985 para un planteamiento general; Wang, 1985; Wang, 1987 y Reckase,1979, para el estu­dio de las consecuencias de ajustar modelos unidimensionales a datos multidimen­sionales): Y lo más importante es que ahora tenemos unas condiciones que permiten tratar de generar nuevos modelos o adaptar los existentes a las condiciones que impongan las aplicaciones prácticas. Y esto ha ocurrido abundantemente, como veremos. Inicialmente estos modelos, que podríamos llamar de segunda generación, se formulan, la mayoría de las ocasiones, sin pretender modificar los supuestos psicológicos de base. Pero si es posible generar modelos que se adaptan a exigencias prácticas de distinto tipo, se está abriendo la puerta a la posibilidad de hacer lo mismo con relación a las ideas psicológicas repecto al aprendizaje y la cognición.

Uno de los primeros modelos que podríamos llamar «no-estándar» fue el desa­rrollado por Bock (1972): La idea original era que en un test con ítems de opción múltiple, la información de que disponíamos era no sólo la correción o incorrección de la respuesta del sujeto, sino también cuál era exactamente la opción elegida. Así considerado el ítem ya no es dicotómico (l=correcto, O=incorrecto), sino politómico (l ,2,3,4 ... etc):

133

Page 6: PONENCIA III - digitum.um.es · PONENCIA III MODELOS DE CONSTRUCCIÓN Y VALIDACIÓN DE INSTRUMENTOS DIAGNÓSTICOS por Arturo de la Orden Hoz, José Luis Gaviria Soto, Aurora Fuentes

Reyista Investigación Educativa - N.º 23 - 1994

En la misma línea de especificar modelos para otros tipos de respuestas, Same­jima (1969) produjo un modelo, o más bién las condiciones para generarlo, para ítems con respuesta graduada. En estos ítems las respuestas están ordenadas de mayor a menor corrección. El modelo especifica la curva (Trace line) correspon­diente a la probabilidad de responder la opción k u otra superior. Ésta es la función. Esta función puede ser cualquiera de los modelos estándar para ítems dicotómicos, logísticos, de ojiva normal o cualquier otra variante. La curva característica de cada opción, aquella que relaciona la probabilidad de responder exactamente la opción k, viene dada por la diferencia entre dos trace lines

Estos modelos permiten aplicaciones distintas de los tests de conocimientos ordinarios. Se ha comprobado, (Koch, 1983), que el modelo de repuesta graduada de Samejima es muy apropiado para analizar escalas actitudinales tipo Likert. La principal ventaja es que aprovecha al máximo la información aportada por cada ítem, con lo que el error de medida es mucho más pequeño.

Masters (1982), desarrolló otro modelo, denominado «Partial Credit Model». Se trata de otro modelo para respuestas graduadas, Mientras que el de Samejima pertenece al tipo de modelos de diferencias, según la taxonomía de Thissen y Steinberg (1986), el de Masters pertenece a la clase de división por el total según esa misma clasificación l .

Masters y Wright (1984) formularon un modelo más general, que englobaba como casos particulares a otros muchos. El modelo dicotómico, el «Partial Credit», y otros como el «Rating Scale», o el de ensayos binomiales que no hemos mencio­nado aquí, son casos particulares de este modelo general.

Recientemente, Muraki (1992), ha desarrollado otra generalización de este mo­delo, denominada, «Generalized Partial Credit Model», junto con el procedimiento de estimación de parámetros en un programa denominado «Parscale».

Se han formulado muchos otros modelos psicométricos de características simila­res a los mencionados, aunque no los abordaremos aquí.

La nueva psicometría, cuyos antecedentes inmediatos los constituyen algunos modelos como los que acabamos de mencionar, parte de la constatación de que los fundamentos psicológicos utilizados en los modelos psicométricos habituales no son suficientes para representar la complejidad tanto de la estructura de conoci­mientos de los sujetos como de los cambios en esa estructura que el proceso de aprendizaje entraña (Véase por ejemplo S temberg , 1984): Elementos éstos en los que la contemporánea psicología cognitiva ha centrado su atención.

La psicología cognitiva pone su interés en el estudio de la adquisición, organi­zación y representación del conocimiento. Ha tomado como modelo central el de

l A ese mismo grupo pertenece el modelo de Bock para respuestas nominales.

134

Page 7: PONENCIA III - digitum.um.es · PONENCIA III MODELOS DE CONSTRUCCIÓN Y VALIDACIÓN DE INSTRUMENTOS DIAGNÓSTICOS por Arturo de la Orden Hoz, José Luis Gaviria Soto, Aurora Fuentes

Revista Investigación Educativa - N.º 23 - 1994

procesamiento de la información. Debido a esto, en palabras de SNOW y LOH­MAN (1989),

El computador, entonces, se ha convertido en una metáfora para la teoría y un medio para su realización y evaluación.

Los temas clásicos de la psicología cognitiva son el de el reconocimiento de formas, la percepción y la atención, el aprendizaje, la memoria, el razonamiento, la resolución de problemas, el pensamiento, la comprensión y producción de lenguaje y la representación de conocimientos, tanto de naturaleza declarativa como procedi­mental. De todos estos temas probablemente el más recurrente en la literatura es la resolución de problemas, ya que es, no sólo una función mental, sino una actividad que implica a todas las demás funciones mentales. Para Elshout (1985), la resolu­ción de problemas no es un dominio especial, sino una preocupación fundamental de todos los dominios. Pues bien, la resolución de problemas liga íntimamente a la psicología cognitiva con la psicometría. O dicho de otra forma, hace del proceso de respuesta a los ítems de un tests objeto de interés de la psicología cognitiva, pues eso es en sí mismo un proceso de resolución de problemas.

Desde un punto de vista cognitivista, los tests tradicionales de rendimiento, fallan en la evaluación de la arquitectura de las funciones mentales básicas, dado que su criterio de construcción es el contenido del dominio, bajo los supuestos de una cierta homogeneidad del mismo, y de una continuidad en el proceso de adqui­sición de los conocimientos implicados en ese dominio. Los modelos psicométricos elaborados para dichos tests tratan de situar a los sujetos en un continuo. La puntuación que se asigna al sujeto no tiene un claro significado psicológico. Se trata en realidad de un artificio, de un resumen conveniente que refleja una combinación compleja de destrezas, habilidades, conocimientos y otros componentes cognitivos.

Lo que realmente falta en la conceptualización en que se apoya la teoría clásica de los tests son modelos para representar cómo conocen los individuos aquéllo que conocen, cómo hacen aquéllo que hacen y la forma en que incrementan la capacidad de conocer y de hacer. La cuestión no es que los antiguos modelos sobre el nivel de capacidad sean falsos y los nuevos modelos verdaderos, sino que diferentes mode­los son útiles para diferentes propósitos y hemos de desarrollar una teoría general para razonar a partir de las observaciones hacia más amplios modelos de habilidad congruentes con la investigación sobre cognición y capaces de resolver cuestiones educativas a partir de la aplicación de esta teoría.

En resumen, siguiendo a Mislevy (1990), puede afirmarse que, desde el punto de vista diagnóstico, las limitaciones de los tests tradicionales quedan bien reflejados en la frase de Glaser, Lesgold y Lajoie (1987) cuando afirman que los tests (usua­les) pueden (en cierta medida) predecir el fallo de ciertos alumnos sin una compren­sión de lo que causa el éxito; pero, la intervención para prevenir el fallo e incremen­tar la competencia requiere una más profunda comprensión.

Según Snow y Lohman (1993), ahora ya es posible identificar algunas de las

135

Page 8: PONENCIA III - digitum.um.es · PONENCIA III MODELOS DE CONSTRUCCIÓN Y VALIDACIÓN DE INSTRUMENTOS DIAGNÓSTICOS por Arturo de la Orden Hoz, José Luis Gaviria Soto, Aurora Fuentes

Revista Investigación Educativa - N.º 23 - 1994

destrezas procesuales componentes de la capacidad medida por los tests: codifica­ción de estímulos, comparación de facetas, inducción de reglas, aplicación de re­glas, justificación de respuestas, son ejemplos de tales procesos.

Es decir, el análisis cognitivo de los tests proporciona una explicación psicológi­ca de los procesos cognitivos que se producen al enfrentarse con la resolución de las tareas planteadas en los ítems, y por tanto, de la dificultad de los propios ítems. Ésta proviene de varios atributos que el ítem adquiere en el proceso de su construcción. Esa dificultad depende de los componentes cognitivos que el ítem implica. Desde un punto de vista cognitivo nos interesa saber por qué se ha producido determinada respuesta, tanto sea correcta como incorrecta. Se trata de desvelar la caja negra que antes constituía un ítem o un test. Ahora no nos interesa sólo saber si se respondió correcta o incorrectamente a un determinado ítem, que desde un punto de vista cognitivo es una tarea a resolver, sino cuáles son las razones psicológicas, cuál es la arquitectura de conocimientos y destrezas específicas del sujeto, y cuáles los reque­rimientos cognitivos del ítem que explican ese resultado.

Butterfield y otros (1985), mostraron cómo los análisis cognitivos pueden con­ducir a procedimientos para la generación computerizada de ítems diseñados para controlar las diversas fuentes de dificultad. El resultado será diseños de pruebas que ayuden a diagnosticar las incapacidades asociadas con tipos de dificultad determi­nados. Sin embargo, el modelo psicométrico que se precisa para tales tests debe acomodarse a un proceso diagnóstico adaptativo en el que la sucesión de ítems es configurada para cada persona en cada campo específico.

El análisis cognitivo, (Snow y Lohman, 1993), también ha pretendido compren­der el conocimiento proposicional (declarativo) y procesual adquirido por los alum­nos durante la instrucción formal. Un producto típico de la psicología cognitiva es una visión más rica de la organización del conocimiento tanto en su adquisición como en su estructura. Esta visión distingue diversas fases de conocimiento y de adquisición de destrezas. La investigación apunta a diferentes formas de estructura de conocimiento producida por el aprendizaje. Entre estas formas cabe citar redes semánticas, «schemata», prototipos, imágenes y modelos mentales. Estas estructu­ras de conocimiento se forman no únicamente durante el aprendizaje, sino que se utilizan también para razonar sobre lo que está siendo aprendido, para recordar lo que ha sido aprendido y para resolver problemas.

Dado que diferentes clases de estructuras de conocimiento producen diferentes patrones de respuestas y tipos particulares de errores, los tests deben diseñarse para detectar estas diferencias.

Todo ello, además de evaluar la trayectoria del discente desde estados anteriores de conocimiento y destreza hasta la total competencia en un campo a través de la instrucción.

En esta línea, Haertel y Wiley (1993), frente a las tecnologías de las pruebas de elección múltiple, e incluso de la puntuación dicotómica de respuestas abiertas, apuntan a la necesidad de incrementar la atención a las transiciones en el aprendiza­je entre estados de realización de tareas. Un análisis más minucioso de la realización

136

Page 9: PONENCIA III - digitum.um.es · PONENCIA III MODELOS DE CONSTRUCCIÓN Y VALIDACIÓN DE INSTRUMENTOS DIAGNÓSTICOS por Arturo de la Orden Hoz, José Luis Gaviria Soto, Aurora Fuentes

Revista Investigación Educativa - N.º 23 - 1994

de tareas complejas centra la atención en secuencias de estados de realización que conducen, finalmente, a estados terminales que han sido las dianas principales de análisis anteriores. El nuevo marco de referencia yuxtapone las experiencias de aprendizaje en las que toma parte el individuo y los estados de capacidad con que entra en tales experiencias. La interacción de modelos de capacidad con experien­cias de aprendizaje resulta en un nuevo aprendizaje, es decir, se procede a una transición a nuevos patrones de capacidad.

Intentando recoger estas ideas y dar parcialmente respuesta a alguna de ellas se han realizado algunos progresos en la teoría de la medida.Algunos ejemplos muy interesantes son el modelo de Fischer (1973) (véase también Fischer y Formann, 1982) (Linear latent trait model), el de Embretson (1984) (General latent triat model), generalización del formulado en Whitely (ahora Embretson) (1980) (Multi­component latent triat model): Estos son ejemplos de cómo una teoría de los tests diferente puede dar respuesta a una teoría de la complejidad de las destrezas pro­cesuales componentes de la inteligencia.

En el nuevo enfoque se pretende dar respuesta global a todas estas exigencias, recogiendo algunas de las formulaciones mencionadas, e integrándolas en una nue­va teoría general de los tests, cuya característica más sobresaliente es la conciencia de la voluntad expresa de incorporar los conocimientos psicológicos provinientes del análisis cognitivo con el objeto de proporcionar una herramienta útil para mejor integración del diagnóstico y el proceso de aprendizaje.

En esta línea, la naturaleza y el papel de los ítems son concebidos de modo diferente. En la concepción evaluativa tradicional, los ítems son estímulos cuyas características psicométricas conocidas y expresadas a través de sus parámetros nos permiten, por medio de las respuestas que elicitan de los sujetos, situar a estos en el continuo hipotetizado. No existe una forma sistemática de generación de tales ítems, excepto en lo que se refiere al conjunto de contenidos y destrezas que constituyen el referente del continuo Y salvo la de que estén debidamente represen­tados en el test los distintos subconjuntos implicados, no existe una regla para determinar cuál debe ser el contenido específico de un ítem dado.

En el nuevo enfoque, el propio test se convierte en un diseño de observación de tareas, en cuya realización se manifiestan las habilidades puestas en efecto por los sujetos. Los ítems por tanto tienen la forma más adecuada para que se objetiven aquellas acciones que queremos observar. El contenido del ítem o tarea a realizar viene determinado por las necesidades diagnósticas en un momento dado del proce­so de evaluación.

En cuanto a las características psicométricas de los ítems, en el marco tradicional la más importante de todas es la dificultad. En la IRT ésta viene dada por el lugar que ocupa el propio ítem en el contínuo, mientras que en la TCT está definida en una escala distinta de aquélla en la que están situados los sujetos. No existe una explicación psicológica de la dificultad. En este sentido la dificultad de un ítem es una información conseguida siempre a posteriori. Es una magnitud que aparece como un atributo primario del ítem, que sólo puede ser empírica, o inductivamente

137

Page 10: PONENCIA III - digitum.um.es · PONENCIA III MODELOS DE CONSTRUCCIÓN Y VALIDACIÓN DE INSTRUMENTOS DIAGNÓSTICOS por Arturo de la Orden Hoz, José Luis Gaviria Soto, Aurora Fuentes

Revista Investigación Educativa - N.º 23 - 1994

conocido. De hecho, los procesos de estimación de parámetros no dejan de ser procesos inductivos, generalizaciones empíricas que acarrean consigo el error y la incertidumbre.

En esta nueva etapa de la teoría de los tests a la que nos estamos refiriendo, las características psicométricas de los ítems reciben una explicación causal. La dificul­tad de un ítem es una información a priori, que depende causalmente de las instan­cias cognitivas que intervienen en el mismo. El tipo de componentes cognitivos implicados en la resolución del ítem determinan la dificultad del mismo. Por lo tanto, es una magnitud que se deduce, y dado que siempre es una hipótesis, el proceso de estimación de parámetros es más bien un experimento en el que se lleva a cabo una contrastación de teorías. Por esto mismo, la diferencia entre la dificultad propugnada y la dificultad obtenida es una medida de la discrepancia entre nuestro modelo cognitivo y la realidad. En este modelo, el diagnóstico es un proceso constante de construcción de teoría.

Esto nos lleva a hacer algunas consideraciones importantes acerca de la validez. En realidad no se plantea la validez de constructo de forma radicalmente distinta. En esencia la validez de constructo implica la existencia de una explicación teórica de las respuestas obtenidas a un test. Pero mientras que en las teorías estándar de los tests se comprueba a través de la consistencia de las respuestas, en la consideración o enfoque cognitivo no basta con eso. Es preciso también que se dé una explicación de la dificultad de los ítems. Yeso exige un modelo teórico más elaborado, lo que en definitiva habla no sólo de una profundización en la exigencia de la validez de constructo, sino que además ofrece una nueva vía para la comprobación de la misma a través de los contrastes referidos a la dificultad.

No sólo en el nivel de los ítems hay un cambio de perspectiva. Para la medida de procesos cognitivos, la nueva teoría distingue dos aspectos de los tests. Por un lado, los test pueden ser considerados como diseños de observación. Y por otro, las puntuaciones de los tests pueden ser consideradas como productos de diferentes modelos de medida.

El diseño de observación describe los ítems del test, su organización y el tipo de respuesta requerido. El propósito del diseño de observación es estructurar las obser­vaciones de modo que a partir de ellas puedan hacerse inferencias defendibles acerca de constructos teóricos. La construcción de un test requiere compromiso con un diseño particular de observación. Por ejemplo, asume que cierto modelo de proceso subyace la realización de una tarea específica y que este modelo de proceso especifica una serie de componentes procesuales independientes. Dados estos su­puestos las observaciones deben organizarse de tal forma que sea posible una prueba de la independencia de estos componentes procesuales.

El segundo aspecto de la prueba, es decir, el diseño de medida que se refiere al procedimiento para asignar un valor único a un objeto de medida. El análisis de proceso de las tareas cognitivas hace posible especificar múltiples objetos de medi­da, por ejemplo, la realización global de la tarea así como su nivel de competencia en cualquiera de los componentes procesuales. Para cada uno de estos objetos de

138

Page 11: PONENCIA III - digitum.um.es · PONENCIA III MODELOS DE CONSTRUCCIÓN Y VALIDACIÓN DE INSTRUMENTOS DIAGNÓSTICOS por Arturo de la Orden Hoz, José Luis Gaviria Soto, Aurora Fuentes

Revista Investigación Educativa - N.º 23 - 1994

medida se utiliza un modelo que especifica las reglas que han de ser utilizadas para puntuar, clasificar o combinar objetos de observación. Por ejemplo, en la psicome­tría tradicional podía obtenerse una puntuación única del sujeto promediando la realización en todos los ítems. Esto es coherente con un modelo de medida que relega la varianza en la realización en los diversos ítem s al término de error. En el enfoque de procesamiento de la información dar cuenta de la tarea ejecutada nor­malmente conduce a un conjunto más complejo de modelos de medida en que se estiman las puntuaciones para los componentes procesuales que los sujetos utilizan para generar las respuestas o elegir entre opciones de respuesta.

2. LA EVALUACIÓN DIAGNÓSTICA EN EL MARCO DE LA PSICOLO­GÍA COGNITIVA

Si debe existir una característica distintiva del diagnóstico en contraposición con la evaluación tradicional, es precisamente la necesidad de ligar estrechamente el proceso de la evaluación diagnóstica y la instrucción. Un test diagnóstico debe ser útil para la instrucción. Debe proporcionar información instructivamente útil.

Los tests han dejado de ser casi exclusivamente un modo de medir la competen­cia global para la selección y evaluación de los sujetos y ha pasado a ser un modo de recoger información para ayudar en el proceso de aprendizaje y en la instrucción, en definitiva para ayudar a la toma de decisiones educativas.

Los nuevos tests deben responder a los retos que se les plantean. Es necesario disponer de instrumentos y estrategias que permitan conocer lo mejor posible el proceso de comprensión de los sujetos: qué han logrado en ese proceso, qué defi­ciencias sufren, qué aspectos les facilitan un aprendizaje posterior, qué aspectos lo retardan, qué malas interpretaciones y errores obstaculizan su avance, etc. Todo ello con el fin de lograr un verdadero aprendizaje y un adecuado nivel de competencia en un dominio determinado.

Esto exige una nueva teoría de los tests que incorpore los conocimientos propor­cionados por la psicología cognitiva. Es preciso lograr la integración de la teoría psicométrica y la teoría cognitiva. El resultado de dicha integración tiene que ser capaz de dar explicación de las respuestas observables de los sujetos a las tareas que se les planteen, indicador falible, pero único disponible. La nueva generación de modelos psicométricos

... permiten incorporar la teoría cognitiva directamente en el diseño de los tests (Embreston, 1993, p. 148)

Los modelos basados en el procesamiento de la información que se proponen describir cómo los componentes procesuales se organizan en estrategias, deben de alguna manera estimar la acción de cada proceso postulado. Sin embargo, los procesos mentales son inobservables. Deben ser inferidos a partir de patrones de respuestas a lo largo de un conjunto de ítems que se supone requieren diferente

139

Page 12: PONENCIA III - digitum.um.es · PONENCIA III MODELOS DE CONSTRUCCIÓN Y VALIDACIÓN DE INSTRUMENTOS DIAGNÓSTICOS por Arturo de la Orden Hoz, José Luis Gaviria Soto, Aurora Fuentes

Revista Investigación Educativa - N.º 23 - 1994

cantidad de diferentes procesos. Para cumplir esta misión han sido propuestos diferentes diseños.

La evaluación diagnóstica considerada en el conjunto de todas sus fases y procedimientos, es esencialmente un proceso de inferencia. El proceso de diagnós­tico consiste en establecer cuál es la arquitectura cognitiva del sujeto que aprende a partir de las observaciones realizadas en el diseño de observación, ya sea un test, una recopilación de realizaciones personales, un contexto de ejecución efectiva de una tarea, o una simulación. Pero en cualquier caso diagnosticar supone construir hipótesis sobre estados cognitivos latentes del sujeto, y por ende no observables, a partir de realizaciones observables, incluyendo en éstas tanto conductas como, de una forma ligeramente más indirecta, sus resultados. De esta forma el diagnóstico es inferencia, en el sentido dado por Mislevy,

"Inferencia es razonar desde lo que conocemos y lo que observamos hasta explicaciones, conclusiones o predicciones». (Mislevy, 1993b, p. 1)

La teoría de la medición educativa se convierte en este contexto en una herra­mienta al servicio del diagnóstico, siendo éste un proceso continuado de elaboración de hipótesis, extracción de evidencia empírica para contrastarlas, y nueva formula­ción de las mismas. La teoría de la medida desempeña en el proceso de diagnóstico el mismo papel que la estadística desempeña en el contexto de la investigación educativa, lo que refuerza la idea de la naturaleza experimental del proceso de diagnóstico. En este sentido puede entenderse la afirmación de Mislevy,

La teoría de los tests es una maquinaria estadística para extraer hipótesis acerca de la competencia de los estudiantes a partir de su conducta, según una determinada concepción particular de lo que la competencia significa en ese dominio. (Mislevy, 1993c)

La construcción de un instrumento diagnóstico, desde esta nueva perspectiva, podemos afirmar que supone el enfrentamiento con tres problemas básicos (Mis le­vy, 1991):

1. La formulación del modelo. 2. La construcción de las tareas cognitivas a observar. 3. La inferencia a partir de los datos.

2.1. La formulación del modelo

Los datos no son lo mismo que la evidencia. Ésta sólo existe en el marco de una hipótesis. El modelo es la hipótesis que hace que los datos se conviertan en eviden­cia empírica. Es el marco conceptual en el que las observaciones recogidas tienen sentido dentro de determinada teoría del aprendizaje.

Formular el modelo consiste en determinar los estados o niveles de comprensión

140

Page 13: PONENCIA III - digitum.um.es · PONENCIA III MODELOS DE CONSTRUCCIÓN Y VALIDACIÓN DE INSTRUMENTOS DIAGNÓSTICOS por Arturo de la Orden Hoz, José Luis Gaviria Soto, Aurora Fuentes

Revista Investigación Educativa - N.º 23 - 1994

en un dominio de aprendizaje. Estos estados quedan recogidos en un vector-varia­ble, por ejemplo 11. Ese vector representa los parámetros del estudiante. Es una representación simplificada. Los parámetros del modelo especificado deben reflejar diferencias clave en la comprensión de ese dominio, cuáles son los conceptos importantes y cuáles las vías oportunas para entenderlos. Deben recoger diferencias fundamentales en la comprensión del mismo. Tales parámetros deben destacar el desarrollo de la comprensión del sujeto, por lo que en su determinación se ha de tener en cuenta tanto el contenido y estructura de tal dominio como la psicología del aprendizaje correspondiente. Sea cual sea su naturaleza métrica, (no ordenados, parcialmente ordenados, completamente ordenados), deben cumplir la condición señalada: captar distinciones esenciales en la descripción del nivel de comprensión de los sujetos.

Los mapas o modelos cognitivos son específicos de cada dominio, lo que plantea el problema de la gran variedad de los mismos en cuanto a su nivel de estructura­ción. Pues bien, dado un determinado dominio, ¿A qué nivel de «granularidad» con qué nivel de detalle debe representarse la estructura cognitiva del alumno? Una solución consiste en representar los modelos cognitivos a aquél nivel al que puede implementarse la instrucción.

La expresión de Greeno (1976) aclara bien este criterio:

«No es fundamental distinguir entre modelos que difieran en procesos carentes de implicaciones importantes para la calidad del trabajo acadé­mico del estudiante o para progresar en su conocimiento o comprensión»

Lógicamente un modelo de alumno simplifica la realidad. Pero mientras que en la investigación psicológica esto tiene connotaciones relativas a la validez de la teoría, en el diagnóstico la plausibilidad del modelo tiene que ver sobre todo con su utilidad. ¿Recoge el modelo las características necesarias para tomar una deci­sión instructiva adecuada? Esta pregunta es la que determina, como ya se ha señala­do, el umbral de definición del modelo. Ir más allá supondría recoger detalles anecdóticos o estériles. Quedarse más acá supone perfilar modelos demasiado tos­cos para ser útiles.

Un modelo de alumno es una descripción simplificada de ciertos as­pectos seleccionados de una variedad infinita de destrezas y conocimien­tos que caracterizan a los verdaderos estudiantes. Dependiendo de la finalidad, uno puede distinguir desde uno a cientos de aspectos. Podrían expresarse en términos de números, categorías, o alguna combinación.» (Mislevy, 1993c)

La formulación del componente cognitivo de los nuevos modelos de medida implica una metodología de análisis del dominio de conocimientos que se quiere modelizar. Esta metodología aborda dos problemas importantes: la elicitación de

141

Page 14: PONENCIA III - digitum.um.es · PONENCIA III MODELOS DE CONSTRUCCIÓN Y VALIDACIÓN DE INSTRUMENTOS DIAGNÓSTICOS por Arturo de la Orden Hoz, José Luis Gaviria Soto, Aurora Fuentes

Revista Investigación Educativa - N.º 23 - 1994

conocimientos de los sujetos implicados en las tareas relevantes, y la representa­ción de la organización y estructura del mismo.

Hay tres importantes tendencias en la elicitación del conocimiento de un domi-nio:

• Análisis de protocolos verbales durante la acción. (Newell y Simon, 1972): Consiste en grabar el relato que el sujeto hace de la acción al mismo tiempo que la ejecuta.

• Entrenamiento (Coaching): (Gelman y Gallistel, 1978): El sujeto va explicán­dole al observador cómo tiene que hacer para que sea éste último quien desarrolle la tarea.

• Análisis de la comunicación ordinaria de trabajo dentro de un equipo. (Orasanu y Fischer,1992):

En cuanto a la representación de los conocimientos hay dos líneas de investiga-ción:

• Representaciones computacionales de arquitecturas cognitivas. Se trata de codificar un programa de ordenador que lleve a cabo las tareas representadas en un entorno simbólico. Tienen la ventaja de ser representaciones explícitas y completas. Su inconveniente es el costo elevado y la dificultad de realizar representaciones de dominios poco estructurados o altamente declarativos.

• Identificación de diferencias en componentes cualitativos del conocimiento. Consiste en identificar las diferencias cualitativas en el conocimiento que van asociadas con el éxito en la realización de tareas. Para ello se realizan compa­raciones entre esquemas desarrollados por novatos y por expertos.

Los modelos a que nos referimos aquí deben incluir tanto un conjunto de pará­metros que reflejen el esquema mental que queremos representar, producto del análisis cognitivo del dominio de conocimientos (TI), como una estructura que simbolice la relación de probabilidad condicional de ese esquema con las tareas en que se pone de manifiesto, P(xITl): Las representaciones que deben construirse en este contexto deben contar con dos elementos: una figuración razonable de la complejidad del proceso cognitivo y un mecanismo adecuado para tratar la incerti­dumbre derivada del hecho de que no hay una relación unívoca entre los desempe­ños de los alumnos en las tareas observadas y sus estados cognitivos latentes.

y para dicha caracterización y diferenciación de parámetros básicos, es fácil de entender la ayuda que proporcionan los avances en el análisis de las estructuras de conocimiento que hemos mencionado, así como en el análisis de la estructura fina de las habilidades que condicionan la ejecución de los sujetos y de los procesos por los que se adquieren.

Son buen ejemplo en este sentido los trabajos que sugieren «esquemas» de esa conceptualización, los que proponen pautas para evaluarlos (Marshall 1990, 1993), o la valiosa aportación de Haertel y Wiley (1993): Estos últimos autores desglosan las características de las estructuras de habilidades latentes y tareas observadas en que se proyectan y, lo que es más importante, tratan explícitamente las diferentes relaciones que se pueden dar entre unas y otras.

142

Page 15: PONENCIA III - digitum.um.es · PONENCIA III MODELOS DE CONSTRUCCIÓN Y VALIDACIÓN DE INSTRUMENTOS DIAGNÓSTICOS por Arturo de la Orden Hoz, José Luis Gaviria Soto, Aurora Fuentes

Revista Investigación Educativa - N.º 23 - 1994

Como consecuencia de lo anterior podemos afirmar que el proceso de construc­ción de un modelo de alumno tiéne dos fases:

• Definición. Consiste en determinar qué elementos forman parte del modelo y cuales son sus relaciones estructurales. Entre los elementos deben incluirse necesariamente un conjunto de tareas observables y un conjunto de estados no observables. El modelo debe especificar cómo los segundos determinan los primeros. Los parámetros auxiliares2 (~) del modelo son las magnitudes que nos permiten cuantificar ese influjo. En buena lógica debe ser el modelo la instancia en la que se especifique cuáles son las tareas observables que el modelo va a explicar, aunque en muchas ocasiones se construye para explicar tareas definidas con anterioridad, en función de criterios, a veces pragmáti­cos, a veces económicos, pero en cualquier caso exteriores a la teoría cogni­tiva referida al dominio.

• Operacionalización. Consiste en la asignación de valores a los parámetros auxiliares del modelo. En ocasiones esos valores se deducen de la propia teoría en la que se encuadra. Por ejemplo, en el modelo generativo de BEJAR para los tests de rotación mental que mencionamos más adelante, la dificultad está asociada a la disparidad angular entre las figuras. En ese caso los valores propuestos de los parámetros son una hipótesis derivada de la teoría. Una labor necesaria entonces consiste en el contraste de esa hipótesis. En otras ocasiones, las más numerosas, se desconoce el valor de los parámetros men­cionados. Es necesario proceder por tanto a su estimación. El modelo está completamente operacionalizado cuando han sido determinados de uno u otro modo los valores de todos sus parámetros auxiliares, obteniéndose además en el proceso, información acerca de la incertidumbre asociada con esos valores.

2.1.1. Elementos de los modelos

Hay una estrecha relación entre el concepto de rasgo en la psicometría tradicio­nal, las relaciones entre varios de ellos, y las técnicas empleadas para estudiar esas relaciones. Así, las estructuras de relaciones entre varios rasgos son siempre corre­lacionales, que es lo mismo que decir relaciones simétricas. En ese contexto no es posible hablar por ejemplo de relaciones de prerequisitos o de contingencia.

El análisis cognitivo de los tests implica utilizar dos conceptos de gran utilidad. Se trata de las tareas cognitivas y las habilidades. Una tarea es una actividad que persigue un objetivo, tiene una duración temporal determinada, y existe un criterio por el que juzgar si se ha alcanzado el objetivo. Una tarea es observable. Una tarea puede ser simple o compleja. Es compleja cuando puede dividirse en varias subta­reas, cada una con un objetivo parcial distinto de las demás. Las tareas pueden

2 Ese conjunto de parámetros auxiliares serán, por ejemplo, los correspondientes a los items en la IRT. Su valor es estrictamente instrumental, puesto que el objetivo del diagnóstico es realizar inferencias sobre los sujetos, no sobre las tareas.

143

Page 16: PONENCIA III - digitum.um.es · PONENCIA III MODELOS DE CONSTRUCCIÓN Y VALIDACIÓN DE INSTRUMENTOS DIAGNÓSTICOS por Arturo de la Orden Hoz, José Luis Gaviria Soto, Aurora Fuentes

Revista Investigación Educativa - N.º 23 - 1994

evaluarse como mínimo en dos estados, éxito o fracaso. Si una tarea compleja tiene varias subtareas, el estado de consecución de los objetivos de cada una de ellas determina los distintos estados que puede tomar la tarea compleja. Esos distintos patrones posibles determinan un conjunto ordenado, o al menos parcialmente orde­nado.

Por su parte las habilidades son aquellos conocimientos o destrezas requeridos para llevar a cabo ciertas tareas específicas. La relación más simple consiste en una habilidad que es necesaria para realizar una tarea. Pero es posible que para realizar una tarea compleja sea preciso poseer varias habilidades, y también es posible que una habilidad permita realizar varias tareas. En el caso más sencillo una habilidad puede tener dos valores, presente o ausente. Una habilidad puede ser también compleja, y componerse de varias habilidades de orden inferior. Ese conjunto será como mínimo parcialmente ordenado. Pueden darse relaciones de sucesión, contin­gencia, contingencia conjunta, adyacencia, ligazón y no ordenamiento entre las habilidades, independiente de la estructura que tengan los patrones de las tareas (Haertel y Wiley, 1993):

Así como las tareas y sus grados de realización son manifiestas, las habilidades son latentes. El proceso de medida consiste por tanto en el establecimiento de una relación entre el patrón de estados manifiestos de las tareas, y el patrón de estados latente de las habilidades. En ese proceso, y desde este punto de vista cognitivo, es fundamental la fase de diseño del test, que no es ni más ni menos que la preparación de las tareas de forma que se haga patente la estructura latente de las habilidades. Haertel y Wiley (1993), proponen la creación de un álgebra que sirva para crear estructuras complejas de tareas que puedan ligarse a estructuras de habilidades. Este álgebra serviría para articular el papel de la estructura de tareas en la fase de asignación de puntuaciones, de forma que la los distintos estados o patrones de las habilidades se hiciesen manifiestos.

En definitiva un ítem es un conjunto de tareas. Esas tareas pueden identificarse con los ítems individuales, o puede que varias de ellas estén implicadas en un sólo ítem, o una sóla tarea implicar a varios ítems. Tanto las tareas como las habilidades latentes pueden ser de naturaleza dicotómica, o, pasando por los estados interme­dios, de naturaleza contínua, en el otro extremo. Para cada una de las combinaciones que produce este conjunto de posibilidades, necesitamos un modelo psicométrico distinto. Algunos modelos existentes se han adaptado, y otros modelos nuevos han sido creados cuando ha sido preciso.

Una vez realizado el análisis cognitivo del dominio, el problema de la determi­nación de los patrones de respuesta que debe explicar el modelo se resuelve por medio del criterio de relevancia instructiva. Una vez determinadas las variables que sirven de criterio para la definición de los diferentes estados manifiestos, nos encontramos que la enumeración exhaustiva de las combinaciones de sus valores puede dar lugar a un universo de elementos de muy distinta relevancia instructiva. Hay dos fuentes de diferenciación. Por una parte tenemos los patrones producidos por errores sistemáticos en la aplicación de reglas o procedimientos. La otra fuente

144

Page 17: PONENCIA III - digitum.um.es · PONENCIA III MODELOS DE CONSTRUCCIÓN Y VALIDACIÓN DE INSTRUMENTOS DIAGNÓSTICOS por Arturo de la Orden Hoz, José Luis Gaviria Soto, Aurora Fuentes

Revista Investigación Educativa - N.º 23 - 1994

son los errores aleatorios debidos posiblemente a factores espurios como falta de concentración, condiciones ambientales adversas, etc.

Una forma de resolver el problema del modelo de los diferentes estados cogniti­vos consiste en asignar a cada ítem un conjunto de atributos. Los estados se definen por las distintas combinaciones de presencia-ausencia de los atributos (Matriz Q): Aquí tenemos un problema, que es el de los falsos positivos y los falsos negativos. Un modelo determinístico no entraña estas consideraciones. Pero en un modelo probabilístico esto debe tenerse en cuenta. Entonces tenemos que a cada patrón de tareas no corresponde exáctamente un patrón de habilidades. Por eso debemos desarrollar algún método para detectar a partir de los patrones observados los patrones reales. Es decir, se trata de determinar qué patrones de tareas o respuestas, de entre las observadas, corresponden realmente a estados latentes de conocimiento.

Dos soluciones distintas: • Una ingenua, en la que el enrejado de patrones se determina a partir de los

patrones más frecuentes. Se considera que los menos frecuentes se deben al error. (Haertel y Wiley, 1993).

• Otra más sofisticada, la de Tatsuoka (1990), consiste en asignar a cada patrón observado dos cantidades {e,~}, siendo éste último un valor de «rareza». Es decir, dado un patrón de respuestas x={1,l,O,l,O,O, .... ,O,1}, a ese patrón le corresponde un valor de estimación máximo-verosímil de e. Pero también se calcula un valor de que expresa lo raro que para el valor estimado de e resulta el patrón de respuestas observado.

2.1.2. Estructura de los modelos

Cuando nos encontramos en el nuevo paradigma, algunos modelos desarrollados en el anterior pueden ser reinterpretados, adquiriendo un nuevo significado. Esto es algo muy común en la historia de la ciencia. Por ejemplo, la mecánica relativista tiene una capacidad explicativa mucho mayor que la mecánica Newtoniana. Pero en el nuevo marco establecido por la primera, la segunda se convierte en. un caso particular, siendo de gran utilidad cuando los objetos mantienen velocidades peque­ñas en relación a la velocidad de la luz. Cualquier moderno manual de física general presenta y desarrolla los principios de la mecánica clásica, si bien además incluirá la mecánica cuántica y la relativista.

Con relación a las nuevas ideas acerca del diagnóstico que estamos presentando, ocurre algo similar. Tenemos modelos que se han desarrollado en la fase anterior que resultan ser de utilidad en el nuevo paradigma. El «Multicomponent Latent Trait Model» resulta ser un ejemplo de modelo generativo, en el sentido señalado por Bejar (1993): El modelo explica y predice cómo se produce la dificultad del ítem en función de los componentes cognitivos que implica. Modelos en los que para su formulación ni siquiera se tuvo en cuenta la complejidad cognitiva del contexto pueden ser utilizados en una forma nueva. Los siguientes son dos ejemplos en esta línea.

145

Page 18: PONENCIA III - digitum.um.es · PONENCIA III MODELOS DE CONSTRUCCIÓN Y VALIDACIÓN DE INSTRUMENTOS DIAGNÓSTICOS por Arturo de la Orden Hoz, José Luis Gaviria Soto, Aurora Fuentes

Revista Investigación Educativa - N.º 23 - 1994

1 0.9 0.8 0,7

i 0.6 ~ 0,5 ¡... OA

0,3 0,2

0.1

Identlflcacl6n de numardes.

... _-

...... •• _u •• #_ ••••• ~ •••• _ ....... ..

u ......

I

/ I

/

,."..,.,-- ------ ... -//

/ r------,

--- Ning.no

.................... Saoel3

---Saoel4

···3y4

O~~~~~~~~~~~~~~ ~~.-=~~~~~=~~~~~~~~~~ '~~~~~~qqq =QQ~~~NNN

Theta

En el primero, Thissen (1993), propone una recodificación de los datos, de forma que se crean pseudoítems, cuyas alternativas reflejan mejor algún constructo psicológico. Por ejemplo con la identificación y correspondencia de los numerales 3 y 4 con los conjuntos correspondientes (Bergan & Stone, 1985): A partir de varios ítems tradicionales crea dos pseudoítems. El primero se refiere a la identificación de los grafismos correspondientes al 3 y el 4. Las puntuaciones de ese pseudoítem son las categorías, «Ninguno», «Sólo el 3», «Sólo el 4», y «El 3 y el 4». El segundo se refiere a si los niños conocen la correspondencia entre los numerales y las cantida­des de referencia. Las categorías del pseudoítem son las mismas. Para modelizar las respuestas a estos pseudoítems utiliza el modelo de Bock (1972) que ya ha sido mencionado con anterioridad.

r; (e) = • exp(a,e+ c,,) L(exp(ate+ct) t-l

Donde Tx es la curva de la opción x y m el número de opciones del ítem.

En otro ejemplo, (Klassen & o'Connor, 1987) sobre salud mental, se pretendía estudiar el comportamiento potencialmente violento de personas con historial de ese tipo de problemas. Se crean también dos pseudoítems. Uno con cuatro categorías referidas a la edad de la primera admisión por comportamiento violento, y otro con cuatro categorías referidas al número de eventos violentos anteriores. Para modeli­zar esto se usa el modelo de respuesta graduada de Samejima (1969): el modelo es

146

Page 19: PONENCIA III - digitum.um.es · PONENCIA III MODELOS DE CONSTRUCCIÓN Y VALIDACIÓN DE INSTRUMENTOS DIAGNÓSTICOS por Arturo de la Orden Hoz, José Luis Gaviria Soto, Aurora Fuentes

Revista Investigación Educativa - N.º 23 - 1994

con las restricciones ~ = 1 Y r:+l = O, siendo r.. la probabilidad de obtener la categoría x o superior. Las curvas divisorias para cada categoría se obtienen, tal y como hemos señalado con anterioridad, por

~ (8) = ~. (8) - T:'l (8).

(Para obtener la ecuación T;, se codifican los datos con 1 si la respuesta fue x o superior, y con O si la respuesta fue inferior a x).

El único requisito para la creación de estos pseudoitems, es que las relaciones entre los datos observados estén explicadas por la variable latente (es decir, el supuesto de independencia local o condicional): En los dos casos se calcula las EAP(e) (<<Expected a posterior»), que son las estimaciones de las puntuaciones e correspondientes a cada combinación de valores.

Hay otros ejemplos en los que se desarrollan modelos psicométricos para reflejar una estructura cognitiva compleja. Por ejemplo el modelo híbrido (Yamamoto, 1987) supone la existencia de varios estados latentes discretos bien diferenciados entre sí, y una clase consistente en una dimensión contínua para acomodar a los sujetos que no se adapten bien a ninguna de las clases definidas. El dominio de conocimientos está por tanto dividido en dos subconjuntos. En el primero de ellos las clases están ordenadas. Las clases ordenadas están representadas por un modelo IRT. El otro subconjunto está formado por las clases no ordenadas, y están repre­sentadas por un modelo de clase latente en el que un conjunto de probabilidades condicionales caracterizan cada clase unívocamente, junto con una estimación de la proporción de individuos mejor descritos por cada una de las clases.

Supongamos que el modelo IRT adoptado es el de dos parámetros, siendo i el vector de parámetros (a¡, b) del ítem ~i. La probabilidad de respuesta correcta a dicho ítem dado e., viene dado por el modelo logístico habitual

)

La probabilidad de una respuesta correcta al ítem i dada una clase latente k, se denota por P(x¡=lly=k):

Si hacemos que la clase y= 1 corresponda a aquélla modelizada por la función logística (IRT), entonces la probabilidad marginal del patrón de respuestas observa­das x, bajo el supuesto de independencia condicional tanto en el modelo IRT como en el de clase latente, viene dada por

147

Page 20: PONENCIA III - digitum.um.es · PONENCIA III MODELOS DE CONSTRUCCIÓN Y VALIDACIÓN DE INSTRUMENTOS DIAGNÓSTICOS por Arturo de la Orden Hoz, José Luis Gaviria Soto, Aurora Fuentes

Revista Investigación Educativa - N.º 23 - 1994

K

P(x I C) = LP(X I C, y = k)P(y = k) pl

= r~ 18.~)f(9)d9P(y=1)+ ±P(X I t,y = k)P(y = k) ~ ~ ~2

1 0,9

0,8

0,7

i 0.6 ~ 0.5 ~OA

0,3

02 ............. ..-...... .

Correspondenda de numeraes

---NI~

·····················304

---3y4

0,1 O~~=F~~-+~+-~-+~+-~~~~

~~ .. ~~~~~~~c~~~~~~~~~M ~~~~~~qqq CCC~~~NNN

Theta

Figura 2 Segundo ejemplo de modelo de Bock para Ífems politómicos.

Yamamoto (1991) realiza la evaluación de este modelo con los datos de una investigación de Gitomer y Van Slyke (1988), sobre la habilidad de técnicos elec­trónicos para interpretar símbolos de sistemas electrónicos digitales correspondien­tes a puertas lógicas.

El análisis cognitivo de las respuestas de los sujetos puso de manifiesto la existencia de errores sistemáticos en series de ítems que compartían ciertas caracte­rísticas identificables. Estos errores sirvieron como base para la determinación de un conjunto de clases latentes. La pertenencia a determinada clase implica la reali-

148

Page 21: PONENCIA III - digitum.um.es · PONENCIA III MODELOS DE CONSTRUCCIÓN Y VALIDACIÓN DE INSTRUMENTOS DIAGNÓSTICOS por Arturo de la Orden Hoz, José Luis Gaviria Soto, Aurora Fuentes

Revista Investigación Educativa - N.º 23 - 1994

zación sistemática de los mismos errores que los demás sujetos perteneciendo a esa misma clase. Otros sujetos no cometían errores sistemáticos que permitiese asignar­los a una de las clases previamente determinadas. El modelo híbrido descrito permi­te clasificar a los sujetos en uno de los grupos que cometían errores sistemáticos, o a un valor de la variable si eran asignados al grupo modelizado por IRT. Como resultado de esa clasificación es posible tomar decisiones instructivas para corregir las posibles concepciones erróneas de los sujetos acerca de las reglas de operación.

2.2. La construcción de los ítems

Es preciso diseñar situaciones de observación que permitan inferir el estado de comprensión de los sujetos. Serán los estímulos que provoquen las respuestas de los mismos, expresión, a su vez, de los niveles y naturaleza de su conceptualización en el dominio de que se trate.

El supuesto actuante es que los sujetos que difieren en estados de comprensión probablemente actúan de diferente modo, sus conductas observables son diferentes. Es fundamental, por tanto, la construcción de ítems que permitan poner de manifies­to estas diferencias. Serviría de poco el esfuerzo realizado en la especificación de modelos en la primera fase, si no se viera acompañado en esta segunda por la construcción de tareas que evidencien las variables implicadas.

La simple selección de los elementos de observación sólo en función de su contenido, no sería una actuación acorde con el objetivo propuesto. Que se conoz­can sus demandas cognitivas es una exigencia razonable y coherente en el diseño del test o de las situaciones de observación en esta nueva orientación psicométrica. (Yamamoto, 1993; Snow y Lohman, 1993; Haertel y Wiley, 1993).

La base para inferir el estado de comprensión de un sujeto la proporcionan las probabilidades condicionadas de los diversos tipos de conducta que puede mostrar, dado el estado de comprensión que posea. En su expresión como P(xl11), lo observa­do es x, y 11 los parámetros latentes.

Las observaciones x pueden ser de diferente naturaleza: evaluación de un exper­to, rapidez de una respuesta, características de cualquier realización del sujeto, etc.

Diferencias en estas probabilidades condicionadas, asociadas a diferentes confi­guraciones de los parámetros, reflejan la eficacia de cada ítem. Un ítem puede ser muy útil para distinguir entre algunos aspectos de los modelos potenciales de los sujetos pero menos para distinguir entre otros.

El tipo de ítem más oportuno depende de la inferencia a realizar. No hay un solo «mejor» método para recopilar datos, sino sólo métodos más o

menos efectivos. Tradicionalmente han sido los tests construidos a base de ítems de opción múltiple los instrumentos más extensamente construidos, utilizados y estu­diados. Una reacción en contra de la estandarización es el movimiento de evalua­ción basado en las ejecuciones prácticas, conocido como «Performance Assess­ment». Como reacción pendular se pasa del extremo de la máxima igualación que permite la equiparabilidad de resultados, a la ausencia total de diseño previo de las

149

Page 22: PONENCIA III - digitum.um.es · PONENCIA III MODELOS DE CONSTRUCCIÓN Y VALIDACIÓN DE INSTRUMENTOS DIAGNÓSTICOS por Arturo de la Orden Hoz, José Luis Gaviria Soto, Aurora Fuentes

Revista Investigación Educativa - N.º 23 - 1994

respuestas a las tareas propuestas. Realmente hay una cantidad ingente de concep­ciones distintas englobadas bajo este epígrafe. En cualquier caso es común a todas ellas el que no interesa tanto la solución al ítem como los procesos utilizados por el alumno para encontrarla. La respuesta que se pretende elicitar es una respuesta de construcción y elaboración más que de elección. Por ello los ítems aplicados son de ejecución práctica de tareas. El diseño de observación implica una distinta configu­ración del entorno de examen (Ruiz Primo, Baxter y Shavelson, 1993):

• una presentación de nuevos tipos de problemas. • una provisión de materiales adicionales para realizar las posibles operaciones

reclamadas (laboratorios, instrumentos de cálculo, etc.), al contrario que en los tests clásicos, que el sujeto se enfrentaba a las cuestiones con su bagaje personal de conocimientos.

• una realización de ejercicios que impliquen operaciones tales como búsqueda de fuentes, aplicación de técnicas aprendidas, realización de destrezas.

En este tipo de evaluación, una nota característica es que, al no haber un conjun­to cerrado y predeterminado de respuestas posibles, no se puede establecer de antemano los criterios de valoración de las mismas. En teoría esas respuestas forman un conjunto infinito. Desde un punto de vista técnico la principal dificultad estriba en cumplir el requisito de equidad en la valoración de las distintas respuestas de los sujetos. El juicio que realizan el o los jueces debe encuadrarse en un marco conceptual común a todos ellos. De otra forma es imposible hablar de comparabili­dad de resultados. Para lograr esta comunidad se hace imprescindible una seria y costosa labor de preparación de los evaluadores, a base de ensayos previos, de simulación, de análisis de casos, etc. Yeso en esencia es otra forma de estandariza­ción.

Podemos concluir que la estandarización no es sinnónimo de opción múltiple. La estandarización tiene como objetivo lograr la igualación en las condiciones de evaluación, de forma que se disminuya la incertidumbre sobre los resultados. Pue­den estadarizarse muchas facetas distintas; los ítems, las condiciones de aplicación, los criterios empleados por los jueces, etc. Las dificultades del «Performance Asses­sment» no vienen de la ausencia de estandarización, sino de la ausencia de un modelo cognitivo previo. El criterio que nos permite hablar de dos tipos distintos de evaluación diagnóstica es precisamente la existencia o no de un modelo cognitivo previo del alumno. Podemos hablar entonces mejor de evaluación con y sin modelo. Un buen ejemplo de cómo es posible la evaluación de ejecuciones prácticas, con un modelo previo, y la posibilidad de reducción de la incertidumbre en un contexto de «evaluación de dossieres» (<<portfolio assessment») de trabajos artísticos, lo consti­tuye el trabajo citado por Mislevy (1993c) en el que se utilizan técnicas de control de calidad para detectar el «ruido» producido por las distintas fuentes actuantes en el proceso.

En cuanto a un formato más tradicional de evaluación, los ítem s de opción múltiple, podemos decir que son muy eficientes en cuanto a coste y en la ordena­ción en una dimensión. Sin embargo es dudosa su utilidad en lo referido a la

150

Page 23: PONENCIA III - digitum.um.es · PONENCIA III MODELOS DE CONSTRUCCIÓN Y VALIDACIÓN DE INSTRUMENTOS DIAGNÓSTICOS por Arturo de la Orden Hoz, José Luis Gaviria Soto, Aurora Fuentes

Revista Investigación Educativa - N.º 23 - 1994

identificación de estructuras de conocimiento y de los nodos o conexiones perdidas o erróneas. Se presentan en muchas ocasiones como alternativa las preguntas de respuesta abierta. Una comparación realizada por Birembaum y Tatsuoka (1987) entre Ítems de opción múltiple y de formato abierto con resta de fracciones, demos­tró que la diferencia de formato no era importante si se juzgaba en términos tradi­cionales de fiabilidad y rendimiento medio general. Pero sí era muy importante si se juzgaba desde su diagnosticidad con relación a los errores de los estudiantes, a pesar de que los ítems de opción múltiple fueron construidos para presentar los más comunes.

En general, las alternativas a los ítems de opción múltiple son mejores cuando existe un modelo alternativo de alumno y existe una relación lógica entre las tareas a observar, el modelo de alumno sobre el que inferir a partir de esas tareas, y el método de inferencia. No basta con cambiar de tarea a observar si no se cambia de modelo de alumno. Éste es un conjunto de estados de estructuras de conocimientos y destrezas cognitivas. Es una estructura formal. Y debemos ser conscientes de esto, porque si lo que hacemos es eliminar los ítems de opción múltiple o la exigencia de mantener ciertas características técnicas de nuestros instrumentos de medida para seguir puntuando a los alumnos en una escala de cero a diez, no hemos cambiado de modelo latente de alumno, pero hemos rebajado la fiabilidad y la validez de nuestro proceso de medida. Y parafraseando a Messick (1992), no debemos olvidar que la validez no es sólo un problema de relevancia técnica, sino de relevancia social. El que un instrumento sea fiable y válido es un problema de naturaleza moral, de responsabilidad ética de quien lo construye y aplica, en definitiva de quien hace el diagnóstico, individualmente, con cada uno de los alumnos que lo responden, y en conjunto, con la sociedad a la que se sirve.

Por todo ello la naturaleza de las tareas que el tests o el diseño de la situación de observación debe incluir vendrá determinada por las necesidades inferenciales del proceso diagnóstico. Así, mientras que las teorías estándar de los tests se centran en las respuestas a los ítems, no en su contenido, la psicología cognitiva exige el centrar la atención sobre el contenido de los ítems, y su interrelación con las respuestas. El análisis cognitivo del contenido y la determinación de tareas y destre­zas implicadas en los ítems, es una característica de esta tendencia.

Por otra parte, en el enfoque tradicional un buen ítem es aquél que discrimina bien entre sujetos. Ahora es preciso que un ítem aporte «diagnosticidad», es decir, capacidad diagnóstica. Es preciso saber por qué un alumno responde mal a un ítem dado, qué proceso cognitivo ha fallado, qué tarea no se ha realizado, qué conoci­miento faltaba, o qué componente cognitivo no estaba presente. Esto hace que en los nuevos modelos haya una mayor focalización en los tests como conjuntos jerarquizados, interrelacionados de ítems. La posibilidad de realizar diagnóstico cognitivo depende de la información proporcionada por varios ítems simultánea­mente. Yesos ítem s no pueden provenir de un pool «amorfo» y unidimensional. El test se convierte en una estructura de tareas, en una red de ítems en la que «pescar» los distintos estados de los alumnos.

151

Page 24: PONENCIA III - digitum.um.es · PONENCIA III MODELOS DE CONSTRUCCIÓN Y VALIDACIÓN DE INSTRUMENTOS DIAGNÓSTICOS por Arturo de la Orden Hoz, José Luis Gaviria Soto, Aurora Fuentes

Revista Investigación Educativa - N.º 23 - 1994

En un intento de proponer un marco teórico general que sirva para construir los ítems que deberán ser incluidos en un determinado instrumento diagnóstico, Bejar (1993) propone lo que denomina «Response Generative Modeling», implicando

(. . .) una gramática, capaz de asignar una descripción psicométrica a cada ítem en un universo de ítems, y también capaz de generar todos los ítems en ese universo.

Esto implica: 1. Más fácil interpretación de las puntuaciones, ya que sabemos cómo ha sido

generado el ítem. 2. Un conocimiento del proceso completo de respuesta al ítem. (Esto permitiría

abandonar el formato de opción múltiple). 3. Capacidad de desarrollar ayudas inteligentes a la generación de tests. La idea central es, no sólo que se establezcan las reglas por las cuales se generan

los ítems, sino que además estos ítems se generan con las características psicométri­cas, tal como la dificultad, deseadas.

Esto significa que la postulación de procesos y estructuras de cono­cimientos subyacentes requeridas para responder a un ítem es no sólo admisible, sino el corazón mismo de este enfoque. (Bejar, 1993, p. 326).

Los antecedentes de este tipo de modelización hay que buscarlos en el «Item Sampling Modeling» (Tryon, 1957): Estaba basada más en la competencia que en el rendimiento, en el sentido en que Chomsky (1965) diferenciaba entre competen­cia y rendimiento lingüísticos. Se daba la paradoja de que algunos ítems que estaban diseñados para medir un mismo objetivo educativo (Competencia), tenían distinta dificultad y distinta proporción de sujetos respondiéndolos correctamente. Eso naturalmente no tiene explicación en ausencia de un componente de rendi­miento.

Una explicación de la dificultad de los ítems aumentaría la validez del test, ya que tendría que incorporar la estructura mental y los procesos necesarios para responder al test. Si ese modelo ha sido derivado de una teoría que tiene apoyo empírico, entonces el estatus de validez de las puntuaciones de ese test es superior a otro test en el que las características de los ítems no se conocen hasta que se aplica el test.

La validez es considerada en la concepción tradicional como explicación de la consistencia de las respuestas. Se tata de determinar qué proporción de la varianza es explicada por el rasgo medido, y qué proporción lo es por el método común empleado para medir el rasgo. (Es decir, qué proporción de varianza se debe a variables sustantivas y cuál a variables irrelevantes, como el método de medida (Campbell y Fiske, 1959)).

152

Page 25: PONENCIA III - digitum.um.es · PONENCIA III MODELOS DE CONSTRUCCIÓN Y VALIDACIÓN DE INSTRUMENTOS DIAGNÓSTICOS por Arturo de la Orden Hoz, José Luis Gaviria Soto, Aurora Fuentes

Revista Investigación Educativa - N.º 23 - 1994

En la nueva concepción la validez es considerada, además, como la explicación de la dificultad de los ítems. En qué proporción la dificultad se debe a factores espurios y en qué proporción se debe a la complejidad cognitiva. Esto implica, no nos cansaremos de resaltarlo, la introducción de un elemento causal en los modelos psicométricos.

La aproximación generativa a la construcción de ítems supone dos cosas impor­tantes: a) la existencia de un mecanismo de generación de los ítems, y b) un conocimiento suficiente acerca del proceso de respuesta a los mismos que permita estimar los parámetros psicométricos de los ítems generados.

Hay varios ejemplos de la posibilidad de este enfoque. Posiblemente el más completo se refiere a la habilidad espacial. En concreto la rotación mental de figuras geométricas es un campo ampliamente estudiado. Está bien establecido (Corballis, 1982) que la disparidad angular entre dos figuras rotadas, determina en gran medida el tiempo de respuesta. El control de la dificultad de un ítem de este tipo por tanto se lograría a través de la disparidad angular entre las dos figuras propuestas. En un test adaptativo de este tipo, a cada sujeto se le presentarían dos figuras con mayor o menor ángulo de separación en función de la respuesta a los ítems anteriores. El ordenador encargado de presentar los estímulos mediría el tiempo que el sujeto tarda en dar su respuesta. A partir del tiempo que el sujeto tarda en proporcionar la respuesta correcta, podemos estimar la dificultad relativa que representa ese ítem para el sujeto. Gaviria (en preparación) propone un modelo muy simple para el tiempo que se tarda en dar una respuesta correcta.

donde ti es el tiempo que tarda el sujeto j en dar la respuesta correcta al ítem ti' 'ti es el tiempo que se tarda en responder correctamente al ítem i cuando 8 es infinita­mente mayor que bi. Es decir, es en la práctica el tiempo de proc¿samiento y repuesta mecánica mínimo necesario. El parámetro ¡.ti es un factor de escala. Es el tiempo que se tarda en responder correctamente cuando 8.-bi=l. Por último ej" es una variable aleatoria, con distribución log-normal. J J

Hay otros dominios en los que no existe un grado de conocimiento suficiente de los procesos psicológicos que subyacen al proceso de respuesta a un tipo determinado de ítems. En ese caso podrían relajarse un poco las exigencias impuestas al proceso de construcción, y en vez de generar los valores específicos de la dificultad, bastaría con establecer un orden entre las dificultades de los distintos ítems construidos.

Bejar (1993), presenta ejemplos de varios ámbitos distintos y en distinto grado de realización en los que puede apreciarse las posibilidades de este concepto.

Duncan Y Humphreys (1989), proponen una teoría que explica el rendimiento en tareas de localización de figuras escondidas.

Butterfield, Nielse, Tangen y Richardson (1985), aportan evidencia empírica de gran calidad sobre la posibilidad de un enfoque generativo en los test de razona­miento inductivo basados en series de letras.

153

Page 26: PONENCIA III - digitum.um.es · PONENCIA III MODELOS DE CONSTRUCCIÓN Y VALIDACIÓN DE INSTRUMENTOS DIAGNÓSTICOS por Arturo de la Orden Hoz, José Luis Gaviria Soto, Aurora Fuentes

Revista Investigación Educativa - N.º 23 - 1994

Johnson-Laird, Byrne, y Tabossi (1989), ilustran las posibilidades de este mismo enfoque en tests de razonamiento deductivo.

Las posibilidades de una modelización generativa en el área del razonamiento analógico son estudiadas por Bejar, Chaffin y Embretson (1991): La generación de analogías ha sido demostrada por Chaffin y Hermann (1987):

Roid y Haladyna (1982) han trabajado sobre los mecanismos de generación de ítems en tests de razonamiento aritmético y cuantitativo. En este mismo campo se han estudiado las variables que afectan a la dificultad de los ítems. El resultado de esas investigaciones puede encontrarse en el volumen editado por Goldin y McClin­tock (1984): La generación automática de ítems en este dominio ha sido tratada por Hively, Paterson, y Page (1968) y Brown y Burton (1978): En el mismo terreno del razonamiento aritmético y cuantitativo pueden encuadrarse los trabajo de Jarjoura y Brennan (1982) y Kolen y Harris (1987):

En el dominio verbal, Bejar (1988) trata de un sistema para evaluar automáticamente la capacidad escritora. El sistema se basa en un motor de correción gramatical.

Katz (1988), en el terreno de la comprensión lectora, ha desarrollado un sistema (ST ART) que analiza automáticamente cualquier texto en inglés, y lo transforma en una representación proposicional de tal forma que pueden generase fácilmente preguntas sobre un texto.

Brown y Burton (1978), ya en el ámbito de los tests de rendimiento, hacen un análisis del trabajo con fracciones resaltando la importancia de los errores sistemá­ticos y su determinación a partir de las repuestas a ciertos ítem s generados para detectarlos.

Otros trabajos se centran en la consideración de un enfoque generativo en destrezas de detección de averías en sistemas electrónicos, o en el diagnóstico de enfermedades. Para este tipo de destrezas véase Kieras (1990) Fulton y Pepe (1990), Lesgold, Ivill-Friel, y Bonar (1989), Parker y Miller (1988) Pearl (1987), Miller (1984) Braun, Carlson y Bejar (1989) y Wamer y asociados (1988).

2.3. La inferencia

La inferencia consiste en enlazar las observaciones x con los estados hipotetiza­dos en el modelo. Se logra de ese modo extraer las conclusiones pertinentes sobre la naturaleza y niveles de comprensión de los alumnos, conclusiones que son la base para la toma de decisiones educativas, y se cierra así el proceso que caracteriza cualquier aplicación diagnóstica en esta nueva orientación.

Tenemos dos niveles distintos de inferencia en diagnóstico. Hemos determinado que el proceso de construcción de un modelo diagnóstico está completo cuando el modelo está operacionalizado, es decir, incluye las herramientas para poner en relación lo observado con lo latente. Nos referimos a las probabilidades condicio­nales.

Un primer nivel de inferencia se produce en este punto. A partir de los datos observados debemos «estimar» los valores de los parámetros auxiliares del modelo.

154

Page 27: PONENCIA III - digitum.um.es · PONENCIA III MODELOS DE CONSTRUCCIÓN Y VALIDACIÓN DE INSTRUMENTOS DIAGNÓSTICOS por Arturo de la Orden Hoz, José Luis Gaviria Soto, Aurora Fuentes

Revista Investigación Educativa - N.º 23 - 1994

Estos parámetros nos penniten establecer la probabilidad de cada patrón de conduc­tas o respuestas observadas, condicionada a los estados latentes del sujeto. Esta fase es en realidad un paso más, aunque muy importante, en el proceso de operacionali­zación del modelo.

El otro nivel de inferencia es el que define esencialmente la naturaleza del proceso diagnóstico. Consiste en detenninar la probabilidad de cada estado latente en el espacio en el que se encuadra un sujeto a partir de la evidencia empírica que obtenemos en el proceso de evaluación. Se trata de la detenninación de P(Tllx) .. La revisión de las probabilidades se realiza mediante P(Tllx)aP(xITl)P(Tl): El ténnino P(xITl) viene dado por el modelo psicométrico fonnulado. P(Tl), distribución a priori de , refleja nuestro conocimiento acerca de los estados latentes. En ocasiones puede tratarse de una distribución no infonnativa, por lo que la estimación será equivalen­te a la de máxima verosimilitud. Calcular el ténnino de la izquierda es la esencia del proceso de diagnóstico. En este proceso, a partir de los datos observados, y por medio de la inferencia que nos pennite llevar a cabo nuestro modelo, afirmamos la hipótesis de que el alumno presenta detenninada configuración cognitiva. Esa hipó­tesis es mantenida hasta que obtenemos cierta evidencia que la niega o que la modifica en parte.

Como señala Messick (1989), la validez hace referencia precisamente a la fuerza con la que pueden llevarse a cabo las inferencias que acabamos de mencionar. Tiene que ver por tanto con el modelo psicológico que ha servido para definir qué tareas eran la evidencia empírica necesaria para realizar la inferencia diagnóstica. No tiene que ver con el instrumento en sí, sino con la relación entre la naturaleza del instrumento y la teoría que lo detennina.

2.3.1. Redes inferencia/es

Los modelos cognitivos que han de servir de base para el proceso de diagnóstico, distan mucho de la simplicidad fonnal que subyace en la teoría estándar de los tests. En los modelos cognitivos tenemos una gran cantidad de variables y estados rela­cionados entre sí. Realizar inferencias en esos sistemas podría ser una tarea imposi­ble de ser llevada a cabo en tiempo real. En los últimos años el estudio de estos sistemas ha florecido debido a su utilidad en la implementación de sistemas exper­tos. Las redes inferenciales (Lauritzen & Spiegelhalter, 1988; Pearl, 1988) se basan en la idea de utilizar las relaciones de dependencia condicional entre las variables. Los primeros desarrollos se han centrado en sistemas expertos en el diagnóstico médico, como MUNIN. Posterionnente el «motor inferencial» del sistema ha sido aislado para poder ser aplicado a otros campos.

Una red inferencial es un sistema probabilístico, en esencia, es un modelo causal. En él, los valores de ciertas variables observables están condicionados a los valores de otras variables no observables que son las que explican a las primeras. La topología de la red es tal que se asegure la existencia de independencia condicional entre las variables observadas. La dirección causal se postula desde las variables no

155

Page 28: PONENCIA III - digitum.um.es · PONENCIA III MODELOS DE CONSTRUCCIÓN Y VALIDACIÓN DE INSTRUMENTOS DIAGNÓSTICOS por Arturo de la Orden Hoz, José Luis Gaviria Soto, Aurora Fuentes

Revista Investigación Educativa - N.º 23 - 1994

GRPE LARINGITIS

REBRE INLAR

Figura 3 Red causal de dos enfermedades y dos síntomas.

observadas a las observadas. La probabilidad de cada estado observado del sistema está condicionado por el estado de las variables latentes. Sin embargo, es el estado latente el que nos interesa diagnosticar, y para ello debemos inferirlo a partir de las observaciones realizadas. Estos cálculos inferenciales se han realizado tradicional­mente en sistemas causales similares por medio de estimaciones de máxima verosi­militud. Recientemente, (Lauritzen y Spiegelhalter, 1988; Pearl, 1988; Shafer y Shenoy, 1988), se han desarrollado algunas generalizaciones del teorema de Bayes que permiten llevar a cabo las actualizaciones de las probabilidades asociadas a cada estado del sistema a base de varios conjuntos independientes de actualizacio­nes locales de dichas probabilidades. Desarrollamos brevemente el ejemplo presen­tado por Mislevy (1993b) para ilustrar el método.

Supongamos que tenemos cuatro variables, dos de ellas actuando como causas, y otras dos como efectos. En el ejemplo que nos ocupa, las dos causas son dos enfermedades, «gripe» y «laringitis», y los dos efectos son dos síntomas asociados a ambas enfermedades, la fiebre y la inflamación de laringe. Por simplicidad asumi­mos, sin pérdida de generalidad, que estas cuatro variables sólo tienen dos valores, «presencia» o «ausencia».

En la figura 3 aparece un diagrama causal de esta red. En la práctica diagnóstica ordinaria, nos encontramos con los síntomas, presencia o ausencia de fiebre, y presencia o ausencia de inflamación de laringe, y a partir de ellos nos interesa determinar cuál es la probabilidad asociada a los valores de presencia o ausencia de cada una de las enfermedades posibles causas de esos síntomas. La observación de uno solo de los síntomas modifica las probabilidades asociadas a cada una de las causas, y esto a su vez influye en nuestras expectativas respecto a la aparición del otro síntoma. Naturalmente, en sistemas reales esto representa una complejidad potencial muy grande, necesitando por lo tanto algoritmos de actualización suma­mente eficaces, para que la evaluación de la situación pueda hacerse en tiempo real.

156

Page 29: PONENCIA III - digitum.um.es · PONENCIA III MODELOS DE CONSTRUCCIÓN Y VALIDACIÓN DE INSTRUMENTOS DIAGNÓSTICOS por Arturo de la Orden Hoz, José Luis Gaviria Soto, Aurora Fuentes

Revista Investigación Educativa - N.º 23 - 1994

El procedimiento desarrollado por Lauritzen y Spiegelhalter, se basa en la identifi­cación de unos subconjuntos de variables denominados «cliques».

Las siete fases son: 1. Representación recursiva de la distribución conjunta de todas las variables

implicadas. 2. Representación de (1) en un grafo direccional. 3. Grafo triangulado no direccionado. 4. determinación de los cliques y sus intersecciones. 5. Representación del árbol conjunto. 6. Tablas potenciales. 7. Esquema de actualización.

La representación recursiva de la distribución conjunta de un grupo de variables aleatorias, XI ... Xn, toma la forma3,

• II P(x .... 1 1 x .... 2,···,x¡) J-I.

En el caso que nos ocupa, tendríamos

P( fiebre,inlar ,laringitis,gripe )= =P(fiebrelinlar, gripe, laringitis )P(inlarlgripe, laringitis )P(gripellaringitis )P(laringitis)

Dado que las variables latentes, laringitis y gripe, inducen independencia condi­cional entre las variables observadas, tenemos que P(fiebrelinlar,laringitis,gripe,)= P(fiebrellaringitis,gripe): Por otra parte en el modelo se asume que laringitis y gripe son independientes entre sí. Si no lo fueran, bastaría con incluir en el modelo una variable auxiliar que indujese independencia condicional entre ellas. Dada esa inde­pendencia también tenemos que P(gripellaringitis)=P(gripe): Con estas equivalen­cias la distribución conjunta queda, P(fiebre,inlar,laringitis,gripe)=

=P(fiebrelgripe, laringitis )P(inlarlgripe, laringitis )P(gripe )P(laringitis).

La reconstrucción de la distribución conjunta implica la determinación de los cuatro elementos de esta expresión. Por una parte tenemos P(gripe) y P(laringitis): Estas probabilidades son las distribuciones a priori de las enfermedades, que por lo general serán equivalentes a la proporción de la población que en un determinado momento sufre cada una de ellas. Sin embargo los valores de P(fiebrelgripe,laringitis) y P(inlarlgripe,laringitis), provienen de dos fuentes alternativas. O bien se deducen

3 Esta expresión se obtiene fácilmente de P(X1• X2) = P(X1 / X2)P(X2), sustituyendo X2 por

(X2,x3····,xJ

157

Page 30: PONENCIA III - digitum.um.es · PONENCIA III MODELOS DE CONSTRUCCIÓN Y VALIDACIÓN DE INSTRUMENTOS DIAGNÓSTICOS por Arturo de la Orden Hoz, José Luis Gaviria Soto, Aurora Fuentes

Revista Investigación Educativa - N.º 23 - 1994

de una teoría previa acerca de las relaciones entre las enfermedades y cada uno de los síntomas, o bien los conocemos empíricamente a partir de experiencia anterior.

En las tablas 1 y 2 tenemos, respectivamente, las probabilidades a priori de las enfermedades y las probabilidades condicionales para los síntomas del ejemplo que nos ocupa.

SÍ NO

TABLA 1 PROBABILIDADES A PRIORI DE LAS ENFERMEDADES

GRIPE

0,11 0,89

TABLA 2

LARINGITIS

0,11 0,89

PROBABILIDADES DE LOS SÍNTOMAS CONDICIONADOS POR LAS ENFERMEDADES

Gripe Laringitis P(Inlar=SÍ) P(Inlar=NO)

SÍ SÍ 0,91 0,09 SÍ NO 0,05 0,95 NO SÍ 0,90 0,10 NO NO 0,01 0,99

Gripe Laringitis P(Fiebre=SÍ) P(Fiebre=NO)

SÍ SÍ 0,99 0,01 SÍ NO 0,90 0,10 NO SÍ 0,90 0,10 NO NO 0,01 0,99

Las fases 1 y 2 están estrechamente relacionadas. De hecho la segunda es la expresión gráfica de la primera. La fase 3 tiene como objeto la determinación de los diques del grafo y de las intersecciones entre diques. Un dique es un subconjunto de variables que están ligadas dos a dos, y cuya función consiste en evitar las complicaciones de cálculo que supone la existencia de lazos de retroalimentación. En el ejemplo que estamos analizando, se dan también este tipo de lazos. Por ejemplo, conocer el estado de fiebre de un paciente modifica las probabilidades de los estados de gripe, que a su vez modifica las probabilidades de la inflamación de laringe, que a su vez modifica las probabilidades de laringitis, que afecta simultá­neamente a las probabilidades de fiebre. En sistemas complejos estos lazos compli­can extraordinariamente el proceso de actualización de probabilidades. Como vere-

158

Page 31: PONENCIA III - digitum.um.es · PONENCIA III MODELOS DE CONSTRUCCIÓN Y VALIDACIÓN DE INSTRUMENTOS DIAGNÓSTICOS por Arturo de la Orden Hoz, José Luis Gaviria Soto, Aurora Fuentes

(HJE

LARINGITIS RE8AE

(HJE LARINGITIS

INLAR

Cliaue 1

Intersección

Cliaue 2

Figura 5 Árbol de representación conjunta.

Revista Investigación Educativa - N.º 23 - 1994

Figura 4 Cliques del grafo.

mos, la utilización de los cliques proporciona un método eficiente de propagación de la infor­mación por todo el sistema.

En el presente ejemplo hay dos cliques, {Fie­bre, Gripe, Laringitis} y {Gripe, Laringitis, In­lar}, y una intersección de cliques, {Gripe, La­ringitis }. Como vemos, en la intersección de cliques se incluyen todas las variables que están incluidas simultáneamente en dos cliques dis­tintos. En la figura 2 vemos identificados los cliques sobre el grafo.

La figura 5 representa el árbol conjunto. Este grafo es la herramienta que dirige el proceso de actualización. En él aparecen representados cada uno de los cliques y su intersección.

Las tablas potenciales son unas tablas de pro­babilidades condicionales que recogen la estructu­ra del árbol conjunto, y constituyen el medio de actualización local. Estas tablas reflejan la situa­ción del sistema en cada momento, y van propa­gando los cambios que se producen desde un cli­que a los demás a través de las intersecciones.

159

Page 32: PONENCIA III - digitum.um.es · PONENCIA III MODELOS DE CONSTRUCCIÓN Y VALIDACIÓN DE INSTRUMENTOS DIAGNÓSTICOS por Arturo de la Orden Hoz, José Luis Gaviria Soto, Aurora Fuentes

Revista Investigación Educativa - N.º 23 - 1994

En la tabla 3 tenemos las probabilidades iniciales de nuestro caso. Por ejemplo, la casilla de la tercera columna en la primera fila, representa P(Gripe=Sí, Laringitis=Sí, Fiebre=Sí): Ese valor se obtiene a partir de la representación recursiva de la distri­bución conjunta de esas tres variables. Recordemos que esa expresión es

P(Gripe=Sí, Laringitis=Sí, Fiebre=Sí)=P(Fiebrel Gripe, Laringitis) P(Gripe) P(Laringitis)= 0,99xO,11xO,11=0,012. El primero de estos datos proviene de la tabla 2, y los otros dos de la tabla 1.

Los valores iniciales de Fiebre e Inlar se obtienen sumando las probabilidades de su columna correspondiente. Eso nos da para los dos valores de fiebre (Sí y No), unas probabilidades iniciales de 0,20 y 0,80, mientras que para los valores de Inlar obtenemos 0,112 y 0,888.

TABLA 3 TABLA POTENCIAL DEL ESTADO INICIAL DEL SISTEMA

Clique 1

Gripe Laringitis Fiebre=Sí Fiebre=No

Sí Sí 0,012 0,000 Sí No 0,088 0,010 No Sí 0,088 0,010 No No 0,008 0,784

Intersección 11 Gripe Laringitis Probabilidad

Sí Sí 0,012 Sí No 0,098 No Sí 0,098 No No 0,792

Clique 2 11 Gripe Laringitis Inlar=Sí Inlar=No

Sí Sí 0,011 0,001 Sí No 0,005 0,093 No Sí 0,088 0,010 No No 0,008 0,784

160

Page 33: PONENCIA III - digitum.um.es · PONENCIA III MODELOS DE CONSTRUCCIÓN Y VALIDACIÓN DE INSTRUMENTOS DIAGNÓSTICOS por Arturo de la Orden Hoz, José Luis Gaviria Soto, Aurora Fuentes

Revista Investigación Educativa - N.º 23 - 1994

Veamos ahora cómo se produce una actualización. Supongamos que obtenemos el dato de que un paciente tiene fiebre. Automáticamente la primera columna del primer clique tiene que sumar uno, y todos los valores de las casillas de la segunda columna se ponen a cero. En realidad para el proceso de propagación no es necesa­rio normalizar a 1 las probabilidades de la primera columna, ya que lo que se propaga es la proporcionalidad entre las casillas.

A continuación las probabilidades de la primera columna se propagan a la tabla de la intersección. Desde esa tabla se procede a actualizar las probabilidades de la tabla del segundo clique. Para ello se procede como sigue. En cada fila de la tabla del clique 2 dividimos los valores de cada una de las casillas por el valor que tenía la casilla correspondiente del clique de la intersección antes de producirse la prime­ra propagación y multiplicándolo por el nuevo valor de esa misma casilla. En este caso, por ejemplo, en la tercera casilla del clique 2 dividimos 0,088 por 0,098, obteniendo 0,898. Ese valor se multiplica por 0,088, obteniéndose 0,079. (En la tabla se ha redondeado al tercer decimal):

El último paso consiste en normalizar las probabilidades de las casillas del clique 2 para la suma de los totales de las dos columnas sea 1.

La lógica del proceso presentado es la siguiente. Llamemos Po(Gripe, Laringitis, lnlar) a las probabilidades del clique 2 al inicio del proceso. Estas probabilidades son consistentes con las correspondientes del clique 1 en el mismo momento. El nuevo dato acerca de la fiebre nos hace definir P¡(Gripe, Laringitis) con los nuevos valores. Si llamamos P/Gripe, Laringitis, lnlar) a la distribución conjunta del segundo clique después de la propagación, se cumplirá que

P/Gripe, Laringitis, Inlar)=P( InlarlGripe, Laringitis)P¡(Gripe, Laringitis)

Como queremos poner P1(Gripe, Laringitis, lnlar) en función de Po(Gripe, La­ringitis, lnlar) y de P¡(Gripe, Laringitis), podemos hacerlo sabiendo que

PiGripe, Laringitis, Inlar)=P( InlarlGripe, Laringitis)PiGripe, Laringitis) luego P( InlarlGripe, Laringitis)=Po(Gripe, Laringitis, Inlar)/Po(Gripe, Laringitis): Susti­tuimos en la primera expresión, y

P¡(Gripe, Laringitis, lnlar)=

={Po(Gripe, Laringitis, Inlar)/PiGripe, Laringitis)}P¡(Gripe, Laringitis):

Una explicación detallada del proceso completo puede encontrarse en Mislevy (1993b) y Lauritzen y Spiegelhalter, (1988):

161

Page 34: PONENCIA III - digitum.um.es · PONENCIA III MODELOS DE CONSTRUCCIÓN Y VALIDACIÓN DE INSTRUMENTOS DIAGNÓSTICOS por Arturo de la Orden Hoz, José Luis Gaviria Soto, Aurora Fuentes

Revista Investigación Educativa - N.º 23 - 1994

TABLA 4 TABLA POTENCIAL DEL SISTEMA PARA FIEBRE=SÍ

Clique 1

Gripe Laringitis Fiebre=Sí Fiebre=No

Sí Sí 0,012 0,000 Sí No 0,088 0,000 No Sí 0,088 0,000 No No 0,008 0,000

Intersección 11 Gripe Laringitis Probabilidad

Sí Sí 0,012 Sí No 0,088 No Sí 0,088 No No 0,008

Clique 2 11 Gripe Laringitis Inlar=Sí Inlar=No

Sí Sí 0,011 0,001 Sí No 0,004 0,084 No Sí 0,080 0,009 No No 0,000 0,008

Clique 2 I Gripe Laringitis Inlar=Sí Inlar=No

Sí Sí 0,059 0,005 Sí No 0,020 0,426 No Sí 0,406 0,046 No No 0,000 0,041

2.4. Un ejemplo de diagnóstico educativo

Podemos ver integradas las distintas fases del proceso de diagnóstico, en un ejemplo muy interesante (Mislevy, 1991) referido a ciertas habilidades implicadas

162

Page 35: PONENCIA III - digitum.um.es · PONENCIA III MODELOS DE CONSTRUCCIÓN Y VALIDACIÓN DE INSTRUMENTOS DIAGNÓSTICOS por Arturo de la Orden Hoz, José Luis Gaviria Soto, Aurora Fuentes

Revista Investigación Educativa - N.º 23 - 1994

en un experimento cognitivo diseñado por Siegler (1981), para evidenciar los dife­rentes estados de comprensión. Las tareas planteadas por Siegler están referidas a un clásico experimento piagetiano en el que se presenta a los niños una balanza de brazos iguales afirmados por dos topes, y después de poner diversas combinaciones de pesos y distancias se les pide que predigan el movimiento de los brazos cuando se retiren los topes.

Fruto de las investigaciones de Piaget, tenemos una definición de posibles esta­dos de comprensión de los elementos actuantes en el experimento y la secuencia habitual de esos estados. Tal conocimiento ayuda a precisar los componentes del modelo cognitivo, es decir, las variables latentes que deseamos estudiar. Es precisa­mente el modelo cognitivo el que orienta, además, el proceso de defmición de las tareas si, como se pretende, han de poner de manifiesto esos diferentes estados.

La progresión habitual de la comprensión de los niños sobre el funcionamiento de la balanza se define en función de la adquisición de ciertas reglas que combinan la relación entre la magnitud de los pesos ubicados a ambos lados de la balanza y sus distancias respecto del «fiel». Estas reglas son las siguientes:

Regla 1: Si son iguales los pesos a los dos lados del fiel, la balanza permanecerá en equilibrio. Puesto que los niños comprenden la importancia del peso para la resolución del problema antes que la distancia, la primera se conoce como «dimen­sión dominante» y esta última como «dimensión subordinada».

Regla 11: Si los pesos y distancias son iguales en los dos lados, la balanza permanecerá en equilibrio. Si los pesos son iguales, pero no las distancias, se inclinará hacia el lado con mayor distancia. Del mismo modo, el lado que tenga mayor peso hará que la balanza se incline hacia él. La aplicación de esta regla implica que el niño utiliza fundamentalmente la información de la dimensión domi­nante, y sólo cuando no pueda decidir basándose en ella, utilizará la información de la dimensión subordinada.

Regla 111: Si los valores de los pesos y de las longitudes son desiguales en los dos lados, el niño saldrá del paso respondiendo al azar; y ello porque si bien comprende que las dos dimensiones son importantes, no sabe cómo combinarlas.

Regla IV: Combina pesos y distancias correctamente. Se hipotetiza, por tanto, que cada niño se puede clasificar en alguno de estos

cuatro estados de comprensión o en un quinto, denominado «preoperacional», en el que el chico no reconoce que la acción de la balanza tenga que ver con los pesos y las distancias.

Siegler diseñó seis tipos de ítems que recogían las tareas en las que se debía reflejar el nivel alcanzado en la comprensión de estas reglas. Las variaciones en la magnitud de los pesos colocados a cada lado de la balanza y las distancias a las que éstos se ubican a partir del «fiel», se hicieron de forma que reflejasen distintas relaciones entre las magnitudes denominadas dominante y subordinada. Estas rela­ciones se clasificaron en las siguientes categorías.

Igualdad (E): La información de las dos dimensiones por separado es coherente, e indica que la balanza permanecerá en equilibrio.

163

Page 36: PONENCIA III - digitum.um.es · PONENCIA III MODELOS DE CONSTRUCCIÓN Y VALIDACIÓN DE INSTRUMENTOS DIAGNÓSTICOS por Arturo de la Orden Hoz, José Luis Gaviria Soto, Aurora Fuentes

Revista Investigación Educativa - N.º 23 - 1994

Dominancia (D): La distancia es la misma, pero la información de la dimensión dominante indica que la balanza se desequilibrará.

Subordinación (S): Los pesos son iguales pero no las distancias, con lo que el uso de la información de la dimensión subordinada permite determinar que la balanza se desequilibrará hacia el lado de mayor distancia.

Conflicto-dominancia (CD): La información de las dos dimensiones por separa­do es contradictoria, y el uso de la información de la dimensión dominante permite predecir correctamente que la balanza se desequilibrará hacia el lado de mayor peso.

Conflicto-subordinación (CS): La información de las dos dimensiones es contra­dictoria, y el uso de la dimensión subordinada permite predecir que la balanza se desequilibrará hacia el lado de mayor distancia.

Conflicto-igualdad (CE): La información de las dos dimensiones por separado es contradictoria, pero el uso correcto de las relaciones entre ambas permite predecir que la balanza permanecerá en equilibrio.

Esto dio lugar a los seis tipos de ítems: E, D, S, CD, CS, CE, de los que pueden verse un ejemplo de cada clase en la figura 6.

Obtenidos el modelo de alumno y las tareas observables, necesitamos determinar cuál es la relación que existe entre esos elementos, de forma que a partir de las observaciones podemos hacer inferencias acerca de los estados latentes. Si para ello utilizásemos el modelo cognitivo directamente, que es un modelo determinístico, tendríamos que suponer que las respuestas de los sujetos están en perfecta concor­dancia con las reglas hipotetizadas. En la tabla 5 vemos las probabilidades condicio­nalespara ese modelo.

TABLA 5 PROBABILIDADES CONDICIONALES TEÓRICAS

Tipo de problema Estado O Estado I Estado 11 Estado III Estado IV

E 0,333 1,000 1,000 1,000 1,000 D 0,333 1,000 1,000 1,000 1,000 S 0,333 0,000 1,000 1,000 1,000 CD 0,333 1,000 1,000 0,333 1,000 CS 0,333 0,000 0,000 0,333 1,000 CE 0,333 0,000 0,000 0,333 1,000

La observación de esta tabla nos permite el siguiente comentario. Por ejemplo, una respuesta correcta a un ítem del tipo S nos llevaría a concluir que el estado de comprensión del sujeto correspondiente no es el 1, puesto que en ese estado la probabilidad de respuesta correcta a ítems de ese tipo es nula.

Sin embargo, las inconsistencias que a menudo caracterizan las respuestas de los sujetos, pueden provocar algunas observaciones inesperadas, tanto en un sentido

164

Page 37: PONENCIA III - digitum.um.es · PONENCIA III MODELOS DE CONSTRUCCIÓN Y VALIDACIÓN DE INSTRUMENTOS DIAGNÓSTICOS por Arturo de la Orden Hoz, José Luis Gaviria Soto, Aurora Fuentes

Revista Investigación Educativa - N.º 23 - 1994

como en otro: falsos positivos y falsos negativos. Los primeros son contestaciones correctas dadas por sujetos que no poseen los requisitos exigidos de comprensión. Contestar bien por razones falsas. El sujeto realiza adivinaciones afortunadas. Los falsos negativos son errores en un Ítem cometido por sujetos que tienen los requisi­tos necesarios de comprensión.

Además, los sujetos pueden tener éxito en unas tareas y fracasar en otras que requieran las mismas habilidades. Esta variedad de posibilidades nos lleva, en resumen, a esperar cualquier tipo de respuesta, aunque con distintos niveles de probabilidad, de chicos en diferentes estados de comprensión. Cuando pretendemos inferir los estados de comprensión en que están los sujetos, el éxito o fracaso observado debe ser tratado como es: un indicador falible del estado subyacente del sujeto.

Por todo esto, la conexión entre las observaciones y las variables del modelo de estudiante debe ser probabilística más que determinÍstica, puesto que estas últimas formulaciones no pueden dar explicación de las inconsistencias mencionadas.

Por otra parte, de la misma tabla 5 podemos colegir que las probabilidades de respuesta correcta a algunos Ítems no crecen monotónicamente con el incremento de la puntuación global del test. Estas inconsistencias no son más que el reflejo del hecho de que las tareas diseñadas no forman un conjunto completamente ordenado, por lo que la probabilidad de realizar correctamente las tareas mencionadas en función del estado latente no es una función monótona creciente. Por esto no es posible modelizar esa relación ni con la teoría clásica ni con IRT.

En consecuencia se consideró que el modelo de clase latente basado en el Lazarsfeld (1950) era el más adecuado. Cada uno de los cinco estados se consideró una clase latente. En este modelo los parámetros a estimar son las probabilidades condicionales. (Para el modelo de clase latente véase Lazarsfeld y Henry, 1968): Como resultado de la estimación se obtuvieron los datos de la tabla 6. El vector de probabilidades estimadas de cada estado de población, P(T\) viene dado por P(T\)= (P( estado=O), P( estado=I), P( estado=II), P( estado=III), P( estado=IV))= (0.257, 0.227, 0.163,0.275,0.078): Con todos estos datos puede procederse al diagnóstico a partir de las respuestas observadas.

Los datos obtenidos por Siegler de las repuestas de 60 chicos comprendidos en las edades de dos a cinco años, en dos tiempos (120 respuestas) sirvieron a Mislevy y colaboradores para inferir el estado de comprensión de los sujetos sobre el funcio­namiento de la balanza .

En el ejemplo que nos ocupa, las estimaciones obtenidas del ajuste del modelo sirvieron para inicializar una red probabilística. ERGO™ (Noetic Systems Incorpo­rated, 1992) fue el programa empleado para gestionarla. Este programa utiliza el algoritmo de actualización desarrollado por Lauritzen y Spiegelhalter que ha sido mencionado en la sección anterior. A través de un sencillo interface gráfico permite crear y gestionar redes probabilísticas muy complejas. En lo que sigue ilustraremos brevemente el funcionamiento del programa.

En la figura 7 tenemos una representación del diagrama causal realizado por ERGOTM, con indicación de las probabilidades iniciales de los valores de cada

165

Page 38: PONENCIA III - digitum.um.es · PONENCIA III MODELOS DE CONSTRUCCIÓN Y VALIDACIÓN DE INSTRUMENTOS DIAGNÓSTICOS por Arturo de la Orden Hoz, José Luis Gaviria Soto, Aurora Fuentes

Revista Investigación Educativa - N.º 23 - 1994

variable. Un nodo representa los estados latentes de O a 4, y luego por cada tipo de ítem tenemos otro nodo con dos valores, correcto e incorrecto. Las flechas indican que hay una relación de causalidad entre las variables latentes y observadas. La longitud de las barras indica la probabilidad inicial asignada a cada uno de esos valores. Los de la variable son las probabilidades a priori, P(Tl), mientras que los de los ítem s son las probabilidades marginales, es decir, representan la probabilidad de que si extraemos al azar un niño de esa población de esa respuesta al ítem.

¿Qué ocurre cuando obtenemos una determinada información? Por ejemplo, un alumno contesta incorrectamente a un ítem de tipo S. En la figura 8 vemos cómo se actualiza la información. En primer lugar la barra corespondiente al valor cero del ítem S se pone al, Y su complementaria a cero. Seguidamente, se calculan los valores de P(Tllx), por aplicación del teorema de Bayes (P(Tllx)aP(xITl)p(Tl)): Tam­bién las probabilidades asociadas a los distintos valores de los demás ítems se actualizan. Se calculan las medias de las probabilidades de respuesta correcta espe­rada de los distintos estados latentes, ponderadas por las nuevas probabilidades obtenidas para cada estado.

La dinámica del sistema en una aplicación diagnóstica es muy sencilla. Cada vez que obtenemos información de un ítem, vamos precisando las probabilidades aso­ciadas a cada estado latente. Podemos aplicar ítem s hasta que decidamos que conocemos con suficiente precisión la situación real de un sujeto. Por otra parte, después de cada paso podemos decidir qué tipo de ítem aplicaremos a continuación. Para ello basta con determinar qué item de los restantes proporciona mayor cantidad de información.

El ejemplo presentado es naturalmente un caso en el que la estructura latente es muy sencilla. Programas como el presentado permiten manejar sistemas muy com­plejos con gran numero de variables. Por ejemplo el mismo sistema ha sido aplicado con éxito al diagnóstico de errores en la realización de resta de fracciones, (Mislevy, 1993c, basado en un análisis cognitivo del dominio realizado por Tatsuoka, 1987, 1990; puede verse el diagrama causal en la figura 9), en el diagnóstico de destrezas de identificación de averías en sistemas hidráulicos de aviones, (Gitomer, Steinberg y Mislevy, en preparación): Murillo (1993), realiza una propuesta para operaciona­lizar con esta misma técnica un modelo causal en el contexto de la teoría de Sternberg sobre la comprensión verbal.

Hemos presentado en este apartado un ejemplo que representa un cierto tipo de modelización y de explotación de la información a través de un sistema experto probabilístico. Hay un gran número de trabajos en los que está presente la misma concepción diagnóstica de la evaluación. Algunos de ellos son: Marshall (1993) donde se presentan algunas sugerencias acerca de las características deseables de las nuevas alternativas evaluativas. DiBello, Stout y Roussos (1993) presentan un modelo en el que se unifican los resultados de un análisis cognitivo de cierto dominio de operaciones aritméticas y las virtualidades de los modelos psicométri­cos habituales. Su modelo es comentado por Samejima (1993): Biswas y Goldman (1993) desarrollan una metodología para evaluar la capacidad de resolución de

166

Page 39: PONENCIA III - digitum.um.es · PONENCIA III MODELOS DE CONSTRUCCIÓN Y VALIDACIÓN DE INSTRUMENTOS DIAGNÓSTICOS por Arturo de la Orden Hoz, José Luis Gaviria Soto, Aurora Fuentes

Revista Investigación Educativa - N.º 23 - 1994

problemas en dominios complejos. Su trabajo se especifica en la evaluación de la actividad de diseño de complejos circuitos digitales de tecnología CMOS. Sobre el mismo tema trata Samejima (1992): Sheehan y Mislevy (1989) proponen un modelo para la evaluación de la alfabetización funcional basado en un análisis cognitivo de los textos en los que la información se divide en categorías jerárquicas. Dubois y Shalin (en preparación) en el que se describe la utilización de métodos cognitivos para la medida de ejecución práctica en una aplicación de evaluación de la capaci­dad de orientarse sobre el terreno (navegación en tierra): Un trabajo en el que se pretende realizar una integración del análisis cognitivo, los modelos psicométricos y la inteligencia artificial es el de Bennett (1993).

TABLA 6 PROBABILIDADES CONDICIONALES ESTIMADAS

Tipo de problema Estado O Estado I Estado II Estado III Estado IV

E 0,333* 0,973 0,883 0,981 0,943 D 0,333* 0,973 0,883 0,981 0,943 S 0,333* 0,026 0,883 0,981 0,943 CD 0,333* 0,973 0,883 0,333* 0,943 CS 0,333* 0,026 0,116 0,333* 0,943 CE 0,333* 0,026 0,116 0,333* 0,943

3. CONCLUSIONES

En resumen, podemos considerar que visto con perspectiva histórica nos encon­tramos con distintos escalones que nos acercan a un diagnóstico con una base psicológica más elaborada. La TCT se basa en el supuesto de que el rendimiento global en un test viene representado por una sola cantidad X. N o se dice nada acerca de cómo, mediante qué mecanismos se ha llegado a generar ese valor. Sólo afirma­mos que esa cantidad representa la suma de dos valores, uno de ellos la puntuación verdadera, acerca de cuya naturaleza no hay acuerdo.

La IRT representa un avance, ya que se liga un rasgo psicológico no observado al rendimiento en cada uno de los ítems. De alguna forma se intenta explicar lo que ocurre en el proceso de generación de la respuesta observada.

La nueva psicometría trata no sólo de analizar el tests en sus componentes, sino que pretende explicar la relación causal que existe entre la estructura psicológica del sujeto que responde y la respuesta que genera a los distintos ítems. Se introduce un elemento causal muy importante en la naturaleza científica de la psicometría. Puede que no sea exagerado decir que se introduce un cambio epistemológico de suma importancia.

Hasta la aparición de este nuevo enfoque teníamos dos mundos completamente

167

Page 40: PONENCIA III - digitum.um.es · PONENCIA III MODELOS DE CONSTRUCCIÓN Y VALIDACIÓN DE INSTRUMENTOS DIAGNÓSTICOS por Arturo de la Orden Hoz, José Luis Gaviria Soto, Aurora Fuentes

Revista Investigación Educativa - N.º 23 - 1994

I I ~ I ....

I I ~ I ....

~I I

~ ....

~I I ....

~I

~ ....

I ~ I I ....

I ~ I I

I ~ I I ~

I ~ I

I ~ I ~

I ~ I

I ~ I I

Tioo de ítem

E (Iaual)

D !Dominante)

S (Subordinado)

CD (Conflicto-Dominante)

CS (Conflicto·Subordinado)

CE (Conflicto-Iaual)

Figura 6

DescriociOn

Con oesos de iaual maanitud v colocados a la misma distancia del fiel.

Con oesos desiauales v colocados a la misma distancia del fiel.

Con distancias desiauales v oesos iauales .

Un lado tiene mayor oeso v el otro mayor distancia . El lado con mayor oeso descender·.

Un lado tiene mayor oeso v el otro mayor distancia. El lado con mayor distancia descender·.

Un lado tiene mayor oeso v el otro mayor distancia . Permanece en eauilibrio.

Ejemplos de ítems de distintos tipos.

independientes entre sí. De un lado, el diagnóstico cognitivo era sólo posible a nivel individual. El producto de tal actividad diagnóstica es un resumen altamente infor­mativo y complejo, con una detallada descripción del individuo estudiado, pero difícilmente comparable con el de otros sujetos. La aplicación a grandes grupos, o mediante ordenador es difícil, por no decir imposible, debido a razones de costo y de falta de formalismo. El diagnóstico en este ámbito tiene su razón de ser en el consejo individual, en la orientación individual.

Por otra parte la evaluación de rendimientos educativos en grandes grupos era sólo posible utilizando pruebas estandarizadas, cuyo resultado consiste en una sola cantidad referida a cada sujeto. El valor de esa cantidad es relativamente bajo a nivel individual, por lo poco informativo que resulta, aunque como contrapresta-

168

Page 41: PONENCIA III - digitum.um.es · PONENCIA III MODELOS DE CONSTRUCCIÓN Y VALIDACIÓN DE INSTRUMENTOS DIAGNÓSTICOS por Arturo de la Orden Hoz, José Luis Gaviria Soto, Aurora Fuentes

O 1 2 :3

4

Nhd CopiIi1lO

Revista Investigación Educativa - N.º 23 - 1994

O~=====I 11-----==1

Ot-:=====I 11-----==1

o 1

O 1

O 1

o 1----c::=1

Figura 7 Estado inicial del sistema.

Tipodckcm

E

D

S

CD

es

CE

ción, es fácilmente comparable con los resultados de otros sujetos, y muy barato de aplicar a grandes grupos. La selección o la evaluación del sistema suele ser el objetivo final de este otro enfoque.

La nueva corriente que analizamos permite la integración de lo mejor de esas dos tendencias. Al modelo cognitivo elaborado, jerarquizado y complejo, se le dota de un grado de formalismo que permite tanto la aplicación a través de pruebas estanda­rizadas a grandes grupos, como mediante ordenadores y sistemas expertos, en los que las distribuciones condicionales de las respuestas asociadas a cada estado que­dan reflejadas en el sistema de reglas del motor de inferencias probabilísticas.

Esta o estas nuevas teorías de los tests, admite, o incluso impulsa y necesita, modelos más complejos y elaborados de los sujetos que aprenden. Esto tiene una doble consecuencia. Por una parte la psicometría deja de ser una sofisticada elabo-

169

Page 42: PONENCIA III - digitum.um.es · PONENCIA III MODELOS DE CONSTRUCCIÓN Y VALIDACIÓN DE INSTRUMENTOS DIAGNÓSTICOS por Arturo de la Orden Hoz, José Luis Gaviria Soto, Aurora Fuentes

Revista Investigación Educativa - N.º 23 - 1994

l1podeflem

Ot----===I E

o I D

O S

O

I

2 O 3 CD 4

Nivel CogniIivo O

I es

0== CE

Figura 8 Estado del sistema tras una respuesta.

ración formal, un alto edificio con una gran estructura matemática y una estrechísi­ma base psicológica. La base psicológica comienza a crecer, a la par que se integra en la estructura matemática. Los modelos formulados en la TCT y la IRT son, en términos de BUNGE, modelos fenomenológicos, es decir, modelos en los que lo que se pretende es la simple reproducción de lo manifiesto del fenómeno, del epifenómeno. La predicción a corto plazo o en condiciones muy limitadas es lo máximo que permiten este tipo de modelos. Son modelos de caja negra, en los que no aparece ningún elemento que pueda definirse claramente como elemento causal.

En cambio, los modelos que en la nueva teoría de los tests se propugnan, no hacen una simple descripción de lo que aparece en el proceso de generación de la respuesta observable; la puntuación en el test, en la TCT, y la puntuación en el ítem, en la IRT. Ahora sin embargo se pretende modelizar al propio individuo que genera la respuesta en cuanto a los mecanismos que pone en juego para producirla. Se pretende elaborar una representación del «mecanismo» que actúa cuando la conduc­ta observada se genera. Se suponen unos estados por los que el sujeto modelizado

170

Page 43: PONENCIA III - digitum.um.es · PONENCIA III MODELOS DE CONSTRUCCIÓN Y VALIDACIÓN DE INSTRUMENTOS DIAGNÓSTICOS por Arturo de la Orden Hoz, José Luis Gaviria Soto, Aurora Fuentes

Revista Investigación Educativa - N.º 23 - 1994

Figura 9

puede pasar, ligando a cada uno de esos estados una distribución de probabilidad de las distintas respuestas posibles. Se introduce un elemento de causalidad, o al menos la posibilidad de que estos modelos lo incluyan. El alumno que responde ya no es sólo un valor en una variable continua, sino que su complejidad psicológica puede ser modelizada, y nuestros conocimientos sobre ella incluidos en el modelo psico-

171

Page 44: PONENCIA III - digitum.um.es · PONENCIA III MODELOS DE CONSTRUCCIÓN Y VALIDACIÓN DE INSTRUMENTOS DIAGNÓSTICOS por Arturo de la Orden Hoz, José Luis Gaviria Soto, Aurora Fuentes

Revista Investigación Educativa - N.º 23 - 1994

métrico. ¿Quiere eso decir que los «esquemas», son más «reales» que los rasgos? La respuesta es que no. Los esquemas también son construcciones auxiliares que permiten inducir independencia local o condicional, y por lo tanto construir esque­mas de explicación causal. Sin embargo esa construcción auxiliar es más sofisticada que sus predecesoras, y por eso es que la intención asociada a su formulación es precisamente la de ser isomórfica con la realidad. Por esto, y también usando la terminología de BUNGE, se trata de modelos, al menos localmente, representacio­nales, es decir, explicativos y causales. Desde este punto de vista la superioridad epistemológica de esta corriente es evidente. Pero además lo anterior implica que el modelo que guía el aprendizaje y el que guía la evaluación son la misma cosa. Esta capacidad de integrar en un sólo conjunto el aprendizaje y su evaluación supone un avance no sólo epistemológico sino de orden práctico.

Con respecto al nivel de generalidad de los modelos cognitivos y sus repercusio­nes epistemológicas, es necesario hacer algunas precisiones. En psicología cogniti­va los modelos son en su mayoría modelos locales. Tal vez sea esa característica la que ha producido el malentendido de la atribución de un carácter cualitativo a los mismos. Si aceptamos que el rasgo más sobresaliente del paradigma cuantitativo es la pretensión de desarrollar explicaciones causales, está claro que los modelos a los que nos hemos referido lo son. Pero posiblemente queda mejor aclarada la idea si pensamos que las explicaciones pueden tener dos niveles distintos de generalidad: respecto de los sujetos y respecto de los contenidos. El tipo de discurso desarrollado dentro del paradigma cualitativo se asienta sobre el supuesto de que el dato funda­mental no es una realidad objetiva externa al sujeto que conoce, sino más bien la interpretación que dicho sujeto hace del contexto en el que se encuentra. En el paradigma cognitivo, es cierto que interesa la arquitectura de las representaciones que construye cada sujeto, pero se parte del supuesto de la existencia de unos mecanismos generales de la cognición que son comunes a todos los sujetos. Por tanto se da generalidad de la validez de las teorías en lo que se refiere a los sujetos. La localidad a que nos referimos se da en cuanto a los contenidos de la cognición. Los modelos son específicos de los dominios de contenido, no de los sujetos. Desde este punto de vista por tanto podemos atribuir a estos modelos capacidad de expli­cación causal, si bien llamamos la atención sobre el hecho de que no se deducen de un modelo general de la cognición, sino que se construyen específicamente para explicar fenómenos locales.

La localidad de estos modelos plantea algunas cuestiones importantes. Es inne­gable que en la resolución de problemas diagnósticos concretos las teorías locales y sus modelos correspondientes pueden resultar suficientemente útiles como para justificar su existencia. El diagnóstico es una actividad práctica, y como tal, no necesita de otros niveles de generalidad. Sin embargo desde un punto de vista práctico también es cierto que entonces es necesario multiplicar los esfuerzos de resolución de problemas diagnósticos.

Por otra parte desde el punto de vista de la construcción de una ciencia es necesaria la existencia de un marco general de explicación. En una situación ideal,

172

Page 45: PONENCIA III - digitum.um.es · PONENCIA III MODELOS DE CONSTRUCCIÓN Y VALIDACIÓN DE INSTRUMENTOS DIAGNÓSTICOS por Arturo de la Orden Hoz, José Luis Gaviria Soto, Aurora Fuentes

Revista Investigación Educativa - N.º 23 - 1994

una teoría general de la cognición podría producir, al enfrentarse con las situaciones planteadas en el contacto con los dominios determinados de conocimientos, mode­los específicos que serían casos particulares del primero. Hoy no tenemos todavía esa jerarquía. Pero no hay que descartar que la profusión de teorías locales sirva para allanar el camino hacia la construcción de un sistema general de referencia de alto nivel de abstracción.

El futuro de este paradigma está ligado, probablemente, a su capacidad para generar esa teoría general de la cognición a que nos hemos referido y derivada o complementaria de ella, una teoría general del aprendizaje, no ligadas por tanto, específica y exclusivamente a contextos limitados.

Por otra parte se consigue una integración para muchos insospechada. Ciertos modelos y teorías cognitivas acerca de la inteligencia y el aprendizaje, cuya natura­leza y estructura les acercaba más al mundo de lo cualitativo y por ende los hacía declarados enemigos de la utilización de pruebas estandarizadas para el diagnóstico, pueden ahora, sin embargo, proporcionar la base psicológica para un nuevo tipo de diagnóstico. Y esto en definitiva no hace más que subrayar el malentendido mencio­nado que colocaba a la ciencia cognitiva del lado de lo cualitativo, o mejor, enfrente de lo cuantitativo. Pero la distinción fundamental entre uno y otro paradigma radica en que el segundo se trata de desarrollar explicaciones causales. Y desde ese punto de vista, gran parte de los modelos y teorías formuladas en el ámbito de las ciencias cognitivas son, indudablemente, explicativas, y por tanto cuantitativas, a pesar de que sus sistemas de representación se basen en categorías a veces no ordenadas, o parcialmente ordenadas, y por tanto no lleguen a utilizar sistemas de numeración.

La que hemos presentado es una línea de investigación que está comenzando a florecer en estos momentos. No es posible saber si en el futuro se convertirá en la corriente principal en el área de la psicometría y el diagnóstico. No sabemos qué otros desarrollos pueden más adelante obligamos a mirar interesados en otras direc­ciones. Lo que es indudable es que estos postulados obligan a plantearse importan­tes cuestiones acerca de la relación entre la psicometría, y el aprendizaje y su diagnóstico. Tal vez caigamos en la cuenta de que ya no es posible hablar del diagnóstico educativo sin referirnos a la psicometría, ni a ésta última sin mencionar al primero, ya que ambas áreas son básicamente procesos de inferencia en orden a la mejora y la intervención educativa.

4. REFERENCIAS BIBLIOGRÁFICAS

BEJAR, 1.1. (1993): A generative approach to psychological and educational measurement. En N. FREDE­RIKSEN, R. J. MISLEVY e 1. l. BEJAR (eds.): Test Theory for a new Generation ofTests. Lawrence Erlbaum, Hillsdale, N. J., 323-357.

BEJAR, I. l. (1988): «A sentence-based automated approach to the assessment of writing: A feasibility study» Machine-Mediated Learning, 2, 321-332.

BEJAR, l. I., CHAFFlN, R. y EMBRETSON, S. (1991): Cognitive and psychometric analysis of analogical problem solving, Springer-Verlag, N.Y.

173

Page 46: PONENCIA III - digitum.um.es · PONENCIA III MODELOS DE CONSTRUCCIÓN Y VALIDACIÓN DE INSTRUMENTOS DIAGNÓSTICOS por Arturo de la Orden Hoz, José Luis Gaviria Soto, Aurora Fuentes

Revista Investigación Educativa - N.º 23 - 1994

BENNETT, R. E. (1993): Toward intelligent assessment: an integration of constructed-response testing, artifical intelligence and model-based measurement. En N. FREDERIKSEN, R. J. MIS LE­Vye 1. 1. BEJAR (eds.): Test Theory for a new Generation ofTests, Lawrence Erlbaum, Hillsade, N. J., 99-123.

BENNETT, R. E., WARD, W. c., ROCK, D. A. Y LAHART, C. (1990): Toward a framework for constructed-response ítems. Documento nº RR-90-7. Educational Testing Service. Princeton, NJ.

BERGAN, J. R. Y STONE, C. A. (1985): «Latent c1ass models for know1edge domains» Psychological Bulletin, 98, 166-184.

BIREMBAUM, M. & TATSUOKA, K. K. (1987): Open-ended versus multip1e-choice response formats - It does make a difference for diagnostic purposes. Applied Psychological Measurement, 11, 385-395.

BISWAS, G. y GOLDMAN, S. (1993): Assessing design activity in complex CMOS circuit designo Documento presentado en Conference on Altemative Diagnostic Assessment, The university of Iowa, 6-7 mayo.

BOCK, R. D. (1972): «Estimating item parameters and latent ability when responses are scored in two or more nominal categories». Psychometrika, 37, 29-51.

BRAUN, H., CARLSON, S. y BEJAR, I. 1. (1989): Psychometric foundations of testing based on patient management problems (RM-89-2) Educational Testing Service, Princeton.

BROWN, J. S. Y BURTON, R. R. (1978): «Diagnostic models for procedural bugs in basic mathematical skills» Cognitive Science, 2, 155-192.

BUTTERFIELD, E. c., NIELSEN, D., TANGEN, K. L. Y RICHARDSON, M. B. (1985): Theoretically­based psychometric measures of inductive rasoning. En EMBRESTON, S. (ed.): Test design: develp­ments in psychology and psychometrics. Academic Press, Orlando, pp. 77-148.

CAMPBELL, D. T. y FISKE, D. W. (1959): «Convergent and discriminant validation by the multitrait­multimethod matrix» Psychological Bulletin, 56, 81-105.

CARRETERO, M., POPE, M., SIMONS, R. J. Y POZO, 1. (eds.) (1991): Learning and lnstruction. European Research in an Intemational Context, Vol. I1I, Pergamon, Oxford.

CHAFFIN, R. y HERRMANN, D. J. (1987): Relation element theory: A new account of the representation and proccessing of semantic relations. En GORFEIN, D. y HOFFMAN, R. (eds.): Memory and Lear­ning: The Ebbinghaus centennial conference, Erlbaum, Hillsdale, NJ.

CHOMSKY, N. (1965): Aspects of the theory of syntax, MIT Press, Cambridge MA. CORBALLIS, M. C. (1982): Mental rotation: Analysis of a paradigm. En POTEGAL, M. (ed.): Spatial

abilities: developmental and psychological foundations, 173-198, Academic Press, N.Y. DIBELLO, L., STOUT, W. y ROUSSOS, L. (1993): Unified cognitive/psychometric diagnosis foundations

and applications. Documento presentado en Conference on Altemative Diagnostic Assessment, The university of Iowa, 6-7 mayo.

DUBOIS, D. y SHALIN, V. (1993): Adapting cognitive methods to real world objectives: An application to job Knowledge testing. Documento presentado en «Conference on Altemative Diagnostic Assessment», The university of Iowa, Mayo.

DUNCAN, J. y HUMPHREYS, G. W. (1989): «Visual search and stimulus similarity» Psychological Review, 96, 433-458.

ELSHOUT (1985): Prob1em Solving and Education. Documento presentado en la reunión de la «European Association for Research on Leaming and Instruction». Bélgica.

EMBRESTON, S. (1985): Multicomponent latent trait models for test designo En EMBRESTON, S. (ed.): Test design: developments in psychology and psychometrics. Academic Press, Orlando.

EMBRESTON, S. (1993): Psychometric models for leaming and cognitive processes. En N. FREDERIK­SEN, R. J. MISLEVY e 1. 1. BEJAR (eds.): Test Theory for a new Generation of Tests. Lawrence Erlbaum, Hillsdale, NJ., 125-150.

174

Page 47: PONENCIA III - digitum.um.es · PONENCIA III MODELOS DE CONSTRUCCIÓN Y VALIDACIÓN DE INSTRUMENTOS DIAGNÓSTICOS por Arturo de la Orden Hoz, José Luis Gaviria Soto, Aurora Fuentes

Revista Investigación Educativa - N.º 23 - 1994

FREDERIKSEN, N., MISLEVY, R. J. Y BEJAR, 1. 1. (eds.): (1993): Test Theory for a new Generation of Tests, Lawrence Erlbaum, Hillsdale, NJ.

FREDERIKSEN, N., GLASER, R., LESGOLD, A. y SHAFfO, M. G. (eds.) (1990): Diagnostic monitoring of skill and Knowledge acquisition, Lawrence Erlbaum, Hillsdale, NJ.

FULTON, S. L. y PEPE, C. O. (1990): An introduction to model-based reasoning. Al Expert, 48-55. GAVIRIA SOTO, J. L. (En preparación): Un modelo del tiempo de respuesta para predecir la habilidad

latente. Universidad Complutense. GELMAN, R. Y GALLISTEL, R. (1978): The child»s understanding ofnumber. Harward University Press,

Cambridge MA. GITOMER, D. H., STEINBERG, L. S. y MISLEVY, R. J. (en preparación): Diagnostic assessment of

troubleshooting skill in an intelligent tutoring system. GITOMER, D. H. Y YAMAMOTO, K. (1991): Performance Modeling that integrates latent trait and class

theory. Research Report RR-91-1, Educational Testing Service, Princeton, N.J. GLASER, R., LESGOLD, A. y LAJOIE, S. (1987): Toward a cognitive theory for the measurement of

achievement. En RONNING, R., GLOVER, J., CONOLEY, J. C. y WITT, J. (eds.): The irifluence of cognitive psychology on teting and measurement: The Buros-Nebraska Symposium on measurement and testing, Vol. 3, Erlbaum, Hillsdale, NJ.

GOLDIN, G. A. Y McCLINTOCK, C. E. (eds.) (1984): Task variables in mathematical problem solving. Franklin Institute Press, Philadelphia.

HIVEL Y, W., PATERSON, H. L. Y PAGE, S. H. (1968): «A universe-defined system of arithmetic tests». Journal of Educational Measurement, 5, 275-290.

HAERTEL, E. H. Y WILEY, D. E. (1993): Representations of ability structures: implications for testing. En N. FREDERIKSEN, R. 1. MISLEVY e 1. 1. BEJAR (eds.): Test Theory for a new Generation ofTests, Lawrence Erlbaum, Hillsdale, NJ., 359-384.

HAERTEL, E. H. (1990): «Continuos and discrete latent structure models for item response data» Psycho­metrika, 55, 3, 477-494.

JARJOURA, D. y BRENAN, R. L. (1982): «A variance components model for measurement procedures associated with atable of specifications». Applied Psychological Measurement, 6,161-171.

JOHNSON-LAIRD, P. N., BYRNE, R. M. J. Y TABOSSI, P. (1989): «Reasoning by model: The case of multiple quantification». Psychological Review, 96, 658-673.

KATZ, B. (1988): Using Englishfor indexing and retrieving (A.1. Memo nº 1.096) Massachusetts Institute of Technology, Cambridge, MA.

KIERAS, D. E. (1990): The role of cognitive simulation models in the development of advanced training and testing systems. En FREDERIKSEN, N., GLASER, R., LESGOLD, A. y SHAFfO, M. G. (eds.) (1990): Diagnostic monitoring of skill and Knowledge acquisition, (51-73) Lawrence Erlbaum, Hillsda­le, NJ.

KLASSEN, D. y O'CONNOR, W. A. (1987): Predicting violence in mental patients: Cross-validation of an actuarial scale. Documento presentado en el Annual Meeting of the American Public Health Associa­tion, New Orleans.

KOCH, W. R. (1983): «Likert scaling using the graded response latent trait model» Applied Psychological Measurement, 7, 15-32.

KOLEN, M. J. Y HARRIS, D. J. (1987): A multivate test theory model based on item response theory and generalizability theory. Presentado en Annual Meeting de AERA.

LAZARSFELD, P. F. Y HENRY, N. W. (1968): Latent Structure Analysis Houghton-Mifflin, Boston. LAURITZEN, S. L. & SPIEGELHALTER, D. J. (1988): Local computantions with probabilities on graphi­

cal structures and their application to expert systems. (Le sigue un debate): Joumal of the Royal Statiscal Society, Series B, 50, 157-224.

175

Page 48: PONENCIA III - digitum.um.es · PONENCIA III MODELOS DE CONSTRUCCIÓN Y VALIDACIÓN DE INSTRUMENTOS DIAGNÓSTICOS por Arturo de la Orden Hoz, José Luis Gaviria Soto, Aurora Fuentes

Revista Investigación Educativa - N.º 23 - 1994

LESGOLD, A., IVILL-FRIEL, 1. y BONAR, J. (1989): Toward intelligent systems for testing. En RES­NICK, L. R. (ed.): Knowing, learning, and instruction: Essays in honor of Robert Glaser (337-360) Lawrence Erlbaum, Hillsdale NJ.

LINN, R. L. (1989) (ed.): Educational Measurement, (3ª edic.), Macmillan, N.Y. LOHMAN, D. F. e IPPEL, J. (1993): Cognitive diagnosis: From Statistically based assessment toward

theory-based assessment. En N. FREDERIKSEN, R. J. MISLEVY e 1. 1. BEJAR (eds.): Test Theory for a new Generation ofTests, 41-71. Lawrence Erlbaum, Hillsdale, N.J.

LORD, F. M. Y NOVICK, M. R. (1968): Statistical Theories of Mental Test Scores. Reading, Mass.: Addison-Weley.

MARSHALL, S. P. (1990): Generating good ítems for diagnostic tests. En FREDERIKSEN, N., GLASER, R., LESGOLD, A. y SHAFTO, M. G. (eds.) (1990): Diagnostic monitoring of skill and Knowledge acquisiton, Lawrence Erlbaum, Hillsda1e, NJ.

MARSHALL, S. P. (1993): Sorne suggestions for altemative assessment. Documento presentado en «Con­ference on Altemative Diagnostic Assessmen!», The university of Iowa, 6-7 mayo.

MARSHALL, S. P. (1993): Assessing schema knowledge. En N. FREDERIKSEN, R. J. MISLEVY e 1. 1. BEJAR (eds.): Test Theory for a new Generation of Tests, Lawrence Erlbaum, Hillsdale, N.J., 155-180.

MASTERS, G. N. (1982): «A Raxh mode1 for partial credit scoring» Psychometrika, 47, 149-174. MASTERS, G. N. Y WRIGHT, B. D. (1984): «The essential process in a family of measurement models»

Psychometrika, 49, 269-272. MCDONALD, R. P. (1981): The dimensionality of tests and ítems. British Joumal of Mathematical and

Statistical Psychology, 34, 100-117. MCDONALD, R. P. (1985): Factor Analysis and Related Methods. Lawrence Erlbaum, Hillsdale, NJ. MESSICK, S. (1989): Validity. En LINN, R. L. (1989) (ed.): Educational Measurement, (3ª edic.), Macmi­

llan, N.Y., 13-103. MESSICK, S. (1992): The interplay of evidence and consequences in the validation of performance

Assessment. Research Report RR-92-39, Educational Testing Service, Princeton, N.J. MILLER, P. L. (1984): A critiquing approach to expert computer advice: Attending. Kaufmann, Palo Alto,

CA. MISLEVY, R. J. (1991): A framework for studying differences between multiple-choice and free-response

test ítems. Educational Testing Service. Princeton, NJ. MISLEVY, R. J. (I993a): Foundations of a new test theory. En N. FREDERIKSEN, R. J. MISLEVY

eL 1. BEJAR (eds.): Test Theory for a new Generetion ofTests. Lawrence Erlbaum, Hillsda1e, NJ.,19-39.

MISLEVY, R. J. (I993b): Probability-Based inference in Cognitive Diagnosis. Documento presentado en la Conference on altemative diagnostic assessment. Universidad de Iowa, 6-7 de mayo.

MISLEVY, R. 1. (1993c): Tests Theory Reconceived. Documento presentado en la reunión anuarde AERA. MISLEVY, R. J., YAMAMOTO, K. y ANACKER, S. (1990): Toward a test theory for assessing student

understanding. Educational Testing Service, Princeton, NJ. MURAKI, E. (1989): Manual for Parsca1e Programo Scientific Software. Fairplay, Co. MURILLO TORRECILLA, F. J. (1993): Aplicación de los nuevos enfoques de teoría de la medida en la

construcción de una prueba diagnóstica de comprensión verbal. Comunicación presentada en el VI Seminario de Modelos de Investigación Educativa, Madrid, 23-25 de septiembre.

NEWELL, A. y SIMON, H. (1972): Human Problem-solving Englewood Cliffs, Prentice-Hall. ORASANU,1. y FISCHER, U. (1992): Team cognition in the cockpit: linguistic control of shared problem­

solving. En Proceedings of the 14th Annual Meeting of the Cognitive Science Society. Hillsdale, NJ.

176

Page 49: PONENCIA III - digitum.um.es · PONENCIA III MODELOS DE CONSTRUCCIÓN Y VALIDACIÓN DE INSTRUMENTOS DIAGNÓSTICOS por Arturo de la Orden Hoz, José Luis Gaviria Soto, Aurora Fuentes

Revista Investigación Educativa - N.º 23 - 1994

PEARL, J. (1988): Probabilistic reasoning in intelligent system: Networks of plausible inference. San Mateo. CA: Kaufmann.

RECKASE, M. D. (1979): Unifactor Latent Trait Models applied to multifactor tests: Results and implica­tions. Joumal of Educational Statistics, 4, 207-230.

RESNICK, L. B. Y RESNICK, D. P. (1989): Assessing the thinking curriculum: new tools for educational refonn. En GIFFORD, B. R. Y O'CONNOR, M. C. (eds.): Future Assessment: changing assessments: alternative views of aptitude, achievement, and instruction. Kluwer Academic Publishers, Boston, 37-75.

ROID, G. y HALADYNA, T. (1982): A technology for test-item writing, Academic Press, N.Y. RUIZ PRIMO, A.; BAXTER, G. y SHALVESON, R. (1993): «On stability of perfomance assessment».

Joumal of Educational Measurements. 30, 1, 41-53. SAMEJIMA, R. (1969): «Estimation oflatent ability using a response pattem of graded scores». Psychome­

trie Monograph, nº 17. Psychometric Society. SAMEJIMA, F. (1993): A design of cognitive diagnosis. Documento presentado en «Conference on Alter­

native Diagnostic Assesment», The university of Iowa, 6-7 mayo. SAMInMA, R. (1993): A cognitive diagnosis method using latent trait models. Documento presentado en

«Conference on Altemative Diagnostic Assessment», The university of Iowa, 6-7 mayo. SHAFER, G., & SHENOY, P. (1988): Bayesian and belief-function propagation. Working paper 121.

Lawrence, KS: Schools of Business, University of Kansas. SHEEHAN, K. y MISLEVY, R. (1989): Integrating cognitive and psychometric models to measure docu­

ment literacy. Documento nº (RR-89-51-0NR) Educational Testing Service. Princeton, NJ. SHEPARD, L. (1991): «Psychometricians beliefs about leaming» Educational Researcher, 20, 7, 2-16. SIEGLER, R. S. (1981): Developmental sequences within and between concepts. Monograph ofthe Society

for Research in Child Development, 46. SNOW, R. E. Y LOHMAN, D. F. (1989): Implications of cognitive psychology for educational measure­

ment. En LINN, R. L. (ed.): Educational Measurement, (3' edic.), Macmillan, N.Y., 263-331. SNOW, R. E. Y LOHMAN, D. F. (1993): Cognitive psychology, new test design and new test theory: An

introduction. En N. FREDERIKSEN, R. J. MISLEVY e 1. 1. BEJAR (eds.): Test Theory for a new Generation ofTests Lawrence Erlbaum, Hillsdale, N.J., 1-17.

STERNBERG, R. J. (1984): What cognitive psychology con and cannot do for test development. En B. S. PLAQUE (Ed.): Social and technical issues in testing: Implications for test construction and usage, Lawrence Erlbaum, Hillsdale, NJ., 39-60.

T ATSUOKA, K. K. (1990): Toward an integration of Item-Response Theory and cognitive error diagnosis. En FREDE RIKSEN, N., GLASER, R., LESGOLD, A. Y SHAFTO, M. G. (eds.) (1990): Diagnostic monitoring of skill and Knowledge acquisition, Lawrence Erlbaum, Hillsdale, NJ. 453-488.

THISSEN, D. (1993): Repealing rules that no longer apply to psychological measurement. En N. FREDE­RIKSEN, R. 1. MISLEVY e 1. 1. BEJAR (eds.): Test Theory for a new Generation ofTests, Lawrence Erlbaum, Hillsdale, NJ., 79-97-

THISSEN, D. M. Y STEINBERG, L. (1986): «A taxonomy of item response models». Psychometrika, 51, 567-577.

TRYON, R. C. (1957): «Reliability and behavior domain validity: refonnulation and historical critique» Psychological Bulletin, 54, 229-249.

WANG, M. (1985): Fitting a Unidimensional Model to Multidimensional Item Response Data: The Effects of Latent Space Misspecification on the Application of IRT. Research Proposal, The University of Iowa.

W ANG, M. (1987): Estimation of ability parameters from response data to ítems that are precalibrated with a unidimensional modelo Comunicación presentada en la reunión anual de la American Educational Research Association, Wasington, D.C.

WHITELY, S. E. (1980): Multicomponent latent trait models for ability tests. Psychometrika, 45, 479-494.

177

Page 50: PONENCIA III - digitum.um.es · PONENCIA III MODELOS DE CONSTRUCCIÓN Y VALIDACIÓN DE INSTRUMENTOS DIAGNÓSTICOS por Arturo de la Orden Hoz, José Luis Gaviria Soto, Aurora Fuentes

Revista Investigación Educativa - N.º 23 - 1994

y AMAMOTO, K. Y GITOMER, D. H. (1993): Application of a HYBRID model to a test of cognitive skill representation. En N. FREDERIKSEN, R. J. MISLEVY el. 1. BEJAR (eds.): Test Theory for a new Generation ofTests, Lawrence Erlbaum, Hillsdale, NJ. 275-295.

178