como hacer tests

Las Pruebas Objetivas - 63

��

��

��

��

1 Pruebas de corrección objetiva En el apartado anterior vimos las pruebas de respuesta abierta y corrección subjetiva, veremos, a continuación las llamadas pruebas objetivas��En este caso, el corrector no ha de juzgar las respuestas; debe, simplemente, determinar si son correctas o no. Se trata de un tipo de examen escrito estructurado –a cada alumno se le presentan exactamente las mismas preguntas o preguntas equivalentes-, cuyas características principales son:

• La presencia de un alto número de preguntas o ítems. • Las preguntas o ítems se traducen en fórmulas cerradas en las cuales

el alumno no elabora la respuesta sino que sólo ha de señalar la respuesta o bien completarla con elementos muy precisos que se limitan a una sola palabra o frase breve (como en el caso de los ítems de “laguna” o palabra a completar). No hay por tanto, elaboración de la respuesta ni libertad para hacerlo.

• La determinación de las respuestas aceptables o rechazables ha de ser unívoca y exacta, lo cual da lugar a que se puedan calificar objetivamente y significa que, independientemente de quién las valore, se llegará a los mismos resultados de medida.


2 Diversos usos de las pruebas objetivas.

Asociamos las pruebas objetivas a exámenes, pero estos sistemas pueden tener otros muchos usos. Puede suceder que las pruebas tipo test no nos interesen como modalidad de examen, pero pueden interesar con otras finalidades. En el cuadro adjunto enumeramos una serie de usos de este tipo de preguntas.

1º Test o examen convencional, con un número más o menos grande de preguntas; lo que se hace habitualmente.

2º Pocas preguntas de cierta dificultad (y de preparación no tan fácil) para evaluar objetivos muy específicos, como capacidad de análisis, de interpretación, etc. (y para condicionar un cierto tipo de estudio en profundidad, etc.). Estas pocas preguntas pueden ser complemento de otras preguntas de respuesta abierta .

3º Preguntas objetivas con respuesta abierta (comentar todas las alternativas, escoger la correcta y justificar la elección, etc.). En sentido propio ya no se trata de una prueba objetiva, pero el formato de la pregunta puede ser válido para orientar la respuesta de¡ alumno en la dirección deseada.

4º Pruebas objetivas sencillas, (pueden ser del tipo Verdadero-Falso) como ejercicio de autoevaluación rápida,- el profesor no recoge los tests ni califica; da la respuesta correcta en público y cada alumno se corrige a sí mismo. Util para verificar comprensión de lo que se acaba de explicar, al comienzo de la clase como repaso de lo visto en la clase precedente, al comienzo de un nuevo tema para ver qué saben ya los alumnos, qué piensan, etc.

5º Pruebas relativamente cortas y sencillas de evaluación formativa: no se trata de calificar sino de dar información al profesor y a los alumnos, reforzar el aprendizaje, clarificar, etc. Las pruebas objetivas sencillas, y relativamente cortas, llevan poco tiempo de preparación y corrección, se prestan a devolver los datos organizados y comentados, etc.

6º Pocas preguntas bien pensadas utilizadas para dar estructura a actividades en la misma clase. La finalidad no es evaluar o comprobar sino facilitar el aprendizaje (análisis de casos y actividades similares). Un proceso posible para dar estructura a una actividad puede ser éste:

a) Respuesta individual a las preguntas;

b) Discusión y respuesta en pequeños grupos; como ya ha habido antes un breve trabajo individual se facilita la participación de todos, que al menos tendrán que comunicar su respuesta inicial;

c) Puesta en común e intervención del profesor para dar las respuestas correctas, responder a las dificultades, etc.


7º Preguntas objetivas orientadas a facilitar el estudio reflexivo de un texto (o varios)- se trata preparar material didáctico de usos múltiples, viene a ser un estudio dirigido,- por ejemplo: Lo dicho en el párrafo 1.1 de la página 25 comparado con lo dicho en el párrafo 2.1 de la página 23:

[A] lo contradice [B] es una consecuencia

[C] es una prueba [DI no tiene nada que ver

8º Adaptación de la enseñanza programada: se formulan una serie de preguntas objetivas que cubren por orden todo un tema de especial interés o dificultad- al final de cada pregunta se, indica la página del texto (o textos) donde se encuentra la solución correcta para que el mismo alumno se vaya auto corrigiendo. Este material escolar puede ser útil para garantizar el estudio o repaso de determinados puntos, como recurso en caso de suplencias, para recuperaciones, etc. Si hay una hoja separada para las respuestas, el cuadernillo de preguntas se puede utilizar en otras ocasiones.

3 Ventajas y limitaciones de las pruebas objetivas.

VENTAJAS LIMITACIONES

1 . Permiten evaluar sobre una base amplia de conocimientos-, se puede preguntar sobre muchos temas.

2. La suerte puede influir menos que en las pruebas abiertas que tienen un número más limitado de preguntas.

3. La fiabilidad es mayor: con otras pruebas similares los alumnos hubieran quedado ordenados de manera similar; diferencian adecuadamente niveles de competencia entre los alumnos.

4. No hay lugar para ambigüedades en la respuesta o para que el alumno responda a lo que no se pregunta; la corrección es muy objetiva.

5. La corrección es fácil y rápida, - puede facilitarse con cartones perforados o con programas de ordenador, y también la puede corregir con objetividad otra persona distinta del profesor.

6. Tienen gran variedad de aplicaciones y se pueden comprobar con nitidez objetivos muy distintos: no sólo memoria, sino también objetivos de comprensión, interpretación, análisis, etc.

7. Se presta a análisis estadísticos muy útiles que también pueden hacerse con programas de ordenador.

8. Tienen un valor diagnóstico de fácil interpretación, identifican con claridad puntos no sabidos o no entendidos, etc.

9. Pueden condicionar un estudio inteligente si las preguntas son las adecuadas y los alumnos conocen el tipo de pregunta para el que deben estudiar.

10. Las mismas pruebas pueden utilizarse en otras ocasiones o lugares, o resulta fácil modificar las ya existentes.

1. La preparación es muy laboriosa; para que estas pruebas sean un instrumento útil y eficaz de evaluación hay que prepararlas con cuidado, revisar modelos de preguntas, etc.

2. Pueden condicionar negativamente los hábitos de estudio de los alumnos si no se preparan bien o se utilizan como método casi exclusivo: memorismo, falta de visiones de conjunto, etc.

3. Aunque la suerte en los temas preguntados influye menos, sí se puede adivinar la respuesta correcta sin conocerla; tampoco se dificulta de manera especial el copiar, transmitir la respuesta a otro, a no ser que se hagan varias ediciones paralelas (alterando el orden de las preguntas, de las alternativas, etc.).

4. No comprueban objetivos importantes, como son todos los relacionados con:

a) la expresión escrita, estilo, etc. b) capacidad de organización, visiones de conjunto,

síntesis personales, etc. c) juicios personales,.originalidad, etc. d) solución de problemas o aplicación de normas y

métodos en situaciones de mayor complejidad, o cuando se requiere justificación personal, etc.

Algunos de los aspectos anteriores y según su complejidad, se pueden también comprobar en parte con pruebas objetivas, pero en términos generales y aunque se trate de preguntas de calidad es un sistema limitado, que deja fuera cosas importantes, sobre todo si se utiliza como un método casi exclusivo y no está complementado por otros (como preguntas abiertas, trabajos hechos en casa, etc.).

5. Puede ser un sistema caro, por la necesidad de fotocopiar los cuadernos de preguntas y las hojas de respuesta.


4 Tipos de ítems de las pruebas objetivas Una primera clasificación del tipo de ítems objetivos viene dada de acuerdo con la elaboración o bien la selección de la respuesta por parte del alumno.

De elaboración Items de “laguna”

Tipo de ítems Objetivos

De selección

Items de respuesta alterna Items de ordenación Items de correspondencia Items de localización Items de elección múltiple Multiítem objetivo

5 Tabla de especificaciones.

Objetivos Total Contenido Conocimiento Comprensión Aplicación Análisis Desarrollo histórico, medición y evaluación Autores Aportaciones

1 (1) 2 (2,3)

3

6% Conceptos básicos Relativos a la medición Relativos a la evaluación

2 (4,5)

2 (6*,8) 2 (11,13)

1 (12)

7

13%

Características métricas Fiabilidad • Conceptos • Métodos

1 (14)

3 (7,10*,9) 3 (21, 22,23)

5 (15,16,17,19,20)

1 (18*)

13

24%

Validez • Conceptos • Métodos

1 (24)

3 (26,28,32) 2 (35*,36)

5 (25,27,29,30,31)

2 (33,34)

13

24%

Prueba de ensayo • Características • Formulación de ítems • Corrección

1 (39) 1 (38)

2 (37,42)

2 (41,43)

1 (44)

7

13%

Prueba objetiva • Características • Formulación de ítems • Corrección

1 (40)

2 (45,46)

3 (52,47,49) 3 (48,50,51)

2 (53,54)

11

20%

Total 10 19%

19 35%

19 35

6 11% 54


6 Cómo redactar preguntas para pruebas objetivas Las críticas que suelen hacerse a las pruebas objetivas son muchas, pero muchas de estas críticas no se derivan necesariamente del formato de las pruebas objetivas sino de la mala calidad de muchas de estas pruebas. Antes de preparar una prueba objetiva es útil repasar las normas que la experiencia da como útiles. Haladyna y Downing (1989) han revisado 46 textos de evaluación que vienen a coincidir, entre unos y otros, en 43 normas para redactar buenas preguntas objetivas. Aquí resumimos las normas más importantes. 1 Lo importante en primer lugar es determinar qué se debe preguntar y

cómo se debe preguntar. Es muy útil revisar modelos, de fácil adaptación a diversos niveles y asignaturas; hay muchos en buenas obras de evaluación. Esta revisión de modelos es importante si no hay práctica previa.

2 Las preguntas deben versar sobre algo que merezca la pena saber. Las

preguntas objetivas, si no se pone un cuidado especial, se prestan a comprobar nimiedades y pueden condicionar hábitos de estudio pobres, excesivamente memorísticos. Con estas preguntas se pueden comprobar con facilidad conocimientos de memoria, pero también comprensión, capacidad de análisis, etc. (con los tests de inteligencia se pretende medir inteligencia, y algo de eso se mide, y son pruebas objetivas). Aun cuando la materia se preste sobre todo a un estudio básicamente de memoria, no es lo mismo comprobar el conocimiento de hechos y detalles específicos que de principios, leyes, generalizaciones, etc. Si hay objetivos previamente formulados, habrá que tenerlos en cuenta.

3 Es útil disponer de un plan previo (como las tablas de especificaciones o un plan similar) para que el conjunto sea equilibrado, y haya más preguntas de lo más importante; de lo contrario cabe preguntar más de lo que resulta más fácil preguntar. la calificación dependerá normalmente del número de respuestas correctas, y si hay muchas preguntas triviales, la nota dependerá de lo trivial, o de lo que es menos importante.

4 La pregunta completa tiene dos componentes, la pregunta propiamente dicha y las alternativas de respuesta. La pregunta puede formularse también en forma de frase Incompleta que se completa con las alternativas de respuesta. En cualquier caso el conjunto debe equivaler a una pregunta en sentido propio, de manera que las respuestas no equivalgan a una serie de afirmaciones inconexas. Los estudios experimentales sobre el uso de estos formatos (Crehan, 1989) muestran que no hay diferencias importantes entre los mismos.

5 La secuencia más lógica para redactar las preguntas objetivas es: 1.) Redactar la pregunta o frase incompleta, 2 ) Redactar la respuesta correcta; 3 ) Redactar las alternativas falsas. 4 ) Reordenar las respuestas para que la respuesta correcta vaya

variando de lugar


6. Sobre la redacción de las preguntas (en forma de pregunta o de frase incompleta) se puede seguir este proceso (Williams y Haladyna, 1982):

1º El primer paso debe ser seleccionar la información que merece la

pena preguntar, lo que al profesor le parece por alguna razón importante,- se puede empezar subrayando una frase del texto, determinadas palabras, etc.; hay tener en cuenta los objetivos si se han propuesto con claridad previamente, ejercicios hechos en clase, etc.

2º Se selecciona información complementaria de la información ya señalada antes; pueden ser características, consecuencias, etc.; esta nueva información da cuerpo, completa la idea señalada previamente.

3º Se piensa en la tarea del alumno, qué tiene que hacer, cómo va a utilizar la información de la pregunta, qué verbo queremos que conjugue (y aquí será útil disponer de una serie de sugerencias ya pensadas y que equivalen a objetivos operativos): identificar una reformulación correcta, predecir una consecuencia, evaluar unas conclusiones o interpretaciones, etc.

7. la pregunta propiamente dicha debe tener estas características:

a) Debe ser clara, que centre la atención del alumno. Puede contener datos o información necesaria para la respuesta y puede haber también datos comunes a varias preguntas.

b) Se debe evitar una formulación casi idéntica a la del texto, apuntes, etc. para evitar un excesivo memorismo.

c) No debe contener elementos irrelevantes para lo que se pide en las repuestas.

d) No debe contener pistas o información para responder correctamente a otra pregunta del mismo test.

e) Debe incluir las expresiones que de lo contrario habría que repetir en cada alternativa.

f) No debe incluir en principio negaciones, al menos se deben utilizar con cautela preguntas negativas (con palabras como no, nunca) porque se prestan a equivocaciones aun conociendo la respuesta; si se utilizan la partícula negativa debe ir subrayada, en MAYUSCULAS o en negrita (es decir, de manera destacada) para evitar confusiones. Los ítems con formulación negativa suelen ser de hecho más difíciles, y esto parece confirmado con alumnos de enseñanza primaria y secundaria; con alumnos universitarios no está tan claro; les afectan menos las deficiencias en la formulación de los ítems (Downing y otros, 1991; analizan las respuestas de unos 18500 alumnos de medicina).

8. En la redacción de las respuestas se deben tener en cuenta, en general,

estas normas:

1 . Todas deben ser de una longitud aproximada (la respuesta correcta no debe ser la más larga ... );

2. Deben pertenecer al mismo ámbito conceptual,- homogéneas, con terminología semejante;


3. Deben tener conexión gramatical y sintáctica con la pregunta propiamente dicha;

4. Si cabe una secuencia u orden lógico (por ejemplo orden cronológico, u orden alfabético) es preferible seguir este orden en la presentación de las respuestas;

5. En el modelo habitual (y preferible en principio) debe haber una única respuesta claramente correcta. A veces la respuesta correcta es la mejor respuesta entre varias; en este caso, en el que varias respuestas pueden ser verdaderas en términos absolutos, debe quedar claro que la respuesta correcta lo es en términos relativos (cuál es la característica más ímportante, qué juicio expresa mejor la relevancia de... etc.). E n definitiva la única respuesta correcta debe serio con toda claridad. La respuesta correcta no debe serlo en términos de la opinión personal del alumno.

9 Por lo que respecta a las respuestas incorrectas,

1º.Cómo buscarlas:

a) Una buena fuente de distractores son los errores comunes, las

confusiones que por experiencia sabemos que; estos suelen ocurrir distractores tienen un valor adicional diagnóstico porque ayuda a localizar los errores y dar feedback útil a los alumnos;

b) En las respuestas a preguntas abiertas se pueden también identificar errores y equívocos comunes que pueden sugerir buenos distractores.

c) Si se han hecho análisis previos, se puede verificar qué tipo de distractores funcionan mejor, cuáles conviene modificar.

2º Qué se debe evitar en las respuestas incorrectas

1. Alternativas falsas que engañan a los alumnos que realmente saben

y entienden (en los análisis posteriores se pueden detectar fallos en la redacción de estas preguntas).

2. Respuestas muy similares o sinónimos; si una es incorrecta, también lo será la otra;

3. Expresiones como siempre, nunca, etc.; generalmente se trata de respuestas falsas que el alumno que no sabe detecta con facilidad (sobre todo si se trata del tipo Verdadero-Falso);

4. Respuestas ridículas o nada plausibles incluso para que el que no sabe nada;

5. Respuestas que dan pistas indebidas para responder a otras preguntas;

6. La respuesta todo lo anterior,- si el alumno conoce que una de las anteriores es verdadera, sólo tiene que escoger (o adivinar) entre dos (la que sabe que es correcta y todas las respuestas anteriores)

7. En cambio ninguna de las anteriores puede utilizarse aunque no se debe abusar de esta respuesta. Los estudios experimentales sobre esta respuesta (Crehan, 1989, menciona unos 11) tienden a presentar las mismas conclusiones: esta alternativa de respuesta hace que las preguntas sean:


1ª más difíciles y en esto concuerdan casi todos los estudios experimentales,

2ª ligeramente menos discriminantes; 3ª por lo que respecta al test completo, estas preguntas hacen que

la fiabilidad baje algo.

Esta respuesta (ninguna de las anteriores) se puede aconsejar:

a) en lugar de distractores malos, a falta de otros mejores, b) en no más de una cuarta o quinta parte de los ítems, c) debe ser la respuesta correcta en una proporción similar (en

la cuarta o quinta parte de los ítems que tienen esta opción), d) en preguntas relativamente difíciles y en las que hay

claramente una única respuesta, d) en ítems en los que no se preste a confusión la posible respuesta correcta

en alguna de las primeras preguntas, para que esta respuesta parezca creíble (Rich y Johanson, 1990).

7 Número de respuestas o alternativas de los ítems de las pruebas objetivas

En general la relación entre número de alternativas en los ítems y el poder discriminatorio de todo el test es la siguiente: a) Dos alternativas (una correcta y otra incorrecta, verdadero-falso)

discriminan mejor solamente en la parte alta de la distribución, quedan más diferenciados los que saben más (que son quienes menos responden al azar) pero en el resto de la distribución, quedan todos más indiferenciados.

b) Tres alternativas discriminan e informan mejor en el centro de la distribución (los mejores y los peores quedan menos diferenciados entre sí).

c) Cuatro o más alternativas dan mejores resultados en la zona más baja de la distribución, donde el adivinar es más frecuente y las alternativas falsas pueden ser más plausibles; a mayor número de alternativas quedan peor, obviamente, los que menos saben y tienden más a adivinar.

La mayoría de los textos recomiendan cuatro o cinco alternativas (una correcta y tres o cuatro falsas o distractores). La razón que suele aducirse es que con un mayor número de alternativas disminuye la probabilidad de adivinar la respuesta correcta. El no recomendar más de tres o cuatro alternativas incorrectas se debe a la dificultad de redactar respuestas falsas y a la vez plausibles. Son muchos los estudios que muestran que el número óptimo es de tres alternativas (Lord, 1997a, 1977b; Haladyna y Downing, 1985 que revisan 56 estudios experimentales sobre la redacción de los ítems; Haladyna y Downing 1988, con N = 1. 1 1 1 estudiantes de medicina; Trevisan y Sax, 1990, y Trevisan, Sax y Michael, 1994, que muestran que la fiabilidad es


prácticamente la misma entre tres y cinco opciones, incluso cuando se controla la capacidad intelectual de los alumnos). En conjunto el número óptimo es el de tres alternativas por todas estas razones avaladas por estudios experimentales:

1º La fiabilidad tiende a aumentar al aumentar el número de alternativas (porque se discrimina mejor en la parte más baja de la distribución), pero a partir de tres alternativas (o cuatro todo lo más) el aumento es mínimo y negligible.

2º La eficiencia suele ser mayor con tres alternativas. Por eficiencia se entiende aquí la razón tiempo/información obtenida. La máxima información en menor tiempo se obtiene con tres, o incluso cuatro, alternativas. Más alternativas por ítem supone más tiempo de lectura y de contestar al test sin que compense la información adicional obtenida.

3º Al reducir la longitud del test se ahorra tiempo tanto en la preparación del test como en su administración.

4º Con tres respuestas se pueden mantener las características deseables en todo test (fiabilidad, información óptima sobre los examinados). Por lo que respecta a la fiabilidad, es preferible tener más preguntas con menos alternativas que menos preguntas con más alternativas (cuatro preguntas con tres alternativas son preferibles a tres preguntas con cuatro alternativas).

5º Una razón más para no incluir muchas alternativas incorrectas es la dificultad en encontrar una tercera o cuarta alternativa que sea incorrecta y a la vez plausible, de manera que funcione eficazmente como distractor Es además lo que suele observarse con mucha frecuencia cuando se analizan las respuestas: en muchas preguntas hay distractores que nadie o casi nadie escoge, ni siquiera los que, a juzgar por el mismo test que se analiza, saben menos. Cuando hay más de dos alternativas falsas, raramente funcionan más de dos, sobre todo en los niveles medios y superiores.

Aunque la investigación experimental nos dice que el número óptimo es de tres alternativas, una correcta y dos incorrectas, el poner tres incorrectas (cuatro en total, como es práctica corriente) puede ser prudente hasta que los análisis muestren qué alternativas incorrectas se pueden ir eliminando. La orientación de poner sólo dos respuestas incorrectas supone que estas son funcionales, es decir (Haladyna y Downing, 1988): 1º Son escogidos por más del 5 % de la muestra;

2º Tienen una correlación negativa con el total. Este análisis supone tratar cada alternativa como si fuera una pregunta, con respuesta 0 ó 1. Esto lo que se hace habitualmente con la alternativa correcta para determinar en qué grado discrimina cada ítem; además es útil hacerlo con cada posible respuesta porque nos dice en qué medida el escoger una alternativa falsa está relacionado con estar bien o mal en el conjunto del test.


8 Algunos esquemas para formular ítems de pruebas objetivas.

Estimulo: Información presentada en la pregunta

Respuesta

Elección entre varias alternativas, referida: • o toda la información presentada; • o toda una parte de la información

• un texto o más de uno, citas; • descripción de un fenómeno o de una

situación, • representación gráfica, dibujo, esquema,

etc., • serie de datos, estadísticas, etc., • ejemplos, casos, etc., etc.

La información puede presentarse: 1. En un bloque único, 2. Dividida en partes numeradas para

identificarlas con más facilidad; La información puede ser: 1. Idéntica o muy parecida a la del texto,

explicación, ejercicios, etc. 2. Diferente a la vista en el texto o en clase

• El que este tipo de preguntas, basada en una información previa, compruebe comprensión, capacidad de interpretar, de analizar, etc. dependerá no solamente del tipo de respuesta, sino de la novedad relativa de la información.

• -A propósito de la misma información pueden hacerse varias preguntas de la misma categoría (como evaluar interpretaciones) o de distintas categorías (preguntas sucesivas: escoger escuela, autor, supuestos implícitos, conclusiones, etc.)

• Estas dos columnas se pueden invertir: los textos, datos, citas, ejemplos, etc., pueden ser categorías de respuesta.

• Estas preguntas-tipo equivalen a objetivos específicos y se pueden adaptar a diversos temas, asignaturas, etc.

1 . Identificar resumen síntesis o explicación,

2. Identificar ejemplo de lo dicho en el texto,

3. Identificar categoría de clasificación en la que puede encuadrarse la información o parte de ella (teoría, escuela, clase, tipo, etc.),

4. Identificar interpretación, 5. Identificar expresión equivalente

(sinónimo, reformulación, forma verbal equivalente),

6. Identificar representación gráfica adecuada,

7. Identificar consecuencias, conclusiones- extrapolar,

8. Identificar premisas, supuestos implícitos, causas, motivaciones implícitas, etc. (lo que no se dice pero se supone, etc.),

9. Identificar juicio sobre toda o parte de la información (verdadero, probable, falso, etc.) o sobre determinadas consecuencias,-

10. Identificar pregunta a las que responde la información,

11. Identificar datos esenciales, o los necesarios para una determinada conclusión, etc.,

12. Identificar relaciones (semejanzas, prioridades, subordinación, efecto causa, etc.) entre las partes de la información, o valorar (verdadera, falsa, etc.) determinadas relaciones, etc.

13. Identificar orden, secuencia apropiada a los elementos de la información (orden cronológico, lógico...


9 Ejemplos de ítems.

rrrr Respuesta alterna: si/no, verdadero/falso � V/ F “La prueba “P” tiene una fiabilidad de 0,84 y una desviación típica de 8. El error típico de medida es 4”

Es un ítem de aplicación de conocimientos para la resolución de un problema

� V/ F “El mármol, raramente contiene fósiles porque se trata de una roca ignia metamórfica”

Es un ítem de comprensión de relacionas causa-efecto.

� V/ F “SI MCD (P (x), Q (x) = 1, entonces P (x) o Q (x) = 0 han de tener todas sus raíces simples” � V/ F “La ecuación 5 x3 + 3 x2 + 3x – 1= 0 tiene nada más una raíz positiva”.

Para la resolución de estos ítems, los alumnos tienen que comprender El método de búsqueda de raíces múltiples de un polinomio.

� V/ F “Si sometemos a vitropresión unos SCAULS rojos y vemos que estos tienden a desaparecer, podemos decir que se trata de un eritema”. � V/ F “La manifestación clínica más evidente de insuficiencia renal aguda de origen obstructivo, se denomina anuria”

Para poder resolver estos ítems, el alumno ha de recordar una información. � ¿Cuáles de las siguientes enfermedades son producidas por virus?

Sarampión V / F Paperas V / F Difteria V/ F Varicela V / F Malaria V/ F Tuberculosis V / F

Es un ítem de recuerdo de información que agrupa diferentes V/F. Este tipo de ítems permite integrar diferentes aprendizajes puntuales.

rrrr Items de emparejamiento o correspondencia �A continuación se presentan una lista de estructuras del cortex humano y de sus correspondientes funciones. Para cada estructura, colocad dentro del paréntesis el número que corresponde a su función. Dos de las funciones quedarán sin número. 1. Es responsable del entendimiento del

lenguaje hablado y escrito. 2. Coordina los músculos utilizados en la

producción del habla. 3. Contiene el córtex visual primario.

( ) Area de Broca. ( ) Lóbulo frontal. ( ) Lóbulo occipital.


4. Controla las contracciones voluntarias de los músculos del esqueleto.

5. Contiene las áreas sensorio-somáticas. 6. Recibe mensajes aferentes de la piel y

superficie del cuerpo. 7. Contiene el área auditiva primaria.

( ) Lóbulo parietal. ( ) Lóbulo temporal ( ) Area de Wernicke

En este tipo de ítem el alumno ha de reconocer una serie las diversas partes del cortex humano, conocer sus funciones y relacionar estos dos tipos de información.

rrrr Items de elección múltiple �¿Cuáles de las siguientes afirmaciones referidas a los ítems de elección múltiple son ciertas?

1. En la base del ítem se ha de especificar lo que se demanda al alumno. 2. Son ítems adecuados para medir la capacidad de expresión del sujeto. 3. Todas las alternativas han de ser gramaticalmente congruentes con el tronco. 4. Su corrección puede ser subjetiva 5. Su elaboración consume bastante tiempo.

a) 1,2 y 4 b) 2,3,4 y 5 c) 1 y 5 d) 1,3 y 5

� Si a, b y c son nombres reales, ¿cuáles de los siguientes enunciados son necesariamente verdaderos?

1. Sí a < b ab � 0, entonces 1/a > 1/b 2. Si a< b, entonces ac < bc para todas las c. 3. Sí a < b, entonces a + c < b +c para todas las c 4. Sí a < b, entonces –a > -b.

a) Sólo la 1 b) Sólo la 1 y la 3 c) Sólo la 3 y la 4 d) Sólo la 2, 3 y 4 e) La 1,2,3 y 4 � ¿Cuál de las siguientes técnicas es más sensible para describir un pequeño VESSAMENT pericardiaco?

a) La radiografía de tórax. b) La ecocardiografía. c) La electrocardiografía d) El cateterismo cardiaco. e) La auscultación cardiaca.

� ¿Qué procedimiento sencillo puede permitir distinguir si unos SACULS rojos son de origen vascular (eritema) o hemático (petequias)?

a) El raspado de su superficie. b) La distribución a lo largo de la piel. c) La vitropresión. d) La presencia o no de PRUIJA

�� De las siguientes afirmaciones relativas a la acalasia típica idiopática, indique cual/es son verdaderas.

1. Se detectan alteraciones histopatológicas en el vago. 2. Se observa ausencia de aire en el FUNDUS gástrico en el exámen radiológico. 3. Cursa con una hipertonia del esfínter esofágico superior. 4. Presenta síntomas de denervación del vago en la pared del esófago. 5. No aparecen casos familiares.

a) 2,3 y 5 b) 1,2 y 4 c) 1 y 5 d) 2,3 y 4


� En relación con la angina de pecho típica, indicad las tres características fundamentales respecto a la localización más frecuente del dolor, su duración y tratamiento.

a) Dolor retroesternal, duración menor de 20 minutos y cede espontáneamente o después de la administración de nitroglicerina sublingual.

b) Dolor precordial, dura algunas horas y no cede después de la administración de nitroglicerina sublingual.

c) Dolor retroesternal, duración mayor de 20 minutos y no cede con la nitroglicerina sublingual.

d) Dolor precordial, dura algunos días y cede después de la nitroglicerina sublingual. � Enid has been here ____________ half an hour.

a) during b) for c) while d) since rrrr Ejemplo de un ítem de espacio en blanco (laguna) �� Deficiente. “El____________divergente es una manifestación de una lesión del _______ocular común de un lado.” � Mejorado “La lesión del motor ocular común de un lado se manifiesta por el ____________divergente”.

El hecho de incluir dos lagunas, una de estas al comienzo de la frase, obliga al alumno a leer el ítem completo para saber qué se le pide y, además, hace que no se entienda el ítem.

rrrr Multiitem objetivo Ejemplo 1 �� Problema 1. La energía potencial de un cuerpo forzado a moverse en línea recta es kx4 dónde k es una constante. La posición de este cuerpo es x, su velocidad v, su momento lineal p y su masa m.

Item1. En relación al problema 1 la fuerza en el cuerpo es:

a) ½ mv2 b) –4x3 c) kx4 d) –kx5/5 e) mg Item2. En relación al problema 2. La función Hamiltoniana para este sistema es:

a) p2/2m + kx4 b) p2/2m – kx4 c) kx4 d) ½ mv2 – kx4 e) ½ mv2


Ejemplo 2 ��El siguiente diagrama ilustra las condiciones requeridas y suministradas para una industria competitiva. La recta del costo privado marginal describe el costo de unidades de producción de out-puts sin incluir los costos de polución. La recta del costo social marginal describe el costo de unidades de producción de out-puts con la inclusión de los costos de polución.

Item 1: con relación a la situación A. Un sistema que impone tasas de polución óptimas podría conducir a:

Output Precio (incluyendo tasa de polución) Tasa de polución

a) OI OB AB b) OI OD BD c) OL OC AC d) OL OC HG e) OL LJ KJ Item 2: En relación a la situación A. Sí el gobierno no regula la polución ¿cual será el resultado? Output Precio Perdida de bienestar para la sociedad a) OI OB AHFD b) OI OD ADF c) OL OC FKH d) OL OC FJK e) OL LJ FJK Ejemplo 3 �� Tabla B de matrices de respuestas de una prueba formada por 6 ítems (el 6 y el 7 de elección múltiple) aplicada a 10 sujetos, en la cual los signos 1, 0 y – expresan aciertos, errores y omisiones respectivamente.

��

��

��

��

�

�

��

��

�

��

��

��

��

�!��


Ítems 6 7

Sujetos 1 2 3 4 5 a b c* a b* c

1 1 0 1 1 1 1 1 2 1 1 1 - 1 1 - - - 3 1 1 1 1 0 - - - 1 4 1 - 1 0 1 1 1 5 1 1 0 1 0 1 1 6 1 1 0 1 1 0 1 7 1 0 1 1 1 0 0 8 1 1 0 1 0 0 0 9 0 1 0 1 0 1 0 10 1 0 0 0 0 0 1

Item 1: A partir de la Tabla B. ¿Cuál es el mejor índice de discriminación que puede tener el ítem 2?

a) 0,6 b) 0,8 c) 0,9 d) 1 Item 2: A partir de la Tabla B. Entre los diferentes ítems de la prueba, ¿hay algún ítem que habría de ser eliminado?

a) 1 b) 6 c) 4 d) 5 Item3: A partir de la Tabla B. Deseamos comparar los ítems 1 y 7 respecto a su discriminación, ¿Cuál de las siguientes afirmaciones es la correcta?

a) Los dos ítems discriminan por igual. b) El ítem 1 es lo más discriminativo que puede ser, mientras que el 7

no los es. c) El 1 tiene un índice teórico de discriminación mayor que el 7. d) El 7 tiene menos poder discriminativo que el 1.

Item 4: A partir de la Tabla B, ¿Cuál es el índice de homogeneidad del ítem 3?

a) 0,45 b) 0,63 c) 0,71 d) 0,59

Item 5: A partir de la Tabla B ¿Cuál es el índice de facilidad de la prueba?

a) 54% b) 73% c) 61% d) 43%

rrrr Ejemplo de un ítem de correspondencia � Deficiente Relacionad los siguientes estadísticos con sus conceptos correspondientes: � Media � Moda � Desviación típica � Mediana

• Es el valor que ocupa la posición central de un conjunto ordenado de datos.

• Es el valor medio de un conjunto de datos.

• Es el valor más frecuente de una distribución.

• Indica la dispersión de los datos en torno a la media.


�� !�� "�� #$��%�� &��

• '�� !��

• '�� • '�� (��)�� !��• Indica la dispersión de los datos en torno a la

media. �

�'��) � �� *��

� ��rrrr �� ) � ��+�� !�� ,�� -��

�� %��)(� �� %��)(� �� %�� .�� !�� %�� / ��

��-�� !��

�� )�� !�� )�� !�� %�� .�� !�� !��

�En la formulación deficiente, se le da al alumno una información totalmente innecesaria para la respuesta, la alternativa “ninguna de las anteriores” es incorrecta e innecesaria y tal y como se formula la pregunta, la expresión “que son” de las alternativas se habría de presentar en el tronco del ítem.


rrrr Preguntas basadas en la interpretación de datos o información nueva con idénticas respuestas en todas las preguntas

Ejemplo 1 Un ejemplo de este tipo es el ofrecido aquí, tomado también de la taxonomía de Bloom y colaboradores. Del texto inicial puesto como base para las preguntas reproducimos solamente el final.

Respuestas comunes a todas las preguntas

A. La afirmación es cierta y su certeza está confirmada por la información ofrecida en los párrafos anteriores

B. La afirmación es cierta pero esta certeza no está confirmada por la información ofrecida

C. La afirmación es falsa y su falsedad está corroborada por los datos presentados en estos párrafos

D. La afirmación es falsa, pero esta falsedad no está demostrada por la información que se da en el texto anterior

Afirmaciones (preguntas)

49. Los productores marginales se ven menos afectados por un impuesto sobre la venta que por el que se carga sobre la renta.

50. A los productores no marginales les e difícil transferir un impuesto sobre la renta líquida a cargo del consumidor bajo la forma de una elevación de precios, porque en tal caso los consumidores tenderían a acudir a los productores marginales para efectuar sus compras.

En las respuestas se combinan realmente dos respuestas: Afirmación cierta o no, y probada o no en la Información aducida.

« ... un impuesto sobre las ventas por otra parte, provoca un alza en los costos de producción de los productores marginales, despertando en ellos cierta tendencia a abandonar la producción, a no ser que sea posible transferir dicho impuesto al consumidor bajo la forma de un alza de precios. Si llega a producirse un abandono de la producción, disminuirán las existencias y aumentarán los precios hasta absorber los impuestos sobre la renta.» (Tomado de Introduction to Social Science, de Atterberry, Auble, Hunt y otros).

El esquema de estas preguntas es el mismo: � Información nueva, datos, etc. � Interpretaciones (o conclusiones, etc., que son las preguntas

presentadas al alumno). � Repuestas comunes a todas estas preguntas.


Ejemplo 2 En este otro ejemplo tenemos una información y una conclusión; podríamos aumentar el número de preguntas añadiendo más conclusiones; El esquema es básicamente el mismo.

«Señale la respuesta correcta, y referida a la conclusión. » A. Es cierto, pues el tipo penal de las lesiones no prevé este supuesto, y

por lo tanto no se puede castigar. B. Es cierto, pues la mera ayuda o consejo, sin intervención en los

hechos, no se castiga. C. No es cierto porque la jurisprudencia interpreta que el que convence a

otro para cometer un delito debe ser castigado. D. No es cierto, porque en el libro 1 del CP se prevé la responsabilidad

del inductor y según ello aquí sería de aplicación. E. Es cierto, pues aunque se establezca en el libro 1 del CP

responsabilidad al que induce, no entra en juego cuando en el tipo-se describe claramente la conducta que ha de ser castigada.

Ejemplo 3 Pregunta: Identifica la época histórica descrita en cada una de estas

descripciones: Cada descripción (las reproducimos parcialmente) es una pregunta.

1. El individualismo y la violencia conformaron el estilo de la época. Con frecuencia el individualismo tomó la forma de una pasión criminal por conseguir el poder político. Pero también había violencia en la pasión con que los hombres de letras se dedicaron al estudio del latín y del griego...

2. Lo característica de este período fue la búsqueda de libertad. , /,'-

libertad frente a la superstición, frente a la intolerancia la filosofía fué suplantada por la ciencia

3. En esta época se buscaba la glorificación de Dios, y se consideraba

que la vida sólo era una peregrinación o camino para ir a la otra Estas descripciones (más amplias en el texto original) contienen actitudes, ideales... que los alumnos deben asociar con determinados tiempos y períodos.

Información: Según el artículo 420 del CP es reo de lesiones «el que hiriere, maltratara o golpeare de obra a otro». Según este artículo únicamente será responsable penalmente el que ha causado materialmente las lesiones.

Conclusión.- Por lo tanto quedaría impune la persona que motiva y con-


Respuestas comunes a todas las descripciones

A. La Edad de Oro de Grecia B. Comienzos de la Edad Media C. El Renacimiento D. La Ilustración E. Comienzos del siglo XIX

Estas descripciones se prestan a hacer más preguntas sobre estos períodos, por ejemplo:

� ¿Cuál de los siguientes personajes refleja mejor los ideales de la época reflejada en la descripción n.º2?

� ¿Cuál de estas escuelas filosóficas floreció en la época que corresponde a la descripción n.º3?

De manera análoga, en lugar de describir épocas, se pueden poner citas que expresan determinadas visiones del mundo, posturas filosóficas, teorías económicas, etc. Una misma descripción puede servir de base para hacer varias preguntas:

� ¿Qué autor estaría de acuerdo con lo dicho en el párrafo 2? -¿Cuál es el principio subyacente que habría que aceptar para sostener como verdadero lo dicho en ... ? -¿Cuál de estas consecuencias es coherente con lo afirmado

10 Corrección de pruebas objetivas Cuando calificamos una prueba objetiva, podemos obtener dos tipos de puntuaciones: � Una puntuación directa que se obtiene otorgando un punto a cada uno de los ítems correctamente contestados, en el supuesto de que todos los ítems de la prueba cuenten igual. � Una puntuación corregida que se obtiene eliminando la influencia de adivinar por azar las respuestas correctas. En todas las preguntas de elección múltiple, el alumno tiene una probabilidad de acertar la pregunta por azar. Esta probabilidad está en función directa del número de alternativas. Si hay dos alternativas, la probabilidad será del 50%, si hay cuatro del 25%, etc. Esta influencia del azar se puede eliminar, al menos desde un punto de vista matemático, aplicando un factor corrector.

E Puntuación corregida = A -

(n-1)


Siendo: A = número de respuestas acertadas. E = número de respuestas erróneas. N = número de alternativas de respuesta de cada ítem.

La formula anterior se justifica teóricamente de forma inmediata bajo el principio de que un alumno, que desconoce totalmente la disciplina sujeta a prueba, acertaría si respondiese todos los ítems al azar N/n ítems, por término medio, siendo N el número total de ítems de la prueba. Si definimos a priori que creemos que la puntuación de este alumno ha de ser =, y así lo instrumentamos aplicando un factor de corrección K al número de respuestas erróneas, se ha de cumplir: A – K. E = 0 de dónde K = A / E Como, por otra parte, evidentemente se verifica: N = A + E al haber respondido este alumno teórico a todos los ítems, se tendría:

A N/n N 1 K = N – A = N – N/n = nN – N = n - 1

A pesar de todo, este sistema tiene detractores por considerar que reduce el razonamiento del alumno al tener que estar atento a no cometer errores ya que es mejor dejar un ítem en blanco que dar una respuesta errónea. Hay autores que corrigen la fórmula anterior incluso premiando las omisiones.

E 0 Puntuación corregida = A - n-1 + n

Siendo 0 = el número de omisiones. Esta última fórmula se basa en el hecho de que las omisiones efectuadas por miedo a no cometer errores y ser penalizadas en consecuencia, se habrían acertado 0/n si hubiesen respondido al azar. En Nuestra opinión, así mismo, se decanta por la primera fórmula, ya que hemos estudiado estadísticamente el tema y hemos llegado a la conclusión de que si el alumno conoce la materia, la penalización actúa muy débilmente ya que un alumno no se enfrenta a un ítem con una probabilidad 1/n sino con una muy superior ya que hay alternativas que desestima de entrada. En el caso contrario, el “regalo” de aciertos a los alumnos menos estudiosos es muy elevado como para ignorarlo. En todo caso, antes de aplicar una prueba objetiva se ha de informar al alumno si se utilizará o no la corrección por azar, ya que eso influiría en la manera de resolver la prueba.


11 De la puntuación a la calificación. Una vez corregida la prueba, independientemente del hecho de que se haya tenido o no en cuenta la adivinación por azar, es necesario transformar la puntuación directa en algún sistema de calificación. Esta conversión se puede realizar de diferentes maneras, pero existen dos procedimientos básicos:

a) Utilizar un sistema de conversión criterial. En este caso será el profesor (o el “conjunto de profesores”) quién fijará a priori el nivel de realización mínimo aceptable.

b) Utilizar un sistema de conversión normativo. Es el grupo al que se le aplica la prueba el que marca la pauta de conversión según su grado de ejecución.

Ejemplos Supóngase una prueba objetiva formada por 46 ítems. A partir de esta prueba se indican dos formas (A1 y A2) de realizar el primer tipo de conversión y otras dos formas (B1 y B2) para el segundo tipo de conversión. En todos estos casos se utilizan los siguientes símbolos y convenciones:

PC = Puntuación Convertida. Puntuaciones transformadas en una escala de 10 puntos.

PD = Puntuación Directa. Entendida en este caso como el equivalente al número de ítems acertados, aunque también se podría utilizar la puntuación directa corregido el azar o una puntuación directa obtenida por ponderación (si los ítems tienen diferente peso dentro de la prueba).

p.t. = Puntuación de corte. Fijada según el nivel mínimos de realización considerado aceptable.

ni = Número total de ítems de la prueba.

A) Utilizando un sistema de conversión criterial. � Forma A1: Es la forma más simple y sencilla de hacer la reconversión. Consiste en repartir proporcionalmente las puntuaciones directas entre las puntuaciones convertidas (véase el Gráfico A1)

5

0 p.t=23

Nº de aciertos ��

Calificación ��

0 0 1 0,22 . . 6 1,22 . .

18 3,91 19 4,12 . .

23 5 . .

27 5,87 28 6,09 . . . .

32 6,96 . .

37 8,04 . .

43 9,35 . .

46 10

Así, un sujeto que acierte 37 ítems obtendrá una calificación de:

37 PC = 46

X 10 = 8,04

PC 10

46 PD

Gráfico A1


En este procedimiento la p.t. se conseguirá siempre contestando bien la mitad de los ítems de la prueba. La unidad del sistema de calificación se obtendrá dividiendo la calificación máxima entre el número de ítems. En este caso 10:46 = 0,218 La calificación o PC de cada sujeto se obtiene:

PD PC =

ni x 10

� Forma A2. El profesor puede considerar que para la superación de una prueba el alumno tiene que haber realizado correctamente un 55, 60, 65%, etc. De los ítems de la prueba. A continuación se desarrolla este ejemplo bajo el supuesto de que se haya fijado este nivel mínimo de realización en el 60%. Esto hace que la p.t sea la PD igual a 27,6 (el 60% de 46). Aunque se siga el mismo procedimiento de conversión proporcional, varía la forma de hacerlo según el sujeto obtenga una PD por debajo (g1) o por encima (g2) de la p.t. (véase el gráfico 2)

5

0 p.t=27,6 La conversión de puntuaciones queda tal como muestra la Tabla A2. En estos dos ejemplos A1 y A2 la transformación se hace de forma totalmente arbitraria. El sistema se sustenta sólo en el criterio de cada profesor. Un sujeto podrá aprobar con más o menos facilidad según el profesor sea más o menos exigente. Aunque se supone que ha reflexionado sobre su decisión no ha contado con ningún otro tipo de información que justifique la adecuación de su criterio. B) Utilizando un sistema de conversión normativo. En esta segunda forma es el grupo al que se aplica la prueba el que marca la pauta de conversión. Se indican dos formas de hacerlo. Forma B1) El profesor decide que sea la media de las puntuaciones obtenidas por los alumnos la que señale el nivel mínimo de realización. Partiendo del supuesto de que en el ejemplo anterior se obtiene una puntuación media de 21,5 y una desviación típica de 6,6. La p.t. queda fijada en 21,5. La conversión de PD en PC es similar al caso del ejemplo A2, pero se substituye el p.t. procedente del criterio de realización marcado por el profesor por la puntuación media obtenida por el grupo.

PC 10

46 PD g1 g2

Gráfico A2

Nº de aciertos PD

Calificación PC

0 0 1 0,18 . . 6 1,09 . .

18 3,26 19 3,44 . .

27 4,89 p.t. = 27,6

28 5,11 . .

32 6,20 . .

37 7,55 . .

43 9,40 . .

46 10

PD = 8

18 PC =

27,6 X 5 = 3,26

PD = 37

37-27,6 PC = 5 + 46-27,6 x5=7,55

Tabla A2

La calificación de los sujetos para cualquier p.t se obtendrá: En el g1:

PD

PC = p.t

x 5

En el g2:

Pd-pt

PC = 5 + N 1 -pt x 5

Nº de aciertos PD

Calificación PC

0 0 1 0,23 . . 6 1,4 . .

18 4,19 19 4,88

Media = 21,5 22 5,1

p.t. = 27,6 29 6,55 . .

32 7,15 . .

37 8,18 . .

43 9,41 . .

46 10

PD = 18

18 PC =

21,5 X 5 = 4,19

PD = 37

37-21,5 PC = 5 + 46-21,5 x5=8,18

Tabla B1


La calificación de los alumnos según que su PD este por debajo (g1) o por encima (g2) de la media se obtendrá:

PD En el g1: PC =

Media x 5

PD - Media En el g2: PC =

ni – Media x 5

Forma B2) Si el profesor desea utilizar un sistema de puntuación que tenga en cuenta no sólo la puntuación media sino también la dispersión de los datos en torno a la media, puede utilizar diferentes sistemas de calificación. Aquí, y a modo de ejemplo, se recogen las estaninas por el hecho de ser un tipo de puntuación que se parece bastante a la escala que habitualmente se utiliza de 10 niveles de calificación. En este tipo de calificación se supone la normalidad de la distribución de puntuaciones directas. Consiste en distribuir el continuo de puntuaciones directas en 9 intervalos o estaninas de tal manera que:

�Cada una contiene media desviación típica. �La estanina central (5) se sitúa a ambos lados de la media aritmética. �La primera y última (1 y 9) quedan abiertas y en consecuencia

contienen todas las PD que se encuentran situadas a más de 1,75 desviaciones típicas por debajo o por encima de la media.

La estanina correspondiente a la PD de cada sujeto se obtiene redondeando al entero más próximo el resultado de la siguiente fórmula:

PD – Media E = 5 + 2 ( S )

La Tabla B2 presenta la conversión de puntuaciones de la prueba de los ejemplos anteriores formada por 46 ítems con una media de 21,5 y una desviación típica de 6,6

PD Estanina Así, por ejemplo, un sujeto que contestó bien a 18 ítems, tendrá una estanina igual a:

18 – 21,5 E = + 2 ( 6,6 ) = 3,94 = 4

PD ≤ 9,95 9,95 < PD ≤ 13,25 13,25 < PD ≤ 16,55 16,55 < PD ≤ 19,85 19,85 < PD ≤ 23,15 23,15 < PD ≤ 26,45 36,45 < PD ≤ 29,75 29,75 < PD ≤ 33,05

PD > 33,05

1 2 3 4 5 6 7 8 9

Tabla B2

Los programas que se utilizan habitualmente en la corrección mecanizada de pruebas acostumbran a proporcionar este tipo de puntuaciones normativas, de la misma manera que indican si la distribución de puntuaciones se distribuye o no según la ley de la curva normal.


En estos dos ejemplos (B1 y B2) el profesor tiene en cuenta el nivel de ejecución real del grupo que realiza la prueba pero el sistema de calificación sigue siendo totalmente arbitrario ya que depende, no solo de lo que el sujeto es capaz de hacer sino también de lo que hace el grupo. Se podrá aprobar con una mayor o menor facilidad según el grupo haya aprendido mucho o poco. Entre las dos formas de conversión de puntuaciones tratadas, criterial y normativa, es la primera la que se considera más idónea para la evaluación de aprendizajes, si se cuenta con el soporte de otro tipo de información. Se pueden producir dos tipos de situaciones: 1 - Una, en la cual el profesor, en el momento de aplicar la prueba, no cuenta con ningún tipo de información previa sobre esta o los ítems que la forman. No la ha aplicado anteriormente y desconoce lo fácil o difícil que pueda resultar para el grupo. En este caso se puede apoyar en la información que le proporciona la propia prueba (análisis de ítems, información normativas, etc.) y de acuerdo con esta ajustar su criterio de manera que sea más realista y satisfactorio. 2 – La otra, en la cual el profesor tiene una información previa de la prueba o de los ítems que la forman porque estos ya han sido testados en otras ocasiones. Esta información, juntamente con la que proporcionará la prueba una vez corregida y con la reflexión previa sobre el tipo de aprendizajes que mide, ayudará a la realización de la evaluación criterial más consistente y fundamentada.

12 Análisis de ítems en las pruebas objetivas Las pruebas objetivas se prestan a hacer una serie de análisis de interés. Por qué puede ser de interés el analizar las pruebas objetivas:

1º Para ir mejorando su calidad. Estos análisis aportan información no ya sobre los alumnos, sino sobre cada una de las preguntas. El hacer una buena prueba objetiva, incluso una mala prueba objetiva, supone un tiempo y un esfuerzo que hay que hacer rentables. Si acumulamos experiencia sin hacer nunca ningún análisis, podemos estar haciendo pruebas objetivas de calidad muy mediocre. La información que nos dan estos análisis nos permite ir mejorando las pruebas sucesivas que vayamos haciendo.

2º Algunos de estos análisis aportan información útil para comentarla con los mismos alumnos, y darles un feedback matizado sobre su aprendizaje. También hay datos que pueden influir indirectamente en nuestros criterios de calificación; al menos disponemos de una información más completa y fácil de entender.

Por otra parte todos estos análisis son fácilmente programabas, y si utilizamos una hoja de respuestas de lectura óptica y un programa adecuado de ordenador (programas que es fácil preparar), casi sin darnos cuenta


podemos acumular una información muy útil, incluso para trabajos de investigación. Caben en primer lugar los cálculos y análisis estadísticos más convencionales y referidos a todo el test, como es el de coeficiente de fiabilidad (que indica en qué medida en exámenes semejantes los alumnos hubieran quedado ordenados de manera parecida) y el error típico (que viene indicar el margen probable de oscilación de las puntuaciones de unas ocasiones a otras). Aquí prescindimos de este tipo de análisis y nos limitamos a los análisis más frecuentes y sencillos que suelen hacerse con cada pregunta o ítem. rrrr 12.1. Análisis de las diversas alternativas Este análisis es muy sencillo y aporta una información de interés que se interpreta con mucha facilidad y de manera intuitiva. Posiblemente es el análisis en principio más útil para el profesor. Se trata de organizar las respuestas de manera que permitan una reflexión rápida sobre las preguntas y los alumnos. El proceso es el siguiente:

1º Se ordenan los sujetos de más a menos según su puntuación total en la prueba (número de respuestas correctas, no por notas) y se seleccionan el 25 % con puntuación total más alta (grupo superior) y el 25 % con puntuación total más baja (grupo inferior).

2º Se tabulan las respuestas de estos dos grupos en cada ítem, de

manera que se pueda ver cuántos de cada grupo, superior e 'inferior, han escogido cada opción.

Esta tabulación de las respuestas se presta ya a muchas observaciones de interés para el profesor que ha redactado los ítems. Lo veremos mejor con un ejemplo ficticio. En este ejemplo suponemos que tenemos 40 alumnos, de los que hemos escogido 10 con el total más alto y los 10 con el total más bajo. En la tabla adjunta tenemos cómo se han distribuido las respuestas entre las cuatro opciones de cada pregunta: en el supuesto numerador tenemos el número de alumnos del grupo superior que ha escogido cada opción, y debajo el número de alumnos del grupo inferior que ha escogido esa misma opción; la respuesta correcta está señalada con un asterisco.

Alternativas (la respuesta correcta se indica con*) 10* 0 0 0 Item nº 1 0 2 0 8 5 5* 0 0 Item nº 2 1 0 7 2 6 0 2 2* Item nº 3 1 1 0 8


Esta mera tabulación de frecuencias se presta ya a una serie de consideraciones: Item nº l: La alternativa correcta (la A) la han escogido todos y solos los del grupo superior: se trata de una pregunta que discrimina muy bien. Los del grupo inferior se han ido casi todos a la opción D: es una buena alternativa incorrecta, que atrae al que no sabe o no entiende; sabemos dónde o porqué fallan los que saben menos (qué confunden con qué ... ). Esta presentación de los datos puede tener un claro valor diagnóstico. La alternativa C no la ha escogido nadie, ni siquiera de los que menos saben. En otra edición convendrá modificarla, y si observamos que con frecuencia hay alguna opción que no la escoge nadie, podremos pensar en pasar de cuatro a tres alternativas. Item nº 2: Los que más saben se distribuyen entre dos alternativas, la B (correcta) y A. Es posible que las dos sean correctas, que la pregunta sea ambigua ... La opción C también es un buen distractor que atrae a los que no saben. Item nº 3: Aquí tenemos un resultado anómalo: los que aciertan son sobre todo los que menos saben. El grupo superior prefiere la opción A (incorrecta). Pregunta que podemos hacernos: ¿estará mal la clave de corrección? En cualquier caso una pregunta que favorece a los que menos saben es en principio una mala pregunta y habrá que examinarla. Naturalmente no hay interpretaciones automáticas, pero esta tabulación puede decir mucho al profesor que conoce sus propias preguntas. Lo mismo para comentar resultados en clase, como para ir mejorando sus Items, esta simple tabulación de las respuestas puede ser muy informativa. rrrr 12.2. Indices de dificultad y discriminación Estos índices no se calculan con toda la muestra sino, como en el caso anterior, con el 25 % con una puntuación total más alta en todo el test y con el 25 % con una puntuación total más baja. El número de sujetos en ambos grupos es por lo tanto el mismo; sólo se analizan las respuestas del 50 % de los alumnos. Símbolos utilizados: N = número de sujetos en uno de los dos grupos (los dos grupos tienen idéntico

número de sujetos) N + N = número total de sujetos analizados AS = número de acertantes en el grupo superior (con puntuación total más alta) Al = número de acertantes en el grupo inferior (con puntuación total más baja) Indice de dificultad

AS + AI Df = N + N


Indica la proporción de aciertos (tanto por ciento si multiplicamos por 1 00) en la muestra de alumnos que estamos utilizando (el 50 % del total, los dos 25 % con puntuaciones totales extremas). Este índice es la media de este 50 %. También la media del Item, obtenida con toda la muestra, nos indica el grado de dificultad (media más alta, ítem más fácil), sin embargo este índice suele utilizarse rutinariamente junto con los índices de discriminación. El término índice de dificultad se presta a equívocos: un índice mayor indica una pregunta más fácil (mayor proporción de aciertos), no más difícil. Indice de discriminación 1

AS - AI

Dc1 =

N

Es el índice más utilizado y equivale a una estimación de la correlación ítem-total. Indica la diferencia entre dos proporciones: proporción de aciertos en el grupo superior (AS/N) menos proporción de aciertos en el grupo inferior (Al/N). Indica hasta qué punto la pregunta discrimina, establece diferencias, contribuye a situar a un sujeto en el grupo superior o inferior Si todos responden correctamente (pregunta muy fácil), tendremos que

N – N N

= 0

Si todos se equivocan (pregunta muy difícil) tendremos que

0 – 0 N

= 0

Las preguntas muy fáciles o muy difíciles no discriminan, no establecen diferencias; nos dicen que todos saben o no saben la pregunta, pero no quién sabe más y quién sabe menos. Si todos y solos los del grupo superior aciertan la pregunta, tendremos que:

N – 0 N

= 1

Si acertaran solamente los del grupo inferior tendríamos que

0 – N N

= 0


Por lo tanto 1 y -l son los valores máximos de este índice. Las preguntas con discriminación negativa favorecen al grupo inferior y en principio deberían ser revisadas (posibilidades: mal formuladas, ambiguas, error en la clave de corrección, etc.) Las preguntas que discriminan mucho (diferencian bien a los que saben más de los que no saben menos) tienden a ser de dificultad media. En el caso anterior (discriminación máxima porque aciertan sólo y todos los de¡ grupo superior) tendríamos que el índice de dificultad sería:

N – 0I Df= N + N

= ,50

Una limitación de este índice está en que el valor máximo de 1 sólo se alcanza cuando aciertan todos los del grupo superior y se equivocan todos los del grupo inferior Puede haber preguntas que discriminan bien pero son difíciles ( y fallan algunos del grupo superior) o son fáciles (y las aciertan algunos el grupo inferior). Por estas razones algunos prefieren el otro índice de discriminación que exponemos a continuación (Dc2), aunque se pueden programar y utilizar los dos. índice de discriminación 2

AS

Dc2 =

AS + AI

Este índice indica la proporción de aciertos en el grupo superior con respecto al número total de acertantes. Puede considerarse satisfactorio si es superior a .50: más de la mitad de los acertantes pertenecen al grupo que sabe más. Este índice es independiente del grado de dificultad de la pregunta, con el índice anterior nunca se llega al valor de 1 si falla alguno del grupo superior (preguntas más difíciles); en cambio este índice llega a 1 si todos los acertantes, aunque sean pocos, pertenecen al grupo superior. r 12.3. Valoración de estos índices 1) .Estos índices describen cómo ha funcionado una pregunta en una situación dada; no hay que asociar necesariamente juicios de valor sobre la pregunta al valor de estos índices. Preguntas muy fáciles o muy difíciles, por ejemplo, no son discriminantes y tienen su lugar. Otra cosa es cuando estos índices nos sorprenden porque no esperábamos estos resultados.

2) Las preguntas muy discriminantes (que no suelen ser las más difíciles o las más fáciles) nos indican dónde fallan, sobre todo, los que tienen malos resultados; pueden incluso indicar por qué fallan cuando varias preguntas muy discriminantes tienen alguna relación entre sí.


3) La discriminación supone diferencias (lo mismo que la fiabilidad calculada con todo el test) y el que haya diferencias no es necesariamente un buen resultado, por ejemplo cuando las preguntas son en principio fáciles, versan sobre objetivos mínimos, etc. Sí es, en cambio, importante que las preguntas discriminen cuando se trata de clasificar, de seleccionar, etc. En exámenes amplios, en los que se pregunta de todo, con grupos relativamente numerosos, la no discriminación (lo mismo que una fiabilidad muy baja) puede indicar que no se detectan diferencias que de hecho existen. En este tipo de exámenes habrá preguntas que no discriminen porque son fáciles, o son importantes y todos las han estudiado; casi todos las responden bien y éste será un buen resultado; otras no serán discriminantes porque son muy difíciles y ya se contaba con ello (y tampoco tiene que valorarse como un mal resultado); pero en el conjunto del examen y para poder calificar con cierto matiz, debe haber preguntas de dificultad media que discriminen bien. 4) Las preguntas muy discriminantes (que nunca serán las más difíciles) pueden ser útiles en exámenes de segunda convocatoria, prescindiendo de lo muy fácil y de lo muy difícil; con exámenes más cortos obtenemos la información suficiente. Claro está que puede haber otros criterios para seleccionar estas preguntas (temas u objetivos determinados, al margen de que las preguntas discriminen mucho o poco). 5). Para extrapolar los resultados harían falta muestras grandes (N = 400, ó unos 100 en los grupos extremos; estas muestras se pueden obtener acumulando datos); sin embargo la experiencia da que los índices obtenidos con grupos pequeños, si se mantiene constante el tipo de sujetos, dan una buena idea de lo que se puede esperar en grupos similares. 6). No hay que olvidar, cuando se calculan e interpretan estos índices, que en principio una pregunta es buena si es clara y está bien formulada, si permite comprobar el objetivo deseado y condiciona un tipo de estudio inteligente o al menos deseable. Estos índices describen cómo han funcionado en una muestra y situación concretas y son útiles para evaluar las preguntas, sugerir qué se puede revisar, etc., pero malas preguntas-(triviales, que no comprueban nada importante, que condicionan un estudio poco inteligente, etc.) pueden tener índices que podrían considerarse como óptimos (por ejemplo pueden discriminar muy bien).

como hacer tests

Documents

Transcript of como hacer tests