TÉCNICAS CRITERIALES O PRUEBAS EN BASE A CRITERIOS.
Alfredo Guzmán Rosales
Existe un problema común en la medición que tiene que ver con las
diferencias entre la medición basada en normas y basadas en criterios.
DIFERENCIA ENTRE CRITERIO Y NORMA.Criterio:
Significa que un criterio nos permite referirnos a una acción o comportamiento, comparativamente en
relación a otro, que enuncia las reglas del primero y autoriza su evaluación.
En forma recíproca evaluar equivale a determinar criterios con el objetivo de discriminar la información. Por
ello los criterios nos permitirán la obtención de información (índices), dirigidas hacia aquello que queremos
evaluar. Los índices son la materialización y objetivación explícita de los criterios.
Según J.M. De Ketele, existen 4 momentos en los referente a la acción coherente entre la recolección de
información y los criterios enunciados.
· Establecer claramente el objetivo de la evaluación.
· Determinar el criterio o los criterios relacionados al objetivo.
· Confrontar los criterios seleccionados previamente con las informaciones recogidas en la evaluación.
· Formular conclusiones para la toma de decisiones.
NORMA.
Evaluar en referencia a una norma, significa comparar el resultado del individuo
con los resultados de una población o grupo a los que pertenece.
Esto exige el establecimiento de una norma o escala de referencia,
confeccionada después de estudios estadísticos de rendimiento, con el
objetivo de obtener una calificación. En este ámbito normativo, el criterio es
externo, en la medida que se utiliza una escala que es mas o menos "ajena"
al sujeto evaluado, sin tener en cuenta las condiciones de trabajo, nivel inicial,
aprendizaje, etc. (B. Maccario) Por esta razón este tipo de evaluación se utiliza
para ubicar a los alumnos en escalas de rendimiento y puntaje, atribuir un
lugar dentro de los grupos, certificar los niveles en función de la norma o el
grupo y predecir futuros resultados.
MEDICIÓN BASADA EN NORMAS.
Cuando se utilizan técnicas normativas, lo que interesa conocer son las
diferencias individuales que hay entre los sujetos en la característica
evaluada, y los distintos grados en que cada uno la tiene desarrollada.
Es la forma con que tradicionalmente se han hecho los diagnósticos de los
alumnos sobre su capacidad intelectual, rasgos de personalidad,
motivación, intereses profesionales, etc., y de aquí han derivado la
mayoría de las técnicas psicodiagnósticas existentes, es decir, los test
basados en normas.
Estas técnicas sirven también para realizar clasificaciones de sujetos en
determinadas categorías; por ejemplo, para agrupar a los alumnos en
distintos grupos según sus competencias intelectuales y poder adaptar
mejor así los procedimientos didácticos a cada tipo de alumnado.
También se emplean para llevar a cabo procesos de selección
de personas que respondan a diversos criterios según unas
puntuaciones mínimas que es preciso alcanzar; por ejemplo,
para aprobar una oposición o para trabajar en un determinado
puesto dentro de una institución.
Estas pruebas ayudan a llevar a cabo estas funciones porque
tienen como finalidad identificar la capacidad máxima del sujeto
en un ámbito concreto razonamiento, cálculo, fluidez verbal,
etc.), lo que permite seleccionar, con un pequeño margen de
error, personas para desempeñar actividades específicas.
MEDICIÓN BASADA EN CRITERIOS.
Las técnicas criteriales, por su parte, no se basan en las
puntuaciones estadísticas de un grupo normativo, sino en
un criterio numérico preestablecido de antemano por el
docente o por el investigador, que se espera que alcancen
los sujetos para considerar que logran un objetivo
propuesto.
Estas técnicas permiten hacer diagnósticos personalizados
sobre los sujetos y diseñar, en base a ellos, programas de
intervención que ayuden a las personas a mejorar en
la adquisición de habilidades que les permitan
aproximarse a la consecución del criterio establecido.
Por tanto, se puede valorar la calidad y eficacia del programa
desarrollado para conseguir el cambio, lo que permite hablar de
evaluación de programas y de investigación evaluativa. En el
ámbito educativo se estimula cada vez más la realización de este
tipo de diagnósticos individuales empleando estas técnicas, que se
conocen también como test orientados a la consecución de metas
de aprendizaje o pruebas de dominio.
Los test criteriales permiten valorar el grado en que una persona
llega a alcanzar con la ayuda del docente o educador determinadas
metas de aprendizaje y competencias intelectuales, emocionales y
conductuales que hasta entonces por sí sola no podía alcanzar.
Dada esta finalidad de las técnicas criteriales, se resalta la importancia
del docente o del educador como mediador que facilita al estudiante
desarrollar su potencial de aprendizaje y adquirir progresivamente un
mayor grado de autonomía en la consecución de objetivos de
aprendizaje.
Una vez apoyado el desarrollo de estas competencias de aprendizaje
mientras se desarrolla un programa de enseñanza, las técnicas
criteriales permiten posteriormente valorar el grado en que la persona es
capaz de resolver adecuada y autónomamente un número determinado
de tareas de cierta dificultad que cumplan con el criterio numérico
establecido para decidir que se han alcanzado las metas de aprendizaje.
EJEMPLOS DE PRUEBAS EN BASE A CRITERIOS.
Este tipo de pruebas, tanto internacionales como nacionales, se han venido
aplicando en México en las últimas décadas y aún se sabe poco de ellas
inclusive dentro del ámbito educativo. Entre las pruebas criteriales más
representativas que se aplican en nuestro país, están los Exámenes Generales
para el Egreso de Licenciatura (EGEL) del Centro Nacional para la Evaluación de
la Educación Superior (CENEVAL); los exámenes de la Calidad y el Logro
Educativos (EXCALE) del Instituto Nacional para la Evaluación de la Educación
(INEE); y la prueba para la Evaluación Nacional de Logro Académico en Centros
Escolares (ENLACE) que aplica la Secretaría de Educación Pública. Entre las
internacionales está el Programa para la evaluación internacional de alumnos
(Programme for International Student Assessment, PISA por sus siglas en inglés).
ENLACE.
I nformación Comparativa por nivel de logro PERMITE OBSERVAR EL PUNTAJ E PROMEDIO OBTENIDO, POR LOS ALUMNOS DE MI GRUPO CON REFERENCIA AL PUNTAJ E
PROMEDIO OBTENIDO POR LOS DEMÁS ALUMNOS DE LA ESCUELA, ENTIDAD Y PAÍS, EN LOS MISMOS GRADOS, ASIGNATURA Y
TIPO DE ESCUELA.
PORCENTAJ E DE ESTUDI ANTES POR NI VELDE LOGRO
ESPAÑOL MATEMÁTI CAS HISTORI A *
INSUFICIENTE
ELEMENTAL
BUENO
EXCELENTE INSUFICIE
NTE ELEMEN
TAL BUENO
EXCELENTE INSUFICIE
NTE ELEMEN
TAL BUENO
EXCELENTE
GRUPO
20.0 70.0 10.0 0.0 25.0 60.0 5.0 10.0 5.0 55.0 35.0 5.0
ESCUELA
29.3 53.4 17.2 0.0 29.3 48.3 15.5 6.9 3.4 55.2 29.3 12.1
ENTIDAD
38.7 47.1 13.9 0.3 44.4 42.2 11.4 2.1 10.9 66.0 17.5 5.6
NACIONAL
45.1 44.0 10.7 0.3 54.1 36.5 7.8 1.6 16.4 65.1 14.7 3.8
INSUFICIENTE Necesita adquirir los conocimientos y desarrollar las habilidades de la asignatura evaluada.
ELEMENTAL Requiere fortalecer la mayoría de los conocimientos y desarrollar las habilidades de la asignatura evaluada.
BUENO Muestra un nivel de dominio adecuado de los conocimientos y posee las habilidades de la asignatura evaluada.
EXCELENTE Posee un alto nivel de dominio de los conocimientos y las habilidades de la asignatura evaluada.
ANTECEDENTES
ETAPA GLASER (AÑOS 60)
No será hasta los años sesenta con la obra de
Glaser "Instructional Technology and the
Measurements of Learning Outcomes" cuando de
hecho se establezcan claramente las diferencias
entre las expresiones "evaluación basada en
normas" y "evaluación basada en criterios”
conocida como; preocupación por los objetivos.
ETAPA POPHAM (AÑOS 70)
Primera sistematización formal de la metodología de la
evaluación referida a criterio (ERC), realizada por Millman en
un capítulo del libro "Evaluación en Educación", editado por
Popham en 1974.
Publicación de una monografía sobre la tecnología de la ERC.
Publicación en 1976 de una revisión completa del tema de la
determinación de estándares.
Publicación de textos que integran los dos enfoques de la
construcción de pruebas.
Publicación del primer texto específico (Popham, 1978, edición
española de 1983) y de numerosos trabajos en torno al tema
de los estándares y puntos de corte.
ETAPA BERK (AÑOS OCHENTA) La publicación por Hambleton (1980) de una
monografía sobre toda la problemática técnico‑metodológica.
Sistematización de las técnicas de formulación de ítems, realizada por Roid y Haladyna en 1982.
Publicación de manuales para la determinación de estándares de ejecución en pruebas educativas.
Publicación por Berk en 1984 de una revisión de su libro de 1980, actualizando el tratamiento de los temas más relevantes: formulación y análisis de items, determinación de estándares, fiabilidad, validez, análisis de sesgos, entre otros.
TIPOS DE INSTRUMENTOS REFERIDOS A UN CRITERIO.
TIPOS UTILIZACIÓN
Pruebas objetivas (reactivos de verdadero-falso, de opción múltiple)
Se utilizan al inicio y al final, para medir el aprendizaje cognoscitivo.
Diagrama de análisis de tareas. Se utilizan para establecer las conductas que se han de moldear.
Listas de comprobación para la auto estimación.
Se utilizan en la autoevaluación.
Inventarios diagnósticos. Se utiliza para la planeación del programa y las alternativas de remedio.
Listas de comprobación para la identificación de problemas.
Se utilizan para identificar los problemas reales o potenciales, para lograr los objetivos del curso.
VALIDEZ DE LAS PRUEBAS CRITERIALES
Según Popham (1978):
a) Validez descriptiva; establece un esquema descriptivo
(especificaciones de las pruebas, objetivos, ítems, etc.) se
verifica si el esquema cumple con la función de comunicar
eficazmente, es decir que los ítems sean congruentes con el
esquema descriptivo.
b) Validez funcional; mide la exactitud con que la prueba
satisface al objetivo u objetivos.
c) Validez de selección del dominio; describe las
características de las personas que se seleccionaron,
procedimientos, y guías que se dieron, para medir el grado
de dominio de los aprendizajes.
Según Hambleton (1980):
a) Validez de contenido; Primeramente se determina el
dominio de conocimientos que se pretende medir, en
segundo consideración de tres características; validez,
calidad técnica y representatividad.
b) Validez del constructo (conceptual); se refiere a la
utilidad que se le da a los puntajes del rendimiento del
estudiante, para la toma de decisiones.
CONFIABILIDAD DE LAS PRUEBAS.
Según: Hambleton (1978), Brennan (1980), Shaefer (1983), la
confiabilidad de estas pruebas pueden analizarse en tres definiciones:
a) Confiabilidad de las estimaciones de los puntajes de dominio:
consistencia del puntaje de un estudiante si se repite la aplicación
de una misma prueba, sin hacer un puntaje de corte de la prueba.
b) Confiabilidad de las decisiones del dominio: consistencia en la
clasificación de los estudiantes como «masters».
c) Confiabilidad de los puntajes de pruebas con respecto al puntaje
de corte: estabilidad de las desviaciones estándar.
LONGITUD DE PRUEBA. Se entiende como el número de ítems que miden cada objetivo
o especificación del test. Las pruebas muy cortas producen
estimaciones de puntajes de dominio muy imprecisos y por lo
tanto las decisiones de maestría o dominio serán
inconsistentes.
Para Berk (1979), cuatro son los factores esenciales para
determinar cuantos ítems deben construirse para una prueba:
1. Importancia y tipo de decisiones que se harán con los
resultados .
2. Importancia y énfasis asignado a los objetivos.
3. Número de objetivos.
4. Limitaciones practicas.
┌─────────────────┬───────────────────────────────────────────────────┐ │ │ CONTENIDOS │ │ ├─────────────────┬──────────────┬──────────────────┤ │ │ Tema 1 │ Tema 2 │ Total preguntas │ │ OBJETIVOS │ 25% │ 75% │ por objetivo │ ├─────────────────┼─────────────────┼──────────────┼──────────────────┤ │ Conocimientos │ │ │ │ │ de memoria │ 2.0 │ 4.0 │ 6 │ │ 20% │ │ │ │ ├─────────────────┼─────────────────┼──────────────┼──────────────────┤ │ Comprensión │ │ │ │ │ de conceptos │ 3.0 │ 6.0 │ 9 │ │ 30% │ │ │ │ ├─────────────────┼─────────────────┼──────────────┼──────────────────┤ │ Aplicación │ │ │ │ │ 50% │ 4.0 │ 11.0 │ 15 │ │ │ │ │ │ └─────────────────┴─────────────────┴──────────────┴──────────────────┘ TOTAL = 30 pregun.
PUNTAJES DE CORTE.
Hambleton (1978), Lo define como
un punto de escala de puntajes de
una prueba que se utiliza para
clasificar a los individuos entre dos
categorías que reflejan diferentes
niveles de habilidad con respecto a
un objetivo en particular.
El mismo autor establece una catalogación de los diferentes métodos
para puntajes de corte:
a)Contenido de los ítems.
b) Puntajes al azar y muestreo de ítems.
c)Datos empíricos de masters o no masters.
d)Procedimientos teóricos.
Cabe señalar que todos los métodos involucran un juicio y no son en
base a caprichos.
BIBLIOGRAFÍA.
Martínez González R. La investigación en la practica educativa: Guía
metodológica de investigación para el diagnostico y evaluación de
centros docentes. CIDE. Madrid. 2007.
Mehrens, W.A, Medición basada en normas y en criterios, en medición
y evaluación en la educación y en la psicología . CECSA. México. 1982.
Leyva Barajas Y. Una reseña sobre la validez de constructo de
pruebas referidas a criterio. Revista perfiles educativos. II SUE
UNAM. Vol. XXXIII, núm. 131. 2011.
Salvador Pérez I. El diagnostico de los aprendizajes básicos y
sus diferencias. Un modelo criterial. Revista tendencias
pedagógicas. No. 12. 2007.
Por su atención
muchas gracias.