Download - evaluacion_criterial

TÉCNICAS CRITERIALES O PRUEBAS EN BASE A CRITERIOS.

Alfredo Guzmán Rosales

Existe un problema común en la medición que tiene que ver con las

diferencias entre la medición basada en normas y basadas en criterios.

DIFERENCIA ENTRE CRITERIO Y NORMA.Criterio:

Significa que un criterio nos permite referirnos a una acción o comportamiento, comparativamente en

relación a otro, que enuncia las reglas del primero y autoriza su evaluación.

En forma recíproca evaluar equivale a determinar criterios con el objetivo de discriminar la información. Por

ello los criterios nos permitirán la obtención de información (índices), dirigidas hacia aquello que queremos

evaluar. Los índices son la materialización y objetivación explícita de los criterios.

Según J.M. De Ketele, existen 4 momentos en los referente a la acción coherente entre la recolección de

información y los criterios enunciados.

· Establecer claramente el objetivo de la evaluación.

· Determinar el criterio o los criterios relacionados al objetivo.

· Confrontar los criterios seleccionados previamente con las informaciones recogidas en la evaluación.

· Formular conclusiones para la toma de decisiones.

NORMA.

Evaluar en referencia a una norma, significa comparar el resultado del individuo

con los resultados de una población o grupo a los que pertenece.

Esto exige el establecimiento de una norma o escala de referencia,

confeccionada después de estudios estadísticos de rendimiento, con el

objetivo de obtener una calificación. En este ámbito normativo, el criterio es

externo, en la medida que se utiliza una escala que es mas o menos "ajena"

al sujeto evaluado, sin tener en cuenta las condiciones de trabajo, nivel inicial,

aprendizaje, etc. (B. Maccario) Por esta razón este tipo de evaluación se utiliza

para ubicar a los alumnos en escalas de rendimiento y puntaje, atribuir un

lugar dentro de los grupos, certificar los niveles en función de la norma o el

grupo y predecir futuros resultados.

MEDICIÓN BASADA EN NORMAS.

Cuando se utilizan técnicas normativas, lo que interesa conocer son las

diferencias individuales que hay entre los sujetos en la característica

evaluada, y los distintos grados en que cada uno la tiene desarrollada.

Es la forma con que tradicionalmente se han hecho los diagnósticos de los

alumnos sobre su capacidad intelectual, rasgos de personalidad,

motivación, intereses profesionales, etc., y de aquí han derivado la

mayoría de las técnicas psicodiagnósticas existentes, es decir, los test

basados en normas.

Estas técnicas sirven también para realizar clasificaciones de sujetos en

determinadas categorías; por ejemplo, para agrupar a los alumnos en

distintos grupos según sus competencias intelectuales y poder adaptar

mejor así los procedimientos didácticos a cada tipo de alumnado.

También se emplean para llevar a cabo procesos de selección

de personas que respondan a diversos criterios según unas

puntuaciones mínimas que es preciso alcanzar; por ejemplo,

para aprobar una oposición o para trabajar en un determinado

puesto dentro de una institución.

Estas pruebas ayudan a llevar a cabo estas funciones porque

tienen como finalidad identificar la capacidad máxima del sujeto

en un ámbito concreto razonamiento, cálculo, fluidez verbal,

etc.), lo que permite seleccionar, con un pequeño margen de

error, personas para desempeñar actividades específicas.

MEDICIÓN BASADA EN CRITERIOS.

Las técnicas criteriales, por su parte, no se basan en las

puntuaciones estadísticas de un grupo normativo, sino en

un criterio numérico preestablecido de antemano por el

docente o por el investigador, que se espera que alcancen

los sujetos para considerar que logran un objetivo

propuesto.

Estas técnicas permiten hacer diagnósticos personalizados

sobre los sujetos y diseñar, en base a ellos, programas de

intervención que ayuden a las personas a mejorar en

la adquisición de habilidades que les permitan

aproximarse a la consecución del criterio establecido.

Por tanto, se puede valorar la calidad y eficacia del programa

desarrollado para conseguir el cambio, lo que permite hablar de

evaluación de programas y de investigación evaluativa. En el

ámbito educativo se estimula cada vez más la realización de este

tipo de diagnósticos individuales empleando estas técnicas, que se

conocen también como test orientados a la consecución de metas

de aprendizaje o pruebas de dominio.

Los test criteriales permiten valorar el grado en que una persona

llega a alcanzar con la ayuda del docente o educador determinadas

metas de aprendizaje y competencias intelectuales, emocionales y

conductuales que hasta entonces por sí sola no podía alcanzar.

Dada esta finalidad de las técnicas criteriales, se resalta la importancia

del docente o del educador como mediador que facilita al estudiante

desarrollar su potencial de aprendizaje y adquirir progresivamente un

mayor grado de autonomía en la consecución de objetivos de

aprendizaje.

Una vez apoyado el desarrollo de estas competencias de aprendizaje

mientras se desarrolla un programa de enseñanza, las técnicas

criteriales permiten posteriormente valorar el grado en que la persona es

capaz de resolver adecuada y autónomamente un número determinado

de tareas de cierta dificultad que cumplan con el criterio numérico

establecido para decidir que se han alcanzado las metas de aprendizaje.

EJEMPLOS DE PRUEBAS EN BASE A CRITERIOS.

Este tipo de pruebas, tanto internacionales como nacionales, se han venido

aplicando en México en las últimas décadas y aún se sabe poco de ellas

inclusive dentro del ámbito educativo. Entre las pruebas criteriales más

representativas que se aplican en nuestro país, están los Exámenes Generales

para el Egreso de Licenciatura (EGEL) del Centro Nacional para la Evaluación de

la Educación Superior (CENEVAL); los exámenes de la Calidad y el Logro

Educativos (EXCALE) del Instituto Nacional para la Evaluación de la Educación

(INEE); y la prueba para la Evaluación Nacional de Logro Académico en Centros

Escolares (ENLACE) que aplica la Secretaría de Educación Pública. Entre las

internacionales está el Programa para la evaluación internacional de alumnos

(Programme for International Student Assessment, PISA por sus siglas en inglés).

ENLACE.

I nformación Comparativa por nivel de logro PERMITE OBSERVAR EL PUNTAJ E PROMEDIO OBTENIDO, POR LOS ALUMNOS DE MI GRUPO CON REFERENCIA AL PUNTAJ E

PROMEDIO OBTENIDO POR LOS DEMÁS ALUMNOS DE LA ESCUELA, ENTIDAD Y PAÍS, EN LOS MISMOS GRADOS, ASIGNATURA Y

TIPO DE ESCUELA.

PORCENTAJ E DE ESTUDI ANTES POR NI VELDE LOGRO

ESPAÑOL MATEMÁTI CAS HISTORI A *

INSUFICIENTE

ELEMENTAL

BUENO

EXCELENTE INSUFICIE

NTE ELEMEN

TAL BUENO

EXCELENTE INSUFICIE

NTE ELEMEN

TAL BUENO

EXCELENTE

GRUPO

20.0 70.0 10.0 0.0 25.0 60.0 5.0 10.0 5.0 55.0 35.0 5.0

ESCUELA

29.3 53.4 17.2 0.0 29.3 48.3 15.5 6.9 3.4 55.2 29.3 12.1

ENTIDAD

38.7 47.1 13.9 0.3 44.4 42.2 11.4 2.1 10.9 66.0 17.5 5.6

NACIONAL

45.1 44.0 10.7 0.3 54.1 36.5 7.8 1.6 16.4 65.1 14.7 3.8

INSUFICIENTE Necesita adquirir los conocimientos y desarrollar las habilidades de la asignatura evaluada.

ELEMENTAL Requiere fortalecer la mayoría de los conocimientos y desarrollar las habilidades de la asignatura evaluada.

BUENO Muestra un nivel de dominio adecuado de los conocimientos y posee las habilidades de la asignatura evaluada.

EXCELENTE Posee un alto nivel de dominio de los conocimientos y las habilidades de la asignatura evaluada.

ANTECEDENTES

ETAPA GLASER (AÑOS 60)

No será hasta los años sesenta con la obra de

Glaser "Instructional Technology and the

Measurements of Learning Outcomes" cuando de

hecho se establezcan claramente las diferencias

entre las expresiones "evaluación basada en

normas" y "evaluación basada en criterios”

conocida como; preocupación por los objetivos.

ETAPA POPHAM (AÑOS 70)

Primera sistematización formal de la metodología de la

evaluación referida a criterio (ERC), realizada por Millman en

un capítulo del libro "Evaluación en Educación", editado por

Popham en 1974.

Publicación de una monografía sobre la tecnología de la ERC.

Publicación en 1976 de una revisión completa del tema de la

determinación de estándares.

Publicación de textos que integran los dos enfoques de la

construcción de pruebas.

Publicación del primer texto específico (Popham, 1978, edición

española de 1983) y de numerosos trabajos en torno al tema

de los estándares y puntos de corte.

ETAPA BERK (AÑOS OCHENTA) La publicación por Hambleton (1980) de una

monografía sobre toda la problemática técnico‑metodológica.

Sistematización de las técnicas de formulación de ítems, realizada por Roid y Haladyna en 1982.

Publicación de manuales para la determinación de estándares de ejecución en pruebas educativas.

Publicación por Berk en 1984 de una revisión de su libro de 1980, actualizando el tratamiento de los temas más relevantes: formulación y análisis de items, determinación de estándares, fiabilidad, validez, análisis de sesgos, entre otros.

TIPOS DE INSTRUMENTOS REFERIDOS A UN CRITERIO.

TIPOS UTILIZACIÓN

Pruebas objetivas (reactivos de verdadero-falso, de opción múltiple)

Se utilizan al inicio y al final, para medir el aprendizaje cognoscitivo.

Diagrama de análisis de tareas. Se utilizan para establecer las conductas que se han de moldear.

Listas de comprobación para la auto estimación.

Se utilizan en la autoevaluación.

Inventarios diagnósticos. Se utiliza para la planeación del programa y las alternativas de remedio.

Listas de comprobación para la identificación de problemas.

Se utilizan para identificar los problemas reales o potenciales, para lograr los objetivos del curso.

VALIDEZ DE LAS PRUEBAS CRITERIALES

Según Popham (1978):

a) Validez descriptiva; establece un esquema descriptivo

(especificaciones de las pruebas, objetivos, ítems, etc.) se

verifica si el esquema cumple con la función de comunicar

eficazmente, es decir que los ítems sean congruentes con el

esquema descriptivo.

b) Validez funcional; mide la exactitud con que la prueba

satisface al objetivo u objetivos.

c) Validez de selección del dominio; describe las

características de las personas que se seleccionaron,

procedimientos, y guías que se dieron, para medir el grado

de dominio de los aprendizajes.

Según Hambleton (1980):

a) Validez de contenido; Primeramente se determina el

dominio de conocimientos que se pretende medir, en

segundo consideración de tres características; validez,

calidad técnica y representatividad.

b) Validez del constructo (conceptual); se refiere a la

utilidad que se le da a los puntajes del rendimiento del

estudiante, para la toma de decisiones.

CONFIABILIDAD DE LAS PRUEBAS.

Según: Hambleton (1978), Brennan (1980), Shaefer (1983), la

confiabilidad de estas pruebas pueden analizarse en tres definiciones:

a) Confiabilidad de las estimaciones de los puntajes de dominio:

consistencia del puntaje de un estudiante si se repite la aplicación

de una misma prueba, sin hacer un puntaje de corte de la prueba.

b) Confiabilidad de las decisiones del dominio: consistencia en la

clasificación de los estudiantes como «masters».

c) Confiabilidad de los puntajes de pruebas con respecto al puntaje

de corte: estabilidad de las desviaciones estándar.

LONGITUD DE PRUEBA. Se entiende como el número de ítems que miden cada objetivo

o especificación del test. Las pruebas muy cortas producen

estimaciones de puntajes de dominio muy imprecisos y por lo

tanto las decisiones de maestría o dominio serán

inconsistentes.

Para Berk (1979), cuatro son los factores esenciales para

determinar cuantos ítems deben construirse para una prueba:

1. Importancia y tipo de decisiones que se harán con los

resultados .

2. Importancia y énfasis asignado a los objetivos.

3. Número de objetivos.

4. Limitaciones practicas.

┌─────────────────┬───────────────────────────────────────────────────┐ │ │ CONTENIDOS │ │ ├─────────────────┬──────────────┬──────────────────┤ │ │ Tema 1 │ Tema 2 │ Total preguntas │ │ OBJETIVOS │ 25% │ 75% │ por objetivo │ ├─────────────────┼─────────────────┼──────────────┼──────────────────┤ │ Conocimientos │ │ │ │ │ de memoria │ 2.0 │ 4.0 │ 6 │ │ 20% │ │ │ │ ├─────────────────┼─────────────────┼──────────────┼──────────────────┤ │ Comprensión │ │ │ │ │ de conceptos │ 3.0 │ 6.0 │ 9 │ │ 30% │ │ │ │ ├─────────────────┼─────────────────┼──────────────┼──────────────────┤ │ Aplicación │ │ │ │ │ 50% │ 4.0 │ 11.0 │ 15 │ │ │ │ │ │ └─────────────────┴─────────────────┴──────────────┴──────────────────┘ TOTAL = 30 pregun.

PUNTAJES DE CORTE.

Hambleton (1978), Lo define como

un punto de escala de puntajes de

una prueba que se utiliza para

clasificar a los individuos entre dos

categorías que reflejan diferentes

niveles de habilidad con respecto a

un objetivo en particular.

El mismo autor establece una catalogación de los diferentes métodos

para puntajes de corte:

a)Contenido de los ítems.

b) Puntajes al azar y muestreo de ítems.

c)Datos empíricos de masters o no masters.

d)Procedimientos teóricos.

Cabe señalar que todos los métodos involucran un juicio y no son en

base a caprichos.

BIBLIOGRAFÍA.

Martínez González R. La investigación en la practica educativa: Guía

metodológica de investigación para el diagnostico y evaluación de

centros docentes. CIDE. Madrid. 2007.

Mehrens, W.A, Medición basada en normas y en criterios, en medición

y evaluación en la educación y en la psicología . CECSA. México. 1982.

Leyva Barajas Y. Una reseña sobre la validez de constructo de

pruebas referidas a criterio. Revista perfiles educativos. II SUE

UNAM. Vol. XXXIII, núm. 131. 2011.

Salvador Pérez I. El diagnostico de los aprendizajes básicos y

sus diferencias. Un modelo criterial. Revista tendencias

pedagógicas. No. 12. 2007.

Por su atención

muchas gracias.