TEMA No 5 LA FIABILIDAD EN LOS TEST REFERIDOS AL...

TEMA No 5 LA FIABILIDAD

EN LOS TEST REFERIDOS AL

CRITERIO.

DEFINICION Y OBJETIVOS DE LOS

TESTS REFERIDOS A CRITERIO (TRC)

Tests referidos a normas (TRN): Su finalidad es describir al sujeto en el continuo de algún rasgo, haciendo hincapié en las diferencias individuales y expresando su posición relativa respecto al grupo (denominado grupo normativo)

Test referidos a criterio (TRC): Su finalidad es construir y evaluar test que permitan interpretar las puntuaciones en sentido absoluto, sin referencia a ningún grupo, y describir con mayor precisión los conocimientos, habilidades y destrezas de los sujetos en un dominio concreto de contenidos. Los test referidos a criterio se pueden utilizar para dos tipos de objetivos:Estimar la puntuación de dominio de los sujetosEstablecer estándares mediante puntos de corte (test de maestría)

Considerando el ámbito de los tests de maestría, un test se considera fiable, si tras su aplicación a los mismos sujetos en distintas ocasiones, o la aplicación de dos formas paralelas, siempre se clasifica a los sujetos en la misma categoría. Por esto, los metodos para calcular la fiabilidad de los tests referidos a criterio (TRC) se pueden dividir en dos grupos:

A. Los que requieren dos aplicaciones del test (Coeficiente de Hambleton y Novick, Coeficiente Kappa de Cohen e Índice de Crocker y Algina)

B. Los que requieren una sola aplicacion del test (Método de Huynh, Método de Subkoviak y Coeficiente de Livingston)

Los distintos métodos para el cálculo de la fiabilidad de los TRC se utilizan para establecer un punto de corte que nos permite clasificar al sujeto en dos categorías: la de los sujetos que dominan el criterio evaluado y la de aquellos que no lo dominan (el criterio es el punto de corte para evaluar a los sujetos) Las decisiones que se toman en función del punto de corte son muy importantes para los sujetos aprobar o suspender, acceder a unos u otros estudios, etc. La determinación del punto de corte es subjetiva (lo establecen los expertos)

Apunte histórico

Los TRC tienen su origen en los trabajos de Flanagan y Nedelsky (introdujeron el concepto de estándar absoluto y relativo respecto a las puntuaciones). La denominación TRC se debe a Ebel y Glaser fue quien estableció la diferencia con los tests normativos. Según Hambleton, las principales causas que generan su aparición son: conocer la eficacia de los programas educativos, evaluar habilidades básicas, etc.

En los años 60, se intenta establecer el estatus de un sujeto respecto al dominio definido. En los años 80, aparecen nuevos enfoques (“medición auténtica” o “evaluación de la ejecución” son términos alternativos de la “medición referida a criterio”)

La definición más consensuada sobre los TRC se debe a Popham Un test referido a criterio se utiliza para evaluar el status absoluto del sujeto con respecto a algún dominio de conductas bien definido.

LONGITUD DEL TEST

Número de ítems pequeños

Las puntuaciones tienen un valor limitado.

La estimación de dominio será imprecisa.

Clasificaciones inconsistentes y poco fiables, no indicativas de la maestría.

Número de ítems elevados

Se aseguran valores de probabilidad de clasificación incorrecta mínimos.

No debe tener excesiva longitud (economía, limitaciones de tiempo, etc.)

Se pueden considerar dos maneras de reducir el número de errores sin aumentar la longitud del test: Modelos bayesianos y tests computarizados.

Modelo de MIllman

Modelo binomial. Considera la proporción esperada de ítems que un sujeto puede contestar correctamente para ser considerado apto y el error máximo a tolerar.

Supuestos del modelo: Muestra aleatoria de ítems dicotómicos // La probabilidad de una respuesta correcta por parte de un sujeto es constante para todos los ítems del test // Las respuestas a los ítems son independientes unas de otras // Los errores se ajustan al modelo binomial.

Ecuación para averiguar la longitud del test supuesta una proporción de aciertos

FIABILIDAD EN LAS CLASIFICACIONES EN LOS

TESTS REFERIDOS AL CRITERIO

INDICES DE ACUERDO CON DOS APLICACIONES DEL TEST (CALCULO FIABILIDAD):

INDICES DE ACUERDO CON DOS APLICACIONES

DEL TEST (CALCULO FIABILIDAD):

INDICES DE ACUERDO CON UNA SOLA

APLICACION DEL TEST (CALCULO FIABILIDAD)

METODOS PARA ESTIMAR EL PUNTO DE CORTE EN

TESTS REFERIDOS A CRITERIO

Se suelen considerar dos tipos de puntos de corte (Muñiz, 1998): Puntos de corte relativos (se establecen en función del grupo de sujetos evaluados) y Puntos de corte absolutos (se establecen en función del constructo o materia objeto de estudio)

Los métodos utilizados para establecer el punto de corte son:Los métodos valorativos (evaluación que un grupo de expertos en los contenidos a evaluar, con cierto entrenamiento y en número suficiente, llevan a cabo sobre los ítems de un test)Los métodos combinados (juicios que los expertos llevan a cabo sobre la competencia de los sujetos en la materia que se evalúa, además de reunir los requisitos anteriores)Los métodos de compromiso (no sólo se basan en los conocimientos mínimos que el sujeto tiene para superar el criterio, también incorpora la información relativa a la posición del sujeto con relación a su grupo)

Métodos valorativos: Nedelsky, Angoff, Ebel y Jaeger

Método Nedelsky: se utiliza para fijar el punto de corte en los test de competencia mínima. Se utiliza en el ámbito académico con test compuestos por ítems de elección múltiple. Los jueces determinan las alternativas que un sujeto competente consideraría erróneas (ejemplo: 2 de 5) y para ese ítem La unidad dividida por el nº de alternativas que supone que el sujeto no ha rechazado como erróneas, en nuestro caso, 1/3 = 0´33 (la media de todos los valores

esperados en cada ítem = Punto de corte)

Metodo Angoff: variante del método Nedelsky, se puede aplicar a toda clase de ítems (no sólo a los de elección múltiple). Los jueces evalúan globalmente los ítems (probabilidad de que un sujeto con competencia mínima responda correctamente a cada ítem del test)Para calcular el punto de corte se suman los valores de las probabilidades

establecidas por cada uno de los jueces y se calcula la media.

Métodos valorativos: Nedelsky, Angoff, Ebel y Jaeger

Metodo Ebel: similar al método de Angoff. Los jueces evalúan globalmente desde una doble perspectiva: la dificultad del ítem (fácil, medio y difícil) y su relevancia (esencial, importante, aceptable y dudoso). Se articula una matriz con 12 categorías en las que se ubican todos los ítems del test los jueces establecen el porcentaje de ítems que debería contestar un sujeto mínimamente competente.

Metodo Jaeger: otra variante del método de Angoff. Para determinar el punto de corte se precisantres sesiones: 1ª cada juez en cada uno de los ítems afirma (SI / NO) será contestado correctamente por los sujetos mínimamente competentes; 2ª se calcula el número de ítems a los que cada juez respondió con un SI y se facilita a los jueces; se repite el proceso inicial y cada juez puede o no cambiar de opinión; 3ª se repite el proceso de la 2ª sesión. Punto de corte Mediana más baja de los diferentes grupos de jueces.

Métodos combinados: método del grupo limite y

grupos de contraste.

Metodo del grupo limite (Zieky y Livingstone): los jueces, por acuerdo, definen tres niveles de competencia (competente, límite y no competente). Después los jueces seleccionan a los sujetos límite y se les aplica el test.

Punto de corte Media o Mediana de las puntuaciones que han obtenido en el test los sujetos límite competentes (la mediana es mejor porque no tiene en cuenta puntuaciones extremas)

Método de los grupos de contraste: los jueces clasifican a los sujetos en dos grupos (los que son competentes y los que no lo son) y se les administra el test.

Metodos de compromiso: Beuk y Hofstee

Método de Beuk: los jueces tienen en cuenta las puntuaciones de los sujetos en el test en el que estamos interesados en establecer un punto de corte y las respuestas a dos preguntas: 1ª porcentaje mínimo de ítems que los jueces creen que un sujeto debería contestar correctamente para superar el test y 2ª porcentaje de sujetos que estiman que obtendrán la puntuación mínima para superar el test.

Método de Hofstee: Los jueces recogen información sobre cuatro puntos: el punto de corte que los jueces consideran adecuado (porcentaje de ítem que los sujetos deben superar), el punto de corte que los jueces consideran inadecuado (porcentaje máximo admisible de sujetos que fallan en el test), el porcentaje mínimo admisible de sujetos que fallan en el test y la distribución de resultados obtenidos en el test.

TEMA No 5 LA FIABILIDAD EN LOS TEST REFERIDOS AL...

Documents

Transcript of TEMA No 5 LA FIABILIDAD EN LOS TEST REFERIDOS AL...