Clase #2 Construcción de Pruebas Objetivas

45
Información de: Universidad de Buenos Aires: Dra. Isabel M. Mikulic Prof. Titular Regular, Cátedra I : T. y T. de Exploración y Diagnóstico Los test en la medición psicológica Construcción de pruebas objetivas

description

Presentación sobre pruebas

Transcript of Clase #2 Construcción de Pruebas Objetivas

Diapositiva 1

Informacin de: Universidad de Buenos Aires: Dra. Isabel M. Mikulic Prof. Titular Regular, Ctedra I : T. y T. de Exploracin y Diagnstico Los test en la medicin psicolgicaConstruccin de pruebas objetivasEl avance en la difcil tarea de comprender la conducta de las personas de manera integrada se nutre del esfuerzo que realiza la psicologa por articular los diferentes fundamentos tericos con la diversidad de mbitos de aplicacin, a travs de la evaluacin psicolgica. La Psicologa reconoce en la Psicometra esa rama que se ocupa de las cuestiones relacionadas con la medicin.

Podemos encontrar contenidos tradicionales en la Psicometra que son punto de acuerdo entre la mayora de los autores e investigadores de la Psicologa. Se podran sintetizar en tres ejes: a) Los procesos operacionales de medicin en Psicologa asociados a las escalas de medida: el objetivo de la Psicometra ser hallar la mejor manera de observar, clasificar y transformar categoras manifiestas en escalas cuantitativas (Stevens, 1951)

b) Confiabilidad o precisin de los instrumentos de medida en Psicologa.

c) Validez de una prueba: es la propiedad fundamental en tanto permite decir de una prueba que mide lo que pretende medir y es un valor social sobresaliente que asume una funcin tanto cientfica como poltica (Messick, 1995)

La evaluacin psicolgicaProceso para verificar la medida o grado en que se logran metas u objetivos propuestos a travs de la categorizacin, comparacin, anlisis y contrastacin de datos cuanti-cualitativos por medio de tcnicas objetivas y proyectivas.

Su mxima expresin es el Psicodiagnstico que utiliza el diseo del caso nico. Qu motiva la elaboracin de pruebas nuevas?No hay un listado exhaustivo de motivaciones que lleven a la construccin de nuevos test, sin embargo, si analizamos las tcnicas existentes encontraremos tres fuentes principales de trabajo de desarrollo de pruebas.

La primera seala que muchas de las pruebas de uso ms generalizado se originaron en respuesta a cierta necesidad prctica.

Algunos test se construyen a partir de un fundamento terico importante.

Una gran parte del trabajo de elaboracin de test se dedica a adaptar o revisar los instrumentos ya existentes. Otras definiciones de lo que es una evaluacin psicolgica Evaluacin psicolgica como la recopilacin e integracin de datos relacionados con la psicologa con el propsito de hacer una valoracin psicolgica, lograda con el uso de herramientas como pruebas, entrevistas, estudios de caso, observacin conductual y aparatos y procedimientos de medicin diseados en forma especial (Cohen y Swerdlik, 2001).

Definiremos prueba psicolgica como el proceso de medir variables relacionadas con la psicologa por medio de dispositivos o procedimientos diseados para obtener una muestra de comportamiento (Cohen y Swerdlik, 2001). Qu es un test?Siguiendo a Anastasi & Urbina (1998) entendemos que un test es un instrumento de evaluacin cuantitativa de los atributos psicolgicos de un individuo.

La Asociacin de Psiclogos Americanos (1999), propone una conceptualizacin abarcativa y exhaustiva al definir a un Test como un procedimiento evaluativo por medio del cual una muestra de comportamiento de un dominio especificado es obtenida y posteriormente evaluada y puntuada empleando un proceso estandarizado Qu es un diagnstico?Definiremos las situaciones de diagnstico como aquellas en las que se produce el conocimiento mediato, no directo, sino a travs de indicadores que son observables comportamentales y / o clnicos, de personas concretas, no de grupos ni de colectividades (Pelechano Barber, 1988) Quin, qu y por qu evaluar? Quines son las partes? El que construye la prueba:

Quienes se dedican a elaborar pruebas, brindan una amplia variedad de antecedentes y detalles respecto del proceso de elaboracin.

Sin embargo, la APA (American Psychological Association) estima que ms de 20.000 pruebas nuevas se elaboran cada ao y abarcan pruebas elaboradas para un estudio de investigacin especfico, revisiones de anteriores publicadas , etc.

Reconociendo que las pruebas y las decisiones tomadas como resultado de su administracin pueden tener un impacto significativo en las vidas de las personas que responden las pruebas, varias organizaciones publicaron normas de comportamiento tico referidas a la elaboracin y uso responsable de pruebas.

Las ms conocidas son las Normas o Standards for Educational and Psychological Testing elaboradas por la Asociacin Estadounidense de Investigacin Educativa, la Asociacin Psicolgica Estadounidense y el Consejo Nacional sobre Medicin en Educacin.

2. El que usa la prueba

Si bien las pruebas son usadas por una variedad de profesionales, todos debern cumplir los principios ticos correspondientes.

La prueba debe guardarse para que su contenido especfico no sea dado a conocer con anticipacin.

Descripciones previas a la administracin de la prueba, de los materiales que contiene la misma, en el caso de pruebas de inteligencia, no son aconsejables pues podran comprometer los resultados.

El que administra la prueba debe estar familiarizado con los materiales y procedimientos de la prueba y tener todos los materiales necesarios para administrarla en forma apropiada. Tambin debe asegurarse de que el saln en el que se realice la prueba sea el adecuado, evitando condiciones distractoras como ruido excesivo, calor, fro, interrupciones, luz solar deslumbrante, hacinamiento, ventilacin inadecuada, etc. Es fundamental la empata entre el evaluador y el evaluado.

En el contexto de situacin de prueba, la empata puede definirse como una relacin de trabajo entre evaluador-evaluado.

Lograr la empata con el evaluado no debe alterar las condiciones de administracin de la prueba.

Existen otros factores que pueden influir en el desempeo en pruebas de inteligencia como por ejemplo que el evaluador sea familiar o no, que est presente o ausente, y sus modales en general. Otro factor importante ha sido el gnero.

3. El que responde la prueba:

Las personas evaluadas enfocan una situacin de evaluacin de diferentes formas y los administradores deben ser sensibles a la diversidad de respuestas posibles ante una situacin de prueba.

El evaluado en situacin de diagnstico o evaluacin puede variar en: a) ansiedad experimentada y grado en que sta podra afectar los resultados.

b) capacidad y disposicin para cooperar con el evaluador o comprender las instrucciones escritas.

c) el dolor fsico o la angustia emocional que est sufriendo el evaluado.

d) malestar e incomodidad derivado de no haber comido suficiente o por otras condiciones fsicas. e) grado en que est alerta y despierto y no somnoliento. f) grado en que estn predispuestos a estar de acuerdo o en desacuerdo cuando se les presenten los reactivos. g) grado en que han recibido preparacin previa.

h) importancia que atribuyan a describirse a s mismos en forma buena o mala. i) grado de suerte que tiene el evaluado al responder sin conocer de lo que responde.

Tambin el evaluado tiene derechos en situaciones de evaluacin como por ejemplo a dar su consentimiento para ser evaluado, a que los resultados sean confidenciales y a ser informado de los resultados.

En qu tipo de contextos se realizan evaluaciones? 1. Contexto clnico2. Contexto educativo3. Contexto jurdico4. Contexto organizacional5. Otros contextosEvaluacin de la Calidad de las pruebas: Confiabilidad y Validez Confiabilidad

Una buena prueba es confiable, es decir es consistente y es precisa.

Las pruebas psicolgicas son confiables en grados diversos. En el dominio de las mediciones comportamentales, la variabilidad es mucho mayor dada las caractersticas del objeto epistmico y de los instrumentos de medicin utilizados.

Las diferencias en el desempeo de un sujeto en sucesivas ocasiones pueden estar causadas por diversas razones: distinta motivacin en las diversas situaciones en que fue evaluado, distintos niveles de cansancio o de ansiedad, estar ms o menos familiarizado con el contenido del test, etc. Por todo ello, los puntajes de una persona no sern perfectamente consistentes de una ocasin a la siguiente y decimos que la medicin contiene cierta cantidad de error.

Es decir que el puntaje que obtiene una persona en una prueba incluye el puntaje real de la persona y un margen de error que puede aumentar o disminuir dicha puntuacin verdadera.

Este error de medicin, aleatorio e impredecible, se distingue de los errores sistemticos que tambin afectan el desempeo de los evaluados por un test, pero de una manera ms consistente que aleatoria.

Factores que determinan la falta de confiabilidad a) Al construir o adaptar un test: se debe prestar atencin a la seleccin de los tems y a la formulacin de las consignas, pero principalmente se debe cuidar el muestreo del contenido para evitar que sea tendencioso o insuficiente.

Otra fuente importante de error son los efectos de la adivinacin, es decir, los test son ms confiables a medida que aumenta el nmero de respuestas alternativas (Cortada de Kohan, 1999). b) Al administrar un test: se debe evaluar a todos los sujetos en las mismas condiciones, tratando de controlar posibles interferencias ambientales como el ruido, la iluminacin o el confort del lugar.

Las consignas deberan ser estandarizadas desde la construccin del test hasta en su administracin, especialmente en lo referido al control de los tiempos para la realizacin del mismo.

Otro punto a considerar son las influencias fortuitas que pueden afectar la motivacin o la atencin del evaluado como por ejemplo preocupaciones personales, afecciones fsicas transitorias, etc. d) Al evaluar un test: se deben sostener los criterios de evaluacin, no es posible cambiar los criterios de correccin por ejemplo luego de haber calificado a una serie de evaluados, en funcin de un criterio subjetivo del evaluador.

Validez

Se refiere a lo que mide una prueba y no puede expresarse en general sino que debe consignarse el uso particular para el que se planea utilizar el instrumento.

Histricamente, uno de los primeros usos de las pruebas fue la evaluacin de lo que los individuos haban aprendido en determinadas reas de contenido y por ello se comparaba el contenido de esas categoras de pruebas con el del rea que pretendan probar.

Luego, el nfasis recay en la prediccin y actualmente existen dos tendencias una hacia el fortalecimiento de la orientacin terica y la otra hacia una estrecha vinculacin entre la teora y la verificacin psicolgicas mediante la comprobacin emprica y experimental de las hiptesis. 1. Diseo y Elaboracin de los Test1.1.Teoras de los Test

Existen diversos paradigmas o modelos que permiten explicar el significado de las puntuaciones obtenidas con los Test.

El anlisis o modelado de las matrices de datos obtenidas da como resultado: la estimacin del nivel en que poseen los sujetos la(s) caracterstica(s) que mide el test (valores escalares de los sujetos) la estimacin de los parmetros de los tems (valores escalares de los tems).

El problema central de la teora de los test es la relacin que existe entre: el nivel del sujeto en la variable inobservable que se desea estudiar y su puntuacin observada en el test.

Es decir que el objetivo de cualquier teora de test es realizar inferencias sobre el nivel en que los sujetos poseen la caracterstica o rasgo inobservable que mide el test, a partir de las respuestas que stos han dado a los elementos que forman el mismo.

As para medir o estimar las caractersticas latentes de los sujetos es necesario relacionar stas con la actuacin observable en una prueba y esta relacin debe de ser adecuadamente descrita por una funcin matemtica.

Las distintas teoras de test difieren justamente en la funcin que utilizan para relacionar la actuacin observable en el test con el nivel del sujeto en la variable inobservable.

Y sirven para dar cuenta del error de medida inherente a toda medicin psicolgica o estimacin del error; y proporcionar una estimacin del rasgo o caracterstica evaluada (estimacin del rasgo) a)Teora Clsica de los TestLa Teora Clsica de los Tests (TCT) es, en sntesis, el conjunto de principios tericos y mtodos cuantitativos derivados de ellos, que fundamentan la construccin, aplicacin, validacin e interpretacin de distintos tipos de tests y que permiten derivar escalas estandarizadas aplicables a una poblacin (Hambleton, 1994). En otros trminos, la teora clsica de los tests no puede predecir cmo responder un individuo a los tems a menos que esos tems hayan sido previamente administrados a personas similares (Lord, 1980) Durante el trabajo prctico de elaboracin de tests, normalmente el grupo a partir del cual se obtienen los ndices y el grupo al cual el test va dirigido, difieren considerablemente.b) Teora de la Generalizabilidad Cronbach y Glaser (1972) postularon la Teora de la Generalizabilidad (TG) que es una extensin del modelo clsico en el que diversas mediciones del mismo individuo pueden variar tanto por efecto de una variacin en lo que se mide como por el error de medicin (Nunnally y Bernstein, 1995).

En esta teora las decisiones sobre la bondad de un instrumento se basan en estudiar las fuentes y tipos de error, utilizando el anlisis de varianza. Cuando se mide una variable se trata de generalizar los resultados a un dominio o universo confiable de observaciones. El puntaje del universo es semejante al puntaje verdadero en el modelo clsico. La diferencia es que en la TCT se considera que la varianza de error es de una sola clase y, en cambio, la TG reconoce que existen otros universos de generalizacin y por lo tanto muchos puntajes de universo posibles.

Poblacin es el conjunto de personas de las que se extrae una muestra; y Universo es el conjunto de todos los tems posibles de un constructo; y Universo de Condiciones de Medicin al conjunto de todas las facetas estudiadas.c)Teora de Respuesta al tem Un desplazamiento progresivo del esquema proporcionado por la Teora Clsica de los Tests, hacia el contexto y los procedimientos delineados por la Teora de Respuestas al tem (TRI) [Del ingls: tem Response Theory - IRT].

Esta teora, fue desarrollada para resolver varios de los problemas que presentaba la TCT (Hambleton & Swaminathan, 1985) y que no haban sido resueltos de una manera satisfactoria. Algunos de esos problemas son: (1) El uso de ndices de los reactivos cuyos valores dependen de la poblacin particular de la cul fueron obtenidos, y (2) La estimacin de la habilidad del examinado depende del conjunto especfico de reactivos incluidos en la prueba.

Las caractersticas del examinado en las cuales la teora TRI est interesada, son la "habilidad" que mide el test.

Por lo tanto, es muy difcil comparar examinados a quienes se aplican diferentes tests; o an, comparar tems cuyas caractersticas se obtuvieron utilizando diferentes grupos de examinados. Esto significa que los coeficientes de los reactivos son dependientes del grupo al mismo tiempo que son dependientes del test. Esta clase de dependencia es la que se trata de eliminar mediante la TRI.Las principales caractersticas de la TRI como una alternativa a la teora clsica de los test son:

1. Las caractersticas de los reactivos no dependen del grupo del cul fueron obtenidos; 2. Los puntajes que describen la habilidad del examinado no dependen del test en su conjunto; 3. El modelo se expresa a nivel del reactivo ms que a nivel del test; 4. El modelo no requiere de pruebas paralelas para determinar el ndice de confiabilidad; y 5. Provee una medida de la precisin de cada ndice de habilidad.Los postulados bsicos de la TRI son: 1) El resultado de un evaluado en un tem puede ser explicado por un conjunto de factores llamados rasgos latentes o aptitudes

2) La relacin entre la respuesta de un sujeto a un tem y el rasgo latente que subyace puede describirse como una funcin monotnica creciente que se llama funcin caracterstica del tem o curva caracterstica del tem (CCI) Esta funcin especfica que a medida que la aptitud aumenta la probabilidad de una respuesta correcta al tem tambin aumenta.

3) Las estimaciones de la aptitud obtenidas con distintos tems seran iguales y las estimaciones de los parmetros de los tems obtenidos en distintas muestras de examinados sern iguales. Es decir que en la TRI los parmetros de aptitud y de los tem son invariantes.

Son supuestos de la TRI: 1. La unidimensionalidad del rasgo latente: que las respuestas del examinado estn determinadas por una nica variable denominada Rasgo. Ej.: Un tem de un test espacial medir solo habilidad espacial y no ninguna otra cosa (Ferreres Traver, 2005)

2. La independencia local: Las respuestas de un evaluado a cualquier par de tem son independientes y la probabilidad de responder correctamente a un tem es independiente de la probabilidad de responder correctamente cualquier otro tem (Ferreres Traver, 2005).

Para construir una prueba de acuerdo a los principios de la TRI, es necesario construir un banco de reactivos con parmetros estimados para cada tem, de acuerdo al modelo seleccionado. El procedimiento recomendado por Lord (1977) consiste en los siguientes cuatro pasos: 1. Decidir acerca de la forma deseada de la funcin de informacin de la prueba o curva de informacin deseada (target information curve).

2. Seleccionar los reactivos del banco cuya curva de informacin deseada cae bajo el rea de la curva de informacin de la prueba, de tal manera que saturen el rea bajo la curva de la funcin deseada de la prueba.

3. Conforme se adicionan reactivos a la prueba, se recalcula la curva de informacin de la prueba con los reactivos seleccionados hasta ese momento.

4. Continuar la seleccin de los reactivos hasta que la funcin de informacin de la prueba se aproxime a la funcin de informacin deseada con un grado satisfactorio." (p. 23)

1.2. Definicin del Dominio del Test Siguiendo a Tornimbeni et al. (2004) la construccin de una escala de medicin de algn aspecto del comportamiento humano requiere previamente un exhaustivo anlisis conceptual del dominio o rasgo a medir.

Por dominio debe entenderse el conjunto de conductas que debera exhibir el alumno en relacin con un objetivo dado, si ste ha sido alcanzado.

El dominio puede ser de conductas, objetivos, destrezas y competencias y la amplitud del dominio vara en funcin de la finalidad del test. Si el dominio comprende ms de un objetivo pueden construirse subtests para cada objetivo, y se evala el rendimiento de los sujetos en cada uno de ellos.Para la especificacin del dominio de conductas o clase de tareas que el individuo debe realizar, seguiremos el esquema propuesto por Tornimbeni et al (2004) que proponen:

i. Definicin del objetivo: Se establece cul o cules sern los objetivos que se evaluarn a travs de la prueba, por ejemplo, la habilidad de comprensin, que incluye aquellas conductas o respuestas que se refieren nicamente a una comprensin de los mensajes literales contenidos en la comunicacin. ii. Descripcin del objetivo: Se define en trminos de conductas observables el o los objetivos a ser evaluados. En el ejemplo anterior se especificara un objetivo de la habilidad de comprensin tal como ser capaz de analizar el propsito del autor y su punto de vista examinando una comunicacin escrita. iii. Especificacin de las caractersticas de la situacin de evaluacin: se especifican todos aquellos aspectos a tener en cuenta en la situacin de evaluacin, por ejemplo, en un texto de divulgacin cientfica, seleccionar el prrafo e identificar la oracin donde se expresa la intencin del autor. iv. Caractersticas de la respuesta: Se especifica cul es la respuesta que se espera del sujeto, en este caso, que seleccione de manera correcta el prrafo y la oracin correspondiente.

1.3. Seleccin y elaboracin de las Escalas La medicin es la asignacin numrica de acuerdo con reglas y las escalas son las reglas de medicin. La elaboracin de escalas puede definirse como el proceso de establecimiento de reglas para la asignacin numrica en la medicin.

Las escalas son instrumentos usados para medir algo, ese algo en psicometra es un rasgo o atributo psicolgico.

La escala Likert se usa en forma extensa dentro de la psicologa, por lo general en escala de actitudes.

Las escalas Likert son relativamente fciles de elaborar, cada reactivo presenta cinco respuestas alternativas, por lo general, en un tipo de continuo entre acuerdo y desacuerdo o aprobacin y desaprobacin.

El mtodo de elaboracin de escalas particular empleado en la elaboracin de un test depender de las variables que se van a medir, el grupo para el que se pretende la prueba (por ejemplo los nios pueden requerir un mtodo de elaboracin de escalas menos complicado que los adultos) y las preferencias del elaborador de la prueba.

1.4. Redaccin de tems

Segn lo afirman Tornimbeni et al. (2004) existen pautas convencionales para la redaccin de tems de prueba. Estas incluyen recomendaciones tales como: redactar tems congruentes con el objetivo de medicin y evitar los tems demasiado largos (de ms de 20 vocablos), las oraciones complejas con ambigedades de sentido, las frases con dobles negaciones, el uso de expresiones extremas (nunca, siempre, todos) y utilizar el lenguaje ms apropiado al nivel de maduracin y educativo de la poblacin (Osterlind, 1990).

Existen formatos de seleccin de respuesta y de construccin de respuesta, los primeros facilitan la calificacin automatizada y pueden aplicarse con facilidad a gran cantidad de evaluados. El formato de seleccin de respuesta en presentar una eleccin de respuestas y requerir la seleccin de una alternativa.

1.5. Revisin del Test por Expertos

Tal como lo explican Tornimbeni et al. (2004), la mayora de los autores recomiendan que los items preliminares de un test sean revisados por expertos en construccin de pruebas, en el dominio o rasgo a medir y en el nivel de comprensin de la poblacin a la cual se apunta con la prueba.

Las tres caractersticas que los expertos deben evaluar en cada tem son: a) claridad semntica y correccin gramatical b)adecuacin de su dificultad al nivel educativo y evolutivo de las personas c) congruencia con el rasgo o dominio medido Este ltimo tem es el principal parmetro y se refiere al grado de consistencia que debe existir entre un tem particular y las metas esenciales de la prueba dado que esto ser un factor posterior de confiabilidad y validez (Oesterlind, 1990).

A los jueces se les pide que evalen la calidad y consistencia de los items y se descartan aquellos con puntuaciones medias ms bajas y con escaso grado de acuerdo, respectivamente.

Se recomienda que los tem seleccionados sean aquellos en que, al menos, un 60% de los jueces coinciden (Herrera Rojas, 1993).

Es til tambin incluir preguntas que demanden informacin cualitativa sobre los tems lo que puede facilitar un mejoramiento en el fracaso de algunos de ellos.

1.6. Anlisis y Seleccin de tems

Siguiendo a Tornimbeni et al. (2004) podemos afirmar que existen varios procedimientos de anlisis de los tems de una prueba preliminar. Todos ellos se ocupan esencialmente de: a) la distribucin de los puntajes de cada tem y b) la relacin estadstica entre el tem y la prueba total.

Segn Klline (2000) el anlisis factorial es un mtodo estadstico en el cual las variaciones en los puntajes de un nmero de variables son explicadas por un nmero ms reducido de dimensiones o constructor (factores). El anlisis factorial es una tcnica analtica que permite reducir un nmero extenso de variables interrelacionadas a una cantidad pequea de dimensiones latentes. (Glutting et al. 2002)

2. ADAPTACIN DE LOS TESTS 2.1. Mtodos de Adaptacin de los Test Actualmente se reconoce que la adaptacin de un Test es un proceso mucho ms complejo que la mera traduccin de ese test en un idioma diferente. Una adaptacin implica considerar no slo las palabras utilizadas al traducir la prueba sino tambin las variables culturales involucradas.

Van de Vijver y Leung (1997) establecieron tres niveles de adaptacin de las pruebas psicolgicas.

El primero corresponde al de la aplicacin, este es, la simple y llana traduccin de un test de un idioma a otro.

La segunda alternativa es la adaptacin. En este caso a la traduccin se agrega la transformacin, adicin o substraccin de algunos tems de la escala original.

Finalmente, la opcin ensamble puede emerger al momento de adaptar un instrumento de evaluacin psicolgica. En este caso el instrumento original ha sido modificado tan profundamente que prcticamente se ha transformado en un nuevo instrumento original con los nuevos elementos. Esto ocurre cuando muchos de los tems del test original son evidentemente inadecuados para representar el constructo a medir.