SICOMETRIApaidagogos.co/banco_pruebassaber/Examen estado 2000 - Sicometria.pdf · Terman, profesor...

Sicometria

Revolución educativa en marcha¡La educación ya! Asunto de todos

Psicometria

Sicometria

8

Sicometria

UNA BREVE HISTORIADE LA PSICOMETRÍA

Son las 5:00 a.m. de 138 a. c. Aún está a tiempo Yu Chen. Sin prisatermina de colocarse su vestido de seda, el mejor que tiene. El hecho de estardespierto desde las 3:00 a.m. no le preocupa mucho puesto que los ejerciciosde meditación le hicieron descansar. Ya no era tiempo de preocupaciones, nide arrepentimientos, todo estaba hecho. Salió de su casa como cientos demiles de personas en toda China que, como él, guardaban esperanzas decontribuir al emperador HAN para que realizara un mejor gobierno en elImperio.

No fue el primero en llegar al sitio indicado. Un rato después ingresaronen orden riguroso de acuerdo con la inscripción que habían realizadopreviamente y fueron llevados inmediatamente a sus cubículos personales;aquel pequeño lugar que lo albergaría durante 24 horas. Yu Chen se preparó.Colocó la pequeña caja con plumas y tinta encima de la tabla donde escribiría,en donde encontró suficiente papel de arroz para escribir sus respuestas alas preguntas del maestro.

Todos esperaban nerviosos el momento de empezar. Todos querían dar lomejor de sí para apoyar el trabajo de su emperador en el Distrito que fueranecesario. A las 8:00 a.m. el maestro director empezó a dictar la primerapregunta:

Describa la producción agrícola de la región, enfatizando lascondiciones que la favorecen y los cambios necesarios paragarantizar una mejor y mayor producción, con sus consecuencias acor to, mediano y largo plazo, incluyendo las transformacionesadministrativas, humanas y técnicas�A Yu Chen no le pareció muy difícil. Le tomaría unas 4 horas el

responderla, pero la podría abordar.

Luego de escuchar la sexta pregunta (componer un poema a su región) calculóque tendría muy buenas posibilidades de ingresar al servicio civil delemperador y se dio a la tarea de iniciar aquello para lo que se había preparado

9

Sicometria

casi toda la vida.odríamos decir que la educación existe desde el inicio dela humanidad y que la evaluación aparece desde elcomienzo de la educación. Por esto no es raro encontrarcasos de evaluación educativa en toda la historia de la humanidad yen todas las diversas prácticas educativas que se han desarrollado.Igualmente, la educación se ha venido realizando en diferentesniveles y en cada uno de ellos la evaluación ha adquirido sus propiascaracterísticas que la hacen diferente en cada uno; es así como sepuede hablar de la evaluación en el aula de clase como diferente dela realizada en el ámbito institucional.Es en China de la antigüedad en donde podríamos encontrar lamayor cantidad de ejemplos de evaluación educativa antes de laépoca moderna. La historia al respecto se remonta a 2200 añosA.C.1 cuando el emperador Chino de la dinastía Shang, hacía quesus funcionarios presentaran pruebas para determinar si eran aptoso no para desempeñarse en el servicio civil. Esos exámenes serefinaron hasta que se introdujeron las pruebas escritas en la dinastíaHan (202 a. c. hasta 200 d. c.), fecha en la cual se empezaron aevaluar cinco tópicos:▲ Ley civil▲ Cuestiones militares▲ Agricultura▲ Impuestos▲ GeografíaPara evitar que el calificador hiciera trampa al otorgar mejorresultado a sus conocidos (reconociendo la escritura), las pruebasse reescribían por escribanos contratados especialmente para laocasión.La evaluación en China tomó su forma más compleja a partir de1374 hasta la dinastía Ch´ing (1644 - 1911)2 , en donde, además delos temas anteriores, se enfatizaba el conocimiento que se teníasobre las ideas de Confucio. Los candidatos a ocupar cargos públicos

1 DuBois, P. H. (1970). History of Psychological Testing. Boston. Allyn & Ba-con.2 Greaney, V. Y Kellaghan T. (1995) Equity Issues in Public Examinations inDeveloping Countries. Washington. World Bank3 DuBois P. H. Op. Cit.

10

Sicometria

pasaban por tres etapas de evaluación3 :▲ La primera duraba un día y una noche. La persona debía es-cribir ensayos sobre temas predeterminados y un poema.Pasaban entre el 1% y el 7% de quienes se presentaban.▲ Las evaluaciones del nivel de exámenes de distrito tenían lasmismas características de la anterior pero eran más rigurosasy extenuantes (duraban tres días con sus noches). Pasabanente el 1% y el 10% de quienes alcanzaban este nivel.▲ Los que pasaban las etapas anteriores se presentaban enPekín a la evaluación final. Sólo pasaba el 3% de quienes sepresentaban.

Durante ésta última etapa de evaluación en la china imperialacontecieron cier tos sucesos que resultan curiosos desde unaperspectiva como la del actual Examen de Estado colombiano. Dosgrandes expertos chinos en evaluación, en el siglo XVII, Ku Yen-wuy Huang Tsung-his, llamaban la atención al hecho que la impresióncomercial de libros (apenas en sus comienzos) podría influirnegativamente en la educación en el sentido de favorecer lamemorización en comparación con otras ar tes intelectuales; suconsecuencia funesta: una menor calidad en las respuestas a losexámenes para ingreso al servicio civil.Esta suposición se vio confirmada por la gran proliferación delibros relacionados con los exámenes en donde se incluían ejemplosde los ensayos presentados por algunos candidatos. Una prácticacomún durante estos siglos fue la creación de escuelasespecializadas para preparar a los candidatos a presentar losexámenes; las regían intelectuales muy reconocidos pero que nohabían tenido éxito en los exámenes. Tal vez el reconocimiento sedebía a los libros que escribían sobre cómo interpretar los clásicosde la literatura china de tal forma que pudieran obtener buenosresultados.Inclusive se presentaron un par de escándalos en los siglos XVIy XVII. En 1595, la persona que obtuvo el segundo lugar habíacopiado fragmentos de ensayos que aparecían en los libros depreparación para el examen. En 1616, quien ocupó el primer lugarfue descalificado debido a que había copiado totalmente el ensayode T�ang Pin-yin con el que obtuvo el primer lugar en 1595 y que

11

Sicometria

apareció en uno de los libros de preparación para el examen.Pero no todo es malo. Estos exámenes influyeron notablementeen el desarrollo intelectual del imperio Chino y en la divulgación delas ideas a través del material impreso más allá de lo poco que podíaimprimir el estado. Benjamín Elman (miembro del consejo de estudiosasiáticos de la Universidad de Harvard) argumenta que �los exámenesfueron una obra maestra de la producción social, política y culturalque mantuvieron cohesionada a China durante 400 años� en una delas más importantes dinastías de la historia.Adicionalmente, el sistema chino de evaluación influyónotablemente en la aparición de pruebas escritas en las escuelaseuropeas en el siglo XVI y, un par de siglos más tarde, se instituyeronen Europa sistemas de selección a la universidad y al servicio civil,que recordaban las prácticas desarrolladas en China. Estosexámenes públicos han sido una característica esencial de lossistemas educativos europeos desde entonces, quienes llevaron laidea a sus colonias en África, Asia y el Caribe. Hoy en día son unapráctica muy frecuente en la mayoría de los países y una fuente ricade información para la transformación de los sistemas educativos.Estas ideas, en conjunción con la aparición de la psicología ex-perimental, son lo que da la forma actual a la evaluación educativa.En la segunda mitad del siglo XIX, Wilhelm Wund funda el primerlaboratorio de psicología en Leipzig (1879) y experimenta con su

metro de pensamiento un aparato que pretendía establecer ladiferencia entre lo percibido por un sujeto y lo que acontece en larealidad. Sus resultados aportan esencialmente al concepto demedición de las diferencias individuales lo que contribuyóposteriormente al desarrollo del uso de pruebas en psicología paraevaluarlas.Casi de inmediato se desarrolla la medición psicológica conocidacomo la Epoca de Cobre debido al material del cual estaban hechosla mayoría de instrumentos de medición, cuyos principalesexponentes son Sir Francis Galton en Gran Bretaña y James McKeenCatell en Estados Unidos.Sir Francis Galton establece, en 1884, el primer laboratorio depsicometría. Allí se encuentran una serie de instrumentos que midendos aspectos del ser humano, considerados como esenciales por laciencia de entonces:

12

Sicometria

▲ Aspectos FísicosEstatura, peso, longitud de la cabeza, longitud de los brazos expandidos, longitud del dedo medio de la mano, longitud del antebrazo, etc.▲ Aspectos ConductualesFuerza de la mano para exprimir (medida con un dinamómetro), ca-pacidad vital de los pulmones (medida con un espirómetro), el to-no más alto percibido, el tiempo de reacción a estímulos visuales y auditivos, agudeza visual, etc.

Luego, en 1890, James M. Catell, alumno de Galton y dedicado ala medición de diversos aspectos del ser humano, utiliza, por primeravez, las palabras �Test Mentales� relacionadas con 10 pruebas quepropone aplicar al público en general. Algunas de las pruebas deCatell se mantienen en la tradición de medición de Galton, como porejemplo, la fuerza requerida para exprimir, el tiempo de reacción aun sonido, el tiempo utilizado para nombrar colores, el grado depresión necesaria para ocasionar dolor4 , sensibilidad a la diferenciade pesos, entre otras.A partir de estos trabajos, se presenta un especial desarrollo dela psicometría en estudios de evaluación del ser humano que seoriginan especialmente en el sistema educativo, que dan comienzoa la nueva época en evaluación conocida como de pruebas (test-ing). La primera evaluación de este tipo se realiza en Francia en19055 . La Sociedad Libre para el Estudio Psicológico del Niño seencontraba interesada en mejorar la efectividad y eficiencia de lasescuelas identificando las causas del fracaso escolar. Desde superspectiva consideraban que había dos clases de niños quefracasaban: aquellos que podían aprender pero no lo hacían yaquellos que no podían aprender. Alfred Binet, quien se encontrabavinculado con la sociedad mencionada en la época (1904), se dio ala tarea de determinar si el bajo nivel académico de un niño se debíaa retardo mental o a alguna otra causa.

4 Galton había mostrado que personas retardadas mentales eran relativamenteinsensibles al dolor, lo que llevó a Catell a asumir que la sensibilidad al dolorera buen predictor de la inteligencia5 Thorndike, R. (1997). The Early History of Intelligence Testing. En Contem-porary Intellectual Assessment. New York. The Guilford Press

13

Sicometria

En 1905, un comité formado por el ministerio público francés, eintegrado por Binet y otros miembros de la sociedad mencionada,presentaron la escala Binet-Simon, de 30 tareas cortas, ordenadaspor dificultad. El nivel intelectual del niño se definía por la tarea másdifícil que pudiera ejecutar correctamente. El cociente intelectual,que introdujo más tarde el propio Binet, relaciona este nivel dehabilidad con la edad.En la prueba de Binet se medían elementos generales deldesarrollo del niño a través de un conjunto de tareas heterogéneas.En 1908 y 1911 se hicieron correcciones a la prueba original y seintrodujo el concepto de C. I. (Cociente intelectual). En 1916, LewisTerman, profesor de la universidad de Stanford, hace una revisión afondo de esta prueba que se conoce actualmente como Stanford-Binet. Su última revisión se realizó en 1986.El siguiente paso importante en el desarrollo de la evaluación fuela posibilidad de aplicación de pruebas a grupos grandes de perso-nas. Hasta ese momento las pruebas o evaluaciones importadas deFrancia, eran esencialmente de aplicación individual o, en algunoscasos en que se podían aplicar a grupos, la calificación dependíadel juicio del examinador. Con el ingreso de Estados Unidos a laprimera guerra mundial se desarrolló a pasos agigantados laposibilidad de aplicación y calificación masiva de pruebas.En esa época el gobierno de estados unidos encomendó a Rob-ert Yerkes la evaluación de inteligencia de 1.750.000 nuevos reclutas.Yerkes formó un comité que desarrolló los conocidos Army Test (Al-pha y Beta). El test Alpha se basó en trabajos no publicados de Otisy consiste en ocho subpruebas:▲ Seguimiento de instrucciones orales▲ Razonamiento aritmético▲ Razonamiento práctico▲ Sinónimos - antónimos▲ Oraciones en desorden▲ Series de números▲ Analogías▲ InformaciónLa noción de pruebas de lápiz y papel, el esquema de evaluación

14

Sicometria

desarrollado para los Army test, se aplicó, inmediatamente despuésde la primera guerra mundial, en la industria y en la educación6 . Sedesarrollaron pruebas que se aplicaron a millones de personas du-rante la década del 20, como el National Intelligence Test. El CollegeEntrance Examination Board, diseña, en 1925, el Scholastic Apti-tude Test (SAT) compuesto de preguntas de selección múltiplerelacionadas con las oraciones incompletas, analogías y secuenciade números. Esta prueba se administraba a los estudiantes quequisieran ingresar a las universidades en Estados Unidos. La funcióndel Board mencionado fue asumida posteriormente por el Educa-tional Testing Service, entidad que ha diseñado, estandarizado yvalidado otras pruebas igualmente conocidas7 .En 1925 se elaboran pruebas en forma de test con preguntas deselección múltiple, lo que contribuye con el desarrollo de cuestionariosde fácil calificación ocasionando el desarrollo de tecnología quepermite la calificación de cuestionarios por medios mecánicos comolas máquinas de lectura óptica inventadas en la década del 30. Estoshechos han marcado especialmente el camino que ha tomado laevaluación educativa en el resto de siglo. En 1957 sucedió un hecho que marcó definitivamente eldesarrollo de la educación y de la evaluación educativa,principalmente en Estados Unidos. La Unión de RepúblicasSocialistas Soviéticas (URSS), lanzó al espacio el primer satéliteartificial en la historia de la humanidad: el Sputnik I; algunos mesesmás tarde lanzó al primer ser viviente: la perra Laika y un poco mástarde al primer ser humano: el soviético Yuri Gagarin; en realidad nodemoró mucho el viaje de la primera mujer Valentina Teleskova8 .Esto llevó a que, de inmediato, se iniciara un cuestionamiento delsector educativo en Estados Unidos, lo que tuvo como consecuenciainmediata la evaluación de sus diferentes componentes: losestudiantes, los currícula, los docentes los programas, la par teadministrativa, etc. Se destinaron enormes cantidades de dinero ala evaluación y a la educación y se promulgaron leyes como la Ley

6 Aiken, Lewis. (1996). Test Psicológicos y Evaluación. México D. F. PrenticeHall.7 DuBois Op. Cit8 Wolf, Richard. (1987). Educational Evaluation. En International Journal ofEducational Research.Vol. 11. Londres. Pergamon Press

15

Sicometria

de Educación Elemental Y Secundaria de 1965, que favorecía eldesarrollo de propuestas educativas en los distritos escolares perosólo si se evaluaban los desarrollo educativas previos. Esto llevó aque los administradores educativos buscaran afanosamente el tipode evaluaciones educativas que se realizaban en la época paraimplementarlas lo más pronto posible. Se echo mano del esquemade evaluación con pruebas objetivas.Toda esta fortaleza que se le dio a la evaluación en educaciónocasionó que se convir tiera en una especialidad de la educacióndesde principios de la década del 60 y que perdiera el sentido quetenía hasta el momento en el contexto educativo: que la evaluaciónforma par te integral del proceso educativo, sentido que estárecuperando en los últimos años.En la década del 60 se retoman tres perspectivas que unidas seconstituyen en el paradigma de la época 9 . El libro de Ralph Tyler(1950) �Principios Básicos del Currículo y la Instrucción�, en el quese propone que la evaluación debe ser parte integral del procesoeducativo y debe hacerse para determinar el grado en el cual unprograma evaluado promueve el logro de objetivos educacionales,es aceptado rápidamente por muchos administradores educativosdebido, principalmente, a su relación con la medición de objetivosobservables que surgió a finales de la década del 50.Estos planteamientos se relacionan con los de Robert Mager(1962) en su libro �Preparando Objetivos para la InstrucciónProgramada�, en donde se plantean los criterios para la elaboracióny formulación de objetivos educacionales. Fue tal el impacto de estosdos libros que muchos evaluadores educativos de principios de los60, asumieron que la única forma de evaluar un programa educativo,era constatar si se habían logrado los objetivos educacionalesplanteados en forma medible.El tercer elemento surge de los planteamientos de B. F. Skinner(1958) en su libro �Máquinas de Enseñanza�, donde se planteanprincipios de aprendizaje, establecidos en el laboratorio, para laenseñanza de niños en las escuelas. Esencialmente se plantea la

9 Popham, James. (1987). Two-Plus Decades of Educational Objectives. En:International Journalof Educational Research. Vol. 11. Londres. Pergamon Press.

16

Sicometria

necesidad de dar material instruccional de manera secuencial, conrefuerzos positivos para los aprendices. Los educadores fueronatraídos por la perspectiva de realizar la enseñanza a través demáquinas, debido a la posibilidad de programar la instrucción conmateriales que fueran efectivos para los objetivos planteados.Adicionalmente, se integra, desde el punto de vista de laevaluación, los postulados de Benjamín Bloom (1956) que aparecenen su libro �Taxonomía de los Objetivos Educacionales: volumen I, elDominio Cognitivo�, en donde se plantean las categorías cognitivasrelacionadas con el aprendizaje educativo: información, comprensión,aplicación, análisis, síntesis y evaluación.Estas categorías, en conjunto con la propuesta de Tyler 10 deevaluar los objetivos educacionales, forman par te de la culturaevaluativa occidental en el aula de clase y se han constituido en eleje principal de la evaluación escolar.Dentro de este contexto, y gracias a la inyección económica parael desarrollo de la evaluación educativa, aparecen otrosplanteamientos que contribuyen a grandes avances en relación conel concepto mismo de evaluación y con los procedimientos pararealizarlos. Una de estas miradas es la que plantea Robert Glaser(1963) en su documento �Tecnología Educativa y la Medición delAprendizaje�. Plantea que la evaluación implica una comparación yque esta comparación puede darse de dos maneras diferentes:

▲ Interindividual. Los resultados de una persona (o una ins-titución, o programa) se comparan con los resultados de lasdemás personas que presentan la evaluación con ella. Lasinferencias se hacen a partir del porcentaje de personas quese supera.▲ Intraindividual. Los resultados de una persona se comparancon lo evaluado. Las inferencias se hacen a partir de lo quela persona puede o no hacer.

El primer tipo de comparación es conocido como Evaluación conReferencia a la Norma y el Segundo como Evaluación con Referencia10Tyler es el primero en utilizar el concepto AEvaluación Educativa@, encontraposición con el deMedición Educativa.

17

Sicometria

a Criterio. Desde ese momento hay una verdadera explosión depruebas que evalúan con referencia a criterio, puesto que se supone,dan mejor información desde el punto de vista educativo. Sólo habíaun problema, los modelos matemáticos utilizados para el análisis dedatos, no permitían un manejo matemático efectivo de los resultadosde las pruebas. Durante muchos años se desarrollaron índices, conproblemas ya sea conceptuales o matemáticos, para abordar laproblemática plateada por este tipo de evaluación. Sólo a finales dela década del 70 se hace pública la Ítem Response Theory (TeoríaRespuesta Pregunta) cuyos modelos matemáticos logit han dadobuena cuenta de la Evaluación con Referencia a Criterio.A finales de la década del 60, Michael Scriven (1967), en suartículo �La Metodología de la Evaluación�, establece la diferenciaentre lo que es evaluación sumativa y evaluación formativa. Antetodo plantea que la meta del evaluador es emitir juicios bieninformados y que lo esencial del proceso evaluativo es un juicio devalor. Para él, las dos funciones mencionadas se realizan para calcularel valor del objeto luego de estar completamente desarrollado(evaluación sumativa) y para ayudar a desarrollar los objetos(evaluación formativa).Los anteriores son sólo dos casos que reflejan el impacto de lasconcepciones de los 60 en la evaluación educativa y en la educaciónmisma y que han guiado el desarrollo de la evaluación luego de suaparición, tanto que aún hoy se reflexiona sobre esos tópicos.Todas esta discusión se cristaliza en diferentes sistemas deevaluación en diferentes niveles, desde el de aula de clase que adoptala evaluación a través de pruebas objetivas, pero sin la parafernaliatécnica en la mayoría de los casos, hasta los sistemas de evaluaciónnacionales e internacionales.Dada la necesidad de racionalizar el gasto y la inversión eneducación y de redireccionarlo a los elementos que realmente afectanla calidad de la educación, se resalta el papel de la evaluación comogeneradora de información para orientar los sistemas educativos.Esto hace que no sólo se busque averiguar que tanto sabe unmuchacho sino una serie de elementos que puedan estarrelacionados con un mayor rendimiento en las pruebas y escudriñar,así, todo el contexto educativo para tratar de entenderlo.En 1970, la International Association for the Evaluation of Edu-cational Achievement (IEA), realizó la primera evaluación internacional

18

Sicometria

de ciencias naturales (FISS). Esta evaluación aportó informaciónimpor tantísima en relación con el cumplimiento de las metaseducativas en los países par ticipantes, de tal manera que alretroalimentar al sector, se evidenciaron cambios que redundaronen el desarrollo de políticas particulares.Esta misma organización realizó la segunda evaluacióninternacional en ciencias entre 1979 y 1988 (cuando presentó losresultados finales), conocida como SISS. Esta segunda evaluaciónse realizó sobre 57 tópicos de contenido, para cada uno de los cualesse midieron 3 tipos de habilidades:▲ Conocimiento▲ Comprensión de un principio▲ Aplicación de la información y de los principios a la resoluciónde problemas.Las pruebas se aplicaron a 3 poblaciones diferentes: 10 años y4° grado, 14 años y 9° grado y a los estudiantes de último año deeducación media. En esta evaluación se utilizan cuestionarios querecogen datos de variables potencialmente asociadas al logro delos estudiantes.Durante la presente década, la IEA realizó la tercera evaluacióninternacional (TIMSS) de ciencias naturales incluyendo el área dematemáticas en esta ocasión. Se espera que cada uno de los 41países par ticipantes profundice en los resultados para lograr loscambios que se propone. Este estudio es de investigacióncolaborativa entre diferentes instituciones y tiene su centro en TheCenter for the Study of Testing, Evaluation and Educational Policydel Boston College.En 1988, el Educational Testing Service (ETS) inicia la primeraEvaluación Internacional del Progreso Educativo en matemáticas yciencias (IAEP I) 11/ 12/ 13 .

11 Es casi una ampliación del National Assessment of Educational Progressque realiza el ETS en Estados Unidos. Inclusive se utilizaron preguntas delBanco de Items en la evaluación Internacional.12 Lapointe, A., Mead, N. y Phillips G. (1988) A World of Dif ferences. ETS.13Bertrand, R. Dupuis, F. (1989). A World of Dif ferences. Technical Report.Université Laval.

19

Sicometria

El enfoque de estas pruebas es esencialmente con referencia acriterio, identificando niveles de habilidad en la población evaluada,por ejemplo, en matemáticas y para la población de 13 años, estosniveles son:▲ Sumas y restas simples▲ Uso de operaciones básicas para resolver problemas▲ Uso de habilidades matemáticas para resolver problemasde dos pasos▲ Comprensión de los conceptos de medición y geometría yresolver problemas más complejos▲ Comprensión y aplicación de conceptos matemáticos másavanzadosEn esta primera evaluación par ticiparon 12 poblaciones de 9países y se utilizaron cuestionarios para recolectar información defactores que potencialmente se relacionan con el logro educativo.En 1994 se realiza la IAEP II con la participación de 24 poblaciones.

20

Sicometria

xiste un tercer sistema internacional de evaluacióneducativa el Laboratorio Latinoamericano de Evaluaciónde la Calidad de la Educación (LLECE) cuyos objetivos�consisten en generar estándares regionales, establecer un sistemade información y de diseminación de los avances en relación conellos, desarrollar un programa de investigaciones sobre las variablesasociadas a la calidad de la educación básica y fortalecer la capacidadtécnica de los ministerios de educación en el área de evaluación dela calidad de la educación. Además, realizar estudios comparativossobre calidad de la educación en lenguaje y matemáticas y promoverestudios internacionales sobre temas especiales�14 .De los tres sistemas internaciones mencionados, los dos primerosse han vinculado, decididamente, con la tercera época de evaluacióneducativa que involucra en la discusión diversos elementos dediferentes disciplinas que han llevado a la propuesta de evaluaciónalternativa, planteada como una verdadera alternativa a las prácticasde evaluación en el aula de clase a través, únicamente, de test derendimiento académico.En 1989 Robert Glaser15 propone como conclusión de diversastendencias de investigación en educación, la evaluación decompetencias, entendidas estas como la puesta en práctica ensituaciones de la vida cotidiana, de lo aprendido en la escuela. Estaconcepción se deriva directamente de las tendencias de la psicologíaen relación con la cognición humana, especialmente a partir de lostrabajos de Howard Gardner relacionados con la inteligencia del serhumano y supera las concepciones de la época (inicios de la décadadel 80) que relaciona la competencia con la eficiencia y efectividaden relación con los estándares de calidad establecidos16 .A par tir de este momento y durante toda esta década, seprofundiza en el concepto de evaluación educativa y su integracióne interacción con todo el contexto educativo y se involucran conceptoscomo los de evaluación de competencias, evaluación alternativa 17 ,

14 UNESCO. (1997) Documentos 1. Marco Conceptual. Santiago Chile15 Glaser, R. (1989). New Conceptios of Achievement and Reasoning.En International Journal of Educational Research. Londres. Pergamon Pres16 Measuring Competence: defining Per formance and Mastery17 Worthen, B. (1993). Critical Issues That will Determine the Future of Alter-native Assessment. En: Phi Delta Kappan.

21

Sicometria

evaluación con por tafolios, evaluación auténtica, evaluación deejecuciones, todos relacionados con aspectos cualitativos de laevaluación.El desarrollo de estas perspectivas implica la vinculación de loselementos cognitivos en la evaluación tales como la resolución deproblemas, la creatividad, el pensamiento crítico, entre otros, historiaque aún se encuentra en pleno desarrollo.También existe una historia de los desarrollos técnicos y teóricosrelacionados con la medición de atributos del ser humano. Entérminos generales, la psicometría ha abordado el problema desdedos perspectivas teóricas: la Teoría clásica de los test (mucha de suhistoria la acabamos de ver) y la Teoría Respuesta al Item (IRT).Esta última surge como consecuencia de los problemas que noresolvió la Teoría Clásica de las Pruebas (TCP) como son: el diseñode test, la identificación de preguntas sesgadas o conFuncionamiento Diferencial y el equating (comparabilidad) entre lospuntajes de pruebas.Como dicen Hambleton y Swaminathan (1985) la TCT no proveeinformación acerca del lugar, en la escala de puntajes, de máximadiscriminación de los items, tampoco ha tenido éxito en detectar elsesgo de las preguntas. Debido a esta y otras razones, en los últimostiempos se han desarrollado aproximaciones teóricas que sean másapropiadas para solucionar los problemas en la medición de atributosdel ser humano.El propósito de cualquier teoría de la medición es �describir laforma en la cual pueden hacerse inferencias, a par tir de lasrespuestas de una persona a unas preguntas, de características noobservables de los examinados, o rasgos medidos por un test� 18 .Las propuestas desarrolladas en el presente se agrupan alrededorde la Teoría Respuesta al Item TRI, como se conoce hoy en día.La historia de esta teoría y sus planteamientos no es tan reciente.Ya para 1936 se planteaban algunos conceptos como el de parámetroy se establecían relaciones con la TCT. Un empujón bastante fuer tea estos modelos lo dio Frederick Lord en 1952 en su tesis dedoctorado donde describe el modelo de ojiva normal de dosparámetros, seguido por la propuesta de Birbaum en el sentido de

18 Hambleton y Swaminathan (1985). Item Response Theory.Kluwer. Boston.

22

Sicometria

sustituir los modelos logísticos por los de la ojiva normal con sucorrespondiente tratamiento estadístico.En 1960 Georg Rasch, un matemático Danés, da otro giro a laproblemática general de la medición educativa al plantear su modelologístico de un parámetro o modelo simple., que aparece en el libroProbabilistic Models for some Intelligence and Attainment Test. Sutrabajo influye en diversas personas relacionadas con la psicometríaquienes lo desarrollan y popularizan, entre quienes encontramos aWright en Estados Unidos, Andrich en Australia, Andersen en Europa,Choppin en Inglaterra.Durante la década del los 70, se lleva a cabo la gran divulgaciónde estos modelos. Su dificultad principal radica en la complejidad delos modelos matemáticos empleados y en la imposibilidad dedesarrollarlos manualmente, a diferencia de los de la TCP. Es poresto, quizás, que debiera esperarse a la aparición de loscomputadores personales para que en realidad se difundieran amuchas personas. Instituciones como el ETS (Educational TestingService) contribuyen a la reflexión sobre el uso de esta teoría deforma amplia.Es indudable la contribución que los manejos conceptuales ymatemáticos de la IRT han tenido en la medición educativa,especialmente y en la medición psicológica en general. La literaturadisponible en la actualidad es bastante amplia y el sof t wareespecializado para los procesos estadísticos es bastante preciso,de muy buena calidad y funcional. En los diversos estudiosinternacionales como el TIMMS o el IAEP, el estudio de Cívica yDemocracia de la IEA y en evaluaciones realizadas por diferentespaíses como el NAEP en Estados Unidos, las pruebas de logrocognitivo de Colombia, el SIMECAL en Bolivia, el SIMCE en Chile,las evaluaciones nacionales en Australia, las evaluaciones deHolanda, Dinamarca y muchas otras, se utiliza decididamente algúnmodelo de la IRT para el análisis de item, el análisis de prueba, lageneración de escalas de calificación y los sistemas de resultadosespecíficos, lo que ha permitido abordar situaciones de evaluaciónmucho más complejas que las que puede resolver la TCP, como laintegración de procesos cualitativos a la medición.Aun hay mucho que decir sobre las posibilidades de uso de lamedición y evaluación educativas y sobre las perspectivas que sepresentan hacia el futuro. Esa historia aún se está escribiendo.

23

Sicometria

TEORIA CLASICA DE LAS PRUEBAS (TCP)ómo se ha mencionado, existen dos marcospsicométricos:

❍ Teoría Clásica de los Test (TCT)❍ Teoría Respuesta al Item (TRI)

La TCP asume que se pueden construir formas paralelas de unaprueba19 , esto es que midan y evalúen de la misma forma. Seconsidera que, aunque las formas tengan diferentes preguntas, elhecho de hacer semejantes los índices de dificultad y discriminaciónde los items, garantiza una medición igual con ambas formas(confiabilidad), lo que no permite concebir que una prueba tengamás de una confiabilidad.Desde el punto de vista de la Teoría de la Generalizabilidad existeun universo de items a partir del cual, con procedimientos aleatorios,se pueden seleccionar diferentes grupos de ellos, lo que hace posibleque las diferentes formas tengan diferentes confiabilidades. Es más,para una misma situación de prueba, los puntajes pueden tenermuchos índices de generalizabilidad dependiendo de los factoresque afectan el proceso de medición.La TCP, que es una forma especial de la teoría de lageneralizabilidad en la cual las preguntas de una prueba no seseleccionan de un universo sino que se construyen para ajustarse aél, insiste en la posibilidad de formas paralelas lo que le impideacomodar la noción de que una prueba tenga más de un índice degeneralizabilidad: la confiabilidad.Uno de los problemas centrales que aborda la TCP20 se refiere ala estimación del puntaje en el universo de preguntas. Se trata deestablecer el puntaje de una persona como si hubiera respondido aluniverso total de preguntas. Como este universo es infinito, esnecesario hacer una estimación de ese puntaje, el cuan tendrá ciertacantidad de error.El desempeño de una persona en un conjunto de items de una

19 Isaac Bejar. (1983). Achievement Testing. Recent Advances. SAGE. NewburyPark.20 Ibidem

24

Sicometria

prueba puede observarse a partir del puntaje, que es la suma de lospuntajes en cada uno de los items individuales21 . La proporción derespuestas correctas, si las preguntas se han obtenido aleatoriamentedel universo, es un estimador insesgado de la proporción depreguntas en el universo que una persona puede respondercorrectamente. De esta forma sería posible conocer el rendimientode una persona en una disciplina particular, medido a través de unaprueba, a partir de las respuestas que dé a cualquier conjunto deitems (la prueba) obtenido aleatoriamente del universo de preguntas.Esperaríamos que el resultado en cualquiera de estos conjuntosfuera semejante. Aquí lo importante es la validez de contenido. Peroeste no es el caso en la TCT, debido a que los items se construyende acuerdo con intenciones particulares.Estas mediciones no pueden hacerse sin algún error que provienede diferentes fuentes, como las variaciones propias de las condicionesde aplicación de pruebas, las diferencias en las formas de las pruebas,las variaciones en las ejecuciones de los estudiantes, y otros factoresdesconocidos.Supongamos que aplicamos una prueba repetidamente a unamisma persona (pensemos que las mediciones son independientesunas de otras y que son idénticas; esto es que la estructuraprobabilística del experimento no cambia de una aplicación a otra).Podríamos decir que el puntaje de la persona en las diferentesaplicaciones corresponde a su �puntaje observado�, mientras que elvalor esperado, calculado a par tir de estas obser vaciones lollamaremos �puntaje verdadero�. El error correspondería a ladiferencia entre el puntaje observado y el puntaje verdadero22 .

ea = xa - ttttt a

La variable error tiene una varianza a la que se le denomina�varianza de error para el examinado a�,21 Lord, F. Y Novick, M (1968). Statistical Theories of Mental Test Scores.Addison-Wesley. Massachuset ts.22 �La tradición psicométrica ha nombrado a esta entidad como �puntajeverdadero� aunque no posee ninguna propiedad empírica o teórica quesugiera esta terminología. Es un valor esperado, nada más o menos�. Novick,M y Jackson, P. (1974). Statistical Methods for Educational and Psychologi-cal Research. McGraw-Hill. New York.

25

Sicometria

s 2(Ea)

cuya raíz cuadrada corresponde al �error estándar de mediciónpara el examinado a�

s (Ea)

que es una medida de la variabilidad de la distribución.Como

ta

es una constante, tenemos ques (X

a) = s (E

a)

esto es que el error de medición es un índice de la exactitud en lamedida. Si el error estándar de medición tiene una magnitud pequeñasignifica que el puntaje observado es muy semejante al puntajeverdadero. Debemos recordar que el significado de la magnitud seencuentra en relación con la escala de medición utilizada.La mayoría de las discusiones en la teoría de las pruebas, secentran en la distribución de resultados de un conjunto de personasy no de un solo individuo, como en el caso que acabamos depresentar.Dada una población de examinados, cada uno de los cuales tieneun puntaje verdadero, se puede definir una variable T asociada conla distribución de dichos puntajes. Podemos asumir que éstadistribución tiene un cierto promedio y una cierta varianza. De formasimilar podemos considerar los puntajes de error E, cuyo promedioserá cero (0), ya que el promedio de los errores de cada persona escero. Finalmente podemos considerar los puntajes observados X, elpromedio de su distribución será igual al promedio de los puntajesde los examinados.De lo anterior se sigue que:

X = T + E

26

Sicometria

Que corresponde a la ecuación básica de la Teoría Clásica de lasPruebas (TCP): el puntaje observado es igual al puntaje verdaderomás el puntaje de error.Lo anterior nos lleva a plantear los supuestos básicos de la TCP23 :

1. El puntaje observado es igual al puntaje verdadero más el pun-taje de error.2. El valor esperado del puntaje de error es cero.3. La correlación entre los puntajes de error y verdadero es cero.4. El promedio del puntaje verdadero es igual al promedio del pun-taje observado5. La varianza del puntaje observado es igual a la varianza delpuntaje verdadero más la varianza del error.6. La regresión del puntaje de error en el puntaje verdadero es li-neal y con valor constante de cero.Todos estos supuestos tienen relevancia sólo en el contexto deuna población específica ya que ésta se constituye en un eventocondicionante.

DEBILIDADES DE LA TCPxisten diversos aspectos de la TCP que pueden considerarsecomo debilidades en el contexto de la medición educativa yque mencionaremos a continuación.

A - Los valores de las estadísticas de items y test dependende la muestra de examinados.

En el análisis clásico de items el interés se centra en la descripciónestadística de cada uno de ellos, considerados como las unidadescon las cuales se construye una prueba. El requerimiento básico pa-ra un parámetro de item es que tenga una relación definida a alguna

23 Ibídem

27

Sicometria

característica del puntaje total24 . Adicionalmente, las característicasestadísticas de un test considerado en su conjunto dependen de lascaracterísticas estadísticas particulares de cada item, lo que nospermitirá construir pruebas con propiedades de medición conocidasy en algunos casos óptimas.Como se colige de lo anterior, es importante, en el diseño depruebas, contar con estadísticas que describan los items de tal formaque se puedan elegir los mejores para conformar la prueba definitiva.Estos estadísticos se obtienen a partir de aplicaciones piloto o deensayo con muestras representativas de la población a la cual seaplicará la prueba en forma definitiva. Con las palabras �muestrasrepresentativas� se alude a grupos de personas en los cuales lasestadísticas de los items permanecerán invariables. No hay utilidadsi en un pilotaje o ensayo se obtienen ciertos estadísticos que notendrán ninguna relación con la aplicación en la población definitiva.Los parámetros considerados en la TCP son la dificultad del item,su poder de discriminación y su validez25 .

DIFICULTAD DEL ITEMlgunos autores utilizan el término de nivel de facilidad deuna pregunta en lugar del de dificultad por cuanto permiteapreciaciones directas a partir de la lectura del número quela expresa, el cual va de cero (0) a uno (1). El índice de dificultadhace referencia al grado en el cual una población la respondecorrectamente. Por esto se define a par tir de una población deexaminados y corresponde a la proporción de individuos que re-sponde correctamente el item. Las inferencias se hacen sobre losestimados de dificultad de la pregunta a los parámetros de dificultadpara una población bien definida. La inferencia es a un grupo depersonas26 .

Se calcula por medio de:Donde:24 Lord, F. y Novick, M (1968). Statistical Theories of Mental Test Scores.Addison-Wesley. Massachuset ts.25 Ibidem26 Hambleton, R. y De Gruitjer, D. Applications of item response models tocriterios referenced test item selection. Journal of Educational Measurement.Vol. 20 N° 4.

Pi = S S S S S UiN

28

Sicometria

Pi = índice de dificultad de la preguntaUi = respuestas a la preguntaSi la respuesta es correcta, Ui = 1Si la respuesta es incorrecta, Ui = 0N = total de personas que abordan la preguntaEl índice de dificultad es mayor si la muestra tiene habilidad mayorque el promedio de habilidad en la población.Hoy en día, diversos autores consideran que este no es en realidadun índice de dificultad del ítem sino que es un índice que nos informasobre la población y por lo tanto lo llaman �proporción de respuestas

correctas�. Pero como dicen Stenner, Smith y Burduick �la tradiciónprevalece�.

DISCRIMINACION DEL ITEMs la varianza, que en una variable dicótoma se puede expre-sar en términos de la proporción de personas que respondeincorrectamente una pregunta 27 . Se calcula a partir de:

sssss i2 = piqiDonde:

pi = índice de dificultad de la preguntaqi = 1 - piEs claro que la magnitud de la varianza es determinada porcualquiera de los dos valores p ó q; también lo es que el valor máximoes de .25 que ocurre cuando p y q valen 0.5 cada una, y este valordisminuye a medida que p ó q se desvían de este punto. Al producirseuna varianza grande, la incer tidumbre respecto a la puntuaciónverdadera de cualquier persona es mayor.Como depende tan estrechamente de la proporción de respuestascorrectas, si ésta se afecta por la población, la discriminación lo haceen el mismo sentido.

27 Nunnally, J. (1987). Teoría Psicométrica.

29

Sicometria

VALIDEZ DEL ITEMs la correlación biserial puntual entre la respuesta dada aun item y el puntaje obtenido en la prueba, excluyendo elaporte de la pregunta al puntaje total en la prueba. Se haceninferencias a un dominio de contenidos.

Esta correlación es una versión abreviada de la correlaciónproducto momento de Pearson y se usa para especificar el grado derelación que hay entre dos variables, una continua y una dicótoma.Se calcula a partir de:

r1(t - 1)= rt1St - S1

St2 + S12 - 2S

1Strt

1Donde:rt1 =correlación del item 1 con la puntuación total, incluido dichoitemSt = desviación estándard de la pruebaS1 =desviación estándar del item

Esta correlación tiende a ser mayor si se estima en una muestracon personas de habilidad heterogénea.B - La comparación de los examinados se limita a situaciones

en las cuales se les administre el mismo test (o uno paralelo).

Lord (1968) define pruebas paralelas como aquellas que midenexactamente lo mismo, en la misma escala y que miden con la mismaprecisión a cada persona. En términos generales la TCP ha definidocondiciones estrictas para considerar que dos pruebas son paralelas,las cuales incluyen la igualdad de promedios, varianzas y covarianzasen las diferentes formas28 . Cuando dos pruebas difieren ligeramenteen cualquiera de estos aspectos se hace imposible comparar losresultados de las personas que los abordan.28 Embretson, S. 1999. The New Rules of Measurement. Lawrence ErlbaumAssociates. New Jersey.

30

Sicometria

Desde la perspectiva de la TCP, por la razón mencionadaanteriormente, no es posible comparar resultados de personas queresponden a pruebas con nivel de dificultad diferente.Ultimamente ha cobrado fuerza la posibilidad de realizar estudiosde seguimiento para evaluar el impacto de las transformacionesrealizadas en educación (ya sea currículo, prácticas educativas,pedagogía, métodos, etc.). Para ello se requiere recolectarinformación semejante a lo largo del tiempo y compararla con algunametodología especial.En Colombia, el examen de estado vigente a 1999 para ingresoa la educación superior es ideal para realizar un seguimiento puestoque cumple con la condición anterior y, además, es de excelentecalidad técnica, de tal manera que se garantizarían resultadossignificativos. Además, cumple con las condiciones estadísticasmencionadas anteriormente de tal forma que permita lacomparabilidad de resultados año tras año y mantener, de esa forma,la equivalencia de los puntajes. No obstante, el esfuerzo que implicadesarrollar pruebas con estas características limita posibilidades enotros campos.Para realizar la comparación año tras año, se requiere delprocedimiento de equating (de esta manera se podrían ver loscambios en la población para lo que mide una prueba en particular)lo que permitiría concluir si existen verdaderos cambios en algúnaspecto y, si es del caso, encontrar factores asociados con estoscambios. Pero, como se ha mencionado, es difícil, si no imposible enalgunos casos, realizar este procedimiento bajo los preceptos de laTCP.C - La confiabilidad, un concepto fundamental, se define en

términos de formas paralelas de un test.

La TCT asume que se pueden construir formas paralelas de unaprueba29 , esto es que midan y evalúen de la misma forma. Seconsidera que, aunque las formas tengan diferentes preguntas, elhecho de hacer semejantes los índices de dificultad y discriminaciónde los items, garantiza una medición igual con ambas formas29 Isaac Bejar. (1983). Achievement Testing. Recent Advances. SAGE. NewburyPark.

31

Sicometria

(confiabilidad), lo cual impide concebir que una prueba tenga másde una confiabilidad.Teóricamente la confiabilidad se define como la proporción entrelas varianzas de la puntuación verdadera y de la puntuaciónobservada

rxx

= sssss r

2

s s s s s r2

Podemos observar que el coeficiente de confiabilidad es cerosólo si la varianza de la puntuación verdadera es cero, lo que subrayala dependencia de este coeficiente de la muestra de donde seobtienen los datos estadísticos; también se puede observar que elvalor de 1 (máximo) se alcanza cuando ambas varianzas son iguales.Como lo menciona Lord y Novick (1968), estos aspectos sugierenque la confiabilidad, en la TCP, es un concepto genérico que serefiere a la precisión en la medición (equivalencia y estabilidad). Deahí se desprenden los diferentes métodos considerados para suestimación30 :❍ Test � retest. Cuando a una misma muestra de personas seaplica una misma prueba en dos ocasiones diferentes. Laestimación se realiza correlacionando los puntajes obtenidos enlas dos ocasiones. Por ser la misma prueba, el paralelismo es to-tal. Varios autores plantean que la confiabilidad estimada de estamanera se ve alterado por múltiples fuentes de error que no setienen en cuenta en la estimación como el aprendizaje de lasrespuestas entre las dos aplicaciones, la práctica, la memoria, entreotros.❍ Formas paralelas. Cuando se aplican dos formas paralelas(iguales medias y varianzas) a las mismas personas en el mismomomento. De nuevo la confiabilidad corresponde a la correlaciónentre los puntajes obtenidos. Las diferencias pueden estarocasionadas por el conocimiento específico de los contenidos delas preguntas, el orden de aplicación de las pruebas, la prácticade una prueba a la otra, etc.

30 Mehrens, W. y Lehmann, I. (1982). Medición y Evaluación en la Educacióny en la Psicología. CECSA. México.

32

Sicometria

❍ División por mitades. Es semejante al de formas paralelas. En elpresente caso se aplica una sola prueba pero se obtienen puntajespara dos mitades de ella (en la literatura no es claro el procedimientopara dividir la prueba en dos mitades) y luego se correlacionan lospuntajes. La dificultad principal radica en el procedimiento dedivisión por mitades.❍ Kuder � Richardson. Es una medida de la consistencia internade la prueba (denominada así porque la prueba se aplica una solavez). Es la �correlación media susceptible de obtenerse de todoslos posibles cálculos de división en dos mitades�31 . Dependealtamente de la muestra seleccionada para establecer su valor.❍ Coeficiente alfa. Es una generalización de la anterior y producelos mismos resultados. Fue desarrollado por Cronbach en 1951.D - Presume que la varianza de los errores de medición es la

misma para todos los examinados.

En este sentido, la Teoría Clásica de las Pruebas asigna un mismoerror de medición a todos los puntajes (todas las personas que laabordan). No provee información acerca de la precisión de cadapuntaje.E - No ha proporcionado soluciones satisfactorias a muchos

problemas de medición con pruebas.

Entre esos problemas se encuentra el diseño de pruebas; laidentificación de items con funcionamiento diferencial, lacomparabilidad de puntajes.Las pruebas educativas no tienen un sólo y único propósito sino,más bien, apuntan a solucionar diversas problemáticas de acuerdocon las condiciones particulares en donde se presentan. En estesentido, es impor tante diseñar evaluaciones que respondan adistintas necesidades y que puedan contribuir con información dealta calidad en los diferentes procesos educativos. Esto lleva a pensarque las pruebas se diseñen pensando en estas alternativas ynecesidades de tal forma que existan pruebas distintas paradiferentes necesidades.

31 Mehrens, W. y Lehmann, I. Op. Cit.

33

Sicometria

La Teoría Clásica de las Pruebas, considera que la mejor pruebaes aquella que tiene una mayor varianza y que discrimina mejor alas personas en un punto particular de la distribución (la media). Sebasa en el modelo de la curva normal y por lo tanto exige cier tasparticularidades a la distribución de resultados y a los parámetrosestadísticos estimados a partir de los puntajes de las personas. Desdeeste punto de vista, la TCP no puede abordar pruebas que seapliquen a poblaciones de quienes se esperan resultados condistribuciones diferentes a la normal; casos de alta frecuencia en laevaluación educativa.El funcionamiento diferencial de preguntas (DIF por sus siglas eninglés) hace referencia a que una pregunta pueda ser desventajosaa un grupo cultural específico, en otras palabras, que personas deigual habilidad (con respecto del constructo que mide la pregunta)pero de diferentes culturas muestren o tengan distintas probabilidadesde responder la pregunta correctamente, ocasionando una sub osobre estimación de sus habilidades32

Existen muchos métodos que permiten estudiar el funcionamientodiferencial de las preguntas pero, en general, ninguno derivado dela TCP ofrece resultados satisfactorios.La comparabilidad de resultados en dos aplicaciones diferentesse realiza a través del procedimiento de equating. En algunasocasiones es necesario que los resultados en exámenes de diversotipo sean comparables en el tiempo de tal manera que se puedanmantener criterios en ese intervalo, como por ejemplo en los procesosde admisión universitaria. Como se ha mencionado la TCP puedehacerlo pero sólo si se cumplen ciertas características estadísticasde las pruebas.

32 Jonhson, E. (1990). Theoretical justification of the omnibus measure ofdif ferential item functioning. IAEP data analysis plan.VEALE, J., FOREMAN, D. Assessing cultural bias using foil response data:cultural variation. Journal of Educational Research, 20, pp. 249-258. 1983

34

Sicometria

TEORIA RESPUESTA AL ITEM (TRI)

MODELOS LOGISTICOSEN EVALUACION EDUCATIVA

a medición y evaluación educativas se desarrollan a partirde propuestas de la psicometría33 y toma como fundamentoslos de la teoría general de la medición. En este sentidopodemos mencionar que la medición de alguna variable, establecela relación que existe entre la variable y la observación que se hacede ella, lo que permite hacer inferencias acerca de esa variable enun sujeto en particular. Adicionalmente el modelo utilizado pararelacionar la variable con la observación debe permitir evaluar lavalidez de la medición.La medición en educación, no es, en principio, diferente de otrasclases de medición, excepto en que no hay mucho consenso endefinir cuales son las variables importantes y cuales son las unidadesmás convenientes para hacer la medición.Desde esta perspectiva es fundamental la decisión que se tomeen relación con la prueba a utilizar y sus par ticularidades, lo queimplica elegir o diseñar la mejor prueba para los propósitospar ticulares, abordando todos los elementos relacionados con lafundamentación de la prueba tanto en sus componentes teóricos yconceptuales como empíricos, la población a la cual se aplica, laselección de formatos y medios, el establecimiento de criterios deelaboración de preguntas, entre otros. Igualmente, debe decidirsesobre el modelo de medición que se va a utilizar.En este sentido un modelo de medición �es una función matemá-tica que relaciona la probabilidad de una respuesta correcta a unapregunta con las características de la persona (habilidad) y lascaracterísticas de la pregunta (dificultad)�34 . Es así como el significadode un resultado en una escala par ticular está dado por el constructoo marco conceptual seleccionado y no por el modelo en sí.

33 Tyler, Ralph. (1950). Principios básicos del Currículo y la Instrucción. Eneste libro aparece, pro primera vez el concepto de �evaluación educativa�34 Stenner y otros, 1983

35

Sicometria

Por lo tanto, un modelo de medición debe cumplir las siguientescondiciones:❍ Una persona con habilidad (en términos psicométricos) altatiene mayor probabilidad de éxito en un item que una personacon habilidad baja.❍ Cualquier persona tiene más probabilidad de respondercorrectamente un item fácil que uno difícil 35

Como consecuencia directa del cumplimiento de estascondiciones, se encuentra que cualquier parámetro (habilidad,dificultad, etc.) debe ser estimado (calculado) independientementede los demás parámetros. Esto es, que la habilidad de una per-sona, pueda estimarse independientemente de las preguntasespecíficas que responda puesto que su habilidad es la �misma� enun momento particular sin importar si responde a una prueba difícilo a una fácil, por ejemplo.Toda la información acerca de la habilidad de una personaexpresada en sus respuestas a un grupo de items, se encuentracontenida en la suma simple no ponderada de respuestas correctasa esos items. Así, la dificultad de una pregunta puede estimarseindependientemente del grupo de personas que la responda.Estos requisitos permiten formular un modelo matemático yutilizarlo para evaluar qué tan apropiadas son las observaciones paraobtener información de la variable en cuestión. No obstante, hayciertas demandas en relación con el control que se tenga sobre lasobservaciones: aunque las personas difieran en muchos aspectos,es posible hacer mediciones cuando una dimensión domina larespuesta que se dé a un item.Durante muchos años, en la evaluación educativa se ha utilizadola Teoría Clásica de los Test para diseñar instrumentos, evaluarlos yutilizarlos en diferentes contex tos. Entre sus principalesinconvenientes, como ya se ha visto, se encuentran la utilización deíndices de los items que dependen del grupo de personas que losabordan y estimaciones de la habilidad de las personas que

35 Wright, B. Y Mead, R. (1977). Calibrating items and scales with the Raschmodel. Research memorandum # 23. University of Chicago.

36

Sicometria

dependen del grupo particular de preguntas que se incluyen en unaprueba36 .La psicometría ha avanzado hacia un nuevo sistema de medición:La Items Response Theory o Teoría Respuesta al Item (TRI), quetiene dos postulados a) la ejecución de una persona en una pruebapuede predecirse, explicarse por un conjunto de factores llamadoshabilidades y b) la relación entre la ejecución del examinado y lashabilidades que la soportan puede describirse por una funciónmonotónicamente creciente llamada �función característica del

item� o �curva característica del item� (ICC). Esto último implicaque mientras sea mayor la habilidad de una persona, es mayor laprobabilidad de responder correctamente una pregunta. Desde estaperspectiva podemos afirmar que la diferencia principal entre lasdos propuestas es que la TRI no considera que las formas paralelassean la justificación de sus resultados (formas que se obtienenaleatoriamente de un universo de preguntas)37 .Pueden existir muchos modelos que se diferencian ya sea por laforma matemática de la curva característica del item o por el númerode parámetros que considera. Todos los modelos tienen por lo menosun parámetro que describe al item y por lo menos uno que describea la persona.El modelo de respuesta estocástica de Rasch, describe laprobabilidad del éxito de una persona en un item como una funciónde la habilidad de la persona y la dificultad de la pregunta, siendouna aproximación estadística al análisis de las respuestas a unaprueba y de otros tipos de observación ordinal. Rasch derivó sumodelo como una expresión logística simple y demostró que en estaforma los parámetros de la persona y de la pregunta sonestadísticamente independientes.El análisis por el modelo de RASCH construye mediciones linealesde la habilidad de las personas y la dificultad de las preguntas, almismo tiempo que establece índices de la precisión y exactitud de lamedición (ajuste)38 . Este modelo especifica que cada respuesta útilen una prueba surge de la interacción probabilística lineal entre la

36 Hambleton, Swaminathan y Rogers, 199137 Bejar, I. (1983). Achievement Testing. Recent advances. SAGE. NewburyPark.38 Wright, 1994

37

Sicometria

medida de la habilidad de una persona y la medida de la dificultadde una pregunta (Rasch, 198). Una forma simple de expresar estemodelo es:

log probabilidad de éxito = habilidad de la personaprobabilidad de fracaso dificultad de la pregunta

El modelo de RASCH presenta las siguientes características39 :1. Es matemáticamente simple comparado con otros como el dedos o tres parámetros.2. Bajo condiciones normales el puntaje bruto de una persona esuna estadística suficiente para estimar la habilidad de una per-sona y el parámetro de las preguntas, lo cual lo hace una extensiónde las prácticas actuales en pruebas. Es el único modelo deRespuesta al Item (TRI) que es consistente con el puntaje bruto.3. Predice el comportamiento de preguntas, pruebas y personascon buena efectividad.4. Establece que la probabilidad de responder una serie depreguntas correctamente está determinada por la habilidad de laspersonas, esto es que dos personas de igual habilidad tienen lamisma probabilidad de responder preguntas fáciles y difíciles (suscurvas características no se cruzan).5. La probabilidad de responder a la más difícil de dos preguntasdebe ser inferior a la probabilidad de responder a la más fácil (lascurvas características de las preguntas no deben cruzarse).6. El problema de la estimación de los parámetros está resuelto.

Desde el punto de vista matemático, el modelo de RASCH es unmodelo logístico que se caracteriza �por el supuesto de quelog Pj = d + b

i X

ij + ... b

k X

kj 1 - Pj39 Choppin (1985) y Wright (1977)

38

Sicometria

Hay varias razones por las cuales es razonable este supuesto.Se supone siempre que la matrizC = 1Xij ... Xki

1Xij ... Xkjtiene rango completo, lo que hace identificable

(d, b(d, b(d, b(d, b(d, bi i i i i , . .., b, . .., b, . .., b, . .., b, . .., b

kkkkk)))))TTTTT

A partir del logaritmo de la función de máxima verosimilitudse ve que el paso de Pj hacia log pj 1 - pj

aparece de una manera natural. Además; significa el paso delintervalo (0,1) hacia la recta real R por medio de la función logitlogit (q): = log q 1 - q

con su inversalogit -1 (X) = exp (x) �1 + exp(x)

(Weber, 1994) que es una función monotónicamente creciente;equivale aPr (Xvi Bvidi) = exp(bv - di) 1 + exp (Bv - di)

en el modelo de RASCH (Wright, 1977).

Según Andrich (1988, p.25) otra forma de expresar el modelo esa partir de la función probabilística:Bn

Pr { Xni = 1 } = Lni = D1 y, ( 1 + Lni ) Gni

39

Sicometria

Pr {xni = 0} 1 = 1(1 + Lm) Gni

Donde :Gni = 1 + Bn Di

es un factor de normalización que asegura que: Pr {Xni = 1} + Pr {xni = 0} = 1Además si, Bn<0 y D1>0 ➨ 0<Pr { Xni = 1 } < 1

como se requiere. Esta ecuación es una forma del modelo de RASCHpara respuestas dicótomas y es conocida como el modelo logísticosimple.A partir de la estimación de los parámetros se puede calcular laprobabilidad de responder correctamente una pregunta y elaborarlas ICC (curvas características de las preguntas) que es uno de lossupuestos básicos del modelo, con el objeto de establecer si dichascurvas son monotónicamente crecientes (Hamblenton y Cook, 1977;Choppin, 1985).Adicionalmente al modelo de Rasch o de un parámetro, existende dos y de tres parámetros, que se basan en principios similares alos planteados anteriormente. Existen algunas pequeñas diferenciasen el ámbito conceptual, en términos de los parámetros a partir delos cuales se hace la medición. Una diferencia importante de losmodelos de dos y tres parámetros con el de Rasch es que esteúltimo es que único que arroja resultados convergentes, esto es quellega a un resultado en la estimación de los parámetros.Como dice Engelhard G. (1991), la diferencia entre los modeloslogísticos (cuyas raíces se encuentran en los trabajos de Catell (1893)y Thorndike (1904)) y la teoría clásica de los test es que estos últimosse han basado en los �puntajes de prueba� mientras que los primeroshacen referencia a �escalas de medición�. En este sentido, la teoría

40

Sicometria

clásica de los test (que tiene sus raíces en Spearman (1904)), sepreocupa por la confiabilidad e inclusive relaciona la objetividad conla forma como se califica una prueba (en otras palabras, la objetividades un problema de confiabilidad), lo que ocasiona la �paradoja deatenuación� (a medida que un test se hace más confiable, la validezde los resultados medida por la correlación con una variable criterio,se hace más pequeña) como consecuencia negativa.En la actualidad y debido a los elementos que se mencionan eneste documento, se hace notable el uso, cada vez mayor, de losmodelos logit para abordar el problema de la medición educativa, delos cuales se encuentran varios que han demostrado ser eficientesen el tratamiento de los problemas que este tipo de medición conlleva.

SUPUESTOS DE LA TRIodo modelo matemático incluye un conjunto de supuestosacerca de los datos en los cuales se aplica y especifica lasrelaciones entre los constructos descritos en el modelo40 .En términos generales la TRI considera 3 supuestos básicos:

❍ Dimensionalidad. La TRI se asume que «un conjunto k dehabilidades soportan la ejecución de un examinado en un conjuntode items. Las k habilidades definen un espacio k dimensional, enel cual la localización de cada examinado está determinada por laposición del examinado en cada habilidad. Se dice que el espacioes completo si se han especificado todas las habilidades queinfluyen en los puntajes de una población de examinados»41 . Losmodelos de dos y tres parámetros requieren de unidimensionalidaden los datos para aplicarlos. Además del modelo de Rasch, hoy endía existen otros modelos de escalamiento multidimensional42 .❍ Independencia Local. Este supuesto es aplicable a diversasposturas en relación con la medición educativa y es que se esperaque un estudiante responda a una pregunta en particular sin querecurra a información de otros items para hacerlo correctamente.En otras palabras la ejecución de un estudiante en una pregunta

40 Hambleton, R. y Swaminathan, H. 1985. Item Response Theory: principlesand applications. Kluwer. Boston.41 Hambleton, R. y Swaminathan, H. 1985. Op. Cit.42 Borg, I. Y Groenen, P. 1997. Modern Multidimensional Scaling: theory andapplications. Springer. New York.

41

Sicometria

no debe afectar sus respuestas en otra. Es práctica generalizadaen la actualidad el diseñar pruebas en donde conjuntos de itemsdependen de un contexto en particular, del cual dependen lasrespuestas del examinado; aquí también se aplica la independencialocal ya que esta se aplica entre los items y no entre ellos y elcontexto.❍ Curvas Características de Items. Es una función matemáticaque relaciona la probabilidad de éxito en una pregunta con lahabilidad medida por el conjunto de items que la contienen43 . Losdiferentes modelos de la TRI se diferencian en la forma particularque adquiere la función de probabilidad, la cual incluye el númeroparticular de parámetros del modelo.

AJUSTE AL MODELOn «modelo de respuesta» (response model) es «una funciónmatemática que relaciona la probabilidad de una respuestacorrecta a una pregunta con las características de la per-sona (habilidad) y las características de la pregunta (dificultad)»44 .Un modelo no involucra una teoría del constructo a medir y el ajustede los datos al modelo puede establecerse sin conocimiento de loque está siendo medido. En este sentido el significado de la escalaestablecida a partir de las respuestas está dado por el constructo omarco conceptual escogido.

El ajuste de los datos al modelo consiste en que aquellos seencuentren representados adecuadamente por el modelo. Aunquese han planteado diferentes aproximaciones para establecer dichoajuste45 46 todos se enfocan hacia la comprobación de los supuestosbásicos del modelo o sus implicaciones.En este sentido podríamos pensar en tres categorías queconformarían esas múltiples miradas de lo que significa verificar elajuste entre el modelo seleccionado y los datos producidos en unaevaluación educativa.

43 Hambleton, R. y Swaminathan, H. 1985. Op. Cit.44 STENNER, J. SMITH III, M y BURDICK, D. Toward a theory of constructdefinition. Journal of Educational Measurement, 20, pp. 305-316. 198345 WRIGHT, B. Solving measurement problems with the Rasch Model. Jour-nal of Educational Measurement, 14, pp. 97-116. 1977.46 CHOPPIN, B. «Bruce Choppin on measurement an education». Evaluationin Education: An international Review series, 9, # 1, 1985.

42

Sicometria

✔ Cumplimiento de los supuestos del modelo por los datos. En elcaso de los modelos TRI, los supuestos son los que mencionamosanteriormente: dimensionalidad, independencia local y curvas carac-terísticas de las preguntas.Existen diversas formas de verificar la dimensionalidad de losdatos. Las dos más comunes y que han demostrado buenosresultados son: gráfica de eigenvalues de la matriz de intercorre-laciones inter item de tal manera que se pueda determinar un fac-tor determinante y la razón alta entre los dos primeros valoreseigenvalues; el otro procedimiento corresponde a la verificaciónpor expertos que siguen un proceso de juicio de jueces particular.En relación con la independencia local se verifica la estocasti-cidad estadística interitem.En relación con las curvas características se verifica que ellascorrespondan a la familia de curvas del modelo. El modelo de Raschexige curvas características que no se entrecruzan.

✔ Cumplimiento de las ventajas derivadas por el uso del modelo.En este caso se hace referencia específica a la particularidad deinvarianza de las estimaciones de dificultad y habilidad por elmodelo. Esto quiere decir que en cualquier muestra de una mismapoblación los parámetros de items y personas permaneceninvariantes; es decir que los valores numéricos que se obtienenpara la dificultad de las preguntas de una prueba son los mismosen cualquier muestra donde se obtengan. Y el valor del parámetrode las personas (su habilidad) es el mismo en cualquier pruebaque respondan (obviamente mediando los procesos de equatingnecesarios). El modelo de Rasch ha demostrado un mayorcumplimiento de este principio de ajuste, inclusive en estudiosrealizados en Colombia con los datos de los Exámenes de Estado47 .✔ Cercanía entre las predicciones del modelo y los datos. En estesentido se contrastan las distribuciones de las respuestas con lascurvas características de cada ítem. De esta manera se puede

47 Pardo, C.; Parra, G, y Grupo de Psicometría. Uso de diversos modelos yprocedimientos para el procesamiento de información de los Exámenes deEstado. SNP. Bogotá.

43

Sicometria

reconocer o hipotetizar las posibles causas para comportamientosparticulares de grupos poblacionales en relación con los items deuna prueba.El modelo de Rasch no supone una distribución determinada delos niveles de dificultad de items o de las habilidades de personas.Los procesos de Máxima Verosimilitud utilizados para la estimaciónde esos parámetros esperan que los errores en las observacionesse distribuyan más o menos normalmente alrededor de los valoresesperados. A partir de estas consideraciones es posible calcular dosestadísticas sensibles a respuestas inesperadas que afectan los itemscon dificultades cercanas a las habilidades de las personas (INFIT)o que afectan los items con dificultades lejanas a las habilidades delas personas (OUTFIT)48 .

FUNCIONAMIENTODIFERENCIAL DE PREGUNTAS

ncionamiento Diferencial de Preguntas hace referencia aque un item tenga propiedades estadísticas diferentes engrupos poblacionales distintos49 . Esto es que una preguntapueda ser desventajosa a un grupo cultural específico, en otraspalabras, que personas de igual habilidad (con respecto delconstructo que mide la pregunta) pero de diferentes culturas muestreno tengan diferentes probabilidades de responder la preguntacorrectamente, ocasionando una sub o sobre estimación de sushabilidades50 51 .Existen muchos métodos que permiten estudiar el funcionamientodiferencial de las preguntas pero, en general, se pueden agrupar endos clases52 :

48 Linacre, J. Y Wright, B. A user�s guide to Bigsteps Winsteps. Rasch modelcomputer programs. MESA. 1998.49 Angof f, W. 1993. Perspectives on Dif ferential Item Functioning Methodol-ogy. En: Dif ferential Item Funtioning.Lawrence Earlbaum Associates. NewJersey.50 JOHNSON, E. Theoretical justification of the omnibus measure of dif feren-tial item functioning. IAEP data analysis plan. Apéndice 151 VEALE, J., FOREMAN, D. Assessing cultural bias using foil response data:cultural variation. Journal of Educational Research, 20, pp. 249-258. 198352 VAN DER FLIER, H., MELLENBERGH, G., ADER, H., WIJN, M. An iterativeitem bias detection method. Journal of Educational Measurement, 21, pp.131-145. 1984.

44

Sicometria

✔ métodos no-condicionales✔ métodos condicionalesLos métodos condicionales, condicionan el sesgo en las pregun-tas a los niveles de habilidad de quienes abordan la prueba entendi-dos estos como los puntajes brutos. Las técnicas más utilizadas parverificar el FDP son la de Mantel-Haenzel , la comparación de curvascaracterísticas de preguntas obtenidas a partir de datos de dos omás poblaciones diferentes y la comparación de los niveles dedificultad obtenidos en dos poblaciones distintas (modelo de Rasch).

EQUATINGos resultados que obtienen las personas en una prueba, seutilizan como información que permite tomar diferentesdecisiones en distintos niveles. Por ejemplo, en algunos casoslas decisiones se toman en el nivel individual como cuando unestudiante decide a qué universidad presentarse para el proceso deadmisión. En el nivel institucional los resultados en las pruebaspueden utilizarse para determinar qué personas ingresan a unauniversidad, por ejemplo. Estos ejemplos corresponden a casos enlos cuales las pruebas se administran en múltiples ocasiones, comoel Examen de Estado que ocurre en dos ocasiones cada año.

En este último caso mencionado, para el nuevo examen de estadoes necesario garantizar que los puntajes obtenidos por los estudian-tes en diferentes ocasiones son comparables y que su significado semantiene.Esto se consigue con un proceso estadístico denominado equatingque se utiliza para ajustar puntajes obtenidos con formas diferen-tes de pruebas de tal manera que estos puntajes se puedanintercambiar53 , aunque las formas tengan índices de dificultaddiferente.

No se debe confundir este procedimiento con otros muy similarescomo el de comparabilidad de escalas que se utiliza frecuentementeen la TCP, ya que en este caso los puntajes no son intercambiablesdebido a que se fundamenta en comparaciones de estadísticas apartir de distribuciones de grupos poblacionales..53 Kolen, M y Brennan, R. 1995. Test Equatin: methods and practices. Springer.New York.

45

Sicometria

El equating se puede realizar con base en diferentes diseños:✔ Grupos aleatorios. En este caso los examinados se asignanaleatoriamente a las diferentes formas de prueba.✔ Grupo único con contrarrestación. Se aplican las dos formas aun mismo grupo de personas y se contrarresta el efecto del ordende las pruebas al hacer que algunas personas empiecen por unaforma y otras por otra.✔ Grupos no equivalentes con items comunes. Las diferentesformas de la pruebas comparten items comunes o se vinculan através de una cadena de items comunes por segmentos.

VALIDEZa cobrado gran fuerza la preocupación por la calidad de las accionesdel ser humano en diferentes ámbitos donde se explicitansus interacciones culturales. Así mismo, se reconoce que lacalidad de vida de todo un pueblo está íntimamente ligadacon diversos procesos generados por la cultura, siendo el másimportante el de la educación.

Podemos reconocer, en la historia, que toda civilización basa susupervivencia y su desarrollo, en general, en las institucioneseducativas que genere y, en particular, en los procesos educativosque desarrolle. Nuestra cultura, denominada occidental, ha puestoespecial énfasis, desde sus comienzos, en los procesos educativosque desarrolla con todos sus integrantes desde los primerosmomentos de vida.Es evidente la impor tancia que ha adquirido la educaciónúltimamente, en relación con muchos aspectos de nuestra cultura yen especial con la calidad de vida de las gentes. Es por eso que sehan generado diversas herramientas de todo tipo (epistemológicas,metodológicas, etc.), que buscan mejorar los procesos educativospara que respondan a las exigencias del mundo de hoy.Es muy importante que cualquier sistema educativo sea interactivocon su entorno y pueda reconocer y responder a las necesidadesque se le plantean lo que implica la generación de un sistema deevaluación que permita mantener esa interactividad y encauzarlahacia los nuevos requerimientos que se le formulen.

46

Sicometria

Desde este punto de vista es innegable el valor que cobra laevaluación para contribuir a estos propósitos, orientando la laborque desempeñan los involucrados, interesados y comprometidos conla educación para hacer de este mundo un mejor lugar para vivir.UNA PREGUNTA...

uando pensamos en la necesidad de generar un procesode evaluación en educación (o en cualquier otra área), ynos encontramos en la tarea de diseñar sus elementosespecíficos, hay una pregunta que ronda nuestras mentes,que orienta la selección o creación de todos estos elementosespecíficos a integrar en el proceso y que puede plantearse de lasiguiente manera.■ ¿Cómo podemos saber si las inferencias que hacemos apartir de los resultados de un proceso de evaluación, sonacertadas? 54

La psicometría, que se encarga, entre otras cosas, del diseño deinstrumentos55 de evaluación, ha abordado este tema desde su inicioy ha generado todo un marco de referencia para el análisis de estosinstrumentos.Como ya se puede adivinar, este tópico es el de la validez. En losStandards for Educational and Psychological Testing56 se incluyeresaltado este precepto: la validez es la consideración más

importante en la evaluación de instrumentos. Más adelante, sepuede leer que la validación de una prueba es el proceso de acumularevidencia para argumentar las inferencias que se hagan a partir delos puntajes. Literalmente dice que �aunque la evidencia puedeacumularse de muchas formas, la validez siempre se refiere al gradoen el cual esa evidencia soporta las inferencias que se hacen apar tir de los puntajes. Lo que se valida son las inferenciasrelacionadas con un uso específico del instrumento, no el instrumentoen sí mismo�57 .54 Evers, C. (1991). Towards a coherentist theory of validity. Internationaljournal of educational research. Vo. 15. Pergamon Pres.55 En su sentido más amplio56 American Educational Research Association, American PsychologicalAssociation y National Council on Measurement and Education. 1985.57 Ibídem. Pag 9.

47

Sicometria

Como se puede observar, la validez, es la respuesta a la preguntaplanteada desde la epistemología. No obstante, el tema de la validez,desde el punto de vista conceptual, se ha desarrollado de una ciertamanera hasta alcanzar los niveles de hoy en día.UN POCO DE HISTORIA...

esde finales de la década del 30, se han explicitado diferentesdefiniciones de validez, algunas de las cuales aún son deuso común en nuestro medio. Recordemos algunas de ellas.�Validez es el grado en el cual una prueba mide lo quepretende medir�58 ; �la pregunta esencial acerca de la validez de uninstrumento, es qué tan bien hace el trabajo para el cual se emplea...En consecuencia validez se define en términos de la correlación en-tre los puntajes de las personas en la prueba y los puntajes criterioverdaderos�59 ; Aún se cita la definición dada por Anastasi (1954)�validez es lo que la prueba mide y qué tan bien lo hace�.

No sólo existían muchas definiciones de validez en aquella época,también se promulgaban muchos tipos de validez, como la factorial,intrínseca, empírica, lógica y muchas otras. A inicios de la décadadel 50, se reconocían dos tipos principales, la validez lógica, queincluía el análisis de contenido, los procesos de aplicación deinstrumentos, entre otros; y la validez empírica que enfatizaba en eluso del análisis factorial y, especialmente, en las correlaciones entrepuntajes y una medida criterio.Debido a esta gran diversidad de concepciones, la American Psy-chological Association (APA), combinada con la Association for Ap-plied Psychology, organizó un comité, en 1950, para que establecieraun código de ética que tuviera en cuenta aspectos científicos yaplicados. En 1954 se publica el resultado de su trabajo: el documentoTechnical recommendations for psychological test and diagnostictechniques60 , en donde aparecen cuatro categorías de validez:

58 Garret, H. E. (1937). Statistics in psychology and education. Esta definiciónla retoma, posteriormente, Cronbach en 1949, aunque le introdujo unapequeña variación: un instrumento es válido en el grado en el cual sabemoslo que mide o lo que predice.59 Cureton, E. (1951). Validity. En Lindquist (ed) Educational Measurement.American Council of Education.60 APA (1954).

48

Sicometria

❍ Contenido: amplitud y adecuación con que una prueba mide unconstructo❍ Predictiva: precisión en la predicción de ejecución de una per-sona❍ Concurrente: comparabilidad en la medición de un atributo condos test diferentes❍ Constructo. Es en este documento donde aparece por primeravez.

Para 1966, en los Standards for educational and psychologicaltest and manuals, la validez predictiva y la concurrente se integranen la validez de criterio. En la siguiente publicación de los Standards(1985), se mantienen estas tres categorías.Como se puede observar hasta el momento, �la concepcióntradicional de validez, la divide en tres tipos separados y sustituibles�contenido, criterio y constructo � Esta forma de aproximación esfragmentaria e incompleta, debido especialmente a que no tiene encuenta la evidencia, tanto de las implicaciones valorativas delsignificado del puntaje como una base para la acción, como lasconsecuencias sociales del uso del puntaje�61 . Esto ocasiona quese genere, desde finales de la década del 80, todo un movimientoque pretende actualizar, reestructurar y profundizar en el conceptode validez.El nuevo concepto unificado de validez interrelaciona loselementos mencionados anteriormente, �como aspectosfundamentales de una teoría más comprensiva de la validez deconstructo que tiene en cuenta tanto el significado del puntaje comola valoración social en la interpretación y uso de la prueba. Esto es,la validez unificada integra consideraciones del contenido, los criteriosy las consecuencias en un marco para la comprobación empírica dehipótesis acerca del significado de los puntajes y las relacionesteóricas relevantes, incluyendo aquellas de naturaleza aplicada. Seprivilegian seis aspectos distinguibles de la validez de constructoque explicitan la noción de validez unificada. Estos son: aspectos de

61 Messick, S. (1995). Validity of psychological assessment. American psy-chologist.

49

Sicometria

contenido, sustantividad, estructura, generalizabilidad, aspectosexternos y de consecuencia. En efecto estos seis aspectos funcionancomo criterios o estándares para la medición psicológica yeducativa�62 .UNA NUEVA CONCEPCIÓN

sí la validez se define como �un juicio evaluativo integral delgrado en el cual la evidencia empírica y teórica soportan loadecuado y apropiado de las interpretaciones y accionesbasadas en los puntajes de una prueba u otra forma deevaluación. Validez no es una propiedad de la prueba, es unapropiedad del significado de los puntajes de la prueba. Estos puntajesno son sólo una función de las condiciones del item o de los estímulos,sino también de las personas que responden y del contexto de laevaluación. Específicamente, lo que debe ser válido es el significadoo interpretación del puntaje; lo mismo que cualquier implicación queeste puntaje tenga para la acción. La ex tensión en la cual elsignificado del puntaje y las implicaciones para la acción se mantienena través de personas o grupos poblacionales y a través de ambienteso contextos es una pregunta empírica persistente y.perenne. Estaes la razón principal por la cual la validez es una propiedad cambiantey la validación es un proceso continuo�63 .CRITERIOS PARA EVALUAR INSTRUMENTOS

omo se mencionó con anterioridad, los aspectos de la validez,funcionan como criterios, a par tir de los cuales se puedeevaluar, técnicamente, la bondad de un instrumento. Elhablar de �validez como un concepto unificado no implicaque no pueda diferenciarse en aspectos distintos para subrayarelementos que de otra forma se discutirían superficialmente», talescomo las consecuencias sociales de la evaluación de ejecución o elpapel que juega el significado del puntaje en un uso aplicado. Loque se pretende, con esta diferenciación, es proveer con unsignificado funcional a los aspectos de la validez de tal manera quese puedan desenredar algunas complejidades inherentes a lavaloración de lo apropiado, significativo y útil de las inferencias delos puntajes64 .62 Messick, S. Op. Cit.63 Messick, S. Op. Cit.64 Messick, S. Op. Cit.

50

Sicometria

Los siete aspectos que se privilegian desde esta perspectiva, son:1. Contenido. Incluye evidencia de la relevancia, representatividady calidad técnica del contenido de la prueba.

◆ La relevancia de las preguntas se evidencia en el enfoque par-ticular de que aparezca en el marco conceptual de la prueba, endonde deben aparecer los criterios particulares para cada una delas variables empleadas. Esto es, que debe proporcionarse larelación entre la variable empleada (y en últimas el item utilizado)y la teoría.◆ La representatividad se observaría a través de la relación entreel énfasis de las variables en el instrumento y el énfasis deelementos correlativos en el marco conceptual.◆ La calidad técnica del contenido de la prueba, se evidenciaríaa través del proceso de análisis de item y de prueba. Este análisisinvolucra aspectos cualitativos y cuantitativos al interior de algúnmarco de análisis particular. En términos generales existen dosgrandes marcos a par tir de los cuales se puede realizar esteanálisis, la Teoría Clásica de las Pruebas y la Teoría Respuesta alItem. Estos marcos nos proporcionan evidencia cuantitativa de lacalidad del instrumento, ya sea luego de una aplicación experi-mental o piloto, o luego de una aplicación definitiva. Adicionalmente,es necesario realizar una valoración cualitativa del instrumento65 .

2. Esencia. Argumentos que evidencien las consistencias entre lasrespuestas al instrumento (evidencia empírica) y los procesos que,desde la teoría, se plantea que asumen los evaluados en las tareaspropuestas.◆ Los argumentos relacionados con este aspecto se encuentran,definitivamente, en el marco conceptual. Es evidente que un marcoconceptual puede tomar diversas formas pero, sin importar desdequé perspectiva se elabore, debe contener un acápite en dondese expliciten los procesos que seguirán los evaluados para llegar a

65 La bibliografía relacionada con la verificación de la calidad técnica de losinstrumentos de medición y evaluación es abundante. Al respecto se puedenconsultar textos como los de Wright, B. (1979). Best test design. Hambletony Swaminathan. (1985). Item response theory: principles and aplications. Entreotros.

51

Sicometria

las respuestas que se le plantean.3. Estructura. Se valora la fidelidad que existe entre la estructura depuntuación y la estructura del dominio medido.

◆ Es claro que aquí se analiza el tipo de escala seleccionadapara emitir los puntajes en términos de si es la más apropiadapara el constructo evaluado. Para esto es necesario seguir elproceso de escalamiento, mediante el cual se asignan números aobjetos, de acuerdo con un procedimiento específico. Es necesarioaclarar que no todas las formas de asignación de números a objetosllevan, necesariamente, a un escalamiento; diferenciemos, en estesentido, lo que es una valoración de respuesta o forma mediantela cual se recogen las respuestas que un grupo de personas da alas preguntas de un instrumento (Ejemplo: acuerdo � desacuerdo;verdadero � falso; etc.), de lo que es una escala, la cual resulta deun proceso en donde cada item tiene un valor de escala y se refierea un conjunto de items.◆ En general, una escala tiene como propósito fundamental lageneración de puntajes (un solo resultado para un conjunto deitems)

4. Puntaje: �El término puntaje se utiliza genéricamente en su sentidomás amplio para indicar cualquier codificación de consistenciasobser vadas o regularidades en la ejecución de una prueba,cuestionario, procedimiento de obser vación o cualquier otroinstrumento de evaluación (tales como muestras de trabajos,portafolios o simulación de problemas reales. Este uso subsumeprocedimientos tanto cuantitativos como cualitativos...�66 .◆ Adicionalmente se debe tener en cuenta, al construir unaescala, su dimensionalidad. Una escala puede tener cualquiernúmero de dimensiones. No obstante, la mayoría de las escalasque se construyen tienen pocas dimensiones, o una sola. Algunosatributos se pueden medir con una sola línea de �números�; porejemplo la estatura se mide bien sólo con un sistema, el de longitud.Algunos modelos de inteligencia proponen dos grandesdimensiones: verbal y matemática y por lo tanto no se puede mediruna sola de ellas para describir la inteligencia de una persona.El modelo de evaluación que se deba utilizar, depende directamente

66 Messick, Samuel. (1990). Validity of Test Interpretation and Use. ETS.

52

Sicometria

de la dimensionalidad del atributo o constructo. Esto es, si el atributoes unidimensional, debe utilizarse un método de escalamientounidimensional y si es multidimensional, utilizar un método deescalamiento multidimensional.Una preocupación adicional que se debe resolver, de muchaimportancia cuando las evaluaciones se enmarcan en un sistema,esto es que se hacen de forma continua durante algún tiempo, serefiere a la comparabilidad de los resultados de tal manera que sepueda hacer algún tipo de seguimiento. Para ello es necesarioutilizar un procedimiento de equating particular.

5. Generalizabilidad. Se examina el grado en el cual las propiedadesde los puntajes y las inferencias, se generalizan a grupospoblacionales de acuerdo con las necesidades del proceso demedición, de evaluación o de la investigación que se adelante.6. Aspectos externos. Incluyen evidencia convergente y discriminantea partir de comparaciones multimétodo-multirasgo.7. Consecuencias. Valora las implicaciones de las interpretacionesde los puntajes como una base para la acción futura; igualmente,las consecuencias presentes y futuras del uso del instrumentoespecialmente a partir de estudios de sesgos (DIF) y equidad.

Con base en lo anterior se plantean muchos interrogantes quedeben resolverse antes, durante y después de diseñada una prueba,que deben guiar todo el proceso de desarrollo de la misma. Tal vezla pregunta que uno puede plantearse hacia el final del proceso es:¿Qué argumentos se plantean para las inferencias que

aparecen en el análisis de resultados?

RESULTADOSEn general las medidas educativas se pueden utilizar de dosformas67 :

✔ Las pruebas pueden hacer mediciones referenciadas a la norma,esto es que las ejecuciones de un estudiante son puntuadas e67 VAN DER LINDEN, W. Criterion-referenced measurement: its main appli-cations, problems and findings. Evaluation in education, t, pp. 97-118. 1982.

53

Sicometria

interpretadas con respecto a las de los demás estudiantes queabordan la prueba. Se hace énfasis en las ejecuciones relativasde los individuos.✔ Las pruebas pueden hacer mediciones con referencia a uncriterio. En este caso se hace énfasis en especificar los referentes(dominios o criterios) que per tenecen a puntajes o puntosespecíficos a lo largo de un contínuo. Se especifica qué tipo deejecuciones puede realizar un individuo y cual es su reper torio decompetencias sin referenciarlo a puntajes o ejecuciones de otrosindividuos68 .

El primer caso corresponde a las pruebas en donde se calculanciertos estadísticos de la población para determinar la escala deresultados. En primer lugar se obtiene el número de respuestascorrectas de cada persona que aborda las preguntas. Con este datose calcula el promedio y la desviación estándar de todos. Se esperaque estos datos se distribuyan como la curva normal de tal maneraque el promedio quede en la mitad de la distribución de datos y queen total existan 6 desviaciones estándar. Con estos datos se realizael proceso de estandarización de puntajes y por último se transforma,este resultado, a una escala particular. En el caso del Examen deEstado vigente en 1999, la escala escogida para la presentación deresultados se conoce como T de McAll y tiene un promedio de 50puntos y una desviación de 10. Como de antemano se sabe que ladistribución de puntajes se asemeja a la curva normal, estos puntajesen escala T se pueden interpretar en el mismo sentido.Por ejemplo si una persona obtiene 60 puntos en la escala T (esdecir una desviación estándar por encima del promedio) podríamosdecir que esta persona supera (en términos del puntaje) a 84%aproximadamente, del total de personas que abordan la prueba conél. Como se observa, el resultado de alguien se expresa relativamentea los resultados de las demás personas.

En el segundo caso se hace énfasis en la ejecución de las personasque abordan la prueba, independientemente de si se presentan otraspersonas. Se trata de determinar debilidades, fortalezas; reconocerlas ejecuciones par ticulares de cada uno de tal manera que los68 HALADYNA, T. y ROID, G. A comparison of two approaches to criterion-referenced test construction. Journal of Educational Measurement, 20, pp.271-282. 1983.

54

Sicometria

resultados puedan contribuir a los procesos de reorientación per-sonal o institucional. Es decir que un puntaje en particular puedetener significado desde el punto de vista de las disciplinas evaluadas.El nuevo examen de estado informará significativamente a losusuarios, lo que lo sitúa en el segundo tipo de evaluación educativa.Lo anterior tiene que ver directamente con el modelo matemáticoa utilizar. Para el efecto se dispone de dos teorías, la clásica y la derespuesta-pregunta. Las principales ventajas de la segunda sonenumeradas por Hambleton y Cook69 y hacen referencia a que enlos modelos de la teoría respuesta-pregunta:

● Es posible comparar examinandos aunque hayan abordadodiferentes pruebas que midan el mismo dominio.● Los parámetros de las preguntas son invariantes aunque seestimen en diferentes muestras de la población. En teoría clásicala calibración de las preguntas son relevantes sólo en el contextode la muestra donde se realiza● Proveen una medida de la precisión en la estimación de lahabilidad de cada individuo (o cada grupo de individuos con lamisma habilidad) mientras que en la teoría clásica sólo se ofreceun único error estándar de medición que se aplica a todos losestudiantes.

De acuerdo con todas estas ventajas se utilizará uno de losmodelos de la teoría respuesta-pregunta teniendo en cuenta suaplicabilidad a las pruebas referidas a criterios (las cuales de algunamanera no puede abordar la teoría clásica). Este es el modelo deRasch o modelo logístico de un parámetro, por razones como lasexpuestas por Choppin y Wright70 :● Es matemáticamente simple comparado con otros como el dedos o tres parámetros.● Bajo condiciones normales el puntaje bruto de una persona es

69 HAMBLETON, R., COOK, L. Latent trait models and their use in the analy-sis of educational test data. Journal of Educational Measurement, 14, pp.75-96 1977.70 Op. Cit.

55

Sicometria

una estadística suficiente para estimar su habilidad y el parámetrode las preguntas lo cual lo hace una extensión de las prácticasactuales en pruebas. Es el único modelo de respuesta-preguntaque es consistente con el puntaje bruto.● Predice el comportamiento de preguntas, pruebas y personascon buena efectividad.● Establece que la probabilidad de responder una serie depreguntas correctamente está determinada por la habilidad de laspersonas, esto es que dos personas de igual habilidad tienen lamisma probabilidad de responder preguntas fáciles y difíciles (suscurvas características no se cruzan).● La probabilidad de responder a la más difícil de dos preguntasdebe ser inferior a la probabilidad de responder a la más fácil (lascurvas características de las preguntas no deben cruzarse).● El problema de la estimación de los parámetros está resuelto.Desde el punto de vista de los algoritmos y procedimientosutilizados en la estimación ofrece resultados convergentes mientrasque los de dos o tres parámetros obtienen resultados divergentesen las estimaciones.

TIPOS DE RESULTADOSEN EL NUEVO EXAMEN

on base en estas apreciaciones, se diseñaron 4 tipos de resultadosque se pueden obtener a partir de las respuestas de losestudiantes en el Nuevo Examen de Estado.El examen está compuesto por un núcleo común y uncomponente flexible. El núcleo común contiene una serie de pruebasde áreas básicas y debe ser abordado por todos los estudiantes. Elcomponente flexible está compuesto por dos líneas: profundización(mayor nivel de complejidad en la evaluación) e interdisciplinar(desenvolvimiento de las personas en distintos escenariossocioculturales). Para cada par te de la estructura se produciránresultados que corresponden a alguno de los siguientes tipos.

56

Sicometria

PUNTAJEste es un resultado cuantitativo que se obtiene a partir delas estimaciones de la habilidad (en términos psicométricos)de cada estudiante con base en sus respuestas a laspruebas. El resultado puntaje se procesa para cada prueba del núcleocomún y para la línea interdisciplinar del componente flexible.

La estimación del parámetro habilidad se realiza a través deprocesos de máxima verosimilitud que lleva a cabo el sof twareWinsteps71 que calcula, al mismo tiempo el parámetro de los itemsutilizados (dificultad72 ), el grado de ajuste de los datos al modelo, elequating entre dos formas de la misma prueba, las probabilidadesde respuesta para una persona o grupo específico y los estadísticosgenerales de prueba como los promedios, desviaciones estándar,confiabilidad, entre otros.En el núcleo común el puntaje (habilidad) indicará la competenciageneral en cada una de las pruebas tal y como se defina desde ladisciplina73 . En la línea interdisciplinar, el puntaje indicará eldesenvolvimiento en los escenarios socioculturales de la pruebaseleccionada por el estudiante.Como se mencionó anteriormente, la interpretación de resultadoses con referencia a criterio, es decir que algunos puntajes indicaránel tipo de ejecuciones que puede realizar el individuo. Para ello serealizará un proceso de anclaje de preguntas, es decir que sedetermina el tipo de competencias para responder a diferentespreguntas en el continuo de la escala de dificultad de items.

RESULTADOS POR TOPICOSada una de las disciplinas evaluadas, al considerar laestructura de las pruebas, puede abordar el problema declasificar las preguntas de acuerdo con tópicos de interésdesde el punto de vista educativo, humano, social, etc., lo que haceposible informar a quien las aborda sobre su desempeño relativo enesos tópicos de tal manera que pueda reorientar sus procesos

71 Linacre, J y Wright, B. Op. Cit.72 La dificultad de un item puede entenderse como el grado de exigencia (dela competencia) de una pregunta para ser respondida correctamente porquien la aborde.73 Consultar los otros documentos de esta serie

57

Sicometria

esenciales.Este desempeño relativo puede ser significativamente superior oinferior al esperado, que podría interpretarse como una fortaleza odebilidad relativa. Se considera que es significativamente superior oinferior, si las diferencias entre su desviación de la media para ungrupo de preguntas y su desviación de la media global (C) es supe-rior al doble del error estándar de las diferencias entre estasdesviaciones74

En el análisis de resultados de la ejecución de los estudiantes,por departamento, en los grupos de preguntas, algunos se citabancomo con rendimientos superiores o inferiores al global. En estoscasos los depar tamentos se citaban como desviados de surendimiento global si las diferencias entre su desviación de la mediapara un grupo de preguntas y su desviación de la media global (C)es superior al doble del error estándar de las diferencias entre estasdesviaciones.Este tipo de resultado, de tipo cualitativo, se procesará únicamentepara las pruebas comunes y se hará a nivel del estudiante, a nivelde la institución educativa (colegio), a nivel departamental y a nivelnacional, de tal manera que se disponga de información que permitacualificar los procesos educativos o las decisiones que se tomen eneste ámbito.

NIVEL DE COMPETENCIAara cada una de las pruebas del núcleo común sedeterminará el nivel de competencia de cada estudiante encada una de las competencias que mida la prueba.

El nuevo examen tiene como objeto de evaluación las competen-cias de los estudiantes en contextos disciplinares. Esto implica quese construyan preguntas, en cada prueba, que midan cada una delas competencias descritas en los marcos conceptuales de laspruebas.El sof tware Winsteps calcula la habilidad de los estudiantes encada una de las competencias evaluadas en cada prueba, las quese pueden relacionar con niveles particulares de competencia quese establecen con base en el procedimiento de anclaje de preguntas.

74 Ber trand y Dupuis. 1988. A world of dif ferences. Technical report. ETS.New Jersey.

58

Sicometria

El resultado es descriptivo (cualitativo) y proporcionará un mapadel desempeño de los estudiantes en las diferentes competenciasevaluadas.GRADO DE PROFUNDIZACIÓN

ste resultado se procesará para la línea de profundizacióndel componente flexible. En esta línea, como se mencionó,se incluyen preguntas de mayor exigencia (mayor dificultad)de tal manera que los resultados puedan ser utilizados comoindicadores de fortalezas y contribuyan al proceso de elección deopción profesional.En cada una de las pruebas de esta línea se podrán reconocerdiferentes grados de profundización alcanzados por los estudiantesy que indican el grado de complejidad que pueden abordar y re-solver correctamente.Los grados de profundización se establecen a partir de los nivelesde dificultad de las preguntas y existirá una descripción cualitativadel significado, en términos de complejidad, de cada grado. Paracada prueba, se establecerán 3 grados diferentes.

SICOMETRIApaidagogos.co/banco_pruebassaber/Examen estado 2000 - Sicometria.pdf · Terman, profesor...

Documents

Transcript of SICOMETRIApaidagogos.co/banco_pruebassaber/Examen estado 2000 - Sicometria.pdf · Terman, profesor...