Anexo ENLACE EB

of 202 /202
Las pruebas ENLACE para educación básica Una evaluación para el Instituto Nacional para la Evaluación de la Educación ANEXO

Embed Size (px)

Transcript of Anexo ENLACE EB

  • Las pruebas ENLACE para educacin bsica

    Una evaluacin para el Instituto Nacional para la Evaluacin de la Educacin

    ANEXO

  • ANEXOCuaderno de investigacin

    Felipe Martnez RizoCoordinador

    Luis ngel Contreras Nio Eugenio GonzlezJess M. Jornet Meli Ma. Regina Martnez Casas

    J. Felipe Martnez Fernndez Francisco E. Reyes JimnezLucrecia Santibez Guillermo Solano Flores Marianne Sandy Taut Agustn Tristn Lpez

    Universidad Autnoma de Aguascalientes

    40

    Las pruebas ENLACE para educacin bsica

    Una evaluacin para el Instituto Nacional para la Evaluacin de la Educacin

  • D.R. Instituto Nacional para la Evaluacin de la EducacinBarranca del Muerto 341, Col. San Jos Insurgentes, Del. Benito Jurez; C.P. 03900 Mxico, D.F.

    EditoraMara Norma Ordua Chvez

    Correccin de estiloHugo Soto de la Vega

    FormacinMartha Alfaro Aguilar

    Impreso y hecho en Mxico. Distribucin gratuita. Prohibida su venta.

    Consulte el catlogo de publicaciones en lnea: www.inee.edu.mx

    La elaboracin de esta publicacin estuvo a cargo de la Direccin General de Difusin y Fomento de la Cultura de la Evaluacin. El contenido, la presentacin, as como la disposicin en conjunto y de cada pgina de esta obra son propiedad del INEE. Se autoriza su reproduccin parcial o total por cualquier sistema mecnico o electrnico para fines no comerciales y citando la fuente de la siguiente manera:

    Martnez Rizo, F. (Coord.) (2015). Las pruebas ENLACE para educacin bsica. Una evaluacin para el Instituto Nacional para la Evaluacin de la Educacin. Mxico: INEE.

    Las pruebas ENLACE para educacin bsicaUna evaluacin para el Instituto Nacional para la Evaluacin de la Educacin

    Primera edicin, 2015ISBN: En trmite

    CoordinadorFelipe Martnez Rizo

    Luis ngel Contreras Nio, Eugenio Gonzlez, Jess M. Jornet Meli, Ma. Regina Martnez Casas, J. Felipe Martnez Fernndez, Francisco E. Reyes Jimnez, Lucrecia Santibez, Guillermo Solano Flores, Marianne Sandy Taut, Agustn Tristn Lpez

  • 5

    ndice

    Presentacin .................................................................................................................. 7

    Introduccin ................................................................................................................ 11

    Alineacin a los referentes ......................................................................................... 22Aspectos psicomtricos .............................................................................................. 57Atencin a la diversidad cultural ............................................................................... 79Aplicaciones ................................................................................................................ 95Usos y consecuencias ................................................................................................ 118

    Conclusiones y recomendaciones ............................................................................ 164

    Referencias bibliogrficas ......................................................................................... 168

    AnexosCriterios y subcriterios de evaluacin .............................................................................................. 173Microanlisis de reactivos de Espaol ............................................................................................. 181Microanlisis de reactivos de Matemticas ...................................................................................... 191

  • DIRECTORIO

    JUNTA DE GOBIERNO

    Sylvia Irene Schmelkes del ValleCONSEJERA PRESIDENTA

    Eduardo Backhoff EscuderoCONSEJERO

    Gilberto Ramn Guevara NieblaCONSEJERO

    Margarita Mara Zorrilla FierroCONSEJERA

    Teresa Bracho GonzlezCONSEJERA

  • 7

    Presentacin

    En diciembre de 2009 la Universidad Autnoma de Aguascalientes (UAA) y el Instituto Nacional para la Evaluacin de la Educacin (INEE) firmaron un convenio que establece las bases para que ambas instituciones se apoyen para el cumplimiento de sus objetivos, buscando el mejoramiento de la calidad de la educacin en Mxico, incluyendo actividades de investigacin, evaluacin y difusin de resultados. En ese marco, el INEE encomend a la UAA la realizacin del Estudio de validacin de las pruebas ENLACE y EXCALE de educacin bsica, para lo cual el 1 de octubre de 2013 se firm un Anexo de Ejecucin del convenio mencionado.

    Dicho Anexo de Ejecucin, con base en el cual se lleva a cabo el trabajo al que se refiere este informe, precisa que el estudio de validacin de las pruebas ENLACE y EXCALE de educacin bsica analizar varios aspectos de la calidad de dichas pruebas, con base en la documenta-cin que sobre su diseo, aplicacin, resultados y la utilizacin y consecuencias de los mismos aporten la SEP y el INEE y, en la medida en que sea necesario, en informacin adicional propor-cionada por personas de la SEP, el INEE y los sistemas educativos de las entidades federativas del pas, en relacin con aspectos de los que no haya elementos suficientes en la informacin documental que se recabe.

    El estudio incluir recomendaciones que tengan en cuenta las mejores prcticas internaciona-les... de manera que el desarrollo del sistema nacional de evaluacin de Mxico, en lo relativo a educacin bsica, incluya evaluaciones de aprendizajes en gran escala que, por la calidad de su diseo y aplicacin, as como por el uso que se haga de sus resultados, contribuyan en la mayor medida posible al propsito de mejorar la calidad de la educacin mexicana.

    Se precisa que el Estudio deber comprender al menos cinco aspectos:

    1. La alineacin al currculo de la educacin bsica de Mxico, revisando el grado en que las pruebas atienden adecuadamente y segn la naturaleza de una evaluacin en gran escala, los campos formativos, las asignaturas y los niveles de demanda cognitiva consi-derados en los planes y programas de estudio de la educacin bsica nacional.

    2. Los aspectos tcnicos de las pruebas, como la calidad de los reactivos que las integran, la de las versiones de las pruebas, las escalas y modelos psicomtricos utilizados, las tcnicas de equiparacin, entre otros.

    3. La forma en que las pruebas atienden las diferencias culturales y lingsticas que hay entre los estudiantes de un sistema educativo de grandes dimensiones, en un pas que se define como multicultural, y las implicaciones de lo anterior.

    4. La forma en que se llevan a cabo las aplicaciones de las pruebas, tanto censales como muestrales, y las implicaciones que tienen para la calidad de los resultados.

    5. La forma en que se difunden los resultados de las pruebas, los anlisis de factores aso-ciados y el uso que se hace de dichos resultados, as como las consecuencias que ha trado consigo su utilizacin en el sistema educativo.

  • 8

    Las

    pru

    ebas

    EN

    LA

    CE

    par

    a ed

    uca

    ci

    n b

    sic

    a

    El trabajo comprendera cuatro etapas, que terminaran en noviembre de 2013, y en marzo, julio y septiembre de 2014, respectivamente.

    El Anexo de Ejecucin sealaba tambin que la UAA debera proponer al INEE a diez especialis-tas, mexicanos y extranjeros, formando cinco parejas, cada una a cargo del anlisis de uno de los aspectos del estudio, y precisaba el perfil que deberan tener los propuestos. La Universidad propuso al Instituto a los autores de este trabajo y el INEE comunic a la UAA su aprobacin de las personas propuestas. En el informe entregado en noviembre de 2013 se puede ver el programa detallado de trabajo y, en anexo, las hojas de vida de los participantes.

    Los cinco apartados principales de este documento presentan el anlisis hecho por los especia-listas en relacin con los criterios anteriores. El anlisis se hizo entre diciembre de 2013 y marzo de 2014, e implic las siguientes actividades:

    En diciembre de 2013 y enero de 2014 cada par de especialistas trabaj revisando la documentacin sobre ENLACE proporcionada por la Direccin General de Evaluacin de Polticas Educativas de la SEP, cuyo detalle se present en el primer informe entregado el 30 de noviembre de 2013.

    En paralelo, personal de la UAA transcribi las entrevistas que se hicieron en la etapa anterior a funcionarios de las secretaras de educacin de diez estados de la repblica y el Distrito Federal, as como a los de las instancias de la SEP y el INEE a cargo de las pruebas ENLACE y EXCALE.

    De diciembre 2013 a marzo 2014 el personal de la UAA envi tambin cuestionarios a los responsables de educacin bsica, y los de planeacin y evaluacin, de todas las en-tidades federativas y sistematiz sus respuestas. Se revisaron cinco diarios de circulacin nacional y se rescataron notas sobre la difusin de resultados de ENLACE.

    El 7 de febrero los cinco subgrupos de especialistas enviaron al coordinador una primera versin del anlisis de ENLACE basado en de los criterios que les correspondieron.

    El coordinador conjunt los avances recibidos en un documento integrado, que se envi en archivo magntico al grupo el 12 de febrero.

    La primera versin del documento integrado se discuti en una reunin presencial de todos los miembros del grupo los das 14 y 15 de febrero. En esta ocasin todos los es-pecialistas pudieron dar su opinin sobre cualquier aspecto considerado en la validacin de las pruebas ENLACE de educacin bsica. Asistieron a la reunin la Lic. Ana Mara Aceves y el Lic. Carlos Goi, de la DGEP de la SEP, con el propsito de aclarar las dudas que les plantearan los miembros del grupo. Se acord que los especialistas mandaran al coordinador listas con solicitudes de informacin adicional que se haran llegar a la DGEP.

    El 24 de febrero el coordinador envi al INEE la lista de solicitudes de informacin, que al da siguiente se hizo llegar a la DGEP.

    El 28 de febrero la DGEP hizo llegar al INEE los elementos de los que dispona de la infor-macin que se le solicit.

    Del 17 de febrero al 15 de marzo los especialistas prepararon una segunda versin del anlisis de ENLACE respecto a los criterios que corresponden a cada subgrupo, y el coor-dinador prepar la presentacin y la introduccin de este informe.

    El 16 de marzo los cinco subgrupos hicieron llegar al coordinador sus respectivos productos. Del 17 al 19 de marzo, con los elementos recibidos y los preparados por l mismo, el

    coordinador elabor una versin integrada del segundo informe, que envi a los espe-cialistas en archivo magntico el mismo 19 de marzo.

  • 9Presentacin

    El 22 de marzo tuvo lugar una reunin virtual en la que todos los especialistas hicieron observaciones a la versin integrada recibida.

    El coordinador incorpor las observaciones hechas en la reunin virtual y las que hicieron llegar los miembros del grupo y con ello integr esta versin del segundo informe, que se envi al INEE el 31 de marzo de 2014.

    Debe subrayarse que el informe entregado en marzo de 2014 no tena el carcter de versin final del anlisis de las pruebas ENLACE encomendado al grupo de autores que lo suscribimos, por dos tipos de razones:

    La brevedad de los tiempos disponibles para el trabajo, acotados por los momentos en que se recibi la informacin documental de que se dispuso y la informacin adicional recabada por el personal de la UAA.

    Y porque la formulacin de las consideraciones que haramos al INEE en cuanto al futuro que creemos deseable para la evaluacin de aprendizajes deberan tener en cuenta el anlisis de las pruebas ENLACE, pero tambin el de las de EXCALE, que seran objeto de la atencin del grupo en la etapa siguiente del proyecto, de abril a junio de 2014.

    En consecuencia, al final del proyecto los informes previos se podran modificar para incluir ele-mentos que complementaran los de los informes entregados al fin de cada etapa, enriqueciendo o matizando algunos puntos en particular. Por otra parte, los cambios que el INEE y la UAA acor-daron hacer al convenio, para incluir entre las pruebas a analizar las de ENLACE para educacin media superior, hicieron que las etapas se extendieran a cinco, y la entrega de los productos finales se fijara para el 19 de diciembre de 2014.

    Por todo lo anterior, esta nueva versin del informe sobre ENLACE que se entrega en diciembre de 2014, junto con el informe final, retoma el informe de marzo con ligeras modificaciones, como se prevea. Las ms importantes se refieren a los apartados I y II, como resultado del ajuste que se hizo de los criterios y subcriterios correspondientes, por lo que en esta versin algunos puntos de dichos apartados se han reubicado.

    Reiteramos que nuestros anlisis y valoraciones se refieren siempre a nuestro objeto de estudio en este informe las pruebas ENLACE y de ninguna manera a las numerosas personas involucra-das en su desarrollo, su aplicacin y el procesamiento de resultados. Adems, el trabajo que se nos encomend tiene un propsito claro de carcter tcnico, y no uno de rendicin de cuentas, para el que sera indispensable otro enfoque, ya que las deficiencias que se hayan podido identificar pudieron deberse en buena medida a las dimensiones de los operativos, as como a los tiempos y otros condicionantes externos, pese a las intenciones y los esfuerzos de las personas responsables.

    Por ltimo sealamos que este informe y los dems del proyecto son producto del trabajo colec-tivo del grupo, si bien cada par de especialistas tuvo una participacin principal en el apartado que le corresponda. Los momentos de discusin colectiva permitieron enriquecer las aportacio-nes de cada persona con la visin del resto, lo que llev a un grado de consenso considerable, aunque no absoluto.

    Felipe Martnez RizoAguascalientes, diciembre de 2014

  • 11

    Introduccin

    Un paso inicial obligado para emprender el trabajo que se encomend al grupo de autores de este informe, fue precisar la nocin de validacin, que remite de inmediato a las de confiabilidad y validez. stas son las cualidades bsicas de toda buena medicin, pero se trata de dos nociones muy complejas, que han evolucionado a lo largo de un siglo y que an hoy diferentes especialistas entienden de distinta manera, por lo que consideramos necesario explicitar nuestra propia comprensin y la forma en que las aplicaremos en nuestro trabajo.

    LA VALIDEZAunque hay autores que cuestionan la utilidad de la nocin, debido a la diversidad de formas de entenderla, la opinin que compartimos est de acuerdo en que la cualidad fundamental de una medicin es, precisamente, la validez que, como se ver en seguida, supone la confiabili-dad, sin reducirse a ella.

    Hasta los aos cincuenta del siglo XX el concepto de validez se enfocaba a la prediccin de un criterio particular, como muestra la definicin de Guilford: en un sentido general, una prueba es vlida para cualquier cosa con la que se correlaciona (Messik, 1989: 18).

    En 1966 la American Psychological Association (APA) y la American Educational Research Asso-ciation (AERA) publicaron la primera versin de sus Standards for Educational and Psychological Tests, en la que se distinguan tres tipos de validez: de contenido, de criterio (concurrente o predictiva), y de constructo.

    Un lustro ms tarde uno de los grandes autores del campo define la validacin como el proceso de examinar la exactitud de una prediccin especfica o una inferencia hecha a partir de la pun-tuacin de una prueba o de los resultados de un instrumentos de medicin, como cuestionarios, observaciones y calificaciones de desempeo (Cronbach, 1971: 433).

    Este autor sealaba que el trmino validacin de una prueba refleja una comprensin imprecisa del concepto. El investigador no valida una prueba, sino la interpretacin de datos derivados de un procedimiento especfico. Un instrumento puede usarse de diferentes maneras. Una prueba de lectura, por ejemplo, puede ser usada para seleccionar a los aspirantes de cierta carrera pro-fesional, para planear instruccin remedial en lectura, para medir la efectividad de un programa de enseanza, entre otras posibilidades. Dado que cada uso se basa en una interpretacin dife-rente, la evidencia que justifica una utilizacin puede tener poca relevancia para otra. Y al tener cada interpretacin su propio grado de validez no se puede llegar a la simple conclusin de que una determinada prueba es vlida sin ms.

    En las dcadas de 1970 y 1980 las definiciones de validez se centraron en los tipos menciona-dos: de contenido, criterio (predictiva y concurrente) y constructo, con preponderancia creciente

  • 12

    Las

    pru

    ebas

    EN

    LA

    CE

    par

    a ed

    uca

    ci

    n b

    sic

    a

    del ltimo. Luego el foco de la validez se centr en el significado o interpretacin de los puntajes obtenidos con un instrumento de medicin, pero se mantuvo el nfasis en la validez de construc-to, como la esencia de una concepcin unitaria de validacin, que se resume en la conclusin de Cronbach (1988): toda validacin es una sola.

    A fines de la dcada de 1980, segn Messick, la validez de contenido se valora cuando se analiza qu tan bien un instrumento muestrea el contenido, situaciones o asignaturas sobre las que se debern sacar conclusiones. Se basa en el juicio profesional acerca de la relevancia del contenido que incluye una prueba para medir un dominio de inters y si las tareas que solicita la prueba representan adecuadamente dicho dominio.

    La validez de criterio se evala al comparar los puntajes de la prueba con una o ms variables externas llamadas criterio, que pueden ser medidas al mismo tiempo o posteriormente que se considera proveen una medicin diferente de las conductas o caractersticas en cuestin.

    La validez de constructo es evaluada al indagar el grado en que un instrumento mide un cons-tructo o variable compleja latente. Se basa en la integracin de toda evidencia que apoye la interpretacin o significado de las puntuaciones, que no son consideradas equivalentes al constructo que se mide, sino que son posibles indicadores de una variable latente.

    La validez de constructo subsume la de contenido relevancia y representacin de un dominio y la de criterio, porque la informacin que se obtiene mediante ellas contribuye a la interpretacin de los puntajes. Por tanto, la validez de constructo incluye la mayora de las evidencias de validez.

    Una evidencia particular se refiere a la validez de escala que tiene dos vertientes:

    Por una parte, la eleccin de la escala especial para cada proyecto, que permite reportar en ella los resultados globales y parciales, sin utilizar porcentajes o notas 0-10. En la validez de escala, los conceptos de validez de la prueba (contenido, criterio y constructo) se extienden a la propia escala de manera que tambin se asocie con el constructo, permitiendo representar diferencias de desempeo de las personas y los tems.

    Por otra parte, la validez de escala (validez prctica o de utilidad de la escala), que se refiere a las evidencias que se aportan para demostrar que el instrumento cuenta con tems en toda la gama de dificultades, y preferentemente con una distribucin uniforme, lo cual proporciona una garanta de que no hay sesgo a priori (una prueba fcil o una prueba difcil desde el diseo); que se cubre toda la escala de medidas para todos los sustentantes desde el de menor hasta el de mayor competencia; y que el diseo no presenta saltos y apilamientos de reactivos, redu-ciendo la validez de la medida en algunos de los puntos de la escala. (Bond y Fox, 2001; Dawis, 1987; Johnson, 2004; Linacre, 2006; Tristn y Vidal, 2007; Wright y Stone, 2004)

    Aunque hay diferentes fuentes y mezclas de evidencias que soportan las inferencias realizadas a partir de las puntuaciones, la validez es un concepto unitario que siempre refiere al grado en que la evidencia emprica y el fundamento terico apoyan lo adecuado de las interpretaciones y acciones realizadas a partir de las puntuaciones de un instrumento (Messick, 1989: 13).

    Adems la validez es cuestin de grado, no de todo o nada. Con el tiempo la evidencia de validez se puede fortalecer o debilitar por nuevos hallazgos, y las proyecciones de las posibles

  • 13Introduccin

    consecuencias sociales de las evaluaciones se transforman a partir de la evidencia sobre con- secuencias reales en la actualidad y las cambiantes condiciones sociales. Entonces, inevitable-mente, la validez es una propiedad en evolucin, y la validacin un proceso continuo.

    En la versin ms reciente de los Standards for Educational and Psychological Testing la validez se define como el grado en que evidencia y teora respaldan las interpretaciones de los puntajes de una prueba y los usos que se pretende hacer de ellos (AERA-APA-NCME, 1999: 9). Esta definicin coincide con la visin de Messick (1989) y la ms reciente de Kane (2006), en el sentido de que el proceso de validacin debe enfocarse a la interpretacin y los usos de las puntuaciones obtenidas mediante un instrumento de medicin.

    Kane, uno de los principales tericos del tema, seala que validar una interpretacin o uso de los puntajes de una prueba es evaluar la plausibilidad de las afirmaciones que se harn a partir de esos puntajes. Por lo tanto, la validacin requiere una clara declaracin de los propsitos para los que se emplearn las interpretaciones y usos de los resultados (2013: 1).

    Este mismo autor seala que el enfoque de validacin basada en evidencias se apoya en ocho ideas, de las cuales la primera es que lo que se valida no es una prueba en s misma o sus pun-tajes sino la interpretacin de stos y el uso que se haga de ellos. En este documento conviene destacar otras dos de esas ideas: que las afirmaciones ms ambiciosas requieren de mayores evidencias que las soporten que las menos ambiciosas; y que las afirmaciones ms ambiciosas como las inferencias sobre constructos o las causalessuelen ser ms tiles que las afirmacio-nes menos ambiciosas, pero son ms difciles de validar.

    Las conceptualizaciones actuales de validez incluyen las consecuencias sociales e individuales deseadas y no previstas que trae consigo el uso de una prueba (Kane, 2013; Moss, 2008; Sireci, 2013). La validez de consecuencias apareci en los estndares AERA-APA-NCME de 1999, pero ya Messick consideraba irnico que los estudios de validez pusieran poca atencin a los usos y consecuencias de los resultados de pruebas, ya que la validez al inicio se conceba en trminos funcionales: qu tan bien la prueba hace la tarea para la que fue diseada.

    Una dimensin ms de la nocin es la que denota la expresin validez cultural, definida como el grado en que el diseo, el proceso de desarrollo y el contenido de una prueba toman en consideracin la forma en que factores de naturaleza cultural, lingstica y socioeconmica dis-tintos de los constructos de inters influyen en la manera en que se interpreta el contenido de los tems y la forma en que se responden (cfr. Basterra, Trumbull y Solano-Flores, 2011). Messick apuntaba ya que el proceso que siguen los sujetos al responder una prueba es un aspecto de la validez, distinto tanto de la validez de contenido como de la que tiene que ver con la estruc-tura interna y externa del test o con las consecuencias de su uso. Anticipaba as una dimensin a la que solo en tiempos recientes se presta atencin, si bien esta es creciente.

    LA CONFIABILIDAD

    El concepto de confiabilidad fue introducido por el psiclogo britnico Charles Spearman, quien lo defini como el coeficiente de correlacin entre una mitad y la otra de varias mediciones de la misma cosa (Stanley, 1971: 370).

  • 14

    Las

    pru

    ebas

    EN

    LA

    CE

    par

    a ed

    uca

    ci

    n b

    sic

    a

    Thorndike comenzaba definiendo la confiabilidad a partir de su opuesto, diciendo:

    Cada vez que medimos algo... esa medicin tiene cierta cantidad de error aleatorio, grande o pequeo, pero omnipresente... las discrepancias pueden expresarse en millas o en millo-nsimas de milmetro, pero aparecern siempre, si las unidades son suficientemente finas en relacin con la precisin de las medidas. El que conjuntos repetidos de medidas nunca se dupliquen exactamente es lo que se quiere decir con la expresin no confiabilidad. Al mismo tiempo, medidas repetidas de una serie de objetos o individuos mostrarn, por lo general, cierta consistencia... lo opuesto a la variacin a la que nos acabamos de referir, y que designaremos como confiabilidad (Thorndike, 1951, p. 560).

    Thorndike permite distinguir dos cualidades relacionadas pero no idnticas de una medicin, su precisin y su consistencia, al sealar que se puede calcular el tamao de los errores de medi-cin mediante la desviacin estndar de la distribucin de los resultadosel error estndar de la medicin o estimar la consistencia entre dos conjuntos de puntuaciones, segn su correla-cin, mediante un coeficiente de confiabilidad.

    A partir de trabajos de Kelley desde la dcada de 1920, Thorndike explica la relacin entre coeficiente de confiabilidad y error de medicin, que ayuda a evitar interpretaciones simplistas del primero, ya que coeficientes de confiabilidad altos, de 0.8 y 0.9, corresponden a errores de medicin de 0.45 y 0.32. Con un nmero considerable de casos y diferencias pequeas de los puntajes de cada uno, lo anterior implica que habr importantes traslapes entre los interva- los de confianza, haciendo poco claros los ordenamientos de los resultados.

    Stanley presenta frmulas para el clculo de la confiabilidad en situaciones particulares, mos-trando las ventajas y desventajas de cada una as como la equivalencia de algunas, incluyendo la ms conocida, el coeficiente alfa, introducido en 1951 por Cronbach. (Stanley, 1971)

    Dos dcadas ms tarde Feldt y Brennan presentan 12 coeficientes de consistencia interna para casos particulares (subdivisin de una prueba en dos, tres o ms partes), y presentan la Teora de la Generalizabilidad (TG), basada en trabajos de Cronbach y otros desde la dcada de 1960 (1989: 115). La TG, para ellos:

    ...puede ser vista como una extensin y liberalizacin de la teora clsica, que se logra bsicamente gracias a la aplicacin del anlisis de varianza a los datos de la medicin. En la teora clsica el error de medicin se ve como una entidad unitaria, global, aunque se reconoce que se deriva de una combinacin de fuentes. En contraste, los modelos y mtodos de la teora de la generalizabilidad se interesan por los errores derivados de esas mltiples fuentes como entidades separadas... (1989: 127-128)

    Recientemente Haertel seala que los principios clsicos y de la TG siguen siendo vlidos, y se-ala que las teoras o modelos de respuesta al tem constituyen una forma distinta de abordar la confiabilidad. (2006: 99-103)

    En otro trabajo reciente, Brennan seala que, al igual que ocurre con la validez, la confiabilidad tampoco es una propiedad que se pueda predicar de una prueba u otro instrumento cualquiera de obtencin de informacin. La consistencia con la que se define la nocin se refiere a los datos que se obtienen, los puntajes de los alumnos que sustentan una prueba o las respuestas que se dan a una encuesta.

  • 15Introduccin

    Brennan considera las implicaciones que tiene para la comprensin de la nocin de confia-bilidad la nocin de rplica, en el sentido de un proceso de medicin que duplique lo ms exactamente que sea posible las condiciones de una aplicacin previa. Las palabras en cursiva de la frase anterior parten de la idea de que es imposible conseguir una rplica perfecta, ya que una nueva aplicacin implicar inevitablemente cambio en al menos algunos aspectos del proceso. Esta idea es similar a la que forma el centro de la Teora de la Generalizabilidad, la de que no hay un solo tipo de error en el resultado de cualquier medicin sino varios, que se pueden derivar de mltiples fuentes: el instrumento, desde luego, pero tambin las oca-siones en que se hace una aplicacin, incluyendo la original y sus rplicas, los aplicadores o calificadores, entre otras. Por ello Brennan sostiene que la nocin de rplica es fundamental para la definicin de confiabilidad, que l expresa como sigue: la confiabilidad es una medida del grado de consistencia de los puntajes de los sustentantes en las rplicas del procedimiento de medicin (Brennan, 2001: 296). Es el procedimiento completo de medicin, y no solo el instrumento, lo que puede afectar la consistencia de los resultados. Brennan concluye:

    En mi opinin no puede haber respuestas significativas a las preguntas sobre la confiabi-lidad sin una consideracin expresa de la naturaleza de las rplicas (planeadas y efectivas) de un procedimiento de medicin. Por lo tanto un marco coherente para conceptualizar, calcular e interpretar la confiabilidad requiere que se responda la pregunta de qu consti-tuye una rplica de un procedimiento de medicin. (Brennan, 2001: 313)

    RELACIN ENTRE VALIDEZ Y CONFIABILIDAD

    Se acepta generalmente que puede haber confiabilidad sin validez, pero no al contrario: la ausen-cia de confiabilidad impide que haya validez. Para comprender esta idea conviene remitirse a la definicin ms sencilla de validez, que dice que sta consiste en medir realmente lo que se quiere.

    Puede parecer ilgico que alguien pueda medir algo que no quiere, pero si se reflexiona sobre la complejidad de muchas variables que se estudian en ciencias humanas, as como en su ca-rcter no evidente sino latente (constructo), se podr estar de acuerdo en que las definiciones operacionales de esas variables, y los indicadores en que se concretan, no siempre reflejan adecuadamente la realidad subyacente, por lo que la informacin que se podr obtener con un instrumento desarrollado a partir de tales operacionalizaciones medir en realidad algo distinto de lo que el investigador pretenda medir. Esa medicin podr ser consistente, o sea que podr tener confiabilidad, pero carecer de validez.

    Ahora bien: la falta de confiabilidad de una medicin indica que la proporcin de error o de ruido en la informacin obtenida es demasiado grande. La ausencia de confiabilidad indica que no se est midiendo en realidad ninguna variable, ni la que se pretenda ni otra, ya que los resultados se deben al azar tanto o ms que a cualquier factor determinado.

    Para decirlo de otra forma: la falta de confiabilidad implica tambin ausencia de validez. Por ello una buena validacin no podr considerarse suficiente si no incluye un slido anlisis de la confiabilidad.

  • 16

    Las

    pru

    ebas

    EN

    LA

    CE

    par

    a ed

    uca

    ci

    n b

    sic

    a

    LA VALIDACIN COMO CUIDADO INTEGRAL DE LA CALIDAD DE UNA MEDICIN

    El marco de referencia adoptado por el grupo se basa en las ideas sintetizadas en los prrafos an-teriores, as como de un enfoque para la validacin que proponan hace casi dos dcadas Crooks, Kane y Cohen:

    La validez es la cualidad ms importante de una evaluacin educativa (assessment), pero frecuentemente se descuida su valoracin. El enfoque paso-por-paso que se sugiere ofre-ce una gua estructurada a quienes deban validar evaluaciones educativas. El proceso de una evaluacin educativa se describe como una cadena de ocho etapas eslabonadas en-tre s: administracin de la prueba, calificacin, agregacin de resultados, generalizacin, extrapolacin, juicios de valor, decisiones e impacto. Valorar la validez del conjunto im-plica considerar con cuidado las amenazas a la validez asociadas a cada eslabn. En una forma que busca ser ilustrativa ms que exhaustiva se describen y ejemplifican algunas de esas amenazas para cada eslabn. El modelo de la cadena sugiere que la validez del conjunto se ve limitada por el eslabn ms dbil, y que los esfuerzos por hacer particular-mente fuertes solo algunos eslabones pueden ser estriles e incluso dainos. Se muestra tambin que el modelo de la cadena y la lista de amenazas pueden ser tiles al planear una evaluacin educativa. (1996)

    La tabla 1 sintetiza los pasos que implica el uso de una prueba para evaluar del aprendizaje, desde el desarrollo del instrumento hasta la toma de decisiones con base en los resultados.

    Los pasos incluyen los que mencionan Crooks, Kane y Cohen pero se aaden otros. Con las adecuaciones necesarias, la serie de pasos se puede aplicar a cualquier proceso de obtencin de informacin emprica mediante instrumentos estructurados. Se distinguen cinco etapas cada una de las cuales comprende tres pasos particulares.

    Fuente: Elaboracin propia.

    Etapas Pasos particulares

    Planeacin de la evaluacin

    Precisin del propsito(s) de la evaluacin

    Definicin de la poblacin objetivo y, en su caso, la muestra

    Decisiones tcnicas: tipo de prueba, modelo psicomtrico...

    Diseo de los instrumentos

    Definicin de los dominios a evaluar

    Especificacin de esos dominios

    Diseo de las pruebas: tems, escalas, niveles de logro...

    Recoleccin de la informacin

    Reproduccin de las pruebas

    Seleccin y capacitacin de aplicadores

    Aplicacin misma

    Procesamiento de la informacin

    Calificacin de respuestas

    Agregacin de resultados

    Generalizacin, extrapolacin

    Usos de los resultados

    Juicios de valor

    Decisiones

    Impacto

    Tabla 1 Pasos de una evaluacin de aprendizajes mediante pruebas

  • 17Introduccin

    La nocin del eslabn ms dbil a la que alude el texto de Crooks, Kane y Cohen es importante: basta con que un paso tenga fallas graves para que el resultado se vea comprometido, aunque todos los dems pasos sean adecuados. Un error grave de impresin, irregularidades fuertes en la aplicacin, problemas de logstica o fallas en la calibracin de un lector ptico pueden distor-sionar los resultados de la aplicacin de una prueba bien diseada, que use un modelo psico-mtrico muy slido, con un sofisticado muestreo y otras cualidades tcnicas. Lo mismo puede decirse si se utiliza una clave de respuestas equivocada, o si se cometen errores importantes al analizar los datos. Tambin se puede llegar a juicios de valor injustos con informacin correcta y sta no basta para evitar la toma de decisiones que generen resultados contraproducentes o produzcan daos considerables.

    As pues, una validacin completa de evaluaciones como ENLACE y EXCALE no se puede reducir a revisar la calidad de los instrumentos: debe incluir la aplicacin, el procesamiento de la infor-macin y el uso de resultados, lo que para hacerse a fondo implica tiempos amplios y el trabajo de numerosos investigadores.

    LOS CRITERIOS UTILIZADOS EN EL TRABAJO

    En un contexto de tiempo y recursos limitados el trabajo no puede ser exhaustivo, pero s pre-tendemos ofrecer un conjunto de juicios suficientemente sustentados en la informacin docu-mental a que tuvimos acceso y en la que obtuvimos mediante entrevistas con personal a cargo de las pruebas y con funcionarios de algunas entidades federativas y/o cuestionarios aplicados en la mayor parte de estas.

    Consideramos que las conclusiones a las que pudimos llegar estn sustentadas con suficiente solidez en tales evidencias, y permitirn tener una idea bastante completa sobre las pruebas a las que se refiere el proyecto y, en el caso de este informe, en particular sobre las prue- bas ENLACE de educacin bsica. Inicialmente, a partir de una revisin de la literatura especializada, se lleg a una propuesta de 72 criterios particulares que seran la base para llevar a cabo el estudio, sin contar tres criterios adicionales de carcter general. De esos criterios 11 se referan a la alineacin de las pruebas al currculo; 16 a aspectos psicomtricos de las pruebas; 12 a la atencin a la diversidad; 16 tenan que ver con las aplicaciones y sus implicaciones para confiabilidad y validez; y 17 se referan a los usos y consecuencias de las pruebas. A lo largo del trabajo el listado de criterios definido inicialmente se modific, con 59 criterios y 102 subcriterios. Con el ajuste final se lleg a un conjunto de 58 criterios y 97 subcriterios para las cinco reas que cubri el estudio, como sigue:

    reas Criterios Subcriterios

    Alineacin a los referentes 11 25

    Aspectos psicomtricos 8 33

    Atencin a la diversidad 12

    Aplicaciones 16 39

    Usos y consecuencias 11

    TOTALES 58 97

    Tabla 2 reas, criterios y subcriterios utilizados

  • 18

    Las

    pru

    ebas

    EN

    LA

    CE

    par

    a ed

    uca

    ci

    n b

    sic

    a

    La lista de los 58 criterios, sin los subcriterios, es la siguiente:

    ALINEACIN A LOS REFERENTES

    1. Se cuenta con un documento que revisa la teora del contenido (curricular u otro) y es el marco terico que orienta el desarrollo de la prueba.

    2. Se presenta evidencia de la forma en que se definen las especificaciones de la prueba en trminos de objetivos, competencias u otro referente.

    3. Se explica el procedimiento usado para determinar la importancia relativa de los con-tenidos que se decidi evaluar, o se incluye anlisis de unidades del dominio y su densidad diferencial.

    4. Se asegura la representatividad de los tems y las subescalas respecto a los subdominios y el dominio definidos.

    5. Se cuida la alineacin en cuanto a la complejidad cognitiva del contenido.6. Existe un documento manual o gua de redaccin o diseo de reactivos en el que se

    especifican y justifican los procedimientos para formularlos.7. Los reactivos son diseados por un comit seleccionado teniendo en cuenta la espe-

    cializacin acadmica, laboral y su representatividad respecto a la diversidad del pas, y estuvo coordinado por una persona calificada.

    8. Existe un manual o gua para el anlisis de reactivos que seala los criterios de acepta-cin, revisin y modificacin.

    9. Hay un comit de revisin calificado para aplicar lo que define el manual.10. La revisin de tems incluye anlisis de calidad tcnica, congruencia tem-contenido,

    posibles fuentes de sesgo y concordancia de juicio de revisores. 11. Se cuida la alineacin de la prueba en general.

    ASPECTOS PSICOMTRICOS

    1. Se documentan las evidencias relativas a los diversos tipos de validez que se consideran usualmente en la medida en que sean aplicables.

    2. Se cuenta con anlisis integrales de los procesos y mtodos utilizados para desarrollar las pruebas, definiendo equivalencia y periodicidad.

    3. Se documentan los procedimientos utilizados para la calibracin de las pruebas y para el anlisis psicomtrico.

    4. Se ofrece informacin sobre la confiabilidad de las pruebas.5. Se documentan los procedimientos para el anlisis psicomtrico de los tems y para el

    cuidado de su calidad.6. Se ofrecen evidencias sobre la calidad de los bancos de tems.7. Se informa sobre los procedimientos seguidos para la calificacin de los sujetos que

    responden las pruebas.8. Se justifica lo relativo al establecimiento de los niveles de desempeo y la interpretacin

    de resultados de las pruebas.

  • 19Introduccin

    ATENCIN A LA DIVERSIDAD

    1. El marco conceptual de la prueba toma en cuenta cmo la efectividad en el aprendizaje, la enseanza y la evaluacin de un contenido estn influidos por la experiencia socio-cultural del estudiante y su familiaridad con la lengua y el dialecto en que se administran las pruebas.

    2. Como parte del desarrollo de la prueba se establecen las caractersticas de la poblacin objetivo, que consideran la diversidad cultural y lingstica del pas y los mltiples con-textos y escenarios culturales y ambientales.

    3. Como parte del desarrollo se usan referentes tericos y conceptuales sobre cultura y lengua y se establecen procedimientos para tomar en consideracin la diversidad cul-tural, lingstica y socioeconmica del estudiantado.

    4. Los documentos que establecen tipos y formatos de los tems proporcionan lineamientos para asegurar que la informacin grfica y contextual incluida en los tems sea familiar para la mayora del estudiantado y reflejen una amplia variedad de contextos culturales.

    5. Los equipos a cargo de desarrollar tems son multidisciplinarios; adems de expertos en contenido incluyen a profesionales con especialidades en el rea de la cultura (antrop-logos, lingistas) y maestros de minoras culturales y lingsticas y de escuelas rurales y de nivel socioeconmico bajo.

    6. Las muestras de estudiantes con los que se pilotean versiones preliminares de la prueba incluyen submuestras representativas de las minoras culturales, lingsticas y socioeco-nmicas del pas.

    7. El desarrollo de la prueba incluye entrevistas cognitivo-culturales a alumnos de diversos grupos culturales, lingsticos y socioeconmicos, para investigar si interpretan igual el contenido de muestras representativas de los tems.

    8. El proceso de revisin con jueces considera fuentes de sesgo cultural, lingstico y so-cioeconmico en muestras representativas de los tems.

    9. Se hacen anlisis de funcionamiento diferencial de una muestra de tems para diversos grupos focales: estudiantes de distintos grupos indgenas, de nivel socioeconmico bajo y de zonas rurales.

    10. Se hacen anlisis con Teora de la Generalizabilidad para determinar la confiabilidad y validez de las generalizaciones de calificaciones obtenidas con el mismo conjunto de tems para distintos grupos de estudiantes definidos por grupo tnico, localidad y nivel socioeconmico.

    11. Los tiempos y calendarios de las actividades que buscan tomar en cuenta la diversidad cultural, lingstica y socio-econmica son razonables y factibles.

    12. El desarrollo de las pruebas incluye mecanismos de correccin y mejora con base en la informacin obtenida al realizar la validacin cognitivo-cultural, la revisin, los anlisis de sesgo y los estudios de generalizabilidad.

    APLICACIONES

    1. Se cuenta con un listado de escuelas actualizado y confiable, sea para una aplicacin censal o como marco muestral.

    2. Cuando proceda, las muestras se disean utilizando diseos slidos; los estratos se definen con base en argumentos tericos defendibles.

    3. Se cuida que el conjunto de sujetos a los que se aplica la prueba coincida con el que se planific.

  • 20

    Las

    pru

    ebas

    EN

    LA

    CE

    par

    a ed

    uca

    ci

    n b

    sic

    a

    4. Se verifica que la muestra obtenida concuerde con la planificada dentro de mrge- nes aceptables.

    5. Se planifica todo lo necesario para estandarizar la aplicacin, con formas y materiales que aseguren la comparabilidad de los datos.

    6. Se cuenta con manuales que precisan todo lo relativo al personal a cargo de la recolec-cin de datos, en todos los niveles.

    7. Se fijan lmites realistas de la carga de responder pruebas y cuestionarios de contexto para que no sea excesiva tomando en cuenta los sujetos.

    8. Se busca motivar a sujetos para que no respondan preguntas a la ligera.9. Se desarrollan procedimientos para lidiar con la no-respuesta o rechazo a responder a

    la prueba y se entrena al personal de aplicacin para ello.10. Se desarrollan procedimientos para lidiar con la copia o cualquier otra forma de fraude

    y se entrena al personal de aplicacin para seguirlos.11. Se manejan procedimientos para asegurar la calidad de las aplicaciones.12. Hay manuales que detallan aspectos a cuidar para crear archivos segn normas inter-

    nacionales: introduccin de datos; identificadores de alumnos, maestros o escuelas; va-riables a incluir, cdigos vlidos, de datos faltantes o respuestas no aplicables; formato, estructura de archivos, limpieza, etc.

    13. Hay personal calificado para manejar los datos y se le entrena en todos los aspectos del trabajo, asegurando que est familiarizado con procedimientos aceptados para manejar datos y que comprende la importancia de recolectar y capturar la informacin con el cuidado necesario para que los anlisis posteriores se hagan sobre informacin de la mejor calidad posible.

    14. Se llevan a cabo procedimientos para maximizar la calidad de las bases de datos que concentran los resultados de la aplicacin.

    15. Hay procedimientos para asegurar que la lectura de respuestas y todos los pasos del procesamiento y verificacin de los datos son confiables.

    16. La coordinacin del estudio es notificada de cualquier inconsistencia en los datos. Toda modificacin que resulte de la resolucin de inconsistencias deber ser aprobada y documentada.

    USOS Y CONSECUENCIAS1. Se presentan argumentos lgicos o tericos y evidencia emprica que respalde los usos y

    consecuencias previstas. Se evita sugerir usos o beneficios de la prueba si no tienen un apoyo terico o emprico.

    2. Se documenta y evala el grado en que se producen las consecuencias previstas y/o deseables de la prueba.

    3. Los resultados de las pruebas se reportan en plazos razonables y se proveen mecanis-mos de difusin y acceso para todas las partes sin discriminacin.

    4. Se apoya a instituciones y usuarios para desarrollar la capacidad necesaria para la ade-cuada interpretacin y utilizacin de los resultados.

    5. Se informa a los usuarios sobre los propsitos y caractersticas de la prueba, lo que pue-de o no medir y los usos y consecuencias previstas. Se ofrecen ejemplos e informacin suficiente sobre la interpretacin de los resultados.

    6. Se utiliza lenguaje claro y preciso sin jerga tcnica innecesaria; se explican trminos tcnicos en lenguaje claro y comprensible.

    7. Se ofrece marco normativo para evaluar el desempeo de los examinados. Se describe el perfil y caractersticas de la poblacin de referencia.

  • 21Introduccin

    8. Se da informacin para minimizar posibilidad de interpretaciones incorrectas. Se notan limitaciones y errores comunes al comparar aos, dominios, grupos o niveles de agre-gacin. Se usan categoras precisas que no estigmaticen.

    9. Se advierte sobre usos para los que no existe suficiente evidencia de validez. Aunque no se pueden prever todos los usos o interpretaciones inapropiadas, se busca identificar y acotar los ms probables.

    10. Se documenta la existencia de usos o consecuencias imprevistas, ya sean adecuadas/positivas, o inadecuadas/negativas.

    11. Cuando existe evidencia confiable de usos inapropiados estos se investigan en grado y detalle adecuado. Si estos usos persisten se informa a los usuarios y se intenta tomar acciones correctivas.

    La lista completa de criterios y subcriterios puede verse en el anexo 1.

    Al final del informe se presentan las referencias que se utilizaron en todos los apartados, as como otros anexos, que incluyen el microanlisis de reactivos de Espaol (anexo 2) y de reacti-vos de matemticas (Anexo 3) hechos para el apartado de validez cultural.

    No se incluyen otros anexos que se hicieron llegar al INEE con la versin del informe entregada en marzo de 2014, que fueron las transcripciones de las entrevistas que se hicieron a funciona-rios de la SEP, el INEE y las entidades federativas, as como de las respuestas a los cuestionarios que se recibieron de las entidades.

    Las cinco partes principales de este informe que se encuentran en las pginas siguientes pre-sentan los anlisis hechos por los pares de especialistas, aplicando los criterios mencionados.

  • 22

    1 Alineacin a los referentes

    CONSIDERACIONES PREVIAS

    El anlisis se ha llevado a cabo teniendo en cuenta los siguientes aspectos:

    Las pruebas censales presentan un condicionante inicial que influye de manera decisiva en la representatividad del dominio curricular que pretenden evaluar: los imperativos logsticos llevan a que deban ser pruebas de una longitud limitada, por lo que cualquier prueba censal parte de este hndicap.

    No obstante lo anterior, el grado de representatividad puede atenderse de formas ms o menos rigurosas. En este sentido, nos centramos en el anlisis del grado en que los procesos utilizados se han desarrollado con el rigor suficiente como para asegurar un adecuado nivel de calidad.

    La prueba ENLACE viene desarrollndose desde 2006 y hasta el 2013. De este modo, y tal como comentaremos posteriormente, se aprecia una evolucin importante en sus procesos metodolgicos. En cualquier caso, desde nuestro punto de vista, no se trata de realizar una valoracin histrica de su diseo, sino de comprobar el nivel de calidad que la prueba ha alcanzado en la actualidad.

    Por este motivo, entendemos que las evidencias de mayor vala para valorar la calidad de la prueba son los manuales de 2012 y el recientemente difundido de 2013. Las evidencias anteriores, se utilizan como medio para comprender y/o explicar mejor los factores que se han ido dando en su diseo y que impactan de manera positiva o negativa en su cali-dad actual. En cualquier caso, este comit ha tenido en cuenta todas ellas.

    ANLISIS DEL CURRCULO CUYO DOMINIO SE EVALA

    1 Se cuenta con un documento que revisa la teora del contenido curricular y es el mar-

    co terico que orienta el desarrollo de la prueba.

    tt El documento incluye un anlisis de las reas del currculo que evaluar la prueba, que pre-cise los subdominios y contenidos, as como competencias y niveles de demanda cognitiva que se debern cubrir.

    Un elemento clave para valorar el grado en que ENLACE deviene del contenido curricular y su marco terico es la inestabilidad del currculum en Mxico. Como referencia contextual, nicamente se seala que durante el periodo de diseo y desarrollo de la prueba el currculo vari en numerosas ocasiones, incluso presentando cambios que se anunciaron un da hbil antes del comienzo del ao escolar.

  • 23Alineacin a los referentes

    Esta falta de estabilidad curricular, sin duda, ha constituido un hndicap importante para los constructores de la prueba.

    De este modo, durante el periodo 2006-2013, que cubre el lapso en que se desarrollaron las pruebas ENLACE, el currculum nacional de la educacin bsica experiment continuas transformaciones.

    Esta dinmica curricular impuso en cada ocasin retos importantes al grupo de trabajo de la Direccin General de Evaluacin de Polticas (DGEP) de la Secretara de Educacin Pblica (SEP) que desarroll las pruebas. Los autores de ENLACE fueron conscientes de dichas transforma-ciones y dan cuenta de ellas en los manuales tcnicos que facilitaron, y que sintetizan (Docu-mento ANALISIS_2012_2013.pptx) en la lnea del tiempo que aparece a continuacin, en la que tambin indican los impactos que en cada ocasin tuvieron los cambios curriculares sobre el desarrollo de las pruebas (ver cuadro 1.1).

    Cuadro 1.1

    Fuente: Documento ANALISIS_2012_2013.pptx

    Adems, cada uno de los manuales tcnicos de ENLACE presenta una seccin denominada Marco terico de diseo de las pruebas ENLACE, en la que se presentan aspectos generales sobre las dimensiones explcitas e implcitas que se evalan en las asignaturas de Espaol, ma-temticas y en la rotativa correspondiente que se evala cada cuatro aos (ciencias, formacin cvica y tica, historia y geografa).

    De manera adicional, se observa una clara evolucin hacia mayores niveles de calidad tcnica en el aspecto que aqu comentamos. De este modo, si se examina el Manual de 2013, las eviden-cias del anlisis realizado estn claramente estructuradas y expuestas.

  • 24

    Las

    pru

    ebas

    EN

    LA

    CE

    par

    a ed

    uca

    ci

    n b

    sic

    a

    Por otra parte, segn se seala en los manuales tcnicos de ENLACE, el proceso de desarro-llo de las pruebas siempre estuvo intensamente acompaado por el personal de la Direccin General de Desarrollo Curricular (DGDC) de la SEP, quienes a su vez fueron los responsables de los cambios curriculares sealados y de su difusin en el medio educativo nacional. Esta estra-tegia de trabajo conjunto (desarrolladores del currculum y diseadores de prueba), aunque no resulta habitual, en gran medida asegura la continuidad entre el currculum y la prueba.

    En consecuencia, puede decirse con certeza que siempre se cont con documentacin que ex-pusiera la teora del contenido curricular y que fuera el marco terico que orientara el desarrollo de la prueba.

    El segundo elemento clave para valorar el modo en que se ha asegurado por parte de los di-seadores de ENLACE que la prueba representa adecuadamente los subdominios curriculares y los niveles de demanda cognitiva que representan para el alumnado, se encuentra en la me-todologa seguida a tal efecto.

    Las referencias metodolgicas que se identifican en la literatura y que se postulan como reque-rimientos metodolgicos para este cometido se sitan en el mbito de desarrollo de pruebas referidas a un criterio (Madaus & Kellaghan, 1992; Hambleton, 1994; Nitko, 1994; 1995; Li & Sireci, 2005; Cizek, 2007; Sireci, 2009). En este marco de trabajo los procesos a considerar para asegurar la representatividad son, al menos:

    Anlisis explcito (y debidamente documentado) del currculum como universo de medi-da. Ello implica el uso de algn procedimiento de anlisis y estructuracin del dominio curricular, aportando como evidencia los dominios y subdominios implicados y las rela-ciones entre ellos y sus contenidos.

    El resultado del anlisis debe proveer un marco de referencia de la prueba que se evi-dencia en una tabla que refleje su estructura, as como en tablas de especificaciones en las que se deben contemplar diversos elementos del contenido y del nivel de demanda cognitiva que constituye cada unidad curricular para el alumnado.

    Dicho anlisis debe ser realizado por un comit de especialistas, y debe ser validado posteriormente por un comit diferente del anterior. En la composicin de los comits se recomienda la presencia de especialistas diversos, entre ellos los que representan la diversidad socio-educativa y cultural, en este caso de Mxico.

    Adicionalmente, se requiere que se explicite el modo en que los comits son capacitados para llevar a cabo estas tareas, as como se deban producir los procesos de juicio y el establecimiento de decisiones (consenso intersubjetivo, sntesis cuantitativa)

    Una vez revisadas todas las evidencias aportadas al respecto, podemos realizar los siguientes comentarios y sealar sus evidencias:

    Todos los manuales tcnicos de ENLACE incluyen una seccin denominada Tablas de especificaciones y un anexo denominado Tablas generales de contenidos para todos los grados, que presentan muestras de tablas y las tablas completas en el MT 2013, que incluyen reas curriculares, subdominios y contenidos especficos de cada materia que se evalan en el examen.

    No obstante, salvo en el caso de las tablas del 2013, no se ha seguido un procedi-miento homogneo por materias, ni por niveles y aos. De este modo, la estructura

  • 25Alineacin a los referentes

    del dominio a evaluar se presenta en formatos diferentes y con niveles de desarrollo desigual, tanto en las materias de una misma asignatura, como entre las materias de asignaturas y aos diferentes.

    Al respecto, obsrvense en los cuadros I.2 a I.6 fragmentos de cinco tablas que aparecen en el manual tcnico ENLACE de 2012; la primera del tercer grado de primaria de Espaol; la segunda del quinto grado de primaria de Espaol; la tercera del tercer grado de primaria de matemticas; la cuarta del quinto grado de primaria de matemticas; y la quinta del tercer grado de primaria de ciencias (asignatura rotativa cuyo dominio se evalu ese ao).

    Cuadro 1.2

    Fuente: Manual Tcnico ENLACE 2012

  • 26

    Las

    pru

    ebas

    EN

    LA

    CE

    par

    a ed

    uca

    ci

    n b

    sic

    a

    Cuadro 1.3

    Fuente: Manual Tcnico ENLACE 2012

    Cuadro 1.4

    Fuente: Manual Tcnico ENLACE 2012

  • 27Alineacin a los referentes

    Cuadro 1.5

    Fuente: Manual Tcnico ENLACE 2012

    Cuadro 1.6

    Fuente: Manual Tcnico ENLACE 2012

    Ms all de diferencias de estilo en las tablas, se evidencian diferentes niveles de es-tructuracin del dominio a evaluar, desde enunciados simples a manera de objetivos de aprendizaje sin contexto curricular explcito (como en el caso de las especificaciones de ciencias naturales), hasta ubicacin del contenido a evaluar en el mbito curricular que corresponde, explicitacin de la prctica social del lenguaje en que opera su aprendi- zaje e identificacin del aprendizaje esperado que se logra con su dominio (como en la tabla de quinto grado de primaria de Espaol).

    Sera preferible que todas las estructuras del dominio curricular a evaluar fueran tan explcitas como en el ltimo caso. Aunque no se documentan los motivos por los que no se adopt un esquema similar en todas las asignaturas (salvo vagas referencias a la

  • 28

    Las

    pru

    ebas

    EN

    LA

    CE

    par

    a ed

    uca

    ci

    n b

    sic

    a

    diversidad de enfoques que tienen los tericos en los distintos campos del conocimien-to [Manual Tcnico 2012: 26]), se reporta que Las tablas de contenido para cada grado se encuentran en los documentos de base preparados por la Subsecretara de Educacin Bsica (la DGDC, MT 2012: 178), por lo que la determinacin del contenido a evaluar en ENLACE siempre ha estado a cargo de esa dependencia (MT 2009: 75), responsable a su vez del currculo de la educacin bsica. Una excepcin a esta condicin son la tablas que aparecen en el Manual Tcnico 2013, donde por primera vez se afirma que:

    Las tablas de especificaciones son construidas por el personal tcnico de la Direccin General de Evaluacin de Polticas y revisadas por el personal de la Direccin General de Desarrollo Curricular de la Secretara de Educacin Pblica, de acuerdo con los con-tenidos establecidos en los planes y programas de estudios oficiales vigentes en todo el pas (MT 2013: 21).

    En cuanto a los comits de anlisis del Dominio Curricular, que deberan actuar de modo independiente y sucesivo, que mencionamos como estrategia fundamental para la va-lidacin de este tipo de pruebas, puede observarse que, salvo lo que se comenta en el punto anterior, no se ha procedido de este modo. Se evidencia que la DGDC ha sido juez (quien desarrolla el currculum) y parte (quien decide lo que es importante evaluar en ENLACE), sin contraparte (dado que la DGEP y sus consejos directivo y tcnico asumieron desde el principio que esa era una tarea que le corresponda realizar a la DGDC). Con esta forma de proceder, se olvida un factor sustantivo de validacin.

    Cabe sealar que ni la DGDC ni la DGEP han documentado las decisiones para determi-nar lo que es importante evaluar, ni han sentido la necesidad de adoptar un esquema de representacin del dominio curricular a evaluar que resulte explcito y equivalente, a la vez que respete el enfoque terico de las diferentes asignaturas.

    En sntesis la situacin descrita no corresponde con las prcticas de anlisis curricular y deteccin y estructuracin del contenido importante a evaluar en una prueba de estas caractersticas. Tampo-co se han basado en una estrategia de validacin del anlisis del universo de medida que incluya aportes de validacin de grupos interdisciplinarios de especialistas (en currculo, la disciplina cuyo dominio se evala, psicometra, operacin del currculum en las aulas, en lenguaje, en cultura y en teora cognoscitiva), que acten de manera independiente y sucesiva. Por ello, entendemos que el procedimiento seguido no permite asegurar la representatividad del contenido a evaluar.

    ALINEACIN DE LA PRUEBA CON EL CURRCULO

    2. Se presentan evidencias de la forma en que se definieron las especificaciones de la

    prueba en trminos de objetivos, competencias u otro referente curricular.

    Otro factor imprescindible que permite trabajar en favor de la consecucin de la validez de contenido es el anlisis del dominio educativo, tanto en su estructura (subdominios que lo integran), como en relacin con las especificaciones de contenido que permiten orientar el diseo de reactivos. Esta estrategia es habitual en pruebas referidas al currculo. Debe incluir, por tanto, dos tipos de informacin: estructural de la prueba, y especificaciones de unidades del dominio.

  • 29Alineacin a los referentes

    Eso permite obtener una visin precisa del universo de medida, a partir del cual, posterior-mente, se podr orientar el muestreo de contenidos (Jornet y Surez, 1989a; 1989b). Orienta pues, las dimensiones o subdimensiones implicadas (un diseo curricular no necesariamente es unidimensional, y puede representarse en una prueba), la densidad diferencial del dominio (cantidad y relevancia de elementos observable).

    En cuanto a si esta forma de actuacin metodolgica se dio en el diseo de ENLACE, en los cuadros I.2 y I.3 que se presentaron antes tambin puede apreciarse que en un mismo cuadro se presentan juntos elementos de la estructura del dominio del contenido curricular a evaluar (que corresponden a la tabla de especificaciones de la prueba) y los de la especificacin de la tarea evaluativa para evaluar el dominio de cada contenido (especificaciones de tems). Aun-que en la prctica regular en cualquier formato para desarrollar especificaciones de tems se incluye la estructura bsica en la que se ubica el contenido a evaluar, en este caso el diseo de la tabla no permite observar de manera independiente la estructura de la prueba, para poder referirla al dominio curricular.

    Hasta 2008 el manual tcnico de ENLACE distingua ambos componentes del desarrollo de las pruebas, a los que denominaba Elaboracin de tablas de contenidos y Elaboracin de tablas de especificaciones (Ver por ejemplo los manuales tcnicos 2007 [MT04, pgs. 4.2 y 4.14 a la 4.22] y 2008 [MT04, pgs. 4.3 y 4.16 a la 4.21]). En los manuales de los aos 2009, 2010, 2011 y 2012 ambos componentes se ubicaban en una misma tabla; y para el caso del manual tcnico de ENLACE 2013, las tablas de especificaciones de la prueba (que consideran ya el nuevo curr-culum de 2011) vuelven a aparecer en una seccin independiente. Lo anterior puede observarse en los cuadros I.7 y I.8.

    Aunque las tablas de especificaciones anteriores se definieron en trminos de referentes curricu-lares, en cada prueba aparecen distintos y no siempre se trata de los referentes relevantes que se establecen explcitamente en el Acuerdo 592 de la SEP (DOF, 2011), por el que se articul en 2011 la educacin bsica del pas con un nuevo currculum en todos los niveles educativos. Por ejemplo, obsrvese el referente fundamental que establece para ENLACE el Acuerdo 592: La migracin de la Evaluacin Nacional del Logro Acadmico en Centros Escolares de Educa-cin Bsica (ENLACE) hacia una evaluacin cuyo referente sean los Estndares Curriculares y los aprendizajes esperados (DOF, 2011, artculo octavo transitorio). As, en un caso se incluyen los aprendizajes esperados y en otro no; en ninguna de las tablas aparece el eje (en Matemticas) o el mbito (en Espaol) curriculares a los que pertenecen los contenidos a evaluar; en un caso se detalla el aspecto a evaluar y en otro no; en un caso se define el nivel de relevancia del con-tenido a evaluar y en otro no, entre otras diferencias entre las tablas.

    No obstante, cabe sealar que en el manual tcnico de ENLACE 2013 se aprecia un claro esfuer-zo por dar a las tablas de especificaciones de la prueba un estilo y formato ms homogneos (vanse por ejemplo los cuadros I.7 y I.8), tanto entre las materias de cada asignatura, como entre las propias asignaturas, as como por incorporar los referentes del nuevo currculum que aparecen en el Acuerdo 592 de la SEP.

  • 30

    Las

    pru

    ebas

    EN

    LA

    CE

    par

    a ed

    uca

    ci

    n b

    sic

    a

    Cuadro 1.7

    Fuente: Manual Tcnico ENLACE 2013

    Cuadro 1.8

    Fuente: Manual Tcnico ENLACE 2013

  • 31Alineacin a los referentes

    tt Se presenta la estructura del dominio curricular completo de donde se muestrea el conte-nido de la prueba as como la estructura del dominio curricular evaluado.

    Tal como sealamos en el criterio anterior, un elemento sustantivo para orientar el desarrollo de una prueba es la estructura del dominio educativo a evaluar (el currculum), y el anlisis acerca de la estructura de la prueba. Si se dispone de ambos elementos, puede analizarse mediante comits de juicio si la estructura de la prueba responde adecuadamente a la estructura del universo de medida. El anlisis que puede proveer un comit acerca de este aspecto, constituye pues una evidencia de validez.

    Como ya se coment cuando efectuamos la valoracin bajo el criterio 1, esta fase del proceso de desarrollo de pruebas de gran escala referidas a un criterio tambin est documentada en la lite-ratura especializada, en la cual se establece la necesidad de que haya dos grupos independientes de especialistas en ambos casos con expertos en currculum, en evaluacin, en la operacin del currculum en la aulas, en la teora cognoscitiva, en aspectos culturales y en la disciplina cuyo dominio se evala: por una parte, los que analicen el currculum y detecten el contenido im-portante a evaluar; por la otra, los que juzguen tales decisiones con base en protocolos tcnicos definidos previamente por los desarrolladores de la prueba; estos ltimos debern facilitar los trabajos de ambos comits y, a la vez, servirn como hilo conductor de stos y los de otros comi-ts especializados que participan en la construccin del instrumento.

    Respecto a los procesos llevados a cabo para el desarrollo de ENLACE, como ya sealamos an-teriormente, la DGEP afirma en todos los manuales tcnicos de ENLACE que la DGDC (que es la dependencia responsable de desarrollar el currculum nacional), fue la instancia que se encar-g de definir el contenido a evaluar en las pruebas, por lo que son los autores de las tablas de contenidos que se han presentado hasta este punto.

    Sin embargo, con excepcin de los manuales tcnicos de ENLACE 2007 y 2013 que las presentan todas, estas y otras tablas aparecen en el cuerpo de los manuales o en los anexos correspon-dientes como extractos o como ejemplos que ilustran el producto que la DGDC elabor. De este modo nunca se presenta, para ninguna asignatura o materia que se evala, el dominio curricular completo, ni bien la estructura del dominio curricular que evala cada prueba.

    Tampoco aparece en ningn manual, anexo o documento referido, la documentacin del pro-ceso que sigui la DGDC o bien la DGEP para determinar en cada caso el contenido a evaluar o los criterios en que se basaron para determinarlo.

    A pesar de ello, se tiene evidencia de un estudio que encarg la DGEP a una instancia exter-na para analizar el nuevo currculum de 2011, desarrollar la estructura del dominio curricular completo de las asignaturas de matemticas y Espaol, e identificar en ellas una propuesta de estructura del dominio curricular a evaluar en cada una de las materias de ambas asignaturas.

    Aunque la DGEP no incluy en el manual tcnico de ENLACE 2013 los resultados y productos de dicho trabajo, se hace una referencia a l en el documento denominado ANALISIS_2012_2013.pptx, que entreg dicha dependencia. En todo caso, la DGEP no incluy en el manual tcnico de ENLACE 2013 los resultados y productos de dicho trabajo.

  • 32

    Las

    pru

    ebas

    EN

    LA

    CE

    par

    a ed

    uca

    ci

    n b

    sic

    a

    En sntesis, la falta de documentacin sobre el proceso que se sigui para determinar el conteni-do a evaluar, es una carencia importante que afecta a la posible valoracin del grado de validez de contenido de las pruebas.

    3. Se explica el procedimiento usado para determinar la importancia relativa de conte-

    nidos cuyo dominio se decidi evaluar, o se incluye un anlisis de las unidades del

    dominio curricular y su densidad diferencial.

    La composicin de cualquier prueba referida a un diseo curricular se debe apoyar en criterios de seleccin de los contenidos, que reflejen la importancia diferencial de los mismos, como expresin de la relevancia de los aprendizajes logrados. Este aspecto, que comnmente se identifica en la literatura como densidad diferencial del dominio curricular es difcil de llevar a la prctica. De hecho, aunque se ha formulado como concepto desde hace aos (Jornet y Surez, 1989a), bien es cierto que existen pocas aproximaciones metodolgicas que lo resuelvan de manera satisfactoria.

    Generalmente, se basan en valoraciones que realizan comits de especialistas que indican el peso diferencial que cada rea del dominio curricular debera tener en la prueba, y ello sirve para seleccionar la cantidad de reactivos que se utilizan al respecto. Recientemente se han propuesto alternativas de indicadores de sntesis (Viveros, Contreras & Caso, 2013) que permiten acercarse a una valoracin de estas caractersticas, y orientar de una manera ms eficiente la estructura-cin de la prueba en relacin al universo de medida.

    As, la determinacin de la importancia relativa de los contenidos curriculares es un procedi-miento crucial para definir el dominio a evaluar en una prueba. Diversos autores (Sireci, 2009; Cizek, 2007; Pope, citado por Cizek, 2007; Li y Sireci, 2005; Haynes, Richard y Kubany, 1995; Nitko, 1994; Guion, 1977) enfatizan la necesidad de identificar blancos curriculares de primer orden, dada la imposibilidad de evaluar en una sola ocasin (examen) el dominio de todo lo que se debi haber aprendido (currculum), ni siquiera todo lo que es relevante. De ah la importan-cia de seleccionar una muestra de contenido que represente el dominio curricular, especialmente lo que es ms significativo en l, desde el punto de vista de la formacin pretendida. Los autores destacan tambin la necesidad de que un comit independiente de especialistas, con un perfil similar a los que se mencionaron antes, convalide las decisiones que adoptaron quienes decidie-ron lo que es importante evaluar; y que para ello examinen los criterios y procedimientos que siguieron para arribar a tales conclusiones.

    En el caso de las pruebas ENLACE, y al igual que se coment en los dos puntos anteriores, se desconocen los procedimientos que siguieron o los criterios que utilizaron los especialistas de la DGDC para determinar la importancia relativa de contenidos o para decidir el dominio de con-tenido a evaluar en cada prueba. El anlisis de las tablas de contenido que aparecen ms arriba muestra que enfatizaron aspectos diferentes del currculum y que adoptaron criterios tambin diferentes para determinar lo que era relevante en cada caso.

    No obstante, existen evidencias en los manuales tcnicos de ENLACE 2012 y 2013 espe-cialmente en la mencionada presentacin ANALISIS_2012_2013.pptx que entreg la DGEP, de que se ponder la importancia relativa de los contenidos e, incluso, se refiere el uso de un ndice de densidad acadmica (IDA) asociado a contenidos curriculares. Lo anterior se muestra

  • 33Alineacin a los referentes

    en la ltima de las tablas que se presentaron anteriormente y en las tres tablas que se presentan a continuacin (ver cuadros 1.9 a 1.11).

    Cuadro 1.9

    Fuente: Manual Tcnico ENLACE 2013

    Cuadro 1.10

    Fuente: Manual Tcnico ENLACE 2013

  • 34

    Las

    pru

    ebas

    EN

    LA

    CE

    par

    a ed

    uca

    ci

    n b

    sic

    a

    Cuadro 1.11

    Fuente: Presentacin ANALISIS_2012_2013.pptx

    En cuanto a la necesidad de que un comit independiente de especialistas convalide las deci-siones que adoptaron quienes decidieron lo que es importante evaluar, la nica referencia al respecto es lo sealado en el Manual Tcnico 2013, donde se refiere que las especificaciones de las pruebas fueron construidas por el personal tcnico de la DGEP y luego revisadas por el personal de la DGDC (MT 2013: 21). Como ya se seal, si bien existen evidencias de que esos aspectos se consideraron en ENLACE, no se documenta cmo se llevaron a cabo los proce- sos mencionados, lo que constituye una debilidad en la validacin de contenido que, en todo caso, podra subsanarse si se aportaran evidencias al respecto.

    tt Se justifican tcnicamente ajustes a la ponderacin de tems y subescalas.

    Salvo la mencin del ndice de densidad acadmica que se asoci diferencialmente a contenidos cuyo dominio fue evaluado en 2012 y 2013, no se encontr informacin acerca de la justifi-cacin tcnica de los ajustes a la ponderacin de tems y subescalas. Las escalas y subescalas quedan como producto del software de calificacin pero no se reportan. Por su parte, las pon-deraciones son definidas en forma apriorstica por los diseadores de la prueba y por conside-raciones que se hacen durante el proceso de validacin, pero no hay estudios experimentales para realizar ajustes o demostrar la pertinencia de los valores propuestos por los especialistas. Por ejemplo, se podra realizar anlisis factorial o de ecuaciones estructurales para disponer de un anlisis factorial confirmatorio u otro tipo de estudio.

  • 35Alineacin a los referentes

    tt Se justifica metodolgicamente el tamao de la prueba y sus partes (nmero de reactivos), cumpliendo la ponderacin indicada en las tablas de especificaciones. Si se maneja una justificacin administrativa esta se debe definir claramente.

    El tamao de la prueba se justifica metodolgicamente con base en dos dimensiones. La primera se refiere a los contenidos a cubrir en la evaluacin. El tamao segn esta dimensin se justifica con base en los anlisis de contenidos y curriculares que se llevan a cabo a fin de seleccionar los tpicos de la prueba y desarrollar los reactivos que la conformarn. La segunda dimensin del tamao de la prueba se relaciona con la cantidad de preguntas o reactivos que son aplicados a cada uno de los individuos. Esto es importante dado que, por su carcter censal, la cantidad de preguntas necesarias para cubrir los contenidos de la prueba es mucho mayor de lo que en forma realista puede ser aplicado dentro del esquema del horario escolar, y la cantidad de tems que pueden ser respondidos por los estudiantes sin elevar los niveles de fatiga y/o bajar el nivel de inters al responder.

    En el caso de ENLACE no se cuenta con una justificacin metodolgica para el dimensiona-miento de la prueba (nmero de reactivos) y de sus partes, porque las tablas de especificaciones estn definidas en nmero de tems y no de ponderaciones, ni se tiene un estimado del error terico propuesto. Tampoco se presenta un estudio especfico sobre fatiga de los estudiantes que se relacione directamente con el tamao de la prueba.

    4. Se asegura la representatividad de los tems y las subescalas respecto a los subdomi-

    nios y el dominio curricular definidos.

    tt Para especificar el dominio a evaluar se presenta un anlisis lgico y emprico de la re-presentacin de tems y subescalas respecto a los subdominios evaluados y al dominio curricular completo.

    El anlisis de reactivos se orienta desde dos perspectivas: lgica y emprica. La primera de ellas se apoya en la participacin de comits de jueces (especialistas en contenidos, docentes frente a grupo, especialistas en medicin/evaluacin), que deben valorar caractersticas tales como la representatividad del tem respecto del contenido a evaluar, su calidad tcnica (indepen-dencia de errores sistemticos), su independencia de sesgo, etc. Por tanto afecta de manera directa la validez de contenido de la prueba. Las comprobaciones empricas pretenden aportar informacin acerca de si los tems se comportan de acuerdo con la estructuracin dimensio-nal terica que haya orientado el desarrollo de la prueba. Se solapa, en parte, con el anlisis que deviene de los ensayos piloto, aunque en este punto enfatizamos el anlisis respecto a la revisin lgica, dado que el segundo aspecto se trata tambin en el apartado de desarrollo de la prueba.

    En el apartado 2.3, Diseo, produccin, calibracin y piloteo de los reactivos del Manual de ENLACE (2013), se indica que:

    La produccin de los reactivos de la prueba pasa por estas fases: construccin (a cargo de especialistas de contenido), validacin (encargada a jueces expertos, independientes de los diseadores y constructores), piloteo y calibracin (aplicacin en condiciones controla-das de muestras de reactivos a estudiantes del grado siguiente al de la poblacin objeto

  • 36

    Las

    pru

    ebas

    EN

    LA

    CE

    par

    a ed

    uca

    ci

    n b

    sic

    a

    y anlisis de la calidad de los reactivos por medio de modelos psicomtricos). Finalmente, los reactivos que pasan exitosamente todos estos procesos, se incorporan al banco de reactivos Para la validacin se sigue un modelo de emisin de dictamen por jueces, que son expertos en contenido, quienes se encargan de determinar la calidad individual y colectiva de los reactivos construidos; deben verificar que cada uno responda a las normas de construccin y que, en su conjunto, constituyan una muestra representativa y suficiente del dominio de conocimientos a evaluar (p.23).

    A este respecto, y centrndonos en la revisin lgica, hay que sealar los siguientes aspectos:

    Se hace referencia a que la construccin la realizan expertos en contenido (no se indica nada respecto a la participacin de otro tipo de especialistas).

    Tampoco se indica el modo en que se seleccionaron los jueces ni sus perfiles, aspecto importante cuando se trata de disear una prueba nacional que deba funcionar con equidad en un pas tan diverso sociocultural y econmicamente.

    Tampoco se aporta informacin acerca de la metodologa de jueceo (caractersticas a valorar en los tems, criterios de toma de decisiones)

    No se ha encontrado referencia alguna en los manuales tcnicos de ENLACE o en los anexos y documentos presentados, sobre los criterios y procedimientos que emple la DGDC, o bien la DGEP, para analizar la representacin de tems y subescalas respecto a los subdominios evaluados y al dominio curricular completo cuyo dominio fue evaluado en cada edicin de la prueba.

    Respecto a la representatividad de subescalas o subdominios, las tablas anteriores y otras que se muestran en los manuales tcnicos de ENLACE ofrecen fragmentos y ejemplos de subdominios referidos a dominio del currculum vigente, para los que se indica en cada caso un determinado nmero de tems destinados a evaluar el dominio de los contenidos correspondientes. Sin embargo, con excepcin de los manuales 2007 y 2013, en las de-ms ediciones de la prueba no se cuenta con evidencia suficiente para emitir un juicio de valor fundado sobre la representatividad de tems y subescalas respecto a los subdominios y el dominio curricular completo que fueron definidos por la DGDC o la DGEP.

    Respecto a comprobaciones empricas que pudieran aportar informacin acerca de si los tems se comportan de acuerdo con la estructuracin dimensional terica que haya orientado el desarro-llo de la prueba, como se observ en el segundo subcriterio del criterio anterior, la representativi-dad de tems y escalas respecto a los subdominios y el dominio curricular completo, que se bas en operaciones de juicios, pudo haberse complementado con estudios empricos y estadsticos como el anlisis factorial confirmatorio o el modelamiento de ecuaciones estructurales, a fin de observar la pertinencia de la estructura de contenidos propuesta por los especialistas.

    5. Se cuida la alineacin en lo relativo a la complejidad cognitiva del contenido.

    tt Se utilizan taxonomas u otros sistemas de clasificacin de la demanda cognitiva de los tems, en relacin con lo establecido en el currculo.

    tt Se refiere el uso de protocolos verbales con examinados para verificar que la complejidad cognitiva real corresponda a la esperada.

  • 37Alineacin a los referentes

    En cualquier prueba de rendimiento o logro acadmico, un elemento fundamental en su ela-boracin es la determinacin de un modelo taxonmico o sistema de clasificacin, que per-mita regular el grado de demanda cognitiva que supone para el alumnado cada contenido en la forma en que es evaluado.

    La relacin de lo que se espera a nivel curricular y el modo en que se evala es clave para la va-lidacin de contenido. En este sentido, en los manuales tcnicos de ENLACE se establece que el modelo de especificaciones se organiza en tres dimensiones explcitas y una categora implcita, y que la segunda dimensin explcita corresponde a niveles de complejidad, definidos por una taxonoma o clasificacin de demandas cognitivas.

    El Manual de ENLACE 2013, por ejemplo, dice: La segunda dimensin explcita corresponde a los niveles de complejidad, definidos por una taxonoma o por una clasificacin de las deman-das cognitivas. Esta dimensin es necesaria para definir la dosificacin de reactivos con la cual construir el Banco Nacional de Reactivos y la organizacin de la prueba misma (p.97).

    Adems, se establece que al definir los enunciados de la tabla de especificaciones, se deben usar redacciones en trminos operativos no siendo admisibles descripciones de contenidos ais-lados (uso genrico del tipo uso de signos de puntuacin); los enunciados deben detallar el propsito y alcance de la prueba y deben referirse a un componente de habilidad o de compe-tencia, o sea la habilidad subyacente o constructo en trminos de nivel taxonmico.

    De igual modo, los manuales tcnicos sealan que para la construccin de los reactivos de ENLACE se exigen normas por parte de la DGEP a los diseadores, entre las cuales se indica que los reactivos deben corresponder al objetivo y nivel taxonmico asignados en la tabla de especificaciones, que la taxonoma que se debe utilizar es la propuesta por Benjamn Bloom y que infringir esta norma representa un error crtico. De hecho las tablas de especificaciones de varios exmenes incluyen una columna donde se especifica el nivel al que debe dominarse cada contenido, como se ilustra en la siguiente tabla.

    Cuadro 1.12

    Fuente: Manual Tcnico de ENLACE 2008

  • 38

    Las

    pru

    ebas

    EN

    LA

    CE

    par

    a ed

    uca

    ci

    n b

    sic

    a

    No obstante, como se puede apreciar en varias de las tablas que se han mostrado hasta ahora y en la gran mayora de las tablas que se presentan en los manuales tcnicos, queda claro que no es necesariamente en las tablas de especificaciones de las pruebas donde se especifican los niveles de demanda cognitiva que deben tener los tems para evaluar el dominio de los conte-nidos segn lo establece el currculum.

    En consecuencia, la tarea de definir el nivel cognitivo al que se debe dominar cada contenido parece haber recado en los elaboradores de los tems, quienes debieron interpretar el conte-nido y establecer el nivel de demanda cognitiva que le corresponda. En todo caso, de lo que s hay evidencia en los manuales tcnicos de ENLACE de 2009, 2010 y 2011, es que cada tem tuvo asignado un nivel taxonmico, el cual qued registrado en la base de datos del Banco Nacional de Reactivos en la seccin denominada Ficha tcnica del reactivo, como puede apreciarse en la figura que se presenta en el cuadro 1.13.

    Cuadro 1.13

    Fuente: Banco Nacional de Reactivos de ENLACE (2010)

  • 39Alineacin a los referentes

    Finalmente, no existe evidencia o alguna referencia en los manuales tcnicos de ENLACE, sus anexos o los documentos referidos, respecto al uso de protocolos verbales con examinados para analizar la complejidad cognitiva de los tems.

    ESPECIFICACIN, GENERACIN Y ESCRITURA DE TEMS

    6. Existe un documento, manual o gua de redaccin o diseo de reactivos en el que se

    especifican y justifican los procedimientos para formularlos.

    Otro elemento bsico a tener en cuenta en el diseo de pruebas es la redaccin de tems. Cier-tamente los reactivos deben representar las unidades del dominio educativo (universo de medi-da) que se consideran relevantes en la evaluacin como muestra del desempeo. Para que ese objetivo se cumpla es importante que se estructure el procedimiento de escritura de tems, de manera que se atienda con rigor si los reactivos representan el contenido a evaluar y si stos se adaptan al nivel de desempeo que se espera que pueda darse en la enseanza como expresin de las oportunidades de aprendizaje que se brindan a los alumnos.

    Por ello es fundamental que los escritores de reactivos tengan una formacin adecuada y refe-rentes claros que les permitan homogeneizar la produccin de tems y ajustarla a los niveles de calidad requeridos.

    Para conseguir este cometido, el procedimiento ms adecuado es que se disponga de un Ma-nual de Escritura de Reactivos, diseado al efecto (ajustado al propsito y contenido de la prueba a disear), y que contenga todos los elementos necesarios para que los diseadores de reactivos puedan llegar a interiorizar el tipo de produccin de tems que se espera de ellos. As, deben incluirse suficientes recomendaciones y ejemplos.

    Al respecto, los criterios que hemos considerado en el comit se describen y comentan a continuacin.

    tt El manual describe y da ejemplos de todos los tipos de reactivos que tendr la prueba, indi-cando cmo clasificarlos y justificarlos y haciendo referencia a la relevancia de las respuestas de los examinados para el dominio pretendido.

    En la documentacin aportada por la DGEP, se mencionan los siguientes documentos: Normas para la Construccin de Reactivos de Opcin Mltiple; Normas de Presentacin y Estilo; y, Normas para la Presentacin y el Estilo en la Redaccin de Reactivos de Opcin Mltiple.

    En el documento de Normas para la Construccin de Reactivos de Opcin Mltiple, a travs de cinco pginas se aportan normas y recomendaciones para el diseo de este tipo de reactivos. El documento fue elaborado por la DGEP, si bien parece contener recomendaciones genricas, y no dispone de ejemplos que apoyen la exposicin de las normas, por lo que parece que se ha extrado de algn manual genrico.

    Se cuenta con recomendaciones para el diseo del reactivo, de la base y de las opciones, pero con referencia a otros documentos normativos, algunos de los cuales no estn disponibles. En todos

  • 40

    Las

    pru

    ebas

    EN

    LA

    CE

    par

    a ed

    uca

    ci

    n b

    sic

    a

    los manuales tcnicos se indica que Para la construccin de los reactivos se exigen normas por parte de la DGEP para los diseadores. El incumplimiento de las normas para la construccin de reactivos genera tres tipos de errores menores, mayores y crticos y se hace referencia a estas normas (como se dijo varias de ellas no disponibles): planteamiento de los reactivos, planteamien-to de la base, planteamiento de las opciones.

    Al respecto se citan como referencias: Manual de gestin de la calidad, Norma (ISO 9001:2000) NMX-CC-9001:2000 IMNC Sistema de Gestin de la Calidad, Normas para la Construccin de Reactivos de Opcin Mltiple, Normas de Presentacin y Estilo, Normas para la Presenta-cin y el Estilo en la redaccin de Reactivos de Opcin Mltiple, y Elaboracin de instrumentos de Medicin.

    La documentacin faltante es fundamental para respaldar este punto, porque se pueden en-contrar otros portales de Internet con materiales de estudio preparados por la SEP, con enfoque didctico, pero no fueron proporcionados para este proyecto, siendo informacin a revisar en cuanto a pertinencia y vigencia.

    Tambin en el Manual Tcnico 2012 se hace una referencia al anlisis dimensional de los domi-nios en funcin de una taxonoma, que es necesaria para distinguir entre los diferentes niveles de complejidad de los reactivos que, a su vez, se asocia con la demanda cognitiva de la prueba en cada una de las subreas. La taxonoma se explica a los diseadores de reactivos y a los revisores, pero la relacin con la lista de desempeos parece desvinculada o parcial. Esto es de importancia porque se indica que: Los reactivos que se construyen deben corresponder al objetivo y nivel taxonmico asignados en la tabla de especificaciones. Infringir esta norma representa un error crtico (p.90). As, no hay evidencia suficiente de que se den pautas a los diseadores de reac-tivos para justificar y clasificarlos, ni respecto al modo en que se evidencie la relevancia de las respuestas de los examinados.

    tt El manual usa tablas o modelos de especificaciones precisas como gua para homogeneizar el diseo de los tipos de tems: formato o documento donde los diseadores de reactivos hagan la captura y la modificacin.

    En el Manual Tcnico 2007 se muestra un formato para la captura del reactivo (ver cuadro 1.14) que se denomina Ficha tcnica del reactivo.

    Aunque dicho formato ya no aparece en los manuales posteriores, es el que se sigui utilizando para registrar despus el tem elaborado en el banco de reactivos (ver cuadros 1.13, 1.15 y 1.16), el cual ha cambiado de formato con el tiempo y sirve a su vez como el insumo principal que utilizan despus los jueces-revisores al evaluar los reactivos.