AGOSTO OXFORD 13 - CNED

O x f o r d U n i v e r s i t y C e n t r e f o r E d u c a t i o n a l A s s e s s m e n t

ANÁLISIS CRÍTICO DE LA VALIDEZ DEL SISTEMA DE MEDICIÓN DE LA CALIDAD DE LA EDUCACIÓN (SIMCE) María Teresa Flórez Petour INFORME FINAL

OXFORD AGOSTO 13

08 Fall

2 ANÁLISIS CRÍTICO DE LA VALIDEZ DEL SISTEMA DE MEDICIÓN DE LA CALIDAD DE LA EDUCACIÓN (SIMCE)

ANÁLISIS CRÍTICO DE LA VALIDEZ DEL SISTEMA DE MEDICIÓN DE LA CALIDAD DE LA EDUCACIÓN (SIMCE) 3

ÍNDICE

1. INTRODUCCIÓN 4 2. RESUMEN EJECUTIVO 6 3. MARCO TEÓRICO 10

3.1. Breve referencia histórica sobre el concepto de validez 10 3.2. Principales discusiones en torno al concepto de validez 12 3.3. Concepto de validez: principios generales, tipología y métodos a considerar en este estudio

16

3.4. Validez en SIMCE: literatura disponible 25 4. METODOLOGÍA 31

4.1. Aproximación metodológica 31 4.2. Preguntas y objetivos de investigación 31 4.3. Revisión de la literatura disponible 32 4.4. Recolección de datos 34 4.5. Análisis de los datos 39 4.6. Limitaciones 41

5. RESULTADOS DE LA INVESTIGACIÓN: DESCRIPCIÓN DEL PROCEDIMIENTO 42 5.1. Información acerca del proceso SIMCE en base a documentos 45 5.2. Información acerca del proceso SIMCE en base a entrevistas 54

6. RESULTADOS DE LA INVESTIGACIÓN: ANÁLISIS CRÍTICO DE LA VALIDEZ DEL SIMCE 58 6.1. Propósitos 58 6.2. Constructo y contenido 59 6.3. Criterio 78 6.4. Consecuencias 79 6.5. Aspectos de administración y procedimiento 86 6.6. Interpretación 90

7. INTERPRETACIÓN Y DISCUSIÓN 91 8. CONCLUSIONES 98 9. RECOMENDACIONES 100 REFERENCIAS Y BIBLIOGRAFÍA 103 ANEXO 1 108 ANEXO 2 111 ANEXO 3 117


1. INTRODUCCIÓN Han transcurrido más de veinte años desde la creación por ley del Sistema de Medición de la Calidad de la Educación (SIMCE), tiempo durante el cual esta evaluación ha llegado a ser parte constitutiva del sistema educativo chileno y de su funcionamiento. Los estudios críticos acerca de este sistema de evaluación son anteriores al año 2000 y aluden a aspectos asociados a la comparabilidad de los datos (Schiefelbein, 1998) y a la necesidad de considerar los tiempos necesarios para el logro de cambios participativos y significativos en educación (Himmel, 1992). El único estudio sistemático existente sobre la validez del SIMCE es el de Eyzaguirre y Fontaine (1999). En este las autoras analizan los documentos disponibles públicamente acerca de las pruebas de Lenguaje y Comunicación y Educación Matemática, con el fin de examinar la validez del SIMCE en sus dimensiones de constructo y contenido (ver sección 3.4). No obstante, este análisis se realizo hace más de una década , en base a instrumentos antiguos y de transición diferentes a los actuales, y las mismas autoras expresaron en ese entonces preocupaciones acerca de las nuevas pruebas. Junto con ello, aspectos como la multiplicidad de propósitos y usos del SIMCE, así como la dimensión consecuencial (Messick, 1989) o de impacto (Crooks et al., 1996) de la prueba, no se consideraron en este análisis, lo que resulta incompleto desde la perspectiva que hoy predomina acerca la validez como un concepto unitario. Pese a ello, se reitera en la literatura, sin que se diga muy claramente de dónde proviene la evidencia, que SIMCE es una prueba metodológicamente sólida y que goza de legitimidad y credibilidad (Meckes y Carrasco, 2010; Comisión SIMCE, 2003). Dada su importancia y la influencia que tiene sobre los actores y las decisiones del sistema educativo nacional, resulta urgente realizar un estudio sistemático acerca de la validez del SIMCE, considerando tanto sus propósitos como las dimensiones de constructo, contenido, criterio y consecuencias que componen el concepto de validez. El presente informe da cuenta de los resultados de un proyecto financiado por el Consejo Nacional de Educación cuyo propósito central es precisamente cubrir esta brecha de investigación. El informe contiene, primero, un resumen ejecutivo con las principales características y resultados del estudio. A continuación se presenta un marco teórico en que se indican los aspectos y discusiones centrales en torno al concepto de validez, de acuerdo a los principales autores sobre el tema y a las perspectivas más recientes en esta área de investigación. Luego, se expone la metodología considerada para el estudio, seguida de los resultados principales. La sección de resultados se divide en dos partes: descripción del procedimiento y análisis crítico. La primera apunta a transparentar en detalle los procesos de creación, aplicación y corrección de la prueba SIMCE, algunos de ellos desconocidos para los usuarios del proceso de evaluación. La segunda expone el análisis crítico de la validez del SIMCE en cada una de las dimensiones del concepto. La siguiente sección alude a la interpretación y discusión de los resultados, teniendo en cuenta la teoría sobre validez. Finalmente, se ofrecen algunas conclusiones y recomendaciones en base a los resultados obtenidos. La investigadora quisiera agradecer al Consejo Nacional de Educación por apoyar este proyecto, así como a cada uno de los participantes del estudio, tanto profesores como miembros del equipo SIMCE, por su contribución al mejoramiento de la validez de este sistema de evaluación. Además, quisiera agradecer a los académicos y expertos en evaluación que aportaron con su opinión al mejoramiento del presente estudio: la Profesora Jo-Anne Baird, el Profesor David Andrich y la Dra. Therese Hopfenbeck. Por último, se agradece también a las cuatro expertas


que contribuyeron a validar los juicios de la investigadora en el análisis crítico de las preguntas del modelo de prueba de Lectura para 2º básico.


2. RESUMEN EJECUTIVO

Objetivos del estudio: General:

Analizar críticamente el Sistema de Medición de la Calidad de la Educación (SIMCE) desde las diferentes dimensiones del concepto de validez en evaluación.

Específicos:

Explorar y describir el concepto de validez y sus diferentes dimensiones en el SIMCE, considerando la perspectiva de los diferentes actores del proceso y las características del instrumento de evaluación.

Analizar críticamente, en base a la teoría sobre el concepto de validez, los procesos de construcción, implementación, corrección y uso del SIMCE.

Sugerir y proponer orientaciones para el mejoramiento de la validez del Sistema de Medición de la Calidad de la Educación en Chile.

Metodología:

Análisis de 41 documentos públicos del SIMCE: información ofrecida en el sitio oficial, folletos de orientaciones, informes de resultados, entre otros.

Entrevistas con 15 actores clave del proceso SIMCE (coordinadores, elaboradores de preguntas, correctores, profesionales SIMCE, entre otros).

Entrevistas con 20 profesores de perfiles variados (p. ej. diversos en dependencia, rural/urbano, género, disciplina, nivel, tipo de formación inicial, entre otros).

Principales resultados: Propósitos:

Se detectaron 17 propósitos diferentes para el SIMCE en documentos y

entrevistas.

Se indica la existencia de dos ‘macro-propósitos’ en tensión: rendición de cuentas y apoyo a las prácticas pedagógicas.

De acuerdo con la teoría sobre validez, los propósitos del SIMCE resultan excesivos para un único instrumento, y no se encuentran adecuadamente balanceados.


Dimensiones de constructo y contenido:

Hay una distancia entre el constructo declarado en los documentos y lo que la

prueba finalmente mide. No se provee evidencia que justifique los saltos inferenciales (extrapolaciones) que se observan en las interpretaciones de los resultados del SIMCE.

Pese a que se indica que el SIMCE lo evalúa, no se define el constructo calidad de la educación.

Los participantes, en general, no creen que el SIMCE mida calidad.

Podría considerarse un indicador de calidad entre muchos.

Se declara también en los documentos que evalúa el currículum vigente. La evidencia muestra que evalúa principalmente las habilidades más básicas y las tareas más rutinarias de algunas áreas del currículum.

Los cambios curriculares modifican el constructo y contenido a evaluar, lo que pone en riesgo la comparabilidad de los resultados de una aplicación a otra.

Aun cuando se trabaja con las intersecciones curriculares, el riesgo para la comparabilidad persiste si los contenidos cambian en su ubicación en el tiempo.

Los documentos analizados confirman diferencias entre un año y otro en los constructos y contenidos descritos.

Los actores involucrados en la construcción de ítems y los profesionales del SIMCE con experticia disciplinaria tienen reparos frente a la calidad de las preguntas.

De 152 preguntas analizadas, 43 presentan problemas de diverso tipo.

El modelo de prueba de 2º básico para Lectura presenta preguntas clasificadas como más complejas de lo que son, lo que genera problemas de cobertura, comparabilidad e interpretación.

Los actores externos al SIMCE involucrados en el uso de pautas de corrección indican problemas en su uso y calidad.

Dimensión de criterio

Algunos de los profesores entrevistados declaran que, desde su perspectiva, no existe coincidencia entre los aprendizajes que ellos observan y los resultados del SIMCE.

Dos profesoras proveen evidencia de que el SIMCE podría estar evaluando un nivel extremadamente básico de aprendizaje.

Necesidad de realizar estudios de validez concurrente y predictiva para mejorar la validez del SIMCE (p.ej. con evaluaciones internacionales o de los docentes).


Dimensión consecuencial:

Todos los profesores perciben al SIMCE como un instrumento de presión, que

distorsiona sus prácticas pedagógicas y/o evaluativas.

Se contrapone con su idea del aprendizaje y de la disciplina que enseñan.

Genera malas prácticas (p.ej. incentivos económicos a los profesores por los resultados, incentivos en notas a los estudiantes, uso de horas de taller en entrenamiento, entre otros).

En todos los casos se reconoce algún tipo de práctica de preparación del SIMCE.

Los docentes no están en contra de la evaluación como tal, sino de su uso público y orientado a la educación de mercado (competencia entre escuelas, rankings, etc.).

Hay evidencia que indica que los estudiantes podrían no sentirse motivados hacia la prueba, lo que significa un riesgo para la validez de los resultados.

Existe por parte de los profesores una demanda por una evaluación más representativa, más sensible a las diferencias, y sin publicación de resultados.

Se hace necesario indagar sobre la extensión de las consecuencias detectadas y, en base a ello, evaluar su posible incidencia en la validez de los resultados.

Aspectos de procedimiento:

Algunos aspectos de procedimiento que pueden afectar la validez de los resultados son:

Condiciones laborales de los constructores externos de preguntas (p.ej. tiempo insuficiente para elaborar buenas preguntas, trabajo adicional a su jornada laboral regular).

Condiciones laborales de los correctores de pregunta abierta: precarización creciente (poco descanso, mucha presión, bajos sueldos, etc.)

Actitud intransigente y autoritaria de algunos miembros del SIMCE que podría impedir mejorar el proceso (p.ej. no se modifican las pautas pese a que se reciben comentarios y sugerencias todos los años).

Interpretación:

Tanto los medios como los documentos del SIMCE presentan interpretaciones que,

de acuerdo con el presente análisis, no son válidas. Por ejemplo, no es válido interpretar que los resultados del SIMCE reflejan el aprendizaje de todo un ciclo, o que representan la calidad de la enseñanza en un establecimiento, o que los docentes del nivel correspondiente son ‘buenos’ o ‘ malos’.


Principales conclusiones:

No existe evidencia suficiente para considerar válidas las interpretaciones que se

realizan en base a los resultados SIMCE en relación con dos de sus propósitos declarados:

o Monitorear y mejorar la calidad y equidad del sistema educativo chileno (de hecho, hay evidencia de que realizaría lo contrario).

o Evaluar los aprendizajes del currículum nacional.

No contar con evidencia suficiente para estos dos propósitos invalida a la vez los demás propósitos asignados a la prueba.

Recomendaciones:

Reconsiderar los propósitos del SIMCE (acotar y realizar opciones).

Definir, delimitar y transparentar para los usuarios el constructo y contenido evaluados por el SIMCE.

Mejorar la calidad y cobertura de las preguntas, mejorar las pautas, incorporar preguntas menos rutinarias y más desafiantes, quizás más preguntas abiertas.

Resguardar las condiciones laborales en que se crean y corrigen los ítems.

Aprovechar la competencia generada en aquellos que han participado de procesos previos, incluso considerando la conformación de un equipo estable.

Necesidad de generar más competencias teóricas y prácticas en evaluación en Chile en todos los niveles, para facilitar la elaboración de pruebas de buena calidad.

Realizar un estudio curricular y de los marcos de evaluación para la asegurar comparabilidad de constructo y contenido de un año a otro.

Asumir un concepto más amplio de validez. Actualmente se confía excesivamente en el proceso de validación psicométrica de la prueba experimental como única garantía de calidad.

Desarrollar mayor investigación en torno las consecuencias del SIMCE, su alcance y su potencial impacto en la validez de la prueba.

Dos opciones para el SIMCE a futuro: o Convertir el SIMCE en una evaluación muestral, de bajas consecuencias, con

medidas de valor agregado, sin publicación de resultados y con reporte directo al establecimiento. O

o Proveer evidencia para justificar todos los saltos inferenciales que se realizan actualmente en base a los puntajes de SIMCE.


3. MARCO TEÓRICO 3.1. Breve referencia histórica sobre el concepto de validez Según Newton (2012), el término validez comienza a utilizarse en el ámbito de las pruebas estandarizadas desde las primeras décadas del siglo XX, aun cuando la preocupación por definir este y otros conceptos ampliamente utilizados emerge solamente a partir de la década de los años '20, con la proliferación del uso de este tipo de instrumentos en la sociedad norteamericana. Desde su primera definición o su definición mas clásica, "por validez se entiende el grado en que un test o examen mide lo que se propone medir" (Ruch, 1924: 13, citado en Newton, 2012), la discusión ha sido extensa, aun cuando hoy predomina la visión integrada del concepto desarrollada por Messick (1980), donde todas las dimensiones del concepto se subsumen a la determinación de un constructo a medir (ver sección 3.2). Parte de la complejidad del concepto de validez en evaluación se relaciona con su historia. En la medida en que el concepto se ha ido desarrollando y diferentes disciplinas han ido contribuyendo a su construcción, nuevos aspectos se han incorporado a su conceptualización. Según Anastasi y Urbina (1997), uno de los primeros usos de las pruebas se relaciona con la evaluación de lo que las personas habían aprendido acerca de una determinada área del conocimiento. En ese sentido, el aspecto más relevante de la validez durante esta fase de la historia de la evaluación se relaciona con el contenido a evaluar y el grado de representatividad que la prueba tiene con respecto a un dominio específico del conocimiento. Posteriormente, la capacidad de estos instrumentos para poder predecir un determinado comportamiento comienza a cobrar relevancia (Anastasi y Urbina, 1997), debido a la preocupación por utilizar las pruebas estandarizadas con fines de selección o para la asignación de determinados tratamientos. Para Kane (2008), es este tipo de evaluación el que se desarrolla primero en la historia, seguido de aquella que se centra en el contenido. En términos de validez, esta nueva incorporación implica demostrar la predicción de un comportamiento futuro, lo que en algunos casos puede resultar particularmente complejo y extenderse excesivamente en el tiempo. Por ello, el procedimiento diseñado para estos fines generalmente contempla un coeficiente de correlación entre el puntaje de la prueba y otra medición independiente del criterio, es decir, un registro del resultado esperado (Cronbach, 1984). En el caso de Chile, por ejemplo, si se compara el puntaje obtenido en la Prueba de Selección Universitaria (PSU) con las calificaciones que el estudiante posteriormente obtiene en su vida académica (que constituirían el criterio en este caso), se esperaría encontrar cierta correlación entre ambas mediciones para considerar que la PSU es válida en relación con el comportamiento que busca predecir, esto es, un buen desempeño académico. Ambos acercamientos a la validez de una prueba siguen operando hoy en día. Sin embargo, la discusión actual está más claramente marcada por una tercera línea que emerge desde una mayor preocupación por la teoría subyacente a un test, es decir, por el constructo que está siendo evaluado. En su sentido original, definido por Cronbach y Meehl (1955), la validez de constructo implica comprobar la cercanía entre los resultados de una medición y las predicciones que acerca de estos se realizan en base a la teoría. Ello implica comprender que lo que mide una prueba está fundamentado en una determinada teoría, la que se encuentra implícita en el instrumento (Kane, 2008). Si bien esta conceptualización constituye la base de lo que se entiende como validez de constructo, dichos autores solamente la desarrollaron para


casos específicos en que ciertos constructos teóricos no podían validarse ni por medio de contenido ni de la definición de un criterio. Pese a ello, Kane (2008) distingue tres principios centrales que Cronbach y Meehl desarrollan en su artículo, en términos de los caminos que estos abrirían para el posterior desarrollo y entendimiento del concepto de validez:

Es necesario especificar o explicitar la interpretación que se busca realizar antes de evaluar su validez.

No basta con un estudio de correlación o de criterio, sino que debe haber un programa de investigación en relación con el constructo.

Los supuestos que sustentan las interpretaciones y usos de los puntajes deben probarse por medio de evidencia.

Estas ideas llevan posteriormente a Messick (1980) a criticar la fragmentación del concepto de validez en determinadas tipologías y a proponer un concepto unitario de validez. El cuestionamiento de Messick (1980) se relaciona con que, al compartimentalizar el concepto, se genera la creencia de que basta con tener en cuenta un solo tipo de validez en lugar de concentrarse en la interpretación global de los puntajes. Así se observa, por ejemplo, en la tipología que Cronbach (1984) establece en términos de cuatro tipos de validación (predictiva, concurrente, de contenido y de constructo), cada uno de los cuales resulta atingente dependiendo del propósito o uso que se espera dar a la prueba. Newton (2012) explica que esto llegó a entenderse en la práctica en términos rígidos, es decir, como si hubiese un solo tipo de validez a considerar para un uso determinado. De manera similar, Lissitz y Samuelsen (2007) desarrollaron un modelo de validez basado principalmente en el contenido 'interno' de una prueba, que excluye la evidencia basada en criterio, teoría y consecuencias del instrumento, considerándola como aspectos 'externos' relacionados con la utilidad de una prueba y no con su validez. Este modelo ha sido ampliamente criticado (ver por ejemplo Sireci, 2007; Kane, 2008; Moss, 2007) por ignorar aspectos que hoy alcanzan amplio consenso en la literatura, como el reconocimiento de que no es el test el que es válido, sino las interpretaciones que de él se espera realizar en relación con determinados propósitos (ver sección 3.3 para más detalles). Pese a las críticas, incluso hoy se siguen utilizando estas tipologías. Newton llegó recientemente a rastrear aproximadamente 149 categorías en la literatura sobre validez en medición psicológica y educacional (conf. Newton, 2013), que se agregan a las 17 que Messick (1980) ya criticaba en su tiempo. Basado en las ideas de autores como Tenopyr (1977) y Guion (1977), Messick (1980: 1015) indica que: “(...) la validez de constructo es, de hecho, el concepto unificador de la validez, que integra las consideraciones de criterio y de contenido en un marco común para testear hipótesis racionales sobre relaciones teóricamente relevantes. Este significado del constructo provee una base racional tanto para hipotetizar relaciones predictivas como para juzgar la relevancia y representatividad del contenido.” Esto significa que es el constructo teórico de aquello que se busca evaluar lo que prima y da sentido a todos los otros aspectos de la validez. Solamente sobre una base teórica clara y sólida se puede luego establecer cuál es el contenido y/o el criterio a considerar y se puede proveer evidencia que sustente las interpretaciones que se realizan acerca de los puntajes del


instrumento. Por ejemplo, si se trata de una prueba de comprensión lectora, según el concepto unitario de Messick, lo primero que se debiera considerar es qué ideas o teorías sobre lo que significa la comprensión de un texto se utilizarán como base para el constructo y qué interpretaciones se espera desprender del instrumento a diseñar en base a esa teoría. Teniendo en cuenta este primer paso, se puede posteriormente definir qué significa, por ejemplo, que dicho constructo quede adecuadamente representado en una evaluación, y qué evidencia se necesita para indicar que nuestra interpretación del puntaje se acerca a aquella que se hipotetizó en base a la teoría. Existe actualmente un amplio consenso en la literatura en torno a esta idea unitaria de la validez en evaluación (ver por ejemplo Crooks at al., 1996; Kane, 2008; Newton, 2012; Sireci, 2007; Hubley y Zumbo, 2011). Junto con el concepto unitario, Messick introduce otra dimensión de la validez cuya importancia se reconoce en teoría, pero pocas veces se contempla en la práctica de la construcción de instrumentos de evaluación. Se trata de la dimensión consecuencial de la validez, es decir, aquella que se relaciona con ‘las consecuencias sociales del uso intencionado *de un test+’ y ‘las consecuencias reales de su uso’ (Messick, 1980: 1023). Por lo tanto, no basta con proveer evidencia acerca de la plausibilidad de las interpretaciones propuestas para un determinado instrumento, sino que también se debe evaluar cuáles son las consecuencias para la sociedad derivadas del uso de una medición (Hubley y Zumbo, 2011), en el sentido de si las consecuencias que genera corresponden a un uso éticamente responsable del test (Messick, 1980). Este ámbito de la validez sigue siendo discutido (conf. Mehrens, 1997 and Popham, 1997), aun cuando autores como Koch y DeLuca (2012) aluden a la creciente literatura en torno al impacto considerable que los instrumentos de evaluación tienen sobre el aprendizaje de los estudiantes, la enseñanza, la cultura escolar y la política educativa. De allí que estos y otros autores se encuentren explorando recientemente nuevos modelos para estudios de validez en los que se contemple la complejidad de los múltiples propósitos e interpretaciones de una evaluación, además de las posibles interacciones entre los diversos usos que se le dan (Koch y DeLuca, 2012). En síntesis, las principales dimensiones del concepto de validez que se reconocen actualmente se incorporaron a la discusión en momentos históricos específicos y de acuerdo a las necesidades de la sociedad en relación con la evaluación estandarizada. Se transita inicialmente desde la centralidad del contenido a evaluar, hacia la posibilidad de predecir comportamientos, ámbitos en los que generalmente la validez se limita a ciertos procedimientos estadísticos como la detección de coeficientes de correlación o al chequeo de la relación entre contenidos e ítems. Una vez que la discusión en torno al tema de la validez se complejiza y se hace explícita, se incorpora la dimensión más cualitativa y de juicio, a partir de la cual aspectos como la teoría subyacente a un instrumento y sus usos y consecuencias se vuelven fundamentales para considerar que las interpretaciones derivadas del puntaje de una evaluación son válidas. 3.2. Principales discusiones en torno al concepto de validez Antes de indicar los aspectos de la validez sobre los cuales existe consenso en la literatura y que se entenderán como el marco del presente estudio, es importante indicar también aquellos acerca de los cuales existe todavía discusión y disenso. De esta manera se contextualiza el análisis de SIMCE en relación con las contribuciones que éste puede realizar a la teoría general


sobre la validez a partir de evidencia empírica que responda a los problemas actuales de este campo de investigación. Las grandes discusiones en torno al tema de la validez se pueden resumir en dos grandes puntos de desacuerdo: la concepción unitaria del concepto de validez y la inclusión de la dimensión consecuencial como parte de la determinación de la validez de un proceso de evaluación. Es necesario mencionar, no obstante, que los autores que cuestionan ambos aspectos son minoritarios y que las concepciones predominantes son las descritas en la siguiente sección.

Concepto unitario de la validez El concepto unitario de validez propuesto por Messick (1980; 1989), referido a la dimensión de constructo como aquella que predomina y subsume a todas las demás, es ampliamente aceptado tanto por los teóricos de la evaluación como por la comunidad profesional experta en el tema a través de sus diversos estándares (ver por ejemplo Shepard, 1997; Crooks at al., 1996, Linn, 1997; Moss, 2007; Kane, 2011). Pese a ello, hay autores como Mehrens (1997) y Lissitz y Samuelsen (2007), que proponen básicamente el regreso a una idea más simple de validez en la que las tipologías persisten y co-existen o en que una de ellas se deja como la única atingente a la validez. Mehrens (1997) indica añorar el pasado en que principalmente se hablaba de dos tipos de validez, de contenido y de constructo, para las cuales se podía ofrecer evidencia basada en contenido, en constructo o en criterio, dependiendo del tipo de inferencia que uno quisiera realizar en base al test. La principal crítica de Mehrens (1997) se refiere a que considera reduccionista supeditar todos los tipos de validez y de evidencia a una sola etiqueta abarcadora, lo que borra los límites de las distinciones tradicionales entre diferentes tipos de inferencia. Lissitz y Samuelsen (2007), por su parte, establecen una separación entre los aspectos internos y externos de una evaluación, considerando entre estos últimos los usos dados a un instrumento, y situando a la validez dentro de los aspectos internos de la prueba. En base a esta separación, proponen un regreso al momento en el cual solamente bastaba con evaluar la relevancia y cobertura del contenido de una prueba, independiente de los usos que se le den o de la teoría que la sostenga. Ello contradice, primero, toda la literatura que alude a que no es el test el que es válido en sí mismo, sino las interpretaciones que de él se realizan. Además, la propuesta vuelve a una concepción de la evaluación como centrada en el contenido, que tuvo su relevancia y su momento histórico, pero que al parecer no encuentra mayor eco dentro de la discusión teórica contemporánea. Como ya se ha dicho, esta aproximación a la validez ha sido ampliamente criticada por autores como Kane (2008) y Sireci (2007). Los críticos de esta idea de validez indican, por ejemplo, que una evaluación no puede basarse solamente en el contenido, pues incluso cuando se indica que se trata de una prueba de matemática para un grado específico, lo que se entiende por el dominio de las matemáticas en ese nivel depende de cómo entendemos la matemática en general y la matemática para dicho nivel, es decir, de un constructo y una interpretación específicos acerca de lo que se evalúa. Junto con ello, Kane (2008) indica que en la práctica es usual que las pruebas se validen de esta forma más rígida y restringida basada en el contenido, pero que es igualmente común que luego


se las interprete y utilice de maneras que van más allá de esta interpretación restringida inicial. Por lo tanto, si bien la solución de Lissitz y Samuelsen pudiera parecer cómoda y más fácil, lo que hace es simplemente desplazar la responsabilidad por la validez hacia los usuarios de una prueba, dejando a los constructores solamente la responsabilidad por la cobertura del contenido. En ambas críticas lo que principalmente se vislumbra es cierta nostalgia por un pasado en que la validez se entendía de manera más simple y, por lo tanto, el trabajo de validación de los evaluadores resultaba, a su vez, más simple. Sin embargo, como ya se ha dicho, gran parte de los teóricos sobre el tema están a favor de la concepción unitaria de Messick, que parece responder de manera más clara a las necesidades y preocupaciones actuales en torno a la evaluación en términos de sus interpretaciones y usos.

La dimensión consecuencial como parte de la validez Un ámbito en torno al cual el disenso es mayor se relaciona con la inclusión que Messick (1980; 1989) realiza de las implicaciones valóricas y las consecuencias sociales de la evaluación como parte de su modelo de validez. Para este autor, todo constructo teórico está ligado a determinados supuestos valóricos, que van desde cómo se entiende la inteligencia en un contexto particular hasta conexiones más sutiles con la ideología. Por ello, estos aspectos deben considerarse dentro de la interpretación de una evaluación. Además, en el ámbito del uso de un test no solamente se debe considerar la relevancia o utilidad y la validez de constructo, sino también las consecuencias sociales que genera, entendidas como los posibles efectos secundarios positivos y negativos de la prueba, y su relación de equilibrio con sus propósitos explícitos. El modelo de validez de Messick (1980: 1023) se resume en la Figura 1, que aparece frecuentemente aludida o citada en la literatura sobre el tema.

Interpretación del Test Uso del Test

Base en Evidencia Validez de Constructo

Validez de Constructo+ Relevancia/Utilidad

Base Consecuencial Implicaciones valóricas

Consecuencias Sociales

FIGURA 1. Facetas de la validez de un test según Messick (1980)

El centro de la discusión no contempla el cuestionamiento de la importancia de considerar las consecuencias y efectos secundarios de una evaluación. Existe consenso en la literatura con respecto a la relevancia de estos aspectos. Lo que genera disenso es si tales efectos y consecuencias deben o no considerarse parte del concepto de validez (Popham, 1997; Mehrens, 1997; Shepard, 1997; Linn, 1997). Aquellos que se oponen a la inclusión de la dimensión consencuencial en el ámbito de la validez, arguyen que ampliar el concepto de esta manera solamente contribuye a confundir a los usuarios de las pruebas, y que por el bien de la claridad el significado de la validez debería limitarse a la ‘precisión de las inferencias basadas en un test’ (Popham, 1997: 9). Otros, como Mehrens (1997), apelan a la necesidad de separar la validación de los usos, indicando que el


significado del constructo a evaluar, así como la evidencia de que el test mide tal constructo pueden establecerse sin referencia a ningún uso en particular. Tenopyr (1996) ha llegado a indicar que hablar de las consecuencias como una dimensión de la validez, incluyendo las acciones de otros en base al test, pervierte los fundamentos científicos de la medición.

Shepard (1997) contesta a estas críticas indicando que se puede abordar la validez de la interpretación de una prueba sin considerar el uso del test, ‘siempre y cuando no se pretenda ningún uso’ (1997: 6). Sin embargo, esto rara vez ocurre, ya que las pruebas estandarizadas se utilizan para la toma de decisiones. Para la autora, cada vez que esto sucede, el análisis de la validez debe realizarse en relación con el uso específico que se busca dar al test, incluyendo sus potenciales efectos y consecuencias. Da como ejemplo la existencia de incrementos en el financiamiento de los distritos escolares relacionados a un aumento en los puntajes de las pruebas estandarizadas, mecanismo que requeriría evaluar las consecuencias que pudiera generar en el aprendizaje. Para ilustrar de mejor manera esta idea, se puede ejemplificar con el caso de SIMCE, donde la estrategia mencionada por Shepard se observa a partir de la ley SEP, que relaciona provisión de financiamiento con incrementos de puntaje, por lo que las consecuencias de ello deberían evaluarse para asegurar la dimensión consecuencial de la validez de esta prueba. Hay autores que sostienen que esto viene realizándose de manera indirecta desde la instauración del SIMCE, puesto que la competencia por matrícula a la que las escuelas chilenas están sometidas en el actual modelo educativo neo-liberal, implica que un puntaje alto en SIMCE atrae más dinero a los establecimientos (Maureira et al., 2009). Para estos autores, una de las consecuencias graves de esta práctica es perpetuar la inequidad del sistema, puesto que las escuelas buscan quedarse con los ‘mejores’ alumnos, excluyendo y segregando a los de rendimiento más bajo. Si se indica que uno de los propósitos del SIMCE es mejorar la calidad y equidad de la educación en Chile (ver sección 6.1), entonces las consecuencias antes mencionadas podrían ser parte de un problema de validez del sistema de evaluación y no simplemente un efecto externo o un mal uso. Según Linn (1997), excluir la dimensión consecuencial de la validez reduciría su prioridad, y la haría pasar a un segundo plano, pese a al carácter crucial que este ámbito tiene para evaluar la pertinencia de los usos e interpretaciones de un test. Otros autores que promueven la inclusión de la dimensión consecuencial de la validez intentan restringir su significado, con el fin de hacer más viable su uso. Linn (1997), por ejemplo, indica que el concepto no se refiere a la evaluación de todas las consecuencias posibles, sino de ‘las principales consecuencias intencionadas y las posibles consecuencias negativas no intencionadas’ (1997: 14). De manera similar, Hubley y Zumbo (2011) observan que es la falta de entendimiento y las malas interpretaciones en torno al concepto de Messick lo que ha llevado al cuestionamiento de la dimensión consecuencial de la validez, y a la evasión de su inclusión por parte de los creadores y usuarios de las pruebas. Para Hubley y Zumbo (2011: 222), la base consecuencial para la interpretación y uso de un test no tiene que ver con malas prácticas de evaluación, sino con ‘consecuencias no anticipadas o no intencionadas de interpretaciones y usos legítimos del test’. De todas formas, incluso los críticos de la inclusión de las consecuencias de la evaluación en el ámbito de la validez entienden que van contra el consenso de la mayoría de los autores del campo. Popham (1997: 9) indica que está consciente de que su posición no es compartida por algunas de las voces más importantes del área. Ello coincide con los hallazgos de esta revisión de


literatura, donde la mayoría de los autores revisados reconoce la importancia de las consecuencias de una evaluación como parte del análisis de su validez (Shepard, 1997; Linn, 1997; Kane 2008, 2011 y 2010; Crooks et al., 1996; Hubley y Zumbo, 2011, entre otros). 3.3. Concepto de validez: principios generales, tipología y métodos a considerar en este estudio

Principios generales Más allá de las discusiones teóricas, se puede afirmar que hay ciertos aspectos de la validez de una prueba acerca de los cuales hay amplio acuerdo en la literatura actual. Junto con ello, para autores como Newton (2012) resulta fundamental que exista cierto nivel de consenso en cómo se entiende este concepto, no solamente entre los expertos, sino también entre todos aquellos que participan del proceso (los desarrolladores de las pruebas, los encargados de políticas, los usuarios, la opinión pública y los evaluados). De ello depende que todos comprendan los resultados adecuadamente y los utilicen de forma responsable. Junto con ello, autores como Moss (2007) y Koch y DeLuca (2012) insisten en la necesidad de comprender los procesos de validación en términos de una indagación permanente y continua, debido al carácter contextualizado y temporal de estos procesos; ello significa que, en lo que denomina la concepción generativa de la validez, esta debe ser cuestionada y re-estudiada permanentemente con el fin de comprobar que un determinado proceso de evaluación sigue siendo válido en el tiempo y con los cambios de contexto. El primer aspecto sobre el cual existe acuerdo en la literatura se refiere a la importancia de la validez para asegurar la calidad de un proceso de evaluación. Desde las primeras reflexiones en torno a la evaluación se indica que los principales problemas a resolver en relación con una medición tienen que ver con su validez y su confiabilidad (ver por ejemplo Buckingham et al., 1921, citado en Newton, 2012). De manera similar, para Crooks et al. (1996: 265) ‘La validez es la consideración más importante en el uso de procedimientos de evaluación’, relevancia que los estándares diseñados por las asociaciones profesionales de evaluación han confirmado. Cronbach (1984: 103) también afirma que: “La cualidad que más afecta el valor de un test (…) es su validez. La validez es alta si un test mide lo que corresponde, es decir, si provee la información que aquel que toma las decisiones necesita. No importa qué tan satisfactorio es en otros aspectos, un test que no mide lo que corresponde no sirve para nada.” Pese a que ningún autor contradice la centralidad de la validez como un aspecto que define la calidad de una evaluación, Crooks et al. (1996) destacan la forma en que los procesos de confiabilidad y generalización de una evaluación reciben más atención en la práctica que la dimensión de validez del instrumento. Los autores indican que ello se debe a que el carácter algorítmico de los procedimientos usualmente utilizados para determinar la confiabilidad y el grado de generalización de una prueba los hacen ‘más fáciles de estandarizar, informar y defender’ (1996: 266), mientras que los procedimientos asociados a la validez se basan mucho más en el juicio humano, por lo que su determinación y defensa resultan más complejas. Ello incluso influye en las formas más comunes de abordar la validez, que se centran en la correlación de mediciones (dimensión concurrente y predictiva) y en aspectos psicométricos,


dejando de lado las dimensiones de constructo y las consecuencias, así como otros tipos de evidencia (Crooks et al., 1996; Koch y DeLuca, 2012). Además de su relevancia, otro aspecto que recibe amplio consenso en la literatura es la afirmación de que un test no es válido en sí mismo. No es la prueba la que es válida, sino las inferencias que se realizan a partir de ella en base a un determinado propósito o uso (Cureton, 1951; Cronbach, 1984; Anastasi y Urbina, 1997; Kane, 2011; Newton, 2012; Hubley y Zumbo, 2011, entre otros). Cronbach (1984), por ejemplo, indica que la pregunta correcta no es qué tan válida es esta evaluación, sino para qué decisiones es válida esta evaluación. Anastasi y Urbina (1997: 113), por su parte, indican que no se puede aludir a la validez de un instrumento en términos generales como alta o baja en un sentido abstracto, sino que ‘la validez debe establecerse con referencia al uso particular para el cual un test está siendo considerado’. Newton (2012) agrega a lo anterior que la validez de la interpretación para una determinada evaluación no se refiere solamente al instrumento que se utiliza, sino que compete al proceso completo de medición, es decir, alude a aspectos de administración, de evaluación, a la forma en que se entrega información acerca de los resultados, etc. De allí que el modelo de validez de Koch y DeLuca (2012), tal como lo propone el presente estudio, incorpore a los diferentes actores del proceso de evaluación y sus interpretaciones y usos particulares de la prueba. Al concordar en que la validez se relaciona con las interpretaciones que se pueden realizar a partir de un proceso de evaluación, la literatura asume un acuerdo en relación con el concepto unitario de validez de Messick, a partir del cual todas las dimensiones de la validez se relacionan o están supeditadas al constructo teórico que se busca evaluar. La siguiente definición de Messick (1989: 13) es ampliamente referida en los textos sobre el tema: “La validez es un juicio evaluativo integrado acerca del grado en el cual la evidencia empírica y los fundamentos teóricos sustentan la adecuación y lo apropiado de las inferencias y acciones basadas en los puntajes de un test u otros modos de medición.” En base a esta definición, los autores en su mayoría concuerdan, en base a Kane (2008), que la aproximación contemporánea al concepto de validez es la basada en argumento (argument-based approach), esto es, consiste en proveer evidencia adecuada para evaluar la plausibilidad de las inferencias y supuestos implícitos en una interpretación o uso de una prueba. Finalmente, otro aspecto en torno al cual los autores en general parecen coincidir, es en que la validez no puede establecerse de forma inequívoca y absoluta, es decir, que lo que se realiza al validar un proceso de evaluación es hacer que este alcance el mayor grado de validez posible para un propósito determinado. Koch y DeLuca (2012: 104), refiriéndose al enfoque basado en argumento de Kane, explican: “Kane especifica que los argumentos de validez son afirmaciones refutables que dependen de la evidencia disponible y se sitúan dentro de contextos de práctica específicos. Por lo tanto, los argumentos de validez pueden ser alterados a la luz de nueva evidencia o en contextos nuevos. Kane también enfatiza que los argumentos de validez son siempre un asunto de grado más que un juicio definitivo.”


De forma similar, Cronbach (1984) indica que la selección de un test siempre debe hacerse en relación con el propósito particular para el cual se lo quiere utilizar y en relación con la situación particular en la que se lo empleará, y por ello critica la posibilidad de realizar listados de buenas pruebas, ya que la calidad dependerá de cuán válidas estas son para un propósito y un contexto determinados. A ello alude también Newton (2012) cuando indica que la validez es siempre contingente y condicional, que debe juzgarse en términos de la mejor construcción existente al presente acerca del atributo a evaluar, que la especificación del constructo es tan buena como puede serlo en este momento y que el procedimiento permite medirlo lo suficientemente bien. En síntesis, los principios centrales acerca de los cuales existe mayor consenso en torno a la validez en la literatura sobre el tema son: la importancia del concepto de validez para la calidad de una prueba; la idea de que un test no es válido en sí mismo, sino que las interpretaciones derivadas de su puntaje son válidas o no en relación con un propósito o uso determinado; el principio de que la validez es un juicio integrativo acerca del proceso de evaluación como totalidad y que, por lo tanto, requiere de la provisión permanente y creciente de evidencia para dicho juicio; y la idea de validez como un tema de grados y no de afirmación o negación absolutas.

Tipología y métodos Junto con los acuerdos en torno a ciertos principios, hay determinadas dimensiones de la validez que son reconocidas en gran parte de la literatura sobre el tema: de constructo, contenido, predictiva, concurrente y consecuencial. Más allá de cuál es la que predomina o abarca a las demás, parece existir consenso en relación con que estas son las formas fundamentales a considerar a la hora de validar una prueba. Además, cada dimensión lleva asociados ciertos métodos específicos de validación. A continuación se define cada una de estas dimensiones, de la manera en que serán entendidas en la presente investigación, y se proveerá una descripción de los métodos que la literatura reconoce más comúnmente para cada una de ellas. Dimensión de constructo Denominada en un inicio por Cronbach y Meehl (1955) como validez de constructo, esta idea se introduce al campo de la evaluación por medio de la psicología, específicamente por el rol asignado a la teoría psicológica en la construcción de pruebas, a partir de la cual la validación incluía probar o refutar hipótesis formuladas en base a la teoría (Anastasi y Urbina, 1997). La dimensión de constructo se refiere específicamente al constructo teórico o rasgo que se busca medir y la evidencia que se provee acerca de que el test está efectivamente midiendo tal rasgo (Anastasi y Urbina, 1997). Para Messick, desde su concepto unitario de validez, esta dimensión se convierte en la más importante y la que abarca a todas las demás (Messick 1980, 1989). Así, el autor define la dimensión de constructo como: “(…) la base en evidencia para la interpretación del test. Implica tanto evidencia convergente como discriminante que documente relaciones empíricas teóricamente relevantes (a) entre el test y diferentes métodos para medir el mismo constructo, así como (b) entre mediciones del constructo y ejemplos de diferentes constructos que se predijo que estarían relacionados nomológicamente.” (Messick, 1980: 1019)


Sin embargo, esta dimensión de la validez no solamente implica la provisión de evidencia para la interpretación del test, sino también para el uso de la prueba en relación con un determinado propósito (Messick, 1980). Para ello se desarrollan hipótesis que relacionan el constructo con la ejecución en un dominio práctico, y que determinan “la relevancia del constructo para el propósito práctico y la utilidad de la medición en un contexto práctico” (1019). Al ser una dimensión más abarcadora, los procedimientos asociados a ella son más complejos e implican el trabajo con diversas fuentes de evidencia. Un procedimiento posible es la correlación con otros test que miden un constructo similar, aun cuando se espera una correlación más baja que en la dimensión de criterio, puesto que de lo contrario el nuevo test resultaría innecesario (Anastasi y Urbina, 1997; Cronbach, 1984). La correlación con otros test también se utiliza desde la lógica inversa, esto es, se confirma que el test no se correlaciona con otros instrumentos cuyos constructos no son relevantes para la medición (por ejemplo, que una prueba de habilidad matemática no se correlacione de manera muy alta con una prueba de comprensión lectora, puesto que de lo contrario este segundo rasgo estaría teniendo una influencia sobre los resultados, es decir, el desempeño de los estudiantes estaría variando por la comprensión que tienen de los ejercicios y no necesariamente por su habilidad matemática). El análisis factorial es otra fuente de información posible (Anastasi y Urbina, 1997; Cronbach, 1984). Se trata de “una técnica estadística refinada para analizar las interrelaciones de los datos de comportamiento” (Anastasi y Urbina, 1997: 128). Esto quiere decir que, de una multiplicidad de pruebas con factores considerados teóricamente afines (por ejemplo, vocabulario, gramática, comprensión de textos), se determina cuáles están correlacionados en un nivel suficiente como para llegar a constituir un constructo más abarcador (por ejemplo, comprensión verbal). Realizado este análisis, se describe la composición factorial de la prueba, esto es, se caracteriza en términos de los factores que determinan el puntaje y el peso de cada factor, y se determina la correlación de la prueba con cada factor, correlación denominada validez factorial. Otra fuente de evidencia consiste en el análisis de la consistencia interna de un instrumento de evaluación (Cronbach, 1984). Se trata de comprobar que cada ítem del test funciona de manera similar a la prueba como un todo en términos de diferenciar a los individuos que la responden. Sin embargo, Anastasi y Urbina (1997: 129) aclaran que “la contribución de los datos de consistencia interna a la validación de una prueba es limitada”, puesto que se requieren datos externos al test para saber qué es lo que este mide realmente. Campbell (Campbell, 1960; Campbell and Fiske, 1959) agrega a las posibles fuentes de evidencia la validación convergente y discriminante. Ello significa que se debe demostrar la correlación de la prueba con otras variables con las que debiera estar conectada teóricamente y también que no se correlacione de manera significativa con variables de las que debiera distinguirse teóricamente. Para efectuar este procedimiento de validación, los autores proponen el uso de un diseño experimental sistemático que implica evaluar dos o más rasgos por medio de dos o más métodos. Se hipotetizan en base a la teoría todas las correlaciones posibles entre los diversos métodos y rasgos, y se establecen coeficientes de validez y confiabilidad, en los que se espera una alta correlación entre las diferentes mediciones para un mismo rasgo. Para que la prueba tenga una validez satisfactoria, se espera una menor correlación entre diferentes rasgos medidos con métodos diferentes y entre diferentes rasgos medidos por el mismo método.


Las intervenciones experimentales constituyen otro método de validación de constructo (Anastasi y Urbina, 1997). Un ejemplo clásico de este método es la realización de pre-test y post-test, donde se esperan resultados más bajos en el primero y más altos en el segundo, dada una instancia de instrucción significativa entre ambos momentos. En términos de ítems, es posible examinar si, idealmente, la mayoría de ellos son reprobados por los individuos en la primera prueba y aprobados en la segunda. Si hay reprobación en ambas, es probable que el ítem sea muy difícil y, en el caso contrario, que el ítem sea demasiado fácil para el propósito del test. Durante los años ’80 y ’90, se extendió el uso de modelos de ecuaciones estructurales como método de validación de constructo (Anastasi y Urbina, 1997). Consiste en el establecimiento de un modelo de relaciones causales hipotéticas en base a la teoría, relaciones que luego se testean a través de ecuaciones de regresión lineal simultáneas. Los datos se comparan con los modelos teóricos para evaluar el ajuste entre ambos. No obstante, pese a que exista ajuste, se debe tener en cuenta que dicho ajuste puede ocurrir con muchos otros modelos, es decir, que pueden existir muchas otras explicaciones alternativas para un determinado comportamiento, cuya plausibilidad y significatividad debe ser evaluada por el investigador en base a su conocimiento de la situación. Existen múltiples métodos para la validación de la dimensión de constructo de una prueba y sería muy largo describirlos todos aquí. Lo que es común a todos ellos, y en lo que parece existir acuerdo entre los autores, es que la validación de constructo es un proceso continuo, que no termina, sino que simplemente se va perfeccionando a través de la generación de más y mejor evidencia acerca de la interpretación y el uso de un test (ver por ejemplo Messick, 1980; Cronbach, 1984; Anastasi, 1986). Para Messick (1980), la validación de un constructo no solamente implica evaluar las interpretaciones propuestas en base a la teoría, sino también proveer evidencia del uso del test en relación con su propósito. Los procedimientos asociados a este ámbito de la dimensión de constructo se explican en la sección relacionada con la dimensión consecuencial de la validez (ver infra, sección “Dimensión consecuencial”). Dimensión de contenido Se refiere a la cobertura del contenido necesario y adecuado para medir el constructo definido , es decir, alude a si el contenido del test es relevante para el contenido de un dominio particular , en terminos del grado en que representa dicho dominio (Gipps, 2004). Ello implica examinar los ítems y compararlos con el contenido que se desea evaluar en el instrumento, con el fin de comprobar si el test provee una adecuada medición de desempeño en un conjunto de tareas relevantes (Cronbach, 1984). Según Anastasi y Urbina (1997), una dificultad importante la constituye determinar adecuadamente una muestra del universo de ítems, lo que implica un análisis sistemático que garantice que los aspectos fundamentales del dominio estén cubiertos en la proporción correcta dentro del instrumento. Para poder asegurar la cobertura, el dominio a evaluar debe haber sido definido en detalle con anterioridad a la preparación de la prueba (Anastasi y Urbina, 1997). No obstante, no basta con analizar la prueba, sino que se debe también contemplar la relevancia de las respuestas dadas por los estudiantes (Ibid.), con el fin de no basarse solamente en el juicio del constructor acerca de la importancia del contenido del ítem, sino que se evalúe


también la consistencia del desempeño de los estudiantes con los dominios que se esperaba evaluar (Messick, 1980). Junto con ello, es importante tomar precauciones en relación con posibles sobre-generalizaciones en base a la prueba, es decir, que las interpretaciones vayan más allá del dominio que la prueba representa (Ibid.). Messick (1980) distingue dos ámbitos centrales de la dimensión de contenido para la validez de una evaluación:

Relevancia del contenido: consiste en la especificación del dominio de comportamiento a evaluar y las tareas correspondientes a dicho dominio. Este aspecto implica delimitar claramente el dominio desde una definición operacional que permita evaluar qué tareas son pertinentes.

Cobertura del contenido: se refiere a la especificación de los procedimientos para seleccionar una muestra de ítems que logre representar los diferentes aspectos que caracterizan el dominio.

Para Messick (1980), el contenido no puede definirse como desvinculado de una construcción teórica menos restringida de la dimensión de comportamiento a evaluar, y por ello entiende el ámbito del contenido como subsumido al de constructo. En este sentido, junto con Kane (2008) y Sireci (2007), insiste en que la validez de una prueba no puede determinarse solamente en base a la dimensión de contenido. Los métodos específicos en relación con la dimensión de contenido son:

Examen del programa de estudios, de los libros de textos y consulta a expertos, con el fin de determinar con la mayor precisión posible cuáles son los contenidos relevantes a evaluar. Sobre la base de esta información se definen las especificaciones del test, que serán la base de trabajo para los constructores de ítems. En dichas especificaciones se indican los contenidos o temas por cubrir, los objetivos o procesos a evaluar y la importancia relativa de cada tema o proceso. Finalmente, las especificaciones deberían establecer el número de ítems de cada tipo que se deben construir para cada tema (Anastasi y Urbina, 1997).

Procedimientos empíricos en base a las respuestas de los evaluados, como una forma de chequear la validez establecida en la construcción de la prueba (Messick, 1980; Anastasi y Urbina, 1997). Para ello se considera tanto el puntaje total como el desempeño en ítems individuales, con el fin de detectar si las respuestas a la prueba efectivamente son consistentes con el comportamiento esperado en el dominio a evaluar. Ello implica poder realizar generalizaciones desde un ítem a otros similares en la muestra, a otras pruebas paralelas desarrolladas de forma similar, y así sucesivamente (Messick, 1980). Otro procedimiento para validar la prueba a nivel de contenido consiste en analizar errores típicos en un test y en la observación de los métodos utilizados por los evaluados, por ejemplo, a través del método de pensamiento en voz alta (Anastasi y Urbina, 1997), con el fin de confirmar que el comportamiento de los evaluados obedece al dominio en consideración. Además, deben incluirse procedimientos para examinar la varianza no relevante al contenido (content-irrelevant variance), es decir, comprobar en la medida de lo posible que el desempeño de un evaluado no se debe a otras variables no relacionadas con el comportamiento a evaluar


(ansiedad, falta de motivación, falta de atención, azar, sesgo), ni a otras posible hipótesis rivales que podrían explicar dicho comportamiento (Messick, 1980).

Tanto Cronbach (1984) como Anastasi y Urbina (1997) aluden a la importancia de proveer a los usuarios con un manual que facilite el empleo adecuado del instrumento. En este material se deben transparentar los procedimientos seguidos para asegurar la representatividad y adecuación del contenido, indicando incluso la calificación profesional de aquellos que participaron en la construcción del test, las indicaciones que recibieron para clasificar ítems, y la fecha en que los expertos fueron consultados, considerando que el currículum se modifica en el tiempo (Anastasi y Urbina, 1997). El manual debe proveer, de manera clara para que cualquier usuario calificado lo pueda entender, información sobre la calidad técnica de la prueba, los procedimientos de asignación de puntaje y las evidencias de investigación, así como instrucciones detalladas sobre el uso del test (Cronbach, 1984). Solamente así se asegura que las interpretaciones de los puntajes se ajusten a los límites de construcción del test y no se generalicen a ámbitos o usos no pertinentes para los cuales el test no es válido. Dimensión de criterio (predictiva y concurrente) Como se dijo anteriormente, el interés por el uso de las pruebas con fines de selección y clasificación motiva la búsqueda y determinación de métodos basados en criterio. Si el criterio definido, es decir, aquello que funciona como parámetro comparativo de la medición, corresponde a otra medición realizada en el futuro, entonces hablamos de la dimensión predictiva de la validez. Si, por el contrario, lo que se busca es corroborar la medición con un criterio contemporáneo a esta, entonces hablamos de la dimensión concurrente de la validez (conf. Messick, 1980; Cronbach, 1984; Anastasi y Urbina, 1997). Por ejemplo, si se comparan los puntajes del próximo SIMCE con las notas asignadas por los docentes durante la misma época de la medición, podríamos estar hablando de las notas como el criterio que se utiliza para medir la dimensión concurrente de la validez del SIMCE. Anastasi y Urbina (1997) indican que muchas veces se piensa en una validación concurrente como reemplazo de una validación predictiva, en aquellos casos en que la validación en el tiempo resulta impracticable por su extensión y costo. Por ello, se recurre a la evaluación de un grupo sobre el cual ya existen datos que servirían como criterio (por ejemplo, la utilización de las notas promedio de los estudiantes en la enseñanza media como criterio concurrente de la PSU en lugar de las notas en la universidad como criterio predictivo). Según Cronbach (1984), lo más difícil en este ámbito de la validez es encontrar un criterio adecuado, que constituya una medición adecuada del comportamiento a evaluar en términos de la comparación que puede establecerse entre este criterio y la medición a realizar. Junto con ello, Anastasi y Urbina (1997) previenen contra la contaminación del criterio, es decir, que los puntajes de la prueba no tengan influencia en el criterio. Por ejemplo, si se utilizara la inspección de clases como criterio para evaluar la efectividad del SIMCE como medición de calidad educativa, habría que resguardar que el inspector no conociera el puntaje del establecimiento, ya que ello podría predeterminar su evaluación y hacer creer que es consistente con la medición, creando una falsa impresión de validez en su dimensión concurrente. Algunos de los criterios comúnmente utilizados son: contraste de grupos, diagnósticos psiquiátricos (en el área de evaluación psicológica), rating asignado por alguna autoridad o especialista, otros test elaborados previamente, aun cuando todos estos criterios


tienen sus ventajas y desventajas en términos del nivel de comparación que se puede realizar (conf. Anastasi y Urbina, 1997). Messick (1980), en su teoría unitaria de la validez, ve los aspectos predictivo y concurrente más como la determinación de una relación de utilidad que de validez. Esto es, contrastar la medición con un criterio contemporáneo o en el futuro sirve para establecer qué tan útil es la prueba para los objetivos que persigue. Sin embargo, la sola demostración de esta correlación no es suficiente para indicar que un instrumento es válido. Para que así sea, estas relaciones deben enmarcarse en un razonamiento teórico que las justifique, es decir, estar en el contexto de un constructo específico. De manera similar, Anastasi y Urbina (1997: 124) distinguen desde fines de los ’90 una tendencia en la literatura hacia el análisis del criterio, es decir, investigación acerca del criterio utilizado y de su relación con el constructo que se quiere evaluar. Uno de los métodos más comunes para evaluar las dimensiones predictiva y concurrente de la validez es el establecimiento de coeficientes de correlación (Cronbach, 1984; Anastasi y Urbina, 1997). Se trata de ‘un resumen estadístico de la relación entre dos variables’ (Cronbach, 1984: 110), la de medición y la de criterio, donde se espera una correlación positiva entre ambas para poder indicar que el test es válido en esta dimensión. La correlación perfecta sería r=1.00, resultado rara vez alcanzado. De hecho, según Cronbach (1984) es inusual que este índice suba de .60, pero cualquier correlación positiva estaría aportando mayor precisión a la medición. Una correlación baja se relaciona con errores aleatorios o factores causales que no funcionan de la misma manera en ambas mediciones. Junto con ello, hay que recordar que correlación no significa necesariamente causa, sino que la relación puede interpretarse de diversas maneras. Inicialmente resultaba complejo generalizar la validez de estas pruebas más allá de la muestra específica del programa particular en que el instrumento se aplicaría. Sin embargo, con la introducción del meta-análisis desde los años ’70 en psicología, las posibilidades de generalización aumentaron. Este tipo de estudios combina los resultados de diversas investigaciones, en la medida de los posible, teniendo en cuenta los aspectos metodológicos y las características de cada estudio. Así, las correlaciones establecidas en estudios particulares pueden ampliarse a otras poblaciones, aumentando las posibilidades de generalización de la medición. Dimensión consecuencial Como se indicó anteriormente, uno de los aspectos más controversiales en la discusión en torno a la validez se relaciona con la inclusión que realiza Messick (1980) de la dimensión consecuencial como parte de la validez de un test. Para este autor, la pregunta por el uso y propósito de un test debe responderse tanto en base a evidencia como en base a imperativos éticos, es decir, se debe evaluar no solamente si el test sirve para un propósito determinado, sino también si la prueba debe o no utilizarse con dicho propósito. Esta dimensión, entonces, implica una evaluación de las posibles consecuencias de una prueba, aun cuando se trata de una tarea sumamente compleja, sobre todo en relación con sus efectos no intencionados. En términos de procedimiento, Messick (1980) sugiere comparar las posibles consecuencias del test con las que podrían tener otros procedimientos alternativos, incluso opuestos, incluyendo también las consecuencias de eliminar la medición por completo. Junto con ello, destaca la necesidad de incorporar como parte de la validez los supuestos de valor que subyacen a toda prueba. Para Messick (1980: 1022), todo constructo se sostiene sobre:


“(…) connotaciones de valor provenientes de tres fuentes principales: en primer lugar están los matices evaluativos de los nombres de los constructos mismos; luego están las connotaciones de valor de las teorías o redes nomológicas más amplias en que se sitúan los constructos; y finalmente están los presupuestos de las aun más amplias ideologías sobre la naturaleza de la humanidad, la sociedad, y la ciencia que tiñen cómo procedemos.” Evidentemente, encontrar un procedimiento para evaluar estos aspectos de la validez de una prueba resulta muy complejo. Messick (1980) propone realizar contrastes entre la teoría del constructo y perspectivas alternativas de interpretación del constructo o con perspectivas antitéticas plausibles. Ello facilitaría alcanzar, si no convergencia, al menos claridad acerca de los conflictos valóricos implícitos en las opciones tomadas en la construcción e interpretación de una prueba. Junto con los valores subyacentes, Messick (1980) destaca la importancia de contemplar la amplitud del constructo en términos de sus referentes teóricos y empíricos. La relevancia de esta operación radica en que, si se es poco preciso al definir un constructo, se lo deja abierto a todas las interpretaciones posibles en torno a él. Al delimitar adecuadamente el constructo a evaluar, se evita la sobre-simplificación y la sobre-generalización en la interpretación de los resultados. Autores más recientes han propuesto nuevas aproximaciones a la validez, donde el uso y las múltiples interpretaciones derivadas de un test se consideran como parte inherente del modelo. Koch y DeLuca (2012), por ejemplo, proponen un modelo de validación como estudio de caso narrativo, donde las perspectivas de los diferentes actores involucrados en el proceso de evaluación y los múltiples usos atribuidos a un test se examinan y analizan con el fin de llegar a una descripción de la coherencia de un sistema de evaluación. Para ello se contemplan cinco aspectos: “(1) los propósitos y usos explícitos de la evaluación; (2) los múltiples usos adicionales de la evaluación; (3) los actores clave que reciben el impacto de los usos y propósitos de la evaluación; (4) los contextos de práctica (p.ej. la escuela, el distrito, la provincia/estado); (5) los constructos teóricos representados por los propósitos de la evaluación.” (Koch y DeLuca, 2012: 107) Otros autores han criticado las interpretaciones erróneas que se han realizado del modelo de Messick y han precisado o reinterpretado los principios propuestos por el autor. Hubley y Zumbo (2011), por ejemplo, han realizado recientemente una modificación al modelo de Messick, incorporando la dimensión consecuencial como parte de la base en evidencia que se debe proveer para asegurar la validez de una prueba y no como un ámbito separado. Junto con ello, incorporan los aspectos valóricos y teóricos como relevantes en todos los pasos del procedimiento y enfatizan la distinción entre consecuencias intencionadas y efectos secundarios no intencionados de una prueba. La Figura 2 muestra la matriz de Messick reconceptualizada por Hubley y Zumbo (2011: 225):


Función

Inferencias a partir de, e interpretación de los puntajes de una prueba

Uso de, o decisiones hechas en base a, los puntajes de una prueba

Base en evidencia Validez de constructo + relevancia + presupuestos de valor + consecuencias sociales

Validez de constructo + relevancia y utilidad + presupuestos de valor + consecuencias sociales

FIGURA 2. Matriz de Messick reconceptualizada por Hubley y Zumbo

La figura sintetiza el modelo inicial de Messick, indicando que tanto la interpretación como el uso de una prueba, para ser válidos, requieren de evidencia en relación con sus consecuencias sociales y presupuestos de valor, además de otros aspectos de constructo, relevancia y utilidad. Pese a su reconocida importancia a nivel teórico, los autores que defienden la incorporación del uso y las consecuencias de un test como parte del estudio sobre su validez critican la escasa inclusión de estos aspectos en los actuales procesos de validación en la práctica (Kane, 2008; Hubley y Zumbo, 2011). Es por ello que la presente investigación busca contribuir a la generación de información empírica sobre el grado de relevancia que la consideración de los usos y consecuencias sociales de un test, desde la perspectiva de los múltiples actores involucrados, puede tener en relación con su validez. Junto con ello, se busca contribuir a la teoría explorando posibles interacciones entre la dimensión consecuencial y otras dimensiones de la validez. 3.4. Validez en SIMCE: literatura disponible Sobre la base de la discusión teórica anterior, en el contexto de un estudio sobre la validez del SIMCE, resulta fundamental explorar, al menos, las siguientes preguntas:

¿Cuál es el o los propósitos de SIMCE? ¿Son válidas las interpretaciones que se realizan de su puntaje en base a cada uno de dichos propósitos? ¿Qué evidencia se provee para cada uno de los propósitos del SIMCE?

¿Cuál es el constructo que se evalúa en SIMCE, es decir, sobre qué teorías se sustentan las interpretaciones del SIMCE?

¿Permite el procedimiento de SIMCE evaluar el constructo lo suficientemente bien?

¿Se entrega junto al SIMCE algo equivalente a un manual? ¿Hay información acerca de los usos, instrucciones, puntaje y aseguramiento de la calidad del SIMCE? ¿Es información entendible para todos? ¿Hay suficiente transparencia como la debería haber en un manual?

¿Cuáles son las consecuencias del SIMCE? ¿Qué métodos alternativos podrían disminuir las consecuencias negativas del SIMCE? ¿Qué pasaría si no existiera el SIMCE?

¿Qué decisiones se espera tomar en base a los resultados de la prueba? ¿La prueba logra dar sustento a estas decisiones? ¿Son apropiadas las inferencias y las acciones que se realizan en base a los puntajes del SIMCE? ¿Hay evidencia suficiente al presente que sustente las interpretaciones dadas al SIMCE?

La evidencia disponible en relación con la validez del SIMCE entrega información principalmente acerca de sus propósitos, sus usos y consecuencias, además de un único estudio crítico centrado en las dimensiones de constructo y contenido de la prueba.


Propósitos

Con la Prueba Nacional y el Programa de Evaluación del Rendimiento escolar (PER) como sus antecedentes históricos (Schiefelbein, 1998), se crea en 1988 el Sistema de Medición de la Calidad de la Educación (SIMCE). Según Bellei (2002), su función inicial tiene que ver con informar la demanda en el mercado educativo, con el fin de apoyar las decisiones de los padres, entendidos desde el modelo instalado durante los años ‘80 como consumidores. Meckes y Carrasco (2010) agregan a este propósito inicial el de control de la calidad de la educación. Se trata de lo que múltiples autores llaman hoy gobernar a través de datos o números (ver por ejemplo Grek, 2009; Lawn and Ozga, 2009; Ozga, 2009), refiriéndose a la forma en que, pese a su aparente descentralización y entrega de mayor autonomía a los establecimientos, los modelos educativos neo-liberales mantienen un nivel de control central a través de diversos mecanismos como las evaluaciones estandarizadas, la rendición de cuentas o las inspecciones. En Chile, el funcionamiento del SIMCE en esta lógica solamente se hace efectivo desde 1995, cuando el requerimiento de la LOCE de publicar los resultados se pone en práctica. Ello introduce presión en el sistema, presión percibida como positiva por aquellos que defienden el modelo (ver por ejemplo Comisión SIMCE, 2003; Meckes y Carrasco, 2010; Eyzaguirre y Fontaine, 1999), pese a que sus potenciales efectos negativos son también reconocidos -aunque no sistemáticamente explorados- en esta literatura. Desde su creación, y a partir de las diversas modificaciones a las que ha sido sometida la prueba, al propósito inicial se han ido agregando otros. Al revisar la literatura disponible se encuentran, al menos, los siguientes:

Seguir el desempeño de una escuela en el tiempo (Eyzaguirre y Fontaine, 1999; Bellei, 2002; Schiefelbein, 1998).

Tomar decisiones acerca de programas de apoyo a las escuelas más vulnerables (Bellei, 2002; Meckes y Carrasco, 2010).

Evaluar el éxito o fracaso de una determinada política en base a los resultados del SIMCE (Meckes y Carrasco, 2010), lo que incluye también el uso para ejercer presión política y mediática sobre un gobierno (Bellei, 2002).

Mejorar las prácticas pedagógicas de los docentes por medio de la información acerca de los resultados (Meckes y Carrasco, 2010; Bellei, 2002; Schiefelbein, 1998).

Asociar “incentivos o consecuencias a los resultados y avances alcanzados por los establecimientos” (Comisión SIMCE, 2003: 13).

Informar las decisiones de los padres en torno a la educación de sus hijos (Meckes y Carrasco, 2010; Comisión SIMCE, 2003; Eyzaguirre y Fontaine, 1999).

Comprender las diferencias de resultados en base a aspectos contextuales más amplios que controlen por factores como el nivel socioeconómico de los estudiantes (Bellei, 2002; Comisión SIMCE, 2003).

Enviar mensajes al sistema acerca de lo que debe y no debe enseñarse en las aulas chilenas (Eyzaguirre y Fontaine, 1999).

Establecer rankings entre escuelas (Manzi et al., 2010). Pese a la importancia de los propósitos de una evaluación para su validez, es solamente Bellei (2002) quien advierte sobre el riesgo que implica esta simultaneidad de propósitos, donde


existen tensiones entre el SIMCE como política de presión y como política de apoyo, las cuales pueden desembocar en perversiones como la estandarización por medio de adiestramiento, reducción del currículum enseñado al currículum evaluado, discriminación de alumnos por bajo rendimiento, etc. El informe de la Comisión SIMCE también alude a propósitos múltiples y en competencia, y a sus posibles consecuencias no deseadas, pero responde a ello con una propuesta bastante general acerca de la necesidad de hacer coherentes entre sí los diferentes usos del SIMCE, y con sugerencias que mantienen la tensión a la que alude Bellei.

Consecuencias y usos

En relación con las consecuencias no deseadas del SIMCE, llama la atención la falta de investigación sistemática sobre el uso que los docentes dan al SIMCE, pese a la evidencia internacional sobre las consecuencias de la evaluación estandarizada en la enseñanza, el aprendizaje y el currículum (ver por ejemplo Berryhill et al., 2009; Shepard, 1992; Gipps, 2004), y a que diversos autores reconocen esta ausencia en la literatura nacional (Meckes y Carrasco, 2010; Bellei, 2002). Más llamativo todavía resulta observar que los estudios disponibles sobre el SIMCE asumen una multiplicidad de ideas acerca de los docentes, cuya proveniencia no queda del todo clara. Se dice que ellos no comprenden los resultados, que necesitan más formación para comprenderlos, que cada vez los utilizan más, que tienen creencias específicas sobre la evaluación que inciden en su comprensión de los resultados, que necesitan orientaciones más específicas y directivas acerca de cómo modificar sus ‘técnicas de enseñanza’ (Schiefelbein, 1998) en función de utilizar metodologías más adecuadas, etc. La única base empírica que se utiliza para indicar el uso que los docentes realizan del SIMCE se refiere a encuestas que ofrecen información bastante general, y a partir de las cuales solamente sabemos que los docentes declaran utilizar cada vez más los resultados de la prueba. Ello sin mencionar el rol que la deseabilidad podría tener en estas respuestas. Los únicos estudios que abordan los usos e interpretaciones que los docentes, directivos y apoderados realizan del SIMCE, son los de los investigadores del CIDE (ver CIDE 2007, 2008a, 2008b; Sepúlveda, 2008) y de Taut et al. (2009). El primer estudio indaga estos temas sobre la base de las jornadas de reflexión que el MINEDUC organiza en los establecimientos con el fin de que se analicen los resultados de la prueba y se establezcan compromisos al respecto. Este estudio concluye que se hace uso de los resultados en estas jornadas y que lo que más se valora son las interpretaciones apoyadas en los Niveles de Logro, más que las comparaciones ofrecidas en los informes. No obstante, hay un bajo uso de esta información como base para el establecimiento de metas, compromisos y acciones a futuro, y un exceso de responsabilización de los estudiantes, lo que impide asumir una mirada crítica que permita modificar las prácticas pedagógicas. En relación con ello, se alude a una “actitud anti-SIMCE” por parte de los profesores, la que se describe en los siguientes términos (Sepúlveda, 2008: 4-5): “(…) existen centros educacionales donde prevalece una actitud pasiva o de rechazo al sistema de medición porque se considera que este constituye una presión indebida a los esfuerzos por mejorar el aprendizaje de los estudiantes. Algunos consideran que la información no mide exactamente la realidad de los alumnos, y aducen que el sistema no reconoce situaciones de mayor vulnerabilidad de la población escolar.”


Esta información resulta crucial desde el punto de vista de la validez, puesto que uno de los actores relevantes del sistema de evaluación está indicando la existencia de consecuencias negativas, plantea dudas en términos de la dimensión concurrente de la validez (lo observado por los docentes no coincide con la realidad de los alumnos), e indica que los resultados no reflejan aspectos contextuales relevantes. Pese a ello, el estudio asume una actitud crítica hacia estos profesores, y se limita a sugerir que estos debieran mostrar mayor apertura a la innovación y a reconocer errores. En ese sentido, hay cierto sesgo pro-SIMCE en la investigación, que no considera la posibilidad de que la actitud de los profesores frente al SIMCE sea más que simple falta de auto-crítica o pasividad. En ningún momento se parte por la pregunta acerca de la calidad del SIMCE como instrumento de evaluación del sistema educativo, sino que se asume su valor como si este estuviera sobrentendido. Por su parte, el estudio de Taut et al. (2009) concluye que tanto profesores como padres presentan problemas para recordar e interpretar correctamente información básica de los informes de resultados. Esto resulta problemático si se espera que existan mejoras al interior de los establecimientos en base a dichos resultados y que los padres los utilicen para actuar como consumidores informados. Junto con ello, la investigación observa que en todos los establecimientos existe preparación para la prueba, lo que podría entenderse como una consecuencia no intencionada del SIMCE. Por otra parte, el estudio indica que la mayoría de los docentes considera injusto e inadecuado juzgar a una escuela o a un docente en base a los resultados del SIMCE, sobre todo si no se contemplan factores contextuales. Otra conclusión importante del estudio en relación con la validez del SIMCE es que aquellos apoderados que sí tienen acceso a los resultados de la prueba, no los valoran mayormente como base para tomar decisiones de elección de escuela. Dada esta evidencia de múltiples propósitos, de interpretaciones erróneas, de usos y consecuencias no intencionados, y de ausencia de un uso profundo de la información, resulta sorprendente que en la última década no se haya realizado un estudio crítico sobre la validez del SIMCE.

Estudios críticos en torno al SIMCE

Las aproximaciones críticas sistemáticas al SIMCE han sido escasas a lo largo de su historia. Las primeras surgen en el contexto de la implementación de la reforma educacional de los años noventa, la que implicaba necesariamente una modificación a la forma de medir los logros en torno al nuevo currículum. En ese contexto surgen estudios como el de Schiefelbein (1998), centrado en la eficiencia del sistema en relación con el mejoramiento de la calidad de la educación chilena. Parte de las conclusiones de este estudio se relacionan con lo alto de la inversión que involucra el SIMCE, si se la compara con los beneficios obtenidos a partir de dicho sistema, puesto que hasta la fecha de publicación del estudio no se registraban aumentos significativos en el rendimiento de los estudiantes. El autor interpreta esta persistencia de los resultados como una sub-utilización de la información por parte del MINEDUC, que hasta ese entonces externalizaba el SIMCE a través de la Universidad Católica de Chile, y como debida a las creencias de los docentes con respecto a los niveles de logro de los estudiantes y las causas de su bajo rendimiento.


La calidad técnica y la validez del instrumento no se cuestionan mayormente en este estudio, al menos en lo que concierne a su elaboración por parte de la Universidad Católica hasta ese año. Solamente se advierte acerca de la necesidad de resguardar el mismo nivel de calidad técnica una vez que la responsabilidad por todo el proceso pase al MINEDUC y, en esa dirección, se sugiere la mantención de vínculos con entidades académicas para el diseño y análisis de las pruebas. Junto con ello, el autor indica la necesidad de realizar mejoras de tipo metodológico que permitan comparar los datos del SIMCE en el tiempo. Himmel (1992) comenta la primera versión del texto de Schiefelbein, con el fin de precisar ciertos puntos con los cuales ella disiente. Si bien Schiefelbein incorpora gran parte de las observaciones en la versión aquí referida, resulta necesario rescatar el punto que Himmel indica acerca de la idea de impacto que se maneja en relación con el SIMCE. Frente a la perspectiva que espera modificaciones a corto plazo por medio de una evaluación estandarizada, ella propone una visión alternativa, donde los efectos pueden variar desde el no uso hasta la utilización plena y, a su vez, los usos pueden ser de diverso tipo, desde simbólicos o persuasivos (despidos o cierre de escuelas), pasando por reflexiones más detenidas asociadas a cambios a largo plazo, hasta un uso instrumental, donde la toma de decisiones se base directamente en la información evaluativa. Se trata de una advertencia importante en contra del uso efectista y político de los resultados, y a favor de los tiempos que se necesitan para obtener cambios reales, participativos y significativos en educación. Por último, contemporáneo al cambio del SIMCE a fines de los noventa, hay un tercer estudio relevante realizado por Eyzaguirre y Fontaine (1999). Junto con reiterar algunas de las observaciones realizadas por Schiefelbein, como la necesidad de resolver metodológicamente la comparabilidad de los resultados en el tiempo, las autoras efectúan un análisis detallado de los instrumentos antiguos y de transición, aprovechando la disponibilidad pública de información acerca de las preguntas del SIMCE, inédita hasta ese entonces. Se trata de un estudio valioso en el sentido del detalle con que se analizan las preguntas y, en base a ellas, las dimensiones de constructo y de contenido en relación con la validez de la prueba. Sobre los instrumentos anteriores a 1997, tanto de Lenguaje como de Matemática, critican la ambigüedad de las preguntas, la baja cobertura curricular, el bajo nivel de dificultad de las pruebas y la falta de equilibrio en las habilidades y contenidos evaluados. Gran parte de estos aspectos, según las autoras, se corrigen en las pruebas diseñadas desde 1998, denominadas por ellas de segunda generación, ya que se rigen todavía por el decreto anterior, pero contemplan solamente aquellos contenidos que son pertinentes a la reforma curricular. No obstante, en la nueva prueba de Lenguaje critican la dificultad potencial de la corrección de preguntas abiertas, la ausencia de contenidos de ortografía y gramática, la brevedad de los textos utilizados y la validez de contenido de la muestra de ítems, indicando que existiría cierta desalineación entre los objetivos que se declara evaluar, y las preguntas que se formulan. En Matemática critican la presencia de un vuelco demasiado brusco desde una prueba muy básica hacia una que se desequilibra hacia lo complejo, junto con la incoherencia entre las preguntas ofrecidas como ejemplo y el nivel de complejidad definido en las orientaciones SIMCE. Además, en términos de contenido observan que estos siguen siendo restringidos en comparación con evaluaciones internacionales como TIMSS. Pese a lo valioso de este estudio, es importante mencionar que las autoras se sitúan claramente a favor de un modelo educativo donde la presión sobre escuelas, profesores y alumnos a través


de sistemas de accountability, incentivos/consecuencias y competencia se considera positiva y adecuada. En ese sentido, no existe en el citado estudio una consideración de aspectos relacionados, por ejemplo, con la dimensión consecuencial de la validez de la prueba, ya que ello implicaría cuestionar el modelo en que el SIMCE se inserta dentro de nuestro sistema. Desde entonces no se ha realizado un nuevo análisis de los instrumentos que se vienen utilizando hace más de una década en nuestro país, y se sigue citando el estudio Eyzaguirre y Fontaine (1999) como si este probara de manera definitiva mejoras en la calidad técnica del SIMCE (ver por ejemplo Comisión SIMCE, 2003), pese a que las autoras advierten que se trata de una muestra incompleta de ítems e indican una serie de preocupaciones acerca de los nuevos instrumentos, que requerirían un nuevo examen hoy. Los estudios hasta aquí mencionados sin duda tuvieron efectos importantes sobre algunos aspectos técnicos de la prueba, ya que desde 1998 se reemplaza el método de Porcentaje Medio de Respuestas Correctas por la Teoría de Respuesta la Ítem, se introducen métodos de equating para favorecer la comparabilidad de los datos en el tiempo, y se busca un cambio paulatino desde un modelo con referencia a norma hacia un modelo con referencia a criterio (Bellei, 2002). Lo que se encuentra posteriormente en la literatura en relación con los aspectos técnicos y la validez de la prueba, carece de crítica y especificidad cuando proviene de estudios cercanos a la unidad del SIMCE del Ministerio de Educación. Se alude a este sistema como prestigioso, legítimo, creíble, transparente y metodológicamente sólido (Comisión SIMCE, 2003; Meckes y Carrasco, 2010), sin que se entreguen mayores argumentos ni se aluda a investigaciones específicas para dar sustento a estas afirmaciones. En síntesis, son pocos los estudios en torno a SIMCE y menos todavía los que se refieren a las diferentes dimensiones de la validez de este proceso de evaluación. Lo que se encuentra disponible sobre el tema corresponde principalmente al período anterior a 1998, antes del cambio asociado a la reforma, y se refiere a aspectos más bien técnicos explicados de forma general. Solamente Eyzaguirre y Fontaine (1999) han realizado un análisis en términos de validez de constructo y contenido, análisis que debe volver a realizarse más de diez años después y con nuevos instrumentos. Bellei (2002), por su parte, ha indicado los riesgos que para la calidad de la prueba implica la multiplicidad de propósitos y usos. Un escenario de investigación como el aquí descrito requiere de un estudio acucioso, sistemático y en profundidad sobre la validez del SIMCE en todas sus dimensiones, transparentando los procesos de elaboración e implementación de la prueba y las percepciones de los diferentes actores del sistema acerca de su validez.


4. METODOLOGÍA 4.1. Aproximación metodológica Existe una crítica generalizada en la literatura hacia la forma en que la teoría sobre validez suele ser puesta en práctica por las agencias evaluadoras, ya que en ellas la validez se tiende a abordar de una forma más mecánica, empiricista, poco holística y centrada en el aspecto estadístico (Haertel, 1999; Anastasi, 1986; Hubley y Zumbo, 2011; Koch y DeLuca, 2012). Hay, como se indicó en el marco teórico, toda una dimensión cualitativa que constituye parte fundamental de la validez de un proceso de evaluación, pero que rara vez se explora. Esta tiene que ver con las teorías implícitas en los constructos; con el juicio experto de aquellos que intervienen en la creación y corrección de las pruebas; con las diferentes interpretaciones que se realizan de los puntajes; con los propósitos atribuidos al instrumento a nivel de políticas de evaluación; con los usos que diversifican los propósitos de un test; con las creencias de los constructores de ítems; con las consecuencias de la prueba y su relación con el constructo evaluado, entre otros aspectos. Se ignora, así, evidencia externa al test que podría estar afectando su validez. De la misma manera, cuando se habla de los usos del SIMCE se suele aludir a encuestas que solamente dan cuenta de mayores o menores usos de la información proveniente de este sistema de evaluación, pero que no abordan de forma profunda y detallada la perspectiva que los usuarios del SIMCE tienen con respecto a este instrumento (conf. Meckes y Carrasco, 2010; CIDE, 2008a y 2008b; Taut et al., 2009, aun cuando los dos últimos equilibran sus resultados a partir de recogida de datos cualitativos, principalmente relacionados con el uso de los resultados SIMCE). Dada esta ausencia en la investigación y lo inexplorado del campo, el proyecto asume una perspectiva cualitativa, de carácter exploratorio, que analiza críticamente la validez del SIMCE, con el fin de dar un primer paso que motive futuros estudios que profundicen o amplíen los resultados aquí obtenidos. 4.2. Preguntas y objetivos de investigación Sobre la base de la teoría y los fundamentos antes expuestos, se formulan las siguientes preguntas de investigación: Pregunta general: ¿Es el SIMCE una evaluación válida, considerando las diferentes dimensiones del concepto de validez? Sub-preguntas: En base a los documentos disponibles y la perspectiva de los participantes del proceso:

¿Puede el SIMCE ser válido para todos los propósitos y usos que hoy se le asignan? ¿Son válidas las interpretaciones propuestas en base a sus resultados?

¿Existe entre los actores una visión similar acerca de la validez del SIMCE?


¿Cuáles son los constructos evaluados por el SIMCE? ¿Existe una visión coherente en el sistema acerca de dichos constructos?

¿Que contenidos evalúa el SIMCE y que tan representa tivo es dicho contenido del constructo a evaluar?

¿Que piensan los actores del proceso acerca de la validez predictiva y concurrente del SIMCE?

¿Se mantiene la validez de los instrumentos del SIMCE a lo largo de su proceso de producción, distribución, corrección y uso?

Las preguntas antes señaladas se traducen en los siguientes objetivos generales y específicos: General:

Analizar críticamente el Sistema de Medición de la Calidad de la Educación (SIMCE) desde las diferentes dimensiones del concepto de validez en evaluación.

Específicos:

Explorar y describir el concepto de validez y sus diferentes dimensiones en el SIMCE, considerando la perspectiva de los diferentes actores del proceso y las características del instrumento de evaluación.

Analizar críticamente, en base a la teoría sobre el concepto de validez, los procesos de construcción, implementación, corrección y uso del SIMCE.

Sugerir y proponer orientaciones para el mejoramiento de la validez del Sistema de Medición de la Calidad de la Educación en Chile.

4.3. Revisión de la literatura disponible: Con el fin de contar con una base teórica e investigativa fuerte, que informara los procesos de recolección y análisis de datos, se realizó una revisión de literatura considerando tanto el concepto de validez en evaluación, como la investigación disponible sobre el SIMCE. Sobre la base de dicha revisión se construyó el marco teórico antes expuesto y se indagó el estado del arte en relación con la investigación sobre la validez de SIMCE. Las preguntas centrales que guiaron la búsqueda de literatura sobre validez son:

1) ¿Cómo se ha definido el concepto de validez en el ámbito de la evaluación educativa? 2) ¿Cuáles son (y han sido históricamente) las principales discusiones de este campo de

estudio? Para la búsqueda de literatura se consideraron las siguientes estrategias:

1) Búsquedas en bases de datos: considerando diferentes palabras clave (validez, evaluación, evaluación educativa, entre otras) en castellano y en inglés se realizó una búsqueda en bases de datos integradas, considerando tanto fuentes anglosajonas como iberoamericanas. Para ello, se trabajó con ProQuest y se examinaron el British Education Index, el Australian Education Index, ASSIA, Scielo y Redalyc.


2) Snowball sampling: también se examinaron las referencias contenidas en diferentes documentos en los que el concepto de validez se discute de manera sistemática y, una vez encontradas las fuentes indicadas en estos documentos, dichas fuentes fueron a su vez exploradas en relación con sus referencias. Así, se construyó un listado final de referencias donde las principales voces en la discusión teórica en torno al concepto de validez quedaron representadas.

3) Búsqueda de publicaciones en sitios de investigación: con el fin de incluir investigación relevante que pudiera no encontrarse en las bases de datos examinadas, se buscó también en las publicaciones de sitios web asociados a centros de investigación relevantes en Chile e Iberoamérica (OEI, UNESCO, MideUC, CIAE, CIDE, entre otros).

Los criterios de inclusión y exclusión se detallan en la siguiente tabla:

Criterio Inclusión Exclusión

Tipo de publicación Revistas académicas con revisión de pares; informes de investigación de instituciones con reconocimiento académico; libros.

Tesis, informes de política educativa, revistas sin revisión de pares.

Tema Discusión teórica en torno al concepto de validez en evaluación.

Uso del concepto de validez en relación con un instrumento concreto o un caso específico.

Año de publicación No hay restricción, debido a que se busca seguir el desarrollo histórico de esta discusión teórica.

-

Idioma Inglés, castellano. Otros idiomas.

TABLA 1. Criterios de inclusión y exclusión literatura sobre validez

Las preguntas centrales que guiaron la búsqueda de literatura sobre SIMCE son:

1) ¿Cuáles son las principales líneas de investigación en torno al SIMCE? 2) En base a la literatura general sobre validez, ¿qué evidencia empírica existe acerca de la

validez del SIMCE? 3) Teniendo en cuenta la investigación existente, ¿qué vacíos o interrogantes emergen en

torno a la validez del SIMCE? Para la búsqueda de literatura se consideraron las siguientes estrategias:

1) Búsquedas en bases de datos: considerando diferentes palabras clave (SIMCE, validez, evaluación, entre otras) en castellano y en inglés, se realizó una búsqueda en bases de datos integradas, considerando tanto fuentes anglosajonas como iberoamericanas. Para ello, se trabajó con ProQuest y se examinaron el British Education Index, el Australian Education Index, ASSIA, Scielo y Redalyc.

2) Búsqueda de publicaciones en sitios de investigación: con el fin de incluir investigación relevante que pudiera no encontrarse en las bases de datos examinadas, se buscó también en las publicaciones de sitios web asociados a centros de investigación relevantes en Chile e Iberoamérica (OEI, UNESCO, MideUC, CIAE, CIDE, entre otros).


Los criterios de inclusión y exclusión se detallan en la Tabla 2. Una vez seleccionados los textos para ambas revisiones, se procedió a realizar nuevas rondas de exclusión considerando la relevancia de las fuentes para la investigación, en base a una lectura más detenida de ellas. Junto con ello, algunas exclusiones se debieron a problemas para acceder a ciertas fuentes, en cuyo caso se buscaron textos adicionales del mismo autor acerca del tema. El listado final se puede consultar en la sección “Referencias y bibliografía” del presente informe.

Criterio Inclusión Exclusión

Tipo de publicación Revistas académicas con revisión de pares; informes de investigación de instituciones con reconocimiento académico; libros; informes de política educativa.

Tesis, revistas sin revisión de pares.

Tema SIMCE: características, usos, historia, validez, análisis crítico.

No relacionados con SIMCE.

Año de publicación 1997 a 2012, para considerar literatura contemporánea o posterior a los últimos cambios realizados al SIMCE.

Anteriores a 1997. De existir literatura anterior a este año, se la incluye solamente como fuente de contextualización.

Idioma Inglés, castellano. Otros idiomas.

TABLA 2. Criterios de inclusión y exclusión literatura sobre SIMCE.

4.4. Recolección de datos La recolección de los datos necesarios para responder, desde la perspectiva de un estudio cualitativo exploratorio, a las preguntas antes enunciadas se realizó a través de dos modalidades: Entrevistas Debido a contactos personales o laborales de la investigadora, se contó con acceso a actores que han participado del proceso asociado al SIMCE en diferentes roles. Junto con ello, se obtuvo acceso a otros actores a través de las personas con que la investigadora ya tenía contacto, con lo que se alcanzó una mayor amplitud de perfiles. En síntesis, se trató de una muestra intencionada que involucró también muestreo a través de snowballing. Como se trata de un grupo de elite en política educativa (especialmente en el caso de los participantes internos al SIMCE) en términos de su acceso privilegiado a la prueba y sus procedimientos, el valor de estos datos radica no en el número de participantes, sino en el hecho de que portan un conocimiento hasta ahora restringido a este grupo exclusivo. En total, se contactó a 15 actores involucrados en los ámbitos de coordinación, elaboración de ítems y corrección de ítems, lo que permitió reconstruir el proceso completo del SIMCE desde la formulación de los marcos de evaluación, hasta la publicación de resultados. La selección de participantes incluyó tanto a profesionales del área Lenguaje y Comunicación como del área Matemática, y a actores de procesos previos y actuales, lo que asegura una visión del proceso en más de una disciplina y a través del tiempo. La Tabla 3 detalla los participantes, sus roles y


disciplinas (cuando corresponde). Los años no se indican, pues ello podría ir en contra de los compromisos éticos de anonimidad de la investigación. Por el mismo motivo, todos los nombres utilizados corresponden a seudónimos. Es importante mencionar que el acceso resultó menos complejo con aquellos actores que habían estado involucrados en procesos anteriores, algunos de los cuales, de hecho, se mostraron altamente motivados por participar y poder contribuir a una visión crítica sobre la prueba. Los miembros actuales de SIMCE mostraron mayor resistencia y, en algunos casos, cierto temor o desconfianza de participar en el proyecto. Esta actitud refuerza la percepción expresada por varios de los participantes en las entrevistas con respecto a una actitud verticalista y poco dialógica por parte de la administración actual, que busca controlar todos los procesos y a todos los actores (ver sección 6.5). No obstante, se logró finalmente realizar entrevistas con algunos de ellos.

SEUDÓNIMO ROL(ES) EN SIMCE DISCIPLINA (SI APLICA)

1 Alicia Profesional SIMCE/Rol coordinación Matemática 2 Alejandra Supervisora elaboración preguntas

Supervisora corrección preguntas Lenguaje

3 Arturo Profesional SIMCE/Rol coordinación No aplica 4 Augusto Corrector preguntas SIMCE Matemática 5 Daniela Elaboradora de preguntas SIMCE

Correctora de preguntas SIMCE Validadora pautas SIMCE

Lenguaje

6 Emilio Corrector preguntas SIMCE Matemática 7 Jaime Profesional SIMCE/Rol coordinación Matemática 8 Josefina Profesional SIMCE/Rol coordinación No aplica 9 Pedro Coordinador institucional elaboración de

preguntas Lenguaje

10 Rebeca Profesional SIMCE/Rol coordinación Lenguaje 11 Roberta Supervisora elaboración preguntas SIMCE Lenguaje 12 Rodolfo Corrector preguntas SIMCE Lenguaje 13 Sandra Supervisora corrección SIMCE

Correctora preguntas SIMCE Lenguaje

14 Sofía Profesional SIMCE/Rol coordinación Lenguaje 15 Ximena Supervisora corrección preguntas SIMCE

Correctora preguntas SIMCE Lenguaje

TABLA 3. Participantes en proceso SIMCE seleccionados para entrevistas

Las entrevistas fueron semi-estructuradas y se basaron en la revisión de literatura sobre el concepto de validez, además de una primera lectura de los documentos seleccionados para el análisis (ver sección siguiente). Antes de la realización de las entrevistas, se pidió a la Profesora Jo-Anne Baird y a la Dra. Therese Hopfenbeck del OUCEA que revisaran las preguntas y realizaran sugerencias para mejorar su diseño. Sobre la base de estos comentarios, se corrigieron y jerarquizaron las preguntas, tras lo cual se dio curso a las entrevistas propiamente tales (las preguntas se indican en el Anexo 2). Todos los participantes firmaron un consentimiento informado en línea antes de la entrevista (ver formato en Anexo 1), en el cual les fueron indicados los objetivos y contenidos de la investigación y se les garantizó el anonimato. Además, se les dio la oportunidad de resolver sus dudas con respecto al proyecto. Cuando surgió como pregunta, se les explicó que, de proveerse durante la entrevista ejemplos específicos de ítems o textos utilizados en la prueba, estos no se mencionarían, con el fin de respetar los compromisos de confidencialidad firmados por ellos. En relación con los procesos


de elaboración del SIMCE, estos no se consideran confidenciales y se exponen en este informe, pues desde el punto de vista de la validez estos deben transparentarse y no existe daño alguno al instrumento al darlos a conocer (Cronbach, 1984; Anastasi y Urbina, 1997). Junto con ello, se utilizaron como fuente de información las entrevistas que la investigadora realizó durante 2011 a profesores en el contexto de su proyecto de doctorado, con el fin de analizar su perspectiva con respecto al SIMCE y su validez, y de contrastarla con la de las personas a cargo de la prueba. Se trata de 20 entrevistas semi-estructuradas a docentes de diferentes disciplinas, tipos de establecimiento (dependencia y rural/urbano), género, rango etario y tipo de formación inicial. Esta variedad de perfil se busca no por un afán de representatividad de tipo cuantitativo, sino con el fin de contar con la mayor amplitud posible de perspectivas. Pese a ello, la mirada de los docentes acerca del SIMCE resulta bastante consistente según los resultados del análisis. La Tabla 4 entrega el detalle del perfil de los participantes, nuevamente bajo seudónimos debido a los compromisos éticos de la investigación. Al igual que con los participantes del proceso SIMCE, en el caso de los docentes se trató de una muestra intencionada que involucró también muestreo a través de snowballing. Perfil egreso Seudónimo Nivel Género Dependencia Locación Disciplina (si aplica)

Egresados recientemente

Rosaura Media F PSUBV Urbana Inglés Catalina Básica F MUN Urbana Inglés Saúl Básica M PSUBV Urbana Historia, Geografía y Ciencias

Sociales Ernesto Básica

M MUN Rural No aplica

Susana Media

F PSUBV Rural Educación Física

Raquel Media

F PPAG Urbana Filosofía

Ana Media

F MUN Urbana Biología

Óscar Básica

M MUN Urbana Lenguaje

Felipe Media

M MUN Urbana Historia, Geografía y Ciencias Sociales

Patricia Media

F MUN Urbana Biología

Con experiencia

Leila Media

F MUN Urbana Matemática

Néstor Media

M MUN Urbana Filosofía

Rosa Básica

F PSUBV Urbana Lenguaje

Hernán Media M PPAG Urbana Historia, Geografía y Ciencias Sociales

Amelia Básica

F MUN Rural Lenguaje

Fabiana Básica

F MUN Urbana Ciencias Naturales

Luisa Básica F MUN Urbana Historia, Geografía y Ciencias Sociales

Marcos Básica

M PSUBV Urbana Educación Musical


María Media

F MUN Urbana Lenguaje

Laura Básica

F MUN Urbana Educación Tecnológica

TABLA 4. Características de los profesores participantes

Documentos del SIMCE La segunda fuente de información, al igual que en el estudio de Eyzaguirre y Fontaine (1999), corresponde a los documentos divulgados por el SIMCE acerca de las características de la prueba y sus preguntas. Esto con una doble finalidad: a) observar cómo se definen oficialmente los propósitos, usos e interpretaciones de los puntajes en el SIMCE, aspecto esencial para analizar su validez; y b) analizar el constructo y el contenido evaluados por el SIMCE, determinando la validez de la prueba en estos aspectos. Para hacer la información más manejable, se priorizaron las áreas de Lenguaje y Matemática.

Criterios de selección

Los documentos institucionales publicados por el SIMCE se seleccionaron considerando cuatro ámbitos o criterios:

- Documentos para determinar propósitos y usos del SIMCE: se trata de documentos donde se explica a diferentes audiencias qué es el SIMCE, qué evalúa y para qué. En este ámbito se seleccionaron documentos del antiguo sitio SIMCE y del actual sitio de la Agencia de Calidad en sus secciones generales “¿Qué es el SIMCE?” y “¿Para qué sirve el SIMCE?” o las dirigidas a padres y apoderados (“¿Por qué es importante que los alumnos rindan las pruebas SIMCE?”, “¿Qué se espera de los alumnos en el SIMCE?”, “¿Cómo consultar los resultados de un establecimiento educacional?”). Estos documentos permiten conocer cuáles son los propósitos que se definen para la prueba a nivel oficial, con el fin de observar posteriormente si las pruebas son válidas para dichos propósitos y si los usos no esperados del SIMCE alteran de alguna manera sus propósitos intencionados.

- Documentos sobre el proceso de construcción y aspectos técnicos-estadísticos del SIMCE: resulta fundamental para determinar la validez del SIMCE comprender los procesos de elaboración de las pruebas y la determinación de sus puntajes. Es por ello que se incluyen los escasos documentos proporcionados en el sitio del SIMCE al respecto, información que se espera complementar posteriormente por medio de las entrevistas. Aquí se incluyeron documentos como la sección “¿Cómo se elaboran las pruebas SIMCE?” y “Metodología Puntajes de Corte Pruebas SIMCE 4° Básico”.

- Documentos para determinar la validez de constructo y contenido del SIMCE: en este ámbito, de manera similar al trabajo de Eyzaguirre y Fontaine (1999), se seleccionan todos aquellos documentos que contienen, por una parte, definiciones de los constructos teóricos sobre los cuales se sustenta el SIMCE y, por otra parte, ejemplos de preguntas para las áreas de Educación Matemática y Lenguaje y Comunicación. Bajo este criterio se incluyen documentos como: los folletos de orientaciones ofrecidos con posterioridad a 1999, los informes de resultados SIMCE y el modelo de prueba de Lectura para 2º básico publicado recientemente.


- Documentos para determinar la interpretación que se hace de los puntajes SIMCE: considerando que la validez se refiere no a los puntajes de una prueba, sino a las inferencias que se hacen a partir de estos (Messick, 1980; 1989), se seleccionaron documentos donde se observa la interpretación oficial que el Ministerio de Educación realiza sobre los resultados del SIMCE para diferentes audiencias. Así, es posible analizar si las interpretaciones son válidas a la luz de las diferentes dimensiones de la validez consideradas en el presente estudio. En este ámbito se consideraron fuentes como los informes de resultados nacionales y de escuelas individuales.

Listado de documentos seleccionados

En el siguiente listado se presenta la selección de documentos oficiales del SIMCE que fueron analizados en este estudio: Sitio SIMCE (pre-Agencia):

Secciones:

1. “¿Qué es el SIMCE?” 2. “¿Para qué sirve el SIMCE?” 3. “¿Cómo se elaboran las pruebas SIMCE?” 4. “Evaluaciones nacionales” 5. “¿Por qué es importante que los alumnos rindan las pruebas SIMCE?” 6. “¿Qué se espera de los alumnos en el SIMCE?” 7. “¿Cómo consultar los resultados de un establecimiento educacional?”

Sitio Agencia de Calidad: Secciones:

8. “¿Qué es el SIMCE?” 9. “¿Qué evalúa el SIMCE?” 10. “Preguntas frecuentes”

Orientaciones:

11. Folleto de Orientaciones SIMCE 2012 / 2° Medio para Docentes 12. Folleto de Orientaciones SIMCE 2012 / Educación Básica para Docentes 13. Folleto de Orientaciones SIMCE 2011 / 4° Básico 14. Folleto de Orientaciones SIMCE 2011 / 8° Básico 15. Folleto de Orientaciones SIMCE 2010 / 4° Básico 16. Folleto de Orientaciones SIMCE 2010 / 2° Medio 17. Folleto de Orientaciones SIMCE 2009 / 4° Básico 18. Folleto de Orientaciones SIMCE 2009 / 8° Básico 19. Folleto de Orientaciones SIMCE 2008 / 4° Básico 20. Folleto de Orientaciones SIMCE 2008 / 2° Medio 21. Folleto de Orientaciones SIMCE 2007 / 4° Básico 22. Folleto de Orientaciones SIMCE 2007 / 8° Básico 23. Folleto de Orientaciones SIMCE 2006 / 4° Básico 24. Folleto de Orientaciones SIMCE 2005 / 4° Básico


25. Folleto de Orientaciones SIMCE 2004 / 8° Básico 26. Folleto de Orientaciones SIMCE 2003 / 2° Medio

Modelos de prueba:

27. Modelo de Prueba Comprensión de Lectura SIMCE 2° Básico 28. Manual del Profesor SIMCE 2° básico

Resultados:

29. Informe Nacional de Resultados SIMCE 2010 30. Informe Nacional de Resultados SIMCE 2009 31. Informe Nacional de Resultados SIMCE 2008 32. Informe Nacional de Resultados SIMCE 2007 33. Informe Nacional de Resultados SIMCE 2006 34. Informe Resultados para Docentes y Directivos Colegio Los Reyes / 4° básico 2007 35. Informe Resultados para Docentes y Directivos Instituto Hans Christian Andersen / 4°

básico 2010 Niveles de Logro:

36. Niveles de Logro de Lectura / 4° básico 37. Niveles de Logro de Matemática / 4° básico 38. Niveles de Logro de Lectura / 8° básico 39. Niveles de Logro de Matemática / 8° básico

Documentos técnicos:

40. Metodología Puntajes de Corte Pruebas SIMCE 4° Básico 41. Cálculo de Significancia Estadística

4.5. Análisis de los datos Las entrevistas de los participantes del proceso SIMCE fueron transcritas por el personal de apoyo técnico del proyecto, que firmó el correspondiente compromiso de confidencialidad en relación con los datos. Luego, las transcripciones fueron revisadas por la investigadora, tanto en términos de posibles correcciones como de la eliminación de nombres y datos que pudieran llevar a identificar a los participantes. Las transcripciones fueron posteriormente ingresadas a NVivo para su codificación. En una primera ronda de codificación se trabajó con códigos según los principales temas de las preguntas, los que se detallan a continuación:

Rol(es) entrevistado/a: incluye la mención y descripción del/de los rol(es) de los entrevistados en el SIMCE.

Constructo y contenido: se refiere a todas las respuestas en que se indica qué evalúa y qué no evalúa el SIMCE.

Propósitos: contiene todas las respuestas en relación con cuáles son los propósitos del SIMCE según los entrevistados.


Procedimiento: alude a la descripción detallada de todos los pasos del proceso del SIMCE, de acuerdo con el conocimiento del entrevistado/a.

Dificultades generales: se refiere a todas aquellas dificultades no asociadas a la construcción o corrección de ítems.

Dificultades en la construcción de preguntas: incluye todos los aspectos problemáticos y desafíos en relación con esta etapa del proceso.

Dificultades en la corrección de preguntas: incluye todos los aspectos problemáticos y desafíos en relación con esta etapa del proceso.

Relación entre dificultades y validez: incluye la opinión de los participantes con respecto a la incidencia de las dificultades mencionadas en la validez de la evaluación.

Interpretaciones: concentra las respuestas en torno a la pregunta por aquello que se puede y no se puede inferir a partir de los resultados del SIMCE.

Usos no intencionados: alude al conocimiento, directo o indirecto, de los participantes acerca de usos o interpretaciones no intencionados del SIMCE, y su opinión acerca de la forma en que estos podrían o no afectar la validez de la interpretación de los resultados.

Preguntas específicas: contiene las respuestas a las preguntas específicas realizadas según el perfil de los entrevistados.

Comentarios finales: reúne los comentarios finales para los que la entrevistadora dio un espacio antes de terminar la entrevista.

Con ayuda del software NVivo, se generaron documentos con las respuestas de todos los entrevistados para cada código y, en base a ello, se realizó una sub-codificación de carácter más inductivo. En el caso de las entrevistas a profesores, también con apoyo de NVivo, se codificaron primero aquellas secciones de las entrevistas en las que se aludía a SIMCE. Estas, a su vez, se pusieron en un mismo documento, que posteriormente se analizó y sub-codificó. En ambos casos se consideró una aproximación inductiva e iterativa de análisis, teniendo las preguntas de investigación como referente constante para observar la interacción entre los datos y aquello se buscaba saber (Srivastava y Hopwood, 2009). En el caso de los documentos, los más breves (secciones de sitios y Folletos de Orientaciones) fueron primero codificados en NVivo, también desde una aproximación iterativa e inductiva (Ibid.). Los 373 códigos iniciales fueron luego clasificados en una cantidad menor de categorías. Este análisis es el que sirvió de base para el diseño de las entrevistas. En una segunda fase, los documentos más extensos (informes de resultados, niveles de logro, etc.) se codificaron con lápiz y papel, teniendo la codificación de los documentos breves como base. Durante el proceso se consultó a diversos especialistas cuando fue necesario. Al analizar las preguntas de Matemática, que no es el área de especialidad de la investigadora, se consultó a uno de los entrevistados con formación disciplinaria en el área acerca de algunos de los problemas observados. En base a ello, se descartaron algunas preguntas inicialmente detectadas como problemáticas. En el área de Lenguaje, además, con el fin de corroborar la validez de los juicios de la investigadora, pues su se trata de su área de experticia, se realizó una consulta a expertos con respecto al modelo de prueba de 2º básico, método que se considera como una fuente posible


para argumentar la validez de un proceso de evaluación (Anastasi y Urbina, 1997; Shawn et al., 2012). Las especialistas consultadas poseen formación de postgrado en el área, tienen experiencia docente o en formación docente, y tres de ellas han trabajado en la formulación de ítems. Se les solicitó que respondieran una breve encuesta (ver Anexo 3). En ella se les pedía clasificar las preguntas que generaban dudas en una de las tres habilidades indicadas como parte del constructo a evaluar. La consulta fue completamente independiente, es decir, se pidió a cada especialista responder por separado, sin compartir su juicio con las demás. Los resultados de la consulta se entregan en la sección correspondiente. Finalmente, frente a algunas dudas que emergieron del análisis tanto de las entrevistas como de los documentos, referidas básicamente a ciertas preocupaciones con respecto a la validez de SIMCE, se consultó al Profesor David Andrich, quien posee una amplia trayectoria como psicometrista. Los resultados de esta consulta se presentan en la sección correspondiente. 4.6. Limitaciones Como toda investigación, el presente estudio posee ciertas limitaciones que es necesario tener en cuenta para su interpretación. Por una parte, el tamaño de la selección de participantes podría presentar limitaciones en términos de la generalización de los resultados, al menos en el sentido cuantitativo del término. No obstante, hay que señalar que este tipo de generalización no constituye uno de los presupuestos del presente estudio, pues es de carácter exploratorio y cualitativo. Con respecto a los participantes del proceso SIMCE, se siguen aquí los principios de investigación asociados al estudio de las elites sociales y políticas, donde debido a su tamaño pequeño, estos grupos no son investigados considerando representatividad ni significancia estadística, sino desde la generación de datos que permitan comprender mejor su discurso y modo de funcionamiento (Savage and Williams, 2008). Los participantes del grupo SIMCE constituyen un conjunto de actores clave, varios de los cuales han tenido más de un rol en el proceso, por lo que constituyen una fuente privilegiada de información. Por otra parte, los entrevistados reconocen que los mismos nombres se van repitiendo en los diferentes roles de SIMCE, por lo que la selección contemplada en este estudio no debiera estar tan distante de la población total de involucrados en el proceso SIMCE. El caso de los docentes es distinto. Evidentemente se trata de una selección muy pequeña con respecto a la población. Sin embargo, una ventaja en este punto es la alta consistencia en su discurso sobre el SIMCE, pese a provenir de contextos educacionales diversos. A ello se agrega que, a diferencia de lo que ha ocurrido con estudios sobre la base de encuestas (por ejemplo encuestas del MINEDUC citadas por Meckes y Carrasco, 2010), se obtiene aquí un relato en profundidad y sin mayores riesgos de deseabilidad en las respuestas. Una segunda limitación, similar a lo que ocurre con el estudio de Eyzaguirre y Fontaine (1999), se relaciona con que resulta complejo aludir a la cobertura del contenido ligado al constructo cuando la mayoría de las preguntas que se encuentran disponibles públicamente son ejemplos aislados, que no forman parte de instrumentos completos. No obstante, una ventaja de la presente investigación con respecto a estudios anteriores es la liberación de un modelo de prueba para 2º básico, lo que permite efectuar este tipo de análisis al menos en un instrumento. Para un análisis más completo de este aspecto de la prueba sería un aporte que el SIMCE considerara liberar más instrumentos completos, junto con los marcos de evaluación, al menos cuando se los quiera utilizar con fines investigativos y de mejora de este proceso de evaluación.


Por otra parte, al estar a cargo de una única investigadora, uno de los potenciales riesgos de este proyecto lo constituye la posibilidad de sesgo en el análisis. Sin embargo, dicho riesgo se mitiga a través de la consulta a expertos de diverso tipo referida en la sección anterior. Ello permite triangular los datos y corroborar determinadas hipótesis interpretativas de la investigadora. Como una posible línea de investigación a futuro se considera la inclusión de la perspectiva de padres y apoderados, y de los estudiantes con respecto a la prueba. No fue posible considerarlo en esta investigación debido a limitaciones de tiempo, pese a que se reconoce que se trata de actores clave en relación con los propósitos, las condiciones de aplicación y las consecuencias del SIMCE. De la misma manera, queda pendiente un estudio de naturaleza similar en torno a las áreas de Ciencias e Historia, pues los resultados aquí expuestos no son extrapolables a dichas disciplinas. La importancia de los hallazgos de este estudio, sin embargo, contrapesa las posibles limitaciones antes enunciadas. Estos hallazgos actualizan el concepto de validez que se maneja al presente en relación con el SIMCE; arrojan información relevante acerca de la validez en SIMCE y sus problemáticas; y contribuyen a mejorar la calidad de los procesos del SIMCE en beneficio de todos los actores involucrados, especialmente aquellos con menos poder dentro del sistema.

5. RESULTADOS DE LA INVESTIGACIÓN: DESCRIPCIÓN DEL PROCEDIMIENTO

La primera parte de la presentación de resultados se centra en una descripción detallada de los procedimientos involucrados en cada una de las etapas del SIMCE, en base a los documentos y las entrevistas. Las razones para dedicar parte importante del reporte de resultados a explicar el proceso y sus características se relaciona directamente con la necesidad de mejorar la validez del SIMCE. Uno de los factores fundamentales para asegurar la validez de un proceso de evaluación tiene que ver con el nivel de claridad y de detalle con que se explican sus características. Tanto Cronbach (1984) como Anastasi y Urbina (1997) aluden a la importancia de proveer a los usuarios con un manual que facilite el empleo adecuado del una prueba estandarizada. Como ya se indicó en el marco teórico (ver sección 3.3), en este material se deben transparentar los procedimientos seguidos para asegurar la representatividad y adecuación del contenido, detallando la calificación profesional de aquellos que participaron en la construcción del test, además de las indicaciones que recibieron para clasificar ítems, y la fecha en que los expertos fueron consultados (Anastasi y Urbina, 1997). El manual debe proveer de manera clara información sobre la calidad técnica de la prueba, los procedimientos de asignación de puntaje y las evidencias de investigación, así como instrucciones detalladas sobre el uso del test (Cronbach, 1984). Solamente así se asegura que las interpretaciones de los puntajes se ajusten los límites de construcción del test y no se sobre-generalicen. Este requerimiento de transparencia como un aspecto que favorece la validez de un proceso de evaluación constituye una práctica común en el desarrollo de evaluaciones estandarizadas. Por ejemplo, los marcos de evaluación de pruebas internacionales como PISA, TIMSS o PIRLS se


encuentran disponibles públicamente (conf. OECD, 2009a; Mullis et al., 2009a; Mullis et al., 2009b), al igual que los manuales de análisis de datos asociados a estas pruebas (conf. OECD, 2009b; TIMSS, 2007). En el caso de SIMCE, no existe un documento único que explique en detalle la información acerca de sus características, procesos y etapas. Los marcos de evaluación tampoco se han publicado. Cuando se pregunta a los integrantes del equipo SIMCE por qué no se han liberado, se obtienen dos tipos de respuesta. Las personas que continúan trabajando en SIMCE al momento de la entrevista indican que con ello se evita que los docentes reduzcan el currículum a aquello que se indica en las especificaciones. Así, por ejemplo, indica Rebeca: “(…) la prueba es curricular y en la medida que nosotros demos la señal al sistema educativo de que, para tener un buen SIMCE, lo que usted tiene que hacer, señor profesor, es cubrir el currículum, me entiendes, eso es cierto, no es mentira, y nos movemos dentro de ese marco; si somos enfáticos en decir que de todo el currículum, en verdad, nosotros estamos pensando en evaluar, este año, esta parte en específico, por decirte, creo que le hacemos un daño al sistema; es que el riesgo que se corre de que los profesores digan “ah, entonces esto otro no lo voy a ver, porque el SIMCE no lo va a evaluar” es alto y es innecesario. Eso pienso yo; ahora, finalmente yo no sé si por Ley de Transparencia o estas cosas que hoy día nos hacen ser cada vez más como desnudarnos más ante el sistema llegue el momento en que lo tengamos que publicar y estaría bien también, no hay ningún oscurantismo ahí (…).” Los integrantes internos al SIMCE en general manifiestan estar de acuerdo con la idea de liberar las especificaciones, aunque algunos, como Josefina, entienden el argumento de fondo para no hacerlo. Otros participantes, tanto internos como externos al SIMCE, aluden como motivo para la falta de transparencia a una tendencia hacia el secretismo que se incrementa en la institución, según ellos, tras un cambio de administración en 2008. Varios entrevistados indican que, antes de eso, se estaba preparando la publicación de los marcos, la cual quedó suspendida por la nueva jefatura. Así explica, por ejemplo, Sofía: “Para transparentar; todas las pruebas internacionales tienen sus marcos de evaluación, tienen matrices, tablas de especificaciones, menos SIMCE. Entonces se dice que es una prueba curricular y una prueba censal de esa magnitud no va a ser nunca curricular, es imposible medir todo el currículum. Entonces nosotros construimos marcos de evaluación que supuestamente se iban a publicar y en algún minuto también el coordinador del SIMCE, que es un coordinador que era el encargado nacional del SIMCE, vetó la publicación de los marcos de evaluación (…).” De manera similar, para Pedro, como un actor que debió mediar entre SIMCE y su institución, existe una tendencia al secreto que no se justifica: “(…) hay una cuestión, como te digo yo, de querer parecer, en los primeros años que yo estuve, una agencia seria, (…) como esto *+ tenía esta posibilidad como de *que+ (…) se abriera, se conociera públicamente, entonces ahí le ponían todos los miedos del mundo a los profesores [elaboradores de preguntas], a uno mismo, que nada de esto puede salir ni del proceso ni del procedimiento ni la forma ni los ítems ni nada, decir SIMCE es tabú, entonces hay ahí una cuestión que yo creo (…) de autoafirmación no más, nada más, de saber que las cosas no se estaban haciendo como se debieran hacer, entonces hagámoslas, pongámosles secretismo para que, por lo menos, parezca serio, sí, yo creo que por ahí va la cuestión. Pero cuando tú conversas con gente que trabaja dentro del Ministerio y dices “esta cuestión de tanto secreto, ¿para qué?”, “mira, son leseras de arriba no más”, dicen, nadie creía en eso tampoco.”


La confidencialidad del material propio de la prueba se justifica, pues es importante que los estudiantes no tengan acceso a las preguntas antes de la aplicación del instrumento. No obstante, la extensión del secreto a los procedimientos de elaboración, aplicación y corrección de SIMCE no tiene mayor fundamento, al menos no desde la teoría sobre validez en evaluación. En primer lugar, en el manual debe haber una explicitación de los propósitos intencionados de la prueba, esto es, un propósito intencionado debe ser siempre un propósito declarado si la agencia evaluadora quiere poder defenderse posteriormente contra posibles usos e interpretaciones incoherentes con dicho propósito (Newton, 2012). Además, para autores como Kane (2010: 180): “La validación efectiva (…) depende de una indicación explícita y clara acerca de las interpretaciones y usos intencionados, incluyendo en la indicación una especificación de la población y del rango de contextos en los cuales ocurrirán las interpretaciones y los usos. Los supuestos inherentes a las interpretaciones y usos intencionados de los puntajes de la prueba pueden explicitarse en forma de un argumento interpretativo que despliegue los detalles del razonamiento que lleva desde el desempeño en la prueba a las conclusiones que se incluyen en la interpretación y a cualquier decisión basada en la interpretación.” Por lo tanto, junto con los aspectos técnicos antes indicados, el manual debiera ser explícito acerca de los propósitos, las interpretaciones y los usos de la prueba, así como de los argumentos y la teoría que sustenta las conclusiones que se obtienen en base a su puntaje. Para Moss (2007: 474) resulta fundamental, como parte de una práctica responsable (accountable practice) en el contexto de evaluaciones estandarizadas de altas consecuencias, “La disponibilidad, para revisión pública y profesional, del plan, la evidencia producida, la evidencia considerada innecesaria o poco práctica, el fundamento, y las conclusiones” que se derivan de los procesos de validación a los que una evaluación debiera someterse desde la perspectiva del enfoque basado en argumento. De forma similar, para Shaw et al. (2012: 160) dentro de las responsabilidades de las agencias que desarrollan programas de evaluación, y por las cuales se les puede pedir rendir cuentas, está “informar a los que se someten a la evaluación acerca del proceso de evaluación y lo que sus puntajes significan”, especialmente si se trata de evaluaciones de alto impacto. Junto con ello, y como miembros de una agencia evaluadora (Cambridge Assessment), los autores reconocen la responsabilidad por “explicar al usuario del test qué inferencias pueden y no pueden realizarse” en base a los puntajes. Moss et al. (2006) indican los cinco aspectos que en los Testing Standards se consideran como aquellos que se debieran consignar en los manuales técnicos y de usuario: evidencia basada en el contenido, en los procesos de respuesta, en la estructura interna, en las relaciones con otras variables, y en las consecuencias de la prueba (2006: 119). Si no se informa claramente a los usuarios sobre estos puntos y, por lo tanto, estos no comprenden la información que emerge de la prueba ni sus limitaciones, “la validez puede verse seriamente socavada” al “conducir a juicios inapropiados” (Crooks et al., 1996: 276). Pese a estos requerimientos para la validez de un proceso de evaluación, la información disponible públicamente acerca del SIMCE en relación con los aspectos antes mencionados se encuentra dispersa en documentos de diversos años y de distinto tipo. Fue necesario para la presente investigación reconstruir el proceso a partir de estas múltiples fuentes. Junto con ello,


hay una serie de aspectos que no se indican en ninguna fuente y que debieron ser consultados a los entrevistados. Aquellos participantes externos al SIMCE, además, indican desconocer algunas etapas del proceso: los constructores de preguntas no saben qué sucede con estas una vez que se entregan al SIMCE y los correctores tampoco saben cuáles son las fases que siguen a su trabajo. Arturo aseguró que a fines de 2013 se publicará un informe técnico acerca del proceso 2012, documento en el cual se indicará con mayor precisión y en un solo lugar el procedimiento de evaluación del SIMCE. Mientras eso sucede, el presente informe contribuye a mejorar la validez de esta evaluación indicando a continuación los detalles de cada una de las etapas de SIMCE, primero en base a los documentos y luego considerando las entrevistas.

5.1. Información acerca del proceso SIMCE en base a documentos En base a los documentos de dominio público que se encuentran sobre el SIMCE, se puede indicar lo siguiente acerca de las diferentes etapas del proceso que conforma este sistema de evaluación.

Características generales de las pruebas

En múltiples documentos se encuentra información acerca de las características generales de la prueba (sitio SIMCE, sitio Agencia, todos los Folletos de Orientaciones e Informes de Resultados analizados). En ellos se encuentran datos acerca de las áreas y niveles en que se aplica la prueba, en qué momento del año se toma, quiénes la responden y qué tipos de pregunta incluye. Inicialmente el SIMCE se aplicaba alternadamente en términos de nivel: un año 4º básico, otro año 8º y luego 2º medio. Desde 2006 se comenzó a tomar dos pruebas por año, es decir, 4º básico se comenzó a tomar todos los años, mientras 8º y 2º medio se alternaban. En ningún documento público se indican las razones para dicha modificación, sino que simplemente se la anuncia. Al parecer se trata de una decisión tomada en base al Informe de la Comisión SIMCE (2003), entre cuyas sugerencias se indicaba aumentar la frecuencia de las pruebas. La lógica tras esta recomendación se explica en los siguientes términos: “El supuesto de esta estrategia es que la medición nacional estimula a los establecimientos a concentrar sus esfuerzos en las generaciones y áreas curriculares que son objeto de la medición, por lo que ampliar este foco llevaría a ampliar también el impacto positivo de las evaluaciones.” (2003: 58). Hay en este razonamiento una suposición sobre la cual no existe evidencia concluyente: que el impacto del SIMCE en las escuelas es positivo. De manera consistente con la presente investigación (ver sección 6.4), tanto el Informe (2003) como la investigación de Taut et al. (2009) y el análisis crítico de Maureira et al. (2009), distinguen una serie de consecuencias negativas o no deseadas de la prueba, como por ejemplo: estigmatización o juicio acerca de los profesores por los resultados del curso correspondiente al año que se da SIMCE; estigmatización de establecimientos como ‘buenos’ o ‘malos’; la realización de rankings a partir de los resultados SIMCE (motivada incluso por el mismo MINEDUC en el Informe de Resultados por escuela del año 2007); la concentración de los recursos del establecimiento en aquellas áreas y niveles que son evaluados y, dentro de cada disciplina, en los contenidos evaluados por la prueba;


modificación de las prácticas pedagógicas de los docentes en función de la lógica de las preguntas SIMCE y sus contenidos; profundización de la inequidad del sistema educativo; entre otros aspectos. Teniendo en cuenta todas estas consecuencias, aumentar el número de evaluaciones podría llegar a ser contraproducente, ya que se motivaría a otras áreas y niveles a operar bajo la misma lógica de preparación de la prueba, reducción del currículum y estigmatización. Pese a ello, la Comisión SIMCE, sin que se sepa qué actores dentro de ella lo sugieren, propone el aumento de la frecuencia en las pruebas. Esta y otras modificaciones se anuncian en el Informe de Resultados 2004, aun cuando la razón para el aumento de las pruebas no se indica. En relación con las áreas evaluadas, la Tabla 5 muestra las modificaciones experimentadas desde el año 2004, en base a los documentos analizados. Como se puede observar, existen cambios de denominaciones en las áreas evaluadas de un año a otro. Los documentos de dominio público del SIMCE, nuevamente, no indican las razones para dichas modificaciones ni las implicaciones que ello podría acarrear en términos del constructo y el contenido a evaluar y, por lo tanto, de comparabilidad de resultados (ver sección 6.2). Estos cambios simplemente se informan. En términos de la época del año en que se rinde la prueba, siempre se indican fechas en torno a octubre y noviembre. Se indica en la mayoría de los documentos también que se trata de una prueba que mide a la población total de un mismo curso a nivel nacional y que consta de preguntas cerradas y abiertas, aun cuando no se indica la cantidad de cada una en los instrumentos ni su ponderación dentro del puntaje. Sí se indica que los estudiantes tienen alrededor de 90 minutos para contestar.

2004 2005 2006 2007 2008 2009 2010 2011 2012

2º B Lectura

4º B Lenguaje y Comunicación Educación Matemática Comprensión del Medio Natural, Social y Cultural

Lenguaje y Comunicación Educación Matemática Comprensión del Medio Natural, Social y Cultural

Lenguaje y Comunicación, Educación Matemática Comprensión del Medio Natural, Social y Cultural

Lectura Escritura Educación Matemática Comprensión del Medio Social y Cultural

Lectura Educación Matemática Comprensión del Medio Natural

Lectura Educación Matemática Comprensión del Medio Social y Cultural

Lectura Matemática Ciencias Naturales

Lectura Matemática Ciencias Sociales

6º B Piloto Lenguaje, Matemática y redacción de un ensayo

8º B Lenguaje y Comunicación Educación Matemática Estudio y Comprensión de la Naturaleza Estudio y Comprensión de la Sociedad

Lenguaje y Comunicación Educación Matemática Estudio y Comprensión de la Naturaleza Estudio y Comprensión de la Sociedad

Lectura Educación Matemática Estudio y Comprensión de la Naturaleza Estudio y Comprensión de la Sociedad

Ed. Física (muestral)

Lectura Matemática, Ciencias Naturales Historia, Geografía y Ciencias Sociales Ed. Física (muestral)

2º M Lengua Castellana y Comunicación Matemática

Lengua Castellana y Comunicación Matemática.

Lectura Matemática

Lectura Matemática

3º M SIMCE Inglés SIMCE Inglés

TABLA 5. Subsectores y niveles evaluados por año según los documentos del SIMCE


Además, en gran parte de los documentos (sitio SIMCE, sitio Agencia y todos los Informes de Resultados) se alude a la aplicación de cuestionarios que permiten dar una mayor contextualización a los resultados. Estos cuestionarios recogen información acerca de docentes, estudiantes, y padres y apoderados. En los sitios web no se indica dónde encontrar los cuestionarios, quién los contesta ni en qué consisten más específicamente. Solamente en los informes se indica en ocasiones ejemplos de los aspectos contenidos en estos cuestionarios (a los docentes se les pregunta sobre las materias que han enseñado, a los padres por su nivel educacional y a los estudiantes sobre sus hábitos de estudio, ver Informes de Resultados 2006 y 2007) y desde 2008 se agrega una nota al pie que indica que el cuestionario se puede encontrar en el sitio del SIMCE. Menos común es la información que se encuentra acerca de la cantidad de formas y de preguntas que contienen las diferentes pruebas del sistema de evaluación. En el sitio SIMCE, hasta 2012 se ejemplificaba con las cantidades correspondientes al proceso del año anterior. En el actual sitio de la Agencia se explica por qué SIMCE no reporta resultados individuales y, en ese contexto, se indica que ello se debe a que se utilizan varios cuadernillos para cubrir la totalidad de contenidos y habilidades a evaluar, de manera que “el resultado de un establecimiento se obtiene del conjunto de respuestas contestadas en un curso y no por el desempeño de un solo estudiante”. El Informe de Resultados 2004, que constituye una excepción en términos del detalle de la información que entrega en comparación con los de años siguientes, explica: “Para cada uno de los subsectores de aprendizaje evaluados, se diseñaron dos cuadernillos diferentes, complementarios entre si , por lo que el promedio de los resultados individuales entrega información sobre los logros de aprendizaje del grupo en su conjunto. Así, el puntaje promedio de un establecimiento es indicador de lo que sabe o puede hacer el conjunto de los alumnos del nivel evaluado. Por tratarse de un promedio, los resultados agrupan el rendimiento de estudiantes que suelen tener puntajes individuales muy dispares.” De allí que el SIMCE no entregue resultados por alumno, puesto que para lograr cubrir el conjunto de contenidos y habilidades que busca evaluar en un tiempo razonable, debe hacerlo a través de formas distintas. En 2006 y 2007 solamente se menciona que hay un número variable de formas por área y que de ello depende el número total de preguntas por cuadernillo, pero no se explica por qué sucede esto. Desde 2008 en adelante no se indica nada al respecto, con excepción de la explicación ya indicada en el sitio de la Agencia.

Construcción de las preguntas La información disponible públicamente acerca del procedimiento de construcción de las preguntas es de carácter general, y más bien escasa. Al reunir parte de la información que se entregaba en el anterior sitio del SIMCE y en fragmentos de los Folletos de Orientaciones de 2004 y 2005 -únicas fuentes en las que se alude a esta parte del procedimiento-, se distinguen los siguientes pasos:

1. Determinación del marco de evaluación: se examina el currículum de cada área y se seleccionan aquellos objetivos susceptibles de ser evaluados por medio de una prueba de papel y lápiz. En base a esta selección se elabora un marco de contenidos y habilidades, a partir del cual se especifica la cantidad de preguntas tanto de la prueba en su totalidad, como por contenido y habilidad.


2. Elaboración de las preguntas: estas preguntas son elaboradas por “profesores de aula, especialistas de cada una de las áreas evaluadas y especialistas en evaluación” (sitio SIMCE), además de “sicólogos educacionales” (Orientaciones 2005). En el proceso de elaboración de las pruebas como totalidad se indica que participan “profesores, evaluadores, curriculistas, especialistas de cada sector o subsector de aprendizaje, sicólogos y estadísticos, entre otros” (Orientaciones 2004). Estas preguntas se construyen sobre la base del marco de evaluación.

Esta es la única información que se encuentra en los documentos publicados por el SIMCE acerca de la construcción de las preguntas de la prueba.

Procedimientos de validación Una vez elaboradas, las preguntas “siguen un riguroso proceso de revisión para asegurar que sean pertinentes y relevantes al área y curso evaluado, estén correctas en su planteamiento, y evalúen realmente los contenidos y habilidades que pretenden medir” (sitio SIMCE). Como criterios de revisión de las preguntas cerradas, se indica que se resguarda la existencia de una sola opción correcta y “las opciones incorrectas reflejen errores conceptuales o de razonamiento típicos de los estudiantes” (sitio SIMCE). En el caso de las preguntas abiertas se explica que se elaboran pautas de corrección que indican las características de una respuesta correcta, una parcialmente correcta y una incorrecta. Luego la prueba es sometida a una serie de procesos de validación, entre ellos: “(a) revisión por parte de profesionales del equipo SIMCE, de expertos en currículum de la Unidad de Currículum del MINEDUC y de profesores que se desempeñan en establecimientos municipales y particulares; (b) aplicación en muestras de alumnos y análisis de los resultados; (c) entrevistas personales con alumnos, en las que se les pide verbalizar el razonamiento utilizado para responder cada pregunta y (d) aplicación en pruebas experimentales” (Orientaciones 2005). Según el sitio del SIMCE, una vez aprobadas por los expertos, las preguntas se prueban con una muestra representativa a nivel nacional un año antes de la prueba definitiva. Por medio de este proceso se evalúa la calidad de las preguntas en relación con: el rango de dificultad de las preguntas incluidas en la prueba y su capacidad de reflejar el desempeño de los estudiantes en relación con la dificultad de las preguntas. Además, se juzga si las preguntas abiertas generan las respuestas esperadas, si las pautas de corrección recogen las respuestas típicas de los estudiantes y si categorizan adecuadamente el desempeño de los estudiantes. También se corrobora la aplicación consistente de las pautas por parte de los correctores. Esta fase de validación se cierra con la selección de preguntas para la prueba definitiva por parte de “los profesionales del SIMCE” (sitio SIMCE). Se decide el número de preguntas que cada alumno contestará, la cantidad de cuadernillos o formas a utilizar, y la secuencia con que se organizarán las preguntas en cada forma. Finalmente, en el Informe de Resultados 2004, aludiendo a las conclusiones de la Comisión SIMCE, se indica que en ella “se determinó que el SIMCE posee instrumentos metodológicamente sólidos”, sin que se indiquen las bases sobre las que se sostiene tal juicio.


Aplicación y administración de la prueba Antes de la aplicación, los docentes y directivos son informados cada año acerca de las “fechas de aplicación, la forma de contestar, los distintos tipos de preguntas y los conocimientos y las habilidades que se evaluarán, procedimientos de la aplicación, entre otros aspectos” (sitio Agencia), por medio de los Folletos de Orientaciones. En el sitio del SIMCE se indica que los Departamentos Provinciales de Educación junto con universidades se encargan del proceso de aplicación de las pruebas. Son estas instituciones las que seleccionan y capacitan a los examinadores en base a lineamientos del SIMCE. El rol de los examinadores es el “de asegurar que todos y cada uno de los procedimientos de estandarización se cumplan” (sitio SIMCE). Ello significa que deben asegurarse de que todos tengan 90 minutos para responder, que se les lean las instrucciones, que estén en un ambiente adecuado para la concentración, entre otros. Se indica que la uniformidad de la aplicación asegura la validez de la prueba. Una vez que se da inicio a la prueba, se prohíbe el ingreso de miembros del establecimiento y de cualquier persona ajena al proceso. Todo el operativo dura entre uno y dos días por curso. En el proceso de aplicación participan aproximadamente 12.000 personas, quienes deben evaluar a más de 500.000 estudiantes. En gran parte de los Folletos de Orientaciones, además del sitio SIMCE y del actual sitio de la Agencia, se insiste, en algunos años con bastante detalle, en la importancia de enseñar a los niños a responder la prueba por medio de las hojas de respuesta disponibles. Se entregan en algunos casos facsímiles de las hojas de respuesta y se advierte sobre la posibilidad de obtención de resultados bajos solamente por el hecho de los alumnos no saber cómo contestar la evaluación. Además, en algunos folletos se agrega que es importante decir a los estudiantes que deben intentar contestar todas las preguntas, incluso aquellas frente a las cuales se sienten inseguros, pues las respuestas incorrectas no se consideran en el puntaje final. En relación con los Folletos de Orientaciones, hay una tendencia de un año a otro a la disminución de información acerca del contenido y las preguntas de la prueba y un mayor énfasis en aspectos de administración. También se indica en múltiples documentos la importancia de que en lo posible asistan todos los estudiantes el día de la prueba, de modo que no se vea afectada la representatividad de los resultados y, por lo tanto, su validez. En las Orientaciones de 2008 para 2º medio se indica, además, que el establecimiento podría quedarse sin resultados en caso de faltar una cantidad significativa de estudiantes. En el sitio web de la Agencia se indica que si el establecimiento pide a un alumno no asistir a la prueba, se trata de una falta grave que puede denunciarse al Departamento Provincial y a la misma Agencia de Calidad y que puede desembocar en que no se publiquen los resultados del establecimiento. Como comportamientos deseables, además, se indica que los estudiantes respondan la prueba seriamente y sin hacer trampa (sitio SIMCE). En el sitio de la Agencia, por otra parte, se indica qué hacer en casos de inasistencia del los alumnos y del examinador.


Corrección y cálculo de puntajes En la mayoría de los documentos analizados lo que se indica acerca de la corrección de las pruebas es que esta depende del tipo de pregunta. Si se trata de preguntas cerradas se realiza una corrección automática por medio de un programa computacional. Si se trata de preguntas abiertas, se trabaja con un equipo de correctores que son capacitados por el SIMCE, quienes revisan las respuestas de los estudiantes “sujetos a estándares y pautas de corrección previamente analizadas” (sitio Agencia), que permiten “identificar respuestas correctas e incorrectas y, en algunos casos, también es posible identificar respuestas parcialmente correctas” (Orientaciones 2007). El proceso está generalmente a cargo de universidades “que trabajan bajo la estricta supervisión del SIMCE” (sitio SIMCE). En varias fuentes se aclara también que las respuestas erróneas no se consideran en el puntaje final. Hasta el año 2005, los Folletos de Orientaciones del SIMCE incorporaban ejemplos de preguntas abiertas y respuestas tipo, con los correspondientes criterios de corrección o un comentario acerca de las razones por las cuales una determinada respuesta se clasificaba en un nivel de desempeño particular. Posterior a ese año, con excepción de las orientaciones de 4º básico 2009, se encuentran escasos modelos de preguntas abiertas, y cuando esto sucede es principalmente para orientar el uso de las hojas de respuesta y no para facilitar la comprensión acerca de cómo se corrigen estas respuestas. Esta es la única información que se encuentra acerca del proceso de corrección de las preguntas. En relación con el cálculo de puntajes, se explica que “la escala de puntajes no varía entre límites mínimos y máximos preestablecidos” (sitio Agencia). El Informe de Resultados 2004 entrega un poco más de detalle al respecto: “En el modelo IRT, no existen valores mínimos o máximos establecidos de antemano: el cálculo se inicia asignando un puntaje al resultado promedio de todos los alumnos del país que dieron la prueba. En el caso de 8° Básico, se asigno el valor 250, al resultado promedio obtenido en 2000, que fue el año en que se uso la escala por primera vez en este nivel. Tanto en el año 2000, como en 2004, se utilizo la misma escala, por lo que cualquier aumento de puntaje estadísticamente significativo entre 2000 y 2004, indica que los alumnos alcanzaron mayores logros de aprendizaje en 2004 que en 2000. A la inversa, una disminución significativa de puntaje entre 2000 y 2004, indica un menor nivel de logro en los aprendizajes.” Además, en el sitio de la Agencia se indica que el puntaje se determina según el nivel de dificultad de la prueba, es decir, el puntaje máximo obtenido por un estudiante que responda todo correctamente será mayor si las preguntas de la prueba son más complejas. Por lo tanto, el puntaje debe analizarse en el contexto de cada prueba. Por otra parte, se aclara en diversos documentos que el puntaje de los alumnos integrados no se incluye en el promedio del establecimiento. Finalmente, varias fuentes indican que los puntajes promedio siempre se calculan en base a los puntajes obtenidos por los estudiantes en las pruebas. Nada más se indica acerca del cálculo de los puntajes de la prueba. No obstante, se agrega un mecanismo más a partir de la inclusión de los Niveles de Logro desde 2006, ya que ello implicó la determinación de puntajes de corte. Hay un documento específico que explica en detalle el procedimiento de Bookmark empleado para este efecto, el cual se llevó a cabo con el apoyo de


la organización privada estadounidense Educational Testing Service (ETS). Conformados en su mayoría por profesores de aula, considerando diversas zonas del país y diversos tipos de dependencia administrativa, se formaron paneles que tuvieron entre 28 y 34 miembros para cada disciplina evaluada. Se menciona también a los diferentes actores involucrados en los paneles: “profesores de aula de primer ciclo básico; académicos de universidades; especialistas de centros de investigación; especialistas de congregaciones religiosas; y especialistas del Ministerio de Educación” (Documento técnico). Cabe señalar que no se explica cuál fue el rol de los especialistas de congregaciones religiosas en un panel sobre evaluación por disciplinas. Los pasos del proceso se explican con claridad: organización de un cuadernillo de preguntas según orden de dificultad; separación de los paneles en grupos de 5 a 7 integrantes; determinación de consenso respecto al nivel de desempeño mínimo de un estudiante; colocación de los separadores o bookmarks en los lugares que marcan límites entre un desempeño y otro, según el juicio experto de los participantes; discusión y determinación de la mediana por mesa y del total de las mesas; y fijación del puntaje de corte. Sin embargo, cuando se pasa de la determinación del juicio profesional a la transformación en un puntaje de corte definido para cada prueba, lo único que se indica es lo siguiente: “Una vez obtenido el Puntaje de Corte para el grupo total, se construye un intervalo de confianza, que se presenta a un Comité Técnico que tiene la tarea de definir el Puntaje de Corte para cada prueba, ubicándolo dentro del rango recomendado por los especialistas.” No se sabe quién integra el comité ni bajo qué procedimientos se definieron los puntajes de corte. Ello resulta complejo si se contrasta con el siguiente relato de Jaime: “(…) lo que ocurrió en Octavo en Matemáticas, y yo creo que esa es la razón por la cual no se van a hacer niveles de logro de Enseñanza Media, es que se hacía evidente que los alumnos que estaban en nivel avanzado hacían lo mínimo del currículum y lo que estaban en nivel intermedio no hacían ni lo mínimo, entonces era impresentable al país decir eso, y los políticos en ese momento nos pidieron decir eso de una manera que no se notara tanto, y por otro lado, el proceso de validación que se hace... bueno, se asignan unos puntos de corte, donde tú dices “ya, mira, esta descripción corresponde más o menos a este puntaje”, entonces los puntos de corte que se pusieron arrojaban que había un montón de colegios, no sé, cientos de colegios que tenían a todos sus alumnos en nivel inicial, es decir, que nadie alcanzaba ni siquiera el nivel intermedio. Entonces ahí ya entramos en un terreno político y el jefe del SIMCE nos dice en esos momentos “oye, es que no le podemos decir al país que hay gente... hay colegios, esos colegios se van a deprimir, van a pensar que están muy mal”, entonces *+, desde nuestro punto de vista, había que decirlo no más, nosotros no estamos cuidando que... disimular el fracaso de un proyecto político. Entonces nos dijeron “oye, ¿pero por qué no hacemos otra metodología para que salgan distintos los resultados?”, y ahí, afortunadamente, la gente que está a cargo de medición se puso firme y dijo “no poh, está bien que ustedes sean políticos y que igual manipulen un poco esto, pero nunca tanto”.” La necesidad de transparencia es, por lo tanto, fundamental para determinar la validez de un proceso de evaluación, especialmente si este está expuesto, como el fragmento anterior lo ilustra, a influencias de tipo político.


Entrega de resultados Se indica en el sitio SIMCE que los resultados de todos los establecimientos son públicos por ley. Diversas fuentes analizadas señalan que lo que se entrega son los puntajes promedio de cada establecimiento, así como el de diversas agrupaciones (p.ej. municipios, regiones) y el promedio nacional. Se aclara, además, que desde 2006 se entregan resultados con Niveles de Logro, primero para 4º básico y posteriormente también para 8º básico. En múltiples documentos se explica también los medios a través de los cuales se entregan los resultados. Estos son:

Informe de Resultados SIMCE para Docentes y Directivos de cada curso evaluado.

Informe de Resultados para Padres y Apoderados de cada nivel evaluado, que se envían a los establecimientos junto con los de Docentes y Directivos. Los directores deben “distribuirlos tanto a los apoderados cuyos pupilos rindieron las pruebas SIMCE, como al resto de los apoderados.” (sitio Agencia).

Un inserto de prensa SIMCE por medio de un diario de circulación nacional, “en el que se publican los resultados de todos los establecimientos evaluados, junto con los puntajes promedio de los establecimientos Municipales de cada comuna, de las comunas del país, de los Departamentos Provinciales (divisiones administrativas del Ministerio de Educación) y de todas las regiones.” (sitio SIMCE)

Página Web del SIMCE (www.simce.cl, actualmente dentro del sitio de la Agencia de Calidad).

En la mayoría de los documentos también se indica la forma de clasificación de los establecimientos según grupo socioeconómico, en base a tres índices: nivel educativo de los padres, ingreso del hogar e índice de vulnerabilidad de la escuela. Esto se realiza con el fin de entregar resultados más contextualizados, puesto que todos los años se observa que los resultados están altamente determinados por el nivel socioeconómico de los estudiantes, de manera que sería poco adecuado juzgar al establecimiento fuera de dicho contexto y en comparación con otras escuelas a las que asisten estudiantes con un mayor capital económico y cultural. Cabe preguntarse, sin embargo, si cuando se coloca en los informes de resultados los puntajes de los diversos tipos de establecimiento y grupos socioeconómicos en una misma tabla, no se promueve quizás la lectura contraria (ver ejemplo infra). La contigüidad de los datos podría motivar, por ejemplo, la lectura de que los particulares pagados, ligados a los grupos socioeconómicos más altos, tienen siempre mejores puntajes que los establecimientos que atienden a grupos socioeconómico medios y bajos, llevando incluso a la interpretación de que los primeros son de mejor calidad que los segundos, lectura que se contrapone con la intención declarada de motivar comparaciones solamente entre grupos de similares características.


FIGURA 3. Ejemplo presentación puntajes por tipo de dependencia y

grupo socioeconómico (Informe Resultados 2008)

Los informes nacionales de resultados generalmente incluyen: una introducción acerca de las características generales del SIMCE; los promedios nacionales y su variación con respecto a la aplicación anterior para el mismo nivel y curso; promedios regionales, sus variaciones y diferencias con el promedio nacional; una serie de comparaciones de resultados por género, estrato socioeconómico y tipo de dependencia; y, hasta 2010, una sección en que se investigaban factores asociados a un buen desempeño en SIMCE, según factores de éxito abordados en la literatura internacional. En lo que más varían estos informes es en la cantidad de información que entregan sobre SIMCE en la introducción y en los niveles de reflexión pedagógica que promueven en base a los resultados. La información que se encuentra en los documentos públicos del SIMCE es bastante general y escasa y deja lagunas importantes acerca del proceso. Esto se observa en el hecho que la información detallada en las páginas precedentes acerca del proceso SIMCE debió ser reconstruida y puesta en un mismo lugar a partir de información dispersa en diversas fuentes. Al respecto, cabe recordar que todos los constructores y correctores entrevistados manifiestan que hay partes del proceso en las que ellos pierden el rastro de lo que sucede con los ítems que elaboran o las respuestas que revisan. En ese sentido, incluso para los actores directamente involucrados en el proceso hay aspectos que constituyen una ‘caja negra’ acerca de la cual no saben mucho, pero en cuyos filtros, sin embargo, varios de ellos confían. Como se indicó anteriormente, pese a ser un requerimiento en relación con la validez de un proceso de evaluación, no existe un documento oficial que concentre los detalles del procedimiento, con el fin de ayudar a los usuarios a comprender qué interpretaciones de la prueba son plausibles y cuáles son las limitaciones del instrumento.


5.2. Información acerca del proceso SIMCE en base a entrevistas A continuación se indica la información acerca del procedimiento del SIMCE obtenida a través de las entrevistas, específicamente aquellos aspectos que complementan los datos ya expuestos en base a los documentos. No se consignan, excepto cuando es pertinente, los nombres de los participantes en este caso, puesto que el relato acerca del procedimiento fue altamente consistente entre los diferentes entrevistados. 1. Elaboración de marcos de evaluación y tablas de especificaciones:

El primer paso en el proceso consiste en una lectura del marco curricular vigente, en base a la cual se realiza una operacionalización de los Objetivos Fundamentales y Contenidos Mínimos con el fin de hacerlos evaluables. Ello implica, por ejemplo, ver qué aspectos son posibles de evaluar en una prueba de papel y lápiz y de qué manera se puede transformar ciertos aspectos para que se puedan preguntar por medio de un test. Estos marcos se consideran confidenciales y son de acceso exclusivo del SIMCE. En la medida en que un determinado currículum se estabiliza en el tiempo, esta fase del proceso implica menos trabajo. 2. Elaboración de preguntas: La elaboración de preguntas puede seguir tres modalidades. Pueden ser elaboradas de forma interna por los profesionales del SIMCE, puede contratarse a elaboradores que quedan bajo la dirección del SIMCE, o puede externalizarse, ya sea a través del encargo de preguntas al extranjero (principalmente para Ciencias y Matemática cuando hay ciertas habilidades no cubiertas por los constructores nacionales) o de la licitación del proceso abierta a la participación de instituciones académicas nacionales. En este último caso, la institución a cargo del proceso y el SIMCE componen de manera conjunta un equipo de constructores, en su mayoría profesores de aula del área correspondiente. En el caso de Lenguaje y Comunicación, por ejemplo, dicho equipo se conforma por cuatro constructores, un supervisor del proceso (generalmente de perfil más académico), y un coordinador institucional, cuya función consiste principalmente en mediar entre ambas instituciones. Una vez conformado el equipo, hay una reunión de la universidad con SIMCE donde se dan indicaciones acerca de aquellos contenidos y habilidades que se espera evaluar y/o de las tareas asociadas a las preguntas que se deben construir, se explican ciertos criterios de construcción de las preguntas y se establecen acuerdos acerca del proceso en general. Se inicia el proceso de elaboración de preguntas, que en total contempla alrededor de 8 a 10 semanas. Hay una secuencia de trabajo que se reitera cada semana: los constructores crean alrededor de 10 preguntas semanales, el supervisor las revisa, luego se realiza una reunión del equipo constructor donde se revisan y modifican nuevamente las preguntas, y finalmente hay una reunión entre el equipo y los profesionales del SIMCE, donde se realiza un nuevo proceso de corrección y selección de preguntas. Además, se realiza un proceso de consulta a expertos, algunos de ellos externos a SIMCE, quienes realizan un análisis crítico de las preguntas, a partir del cual hay un nuevo proceso de corrección. Una vez terminado el proceso, el equipo del SIMCE decide si las preguntas creadas ese año se eliminan, van a una prueba experimental o se dejan en un banco de preguntas para utilizarlas en el futuro.


3. Construcción de pruebas experimentales: Antes de la prueba definitiva, las pruebas son piloteadas con una muestra representativa de estudiantes. Se construyen diversos cuadernillos teniendo en cuenta que se mantenga la cobertura y el grado de dificultad de las preguntas del año anterior, con el fin de resguardar que los resultados sean comparables en el tiempo. Una vez que se tienen los resultados de esta prueba, se realiza un análisis psicométrico que contempla detectar los índices de discriminación, dificultad y azar de los ítems, así como la posibilidad de sesgo urbano/rural y de género. Así, se determina la calidad métrica de los ítems, se descartan aquellos que no funcionan, otros se dejan en el banco de preguntas para modificarlos y volver a experimentarlos en el futuro y, en casos excepcionales, se modifican o se agregan ítems si existe riesgo en relación con la cobertura de la prueba. 4. Elaboración de la prueba censal: Sobre la base del análisis psicométrico, se construyen las pruebas definitivas. Como ya se indicó en base a los documentos, los estudiantes responden varias formas, es decir, no todas las pruebas son iguales y por ello no resulta factible entregar resultados individuales, puesto que no todos son evaluados en los mismos contenidos y habilidades. Esto es, solamente a través de varios cuadernillos diferentes se logra cubrir el marco de evaluación y entregar los resultados del establecimiento completo para un área en específico. Evaluar todo el marco por alumno implicaría una prueba extremadamente extensa y, por lo tanto, impracticable. 5. Aplicación de la prueba: Este proceso también se externaliza a través de licitación. En este caso, prima el criterio logístico, es decir, que la institución sea capaz de hacerse cargo de un proceso de alcance nacional. Ellos se encargan de contratar a los examinadores y capacitarlos, de aplicar las pruebas y de hacerlas llegar de regreso al SIMCE. El MINEDUC solamente se encarga del material de apoyo para la capacitación. Junto con las pruebas, en esta fase se aplican los cuestionarios para padres y apoderados, docentes y estudiantes, con el fin de obtener información adicional que posibilite otros análisis de los resultados. 6. Corrección de las pruebas y cálculo de puntaje:

La captura de datos y la corrección de las pruebas también son externas. El SIMCE solamente realiza chequeos para asegurar la precisión de los datos recibidos. Las preguntas abiertas son corregidas también por medio de una licitación. La institución a cargo del proceso recibe del SIMCE las pautas de corrección de las preguntas, las que contienen una serie de indicadores de presencia/ausencia o que requieren puntuación. Estas pautas han sido elaboradas por los profesionales del SIMCE. Tras la aplicación de la prueba, son revisadas a la luz de la evidencia obtenida y pasan por un nuevo proceso de revisión en conjunto con los supervisores de corrección de la institución que se adjudicó el proceso.


La corrección propiamente tal se inicia con la selección de los correctores, quienes reciben una capacitación en la pauta por parte de los supervisores de corrección y, al parecer, de miembros del equipo SIMCE, aunque su participación fue reconocida solamente por algunos entrevistados. Dicha capacitación contempla, en algunas aplicaciones, una explicación más general del SIMCE y su importancia y propósitos, seguida por una explicación de la pauta a utilizar y, en todos los casos, por un ejercicio de aplicación práctica de la pauta donde es posible resolver dudas. En el caso de Lenguaje y Comunicación hay, además, un momento de marcha blanca que asegura la calibración del juicio de todos los correctores y los ayuda a adquirir agilidad en el proceso. Los entrevistados del área Matemática declararon no haber pasado por una marcha blanca, sino haber comenzado inmediatamente a corregir. Luego, se inicia la corrección propiamente tal, por medio de un software con las preguntas escaneadas, que permite revisar en pantalla, controlando a través de correcciones dobles por ítem la calibración de los correctores, así como su productividad. Existe, en general, bastante confusión en los actores del proceso acerca de la forma en que las preguntas abiertas se incluyen en la corrección total de la prueba y en el puntaje final. Los entrevistados que tenían más claridad al respecto (Rebeca y Josefina) indicaron que el grado de dificultad se asigna de la misma manera que las preguntas cerradas, por lo que no depende del tipo de pregunta, sino de su grado de dificultad. Junto con ello, otra entrevistada aclara que no todos los años se incluyen en el puntaje final. Hay ocasiones en que se decide dejar las preguntas abiertas fuera del puntaje o incluir solamente algunas. Con todos los datos de regreso en el SIMCE, estos se limpian y verifican, se realiza un nuevo análisis psicométrico, se calculan los puntajes y se realizan los análisis correspondientes (resultados por género, dependencia, nivel socioeconómico, tendencia). 7. Publicación de resultados: Finalmente, se procede a llenar con la información correspondiente las maquetas pre-diseñadas de los documentos que reportan los resultados. Antes del comunicado de prensa, se realiza una reunión con las cabezas del MINEDUC para preparar su respuesta política a los resultados de la evaluación. Junto con ello, hay una etapa final en la que los establecimientos llaman para realizar consultas y reclamos, y los medios se comunican con el MINEDUC para pedir datos, ejemplos de preguntas y rankings. Josefina indica que, en lugar de dejar a los medios elaborar sus propios rankings, prefieren entregarles uno hecho por el SIMCE, más preciso y contextualizado. Esta última fase estaba dentro del SIMCE hasta este año, en donde se separa debido a la restructuración asociada a la creación de la Agencia de Calidad. Estos son, a grandes rasgos, los pasos y procedimientos que contempla el proceso de evaluación de SIMCE, al menos en su ideal teórico (ver síntesis en Figura 4). Hay una serie de detalles en la forma en que se lleva a cabo cada fase que merecen una mirada más detenida desde el punto de vista de la validez. No obstante, estos aspectos se incluyen en la siguiente sección, como parte del análisis crítico de esta evaluación.


FIG

UR

A 4

. Sín

tesi

s et

apas

y a

cto

res

pro

ced

imie

nto

SIM

CE

.


6. RESULTADOS DE LA INVESTIGACIÓN: ANÁLISIS CRÍTICO DE LA VALIDEZ DEL SIMCE 6.1. Propósitos En el presente estudio se realizó una síntesis de todos los propósitos asignados a la prueba tanto en los documentos como en las entrevistas, intentando agrupar, dentro de lo posible, aquellos que fuesen afines. Bajo ese criterio amplio y flexible, se detectaron 17 propósitos diferentes, que se indican a continuación:

1. Mejorar y monitorear/evaluar calidad y equidad del sistema educativo chileno. 2. Evaluar, medir, diagnosticar resultados de aprendizaje, logro/cumplimiento de los OF-

CMO o cuánto saben los alumnos. 3. Orientar, informar, estructurar y evaluar políticas educativas. 4. Medir y reportar variaciones/evolución en el logro de aprendizaje de los estudiantes. 5. Motivar la reflexión pedagógica, complementar las evaluaciones de la escuela y servir de

base para la toma de decisiones pedagógicas. 6. Informar/rendir cuentas/retroalimentar al MINEDUC, a los padres y apoderados y al

sistema en general acerca de los resultados de aprendizaje de los estudiantes. 7. Comparar/diferenciar establecimientos entre sí, generar rankings, ordenar/clasificar

escuelas. 8. Asignar incentivos para escuelas de buen rendimiento y apoyo para las escuelas de bajo

rendimiento. 9. Clasificar a los estudiantes según nivel de dominio o logro, en base a información sobre

conocimientos y habilidades de distinta complejidad. 10. Evaluar iniciativas/intervenciones a nivel de establecimiento. 11. Servir de apoyo a definición de metas y compromisos a futuro a nivel de

establecimiento. 12. Validar a los gobiernos frente a la opinión pública (propósito no declarado). 13. Regular la oferta y la demanda en educación. 14. Controlar a los colegios y los profesores (propósito no declarado). 15. Medir comprensión de lectura. 16. Medir razonamiento matemático. 17. Evaluar un nivel básico de algunos aprendizajes de algunas áreas del currículum.

Cuatro entrevistados, todos en roles internos de coordinación en el SIMCE por varios años, coinciden en agrupar los múltiples propósitos del SIMCE en dos grandes ‘macro-propósitos’: la rendición de cuentas y el apoyo a las prácticas pedagógicas. Dos de ellos ven estos propósitos en tensión permanente e indican que se han tomado medidas para cumplir con ambos. Para Arturo, no obstante, es el propósito de rendición de cuentas el que ha predominado en general, mientras que para Josefina el énfasis varía según la orientación de la política. Frente a la pregunta por la posibilidad de reconciliar ambos propósitos, Jaime indica: “Yo, cuando entré al SIMCE, creía que sí. Francamente ahora creo que un propósito se come al otro, porque es tan fuerte el peso que tiene [] el hecho de que te vayan a cerrar el colegio o que los profesores [] los ponen a hacer ensayos SIMCE en todas las clases, que algunos colegios reducen las clases de Arte, Educación Física, lo que sea, para tener más Matemáticas y Castellano, y [] no tener así en general, sino que tener preparación para el SIMCE para eso, que yo creo que ese efecto social que tiene el SIMCE anula el otro; o sea, yo no he conocido a nadie


en todos estos años que use los resultados del SIMCE y que diferencie ambos aspectos, o sea, el SIMCE se ha teñido de ese manto, el cual para los colegios es como algo negativo y cuesta desmantelarlo, entonces yo creo que ya no son separables.” Solamente Rebeca los entiende como compatibles. Explica: “Me parece que son compatibles de todas maneras (…), porque creo que, en la medida que entreguemos más información de en qué nivel de desarrollo están los estudiantes respecto de cada habilidad o contenido disciplinar, y en la medida que los profesores, los directivos puedan hacerse cargo de eso y considerar esa información en su planificación anual docente [] y pedagógica, vamos a ir mejorando, yo estoy convencida de eso, estoy convencida (…).” Desde su perspectiva, al entregar mayor información sobre el aprendizaje de los estudiantes, los profesores tienen mayores opciones de incorporar información al mejoramiento de su práctica. Señala a continuación, sin embargo, que se necesitan otros indicadores de calidad educativa más allá del SIMCE para, por ejemplo, realizar la actual ordenación de colegios requerida por ley, en la cual el SIMCE tiene un porcentaje de importancia excesivamente alto, según la entrevistada. 6.2. Constructo y contenido

Límites del constructo y representatividad del contenido

En base a los documentos disponibles sobre SIMCE, un primer aspecto que emerge como relevante se relaciona con los límites del constructo que se evalúa en SIMCE y, en base a ello, qué es lo que finalmente se puede interpretar o no a partir de sus resultados. El primer rótulo que se ofrece en toda la documentación del SIMCE está dado por su nombre: mide la calidad de la educación en Chile. Ninguno de los documentos del SIMCE ofrece una definición concreta de este constructo. El intento de modificación realizado en los últimos años, donde la sigla SIMCE se desglosa como Sistema Nacional de Evaluación de Logros de Aprendizaje (sitio Agencia y Orientaciones 2012) no contribuye a aclarar el constructo y contiene el riesgo de generar interpretaciones basadas en equivalencias no válidas. Los entrevistados involucrados en el proceso de SIMCE, por su parte, concuerdan en que lo que evalúa el SIMCE no es calidad de la educación, al menos no de la forma en que su nombre pareciera sugerirlo, sino más bien un espectro limitado de contenidos y habilidades de una disciplina específica. Todos los entrevistados que mencionan el propósito de mejorar la calidad y equidad de la educación, lo hacen para indicar que se trata de un propósito declarado, pero no logrado del SIMCE. Alejandra, por ejemplo, percibe que el efecto ha sido el inverso: “Entonces, ¿cuál es… qué entendemos por calidad? Habría que definir eso, ¿qué es la calidad de la educación? Si tú estás entendiendo calidad como números, bueno, sí, mucha calidad, en realidad, pero si la entiendes como algo más valórico, que también son habilidades, y también son aprendizajes valóricos, actitudinales, que aquí no se están midiendo, aparte, no se están midiendo. Entonces estamos mal (…). SIMCE no está colaborando con eso, todo lo contrario, está contribuyendo a seguir segregando a la sociedad chilena, a seguir estableciendo esta militarización de la educación, que no sirve… no se educa en valores de convivencia, en valores de vínculos con el medio. Lo que importa es rendir una prueba (…) eso es lo que importa, eso es


lo que importa. No es lo que está pasando en el aula, no el esfuerzo que está haciendo el pobre profesor para poder hacer que no le… que los niños se motiven. Entonces, en definitiva, creo que el concepto SIMCE está fallando en términos de procedimiento, de cómo se hace, cómo se lleva a cabo, y en términos de efectos también, porque ¿qué produce el SIMCE? Todo lo que provoca alrededor, pero, sobre todo, tiene un error conceptual ahí… no un error conceptual, tiene una indefinición: ¿qué es lo que es la calidad? Y si no sabes tú, no tienes definido lo que es la calidad, no puedes estar midiendo la calidad, no puedes tener un sistema para medir la calidad. Me parece que eso es una contradicción.” La percepción de los docentes entrevistados coincide con esta apreciación. Todos ellos indican que el SIMCE distorsiona la práctica de las escuelas al centrar la atención y el uso del tiempo en las asignaturas evaluadas por el SIMCE; al modificar las prácticas de evaluación en función de lo que ellos consideran es el modelo SIMCE; y al reducir el currículum a las áreas evaluadas por la prueba y a aquellas habilidades y contenidos evaluables por medio de una prueba de lápiz y papel (ver sección 6.4). La distorsión de la práctica sucede por la exposición pública de los resultados y su uso para establecer comparaciones y rankings entre escuelas, lo que provoca que las escuelas se vean presionadas a mejorar el puntaje SIMCE por cualquier medio. Ello podría ir en contra del propósito intencionado de mejorar la calidad y equidad del sistema. Los que sí consideran que el SIMCE evalúa calidad, aclaran que lo hace en términos de una dimensión de la calidad entre muchas posibles, ligada en este caso a los resultados de aprendizaje. Junto con el concepto de calidad, todos los documentos del SIMCE indican que se trata de una evaluación del currículum vigente para diversas áreas de aprendizaje. El primer punto a considerar al respecto es si se puede establecer una equivalencia entre calidad de la educación Y nivel de aprendizaje del currículum vigente y, en ese sentido, si se trata de una delimitación adecuada o no del concepto de calidad. Además de lo anterior, es importante tener en cuenta que se evalúa solamente el currículum de ciertas disciplinas, principalmente: Lenguaje y Comunicación, Educación Matemática, Historia, Geografía y Ciencias Sociales, y Ciencias Naturales, áreas a las que recientemente se agregan Educación Física e Inglés. Por lo tanto, el constructo inicial de calidad se reduce primero a evaluación del currículum vigente y, en segundo lugar, a la evaluación del currículum de 4 áreas de aprendizaje. Las áreas relacionadas con el arte y la educación tecnológica, por lo tanto, quedan aquí excluidas del concepto de calidad del sistema educativo. Las consecuencias que ello genera en términos de reducción del currículum se indican en la sección 6.4. El constructo se reduce más todavía cuando en la mayoría de los documentos disponibles se indica que el SIMCE solamente incluye aquellos ámbitos de aprendizaje que pueden evaluarse por medio de una prueba de lápiz y papel. Ello excluye áreas como la comunicación oral, la experimentación científica, el cálculo mental, por mencionar únicamente algunas. Coincidentemente, varios entrevistados observan que lo que en realidad se evalúa en el SIMCE es finalmente una versión bastante reducida, rutinaria y básica del currículum de cada área. Por ejemplo, Ximena indica: “(…) yo creo que, finalmente, el SIMCE *+ evalúa un nivel muy muy muy básico de escritura y de comprensión de lectura, pero muy básico. (…) yo creo que... o sea, habilidades de todo tipo,


habilidades complejas y todo lo demás yo creo que no lo evalúa bien y tampoco evalúa bien la lectura comprensiva. Si lo hace, lo hace a un nivel muy muy básico, y muy mínimo.” De manera similar, Pedro explica: “SIMCE termina evaluando, se termina parando desde la posición más tradicional en medición, que es evaluar lo que existe, lo que, básicamente, lo que se puede medir []. Entonces, lo que se puede medir son reacciones, y las reacciones a lectura, las reacciones a las preguntas, las reacciones... y lo que se puede obtener en reacción en un plazo breve, cuestiones muy observables, por ejemplo, la presencia de determinados elementos en una pregunta, que permitan obtener rápidamente una inferencia o una conclusión unívoca, respuestas... respuestas únicas, en un contexto curricular... (…) donde, por ejemplo, se propicia la creación, creación que no se puede medir en SIMCE.” Alicia, por su parte, afirma: “Esa era una de las peleas que teníamos nosotros también adentro [del SIMCE], que decíamos que las pruebas de selección múltiple no estaban considerando todos los desempeños que los estudiantes debieran mostrar en una prueba de esta envergadura. Entonces, en ese sentido, yo diría que sí es válido, con la estructura que tiene para indicadores o para objetivos de evaluación, no para (…) objetivos de aprendizaje que no son evaluables con pruebas de selección múltiple (…). En la misma página del SIMCE dice que la misión [] del SIMCE es evaluar la calidad de la educación, y era como cuestionable qué es la calidad de la educación si estamos evaluando solo aquello que se puede preguntar en preguntas de selección múltiple, o sea, que dónde quedaba el argumentar, por ejemplo, dónde quedaba el demostrar en Matemáticas, dónde quedaba el uso de la calculadora que no la usamos en una prueba de SIMCE, dónde quedaba el cálculo mental (…) entonces decir que calidad es solo aquello que se puede evaluar en una prueba de selección múltiple es como cuestionable.” Los fragmentos anteriores ilustran la opinión de gran parte de los entrevistados, quienes perciben que, por una parte, no corresponde hablar del SIMCE como evaluación de calidad y, por otra, que lo que logra evaluar del currículum no es lo más complejo ni lo más relevante de cada disciplina. Además, de acuerdo con el testimonio de algunos participantes, las preguntas que tienden a comportarse mejor en el proceso de validación psicométrica son aquellas de formulación más simple y que están ligadas a habilidades más básicas (ver sección 6.5), lo que refuerza la existencia de un filtro hacia lo más elemental de cada área. En la misma línea, algunos observan que, tras el análisis psicométrico, hay contenidos completos que quedan sin cubrir debido a que ninguna pregunta asociada a dicho contenido logra pasar el pilotaje, como sucede con el Teorema de Pitágoras, según Alicia. Al ser consultado por este aspecto, el Profesor David Andrich indica que no le parece correcto simplemente excluir el contenido de la prueba, y entrega las siguientes razones: “Pareciera que son los ítems que evalúan el contenido los que no están pasando el análisis psicométrico. Quizás necesitan revisarse. Si comienzas con sets de ítems que debieran ir juntos y evaluar algo importante, y algunos sub-conjuntos de ítems no están funcionando, entonces es necesario tener una explicación. Las estadísticas pueden decirte dónde está el problema, pero no


pueden explicar el problema. Puede estar en los ítems, puede estar en lo que se asume que se enseña, y así sucesivamente.” Junto con la exclusión de contenidos, se incluye dentro de un mismo constructo rasgos que no se comportan de manera similar al aplicarse la prueba, como es el caso de geometría, que no se correlaciona con el desempeño de los alumnos en números y álgebra, según Jaime. Anastasi y Urbina (1997) explican que para que diferentes factores (p. ej. números, álgebra, geometría) puedan formar parte de un mismo factor más amplio (p. ej. evaluación de razonamiento matemático), debe existir un alto nivel de correlación en el comportamiento de dichos factores (lo que denominan validez factorial). Ello significa que geometría no debería formar parte del mismo constructo que números y álgebra, sino ser evaluados aparte, como dos rasgos diferentes. De lo contrario, se puede llegar a concluir que un alto puntaje SIMCE en Matemática implica que los estudiantes tienen buen desempeño en todos los ejes del área, cuando en realidad esto estaría excluyendo los aprendizajes de geometría. El Profesor David Andrich, al preguntársele por este aspecto, concuerda en señalar que: “Pareciera que cada uno debiera ser un test diferente. Sin embargo, nuevamente ello depende del currículum y de la intención. No obstante, si hay baja correlación, entonces no es solamente un poco extraño, sino que significa que un puntaje no puede resumir el conocimiento de un estudiante. El principio conceptual fundamental de utilizar un único test y, por consiguiente, un mismo puntaje es si el puntaje único resume el perfil de la mayoría de los estudiantes. Si no lo hace, entonces se necesita más de un test. Sin embargo, la correlación se ve afectada por las prácticas de enseñanza al igual que por el test.” Sobre la base de estos datos, entonces, es posible indicar que los límites del constructo se reducen aun más tras el proceso de validación. Si a ello se agregan los ejemplos de preguntas en las que se asigna una habilidad más compleja que la que la pregunta realmente evalúa (ver análisis de preguntas infra), entonces nos encontramos con una prueba que tiende a evaluar las habilidades más básicas del currículum de ciertas áreas. La siguiente figura ilustra la creciente reducción del constructo evaluado por el SIMCE en base a la evidencia de investigación.

FIGURA 5. Reducción de los límites del constructo a evaluar en SIMCE en base a evidencia

CALIDADAprendizaje del

currículum vigente

Aprendizaje en 4 áreas del currículum

Aprendizajes posibles de evaluar en pruebas de

lapiz y papel

Habilidades más básicas

del currículum


Variaciones del constructo de un año a otro Uno de los propósitos del SIMCE consiste en establecer comparaciones en el desempeño de las escuelas y del país de un año a otro. Ello requiere necesariamente que cada año se evalúe un mismo constructo, es decir, que la definición teórica de aquello que se evalúa sea la misma y que sus límites se mantengan. No obstante, a partir de los documentos analizados, surgen una serie de aspectos problemáticos que podrían poner en cuestión la estabilidad del constructo en el tiempo. Un primer aspecto se relaciona con los cambios curriculares. El SIMCE evalúa los aprendizajes logrados en torno al currículum vigente. Si el currículum se entiende como susceptible de modificación, entonces no existe seguridad acerca de la estabilidad del constructo a evaluar a lo largo del tiempo. En los documentos se registran dos cambios de este tipo durante los últimos años. Las Orientaciones para 4º básico 2004 indican: “Las pruebas SIMCE 8° Básico 2004 marcan un hito importante, puesto que es la primera vez que se evaluarán los Objetivos Fundamentales y Contenidos Mínimos Obligatorios (OF-CMO) establecidos en la Reforma Curricular de este nivel.” Ello significa que durante los años previos a 2004 lo que se estaba evaluando correspondía a un currículum anterior. Si bien en el Informe de Resultados correspondiente a ese año se realiza una pequeña advertencia al respecto, no se considera la posibilidad de que establecer comparaciones entre las evaluaciones anteriores y posteriores a 2004 sea inadecuado, pues los constructos a evaluar son diferentes. Las comparaciones se establecen como en cualquier otro período. De forma similar, desde 2009 se comienza a evaluar solamente aquellos OF y CMO que se mantendrían en el Ajuste Curricular publicado ese año, primero para 8º básico y desde 2011 también para 4º básico. Habría que preguntar, entonces, qué tan equivalentes son el Marco Curricular y su Ajuste, qué pasa con aquellos ámbitos que no se evalúan desde 2009 y si la comparabilidad de los resultados no se ve afectada por un nuevo cambio de constructo. Los Informes de Resultados, en este caso, informan acerca de la modificación, sin indicar nada con respecto a las consecuencias que ello puede tener para la comparabilidad y la interpretación de los resultados. A estos cambios detectados en los documentos hay que agregar las Bases Curriculares publicadas en 2012 y, además, los Niveles de Logro, que se incorporan desde 2006 como un referente más que, según Josefina, lleva a realizar cambios como la inclusión de habilidades más complejas que no se evaluaban en aplicaciones anteriores. Al preguntar a los miembros del equipo SIMCE por estos cambios curriculares, todos coinciden en indicar que la solución es el establecimiento de un período de transición en el cual se trabaja con las intersecciones entre ambos currículos, es decir, con aquellos elementos comunes entre ambos marcos. No obstante, difieren en su grado de convencimiento respecto de este procedimiento. Para la mayoría se trata de un medio adecuado de asegurar la comparabilidad de contenido en el tiempo, sin embargo, Josefina y Sofía coinciden en señalar que este proceso resultó mucho más complejo en las áreas de Ciencias, Ciencias Sociales y Matemática, puesto que hubo contenidos que, por ejemplo, cambiaron de un ciclo a otro, por lo que ya no podían evaluarse en el SIMCE correspondiente al ciclo al que anteriormente pertenecían. Consultado sobre los cambios curriculares y cómo ello incide en la comparabilidad, el Profesor Andrich indica:


“Por supuesto que los cambios en el currículum nacional (…) afectarán la comparabilidad de los resultados de un año a otro. Una forma de enfrentarlo es (…) evaluar lo que es común. Sin embargo, lo que es común puede tener diferentes ubicaciones en el tiempo (…) en los diferentes currículos, por lo que esto debe tomarse en cuenta. Si la ubicación en el tiempo es la misma (…), entonces es posible en principio utilizar esta evaluación de aspectos comunes para colocar las evaluaciones completas de cada currículum en la misma escala. Esto debe realizarse con cuidado.” Por lo tanto, si existen contenidos que cambian de ciclo, entonces la solución de las intersecciones podría considerarse cuestionable, pero se requiere un análisis más detenido para llegar a conclusiones más definitivas. Junto con lo anterior, hay divergencias en relación con la comparabilidad del currículum pre-2012 y las Bases Curriculares. Para algunos, como Rebeca, las diferencias de enfoque son mínimas, mientras que para Alicia se trata de un cambio paradigmático en la disciplina. Algunos entrevistados confían en que los procesos de equating aseguran la comparabilidad de las pruebas de un año a otro. No obstante, hay que recordar que este procedimiento psicométrico ajusta por diferencias en la dificultad de los tests y no por diferencias de contenido (Dorans et al., 2010). Según el Profesor Andrich, si lo que se espera de la prueba es evaluar crecimiento en el tiempo, esto debería realizarse usualmente en relación con diferentes evaluaciones del mismo constructo. Por lo tanto, antes de seguir estableciendo comparaciones y tendencias en el tiempo, resulta crucial realizar un estudio curricular y de los marcos de evaluación, que garantice que se están comparando constructos equivalentes, más allá de los grados de dificultad. En segundo lugar, además de los cambios curriculares, es importante revisar las diferencias de constructo por subsector que se encuentran de un año a otro en la sección de los documentos de Orientaciones y los Informes de Resultados referida a los conocimientos y habilidades a evaluar en cada área. Esto resulta fundamental en términos de validez de constructo, puesto que se trata de una de las escasas secciones de los documentos del SIMCE donde se puede detectar la teoría disciplinaria subyacente a cada prueba. En las tablas 6 y 7 se transcribe, a modo de ejemplo, esta sección para las diferentes aplicaciones de la prueba SIMCE en 8º básico, tanto en Lenguaje y Comunicación como en Matemática (ver Tablas 6 y 7). En el caso de Lenguaje y Comunicación, hay un cambio significativo de constructo, puesto que desde 2007 la producción escrita queda excluida de la prueba, con lo que el constructo utilizado hasta 2004 reduce sus límites de forma considerable al contemplar solamente la comprensión lectora. En este sentido, no queda claro hasta qué punto pueden compararse los puntajes de 2004 con los de 2007 en adelante, puesto que de los dos componentes centrales del área de Lenguaje y Comunicación solamente se deja uno. Junto con ello, la aplicación de contenidos curriculares, que se consideraba como parte del constructo a evaluar en las pruebas de 2004 y 2007, desaparece a partir de 2009, quedando únicamente la dimensión de habilidades de comprensión lectora. Se hace necesario preguntar hasta qué punto, por ejemplo, podrían estos cambios estar afectando la dificultad general de la prueba y, en ese sentido, estar afectando los resultados y su interpretación. Hay, además, un cambio en la conceptualización de la comprensión global y local de un texto, presentándose una definición poco precisa de estas en 2007, puesto que se indica que la


primera alude a párrafos y textos completos, mientras la segunda se refiere a palabras y oraciones. Esta conceptualización ignora o, al menos, simplifica la relación entre ambos ámbitos, puesto que se trata de una relación semántica y discursiva, y no simplemente ligada a unidades de análisis mayores o menores. El tipo de pregunta que podría emerger de cada una de estas concepciones sería completamente diferente. Las dimensiones local y global desaparecen desde 2009, con lo que solamente las dimensiones de extraer información y realizar inferencias e interpretaciones acerca del texto se mantienen relativamente estables de un año a otro; no así la de reflexión acerca del texto, que se incorpora solamente desde 2009, al igual que el detalle sobre las características de los textos que se encuentran en la prueba. También se observan variaciones acerca de los tipos de textos que se incluyen en la prueba, tipología que solamente se mantiene estable entre 2009 y 2011. Por lo tanto, existen a nivel de constructo dudas razonables acerca de la comparabilidad entre los resultados de 2004 y 2007, y de 2007 y 2009. Algo similar ocurre con Educación Matemática para el mismo nivel, aun cuando las discrepancias de un año a otro son menores que en el caso de Lenguaje y Comunicación. La descripción de los contenidos a evaluar en 2004 es exactamente igual a la publicada en 2007. No obstante, en 2009 se observa, por una parte, un cambio en la denominación de los ejes a evaluar. Por ejemplo, tratamiento de la información se reemplaza por datos y azar, denominaciones que no necesariamente sugieren los mismos contenidos. Pese a ello, los contenidos de 2007 se mantienen en este nuevo eje de 2009, agregándose algunos aspectos nuevos. Además, por primera vez en 2009 se establece una división entre el conocimiento conceptual de cada eje y su aplicación, lo que sugiere que pueden haber existido en esa aplicación preguntas de contenido puro. Junto con ello, resolución de problemas deja de presentarse como un eje transversal y se lo integra en cada uno de los ejes, quizás con la idea de explicar cómo se integra en cada área. Finalmente, en 2011 hay contenidos específicos que se agregan y que no estaban en años anteriores: potencias de base natural y exponente entero; calcular la longitud de la circunferencia y el área del círculo; el teorema de Pitágoras. Por último, se amplía el uso de tablas y gráficos más allá de los medios de comunicación masiva, que era el énfasis que se había dado en años anteriores. La situación en 4º básico y 2º medio no es muy diferente a la ya descrita para 8º, de manera que los resultados aquí expuestos pueden extrapolarse a dichos niveles.

TABLA 6. Comparación contenidos y habilidades a evaluar en el SIMCE de 8º básico Lenguaje y Comunicación según los Folletos de Orientaciones*

2004 2007 2009 2011

La evaluación considerará dos dimensiones: comprensión de lectura y producción de textos escritos. La comprensión de lectura se evaluará considerando habilidades generales de comprensión del contenido de los textos, como también la aplicación de contenidos curriculares que vayan en beneficio de la comprensión de los mismos. Ambas tareas tendrán dos niveles de aplicación: local y global. Esto implica tanto la comprensión de palabras y oraciones, como la de fragmentos,

Este año, la prueba de Lenguaje y Comunicación se concentrará en la dimensión de comprensión de lectura. La dimensión de producción escrita será evaluada en el futuro mediante una prueba especialmente diseñada para esto. La dimensión de comprensión de lectura se evaluará considerando dos tipos de tareas: comprensión de contenidos textuales y aplicación de contenidos curriculares que favorecen la comprensión de los textos. Ambos tipos de tareas serán

El subsector de Lenguaje y Comunicación se evaluará el año 2009 a través de una prueba de lectura que medirá las distintas habilidades relacionadas con la comprensión lectora. Para esto, se incluirán preguntas donde los estudiantes deben extraer información ubicada en diferentes partes del texto, por ejemplo, en una nota al pie de página o realizar inferencias e interpretaciones, por ejemplo, inferir el sentimiento de un personaje. También se incluirán, preguntas que

El sector de Lenguaje y Comunicación se evaluará en 2011 a través de una prueba de comprensión de lectura. En ella se evaluarán las siguientes habilidades y tareas específicas de lectura: Extraer información: extraer información ubicada en diferentes partes del texto; por ejemplo, en el cuerpo del texto o en una nota a pie de página extraer información a partir de la combinación de dos o más datos presentes en el texto. Interpretar y relacionar información: establecer


párrafos y textos completos. En ambos niveles se evaluará, entre otros aspectos, la capacidad de los alumnos para identificar información explícita, inferir significados y sintetizar información. En cuanto a la aplicación de contenidos curriculares, se evaluará la capacidad de reconocer las partes de la oración; identificar la función gramatical de las palabras; reconocer elementos básicos de la teoría de la comunicación (como emisor, receptor o mensaje); y tener conocimientos sobre las características de los géneros literarios y de los distintos tipos de textos. La comprensión de lectura se evaluará mediante preguntas de selección múltiple, referidas a diversos tipos de textos, literarios y no literarios. Entre los textos literarios se seleccionarán principalmente textos narrativos, y entre los no literarios, se seleccionarán textos informativos, instruccionales y persuasivos. La producción de textos, por su parte, se evaluará mediante preguntas abiertas o de desarrollo que se deben contestar por escrito, generadas a partir de estímulos que situarán a los alumnos frente a determinadas situaciones comunicativas. Adicionalmente, se evaluará el dominio de las normas de ortografía, en sus aspectos literal y acentual.

evaluados considerando dos niveles de aplicación: local y global. El nivel de aplicación local implica el trabajo con palabras y oraciones, y el nivel de aplicación global, con párrafos y textos completos. En comprensión de contenidos textuales, se plantearán tareas específicas como identificar información explícita, sintetizar información o realizar inferencias a partir de ella, en diferentes tipos de texto; además de la realización de tareas de interpretación en textos literarios. En aplicación de contenidos curriculares, se plantearán tareas como reconocer funciones gramaticales de las palabras, identificar algunos elementos básicos de la teoría de la comunicación (como el concepto de “emisor” y sus características) y reconocer características de los grandes géneros literarios y de diversos tipos de textos. Estas tareas de comprensión de lectura serán evaluadas mediante preguntas referidas a distintos tipos de textos, tanto literarios como no literarios. Entre los primeros, se seleccionarán textos narrativos y líricos; entre los segundos, textos informativos, instruccionales y persuasivos o que expresan puntos de vista.

requieren reflexionar acerca del contenido y de la forma del texto, por ejemplo, reconocer la relación entre las imágenes presentadas y la información verbal. Para evaluar cada una de estas habilidades se incluirán preguntas de diversos grados de dificultad. Las habilidades de comprensión de lectura serán evaluadas mediante preguntas referidas a diversos tipos de textos, tanto literarios como no literarios. Entre los primeros se incluirán cuentos, poemas y textos dramáticos. Entre los segundos, se incluirán noticias, instrucciones, artículos de opinión, afiches, entre otros. Los textos no literarios generalmente incorporarán elementos complementarios como cuadros, gráficos, tablas, notas al pie o ilustraciones. Los textos podrán ser completos o fragmentos, y referirse a situaciones reales o imaginarias. Asimismo, sus contenidos serán variados en temas y complejidad, y harán referencia a diversos entornos culturales.

distintos tipos de relaciones en el texto (causa, efecto, finalidad, concesión); interpretar acontecimientos y acciones de personajes a partir del sentido global del texto; interpretar lenguaje figurado en textos en que predomina ese tipo de lenguaje. Reflexionar sobre el texto: reconocer la relación entre las imágenes o recursos gráficos y la información verbal; emitir juicios o evaluaciones acerca de la lectura; aplicar la lectura a situaciones reales; opinar sobre los contenidos de los textos leídos. Las habilidades de comprensión lectora se evaluarán a partir de la lectura de diversos tipos de textos literarios y no literarios. Entre los textos literarios, se utilizarán cuentos, poemas y textos dramáticos. Los textos no literarios incluirán noticias, textos instruccionales, artículos de opinión y afiches, entre otros. Los textos no literarios generalmente incorporarán elementos complementarios, como cuadros, gráficos, tablas, notas al pie o ilustraciones. Los textos de la prueba pueden corresponder a versiones completas o fragmentos de textos más extensos, y referirse a situaciones reales o imaginarias. Los contenidos serán variados en temas y complejidad, y harán referencia a diversos entornos culturales.

* Para facilitar la comparación, la investigadora ha destacado en negrita los aspectos donde se encuentran las mayores diferencias.


TABLA 7. Comparación contenidos y habilidades a evaluar en el SIMCE de 8º básico Educación Matemática según los Folletos de Orientaciones*

2004 2007 2009 2011

La evaluación considerará cuatro dimensiones: números y operaciones; geometría; álgebra y funciones; y tratamiento de la información. En números y operaciones se incluirán tareas en las que se requiere utilizar razonamientos ordenados y comunicables para resolver problemas numéricos; interpretar y manejar las operaciones con números enteros, decimales y fracciones, estableciendo equivalencias entre una forma de representación y otra; analizar situaciones de crecimiento y de decrecimiento exponencial; usar potencias para expresar y operar con cantidades grandes y pequeñas; y por último, aplicar proporcionalidad directa e inversa y calcular e interpretar porcentajes. En geometría, se evaluará el análisis y anticipación de los efectos que se producen en la forma, el perímetro, el área y el volumen de figuras y cuerpos geométricos, al variar la medida de algunos elementos (lados, ángulos, radio, etc.). También incluirá preguntas referidas a la suma de ángulos interiores de polígonos; el análisis de la medida de los ángulos de figuras construidas por combinación de otras figuras; el cálculo de perímetros y áreas; así como el cálculo del volumen de cuerpos geométricos, usando diversas unidades de medida. En álgebra y funciones, se requerirá utilizar lenguaje algebraico simple para representar diversas situaciones y expresar de manera general algunas relaciones, regularidades o propiedades, así como plantear y resolver ecuaciones de primer grado con una incógnita para resolver problemas. En tratamiento de la información se evaluará la capacidad para analizar

La prueba de Educación Matemática evaluará cuatro ejes temáticos: a. Números y operaciones. b. Geometría. c. Álgebra. d. Tratamiento de la información. A continuación se detallan los contenidos y habilidades que serán evaluados en cada eje temático: a. Números y operaciones. En este eje se evaluará la capacidad del alumno o alumna para utilizar razonamientos ordenados y comunicables para resolver problemas numéricos; interpretar y manejar las operaciones con números enteros, decimales y fracciones, estableciendo equivalencias entre una forma de representación y otra; analizar situaciones de crecimiento y de decrecimiento exponencial; usar potencias para expresar y operar con cantidades grandes y pequeñas y, por último, aplicar proporcionalidad directa e inversa y calcular e interpretar porcentajes. b. Geometría. En este eje se evaluará la capacidad del alumno o alumna para analizar y anticipar los efectos que se producen en la forma, el perímetro, el área y el volumen de figuras y cuerpos geométricos, al variar la medida de algunos elementos (lados, ángulos, radio, etc.). También se evaluará la suma de ángulos interiores de polígonos y el análisis de la medida de los ángulos de figuras construidas por combinación de otras figuras. Además, se incluirá el cálculo de perímetros y áreas de figuras geométricas, así como el cálculo del volumen de cuerpos geométricos, usando diversas unidades de medida. c. Álgebra. En este eje se evaluará la capacidad del alumno o alumna para utilizar lenguaje algebraico simple para representar diversas situaciones y expresar de

Orientaciones para la Medición Educación Matemática La prueba de Educación Matemática evaluará los Objetivos Fundamentales y Contenidos Mínimos Obligatorios del segundo ciclo básico (OF-CMO Decreto Nº 232, del año 2002) que se mantendrán presentes en el ajuste del Marco Curricular aprobado recientemente. La prueba evaluará los siguientes ejes: a. Números. En este eje se evaluará el conocimiento conceptual de los números enteros, decimales positivos, fracciones positivas y sus operaciones, los conocimientos conceptuales de la proporcionalidad y los porcentajes. Además, se evaluará la aplicación de estos conceptos para establecer equivalencias entre fracciones y su representación como número decimal positivo y calcular proporciones y porcentajes en diversos contextos. Conjuntamente, se evaluará la capacidad del alumno o alumna para resolver problemas numéricos utilizando razonamientos y estrategias ordenadas y comunicables. b. Geometría. En este eje se evaluará el conocimiento conceptual del perímetro, área y volumen de figuras y cuerpos geométricos, de los ángulos interiores de triángulos y cuadriláteros y de los ángulos formados entre rectas paralelas cortadas por una transversal y sus propiedades. Además, se evaluará la aplicación de estos conceptos para calcular área y perímetro de figuras, volumen de cuerpos geométricos y anticipar los efectos que se producen al variar la medida de elementos geométricos (lados, ángulos, radio, etc.). Finalmente, se evaluará la capacidad de los estudiantes para resolver problemas geométricos utilizando razonamientos y

La prueba de Matemática que se aplicará en 2011 evaluará los siguientes ejes temáticos: Números: utilizar números enteros, decimales positivos, fracciones positivas, proporciones, porcentajes y potencias de base natural y exponente entero y operar con ellos. Aplicar los contenidos anteriormente señalados para resolver problemas numéricos, verificar proposiciones simples y emplear resultados para fundamentar opiniones y tomar decisiones. Álgebra: utilizar expresiones algebraicas no fraccionarias simples y operar con ellas; aplicar estos contenidos para representar diversas situaciones, relaciones y regularidades; resolver problemas por medio del planteamiento y la resolución de ecuaciones de primer grado con una incógnita. Geometría: calcular áreas de figuras planas, superficies y volúmenes de cuerpos geométricos, ángulos de polígonos y ángulos formados entre rectas paralelas cortadas por una transversal, y calcular la longitud de la circunferencia y el área del círculo; aplicar el teorema de Pitágoras y la capacidad de anticipar los efectos en el perímetro y el área de polígonos, al variar la medida de uno o más de sus elementos (lados, ángulos, radio, etc.); resolver problemas geométricos, utilizando procedimientos y estrategias adecuadas. Datos y azar: usar tablas y gráficos (por ejemplo, gráfico de líneas, circulares o de barras) y las medidas de tendencia central de una colección de datos; aplicar estos conocimientos para organizar, interpretar y elaborar nueva información, presentada en distintos formatos y contextos; resolver problemas en los cuales se deba elaborar información, a partir de datos


información representada en tablas y gráficos que habitualmente se utilizan en los medios de comunicación masiva. Además, se incluirá el cálculo de medidas de tendencia central y el recorrido de la variable para analizar la información. Como puede observarse, en cada una de las dimensiones se integra tanto conocimientos propios del subsector como habilidades referidas a la aplicación de procedimientos estandarizables y a la resolución de problemas. Por último, es importante destacar que en la prueba se incluirán preguntas referidas a situaciones de la vida real o cotidiana, así como a representaciones simbólicas (tales como expresiones algebraicas, figuras geométricas u otras).

manera general algunas relaciones, regularidades o propiedades, así como plantear y resolver ecuaciones de primer grado con una incógnita, para resolver problemas. d. Tratamiento de la información. En este eje se evaluará la capacidad del alumno o alumna para analizar información presentada en tablas y gráficos que habitualmente se utilizan en los medios de comunicación masiva. Además, se incluirá el cálculo de medidas de tendencia central para analizar la información. En cada uno de los ejes temáticos, se integrará la evaluación de conocimientos propios del subsector en 8º Básico y de habilidades referidas al manejo de conceptos, la aplicación de procedimientos estandarizables y resolución de problemas. Por último, es importante destacar que en la prueba se incluirán preguntas referidas tanto a situaciones de la vida cotidiana, laboral y científica, como a representaciones simbólicas, tales como expresiones algebraicas y figuras geométricas.

estrategias ordenadas y comunicables. c. Álgebra. En este eje se evaluará el conocimiento conceptual de las expresiones algebraicas no fraccionarias simples, además de la aplicación de estos conceptos para representar diversas situaciones, relaciones y regularidades. Finalmente, se evaluará la capacidad del alumno o alumna para resolver problemas por medio del planteamiento y resolución de ecuaciones de primer grado con una incógnita. d. Datos y Azar. En este eje se evaluará el conocimiento conceptual de tablas y gráficos (por ejemplo, gráfico de líneas, circulares o barras comparadas) y de las medidas de tendencia central de una colección de datos. Además, se evaluará la aplicación de estos conceptos para organizar y elaborar nueva información presente en contextos referidos a los medios de comunicación masiva. Por último, se evaluará la capacidad del alumno o alumna para resolver problemas en los cuales deba elaborar información, a partir de datos entregados en tablas o gráficos. Junto con lo anterior, en la prueba SIMCE 8º Básico 2009 se incluirán preguntas referidas a distintos tipos de contextos: personales, sociales, científicos y matemáticos.

entregados en tablas o gráficos. Junto con lo anterior, las preguntas podrán plantearse en contextos diversos, especialmente aquellas que requieran resolver problemas. Además, se evaluarán otros aspectos de la resolución de problemas; por ejemplo, seleccionar la información necesaria para resolverlos, analizar procedimientos de resolución y resultados posibles y verificar y justificar las respuestas.

* Para facilitar la comparación, la investigadora ha destacado en negrita los aspectos donde se encuentran las mayores diferencias.

La publicación de los marcos de evaluación facilitaría la tarea de confirmar si las diferencias observadas en la descripción del constructo y de los contenidos a evaluar en estos documentos efectivamente constituyen diferencias presentes en el proceso de construcción de las pruebas.


Análisis de las preguntas SIMCE Los actores involucrados en la construcción de preguntas mostraron dudas en relación con la calidad de estas, debido a las condiciones en que se elaboran los ítems (ver sección 6.5) y a la falta de claridad en los criterios de selección y revisión de preguntas por parte del MINEDUC. Así indica Daniela: “(…) cuando tú me propusiste ser tu entrevistada en este estudio, yo te dije por fin alguien me va a preguntar algo del SIMCE, porque creo que en cada uno de los procesos cuando existe esta preconcepción de que todo esto está correcto, de verdad que nosotros en algún minuto hemos sentido que somos como un proceso con el que hay que cumplir para que esto se valide, pero si no toman en consideración nuestras respuestas y lo que como equipo en alguna oportunidad nos ha tocado enfrentar y elaborar, ahí me parece que la discusión es nula y finalmente no tiene validez, o sea, hay ítems de pregunta cerrada que también se iban con distractores que no nos parecían, con cosas que tenían parcialidades, entonces, a pesar de que esté declarado que mide comprensión de lectura, si el ítem no está bien hecho o la pauta de corrección de pregunta abierta no está bien elaborada, ¿qué mide?, yo no puedo asegurar que esté midiendo lo que dice medir, para nada.” En su rol de supervisora de elaboración de preguntas, Alejandra coincide con esta perspectiva: “Tú llegas a construir... te hacen una pequeña (enfático), no diré que nada, pero pequeña capacitación y ya, anda a construir preguntas y tú gastas muchísimo tiempo haciendo, no sé cuántas serán ahora, pero, ponte tú, que diez por semana, vas a una reunión con cuatro o cinco personas más, que las miran en un data show y las leen, y las otras personas, que tienen la misma o menos capacidad o conocimiento del asunto que uno, te dicen “mira, yo creo que deberías quitarle acá”; la otra “yo creo que no, que deberías quitarle allá”, y es, entre todos (…) arreglando o bajando una pregunta, y muchas veces ha quedado en términos autoritarios.” Como parte de los problemas de construcción se menciona también la selección de textos por parte del MINEDUC, ya que algunos son excesivamente complejos para abordarlos por medio de una pregunta cerrada o en el nivel evaluado, mientras que otros son pobres en términos de la cantidad de preguntas que se pueden realizar a partir de ellos. Varios entrevistados, tanto involucrados en la construcción como miembros del equipo SIMCE, frente a estas dudas sobre la calidad de las preguntas, indican confiar en los procedimientos de validación psicométrica que se realizan en base a la prueba experimental. No obstante, como ya se indicó, este proceso también genera problemas de constructo y contenido (tendencia a la selección de preguntas más básicas y rutinarias, exclusión de contenidos completos de la prueba, inclusión de ejes que se comportan de forma diferente en un mismo constructo y una misma prueba). Para algunos entrevistados, la modificación de los equipos internos del SIMCE a partir del traspaso de la prueba a la Agencia de Calidad incrementa la baja claridad de los criterios del MINEDUC, puesto que ahora no hay equipos disciplinarios, sino que un único equipo multidisciplinario a cargo de todo el proceso de elaboración de preguntas. Para Guion (1977: 7), si bien el conocimiento de un psicólogo puede aportar desde su experticia en evaluación, resulta fundamental que las decisiones y juicios en relación con los dominios a evaluar estén a cargo de


expertos en dicho dominio, en este caso, en los contenidos y habilidades de una disciplina específica. A ello se agrega la salida masiva de los trabajadores más antiguos del SIMCE tras el cambio de administración en 2008, debido principalmente a desacuerdos con respecto al enfoque que se comenzó a dar a la prueba (más orientado a la rendición de cuentas) y al carácter impositivo de la nueva administración. Esta salida es negada por los actuales miembros de SIMCE en las entrevistas, pero es corroborada por todos los ex trabajadores del SIMCE que fueron entrevistados. Esta salida, indican algunos participantes, hace que la competencia y el criterio común que se hubiera podido generar con los años se pierdan, especialmente porque varios explican que se trata de competencias con las que no se cuenta al entrar a trabajar en la prueba y que se desarrollan y afinan con los años de práctica. Explica Jaime: “(…) era bien artesanal, *+ eran muy pocas personas y básicamente tú aprendías ahí como, no sé poh, como de maestro a discípulo, o del taller que le enseña a los nuevos aprendices, entonces vas aprendiendo y haciendo de todo (…).” De forma similar, Alicia relata: “(…) mi jefe venía recién llegado, así que no sabía mucho como era la cosa. Él es matemático, así nada que ver con sistemas de evaluación ni nada, entonces él también iba aprendiendo, entonces estábamos todos como aprendiendo ahí. Solo había una persona que tenía mucha experiencia, que era [nombre de miembro equipo SIMCE], que era una persona (...) que tenía muchos años en el SIMCE, o sea, conocía desde que se armó. Ella sabía como más. (…) ahí me dijeron “mira, mira a *nombre de miembro equipo SIMCE] un poquito como es la cosa y ahí... este es *nivel de la prueba asignado a la entrevistada+, ármalo”. Y ya (…), ahí me puse a leer, me entregaron unos libros (…).” Por otra parte, todos los correctores manifestaron problemas en el uso de las pautas de evaluación creadas por el SIMCE para la evaluación de las preguntas abiertas. La mayoría cuestiona la calidad de las pautas, y aquellos que han estado en roles de supervisión indican que en diferentes instancias y procesos han entregado retroalimentación al SIMCE en función de mejorar estos instrumentos. No obstante, todos los años se experimentan los mismos problemas y los cambios sugeridos no se implementan. Así indica Emilio, corrector de Matemática: “Entrevistadora: Y a ti, que te tocó trabajar varios años, los problemas que pudieron haber detectado como en las pautas, como ponerse de acuerdo para clasificar las cosas, ¿te parece que esas problemáticas se han ido corrigiendo de un año a otro o las problemáticas se repetían de un año a otro? Entrevistado: Uy, yo creo que era lo mismo todos los años. Entrevistadora: Las mismas pautas. Entrevistado: Eran distintas preguntas, pero los problemas... los tres años que trabajé fueron igual de problemáticos, no quiero decir que muy problemáticos... Entrevistadora: Pero los problemas se repetían, digamos. Entrevistado: Pero sí, siempre había problemas, ningún año fue mejor que otro en ese sentido.” De forma similar, Sandra, que trabajó tanto en validación de pautas como en supervisión de corrección y en corrección de preguntas abiertas de Lenguaje, indica:


“Esas pautas están... se supone que cada año se van modificando y todos los años también se revisan []. Pero en la práctica, en la práctica, cuando a uno le toca tanto corregir como supervisar se da cuenta que las observaciones que se llegan a concretar como cambios en las pautas son mínimas en realidad, lo que se cambia, en realidad, son los ejemplos para adecuarlos a la prueba que se va a revisar [] durante ese año.” Como supervisora de corrección, Alejandra observa el mismo fenómeno: “Entrevistada: Lo que sucede es que siempre te dan mucha información al contratarte, como que parece que está súper, hiperorganizado, y después resulta que estás viendo tú que está lleno de pifias en la medida en que la pautas de evaluación (…) se levantaban, se levantaban, a partir de la evidencia, una pauta para evaluar. Eh... la tienes que levantar tú mismo, se corrigen entre ellos y resulta que tú dices las falencias que tienen y, al año siguiente, después de haber hecho un tremendo informe, que sin el cual no te pagan, etc., haces el informe de todas las falencias y resulta que, al año siguiente, es exactamente lo mismo, no hicieron... Entrevistadora: Es la misma pauta. Entrevistada: La misma, idéntica, con todas las fallas. Entonces uno decía, pucha, la cantidad de recursos gastados ahí... es súper heavy.” Estos problemas provocan, según los entrevistados, que la corrección se realice en base a una versión acordada de la pauta creada in situ, versión que el equipo SIMCE no maneja. La percepción de los entrevistados con respecto a las preguntas se confirma en el análisis de los documentos. De ellos se logró rescatar 152 ejemplos de preguntas, 43 de los cuales presentaban algún tipo de problema (ver detalles en Tabla 8). El análisis de las preguntas se realizó como parte de la codificación inductiva de los documentos. En ese contexto, una vez que se establecieron los 373 códigos, se generó una categoría denominada “Preguntas” en la cual se clasificaron varios de los códigos, uno de los cuales correspondía a “problemas”. En este sub-código se agruparon las preguntas en diferentes categorías, según los problemas observados. A partir de ello, se observa que un 28% de las preguntas analizadas contiene alguno de los siguientes aspectos:

Clasificación dudosa de la pregunta en un Nivel de Logro específico.

La pregunta no tiene una respuesta correcta.

Inconsistencia entre la pregunta y la habilidad que se indica que evalúa.

Posible sesgo socioeconómico.

Inconsistencia entre la pregunta y el Objetivo Fundamental que se indica como evaluado.

Preguntas demasiado fáciles para el nivel.

Contenidos cuya naturaleza dificulta su evaluación por medio de pregunta cerrada.

Se evalúan conceptos del programa de estudios y no del currículum.

Faltan indicios textuales para llegar a la respuesta correcta.

Distractores muy fáciles; o un distractor muy lejano, que finalmente deja la pregunta con tres opciones; o distractores potencialmente correctos desde la perspectiva de un niño con mayores habilidades. Esta última impresión es corroborada por la profesora Laura, quien cree que los estudiantes más hábiles se equivocan en las preguntas más


fáciles porque piensan que debe haber algo más, que la respuesta no puede ser tan evidente.

Redacción confusa de un problema matemático, haciendo que los estudiantes puedan equivocarse por problemas de lectura y no de la disciplina.

Algunas de las explicaciones que se ofrecen para las respuestas erróneas no resultan del todo convincentes.

Tipo documento Total

preguntas LyC

Total preguntas MAT

Total preguntas analizadas

Total preguntas con problemas (por tipo documento)

Folletos orientaciones 2003 13 10 23 2004 6 8 14 2005 6 8 14 2006 1 0 1 2007 1 1 2 2008 1 1 2 2009 4 3 7 2010 (4º) 0 1 1 2010 (2ºM) 1 0 1 2011 (4º) 1 0 1 2011 (8º) 0 0 0 2012 (2º y 4º) 2 1 3 2012 (2ºM) 1 0 1 70 20

Niveles de logro 4º MAT 0 10 10 4º LECT 11 0 11 8º MAT 0 13 13 8º LECT 11 0 11 45 13 Modelo de prueba 2º Bás. LECT 24 0 24 5 Informe resultados 2004 (8º) 7 6 13 5 TOTALES 90 62 152 43

TABLA 8. Detalle de preguntas analizadas por subsector y tipo de documento

Para ilustrar estos problemas, se ofrecen a continuación algunos ejemplos. Un caso de incoherencia entre la pregunta y el objetivo fundamental que se declara evaluar se puede encontrar en el siguiente ejemplo, tomado del folleto de orientaciones 2003:

¿De que se trata el texto? A. De un hombre que se dedica a conversar con su huésped. B. De un hombre que por las noches se convierte en mono. C. De un hombre que tenía un cuerpo deformado. D. De un hombre que habla sobre un desdoblamiento. OBJETIVO FUNDAMENTAL “Descubrir y proponer sentidos en torno a los temas planteados en las obras literarias (...)”.

FIGURA 6. Ejemplo pregunta con incoherencia entre objetivo e ítem.


La pregunta anterior corresponde a la habilidad de síntesis, y no a la proposición de sentidos en relación con una obra literaria, ya que se pide indicar el tema del texto. De hecho, el objetivo indicado sería sumamente difícil de evaluar por medio de una pregunta de opción múltiple como la anterior. Si la pregunta se clasifica como representativa de esta habilidad en relación con el marco de especificaciones para la prueba, entonces habría, además, distancia entre el constructo declarado y el finalmente evaluado por las preguntas. En el siguiente ítem, tomado de los ejemplos dados en el documento de Niveles de Logro de 8º básico para Matemática, podría haber un caso de sesgo socioeconómico y regional:

Observa el siguiente grafico.

¿Cuantas horas de diferencia hubo entre las preemergencias de los anos 2003 y 2005? A. 54 B. 60 C. 63 D. 72

FIGURA 7. Ejemplo pregunta con posible sesgo socioeconómico.

La falta de una mayor contextualización podría hacer que aquellos niños cuyos padres tienen un automóvil y viven en Santiago, y por lo tanto necesitan saber cuándo hay preemergencia y alerta ambiental, tengan una ventaja por sobre los niños que viven en regiones sin contaminación o que viven en Santiago y no poseen un vehículo. Se indicó que el análisis psicométrico controla por sesgo urbano/rural, por lo que el aspecto regional podría subsanarse de esta manera. No obstante, no existe control por posible sesgo socioeconómico, lo que, dado los resultados de


SIMCE cada año, podría resultar fundamental. Jaime, en su descripción de los criterios de análisis psicométrico de la prueba, confirma esta preocupación: “Ahora, lo que no se estudia son diferencias por nivel socioeconómico, porque como en el SIMCE hay resultados muy distintos por nivel socioeconómico, nunca ha quedado claro si a veces hay sesgo socioeconómico, o sea si hay alumnos que... o sea, por ejemplo, si la prueba toca temas que son más de una clase social y no de otra, si eso mismo no hará que les vaya a unos mejor que a otros, o sea, eso no es muy claro.” Los siguientes ejemplos ilustran la clasificación dudosa de preguntas en determinados Niveles de Logro. Según el documento de los Niveles de Logro de Matemática para 4º básico, las tres preguntas siguientes corresponden a un nivel avanzado:


FIGURA 8. Ejemplos preguntas con clasificación dudosa en Niveles de Logro.

Pese a que se clasifican en un mismo nivel, se trata de tres preguntas de dificultad diversa. La segunda requiere más procesos mentales, además del trabajo con fuentes de información variadas. A su vez, el tipo de operación a realizar en la tercera es mucho más sencillo que el que se requiere en la primera, donde se exige la comprensión del concepto de fracción. No obstante, las tres aparecen clasificadas como ejemplos de nivel avanzado. Jaime alude a las posibles raíces de esta problemática: “Por un lado, con la gente que está en un rol más político, a veces ahí entra un poco el criterio de que hay cosas... a ver, cómo decir, como que tienes que decirlas de una manera no necesariamente tan realista o tan clara, por un lado, para que sea más entendible para todo público y, por otro lado, para que tenga el efecto político que ellos desean, es decir, tú no puedes decir que el país está muy mal. Por ejemplo, para ponerles nombres a los niveles de logro, tú tienes que decir que algo [] avanzado, intermedio, ahora dicen que es adecuado y elemental, pero en realidad... o sea, esos tecnicismos se los dejamos más bien a ellos; ahora, para hablar de aprendizajes, es un acuerdo re complejo, porque el Ministerio de Educación, a mi modo de ver, nunca ha tenido una discusión [] ni un mínimo consenso respecto a lo que es el aprendizaje y a cómo hablar de él.” Una posible razón, entonces, se relaciona con la necesidad de mostrar como avanzado un nivel que en realidad sería adecuado, o como intermedio un nivel que en realidad sería elemental, por motivos de índole política. Finalmente, el siguiente ejemplo del Folleto de Orientaciones 2003 ilustra el problema de la provisión de distractores muy básicos:


Observa y lee el siguiente texto para contestar las preguntas 5 a 8.

¿A quién se dirige el aviso publicitario? A. A universitarios que quieran ayudar a un grupo de familias. B. A albañiles expertos en la reparación de viviendas. C. A los centros de alumnos de Ingeniería y Bachillerato. D. A estudiantes que quieran viajar a la ciudad de Rancagua.

FIGURA 9. Ejemplo pregunta con distractores muy fáciles.

Se trata de distractores que resultan demasiado fáciles de descartar frente a la respuesta correcta. Esta tendencia en las preguntas de Lenguaje se puede corroborar en el Informe de Resultados 2004, donde excepcionalmente se proveyeron, junto con los ejemplos, los porcentajes nacionales de respuesta para cada opción. En este documento, todas las preguntas de la disciplina (con excepción de una) tienen un porcentaje muy alto de respuesta correcta, es decir, son muy fáciles de responder. Los distractores de estas preguntas son escasamente abordados, por lo que su calidad es dudosa. Si bien es importante que en una prueba haya preguntas de diverso grado de dificultad, incluyendo algunas más elementales, el mensaje que se transmite con las preguntas liberadas para Lenguaje es que todas ellas son de nivel básico. Las preguntas de Matemática en este documento, por el contrario, se comportan de manera más variada en términos de la forma en que sus respuestas y distractores son abordados, según las estadísticas presentadas. Es importante señalar que en el análisis de los ítems los problemas se encuentran con mayor frecuencia en el área de Lenguaje y Comunicación que en Matemática. Ello puede deberse a que


resulta más fácil formular preguntas cerradas en el contexto de una ciencia exacta; a la mayor experticia de los elaboradores (aun cuando esto no es corroborado por los profesionales del área en el equipo SIMCE); o simplemente a que la experticia de la investigadora en esta área es menor y, por lo tanto, su capacidad de detectar sutilezas en las preguntas de esta disciplina es menos alta que en Lenguaje. Considerando el ámbito de la cobertura, el único instrumento completo que ha sido liberado es el Modelo de Prueba de Lectura para 2º básico. Aquí nuevamente se encuentran problemas, especialmente la inconsistencia entre la pregunta y la habilidad que se indica que esta evalúa. Tal como se indicó en la sección sobre metodología, con el fin de corroborar la validez de los juicios de la investigadora, se pidió a cuatro especialistas del área que respondieran una breve encuesta en que se les pedía clasificar las preguntas que generaban dudas en una de las tres habilidades indicadas como parte del constructo a evaluar en el Manual del Profesor asociado al instrumento. Las preguntas 5, 9 y 16 de este instrumento se clasifican en el Manual como preguntas que requieren Relacionar e interpretar información. No obstante, las cuatro especialistas coinciden con la investigadora en indicar que las preguntas 5 y 16 evalúan la localización de información literal en el texto. La pregunta 9 no obtuvo el mismo consenso, con dos especialistas optando por la detección de información literal, al igual que la investigadora, mientras otra de ellas coincidió con la habilidad asignada por el SIMCE y la cuarta prefirió optar por la alternativa “Otros”, indicando que en realidad la pregunta evaluaba varias habilidades simultáneamente, siendo una de ellas la detección de información literal y otra la relación e interpretación de información. Por lo tanto, al menos dos preguntas, desde la perspectiva de la validación a través de la consulta a expertos (Anastasi y Urbina, 1997; Shawn et al., 2012), estarían mal clasificadas dentro del instrumento, generando así problemas de cobertura, de comparabilidad y de interpretación de los resultados. Las preguntas pueden consultarse en el Anexo 3, donde se adjunta la encuesta realizada. Como puede observarse a partir de este análisis, los problemas detectados por Eyzaguirre y Fontaine (1999) hace más de diez años en las pruebas SIMCE se reiteran en los instrumentos actuales (ver sección 3.4). Por lo tanto, en términos de constructo y contenido, se puede concluir que:

El constructo calidad no se define ni se provee evidencia para interpretar los resultados en esta dirección.

El constructo currículum vigente se reduce en realidad a una serie de habilidades, en su mayoría bastante básicas, de ciertas áreas del currículum.

Los cambios curriculares y de especificaciones de contenidos entre una aplicación y otra podrían generar problemas de comparabilidad de los resultados a lo largo del tiempo, pues se evaluaría un constructo y una distribución de contenidos diferente.

La falta de transparencia con respecto a los marcos de evaluación no favorece la comprensión cabal del constructo evaluado cada año y de su comparabilidad.

Existen dudas entre los actores del proceso acerca de la calidad de las preguntas y las pautas de evaluación, y de su capacidad de medir todas las habilidades y contenidos relevantes de cada disciplina.


Hay una confianza excesiva en el proceso de pilotaje y análisis psicométrico, pese a que este provoca la exclusión de contenidos completos, arroja que no existe correlación entre los resultados de los ejes de una misma prueba, y estimula la producción de ítems más básicos y rutinarios, a veces clasificados como si evaluaran habilidades y contenidos más complejos.

En términos de cobertura, la clasificación dudosa de ciertas preguntas en habilidades más complejas que las que en realidad se evalúan genera dudas en relación con la amplitud con que se abarca el currículum.

6.3. Criterio

El ámbito criterial de la validez es, al menos a simple vista, probablemente el de menor relevancia dentro del presente análisis. Esto porque, a diferencia de la PSU, el SIMCE no está diseñado con el fin de predecir un comportamiento ni se relaciona con toma de decisiones que requieran, por ejemplo, seleccionar estudiantes. El testimonio de algunos profesores, sin embargo, arroja ciertas dudas acerca de la validez del SIMCE en su dimensión criterial. Por ejemplo Rosa, aludiendo a unas pruebas externas que contrata la fundación de la cual depende el colegio donde ella trabaja, explica: “Son unas pruebas, la verdad es que son unas pruebas muy sencillas, porque nosotros también en un momento como fundación las diseñamos. Y es más, no es por falta de modestia, pero yo creo que los instrumentos que nosotros preparamos eran un poquito más exhaustivos. Ahora, mirando los instrumentos, son unas pruebas muy sencillas, pero sin embargo, las mediciones que, mmm, no han sido del todo buenas y de alguna manera han sido realmente predictivas en términos de los logros en la, en, en los SIMCE cuarto básico y sép, y octavo.” Evidencia similar ofrece el caso de Laura, quien reconoce su bajo dominio del área de Lenguaje, y en su discurso evidencia una perspectiva más bien tradicional de la disciplina, donde, por ejemplo, cree que en los niveles inferiores de enseñanza solamente se debe enseñar comprensión a nivel explícito. Sin embargo, declara haber sacado el mejor puntaje SIMCE de la comuna. Ambos casos son un primer indicio -muy preliminar por cierto-, desde las dimensiones concurrente y predictiva, de que el SIMCE podría estar evaluando un nivel extremadamente bajo de aprendizaje. Por lo tanto, se hace necesario generar evidencia que avale las generalizaciones y extrapolaciones (Crooks et al., 1996) que actualmente se realizan desde la muestra de tareas del SIMCE al dominio, por ejemplo, de la comprensión lectora. Hay profesores también que, como Leila, no observan mayor correlación entre los puntajes del SIMCE y su apreciación con respecto al aprendizaje de los estudiantes: “Cuando el año pasado tanto, tanta vanagloria, y que habíamos subido 30 puntos en matemática y aplausos van y vienen, y yo tomo a los niños en primero medio… y, ¿y dónde están los 30 puntos de más que tuvieron? O sea, no, no me, no hay una correlación [se ríe], no le veo correlación directa, fíjate, en el aprendizaje con el alumno. A lo mejor se preparó, lo prepararon bien para el SIMCE y después, llegaron en marzo en pañales otra vez.”


Nuevamente hay evidencia preliminar aquí de que, desde la dimensión predictiva, podría cuestionarse la validez de los resultados del SIMCE. Evidentemente, se trata en este estudio de una primera aproximación cualitativa de tipo exploratorio, que requeriría estudios más profundos del grado en que SIMCE se correlaciona con otras evaluaciones y predice comportamientos futuros. En base a lo anterior, se puede indicar que el SIMCE se beneficiaría con la realización de estudios de validez concurrente y predictiva, que confirmen que aquello que dice medir es lo que finalmente mide. Los documentos analizados aluden a la participación de Chile en una serie de evaluaciones internacionales (sitio SIMCE), sin embargo, la información que se entrega se relaciona solamente con las diferencias de administración y publicación de resultados de los instrumentos nacionales e internacionales. Esta participación presenta una oportunidad para realizar estudios de concurrencia entre los resultados de evaluaciones de constructos similares, lo que permitiría eventualmente mejorar la validez del SIMCE, ya sea por la confirmación de que mide el constructo adecuado o por la constatación de que dicho constructo necesita ajustarse. Finalmente, estudios como aquel al que alude Josefina, en que se examina la concurrencia entre las evaluaciones de los docentes y los puntajes del SIMCE, podrían ser beneficiosos para mejorar la validez de este proceso de evaluación. Por ahora, según la entrevistada, solamente se ha indicado que existe correlación. No obstante, esta podría estar determinada, por ejemplo, por la forma en que el SIMCE ha modelado las prácticas de los docentes. Se requiere continuar en la dirección de examinar los constructos y contenidos evaluados, la variedad de tareas involucradas y, desde allí, la coincidencia de SIMCE con el juicio profesional de los docentes, ya sea en el mismo instante en que se toma el SIMCE o desde su capacidad de predecir comportamiento futuro. 6.4. Consecuencias En diversos Folletos de Orientaciones se indica que “es aconsejable que los profesores familiaricen a sus alumnos con las preguntas de selección múltiple y de desarrollo” (Orientaciones 2003; ver también 2004, 2005, 2008 y 2012), con el fin de evitar que el día de la prueba se equivoquen por no estar acostumbrados al tipo de preguntas que predomina en la prueba. Podría haber un conflicto en términos de validez consecuencial si esta indicación modifica las prácticas de evaluación de los profesores, volviéndolas menos variadas y más apegadas al modelo del SIMCE. Por otra parte, parece existir conciencia en la unidad ministerial del SIMCE acerca de la posibilidad de reducir el currículum debido a la restricción que la utilización de ciertas preguntas y el formato de papel y lápiz impone sobre la cobertura del contenido. Esta preocupación se refleja en los documentos hasta el año 2006, pues en ellos se indica que, pese a estas restricciones, es importante que el docente emplee métodos alternativos de evaluación e incluya todas las habilidades relevantes del subsector. Desde 2007 se agrega un incentivo a esta advertencia, sugiriendo que el desarrollo de las habilidades no contempladas directamente en el SIMCE podría contribuir de forma indirecta a un buen desempeño en la prueba. En el actual sitio de la Agencia, dentro de la sección de Preguntas Frecuentes, se incluye directamente el tema de la preparación del SIMCE. Frente a la pregunta acerca de si se debe preparar esta prueba, se indica que “De acuerdo con los análisis realizados por el SIMCE” la


práctica a través de ensayos tipo SIMCE no tiene impacto en los resultados. La investigadora buscó el o los documentos correspondientes a los análisis mencionados, pero no fue posible encontrarlos. Luego se afirma que cubrir todo el currículum y tener altas expectativas acerca del aprendizaje de los estudiantes sí se relacionan con un buen puntaje. Para estos últimos rasgos se encuentra evidencia en el Informe de Resultados 2006. Finalmente se afirma: “En este sentido, prepararse para el SIMCE familiarizando a los estudiantes con el modo de responder y reforzando los objetivos que deben alcanzar, no es contradictorio con alcanzar aprendizajes de calidad. No existen normas que impidan a los establecimientos educacionales implementar actividades de preparación. Sin embargo, es importante que ellas no sobreexijan a los estudiantes, y que no le quiten tiempo a otras asignaturas. Sería adecuado además contar con la aprobación de los padres para realizar actividades especiales de preparación, sobre todo si interfieren con otras actividades escolares.” A nivel de documentos, entonces, se encuentran más bien orientaciones generales que apuntan a evitar determinadas consecuencias y a reforzar aquellas consecuencias que pudieran tener un impacto positivo. ¿Qué es lo que pasa en la práctica con la dimensión consecuencial de SIMCE? Las consecuencias de este proceso de evaluación son conocidas a nivel anecdótico, pero no existe evidencia al respecto ni un estudio sistemático acerca de la forma en que esta evaluación afecta la práctica diaria de las escuelas y los docentes. En ese sentido, las entrevistas aquí analizadas constituyen una primera exploración que incorpora la voz de los profesores en relación con los propósitos, las interpretaciones y los usos del SIMCE. Todos los profesores entrevistados reconocen en el SIMCE un instrumento que ejerce presión sobre los establecimientos, independiente de su dependencia administrativa. Los siguientes fragmentos son ilustrativos de la perspectiva sostenida por todos los docentes entrevistados acerca de la prueba: “(…) el SIMCE, es algo que nos, nos afecta bastante, especialmente a mí, porque yo hago séptimo y octavo, entonces, es una presión horrible en, encima, ¿ya?, que uno está preparando a los niños, tiene, uno tiene que estar pasando los contenidos, la materia, pero a la vez tiene que estar repasando lo anterior. Entonces, yo creo que es mucha presión y eso a mí me tiene muy, ya agobiada, ya llega a ser una, una cosa agobiante. Y, y que todo el colegio, porque después empieza a girar todo en torno al SIMCE, es tanta la presión que, que lo que te, lo único que te interesa son los contenidos, contenidos y eso desvirtúa un poco lo que es la, lo que debiera ser el enseñanza integral de los niños.” (Luisa, con experiencia, Historia y Geografía, Municipal) “Odiamos el SIMCE. En general, odiamos el SIMCE. Yo lo veo en los distintos contextos, creo que es una forma de estrés colectiva, [] una forma distante de entender [] el proceso educativo, eh… con argumentos tan cuantitativos, que tienden a, a distanciarse también de las propias prácticas, porque no podemos tener, eh, por decirte, el SIMCE nos marca de tal manera, que, eh, se transforma en parte integral del proyecto educativo y del proyecto pedagógico.” (Saúl, egresado reciente, Historia y Geografía y Jefe UTP, Particular Subvencionado) “(…) bueno, el particular pagado en que estoy ahora le da harta importancia al SIMCE y además que, por ejemplo, ellos tienen excelencia académica si mal no recuerdo; y el colegio de donde venía yo, ellos habían tenido por mucho tiempo excelencia académica y lo perdieron, entonces le dieron mucha importancia al SIMCE, *+ y este otro colegio, (…) yo no tengo esa presión, pero, por


ejemplo, lo que yo veía en el otro colegio era que había como una presión implícita en los profes, sobre todo en los de básica. Me parece mucho que ese año, ¿o este año?, bueno, no sé, se iba a tomar en Cuarto Básico. Y sobre todo la profe jefe de Cuarto Básico tuvo algunos problemas con respecto a eso que presionaba a los niños y todo el cuento. Entonces, un par de apoderados le reclamaron que presionaba a los niños. Entonces, yo sí veía al menos en el otro colegio veía como una presión fuerte en eso. En este no lo veo tanto, pero sí está el cuento del SIMCE, ronda en el establecimiento y no es una cosa de “ya, el SIMCE (…) no importa”.” (Raquel, egreso reciente, Filosofía, Particular Pagado) El SIMCE aparece en las entrevistas frecuentemente ligado a experiencias y emociones negativas, tales como odio, estrés, presión, colapso, nervios, agobio, desastre y aburrimiento (este último por parte de los estudiantes). Para la mayoría de los docentes entrevistados, la forma en que el SIMCE se realiza actualmente, provoca que la prueba se transforme en el norte de la educación y distorsiona sus prácticas evaluativas y/o pedagógicas. A los profesores de las áreas evaluadas se los motiva a realizar pruebas mayoritariamente de selección múltiple y centradas en contenidos, pues existe la creencia de que estas son las características centrales del SIMCE. En términos pedagógicos, los docentes se sienten presionados a priorizar “pasar la materia”, es decir, la cobertura curricular, por sobre la profundidad del aprendizaje, pues piensan que de ello depende tener un buen resultado SIMCE. En general, todos los profesores de las áreas evaluadas por el SIMCE, incluyendo las nuevas pruebas de Inglés y Educación Física, experimentan a causa de la prueba lo que Berryhill et al. (2009) denominan conflicto de rol. Esto es, los docentes tienen una concepción de la enseñanza y de la disciplina que enseñan, la cual es puesta en conflicto por el SIMCE, cuyas demandas son percibidas como en contradicción con sus principios profesionales. Fabiana, por ejemplo, relata: “Yo, tú sabes que yo hago Ciencias; gran parte de la enseñanza de las Ciencias y lo que a mí me hizo cambiar mi vida, de enseñar Ciencias, mi vida profesional, fue justamente hacer que los niños toquen, hagan cosas, entonces, antes de esto, yo hacía puras clases expositivas, mucho papel, mucha pizarra. Después de eso, todas mis clases partieron con indagación, con actividades de experimentación, dentro de la sala si tienes laboratorio, (…) con salir al patio, con ir a río [nombre del río] y de ahí partir la clase, era otro cuento. Hoy día, tengo que hacer… congeniar esa, que es la modalidad de enseñanza que a mí me gusta, que a mí me encanta y yo he comprobado que los niños son otros cuando trabajan así, pero he tenido que ir congeniando eso con la exigencia de ya viene SIMCE (…) o sea, ya no hago lo mismo… pero preparo guías, busco lecturas más entretenidas en que a ellos se les introduzca algún contenido, pero ya no es lo mismo, o sea, es un poco más de papel, un poco más la rapidez, “no escriban, aquí está escrito”, y analizamos, leemos, conversamos, pero no ocurre lo que debería ocurrir que es al revés, que el niño lo descubra, porque para que el niño descubra en Ciencias las cosas, requiere pasar un tiempo; y cuando al niño le hace clic, a algunos les hace clic, a otros les hace clic mañana y al otro le hizo antes de ayer, y es una cosa dinámica y variada. Llega un momento donde tú quieres homogeneizar todo. Una sabe conscientemente que eso no resulta, pero lo hace igual.” De forma similar, Luisa considera que el trabajo concreto con fuentes es fundamental en Historia, pero ha tenido que adaptarse a utilizar estos materiales en relación con preguntas de


selección múltiple. En Educación Física, Susana, quien tuvo acceso al piloto del SIMCE para esta área, considera: “Mira, yo estuve viendo la información sobre el SIMCE para Educación Física, eh, me parece muy bien que se realice un SIMCE, porque también nos evalúa a nosotros como profesores, pero hay un problema en, en este SIMCE, según mi punto de vista, eh, encuentro que están enfocados [] en el aspecto antiguo. (…) Si el niño encestó siete veces, está bien, entonces el niño realmente ahí es cuando aprendió, y ese es el problema que tiene este SIMCE, evalúa ese tipo de cosas, y lamentablemente en Educación Física nosotros tenemos muchos colegios dos horas a la semana, con suerte cuatro horas en algunos colegios, y hay otro colegios, que (esos) son los particulares, que tienen seis horas, más los talleres extra-programáticos, y tú con, en la realidad de todos los colegios, con dos horas o cuatro horas no tienes un gran avance. (…) Y el SIMCE se fija en eso. En el rendimiento. Y no puede ser. En cambio, si cambiaran yo creo la, la perspectiva, el ámbito de qué evalúa realmente, sería diferente. (…) hay que darle un sentido a la Educación Física y un sentido de, eh, principalmente de a los niños inculcarles la calidad de vida.” Frente a estos dilemas, algunos optan por soluciones híbridas, otros se resisten a adaptar sus prácticas a la lógica de la prueba, y otros se resignan sin dejar de experimentar culpa por sentir traicionada su ética. También se observan en algunos casos distorsiones en la auto-percepción profesional (dos profesoras, por ejemplo, demuestran orgullo indicando “me gané el SIMCE”) y confusiones en términos de qué es lo que demanda el SIMCE, el currículum y la escuela. Por su parte, los docentes de áreas no evaluadas por el SIMCE indican sentirse desplazados por lo que Néstor denomina “las asignaturas estrella: Lenguaje y Matemática”. Las formas en que esto se da en la práctica son diversas: se utilizan las horas de estas áreas para ensayos o reforzamiento SIMCE, se impulsa a los docentes a diseñar sus disciplinas como apoyo a las áreas evaluadas (principalmente Lenguaje), y los recursos humanos y materiales del establecimiento se concentran en los niveles y áreas que se evalúan en el SIMCE del año correspondiente. Junto con lo anterior, todos los entrevistados reconocen que existe en sus contextos de trabajo algún tipo de preparación SIMCE, ya sea través de ensayos y pruebas que ellos deben elaborar, o de ensayos periódicos por parte de sus sostenedores, o por medio del aumento de las horas de Lenguaje y Matemática, o la contratación de consultoras que implementan programas de apoyo especiales en aquellos niveles que se evalúan en el año correspondiente. Varios docentes aluden también a una serie de malas prácticas asociadas al SIMCE, tales como:

Dar gift cards a los profesores cuyos cursos obtuvieron buenos resultados.

Entregar bonos por puntaje SIMCE a los docentes del nivel correspondiente.

Prometer computadores a los niños si se obtiene un buen SIMCE.

Prometer un 7 a todo el curso si se sube cierta cantidad de puntaje.

Colocar notas por ensayos SIMCE e indicar a los estudiantes que el SIMCE también tendrá una nota asociada.

Sacar a los estudiantes destacados de sus clases normales para potenciarlos en las áreas a evaluar en SIMCE, pensando que ello subirá el puntaje del establecimiento.

Reemplazo de las horas de taller en las tardes por entrenamiento o reforzamiento SIMCE.


En el caso de los establecimientos particulares subvencionados, la persistencia de formas encubiertas de selección, pese a que esta está prohibida por ley.

Estas prácticas se consideran aquí como negativas, puesto que algunas de ellas privan a los estudiantes de ciertos ámbitos y formas de aprendizaje, mientras que otras ejercen presiones indebidas que pueden motivar distorsiones orientadas a mejorar los puntajes del SIMCE de manera artificial. La necesidad de prometer incentivos a los estudiantes revela, por otra parte, una posible desmotivación frente a la prueba, desmotivación confirmada por los siguientes testimonios: “Entrevistada: (…) Si los que se aterran *con el SIMCE+ son los adultos yo creo *se ríe+. Los adultos son los, los que lo ponen toda esa carga y se complican. Entrevistadora: Los niños en básica a lo mejor no, no, no lo pescan mucho, no les interesa mucho. Entrevistada: No cachan [se ríe]. No, preguntan si es con nota. Y punto, ese sería todo el tema. Entrevistadora: ¿Y afecta cuando les dicen que no es con nota? ¿O les dicen que es con nota igual? Entrevistada: Les dicen que es con nota. Hasta los ensayos. Lo que pasa, eso es otra cosa, que ellos funcionan solamente si hay nota. O sea, es como con nota formativa, como que no existe, de hecho uno ahí tienes como que mentir un poco. Es parte de la nota [se ríe].” (Catalina, egreso reciente, Inglés, Municipal) “¡Ah!, y otra cosa, para el SIMCE, que, no sé si será correcto o no, una vez empezamos, en el departamento dijimos, ya, ¿por qué no le ponemos nota al alumno? Si logran un, como son tres cursos por nivel, si suben, qué sé yo, sobre 15 puntos, sobre 15 puntos, les regalamos un 7 de arriba pa’ abajo. Entonces, porque así el alumno sabe, pero como es una prueba que no le significa nada a él, y fíjate que lo hemos hecho, entonces el profes, y los alumnos “profe, ¿nos va a poner el próximo año un 7?”, sí, lo vamos a poner, lo vamos a quedar en el departamento y lo hacemos, entonces es también un poco cumplirle al alumno lo que se, se les promete.” (Leila, con experiencia, Matemática, Municipal) [Aludiendo al uso de las horas de taller en las tardes para entrenamiento SIMCE+ “Encuentro que es cruel para los niños, porque la verdad es que ellos en la tarde debieran de tener talleres, como lo hacíamos antes. Yo hacía básquetbol siempre, me iba a la cancha de la Unidad Vecinal y ahí estábamos desde las dos y media o desde las dos de la tarde hasta las cuatro, y los chiquillos lo pasaban bien (…).[Ahora] Se aburren, algunos se escapan, no se quedan simplemente, no se quedan. En cambio, si tú tienes taller de música, de tejido, los chicos se quedan, porque eso les gustó y ellos se van inscribiendo de forma voluntaria en esos talleres, porque es una entretención.” (Óscar, egreso reciente, Lenguaje, Municipal) Por parte del MINEDUC, Jaime también manifiesta preocupación por una potencial desmotivación de los estudiantes al responder el SIMCE, especialmente en 8º básico y 2º medio. Indica que esta actitud podría afectar la validez de los resultados, ya que los estudiantes no estarían realizando su mejor esfuerzo al contestar la prueba. Explica: “(…) otro aspecto de la validez de la prueba es que a mí me consta, lo he visto cuando se toma la prueba, [] y hay mucha gente que lo comenta, que los alumnos de Octavo y Segundo Medio no tienen ninguna intención de responder la prueba, entonces para mí los resultados de Octavo y


Segundo Medio nunca los he tomado en cuenta porque sé que los alumnos ni siquiera quieren responder. Entonces, no sé, en algunos colegios tengo la impresión que es más sí y en otros no, entonces ese es un factor tremendo que no está estudiado y tampoco se va a estudiar (…). Es que no tienes ninguna motivación para responder si estás en Octavo o Segundo Medio, ¿por qué vas a responder?, de hecho hay alumnos que responden intencionadamente mal para perjudicar al colegio [] o sea, hay contextos en los cuales los cabros son más disciplinados y más dóciles y responden todo lo que les pongan porque tienen que hacerlo, pero en otros contextos tú no puedes ni hacer clases, entonces todo eso tampoco se investiga y no se va a investigar.” Con respecto a los propósitos de regular la demanda de la educación y de informar a los padres, algunos docentes indican que para los apoderados los resultados del SIMCE tienen poca importancia, lo que es consistente con los resultados de investigación de Taut et al. (2009). Saúl, por ejemplo, que también es jefe de UTP de su escuela, indica: “(…) nosotros tenemos un prestigio en la zona y que no roza por los resultados SIMCE, roza por el tipo de persona que nosotros estamos generando, por el trabajo con afecto, por el respaldo, [] por la contención [], eso es nuestro fuerte y, y siento que el equipo de gestión de la escuela y el perfil de la escuela (lo ha entendido así) (…).” Raquel, por su parte, indica que los padres y apoderados del establecimiento particular pagado en que trabaja se oponen al SIMCE. Explica al respecto: “(…) dicen incluso que hay como los apoderados (…) dicen “no, no al SIMCE, porque es un medio de evaluación que no sirve y funciona, evalúa otras cosas que no debiera evaluar”. Entonces, yo he sabido por profes, y esto es como una especie no sé si decirlo... infidencia, por profes, que han habido cursos que no han querido dar el SIMCE y que a veces no llegan o, si llegan, llegan poquitos. Entonces, igual por ahí (…) es como una resistencia, pero es más que nada por el contexto en el que está el colegio, no es... yo diría que a nivel de más de la plana directiva y los profesores sí se preocupan bastante del SIMCE, existe como una presión con respecto a eso, y más o menos parecida a lo que yo veía en el otro colegio.” Si bien las entrevistas a los docentes no preguntaban directamente por la perspectiva de apoderados y estudiantes, hay en estas respuestas indicios preliminares de desmotivación y de resistencia, ambos potenciales motivos de desconfianza con respecto a la validez de los resultados, además de aspectos importantes en términos de las distorsiones que la prueba podría estar generando en relación con el aprendizaje y las finalidades de la escuela. La resistencia de los docentes frente al SIMCE dista, por lo tanto, de la pasividad y la falta de auto-crítica a la que se alude en otras investigaciones (Sepúlveda, 2008) y se relaciona mucho más con una crítica fundamentada hacia un modelo de educación con el cual no están de acuerdo, un modelo en que las escuelas deben competir entre sí por la matrícula y hacerse publicidad a través de resultados, y que perciben se promueve a través del SIMCE. De hecho, ninguno de los docentes indica estar en contra del hecho de ser evaluados, sino en contra de la forma en que se presentan los resultados del SIMCE (publicación, rankings, competencia entre escuelas), la manera en que la prueba evalúa realidades extremadamente diferentes a través de un mecanismo homogeneizador, y la forma en que empobrece la experiencia educativa de los estudiantes por las presiones asociadas al instrumento. Los siguientes fragmentos ilustran esta perspectiva:


[Dando sus últimos comentarios con respecto a lo que esperaría de las políticas de evaluación a nivel nacional+ “(…) que no se hiciera mal uso, por ejemplo, eso del SIMCE, ya, pero no, que no sean como, eh, para poner en rankings a los colegios, eso, eso lo encuentro muy malo y la, y la PSU también. Los rankings ahí, entonces, todo el colegio está pendiente ay, ya, y que el ranking del tanto, buscando en qué número quedamos [se ríe].” (Leila, con experiencia, Matemática, Municipal) “(…) a final de cuentas, cuando estás en un colegio que supuestamente no le preocupa como este, finalmente aquí también se hacen ensayos SIMCE. (…) ¿Y sabes por qué?, porque tiene que ver con el mercado, porque si el mercado te cae de los 290 o de los, no sé, no anda cerca de los 300 puntos, entran menos alumnos acá. Entonces por eso te digo que tiene que ver, todo está cruzado por el mercado, la estandarización es un instrumento de mercado en Chile, y SIMCE, que intentó ser originalmente otra cosa, es un instrumento de mercado, o sea, no es un instrumento pedagógico. Sin embargo, los profesores lo consideramos pedagógico (…). Que exista el SIMCE es bueno, porque es un nivel, el problema es cómo se usa, pero todo el esfuerzo, tener una unidad completa del Ministerio de Educación dedicada a hacer SIMCE para que sea un ranking, para construir un ranking de mercado, me parece que es totalmente... y que esto que se publique es exclusivamente para el mercado. Si no se publicara, si se llevara en secreto esta evaluación como un instrumento evaluativo para que se promovieran cambios en esos colegios, sería fantástico, pero que se saque, se prohíba publicar SIMCE. Te aseguro que los que les va bien lo publicarían.” (Hernán, con experiencia, Historia y Geografía, Particular Pagado) La evidencia es contundente en el sentido de no reflejar sino solamente una única percepción positiva acerca del SIMCE entre los participantes: Ernesto indica que el efecto positivo que ve en el SIMCE es que obliga al profesor de bajo desempeño a exigirse más y así “por lo menos está haciendo algo”. Varios de los docentes con experiencia dentro de los entrevistados indican que antes que se comenzaran a publicar los resultados, la prueba se tomaba como una actividad más dentro de la escuela y no se le daba tanta importancia. Tanto profesores con experiencia como de egreso reciente observan, además, una sobrevaloración de este prueba. La evidencia anterior es confirmada por algunos del los entrevistados del proceso SIMCE, quienes poseen experiencias concretas al respecto, ya sea porque han trabajado como profesores, porque tienen hijos en escuelas donde estas prácticas se observan o porque han trabajado con profesores en desarrollo profesional docente o en investigaciones en curso que arrojan la misma evidencia. A partir de estas experiencias, las consecuencias que se confirman con respecto al SIMCE son: cursos que entrenan para construir preguntas tipo SIMCE, enseñanza para la prueba en aula, exclusión de estudiantes el día de la prueba para tener mejores resultados, reducción del currículum e incentivos económicos por buenos resultados. Además se agregan: estigmatización de cursos por malos resultados, distorsión del rol profesional docente, estudiantes que egresan de enseñanza media con un nivel muy básico de lectura y sin mayor manejo de escritura y comunicación oral. Además, desde el mismo SIMCE se reconoce, a partir de los procesos de supervisión de la prueba en terreno, la observación de prácticas como: potenciar exclusivamente a los mejores alumnos para subir el puntaje, inasistencia de estudiantes de bajo rendimiento el día de la prueba, entrenamiento para la prueba, premios a los estudiantes y los profesores por los puntajes y despido de profesores por mal rendimiento en la prueba.


Los participantes en roles de coordinación dentro del SIMCE coinciden en afirmar que piensan que estos casos son lo suficientemente aislados como para no afectar la validez de los resultados nacionales, aun cuando reconocen que podrían poner en riesgo la validez de los resultados a nivel de establecimiento. Junto con ello, afirman que el entrenamiento para la prueba no necesariamente afecta la validez de los resultados. 6.5. Aspectos de administración y procedimiento La primera parte del reporte de resultados (ver sección 5) se centró en las fases del proceso SIMCE en base a los documentos y las entrevistas. No obstante, se trata de una descripción general y teórica de cómo se conceptualiza el proceso. Junto con los problemas descritos en páginas previas, las entrevistas dan cuenta de algunos aspectos de administración y procedimiento que podrían también tener una incidencia en la validez de las interpretaciones realizadas con respecto a los resultados de la prueba. Tanto los participantes involucrados en los procesos de construcción de ítems como aquellos que participan en los de corrección de pregunta abierta indican, con excepción de Augusto, problemas relacionados con las condiciones en las que deben realizar su trabajo. Los supervisores de construcción y los constructores de ítems indican que no existe tiempo suficiente para elaborar preguntas de buena calidad, especialmente porque las personas que se contrata para este efecto son profesores de aula que deben combinar su horario laboral regular con esta actividad adicional. Roberta, como supervisora, indica que las reuniones de revisión y corrección de preguntas se realizan tras la jornada laboral normal y su duración no es suficiente para abordar el total de los ítems (se intenta revisar alrededor de 60 preguntas en dos o tres horas). Explica: “(…) en general, tratábamos de arreglar la mayoría, en verdad, funcionábamos... todos teníamos como la mejor disposición posible. (…) Se caían varias (…). Se caían varias preguntas; terminábamos como a las 10-11 de la noche; a veces teníamos que salir de la universidad e irnos a la casa de alguno a seguir trabajando. En verdad hubo veces en que yo llegué a la casa, a las 12 a mi casa porque no alcanzábamos a revisar todas las preguntas en ese rato. O sea, eran tiempos muy ideales al final. Y [],entonces yo ahí me las llevaba a mi casa las preguntas y las re-revisaba, las rearmaba, varias; había varias que ya no habíamos alcanzado a revisar, entonces yo las revisaba en mi casa y había unas que se caían, entonces yo trataba de hacer más preguntas para poder mandar la cantidad que se pedía al Ministerio... hasta el otro día.” En otra sección de la entrevista agrega que, dado que se trata de un trabajo adicional al empleo normal de los constructores, los ítems no siempre llegan en el día acordado, lo que hace que la supervisora tenga menos tiempo del esperado para su revisión y corrección. Los actores involucrados coinciden en señalar que esto perjudica la validez de la prueba, ya que se motiva la producción de preguntas de baja calidad; se promueve la elaboración formulista de preguntas en el sentido de saber cuáles son las que se aprueban sin mayores problemas (generalmente a aquellas que evalúan habilidades más básicas); los elaboradores no tienen la concentración necesaria para la revisión, por lo que a veces aceptan el rechazo de un ítem por simple cansancio y no porque les parezca inadecuado.


A ello se agrega que en algunos procesos se pagó a los constructores por ítem aprobado, lo que generaba presiones adicionales que tendían hacia la elaboración formulista y, por parte de Alejandra, a una actitud más flexible hacia la aceptación de preguntas que no eran del todo satisfactorias según su criterio, con el fin de no dejar a esa persona sin un pago asociado a su trabajo. Estas apreciaciones acerca de la calidad del trabajo de elaboración de ítems es confirmada por algunos de los profesionales del SIMCE entrevistados, tanto de Lenguaje como de Matemática, quienes indican que el aspecto más complejo de esta etapa del proceso es obtener buenas preguntas. En el ámbito de la corrección, un primer problema lo constituye la ya indicada ausencia de un período de marcha blanca declarada por los entrevistados en Matemática, que significa que no existe un tiempo inicial de calibración, sino que esta se va ajustando sobre la marcha. Ello implica que, al observarse alguna inconsistencia sostenida entre los correctores, el proceso de detiene y se establecen acuerdos acerca de cómo continuar. Mientras para Augusto este procedimiento no genera mayores objeciones, Emilio manifiesta cierta preocupación al respecto: “(…) cuando se detectaba que había muchos casos o muchas dudas sobre... o muy parecidos sobre lo mismo, paraba la corrección, y entrábamos a un proceso que se llama calibrar la pauta, y ahí llegábamos a acuerdos de cómo íbamos a interpretar lo que estaba pasando; entonces, pero... una vez que tomábamos la decisión de calibrar estos criterios, era porque ya había pasado un par de veces o muchas veces, entonces no sé qué habrá pasado con esas que pasaron y que yo las corregí de una forma y otro las corrigió de otra forma; o que ambos las corregimos de una forma y luego, en el proceso de calibración, acordamos que era de otra forma, entonces creo que puede haber una implicancia en los resultados, pero no sé las magnitudes de esta situación, no sé en qué magnitud afectaba los resultados.” Otro aspecto irregular del procedimiento de corrección es recordado por los dos actores involucrados en el proceso de corrección de Matemática que fueron entrevistados en este estudio. Tanto Augusto como Emilio recuerdan haber visto una respuesta en lo que a ambos les pareció una lengua indígena nacional. Se trató de un caso en que ambos experimentaron confusión con respecto a qué hacer. Mientras Augusto no recuerda qué sucedió finalmente con esa repuesta, Emilio indica: “(…) o sea, no se hizo ningún proceso de investigación de qué podía estar pasando ahí, sino que “no, eso es ilegible, malo”, y eso no me pareció. Eso me pasó a mí, y escuché casos parecidos un par de veces, y eso me pareció como extraño, por último lo hubiese dejado aparte y hubiese investigado un poquito (…).” Hay aquí un problema de procedimiento que podría, si se trata de una práctica generalizada, presentar problemas de validez consecuencial en términos de cómo se consideran las respuestas de los establecimientos con una mayor población indígena. Este problema contradice nuevamente el propósito de mejorar la equidad del sistema educativo a través del SIMCE. Un aspecto de tipo material que afecta también el proceso de corrección es la mala visibilidad de las respuestas escaneadas que algunos correctores de Lenguaje indican. Ello les impide en


ocasiones detectar claramente problemas ortográficos, lo que dificulta la corrección de este aspecto de la pauta y, por lo tanto, afecta la validez de este proceso. No obstante, el aspecto de procedimiento que emerge como el más problemático en los datos en relación con la validez de la corrección de estas preguntas, corresponde a las condiciones laborales de los participantes del proceso. Tanto supervisores como correctores lo consideran un trabajo intenso y a presión, en el cual se evalúa constantemente la productividad, aun cuando varían en su percepción acerca de lo adecuado del tiempo asignado a la tarea. Daniela lo describe de la siguiente manera: “O sea, es que yo estaba en distintas jornadas, a eso voy, en distintas jornadas de corrección. Y [] hay varias cosas que se suman ahí. Primero, la jornada muy larga con detenciones breves, muy breves para el trabajo, para el tipo de concentración que tienes que tener, porque tienes que ser sistemático, congruente, calibrado al corregir y porque, además, también el coordinador iba mirando productividad, que eso es importante, a mí me parece importante también que una persona no vaya muy lento, pero, como te digo, ya al final de la jornada la consistencia cae, y era algo que se veía, el agotamiento era alto; cuando tenías la jornada de la mañana, a las dos de la tarde ya estabas muerta de hambre, y no te permitían tener ni agua ni comida cerca tuyo.” En lo que todos coinciden (con excepción de Augusto, que en diversos aspectos es un caso atípico dentro de los datos1) es en el paulatino empeoramiento de las condiciones laborales en que esta actividad se realiza. El pago que se ofrece ha ido disminuyendo (Ximena indica que desde 2009 lo máximo que se paga es $30.000 por una jornada de 8 horas de trabajo), lo que ha alejado a aquellos correctores que tienen más años de experiencia y que podrían, por lo tanto, realizar el trabajo con mayor rapidez y con un criterio más uniforme. También se han ido acortando los intermedios en los que los correctores descansan tras estar dos horas corrigiendo en pantalla, lo que aumenta los niveles de cansancio, que para varios ya eran altos antes de la reciente precarización. Cuatro de los participantes involucrados en la corrección recuerdan especialmente un caso extremo en el cual la empresa INGEMAS los hizo trabajar en una suerte de búnker o bodega sin mayor ventilación, en medio de cajas almacenadas, con más de 30 grados de calor, sin autorización de beber agua durante el proceso y, en general, en condiciones que los participantes consideran inadecuadas. Rodolfo describe la experiencia en los siguientes términos: “Yo recuerdo una vez haber trabajado en la corrección en una bodega, pero te digo que era una bodega, no te estoy diciendo que era algo (parecido)... era una bodega y con todo lo inhóspito que era trabajar en una bodega; era una factoría, una factoría de estos países asiáticos donde hacen las prendas, así... y era eso. [En] Verano, claro, era muy incómodo trabajar, era muy... era un poco indigno [], porque en realidad las condiciones no eran las adecuadas. Bueno, yo te estoy hablando de algo que ocurría hace años atrás, (…) yo ya no corrijo, tengo entendido que ya no es tan así ya, pero trabajábamos en una bodega, o sea, habían cajas, las cajas con las pruebas y, claro, era asfixiante, no había... había muy poco aire, porque no estaba hecho para eso, en

1 Dentro de los entrevistados del proceso SIMCE, Augusto presentó un comportamiento atípico en el sentido de mostrarse muy temeroso de contestar las preguntas y, por ello, reacio a asumir una perspectiva crítica frente a la evaluación.


realidad, no es un lugar para que trabaje gente haciendo ese tipo de función; era un lugar para almacenar objetos, y trabajábamos ahí.” Los entrevistados lo reconocen como un caso excepcional y extremo, pero que ilustra el empeoramiento paulatino de las condiciones laborales del proceso de corrección. A ello hay que agregar lo que declara Sofía, quien indica que el contraste entre las sumas de dinero que la empresa gana en el proceso y las condiciones deplorables en las que trabajan los correctores constituye una de las razones por las que parte del equipo SIMCE renuncia a sus cargos a partir de 20102. Explica Sofía: “En esa licitación, por lo general, participa muy poca gente, y en los últimos años lo ha hecho una consultora (1:12:48-1:12:57 sin audio)… millonaria en términos de lo que sale el proceso a lo que se paga []; eso también fue un motivo de molestia al interior de los equipos disciplinarios porque finalmente es plata de todos los chilenos y es increíble los excedentes que resultan para los dueños de esta empresa licitar una corrección SIMCE, es increíble. (…) te cuento que esas personas yo las conocí como en una consultora de una universidad y después llegaban así en unos autos pero… (…) yo trabajé hasta diciembre de 2010. Ese año los equipos disciplinarios nos enteramos de cuánto ganaban y fue un comentario así pero increíble, hubo mucho enojo en los equipos disciplinarios porque sacamos incluso con Matemáticas la cuenta de cuánto sale, en función de lo que les pagan a los correctores, lo que podría salir el arriendo de los equipos, el arriendo del local, la luz, o sea, el excedente es increíble.” La calidad de la corrección se ve afectada por los niveles de cansancio y falta de concentración, lo que puede a su vez afectar la validez y confiabilidad de los resultados. La presión por la productividad y el agotamiento, además, motivan malas prácticas reconocidas por los correctores entrevistados, tales como acuerdos extra-oficiales durante los intermedios acerca de las pautas de corrección cuando la calibración entre los correctores es baja. Junto con ello, la voluntad de lucro excesivo de la empresa que ha ganado la licitación en los últimos años tampoco garantiza una buena calidad del proceso, puesto que se prioriza el bajo costo por sobre una instancia de corrección seria y en condiciones adecuadas. Finalmente, aquellos actores que han asumido roles de mediación o interacción directa con el SIMCE, como ya se ha reflejado en diferentes secciones del presente informe, se refieren a la actitud autoritaria e intransigente de algunos de los miembros de esta unidad ministerial, lo que impide el desarrollo adecuado de algunos procesos. Puede parecer un aspecto irrelevante en relación con la validez del proceso de evaluación, pero varios actores atribuyen a esta actitud, por ejemplo, la repetición constante de los mismos errores o problemas en las pautas de corrección de pregunta abierta, pese a recibir observaciones y sugerencias tanto de los supervisores de corrección como de los encargados de la validación de las pautas en base a las respuestas de los estudiantes. También se atribuye a esta actitud ciertos juicios acerca de las

2 Según resolución N° 0016 del 02.01.2012 del Ministerio de Educación disponible en el sitio de Mercado Público, donde se detalla la adjudicación de la corrección de la prueba experimental y censal por parte de INGEMAS en 2011, el monto total adjudicado asciende a $816.855.000. Si se calcula el monto diario indicado por Ximena de $30.000 por un mes, tiempo máximo de trabajo según los correctores entrevistados, y con los 50 correctores exigidos como mínimo en el proceso de adjudicación, la empresa solamente invierte $30.000.000 en el personal de corrección. Incluso si se multiplica este monto por todos los niveles y áreas evaluadas (7 áreas en dos niveles), el monto sigue lejos del total adjudicado. Este ejercicio de triangulación confirma la apreciación de la entrevistada.


preguntas que los elaboradores no consideraban correctos. Algunos de los miembros del SIMCE entrevistados, específicamente aquellos que presentaron su renuncia en 2010, reconocen esta actitud y observan que se acentúa tras el cambio de administración ocurrido en 2008. 6.6. Interpretación Dadas sus condiciones de construcción, aplicación y difusión, y sus consecuencias, cabe preguntarse qué es lo que se puede interpretar a partir de los puntajes del SIMCE y qué es lo que no se debiera interpretar a partir de sus resultados. Para algunos actores del SIMCE, las interpretaciones erróneas provienen del uso que los medios hacen de los resultados y no de la forma en que esta institución los entrega. Si bien el uso mediático existe, en base al análisis crítico realizado aquí acerca del constructo y el contenido evaluado por el SIMCE, se puede afirmar que los documentos oficiales publicados por el Ministerio de Educación también presentan múltiples interpretaciones que no son válidas. A continuación se ofrecen algunos ejemplos:

“(…) el puntaje de la generación que rindió SIMCE 4º básico representa el logro de ese grupo de estudiantes al finalizar el primer ciclo básico” (sitio Agencia).

“el resultado obtenido en las pruebas SIMCE refleja los aprendizajes alcanzados por los estudiantes durante todo el primer ciclo básico en las áreas evaluadas” (Orientaciones 2007, 2009, 2010).

“Cuando dos establecimientos con similares características socioeconómicas obtienen puntajes promedios significativamente distintos, es más probable que estas diferencias se deban a que una escuela ofrece una educación de mejor calidad que la otra .” (sitio SIMCE).

“(…) el rendimiento alcanzado en las pruebas SIMCE refleja los aprendizajes logrados por los estudiantes durante todo el primer ciclo básico en las áreas evaluadas: Lenguaje y Comunicación, Educación Matemática y Comprensión del Medio Natural, Social y Cultural.” (Orientaciones 2007)

Conclusiones de este tipo realizan extrapolaciones desde el contenido cubierto por la prueba a ciclos y áreas completas de aprendizaje, sin que se provea evidencia suficiente para realizar este salto inferencial. Los participantes asociados al SIMCE desde una mirada disciplinaria (correctores, constructores e integrantes de equipos disciplinarios dentro del SIMCE) tienden también a subrayar la necesidad de entender las limitaciones de la prueba y de comprender que lo que muestra es solamente una aproximación bastante básica y gruesa al aprendizaje de algunos aspectos de una disciplina. Algo similar sucede con la comparación de resultados de un año a otro a nivel de establecimiento. En algunos de los documentos analizados se indica que este tipo de análisis comparativo “entregará valiosa información para estimar cuál ha sido el progreso en el logro de los aprendizajes, tanto a nivel de los establecimientos como a nivel comunal, regional y nacional” (Orientaciones 2005), pues “puntajes significativamente superiores a los obtenidos en años anteriores y mejores que los de escuelas similares, son un indicio de que se están realizando avances significativos” (sitio Agencia). Sin embargo, Josefina, al igual que Taut et al. (2009), indica que de no existir una medida de valor agregado, resulta complejo afirmar que una variación significativa en el puntaje de un año a otro se deba a aspectos de la escuela, puesto que puede tratarse de factores especiales de la cohorte de estudiantes de un año específico.


Otras interpretaciones no válidas sobre las que advierten los entrevistados, y que coinciden con el presente análisis crítico, se indican a continuación. El puntaje SIMCE NO permite…

inferir algo sobre la calidad de la educación en general;

utilizar esta información como base para implementar cambios en la escuela;

concluir algo sobre el aprendizaje de los estudiantes en toda una disciplina o eje;

entender que son una verdad absoluta y el único indicador de calidad o éxito de una política;

quedarse con los puntajes sin analizar los aprendizajes asociados;

sindicar a un colegio como ‘bueno’ o ‘malo’;

establecer rankings entre establecimientos;

evaluar la calidad de un docente.

Por el contrario, lo que sí es válido inferir del SIMCE, de acuerdo a los entrevistados, es: El SIMCE permite…

tener una imagen muy general y gruesa de los aprendizajes de los estudiantes en algunos aspectos de algunas disciplinas del currículum escolar, siempre que haya una validación psicométrica adecuada y se evite el entrenamiento mecánico y a corto plazo de los aprendizajes;

contar con un indicador de calidad entre muchos otros posibles, siempre y cuando se tengan en cuenta sus limitaciones y se analice que lo que sus resultados significan en términos de aprendizaje;

concluir que el sistema educativo chileno es sumamente segregado socialmente;

comparar resultados con los de otros establecimientos de características similares;

observar tendencias de aprendizaje en el tiempo a nivel nacional, entendiendo el aprendizaje en el sentido limitado que se indica en el primer punto.

7. INTERPRETACIÓN Y DISCUSIÓN Un primer aspecto que se desprende del análisis anterior se relaciona con la necesidad de mayor transparencia en relación con el SIMCE y sus procedimientos. Ello porque se trata de un requerimiento de validez para cualquier sistema de evaluación estandarizada, si lo que se espera es generar lecturas correctas y mesuradas de los resultados, en las que se contemplen los límites de lo evaluado. Para Kane (2011), mientras más ambiciosas son las interpretaciones que se busca realizar a partir de una prueba estandarizada, más evidencia se debe proveer para las inferencias realizadas y el ejercicio de validación se vuelve más complejo. Por el contrario, las interpretaciones más sencillas son menos costosas y más fáciles de justificar, aunque ello también las hace menos interesantes y útiles. Si no se da información clara, coherente y concentrada en un documento general que funcione como manual, se corre el riesgo de motivar interpretaciones que se alejan del propósito inicial de la prueba o que no resultan válidas si se consideran las características del test. Una mayor transparencia y la publicación de los marcos de evaluación, práctica bastante extendida en las evaluaciones estandarizadas internacionales, contribuiría al mejoramiento de la validez del SIMCE al asegurar que las interpretaciones que se realicen de sus resultados sean las adecuadas.


Shaw et al. (2012: 171) indican que “el punto de partida lógico para cualquier ejercicio de validación es establecer los propósitos e interpretaciones intencionados” del test. Si la validez consiste en la adecuación de las interpretaciones que se realizan en base a un puntaje en relación con un propósito determinado (Cureton, 1951; Cronbach, 1984; Anastasi y Urbina, 1997; Kane, 2011; Newton, 2012; Hubley y Zumbo, 2011, entre otros), entonces un aspecto fundamental y básico antes de cualquier lectura de los resultados del SIMCE sería definir su propósito. La excesiva variedad de propósitos que cumple el SIMCE ha sido reconocida en la literatura y señalada como un aspecto problemático en términos de su validez (Bellei, 2002; Informe Comisión SIMCE, 2003; Taut et al., 2009). Los resultados de la presente investigación confirman esta preocupación, puesto que se detectan 17 propósitos diferentes para el sistema de evaluación en estudio. Cada uno de estos propósitos, con sus respectivas interpretaciones, requiere de un análisis de validez que provea evidencia suficiente para indicar de qué manera este instrumento logra cumplir con dichos propósitos y qué significado se puede o no se puede asignar a sus resultados. Por ejemplo, si el SIMCE tiene como uno de sus propósitos intencionados orientar y evaluar políticas educativas (que, de hecho, son en realidad dos propósitos), primero habría que explicitar los saltos inferenciales que nos llevan desde una prueba mayoritariamente de opción múltiple, que cubre solamente algunos aspectos de algunas áreas del currículum, a decir que un buen resultado en ella indica que una política ha sido efectiva. De forma similar, si otro propósito es monitorear la calidad de la educación, habría que explicar cómo se llega a concluir que la educación chilena ha mejorado o empeorado sobre la base de una prueba como la antes descrita, especialmente si el concepto de calidad no ha sido definido de manera explícita (ver sección 6.2). Por lo tanto, un segundo punto que se agrega al de transparencia, es la necesidad de una re-evaluación y redefinición de los propósitos del SIMCE si se espera que constituya una evaluación válida. Ello tanto porque cumple demasiados propósitos de manera simultánea, para cada uno de los cuales se requiere evidencia que justifique las interpretaciones de los resultados, como porque sus dos macro-propósitos (rendición de cuentas y uso pedagógico) parecen estar en contradicción o, al menos, compitiendo entre sí. Una vez resuelta la problemática de los propósitos, un tercer aspecto relevante lo constituye la necesidad de definir el constructo a evaluar. Para Anastasi (1986), el punto de partida en cualquier ejercicio de validación tiene que ver con la delimitación clara del constructo a evaluar. Según esta autora, una definición más precisa del constructo facilita la lectura de los resultados, pues se sabe con exactitud qué es lo evaluado por medio del test y, por lo tanto, qué es lo que los puntajes significan. Para diversos autores las etiquetas o denominaciones utilizadas en las evaluaciones estandarizadas son relevantes, pues son una primera aproximación a los límites de un constructo (ver por ejemplo Messick, 1980; Kane, 2008). En ese sentido, el primer rótulo que se nos ofrece en toda la documentación del SIMCE está dado por su nombre: mide la calidad de la educación en Chile. No obstante, pese a tratarse de un concepto amplio y posible de ser entendido de múltiples formas (conf. Harvey and Green, 1993; Aguerrondo, 1993), no se ofrece en ninguna parte una definición de este concepto ni de cómo el SIMCE estaría evaluándolo a través de sus preguntas. En base a los resultados de este estudio, habría que partir por modificar el nombre del SIMCE, una vez que su propósito y su constructo estén claros. Si la evaluación de los resultados de aprendizaje en torno al currículum vigente no se considera equivalente a calidad, entonces la prueba debe cambiar su denominación, con el fin de impedir


lecturas no válidas de sus resultados. No explicitar los reales límites del constructo y no modificar los rótulos correspondientes puede llevar a hacer equivaler calidad en la educación al desarrollo de las habilidades más básicas de algunos ámbitos de 4 áreas del currículum nacional, que es lo que en realidad logra evaluar el SIMCE. En términos de Crooks et al. (1996), se genera aquí un problema de extrapolación y generalización, dos de los ocho eslabones en la cadena de análisis de la validez de un proceso de evaluación. Al no explicarse con mayor detalle lo que finalmente se está evaluando, se puede cometer el error de extrapolar los resultados del SIMCE a la totalidad del currículum del área o del currículum nacional, generando interpretaciones erróneas, tal como se observa en varios Folletos de Orientaciones e Informes de Resultados (ver sección 6.6). Además de los límites del constructo, la comparabilidad de los resultados de la prueba de un año a otro se ve cuestionada por los datos, pues existen dudas acerca de la estabilidad del constructo en el tiempo. Para Dorans et al. (2010: 6): “Bajo reglas de ensamblaje apropiadas, las formas nuevas y antiguas son mediciones igualmente confiables del mismo constructo, que se construyen sobre el mismo conjunto de especificaciones estadísticas y de contenido bien detalladas.” Al modificarse el currículum, con algunos contenidos cambiando en su distribución en el tiempo, se pone en cuestión la estabilidad del constructo de un año a otro. Lo que se publica en los documentos acerca de los contenidos a evaluar da mayor sustento a estas preocupaciones, puesto que revela diferencias importantes entre una aplicación y otra en términos de aquello que se evalúa. En estos documentos se observan, además, imprecisiones conceptuales relacionadas con las dimensiones local y global del discurso, las cuales podrían estar revelando cierta disidencia teórica en relación al concepto de comprensión lectora entre una postura textual y discusiva, y una oracional y menos holística. Una tarea importante, por lo tanto, sería corroborar que los marcos de evaluación garantizan la equivalencia en constructo, contenido y, por lo tanto, la comparabilidad de las pruebas en términos de la teoría y la red nomológica que las sustenta (Messick, 1980). Para ello se requeriría contar con dichos marcos publicados.

De acuerdo con los resultados de la sección 6.4, las posibles consecuencias que el SIMCE teme y por las cuales indica que no publica los marcos de evaluación ya se observan en las aulas del país. En ese sentido, la publicación de los marcos de evaluación solamente haría explícita una reducción del currículum que, al parecer, ya ocurre. Disminuir el riesgo de la prueba para las escuelas y los docentes, en lugar de ocultar aquello que evalúa, sería quizás una forma más adecuada de disminuir su efecto negativo sobre la práctica pedagógica, mejorando la validez de este sistema de evaluación en el eslabón asociado a su impacto (Crooks et al., 1996). Por último, también en relación con el constructo y el contenido a evaluar, la presente investigación revela la existencia de una serie de preocupaciones por parte de los participantes en relación con la calidad de las preguntas y las pautas de corrección, percepción que se confirma en el análisis de los ítems recogidos en los documentos. Se encuentran, por ejemplo, preguntas que estarían mal clasificadas en relación con la habilidad que evalúan, generando problemas de cobertura, comparabilidad e interpretación de los resultados, análisis corroborado por medio de validación a través de la consulta a expertos (Anastasi y Urbina, 1997; Shawn et al., 2012). Otro ejemplo lo constituyen las clasificaciones cuestionables de las preguntas en


determinados niveles de logro, donde se muestra como avanzado un nivel que en realidad sería adecuado, o como intermedio un nivel que en realidad sería elemental, por motivos de índole política. Al haber problemas de clasificación, el uso pedagógico que todos los actores que aluden a los Niveles de Logro les atribuyen como intención fundamental, queda en cuestión, dado que las clasificaciones resultan dudosas y la retroalimentación al profesor es potencialmente inadecuada. Ello por ilustrar solamente algunos de los problemas detectados. En relación con las pautas, la mayoría de sus usuarios indican que son inadecuadas y que requieren adaptaciones, problemas que se reiteran de un año a otro pese a que SIMCE recibe retroalimentación de diversas fuentes al respecto. En este sentido, la corrección finalmente se realiza en base a una versión acordada de la pauta creada in situ, versión que el equipo SIMCE no conoce. La validez de la corrección y de las pautas como parte del constructo y el contenido a evaluar se ve así cuestionada, ya que el juicio experto de los profesionales que participan del proceso no se toma en cuenta y la pauta intencionada por el SIMCE no es finalmente la que se aplica. Como orientaciones acerca del camino a seguir, hay que mencionar que para los especialistas de Lenguaje el proceso del piloto de Escritura en 2008 fue ejemplar en todo sentido, y que para los expertos del área Matemática las preguntas abiertas son ejemplos de ítems que les gustaría ver en mayor cantidad dentro de la prueba. Estas constituyen sugerencias que proveen modelos y formas concretas de mejorar la calidad y representatividad de las preguntas, por lo que sería relevante tenerlas en cuenta. No obstante, varios entrevistados indican que ello encarecería el costo del SIMCE y de allí que se insista en el uso de preguntas cerradas. En el ámbito criterial, dadas las dudas que el análisis de constructo y contenido arroja en relación con qué es lo que realmente mide el SIMCE y hasta qué punto sus resultados pueden interpretarse en términos de los constructos intencionados, la realización de estudios de las dimensiones concurrente y predictiva podría ser provechosa para el mejoramiento de este sistema de evaluación. Solamente en los últimos años ha comenzado a aprovecharse esta información a través de estudios sobre TIMSS y PISA (ver por ejemplo MINEDUC, 2013). No obstante, las iniciativas recientes se concentran en el establecimiento de concordancias de puntaje entre ambas pruebas. Dada la poca claridad que los documentos públicos ofrecen acerca del constructo y el contenido evaluado por SIMCE, podría ser de mayor interés considerar en primer lugar las diferencias y similitudes de los constructos, la forma en que estos se cubren en cada prueba, el tipo de tareas a través de las cuales se los mide y desde allí obtener información acerca del grado de concordancia entre los resultados de SIMCE y otras pruebas, al menos en aquellos ámbitos en que el constructo sea similar. Para Koch y DeLuca (2012: 106), un estudio de validez requiere “explorar concepciones congruentes e incongruentes dentro y a través de los grupos de actores más relevantes del proceso en un esfuerzo por llegar a una descripción de la coherencia de la evaluación”, aspecto que para Haertel (1999) constituye una brecha de investigación en evaluación posible de cubrir a través de entrevistas y grupos focales con docentes y estudiantes. En la presente investigación se buscó dar un primer paso en esta dirección al incorporar la voz de los profesores y lo que ellos dicen sobre otros actores, como padres y estudiantes, en relación con el SIMCE. A diferencia de otros estudios, su testimonio se incorpora aquí ausente del sesgo confirmatorio (Haertel, 1999) en relación con la prueba, esto es, sin asumir la buena calidad de la evaluación como un hecho dado ni atribuir a los usuarios la responsabilidad por los malos usos y las interpretaciones erróneas.


Los resultados de las entrevistas a los docentes, confirmados por varios de los entrevistados de SIMCE, son especialmente relevantes para la dimensión consecuencial. Tanto al interior de cada disciplina como en el currículum de la escuela en general, el SIMCE provoca modificaciones en términos de la cobertura curricular, pues se prioriza aquello que se piensa que la prueba evalúa. Los docentes tienen una percepción crítica del SIMCE, ya que modifica sus prácticas, reduce el currículum que enseñan, motiva una forma de trabajo en aula que dista de lo que ellos consideran como adecuado en el aprendizaje de su área, homogeneíza aquello que es diverso y pone presiones indebidas a su trabajo a partir del uso de los resultados para generar rankings y motivar la competencia entre escuelas. En ese sentido, la demanda parece ser por una evaluación más representativa, más sensible a las diferencias, y sin publicación de resultados. Las consecuencias indicadas por los profesores aparecían ya en el Informe de la Comisión SIMCE (2003). Sin embargo, estas entrevistas realizadas en 2011 no parecen reflejar mayores cambios en la práctica. Es probable que las advertencias de los documentos analizados con respecto a la importancia de evaluar aquellas habilidades no contempladas en el SIMCE, o las indicaciones acerca de la necesidad de compararse solamente con establecimientos similares, no resulten suficientes para evitar las consecuencias indicadas en este informe. Resulta crucial profundizar en la dimensión consecuencial del SIMCE, ya que emerge como uno de los eslabones más débiles en términos de las amenazas a la validez de la prueba (Crooks et al., 1996). Se debe evaluar qué tan expandidas están las consecuencias indicadas, puesto que de ser prácticas extendidas, el propósito de mejorar la calidad y equidad de la educación no se estaría cumpliendo, y la prueba podría estar favoreciendo el propósito contrario.

Para Shepard (1997: 7), la enseñanza o entrenamiento para la prueba, presente en todos los contextos de los docentes entrevistados, no solamente amenaza la validez de la prueba en el sentido de que el uso de los resultados no tiene el efecto esperado en el aprendizaje, sino que refleja “también una falla en la conceptualización del test [que] lo hizo susceptible a ganancias de puntaje inválidas que convierten su uso en inválido”. En este sentido, es necesario examinar hasta qué punto la preparación mecánica para el SIMCE podría estar distorsionando el constructo que se busca evaluar, impidiendo la extrapolación de sus resultados a otras situaciones en que el mismo constructo se esté poniendo en práctica. Si el estudiante no muestra un desempeño similar en otras tareas ligadas al mismo constructo, entonces se podría dudar que este instrumento esté realmente evaluando los constructos declarados y los resultados podrían estar más ligados al entrenamiento que al aprendizaje significativo. Por último, hay aspectos de procedimiento que ponen en cuestión la validez de la interpretación de los resultados del SIMCE. Las condiciones laborales de constructores y correctores no garantizan un trabajo de buena calidad, ya que los participantes se ven sometidos a presiones que los obligan a crear preguntas formulistas y básicas, o a establecer acuerdos extra-oficiales para poder finalizar su trabajo de corrección a tiempo y pese al cansancio. La actitud intransigente y poco abierta a la crítica que algunos participantes observan en ciertos miembros de SIMCE no facilita tampoco el mejoramiento de la calidad de las preguntas y las pautas. De allí la importancia de considerar que la validez involucra todas las fases y aspectos del proceso de evaluación (Anastasi, 1986) y no únicamente la validación psicométrica de los ítems, como parece ser la creencia en el equipo de SIMCE, pese a que dicha validación también presenta problemas.


Para sintetizar la discusión aquí presentada, se indican en la siguiente tabla los ocho eslabones de la cadena de validez de Crooks et al. (1996) y los problemas y ventajas que el SIMCE presenta en relación con cada uno. ESLABÓN EN QUÉ CONSISTE VENTAJAS PROBLEMAS

Administración Circunstancias en que se obtienen los desempeños de los estudiantes.

Uniformidad en la aplicación.

Potencial desmotivación de los estudiantes. Entrenamiento para la prueba. Condiciones laborales de correctores.

Puntaje Proceso de asignación de puntajes.

Uso del TRI y estrategias de equating.

Acuerdos extra-oficiales entre correctores. Problemas en las pautas. Falta de marcha blanca en Matemática. Poca transparencia en relación con los procedimientos de asignación de puntaje. No se considera valor agregado. Influencia política en la determinación de puntajes de corte y Niveles de Logro.

Agregación Cuando los puntajes se agrupan para producir una sub-escala o un puntaje total.

Presentación de los puntajes en relación con establecimientos similares.

Consideración de ejes que se comportan diferente (geometría) como parte del mismo puntaje. Mucho peso dado a preguntas cerradas de opción múltiple en comparación con el peso de las preguntas abiertas.

Generalización Generalización de los resultados desde la prueba al dominio evaluado.

La consistencia entre las preguntas es probablemente alta, aunque esto podría deberse a que el tipo de pregunta y el espectro de habilidades evaluadas son muy similares.

Las tareas a las que se someten los estudiantes abarcan un espectro limitado, por lo que la posibilidad de generalizar al dominio evaluado es también limitada. Lo mismo sucede con las habilidades que la prueba finalmente evalúa. Problemas en la calidad y la clasificación de las preguntas, lo que dificulta su adecuada interpretación.

Extrapolación Extrapolación de los resultados desde el dominio evaluado al dominio objetivo (target domain).

Se puede hablar de cierta posibilidad de extrapolación, aunque desde una mirada muy limitada del dominio objetivo.

Los constructos a evaluar no se definen claramente, por lo que el ejercicio de extrapolación es complejo desde un principio. Las preguntas no logran representar todo el espectro relevante del constructo a considerar. Hay habilidades y contenidos relevantes que están sub-representados o ausentes. Dudas acerca de la concurrencia entre SIMCE y otras tareas que evalúan el mismo constructo.


Evaluación Es el paso desde los puntajes en el dominio objetivo hacia un juicio acerca del mérito del desempeño del estudiante.

Presentación de las interpretaciones de los resultados asociadas a grupos de características similares. Búsqueda de factores asociados al buen desempeño, con independencia del nivel socioeconómico.

Poca transparencia y claridad acerca de los propósitos, constructo, contenido, procedimiento e interpretaciones intencionadas del SIMCE, lo que provoca falta de comprensión por parte de los usuarios acerca de sus resultados e involucra el riesgo de juicios no válidos. Interpretaciones erróneas por parte de diversos actores en base al desconocimiento de los límites de la prueba. Falta de evidencia para los múltiples saltos inferenciales que se realizan en las interpretaciones de los resultados del SIMCE.

Decisión La toma de decisiones en base a los juicios.

Dado el constructo real en contraposición con el constructo declarado en SIMCE, no se observan mayores ventajas en este aspecto, ya que no hay base suficiente para ninguna de las decisiones que se toman en base a SIMCE.

No hay evidencia suficiente para ninguna de las decisiones que se basan en los resultados de SIMCE. Las decisiones que se toman no son coherentes con lo que la prueba logra evaluar y no siempre generan un impacto positivo en los actores. Los estándares están construidos sobre la base de clasificaciones inadecuadas (Niveles de Logro).

Impacto El impacto de la evaluación en el estudiante y los demás participantes del proceso. Si este eslabón es débil, entonces todo el proceso puede ser cuestionable.

Un profesor indicó que un impacto positivo es que los docentes de bajo desempeño al menos hacen algo.

Las consecuencias positivas esperadas a partir de la evaluación no se logran (mejoramiento de la calidad y equidad). Hay consecuencias negativas: reducción del currículum, presiones e incentivos indebidos, entrenamiento mecánico para la prueba, ansiedad en los docentes y las escuelas, entre otros.

TABLA 9. Resumen análisis de validez de SIMCE en base a modelo de los 8 eslabones de Crooks et al. (1996)

En conclusión, lo que se puede decir de los resultados del SIMCE es bastante limitado y las interpretaciones en base a ellos debieran ser más moderadas que las actuales. Por otro lado, sabiendo lo que se puede concluir de los resultados de SIMCE, habría que preguntarse si, dado todo el trabajo que implica, realmente se necesita esta información y, de ser así, para qué se la necesita; qué información adicional se requiere para tener una imagen más global del sistema educativo nacional y su calidad; qué acciones orientadas a consecuencias positivas para el sistema se deben tomar en base a estos datos; cómo se garantizan las condiciones indicadas para cada interpretación posible; y cómo se evita que las interpretaciones que no son válidas se generen, haciendo daño al sistema en el sentido de la dimensión ética asociada a la evaluación.


8. CONCLUSIONES En base al análisis realizado, entonces, se puede concluir que existen diversas razones para cuestionar la validez de las interpretaciones de los resultados del SIMCE. En primer lugar, esta evaluación presenta múltiples propósitos, algunos contradictorios entre sí. Además, su constructo no se define claramente, su comparabilidad de un año a otro es cuestionable, y su cobertura no está asegurada, de manera que no existe una base clara sobre la cual sustentar las interpretaciones que se realizan de los puntajes. A ello se agrega que el análisis de los ítems liberados genera dudas en relación con la relevancia, calidad y cobertura de las preguntas de la prueba. La evidencia obtenida con respecto al procedimiento de construcción y corrección de las preguntas, y la percepción de los docentes con respecto a lo que el SIMCE logra evaluar, refuerzan las conclusiones de dicho análisis. Hay múltiples consecuencias asociadas al SIMCE que también podrían incidir en su validez, entre ellas, distorsión de las prácticas pedagógicas y de evaluación, malas prácticas y presiones indebidas. Por lo tanto, se puede al menos decir que existe evidencia suficiente para plantear una duda razonable en relación con la validez del SIMCE. A partir de este análisis empírico, por lo tanto, se contribuye a la teoría sobre validez en evaluación. Por una parte, se evidencia la forma en que el concepto unitario de validez (Messick, 1980 y 1989) y el enfoque basado en argumentos (Kane, 2008) contribuyen a iluminar áreas de la calidad de un proceso de evaluación que una aproximación mecanisista, contenidista y centrada en el aspecto estadístico no lograría dilucidar. Junto con ello, los datos implican al menos una primera aproximación hacia la importancia de incluir la dimensión consecuencial en el análisis de la validez de un procedimiento de evaluación, puesto que la evidencia empírica arroja dudas razonables en este ámbito, que se interconecta posiblemente con la validez de constructo, si se comprueba que las distorsiones de la práctica son extendidas y sistemáticas. Corresponde ahora retornar a la definición del concepto de validez, en el sentido de examinar si existe evidencia suficiente para realizar determinadas interpretaciones en base al puntaje del SIMCE, en relación con cada uno de sus propósitos. En primer lugar, para el propósito del SIMCE de mejorar y monitorear o evaluar la calidad y equidad del sistema educativo chileno, no se provee evidencia suficiente que permita indicar que los resultados de la prueba puedan ser interpretados en esta dirección. No se define el constructo calidad ni se provee evidencia suficiente para los saltos inferenciales que se realizan desde el contenido real evaluado a este constructo más amplio. Además, las consecuencias que genera la prueba parecen indicar que sus efectos van más bien en contra de su propósito central, pues la calidad y equidad del sistema educativo chileno se ven dañadas por su impacto. En relación con los propósitos de evaluar, medir o diagnosticar resultados de aprendizaje, logro/cumplimiento de los OF-CMO o cuánto saben los alumnos, y de evaluar comprensión lectora o resolución de problemas, la evidencia obtenida indica que la interpretación debe estar limitada a ciertos contenidos y ciertas habilidades, especialmente las más básicas y rutinarias, de determinadas áreas del currículum. Hay evidencia, además, en contra de la calidad de las preguntas y las pautas de corrección, que podría también poner en cuestión esta interpretación limitada. No hay evidencia suficiente para inferir, desde las preguntas y contenidos evaluados actualmente, que un buen resultado en SIMCE signifique desarrollo de aprendizajes en un ciclo completo, un nivel completo, una disciplina completa o incluso el eje de una disciplina. Asimismo, interpretarlo como progreso en el aprendizaje, sobre todo a nivel de establecimiento,


requeriría, junto con solucionar los problemas de constructo y cobertura del contenido, incorporar medidas de valor agregado en las que se asegure que la variación en puntaje no está determinada por características de la cohorte, y estudiar qué tan extendidas están las prácticas que pudieran distorsionar estos resultados. Al existir evidencia en contra y no haber evidencia suficiente para interpretar mayor calidad o equidad ni resultados o progreso en el aprendizaje de los estudiantes chilenos, la base para muchos otros propósitos se cae, entre ellos: orientar y evaluar políticas educativas; apoyar la reflexión y las decisiones pedagógicas; informar a los padres y al sistema acerca del aprendizaje de los estudiantes; comparar establecimientos; establecer rankings; evaluar iniciativas del establecimiento; y probablemente todos los que se enunciaron en la sección correspondiente del presente informe. Si no se sabe qué se está evaluando, difícilmente se pueden tomar decisiones en base a esta información y menos evaluar si una escuela, una comuna, un gobierno o un país poseen aprendizajes o una educación de calidad. Si no hay un propósito claro, si los propósitos existentes se contraponen e incluso se anulan mutuamente, si los constructos a evaluar no se han delimitado claramente, si los constructos declarados no se encuentran adecuadamente representados en las pruebas, si el mismo análisis psicométrico excluye otros contenidos relevantes, si la calidad de las preguntas y pautas no está asegurada en su proceso de creación y de validación cualitativa, si la corrección de las preguntas se realiza en condiciones que no garantizan su calidad, y si las consecuencias que la prueba genera juegan en contra su propósito y constructo central, entonces la validación psicométrica no resulta en absoluto suficiente para afirmar, como se ha hecho hasta ahora, que el SIMCE es una evaluación metodológicamente sólida y que sus interpretaciones son válidas. Una afirmación como esta podría ser más bien parte de los que algunos autores denominan sesgo confirmatorio, el cual se genera cuando los desarrolladores de un test no se preocupan por buscar evidencia en contra de los propósitos e interpretaciones intencionados (Haertel, 1999; Kane, 2011). No obstante, hay que recordar la ya mencionada crítica en la literatura sobre validez hacia la forma en que la teoría sobre este concepto suele ser puesta en práctica por las agencias evaluadoras: mecánica, empiricista, poco holística y centrada en el aspecto estadístico (Haertel, 1999; Anastasi, 1986; Hubley y Zumbo, 2011; Koch y DeLuca, 2012). Al parecer, lo que se busca es evitar la complejidad de lo que un verdadero análisis de la validez de un proceso de evaluación implicaría, complejidad que, sin embargo, no justifica la ausencia de dicho análisis (Kane, 2010). Autores como Haertel (1999) sospechan que existe en la insistencia en el uso acrítico de los tests un fin más bien económico y político. En los modelos educativos neo-liberales, de hecho, la evaluación estandarizada se convierte en un medio para mantener un control a distancia, esto es, permite gobernar a través de los datos y los números (conf. Grek, 2009; Lawn and Ozga, 2009; Ozga, 2009). Lo mínimo que se puede y se debe hacer, entonces, si no se modifica este modelo, es al menos asegurar que dichos datos y números se construyan e interpreten de manera adecuada y justa para todos los actores del sistema. Si se aprovecha esta oportunidad, quizás el SIMCE podría convertirse en una evaluación pionera en este sentido.


9. RECOMENDACIONES

Uno de los propósitos del presente estudio es proveer recomendaciones y orientaciones para mejorar la validez del SIMCE como proceso de evaluación. Dada la evidencia obtenida, una primera medida tiene que ver con un replanteamiento radical del SIMCE, en el sentido de re-evaluar su sentido y dirección en el sistema educativo chileno. Los diferentes actores deberían establecer un diálogo en el cual se reflexione, primero, sobre la necesidad de SIMCE y sobre sus propósitos y, en base a ello, se propongan procedimientos y condiciones que sean coherentes con aquello que se defina que se quiere del SIMCE. En directa relación con lo anterior, es importante reconsiderar los propósitos del SIMCE, puesto que la multiplicidad actualmente existente no resulta sostenible técnicamente. Ello implica, por una parte, tomar decisiones en relación con los macro-propósitos de rendición de cuentas y uso pedagógico, priorizando aquel que se considere más relevante y menos perjudicial para el sistema. Además, sobre la base de esta decisión, se debe acotar la lista de 17 propósitos a una serie más realista y mejor justificada que la actual. Para una buena comprensión de los propósitos y de las interpretaciones derivadas del SIMCE, resulta fundamental definir, delimitar y transparentar para los usuarios el constructo y el contenido evaluado en las pruebas. Ello implica, por ejemplo, utilizar las etiquetas adecuadas a la hora de dar nombre a cada prueba y al sistema de evaluación en su totalidad, denominaciones que actualmente deben modificarse a la luz del análisis aquí realizado, considerando otras que reflejen de forma más adecuada el constructo a evaluar. También implica incluir definiciones teóricas de aquello que se evalúa, ejemplos de cómo se lo evalúa, y publicar los marcos de evaluación con la cobertura curricular implicada. Ello debiera acompañarse de un manual detallado que ayude a los usuarios a realizar interpretaciones mesuradas y adecuadas de los resultados, y a comprender las limitaciones a considerar en relación con los instrumentos. Junto con lo anterior, sería conveniente realizar un estudio curricular que asegure la comparabilidad de resultados en el tiempo en relación con un mismo constructo. Ello porque, dada la evidencia inicial de este estudio, existen razones para creer que las interpretaciones entregadas hasta ahora no serían válidas en términos de progresión de aprendizajes, puesto que el constructo evaluado se ha ido modificando. Si a ello se agrega que no se realizan medidas de valor agregado, la interpretación en términos de mejora en los aprendizajes a nivel de establecimiento resulta poco plausible. La calidad y cobertura de las preguntas debe mejorarse. Quizás sea importante incorporar preguntas más desafiantes y más preguntas abiertas cuyo costo podría asumirse si se convierte el SIMCE en una prueba muestral y no censal. Ello daría al sistema un mensaje más claro acerca del tipo de habilidades que se espera que los estudiantes desarrollen en relación con el currículum, y quizás modificaría las prácticas docentes en un sentido más positivo, aun cuando el mensaje debiera finalmente ser que el SIMCE no se debe preparar y que basta con trabajar en aquello que el marco curricular exige. Otro aspecto que permitiría mejorar la calidad de las preguntas se relaciona con una mayor apertura al juicio externo en términos de modificar enunciados y pautas si un grupo de expertos disciplinarios así lo sugiere. Quizás se insista en la estabilidad de las preguntas e instrumentos


por razones de comparabilidad y estandarización, motivos atendibles, pero que no debieran sobreponerse a los de la calidad del instrumento. En conexión con este aspecto, resulta fundamental generar más competencias teóricas y prácticas en evaluación en Chile en todos los niveles, para facilitar la elaboración de pruebas de buena calidad. Una sugerencia pertinente en este sentido sería aprovechar el conocimiento ya adquirido por las personas que llevan años trabajando en la prueba, con el fin de, por ejemplo, crear con ellas un organismo dependiente del SIMCE donde se elaboren preguntas, pautas y se corrijan las respuestas. Podría motivarse la especialización de estas personas en evaluación, así como el aprendizaje mutuo. Ello podría contribuir, simultáneamente, a asegurar las buenas condiciones laborales y, por lo tanto, la validez del proceso de evaluación en relación con su construcción y corrección. Tener este organismo especializado, con personas dedicadas de forma exclusiva al tema de la elaboración de pruebas, sería una manera más eficiente de invertir los recursos en comparación con la actual, que permite, por ejemplo, el lucro excesivo por parte de algunas empresas externas. Resulta crucial investigar con mayor detención y amplitud las consecuencias generadas por el SIMCE en su forma actual, puesto que no se sabe hasta qué punto la distorsión de las prácticas pedagógicas y evaluativas se ha generalizado, al igual que las malas prácticas que podrían distorsionar los resultados de los establecimientos. Si se trata de consecuencias extendidas, entonces se deben tomar medidas acordes, como por ejemplo, bajar el impacto de los resultados y prohibir su publicación. De lo contrario, puede ser que lo que finalmente se evalúe sea el grado de entrenamiento para la prueba en un establecimiento, lo que se aleja considerablemente de los constructos intencionados por el SIMCE. Junto con ello, el sistema de evaluación completo entraría en contradicción, puesto que en lugar de evaluar y mejorar la calidad de la educación, estaría realizando todo lo contrario. Finalmente, resulta claro que los miembros del equipo SIMCE necesitan asumir un concepto más amplio de validez, que vaya más allá de los procedimientos de validación de contenido que predominaron en la primera mitad del siglo XX. La discusión teórica en torno al concepto ha avanzado mucho en las últimas décadas, y la literatura reciente ofrece métodos concretos para realizar estudios de validez basados en una concepción más actualizada del término. La validez no puede limitarse a los procesos de consulta a expertos y de análisis psicométrico, en los cuales parece existir una confianza ciega, sino que debe permear todo el proceso, desde la definición de los propósitos y constructos hasta la publicación de resultados y su uso. El presente estudio, de hecho, revela el riesgo de este exceso de confianza, puesto que queda en evidencia la debilidad del SIMCE en gran parte de los eslabones de la cadena de validez de Crooks et al. (1996). Dada la evidencia que arroja la presente investigación, se abren dos caminos a futuro para el SIMCE. En el entendido que se sigan las recomendaciones anteriormente indicadas, una posibilidad es convertir el SIMCE en una evaluación menos ambiciosa o más razonable en sus propósitos, de tipo muestral, de bajas consecuencias, con medidas de valor agregado, que controle quizás por grupo socioeconómico para observar las diferencias de aprendizaje no debidas a este factor, y con reporte directo a los establecimientos. La ‘foto’ que se podría obtener con respecto a los aprendizajes del currículum podría ser mucho más exacta y la interpretación de sus resultados mucho más válida. El segundo camino es más complejo. Si se opta por continuar con la forma actual de SIMCE, se requiere proveer evidencia para cada uno de los saltos inferenciales que actualmente se realizan


en base a sus resultados, tomando en cuenta cada uno de sus 17 propósitos. Dados los resultados presentados en este informe, dicha tarea parece inviable. Insistir en esta vía solamente estaría confirmando la siguiente apreciación de Jaime acerca de las razones por las que no se publica mucha información sobre SIMCE: “(…) este objeto de poder, que es tan preciado y que es tan delicado, porque va a permitir estructurar todas las políticas públicas, controlar a los colegios, etc., sobre él se van a fundar las promesas de mejoramiento de la calidad de la educación; ese instrumento es bien discutible, y si se hace público, es muy criticable. Entonces, de ahí en adelante, empieza una época en la cual como que la emoción como fundante del trabajo del SIMCE es el miedo, en el sentido de que mientras menos gente lo conozca, mejor; porque cualquiera que lo conoce va a tener un punto de vista, entonces a lo mejor ya no va a decir que las preguntas están malas, pero va a decir que discrepa, y si discrepa, ya no podemos decir... darle tanta importancia a este instrumento.” Sea cual sea la opción que se tome a futuro, el SIMCE no debería continuar en sus condiciones actuales. De ser así, sus usuarios tienen el derecho de desestimar las interpretaciones pasadas y futuras de los resultados de esta evaluación, y continuar realizando lo que ellos consideren ética y pedagógicamente correcto.


REFERENCIAS Y BIBLIOGRAFÍA Aguerrondo, I. (1993). La calidad de la educación: ejes para su definición y evaluación. La educación, 116, 561-578. Anastasi, A. (1986). Evolving concepts of test validation. Annual Review of Psychology, 37, 1-15. Anastasi, A y Urbina, S. (1997). Psychological testing. Nueva York: Prentice-Hall. Bellei, C. (2002). Apuntes para debatir el aporte del SIMCE al mejoramiento de la educación chilena. Documento no publicado. Berryhill, J.; Linney, J.A.; Fromewick, J. (2009). The Effects of Education Accountability on Teachers: Are Policies Too-Stress Provoking for Their Own Good? International Journal of Education Policy and Leadership, 4(5), 1-14. Campbell, D.T. (1960). Recommendations for APA test standards regarding construct, trait or discriminant validity. American Psychologist, 15, 546-553. Campbell, D.T. y Fiske, D.W. (1959). Convergent and discriminant validation by the multitrait-multimethod matrix. Psychological Bulletin, 56, 81-105. CIDE (2007). Informe Final “Estudio Exploratorio Entrega de Resultados SIMCE con Niveles de Logro a Establecimientos Educacionales Durante el año 2007”. Santiago: Publicación CIDE, Facultad de Educación Universidad Alberto Hurtado. CIDE (2008a). Informe cualitativo estudio “Evaluación de la jornada de análisis de resultados SIMCE 2007”. Santiago: Publicación CIDE, Facultad de Educación Universidad Alberto Hurtado. CIDE (2008b). Informe cuantitativo estudio “Evaluación de la jornada de análisis de resultados SIMCE 2007”. Santiago: Publicación CIDE, Facultad de Educación Universidad Alberto Hurtado. CIDE (2009). Resumen ejecutivo estudio “Evaluación de la jornada de análisis de resultados SIMCE 2007”. Santiago: Publicación CIDE, Facultad de Educación Universidad Alberto Hurtado. Comisión SIMCE (2003). Evaluación de Aprendizajes para una Educación de Calidad. Santiago: MINEDUC. Crooks, T. J., Kane, M. T., & Cohen, A. S. (1996). Threats to the valid use of assessments. Assessment in Education: Principles, Policy & Practice, 3, 265-286. Cronbach, L. J., & Meehl, P. E. (1955). Construct validity in psychological tests. Psychological Bulletin, 52, 281-302. Cronbach, L. J. (1984). Essentials of psychological testing (4th ed.). New York: Harper & Row. Cureton, E. E. (1951). “Validity”. En: E. F. Lindquist (ed.). Educational measurement. Washington, DC: American Council on Education, 621-694.


Dorans, N.; Moses, T.; Eignor, D. (2010). Principles and Practices of Test Score Equating. Educational Testing Service. Eyzaguirre, B. y Fontaine, L. (1999). ¿Qué mide realmente el SIMCE? Estudios Públicos, 75. García-Huidobro, J.E. (2002). Usos y abusos del Simce. Santiago: Publicación CIDE, Facultad de Educación Universidad Alberto Hurtado. Gipps, C. (2004). Beyond testing (towards a theory of educational assessment). London: Routledge/Falmer. Grek, S. (2009). Governing by numbers: the PISA 'effect' in Europe. Journal of Education Policy, 24(1), 23-37. Guion, R. (1977). Content validity: The source of my discontent. Applied Psychological Measurement, 1, 1-10. Haertel, E. H. (1999). Validity arguments for high-stakes testing: In search of the evidence. Educational Measurement: Issues and Practice, 18(4), 5-9. Harvey, L. y Green, D. (1993). Defining Quality. Assessment & Evaluation in Higher Education, 18(1), 9-34. Himmel, Erika (1992). “Comentario a “Análisis del SIMCE y sugerencias para mejorar su impacto en la calidad”, de E. Schiefelbein”. En: La realidad en cifras. Santiago: FLACSO, pp. 281-289. Hubley, A y Zumbo, B. (2011). Validity and the Consequences of Test Interpretation and Use. Social Indicators Research, 103(2), 219-230. Kane, M. (2008). Terminology, Emphasis, and Utility in Validation. Educational Researcher, 37(2), 76-82. Kane, M. (2010). Validity and fairness. Language Testing, 27(2), 177-182. Kane, M. (2011). Validating score interpretations: Messick Lecture, Language Testing Research Colloquium, Cambridge, April 2010. Language Testing, 29(1), 3-17. Koch, M.J. y DeLuca, C. (2012). Rethinking validation in complex high-stakes assessment contexts. Assessment in Education: Principles, Policy & Practice, 19(1), 99-116. Lawn, M. y Ozga, J. (2009). The sleep of reason breeds monsters: data and education governance in England. Edinburgh: Centre for Educational Sociology. Linn, R. L. (1997). Evaluating the validity of assessments: The consequences of use. Educational Measurement: Issues and Practice, 16(2), 14-16. Lissitz, R. W., & Samuelsen, K. (2007). A suggested change in terminology and emphasis regarding validity and education. Educational Researcher, 36, 437-448.


Manzi, J; San Martín, E.; Van Bellegem, S. (2010). School system evaluation by value-added analysis under endogeneity. Belgium: Centre for Operations Research and Econometrics. Maureira, F. y equipo Red Propone (2009). El SIMCE y su efecto en la inequidad educativa. Santiago: Publicación CIDE, Facultad de Educación Universidad Alberto Hurtado. Meckes, L. y Carrasco, R. (2010). Two decades of SIMCE: an overview of the National Assessment System in Chile. Assessment in Education: Principles, Policy & Practice. 17 (2), 233- 248. Mehrens, W. A. (1997). The consequences of consequential validity. Educational Measurement: Issues and Practice, 16(2), 16-18. Messick, S. (1980). Test validity and the ethics of assessment. American Psychologist, 35, 1012- 1027. Messick, S. (1989). “Validity”. En: R. L. Linn (ed.). Educational Measurement (3rd ed.). New York: American Council on Education/Macmillan, 13-103. MINEDUC (2013). “Relacion TIMSS -SIMCE: Calidad psicometrica e invarianza de puntajes y parámetros”. Apuntes sobre la Calidad de la Educación, Nº 6. Santiago: MINEDUC. Moss, P. A. (2007). Reconstructing validity. Educational Researcher, 36(8), 470-476. Moss, P. A., Girard, B. J., & Haniford, L. C. (2006). Validity in educational assessment. Review of Research in Education, 30, 109-162.

Mullis, V.S.; Martin, M.O.; Ruddock, G.J.; O'Sullivan, C.Y.; Preuschoff. C. (2009a). TIMSS 2011 Assessment Frameworks. TIMSS & PIRLS International Study Center Lynch School of Education, Boston College. En: http://timssandpirls.bc.edu/timss2011/downloads/TIMSS2011_Frameworks.pdf Mullis, V.S.; Martin, M.O.; Kennedy, A.M.; Trong, K.L.; Sainsbury, M. (2009b). PIRLS 2011 Assessment Framework. TIMSS & PIRLS International Study Center Lynch School of Education, Boston College. En: http://timssandpirls.bc.edu/pirls2011/downloads/PIRLS2011_Framework.pdf Newton, P. (2013). “Does it matter what ‘validity’ means?” Presentación en el Departamento de Educación de la Universidad de Oxford. 4 de febrero de 2013. Newton, P. (2012). Clarifying the Consensus Definition of Validity. Measurement: Interdisciplinary Research and Perspectives, 10(1-2), 1-29. OECD (2009a). PISA 2009 Assessment Framework – Key Competencies in Reading, Mathematics and Science. París: OECD. En: http://www.oecd.org/pisa/pisaproducts/44455820.pdf

http://timssandpirls.bc.edu/timss2011/downloads/TIMSS2011_Frameworks.pdf

http://timssandpirls.bc.edu/pirls2011/downloads/PIRLS2011_Framework.pdf

http://www.oecd.org/pisa/pisaproducts/44455820.pdf


OECD (2009). PISA Data Analysis Manual. París: OECD. En: http://browse.oecdbookshop.org/oecd/pdfs/free/9809031e.pdf Ortiz, I. (2010). 25 años del SIMCE. Santiago: Publicación CIDE, Facultad de Educación Universidad Alberto Hurtado. Ozga, J. (2009). Governing education through data in England: from regulation to self-evaluation. Journal of Education Policy, 24(2), 149-162. Popham, J. (1997). Consequential validity: Right concern–wrong concept. Educational Measurement: Issues and Practice, 16(2), 9-13.

Román, M. (1999). Usos Alternativos del SIMCE: Padres, Directores y Docentes. Santiago: Publicación CIDE, Facultad de Educación Universidad Alberto Hurtado. San Martín, E.; del Pino, G.; De Boeck, P. (2006). IRT Models for Ability-Based Guessing. Applied Psychological Measurement. 30 (3), 183-203. Savage, M. y Williams, K. (2008). “Elites: remembered in capitalism and forgotten by social sciences”. En: Savage, M. y Williams, K. (eds.). Remembering elites. Sociological Review Monograph. Oxford: Wiley-Blackwell. Shaw, S.; Crisp, V.; Johnson, N. (2012). A framework for evidencing assessment validity in large-scale, high-stakes international examinations. Assessment in Education: Principles, Policy and Practice, 19(2), 159-176. Schiefelbein, E. (1998). “Análisis del SIMCE y sugerencias para mejorar su impacto en la calidad”. En: La realidad en cifras. Santiago: FLACSO, pp. 241-280. Sepúlveda, L. (2008). El aporte del SIMCE a la discusión al interior de la escuela. Santiago: Publicación CIDE, Facultad de Educación Universidad Alberto Hurtado. Shepard, L. (1992). Will national tests improve student learning?, CSE Technical report 342, CRESST, University of Colorado, Boulder. Shepard, L. A. (1997). The centrality of test use and consequences for test validity. Educational Measurement: Issues and Practice, 16(2), 5-8. Sireci, S. (2007). On Validity Theory and Test Validation. Educational Researcher, 36(8), 477-481. Srivastava, P. y Hopwood, N. (2009). A practical iterative framework for qualitative data analysis. International Journal of Qualitative Methods, 8(1), 76-84. Taut, S.; Cortés, F.; Sebastian, C.; Preiss, D. (2009). Evaluating school and parent reports of the national student achievement testing system (SIMCE) in Chile: Access, comprehension, and use. Evaluation and Program Planning, 32, 129–137. Tenopyr, M.L. (1977). Content-construct confusion. Personnel Psychology. 30, 47-54.

http://browse.oecdbookshop.org/oecd/pdfs/free/9809031e.pdf


Tenopyr, M. L. (1996). “Construct-consequences confusión”. Paper presented at the annual meeting of the Society for Industrial and Organizational Psychology, San Diego.

TIMSS (2007). TIMSS 2007: User Guide for the International Database. TIMSS & PIRLS International Study Center Lynch School of Education, Boston College. En: http://timss.bc.edu/timss2007/PDF/TIMSS2007_UserGuide.pdf

http://timss.bc.edu/timss2007/PDF/TIMSS2007_UserGuide.pdf


ANEXO 1: FORMATO CONSENTIMIENTO INFORMADO EN LÍNEA


ANEXO 2: PREGUNTAS ENTREVISTAS PARTICIPANTES PROCESO SIMCE

ROL COORDINADOR SIMCE Preguntas principales:

1) Brevemente, ¿podrías describir cuál es/era tu rol en el SIMCE y en qué consistía? ¿Cuáles son/eran tus funciones en ese rol? ¿Cuántos años trabajaste allí y en qué período?

2) ¿Cuáles fueron/son las mayores dificultades asociadas a este rol? ¿Qué es lo más difícil de abordar o manejar? ¿Crees que estas dificultades podrían afectar de alguna manera la validez del SIMCE? ¿Por qué?

3) ¿Cuál(es) es (son) el (los) propósito(s) del SIMCE? ¿De qué manera se asegura la validez de la prueba para cada uno de esos propósitos?

4) ¿Qué evalúa el SIMCE? ¿Cuál es el constructo a evaluar? ¿Logran las preguntas diseñadas representar ese constructo?

5) ¿Cómo se construye el SIMCE? ¿Cuáles son, en detalle y hasta donde tú conoces, las fases que se consideran desde la construcción hasta la publicación de los resultados del SIMCE?

6) ¿Habría un problema de validez si el SIMCE en los últimos años ha visto 3 marcos curriculares diferentes? ¿Se podrían comparar los resultados? ¿Se mantiene el constructo? En la misma línea, ¿qué pasa con la comparabilidad de resultados entre 8° 2000 y 2004? (pre y post-reforma) ¿Es posible? Lo mismo al evaluarse escritura por separado en 2008, ¿se puede comparar el resultado en comprensión lectora con los de los otros años?

7) ¿Cómo y por qué fue modificándose en nivel de transparencia de la información entregada sobre el SIMCE a docentes y a la comunidad en general?

Preguntas secundarias (si hay tiempo):

1) ¿Qué porcentaje o ponderación tienen en la prueba las preguntas abiertas? ¿Cómo se incluyen en la corrección?

2) Desde tu experiencia, ¿qué interpretaciones se pueden realizar de los puntajes SIMCE y qué interpretaciones serían inválidas?

3) ¿Te parece que los usos o interpretaciones no intencionados del SIMCE podrían afectar su validez? ¿Por qué? ¿De qué manera?

4) ¿Han realizado algún estudio que conecte las calificaciones asignadas por los docentes de aula y los puntajes del SIMCE? ¿Hay algún estudio que correlacione los resultados del SIMCE con los resultados provenientes de otras fuentes?


ROL PROFESIONALES SIMCE Preguntas principales:


2) ¿Cómo llegaste a trabajar al SIMCE y qué información te dieron cuando llegaste acerca de la prueba y de tu rol?


4) ¿Cuál(es) es (son) el (los) propósito(s) del SIMCE? ¿De qué manera se asegura la validez de la prueba para cada uno de esos propósitos?

5) ¿Qué evalúa el SIMCE? ¿Cuál es el constructo a evaluar? ¿Logran las preguntas diseñadas representar ese constructo?

6) ¿Cómo se construye el SIMCE? ¿Cuáles son, en detalle y hasta donde tú conoces, las fases que se consideran desde la construcción hasta la publicación de los resultados del SIMCE? ¿Quién realiza cada tarea? ¿Quién realiza el análisis post-prueba experimental? ¿Qué tipo de análisis es?

7) ¿Tienen información acerca de posibles usos o interpretaciones no intencionadas del SIMCE?

8) ¿Habría un problema de validez si el SIMCE en los últimos años ha visto 3 marcos curriculares diferentes? ¿Se podrían comparar los resultados? ¿Se mantiene el constructo?

8) ¿Cómo y por qué fue modificándose en nivel de transparencia de la información entregada sobre el SIMCE a docentes y a la comunidad en general?


9) Para Lenguaje: ¿Cómo eligen los textos, en base a qué? ¿Cómo evitan el sesgo en los textos?



12) ¿Han realizado algún estudio que conecte las calificaciones asignadas por los docentes de aula y los puntajes del SIMCE? ¿Hay algún estudio que correlacione los resultados del SIMCE con los resultados provenientes de otras fuentes?


ROL SUPERVISORES/JEFES EQUIPO DE CONSTRUCCIÓN DE PREGUNTAS



3) En base a tu rol y experiencia, ¿cuál(es) es (son) el (los) propósito(s) del SIMCE? ¿Es la prueba válida para todos esos propósitos?

4) ¿Qué evalúa el SIMCE? ¿Cuál es el constructo a evaluar? ¿Logran las preguntas diseñadas representar ese constructo? ¿Hay alguna distancia entre lo que se supone que evalúa y lo que realmente evalúa?

5) En detalle, ¿cómo se construyen las preguntas del SIMCE? ¿Qué instrucciones les dan cuando llegan a trabajar como supervisores/jefes de equipo en la construcción de preguntas? ¿Qué cosas permanecen como dudas antes o durante el proceso?


6) ¿En qué consisten las especificaciones del marco de evaluación de cada prueba? 7) ¿Hubo algún cambio con la introducción del Ajuste y luego de las Bases? (dependiendo

del año del entrevistado trabajando en SIMCE) 8) ¿Sabes en qué consiste la revisión de las preguntas y quién la realiza? ¿Sabes quién

aprueba finalmente las preguntas del SIMCE? 9) Desde tu experiencia, ¿qué interpretaciones se pueden realizar de los puntajes SIMCE y

qué interpretaciones serían inválidas? 10) ¿Te parece que los usos o interpretaciones no intencionados del SIMCE podrían afectar

su validez? ¿Por qué? ¿De qué manera?


ROL CONSTRUCTORES DE PREGUNTAS




4) ¿Qué evalúa el SIMCE? ¿Cuál es el constructo a evaluar? ¿Logran las preguntas diseñadas representar ese constructo? ¿Percibes alguna distancia entre lo que se supone que evalúa y lo que realmente evalúa?

5) En detalle, ¿cómo se construyen las preguntas del SIMCE? ¿Qué instrucciones les dan cuando llegan a trabajar en la construcción de preguntas? ¿Qué cosas permanecen como dudas antes o durante el proceso?

6) ¿Sabes qué sucede luego con las preguntas que construyes? Preguntas secundarias (si hay tiempo):

7) ¿En qué consisten las especificaciones del marco de evaluación de cada prueba? 8) Desde tu experiencia, ¿qué interpretaciones se pueden realizar de los puntajes SIMCE y

qué interpretaciones serían inválidas? 9) ¿Te parece que los usos o interpretaciones no intencionados del SIMCE podrían afectar

su validez? ¿Por qué? ¿De qué manera?


ROL SUPERVISOR CORRECCIÓN SIMCE




4) ¿Qué evalúa el SIMCE? ¿Cuál es el constructo a evaluar? ¿Logran las preguntas diseñadas representar ese constructo? ¿Percibes alguna distancia entre lo que se supone que evalúa y lo que realmente evalúa?

5) En detalle, ¿cómo se corrigen las preguntas del SIMCE? ¿Qué instrucciones les dan cuando llegan a trabajar como coordinadores en la corrección de preguntas y quién les da esas instrucciones? ¿Qué cosas permanecen como dudas antes o durante el proceso?






ROL CORRECTOR SIMCE

1) Brevemente, ¿podrías describir es/era tu rol en el SIMCE y en qué consistía? ¿Cuáles son/eran tus funciones en ese rol? ¿Cuántos años trabajaste allí y en qué período?



4) ¿Qué evalúa el SIMCE? ¿Cuál es el constructo a evaluar? ¿Logran las preguntas diseñadas representar ese constructo? ¿Hay alguna distancia entre lo que se supone que evalúa y lo que realmente evalúa?

5) En detalle, ¿cómo se corrigen las preguntas del SIMCE? ¿Qué instrucciones les dan cuando llegan a trabajar como correctores de preguntas y quién les da esas instrucciones? ¿Qué cosas permanecen como dudas antes o durante el proceso?

6) ¿Cuál es tu punto de vista acerca de las preguntas que te toca corregir? ¿Qué opinas de su formulación? ¿Te parecen adecuadas para aquello que buscan evaluar?






ANEXO 3: ENCUESTA ESPECIALISTAS LENGUAJE Y COMUNICACIÓN MODELO DE PRUEBA LECTURA 2º BÁSICO

AGOSTO OXFORD 13 - CNED

Documents

Transcript of AGOSTO OXFORD 13 - CNED