Post on 07-Oct-2018
Evaluación Aleatoria de Principio a Fin -Servicio País en Educación-
Ryan Cooper
J-PAL LAC
1. Introducción a las Evaluaciones de Impacto
2. Teoría de Cambio e Indicadores
3. Por qué y Cómo Aleatorizar
4. Tamaño de Muestra y Cálculos de Poder
5. Inferencia Causal
6. Evaluaciones Experimentales y Políticas
Públicas
7. Evidencia de Evaluaciones Experimentales
8. Evaluación Experimental de Principio a Fin
Contexto del Curso
Antes de Empezar la Evaluación 1. Importancia de Políticas Públicas
1. ¿Es una pregunta importante?
2. ¿Está el programa lo suficientemente maduro como para
evaluarlo?
3. ¿Se podrán generalizar los resultados?
2. Confiabilidad del Impacto Estimado
1. Estrategia de identificación adecuada.
2. Poder estadístico
3. Protocolos de análisis
3. Calidad de Datos
1. Pilotajes
2. Monitoreo y control de calidad
5 Tareas Durante la Evaluación
1. Análisis de necesidades
2. Teoría de Cambio
3. Evaluación de Procesos
4. Evaluación de Impacto
5. Análisis costo-efectividad
¿Cuál es el problema?
¿Cómo corregirlo?
¿Se implementó bien?
¿Metas alcanzadas?
¿Magnitud?
¿Qué tan barato?
Contexto de la Evaluación
Programa: Servicio País en Educación
¿Cómo podemos mejorar la educación en contextos vulnerables?
• Se ha invertido mucho dinero, pero las mejorías han sido escasas.
• Una de las preguntas de políticas públicas más importantes del
momento.
Dos perspectivas:
1) Sólo las intervenciones tempranas funcionan.
2) Intervenciones tardías también pueden mejorar resultados de
educación.
El Programa
Servicio País en Educación (SPE)
• Intervención en Chile dirigida a
estudiantes en el cuarto grado
(10 años).
• Objetivo: Mejorar niveles de
lectura y actitudes hacia la
lectura.
• Consistía de 15 sesiones durante
horas de clases durante 3 meses.
Pregunta: Problema/Solución
Piense sobre:
• ¿Qué queremos aprender con la evaluación?
• ¿Qué tan importante es la pregunta?
• ¿Ha sido contestada la pregunta?
La evaluación de SPE tenía dos preguntas principales:
• ¿Puede el programa mejorar habilidades cognitivas y no cognitivas
relacionadas a la lectura?
• ¿Qué tan costo-efectivo es el programa?
Teoría de Cambio
Análisis de Necesidades
Intervención/Insumo
Producto
Resultados Intermedios
Impacto
Bajos niveles de lectura
Tutorías dadas por voluntarios
universitarios
Estudiantes reciben tutorías
Mejores habilidades cognitivas y no cognitivas
Mejor rendimiento académico
Una teoría de cambio
simplificada
Diseñar el Programa
SPE:
• Diseñado después de varias visitas de terreno,
conversaciones con profesores, estudiantes y grupo
focales.
• Programa implementado por la Fundación para la
Superación de la Pobreza.
• 15 sesiones de tutorías durante horario de clases.
• Tutores eran voluntarios universitarios.
• Alrededor de 6 estudiante por tutor.
• Enfocado en estudiantes vulnerables
Importancia de la Evaluación
Factores que considerar:
1. Importancia de política pública.
2. Madurez del programa.
3. Validez externa de los resultados
Otras cosas:
1. Muestra representativa.
2. Costos.
3. Evaluación de procesos.
Diseñar la Evaluación
Necesitamos medidas confiables del impacto:
Diseño de evaluación y selección de metodología es clave.
- Variación exógena de la intervención.
- Control o conocer bien los criterios de selección al
programa.
Escoger metodología que de mejores resultados y que sea
viable:
• Experimental
• Cuasi-experimental
Para evaluar SPE, escogimos una evaluación
experimental:
– Esto nos permitió identificar los efectos causales
de las tutorías en los resultados de interés.
Ahora veremos cómo se implementó la
evaluación experimental.
• Algunas cosas son únicas a las evaluaciones experimentales.
• Pero muchos conceptos se pueden aplicar a otros tipos de
evaluaciones.
Diseñar la Evaluación
Definir la muestra: quién, dónde.
Para SPE:
• Escuelas con bajo rendimiento académico.
• 10 municipalidades en 2 regiones de Chile.
• Escuelas con más de 100 estudiantes en el cuarto grado o pares de
escuelas cercanas que juntas tengan más de 100 estudiantes.
Generamos aleatoriamente una lista de reemplazo en caso que una
escuela no quisiera participar en la evaluación.
Diseñar la Evaluación
Unidad de Aleatorización
Para SPE:
• Es difícil excluir a estudiantes individuales del
programa si sus escuelas están recibiendo el
programa.
• Aleatorizamos al nivel de la escuela.
Diseñar la Evaluación
Estratificación
Para SPE:
• Estratificamos por:
– Vecindario de la escuela
– Nivel socio-económico de la escuela.
– Rendimiento académico de la escuela.
Diseñar la Evaluación
Pero, ¿cuántas escuelas necesito en cada
grupo para poder detectar un efecto del
programa?
Necesitamos realizar cálculos de poder estadístico
para saber esto.
Los cálculos de poder nos ayudarán a:
– Evitar recolectar demasiada información (puede ser muy
caro).
– Evitar recolectar muy poca información.
Diseñar la Evaluación
¿Por qué es importante calcular poder al momento
de evaluar políticas públicas?
Si la muestra es muy pequeña, la evaluación puede no
detectar un efecto y puede concluir que no hay un
impacto.
En base a esto, los encargados de políticas públicas
pueden cancelar un programa, lo cuál puede perjudicar a
personas que se habrían beneficiado del programa.
Pero no es que no haya efecto, sino que no se pudo
detectar.
Diseñar la Evaluación
Al hacer una decisión de políticas públicas,
tenemos que preguntarnos:
– ¿Se realizaron cálculos de poder para determinar
el tamaño de la muestra?
– ¿Puede la ausencia de un efecto ser atribuida a
una muestra pequeña?
– ¿Podríamos encontrar un efecto si se incrementa
el tamaño de la muestra?
Diseñar la Evaluación
Tenemos que aleatorizar antes que comienze el
programa.
Aleatoriamente asignar escuelas a grupos de
tratamiento o control.
¿Cómo?
Excel, Stata tienen comandos para aleatorizar.
Diseñar la Evaluación
Determinar qué grupos incluir en la evaluación.
Esto depende de la pregunta principal.
En esta caso, nuestra pregunta es: ¿cuál es el
impacto de SPE en las habilidades lectoras de
los estudiantes?
Tratamiento Estudiantes que reciben
tutorías de SPE.
Control Estudiantes que no reciben
las tutorías. v.
Diseñar la Evaluación
Aleatorización de SPE:
Diseñar la Evaluación
Verificar Balance:
Datos administrativos o de la línea de base pueden ayudar
a verificar que los grupos de tratamiento y control sean
comparables.
Esto es clave para cualquier tipo de evaluación.
Queremos asegurarnos que estamos comparando
manzanas con manzanas y no peras con manzanas.
Diseñar la Evaluación
Verificar Balance
Diseñar la Evaluación
Población
Objetivo
Fuera de
Evaluación
Muestra
(85
Escuelas)
Población Total
(Total de
Escuelas)
Asignación
Aleatoria
Tratamiento
(45)
Control
(40)
Muestra para SPE
Encuestas de Líneas de Base y Finales
Línea de Base
• Útil para obtener datos antes del comienzo del
programa.
• Aunque no son estrictamente necesarias para una
prueba aleatoria, pueden ser muy útiles.
– Verificar balance entre grupos.
Línea Final
• Para obtener datos después de que el programa
termine.
• Estrictamente necesarios: con esto medimos el impacto.
Implementar y Monitorear
Monitoreo y Evaluación
Evaluación
Ev de Programa
Ev.de Impacto
Monitoreo
Monitoreo y Evaluación:
Para SPE:
• Documentamos todo lo que hicimos.
• Obtuvimos aprobación de un comité de ética.
• Desarrollamos guías y manuales detallados.
• Seleccionamos y capacitamos a todas las personas
involucradas en la evaluación.
• Monitoreamos todas las etapas de la evaluación.
Implementar y Monitorear
En la evaluación de SPE, el monitoreo
consistió de:
• Visitas sorpresas a las escuelas
• Supervisión de los tutores
• Encuestas a tutores
• Encuestas a profesores
• También obtuvimos datos administrativos sobre la
asistencia de los estudiantes y los tutores.
Implementar y Monitorear
Encontramos que hubo mucha
heterogeneidad en la implementación del
programa:
Implementar y Monitorear
El programa se implementó mejor en una región
que en la otra:
Implementar y Monitorear
¿Dónde conseguimos nuestros datos?
• Datos administrativos (si existen)
• Encuestas
– Es importante monitorear el proceso de recolección de datos.
– Datos Malos = Evaluación Mala
– ¿Cómo proteger los datos?
• Usar instrumentos válidos
• Pilotear instrumentos
• Capacitar a encuestadores
• Verificar datos encuestando una segunda vez a una sub-muestra
• Doble digitación de datos
Recolección de Datos
Medimos nuestros resultado de interés
usando 4 fuentes:
1. Prueba de Comprensión Lectora y Producción de
Texto (CL-PT)
– Prueba estandarizada que mide habilidades cognitivas:
• Comprensión Lectora (RC)
• Uso de Lenguaje (UL)
• Producción de Texto (TP)
Recolección de Datos
Medimos nuestros resultados de interés
usando 4 fuentes:
2. Placer por la lectura: Instrumento basado en otros
instrumentos que miden:
– Interés en la lectura (IR)
– Placer en la lectura (ER)
– Auto-percepción como lector (SPR)
– Percepción de Lectura en la Escuela (PRS)
Recolección de Datos
Medimos nuestros resultados de interés
usando 4 fuentes:
3. Información de procesos del programa.
4. Datos administrativos del Ministerio de Educación de
Chile.
Recolección de Datos
Línea de Tiempo
Primeras Semanas de
agosto
Diseñar instrumento
Agosto/ Septiembre
Línea Base
Octuber/ Noviembre
Programa y Monitoreo
Diciembre
Línea Final
Recolección de Datos
Midiendo Impacto
Tenemos que definir estrategia estadística y
econométrica (mucho más complicado para
métodos cuasi-experimentales).
Definir muestras en las que se medirá impacto:
En SPE, medimos impacto en las siguientes sub-muestras:
– Por Región
– Por nivel de vulnerabilidad
– Por nivel de educación
Midiendo Impacto
Habilidades Cognitivas
• Usamos la asignación al tratamiento como variable
independiente (Intención de Tratar).
• Usamos la asignación aleatoria como instrumento
para la exposición al programa (Tratamiento en los
Tratados).
Midiendo Impactos: Resultados
Habilidades Cognitivas
• Comprensión Lectora
– Impacto promedio de 0.08 Desv. Est, pero marginalmente significante.
– 0.18 Desv. Est. en escuelas en la región del Bío Bío en Chile.
– 0.12 Desv. Est. en escuelas vulnerables en la región del Bío Bío en Chile.
• Uso de Lenguaje
– 0.28 Desv. Est en escuela en Bío Bío.
– 0.38 Desv. Est en escuelas vulnerables en Bío Bío.
¡Implementación del Programa importa!
Impacto mayor en escuelas vulnerables.
Midiendo Impacto
Externalidades
Tenemos que pensar sobre posibles efectos
indirectos del programa:
• SPE puede mejorar aprendizaje en otras áreas, no
sólo lectura.
• SPE puede perjudicar a los estudiantes al quitarles
tiempo valioso de clases.
Encontramos que el programa no tuvo externalidades
negativas.
Costo-Efectividad
Las evaluaciones son útiles para comparar
diferentes políticas con la ayuda de análisis de
costo-efectividad.
Uniforman el impacto de diferentes
programas.
Pero tienen algunas desventajas:
• No consideran impactos múltiples
• Se basan en supuestos
Costo-Efectividad
Análisis de Costo-Efectividad para SPE:
Costo-Efectividad
Comparando con otros programas:
Difundiendo Resultados
Se escribió una publicación académica en
base a esta evaluación.
Tuvimos seminarios y eventos para comunicar
los resultados de la evaluación.
Conclusiones
SPE fue una intervención corta que tuvo un
impacto importante en los niveles de lectura de
los estudiantes de escuelas vulnerables,
especialmente en aquellas escuelas donde el
programa se implementó correctamente.
No encontramos externalidades negativas.
Conclusiones Generales
Evaluar Impacto
• Toma tiempo y esfuerzo
• Requiere de muchos recursos
• Requiere creatividad
But…
• Es posible evaluar y es importante hacerlo ya que:
– Genera evidencia para avanzar la ciencia.
– Mejora el proceso de toma de decisiones entre los encargados
de políticas públicas.
– Promueve el uso efectivo de recursos escasos.
¡Gracias!