Evaluación Aleatoria de Principio a Fin -Servicio País … · • Pero muchos conceptos se pueden...

Evaluación Aleatoria de Principio a Fin -Servicio País en Educación-

Ryan Cooper

J-PAL LAC

1. Introducción a las Evaluaciones de Impacto

2. Teoría de Cambio e Indicadores

3. Por qué y Cómo Aleatorizar

4. Tamaño de Muestra y Cálculos de Poder

5. Inferencia Causal

6. Evaluaciones Experimentales y Políticas

Públicas

7. Evidencia de Evaluaciones Experimentales

8. Evaluación Experimental de Principio a Fin

Contexto del Curso

Antes de Empezar la Evaluación 1. Importancia de Políticas Públicas

1. ¿Es una pregunta importante?

2. ¿Está el programa lo suficientemente maduro como para

evaluarlo?

3. ¿Se podrán generalizar los resultados?

2. Confiabilidad del Impacto Estimado

1. Estrategia de identificación adecuada.

2. Poder estadístico

3. Protocolos de análisis

3. Calidad de Datos

1. Pilotajes

2. Monitoreo y control de calidad

5 Tareas Durante la Evaluación

1. Análisis de necesidades

2. Teoría de Cambio

3. Evaluación de Procesos

4. Evaluación de Impacto

5. Análisis costo-efectividad

¿Cuál es el problema?

¿Cómo corregirlo?

¿Se implementó bien?

¿Metas alcanzadas?

¿Magnitud?

¿Qué tan barato?

Contexto de la Evaluación

Programa: Servicio País en Educación

¿Cómo podemos mejorar la educación en contextos vulnerables?

• Se ha invertido mucho dinero, pero las mejorías han sido escasas.

• Una de las preguntas de políticas públicas más importantes del

momento.

Dos perspectivas:

1) Sólo las intervenciones tempranas funcionan.

2) Intervenciones tardías también pueden mejorar resultados de

educación.

El Programa

Servicio País en Educación (SPE)

• Intervención en Chile dirigida a

estudiantes en el cuarto grado

(10 años).

• Objetivo: Mejorar niveles de

lectura y actitudes hacia la

lectura.

• Consistía de 15 sesiones durante

horas de clases durante 3 meses.

Pregunta: Problema/Solución

Piense sobre:

• ¿Qué queremos aprender con la evaluación?

• ¿Qué tan importante es la pregunta?

• ¿Ha sido contestada la pregunta?

La evaluación de SPE tenía dos preguntas principales:

• ¿Puede el programa mejorar habilidades cognitivas y no cognitivas

relacionadas a la lectura?

• ¿Qué tan costo-efectivo es el programa?

Teoría de Cambio

Análisis de Necesidades

Intervención/Insumo

Producto

Resultados Intermedios

Impacto

Bajos niveles de lectura

Tutorías dadas por voluntarios

universitarios

Estudiantes reciben tutorías

Mejores habilidades cognitivas y no cognitivas

Mejor rendimiento académico

Una teoría de cambio

simplificada

Diseñar el Programa

• Diseñado después de varias visitas de terreno,

conversaciones con profesores, estudiantes y grupo

focales.

• Programa implementado por la Fundación para la

Superación de la Pobreza.

• 15 sesiones de tutorías durante horario de clases.

• Tutores eran voluntarios universitarios.

• Alrededor de 6 estudiante por tutor.

• Enfocado en estudiantes vulnerables

Importancia de la Evaluación

Factores que considerar:

1. Importancia de política pública.

2. Madurez del programa.

3. Validez externa de los resultados

Otras cosas:

1. Muestra representativa.

2. Costos.

3. Evaluación de procesos.

Diseñar la Evaluación

Necesitamos medidas confiables del impacto:

Diseño de evaluación y selección de metodología es clave.

- Variación exógena de la intervención.

- Control o conocer bien los criterios de selección al

programa.

Escoger metodología que de mejores resultados y que sea

viable:

• Experimental

• Cuasi-experimental

Para evaluar SPE, escogimos una evaluación

experimental:

– Esto nos permitió identificar los efectos causales

de las tutorías en los resultados de interés.

Ahora veremos cómo se implementó la

evaluación experimental.

• Algunas cosas son únicas a las evaluaciones experimentales.

• Pero muchos conceptos se pueden aplicar a otros tipos de

evaluaciones.

Definir la muestra: quién, dónde.

Para SPE:

• Escuelas con bajo rendimiento académico.

• 10 municipalidades en 2 regiones de Chile.

• Escuelas con más de 100 estudiantes en el cuarto grado o pares de

escuelas cercanas que juntas tengan más de 100 estudiantes.

Generamos aleatoriamente una lista de reemplazo en caso que una

escuela no quisiera participar en la evaluación.

Unidad de Aleatorización

Para SPE:

• Es difícil excluir a estudiantes individuales del

programa si sus escuelas están recibiendo el

programa.

• Aleatorizamos al nivel de la escuela.

Estratificación

Para SPE:

• Estratificamos por:

– Vecindario de la escuela

– Nivel socio-económico de la escuela.

– Rendimiento académico de la escuela.

Pero, ¿cuántas escuelas necesito en cada

grupo para poder detectar un efecto del

programa?

Necesitamos realizar cálculos de poder estadístico

para saber esto.

Los cálculos de poder nos ayudarán a:

– Evitar recolectar demasiada información (puede ser muy

caro).

– Evitar recolectar muy poca información.

¿Por qué es importante calcular poder al momento

de evaluar políticas públicas?

Si la muestra es muy pequeña, la evaluación puede no

detectar un efecto y puede concluir que no hay un

impacto.

En base a esto, los encargados de políticas públicas

pueden cancelar un programa, lo cuál puede perjudicar a

personas que se habrían beneficiado del programa.

Pero no es que no haya efecto, sino que no se pudo

detectar.

Al hacer una decisión de políticas públicas,

tenemos que preguntarnos:

– ¿Se realizaron cálculos de poder para determinar

el tamaño de la muestra?

– ¿Puede la ausencia de un efecto ser atribuida a

una muestra pequeña?

– ¿Podríamos encontrar un efecto si se incrementa

el tamaño de la muestra?

Tenemos que aleatorizar antes que comienze el

programa.

Aleatoriamente asignar escuelas a grupos de

tratamiento o control.

¿Cómo?

Excel, Stata tienen comandos para aleatorizar.

Determinar qué grupos incluir en la evaluación.

Esto depende de la pregunta principal.

En esta caso, nuestra pregunta es: ¿cuál es el

impacto de SPE en las habilidades lectoras de

los estudiantes?

Tratamiento Estudiantes que reciben

tutorías de SPE.

Control Estudiantes que no reciben

las tutorías. v.

Aleatorización de SPE:

Verificar Balance:

Datos administrativos o de la línea de base pueden ayudar

a verificar que los grupos de tratamiento y control sean

comparables.

Esto es clave para cualquier tipo de evaluación.

Queremos asegurarnos que estamos comparando

manzanas con manzanas y no peras con manzanas.

Verificar Balance

Población

Objetivo

Fuera de

Evaluación

Muestra

Escuelas)

Población Total

(Total de

Escuelas)

Asignación

Aleatoria

Tratamiento

Control

Muestra para SPE

Encuestas de Líneas de Base y Finales

Línea de Base

• Útil para obtener datos antes del comienzo del

programa.

• Aunque no son estrictamente necesarias para una

prueba aleatoria, pueden ser muy útiles.

– Verificar balance entre grupos.

Línea Final

• Para obtener datos después de que el programa

termine.

• Estrictamente necesarios: con esto medimos el impacto.

Implementar y Monitorear

Monitoreo y Evaluación

Evaluación

Ev de Programa

Ev.de Impacto

Monitoreo

Monitoreo y Evaluación:

Para SPE:

• Documentamos todo lo que hicimos.

• Obtuvimos aprobación de un comité de ética.

• Desarrollamos guías y manuales detallados.

• Seleccionamos y capacitamos a todas las personas

involucradas en la evaluación.

• Monitoreamos todas las etapas de la evaluación.

En la evaluación de SPE, el monitoreo

consistió de:

• Visitas sorpresas a las escuelas

• Supervisión de los tutores

• Encuestas a tutores

• Encuestas a profesores

• También obtuvimos datos administrativos sobre la

asistencia de los estudiantes y los tutores.

Encontramos que hubo mucha

heterogeneidad en la implementación del

programa:

El programa se implementó mejor en una región

que en la otra:

¿Dónde conseguimos nuestros datos?

• Datos administrativos (si existen)

• Encuestas

– Es importante monitorear el proceso de recolección de datos.

– Datos Malos = Evaluación Mala

– ¿Cómo proteger los datos?

• Usar instrumentos válidos

• Pilotear instrumentos

• Capacitar a encuestadores

• Verificar datos encuestando una segunda vez a una sub-muestra

• Doble digitación de datos

Recolección de Datos

Medimos nuestros resultado de interés

usando 4 fuentes:

1. Prueba de Comprensión Lectora y Producción de

Texto (CL-PT)

– Prueba estandarizada que mide habilidades cognitivas:

• Comprensión Lectora (RC)

• Uso de Lenguaje (UL)

• Producción de Texto (TP)

Medimos nuestros resultados de interés

usando 4 fuentes:

2. Placer por la lectura: Instrumento basado en otros

instrumentos que miden:

– Interés en la lectura (IR)

– Placer en la lectura (ER)

– Auto-percepción como lector (SPR)

– Percepción de Lectura en la Escuela (PRS)

Medimos nuestros resultados de interés

usando 4 fuentes:

3. Información de procesos del programa.

4. Datos administrativos del Ministerio de Educación de

Chile.

Línea de Tiempo

Primeras Semanas de

agosto

Diseñar instrumento

Agosto/ Septiembre

Línea Base

Octuber/ Noviembre

Programa y Monitoreo

Diciembre

Línea Final

Midiendo Impacto

Tenemos que definir estrategia estadística y

econométrica (mucho más complicado para

métodos cuasi-experimentales).

Definir muestras en las que se medirá impacto:

En SPE, medimos impacto en las siguientes sub-muestras:

– Por Región

– Por nivel de vulnerabilidad

– Por nivel de educación

Midiendo Impacto

Habilidades Cognitivas

• Usamos la asignación al tratamiento como variable

independiente (Intención de Tratar).

• Usamos la asignación aleatoria como instrumento

para la exposición al programa (Tratamiento en los

Tratados).

Midiendo Impactos: Resultados

Habilidades Cognitivas

• Comprensión Lectora

– Impacto promedio de 0.08 Desv. Est, pero marginalmente significante.

– 0.18 Desv. Est. en escuelas en la región del Bío Bío en Chile.

– 0.12 Desv. Est. en escuelas vulnerables en la región del Bío Bío en Chile.

• Uso de Lenguaje

– 0.28 Desv. Est en escuela en Bío Bío.

– 0.38 Desv. Est en escuelas vulnerables en Bío Bío.

¡Implementación del Programa importa!

Impacto mayor en escuelas vulnerables.

Midiendo Impacto

Externalidades

Tenemos que pensar sobre posibles efectos

indirectos del programa:

• SPE puede mejorar aprendizaje en otras áreas, no

sólo lectura.

• SPE puede perjudicar a los estudiantes al quitarles

tiempo valioso de clases.

Encontramos que el programa no tuvo externalidades

negativas.

Costo-Efectividad

Las evaluaciones son útiles para comparar

diferentes políticas con la ayuda de análisis de

costo-efectividad.

Uniforman el impacto de diferentes

programas.

Pero tienen algunas desventajas:

• No consideran impactos múltiples

• Se basan en supuestos

Costo-Efectividad

Análisis de Costo-Efectividad para SPE:

Costo-Efectividad

Comparando con otros programas:

Difundiendo Resultados

Se escribió una publicación académica en

base a esta evaluación.

Tuvimos seminarios y eventos para comunicar

los resultados de la evaluación.

Conclusiones

SPE fue una intervención corta que tuvo un

impacto importante en los niveles de lectura de

los estudiantes de escuelas vulnerables,

especialmente en aquellas escuelas donde el

programa se implementó correctamente.

No encontramos externalidades negativas.

Conclusiones Generales

Evaluar Impacto

• Toma tiempo y esfuerzo

• Requiere de muchos recursos

• Requiere creatividad

But…

• Es posible evaluar y es importante hacerlo ya que:

– Genera evidencia para avanzar la ciencia.

– Mejora el proceso de toma de decisiones entre los encargados

de políticas públicas.

– Promueve el uso efectivo de recursos escasos.

¡Gracias!

Evaluación Aleatoria de Principio a Fin -Servicio País … · • Pero muchos conceptos se pueden...

Documents

Transcript of Evaluación Aleatoria de Principio a Fin -Servicio País … · • Pero muchos conceptos se pueden...

DIPLOMADO EN MONITOREO Y EVALUACIÓN DE POLÍTICAS PÚBLICAS MÓDULO: EVALUACIONES

1 Variable aleatoria discreta 2 Variable Aleatoria (v.a.) Variable Aleatoria: Una regla que asocia un número a cada resultado del espacio muestra.

Evaluaciones Matemáticas (ADE) ceformativosceformativos.com/wp-content/uploads/2013/03/Evaluaciones...Evaluaciones Matemáticas (ADE) – ceformativos.com 2 Evaluación 1 Primer Parcial

VARIABLE ALEATORIA UNIDIMENSIONAL

2. VARIABLE ALEATORIA CONTINUA

02.1-3 - Variable Aleatoria

Variable aleatoria discreta

DISTRIBUCIONES VARIABLE ALEATORIA DISCRETA · PDF fileDISTRIBUCIONES VARIABLE ALEATORIA CONTINUA La ley de probabilidad de una variable aleatoria continua X está definida, bien si

Variable Aleatoria

Sistemas Aleatorios: Variable Aleatoria

Variable Aleatoria - Distribución de una variable aleatoria · Variable aleatoria (1/2) UneventoA alcualatribuimosunaprobabilidadserállamadoevento aleatorio. Unavariablealeatoria(v.a.)

Material para la evaluación LenguaPRIMARIA Autores Evaluaciones de unidades Susana del Fresno Granda Evaluaciones de Diagnóstico María Duque Hernández Evaluaciones de Competencias

Evaluación de Consistencia y Resultados 2011-2012conadeb.conade.gob.mx/documentos/conade/evaluaciones/evaluaciones... · El Programa se plantea como objetivo general en las Reglas

DESARROLLO DE LA CAPACIDAD DE EVALUACIÓN EVALUACIONES · evaluaciones que mejoraron el desempeño y los efectos de los programas de desarrollo DEPARTAMENTO DE EVALUACIÓN DE OPERACIONES

EVALUACIONES - spf.tabasco.gob.mxspf.tabasco.gob.mx/.../files/04-Evaluaciones-4t-2015.pdf · EVALUACIONES 4to. Trimestre 2015. Sistema de Evaluación del Desempeño . Resumen de la

Encabezado: CALIDAD TÉCNICA DE LAS EVALUACIONES Evaluación … · Encabezado: CALIDAD TÉCNICA DE LAS EVALUACIONES Evaluación de la Calidad Técnica de los Instrumentos de Evaluación

EVALUACIONES - Tabasco · 2017-06-06 · EVALUACIONES 4to. Trimestre 2016. Sistema de Evaluación del Desempeño Resumen de la Evaluación FAIS 27 - TABASCO 0 - Cobertura estatal.

Variable aleatoria Bidimensional

Variable Aleatoria v5

Material para la evaluación Conocimiento del medio5).pdf · PRIMARIA Autores Evaluaciones de contenidos Susana Gonzalo Gamo Evaluaciones de diagnóstico Susana Gonzalo Gamo Evaluaciones