Aprendizaje activo mejora el desempeño estudiantil...

16
1 Aprendizaje activo mejora el desempeño estudiantil en ciencia, ingeniería y matemáticas Scott Freeman, Sarah L. Eddya Miles McDonougha, Michelle K. Smithb, Nnadozie Okoroafora, Hannah Jordta y Mary Pat Wenderotha Traductor: Alejandra Henríquez Noviembre de 2016

Transcript of Aprendizaje activo mejora el desempeño estudiantil...

Page 1: Aprendizaje activo mejora el desempeño estudiantil …vra.ucv.cl/ddcyf/wp-content/uploads/2017/04/Aprendizaje...inventarios conceptuales y otras evaluaciones fue de una diferencia

1

Aprendizaje activo mejora el desempeño estudiantil en ciencia,

ingeniería y matemáticas

Scott Freeman, Sarah L. Eddya Miles McDonougha, Michelle K. Smithb, Nnadozie Okoroafora, Hannah Jordta y Mary Pat Wenderotha

Traductor: Alejandra Henríquez

Noviembre de 2016

Page 2: Aprendizaje activo mejora el desempeño estudiantil …vra.ucv.cl/ddcyf/wp-content/uploads/2017/04/Aprendizaje...inventarios conceptuales y otras evaluaciones fue de una diferencia

2

Contenido

1. Resumen……………………………………………………………………...¡Error! Marcador no definido.

2. Introducción……………………………………………………………........¡Error! Marcador no definido.

3. Resultados…………………………………………………………………...4

4. Discusión……………………………………………………………………..7

5. Materiales y métodos……………………………………………………..10

5.1. Búsqueda en la literatura.………………………………………………..11

5.2. Criterios de Admisión..…………………………………………………...11

5.3. Codificación………………………………………………………………...11

5.4. Análisis de datos..…………………………………………………………12

5.5. Resultados adicionales..…………………………………………………13

6. Referencias…………………………………………………………………14

Page 3: Aprendizaje activo mejora el desempeño estudiantil …vra.ucv.cl/ddcyf/wp-content/uploads/2017/04/Aprendizaje...inventarios conceptuales y otras evaluaciones fue de una diferencia

3

1. Resumen

Para comprobar la hipótesis que postula que la docencia tradicional maximiza el aprendizaje y el desempeño en el curso, se realizó un metaanálisis de 225 estudios que entregaron datos sobre los resultados de exámenes o tasas de fracaso, al comparar el rendimiento de los estudiantes en cursos de pregrado de ciencias, matemáticas, ingeniería y tecnología (STEM) donde se utilizaron clases tradicionales versus aprendizaje activo. Los tamaños del efecto indican que, en promedio, el desempeño estudiantil en exámenes e inventarios conceptuales incrementó en 0,47 desviaciones estándar bajo aprendizaje activo (n = 158 estudios), y que la razón de probabilidades de fracaso fue de 1,95 en clases tradicionales (n = 67 estudios). Estos resultados indican que los resultados de exámenes promedio mejoraron en un 6 % aproximadamente en las secciones de aprendizaje activo y que los estudiantes en clases tradicionales tenían 1,5 veces más probabilidades de fracasar en comparación con los estudiantes en las clases con aprendizaje activo. Los análisis de heterogeneidad indicaron que ambos resultados se dan en las disciplinas de STEM, que el aprendizaje activo mejora más los puntajes en inventarios conceptuales que en los resultados de exámenes de curso, y que el aprendizaje activo parece ser efectivo en las clases de todos los tamaños —aunque los mayores efectos se dan en clases pequeñas (n ≤ 50). Los análisis trim and fill (ajuste y relleno) y los cálculos de seguridad de n sugieren que los resultados obtenidos no se deben a un sesgo de publicación. Los resultados también parecen consistentes a la variación en el rigor metodológico de los estudios incluidos, en base a la calidad de los controles sobre la identidad del profesor y la calidad del estudiante. Este es el metanálisis más grande y completo de educación STEM de pregrado publicado hasta la fecha. Los resultados plantean preguntas sobre el uso continuo de cátedras tradicionales como control en estudios de investigación y sobre el apoyo al aprendizaje activo como la práctica docente preferida y validada empíricamente en clases regulares. Constructivismo | educación de pregrado | enseñanza con base empírica | enseñanza científica

2. Introducción

La docencia tradicional ha sido el modo predominante de enseñanza desde que las universidades fueron fundadas en Europa Occidental hace más de 900 años. Aunque las teorías de aprendizaje que destacan la necesidad de que los estudiantes construyan su propio comprensión han desafiado las bases teóricas del enfoque tradicional de "enseñar diciendo" orientado al profesor, hasta la fecha no ha habido ningún análisis cuantitativo de cómo los métodos constructivistas versus los métodos centrados en la exposición afectan al rendimiento estudiantil en cursos de pregrado en las disciplinas de ciencias, matemáticas, ingeniería y tecnología (STEM). En la clase de STEM, ¿se debe preguntar o se debe decir? Abordar esta pregunta es esencial si los científicos están comprometidos a la enseñanza basada en la evidencia, más que en la tradición. La respuesta también podría ser parte de una solución al "problema de base" que algunos países están experimentando en la educación de STEM: por ejemplo, menos del 40 % de los estudiantes de Estados Unidos que ingresan a la universidad con un interés en STEM y sólo el 20 % de los estudiantes de minorías interesados en STEM completa un grado en alguna de estas disciplinas.

Page 4: Aprendizaje activo mejora el desempeño estudiantil …vra.ucv.cl/ddcyf/wp-content/uploads/2017/04/Aprendizaje...inventarios conceptuales y otras evaluaciones fue de una diferencia

4

Para probar la eficacia de los diseños constructivistas versus los diseños centrados en la exposición, este análisis se enfoca en el diseño de las sesiones de clase— en contraste con laboratorios, tareas u otros ejercicios. Más específicamente, se compararon los resultados de experimentos que documentan el desempeño estudiantil en cursos con al menos un poco de aprendizaje activo versus clases tradicionales, al metaanalizar 225 estudios de la literatura publicada y la no publicada. Las intervenciones con aprendizaje activo variaban ampliamente en intensidad e implementación; incluían enfoques diversos, tales como solución de problemas en grupo, hojas de cálculo o tutoriales hechos durante la clase, uso de sistemas de respuesta automática tipo clickeras u otros con o sin enseñanza entre pares y diseños de curso en modalidad de taller. Se siguieron pautas de buenas prácticas en revisiones cuantitativas (SI Materials and Methods) y se evaluó el desempeño estudiantil por medio de dos variables de resultado: (i) los resultados en exámenes idénticos o formalmente equivalentes, inventarios conceptuales u otras evaluaciones; o (ii) las tasas de fracaso, generalmente medidas según el porcentaje de estudiantes que reciben una nota D o F (sistema de evaluación en Estados Unidos) o que se retiran del curso en cuestión (tasa de DFW). Entonces, el análisis se centró en dos preguntas relacionadas: ¿el aprendizaje activo mejora los puntajes en exámenes? ¿Baja las tasas de fracaso?

3. Resultados

El tamaño del efecto global promedio de desempeño en exámenes idénticos o equivalentes, inventarios conceptuales y otras evaluaciones fue de una diferencia de media ponderada estándar de 0,47 (Z = 9,781, P << 0,001) —lo que significa que, en promedio, el desempeño estudiantil aumentó por un poco menos que la mitad de una desviación estándar con el uso de aprendizaje activo, comparado con el uso de clases tradicionales. El tamaño del efecto global promedio de tasa de fracasos tuvo una razón de probabilidades de 1,95 (Z = 10.4, P << 0,001). Esta razón de probabilidades es equivalente a un riesgo relativo de 1,5, lo que significa que en promedio, los estudiantes en los cursos de clases tradicionales son 1,5 veces más propensos a reprobar que los estudiantes en los cursos con aprendizaje activo. Las tasas de fracaso promedio fueron del 21,8 % en aprendizaje activo, pero fueron del 33,8 % bajo cátedras tradicionales —una diferencia que representa un aumento del 55 % (fig. 1).

Importancia El Consejo de Asesores del Presidente sobre Ciencia y Tecnología ha pedido un aumento del 33 % en el número de grados universitarios en ciencia, matemáticas, ingeniería y tecnología (STEM) completados por año y sugirió que la adopción de prácticas validadas empíricamente es fundamental para lograr este objetivo. Los estudios analizados documentan que el aprendizaje activo lleva a mejoras en el desempeño en exámenes —lo que elevaría el promedio de notas— y que las tasas de fracaso en clases tradicionales aumentan un 55 % sobre las tasas observadas en el aprendizaje activo. El análisis apoya la teoría que afirma que las peticiones de aumentar el número de estudiantes que reciben grados de STEM podrían ser escuchadas, al menos en parte, al abandonar el uso de clases tradicionales en favor del aprendizaje activo.

Page 5: Aprendizaje activo mejora el desempeño estudiantil …vra.ucv.cl/ddcyf/wp-content/uploads/2017/04/Aprendizaje...inventarios conceptuales y otras evaluaciones fue de una diferencia

5

Fig 1. Cambios en la tasa de fracaso. (A) Datos graficados como cambio porcentual en la tasa de fracaso en el mismo curso, en aprendizaje activo versus clase tradicional. El cambio promedio (12%) se indica mediante la línea vertical discontinua. (B) Gráficos de densidad de Kernel de las tasas de fracaso en aprendizaje activo y en clases tradicionales. Las tasas de fracaso promedio de cada tipo de aula (21,8% y 33,8%) se muestran con líneas verticales discontinuas.

Los análisis de heterogeneidad no indicaron ninguna variación estadísticamente importante entre experimentos basados en las disciplinas STEM del curso en cuestión, con respecto a los puntajes en exámenes (fig. 2A; Q = 910,537, df = 7, P = 0,160) o las tasas de fracaso (fig. 2B; Q = 11,73, df = 6, P = 0,068). En todas las disciplinas con más de 10 experimentos que cumplían los criterios de admisión para el metaanálisis, los tamaños del efecto promedios fueron estadísticamente importantes para los puntajes de exámenes, las tasas de fracaso o ambos (fig. 2). Así, los datos indican que el aprendizaje activo mejora el desempeño estudiantil en las disciplinas STEM. Para los datos sobre exámenes y otras evaluaciones, un análisis de heterogeneidad indicó que el tamaño del efecto promedio fue menor cuando la variable de resultado fue un examen escrito por el profesor—en comparación con el rendimiento en un inventario de concepto (fig. 3A; Q = 10,731, df = 1, P << 0,001). Aunque el logro estudiantil fue mayor con aprendizaje activo en ambos tipos de evaluaciones, se presume que la diferencia en beneficios en cuanto a los exámenes versus los inventarios conceptuales puede deberse a los dos tipos de evaluaciones que prueban habilidades cognitivas cualitativamente diferentes. Esta explicación es consistente con investigaciones anteriores que indican que el aprendizaje activo tiene un mayor impacto en el dominio que tiene el estudiante de habilidades cognitivas de bajo nivel versus alto nivel; las investigaciones también reconocen que la mayoría de los inventarios conceptuales están diseñados para diagnosticar las percepciones erróneas de conceptos, en contraste con los exámenes de curso que destacan el dominio de contenido o la habilidad para resolver problemas cuantitativos. La mayoría de los inventarios conceptuales también se someten a pruebas de validez, fiabilidad y legibilidad. Los análisis de heterogeneidad revelaron una variación significativa respecto al tamaño del curso, ya que el aprendizaje activo tuvo un mayor impacto en los cursos con 50 estudiantes o menos (fig. 3B; Q = 6,726, df = 2, P << 0,035). Sin embargo, los tamaños del efecto fueron estadísticamente importantes para las tres categorías de tamaño de clase, lo que indica que el aprendizaje activo también benefició a estudiantes en clases medianas (51-110 alumnos) o grandes (> 110 alumnos).

Cambio en Porcentaje de Tasa de Fracaso con Aprendizaje Activo de Estudiantes que reprueban

Tipo de Sala Tradicional

Activa

Fracaso aumentado

Fracaso disminuido

Den

sid

ad

mer

o d

e es

tud

ios

Page 6: Aprendizaje activo mejora el desempeño estudiantil …vra.ucv.cl/ddcyf/wp-content/uploads/2017/04/Aprendizaje...inventarios conceptuales y otras evaluaciones fue de una diferencia

6

Cuando se realizó un metaanálisis de los datos dependiendo del tipo y nivel del curso, no se encontró ninguna diferencia estadísticamente importante en el tamaño del efecto del aprendizaje activo al comparar (i) cursos para estudiantes especializados versus no especializados (Q = 0,045, df = 1, P = 0,883), o (ii) cursos de introducción versus cursos de división superior (Q = 0,046, df = 1, P = 0,829).

Fig 2. Tamaños del efecto por disciplina. (A) Datos sobre puntajes de exámenes, inventarios conceptuales y otras evaluaciones. (B) Datos sobre las tasas de fracaso. Los números debajo de los puntos de datos indican el número de estudios independientes; las líneas horizontales son intervalos de confianza del 95%.

Fig 3. Los análisis de heterogeneidad para datos sobre puntajes de exámenes, inventarios conceptuales y otras evaluaciones. (A) Por el tipo de evaluación: inventarios conceptuales versus exámenes. (B) Por el tamaño de la clase. Los números debajo de los puntos de datos indican el número de estudios independientes; las líneas horizontales son intervalos de confianza del 95 %.

Biología

Química Ciencias

Informáticas

Ingeniería

Geología

Matemáticas

Física

Psicología

General

Dis

cip

linas

STE

M

g de Hedges % de Disminución de la Tasa de Fracaso

Examen

Inventario de concepto

g de Hedges g de Hedges Tam

año

(n

° e

stu

dia

nte

s)

Tip

o d

e Ev

alu

ació

n

Page 7: Aprendizaje activo mejora el desempeño estudiantil …vra.ucv.cl/ddcyf/wp-content/uploads/2017/04/Aprendizaje...inventarios conceptuales y otras evaluaciones fue de una diferencia

7

Para evaluar el nivel de seguridad de los profesionales sobre estas conclusiones, se realizaron dos tipos de análisis para evaluar si los resultados se veían comprometidos por sesgo de publicación—la tendencia a no publicar estudios con tamaños del efecto bajo. Se calcularon los números de seguridad al indicar cuántos estudios con un tamaño del efecto de 0 tendrían que ser publicados para reducir los tamaños del efecto global de 0,47 respecto al desempeño en exámenes y 1,95 respecto a la tasa de fracaso. El objetivo era predeterminar los niveles que serían considerados como pequeño o moderado —en este caso, 0,20 y 1,1, respectivamente. Los números de seguridad eran altos: 114 estudios sobre desempeño en exámenes y 438 estudios sobre la tasa de fracaso (SI Materials and Methods). Los análisis de gráficos de embudo también apoyan la falta de sesgo de publicación (SI Materials and Methods). Para evaluar las críticas que sostienen que la literatura en la enseñanza universitaria de STEM es difícil de interpretar debido a limitaciones metodológicas, se buscó heterogeneidad en tamaños del efecto de los datos sobre puntajes en exámenes; esta búsqueda se basó en si los experimentos cumplían o no con los criterios más estrictos para la equivalencia de alumno y profesor. Se han creado cuatro categorías para describir la calidad de los controles sobre la equivalencia del estudiante en enfoques con aprendizaje activo versus clases tradicionales (SI Materials and Methods) y se descubrió que no había ninguna heterogeneidad basada en la calidad metodológica (Q = 2,097, df = 3, P = 0,553): Los experimentos en los cuales se les asignaron enfoques al azar a los estudiantes dieron resultados que eran indistinguibles de los tres tipos de diseños cuasialeatorios (tabla 1). El análisis de variación con respecto a los controles sobre la identidad del profesor tampoco entregó ninguna evidencia de heterogeneidad (Q = 0,007, df = 1, P = 0,934): los estudios escasamente controlados, con diferentes profesores en los dos grupos de enfoques o sin datos sobre la equivalencia de profesor, dieron resultados equivalentes a los estudios con profesores idénticos o aleatorios en los dos enfoques (tabla 1). Así, el tamaño del efecto general para los datos de exámenes parece consistente con la variación en el rigor metodológico de los estudios publicados.

4. Discusión

Los datos presentados indican que el aprendizaje activo aumenta el rendimiento en exámenes por un poco menos de la mitad de una desviación estándar y que la docencia tradicional aumenta las tasas de fracaso en un 55 %. Los análisis de heterogeneidad indican que (i) estos aumentos en el logro estudiantil se presentan en todas las disciplinas STEM y se dan en todos los tamaños, tipos y niveles de curso; y (ii) el aprendizaje activo es beneficioso particularmente en clases pequeñas y mejora el rendimiento en los inventarios conceptuales. Aunque este es el metaanálisis más grande y completo de la literatura de educación de pregrado de STEM hasta la fecha, la media general de tamaño del efecto ponderado de 0,47 presentado en este trabajo es casi idéntico a las medias generales de tamaño del efecto ponderado de 0,50 y 0,51 publicadas en metaanálisis anteriores sobre cómo las alternativas de docencia tradicional afectan al desempeño de estudiantes de pregrado en subdivisiones de disciplinas STEM. Por lo tanto, estos resultados concuerdan con los trabajos previos de otros investigadores. Sin embargo, la media general de tamaños del efecto presentada en este trabajo es sometida a calificaciones importantes. Por ejemplo, debido a que los estudiantes con dificultades son más propensos a retirarse de cursos que los estudiantes con alto rendimiento, las bajas en las tasas de retiro en los cursos con aprendizaje activo documentadas en este trabajo deberían disminuir los puntajes promedio de evaluaciones —lo que significa que el tamaño del efecto de 0,47 para los exámenes y los inventarios conceptuales podrían subestimar el impacto real del aprendizaje activo en los estudios realizados hasta la fecha (SI Materials and Methods). En contraste, no está claro si el tamaño del efecto de esta magnitud se daría de igual forma si los enfoques de aprendizaje activo

Page 8: Aprendizaje activo mejora el desempeño estudiantil …vra.ucv.cl/ddcyf/wp-content/uploads/2017/04/Aprendizaje...inventarios conceptuales y otras evaluaciones fue de una diferencia

8

fuesen universales. Los profesores que implementaron aprendizaje activo en estos estudios lo hicieron como voluntarios. La interrogante de si el desempeño estudiantil aumentaría así si se les exigiera a todos los miembros de facultad que implementen enfoques de aprendizaje activo sigue siendo una pregunta abierta.

Intervalo de confianza de 95 %

Tipo de control n g de Hedges

SE Límite menor

Límite mayor

Para equivalencia de estudiantes

Cuasialeatorio- sin datos sobre equivalencia

39 0,467 0,102 0,268 0,666

Cuasialeatorio- sin diferencias estadísticas en puntajes previos de evaluaciones para tamaño del efecto

51 0,534 0,089 0,359 0,709

Cuasialeatorio- sin diferencias estadísticas en métricas de habilidad y preparación académica

51 0,362 0,092 0,181 0,542

Tareas aleatorias o diseños híbridos 16 0,514 0,098 0,322 0,706

Para equivalencia de profesor

Sin datos o profesores diferentes 59 0,472 0,081 0,313 0,631

Profesores idénticos, tareas aleatorias o ≥3 profesores en cada enfoque

99 0,492 0,071 0,347 0,580

Con la suposición de que otros profesores implementasen el aprendizaje activo y lograran el tamaño del efecto medio presentado en este trabajo, ¿qué significaría un cambio de 0,47 desviaciones estándar en puntajes de exámenes y de inventarios conceptuales para sus estudiantes?

I) Los estudiantes en el percentil 50 de una clase tradicional, se trasladarían— con el uso de

aprendizaje activo— al percentil 68 de esa clase, lo que significa que en lugar de obtener

un puntaje más alto que el del 50 % de los estudiantes en la clase, el mismo individuo con

aprendizaje activo obtendría un puntaje más alto que el del 68 % de los estudiantes.

II) De acuerdo a un análisis de puntajes en exámenes en tres cursos introductorios de STEM

(SI Materials and Methods), un cambio de 0,47 desviaciones estándar produciría un

aumento de alrededor del 6 % en puntajes de exámenes promedio y se traduciría en un

aumento de 0,3 puntos en el promedio final. En un sistema de evaluación basado en letras,

las medias en los cursos analizados aumentarían de una B- a B o de B a B + (sistema de

evaluación de Estados Unidos).

El resultado de cursos de pregrado de STEM también puede compararse con el impacto de las intervenciones educativas a nivel previo a la universidad. Una revisión reciente de las intervenciones educativas en la literatura de educación preescolar a educación media informa un

Page 9: Aprendizaje activo mejora el desempeño estudiantil …vra.ucv.cl/ddcyf/wp-content/uploads/2017/04/Aprendizaje...inventarios conceptuales y otras evaluaciones fue de una diferencia

9

tamaño del efecto medio de 0,39 cuando los impactos son medidos con pruebas desarrolladas por el investigador, análogas a los puntajes en exámenes analizados en este trabajo, y un tamaño del efecto medio de 0,24 medido con pruebas de alcance limitado, análogas a los inventarios del concepto analizados en este trabajo. Así, el tamaño del efecto del aprendizaje activo en el nivel de pregrado parece mayor que los tamaños del efecto de innovaciones educativas en el marco de educación preescolar a educación media, donde el tamaño del efecto de 0,20 o aún más pequeño puede ser considerado de interés político. También, existen al menos dos formas de interpretar una razón de probabilidades de 1,95 para el riesgo de reprobar un curso de STEM:

I) Si los experimentos analizados en este trabajo se hubiesen realizado como ensayos

controlados aleatorios de intervenciones médicas, podrían haber sido detenidos para

beneficio de alguien, lo que significa que ya no se somete a los pacientes a una condición

de control porque el tratamiento a prueba fue claramente más beneficioso. Por ejemplo, un

análisis reciente de 143 ensayos médicos controlados y aleatorios que se detuvieron para

beneficio del paciente arrojó que estos pacientes tenían un riesgo relativo promedio de

0,52, que oscilaba de 0,22 a 0,66. Además, las directivas de buenas prácticas sugieren que

los comités de gestión de datos permitan que tales estudios sean detenidos a beneficio del

individuo si los análisis provisionales tienen muestras grandes y valores de P bajo 0,001.

Los estudios de educación que se analizaron en este trabajo cumplieron ambos criterios

para las tasas de fracaso: el riesgo relativo promedio fue de 0,64 y el valor de P en la razón

de probabilidades global fue << 0,001. Sin embargo, cualquier analogía con ensayos

biomédicos se califica por la falta de diseños aleatorios en estudios que incluyan datos

sobre las tasas de fracaso.

II) Habían 29.300 estudiantes en las 67 clases con enfoque tradicional que contaban con

datos sobre las tasas de fracaso. Dado que la tasa de fracaso bruto en esta muestra tuvo

un promedio de 33,8 % en clases tradicionales y 21,8 % en aprendizaje activo, los datos

sugieren que hubiese habido 3.516 estudiantes que no habrían fracasado en estos cursos

de STEM en el caso de que se hubiese usado aprendizaje activo. Basado en suposiciones

conservadoras (SI Materials and Methods), esto se traduce en un ahorro de más de

3.500.000 dólares en matrículas para la población del estudio si todos los estudiantes

hubiesen sido expuestos a aprendizaje activo. Si se implementara el aprendizaje activo

ampliamente, el ahorro total en matrículas sería mucho mayor, dado que, solo en 2010,

había 21 millones de estudiantes matriculados en universidades estadounidenses y que

alrededor de un tercio de estos estudiantes pretendían estudiar carreras relacionadas a

STEM.

Por último, el mejoramiento en las notas y las bajas tasas de fracaso debiesen tener un impacto importante sobre el problema de base. Por ejemplo, el informe del Consejo de Asesores del Presidente del 2012 sobre Ciencia y Tecnología pide que, en la próxima década, se impartan un millón de carreras adicionales de STEM en los Estados Unidos —lo que supone un aumento del 33 % del total anual actual. El informe señala que simplemente al aumentar la tasa de retención de STEM actual de un 40 % a un 50 % ayudaría a cumplir con tres cuartos de esa meta. Según un reciente estudio de cohortes del Centro Nacional para Estadísticas de la Educación, existen brechas de 0,5 y 0,4 en el promedio final de notas de los cursos STEM de estudiantes de primer año de licenciatura y diplomado, respectivamente, de quienes se retiran de programas STEM versus quienes siguen en dichos programas. Un aumento de 0,3 en el promedio de notas por medio de aprendizaje activo haría que los estudiantes que se retiran lograran un nivel de rendimiento cercano al nivel de rendimiento actual de los que se quedan. Otros análisis de los

Page 10: Aprendizaje activo mejora el desempeño estudiantil …vra.ucv.cl/ddcyf/wp-content/uploads/2017/04/Aprendizaje...inventarios conceptuales y otras evaluaciones fue de una diferencia

10

estudiantes que se retiran de carreras STEM indica que ciertos factores, tales como una mayor tasa de aprobación, mejores notas y una mayor participación en los cursos, desempeñan un papel positivo en la retención. Además de proporcionar evidencia de que el aprendizaje activo puede mejorar la educación STEM de pregrado, los resultados de este trabajo tienen implicaciones importantes para investigaciones futuras. Los estudios que se metaanalizaron en este trabajo representan la primera generación de trabajo sobre la educación STEM de pregrado; los investigadores contrastaron una gran variedad de enfoques e intensidades de aprendizaje activo con clases tradicionales. En vista de los resultados obtenidos, es razonable plantear dudas sobre el uso continuo de clases tradicionales como un control en experimentos futuros. En cambio, puede ser más productivo centrarse en lo que se llama "investigación de segunda generación": utilizar psicología educativa y ciencia cognitiva para inspirar cambios en el diseño de cursos y luego comprobar hipótesis acerca de qué tipo de aprendizaje activo es más apropiado y eficiente para ciertos temas o población estudiantil. La investigación de segunda generación también podría explorar qué aspectos de la conducta del profesor son más importantes para lograr los mayores beneficios con el uso de aprendizaje activo y podría profundizar en el trabajo reciente que indica que los estudiantes de minorías y con falta de capacitación pueden obtener un beneficio mayor de métodos activos. Además, será más importante responder preguntas sobre la intensidad de aprendizaje activo: ¿más es siempre mejor? Aunque el tiempo dedicado al aprendizaje activo fue muy variable en los estudios analizados en este trabajo —los cuales oscilan sólo entre 10-15 % del tiempo de la clase dedicado a preguntas con clickeras y a ambientes de estudio sin cátedras— no se pudo evaluar la relación entre la intensidad (o tipo) de aprendizaje activo y el rendimiento de los estudiantes, debido a la falta de datos (SI Materials and Methods). A medida que la investigación continúa, se predice que los diseños de curso inspirados por los estudios de segunda generación resultarán en beneficios adicionales para el logro estudiantil, especialmente cuando los tipos de intervenciones de aprendizaje activo analizados en este trabajo —que se centraron únicamente en las innovaciones en clase— se combinan con ejercicios obligatorios que se completan fuera de las sesiones de clase. Finalmente, los datos sugieren que los profesores de STEM comenzarían a cuestionar el uso continuo de clases tradicionales en la práctica diaria, sobre todo a la luz de recientes trabajos que indican que el aprendizaje activo le brinda beneficios desproporcionados a estudiantes de STEM de bajos recursos y a alumnas que estudian disciplinas dominadas por hombres. Si bien la docencia tradicional ha dominado la educación de pregrado por más de un milenio y sigue teniendo firmes defensores, la evidencia actual sugiere que un enfoque constructivista de "preguntar, no decir" puede llevar a grandes mejoras en el rendimiento de los estudiantes —lo que intensifica las recientes demandas de investigadores y juntas directivas para apoyar a los miembros de facultad que están transformando sus cursos STEM.

5. Materiales y métodos

Para crear una definición práctica de aprendizaje activo, se recolectaron las definiciones escritas de 338 miembros de la audiencia de seminarios departamentales de biología sobre el aprendizaje activo, en universidades en Estados Unidos y Canadá. Luego, se codificaron ciertos elementos en las respuestas para crear la siguiente definición de consenso:

El aprendizaje activo involucra a los estudiantes en el proceso de aprendizaje a través de las actividades y discusiones en clase, en vez de escuchar pasivamente a un experto. Enfatiza el pensamiento complejo y a menudo supone trabajos de grupo.

Page 11: Aprendizaje activo mejora el desempeño estudiantil …vra.ucv.cl/ddcyf/wp-content/uploads/2017/04/Aprendizaje...inventarios conceptuales y otras evaluaciones fue de una diferencia

11

Según Bligh, se define clase tradicional como "... exposición continua del maestro." Bajo esta definición, se asumía que la actividad del estudiante se limitaba a tomar notas o hacer preguntas ocasionales y espontáneas al profesor.

5.1. Búsqueda en la literatura

Se realizaron búsquedas en la literatura no convencional, principalmente en tesis doctorales inéditas y actas de congresos —además de fuentes analizadas por expertos— para encontrar estudios que comparan el rendimiento de los estudiantes en cursos de STEM con docencia tradicional versus aprendizaje activo. Se utilizaron cuatro enfoques para encontrar artículos que pudiesen ser considerados: buscar manualmente en cada edición de 55 revistas de Educación de STEM desde el 01 de junio de 1998 al 01 de enero de 2010, buscar en siete bases de datos mediante un conjunto de términos, buscar en revisiones y bibliografías (SI Materials and Methods) y extraer las referencias de los artículos que ya habían sido admitidos en el estudio (SI Materials and Methods). No hubo ningún límite de tiempo inicial para la admisión de artículos para el estudio; el corte final de admisión fue que la finalización o publicación del artículo haya sido antes del 01 de enero de 2010.

5.2. Criterios de admisión

Como se recomienda, los criterios de admisión para las fases de codificación y análisis de datos final del estudio se establecieron al inicio del trabajo y no fueron alterados. Se codificaron los estudios que (i) contrastaran clases tradicionales con cualquier intervención de aprendizaje activo, en las cuales el tiempo total dedicado a cada enfoque no difiriera por más de 30 min/semana; (ii) se dieran en el contexto de un curso regular de pregrado; (iii) estuviesen limitados en gran parte o exclusivamente a los cambios en la conducta de una clase regular o sesiones de cátedra; (iv) fuesen un curso de astronomía, biología, química, ciencias informáticas, ingeniería, geología, matemáticas, recursos naturales o ciencias ambientales, nutrición o ciencia alimentaria, física, psicología o estadísticas; e (v) incluyeran datos sobre algún aspecto del rendimiento académico de los estudiantes. Es importante señalar que el criterio (i) brindó artículos que representaban una amplia gama de actividades de aprendizaje activo, incluidas algunas "actividades grupales cooperativas en clase" vagamente definidas, hojas de cálculo para trabajar en clase, clickeras, aprendizaje basado en problemas (ABP) y estudio de casos, con intensidades que oscilaban desde 10 % hasta el 100 % del tiempo de la clase (SI Materials and Methods). Así, la intención de este estudio fue evaluar el efecto promedio de cualquier tipo e intensidad de aprendizaje activo en contraste con clases tradicionales. La búsqueda de literatura brindó 642 artículos que cumplían con estos cinco criterios y, posteriormente, fueron codificados por al menos uno de los autores.

5.3. Codificación Los 642 artículos fueron codificados por uno de los autores (S.F.) y 398 fueron codificados independientemente por al menos uno de los miembros del equipo de autores (M.M., M.S., M.P.W., N.O. o H.J.). Los 244 "rechazos fáciles" fueron excluidos del estudio después de que el codificador inicial (S.F.) determinara que claramente no cumplían con uno o más de los cinco criterios de admisión; un análisis posterior sugirió que los rechazos fáciles fueron justificados (SI Materials and Methods).

Page 12: Aprendizaje activo mejora el desempeño estudiantil …vra.ucv.cl/ddcyf/wp-content/uploads/2017/04/Aprendizaje...inventarios conceptuales y otras evaluaciones fue de una diferencia

12

Dos codificadores se reunieron para revisar cada uno de los 398 artículos restantes y llegar a un consenso sobre:

I) Los cinco criterios mencionados para la admisión al estudio.

II) Equivalencia de examen —lo que significa que la evaluación de estudiantes en los grupos

con enfoque tradicional y aprendizaje activo tenían que ser idénticas o equivalentes según

lo juzgado por un observador neutral reclutado por los autores del estudio en cuestión, pero

que no estuviera al tanto de la hipótesis que se estaba probando, o una evaluación que

tuviese preguntas aleatorias de un banco de prueba común.

III) Equivalencia de estudiante, específicamente si el experimento se basó en la aleatorización

o cuasialeatorización entre enfoques y, si fue cuasialeatorio, si los estudiantes en la clase

con enfoque tradicional y aprendizaje activo eran estadísticamente indistinguibles en

términos de (a) rendimiento académico general previo (generalmente medido según el

promedio de notas al momento de entrar al curso, la prueba de aptitud académica o los

resultados de exámenes de Universidades Estadounidenses), o (b) exámenes previos

relacionados directamente al tema en cuestión.

IV) Equivalencia de profesor —es decir, si los profesores en las clases con enfoque tradicional

y aprendizaje activo eran idénticos, asignados aleatoriamente o consistían en un grupo de

tres o más en cada enfoque.

V) Los datos que podrían utilizarse para calcular un tamaño del efecto.

Para reducir o eliminar la pseudoreplicación, los codificadores también anotaron los datos de tamaño del efecto con el uso de criterios preestablecidos para identificar y reportar tamaños del efecto sólo de estudios que representaban poblaciones y cursos independientes registrados. Si los datos presentados provenían de iteraciones del mismo curso en la misma institución, se combinaron los datos registrados de más de un grupo de control o enfoque del mismo experimento. Además, se combinaron datos de múltiples resultados del mismo estudio (por ejemplo, una serie de exámenes equivalentes de mitad de período) (SI Materials and Methods). Los codificadores también extrajeron los datos sobre tamaño de clase, tipo y nivel de curso y tipo de aprendizaje activo, cuando estuviesen disponibles. Los criterios (III) y (IV) estaban destinados a evaluar la calidad metodológica en los conjuntos finales de datos, compuestos por 158 comparaciones independientes con datos sobre el rendimiento estudiantil en exámenes y 67 comparaciones independientes con datos sobre las tasas de fracaso.

5.4. Análisis de datos Antes de analizar los datos, se examinó la distribución de tamaños de clases en el estudio y se categorizó esta variable como pequeña, mediana y grande (SI Materials and Methods). También, se utilizaron protocolos establecidos para combinar datos de múltiples enfoques/controles y/o datos de resultados múltiples, para así producir una sola comparación de pares de cada población estudiantil y curso independiente en el estudio (SI Materias and Methods).

Page 13: Aprendizaje activo mejora el desempeño estudiantil …vra.ucv.cl/ddcyf/wp-content/uploads/2017/04/Aprendizaje...inventarios conceptuales y otras evaluaciones fue de una diferencia

13

Los datos que se analizaron provienen de dos tipos de estudios: (i) ensayos aleatorios, donde cada estudiante fue colocado en una clase con un enfoque aleatorio, y (ii) diseños cuasialeatorios, donde los estudiantes escogieron sus clases, sin saber qué enfoque tendría la clase al momento de registrarse. Es importante tener en cuenta que en los experimentos cuasialeatorios, los estudiantes fueron asignados a un enfoque como grupo, lo que significa que no son muestras estadísticamente independientes. Esto conduce a problemas estadísticos: el número de puntos de datos independientes de cada enfoque no es igual al número de estudiantes. El elemento de falta de independencia en diseños cuasialeatorios puede causar que se subestime la desviación real al realizar la determinación de desviaciones, lo que lleva a sobreestimaciones de los niveles de importancia y del peso que se le asigna a cada estudio. Para corregir este elemento de falta de independencia en estudios cuasialeatorios, se utilizó una calculadora de ajuste de agrupación en Microsoft Excel basada en métodos desarrollados por Hedges e implementada en varios metaanálisis recientes. El ajuste de agrupación de datos requirió una estimación del Coeficiente de Correlación Intraclase (CCI). Sin embargo, ninguno de los estudios informó sobre dichos coeficientes, y según nuestro conocimiento, ningún estudio ha informado sobre este coeficiente en cursos STEM a nivel universitario. Por lo tanto, para obtener una estimación del CCI, se recurrió a la literatura sobre educación preescolar a educación media. Un artículo reciente analizó los CCI de logro académico en matemáticas y lenguaje para una muestra nacional de estudiantes de educación preescolar a educación media. Se utilizó el CCI promedio registrado de matemáticas (0,22) como una estimación conservadora del CCI en las salas de clases de STEM a nivel universitario. Se debe tener en cuenta que aunque la corrección de agrupación tiene una gran influencia en la variación para cada estudio, no influye sustancialmente en la estimación puntual del tamaño del efecto. Se registraron los tamaños del efecto y se llevó a cabo el metaanálisis en el software de Metanálisis Integral. Todos los valores de P registrados son bilaterales, a menos que se indique lo contrario. Se utilizó un modelo de efectos aleatorios para comparar los tamaños del efecto. El modelo de tamaño del efecto aleatorio era apropiado debido a que las condiciones que podrían afectar a los logros de aprendizaje variaron entre los estudios del análisis, incluido (i) el tipo (por ejemplo, ABP versus clickeras), la intensidad (porcentaje de tiempo de clase dedicado a las actividades constructivistas) y la aplicación (por ejemplo, con o sin evaluaciones) de aprendizaje activo, (ii) la población estudiantil, (iii) el nivel y la disciplina del curso, y (iv) el tipo, nivel cognitivo y tiempo —en relación con al ejercicio de aprendizaje activo— de exámenes u otras evaluaciones. Se calcularon los tamaños del efecto como (i) la diferencia promedio estandarizada y ponderada con la g de Hedges para datos sobre los puntajes de examinación y (ii) el logaritmo de posibilidades para datos sobre las tasas de fracaso. Para facilitar la interpretación, posteriormente se convirtieron los valores del logaritmo a razón de probabilidades, cociente de riesgos o riesgo relativo. Para evaluar la influencia del sesgo de publicación en los resultados, se evaluaron los gráficos de embudo visual y estadísticamente, se aplicó el método trim and fill de Duval y Tweedie y se calcularon los números de seguridad.

5.5. Resultados adicionales Si los estudios solo daban datos sobre las tasas de fracaso, no se insistió en que las evaluaciones sean idénticas o formalmente equivalentes. Para evaluar la hipótesis de que las diferencias en las tasas de fracaso que se registraron en clases tradicionales y en clases con aprendizaje activo se debían a los cambios en la dificultad de los exámenes y de otras evaluaciones del curso, se evaluaron 11 estudios en donde los datos sobre la tasa de fracaso se basaron en comparaciones en las cuales la mayoría o todas las preguntas de examen eran idénticas. La razón de

Page 14: Aprendizaje activo mejora el desempeño estudiantil …vra.ucv.cl/ddcyf/wp-content/uploads/2017/04/Aprendizaje...inventarios conceptuales y otras evaluaciones fue de una diferencia

14

probabilidades promedio para estos 11 estudios fue 1,97 ± 0,36 (SE) —casi el tamaño del efecto exacto que se calculó a partir del conjunto de datos.

6. Referencias

Bligh DA (2000) What’s the Use of Lectures? (Jossey-Bass, San Francisco). Bonwell CC, Eison JA (1991) Active Learning: Creating Excitement in the Classroom (George

Washington Univ, Washington, DC). Borenstein M (2009) Effect sizes for continuous data. The Handbook of Systematic Review

and Meta-Analysis, eds Cooper H, Hedges LV, Valentine JC (Russell Sage Foundation, New York), pp 221–235.

Borenstein M, et al. (2006) Comprehensive Meta-Analysis (Biostat, Inc., Englewood, NJ). Bowen CW (2000) A quantitative literature review of cooperative learning effects on high

school and college chemistry achievement. J Chem Educ 77(1):116–119. Brockliss L (1996) Curricula. A History of the University in Europe, ed de RidderSymoens H

(Cambridge Univ Press, Cambridge, UK), Vol II, pp 565–620. Burgan M (2006) In defense of lecturing. Change 6:31–34. Cordray DS, Harris TR, Klein S (2009) A research synthesis of the effectiveness, replicability,

and generality of the VaNTH challenge-based instructional modules in bioengineering. J. Eng Ed 98(4).

Davis D (2012) Multiple Comprehension Strategies Instruction (MCSI) for Improving Reading Comprehension and Strategy Outcomes in the Middle Grades. (The Campbell Collaboration, Oxford). Available at http://campbellcollaboration.org/lib/project/167/. Accessed December 10, 2013.

Donner A, Klar N (2002) Issues in the meta-analysis of cluster randomized trials. Stat Med 21(19):2971–2980.

Dunlosky J, Rawson KA, Marsh EJ, Nathan MJ, Willingham DT (2013) Improving students’ learning with effective learning techniques: Promising directions from cognitive and educational psychology. Psych Sci Publ Int 14(1):4–58.

Eddy S, Crowe AJ, Wenderoth MP, Freeman S (2013) How should we teach treethinkin g? An experimental test of two hypotheses. Evol Ed Outreach 6:1–11.

Fleiss J, Berlin JA (2009) Effect sizes for dichotomous data. The Handbook of Research Synthesis and Meta-Analysis, eds Cooper H, Hedges LV, Valentine JC (Russell Sage Foundation, New York), pp 237–253.

Freeman S, Haak D, Wenderoth MP (2011) Increased course structure improves performance in introductory biology. CBE Life Sci Educ 10(2):175–186.

Goodman IF, et al. (2002) Final Report of the Women’s Experiences in College Engineering (WECE) Project (Goodman Research Group, Cambridge, MA).

Greenhouse JB, Iyengar S (2009) Sensitivity analysis and diagnostics. The Handbook of Research Synthesis and Meta-Analysis, eds Cooper H, Hedges LV, Valentine JC (Russell Sage Foundation, New York), pp 417–433.

Gurevitch J, Hedges LV (1999) Statistical issues in ecological meta-analyses. Ecology 80(4):1142–1149.

Haak DC, HilleRisLambers J, Pitre E, Freeman S (2011) Increased structure and active learning reduce the achievement gap in introductory biology. Science 332(6034): 1213–1216.

Handelsman J, et al. (2004) Education. Scientific teaching. Science 304(5670):521–522. Haukoos GD, Penick JE (1983) The influence of classroom climate on science process and

content achievement of community college students. J Res Sci Teach 20(7): 629–637. Hedges LV (2007) Correcting a significance test for clustering. J Educ Behav Stat 32(2): 151–

179. Hedges LV (2009) Statistical considerations. The Handbook of Research Synthesis and Meta-

Analysis, eds Cooper H, Hedges LV, Valentine JC (Russell Sage Foundation, New York), pp 38–47.

Page 15: Aprendizaje activo mejora el desempeño estudiantil …vra.ucv.cl/ddcyf/wp-content/uploads/2017/04/Aprendizaje...inventarios conceptuales y otras evaluaciones fue de una diferencia

15

Hedges LV, Hedberg EC (2007) Intraclass correlation values for planning group-randomized trials in education. Educ Eval Policy Anal 29:60–87.

Henderson C, Beach A, Finkelstein N (2011) Facilitating change in undergraduate STEM instructional practices: An analytic review of the literature. J Res Sci Teach 48(8): 952–984.

Higgins JPT, Green S, eds (2011) Cochrane Handbook for Systematic Reviews of Interventions, Version 5.1.0 (The Cochrane Collaboration, Oxford). Available at www. cochrane-handbook.org. Accessed December 14, 2012.

Jensen JL, Lawson A (2011) Effects of collaborative group composition and inquiry instruction on reasoning gains and achievement in undergraduate biology. CBE Life Sci Educ 10(1):64–73.

Lipsey MW, et al. (2012) Translating the Statistical Representation of the Effects of Educational Interventions into Readily Interpretable Forms (US Department of Education, Washington).

Lipsey MW, Wilson DB (2001) Practical Meta-Analysis (Sage Publications, Thousand Oaks, CA).

Lorenzo M, Crouch CH, Mazur E (2006) Reducing the gender gap in the physics classroom. Am J Phys 74(2):118–122.

Martin T, Rivale SD, Diller KR (2007) Comparison of student learning in challengebased and traditional instruction in biomedical engineering. Ann Biomed Eng 35(8): 1312–1323.

Momsen JL, Long TM, Wyse SA, Ebert-May D (2010) Just the facts? Introductory undergraduate biology courses focus on low-level cognitive skills. CBE Life Sci Educ 9(4): 435–440.

Montori VM, et al. (2005) Randomized trials stopped early for benefit: A systematic review. JAMA 294(17):2203–2209.

National Center for Education Statistics (2012) Digest of Education Statistics (US Department of Education, Washington).

National Center for Education Statistics (2012) STEM in Postsecondary Education (US Department of Education, Washington).

National Science Board (2010) Science and Engineering Indicators 2010 (National Science Foundation, Arlington, VA).

Orwin RG, Vevea JL (2009) Evaluating coding decisions . The Handbook of Research Synthesis and Meta-Analysis, eds Cooper H, Hedges LV, Valentine JC (Russell Sage Foundation, New York), pp 177–203.

PCAST STEM Undergraduate Working Group (2012) Engage to Excel: Producing One Million Additional College Graduates with Degrees in Science, Technology, Engineering, and Mathematics, eds Gates SJ, Jr, Handelsman J, Lepage GP, Mirkin C (Office of the President, Washington).

Piaget J (1926) The Language and Thought of the Child (Harcourt Brace, New York). Pocock SJ (2006) Current controversies in data monitoring for clinical trials. Clin Trials

3(6):513–521. Puzio K, Colby GT (2013) Cooperative learning and literacy: A meta-analytic review. J Res Ed

Effect 6(4):339–360. Raudenbush SW (2009) Analyzing effect sizes: Random-effects models. The Handbook of

Research Synthesis and Meta-Analysis, eds Cooper H, Hedges LV, Valentine JC (Russell Sage Foundation, New York), pp 295–315.

Reed JG, Baxter PM (2009) Using reference databases. The Handbook of Research Synthesis and Meta-Analysis, eds Cooper H, Hedges LV, Valentine JC (Russell Sage Foundation, New York), pp 73–101.

Rothstein H, Hopewell S (2009) Grey literature. The Handbook of Research Synthesis and Meta-Analysis, eds Cooper H, Hedges LV, Valentine JC (Russell Sage Foundation, New York), pp 103–125.

Ruiz-Primo MA, Briggs D, Iverson H, Talbot R, Shepard LA (2011) Impact of undergraduate science course innovations on learning. Science 331(6022):1269–1270.

Seymour E, Hewitt NM (1997) Talking About Leaving: Why Undergraduates Leave the Sciences (Westview Press, Boulder, CO).

Page 16: Aprendizaje activo mejora el desempeño estudiantil …vra.ucv.cl/ddcyf/wp-content/uploads/2017/04/Aprendizaje...inventarios conceptuales y otras evaluaciones fue de una diferencia

16

Slavich GM, Zimbardo PG (2012) Transformational teaching: Theoretical underpinnings, basic principles, and core methods. Educ Psychol Rev 24(4):569–608.

Springer L, Stanne ME, Donovan SS (1999) Effects of small-group learning on undergraduates in science, mathematics, engineering, and technology. Rev Educ Res 69(1):21–51.

Sutton AJ (2009) Publication bias. The Handbook of Research Synthesis and MetaAnalysis , eds Cooper H, Hedges LV, Valentine JC (Russell Sage Foundation, New York), pp 435–452.

Vygotsky LS (1978) Mind in Society (Harvard Univ Press, Cambridge, MA). Watkins J, Mazur E (2013) Retaining students in science, technology, engineering, and

mathematics (STEM) majors. J Coll Sci Teach 42(5):36–41. White HD (2009) Scientific communication and literature retrieval. The Handbook of Research

Synthesis and Meta-Analysis, eds Cooper H, Hedges LV, Valentine JC (Russell Sage Foundation, New York), pp 51–71.