Módulo 8: Evaluación, algoritmos y EaD · complejo que manejar la computadora personal o el...

27
ISBN 987- 9225 -12 – 0 1 Maestría en Gestión de Proyectos Educativos Educación a Distancia Año 2018 Módulo 8 Módulo 8: Evaluación, algoritmos y EaD Jorge E. Grau También se puede aprender mirando hacia atrás Noam Chomsky La Red es algo 100% nuevo, e interactuar socialmente en ella es bastante más complejo que manejar la computadora personal o el celular. En la Argentina nadie nos entrenó para interactuar con las redes sociales, donde ahora se dan fenómenos sociales más “densos” que en la actividad presencial. La educación superior no ha permanecido al margen de esta evolución hacia nuevos procesos de enseñanza con aplicación de las TICs y sus recursos tecnológicos y, consecuentemente, la EaD ha irrumpido y ha avanzado como algo más que una simple consecuencia de la comercialización de dispositivos tecnológicos diversos –celulares, Internet, etcétera–. Así como los términos Big Data y Data Mining describen la cantidad sin precedentes de datos utilizables que provienen de todas las actividades humanas, la investigación de los datos empíricos de los procesos que se generan en EaD busca evaluar la materia prima de esos datos dentro de una cosmovisión de aprendizajes basada en la interacción. Si bien la recolección y el almacenamiento de estos datos es cada vez más fácil y económica, para obtener información significativa de ese volumen de datos también se necesita una nueva forma de pensar donde lo más importante no son las abstracciones matemáticas sino las interacciones reales en ese sistema EaD. Índice Temático: 1. Introducción 1.1. Data mining o Minería de Datos 1.2. Datos 1.3. Análisis de Datos 2. Introducción al análisis de interacciones 2.1. Interacciones 2.2. La analítica de la EaD como parte del análisis de datos 2.3. Factores que afectan el rendimiento académico 2.4. Errores estadísticos comunes 2.5. Programas frecuentes para las plataformas conocidas 3. Características a tener en cuenta en la EaD 3.1. Actitudes frente al conocimiento por parte de las personas 3.2. Sesgos 3.3. Ejemplo: Predicción del fracaso escolar de los estudiantes 4. Conclusiones 5. Bibliografía

Transcript of Módulo 8: Evaluación, algoritmos y EaD · complejo que manejar la computadora personal o el...

Page 1: Módulo 8: Evaluación, algoritmos y EaD · complejo que manejar la computadora personal o el celular. En la Argentina nadie nos entrenó para interactuar con las redes sociales,

ISBN 987- 9225 -12 – 0 1

Maestría en Gestión de Proyectos Educativos

Educación a Distancia

Año 2018 Módulo 8

Módulo 8:

Evaluación, algoritmos y EaD

Jorge E. Grau

También se puede aprender mirando hacia atrás

Noam Chomsky

La Red es algo 100% nuevo, e interactuar socialmente en ella es bastante más complejo que manejar la computadora personal o el celular. En la Argentina nadie nos entrenó para interactuar con las redes sociales, donde ahora se dan fenómenos sociales más “densos” que en la actividad presencial. La educación superior no ha permanecido al margen de esta evolución hacia nuevos procesos de enseñanza con aplicación de las TICs y sus recursos tecnológicos y, consecuentemente, la EaD ha irrumpido y ha avanzado como algo más que una simple consecuencia de la comercialización de dispositivos tecnológicos diversos –celulares, Internet, etcétera–.

Así como los términos Big Data y Data Mining describen la cantidad sin precedentes de datos utilizables que provienen de todas las actividades humanas, la investigación de los datos empíricos de los procesos que se generan en EaD busca evaluar la materia prima de esos datos dentro de una cosmovisión de aprendizajes basada en la interacción. Si bien la recolección y el almacenamiento de estos datos es cada vez más fácil y económica, para obtener información significativa de ese volumen de datos también se necesita una nueva forma de pensar donde lo más importante no son las abstracciones matemáticas sino las interacciones reales en ese sistema EaD.

Índice Temático: 1. Introducción

1.1. Data mining o Minería de Datos

1.2. Datos

1.3. Análisis de Datos

2. Introducción al análisis de interacciones

2.1. Interacciones

2.2. La analítica de la EaD como parte del análisis de datos

2.3. Factores que afectan el rendimiento académico

2.4. Errores estadísticos comunes

2.5. Programas frecuentes para las plataformas conocidas

3. Características a tener en cuenta en la EaD

3.1. Actitudes frente al conocimiento por parte de las personas

3.2. Sesgos

3.3. Ejemplo: Predicción del fracaso escolar de los estudiantes

4. Conclusiones

5. Bibliografía

Page 2: Módulo 8: Evaluación, algoritmos y EaD · complejo que manejar la computadora personal o el celular. En la Argentina nadie nos entrenó para interactuar con las redes sociales,

ISBN 987- 9225 -12 – 0 2

Maestría en Gestión de Proyectos Educativos

Educación a Distancia

Año 2018 Módulo 8

1. Introducción

La tecnología informática tiene una deuda con el usuario no especializado. Debería enchufarse y listo

Hugo Scolnik

En este Módulo se plantea que la computadora no solamente funciona como una poderosa herramienta para la modelización numérica de problemas de ciencias sociales, sino que en cierto sentido la matemática aplicada puede considerarse una ciencia experimental, cuyo laboratorio es la computadora y, por consiguiente, los modelos matemáticos computacionales son, o pueden llegar, a ser herramientas para conocer mejor fenómenos de distintas disciplinas. Y el interés aumenta si observamos que la computadora no solamente es “el laboratorio” de los matemáticos aplicados, sino también el de investigadores sociales y en educación (P. M. Jacovkis, 2005).

Obviamente, a partir de la aparición de la computadora se ha intentado modelizar cada vez más fenómenos de distintas disciplinas. Ese camino, como sucede en esos casos, se presta a exageraciones e intentos de considerar que se tiene una nueva panacea para muchos problemas no resueltos; el caso más conocido de uso impropio de la modelización matemática con pocos datos, o con datos no comparables. En esencia, es importante no caer en la tentación de querer modelizar todo, y en particular fenómenos relacionados con las ciencias sociales que requieran mucha información.

¿Por qué queremos analizar los datos de los procesos que se generan en EaD?

Los motivos que nos llevan a analizar esa información y los procesos que se generan en EaD son aquellos que nos pueden ayudar a optimizar, administrar, examinar, planificar, explorar, investigar, extraer conclusiones, inferir, o predecir–, y tomar decisiones en el ámbito en el que estemos.

Desde la aparición de las plataformas e-learning –Moodle, WebCT, Claroline, etc.– y los modos de enseñanza y de aprendizaje que conllevan, las técnicas de minería de datos –Data Mining– están siendo utilizadas en la educación. Los sistemas de información almacenan los datos de todas las actividades en bases de datos que, procesados correctamente, pueden ofrecer información relevante para el docente, que puede saber el comportamiento que tienen los estudiantes en la plataforma y descubrir el proceso de aprendizaje que llevan a cabo, adaptar sus cursos al modo en que trabajan sus alumnos y tomar medidas ante los problemas que se puedan detectar. Es decir, esta información útil que recopilan los sistemas información educativos puede utilizarse para tomar decisiones y responder a preguntas, buscando la mejora de la calidad y la optimización del sistema educativo.

La combinación de esta increíble cantidad de datos genera clasificaciones como “propietario de un perro”, “entusiasta con ideas extrañas”, si se es “hermano latinoamericano”, o argentino con bajos ingresos, si se tiene más de 66 años, si tiene poca educación o posesiones poco valiosas, si vive más en el campo, si es joven entre los treinta y cuarenta años con ingresos por debajo del promedio, si estamos ante un “matrimonio sofisticado”, si se va a ser padre por primera vez, si alguien es diabético o tiene problemas con el colesterol...

Si uno chatea con un compañero o le envía un borrador de su trabajo, los metadatos –lo que surge del análisis de los datos– hablan de la frecuencia con la que lo hace con esa persona, el tiempo empleado, la hora del día o el número de palabras, pero no su contenido. Estos metadatos indican qué canales de comunicación frecuenta,

Page 3: Módulo 8: Evaluación, algoritmos y EaD · complejo que manejar la computadora personal o el celular. En la Argentina nadie nos entrenó para interactuar con las redes sociales,

ISBN 987- 9225 -12 – 0 3

Maestría en Gestión de Proyectos Educativos

Educación a Distancia

Año 2018 Módulo 8

para que los utiliza, las páginas web que visita, el número de correos electrónicos con los que opera, la localización de los mismos, etcétera.

1.1. Data mining o Minería de Datos

El data mining surge como una tecnología que intenta ayudarnos a comprender el contenido de bases de datos. Consiste en la aplicación de técnicas de análisis de datos tanto estadísticas como las desarrolladas en el entorno de las ciencias de la computación y la inteligencia artificial a grandes cantidades de datos. Esto implica la disponibilidad de una gran cantidad de casos de una determinada situación. En el momento que el docente y/o el investigador les atribuye algún significado especial pasan a convertirse en información. Cuando los especialistas elaboran o encuentran un modelo, haciendo que la interpretación de esa información y el modelo represente un valor agregado, entonces nos referimos a conocimiento.

La aplicación de las técnicas de Minería de Datos –Data Mining, o DM– sobre sistemas EaD o e-learning es lo que se ha dado en llamar Educational Data Mining –EDM–. Las primeras referencias de estos trabajos datan de 1995 (Fig. N° 1).

Fig. N° 1: Principales ámbitos de investigación en EDM (C. Márquez Vera, 2015)

Este procesamiento de datos puede ser útil tanto a los docentes como a los estudiantes. Los docentes podrán obtener una retroalimentación de su enseñanza, evaluar la estructura del curso y su eficacia en el proceso de aprendizaje, y también, clasificar a los alumnos en grupos en función de sus necesidades de orientación y seguimiento. A los estudiantes se les puede recomendar actividades y recursos que favorezcan su aprendizaje. Y puede aplicarse a diferentes entornos educativos:

Educación tradicional. En la cual se trata de transmitir conocimientos y habilidades basadas en el contacto personal docente-alumno y así poder estudiar incluso desde el punto de vista de la Psicología, cómo los alumnos aprenden.

El aprendizaje electrónico –E-learning– y los Sistemas de gestión de aprendizaje –Learning Management System, LMS–. El aprendizaje electrónico provee de instrucciones en línea a sus usuarios y los LMS proveen de comunicación, colaboración, administración y herramientas para reportar resultados.

Sistemas Tutoriales Inteligentes –Intelligent Tutoring System, ITS– y los Sistemas Hipermedia Adaptativos –Adaptive Educational Hypermedia System, AEHS–. Estos representan una alternativa para colocar en un sitio web, un enfoque educativo que pueda adaptarse a las necesidades

Page 4: Módulo 8: Evaluación, algoritmos y EaD · complejo que manejar la computadora personal o el celular. En la Argentina nadie nos entrenó para interactuar con las redes sociales,

ISBN 987- 9225 -12 – 0 4

Maestría en Gestión de Proyectos Educativos

Educación a Distancia

Año 2018 Módulo 8

de enseñanza de cada alumno.

La información obtenida puede ser usado por diferentes actores del proceso educativo, aunque en consideraciones iniciales se veía que iba dirigido para los estudiantes y los docentes, actualmente hay más interesados y con diferentes objetivos, como los diseñadores de cursos EaD, los investigadores de los procesos educativos y el personal directivo y administrativo de las instituciones (Fig. N° 2).

Fig. N° 2: Esquema del Proceso de aplicación de DM (C. Márquez Vera, 2015)

Desde un punto de vista académico, el data mining es una etapa dentro de un proceso mayor llamado extracción de conocimiento en bases de datos –Knowledge Discovery in Databases, o KDD–. Lo que hace el data mining es reunir las ventajas de áreas como la Estadística, la Inteligencia Artificial y la Computación, usando como materia prima las bases de datos. Una posible definición es considerarlo un proceso de identificación válido, potencialmente útil y entendible de patrones comprensibles que se encuentran ocultos en los datos (Fig. N° 3).

Fig. N° 3: Extracción de conocimiento en Bases de Datos (C. Romero, 2006)

Consecuentemente, el Data mining es una tecnología compuesta por etapas y procesos que integran varias áreas y que no se debe confundirse con un gran programa de software. Durante el desarrollo de estos proyectos se usan diferentes aplicaciones de software que pueden ser estadísticas, de visualización de datos o de inteligencia artificial. Actualmente existen aplicaciones de data mining muy poderosas que contienen “herramientas” conceptuales que facilitan el desarrollo de un proyecto.

1.2. Datos

El Data Mining trabaja con los datos mas diversos pero, en términos generales, dependerá de los objetivos que nos propongamos al aplicar estas técnicas:

- El entorno en el que nos situamos: EaD, blend, o enseñanza presencial.

- A quién va dirigido el conocimiento que extraigamos: autoridades académicas, docentes, o alumnos.

Page 5: Módulo 8: Evaluación, algoritmos y EaD · complejo que manejar la computadora personal o el celular. En la Argentina nadie nos entrenó para interactuar con las redes sociales,

ISBN 987- 9225 -12 – 0 5

Maestría en Gestión de Proyectos Educativos

Educación a Distancia

Año 2018 Módulo 8

Los objetivos, desde la óptica de la institución educativa, pueden ser:

- Mejora de la eficacia del sitio web y/o la adaptación a los hábitos de sus usuarios: tamaño de servidor óptimo, distribución de tráfico en la red.

- Organización de los recursos institucionales: diseño de horarios, adquisición de material

- Mejora de la oferta educativa: programas orientados a la demanda del algún sector social, orientación de alumnos en base a objetivos, capacidades y/o competencias.

Los objetivos, desde la óptica de los docentes, pueden ser:

- Cuantificar la efectividad del proceso de enseñanza-aprendizaje

- Organizar los contenidos de un curso

- Mejorar o corregir la estructura del curso

- Clasificar o agrupar alumnos en base a sus características: tutorización, asesoramiento, monitorear conocimiento interesante

- Buscar patrones de comportamiento en alumnos: patrones generales, patrones anómalos

- Evaluar las actividades realizadas en un curso: efectividad, motivación

- Monitorear actividades: errores más frecuentes en la realización de actividades, grado de dificultad de una actividad

- Personalizar y adaptar el contenido de cursos: diseñar planes de instrucción

Los objetivos, desde la óptica de los estudiantes, pueden ser:

- Qué actividades, recursos y tareas podrían mejorar su rendimiento.

- Qué actividades se ajustan mejor al perfil de un determinado alumno.

- Qué caminos recorrer para obtener un resultado concreto: basándonos en el camino ya recorrido por el alumno y su éxito, pPor comparación con lo realizado por otros alumnos de características análogas.

Los datos que necesitamos podemos definirlos, en principio, en:

- Datos estructurados

- Datos semiestructurados

- Datos sin estructurar

Los Datos también pueden ser internos, o externos, a la institución, y pueden ser, además, recogidos, creados, o provocados. Como se intuye, hay algunos solapamientos entre estas categorías, pero nos ofrecen un primer marco de referencia. Observemos ahora cada uno de estas categorías de datos con un poco más de detalle.

1) Datos estructurados

Proporcionan, habitualmente, la mayor cantidad de información. Algunos ejemplos de datos estructurados, referidos a estudiantes universitarios, son:

- Personales: Edad, género, nacionalidad, estado civil, idioma de origen.

- Académicos: Calificación del exámenes, promedio de calificaciones, etc.

- Físicos: Enfermedades, discapacidades, etcétera.

- Económicos: Nivel socioeconómico, ingreso familiar, beca, etcétera.

Page 6: Módulo 8: Evaluación, algoritmos y EaD · complejo que manejar la computadora personal o el celular. En la Argentina nadie nos entrenó para interactuar con las redes sociales,

ISBN 987- 9225 -12 – 0 6

Maestría en Gestión de Proyectos Educativos

Educación a Distancia

Año 2018 Módulo 8

- Familiares: Nivel cultural de la familia, hermanos del estudiante, orden de nacimiento entre los hermanos, nivel de educación de los padres, ausencia de apoyo a la educación en casa, otros problemas.

- Sociales: Estrato social, marginación, número de amigos en el aula, etc.

- Institucionales: Requisitos de ingreso, número de oportunidades para aprobar una asignatura, número permitido de asignaturas reprobadas, tipos de exámenes, calidad académica docente, condiciones de la infraestructura, satisfacción del estudiante.

- Pedagógicos: Control académico del estudiante, tipo de carrera a estudiar, estilo de aprendizaje, problemas específicos de aprendizaje, carencia de métodos efectivos para el aprendizaje.

- Laborales: Tiempo semanal dedicado al estudio y al trabajo.

- Adicciones: Tiempo dedicado a la TV, videojuegos, o computadora, consumo de alcohol y/o drogas.

2) Datos semiestructurados y sin estructurar

Representan a todos aquellos datos que no se incluyen tan fácilmente en columnas, filas y campos. Los datos semiestructurados son una mezcla entre los estructurados y los que están sin estructurar. Pueden tener alguna organización que se utilice para el análisis pero carecen de la configuración de los datos estruturados. Normalmente son textos densos, que pueden contener datos como fechas, números y hechos, o distintos tipos como imágenes. Estas inconsistencias dificultan el análisis utilizando programas informáticos tradicionales. Algunos ejemplos de datos semiestructurados y sin estructurar son:

- Fotografías, imágenes y videos.

- Sitios web.

- Archivos de texto o documentos, como correos electrónicos, PDF, blogs, publicaciones en redes sociales, etc.

- Presentaciones de PowerPoint, Prize, u otros.

Los datos creados y los datos provocados surgen porque formulamos preguntas a las personas y establecemos un mecanismo para capturar sus respuestas, como las encuestas de investigación, o los grupos de discusión. Las personas que se registran en línea en programas o instituciones también son ejemplos de datos creados, ya que la persona proporciona de forma voluntaria su información.

Para responder a las preguntas de nuestra actividad en EaD, es necesario identificar qué datos necesitamos. De acuerdo con lo hemos visto, existe una secuencia que deberíamos observar para identificar qué parámetros y datos van a responder a nuestras preguntas. Dicha secuencia, habitualmente, es:

- Datos internos estructurados.

Internos semiestructurados.

Internos sin estructurar.

- Externos estructurados.

Externos sin estructurar.

- Datos semiestructurados y sin estructurar

Page 7: Módulo 8: Evaluación, algoritmos y EaD · complejo que manejar la computadora personal o el celular. En la Argentina nadie nos entrenó para interactuar con las redes sociales,

ISBN 987- 9225 -12 – 0 7

Maestría en Gestión de Proyectos Educativos

Educación a Distancia

Año 2018 Módulo 8

1.3. Análisis de Datos

Los datos y el análisis van juntos. No tiene sentido recoger datos si después no aprendemos nada nuevo de ellos. En los métodos clásicos de análisis, el investigador debe formular una hipótesis y utilizar alguna herramienta que le permita explorar los datos y obtener informes para validarla. En los métodos de minería de datos se obtienen esas funcionalidades construyendo modelos analíticos a partir de los datos. La aplicación de los métodos de minería de datos mediante diversos algoritmos es posible en aquellos entornos dónde se disponga de esos datos y estos contengan “patrones” o “regularidades” que podamos recuperar. Obviamente, estos análisis requieren que los datos sean confiables y fácilmente recuperables.

¿Qué es un algoritmo?

Un conjunto de procedimientos por los cuales conseguimos resolver un problema. Una lista de operaciones para alcanzar un resultado: las reglas de multiplicar que aprendimos en el colegio o la búsqueda de una palabra en un diccionario cuya lista de términos está ordenada alfabéticamente. Podemos dar una definición algo más rigurosa: “Conjunto de reglas que, aplicada sistemáticamente a unos datos de entrada apropiados, resuelven un problema en un numero concreto de pasos elementales”. Un algoritmo tiene que ser finito –tiene un número definido de pasos– y ejecuta las instrucciones de manera sistemática, es decir, es ciego ante lo que está haciendo”.

El Data Mining es, entonces, el proceso de selección, exploración y modelado de grandes volúmenes de datos para descubrir patrones ocultos de tal forma que aporte algún beneficio económico o social a una empresa, institución u organismo privado o público. En términos generales, utiliza diversas tareas de análisis, entre ellas, clasificar, asociar y agrupar.

La Minería de Datos comprende tres etapas principales:

- Preprocesamiento: La información registrada no puede ser analizada directamente –son datos en crudo–. Es necesario aplicar un preprocesamiento sobre dicha información, de manera de filtrar y eliminar todos los datos que no resulten de interés, o que puedan introducir ruido en las técnicas. Evidentemente, es importante que estas unidades sean homogéneas, es decir, que los accesos estén relacionados, o las referencias a páginas y recursos. La selección, limpieza, enriquecimiento, reducción y la transformación de las bases de datos no tiene todavía un método conveniente para ello.

- Técnicas de descubrimiento de patrones: Existen multitud de técnicas que pueden ser aplicadas al descubrimiento de patrones. Las reglas de asociación y la detección de agrupaciones –clustering– se realizan con el análisis estadístico de los datos y su visualización gráfica para tener una primera aproximación. Según los objetivos planteados, suelen utilizarse algoritmos desarrollados en diferentes áreas de la Inteligencia Artificial: Redes neuronales artificiales, árboles de decisión, algoritmos genéticos, el método del vecino más cercano, etcétera.

- Técnicas de análisis de patrones: Hay una gran variedad de herramientas experimentales que ayudan a entender, visualizar e interpretar los patrones descubiertos. Se verifica si los resultados obtenidos son coherentes y se los coteja con los obtenidos con el análisis estadístico y la visualización gráfica con técnicas muy dependientes de cada aplicación –principalmente árboles y reglas de decisión, reglas de asociación, redes

Page 8: Módulo 8: Evaluación, algoritmos y EaD · complejo que manejar la computadora personal o el celular. En la Argentina nadie nos entrenó para interactuar con las redes sociales,

ISBN 987- 9225 -12 – 0 8

Maestría en Gestión de Proyectos Educativos

Educación a Distancia

Año 2018 Módulo 8

neuronales, redes bayesianas, conjuntos aproximados –rough sets–, algoritmos de agrupación, algoritmos genéticos y lógica difusa–, en los que no entraremos en detalle.

Seleccionaremos la técnica o conjunto de técnicas más conveniente y las aplicamos a los datos, y habremos obtenido un modelo, o conjunto de modelos, acerca de esos datos. Un modelo consiste en la expresión, mediante conocimiento explícito o implícito, de las regularidades que esconden los datos a simple vista.

Las técnicas utilizadas en educación son las que se utilizan habitualmente en Data Mining y los receptores de las conclusiones y datos, o sus usuarios finales, son los agentes implicados en el proceso educativo –docentes, directivos, asesores, alumnos–. por lo que, si el objetivo final es mejorar el aprendizaje:

- Los algoritmos deben de ser fáciles de configurar

- Los resultados deben de ser fáciles de interpretar

Las técnicas de Data Mining que se han utilizado en educación, son:

Clasificación

Asociación y patrones de secuencia

Detección de agrupaciones –clustering–

Estadísticas

Visualización de información

1.3.1. Clasificación

Clasificamos cuando dado un caso de una determinada situación, necesitamos ubicarlo como perteneciente a determinado grupo o clase de entre un conjunto de ellas previamente definido. Ejemplo: partir de un conjunto de patrones de capacitación/instrucción/entrenamiento definidos previamente y ser capaces de definir nuevos patrones contrastando las conclusiones de los expertos humanos. Se busca que de los modelos pueda extraerse información útil por parte de los usuarios del proceso. Algunas de sus posibles aplicaciones son:

- Descubrir grupos potenciales de estudiantes con características similares, para definir una determinada estrategia pedagógica.

- Predecir el rendimiento de estudiantes y su calificación final.

- Agrupar los estudiantes guiados a través de consejos y/o a través de errores y fallas, y encontrar los conceptos erróneos que presentan con más frecuencia.

- Identificar alumnos con motivación baja y encontrar remedio al problema de abandono de los estudios.

- Detectar estudiantes que que juegan, o hacen un mal uso de las instalaciones.

1.3.2. Asociación

Asociamos cuando estamos vinculando la aparición de uno o más eventos en un caso dado con la aparición de otros eventos en el mismo caso. Una de las aplicaciones que usan asociaciones es el análisis de atributos diferentes de una misma base de datos y establecer reglas que asocian conceptos que se encuentran en esos atributos. Algunas posibles aplicaciones de los algoritmos de asociación:

- Buscar relaciones entre patrones de comportamiento de estudiantes.

- Construir agentes que recomiendan y generan materiales didácticos

Page 9: Módulo 8: Evaluación, algoritmos y EaD · complejo que manejar la computadora personal o el celular. En la Argentina nadie nos entrenó para interactuar con las redes sociales,

ISBN 987- 9225 -12 – 0 9

Maestría en Gestión de Proyectos Educativos

Educación a Distancia

Año 2018 Módulo 8

para los estudiantes.

- Buscar modelos de comportamiento del estudiante más fiables.

- Guiar la actividad del estudiante de forma automática y generar y recomendar automáticamente materiales didácticos.

- Buscar errores de los estudiantes que suelen ocurrir conjuntamente.

- Identificar atributos que caracterizan patrones de disparidad de rendimiento entre grupos de estudiantes.

- Descubrir relaciones interesantes entre la información generada por los estudiantes orientadas a retroalimentar el curso.

- Determinar qué materiales didácticos son los más apropiados para recomendar a los alumnos.

- Optimizar el contenido de un portal de e-learning determinando qué es lo que más interesa a los usuarios.

1.3.3. Detección de agrupaciones –clustering–

Agrupamos –clustering– cuando detectamos y ubicamos casos similares que no se conocían previamente. En cierto modo, detectan regularidades en los datos ya que cada grupo puede interpretarse como un conjunto de casos que son similares, bajo una determinada “distancia” y que por ello comparten cierta regularidad. El clustering puede verse como una tarea de exploración que se usa para tener una primera percepción global de los datos o una agrupación inicial de los mismos y así, posteriormente, definir los requerimientos para esos grupos que se han determinado. Algunas de sus posibles aplicaciones son:

- Establecer grupos de objetos que presentan características similares.

- Descubrir patrones que reflejen comportamientos análogos en los usuarios, de cara a que, cuando se les incluya en espacios de colaboración comunes, se asegurar un incremento de la actividad.

- Agrupar estudiantes para establecer itinerarios de educación personalizados.

- Relacionar estudiantes según sus destrezas y otras características, para a realizar tutorías de forma personalizada.

- Vincular alumnos de características similares para promover un aprendizaje colaborativo basado en grupos.

- Agrupar cuestiones educativas en grupos relacionados basándose en datos de una matriz de puntuaciones.

Como se puede percibir, el clustering trata de descubrir grupos suficientemente distinguibles entre sí de casos suficientemente parecidos entre sí –el agrupamiento de objetos similares– a partir de un conjunto de datos de los alumnos esa institución.

1.3.4. Patrones de secuencia

Apunta a descubrir asociaciones curriculares en secuencias de cursos, o en actividades que pertenecen a un mismo caso. Comparar caminos con otros patrones de comportamiento. Algunas de sus posibles aplicaciones son:

- Descubrir patrones entre sesiones.

- Dar una indicación de cómo organizar mejor el espacio educativo web y ser capaz de hacer sugerencias a los estudiantes que comparten características similares.

Page 10: Módulo 8: Evaluación, algoritmos y EaD · complejo que manejar la computadora personal o el celular. En la Argentina nadie nos entrenó para interactuar con las redes sociales,

ISBN 987- 9225 -12 – 0 10

Maestría en Gestión de Proyectos Educativos

Educación a Distancia

Año 2018 Módulo 8

- Evaluar las actividades del estudiante y personalizar recursos.

- Evaluar y validar diseños de sitios web educativos.

- Comparar caminos con otros patrones de comportamiento, especificados por el diseñador del curso o por el docente.

Generar acciones personalizadas para distintos grupos de estudiantes.

Identificar secuencias de interacción indicativas de problemas y patrones que son indicativos de éxito.

1.3.5. Estadísticas

Las estadísticas sobre la utilización del curso es la primera técnica de evaluación empleada en los sistemas de e-learning, aunque no se suele considerar como minería de datos. Algunos ejemplos son los relacionados a la interacción del estudiante con el sistema EaD:

- Número de sesiones del estudiante

- Tiempo medio por sesión

- Último acceso o visita al sitio

- Número mínimo y/o máximo de días desde la última visita

- Páginas que el estudiante ha visitado

- Foros que el estudiante ha visitado

- Mensajes enviados por el estudiante a los foros del grupo,

- Mensajes visitados por el estudiante

- Conversaciones que el estudiante ha iniciado.

- Mensajes dentro de las conversaciones

- Promedio de respuestas en las conversaciones

- Conversaciones en los que ha participado el estudiante y/o el estudiante y el tutor

- Visitas a las carpetas del curso

- archivos visitados y/o descargados

- visitas a la ayuda

- visitas al calendario

- Número total de visitas al curso.

- Número total de visitas por página y/o actividad.

- Páginas/Actividades más, y/o menos, visitadas

- Tiempos de acceso al curso y a páginas/actividades.

- Promedio de las notas obtenidas en las actividades.

Utilizando estos datos, el docente puede tener información general sobre el curso y los alumnos, e incluso podría detectar algunos problemas evidentes.

1.3.6. Visualización de información

Apuntan a construir imágenes digitales interactivas o animadas orientadas a que los usuarios puedan comprender grandes cantidades de información y existen varias herramientas conceptuales para los sistemas educativos, por ejemplo: visualizar información generada en los archivos, extraer la información de tablas, monitoreo de estudiantes y seguimiento del sistema, cómo interactúan los estudiantes con los materiales del curso en línea, análisis de redes sociales, desarrollo de mapas conceptuales, etcétera.

Page 11: Módulo 8: Evaluación, algoritmos y EaD · complejo que manejar la computadora personal o el celular. En la Argentina nadie nos entrenó para interactuar con las redes sociales,

ISBN 987- 9225 -12 – 0 11

Maestría en Gestión de Proyectos Educativos

Educación a Distancia

Año 2018 Módulo 8

2. Introducción al análisis de interacciones

Ver aquello que tenemos delante de nuestra nariz requiere una lucha constante

George Orwell

Interactuar significa, en general, influencia recíproca. Eso es, al menos, lo que encontramos en el diccionario. Aquí nos estamos refiriendo a la interacción social que define las relaciones creadas entre personas y grupos a través de la comunicación (idioma, gestos, símbolos, etc.) y las influencias recíprocas sobre sus posiciones, expectativas y comportamientos. Como se infiere, el concepto de interacción implica distintos abordajes que, obviamente, van mucho más allá de las posibilidades de este módulo. Por ello, aceptamos que la noción de interacción es aceptada prácticamente por todos, y que se trata de una de las pocas nociones realmente inter y pluridisciplinaria.

Comprender qué hacen las personas con la información, y/o con los procesos de comunicación social que se les ofrece, implica tener en cuenta una larga serie de factores –sociales, psicológicos, económicos–, y su interacción. Las alternativas anteriores constituyen apenas algunos entre los muchos y diversos factores involucrados en las actitudes y, más importante, en las decisiones de las personas. Cabe insistir en este punto: tenemos que evitar pensar en las personas como espectadores, como audiencia. Por el contrario, es vital comprenderlos como agentes, seres activos, que hacen algo con esa información y/o los procesos de comunicación social, es decir, que no se limitan a acceder a ellos, sino que los integran –o no– en su vida, en aquellos modos y aspectos que esa información y esos procesos de comunicación les resultan necesarios o relevantes. También es importante tener en cuenta que esas personas disponen de diversas fuentes de información –que pueden ser coincidentes, complementarias o conflictivas con la que nosotros en determinado momento les queremos transmitir–, fuentes vinculadas con otros medios, o proveniente de su grupo familiar, profesional, o social en términos amplios.

Debemos considerar, asimismo, otros factores que interactúan en esos procesos en una compleja dinámica, como que las diversas personas disponen de convicciones y valores diferentes, que las instituciones involucradas tienen diversos grados de confiabilidad, que la pertinencia –real o percibida– de esa información para cada caso particular y que la forma como cada persona percibe su propia capacidad para actuar en relación con distintos aspectos de la vida. Concluimos, muy esquemáticamente, en que los efectos de los procesos de comunicación social no son lineales: no pueden estudiarse aisladamente ni son, por lo tanto, tan fácilmente predecibles.

Tendremos, entonces, entre otras:

- Interacciones sociales

- Interacciones psicológicas

- Interacciones pedagógicas

- Interacciones informáticas

También tendremos interacciones de poca intensidad, de intensidad media, y/o de alta intensidad, o jerárquicas, no jerárquicas, o simétricas y asimétricas, según el enfoque que adoptemos. Llevar este enfoque al análisis de redes significa que el desarrollo de un programa que depende, en principio, de las entradas realizadas por el estudiante.

Page 12: Módulo 8: Evaluación, algoritmos y EaD · complejo que manejar la computadora personal o el celular. En la Argentina nadie nos entrenó para interactuar con las redes sociales,

ISBN 987- 9225 -12 – 0 12

Maestría en Gestión de Proyectos Educativos

Educación a Distancia

Año 2018 Módulo 8

2.1. Interacciones

Existen diversos tipos de interacciones posibles entre las personas (Fig. N° 4).

Fig. N° 4: Tipos de interacciones posibles entre personas

El número máximo de interacciones posibles entre personas surge de imaginar a esas personas en una configuración poligonal, en la que cada una de ellas está en un vértice de ese hipotético polígono (Fig. N° 5).

Fig. N° 5: Número de interacciones posibles entre personas

Las interacciones posibles entre ese número n de personas está dado por:

I = 0,5 n2 – 0,5 n = n(n -1)/2 donde n = número de personas

La expresión surge de ubicar a ese número de personas en un polígono, que tiene en cuenta el número de vértices –las personas–, y el “número de lados” y “diagonales” –las interacciones– en ese hipotético polígono (Tabla N° 2 y Fig. N° 6).

Tabla N° 2: interacciones posibles entre n personas

Personas 4 5 6 7 8 9 10 11 12 13 14 15 16 17

Interacciones 6 10 15 21 28 36 45 55 66 78 91 105 120 136

Fig. N° 6: Número de interacciones posibles entre personas

Una red se caracteriza por no tener un centro determinado, sino múltiples

Page 13: Módulo 8: Evaluación, algoritmos y EaD · complejo que manejar la computadora personal o el celular. En la Argentina nadie nos entrenó para interactuar con las redes sociales,

ISBN 987- 9225 -12 – 0 13

Maestría en Gestión de Proyectos Educativos

Educación a Distancia

Año 2018 Módulo 8

centros enlazados unos con otros. Los elementos que conforman esa estructura o configuración –nodos y enlaces– son la clave de ese esquema reticular. Veamos como ejemplo una red con dos componentes:

- la lista de los actores que componen la red, y

- una lista de las relaciones –las interacciones entre los actores–.

Como parte de un manejo matemático, a continuación, los actores serán llamados vértices (o nodos), y las relaciones se denotarán con flechas. Tenemos un grafo social dirigido, con las dos listas explicitadas. Dos atributos están unidos a los nodos: una etiqueta (su "nombre") y un atributo numérico (en este caso, una distinción entre varones y mujeres). En la lista de aristas, las entradas de "Fuente" y "destino" se refieren a los identificadores de los nodos (Fig. N° 7).

Fig. N° 7: Análisis de redes sociales: una red con dos componentes

El atributo –varón/mujer– determina el color de los nodos y su tamaño depende del "grado de centralidad" –el número de conexiones–. Las medidas de centralidad son indicadores para analizar la posición de un agente social en una red, y pueden darse distintas variantes:

- Centralidad de grado: el número de conexiones.

- Centralidad de proximidad: la cercanía a toda la red.

- Centralidad de intermediación: nodos puentes.

- Centralidad respecto a los nodos bien conectados.

Habitualmente, una red es una estructura compleja, que permite relaciones y recorridos sin un patrón determinado (Fig. N° 7).

Fig. N° 7: Análisis de redes sociales: una red real con diversos componentes

Page 14: Módulo 8: Evaluación, algoritmos y EaD · complejo que manejar la computadora personal o el celular. En la Argentina nadie nos entrenó para interactuar con las redes sociales,

ISBN 987- 9225 -12 – 0 14

Maestría en Gestión de Proyectos Educativos

Educación a Distancia

Año 2018 Módulo 8

Este tipo de estructura suele producir confusión, ya que habitualmente es difícil reconocer el tipo de relación que vincula las distintas unidades. Se caracteriza por no tener un centro determinado, sino múltiples centros enlazados unos con otros. Los elementos que conforman esa estructura –nodos y enlaces– son la clave de esta configuración reticular, que se suele identificar con un determinado tipo de relaciones eminentemente asociativas y semánticas.

Obviamente, durante el seguimiento y organización de un curso a distancia, parece adecuado que el tipo de atención que un tutor dedica a los estudiantes sea distinto según el perfil de estos últimos. Una posible caracterización consiste en dividir a los alumnos según sus niveles de actividad en el curso. Así, por ejemplo, un tutor podrá decidir contactar con alumnos que tengan un perfil de baja actividad para intentar corregirlo o seleccionar otros de un nivel alto para proponerles como moderadores en una actividad en grupo.

Aunque intuitivamente puede resultar más o menos claro para un tutor asignar un perfil de actividad a un estudiante, puede resultar una tarea muy laboriosa hacerlo para un conjunto elevado de ellos. Disponer de métodos que puedan sugerir estos perfiles de forma automática resulta de gran ayuda. Además, con estos métodos es posible obtener la caracterización de estos perfiles a partir de toda la información disponible sobre el estudiante, y de esta manera, es posible detectar matices en los perfiles que sería difícil de descubrir manualmente.

2.2. La analítica de la EaD como parte del análisis de datos

El uso de las tecnologías para el aprendizaje permite obtener información sobre cómo interactúan los estudiantes con el contenido, con los materiales de aprendizaje, así como con las redes sociales, la interacción con los docentes, con los compañeros, etc. Por ejemplo, un sistema de gestión de aprendizaje como Moodle captura una gran cantidad de datos, incluyendo el tiempo dedicado a un recurso, la frecuencia de publicación, el número de inicios de sesión, los documentos leídos, la participación en los foros, etc. Estos datos son similares a lo que Google Analytics recoge en relación con Internet. De ahí, el nombre de learning analytics que recibe esta tendencia.

Las analíticas de aprendizaje consisten en la interpretación de un amplio rango de datos producidos y recogidos acerca de los estudiantes para orientar su progresión académica, predecir actuaciones futuras e identificar elementos problemáticos. El objetivo de la recolección, registro, análisis y presentación de estos datos es posibilitar que los profesores puedan adaptar de manera rápida y eficaz las estrategias educativas al nivel de necesidad y capacidad de cada alumno. Por un lado, las analíticas de aprendizaje responden a la necesidad de realizar el seguimiento y control de la actividad en los campus virtuales para la toma de decisiones estratégicas. Por otro lado, permiten aprovechar la cantidad de datos producidos por los estudiantes en actividades académicas. En general, la información aportada permite personalizar la acción formativa y diseñar entornos de aprendizaje acordes con las necesidades, intereses y formas de interacción de docentes y estudiantes. El registro estadístico de la actividad de estudiantes y docentes permite también identificar puntos conflictivos en los procesos de enseñanza.

Actualmente estas implementaciones (M. Zapata Ros, 2013):

- Sólo ofrecen datos estadísticos e infográficos sobre actividad grupal.

- No hay análisis de interacciones, ni del abordaje de temas y de aspectos conceptuales, ni del aprendizaje personal.

Page 15: Módulo 8: Evaluación, algoritmos y EaD · complejo que manejar la computadora personal o el celular. En la Argentina nadie nos entrenó para interactuar con las redes sociales,

ISBN 987- 9225 -12 – 0 15

Maestría en Gestión de Proyectos Educativos

Educación a Distancia

Año 2018 Módulo 8

- No hay itinerarios formativos de los individuos ni análisis de su perfil de aprendizaje con relación a estándares, o a un análisis de categorías de aprendizaje.

La aplicación de este tipo de tecnología en la investigación educativa tiene implicaciones importantes ya que hace necesario no sólo incorporar los métodos estadísticos tradicionales sino también métodos estadísticos actuales y modificar el enfoque de la gestión EaD. En relación a los métodos estadísticos, las diferencias más importantes es que los nuevos métodos de minería de datos combinan la exploración interpretativa con los datos, por lo que se necesita trabajar con los datos para poder descubrir las relaciones, los patrones de conexión y es difícil tener ideas a priori.

Este tipo de investigación está en sus inicios y queda mucho camino por recorrer. Se precisa de las aportaciones de los jóvenes graduados para adaptar estas técnicas en la resolución de las preguntas habituales del campo educativo. Esto implica que la investigación educativa deberá desplazarse de la investigación basada en hipótesis hacia modelos de exploración más abiertos. 2.3. Factores que afectan el rendimiento académico

Como se puede apreciar, hay un amplio número de aplicaciones de Minería de Datos Educativa en educación, pero hay cuatro áreas que son características:

- Modelos sobre las características de un estudiante: a) incrementan nuestra habilidad para predecir el conocimiento de un alumno y su futuro rendimiento, y b) permiten estudiar qué factores conducen al estudiante a tomar decisiones concretas en un entorno de aprendizaje. Ejemplos:

Los modelos que proporcionan información detallada sobre las características de un estudiante tales conocimiento, motivación, metaconocimiento y actitudes.

El modelado de las diferencias individuales de cada estudiante para responder a esas diferencias (es un tema clave en el desarrollo de software educativo).

Modelos acerca del comportamiento de los alumnos, tales como cuándo un estudiante está engañando al sistema, o cuando comete un error a pesar de poseer la habilidad para responder correctamente.

- Modelos de la estructura de conocimiento del dominio:

el descubrimiento o mejora de modelos de la estructura de conocimiento del dominio. descubrir modelos precisos directamente de los datos. Estos enfoques se combinan con modelos psicométricos y algoritmos de búsqueda para predecir si ciertas acciones individuales serán correctas o incorrectas usando distintos modelos de dominio.

- Estudio del soporte pedagógico del software de aprendizaje:

el estudio del soporte pedagógico proporcionado por el software de aprendizaje. El software educativo aporta distintos tipos de soporte pedagógico a los estudiantes y descubrir cuál es el más efectivo es un área de interés.

La descomposición del proceso de aprendizaje en diversas etapas, para detectar datos de rendimiento con cada tipo de soporte

Page 16: Módulo 8: Evaluación, algoritmos y EaD · complejo que manejar la computadora personal o el celular. En la Argentina nadie nos entrenó para interactuar con las redes sociales,

ISBN 987- 9225 -12 – 0 16

Maestría en Gestión de Proyectos Educativos

Educación a Distancia

Año 2018 Módulo 8

pedagógico que un estudiante ha recibido (con una determinada incidencia para cada tipo de soporte).

- Descubrimientos sobre el aprendizaje y los aprendices:

los descubrimientos científicos sobre el aprendizaje y los aprendices. Esto conlleva distintas formas. La aplicación de la minería de datos educacionales para la respuesta de preguntas en cualquiera de las tres áreas anteriores pueden comprender beneficios científicos más amplios; por ejemplo, el estudio del soporte pedagógico puede tener un potencial futuro a largo plazo para enriquecer teorías sobre andamiaje.

La descomposición de enfoques de aprendizaje es otro método prominente para llevar a cabo estudios científicos sobre el aprendizaje y los individuos implicados.

En lo referente a EaD, algunos trabajos proponen estrategias de recomendación, con el propósito de sugerir al alumno la realización de actividades de aprendizaje, el seguimiento de rutas de navegación, la consulta de material educativo, o cualquier otro recurso que permita potenciar y mejorar su proceso de aprendizaje. En base a esto, los estudiantes pueden recibir ayuda en el desempeño de las tareas del curso, con el propósito de: evitar bloqueos, mejorar el desempeño de los procesos de aprendizaje facilitando los contenidos más apropiados del curso y las rutas de aprendizaje adaptadas a sus necesidades y promover la colaboración entre pares. Todo esto en orden a mejorar su aprendizaje de forma eficaz.

Podemos concluir que los efectos de la enseñanza no son lineales: no pueden estudiarse aisladamente ni son, por lo tanto, tan fácilmente predecibles. 2.4. Errores Estadísticos Comunes

Al momento de recopilar los datos a procesar se pueden cometer errores de digitación así como durante los cómputos de los mismos. No obstante, hay otros errores que no tienen nada que ver con la digitación y que no son tan fácilmente identificables. Algunos de estos errores son:

Sesgos: Es imposible ser completamente objetivo o no tener ideas preconcebidas antes de comenzar a estudiar un problema, y existen muchas maneras en que una perspectiva o estado mental pueda influir en la recopilación y en el análisis de la información. En estos casos se dice que hay un sesgo cuando el individuo da mayor peso a los datos que apoyan su opinión que a aquellos que la contradicen. Un caso extremo de sesgo sería la situación donde primero se toma una decisión y después se utiliza el análisis estadístico para justificar la decisión ya tomada.

Sesgo de confirmación: es la tendencia a favorecer, buscar, interpretar y recordar la información que confirma las propias creencias o hipótesis, dando desproporcionadamente menos consideración a posibles alternativas. Es un tipo de sesgo cognitivo y un error sistemático del razonamiento inductivo que contribuye al exceso de confianza en las creencias personales y puede mantener o reforzar estas creencias ante evidencias contrarias. Pueden no están limitados a la recopilación de pruebas: dos personas pueden tener la misma información, y el modo en el que la interpretan puede estar sesgado.

Page 17: Módulo 8: Evaluación, algoritmos y EaD · complejo que manejar la computadora personal o el celular. En la Argentina nadie nos entrenó para interactuar con las redes sociales,

ISBN 987- 9225 -12 – 0 17

Maestría en Gestión de Proyectos Educativos

Educación a Distancia

Año 2018 Módulo 8

Datos no comparables: el establecer comparaciones es una de las partes más importantes del análisis estadístico, pero es extremadamente importante que tales comparaciones se hagan entre datos que sean comparables.

Muestreo Incorrecto: el volumen de información disponible es tan grande que se hace necesario estudiar muestras, para sacar conclusiones acerca de la población. Si la muestra se selecciona correctamente, tendrá básicamente las mismas propiedades que la población; pero si el muestreo se realiza incorrectamente, puede que los resultados no signifiquen nada.

2.5. Programas frecuentes para las plataformas conocidas

Sin ánimo de extendernos demasiado, dada la amplitud de recursos encontrados, los programas más frecuentes para las plataformas conocidas, son:

- CourseVis http://www.comp.leeds.ac.uk/vania/umuas/coursevis.html

permite visualizar información de WebCT.

- GISMO http://gismo.sf.net es un proyecto análogo al anterior pero que extrae la información que se almacena en Moodle.

- Data Mining KEEL http://www.keel.es

- Weka http://www.cs.waikato.ac.nz/ml/weka/ clustering con los datos

- GISMO monitoreo de estudiantes y seguimiento del sistema: http://gismo.sourceforge.net/index.html

- MOODOG muestra a los docentes como los estudiantes interactúan con los materiales del curso en línea. Se acopla a Moodle:

http://editlib.org/p/32307/.

- Blackboard Learn Analytics, diseñado para ayudar a los usuarios a tener una idea de la actividad del estudiante. Obtiene datos de desempeño del estudiante: http://www.blackboard.com/Platforms/Analytics/Products/Blackboard-Analytics-for-Learn.aspx

- Check My Activity –CMA–: http://www.educause.edu/ero/article/video-demo-umbc%E2%80%99s-

%E2%80%9Ccheck-my-activity%E2%80%9D-tool-students

permite a los estudiantes a comparar su propia actividad en relación a un resumen anónimo de sus compañeros de curso. Desarrollado por la Universidad de Maryland, Baltimore County para vincular con Blackboard:

- SNAPP –Social Networks Adapting Pedagogical Practice–:

Herramienta de presentación de datos en línea para estudiantes de red en una interfaz de usuario:

http://research.uow.edu.au/learningnetworks/seeing/snapp/index.html

- LOCO-Analyst (Learning Object Context Ontologies): http://jelenajovanovic.net/LOCO-Analyst/

NOTA: Los análisis de las secciones anteriores, algunos aparentemente sofisticados y complejos, tienen el inconveniente de requerir algunos conocimientos de estadística, por lo que pueden encontrar en este enfoque una metodología un tanto desalentadora para interpretarlas, pero entendemos que vale el esfuerzo de hacer el intento...

Page 18: Módulo 8: Evaluación, algoritmos y EaD · complejo que manejar la computadora personal o el celular. En la Argentina nadie nos entrenó para interactuar con las redes sociales,

ISBN 987- 9225 -12 – 0 18

Maestría en Gestión de Proyectos Educativos

Educación a Distancia

Año 2018 Módulo 8

3. Características a tener en cuenta en la EaD El que no sabe lo que busca

no interpreta lo que encuentra

Antonio Navarro

Antes de analizar un ejemplo, nos parece conveniente tener en cuenta dos situaciones que inciden en estos procesos de análisis:

- Las actitudes frente al conocimiento por parte de diversas personas

- los sesgos 3.1. Actitudes frente al conocimiento por parte de las personas

Tiempo atrás, E. Einsiedel y B. Thorne (1999) realizaron una revisión de estudios empíricos e identificaron distintas actitudes frente al conocimiento por parte de diversas personas, que entendemos tienen plena vigencia en estos trabajos DM. Su trabajo habla de diversas personas en diversos contextos, y contradice la noción de que las personas son pasivas o abúlicas —o meramente receptivas— frente a las actividades de capacitación en el conocimiento científico. Estos autores muestran que incluso el desinterés y la ignorancia pueden ser actitudes activas y razonadas, de la misma manera que dejan en claro que las personas, cuando quieren o necesitan acceder a determinado conocimiento científico, son muy activas en su búsqueda. En síntesis, describen ocho posibles actitudes frente al conocimiento científico-tecnológico, que caracterizan a partir de una afirmación, y que ilustran con trabajos clásicos del área de los estudios de comunicación y, más ampliamente, de los estudios sociales de la ciencia. Veremos que cinco de las afirmaciones que los autores atribuyen a las personas para describir sus posiciones suponen desinterés, desconfiada indiferencia o rechazo a recibir nuevos conocimientos; mientras que tres hablan de búsqueda activa de información científico-tecnológica.

- Casos de desinterés o rechazo de conocimiento:

No sé nada sobre el tema; dejaré que me digan lo que necesito saber.

No sé mucho sobre el tema; eso está bien porque no es algo importante o relevante para mí.

No sé mucho sobre el tema; y no quiero saber más.

No sé mucho sobre el tema; sobre eso nadie sabe mucho (o nada definitivo), y no hay mucho que podamos hacer.

No sé mucho sobre el tema, y no puedo acceder a la información, de manera que realmente no puedo saber más hasta que la información sea más accesible.

- Casos de búsqueda activa de conocimiento:

No sé mucho sobre el tema y quiero (o necesito) saber más, así que voy a buscar información para saber más.

No sé mucho sobre el tema, pero yo debería informarme, o me voy a quedar afuera.

No sé mucho sobre el tema y no tengo las capacidades que se necesitan para saber más; por lo tanto, no puedo averiguar más hasta que tenga estas capacidades.

En síntesis, comprender qué hacen las personas con la información que se les ofrece implica tener en cuenta una serie de factores –personales, grupales e

Page 19: Módulo 8: Evaluación, algoritmos y EaD · complejo que manejar la computadora personal o el celular. En la Argentina nadie nos entrenó para interactuar con las redes sociales,

ISBN 987- 9225 -12 – 0 19

Maestría en Gestión de Proyectos Educativos

Educación a Distancia

Año 2018 Módulo 8

institucionales– y su interacción. Las alternativas anteriores constituyen apenas algunos entre los muchos y diversos factores involucrados en las actitudes y, más importante, en las decisiones de las personas, que no se limitan a acceder a ella, sino que la integran –o no– en su vida, en los modos y aspectos que esa información les resulta necesaria o relevante. También es importante tener en cuenta que esas personas disponen de diversas fuentes de información –que pueden ser coincidentes, complementarias o conflictivas con la que nosotros en determinado momento les queremos transmitir–, fuentes vinculadas con otros medios, o proveniente de su grupo familiar, profesional, o social.

Debemos considerar, también, otros factores que interactúan en los procesos de recepción en una compleja dinámica, como que las personas disponen de convicciones y valores diferentes; que las instituciones involucradas tienen diversos grados de confiabilidad; la pertinencia –real o percibida– de esa información para cada caso particular; y la forma como cada persona percibe su propia capacidad para actuar en relación con distintos aspectos de la vida. 3.2. Sesgos

En el algoritmo entrenado por Google News se sitúan profesiones como ama de casa, recepcionista, bibliotecaria, peluquera, niñera, contable, del lado femenino, mientras que del lado más masculino figuran profesor, capitán, filósofo, financiero, locutor, mago, jefe… (Fig. N° 8).

Fig. N° 8: Palabras en el algoritmo entrenado por Google News

Este gráfico muestra las palabras que están contaminadas: las que están por encima de la línea horizontal. Por ejemplo: ama de casa –homemaker– está mucho más cerca del ella –she– que del él – he–.

¿Este es un sesgo? Claramente. Genio –genius– por el contrario, se asocia mucho más al mundo masculino. En cambio, las palabras que están por debajo de la línea horizontal son las que tienen sentido que estén más hacia un lado u otro porque su propia definición implica ya un género. Las implicaciones de estas asociaciones pueden ir mucho más allá de lo que es correcto o no: existe el peligro de que el efecto se pueda amplificar desde la red a la vida real. Los autores ponen un hipotético ejemplo: si el algoritmo relaciona la informática más con nombres de hombres que de mujeres, entonces puede llegar a influir en los motores de búsqueda; las páginas de “José” saldrían mucho más arriba que las de “María”. “Sería todavía más difícil para

Page 20: Módulo 8: Evaluación, algoritmos y EaD · complejo que manejar la computadora personal o el celular. En la Argentina nadie nos entrenó para interactuar con las redes sociales,

ISBN 987- 9225 -12 – 0 20

Maestría en Gestión de Proyectos Educativos

Educación a Distancia

Año 2018 Módulo 8

una mujer ser reconocida como informática y contribuiría a ampliar la brecha que ya hay entre hombres y mujeres.

En Wikipedia, diversos autores encontraron que en los artículos sobre mujeres se destacaba más su género, sus maridos, los trabajos de sus parejas y otra serie de temas que en el caso de los artículos sobre hombres, esos datos se trataban mucho menos. En cuando a palabras concretas, encontraron que algunas predecían el género. Por ejemplo “marido” aparece considerablemente más a menudo en artículos sobre mujeres mientras que “béisbol” se dan más en textos sobre hombres.

¿Cómo se cuantifica el sesgo?

En general, los autores utilizan emparejamientos neutrales: padre-madre, hermano-hermana, rey-reina. Es de esperar, entonces, que hermano esté mucho más cerca del género masculino que del femenino.

¿Pero qué pasa si la palabra médico se sitúa más cerca del lado masculino?

Solo este dato no confirmaría el sesgo. Pero hay sesgos muy habituales que relacionan términos femeninos con liberal, artístico y familiar, y términos masculinos con ciencia y carreras profesionales

Dentro de los algoritmos que generan los métodos de Minería de Datos Educativa también hay contradicciones: un alumno calificado como entusiasta del futbol, o del ciclismo, podría ser interpretado como alumno poco interesado en los cursos y sufrir mayor control y discriminación por ello. Bajo el rótulo de “lento” se pueden conseguir ventajas en los plazos de entrega de trabajos y al mismo tiempo ser clasificado como una persona con menos posibilidades para aprender. Por ejemplo, un curso EaD –un MOOC– podría compararse con una biblioteca, donde una persona acude a ella y selecciona un libro sobre un tema de su interés, comienza a leer, puede dejarlo y retomarlo en cualquier momento, e interpretarse que puede ofrecernos aprendizaje pero no nos garantiza una adecuada enseñanza.

También existen investigaciones que estudian la relación entre aprendizaje y engaño al sistema, definiendo como el éxito en una tarea educativa el tomar ventajas de la propiedades o regularidades del sistema usado para realizar dicha tarea, en vez de pensar y aprender a partir del material dado.

¿Y si esa información no fuera tan fidedigna como pensamos? Muchos antropólogos piensan que lo que escuchan es necesariamente verdadero y puede no serlo2. Uno puede asumir que el entrevistado dice la verdad y no hay razón para no creerle. ¿Pero que sucedería si no dice la verdad cuando identifica contactos o cuando los niega, por cualquier consideración? Aun asumiendo que hay cierto margen de error difícil de determinar, este podría ser un problema controlado si pudiéramos introducir mecanismos de verificación de la información. Hipotéticamente el error se puede reducir en estudios con una muestra de población relativamente chica donde se pueda confirmar la información, pero no todos los estudios ofrecen la ventaja de mostrarnos la versión de los actores 3.3. Ejemplo: Predicción del fracaso escolar de los estudiantes

Como dijimos, la computadora no solo funciona como una poderosa herramienta para la modelización numérica de problemas de ciencias sociales, sino que en cierto sentido los modelos computacionales son, o pueden llegar, a ser herramientas para conocer mejor fenómenos de distintas disciplinas, como en este caso, la EaD.

Page 21: Módulo 8: Evaluación, algoritmos y EaD · complejo que manejar la computadora personal o el celular. En la Argentina nadie nos entrenó para interactuar con las redes sociales,

ISBN 987- 9225 -12 – 0 21

Maestría en Gestión de Proyectos Educativos

Educación a Distancia

Año 2018 Módulo 8

En 2015, C. Márquez Vera1 completó su Tesis Doctoral sobre la Predicción del fracaso y el abandono escolar mediante técnicas de minería de datos, de la cual vamos a hacer una muy esquemática presentación sólo a los efectos de visualizar las experiencias realizadas con diversos programas informáticos y un número determinado de datos. Lo que sigue es una síntesis de la metodología del estudio realizado, con algunas transcripciones casi textuales –dada la claridad con que se expresa el autor–, que no tiene sentido parafrasearlas.

El estudio indica que en Educación Superior es donde más investigación en el tema se ha realizado y principalmente en la modalidad EaD, ya que por sus propias características se puede disponer de más información de los estudiantes que en la educación tradicional. En este nivel educativo, debido a que el rango de edades de los estudiantes es muy amplio, el número de factores o variables que afectan el desempeño académico es mayor. De forma general se puede decir que las variables consideradas en las diferentes investigaciones son características personales como la edad, género, estrato social, ciudadanía, expectativas que se tienen sobre la educación, la importancia que se le atribuye al estudio, el estado civil, si tienen hijos, problemas de salud y si trabaja. Las variables relacionadas con el entorno socio-familiar son el tipo de relación estudiante-integrantes de su familia y vinculan el apoyo afectivo, los problemas que se presentan en el seno familiar, el ingreso familiar, el estrato social, nivel cultural de la familia, el nivel educativo de los padres, el número de amigos. Las variables que están relacionadas con la universidad y su entorno son el promedio de calificaciones, la calificación en algunas asignaturas particulares como Matemáticas y la relacionada con los idiomas, el tipo de universidad y los intereses vocacionales, si cuenta con beca (tipo y monto), el estilo de aprendizaje, el tipo de evaluación que realizan los docentes, el número de asignaturas cursadas, competencia en el uso de la computadora, el tiempo dedicado a estudiar, las técnicas empleadas para estudiar, la organización de la institución, sus normas y su infraestructura, medios y recursos para la enseñanza y el aprendizaje, y la relación con los docentes.

En algunos estudios se busca explicar el abandono y la persistencia, con variables del entorno que tienen influencia en el éxito/fracaso de los estudiantes: características institucionales, estudiantes con características similares, características de los docentes, currículo, ayuda financiera, campo principal de preferencia, lugar de residencia y actividades de participación de los estudiantes. 3.3.1. Los métodos de la Minería de Datos

La tarea de predecir el fracaso escolar de los estudiantes es una tarea difícil de conseguir, principalmente por dos causas: a) son muchos los factores que pueden influir en los estudiantes para que reprueben o abandonen sus estudios; y b) generalmente la información con la que se trabaja para predecir a estos estudiantes está desbalanceada, es decir, no hay igual número de alumnos que aprueban y pasan curso que de alumnos que suspenden, no pasan y/o abandona el curso. Para solventar estas dos dificultades en esta tesis se han utilizado técnicas de Minería de Datos.

En los métodos clásicos de análisis, el investigador debe formular una hipótesis, utilizar alguna herramienta que le permita explorar los datos y obtener informes para validarla. En cambio, los métodos de la Minería de Datos proporcionan funcionalidades construyendo modelos analíticos a partir de los datos, con dos funciones distintas:

1 Márquez Vera, C. (2015): Predicción del fracaso y el abandono escolar mediante técnicas de minería

de datos. Tesis Doctoral. UCO-Universidad de Córdoba. España.

Page 22: Módulo 8: Evaluación, algoritmos y EaD · complejo que manejar la computadora personal o el celular. En la Argentina nadie nos entrenó para interactuar con las redes sociales,

ISBN 987- 9225 -12 – 0 22

Maestría en Gestión de Proyectos Educativos

Educación a Distancia

Año 2018 Módulo 8

Descriptiva: el modelo muestra relaciones entre los datos que ayudan a comprenderlos. Los ejemplos anteriores constituyen patrones de este tipo.

Predictiva: el modelo utiliza las relaciones obtenidas para realizar predicciones sobre características no observadas de nuevos datos. Por ejemplo, podríamos utilizar un modelo para predecir la probabilidad de que un alumno tenga un nivel de actividad bajo en un curso a través de Internet.

Es también habitual diferenciar dos tipos de aproximaciones:

- Los enfoques supervisados

- Los enfoques no supervisados

Los enfoques supervisados requieren que el docente y/o el investigador defina uno de los atributos como objetivo o clase y construyen modelos que permiten predecir o describir este atributo a partir del resto de características. Este tipo de enfoques se denominan de clasificación y es uno de los que tiene mayor aplicación. Dependiendo del problema, el valor de la clase que se desea aprender a predecir puede obtenerse a partir de la información existente –por ejemplo, aprobado/suspendido– o ser introducido por un usuario externo con conocimiento adecuado –lo que llamaremos etiquetado–. En el ejemplo anterior, se ha utilizado como clase el atributo que indica el nivel de actividad del alumno. Los enfoques que obtienen este tipo de modelos predictivos se denominan clasificadores.

Los enfoques no supervisados, por el contrario, no consideran ninguna columna de forma especial y buscan cualquier relación posible que se encuentre oculta en los datos. Entre estos enfoques destacan las técnicas de clustering, que permiten dividir automáticamente los datos en subconjuntos de características similares de forma que sea posible descubrir grupos de instancias relacionadas. Un ejemplo de tarea de este tipo sería agrupar automáticamente los alumnos de un curso a partir de sus interacciones y preferencias y obtener patrones descriptivos para cada grupo.

Como afirma C. Márquez Vera, predecir el fracaso escolar de los estudiantes (ya sea que no aprueben o que abandonen) es una tarea difícil de conseguir, debido a que se trata de un problema multifactorial, en el cual existen factores personales, familiares, sociales, económicos, que pueden influir en los estudiantes. Además, generalmente la información disponible normalmente está desbalanceada. Para resolver estos problemas se han usado diferentes técnicas y algoritmos de Minería de Datos.

En la literatura publicada no hay un consenso respecto a que algoritmo de clasificación es el mejor para predecir a los estudiantes en riesgo de fracaso. En algunos casos unos algoritmos obtienen los mejores resultados, pero en cambio en otros casos son otros. Por este motivo, el autor propuso en lugar de utilizar los algoritmos clásicamente utilizados en este problema, la aplicación de un nuevo algoritmo denominado ICRM. Con el algoritmo propuesto se ha obtenido muy buen rendimiento, concretamente los valores más altos en las medidas de evaluación de la predicción del fracaso escolar de los estudiantes. Además, el modelo de salida que produce el algoritmo está basado en reglas del tipo SI–ENTONCES, las cuales son muy fácilmente interpretables.

En la primer experiencia Informática y de análisis numérico, todos los algoritmos de clasificación fueron ejecutados usando la validación cruzada (10 archivos o tenfold cross-validation) y toda la información disponible, es decir, con el conjunto de datos original que tiene 77 atributos de 670 estudiantes. Toda la información fue obtenida de distintas fuentes y en diferentes momentos o etapas del semestre entre Agosto y Diciembre de 2012, en las que la información fue recogida.

Page 23: Módulo 8: Evaluación, algoritmos y EaD · complejo que manejar la computadora personal o el celular. En la Argentina nadie nos entrenó para interactuar con las redes sociales,

ISBN 987- 9225 -12 – 0 23

Maestría en Gestión de Proyectos Educativos

Educación a Distancia

Año 2018 Módulo 8

Finalmente, después de realizar todas las tareas de pre-procesado se contó con:

- Diez archivos de entrenamiento y diez de prueba con todos los atributos (77).

- Diez archivos de entrenamiento y diez de prueba con los mejores atributos (15).

- Diez archivos de entrenamiento y diez de prueba con los mejores atributos (15).

La tabla que sigue muestra las condiciones impuestas para la obtención de las tasas o porcentajes de clasificaciones correctas para cada una de las dos clases:

- aprobó y reprobó,

- la precisión global,

- la media geométrica,

- el número de reglas,

- el promedio del número de condiciones por regla,

- el promedio del número de condiciones del clasificador utilizado.

Para obtener la mejor precisión de clasificación este autor usó diferentes métodos de Minería de Datos y realizó varias experiencias Informáticas y de análisis numérico para probar y comparar tres versiones de un algoritmo evolutivo al que llamó “Interpretable Classification Rule Mining” –ICRM– con diez algoritmos de clasificación clásicos, incluso para predecir el fracaso escolar de los estudiantes con un conjunto de datos desbalanceado y de alta dimensión.

En su investigación, el autor ha demostrado la utilidad de la técnica de selección de los mejores atributos cuando se tiene un gran conjunto de datos y atributos. En este caso se redujeron los datos de setenta y siete a quince atributos, obteniendo pocas reglas y condiciones sin perder precisión en la clasificación. Y plantea el autor: “cuanto menor sea el número de reglas y de condiciones, mayor es la simplicidad del clasificador y por tanto más alta la comprensión del modelo descubierto”.

Los algoritmos de clasificación permiten obtener modelos sencillos, capaces de explicar sus predicciones por medio de reglas del tipo Si–Entonces. En este caso, los algoritmos de reglas de inducción usadas generan directamente reglas del tipo mencionado y las salidas de los árboles de decisión se pueden transformar sencillamente al mismo tipo de reglas. Las reglas del tipo Si–Entonces son una de las formas más populares de representación de conocimiento debido a su simplicidad y comprensibilidad. Este tipo de reglas son simples y fácilmente comprensibles por cualquier usuario no experto en minería de datos, como un docente o directivo y se pueden tomar decisiones al respecto.

Respecto a los factores o atributos específicos relacionados con el fracaso escolar de los estudiantes, hay valores específicos que aparecen con mayor frecuencia en los modelos de clasificación obtenidos. Por ejemplo, los valores de las notas que más aparecen en las reglas son los equivalentes a Pobre, Muy Pobre y No Presentó en las asignaturas de Física, Humanidades, Matemáticas e Inglés. Hay que indicar que se han utilizado las calificaciones de los estudiantes, por dos razones: a) no se obtienen buenas clasificaciones y b) en otras investigaciones de este tipo también se han considerado las notas. Otros factores que aparecen frecuentemente asociados con el fracaso son tener más de un hermano, asistir a clases en el turno vespertino y presentar un bajo nivel de motivación.

Los datos contienen información sobre 419 estudiantes –193 mujeres y 226 varones– inscritos en el primer semestre (Agosto – Diciembre 2012), que es la etapa donde se presenta el mayor porcentaje de reprobación y deserción. En este caso hay un 15,60% de estudiantes que abandonaron (10,3% de mujeres y 20,85% de varones).

Page 24: Módulo 8: Evaluación, algoritmos y EaD · complejo que manejar la computadora personal o el celular. En la Argentina nadie nos entrenó para interactuar con las redes sociales,

ISBN 987- 9225 -12 – 0 24

Maestría en Gestión de Proyectos Educativos

Educación a Distancia

Año 2018 Módulo 8

3.3.2. Clasificación usando los mejores atributos

En su tesis, C. Márquez Vera propone tres diferentes versiones del algoritmo ICRM para obtener la base de reglas que sean precisas y útiles para el usuario que busca información de las causas por las que los estudiantes reprueban o desertan.

- La primera versión –ICRM v1– establece una regla por clase. El algoritmo es capaz de obtener reglas precisas para ambas clases, pero finalmente decide qué regla es utilizada en primer lugar: la más precisa.

- La segunda versión –ICRM v2– establece varias reglas para cada clase. El algoritmo funciona de manera similar que la primera versión, pero cuando las reglas de ambas clases son obtenidas coloca la mejor regla en el clasificador y elimina del conjunto de datos otras instancias consideradas.

- La tercera versión –ICRM v3– se extiende de la segunda, pero se enfoca más en la clase de fracaso de los estudiantes. El mayor interés es obtener reglas de clasificación precisas, pero específicamente aquellas que están relacionadas con los estudiantes que fracasan. Por tanto, se establecen múltiples reglas, donde se construyen para predecir los casos de fracaso, que son los de mayor interés. El número de reglas requerido para predecir los casos de fracaso es decidido por el algoritmo debido a su capacidad de obtener clasificaciones precisas.

Con la primera versión –ICRM v1– se pudo observar que de las seis reglas obtenidas del tipo SI-ENTONCES, tres eran referentes a la clase REPROBÓ y tres a la clase APROBÓ. Al analizar estas reglas se puede ver que hay una clara relación entre los hábitos de los estudiantes, su condición social y su estatus/rendimiento al final del periodo escolar. Concretamente son indicadores de estudiantes en riesgo de REPROBAR o ABANDONAR: el tener un promedio general en la secundaria menor a ocho, un bajo nivel educativo de la madre, el tiempo dedicado a trabajar de más de 4 horas al día, el consumo regular de bebidas alcohólicas, el fumar y estar en un grupo con más de 40 estudiantes. Por otro lado, según la edad se puede detectar rápidamente a los estudiantes que continuarán sus estudios el siguiente semestre, es decir, aquéllos que APROBARÁN. Los profesores pueden comprobar fácilmente las condiciones mencionadas en la Etapa II del curso, para detectar oportunamente a los estudiantes en riesgo potencial de ABANDONAR o REPROBAR, y así poder ofrecerles algún tipo de ayuda o soporte para intentar evitarlo. Respecto a las medidas de clasificación obtenidas se puede ver que tiene valores altos, y por tanto, el modelo se considera confiable para clasificar a los estudiantes en esta temprana etapa del curso.

Con la segunda versión –ICRM v2–, que utiliza solamente los diez mejores atributos, se obtuvo la precisión suficiente para poder realizar una predicción temprana de los alumnos que fracasarán. Pero, además, estos valores son prácticamente iguales a los obtenidos en la Etapa III que usa veintisiete atributos. Se pudo verificar que de estas ocho reglas del tipo SI-ENTONCES, cuatro son sobre la clase REPROBÓ y cuatro sobre la clase APROBÓ. Al analizar las reglas de la clase REPROBÓ, se observa que el obtener malas notas en las asignaturas del curso –Matemáticas, Computación, Inglés, Ciencias Sociales, Física, Taller de Lectura y Redacción y Humanidades– son los únicos factores que aparecen en las reglas y por tanto responsables del fracaso de los estudiantes. Sin embargo, es interesante ver que otros indicadores aparecen en las reglas que detectan a los estudiantes que aprobaron y continuarán el siguiente semestre: no consumo de bebidas alcohólicas o que sea muy raro el mismo, tener buena asistencia a clases y altas expectativas de aprobar el semestre. Los valores de las medidas de clasificación obtenidos son altos, cercanos al

Page 25: Módulo 8: Evaluación, algoritmos y EaD · complejo que manejar la computadora personal o el celular. En la Argentina nadie nos entrenó para interactuar con las redes sociales,

ISBN 987- 9225 -12 – 0 25

Maestría en Gestión de Proyectos Educativos

Educación a Distancia

Año 2018 Módulo 8

máximo posible. Sin embargo, este modelo de clasificación no es útil para hacer una predicción temprana, ya que utiliza información que se obtiene al final del semestre, cuando ya no hay tiempo para realizar algún tipo de intervención que permita apoyar a los estudiantes en riesgo de fracasar.

Con la tercera versión –ICRM v3–, que es una extensión de la segunda que utilizó veintisiete atributos, obtuvo la misma precisión. Pero, además, estos valores son prácticamente iguales a los obtenidos en la Etapa II. Esto es importante para el problema que se está tratando, porque permite ahorrar tiempo y también reducir la cantidad de información que se necesita recoger en el proceso de detección.

El algoritmo propuesto obtuvo en todas las etapas del curso los mejores resultados de clasificación para la predicción de los estudiantes en riesgo de fracasar y superó a los demás algoritmos tradicionales usados. Fue posible obtener modelos de clasificación suficientemente confiables para realizar una predicción temprana y oportuna de los estudiantes en riesgo de fracasar. De hecho, se obtuvieron buenos resultados de predicción en las Etapas II y III, es decir, a la cuarta y sexta semana del inicio del curso. Por tanto, los profesores y responsables correspondientes pueden tomar conciencia de los estudiantes en riesgo que tienen y con ello su pueden tomar diferentes medidas para tratar de evitar el fracaso. Finalmente, como indica el autor, identificar a los estudiantes en riesgo de fracasar por medio de un sistema de alerta temprana es sólo el primer paso para verdaderamente abordar el grave y multifactorial problema del fracaso de esos estudiantes.

También se indica que esto se consigue fundamentalmente a través de recoger información de los alumnos, sin embargo, es imposible desarrollar un método infalible, que pueda predecir a la totalidad de los estudiantes que fracasan; siempre hay situaciones que no se pueden predecir y que pueden llevar a los estudiantes a su fracaso. Por otro lado, también se dan los casos en los que los estudiantes en riesgo son detectados, ellos lo saben, pero no están interesados en continuar.

Por último, como líneas de trabajo futuro y que sirvan de continuación y mejora de la tesis, el autor se plantea:

- Aplicar los dos modelos propuestos de predicción del fracaso escolar y el algoritmo ICRM a datos procedentes de estudiantes de otras partes del mundo y a otros niveles educativos. Realizar más pruebas con datos diferentes para poder generalizar los resultados obtenidos. Comprobar si se obtienen los mismos resultados de predicción con otro tipo distinto de estudiantes. También habría que estudiar y analizar los resultados de clasificación que se obtienen si no se utilizan los mismos factores o atributos utilizados, ya sea porque no se disponga de todos, o porque se dispone de otros completamente nuevos y específicos de un nivel de educación, o ya sea porque se obtienen en un orden distinto de las etapas del curso.

- Desarrollar una herramienta específica de software que esté orientada para ser usada por un profesor y/o coordinador de curso no experta en minería de datos. El objetivo sería integrar y facilitar todo el proceso de descubrimiento de conocimiento desde el pre-procesado de los datos hasta la visualización pasando por la ejecución de los algoritmos de clasificación.

Page 26: Módulo 8: Evaluación, algoritmos y EaD · complejo que manejar la computadora personal o el celular. En la Argentina nadie nos entrenó para interactuar con las redes sociales,

ISBN 987- 9225 -12 – 0 26

Maestría en Gestión de Proyectos Educativos

Educación a Distancia

Año 2018 Módulo 8

4. Conclusiones Todo debe hacerse lo más simple posible,

pero no más sencillo

Albert Einstein

Hoy en día la caracterización y predicción de ciertas características de los estudiantes está siendo de gran utilidad a la hora de ayudar a los alumnos y tutores en sistemas de enseñanza a través de Internet. La madurez de diversas técnicas de minería de datos de clasificación y clustering y su disponibilidad pública en bibliotecas de software libre como Weka (Witten y Frank, 2000) hacen posible que sea posible integrar esta tecnología con relativa facilidad y bajo costo. No obstante, es necesario investigar más qué características es conveniente predecir para proporcionar una mejor ayuda. Estas características dependerán del modelo pedagógico que se aplique en cada caso. Aunque es posible que cada curso en particular sugiera sus propias tareas específicas, creemos que en muchos casos es posible definir conjuntos genéricos de características a predecir relativamente independientes de la materia de los cursos.

Podemos decir también que un modelo con conocimiento explícito es interpretable por una persona y por lo tanto puede ser validado por el mismo. Sin embargo, suele ser menos preciso en términos de aproximación que un modelo con conocimiento implícito que, a cambio de una estructuración más compleja para ser interpretado por una persona, puede ganar en precisión.

En este campo, la validez hace referencia a la capacidad de ese instrumento para cuantificar de forma significativa y adecuada el rasgo para cuya medición ha sido diseñado. De esta forma, la validez es el resultado de un proceso de recopilación de evidencias empíricas sustentado en supuestos teóricos que permiten emitir un juicio de valor que afirme la pertinencia y la suficiencia de las interpretaciones basadas en los resultados de una prueba. Sin embargo, en minería de datos hay instrumentos donde:

- no se puede comparar el desempeño de un caso con otros (en ciertas tareas),

- hay poca reproducibilidad (casos únicos y escasos)

- hay una alta sensibilidad a sesgos (edad, educación, contexto, etc.)

- la validez de las conclusiones de un estudio no tiene casi generalización.

Aún así, grandes cantidades de datos son convertidas en conocimiento generador de grandes beneficios económicos y aparentes explicaciones a partir de un argumento falaz: “Los algoritmos no solo tienen la capacidad de explicar la realidad, sino también de anticipar comportamientos, lo que permite evitar o minimizar riesgos y para aprovechar oportunidades”. Pero esto no es correcto. Los algoritmos utilizados son ciegos: no distinguen verdadero o falso, y nos pueden presentar lo falso como verdadero ya que carecen de contexto, y porque están diseñados con un objetivo: maximizar algunos conceptos en desmedro de otros. Si los algoritmos buscaran balancear el impacto con la veracidad, probablemente nos presentarían otros enfoques.

Un tercer problema: los sesgos. Vivimos rodeados de algoritmos cuyas fórmulas desconocemos. Es difícil saber si estamos expuestos a sesgos. En realidad, el problema no es que los algoritmos tengan sesgo, porque los humanos también los tenemos. El problema es que estas fórmulas matemáticas pueden afectar a cientos de personas al tomarse decisiones con su información con efectos negativos.

Así de complejo es el presente…

El gran reto ahora es ver cómo se transforman todos esos datos en valor, no tanto para las empresas, sino para las personas, para la sociedad y la educación

Page 27: Módulo 8: Evaluación, algoritmos y EaD · complejo que manejar la computadora personal o el celular. En la Argentina nadie nos entrenó para interactuar con las redes sociales,

ISBN 987- 9225 -12 – 0 27

Maestría en Gestión de Proyectos Educativos

Educación a Distancia

Año 2018 Módulo 8

Como dijéramos al principio del curso, dada la influencia de las TICs en nuestro entorno sociocultural, existe el riesgo de sobrevalorar las virtudes de la EaD. Por ello reiteramos la necesidad de desarrollar una valoración crítica de la vinculación, repercusión y eficacia de las TICs con los procesos de enseñanza, indicando claramente la inutilidad de esas herramientas si no están insertas en el marco de un modelo pedagógico que las incluya, con la correlativa gestión institucional. Por eso entendemos que era necesario brindar una caracterización básica de las aplicaciones de la Minería de Datos a la información generada por la EaD.

Cordialmente

Jorge Grau

[email protected]

5. Bibliografía Bates, A. (2015). La Enseñanza en la Era Digital. En: http://www.tonybates.ca/2017/02/04/a-spanish-

version-of-teaching-in-a-digital-age-is-now-available/

Bogarín Vega, A. y otros (2015): Aplicando minería de datos para descubrir rutas de aprendizaje frecuentes en Moodle. Edmetic - Revista de Educación Mediática y TIC.

Brandes, U., Kenis, P. y Raab, J, (2005). “La explicación a través de la visualización de redes”. Redes, Vol. 9, No. 6. Dic. 2005

Cooper, A. (2001): Presos de la Tecnología. Pearson Education. Buenos Aires.

Einsiedel, E. y B. Thorne (1999): “Public responses to uncertainty,” en Friedman, Sh. M., Sh. Dunwoody, Sharon, y C. Rogers, Communicating Uncertainty. Media Coverage of New and Controversial Science. Mahwah, NJ: Lawrence Erlbaum Associaties.

Ferguson, R. y Buckingham Shum, S. (2012). Social Learning Analytics: Five Approaches. Proc. 2nd International Conference on Learning Analytics & Knowledge, (29 Apr-2 May, Vancouver, BC). ACM Press: New York. Eprint: http://oro.open.ac.uk/32910

Garcia Aretio, L. (2014): Bases, mediaciones y futuro de la EaD en la sociedad digital. Sintesis. Madrid. Garrison, D. y T. Anderson (2005): El e-learning en el siglo XXI: Investigación y práctica. Octaedro. Barcelona.

Grau, J. E. (2010): Prospectiva de la calidad en la Educación Superior a Distancia Argentina, en I. Cantón Mayo (Coord.)(2010): Calidad, comunicación e interculturalidad. Davinci. Barcelona.

Jacovkis, P.M. (2005): Computadoras, modelización matemática y ciencia experimental. Revista CTS, Nº 5.

Jiménez Galindo, Á. y H. Álvarez García (2010): Minería de Datos en la Educación. Universidad Carlos III de Madrid. España.

López, E. (2008): Instrumento de análisis didáctico de las estrategias de enseñanza de cursos universitarios en la red. Tesis de Doctorado. Universidad de Sevilla.

Laughlin, R. (2009): Crímenes de la razón. Katz. Buenos Aires.

Malaspina, L. (2018): Apuntes sobre el sesgo ideológico de los motores de búsqueda. Nueva Sociedad.

Marc, E. y Picard, D. (1989): La interacción social. Prensa Universitaria Francesa. París.

Márquez Vera, C. (2015): Predicción del fracaso y el abandono escolar mediante técnicas de minería de datos. Tesis Doctoral. UCO-Universidad de Córdoba. España.

Marr, B. (2016): BIG DATA. Teell. España

Mugny, G. y Doise, W. (1983): La construcción social de la inteligencia. Méjico. Trillas.

Mugny, G. y Pérez, J. A. (1988): Psicología social del desarrollo cognitivo. Barcelona. Anthropos.

Romero, C. y S. Ventura (Eds)(2016): Data Mining in E-Learning. Editorial WIT Press. España.

Schmidt, S. (2009): La dificultad de medir. Redes. Vol.17, N° 7, Diciembre 2009

Zambrano Ramírez, J. (2016): Factores predictores de la satisfacción de estudiantes de cursos virtuales. RIED. Revista Iberoamericana de Educación a Distancia N° 19.

Zapata-Ros, M. (2015): El diseño instruccional de los MOOC y el de los nuevos cursos abiertos personalizados. RED-Revista de Educación a Distancia. Núm. 45. Artic. 2. 15-Marzo-2015.

Zapata-Ros, M. (2013): Analítica de aprendizaje y personalización. Campus Virtuales, nº 02, v. II, 2013, Revista Científica de Tecnología Educativa. Universidad de Alcalá de Henares. España.