Post on 17-Jun-2015
description
.
.
Moodlemoot 2014
Imagen: http://bit.ly/1mm2Eb0
Educación y datos masivos
Fernando Santamaría González
o la analítica de los procesos complejos del aprendizajeLearning Analytics / Educational Data Mining
Docente e investigador en temas emergentes
Patrocina Organiza
#bigmootco14#mootco14
Indice
Introducción al concepto de Big Data
Conceptos del ecosistema de Big Data
Learning Analytics
Machine Learning
Ciencia de los datosCientífico de datos
Data Visualization
Artificial Intelligence (AI)
Descubrimiento del conocimiento en bases de datos
Social Network Analysis
Cyberinfrastructure
BIG DATA Data Mining
Learning AnalyticsEducational Data MiningBusiness Intelligence
LearningVisual Analytics
Reality MiningSentiment Analysis
Text Analytics
Texto
Big Data vs Small DataLos datos en pequeño tiene que ver con los datos individuales (Internet of me). El movimiento del “yo cuantificado”(Gary Wolf y Kevin Kelly, 2007) parte de del individuo para el automonitoreo y autodetección, cambiando las formas de vivir y entender los procesos vitales.
Texto
Big DataTérmino muy general para una inmensa colección de variados datos que se hace complejo y grande, y que resulta difícil de procesar con el uso de herramientas de gestión de datos a la mano o de aplicaciones tradicionales (ej: bases de datos relacionales) de tratamiento de datos.
Fuente imagen: http://bit.ly/1mgOZSJ
Definición Big Data (IBM)
La tendencia en tecnologías y la gran capacidad de datos que estas admiten han dado nuevos enfoques de administración y gestión para el entendimiento y la toma de decisiones por medio del análisis de enormes cantidades de datos en plataformas de bases de datos que van más allá de las clásicas y simples bases de datos relacionales.
Definición Big Data (Wikipedia inglesa)
Big Data es alto volumen de datos y alta velocidad, y también con gran variedad de datos (3 Vs), que requerirá nuevas formas de procesamiento para permitir la toma de decisiones mejorada, descubrir los insights (la palanca de acción, no el dato en si) y la optimización de procesos.
Definición Big Data
Big Data es un conjunto de datos no estructurados de gran volumen que no puede ser manejado por los sistemas de gestión de base de datos estándar como DBMS, RDBMS o ORDBMS.
Tipo de datosDatos estructurados (Structured Data). Datos con formato o esquema fijo y que poseen campos fijos.
Datos semiestructurados (Semi-Structured Data). No tienen formatos fijos, pero contienen etiquetas y otros marcadores que permiten separar los elementos dato. Los registros weblogs.
Datos no estructurados (Unstructured Data). Son datos sin tipos predefinidos. Se almacenan como documentos u objetos sin una estructura uniforme.
Datos en tiempo real (Real-Time Data). A los anteriores se les añade la capacidad de visionarios en tiempo real, mientras están ocurriendo.
IStockPhoto
Cada minuto….
Los usuarios de correo envían 204 millones de correos.
Los usuarios de Youtube suben alrededor de 71 horas en reproducción de vídeo.
Usuarios de Facebook comparte casi 2.500.000 de piezas de contenido.
Los usuarios de Pinterest alrededor de 3.500 fotos.
Los usuarios de Twitter comparten 277.000 tuits. Genera al día 9 TB
Fuen
te: D
omo
Worldometers.info (9:27 am)
De donde proceden los datosDe las transacciones que se hacen en empresas y ciudadanos.
Web y Social Media. Imagen, vídeo, datos de texto (minería de textos, sentiment analysis)
De M2M e Internet de las cosas. Datos de sensores
Datos de geolocalización.
Datos RFID y NFC (tecnologías de identificación por radiofrecuencia).
Datos biométricos.
Datos de las redes sociales (Análisis de Redes Sociales, ARS-SNA).
Datos de las operadoras de telecomunicaciones (y lo que se ocultan).
Datos de las ciudades inteligentes.
Datos de las redes inteligentes de energía (smartgrids)
Texto
Sociómetro (Sociometric Badges)Un dispositivo creado por el MIT y que es capaz de medir el lenguaje no verbal. Registra factores como el tono de voz o la movilidad corporal. Puede predecir los efectos de cualquier conversación o entrevista. (Señales honestas. A. Pentland)
IStockPhoto
Reality Mining
Texto
Visualización de datos geográficoshttp://www.vizzuality.com/ + CartoDB
http://here.com/livingcities/
Texto
Sentiment Analysis de ColombiaFuente: http://www.csc.ncsu.edu/faculty/healey/tweet_viz/tweet_app/
Text Analytics - Sentiment Analysis
Texto
El modelo de 3V (Gartner)Volumen,Velocidad y Variedad. Posteriormente algunas empresas añaden: Veracidad y valor.
Velocidad: Tiempo real de proceso de datos.
Escala: Aumento de la potencia de cálculo. Ley de Moore sigue vigente.
Sensores: Los datos sociales de lo físico del mundo que nos rodea. Internet de las cosas.
.DataFuente: IStockPhoto
Ciencia de datos
Científico de datos
Una nueva profesión de perfil alto
Científicos de datosLo que podemos decir es que es un área emergente que se ocupa de la recolección, preparación, análisis, visualización, gestión y conservación de grandes colecciones de información. Se requiere muchas habilidades disciplinares más allá de lo estadístico y matemático.
Deben interconectar con estas cuatro áreas: arquitectura de datos, adquisición de datos, análisis de datos y archivado de datos.
Deben tener también habilidades de comunicación, habilidades de análisis de datos (insights) y la capacidad de razonamiento ético.
Texto
Data ScienceLa ciencia de los datos es la transformación de los datos en información valiosa (insights)/decisiones o productos a través de estadísticas inferenciales.
Fuente imagen: http://bit.ly/1mnWx67
Texto
Machine LearningEs un subcampo de la Ciencia de la Computación y de la Inteligencia Artificial (IA), que se ocupa de la construcción y el estudio de sistemas que pueden aprender de los datos, en lugar de sólo seguir instrucciones programdas. Desde los años 50 del siglo pasado. O sea que le permite a la computadora aprender.
Machine Learning!!!!!!!!!!!!
La estructura y programación que se le puede enseñar a una computadora
para “observar el mundo”. o
la rama de IA cuyo objetivo es desarrollar técnicas que permitan a las
computadoras para aprender.
Texto
Analítica de datos (Big Data Analytics)Es un subcampo de la Ciencia de la Computación y de la Inteligencia Artificial (IA), que se ocupa de la construcción y el estudio de sistemas que pueden aprender de los datos, en lugar de sólo seguir instrucciones programdas. Desde los años 50 del siglo pasado. O sea que le permite a la computadora aprender.
Era del Petabyte (Wired, 2008)
Era del Exabyte (Cisco, 2012)
Hacia era del
Zettabyte (2020)
2010: The Economist
Texto
El tamaño de Big DataCrecimiento exponencial. Estamos entrando en la era del Zettabyte
Fuente: iStockPhoto
.Datos masivosTeoría de la Complejidad
Patrones
Sistemas autoorganizados
Flujos de datos en tiempo real
Fuentes de datosWebs y medios sociales: datos de flujos de clicks, feeds de Twitter, entradas en Facebook, contenido web, etc.
Máquina a máquina (M2M)/Internet de las cosas: lecturas medidores inteligentes, lecturas RFID y NFC, señales GPS, sensores, GIS.
Datos de sensores.
Datos de posición y tiempo. Aplicaciones de geolocalización.
Datos de sitios de redes sociales. Análisis de Redes Sociales (SNA).
Datos de operadores de Telecomunicaciones. Tecnologías móviles.
Transacciones de todo tipo: banca, comercio, seguros.
En la era de los datos masivos, los datos son el
nuevo oro. Pero este nuevo oro sólo puede ser desenterrado si usamos y combinamos los datos que tenemos de forma
correcta.
“Viktor Schönberger
Texto
Learning AnalyticsSi alguien interesa el tema puede consultar mi blog: http://fernandosantamaria.com/blog/tag/analisis-del-aprendizaje/ o en Mendeley dirijo un grupo de investigación: http://www.mendeley.com/groups/1174271/learning-analytics/
Texto
Si alguien interesa el tema puede consultar mi blog: http://fernandosantamaria.com/blog/tag/analisis-del-aprendizaje/ o en Mendeley dirijo un grupo de investigación: http://www.mendeley.com/groups/1174271/learning-analytics/
El análisis del aprendizaje se trata de la medición, recopilación, análisis y presentación de datos sobre los alumnos y sus contextos, con el propósito de entender y optimizar el aprendizaje y los entornos en que se produce (George Siemens, 2011 en LAK11)
Bucle de datos
Analítica del aprendizaje y de la academia
Tipo de analítica Nivel u objeto de análisis A quién beneficia?
Learning Analytics
Nivel de curso: redes sociales, desarrollos conceptuales, algoritmos, análisis del
discurso, curriculum adaptativo e inteligente.
Aprendices y de Facultad
Nivel departamental: Modelos predictivos, patrones de éxito y error.
Aprendices y de Facultad
Academic Analytics
Institucional: perfiles de los estudiantes, desempeño o rendimiento
académico, flujo de conocimiento (tiempo real)
Administradores, gestores y fundadores. A nivel de marketing.
Regional: comparación entre sistemas
Gestiones, CEOs/Fundadores y
administradoresNacional e Internacional Gobiernos nacionales y
regionales. Autoridades educativas.
Fuente: Penetrating the Fog: Analytics in Learning Education by Phil Long and G. Siemens http://bit.ly/1rEznOg
Para que nos puede ser útilMonitorear procesos de aprendizaje.
Explorar los datos de los estudiantes.
Identificar y prevenir/anticiparse a los problemas de los estudiantes.
Descubrir patrones.
Encontrar indicadores de éxito o de fracaso/deserciones en los grupos de clase o en las comunidades de aprendizaje.
Algunas de las bondadesEvaluar los materiales de aprendizaje.
Aumenta la conciencia de aprendizaje y sus entornos.
Mejorar los procesos de enseñanza a nivel micro y macro/maso. Intervenir/supervisar/asesorar/ayudar
Aumentar la capacidad de participación, la conciencia autoreflexiva.
Estar en constante feedback para lograr los objetivos. Es una buena “plataforma” para “embeber” otras acciones como puede ser la gamificación.
Desafíos DescripciónPrivacidad Retos de la propiedad y el uso de datos. ¿Quien tiene
acceso a los datos?
Hetereogeneidad Diferentes fuentes y formatos
Las partes interesadas
El tipo de datos y de análisis empleados dependen de la audiencia y de los interesados (stakeholders).
Visualización Apropiarse y comprender la visualización informacional para los stakeholders.
Estructura de datos
Los datos pueden ser estructurados (logged data) o no estructurados (interaction data)
La fata de identificadores únicos/
identificadores significativos
Las diferentes partes interesadas utilizan diferentes tecnologías de diferentes maneras. Las partes
interesadas (stakeholders) tienen diferentes puntos de vista.
El tema de los costos Costo para almacenar grandes volúmenes de datos y la producción de herramientas de aprendizaje Analytics.
Pedagogía centrada en datos
Texto
Signals (Pordue University) Esta universidad establece un señalización simple y efectiva de cada estudiante, por medio de la visualización por medio de un semáforo.
Texto
SNAPP (Social Networks Adapting Pedagogical Practice, Projecto Internacional, liderado por University of Wollongong) Una herramienta de diagnóstico y prevención instalada para operar sobre los foros de Moodle. Se evalúa los patrones de comportamiento de los estudiantes e intervenir sobre métricas y medidas de ARS.
Dawson, S. (2009). ‘Seeing’ the learning community: An exploration of the development of a resource for monitoring online student networking. British Journal of Educational Technology, 41(5),
736-752
Texto
Desire2Learn Student Success SystemDesire2Learn. Gráficas y análisis productivo
Texto
LA e-R(Learning Analytics Enriched RubricSe trata de un plugin para Moodle para poner notas con criterios flexibles de evaluación.
Fuente de descarga: http://bit.ly/1ndSiP4
Métricas y MedidasEl tamaño de las interacciones de la red
La densidad de la red.
Agujeros estructurales (R.S. Burt)
Ver las equivalencias y la cohesión del grupo.
Los cluster, asociaciones o cliqués
La centralidad, tanto en términos de grado (degree centrality), de proximidad (closeness centrality) como intermediación (betweenness centrality). La popularidad de nodos frente a desconexión.
La nueva disponibilidad de enormes cantidades de datos,
junto con las herramientas estadísticas para analizar estos
números, ofrece una nueva manera de comprender el mundo. La correlación
remplaza la casualidad, y la ciencia puede avanzar sin
modelos coherentes, teorías unificadas, o realmente sin
ninguna explicación mecanicista.Chris Anderson
El diluvio de datos vuelve obsoleto el método científico.“
FernandoFormador y Consultor
* Corporación Minuto de Dios (Gestión Básica de la Información-GBI)
* Centro de Tecnología para la Academia-Universidad La Sabana
http://fernandosantamaria.com/http://about.me/lernys
Twitter: lernys
Muchas gracias por escucharme
Dudas, inquietudes y sugerenciashttp://bit.ly/1m2nTzr