La geografía y la estadística. dos necesidades para entender big data

19
LA GEOGRAFÍA Y LA ESTADÍSTICA. DOS NECESIDADES PARA ENTENDER BIG DATA. PEDRO JUANES NOTARIO Máster AADM 2013-2014

Transcript of La geografía y la estadística. dos necesidades para entender big data

LA GEOGRAFÍA Y LA ESTADÍSTICA. DOS NECESIDADES PARA ENTENDER BIG DATA.

PEDRO JUANES NOTARIOMáster AADM 2013-2014

Objetivos

Específicos• Definir de manera concreta y concisa Big Data como fenómeno.• Justificar la Estadística Multivariante aplicada a Big Data. • Clasificar y calificar las técnicas multivariantes clásicas que se

pueden aplicar.• Presentar la GISciencia como el vehículo curricular adecuado para

el tratamiento académico, conceptual y de desarrollo analítico final del Big Data.

GeneralLa definición del estado actual del Big Data a través de una profunda revisión bibliográfica de las dos disciplinas que han de interaccionar para su correcto análisis: la Geografía Cuantitativa y la Estadística Multivariante.

Es el producto de la última fase de desarrollo de las TIC y del Open Data. Consecuencia de las mejoras exponenciales que han sufrido el hardware y el software desde finales de los 60, complementada por un cambio de mentalidad en la tenencia de los datos.

Big Data

Internet

Desarrollo TIC Open Data

¿Pero qué es Big Data? (I)

¿Pero qué es Big Data? (y II)¿Un problema?Define una situación en la que el conjunto de datos existente ha llegado a tener un tamaño tan grande, una heterogeneidad tan diversa y un crecimiento tan exponencial que las TIC convencionales no pueden manejarlo de manera efectiva y aún resulta más difícil generar información a partir del mismo.

¿Una solución?Conjunto de herramientas, procesos y aptitudes que van a permitir la gestión de enormes cantidades de datos para mejorar los resultados.

Características de Big Data

Volumen

Velocidad

Variedad

VeracidadValor

Registros Transacciones Peta-Terabytes

Procesos Tiempo Real Streaming

Datos Estructurados Desestructurados

Origen Autenticidad Confiabilidad

Conocimiento Hipótesis Correlaciones

5 Vs

Un ejemplo de la dimensión de Big Data

• Volumen: equivalente a 70 veces el contenido de la librería del Congreso de los EEUU.• Variedad: mensajes de texto, fotos, videos, plataformas sociales, etc.• Velocidad: en tiempo real.

El primer día en la vida de un niño

Transformemos el problema en solución

¿Utilizando la Estadística?

Justificando la Estadística Multivariante en Big Data• Volumen y Velocidad Procesamiento de datos complejos en streaming.

• La ‘nube’.• ‘Machine Learning’.

• Veracidad y Variedad Desarrollo de métodos estadísticos más robustos. • Análisis de diversas fuentes de datos (internas, externas, estructuradas o

no).• Análisis de diversos formatos de datos (textos, imágenes, videos, etc.)• Importancia de los ’outliers’.

• Valor Generando Conocimiento.• Desarrollo de técnicas analíticas que transformen los datos brutos en

información útil.• Mejora en las técnicas de visualización.

Clasificando las técnicas multivariantes clásicas en Big Data• Técnicas de Reducción de la Dimensión: Simplificar los datos resumiendo la

información de los mismos a través de un número pequeño de componentes que presenten la información más relevante.• ‘Análisis de Componentes Principales ‘.*• ‘Análisis Factorial’.• ‘Análisis de Coordenadas Principales’.• ‘Multidimensional Scaling’. **• ‘Análisis de Correspondencias’.

• Técnicas de Clasificación: Agrupar y clasificar los datos mediante la división adecuada de éstos y la aplicación de estas normas a nuevos conjuntos de registros.• ‘Análisis de Cluster’. *• ‘Análisis Discriminante’. **• ‘Análisis de Correlación Canónica’.

Calificando las técnicas multivariantes clásicas en Big DataNECESIDAD DE ADAPTACION DE LAS TÉCNICAS A NUEVOS REQUERIMIENTOS:• Aplicamos estadística ‘one-shot’ cuando necesitamos combinar muchas

técnicas estadísticas para un mismo problema.• Se requieren modelos complejos y heterogéneos.• Cómo reducir la dimensión eficazmente.• Cómo encontrar relaciones y patrones: clasificar.• ‘Statistical Learning’ clave para el futuro.• Conocer y trabajar en ‘Cloud Computing’.

CAMPOS DE APLICACIÓN:• Computación.• Genómica.• Marketing.• Y un Big Etcétera.

GISciencia‘IoT’ ‘IoE’La ‘nube’

• La ‘nube’ es un espacio antrópico.• Internet of Things (‘IoT’) crea registros espaciales. La ‘Computación

Ubicua’ define la integración masiva de la informática en nuestro entorno. • Internet of Everything (‘IoE’) causa la necesidad al crear Big Data

Cómo se genera espacio y los fenómenos espaciales en Internet

• Cuando se trabaja con datos espaciales es imprescindible conocer la posición donde se producen los fenómenos: Georreferenciación.

• Un GIS gestiona cada una de las partes de la realidad a través de capas que contienen los datos de un aspecto de ésta, lo que permite relacionar varias capas entre sí para mostrar aspectos que la complejidad de la realidad impide percibir directamente.

• La GISciencia constituye un fundamento conceptual y teórico más profundo que los GIS, resultado de su evolución como campo unificado que estudia estos Sistemas de Información y la Estadística Espacial.

• Es el vehículo curricular adecuado para el tratamiento académico, conceptual y de desarrollo analítico final del Big Data en el ámbito de las Ciencias Sociales.

La GISciencia

DATORecolección.Validación.

OBSERVACIÓN

Del dato al conocimiento en Big DataMUNDO REAL ÁMBITO CIENTÍFICO

ACCIÓN

INFORMACIÓN Análisis. Investigación.

CONOCIMIENTOComprensión.Decisión.

Volumen

Velocidad

Variedad3Vs

Veracidad4Vs

Valor

5Vs

Conclusiones (I)1. Big Data es un fenómeno que surge en los tres últimos años como producto de

la última fase de desarrollo de las ‘TIC’ y del impulso al ‘Open Data’, conformando una realidad y una revolución que en la actualidad afecta a todos los ámbitos de nuestra sociedad.

2. Cinco características lo definen y la ciencia Estadística ha de dar respuesta a cada una estas dimensiones:• ‘Veracidad’: implantando soluciones que extraigan del conjunto de datos

aquellos registros que verdaderamente aporten valor. Importancia de los ‘outliers’.

• ‘Velocidad’: desarrollando algoritmos que permitan el procesamiento en ‘streaming’.

• ‘Volumen’: mediante técnicas que permitan reducir la dimensión original de los datos y conseguir su clasificación.

• ‘Variedad’: adoptando métodos que sean capaces de tratar con registros de diversa naturaleza.

• ‘Valor’: utilizando desarrollos que posibiliten predecir comportamientos y tomar decisiones sobre los datos.

Conclusiones (II)3. Es evidente que la Estadística Univariante no puede hacer frente a las

necesidades del Big Data y que además, tal y como hemos comprobado en la bibliografía consultada, las técnicas multivariantes clásicas son utilizadas pero con importantes limitaciones.

4. Confusión en la bibliografía científica entre Big Data y grandes matrices de datos.

5. Las soluciones se están aportando mayormente desde el ámbito empresarial donde ya existen desarrollos para gestionar, almacenar y procesar los registros de Big Data. La clave es ‘cómo analizamos la misma’ y la necesidad de una profunda alianza entre el ámbito académico y el empresarial (incremento exponencial en I+D+i).

6. Big Data está provocando una revolución en el ámbito científico (Big Ciencia). La explosión de datos es una realidad y para dar respuesta a los fenómenos que analizan están adoptando herramientas antes auxiliares (Informática y Estadística), que se han transformado en su principal factor de evolución hacia disciplinas científicas ‘más maduras’.

7. Un ejemplo claro se da en la Geografía. Además de lo antes señalado, la localización como atributo para los registros en Big Data (IoT), provoca la aparición de nuevas oportunidades y la necesidad de determinar nuevos objetivos que requieren el desarrollo de un nuevo cuerpo disciplinar: la GISciencia.

Conclusiones (III)

8. La dispersión al acometer el estudio de Big Data desde cada de las disciplinas científicas supone un gran error. Es necesario avanzar en el estudio de las interrelaciones resultantes de la investigación estadística dentro del ámbito científico general con el objeto de crear teorías, herramientas y métodos que sean útiles en múltiples dominios de la investigación.

9. Big Data requiere desarrollar herramientas y habilidades analíticas para convertir sus datos en conocimiento. Las organizaciones (independientemente de su naturaleza) y los individuos (independientemente de su formación) están ‘obligados’ a desarrollar este conocimiento.

Conclusiones (y IV)

¡¡¡Big Data es el ACONTECIMIENTO del siglo XXI y está ‘reservado’ a los Estadísticos!!!

Sin Big Data Con Big Data

PERO CUIDADO

MUCHAS GRACIAS