Soluciones Informáticas Integrales para el Aprovechamiento ... · Yandre Jaime Cujilán Instituto...

30
Soluciones Informáticas Integrales para el Aprovechamiento de Registros Administrativos Yandre Jaime Cujilán Instituto Nacional de Estadística y Censos INEC Ecuador Seminario Potenciando el uso de los registros administrativo con fines estadísticos para el seguimiento de la Agenda 2030 Santiago de Chile, 24 al 26 octubre 2017

Transcript of Soluciones Informáticas Integrales para el Aprovechamiento ... · Yandre Jaime Cujilán Instituto...

Soluciones Informáticas Integrales para el

Aprovechamiento de Registros

Administrativos

Yandre Jaime Cujilán

Instituto Nacional de Estadística y Censos –

INEC Ecuador

Seminario Potenciando el uso de los registros administrativo con fines

estadísticos para el seguimiento de la Agenda 2030

Santiago de Chile, 24 al 26 octubre 2017

Big Data Registros

Encuestas

INEC Usuarios

Visión óptima del INEC

MPE para Registros

Administrativos

Sistemas Informáticos para la

Producción Estadística-RA

AUTOMATIZACIÓN

Procesamiento (Estandarización)

Construcción

Diseño (muestral)

Difusión (Repositorio)

Procesamiento (Integración)

Análisis

(Cálculo)

Archivo (Cuadros de

mando)

Difusión

(BDD RE)

Análisis (Gráficos)

Análisis (Geográfico)

Archivo (Banco de

Información)

Sistemas Desarrollados

Sistemas en Desarrollo

Sistemas en Diseño

SISGEM Sistema Integrado de

Gestión Muestral

Sistema de almacenamiento y gestión

de muestras.

Permite cargar y gestionar una

muestra para dar paso al proceso de

investigación.

50%

Diseño (muestral)

INFOCAPT Sistema de Captura de

Información

Sistema que permite la captura de

información de forma digital.

Permite almacenar la información de un

cuestionario mediante tablets, laptops,

smartphones, etc.

100%

Construcción

Sistema de almacenamiento, gestión de

datos y metadatos.

Permite crear la estructura de un

formulario, parametrizar saltos y

validaciones.

METADEC Gestión de datos y

Metadatos

100%

Procesamiento: Estandarización

Pro

du

cto

ras

es

tad

ísti

ca

s

Estructura de información que permite

mantener información histórica.

Permite organizar la información de RA e

información generada por el INEC, para

facilitar el acceso y procesamiento.

Permite escalar a grandes volúmenes.

DWH-S Almacén de Datos

Estadístico

100%

Procesamiento: Integración

Sistema apoyado en R que permite

gestionar y ejecutar scripts para cálculo de

índices e indicadores.

Se pueden gestionar los scripts,

modificaciones al dato y su trazabilidad,

desde un solo sistema y lenguaje a todas

las unidades administrativas del INEC

GYCA Gestión y Calculo

Automático

10%

Análisis

VDATOS

Visualizador de Datos

Estadísticos

Sistema Integrado de Visualización de

Gráficos Estadísticos, de acceso

público vía web y móvil.

Consolida todas las operaciones

estadísticas.

Permite ver gráficos, tabulados y

documentación.

100%

Análisis

El sistema permite con componentes

geográficos, la visualización de estadística,

tracking, georreferenciación.

Permite realizar controles y una mejor

visualización de la producción estadística.

GEOPORTAL Sistema geográfico

INEC

20%

Análisis (Geográfico)

Sistema repositorio web para el

almacenamiento, transferencia y gestión

de archivo de base de datos del INEC.

Permite cargar, descargar, aprobar y

transferir bases entre Unidades del INEC.

RIBD Repositorio de base

de datos del INEC

100%

Difusión

Sistema de gestión y visualización de

registros administrativos.

Permite trasformar los RA en registros

estadísticos, y los clasifica por

temática.

VRAD Visor de Registros

Administrativos y

Estadísticos

Difusión

90%

Sistema que permite monitorear el avance

y gestión de los diferentes procesos de la

producción estadística

La visualización de avances de los

procesos, ayudan a la mejora continua de

los diferentes procesos

GPE Gestión de

Producción

Estadística

0%

Gestión de Archivo

BINFO

Banco de Información

de Datos Abiertos

Sistema Web para Descarga de Bases

de Datos.

Se puede descargar en formato de

datos abiertos.

100%

Gestión de Archivo

Confiabilidad

Disponibilidad

Integridad

Procesamiento de Datos en el

INEC con herramientas Big Data

Captación

Arquitectura de Procesamiento –

Software

• Computación paralela.

• Facilita la manipulación de grandes cantidades de datos, en grupos de computadoras.

Procesamiento - Hadoop

Requerimiento

Procesamiento

Procesamiento: Perfilamiento

Uso de herramientas estandarizadas (UDF)

desarrolladas en Java, y cargadas al entorno de

procesamiento.

cédula validación corrección

0705077378 -CC00 0705077378

705077378 -CC03-CC00 0705077378

75 0507378 -CC07-CC06-CC00 0705077378

070507u7378 -CC06-CC00 0705077378

05077378 -CC04 05077378

Catálogo de errores

Procesamiento: Perfilamiento

Procesamiento: Corrección

Procesamiento: Estandarización

• Uso de algoritmos de similitud para recuperación de datos:

– Algoritmo de Jaro Winkler

– Algoritmo de Levenshtein

– Algoritmo Similarity Tools

• Variables usadas

– Año de nacimiento

– Mes de nacimiento

– Día de nacimiento

– Genero

– Provincia de nacimiento

– Cantón de nacimiento

– Parroquia de nacimiento

Procesamiento: Consistencia

Resultado

texto evaluado

Procesamiento: Consistencia

Se generan nuevas variables a partir de las existentes, con un criterio institucional.

Variable original

Variable generada

Procesamiento: Conversión

La base de datos integrada por variables provenientes de diversas fuentes

de información.

Fuente1. SENESCYT Fuente2. CGREG Fuente3. DNRCIC

Procesamiento: Integración

RE

GIS

TR

OS

AD

MIN

IST

RA

TIV

OS

Transformación

(Almacén de

datos

estadístico)

Data warehouse

estadístico

Almacén de Datos Estadístico