MARCO DE ESTADÍSTICA ESPACIAL DE CANARIAS MARCO DE ESTADÍSTICA ESP… · Estadística Espacial de...

36
MARCO DE ESTADÍSTICA ESPACIAL DE CANARIAS Autores: Jesús Alberto González Yanes, Rafael Betancor Villalba, Esther Torres Medina, Mariano Sanz Gil, Mª Salomé Hernández García Organismo de procedencia: Instituto Canario de Estadística (ISTAC) Palabras clave: GIS, Georreferenciación, API, Mesh Block, GRID. Resumen: El Marco de Estadística Espacial de Canarias se concibe con el objetivo de establecer las bases de referencia para la integración de la información estadística y geográfica en la Comunidad Autónoma de Canarias. El Marco de Estadística Espacial de Canarias está inspirado y es compatible con el Global Statistical Geospatial Framework elaborado por el Grupo de Expertos de Integración de Información Estadística y Geoespacial de Naciones Unidas (UN EG-ISGI, United Nations Expert Group on the Integration of Statistical and Geospatial Information). Este marco global fue la respuesta de Naciones Unidas a la constatación, en el Foro Global de la Integración Estadística y Geoespacial celebrado en Agosto de 2014 en Nueva York, de la necesidad urgente de un mecanismo que facilitara enfoques consistentes de producción e integración de información geoestadística. El Marco de Estadística Espacial de Canarias es un marco genérico de alto nivel que se estructura en torno a cinco principios que se consideran esenciales para la integración de la información estadística y espacial: 1. Sistema de georreferenciación y geocodificación sólido 2. Almacenamiento de datos georreferenciados en la Infraestructura de Datos y Metadatos Estadísticos de Canarias 3. Entidades geográficas comunes para la difusión de estadísticas. 4. Datos interoperables y estándares de metadatos. 5. Geoestadísticas accesibles y usables.

Transcript of MARCO DE ESTADÍSTICA ESPACIAL DE CANARIAS MARCO DE ESTADÍSTICA ESP… · Estadística Espacial de...

Page 1: MARCO DE ESTADÍSTICA ESPACIAL DE CANARIAS MARCO DE ESTADÍSTICA ESP… · Estadística Espacial de Canarias, la geocodificación se define como el proceso de dotar de dimensión

MARCO DE ESTADÍSTICA ESPACIAL DE CANARIAS

Autores: Jesús Alberto González Yanes, Rafael Betancor Villalba, Esther Torres Medina, Mariano

Sanz Gil, Mª Salomé Hernández García

Organismo de procedencia: Instituto Canario de Estadística (ISTAC)

Palabras clave: GIS, Georreferenciación, API, Mesh Block, GRID.

Resumen: El Marco de Estadística Espacial de Canarias se concibe con el objetivo de establecer las

bases de referencia para la integración de la información estadística y geográfica en la Comunidad

Autónoma de Canarias.

El Marco de Estadística Espacial de Canarias está inspirado y es compatible con el Global Statistical

Geospatial Framework elaborado por el Grupo de Expertos de Integración de Información Estadística

y Geoespacial de Naciones Unidas (UN EG-ISGI, United Nations Expert Group on the Integration of

Statistical and Geospatial Information). Este marco global fue la respuesta de Naciones Unidas a la

constatación, en el Foro Global de la Integración Estadística y Geoespacial celebrado en Agosto de

2014 en Nueva York, de la necesidad urgente de un mecanismo que facilitara enfoques consistentes

de producción e integración de información geoestadística.

El Marco de Estadística Espacial de Canarias es un marco genérico de alto nivel que se estructura en

torno a cinco principios que se consideran esenciales para la integración de la información estadística

y espacial:

1. Sistema de georreferenciación y geocodificación sólido

2. Almacenamiento de datos georreferenciados en la Infraestructura de Datos y Metadatos

Estadísticos de Canarias

3. Entidades geográficas comunes para la difusión de estadísticas.

4. Datos interoperables y estándares de metadatos.

5. Geoestadísticas accesibles y usables.

Page 2: MARCO DE ESTADÍSTICA ESPACIAL DE CANARIAS MARCO DE ESTADÍSTICA ESP… · Estadística Espacial de Canarias, la geocodificación se define como el proceso de dotar de dimensión

I. PRINCIPIOS DEL MARCO DE ESTADÍSTICA ESPACIAL DE CANARIAS 2 Principio 1: Sistema de georreferenciación y geocodificación sólido 3 Principio 2: Almacenamiento de datos georreferenciados integrado en la Infraestructura de Datos y Metadatos Estadísticos de Canarias 5 Principio 3: Entidades geográficas comunes para la difusión de estadísticas 5 Principio 4: Datos interoperables y estándares de metadatos 6 Principio 5: Geoestadísticas accesibles y usables 7

II. ORGANIZACIÓN Y GESTIÓN DE LA INFORMACIÓN ESPACIAL 8 2.1. Los esquemas-tipo del entorno repositorio del Banco de Datos 8 2.2. Los esquemas-tipo de Información Geográfica de Referencia (IGR) 11 2.3. Almacenamiento de georreferencias en los esquemas de microdatos 13 2.4. El registro de portales en el esquema de datos maestros 17

III. SISTEMA DE GEORREFERENCIACIÓN Y GEOCODIFICACIÓN 22 3.1. Sistema de georreferenciación 22 3.2. Sistema de geocodificación 28

IV. INFRAESTRUCTURA DE NORMALIZACIÓN Y REUTILIZACIÓN 31 4.1. La información territorial en la API de recursos estructurales 31 4.2. La API de callejeros 32 4.3. La API de georreferenciación y georreferenciación inversa 33

Bibliografía 34

1

Page 3: MARCO DE ESTADÍSTICA ESPACIAL DE CANARIAS MARCO DE ESTADÍSTICA ESP… · Estadística Espacial de Canarias, la geocodificación se define como el proceso de dotar de dimensión

I. PRINCIPIOS DEL MARCO DE ESTADÍSTICA ESPACIAL DE CANARIAS

El Marco de Estadística Espacial de Canarias se concibe con el objeto de establecer las bases de

referencia para la integración de la información estadística y espacial en la Comunidad Autónoma de

Canarias. La integración de la información estadística y geográfica es un aspecto crítico para:

1. Los procesos de toma de decisiones en diferentes ámbitos competenciales., especialmente a

escalas municipales o suburbanas.

2. Oportunidad de nuevos análisis que no son posibles analizando la información demográfica,

socioeconómica, medioambiental o espacial por separado.

3. Examinar nuevas fuentes de datos que incluyen información geoespacial, como por ejemplo

los datos de telefonía móvil.

4. Apoyar el intercambio de información entre instituciones y mejorar la interoperabilidad de la

información geográfica y estadística.

5. Sentar las bases para la colaboración institucional entre las comunidades geográfica y

estadística.

El Marco de Estadística Espacial de Canarias está inspirado y es compatible con el Marco Estadístico

Geoespacial Global desarrollado por el Grupo de Expertos de Integración de Información Estadística

y Geoespacial de Naciones Unidas (UN EG-ISGI, United Nations Expert Group on the Integration of

Statistical and Geospatial Information). Este marco global fue la respuesta de Naciones Unidas a la

constatación, en el Foro Global de la Integración Estadística y Geoespacial celebrado en Agosto de

2014 en Nueva York, de la necesidad urgente de un mecanismo que facilitara enfoques consistentes

de producción e integración de información geoestadística.

El Marco de Estadística Espacial de Canarias es un marco genérico de alto nivel que se

estructura en torno a cinco principios que se consideran esenciales para la integración de la

información estadística y espacial:

1. Sistema de georreferenciación y geocodificación sólido

2. Almacenamiento de datos georreferenciados integrado en la Infraestructura de Datos y

Metadatos Estadísticos de Canarias

3. Entidades geográficas comunes para la difusión de estadísticas.

4. Datos interoperables y estándares de metadatos.

5. Geoestadísticas accesibles y usables.

Cada uno de estos principios persigue la consecución de unas metas y objetivos, y para ello se

2

Page 4: MARCO DE ESTADÍSTICA ESPACIAL DE CANARIAS MARCO DE ESTADÍSTICA ESP… · Estadística Espacial de Canarias, la geocodificación se define como el proceso de dotar de dimensión

propone la adopción de normas nacionales e internacionales así como la asunción de aquellas

buenas prácticas que estén avaladas por experiencias o entidades en contextos extrapolables.

Principio 1: Sistema de georreferenciación y geocodificación sólido

La finalidad de este principio es poder dotar de representación espacial a las unidades de

información estadística de manera que puedan ser integradas en análisis espaciales. Este proceso

se denomina de forma genérica como georreferenciación o referenciación espacial.

La georreferenciación, o referenciación espacial, es el proceso de referenciar datos contra un

sistema de coordenadas geoespacial conocido, ajustándose a puntos conocidos en el sistema de

coordenadas, de manera que los datos pueden ser visualizados, procesados, consultados y

analizados junto con otros datos geográficos.

La georreferenciación debe utilizar información de referencia de las infraestructuras de datos

espaciales existentes en los diversos niveles de la Administración. Se debe priorizar la información

de carácter oficial, respaldada por las autoridades competentes o de uso generalizado y amplio

consenso. Esta información, además, debe ser precisa en términos geográficos (planimetría) y estar

acorde con las entidades del mundo real que subyacen a la información estadística. De forma

complementaria, en línea con las lineas estratégicas del Plan Estadístico de Canarias, se fomentará

el uso de georreferenciación mediantes fuentes Big Data.

La geocodificación es el proceso de asignación de un código geográfico a una unidad de análisis,

asociándola a una línea o polígono georreferenciado. A efectos del Marco de Estadística Espacial de

Canarias, la geocodificación se define como el proceso de dotar de dimensión espacial a las

unidades de registro estadístico de manera que puedan ser utilizadas en análisis espaciales. Más

específicamente, la geocodificación es un proceso que:

A) Permite asignar la descripción de una localización (por ejemplo el texto de una dirección

postal), a un geocódigo (por ejemplo, un objeto con referencia espacial).

B) Permite asignar un geocódigo a una referencia geográfica.

Para asegurar que se llevan a cabo procesos de georreferenciación y geocodificación consistentes

se deben alcanzar los siguientes objetivos:

1. Disponer de información de localización (direcciones, nombres geográficos, referencias

catastrales, etc.) precisa, actualizada y consistente, en coordinación con el Sistema de

3

Page 5: MARCO DE ESTADÍSTICA ESPACIAL DE CANARIAS MARCO DE ESTADÍSTICA ESP… · Estadística Espacial de Canarias, la geocodificación se define como el proceso de dotar de dimensión

Información Territorial de Canarias (SITCAN). Desarrollando la operación estadística de

Directorio de Calles y Direcciones incluida en el Plan Estadístico de Canarias.

2. Acceder a datos espaciales de las Infraestructuras de Datos Espaciales locales, nacionales e

internacionales (IDECanarias, IDEE e INSPIRE) así como otras posibles fuentes de

información de uso generalizado y consensuado.

3. Disponer de estándares de recopilación de direcciones consistentes, para capturar de forma

efectiva la dirección física, y disponer de normas auxiliares de localización donde no puedan

aplicarse los sistemas de direccionamiento estándar.

4. Ofrecer dentro de la Infraestructura de Datos y Metadatos Estadísticos de Canarias (eDatos)

API pública de callejeros para facilitar la normalización en la captura de direcciones en

formularios y encuestas.

5. Disponer dentro de la Infraestructura de Datos y Metadatos Estadísticos de Canarias

(eDatos) de API interna de georreferenciación y georreferenciación inversa.

6. Identificar y analizar fuentes auxiliares de georreferenciación de titularidad no pública, para

su uso complementario en la georreferenciación de direcciones en Canarias y de uso

principal en la georreferenciación de entidades en el exterior.

7. Utilizar procedimientos de georreferenciación contrastados y fiables, que garanticen

resultados precisos, y que permitan georreferenciar direcciones incompletas o imprecisas.

8. Establecer procedimientos de gestión sólidos para subsanar los problemas que puedan

aparecer en los procesos de georreferenciación.

9. Disponer de procesos precisos de geocodificación de literales, mediante la clasificación de

entidades de una dirección y el enlazamiento con diccionarios de geocódigos.

10. Disponer de instrumentos en las herramientas de análisis estadístico que faciliten la

geocodificación a partir de georreferencias.

4

Page 6: MARCO DE ESTADÍSTICA ESPACIAL DE CANARIAS MARCO DE ESTADÍSTICA ESP… · Estadística Espacial de Canarias, la geocodificación se define como el proceso de dotar de dimensión

Principio 2: Almacenamiento de datos georreferenciados integrado en la Infraestructura de Datos y Metadatos Estadísticos de Canarias

El Marco de Estadística Espacial de Canarias promueve que el almacenamiento de georreferencias y

la asignación de geocódigos a las unidades de información estadística se produzca en el entorno de

la Infraestructura de Datos y Metadatos Estadísticos de Canarias (eDatos), impulsando la utilización

de herramientas, técnicas y estándares que facilitan la integración y gestión de los georreferencias y

geocódigos. De esta manera se asegurará la georreferenciación sistemática de la información

estadística y podrán alcanzar los siguientes objetivos:

1. Información georreferenciada y geocodificada coherente e interpretable.

2. Flexibilidad de integración de la información geoestadística en procesos de análisis y

confección de visualizaciones.

3. Gestión efectiva de datos incluyendo aspectos relativos a la privacidad y a los metadatos.

4. Delimitación clara de roles entorno a la información (custodia, mantenimiento, consulta, etc).

Principio 3: Entidades geográficas comunes para la difusión de estadísticas

Para permitir la comparación de conjuntos de datos de diferentes variables y magnitudes

procedentes de múltiples orígenes, el Marco Geoestadístico de Canarias propone la utilización de un

conjunto común de entidades geográficas para abordar la generación de visualizaciones, elaboración

de informes, representación de indicadores y análisis de la información social, económica y medio

ambiental.

Al margen de las entidades geográficas comunes propuestas por el Instituto Nacional de Estadística

o la Oficina Estadística Europea, el Marco Geoestadístico de Canarias propone la elaboración de

bloques elementales de polígonos a partir de las cuales normalizar otras entidades geográficas de

carácter administrativo de tal manera que se asegure el respeto al secreto estadístico.

Esto asegurará que toda la información estadística esté habilitada geoespacialmente de forma

sistemática/consistente y que los usuarios puedan localizar, acceder, integrar, analizar y visualizar

información estadística de forma homogénea. Esto permitirá alcanzar las siguientes metas:

5

Page 7: MARCO DE ESTADÍSTICA ESPACIAL DE CANARIAS MARCO DE ESTADÍSTICA ESP… · Estadística Espacial de Canarias, la geocodificación se define como el proceso de dotar de dimensión

1. Los datos de fuentes dispares puedan ser integrados usando entidades geográficas

comunes.

2. Visualización y análisis simplificado.

3. Los metadatos apoyan la integración y uso de datos.

4. Soporte a la conversión de datos entre entidades geográficas, a través de mecanismos

estándares de conversión (por ejemplo: la correspondencia)

Principio 4: Datos interoperables y estándares de metadatos

Se adoptarán las normas y estándares en materia de interoperabilidad y metadatos aplicables en los

ámbitos estadístico y espacial. En el estadístico con especial atención a SDMX (Statistical Data and

Metadata Exchange) actualmente utilizado en la Infraestructura de Datos y Metadatos Estadísticos de

Canarias (eDatos) y en el espacial a la familia de estándares ISO 19100 desarrollada por el ISO/TC

211 y el OGC (Open Geospatial Consortium).

También se deberá atender a la exposición de la información geoestadística a través de las

iniciativas de Datos Abiertos (Open Data), utilizando el Vocabulario de Datos de Catálogo (DCAT-AP,

Data Catalog Vocabulary Application Profile) especificado por el W3C (World Wide Consortium) y

otras iniciativas relacionadas como puede ser la web semántica y los datos enlazados (Linked Data).

La interoperabilidad de la información geoestadística contribuirá a simplificar y potenciar la

localización, acceso y uso de las estadísticas georreferenciadas. De esta manera se alcanzarán los

siguientes objetivos:

1. Simplificación de la creación, localización, integración y uso de estadísticas

georreferenciadas y datos espaciales.

2. Ampliación del espectro de tecnologías y datos aplicables a la información geoestadística.

3. Incremento de la oferta de información disponible y accesible para su uso en análisis y

procesos de toma de decisiones.

6

Page 8: MARCO DE ESTADÍSTICA ESPACIAL DE CANARIAS MARCO DE ESTADÍSTICA ESP… · Estadística Espacial de Canarias, la geocodificación se define como el proceso de dotar de dimensión

Principio 5: Geoestadísticas accesibles y usables

Este principio del Marco Geoestadístico de Canarias tiene como objetivo identificar políticas, normas

y directrices que apoyen la publicación, acceso, análisis y visualización de información estadística

georreferenciada.

Se trata de un amplio espectro de cuestiones legislativas y operacionales entre las que tienen cabida

desde aspectos normativos de privacidad y confidencialidad de la información personal y comercial

hasta los relativos a las condiciones de uso, calidad y usabilidad de la información.

Este principio debe ser considerado a efectos de que la información geoestadística sea publicada y

compartida de forma apropiada, para alcanzar los siguientes objetivos:

1. Los responsables puedan publicar los datos sin infringir principios legales de privacidad u

otra naturaleza.

2. Los usuarios dispongan de toda la información necesaria para valorar su aplicación a un

contexto concreto, incluidas las posibles condiciones de su uso.

3. Se fomente el conocimiento y cumplimiento de las obligaciones legales derivadas del marco

normativo vigente en materia de tratamiento, gestión y publicación de datos geoestadísticos.

4. Se favorezca la localización, acceso y uso de las estadísticas georreferenciadas por parte de

los usuarios.

5. Se disponga de una infraestructura de servicios que permita la integración de geoestadísticas

en cualquier sistema de información.

7

Page 9: MARCO DE ESTADÍSTICA ESPACIAL DE CANARIAS MARCO DE ESTADÍSTICA ESP… · Estadística Espacial de Canarias, la geocodificación se define como el proceso de dotar de dimensión

II. ORGANIZACIÓN Y GESTIÓN DE LA INFORMACIÓN ESPACIAL

2.1. Los esquemas-tipo del entorno repositorio del Banco de Datos

El Principio 2 del Marco de Estadística Espacial de Canarias, promueve que el almacenamiento de

georreferencias y la asignación de geocódigos a las unidades de información estadística se produzca

en el entorno de la eDatos, impulsando la utilización de herramientas, técnicas y estándares que

facilitan la integración y gestión de los georreferencias y geocódigos. De esta manera se asegurará la

georreferenciación sistemática de la información estadística y podrán alcanzar los siguientes

objetivos.

La arquitectura del banco de datos del Instituto Canario de Estadística (ISTAC) está dirigida al

procesamiento supervisado de datos por lotes. Esta arquitectura es similar a las planteadas en otras

Oficinas Estadísticas y contrasta con las actuales arquitecturas Lambda o Kappa de procesamiento 1

automático de Big Data tanto en modo batch como en streaming de datos.

1 Julien Forgeat. “Data Processing Architectures – Lambda and Kappa.” Ericsson Research Blog. Accessed October 24, 2016.

8

Page 10: MARCO DE ESTADÍSTICA ESPACIAL DE CANARIAS MARCO DE ESTADÍSTICA ESP… · Estadística Espacial de Canarias, la geocodificación se define como el proceso de dotar de dimensión

● Entornos de recepción, captura y prealmacenamiento: Los entornos de recepción,

captura y prealmacenamiento de datos son entornos donde se almacenan y catalogan

previamente los inputs del banco de datos. Estos entornos pueden ser tecnológicamente

variados, desde base de datos SQL, como no-SQL o servidores de ficheros. Además

pueden estar soportados o no por sistemas de gestión (por ejemplo LimeSurvey o

Profesionales del Turismo).

● Entorno repositorio: El entorno repositorio es un entorno de base de datos, donde se

almacenan las cartografías, los microdatos y los macrodatos que son el resultado final de

procesos de tratamiento generadores de un cambio de naturaleza de los mismos. El entorno

repositorio se organiza en esquemas tipo, según la naturaleza de los ficheros que contiene, y

estos esquemas se agrupan en tres tipos de niveles según almacenen cartografías,

microdatos o macrodatos.

● Entornos computacionales: Los entornos computacionales son entornos para el

procesamiento eficiente de datos y su objetivo es el cambio de naturaleza de un fichero de

datos. Pueden existir distintos entornos computacionales según los requerimientos de cálculo

y los requerimientos tecnológicos exigidos por los programas de computación estadística. A

su vez estos entornos pueden también organizarse en esquemas tipo según la fase en la que

se aborda un tratamiento.

● Entornos analíticos: Los entorno analíticos son entornos para el análisis exploratorio de

datos. Estos entornos requieren acceso al entorno repositorio, o también necesitan de copias

o transformaciones de datos para su función analítica.

● Entorno de difusión: No se trata de un entorno en sí mismo, sino de una capa de servicios

web para la difusión de datos y cartografía.

Como decíamos, el entorno repositorio se organiza en esquemas-tipo, según la naturaleza de los

ficheros que contiene, y estos esquemas se agrupan en tres tipos de niveles según almacenen

cartografías, microdatos o macrodatos. Este repositorio es un repositorio de base de datos relacional

(PostgreSQL) con extensión SIG (PostGIS), que permite tanto el almacenamiento de objetos

cartográficos como la realización de procesamiento geográfico.

El sistema de coordenadas en la Infraestructura de Datos y Metadatos Estadísticos de Canarias

(eDatos) es el WGS84 (World Geodetic System 1984) que significa Sistema Geodésico Mundial

1984 y es el sistema es en el que se basa el Sistema de Posicionamiento Global (GPS). El WGS84

9

Page 11: MARCO DE ESTADÍSTICA ESPACIAL DE CANARIAS MARCO DE ESTADÍSTICA ESP… · Estadística Espacial de Canarias, la geocodificación se define como el proceso de dotar de dimensión

es un sistema de coordenadas geográficas mundial que permite localizar cualquier punto de la Tierra

sin necesitar otro de referencia, lo que facilita el almacenamiento normalizado de información

geográfica dentro de eDatos. La información geográfica se almacena en todo los esquemas tipo, en

WGS84, según las siguientes características:

1. Las cartografías se almacenan en los esquemas de cartografías

2. Las georreferencias se almacenan es los esquemas de microdatos

3. Los geocódigos se almacenan en los esquemas de microdatos y macrodatos

Grupo Tipo de datos Descripción

Cartografía Raw Cartography (RC)

Esquemas de cartografía en crudo, con sólo tratamiento de normalización.

Support Cartography (IGS)

Esquemas de cartografía de soporte. En estos esquemas se almacenan cartografías normalizadas y depuradas, utilizadas para procesamiento y análisis espacial.

Geographic Information Reference (IGR)

Esquemas de cartografía de referencia. En estos esquemas se almacenan cartografías normalizadas, transformadas y depuradas, para su uso como entidades geográficas de difusión estadística. En este caso se almacenan distintas geometrías e información auxiliar.

Public Cartography (PC)

Esquemas de cartografía estadísticas de uso público. En estos esquemas se almacenan las cartografías públicas para su uso como entidades geográficas de difusión estadística (IGR) y otras cartografías almacenadas en IGS que puedan ser de interés analítico.

Microdatos Raw Data (RD)

Esquemas de microdatos en crudo, con solo tratamiento de normalización. Todo fichero se georreferencia desde su incorporación al Banco de Datos.

Master Data (ID)

Esquemas de microdatos maestros, donde se almacenan los cuatro grandes directorios (direcciones, edificios y viviendas, población y hogares, empresas y establecimientos). En el caso que nos ocupa es especialmente relevante el Directorio de Calles y Portales, donde se almacena la información base para la georreferenciacón.

Statistical Data (SD)

Esquemas de microdatos estadísticos de uso interno, no anomimizados y con georreferencias.

10

Page 12: MARCO DE ESTADÍSTICA ESPACIAL DE CANARIAS MARCO DE ESTADÍSTICA ESP… · Estadística Espacial de Canarias, la geocodificación se define como el proceso de dotar de dimensión

Scientific Data (CD)

Esquemas de microdatos para fines científicos, de uso compartido para uso científico, con eliminación de identificadores y otras anonimizaciones indirectas suaves. No se incluyen georreferencias, sólo geocódigos.

Public Data (PD)

Esquemas de microdatos públicos, con eliminación de identificadores y anonimizaciones indirectas fuertes. No se incluyen georreferencias, sólo geocódigos.

Macrodatos MacroDataSet (MDS)

Esquemas de macrodatos estadísticos de uso interno, con almacenamiento de geocódigos.

DataSetCube (DSC)

Esquema público de cubos estadísticos (eDatos), con almacenamiento de geocódigos.

IndicatorsCube (DSI)

Esquema público de indicadores estadísticos (eDatos), con almacenamiento de geocódigos.

2.2. Los esquemas-tipo de Información Geográfica de Referencia (IGR)

En estos esquemas se almacenan cartografías normalizadas, transformadas y depuradas, para su

uso como entidades geográficas de difusión estadística. En los esquemas cartográficos IGR la

información espacial se almacena en tablas GEO según las siguientes características:

1. Identificadores únicos según estándar del banco de datos: identificador único universal

(UUID), identificador único local (LUID), identificador de esquema y tabla (STID) y marca de

tiempo (TIMESTAMP).

2. Información geográfica de varias granularidades homogéneas en una misma tabla, por

ejemplo las diferentes mallas (1000 * 1000, 500 * 500, 250 * 250, 100 * 100) o las

delimitaciones cartográficas básicas de Canarias (Islas, comarcas y municipios),

generalmente asociadas a un CodeLIst geográfico dentro de eDatos (por ejemplo en este

último caso al CL_AREA_ES28).

3. Se almacena el geocódigo (var_element) identificador único dentro de un polígono dentro de

eDatos y además un geocódigo según un CodeList de referencia.

4. Se almacenan distintas geometrías topológicamente depuradas: detallada, generalizada y

centroides.

11

Page 13: MARCO DE ESTADÍSTICA ESPACIAL DE CANARIAS MARCO DE ESTADÍSTICA ESP… · Estadística Espacial de Canarias, la geocodificación se define como el proceso de dotar de dimensión

5. Se incluyen diferentes características geométricas: longitud para las líneas, superficie y

perímetro para los polígonos.

Ejemplo de campos de una tabla GEO en un esquema IGR

Ejemplo de datos geométricos en una tabla GEO de un esquema IGR

En este último ejemplo de una tabla almacenamiento de los distritos y secciones a uno de

enero de 2017, sombreados en azul, pueden identificarse los tres campos geométricos

almacenados en la base de datos PostGIS: la geometría detallada, la geometría simplificada

y la geometría del centroide del polígono.

12

Page 14: MARCO DE ESTADÍSTICA ESPACIAL DE CANARIAS MARCO DE ESTADÍSTICA ESP… · Estadística Espacial de Canarias, la geocodificación se define como el proceso de dotar de dimensión

2.3. Almacenamiento de georreferencias en los esquemas de microdatos

Los esquemas de microdatos dentro del Banco de Datos de la Infraestructura de Datos y Metadatos

Estadísticos de Canarias se organizan en diferentes tipos de tablas, que podríamos categorizar en

tres tipologías: datos, metadatos y relaciones.

Grupo Tablas tipo Descripción

Datos Datos (DAT)

Tablas de almacenamiento de microdatos en un momento (t)

Georreferencias (GEO)

Tablas de almacenamiento de georreferencias de las observaciones de una tabla de microdatos en un momento t.

Datos longitudinales (LON)

Tablas de almacenamiento de identificadores normalizados de una unidad de observación a lo largo de un periodo de tiempo.

Metadatos Diseño de registro (DSD)

Tabla de almacenamiento del diseño de registros explicativo de un conjunto de tablas de datos. Entre otra información se almacena también las referencias (URL) a los codelist utilizados, que se almacenan y gestionan en el Bando de Metadatos, siendo accesibles mediante APIs internas o externas.

Registro de datos (REG)

Tabla de registro de tablas de datos y su relación con el DSD explicativo.

Extensiones de códigos (CLE)

Los codelist de las tablas de microdatos, se almacenan y gestionan en el Bando de Metadatos, siendo accesibles mediante APIs internas o externas. Cuando los codelist necesitan extensiones, o se requieren codelist especiales, éstos se almacenan en este tipo de tablas.

Relaciones Relaciones entre unidades de información (URD)

Tablas de almacenamiento de las relaciones, internas o externas, de las observaciones de una tabla de microdatos con otros microdatos.

Como vemos, el almacenamiento de las georreferencias dentro de los esquemas de microdatos se

realiza en tablas (GEO) distintas al almacenamiento de los datos (DAT), y se vinculan entre si

mediante las tablas de relaciones (URD). Este modo de organización y gestión de la información

permite:

13

Page 15: MARCO DE ESTADÍSTICA ESPACIAL DE CANARIAS MARCO DE ESTADÍSTICA ESP… · Estadística Espacial de Canarias, la geocodificación se define como el proceso de dotar de dimensión

1. Flexibilidad: Las cargas de microdatos se realizan sin la necesidad de disponer previamente

de las georreferencias. Por lo tanto la disponibilidad de los datos no depende del proceso de

georreferenciación.

2. Simplificación: En las tablas GEO se almacenan direcciones (portales) no duplicadas, que

luego se relacionan con sus correspondientes ficheros DAT. Por lo tanto no se almacenan

georreferencias duplicadas, se mantienen las coherencias y se simplifican los procesos de

georreferenciación.

3. Independencia: Cada realización del fichero de microdatos DAT se relaciona con un GEO

propio, lo que evita la propagación de errores de georreferenciación así como la fácil

incorporación de las mejoras de calidad de los sistemas de georreferenciación o de los datos

base. A su vez, no se excluye la posibilidad de obtener georreferencias en el momento (t+1)

a partir de las generadas en el momento (t), a través de métodos denominados de herencia.

4. Seguridad: Disponer las tablas de georreferencias GEO separadas de las tablas de datos

DAT permite gestionar con mayor facilidad los permisos de accesos a esos datos mediante:

(a) Gestionando los accesos a las tablas URD (b) Gestionando los acceso a las tablas GEO.

Ejemplo de tipos de tablas en un esquema-tipo de microdatos

14

Page 16: MARCO DE ESTADÍSTICA ESPACIAL DE CANARIAS MARCO DE ESTADÍSTICA ESP… · Estadística Espacial de Canarias, la geocodificación se define como el proceso de dotar de dimensión

Tanto las tablas URD como las tablas GEO son tablas clave en el almacenamiento de las

georreferencias. A su vez comparten una característica importante, y es que ambos tipos de tablas

mantienen un diseño fijo dentro del Banco de Datos, y por lo tanto no necesitan DSD explicativo.

Las tablas GEO son tablas de portales, en las que se almacenan los datos normalizados y no

normalizados de la identificación literal de un portal, así como su latitud y longitud en el sistema de

referencias WGS84, y los identificadores que relacionan ese punto con un punto del Directorio de

Calles y Direcciones que forman parte del conjunto de directorios maestros del Sistema de Datos

Integrados y que se almacena en esquema-tipo ID de la Infraestructura de Datos y Metadatos

Estadísticos de Canarias.

Diseño de registro de una tabla GEO en un esquema de microdatos

Bloque Variable Descripción

Identificadores uuid Identificador único universal

stid Esquema tabla

luid Identificador único local

marcatiempo Fecha de creación

Literales de dirección del portal

tvia Tipo de vía

cvia Código de vía

nvia Nombre de vía

numer Número

codmun Código de municipio

nommun Nombre de municipio

direccion Dirección: tvia+nvia+numer+nommun

Georreferencias geom Punto

longitud Longitud

latitud Latitud

Relación con las tablas

maestras de portales

(Directorio de portales)

uuid_id Relación con el Directorio de Portales: UUID de la tabla

IDT en el esquema C00047A_ID

stid_id Relación con el Directorio de Portales: Por ejemplo

C00047A_ID.IDT_NOMEPORTAL20170101_V01

15

Page 17: MARCO DE ESTADÍSTICA ESPACIAL DE CANARIAS MARCO DE ESTADÍSTICA ESP… · Estadística Espacial de Canarias, la geocodificación se define como el proceso de dotar de dimensión

Las tablas URD son tablas de relaciones, en las que establecen las relaciones entre las

observaciones de un fichero DAT con otras unidades de información en otras tablas tanto de tipo

DAT como GEO o LON. Además estas relaciones pueden ser dentro del mismo esquema de datos

(endógenas) como con otros esquemas distintos (exógenas).

Diseño de registro de una tabla URD en un esquema de microdatos

Bloque Variable Descripción

Identificadores uuid Identificador único universal

stid Esquema tabla

luid Identificador único local

marcatiempo Fecha de creación

Identificadores de enlazamiento

uuid_a UUID de la observación que se complementa

stid_a STID de la observación que se complementa

uuid_b UUID de la observación que aporta información complementaria

stid_b STID de la observación que aporta información complementaria

Descripción de la relación

rel_type Tipo de relación según lista controlada (code_list). GEOREF: Complemento de información georreferencial. GEOCOD: Relación de pertenencia a una geometría de IGR. SOURCE: Fuente de información primaria, LON: Relación longitudinal. TRACE: Relación de la observación con otra observación en otra tabla de otro esquema.

rel_description Descripción del tipo de relación

Descripción del enlazamiento

link_type Tipo de enlazamiento según lista controlada (code_list). RL_DETERMINISTIC: Record Linkage determinístico. RL_PSEUDODETERMINISTIC: Record Linkage determinístico parcial. RL_PROBABILISTIC: Record Linkage probabilístico. STATISTICAL_MATCHING: Statistical Matching. RL_INHERITED: Heredado.

link_description Descripción del tipo de enlazamiento

link_quality Descripción de la calidad del enlazamiento

linl_quality_rank Clasificación de la calidad del enlazamiento: MUY_ALTA,

ALTA, MEDIA, BAJA, MUY_BAJA

16

Page 18: MARCO DE ESTADÍSTICA ESPACIAL DE CANARIAS MARCO DE ESTADÍSTICA ESP… · Estadística Espacial de Canarias, la geocodificación se define como el proceso de dotar de dimensión

2.4. El registro de portales en el esquema de datos maestros

El artículo 32 de la Ley 1/1991 de Estadística de la Comunidad Autónoma de Canarias indica que se

constituirá un banco de datos administrativos para fines estadísticos, que se nutrirá prioritariamente

de los ficheros administrativos de la Comunidad Autónoma de Canarias, a cuyo fin todos los

departamentos deberán remitir al Instituto Canario de Estadística los ficheros administrativos de los

que sean titulares y que sean necesarios para el ejercicio de la función estadística. Los referidos

ficheros deberán adecuarse, para su remisión, a los requisitos técnicos que establezca el Instituto.

Asimismo se señala que el banco de datos administrativos para fines estadísticos deberá facilitar la

fusión de los ficheros para fines estadísticos.

Este banco de datos se elabora a fin de mejorar la eficiencia de la actividad estadística de interés de

la Comunidad Autónoma de Canarias y para su desarrollo durante la ejecución del Plan Estadístico

de Canarias 2018-2022 (PEC-22) se impulsará el Sistema de Datos Integrados (iDatos). Dicho

sistema debe permitir la producción de estadísticas multifuentes mediante la elaboración de datos

maestros organizados en directorios y registros que faciliten el enlazamiento de fuentes diversas. El

PEC-22 enumera el conjunto de directorios que como datos maestros forman parte del Sistema de

Datos Integrados (iDatos):

Directorios Códigos Descripción

Lugares

C00047A Directorio de Calles y Direcciones

C00113A Directorio de Puntos de Interés Turístico (PIT)

Edificios, viviendas y locales (DEV)

C00111A Directorio de Edificios, Viviendas y Locales

C00111B Directorio de Viviendas Turísticas (VITUR)

Población y hogares (DPH)

C00063A Directorio de Población y Hogares

Empresas y establecimientos (DUE)

C00021A Directorio de Unidades Económicas (DUE)

C00021B Directorio de Alojamientos Turísticos Colectivos (ALOJATUR)

C00021C Directorio de Establecimientos de Alimentación y Bebidas (ALIMERCA)

C00021D Directorio Especializado de Unidades Económicas de la Industria

C00021E Directorio Especializado de Unidades Económicas de la Energía

C00021F Directorio Especializado de Unidades Económicas del Sector Comercial

C00021G

Directorio Especializado de Unidades Económicas del Sector Primario

17

Page 19: MARCO DE ESTADÍSTICA ESPACIAL DE CANARIAS MARCO DE ESTADÍSTICA ESP… · Estadística Espacial de Canarias, la geocodificación se define como el proceso de dotar de dimensión

El Sistema de Datos Integrados debe facilitar la obtención de estadísticas espaciales, mediante la

georreferenciación de la información dentro de un Marco de Estadística espacial de Canarias

alineado con el Global Statistical Geospatial Framework elaborado por el Grupo de Expertos de

Integración de Información Estadística y Geoespacial de Naciones Unidas (UN EG-ISGI. United

Nations Expert Group on the integration of Statistical and Geospatial Information).

Asimismo según la Directriz Estratégica 4.1. del PEC-22 la evolución experimentada en los últimos

años en la disponibilidad de datos ha de aprovecharse en la elaboración de las operaciones del Plan.

Los métodos tradicionales de obtención de información primaria han de combinarse con estas

nuevas fuentes de datos de la mejor manera posible, en aras a reducir la carga de los informantes,

abaratar el coste de las estadísticas y, en muchos casos, a disponer de indicadores más rápidos. Por

lo tanto, la potenciación del uso de registros administrativos y las bases de datos masivos (Big Data)

serán los dos bloques fundamentales de fuentes alternativas y complementarias a la obtención

tradicional de la información.

Por lo tanto, el Directorio de Calles y Portales se constituye como un directorio maestro dentro de la

Infraestructura de Datos y Metadatos Estadísticos de Canarias (eDatos), formando parte del Sistema

de Datos Integrados (iDatos). Estos directorios se almacenan dentro del Banco de Datos en

esquemas tipo ID de datos maestros. El conjunto de directorios se agrupan en cuatro grandes

bloques interrelacionados, alimentándose de diferentes fuentes tanto administrativas como Big Data.

:

Relaciones entre los cuatro bloques de directorios maestros

18

Page 20: MARCO DE ESTADÍSTICA ESPACIAL DE CANARIAS MARCO DE ESTADÍSTICA ESP… · Estadística Espacial de Canarias, la geocodificación se define como el proceso de dotar de dimensión

Como se observa en el esquema anterior, el Directorio de Calles y Direcciones (C00047A) ocupa una

posición dentro de la integración del conjunto de datos maestros almacenados en esquemas ID.

Dentro de estos esquemas distinguimos tres tipos de tablas DAT: los de capa fuente (IDF), los de

capa de momento (IDT) y los de capa longitudinal.

Tipos de tablas DAT en un esquema-tipo de microdatos maestros (ID)

Estos tipo de DAT se asocian a la construcción de un determinado registro dentro de un directorio.

por ejemplo en el Directorio de Población y Hogares nos encontramos con el Registro de Población y

el Registro de Hogares. La estrategia de construcción de los registros es siempre similar: Se

construyen registros por momentos de referencia (IDT) a partir de una fuente básica que se

enriquece con otras fuentes auxiliares (IDF), para posteriormente enlazar las mismas unidades a lo

largo del tiempo mediante tablas IDL. Dentro del Directorio de Calles y Direcciones (C00047A_ID)

se localizan dos conjuntos de registros, el de vía (NOMECALLES) y el de portales

(NOMEPORTALES).

En el caso que nos ocupa, su construcción tiene como fichero base el registro de portales del

Sistema de Información Territorial de Canarias (SITCAN) mantenido por la empresa pública

Cartográfica de Canarias (GRAFCAN). A su vez este registro de alimenta y depura a partir de

información aportada por el ISTAC a partir del Sistema de Datos Integrados (iDatos).

Tablas Descripción

IDT_NOMEPORTAL

Tabla localización única de portales a partir de su posición espacial

IDF_NOMEPORTAL Tabla de identificación múltiple de portales a partir de descriptores.

19

Page 21: MARCO DE ESTADÍSTICA ESPACIAL DE CANARIAS MARCO DE ESTADÍSTICA ESP… · Estadística Espacial de Canarias, la geocodificación se define como el proceso de dotar de dimensión

Por ejemplo un mismo portal se puede identificar como “Avenida Marítima, 15” o “Edificio Playa, 15”.

MDS_NOMEPORTAL Tabla de macrodatos que almacena indicadores asociados a los portales. Estos indicadores tienen diversos usos, entre los que destacamos la georreferenciación aleatoria.

URD_NOMEPORTAL Tabla que relaciona las posiciones de los portales (IDT) con sus descriptores múltiples en IDF o con sus indicadores en MDS.

Tablas del Registro de Portales (NOMEPORTALES)

Los diseños de registros de las tablas IDT_NOMEPORTALES e IDF_NOMERPORTALES son fijos,

por lo que en principio no se requieren tablas DSD en el esquema. A su vez, el diseño de registro de

las tablas IDF está armonizado con las tablas GEO, con las que comparte el bloque de variables de

literales del portal.

Diseño de registro de una tabla IDF_NOMEPORTALES

Bloque Variable Descripción

Identificadores uuid Identificador único universal

stid Esquema tabla

luid Identificador único local

marcatiempo Fecha de creación

Identificadores de enlazamiento con fuente de origen

uuid_s UUID de la observación que aporta información de origen

20

Page 22: MARCO DE ESTADÍSTICA ESPACIAL DE CANARIAS MARCO DE ESTADÍSTICA ESP… · Estadística Espacial de Canarias, la geocodificación se define como el proceso de dotar de dimensión

stid_s STID de la observación que aporta información de origen

Literales de dirección del portal

codlugar Código de lugar

tipolugar Tipo de lugar

nomlugar Nombre del lugar

numero Número

codmun Código de municipio

nommun Nombre de municipio

En el mismo sentido el diseño de registro de las tablas IDT está armonizado con las tablas GEO, con

las que comparte el bloque de variables de georreferencias.

Diseño de registro de una tabla IDT_NOMEPORTALES

Bloque Variable Descripción

Identificadores uuid Identificador único universal

stid Esquema tabla

luid Identificador único local

marcatiempo Fecha de creación

Georreferencias geom Punto

longitud Longitud

latitud Latitud

Como puede observarse, las tablas de Registro de Portales lo que hacen es dividir en dos tablas

(IDT) e (IDF) la información contenida en tablas GEO. El fichero básico de construcción de estas

tablas son los portales de SITCAN, pero la información puede ampliarse con otras fuentes. Por

ejemplo se pueden incluir los puntos kilométricos recogidos en CartoCiudad, o incluso se puede

ampliar con georreferencias identificadas usando fuentes Big Data.

Por lo tanto NOMEPORTALES se estructura como un gran diccionario de portales, que a su vez

utilizamos como fuente de alimentación de la API de georreferenciación del ISTAC, con la ventaja de

poder utilizar distintos diccionarios e incluso diccionarios referidos a fechas diferentes.

21

Page 23: MARCO DE ESTADÍSTICA ESPACIAL DE CANARIAS MARCO DE ESTADÍSTICA ESP… · Estadística Espacial de Canarias, la geocodificación se define como el proceso de dotar de dimensión

III. SISTEMA DE GEORREFERENCIACIÓN Y GEOCODIFICACIÓN

El Sistema de Georreferenciación y Geocodificación está enumerado en el principio primero del

Marco de Estadística Espacial de Canarias. La finalidad de este principio es poder dotar de

representación espacial a las unidades de información estadística de manera que puedan ser

integradas en análisis espaciales. Este proceso se denomina de forma genérica como

georreferenciación o referenciación espacial.

● La georreferenciación, o referenciación espacial, es el proceso de referenciar datos contra

un sistema de coordenadas geoespacial conocido, ajustándose a puntos conocidos en el

sistema de coordenadas, de manera que los datos pueden ser visualizados, procesados,

consultados y analizados junto con otros datos geográficos.

● La geocodificación es el proceso de asignación de un código geográfico a una unidad de

análisis, asociándola a una línea o polígono georreferenciado. A efectos del Marco de

Estadística Espacial de Canarias, la geocodificación se define como el proceso de dotar de

dimensión espacial a las unidades de registro estadístico de manera que puedan ser

utilizadas en análisis espaciales.

3.1. Sistema de georreferenciación

El sistema de georreferenciación se fundamenta en el uso de multiprocesos y de multifuentes, que

ofertan un conjunto de geoposiciones y procedimientos para luego definir una estrategia particular de

georreferenciación para cada fichero de datos. El resultado de un proceso de georreferenciación de

un fichero DAT siempre es un fichero de georreferencias GEO y un fichero de relaciones de

georreferenciación URD.

22

Page 24: MARCO DE ESTADÍSTICA ESPACIAL DE CANARIAS MARCO DE ESTADÍSTICA ESP… · Estadística Espacial de Canarias, la geocodificación se define como el proceso de dotar de dimensión

Los diferentes procesos y fuentes de georreferenciación se combinan de tal manera que se dispone

de un conjunto de procedimientos a integrar dentro de la estrategia de georreferenciación de un

fichero de microdatos

Ejemplo de estrategia de georreferenciación de los DAT de demandantes de empleo

Los diferentes métodos-fuente que en la actualidad se están utilizando en el sistema de

georreferenciación son los siguientes:

1. Fuente propia

a. Georreferenciación determinística

i. Método de enlazamiento directo a ID_NOMEPORTALES

ii. Método de enlazamiento heredado

b. Georreferenciación pseudodeterminística

i. Método del portal más cercano

ii. Método del centro de vía

c. Georreferenciación probabilística

i. Método de API propia (algoritmo de librería LibPostal)

23

Page 25: MARCO DE ESTADÍSTICA ESPACIAL DE CANARIAS MARCO DE ESTADÍSTICA ESP… · Estadística Espacial de Canarias, la geocodificación se define como el proceso de dotar de dimensión

2. Fuentes Big Data

a. Georreferenciación probabilística

i. Método de API

Los métodos de georreferenciación pseudodeterminística son útiles pues reducen el conjunto de

direcciones que se traspasan a otros métodos menos precisos y más lentos. Los resultados

obtenidos arrojan buenos indicadores de calidad.

Portales más cercanos en PMH según la distancia N. Resultados para Tenerife.

Las fuentes Big Data incluidas actualmente en el sistema de georreferenciación son las siguientes:

ArcGIS, Bing, Cartociudad, GoogleMap, Here y Komoot. Como hemos señalado, para estas fuentes

se utiliza el método API, que se invocan mediante llamadas a la misma desde la consola de R. Un

ejemplo de llamada a la API sería:

https://maps.googleapis.com/maps/api/geocode/json?address=CALLE+FARMACEUTICO+PEDRO+RIVE

RO+40+LAS+PALMAS+DE+GRAN+CANARIA&language=es&key=key

24

Page 26: MARCO DE ESTADÍSTICA ESPACIAL DE CANARIAS MARCO DE ESTADÍSTICA ESP… · Estadística Espacial de Canarias, la geocodificación se define como el proceso de dotar de dimensión

Método de selección en un sistema de georreferencias múltiples

Las estrategias de georreferenciación en algunos casos, especialmente cuando se usan fuentes Big

Data, pueden dar lugar a múltiples georreferencias para la dirección que se desea posicionar. Para

resolver el problema se ideó un método de selección de la posición que se considera más verosímil

en un rango de 0-1. El algoritmo utilizado se estructura en los siguientes componentes:

1. Cálculo de errores de validaciones espaciales (cold-deck). Consiste en calcular diferentes

errores con información geográfica conocida, como puede ser el municipio, la vía, el código

postal, etc.

ERROR_11 Distancia del punto al municipio (metros) (*) Obligatorio

ERROR_12 Distancia del punto a la vía (metros) (*) Obligatorio

ERROR_13 Distancia del punto al código postal (metros) Optativo

ERROR_14 Distancia del punto a la sección electoral (metros) Optativo

ERROR_15 Distancia del punto al núcleo de población (metros) Optativo

ERROR_16 Distancia del punto a la entidad de población (metros) Optativo

ERROR_17 Distancia del punto al portal más cercano (metros) Optativo

(*) Excluimos los puntos cuyo ERROR_11 > 500 metros y los de ERROR_12 > 500 metros.

2. Cálculo de errores de validaciones internas (hot-deck). Consiste en calcular el error con el

cálculo de diferentes validaciones u opciones. Se selecciona los mejores representantes y se

calcula el centroide con ellos. La distancia de cada uno de los puntos a ese centroide será

este error.

ERROR_21 Distancia del punto al centroide de los mejores representantes

(metros)

- Con código de vía:

● Opción 1: centroide con los puntos que están a una

distancia igual o menor a ‘d’ de la vía

● Opción 2: centroide con los puntos, uno de cada API,

más cercano a la vía.

● Opción 3: centroide con los puntos, uno de cada API,

a una distancia igual o menor a ‘d’ de la vía.

Optativo

25

Page 27: MARCO DE ESTADÍSTICA ESPACIAL DE CANARIAS MARCO DE ESTADÍSTICA ESP… · Estadística Espacial de Canarias, la geocodificación se define como el proceso de dotar de dimensión

- Sin código de vía:

● Opción 4: centroide con los puntos que tiene los

ciertos criterios de calidad en la información devuelta

por la API.

3. Cálculo de la gordura. El cálculo de la gordura nos da información de como de aglutinado o

no está cada punto punto, o porque las APIs han devuelto los puntos muy cercanos entre sí o

porque hay muchos portales SITCAN cercanos.

GORDURA_1 Número de puntos APIs para la misma dirección en el radio r Optativo

GORDURA_2 Número ponderado de APIs para la misma dirección en el radio

r, usando los siguientes factores de ponderación: GoogleMap

(0.6) Bing (0,1) ArcGIS (0,07) Cartociudad (0,08) Komoot (0,05)

Here (0,1)

Obligatorio

GORDURA_3 Número de portales en el radio r Obligatorio

4. Cálculo de la verosimilitud de un punto API.

1) Calculamos el error tipificado medio

a) ERROR_TIPIFICADO (ET): Para cada error de cada punto calculamos su error

tipificado, dividiendo el correspondiente error por el error máximo de los puntos de

una dirección. Por lo tanto habrá tantos errores tipificados como errores definidos. El

intervalo de un ET debe encontrarse entre (0,1].

b) ERROR_TIPIFICADO_SUAVIZADO: Se utiliza una función cóncava creciente entre

[0,1], por ejemplo ETS = ET^2. La ausencia de suavizado equivale al uso de la

función ETS =ET.

c) ERROR_TIPIFICADO_MEDIO (ETM): Para cada punto calculamos la media de sus

errores tipificados (ETS)

2) Calculamos la gordura tipificada media de radio r - GTM(r)

a) GORDURAS_TIPIFICADAS (GT): Para cada gordura de cada punto calculamos la

gordura tipifica, dividiendo la correspondiente gordura por la gordura máxima de los

puntos de una dirección.

26

Page 28: MARCO DE ESTADÍSTICA ESPACIAL DE CANARIAS MARCO DE ESTADÍSTICA ESP… · Estadística Espacial de Canarias, la geocodificación se define como el proceso de dotar de dimensión

Por lo tanto habrá tantas gorduras tipificadas como gorduras definidas. El intervalo de

una GT debe encontrarse entre (0,1].

b) GORDURA_TIPIFICADA_MEDIA (GTM): Para cada punto calculamos la media de

sus gorduras tipificadas (GT)

3) Calculamos la verosimilitud de radio r: VEROSIMILITUD(r) = GTM(r) ^ ETM

Verosimilitud según error y gordura

4) Selección del punto con mejor verosimilitud según el siguiente criterio

a) 1º Seleccionamos aquel punto con mayor verosimilitud

b) 2º Igual verosimilitud, seleccionamos el de mejor gordura

c) 3º Igual gordura, seleccionamos el de la mejor API

Antes de su aplicación el método es evaluado con muestras del conjunto de datos georreferenciadas

por métodos determinísticos. Los resultados obtenidos hasta el momento son de una muy buena

calidad en la selección del mejor punto de referencia.

27

Page 29: MARCO DE ESTADÍSTICA ESPACIAL DE CANARIAS MARCO DE ESTADÍSTICA ESP… · Estadística Espacial de Canarias, la geocodificación se define como el proceso de dotar de dimensión

3.2. Sistema de geocodificación

La geocodificación es el proceso de asignación de un código geográfico a una unidad de análisis,

asociándola a una línea o polígono georreferenciado. A efectos del Marco de Estadística Espacial de

Canarias, la geocodificación se define como el proceso de dotar de dimensión espacial a las

unidades de registro estadístico de manera que puedan ser utilizadas en análisis espaciales. El

Sistema de geocodificación desarrollado en el Marco de Estadística Espacial de Canarias distingue

entre la geocodificación de literales y la geocodificación de georreferencias. Este sistema facilita el

análisis geoestadístico mediante el uso de polígonos.

Población de Santa Cruz de Tenerife según diferentes análisis poligonales

28

Page 30: MARCO DE ESTADÍSTICA ESPACIAL DE CANARIAS MARCO DE ESTADÍSTICA ESP… · Estadística Espacial de Canarias, la geocodificación se define como el proceso de dotar de dimensión

Geocodificación de literales

En la geocodificación de literales se realiza desde R, haciendo uso de la librería RecordLinkage, que

permite comparar cadenas y devolver un peso indicando la similitud. En el proceso de

geocodificación de literales, partiendo de las descripciones de las unidades geográficas que se

desean analizar dentro de una tabla de microdatatos (DAT) y usando una lista de códigos extendida

(CLE) a modo de diccionario, mediante enlazamiento probabilístico (RecordLinkage) se obtiene como

resultado un DAT ampliado con los geocódigos propuestos para cada literal y un peso de similitud.

Por ejemplo, si queremos geocodificar la descripción CALLE FARMACEUTICO PEDRO RIVERO,

comparamos por un lado el tipo de vía y por otro el nombre de la vía. La suma de los pesos de las

dos comparaciones (nombres de vías y tipos de vías) será el valor a tener en cuenta para la

selección del candidato que indica que código de vía debe tener la vía que buscamos.

● En azul está el nombre de vía, tipo de vía y municipio de la vía que queremos geocodificar.

● En verde está las posibles soluciones, en este caso ha encontrado 4 similitudes.

● En amarillo están los peso de cada comparación. Weight indica la comparación entre el nombre de vía y Weight2 es

el peso de comparar el tipo de vía.

● En rosa está la suma de todos los peso para cada una de las ocurrencias.

● El rojo está el de mayor peso, indicando que ese es el código de vía que debe tener la vía de la que partimos.

Geocodificación de georreferencias La geocodificación de georreferencias asigna a un punto los geocódigos de los polígonos a los que

pertenece dentro de una colección de polígonos almacenados en un esquema de información

geográfica de referencia IGR o información geográfica de soporte IGS. Los inputs de este proceso

son dos tablas GEO, una con las referencias (x,y) asociadas a los microdatos, y otra con las

geometrías de los polígonos almacenados en IGR o IGS. El resultado es una tabla URD en la que se

29

Page 31: MARCO DE ESTADÍSTICA ESPACIAL DE CANARIAS MARCO DE ESTADÍSTICA ESP… · Estadística Espacial de Canarias, la geocodificación se define como el proceso de dotar de dimensión

relacionan (rel_type = GEO) los UUID de cada referencia con los UUID de los polígonos a los que

pertenece.

El procedimiento de geocodificación se resuelve mediante consultas geográficas entre los campos

geométricos almacenados en PostGIS. Para esto disponemos de una macro SAS, que ejecuta las

consultas en R, y que permite obtener el geocódigo de pertenencia de un punto a un polígono en un

esquema IGR o IGS. La forma de llamar a la macro es la siguiente:

%getgeocode(type=XY, p=p, STID=esquema, user=usuario, password=contraseña, out=ISTAC_DATA);

A la macro SAS-R se le pasa el tipo

(type) de punto (XY o GEOM), los

puntos (p) a geocodificar, el

esquema (STID) donde buscar, el

usuario (user) y la contraseña

(password) de la base de datos de

PostGIS donde se encuentra el

esquema y por último el nombre

del dataset (out) donde se

almacenan los resultados. Esta macro devuelve el identificador de cada uno de los puntos (uuid_a),

el identificador del código en el esquema (uuid_b), la granularidad (granularities) y el código

(dim_code).

30

Page 32: MARCO DE ESTADÍSTICA ESPACIAL DE CANARIAS MARCO DE ESTADÍSTICA ESP… · Estadística Espacial de Canarias, la geocodificación se define como el proceso de dotar de dimensión

IV. INFRAESTRUCTURA DE NORMALIZACIÓN Y REUTILIZACIÓN

La Infraestructura de Datos y Metadatos Estadísticos de Canarias (eDatos) es la infraestructura central del Gobierno de Canarias que integra datos, metadatos, tratamientos y servicios comunes e interoperables de la estadística de interés de la Comunidad Autónomas de Canarias, siendo el soporte para la difusión abierta e interoperable de los datos publicados por las operaciones del Plan Estadístico de Canarias. A su vez la infraestructura es el canal único para la difusión descentralizada de las estadísticas en las web corporativas del Gobierno de Canarias. La Infraestructura incluye entre su catálogo de servicios tres APIs que facilitan la normalización y reutilización de la información espacial:

1. API de recursos estructurales. Método get-geoinfo 2. API de callejeros 3. API de georreferenciación

4.1. La información territorial en la API de recursos estructurales

La API de recursos estructurales aporta la 2

información estructural de la información estadística. Entre los recursos estructurales aportados por esta API, se pueden obtener los polígonos asociados a los items de variable que tienen naturaleza geográfica. Mediante el método get-geoinfo se obtienen en formato geojson las geometrías ligeras de los polígonos asociados a esquemas de Información Geográfica de Referencia (IGR). Este método facilita el uso y la reutilización de la información geográfica de referencia. Así, por ejemplo, esta API se utiliza en:

- Visor estadístico general - Visor del Sistema de Información Electoral - Atlas Estadístico (usa librería R) - Librería R - Paquete Python - Plugin de QGIS (usa paquete Python)

2 https://www3.gobiernodecanarias.org/istac/api/structural-resources/v1.0/#/

31

Page 33: MARCO DE ESTADÍSTICA ESPACIAL DE CANARIAS MARCO DE ESTADÍSTICA ESP… · Estadística Espacial de Canarias, la geocodificación se define como el proceso de dotar de dimensión

Ejemplos de uso de geometrías en diferentes visores: general, electoral y atlas

Ejemplo de reutilización de geometrías e indicadores en QGIS

4.2. La API de callejeros

La API de callejeros pone a disposición pública información de nombres y códigos de diferentes

entidades espaciales tales como municipios, entidades-núcleos de población, distritos-secciones,

códigos postales y vías. El objetivo de esta API es facilitar la normalización de la captura de datos de

direcciones por parte de terceros, especialmente por parte de las Administraciones Públicas que

aportar datos administrativos para fines estadísticos.

32

Page 34: MARCO DE ESTADÍSTICA ESPACIAL DE CANARIAS MARCO DE ESTADÍSTICA ESP… · Estadística Espacial de Canarias, la geocodificación se define como el proceso de dotar de dimensión

4.3. La API de georreferenciación y georreferenciación inversa

Se dispone de una API interna basada en el proyecto Pelias, que tomando la información de varios

importadores, incluido los datos ya georreferenciados por el ISTAC, se crea una base de datos que

permite la obtención de forma automática de las coordenadas de una dirección y también la

realización de georreferenciación inversa.

33

Page 35: MARCO DE ESTADÍSTICA ESPACIAL DE CANARIAS MARCO DE ESTADÍSTICA ESP… · Estadística Espacial de Canarias, la geocodificación se define como el proceso de dotar de dimensión

Bibliografía

Andreas Borg and Murat Sariyar (2016). RecordLinkage: Record Linkage in R. R package version 0.4-10. https://CRAN.R-project.org/package=RecordLinkage Berson, Alex, and Lawrence Dubov. Master Data Management and Data Governance. 2nd ed. New York: McGraw-Hill, 2011. Data Administration Management Association. The DAMA Guide to the Data Management Body of Knowledge: (DAMA-DMBOK Guide). Edited by Mark Mosley, Michael Brackett, Susan Earley, and Deborah Henderson. First edition. Bradley Beach, NJ: Technics Publications, LLC, 2010. Borgman, Christine L. Big Data, Little Data, No Data: Scholarship in the Networked World. Cambridge, Massachusetts: The MIT Press, 2015. EFGS, Eurostat. A Point-based Foundation For Statistical –Final Report from the GEOSTAT 2 Project 2A Point-based Foundation for Statistics -Final report from the GEOSTAT 2 project. Eurostat, 2017 Jeff Leek. The Elements of Data Analytic Style. A Guide for People Who Want Analyze Data. Leanpub., n.d. https://leanpub.com/datastyle. Julien Forgeat. “Data Processing Architectures – Lambda and Kappa.” Ericsson Research Blog. Accessed October 24, 2016. https://www.ericsson.com/research-blog/data-knowledge/data-processing-architectures-lambda-and-kappa/. Kitchin, Rob. The Data Revolution: Big Data, Open Data, Data Infrastructures & Their Consequences. Los Angeles, California: SAGE Publications, 2014. Marz, Nathan, and James Warren. Big Data: Principles and Best Practices of Scalable Real-Time Data Systems. Shelter Island, NY: Manning, 2015. Shoshani, Arie. “OLAP and Statistical Databases: Similarities and Differences,” 185–96. ACM Press, 1997. doi:10.1145/263661.263682. Ladley, John. Data Governance: How to Design, Deploy, and Sustain an Effective Data Governance Program. Waltham, MA: Morgan Kaufmann, 2012. Laan, P. van der (2002): Creating a Social Statistics Database in the Netherlands: Progress and Priorities. Papel presented for the secundo Seminar on Strategies for Social and Spatial Statistics, Copenhagen, Denmark, 5 september 2002.

Plotkin, David. Data Stewardship: An Actionable Guide to Effective Data Management and Data Governance. Amsterdam ; Boston: Elsevier/Morgan Kaufman, 2014. Seiner, Robert S. Non-Invasive Data Governance: The Path of Least Resistance and Greatest Success. Basking Ridge, N.J.: Technics Pub., 2014. http://search.ebscohost.com/login.aspx?direct=true&scope=site&db=nlebk&db=nlabk&AN=1005063. Soares, Sunil. Chief Data Officer Handbook for Data Governance. Mc Press, 2015. http://lib.myilibrary.com?id=709313. Statistics NetherlAnd(2000) Special issue - Integrating administrative registers and households surveys. Netherlands Office Sattistics vol.15

Sundgren, Bo, United Nations, United Nations, and Conference of European Statisticians, eds. Information Systems Architecture for National and International Statistical Offices: Guidelines and Recommendations. Statistical Standards and Studies, no. 51. Geneva: United Nations, 1999. https://www.unece.org/fileadmin/DAM/stats/documents/information_systems_architecture/1.e.pdf. Swiss Federal Statistical Office. “Conceptual Architecture of the Statistical Information System at the Swiss Federal Statistical Office.” Swiss Federal Statistical Office, May 2007. http://unstats.un.org/unsd/dnss/docViewer.aspx?docID=1564.

34

Page 36: MARCO DE ESTADÍSTICA ESPACIAL DE CANARIAS MARCO DE ESTADÍSTICA ESP… · Estadística Espacial de Canarias, la geocodificación se define como el proceso de dotar de dimensión

United Nations. “Guidelines for the Modelling of Statistical Data and Metadata.” United Nations, 1995. https://www.unece.org/fileadmin/DAM/stats/publications/metadatamodeling.pdf. United Nations. Proposal for a Global Statistical Geospatial Framework. Items for information: integration of statistical and geospatial information. Statistical Commission, 2016 Wickham, Hadley. “Tidy Data.” Journal of Statistical Software 59, no. 10 (2014). doi:10.18637/jss.v059.i10

35