1 La iniciativa del Programa Acelerado de Datos (PAD) República Dominicana Noviembre, 2011.

34
1 La iniciativa del Programa Acelerado de Datos (PAD) República Dominicana Noviembre, 2011

Transcript of 1 La iniciativa del Programa Acelerado de Datos (PAD) República Dominicana Noviembre, 2011.

Page 1: 1 La iniciativa del Programa Acelerado de Datos (PAD) República Dominicana Noviembre, 2011.

1

La iniciativa del Programa Acelerado de Datos (PAD)

República DominicanaNoviembre, 2011

Page 2: 1 La iniciativa del Programa Acelerado de Datos (PAD) República Dominicana Noviembre, 2011.

AntecedentesMotivación Programa Acelerado de Datos

Fuentes básicas de información estadística

• Microdatos fuente importante de indicadores para monitorear estrategias de combate a la pobreza y evaluar efectividad de políticas públicas.

• Demanda creciente de investigadores, estudiantes, partidos políticos y medios de comunicación por rendición de cuentas y liberación de datos

• Pieza clave para fortalecer los sistemas nacionales y sectoriales de monitoreo y evaluación. SM&E

2

Page 3: 1 La iniciativa del Programa Acelerado de Datos (PAD) República Dominicana Noviembre, 2011.

Antecedentes

DIAGNÓSTICO SOBRE LA OFERTA Y DEMANDA DE

INFORMACIÓN ESTADÍSTICA EN AMÉRICA LATINA Y EL

CARIBE

Page 4: 1 La iniciativa del Programa Acelerado de Datos (PAD) República Dominicana Noviembre, 2011.

AntecedentesAlgunos problemas y obstáculos

• No hay inventariosinventarios completos y/o actualizados de operaciones estadísticas..

• No hay estándares de calidad stándares de calidad en la producción, documentación y diseminación de datos.

• Pobre y altamente fragmentada documentacióndocumentación de operaciones estadísticas, sin uso de estándares.

• No hay políticas formales de diseminación de datos

4

Page 5: 1 La iniciativa del Programa Acelerado de Datos (PAD) República Dominicana Noviembre, 2011.

• Pocos usuarios.

• Baja sastifacción: accesibilidad, confiabilidad, relevancia, comparabilidad.

• Falta de conexión entre decisores de política y productores estadísticos.

QUEJAS FRECUENTES DE USUARIOS:

Visibilidad / “no sabemos lo que ellos tienen”Accesibilidad / “ellos no quieren compartir los datos”Confiabilidad / “estos datos son un desorden”Relevancia / “esto no es realmente lo que necesito”Uso / “donde esta la documentación?”

Page 6: 1 La iniciativa del Programa Acelerado de Datos (PAD) República Dominicana Noviembre, 2011.

Antecedentes

• La Iniciativa del Programa Acelerado de Datos apoya a mejorar la calidad de la Oferta de información estadística a través de la documentación y preservación de los microdatos (inventario, calidad, documentación, preservación) y apoya la Demanda a través de herramientas de diseminación para usuarios.

Page 7: 1 La iniciativa del Programa Acelerado de Datos (PAD) República Dominicana Noviembre, 2011.

7

Plan de Acción Estadístico Marrakech 2004.

Cumbre Gestión de Resultados para el Desarrollo:

• Estrategias Nacionales para el Desarrollo Estadístico - países en desarrollo. ENDE.

• Ronda preparatoria Censos 2010.

• Desarrollar Red Internacional de Encuestas de Hogares  RIEH.

• Mejoras urgentes para monitorear los Objetivos de Desarrollo del Milenio.

Page 8: 1 La iniciativa del Programa Acelerado de Datos (PAD) República Dominicana Noviembre, 2011.

Programa Acelerado de Programa Acelerado de Datos (PAD) Datos (PAD)

Objetivos y alcanceObjetivos y alcance

8

Page 9: 1 La iniciativa del Programa Acelerado de Datos (PAD) República Dominicana Noviembre, 2011.

9

Programa Acelerado de Datos (PAD)

Identifica 3 tareas:Identifica 3 tareas:

Tarea No 1:Tarea No 1: Documentación, diseminación y Documentación, diseminación y preservaciónpreservación de microdatos (estándares de microdatos (estándares internacionales DDI y DC)internacionales DDI y DC)

Tarea No 2:Tarea No 2: Análisis y evaluación de la Análisis y evaluación de la calidadcalidad de los microdatos existentes (de los microdatos existentes (armonizaciónarmonización). ).

Tarea No 3:Tarea No 3: Apoyo en las actividades de Apoyo en las actividades de recolecciónrecolección de datos (financiamiento a de datos (financiamiento a operaciones estadísticas).operaciones estadísticas).

Page 10: 1 La iniciativa del Programa Acelerado de Datos (PAD) República Dominicana Noviembre, 2011.

10

Programa Acelerado de Datos (PAD)

Ventajas de la DocumentaciónVentajas de la Documentación

• Preservación de datos y metadatos (memoria institucional).

• Documentación, archivo y diseminación apropiadas de datos promueven su utilización.

• Mayor y mejor uso de los datos incrementa su demanda y puede impulsar aumento en el presupuesto para recolección de datos.

• Si documentar no es una parte integral de la operación estadística, requiere esfuerzos y recursos adicionales.

Page 11: 1 La iniciativa del Programa Acelerado de Datos (PAD) República Dominicana Noviembre, 2011.

11

Programa Acelerado de Datos (PAD)

Usualmente, documentar se considera una etapa Usualmente, documentar se considera una etapa ex-postex-post y y ajena al proceso de desarrollo de la operación estadística. ajena al proceso de desarrollo de la operación estadística. Algo que “hay que hacer después que todo acaba”.Algo que “hay que hacer después que todo acaba”.

Determinación de

objetivos Determinación de la muestra

Recolección de

información

Control de calidad

Diseño de la

encuesta

Diseño del

cuestionario

Prueba piloto

Capacitación de

encuestadores

Procesamiento de datos

Diseminación Doc

umen

ta

ción

La mayor parte de la información relevante para documentar se genera en estas etapas del proceso, pero no se captura.

Page 12: 1 La iniciativa del Programa Acelerado de Datos (PAD) República Dominicana Noviembre, 2011.

12

Programa Acelerado de Datos (PAD)

La documentación debe ser considerada como etapa La documentación debe ser considerada como etapa integral y simultánea a la operación estadística. integral y simultánea a la operación estadística.

Determinación de

objetivos Determinación de la muestra

Recolección de

información

Control de calidad

Diseño de la

encuesta

Diseño del

cuestionario

Prueba piloto

Capacitación de

encuestadores

Procesamiento de datos

Diseminación

Documentación

Cic

lo d

e g

est

ión d

e u

n o

pera

tivo

est

adís

tico

Page 13: 1 La iniciativa del Programa Acelerado de Datos (PAD) República Dominicana Noviembre, 2011.

Programa Acelerado de Datos (PAD)

The bean example is taken from: A Manager’sIntroduction to Adobe eXtensible Metadata Platform, http://www.adobe.com/products/xmp/pdfs/whitepaper.pdf

Source: Courtesy of Jostein Ryssevik, Nesstar Inc.

Page 14: 1 La iniciativa del Programa Acelerado de Datos (PAD) República Dominicana Noviembre, 2011.

Ventajas

• Al documentar durante el ciclo de gestión se detectan y previenen errores de de codificación, se recupera información que de otro modo se perdería.

• Mejoran procesos de trabajo y mecanismos de coordinación.

• Se reducen tiempos en la publicación• Favorece la comparación• Se promueve la publicación de información,

etc.14

Page 15: 1 La iniciativa del Programa Acelerado de Datos (PAD) República Dominicana Noviembre, 2011.

Iniciativa de Documentación de Datos (IDD)

Estándar internacional dedicado a documentar microdatos.

Facilita la preservación e intercambio de documentación de bases de datos de las ciencias sociales.

Basado en XML para explotar tecnología de Web.

Diseñado originalmente por el Consorcio Inter-Universitario para la Investigación Política y Social (ICPSR) –500 miembros

Hoy en día manejado por una alianza de instituciones lideres en documentación, preservación y diseminación de datos

Page 16: 1 La iniciativa del Programa Acelerado de Datos (PAD) República Dominicana Noviembre, 2011.

Herramientas de Gestión de Microdatos

Editor de Metadatos. DOCUMENTACIÓN– Software desarrollado por el Servicio de

Datos Noruego para las Ciencias Sociales – Trabajo de edición basado en los campos del

DDI– Permite reciclar metadatos– Genera archivo en formato .nesstar que

contiene base de datos (transformador de formatos); recursos externos manuales, cuestionarios, etc. y metadatos del DDI

16

Page 17: 1 La iniciativa del Programa Acelerado de Datos (PAD) República Dominicana Noviembre, 2011.

Herramientas de Gestión de Microdatos

Nesstar Explorer DIFUSIÓN

• Es un navegador, es un medio de publicación. No permite edición– Incluye un transformador de formatos a la

base de datos, se puede exportar la base de datos en los formatos más comunes dbf, stata, spss, etc.

17

Page 18: 1 La iniciativa del Programa Acelerado de Datos (PAD) República Dominicana Noviembre, 2011.

Herramientas de Gestión de Microdatos

Cd Rom Builder DIFUSIÓN– Genera archivos en formato HTLM que

pueden publicarse en páginas Web– Genera CDs automáticos– Permite descargar las bases de datos en

formatos comunes

18

Page 19: 1 La iniciativa del Programa Acelerado de Datos (PAD) República Dominicana Noviembre, 2011.

Herramientas de Gestión de Microdatos

Banco de Preguntas COMPARABILIDAD

- Repositorio de Variables

- Incluye definiciones, universo, instrucciones al encuestador, códigos de respuesta etc.

- Organización temática de las variables

19

Page 20: 1 La iniciativa del Programa Acelerado de Datos (PAD) República Dominicana Noviembre, 2011.

CWIQ 2003

DHS 2003CENSUS 2000 GLSS 1998

Measuring access to

improved water sources in

Ghana

Comparability: Un ejemplo

Page 21: 1 La iniciativa del Programa Acelerado de Datos (PAD) República Dominicana Noviembre, 2011.

Banco de Preguntas

Proposed solution: national question banks(XML repository of re-usable survey metadata)

Page 22: 1 La iniciativa del Programa Acelerado de Datos (PAD) República Dominicana Noviembre, 2011.

Herramientas de Gestión de Microdatos

Archivo Nacional de datos DIFUSIÓN

- Catálogo de operaciones estadísticas documentadas

- Motor de búsqueda, permite comparar variables

- Integración entre catálogos

22

Page 23: 1 La iniciativa del Programa Acelerado de Datos (PAD) República Dominicana Noviembre, 2011.

Herramientas de Gestión de Microdatos

Anonimización DIFUSIÓN

• Para difundir microdatos de cualquier operación estadística, se debe preservar la confidencialidad de la información aportada por los informantes

• La forma de hacerlo es aplicar las denominadas técnicas de Anonimización.

23

Page 24: 1 La iniciativa del Programa Acelerado de Datos (PAD) República Dominicana Noviembre, 2011.

Herramientas de Gestión de Microdatos

DILEMA

Cómo mantener una base de microdatos funcional que permita construir

indicadores, pero que presente un riesgo muy bajo de re-identificación del

informante

24

Page 25: 1 La iniciativa del Programa Acelerado de Datos (PAD) República Dominicana Noviembre, 2011.

Técnicas reconocidas internacionalmente

Software para identificar el riesgo de re-identificación (libe: Argus/ R, sofware comercial)•http://www.tdp.cat/issues/tdp.a004a08.pdf•http://www.statistik.tuwien.ac.at/public/templ/pub06-11.html•http://cran.r-project.org/web/packages/sdcMicro/sdcMicro.pdf

•Técnicas de reducción de Datos y Perturbación de Datos

25

Page 26: 1 La iniciativa del Programa Acelerado de Datos (PAD) República Dominicana Noviembre, 2011.

Ejemplo de Violación de Privacidad

EdadCódigo Postal

Enfermedad

42 52000 Ulcer

47 43000 Pneumonia

51 32000 Flu

55 27000 Gastritis

62 41000 Dyspepsia

67 55000 Dyspepsia

NombreEdadCódigo Postal

Enfermedad

Andy 42 52000 Ulcer

Bill 47 43000 Pneumonia

Ken 51 32000 Flu

Nash 55 27000 Gastritis

Mike 62 41000 Dyspepsia

Sam 67 55000 Dyspepsia

(a) Microdata (b) Registro Electoral (público)

Page 27: 1 La iniciativa del Programa Acelerado de Datos (PAD) República Dominicana Noviembre, 2011.

k-anonymity[Sam01]

Edad Código Postal Enfermedad

42-47 43000-52000 Ulcer

42-47 43000-52000 Pneumonia

51-55 27000-32000 Flu

51-55 27000-32000 Gastritis

62-67 41000-55000 Dyspepsia

62-67 41000-55000 Dyspepsia

[Sam01] P. Samarati, "Protecting Respondent's Privacy in Microdata Release," in

IEEE TKDE, vol. 13, n. 6, November/December 2001, pp. 1010-1027.

NombreEdadCódigo Postal

Enfermedad

Andy 42 52000 Ulcer or

PneumoniaBill 47 43000

Ken 51 32000 Flu or GastritisNash 55 27000

Mike 62 41000Dyspepsia

Sam 67 55000

(a) 2-anonymous microdata (b) Voting Registration List (public)

QID generalization or suppression

Page 28: 1 La iniciativa del Programa Acelerado de Datos (PAD) República Dominicana Noviembre, 2011.

Agenda en América Latina

• Avanzar con la expansión del DDI en los sistemas estadísticos nacionales

– ONE´s se encuentran expandiendo el DDI como rectores del SEN

– Verificación de la calidad de la documentación

28

Page 29: 1 La iniciativa del Programa Acelerado de Datos (PAD) República Dominicana Noviembre, 2011.

Agenda en América Latina

• Avanzar en aspectos relativos a la armonización de preguntas/variables

– -Iniciativas relativas a la creación de banco de preguntas y bancos de cuestionarios

29

Page 30: 1 La iniciativa del Programa Acelerado de Datos (PAD) República Dominicana Noviembre, 2011.

Progreso en América Latina

• Oficinas Nacionales de Estadística, Ministerios y Nivel Subnacional en 16 paises de la region. Subregional. Oficial en SICA-CENTROESTAT, aprobado por el Comité Andino de Naciones. CAN

• Mas de 1,500 operaciones estadísticas documentadas. Portales en línea

Page 31: 1 La iniciativa del Programa Acelerado de Datos (PAD) República Dominicana Noviembre, 2011.

Agenda en América Latina

• Avanzar con aspectos de diseminación– Técnicas avanzadas para anonimización de

microdatos– Políticas y reglamentos para la diseminación

de microdatos– Publicación de catálogos ANDA

31

Page 32: 1 La iniciativa del Programa Acelerado de Datos (PAD) República Dominicana Noviembre, 2011.

Agenda en América Latina

Otros

Integración del DDI al estándard SDMX utilizado para la transmisión de datos y metadatos (estadística agregada).

32

Page 33: 1 La iniciativa del Programa Acelerado de Datos (PAD) República Dominicana Noviembre, 2011.

Encuestas

Raw Data SetRaw Data Set

Anonimización, consistencia De datos, etc.

Micro-Data Set/Micro-Data Set/Public Use FilesPublic Use Files

Tabulación, procesado, etc

Agregació

n y

armoniza

ció

n de d

atos

Agregación y , Armonización

Aggregate Data SetAggregate Data Set(Lower level)(Lower level)

Aggregate Data SetAggregate Data Set(Higher Level)(Higher Level)

DDIDDI

SDMXSDMX

IndicatorsIndicators