Sin título de diapositiva - ec. os Dominios... · PDF fileAreas Pequeñas...

26
INSTITUTO NACIONAL DE ESTADÍSTICA Curso sobre Estimación en Pequeños Dominios Madrid, del 17 al 19 de octubre de 2011 Montserrat Herrador Cansado Jefa de Área Instituto Nacional de Estadística (INE)

Transcript of Sin título de diapositiva - ec. os Dominios... · PDF fileAreas Pequeñas...

INST

ITUT

O NA

CION

AL D

E ES

TADÍ

STIC

A

Curso sobre Estimación en PequeñosDominios

Madrid, del 17 al 19 de octubre de 2011

Montserrat Herrador CansadoJefa de Área Instituto Nacional de Estadística (INE)

INST

ITUT

O NA

CION

AL D

E ES

TADÍ

STIC

A La experiencia internacional en la

estimación de áreas pequeñas

ESSnet in Small Area Estimation (SAE ESSnet)

Algunos ejemplos

INST

ITUT

O NA

CION

AL D

E ES

TADÍ

STIC

A

Actividades del INE en

Estimación en Areas Pequeñas

Proyecto Proyecto EURAREA (Enhancing Small Area Estimation Techniques to EURAREA (Enhancing Small Area Estimation Techniques to

meet European Needs):meet European Needs): 2001 2001 –– mediados mediados 2004. => 2004. => simulacionessimulaciones..

ProyectoProyecto MODEAP (MODEAP (investigacióninvestigación de de ModelosModelos de de Estimación Estimación en Areas en Areas

PequeñasPequeñas)) entre entre el INE y la el INE y la Universidad Universidad Miguel Miguel Hernández Hernández (UMH) de (UMH) de ElcheElche: 2004 : 2004 -- 2008. 2008. => => mundo mundo real.real.

GrupoGrupo de de trabajotrabajo formado por formado por el INE con la el INE con la participación participación de de gran parte gran parte de de las comunidades autónomaslas comunidades autónomas: 2004 : 2004 –– 2008. 2008. => => foro foro de de discusióndiscusión..

SAE SAE ESSnet ESSnet (Red del (Red del Sistema Estadístico Europeo para Sistema Estadístico Europeo para la la Estimación Estimación en en

Areas Areas PequeñasPequeñas): ): 20102010--2011.2011.

INST

ITUT

O NA

CION

AL D

E ES

TADÍ

STIC

A

Herencia del proyecto EURAREA

MetodologíaMetodología e e implementaciónimplementación en SAS de en SAS de siete estimadores para siete estimadores para

las medias poblacionales en áreas pequeñas con sus correspondientes

estimadores de los errores cuadráticos medios (ECM):

1. Directo

2. De Regresión Generalizada

3. Sintéticos bajo el modelo:

A- de regresión a nivel individual con efecto aleatorio de área.

B- de regresión a nivel de área.

C- logit a nivel de área.

4. EBLUP ( Empirical Best Linear Unbiased Predictor) bajo el

modelo A y B.

⇒ limitaciones de las fórmulas directas proporcionadas para estimarel ECM.

INST

ITUT

O NA

CION

AL D

E ES

TADÍ

STIC

A

Herencia del proyecto EURAREA

Creación de un foro internacional para debatir temas relacionadoscon las técnicas de estimación en áreas pequeñas, tanto teóricos como prácticos.

Celebración de la 1ª Conferencia Internacional en Estimación en Areas Pequeñas (SAE2005), en Jyväskylä (Finlandia), en los dias 28-31 de Agosto.

Web oficial http://www.stat.jyu.fi/sae2005/

⇒⇒ Se toma la decisión de celebrar una conferencia SAE cada dos Se toma la decisión de celebrar una conferencia SAE cada dos años.años.

INST

ITUT

O NA

CION

AL D

E ES

TADÍ

STIC

A Proyecto MODEAP

El principal objetivo fue la adaptación y aplicación de los modelos desarrollados en el proyecto EURAREA a datos de la Encuesta de Población Activa (EPA). Además:

1- Formulación de nuevos estimadores: EPA, postestratificado (PST), sintético básico (SYNTH) y compuesto dependiente del tamaño de la muestra (SSD).

2- Aplicación del jackknife y del bootstrap para la estimación de la varianza de los estimadores. Estudio comparativo de estas alternativas junto con el uso de la fórmula directa.

3- Estudio de la estabilidad temporal de los distintos procedimientos.

Estudio análogo con la aplicación de modelos logísticos multinomialespara la estimación de totales y tasas en la EPA.

Aplicación de modelos dinámicos a la nueva Encuesta de Presupuestos Familiares (EPF) 2006.

INST

ITUT

O NA

CION

AL D

E ES

TADÍ

STIC

A

Grupo de Trabajo de Areas Pequeñas

El INE creó un Grupo de Trabajo sobre estimación de áreas pequeñas (GTAP), con el objetivo de establecer procedimientos para elaborar estimaciones en áreas pequeñas de las variables más significativas de la EPA, teniendo en cuenta la experiencia del INE en el proyecto EURAREA.

El GTAP se convirtió en un foro nacional de intercambio de experiencias relacionadas con la aplicación de estimadores de áreas pequeñas en diferentes campos de la estadística, tanto en producción como investigación.

Actualmente, algunos institutos regionales de estadística producensus propios datos estimados en base a las técnicas de áreas pequeñas

- Institut Balear d’Estadística (IBESTAT): datos insulares EPA.- Instituto Canario de Estadística (ISTAC): datos insulares EPA.- Instituto d’Estadística de Catalunya (IDESTAC): IPI y TIC-hogares- Instituto Vasco de Estadística (EUSTAT): Encuesta Industrial,

Encuesta de Población en Relación con la Actividad y Encuesta sobre la Sociedad de la Información en las Familias.

INST

ITUT

O NA

CION

AL D

E ES

TADÍ

STIC

A

SAE ESSnet (2010-2011)

Financiado parcialmente por la Unión Europea dentro del 7º Programa de I+D

Desarrollado por un Consorcio formado por las oficinas de estadística de los siguientes países europeos:

1.Istituto Nazionale di Statistica ( ISTAT), Italia.

2.Statistisches Bundesamt Deutschland (DESTATIS), Alemania.

3.Centraal Bureau voor de Statistiek (CBS), Holanda.

4.Central Statistical Office (CSO), Polonia.

5.Federal Statistical Office (FSO), Suiza.

6.Office for National Statistics (ONS), Reino Unido.

7.Institut national de la statistique et des études économiques (INSEE), Francia.

8.Statistics Sweeden (SCB), Suecia.

9.Instituto Nacional de Estadística (INE), España.

• Objetivo: la difusión, entre las oficinas europeas de estadística, del conocimiento, técnicas y recomendaciones necesarias para la producción de estimaciones en áreas pequeñas en las encuestas de hogares.

INST

ITUT

O NA

CION

AL D

E ES

TADÍ

STIC

A

SAE ESSnet (2010-2011)

• Grupos de Trabajo:

WP1: Coordinación y Gestión del proyecto ( ItaliaItalia, Alemania, Francia, Holanda, Noruega, Polonia, España, Reino Unido y Suiza).

WP2: Antecedentes y situación actual (Alemania, Francia, PoloniaPolonia, España y Reino Unido).

WP3: Evaluación de la calidad de las estimaciones ( Italia, Holanda, Polonia, EspaEspaññaa y Reino Unido).

WP4: Herramientas de software para la estimación en áreas pequeñas ( ItaliaItalia, Holanda y Polonia).

WP5: Estudios de casos ( Italia, Alemania, Francia, HolandaHolanda, Noruega, Polonia, España y Suiza).

WP6: Directrices y recomendaciones ( ItaliaItalia, Holanda, Polonia, España, Reino Unido y Suiza).

WP7: Difusión de los conocimientos y resultados derivados del proyecto ( ItaliaItalia, Alemania, Francia, Holanda, Noruega, Polonia, España, Reino Unido y Suiza).

INST

ITUT

O NA

CION

AL D

E ES

TADÍ

STIC

A

Objetivos en WP3

Revisar y proponer criterios para la evaluación de la calidad de los métodos de estimación en áreas pequeñas para la elección del modelo y la estimación del ECM.

Dos procesos:

- Revisar la literatura existente en este tema, tanto desde un punto de vista metodológico como desde la producción y la experimentación.

- Narrar la experiencia en este campo de cada una de las oficinasde estadística participantes en el proyecto.

Producción de un volumen final.

INST

ITUT

O NA

CION

AL D

E ES

TADÍ

STIC

A EUROSTAT:the seventh Framework Programme(FP7)

El proyecto EURAREA fue realizado dentro del marco del 5º Programade I+D desarrollado por la Unión Europea (FP5)

Actualmente se está desarrollando el 7º Programa de I+D, el FP7, cuyaduración cubre el periodo de 2007-2013.

Entre los proyectos incluidos en el FP7, además de la SAE ESSnet, hay dos relacionados con las técnicas de estimación en áreas pequeñas.

AMELI (Advance Methodology for European Laeken Indicators).

SAMPLE (Small Area Methods for Poverty and Living Codition Estimates).

INST

ITUT

O NA

CION

AL D

E ES

TADÍ

STIC

A

Proyecto AMELI (Abril, 2008 - Marzo, 2011)

Coordinado por la Universidad de Trier en Alemania

El Consorcio está formado por varias oficinas de estadística y Universidades de 6 paises europeos:

Pais Oficina de Estadisitica UniversidadAlemania Statisches Bundesamt U. of TrierSuiza Swiss Federal Statistical Office U. of Aplied Sciences NorthwesternAustria Statistik Austria Vienna University of Technology Finlandia Statistics Finland U. of HelsinkiEstonia Statistics EstoniaEslovenia Statistical Office

El objetivo general es mejorar la metodología basada en los indicadores Laeken (indicadores de pobreza acordados en el Consejo Europeo que tuvo lugar en Laeken en diciembre del 2001), para medir la realidad social, en relación con las características recogidas en EU-SILC (European Union Statistics on Income and Living Conditions).

INST

ITUT

O NA

CION

AL D

E ES

TADÍ

STIC

A

Proyecto AMELI (Abril, 2008 - Marzo, 2011)

Un objetivo particular ha sido investigar las propiedades de losmétodos de estimación en pequeños dominios para estimar los indicadores Laeken, y mejorarlos si es posible.

Se llevaron a cabo unas simulaciones para:

analizar el sesgo y la precisión de los estimadores directos y de otros alternativos con uso de modelos y variables auxiliares (GREG y sintético), tanto a nivel de unidad como a nivel de dominio.

estudio de la robustez de los métodos ante la presencia de valores extremos (outliers)

Los indicadores objeto de estudios suelen estar basados en los percentiles de la distribución de la renta equivalente (variable objetivo),por lo que no son funciones lineales y su estimación no es trivial. Y más difícil si añadimos que el dominio es pequeño.

INST

ITUT

O NA

CION

AL D

E ES

TADÍ

STIC

A

Proyecto AMELI (Abril, 2008 - Marzo, 2011)

Los estimadores evaluados en las simulaciones son estimadores consistentes y aproximadamente insesgados independientemente del modelo.

También se ha buscado que las estimaciones, por ejemplo de los ratios de pobreza en los pequeños dominios, verifiquen lo que se denomina “triple goal estimation”, es decir, que produzcan buenos estimaciones en el dominio, buenos histogramas de los parámetros de los dominios y buenas ordenaciones de los mismos.

Los modelos aplicados han sido dos: lineal y logístico con efectos fijos y efectos aleatorios.

Para el cálculo de los errores de los estimadores se ha utilizado un bootstrap paramétrico.

Los métodos Bayesianos o los modelos con correlaciones espaciales/temporales no se han incluido, quedando como posiblesobjetivos de una extensión del proyecto en el futuro.

INST

ITUT

O NA

CION

AL D

E ES

TADÍ

STIC

A

Proyecto SAMPLE (Marzo, 2008 – Febrero, 2011)

Coordinado por la Universidad de Pisa en Italia.

El Consorcio está formado mayoritariamente por universidades de 4 países europeos:

Pais Universidad Oficina de estadística u otros

Italia U. of Pisa European Policies and International Relation Office in Pisa

U. of Siena Sigmurg Ricerche in LivornoReino Unido U. of Manchester España U. Miguel Hernández

U. Carlos IIIPolonia Warsaw School of Economics Central Statistical Office

El objetivo general es el desarrollo de nuevos indicadores y modelos para medir la desigualdad y la pobreza, y su aplicación en áreaspequeñas.

Más información en http://www.sample-project.eu

INST

ITUT

O NA

CION

AL D

E ES

TADÍ

STIC

A

Proyecto SAMPLE (Marzo, 2008 – Febrero, 2011)

Un objetivo particular es desarrollar modelos e implementar procedimientos para estimar estos indicadores y medidas de su calidad en las áreas pequeñas (NUTS3 y NUTS4).

La metodología aplicada consiste en

Estimar la función de distribución acumulativa de renta en las pequeñas áreasAplicar estimadores basados en modelos espaciales de área, temporales y espacio-

temporales tanto de área como de unidadTambién se han aplicado modelos que modelizan los cuantiles en lugar de la media

(M_quantil models) y GWR (Geographically Weighted Regression)estudio de la robustez de los métodos ante la presencia de valores extremos (outliers)

Se han realizado numerosos experimentos de simulación con datos de la EU-SILC integrados con datos administrativos

Implementación en un software desarrollado en lenguaje R y elaboración de un manual para el usuario.

INST

ITUT

O NA

CION

AL D

E ES

TADÍ

STIC

A

Diferentes procedimientos para el estudio de la

pobreza en las áreas pequeñas

Metodología ELL (Elbers, Lanjouw & Lanjouw):

Consiste en ajustar un modelo de regresión con efectos aleatorio de clusters, a nivel de hogar, con los datos de una encuesta (EU-SILC, EPF, ...) para posteriormente imputar la variable dependiente (renta, gasto, ...) en los datos censales. Entonces se realiza una simulación para obtener las estimaciones y sus errores.

Es utilizada por el Banco Mundial y el IBGE (Brazilian Institute of Geography and Statistics).

Método EB (Empirical Bayes):

Para un modelo similar al aplicado en la metodología anterior, se obtiene la estimación del parámetro poblacional no lineal con el estimador EB basado en el modelo y la del ECM mediante un bootstrap paramétrico.

Molina, I. Y Rao, J.N.K. (2010). Small Area Estimation of Poverty Indicators. Canadian Journal of Statistics, 38, 369-385.

INST

ITUT

O NA

CION

AL D

E ES

TADÍ

STIC

A

Diferentes procedimientos para el estudio de la

pobreza en las áreas pequeñas

Modelo M_cuantiles:

Consiste en modelizar los cuantiles (parámetros poblacionales no lineales) en lugar de la media.

Chambers, R. and Tzavidis, N. (2006). M-quantile models for small area estimation. Biometrika ,93, 255-268.

Modelo FH (Fay-Herriot):

Poporciona estimaciones basadas en un modelo de área con efecto aleatorio.

Es utilizado por el Bureau of Census (USA) en el marco del proyecto SAIPE (Small Area Income and Poverty Estimates) para obtener indicadores de pobreza útiles para la asignación de fondos federales.

http://www.census.gov/did/www/saipe

INST

ITUT

O NA

CION

AL D

E ES

TADÍ

STIC

A

Reino Unido: Office for National Statistics (ONS)

Antecedentes:

1985. Simposium sobre Estimaciones en Areas Pequeñas (Ottawa).1990s:

-Primeros contactos con la Universidad de Southampton.-Conferencia Científica Internacional sobre Estimaciones en Areas Pequeñas y Diseño de Muestras (Polonia, 1992).-Algunas incursiones en el campo de las encuestas de la Salud.-SAEP (Small Area Estimation Project)-Proyecto SUPCOM

Aplicación en el Censo 2001para la obtención de datos poblacionales por grupos de sexo-edad en las LADs (Local Authority Districts).

2001-2004: Proyecto EURAREA.2003: publicación de datos “experimentales”del paro (nevel y tasa) para

las LADs.2006: los datos del paro para las LADs pasan a ser oficiales.2009: publicación de datos “experimentales” del paro los PCs

(Parliamentary Constituencies).2010: publicación de datos “experimentales” de la proporción de hogares

por debajo del umbral de la pobreza en las MSOAs (Middle Layer Super Output Areas).

INST

ITUT

O NA

CION

AL D

E ES

TADÍ

STIC

A

Reino Unido: Office for National Statistics (ONS)

Lecciones aprendidas por la ONS a partir de su propia experiencia:

Para producir estimaciones en áreas pequeñas es necesario:

- definir el objeto de estimación (variable de interés, parámetros poblacionales y niveles de desagregación requeridos).- identificar las variables auxiliares disponibles para ser covaribles

Es muy importante validar el modelo aplicado antes de publicar resultados y para ello es necesario:

- realizar un diagnóstico del modelo (test y gráficos de los residuos)- comparar las estimaciones obtenidas con datos de fuentes externas (proxys)- consultar con los usuarios de las estimaciones producidas- revisión de la metodología aplicada por el mundo académico

Los principales retos a los que se enfrenta una oficina de estadística cuando produce estimaciones en áreas pequeñas son:

- la habilidad para aprender la complejidad de la teoría estadística requerida- la disponibilidad de información auxiliar (censal o administrativa) - la capacidad para superar las “barreras” (internas y externas) para la aceptación de las estimaciones basadas en modelos como estadísticas oficiales de confianza

INST

ITUT

O NA

CION

AL D

E ES

TADÍ

STIC

A Italia: Istituto Nazionale di Statistica

(ISTAT)

Indagine sulle Forze di Lavoro (FL)

Desde el año 2002 el ISTAT publica estimaciones anuales para LLMAs(Local Labour Market Areas) que son agrupaciones de municipios cuyadefinición es actualizada con cada Censo de Población.

Las estimaciones relativas al periodo de 1996- 2002 se obtuvieronaplicando un estimador compuesto.

A comienzos del año 2004, aprovechando cambios estratégicos introducidosen el diseño muestral de la FL, el estimador EBLUP con efectos aleatoriosde área autocorrelados ha sido implantado.

INST

ITUT

O NA

CION

AL D

E ES

TADÍ

STIC

A

Italia: Istituto Nazionale di Statistica (ISTAT)

La publicación de datos FL para estas pequeñas áreas va acompañada de una nota informativa (44 páginas) que describe los desarrollos metodológicos aplicados.

Mas información en :http://www.istat/salastampa/comunicati/non-calendario/20070219-011

Otros trabajos desarrollados por el ISTAT investigan en los siguientes campos:

- Pobreza

- Encuestas económicas: diseño muestral óptimo para obtenerestimaciones en dominios pequeños

INST

ITUT

O NA

CION

AL D

E ES

TADÍ

STIC

A

Paises Bajos: Cemtraal Bureau voor de Statistiek (CBS)

La conferencia SAE2007 fue la primera en la se presentaron trabajos procedentes del CBS:

- Model diagnostics and model selection in small area – a case study in official statistics- The development of a tool for model-based small area estimation and its application to the Dutch Labour Force survey- A comparison of several design-based and model-based estimators for municipal unemployment rates

Han desarrollado un software para obtener estimaciones tipo SAE.

Realizaron simulaciones y experimentos, principalmente para obtener datos del paro a nivel municipal, aplicando estimadores directos, asistidos y basados en modelos.

INST

ITUT

O NA

CION

AL D

E ES

TADÍ

STIC

A

Paises Bajos: Cemtraal Bureau voor de Statistiek (CBS)

En 2008 el CBS ha elaborado un documento de trabajo, en holandés e inglés, Model-based Estimation in Official Statistics, en el que se analizan las ventajas y desventajas de los tres métodos de estimación así como se identifican algunas situaciones, en la estadística oficial, en las que el uso de modelos puede ser beneficioso.

Actualmente el CBS no produce estadísticas oficiales en áreas pequeñas.

Los trabajos futuros en este campo están enfocados a:

- Aprovechamiento del actual rediseño en las encuestas sociales para realizar, en el 2009, un estudio piloto con el fin de obtener tasas de paro mensuales y anuales aplicando series temporales y modelos tipo SAE.- Investigación del uso de técnicas SAE en la obtención de indicadores sobre la criminalidad y la seguridad pública por distritos policiales.

INST

ITUT

O NA

CION

AL D

E ES

TADÍ

STIC

A

Francia: Institut National de la Statistique et des Études Economiques (INSEE)

En el campo estadístico, Francia es un país de reconocido prestigio y, sin embargo, es un desconocido en el tema de las pequeñas áreas en los foros internacionales mencionados.

Por la información encontrada en la web oficial del INSEE y en Internet, llevan varios años trabajando en este tema. Algunos ejemplos son:

-Estimations locales dans le cadre de l’enquête HID (2002)-Application d’une méthodologie des “petits domaines”: estimationd’ísolement relationnel dans 3 zones urbaines sensibles (2002)

Han sido asesorados por el grupo de trabajo especializado en técnicas de estimación en áreas pequeñas.

INST

ITUT

O NA

CION

AL D

E ES

TADÍ

STIC

A

Francia: Institut National de la Statistique et des Études Economiques (INSEE)

En el año 2006, Pascal Ardilly, de l’Unité de Méthodologie Statistique(INSEE), elaboró el documento de trabajo titulado Panorama des principales method d’estimation sur les petits domaines.

Este documento recoge los principales métodos de estimación en áreas pequeñas, tanto los estimadores basados en la teoría clásica de muestreo como aquellos que se apoyan en el uso de modelos.

Además contiene una amplia bibliografía.