Modelos con coeficientes variables en muestreo de ...

96
Centro de Investigaci´on en Matem´ aticas A.C. Modelos con coeficientes variables en muestreo de poblaciones finitas. Tesis que para obtener el grado de Maestro en Ciencias en Estad´ ıstica Oficial Presenta Juan Mart´ ınez Rodr´ ıguez Asesor Dr. Jos´ e El´ ıas Rodr´ ıguez Mu˜ noz Diciembre de 2009 Guanajuato, Gto. M´ exico

Transcript of Modelos con coeficientes variables en muestreo de ...

Page 1: Modelos con coeficientes variables en muestreo de ...

Centro de Investigacion en Matematicas A.C.

Modelos con coeficientes variables

en muestreo de poblaciones finitas.

Tesis

que para obtener el grado de

Maestro en Ciencias en Estadıstica Oficial

Presenta

Juan Martınez Rodrıguez

Asesor

Dr. Jose Elıas Rodrıguez Munoz

Diciembre de 2009 Guanajuato, Gto. Mexico

Page 2: Modelos con coeficientes variables en muestreo de ...

 

Page 3: Modelos con coeficientes variables en muestreo de ...

Centro de Investigacion en Matematicas A.C.

Modelos con coeficientes variables

en muestreo de poblaciones finitas.

Tesis

que para obtener el grado de

Maestro en Ciencias en Estadıstica OficialPresenta

Juan Martınez Rodrıguez

Comite de Evaluacion

Dr. Rogelio Ramos Quiroga

(Presidente)

Dr. V. Alfredo Bustos y de la Tijera

(Secretario)

Dr. Jose Elıas Rodrıguez Munoz

(Vocal y Director de Tesis)

Diciembre de 2009 Guanajuato, Gto. Mexico

Page 4: Modelos con coeficientes variables en muestreo de ...

 

Page 5: Modelos con coeficientes variables en muestreo de ...

Agradecimientos

Gracias a Dios, por permitirme hoy estar aquı y brindarme la oportuni-dad de culminar uno mas de mis proyectos de vida.

Con amor y carino para mi esposa Gaby, que fue parte fundamental enel desarrollo de la maestrıa. Para mis hijos Juan y Jose Angel, quienes sonfuente de inspiracion y que siempre logran arrancarme una sonrisa aun y enlos momentos mas difıciles.

A mis padres, que a pesar de las adversidades apostaron por darme unacarrera como herencia para mi futuro, tambien quiero mencionar a mis her-manos los cuales siempre me brindan un apoyo incondicional.

Al Dr. Elıas, que como asesor en todo momento estuvo dispuesto a brin-darme sus conocimientos para la realizacion del presente trabajo, fue unagran experiencia trabajar con el ya que sus ensenanzas me ayudaron a con-solidarme en algunos aspectos de mi formacion profesional.

Gracias, a las autoridades del INEGI que lucharon por la realizacion deesta maestrıa, brindarme con ello la oportunidad de pertenecer a este proyec-to y aportar mi granito de arena en la generacion de la informacion estadısticadel paıs.

A mis profesores, los doctores, Graciela, Rogelio, Johan y Ramon, por suvaliosa aportacion academica, lo que hoy les puedo decir es: Gracias.

“ El agradecimiento es la memoria del corazon. ”, Lao-tse

i

Page 6: Modelos con coeficientes variables en muestreo de ...

ii

Page 7: Modelos con coeficientes variables en muestreo de ...

Resumen

El uso de informacion para la toma de decisiones se ha generalizado,ahı que el Instituto Nacional de Estadıstica y Geografıa (INEGI), tiene laencomienda de generar, integrar y coordinar la informacion estadıstica deinteres para los diferentes sectores de la sociedad.

En el cumplimiento de esta mision el INEGI desarrolla los censos paratener una fotografıa del paıs, al menos cada cierto tiempo, estas accionesrecaban algunas de las caracterısticas principales de la poblacion mexicana;cabe senalar que el costo en la realizacion de estos es demasiado alto ya queimplica contabilizar todas las viviendas del territorio nacional. En el censodel 2000 se visitaron aproximadamente 22 millones de viviendas, en las cualesse encontraron cerca de 97.5 millones de personas.

Por lo anterior, realizar un censo no es una tarea sencilla, dado que existeun extenso numero de temas de los diferentes sectores de la sociedad queno se satisfacen con el censo y si forman parte de el, no se estudian con laprofundidad necesaria, entre ellos se encuentra: migracion, educacion, salud,pobreza, discapacidad, empleo, etc., que por cuestiones de presupuesto esca-pan del alcance de un operativo censal.

Con el proposito de responder a estas necesidades de datos especıficos, selleva a cabo en otros paıses como, Estados Unidos Censo del 2000, Canadadesde el 1941, Colombia 1985 y 2005, Brasil 1991 y 2000 y Mexico en el 2000,la aplicacion de encuestas simultaneas con el censo, cuyo objetivo es el darrespuesta a las peticiones de informacion con mayor desagregacion geograficay tematica.

En terminos generales, en los censos donde se realizan encuestas simul-

iii

Page 8: Modelos con coeficientes variables en muestreo de ...

iv

taneas, se generan dos cuestionarios, el basico (corto) se aplica a todos losresidentes de paıs y el ampliado (largo) el cual contiene las mismas pregun-tas del basico mas algunas adicionales, este es aplicado a los hogares quepertenecen a la muestra generada, bajo un diseno muestral particular y loshogares son entrevistados simultaneamente en el mismo operativo censal.

En el caso de Mexico un censo es realizado cada diez anos, teniendo comouno de los objetivos recabar informacion de aquellas regiones administrativaspequenas en las que se divide el paıs que dificilmente seran consideradas enestudios posteriores.

Considerando este objetivo la encuesta debe brindar estimaciones confia-bles y precisas, para algunas variables de especial interes a nivel que se con-sidere nacional, estatal y/o municipal, sin embargo, cumplir con el propositode dar informacion municipal, requiriere de grandes tamanos de muestra loque se traduce en altos costos que sobrepasan los presupuestos destinadospara tales fines, pensando en esa problematica se propone analizar una me-todologıa alterna que permita la estimacion de informacion a nivel municipal.

Existen diferentes formas para lograr estimaciones estadısticas con ma-yor precision en pequenas desagregaciones geograficas, utilizando informacionauxiliar de toda la poblacion, ya sea de registros administrativos o censos ycon las unidades en la muestra, situacion que se presenta en nuestro casode estudio al disponer de la informacion censal y de la muestra de manerasimultanea.

Entre las alternativas del uso de informacion auxiliar en los estimadores,es necesario identificar las relaciones existentes entre las variables para sumodelacion a traves de modelos ya estudiados y conocidos, es convenientetener en cuenta que en la practica esta no es una tarea sencilla, ya que en lamayorıa de los casos se sabe de la existencia de una relacion entre las varia-bles involucradas en la modelacion, pero se desconoce su forma, lo que puedellevar a una inadecuada especificacion del modelo y con ello a estimacionesno muy precisas.

En este sentido interesa desarrollar un modelo que nos permita, con lamuestra censal e informacion auxiliar (informacion censal) realizar inferen-cia sobre los valores de la poblacion que no forman parte de la muestra, sin

Page 9: Modelos con coeficientes variables en muestreo de ...

v

identificar o definir algun modelo de manera explıcita.

Hoy en dıa los estimadores que se utilizan en la practica pueden ser deri-vados en base a un modelo propuesto, frecuentemente se parte de un modelolineal. Mencionando algunos como: el estimador de Regresion Generaliza-da (Cassel, Sarndal and Wretman, 1976,1977; Sarndal 1980, Robinson andSarndal, 1983), estimadores de Razon y estimadores de Regresion Lineal (Co-chran, 1977) y estimadores de Posestratificacion (Holt and Smith, 1979), loscuatro se derivan de suponer modelos lineales.

Aunque, es preciso reconocer que en ocasiones el modelo lineal no es elmas adecuado y los estimadores resultantes no aportan alguna eficiencia so-bre los estimadores basados en el diseno.

Wu and Sitter (2001), proponen una clase de estimadores para los cualesse trabaja con modelos que siguen una forma no lineal parametrica, de hecho,el uso eficiente de cualquiera de estos modelos requiere del conocimiento dela estructura parametrica especıfica de la poblacion.

En base a lo anterior, algunos investigadores han considerado modelos noparametricos, Dorfman y Chambers (1992), Dorfman y Wehrly (1993) desa-rrollaron estimadores basados en modelo no parametricos utilizando regresionpor kernels, posteriormente Zheng y Little (2003) propusieron un estimadorbasado en modelo que utiliza regresion con “splines”penalizados.

Breidt and Opsomer (2000), proponen un nuevo tipo de estimador de re-gresion no parametrico asistido por un modelo para la estimacion del totalde una poblacion finita, basandose en el suavizamiento de polinomios loca-les,este metodo esta basado en “kernel”.

En este contexto de enfoques de regresion no parametrica, en el presentetrabajo se propone la aplicacion de regresion con coeficientes variables apli-cado a muestreo de poblaciones finitas, como una alternativa de estimacion.Lo cual, se traduce en la disminucion de los costos para generar informaciona nivel municipal con una precision dada, o bien mantener los mismos costosy mejorar la precision de las estimaciones.

A traves de simulacion con poblaciones ficticias se realiza un primer

Page 10: Modelos con coeficientes variables en muestreo de ...

vi

analisis respecto al comportamiento de Regresion con Coeficientes Variables(RCV), trabajando posteriormente en una aplicacion con informacion censaldel 2000 y la encuesta que se realizo en el mismo perıodo intercensal, utilizan-do los valores de las variables auxiliares disponibles para toda la poblaciondel censo, en la estimacion de algunas variables de interes para encuesta anivel municipal.

Adicionalmente este modelo de coeficientes variables proporciona una for-ma simple de identificar las relaciones existentes entre las varibles, presentan-dose naturalmente cuando uno esta interesado en explorar el comportamientode los coeficientes de la regresion en diversos grupos de la poblacion.

Page 11: Modelos con coeficientes variables en muestreo de ...

Indice general

Introduccion 1

1. Planteamiento del problema 31.1. Definicion del problema . . . . . . . . . . . . . . . . . . . . . . 31.2. Objetivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71.3. Justificacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2. Marco teorico, Modelos en muestreo de poblaciones finitas 92.1. Muestreo en poblaciones finitas y el enfoque de superpoblacion 92.2. Generalidades . . . . . . . . . . . . . . . . . . . . . . . . . . . 112.3. Terminos y definiciones . . . . . . . . . . . . . . . . . . . . . . 122.4. Estimador de Horvitz - Thompson . . . . . . . . . . . . . . . . 142.5. Estimador de Regresion . . . . . . . . . . . . . . . . . . . . . 14

2.5.1. Modelos poblacionales . . . . . . . . . . . . . . . . . . 142.5.2. Modelos para una muestra . . . . . . . . . . . . . . . . 162.5.3. Estimador del Total . . . . . . . . . . . . . . . . . . . 18

2.6. Regresion localmente polinomial . . . . . . . . . . . . . . . . . 20

3. Metodologıa Propuesta 233.1. Regresion con coeficientes variables (RCV) . . . . . . . . . . . 233.2. Estimador del total y vıa RCV . . . . . . . . . . . . . . . . . . 263.3. Algoritmo para la estimacion del total y su varianza . . . . . . 27

3.3.1. Kernel utilizado . . . . . . . . . . . . . . . . . . . . . . 283.3.2. Determinacion del ancho de banda h (Bandwidth) . . . 293.3.3. Estimacion de los coeficientes para una muestra . . . . 30

4. Simulacion 314.1. Descripcion del procedimento a simular . . . . . . . . . . . . . 31

vii

Page 12: Modelos con coeficientes variables en muestreo de ...

viii INDICE GENERAL

4.2. Evidencias encontradas en la simulacion . . . . . . . . . . . . 36

5. Aplicacion RCV a la muestra censal del 2000 395.1. Diseno de muestreo del censo del 2000 . . . . . . . . . . . . . 395.2. Descripcion de los datos de Aplicacion . . . . . . . . . . . . . 405.3. Variables del cuestionario basico y ampliado . . . . . . . . . . 455.4. Seleccion de variables. . . . . . . . . . . . . . . . . . . . . . . 475.5. Resultados de la Aplicacion . . . . . . . . . . . . . . . . . . . 51

6. Conclusiones y Recomendaciones 63

Anexos 67

Page 13: Modelos con coeficientes variables en muestreo de ...

Indice de cuadros

1.1. Temas del cuestionario ampliado Censo 2000. . . . . . . . . . 41.2. Precision de los indicadores.1 . . . . . . . . . . . . . . . . . . . 5

4.1. Estimacion de la muestra . . . . . . . . . . . . . . . . . . . . . 34

5.1. Tamano de muestra mınimo por tamano de localidad . . . . . 425.2. Numero de localidades a seleccionar . . . . . . . . . . . . . . . 445.3. Variables cuestionario Basico y Ampliado censo 2000 . . . . . 465.4. Municipios de Estado Aguascalientes, muestra en viviendas . . 515.5. Primer grupo de variables seleccionadas, Estado de Ags. . . . 525.6. Estimaciones con h como en seccion 3.3.2, primer grupo de variables 535.7. Descripcion de las estimaciones . . . . . . . . . . . . . . . . . 545.8. Segundo grupo de Variables seleccionadas, Estado de Ags. . . 555.9. Est. con h vıa validacion cruzada y segundo grupo de var. . . 565.10. Est. con h como en 3.3.2 y segundo grupo de variables. . . . . 56

1. Municipios del Estado de Nuevo Leon, muestra en viviendas . 692. Est. con h calculada con validacion cruzada, Nuevo Leon . . . 713. Variables seleccionadas, Estado de Nuevo Leon. . . . . . . . . 724. Municipios del Estado de Yucatan, muestra en viviendas . . . 735. Est. con h calculada con validacion cruzada (parte I), Yucatan 756. Est. con h calculada con validacion cruzada (parte II), Yucatan 767. Variables seleccionadas (parte I), Estado de Yucatan. . . . . . 778. Variables seleccionadas (parte II), Estado de Yucatan. . . . . . 78

ix

Page 14: Modelos con coeficientes variables en muestreo de ...

x INDICE DE CUADROS

Page 15: Modelos con coeficientes variables en muestreo de ...

Indice de figuras

3.1. Kernel Epanechnicov . . . . . . . . . . . . . . . . . . . . . . . 29

4.1. Relacion Y y X1 . . . . . . . . . . . . . . . . . . . . . . . . . 324.2. Relacion Y y X2 . . . . . . . . . . . . . . . . . . . . . . . . . 334.3. Relacion Y y X3 . . . . . . . . . . . . . . . . . . . . . . . . . 334.4. Coeficientes variables β1 . . . . . . . . . . . . . . . . . . . . . 354.5. Coeficientes variables β2 . . . . . . . . . . . . . . . . . . . . . 354.6. Coeficientes variables β3 . . . . . . . . . . . . . . . . . . . . . 364.7. Histograma de las estimaciones de las 1000 muestras . . . . . 374.8. Coef. de variacion para las estimaciones de las 1000 muestras . 38

5.1. Relacion Ingresos por trabajo y promedio de escolaridad . . . 505.2. Ingresos por trabajo, Estado de Aguascalientes . . . . . . . . . 535.3. Scatterplot, variables en el modelo Pabellon de Arteaga, Ags. . 585.4. Rel. de Vars. con la discriminante e independiente, Mun. 6. . 595.5. Coeficientes de regresion, β1, β2, β3, β4, municipio 6 de Ags. . 605.6. Coeficientes de regresion, β5, β6, municipio 6 de Ags. . . . . . 61

1. Outliers Municipios del Estado de Nuevo Leon . . . . . . . . . 702. Outliers Municipios del Estado de Yucatan . . . . . . . . . . . 74

xi

Page 16: Modelos con coeficientes variables en muestreo de ...

xii INDICE DE FIGURAS

Page 17: Modelos con coeficientes variables en muestreo de ...

Introduccion

En esta era de la informacion, la solicitud de datos y la busqueda estadısti-ca es cada vez mas frecuente, por su importancia tanto para implementacionde programas y polıticas publicas como para la planeacion de proyectos dela iniciativa privada.

En la actualidad, esta informacion ya no es suficiente solo a nivel nacionalo para los grandes asentamientos urbanos, se requiere tambien para lugaresgeograficos pequenos por ejemplo, a nivel municipal, requiriendo una ampliavariedad tematica relacionada con variables tan diversas en temas como: -educacion, salud, empleo, vivienda, migracion, entre otros.

Con el proposito de satisfacer esta solicitud cada mas exigente de infor-macion, es necesario explorar alternativas para la produccion de estadısticaoficial, buscando un equilibrio entre los costos de produccion y la calidad delas estimaciones para informacion geografica especıfica (de caracter munici-pal).

Bajo estas perspectivas, en el presente documento se explora la aplicacionde modelos con coeficientes variables aplicado a muestreo de poblaciones fini-tas como una alternativa de estimacion de areas pequenas, lo cual, se traduceen la disminucion de los costos para generar informacion a nivel municipalcon una precision dada, o bien mantener los mismos costos y mejorar la pre-cision de las estimaciones.

La aplicacion de metodos en la obtencion de estimaciones para pequenasareas, abre una importante area de estudio en la estadıstica oficial, su rele-vancia resulta clara debido a que cada vez existe un mayor requerimiento deinformacion y a la necesidad de no incrementar los costos en la obtencion de

1

Page 18: Modelos con coeficientes variables en muestreo de ...

la misma.

En este contexto, el presente informe de investigacion aplicada, integra seiscapıtulos, en los cuales se aborda desde los antecedentes del tema, hasta lasconclusiones, pasando por la definicion del problema, la justificacion, la meto-dologıa, el estudio de la simulacion, su aplicacion y las respectivas referenciasbibliograficas.

Por la trascendencia en el documento y en la investigacion misma, espreciso destacar el capıtulo V, referente a la aplicacion de la Metodologıade Regresion con Coeficientes Variables al Muestreo de Poblaciones Finitas,porque en el se presenta en detalle el desarrollo de la implementacion de lametodologıa indicada en la estimacion de las variables referentes a ingresosdel cuestionario ampliado del Censo del 2000.

2

Page 19: Modelos con coeficientes variables en muestreo de ...

Capıtulo 1

Planteamiento del problema

1.1. Definicion del problema

El Instituto Nacional de Estadıstica y Geografıa (INEGI) es el organismoresponsable de proporcionar el servicio publico de informacion estadıstica ygeografica del paıs a las diferentes dependencias gubernamentales y a los par-ticulares que lo solicitan.

Sin embargo, esta tarea no ha sido facil, en los ultimos anos la crecientedemanda de informacion actualizada, multitematica, con mayor exigencia enel nivel de las estimaciones, es decir, con mayor desglose geografico, planteanuevos retos en el quehacer estadıstico del Instituto, ya que el cumplir contales exigencias informativas a traves de los censos y de las encuestas requierede un presupuesto difıcil de mantener en estos tiempos.

En este mismo sentido, una de las principales fuentes de informacion ennuestro paıs son los censos de poblacion, los cuales constituyen uno de losejes fundamentales del Sistema Nacional de Informacion Estadıstica, la infor-macion censal que de ellos se desprende, es indispensable en el analisis de lasituacion actual del paıs, con el objetivo de conocer los niveles de bienestarde la poblacion, ası como la planeacion que realiza tanto el sector publicocomo la iniciativa privada.

En el ano 2000, el INEGI realizo el XII Censo General de Poblacion yVivienda, optando por la aplicacion de dos cuestionarios en el marco de me-

3

Page 20: Modelos con coeficientes variables en muestreo de ...

4 Planteamiento del problema

todologıas internacionales que algunos paıses habıan adoptado: el “basico”yel “ampliado”, ambos cuestionarios aplicados en el desarrollo del censo, estanconformados por una serie de preguntas comunes, el cuestionario ampliado,se aplico a una muestra probabilıstica de la poblacion, mismo que profundizaen algunos temas a traves de preguntas adicionales [16] y [17].

Los resultados proporcionados por la encuesta se obtuvieron del estima-dor insesgado de Horvitz-Thompson (HT) [8] utilizado en encuestas de disenoprobabilıstico, este estimador funciona bien cuando las probabilidades de in-clusion tienen relacion lineal con la variables de estudio, sin embargo, es difıcilgarantizar este supuesto para el total de las variables estimadas a partir delcuestionario ampliado del Censo del 2000. Si esto no ocurre el estimador deHT puede ser muy ineficiente.

Otro punto importante es, que este estimador no utiliza ningun tipo deinformacion auxiliar que puede estar disponible y con lo cual ayudar en laprecision de las estimaciones, la parte tematica del Censo del 2000 cuadro1.1 muestra algunos temas que pueden ser de ayuda al estar correlacionados,por ejemplo; la educacion, el empleo, servicios de salud, los cuales puedenaportar informacion extra de utilidad para estimar alguna variables de in-teres relacionada con estos.

Cuadro 1.1: Temas del cuestionario ampliado Censo 2000.

Poblacion Religion Estado ConyugalFecundidad y Mortalidad Educacion EmpleoMigracion Servicios de Salud HogaresLengua Indıgena Discapacidad Vivienda

Es preciso comentar, que al tener esta gama de temas tan variados quiza enalgunos de ellos el estimador de HT no sea el mas adecuado.

En la publicacion del Censo del 2000 en relacion a la muestra se presentanerrores relativos maximos esperados para los diferentes dominios 1.

De acuerdo al documento antes citado, en el cuadro 1.2, se observa que

Page 21: Modelos con coeficientes variables en muestreo de ...

1.1 Definicion del problema 5

entre menor es el valor estimado del indicador las posibilidades de explo-tacion se reducen a nivel municipal, no ası en el estatal; por lo tanto, sepodra ofrecer informacion confiable solo para algunas caracterısticas de lapoblacion.

Cuadro 1.2: Precision de los indicadores.1

Variable Nivel Valor del Error relativo

Geografico indicador maximo

Causa de Discapacidad

Poblacion discapacitada por accidente Estatal 15.94 14.82

Bienes de la vivienda

Vivienda con radio Estatal 82.2 11.35

Vivienda con telefono Estatal 21.78 12.23

Educacion

Poblacion de 15 y mas anos Municipal 18.84 9.7

Poblacion analfabeta Municipal 10.6 13.57

Causa de abandono escolar

(7 a 24 anos)

Porque no quiso estudiar Municipal 34.22 10.20

No tenıa recursos Municipal 22.87 13.51

Empleo

Poblacion economicamente activa Municipal 54.94 4.0

Ocupados que trabajaron mas de 48 horas Municipal 31.77 8.75

Ocupados que trabajaron menos de 48 horas Estatal 4.32 7.45

Hogares

Con perceptores de riesgo por otras

fuentes distintas al salario Municipal 23.86 14.27

Con jefatura femenina Estatal 14.10 5.22

En esta publicacion se enfatiza la limitacion para tener informacion es-tadıstica confiable a nivel municipal para ciertos indicadores, dado que al

1XII Censo de poblacion y vivienda 2000, Tabulados

de la muestra censal cuestionario ampliado, pag 268., url.

http://www.inegi.org.mx/prod serv/contenidos/espanol/bvinegi/productos/censos/poblacion/2000/archivospdf/tabulado.pdf

Page 22: Modelos con coeficientes variables en muestreo de ...

6 Planteamiento del problema

utilizar solo la informacion en la muestra para la estimacion, se necesita unagran cantidad de observaciones, lo cual deriva en la necesidad de incrementarel tamano de muestra para obtener estimaciones municipales confiables. Sinembargo, incrementar el tamano de muestra no es factible ya que se acre-centarıa considerablemente el costo, por lo que se opta por no proporcionarinformacion a nivel municipal para algunos indicadores porque sus errores deestimacion son muy altos y el uso de estos datos, se da con suma reserva porlo cual surge el interes de explorar tecnicas alternativas de estimacion quenos permitan proporcionar informacion con mayor desglose en subpoblacio-nes y geografico, sin que el tamano de la muestra crezca y su costo no se veamodificado.

Por tal motivo, se propone realizar estimaciones a nivel municipal paraaquellas caracterısticas importantes de la poblacion con escasa muestra, alaprovechar la informacion auxiliar de las variables comunes que se tienenpara cada una de las unidades de muestreo e involucrarlas en un modelo noparametrico de Regresion con Coeficientes Variables, propuesto en el capıtulo3, con el objetivo de compararlo con el estimador tradicional de HT.

Por tanto, el problema que se pretende abordar en el presente trabajo es:

“En la parte teorica, desarrollar el estimador de Regresioncon Coeficientes Variables (RCV) para muestreo de poblacionesfinitas. Ademas de utilizar el estimador propuesto para estimarlos totales de algunas variables de interes a nivel municipal detres entidades federativas del paıs. Adicionalmente comparar laestimacion de RCV que utiliza informacion auxiliar en el mo-mento de la estimacion y se compara en terminos de la precisionestadıstica con la estimacion proporcionada por el INEGI vıa elestimador de Horvitz-Thompson”

Page 23: Modelos con coeficientes variables en muestreo de ...

1.2 Objetivo 7

1.2. Objetivo

Evaluar la factibilidad de estimar de manera eficiente variables de interesa nivel municipal con la metodologıa de Regresion con Coeficientes Variablesmodificada en el contexto de muestreo de poblaciones finitas.

1.3. Justificacion

En la actualidad, se busca utilizar de manera eficiente los recursos economi-cos con los que se cuenta para realizar un proyecto, en particular como loes un Censo, existen dos aspectos que siempre seran contrarios y es necesa-rio encontrar un equilibrio entre ellos, mientras que los recursos economicosdisminuyen, el crecimiento en la demanda estadıstica aumenta en varios sen-tidos; frecuencia, cobertura tematica y desagregacion geografica.

Existen varios paıses en Europa principalmente que pueden por su forta-leza economica y caracterısticas geograficas y culturales apoyar la generacionde informacion sobre la totalidad de su poblacion o para pequenas subpobla-ciones en base en sus registros administrativos.

En el caso de Mexico pertenece a un subconjunto de paıses que por susparticulares condiciones polıticas, economicas, sociales y hasta geograficas,hacen inviable el uso de registros administrativos al menos en este momento,en un futuro quiza se puedan apreciar algunos resultados del trabajo que serealiza al respecto.

Existen diferentes escenarios cuando se habla de Censos en el mundo,

Censos y encuestas sociodemograficas (Estados Unidos)

Registros administrativos (Paıses bajos, Dinamarca, Finlandia, Islan-dia, Noruega y Suecia)

Registros administrativos y censos (Espana)

Encuestas Rotatorias (Francia)

Page 24: Modelos con coeficientes variables en muestreo de ...

8 Planteamiento del problema

El INEGI ha optado por Censo y encuestas Sociodemograficas, para elcenso de 2000 se realizo a traves de un esquema combinado que consiste enla aplicacion de un cuestionario basico a toda la poblacion (Censo), y en elmismo perıodo una muestra recibio una ampliacion al anterior cuestionario(encuesta), similar al de Estados Unidos aunque en su caso realiza encuestasintercensales.

Una vez realizada la encuesta, no es posible proporcionar informacion aniveles pequenos de desagregacion geografica, ni generar estimaciones a nivelmunicipal, por ejemplo, requiere de grandes tamanos de muestra y con elloun gran costo economico que se tiene que realizar, encontrando una dificul-tad en el presupuesto limitado destinado para la realizacion de encuestas; enconsecuencia se proporcionan solo resultados a niveles estatales y/o algunosotros grandes dominios como las areas metropolitanas.

Una opcion es relacionar la informacion censal con la muestral y evaluarmetodologıas, ası como pensar en un esquema de generacion de informacionen el que se integre el Censo (estructura), y tanto sus encuestas simultaneascomo las levantadas durante el periodo intercensal (la coyuntura) para:

Lograr una reduccion en los tamanos de muestra implicarıa ahorrossustanciales, sino para el ejercicio fiscal propiamente dicho, si para losmuestrales.

Contar con informacion geograficamente desagregada con mayor fre-cuencia.

Mantener la precision alcanzada en los ejercicios muestrales

Desde esta perspectiva el presente trabajo de tesis, espera ofrecer alINEGI la posibilidad para producir informacion con mayor cobertura temati-ca, mayor capacidad para el estudio de relaciones entre temas y mayor des-agregacion geografica. De igual manera se pretende sea de gran utilidad parael proximo Censo del 2010 en Mexico y posteriores estudios basados en en-cuestas por muestreo.

Page 25: Modelos con coeficientes variables en muestreo de ...

Capıtulo 2

Marco teorico, Modelos enmuestreo de poblaciones finitas

2.1. Muestreo en poblaciones finitas y el en-

foque de superpoblacion

Un aspecto a considerar cuando ajustamos a un conjunto de datos prove-nientes de una encuesta compleja un modelo, que es el tipo de estimacion querealizaremos para determinar los parametros del modelo, basado en diseno oen modelos. En cualquiera de los casos es necesario proponer las expresionesde la estimacion de los parametros y la forma de calcular la varianza de losestimadores propuestos.

En el enfoque de muestreo de poblacion finita, se trata de definir unabuena estrategia de muestreo en base a la definicion de un estimador y undiseno de muestreo (se definen las probabilidades de inclusion en la muestrade un elemento de la poblacion de antemano). En el enfoque de un modelode superpoblacion se considera a y = (y1, ..., yn)t como una realizacion par-ticular de N-vectores aleatorios η = (η1, ..., ηn)t. Estas variables aleatorias ola distribucion de probabilidad de η denomina la superpoblacion. El objetivosigue siendo el mismo, estimar un total o promedio, solo que ahora la defini-cion de la estrategia de muestreo es diferente.

Cassel y Col. (1977) presentan que la aleatoriedad observada en una mues-tra puede proceder, basicamente, de tres fuentes:

9

Page 26: Modelos con coeficientes variables en muestreo de ...

10 Marco teorico, Modelos en muestreo de poblaciones finitas

a) El metodo de seleccion de las unidades.

b) Los metodos de medicion de las variables en las unidades seleccionadas.

c) El proceso que genera la verdadera medida de la variable para cadaunidad.

El enfoque clasico (enfoque basado en diseno) de las investigaciones pormuestreo considera como fuente de aleatoriedad la causa (a). Cuando se con-sidera como causa de la aleatoriedad la propia naturaleza de los datos, esdecir la fuente (c), y a esta se le asigna cierta estructura aleatoria, se obtieneun modelo de superpoblacion para la poblacion finita objeto de estudio.

Este enfoque fue introducido formalmente por Godambe (1955) para su-plir la limitacion del enfoque tradicional que no contempla la existencia deestimadores optimos, aunque implıcitamente se encuentra en trabajos ante-riores sobre estimadores de regresion, muestreo sistematico y comparacionde varianzas. Al respecto, ver por ejemplo Cochran (1939, 1946), Deming yStephan (1941), Madow y Madow (1944).

El enfoque clasico del muestreo en poblaciones finitas considera que losvalores xi de la caracterıstica de interes asociados a una unidad ui de unapoblacion finita U son fijos aunque desconocidos, salvo para los elementos dela muestra una vez que ha sido obtenida, por lo tanto, esos valores no tienenla consideracion de aleatorios (no se consideran variables aleatorias).

La aleatoriedad, en este enfoque, es fruto, exclusivamente, de la seleccionde la muestra y se refleja en el diseno muestral probabilıstico y en los es-timadores utilizados que introducen variables indicadoras de la pertenenciade una unidad a la muestra cuya distribucion solo depende del sistema deseleccion utilizado, por ejemplo, son ampliamente utilizados los estimadoreslineales del tipo.

θ =N∑

i=1

wixiIi (2.1)

Donde las variables aleatorias Ii son las indicadoras de la unidad i-esimade la poblacion y wi son valores adecuados para que el estimador sea in-sesgado del parametro a estimar, esta concepcion del muestreo se denomina

Page 27: Modelos con coeficientes variables en muestreo de ...

2.2 Generalidades 11

enfoque de la poblacion finita.

En el presente trabajo como el nombre de la tesis lo indica, se realizara unanalisis desde el enfoque de estimacion basado en disenos, en donde los es-timadores involucran la forma en que fueron captados los datos, es decirrespetando el diseno de la muestra en analisis, debiendo mencionar que alutilizar un modelo solo tendra una funcion utilitaria.

2.2. Generalidades

En el tema de encuestas complejas, es necesario considerar aprovechar lainformacion auxiliar disponible (si existe) para mejorar la precision de nues-tras estimaciones. Una manera de utilizarla es asumir un modelo de trabajoque describa la relacion entre la variable de estudio y las variables auxiliares.

Algunos estimadores pueden ser derivados en base al modelo propuesto,frecuentemente se parte de un modelo lineal, como el estimador de Regre-sion Generalizada (Cassel, Sarndal and Wretman, 1976,1977; Sarndal 1980,Robinson and Sarndal, 1983), los estimadores de razon y de regresion lineal(Cochran, 1977), ası como los estimadores de Posestratificacion (Holt andSmith, 1979), todos ellos coinciden en que se derivan de suponer modeloslineales.

Sin embargo, en ocasiones el modelo lineal no es el mas adecuado, y losestimadores resultantes no aportan alguna eficiencia sobre los estimadoresbasados en el diseno.

Wu and Sitter (2001), proponen una clase de estimadores para los cualesse trabaja con modelos que siguen una forma no lineal parametrica, por locual, el uso eficiente de cualquiera de estos modelos requiere del conocimien-to de la estructura parametrica especıfica de la poblacion; un inconvenientemas de este tipo de estimadores radica en que el mismo modelo sera utili-zado para diferentes variables de interes, una practica comun en las encuestas.

En base a lo anterior, algunos investigadores han considerado modelossemiparametricos, Dorfman y Chambers (1992), Dorfman y Wehrly (1993)

Page 28: Modelos con coeficientes variables en muestreo de ...

12 Marco teorico, Modelos en muestreo de poblaciones finitas

desarrollaron estimadores basados en modelo no parametricos utilizando re-gresion por kernels, posteriormente Zheng y Little (2003) propusieron unestimador basado en modelos que utiliza regresion con splines penalizados.

Breidt and Opsomer (2000), proponen un nuevo tipo de estimador de re-gresion no parametrico asistido por un modelo para la estimacion del total deuna poblacion finita, basandose en el suavizamiento de polinomios locales, unmetodo basado en kernel. El estimador de regresion localmente polinomialtiene la forma del estimador de regresion generalizada, pero se basa en unmodelo no parametrico de superpoblacion aplicable a un mayor numero declases de funciones.

Por otra parte, en estos ultimos anos se han realizado documentos teori-cos y practicos referentes a modelos con coeficientes variables los cuales songeneralizaciones de los modelos lineales, en donde los coeficientes de regresionen realidad son funciones que proporcionan un coeficiente diferente para cadaobservacion en el modelo y esto puede ayudar a obtener mejores estimacio-nes, ademas de que permite realizar una estimacion multivariada e incorporainformacion de la estructura de los vecinos en una intervalo acotado.

Sin embargo, en el area de muestreo se ha trabajado poco al respecto enel uso de estos modelos, en el presente documento se avalua la factibilidad deestas herramientas estadısticas, al proponer un estimador de regresion concoeficientes variables bajo un enfoque de diseno y evaluar su aplicabilidad enesta area tan importante para el INEGI como lo es el muestreo.

2.3. Terminos y definiciones

Se presenta de manera general en una primera parte la notacion, consis-tente en algunos terminos y definiciones, considerando que la aplicacion serealizo en una muestra de conglomerados, analizando el estimador de Horvitz-Thompson y el estimador de regresion, ademas se presenta de manera breveel estimador de regresion localmente polinomial como un caso particular deRegresion con Coeficientes Variables.

Page 29: Modelos con coeficientes variables en muestreo de ...

2.3 Terminos y definiciones 13

Se considera una poblacion finita:

U = {1, 2, 3, . . . , N} (2.2)

e interesa trabajar con la caracterıstica,

y = (y1, y2, . . . , yN)T (2.3)

cuyos valores son desconocidos para el total de la poblacion, para estavariable de interes de la poblacion, nos gustarıa estimar el total:

ty =∑

i∈U

yi (2.4)

Esto serıa simplemente realizar un conteo y obtener el valor del parametropero realizarlo en general no es factible, por lo que, se opta por seleccionaruna muestra de la poblacion de estudio, la cual debe tener ciertas carac-terısticas, estas deben garantizar la obtencion de una buena precision en elmomento de realizar estimaciones, ya que se produce el error de muestreo porrealizar la estimacion a partir de la muestra, el cual no se presenta cuandocensamos a toda la poblacion.

Una muestra probabilıstica s se selecciona de la poblacion UN de acuerdoa un diseno de muestreo p(.), donde p(s) es la probabilidad de seleccionarla muestra s. Se define n como el tamano de s, ademas, se tiene las proba-bilidades de que un elemento en particular pertenezca a la muestra, (proba-bilidades de inclusion de primer orden), πi = Pr(i ∈ s) =

∑s:i∈s p(s) y la

probabilidad de que dos elementos en particular pertenezcan a la muestraπij = Pr(i, j ∈ s) =

∑s:i,j∈s p(s).

Por otra parte, se tiene una variable de estudio, yi en la cual se tienensus valores para i ∈ s el proposito que se tiene es estimar ty =

∑i∈U yi.

De igual manera se define una funcion aleatoria que nos indica si un ele-mento esta en la muestra o no, es decir, Ii = 1 si i ∈ s y si no Ii = 0, ademasdel valor esperado de la funcion indicadora que es E(Ii = 1) = πi.(El cualcorresponde al valor promedio del numero de veces que aparecerıa la unidadde muestreo sobre todas las posibles muestras de la poblacion finita.)

Page 30: Modelos con coeficientes variables en muestreo de ...

14 Marco teorico, Modelos en muestreo de poblaciones finitas

2.4. Estimador de Horvitz - Thompson

Uno de los estimadores de uso frecuente en encuestas complejas es el es-timador de Horvitz - Thompson (1952),

ty =∑ yi

πi

Ii (2.5)

En la ecuacion 2.5 del estimador se puede notar que no involucra datosauxiliares, y con ello desaprovecha informacion disponible que nos ayude amejorar nuestras estimaciones, siendo necesario presentarlo aquı porque esuno de los estimadores a comparar con el de Regresion con Coeficientes Va-riables que se desarrolla en capıtulos posteriores.

El estimador de Horvitz - Thompson es insesgado y su correspondientevarianza del estimador bajo un diseno p(.) de muestreo esta dado por:

varp(ty) =∑

i,j∈U

(πij − πiπj)yiyj

πiπj

(2.6)

2.5. Estimador de Regresion

La actual seccion esta basada principalmente en Sarndal [12] parte II.

2.5.1. Modelos poblacionales

Si analizamos la estructura de un modelo (no estocastico),

yk = β1xk1 + β2xk2 + . . . + βrxkr + σkεk

= xtkβ + σkεk; k = 1, 2, ..., N (2.7)

Page 31: Modelos con coeficientes variables en muestreo de ...

2.5 Estimador de Regresion 15

donde yk es la variable de interes, xtk = (xk1, xk2, ..., xkr) corresponden a

las variables auxiliares para las cuales se conocen sus valores para todos loselementos de la poblacion, β = (β1, β2, . . . , βr) son los parametros del mode-lo, ǫk es la variable que absorbe lo no explicado por el modelo por parte de lasvariables auxiliares, y σk se le conoce como peso del residuo o factor de escala.

En forma matricial el modelo 2.8 se puede expresar como:

y = Xβ + Σε (2.8)

donde;

y =

y1

y2...

yN

; X =

x11 . . . x1r

.... . .

...xN1 . . . xNr

; β =

β1

β2...βr

; Σ =

σ1 0 . . . 00 σ2 . . . 0...

.... . .

...0 0 · · · σN

;

ε =

ε1

ε2...

εN

;

Sin embargo, ahora se tiene un problema como se pueden proponer va-rios vectores de parametros β con sus respectivos vectores ǫ con los cuales sepuede describir la variable de interes y. Por lo tanto, es necesario determinarel mejor, en algun sentido, vector de parametros β.

Una forma de fijar los parametros es utilizar aquellos que minimicen lasuma de residuos al cuadrado.

Page 32: Modelos con coeficientes variables en muestreo de ...

16 Marco teorico, Modelos en muestreo de poblaciones finitas

εT ε =N∑

k=1

(yk − β1xk1 − · · · − βrxxr

σk

)2

= (yT − βT XT )Σ−2(y − Xβ)

= yT Σ−2y − yT Σ−2Xβ − βT XT Σ−2y + βT XT Σ−2Xβ

= yT Σ−2y − 2βT XT Σ−2y + βT XT Σ−2Xβ (2.9)

Para optimizar la expresion 2.9 y encontrar los parametros que minimizanla suma de residuos al cuadrado es necesario calcular la derivada,

∂εT ε

∂β= −2XT Σ−2y − 2XT Σ−2Xβ (2.10)

Igualando la ecuacion 2.10 a cero se genera el sistema de ecuaciones porresolver,

XT Σ−2XβMC = XT Σ−2y (2.11)

el cual tiene como solucion,

βMC =(XT Σ−2X

)−1XT Σ−2y

=

(∑

k∈U

xTk xk

σ2k

)−1∑

k∈U

xTk yk

σ2k

(2.12)

El vector de parametros 2.12 es otro parametro poblacional, que hasta elmomento se ha trabajado en esta seccion bajo el supuesto de que se conocenlos valores de la caracterıstica de interes para cada elemento de la poblacion.

Lo siguiente sera estimar dicho vector de parametros con informacion deuna muestra.

2.5.2. Modelos para una muestra

Si no se conocen los valores de la mencionada caracterıstica pero sı selec-cionamos una muestra de la poblacion ¿Como se puede utilizar la informacion

Page 33: Modelos con coeficientes variables en muestreo de ...

2.5 Estimador de Regresion 17

de la muestra para estimar βMC?

Para un diseno de muestreo con probabilidades de inclusion de primerorden π1, π2, . . . , πN se propone el estimador de βMC :

βMC =

(∑

k∈U

xTk xk

σ2k

Ik

πk

)−1∑

k∈U

xTk yk

σ2k

Ik

πk

(2.13)

Para una muestra seleccionada s, el estimador de la ecuacion 2.13 producela estimacion:

βMCπ (s) =

(∑

k∈s

xTk xk

σ2kπk

)−1∑

k∈s

xTk yk

σ2kπk

(2.14)

(Ver seccion 6.4 Sarndal [12])

Ejemplo 2.1 Se propone el modelo:

yk = β1 + β2xk2 + σεk (2.15)

entonces,

xk = (1 xk2) ;

βMCπ =

1

Nπ tx22π − t2x2π

(tx2

2π −t2x2π

−t2x2π Nπ

)(tyπ

txyπ

)(2.16)

βMC2π =

∑k∈U

(xk2 −

tx22π

)(yk − tyπ

)Ik

πk

∑k∈U

(xk2 −

tx22π

)2Ik

πk

βMC1π =

tyπ

− βMC2π

tx2π

(2.17)

Page 34: Modelos con coeficientes variables en muestreo de ...

18 Marco teorico, Modelos en muestreo de poblaciones finitas

En la practica lo importante es estimar totales, promedios o porcentajesy analizar sus propiedades estadısticas. Por lo tanto, se emplea un modelocomo el de la ecuacion 2.7, donde la estimacion de los parametros β adquiereuna importancia secundaria.

2.5.3. Estimador del Total

Si partimos del modelo 2.7:

ty = txβ +∑

k∈U

σkεk (2.18)

donde tx =(∑

k∈U xk1, . . . ,∑

k∈U xkr

)que representan los totales conoci-

dos de las variables que fungen como informacion auxiliar.

En relacion a la ecuacion 2.18 el estimador de regresion se puede escribirde la siguiente manera:

tyr = txβ +

(∑

k∈u

σkεk

)

(2.19)

Si definimos,

εk =yk − xkβ

MC

σk

(2.20)

entonces,

k∈u

σkεk =∑

k∈u

σkεk

Ik

πk

=∑

k∈u

yk

πk

Ik −(∑

k∈u

xk

πk

Ik

)βMC (2.21)

retomando la ecuacion 2.19 y sustituyendo 2.21 se tiene que:

Page 35: Modelos con coeficientes variables en muestreo de ...

2.5 Estimador de Regresion 19

tyr = txβ +(ty − txβ

)

= ty +(tx − tx

)β (2.22)

Si se usan los estimadores de Horvitz-Thompson para estimar los ante-riores totales y el estimador 2.13 de β, entonces

tyr = tyπ +(tx − txπ

)βMC

π

=∑

k∈U

1 + (tx − txπ)

{∑

j∈U

xTj xj

σ2j

Ij

πj

}−1(xT

k

σ2k

)

yk

Ik

πk

(2.23)

De la ecuacion anterior se desprende el estimador de calibracion alagregarle algunas restricciones.

tyr =∑

k∈U

λkyk; (2.24)

λk =

1 + (tx − txπ)

{∑

j∈U

xTj xj

σ2j

Ij

πj

}−1(xT

k

σ2k

)

Ik

πk

(2.25)

k∈U

λkxk = tx (2.26)

Observacion 2.1 Si se tienen las siguientes condiciones σ2k = γxk y β =

βMC,entonces

ty = txβMC( no importan las propiedades de βMC, siempre se obtiene ty)

tyπ − txπβMCπ = 0

tyr = txβMCπ

(2.27)

Page 36: Modelos con coeficientes variables en muestreo de ...

20 Marco teorico, Modelos en muestreo de poblaciones finitas

Ejemplo 2.2 Si se parte del modelo yk = xkβ + σεk (todos los residuostienen el mismo peso), xk1 = 1 y γ = (σ2, 0, ..., 0)T , entonces σ2 = γxk.

Ejemplo 2.3 Si se parte del modelo yk = xkβ + σ√

xkjεk (el peso de losresiduos es proporcional a

√xkj), γ tiene todas sus entradas igual a cero

excepto la j-esima, la cual es igual a σ2, entonces σ2k = σ2xkj = xkγ.

Es posible analizar las propiedades estadısticas del estimador βMCπ y con

esto evaluar si el modelo lineal es adecuado o no. Ademas, se puede evaluarla precision del estimador tyR comparada con la de tyπ.

2.6. Regresion localmente polinomial

Este modelo se plantea como:

yk = m (xk) + εk (2.28)

yk : como se define anteriormente es la variable de interes

xk : variable auxiliar escalar (valores conocidos de la poblacion)

m (x) : funcion suave de x

εk : residuos

(2.29)

La funcion m es desconocida pero se elige una tal que alrededor de x0 sepueda aproximar por una serie de Taylor de orden q:

m(x) ≈ m(x0) + m(1)(x0)(x − x0) + . . . +m(q)(x0)

q!(x − x0)

q (2.30)

La ecuacion 3.17 se puede expresar como,

m(x) ≈ β0 + β1(x − x0) + . . . + βq(x − x0)q (2.31)

donde bj = mj(x0)j!

. Observese que m(x0) esta representado por β0 en laanterior ecuacion.

Page 37: Modelos con coeficientes variables en muestreo de ...

2.6 Regresion localmente polinomial 21

Entonces si se tuvieran varias observaciones alrededor de x0 se podrıaestimar m(x0) a traves de un estimador de β0, por lo tanto en base a laforma de la ultima ecuacion se podrıa estimar β0 minimizando:

k∈U

[yk − (β0 + β1(x − x0) + . . . + βq(x − x0)q)]2 Kh(xk − x0), (2.32)

donde Kh(x−x0) = 1hK(

x−x0

h

)y K es una funcion de densidad simetrica

alrededor de cero. La estimacion de β0 y por tanto de m(x0) es:

m(x0)π = e1

(∑

k∈U

Kh(xk − x0)xTk (x0)xk(x0)

)−1∑

k∈U

Kh(xk − x0)xTk (x0)yk

(2.33)donde xk(x0) = (1(xk −x0) · · · (xk −x0)

q) y e1 es un vector de orden q +1con uno en la primera entrada y ceros en las demas.

Cuando se tiene informacion de una muestra, la cantidad anterior se puedeestimar por,

m(x0)π = e1

(∑

k∈U

Kh(xk − x0)xTk (x0)x

Tk (x0)

Ik

πk

)−1∑

k∈U

Kh(xk−x0)xTk (x0)yk

Ik

πk

(2.34)Observese que bajo el modelo 2.28 se tiene

ty =∑

k∈U

m(xk) +∑

k∈U

εk (2.35)

Una forma de estimar lo anterior es:

ty =∑

k∈U

m(xk) +∑

k∈U

εk

=∑

k∈U

m(xk)π +∑

k∈U

(yk − m(xk)π

) Ik

πk

(2.36)

enrique.delgado
Rectángulo
enrique.delgado
Rectángulo
Page 38: Modelos con coeficientes variables en muestreo de ...

22 Marco teorico, Modelos en muestreo de poblaciones finitas

Este ultimo estimador es el estimador de regresion localmente polinomialdel total, que es un caso particular, cuando se tiene solo una variable en elestimador propuesto RCV, el cual se presenta en el siguiente capıtulo.

Page 39: Modelos con coeficientes variables en muestreo de ...

Capıtulo 3

Metodologıa Propuesta

3.1. Regresion con coeficientes variables (RCV)

El uso de los modelos con coeficientes variables en los ultimos diez anosha crecido en diferentes areas como la economıa, las finanzas, la medicina, laepidemiologıa, etc., resultado de una extension natural de los modelos clasi-cos parametricos con una mejor flexibilidad e interpretabilidad, ademas deque se han realizado importantes desarrollos teoricos al respecto.

¿Por que Regresion con coeficientes variables?

Es importante partir del hecho de que cuando se realiza inferencia a travesde estadıstica parametrica, se debe tener en cuenta algunas hipotesis referen-te al modelo, aun y aunque estas esten bien establecidas, los modelos linealesson poco realistas en las aplicaciones practicas, de tal manera que una ma-la especificacion del modelo lineal podrıa dar lugar a un gran sesgo; por locual para tratar de reflejar mejor la realidad se han propuesto muchos otrosmodelos parametricos no lineales ası como metodos de transformacion, cadauno de ellos con sus propias limitaciones.

Entonces, al modelar con regresion parametrica se supone de inicio unaforma de la funcion de regresion, donde solo es necesario estimar los parame-tros de la misma. Por consiguiente, en el analisis de regresion no parametricano se asume un comportamiento del fenomeno a priori, sino que se construyela funcion a partir de lo que “los datos digan”.

23

Page 40: Modelos con coeficientes variables en muestreo de ...

24 Metodologıa Propuesta

Con los avances en el desarrollo de la computadora han surgido sofistica-das tecnicas, muchas de ellas se han propuesto para relajar los supuestos enmodelos parametricos tradicionales y para explotar una posible estructuraoculta, ya que en el caso de modelos no parametricos no se hace ningunasuposicion sobre las especificaciones del modelo, algunos de los principalestrabajos desarrollados al respecto: Modelos Aditivos (Breiman and Friedman1985; Hastie and Tibshirani 1990),Modelos con Coeficientes Variables, (Has-tie and Tibshirani 1990; Fan and Zhang, 1999, 2000; Chiang et al. 2001)

Los modelos con coeficientes variables son basicamente modelos parame-tricos locales, los cuales fueron propuestos por Cleveland, Grosse and Shyu(1991), como una extension de las tecnicas de regresion de una sola dimen-sion a la multi-dimensional, es decir, una extension a la regresion local quefue dada por Hastie and Tibshirani (1993)

mk = β1(νk)xk1 + β2(νk)xk2 + ... + βr(νk)xkr + ǫk (3.1)

Una ventaja mas de los coeficientes variables es que permiten que estosvarıen suavemente sobre el grupo estratificado a partir de la variable ν y, portanto, permiten la interaccion no lineal entre ν y X. La variable ν no necesa-riamente tiene que ser univariada, Fan, Yao and Cai (2003), propusieron unmodelo adaptativo de coeficientes variables en donde presentan un ejemplode una ν bivariada.

Los modelos con coeficientes variables asumen la siguiente estructura,

yk = β1(νk)xk1 + β2(νk)xk2 + ... + βr(νr)xkr + ǫk (3.2)

O bien

yk = xkβ(νk) + ǫk : ∀k ∈ U (3.3)

Page 41: Modelos con coeficientes variables en muestreo de ...

3.1 Regresion con coeficientes variables (RCV) 25

Donde U representa la poblacion, yk la variable de interes,xk = (xk1, xk2, ..., xkr) el vector de variables auxiliares (sus valores son conoci-dos para cada elemento de la poblacion) y β(νk) = (β1(νk), β2(νk), ..., βr(νk))

t

es el vector de las funciones suavizadas de νk , y ǫk el residual. Este residualabsorbe la parte de yk que no es explicada por el modelo. Los valores dexk y νk pueden provenir de censos o registros administrativos, en tanto quela funcion de la variable es la de capturar la relacion desconocida entre lavariable de interes y cada una de las variables auxiliares.

Las funciones β1(νk), β2(νk), ..., βr(νk) no se conocen por el momento perose puede obtener una aproximacion de ellas a traves de una serie de Taylorde orden q en una vecindad de ν0:

βj(ν) ≈ βj(ν0) + β(1)j (ν0)(ν − ν0) +

β(2)j (ν0)

2!(ν − ν0)

2 + ... +β

(q)j (ν0)

q!(ν − ν0)

q

(3.4)Para j = 1, 2, ..., r y ν en la vecindad de ν0.

Ahora si se tiene informacion de observaciones alrededor de ν0, las fun-ciones β1, β2, ..., βr se podrıan estimar por un estimador de β1, β2, ..., βr. Unaforma de estimar las funciones correspondientes es minimizando:

k∈U

{yk −

r∑

j=1

βj(νk)xkj

}2

Kh(νk − ν0) (3.5)

Donde βj se define en la ecuacion 3.4. Lo que muestra que para realizarestas estimaciones se utiliza la informacion de la poblacion.

Se considera la aproximacion de Taylor de primer orden, entonces la ex-presion 3.5 que se tiene que minimizar para estimar β1, β2, ..., βr esta dadapor:

k∈U

{yk −

r∑

j=1

[βj(ν0) + β

(1)j (ν0)(νk − ν0)

]xkj

}2

Kh(νk − ν0) (3.6)

Page 42: Modelos con coeficientes variables en muestreo de ...

26 Metodologıa Propuesta

Donde Kh(νk − ν0) = 1hg(

νk−ν0

h

)donde g es una funcion de densidad

simetrica alrededor de cero.

El papel de la funcion K en la expresion 3.5 es definir la vecindad de ν0

y medir la influencia de las observaciones alrededor de este en la estimacionde las βj.

La estimacion de los βj(ν0) es:

βj(ν0) = ej

{∑

k∈U

Kh(νk − ν0)xTk (ν0)xk(ν0)

}−1∑

k∈U

Kh(νk − ν0)xTk (ν0)yk

(3.7)

donde, xk(ν0) = (xk1, xk2, ..., xkr, xk1[vk − v0], xk2[vk − v0], ..., xkr[vk − v0])

y ej es un vector unitario de orden 2r con uno en la j − esima entrada.

Cuando se tiene informacion de una muestra,

βj(ν0)π = ej

{∑

l∈U

Kh(νl − ν0)xTl (ν0)xl(ν0)

Il

πl

}−1∑

k∈U

Kh(νk − ν0)xTk (ν0)yk

Ik

πk

(3.8)

3.2. Estimador del total y vıa RCV

A partir del modelo 3.3 se tiene

ty =∑

k∈U

xkβ(νk) +∑

k∈U

ǫk (3.9)

Una forma de estimar lo anterior es:

Page 43: Modelos con coeficientes variables en muestreo de ...

3.3 Algoritmo para la estimacion del total y su varianza 27

ty =∑

k∈U

xkβ(νk) +∑

k∈U

ǫk (3.10)

tyRCV =∑

k∈U

{β1(νk)xk1 + β2(νk)xk2 + ... + βr(νk)xkr}+

+

{∑

k∈U

(yk − xkβ(νk)π)Ik

πk

} (3.11)

Este ultimo estimador es el estimador de regresion con coeficien-tes variables del total.

Este, como el estimador de regresion localmente polinomial, se puede vercomo un estimador de diferencia generalizado Sarndal. Por tal motivo suvarianza se puede estimar por la expresion:

V ar(tyRCV ) =∑

k∈U

(1

πk

− 1

)(yk − xkβ(νk)

)2 Ik

πk

+

+∑∑

l 6=k

(1

πkπl

− 1

πkl

)(yk − xkβ(νk)

)(yl − xlβ(νl)

)IkIl

(3.12)

3.3. Algoritmo para la estimacion del total y

su varianza

Se tiene una muestra s ={k1, k2, ..., kn(s)

}y los valores de la variable de

interes en la muestra s.

Page 44: Modelos con coeficientes variables en muestreo de ...

28 Metodologıa Propuesta

y(s) =

yk1

yk2

...ykn(s)

(3.13)

La matriz de diseno para cada elemento j ∈ U

Xj(s) =

xk11 . . . xk1r xk11(νk1 − νj) . . . xk1r(νk1 − νj)

.... . .

......

. . ....

xkn(s)1 . . . xkn(s)r xkn(s)1(νk1n(s)) − νj) . . . xkn(s)r(νk1n(s)

− νj)

(3.14)y la matriz de ponderaciones para el elemento j ∈ U

j

(s) =

1πkl

hg(

νk1−νj

h

)0 · · · 0

0 1πk2

hg(

νk2−νj

h

)· · · 0

......

. . ....

0 0 · · · 1πkn(s)

hg(

νkn(s)−νj

h

)

(3.15)

3.3.1. Kernel utilizado

Las funciones de peso o “kernels” alcanzan su maximo a distancia cero ydecrecen conforme aumenta la distancia.

En este caso el “kernel” utilizado es el cuadratico o Epanechnikov:

g(t) =3

4(1 − t2)I{|t|≤1} (3.16)

Page 45: Modelos con coeficientes variables en muestreo de ...

3.3 Algoritmo para la estimacion del total y su varianza 29

−2 −1 0 1 2

0.0

0.4

0.8

x

kern

(x)

Figura 3.1: Kernel Epanechnicov

3.3.2. Determinacion del ancho de banda h (Bandwidth)

Una de las tareas importantes cuando se utilizan las funciones “Kernel”es el determinar el ancho de banda apropiado ”h” para obtener mejores es-timaciones, un mayor ancho de banda se podrıa ganar en la parte de lavarianza, pero se incrementa el sesgo, de igual forma un pequeno ancho debanda se ganarıa al disminuir el sesgo pero aumentarıa la varianza, entoncescomo seleccionar un ancho de banda optimo es de importancia, Wu et al.(1998), Hoover et al. (1998) propusieron el uso de validacion cruzada paraseleccionarlo.

En nuestro caso realizo de la manera siguiente, en un primer paso se de-termina el numero de particiones en el rango de ν:

pv =

[ln(N)

ln(2)

](3.17)

donde la funcion parte entera f : R → Z tal que f(x) = [x] = entero(x).

Una vez que se tiene el numero de particiones es necesario calcular loslımites de las pv particiones:

Page 46: Modelos con coeficientes variables en muestreo de ...

30 Metodologıa Propuesta

lpvj = νmin

(νmax

νmin

) j

pv

j = 0, 1, ..., pv (3.18)

para finalmente obtener el ancho de banda.

h = max {lpv1 − lpv0, · · · , lpvpv − lpvpv−1} (3.19)

3.3.3. Estimacion de los coeficientes para una muestra

La estimacion de cada uno de los coeficientes asociados a cada elementode la poblacion j ∈ U con la muestra s

βi(νj)π(s) = ei

[XT

j (s)∑

j

(s)Xj(s)

]−1

XTj (s)

j

(s)y(s) (3.20)

para i = 1, 2, ..., r

Finalmente la estimacion del total con la muestra s

tyRCV (s) =∑

k∈U

{β1(νk)(s)xk1 + β2(νk)(s)xk2 + · · · + βr(νk)(s)xkr

}

+

{∑

k∈s

(yk − xkβ(νk)π(s)

) 1

πk

} (3.21)

En el siguiente capıtulo se realiza una simulacion sobre una poblacionficticia y se lleva acabo una evaluacion de esta metodologıa.

Page 47: Modelos con coeficientes variables en muestreo de ...

Capıtulo 4

Simulacion

En este capıtulo se pretende desarrollar un ejemplo con una poblacionficticia con el objetivo de mostrar la implementacion y uso de regresion concoeficientes variables en muestreo.

4.1. Descripcion del procedimento a simular

Como ejemplo se propone una poblacion de tamano N = 1000 para lacual nos interesa estimar una caracterıstica de la poblacion Y , por otro ladose dispone de alguna informacion que conocemos de la poblacion objeto deestudio; V,X1, X2, X3 conocidas como variables auxiliares las cuales estanrelacionadas con la variable de interes. La variable V juega un papel impor-tante ya que en base a la relacion con el resto de las variables auxiliares, segeneran las funciones de coeficientes variables.

Se define una relacion poblacional entre las variables ficticias como:

Y = β1(v)X1 + β2(v)X2 + β3(v)X3 + ǫ (4.1)

donde

β1(v) = 3.7 β2(v) = 17.1v β3(v) = sen(v)

v ∼ u(0, 2π) X1 ∼ u(0, 20) X2 ∼ u(0, 1) X3 ∼ u(0, 10)

31

Page 48: Modelos con coeficientes variables en muestreo de ...

32 Simulacion

A partir de la poblacion ficticia se extrae una muestra s de tamanon = 100 bajo un diseno de muestreo aleatorio simple sin reemplazo, en lagraficas 4.1,4.2,4.3 se presenta la relacion entre la variable de interes Y ycada una de las variables auxiliares respectivamente.

0 5 10 15 20

050

100

150

X1

Y

PoblaciónMuestra

Figura 4.1: Relacion Y y X1

Page 49: Modelos con coeficientes variables en muestreo de ...

4.1 Descripcion del procedimento a simular 33

0.0 0.2 0.4 0.6 0.8 1.0

050

100

150

X2

Y

Población

Muestra

Figura 4.2: Relacion Y y X2

0 2 4 6 8 10

050

100

150

200

X3

Y

PoblaciónMuestra

Figura 4.3: Relacion Y y X3

Page 50: Modelos con coeficientes variables en muestreo de ...

34 Simulacion

Si se realiza la estimacion del total y a partir de la muestra, se presentala estimacion vıa Horvitz-Thompson con la expresion 2.6, ası como la esti-macion vıa regresion en la cual se utiliza la informacion auxiliar expresion2.19 y finalmente la estimacion vıa regresion con coeficientes variables 3.21tenemos lo siguiente:

Cuadro 4.1: Estimacion de la muestra

Estimacion Desviacion Est. Coef. de var.( %) Error rel.HT 61545.37 750.20 4.25 0.034

Regresion 61485.28 237.23 1.22 0.035RCV 63760.84 32.41 0.05 -0.0006

Para el caso de regresion se utilizaron todas las variables auxiliares en laestimacion (V ,X1,X2,X3), el valor poblacional para la variable de interes fuede 63719.67.

Como se observa en el cuadro 4.1 la estimacion de RCV es mejor que ladel estimador de regresion y a su vez que el estimador de Horvitz-Thompson,con un error relativo de estimacion por debajo del .01 % con respecto a un3.5 % de estimador HT y el de regresion ası como con un coeficiente de va-riacion menor.

Se ha visto que se logra una buena estimacion a traves del RCV, enton-ces, las estimaciones de los coeficientes variables estan captando las relacionesocultas entre las variable de interes y las auxiliares.

En particular para esta muestra se puede observar en el grafico 4.4 loscoeficientes variables de β1, estimados a partir de la muestra y se comparancon los valores poblacionales de los coeficientes β1.

Los coeficientes estimados β2 se indican en la figura 4.5 donde se observauna buena estimacion de los coeficientes apartir de la muestra como lo fuepara el β1.

Continuando con la revision de la estimacion de los coeficientes se pre-senta para β3 en la grafica 4.6 y se observa como apartir de la muestra se

Page 51: Modelos con coeficientes variables en muestreo de ...

4.1 Descripcion del procedimento a simular 35

0 1 2 3 4 5 6

2.5

3.0

3.5

4.0

4.5

5.0

B1=3.7v

v

B1

Poblacional

Estimado

Figura 4.4: Coeficientes variables β1

0 1 2 3 4 5 6

020

4060

8010

0

B2=17.1*v

v

B2

PoblacionalEstimado

Figura 4.5: Coeficientes variables β2

Page 52: Modelos con coeficientes variables en muestreo de ...

36 Simulacion

tiene una buena estimacion de los coeficientes de la funcion de β3.

0 1 2 3 4 5 6

−1.

5−

1.0

−0.

50.

00.

51.

01.

5B3=sin(v)

v

B3

Poblacional

Estimado

Figura 4.6: Coeficientes variables β3

Hasta el momento se ha mostrado como la metodologıa de RCV nos ayu-da a reconstruir coeficientes variables de una manera eficiente, al menos parala muestra analizada y las funciones propuestas las estimaciones generadasson aceptables.

Se simularon 1000 muestras de manera analoga a la analizada anterior-mente para observar el comportamiento de estos estimadores.

4.2. Evidencias encontradas en la simulacion

Al simular 1000 muestras en las mismas condiciones de la seccion anteriorcon el objetivo de evaluar la distribucion de las estimaciones para cada unode los estimadores analizados, se genero las estimaciones de la variable Y

Page 53: Modelos con coeficientes variables en muestreo de ...

4.2 Evidencias encontradas en la simulacion 37

ası como su correspondiente varianza y coeficientes de variacion.

En la figura 4.7 se muestra la poca variabilidad de las estimaciones delRCV al compararla con las estimacion de regresion y de Horvitz-Thompson.

Horvitz Thomsom

Fre

quen

cy

50000 55000 60000 65000 70000 75000 80000

050

150

250

Regresión

Fre

quen

cy

50000 55000 60000 65000 70000 75000 80000

050

150

Coeficientes Variables

Fre

quen

cy

50000 55000 60000 65000 70000 75000 80000

010

030

0

Figura 4.7: Histograma de las estimaciones de las 1000 muestras

Con lo anterior, se ha revisado la aplicacion de la metodologıa de RCVy ha resultado mejor, logrando estimar de manera eficiente los coeficientesde las funciones de regresion con una alta precision como lo indican las dis-tribuciones del coeficiente de variacion de la figura 4.8 . Para complementarla aplicacion de esta metodologıa, resta realizar la aplicacion a la informa-cion censal y evaluar su comportamiento de este estimador sobre algunasentidades de nuestro paıs.

Page 54: Modelos con coeficientes variables en muestreo de ...

38 Simulacion

C.V. Horvitz Thomsom

Fre

quen

cy

0.00 0.02 0.04 0.06 0.08

050

150

250

C.V. Regresión

Fre

quen

cy

0.00 0.02 0.04 0.06 0.08

050

150

C.V. Reg. con Coeficientes Variables

Fre

quen

cy

0.00 0.02 0.04 0.06 0.08

010

020

030

0

Figura 4.8: Coef. de variacion para las estimaciones de las 1000 muestras

Page 55: Modelos con coeficientes variables en muestreo de ...

Capıtulo 5

Aplicacion RCV a la muestracensal del 2000

En esta parte es necesario recordar y tener presente en terminos simplesque es lo que se busca al aplicar esta metodologıa, para este caso de estudiointeresa estimar el total de algunas variables a nivel municipal, por ejemplolos ingresos. Lo anterior, apartir de la muestra censal del Censo del 2000 ycon ayuda de algunas variables que se conocen para toda la poblacion cap-tadas en el mismo operativo censal, lo cual no es indispensable por que sepuede hacer uso de registros administrativos si se cuentan con ellos.

Para el analisis se consideraron municipios de tres entidades, Aguascalien-tes, Nuevo Leon y Yucatan, la variable analizada a estimar es ingresos portrabajo, sin embargo, antes de presentar el resto de las variables e identificarla forma en que se aplicarıa la metodologıa de RCV, es necesario presentaruna breve descripcion del diseno de la muestra censal, y aprovechar esta in-formacion del diseno en la estimacion vıa RCV.

5.1. Diseno de muestreo del censo del 2000

El documento metodologico del censo del 20001 presenta el objetivo delCenso 2000 que consistio en proporcionar informacion indispensable para elanalisis y la evaluacion de la composicion, distribucion y el crecimiento de

1http://www.inegi.org.mx/est/contenidos/espanol/metodologias/censos/sm censo.pdf

39

Page 56: Modelos con coeficientes variables en muestreo de ...

40 Aplicacion RCV a la muestra censal del 2000

la poblacion y las viviendas en Mexico. Existe un conjunto de variables basepara el Censo, por lo tanto, existen un sinnumero de variables que son deinteres para diferentes sectores de la poblacion, pero por diferentes cuestionesresulta imposible captar el valor del parametro para cada una de ellas, portal motivo, se seleccionaron aquellas variables estrategicas para el paıs y seopto por estimar estos indicadores a traves de una encuesta.

5.2. Descripcion de los datos de Aplicacion

La muestra censal tenıa por encomienda generar informacion estadısticapara la mayorıa de los indicadores a nivel municipal, ası como para cada unade las localidades de 50000 y mas habitantes, para lo cual se establecierondos unidades de analisis principales, los residentes y las viviendas. El disenofue estratificado y por conglomerados, en el marco de muestreo se tomo comobase la informacion generada por el Conteo de Poblacion y Vivienda 1995para la parte rural, y por la Enumeracion Integral 1998 tanto para la parteurbana como para las localidades rurales “amanzanadas”.

Con las viviendas identificadas, los conglomerados fueron generalmenteconstituidos por las manzanas, en el area urbana y localidades “amanzanadas”-de 2 000 a 2 499 habitantes. En el caso de algunas localidades con bajadensidad de poblacion, estos conglomerados se conformaron por un AGEBurbana completa y en el area rural los conglomerados pueden ser localidadeso AGEB rurales.

En relacion a la estratificacion, la division polıtica del paıs y la confor-macion de localidades diferenciadas por su tamano, ası como una primeraagrupacion de viviendas (AGEB) para control del levantamiento determina-ron de manera natural una estratificacion geografica.

En la distribucion de la muestra como paso inicial se distribuyeron -2’000,000 de viviendas proporcionalmente en las 32 entidades federativassegun la poblacion de cada una de ellas, posteriormente y de acuerdo altotal de municipios de cada entidad, al tamano de los mismos y al total delas localidades de 50,000 y mas habitantes, cabe senalar que la distribucionoriginal se ajusto.

Page 57: Modelos con coeficientes variables en muestreo de ...

5.2 Descripcion de los datos de Aplicacion 41

Una vez que se determino el tamano de muestra para cada entidad estevalor se distribuye proporcionalmente en todos los municipios de acuerdo altotal de la poblacion de cada uno de ellos.

Si algun municipio tiene menos de 2 500 habitantes entra completo a lamuestra, en este caso se marcaba con C (censo), en caso contrario se trans-cribıa una P (probabilıstico) y si en la afijacion proporcional el numero deviviendas en muestra que le corresponde a un municipio es menor a 700, en-tonces se le asigna 700 viviendas en muestra.

En los municipios con mas de 2 500 habitantes y cuya distribucion originalfue mayor a 700 viviendas se calcula nuevamente su proporcion con respectoal total de la poblacion de ellos mismos, posteriormente se distribuye el re-sultado de restarle a la distribucion de la entidad la muestra asignada a losmunicipios con 700 viviendas y a los municipios que entran completos.

Si despues de la segunda distribucion algun municipio tuviera menos de700 viviendas el procedimiento anterior se repetirıa hasta que todos los mu-nicipios tuvieran al menos 700 viviendas en muestra.

Una vez que cada municipio tiene asignado el total de viviendas en mues-tra, esta se distribuye en el area urbana y rural de forma proporcional altotal de la poblacion de cada area.

Posteriormente, de los cinco esquemas rurales que se tenıan ya seleccio-nados, se busco cual de ellos reportaba un tamano de muestra aproximadoal afijado, despues se evaluaba si el esquema podıa ser aplicado dado las ca-racterısticas de cada municipio.

Una vez que se seleccionaba el esquema idoneo para el area rural de cadamunicipio, se veıa cuantas viviendas habitadas habıan quedado en muestrapara restarselo al tamano de muestra municipal y este resultado es la distri-bucion final del area urbana.

Se considero que para las localidades era necesario al menos un ciertotamano muestra como lo presenta el cuadro 5.1

Page 58: Modelos con coeficientes variables en muestreo de ...

42 Aplicacion RCV a la muestra censal del 2000

Cuadro 5.1: Tamano de muestra mınimo por tamano de localidad

Poblacion en la localidad Tipo de Muestralocalidad Mınima (vivs.)

100,000 o mas habitantes 1 2 000De 50,000 a 99 999 habitantes 2 700De 20,000 a 49 999 habitantes 3 700De 15,000 a 19 999 habitantes 4 500De 2,500 a 14 999 habitantes 5 700

No obstante, que el numero mınimo de manzanas a seleccionar por AGEBse determino en dos, en algunos casos fue necesario reducir a una manzanapor AGEB, ya sea por la alta concentracion de viviendas por manzana o bienpor que el tamano de muestra inicial era muy pequeno y al seleccionar dosmanzanas se incrementaba en gran medida la muestra.

El procedimiento de seleccion aplicado en cada municipio es diferente deacuerdo con el tipo de area (urbana o rural).

Area urbana

En general todas las AGEB tienen muestra, solo en algunas localidadesurbanas con menos de 5 000 habitantes y baja densidad de poblacionesta regla no se cumple.

En este sentido, se tienen dos tipos de seleccion en el interior de laslocalidades urbanas:

a) Seleccion de manzanas en el interior de cada AGEB.

Se seleccionaron al menos dos manzanas en cada AGEB. La se-leccion se realizo con probabilidad igual mediante un muestreoaleatorio simple. Las AGEB con dos o menos manzanas, entran

Page 59: Modelos con coeficientes variables en muestreo de ...

5.2 Descripcion de los datos de Aplicacion 43

completas a la muestra. En los casos en donde la muestra no alcan-za el mınimo requerido en el municipio o localidad, se seleccionanmas manzanas por AGEB.

b) Seleccion de AGEB completas en el interior de la localidad.

En algunas localidades urbanas menores de 5 000 habitantes y conun promedio de viviendas por manzana inferior a 5, se opto por laseleccion de areas mas claramente definidas en campo, como lo sonlas AGEB, ya que en ocasiones la traza irregular o poco definidade las manzanas, impide identificar las areas seleccionadas.

La seleccion de AGEB se realizo con probabilidad igual medianteun muestreo aleatorio simple.

Area rural

Todas las localidades de 2 000 a 2 499 habitantes entran con certeza ala muestra. Si estas cuentan con amanzanamiento regular, entonces seles da tratamiento de localidad urbana, es decir, se seleccionaron en suinterior dos o mas manzanas; en cambio cuando no cuentan con plano,entran completas a la muestra.

En el resto del area rural (localidades menores de 2 000 habitantes), eltipo de seleccion depende de las caracterısticas de cada municipio, porlo que se instrumentaron tres esquemas de seleccion, que se presentana continuacion:

a) Seleccion de localidades por cada AGEB del municipio.

Esta seleccion se caracteriza, al igual que en el area urbana, poruna gran dispersion de la muestra, lo cual se traduce en una me-jora en las precisiones de los estimadores.

Se seleccionaron dos o mas localidades de cada AGEB dependi-endo del mınimo de viviendas requerido para el municipio). Laseleccion es aleatoria y con probabilidad igual.

Page 60: Modelos con coeficientes variables en muestreo de ...

44 Aplicacion RCV a la muestra censal del 2000

b) Seleccion de localidades en el interior del municipio.

Al tratarse de un muestreo por areas, se pierde el control sobre eltamano de muestra obtenido, este depende del numero de vivien-das de las areas seleccionadas.

Con el objeto de controlar y reducir el tamano de muestra cuandoeste sobrepasa con mucho al requerido, se aplico otra seleccionque consiste en estratificar las localidades rurales en el interior delmunicipio de acuerdo con el total de habitantes; en el interior decada estrato conformado se seleccionaron algunas localidades deacuerdo con el cuadro 5.2:

Cuadro 5.2: Numero de localidades a seleccionar

Estrato Rango (habitantes) No. a seleccionar1 Localidad con menos de 50 42 Localidad de 50 a 499 23 Localidad de 500 a 1,999 1

La seleccion en el interior de cada estrato se realizo con probabi-lidad igual y mediante muestreo sistematico.

c) Seleccion de AGEB (rurales) en el interior del municipio

La seleccion de AGEB rurales completas se aplica cuando el mu-nicipio tiene un gran numero de localidades rurales y el promediode viviendas por localidad es menor a 15. La seleccion se realizacon probabilidad igual y con muestreo aleatorio. En los tres es-quemas anteriores, las AGEB que tienen pocas viviendas entrancompletas a la muestra.

Para el uso de las bases de datos se debe recordar que se aplico una canti-dad de preguntas constantes (cuestionario basico) para todas la viviendas delpaıs y en el caso de la muestra censal, aparte de esas preguntas los hogares

Page 61: Modelos con coeficientes variables en muestreo de ...

5.3 Variables del cuestionario basico y ampliado 45

en muestra, respondieron algunas otras adicionales (cuestionario ampliado).

El diseno de muestreo fue por conglomerados, por lo cual, esta sera la ulti-ma unidad de analisis sobre la cual se aplicara la regresion con coeficientesvariables y se consideran las probabilidades de inclusion o bien los factoresde expansion generados apartir de diseno anteriormente descrito, los cualesse utilizaron en la estimacion de las variables que interesan.

En esta parte, es importante mencionar que la aplicacion se realizo sobrela muestra censal porque en el conteo del 2005 se tiene un numero pequenode variables.

La aplicacion de RCV al Censo se realizo a tres entidades del paıs, Aguas-calientes, Nuevo Leon y Yucatan, con las cuales se busco mostrar algunos delos diferentes escenarios que se pueden presentar en el territorio nacional.

5.3. Variables del cuestionario basico y am-

pliado

En el Censo se aplicaron dos cuestionarios, el Basico1 (corto) se aplicaa todos los residentes en las viviendas del paıs y el ampliado2 (largo), elcual contiene las mismas preguntas del basico mas algunas adicionales, esaplicado a los hogares que pertenecen a la muestra generada, cabe senalarque estos fueron entrevistados simultaneamente en el mismo operativo censal.

En un inicio fue necesario analizar el conjunto de variables adicionales queestaban presentes en el cuestionario ampliado del Censo del 2000, en relacional cuestionario Basico, estos se pueden observar en la tabla 5.3, una vez iden-tificadas las variables, se inicio el analisis con una variable para la cual si seconoce el valor del parametro y es de importancia en el ambito economico,total de ingresos por trabajo, se estimo a partir de la muestra censal ycon la metodologıa RCV, ası como con Regresion y se compararon los resul-tados.

1http://www.inegi.org.mx/est/contenidos/espanol/cuestionarios/censos/cgpyv2000basico.pdf2http://www.inegi.org.mx/est/contenidos/espanol/cuestionarios/censos/cgpyv2000amplio.pdf

Page 62: Modelos con coeficientes variables en muestreo de ...

46 Aplicacion RCV a la muestra censal del 2000

Cuadro 5.3: Variables cuestionario Basico y Ampliado censo 2000

Variables Cuestionario Variables CuestionarioBas. Amp. Bas. Amp.

I. CARAC. DE LA VIVIENDA1. Paredes x x 15. Causa de abandono escolar x2. Techos x x 16. Escolaridad x x3. Pisos x x 17. Antecedente escolar x x4. Cocina x x 18. Nombre de la carrera x x5. Numero de cuartos x x 19. Religion x x6. Disponibilidad de agua x x 20. Pertenencia etnica x7. Dotacion de agua x 21. Estado conyugal x x8. Servicio sanitario x x 22. Condicion de actividad x x9. Uso exclusivo x x 23. Verificacion de actividad x x10. Conexion de agua x x 24. Ocupacion u oficio x x11. Drenaje x x 25. Situacion en el trabajo x x12. Electricidad x x 26. Prestaciones laborales x13. Combustible x x 27. Horas trabajadas x x14. Tenencia x x 28. Ingresos por trabajo x x15. Antiguedad x 29. Actividad economica x x16. Bienes en la vivienda x x 30. Lugar de trabajo x17. Eliminacion de basura x 31. Otros ingresos x

32. Numero de hijos x xII. RESIDENTES Y HOGARES 33. Hijos fallecidos x x1. Numero de personas x x 34. Hijos sobrevivientes x x2. Gasto comun x x 35. Fecha de nacimiento x x3. Numero de hogares x x 36. Sobrevivencia x x

37. Edad al morir x xIII. CARAC. DE LAS PERS.

1. Parentesco x x IV. MIGRACION INTERNAC. x2. Sexo x x 1. Cond. de migracion internac. x3. Edad x x 2. Numero de personas x4. Lugar de nacimiento x x 3. Personas migrantes x5. Derechohabiencia x x 4. Lista de personas x6. Tipo de discapacidad x x 5. Condicion de residencia x7. Causa de la discapacidad x 6. Sexo x8. Uso de servicios de salud x 7. Edad x9. Entidad o paıs de res. en 1995 x x 8. Lugar de origen x10. Causa de la emigracion x 9. Fecha de emigracion x11. Municipio de res. en 1995 x x 10. Paıs de destino x12. Lengua indıgena x x 11. Paıs de residencia x13. Alfabetismo x x 12. Fecha de retorno x14. Asistencia x x

Page 63: Modelos con coeficientes variables en muestreo de ...

5.4 Seleccion de variables. 47

Nota: Las variables en negrita del cuadro 5.3, son items adicionales enel cuestionario Ampliado.

Las variables captadas en el censo del 2000 son pocas, debido al costoque implica el tener un mayor numero de ellas, en el caso del cuestionarioampliado solo se anexaron algunas preguntas extras en cada uno de los con-tenidos tematicos y uno adicional referente a Migracion internacional, en unprimer ejercicio se pretendio realizar una estimacion del total de ingresos apartir de la muestra censal.

Se realizo un analisis exploratorio con las variables presentes en el cuestio-nario Basico para ver cuales estan relacionadas con la estimacion del ingresopor trabajo. Es importante mencionar que la forma de analizar la informa-cion fue de manera agregada, es decir, respetando el diseno y la unidad demuestreo de la muestra censal ya que se seleccionaron manzanas, AGEBS olocalidades segun fuera el caso, de tal manera que la informacion se agregoa este nivel para todos los analisis realizados en el presente trabajo.

5.4. Seleccion de variables.

Uno de los principales retos fue definir de entre todas las variables cap-tadas en el cuestionario aquel conjunto de variables que sean las explicativasde la variable dependiente, al seleccionar variables con algun criterio se pue-de conseguir reducir la dimensionalidad de los datos y dejando solo aquellainformacion relevante para nuestro analisis. La seleccion de este conjunto devariables se puede hacer de varias formas, por ejemplo, con metodos secuen-ciales o determinısticos:

Metodo Backward: En el modelo teorico se inicia agregando todaslas variables disponibles y se comienza eliminando una a una del modelosegun su capacidad explicativa. En concreto, la primera variable quese elimina es aquella que presenta un menor coeficiente de correlacionparcial con la variable dependiente o lo que es equivalente, un menorvalor del estadıstico t- y ası sucesivamente hasta llegar a una situacionen la que la eliminacion de una variable mas suponga un descensodemasiado acusado en el coeficiente de determinacion.

Page 64: Modelos con coeficientes variables en muestreo de ...

48 Aplicacion RCV a la muestra censal del 2000

Metodo Forward: Se comienza por un modelo que no contiene nin-guna variable explicativa y se anade como primera de ellas a la quepresente un mayor coeficiente de correlacion -en valor absoluto- con lavariable dependiente. En los pasos sucesivos se va incorporando al mo-delo aquella variable que presenta un mayor coeficiente de correlacionparcial con la variable dependiente dadas las independientes ya inclui-das en el modelo. El procedimiento se detiene cuando el incrementoen el coeficiente de determinacion debido a la inclusion de una nuevavariable explicativa en el modelo ya no es importante.

Metodo Stepwise: Es uno de los mas empleados y consiste en unacombinacion de los dos anteriores, en el primer paso se procede comoen el metodo Forward pero a diferencia de este en el que cuando unavariable entra en el modelo ya no vuelve a salir, en el procedimientoStepwise es posible que la inclusion de una nueva variable haga queotra que ya estaba en el modelo resulte redundante y sea expulsada deel.

Otra alternativa de seleccion de variables puede ser metodos de optimi-zacion estocastica, dos de los mas utilizados son algoritmos geneticos y lastecnicas de recocido simulado (simulated annealing), cabe mencionar que esnecesario desarrollar metodos de seleccion de variables para RCV en el con-texto de poblaciones finitas.

Para la seleccion de variables se utilizo el procedimiento Stepwise paraseleccionar las variables regresoras, sin embargo, esta forma de seleccionarlas variables considera una relacion lineal entre la variable independiente conel resto de las variables, hasta el momento se han desarrollado varias pro-puestas del uso de regresion con coeficientes variables en diferentes camposde aplicacion, pero por el momento se ha trabajado muy poco en el proble-ma de la seleccion de variables para este tipo de modelos, es por ello que seopto por la seleccion del metodo Stepwise en el entendido de que no es lamejor manera de seleccionar el mejor subconjunto de variables para RCV,pero para efectos de la —evaluacion de la metodologıa ası se realizo.

Con la informacion generada a partir de las bases de datos de viviendasy pobladores, se analizaron las variables;

Total de hombres

Page 65: Modelos con coeficientes variables en muestreo de ...

5.4 Seleccion de variables. 49

Total de mujeres

Total de personas

Numero de jefes de hogar

El numero de personas que trabajan

El numero de personas que trabajan como empleados

El numero de personas que trabajan por cuenta propia

Numero de personas que trabajan como jornaleros

Numero de personas que trabajan como patrones

Personas afiliadas al IMSS

Personas afiliadas al ISSSTE

Personas con derecho medico en Pemex, Defensa o Marina

Personas sin servicio medico publico

El numero de personas que no usan el servicio medico publico

Numero de viviendas con computadora

Numero de viviendas con telefono

Numero de viviendas con auto propio

Numero de viviendas.

Con el objetivo de identificar la variable discriminante, ver seccion 3.1,ası como las variables regresoras para la aplicacion de RCV, seleccionandopara cada municipio aquellas que se consideren adecuadas para formar partedel modelo.

Se utilizo como variable discriminante la escolaridad promedio de los jefesdel hogar, calculado a partir del total anos de escolaridad de todos los jefesde hogar en la unidad de muestreo entre el numero de total de jefes de hogaren la misma unidad, la cual es una variable que esta relacionada con la de

Page 66: Modelos con coeficientes variables en muestreo de ...

50 Aplicacion RCV a la muestra censal del 2000

0 5 10 15 20

05

1015

Nuevo León

Años promedio de escolaridad

log(

Ingr

esos

Por

Tra

bajo

)

0 5 10 15 20

05

1015

Yucatán

Años promedio de escolaridad

log(

Ingr

esos

Por

Tra

bajo

)

0 5 10 15 20

05

1015

Aguascalientes

Años promedio de escolaridad

log(

Ingr

esos

Por

Tra

bajo

)

Figura 5.1: Relacion Ingresos por trabajo y promedio de escolaridad

ingresos por trabajo que nos interesa estimar con el resto de las variables.

En la figura 5.1 se observa una relacion similar entre ingresos por trabajoy escolaridad promedio para cada una de las entidades analizadas.

En el afan de realizar la evaluacion de la metodologıa de RCV se cal-cularon las estimaciones y su correspondiente precision estadıstica de losestimadores:

Horvitz-Thompson (Aplicado por el INEGI)

Regresion con coeficientes variables (Metodologıa propuesta)

Estimador de regresion (Un estimador que utiliza informacion auxiliar).

Con las estimaciones realizadas de cada uno de los estimadores a partirdel error relativo absoluto se efectuaron algunas compraciones, ademas deun indicador referente al error de estimacion como lo es el coeficiente devariacion.

Page 67: Modelos con coeficientes variables en muestreo de ...

5.5 Resultados de la Aplicacion 51

5.5. Resultados de la Aplicacion

Se realizaron las estimaciones para cada uno de los municipios de las tresEntidades Federativas del paıs, Aguascalientes para la cual se muestran re-sultados en la presente seccion, ademas de Nuevo Leon y Yucatan para loscuales en la parte de anexos se pueden observar sus principales resultados.

Para los once municipios que conforman el estado de Aguascalientes cua-dro 5.4 , se analizo de manera particular las variables a incluir en cada unode los modelos correspondientes a cada uno de los municipios. Al tener elsubconjunto de variables seleccionado 5.5 se observan coeficientes de deter-minacion bajos, lo que puede ser un indicativo de que las variables pueden noser las indicadas para la estimacion de los ingresos, sin embargo, es la unicainformacion disponible. El coeficiente de determinacion aquı presentado, pre-supone una relacion lineal entre las variables, esto podrıa explicar tambienlos valores bajos de dichos coeficientes, sugiere la necesidad de desarrollaruna medida de bondad de ajuste adecuada para RCV.

Cuadro 5.4: Municipios de Estado Aguascalientes, muestra en viviendas

Clave Municipio N n n/N1 AGUASCALIENTES 141763 10433 0.07

2 ASIENTOS 7346 690 0.09

3 CALVILLO 10620 1104 0.10

4 COSIO 2454 746 0.30

5 JESUS MARIA 12377 1064 0.09

6 PABELLON DE ARTEAGA 6691 664 0.10

7 RINCON DE ROMOS 7902 621 0.08

8 SAN JOSE DE GRACIA 1462 717 0.49

9 TEPEZALA 3165 678 0.21

10 EL LLANO 3008 795 0.26

11 SAN FRANCISCO DE LOS ROMO 3859 698 0.18

Total 200647 18210 0.09

En el cuadro 5.4 se presenta los municipios de Aguascalientes, con su co-rrespondiente proporcion de muestra seleccionada en terminos de viviendas,con la intencion de tener una idea del numero de viviendas que se trabajaronen la muestra y la fraccion de muestreo que resulto de la muestra.

Page 68: Modelos con coeficientes variables en muestreo de ...

52 Aplicacion RCV a la muestra censal del 2000

Cuadro 5.5: Primer grupo de variables seleccionadas, Estado de Ags.

Mun Variables Coef. DeDeter. (R2)

1 IMSS,TRABAJO, PATRON, CTA PROPIA, SIN PAGO, COMPU, TEL, AUTO, VIVS 0.435

2 IMSS, ISSSTE, SIN SEV, ESTUD, NO TRAB, EMPLEADO, JORNALERO, CTA PROPIA, VIVS 0.235

3 ISSSTE, TRABAJO, JUBILADO, SIN PAGO, AUTO, VIVS 0.300

4 IMSS, ISSSTE, SIN SEV, EMPLEADO, CTA PROPIA 0.332

5 ISSSTE, TRABAJO, JUBILADO, SIN PAGO, AUTO, VIVS 0.443

6 IMSS, ISSSTE, JORNALERO, PATRON, CTA PROPIA, TEL, VIVS 0.432

7 TRABAJO, EMPLEADO, JORNALERO, CTA PROPIA, SIN PAGO, VIVS 0.361

8 EMPLEADO, JORNALERO, PATRON, CTA PROPIA, VIVS 0.332

9 ISSSTE, EMPLEADO, JORNALERO, CTA PROPIA 0.284

10 IMSS, ISSSTE, EMPLEADO, CTA PROPIA, TEL 0.252

11 IMSS, EMPLEADO, JORNALERO, CTA PROPIA, SIN PAGO, COMPU, AUTO 0.366

Uno de los aspectos que hay que tener presente es considerar la identifi-cacion de los “outliers”, para ver como afectan en el procedimiento de RCV.En la grafica 5.2 se muestran los boxplot por municipio. En la del lado iz-quierdo de dicha grafica se observa como existen unidades de muestreo coningresos cercanos a los trece millones de pesos en comparacion al resto esto esvalor demasiado alto, en la figura del lado derecho se excluyeron algunos delos valores mas altos del municipio capital (Aguascalientes), para visualizarposibles outliers al interior de cada uno de los municipios donde se puedenapreciar algunos de ellos como por ejemplo en Rincon de Romos(7) en dondese presentan dos valores muy diferentes al resto del municipio. Por el mo-mento quedara pendiente esta parte de los puntos atıpicos y se trabajara contodos los datos ya que considero que en la practica siempre seguiran estandopresentes.

Las estimaciones realizadas tienen como datos fuente la informacion delcenso sin realizar ningun tipo de consideracion, ni depuracion de la informa-cion, con el objetivo de tener una aplicacion en un cien por ciento con losdatos reales.

Page 69: Modelos con coeficientes variables en muestreo de ...

5.5 Resultados de la Aplicacion 53

1 3 5 7 9 11

0.0e

+00

4.0e

+06

8.0e

+06

1.2e

+07

Municipios de Aguascalientes

Ingr

esos

por

trab

ajo

1 3 5 7 9 11

050

0000

1500

000

2500

000

Municipios de Aguascalientes

Ingr

esos

por

trab

ajo

Figura 5.2: Ingresos por trabajo, Estado de Aguascalientes

Cuadro 5.6: Estimaciones con h como en seccion 3.3.2, primer grupo de va-riables

MUN TOTAL Estimacion Est. Error Rel. Abs. Coef. De Variacion n/N hHT RCV Reg HT RCV Reg HT RCV Reg

1 938455981 787003275 800751995 798810926 0.1614 0.1467 0.1488 0.0446 0.0115 0.0439 0.0713 8.62 19628316 12796341 16754410 16493459 0.3481 0.1464 0.1597 0.1279 0.0251 0.0993 0.1059 10.73 24186052 23285777 23392846 25007182 0.0372 0.0328 0.0340 0.1348 0.034 0.1255 0.0959 12.94 6838484 5914776 6225616 6375931 0.1351 0.0896 0.0676 0.1269 0.0483 0.1177 0.2508 7.75 56593017 49250078 50122346 51431385 0.1297 0.1143 0.0912 0.1223 0.0256 0.1171 0.0811 9.06 28469518 28016407 29109001 26672247 0.0159 0.0225 0.0631 0.1083 0.0209 0.1137 0.1075 7.77 30968512 26938157 29485251 25762218 0.1301 0.0479 0.1681 0.1378 0.0253 0.1441 0.0867 8.08 3785085 3192827 3289829 3034578 0.1565 0.1308 0.1983 0.0638 0.0233 0.0671 0.4968 13.79 7289700 5201076 7501665 8297863 0.2865 0.0291 0.1383 0.0910 0.0196 0.0570 0.2686 9.0

10 6608283 6756563 6191831 6062258 0.0224 0.0630 0.0826 0.1498 0.0372 0.1669 0.1886 9.711 15739587 16469532 22861448 17088537 0.0464 0.4525 0.0857 0.3446 0.1059 0.3322 0.1614 9.4

Promedio 0.1336 0.1160 0.1125 0.1320 0.0342 0.1259 9.6608

Page 70: Modelos con coeficientes variables en muestreo de ...

54 Aplicacion RCV a la muestra censal del 2000

Cuadro 5.7: Descripcion de las estimaciones

MUN MunicipioTOTAL Valor del parametro (Ingresos por trabajo)HT Estimacion Horvitz-ThompsonRCV Estimacion Regresion con coeficientes variablesReg Estimacion por RegresionEstimacion Error Rel. Abs. abs(Total-Estimacion)/TotalCoef. De Variacion Desv. Estandar (Estimacion)/ Estimacionn/N Total de unidades en la muestra/ Total de unidades de muestreoh Ancho de banda seleccionado

En el cuadro 5.6 se puede observar las estimaciones en recuadros gri-ses que son las que menor error relativo absoluto tienen, por ejemplo hay 6municipios que se estimaron mejor con RCV, dos su estimacion es mejor vıaregresion y tres con HT, sin embargo, en algunos casos como lo es el municipiouno, las estimaciones son practicamente iguales estadısticamente hablando.En tanto que, en los municipios siete y ocho si se ve una diferencia mayor,mientras que en el municipio once el RCV se quedo con un error relativo alto.

Ver la descripcion de los encabezados de las columnas del cuadro 5.6 encuadro 5.7

La seleccion de variables se realizo con la funcion step implementada enla librerıa stats de R-projet. Por otro lado al analizar los resultados se consi-dero evaluar las variables seleccionadas para el municipio once y se trato deaplicar un metodo un poco mas robusto en la seleccion de variables aunquesigue considerando relaciones del tipo lineal, el cual involucra reemuestreo enla seleccion de las variables, con la funcion rfe implementada en la librerıacaret1, adicional se implemento la validacion cruzada para estimar el valorde h y ver que tanto se podıan mejorar las estimaciones.

Ası se presenta en el cuadro 5.8 las nuevas variables seleccionadas, lasvariables seleccionadas para los once municipios cambiaron, el caso mas no-torio es el del municipio once, ahora solo se consideraron las variables decompu, no trab las cuales fueron proporcionadas con el segundo metodo deseleccion y se utilizaron los h encontrados vıa validacion cruzada, la cual sellevo a cabo al dividir en 5 grupos a cada uno de los municipios y eliminar

1http://cran.r-project.org/web/packages/caret/vignettes/caretSelection.pdf

Page 71: Modelos con coeficientes variables en muestreo de ...

5.5 Resultados de la Aplicacion 55

uno grupo a la vez y obtener las correspondientes estimaciones apartir delos cuatro grupos restantes y de las muestras pertenecientes a cada uno deestos grupos, posteriormente para el grupo que se queda afuera se realiza lasuma de cuadrados en base a las estimaciones realizadas para el con los otroscuatro y los valores captados en la unidad de muestreo, todo esto para cadavalor de h, variando en el conjunto {0.5, 1, ..., 14.5, 15}.

Cuadro 5.8: Segundo grupo de Variables seleccionadas, Estado de Ags.

Mun Variables Coef. DeDeter. (R2)

1 COMPU,JUBILADO,TRABAJO,CTA PROPIA,SIN PAGO,ESTUD,EMPLEADO,IMSS,ISSSTE,PATRON,AUTO 0.4346

2 EMPLEADO,JORNALERO,CTA PROPIA 0.2031

3 COMPU,ISSSTE,EMPLEADO,JORNALERO,CTA PROPIA,AUTO,SIN PAGO,TEL,VIVS 0.2913

4 AUTO 0.2200

5 COMPU,NO TRAB,AUTO,TEL,SIN PAGO,VIVS,PATRON,ESTUD,ISSSTE,CTA PROPIA,TRABAJO,EMPLEADO 0.4368

6 COMPU,TEL,AUTO,ISSSTE,EMPLEADO 0.4074

7 TRABAJO 0.3575

8 TRABAJO,CTA PROPIA,ISSSTE,JORNALERO 0.3130

9 SIN PAGO,EMPLEADO,CTA PROPIA,ISSSTE,TRABAJO,JORNALERO 0.2810

10 ISSSTE,EMPLEADO,TRABAJO,JORNALERO,SIN PAGO,SIN SEV,NO TRAB,VIVS,AUTO,TEL,ESTUD,CTA PROPIA,IMSS 0.2415

11 COMPU,NO TRAB 0.1756

Al observar los coeficientes de determinacion que aparecen en el cuadro5.8 se aprecia que son muy parecidos a los del primer grupo de variables, sinembargo, para la estimacion vıa el estimador de RCV esto no es tan impor-tante, con este nuevo conjunto de variables y con las h de validacion cruzadaobtenida para estas variables, en donde el tiempo de estimacion en este casose incrementa notablemente ya que se tomo aproximadamente dos horas pa-ra la definicion de los valores de h para los once municipios, ademas de quepara algunos fue necesario realizar una inspeccion visual para determinar el h.

El segundo grupo de variables parece mejorar un poco la estimacion deRCV, cuadro 5.9, a tal grado que en ninguno de los municipios resulto mejorla estimacion de HT, y solo en tres de ellos fue mejor el estimador de regre-sion, aunado a ello se observa como los coeficientes de variacion para el casodel RCV son mas pequenos en promedio (0.03) que HT y el estimador de

Page 72: Modelos con coeficientes variables en muestreo de ...

56 Aplicacion RCV a la muestra censal del 2000

Cuadro 5.9: Est. con h vıa validacion cruzada y segundo grupo de var.

MUN TOTAL Estimacion Est. Error Rel. Abs. Coef. De Variacion n/N hHT RCV Reg HT RCV Reg HT RCV Reg

1 938455981 787003275 794506026 791480788 0.1614 0.1534 0.1566 0.0446 0.0111 0.0443 0.0713 6.02 19628316 12796341 17022129 16360786 0.3481 0.1328 0.1665 0.1279 0.0276 0.1001 0.1059 4.53 24186052 23285777 23053825 24947623 0.0372 0.0468 0.0315 0.1348 0.0293 0.1258 0.0959 14.54 6838484 5914776 5845725 6908607 0.1351 0.1452 0.0103 0.1269 0.0786 0.1086 0.2508 2.05 56593017 49250078 45508152 53111315 0.1297 0.1959 0.0615 0.1223 0.0271 0.1134 0.0811 12.56 28469518 28016407 28801321 27532932 0.0159 0.0117 0.0329 0.1083 0.0271 0.1102 0.1075 9.57 30968512 26938157 28030539 24181907 0.1301 0.0949 0.2191 0.1378 0.0441 0.1535 0.0867 11.08 3785085 3192827 3203963 3042463 0.1565 0.1535 0.1962 0.0638 0.0224 0.0669 0.4968 5.59 7289700 5201076 7769381 8051929 0.2865 0.0658 0.1046 0.091 0.0182 0.0588 0.2686 13.5

10 6608283 6756563 6602905 6865828 0.0224 0.0008 0.039 0.1498 0.0233 0.1474 0.1886 8.511 15739587 16469532 15383705 13213478 0.0464 0.0226 0.1605 0.3446 0.1347 0.4296 0.1614 1.0

Promedio 0.13357 0.09304 0.10715 0.13198 0.04032 0.13260 8.0

regresion alrededor del 0.13.

En el ejercicio anterior se modifico la forma de definir el ancho de bandavıa validacion cruzada y se utilizo el segundo grupo de variables, se reali-zara un tercer ejercicio solo que ahora se tomaran las variables del segundogrupo y se utilizaran los valores de los h generados para las estimaciones delcuadro 5.6 las cuales se habıan generado con el procedimiento de la seccion3.3.2.

Cuadro 5.10: Est. con h como en 3.3.2 y segundo grupo de variables.

MUN TOTAL Estimacion Est. Error Rel. Abs. Coef. De Variacion n/N hHT RCV Reg HT RCV Reg HT RCV Reg

1 938455981 787003275 796027494 791480788 0.1614 0.1518 0.1566 0.0446 0.0114 0.0443 0.0713 8.62 19628316 12796341 16661076 16360786 0.3481 0.1512 0.1665 0.1279 0.0303 0.1001 0.1059 10.73 24186052 23285777 23071570 24947623 0.0372 0.0461 0.0315 0.1348 0.0292 0.1258 0.0959 12.94 6838484 5914776 5884473 6908607 0.1351 0.1395 0.0103 0.1269 0.0863 0.1086 0.2508 7.75 56593017 49250078 47369166 53111315 0.1297 0.163 0.0615 0.1223 0.0252 0.1134 0.0811 96 28469518 28016407 28571107 27532932 0.0159 0.0036 0.0329 0.1083 0.0279 0.1102 0.1075 7.77 30968512 26938157 28216835 24181907 0.1301 0.0889 0.2191 0.1378 0.0424 0.1535 0.0867 88 3785085 3192827 3181952 3042463 0.1565 0.1593 0.1962 0.0638 0.0235 0.0669 0.4968 13.79 7289700 5201076 7792569 8051929 0.2865 0.069 0.1046 0.091 0.0176 0.0588 0.2686 9

10 6608283 6756563 6430312 6865828 0.0224 0.0269 0.039 0.1498 0.0241 0.1474 0.1886 9.711 15739587 16469532 16061795 13213478 0.0464 0.0205 0.1605 0.3446 0.1871 0.4296 0.1614 9.4

Promedio 0.1336 0.0927 0.1072 0.1320 0.0459 0.1326 9.6727

Al analizar los resultados del cuadro 5.10 en comparacion al cuadro 5.9

Page 73: Modelos con coeficientes variables en muestreo de ...

5.5 Resultados de la Aplicacion 57

no existe mucha diferencia, salvo en el municipio 10 de El Llano, donde sidisminuyo la precision de estimacion en comparacion a la proporcionada conel h de la validacion cruzada, sin embargo, la mejora es muy pequena encomparacion al tiempo de proceso de estimacion ya que calcular las h me-diante validacion cruzada requiere de la inversion de tiempo de proceso yde un analisis particular para cada municipio lo cual dificultarıa su imple-mentacion sı se quiere automatizar el proceso de estimacion para todos losmunicipios del Paıs.

En el anexo se presentan los principales resultados similares a los ex-puestos para Aguascalientes, para el caso de Nuevo Leon que cuenta con 51municipios ası como para Yucatan con 106 municipios.

Por otro lado, en el grafico 5.3 del municipio de Pabellon de Arteaga (6)observemos las relaciones que existen entre el subconjunto de variables re-gresoras y la variable discriminante con la variable de Ingresos por trabajodel segundo grupo de variables.

Las graficas 5.4 correspondientes a los valores ascendentes del nivel deescolaridad promedio se leen de izquierda a derecha y de abajo hacia arriba.

En estas graficas de 5.4 se puede observar las matrices de diagramas dedispersion en la que se muestra la relacion entre las variables regresoras con-tra los ingresos por trabajo acumulados a nivel unidad de muestreo, dondepara cada variable se presentan su comportamieto para los diferentes nivelesde la escolaridad promedio de los jefes del hogar. Con la graficacion de talesdiagramas se pretende mostrar que dependiendo del nivel de escolaridad delos jefes del hogar, la relacion de los ingresos por trabajo con el resto de lasvariables auxiliares cambia conforme a dicho nivel.

Es por eso que se opto por usar la variable de escolaridad promedio comovariable discriminante.

Un extra que nos proporciona esta metodologıa de RCV es que se puedemostrar como influyen cada una de las variables auxiliares en el total de in-gresos por trabajo.

En el municipio de Pabellon de Arteaga que se ha estado analizando,

Page 74: Modelos con coeficientes variables en muestreo de ...

58 Aplicacion RCV a la muestra censal del 2000

||| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| || ||||||| ||||||||| |||||||||||||||| |||||||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| |||| | ||| |||| || |||||| ||| ||||||| || ||| | ||||| | ||| ||||||| |||||||| |||||||||| || |||| | || ||||| || | | || | ||| || ||| |||| | |||| | |||| ||| ||||| || |||||| | |||| | || ||| |||||| | || |||| | || |||| || || | | | ||| |||| ||| || ||| ||| |||||| | ||| |||| |||| ||| || || ||| ||||| |||| || |||| |||| | ||| |||||||| |||||||||||||| | ||| || |||||||| ||||||||||||| |||||||||||

ISSSTE

0 5 10 0e+00 8e+05 0 20 40

040

80

05

10

||||||||| ||| ||| ||| || |||| ||| ||| ||| ||| ||| | || ||| ||| | ||| ||| ||| || ||| || ||| ||| | |||| |||||| | ||| ||| |||| || || || |||||| | ||| | ||| | ||| ||||| |||| ||| | || | || |||| ||| ||| | |||| || || || || ||| |||| | || | || || || || | ||| |||| || | | | || || | ||| ||| | || | || || |||| | | | | ||| | | ||| || | |||||| || || | ||||| ||| | || ||||||| | | |||||| || ||| || |||||||| || ||| ||||| || ||||||| || ||| ||||| | || |||||| ||| ||| ||||||| || ||| | || || ||||||| ||| || ||||||| |||||| ||| || | |||||| || | ||| | || |||||| ||| || ||||| |||||| || || ||| || ||| ||| || |||| || || || || ||||| ||| || ||| ||||| || || || || |||||| ||| || |||||| | |||| ||| ||| || |||||| | |||| | |||||| | ||| ||||||||| |||||||| || ||||| ||| |||| | | || ||||| | | |||| || ||| |||| ||||||||| ||||||

AEDU_PRO

| || ||||||| ||||| |||||| || | ||||||||||||||||| |||||| |||||| |||||||| |||| || |||||| |||| || |||| |||||||||||||||| |||||||||||| ||| |||||| ||||||||||||||||||||||||||||||||| || ||||||| |||||||||||||||||||||||||||||||| |||||||||||||||||||||||||||||||||||||||||||||||| ||||| || | || || ||||||||||||||||||| || | |||||||||||||| ||| | | ||||| || || || | || ||| ||| |||| | ||||| |||||| |||| | || || || ||| |||| | || | || ||||| |||| ||| ||| ||| | || |||| | ||| ||||| | ||| | |||||| || ||| | |||| |||| ||||| | |||| ||| || | |||||| | ||| || | ||| |||| |||| | || ||| |||| | ||| | || ||| || ||| ||| ||||||| |||||| | |||| || | || || | |||| || |||| ||| || | || |||| ||| || |||| ||||||||| | ||| |||||| | ||| | ||| || |||| || ||| | ||||| |||

EMPLEADO

030

60

0e+

008e

+05

|||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| ||| |||||||||||||| |||| |||||| || ||||| |||||||||||||||||| |||||| ||||||||||| |||||||||||||||||| ||||||| ||| ||| ||||||||||| |||||||||||||||||| |||||||| |||| ||||| ||||| ||| ||| ||||||||||||| ||||||| |||| |||||||||| ||||||| ||||||||||| |||| |||||||||||||||||||||| |||| || |||| |||||| || |||||||||||||||||||||| |||| ||||||| |||||||||||||||||||||||| |||

INGRESOS

|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| |||||||||||||||||||| || ||||| |||| ||||||||||||||||||||| |||||||||||||| ||||||||||| |||||||||| || |||| |||||||| |||||||||| | ||||||||| | ||| |||| |||| ||||| || |||||| ||||| |||||| |||||| |||||| | ||| |||| || |||||| || |||| |||||||||| ||||||| |||||||| |||||||||| ||||||||||||| || |||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||

COMPU

05

15

020

40

||||||||| | ||||| | |||||||| ||||||||||||||||| |||||||||||||||||||||||||||||||| |||||| ||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| |||||||||| |||||||||||||||||||||||||| ||| |||||||||||||| ||| | |||||| || || |||||||||||||||| || || | |||||| | ||||||| ||| || ||||| | || |||||||| ||||||| ||| ||| |||| | ||| ||| |||||| |||| |||||| |||||| |||| ||| |||||| | |||| |||||| || |||| ||||||| | |||| || |||| |||||| |||| |||| |||||| ||||||| | ||| ||| | ||| |||||||||| ||| ||| |||| || |||| ||| |||||||| |||| ||||||||||||||| |||| || |||||||| |||||||||||| ||||||||||||

TEL

0 40 80 0 30 60 0 5 15 0 20 40

020

40

||||||| || | ||||| | |||||||||||||||| ||||||| || ||||||| |||||||||||||| ||| |||||||| |||| |||||| |||||||||||||||| ||||||||||||||| ||||| | ||||||||||||||||||||||||||||||||| || ||||| |||||||||||||||||||||||||||||||||| |||||||||||||||||||||||||||||||||||||||| ||| ||| ||||||| ||| ||||||||||||||||||||||| ||| |||||||||||||| | |||| ||||| || || ||| ||| || |||||||| || || | |||||| |||| ||| |||| || |||| || |||||||||| ||||||| | ||||| ||||| ||| ||| | ||||| ||| | |||| | | |||||| | ||| | ||| ||||| ||||| || | ||| || |||| | ||| || | ||||| || || || | || ||| |||| |||||||||||||||||| |||| || | ||||| ||| ||||| || |||| |||| || |||| ||||| ||||| | || || ||||||| |||||||| | ||| || ||||| ||| || || || |||||||||| ||||| |||

AUTO

Figura 5.3: Scatterplot, variables en el modelo Pabellon de Arteaga, Ags.

Page 75: Modelos con coeficientes variables en muestreo de ...

5.5 Resultados de la Aplicacion 590e

+00

4e+

058e

+05

0 20 40 60 80 100

0 20 40 60 80 100 0 20 40 60 80 100

0e+

004e

+05

8e+

05

Número de personas afiliadas al ISSSTE

Ingr

esos

0 5 10 15

Given : ESCOLARIDAD

0e+

004e

+05

8e+

05

0 10 20 30 40 50 60 70

0 10 20 30 40 50 60 70 0 10 20 30 40 50 60 70

0e+

004e

+05

8e+

05

Número de personas Empleados

Ingr

esos

0 5 10 15

Given : ESCOLARIDAD

0e+

004e

+05

8e+

05

0 5 10 15 20

0 5 10 15 20 0 5 10 15 20

0e+

004e

+05

8e+

05

Número de viviendas con computadoras

Ingr

esos

0 5 10 15

Given : ESCOLARIDAD

0e+

004e

+05

8e+

05

0 10 20 30 40

0 10 20 30 40 0 10 20 30 40

0e+

004e

+05

8e+

05

Numero de viviendas con Teléfono

Ingr

esos

0 5 10 15

Given : ESCOLARIDAD

0e+

004e

+05

8e+

05

0 10 20 30 40

0 10 20 30 40 0 10 20 30 40

0e+

004e

+05

8e+

05

Número de viviendas con automóvil

Ingr

esos

0 5 10 15

Given : ESCOLARIDAD

Figura 5.4: Rel. de Vars. con la discriminante e independiente, Mun. 6.

Page 76: Modelos con coeficientes variables en muestreo de ...

60 Aplicacion RCV a la muestra censal del 2000

donde las variables regresoras fueron compu, tel, auto, issste, empleado, seencuentra por ejemplo que si observamos las graficas de los β′s estimadosfiguras 5.5 y 5.6, por ejemplo para un numero fijo de personas que trabajancomo empleados, la cual corresponde a β6 a mayor nivel de estudios promediode los jefes del hogar se obtienen menores ingresos por trabajo.

Analogamente como se analizo la funcion de coeficientes variables parael caso de las variables de empleados, se puede hacer para el resto de loscoeficientes e identificar los tipos de relaciones entre ellas, estas pueden serde interes para estudios posteriores en diferentes disciplinas y tematicas.

0 5 10 15

010

0000

2500

00

Escolaridad Promedio

Bet

a 1

(’Con

stan

te’)

0 5 10 15

−1e

+05

0e+

001e

+05

Escolaridad Promedio

Bet

a 2

(CO

MP

U)

0 5 10 15

010

0000

2000

00

Escolaridad Promedio

Bet

a 3

(TE

L)

0 5 10 15−15

0000

−50

000

Escolaridad Promedio

Bet

a 4

(AU

TO)

Figura 5.5: Coeficientes de regresion, β1, β2, β3, β4, municipio 6 de Ags.

Page 77: Modelos con coeficientes variables en muestreo de ...

5.5 Resultados de la Aplicacion 61

0 5 10 15

010

000

2000

0

Escolaridad Promedio

Bet

a 5

(IS

SS

TE

)

0 5 10 15−15

000

−50

0050

00

Escolaridad PromedioB

eta

6 (E

MP

LEA

DO

)

Figura 5.6: Coeficientes de regresion, β5, β6, municipio 6 de Ags.

Las lıneas punteadas que aparecen en las figuras 5.5 y 5.6 correspon-den a los valores de las β′s del estimador de regresion, cuyos valores fueron:β1 = 2827, β2 = 2070, β3 = 3047, β4 = 706.9795, β5 = 77, β6 = 2442. Conello, se logra observar la diferencia al menos en terminos de los coeficientesentre RCV y los coeficiente que se utilizan en el estimador de regresion.

Es necesario resaltar el hecho de que la seleccion de variables dependera decada municipio en particular, ası como las relaciones entre ellas, como se pu-do ver al menos con el metodo de seleccion de variables que se utilizo, paracada municipio las variables fueron diferentes y mas aun si fuera el caso dehaber seleccionado las mismas variables para diferentes municipios, es claroque las relaciones entre estas, no tienen por que ser iguales.

Page 78: Modelos con coeficientes variables en muestreo de ...

62 Aplicacion RCV a la muestra censal del 2000

Page 79: Modelos con coeficientes variables en muestreo de ...

Capıtulo 6

Conclusiones yRecomendaciones

Una vez realizado el proceso de investigacion y conformado cada uno delos apartados del presente documento, se logro llegar a las siguientes conclu-siones:

La comparacion entre metodos de estimacion en muestreo se debe de rea-lizar con todo el conjunto de posibles muestras producidas por el diseno demuestreo y ante una variedad de poblaciones. Las comparaciones realizadasfueron sobre una sola muestra, la del censo del 2000, por tal motivo las com-paraciones y comentarios deben de tomarse con las reservas del caso.

Es preciso senalar que, en el ejercicio de simulacion, si bien no es todo elconjunto de muestras posibles es un buen numero de ellas, observandose comola estimacion de RCV resulto mejor que el estimador de Horvitz-Thompsony que el estimador de Regresion.

De igual manera, en el ejercicio realizado con la informacion censal altratar de estimar los ingresos por trabajo, a partir de la muestra censal nosproporciona evidencia de aplicabilidad, los resultados obtenidos en el ejerci-cio de la muestra censal presentan una mejora en precision, en relacion a losotros dos estimadores, medido atraves del error relativo.

Es recomendable proponer una medida de bondad de ajuste del modeloestimado. Por la naturaleza del estimador se podrıa proponer dicha medida

63

Page 80: Modelos con coeficientes variables en muestreo de ...

64 Conclusiones y Recomendaciones

para la estimacion local como para la estimacion del modelo en su conjunto.Con dicha medida de bondad de ajuste se podrıa tener una alternativa paradeterminar el ancho de banda. Ademas, se podrıa seleccionar un conjunto devariables que expliquen adecuadamente a la variable de interes.

En este trabajo se propone estimar la varianza del estimador por RCVcomo si este fuera un estimador por diferencias. Es necesario investigar otrosmetodos de estimacion de varianza.

Si bien, el objetivo principal es estimar el total poblacional, podrıa serde interes tambien investigar si una variable auxiliar esta relacionada con laprincipal. En este mismo sentido podrıa tambien ser de interes probar si larelacion entre las variables es de alguna forma conocida, digamos lineal.

Una de las ventajas de este modelo de coeficientes variables es que pro-porciona una forma simple de identificar las relaciones existentes entre lasvariables, presentandose naturalmente cuando uno esta interesado en explo-rar el comportamiento de los coeficientes de la regresion en diversos gruposde la poblacion.

Existen varios aspectos que se pueden analizar para potenciar estas es-timaciones de RCV, en la aplicacion se utilizaron el conjunto de variablesrecolectadas en el censo y se selecciono un subconjunto de ellas, con procedi-mientos que consideran relaciones de tipo lineal para realizar las estimaciones,sin embargo, para mejorar se debe disenar un criterio de seleccion adecuadosen el caso de regresion no parametrica como pueden ser algoritmos geneticoso recocido simulado, para el caso de RCV en el contexto de muestreo depoblaciones finitas.

En el mismo contexto de las variables sera importante en la medida de loposible, anexar algunos item al cuestionario censal que puedan servir de in-formacion auxiliar, explicativa, para variables de interes de la encuesta censalo bien de encuestas posteriores.

Otro aspecto que se habra de considerar, es la determinacion del anchode banda en base a la variable discriminante, por lo que se propone, un pro-cedimiento directo para su calculo y uno alterno como validacion cruzada, almenos en el ejercicio realizado no se identifico gran diferencia en los resulta-

Page 81: Modelos con coeficientes variables en muestreo de ...

65

dos obtenidos con cualquiera de ellos, sin embargo la balanza se inclina porvalidacion cruzada ya que le afecta menos los valores extremos que puedapresentar la variable, no obstante, el proceso de estimar el ancho de bandavıa validacion cruzada es muy tardado y en ocasiones es necesario realizaruna inspeccion visual para determinar el h, lo que en terminos practicos alestimar una gran cantidad de municipios serıa una desventaja.

Una recomendacion adicional, podrıamos preguntarnos por el diseno demuestreo optimo para estimar el total poblacional con la metodologıa aquı -descrita o para tener un ajuste adecuado del modelo.

Finalmente, se espera que este trabajo sirva al INEGI como una posi-ble alternativa para producir informacion con una mejor cobertura tematica,con una mayor capacidad para el estudio de relaciones entre temas y mayordesagregacion geografica, con vistas al proximo Censo del 2010 en Mexico yposteriores estudios basados en encuestas por muestreo.

Page 82: Modelos con coeficientes variables en muestreo de ...

66 Conclusiones y Recomendaciones

Page 83: Modelos con coeficientes variables en muestreo de ...

Anexos

En el cuadro 1 se presenta los municipios del estado de Nuevo Leon, consu correspondiente fraccion de muestreo, se identifican algunos de ellos quefueron censados completamente, aplicando en estos casos el cuestionario am-pliado a todas las viviendas de estos municipios, los cuales se excluyen delanalisis ya que no tiene sentido incluirlos.

Al igual que para el estado de Aguascalientes, se observan datos extre-mos en varios de los municipios de Nuevo Leon, como se aprecia en la figura 1.

Se presentan las estimaciones de Nuevo Leon, cuadro 2, donde el tiempode proceso solo para la estimacion de las h’s mediante validacion cruzada fuede 11 horas con 54 minutos. Esto nos proporciona una idea del tiempo quetoma estimar h de esta manera, para el caso de Aguascalientes el tiempo fuede 2 horas 38 minutos, solo para tener un parametro de comparacion.

En el cuadro 2 se tienen resultados muy parecidos entre el estimador deregresion y el estimador RCV, recordemos que la forma en que se seleccionanlas variables favorece al estimador de regresion, a pesar de ello se obtienenbuenos resultados con RCV. Los renglones que aparecen en blanco son losmunicipios en donde no existio muestra censal porque se aplico el cuestiona-rio ampliado a todas la viviendas de estos municipios, ademas se sombreanaquellas estimaciones con menor error relativo absoluto para facilitar el anali-sis comparativo.

Las variables utilizadas en las estimaciones para el estado de Nuevo Leon,se pueden consultar en el cuadro 3 en donde se observa que para varios muni-cipios, el procedimiento de seleccion de variables escogio cuando mucho tresvariables, lo que es un indicativo de que el conjunto de variables inicial de

67

Page 84: Modelos con coeficientes variables en muestreo de ...

68 Anexos

donde se seleccionan no es muy bueno ya que termina por eliminar un grannumero de ellas.

Se presentan tambien un analisis para el estado de Yucatan donde en elcuadro 4, se encuentran los municipios que lo conforman con su correspon-diente fraccion de muestreo.

En figura 2 se observan datos extremos en varios de los municipios deYucatan, en particular en el municipio 101 de Uman, lo que proporciona unadelanto de que en particular para este municipio, los errores de estimacionseran altos, de igual manera que para aquellos que presentes condiciones si-milares.

Los resultados para los municipios de Yucatan se presentan en los cuadros5 y 6, se dividio en dos partes solo por la gran cantidad de municipios quelo conforman. De nuevo aparecen algunos renglones en blanco como el muni-cipio 71 de Sudzal, ya no hubo muestra en realidad se aplico el cuestionarioampliado a todas las viviendas.

En promedio de los 106 municipio (final del cuadro 6) de Yucatan fueligeramente mejor el estimador de HT, el estimador de RCV y el de regre-sion resultaron iguales y el tiempo de estimacion fue de las h’s de validacioncruzada fue de 9 hrs.

En particular para varios de los municipios de este estado el haber utili-zado la variable discriminante de escolaridad promedio de los jefes del hogar,quiza no fue una buena eleccion, por el comportamiento de esta variable, loque reitera la importancia de analizar de manera independiente por entidadel comportamiento de las variables. Por ejemplo en el caso de las entidadesde Aguascalientes y Nuevo Leon, el promedio de ancho de banda fue un pocomayor a 9 y para Yucatan fue de 6.08 es mucho menor, es preciso recordarque este valor depende de la variable discriminante y en particular para lavariable de escolaridad promedio entre menor sea su valor, tendra menor ca-pacidad de discriminar.

En los cuadros 7 y 8 se deja el registro de las variables utilizadas en laestimacion de los municipios de Yucatan.

Page 85: Modelos con coeficientes variables en muestreo de ...

69

Cuadro 1: Municipios del Estado de Nuevo Leon, muestra en viviendas

Clave Municipio N n n/N Clave Municipio N n n/N1 ABASOLO 609 609 1 27 LOS HERRERAS 862 697 0.81

2 AGUALEGUAS 1332 430 0.32 28 HIGUERAS 375 365 0.97

3 LOS ALDAMAS 761 761 1 29 HUALAHUISES 1723 651 0.38

4 ALLENDE 7402 706 0.10 30 ITURBIDE 859 521 0.61

5 ANAHUAC 4764 627 0.13 31 JUAREZ 15492 1421 0.09

6 APODACA 65000 4879 0.08 32 LAMPAZOS DE NARANJO 1394 448 0.32

7 ARAMBERRI 3488 714 0.20 33 LINARES 16619 1584 0.10

8 BUSTAMANTE 948 502 0.53 34 MARIN 1189 724 0.61

9 CADEREYTA JIMENEZ 18917 1286 0.07 35 MELCHOR OCAMPO 367 358 0.98

10 CARMEN 1624 509 0.31 36 MIER Y NORIEGA 1474 809 0.55

11 CERRALVO 2700 753 0.28 37 MINA 1237 620 0.50

12 CIENEGA DE FLORES 2671 734 0.27 38 MONTEMORELOS 13644 1026 0.08

13 CHINA 3163 592 0.19 39 MONTERREY 256039 17621 0.07

14 DOCTOR ARROYO 7480 685 0.09 40 PARAS 386 383 0.99

15 DOCTOR COSS 673 664 0.99 41 PESQUERIA 2841 698 0.25

16 DOCTOR GONZALEZ 898 588 0.65 42 LOS RAMONES 1779 960 0.54

17 GALEANA 9217 1078 0.12 43 RAYONES 712 712 1

18 GARCIA 6811 671 0.10 44 SABINAS HIDALGO 8514 881 0.10

19 SAN PEDRO GARZA G. 28210 2406 0.09 45 SALINAS VICTORIA 4692 680 0.14

20 GENERAL BRAVO 1662 533 0.32 46 SAN NICOLAS D.L.G. 113929 6953 0.06

21 GENERAL ESCOBEDO 53703 3812 0.07 47 HIDALGO 3544 669 0.19

22 GENERAL TERAN 4310 650 0.15 48 SANTA CATARINA 49584 3196 0.06

23 GENERAL TREVINO 526 523 0.99 49 SANTIAGO 9900 1381 0.14

24 GENERAL ZARAGOZA 1245 730 0.59 50 VALLECILLO 642 632 0.98

25 GENERAL ZUAZUA 1486 489 0.33 51 VILLALDAMA 1254 532 0.42

26 GUADALUPE 149798 9613 0.06 TOTAL 888449 80066 19.97

Page 86: Modelos con coeficientes variables en muestreo de ...

70 Anexos

1 3 5 7 9 12 15 18 21 24 27 30 33 36 39 42 45 48 51

0.0e

+00

1.0e

+07

Municipios de Nuevo León

Ingr

esos

por

trab

ajo

1 3 5 7 9 12 15 18 21 24 27 30 33 36 39 42 45 48 51

0e+

002e

+06

4e+

06

Municipios de Nuevo León

Ingr

esos

por

trab

ajo

Figura 1: Outliers Municipios del Estado de Nuevo Leon

Page 87: Modelos con coeficientes variables en muestreo de ...

71

Cuadro 2: Est. con h calculada con validacion cruzada, Nuevo Leon

MUN TOTAL Estimacion Est. Error Rel. Abs. Coef. De Variacion n/N hHT RCV Reg HT RCV Reg HT RCV Reg

12 5163946 10041479 7537546.34 7045781.87 0.9445 0.4596 0.3644 0.191 0.1474 0.2722 0.4052 1.534 34008982 30793868 30674640.1 29985824.2 0.0945 0.098 0.1183 0.1145 0.0284 0.1176 0.0942 10.55 20714110 16372168 16164826 16983461 0.2096 0.2196 0.1801 0.0784 0.034 0.0755 0.1539 5.56 390857739 370349466 378165107 375529088 0.0525 0.0325 0.0392 0.1167 0.0122 0.1151 0.0789 87 5100696 5641116 5225252.38 4137739.96 0.106 0.0244 0.1888 0.0983 0.0511 0.134 0.1667 8.58 2307199 2388629 2349528.63 2244624.99 0.0353 0.0183 0.0271 0.0553 0.0197 0.0588 0.5906 13.59 120305277 106395033 116902741 123222900 0.1156 0.0283 0.0243 0.1457 0.0324 0.1258 0.0558 7.5

10 6772280 6899957 6464069.6 7508708.87 0.0189 0.0455 0.1087 0.0784 0.0466 0.0721 0.3911 9.511 10086190 10296996 10147402.5 10661248.6 0.0209 0.0061 0.057 0.1048 0.044 0.1013 0.2645 1012 12122198 12295169 11470080.6 11638197.8 0.0143 0.0538 0.0399 0.1305 0.0208 0.1378 0.2658 11.513 11492178 11031889 11141943.3 10324854 0.0401 0.0305 0.1016 0.0685 0.0309 0.0732 0.213 1014 9282621 10185200 10231972.1 9696987.93 0.0972 0.1023 0.0446 0.1965 0.0488 0.2064 0.0991 14.515 1673386 1882868 1685755.7 1692281.3 0.1252 0.0074 0.0113 0.0276 0.0112 0.0307 0.9655 1016 2315754 2390278 2259988.11 2574051.95 0.0322 0.0241 0.1115 0.0563 0.0176 0.0523 0.6747 9.517 16058910 32797194 28974054.4 27209670.9 1.0423 0.8042 0.6944 0.3381 0.1948 0.7635 0.089 518 24270377 23392153 23559213.3 21640532.7 0.0362 0.0293 0.1084 0.1001 0.0136 0.1082 0.128 11.519 519190333 529728576 470283832 536406683 0.0203 0.0942 0.0332 0.1613 0.0352 0.1593 0.0851 1220 8107632 11302889 10840427.8 7582761.82 0.3941 0.3371 0.0647 0.1692 0.171 0.2522 0.3607 9.521 289347655 273897602 261987230 281175628 0.0534 0.0946 0.0282 0.0789 0.016 0.0769 0.0713 13.522 13650379 14651933 12493206.5 10592514.2 0.0734 0.0848 0.224 0.1568 0.0732 0.2169 0.1357 102324 1392737 1744039 1762413.19 1127105.04 0.2522 0.2654 0.1907 0.0579 0.0324 0.0896 0.6113 8.525 6902603 6435846 6181024.68 5795706.83 0.0676 0.1045 0.1604 0.0614 0.0114 0.0682 0.418 726 1152652720 1170648279 1222664548 1025941373 0.0156 0.0607 0.1099 0.0636 0.0489 0.0725 0.0648 527 2421711 2717369 2578930.9 2563005.8 0.1221 0.0649 0.0583 0.141 0.0233 0.1495 0.8182 1.528 1392574 1346377 1380031.83 1380453.76 0.0332 0.009 0.0087 0.0263 0.0107 0.0256 0.947 1129 4199689 3874913 3968870.38 3914211.2 0.0773 0.055 0.068 0.0839 0.0302 0.083 0.3468 1230 1492582 1636438 1498079.33 1454235.35 0.0964 0.0037 0.0257 0.0942 0.0247 0.106 0.6042 1231 64704537 65010851 62292190.1 65890791.7 0.0047 0.0373 0.0183 0.0934 0.0325 0.0922 0.1031 8.532 4421409 4421795 4199710.39 4288642.22 0.0001 0.0501 0.03 0.0818 0.0294 0.0844 0.3857 1233 66617731 59991261 84765907.7 59333922 0.0995 0.2724 0.1093 0.2095 0.0498 0.2118 0.0603 8.534 5358363 5493989 5403870.13 4795672.56 0.0253 0.0085 0.105 0.0552 0.0329 0.0632 0.6 8.53536 782486 945572 803506.683 825794.53 0.2084 0.0269 0.0553 0.0586 0.0348 0.067 0.6368 837 3689606 3534983 3593070.4 3786998.09 0.0419 0.0262 0.0264 0.0819 0.0194 0.0765 0.5093 1138 56947961 56111653 57829800.1 60580510.2 0.0147 0.0155 0.0638 0.1113 0.0611 0.1031 0.0936 1139 2227158889 2174463966 2094602907 2081158733 0.0237 0.0595 0.0656 0.038 0.0153 0.0397 0.0722 8.540 1134973 1130044 1144668.19 1146359.91 0.0043 0.0085 0.01 0.0327 0.0299 0.0322 0.9739 8.541 11844222 9967561 9575590.02 9854220.1 0.1584 0.1915 0.168 0.0826 0.0235 0.0836 0.3326 9.542 3820962 4113606 3656332.12 3126323.4 0.0766 0.0431 0.1818 0.2253 0.1394 0.2964 0.4206 4.54344 38781181 39721657 38854347.7 37651134.7 0.0243 0.0019 0.0291 0.0951 0.0219 0.1003 0.1084 13.545 17827558 13457943 15351727.3 15681169.7 0.2451 0.1389 0.1204 0.196 0.0266 0.1682 0.194 10.546 998611638 976107968 986188055 993747011 0.0225 0.0124 0.0049 0.0488 0.012 0.048 0.0611 947 14875219 17060269 16945874 15080115.4 0.1469 0.1392 0.0138 0.0739 0.0252 0.0837 0.2251 1048 301886304 329212737 302556348 288844371 0.0905 0.0022 0.0432 0.0661 0.0215 0.0754 0.0711 10.549 57287666 54386654 48072192.4 54399630.6 0.0506 0.1609 0.0504 0.1607 0.037 0.1607 0.1465 8.55051 5278306 4898021 4994160.91 5164249.15 0.072 0.0538 0.0216 0.2436 0.2169 0.2311 0.4211 3

Promedio 0.122 0.098 0.096 0.110 0.046 0.128 9.156

Page 88: Modelos con coeficientes variables en muestreo de ...

72 Anexos

Cuadro 3: Variables seleccionadas, Estado de Nuevo Leon.

Mun Variables1 TEL, ESTUD

2 ISSSTE

3 TRABAJO, NO TRAB, VIVS, JORNALERO

4 COMPU, PATRON, CTA PROPIA, AUTO, EMPLEADO, ISSSTE, TEL, VIVS, NO TRAB, JUBILADO, JORNALERO

5 TRABAJO, CTA PROPIA

6 AUTO, COMPU, JUBILADO, TRABAJO, ESTUD, SIN PAGO, NO TRAB, ISSSTE, TEL

7 TEL, SIN PAGO, CTA PROPIA, TRABAJO, ESTUD

8 NO TRAB, AUTO, OTRA INTS, TEL, SIN SEV, EMPLEADO, IMSS, CTA PROPIA, TRABAJO, ESTUD

9 COMPU, PATRON, EMPLEADO, TEL, TRABAJO, SIN SEV

10 AUTO

11 PATRON, VIVS, TEL, ESTUD, OTRA INTS, JUBILADO, CTA PROPIA, TRABAJO, IMSS, AUTO

12 AUTO, ISSSTE, CTA PROPIA, EMPLEADO, JORNALERO, JUBILADO, TRABAJO, SIN SEV

13 TEL, NO TRAB, ISSSTE, EMPLEADO, PATRON, CTA PROPIA, VIVS, JUBILADO, IMSS, ESTUD, AUTO, SIN PAGO, TRABAJO, SIN SEV, JORNALERO

14 TEL, ISSSTE, EMPLEADO, OTRA INTS, PATRON, AUTO, IMSS, JORNALERO

15 IMSS, TRABAJO, CTA PROPIA, TEL, JORNALERO, SIN SEV, VIVS, EMPLEADO, NO TRAB

16 TRABAJO, TEL, JORNALERO, VIVS, AUTO

17 NO TRAB, TEL, TRABAJO

18 TEL, NO TRAB, AUTO, ESTUD, EMPLEADO, CTA PROPIA, JUBILADO

19 COMPU, SIN SEV, PATRON, NO TRAB, JUBILADO, VIVS, ESTUD, CTA PROPIA, EMPLEADO, OTRA INTS, AUTO, IMSS, JORNALERO, ISSSTE

20 TEL

21 AUTO, COMPU, PATRON, ESTUD, TRABAJO, ISSSTE

22 JUBILADO, TRABAJO

23 TRABAJO, EMPLEADO, TEL, SIN SEV, NO TRAB

24 EMPLEADO, AUTO

25 PATRON, AUTO, NO TRAB, TEL, TRABAJO

26 COMPU

27 TEL, ESTUD, ISSSTE, JORNALERO

28 AUTO, EMPLEADO, TRABAJO, SIN SEV, TEL, VIVS

29 TEL, OTRA INTS, TRABAJO, ISSSTE, AUTO, VIVS, NO TRAB, EMPLEADO, ESTUD

30 SIN SEV, VIVS, AUTO, EMPLEADO, TRABAJO, SIN PAGO, JORNALERO, ISSSTE, NO TRAB, ESTUD

31 OTRA INTS, AUTO, JUBILADO, SIN SEV, TEL, TRABAJO, VIVS, CTA PROPIA, ESTUD, COMPU, PEM DN MAR, EMPLEADO, PATRON, SIN PAGO

32 TEL, ISSSTE, CTA PROPIA, TRABAJO, EMPLEADO, AUTO, NO TRAB, VIVS, IMSS, SIN SEV

33 COMPU, JUBILADO, AUTO, NO TRAB, TRABAJO, ISSSTE, JORNALERO, SIN SEV, PATRON, VIVS, EMPLEADO, CTA PROPIA, SIN PAGO

34 CTA PROPIA, TRABAJO

35 TEL, EMPLEADO

36 EMPLEADO

37 EMPLEADO, TEL, TRABAJO

38 COMPU, PATRON, TRABAJO, ESTUD, OTRA INTS, AUTO, SIN PAGO, NO TRAB, IMSS, VIVS, JORNALERO, ISSSTE, EMPLEADO, JUBILADO, TEL

39 COMPU, PATRON, ESTUD, AUTO, SIN SEV, JUBILADO, VIVS, IMSS, SIN PAGO, EMPLEADO

40 TRABAJO

41 AUTO, SIN SEV, TEL, VIVS, IMSS

42 AUTO

43 AUTO, SIN SEV, IMSS, TRABAJO, EMPLEADO

44 COMPU, OTRA INTS, PATRON, TEL, ISSSTE, TRABAJO, IMSS, VIVS, JORNALERO, CTA PROPIA, NO TRAB, SIN SEV, ESTUD, AUTO, SIN PAGO, JUBILADO

45 TRABAJO, AUTO, PEM DN MAR, COMPU, TEL, CTA PROPIA, NO TRAB

46 COMPU, AUTO, ESTUD, PATRON, JUBILADO, NO TRAB, OTRA INTS, TRABAJO, ISSSTE

47 CTA PROPIA, COMPU, AUTO, TEL, TRABAJO, ESTUD, NO TRAB, EMPLEADO

48 COMPU, AUTO, PATRON, JUBILADO, EMPLEADO, CTA PROPIA, VIVS, TEL, TRABAJO, IMSS, OTRA INTS, SIN PAGO, ESTUD, NO TRAB, PEM DN MAR, SIN SEV

49 COMPU, AUTO

50 IMSS, JORNALERO, NO TRAB, VIVS, TRABAJO

51 VIVS

Page 89: Modelos con coeficientes variables en muestreo de ...

73

Cuadro 4: Municipios del Estado de Yucatan, muestra en viviendas

Clave Municipio N n n/N Clave Municipio N n n/N1 ABALA 1138 311 0.27 54 MUXUPIP 548 264 0.48

2 ACANCEH 2662 495 0.19 55 OPICHEN 1128 408 0.36

3 AKIL 1834 296 0.16 56 OXKUTZCAB 5083 624 0.12

4 BACA 1156 328 0.28 57 PANABA 1771 302 0.17

5 BOKOBA 428 421 0.98 58 PETO 4044 456 0.11

6 BUCTZOTZ 1824 307 0.17 59 PROGRESO 11724 969 0.08

7 CACALCHEN 1365 274 0.20 60 QUINTANA ROO 229 229 1.00

8 CALOTMUL 848 426 0.50 61 RIO LAGARTOS 715 420 0.59

9 CANSAHCAB 1093 222 0.20 62 SACALUM 855 267 0.31

10 CANTAMAYEC 393 271 0.69 63 SAMAHIL 866 264 0.30

11 CELESTUN 1458 357 0.24 64 SANAHCAT 312 310 0.99

12 CENOTILLO 846 224 0.26 65 SAN FELIPE 514 510 0.99

13 CONKAL 1635 485 0.30 66 SANTA ELENA 619 257 0.42

14 CUNCUNUL 262 255 0.97 67 SEYE 1792 369 0.21

15 CUZAMA 873 267 0.31 68 SINANCHE 745 262 0.35

16 CHACSINKIN 427 203 0.48 69 SOTUTA 1611 291 0.18

17 CHANKOM 788 335 0.43 70 SUCILA 872 245 0.28

18 CHAPAB 638 295 0.46 71 SUDZAL 316 316 1.00

19 CHEMAX 4919 547 0.11 72 SUMA 435 435 1.00

20 CHICXULUB PUEBLO 780 324 0.42 73 TAHDZIU 552 277 0.50

21 CHICHIMILA 1152 308 0.27 74 TAHMEK 828 238 0.29

22 CHIKINDZONOT 642 279 0.43 75 TEABO 969 221 0.23

23 CHOCHOLA 985 267 0.27 76 TECOH 2843 502 0.18

24 CHUMAYEL 578 286 0.49 77 TEKAL DE VENEGAS 523 199 0.38

25 DZAN 824 276 0.33 78 TEKANTO 879 287 0.33

26 DZEMUL 797 350 0.44 79 TEKAX 6701 869 0.13

27 DZIDZANTUN 1898 297 0.16 80 TEKIT 1632 226 0.14

28 DZILAM DE BRAVO 606 246 0.41 81 TEKOM 507 299 0.59

29 DZILAM GONZALEZ 1484 330 0.22 82 TELCHAC PUEBLO 929 251 0.27

30 DZITAS 716 281 0.39 83 TELCHAC PUERTO 409 408 1.00

31 DZONCAUICH 579 263 0.45 84 TEMAX 1352 355 0.26

32 ESPITA 2529 525 0.21 85 TEMOZON 2445 546 0.22

33 HALACHO 3613 505 0.14 86 TEPAKAN 510 205 0.40

34 HOCABA 1105 446 0.40 87 TETIZ 873 264 0.30

35 HOCTUN 1228 290 0.24 88 TEYA 455 188 0.41

36 HOMUN 1288 350 0.27 89 TICUL 6526 508 0.08

37 HUHI 967 268 0.28 90 TIMUCUY 1128 350 0.31

38 HUNUCMA 5016 744 0.15 91 TINUM 1920 533 0.28

39 IXIL 667 265 0.40 92 TIXCACALCUPUL 1043 358 0.34

40 IZAMAL 4994 625 0.13 93 TIXKOKOB 3336 513 0.15

41 KANASIN 8424 691 0.08 94 TIXMEHUAC 780 439 0.56

42 KANTUNIL 1120 515 0.46 95 TIXPEHUAL 1039 310 0.30

43 KAUA 458 457 1.00 96 TIZIMIN 13700 788 0.06

44 KINCHIL 1182 280 0.24 97 TUNKAS 816 231 0.28

45 KOPOMA 492 263 0.53 98 TZUCACAB 2487 536 0.22

46 MAMA 535 164 0.31 99 UAYMA 599 331 0.55

47 MANI 971 263 0.27 100 UCU 624 325 0.52

48 MAXCANU 3763 494 0.13 101 UMAN 10539 878 0.08

49 MAYAPAN 471 172 0.37 102 VALLADOLID 11777 920 0.08

50 MERIDA 172469 10754 0.06 103 XOCCHEL 551 250 0.45

51 MOCOCHA 619 237 0.38 104 YAXCABA 2576 596 0.23

52 MOTUL 6308 734 0.12 105 YAXKUKUL 531 252 0.47

53 MUNA 2455 480 0.20 106 YOBAIN 525 524 1.00

Total 373385 50523 0.14

Page 90: Modelos con coeficientes variables en muestreo de ...

74 Anexos

1 4 7 10 14 18 22 26 30 34 38 42 46 50

010

0000

0

Municipios de yucatán

Ingr

esos

por

trab

ajo

54 58 62 66 70 74 78 82 86 90 94 98 102

010

0000

025

0000

0

Municipios de Yucatán

Ingr

esos

por

trab

ajo

Figura 2: Outliers Municipios del Estado de Yucatan

Page 91: Modelos con coeficientes variables en muestreo de ...

75

Cuadro 5: Est. con h calculada con validacion cruzada (parte I), Yucatan

MUN TOTAL Estimacion Est. Error Rel. Abs. Coef. De Variacion n/N hHT RCV Reg HT RCV Reg HT RCV Reg

1 1686835 1414177 1308002 1402464.4 0.1616 0.2246 0.1686 0.0745 0.0307 0.0751 0.3254 6.52 6548741 7128405 6826193.3 6833600 0.0885 0.0424 0.0435 0.1824 0.0194 0.1902 0.2025 7.53 3175430 2459321 2033076 2162806.4 0.2255 0.3597 0.3189 0.0906 0.046 0.103 0.2252 6.54 2650988 2663016 2600249.8 2655682.3 0.0045 0.0191 0.0018 0.1043 0.0201 0.1046 0.367 35 808492 798249 809645 811297 0.0127 0.0014 0.0035 0.0271 0.009 0.0266 0.9474 26 3110083 2280321 2590710.4 2341111.6 0.2668 0.167 0.2473 0.0681 0.0137 0.0663 0.2698 37 3066323 3143543 2966874.9 2981951.5 0.0252 0.0324 0.0275 0.1119 0.0111 0.118 0.2233 48 632238 635266 692184.4 581943.8 0.0048 0.0948 0.0795 0.0491 0.0218 0.0537 0.6204 7.59 2384846 2083240 2493638.6 1707762 0.1265 0.0456 0.2839 0.0979 0.0125 0.1194 0.2784 2

10 332085 348107 292813.2 283236.7 0.0482 0.1183 0.1471 0.1074 0.0753 0.1321 0.7 5.511 3124266 3321835 3549421.9 3244175.2 0.0632 0.1361 0.0384 0.1458 0.0319 0.1493 0.3136 9.512 555232 560444 460017.6 479674.1 0.0094 0.1715 0.1361 0.0719 0.0441 0.0841 0.3615 10.513 4867967 5149040 5073698.9 4603893 0.0577 0.0423 0.0542 0.0743 0.0186 0.0831 0.4072 9.514 301851 300351 303336 302826.8 0.005 0.0049 0.0032 0.0598 0.0357 0.0593 0.9286 10.515 1476249 1548993 1587299 1539850.5 0.0493 0.0752 0.0431 0.0946 0.0237 0.0952 0.3333 816 351383 426955 477018.5 516583.3 0.2151 0.3575 0.4701 0.1497 0.0578 0.1238 0.5538 3.517 978942 616271 740035.7 753847.6 0.3705 0.244 0.2299 0.1201 0.0348 0.0982 0.4564 3.518 653238 575386 524360.3 516328.6 0.1192 0.1973 0.2096 0.1034 0.0587 0.1153 0.4625 719 4835749 4883358 6117867.5 5350390.1 0.0098 0.2651 0.1064 0.1222 0.0437 0.1116 0.1367 920 1877607 1791746 1931048.8 1946118.5 0.0457 0.0285 0.0365 0.0769 0.0139 0.0708 0.527 421 1479654 1439750 1540608 1414125.4 0.027 0.0412 0.0443 0.1912 0.0343 0.1946 0.3058 10.522 147040 187074 183018.1 179860.2 0.2723 0.2447 0.2232 0.1881 0.1334 0.1957 0.5044 123 3319514 1926049 2434124.4 1939853.4 0.4198 0.2667 0.4156 0.1032 0.0327 0.1025 0.3636 0.524 597303 580520 631182.7 599620.7 0.0281 0.0567 0.0039 0.1102 0.0467 0.1066 0.4384 3.525 892412 799611 758670.4 770660.4 0.104 0.1499 0.1364 0.105 0.0433 0.1089 0.3613 726 1304618 1614401 1409131.8 1407452.1 0.2375 0.0801 0.0788 0.0916 0.0409 0.1051 0.4302 927 5525688 5385172 5585342.9 4999836.7 0.0254 0.0108 0.0952 0.135 0.0304 0.1454 0.2 628 1242268 1360420 1203318.9 1213877.7 0.0951 0.0314 0.0229 0.0601 0.0147 0.0674 0.5824 1.529 2244584 2258596 2283502.6 2355308 0.0062 0.0173 0.0493 0.0642 0.0124 0.0616 0.4188 6.530 1091381 1168381 1259488.2 884420.5 0.0706 0.154 0.1896 0.0822 0.0508 0.1086 0.4011 12.531 542426 621873 649979.3 570138.4 0.1465 0.1983 0.0511 0.1049 0.0395 0.1145 0.4474 3.532 2943331 3575274 2903816.2 3096851.5 0.2147 0.0134 0.0522 0.1452 0.0664 0.1677 0.1589 5.533 5829833 5906969 8742891.1 8997310.3 0.0132 0.4997 0.5433 0.5028 0.2565 0.3301 0.1448 1.534 1898291 1786116 1622103.7 1991736.6 0.0591 0.1455 0.0492 0.1301 0.1283 0.1167 0.4492 7.535 3043941 1511099 1745605.4 1069286.9 0.5036 0.4265 0.6487 0.1048 0.0349 0.1481 0.3363 7.536 2294708 2133589 2215512.4 2469545.6 0.0702 0.0345 0.0762 0.2328 0.1283 0.2011 0.2946 7.537 1541230 1278344 1265291.2 1223642.8 0.1706 0.179 0.2061 0.1544 0.0742 0.1613 0.2138 13.538 12712278 9970903 11272151.3 11718264.1 0.2156 0.1133 0.0782 0.0749 0.0238 0.0637 0.2304 1039 1669233 1783819 1786863.9 1754739.7 0.0686 0.0705 0.0512 0.107 0.0311 0.1088 0.3636 640 10756591 10046339 10233453.8 9467648 0.066 0.0486 0.1198 0.105 0.0417 0.1114 0.1407 941 25012327 24103556 25590865.3 23137961.3 0.0363 0.0231 0.0749 0.1634 0.0255 0.1702 0.0741 12.542 1289309 1282558 1282408.3 1149846.4 0.0052 0.0054 0.1082 0.0522 0.0233 0.0582 0.4792 5.543 563287 563287 567185.2 564444.4 0 0.0069 0.0021 0.0147 0.0064 0.0147 0.9853 7.544 1774199 1882754 1860347.9 1695039.5 0.0612 0.0486 0.0446 0.1534 0.0266 0.1703 0.2805 345 781136 768753 817597.2 770496.1 0.0159 0.0467 0.0136 0.1129 0.0218 0.1126 0.5122 6.546 558765 578356 681297.4 645915 0.0351 0.2193 0.156 0.0936 0.0321 0.0838 0.3824 347 1132658 1145383 1076281 803882 0.0112 0.0498 0.2903 0.0554 0.0344 0.0789 0.3968 1348 7481210 7820239 7507749.4 7622415.2 0.0453 0.0035 0.0189 0.1687 0.0222 0.173 0.1518 3.549 287128 215156 232348.9 210043.7 0.2507 0.1908 0.2685 0.1416 0.1006 0.145 0.4691 8.550 879898931 810417665 839855708 880069108 0.079 0.0455 0.0002 0.0533 0.0117 0.049 0.0601 3.551 1675318 1616440 1640067.5 1583052.9 0.0351 0.021 0.0551 0.1438 0.032 0.1468 0.3906 652 15961839 18416317 16171844.2 13618211 0.1538 0.0132 0.1468 0.151 0.0416 0.2043 0.1049 753 5569627 6090057 6007305.4 5073676.8 0.0934 0.0786 0.089 0.0723 0.0402 0.0868 0.2596 11.5

Page 92: Modelos con coeficientes variables en muestreo de ...

76 Anexos

Cuadro 6: Est. con h calculada con validacion cruzada (parte II), Yucatan

MUN TOTAL Estimacion Est. Error Rel. Abs. Coef. De Variacion n/N hHT RCV Reg HT RCV Reg HT RCV Reg

54 1069075 1115864 1105219 1057798.8 0.0438 0.0338 0.0105 0.0844 0.0436 0.089 0.4493 7.555 1525293 1461520 1654609.9 1536051.6 0.0418 0.0848 0.0071 0.1684 0.0276 0.1602 0.319 5.556 10087575 9378964 8474990.7 8771023.6 0.0702 0.1599 0.1305 0.074 0.0278 0.0792 0.1887 3.557 2285112 2397734 2468997.4 2231434.7 0.0493 0.0805 0.0235 0.1025 0.0199 0.1101 0.2516 1158 6981601 5892056 6527735.8 5768358.3 0.1561 0.065 0.1738 0.1365 0.0327 0.1395 0.1181 7.559 41952255 47138996 49886180.1 39031471.7 0.1236 0.1891 0.0696 0.0856 0.031 0.1034 0.1139 5.560 157443 157443 163981.8 157443 0 0.0415 0 0 0 0 1 561 1524939 1558152 1503997.8 1562206 0.0218 0.0137 0.0244 0.061 0.0123 0.0609 0.7473 11.562 1087205 1088401 844020.3 1107748.1 0.0011 0.2237 0.0189 0.1378 0.0556 0.1354 0.3415 763 1565795 1556234 1607480.2 1606984.4 0.0061 0.0266 0.0263 0.0932 0.0264 0.0902 0.2963 4.564 422185 420170 422736.3 422038.5 0.0048 0.0013 0.0003 0.0272 0.0096 0.0271 0.9592 765 821857 819414 823769.4 822187.6 0.003 0.0023 0.0004 0.0317 0.006 0.0316 0.9669 10.566 860707 1013137 1066148.5 867869 0.1771 0.2387 0.0083 0.1202 0.053 0.1403 0.4235 7.567 3512996 3234493 2735993.2 3187211.7 0.0793 0.2212 0.0927 0.1169 0.0358 0.1187 0.3019 7.568 1120307 1222756 1133948.4 1165172.4 0.0914 0.0122 0.04 0.0808 0.0243 0.0848 0.4505 13.569 2149260 2322563 1978067.7 1930336.6 0.0806 0.0797 0.1019 0.1212 0.0339 0.1458 0.2271 4.570 1591522 1403837 1596362.5 1480634 0.1179 0.003 0.0697 0.0765 0.0236 0.0725 0.4713 7.5717273 213200 284601 263023.7 274333.9 0.3349 0.2337 0.2867 0.1106 0.0666 0.1147 0.5481 374 1341422 1341116 1373091.7 1368099.6 0.0002 0.0236 0.0199 0.1186 0.0378 0.1163 0.3585 1.575 1254534 1134712 1015463.3 1195951.5 0.0955 0.1906 0.0467 0.1364 0.0602 0.1294 0.3462 376 5685131 6977659 7366133.2 5358938.9 0.2274 0.2957 0.0574 0.2956 0.2522 0.3849 0.214 9.577 484528 536482 546872.4 524161.2 0.1072 0.1287 0.0818 0.0857 0.0279 0.0877 0.4853 7.578 1498558 1397875 1306289.8 1421803 0.0672 0.1283 0.0512 0.1092 0.0464 0.1074 0.3117 2.579 16810345 14824730 24287827.5 15733442.5 0.1181 0.4448 0.0641 0.0896 0.0317 0.0845 0.1298 3.580 3614054 4389638 4559903.1 4160719.6 0.2146 0.2617 0.1513 0.0933 0.0361 0.0984 0.2828 781 605832 656583 648450.1 516784.4 0.0838 0.0703 0.147 0.1341 0.0353 0.1704 0.5185 4.582 2026505 1371472 1340430.5 1412796.7 0.3232 0.3386 0.3028 0.1096 0.0195 0.1064 0.3368 783 747019 744876 745581.6 746215 0.0029 0.0019 0.0011 0.0111 0.0049 0.0111 0.9905 684 1803713 1911053 2077388.8 1992086.2 0.0595 0.1517 0.1044 0.1263 0.0439 0.1212 0.3109 185 2720172 2415654 3111927.4 2109712.6 0.1119 0.144 0.2244 0.1598 0.018 0.1829 0.2746 3.586 547948 808707 630779.6 624987.9 0.4759 0.1512 0.1406 0.1302 0.0395 0.1685 0.3636 287 1191899 1112167 1100748.6 1070606 0.0669 0.0765 0.1018 0.0845 0.0259 0.0878 0.3594 288 329765 305614 305689 307700.7 0.0732 0.073 0.0669 0.1081 0.0317 0.1074 0.473 4.589 19049706 16490350 17808042.1 18074047.4 0.1344 0.0652 0.0512 0.1485 0.0242 0.1354 0.1067 9.590 2909784 3454615 3822962.7 3927120.4 0.1872 0.3138 0.3496 0.3707 0.3143 0.3261 0.2842 291 3358383 3629197 4334331 2997469.4 0.0806 0.2906 0.1075 0.0959 0.0216 0.1161 0.3381 2.592 1068745 1018745 1454757 1829535.6 0.0468 0.3612 0.7119 0.3287 0.2055 0.183 0.226 2.593 10897804 12920581 12351960.3 10030063.8 0.1856 0.1334 0.0796 0.1193 0.0336 0.1536 0.1652 2.594 1189631 664497 621857.8 581555.1 0.4414 0.4773 0.5111 0.0645 0.0296 0.0737 0.596 2.595 2980382 3017675 2846745.3 3018653.2 0.0125 0.0448 0.0128 0.0717 0.0236 0.0717 0.3929 2.596 27132043 30439975 26753949.2 31774141.6 0.1219 0.0139 0.1711 0.2435 0.0481 0.2333 0.0394 797 1091748 783163 713428.8 596218.2 0.2827 0.3465 0.4539 0.1853 0.0376 0.2434 0.2609 9.598 4086732 3117149 4114955.2 3837017 0.2373 0.0069 0.0611 0.0953 0.021 0.0774 0.2514 1099 1011994 701770 554114.1 507119.4 0.3065 0.4525 0.4989 0.0733 0.0279 0.1015 0.6203 1

100 1594661 1529665 1590109 1511328.7 0.0408 0.0029 0.0523 0.0771 0.0188 0.078 0.6163 4.5101 39666828 95225168 111999999 107722548 1.4006 1.8235 1.7157 0.4093 0.3021 0.3618 0.0864 11.5102 36552674 32718235 37477588 28668339.5 0.1049 0.0253 0.2157 0.1627 0.0129 0.1856 0.0793 4.5103 762119 732142 780065.7 757644.2 0.0393 0.0235 0.0059 0.0972 0.027 0.0939 0.5 5.5104 2941752 1494020 1607069.7 1715842.4 0.4921 0.4537 0.4167 0.147 0.0562 0.128 0.2138 4105 1429521 1476341 1541790 1484893.2 0.0328 0.0785 0.0387 0.0806 0.0221 0.0801 0.5541 8106

Promedio 0.1287 0.1493 0.1486 0.1205 0.0468 0.1226 6.09

Page 93: Modelos con coeficientes variables en muestreo de ...

77

Cuadro 7: Variables seleccionadas (parte I), Estado de Yucatan.

Mun Variables1 EMPLEADO, JORNALERO, CTA PROPIA

2 JEFES HOG, TOT PER, SIN SEV, TRABAJO, COMPU

3 JEFES HOG, TOT PER, IMSS, ISSSTE, SIN SEV, TRABAJO, TEL

4 EMPLEADO, PATRON, CTA PROPIA, COMPU

5 JEFES HOG, EMPLEADO, JORNALERO, CTA PROPIA, TEL

6 ISSSTE, TRABAJO, EMPLEADO, JORNALERO, CTA PROPIA

7 JEFES HOG, EMPLEADO, CTA PROPIA, TEL

8 ISSSTE, EMPLEADO, JORNALERO, CTA PROPIA

9 EMPLEADO, VIVS, AUTO

10 TOT PER, ISSSTE, SIN SEV, TRABAJO, EMPLEADO, JORNALERO

11 OTRA INTS, SIN SEV, COMPU, AUTO

12 TRABAJO, EMPLEADO, JORNALERO, TEL

13 TOT PER, IMSS, SIN SEV

14 EMPLEADO, PATRON

15 IMSS, TRABAJO, TEL, AUTO

16 ISSSTE, CTA PROPIA

17 TOT PER, SIN SEV, TRABAJO, EMPLEADO, CTA PROPIA

18 EMPLEADO, JORNALERO, CTA PROPIA

19 JEFES HOG, TOT PER, TRABAJO, EMPLEADO, JORNALERO, VIVS, AUTO

20 EMPLEADO, JORNALERO, AUTO

21 TOT PER, TRABAJO, CTA PROPIA, VIVS

22 TRABAJO

23 SIN SEV, EMPLEADO, VIVS, AUTO

24 EMPLEADO, VIVS

25 JEFES HOG, SIN SEV, EMPLEADO, JORNALERO, CTA PROPIA

26 TOT PER, IMSS, SIN SEV, TRABAJO

27 TRABAJO, JORNALERO, AUTO

28 TOT PER, PEM DN MAR, SIN SEV, TRABAJO, AUTO

29 EMPLEADO, JORNALERO, CTA PROPIA, AUTO

30 IMSS, TRABAJO, EMPLEADO, CTA PROPIA

31 EMPLEADO, JORNALERO, SIN SEV

32 EMPLEADO, JORNALERO, CTA PROPIA, AUTO

33 TRABAJO,AUTO

34 EMPLEADO, JORNALERO, AUTO

35 SIN SEV, TRABAJO, VIVS

36 TRABAJO, TEL

37 SIN SEV, EMPLEADO

38 PEM DN MAR, SIN SEV, VIVS, TEL

39 TRABAJO, EMPLEADO, JORNALERO, CTA PROPIA, VIVS, AUTO

40 EMPLEADO, PATRON, VIVS

41 TOT PER, ISSSTE, PEM DN MAR, EMPLEADO, VIVS

42 EMPLEADO, JORNALERO, CTA PROPIA, VIVS

43 JEFES HOG, PEM DN MAR, TRABAJO, EMPLEADO, JORNALERO, PATRON, CTA PROPIA, VIVS, AUTO

44 JEFES HOG, IMSS, ISSSTE

45 JEFES HOG, TOT PER, EMPLEADO, JORNALERO

46 PEM DN MAR, TRABAJO, CTA PROPIA

46 TOT PER, IMSS, ISSSTE, SIN SEV, EMPLEADO, VIVS

48 SIN SEV, EMPLEADO, JORNALERO, PATRON, TEL

43 VIVS

50 TOT PER, ISSSTE, PEM DN MAR, TRABAJO, EMPLEADO, PATRON, TEL, AUTO

51 JEFES HOG, TRABAJO, CTA PROPIA

52 TRABAJO, VIVS, COMPU

53 TOT PER, IMSS, SIN SEV, EMPLEADO, CTA PROPIA

Page 94: Modelos con coeficientes variables en muestreo de ...

78 Anexos

Cuadro 8: Variables seleccionadas (parte II), Estado de Yucatan.

Mun Variables54 TRABAJO

55 JEFES HOG, EMPLEADO, JORNALERO, CTA PROPIA, VIVS, TEL

56 EMPLEADO, JORNALERO, CTA PROPIA, TEL

57 EMPLEADO, JORNALERO, CTA PROPIA, COMPU, TEL, ISSSTE

58 ISSSTE, SIN SEV, EMPLEADO, JORNALERO, PATRON

59 ISSSTE, PEM DN MAR, SIN SEV, TRABAJO, JORNALERO, PATRON, CTA PROPIA, AUTO

60 JEFES HOG, IMSS, SIN SEV, TRABAJO, JORNALERO, CTA PROPIA

61 JEFES HOG, TOT PER, EMPLEADO, CTA PROPIA, COMPU, AUTO

62 ISSSTE, EMPLEADO, JORNALERO, CTA PROPIA, VIVS

63 EMPLEADO, PATRON, VIVS

64 SIN SEV, EMPLEADO

65 EMPLEADO, JORNALERO, CTA PROPIA

66 EMPLEADO, VIVS

67 TRABAJO

68 TRABAJO

69 EMPLEADO, JORNALERO, VIVS

70 EMPLEADO, JORNALERO, PATRON, CTA PROPIA, TEL

71 TOT PER, SIN SEV, TRABAJO, EMPLEADO, COMPU

72 JEFES HOG, TRABAJO, VIVS

73 EMPLEADO, CTA PROPIA, VIVS, AUTO

74 JEFES HOG, ISSSTE, JORNALERO, COMPU, TEL

75 TRABAJO, VIVS

76 PEM DN MAR, SIN SEV, EMPLEADO, JORNALERO, TEL

77 TOT PER, AUTO, EMPLEADO

78 EMPLEADO, VIVS

79 ISSSTE,TEL,IMSS,TRABAJO,AUTO

80 JEFES HOG, TEL

81 ISSSTE, EMPLEADO, JORNALERO, CTA PROPIA

82 JEFES HOG, TRABAJO, JORNALERO, PATRON, CTA PROPIA, TEL, AUTO

83 TRABAJO

84 ISSSTE, PEM DN MAR, EMPLEADO, JORNALERO

85 TOT PER, ISSSTE, PEM DN MAR, SIN SEV, EMPLEADO, JORNALERO, PATRON, CTA PROPIA, COMPU, AUTO

86 TRABAJO, JORNALERO, AUTO

87 JEFES HOG, TRABAJO, CTA PROPIA

88 EMPLEADO, JORNALERO, CTA PROPIA, ISSSTE

89 JEFES HOG, EMPLEADO, JORNALERO, VIVS, AUTO

90 TEL, TRABAJO

91 EMPLEADO, PATRON, VIVS

92 NO TRAB

93 IMSS, ISSSTE, TRABAJO

94 JEFES HOG, IMSS, SIN SEV, EMPLEADO, JORNALERO, CTA PROPIA, AUTO

95 TOT PER, IMSS, SIN SEV, EMPLEADO, JORNALERO, PATRON, TEL

96 JEFES HOG, ISSSTE, EMPLEADO, JORNALERO, AUTO

97 TOT PER, SIN SEV, EMPLEADO, JORNALERO

98 TOT PER, SIN SEV, EMPLEADO, JORNALERO, PATRON, COMPU

99 JEFES HOG, EMPLEADO, JORNALERO, CTA PROPIA, AUTO

100 TOT PER, IMSS, PEM DN MAR, OTRA INTS, SIN SEV, EMPLEADO

101 TRABAJO, JORNALERO, NO TRAB

102 TOT PER, IMSS, ISSSTE, SIN SEV, EMPLEADO, JORNALERO, COMPU, TEL

103 TOT PER, IMSS, OTRA INTS, SIN SEV, VIVS

104 IMSS, SIN SEV, EMPLEADO, JORNALERO, VIVS

105 EMPLEADO, JORNALERO

106 EMPLEADO, JORNALERO, PATRON, CTA PROPIA, AUTO

Page 95: Modelos con coeficientes variables en muestreo de ...

Bibliografıa

[1] F. Jay Breidt and Jean D. Opsomer Nonparametric and semiparametricestimation in complex surveys., September 4, 2008

[2] Jianqing Fan and Wenyang Zhang Statistical methods with varying coef-ficient models., Statistics and its interface Volume 1 ( 2008) 179-195

[3] J. D. Opsomer, G. Claeskens, M. G. Ranalli, G. Kauermann, F. J. BreidtNonparametric Small Area Estimation Using Penalized Spline Regres-sion., ( 2006)

[4] Breidt, F.J., G. Claeskens, and J.D. Opsomer. (2005) Estimationfor Complex Surveys Using Penalized Splines., Biometrika, 92, 831-846.(2005)

[5] Fan J, Yao Q, Cai Z. Adaptative varying-coefficient linear models., Jour-nal of Royal statistical Society B ( 2003 ; 65:57-80) 179-195

[6] Breidt, F.J. and J.D. Opsomer. Local Polynomial Regression Estimatorsin Survey Sampling, The Annals of Statistics, 28, 1026-1053.(2000)

[7] John O. Rawlings, Sastry G. Pantula, David A. Dickey Applied Regres-sion Analysis (Second Edition), Springer ,(2001)

[8] XII Censo de poblacion y vivienda 2000 Sıntesis Metodologica, INEGI,(2003)

[9] XII Censo de poblacion y vivienda 2000 Tabulados de la muestra censal,cuestionario ampliado, INEGI, (2000)

[10] Hastie, T. and R. Tibshirani (1993). Varying-Coefficient Models, Journalof the Royal Statistical Society. Series B (Methodological), 55, 757-796(1993).

79

Page 96: Modelos con coeficientes variables en muestreo de ...

80 BIBLIOGRAFIA

[11] J. Fan, I. Gijbels. Local polynomial modelling and its applications, Chap-man & Hall.(1996)

[12] Sarndal, C.E., B. Swensson, and J. Wretman. Model Assisted SurveySampling, New York: Springer-Verlag, (1992)

[13] Arijit Chaudhuri,Horst Stenger. Survey Sampling Theory and MethodsSecond Edition, Chapman & Hall/CRC Taylor & Francis Group (2005).

[14] Hardle. Applied nonparametric regression, Cambridge Universitypress.(1990)

[15] J. Elıas Rodrıguez M. Apuntes de muestreo II.,MCEO,(2007)

[16] INEGI Cuestionario Basico Censo del 2000 , INEGI,(2000)http://www.inegi.org.mx/est/contenidos/espanol/cuestionarios/censos/cgpyv2000basico.pdf

[17] INEGI Cuestionario Ampliado Censo del 2000 , INEGI,(2000)http://www.inegi.org.mx/est/contenidos/espanol/cuestionarios/censos/cgpyv2000amplio.pdf