Muestreo en Poblaciones Finitas - Universidad de...

Muestreo en Poblaciones FinitasEstratos y Conglomerados

José A. Mayor Gallego

Departamento de Estadística e Investigación OperativaUniversidad de Sevilla

Septiembre de 2011

INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011Estratos y Conglomerados CB � 1/35

Contenidos

1 Diseños Muestrales Básicos

2 Estratos y Conglomerados

3 Muestreo Estratificado

4 Post-estratificación

5 Muestreo por Conglomerados. Una Etapa

6 Muestreo por Conglomerados. Dos Etapas

7 Selección Con Reemplazamiento de Conglomerados en laPrimera Etapa

8 Bibliografía


Diseños muestrales básicosEn su aspecto más simple, el proceso de muestreo y estimacióncomienza seleccionando una muestra m de una población U. Estaselección es aleatoria y se puede hacer de muchas formas,

Muestreo Aleatorio Simple.

Muestreo de Bernoulli.

Muestreo Sistemático Uniforme.

Muestreos con Probabilidades Variables: Sampford, Madow, etc.

Y un largo etcétera.

Diseño Muestral. Definición formalUn conjunto de muestras potenciales, y una distribución deprobabilidad sobre las mismas.

Diseño Muestral. Concepto aplicado

Un conjunto de especificaciones y reglas para seleccionar unamuestra (aleatoria) de una población.


Diseños Muestrales Básicos

Para su desarrollo inicial, la teoría del Muestreo presupone quelos elementos de la muestra m se obtienen mediante unproceso de selección DIRECTA en la población U.

Teóricamente, esto es necesario para la elaboraciónmetodológica de resultados matemáticos iniciales.

En la práctica real del Muestreo, este planteamiento presentalimitaciones, tanto en relación a la propia problemática de lafase de muestreo, como en relación a la estimación y suserrores inherentes.


Problemáticas

PRECISIÓNSi la variable de estudio presenta una elevada dispersión ovariabilidad, el error de muestreo puede ser muy elevado. Pararesolver este problema, la población se divide en bloques máshomogéneos y se selecciona una muestra en cada bloque. Estosbloques se denominan ESTRATOS.

ACCESIBILIDADNo se dispone de un “marco” o lista poblacional directa dondeseleccionar los elementos de la muestra. Para acceder a ellos, serecurre a estructuras intermedias de manera que el muestreocomienza seleccionando una muestra de dichas estructuras, paraposteriormente muestrear dentro de las mismas. Estas estructurasse denominan CONGLOMERADOS.


Situación 1: Muestreo Estratificado

En una provincia, dividida en siete comarcas de similar tamaño, sequiere realizar un estudio de la producción de cereal mediante laselección de una muestra de granjas.

Para ello, en cada comarca se realiza un muestreo seleccionando 10granjas. Al final, tenemos una muestra de 70 granjas formada por launión de las muestras obtenidas en cada comarca.

Al final tenemos una muestra final de 70 granjas que NO se hanobtenido directamente de la población provincial de granjas, sino através de las comarcas.

Esto es un muestreo estratificado siendo las comarcas los estratos


Situación 2: Muestreo por Conglomerados

En un distrito municipal se desea realizar una encuesta entre lapoblación de entre 16 y 25 años, para estudiar sus hábitos de lectura.El distrito está dividido en 47 secciones censales de las que seseleccionan CUATRO mediante muestreo.

Muestreo por conglomerados en una etapa

Las cuatro secciones se estudian de forma exhaustiva, es decir,todos los jovenes de las mismas son entrevistados. Si las seccionescensales de la muestra tienen respectivamente 200, 350, 120 y 250jóvenes, la muestra final tendrá 920 jóvenes.

Muestreo por conglomerados en dos etapas

En cada una de las cuatro secciones se realiza un muestreo. Si lasmuestras son de 80 jóvenes, la muestra final tendrá 320 jóvenes.


Muestreo Estratificado

La población está dividida en L estratos, disjuntos.

U1,U2, . . . ,UL, U = ∪Lh=1Uh

Se realizan L muestreos independientes, uno en cada estrato.

Uh −→ mh mediante un diseño dh h = 1, . . . ,L

Muestra final.m = m1 ∪m2 ∪ · · · ∪mL

Probabilidades de inclusión. Varían según el estrato.

πhi , πh

ij , ∆hij = πh

ij − πhi π

hj i , j ∈ Uh


Estimación del Total Poblacional

Total poblacional. Descomposición por estratos.

ty =∑i∈U

yi =L∑

h=1

∑i∈Uh

yi =L∑

h=1

tyh

π-estimador.

ty =L∑

h=1

tyh =L∑

h=1

∑i∈mh

yi

πhi

Varianza y varianza estimada.

V [ty ] = V

L∑h=1

∑i∈mh

yi

πhi

=L∑

h=1

V

∑i∈mh

yi

πhi

=L∑

h=1

∑i j∈Uh

∆hij

yi

πhi

yj

πhj

V [ty ] =L∑

h=1

∑i j∈mh

∆hij

πhij

yi

πhi

yj

πhj


Estimación de la Media Poblacional

Media poblacional.

yU =tyN

π-estimador.

yUπ =1N

L∑h=1

∑i∈mh

yi

πhi


V [yUπ] =1

N2

L∑h=1

∑i j∈Uh

∆hij

yi

πhi

yj

πhj

V [yUπ] =1

N2

L∑h=1

∑i j∈mh

∆hij

πhij

yi

πhi

yj

πhj


Caso Particular. Muestreo Aleatorio Simple Estratificado

En cada estrato Uh se realiza un muestreo aleatorio simpleMAS(Nh,nh).

πhi =

nh

Nh, πh

ij =nh(nh − 1)

Nh(Nh − 1), i 6= j

Estimación de media poblacional.

yU =L∑

h=1

Whymh Wh =Nh

Nymh =

1nh

∑i∈mh

yi


V [yU ] =L∑

h=1

W 2h

1− fhnh

S2yUh S2

yUh =1

Nh − 1

∑i∈Uh

(yi − yUh)2

V [yU ] =L∑

h=1

W 2h

1− fhnh

S2ymh S2

ymh =1

nh − 1

∑i∈mh

(yi − ymh)2


Afijación

Afijación

Es la distribución del tamaño total de muestra, n, en cada uno de losestratos, es decir, n1, n2, . . . ,nL.

Afijación proporcional. Tamaño muestral proporcional al tamañodel estrato.

nh = f Nh, h = 1, . . . ,L

Afijación óptima.

nh = nNhSyUh∑L

h=1 NhSyUh, h = 1, . . . ,L

Afijación X -óptima. X es una variable auxiliar conocida,relacionada con Y .

nh = nNhSxUh∑L

h=1 NhSxUh, h = 1, . . . ,L


Eficiencia Comparada con en Muestreo No Estratificado

En general, no se puede asegurar que el muestreo estratificado, aigualdad de tamaño muestral total, n, disminuya el error de muestreoen relación al muestreo no estratificado. Ello depende, básicamente,de,

La estructura de estratos en relación a la variable de estudio Y .

El tipo de afijación.


Afijación Proporcional

VMAS[yU ]: varianza con muestreo aleatorio simple.

VPROP[yU ]: varianza con muestreo aleatorio simple estratificadocon afijación proporcional.

Diferencia de varianzas

VMAS[yU ]− VPROP[yU ] ≈ (1n− 1

N)

L∑h=1

Wh(yUh − yU)2 ≥ 0

Conclusiones

No aumenta el error.

Conforme los estratos sean más distintos, más eficiente es elmuestreo estratificado.


Estructura de Estratos

Los estratos han de ser, internamente homogéneos, y porconsiguiente, muy diferentes unos de otros, en relación a lavariable de estudio.

Si una característica preexistente está relacionada con lavariable de estudio, puede ser adecuada para estratificar. Porejemplo divisiones geográficas, sexo, edad, nivel de estudios,etc.

En un estudio sobre preferencias políticas, la edad puede dar buenosresultados para definir los estratos.

Como ventajas secundarias, el muestreo estratificado permiteobtener también estimaciones en cada uno de los estratos yrealizar comparaciones entre ellos.


Estratificación y Estimador de Razón de la Media. MAS(N, n)

Estimación separada. Varianza estimada.

yUraz,sep =L∑

h=1

Whymh

xmhxUh =

L∑h=1

WhRhxUh

V [yUraz,sep] =L∑

h=1

W 2h

1− fhnh

(S2ymh + R2

hS2xmh − 2RhSxymh)

Estimación combinada. Varianza estimada.

yUraz,com =

∑Lh=1 Whymh∑Lh=1 Whxmh

xU = R xU

V [yUraz,com] =L∑

h=1

W 2h

1− fhnh

(S2ymh + R2S2

xmh − 2RSxymh)


Estratificación y Estimador de Regresión de la Media. MAS(N, n)

Estimación separada. Varianza estimada.

yUreg,sep =L∑

h=1

Wh[ymh + bh(xUh − xmh)]

V [yUreg,sep] =L∑

h=1

W 2h

1− fhnh

S2ymh(1− r2

h )

siendo,

bh =Sxymh

S2xmh

y r2h =

S2xymh

S2xmhS2

ymh


Estratificación y Estimador de Regresión de la Media. MAS(N, n)

Estimación combinada. Varianza estimada.

yUreg,com = yUest + bcom(xU − xUest)

V [yUreg,com] =L∑

h=1

W 2h

1− fhnh

(S2ymh + b2

comS2xmh − 2bcomSxymh)

siendo,

yUest =L∑

h=1

Whymh xUest =L∑

h=1

Whxmh

bc =

∑Lh=1 W 2

h1−fh

nhSxymh∑L

h=1 W 2h

1−fhnh

S2xmh


Estimación Separada o Combinada

El tipo de estimación dependerá del modelo funcional existenteentre Y y X , en relación a los estratos.

Si el modelo de relación es diferente según los estratos, unestimador separado resultará más adecuado.

Si el tamaño muestral es elevado, la estimación de parámetrosen cada estrato será más precisa y un estimador separado darábuenos resultados pues reflejará mejor las diferenciasexistentes entre unos estratos y otros.

Si el modelo de relación es similar en todos los estratos, y eltamaño de muestra no es muy elevado, será preferible unestimador combinado.


Post-estratificación

En este tipo de muestreo, los elementos son seleccionadosdirectamente de U con un diseño simple, y una vez estudiados,son ubicados en los correspondientes estratos.

Con ello, no es necesario disponer de marcos en cada estratosal realizar el muestreo.

En este muestreo, el tamaño muestral en cada estrato esincontrolable, siendo una situación similar a la que se presentaen la estimación en subpoblaciones.

Ejemplo

En una encuesta sobre economía familiar, las familias estánclasificadas según tengan un integrante, dos, tres y cuatro o más. Lamuestra se selecciona directamente en U y posteriormente, una vezrecogida la información, los elementos se distribuyen en loscorrespondientes grupos o estratos.


Post-Estratificación. Estimación de la Media Poblacional. MAS(N,n)

Estimador insesgado de la media poblacional.

yUpost =L∑

h=1

Whymh siendo ymh =1nh

∑i∈mh

yi mh = m∩Uh

Varianza.

V [yUpost] ≈1− f

n

L∑h=1

WhS2yUh +

1− fn2

L∑h=1

(1−Wh)S2yUh

Varianza estimada.

V [yUpost] =1− f

n

L∑h=1

WhS2ymh +

1− fn2

L∑h=1

(1−Wh)S2ymh

Para valores grandes de n el error es similar al que se comete con elmuestreo aleatorio simple estratificado con afijación proporcional.


Muestreo por Conglomerados en una Etapa

La población U está dividida en M conglomerados o partes,

C1, . . . ,CM siendo Ni el tamaño de Ci

Uc es la población de conglomerados, de la que se extrae unamuestra mc

Uc = {C1,C2, . . . ,CM}

mc = {Cj1 ,Cj2 , . . . ,Cjg}

Probabilidades de inclusión de los conglomerados.

πci i ∈ Uc y πc

ij i , j ∈ Uc

Los conglomerados en mc son estudiados exhaustivamente, esdecir, todos sus elementos.



Estimador del total. Insesgado.

ty =∑i∈mc

ty (Ci )

πci

, siendo ty (Ci ) =∑k∈Ci

yk

Varianza.

V [ty ] =∑

i j∈Uc

∆cij

ty (Ci )

πci

ty (Ci )

πcj

Varianza estimada. Insesgada.

V [ty ] =∑

i j∈mc

∆cij

πcij

ty (Ci )

πci

ty (Cj )

πcj



Estimador de la media. Insesgado.

yU =1N

∑i∈mc

ty (Ci )

πci

, siendo ty (Ci ) =∑k∈Ci

yk

Varianza.

V [yU ] =1

N2

∑i j∈Uc

∆cij

ty (Ci )

πci

ty (Ci )

πcj


V [yU ] =1

N2

∑i j∈mc

∆cij

πcij

ty (Ci )

πci

ty (Cj )

πcj


Estimación Hájek de la Media Poblacional

Estimador de la media. Sesgado es general.

yUHJ =

∑i∈mc

ty (Ci )/πci∑

i∈mcNi/π

ci

=

∑i∈mc

ty (Ci )/πci

N

Varianza aproximada.

V [yUHJ] ≈1

N2

∑i j∈Uc

∆cij

(ty (Ci )− yUNi )

πci

(ty (Cj )− yUNj )

πcj

Varianza estimada.

V [yUHJ] =1

N2

∑i j∈mc

∆cij

(ty (Ci )− yUHJNi )

πci

(ty (Cj )− yUHJNj )

πcj


Muestreo por Conglomerados en Dos Etapas

La población U está dividida en M conglomerados o partes,

C1, . . . ,CM siendo Ni el tamaño de Ci

Uc es la población de conglomerados, de la que se extrae unamuestra mc

Uc = {C1,C2, . . . ,CM}mc = {Cj1 ,Cj2 , . . . ,Cjg}

Probabilidades de inclusión de los conglomerados.

πci i ∈ Uc y πc

ij i , j ∈ Uc

En cada conglomerado Ci en mc se selecciona una muestra deelementos, mi .

Probabilidades de inclusión para el muestreo en Ci

πik , k ∈ Ci y πi

kl k , l ∈ Ci i ∈ Uc




ty =∑i∈mc

ty (Ci )

πci

, siendo ty (Ci ) =∑k∈mi

yk

πik

Varianza.

V [ty ] =∑

i j∈Uc

∆cij

ty (Ci )

πci

ty (Cj )

πcj

+∑i∈Uc

1πc

i

∑k l∈Ci

∆ikl

yk

πik

yl

πil


V [ty ] =∑

i j∈mc

∆cij

πcij

ty (Ci )

πci

ty (Cj )

πcj

+∑i∈mc

1πc

i

∑k l∈mi

∆ikl

πikl

yk

πik

yl

πil



Estimador de la media. Insesgado.

yU =1N

∑i∈mc

ty (Ci )

πci

, siendo ty (Ci ) =∑k∈mi

yk

πik

Varianza.

V [yU ] =1

N2

∑i j∈Uc

∆cij

ty (Ci )

πci

ty (Cj )

πcj

+1

N2

∑i∈Uc

1πc

i

∑k l∈Ci

∆ikl

yk

πik

yl

πil


V [yU ] =1

N2

∑i j∈mc

∆cij

πcij

ty (Ci )

πci

ty (Cj )

πcj

+1

N2

∑i∈mc

1πc

i

∑k l∈mi

∆ikl

πikl

yk

πik

yl

πil


Estimación de Hájek de la Media Poblacional

Estimador de la media. Sesgado es general.

yUHJ =

∑i∈mc

ty (Ci)/πci∑

i∈mcNi/πc

i=

∑i∈mc

ty (Ci)/πci

N, siendo ty (Ci) =

∑k∈mi

yk

πik

Varianza aproximada.

V [yUHJ] ≈1

N2

∑i j∈Uc

∆cij

(ty (Ci )− yU Ni )

πci

(ty (Cj )− yU Nj )

πcj

+1

N2

∑i∈Uc

1

πci

∑k l∈Ci

∆ikl

yk

πik

yl

πil

Varianza estimada.

V [yUHJ] =1

N2

∑i j∈mc

∆cij

πcij


πci


πcj

+1

N2

∑i∈mc

1

πci

∑k l∈mi

∆ikl

πikl

yk

πik

yl

πil


Observaciones

Cada etapa de muestreo añade un término aditivo a la varianza.

En dos etapas, la varianza está compuesta de un términooriginado por la selección de conglomerado, y otro originado porla selección de elementos dentro de los conglomerados.

El muestreo por conglomerados producirá menos error si losconglomerados son similares entre sí en relación a la variableque se estudia, lo opuesto a los estratos.

El “software” existente de estimación en muestreo, como SPSS,SAS y R[survey], utiliza el estimador insesgado, basado enHorvitz-Thompson, para el total, y el de tipo Hájek para lamedia.


Selección ΠPS de Conglomerados

Varianza de la estimación del total. Una etapa.

V [ty ] =∑

i j∈Uc

∆cij

ty (Ci )

πci

ty (Ci )

πcj

Si el tamaño de muestra es fijo. Yates-Grundy-Sen.

V [ty ] = −12

∑i j∈Uc

∆cij

(ty (Ci )

πci−

ty (Ci )

πcj

)2

Si el comportamiento “medio” de los conglomerados en relacióna la variable de estudio es similar, tendremos,

ty (Ci ) ≈ proporcional a Ni

Seleccionando los conglomerados con probabilidades de inclusiónde primer orden proporcionales a sus tamaños, Ni , se puedeconseguir una reducción de varianza y por consiguienteestimaciones más precisas.


Selección Con Reemplazamiento de Conglomerados

Supongamos que en un muestreo por conglomerados, encualquier número de etapas, la primera etapa es conreemplazamiento seleccionándose g conglomerados.

Si un conglomerado se repite en la muestra, en la siguienteetapa es submuestreado tantas veces como aparezca, conmuestreos independientes. Y así en sucesivas etapas.

La selección en la primera etapa se realiza mediante unadistribución de probabilidad,

pi , i ∈ Uc

definida sobre los conglomerados de la primera etapa.

Se aplica el estimador de Hansen-Hurwitz.


Estimación del total. Dos Etapas


tyHH =1g

∑i∈mc

ty (Ci )

pi

Varianza.

V [tyHH] =1g

∑i∈Uc

pi

( ty (Ci )

pi− ty

)2+

1g

∑i∈Uc

V [ty (Ci )]

pi

Varianza estimada.

V [tyHH] =1

g(g − 1)

∑i∈mc

( ty (Ci )

pi− tyHH

)2


Observaciones

Si la primera etapa se realiza con reemplazamiento, laexpresión de la varianza estimada se simplifica.

No es necesario conocer probabilidades de inclusión desegundo orden asociadas al proceso de selección deconglomerados.

En la práctica no es usual emplear muestreo conreemplazamiento pero sí utilizar la expresión asociada de lavarianza estimada sabiendo que proporcionará una estimaciónconservadora. Véase Tema 3.

El “software” de estimación en muestreo SAS y R[survey], utilizaesté procedimiento aproximado para calcular los errores demuestreo.

El “software” SPSS puede emplear las expresiones exactas,haciendo uso de las probabilidades πc

ij , o también lasaproximadas si no disponemos de dichas probabilidades.


Bibliografía

Fernández García, F.R. y Mayor Gallego, J.A. (1995). Muestreo enpoblaciones finitas: Curso básico. E.U.B. Ediciones Universitarias deBarcelona.

Lohr, S.L. (2010). Sampling: Design and Analysis. 2nd. Edition.Brooks/Cole. International Edition.

Särndal, C., Swensson, B. and Wretman, J. (1992). Model AssistedSurvey Sampling. Springer-Verlag. New York, Inc.


Muestreo en Poblaciones Finitas - Universidad de...

Documents

Transcript of Muestreo en Poblaciones Finitas - Universidad de...