EUSKAL ESTATISTIKA ERAKUNDEA INSTITUTO VASCO DE … · 2010-11-23 · 52 EUSKAL ESTATISTIKA...

58
52 EUSKAL ESTATISTIKA ERAKUNDEA INSTITUTO VASCO DE ESTADÍSTICA Muestreo Equilibrado Eficiente: El Método del Cubo Yves Tillé NAZIOARTEKO ESTATISTIKA MINTEGIA SEMINARIO INTERNACIONAL DE ESTADÍSTICA 2010

Transcript of EUSKAL ESTATISTIKA ERAKUNDEA INSTITUTO VASCO DE … · 2010-11-23 · 52 EUSKAL ESTATISTIKA...

52

EUSKAL ESTATISTIKA ERAKUNDEAINSTITUTO VASCO DE ESTADÍSTICA

EUSKAL ESTATISTIKA ERAKUNDEAINSTITUTO VASCO DE ESTADÍSTICA

www.eustat.es

Muestreo Equilibrado Eficiente:El Método del Cubo

Yves Tillé

NAZIOARTEKO ESTATISTIKA MINTEGIASEMINARIO INTERNACIONAL DE ESTADÍSTICA

2010

Portada_Semimario_52.indd 1 07/10/10 16:12

Muestreo Equilibrado Eficiente:El Metodo del Cubo

Yves TilleInstitut de Statistique, Universite de Neuchatel

Pierre a Mazel 7, 2002 Neuchatel, Suiza

email : [email protected]

29 de septiembre de 2010

Lanketa / Elaboración:

Euskal Estatistika ErakundeaInstituto Vasco de Estadística (EUSTAT)

Argitalpena / Edición:

Euskal Estatistika ErakundeaInstituto Vasco de EstadísticaDonostia – San Sebastián, 1 – 01010 Vitoria – Gasteiz

Euskal AEko AdministrazioaAdministración de la C.A. de Euskadi

Ale-kopurua / Tirada:500 ale / ejemplares

XI-2010

Inprimaketa eta Koadernaketa:Impresión y Encuadernacion:Estudios Gráficos ZURE S.A.Ctra. Lutxana-Asua, 24 AErandio-Goikoa (BIZKAIA)

I.S.B.N.: 978-84-7749-465-2Lege-gordailua / Depósito Legal: BI-2699-10

III

AURKEZPENA

Nazioarteko Estatistika Mintegia antolatzean, hainbat helburu bete nahi ditu EUSTAT-Euskal Estatistika Erakundeak:

– Unibertsitatearekiko eta, batez ere, Estatistika-Sailekiko lankidetza bultzatzea.– Funtzionarioen, irakasleen, ikasleen eta estatistikaren alorrean interesatuta egon daitezkeen guz-

tien lanbide-hobekuntza erraztea.– Estatistika alorrean mundu mailan abangoardian dauden irakasle eta ikertzaile ospetsuak Eus-

kadira ekartzea, horrek eragin ona izango baitu, zuzeneko harremanei eta esperientziak ezagu-tzeari dagokienez.

Jarduera osagarri gisa, eta interesatuta egon litezkeen ahalik eta pertsona eta erakunde gehienetara iristearren, ikastaro horietako txostenak argitaratzea erabaki dugu, beti ere txostengilearen jato-rrizko hizkuntza errespetatuz; horrela, gai horri buruzko ezagutza gure herrian zabaltzen lagun-tzeko.

Vitoria-Gasteiz, 2010eko Urria

JAVIER FORCADA SAINZEUSTATeko Zuzendari Nagusia

PRESENTATION

In promoting the International Statistical Seminars, EUSTAT-The Basque Statistics Institute wishes to achieve several aims:

– Encourage the collaboration with the universities, especially with their statistical departments.– Facilitate the professional recycling of civil servants, university teachers, students and whoever

else may be interested in the statistical field.– Bring to the Basque Country illustrious professors and investigators in the vanguard of statis-

tical subjects, on a worldwide level, with the subsequent positive effect of encouraging direct relationships and sharing knowledge of experiences.

As a complementary activity and in order to reach as many interested people and institutions as possible, it has been decided to publish the papers of these courses, always respecting the original language of the author, to contribute in this way towards the growth of knowledge concerning this subject in our country.

Vitoria-Gasteiz, October 2010

JAVIER FORCADA SAINZGeneral Director of EUSTAT

IV

PRESENTACION

Al promover los Seminarios Internacionales de Estadística, el EUSTAT-Instituto Vasco de Esta-dística pretende cubrir varios objetivos:

– Fomentar la colaboración con la Universidad y en especial con los Departamentos de Estadística.– Facilitar el reciclaje profesional de funcionarios, profesores, alumnos y cuantos puedan estar

interesados en el campo estadístico.– Traer a Euskadi a ilustres profesores e investigadores de vanguardia en materia estadística, a nivel

mundial, con el consiguiente efecto positivo en cuanto a la relación directa y conocimiento de experiencias.

Como actuación complementaria y para llegar al mayor número posible de personas e Institucio-nes interesadas, se ha decidido publicar las ponencias de estos cursos, respetando en todo caso la lengua original del ponente, para contribuir así a acrecentar el conocimiento sobre esta materia en nuestro País.

Vitoria-Gasteiz, Octubre 2010

JAVIER FORCADA SAINZDirector General de EUSTAT

V

BIOGRAFI OHARRAK

Yves Tillé doktorea da Bruselako Unibertsitate Librean, estatistikan. 2001 ezkeroztik irakasle dihardu Suitzako Neuchâtel unibertsitatean. Inkesta-estatistika eta laginketaren teorian ari da ikertzen.

BIOGRAPHICAL SKETCH

Yves Tillé was awarded his pHD in Statistics by the Free University of Brussels. He has been a professor at Neuchâtel University in Switzerland since 2001. His fields of research are survey statistics and sampling theory.

NOTAS BIOGRÁFICAS

Yves Tillé ha logrado un doctorado en estadística de la Universidad libre de Bruselas. Desde 2001, es profesor en la Universidad de Neuchâtel en Suiza. Sus campos de investigaciones son la estadística de encuesta y la teoría del muestreo.

1

Indice general

1. Introduccion 3

2. Poblacion, diseno muestral, y estimacion 42.1. Poblacion finita . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42.2. Diseno del Muestreo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52.3. El estimador de Horvitz-Thompson . . . . . . . . . . . . . . . . . . . . 62.4. Estimacion de N . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72.5. Mala propiedad del estimador de Horvitz-Thompson . . . . . . . . . . 72.6. El problema de los elefantes de Basu (1971) . . . . . . . . . . . . . . . 7

3. Muestreo simple 93.1. Muestreo simple sin reemplazamiento (o muestro aleatorio simple m.a.s.) 93.2. La varianza del diseno simple sin reemplazamiento . . . . . . . . . . . . 103.3. Algoritmo de seleccion-rechazo . . . . . . . . . . . . . . . . . . . . . . . 113.4. Disenos simples con reemplazamiento . . . . . . . . . . . . . . . . . . . 123.5. Comparacion de los disenos simples . . . . . . . . . . . . . . . . . . . . 13

4. Estratificacion 144.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144.2. Poblacion y estratos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144.3. Muestra, probabilidad de inclusion, estimacion . . . . . . . . . . . . . 154.4. Probabilidad de inclusion . . . . . . . . . . . . . . . . . . . . . . . . . . 164.5. Plan estratificado con afijacion proporcional . . . . . . . . . . . . . . . 174.6. Diseno estratificado optimo para el total . . . . . . . . . . . . . . . . . 194.7. Nota sobre la optimalidad en estratificacion . . . . . . . . . . . . . . . 204.8. Optimalidad y coste . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204.9. Tamano de muestra mınimo . . . . . . . . . . . . . . . . . . . . . . . . 20

5. Muestreo con probabilidades desiguales 225.1. Informacion auxiliar y probabilidades de inclusion . . . . . . . . . . . . 225.2. Calculo de las probabilidades de inclusion . . . . . . . . . . . . . . . . 225.3. Muestreo con probabilidades desiguales con reemplazamiento . . . . . . 235.4. Diseno de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245.5. Muestreo de entropıa maxima con tamano fijo . . . . . . . . . . . . . . 255.6. El diseno muestral sistematico . . . . . . . . . . . . . . . . . . . . . . . 25

2

5.7. El metodo de escision . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265.7.1. Escision en dos partes . . . . . . . . . . . . . . . . . . . . . . . 265.7.2. Escision en M partes . . . . . . . . . . . . . . . . . . . . . . . . 285.7.3. Diseno con un soporte mınimo . . . . . . . . . . . . . . . . . . . 295.7.4. Escision en disenos simples . . . . . . . . . . . . . . . . . . . . . 295.7.5. El metodo del pivote . . . . . . . . . . . . . . . . . . . . . . . . 305.7.6. Metodo de Brewer . . . . . . . . . . . . . . . . . . . . . . . . . 31

5.8. Varianza en disenos con probabilidades desiguales . . . . . . . . . . . . 32

6. Muestreo equilibrado 336.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 336.2. Representacion por un cubo . . . . . . . . . . . . . . . . . . . . . . . . 346.3. Muestras equilibradas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 346.4. Representacion grafica del problema de redondeado . . . . . . . . . . . 356.5. La martingala equilibrada . . . . . . . . . . . . . . . . . . . . . . . . . 386.6. Implementacion de la fase de vuelo . . . . . . . . . . . . . . . . . . . . 386.7. Implementacion de la fase de aterrizaje . . . . . . . . . . . . . . . . . 39

6.7.1. El problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 396.7.2. Solucion 1: programa linear . . . . . . . . . . . . . . . . . . . . 406.7.3. Solucion 2: supresion sucesiva de variables . . . . . . . . . . . . 40

6.8. Varianza en un plan equilibrado . . . . . . . . . . . . . . . . . . . . . . 416.8.1. Una tecnica de residuos . . . . . . . . . . . . . . . . . . . . . . 416.8.2. Aproximacion de la varianza . . . . . . . . . . . . . . . . . . . . 416.8.3. Estimacion de la varianza . . . . . . . . . . . . . . . . . . . . . 42

6.9. Muestreo equilibrado en practica . . . . . . . . . . . . . . . . . . . . . 426.9.1. Interes de muestreo equilibrado . . . . . . . . . . . . . . . . . . 426.9.2. Muestreo Equilibrado Contra Otras Tecnicas de Muestreo . . . 446.9.3. Eleccion de las variables de equilibrio . . . . . . . . . . . . . . . 446.9.4. Equilibrio versus Calibracion . . . . . . . . . . . . . . . . . . . . 456.9.5. Precision de las ecuaciones de equilibrio . . . . . . . . . . . . . 466.9.6. Principales Implementaciones de muestreo equilibrado . . . . . . 46

3

Capıtulo 1

Introduccion

Este pequeno libro ha sido escrito a raız de una invitacion al Instituto Vasco deEstadıstica. El objetivo era presentar el metodo del cubo para seleccionar muestrasequilibradas y de mostrar el interes del metodo. Sin embargo, he empezado por una pre-sentacion general de la teorıa de muestreo, con las definiciones del diseno de muestreo,del estimador de Horvitz-Thompson y su varianza. Tambien, he desarrollado dos capıtu-los sobre los disenos simples y estratificados ya que el muestreo equilibrado es unageneralizacion de estos disenos. El largo capıtulo sobre los disenos con probabilidadesdesiguales y el metodo de escision es una introduccion al metodo del cubo. En efecto,el metodo de escision es el caso particular del algoritmo de cubo cuando solamenteuna variable auxiliar proporcional a las probabilidades de inclusion es disponible. Elmetodo de escision es el que nos lleva a proponer el metodo del cubo.

Despues de esta larga introduccion, presentamos el metodo del cubo: el principiodel algoritmo, su implementacion, el calculo de las varianzas y sus estimaciones. Tam-bien hemos anadido una larga discusion sobre el interes del metodo, sus principalesaplicaciones, sus implementaciones y los limites.

4

Capıtulo 2

Poblacion, diseno muestraly estimacion

2.1. Poblacion finita

El objetivo es estudiar una poblacion finita U = {1, . . . , N} de tamano N . Lavariable de interes y toma el valor yk, k ∈ U. Queremos estimar una funcion de interesde los yk,

θ = f(y1, . . . , yk, . . . , yN).

Por ejemplo, el total o la media

Y =∑k∈U

yk, e Y =1

N

∑k∈U

yk.

porque se puede escribir

N =∑k∈U

1.

La varianza

σ2y =

1

N

∑k∈U

(yk − Y )2.

La cuasivarianza

S2y =

1

N − 1

∑k∈U

(yk − Y )2.

Existen funciones no lineales de los yk como un ratio

R =Y

X,

dondeX =

∑k∈U

xk.

Un ratio es una funcion no lineal de los valores yk. Existen tambien funciones mascomplejas como un coeficiente de correlacion, la mediana, o los coeficientes dedesigualdades.

5

2.2. Diseno del Muestreo

Una muestra s es un subconjunto de la poblacion s ⊂ U. Un diseno muestral p(s)es una distribucion de probabilidad sobre todas las muestras posibles

∑s⊂U

p(s) = 1.

La muestra aleatoria S toma el valor s con la probabilidad

Pr(S = s) = p(s).

Las variables indicadoras son definidas por :

Ik =

{1 si la unidad k ∈ S0 si la unidad k /∈ S.

La probabilidad de inclusion es la probabilidad que la unidad k sea seleccionada en lamuestra aleatoria :

πk = Pr(k ∈ S) =∑s�k

p(s) = E(Ik) = .

La probabilidad de inclusion de segundo orden es la probabilidad que dos unidadesdistintas sean seleccionadas conjuntamente en la muestra :

πk� = E(IkI�) = Pr(k y � ∈ S) =∑s�k,�

p(s).

Ademas

∆k� = Cov(Ik, I�)

{πk(1− πk) si k = �πk� − πkπ� si k �= �

Si el diseno muestral es de tamano fijo, entonces

∑k∈U

πk = n.

En effecto,∑k∈U

πk =∑k∈U

E(Ik) = E

(∑k∈U

Ik

)= E(n) = n.

Ademas, es posible demostrar que, para un diseno muestral de tamano fijo,

∑�∈U

πk� = nπk con πkk = πk.

6

2.3. El estimador de Horvitz-Thompson

El estimador de Horvitz-Thompson para el total viene dado por

Yπ =∑k∈S

ykπk

,

y para la media

Y π =1

N

∑k∈S

ykπk

.

El estimador de Horvitz-Thompson es insesgado, si πk > 0, k ∈ U. En efecto

E(Yπ

)= E

(∑k∈S

ykπk

)

= E

(∑k∈U

ykπk

Ik

)

=∑k∈U

ykπk

E (Ik)

=∑k∈U

ykπk

πk

=∑k∈U

yk

= Y.

La varianza del estimador de Horvitz-Thompson es

var(Yπ

)= var

(∑k∈U

ykπk

Ik

)

=∑k∈U

y2kπ2k

var(Ik) +∑k∈U

∑�∈U

yky�πkπ�

Cov(Ik, I�)

=∑k∈U

y2kπ2k

πk(1− πk) +∑k∈U

∑�∈U��=k

yky�πkπ�

∆k�. (2.1)

Se puede demostrar que con una muestra de tamano fijo

var(Yπ

)=

−1

2

∑k∈U

∑�∈U��=k

(ykπk

− y�π�

)2

∆k�. (2.2)

La varianza puede estimarse sin sesgo por

var(Yπ

)=

∑k∈S

y2kπ2k

(1− πk) +∑k∈S

∑�∈S��=k

yky�πkπ�

∆k�

πkl

. (2.3)

7

Si el diseno es de tamano fijo, se puede tambien estimar la varianza por

var(Yπ

)=

−1

2

∑k∈S

∑�∈S��=k

(ykπk

− y�π�

)2∆k�

πk�

. (2.4)

2.4. Estimacion de N

Sabiendo que N es un total, se puede escribir:

N =∑k∈U

1,

Podemos estimar N sin sesgo por el estimador de Horvitz-Thompson

Nπ =∑k∈S

1

πk

.

2.5. Mala propiedad del estimador de Horvitz-Thompson

El estimador de Horvitz-Thompson tiene una mala propiedad, cuando la variablees constante, yk = C

Y π =1

N

∑k∈S

ykπk

=1

N

∑k∈S

C

πk

= C1

N

∑k∈S

1

πk

= CNπ

N

2.6. El problema de los elefantes de Basu (1971)

The circus owner is planning to ship his 50 adult elephants and so he needs a roughestimate of the total weight of the elephants. As weighing an elephant is a cumbersomeprocess, the owner wants to estimate the total weight by weighing just one elephant.Which elephant should he weigh ? So the owner looks back on his records and discoversa list of the elephants’ weights taken 3 years ago. He finds that 3 years ago Sambo themiddle-sized elephant was the average (in weight) elephant in his herd. He checks withthe elephant trainer who reassures him (the owner) that Sambo may still be consideredto be the average elephant in the herd. Therefore, the owner plans to weigh Samboand take 50 y (where y is the present weight of Sambo) as an estimate of the totalweight Y = Y1 + Y2 + . . . + Y50 of the 50 elephants. But the circus statistician ishorrified when he learns of the owner’s purposive samplings plan. “How can you getan unbiased estimate of Y this way ?” protests the statistician. So, together they workout a compromise sampling plan. With the help of a table of random numbers theydevise a plan that allots a selection probability of 99/100 to Sambo and equal selectionprobabilities 1/4900 to each of the other 49 elephants. Naturally, Sambo is selectedand the owner is happy. “How are you going to estimate Y?”, asks the statistician.“Why ? The estimate ought to be 50y of course,” says the owner. Oh! No! That cannot

8

possibly be right,” says the statistician, “I recently read an article in the Annals ofMathematical Statistics where it is proved that the Horvitz-Thompson estimator is theunique hyperadmissible estimator in the class of all generalized polynomial unbiasedestimators.” “What is the Horvitz-Thompson estimate in this case?” asks the owner,duly impressed. “Since the selection probability for Sambo in our plan was 99/100,”says the statistician, “the proper estimate of Y is 100y/99 and not 50y.” “And, howwould you have estimated Y,” inquires the incredulous owner, “if our sampling planmade us select, say, the big elephant Jumbo?” “According what I understand of theHorvitz-Thompson estimation method,” says the unhappy statistician, “the properestimate of Y would then have been 4900y, where y is Jumbo’s weight.” That is howthe statistician lost his circus job (and perhaps became teacher of statistics!).

9

Capıtulo 3

Muestreo simple

3.1. Muestreo simple sin reemplazamiento

(o muestro aleatorio simple m.a.s.)

Los disenos simples son los mas basicos en teorıa del muestreo. Sin embargo, susimplementaciones no son evidentes. Veremos que diferentes algoritmos permiten selec-cionar disenos simples. No hay que confundir disenos simples y disenos con probabi-idades de inclusion iguales. Los disenos simples tienen probabilidades de inclusionesiguales pero todos los disenos con probabilidades de inclusion iguales no son simples.Nos referimos a la definicion siguiente.

Definicion 3.1 Un diseno muestral es aleatorio simple si todas las muestras de mismotamano tienen la misma probabilidad de ser seleccionadas.

Existe solamente un diseno simple de tamano fijo.

p(s) =

(N

n

)−1

si #s = n

0 en caso contrario ,

donde (N

n

)=

N !

n!(N − n)!.

πk =∑s�k

p(s) =∑s�k

(N

n

)−1

=

(N − 1

n− 1

)(N

n

)−1

=n

N, para todo k ∈ U.

Probabilidades de inclusion del segundo orden :

πk� =∑s�k,�

p(s) =∑s�k,�

(N

n

)−1

=

(N − 2

n− 2

)(N

n

)−1

=n(n− 1)

N(N − 1),

l

10

para todos k �= � ∈ U . Luego tenemos,

∆k� =

πk� − πkπ� =n(n− 1)

N(N − 1)− n2

N2= − n(N − n)

N2(N − 1)si k �= �

πk(1− πk) =n

N

(1− n

N

)=

n(N − n)

N2si k = �.

(3.1)

Y π =1

N

∑k∈S

ykπk

=1

N

∑k∈S

ykN

n=

1

n

∑k∈S

yk.

Yπ =∑k∈S

ykπk

=∑k∈S

ykN

n=

N

n

∑k∈S

yk = NY π.

3.2. La varianza del diseno simple sin reemplaza-

miento

var[Yπ

]=

−1

2

∑k∈U

∑�∈U��=k

(ykπk

− y�π�

)2

∆k� (3.2)

=1

2

∑k∈U

∑�∈U��=k

(ykN

n− y�N

n

)2n(N − n)

N2(N − 1)(3.3)

=N(N − n)

n

1

2N(N − 1)

∑k∈U

∑�∈U��=k

(yk − y�)2 (3.4)

= N2N − n

N

S2y

n. (3.5)

Teorema 1 En un m.a.s., la cuasivarianza de la poblacion es

S2y =

1

N − 1

∑k∈U

(yk − Y )2,

y puede estimarse por

s2y =1

n− 1

∑k∈S

(yk − Y π)2

11

Demostracion

E(s2y) = E

{1

n− 1

∑k∈S

(yk − Y π)2

}

= E

1

2n(n− 1)

∑k∈S

∑�∈S��=k

(yk − y�)2

=1

2n(n− 1)

∑k∈U

∑�∈U��=k

(yk − y�)2E (IkI�)

=1

2n(n− 1)

∑k∈U

∑�∈U��=k

(yk − y�)2 n(n− 1)

N(N − 1)

=1

2N(N − 1)

∑k∈U

∑�∈U��=k

(yk − y�)2

= S2y .

3.3. Algoritmo de seleccion-rechazo

Existen numerosas maneras de seleccionar un diseno simple. Por ejemplo se puedesortear la poblacion aleatoriamente y seleccionar las n primeras unidades de la poblacion.Tambien, se puede seleccionar sucesivamente n unidades sin reemplazamiento con prob -abilidades iguales. Sin embargo, la manera la mas eficaz para seleccionar un muestrasegun un diseno simple fue propuesta por Fan et al. (1962) y Bebbington (1975) quienespropusieron un metodo secuencial en el sentido de que el fichero de datos tiene queser leıdo una sola vez. Es posible demostrar que este algoritmo genera une muestreo

Algorithm 1 Metodo de seleccion-rechazo

∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣

Definicion k, j : entero;u : real;k = 0;j = 0;

Repetir mientras j < n

∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣

u = variable aleatoria uniforme a[0, 1[;∣∣∣∣∣∣Si u <

n− jN − k

∣∣∣∣seleccionar la unidad k + 1;j = j + 1;

sino pasar la unidad k + 1;k = k + 1.

simple (vease por ejemplo Tille, 2006).

12

3.4. Disenos simples con reemplazamiento

Seleccion con reemplazamiento de manera independiente S las unidades de la mues-tra son

y1, . . . , yi, . . . , ym

Los yi son m variables aleatorias de varianza

σ2y =

1

N

∑k∈U

(yk − Y )2.

Se puede estimar Y sin sesgo por

Y CR =1

m

m∑i=1

yi =1

m

k∈S

yk.

La varianza de Y CR es

var(Y CR) =1

m2

m∑i=1

var(yi) =1

m2

m∑i=1

σ2y =

σ2y

m. (3.6)

y puede estimarse por

s2y =1

m− 1

m∑i=1

(yi − Y CR)2.

La varianza del estimador de la media puede estimarse por

var(Y CR) =s2ym.

13

3.5. Comparacion de los disenos simples

Cuadro 3.1: Planes simplesPlan simple Sin reemplazamiento Con reemplazamiento

Tamano de la muestra n m

Estimador de la media Y SR =1

n

∑k∈S

yk Y CR =1

m

k∈S

yk

Varianza del estimador var(Y SR

)=

(N − n)

nNS2y var

(Y CR

)=

σ2y

m

Esperanza de la varianza E(s2y)= S2

y E(s2y)= σ2

y

Estimador de la varianza var(Y SR

)=

(N − n)

nNs2y var

(Y CR

)=

s2ym

Ejercicio

Ejercicio 3.1 Seleccione una muestra de tamano 4 en una poblacion de tamano 10segun un diseno simple sin reemplazamiento con el metodo de seleccion-rechazo. Uselas realizaciones siguientes de una variable aleatoria uniforme [0, 1]:

0,375489 0,624004 0,517951 0,0454450 0,6329120,246090 0,927398 0,32595 0,645951 0,178048.

14

Capıtulo 4

Estratificacion

4.1. Introduccion

Los disenosde muestreo. Se necesita definir estratos o categorıas en la poblacion.

Ademas, se necesita saber a que estrato pertenece cada unidad de la poblacion.

4.2. Poblacion y estratos

Poblacion U = {1, . . . , k, . . . , N} dividida en H subconjuntos, Uh, h = 1, .., H, lla-mados estratos

H⋃h=1

Uh = U y Uh

⋂Ui = ∅, h �= i.

Siendo Nh el tamano del estrato Uh.

H∑h=1

Nh = N.

El objetivo es estimar

Y =∑k∈U

yk =H∑

h=1

∑k∈Uh

yk =H∑

h=1

Yh,

dondeYh =

∑k∈Uh

yk.

Y =1

N

∑k∈U

yk =1

N

H∑h=1

∑k∈Uh

yk =1

N

H∑h=1

NhY h,

donde Y h es la media calculada en el estrato h

Y h =1

Nh

∑k∈Uh

yk.

liar en un diseno˜estratificados son la manera mas simple de introducir informacion aux -i

15

Ademas, σ2yh representa la varianza del estrato h

σ2yh =

1

Nh

∑k∈Uh

(yk − Y h

)2

y S2yh la cuasivarianza

S2yh =

Nh

Nh − 1σ2yh.

La varianza total σ2y se logra por

σ2y =

1

N

∑k∈U

(yk − Y )2 =1

N

H∑h=1

Nhσ2yh +

1

N

H∑h=1

Nh(Y h − Y )2. (4.1)

Esta igualdad es la descomposicion clasica de la varianza, que se escribe

σ2y = σ2

y(intra) + σ2y(inter)

donde σ2y(intra) es la varianza intra-estratos

σ2y(intra) =

1

N

H∑h=1

Nhσ2yh

y σ2y(inter) es la varianza inter-estratos

σ2y(inter) =

1

N

H∑h=1

Nh(Y h − Y )2.

4.3. Muestra, probabilidad de inclusion, estimacion

Un diseno muestral es estratificado si,

en cada estrato, se selecciona una muestra simple aleatoria de tamano fijo nh

la seleccion de una muestra en un estrato es independiente de seleccion de lasmuestras de los otros estratos.

Sh representa la muestra aleatoria seleccionada en el estrato h con el diseno ph(.),donde ph(sh) = Pr(Sh = sh). La muestra aleatoria total es

S =H⋃

h=1

Sh.

Ademas, de manera general s representa un valor posible de S donde

s =H⋃

h=1

sh.

16

S1

U1

S2

U1

Sh

U1

SH

U1 U2 Uj UJ

Figura 4.1: Plan estratificado

El diseno muestral global es p(.) donde

p(s) = Pr(S = s).

Debido a la independencia de las selecciones en cada estrato, tenemos

p(s) =H∏

h=1

ph(sh), s =H⋃

h=1

sh.

Si nh representa el tamano de la muestra en el estrato h, tenemos

H∑h=1

nh = n,

donde n es el tamano de la muestra.

4.4. Probabilidad de inclusion

Si la unidad k esta en el estrato h,

πk =nh

Nh

, k ∈ Uh.

Para calcular las probabilidades de inclusion de segundo orden, tenemos que separardos casos :

En el caso donde las unidades k y � estan en el mismo estrato

πk� =nh(nh − 1)

Nh(Nh − 1), k y � ∈ Uh.

Si dos individuos k y � estan en dos estratos distintos,

πk� =nhni

NhNi

, k ∈ Uh y � ∈ Ui.

17

Se logra

∆k� =

nh

Nh

Nh − nh

Nh

si � = k, k ∈ Uh

−nh(Nh − nh)

N2h(Nh − 1)

si k y � ∈ Uh, k �= �

0 si k ∈ Uh y � ∈ Ui, h �= i.

(4.2)

El π-estimador

Yestrat =∑k∈S

ykπk

=H∑

h=1

Nh

nh

∑k∈Sh

yk =H∑

h=1

Yh,

y

Y strat =1

N

∑k∈S

ykπk

=1

N

H∑h=1

Nh

nh

∑k∈Sh

yk =1

N

H∑h=1

NhY h.

donde Yh es el estimador del total del estrato h

Yh =Nh

nh

∑k∈Sh

yk.

e Y h es la media de la muestra en el estrato h

Y h =1

nh

∑k∈Sh

yk.

Como las selecciones son independientes entre los estratos y que los disenos sonsimples en los estratos :

var(Ystrat

)= var

(H∑

h=1

Yh

)=

H∑h=1

var(Yh

)=

H∑h=1

NhNh − nh

nh

S2yh. (4.3)

La varianza de este estimador puede estimarse sin sesgo por

var(Ystrat

)=

H∑h=1

NhNh − nh

nh

s2yh, (4.4)

donde

s2yh =1

nh − 1

∑k∈Sh

(yk − Y h)2, h = 1, . . . , H.

4.5. Plan estratificado con afijacion proporcional

Un plan estratificado tiene una afijacion proporcional, si

nh

Nh

=n

N, h = 1, . . . , N.

18

Suponemos que nh = nNh/N son enteros. El estimador del total es

Yprop =H∑

h=1

Yh =N

n

∑k∈S

yk,

y el estimador de la media

Y prop =1

N

H∑h=1

NhY h =1

n

∑k∈S

yk,

donde Y h es la media de la muestra en el estrato h e Yh es el estimador del total en elestrato h

Y h =1

nh

∑k∈Sh

yk.

La varianza del estimador del total se simplifica

var(Yprop) =N − n

n

H∑h=1

NhS2yh, (4.5)

y la varianza del estimador de la media viene dada por :

var(Y prop) =N − n

nN2

H∑h=1

NhS2yh. (4.6)

Si N es grande, S2yh ≈ σ2

yh.

var(Y prop) ≈N − n

nN2

H∑h=1

Nhσ2yh =

N − n

N

σ2y(intra)

n. (4.7)

Comparacion del diseno estratificado con el muestro aleatorio simple.

var(Y srs) ≈N − n

N

σ2y

n. (4.8)

La varianza del estimador de la media puede estimarse por :

var(Y prop) =N − n

nN2

H∑h=1

Nhs2yh, (4.9)

donde

s2yh =1

nh − 1

∑k∈Sh

(yk − Y h)2, h = 1, . . . , H.

19

4.6. Diseno estratificado optimo para el total

Neyman (1934) busco la afijacion para los tamanos en la muestra n1, . . . , nh, . . . , nH

que maximiza la varianza del estimador de Horvitz-Thompson para un muestreo detamano fijo. Tenemos que minimizar

var(Ystrat) =H∑

h=1

NhNh − nh

nh

S2yh, (4.10)

en n1, . . . , nh, . . . , nH sujeta a que

H∑h=1

nh = n. (4.11)

Podemos escribir la ecuacion de Lagrange

L(n1, . . . , nH , λ) =H∑

h=1

NhNh − nh

nh

S2yh + λ

(H∑

h=1

nh − n

).

Anulando las derivadas parciales respecto a los nh y a λ, se logra

∂L∂nh

= −N2h

n2h

S2yh + λ = 0, h = 1, . . . , H, (4.12)

y

∂L∂λ

=H∑

h=1

nh − n = 0. (4.13)

Luego

nh =Nh√λSyh, h = 1, . . . , H. (4.14)

yH∑

h=1

nh = n =

∑Hh=1 NhSyh√

λ.

Obtenemos√λ =

∑Hh=1 NhSyh

n. (4.15)

y finalmente

nh =nNhSyh∑Hh=1 NhSyh

, h = 1, . . . , H. (4.16)

Notas

Hay un problema de redondeo,

Se puede obtener nh > Nh.

20

4.7. Nota sobre la optimalidad en estratificacion

Sea una poblacion dividida en dos estratos H = 2 donde queremos estimar ladiferencia D = Y 1 − Y 2. El estimador

D = Y 1 − Y 2.

Como las selecciones de las muestras son independientes entre los estratos

var(D)= var

(Y 1

)+ var

(Y 2

)=

N1 − n1

n1N1

S2y1 +

N2 − n2

n2N2

S2y2. (4.17)

Se minimiza (4.17) sujeta a que n1 + n2 = n y se logra

nh =Syh√λ, h = 1, 2,

donde λ es el multiplicador de Lagrange. Como n1 + n2 = n, encontramos

nh =nSyh

Sy1 + Sy2

, h = 1, 2.

4.8. Optimalidad y coste

El objetivo es estimar un total Y para un coste fijado C. Minimizamos la expresion(4.10) sujeta a que

H∑h=1

nhCh = C,

donde Ch es el coste de la entrevista en el estrato h. Obtenemos

nh =NhSyh√λCh

, h = 1, . . . , H,

H∑h=1

nhCh = C,

donde λ es el multiplicador de Lagrange, y

nh =CNhSyh√

Ch

∑H�=1 N�Sy�

√C�

.

4.9. Tamano de muestra mınimo

Otra manera de tratar el problema es buscar la afijacion que da el tamano demuestra mınimo para una varianza fijada. Sea

ah = nh/n, h = 1, . . . , H,

21

entoncesH∑

h=1

ah = 1.

De (4.10),

var(Ystrat) =H∑

h=1

NhNh − nah

nahS2yh. (4.18)

Buscamos entonces un valor mınimo de (4.18) en a1, . . . , aH , para un valor fijado

var(Ystrat) representado por V . Sustituyendo (4.18) en var(Ystrat) por V , se logra

V =1

n

H∑h=1

N2h

ahS2h −

H∑h=1

NhS2h,

lo que se puede escribir

n =

∑Hh=1

N2h

ahS2h

V +∑H

h=1 NhS2h

. (4.19)

Entonces minimizamos

n =

∑Hh=1

N2h

ahS2h

V +∑H

h=1 NhS2h

. (4.20)

con a1, . . . , aH , sujeta a queH∑

h=1

ah = 1,

y despues de algunos calculos, tenemos

ah =NhSyh∑H�=1 N�Sy�

. (4.21)

Se logra el mismo tipo de afijacion. Finalmente se puede fijar el tamano de la muestra

n∗ =

(∑Hh=1 NhSyh

)2

V +∑H

h=1 NhS2yh

.

Ejercicio 4.1 Queremos estimar medias para las empresas de un departamento. Lasempresas son clasificadas segun el volumen de negocio y son clasificadas en tres clases.Los datos de un censo son los siguientes:

Volumen de negocio Numero de empresasde 0 a 1 1000de 1 a 10 100de 10 a 100 10

Se quiere seleccionar una muestra de 111 empresas. Si se supone que la distribucion esuniforme en cada estrato, calcule la varianza del estimador de la media del volumen denegocios para un diseno con representacion proporcional y para un diseno estratificadooptimo.

22

Capıtulo 5

Muestreo con probabilidadesdesiguales

Los disenos con probabilidades desiguales permiten reducir la varianza cuando hayun efecto de tamano en los datos. Tambien son muy usados en los disenos multietapicosautoponderados para seleccionar las unidades primarias. Tres libros tratan del tema:Brewer and Hanif (1983); Gabler (1990); Tille (2006). Aquı, presentamos los planesmas importantes. Un desarrollo mas exhaustivo pude ser encontrado en Tille (2006).

5.1. Informacion auxiliar y probabilidades de in-

clusion

Variable auxiliar x conocida sobre U . x es aproximadamente proporcional a y.Seleccion de las unidades con probabilidades de inclusion proporcionales a x. Varianza

var(Yπ

)=

1

2

∑k∈U

∑�∈U��=k

(ykπk

− y�π�

)2

(πkπ� − πk�). (5.1)

5.2. Calculo de las probabilidades de inclusion

Calculamosπk =

xkn∑�∈U

x�

, para todo k ∈ U.

Algunos de los πk pueden ser πk > 1. Estas unidades son incluidas en la muestra conuna probabilidad de 1. Se vuelve a empezar el calculo con las unidades que quedan. Alfinal, tenemos dos grupos :

un primer grupo de unidades con probabilidades de inclusion iguales a 1

un segundo grupo con probabilidades de inclusion 0 < πk < 1 y proporcionales axk.

23

El problema es seleccionar n unidades con probabilidades de inclusion fijadas con

0 < πk < 1, para todo k ∈ U, tal que∑k∈U

πk = n. (5.2)

Ejemplo 5.1 Si N = 6, n = 3, x1 = 1, x2 = 9, x3 = 10, x4 = 70, x5 = 90, x6 = 120,tenemos

X =∑k∈U

xk = 300,

y entonces

nx1

X=

1

100,nx2

X=

9

100,nx3

X=

1

10,nx4

X=

7

10,nx5

X=

9

10,nx6

X=

6

5> 1.

La unidad 6 es seleccionada (con una probabilidad de 1). Luego, volvemos a calcularlas probabilidades de inclusion

∑k∈U\{6}

xk = 180,

y entonces(n− 1)x1∑�∈U\{6} x�

=1

90,(n− 1)x2∑�∈U\{6} x�

=1

10,(n− 1)x3∑�∈U\{6} x�

=1

9,

(n− 1)x4∑�∈U\{6} x�

=7

9,(n− 1)x5∑�∈U\{6} x�

= 1.

Las probabilidades de inclusion son

π1 =1

90, π2 =

1

10, π3 =

1

9, π4 =

7

9, π5 = 1, π6 = 1.

Dos unidades son seleccionadas con una probabilidad 1. El problema se reduce a laseleccion de una unidad en una subpoblacion de tamano 4.

5.3. Muestreo con probabilidades desiguales con

reemplazamiento

Hansen and Hurwitz (1943) han propuesto un metodo de seleccion de una muestracon probabilidades desiguales con reemplazamiento. Sea

pk =xk∑�∈U x�

, k ∈ U,

y

vk =k∑

�=1

p�, con v0 = 0.

u es una variable continua, uniforme en [0, 1[,

24

se selecciona la unidad k tal que vk−1 ≤ u < vk.

Esta operacion es repetida m veces de manera independiente.

yi es la iesima unidad seleccionada en la muestra. El total Y es estimado por el esti-mador de Hansen-Hurwitz

YHH =1

m

m∑i=1

yipi.

Como

E

[yipi

]=

∑k∈U

ykpk

pk = Y,

YHH es un estimador insesgado Y . En efecto,

E(YHH

)=

1

m

m∑i=1

E

(yipi

)=

1

m

m∑i=1

Y = Y.

Varianza :

var[YHH ] =1

m

(∑k∈U

y2kpk

− t2y

)=

1

m

∑k∈U

pk

(ykpk

− Y

)2

, (5.3)

y puede estimarse por

var[YHH ] =1

m(m− 1)

m∑i=1

(yipi

− YyHH

)2

.

5.4. Diseno de Poisson

Cada unidad de U es seleccionada de manera independiente con una probabilidadde inclusion πk.

πk� = πkπ�,

∆k� = πk� − πkπ� = 0, para todos k �= �. El diseno muestral viene dado por

p(s) =

{∏k∈s

πk

∏k∈U\s

(1− πk)

, para todos s ⊂ U. (5.4)

En un diseno de Poisson, ∆k� = 0 cuando k �= �, la varianza del estimador puedeser calculada simplemente

var[Yπ

]=

∑k∈U

πk(1− πk)y2k

π2k

, (5.5)

y puede estimarse por

var[Yπ

]=

∑k∈Se

(1− πk)y2k

π2k

. (5.6)

25

5.5. Muestreo de entropıa maxima con tamano fijo

Buscamos un diseno muestral con la entropıa maxima sobre el conjunto de todaslas muestras de U de tamano fijo n.

Sn = {s|#s = n}.

El problema es maximizar

I(p) = −∑s∈Sn

p(s) log p(s),

sujeta a que ∑s�ks∈Sn

p(s) = πk, y∑s∈Sn

p(s) = 1. (5.7)

Existe una solucion pero es complicada.

p(s) =exp

∑k∈s λk∑

s∈Snexp

∑k∈s λk

Un algoritmo (ver Chen et al., 1994; Deville, 2000; Tille, 2006) permite calcular losπk a partir de los λk y los λk a partir de los πk. El conocimiento de los λk permitenumerosas implementaciones del diseno de muestreo (ver Tille, 2006).

5.6. El diseno muestral sistematico

Madow (1949) propuso el primero metodo con tamano fijo y probabilidades deinclusion desiguales. Tenemos 0 < πk < 1, k ∈ U con

∑k∈U

πk = n.

Sea

Vk =k∑

�=1

π�, para todos k ∈ U, con Vo = 0. (5.8)

Una variable uniforme es generada en [0, 1].

la primera unidad seleccionada k1 es tal que Vk1−1 ≤ u < Vk1 ,

la segunda unidad seleccionada es tal que Vk2−1 ≤ u+ 1 < Vk2 y

la jesima unidad seleccionada es tal que Vkj−1 ≤ u+ j − 1 < Vkj .

26

0 1 2 3

0,2 0,9 1,7 2,2 2,6

u u+ 1 u+ 2

Figura 5.1: Muestreo sistematico

Ejemplo 5.2 N = 6 y n = 3, π1 = 0,2, π2 = 0,7, π3 = 0,8, π4 = 0,5, π5 = π6 = 0,4,V1 = 0,2, V2 = 0,9, V3 = 1, 7, V4 = 2,2, V5 = 2,6, V6 = 3, u = 0,3658. Las unidades 2,3 y 5 son seleccionadas.

El algoritmo tambien puede ser presentado de la manera siguiente : Primero, seselecciona la unidad k tal que los intervalos [Vk−1 − u, Vk − u[ contengan un numeroentero.

Algorithm 2 Algoritmo de muestreo sistematico∣∣∣∣∣∣∣∣∣∣∣∣

Definicion a, b, u real; k entero;u = un numero aleatorio uniforme en [0,1];a = −u;

Repetir para k = 1, .., N

∣∣∣∣∣∣b = a;a = a+ πk;si �a� �= �b� seleccionar k.

El problema es que la mayorıa de las probabilidades de inclusion son iguales a cero.La matriz de probabilidades de inclusion viene dada por :

− 0 0,2 0,2 0 00 − 0,5 0,2 0,4 0,30,2 0,5 − 0,3 0,4 0,20,2 0,2 0,3 − 0 0,30 0,4 0,4 0 − 00 0,3 0,2 0,3 0 −

5.7. El metodo de escision

5.7.1. Escision en dos partes

El metodo de escision (ver Deville and Tille, 1998; Tille, 2006) es une tecnica bas-tante simple para seleccionar une muestra segun probabilidades de inclusion dadas. Apartir del vector de probabilidades de inclusion, se vuelve a aplicar a cada etapa uneescision en dos o varios nuevos vectores. Un vector es elegido aleatoriamente. A cadaetapa se intenta lograr un vector mas simple, por ejemplo, introduciendo 0 o 1 en elnuevo vector. En N etapas como maximo, la muestra es seccionada. El metodo del cubopara seleccionar un diseno equilibrado es una generalizacion del metodo de escision.

27

La tecnica basica es muy simple : cada πk se separa en dos partes π(1)k y π

(2)k que

verifican :πk = λπ

(1)k + (1− λ)π

(2)k ; (5.9)

0 ≤ π(1)k ≤ 1 y 0 ≤ π

(2)k ≤ 1, (5.10)

∑k∈U

π(1)k =

∑k∈U

π(2)k = n, (5.11)

donde λ puede elegirse libremente dentro de 0 < λ < 1. El metodo consiste en selec-cionar n unidades con probabilidades desiguales

{π(1)k , k ∈ U, con una probabilidad λ

π(2)k , k ∈ U, con una probabilidad 1− λ.

π1...πk...πN

����������

����������

π(1)1...

π(1)k...

π(1)N

π(2)1...

π(2)k...

π(2)N

λ 1− λ

Figura 5.2: Escision en dos partes

El problema se reduce a otro problema de muestreo con probabilidades desiguales.Si la escision es tal que uno o algunos de los π

(1)k y de los π

(2)k son iguales a 0 o 1,

el problema de muestreo sera mas simple en la proxima etapa porque la escision esaplicada a una poblacion mas pequena.

28

5.7.2. Escision en M partes

El metodo puede ser generalizado a una tecnica de escision en M vectores de prob

-abilidades de inclusion. Primero, construimos los π

(j)k y los λj de manera que

M∑j=1

λj = 1,

0 ≤ λj ≤ 1 (j = 1, . . . ,M),

M∑j=1

λjπ(j)k = πk,

0 ≤ π(j)k ≤ 1 (k ∈ U, j = 1, . . . ,M),

∑k∈U

π(j)k = n (j = 1, . . . ,M).

π1...πk...πN

����������

�����������

π(1)1...

π(1)k...

π(1)N

π(i)1...

π(i)k...

π(i)N

π(M)1...

π(M)k...

π(M)N

λ1 λj λM

. . .. . .

Figura 5.3: Escision en M partes

El metodo consiste en seleccionar uno de los vectores π(j)k con probabilidades λj (j =

1, . . . ,M). De nuevo, los π(j)k son tales que el problema de muestreo sera mas simple

en la proxima etapa.

29

5.7.3. Diseno con un soporte mınimo

(π(1), . . . , π(k), . . . , π(N)) representa el vector de probabilidades de inclusion. Luego,definimos

λ = mın{1− π(N−n), π(N−n+1)},

π(1)(k) =

{0 si k ≤ N − n1 si k > N − n,

π(2)(k) =

π(k)

1− λif k ≤ N − n

π(k) − λ

1− λif k > N − n.

Ejemplo 1. Suponemos queN = 6, n = 3, π1 = 0,07, π2 = 0,17, π3 = 0,41, π4 = 0,61,π5 = 0,83, π6 = 0,91. En este caso, la solucion se encuentra en 4 etapas. El vectorde probabilidades de inclusion se separa en dos partes dadas en las columnas 2 y 3de la Tabla 1. Con la probabilidad λ = 0,59, la muestra {4, 5, 6} es seleccionada ycon probabilidad 1 − λ = 0,41, otro diseno muestral se aplica con probabilidades deinclusion dadas por (0.171, 0.415, 1, 0.049, 0.585, 0.780). En la etapa 2, la escisionse aplica al vector y, en 4 etapas la muestra es seleccionada. El diseno muestral es el

Cuadro 5.1: Plan con soporte mınima

Etapa 1 Etapa 2 Etapa 3 Etapa 4πk λ = 0,59 λ = 0,585 λ = 0,471 λ = 0,7780,07 0 0,171 0 0,412 0 0,778 1 00,17 0 0,415 0 1 1 1 1 10,41 0 1 1 1 1 1 1 10,61 1 0,049 0 0,118 0 0,222 0 10,83 1 0,585 1 0 0 0 0 00,91 1 0,780 1 0,471 1 0 0 0

siguiente p({4, 5, 6}) = 0,59; p({3, 5, 6}) = (1 − 0,59) × 0,585 = 0,24; p({2, 3, 6}) =(1− 0,59− 0,24)× 0,471 = 0,08; p({1, 2, 3}) = (1− 0,59− 0,24− 0,08)× 0,778 = 0,07;p({2, 3, 4}) = 1− 0,59− 0,24− 0,08− 0,7 = 0,02.

El diseno muestral viene dado por p({4, 5, 6}) = 0,59, p({3, 5, 6}) = (1 − 0,59) ×0,585 = 0,24, p({2, 3, 6}) = (1− 0,59− 0,24)× 0,471 = 0,08, p({1, 2, 3}) = (1− 0,59−0,24− 0,08)× 0,778 = 0,07, p({2, 3, 4}) = (1− 0,59− 0,24− 0,08− 0,7) = 0,02.

5.7.4. Escision en disenos simples

Este metodo permite separar el vector de probabilidades de inclusion en dos partes.Definimos

λ = mın

{π(1)

N

n,

N

N − n

}, (5.12)

30

y calculamos, para k ∈ U,

π(1)(k) =

n

N, π

(2)(k) =

πk − λ nN

1− λ.

Si λ = π(1)N/n, entonces π(2)(1) = 0; si λ = (1− π(N))N/(N − n), entonces π

(2)(N) = 1. En

la proxima etapa, el problema se reduce a la seleccion de una muestra de tamano n− 1o n en una poblacion de tamano N − 1. En N − 1 etapas, el problema es reducido.

Ejemplo 2 Con los mismos πk que en el ejemplo 1, el resultado del metodo vienedado en la Tabla 2. El problema consiste finalmente en seleccionar uno de los 6 disenos

Cuadro 5.2: Descomposicion en planes simples

Etapa 1 Etapa 2 Etapa 3 Etapa 4 Etapa 5πk λ = 0,14 λ = 0,058 λ = 0,173 λ = 0,045 λ = 0,6880,07 0,5 0 0 0 0 0 0 0 0 00,17 0,5 0,116 0,600 0,086 0,5 0 0 0 0 00,41 0,5 0,395 0,600 0,383 0,5 0,358 0,667 0,344 0,5 00,61 0,5 0,628 0,600 0,630 0,5 0,657 0,667 0,656 0,5 10,83 0,5 0,884 0,600 0,901 0,5 0,985 0,667 1 1 10,91 0,5 0,977 0,600 1 1 1 1 1 1 1

simples definidos en las columnas de la Tabla 3. λ1 = 0,14, λ2 = (1− 0,14)× 0,058 =0,050, λ3 = (1− 0,14)× (1− 0,058)× 0,173 = 0,14, λ4 = (1− 0,14)× (1− 0,058)× (1−0,173)×0,045 = 0,03, λ5 = (1−0,14)×(1−0,058)×(1−0,173)×(1−0,045)×0,688 = 0,44,λ6 = (1− 0,14)× (1− 0,058)× (1− 0,173)× (1− 0,045)× (1− 0,688) = 0,200.

Cuadro 5.3: Escision en N planes simples

k λ1 = 0,14 λ2 = 0,050 λ3 = 0,14 λ4 = 0,03 λ5 = 0,44 λ6 = 0,2001 0,5 0 0 0 0 02 0,5 0,6 0,5 0 0 03 0,5 0,6 0,5 0,667 0,5 04 0,5 0,6 0,5 0,667 0,5 15 0,5 0,6 0,5 0,667 1 16 0,5 0,6 1 1 1 1

5.7.5. El metodo del pivote

Solamente son modificadas dos probabilidades de inclusion: i y j.Si πi + πj > 1, entonces

λ =1− πj

2− πi − πj

,

31

π(1)k =

πk k ∈ U\{i, j}1 k = iπi + πj − 1 k = j,

π(2)k =

πk k ∈ U\{i, j}πi + πj − 1 k = i1 k = j.

Por otra parte, si πi + πj < 1, entonces

λ =πi

πi + πj

,

π(1)k =

πk k ∈ U\{i, j}πi + πj k = i0 k = j,

π(2)k =

πk k ∈ U\{i, j}0 k = iπi + πj k = j.

5.7.6. Metodo de Brewer

Brewer (1975) yBrewer and Hanif (1983, metodo 8, p. 26) propusieron un metodomuy simple para seleccionar una muestra con probabilidades desiguales.

draw by draw procedure

λj =

{N∑z=1

πz(n− πz)

1− πz

}−1

πj(n− πj)

1− πj

.

Luego, calculamos

π(j)k =

πk(n− 1)

n− πj

si k �= j

1 si k = j.

La validez del metodo se deriva del resultado siguiente :

Teorema 2N∑j=1

λjπ(j)k = πk,

para todo k = 1, . . . , N,

32

5.8. Varianza en disenos con probabilidades desiguales

Aproximacion de la varianza

var(Yπ) =∑k∈U

bkπ2k

(yk − y∗k)2 .

con

y∗k = πk

∑�∈U b�y�/π�∑

�∈U b�

bk =Nπk(1− πk)

(N − 1).

Estimacion de la aproximacion de la varianza

var(Yπ) =∑k∈S

ckπ2k

(yk − y∗k)2 .

con

y∗k = πk

∑�∈S c�y�/π�∑

�∈S b�

ck =nπk(1− πk)

(n− 1).

33

Capıtulo 6

Muestreo equilibrado

6.1. Introduccion

Une muestreo equilibrado selecciona unicamente las muestras cuyos estimadores deHorvitz-Thompson son iguales a los totales de las variables auxiliares conocidas. Evi-dentemente, para seleccionar una muestra equilibrada, se necesita disponer de une basede datos con los valores de las variables auxiliares para cada unidad de la poblacion.

La idea de seleccionar una muestra equilibrada es relativamente vieja. Ya Yates(1949) propuso un metodo con un reemplazamiento aleatorio de los unidades a partirde una muestra simple para mejorar el equilibrio de la muestra. Varios metodos conrechazos de muestras fueron tambien propuestos (ver Thionet, 1953; Hajek, 1981). Enla teorıa basada sobre un modelo Royall and Herson (1973a,b) surgio la idea de usarmuestras equilibradas sin determinar una manera general de seleccionarlas. Otros meto-dos fueron propuestos por Deville et al. (1988), Ardilly (1991), Hedayat and Majumdar(1995). El metodo del cubo, propuesto por Deville and Tille (2004), (tambien ver Tille,2001; Tille and Favre, 2004, 2005; Tille, 2006; Tille and Matei, 2007; Nedyalkova andTille, 2009) es el unico que permite seleccionar una muestra equilibrada sobre variasvariables auxiliares y con probabilidades de inclusion iguales o desiguales.

Definicion 6.1 Un diseno muestral p(s) es equilibrado sobre las variables x1, . . . , xp,si verifica las ecuaciones de equilibrio dadas por

Xπ = X, (6.1)

lo que tambien se puede escribir

∑k∈s

xkj

πk

=∑k∈U

xkj,

para toda s ∈ S tal que p(s) > 0, y para todos j = 1, . . . , p, o con otras palabras

var(Xπ

)= 0.

34

Ejemplo 6.1 Un muestreo de tamano fijo es equilibrado sobre la variable xk = πk, k ∈U. En efecto, ∑

k∈S

xk

πk

=∑k∈S

1 =∑k∈U

πk = n.

Ejemplo 6.2 Un plan estratificado es equilibrado sobre las variables

δkh =

{1 si k ∈ Uh

0 si k /∈ Uh.

Ejemplo 6.3 N = 10, n = 7, πk = 7/10, k ∈ U, xk = k, k ∈ U .

∑k∈S

k

πk

=∑k∈U

k,

lo que da que ∑k∈S

k = 55× 7/10 = 38,5,

En este caso, es imposible seleccionar una muestra que sea exactamente equilibrada.Seleccionar una muestra es un problema en numeros enteros, y las ecuaciones de equi-librio son restricciones lineales. Por eso, las ecuaciones de equilibrio no pueden siempreser satisfechas.

Por lo tanto, vamos a buscar una muestra que sea perfectamente equilibrada si esposible o quien es aproximadamente equilibrada si no existen muestras que sean per-fectamente equilibradas.

6.2. Representacion por un cubo

Representacion geometrica de un diseno muestral.

s = (I[1 ∈ s] . . . I[k ∈ s] . . . I[N ∈ s])′,

donde I[k ∈ s] toma el valor 1 si k ∈ s y 0 sino. Geometricamente, cada vector s es unvertice de un N -cubo.

E(s) =∑s∈S

p(s)s = π,

donde π = [πk] es el vector de probabilidad de inclusion.

6.3. Muestras equilibradas

Metodo del cubo

1. fase de vuelo,

2. fase de aterrizaje.

35

π

(000) (100)

(101)

(001)

(010)(110)

(111)(011)

Figura 6.1: Muestras posibles en una poblacion de tamano N = 3

Las ecuaciones de equilibrio (6.1) pueden tambien ser escritas

∑k∈U

akck =∑k∈U

akπk (6.2)

ck ∈ {0, 1}, k ∈ U,

donde ak = xk/πk, k ∈ U. (6.2) define un subespacio en RN de dimension N − p.El problema Se elige un vertice del N -cubo (una muestra) que quede en el sub

e-

spacio Q.

Si C representa el N -cubo en RN , los vertices del N -cubo son las muestras deU , la interseccion entre C y Q es no vacio, porque π esta en el interior de C ypertenece a Q.

La interseccion entre el N -cubo y un subespacio lineal define un poliedro convexoK que es definido por

K = C ∩Q ={[0, 1]N ∩ (π+Ker A)

}

y tiene la dimension N − p.

6.4. Representacion grafica del problema de redon

dea

-

do

El problema de redondeado tambien puede ser representado de manera geometrica.Examinemos algunos casos de figura. En el caso donde la unica restriccion sea el tamanofijo (n = 2) de la muestra, no hay problema de redondeado, porque siempre es posibleseleccionar una muestra de tamano fijo. Vemos, en la Figura 6.2, que los vertices de lainterseccion del cubo y del subespacio son vertices del cubo, es decir que son muestras.

El problema de redondeado aparece cuando los vertices de la interseccion del sube

-spacio y del cubo no son vertices del cubo. Consideremos el ejemplo siguiente.

36

(000) (100)

(101)

(001)

(010) (110)

(111)(011)

Figura 6.2: Contrainte de taille fixe : les 3 echantillons de taille n = 2 sont relies parun sous-espace affine

Ejemplo 6.4 Supongamos que la unica restriccion (J = 1 sea dada por la variableauxiliar z1 = 0, z2 = 3 y z3 = 2 y que las probabilidades de inclusion sean π1 = π2 =π3 = 1/2. La matriz A se reduce pues al vector

A =

(z1π1

,z2π2

,z3π3

)= (0, 6, 4),

y la ecuacion de equilibrio es:

0× s1 + 6× s2 + 4× s3 = 0 + 3 + 2 = 5.

El subespacio de restricciones de dimension 2 es representado en la Figura 6.3. Estesubespacio no pasa por ninguno de los vertices del cubo. Ası pues, los vertices de lainterseccion del cubo y del subespacio de equilibrio no son vertices del cubo y entoncesno son muestras. Este ejemplo muestra la representacion geometrica del problema deredondeado. Aquı, no existe muestra que satisfaga exactamente las restricciones, ya queningun vertice del cubo pertenece al subespacio de las restricciones. Decimos entoncesque el sistema de ecuaciones de eequilibrio solo puede estar aproximadamente satisfecho.

Por fin, existen unos casos mixtos, donde ciertas cumbres de la interseccion del cubo ydel subespacio son muestras y otras no lo son. Consideremos el ejemplo siguiente :

Ejemplo 6.5 Supongamos que la unica limitacion sea (J = 1 sea dada por la variableauxiliar z1 = 0,8, z2 = 2,4 et z3 = 0,8 et que π1 = π2 = π3 = 0,8. La matriz A esreducida al vector

A =

(z1π1

,z2π2

,z3π3

)= (1, 3, 1),

y la ecuacion de equilibrio se vuelve

1× s1 + 3× s2 + 1× s3 = 0,8 + 2,4 + 0,8 = 4.

37

(000) (100)

(101)

(001)

(010) (110)

(111)(011)

Figura 6.3: Ninguno de las vertices de K es una cumbre del cubo

El subespacio de restricciones de dimension 2 es representado en la Figura 6.4. En estecaso, el subespacio de las restricciones pasa por dos vertices del cubo pero un vertice dela interseccion no es un vertice del cubo. La ecuacion de equilibrio puede ser satisfechasolo en ciertos casos. Decimos entonces que el sistema de ecuaciones de equilibradopuede a veces ser satisfecho.

(000) (100)

(101)

(001)

(010)(110)

(111)(011)

Figura 6.4: Dos vertices de K son vertices del cubo pero el tercero no lo es

Cuando el sistema de ecuaciones de equilibrio puede a veces ser satisfecho, ciertas mues-tras son exactamente equilibradas. Sin embargo, es necesario tomar en consideracionen el diseno de muestreo las muestras que no son exactamente equilibradas para podersatisfacer las probabilidades de inclusion.

Una propiedad determinante para la implementacion del metodo del cubo es quetodos los vertices del poliedro convexo K posean por lo menos N − J componentesiguales sea a 0, sea a 1, donde J es el numero de variables de equilibrio. Esta propiedademana del resultado siguiente:

Resultado 6.1 Si r = [rk] es un punto extremo de K entonces card{k|0 < rk < 1} ≤J.

38

Demostracion (por contradiccion) Sea A∗ la matriz A limitada a las unidades noenteras de r es decir limitada a U∗ = {k|0 < rk < 1}. Si q = card(U∗) > J, entoncesKer A∗ es de dimension q − J > 0, y r no es un punto extremo de K. �

6.5. La martingala equilibrada

Para seleccionar un vertice de la interseccion del subespacio y del cubo, vamosa usar un camino aleatorio. El camino empieza con el vector de probabilidades deinclusion π(0) = π. Para satisfacer las probabilidades de inclusion el proceso aleatorioπ(0),π(2),π(3), . . . tiene que ser une martingala.

Definicion 6.2 Un proceso aleatorio discreto π(t) = [πk(t)], t = 0, 1, . . . en RN sellama una martingala equilibrada para un vector de probabilidades de inclusion π ypara las variables auxiliares x1, . . . , xp, si

1. es una martingala: π(0) = π,

2. E [π(t)|π(t− 1), . . . .,π(0)] = π(t− 1), t = 1, 2, . . .

3. queda en la interseccion del subespacio de equilibrio y del cubo: π(t) ∈ K ={[0, 1]N ∩ (π+Ker A)

}, dondeA es una matriz p×N dada por

A = (x1/π1 . . .xk/πk . . .xN/πN).

6.6. Implementacion de la fase de vuelo

La primera etapa de la fase de vuelo es presentada en la Figura 6.5 para un casomuy especıfico: el tamano demografico N = 3 y la unica restriccion de equilibrio es eltamano fijo de la muestra n = 2. En la primera etapa, un vector u(0) debe ser escogido.

π(0)

π(0) + λ∗1(0)u(0)

π(0)− λ∗2(0)u(0)

(000) (100)

(101)

(001)

(010) (110)

(111)(011)

Figura 6.5: Fase de vuelo en una poblacion de tamano N = 3 con una muestra restric-cion de tamano n = 2

Este vector puede ser escogido libremente, pero debe ser tal que π + u(0) permanezca

39

en el subespacio de coacciones. En realidad, el metodo de cubo es una familia de losmetodos que dependen del camino vector u(0)el que es escogido. Este vector puede serescogido al azar o no.

Si, de π, seguimos la direccion dada por el vector u(0), entonces cruzaremos nece-sariamente una cara del cubo. Consideramos este punto denotado sobre la Figura 6.5por π(0) + λ∗

1(0)u(0). Ahora, si, de π, seguimos la direccion opuesta, i.e. la direcciondada por el vector u(0), cruzaremos tambien una cara del cubo. Consideramos estepunto denotado sobre la Figura 6.5 por π(0)− λ∗

2(0)u(0). En la primera etapa, el vec-tor π(0) = π es modificado al azar. Vector π(1) sera puesto a π(0) + λ∗

1(0)u(0) o aπ(0)−λ∗

2(0)u(0). La eleccion es hecha al azar de tal modo que E[π(1)] = π(0) . Al finalde la primera etapa de la fase de vuelo, hemos ası saltado sobre una cara del cubo, quequiere decir que al menos un componente de π(1) es igual a 0 o 1, i.e. que el problemasea reducido de un problema de muestreo de una poblacion de tamano N = 3 a unapoblacion de tamano N = 2. En N pasos por lo menos, la fase de vuelo ası es acabado.

Una manera de implementar una martingala equilibrada consiste en usar el algorit-mo siguiente. Primero, inicializamos por π(0) = π. Luego, En la etapa t = 1, . . . ., T,

1. Definimos un vector u(t) = [uk(t)] �= 0 tal que

(i) u(t) esta en el nucleo (kernel)de la matriz A,

(ii) uk(t) = 0 si πk(t) es entero.

2. Calculamos λ∗1(t) y λ∗

2(t), el valor mas grande tal que 0 ≤ π(t) + λ1(t)u(t) ≤ 1,y 0 ≤ π(t)− λ2(t)u(t) ≤ 1.

3. Elegimos

π(t+ 1) =

{π(t) + λ∗

1(t)u(t) con una probabilidad q1(t)π(t)− λ∗

2(t)u(t) con una probabilidad q2(t),

donde

q1(t) = λ∗2(t)/{λ∗

1(t) + λ∗2(t)}

q2(t) = λ∗1(t)/{λ∗

1(t) + λ∗2(t)}.

6.7. Implementacion de la fase de aterrizaje

6.7.1. El problema

Sea T la ultima etapa de la fase 1, y notamos por π∗ = [π∗k] = π(T ). Sea tambien

U∗ = {k ∈ U |0 < π∗k < 1} . Deville and Tille (2004) mostraron que card U∗ < p, i.e.

que el numero de elementos de U∗ que no son iguales a 0 o 1 es igual a mas pequenoque el numero de variables de equilibrio.

El problema es buscar un plan de muestreo que de una muestra s ⊂ U tal que

∑k∈s

ak ≈∑k∈U

akπ∗k =

∑k∈U

akπk,

40

lo que es equivalente a buscar un diseno muestral que de una muestra s∗ ⊂ U∗ tal que

∑k∈s∗

ak ≈∑k∈U∗

akπ∗k,

donde s∗ = U∗∩ s. Como q = #U∗ es inferior o igual a p, el numero de unidades dondequeda un problema de redondeo es pequeno respecto al tamano de la poblacion.

6.7.2. Solucion 1: programa linear

La primera manera de lograr un diseno de muestreo sobre U∗ que satisfaga lasprobabilidades de inclusion π∗, es hacer la lista de todas las muestras posibles s∗ ⊂U ∗ . Despues, vamos a buscar para cada muestra una probabilidad que respete lasprobabilidades π∗, y que minimice su coste medio.

Por lo tanto, tenemos que definir un coste (s∗) para cada muestra s∗ que mida lacalidad de equilibrio de esta muestra. Este coste aumenta si las ecuaciones de equilibrio(6.1) no se verifican. Por ejemplo, el coste puede ser definido por

C(s)

p∑j=1

Xj(s)−Xj

Xj

,

donde Xj(s) es el valor del estimador de Horvitz-Thompson sobre la muestra s. Elcoste puede tambien ser la distancia entre la muestra y el subespacio de equilibrio.

Para resolver este problema, podemos aplicar el algoritmo del sımplex sobre elprograma lineal,

mınp(.)

∑s∗⊂U∗

C(s∗)p(s∗),

sujeto a que ∑s∗⊂U

p(s∗) = 1,

∑s∗�k

p(s∗) = πk, k ∈ U,

0 ≤ p(s∗) ≤ 1, s∗ ⊂ U,

donde C(s∗) es el coste asociado a la muestra s∗.

6.7.3. Solucion 2: supresion sucesiva de variables

El metodo de del programa lineal es limitado por el hecho que no se puede hacerla lista de todas las muestras posibles si el numero de variables de equilibrio es masgrande que 20. Otro metodo simple para implementar la fase de aterrizaje consiste ensuprimir una variable de equilibrio al final de la fase de vuelo. Entonces, se puede poneren marcha de nuevo la fase de vuelo porque la dimension del subespacio ha pasado deN − p a N − p+ 1. Es posible moverse de nuevo en el subespacio. Al fin de la segundafase de vuelo, se suprime una nueva variable de equilibrio, y ası sucesivamente hasta

41

que no haya mas variables. Las variables suprimidas en primero lugar no seran tan bienequilibrados que las variables que son suprimidas al final. Por eso, se necesita suprimirlas variables en un orden que vaya de las menos importantes a las mas importantes.

6.8. Varianza en un plan equilibrado

6.8.1. Una tecnica de residuos

La varianza del estimador de Horvitz-Thompson puede ser estimada usando latecnica de residuos desarrollada en Deville and Tille (2005). Esta tecnica de residuoses comparable a la tecnica usada para estimar la varianza del estimador de calibraciony fue validada por un conjunto de simulaciones. La varianza estimada del estimador deHorvitz-Thompson es entonces muy similar a la varianza estimada del estimador por laregresion generalizada (GREG). Sin embargo, la varianza del estimador por la regresiongeneralizada es generalmente subestimada porque no toma en cuenta el hecho que lospesos son aleatorios. En efecto, si la varianza usual del estimador GREG es calculadapara el caso especial de la post-estratificacion, encontramos la varianza de un planestratificado con afijacion proporcional. La varianza del estimador post-estratificado estodavıa mas grande que la varianza en un diseno de muestreo estratificado con afijacionproporcional.

6.8.2. Aproximacion de la varianza

Deville and Tille (2005, method 4) han propuesto la aproximacion siguiente de lavarianza dada en (6.3):

varp(Yπ) ∼= varapp(Yπ) =∑k∈U

dk(yk − x′

kb)2

π2k

, (6.3)

donde

b =

(∑k∈U

dkxkx

′k

π2k

)−1 ∑k∈U

dkxkykπ2k

,

y los dk son la solucion del sistema no lineal

πk(1− πk) = dk −dkx

′k

πk

(∑�∈U

d�x�x

′�

π2�

)−1dkxk

πk

, k ∈ U. (6.4)

Esta aproximacion, que usa solamente probabilidades de inclusion del primer orden hasido validada por Deville and Tille (2005) para un gran conjunto de disenos equilibra-dos. Una aproximacion proxima de la Expresion (6.3) fue tambien obtenida por Fuller(2007) para disenos equilibrados obtenidos por una procedimiento de rechazo.

42

6.8.3. Estimacion de la varianza

Deville and Tille (2005) propusieron una familia de estimadores de varianza paramuestreo equilibrado de la forma

var(Yπ) =∑k∈S

ck

(yk − x′

kb)2

π2k

, (6.5)

donde

b =

(∑�∈S

c�x�x

′�

π2�

)−1 ∑�∈S

c�x�y�π2�

y los ck son las soluciones del sistema no lineal

1− πk = ck −ckx

′k

πk

(∑�∈S

c�x�x

′�

π2�

)−1ckxk

πk

, (6.6)

Que puede ser resuelto por un algoritmo de punto fijo.En Deville and Tille (2005), otras expresiones simples son propuestas. Se pueden

tomar otros valores para los ck,

ck ≈n

n− p(1− πk),

Que son muy cerca del ck. El estimador var(Yπ) es aproximadamente sin sesgo porquees un estimador por substitucion de la aproximacion dada en la expresion (6.3), (paramas informaciones sobre los estimadores por substitucion ver Deville, 1999).

6.9. Muestreo equilibrado en practica

6.9.1. Interes de muestreo equilibrado

En el marco asistido por el modelo y basado sobre el modelo, un diseno de muestreoequilibrado con el estimador de Horvitz-Thompson es a menudo la estrategia optima(ver Nedyalkova and Tille, 2009). En realidad, cuando la muestra es equilibrada, lasvarianzas de los estimadores Horvitz-Thompson de las variables auxiliares son igualesa cero. Bajo un modelo lineal, la varianza del estimador de Horvitz-Thompson de lavariable de interes solo dependera de los residuos del modelo.

Las ventajas de muestreo equilibrado son ası:

El muestreo equilibrado aumenta la exactitud del estimador de Horvitz-Thompson.Este punto ha sido desarrollado en la Seccion 6.8.2. De hecho, la varianza delestimador de Horvitz-Thompson solo depende de los residuos de la regresion dela variable de interes por las variables de equilibrio.

El muestreo equilibrado protege contra errores de muestreo grandes. Las muestrasmas desfavorables tienen una probabilidad nula de ser seleccionada.

43

En la inferencia basada en el modelo, el muestreo equilibrado protege contra unamala especificacion del modelo. Este punto en gran parte es desarrollado porRoyall (1976b,a); Valliant et al. (2000). Encuentran una discusion reciente deesta pregunta importante en Nedyalkova and Tille (2009).

El muestreo equilibrado asegura que los tamanos de la muestra en areas partic

-ulares no son demasiado pequenos o - mucho peor - iguales a cero.

El muestreo equilibrado permite evitar el uso de un procedimiento de calibracion.Si el diseno de muestreo no contiene ninguna restriccion (por ejemplo con eldiseno de Poisson), el sistema de ponderacion obtenido segun un procedimientode calibracion puede ser muy arbitrario, lo que reduce la eficiencia del estimador.

La ventaja y la simplicidad del metodo de cubo son tan obvias que el metodo decubo ha sido rapidamente usado en muy grandes procesos estadısticos. El primer usodel metodo de cubo era la seleccion de los grupos de rotacion para el censo frances. (verDesplanques, 2000; Dumais et al., 2000; Durr and Dumais, 2001, 2002; Dumais andIsnard, 2000; Bertrand et al., 2004; da Silva et al., 2006). Para los municipios con menosde 10,000 habitantes, cinco grupos de rotacion que se no superponen de municipiosfueron seleccionados usando un diseno de muestreo equilibrado con probabilidades deinclusion iguales (1/5). Cada ano, un quinto de los municipios son entrevistados. Tansolo despues de 5 anos, todos los pequenos municipios habran sido seleccionados. Paralos municipios con mas de 10,000 habitantes, en cada municipio, cinco muestras dedirecciones que no se no superponen son seleccionadas con probabilidades de inclusion1/8. Tan solo despues de 5 anos, 40

En la muestra maestra francesa, las unidades primarias son areas geograficas queson seleccionadas usando un diseno de muestreo equilibrado (vermirar Wilms, 2000;Christine and Wilms, 2003; Christine, 2006). La muestra maestra es un muestreo auto-ponderado bietapico. Entonces las unidades primarias son seleccionadas con probabili-dades desiguales proporcionales a sus tamanos. Las variables de equilibrio son variablessocio-demograficas tomadas del ultimo censo. Bardaji (2001) y Even (2002) tambienhan usado muestreo equilibrado para seleccionar una muestra de los beneficiarios detrabajo subvencionado. Siete poblaciones son inspeccionadas, una muestra equilibradade beneficiarios es seleccionada en cada una de las poblaciones, usando entre dos ycinco variables de equilibrio segun las poblaciones.

En la empresa Electricite de France (EDF), nuevos contadores de electricidad per-mite de medir el consumo de electricidad para cada casa en una base continua. Lacantidad de informacion es tan grande que es imposible archivar todos los datos. Desser-taine (2006, 2007) ha usado muestreo equilibrado para seleccionar las serias temporalesde consumo que deben ser archivadas para asegurar una buena representacion de lapoblacion francesa. Biggeri and Falorsi (2006) han usado nuestreo equilibrado paramejorar la calidad del ındice del los precios en Italia. D’Alo et al. (2006) tambienpropuso usar muestreo equilibrado para estimar totales en pequenos areas. Algunassimulaciones fueron hechas por Marı et al. (2007b) y Marı et al. (2007a) en Argentinapara evaluar el interes de muestreo equilibrado para la muestra maestra.

44

6.9.2. Muestreo Equilibrado Contra Otras Tecnicas de Muestreo

El muestreo con probabilidades desiguales es un caso particular del metodo de cubo.De verdad, cuando la unica variable auxiliar es la probabilidad de inclusion, la muestratiene un tamano de muestra fija. El metodo de cubo es una generalizacion del metodode escision (vean Deville and Tille, 1998), que incluye varios algoritmos de muestreo conprobabilidades desiguales (el metodo de Brewer, el metodo pivotal, el metodo Sunter).La estratificacion es tambien un caso particular del metodo de cubo. Las variables deequilibrio son los indicadores de los estratos. El interes del metodo de cubo es quepermite equilibrar sobre estratos que se superponen. Por ejemplo, una muestra puedeser equilibrada sobre los totales marginales de una mesa de contingencia. Ademas,se pueden usar variables cualitativas y cuantitativas juntas. El muestreo sistematicoaun puede ser visto como un diseno de muestreo equilibrado sobre la estadıstica deorden(pedido) relacionada con la variable sobre la cual ordenan(piden) a la poblacion.

Casi todas las otras tecnicas de muestreo son casos particulares de muestreo equili-brado (excepto el muestreo multietapico). De hecho, el muestreo equilibrado es simple-mente mas general, en el sentido que todos los otros metodos de muestreo pueden serpuestos en practica con el metodo de cubo. El muestreo equilibrado nos permite usarcualquier variable para el equilibrio. Con el concepto general de equilibrio, los estratospuede superponerse, las variables cuantitativas y cualitativas pueden ser usadas juntos,y las probabilidades de inclusion pueden ser escogidas libremente.

Es conocido que el estimador de razon y el estimador postestratificado son casosparticulares del estimador de regresion. El estimador de regresion es tambien un casoparticular del estimador de calibracion (que incluye un ajuste no lineal). De la mismamanera, el muestreo equilibrado es mas un metodo general de muestreo que incluyecasi todos los otros metodos.

6.9.3. Eleccion de las variables de equilibrio

La recomendacion principal es de escoger las variables de equilibrio que son muycorrelacionadas a las variables de interes. Como, con cualquier problema de regresion,las variables de equilibrio deben ser escogidas segun un principio de tacanerıa: No hayque escoger demasiadas variables de equilibrio porque, para cada variable, un gradode libertad se pierde para la estimacion de la varianza. Practicamente hablando, lasvariables de interes son multiples, entonces las variables de equilibrio bien deben sercorrelacionadas con las variables de interes en general, y las variables auxiliares nodeberıan ser demasiado correlacionadas entre ellas. Lesage (2008) propuso un metodopara equilibrar sobre estadısticas complejas, mas que simplemente usando totales depoblaciones. La idea principal consiste en el equilibrio sobre la variable linealizada (ola funcion de influencia) del parametro de interes.

En muchos casos, las variables de equilibrio contienen errores de medida. Por ejemp

-lo,en la mayor parte de registros,sepuede sospechar errores en los datos.No-respuestaspueden obviamente ocurrir y variables auxiliares son a menudo corregidas por un meto-do de imputacion. Como para la calibracion, el hecho de tener errores en las variablesauxiliares no es muy importante, por lo que la calibracion se hace sobre el total de las

45

variables auxiliares del registro. Con el muestreo equilibrado, el estimador de Horvitz-Thompson es sin sesgo incluso si las variables auxiliares son falsas. El beneficio en laeficacia depende solamente de la correlacion entre las variables de equilibrio y las vari -ables de interes. Esta correlacion generalmente no es afectada por algunos errores enlas variables de equilibrio.

Varias variables pueden ser usadas para mejorar la estimacion en el pequeno do-minio. Para asegurar que un dominio D no esta vacıo, se puede simplemente anadir lavariable auxiliar:

xk =

{πk si k ∈ D0 si k /∈ D,

lo que implica que el numero de las unidades probadas que pertenecen a D es igual

nD =∑k∈U

xk =∑k∈D

πk,

si nD es el numero entero, o uno de los dos numeros enteros mas cercanos a nD si nD

no es el numero entero.

6.9.4. Equilibrio versus Calibracion

La estratificacion es un caso particular de equilibrio, mientras que la estratificaciones un caso particular de calibracion. En la estratificacion y el equilibrio, los pesos noson aleatorios. Por lo tanto, el muestreo equilibrado es, en general, una mejor estrate-gia. Sin embargo, se necesita mas informacion adicional para equilibrar. En efecto,para el muestreo equilibrado, las variables auxiliares deben ser conocidas por todaslas unidades de la poblacion, mientras que, para la calibracion, solo los totales depoblacion son necesarios. Equilibrio es un metodo muy interesante para poblaciones depequeno tamano. Por lo tanto, un metodo de cubo es muy interesante para la seleccionde unidades primarias en una muestra multietapica.

Ambas tecnicas se pueden utilizar juntas y no son contradictorias. La mejor estrate-gia consiste en la utilizacion de muestreo equilibrado y calibracion juntos. De hechola calibracion puede resolver el pequeno problema de redondeo que puede permanecerdespues en la muestra equilibrada. En la etapa de estimacion, en general hay masvariables auxiliares disponibles. En general, se recomienda volver a calibrar en las vari-ables de equilibrio en la fase de estimacion, aunque mas variables de calibracion estendisponibles. Si solo se utilizan las nuevas variables en la calibracion, se puede perder elefecto de equilibrio. Hay, sin embargo, un caso en que la calibracion se puede utilizar sinnecesidad de volver a calibrar en las variables de equilibrio: cuando uno puede razon -ablemente suponer que condicionalmente a las variables de calibracion, las variables deequilibrio no tienen correlacion con las variables de interes. Esto puede ocurrir cuandoel equilibrio y la variable de calibracion son las mismas variables medidas en diferentesmomentos, y las variables de calibracion son mas recientes.

Cuando el coeficiente de determinacion entre la variable de interes y las variablesauxiliares es igual o cercano a uno, despues de la calibracion es mas eficiente debidoal problema de redondeo de muestreo equilibrado. De todos modos la estrategia mas

46

eficiente consiste en utilizar muestreo equilibrado y calibracion juntos (ver la simulacionen Deville and Tille, 2004).

6.9.5. Precision de las ecuaciones de equilibrio

Es posible demostrar, con condiciones realistas (ver Deville and Tille, 2004), quecon el metodo del cubo ∣∣∣∣∣

Xj −Xj

Xj

∣∣∣∣∣ < O(p/n),

donde p es el numero de variables, y O(x)/x es una cuantidad que queda delimitadacuando x tiende a infinito. Con un plan simple,

∣∣∣∣∣Xj −Xj

Xj

∣∣∣∣∣ = Op(√1/n),

donde Op(x)/x es una cuantidad que queda delimitada en probabilidad cuando x tiendeal infinito.

La ganancia de precision, es muy importante. El pequeno problema de redondeopuede ser fijado por una pequena calibracion. El problema de redondeo viene del hechode que la seleccion de una muestra es un problema en numeros enteros. Este problematambien ocurre en estratificacion, que es un caso particular del muestreo equilibrado. Enestratificacion con afijacion proporcional, las sumas de las probabilidades de inclusionen los estratos no son por lo general enteras. Ası, el tamano de las muestras en losestratos es obtenido por el redondeo de la suma de probabilidades de inclusion en losestratos. El metodo del cubo lo hace de forma automatica y redondeo al azar, de talforma que se garantice que las probabilidades de inclusion sean exactamente satisfechas.

6.9.6. Principales Implementaciones de muestreo equilibrado

Una implementacion en SAS-IML ha sido programado por tres estudiantes de laEcole Nationale de la Statistique et de l’Analyse de l’Information (ENSAI) (Bousabaaet al., 1999). Una version oficial hecha porTardieu (2001); Rousseau and Tardieu (2004)esta disponible en la pagina web del INSEE. Otra version en SAS-IML hecha porChauvet and Tille (2005b,a, 2006, 2007) esta tambien disponible en la pagina web de laUniversidad de Universidad de Neuchatel. En lenguaje R, el paquete (Tille and Matei,2007) permite usar el metodo del cubo. Todos estos programas son libres, disponiblesobre el Internet y muy faciles de usa.

Estos programas escritos en lenguaje R o en SAS-IML no tienen lımites para eltamano de la poblacion. Una aplicacion con 40 variables auxiliares es posible. El tiempode calculo aumenta de N × p2, donde N es el tamano de la poblacion y p es el numerode variables de equilibrio. Por eso, se puede seleccionar una muestra en una poblacionde varios millones de unidades.

47

Bibliografıa

Ardilly, P. (1991). Echantillonnage representatif optimum a probabilites inegales. An-nales d’Economie et de Statistique, 23:91–113.

Bardaji, J. (2001). Un an apres la sortie d’un contrat emploi consolide : pres de sixchances sur dix d’avoir un emploi. Premieres Informations Syntheses, Direction del’Animation de la Recherche des Etudes et des Statistiques (DARES) du Ministeredu Travail des relations sociales et de la solidarite, 43. 3:1–8.

Basu, D. (1971). An essay on the logical foundations of survey sampling. In Godambe,V. P. and Sprott, D. A., editors, Foundations of Statistical Inference, pages 203–233,Toronto. Holt, Rinehart and Winston.

Bebbington, A. C. (1975). A simple method of drawing a sample without replacement.Applied Statistics, 24:136.

Bertrand, P., Christian, B., Chauvet, G., and Grosbras, J.-M. (2004). Plans de sondagepour le recensement renove de la population. In Series INSEE Methodes: Actes desJournees de Methodologie Statistique, Paris. INSEE.

Biggeri, L. and Falorsi, P. D. (2006). A probability sample strategy for improvingthe quality of the consumer price index survey using the information of the businessregister. In Proceedings of the Conference of European Statisticians Group of Expertson Consumer Price Indices, Eighth Meeting, Geneva, 10-12 May 2006.

Bousabaa, A., Lieber, J., and Sirolli, R. (1999). La macro cube. Technical report,ENSAI, Rennes.

Brewer, K. R. W. (1975). A simple procedure for πpswor. Australian Journal ofStatistics, 17:166–172.

Brewer, K. R. W. and Hanif, M. (1983). Sampling with Unequal Probabilities. Springer,New York.

Chauvet, G. and Tille, Y. (2005a). Fast SAS Macros for balanc-ing Samples: user’s guide. Software Manual, University of Neuchatel,http://www2.unine.ch/statistics/page10890.html.

Chauvet, G. and Tille, Y. (2005b). New SAS macros for balanced sampling. In Journeesde Methodologie Statistique, INSEE, Paris.

48

Chauvet, G. and Tille, Y. (2006). A fast algorithm of balanced sampling. Journal ofComputational Statistics, 21:9–31.

Chauvet, G. and Tille, Y. (2007). Application of the fast sas macros for balancingsamples to the selection of addresses. Case Studies in Business, Industry and Gov-ernment Statistics, 1:173–182.

Chen, S. X., Dempster, A. P., and Liu, J. S. (1994). Weighted finite population samplingto maximize entropy. Biometrika, 81:457–469.

Christine, M. (2006). Use of balanced sampling in the framework of the master samplefor french household surveys. In Joint Statistical Meeting of the American StatisticalAssociation, Seattle August 2006.

Christine, M. and Wilms, L. (2003). Theoretical and practical problems in constructingthe MSX: how can the precision of regional extensions of national surveys be im-proved through additional sampling? In Proceedings of Statistics Canada Symposium2003 Challenges in Survey Taking for the Next Decade, Ottawa.

da Silva, A. D., da Silva Borges, A., Aires Leme, R., and Moura Reis Miceli, A. P.(2006). Modalidades alternativas de censo demografico: o cenario internacional apartir das experiencias dos estados unidos, franca, holanda, israel e alemanha. Tech-nical report, Instituto Brasileiro de Geografia e Estatıstica.

D’Alo, M., Di Consiglio, L., Falorsi, S., and Solari, F. (2006). Small area estimation ofthe italian poverty rate. Statistics in Transition, 7:771–784.

Desplanques, G. (2000). La renovation du recensement de la population. In Actesde la seance du 5 octobre 2000 du seminaire methodologique SFDS-INSEE sur larenovation du recensement, pages 2–5.

Dessertaine, A. (2006). Sondages et series temporelles : une application pour la previ-sion de la consommation electrique. In Actes des journees Francaises de Statistique2006, Clamart, France.

Dessertaine, A. (2007). Sampling and data-stream: Some ideas to built balanced sam-pling using auxiliary Hilbertian informations. In Proceedings of 56th the InternationalStatistical Institute Conference: IPM56 - New methods of sampling, Liboa, Portugal.

Deville, J.-C. (1999). Variance estimation for complex statistics and estimators: lin-earization and residual techniques. Survey Methodology, 25:193–204.

Deville, J.-C. (2000). Note sur l’algorithme de Chen, Dempster et Liu. Technical report,CREST-ENSAI, Rennes.

Deville, J.-C., Grosbras, J.-M., and Roth, N. (1988). Efficient sampling algorithms andbalanced sample. In COMPSTAT, Proceedings in Computational Statistics, pages255–266, Heidelberg. Physica Verlag.

49

Deville, J.-C. and Tille, Y. (1998). Unequal probability sampling without replacementthrough a splitting method. Biometrika, 85:89–101.

Deville, J.-C. and Tille, Y. (2004). Efficient balanced sampling: The cube method.Biometrika, 91:893–912.

Deville, J.-C. and Tille, Y. (2005). Variance approximation under balanced sampling.Journal of Statistical Planning and Inference, 128:569–591.

Dumais, J., Bertrand, P., and Kauffmann, B. (2000). Sondage, estimation et precisiondans la renovation du recensement de la population. InActes de la seance du 5 octobre2000 du seminaire methodologique SFDS-INSEE sur la renovation du recensement,pages 6–26.

Dumais, J. and Isnard, M. (2000). Le sondage de logements dans les grandes communesdans le cadre du recensement renove de la population. In Series INSEE Methodes:Actes des Journees de Methodologie Statistique, volume 100, pages 37–76, Paris.INSEE.

Durr, J.-M. and Dumais, J. (2001). La renovation du recensement francais. In Recueildu Symposium 2001 de Statistique Canada, Ottawa.

Durr, J.-M. and Dumais, J. (2002). Redesign of the french census of population. SurveyMethodology, 28:43–49.

Even, K. (2002). Improved tool for evaluating employment and vocational train-ing policy : panel of beneficiaries. Premieres Informations Syntheses, Direction del’Animation de la Recherche des Etudes et des Statistiques (DARES) du Ministeredu Travail des relations sociales et de la solidarite, 33. 1:1–7.

Fan, C. T., Muller, M. E., and Rezucha, I. (1962). Development of sampling plans byusing sequential (item by item) selection techniques and digital computer. Journalof the American Statistical Association, 57:387–402.

Fuller, W. A. (2007). Some design properties of a rejective sampling procedure. Tech-nical report, Department of Statistics, Iowa State University.

Gabler, S. (1990). Minimax Solutions in Sampling from Finite Populations, volume 64.Springer, New York.

Hajek, J. (1981). Sampling from a Finite Population. Marcel Dekker, New York.

Hansen, M. H. and Hurwitz, W. N. (1943). On the theory of sampling from finitepopulations. Annals of Mathematical Statistics, 14:333–362.

Hedayat, A. S. and Majumdar, D. (1995). Generating desirable sampling plans by thetechnique of trade-off in experimental design. Journal of Statistical Planning andInference, 44:237–247.

50

Lesage, E. (2008). Contraintes d’equilibrage non lineraires. In Guilbert, P., Haziza,D., Ruiz-Gazen, A., and Tille, Y., editors, Methodes d’enquetes : applications auxenquetes longitudinales, a la sante et aux enquetes electorales, pages 285–289, Paris.Dunod.

Madow, W. G. (1949). On the theory of systematic sampling, II. Annals of Mathe-matical Statistics, 20:333–354.

Marı, G., Barbara, G., Mitas, G., and Passamonti, S. (2007a). Construccion de unestimador de variancia para muestras balanceadas estratificadas. In XXXV ColoquioArgentino de Estadıstica. Mar del Plata, Argentina. 22, 23 y 24 de Octubre de 2007.

Marı, G., Barbara, G., Mitas, G., and Passamonti, S. (2007b). Muestras equilibradas enpoblaciones finitas: un estudio comparativo en muestras de explotaciones agropecuar

-ias. InUndecimas Jornadas Investigaciones en la Facultad”de Ciencias Economicasy Estadıstica, noviembre de 2007, Universidad Nacional de Rosario, Argentina.

Nedyalkova, D. and Tille, Y. (2009). Optimal sampling and estimation strategies underlinear model. Biometrika, 95:521–537.

Neyman, J. (1934). On the two different aspects of representative method: The methodof stratified sampling and the method of purposive selection. Journal of the RoyalStatistical Society, 97:558–606.

Rousseau, S. and Tardieu, F. (2004). La macro SAS CUBE d’echantillonnage equilibre,Documentation de l’utilisateur. Technical report, INSEE, PARIS.

Royall, R. M. (1976a). Likelihood functions in finite population sampling theory.Biometrika, 63:605–614.

Royall, R. M. (1976b). The linear least squares prediction approach to two-stagesampling. Journal of the American Statistical Association, 71:657–664.

Royall, R. M. and Herson, J. (1973a). Robust estimation in finite populations I. Journalof the American Statistical Association, 68:880–889.

Royall, R. M. and Herson, J. (1973b). Robust estimation in finite populations II:Stratification on a size variable. Journal of the American Statistical Association,68:890–893.

Tardieu, F. (2001). Echantillonnage equilibre: de la theorie a la pratique. Technicalreport, INSEE, Paris.

Thionet, P. (1953). La theorie des sondages. INSEE, Imprimerie nationale, Paris.

Tille, Y. (2001). Theorie des sondages: echantillonnage et estimation en populationsfinies. Dunod, Paris.

Tille, Y. (2006). Sampling Algorithms. Springer, New York.

51

Tille, Y. and Favre, A.-C. (2004). Co-ordination, combination and extension of optimalbalanced samples. Biometrika, 91:913–927.

Tille, Y. and Favre, A.-C. (2005). Optimal allocation in balanced sampling. Statisticsand Probability Letters, 74:31–37.

Tille, Y. and Matei, A. (2007). The R Package Sampling. The Comprehensive RArchive Network, http://cran. r-project. org/, Manual of the Contributed Packages.

Valliant, R., Dorfman, A. H., and Royall, R. M. (2000). Finite Population Samplingand Inference: A Prediction Approach. Wiley, New York.

Wilms, L. (2000). Presentation de l’echantillon-maıtre en 1999 et application au tiragedes unites primaires par la macro cube. In Series INSEE Methodes: Actes desJournees de Methodologie Statistique, Paris. INSEE.

Yates, F. (1949). Sampling Methods for Censuses and Surveys. Griffin, London.

52

EUSKAL ESTATISTIKA ERAKUNDEAINSTITUTO VASCO DE ESTADÍSTICA

EUSKAL ESTATISTIKA ERAKUNDEAINSTITUTO VASCO DE ESTADÍSTICA

www.eustat.es

Muestreo Equilibrado Eficiente:El Método del Cubo

Yves Tillé

NAZIOARTEKO ESTATISTIKA MINTEGIASEMINARIO INTERNACIONAL DE ESTADÍSTICA

2010

Portada_Semimario_52.indd 1 07/10/10 16:12