Muestreo Estad stico - Universidad de Sevillapersonal.us.es/jmayor/ficheros/me_P1_02.pdf · y con...

26
Muestreo Estad´ ıstico Grado en Estad´ ıstica. Curso Segundo Facultad de Matem´ aticas Universidad de Sevilla Tema 2 Muestreo Aleatorio Simple. Estimaci´ on en Subpoblaciones. Versi´ on ρ Departamento de Estad´ ıstica e Investigaci´ on Operativa Universidad de Sevilla NOTA: Este documento ha de emplearse como un gui´ on que se complementar´ a con las explicaciones de clase.

Transcript of Muestreo Estad stico - Universidad de Sevillapersonal.us.es/jmayor/ficheros/me_P1_02.pdf · y con...

Page 1: Muestreo Estad stico - Universidad de Sevillapersonal.us.es/jmayor/ficheros/me_P1_02.pdf · y con esta informaci on, pretendemos obtener, si no el valor exacto de (Y), lo que obviamen-te

Muestreo EstadısticoGrado en Estadıstica. Curso Segundo

Facultad de Matematicas

Universidad de Sevilla

Tema 2Muestreo Aleatorio Simple. Estimacion en

Subpoblaciones.Version ρ

Departamento de Estadıstica e Investigacion Operativa

Universidad de Sevilla

NOTA: Este documento ha de emplearse como un guion que se complementara

con las explicaciones de clase.

Page 2: Muestreo Estad stico - Universidad de Sevillapersonal.us.es/jmayor/ficheros/me_P1_02.pdf · y con esta informaci on, pretendemos obtener, si no el valor exacto de (Y), lo que obviamen-te

F.M. Muestreo Estadıstico. Tema 2: Muestreo Aleatorio Simple. Estimacion en Subpoblaciones 1

1. Muestreo Aleatorio Simple

Como hemos visto en el Tema 1., dada la poblacion, U , el Diseno Muestral AleatorioSimple esta formado por el espacio muestral de todas las

(Nn

)muestras o subconjuntos

posibles de tamano fijo, n, lo que en sımbolos expresamos como,

M = {m ⊆ U | n(m) = n}

y la distribucion de probabilidad uniforme o constante sobre las mismas, es decir,

Pr(m) =1(Nn

) ∀m ∈M

Cuando en una poblacion realizamos un muestreo, es decir, la obtencion de una muestra,de acuerdo con este diseno, diremos que hemos realizado un Muestreo Aleatorio Simple.Este tipo de muestreo es posiblemente el mas empleado porque, dentro de su facilidad,en terminos generales presenta tambien buenas propiedades en relacion a la estimacion deparametros.

Veamos nuevamente, pues ya lo hemos hecho en el Tema 1., el calculo de las probabili-dades de inclusion para este diseno muestral MAS(N,n). En este diseno todas las muestrasson equiprobables, por lo que podemos aplicar la regla o formula de Laplace,

πi =muestras favorables a i

muestras posibles=

(N−1n−1

)(Nn

) =n

N

πij =muestras favorables a i, j

muestras posibles=

(N−2n−2

)(Nn

) =n(n− 1)N(N − 1)

es pues un diseno muestral probabilıstico y cuantificable.

La cantidad πi = n/N aparece con mucha frecuencia por lo que se ha creado para ellauna notacion especial, n/N = f . Dicho valor f se denomina fraccion de muestreo, porser el cociente entre el tamano muestral y el poblacional. Se tiene que 0 < f ≤ 1, peroes obvio que usualmente n sera mucho menor que N por lo que f suele ser una cantidadpequena. Por ejemplo, si en una ciudad con 1.000.000 (un millon) de habitantes se extraeuna muestra aleatoria simple de 500 individuos, la fraccion de muestreo sera f = 0′0005.

2. Generacion de muestras aleatorias simples

Hay varios procedimientos para seleccionar una muestra aleatoria simple, m, a partir deuna de una poblacion, U . En el Tema 1., ya hemos visto un procedimiento simple, validoen terminos generales, tanto para emplearlo en pequenos ejemplo a mano o en EXCEL,como para programarlo en un lenguaje de ordenador con el fin de aplicarlo a gran escala.Suponemos que este metodo es ya bien conocido, por lo que no insistiremos en el mismo.La demostracion de su validez puede verse, por ejemplo, en Fernandez y Mayor(1995a).

Para generar directamente con R una muestra aleatoria simple de n elementos de unapoblacion de tamano N basta ejecutar la instruccion,

Page 3: Muestreo Estad stico - Universidad de Sevillapersonal.us.es/jmayor/ficheros/me_P1_02.pdf · y con esta informaci on, pretendemos obtener, si no el valor exacto de (Y), lo que obviamen-te

F.M. Muestreo Estadıstico. Tema 2: Muestreo Aleatorio Simple. Estimacion en Subpoblaciones 2

sample(N,n)

Por ejemplo, sample(2500,50) genera una muestra aleatoria simple de 50 elementos deuna poblacion de 2500 elementos.

Esta es la forma mas simple de emplearla, pero esta funcion tiene muchas posibilidadesadicionales, muy utiles, que recomendamos consultar.

A continuacion vamos a exponer otros metodos que no forman parte de la evaluacion nihan sido explicados en clase, pero que son anadidos por su interes.

2.1. Metodo secuencial

Este metodo consiste en recorrer secuencialmente la poblacion de manera que paraj = 1, 2, . . . N , se selecciona el elemento j de la poblacion con probabilidad,

n− njN − j + 1

cosa que ya sabemos como hacer, siendo nj el numero de elementos ya seleccionados oaceptados en las j − 1 primeras inspecciones, si j > 1, y siendo n1 = 0. El procedimientofinaliza cuando nj = n.

En la realizacion practica del metodo, se recorre secuencialmente la poblacion, y paracada elemento se genera un numero aleatorio, r, entre 0 y 1. En caso de que se cumplar ≤ (n − nj)/(N − j + 1), se introduce el elemento en la muestra. Cuando de esta formahayamos seleccionado n elementos, detenemos el proceso.

Este procedimiento fue ideado por Fan, Muller y Rezucha, y sus pormenores pueden verseen Fernandez y Mayor(1995a). Al final de este tema se ha incluido un ejemplo practico.

2.2. Metodo de los numeros aleatorios

Este metodo consiste en la generacion, para cada elemento de la poblacion, de un numeroaleatorio entre 0 y 1, obteniendo ası,

ε1, ε2, . . . , εN

a continuacion, estos numeros se ordenan segun su valor, obteniendo,

εi1 < εi2 < . . . < εin < . . . < εiN

Se verifica entonces que las unidades asociadas a los n primeros numeros i1, i2, . . . inconstituyen una muestra aleatoria simple de tamano n. En general se verifica que cualquierconjunto de n posiciones preasignadas definen una muestra aleatoria simple, por ejemplode la n + 1 a la 2n y ası sucesivamente, por lo que este metodo puede ser empleado paragenerar a la vez varias muestras aleatorias simples.

EJEMPLO 1 Supongamos que N = 7 y n = 3. Generamos 7 numeros aleatorios en elintervalo [0, 1) y obtenemos,

0′689, 0′577, 0′651, 0′043, 0′005, 0′939, 0′848

Page 4: Muestreo Estad stico - Universidad de Sevillapersonal.us.es/jmayor/ficheros/me_P1_02.pdf · y con esta informaci on, pretendemos obtener, si no el valor exacto de (Y), lo que obviamen-te

F.M. Muestreo Estadıstico. Tema 2: Muestreo Aleatorio Simple. Estimacion en Subpoblaciones 3

los ordenamos de menor a mayor, obteniendo,

0′005, 0′043, 0′577, 0′651, 0′689, 0′848, 0′939

y de esta forma se tiene que {5, 4, 2} es una muestra aleatoria simple. Y {3, 1, 7} es otra.4

Los pormenores de este interesante metodo pueden verse en el libro de Fernandez yMayor(1995a). Al final de este tema se ha incluido otro ejemplo practico de este metodo.

3. Estimacion de parametros poblacionales [MUY IMPOR-TANTE]

Ya hemos visto en el Tema 1, la fase de muestreo, es decir, como construir una muestrade algunos disenos muestrales como el aleatorio simple, el de Bernoilli, Poisson, etc. Ahoraestudiaremos la fase de estimacion, es decir, como emplear los datos de esta muestra paraobtener informacion de la poblacion completa.

Tenemos una variable de estudio, Y = (y1, y2, . . . , yN ), y un parametro poblacional,θ(Y ). La muestra m = {i1, i2, . . . , in} nos proporciona una informacion basada en los valoresde la variable para cada uno de los elementos muestrales, es decir,

{yi | i ∈ m}

y con esta informacion, pretendemos obtener, si no el valor exacto de θ(Y ), lo que obviamen-te no es posible en condiciones normales, sı al menos un valor aproximado que denotamosθ(m), y que en el campo de la Estadıstica se denomina estimador. El gorro indica que es unestimador, y la m indica que es muestral, es decir, emplea solo la muestra. Dada un muestraconcreta, m, el valor concreto que obtenemos, θ(m) se denomina estimacion de θ(Y ). Porconsiguiente, la estimacion depende del azar, es aleatoria. Hay tantas estimaciones posiblescomo muestras potenciales. En la practica real del muestreo, obtendremos UNA muestra, ya partir de ella calcularemos UNA estimacion.

Pero ¿Que propiedades deberıan tener los estimadores para cumplir bien su cometido?.

Notemos que el estadıstico que empleamos como estimador, θ(m), es una variable alea-toria. Una propiedad logica y deseable es que su valor esperado o esperanza matematicacoincida con el parametro que pretende estimar, es decir,

E[θ(m)] = θ(Y )

donde, recordemos que la anterior esperanza esta calculada sobre el diseno muestral, esdecir,

E[θ(m)] =∑m∈M

θ(m)Pr(m)

Cuando un estimador cumpla esta propiedad, diremos que es insesgado. Intentaremospues buscar estimadores insesgados.

En general, sea el estimador insesgado o no, se define el sesgo del estimador como,

B[θ(m)] = E[θ(m)]− θ(Y )

Page 5: Muestreo Estad stico - Universidad de Sevillapersonal.us.es/jmayor/ficheros/me_P1_02.pdf · y con esta informaci on, pretendemos obtener, si no el valor exacto de (Y), lo que obviamen-te

F.M. Muestreo Estadıstico. Tema 2: Muestreo Aleatorio Simple. Estimacion en Subpoblaciones 4

por lo que, si un estimador es insesgado, su sesgo es CERO, NULO. Como puede verse, laterminologıa es logica y consistente.

Si ahora queremos calibrar la mayor o menos eficiencia de un estimador, tenemos poruna parte el parametro que queremos estimar, θ(Y ), y por otra parte, su estimador, θ(m).La diferencia entre estas dos cantidades, al cuadrado, es decir,

(θ(m)− θ(Y ))2

nos sirve para calibrar lo buena que es la estimacion realizada solo con la muestra m.Mientras menor sea dicha cantidad, mejor es la estimacion, y viceversa.

Pero como nos interesa un valor global, aplicable no a una muestra particular sino atodo el diseno, lo que hacemos es tomar la esperanza matematica de dicha cantidad, esdecir,

E[(θ(m)− θ(Y ))2]

siendo este valor un parametro que nos da informacion sobre lo bueno que es el estimador.Mientras mayor sea dicha esperanza, peor es la estimacion, y viceversa. Esta cantidad sedenomina Error Cuadratico Medio y se denota ECM[θ(m)]. Demostramos en clase que,

ECM[θ(m)] = V [θ(m)] +B2[θ(m)]

Ası, si un estimador es insesgado, el error cuadratico medio y la varianza coinciden. Esdecir, si un estimador es insesgado, podemos calibrar su eficiencia mediante su varianza. Amenor varianza, mas eficiente, preciso o exacto. A mayor varianza, menos eficiente, precisoo exacto.

En resumidas cuentas, a la hora de buscar estimadores, intentaremos que seaninsesgado y con la menor varianza posible. Pero en caso de que el estimadorno sea insesgado, tendremos que emplear el error cuadratico medio comocriterio de eficiencia.

Vamos ya a concretar la situacion. Uno de los parametros mas investigados en la practicaes la media poblacional,

yU =1N

∑i∈U

yi

Como estimador de este relevante parametro, proponemos emplear la media muestral,es decir, la media aritmetica de los valores de la variable sobre la muestra,

yU =1n

∑i∈m

yi = ym

3.1. ¿Es insesgado yU = ym?

Para estudiar esto, iremos por partes. En primer lugar vamos a definir, para cada ele-mento poblacional, i, una variable aleatoria que vale 1 o 0, segun dicho elemento SI este oNO este en la muestra, es decir,

Ii(m) =

{1 si i ∈ m0 si i 6∈ m

Page 6: Muestreo Estad stico - Universidad de Sevillapersonal.us.es/jmayor/ficheros/me_P1_02.pdf · y con esta informaci on, pretendemos obtener, si no el valor exacto de (Y), lo que obviamen-te

F.M. Muestreo Estadıstico. Tema 2: Muestreo Aleatorio Simple. Estimacion en Subpoblaciones 5

Es obvio que la variable aleatoria Ii(m) se distribuye segun una distribucion o ley deBernoulli siendo su esperanza matematica o valor esperado,

E[Ii(m)] = 1× Pr[i ∈ m] = πi =n

N

y se tiene pues que,

E[ym] = E

[1n

∑i∈m

yi

]= E

[1n

∑i∈U

yiIi(m)

]=

1n

∑i∈U

yiE[Ii(m)] =1n

∑i∈U

yin

N= yU

por consiguiente SI es un estimador insesgado. El siguiente paso es calcular su varianzapara calibrar la bondad de las estimaciones.

3.2. Calculo de V [ym]

Para este calculo, vamos a necesitar conocer la varianza de Ii(m), ası como la covarianzade Ii(m) con Ij(m), siendo i 6= j. La varianza es inmediata. Solamente hay que recordar unpoquito de Calculo de Probabilidades, es decir,

V [Ii(m)] = πi(1− πi) = f(1− f)

Para la covarianza, recordemos que dadas dos variables aleatorias, V y W , su covarianzase puede calcular mediante Cov[V,W ] = E[VW ]− E[V ]E[W ]. En nuestro caso, se tiene,

Cov[Ii, Ij ] = E[IiIj ]− E[Ii]E[Ij ] = 1× Pr[i, j ∈ m]− πiπj

= πij − πiπj =n(n− 1)N(N − 1)

− n

N

n

N= −f(1− f)

N − 1

donde la cantidad final se obtiene con un calculo directo y trivial, que no hace falta porme-norizar aquı.

Si ahora recordamos, del Calculo de Probabilidades, que la varianza de una suma devariables aleatorias es la suma de las varianzas mas la suma de todas las covarianzas,tendremos,

V [ym] = V

[1n

∑i∈m

yi

]=

1n2V

[∑i∈U

yiIi(m)

]

=1n2

∑i∈U

V [yiIi(m)] +∑i,j∈Ui 6=j

Cov[yiIi(m), yjIj(m)]

=1n2

∑i∈U

y2i V [Ii(m)] +

∑i,j∈Ui 6=j

yiyj Cov[Ii(m), Ij(m)]

Page 7: Muestreo Estad stico - Universidad de Sevillapersonal.us.es/jmayor/ficheros/me_P1_02.pdf · y con esta informaci on, pretendemos obtener, si no el valor exacto de (Y), lo que obviamen-te

F.M. Muestreo Estadıstico. Tema 2: Muestreo Aleatorio Simple. Estimacion en Subpoblaciones 6

=1n2

∑i∈U

y2i f(1− f)−

∑i,j∈Ui 6=j

yiyjf(1− f)N − 1

=1− fn

1N

∑i∈U

y2i −

1N(N − 1)

∑i,j∈Ui 6=j

yiyj

=1− fn

1N − 1

N − 1N

∑i∈U

y2i −

1N

∑i,j∈Ui 6=j

yiyj

=1− fn

1N − 1

∑i∈U

y2i −

1N

∑i∈U

y2i −

1N

∑i,j∈Ui 6=j

yiyj

=

1− fn

1N − 1

∑i∈U

y2i −

1N

(∑i∈U

yi

)2 =

1− fn

s2yU

donde s2yU es la cuasivarianza poblacional de la variable de estudio, Y . Vease el Tema 1.Recuerdese que dicho parametro es de dispersion.

En resumidas cuentas, hemos obtenido para la varianza del estimador insesgado de lamedia poblacional la siguiente expresion,

V [ym] =1− fn

s2yU

lo que nos permite hacer las siguientes consideraciones,

1. Aumentando el tamano muestral, n, disminuye la varianza, es decir, mientras mayores la muestra, mas precisa es la estimacion. Esto que era intuitivamente logico, ahorase ve corroborado matematicamente.

2. Mientras mas dispersion presente la variable de estudio sobre la poblacion, menosprecisa sera la estimacion. Es decir, para estimar la media poblacional con el muestreoaleatorio simple y el estimador propuesto, las poblaciones con gran dispersion parala variable de estudio dan lugar a peores estimaciones que las poblaciones con pocadispersion.

3. En la expresion anterior, aparece un parametro poblacional, s2yU , que NO SE CONO-CE, por lo que V [ym] tampoco podra ser calculado con exactitud. Esta varianza esinteresante por que nos da una idea del error que se esta cometiendo al estimar yUmediante ym. Entonces, vamos a estimarla.

3.3. Estimacion de V [ym]

Para estimar V [ym] necesitamos estimar la cuasivarianza poblacional, s2yU . Para elloproponemos emplear la cuasivarianza muestral, que denotamos igual, pero con m en lugar

Page 8: Muestreo Estad stico - Universidad de Sevillapersonal.us.es/jmayor/ficheros/me_P1_02.pdf · y con esta informaci on, pretendemos obtener, si no el valor exacto de (Y), lo que obviamen-te

F.M. Muestreo Estadıstico. Tema 2: Muestreo Aleatorio Simple. Estimacion en Subpoblaciones 7

de U , y que es analoga a la cuasivarianza poblacional, pero, logicamente, cambiando N porn, U por m, y yU por ym, es decir,

s2ym =1

n− 1

∑i∈m

(yi − ym)2 =1

n− 1

∑i∈m

y2i −

1n

(∑i∈m

yi

)2

Observese que en la expresion anterior, si dividimos por n en lugar de por n− 1, obten-dremos la expresion de la varianza muestral, es decir,

σ2ym =

1n

∑i∈m

(yi − ym)2 =1n

∑i∈m

y2i −

(1n

∑i∈m

yi

)2

o sea, la media muestral de los cuadrados menos el cuadrado de la media muestral. A efectode calculos practicos, es conveniente usar las formulas que ligan cuasivarianza muestral yvarianza muestral, es decir,

s2ym =n

n− 1σ2ym y σ2

ym =n− 1n

s2ym

Volviendo al problema de estimacion, nos queda todavıa la tarea de dilucidar si s2ym esun estimador insesgado de s2yU . Veamoslo a continuacion,

E[s2ym] = E

[n

n− 11n

∑i∈m

(yi − ym)2]

=n

n− 1E

1n

∑i∈m

y2i −

(1n

∑i∈m

yi

)2

=n

n− 1

E [ 1n

∑i∈m

y2i

]− E

( 1n

∑i∈m

yi

)2

=n

n− 1

(1N

∑i∈U

y2i −

1− fn

s2yU − y2U

)

=n

n− 1

(σ2yU −

1− fn

s2yU

)=

n

n− 1

(N − 1N

s2yU −1− fn

s2yU

)

=n

n− 1

(N − 1N

− 1− fn

)s2yU = s2yU

y por consiguiente, s2ym es un estimador insesgado de s2yU .

A continuacion, vamos a hacer varias aclaraciones sobre algunos pasos de la anteriordemostracion,

Para pasar de la segunda lınea a la tercera se ha empleado la igualdad,

E

[1n

∑i∈m

y2i

]=

1N

∑i∈U

y2i

Esta igualdad es obvia por que antes hemos demostrado que la esperanza matematicade la media muestral es la media poblacional.

Page 9: Muestreo Estad stico - Universidad de Sevillapersonal.us.es/jmayor/ficheros/me_P1_02.pdf · y con esta informaci on, pretendemos obtener, si no el valor exacto de (Y), lo que obviamen-te

F.M. Muestreo Estadıstico. Tema 2: Muestreo Aleatorio Simple. Estimacion en Subpoblaciones 8

Tambien para pasar de la segunda lınea a la tercera se ha empleado la igualdad,

E

( 1n

∑i∈m

yi

)2 =

1− fn

s2yU + y2U

Si recordamos del Calculo de Probabilidades que dada una variable aleatoria, Z, severifica,

E[Z2] = V [Z] + E2[Z]

la igualdad resulta obvia.

Para simplificar los desarrollos, hemos empleado la expresion de la varianza pobla-cional,

σ2yU =

1N

∑i∈U

y2i − y2

U

que introdujimos en el Tema 1. Tengase en cuenta que la relacion entre la varianzapoblacional y la cuasivarianza poblacional sera,

σ2yU =

N − 1N

s2yU

En resumidas cuentas, volviendo al problema de la estimacion de V [ym], al ser s2ymestimador insesgado de s2yU , se tendra que,

V [ym] =1− fn

s2ym

es un estimador insesgado de V [ym]. De esta forma ya hemos completado el proceso de laestimacion de yU en Muestreo Aleatorio Simple, es decir,

1. Extraemos la muestra, m, de la poblacion, U .

2. Calculamos la media muestral, ym, que sera la estimacion, insesgada, de yU .

3. Calculamos la cuasivarianza muestral, s2ym, y a partir de la misma, calculamos,

V [ym] =1− fn

s2ym

que sera la estimacion, insesgada, de la varianza de la estimacion, y que nos da in-formacion sobre el error que se comete al estimar yU . Mas adelante veremos comoemplear adecuadamente esta cantidad V [ym]. En resumen,

yU = ym

V [yU ] =1− fn

s2yU

V [yU ] =1− fn

s2ym

Page 10: Muestreo Estad stico - Universidad de Sevillapersonal.us.es/jmayor/ficheros/me_P1_02.pdf · y con esta informaci on, pretendemos obtener, si no el valor exacto de (Y), lo que obviamen-te

F.M. Muestreo Estadıstico. Tema 2: Muestreo Aleatorio Simple. Estimacion en Subpoblaciones 9

Si en lugar de la media poblacional, lo que queremos estimar es el total poblacional,ty =

∑i∈U yi, basta tener en cuenta que ty = NyU , para obtener los siguientes resultados,

ty = Nym =N

n

∑i∈m

yi

V [ty] = N2 1− fn

s2yU

V [ty] = N2 1− fn

s2ym

4. Estimacion de proporciones

En muchas situaciones reales, nos encontraremos con variables de tipo cualitativo, esdecir, variables que indican la posesion o no de cierta cualidad. Por ejemplo, en una poblacionde personas, el sexo es una variable cualitativa con dos modalidades: VARON y MUJER. Elnivel de estudios es otra variable cualitativa con mas de dos modalidades: E.PRIMARIOS,E.MEDIOS, DIPLOMADO, LICENCIADO, DOCTOR, OTROS.

En este tipo de variables, los parametros mas relevantes son, o bien el total de elemen-tos que presentan una determinada modalidad, o bien la proporcion. Realmente, ambosparametros estan muy relacionados pues dividiendo el total por N , obtendremos la propor-cion.

Para fijar el problema, supondremos que la variable es de tipo dicotomico, es decir, condos modalidades, siendo una la ausencia de la otra, y que el parametro a estimar es unaproporcion.

Consideremos pues una cualidad o caracterıstica de estudio que solo tiene dos posibili-dades, o bien aparece, o bien no aparece. Definimos entonces una variable,

yi =

{1 si el individuo i posee la cualidad0 en caso contrario

Sea P la proporcion de individuos que presentan dicha cualidad en la totalidad de todala poblacion. Es obvio que,

P =1NtyU = yU siendo tyU =

∑i∈U

yi

es decir, hemos logrado expresar la proporcion poblacional, P , como una media poblacional.Podemos entonces aplicar directamente los resultados de la seccion anterior para estimardicha proporcion. Ası, en primer lugar, la estimacion de la proporcion sera,

P = yU = ym =1n

∑i∈m

yi = p

es decir, la proporcion poblacional se estima mediante la proporcion muestral. Obviamente,

Page 11: Muestreo Estad stico - Universidad de Sevillapersonal.us.es/jmayor/ficheros/me_P1_02.pdf · y con esta informaci on, pretendemos obtener, si no el valor exacto de (Y), lo que obviamen-te

F.M. Muestreo Estadıstico. Tema 2: Muestreo Aleatorio Simple. Estimacion en Subpoblaciones 10

esta estimacion es insesgada. Para la varianza tendremos,

V [P ] = V [ym] =1− fn

s2ym =1− fn

1N − 1

∑i∈U

y2i −

1N

(∑i∈U

yi

)2

=1− fn

1N − 1

[∑i∈U

yi −1N

(N yU )2]

=1− fn

1N − 1

[N yU −N y2

U

]

=1− fn

1N − 1

N(P − P 2) =N − nN − 1

P (1− P )n

=N − nN − 1

PQ

n

donde hemos denotado Q = 1− P .

Finalmente, podemos obtener un estimador insesgado de esta varianza a partir del esti-mador insesgado de la varianza de la media muestral que hemos visto en la seccion anterior,haciendo un calculo similar al anterior. Se obtiene ası,

V [P ] =1− fn− 1

p(1− p) =1− fn− 1

pq

donde hemos denotado q = 1− p. En resumen,

P = p

V [P ] =N − nN − 1

PQ

n

V [P ] =1− fn− 1

pq

Si en lugar de la proporcion poblacional, lo que queremos estimar es el numero totalde elementos con la caracterıstica en estudio, tyU =

∑i∈U yi, basta tener en cuenta que

tyU = NP , para obtener los siguientes resultados,

ty = Np

V [ty] = N2 N − nN − 1

PQ

n

V [ty] = N2 1− fn− 1

pq

Finalmente, recuerdese que para transformar una proporcion, por ejemplo, 0′3, en unporcentaje, 30 %, basta multiplicar por 100 la proporcion, y por 10000 las varianzas.

5. Intervalos de confianza

Ya hemos visto como estimar un parametro y como estimar la varianza de la estimacion.Ahora veremos como combinar estos resultados para dar una interpretacion de los mismoutil a efectos practicos. Lo haremos para la media poblacional.

Page 12: Muestreo Estad stico - Universidad de Sevillapersonal.us.es/jmayor/ficheros/me_P1_02.pdf · y con esta informaci on, pretendemos obtener, si no el valor exacto de (Y), lo que obviamen-te

F.M. Muestreo Estadıstico. Tema 2: Muestreo Aleatorio Simple. Estimacion en Subpoblaciones 11

Hemos estimado y−U mediante ym, y este estimador presenta una varianza V [ym]. Nu-merosos estudios teoricos de alto nivel, del tipo Teorema del Lımite Central, han concluidoque la variable aleatoria,

Z =yU − ym√V [ym]

tiene, aproximadamente, una distribucion normal, N(0, 1). En lo que sigue, vamos a suponerque a es una cantidad positiva, tal que,

Pr[−a < Z < a] = 1− α

siendo α una cantidad pequena, es decir, 1− α es una probabilidad elevada. Se tiene pues,

Pr

[−a < yU − ym√

V [ym]< a

]= 1− α

o sea,

Pr

[ym − a

√V [ym] < yU < ym + a

√V [ym]

]= 1− α

es decir, (ym − a

√V [ym] , ym + a

√V [ym]

)es un intervalo al cual pertenece el parametro yU con elevada probabilidad igual a 1− α.

Busquemos ahora el valor de a. Sabemos por Calculo de Probabilidades que,

Pr[−a < Z < a] = Pr[Z < a]−Pr[Z < −a] = Pr[Z < a]−(1−Pr[Z < a]) = 2Pr[Z < a]−1

y al ser,Pr[−a < Z < a] = 1− α

se deduce,Pr[Z < a] = 1− α

2expresion que nos permite calcular el valor de a a partir de las tablas de la distribucionnormal, N(0, 1), tal y como se ha visto en Calculo de Probabilidades.

Por ejemplo, para α = 0′05 se tiene Pr[Z < a] = 0′975, y buscando en la tabla obtenemosa = 1′96. En general, para un valor de α dado, la cantidad a se denota z1−α/2, y se llamapercentil o cuantil 1 − α/2. Ası, 1′96 es el percentil 0′975 de una distribucion normalN(0, 1).

De esta forma, el intervalo que hemos construido anteriormente se convierte en,(ym − z1−α/2

√V [ym] , ym + z1−α/2

√V [ym]

)y como V [ym] no es conocida, la sustituiremos por su estimacion, obteniendo finalmente,(

ym − z1−α/2√V [ym] , ym + z1−α/2

√V [ym]

)

Ası pues, hemos obtenido un intervalo aleatorio, al cual pertenece el parametro yU conelevada probabilidad 1− α.

Page 13: Muestreo Estad stico - Universidad de Sevillapersonal.us.es/jmayor/ficheros/me_P1_02.pdf · y con esta informaci on, pretendemos obtener, si no el valor exacto de (Y), lo que obviamen-te

F.M. Muestreo Estadıstico. Tema 2: Muestreo Aleatorio Simple. Estimacion en Subpoblaciones 12

Dicho intervalo se denomina intervalo de confianza al 100(1− α) %. Por ejemplo, siα = 0′05, el intervalo sera al 95 %, indicando que contiene al parametro yU con probabilidad0′95. Un desarrollo similar se puede hacer para el total y la proporcion. En resumen, tenemoslos siguientes intervalos de confianza al 100(1− α) %,

Para la media poblacional, y,

IC =(ym − z1−α/2

√V [ym] , ym + z1−α/2

√V [ym]

)Para el total poblacional, ty,

IC =(Nym − z1−α/2N

√V [ym] , Nym + z1−α/2N

√V [ym]

)Para la proporcion poblacional, P ,

IC =(p− z1−α/2

√V [p] , p+ z1−α/2

√V [p]

)

Recordemos que los estimadores V [ym] y V [p] ya han sido expuestos en la seccion ante-rior, y pueden ser calculados a partir de los datos proporcionados por la muestra aleatoriasimple. A continuacion exponemos una pequena lista con los valores z1−α/2 mas usuales,

α 0′1 0′08 0′05 0′02 0′01 0′008 0′005 0′002 0′001z1−α/2 1′65 1′75 1′96 2′33 2′58 2′65 2′82 3′01 3′03

En cualquiera de los casos, la cantidad z1−α/2

√V [·], es decir, el radio del intervalo

de confianza, se suele denominar error de muestreo y se interpreta como la imprecisionque tenemos sobre el parametro por el hecho de estimarlo mediante una muestra en lugarde calcularlo exactamente mediante un censo o estudio exhaustivo de la poblacion. Lodenotaremos por EM. Para cada uno de los tres parametros considerados tendremos,

Para la media poblacional, yU ,

EM = z1−α/2

√1− fn

s2ym y IC = ym ± EM

Para el total poblacional, ty,

EM = z1−α/2N

√1− fn

s2ym y IC = Nym ± EM

Para la proporcion poblacional, P ,

EM = z1−α/2

√1− fn− 1

pq y IC = p± EM

Observese que el error de muestreo esta influenciado por numerosos factores, entre ellosel nivel de confianza que se aplique. Como es logico, a mayor nivel de confianza mayor errorde muestreo y por consiguiente intervalo de confianza mas amplio, es decir, mas impreciso.

Page 14: Muestreo Estad stico - Universidad de Sevillapersonal.us.es/jmayor/ficheros/me_P1_02.pdf · y con esta informaci on, pretendemos obtener, si no el valor exacto de (Y), lo que obviamen-te

F.M. Muestreo Estadıstico. Tema 2: Muestreo Aleatorio Simple. Estimacion en Subpoblaciones 13

6. Determinacion del tamano muestral

La eleccion del tamano muestral es una de las cuestiones mas relevantes del muestreo enpoblaciones finitas. Se trata de decidir cual va a ser el tamano de la muestra, o sea n, quevamos a extraer de la poblacion. En principio nos guiaremos por criterios de precision, esdecir, buscamos una exactitud o precision en la estimacion, predeterminada de antemano.Este planteamiento se hara empleando el concepto de intervalo de confianza.

Observemos que dado un intervalo de confianza, con la estructura expuesta en la seccionanterior, por ejemplo para la media poblacional,(

ym − z1−α/2√V [ym] , ym + z1−α/2

√V [ym]

)donde hemos empleado la version original, con la varianza no estimada. Dicho intervalotiene un centro y un radio. De hecho, el intervalo anterior se puede expresar en la forma,

ym ± z1−α/2√V [ym]

y ası, ym es el centro, y,

z1−α/2

√V [ym]

es el radio.

Notemos que a mayor radio, mas amplio es el intervalo, y a menor radio, mas reducidoes. Los intervalos muy amplios pueden no ser utiles. Si un intervalo de confianza nos diceque el consumo medio anual de fruta en Espana esta entre 8 Kgr. y 300 Kgr., obviamentedicho intervalo no es muy indicativo. Es decir, el radio del intervalo es un elemento muyrelevante.

Los intervalos con gran radio son menos precisos que los que tienen menor radio, enel sentido de que dan menos informacion o precisan menos acerca de la caracterıstica queestudiamos. Luego, ya sabemos que en el problema que estudiamos, el radio sera un elementodecisivo.

Otra consideracion que hemos de hacer es que el radio, en terminos absolutos, puedeno ser util. Por ejemplo, si la variable que estudiamos es la estatura de las personas encentımetros, un radio de una unidad significarıa una gran precision, pues representa uncentımetro. Pero si la estatura se mide en metros, un radio de una unidad no proporcionaun intervalo preciso en absoluto. Por ello, para las variables cuantitativas corrientes, es usualconsiderar el concepto de precision en terminos relativos. Nosotros lo haremos ası para estetipo de variables, aunque desde un punto de vista formal, nada impide hacerlo tambienterminos absolutos.

Para fijar el problema, Y es una variable de naturaleza cuantitativa como estatura, pesoo numero de horas de sueno. Queremos estimar la media poblacional, yU , mediante la mediamuestral ym, a partir de una muestra aleatoria simple, de forma que el intervalo de confianzatenga la forma siguiente,

ym ± δ yU

donde δ es usualmente una cantidad positiva menor que 1. Por ejemplo, si δ = 0′2 diremosque el intervalo de confianza presenta una precision relativa 0′2 o tambien del 20 %, querien-do decir con esto que el radio es el 20 % del verdadero valor del parametro. Considerandoeste intervalo deseado, y el anterior, e igualando los radios obtenemos,

Page 15: Muestreo Estad stico - Universidad de Sevillapersonal.us.es/jmayor/ficheros/me_P1_02.pdf · y con esta informaci on, pretendemos obtener, si no el valor exacto de (Y), lo que obviamen-te

F.M. Muestreo Estadıstico. Tema 2: Muestreo Aleatorio Simple. Estimacion en Subpoblaciones 14

δ yU = z1−α/2

√V [ym]

esto es,

δ yU = z1−α/2

√1− fn

s2yU

y tenemos pues la ecuacion,

nδ yU = z1−α/2

√(1− n

N

)s2yU

cuya incognita es lo que estamos buscando, es decir, n, y que resuelta con tecnicas de laESO, proporciona,

n =

z21−α/2s

2yU

δ2y2U

1 +z21−α/2s

2yU

Nδ2y2U

=

z21−α/2Cv

2yU

δ2

1 +z21−α/2Cv

2yU

Nδ2

donde hemos denotado,

Cv2yU =

s2yUy2U

o lo que es lo mismo CvyU =syUyU

Esta cantidad, CvyU , es la cuasidesviacion tıpica poblacional dividida por la mediapoblacional, por lo que tiene sentido denominarla cuasicoeficiente de variacion pobla-cional, por analogıa con el coeficiente de variacion de Pearson, tan conocido y empleadoen Estadıstica. Y si ahora llamamos,

n0 =z21−α/2Cv

2yU

δ2

el tamano muestral se puede expresar como,

n =n0

1 + n0/N

Observese que el cuasicoeficiente de variacion poblacional tiene su version muestral,sustituyendo la cuasidesviacion tıpica poblacional por la muestral, y la media poblacionalpor la muestral, es decir,

Cvym =symym

OBSERVACIONES.

1. Para el calculo de n0 necesitamos conocer el cuasicoeficiente de variacion poblacional,o al menos el muestral que sera una estimacion, lo que parece un poco incoherentepues aun no hemos realizado el muestreo. Hay varias formas de resolver este graveinconveniente. Una de ellas consiste en emplear, si existe, informacion obtenida enotros estudios, extrapolando algunos resultados.

Otra posibilidad es obtener una muestra preliminar o muestra piloto, m1, de tamanon1, y una vez calculado Cvym1 con dicha muestra, determinar n0. Posteriormente sevuelve a realizar un muestreo de n−n1 elementos para obtener la informacion deseada.

Page 16: Muestreo Estad stico - Universidad de Sevillapersonal.us.es/jmayor/ficheros/me_P1_02.pdf · y con esta informaci on, pretendemos obtener, si no el valor exacto de (Y), lo que obviamen-te

F.M. Muestreo Estadıstico. Tema 2: Muestreo Aleatorio Simple. Estimacion en Subpoblaciones 15

2. Supongamos que para una determinada poblacion hemos obtenido n0 = 30. Si dichapoblacion tuviera N = 1000 elementos, se tendrıa,

n =n0

1 + n0/N=

301 + 30/1000

≈ 29′126213 ≈ 29

y si tuviera N = 10,000,000 de elementos,

n =n0

1 + n0/N=

301 + 30/10,000,000

≈ 29′999910 ≈ 30

con lo que se produce el fenomeno, aparentemente paradojico, de que con un deter-minado tamano muestral se obtiene similar precision tanto para una poblacion de milelementos como para una poblacion con diez millones de elementos.

3. Recordemos que el planteamiento se puede hacer partiendo del intervalo ym±δ, es de-cir, dando la precision en terminos absolutos, con lo que se puede realizar un desarrollosimilar que aquı no llevaremos a cabo.

Podemos tambien calcular el tamano muestral necesario para obtener una determinadaprecision al estimar una proporcion. Ahora, puesto que la proporcion carece de unidad demedida, y ademas siempre una proporcion esta entre cero y uno, SI tiene sentido realizarun planteamiento en terminos de precision absoluta. Ası, si queremos que nuestro intervalode confianza sea de la forma,

(p− δ, p+ δ) es decir p± δ

debera ser, aproximando N/N − 1 ≈ 1,

δ = z1−α/2

√(1− f)

PQ

n

de donde se obtiene, sin mas que resolver esta ecuacion,

n =

z21−α/2PQ

δ2

1 +z21−α/2PQ

Nδ2

y como la cantidad PQ verifica siempre PQ ≤ 14 , cualquiera que sea P , podemos dar una

cota superior conservadora para n escribiendo,

n =

z21−α/24δ2

1 +z21−α/24Nδ2

=n0

1 + n0/N

siendo,

n0 =z21−α/24δ2

Notemos finalmente que si α = 0′05, es decir, queremos un intervalo de confianza al95 %, podemos tomar z2

1−α/2 = 1′962 ≈ 4 con lo que n0 es aproximadamente 1/δ2 lo quepermite el calculo rapido del tamano muestral.

Page 17: Muestreo Estad stico - Universidad de Sevillapersonal.us.es/jmayor/ficheros/me_P1_02.pdf · y con esta informaci on, pretendemos obtener, si no el valor exacto de (Y), lo que obviamen-te

F.M. Muestreo Estadıstico. Tema 2: Muestreo Aleatorio Simple. Estimacion en Subpoblaciones 16

EJEMPLO 2 Supongamos que deseamos estimar, en una poblacion de N = 1500 elementos,la proporcion asociada a cierta modalidad de una variable cualitativa, con una precision δ = 0′1.Un calculo rapido proporciona los siguientes valores,

n0 =1

0′12= 100 n =

1001 + 100

1500

≈ 94

4

En cualquier caso, si tenemos informacion previa sobre P , podemos emplearla para afinarla acotacion de PQ. Por ejemplo, si en una determinada situacion sabemos que P ≤ 0′3,tendremos PQ ≤ 0′3× 0′7 = 0′21 que dara un valor mas ajustado que la cota general 0′25.

7. Ejemplos

Para ilustrar numericamente, los conceptos introducidos en este Tema, vamos a realizaruna serie de ejemplos. Para ello, vamos a considerar una pequena poblacion de N = 12elementos,

U = {1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12}que denominaremos MU12.

En la practica real del muestreo, las poblaciones no son tan pequenas, y suelen tener mileso millones de elementos, pero MU12, a pesar de sus reducidas dimensiones, es perfectamentevalida para nuestras necesidades.

Sobre esta poblacion tenemos una variable cuantitativa, Y , y una cualitativa, Z, condos modalidades, SI y NO, que codificaremos como 1 y 0. Los valores de estas variables son,

i 1 2 3 4 5 6 7 8 9 10 11 12Y 8 7 10 8 7 8 12 10 6 12 6 9Z 1 1 0 1 1 0 1 1 1 1 1 0

Seguidamente, exponemos varios ejemplos en los que se ilustran practicamente los pro-cesos y muestreo y estimacion basados en el Muestreo Aleatorio Simple.

EJEMPLO 3 Aplicacion de los diferentes metodos para obtener una muestraaleatoria simple.

Vamos a extraer una muestra aleatoria simple de MU12, con cada uno de los metodosexplicados en este tema. El tamano de la muestra sera n = 3.

•Metodo basico. Como se ha explicado al principio de este Tema, y tambien en el Tema 1.,generemos numeros aleatorios entre 1 y 12, rechazando las repeticiones. Para ello, emplearemosuno de los metodos explicados en el Tema 1. Tomamos por ejemplo la columna 7 de la tabla denumeros aleatorios, y vamos formando numeros aleatorios entre 0 y 1. Los multiplicamos por12, calculamos la parte entera y sumamos 1. Empezamos pues por 0′65849, que nos proporciona1+ENT (12×0′65849) = 8. Ya tenemos un primer elemento. El siguiente, 0′84545, proporciona11, el siguiente, 0′60525, nuevamente 8, que no sirve pues ya ha aparecido. Seguimos pues yobtenemos 0′54078 que proporciona 7. Ya tenemos pues la muestra,

m = {7, 8, 11}

Page 18: Muestreo Estad stico - Universidad de Sevillapersonal.us.es/jmayor/ficheros/me_P1_02.pdf · y con esta informaci on, pretendemos obtener, si no el valor exacto de (Y), lo que obviamen-te

F.M. Muestreo Estadıstico. Tema 2: Muestreo Aleatorio Simple. Estimacion en Subpoblaciones 17

• Metodo secuencial

Este metodo consiste en recorrer secuencialmente la poblacion, y para cada elemento segenera un numero aleatorio, r, entre 0 y 1. En caso de que r ≤ (n − nj)/(N − j + 1), seintroduce el elemento en la muestra. Cuando de esta forma hayamos seleccionado n elementos,detenemos el proceso. En la expresion anterior, nj es el numero de elementos que hay en lamuestra en un paso dado. Al inicio es cero, logicamente. Y j es el ındice de cada elemento, esdecir, 1, 2, 3, ..., 12.

Utilizaremos tambien la columna septima de la tabla de numeros aleatorios. En la siguientetabla aparecen todas las cantidades que vamos necesitando. La segunda columna son los numerosaleatorios entre 0 y 1,

j r nj (n− nj)/(N − j + 1) r ≤ (n− nj)/(N − j + 1)1 0, 65849 0 0, 25000 no2 0, 84545 0 0, 27273 no3 0, 60525 0 0, 30000 no4 0, 54078 0 0, 33333 no5 0, 02137 0 0, 37500 sı6 0, 56834 1 0, 28571 no7 0, 01736 1 0, 33333 sı8 0, 37537 2 0, 20000 no9 0, 83177 2 0, 25000 no

10 0, 10015 2 0, 33333 sı11 0, 06977 3 0, 00000 no12 0, 09457 3 0, 00000 no

Ası, la muestra obtenida es ahora m = {5, 7, 10}. Observese que una vez que nj llega a sern, en este caso 3, la cantidad (n−nj)/(N−j+1) ya siempre es cero, y nunca van a entrar maselementos en la muestra. Notese pues que podrıamos haber cortado la tabla en la fila decima,pues ya esta formada la muestra. No obstante para este ejemplo hemos preferido exponer latabla completa a efectos didacticos. No obstante, en la realizacion practica del metodo, ensituaciones reales, una vez nj llegue a ser n, detenemos el algoritmo. Seguir hasta el final serıaun sin sentido pues realizarıamos una serie de calculos inutiles.

• Metodo de los numeros aleatorios

Ordenamos la poblacion segun el orden ascendente de los numeros aleatorios. Utilizando los

Page 19: Muestreo Estad stico - Universidad de Sevillapersonal.us.es/jmayor/ficheros/me_P1_02.pdf · y con esta informaci on, pretendemos obtener, si no el valor exacto de (Y), lo que obviamen-te

F.M. Muestreo Estadıstico. Tema 2: Muestreo Aleatorio Simple. Estimacion en Subpoblaciones 18

mismos numeros aleatorios que en los metodos anteriores, dicha ordenacion es la siguiente,

j r (ordenados)

7 0, 017365 0, 02137

11 0, 0697712 0, 0945710 0, 100158 0, 375374 0, 540786 0, 568343 0, 605251 0, 658499 0, 831772 0, 84545

y por consiguiente, m = {5, 7, 11} es una muestra aleatoria. Tambien lo serıa m = {8, 10, 12},etc.

4

EJEMPLO 4 Estimacion de la media poblacional de una variable cuantitativamediante una muestra aleatoria simple.

Vamos a estimar en MU12 la media poblacional, yU , de la variable Y , empleando, porejemplo, la muestra aleatoria obtenida con el metodo basico, m = {7, 8, 11}. Teniendo encuenta que y7 = 12, y8 = 10 e y11 = 6, la estimacion sera,

yU = ym =13

(12 + 10 + 6) = 9′33333

Si tenemos en cuenta que el verdadero valor es yU = 8′58333, la estimacion no va muydesencaminada. Seguidamente estimaremos la varianza de la estimacion y construiremos unintervalo de confianza al 95 %. Se tiene,

V [yU ] =1− fn

s2ym

siendo,

s2ym =1

n− 1

∑i∈m

y2i −

1n

(∑i∈m

yi

)2

=1

3− 1

[(122 + 102 + 62)− 1

3(12 + 10 + 6)2

]= 9′33333

por lo que,

V [yU ] =1− fn

s2ym =1− 3/12

39′33333 = 2′33333

siendo pues el intervalo de confianza al 95 %,(ym − 1′96

√V [ym] , ym + 1′96

√V [ym]

)=

Page 20: Muestreo Estad stico - Universidad de Sevillapersonal.us.es/jmayor/ficheros/me_P1_02.pdf · y con esta informaci on, pretendemos obtener, si no el valor exacto de (Y), lo que obviamen-te

F.M. Muestreo Estadıstico. Tema 2: Muestreo Aleatorio Simple. Estimacion en Subpoblaciones 19

= (9′33333− 2′99395, 9′33333 + 2′99395) = (6′33938,12′32728)

4

EJEMPLO 5 Estimacion de la proporcion poblacional de una caracterıstica cua-litativa mediante una muestra aleatoria simple.

Ahora vamos a estimar en MU12, para la variable Z, la proporcion de la modalidad Z = 1,empleando una muestra aleatoria simple de tamano n = 5. Por ejemplo, el metodo de losnumeros aleatorios, puesto en practica en un ejemplo anterior, nos proporciona la la muestram = {5, 7, 10, 11, 12}. Teniendo en cuenta que Z5 = 1, Z7 = 1, Z10 = 1, Z11 = 1 y Z12 = 0,la estimacion sera,

P = p =15

(1 + 1 + 1 + 1 + 0) = 0′8

es decir, en porcentaje, estimamos que el 80 % de la poblacion presenta la modalidad Z = 1. Elverdadero valor es P = 9/12 = 0, 75. Notese que no difiere mucho de la estimacion. Por otraparte, para la varianza estimada, tendremos,

V [P ] = V [p] =1− fn− 1

pq =1− 5/12

40′8× (1− 0′8) = 0′023333

siendo pues el intervalo de confianza al 95 %,(p− 1′96

√V [p] , p+ 1′96

√V [p]

)= (0′50061, 1′09939)→ (0′50061,1)

Observese como el extremo superior del intervalo de confianza original es 1′09939, que superael valor maximo de una proporcion, es decir, 1. Entonces, por coherencia, el intervalo se recortaal valor maximo posible, o sea, 1, quedando en su forma final (0′50061,1). Algo similar seharıa si el extremo inferior fuera menor que cero.

4

Para estudiar mas aplicaciones y ejemplos practicos, se recomienda consultar el textode Fernandez y Mayor(1995b).

8. Muestreo Aleatorio Simple con Reemplazamiento

El Muestreo Aleatorio Simple con Reemplazamiento es una variacion del Muestreo Alea-torio Simple usual que hemos estudiado en este Tema. Basicamente, consiste en admitirelementos repetidos en la muestra, es decir, al aplicar el algoritmo basico para construir lamuestra, no se rechazan los elementos repetidos, de forma que en la muestra final, m, unelemento puede aparecer repetido varias veces. Aunque esto parece extrano desde el puntode vista practico, no presenta ningun inconveniente funcional, pues a la hora de construir lasestimaciones, si un elemento, i, esta repetido, su informacion, yi, aparece duplicada. Paraaludir a este tipo de muestreo emplearemos la notacion MASR(N,n).

EJEMPLO 6 En una poblacion de N = 20 elementos,

U = {1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20}

Page 21: Muestreo Estad stico - Universidad de Sevillapersonal.us.es/jmayor/ficheros/me_P1_02.pdf · y con esta informaci on, pretendemos obtener, si no el valor exacto de (Y), lo que obviamen-te

F.M. Muestreo Estadıstico. Tema 2: Muestreo Aleatorio Simple. Estimacion en Subpoblaciones 20

vamos a extraer una muestra aleatoria simple con reemplazamiento, de n = 6 elementos. Nosvamos al principio de la primera columna de nuestra tabla de numeros aleatorios, y obtenemosseis numeros aleatorios entre cero y uno. Para simplificar los calculos, conservaremos solo tresdecimales,

0′597, 0′398, 0′024, 0′412, 0′005, 0′056

a partir de los cuales obtenemos,

i1 = 1 + ENT (20 ∗ 0′597) = 12

i2 = 1 + ENT (20 ∗ 0′398) = 8

i3 = 1 + ENT (20 ∗ 0′024) = 1

i4 = 1 + ENT (20 ∗ 0′412) = 9

i1 = 1 + ENT (20 ∗ 0′005) = 1

i1 = 1 + ENT (20 ∗ 0′056) = 2

siendo pues la muestra obtenida,

m = [1, 1, 2, 8, 9, 12]

Como puede verse, el elemento 1 aparece repetido en la muestra. Obviamente, esto no signi-fica que si por ejemplo es una persona encuestada, haya que preguntarle dos veces. Simplementela informacion que proporciona aparecera duplicada. Observese tambien que hemos empleadola notacion [ ] para indicar la muestra. Esto se debe a que la notacion usual de conjunto, { },serıa aquı incongruente pues los conjuntos no tienen elementos repetidos.

4

La intuicion nos dice que al permitir la repeticion de elementos, la muestra en generalproporciona menos informacion que el muestreo sin reemplazamiento, por lo que cabe es-perar un aumento del error de muestreo. A continuacion mostramos una serie de resultadosque corroboran esta idea.

8.1. Estimacion de la media poblacional

Exponemos, sin demostracion, los principales resultados acerca de la estimacion de lamedia poblacional mediante muestreo aleatorio simple con reemplazamiento. Suponemosque m es una muestra aleatoria simple con reemplazamiento. Estos resultados seran demos-trados en el Tema 3. como un caso particular del metodo general.

Un estimador insesgado de la media poblacional, yU , viene dado por,

yU = ym

es decir la media muestral.

Su varianza es,

V [yU ] = V [ym] =1nσ2yU

Recuerdese que σ2yU denota la varianza poblacional de Y

Page 22: Muestreo Estad stico - Universidad de Sevillapersonal.us.es/jmayor/ficheros/me_P1_02.pdf · y con esta informaci on, pretendemos obtener, si no el valor exacto de (Y), lo que obviamen-te

F.M. Muestreo Estadıstico. Tema 2: Muestreo Aleatorio Simple. Estimacion en Subpoblaciones 21

Un estimador insesgado de dicha varianza viene dado por,

V [yU ] =1ns2ym

Como puede verse, el error originado por el muestreo difiere del obtenido para el muestreoaleatorio simple sin reemplazamiento basicamente por el factor 1−f que por ello se denominaa veces factor de correccion por poblacion finita

Por ejemplo, para ver en que medida varia la eficiencia del muestreo aleatorio simple,segun se emplee en su forma usual o con reemplazamiento, podemos calcular el cocienteentre sus varianzas. En concreto, si denominamos,

VMAS =1− fn

s2yU y VMASR =1nσ2yU

se tiene,

VMAS

VMASR=

1− fn

s2yU

1nσ2yU

=

N − nN

s2yU

N − 1N

s2yU

=N − nN − 1

< 1

ya que usualmente n es bastante mayor que 1. Por consiguiente, el reemplazamiento hacedisminuir la eficiencia pues aumenta la varianza de la estimacion. Observese tambien queeste aumento de la varianza es menos acentuado conforme la poblacion es mas grande. Estoes logico, pues a mayor valor de N , menor probabilidad de que haya repeticiones.

De cualquier forma, el aumento de varianza no suele ser muy grande en condicionesnormales. Por ejemplo, si N = 1.000.000 y n = 400, se tiene,

N − nN − 1

=999.600999.999

= 0′999600999

que es muy proximo a 1, es decir, ambas varianzas son muy similares.

8.2. Generacion de una con reemplazamiento en R

Para generar con R una muestra aleatoria simple con reemplazamiento de n elementosde una poblacion de tamano N se ejecuta la instruccion,

sample(N,n,rep=TRUE)

Por ejemplo, sample(2500,50,rep=TRUE) genera una muestra aleatoria simple con re-emplazamiento de 50 elementos de una poblacion de 2500 elementos.

9. Estimacion en subpoblaciones

Supongamos que Ud es una subpoblacion o dominio incluido en U . En muchas situa-ciones, es interesante no solo la estimacion de un parametro en U , sino tambien en Ud.Por ejemplo, en un estudio sobre el habito de fumar, queremos estimar el porcentaje defumadores en una poblacion, y tambien estimar dicho porcentaje para HOMBRES y paraMUJERES por separado, es decir, desagregar la estimacion global por sexo.

Page 23: Muestreo Estad stico - Universidad de Sevillapersonal.us.es/jmayor/ficheros/me_P1_02.pdf · y con esta informaci on, pretendemos obtener, si no el valor exacto de (Y), lo que obviamen-te

F.M. Muestreo Estadıstico. Tema 2: Muestreo Aleatorio Simple. Estimacion en Subpoblaciones 22

Para abordar este interesante problema, nos centraremos en la estimacion de la mediapoblacional. Sea pues Ud una subpoblacion de U , con Nd elementos. La media poblacionalde la variable Y en U es yU y denotemos por yUd la media de Y pero en la subpoblacion,es decir,

yUd =1Nd

∑i∈Ud

yi

que es el parametro que queremos estimar.

Al seleccionar la muestra aleatoria simple, m, unos elementos pertenecen a Ud y otrosno. Sea md = m ∩ Ud, es decir, los elementos de la muestra que pertenecen a Ud, y seand el tamano de md. Notese que nd es una variable aleatoria que el general toma valorescomprendidos entre 0 y n. Obviamente posee una distribucion hipergeometrica.

A partir de la variable Y definamos una nueva variable, que denotaremos Yd, cuyosvalores vienen dados por,

ydi =

{yi si i ∈ Ud0 si i 6∈ Ud

Obviamente se verifica que,

yUd =1Nd

∑i∈Ud

yi =N

Nd

1N

∑i∈U

ydi =N

NdydU

y en caso de que Nd sea conocido, tendremos el siguiente estimador insesgado,

yUd =N

Ndydm =

N

Nd

1n

∑i∈m

ydi =N

nNd

∑i∈md

yi

La varianza del estimador puede ser obtenida facilmente ya que al ser ydm la mediamuestral de la variable Yd, tendremos,

V [ydm] =N2

N2d

1− fn

s2ydU

siendo un estimador insesgado de la misma,

V [ydm] =N2

N2d

1− fn

s2ydm

a partir del cual se podra calcular el error de muestreo y un intervalo de confianza.

Notese que s2ydmes la cuasivarianza muestral de la variable Yd, es decir, los valores corres-

pondientes a elementos de la subpoblacion los conservaremos, y los que no los sustituiremospor 0. La cuasivarianza de estos nuevos valores es precisamente s2ydm

.

En caso de que Nd no sea conocido, el anterior estimador es inviable. Para solucionareste problema, procederemos previamente a estimar Nd. Tengase en cuenta que Nd = NPddonde Pd es la proporcion de elementos de la poblacion que pertenecen a la subpoblacionUd. Como ya se ha visto en este tema, la proporcion poblacional se estima mediante laproporcion muestral, es decir, tenemos el siguiente estimador insesgado,

Nd = Nndn

Page 24: Muestreo Estad stico - Universidad de Sevillapersonal.us.es/jmayor/ficheros/me_P1_02.pdf · y con esta informaci on, pretendemos obtener, si no el valor exacto de (Y), lo que obviamen-te

F.M. Muestreo Estadıstico. Tema 2: Muestreo Aleatorio Simple. Estimacion en Subpoblaciones 23

y a partir este, podemos construir el siguiente estimador alternativo de yUd,

yUd,alt =N

nNd

∑i∈md

yi =N

nNnd/n

∑i∈md

yi =1nd

∑i∈md

yi = ymd

es decir, la media muestral de los elementos de la muestra que pertenecen al dominio Ud.Por supuesto, este estimador alternativo puede ser empleado tambien aunque se conozcaNd.

Notese que yUd,alt es un cociente de variables aleatorias, es decir, ya no es un estima-dor lineal como lo es ym. Recuerdese que los operadores esperanza y varianza no sonfacilmente intercambiables con el cociente, por lo que,

yUd,alt no es un estimador insesgado.

Su varianza no se puede calcular de forma tan simple como lo hicimos para ym.

Para resolver estas dificultades tecnicas estudiaremos especıficamente en un tema pos-terior, el Tema 4., el tratamiento de estimadores no lineales por lo que posponemos paradicho tema las cuestiones relativas al sesgo y la varianza de yUd,alt.

EJEMPLO 7 Estimacion de la media poblacional en una subpoblacion.

En una poblacion, U , de 10000 personas, hay 3000 personas con edad comprendida entre 0y 21 anos, que llamaremos tipo A, y 7000 de edad superior, tipo B. Para realizar un estudio dehabitos de ocio, se selecciona una muestra aleatoria simple de 15 personas de la poblacion y sepregunta a cada una el gasto aproximado mensual [en EUROS] en asistencia al CINE y la edad.Los resultados muestrales obtenidos son,

70 75 60 10 90 30 40 50 50 40 65 70 60 50 60A A B B B B B A B B B A B B A

Vamos a estimar la media de gasto en CINE para los menores de 21 anos. En principio, comoNd = 3000 es conocido, aplicaremos el primer estimador,

yUd =N

nNd

∑i∈md

yi =10000

15× 3000(70 + 75 + 50 + 70 + 60) = 72′222

Para estimar la varianza, calcularemos la cuasivarianza de los valores,

70 75 0 0 0 0 0 50 0 0 0 70 0 0 60A A B B B B B A B B B A B B A

tendremos pues, descartando los CEROS en las sumas [pero no en su recuento],

s2ydm=

1514

[702 + 752 + 502 + 702 + 602

15−(

70 + 75 + 50 + 70 + 6015

)2]

= 1034, 524

por lo que,

V [ydm] =N2

N2d

1− fn

s2ydm=

100002

30002

1− 15/1000015

1034, 524 = 765′164

Page 25: Muestreo Estad stico - Universidad de Sevillapersonal.us.es/jmayor/ficheros/me_P1_02.pdf · y con esta informaci on, pretendemos obtener, si no el valor exacto de (Y), lo que obviamen-te

F.M. Muestreo Estadıstico. Tema 2: Muestreo Aleatorio Simple. Estimacion en Subpoblaciones 24

siendo pues el error de muestreo, al 95 %,

EM = 1′96×√

765′164 = 54′217

Supongamos ahora que Nd, es decir, el tamano de la subpoblacion, no fuera conocido. Ental caso tendrıamos que recurrir al estimador alternativo,

yUd,alt =1nd

∑i∈md

yi =15

(70 + 75 + 50 + 70 + 60) = 65′000

Por el momento, no podemos estimar la varianza de esta estimacion ni calcular el error demuestreo pues como hemos mencionado, este estimador es no lineal.

Notese que el error de muestreo obtenido para el primer estimador parece ser bastanteelevado, siendo la causa de ello el pequeno tamano de muestra obtenido en la subpoblacion,nd = 5. Esta es una de las problematicas que presenta la estimacion en subpoblaciones, y que encasos extremos puede llegar incluso a no seleccionar ningun elemento de la subpoblacion en lamuestra [recuerdese que nd es una variable aleatoria discreta con distribucion hipergeometrica],en cuyo caso la estimacion mediante cualquiera de los metodos expuestos serıa inviable. Existetoda una rama del Muestreo en Poblaciones Finitas, dedicada especıficamente al estudio deestas cuestiones, que genericamente se denomina Estimacion en Areas Pequenas.

4

10. Nuevas notaciones basicas empleadas en este tema

Ademas de las notaciones basicas empleadas en el Tema anterior, en este tema se hanintroducido y empleados las siguientes,

Media muestralym =

1n

∑i∈m

yi

Cuasivarianza muestral

s2ym =1

n− 1

∑i∈m

(yi − ym)2 =1

n− 1

∑i∈m

y2i −

1n

(∑i∈m

yi

)2

Varianza muestral

σ2ym =

1n

∑i∈m

(yi − ym)2 =1n

∑i∈m

y2i −

1n

(∑i∈m

yi

)2 =

1n

∑i∈m

y2i −

[1n

∑i∈m

yi

]2

Relaciones entre varianza y cuasivarianza muestral

s2ym =n

n− 1σ2ym σ2

ym =n− 1n

s2ym

Page 26: Muestreo Estad stico - Universidad de Sevillapersonal.us.es/jmayor/ficheros/me_P1_02.pdf · y con esta informaci on, pretendemos obtener, si no el valor exacto de (Y), lo que obviamen-te

F.M. Muestreo Estadıstico. Tema 2: Muestreo Aleatorio Simple. Estimacion en Subpoblaciones 25

Proporcion poblacional. Variable Y cero-uno

P =1N

∑i∈U

yi

Proporcion muestral. Variable Y cero-uno

p =1n

∑i∈m

yi

Cuasicoeficiente de variacion poblacional

CvyU =syUyU

Cuasicoeficiente de variacion muestral

Cvym =symym

Percentil o Cuantil 1− α/2 de una normal, N(0, 1)

z1−α/2

Referencias y bibliografıa recomendada

[1] Fernandez Garcıa, F.R. y Mayor Gallego, J.A. (1995a). Muestreo en poblaciones fini-tas: Curso basico. E.U.B. Ediciones Universitarias de Barcelona.

[2] Fernandez Garcıa, F.R. y Mayor Gallego, J.A. (1995b). Ejercicios y practicas de mues-treo en poblaciones finitas. E.U.B. Ediciones Universitarias de Barcelona.

[3] Lohr, S.L. (2010). Sampling: Design and Analysis. 2nd Edition. Brooks/Cole. Inter-national Edition.

[4] Sarndal, C., Swensson, B. and Wretman, J. (1992). Model Assisted Survey Sampling.Springer-Verlag. New York, Inc.