Tema 2 Muestreo Aleatorio Simplepersonal.us.es/jmayor/ficheros/me102_09.pdf · pequen˜a. Por...

23
Muestreo Estad´ ıstico I Diplomatura de Estad´ ıstica. Curso Segundo Facultad de Matem´ aticas Universidad de Sevilla Tema 2 Muestreo Aleatorio Simple Versi´ on π Jos´ e A. Mayor Gallego Departamento de Estad´ ıstica e Investigaci´ on Operativa Universidad de Sevilla

Transcript of Tema 2 Muestreo Aleatorio Simplepersonal.us.es/jmayor/ficheros/me102_09.pdf · pequen˜a. Por...

Page 1: Tema 2 Muestreo Aleatorio Simplepersonal.us.es/jmayor/ficheros/me102_09.pdf · pequen˜a. Por ejemplo, si en una ciudad con 1.000.000 (un mill´on) de habitantes se extrae una muestra

Muestreo Estadıstico IDiplomatura de Estadıstica. Curso Segundo

Facultad de Matematicas

Universidad de Sevilla

Tema 2Muestreo Aleatorio Simple

Version π

Jose A. Mayor Gallego

Departamento de Estadıstica e Investigacion Operativa

Universidad de Sevilla

Page 2: Tema 2 Muestreo Aleatorio Simplepersonal.us.es/jmayor/ficheros/me102_09.pdf · pequen˜a. Por ejemplo, si en una ciudad con 1.000.000 (un mill´on) de habitantes se extrae una muestra

F.M. Muestreo Estadıstico I. Tema 2: Muestreo Aleatorio Simple 1

1. Muestreo Aleatorio Simple

Como hemos visto en el Tema 1., dada la poblacion, U , el Diseno Muestral AleatorioSimple esta formado por el espacio muestral de todas las

(Nn

)muestras posibles de tamano

fijo, n, lo que en sımbolos expresamos como,

M = {m ⊆ U | n(m) = n}

y la distribucion de probabilidad uniforme o constante sobre las mismas, es decir,

Pr(m) =1(Nn

) ∀m ∈ M

Cuando en una poblacion realizamos un muestreo, es decir, la obtencion de una muestra,de acuerdo con este diseno, diremos que hemos realizado un Muestreo Aleatorio Simple.Este tipo de muestreo es posiblemente el mas empleado porque, dentro de su facilidad,en terminos generales presenta tambien buenas propiedades en relacion a la estimacion deparametros.

Veamos nuevamente, pues ya lo hemos hecho en el Tema 1., el calculo de las probabili-dades de inclusion para este diseno muestral MAS(N,n). En este diseno todas las muestrasson equiprobables, por lo que podemos aplicar la regla o formula de Laplace,

πi =muestras favorables a i

muestras posibles=

(N−1n−1

)(Nn

) =n

N

πij =muestras favorables a i, j

muestras posibles=

(N−2n−2

)(Nn

) =n(n− 1)N(N − 1)

es pues un diseno muestral probabilıstico y cuantificable.

La cantidad πi = n/N aparece con mucha frecuencia por lo que se ha creado para ellauna notacion especial, n/N = f . Dicho valor f se denomina fraccion de muestreo, porser el cociente entre el tamano muestral y el poblacional. Se tiene que 0 < f ≤ 1, peroes obvio que usualmente n sera mucho menor que N por lo que f suele ser una cantidadpequena. Por ejemplo, si en una ciudad con 1.000.000 (un millon) de habitantes se extraeuna muestra aleatoria simple de 500 individuos, la fraccion de muestreo sera f = 0′0005.

2. Generacion de muestras aleatorias simples

Hay innumeros procedimientos para seleccionar una muestra aleatoria simple, m, a partirde una de una poblacion, U . En el Tema 1., ya hemos visto un procedimiento simple, validoen terminos generales, tanto para emplearlo en pequenos ejemplo a mano o en EXCEL,como para programarlo en un lenguaje de ordenador con el fin de aplicarlo a gran escala.Suponemos que este metodo es ya bien conocido, por lo que no insistiremos en el mismo.La demostracion de su validez puede verse, por ejemplo, en Fernandez y Mayor(1995a).

Jose A. Mayor Gallego. Universidad de Sevilla

Page 3: Tema 2 Muestreo Aleatorio Simplepersonal.us.es/jmayor/ficheros/me102_09.pdf · pequen˜a. Por ejemplo, si en una ciudad con 1.000.000 (un mill´on) de habitantes se extrae una muestra

F.M. Muestreo Estadıstico I. Tema 2: Muestreo Aleatorio Simple 2

2.1. Metodo secuencial

Este metodo consiste en recorrer secuencialmente la poblacion de manera que paraj = 1, 2, . . . N , se selecciona el elemento j de la poblacion con probabilidad,

n− nj

N − j + 1

cosa que ya sabemos como hacer, siendo nj el numero de elementos ya seleccionados oaceptados en las j − 1 primeras inspecciones, si j > 1, y siendo n1 = 0. El procedimientofinaliza cuando nj = n.

En la realizacion practica del metodo, se recorre secuencialmente la poblacion, y paracada elemento se genera un numero aleatorio, r, entre 0 y 1. En caso de que se cumplar ≤ (n − nj)/(N − j + 1), se introduce el elemento en la muestra. Cuando de esta formahayamos seleccionado n elementos, detenemos el proceso.

Este procedimiento fue ideado por Fan, Muller y Rezucha, y sus pormenores pueden verseen Fernandez y Mayor(1995a). Al final de este tema se ha incluido un ejemplo practico.

2.2. Metodo de McLeod y Bellhouse. [Trabajo personal del alumno. No se explica en clase.]

Observemos que en los dos metodos citados, se requiere conocer previamente el valorde N . Aunque esto ocurre usualmente, hay situaciones en las cuales N no se conoce deantemano, citemos como ejemplo el muestreo realizado sobre los vehıculos que pasan porun puesto de control en carretera, en un dıa determinado, y cuyo numero exacto no esconocido previamente.

Por todo ello, se han ideado procedimientos especıficos para este caso que solo requierenuna lectura secuencial de la poblacion. A continuacion describimos un procedimiento ideadopor McLeod y Bellhouse.

Este metodo se inicia seleccionando los n primeros elementos de la poblacion como mues-tra inicial. Seguidamente se realiza una exploracion secuencial del resto de los elementos.En cada observacion de un nuevo elemento, la muestra puede quedar igual o ser actualizadacon la inclusion del elemento y la supresion de uno de los que ya habıa, aleatoriamente.

El algoritmo pormenorizado para aplicar este metodo, se basa en seguir los siguien-tes pasos, donde j denota un contador que va tomando como valores los elementos de lapoblacion,

Paso 1. Hacer j := 0.

Paso 2. Si no hay elementos de la poblacion por explorar, finalizar. En caso contrario,obtener un nuevo elemento y hacer j := j + 1.

Paso 3.

a) Si j ≤ n, incluir el elemento j-esimo de la poblacion en la muestra. Volver alpaso 2.

b) Si j > n, generar un numero aleatorio entero, k, entre 1 y j. Si k ≤ n, el elementok-esimo de la muestra es intercambiado con el elemento j-esimo de la poblacion.Volver al paso 2.

Jose A. Mayor Gallego. Universidad de Sevilla

Page 4: Tema 2 Muestreo Aleatorio Simplepersonal.us.es/jmayor/ficheros/me102_09.pdf · pequen˜a. Por ejemplo, si en una ciudad con 1.000.000 (un mill´on) de habitantes se extrae una muestra

F.M. Muestreo Estadıstico I. Tema 2: Muestreo Aleatorio Simple 3

Como hemos dicho, este procedimiento fue ideado por McLeod y Bellhouse, y sus por-menores pueden verse en Fernandez y Mayor(1995a).

2.3. Metodo de los numeros aleatorios

Este metodo consiste en la generacion, para cada elemento de la poblacion, de un numeroaleatorio entre 0 y 1, obteniendo ası,

ε1, ε2, . . . , εN

a continuacion, estos numeros se ordenan segun su valor, obteniendo,

εi1 < εi2 < . . . < εin < . . . < εiN

Se verifica entonces que las unidades asociadas a los n primeros numeros i1, i2, . . . inconstituyen una muestra aleatoria simple de tamano n. En general se verifica que cualquierconjunto de n posiciones preasignadas definen una muestra aleatoria simple, por ejemplode la n + 1 a la 2n y ası sucesivamente, por lo que este metodo puede ser empleado paragenerar a la vez varias muestras aleatorias simples.

EJEMPLO 1 Supongamos que N = 7 y n = 3. Generamos 7 numeros aleatorios en elintervalo [0, 1) y obtenemos,

0′689, 0′577, 0′651, 0′043, 0′005, 0′939, 0′848

los ordenamos de menor a mayor, obteniendo,

0′005, 0′043, 0′577, 0′651, 0′689, 0′848, 0′939

y de esta forma se tiene que {5, 4, 2} es una muestra aleatoria simple. Y {3, 1, 7} es otra.4

Los pormenores de este interesante metodo pueden verse en el libro de Fernandez yMayor(1995a). Al final de este tema se ha incluido otro ejemplo practico de este metodo.

2.4. Funcion sample() en R

Para generar con R una muestra aleatoria simple de n elementos de una poblacion detamano N se ejecuta la instruccion,

sample(N,n)

Por ejemplo, sample(2500,50) genera una muestra aleatoria simple de 50 elementos deuna poblacion de 2500 elementos.

Esta es la forma mas simple de emplearla, pero esta funcion tiene innumeras posibilida-des adicionales, muy utiles, que recomendamos consultar.

Jose A. Mayor Gallego. Universidad de Sevilla

Page 5: Tema 2 Muestreo Aleatorio Simplepersonal.us.es/jmayor/ficheros/me102_09.pdf · pequen˜a. Por ejemplo, si en una ciudad con 1.000.000 (un mill´on) de habitantes se extrae una muestra

F.M. Muestreo Estadıstico I. Tema 2: Muestreo Aleatorio Simple 4

3. Estimacion de parametros poblacionales

Ya hemos visto la fase de muestreo, es decir, como construir una muestra de un disenomuestral aleatorio simple. Ahora estudiaremos la fase de estimacion, es decir, como empleardicha muestra para obtener informacion de la poblacion completa.

Tenemos una variable de estudio, Y = (y1, y2, . . . , yN ), y un parametro poblacional,θ(Y ). La muestra m = {i1, i2, . . . , in} nos proporciona una informacion basada en los valoresde la variable para cada uno de los elementos muestrales, es decir,

{yi | i ∈ m}

y con esta informacion, pretendemos obtener, si no el valor exacto de θ(Y ), lo que obviamen-te no es posible en condiciones normales, sı al menos un valor aproximado que denotamosθ(m), y que en el campo de la Estadıstica se denomina estimador. El gorro indica que es unestimador, y la m indica que es muestral, es decir, emplea solo la muestra. Dada un muestraconcreta, m, el valor concreto que obtenemos, θ(m) se denomina estimacion de θ(Y ). Porconsiguiente, la estimacion depende del azar, es aleatoria. Hay tantas estimaciones posiblescomo muestras potenciales. En la practica real del muestreo, obtendremos UNA muestra, ya partir de ella calcularemos UNA estimacion.

Pero ¿Que propiedades deberıan tener los estimadores para cumplir bien su cometido?.

Notemos que el estimador, θ(m), es una variable aleatoria. Una propiedad logica ydeseable es que su valor esperado o esperanza matematica coincida con el parametro quepretende estimar, es decir,

E[θ(m)] = θ(Y )

Cuando un estimador cumpla esta propiedad, diremos que es insesgado. Intentaremospues buscar estimadores insesgados.

Supongamos ahora que θ(m) es insesgado. Tenemos pues, por una parte, el parametroque queremos estimar, θ(Y ), y por otra parte, su estimador, θ(m). La diferencia entre estasdos cantidades, al cuadrado, es decir,

(θ(m)− θ(Y ))2

nos sirve para calibrar lo buena que es la estimacion. Mientras menor sea dicha cantidad,mejor es la estimacion, y viceversa. Por esta razon, la esperanza de dicha diferencia, es decir,

E[(θ(m)− θ(Y ))2]

es un parametro que nos da informacion sobre lo buena que es la estimacion. Mientrasmayor sea dicha esperanza, peor es la estimacion, y viceversa.

Y si ahora observamos dicha esperanza, y tenemos en cuenta que el estimador es inses-gado, llegamos a la conclusion de que la misma no es otra cosa que la varianza de θ(m), esdecir,

E[(θ(m)− θ(Y ))2] = V [θ(m)]

En resumidas cuentas, a la hora de buscar estimadores, intentaremos que seaninsesgado y con la menor varianza posible.

Jose A. Mayor Gallego. Universidad de Sevilla

Page 6: Tema 2 Muestreo Aleatorio Simplepersonal.us.es/jmayor/ficheros/me102_09.pdf · pequen˜a. Por ejemplo, si en una ciudad con 1.000.000 (un mill´on) de habitantes se extrae una muestra

F.M. Muestreo Estadıstico I. Tema 2: Muestreo Aleatorio Simple 5

Vamos ya a concretar la situacion. Uno de los parametros mas investigados en la practicaes la media poblacional,

Y =1N

∑i∈U

yi

Como estimador de este relevante parametro, proponemos emplear la media muestral,es decir, la media aritmetica de los valores de la variable sobre la muestra,

Y =1n

∑i∈m

yi = y(m) = y

Observese que para denotar este estimador, empleamos la simbologıa y(m), o simple-mente y, si no hay posibilidad de confusion. A continuacion estudiamos este estimador.

3.1. ¿Es insesgado Y = y(m)?

Para estudiar esto, iremos por partes. En primer lugar vamos a definir, para cada ele-mento poblacional, i, una variable aleatoria que vale 1 o 0, segun dicho elemento SI este oNO este en la muestra, es decir,

Ii(m) =

{1 si i ∈ m0 si i 6∈ m

Es obvio la variable Ii(m) se distribuye segun una distribucion o ley de Bernoulli siendosu esperanza matematica o valor esperado,

E[Ii(m)] = 1× Pr[i ∈ m] = πi =n

N

y se tiene pues que,

E[y(m)] = E

[1n

∑i∈m

yi

]= E

[1n

∑i∈U

yiIi(m)

]=

1n

∑i∈U

yiE[Ii(m)] =1n

∑i∈U

yin

N= Y

por consiguiente SI es un estimador insesgado. El siguiente paso es calcular su varianzapara calibrar la bondad de las estimaciones.

3.2. Calculo de V [y(m)]

Para este calculo, vamos a necesitar conocer la varianza de Ii(m), ası como la covarianzade Ii(m) con Ij(m), siendo i 6= j. La varianza es inmediata. Solamente hay que recordar unpoquito de Calculo de Probabilidades, es decir,

V [Ii(m)] = πi(1− πi) = f(1− f)

Para la covarianza, recordemos que dadas dos variables aleatorias, V y W , su covarianzase puede calcular mediante Cov[V,W ] = E[V W ]− E[V ]E[W ]. En nuestro caso, se tiene,

Cov[Ii, Ij ] = E[IiIj ]− E[Ii]E[Ij ] = 1× Pr[i, j ∈ m]− πiπj

= πij − πiπj =n(n− 1)N(N − 1)

− n

N

n

N= −f(1− f)

N − 1

Jose A. Mayor Gallego. Universidad de Sevilla

Page 7: Tema 2 Muestreo Aleatorio Simplepersonal.us.es/jmayor/ficheros/me102_09.pdf · pequen˜a. Por ejemplo, si en una ciudad con 1.000.000 (un mill´on) de habitantes se extrae una muestra

F.M. Muestreo Estadıstico I. Tema 2: Muestreo Aleatorio Simple 6

donde la cantidad final se obtiene con un calculo directo y trivial, que no hace falta porme-norizar aquı.

Si ahora recordamos, del Calculo de Probabilidades, que la varianza de una suma devariables aleatorias es la suma de las varianzas mas la suma de todas las covarianzas,tendremos,

V [y(m)] = V

[1n

∑i∈m

yi

]=

1n2

V

[∑i∈U

yiIi(m)

]

=1n2

∑i∈U

V [yiIi(m)] +∑

i,j∈Ui6=j

Cov[yiIi(m), yjIj(m)]

=1n2

∑i∈U

y2i V [Ii(m)] +

∑i,j∈Ui6=j

yiyj Cov[Ii(m), Ij(m)]

=1n2

∑i∈U

y2i f(1− f)−

∑i,j∈Ui6=j

yiyjf(1− f)N − 1

=1− f

n

1N

∑i∈U

y2i −

1N(N − 1)

∑i,j∈Ui6=j

yiyj

=1− f

n

1N − 1

N − 1N

∑i∈U

y2i −

1N

∑i,j∈Ui6=j

yiyj

=1− f

n

1N − 1

∑i∈U

y2i −

1N

∑i∈U

y2i −

1N

∑i,j∈Ui6=j

yiyj

=

1− f

n

1N − 1

∑i∈U

y2i −

1N

(∑i∈U

yi

)2 =

1− f

nS2

y

donde S2y es la cuasivarianza poblacional de la variable de estudio, Y . Vease el Tema 1.

Recuerdese que dicho parametro es de dispersion.

En resumidas cuentas, hemos obtenido para la varianza del estimador insesgado de lamedia poblacional la siguiente expresion,

V [y(m)] =1− f

nS2

y

lo que nos permite hacer las siguientes consideraciones,

Jose A. Mayor Gallego. Universidad de Sevilla

Page 8: Tema 2 Muestreo Aleatorio Simplepersonal.us.es/jmayor/ficheros/me102_09.pdf · pequen˜a. Por ejemplo, si en una ciudad con 1.000.000 (un mill´on) de habitantes se extrae una muestra

F.M. Muestreo Estadıstico I. Tema 2: Muestreo Aleatorio Simple 7

1. Aumentando el tamano muestral, n, disminuye la varianza, es decir, mientras mayores la muestra, mas precisa es la estimacion. Esto que era intuitivamente logico, ahorase ve corroborado matematicamente.

2. Mientras mas dispersion presente la variable de estudio sobre la poblacion, menosprecisa sera la estimacion. Es decir, para estimar la media poblacional con el muestreoaleatorio simple y el estimador propuesto, las poblaciones con gran dispersion parala variable de estudio dan lugar a peores estimaciones que las poblaciones con pocadispersion.

3. En la expresion anterior, aparece un parametro poblacional, S2y , que no se conoce,

por lo que V [y(m)] tampoco podra ser calculado con exactitud. Esta varianza esinteresante por que nos da una idea del error que se esta cometiendo al estimar Ymediante y(m). Entonces, vamos a estimarla.

3.3. Estimacion de V [y(m)]

Para estimar V [y(m)] necesitamos estimar la cuasivarianza poblacional, S2y . Para ello

proponemos emplear la cuasivarianza muestral, que denotamos igual, pero con m en lugarde U , y que es analoga a la cuasivarianza poblacional, pero, logicamente, cambiando N porn, U por m, y Y por y(m), es decir,

s2y(m) = s2

y =1

n− 1

∑i∈m

(yi − y(m))2 =1

n− 1

∑i∈m

y2i −

1n

(∑i∈m

yi

)2

Observese que en la expresion anterior, si dividimos por n en lugar de por n− 1, obten-dremos la expresion de la varianza muestral, es decir,

varianza muestral =1n

∑i∈m

(yi − y(m))2 =1n

∑i∈m

y2i −

(1n

∑i∈m

yi

)2

o sea, la media muestral de los cuadrados menos el cuadrado de la media muestral. A efectode calculos practicos, es conveniente usar las formulas que ligan cuasivarianza muestral yvarianza muestral, es decir,

s2y =

n

n− 1varianza muestral y varianza muestral =

n− 1n

s2y

muy utilizadas en clases de problemas.

Volviendo al problema de estimacion, nos queda todavıa la tarea de dilucidar si s2y es

un estimador insesgado de S2y . Veamoslo a continuacion,

E[s2y] = E

[n

n− 11n

∑i∈m

(yi − y(m))2]

=n

n− 1E

1n

∑i∈m

y2i −

(1n

∑i∈m

yi

)2

=n

n− 1

E

[1n

∑i∈m

y2i

]− E

( 1n

∑i∈m

yi

)2

Jose A. Mayor Gallego. Universidad de Sevilla

Page 9: Tema 2 Muestreo Aleatorio Simplepersonal.us.es/jmayor/ficheros/me102_09.pdf · pequen˜a. Por ejemplo, si en una ciudad con 1.000.000 (un mill´on) de habitantes se extrae una muestra

F.M. Muestreo Estadıstico I. Tema 2: Muestreo Aleatorio Simple 8

=n

n− 1

(1N

∑i∈U

y2i −

1− f

nS2

y − Y2

)

=n

n− 1

(σ2

y −1− f

nS2

y

)=

n

n− 1

(N − 1

NS2

y −1− f

nS2

y

)

=n

n− 1

(N − 1

N− 1− f

n

)S2

y = S2y

y por consiguiente, s2y es un estimador insesgado de S2

y .

A continuacion, vamos a hacer varias aclaraciones sobre algunos pasos de la anteriordemostracion,

Para pasar de la segunda lınea a la tercera se ha empleado la igualdad,

E

[1n

∑i∈m

y2i

]=

1N

∑i∈U

y2i

Esta igualdad es obvia por que antes hemos demostrado que la esperanza matematicade la media muestral es la media poblacional.

Tambien para pasar de la segunda lınea a la tercera se ha empleado la igualdad,

E

( 1n

∑i∈m

yi

)2 =

1− f

nS2

y + Y2

Si recordamos del Calculo de Probabilidades que dada una variable aleatoria, Z, severifica,

E[Z2] = V [Z] + E2[Z]

la igualdad resulta obvia.

Para simplificar los desarrollos, hemos empleado la expresion de la varianza pobla-cional,

σ2y =

1N

∑i∈U

y2i − Y

2

que introdujimos en el Tema 1. Tengase en cuenta que la relacion entre la varianzapoblacional y la cuasivarianza poblacional sera,

σ2y =

N − 1N

S2y

En resumidas cuentas, volviendo al problema de la estimacion de V [y(m)], al ser s2y

estimador insesgado de S2y , se tendra que,

V [y(m)] =1− f

ns2y

es un estimador insesgado de V [y(m)]. De esta forma ya hemos completado el proceso dela estimacion de Y en Muestreo Aleatorio Simple, es decir,

Jose A. Mayor Gallego. Universidad de Sevilla

Page 10: Tema 2 Muestreo Aleatorio Simplepersonal.us.es/jmayor/ficheros/me102_09.pdf · pequen˜a. Por ejemplo, si en una ciudad con 1.000.000 (un mill´on) de habitantes se extrae una muestra

F.M. Muestreo Estadıstico I. Tema 2: Muestreo Aleatorio Simple 9

1. Extraemos la muestra, m, de la poblacion, U .

2. Calculamos la media muestral, y(m), que sera la estimacion, insesgada, de Y .

3. Calculamos la cuasivarianza muestral, s2y, y a partir de la misma, calculamos,

V [y(m)] =1− f

ns2y

que sera la estimacion, insesgada, de la varianza de la estimacion, y que nos da infor-macion sobre el error que se comete al estimar Y . Mas adelante veremos como emplearadecuadamente esta cantidad V [y(m)]. En resumen,

Y = y(m)

V [Y ] =1− f

nS2

y

V [Y ] =1− f

ns2y

Si en lugar de la media poblacional, lo que queremos estimar es el total poblacional,T (Y ) =

∑i∈U yi, basta tener en cuenta que T (Y ) = NY , para obtener los siguientes resul-

tados,

T (Y ) = Ny(m) =N

n

∑∈m

yi

V [T (Y )] = N2 1− f

nS2

y

V [T (Y )] = N2 1− f

ns2y

NOTA IMPORTANTE. En lo que sigue, para simplificar la notacion, y siempre que nohaya posibilidad de confusion, usaremos y en lugar de y(m), de la misma forma que hemosutilizado s2

y en lugar de s2y(m).

4. Estimacion de proporciones

En muchas situaciones reales, nos encontraremos con variables de tipo cualitativo, esdecir, variables que indican la posesion o no de cierta cualidad. Por ejemplo, en una poblacionde personas, el sexo es una variable cualitativa con dos modalidades: VARON y MUJER. Elnivel de estudios es otra variable cualitativa con mas de dos modalidades: E.PRIMARIOS,E.MEDIOS, DIPLOMADO, LICENCIADO, DOCTOR, OTROS.

En este tipo de variables, los parametros mas relevantes son, o bien el total de elemen-tos que presentan una determinada modalidad, o bien la proporcion. Realmente, ambos

Jose A. Mayor Gallego. Universidad de Sevilla

Page 11: Tema 2 Muestreo Aleatorio Simplepersonal.us.es/jmayor/ficheros/me102_09.pdf · pequen˜a. Por ejemplo, si en una ciudad con 1.000.000 (un mill´on) de habitantes se extrae una muestra

F.M. Muestreo Estadıstico I. Tema 2: Muestreo Aleatorio Simple 10

parametros estan muy relacionados pues dividiendo el total por N , obtendremos la propor-cion.

Para fijar el problema, supondremos que la variable es de tipo dicotomico, es decir, condos modalidades, siendo una la ausencia de la otra, y que el parametro a estimar es unaproporcion.

Consideremos pues una cualidad o caracterıstica de estudio que solo tiene dos posibili-dades, o bien aparece, o bien no aparece. Definimos entonces una variable,

yi =

{1 si el individuo i posee la cualidad0 en caso contrario

Sea P la proporcion de individuos que presentan dicha cualidad en la totalidad de todala poblacion. Es obvio que,

P =1N

T (Y ) = Y siendo T (Y ) =∑i∈U

yi

es decir, hemos logrado expresar la proporcion poblacional, P , como una media poblacional.Podemos entonces aplicar directamente los resultados de la seccion anterior para estimardicha proporcion. Ası, en primer lugar, la estimacion de la proporcion sera,

P = Y = y =1n

∑i∈m

yi = p

es decir, la proporcion poblacional se estima mediante la proporcion muestral. Esta estima-cion es insesgada. Para la varianza tendremos,

V [P ] = V [y] =1− f

nS2

y =1− f

n

1N − 1

∑i∈U

y2i −

1N

(∑i∈U

yi

)2

=1− f

n

1N − 1

[∑i∈U

yi −1N

(N Y

)2]

=1− f

n

1N − 1

[N Y −N Y

2]

=1− f

n

1N − 1

N(P − P 2) =N − n

N − 1P (1− P )

n=

N − n

N − 1PQ

n

donde, como es usual, hemos denotado Q = 1− P .

Finalmente, podemos obtener un estimador insesgado de esta varianza a partir del esti-mador insesgado de la varianza de la media muestral que hemos visto en la seccion anterior,haciendo un calculo similar al anterior. Se obtiene ası,

V [P ] =1− f

n− 1p(1− p) =

1− f

n− 1pq

donde hemos denotado q = 1− p. En resumen,

P = p

V [P ] =N − n

N − 1PQ

n

V [P ] =1− f

n− 1pq

Jose A. Mayor Gallego. Universidad de Sevilla

Page 12: Tema 2 Muestreo Aleatorio Simplepersonal.us.es/jmayor/ficheros/me102_09.pdf · pequen˜a. Por ejemplo, si en una ciudad con 1.000.000 (un mill´on) de habitantes se extrae una muestra

F.M. Muestreo Estadıstico I. Tema 2: Muestreo Aleatorio Simple 11

Si en lugar de la proporcion poblacional, lo que queremos estimar es el total de elementoscon la caracterıstica, T (Y ) =

∑i∈U yi, basta tener en cuenta que T (Y ) = NP , para obtener

los siguientes resultados,

T (Y ) = Np

V [T (Y )] = N2 N − n

N − 1PQ

n

V [T (Y )] = N2 1− f

n− 1pq

5. Intervalos de confianza

Ya hemos visto como estimar un parametro y como estimar la varianza de la estimacion.Ahora veremos como combinar estos resultados para dar una interpretacion de los mismoutil a efectos practicos. Lo haremos para la media poblacional.

Hemos estimado Y mediante y, y este estimador presenta una varianza V [y]. Numerososestudios teoricos de alto nivel han concluido que la variable aleatoria,

Z =Y − y√

V [y]

tiene, aproximadamente, una distribucion normal, N(0, 1). Vamos a suponer que a es unacantidad positiva, tal que,

Pr[−a < Z < a] = 1− α

siendo α una cantidad pequena, es decir, 1− α es una probabilidad elevada. Se tiene pues,

Pr

[−a <

Y − y√V [y]

< a

]= 1− α

o sea,

Pr

[y − a

√V [y] < Y < y + a

√V [y]

]= 1− α

es decir, (y − a

√V [y] , y + a

√V [y]

)es un intervalo al cual pertenece el parametro Y con elevada probabilidad 1−α. Busquemosel valor de a. Sabemos por Calculo de Probabilidades que,

Pr[−a < Z < a] = Pr[Z < a]−Pr[Z < −a] = Pr[Z < a]−(1−Pr[Z < a]) = 2Pr[Z < a]−1

y al ser,Pr[−a < Z < a] = 1− α

se deduce,Pr[Z < a] = 1− α

2

Jose A. Mayor Gallego. Universidad de Sevilla

Page 13: Tema 2 Muestreo Aleatorio Simplepersonal.us.es/jmayor/ficheros/me102_09.pdf · pequen˜a. Por ejemplo, si en una ciudad con 1.000.000 (un mill´on) de habitantes se extrae una muestra

F.M. Muestreo Estadıstico I. Tema 2: Muestreo Aleatorio Simple 12

expresion que nos permite calcular el valor de a a partir de las tablas de la distribucionnormal, N(0, 1), tal y como se ha visto en Calculo de Probabilidades.

Por ejemplo, para α = 0′05 se tiene Pr[Z < a] = 0′975, y buscando en la tabla obtenemosa = 1′96. En general, para un valor de α dado, la cantidad a se denota z1−α/2, y se llamapercentil o cuantil 1 − α/2. Ası, 1′96 es el percentil 0′975 de una distribucion normalN(0, 1).

De esta forma, el intervalo que hemos construido anteriormente se convierte en,(y − z1−α/2

√V [y] , y + z1−α/2

√V [y]

)y como V [y] no es conocida, la sustituiremos por su estimacion, obteniendo finalmente,(

y − z1−α/2

√V [y] , y + z1−α/2

√V [y]

)

Ası pues, hemos obtenido un intervalo aleatorio, al cual pertenece el parametro Y conelevada probabilidad 1− α.

Dicho intervalo se denomina intervalo de confianza al 100(1− α) %. Por ejemplo, siα = 0′05, el intervalo sera al 95%, indicando que contiene al parametro Y con probabilidad0′95. Un desarrollo similar se puede hacer para el total y la proporcion. En resumen, tenemoslos siguientes intervalos de confianza al 100(1− α) %,

Para la media poblacional, Y ,(y − z1−α/2

√V [y] , y + z1−α/2

√V [y]

)

Para el total poblacional, T (Y ),(Ny − z1−α/2N

√V [y] , Ny + z1−α/2N

√V [y]

)

Para la proporcion poblacional, P ,(p− z1−α/2

√V [p] , p + z1−α/2

√V [p]

)

Recordemos que los estimadores V [y] y V [p] ya han sido expuestos en la seccion anterior,y pueden ser calculados a partir de los datos proporcionados por la muestra aleatoria simple.A continuacion exponemos una pequena lista con los valores z1−α/2 mas usuales,

α 0′1 0′08 0′05 0′02 0′01 0′008 0′005 0′002 0′001z1−α/2 1′65 1′75 1′96 2′33 2′58 2′65 2′82 3′01 3′03

Jose A. Mayor Gallego. Universidad de Sevilla

Page 14: Tema 2 Muestreo Aleatorio Simplepersonal.us.es/jmayor/ficheros/me102_09.pdf · pequen˜a. Por ejemplo, si en una ciudad con 1.000.000 (un mill´on) de habitantes se extrae una muestra

F.M. Muestreo Estadıstico I. Tema 2: Muestreo Aleatorio Simple 13

6. Determinacion del tamano muestral

La eleccion del tamano muestral es una de las cuestiones mas relevantes del muestreo enpoblaciones finitas. Se trata de decidir cual va a ser el tamano de la muestra, o sea n, quevamos a extraer de la poblacion. En principio nos guiaremos por criterios de precision, esdecir, buscamos una exactitud o precision en la estimacion, predeterminada de antemano.Este planteamiento se hara empleando el concepto de intervalo de confianza.

Observemos que dado un intervalo de confianza, con la estructura expuesta en la seccionanterior, por ejemplo para la media poblacional,(

y − z1−α/2

√V [y] , y + z1−α/2

√V [y]

)dicho intervalo tiene un centro y un radio. De hecho, el intervalo anterior se puede expresaren la forma,

y ± z1−α/2

√V [y]

y ası, y es el centro, y,

z1−α/2

√V [y]

es el radio.

Notemos que a mayor radio, mas amplio es el intervalo, y a menor radio, mas reducidoes. Los intervalos muy amplios pueden no ser utiles. Si un intervalo de confianza nos diceque el consumo medio anual de fruta en Espana esta entre 8 Kgr. y 300 Kgr., obviamentedicho intervalo no es muy indicativo. Es decir, el radio del intervalo es un elemento muyrelevante. Los intervalos con gran radio son menos precisos que los que tienen menor radio,en el sentido de que dan menos informacion o precisan menos acerca de la caracterısticaque estudiamos. Luego, ya sabemos que en el problema que estudiamos, el radio sera unelemento decisivo.

Otra consideracion que hemos de hacer es que el radio, en terminos absolutos, puedeno ser util. Por ejemplo, si la variable que estudiamos es la estatura de las personas encentımetros, un radio de una unidad significarıa una gran precision, pues representa uncentımetro. Pero si la estatura se mide en metros, una radio de una unidad no proporcionaun intervalo preciso en absoluto. Por ello, para las variables cuantitativas corrientes, es usualconsiderar el concepto de precision en terminos relativos. Nosotros lo haremos ası para estetipo de variables, aunque desde un punto de vista formal, nada impide hacerlo tambienterminos absolutos.

Para fijar el problema, Y es una variable de naturaleza cuantitativa como estatura, pesoo numero de horas de sueno. Queremos estimar la media poblacional, Y , mediante la mediamuestral y, a partir de una muestra aleatoria simple, de forma que el intervalo de confianzatenga la forma siguiente,

y ± δ y

donde δ es usualmente una cantidad positiva menor que 1. Por ejemplo, si δ = 0′2 diremosque el intervalo de confianza presenta una precision relativa 0′2 o tambien del 20%, que-riendo decir con esto que el radio es el 20 % del centro. Considerando este intervalo deseado,y el anterior, e igualando los radios obtenemos,

δ y = z1−α/2

√V [y]

Jose A. Mayor Gallego. Universidad de Sevilla

Page 15: Tema 2 Muestreo Aleatorio Simplepersonal.us.es/jmayor/ficheros/me102_09.pdf · pequen˜a. Por ejemplo, si en una ciudad con 1.000.000 (un mill´on) de habitantes se extrae una muestra

F.M. Muestreo Estadıstico I. Tema 2: Muestreo Aleatorio Simple 14

esto es,

δ y = z1−α/2

√1− f

ns2y

y tenemos pues la ecuacion,

nδ y = z1−α/2

√(1− n

N

)s2y

cuya incognita es lo que estamos buscando, es decir, n, y que resuelta con tecnicas de laESO, proporciona,

n =

z21−α/2s

2y

δ2y2

1 +z21−α/2s

2y

Nδ2y2

=

z21−α/2cv

2y

δ2

1 +z21−α/2cv

2y

Nδ2

donde hemos denotado,

cv2y =

s2y

y2o lo que es lo mismo cvy =

sy

y

Esta cantidad, cvy, es la cuasidesviacion tıpica muestral dividida por la media muestral,por lo que tiene sentido denominarla cuasicoeficiente de variacion muestral, por ana-logıa con el coeficiente de variacion de Pearson, tan conocido y empleado en Estadıstica. Ysi ahora llamamos,

n0 =z21−α/2cv

2y

δ2

el tamano muestral se puede expresar como,

n =n0

1 + n0/N

Observese que el cuasicoeficiente de variacion muestral tiene su version poblacional,sustituyendo la cuasidesviacion tıpica muestral por poblacional, y la media muestral porpoblacional, es decir,

CVy =Sy

Y

aunque por ahora no emplearemos este parametro poblacional.

OBSERVACIONES.

1. Para el calculo de n0 necesitamos conocer el cuasicoeficiente de variacion muestral, loque parece un poco incoherente pues aun no hemos realizado el muestreo. Hay variasformas de resolver este grave inconveniente. Una de ellas consiste en emplear, si existe,informacion obtenida en otros estudios, extrapolando algunos resultados.

Otra posibilidad es obtener una muestra preliminar o muestra piloto, de tamano n1,y una vez calculado cvy con dicha muestra, determinar n0. Posteriormente se vuelvea realizar un muestreo de n− n1 elementos para obtener la informacion deseada.

Jose A. Mayor Gallego. Universidad de Sevilla

Page 16: Tema 2 Muestreo Aleatorio Simplepersonal.us.es/jmayor/ficheros/me102_09.pdf · pequen˜a. Por ejemplo, si en una ciudad con 1.000.000 (un mill´on) de habitantes se extrae una muestra

F.M. Muestreo Estadıstico I. Tema 2: Muestreo Aleatorio Simple 15

2. Supongamos que para una determinada poblacion hemos obtenido n0 = 30. Si dichapoblacion tuviera N = 1000 elementos, se tendrıa,

n =n0

1 + n0/N=

301 + 30/1000

≈ 29′126213 ≈ 29

y si tuviera N = 10,000,000 de elementos,

n =n0

1 + n0/N=

301 + 30/10,000,000

≈ 29′999910 ≈ 30

con lo que se produce el fenomeno, aparentemente paradojico, de que con un deter-minado tamano muestral se obtiene similar precision tanto para una poblacion de milelementos como para una poblacion con diez millones de elementos.

3. Recordemos que el planteamiento se puede hacer partiendo del intervalo y±δ, es decir,dando la precision en terminos absolutos, con lo que se puede realizar un desarrollosimilar.

Podemos tambien calcular el tamano muestral necesario para obtener una determinadaprecision al estimar una proporcion. Ahora, puesto que la proporcion carece de unidad demedida, y ademas siempre una proporcion esta entre cero y uno, SI tiene sentido realizarun planteamiento en terminos de precision absoluta. Ası, si queremos que nuestro intervalode confianza sea de la forma,

(p− δ, p + δ) es decir p± δ

debera ser,

δ = z1−α/2

√(1− f)

pq

n− 1de donde se obtiene, sin mas que resolver esta ecuacion,

n =1 +

z21−α/2pq

δ2

1 +z21−α/2pq

Nδ2

y como la cantidad pq verifica siempre pq ≤ 14 , cualquiera que sea p, podemos dar una cota

superior conservadora para n escribiendo,

n =1 +

z21−α/2

4δ2

1 +z21−α/2

4Nδ2

z21−α/2

4δ2

1 +z21−α/2

4Nδ2

=n0

1 + n0/N

siendo,

n0 =z21−α/2

4δ2

Notemos finalmente que si α = 0′05, es decir, queremos un intervalo de confianza al95 %, podemos tomar z2

1−α/2 = 1′962 ≈ 4 con lo que n0 es aproximadamente 1/δ2 lo quepermite el calculo rapido del tamano muestral.

Jose A. Mayor Gallego. Universidad de Sevilla

Page 17: Tema 2 Muestreo Aleatorio Simplepersonal.us.es/jmayor/ficheros/me102_09.pdf · pequen˜a. Por ejemplo, si en una ciudad con 1.000.000 (un mill´on) de habitantes se extrae una muestra

F.M. Muestreo Estadıstico I. Tema 2: Muestreo Aleatorio Simple 16

EJEMPLO 2 Supongamos que deseamos estimar, en una poblacion de N = 1500 elementos,la proporcion asociada a cierta modalidad de una variable cualitativa, con una precision δ = 0′1.Un calculo rapido proporciona los siguientes valores,

n0 =1

0′12= 100 n =

1001 + 100

1500

≈ 94

4

7. Ejemplos

Para ilustrar numericamente, los conceptos introducidos en este Tema, vamos a realizaruna serie de ejemplos. Para ello, vamos a considerar una pequena poblacion de N = 12elementos,

U = {1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12}

que denominaremos MU12.

En la practica real del muestreo, las poblaciones no son tan pequenas, y suelen tener mileso millones de elementos, pero MU12, a pesar de sus reducidas dimensiones, es perfectamentevalida para nuestras necesidades.

Sobre esta poblacion tenemos una variable cuantitativa, Y , y una cualitativa, Z, condos modalidades, SI y NO, que codificaremos como 1 y 0. Los valores de estas variables son,

i 1 2 3 4 5 6 7 8 9 10 11 12Y 8 7 10 8 7 8 12 10 6 12 6 9Z 1 1 0 1 1 0 1 1 1 1 1 0

Seguidamente, exponemos varios ejemplos en los que se ilustran practicamente los pro-cesos y muestreo y estimacion basados en el Muestreo Aleatorio Simple.

EJEMPLO 3 Aplicacion de los diferentes metodos para obtener una muestraaleatoria simple.

Vamos a extraer una muestra aleatoria simple de MU12, con cada uno de los metodosexplicados en este tema. El tamano de la muestra sera n = 3.

• Metodo basico. Como se ha explicado al principio de este Tema, y tambien en el Tema 1.,generemos numeros aleatorios entre 1 y 12, rechazando las repeticiones. Para ello, emplearemosuno de los metodos explicados en el Tema 1. Tomamos por ejemplo la columna 7 de la tabla denumeros aleatorios, y vamos formando numeros aleatorios entre 0 y 1. Los multiplicamos por12, calculamos la parte entera y sumamos 1. Empezamos pues por 0′65849, que nos proporciona1+ENT (12×0′65849) = 8. Ya tenemos un primer elemento. El siguiente, 0′84545, proporciona11, el siguiente, 0′60525, nuevamente 8, que no sirve pues ya ha aparecido. Seguimos pues yobtenemos 0′54078 que proporciona 7. Ya tenemos pues la muestra,

m = {7, 8, 11}

• Metodo secuencial

Jose A. Mayor Gallego. Universidad de Sevilla

Page 18: Tema 2 Muestreo Aleatorio Simplepersonal.us.es/jmayor/ficheros/me102_09.pdf · pequen˜a. Por ejemplo, si en una ciudad con 1.000.000 (un mill´on) de habitantes se extrae una muestra

F.M. Muestreo Estadıstico I. Tema 2: Muestreo Aleatorio Simple 17

Este metodo consiste en recorrer secuencialmente la poblacion, y para cada elemento segenera un numero aleatorio, r, entre 0 y 1. En caso de que r ≤ (n − nj)/(N − j + 1), seintroduce el elemento en la muestra. Cuando de esta forma hayamos seleccionado n elementos,detenemos el proceso. En la expresion anterior, nj es el numero de elementos que hay en lamuestra en un paso dado. Al inicio es cero, logicamente. Y j es el ındice de cada elemento, esdecir, 1, 2, 3, ..., 12.

Utilizaremos tambien la columna septima de la tabla de numeros aleatorios. En la siguientetabla aparecen todas las cantidades que vamos necesitando. La segunda columna son los numerosaleatorios entre 0 y 1,

j r nj (n− nj)/(N − j + 1) r ≤ (n− nj)/(N − j + 1)1 0, 65849 0 0, 25000 no2 0, 84545 0 0, 27273 no3 0, 60525 0 0, 30000 no4 0, 54078 0 0, 33333 no5 0, 02137 0 0, 37500 sı6 0, 56834 1 0, 28571 no7 0, 01736 1 0, 33333 sı8 0, 37537 2 0, 20000 no9 0, 83177 2 0, 25000 no

10 0, 10015 2 0, 33333 sı11 0, 06977 3 0, 00000 no12 0, 09457 3 0, 00000 no

Ası, la muestra obtenida es ahora m = {5, 7, 10}. Observese que una vez que nj llega a sern, en este caso 3, la cantidad (n−nj)/(N−j +1) ya siempre es cero, y nunca van a entrar maselementos en la muestra. Notese pues que podrıamos haber cortado la tabla en la fila decima,pues ya esta formada la muestra. No obstante para este ejemplo hemos preferido exponer latabla completa a efectos didacticos. No obstante, en la realizacion practica del metodo, ensituaciones reales, una vez nj llegue a ser n, detenemos el algoritmo. Seguir hasta el final serıaun sinsentido pues realizarıamos una serie de calculos inutiles.

• Metodo de McLeod y Bellhouse [Trabajo personal del alumno. No se explica en clase.]

Se deja como ejercicio. Basta aplica el algoritmo introducido en este tema. Se recomiendareutilizar la tabla anterior para suministrar los numeros aleatorios.

• Metodo de los numeros aleatorios

Ordenamos la poblacion segun el orden ascendente de los numeros aleatorios. Utilizando los

Jose A. Mayor Gallego. Universidad de Sevilla

Page 19: Tema 2 Muestreo Aleatorio Simplepersonal.us.es/jmayor/ficheros/me102_09.pdf · pequen˜a. Por ejemplo, si en una ciudad con 1.000.000 (un mill´on) de habitantes se extrae una muestra

F.M. Muestreo Estadıstico I. Tema 2: Muestreo Aleatorio Simple 18

mismos numeros aleatorios que en los metodos anteriores, dicha ordenacion es la siguiente,

j r (ordenados)

7 0, 017365 0, 02137

11 0, 0697712 0, 0945710 0, 100158 0, 375374 0, 540786 0, 568343 0, 605251 0, 658499 0, 831772 0, 84545

y por consiguiente, m = {5, 7, 11} es una muestra aleatoria. Tambien lo serıa m = {8, 10, 12},etc.

4

EJEMPLO 4 Estimacion de la media poblacional de una variable cuantitativamediante una muestra aleatoria simple.

Vamos a estimar en MU12 la media poblacional, Y , de la variable Y , empleando, por ejemplo,la muestra aleatoria obtenida con el metodo basico, m = {7, 8, 11}. Teniendo en cuenta quey7 = 12, y8 = 10 e y11 = 6, la estimacion sera,

Y = y =13(12 + 10 + 6) = 9′33333

Si tenemos en cuanta que el verdadero valor es Y = 8′58333, la estimacion no va muydesencaminada. Seguidamente estimaremos la varianza de la estimacion y construiremos unintervalo de confianza al 95 %. Se tiene,

V [Y ] =1− f

ns2y

siendo,

s2y =

1n− 1

∑i∈m

y2i −

1n

(∑i∈m

yi

)2

=1

3− 1

[(122 + 102 + 62)− 1

3(12 + 10 + 6)2

]= 9′33333

por lo que,

V [Y ] =1− f

ns2y =

1− 3/123

9′33333 = 2′33333

siendo pues el intervalo de confianza al 95 %,(y − 1′96

√V [y] , y + 1′96

√V [y]

)=

Jose A. Mayor Gallego. Universidad de Sevilla

Page 20: Tema 2 Muestreo Aleatorio Simplepersonal.us.es/jmayor/ficheros/me102_09.pdf · pequen˜a. Por ejemplo, si en una ciudad con 1.000.000 (un mill´on) de habitantes se extrae una muestra

F.M. Muestreo Estadıstico I. Tema 2: Muestreo Aleatorio Simple 19

= (9′33333− 2′99395, 9′33333 + 2′99395) = (6′33938,12′32728)

4

EJEMPLO 5 Estimacion de la proporcion poblacional de una caracterıstica cua-litativa mediante una muestra aleatoria simple.

Ahora vamos a estimar en MU12, para la variable Z, la proporcion de la modalidad Z = 1,empleando una muestra aleatoria simple de tamano n = 5. Por ejemplo, el metodo de losnumeros aleatorios, puesto en practica en un ejemplo anterior, nos proporciona la la muestram = {5, 7, 10, 11, 12}. Teniendo en cuenta que Z5 = 1, Z7 = 1, Z10 = 1, Z11 = 1 y Z12 = 0,la estimacion sera,

P = p =15(1 + 1 + 1 + 1 + 0) = 0′8

es decir, en porcentaje, estimamos que el 80 % de la poblacion presenta la modalidad Z = 1. Elverdadero valor es P = 9/12 = 0, 75. Notese que no difiere mucho de la estimacion. Por otraparte, para la varianza estimada, tendremos,

V [P ] = V [p] =1− f

n− 1pq =

1− 5/124

0′8× (1− 0′8) = 0′023333

siendo pues el intervalo de confianza al 95 %,(p− 1′96

√V [p] , p + 1′96

√V [p]

)= (0′50061, 1′09939) → (0′50061,1)

Observese como el extremo superior del intervalo de confianza original es 1′09939, que superael valor maximo de una proporcion, es decir, 1. Entonces, por coherencia, el intervalo se recortaal valor maximo posible, o sea, 1, quedando en su forma final (0′50061,1). Algo similar seharıa si el extremo inferior fuera menor que cero.

4

Para estudiar mas aplicaciones y ejemplos practicos, se recomienda consultar el textode Fernandez y Mayor(1995b).

8. Complemento: Muestreo Aleatorio Simple con Reempla-zamiento

El Muestreo Aleatorio Simple con Reemplazamiento es una variacion del Muestreo Alea-torio Simple usual que hemos estudiado en este Tema. Basicamente, consiste en admitirelementos repetidos en la muestra, es decir, al aplicar el algoritmo basico para construir lamuestra, no se rechazan los elementos repetidos, de forma que en la muestra final, m, unelemento puede aparecer repetido varias veces. Aunque esto parece extrano desde el puntode vista practico, no presenta ningun inconveniente funcional, pues a la hora de construirlas estimaciones, si un elemento, i, esta repetido, su informacion, Yi, aparece duplicada.

EJEMPLO 6 En una poblacion de N = 20 elementos,

U = {1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20}

Jose A. Mayor Gallego. Universidad de Sevilla

Page 21: Tema 2 Muestreo Aleatorio Simplepersonal.us.es/jmayor/ficheros/me102_09.pdf · pequen˜a. Por ejemplo, si en una ciudad con 1.000.000 (un mill´on) de habitantes se extrae una muestra

F.M. Muestreo Estadıstico I. Tema 2: Muestreo Aleatorio Simple 20

vamos a extraer una muestra aleatoria simple con reemplazamiento, de n = 6 elementos. Nosvamos al principio de la primera columna de nuestra tabla de numeros aleatorios, y obtenemosseis numeros aleatorios entre cero y uno. Para simplificar los calculos, conservaremos solo tresdecimales,

0′597, 0′398, 0′024, 0′412, 0′005, 0′056

a partir de los cuales obtenemos,

i1 = 1 + ENT (20 ∗ 0′597) = 12

i2 = 1 + ENT (20 ∗ 0′398) = 8

i3 = 1 + ENT (20 ∗ 0′024) = 1

i4 = 1 + ENT (20 ∗ 0′412) = 9

i1 = 1 + ENT (20 ∗ 0′005) = 1

i1 = 1 + ENT (20 ∗ 0′056) = 2

siendo pues la muestra obtenida,

m = [1, 1, 2, 8, 9, 12]

Como puede verse, el elemento 1 aparece repetido en la muestra. Obviamente, esto no signi-fica que si por ejemplo es una persona encuestada, haya que preguntarle dos veces. Simplementela informacion que proporciona aparecera duplicada. Observese tambien que hemos empleadola notacion [ ] para indicar la muestra. Esto se debe a que la notacion usual de conjunto, { },serıa aquı incongruente pues los conjuntos no tienen elementos repetidos.

4

La intuicion nos dice que al permitir la repeticion de elementos, la muestra en generalproporciona menos informacion que el muestreo sin reemplazamiento, por lo que cabe es-perar un aumento del error de muestreo. A continuacion mostramos una serie de resultadosque corroboran esta idea.

8.1. Estimacion de la media poblacional

Exponemos, sin demostracion, los principales resultados acerca de la estimacion de lamedia poblacional mediante muestreo aleatorio simple con reemplazamiento. Suponemosque m es una muestra aleatoria simple con reemplazamiento.

Un estimador insesgado de la media poblacional, Y , viene dado por,

Y = y

es decir la media muestral.

Su varianza es,

V [Y ] = V [y] =1n

σ2y

Recuerdese que σ2y denota la varianza poblacional de Y

Jose A. Mayor Gallego. Universidad de Sevilla

Page 22: Tema 2 Muestreo Aleatorio Simplepersonal.us.es/jmayor/ficheros/me102_09.pdf · pequen˜a. Por ejemplo, si en una ciudad con 1.000.000 (un mill´on) de habitantes se extrae una muestra

F.M. Muestreo Estadıstico I. Tema 2: Muestreo Aleatorio Simple 21

Un estimador insesgado de dicha varianza viene dado por,

V [Y ] =1n

s2y

Para ver en que medida varia la eficiencia del muestreo aleatorio simple, segun se empleeen su forma usual o con reemplazamiento, podemos calcular el cociente entre sus varianzas.En concreto, si denominamos,

VMAS =1− f

nS2

y y VMASR =1n

σ2y

se tiene,

VMAS

VMASR=

1− f

nS2

y

1n

σ2y

=

N − n

NS2

y

N − 1N

S2y

=N − n

N − 1< 1

ya que usualmente n es bastante mayor que 1. Como puede verse, el reemplazamiento hacedisminuir la eficiencia pues aumenta la varianza de la estimacion. Observese tambien queeste aumento de la varianza es menos acentuado conforme la poblacion es mas grande. Estoes logico, pues a mayor valor de N , menor probabilidad de que haya repeticiones.

De cualquier forma, el aumento de varianza no suele ser muy grande en condicionesnormales. Por ejemplo, si N = 1.000.000 y n = 400, se tiene,

N − n

N − 1=

999.600999.999

= 0′999600999

que es muy proximo a 1, es decir, ambas varianzas son muy similares.

9. Nuevas notaciones empleadas en este tema

Ademas de las notaciones empleadas en el Tema anterior, en este tema se han introducidoy empleados las siguientes,

Media muestraly(m) = y =

1n

∑i∈m

yi

Cuasivarianza muestral

s2y(m) = s2

y =1

n− 1

∑i∈m

(yi − y(m))2 =1

n− 1

∑i∈m

y2i −

1n

(∑i∈m

yi

)2

Varianza muestral

1n

∑i∈m

(yi − y(m))2 =1n

∑i∈m

y2i −

1n

(∑i∈m

yi

)2 =

1n

∑i∈m

y2i −

[1n

∑i∈m

yi

]2

Jose A. Mayor Gallego. Universidad de Sevilla

Page 23: Tema 2 Muestreo Aleatorio Simplepersonal.us.es/jmayor/ficheros/me102_09.pdf · pequen˜a. Por ejemplo, si en una ciudad con 1.000.000 (un mill´on) de habitantes se extrae una muestra

F.M. Muestreo Estadıstico I. Tema 2: Muestreo Aleatorio Simple 22

Relaciones entre varianza y cuasivarianza muestral

s2y =

n

n− 1varianza muestral varianza muestral =

n− 1n

s2y

Proporcion poblacional. Variable Y cero-uno

P =1N

∑i∈U

yi

Proporcion muestral. Variable Y cero-uno

p(m) = p =1n

∑i∈m

yi

Cuasicoeficiente de variacion poblacional

CVy =Sy

Y

Cuasicoeficiente de variacion muestral

cvy =sy

y

Percentil o Cuantil 1− α/2 de una normal, N(0, 1)

z1−α/2

Referencias y bibliografıa recomendada

[1] Fernandez Garcıa, F.R. y Mayor Gallego, J.A. (1995a). Muestreo en poblaciones fini-tas: Curso basico. E.U.B. Ediciones Universitarias de Barcelona.

[2] Fernandez Garcıa, F.R. y Mayor Gallego, J.A. (1995b). Ejercicios y practicas de mues-treo en poblaciones finitas. E.U.B. Ediciones Universitarias de Barcelona.

Jose A. Mayor Gallego. Universidad de Sevilla