Muestreo en Poblaciones Finitas - Muestreo Aleatorio...

22
Muestreo en Poblaciones Finitas Muestreo Aleatorio Simple José A. Mayor Gallego Departamento de Estadística e Investigación Operativa Universidad de Sevilla Septiembre de 2011 INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011 Muestreo Aleatorio Simple CB 1/22

Transcript of Muestreo en Poblaciones Finitas - Muestreo Aleatorio...

Page 1: Muestreo en Poblaciones Finitas - Muestreo Aleatorio Simplepersonal.us.es/jmayor/ficheros/mu_iea_02.pdf · 2017-02-12 · Estimación de una Proporción Sea C una característica

Muestreo en Poblaciones FinitasMuestreo Aleatorio Simple

José A. Mayor Gallego

Departamento de Estadística e Investigación OperativaUniversidad de Sevilla

Septiembre de 2011

INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011Muestreo Aleatorio Simple CB � 1/22

Page 2: Muestreo en Poblaciones Finitas - Muestreo Aleatorio Simplepersonal.us.es/jmayor/ficheros/mu_iea_02.pdf · 2017-02-12 · Estimación de una Proporción Sea C una característica

Contenidos

1 Diseño Muestral Aleatorio SimpleCaracterísticasMagnitudes Muestrales

2 Estimación de ParámetrosEstimación de la Media PoblacionalEstimación del Total PoblacionalEstimación de Proporciones

3 Tamaño MuestralEstimación de la Media PoblacionalEstimación de la Proporción Poblacional

4 Estimación en subpoblaciones

5 Bibliografía

INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011Muestreo Aleatorio Simple CB � 2/22

Page 3: Muestreo en Poblaciones Finitas - Muestreo Aleatorio Simplepersonal.us.es/jmayor/ficheros/mu_iea_02.pdf · 2017-02-12 · Estimación de una Proporción Sea C una característica

Diseño Muestral Aleatorio Simple, MAS(N, n)

Espacio Muestral.

M = {m ⊆ U|n(m) = n}

Distribución de Probabilidad.

Pr(m) =1(Nn

) , ∀m ∈ M

Probabilidades de Inclusión.

πi =nN

πij =n(n − 1)

N(N − 1)∆ij =

−f (1− f )

N(N − 1)∆ii = f (1−f )

NOTA: f = n/N. Fracción de Muestreo.

INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011Muestreo Aleatorio Simple CB � 3/22

Page 4: Muestreo en Poblaciones Finitas - Muestreo Aleatorio Simplepersonal.us.es/jmayor/ficheros/mu_iea_02.pdf · 2017-02-12 · Estimación de una Proporción Sea C una característica

Idea de la Ponderación

Supongamos que en una población de 20000 habitantes se realizaun muestreo aleatorio y se obtiene una muestra de 100 personas.Como 20000/100=200, cada elemento de la muestra estárepresentando a 200 de la población. Entonces, cuando interviene enla estimación, su valor habría que ponderarlo por 200. Por ejemplo, siqueremos estimar la media poblacional,

yU =1

20000

∑i∈U

yi

podríamos emplear el estimador,

yU =1

20000

∑i∈m

200yi =1

100

∑i∈m

yi

es decir, la media muestral.Nótese que la ponderaciones son precisamente N/n = 1/πi , esdecir, los inversos de las probabilidades de inclusión. Esta idea seextenderá posteriormente a cualquier otro diseño muestral.

INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011Muestreo Aleatorio Simple CB � 4/22

Page 5: Muestreo en Poblaciones Finitas - Muestreo Aleatorio Simplepersonal.us.es/jmayor/ficheros/mu_iea_02.pdf · 2017-02-12 · Estimación de una Proporción Sea C una característica

Magnitudes Muestrales

Media Muestral.ym =

1n

∑i∈m

yi

Cuasivarianza Muestral.

S2ym =

1n − 1

∑i∈m

(yi − ym)2

Varianza Muestral.

σ2ym =

1n

∑i∈m

(yi − ym)2 =1n

∑i∈m

y2i − y2

m

Relación entre Varianza y Cuasivarianza.

S2ym =

nn − 1

σ2ym

INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011Muestreo Aleatorio Simple CB � 5/22

Page 6: Muestreo en Poblaciones Finitas - Muestreo Aleatorio Simplepersonal.us.es/jmayor/ficheros/mu_iea_02.pdf · 2017-02-12 · Estimación de una Proporción Sea C una característica

Estimación de la Media

Estimador Insesgado de la Media Poblacional.

yU = ym la media muestral

Varianza.V [yU ] = V [ym] =

1− fn

S2yU

Estimador Insesgado de la Varianza.

V [yU ] = V [ym] =1− f

nS2

ym

Intervalo de Confianza al 100(1− α) %.(ym − z1−α/2

√1− f

nS2

ym , ym + z1−α/2

√1− f

nS2

ym

)Error de Muestreo. Confianza 100(1− α) %

EM = z1−α/2

√1− f

nS2

ym

INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011Muestreo Aleatorio Simple CB � 6/22

Page 7: Muestreo en Poblaciones Finitas - Muestreo Aleatorio Simplepersonal.us.es/jmayor/ficheros/mu_iea_02.pdf · 2017-02-12 · Estimación de una Proporción Sea C una característica

Estimación del Total

Estimador Insesgado del Total Poblacional.

ty = Nym

Varianza.V [ty ] = V [Nym] = N2 1− f

nS2

yU

Estimador Insesgado de la Varianza.

V [ty ] = N2 1− fn

S2ym

Intervalo de Confianza al 100(1− α) %.(Nym − Nz1−α/2

√1− f

nS2

ym , Nym + Nz1−α/2

√1− f

nS2

ym

)Error de Muestreo. Confianza 100(1− α) %

EM = Nz1−α/2

√1− f

nS2

ym

INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011Muestreo Aleatorio Simple CB � 7/22

Page 8: Muestreo en Poblaciones Finitas - Muestreo Aleatorio Simplepersonal.us.es/jmayor/ficheros/mu_iea_02.pdf · 2017-02-12 · Estimación de una Proporción Sea C una característica

Estimación de una Proporción

Sea C una característica o cualidad que un elemento puede tener ono. Sea Uc el subconjunto de U con los elementos que tienen dichacualidad y Nc el tamaño del mismo. La proporción poblacional de lacaracterística es,

P =Nc

NSi definimos la variable,

yi =

{1 si el individuo i posee la cualidad0 en caso contrario

entonces,

P =1N

tyU = yU siendo tyU =∑i∈U

yi

es decir, media poblacional de Y , por lo que,

P = yU = ym =1n

∑i∈m

yi = p

INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011Muestreo Aleatorio Simple CB � 8/22

Page 9: Muestreo en Poblaciones Finitas - Muestreo Aleatorio Simplepersonal.us.es/jmayor/ficheros/mu_iea_02.pdf · 2017-02-12 · Estimación de una Proporción Sea C una característica

Estimación de una Proporción

Estimador Insesgado de la Proporción Poblacional.

P = p proporción muestral

Varianza.

V [P] =N − nN − 1

P(1− P)

n=

N − nN − 1

PQn

Estimador Insesgado de la Varianza.

V [P] =1− fn − 1

p(1− p) =1− fn − 1

pq

INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011Muestreo Aleatorio Simple CB � 9/22

Page 10: Muestreo en Poblaciones Finitas - Muestreo Aleatorio Simplepersonal.us.es/jmayor/ficheros/mu_iea_02.pdf · 2017-02-12 · Estimación de una Proporción Sea C una característica

Estimación de una Proporción

Intervalo de Confianza al 100(1− α) %.(p − z1−α/2

√1− fn − 1

p(1− p) , p + z1−α/2

√1− fn − 1

p(1− p)

)

Error de Muestreo. Confianza 100(1− α) %

EM = z1−α/2

√1− fn − 1

p(1− p)

Porcentaje=100× Proporción.

INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011Muestreo Aleatorio Simple CB � 10/22

Page 11: Muestreo en Poblaciones Finitas - Muestreo Aleatorio Simplepersonal.us.es/jmayor/ficheros/mu_iea_02.pdf · 2017-02-12 · Estimación de una Proporción Sea C una característica

Tamaño Muestral

La determinación del tamaño de muestra se realiza a partir deun requerimiento previo de precisión bajo un nivel de confianzaprefijado.

Para la media poblacional, que es un parámetro no normalizado,el requerimiento de precisión se plantea, en términos relativos,como,

|yU − ym||yU |

= δ

Para la proporción poblacional, que es un parámetronormalizado entre CERO y UNO, el requerimiento de precisiónse plantea, en términos absolutos, como,

|P − p| = δ

En general, es necesario disponer de información previa parasatisfacer estos requerimientos.

INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011Muestreo Aleatorio Simple CB � 11/22

Page 12: Muestreo en Poblaciones Finitas - Muestreo Aleatorio Simplepersonal.us.es/jmayor/ficheros/mu_iea_02.pdf · 2017-02-12 · Estimación de una Proporción Sea C una característica

Tamaño Muestral. Media Poblacional

El requerimiento,|yU − ym||yU |

< δ

es equivalente a,

ym − yUδ < yU < ym + yUδ

por lo que,

yUδ = z1−α/2

√1− f

nS2

yU

de donde se obtiene,

n =

z21−α/2S2

yU

δ2y2U

1 +z2

1−α/2S2yU

Nδ2y2U

=

z21−α/2Cv2

yU

δ2

1 +z2

1−α/2Cv2yU

Nδ2

siendo CvyU =SyU

yU

INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011Muestreo Aleatorio Simple CB � 12/22

Page 13: Muestreo en Poblaciones Finitas - Muestreo Aleatorio Simplepersonal.us.es/jmayor/ficheros/mu_iea_02.pdf · 2017-02-12 · Estimación de una Proporción Sea C una característica

Tamaño Muestral. Media Poblacional

Denotando,

n0 =z2

1−α/2Cv2yU

δ2 tenemos n =n0

1 + n0/N

El cuasicoeficiente de variación poblacional tiene su versiónmuestral, sustituyendo la cuasidesviación típica poblacional por lamuestral, y la media poblacional por la muestral, es decir,

Cvym =Sym

ym

Para el cálculo de n0 necesitamos conocer el cuasicoeficiente devariación poblacional, o al menos el muestral que será unaestimación.

Emplear información obtenida en otros estudios, extrapolandoalgunos resultados.

Obtener una muestra preliminar o muestra piloto para estimarCvyU

INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011Muestreo Aleatorio Simple CB � 13/22

Page 14: Muestreo en Poblaciones Finitas - Muestreo Aleatorio Simplepersonal.us.es/jmayor/ficheros/mu_iea_02.pdf · 2017-02-12 · Estimación de una Proporción Sea C una característica

Tamaño Muestral. Proporción Poblacional

El requerimiento,|P − p| < δ

es equivalente a,p − δ < P < p + δ

por lo que,

δ = z1−α/2

√(1− f )

PQn

de donde se obtiene,

n =

z21−α/2PQ

δ2

1 +z2

1−α/2PQ

Nδ2

=n0

1 + n0/N

siendo,

n0 =z2

1−α/2PQ

δ2

INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011Muestreo Aleatorio Simple CB � 14/22

Page 15: Muestreo en Poblaciones Finitas - Muestreo Aleatorio Simplepersonal.us.es/jmayor/ficheros/mu_iea_02.pdf · 2017-02-12 · Estimación de una Proporción Sea C una característica

Tamaño Muestral. Proporción Poblacional

La cantidad PQ verifica siempre PQ ≤ 14 , cualquiera que sea P,

podemos dar una cota superior conservadora para n escribiendo,

n =

z21−α/2

4δ2

1 +z2

1−α/2

4Nδ2

=n0

1 + n0/N

siendo,

n0 =z2

1−α/2

4δ2

Notemos finalmente que si α = 0′05, es decir, queremos un intervalode confianza al 95 %, podemos tomar z2

1−α/2 = 1′962 ≈ 4 con lo quen0 es aproximadamente 1/δ2 lo que permite el cálculo rápido deltamaño muestral.

INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011Muestreo Aleatorio Simple CB � 15/22

Page 16: Muestreo en Poblaciones Finitas - Muestreo Aleatorio Simplepersonal.us.es/jmayor/ficheros/mu_iea_02.pdf · 2017-02-12 · Estimación de una Proporción Sea C una característica

Estimación en Subpoblaciones. Estimación de la Media

En muchas situaciones, es interesante no sólo la estimación de unparámetro en U, sino también en una sumpoblación Ud .

Por ejemplo, en un estudio sobre el hábito de fumar, queremosestimar el porcentaje de fumadores en una población, y tambiénestimar dicho porcentaje para HOMBRES y para MUJERES porseparado, es decir, desagregar la estimación global por sexo.

Nd es el tamaño de la Subpoblación Ud

Media de Y en Ud .

yUd =1

Nd

∑i∈Ud

yi

MAS(N,n) −→ m. md = m ∩ Ud . nd = |md | ∈ {0,1,2, . . . ,n}Nueva variable, Yd ,

ydi =

{yi si i ∈ Ud0 si i 6∈ Ud

INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011Muestreo Aleatorio Simple CB � 16/22

Page 17: Muestreo en Poblaciones Finitas - Muestreo Aleatorio Simplepersonal.us.es/jmayor/ficheros/mu_iea_02.pdf · 2017-02-12 · Estimación de una Proporción Sea C una característica

Estimación en Subpoblaciones. Estimación de la Media

yUd =1

Nd

∑i∈Ud

yi =NNd

1N

∑i∈U

ydi =NNd

ydU

y en caso de que Nd sea conocido, tendremos el siguiente estimadorinsesgado,

yUd =NNd

ydm =NNd

1n

∑i∈m

ydi =N

nNd

∑i∈md

yi

Varianza

V [ydm] =N2

N2d

1− fn

S2yd U

Varianza Estimada. Insesgada.

V [ydm] =N2

N2d

1− fn

S2yd m

Nótese que S2yd m es la cuasivarianza muestral de la variable Yd , es

decir, los valores correspondientes a elementos de la subpoblaciónlos conservaremos, y los que no los sustituiremos por 0.

INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011Muestreo Aleatorio Simple CB � 17/22

Page 18: Muestreo en Poblaciones Finitas - Muestreo Aleatorio Simplepersonal.us.es/jmayor/ficheros/mu_iea_02.pdf · 2017-02-12 · Estimación de una Proporción Sea C una característica

Estimación en Subpoblaciones. Estimación de la Media

En caso de que Nd no sea conocido, el anterior estimador esinviable. Una solución es estimar Nd .Nd = NPd donde Pd es la proporción de elementos de la poblaciónque pertenecen a la subpoblación Ud .

Nd = Nnd

n

yUd,alt =N

nNd

∑i∈md

yi =N

nNnd/n

∑i∈md

yi =1nd

∑i∈md

yi = ymd

es decir, la media muestral de los elementos de la muestra quepertenecen al dominio Ud .Este estimador alternativo es de tipo NO LINEAL y puede serempleado también aunque se conozca Nd ; es el que usualmenteemplean los distintos “softwares” de aplicación al Muestreo:SURVEY, SPSS, SAS, etc.

INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011Muestreo Aleatorio Simple CB � 18/22

Page 19: Muestreo en Poblaciones Finitas - Muestreo Aleatorio Simplepersonal.us.es/jmayor/ficheros/mu_iea_02.pdf · 2017-02-12 · Estimación de una Proporción Sea C una característica

Estimación en Subpoblaciones. Estimación de la Media

Estimación de la media poblacional en una subpoblación

En una población, U, de 10000 personas, hay 3000 personas conedad comprendida entre 0 y 21 años, tipo A, y 7000 de edadsuperior, tipo B.Para realizar un estudio de hábitos de ocio, se selecciona unamuestra aleatoria simple de 15 personas de la población y sepregunta a cada una el gasto aproximado mensual [en EUROS] enasistencia al CINE y la edad. Los resultados son,

70 75 60 10 90 30 40 50 50 40 65 70 60 50 60A A B B B B B A B B B A B B A

Vamos a estimar la media de gasto en CINE para los menores de 21años. En principio, como Nd = 3000 es conocido, aplicaremos elprimer estimador,

yUd =N

nNd

∑i∈md

yi =10000

15× 3000(70 + 75 + 50 + 70 + 60) = 72′222

INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011Muestreo Aleatorio Simple CB � 19/22

Page 20: Muestreo en Poblaciones Finitas - Muestreo Aleatorio Simplepersonal.us.es/jmayor/ficheros/mu_iea_02.pdf · 2017-02-12 · Estimación de una Proporción Sea C una característica

Estimación en Subpoblaciones. Estimación de la Media

Para estimar la varianza, calcularemos la cuasivarianza de losvalores,

70 75 0 0 0 0 0 50 0 0 0 70 0 0 60A A B B B B B A B B B A B B A

tendremos pues, descartando los CEROS,

S2yd m =

1514

[702 + 752 + 502 + 702 + 602

15−(

70 + 75 + 50 + 70 + 6015

)2]

= 1034, 524

por lo que,

V [ydm] =N2

N2d

1− fn

S2yd m =

100002

300021− 15/10000

151034,524 = 765′164

siendo pues el error de muestreo, al 95 %,

EM = 1′96×√

765′164 = 54′217

INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011Muestreo Aleatorio Simple CB � 20/22

Page 21: Muestreo en Poblaciones Finitas - Muestreo Aleatorio Simplepersonal.us.es/jmayor/ficheros/mu_iea_02.pdf · 2017-02-12 · Estimación de una Proporción Sea C una característica

Estimación en Subpoblaciones. Estimación de la Media

Si Nd no fuera conocido tendríamos que recurrir al estimadoralternativo,

yUd,alt =1nd

∑i∈md

yi =15

(70 + 75 + 50 + 70 + 60) = 65′000

No disponemos de las expresiones para estimar la varianza nicalcular el error de muestreo este estimador es no lineal.

El error de muestreo obtenido para el primer estimador es bastanteelevado debido l pequeño tamaño de muestra obtenido en lasubpoblación, nd = 5. Este es un problema de la estimación ensubpoblaciones; en casos extremos puede ocurrir nd = 0 en cuyocaso la estimación sería inviable.Existe toda una rama del Muestreo en Poblaciones Finitas, dedicadaespecíficamente al estudio de estas cuestiones, que genéricamentese denomina Estimación en Áreas Pequeñas o DominiosReducidos.

INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011Muestreo Aleatorio Simple CB � 21/22

Page 22: Muestreo en Poblaciones Finitas - Muestreo Aleatorio Simplepersonal.us.es/jmayor/ficheros/mu_iea_02.pdf · 2017-02-12 · Estimación de una Proporción Sea C una característica

Bibliografía

Fernández García, F.R. y Mayor Gallego, J.A. (1995). Muestreo enpoblaciones finitas: Curso básico. E.U.B. Ediciones Universitarias deBarcelona.

Lohr, S.L. (2010). Sampling: Design and Analysis. 2nd Edition.Brooks/Cole. International Edition.

Särndal, C., Swensson, B. and Wretman, J. (1992). Model AssistedSurvey Sampling. Springer-Verlag. New York, Inc.

INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011Muestreo Aleatorio Simple CB � 22/22