Parte 3. Técnicas de muestreo - ITAMallman.rhon.itam.mx/~lnieto/index_archivos/Parte3.pdf · vez...

28
PROFESOR: LUIS E. NIETO BARAJAS Parte 3. Técnicas de muestreo 3.1 Introducción al muestreo ¾ ¿Es posible determinar con cierta precisión (error) las características de una población (finita) a partir de los resultados obtenidos en una muestra?. ¾ Cada observación a elemento tomado de la población contiene cierta cantidad de información acerca del parámetro de interés. Ya que la información cuesta dinero, el investigador debe determinar qué tanta información debe comprar. ¾ La cantidad de información contenida en una muestra depende del número de elementos muestreados y de la variabilidad de los datos. Este último factor puede ser controlado por el método de selección de la muestra. ¾ Algunas DEFINICIONES básicas (recordemos...): Elemento o individuo: Objeto (persona, empresa, animal, planta, etc.) sobre el cuál se toma una medición de cierta característica de interés. Población: Conjunto de elementos de interés para el investigador. La población de interés debe de estar definida completa y cuidadosamente, lo cuál no siempre resulta fácil en la práctica. EJEMPLO: Se desea conocer los hábitos y actitudes de los consumidores de goma de mascar de la ciudad de México. Se tienen las siguientes preguntas: Curso: Métodos estadísticos básicos y técnicas de muestreo 75

Transcript of Parte 3. Técnicas de muestreo - ITAMallman.rhon.itam.mx/~lnieto/index_archivos/Parte3.pdf · vez...

PROFESOR: LUIS E. NIETO BARAJAS

Parte 3. Técnicas de muestreo

3.1 Introducción al muestreo

¿Es posible determinar con cierta precisión (error) las características de una

población (finita) a partir de los resultados obtenidos en una muestra?.

Cada observación a elemento tomado de la población contiene cierta

cantidad de información acerca del parámetro de interés. Ya que la

información cuesta dinero, el investigador debe determinar qué tanta

información debe comprar.

La cantidad de información contenida en una muestra depende del número

de elementos muestreados y de la variabilidad de los datos. Este último

factor puede ser controlado por el método de selección de la muestra.

Algunas DEFINICIONES básicas (recordemos...):

Elemento o individuo: Objeto (persona, empresa, animal, planta, etc.) sobre

el cuál se toma una medición de cierta característica de interés.

Población: Conjunto de elementos de interés para el investigador.

La población de interés debe de estar definida completa y cuidadosamente,

lo cuál no siempre resulta fácil en la práctica. EJEMPLO: Se desea conocer

los hábitos y actitudes de los consumidores de goma de mascar de la

ciudad de México. Se tienen las siguientes preguntas:

Curso: Métodos estadísticos básicos y técnicas de muestreo 75

PROFESOR: LUIS E. NIETO BARAJAS

1. ¿Cómo definir a un consumidor de goma de mascar?, por ejemplo,

aquel que consume al menos una goma de mascar diariamente.

2. ¿Qué significa que sea un consumidor de goma de mascar de la ciudad

de México?, por ejemplo, que lleve al menos 10 años viviendo en esta

ciudad.

NOTA: Una vez definida la población de interés detalladamente, las

conclusiones que se obtienen a partir de una muestra de dicha población,

únicamente se aplican a dicha población.

Unidades de muestreo: Son colecciones disjuntas (mutuamente

excluyentes) de elementos de la población que cubren la población

completa (exhaustivos).

En el ejemplo de los hábitos y costumbres de los consumidores de goma de

mascar, una unidad de muestreo puede ser un individuo o un hogar. Si se

eligen los hogares, un individuo debe de pertenecer a un solo hogar.

En algunas ocasiones es difícil definir unidades de muestreo que sean

mutuamente excluyentes. En estudios de ecosistemas de animales, tomar

parcelas circulares como unidades de muestreo resulta conveniente sin

embargo es imposible cubrir todo un campo sin que haya intersección entre

parcelas. En este caso se trata de disminuir la intersección lo más posible.

El INEGI considera como unidades de muestreo las AGEB’s (área geo-

estadística básica) para realizar encuestas.

Marco muestral: Es una lista de unidades de muestreo.

En la práctica, la mayoría de los marcos muestrales presentan

imperfecciones sobretodo cuando el tamaño de la población es muy

grande, por ejemplo:

Curso: Métodos estadísticos básicos y técnicas de muestreo 76

PROFESOR: LUIS E. NIETO BARAJAS

1. Marco muestral incompleto: Elementos de la población que no están

incluidos en el marco muestral.

2. Duplicados. Elementos de la población que se consideran más de una

vez en el marco muestral y se suponen como elementos distintos.

3. Elementos extraños. Elementos que no pertenecen a la población objeto

de estudio y que se incluyen en el marco muestral.

Muestra: Es una colección de unidades de muestreo seleccionadas de un

marco muestral.

EJEMPLO 23: El presidente de la República está interesado en conocer el

porcentaje de habitantes mayores de edad que están a favor de la inversión

extranjera en electricidad.

Individuo: Ciudadano de la República Mexicana

Población: Todos los ciudadanos de la República Mexicana.

Unidad de muestreo: individuo.

Marco muestral: Padrón electoral del IFE.

¿Cómo seleccionar la muestra?

Existen varios métodos de selección de muestras, estos métodos son

llamados diseños muestrales.

DISEÑO MUESTRAL: Es el procedimiento mediante el cuál se obtiene la

muestra. Asigna un probabilidad de selección a cada una de las posibles

muestras de tamaño n tomadas de una población de tamaño N.

Hay 2N−1 muestras de cualquier tamaño n ≤ N

Curso: Métodos estadísticos básicos y técnicas de muestreo 77

PROFESOR: LUIS E. NIETO BARAJAS

Los diseños muestrales más utilizados son:

1. Muestreo aleatorio simple (MAS)

2. Muestreo aleatorio estratificado (MAE)

3. Muestreo aleatorio por conglomerados (MAC)

4. Muestreo sistemático (MS)

¿Qué diseño muestral debo utilizar?

Si nuestro objetivo es estimar un parámetro poblacional θ mediante un

estimador puntual con un error de estimación de a lo más B unidades

con una confianza de 1−α, i.e.,

θ̂

( ) α−=≤θ−θ 1BˆP ,

entonces “el mejor” diseño muestral es aquel que proporciona la precisión

deseada al mínimo costo.

Muestreo probabilístico vs. muestreo no probabilístico

MUESTREO PROBABILÍSTICO: el azar es el que selecciona la muestra. Se

conoce la probabilidad de selección de cada posible muestra.

MUESTREO NO PROBABILÍSTICO: cualquier otra cosa distinta al azar

selecciona la muestra, por ejemplo: conveniencia, cuotas.

VENTAJAS del muestreo probabilístico:

1. No hay sesgo de selección

2. Es posible cuantificar el error de muestreo (error de estimación) y

construir IC.

Curso: Métodos estadísticos básicos y técnicas de muestreo 78

PROFESOR: LUIS E. NIETO BARAJAS

ALGUNAS DEFINICIONES: Sean

N =número total de individuos en la población,

X = variable de interés,

{ N21 x,x,x K }

}

= conjunto de valores de la variable X en la población,

n = tamaño de muestra (n ≤ N),

{ n21 X,X,X K = muestra (conjunto de v.a.’s),

Xi = v.a. que toma valores en el conjunto { }N21 x,x,x K , i = 1,...,n.

CANTIDADES POBLACIONALES: Generalmente, el objetivo de un diseño

muestral es estimar un parámetro poblacional, que puede ser una media, un

porcentaje o un total.

o Media poblacional:

∑=

=µN

1iiX x

N1

o Total poblacional:

∑=

=µ=τN

1iiXX xN

o Porcentaje de la población con la categoría “C”:

si entonces, ∈

=e.o.c. 0

C xsi 1y i

i

∑=

=N

1iiC y

N1p

Una cantidad poblacional de gran utilidad es

o Varianza poblacional:

( )∑=

µ−=σN

1i

2Xi

2X x

N1

Curso: Métodos estadísticos básicos y técnicas de muestreo 79

PROFESOR: LUIS E. NIETO BARAJAS

3.2 Muestreo aleatorio simple

El muestreo aleatorio simple (MAS) o muestreo aleatorio irrestricto es uno

de los procedimientos de muestreo más sencillos y sirve para comparar la

eficiencia de distintos métodos de muestreo.

DEFINICIÓN: MAS. Es un diseño muestral en el cual cada posible muestra

de tamaño n (sin reemplazo) tiene la misma probabilidad de ser

seleccionada.

o Si hay posibles muestras ⇒ cada muestra tiene probabilidad

nN

nN1

o P(un individuo sea seleccionado) = Nn

nN

1n1N

=

−−

o Xi ∼ , i = 1,...,n. { N21 x,x,xU K }

¿Cómo seleccionar una MAS?

Seleccionar una MAS no es tan sencillo como parece. Hay varias formas:

1. En un sombrero colocar N números de identificación numerados del 1

al N. Extraer n números del sombrero sin reemplazo.

2. Enlistar los N individuos de la población colocándoles un número de

identificación. Generar números aleatorios de una distribución

U{1,...,N} y seleccionar el individuo cuya identificación corresponda al

número generado, desechar los números que se repitan y continuar hasta

lograr tener una muestra de tamaño n.

Curso: Métodos estadísticos básicos y técnicas de muestreo 80

PROFESOR: LUIS E. NIETO BARAJAS

3. Enlistar los N individuos de la población colocándoles un número de

identificación. Generar un número aleatorio U{1,...,N} y seleccionar el

individuo cuya identificación coincida con el número generado. Quitar

al individuo seleccionado de la lista y reasignar los números de

identificación de manera consecutiva. Generar un número aleatorio

U{1,...,N−1} y proceder similarmente hasta tener n individuos.

ESTIMACIÓN EN MAS.

Estimación de la media:

Un estimador puntual de la media µX es

n1

Propiedades:

( ) XXE µ= ∴ X es insesg

( )

−−σ

=1NnN

nXVar

2X

Para poder estimar ( )XVar e

22X Sˆ =σ , pero ( )2

NNSE−

=

∴ 22X S

N1N~ −

=σ es insesg

Así que un estimador insesga

donde ( )∑=

−−

=n

1i

2i

2 XX1n

1S

81

∑=

==µ1i

iX Xn

ado para µX

s necesario estimar σ2X. Usualmente,

2X1

σ ⇒ S2 es sesgado para σ2X

ado para σ2X.

do de ( )XVar esta dado por,

nS2

.

( )

−=

N1

nXar

Curso: Métodos estadísticos básicos y técnicas de muestreo

PROFESOR: LUIS E. NIETO BARAJAS

Nota: La cantidad ( es llamado factor de corrección por población

finita (cpf). Nótese que este factor difiere del encontrado en

)Nn1−

(X)Var . En la

práctica la cpf puede despreciarse si ( ) 95.0Nn1 ≥− o si 20Nn ≤ .

Estimación del total:

Un estimador puntual del total de una v.a. cuantitativa τX es

∑=

==τn

1iiX X

nNXNˆ

Propiedades:

( ) XXˆE τ=τ ∴ XNˆ X =τ es insesgado para τX

( )

−−σ

=τ1NnN

nNˆVar

2X2

X

Un estimador insesgado de ( )XˆVar τ esta dado por,

( )

−=τ

Nn1

nSNˆarV̂

22

X

Estimación de una proporción:

Un estimador puntual de la proporción pC es

∑=

==n

1iiC Y

n1Yp̂

Propiedades:

( ) XpYE = ∴ Y es insesgado para pX

( ) ( )

−−−

=1NnN

np1pYVar CC

Curso: Métodos estadísticos básicos y técnicas de muestreo 82

PROFESOR: LUIS E. NIETO BARAJAS

Un estimador insesgado de ( )YVar esta dado por,

( ) − np̂1p̂ CC

INTERVALOS DE CONFIAN

Para la construcción de

poblaciones finitas. Si N

muestreo de θ un estim

una distribución normal,

ˆ

Por lo tanto, al estimar

para µX, τX y pC, i.e.,

µ

∈τX

∈pX

con (1−α)100% de confi

TAMAÑO DE MUESTRA EN

El número de observ

poblacional θ con un er

confianza de 1−α se obti

83

( )

−=

N1

1nYarV̂

ZA EN MAS.

IC en MAS se usa un análogo del TCL para

y N−n son “grandes”, entonces la distribución de

ador puntual de θ, se puede aproximar mediante

i.e.,

( ) ( )( )θθ≈θ ˆVar,ˆENˆ

la varianza, podemos encontrar IC aproximados

−±∈ α N

n1nszX

2

2/X ,

−± α N

n1nsNzXN

2

2/ y

( )

−−

± α Nn1

1np̂1p̂zp̂ CC

2/C

anza.

MAS.

aciones necesarias para estimar un parámetro

ror de estimación máximo de B unidades con una

ene al resolver ( )θ= αˆVarzB 2/ ,

Curso: Métodos estadísticos básicos y técnicas de muestreo

PROFESOR: LUIS E. NIETO BARAJAS

o Para la media µX:

2Nσ

o Para la proporción p

Igual que para la me

NOTA: En la práctica

mediante conocimient

piloto. Un último recur

Para la media: Si se sa

empírica aproximadam

Para la proporción: Un

pC = 0.5.

¿Cuándo usar MAS?

El MAS generalmente

1. No existe informac

dividirla en subgrup

2. La población es hom

84

( )( )

2X2

2/

2X

zB1N

nσ+−

=

α

C:

dia tomando ( )CC2X p1p −=σ

, un valor aproximado de σ2X se puede obtener

os de expertos, estudios previos o una encuesta

so sería:

tisface la aproximación normal, utilizando la regla

ente 4σ ≅ Rango ∴ σ ≅ Rango/4.

tamaño de muestra máximo se obtendría tomando

se usa en las siguientes situaciones:

ión adicional sobre la población que nos permita

os.

ogénea (varianza pequeña).

Curso: Métodos estadísticos básicos y técnicas de muestreo

PROFESOR: LUIS E. NIETO BARAJAS

3.3 Muestreo aleatorio estratificado (MAE)

Recordemos que uno de los objetivos del muestreo es maximizar la

cantidad de información con el menor número de encuestas posibles.

El muestreo aleatorio estratificado se lleva a cabo cuando existe

información adicional acerca de la variable de interés en la población que

nos permite dividir la población en subgrupos (estratos) exhaustivos y

mutuamente excluyentes de tal forma que cada elemento de la población

pertenezca a uno y sólo uno de estos grupos.

DEFINICIÓN: MAE. Es un diseño muestral en el que la población es

dividida en estratos (exhaustivos y mutuamente excluyentes) y la muestra

es obtenida al seleccionar una MAS de cada estrato.

Dada la definición de MAE, es necesario introducir nueva notación:

o L = número de estratos

o Ni = número de elementos de la población en el i-ésimo estrato

L21 NNNN +++= L

o NNW ii = = fracción o peso del i-ésimo estrato, i = 1,...,L

o xij = el valor de la variable X para el j-ésimo individuo en el estrato i, ∴

{ }L21 LN1LN221N111 x,x,,x,x,x,x KKKK es el conjunto de valores de la

variable X en la población

o ni = tamaño de muestra del i-ésimo estrato,

∑=

=L

1iinn = tamaño de muestra total

Curso: Métodos estadísticos básicos y técnicas de muestreo 85

PROFESOR: LUIS E. NIETO BARAJAS

¿Cómo seleccionar una MAE?

Dividir a la población en estratos claramente especificados de tal manera

que cada individuo pertenezca exclusivamente a un solo estrato. Tomar una

MAS de cada estrato de tamaño ni (usando las técnicas vistas en MAS) tal

que . Las muestras seleccionadas en cada estrato deben ser

independientes.

L1 nnn ++= L

CANTIDADES POBLACIONALES: Dada la estratificación, los parámetros

poblacionales de interés se pueden expresar como,

o Media poblacional:

∑∑==

µ=µ=µL

1ii

iL

1iiiX N

NW ,

donde ∑=

=iN

1jij

ii x

N1

µ es la media poblacional en el estrato i.

o Total poblacional:

∑∑==τ=µ=µ=τ

L

1ii

L

1iiiXX NN ,

donde es el total poblacional en el estrato i. ∑=

=µ=τiN

1jijiii xN

o Porcentaje de la población con la categoría “C”:

si entonces, ∈

=e.o.c. 0

C xsi 1y ij

ij

∑∑==

==L

1ii

iL

1iiiC p

NNpWp

donde ∑=

=iN

1jij

ii y

N1p es la proporción poblacional en el estrato i.

Curso: Métodos estadísticos básicos y técnicas de muestreo 86

PROFESOR: LUIS E. NIETO BARAJAS

ESTIMACIÓN EN MAE.

Estimación de la media:

Un estimador puntual de la media µX es

L

donde iX es el estimador po

Propiedades:

( ) XestXE µ= ∴ estX es i

( )

σ=∑

=

Nn

WXVari

2i

L

1i

2iest

Un estimador insesgado par

(XarV̂

donde S es la varianza mu2i

Estimación del total:

Un estimador puntual del to

τXˆ

Propiedades:

( ) XXˆE τ=τ ∴ eX XNˆ =τ

87

∑=

==µ1i

iiestX XWXˆ

r MAS de µi , es decir,

∑=

=in

1jij

ii X

n1X .

nsesgado para µX

−−

1Nn

i

ii

a ( )estXVar esta dado por,

L 2 nS

) ∑=

=1i i

i

i

i2iest N

1n

W

estral del estrato i.

tal τX es

L

∑=

==1i

iiest XNXN

st es insesgado para τX

Curso: Métodos estadísticos básicos y técnicas de muestreo

PROFESOR: LUIS E. NIETO BARAJAS

( ) ∑=

−−σ

=τL

1i i

ii

i

2i2

iX 1NnN

nNˆVar

Un estimador insesgado de ( )XˆVar τ esta dado por,

Estimación de una proporción:

Un estimador puntual de la proporción pC es

donde es el estimador por MAS de pip̂ i , es decir,

∑=

=in

1jij

ii Y

n1p̂ .

Propiedades:

( ) CCest pp̂E = ∴ es insesgado para pCestp̂ C

( ) ( )

−−−

=∑= 1N

nNn

p1pWp̂Vari

ii

i

iiL

1i

2iCest

Un estimador insesgado para ( )Cestp̂Var esta dado por,

( ) ∑=

L

1i i

i

i

2i2

iX Nn1

nSNˆarV̂

∑=

=L

1iiiCest p̂Wp̂

( ) ( )∑=

−−

=L

1i i

i

i

ii2iCest N

n11np̂1p̂Wp̂arV̂

Curso: Métodos estadísticos básicos y técnicas de muestreo 88

PROFESOR: LUIS E. NIETO BARAJAS

INTERVALOS DE CONFIANZA EN MAE.

Al igual que en MAS, se utilizará un análogo al TCL para poblaciones

finitas. En este caso, si Ni y Ni−ni son “grandes” para i = 1,...,L, entonces la

distribución de muestreo de θ̂ un estimador puntual de θ, se puede

aproximar mediante una distribución normal.

Por lo tanto, al estimar la varianza, podemos encontrar IC aproximados

para µX, τX y pC, i.e.,

±∈µ ∑

L

1i i

i

i

2i

2

2i

2/estX Nn1

nS

NNzX ,

±∈τ ∑

L

1i i

i

i

2i2

i2/estX Nn1

nSNzXN y

( )

−−

±∈ ∑=

αi

i

i

iiL

1i2

2i

2/CestX Nn1

1np̂1p̂

NNzp̂p

con (1−α)100% de confianza.

TAMAÑO DE MUESTRA EN MAE.

El número de observaciones necesarias para estimar un parámetro

poblacional θ con un error de estimación máximo de B unidades con una

confianza de 1−α se obtiene al resolver ( )θ= αˆVarzB 2/ junto con la

condición de que , para i = 1,...,L. ii nn ω=

o Para la media µX:

( ) ∑

=

σ+

ωσ

=L

1i

2ii2

2/

22

L

1i i

2i

2i

Nz

BN

N

n

Curso: Métodos estadísticos básicos y técnicas de muestreo 89

PROFESOR: LUIS E. NIETO BARAJAS

o Para el total τX:

( ) ∑

=

σ+

ωσ

=L

1i

2ii2

2/

2

L

1i i

2i

2i

Nz

B

N

n

o Para la proporción pC:

Igual que para la media tomando ( )ii2i p1p −=σ

Note que nnii =ω y que NNW ii = .

Para determinar el valor de se utilizan las mismas sugerencias que para

la determinación del tamaño de muestra en MAS.

2iσ

TAMAÑO DE MUESTRA POR ESTRATO.

¿Cómo dividir n entre los distintos tamaños de muestra individuales

n1,n2,...,nL?, i.e., ¿cómo determinar ωi?.

Distintas asignaciones ⇒ distinta varianza para la media muestral.

Los esquemas de asignación del tamaño de muestra por estrato dependen

de 3 factores:

1. Número total de elementos en cada estrato, Ni.

2. Variabilidad de las observaciones dentro de cada estrato, σi.

3. El costo por obtener una observación de cada estrato, ci.

Existen 3 formas principales de asignar la muestra por estrato que

minimizan ( )estXVar :

Curso: Métodos estadísticos básicos y técnicas de muestreo 90

PROFESOR: LUIS E. NIETO BARAJAS

o Asignación óptima para un costo fijo:

∑=

σ

σ=ω L

1kkkk

iiii

cN

cN

o Asignación de Neyman: Si L1 cc L= ,

∑=

σ

σ=ω L

1kkk

iii

N

N

o Asignación proporcional al tamaño del estrato: Si además , 2L

21 σ=σ L

ii

L

1kk

ii W

NN

N

N===ω

∑=

¿Cuándo usar MAE?

Los motivos principales para usar MAE en lugar de MAS son:

1. El error máximo de estimación es más pequeño que el producido por

una muestra aleatoria simple del mismo tamaño. Esto se logra si las

mediciones dentro de los estratos son homogéneas.

2. Menor costo por encuesta debido a la estratificación.

3. Se pueden obtener estimadores de parámetros poblacionales para

subgrupos de la población (estratos).

Curso: Métodos estadísticos básicos y técnicas de muestreo 91

PROFESOR: LUIS E. NIETO BARAJAS

3.4 Muestreo aleatorio por conglomerados (MAC)

Otra manera de maximizar la cantidad de información con el menor

número de encuestas posibles es mediante un muestreo aleatorio por

conglomerados, ya que algunas veces proporciona más información por

unidad de costo que los otros dos diseños anteriores.

El muestreo aleatorio por conglomerados se lleva a cabo cuando por

conveniencia las unidades de muestreo no son individuos (unidad de

muestreo mínima) sino conglomerados de individuos que simplifican la

obtención del marco muestral, como por ejemplo, familias, hogares,

manzanas, edificios, colonias, etc.

DEFINICIÓN: MAC. Es un diseño muestral en el que las unidades de

muestreo son conglomerados de individuos, se selecciona una MAS de

conglomerados y la muestra esta formada por todos los individuos

pertenecientes a los conglomerados seleccionados.

Dada la definición de MAC, es necesario introducir nueva notación:

o N = número de conglomerados en la población

o n = número de conglomerado seleccionados

o mi = número de elementos en el conglomerado i, i = 1,...,N

o = número total de elementos en la población ∑=

=N

1iimM

o ∑=

=n

1iim

n1m = tamaño promedio del conglomerado en la muestra

Curso: Métodos estadísticos básicos y técnicas de muestreo 92

PROFESOR: LUIS E. NIETO BARAJAS

o NMM = = tamaño promedio del conglomerado en la población

o xij=el valor de la variable X del j-ésimo individuo en el conglomerado i,

∴ { }N21 Nm1Nm221m111 x,x,,x,x,x,x KKKK es el conjunto de valores de

la variable X en la población

o xi = total de todas las observaciones en el i-ésimo conglomerado,

∑=

=im

1jiji xx

¿Cómo seleccionar una MAC?

Dividir a la población en conglomerados claramente especificados de tal

manera que cada individuo pertenezca exclusivamente a un solo

conglomerado. Tomar una MAS de tamaño n de conglomerados (usando

las técnicas vistas en MAS), quedando una muestra de individuos de

tamaño . ∑=

n

1iim

CANTIDADES POBLACIONALES: Dada la agrupación en conglomerados, los

parámetros poblacionales de interés se pueden expresar como,

o Media poblacional:

∑∑

=

=

=

==µ N

1ii

N

1iiN

1iiX

m

xx

M1 .

o Total poblacional:

∑=

=µ=τN

1iiXX xM ,

Curso: Métodos estadísticos básicos y técnicas de muestreo 93

PROFESOR: LUIS E. NIETO BARAJAS

o Porcentaje de la población con la categoría “C”:

si entonces, ∈

=e.o.c. 0

C xsi 1y ij

ij

∑∑

=

=

=

== N

1ii

N

1iiN

1iiC

m

yy

M1p

donde es el total de elementos en la categoría C en el

conglomerado i.

∑=

=im

1jiji yy

ESTIMACIÓN EN MAC.

Estimación de la media:

Un estimador puntual de la media µX es

n

X es llamado estimador de

Propiedades: Los estimador

( ) XXE µ= si 1 mm ==L

Un estimador para (XVar )

( ) =

NNXarV̂

94

=

===µ n

1ii

1ii

X

m

XXˆ

razón.

es de razón son generalmente sesgados.

∴ en este caso N X es insesgado para µX

esta dado por,

− n21n

( )∑

=−

− 1i

ii2 XmX1nMn

Curso: Métodos estadísticos básicos y técnicas de muestreo

PROFESOR: LUIS E. NIETO BARAJAS

M puede ser estimado por m si se desconoce M. Este estimador de

(XVar ) es un estimador sesgado y es un buen estimador si n ≥ 20. El sesgo

desaparece cuando N21 mmm === L .

Estimación 1 del total (si M es conocido):

Un estimador puntual del total τX es

Un estimador de ( )1XˆVar τ esta dado por,

Estimación 2 del total (si M es desconocido):

Un estimador puntual del total τX es

donde ∑=

=n

1iit X

n1X es un e

conglomerado.

XMˆ1X =τ

( ) ( ) ( )∑=

==τn

1i

2ii

2X XmX

1n1

nnNNXarV̂MˆarV̂

1

tX XNˆ2=τ

Un estimador de ( )2XˆVar τ esta d

( ) ( ) ==τ t2

X XarV̂NˆarV̂2

Si existe gran variación entre los

tamaños están altamente correlacion

95

stimador insesgado de la media por

ado por,

− n21nN

( )∑

=

1i

ti XX1nn

N

tamaños de los conglomerados y si los

ados con los totales por conglomerado,

Curso: Métodos estadísticos básicos y técnicas de muestreo

PROFESOR: LUIS E. NIETO BARAJAS

⇒ ( )2XˆVar τ es generalmente mayor que ( )

1XˆVar τ .

Estimación de una proporción:

Un estimador puntual de la proporción pC es

Un estimador para esta dado por, ( Cp̂Var )

− n21nN

=

== n

1ii

n

1ii

C

m

Yp̂

Este estimad

21 mm == L

TAMAÑO DE M

El número

poblacional θ

confianza de

tamaño de m

conglomerad

conglomerad

96

( )

=C Nnp̂arV̂

or de ( Cp̂Var

, entoncesNm=

UESTRA EN MA

de observacion

con un error d

1−α se obtien

uestra depend

os. Dados los ta

os necesarios est

( )∑=

− 1i

Cii2 p̂mY1nM

) es un buen estimador si n ≥ 20. Si

y Cp̂ ( )Cp̂arV̂ son insesgados.

C.

es necesarias para estimar un parámetro

e estimación máximo de B unidades con una

e al resolver ( )θ= αˆVarz 2/B . Note que el

e tanto del número como del tamaño de

maños de los conglomerados, el número de

a dado por:

Curso: Métodos estadísticos básicos y técnicas de muestreo

PROFESOR: LUIS E. NIETO BARAJAS

o Para la media µX:

( )2c2

2/

22

2c

zMNBNn

σ+

σ=

α

donde, σ2

c es la varianza poblacional entre los totales de los

conglomerados y puede ser estimada por

( )∑=

−−

=n

1i

2ii

2c XmX

1n1S

o Para el total τX (usando XMˆ1X =τ ):

2Nσ

o Para el total τX (usando

donde, σ2

t es la vari

conglomerados y puede s

2cS

o Para la proporción pC:

Igual que para la media,

S

97

( )2c2

2/

2c

zNB

nσ+

=

α

tX XNˆ2=τ ):

2Nσ

( )2t2

2/

2t

zNB

nσ+

=

α

anza poblacional entre los totales de los

er estimada por

( )∑=

−−

=n

1i

2ti XX

1n1

pero σ2c puede ser estimada por

( )∑=

−−

=n

1i

2ii

2c p̂mY

1n1

Curso: Métodos estadísticos básicos y técnicas de muestreo

PROFESOR: LUIS E. NIETO BARAJAS

El MAC es menos costoso que el MAS o el MAE

1. Si el costo por obtener un marco que liste todos los elementos

poblacionales es elevado y en cambio es fácil obtener un marco de

conglomerados.

2. Si el costo por obtener observaciones se incrementa con la distancia que

separa los elementos.

3. Si las mediciones dentro de los conglomerados son heterogéneas entre

sí.

NOTA: Los elementos de un conglomerado deben de estar geográficamente

cerca uno de otro para reducir los gastos de transporte.

DIFERENCIA ENTRE LA CONSTRUCCIÓN de estratos y conglomerados:

Con respecto a la variable de interés,

1. Los estratos:

o Deben ser homogéneos (semejantes) internamente, tanto como sea

posible, y

o Deben de diferir, tanto como sea posible, uno de otro

2. Los conglomerados:

o Deben de ser tan heterogéneos (diferentes) internamente, tanto como

sea posible, y

o Deben de ser similares uno y otro

Una forma de reducir el error de estimación en MAC es realizar un

muestreo proporcional al tamaño del conglomerado en lugar de un MAS de

conglomerados, i.e., seleccionar cada conglomerado con probabilidad

Mmi .

Curso: Métodos estadísticos básicos y técnicas de muestreo 98

PROFESOR: LUIS E. NIETO BARAJAS

3.5 Muestreo Sistemático (MS)

Tanto el MAS, el MAE y el MAC requieren de un trabajo detallado en el

proceso de selección de la muestra. Una manera de simplificar el proceso

de selección de la muestra es el muestreo sistemático.

La idea básica del muestreo sistemático es seleccionar individuos a

intervalos iguales a lo largo de una lista. Para iniciar el proceso de

selección es necesario seleccionar un punto aleatoriamente.

DEFINICIÓN: MS. Es un diseño muestral en el que la muestra es obtenida al

seleccionar aleatoriamente un elemento de los primeros k elementos del

marco muestral y posteriormente seleccionar cada k-ésimo elemento. La

muestra así obtenida es llamada muestra sistemática de 1 en k.

¿Cómo seleccionar una MS?

Enlistar los N individuos de la población en un orden estratégico,

seleccionar un número aleatorio entre 1 y k y luego seleccionar cada k-

ésimo individuo de la lista hasta lograr un tamaño de muestra n.

¿Cómo escoger k?: nNk ≤

ESTIMACIÓN EN MS.

Estimación de la media:

Un estimador puntual de la media µX es

n1

99

∑=

==µ1i

isyX Xn

Curso: Métodos estadísticos básicos y técnicas de muestreo

PROFESOR: LUIS E. NIETO BARAJAS

Propiedades:

( ) XsyXE µ= ∴ syX es insesgado para µX

( ) ( ){ }ρ−+σ

= 1n1n

XVar2X

sy ,

donde ρ = correlación entre los pares de elementos dentro de la muestra

sistemática.

Un estimador de ( )syXVar esta dado por el estimador de la varianza de X

en un MAS, i.e.,

donde (∑=

−−

=n

1i

2i

2 XX1n

1 )S . Se tienen 3 situaciones:

Si la población es aleatoria (sin orden, ρ = 0) ⇒ ( ) ( )XVarXVar sy ≅

Si la población es ordenada (ρ < 0) ⇒ ( ) ( )XVarXVar sy <

Si la población es periódica (cíclica, ρ > 0) ⇒ ( ) ( )XVarXsy >Var

Estimación del total:

Un estimador puntual del total de una v.a. cuantitativa τX es

Propiedades:

( ) XXˆE τ=τ ∴ syX XNˆ =τ es insesgado para τX

Un estimador de esta dado por, ( XˆVar τ

Curso: Métodos estadísticos básicos y técnicas de muestreo 100

)

( )

−=

Nn1

nSXarV̂

2

sy

syX XNˆ =τ

( )

−=τ

Nn1

nSNˆarV̂

22

X

PROFESOR: LUIS E. NIETO BARAJAS

Estimación de una proporción:

Un estimador puntual de la proporción pC es

n1

Propiedades:

( ) Xsy pYE = ∴ Y es ins

Un estimador de ( )syYVar e

Si N es desconocida, la cpf

es relativamente grande con

TAMAÑO DE MUESTRA EN M

El número de observacio

poblacional θ con un error

confianza de 1−α se obtiene

o Para la media µX: Recor

depende tanto de σ2X co

poder despejar n!. Como

para el tamaño de muestr

101

∑=

==1i

isyCsy Yn

Yp̂

esgado para pX

sta dado por,

( ) − np̂1p̂ CsyCsy

( )

−=

N1

1nYar sy

( )Nn1− puede ser omitida justificando que N

respecto a n.

S.

nes necesarias para estimar un parámetro

de estimación máximo de B unidades con una

al resolver ( )θ= αˆVarzB 2/ .

demos que para el caso de la media, ( )syYVar

mo de “rho” ρ que deben de ser conocidos para

éstos casi nunca se tienen, se usará la fórmula

a en MAS,

Curso: Métodos estadísticos básicos y técnicas de muestreo

PROFESOR: LUIS E. NIETO BARAJAS

2Nσ

si la població

si la població

o Para la proporción p

Igual que para la me

¿Cuándo usar MS?

Los motivos principale

1. Es más fácil de lle

expuesto a errores d

2. Puede proporcionar

que se extiende unif

3. Se puede impleme

población N.

102

( )( )

2X2

2/

2X

zB1N

nσ+−

=

α

n es ordenada ⇒ n es muy grande, y

n es periódica ⇒ n es muy pequeña

C:

dia tomando ( )CC2X p1p −=σ

s para usar MS en lugar de MAS son:

var a cabo en el campo y por lo tanto está menos

e selección cometidos por los encuestadores.

mayor información por unidad de costo, debido a

ormemente sobre toda la población.

ntar aún cuando se desconozca el tamaño de la

Curso: Métodos estadísticos básicos y técnicas de muestreo