Tecnicas de Muestreo I´ - dpye.iimas.unam.mx · En las encuestas por muestreo, el principal...

39
ecnicas de Muestreo I Patricia Isabel Romero Mares Departamento de Probabilidad y Estad´ ıstica IIMAS UNAM agosto 2018 1 / 39

Transcript of Tecnicas de Muestreo I´ - dpye.iimas.unam.mx · En las encuestas por muestreo, el principal...

Tecnicas de Muestreo I

Patricia Isabel Romero Mares

Departamento de Probabilidad y EstadısticaIIMAS UNAM

agosto 2018

1 / 39

Temario

1. Introduccion. Definicion de conceptos elementales2. Muestreo aleatorio simple (m.a.s.)3. Estimadores de razon y de regresion (bajo m.a.s.)4. Muestreo estratificado5. Estimadores de razon en muestreo estratificado6. Muestreo sistematico7. Muestreo de conglomerados8. Muestreo bietapico9. Muestreo con probabilidad proporcional al tamano

10. Efectos de diseno11. Encuestas complejas

2 / 39

Introduccion

• En las encuestas por muestreo, el principal objetivo esestimar caracterısticas de la poblacion usando los datosde una muestra.

• Mahalanobis (1965, p45) resumio las ventajas de lasencuestas por muestreo:

• “... encuestas por muestreo a grandes escalas, cuando serealizan de la manera apropiada con un diseno muestralsatisfactorio, pueden proporcionar, rapidamente y a unmenor costo, informacion con suficiente precision parafines practicos y con la posibilidad de evaluar el margen deincertidumbre con una base objetiva”.

Mahalanobis, P.C.(1965). Statistics as a key technology. The AmericanStatistician, 19, 43-46.

3 / 39

Introduccion

• ¿que es una muestra?Es una parte de una poblacion de interes. Un subconjuntode esta.

• ¿que es la poblacion de interes?Es un conjunto finito de objetos (elementos) identificablescon ubicacion en tiempo y espacio.

• muestreo en la vida diariaCocinar. Comprar. Comer.

• objetivos del muestreoLas tecnicas del muestreo se utilizan para conocer lascaracterısticas generales de la poblacion de interes, alestudiar solo una parte de esta.

4 / 39

Introduccion

• ¿donde se usa?• Encuestas de opinion• Ratings de television• Industria. Control de calidad• Laboratorios. Estudios en sangre• Encuestas electorales• Encuestas de INEGI. (Ingreso-Gasto, Empleo, Turismo,

etc.)• Estudios de mercado

• ¿por que una muestra?• Costo• Confiabilidad en la informacion• Pruebas destructivas• Rapidez en reunir la informacion

5 / 39

Introduccion

• Objetivos del muestreo.Seleccionar “buenas” muestras de un tamano “apropiado”,considerando la informacion que tenemos de la poblacionque estamos estudiando y el presupuesto con quecontamos.

• ¿que es una “buena” muestra?Es una muestra representativa de la poblacion, es decir,que las variables de interes en la muestra presenten unadistribucion semejante a las de la poblacion.

6 / 39

Introduccion

7 / 39

Introduccion

• ¿que es una tamano de muestra “apropiado”?

Depende de:

• la variabilidad de la caracterıstica que queremos estudiar

• la precision con que queremos hacer la inferencia

• el presupuesto que tengamos

• el tamano de la poblacion

8 / 39

Definicion de conceptos

Poblacion Objetivo. Conjunto de elementos identificables conubicacion en tiempo y espacio. La poblacion se define alespecificar que elementos son (a veces tambien cuales no son)y que caracterısticas deben tener.

Ejemplo de poblacion no completamente especificada:

• personas mayores de 18 anos que han vivido los ultimos 6meses en la Ciudad de Mexico

Los elementos de la poblacion pueden ser personas, familias,hospitales, etc.

9 / 39

Definicion de conceptos

Poblacion muestreada. Es la poblacion de donde se extrae lamuestra.

En una encuesta ideal la poblacion muestreada sera identica ala poblacion objetivo.

Unidad de muestreo. Es la unidad donde realizamos lamuestra, la que se selecciona.

Unidad de observacion. Es el objeto (elemento) sobre el cualse realiza la medicion.

10 / 39

Definicion de conceptosMarco de muestreo. Es el medio fısico que identifica a lasunidades de muestreo de la poblacion.En la figura la poblacion objetivo es igual a la poblacionmuestreada.

11 / 39

Marco de muestreo

En este caso se desechan las unidades que no son parte de lapoblacion.

12 / 39

Marco de muestreo

No se puede usar este marco. Se puede redefinir la poblaciona que coincida con el marco o complementar el marco conotro(s).

13 / 39

Marco de muestreo

Obliga a usar muestreo con estratos.

14 / 39

Marco de muestreo

Eliminar las unidades que se repiten en alguno de los dosmarcos.

15 / 39

Definicion de conceptos

Una muestra es un conjunto de unidades de la poblacionseleccionadas del marco.

Las formas de tomar una muestra:

1. No probabilıstica• A juicio. Se usa la experiencia del investigador.• Cuotas.• Puede resultar una muestra sesgada• No hay forma de estimar el error

2. Probabilıstica. Todos los elementos de la poblaciontienen una probabilidad conocida y mayor que cero de serseleccionados.

• Hay forma de estimar el error• Se tiene apoyo de herramientas de probabilidad

16 / 39

Fuentes de error

1. Error de muestreo2. Errores que no son de muestreo

Error de muestreo. Es el error de estimacion∣∣θ −θ∣∣

Se controla con el diseno.

Se debe a que tenemos una muestra solamente y no toda lapoblacion.

17 / 39

Fuentes de errorErrores que no son de muestreo.

• No respuesta. Puede introducir sesgo a la estimacion• Informacion falsa

• Encuestas de salida en elecciones. Veracidad de lainformacion

• Preguntas sensitivas (hay metodos). Veracidad de lainformacion

• Preguntas mal redactadas• Terminos mal definidos

• Sustitucion arbitraria de los elementos de la muestraEjemplo de la leche.

Los errores que no son de muestreo se pueden controlarponiendo especial atencion a la construccion del cuestionario ya los detalles en el trabajo de campo a traves de una buenasupervision.

18 / 39

Pasos para realizar una encuesta por muestreo

1. Establecimiento de objetivos2. Definicion de la poblacion objetivo3. Construccion del Marco de muestreo4. Diseno de la muestra. Como se va a seleccionar la

muestra?5. Metodo de medicion

• Entrevistas personales (entrevistador)• Entrevistas telefonicas• Cuestionarios de autollenado• Por correo (electronico, postal)• Observacion directa

19 / 39

pasos encuesta por muestreo

6. Instrumento de medicion.Diseno del cuestionario

• Orden de las preguntas• Redaccion de las preguntas• Omitir dobles negaciones• Preguntas sensitivas• ¿Preguntas abiertas o cerradas?• Definicion de terminos y conceptos (lealtad, amor)

7. Prueba piloto. Sirve para probar cuestionario, trabajo decampo, estimar varianzas

8. Organizacion del trabajo de campo.• Supervisores• Encuestadores• Logıstica

20 / 39

pasos encuesta por muestreo

9. Organizacion del manejo de la informacion• ¿Que tipo de resultados se van a pedir?• Tablas• Control de la calidad de la informacion

10. Analisis de datos y reporte final

21 / 39

Objetivos del muestreo

22 / 39

Objetivos del muestreo

Estimar caracterısticas generales de la poblacion bajo estudio,tales como promedios, totales o porcentajes.

Esta estimacion se hace a traves de haber observado el valorde algunas variables en una muestra.

Valor de la variable de interes en la Poblacion (fijas ydesconocidas)

X1,X2, . . . ,XN

Valor de la variable de interes en la muestra (conocidas)

x1,x2, . . . ,xn

23 / 39

Otras definiciones

Estadıstico(a). Es una funcion de la muestra que no tieneinvolucrados parametros desconocidos.

Estimador. Es un estadıstico que se construye para estimar unparametro de la poblacion (su valor varıa de muestra amuestra).

Estimacion. Es el valor que toma el estimador una vezobservados los valores de la muestra.

Distribucion muestral. Es la funcion de distribucion de unestimador.

24 / 39

Ejemplo

Se tiene una poblacion de 6 personas a las cuales se les midecierta caracterıstica Y.

Ui U1 U2 U3 U4 U5 U6A B C D E F

Yi 0 1 2 3 4 5

El promedio de la caracterıstica en toda la poblacion es

Y =156

= 2.5

25 / 39

Ejemplo

Suponga que con una muestra de tamano 2 se desea estimareste promedio. Se selecciona esta muestra aleatoria de talmanera que cualquier muestra de tamano 2 tenga la mismaprobabilidad de ser seleccionada.

Cuantas muestras posibles hay?(62

)=

6!2!4!

=302

= 15

26 / 39

ejemplo

15 muestras posibles

muestra 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15elementos A A A A A B B B B C C C D D E

B C D E F C D E F D E F E F Fvalores 0 0 0 0 0 1 1 1 1 2 2 2 3 3 4

1 2 3 4 5 2 3 4 5 3 4 5 4 5 5y 0.5 1 1.5 2 2.5 1.5 2 2.5 3 2.5 3 3.5 3.5 4 4.5

27 / 39

ejemploEl procedimiento de seleccion implica que cualquiera de estasmuestras tiene la misma probabilidad de ser seleccionada, esdecir, no se favorece la seleccion de unas de estas muestrassobre otras.P( cualquier muestra ) = 1

15P( A en muestra ) = 5

15 = 13 = P( B en muestra ) = etc.

Distribucion muestralvalor del frecuencia (No. de muestras frecuencia

promedio muestral con este promedio) relativa0.5 1 1

151 1 1

151.5 2 2

152 2 2

152.5 3 3

153 2 2

153.5 2 2

154 1 1

154.5 1 1

15

28 / 39

Ejemplo de distribucion muestral

29 / 39

Propiedades deseables de un estimador

Como vimos con la funcion de distribucion muestral delestimador ”promedio muestral”, los valores que puede tomarvarıan de muestra a muestra.

Una propiedad deseable de este estimador es que el promediode los valores que puede tomar coincida con el verdadero valordel parametro, es decir, que la esperanza del estimador sea elparametro, en otras palabras que sea un estimador insesgado.

Definicion. Sea X ∼ pX (x)

E (X) = ∑x

xp(x)

30 / 39

propiedades de un estimador

En el ejemplo:

valor de y probabilidad0.5 1

151 1

151.5 2

152 2

152.5 3

153 2

153.5 2

154 1

154.5 1

15

E (y)=115

[0.5+1+2(1.5)+2(2)+3(2.5)+2(3)+2(3.5)+4+4.5]

E (y) =115

(37.5) = 2.5 = Y

31 / 39

propiedades de un estimadorPedir que el estimador sea insesgado no es suficiente. Otrapropiedad que se pide es que tenga varianza mınima, es decir,que su distribucion muestral este muy concentrada en sumedia.

32 / 39

Primera ley de los grandes numeros

Sean X1,X2, . . . ,Xn n≥ 1 variables aleatorias independientes eidenticamente distribuidas (v.a.i.i.d.), tales que Xi = {0,1}

E (Xi) = p; V (Xi) = p(1−p)

Sea Sn = X1 +X2 + . . .+Xn.

Se dice que Sn puede tomar valores 0,1, . . . ,n y tienedistribucion binomial con media y varianza dados por:

E (Sn) = np; V (Sn) = np(1−p) .

Entonces,

limn→∞P[∣∣∣∣Sn

n−p∣∣∣∣< c

]= 1 ∀c > 0.

33 / 39

Segunda ley de los grandes numeros

Sea Xi i≥ 1, una secuencia de v.a.i.i.d. con E(Xi) = µ yV(Xi) = σ2.

Sea Sn = X1 +X2 + . . .+Xn y X = Snn , entonces

limn→∞P[∣∣X−µ

∣∣< c]= 1 ∀c > 0.

34 / 39

Teorema Central del Lımite

Sea Xi i≥ 1, una secuencia de v.a.i.i.d. con E(Xi) = µ yV(Xi) = σ2.

Sea Sn = X1 +X2 + . . .+Xn y X = Snn y sean a y b con a < b dos

numeros cualquiera, entonces

limn→∞P

[a <

X−µ

σ√n

< b

]=

1√2π

∫ b

ae−x2/2dx.

Es decir, X tiende a tener una distribucion N(µ,σ2/n).

35 / 39

Teorema Central del Lımite

36 / 39

Teorema Central del Lımite

Para que se alcance una distribucion parecida a la normal en elconjunto de posibles valores del promedio muestral, serequiere que n sea grande.

Sin embargo, la rapidez de acercamiento a la normal(velocidad de convergencia) tambien depende de la forma de ladistribucion de la variable de interes en la poblacion.

37 / 39

Teorema Central del LımiteEn general, en la poblacion se tendra un parametro θ , que altomar muchas muestras posibles con un diseno de muestraespecıfico y una forma de estimador dada, produce muchosvalores de θ .Por el Teorema Central del Lımite:

38 / 39

Teorema Central del Lımite

E(θ)

= θ

V(θ)

= E[θ −E

(θ)]2

= E[θ −θ

]2P[θ −δ ≤ θ ≤ θ +δ

]= 1−α

equivalente a:P[∣∣θ −θ

∣∣≤ δ]= 1−α

En palabras, la probabilidad de una discrepancia de a lo mas δ

entre θ y θ es 1−α.A δ se le conoce como precision del muestreo o error deestimacion, y a 1−α como confianza.

39 / 39