Estadistica Muestreo

1 MUESTREO

El definir el tamaño muestral y el método de selección de las unidades de análisis, es uno de los puntos más importantes en procesos de análisis de datos, ya que dependiendo de éste, será posible generar inferencias o generalizaciones a toda la población, y por ende, definir políticas y tomar acciones que impacten el entorno del objeto de estudio. El proceso seguido para seleccionar una muestra de una población se conoce como muestreo.

El propósito que se tiene con el muestreo es recabar información representativa de toda una población con el propósito de generalizar los resultados obtenidos durante un estudio; controlando la cantidad de información ya que poca información podría afectar los resultados del estudio y mucha información podría generar gastos innecesarios.

Es evidente que el reducir costos en todas las actividades que se realizan en la cotidianidad es una prioridad en todo estudio, por lo tanto, es menester en lo posible trabajar con una parte de la población objeto de estudio, en lugar de realizar un censo. No obstante, se presentan algunos casos donde es imprescindible medir o explorar a todos los elementos del universo bajo estudio.

1.1 CONCEPTOS BÁSICOS DE MUESTREO

Muestro probabilístico: es aquel cuyos elementos tienen una probabilidad conocida y mayor de cero de ser seleccionados, tienen la particularidad de que los resultados encontrados por medio de este método se puede generalizar a toda la población. Se necesita de formulas matemáticas ya elaboradas para el cálculo del número de unidades de análisis y tiene como ventaja el poder determinar los errores de estimación.

Muestreos no probabilísticos: es aquel que no permiten generalizar sus resultados a toda la población, no obstante, son muy útiles para estudios exploratorios y en general para estudios de corte cualitativo. La elección del procedimiento depende fundamentalmente de los objetivos del estudio.Población o Universo: es un conjunto de elementos (sujetos, objetos, entidades abstractas, etc.) que poseen una o más características en común, podemos encontrar dos tipos de poblaciones dependiendo del número de elementos de que consten:

Poblaciones finitas: formadas por un número finito de elementos.

Poblaciones infinitas: formadas por un número infinito de elementos.

El hecho de que las poblaciones, por lo general, sean infinitas o estén formadas por un gran número de elementos, hace que la descripción exacta de sus propiedades sea un objetivo prácticamente inaccesible. Por esta razón, lo habitual es trabajar con “muestras”.

Muestra: es un subconjunto de elementos de una población. Para extraer conclusiones validas e imparciales referidas a todos los elementos de la población a partir de la observación de sólo unos pocos elementos, es necesario, que la muestra utilizada sea representativa de la población; esto se consigue mediante las “técnicas de muestreo”.Una muestra proporciona una estimación de parámetro a estudiar, pero si se extrae otra muestra según las mismas reglas de selección, se obtendrá sin duda otro resultado para la estimación del parámetro a estudiar. Por tanto “el estimador” es una “variable aleatoria”.

Parámetro: es un valor numérico que describe una característica de una población. Los parámetros son valores numéricos constantes (es decir, no son variables), definida una población cualquiera y un parámetro en ella, ese parámetro sólo puede tomar un valor numérico concreto. Habitualmente los parámetros de interés serán la media ( μ ) , la varianza (σ 2 )y los porcentajes.

Estadístico o Estimador: es un valor numérico que describe una característica de una muestra. Su valor concreto depende de los valores de la muestra seleccionada en la que es calculado. Es evidente que de una población cualquiera es posible extraer más de una muestra diferente del mismo tamaño, por tanto el valor de un estadístico varía de una muestra a otra. Un estadístico no es un valor numérico constante (como lo es un parámetro), sino que es una variable; y su valor concreto depende de la muestra en la que es calculado.

Algunos de los estadísticos principales son: la media muestral ( x ), la varianza muestral ( s2 ), el total muestral (n), la proporción muestral, el mayor y menor valor de la muestra.

La distribución del estimador viene dada por el conjunto de los resultados obtenidos a partir del conjunto de las muestras posibles; el carácter aleatorio proviene de la extracción aleatoria de la muestra. Un estadístico que se utiliza para estimar un parámetro desconocido de la población recibe el nombre de estimador

Variable aleatoria: es una variable que puede tomar un cierto número de valores, con una probabilidad asociada a cada valor. Por tanto dicha variable aleatoria seguirá una “distribución” determinada.

Error de estimación: es la diferencia entre el valor estimado del parámetro usualmente la media ( x ) o el porcentaje de la población que cumple una condición ( p) y el verdadero valor del parámetro ( μ ) ,o el porcentaje de la población que cumple una condición ( P ) que en general será desconocido. El error de estimación va medido en las mismas unidades que el parámetro que deseamos estimar; si se quiere mantener o disminuir el error, más elementos u observaciones de la población deberán incluirse en la muestra estudiada.

Como es natural, al aproximar las características poblacionales mediante estimadores basados en la muestra se comete un error, error que mide la representatividad de dicha muestra. Dependiendo del coste del muestreo, del presupuesto disponible y de otros muchos factores fijaremos un error de muestreo que en todo caso debe ser el mínimo posible. Dicho error de muestreo puede venir dado en términos absolutos, en términos relativos o sujeto adicionalmente a un coeficiente de confianza dado (sujeto a unos límites de tolerancia)

En caso de no incluir nuevas observaciones para la muestra, más error se comete en la precisión o valor estimado del parámetro. El error de estimación se mide en las mismas unidades que el parámetro que deseamos estimar ejemplo cantidad, precio..., etc. y se simboliza por:

La estimación de un valor de interés, como la media o el porcentaje (poblacional), estará generalmente sujeta a una variación entre una muestra y otra. Estas variaciones en las posibles muestras de una estadística pueden, teóricamente, ser expresadas como errores muestrales, sin embargo, normalmente, en la práctica el error exacto es desconocido. El error muestral se refiere en términos más generales al fenómeno de la variación entre muestras.

El error muestral deseado, generalmente puede ser controlado tomando una muestra aleatoria de la población, suficientemente grande, sin embargo, el costo de esto puede ser limitante. Si las observaciones son tomadas de una muestra aleatoria, la teoría estadística brinda cálculos

e=μ−x ó e=P−p

http://es.wikipedia.org/w/index.php?title=Teor%C3%ADa_estad%C3%ADstica&action=edit&redlink=1

http://es.wikipedia.org/wiki/Muestra_aleatoria

probabilísticos del tamaño deseado del error muestral para una estadística en particular o estimación. Estos usualmente son expresados en términos del error estándar.

El error muestral puede ser contrastado con el error no muestral, el cual se refiere al conjunto de las desviaciones del valor real que no van en función de la muestra escogida, entre los cuales se encuentran varios errores sistemáticos y algunos errores aleatorios. Resultan mucho más difíciles de cuantificar que el error muestral.

Nivel de confianza: Es la probabilidad de que el verdadero valor del parámetro estimado en la población se sitúe en el intervalo de confianza obtenido. El nivel de confianza se denota por (1-α), aunque habitualmente suele expresarse con un porcentaje ((1-α)•100%). Es usual tomar como nivel de confianza un 95% o un 99%, que se corresponden con valores α de 0,05 y 0,01, respectivamente; aunque este se puede escoger a criterio del que realiza el estudio, la idea es que al seleccionar la muestra esta de mayor que 30 para poder aplicar la tabla de la normal y asumir normalidad cumpliendo con el teorema del limite central “entre más grande sea la muestra más se aproxima a una normal”

1.2 ESTIMACIÓN DE TAMAÑO DE MUESTRA

Todo estudio lleva implícito en la fase de diseño la determinación del tamaño muestral. Al no realizar esto pueden suceder diferentes situaciones; seleccionar menos muestras que las necesarias, perdiéndose precisión en la estimación de parámetros y en las pruebas estadísticas puede suceder que no se encuentren diferencias significativas cuando realmente las hay. La segunda situación es que se puede estudiar más muestras que las necesarias, lo cual lleva implícito pérdida de tiempo e incremento de recursos innecesarios.

Se debe tener claro el tipo de muestreo que se utilizará para calcular el tamaño de muestras. Las limitaciones establecidas en el procedimiento de muestreo varían de un área de las ciencias a otra. Hay que tomar en cuenta varios factores para determinar el tamaño que debe alcanzar una muestra como: el tipo de muestreo, el parámetro a estimar, el error muestral admisible, la varianza poblacional y el nivel de confianza.

http://es.wikipedia.org/wiki/Sesgo

http://es.wikipedia.org/wiki/Probabilidad

1.3 TAMAÑO DE MUESTRA PARA POBLACIONES FINITAS

Si conocemos el tamaño de la población se usa los métodos para poblaciones finitas. La ventaja sobre poblaciones finitas es que al conocer exactamente su tamaño, el tamaño de la muestra resulta con mayor precisión y se pueden ahorrarse recursos y tiempo para la aplicación y desarrollo del estudio. Se puede determinar tamaño de la muestra para la media o para la proporción y las formula a utilizar son:

Ejemplo: se desea estimar entre 10.000 establos, el número de vacas lecheras por establo con un error de estimación de 4 y un nivel de confianza del 95%. Sabemos que la varianza es 1.000. ¿Cuántos establos deben visitarse para satisfacer estos requerimientos?

Teniendo en cuenta que el error muestral es de 4 vacas lecheras por establo y para un nivel de confianza β=0.95 y un error de confianza es

α=0.05 ,se busca en la tabla de la normal el zβ+α

2

=Z0.9750 y es 1.96 (celda

marca de color rojo en la tabla de la norma y σ 2=1000, se tiene que la muestra es:

n= z2σ 2 Nz2 σ2+( N−1 )e2 =

1.962∗1000∗100001.962∗1000+9999∗42 =234

Se deben analizar 234 establos

NOTA: Se puede observar en el ejemplo que como se conoce la varianza y esta es de 1000 vacas lecheras por establo, el error muestral debe ir en la misma unidad de medida

Ejemplo: Se desea realizar una encuesta entre la población juvenil de una determinada localidad para determinar la proporción de jóvenes que

n= z2σ 2 Nz2 σ2+( N−1 )e2 Para la media

n= z2 pqNz2 pq2+ (N−1 ) e2 Para la proporción

estaría a favor de una nueva zona de ocio, existe la impresión de que esta proporción está próxima a 0´35; El número de jóvenes de dicha población es N=2.000. Determinar el tamaño de muestra necesario para estimar la proporción de estudiantes que están a favor con un error de estimación de 0´05 y un nivel de confianza del 90%

Teniendo en cuenta que el error muestral es de 0.05 y para un nivel de confianza β=0.90 y un error de confianza es α=0.10 ,se busca en la tabla

de la normal el zβ+α

2

=Z0.9500 y es 1.65 (celda marca de color café en la

tabla de la norma), como la proporción según la información a favor es del 0.35 (p éxito) entonces la proporción de jóvenes que no esta de acuerdo es 0.65 (q Fracaso), se tiene que la muestra es:

n= z2 pqNz2 pq+( N−1 ) e2=

1.652∗0.35∗0.65∗20001.652∗0.35∗0.65+2000∗0.052 =221

Se deben encuestar 221 jóvenes de la localidad

NOTA: cuando no se conoce la varianza o proporción se asume la máxima variabilidad tomando p=0.5 y q= 0.5

1.4 TAMAÑO DE MUESTRA PARA POBLACIONES INFINITAS

La población infinita es aquella que teóricamente es imposible observar todos los elementos. En la práctica se entenderá por población infinita la que no puede ser enumerada en un período razonable o aquella en la que se incluye un gran conjunto de medidas y observaciones que no pueden alcanzarse en el conteo. La desventaja sobre esta población es que como no se conoce con exactitud el tamaño de la población, el tamaño de la muestra resulta con poca precisión Se puede determinar tamaño de la muestra para la media o para la proporción y las formula a utilizar son:

n= z2 σ2

e2 Para la media

n= z2 pqe2 Para la proporción

EJEMPLO: Una compañía de televisor por cable quisiera estimarla proporción de personas que comprarían una revista con los programas de televisor por cable; por estudios anteriores se sabe que el 30% de las personas compraría la revista de programación. La Compañía desea que su estudio tenga un nivel de confianza del 95% y un error de muestreo del 3%. ¿Qué tamaño de muestra se necesita?

Teniendo en cuenta que el error muestral es de 0.03 y para un nivel de confianza β=0.95 y un error de confianza es α=0.05 ,se busca en la tabla


2

=Z0.9750 y es 1.96 (celda marca de color rojo en la

tabla de la norma), como la proporción según la información de personas que comprarían la revista es del 0.30 (p éxito) entonces la proporción de personas que no están dispuestas a comprar la revista es 0.70 (q Fracaso), se tiene que la muestra es:

n= z2 pqe2 =1.962∗0.30∗0.70

0.032 =896

Se deben encuestar 896 personas

Ejemplo: el director de una compañía de tabacos desea realizar un estudiar a los la ciudadanos sobre consumo y adicción que tienen a este producto. Por estudios anteriores se sabe que el consumo tiene una variabilidad σ=15 unidades diarias. El estudio lo realiza el director con una confiabilidad del 95% y un error entre el número de unidades consumidas de 4. ¿Cuántos ciudadanos debe tener en cuenta en la muestra el director?

Teniendo en cuenta que el error muestral es de 4 y para un nivel de confianza β=0.95 y un error de confianza es α=0.05 ,se busca en la tabla


2

=Z0.9750 y es 1.96 (celda marca de color rojo en la tabla

de la norma y σ 2=225, se tiene que la muestra es:

n= z2 σ2

e2 =1.962∗22542 =54

Se deben analizar 54 ciudadanos

1.5 TIPOS DE MUESTREO PROBABILISTICO

1.5.1Muestreo Aleatorio Simple:

De población se extrae una muestra de tamaño “n”, dando a cada unidad la misma probabilidad de ser extraída. La muestra se puede extraer:

Con reposición: cuando una unidad seleccionada en una extracción se devuelve a la población y puede participar en las siguientes extracciones, pudiéndose extraer dicha unidad dos veces o más. La composición de la población siempre es la misma y el elemento puede ser seleccionado nuevamente. Al no modificarse la composición de la población el elemento puede ser elegido en cada extracción con la misma probabilidad.

Sin reposición: se obtiene la muestra unidad a unidad de forma aleatoria sin reposición a la población de las unidades previamente seleccionadas, teniendo presente además que el orden de colocación de los elementos en las muestras no interviene, es decir, muestras con los mismos elementos colocados en orden distinto se consideran iguales.

Las ventajas que tiene este procedimiento de muestreo son las siguientes:

Sencillo y de fácil comprensión. Calculo rápido de medias y varianzas. Existen paquetes informáticos para analizar los datos

Por otra parte, las desventajas de este procedimiento de muestreo son: Requiere que se posea de antemano un listado completo de toda

la población. Si trabajamos con muestras pequeñas, es posible que no

representen a la población adecuadamente.

El procedimiento empleado para seleccionar los elementos de la población que hacen parte en la muestra son:

Identificar a todas las unidades de observación de la población constante.

se asigna un número o código a cada individuo de la población Se codifica cada elemento de la población y se seleccionan n

códigos a través de una tabla de números aleatorios que se puede encontrar en libros de estadística como el libro (JOHN E. FREUD; GARAY A. SIMON Estadística elemental. Octava edición. Editorial Pearson). También se pueden obtener utilizando

Excel a través de la función =ALEATORIO.ENTRE(inferior; superior). Se eligen tantos sujetos como sea necesario para completar el tamaño de muestra requerida

LA TABLA DE NUMEROS ALEATORIOS

Una tabla de números aleatorios es un conjunto de dígitos generado de modo que, normalmente, la tabla contenga cada uno de los diez dígitos (0, 1,…,9), en proporciones aproximadamente iguales, sin mostrar tendencias en el patrón que se generan los dígitos. Por lo tanto, si se selecciona un número en un lugar aleatorio de la tabla, es igualmente probable que sea cualquiera de los dígitos entre el 0 y el 9. Estas tablas se construyen para asegurar que cada dígito, cada par de dígitos, cada tres dígitos, etc, aparecen con la misma frecuencia. En el caso de extraer una muestra aleatoria simple, se elige un lugar para empezar a leer dichos números aleatorios. Después se selecciona una dirección (arriba, abajo, derecha e izquierda) y se van recogiendo dígitos hasta que se consiga el tamaño muestral adecuado. Utilizando este método, un elemento puede aparecer más de una vez. Si queremos extraer una muestra aleatoria simple sin reposición, la solución es ignorar los elementos repetidos. Ejemplo: se tiene una población de 50 fabricantes de automóviles y desea seleccionar una muestra de 20 fábricas para realizar un estudio sobre responsabilidad social de las mismas. La siguiente tabla muestra las fabricas que componen la población y al lado derecho el código asignado para seleccionar las que hacen parte en la muestra

F. Chip 01 Diameter 26

F. Contra 02 Thickness 27

F. Destiny 03 Lbl offctr 28

Vista A 04 Lbl folded 29

Berger 100 05 Label cut 30

Gab. Assett 06 Mislabeled 31

Neub. Focus 07 No label 32

F. Magellan 08 No hole 33

Janus 09 Hole offct 34

L. Mason Value 10 Hole size 35

Gabelli Growth 11 Chip 36

Franklin Growth 12 Scratch 37

Janus 20 13 Cracked 38

AARP Capital 14 Warped 39

Kemper Growth A 15 Columbia Growth 40

20th Cent. Growth 16 T. R. P. Capital 41

F. OTC 17 Neub. Partners 42

Volkswagen 18 Pontiac 43

Ford 19 Chevrolet 44

Mazda 20 Ford 45

Datsun 21 Ford 46

Honda 22 Plymouth 47

Oldsmobile 23 AMC 48

Dodge 24 Buick 49

Mercury 25 Mercury 50

Para seleccionar las fábricas que hacen parte en la muestra se utilizo la siguiente tabla de números aleatorios, se empezó con los dos primeros dígitos por columna empezando por la primera columna y el recorrido fue de arriba hacia abajo los dígitos que se tuvieron en cuenta fuero los resaltados con rojo

TABLA DE NUMEROS ALEATORIOSRENGLÓN

COLUMNAS

0102030405

4928061870438986299333850

8892441657659239391258555

3577907468250783045451438

0028308612861298459885507

8116398083784965609571865

0727597349976532066479488

8986320775915501287276783

0234845091080786464731708

0607080910

9734070543893823781860430

0336429776938097214222834

8847210087007966714014130

0433410072959455078596593

6391955980341012238023298

3639464688812771670356203

1109568239660905336292671

9247020461888724494015925

1112131415

8297539087557001475632166

6615871938245862399753251

8473140355932477864370654

1943654324325967591292827

5579008401116658383263491

6922926290633973276804233

2866140420442511892833825

1367559208431895707060662

1617181920

2323645794098935438294750

7375126926205057459889923

3188815130142250149937089

8171882455685141452320048

0654678305464276847980336

8324655058567882768694598

4765152551962974616226940

0487747182788228355436858

2122232425

7029787157111003687123913

3413547954023405077548357

5314032970128603059263308

3334026575746975714316090

4205057600966441738151690

8234140881894396885654607

4414012250287072585372407

8294973742258153504155538

2627282930

7934892074068731247857175

3608554641214403762255564

2797353673755039965065411

6515754421113733106542547

0745618130495028361370457

2225560103179726988903426

2562669593825785886972937

5705449464163642957183792

3132333435

9161678025275871669070183

1107573539672282042758065

8010314621801450425165489

0783139044101756447731833

5930947450128227370982093

1327603107866877394516747

2671012787655309239610386

7300047709493256826359293

3637383940

9073010934824622746302979

3538593242301661043352997

1567913431796130760600079

9074224590474161628592709

5086602770133899369990110

7802848582802686091247506

7557300906050859453253693

6725758595966669563240802

Las fábricas que hacen parte en la muestra son las que tienen los Códigos seleccionados y son:

Buick 49

Pontiac 43

No hole 33

Scratch 37

Warped 39

AARP Capital 14

No label 32

Oldsmobile 23

Ford 45

Janus 09

Gabelli Growth 11

Cracked 38

Gab. Assett 06

Franklin Growth 12

Thickness 27

20th Cent. Growth 16

L. Mason Value 10

F. Contra 02

T. R. P. Capital 41

1.5.2Muestreo Estratificado

La estratificación tiene como objetivo principal aumentar la precisión global de la estimación sin incrementar el tamaño muestral.

Estratificar una población consiste en dividirla, “antes” de la extracción de la muestra, en subconjuntos homogéneos (respecto de caracteres determinados a priori), llamados estratos.

Los estratos deberán ser homogéneos en sí y heterogéneos entre sí respecto de la característica en estudio. La selección de la muestra se efectúa de manera independiente en el interior de cada estrato. Esto conlleva a que la varianza en cada estrato sea pequeña. Se trata de que los estratos sean lo más homogéneos posibles dentro de cada uno de ellos, es decir, que exista en cada uno la menor variabilidad posible y de que haya grandes diferencias de unos a otros estratos.

En lugar de extraer la muestra totalmente al azar, se extrae parte de la muestra en cada estrato. Una vez dividido la población en estratos, se deberá repartir la muestra entre dichos estratos. El reparto o afijación de la muestra a través de los estratos dependerá de la distribución de la característica en estudio que deberá ser conocida a prior.

Existen muchas maneras de repartir la muestra, pero las más importantes son:

Afijación uniforme: Consiste en asignar el mismo número de unidades muestrales a cada estrato. Da la misma importancia a todos los estratos, en cuanto al tamaño de la muestra. Favorece a

los estratos de menor tamaño y perjudica a los grandes, en cuanto a precisión.

La cantidad de elementos de cada estrato que hacen parte en la muestraSe simboliza por ni

.

Ejemplo: Se desea realizar un estudio sobre la gestión financiera del las microempresas de la cierta ciudad; para ello se tuvo en cuenta aquellas empresas que tenían contador y que no tenían. Al observar que la proporción de “empresas que tenían dentro de su empresa un contador era muy baja, se toma la decisión de no utilizar una “muestra proporcional” puesto que dejaría en la representación de este estrato a muy pocas empresas. El total de microempresas en la ciudad eran 1780, de las cuales se selecciono una muestra de 80, el total de empresa por estrato es:

Se tiene en cuenta que la población de empresas esta dividida en dos estratos las que tienen contador y las que no tienen

ni=802

=40

La distribución de la población y de la muestra se resume en la siguiente tabla:

N° empresas

Porcentajede la población

N° de empresas en la

muestra

Porcentajede estrato en

la muestraCon contadorSin contador

3801400

21.378.7

4040

10.522.85

TOTAL 1780 100 80 13.37

Como se puede apreciar, se prefiere “el muestreo estratificado uniforme” cuando existe un estrato con pocos casos o de baja representación en la población que sin embargo, presenta algún interés particular.

Afijación proporcional: La muestra se distribuye proporcionalmente a los tamaños de los estratos, es la indicada cuando no tenemos información sobre la distribución de la característica en estudio.

ni=nl

n=total deelementos en la muestral=cantidad de estratos

Si existen k estratos de tamaños N1,...,Nk, entonces N=N1+...+Nk . Existen dos métodos para dividir el tamaño total de la muestra n en estratos n1 ,...,nk .

Se mantiene la proporción del estrato escogiendo ni=nN i

N, de modo

que n=n1+...+nk

Si el número de unidades de muestreo seleccionadas de cada estrato es proporcional al tamaño relativo del estrato en la población, el resultado es una muestra estratificada proporcional, lo contrario es una muestra estratificada no proporcional. Esto último es preferible si los diversos estratos no son homogéneos con respecto a la característica bajo estudio. El error de muestreo de una muestra estratificada puede considerase menor que el de una muestra simple aleatoria del mismo tamaño.

Lo anterior se debe a que el diseño de estratificaciones hace uso de información adicional, considerando la división de la población de acuerdo con las características relevantes y sirve para reducir el margen de error de muestreo. El problema con este método, es que aún cuando se conocen las características relevantes y en base a ellas se estratifica, el tamaño relativo de los estratos en la población no siempre se conoce con gran exactitud.

Debido a esta escasez de información, las ventajas obtenidas con la estratificación se pierden con las variaciones introducidas por la información incorrecta referente al tamaño de los estratos en la población, elemento que desafortunadamente se subestima frecuentemente. Puede aportar información mas precisa de algunas subpoblaciones que varían bastante en tamaño y propiedades entre sí, pero que son homogéneas dentro de sí. Los estratos deberían en lo posible estar constituidos por unidades homogéneasEjemplo: Se quiere obtener una muestra de 50 grandes empresas industriales para hacer un estudio sobre los gastos en publicidad. En una ciudad se cuenta con 352 grandes empresas industriales. Se divide a las empresas en 5 estratos de acuerdo a su rentabilidad.

Para seleccionar la cantidad de empresas que hacen parte en la muestra se utilizó un muestreo estratificado proporcional, como se indica en la siguiente tabla

ni=50N i

352, donde Ni, es la cantidad de empresas por estrado

EstratoRentabilid

adNúmero Porcentaje Muestra

A30% o más

8 2 1

B 20 – 30% 35 10 5C 10 – 20% 189 54 27D 0 – 10% 115 33 16

ECon

pérdida5 1 1

Total 352 100 50

En un muestreo estratificado no proporcional, el número de elementos estudiado en cada estrato es desproporcionado con respecto a su número en la población. Por ejemplo, si un muestreo no proporcional fuese utilizado en el caso anterior, se deberán ponderar los resultados de cada estrato multiplicándose por 0.02 en el estrato 1, por 0.10 en el estrato 2, etc.

Afijación de varianza mínima: El reparto de la muestra se hace de forma que para un tamaño fijo de n unidades, la varianza sea mínima. Cuanto mayor sea la variabilidad de estrato, más elementos cogeremos de tal forma que la varianza global sea mínima.

Proporcionalmente a la variabilidad del estrato. Si conocemos la

varianza σ i , entonces

ni=σ i N i

∑i

σ i N i

Afijación óptima: Consiste en minimizar la varianza para un coste fijo.

Para que sea útil el muestreo estratificado se deben reunir las siguientes tres condiciones:

Deben conocerse ciertas características relevantes que influencian fuertemente el fenómeno bajo estudio:

Que la población sea susceptible de dividirse de acuerdo con las características relevantes:

La división relativa de la población debe conocerse con cierto grado de precisión.

Para la selección de los elementos en cada estrato que van ha ser parte en la muestra se hace por medio de un muestreo aleatorio simple

Una muestra estratificada puede obtenerse aún cuando no se pudieran identificar los elementos del estrato, siempre y cuando se conozca después de haberse seleccionado la muestra. El problema sin embargo, es que los errores de muestreo de las estimaciones resultan mayores que si se hubiera estratificado antes.

El uso adecuado del muestro estratificado puede generar ganancia en precisión, pues al dividir una población heterogénea en estratos homogéneos, el muestreo en estos estratos tiene poco error debido precisamente a la homogeneidad.

1.5.3Muestreo Sistemático

En el muestreo sistemático los elementos se seleccionan de la población con un intervalo uniforme que se mide en el tiempo, en orden o en el espacio; los elementos más parecidos tienden a estar más cercanos, el muestreo sistemático suele ser más preciso que el aleatorio simple, ya que recorre la población de un modo más uniforme. Difiere del muestreo aleatorio simple en que cada elemento tiene iguales posibilidades de ser seleccionado, pero cada muestra no tiene esa misma probabilidad. Una vez definido el tamaño de muestra se fija al azar un punto de partida en la selección de las unidades de muestreo. A partir de allí la población se recorre sistemáticamente usando un intervalo fijo.

Para seleccionar las unidades de la muestra en primer lugar se debe calcular la constante de muestreo (K), dividiendo el total de la

población elegible por el tamaño de la muestra deseado k=Nn

. La

primera unidad (r) se extrae tomando un número al azar entre 1 y la constante de muestreo (K) o entre 1 y N, a partir de ahí se va sumando la constante de muestreo consecutivamente hasta completar el tamaño de la muestra, (siendo el primer individuo r, el segundo r + K, el tercero r +2 K y así sucesivamente hasta completar los “n” individuos).

Este tipo de muestreo tiene la ventaja de no necesitar tener la lista de la población cerrada de antemano. Sin embargo este tipo de muestreo no es aconsejable en las situaciones en que las unidades de muestreo están ordenadas por algún criterio periódico y la constante de muestreo puede coincidir con ello. Por ejemplo si quiere conocer la demanda en un centro recreación y elegimos como unidad de muestreo el día de la

semana, puede ocurrir que obtengamos como constante de muestreo (K) el número 7, en ese caso estaríamos describiendo siempre la demanda que se produce un día determinado, podría ser aleatoriamente sábado, teniendo una elevada probabilidad que la demanda que se produce el sábado sea diferente de la demanda que se produce a lo largo de toda la semana, no siendo por tanto la muestra obtenida representativa de la población que queremos estudiar.

Ejemplo: se desea realizar un estudio sobre la incidencia de cáncer en estudiantes fumadores de cierta universidad; se opta por un muestreo sistemático, se necesita calcular primero la constante de muestreo. Si N

= 200 estudiantes fumadores y n = 50 la constante de muestreo k=20050

,

se selecciona un número un número entre 1 y el 4 (supongamos que es el 3, r = 3) y ese será nuestro punto de arranque. Tomaremos el listado de los estudiantes fumadores de la universidad y el primer estudiante que se selecciona es el que se encuentra en la lista de tercero, el segundo estudiante seleccionado seria el que esta de séptimo en la lista (r + K, es decir 3 + 4), el tercero es el que aparece en la lista de once (r +2 K, es decir 3 + 2x4),y así sucesivamente hasta tomar los 50 estudiantes fumadores que constituyen nuestra muestra.

Otra forma de seleccionar el punto de arranque sería seleccionar aleatoriamente un número entre 1 y 200, por ejemplo aleatoriamente se tiene el número 32, el estudiante r= 32 de la lista es el primero seleccionado para la muestra, el segundo es el estudiante 36 (r + K, es decir 32 + 4), el tercero es el 40 (r + 2K, es decir 3 + 2x4), y así sucesivamente.

El muestreo sistemático suele ser más preciso que el aleatorio simple, ya que recorre la población de un modo más uniforme. Por otro lado, es a menudo más fácil no cometer errores con un muestreo sistemátic0. Observación: El método tal como se ha definido anteriormente es sesgado si no es entero, ya que los últimos elementos de la lista nunca pueden ser escogidos. Un modo de evitar este problema consiste en considerar la lista como si fuese circular

¿Cuándo usar Muestreo Sistemático y cuándo Muestreo Aleatorio Simple?Se debe tener cuidado cuando la distribución de los elementos en la población presenta ciclos en los valores de la variable de interés, ya que en el muestreo sistemático se extraerán valores semejantes, lo que se transfiere a una sub o super valoración del valor verdadero. En estos casos es más conveniente usar el muestreo aleatorio simple.Por lo tanto:

Si la distribución de la variable en la población ordenada es aleatoria, los dos diseños de muestreo tienen la misma performance. A veces redunda en una economía de recursos el uso del Muestreo Sistemático.

Si la variable presenta ciclos o estacionalidades, es más eficiente el Muestreo Aleatorio Simple.

Si la distribución de la variable es creciente o decreciente (por ejemplo, montos de deudores o acreedores) es más eficiente el Muestreo Sistemático.

1.5.4Muestreo por Conglomerado

Esta técnica tiene utilidad cuando el universo que se requiere estudiar admite ser subdividido en universos menores de características similares a la del universo total. Cuando es posible asumir esta alternativa se procede a subdividir el universo en un número finito de conglomerados. Entre ellos se pasará a elegir algunos que serán los únicos que se procederá a investigar. Esta elección puede realizarse ya sea por el método del muestreo simple o muestreo sistemático. Una vez cumplida esta etapa puede realizarse una segunda selección dentro de cada uno de los conglomerados elegidos, para llegar a un número aún más reducido de unidades muéstrales; para obtener una muestra de conglomerados, primero dividir la población en grupos que son convenientes para el muestreo; Bajo este método, aunque no todos los grupos son muestreados, cada grupo tiene una igual probabilidad de ser seleccionado. Por lo tanto la muestra es aleatoria.

Una muestra de conglomerados, usualmente produce un mayor error muestral (por lo tanto, da menor precisión de las estimaciones acerca de la población) que una muestra aleatoria simple del mismo tamaño; los elementos individuales dentro de cada "conglomerado" tienden usualmente a ser iguales. El incremento del tamaño de la muestra puede fácilmente ser hecho en muestra de área. Por otra parte, una muestra de conglomerados puede producir la misma precisión en la estimación que una muestra aleatoria simple, si la variación de los elementos individuales dentro de cada conglomerado es tan grande como la de la población.

Hay una variante de este muestreo, que puede quedar también incluida en lo que se llama diseños complejos y es el conocido como muestreo multietápico o polietápico de conglomerados (bietápico, trietápico, etc.). En esta variante se seleccionan los conglomerados y puede procederse a una segunda selección dentro de los conglomerados

seleccionados y lo mismo en las etapas que sean necesarias. Así la necesidad de listados se va limitando a aquellas unidades de muestreo que hayan siendo seleccionadas encada etapa.

Antes de terminar este apartado vale la pena enfatizar la diferencia entre estratos y conglomerados. Los estratos deben ser tan homogéneos dentro de ellos como sea posible, pero un estrato debe diferir de otro tanto como se pueda en relación a la característica que está siendo medida. Los conglomerados por su parte deben ser tan heterogéneos dentro de sí mismos como sea posible, pero similares a los otros para aprovechar las ventajas económicas de su diseño. Los estratos deben quedar representados todos, es decir contribuir a la muestra. Los conglomerados no tienen que quedar representados todos, pero si uno queda en la muestra debe ser muestreado totalmente (al menos en el monoetápico).

En el muestreo por conglomerados se selecciona una muestra aleatoria de conglomerados y, dentro de cada conglomerado, se selecciona al azar una muestra de sus individuos.

Ejemplo: se supone que se desea conocer algunas características de los estudiantes de educación superior de cierta ciudad, para lo cual se necesita aplicar un cuestionario. El universo, los elementos (los estudiantes) están naturalmente agrupados en unos conjuntos o conglomerados (12 universidades). Se seleccionan 4 universidades a través de un muestreo aleatorio simple, como se indica en el gráfico. Una vez seleccionadas las universidades, sería posible aplicar la encuesta a la totalidad de los estudiantes, en cada una de ellas. Se habría llegado a los estudiantes a través de los conglomerados que los agrupan.

12 universidades (conglomerado)

4 universidades en la muestra (2,4, 7,12 conglomerado)

Esta es una muestra por conglomerados de etapa única: se ha seleccionado al azar sólo una vez. La eficacia de este tipo de muestras depende de dos factores. En primer lugar, de la relación m / M , donde m es la cantidad de conglomerados seleccionados y M es la cantidad existente en el universo. Cuanto mayor es esta relación, menor será el error de muestreo: obviamente, si seleccionáramos la totalidad de los conglomerados no habría error alguno. En segundo término, la muestra será tanto mejor cuanto más se parezcan los conglomerados entre sí: si fueran muy semejantes unos a otros, perderíamos muy poco al seleccionar sólo algunos para incluir en la muestra. Otra vez, vale emplear un razonamiento “por el absurdo”: si todos los conglomerados fueran idénticos entre sí, bastaría con quedarse con uno solo. De manera que, al contrario de lo que ocurría con los estratos, aquí el ideal consistiría en que hubiera una gran homogeneidad interconglomerados (similares entre sí) y una amplia heterogeneidad intraconglomerados (que toda la diversidad del universo quedara representada al interior de cada uno). En otros términos, que cada conglomerado fuera “un universo en pequeño”.

Ejemplo: Suponga que se quiere preguntar a las personas de 18 años y más (habilitadas para votar) que residen en cierta ciudad, la opinión que tienen sobre el desempeño del gobierno de la región (o sobre cualquier otro variable de interés). ¿De dónde se sacaría el marco muestral, es decir un listado con los datos de todos los habitantes de la ciudad. No existe: no se podría disponer de tal listado. Pero se podría tratar de dar con las personas dentro de los conglomerados que los agrupan: los hogares. Sin embargo, tampoco se tiene un listado de hogares: ni siquiera uno actualizado de viviendas. ¿Qué se puede hacer?

El territorio de cualquier ciudad está naturalmente dividido en jurisdicciones administrativas. Por ejemplo, las fracciones censales, que son grandes jurisdicciones geográficas al interior de la ciudad. Pues bien, podría seleccionarse al azar algunas de estas fracciones. A su vez, las fracciones están divididas en áreas menores, que se denominan radios censales. En un segundo paso o etapa, sería posible seleccionar al azar cierta cantidad de radios al interior de cada una de las fracciones que “quedaron” al primer sorteo. Finalmente, se tendría algunos radios de ciertas fracciones. Y dentro de estos radios, tendrían manzanas, que apelando a la cartografía podrían ser numeradas y seleccionadas al azar. Estas manzanas que quedaron en los tres sorteos se denominan, habitualmente, puntos muestra. Dependiendo del total de hogares que se quieren seleccionar (es decir del n muestral), suele determinarse previamente cuántos puntos muestra se requiere.

En las encuestas domiciliarias debe preverse un porcentaje considerable de rechazos (personas que se niegan a ser entrevistadas). Generalmente, este margen de rechazos se conoce por experiencia y puede ser estimado. Para compensar, es posible seleccionar más puntos muestra de los necesarios, a los efectos de los posibles reemplazos.

1.6 TIPOS DE MUESTREO NO PROBABILISTICO

1.6.1Muestreo por cuotas

También denominado en ocasiones "accidental". Se asienta generalmente sobre la base de un buen conocimiento de los estratos de la población y/o de los individuos más "representativos" o "adecuados" para los fines de la investigación. Mantiene, por tanto, semejanzas con el muestreo aleatorio estratificado en el sentido que busca representatividad de diferentes categorías o estratos de la población objeto de estudio, pero no tiene el carácter de aleatoriedad de aquél, sin embargo, para la selección de esas unidades no usa el azar.

Conceptualmente es un muestreo estratificado en el que los estratos suelen estar determinados por características sociológicas o demográficas (el sexo, la edad, profesión, etc.). Sin embargo, se suele llevar a cabo en la calle, de forma que los encargados de recoger los datos, buscan a las personas de cada estrato que deben entrevistar para cubrir la cuota en vez de elegirlas al azar. Además, la selección de las unidades de muestreo queda juicio del investigador;

La muestra debe ser proporcional a la población, y en ella deberán tenerse en cuenta las diferentes categorías. El muestreo por cuotas se presta a distorsiones, al quedar a criterio del investigador la selección de las categorías.

Ejemplo: en un estudio sobre la actitud que tiene la población hacia un candidato político, se les indica a los encuestadores entrevistar a 150 sujetos

cuota categorías Cantidad de personas encuestadas en la

muestra por categoría30%30%20%20%

Hombres mayores de 30 años,Mujeres mayores de 30 años,Hombres menores de 25 años,Mujeres menores de 25 años

45453030

TOTAL 150

1.6.2Muestreo a conveniencia o intencional

El Muestreo por conveniencia es el procedimiento que consiste en la selección de las unidades de la muestra en forma arbitraria, las que se presentan al investigador, sin criterio alguno que lo defina. Las unidades de la muestra se autoseleccionan o se eligen de acuerdo a su fácil disponibilidad. No se específica claramente el universo del cual se toma la muestra. Por consiguiente, la representatividad estructural es nula, no se consideran las variables que definen la composición estructural del objeto de estudio.

Su principal debilidad es el nombre, ya que, para muchas personas el nombre da a entender que se está haciendo la selección de las unidades de análisis amañando las respuestas, situación que no es cierta, toma su nombre, debido a que se busca obtener una representatividad de la población consultando o midiendo unidades de análisis a las cuales se puede acceder con relativa facilidad. Los límites serios de este muestreo se evidencian en la etapa exploratoria de una investigación, para generar hipótesis, elegir problemas de estudio y aproximarse inicialmente a la caracterización del objeto de estudio

Ejemplo: la realización de una encuesta a los amigos y vecinos para analizar su opinión sobre el tema “tratado de libre comercio entre estados Unidos y Colombia “.

1.6.3Muestreo a juicio

En este caso se toman las muestras en aquel lugar en donde hay mayor probabilidad de encontrar la variable de interés, este tipo de muestreo es muy importante sobre todo cuando la característica buscada sea poco común, como es el caso de ciertas enfermedades raras, en estas situaciones, el juicio de un experto; porque cree que son representativos de la población de interés o que son apropiados en alguna otra forma.

Se busca seleccionar a individuos que se juzga de antemano tienen un conocimiento profundo del tema bajo estudio, por lo tanto, se considera que la información aportada por esas personas es vital para la toma de decisiones. Si se utilizará un método aleatorio, probablemente quedarían en la muestra algunas personas con poco dominio sobre el tema en estudio

Ejemplo: Se quiere realizar un estudio comparativo de la imagen de una Empresa en dos ciudades del estado de Colombia. Un experto en Mercadotecnia puede recomendar, a su juicio, que las dos ciudades idóneas para realizar el estudio son Cali y Medellín.

El objetivo seria entonces conocer el grado que afectan las opiniones de los consumidores en los medios masivos de comunicación al volumen de venta de la Empresa en cada una de las 2 ciudades.

1.6.4Muestreo bola de nieve

Se definen como aquella técnica en la que los sujetos participantes de un estudio refieren a otros individuos, que a su vez refieren a otros que son también incluidos en la muestra. Esta técnica también recibe el nombre de muestreo por red (network sample) o muestreo por multiplicidad (multiplicity sample).

De la misma manera en que al descender por una cuesta, una bola de nieve va incorporando más materia, igual sucede con la red de participantes que son agregados a la muestra de una investigación que emplee esta técnica. Para adquirir un grupo de estudio que se aproxime a una muestra aleatoria, una condición muy importante es que el primer grupo de encuestados (en la etapa cero) debe ser seleccionado aleatoriamente.

El supuesto subyacente es que, los miembros de la población escondida no viven en completo aislamiento, es decir, tienen por lo menos una “red social” con la cual es posible contactarlos. El muestreo en bola de nieve, básicamente sigue las siguientes etapas.

a. Mapa de la red: Se hace una descripción de la población objetivo de la mejor forma posible, en éste caso, no importa que “lo mejor posible” sea una descripción muy vaga.

b. Proceso de referenciación: A un informante clave se le pide nominar y contactar individuos de la población objetivo. Se obtienen así varios puntos de partida o contactos iníciales. Para ganar validez científica, se debe de elegir aleatoriamente entre ellos para comenzar.

c. Entrevista: Cuando la persona es contactada aleatoriamente, se le entrevista y a su vez se le pide que nomine a otras personas dentro de la población objetivo.

d. Repitiendo el procedimiento: Cada grupo de nominados representa una etapa, se forma entonces una línea de respondientes-referenciado- respondiente, a esta cadena se le denomina la “bola de nieve”.

La cadena se detiene cuando no se pueden dar más nominaciones o cuando el individuo seleccionado no es encontrado o se rehúsa a contestar.

Ventajas: Es un método eficiente en los casos donde se tiene una población

de escasos elementos o donde cierto grado de confianza es requerido para que estén dispuestos a participar en la investigación.

Permite la creación de un marco de muestra cuando éste no existía per se.

Todos los individuos entrevistados son del conjunto de la población objetivo.

Tipos de Sesgos

Sesgo de Distancia Social: La probabilidad de contacto social entre dos individuos es función de la distancia social entre los individuos.

El modelo de las isla: Subgrupos de individuos existen, entre los individuos las probabilidades de conexión son aleatorias, pero entre grupos las oportunidades de conexión son limitadas.

Círculos traslapados: Si no existen conexiones entre muchos grupos de individuos, diferentes grupos pueden ser conectados por los individuos que son miembros de varios grupos.

Sesgo reflexivo: Un referido de una persona a otra teóricamente agranda la oportunidad de que la primera persona sea nominada otra vez.

Sesgo forzado de campo: Algunos individuos van a tener una gran oportunidad de ser seleccionados debido a ciertas características como la popularidad.

Desventajas Como se mencionó anteriormente, produce estimadores sesgados.

Ya que individuos muy populares dentro de una población tiene mayores oportunidades de ser seleccionados.

Hay poca representatividad entre los resultados y por ende no se puede extrapolar hacia la población

1.6.5 Muestreo con fines específicos

El cual pretende llegar a grupos muy específicos, tal es el caso, de personas con preferencias y/o gustos similares, por ejemplo, los que gustan de la música metálica, es fácil abordarlos en un concierto de ese tipo de música, los constructores se pueden abordar en un congreso para tal fin.

Se pueden encontrar otros nombres en procedimientos de muestreo, sin embargo, se pueden encasillar en alguno de los descritos anteriormente.

Estadistica Muestreo

Documents

Transcript of Estadistica Muestreo