Módulo 1 contenido

15
MÓDULO 1: CONCEPTOS FUNDAMENTALES DEL MUESTREO Material didáctico Técnicas de Muestreo I Dictado por: Dra. Saskia Dayana Ayala

Transcript of Módulo 1 contenido

Page 1: Módulo 1 contenido

MÓDULO 1:

CONCEPTOS

FUNDAMENTALES

DEL MUESTREO Material didáctico

Técnicas de Muestreo I

Dictado por: Dra. Saskia Dayana Ayala

Page 2: Módulo 1 contenido

1 Módulo I: Conceptos Fundamentales del Muestreo

Contenido Página

1. Conceptos Fundamentales del Muestreo ................................................ 2

1.1. ¿Qué es el muestreo? ....................................................................... 2

1.2. ¿Por qué funciona el muestreo? ....................................................... 3

1.3. El tamaño de la muestra ................................................................... 5

1.4. Ventajas e inconvenientes del muestreo ........................................... 6

1.5. Tipos de Muestreo: Probabilístico y No Probabilístico ...................... 7

1.6. Marco muestral ............................................................................... 10

1.7. Error de muestreo ........................................................................... 11

1.8. Relación entre error y tamaño de muestra ...................................... 12

Bibliografía Consultada ................................................................................ 14

Page 3: Módulo 1 contenido

2 Módulo I: Conceptos Fundamentales del Muestreo

1. Conceptos Fundamentales del Muestreo

Como toda buena historia, es importante definir a los personajes que la

protagonizan; es necesario, por esa primordial razón, definir conceptos que serán

habituales para el desarrollo de este módulo. Los siguientes puntos tratan de una

manera sencilla el ABC del muestreo y así facilitar la comprensión y aprendizaje

significativo de este material que suele ser visto con cierta aprehensión.

1.1. ¿Qué es el muestreo?

El Muestreo es la actividad por la cual se toman ciertas muestras de una población

de elementos de los cuales vamos a tomar ciertos criterios de decisión; es

importante porque a través de él podemos hacer análisis de situaciones de una

empresa o de algún campo de la sociedad.

El muestreo es el proceso de seleccionar un conjunto de individuos de una población con

el fin de estudiarlos y poder caracterizar el total de la población.

La idea es bastante simple. Imagina que queremos saber algo de un universo o población,

por ejemplo, qué porcentaje de los habitantes de Panamá fuma habitualmente. Una forma

de obtener este dato sería contactar con todos los habitantes de Panamá (4 millones de

personas) y preguntarles si fuman. La otra forma sería seleccionar un subconjunto de

individuos (por ejemplo, 1000 personas), preguntarles si fuman y usar esta información

Page 4: Módulo 1 contenido

3 Módulo I: Conceptos Fundamentales del Muestreo

como una aproximación de la información que busco. Pues bien, este grupo de 1000

personas que me permiten conocer mejor cómo se comportan el total de panameños es

una muestra, y la forma en que los selecciono es el muestreo.

En la definición anterior hemos introducido dos términos fundamentales a lo largo de este

curso:

Universo o población: Es el total de individuos que deseo estudiar o

caracterizar. En el ejemplo anterior es la población de Panamá, pero podemos

pensar en todo tipo de universos, más generales y más concretos. Por ejemplo,

si quiero saber cuál es el promedio de cigarrillos que consumen los fumadores

panameños, el universo en este caso serían “los fumadores de Panamá”.

Muestra: Es el subconjunto o subgrupo de individuos del universo que selecciono

para estudiarlos, por ejemplo a través de una encuesta.

1.2. ¿Por qué funciona el muestreo?

El muestreo es útil gracias a que podemos acompañarlo de un proceso inverso, que

llamamos generalización. Es decir, para conocer un universo lo que hacemos es

Esta proyección o extrapolación recibe el nombre de generalización de resultados.

La generalización de resultados añade cierto error al mismo. Imagina que tomamos una

muestra al azar de 1000 personas de Panamá y les preguntamos si fuman. Obtengo que el

25% de la muestra fuma. La simple lógica nos dice que si de 1000 panameños elegidos al

azar el 25% fuma, este dato debería ser indicativo de lo que obtendríamos si

Extraer una

muestra1

Medir un dato u

opinión2

Proyectar en el

universo el resultado observado

3

Page 5: Módulo 1 contenido

4 Módulo I: Conceptos Fundamentales del Muestreo

preguntásemos a los 4 millones de panameños; es decir, que se estima que haya 1 millón

de fumadores en la población.

Ahora bien, el azar podría haber hecho que haya escogido para mi muestra más fumadores

de lo que correspondería a la proporción exacta que hay en el universo o, por el contrario,

que en mi muestra los fumadores estén poco representados. El azar podría hacer que el

porcentaje de fumadores en la población fuese algo diferente del 25% que hemos

observado en la muestra (tal vez un 25,2%, por ejemplo). Por lo tanto, la generalización de

resultados de un muestra a un universo conlleva aceptar que cometemos cierto error, tal y

como ilustra el siguiente esquema.

Afortunadamente, el error que se comete al generalizar resultados puede acotarse gracias

a la estadística. Para ello usamos dos parámetros:

Page 6: Módulo 1 contenido

5 Módulo I: Conceptos Fundamentales del Muestreo

Por ejemplo, en nuestro caso de fumadores panameños, si selecciono una muestra de 471

individuos y les pregunto si fuman, el resultado que obtenga tendrá un margen de error

máximo de +-5% con un nivel de confianza del 97%. Esta forma de expresar los resultados

es la correcta cuando usamos muestreo.

1.3. El tamaño de la muestra

¿Qué tamaño de muestra necesito usar para estudiar cierto universo? Depende del tamaño

del universo y del nivel de error que esté dispuesto a aceptar. Cuanta más precisión exija,

mayor muestra necesito. Si quiero tener una certeza absoluta en mi resultado, hasta el

último decimal, mi muestra tendrá que ser tan grande como mi universo.

Pero el tamaño de la muestra tiene una propiedad fundamental que explica el motivo del

uso del muestreo en tantos ámbitos del conocimiento. Esta propiedad podría resumirse

como sigue: a medida que estudio universos mayores, el tamaño de muestra que necesito

cada vez representa un porcentaje menor de dicho universo.

Supongamos que queremos hacer una encuesta para saber un porcentaje (podría ser el de

gente que fuma) con un nivel de error determinado, por ejemplo un margen de error del 5%

y una confianza del 95%. Si el universo a estudiar fuese de tan sólo 100 personas, mi

muestra tendría que ser de 79,5 individuos (es decir, 79,5% del universo, lo que representa

un parte muy importante del total del universo). Si el universo fuese de 1000 personas, mi

es la máxima diferencia que esperamos que haya entre el dato observado en mi muestra y el dato real en el universo

Margen de error es el nivel de certeza

que tengo de que realmente el dato real esté dentro del margen de error

Nivel de confianza

Page 7: Módulo 1 contenido

6 Módulo I: Conceptos Fundamentales del Muestreo

muestra debería ser de 277,7 personas (27,7% del universo). Y si mi universo fuese de

100000 personas, la muestra necesaria sería de 382,7 personas (3,83% del universo).

Por lo tanto, a medida que trabajo con universos más grandes, la muestra que necesito

debe ir creciendo pero de forma no proporcional, tiende a estancarse y cada vez representa

un porcentaje más pequeño del universo. De hecho, a partir de cierto tamaño de universo

(en torno a 100000 individuos), el tamaño de la muestra ya no necesita crecer más. La

siguiente tabla nos muestra algunos ejemplos:

Tamaño de muestra necesaria para tener un error del 5%

con un nivel de confianza del 95%

Universo Muestra

necesaria %

10 10 100%

100 80 80%

1.000 278 27,8%

10.000 370 3,7%

100.000 383 0,38%

1.000.000 384 0,038%

10.000.000 385 0,004%

100.000.000 385 0,0004%

Los datos anteriores nos dicen que por grande que sea el universo, con 385 personas puedo

estudiar cualquier dato con el mismo nivel de error (margen de 5%, confianza de 95%). Por

esta razón el muestreo es tan poderoso; nos permite hacer afirmaciones altamente precisas

de una gran cantidad de individuos a través de un parte muy pequeña de los mismos.

Sin embargo, el otro lado de la moneda nos ilustra que el muestreo no funciona bien en

universos pequeños. Si tengo una clase de 10 alumnos, la opinión de cada uno de ellos es

fundamental para conocer la opinión global, no puedo prescindir de ninguno. Si no quiero

superar el error que nos hemos propuesto, en un universo de 10 individuos necesito

encuestar a todos ellos.

1.4. Ventajas e inconvenientes del muestreo

Resumimos a continuación las principales ventajas e inconvenientes de usar muestreo

frente a estudiar todo un universo.

Page 8: Módulo 1 contenido

7 Módulo I: Conceptos Fundamentales del Muestreo

1.5. Tipos de Muestreo: Probabilístico y No Probabilístico

El muestreo se clasifica en dos ramas, dependiendo del conocimiento de la cantidad

de elementos que tenga la población, la accesibilidad a un listado de todos los

elementos de la población y de la igualdad de probabilidad de seleccionar a

cualquier elemento de la población en la muestra.

Para utilizar el Muestreo Probabilístico siempre se deben cumplir dos condiciones:

Ventajas• Necesitamos estudiar menos individuos,

necesitamos menos recursos (tiempo ydinero).

• La manipulación de datos es mucho mássimple. Si con una muestra de 100personas tengo suficiente, ¿para quéquiero analizar un fichero de millones deregistros?

Inconvenientes• Introducimos error (controlado) en el

resultado, debido a la propia naturaleza delmuestreo y a la necesidad de generalizarresultados.

• Tenemos el riesgo de introducir sesgosdebido a una mala selección de lamuestra. Por ejemplo, si la forma en queselecciono individuos para la muestra noes aleatoria, mis resultados pueden verseseriamente afectados.

Page 9: Módulo 1 contenido

8 Módulo I: Conceptos Fundamentales del Muestreo

El cumplimiento de ambos criterios es el que hace posible obtener resultados no sesgados

cuando estudio la muestra. En ocasiones, estos resultados no sesgados requieren usar

técnicas de ponderación, pero esta ponderación es posible precisamente porque se conoce

qué probabilidad tiene cada individuo para que sea seleccionado en la muestra. Las

muestras generadas en estas condiciones se conocen también como muestras

probabilísticas.

La definición anterior nos lleva a concluir que sólo podemos hacer muestreo probabilístico

si dispongo de un marco muestral. El censo de un país, el conjunto de direcciones de

Todos los elementos de la población tienen una probabilidad mayor de cero

de ser seleccionados en la muestra.

Se conoce de forma precisa

dicha probabilidad para cada elemento

(probabilidad de inclusión)

Muestreo Probabilístico

Page 10: Módulo 1 contenido

9 Módulo I: Conceptos Fundamentales del Muestreo

hogares en una población o la lista de clientes de una empresa, son ejemplos de marcos

muestrales que hacen posible un muestreo probabilístico. En cada uno de estos casos, el

universo a estudiar es diferente: habitantes de un país, hogares de una población y clientes

de una empresa, respectivamente.

Una vez se tiene el marco muestral, la forma exacta que empleo para seleccionar mi

muestra define las diferentes técnicas de muestreo probabilístico: Muestreo aleatorio

simple, muestreo sistemático, muestreo estratificado, muestreo por conglomerados,

muestreo desproporcionado, etc.

Pero en la vida real, no es sencillo cumplir con los requisitos impuestos por el muestreo

probabilístico:

Disponer de un marco muestral es algo relativamente poco habitual en estudios de

mercado

Lograr que todos los individuos de la población tengan una probabilidad no nula de

ser seleccionados es un requisito igualmente exigente, más aún conocer la

probabilidad de inclusión exacta de cada unidad muestral. Todos los individuos que

no pueden ser seleccionados en una muestra se suelen referir como unidades fuera

de cobertura.

Por todas estas razones, así como por razones de coste, los investigadores recurren con

frecuencia a otras técnicas de muestreo, agrupadas dentro de lo que se conoce como

Muestreo No Probabilístico. En estas técnicas alternativas, es habitual seleccionar

elementos para la muestra basándose en hipótesis relativas a la población de interés, lo

que se conoce como criterios de selección. Por ejemplo, seleccionar una muestra buscando

individuos por la calle, tratando de que la mitad sean hombres y la mitad mujeres

(coincidiendo con la distribución que se supone en la población) sería un criterio de

Muestreo No Probabilístico.

En estos casos, debido a que la selección de las unidades de la muestra no es aleatorio,

cuando hablamos de muestreo no probabilístico no deberíamos hablar de estimaciones de

error. Dicho de otra forma, una muestra no probabilística nos informa de cómo es un

universo, pero no nos permite saber con qué precisión, no podemos establecer márgenes

de error y niveles de confianza.

Page 11: Módulo 1 contenido

10 Módulo I: Conceptos Fundamentales del Muestreo

Algunas técnicas de muestreo de este tipo son: el muestreo por conveniencia, muestreo

secuencial, muestreo por cuotas, muestreo discrecional y muestreo por bola de nieve.

1.6. Marco muestral

Un Marco Muestral es una lista de elementos que componen el universo que queremos

estudiar y de la cual se extrae la muestra. Estos elementos a investigar pueden ser

individuos, pero también pueden ser hogares, instituciones y cualquier otra cosa susceptible

de ser investigada. Cada uno de estos elementos presentes en el marco muestral se conoce

como unidades muestrales.

Pongamos un ejemplo; supongamos que queremos medir la satisfacción de los clientes de

una empresa. Para poder generar un marco muestral, podríamos acceder al sistema

informático de la empresa y extraer una lista de todas las personas que han contratado un

producto en el último año. Cada una de las personas de esa lista serían unidades

muestrales. Seleccionando un conjunto de estos clientes, obtendría una muestra.

Page 12: Módulo 1 contenido

11 Módulo I: Conceptos Fundamentales del Muestreo

La proporción existente entre el tamaño de la muestra y el tamaño del marco muestral se

conoce como fracción muestral; esta fracción junto al tamaño del marco muestral, define

la precisión de los resultados que se obtendrá al encuestar la muestra.

1.7. Error de muestreo

Cuando se trabaja con una muestra probabilística es posible conocer el margen de error y

el nivel de confianza.

El margen de error es el intervalo en el cuál se espera encontrar el dato que se quiere

medir del universo de interés. El dato puede ser en general de dos tipos: una media

(promedio) o una proporción. Por ejemplo, al calcular la media de hijos que tienen los

habitantes de Panamá entre 15 y 65 años; el resultado sería que la media es 2,1

hijos/persona con un margen de error del 5%; lo cual significaría que se espera que la media

esté entre 2,1 – 5% y 2,1 + 5%, lo que da un intervalo de [2,00; 2,21].

Si quisiera definir un margen de error para una proporción, procedería de forma similar. Por

ejemplo, me gustaría poder estimar el número de personas en Panamá entre 15 y 65 años

que viven en casa propia; y se obtiene que es el 30% de la población con un margen del

5% de error cumple con esa característica, ese resultado significa que el porcentaje de

personas en Panamá entre 15 y 65 años que viven en casa propia esta entre 25% y 35%

de un total de 4 millones de personas, es decir, entre 1 y 1.4 millones de individuos.

El nivel de confianza expresa la certeza de que realmente el dato que buscamos esté

dentro del margen de error. Por ejemplo, siguiendo con el caso anterior, si obtenemos un

nivel de confianza del 95%, podríamos decir que el porcentaje de personas de mi universo

que viven en casa propia, en el 95% de los casos se encontrará entre el 25% y el 35%;

dicho de otra manera, si repitiese 100 veces la encuesta seleccionando muestras aleatorias

del mismo tamaño, 95 veces la proporción que busco estaría dentro del intervalo y 5 veces

fuera.

Lo contrario sucede cuando la muestra no es probabilística. No es posible conocer qué

margen de error vamos a tener en un estudio. Esto incluye encuestas hechas seleccionando

a personas por la calle y entrevistándolas cara a cara, o haciendo llamadas telefónicas al

azar o a través de una muestra obtenida en un panel online. En ninguno de estos casos se

cumplen los criterios exigidos por el muestreo probabilístico: tener un marco muestral con

unidades para las que puedo calcular la probabilidad de que sean seleccionadas en mi

Page 13: Módulo 1 contenido

12 Módulo I: Conceptos Fundamentales del Muestreo

muestra. En encuestas cara a cara por la calle no tengo el listado de individuos que

componen el universo. En la encuesta telefónica, aunque disponga de un listado telefónico,

no todos los individuos tienen un teléfono fijo o aparecen en las guías públicas. En el caso

de un panel online, las personas que no acceden a internet no pueden se seleccionadas y

tienen probabilidad de inclusión nula.

Sin embargo, es habitual encontrar estudios hechos con estas técnicas que indican margen

de error y nivel de confianza. Es una práctica formalmente incorrecta, pero que suelen usar

los investigadores con el objetivo de dar una indicación de la influencia que tiene el tamaño

muestral empleado en la precisión de los resultados. Debería leerse como “si está muestra

fuese probabilística, ofrecería un margen de error X”.

1.8. Relación entre error y tamaño de muestra

Margen de error, nivel de confianza y tamaño de la muestra siempre van de la mano. Si

quiero obtener un margen de error y un nivel de confianza determinado (por ejemplo, error

del 5% con confianza 95%) necesitaré un tamaño de muestra mínimo correspondiente.

Modificar cualquiera de los 3 parámetros, altera los restantes.

Pero, ¿qué fórmulas gobiernan la relación entre los parámetros anteriores? El conjunto de

teoremas que se conocen como LEY DE LOS GRANDES NÚMEROS viene a nuestro

rescate. Estos teoremas son los que dan soporte matemático a la idea de que el promedio

Page 14: Módulo 1 contenido

13 Módulo I: Conceptos Fundamentales del Muestreo

de una muestra al azar de una población de gran tamaño tenderá a estar cerca de la media

de la población completa. En concreto, el teorema del límite central demuestra que, en

condiciones muy generales, la suma de muchas variables aleatorias independientes.

Según el ejemplo, los habitantes de Panamá que tienen casa propia, «se aproxima bien» a

una distribución normal, también llamada campana de Gauss.

Gracias al Teorema del Límite Central, cuando calculamos una media (hijos por persona) o

una proporción (% de personas con casa propia) sobre una muestra, podemos saber cuál

es la probabilidad de que el universo tenga ese mismo valor o un valor parecido. El valor

que calculemos en la muestra será el más probable para nuestro universo y a medida que

nos alejamos de este valor (por arriba o por abajo) cada vez serán valores menos probables.

En el ejemplo, si el 30% de la muestra de panameños tiene casa propia, puedo afirmar que

35% es el valor más probable del universo estudiado.

La forma en que disminuye la probabilidad a medida que me alejo de la media corresponde

a una distribución gaussiana. Podemos fijar un intervalo alrededor del valor más probable,

de manera que englobemos el 95% de la probabilidad (nivel de confianza). La distancia a

la que me tengo que alejar del valor más probable para englobar este 95% determina el

margen de error.

Según el gráfico anterior, para una distribución normalizada (media 0, desviación 1) si

queremos englobar los valores que cubren el 95% de los casos, tengo que definir un margen

de error entre -1,96 y +1,96 de la media. Si quiero cubrir el 99% de los casos, el margen

debe alejarse hasta +-2,58.

Page 15: Módulo 1 contenido

14 Módulo I: Conceptos Fundamentales del Muestreo

Bibliografía Consultada

Abad, Adela y Luis Servin. Introducción al Muestreo. Segunda Edición. Editorial Limusa.

México, 1987

Scheaffer, Mendenhall y Ott. Elementos de Muestreo. Editorial Iberoamericana. México,

1987