Muestro, medias de tendencia central y medidas de dispersio n 11_12

UNIDAD 3

Muestro, medias de tendencia central y medidas de dispersión

Los estudios estadísticos normalmente se hacen con una parte de la población, ya que realizarlos sobre la totalidad resultaría demasiado complicado. Para que la información obtenida tenga validez y confiabilidad es necesario que la muestra cumpla con ciertas condiciones específicas, relacionadas con el método para determinar el tamaño y características de la muestra y los individuos que la componen.

3.1 Muestreo

Para que la información obtenida tenga validez y confiabilidad es

necesario que cumpla con algunas condiciones específicas. Los métodos de muestreo se pueden clasificar en:

3.1.1 Conceptos básicos de muestreo aleatorio y su importancia

Muestro probabilístico: en éste, todos los elementos de una población y, por lo tanto, todas las muestras posibles tienen la misma posibilidad de ser elegidas. Las muestras obtenidas a través de este tipo de muestreo son confiables porque aseguran la condición de representatividad que es muy importante para hacer generalizaciones.

Muestreo no probabilístico: en este tipo de muestreo los elementos de la población no comparten las mismas posibilidades de ser seleccionados. Las muestras obtenidas no cumplen con la condición de representatividad, por lo que no es confiable hacer generalizaciones a toda la población.

Dentro del muestreo probabilístico existen métodos para obtener el tamaño de una muestra , a continuación estudiarás el muestro aleatorio simple, el cual consiste los siguientes pasos.

1. Definir la población de estudio y el parámetro a estudiar.

Como recordarás, la población es el grupo por el conjunto total de individuos, objetos o medidas que poseen algunas características comunes observables en un lugar y en un momento determinado. Por lo tanto, el paso 1 es determinar el que se va a estudiar.

3.1.2 Metodología del muestreo aleatorio simple

Por ejemplo: Un investigador realiza un estudio sobre las relaciones de género en el noviazgo, su objeto de estudio es las manifestaciones de violencia física y psicológica entre los estudiantes del último año de la carrera de química. Su población es el total de estudiantes del último año de ingeniería química que tengan novio o novia; el total de individuos con esta característica es de 386 en este ejemplo. Por lo que, la población es de 386 individuos y las variables son: violencia física y violencia psicológica.

1. Definir la población de estudio y el parámetro a estudiar.

Una vez que hemos definido nuestra población y las variables a estudiar, es necesario asignar un número de identificación a cada individuo de la población. Siguiendo con el ejemplo de la relaciones de género en el noviazgo en los estudiantes de química, lo que sigue es numerar a los 386 estudiantes un número del 1 al 386.

2. Enumerar a todas las unidades de análisis que integran la población,

asignándoles un número de identidad o identificación.

Determinar el tamaño de la población significa determinar el número de individuos que la constituye; la variable N representa el tamaño de la población Esto es , N=X .

Para calcular el tamaño de una muestra hay que tomar en cuenta tres factores:

a) El porcentaje de confianza con el cual se quiere generalizar los datos desde la muestra hacia la población total.

b) El porcentaje de error que se pretende aceptar al momento de hacer la generalización.

c) El nivel de variabilidad que se calcula para comprobar la hipótesis.

3. Definir la población de estudio y el parámetro a estudiar

A continuación se describe cada uno de los conceptos enlistados:

Porcentaje de confianza: Es el grado o nivel de seguridad que existe para generalizar los resultados obtenidos. Esto quiere decir que un porcentaje del 100% equivale a decir no existe ninguna duda para generalizar tales resultados, pero también implica estudiar a la totalidad de los casos de la población.

Para evitar un costo muy alto se busca un porcentaje de confianza menor, comúnmente es un 95%. El nivel de confianza es la probabilidad que establecemos (sin hacer ningún cálculo) para poder acertar al valor verdadero de la población. Este dato se obtiene a partir de la distribución normal estándar.


Porcentaje de error: Este error es una distancia alrededor del valor que deseamos estimar y nos da un margen de aproximación. Al igual que en el caso de la confianza, si se quiere eliminar el riesgo del error y considerarlo como 0%, entonces la muestra es del mismo tamaño que la población, por lo que conviene correr un cierto riesgo de equivocarse. Comúnmente se aceptan entre el 4% y el 6% como error, tomando en cuenta de que no son complementarios la confianza y el error.


Variabilidad: Es la probabilidad (o porcentaje) con el que se aceptó y se rechazó la hipótesis que se quiere comprobar. El porcentaje con que se aceptó tal hipótesis se denomina variabilidad positiva y se indica con p (también llamada probabilidad de éxito), y el porcentaje con el que se rechazó la hipótesis es la variabilidad negativa, identificada por q (también llamada probabilidad de fracaso y se obtiene 1-p).

Variabilidad positiva = p = a la probabilidad de que suceda el evento. Variabilidad negativa = q = a la probabilidad de que no suceda el evento.


Una vez que la población, el porcentaje de confianza, el porcentaje de error y el nivel de variabilidad han sido determinados, se debe determinar el tamaño de la muestra.En este paso, se utiliza cualquiera de las siguientes fórmulas. El uso de una u otra depende de si se conoce o no el tamaño de la población.

4. Determinar el tamaño óptimo de muestra para el estudio.

Desconocimiento del tamaño de la población:Fórmula:

Nota: Cuando no se cuenta con los valores de variabilidad positiva y negativa (p y q) estos asumen el valor de 50% respectivamente y para realizar cálculos los tenemos que convertir a valor decimal es decir .5 respectivamente. Esto aplica tanto para calculo de tamaño de la muestra con o sin tamaño de la población.


Ejemplo: En un lote grande de medicinas, se desea verificar que la proporción de los ingredientes activos sea el adecuado. Se debe determinar el tamaño de la muestra para un nivel de confianza del 95% con un error del 5%. Supongamos que la variabilidad p=q=0.5.Solución:Para el nivel de confianza sea igual al 95%, tenemos que P(Z)=0.95 si Z=1.96.Debido a que la variabilidad y el error se pueden expresar por medio de porcentajes, en el caso necesario, hay que convertir esos valores a proporciones.Sustituyendo:


Es decir, se ocupará una muestra de aproximadamente 384 unidades.

Conocimiento del tamaño de la población:Fórmula:


Ejemplo: En un lote de 25,000 cajas de medicina, se desea verificar que la proporción de los ingredientes activos sea el adecuado. Se debe determinar el tamaño de la muestra para un nivel de confianza del 95% con un error del 5%. Supongamos que la variabilidad p=q=0.5.Solución:Para el nivel de confianza sea igual al 95%, tenemos que p(Z)=0.95 si Z=1.96. Sustituyendo:


En otras palabras, se ocupará una muestra de aproximadamente 378 cajas.

El último paso para obtener la muestra es saber qué individuos específicos de la población se tomarán. Para hacer esto debemos:1. Numerar a los individuos de la población del 1 a N

(donde N es el tamaño de la población). 2. Generar números aleatorios mediante programas

computaciones (por ejemplo, Excel con la función “=aleatorio ()” ), funciones en calculadora o bien utilizando tablas de números aleatorios. También puedes generar números aleatorios de formas mecánicas, por ejemplo, sacando números de una urna o lanzando una moneda al aire.

5. Seleccionar la muestra usando números aleatorios.

3. Tomar los individuos correspondientes a los números

elegidos. Nosotros nos enfocaremos únicamente en el uso de la tabla de números aleatorios. Procedimiento para utilizar las Tablas de Números aleatorios: Se selecciona el bloque, el renglón y la columna de la tabla. Partiendo de esta selección, se toman tantas columnas como dígitos tenga la población (N). Comenzando por el primer número de las columnas, se incluirán en la muestra aquellos individuos que en la lista de la población ocupen la posición de los “n“ números de las columnas seleccionadas, siempre que sean menores que N. Si el número seleccionado en la tabla es mayor que N lo pasamos por alto y seguimos hasta tener la muestra total.

5. Seleccionar la muestra usando números aleatorios.

Ejemplo:Suponga que tenemos la siguiente tabla de 100 datos, numerados del 00-99.


Selecciona una muestra aleatoria de 7 números.

En la figura anterior tenemos una tabla de números aleatorios tomados de este documento (http://halweb.uc3m.es/esp/Personal/personas/aarribas/esp/docs/NumerosAleatorios.pdf),


Seleccionemos una fila al azar, suponga la fila 5, y separamos los números de 2 en 2, tendríamos entonces la siguiente serie de 7 números: 65 03 83 69 67 67 43 54 49 27 82 50 15 06 etc. Esto significa que nuestra muestra aleatoria deberá contener esos individuos, en el caso de 67 que se repite, solo lo consideramos una vez y pasamos al siguiente número. Tendríamos la siguiente tabla: Por lo que nuestra muestra quedaría con los valores 93, 68, 56, 69, 61, 34, 23, 17 ,45 , 52.


Montgomery, Douglas C. y George C. Runger

(1996). Probabilidad y Estadística aplicadas a la ingeniería. Cuarta edición. México: McGraw-Hill.

Walpole, Ronald E., Raymond H. Myers et al. (2007). Probabilidad y Estadística para Ingeniería y ciencias. Octava edición. México: Pearson Educación.

Estadística y probabilidad. Consultado 5 de Diciembre del 2014 en: http://www.vitutor.com/estadistica.html

Referencia bibliográfica

Muestro, medias de tendencia central y medidas de dispersio n 11_12

Education

Transcript of Muestro, medias de tendencia central y medidas de dispersio n 11_12