Apuntes sobre distribucion muestral

Distribución Muestral y Estimación

Elaborado por Héctor Medina Disla. Junio 2009 1


Una distribución muestral es la distribución de probabilidad de un estimador o estadígrafo que resulta de considerar todas las muestras posibles que pueden ser tomadas de una población. Es decir, si se toman todas las muestras posibles en una población y se obtienen los diferentes valores para un estimador y su respectiva probabilidad, a esta distribución que se forma es lo que se denomina Distribución Muestral.

La importancia de conocer la distribución muestral de un estadígrafo es que esta permite el proceso de inferencia del mismo. Dado que casi nunca es posible tomar todas las muestras posibles de una población dada, conociendo la distribución muestral del estimador se puede hacer la inferencia del mismo a partir de una sola muestra. Con el estudio de la distribución muestral se puede calcular la probabilidad que se tiene, dada una sola muestra, de acercarse al parámetro de la población. De igual forma mediante la distribución muestral se puede estimar el error para un tamaño de muestra dado. La fórmula para la distribución muestral dependerá de la distribución de la población, del estadístico y del tamaño de la muestra

Los principales parámetros y su respectivo estimador o estadígrafo se muestran a continuación:

Parámetro Significado Estadígrafo µx Media Poblacional X σ2 Varianza Poblacional S2

σ Desviación Estándar Poblacional S P0 Proporción de éxitos

En la Población px

N Población n Un aspecto importante en el estudio del comportamiento de una variable aleatoria lo constituye del Teorema del Límite Central, el cual establece que sin importar la forma que tenga una variable aleatoria, en la medida que se incrementa el tamaño de la muestra, dicha variable tiende a tener forma de una distribución normal con media µ y varianza σ2. La importancia del teorema es que cualquier estimador que sea de interés se pueden obtener las diferentes probabilidades a partir de una distribución normal. Distribución Muestral del promedio, ( X ) El promedio o media aritmética es la medida de tendencia central que más se usa, pues es la única entre estas que posee una serie de



característica que la hacen ser la única medida de tendencia central que soporta un proceso de inferencia estadística. Entre estas características están:

1. (Xi – X ) = 0 2. (Xi – X )2 < (Xi – A)2 para todo A ≠ X

Para conocer las bondades del promedio muestral como estimador del promedio poblacional, suponga que una empresa tiene una población de seis empleados, Alberto, Bélgica, Carlos, Dinorah, Eduardo y Flavia y pregunta sobre el número de hijos/as y obtiene los siguientes datos: Alberto tiene tres, Bélgica tiene dos, Carlos cuatro, Dinorah dos, Eduardo tiene cuatro y Flavia tres. El promedio de hijos/as de esta población es

6342423

N

X ix , es decir que el promedio de esta

población es de 3.0 hijos/as. Ahora suponga que tomamos todas las muestras posibles tamaño dos, de esta población y que se calcula el promedio en cada una de ellas. De esta población se pueden obtener 15 muestras diferentes y las muestras y su respectivo promedio se muestra en la tabla siguiente:

Muestra Promedio Muestra Promedio Muestra Promedio A, B 2.5 B, C 3.0 C, E 4.0 A, C 3.5 B, D 2.0 C, F 3.5 A, D 2.5 B, E 3.0 D, E 3.0 A, E 3.5 B, F 2.5 D, F 2.5 A, F 3.0 C, D 3.0 E, F 3.5

Con los datos obtenidos se consigue la siguiente distribución de probabilidad para el promedio muestral, ( X )

Con esta distribución de probabilidad se puede obtener el valor esperado para el promedio muestral, recordando que el valor esperado es E( X ) = Σ X i* P( X i), luego E( X ) = (2.0*0.07) + …. + (4.0* 0.07) E( X ) = 3.0 hijos/as

X i No. P( X i) X i* P( X i) 2.0 1 0.07 0.13 2.5 4 0.27 0.67 3.0 5 0.33 1.00 3.5 4 0.27 0.93 4.0 1 0.07 0.27

Suma 15 1.00 3.00



Como se muestra, el valor esperado del promedio muestral es igual al promedio de la población y es por esta característica, junto a las ya mencionadas que el promedio es la única medida de tendencia central que el resultado obtenido en la muestra se puede inferir a la población. Al observar el resultado de cada promedio en la muestra se nota que la mayoría de estos difieren del promedio real, estas diferencias se miden por error estándar del estramador. De forma tal que el error estándar de un estimador mide la diferencia esperada entre el estimador y el parámetro. Error estándar del promedio o media aritmética, ( x ) El error estándar del promedio mide la diferencia esperada entre el promedio de la muestra y el promedio de la población. El error estándar del promedio se puede obtener a partir de la desviación estándar de la variable estudiada de la siguiente forma.

Nx

x

, si se conoce la desviación estándar de la variable en la

población. Si la desviación estándar que se tiene es calculada en una

muestra, el error estándar del promedio es n

SS xx

Distribución muestral de la proporción La proporción o porcentaje se define como el cociente que resulta de dividir el número de casos favorables entre el número de casos posibles. Si para una población determinada se desea estimar el porcentaje de “éxito” en una variable aleatoria, el mismo puede ser estimado a partir de la distribución en la muestra de la proporción. Si X es la variable aleatoria de interés y para su estimación se toma una muestra tamaño n, el valor esperado de la proporción de éxito en la muestra es igual a la proporción de éxito de la población. La proporción de éxito está dada por:

nXPx , en este caso X representa el número de éxitos en la muestra y n

es el tamaño de la muestra. Error estándar de la proporción, (Px) El error estándar de la proporción mide la diferencia esperada entre el porcentaje de éxito calculado a partir de la muestra y el porcentaje de éxito de la población. El error estándar de la proporción se puede obtener a partir de:

nppS xx

p)1(



Estimación de parámetros Como se ha mencionado en capítulos anteriores, la mayoría de las decisiones que se toman se basan en información obtenida a partir de una muestra, de forma que muy pocas veces se puede conocer el parámetro poblacional por lo tanto para conocer dicho parámetro es necesario recurrir a procedimiento de inferencia, es decir, utilizar la información muestral para obtener información acerca de la población completa, que es a lo que se denomina como estimación. La estimación es, por lo tanto, un proceso mediante el cual se obtienen medidas aproximadas de un parámetro a partir de una muestra. Las medidas calculadas a partir de una muestra se denominan estimadores, ya que son medidas mediante las cuales se intenta obtener información acerca de las medidas poblacionales. Al intentar obtener información de una medida poblacional con datos de una muestra lo que más desea el investigador es que la información obtenida en la muestra sea lo más parecida a la información poblacional. Por lo tanto, al momento de elegir un estimador como medida de referencia en la población se deben analizar sus características, de forma que se pueda elegir el mejor estimador del parámetro poblacional. Características de un buen estimador Para que un estimador sea un buen estimador de un parámetro poblacional, es necesario que cumpla con tres características importantes: debe ser insesgado, eficiente y consistente. Un estimador es insesgado cuando el valor esperado de la diferencia entre el parámetro y el estimado es cero. Es decir que si se tiene un parámetro α y su estimador es A, entonces E(α-A)= 0 La característica de eficiencia se refiere la variabilidad del estimador y como tal un estimador A se considera más eficiente que un estimador B, si la varianza relativa de A es menor que la varianza relativa de B, es

decir, 2

2

2

2

A

B

B

A

La condición de consistencia se refiere a la condición del estimador para mantener su valor de una muestra a otra, es este sentido se entiende por estimador consistente aquel que en la medida que se incrementa el tamaño de la muestra, el estimador tiene a ser igual al parámetro Tipos de estimación La estimación de parámetros puede ser puntual, si la misma se realiza a partir de una sola medida o puede ser una estimación por intervalo, que es aquella en la que se estima un rango en el cual se espera que se encuentre el parámetro con una probabilidad determinada o nivel de confianza.



Estimación puntual Como se ha definido, la estimación puntual es aquella en la que el parámetro es estimado a partir de un solo valor. Por ejemplo, suponga que se tiene los datos sobre el salario de nueve empleados y se desea estimar el promedio del salario en la empresa, así como el porcentaje de empleados que devenga un salario inferior a $6.0. Los datos sobre los salarios son: 16.2 14.0 8.5 10.0 12.1 5.0 7.5 5.0 3.0

Estimación del promedio: nX

X i

90.30.55.70.51.120.105.80.142.16

X

X = 9.1$

Estimación de la proporción, nXPx

X: casos favorables, en este caso cantidad de empleados con salario por debajo de $6.0 n: muestra, para este caso la muestra es de nueve empleados

31

93xP

Estimación por Intervalo La estimación por intervalo es aquella en la que se establece un rango para el parámetro de la población, denominado intervalo de confianza. En la estimación por intervalo se debe tomar en consideración dos aspectos, el origen de la varianza y el tamaño de la muestra a partir de la cual se va hacer la estimación. Elementos a tener en consideración

1. Varianza De la población Varianza de una muestra

2. Tamaño de la muestra

Grande; n 30 Pequeña; n < 30



Cuando se conoce la varianza de la población el intervalo de confianza para promedio está dado por:

1)2/( n

ZXP x

X : Promedio de la muestra Z(α/2): es el valor de Z para un nivel de confianza dado : Desviación estándar en la población n: Tamaño de la muestra α : Nivel de significación Ejemplo: La empresa FORTALEZA dedicada a la producción de cemento, tiene un proceso de llenado, el cual tiene una varianza de 0.85 Kg. Para fines de control del llenado se seleccionó una muestra de 20 fundas y se encontró que el peso promedio de cada funda es de 41.75 Kg. Con un nivel de confianza de 99.0%, estimar el intervalo del peso promedio de las fundas de cemento. Cuando se desconoce la varianza de la población y se tiene una

varianza calculada a partir de una muestra grande, (n 30), el intervalo de confianza para el promedio está dado por:

1)2/( n

ZXP x

X : Promedio de la muestra Z(α/2): es el valor de Z para un nivel de confianza dado S: Desviación estándar de la muestra n: Tamaño de la muestra α : Nivel de significación Ejemplo: La Empresa AQUIESTOY se dedica al ensamblaje de dispositivos electrónicos. Para establecer las especificaciones que debe tener el diámetro de un arbor, ha tomado una muestra de 42 de ellos y ha encontrado que diámetro promedio es de 3.0 cms con una varianza de 0.25 cms. Cuál es el intervalo de confianza, si la empresa desea no más del 3.0% de las unidades producidas estén fuera de los límites a establecer.



Cuando se desconoce la varianza de la población y se tiene una varianza calculada en una muestra pequeña, (n < 30), el intervalo de confianza para la media esta dado por:

1 t /2) 1,-(n n

SXP x

X : Promedio de la muestra t(n-1, α/2) : es el valor de t para un nivel de confianza dado S: Desviación estándar de la muestra n: Tamaño de la muestra α : Nivel de significación Ejemplo: Un inversionista quiere saber, con un nivel de confianza de 95.0% cual es el rango en el que varían el precio de un grupo de acciones en las cuales piensa invertir. En una muestra de 12 acciones ha encontrado que el precio promedio es $18.5 y la varianza de 12.6$2. Intervalo de confianza para la proporción El intervalo de Confianza para la Proporción de éxito, se obtiene a partir de la siguiente expresión: px SZpP )2/( , donde:

px : Proporción de éxito obtenida en la muestra

Sp: es el error estándar de la proporción, n

ppS xxp

)1(

Z(α/2) : Valor de Z para el nivel de confianza dado n : Tamaño de la muestra α : Nivel de significación Ejemplo: Se desea estimar, con un nivel de confianza de un 95.0%, el porcentaje de usuarios que está dispuesto a utilizar los servicios de una nueva ruta de autobuses de transporte interurbano. De una muestra de 200 usuarios, 93 dijeron estar dispuestos a utilizar los servicios de la nueva ruta. Estimar el intervalo para la proporción de los posibles usuarios de la nueva ruta. Estimación del tamaño de la muestra Cuando se desea estimar el tamaño que debe tener una muestra, es importante definir cual es el estadígrafo que se desea estimar. En tal sentido hay que estar claro sobre cual parámetro se desea hacer la estimación, si es sobre un promedio o un total o si la inferencia se desea hacer sobre una proporción o porcentaje. De igual forma hay que tener claro sobre el tipo de población en la cual se tomará la muestra, si



es una población finita, es decir que se conoce el número de elementos de la población o si por el contrario, la población se puede considerar infinita. Dependiendo de estos criterios, el tamaño de una muestra se puede estimar utilizando una de las siguientes fórmulas:

Tabla No. Fórmula para estimar el tamaño de una muestra

Estadístico Población infinita Población finita

Promedio o total 2

22

ESZn 222

22

)1( SZENSNZn

Proporción 2

2 )1(E

PPZn )1()1(

)1(22

2

PPZENPPNZn

n: tamaño de la muestra Z: Valor de la distribución norma para un nivel de confianza dado S2: Varianza E: Error muestral P: Proporción de éxito en la población

Ejemplos: 1. Se desea conocer el consumo familiar promedio en una comunidad para evaluar la factibilidad de establecer un punto de distribución en una comunidad. En estudios anteriores se obtuvo una desviación estándar del consumo de $630. Cuál debe ser el tamaño de la muestra si se desea una estimación que no difiera del valor real del consumo en ± 75.0 con un nivel de confianza de 95.0%.

a) Qué tamaño debe tener la muestra, si no se conoce el tamaño de la población

b) Qué tamaño debe tener la muestra, si la población de dicha comunidad es de 2,500 familias.

2. Una organización sin fines de lucro que medir el porcentaje de madres con conocimientos en salud materno-infantil en una población de 840 familias y en las cuales por estudios anteriores se sabe que solo el 40.0% tenía conocimientos sobre este tema, con un margen de error de más o menos 3.0%.

a) ¿Qué tamaño debe tener la muestra? b) ¿De cuánto sería la muestra si no se conociera el total de la población?

Apuntes sobre distribucion muestral

Technology

Transcript of Apuntes sobre distribucion muestral