MUESTREO ALEATORIO

download MUESTREO ALEATORIO

of 82

  • date post

    15-Dec-2015
  • Category

    Documents

  • view

    54
  • download

    4

Embed Size (px)

description

Investigacion

Transcript of MUESTREO ALEATORIO

  • En

    i'1((i&F)2

    nF' F2

    Tcnicas avanzadas de investigacin social

    Pg. 1Pg. 1Pg. 1Pg. 1

    1. Muestreo aleatorio. Conceptos bsicos.

    1.1. Conceptos bsicos

    1.1.1. Resumen de la informacin en poblaciones y muestras1. Media. Si tenemos una poblacin o un conjunto de individuos compuestos por los

    nmeros enteros, 0, 1, 2, ...., 9, todos en la misma proporcin, la probabilidad de extraer al azarun determinado nmero ser de 1/10. Las frecuencias relativas pueden ser interpretadas entrminos de probabilidad y, entonces, el histograma de frecuencia relativa sera el de la figura.Supongamos que un nmero se va a seleccionar al azar de una poblacin, y denotemos su valorpor (. Entonces, los posibles valores para ( (0, 1, 2, ....., 9 en este caso) y las probabilidadesasociadas con tales valores (1/10 para cada uno) constituyen la distribucin de probabilidad parala variable aleatoria (. La probabilidad asociada con ( es denotada algunas veces por p((). As,para esta poblacin, p(0) = p(1) = ..... = p(9) = 1/10.

    Las medidas numricas usadas para resumir las caractersticas de una poblacin sondefinidas como valores esperados de (, o una funcin de (. Por definicin, el valor esperado de(, E((), est dado por: E(() = 3(p((), para todos los valores de ( para los cuales p(()>0. As,

    E(() = 3(p(() = 0p(0) + 1p(1) + ............ + 9p(9) = 45/10 = 4,5.E(() es igual al valor promedio, o valor medio de todas las mediciones de nuestra

    poblacin conceptual. En general, una media poblacional ser denotada por F, por lo que F =E((), donde ( es el valor de una medicin individual seleccionada de la poblacin al azar.

    La variabilidad de las mediciones en una poblacin puede ser medida por la varianza, quese define como el valor esperado, o valor promedio, del cuadrado de la desviacin entre unamedicin ( seleccionada aleatoriamente y su valor medio F.

    V(() = E((-F) = 3((-F) p(() 2 2En este ejemplo, V(() = E((-F) = 3((-F) p((-F) = (0-4,5) (1/10) + ... + (9-4,5) (1/10) = 1/10(82,5) = 8,25.2 2 2 2La varianza V(() es comnmente denotada por

    F = , y la desviacin estndar se define como2

    En este ejemplo, F = 2,9.En estudios estadsticos, la poblacin de inters consiste en mediciones desconocidas; es

    por eso que nicamente podemos especular acerca de la naturaleza del histograma de frecuenciarelativa o del tamao de F y F. Para obtener alguna informacin acerca de la poblacin,seleccionamos una muestra de n mediciones y estudiamos las propiedades de esta muestra. Apartir de lo que observamos en la muestra inferimos las caractersticas de la poblacin. Lasmediciones en la muestra sern denotadas en general por x , x , .... x . La media, la varianza y1 2 9la desviacin estndar vienen dadas, entonces, por:

  • x' 1nj xi s 2'E(xi&x)

    2

    n&1 s' s2

    F/ F2

    1. Conceptos bsicos.

    Pg. 2Pg. 2Pg. 2Pg. 2

    2,3 3,6 4,1 4,3 4,82,6 3,7 4,1 4,3 4,82,6 3,7 4,1 4,4 4,83,2 3,7 4,1 4,5 4,93,3 3,8 4,2 4,7 5,03,4 3,9 4,3 4,7 5,13,5 4,0 4,3 4,7 5,33,5 4,1 4,3 4,8 5,53,6 4,1 4,1 4,8 6,0

    Media: , Cuasivarianza: , y Desviacin estndar:

    Ntese que s tiene de divisor n-1 en lugar de n. Esto le convierte en un estimador2insesgado de la varianza poblacional.

    1.2. Distribuciones de muestreoTenemos una poblacin de nmeros enteros, del 0 al 9, representados en la misma

    proporcin. Seleccionamos cincuenta muestras de tamao n=10 de esta poblacin. Las mediasmuestrales 0 para las 50 muestras son:

    Un histograma de frecuencias agrupadas ofrecerauna aproximacin a la distribucin de muestreo terica de0, esto es, mostrndonos la manera en que las 0 tienden adistribuirse cuando se toman muestras repetidas. Ladistribucin de muestreo puede ser considerada como unadistribucin de probabilidad para 0. La distribucin de las0 tiende a concentrarse cerca de la media poblacionalF=4,5, y tiene forma monticular (forma de campana o decurva normal).

    Estadsticamente, sabemos que la distribucin de muestreo de 0 debe tener una media F,una desviacin estndar , y una forma como la de la curva normal. Esta distribucin tieneun promedio de 4,22 (cercano a 4,5) y una desviacin estndar de 0,79 (cercana a 0,92). Elhistograma de frecuencia tiene tambin forma aproximada de campana, aunque no muy simtrica.

    De las propiedades de la curva normal se deduce que aproximadamente el 68 % de losvalores de 0, en un muestreo repetido, debe caer dentro de una desviacin estndar de la mediade la distribucin de muestreo de las 0. Aproximadamente el 95,45 % de los valores de 0, dentrode dos desviaciones estndar de la media. En el ejemplo, los lmites de confianza:

    Lc =0 z (s )xa) lc = 4,22 0,79 ----> (3,43 , 5,01), que contiene 39 de 50, esto es, el 78 % de los valores

    de 0 de la muestra;b) lc = 4,22 2(0,79) ----> contiene 45 de 50, esto es, el 90 % de las 0.Si la distribucin de muestreo de alguna cantidad muestral no sigue una distribucin

    muestral, segn el teorema de Tchebysheff, para cualquier k$1, al menos (1-1/k ) de las2mediciones en cualquier conjunto deben caer dentro de k desviaciones estndar de su media. Porejemplo, haciendo k=2, se obtiene que al menos 3/4 de cualquier conjunto de mediciones debecaer dentro de 2 desviaciones estndar de su media. Considerando la distribucin normal o elteorme de Tchebysheff, la amplitud de cualquier conjunto de mediciones contiene poco ms quecuatro desviaciones estndar. En otras palabras, la desviacin estndar de un conjunto demediciones puede ser, aproximadamente, 1/4 de la amplitud de ese conjunto.

  • Tcnicas avanzadas de investigacin social

    Pg. 3Pg. 3Pg. 3Pg. 3

    1.3. Covarianza y correlacinFrecuentemente, en un experimento se obtiene

    informacin acerca de ms de una variable de inters.Generalmente, estamos interesados en la simple dependenciade un par de variables, tal como la relacin que existe entrepersonalidad e inteligencia. En particular, nos interesa saber silos datos que representan observaciones pareadas de x y x , en1 2un cierto nmero de gente implican una dependencia entre lasdos variables. Si es as, qu tan intensa es la dependencia?Intuitivamente, concebimos la dependencia de dos variablesindicando que una de ellas se incrementa o disminuye comouna consecuencia de un cambio en la otra. Para ello haremosuso de dos medidas de dependencia, la covarianza y elcoeficiente simple de correlacin lineal. En una grfica, sitodos los puntos tienden a formar una lnea recta, las dosvariables son dependientes. De otra manera, la dependencia espoca o nula.

    Supngase que conocemos F y F , las medias de x y x1 2 1 2respectivamente, y localizamos esta punto. Seguidamente, semiden las desviaciones (x F y (x F ). En realidad, la1 - 1) 2 - 2covarianza es una medida de cmo varan conjuntamente x y1x , y su frmula es: E[(x - F ) (x - F )]. Cuando x y x se2 1 1 2 2 1 2encuentran relacionados positivamente, entonces si x >F , tambin ser x >F , y viceversa. Por1 1 2 2ello, el resultado de la covarianza ser positivo. Inversamente, si x y x se encuentra relacionados1 2negativamente, cuando x

  • 1. Conceptos bsicos.

    Pg. 4Pg. 4Pg. 4Pg. 4

    medidas descriptivas numricas de la poblacin se denominan parmetros. Un estimador es unafuncin de variables aleatorias observables usado para estimar un parmetro. Por ejemplo, lamedia muestral 0 puede ser usada como un estimador de la media poblacional F, ya que es unafuncin de las observaciones en la muestra. Por ello, querremos seleccionar un plan de muestreoque nos asegure que E(x) = F y que V(x) es pequea.

    En general, suponiendo que 2 es un estimador del parmetro 2. Dos propiedades sondeseables para 2:

    1. E(2) = 0.2. V(2) = F es pequea.2Un estimador que posee la propiedad 1 se dice que es insesgado. Si podemos contar con

    dos estimadores insesgados de 2, generalmente daremos preferencia al que tenga la menorvarianza. Una vez que sabemos qu estimador 2 estamos usando en una situacin y conocemosalgo acerca de su distribucin de probabilidad, podemos evaluar la magnitud del error deestimacin. Definimos el error de estimacin como |2 - 2|. Aunque no podemos establecer queun estimador observado este dentro de una distancia especificada de 2, podemos, al menosaproximadamente, encontrar un lmite e tal que

    P(|2 - 2| # e) = 1 - "para cualquier probabilidad deseada 1 - ", donde 0 < " < 1. Si 2 tiene una distribucin

    normal, entonces e = z F , donde z es el valor que separa un rea de ("/2) en la cola del lado"/2 2 "/2derecho de la distribucin normal estndar. Si 1 - " = 0,95, entonces, z = 1,96, osea,0,025aproximadamente 2. Al intervalo (2 - e, 2 + e) se denomina intervalo de confianza para 2 concoeficiente de confiabilidad (1 - "), con un lmite inferior de confianza (LIC) y un lmite superiorde confianza (LSC).

  • Tcnicas avanzadas de investigacin social

    Pg. 5Pg. 5Pg. 5Pg. 5

    2. Elementos del problema de muestreo

    2.1. Trminos tcnicos1. Un elemento es un objeto en el cual se toman las mediciones. En una encuesta, por

    ejemplo, para estimar la proporcin de votantes en una comunidad que favorecen la emisin debonos, un elemento es un votante registrado en la comunidad. La medicin tomada es lapreferencia del votante con respecto a la emisin de bonos.

    2. Una poblacin es una coleccin de elementos acerca de los cuales deseamos haceralguna inferencia. La poblacin en este ejemplo es la coleccin de votantes en la comunidad. Unatarea importante es definir cuidadosa y completamente la poblacin antes de recolectar lamuestra. La definicin debe contener una descripcin de los elementos que sern incluidos y unaespecificacin de las mediciones que se van a considerar, ya que estos componentes estninterrelacionados.

    3. Las unidades de muestreo son