ESTADÍSTICA MODULO IV

download ESTADÍSTICA  MODULO IV

of 30

Transcript of ESTADÍSTICA MODULO IV

ESTADSTICA MODULO IV TEORIA DE LA ESTIMACION ESTADSTICA Estimacin es el proceso de usar un estadstico muestral para estimar el correspondiente parmetro poblacional desconocido. a) Mtodo para estimar una media poblacional a partir de una media muestral x b) Mtodo para estimar una proporcin poblacional P a partir de una proporcin muestral p. c) Mtodo para determinar un tamao adecuado de muestra para estimaciones de medias o de proporciones. CARACTERSTICAS DE LOS ESTIMADORES Conviene que los estadsticos, en su funcin de estimadores de los correspondientes parmetros, renan determinados requisitos. Fundamentalmente son: a) CARENCIA DE SESGO. Un estimador (estadstico) carece de sesgo si el promedio (media) de todos los valores posibles de todas las muestras posibles de tamao n de una poblacin es igual al parmetro, es decir, si la media de la distribucin muestral del estadstico considerado es igual al valor del parmetro. As, la media es un estimador insesgado de porque se puede demostrar que la media aritmtica de una distribucin muestral coincide con el valor del parmetro, algo que no puede decirse, por ejemplo, o de la varianza o de la mediana de una poblacin no distribuida normalmente. b) CONSISTENCIA. Un estimador es consistente en la medida en que, al aumentar el tamao de la muestra, (n) su valor se acerca cada vez ms al parmetro correspondiente o lo que es lo mismo, si a medida que aumenta el tamao de la muestra, las estimaciones que sta proporciona son cada vez ms prximas al valor del parmetro. Algunos estimadores sesgados son consistentes, acercndose cada vez ms sus valores a los de sus respectivos parmetros a medida que el tamao de la muestra (n) aumenta, tal es el caso de s o s2 que son estimadores sesgados pero consistentes de la desviacin tpica () o de la varianza (2) de la poblacin. c) EFICIENCIA La 3 propiedad de los estimadores es su eficiencia, que se refiere a la precisin que alcanzan los estadsticos en la estimacin de los parmetros, es decir, un estimador ser tanto ms eficiente cuanto menos vare de muestra a muestra de una misma poblacin. Como la variabilidad de una distribucin muestral viene dada por su error tpico, un buen estimador ser aquel que menor error tpico alcanza. As, entre la media y la mediana, la primera es claramente ms eficiente. La varianza de la distribucin muestral de la mediana es mayor que la de la media, lo que significa que la mediana flucta ms que la media en muestras sucesivas de la misma poblacin. En general, para escoger un ptimo estimador de un parmetro, deben combinarse los criterios de no tendenciosidad (carencia de sesgo) y de eficiencia. Ante dos estimadores insesgados del mismo parmetro, se preferir aquel que tenga mayor eficiencia, es decir, que tenga el mnimo error en trminos de varianza. Estimadores insesgados: Media, Mediana, Moda, la desviacin tpica cuando n es tiende a infinito, la cuasivarianza muestral Estimadores sesgados: la varianza muestral. Estimadores consistentes: Proporciones, la media, la varianza y desviacin tpca. Estimadores insesgados y no eficientes: Mediana muestral (estimador insesgado de ]

ESTIMACIN DE PARMETROS, es un proceso para obtener informacin sobre una poblacin que se basa en la teora del muestreo, se divide en : a) ESTIMACION DE PUNTO: Es un nmero nico que es usado para representar la estimacin del parmetro. b) ESTIMACION DE INTERVALO: Es un recorrido establecido dentro del cual podemos esperar que est el parmetro. Estimacin de Parmetros La teora de muestreo puede emplearse para obtener informacin acerca de muestras obtenidas aleatoriamente de una poblacin conocida. Sin embargo, desde un punto de vista prctico, suele ser ms importante y ser capaz de inferir informacin acerca de una poblacin a partir de muestras de ellas. Dichos problemas son tratados por la inferencia estadstica que utiliza principios de muestreo. Un problema importante de la inferencia estadstica es la estimacin de parmetros poblacionales o simplemente parmetros (como la media y la varianza poblacionales ), a partir de los estadsticos mustrales correspondientes o estadsticos ( como la media y la varianza muestral. Estimados sin Sesgo Si la media de la distribucin muestral de un estadstico es igual al parmetro poblacional correspondiente, el estadstico se denomina estimador sin sesgo del parmetro; de otra manera, es denominado estimador sesgado. Los valores correspondientes de dichos estadsticos se llaman estimados sin sesgo o sesgados, respectivamente. 1.distribucin muestral de las medias es x , la media poblacional. Por lo tanto, la media muestral x es un estimado sin sesgo de la media poblacional . 2.- La media de la distribucin muestral de las varianzas es: s2 = ( N-1/ N ) 2 La media de la

donde 2 es la varianza poblacional y N es el tamao de la muestra .Entonces, la varianza muestral s2 es un estimado sesgado de la varianza poblacional 2. Usando la varianza modificada. 2 =( N/ N-1 )s2 Se encuentra que estimado sin sesgo 2 , de modo que 2 es un 2 .Sin embargo es un estimado de .En trminos de esperanza matemtica se poda decir que un estadstico no est sesgado si su esperanza es igual al parmetro poblacional correspondiente. Por lo tanto, x y 2 no estn sesgados, porque E de Estimados Eficientes Si las distribuciones mustrales de dos estadsticos tienen la misma media o esperanza matemtica entonces el estadstico con la menor varianza se denomina estimador eficiente de la media, mientras que el otro estadstico se le llama estimador ineficiente. Los valores correspondientes de los estadsticos se conocen, respectivamente , como estimadores eficientes. Si se consideran todos los estadsticos posibles, cuyas distribuciones mustrales tienen la misma media, aquel con la menor varianza suele denominarse el mejor o ms eficiente estimador de dicha media. La distribucin muestral de la media y la mediana tienen la misma media; a saber la media poblacional. Sin embargo, la varianza de la distribucin muestral de las medias es ms pequea que la varianza de la distribucin muestral de las medianas . por lo tanto, la media muestral ofrece un estimado ineficiente de esta De todos los estadsticos que estiman la media poblacional, la media muestral ofrece el mejor o mas eficiente estimado. En la practica , suelen usarse los estimados ineficientes debido a la relativa facilidad con que se obtienen algunos de ellos. 2 =

Estimados por Punto y Estimados por Intervalo; su Confiabilidad El estimado de un parmetro poblacional dado por un solo numero se denomina estimado puntual del parmetro. El estimado de un parmetro poblacional dado por dos nmeros , entre los cuales se considera esta el parmetro, se denomina estimado por intervalo del parmetro. Los estimados por intervalo indican la precisin de un estimado y son, por lo tanto preferibles a los estimados por punto. Ejemplo: Si se dice que una distancia medida es de 5.28 metros se esta dando un estimado por punto. Si por otro lado, la distancia es de 5.28 mas menos 0.03metros ( es decir , la distancia esta entre 5.25m y 5.31 m ) , se esta dando un estimado por intervalo . La informacin sobre el error o precisin de un estimado se conoce como confiabilidad. Estimados por Intervalo de Confianza de Parmetros Poblacionales Sean sy s la media y la desviacin estndar ( error estndar ), en ese orden, de la distribucin muestral de un estadstico S. Entonces, si la distribucin muestral de S es en formas aproximadas a la normal ( lo cual es verdadero para muchos estadsticos si el tamao de la muestra es N mayor o menor que 30. Intervalos de Confianza para Medias Si el estadstico S es la media muestral x , entonces los limites de confianza de 95% y 99% para estimar la media poblacional estn dados por x mas menos 1.96 x y 2.50 x respectivamente. De manera mas general , los limites de confianza estn dados por x zc x donde zc que depende del nivel particular de confianza deseado , usando los valores de x obtenidos se ve que los limites de confianza para la media poblacional estn dados por : X Zc /

si el muestreo se lleva a cabo a partir de una poblacin infinita o de una poblacin finita con reemplazamiento y estn dados por : X Zc /

si el muestreo se realizo sin reempalzamiento de una poblacin de tamao finito Np . generalmente , la desviacin estndar poblacional es desconocida ; por consiguiente , para obtener los limites de confianza anteriores, se utiliza la estimacin muestral o s .Esta mostrara ser satisfactoria cuando N se mayor o menor que 30 para N menor que 30 , la aproximacin es pobre y se debe usar la teora de pequeas muestras . Intervalos de Confianza para Proporciones Si el estadstico S es la proporcin de xitos en una muestra de tamao , obtenida de una poblacin binomial en la que p es la proporcin de xitos es decir la probabilidad de xito, entonces los limites de confianza para p estn dados por la proporcin de xitos en la muestra de tamao N. Usando los valores de p obtenidos, ve que los limites de confianza para la proporcin poblacional estn dados por : P Zc Si el muestreo se efectu de una poblacin finita o de una poblacin infinita con reemplazamiento y estn dados por : P Zc Si el muestreo se hizo sin el reemplazamiento de una poblacin de tamao finito Np. Para calcular estos limites de confianza se puede usar el estimado muestral P que por lo general , mostrara ser satisfactorio si N es mayor o igual a 30. Intervalos de Confianza para Diferencias y Sumas

Si S1 y S2 son dos estadsticos mustrales con distribuciones de muestreo aproximadamente normales, entonces los limites de confianza se puede usar para la diferencia de los parmetros poblacionales correspondientes a S1 y S2 estn dados por : S1 y S2 zc s1 - s2

Intervalos de Confianza para Desviaciones Estndar Los limites de confianza para la desviacin estndar de una poblacin normalmente distribuida, estimados a partir de una muestra con desviacin estndar s, estn dados por : S + - Zc s = s Zc /

Para calcular estos limites de confianza se utiliza s o para estimar Error Probable Los limites de confianza de 50% de los parmetros poblacionales correspondientes al estadstico S dados por S + - 0.675 s la cantidad de 0.675 s es conocida como error probable de la estimacin. Estimados sin Sesgo y eficientes 1.- De un ejemplo de estimadores y estimados que sean a).- sin sesgo y eficientes , b).- sin sesgo e ineficientes y c).- sesgados e ineficientes Solucin a).- La media maestral x y la varianza maestral modificada 2 =( N/ N-1 ) s2 b).- La media muestral y el estadstico muestral (Q1 + Q3) donde Q1 y Q3 son los cuartiles inferior y superior , son dos de dichos ejemplos. Ambos estadsticos son estimados sin sesgo de la media poblacional, ya que la media de sus distribuciones mustrales es la media poblacional. c).- La desviacin estndar muestral s , la desviacin estndar modificada , la desviacin media y el rango semiintercuartilar son cuatro de dichos ejemplos 2.- En una muestra de cinco mediciones , los registros de un cientfico para el dimetro de una esfera fueron 6.33, 6.37, 6.32, 6.37 centmetros. Determine estimados sin sesgo y eficientes de a) la media verdadera y b) la varianza verdadera. Solucin a).- el estimado sin sesgo y eficiente de la media verdadera , es decir , la media poblacional es : x= x / N = 6.33 + 6.37 + 6.36 +6.32 + 6.37 / 5 = 6.35 cm

b).- El estimado sin sesgo y eficiente de la varianza verdadera , es decir la varianza poblacional es :

2 = ( N / N - 1 ) s2 (6.33 - 6.35 )2 + ( 6.37 - 6.35 ) 2 + ( 6.32 - 6.35 ) 2 + ( 6.37 - 6.35 )2 / 5 - 1 = 5.5 x 10 - 4 cm2 3.- Suponga que las estaturas de 100 estudiantes hombres de la universidad XYZ representan una muestral aleatoria de las estaturas del total de 1546 estudiantes de la universidad. Determine los estimados sin sesgo y eficientes de a) la media verdadera y b) la varianza verdadera. Solucin a) Del problema, el estimado sin sesgo y eficiente de la estatura media verdadera es x = 67.47 pulgadas b) Del problema el estimado sin sesgo y eficiente de la varianza verdadera es : 2 = ( N/ N-1 ) s2 = (100/99 ) 8.5275 = 8.6136 Por lo tanto = 8.6136 = 2.93 pulgadas. Obsrvese que dado que N es grande esencialmente no existe diferencia entre y 2 . 4.- De un estimado sin sesgo e ineficiente del dimetro medio verdadero de la esfera del problema 2. Solucin La mediana es un ejemplo de un estimado sin sesgo e ineficientes de la media poblacional. Para las cinco mediciones, ordenadas por magnitud, la media es 6.36 cm 5.- En una muestra de cinco mediciones , los registros de un cientfico para el dimetro de una esfera fueron 6.33, 6.37, 6.33, 6.38 centmetros. Determine estimados sin sesgo y eficientes de a) la media verdadera Solucin a).- el estimado sin sesgo y eficiente de la media verdadera , es decir , la media poblacional es : x= x / N = 6.33 + 6.37 + 6.36 +6.33 + 6.38 / 5 = 6.354 cm

6.- Suponga que las estaturas de 10 estudiantes hombres de la universidad XYZ representan una muestral aleatoria de las estaturas del total de 100 estudiantes de la universidad. Determine los estimados sin sesgo y eficientes de Solucin a) Del problema el estimado sin sesgo y eficiente de la varianza verdadera es : 2 = ( N/ N-1 ) s2 = (10/9 ) 8.5275 = 9.47 7.- De un estimado sin sesgo e ineficiente del dimetro medio verdadero de la esfera del problema 2. Solucin La mediana es un ejemplo de un estimado sin sesgo e ineficientes de la media poblacional. Para las cinco mediciones, ordenadas por magnitud, la media es 6.36 cm

Intervalos de Confianza para Medias 8.- Calcule los intervalos de confianza a) a 95% y b) 99% para estimar la estatura media de los estudiantes de la universidad veracruzana del problema 3. Solucin a) Los limites de confianza a 95% son x 1.96 / ( N )1/2 . Usando x = 67.45 pulg. y = 2.93 pulgadas como un estimado de , los limites de confianza son 67.45 0.57 pulgadas. Por lo tanto, el intervalo de confianza a 95% para la media poblacional es de 66.88 a 68.02 pulg. Que puede expresarse como 66.08 menor que menor que 68.21. Para obtener los intervalos de confianza anteriores, se considero que la poblacin era infinita o tan grande como para realizar un muestreo con remplazamiento. En el caso de poblaciones finitas, donde el muestreo se hace sin remplazamiento se debe utilizar : / Sin embargo se puede considerar el factor: = 0.967 Es esencialmente 1 por lo tanto no ser necesario usarlo. Si se utiliza, los limites de confianza anteriores se convierten en 67.45 0.56 pulgadas y 67.45 0.73 pulgadas respectivamente . 9.- Una empresa de rboles navideos tienen 5000 rboles listos para cortarse. Se seleccionan aleatoriamente cien de estos rboles y se mide su altura. Las alturas, en pulgadas se muestran en la siguiente tabla. Utilice minita para establecer un intervalo de confianza a 95% de la altura media a los 5000 rboles. Si estos se venden a $ 2.40 por pie de un limite superior y uno inferior sobre el valor de los 5000 rboles . 56 61 52 62 63 34 47 35 44 59 70 61 65 51 65 72 55 71 57 75 53 48 55 67 60 60 73 74 43 74 71 53 78 59 56 62 48 65 68 51 73 62 80 53 64 44 67 45 58 48 50 57 72 55 56 62 72 57 49 62 46 61 52 46 72 56 46 48 57 52 54 73 71 70 66 67 58 71 75 50 44 59 56 54 63 43 68 69 55 63 48 49 70 60 67 47 49 69 66 73 Solucin El intervalo de confianza del minitab presentado a continuacin indica que la altura media de los 5000 rboles puede ser tan pequea como 57.24 o tan grande como 61.20 pulgadas. El numero total de pulgadas para los 5000 rboles oscila entre (57.24) (5000) = 286200 y (61.20) (5000) = 306000. Si los rboles se venden a $ 2.40 por pie , entonces el costo por pulgada es de $ 0.2. El valor de los rboles oscila entre ( 286000)(0.2) = $ 57200 y (306000)(0.2) = $ 61200 con 95% de confianza 10.- Para medir el tiempo de reaccin ,un psiclogo estima que la desviacin estndar de 0.05 segundos Que tan grande debe ser una muestra de mediciones para tener a) 95 % y b) 99 % de confianza en que el error de este estimado no exceder de 0.01 segundos ? Solucin a) Los limites de confianza a 95 % son de x 1.96 / con el error de estimacin 1.96 / tomando = s = 0.05 segundos se debe ver que el error ser igual a 0.01 segundos si ( 1.96) ( 0.05 )/ = ( 1.96 ) ( 0.05 )/ 0.01 = 9.8 o N = 96.04 b) Los limites de confianza a 99 % son x 2.58 /

11.- Una muestra aleatoria de 50 calificaciones ,de un total de 200 mostr una media de 75 y una desviacin de 10 a).- Cuales son los limites de confianza a 95 % para estimados de la media de las 200 calificaciones ? b).- Con que nivel de confianza se puede decir que la media de las 200 calificaciones es de 75 1? Solucin a) Dado que el tamao de la poblacin no es muy grande comparado con el de la muestra , se debe de ajustar. Entonces , los limites de confianza a 95% son : x 1.96 75 1.96 (10/ 50 )( / 199) = 75 2.4 b) Los limites de confianza pueden representarse as : x zc 75 zc (10/)( / 199) = 75 1.23 zc 12.- Una empresa de rboles navideos tienen 5000 rboles listos para cortarse. Se seleccionan aleatoriamente cien de estos rboles y se mide su altura. Las alturas, en pulgadas se muestran en la siguiente tabla. Utilice minitab para establecer un intervalo de confianza a 95% de la altura media a los 5000 rboles. Si estos se venden a $ 2.80 por pie de un limite superior y uno inferior sobre el valor de los 5000 rboles . 60 61 52 62 63 34 47 35 44 52 70 61 65 51 65 72 55 71 57 75 53 48 55 67 60 60 73 74 43 74 71 53 78 59 56 62 48 65 68 51 73 62 80 53 64 44 67 45 58 48 50 57 72 55 56 62 72 57 49 62 46 61 52 46 72 56 46 48 57 52 54 73 71 70 66 67 58 71 75 50 44 59 56 54 63 43 68 69 55 63 48 49 70 60 68 47 49 69 66 75 Solucin El intervalo de confianza del minitab presentado a continuacin indica que la altura media de los 5000 rboles puede ser tan pequea como 57.24 o tan grande como 61.20 pulgadas. El numero total de pulgadas para los 5000 rboles oscila entre (57.24) (5000) = 286200 y (61.20) (5000) = 306000. Si los rboles se venden a $ 2.80 por pie , entonces el costo por pulgada es de $ 0.23. El valor de los rboles oscila entre ( 286000)(0.23) = $ 65780 y (306000)(0.23) = $ 70380 con 95% de confianza 13.- Una muestra de 15 aves tomadas al azar en un establecimiento con 5000 aves, (que elabora alimentos balanceados), permiti establecer un aumento de peso promedio de 90 g por semana y por ave, y un desvo tpico de 10 g. Se busca estimar el incremento de peso promedio para las 5000 aves del establecimiento con un intervalo de confianza del 90%. Solucin X = aumento de peso por ave n = 15 Estimacin estadstica = 90 g S = 10 g ICM0,90? Por tabla: Estimacin estadstica y el intervalo resulta: Estimacin estadstica x = x zc /= x = x 1.96 /

Intervalos de Confianza para Proporciones 14.- La encuesta de una muestra de 100 volantes ,elegidos aleatoriamente de todos los votantes de un distrito, indica que 55 % de ellos estaban a favor de un candidato en particular. Calcule los limites de confianza a) 95% , b) 99% y c) 99.73% para la proporcin de todos los volantes del candidato. Solucin a) Los lmites de confianza a 95 % para la poblacin dada p son P 1.96 b) Los lmites de confianza a 99 % para p son 0.55 2.58 = 0.55 0.13 c) Los lmites de confianza a 99.73 % para p son 0.55 2.58 = 0.55 0.13 15.- Que tan grande debe ser una muestra de votantes , en el problema 9 para tener una confianza a) del 95% y b ) 99.73% de que el candidato ser electo ? Solucin Los lmites de confianza para p son P zc = 0.55 zc = 0.55 0.50 zc donde se emplea el estimado P = p = 0.55 con base al problema anterior. Como el candidato ganara solo si recibe mas de 50 5 de los votos de la poblacin se requiere que 0.50 zc / sea menor que 0.05 a) Para el nivel de confianza a 95 %, 0.50 zc / = 0.50 (1.96 ) / = 0.05 b) Para el nivel de confianza a 99.73 %, 0.50 zc / = 0.50 (3) / =0.05 16.- En 40 lanzamientos de una moneda se obtuvieron 24 caras. Calcule los limites de confianza a) 95% y b) 99.73% para la proporcin de caras que se obtendrn en un numero ilimitado de lanzamientos de moneda. Solucin a) Al nivel de 95 % zc = 1.96 colocando P = 24 / 40 = 0.6 y N = 40 b) Al nivel del 99.73 % zc = 3 . Usando la formula del problema 10 se obtiene p = 0.37 y 0.79 Con la formula aproximadamente p = P zc / N se obtiene p = 0.60 0.23 produciendo el intervalo de 0.37 a 0.83 P

Intervalos de Confianza para Diferencias y Sumas 17.- Una muestra de 150 focos de la marca A mostr un promedio de vida de 1400 horas y una desviacin estndar de 120 horas. Una muestra de 200 focos de la marca B mostr un promedio de vida de 1200 horas y una desviacin estndar de 80 horas. Calcule los lmites de confianza a) 95% y b) 99% para la diferencia de medias de los promedios de vida para las poblaciones de las marcas A y B.

Solucin a) Los limites de confianza a 95 % son : 1400 - 1200 1.96 = 510.82 b) Los limites de confianza de 99 5 son 1400 - 1200 2.58 /100= 200 32.6. Luego se lograra una confianza de 99 5 en que la diferencia de medias poblacionales esta entre 167 y 233 horas. 18.- En una muestra aleatoria de 400 adultos y 600 adolescentes que vieron programa de televisin , 100 adultos y 300 adolescentes manifestaron que les gusto. Construya lmites de confianza a) 95% b) 99% para la diferencia de proporciones de todos los adultos y todos los adolescentes que vieron el programa y les gusto. Solucin Los lmites de confianza para la diferencia de proporciones de los dos grupos estn dados por : P1 - P2 Zc Donde los subndices 1 y 2 se refieren a los adolescentes y a los adultos respectivamente : Los lmites de confianza a 95 % son : 0.50 - 0.25 1.96 = 0.25 0.06 b) Los lmites de confianza a 99 5 son : 0.50 - 0.25 2.58 = 0.25 0.08 19.- La fuerza automotriz media de bateras producidas por una compaa es de 45.1 voltios V y la desviacin estndar es de 0.04 V. Si cuatro de dichas bateras se conectan en serie, calcule los lmites de confianza a) 95%, b) 99%, c)a 99.73 % y d) 50% de la fem total. Solucin Si E1 , E2 , E3 y E4 representan la fem de las cuatro bateras entonces se tiene : Los lmites de confianza a 95 % son 180.4 1.96(0.80) = 180.4 0.16 V Los lmites de confianza a 99 % son 180.4 2.58(0.80) = 180.4 0.21 V Los lmites de confianza a 99.73 % son 180.4 3(0.80) = 180.4 0.24 V Los lmites de confianza a 50% son 180.4 0.6745(0.80) = 180.4 0.054 V

Intervalos de Confianza para la Desviacin Estndar 20.- Se calculo que la desviacin estndar de las vidas medias de una muestra de 200 focos de 100 h. Calcule los limites de confianza a) 95%, b) 99% para la desviacin estndar . Solucin Los limites de confianza para la desviacin estndar poblacional estn dados por s zc / 2N = donde zc indica el nivel de confianza.Se utiliza la desviacin estndar muestral para estimar . Los limites de confianza a 95 % son 100 1.96(100)/ 400 = 100 9.8

21.- De que tamao debe ser la muestra de focos del problema 15 para tener un nivel de confianza de 99.73% en que la desviacin estndar poblacional verdadera no difiera de la desviacin estndar muestral por mas de a) 5% y b) 10 % Solucin Los lmites de confianza de 99% para 3s/ ,usando s como un estimado de estndar es : son 3 /=s .El porcentaje de error en la desviacin

Si 300/ = 5 entonces N = 1800. Por lo tanto , el tamao de la muestra debe ser de 1800 o mas . Si 300/ = 10; as N = 450. Por lo tanto , el tamao de la muestra debe ser de 450 o mas .

Error Probable 22.- El voltaje de 50 bateras del mismo tipo tiene una media de 18.2 V y una desviacin estndar de 0.5 V . Calcule a) el error probable de la media y b) los limites de confianza de 50%. Solucin Error probable de la media = / = 0.6475 s/ = 0.6745 s / = 0.674 x = 0.6745

23.- Una medicin fue registrada como 216.480 gramos con un error probable de 0.272 g Cuales son los limites de confianza a 95% para la medicin ? Solucin El error probable es 0.272 = 0.672 xo 0.272/ 0.6745. Por lo tanto, los limites de confianza a 95% son x 1.96 216.480 1.96( 0.272/ 0.6745 ) = 216.480 0.790 gramos x= x =

24.- En una muestra de 100 pacientes sometidos a un cierto tratamiento se obtienen 80 curaciones. Calcular el intervalo de confianza al 95% de la eficacia del tratamiento. 25.- En una muestra aleatoria de 90 pacientes se mide el nivel de glucosa en sangre en ayunas. Se obtiene Estimacin estadstica = 132 mg/dl y s2=109. Construir el IC al 95% para Qu asuncin se ha hecho? Solucin Para evaluar una vacuna para la gripe se selecciona un grupo de 200 individuos de riesgo. Se eligen aleatoriamente a 100 de ellos y se les suministra la vacuna; de ellos 10 pasan la gripe. Construir un IC al 95% para la probabilidad de pasar la gripe si se est vacunado. En los otros 100 pacientes sin vacunar la pasan 20. 26.- En una muestra de seis mediciones, los registros de un cientfico para el dimetro de una esfera fueron 6.33, 6.37, 6.32, 6.37 y 6.38 centmetros. Determine la varianza verdadera. La media es de 6.35 a) .- El estimado sin sesgo y eficiente de la varianza verdadera , es decir la varianza poblacional es : 2 = ( N / N - 1 ) s2 (6.33 - 6.35 )2 + ( 6.37 - 6.35 ) 2 + ( 6.32 - 6.35 ) 2 + ( 6.37 - 6.35 )2 + (6.38 - 6.35 )/ 6 - 1 = 6 x 10 4

27.- Para medir el tiempo de reaccin ,un psiclogo estima que la desviacin estndar de 0.48 segundos Que tan grande debe ser una muestra de mediciones para tener a) 95 % y b) 99 % de confianza en que el error de este estimado no exceder de 0.01 segundos ? Solucin a) Los lmites de confianza a 95 % son de x 1.96 / con el error de estimacin 1.96 / tomando = s = 0.05 segundos se debe ver que el error ser igual a 0.01 segundos si ( 1.96) ( 0.05 )/ = ( 1.96 ) ( 0.48 )/ 0.01 = 94.08 o N = 94.08 b) Los lmites de confianza a 99 % son x 2.58 /

28.- La encuesta de una muestra de 400 volantes ,elegidos aleatoriamente de todos los votantes de un distrito, indica que 60 % de ellos estaban a favor de un candidato en particular. Calcule los limites de confianza a) 95% , b) 99% y c) 99.73% para la proporcin de todos los volantes del candidato. Solucin a) Los lmites de confianza a 95 % para la poblacin dada p son P 1.96 b) Los lmites de confianza a 99 % para p son 0.55 2.58 = 0.55 0.13 c) Los lmites de confianza a 99.73 % para p son 0.55 2.58 = 0.55 0.13 29.- En una muestra de cinco mediciones , los registros de un cientfico para el dimetro de una esfera fueron 5.33, 6.37, 6.33, 6.38 centmetros. Determine estimados sin sesgo y eficientes de a) la media verdadera Solucin a).- el estimado sin sesgo y eficiente de la media verdadera , es decir , la media poblacional es : x= x / N = 5.33 + 6.37 + 6.36 +6.33 + 6.38 / 5 = 6.154 cm P

30.- En 80 lanzamientos de una moneda se obtuvieron 12 caras. Calcule los limites de confianza a) 95% para la proporcin de caras que se obtendrn en un nmero ilimitado de lanzamientos de moneda. Solucin a) Al nivel de 95 % zc = 1.96 colocando P = 12 / 80 = 0.15 y N = 80 31.- En 100 lanzamientos de una moneda se obtuvieron 24 caras. Calcule los limites de confianza a) 95% y para la proporcin de caras que se obtendrn en un nmero ilimitado de lanzamientos de moneda. Solucin a) Al nivel de 95 % zc = 1.96 colocando P = 24 / 100 = 0.24 y N = 100 32.- Queremos estudiar la influencia que puede tener el tabaco con el peso de los nios al nacer. Para ello se consideran dos grupos de mujeres embarazadas (unas que fuman un paquete al da y otras que no) y se obtienen los siguientes datos sobre el peso X, de sus hijos:

En ambos grupos los pesos de los recin nacidos provienen de sendas distribuciones normales de medias desconocidas, y con varianzas que si bien son desconocidas, podemos suponer que son las mismas. Calcular en cuanto influye el que la madre sea fumadora en el peso de su hijo. Solucin Si X1 es la v.a. que describe el peso de un nio que nace de madre no fumadora, y X2 el de un hijo de madre fumadora, se tiene por hiptesis que Si queremos estimar en cuanto influye el que la madre sea fumadora en el peso de su hijo, podemos estimar un intervalo de confianza para Estimacin estadstica , lo que nos dar la diferencia de peso esperado entre un nio del primer grupo y otro del segundo. El estadstico que se ha de aplicar para esta cuestin es: donde : 33.- En una muestra de siete mediciones , los registros de un cientfico para el dimetro de una esfera fueron 6.33, 6.37, 6.32, 6.37, 6.38 y 6.39 centmetros. Determine estimados sin sesgo y eficientes de a) la media verdadera y b) la varianza verdadera. Solucin a).- el estimado sin sesgo y eficiente de la media verdadera , es decir , la media poblacional es : x= x / N = 6.33 + 6.37 + 6.36 +6.32 + 6.37 + 6.38 + 6.39 / 7 = 6.36 cm

b).- El estimado sin sesgo y eficiente de la varianza verdadera , es decir la varianza poblacional es : 2 = ( N / N - 1 ) s2 (6.33 - 6.36 )2 + ( 6.37 - 6.36 ) 2 + ( 6.32 - 6.36 ) 2 + ( 6.37 - 6.36 )2 + ( 6.38 - 6.36 )2 + ( 6.39 - 6.36 )2/ 7 - 1 = 6.66 x 10 - 4 cm2 34.- Una empresa de rboles navideos tienen 5015 rboles listos para cortarse. Se seleccionan aleatoriamente cien de estos rboles y se mide su altura. Las alturas, en pulgadas se muestran en la siguiente tabla. Utilice minitab para establecer un intervalo de confianza a 95% de la altura media a los 5015 rboles. Si estos se venden a $ 2.80 por pie de un lmite superior y uno inferior sobre el valor de los 5015 rboles . 70 61 52 62 63 34 47 35 44 52 70 61 65 51 65 72 55 71 57 75 53 48 55 67 60 60 73 74 43 74 71 53 78 59 56 62 48 65 68 51 73 62 80 53 64 44 67 45 58 48 50 57 72 55 56 62 72 57 49 62 46 61 52 46 72 56 46 48 57 52 54 73 71 70 66 67 58 71 75 50 44 59 56 54 63 43 68 69 55 63 48 49 70 60 68 47 49 69 66 80 Solucin El intervalo de confianza del minitab presentado a continuacin indica que la altura media de los 5000 rboles puede ser tan pequea como 57.24 o tan grande como 61.20 pulgadas. El nmero total de pulgadas para los 5000 rboles oscila entre (57.24) (5015) = 287058.6 y (61.20) (5015) = 306918. Si los rboles se venden a $ 2.80 por pie , entonces el costo por pulgada es de $ 0.23. El valor de los rboles oscila entre ( 286000)(0.23) = $ 65780 y (306000)(0.23) = $ 70380 con 95% de confianza 35.- En 50 lanzamientos de una moneda se obtuvieron 12 caras. Calcule los lmites de confianza a) 95% para la proporcin de caras que se obtendrn en un nmero ilimitado de lanzamientos de moneda.

Solucin a) Al nivel de 95 % zc = 1.96 colocando P = 12 / 50 = 0.24 y N = 76 36.- En 10 lanzamientos de una moneda se obtuvieron 4 caras. Calcule los limites de confianza a) 95% para la proporcin de caras que se obtendrn en un numero ilimitado de lanzamientos de moneda. Solucin a) Al nivel de 95 % zc = 1.96 colocando P = 4 / 10 = 0.4 y N = 60 37.- En 200 lanzamientos de una moneda se obtuvieron 24 caras. Calcule los limites de confianza a) 95% para la proporcin de caras que se obtendrn en un numero ilimitado de lanzamientos de moneda. Solucin a) Al nivel de 95 % zc = 1.96 colocando P = 24 / 200 = 0.12 y N = 88 38.- En 30 lanzamientos de una moneda se obtuvieron 24 caras. Calcule los limites de confianza a) 95% y b) 99.73% para la proporcin de caras que se obtendrn en un numero ilimitado de lanzamientos de moneda. Solucin a) Al nivel de 95 % zc = 1.96 colocando P = 24 / 30 = 0.8 y N = 20 39.- En una muestra de cinco mediciones , los registros de un cientfico para el dimetro de una esfera fueron 6.33, 6.37, 6.33, 100.66 centmetros. Determine estimados sin sesgo y eficientes de a) la media verdadera Solucin a).- el estimado sin sesgo y eficiente de la media verdadera , es decir , la media poblacional es : x= x / N = 6.33 + 6.37 + 6.36 +6.33 + 100.66 / 5 = 25.21 cm

40.- El voltaje de 50 bateras del mismo tipo tiene una media de 18.2 V y una desviacin estndar de 0.5 V . Calcule a) el error probable de la media y b) los limites de confianza de 50%. Solucin 1. Error probable de la media = 0.674 / = 0.6475 s/ = 0.6745 s / = x = 0.6745

METODOS DE ESTIMACION La estimacin se divide en tres grandes bloques, cada uno de los cuales tiene distintos mtodos que se usan en funcin de las caractersticas y propsitos del estudio:

Estimacin puntual o Mtodo de los momentos; o Mtodo de la mxima verosimilitud; o Mtodo de los mnimos cuadrados;

Estimacin por intervalos. Estimacin bayesiana.

Estimacin puntual Consiste en la estimacin del valor del parmetro mediante un slo valor, obtenido de una frmula determinada. Por ejemplo, si se pretende estimar la talla media de un determinado grupo de individuos, puede extraerse una muestra y ofrecer como estimacin puntual la talla media de los individuos. Lo ms importante de un estimador, es que sea un estimador eficiente. Es decir, que sea insesgado(ausencia de sesgos) y estable en el muestreo o eficiente (varianza mnima) sencialmente son tres los parmetros de inters: - En el caso de que investiguemos una variable cuantitativa: a) Para la media de la poblacin tomaremos como aproximacin la media de la muestra.

= b) Para la varianza de la poblacin 2 tomaremos la cuasivarianza de la muestra.

= - Si el estudio se centra en el estudio de un carcter cualitativo el parmetro de inters ser la proporcin de elementos de la poblacin que pertenecen a cierta categora C que lo aproximaremos con la correspondiente proporcin en la muestra.

Mtodo de momentos: La idea bsica consiste en igualar ciertas caractersticas muestrales con las correspondientes caractersticas poblacionales. est sustentado por la siguiente idea: Si una muestra representa perfectamente a una poblacin, los momentos mustrales y poblacionales deben coincidir. La forma de operar para obtener estimadores mediante este mtodo es la de plantear un sistema de ecuaciones en la que el trmino independiente sea el momento muestral E[] = En el caso de que se desconozcan ms de un parmetro de la poblacin se presentarn tantas ecuaciones como parmetros se desconozcan, igualando siempre los primeros momentos poblacionales a los mustrales. Si desconocemos dos parmetros plantearemos el sistema: E[] = Var() = s2 Propiedades de los estimadores obtenidos por el mtodo de los momentos. Insesgadez: No tienen porqu ser insesgados aunque si lo son asintticamente. Consistencia: Son consistentes Normalidad: Son asintticamente normales. El mtodo de la mxima verosimilitud. Fue, en la dcada de 1.920, R.A. Fisher (1.890-1.962) quien desarrollo el mtodo de la mxima verosimiltud como tcnica para la obtencin de estimadores que cumplieran (quizs no todas) las propiedades presentadas anteriormente. La filosofa que sustenta el mtodo es muy simple, pero su ejecucin y la traduccin de sta a frmulas estadstica es un poco ms compleja. Intentaremos realizar esta

transicin mediante un sencillo ejemplo. El mtodo de la mxima verosimilitud consiste en elegir (entre todos los estimadores del parmetro desconocido) aquel estimador que haga mxima la probabilidad de haber obtenido la muestra que hemos encontrado. Debemos elegir como parmetro aquel que hace mxima la probabilidad de observar lo que en realidad hemos visto. Para explicar este galimatas pondremos un ejemplo. Ejemplo: Estimacin de una proporcin. Tengo aqu 5 papeletas, unas llevan marcada una cruz u otras un asterisco y desconocemos la proporcin (p) de cruces (+) (esto es, cuantas hay de cada clase). Antes de nada veamos que posibilidades pueden plantearse: a) 5 + 0 * aqu p=1 b) 4 + 1 * aqu p=0,8 c) 3 + 2 * aqu p=0,6 d) 2 + 3 * aqu p=0,4 e) 1 + 4 * aqu p=0,2 f) 0 + 5 * aqu p=0 Tomaremos una muestra de tamao 3, independientes e identicamentes distribuidas (e.d. cada vez que realizo una extraccin devuelvo la papeleta a la urna (independientes) y las mezclo muy bien antes de cada extraccin (idnticamente distribuidas)) Supongamos que las tres extracciones sucesivas han sido (+,*,*) El objetivo del mtodo es determinar el valor de p (la proporcin) que haga mxima la probabilidad de haber seleccionado esta muestra y no otra. Para empezar la muestra ya nos hace imposible (con probabilidad cero) determinadas proporciones. Este es el caso de las situaciones a) y f). Es ms de forma lgica podemos aventurarnos a indicar cul de las anteriores opciones es ms coherente con la muestra elegida. Parece que lo normal sera que la composicin de la urna fuera d) ya que la proporcin de cruces que tenemos en este caso es la ms parecida a la proporcin que encontramos en nuestra muestra. En este caso el mtodo de la mxima verosimilitud nos indica que debemos maximizar: Mx (en ) P(obtener una muestra determinada) en nuestro ejemplo Mx (en p) P(obtener (+,*,*)) debido a la independencia Mx (en p) P(+)P(*)P(*) = Max (en p) p(1-p)(1-p) el valor de p que hace mxima esta funcin es p=1/3=0,33 Por tanto y tal y como habamos aventurado la composicin que ustedes desconocen (y no van a conocer, as es la realidad) ser la que se corresponda con el valor ms prximo a 1/3, en este caso d). El planteamiento operativo del mtodo de estimacin mximo-verosmil es el siguiente: Tenemos una v.a. con funcin de densidad f(x;) (o f.p.p. P(=x;)) siendo el parmetro desconocido de la poblacin. Tomamos una m.a.s. de de tamao n. Definicin.- A la funcin de densidad conjunta ( o f.p.p. conjunta) de la muestra la llamaremos funcin de verosimilitud que denotaremos como L(x1,...,xn;) o de forma abreviada como L(x:). Como estamos siempre trabajando con muestras independientes resulta que la funcin de verosimilitud es igual al producto de las funciones de densidad (o f.p.p.): L(x:) = L(x1,...,xn;) = f(x1;) . . . f(xn;) El mtodo de la mxima verosimilitud consiste en elegir, de entre los posibles valores del parmetro desconocido, aquel que hace mxima la funcin de verosimiltud. Definicin.- El valor de que maximice la funcin de verosimiltud se llama estimacin mximo-verosimil, y a su forma funcional * estimador mximo-verosimil L(x;*) = mx (en ) L(x;) En general, la funcin de verosimiltud es complicada, y con el fin de simplificar el clculo del mximo, se calcula el mximo al logaritmo (funcin montona creciente) de la funcin de verosimilitud. L(x;*) = mx (en ) ln L(x;) No siempre se puede obtener el estimador mximo-verosmil por el mtodo analtico que hemos expuesto, en cuyo caso se procese de forma directa partiendo del fundamento del mtodo: lo sucedido es lo ms

probable que puede suceder. Como ejemplo de esta situacin el caso de la distribucin uniforme. Otras veces es necesario recurrir a mtodos numricos para determinar este valor mximo. Propiedades de los estimadores mximo verosmiles. La razn por la que este mtodo es til para la obtencin de estimadores es debido a que los estimadores as obtenidos cumplen una serie de propiedades que los hacen deseables: Insesgadez: Los estimadores mximo verosmiles no tienen porque ser insesgados (aunque si lo son asintticamente) Eficiencia: Si existe un estimador de mnima varianza, este es el obtenido por el mtodo de la mxima verosimilitud. Consistencia: Los estimadores mximo verosmiles son consistentes Normalidad: Los estimadores mximo verosmiles son asintticamente normales Suficiencia: El estimador mximo verosmil no tiene porque ser suficiente, pero si un parmetro tiene un estimador consistente, el estimador mximo verosmil es funcin de ste. El estimador de mnimo error cuadrtico medio. Supongamos que estamos estudiando una v.a. que sabemos que se ajusta a un modelo probabilstico con funcin de distribucin F conocida que depende de un parmetro desconocido. Con el fin de estimar el valor de este parmetro consideramos el estimador *. * es una v.a. funcin de la m.a.s. Como tal v.a. podr tomar diversos valores dependiendo de la muestra seleccionada. El error que cometemos al estimar mediante * ser la diferencia *-. Unas veces esta diferencia ser positiva (cometiendo un error por exceso) y otras veces la diferencia ser negativa (cometiendo un error por defecto). Por tanto la diferencia *- ser tambin una v.a. que nos informa del error que estamos cometiendo al realizar la estimacin. Con el fin de obtener una medida global de este error vamos a eliminar el signo de los errores considerando la diferencia al cuadrado (*-)2 (error cuadrtico). De esta manera podemos obtener una medida del error medio que estamos cometiendo al realizar la estimacin mediante la esperanza matemtica del error cuadrtico. Definimos as: Definicin.- Se llama error cuadrtico medio del estimador a: ECM(*) = E[ (*-)2 ] Si el error cuadrtico medio es un nmero pequeo, podramos asegurar que error que estamos cometiendo en la estimacin es pequeo (en media), e inversamente, si el ECM es un nmero grande, cabe esperar que la estimacin que realicemos no sea muy precisa. A partir de esta idea vamos a deducir las propiedades ms importantes que debe cumplir un estimador para ser considerado aceptable. Vamos ahora a encontrar otra expresin para el ECM de un estimador: ECM(*) = E[ (*-)2 ] = E[ ( { *- E[*] } - { -E[*] } ) 2 ] = = E[ ( *- E[*] ) 2 ] + E[ ( -E[*] ) 2 ] - 2 E[( *- E[*] )( -E[*] ) ] = = Var (*) + ( -E[*] ) 2 2( -E[*] ) E[( *- E[*] ) ] = = Var (*) + ( -E[*] ) 2 De esta manera podemos observar que el error cuadrtico medio que cometemos al realizar una estimacin es la suma de dos contribuciones positivas. En primer lugar el tamao del error vendr determinado por la varianza del estimador, es decir, por su precisin. Si el estimador tiene poca capacidad de variacin para los distintas muestras que podamos tomar esto contribuir de forma positiva a la obtencin de un error ms pequeo. En segundo lugar el tamao del error vendr determinado por la diferencia entre el valor medio que tome el estimador y el parmetro desconocido. As, por ejemplo, si para los distintos valores mustrales la media del estimador coincide con habremos obtenido un buen estimador. Observamos finalmente que las propiedades que nos van a permitir medir la calidad de un estimador estn en funcin de sus dos primeros momentos: la media y la varianza de un estimador. Estas no van a ser las nicas propiedades que observemos sobre la calidad de los distintos estimadores, pero quizs s las ms importantes. Ejemplo: Supongamos que estamos estudiando un fenmeno aleatorio que suponemos que se ajusta a una v.a. , Normal N(;3). Con el fin de determinar el valor medio desconocido de la poblacin se toma una m.a.s. de tamao n y se plantean tres posibles estimadores: * = i / (n-1) ** = i / n = la media muestral

*** = i / (n+1) Con el fin de saber cual de ellos es mejor se calcula el ECM de cada uno de ellos, para lo cual necesitamos saber cuales son sus dos primeros momentos: E[*] = n/(n-1) Var(*) = 30 n/(n-1)2 E[**] = Var(**) = 30 / n E[***] = n/(n+1) Var(***) = 30 n/(n+1)2 De tal forma que: ECM(*) = 30 n/(n-1)2 + (- n/(n-1))2 = (30n+2)/(n-1)2 ECM(**) = 30 /n + (- )2 = 30/n ECM(***) = 30 n/(n+1)2 + (n/(n+1))2 = (30n+2)/(n+1)2 Como podemos observar, el error cuadrtico medio queda en funcin de dos valores: El tamao muestral y el valor desconocido del parmetro. Veamos esto en una grfica (tomando n=3): Observando la grfica, deducimos sin ningn problema que el estimador * es el peor de los tres. Ahora bien dependiendo del valor del parmetro desconocido unas veces - deducimos sin ningn problema que el estimador * es el peor de los tres. Ahora bien dependiendo del valor del parmetro desconocido unas veces ser mejor ** y otras ***. Claro esto nos lleva a una situacin difcil pues este valor es desconocido. Esta situacin hace disminuir la aplicacin universal de este mtodo para determinar la calidad de un estimador. El error cuadrtico medio depende en ciertos casos del parmetro desconocido. En los tres casos el ECM disminuye conforme aumenta el tamao muestral (algo que comentaremos mas adelante)

EL MTODO DE LOS MNIMOS CUADRADOS nos permite encontrar la ecuacin de una recta a partir de los datos experimentales. Es decir, utilizando solamente las mediciones experimentales se obtendr la pendiente y la ordenada al origen de la recta que mejor se ajuste a tales mediciones El procedimiento mas objetivo para ajustar una recta a un conjunto de datos presentados en un diagrama de dispersin se conoce como "el mtodo de los mnimos cuadrados". La recta resultante presenta dos caractersticas importantes: 1. Es nula la suma de las desviaciones verticales de los puntos a partir de la recta de ajuste (Y - Y) = 0. 2. Es mnima la suma de los cuadrados de dichas desviaciones. Ninguna otra recta dara una suma menor de las desviaciones elevadas al cuadrado (Y - Y) 0 (mnima). El procedimiento consiste entonces en minimizar los residuos al cuadrado Ci Re emplazando nos queda

La obtencin de los valores de a y b que minimizan esta funcin es un problema que se puede resolver recurriendo a la derivacin parcial de la funcin en trminos de a y b: llamemos G a la funcin que se va a minimizar:

Tomemos las derivadas parciales de G respecto de a y b que son las incgnitas y las igualamos a cero; de esta forma se obtienen dos ecuaciones llamadas ecuaciones normales del modelo que pueden ser resueltas por cualquier mtodo ya sea igualacin o matrices para obtener los valores de a y b.

Derivamos parcialmente la ecuacin respecto de a

Primera ecuacin normal Derivamos parcialmente la ecuacin respecto de b

Segunda ecuacin normal Los valores de a y b se obtienen resolviendo el sistema de ecuaciones resultante. Veamos el siguiente ejemplo: En un estudio econmico se desea saber la relacin entre el nivel de instruccin de las personas y el ingreso. EJEMPLO 1 Se toma una muestra aleatoria de 8 ciudades de una regin geogrfica de 13 departamentos y se determina por los datos del censo el porcentaje de graduados en educacin superior y la mediana del ingreso de cada ciudad, los resultados son los siguientes: CIUDAD : 1 2 3 4 5 6 7 8 % de (X)

Graduados : 7.2 6.7 17.0 12.5 6.3 23.9 6.0 10.2 Ingreso (Y) Mediana : 4.2 4.9 7.0 6.2 3.8 7.6 4.4 5.4 (0000)

Tenemos las ecuaciones normales y = na + bx xy = ax + bx Debemos encontrar los trminos de las ecuaciones y, x, xy, x Por tanto procedemos de la siguiente forma: Y 4.2 4.9 7.0 6.2 3.8 7.6 4.4 5.4 43.5 X 7.2 6.7 XY X

30.24 51.84 32.83 44.89

17.0 119.00 289.00 12.5 77.50 156.25 6.3 6.0 23.94 39.69 26.40 36.00 23.9 181.64 571.21 10.2 55.08 104.04 89.8 546.63 1292.92

Sustituyendo en las ecuaciones los resultados obtenidos tenemos: 43.50 = 8a + 89.8b 546.63 = 89.8a + 1292.92b multiplicamos la primera ecuacin por (-89.8) y la segunda por (8) as:

43.50 = 8a + 89.8b (-89.8) 546.63 = 89.8a + 1292.92b (8) -3906.30 = -718.4a - 8064.04b 4373.04 = 718.4a + 10343.36b 466.74 = -0- 2279.32b

Este valor de b lo reemplazamos en cualquiera de las ecuaciones para obtener a as: Reemplazando b = 0.20477 en la primera ecuacin normal 43.5 = 8a + 89.8 (0.20477) 43.5 = 8a + 18.3880 43.5 - 18.3880 = 8a 25.1120 = 8a

Tenemos entonces que los coeficientes de regresin son : a = 3.139 y b = 0.20477. Por tanto la ecuacin de regresin nos queda:

Significa entonces que por cada incremento en una unidad en X el valor de

se aumenta en 0.20477

Esta ecuacin permite estimar el valor de para cualquier valor de X, por ejemplo: Una ciudad que tiene un porcentaje de graduados a nivel superior del 28% la mediana de ingreso para la ciudad ser:

Los valores a y b tambin se pueden obtener de la siguiente forma: partiendo de las ecuaciones normales tenemos:

Si dividimos todos los trminos de la ecuacin (1) entre n nos queda:

Tenemos entonces que el primer termino es incgnita b multiplicada por

el segundo termino es la incgnita a y el tercer termino es la

por tanto nos queda:

entonces

Reemplazando a en la ecuacin (2) tenemos

a = 5.4375 0.20477 (11.2250) = 5.4375 2.2985 = 3.139 Se debe tener presente la diferencia entre el valor de obtenido con la ecuacin de regresin y el valor de Y

observado. Mientras es una estimacin y su bondad en la estimacin depende de lo estrecha que sea la relacin entre las dos variables que se estudian; Y es el valor efectivo, verdadero obtenido mediante la observacin del investigador. En el ejemplo Y es el valor mediano del ingreso que obtuvo el investigador utilizando todos los ingresos observados en cada ciudad y utilizado para obtener la ecuacin de regresin es el valor estimado con base en el modelo lineal

Los valores estimados y observados pueden no ser iguales por ejemplo la primera ciudad tiene un ingreso mediano observado de Y = 4.2 al reemplazar en la ecuacin el porcentaje de graduados obtenemos un estimado de

Grficamente lo anterior se puede mostrar as:

Claramente se observa en la grfica que hay una diferencia entre el valor efectivo de Y y el valor estimado; esta diferencia se conoce como error en la estimacin, este error se puede medir. A continuacin se ver el procedimiento. Error estndar en la estimacin El error estndar de la estimacin designado por sYX mide la disparidad "promedio" entre los valores observados y los valores estimados de . Se utiliza la siguiente formula.

Debemos entonces calcular los valores de para cada ciudad sustituyendo en la ecuacin los valores de los porcentajes de graduados de cada ciudad estudiada.

Y

X

4.2 4.9 7.0 6.2 3.8 7.6 4.4 5.4

7.2 6.7 17.0 12.5 6.3 23.9 6.0 10.2

4.6 4.5 6.6 5.7 4.4 8.0 4.4 5.2

-0.4 0.4 0.4 0.5 -0.6 -0.4 0.0 0.2

0.16 0.16 0.16 0.25 0.36 0.16 0.00 0.04 1.29

Syx = 0.46 (decenas de miles $) Como esta medida trata de resumir la disparidad entre lo observado y lo estimado, es decir, trata de medir la diferencia promedio entre lo observado y lo estimado esperado de acuerdo al modelo, puede considerarse como un indicador del grado de precisin con que la ecuacin de regresin, describe la relacin entre las dos variables. Este error estndar se ve afectado por las unidades y sus cambios ya que es una medida absoluta, pues, se da en la misma unidad de medida que esta dada la variable Y; en el ejemplo 0.46 sern decenas de miles de pesos, razn por la cual no es posible comparar con las relaciones de variables dadas en distinta unidad de medida. Es necesario entonces calcular una medida que interprete o mida mejor el grado de relacin entre las variables.

EL NIVEL DE SIGNIFICACIN cuando no es probable que haya sido debido al azar. Una "diferencia estadsticamente significativa" solamente significa que hay evidencias estadsticas de que hay una diferencia; no significa que la diferencia sea grande, importante, o significativa en el sentido estricto de la palabra. El nivel de significacin de un test es un concepto estadstico asociado a la verificacin de una hiptesis. En pocas palabras, se define como la probabilidad de tomar la decisin de rechazar la hiptesis nula cuando sta es verdadera (decisin conocida como error de tipo I, o "falso positivo"). La decisin se toma a menudo utilizando el valor P (o p-valor): si el valor P es inferior al nivel de significacin, entonces la hiptesis nula es rechazada. Cuanto menor sea el valor P, ms significativo ser el resultado.

En otros trminos, el nivel de significacin de un contraste de hiptesis es una probabilidad P tal que la probabilidad de tomar la decisin de rechazar la hiptesis nula - cuando sta es verdadera - no es mayor que P. El nivel de significacin es comnmente representado por el smbolo griego (alpha). Son comunes los niveles de significacin del 0,05, 0,01 y 0,001. Si un contraste de hiptesis proporciona un valor P inferior a , la hiptesis nula es rechazada, siendo tal resultado denominado 'estadsticamente significativo'. Cuanto menor sea el nivel de significacin, ms fuerte ser la evidencia de que un hecho no se debe a una mera coincidencia (al azar). En algunas situaciones es conveniente expresar la significacin estadstica como 1 . En general, cuando se interpreta una significacin dada, se debe tomar en cuenta que, precisamente, est siendo probada estadsticamente. Diferentes niveles de tienen distintas ventajas y desventajas. Valores pequeos de otorgan mayor confianza en la determinacin de la significacin, pero hacen correr mayores riesgos de equivocarse al rechazar una hiptesis nula falsa (error de tipo II o "falso negativo"), con lo cual se pierde potencia de estudio. La eleccin de un nivel de inevitablemente envuelve un compromiso entre significacin y potencia, y consecuentemente entre errores de tipo I y de tipo II. En algunos campos, por ejemplo fsica nuclear y de partculas, es comn expresar la significacin estadstica en unidades de "" (sigma), el desvo estndar de una distribucin de Gauss. La significacin estadstica de " " puede ser convertida en un valor por medio de la funcin error:

El uso de est motivado por la importancia de la distribucin gaussiana para medir incertezas. Por ejemplo, si una teora predice que un parmetro tendr un valor de, digamos, 100, y el parmetro medido resulta de 109 3, luego se puede informar la medicin como un "desvo de 3" de la prediccin terica. En trminos de , esta afirmacin es equivalente a decir que "asumiendo que la teora sea cierta, la posibilidad de obtener el resultado experimental por casualidad es 0,27% (dado que 1 erf(3/2) = 0,0027). Los niveles fijos de significacin tales como los mencionados pueden ser considerados como tiles en el anlisis exploratorio de datos. Sin embargo, la recomendacin de la estadstica moderna es que, cuando el resultado de un test es esencialmente el resultado final de un experimento o de otro estudio, el valor P debera ser citado explcitamente. Y, sobre todo, debera ser citado si el valor P es juzgado o no como significativo. Esto es para permitir que el mximo de informacin sea transferido de un resumen de estudio al metaanlisis. Si es un parmetro, es decir una constante que puede ser determinada con ayuda de los modelos de probabilidad de una o varias poblaciones univariantes o multivariantes, y pretendemos desarrollar el siguiente contraste de hiptesis estadsticas :

Un estadstico conveniente, , relacionado de alguna forma con el parmetro , cuya ley de probabilidad sea conocida, aunque sea de manera aproximada, sea cual sea el valor de este parmetro, permitir cuantificar el nivel de significacin del contraste , respecto a un criterio determinado. El criterio o regla que, partiendo de la

veracidad de H0 , permita adoptar una decisin: rechazar o no esta hiptesis nula, define una regin R , crtica o de rechazo de H0 :

Por tanto, el nivel de significacin se define como la probabilidad de rechazar errneamente la hiptesis nula:

LA REGIN CRTICA es el conjunto de valores de la prueba estadstica que puede causar el rechazo de la hiptesis nula. EL NIVEL DE SIGNIFICANCIA (denotado por ) es la probabilidad de que la prueba estadstica caer en la regin crtica cuando la hiptesis nula es actualmente cierta. Si la prueba estadstica cae en la regin crtica, se rechaza la hiptesis nula, entonces es la probabilidad de cometer el error de rechazar la hiptesis nula cuando sta es cierta. Las selecciones comunes de son 0.05, 0.01, y 0.10. EL VALOR CRTICO es cualquier valor que separa la regin crtica (donde se rechaza la hiptesis nula) de los valores de la prueba estadstica que no conducen al rechazo de la hiptesis nula. Los valores crticos dependen de la naturaleza de la hiptesis nula, de la relevancia de la distribucin de muestreo, y el nivel de significancia Los extremos o colas de una distribucin son las regiones limitadas por los valores crticos. Algunas hiptesis son de dos colas, algunas de la cola derecha, y otras de la cola izquierda. Prueba de Dos Colas (Two-tailed): La regin crtica es en las dos regiones extremas bajo la curva. Prueba de Cola Derecha (Right-tailed): La regin crtica es en la regin extrema derecha bajo la curva. Prueba de Cola Izquierda (Left-tailed): La regin crtica es en la regin extrema de la izquierda bajo la curva. En pruebas de dos colas (two-tailed) el nivel de significancia es dividido igualmente entre las dos colas que constituyen la regin crtica. Error de Tipo I: Es el error de rechazar la hiptesis nula cuando sta es actualmente cierta. El smbolo (alpha) es usado para representar la probabilidad del error de tipo I. Error de Tipo II: Es el error de no rechazar la hiptesis nula cuando sta es actualmente falsa. El smbolo (beta) es usado para representar la probabilidad del error de tipo II. Un paso en nuestro proceso para probar hiptesis involucra la seleccin de un nivel de significancia , que es la probabilidad del error de Tipo I. Al menos, no se selecciona (que es la probabilidad del error de Tipo II). Sera grandioso de que siempre se tuviera un = 0 y un = 0, pero en la realidad, esto no es posible. De manera, que se tiene que intentar manejar las probabilidades de error y . Matemticamente, puede ser demostrado de que , , y el tamao de la muestra n estn todos relacionados, de manera que cuando se determina cualesquiera de los dos de ellos, el tercero es automticamente determinado.

La prctica usual en la investigacin es seleccionar los valores de y n, de manera que el valor de es determinado. Las siguientes consideraciones prcticas pudieran ser relevantes: Para cualquier valor fijo , un aumento en el tamao de la muestra n causar una disminucin en . Esto es, una muestra grande reducir la oportunidad de cometer el error de no rechazar la hiptesis nula cuando sta es actualmente falsa. Para cualquier valor fijo del tamao de la muestra n, una disminucin en , causar un aumento en . De forma inversa, un aumento en , causar una disminucin en . Para disminuir ambos, y , se aumenta el tamao de la muestra.

Error tipo I, se rechaza la hiptesis nula H0 cuando es cierta. Error tipo II, se acepta la hiptesis nula H0 cuando es falsa.

Decisin:

ACEPTAR H0 RECHAZAR H0

Situacin real: H0 es cierta H0 es falsa CORRECTO ERROR II ERROR I CORRECTO

Tabla 1.1: Situaciones posibles en un contraste de hiptesis. Debe tenerse en cuenta que slo se puede cometer uno de los dos tipos de error y, en la mayora de las situaciones, se desea controlar la probabilidad de cometer un error de tipo I. Se denomina nivel de significacin de un contraste a la probabilidad de cometer un error tipo I, se denota por y, por tanto,

Fijar el nivel de significacin equivale a decidir de antemano la probabilidad mxima que se est dispuesto a asumir de rechazar la hiptesis nula cuando es cierta. El nivel de significacin lo elige el experimentador y tiene por ello la ventaja de tomarlo tan pequeo como desee (normalmente se toma = 0'05, 0'01 o 0'001). La seleccin de un nivel de significacin valores del estadstico de contraste: conduce a dividir en dos regiones el conjunto de posibles

La regin de Rechazo, con probabilidad , bajo H0. La regin de Aceptacin, con probabilidad 1 - ,bajo H0.

0,4

f. densidad de D

0,3 0,2 0,1 0 -4

D/H_0

D/H_1

E_ii E_i -2 0 1.65 2 4 6

R. Aceptacin

R.Rechazo

Figura 1.1. Tipos de errores. Contraste unilateral, P

= 0'05, P

= 0'36,

Si el estadstico de contraste toma un valor perteneciente a la regin de aceptacin, entonces no existen evidencias suficientes para rechazar la hiptesis nula con un nivel de significacin y el contraste se dice que estadsticamente no es significativo. Si, por el contrario, el estadstico cae en la regin de rechazo entonces se asume que los datos no son compatibles con la hiptesis nula y se rechaza a un nivel de significacin . En este supuesto se dice que el contraste es estadsticamente significativo. Por tanto, resolver un contraste estadstico es calcular la regin de aceptacin y la regin de rechazo y actuar segn la siguiente regla de decisin: Se obtiene la muestra = y se calcula el estadstico del contraste .

(1.8) Segn la forma de la regin de rechazo, un contraste de hiptesis, paramtrico o no, se denomina Contraste unilateral o contraste de una cola es el contraste de hiptesis cuya regin de rechazo est formada por una cola de la distribucin del estadstico de contraste, bajo H0. Contraste bilateral o contraste de dos colas es el contraste de hiptesis cuya regin de rechazo est formada por las dos colas de la distribucin del estadstico de contraste, bajo H0.

Figura Contraste bilateral. H0 : = 0, H1 :

0.

Figura. Contraste unilateral H0 : > 0, H1 : < 0.