Trabajo de Estadistica Of

23
Año de la Inversión para el Desarrollo Rural y Seguridad AlimentariaUNIVERSIDAD NACIONAL DE PIURA FACULTAD DE INDUSTRIAL ESCUELA DE INGENIERÍA AGROINDUSTRIAL ALUMNOS: CURSO: ESTADISTICA GENERAL TEMA: DISTRIBUCIONES MUESTRALES Piura Introducción A menudo necesitamos estudiar las propiedades de una determinada población, pero nos encontramos con el inconveniente de que esta es demasiada numerosa, como para analizar a cada individuo que la componen. Por tal motivo recurrimos a tomar una muestra de la misma y a utilizar la información obtenida para hacer inferencias sobre toda la

description

ESTADISTICA

Transcript of Trabajo de Estadistica Of

Page 1: Trabajo de Estadistica Of

“Año de la Inversión para el Desarrollo Rural y Seguridad Alimentaria”

UNIVERSIDAD NACIONAL DE PIURA

FACULTAD DE INDUSTRIAL

ESCUELA DE INGENIERÍA AGROINDUSTRIAL

ALUMNOS:

CURSO:

ESTADISTICA GENERAL

TEMA:

DISTRIBUCIONES MUESTRALES

Piura

Introducción

A menudo necesitamos estudiar las propiedades de una determinada población, pero nos encontramos con el inconveniente de que esta es demasiada numerosa, como para analizar a cada individuo que la componen. Por tal motivo recurrimos a tomar una muestra de la misma y a utilizar la información obtenida para hacer inferencias sobre toda la población. Estas estimaciones son válidas, solo si la muestra tomada es “representativa” de la población.

Así, el muestreo es una técnica que utilizaremos para inferir algo respecto de una población, mediante la selección de una muestra de la población. En algunos casos el

Page 2: Trabajo de Estadistica Of

muestreo es la única manera de obtener alguna conclusión de una población, entre otras causas, por el coste y el tiempo que tomaría estudiar a cada elemento de la población.

Objetivos

Entender la necesidad de porque en numerosas ocasiones una muestra es la única forma factible de conocer a una población

Explicar los métodos utilizados para obtener una muestra Entender cómo se diseña una distribución muestral para le media de la muestra Entender la importancia del teorema central del limites, así como su aplicación

CONCEPTOS FUNDAMENTALES

Población:

 Es la colección de datos que corresponde a las características de  la totalidad de individuos, objetos, cosas o valores en un proceso de investigación.

Para su estudio, en general se clasifican en Poblaciones Finitas y Poblaciones Infinitas.

Page 3: Trabajo de Estadistica Of

Poblaciones Finitas: Constan de un número determinado de elementos, susceptible a ser contado. Ejemplo: Los empleados de una fábrica, elementos de un lote de producción, etc.

Poblaciones Infinitas: Tienen un número indeterminado de elementos, los cuales no pueden ser contados. Ejemplo: Los números naturales.

Así también las poblaciones pueden ser clasificadas en Reales e Hipotéticas, las reales son aquellas concretas, que ya existen. Ejemplo: Los aspirantes a un puesto de trabajo, los vendedores de una empresa. Mientras que las hipotéticas, son las formas imaginables en que se podría presentar un suceso. Ejemplo: Estimaciones de la población económicamente activa dentro de diez años.

En toda investigación lo ideal sería contar con observaciones o características de todos los elementos de nuestro grupo de interés, pero en muchas ocasiones eso sería muy caro y/o muy tardado o simplemente imposible, es por ello que se toman muestras.

Muestra: “Es una parte representativa de la población que es seleccionada para ser estudiada, ya que la población es demasiado grande para ser estudiada en su totalidad”

Ya que se ha definido que es población y muestra, se procede a definir dos conceptos que se encuentran íntimamente relacionados a ellos:

Parámetro: Son las medidas o características descriptivas inherentes a las poblaciones. Los salarios promedio de todos los empleados de una empresa, puede ser un ejemplo de parámetro.

Estadístico o Estadígrafo: Son las medidas descriptivas inherentes a una muestra, las cuales pueden usarse como estimación del parámetro. Como ejemplo podría tomarse los salarios promedio de una muestra de los empleados de la empresa.

Definición muestra aleatoria simple

En principio, podríamos distinguir dos tipos de muestra: la probabilística y la no probabilística, en el sentido en que una muestra probabilística es una muestra seleccionada de tal forma que cada elemento de la población tiene la misma probabilidad de formar parte de la muestra.

Page 4: Trabajo de Estadistica Of

De esta manera, si se utilizan métodos no probabilísticos, no todos los elementos de la población tienen la misma probabilidad de ser incluidos. En este caso, diríamos que los resultados están sesgados, lo cual quiere decir que tal vez los resultados de la muestra no sean representativos de la población.

Una forma de asegurarnos de que el subconjunto escogido es representativo de toda la población consiste en tomar una muestra aleatoria simple, la cual se caracteriza por:

1. Cada miembro de la población tiene la misma probabilidad de ser elegido, y

2. Las observaciones son elegidas siguiendo una secuencia aleatoria

‰ Error en el muestreo:

Tras entender la importancia de escoger una muestra representativa de la población, veamos que para lograr esto, podemos seleccionar, por ejemplo, una muestra aleatoria simple de la población, pero es muy improbable que la media de la muestra sea idéntica a la media de la población.

De la misma manera, tal vez la desviación estándar u otra medición que se calcule con base en la muestra no sea igual al valor correspondiente de la población

Por tanto, es posible que existan ciertas diferencias entre los estadísticos de la muestra (como la media o la desviación estándar), y los parámetros de población correspondientes. A dicha diferencia se le conoce como el “ERROR DE MUESTREO”

Distribución muestral de medias

Si tenemos una muestra aleatoria de una población N (µ,θ ), se sabe (Teorema del límite central) que la función de distribución de la probabilidad de la media muestral es

también normal con media µ y varianza σ 2/n. Esto es exacto para poblaciones normales y aproximado (buena aproximación con n>30) para poblaciones cualesquiera.

Es decir σ√n

es el error típico, o error estándar de la media.

¿Cómo usamos esto en nuestro problema de estimación? 1º problema: No hay tablas para cualquier normal, sólo para la normal µ=0 y σ=1 (la llamada z); pero haciendo la transformación (llamada tipificación)

z= x−μσ /√n

Una normal de media µ y desviación σ  se transforma en una z.

Page 5: Trabajo de Estadistica Of

Llamando Zα al valor de una variable normal tipificada que deja a su derecha un área bajo la curva de σ , es decir, que la probabilidad que la variable sea mayor que ese valor es a(estos son los valores que ofrece la tabla de la normal)

podremos construir intervalos de la forma

Z1−α /2<X−μσ /√n

<Zα /2

Para los que la probabilidad es 1 - α .

Teniendo en cuenta la simetría de la normal y manipulando algebraicamente

X−Zα /2σ√n

<μ<X+Zα /2σ√n

Que también se puede escribir

X ± Zα /2σ√n

O, haciendo énfasis en que σ /√nes el error estándar de la media,

X ± Z α2

EE (X )

Recuérdese que la probabilidad de que µ esté en este intervalo es 1 - α . A un intervalo de este tipo se le denomina intervalo de confianza con un nivel de confianza del 100(1 - α) %, o nivel de significación de 100α%. El nivel de confianza habitual es el 95%, en cuyo caso α=0,05 y Zα /2 =1,96. Al valor Xse le denomina estimación puntual y se dice que Xes un estimador de µ.

Page 6: Trabajo de Estadistica Of

Ejemplo: Si de una población normal con varianza 4 se extrae una muestra aleatoria de tamaño 20 en la que se calcula X=5.3se puede decir que µ tiene una probabilidad de 0,95 de estar comprendida en el intervalo

5.3 ±1.96 2√20

=(4.42 ,6.18)

Que sería el intervalo de confianza al 95% para µ

En general esto es poco útil, en los casos en que no se conoce µ tampoco suele conocerse σ 2; en el caso más realista de σ 2 desconocida los intervalos de confianza se construyen con la t de Student (otra función de distribución de la probabilidad continua para la que hay tablas) en lugar de la z.

X ± t α /2s√n

O, haciendo énfasis en que s/√nes el error estándar estimado de la media,

X ± t α2

E E(X )

Esta manera de construir los intervalos de confianza sólo es válida si la variable es normal. Cuando n es grande (>30) se puede sustituir t por Z sin mucho error.

DISTRIBUCIÓN MUESTRAL DE LA DIFERENCIA DE DOS MEDIAS MUESTRAS INDEPENDIENTES

En muchos problemas se está interesado en comparar los parámetros, (en particular las medias) de dos poblaciones (o dos variables aleatorias). La comparación puede hacerse sobre la base de dos muestras aleatorias “INDEPENDIENTES”. Supongamos ahora que

tenemos dos poblaciones “X” y “Y”, la primera con media μx y varianza σ x2 , y la

segunda media μy y varianza σ y2. Sea X la media de la muestra aleatoria de tamaño n,

extraída de la primera población, e Y la media de la muestra aleatoria de tamaño m, tomada de las segunda población. La distribución de la diferencia de dos medias muéstrales X−Y , se llama, distribución muestral de la diferencia de dos medias.

El siguiente diagrama da una visión esquemática de lo expresado en el párrafo anterior.

POBLACION “x” con media μx y

varianza σ x2

Población “Y” con media μy y

varianza σ y2

Page 7: Trabajo de Estadistica Of

Muestra aleatoria de tamaño n Muestra aleatoria de tamaño m

X1 , X2 ,…..X n Y 1 ,Y 2 , …,Y n

X=1n∑i=1

n

x i Y=1n∑i=1

n

y i

1. μX=μx , σ x2=

σ x2

n , y μY=μY , σ y2=

σ y2

n

2. X−Y es una variable aleatoria con media:

μX−Y=E(X−Y )

Y su varianza teniendo en cuenta que “X” e “Y” son independientes es:

σ x− y=√ σ x2

n+

σ y2

m

3. Para n y m suficientemente grande, X se distribuye aproximadamente por una normal con media μx y varianza σ x

2/n e Y se distribuye aproximadamente por una normal con media μYy varianza σ Y

2 /m. En símbolos

X N (μx ,σ x

2

n ) ,Y N (μ y ,σ y

2

m )4. Por la propiedad reproductiva de la normal, la distribución muestral de la

diferencia de medias X−Y es aproximadamente una distribución normal con

media μx−μyy varianza σ x2

n + σ y

2

m . En símbolos

( X−Y ) N ¿ + σ y2

m )

Y la variable aleatoria

( x− y )−(μx−μ y)

√ σ x2

n+

σ y2

m

Tiene aproximadamente una distribución N (0,1).

Page 8: Trabajo de Estadistica Of

Nota: observe que los resultados obtenidos para la distribución x− y son válidos:

(a) Cuando el muestreo es con reemplazamiento de dos poblaciones finitas.(b) Cuando el muestreo es con reemplazamiento o sin reemplazamiento de dos

poblaciones infinitas, discretas o continuas.(c) Cuando el muestreo es sin reemplazamiento de dos poblaciones finitas, cuyos

tamaños N 1 y N2son grandes con respecto a los tamaños n y m de la muestra, respectivamente.

En el caso que la población es pequeña y el muestreo es sin reemplazamiento

entonces se debe calcular σ x2

n y σ y

2

m. El teorema siguiente formaliza la distribución

muestral de la diferencia de medias.

Teorema Si X y Y son las medias de dos muestras aleatorias de dos poblaciones

“X” y “Y”, con media μx y μy , varianza σ x2 y σ y

2, respectivamente, entonces la distribución muestral de la diferencia de media X - Y , es aproximadamente una distribución normal con media μx− y=μx− y

Y varianza σ x− y2 =

σ x2

n + σ y

2

m y la variable aleatoria

Z=(x− y )−(μx−μ y)

√ σ x2

n+

σ y2

m

Tiene aproximadamente una distribución N (0.1)

Nota 1: si n y m son mayores o iguales a 30, la aproximación normal para la distribución de X−Y es óptima.

Nota 2: si las poblaciones son normales, el teorema se cumple cualesquiera que sean los tamaños de las muestras.

Distribución muestral de proporciones

La proporción poblacional se define como la razón entre el número de unidades poblacionales que poseen cierta característica y el total de unidades de la población. 

Existen ocasiones en las cuales no estamos interesados en la media de una muestra, sino que queremos investigar la proporción de personas con cierta preferencia, etc. en la muestra. La distribución muestral de proporciones es la adecuada para dar respuesta a estas situaciones. Esta distribución se genera de igual manera que la distribución muestral de medias, a excepción de que al extraer las muestras de la población se

Page 9: Trabajo de Estadistica Of

calcula el estadístico proporción (p=x/n en donde “x” es el número de éxitos u observaciones de interés y “n” el tamaño de la muestra)

El siguiente diagrama sirve para explicar el concepto de distribución muestral de proporciones.

La distribución muestral de proporciones está estrechamente relacionada con la distribución binomial; una distribución binomial es una distribución del total de éxitos en las muestras, mientras que una distribución de proporciones es la distribución de un promedio (media) de los éxitos.

Fórmula de la distribución muestral de proporciones:

Notar que Pes la proporción de la población pero n es el tamaño de la muestra.

La fórmula que se utilizará para el cálculo de probabilidad en una distribución muestral de proporciones está basada en la aproximación de la distribución normal a la binomial. Esta fórmula nos servirá para calcular la probabilidad del comportamiento de la proporción en la muestra.

Page 10: Trabajo de Estadistica Of

A esta fórmula se le puede agregar el factor de corrección de   si se cumple con las condiciones necesarias.

Distribución muestral de la diferencia de dos proporciones

Sean X1 , X2 ,…..X n e Y 1 ,Y 2 ,…,Y n dos muestras aleatorias independientes de tamaños n1 y n2 seleccionadas respectivamente de dos poblaciones independientes de Bernoulli B (1, P1 ) y B(1 , P2) donde P1 y P2 son las proporciones de éxito en las poblaciones respectivas. Sean además las proporciones muéstrales:

P1=∑i=1

n1

X i

n1

=Xn1 y

P2=∑i=1

n2

Y 1

n2= Y

n2

Donde x B (n1 , P1) y Y B(n2 , P2) .

Entonces, la variable aleatoria P1−P2 , tiene las propiedades siguientes:

a) Su media es μP1−P2=E ¿ )

b) Su varianza es:

σ P1−P2

2 =P1(1−p1)

n1+

P2(1− p2)n2

c) Para n1 y n2 suficientemente grandes (n>30) se tiene que:

Z=P1−P2−( p1−p2)

σ P1−P2

N (0,1)

Donde, el error estándar o típico de P1−P2 está dado por:

σ P1−P2=√ P1(1−p1)

n1+

P2(1−p2)n2

LA VARIANZA MUESTRAL

Page 11: Trabajo de Estadistica Of

Se puede definir como el "casi promedio" de los cuadrados de las desviaciones de los datos con respecto a la media muestral. Su fórmula matemática para el caso de datos referentes a una muestra es:

Y para el caso de datos de una población es dada por

Propiedades de la varianza  

Dos propiedades importantes de la varianza son:

La varianza de una constante es cero Otra propiedad importante es que si se tiene la varianza σ 2 de un conjunto de

datos y a cada observación se multiplica por una constante b, entonces la nueva varianza de los datos se obtiene multiplicando a la varianza de los datos por b2.

Coeficiente de Variación

Coeficiente de variación En estadística, cuando se desea hacer referencia a la relación entre el tamaño de la media y la variabilidad de la variable, se utiliza el coeficiente de variación.

Su fórmula expresa la desviación estándar como porcentaje de la media aritmética, mostrando una mejor interpretación porcentual del grado de variabilidad que la desviación típica o estándar. Por otro lado presenta problemas ya que a diferencia dela desviación típica este coeficiente es variable ante cambios de origen. Por ello es importante que todos los valores sean positivos y su media dé, por tanto, un valor positivo. A mayor valor del coeficiente de variación mayor heterogeneidad de los valores de la variable; y a menor C.V., mayor homogeneidad en los valores de la variable. Suele representarse por medio de las siglas C.V.

Exigimos que: x>0

Page 12: Trabajo de Estadistica Of

Se Calcula:

Donde σes la desviación típica. Se pude dar en tanto por ciento calculando.

El coeficiente de variación

Es una medida que se emplea fundamentalmente para:

1. Comparar la variabilidad entre dos grupos de datos referidos a distintos sistemas de unidades de medida. Por ejemplo, kilogramos y centímetros.

2. Comparar la variabilidad entre dos grupos de datos obtenidos por dos o más personas distintas.

3. Comparar dos grupos de datos que tienen distinta media.4. Determinar si cierta media es consistente con cierta varianza.

Propiedades y aplicaciones

El coeficiente de variación es típicamente menor que uno u ocho. Sin embargo, en ciertas distribuciones de probabilidad puede ser 1 o mayor que 1.

Para su mejor interpretación se expresa como porcentaje. Depende de la desviación típica o también llamada "desviación estándar" y en

mayor medida de la media aritmética, dado que cuando ésta es 0 o muy próxima a este valor C.V. pierde significado, ya que puede dar valores muy grandes, que no necesariamente implican dispersión de datos.

Ejemplo

Con un micrómetro, se realizan mediciones del diámetro de un balero, que tienen una media de 4.03 mm y una desviación estándar de 0.012 mm; con otro micrómetro se toman mediciones de la longitud de un tornillo que tiene una media de 1.76 pulgadas y una desviación estándar de 0.0075 pulgadas. ¿ Cuál de los dos micrómetros presenta una variabilidad relativamente menor? Los coeficientes de variación son:

CV =  y CV =

En consecuencia, las mediciones hechas por el primer micrómetro exhiben una variabilidad relativamente menor con respecto a su media que las efectuadas por el otro.

Page 13: Trabajo de Estadistica Of

Son medidas que determinan numéricamente algunas características de la forma en que están distribuidos los datos. Entre estas medidas se tiene: el coeficiente de asimetría o o coeficiente de sesgo y el coeficiente de kurtosis.

Anexos

Ejemplo: Uno de los principales fabricantes de televisores compra los tubos de rayos catódicos a dos compañías. Los tubos de la compañía A tienen una vida media de 7.2 años con una desviación estándar de 0.8 años, mientras que los de la B tienen una vida media de 6.7 años con una desviación estándar de 0.7. Determine la probabilidad de que una muestra aleatoria de 34 tubos de la compañía A tenga una vida promedio de al menos un año más que la de una muestra aleatoria de 40 tubos de la compañía B.

Solución:

Datos:

A = 7.2 años

B = 6.7 años

A = 0.8 años

B = 0.7 años

nA = 34 tubos

Page 14: Trabajo de Estadistica Of

nB = 40 tubos

= ¿?

Ejemplo: Se prueba el rendimiento en km/L de 2 tipos de gasolina, encontrándose una desviación estándar de 1.23km/L para la primera gasolina y una desviación estándar de 1.37km/L para la segunda gasolina; se prueba la primera gasolina en 35 autos y la segunda en 42 autos.

¿Cuál es la probabilidad de que la primera gasolina de un rendimiento promedio mayor de 0.45km/L que la segunda gasolina?

¿Cuál es la probabilidad de que la diferencia en rendimientos promedio se encuentre entre 0.65 y 0.83km/L a favor de la gasolina 1?

Solución:

En este ejercicio no se cuenta con los parámetros de las medias en ninguna de las dos poblaciones, por lo que se supondrán que son iguales.

Datos:

Page 15: Trabajo de Estadistica Of

1 = 1.23 Km/L n1=35 autos

2 = 1.37 Km/L n2= 42 autos

 = ?

Page 16: Trabajo de Estadistica Of

La probabilidad de que la diferencia en rendimientos promedio en las muestras se encuentre entre 0.65 y 0.83 Km/L a favor de la gasolina 1 es de 0.0117.

Ejemplo :  Calcule la media de los siguientes  números: 10 ,11,12, 12,13

Solución :

1. Sumar las cantidades 10 + 11 + 12 +12 +13 = 582. Dividir la suma por la cantidad de elementos = 58/5 3. El resultado es la media = 11.6

 

Por lo tanto, la media de los 5 números  es 11.6. Note que la media resulta un número que está entre el rango de elementos; en este caso, 11.6 está entre 10, 11,12 y 13. 

Hallar la desviación media, la varianza y la desviación típica de la series de números siguientes:

2, 3, 6, 8, 11.12, 6, 7, 3, 15, 10, 18, 5.

2, 3, 6, 8, 11.

Media

Varianza

Page 17: Trabajo de Estadistica Of

12, 6, 7, 3, 15, 10, 18, 5.

Media

Varianza

E J E RCICIO 1 :

En un grupo de personas hemos preguntado por el número medio de días quePractican deporte a la semana. Las respuestas han sido las siguientes:4 2 3 1 3 7 1 0 3 26 2 3 3 4 6 3 4 3 6a Haz una tabla de frecuencias.b Representa gráficamente la distribución.

Solución:a b

xi fi

0

1

2

3

4

6

7

1

2

3

7

3

3

1

20

E J E RCICIO 2 : Las notas obtenidas en un examen de matemáticas realizado en una clase de 4º ESOHan sido las siguientes:4 5 7 5 8 3 9 6 4 5

Page 18: Trabajo de Estadistica Of

7 5 8 4 3 10 6 6 3 3a Ordena los datos en una tabla de frecuencias. b Representa gráficamente la distribución.

Solución:a b

x i f i

3 4

4 3

5 4

6 3

7 2

8 2

9 1

1 0 1 8 9 10

2

BIBLIOGRAFIA

CÓRDOVA Z. M (2009). ESTADISTICA: DESCRIPTIVA E INFERENCIAL. EDIT. MOSHERA S.R.L

RUFINO M./ GREGORIO S.A (2007). PROBABILIDADES E INFERENCIA ESTADISTICA. EDIT. SAN MARCOS E.I.R.L

http://www.ing.unlp.edu.ar/fismat/estadistica/estadistica/archivos/ capitulo3_distribucionesmuestrales_ledesma2009.pdf

http://biblio3.url.edu.gt/Libros/2011/e7.pdf