ESTADISTICA INFERENCIAL

15
DISTRIBUCIONES DE PROBABILIDAD I. DISTRIBUCION NORMAL O “Z” La distribución normal, también llamada distribución de Gauss o distribución gaussiana, es la distribución de probabilidad que con más frecuencia aparece en estadística y teoría de probabilidades. Esto se debe a dos razones fundamentalmente: Su función de densidad es simétrica y con forma de campana, lo que favorece su aplicación como modelo a gran número de variables estadísticas. Es, además, límite de otras distribuciones y aparece relacionada con multitud de resultados ligados a la teoría de las probabilidades gracias a sus propiedades matemáticas. La importancia de la distribución normal se debe principalmente a que hay muchas variables asociadas a fenómenos naturales que siguen el modelo de la normal La distribución normal posee ciertas propiedades importantes que conviene destacar: i. Tiene una única moda, que coincide con su media y su mediana. ii. La curva teórica de una distribución normal va desde y es teóricamente posible. El área total bajo la curva es, por tanto, igual a 1. iii. Es simétrica con respecto a su media . Según esto, para este tipo de variables existe una probabilidad de un 50% de observar un dato mayor que la media, y un 50% de observar un dato menor. iv. La distancia entre la línea trazada en la media y el punto de inflexión de la curva es igual a una desviación típica ( ). Cuanto mayor sea , más aplanada será la curva de la densidad. v. El área bajo la curva comprendido entre los valores situados aproximadamente a dos desviaciones estándar de la media es igual a 0.95. En concreto, existe un 95% de posibilidades de observar un valor comprendido en el intervalo . vi. La forma de la campana de Gauss depende de los parámetros y . La media indica la posición de la campana, de modo que para diferentes valores de la gráfica es desplazada a lo largo del eje horizontal. Por otra parte, la desviación estándar determina el grado de apuntamiento de la curva. Mediante esta se puede obtener una estimación puntual o de un intervalo de un parámetro de la población. Una estimación puntual es insesgada si el valor esperado es igual al parámetro de la población. Así el promedio (muestra) es una estimación puntual insesgada de (población) Una estimación o intervalo se refiere a la amplitud de valores junto con la probabilidad a nivel de confianza, de que el intervalo incluya el parámetro de la población desconocida. Dada la desviación estandar de la población o su estimación y dado que la población es normal o que una muestra aleatoria es igual o mayor a

description

j

Transcript of ESTADISTICA INFERENCIAL

Page 1: ESTADISTICA INFERENCIAL

DISTRIBUCIONES DE PROBABILIDAD

I. DISTRIBUCION NORMAL O “Z”La distribución normal, también llamada distribución de Gauss o distribución gaussiana, es la distribución de probabilidad que con más frecuencia aparece en estadística y teoría de probabilidades. Esto se debe a dos razones fundamentalmente:

Su función de densidad es simétrica y con forma de campana, lo que favorece su aplicación como modelo a gran número de variables estadísticas.

Es, además, límite de otras distribuciones y aparece relacionada con multitud de resultados ligados a la teoría de las probabilidades gracias a sus propiedades matemáticas.

La importancia de la distribución normal se debe principalmente a que hay muchas variables asociadas a fenómenos naturales que siguen el modelo de la normalLa distribución normal posee ciertas propiedades importantes que conviene destacar:

i. Tiene una única moda, que coincide con su media y su mediana. ii. La curva teórica de una distribución normal va desde y es teóricamente

posible.  El área total bajo la curva es, por tanto, igual a 1. iii. Es simétrica con respecto a su media .  Según esto, para este tipo de variables

existe una probabilidad de un 50% de observar un dato mayor que la media, y un 50% de observar un dato menor.

iv. La distancia entre la línea trazada en la media y el punto de inflexión de la curva es igual a una desviación típica ( ).  Cuanto mayor sea , más aplanada será la curva de la densidad.

v. El área bajo la curva comprendido entre los valores situados aproximadamente a dos desviaciones estándar de la media es igual a 0.95.  En concreto, existe un 95% de posibilidades de observar un valor comprendido en el intervalo

. vi. La forma de la campana de Gauss depende de los parámetros y .  La media

indica la posición de la campana, de modo que para diferentes valores de la gráfica es desplazada a lo largo del eje horizontal.  Por otra parte, la desviación estándar determina el grado de apuntamiento de la curva. 

Mediante esta se puede obtener una estimación puntual o de un intervalo de un parámetro de la población. Una estimación puntual es insesgada si el valor esperado es igual al parámetro de la población.

Así el promedio (muestra) es una estimación puntual insesgada de (población)Una estimación o intervalo se refiere a la amplitud de valores junto con la probabilidad a nivel de confianza, de que el intervalo incluya el parámetro de la población desconocida. Dada la desviación estandar de la población o su estimación y dado que la población es normal o que una muestra aleatoria es igual o mayor a 30, podemos encontrar que el intervalo de confianza al 95% para la media de la población desconocida es:

P ( – 1.96 < < + 1.96 )

= / √n

Donde:

P= probabilidad =media

= error estandar =media poblacional

Los intervalos de confianza mas usados son:

95%

P ( – 1.96 < < + 1.96 )

Page 2: ESTADISTICA INFERENCIAL

90%

P ( – 1.96 < < + 1.96 )

99%

P ( – 1.96 < < + 1.96 )

Estimación de la media de una población normalmente distribuida. Ejercicio 1: Si tomamos una muestra aleatoria de 20 hongos descomponedores de madera cuya media de colonización es de 9 dias y una desviación estándar de 7.2, la población hallada en el bosque es de 350 hongos. Calcular el intervalo de confianza al 95% para la media de la población desconocida. E interprete.

Ejercicio 2: Empleando los datos del ejercicio 1 determine que sucede al incrementar la desviación estándar.

Ejercicio 3: Estimar los intervalos para alturas de árboles en la siguiente muestra al azar.22, 25, 13, 12, 33, 15, 17, 32, 18, 23, 25, 18, 29, 15, 21, 18, 33, 35, 26, 28, 15, 17, 19, 28, 33, 15, 17, 32, 18, 15, 21, 18, 33, 35. (mts)

Ejercicio 4: Estimar los intervalos de la media poblacional para una muestra tomada al azar para la variable número de nematodos por cm2. 18, 7, 9, 29, 32, 23, 13, 15, 18, 18, 22, 15, 11, 5, 23, 18, 7, 9, 29, 32, 23, 13, 23, 13, 15, 18, 18, 22, 15, 11.

Page 3: ESTADISTICA INFERENCIAL

Estimación de áreas de una población normalmente distribuida. Donde Z=(X – )/S

Ejercicio 1: Con los datos del ejercicio 1 del anterior tema determine la probabilidad de que un hongo colonice en 6 días, en 12 días y en 15 días. Si se sabe que la S= 5. Graficar

Ejercicio 2: Con los datos del ejercicio 3 del anterior tema. Que probabilidad hay de que un árbol mida menos o igual a 20 mts. Graficar

Ejercicio 3: Que probabilidad existe de que se halle 12 nematodos en una muestra de suelo de 1 cm2 tomada al a azar. Graficar.

Ejercicio 4: Obtenga las probabilidades, dados los siguientes valores de z

P [Z ≤ 1.28]

P [0.81 ≤ Z ≤ 1.64]

P [Z ≤ -2.17]

P [-0.46 ≤ Z ≤ 2.21]

P [Z ≤ -0.68]

P [Z > 2.05]

P [-2.04 ≤ Z ≤ 2.04]

Page 4: ESTADISTICA INFERENCIAL

II. DISTRIBUCION “T” STUDENT

En probabilidad y estadística, la distribución-t o distribución t de Student es una distribución de probabilidad que surge del problema de estimar la media de una población normalmente distribuida cuando el tamaño de la muestra es pequeño. Ésta es la base del popular test de la t de Student para la determinación de las diferencias entre dos medias muéstrales y para la construcción del intervalo de confianza para la diferencia entre las medias de dos poblaciones.

La distribución t surge, en la mayoría de los estudios estadísticos prácticos, cuando la desviación típica de una población se desconoce y debe ser estimada a partir de los datos de una muestra.

Nivel de Probabilidad:95% = 1 – 0.95

= 0.05 nivel de significancia= 0.05 / 2 = 0.025= 1 – 0.025= 0.975Por lo tanto al 95% = t 0.975

P ( - t 0.975 (n-1) S < < + t 0.975 (n-1) S )

99% = 1 – 0.99= 0.01 nivel de significancia= 0.01 / 2 = 0.005= 1 – 0.005= 0.995Por lo tanto al 99% = t 0.995

P ( - t 0.995 (n-1) S < < + t 0.995 (n-1) S )

Donde:t 0.995 (n-1) =valor crítico de T student(n-1) =grados de libertad

S =error estandar=promedio de la población

Ejercicio 1: Si tomamos 10 ramas terminales de sauco y evaluamos cuantas yemas tienen en formación obtenemos los siguientes datos: 3, 5, 2, 8, 6, 5, 9, 4, 7, 8. Calcular los límites de confianza para la media poblacional de este experimento al 99% y 95%.

Ejercicio 2: Si tenemos la evaluación de el tamaño en cm de las ganodermas encontradas en los eucaliptos del Fundo El Porvenir se tienen: 15, 13, 9, 5, 12, 10, 15, 7, 6, 12 (cm).Calcular los limites de confianza para la media poblacional de este al 95%.

Page 5: ESTADISTICA INFERENCIAL

Determinación de áreas con T studentPara determinar áreas se detalla el procedimiento a continuación.

o Determinar los grados de libertad para el área sombreadao Determinar el área no sombreadao Determinar el grado de significanciao Ubicar el valor critico de T en la tabla

Ejercicio 1: Determinar el valor crítico de T y el área de la izquierda; para 9 gl y el área sombreada a la derecha es igual a 0.025

Ejercicio 2: Determinar el área sin sombrear y el valor crítico de T, si el área de la izquierda es de 0.05 y n=8.

Ejercicio 3: Si X tiene distribución t con 18 grados de libertad halle el valor c tal que:

P [X ≤ 2.101] =

P [X ≤ - 2.878] =

P [X > 1.734] =

P [-1.330 ≤ X ≤ 2.552] =

P [X ≤ 2] =

Page 6: ESTADISTICA INFERENCIAL

III. DISTRIBUCION CHI CUADRADOLa prueba de ji-cuadrado es considerada como una prueba no paramétrica que mide la discrepancia entre una distribución observada y otra teórica (bondad de ajuste), indicando en qué medida las diferencias existentes entre ambas, de haberlas, se deben al azar en el contraste de hipótesis. También se utiliza para probar la independencia de dos variables entre sí, mediante la presentación de los datos en tablas de contingencia.La fórmula que da el estadístico es la siguiente:

X2 = Σ (O – E )2 / E

Donde:X2= Chi cuadradoO= Frecuencia observadaE= Frecuencia esperada

Ejercicio 1: Se ha estudiado la reacción de las platas de pinus producidas en contenedores, con distintos sustratos, con el fin de obtener el mayor desarrollo, de tal estudio se esperaba la siguiente proporción siendo esta 5:3:1.El número de plantas con alturas y diámetros óptimos fueron:o Arena, musgo, tierra negra 2175o Arena, cascarilla de arroz, musgo 1231o Arena, musgo, tierra agrícola 420

Calcular los límites de confianza de este experimento al 99% y 95% limites de confianza.

Clase Observados Esperados Desviación

Arena, musgo, tierra negra

Arena, cascarilla de arroz, musgo

Arena, musgo, tierra agrícolaTotal

Determinación de áreas: (Tabla)Ejercicio 1: Hallar el valor crítico de X2 para los que el área en la cola derecha de la distribución X2 sea 0.025 si el número de gl es igual a 6, 5, 8, 3.

Limites de confianza: =S√n/x0.975 < < S√n/x0.025

Ejercicio: La desviación típica de 40 árboles elegidos al azar es de 8 m3. La población es de 1000 árboles. Hallar los límites de confianza al 95% y 99% de la desviación típica para todos los volúmenes de madera de la población.

Page 7: ESTADISTICA INFERENCIAL

IV. ANALISIS DE VARIANZA ANOVAEn estadística, análisis de varianza (ANOVA, según terminología inglesa) es una colección de modelos estadísticos y sus procedimientos asociados. El análisis de varianza sirve para comparar si los valores de un conjunto de datos numéricos son significativamente distintos a los valores de otro o más conjuntos de datos. El procedimiento para comparar estos valores está basado en la varianza global observada en los grupos de datos numéricos a comparar. Típicamente, el análisis de varianza se utiliza para asociar una probabilidad a la conclusión de que la media de un grupo de puntuaciones es distinta de la media de otro grupo de puntuaciones.El ANOVA parte de algunos supuestos que han de cumplirse:

La variable dependiente debe medirse al menos a nivel de intervalo. Independencia de las observaciones. La distribución de los residuales debe ser normal. Homocedasticidad: homogeneidad de las varianzas.

Procedimiento para determinar ANOVAo Se plantea una hipótesisSe evalúa el desarrollo de plántulas en 4 tipos de sustratos A, B, C, D.

o Planteamiento de la hipótesis Ho: A = B = C = DHa: A ≠ B ≠ C ≠ D

o Toma de datosVariable: altura de plántulas en diferentes sustratos (cm)

Repetición A B C D1 13 18 23 162 15 17 19 153 20 20 18 184 15 22 23 195 18 19 22 156 13 16 20 147 12 17 24 208 15 18 17 189 16 15 15 17

10 14 14 17 15TOTAL

PROMEDIO

o Desarrollo de formulas:

1.- Factor de corrección:Fc = (Σxi)2

t x r

2.- Suma de Cuadrado total:Sctot = Σx2

i – Fc

Page 8: ESTADISTICA INFERENCIAL

3.- Suma de cuadrado de tratamientosSctrat = Σ(xi)2 - Fc

r

4.- Suma de cuadrado de errorSce= Sctot - Sctrat

5.- Cuadrado medio de tratamientosCmtrat = Sctrat

gltrat

6.- Cuadrado medio de errorCmerror= Scerror

glerror

7.- F calculadoFC = Cmtrat

Cmerror

Fuente de variación Sc Gl Cm FC F 0.05

Tratamiento t-1

Error t(r-1)

Total

Page 9: ESTADISTICA INFERENCIAL

ANOVA para diferentes tamaños de muestraVariable: Germinación con 4 tratamientos pre germinativos en Albizzia lophanta

Repetición A B C D1 13 18 23 162 15 17 19 153 20 20 18 184 15 22 23 195 18 19 22 156 16 20 147 17 24 208 18 179 15

10 17TOTAL

PROMEDIO

HipotesisHo: A = B = C = DHa: A ≠ B ≠ C ≠ D

1.- Factor de corrección:Fc = (Σxi)2

n1+n2 + n3 + n4

2.- Suma de Cuadrado total:Sctot = Σx2

i – Fc

3.- Suma de cuadrado entre tratamientosScentre trat = (Σ e1)2 + (Σ e1)2 + (Σ e1)2 + (Σ e1)2 - Fc

n1 n2 n3 n4

4.- Suma de cuadrado dentro de tratamientosScdentro trat = Sctot - Scentre trat

5.- Cuadrado medio de tratamientosCmentre trat = Scentre trat

Glentre trat

Page 10: ESTADISTICA INFERENCIAL

6.- Cuadrado medio de errorCmdentro trat= Scdentro trat

gldentro trat

7.- F calculado entre tratamientosFC = Cmentre trat

Cmdentro trat

Fuente de variación Sc Gl Cm FC F 0.05

Entre tratamiento t-1

Dentro de tratamientos

Total Σr - 1

REGRESION Y CORRELACION LINEAL

Page 11: ESTADISTICA INFERENCIAL

En los trabajos de investigación con frecuencia se analizan dos o mas variables relacionadas entre si, para determinar la relación funcional existente entre las variables en estudio.Para este tipo de análisis se necesita :

Diagrama de dispersión de puntos: Nos permite dar una idea sobre la relación existente entre las variables o características estudiadasCurva lineal o no lineal: La que mas se acomode a los datos.

a) REGRESIÓN LINEAL:y = a + bx

donde: y = estimado de la variable dependientea = constanteb = pendientex = variable independiente

Ejercicio 1: Se tiene un estudio de la relación entre las edades y alturas de Eucalyptus globulus en el Valle del Mantaro. De manera que a los 2, 7, 15, 18, 20 años presenta una altura de 3, 9, 11, 17, 19 metros; respectivamente. ¿Qué altura tendrá un árbol de 25 años?

Variable X Y XY Y2 X2

12345

Total

b = Σxy – Σx Σy n Σx2 – (Σx)2

n

a = Σy – b Σx n

y = a + bx

Graficar:

b) CORRELACIÓN:

Page 12: ESTADISTICA INFERENCIAL

R = Σxy – Σx Σy n

( Σx2 – (Σx)2 ) ( Σy2 – (Σy)2

n n

R = Es el % de datos que se explican o ajustan al modelo empleado

R = +

R = -

R = 0

CORRELACION, VALOR O RANGO

1) Perfecta R = 1

2) Excelente R = 0.9 < = R < 1

3) Buena R = 0.8 < = R < 0.9

4) Regular R = 0.5 < = R < 0.8

5) Mala R < 0.5

c) REGRESION LOGARITMICA:

y = a + b Ln x

Variable X Y Ln X Ln XY Ln X2

12345

Total

b = n Σ (Ln XY) – Σ (Ln X) Σ Y

n Σ Ln X2 – (Σ Ln X) 2

a = ΣY – b Σ LnX n