Análisis y Distribuciones v.a e I.C.

48
Análisis y diseño de experimentos Variable aleatoria y distribuciones de probabilidad. Semestre 2, 2015

description

analisis y distribuciones

Transcript of Análisis y Distribuciones v.a e I.C.

Análisis y diseño de experimentos

Variable aleatoria y distribuciones de probabilidad.

Semestre 2, 2015

Definición de probabilidad

Es una medida de la incertidumbre La incertidumbre de ocurrencia de un

resultado sujeto al azar ejecutado por un experimento aleatorio.

Experimento: Proceso planificado para generar nuevo conocimiento o para verificar resultados ya conocidos o definidos.

Experimento aleatorio (ε):

Es tal que en cada repetición ocurrirá una y solo una de los resultados experimentales posibles..

Experimento Resultados Observar un nacimiento hombre, mujer Lanzar una moneda escudo, número Ofrecer un producto comprado, negado Hacer rodar un dado 1, 2, 3, . . . 6

Espacio Muestral Conjunto de todos los resultados posibles

de un experimento Resultado posible o punto muestral o

evento simple Ejm 1 Lanzar una moneda, genera

S1= {E, N} Hacer rodar un dado, genera

S2 = {1, 2, 3, 4, 5, 6}

Distribuciones de probabilidad La distribución de probabilidad o distribución de

una variable aleatoria X relaciona el conjunto de elementos del espacio muestra S con los valores posibles x ε RX a las que asignan una probabilidad asociada por una fórmula o como una distribución de frecuencias relativas.

Ejemplo 1, lanzar una moneda genera S1= {E, N} y X asocia RX = {0, 1}. Asignamos 0.5 si x = 0 y también 0.5 si x = 1 la función de probabilidad se escribirá:

P(X=x)=f(x) = 0.5 si x:0, 1 = 0 en otro valor.

O también como Distribución de probabilidad

Representación gráfica Diagrama de barras

x f(x)

0 0.5

1 0.5

Total 1

2

Ejemplo 2: Experimento: hacer rodar un dado. X nº de arriba.

De este experimento el recorrido de X es

Rx={1, 2, 3, 4, 5, 6} y asignamos:

6..,3,2,161

)()( xxfxXP

6..,3,2,161

)()( xxfxXP

Exp: hacer rodar dos veces un dado. Sea X: suma de caras superiores

Rx = {2, 3, 4, 5, 6, 7, 8, 9, 10, 11 12}

12..,8,736

13

6..,3,2,136

1)(

xx

xx

xf

Parámetro μ: media o esperanza

matemática De una variable aleatoria X distribuida con

probabilidad f(x) en su recorrido Rx. La media μ queda definida:

Siempre y cuando sea convergente.

xRx

xfx )(

Parámetro : Varianza y desviación estándar

El parámetro queda definida como

Desviación estándar

XRx

xfx )()( 22

2

2

2

Veamos el mismo ejemplo 1 con probabilidad p

X f(x) x.f(x) f(x)

0 1- p 0 0

1 p p P

total 1 p P

Cálculo de y

2x

)1()(

)(

)(

2

222

pppp

xfx

pxfxxRx

2

Condiciones de f(x)

1. f(x) = P(X = x) > 0

2. .

3. P(a ≤ X ≤ b) =

4. .

Como veremos en el siguiente ejemplo

xRx

xf 1)(

b

ax

xf )(

222 )( xfx

Rxx

xfx )(

Sea la población formada por números en 6 tarjetas, de las que hay 2 tarjetas con el nº 2, 3 tarjetas con el nº 3, una tarjeta con nº 4. Se extrae una tarjeta, entonces asignamos la siguiente distribución de probabilidad

Distribución Diagrama de barra

X f(x)

2 2/6

3 3/6

4 1/6

total 1

Calculo de parámetros

distribución Parámetros

μ = Σxf(x) = 17/6= 8.5/3

x f(x) xf(x) f(x)

2 2/6 4/6 8/6

3 3/6 9/6 27/6

4 1/6 4/6 16/6

Total 1 17/6 51/63617

617

651

)(2

222

xfx

2x

Distribución de probabilidad.

Modelo Bernoulli: Decimos que la variable aleatoria discreta X es

Bernoulli si su función de probabilidad esta dada por:

Media poblacional

Varianza poblacional

valorotroen

xppxf xx

0

1,0:)1()( 1

p

)1(2 pp

Distribución Binomial Es variable discreta tal que [X~ b(n, p)]

X: número de veces que ocurra la característica de interés

n : número de pruebas independientes p: probabilidad constante de que ocurra la característica

de interesa en cualquier prueba.

valorotroen

nxppx

nxf xnx

0

...,2,1,0:)1()(

)1(2 pnp np

La prob. que una cría de llama supere las 4 semanas de nacida es 0.4 Si hay 5 llamas preñadas que han parido.. Calcular la prob. que: a. 3 crías superen las 4 semanas. b. más de 4 crías superen las 4 semanas. Solución. Definimos X: nº de crias que superan

la 4ª semana en 5 pruebas → X~ b(5, 0.4)

a.

b.

5...,2,1,0:)4.01(4.05

)( 5 xx

xf xx

2304.06.04.0)3( 23

3,5 CXP

087.0)5(*)4()54()4( ffXoXPXP

Distribución Normal Estándar

Z es una variable continua, distribuida normal con media μ y desviación estándar σ si su función de probabilidad es:

La media μ = 0 y la desviación estándar es

σ = 1.

Zz

zf2

)2/exp()(

2

Propiedades interesantes usando la Distribución acumulada

La probabilidad tabulada muestra que

P(Z ≤ 0) = P(Z > 0) = 0.5 F(a) = P(Z ≤ a) igual a la superficie de la

curva normal a la izquierda de a F( – a) = 1 – F(a) P(a ≤ Z ≤ b) = F(b) – F(a)

Usar la distribución acumulada

P(Z < 0.85) = F(,85)= P(Z< 1.5) = F(1.5) P(Z > 0.75)= 1 – F(.75) = P(Z < – .42 ) = F(– .42) P(– .35 < Z < 1) = P(Z > – .4) = P(|Z| < 1) =P(– 1 < Z < 1) P((|Z+1| < 0.5)

¿Cuánto debe valer a? si:

P(Z < a) = 0.8888 P(Z < a) = 0.123 P(Z > a) = 0.305 P(0.25 < Z < a) = 0.15 P(a < Z < 1.7) = 0.6 P(– a < Z < a) = 0.9 P(Z <– a) = 2P( Z > a)

¿Cuanto será K? si: P(–k ≤ Z ≤ k) = 1 – α

Solución: F(k) – F(– k) = 1 – α

F(k) – (1 – F(k) = 1 – α

2F(k) – 1 = 1 – α

F(k) = (2 – α)/2

F(k) = 1 – α/ 2 De donde k= Z1 – α/2 Significa ser el

(1 – α)avo percentil

Distribución Normal de μ ≠ 0 y desviación σ ≠ 1

X ~ N(μ, σ) cuya función de probabilidad

↑ ↑ Z a*

*)()( aZPax

PaXP

Xx

xf

2

)/]([2/1exp)(

2

Ejemplo

X ~ N(μ=25, σ=3)

1.

2.

3.

)66(.)66.0(3

2527)27( FzP

xPXP

)66.()66.0(32523

)23(

FzPx

PXP

)1()33.2()33.21(

3

2530

3

2522)3022(

FFzP

xPXP

Distribución muestral:

Es la distribución de probabilidad de los estimadores ¿Por qué?

Respuesta: Un parámetro es una constante que no se conoce, por ello se recurre a una muestra que proporciona “estimadores”

Los estimadores son “variables aleatorias” que tienen su propia distribución de probabilidad

Distribución muestral de

El estimador es puntual si sale de una única muestra, pero si consideramos los valores de las medias aritméticas de todas las posibles muestras, veremos que tiene su propia distribución de probabilidad

Ejemplo. Sea la población formada por números en 6 tarjetas, de las que hay 2 tarjetas con el nº 2, 3 tarjetas con el nº 3, una tarjeta con nº 4.

X

X

Sea el experimento de extraer muestras aleatorias de tamaño 2. Calcular las medias aritméticas de todas las muestras posibles.

Muestras sin reposición: C6,2 =15 muestras posibles.

Si con número 2 sean A, B. Con número 3 sean C, D, E y con número 4 sea F

Muestras AB AC AD AE AF BC BD BE Medias 2 2.5 2.5 2.5 3 2.5 2.5 2.5

Muestras BF CD CE CF DE DF EF Medias 3 3 3 3.5 3 3.5 3.5

Distribución de probabilidad de

2 1/15 2/15 4/15

2.5 6/15 15/15 37.5/15

3 5/15 15/15 45/15

3.5 3/15 10.5/15 37.75 15

total 1 42.5 15

123.25 15

xx )(2 xfx)(xfx)(xf

97.1

1626

236/17

1

22

NnN

nx

97.1

35.8

1525.123

2

2

35.8

155.42

x

Conclusiones

La media aritmética es una variable aleatoria con su propia distribución de probabilidad llamada distribución muestral, con su propia media igual a la media de la población

varianza dada por

Si n < 0.05N

x

1

22

NnN

nx

nx

22

Teorema del Límite Central TLC Si una variable tiene media μ y desviación σ

finitos y una muestra aleatoria de tamaño n suficientemente grande, entonces la media aritmética tiene distribución aproximadamente normal de media μ y desviación o en su forma equivalente, que la variable estándar tiene distribución Normal

~ N(0, 1)

n/

n

X

/

Ejemplo De una población normal de μ = 25 cms, σ = 7

cms., se toma una muestra de 25 datos. Calcular la probabilidad de que la media aritmética sea mayor que 26 cms.

Solución. por el TLC ~N(25, 7/5) ~ N(25, 1.4) Luego P( > 26) = P[Z > (26 – 25)/1.4] =

= P(Z > 0.71) = 1 – F(0.71)=

=0.2389

xx

Estimación por intervalos. En la distribución normal estándar, un intervalo simétrico

que tenga 1 – α de probabilidad P( – k ≤ Z ≤ k) = 1 – α la solución implicaba

Si sustituimos

Aislamos

1)( 2/12/1 ZZZP

2/12/1 /

ZZn

xZ

nZxnZx // 2/12/1

Ejemplo. X ~ N(75, 12) Se una muestra de n=16,

Calcular Solución: como la población es Normal →

~N(75, 12/4) =N(77, 3) Luego

)77( xP

x x

)66.0()16/12

7577()77( ZPZPxP

Ejemplo: Con los datos del ejemplo. Si el valor calculado de la muestra da = 72,4 Calcular Intervalo de confianza del 90% para la media. Solución: para 1 – α = 0.9 se lee en la normal Z1 – α/2 = Z0.95 = 1.64 entonces el I.C. será

68.5 < μ <77.3

16

1264.14.72

16

1264.14.72

X

X

Valores de los avo percentiles de la

Distribución Normal estándar

1 – α 1 – α/2 Z1-α/2

80 90 1.28

90 95 1.645

95 97.5 1.96

99 99.5 2.58

Distribución ji-cuadrada. La variable aleatoria normal elevada al

cuadrada se forma la Distribución con k grados de libertad. (k entero) La E(X)= k y varianza = 2k

El cociente de variables tiene distribución con intervalo de confianza

2 2

2

k

22

2)1(sn

2

1n

2

1,2/

22

2

1,2/1

2 )1()1(

nn

snsn

Grados de libertad Número de combinaciones linealmente independientes

con n valores sujetas a uno o más restricciones. Es posible entender la elección de valores sujeto a una restricción.

Por ejemplo supongamos que la media aritmética = 9, queremos asignar 4 valores, podemos elegir libremente a 3 de ellos el 4º valor solo puede ser definido por la restricción de .

Ejemplos. Usando el problema anterior X~N(75, 12) y muestra de n=16 da una desviación estándar muestral 12/4 =3, Calcular el intervalo de confianza del 90%

Distribución t t es el cociente de una variable normal dividida

entre la raíz de una variable Cuando la varianza es propuesta por el estimador de la desviación muestral s. Se define la variable t-Student que tiene la Distribución con n-1 grados de libertad. Por lo tanto podemos escribir el intervalo de confianza de

2

n

stx

n

stX nn 1,2/11,2/1

Ejemplo. Una muestra aleatoria de n = 9 de una población normal, resulta la media

=83 y desviación s = 12 Calcular un I.C. con un nivel de 90%

Solución: Por Normal de σ desconocida, → la distribución tn–1, 1- α/2 =t8, 0.95 =1.86

x

9

1286.183

9

1286.183

Tamaño de muestra

x Del intervalo de confianza con un error al aislar n0 tenemos

Si la población es de N objetos, el n será

f=fracción de muestra. Si f < 0.05 → n=n0

0

1,2/1 n

st n

2

22

)1(,2/10

stn n

f

n

N

nn

n

11

0

0

0

La Asociación de Dietistas informa que una alta ingestión de sodio puede provocar úlceras cáncer estomacal y migraña. El requerimiento humano de sal debe ser menor de 250 mg/dia (mg: miligramos). Las cajas de cereales listo a ser consumidos garantizan 220 miligramos de sodio en promedio con desviación de 25 mg. ¿Qué tamaño de muestra será requerida para tener un error de 4 mg. y 90% de confianza?

Solución: Como la varianza se conoce tenemos: 1 – α/2 = 0.95 → Z0.95 =1.64 →

Conclusión: Debe elegirse 106 cajas de cereal de muchos fabricantes para ser analizados.

10642564.12

22

n

Se desea probar un producto antiparasitario en la dieta para engorde de cerdos. Por el costo se probará en 10 ejemplares. Luego, la diferencia de peso entre el 1º y 2º registro, resultó una desviación s = 540 gramos. Calcular el tamaño de muestra que debe someterse para tener un error de 150 gramos y 90% de confianza.

Solución: s, desviación muestral. t0.95, 9 = 1.833

44150540*833.1

2

n

Estimación, distribución de (proporción)

Sea P el parámetro de la variable Bernoulli (ver pag.17) tiene los parámetros y varianza

De esta población se obtiene una muestra, por ejemplo: x1 =1, x2 =1 x3 =0 . . . xn =1 es decir se obtiene una

sucesión de la forma {1, 1, 0, 1, 0,

. 0 1-n1 0 0

1 n1 n1 n1

n1 n1 n1

P )1(2 pP

ix in )( ii xfx )(2

ii xfxp

n

n

n

nxx iii

)1(1)1(

)(

112

2

1

22

ppn

n

n

ppn

n

npn

n

xnnxs ii

Distribución de probabilidad de P Aplicando el TLC dado que el estimador

es , establece que el cociente tiene distribución t con (n – 1) grados de libertad

y el Intervalo de confianza de P

1)1/()1(/

ntnpp

Pp

ns

x

)1/()1()1(,2/1 npptpP n

Una muestra de 100 cigarrillos de producción se sometió a laboratorio para medir el nivel de nicotina. Se encontraron 15 de ellos con más de 20 miligramos de nicotina. Con 90% calcular un intervalo de confianza

Solución: p= (15/100) = 0.15,

t0.95, 14 = 1.76

0.15 ± 0.063

99/)15.01(15.076.115.0 P

El ministerio de Salud, afirma que el 30% de los adultos fuman cigarrillos. ¿Qué tamaño de muestra debe elegirse para tener un error inferior al 6% y confianza del 95% de que funciona la campaña antitabaco? [P es poblacional]

Solución 1 – α/2 = 0.975 → Z0.975 =1.96 Luego

personas

NOTA: para n grande,

nppnpp /)1()1/()1(

22506.0/7.0*3.096.1 22 n

Para determinar la población de osos andinos, se capturaron 10 ejemplares, se los marco poniendo un arete a cada uno. Se los devolvió a su hábitat y luego de 6 meses se capturaron otro grupo de 15 ejemplares de los que 1 tenían el arete identificador. ¿cuál será el número de ejemplares en la zona? Usar 95% de confianza y un error de 3%.

Solución: N= n1/p2

n1 número de marcados en 1ª captura.

n2 y k ejemplares en 2ª captura

p2 =k/n2 proporción de segunda captura

→ N = n1 n2/k

Varianza

Usando los datos del problema: n1 = 10 p2= k/n2 =2/15 en consecuencia

N=10*15/2 = 75 ejemplares. de donde ε = 1.96*69 = 136 el I.C. → N=75±136 Implica que el máximo de la zona sean

entre 15 a 211

2

22

2

1 )()(

k

knnnNV

222 692/13*15*10)( NV