Distribuciones normales. - PostData-Statistics...Advertencia: no todas las distribuciones son...

15
Distribuciones normales. Cálculo Numérico y Estadística. Grado en Química. U. de Alcalá. Curso 2014-2015. F. San Segundo.

Transcript of Distribuciones normales. - PostData-Statistics...Advertencia: no todas las distribuciones son...

Distribuciones normales.

Cálculo Numérico y Estadística. Grado en Química. U. de Alcalá. Curso 2014-2015.

F. San Segundo.

Función de densidad de la familia de distribuciones normales.

Empezamos recordando un hallazgo fundamental que hemos hecho al �nal de la primera parte

de este capítulo. Si tenemos una binomial con grande ( ) y moderado, de

manera que , , entonces la curva que aproxima a la binomial es la

grá�ca de la función normal:

Se trata de una familia de curvas, que cambian con los valores de y :

B(n, p) n n > 30 p

μ = n ⋅ p σ = n ⋅ p ⋅ q− −−−−−√

(x) =fμ,σ1

σ 2π−−√

e− 1

2( )x−μ

σ

2

μ σ

indica la posición del máximo de la campana.

controla la anchura de la campana.

· μ

· σ

2/15

La distribución normal en GeoGebra.

Una de las mejores maneras de explorar esta familia de curvas normales es usando GeoGebra.

Concretamente, con estos comandos:

Obtendrás un resultado como este:

Puedes descargar un �chero con estos comandos en este enlace Más adelante veremos otras

formas de trabajar con las curvas normales en Geogebra y R (ver Tutorial05).

mu = Deslizador[-5, 5, 0.05, 0, 200]

sigma = Deslizador[0, 2, 0.05, 0, 200]

sigma = 1

Normal[mu, sigma, x]

RazónEjes[20,3]

3/15

Regla 68 - 95 - 99.

Esta propiedad, que se cumple para todas las curvas normales señala la conexión que existe

entre todas las funciones de esa familia:

Si es una variable normal de tipo entonces se cumplen estas

aproximaciones (las probabilidades con tres cifras signi�cativas):

En resumen, si tenemos una colección de datos con distribución normal, es bastante raro

encontrar un valor que se diferencie de la media en más de una desviación típica (ocurre

menos del 5% de las veces) y es más raro aún encontrar un valor a más de tres desviaciones

típicas de la media (sucede con menos del 1% de los valores).

X N(μ, σ)

⎧⎩⎨

P(μ − σ < X < μ + σ) ≈ 0.683,P(μ − 2σ < X < μ + 2σ) ≈ 0.955P(μ − 3σ < X < μ + 3σ) ≈ 0.997

4/15

Tipi�cación.

La razón última por la que ocurre lo anterior es porque todas las variables normales están

relacionadas mediante un cambio de escala. Concretamente:

Si , entonces la variable que se obtiene mediante:

es una variable normal estándar , que en Estadística siempre

llamamos .Este cambio de escala para obtener el valor de a partir del de se llama tipi�cación.

X ∼ N(μ, σ)

Z =X − μ

σ

N(0, 1)Z

Z X

La regla 68 - 95 - 99, combinada con la tipi�cación, nos dice que si al tipi�car un valor de una

distribución normal obtenemos un resultado mayor que en valor absoluto, el valor puede

considerarse raro.

Gracias a ideas como estas y a la omnipresencia de distribuciones normales en la

naturaleza, podemos considerar a como una especie de escala universal probabilidad (o de

rareza).

·

2

·

Z

5/15

Ejemplo.

Los resultados de una Marathon dependen de otros factores, aparte del rendimiento de los

atletas: el per�l de la prueba, el viento, la humedad del aire, etc. Si quieres comparar los

resultados de dos atletas en dos pruebas, una forma de hacerlo es tipi�cando. Por ejemplo,

supongamos que en la Marathon 1 los corredores obtuvieron un tiempo medio de

horas con una desviación típica de horas, mientras que en la Marathon 2 el tiempo

medio fue con una desviación típica . Dos amigos participaron cada

uno en una de estas dos pruebas y quieren saber quién de ellos lo hizo mejor. El que participo

en la primera prueba obtuvo un tiempo , mientras que el de la segunda obtuvo un

tiempo de .

Suponiendo que los tiempos de los corredores en cada Marathon son

y tipi�cando,

Así que, teniendo en cuenta las diferencias entre ambas pruebas, en realidad hizo mejor

carrera el primero de ellos, a pesar de que su tiempo total fue mayor.

= 4.68μ1= 1.01σ1

= 4.43μ2 = 1.12σ2

= 3.91X1= 3.75X2

∼ N(4.68, 1.01) ∼ N(4.43, 1.12)X1 X2

≈ −0.762, ≈ −0.607,3.91 − 4.68

1.013.75 − 4.43

1.12

6/15

Suma de variables normales independientes.

Ya sabemos que si y son dos variables aleatorias independientes, entonces

Pero en el caso de las variables normales, la forma también se conserva: la suma, además, es

también una normal.

Si y , son variables normales

independientes, su suma es de nuevo una variable normal de tipo:

Este resultado se generaliza a la suma de variables normales independientes, que dan como

resultado una normal de tipo

X1 X2

= + y también = +μ +X1 X2μX1

μX2σ2

+X1 X2σ2

X1σ2

X2

∼ N( , )X1 μ1 σ1 ∼ N( , )X2 μ2 σ2

N( + , ).μ1 μ2 +σ21 σ2

2

− −−−−−√k

N( + ⋯ + , ).μ1 μk + ⋯ +σ21 σ2

k

− −−−−−−−−−−√

7/15

Problema directo de probabilidad en las distribuciones normales.

La tipi�cación hace especialmente importantes los problemas relacionados con la distribución

. Al trabajar con nos vamos a encontrar a menudo con dos tipos de preguntas

concretas. En los que vamos a llamar problemas directos de probabilidad los datos que

tenemos son intervalos de valores de , y lo que se quiere averiguar es la probabilidad de que

pertenezca a uno de esos intervalos. Por ejemplo, dados los valores , calcular la

probabilidad

También pueden ser problemas con intervalos no acotados como

Z ∼ N(0, 1) Z

ZZ a, b

P (a < Z < b)

P (Z > 3) =??

8/15

Problema inverso de probabilidad en las distribuciones normales.

En cambio, en un problema inverso de probabilidad el dato es la probabilidad, y lo que

queremos averiguar es el valor de que de�ne un cierto intervalo cuya probabilidad coincide

con la que nos han dado.

Se entiende mejor con un ejemplo. Dada una probabilidad , ¿cuál es el valor para

el que se cumple ? En una �gura:

Problemas directos e inversos en distribuciones normales cualesquiera.

Aunque los hemos descrito en el caso de , estos dos tipos de problemas se extienden de

forma natural a otras distribuciones normales. Y como veremos más adelante, también a otras

distribuciones no normales.

Z

P = 0.25 aP (Z > a) = 0.25

Z

9/15

Las distribuciones normales en . Funciones pnorm, qnorm.

Es importante recordar que R usa siempre por defecto la cola izquierda de las distribuciones

y que, si no se indican media y varianza, R asume que estamos usando .

Más detalles en la Sección 5 del Tutorial 5.

R

Z ∼ N(0, 1)

pnorm sirve para resolver problemas directos de probabilidad. Por ejemplo, si

y queremos resolver el problema usaríamos:

·

X ∼ N(12, 0.6) P (X < 13) =??

pnorm(13, mean = 12, sd = 0.6)

## [1] 0.9522096

qnorm sirve para los problemas inversos de probabilidad. Si y queremos

averiguar cuál es el valor para el que se cumple usaríamos

· X ∼ N(12, 0.6)k P (X ≤ K) = 0.9522096

qnorm(0.9522096, mean = 12, sd = 0.6)

## [1] 13

10/15

Función rnorm.

La función rnorm genera valores aleatorios de una distribución normal y por lo tanto es

extremadamente útil para hacer simulaciones y experimentos.

Por ejemplo, podemos generar valores de una normal y dibujar su

histograma con este comando:

Hay también una función dnorm que sirve para dibujar curvas normales y que vamos a usar

poco o nada en este curso.

1000 N(23, 4)

hist(rnorm(1000, mean = 23, sd = 4), breaks=15, col="orange")

11/15

Problemas directos e inversos con normales en GeoGebra.

En GeoGebra disponemos de una forma muy visual de afrontar los dos tipos de problemas,

usando la Calculadora de Probabilidades

Además, disponemos de los comandos Normal y NormalInversa para usar directamente en

la Línea de Entrada o en la Vista Simbólica. Para más detalles nos remitimos a la Sección 4.1 del

Tutorial04.

12/15

Advertencia: no todas las distribuciones son normales.

Hemos visto que las distribuciones binomiales con grande y moderado se aproximan

mediante distribuciones normales. Este hecho, junto con la composición celular de muchos

seres vivos y la composición atómica de la materia, permite entender porque muchos

fenómenos naturales parecen comportarse, a escala macroscópica, como si siguieran una

distribución normal.

No obstante, también hay muchos otros fenómenos naturales, asimismo a escala

macroscópica, que no se pueden describir adecuadamente mediante las distribuciones

normales. Debe tenerse siempre en cuenta que las distribuciones normales son muy

simétricas. Y hay muchos casos en los que nos encontraremos con datos que son

inherentemente asimétricos, con sesgos muy de�nidos, como en la �gura de abajo. Existen

otras distribuciones estadísticas adecuadas para estas situaciones (más detalles en el libro).

n p

13/15

Teorema Central del Límite: la normal para aproximar la binomial.

Recuerda que hemos llegado a las distribuciones normales tratando de aproximar los valores

de binomiales con grande y moderado.

Sea y sea

Entonces, siempre que se cumpla (si no, la aproximación no es muy

buena),

Puedes ver en el libro (Sección 5.6.2) por que hacemos esos ajustes de unidades.

n p

X ∼ B(n, p)

μ = n ⋅ p, σ = n ⋅ p ⋅ q− −−−−−√

n ⋅ p > 5, n ⋅ q > 5

para calcular , la aproximación por la normal que usamos es

.

Para calcular , la aproximación por la normal que usamos es

.

Para calcular , la aproximación por la normal que usamos es .

Del mismo modo, para , la aproximación por la normal que usamos es

· P ( ≤ X ≤ )k1 k2P ( − 0.5 ≤ Y ≤ + 0.5)k1 k2

· P(X = k)P (k − 0.5 ≤ Y ≤ k + 0.5)

· P (X ≤ k) P (Y ≤ k + 0.5)P (X ≥ k)

P (Y ≥ k − 0.5)

0.5

14/15

Ejemplo.

Dada una binomial , para calcular la probabilidad

usamos la normal y calculamos

En R esto se obtiene con

El cálculo directo con la binomial es:

Así que hemos obtenido cuatro cifras decimales signi�cativas, que no está nada mal.

X ∼ B(320, 0.25)

P (70 ≤ X ≤ 90)

Y ∼ N(320 ⋅ 0.25, ) = N(80, )320 ⋅ 0.25 ⋅ 0.75− −−−−−−−−−−−−√ 60−−√

P(70 − 0.5 ≤ Y ≤ 90 + 0.5) = P (69.5 ≤ Y ≤ 90.5)

pnorm(90.5, mean = 80, sd = sqrt(60)) - pnorm(69.5, mean = 80, sd = sqrt(60))

## [1] 0.8247558

sum(dbinom(70:90, size = 320, prob = 0.25))

## [1] 0.8250121

15/15