Distribucion Normal Johan

51
Introducció n Al iniciar el análisis estadístico de una serie de datos, y después de la etapa de detección y corrección de errores, un primer paso consiste en describir la distribución de las variables estudiadas y, en particular, de los datos numéricos. Además de las medidas descriptivas correspondientes, el comportamiento de estas variables puede explorarse gráficamente de un modo muy simple. Consideremos, como ejemplo, los datos de la Figura 1a , que muestra un histograma de la tensión arterial sistólica de una serie de pacientes isquémicos ingresados en una unidad de cuidados intensivos. Para construir este tipo de gráfico, se divide el rango de valores de la variable en intervalos de igual longitud, representando sobre cada intervalo un rectángulo con área proporcional al número de datos en ese rango1 . Uniendo los puntos medios del extremo superior de las barras, se obtiene el llamado polígono de frecuencias. Si se observase una gran cantidad de valores de la variable de interés, se podría construir un histograma en el que las bases de los rectángulos fuesen cada vez más pequeñas, de modo que el polígono de frecuencias tendría una apariencia cada vez más suavizada, tal y como se muestra en la Figura 1b . Esta curva suave "asintótica" representa de modo intuitivo la distribución teórica de la característica observada. Es la llamada función de densidad. Una de las distribuciones teóricas mejor estudiadas en los textos de bioestadística y más utilizada en la práctica es la distribución normal, también llamada distribución gaussiana2,3,4,5 . Su importancia se debe fundamentalmente a la frecuencia con la que distintas variables asociadas a fenómenos naturales y cotidianos siguen, aproximadamente, esta distribución. Caracteres morfológicos (como la talla o el peso), o psicológicos (como el cociente intelectual) son ejemplos de variables de las que frecuentemente se asume que siguen una distribución normal. No obstante, y aunque algunos autores6,7 han señalado que el comportamiento de muchos parámetros en el campo de la salud puede ser descrito

description

espero les sierva

Transcript of Distribucion Normal Johan

Page 1: Distribucion Normal Johan

Introducción

Al iniciar el análisis estadístico de una serie de datos, y después de la etapa de detección y corrección de errores, un primer paso consiste en describir la distribución de las variables estudiadas y, en particular, de los datos numéricos.  Además de las medidas descriptivas correspondientes, el comportamiento de estas variables puede explorarse gráficamente de un modo muy simple.  Consideremos, como ejemplo, los datos de la Figura 1a, que muestra un histograma de la tensión arterial sistólica de una serie de pacientes isquémicos ingresados en una unidad de cuidados intensivos.  Para construir este tipo de gráfico, se divide el rango de valores de la variable en intervalos de igual longitud, representando sobre cada intervalo un rectángulo con área proporcional al número de datos en ese rango1.  Uniendo los puntos medios del extremo superior de las barras, se obtiene el llamado polígono de frecuencias.  Si se observase una gran cantidad de valores de la variable de interés, se podría construir un histograma en el que las bases de los rectángulos fuesen cada vez más pequeñas, de modo que el polígono de frecuencias tendría una apariencia cada vez más suavizada, tal y como se muestra en la Figura 1b.  Esta curva suave "asintótica" representa de modo intuitivo la distribución teórica de la característica observada.  Es la llamada función de densidad.Una de las distribuciones teóricas mejor estudiadas en los textos de bioestadística y más utilizada en la práctica es la distribución normal, también llamada distribución gaussiana2,3,4,5.  Su importancia se debe fundamentalmente a la frecuencia con la que distintas variables asociadas a fenómenos naturales y cotidianos siguen, aproximadamente, esta distribución.  Caracteres morfológicos (como la talla o el peso), o psicológicos (como el cociente intelectual) son ejemplos de variables de las que frecuentemente se asume que siguen una distribución normal.  No obstante, y aunque algunos autores6,7 han señalado que el comportamiento de muchos parámetros en el campo de la salud puede ser descrito mediante una distribución normal, puede resultar incluso poco frecuente encontrar variables que se ajusten a este tipo de comportamiento.El uso extendido de la distribución normal en las aplicaciones estadísticas puede explicarse, además, por otras razones.  Muchos de los procedimientos estadísticos habitualmente utilizados asumen la normalidad de los datos observados.  Aunque muchas de estas técnicas no son demasiado sensibles a desviaciones de la normal y, en general, esta hipótesis puede obviarse cuando se dispone de un número suficiente de datos, resulta recomendable contrastar siempre si se puede asumir o no una distribución normal.  La simple exploración visual de los datos puede sugerir la forma de su distribución.  No obstante, existen otras medidas, gráficos de normalidad y contrastes de

Page 2: Distribucion Normal Johan

hipótesis que pueden ayudarnos a decidir, de un modo más riguroso, si la muestra de la que se dispone procede o no de una distribución normal.  Cuando los datos no sean normales, podremos o bien transformarlos8 o emplear otros métodos estadísticos que no exijan este tipo de restricciones (los llamados métodos no paramétricos).A continuación se describirá la distribución normal, su ecuación matemática y sus propiedades más relevantes, proporcionando algún ejemplo sobre sus aplicaciones a la inferencia estadística.  En la sección 3 se describirán los métodos habituales para contrastar la hipótesis de normalidad.

 La Distribución Normal

La distribución normal fue reconocida por primera vez por el francés Abraham de Moivre (1667-1754).  Posteriormente, Carl Friedrich Gauss (1777-1855) elaboró desarrollos más profundos y formuló la ecuación de la curva; de ahí que también se la conozca, más comúnmente, como la "campana de Gauss".  La distribución de una variable normal está completamente determinada por dos parámetros, su media y su desviación estándar, denotadas generalmente por   y  .  Con esta notación, la densidad de la normal viene dada por la ecuación:

Ecuación 1:

que determina la curva en forma de campana que tan bien conocemos (Figura 2). Así, se dice que una característica   sigue una distribución

normal de media   y varianza  , y se denota como  , si su función de densidad viene dada por la Ecuación 1.Al igual que ocurría con un histograma, en el que el área de cada rectángulo es proporcional al número de datos en el rango de valores correspondiente si, tal y como se muestra en la Figura 2, en el eje horizontal se levantan perpendiculares en dos puntos a y b, el área bajo la curva delimitada por esas líneas indica la probabilidad de que la variable de interés, X, tome un valor cualquiera en ese intervalo.  Puesto que la curva alcanza su mayor altura en torno a la media, mientras que sus "ramas" se extienden asintóticamente hacia los ejes, cuando una variable siga una distribución normal, será mucho más probable observar un dato cercano al valor medio que uno que se encuentre muy alejado de éste.Propiedades de la distribución normal:

La distribución normal posee ciertas propiedades importantes que conviene destacar:

Page 3: Distribucion Normal Johan

1. Tiene una única moda, que coincide con su media y su mediana.

2. La curva normal es asintótica al eje de abscisas.  Por ello, cualquier valor entre   y   es teóricamente posible.  El área total bajo la curva es, por tanto, igual a 1.

3. Es simétrica con respecto a su media  .  Según esto, para este tipo de variables existe una probabilidad de un 50% de observar un dato mayor que la media, y un 50% de observar un dato menor.

4. La distancia entre la línea trazada en la media y el punto de inflexión de la curva es igual a una desviación típica ( ).  Cuanto mayor sea  , más aplanada será la curva de la densidad.

5. El área bajo la curva comprendido entre los valores situados aproximadamente a dos desviaciones estándar de la media es igual a 0.95.  En concreto, existe un 95% de posibilidades de observar un valor comprendido en el intervalo

.6. La forma de la campana de Gauss depende de los

parámetros   y   (Figura 3).  La media indica la posición de la campana, de modo que para diferentes valores de   la gráfica es desplazada a lo largo del eje horizontal.  Por otra parte, la desviación estándar determina el grado de apuntamiento de la curva.  Cuanto mayor sea el valor de   , más se dispersarán los datos en torno a la media y la curva será más plana.  Un valor pequeño de este parámetro indica, por tanto, una gran probabilidad de obtener datos cercanos al valor medio de la distribución.

Como se deduce de este último apartado, no existe una única distribución normal, sino una familia de distribuciones con una forma común, diferenciadas por los valores de su media y su varianza.  De entre todas ellas, la más utilizada es la distribución normal estándar, que corresponde a una distribución de media 0 y varianza 1.  Así, la expresión que define su densidad se puede obtener de la Ecuación 1, resultando:

Es importante conocer que, a partir de cualquier variable X que siga

una distribución  , se puede obtener otra característica Z con una distribución normal estándar, sin más que efectuar la transformación:

Ecuación 2:

Page 4: Distribucion Normal Johan

Esta propiedad resulta especialmente interesante en la práctica, ya que

para una distribución   existen tablas publicadas (Tabla 1) a partir de las que se puede obtener de modo sencillo la probabilidad de observar un dato menor o igual a un cierto valor z, y que permitirán resolver preguntas de probabilidad acerca del comportamiento de variables de las que se sabe o se asume que siguen una distribución aproximadamente normal.

Consideremos, por ejemplo, el siguiente problema: supongamos que se sabe que el peso de los sujetos de una determinada población sigue una distribución aproximadamente normal, con una media de 80 Kg y una desviación estándar de 10 Kg.  ¿Podremos saber cuál es la probabilidad de que una persona, elegida al azar, tenga un peso superior a 100 Kg?

Denotando por X a la variable que representa el peso de los individuos

en esa población, ésta sigue una distribución  .  Si su distribución fuese la de una normal estándar podríamos utilizar la Tabla 1 para calcular la probabilidad que nos interesa.  Como éste no es el caso, resultará entonces útil transformar esta característica según la Ecuación 2, y obtener la variable:

para poder utilizar dicha tabla.  Así, la probabilidad que se desea calcular será:

Como el área total bajo la curva es igual a 1, se puede deducir que:

Esta última probabilidad puede ser fácilmente obtenida a partir de

la Tabla 1, resultando ser  .  Por lo tanto, la probabilidad buscada de que una persona elegida aleatoriamente de esa población tenga un peso mayor de 100 Kg , es de 1–0.9772=0.0228, es decir, aproximadamente de un 2.3%.

De modo análogo, podemos obtener la probabilidad de que el peso de un sujeto esté entre 60 y 100 Kg:

De la Figura 2, tomando a=-2 y b=2, podemos deducir que:

Page 5: Distribucion Normal Johan

Por el ejemplo previo, se sabe que  .  Para la segunda probabilidad, sin embargo, encontramos el problema de que las tablas

estándar no proporcionan el valor de   para valores negativos de la variable.  Sin embargo, haciendo uso de la simetría de la distribución normal, se tiene que:

Finalmente, la probabilidad buscada de que una persona elegida al azar tenga un peso entre 60 y 100 Kg., es de 0.9772-0.0228=0.9544, es decir, aproximadamente de un 95%.  Resulta interesante comprobar que se obtendría la misma conclusión recurriendo a la propiedad (iii) de la distribución normal.No obstante, es fácil observar que este tipo de situaciones no corresponde a lo que habitualmente nos encontramos en la práctica.  Generalmente no se dispone de información acerca de la distribución teórica de la población, sino que más bien el problema se plantea a la inversa: a partir de una muestra extraída al azar de la población que se desea estudiar, se realizan una serie de mediciones y se desea extrapolar los resultados obtenidos a la población de origen.  En un ejemplo similar al anterior, supongamos que se dispone del peso de n=100 individuos de esa misma población, obteniéndose una media

muestral de   Kg, y una desviación estándar muestral   Kg, querríamos extraer alguna conclusión acerca del valor medio real de ese peso en la población original.  La solución a este tipo de cuestiones se basa en un resultado elemental de la teoría estadística, el llamado teorema central del límite.  Dicho axioma viene a decirnos que las medias de muestras aleatorias de cualquier variable siguen ellas mismas una distribución normal con igual media que la de la población

y desviación estándar la de la población dividida por  .  En nuestro

caso, podremos entonces considerar la media muestral  , con lo cual, a partir de la propiedad (iii) se conoce que

aproximadamente un 95% de los posibles valores de   caerían dentro

del intervalo  .  Puesto que los valores de   y   son desconocidos, podríamos pensar en aproximarlos por sus análogos

muestrales, resultando  .   Estaremos, por lo tanto, un 95% seguros de que el peso medio real en la población de origen oscila entre 75.6 Kg y 80.3 Kg.  Aunque la teoría

Page 6: Distribucion Normal Johan

estadística subyacente es mucho más compleja, en líneas generales éste es el modo de construir un intervalo de confianza para la media de una población.

 Contrastes de Normalidad

La verificación de la hipótesis de normalidad resulta esencial para poder aplicar muchos de los procedimientos estadísticos que habitualmente se manejan.  Tal y como ya se apuntaba antes, la simple exploración visual de los datos observados mediante, por ejemplo, un histograma o un diagrama de cajas, podrá ayudarnos a decidir si es razonable o no el considerar que proceden de una característica de distribución normal.  Como ejemplo, consideremos los histogramas que se muestran en la Figura 4a, correspondientes a una muestra de 100 mujeres de las que se determinó su peso y edad.  Para el caso del peso, la distribución se asemeja bastante a la de una normal. P ara la edad, sin embargo, es claramente asimétrica y diferente de la gaussiana.Resulta obvio que este tipo de estudio no puede llevarnos sino a obtener una opinión meramente subjetiva acerca de la posible distribución de nuestros datos, y que es necesario disponer de otros métodos más rigurosos para contrastar este tipo de hipótesis.  En primer lugar, deberemos plantearnos el saber si los datos se distribuyen de una forma simétrica con respecto a su media o presentan algún grado de asimetría, pues es ésta una de las características fundamentales de la distribución de Gauss.  Aunque la simetría de la distribución pueda valorarse, de modo simple, atendiendo a algunas medidas descriptivas de la variable en cuestión8 (comparando, por ejemplo, los valores de media, mediana y moda), resultará útil disponer de algún índice que nos permita cuantificar cualquier desviación. Si se dispone de una muestra de

tamaño n,   de una característica X, se define el coeficiente de asimetría de Fisher como:

a partir del cual podemos considerar que una distribución es simétrica (=0), asimétrica hacia la izquierda ( <0) o hacia la derecha ( >0).  En

segundo lugar, podemos preguntarnos si la curva es más o menos "aplastada", en relación con el grado de apuntamiento de una distribución gaussiana.  El coeficiente de aplastamiento o curtosis de Fisher, dado por:

Page 7: Distribucion Normal Johan

permite clasificar una distribución de frecuencias en mesocúrtica (tan

aplanada como una normal,  ), leptocúrtica (más apuntada que una

normal,  ) o platicúrtica (más aplanada que una normal,  ).Siguiendo con los ejemplos anteriores, y tal y como cabía esperar, el coeficiente de asimetría toma un valor mayor para la distribución de la

edad ( ) que para el peso observado ( ).  En cuanto a los niveles de curtosis, no hay apenas diferencias, siendo de –0.320 para el peso y de –0.366 para la edad.Los gráficos de probabilidad normal constituyen otra importante herramienta gráfica para comprobar si un conjunto de datos puede considerarse o no procedente de una distribución normal.  La idea básica consiste en enfrentar, en un mismo gráfico, los datos que han sido observados frente a los datos teóricos que se obtendrían de una distribución gaussiana.  Si la distribución de la variable coincide con la normal, los puntos se concentrarán en torno a una línea recta, aunque conviene tener en cuenta que siempre tenderá a observarse mayor variabilidad en los extremos (Figura 4a, datos del peso).  En los gráficos P-P se confrontan las proporciones acumuladas de una variable con las de una distribución normal.  Los gráficos Q-Q se obtienen de modo análogo, esta vez representando los cuantiles respecto a los cuantiles de la distribución normal.  Además de permitir valorar la desviación de la normalidad, los gráficos de probabilidad permiten conocer la causa de esa desviación.  Una curva en forma de "U" o con alguna curvatura, como en el caso de la edad en la Figura 4b, significa que la distribución es asimétrica con respecto a la gaussiana, mientras que un gráfico en forma de "S" significará que la distribución tiene colas mayores o menores que la normal, esto es, que existen pocas o demasiadas observaciones en las colas de la distribución.Parece lógico que cada uno de estos métodos se complemente con procedimientos de análisis que cuantifiquen de un modo más exacto las desviaciones de la distribución normal.  Existen distintos tests estadísticos que podemos utilizar para este propósito.  El test de Kolmogorov-Smirnov es el más extendido en la práctica.  Se basa en la idea de comparar la función de distribución acumulada de los datos observados con la de una distribución normal, midiendo la máxima distancia entre ambas curvas.  Como en cualquier test de hipótesis, la hipótesis nula se rechaza cuando el valor del estadístico supera un cierto valor crítico que se obtiene de una tabla de probabilidad.  Dado que en la mayoría de los paquetes estadísticos, como el SPSS, aparece

Page 8: Distribucion Normal Johan

programado dicho procedimiento, y proporciona tanto el valor del test como el p-valor correspondiente, no nos detendremos más en explicar su cálculo.  Existen modificaciones de este test, como el de Anderson-Darling que también pueden ser utilizados.  Otro procedimiento muy extendido es también el test chi-cuadrado de bondad de ajuste.  No obstante, este tipo de procedimientos deben ser utilizados con precaución.  Cuando se dispone de un número suficiente de datos, cualquier test será capaz de detectar diferencias pequeñas aún cuando estas no sean relevantes para la mayor parte de los propósitos.  El test de Kolmogorov-Smirnov, en este sentido, otorga un peso menor a las observaciones extremas y por la tanto es menos sensible a las desviaciones que normalmente se producen en estos tramos.Para acabar, observemos el resultado de aplicar el test de Kolmogorov-Smirnov a los datos de la Figura 4.  Para el caso del peso, el valor del estadístico proporcionado por dicho test fue de 0.705, con un p-valor correspondiente de p=0.702 que, al no ser significativo, indica que podemos asumir una distribución normal.  Por otra parte, para el caso de la edad, en el que la distribución muestral era mucho más asimétrica, el mismo test proporcionó un valor de 1.498, con p=0.022, lo que obligaría a rechazar en este caso la hipótesis de una distribución gaussiana.

 Recursos relacionados en Internet

Normal Density Plotter (UCLA Department of Statistic)Página que permite obtener la representación gráfica de la densidad de una distribución normal de media y desviación estándar dados por el usuario.

SurfStat Statistical Tables - Standard Normal Distribution  (University of Newcastle)Página que permite calcular, a partir de una distribución normal estándar, la probabilidad acumulada hasta un cierto valor, o la probabilidad de tomar un valor en un intervalo. Así mismo, permite realizar los cálculos inversos, es decir, obtener el p-cuantil de una distribución normal estándar.

Normal Density Calculator (UCLA Department of Statistic)Permite obtener, bajo una distribución normal, la probabilidad de observar un valor mayor o igual que uno dado. La ventaja es que permite hacerlo no sólo para la distribución normal estándar, sino para valores de la media y desviación estándar dados por el usuario.

Matt's spiffy normal plot maker (UCLA Department of Statistic)Se introducen los datos de la variable de interes y produce el gráfico Q-Q de probabilidad normal correspondiente, que puede ser fácilmente exportado a otros programas.

Page 9: Distribucion Normal Johan

Calculation of 95% Confidence Interval on a Sample Mean  (Arizona State University)A partir del valor de la media y la desviación estándar muestral, calcula el 95% intervalo de confianza para la media poblacional.

Figura 1. Histograma de los valores de tensión arterial sistólica para dos muestras de pacientes isquémicos ingresados en una unidad de cuidados intensivos.

Figura 1a.- Valores de tensión arterial sistólica en una muestra de 1000 pacientes isquémicos ingresados en UCI.

Figura 1b.- Valores de tensión arterial sistólica de una muestra de 5000 pacientes ingresados en UCI.

Page 10: Distribucion Normal Johan

Figura 2. Gráfica de una distribución normal y significado del área bajo la curva.

Tabla 1.  Áreas bajo la curva normal estándar.  Los valores de la tabla que no se muestran en negrita representan la probabilidad de observar un valor menor o igual a z.  La cifra entera y el primer decimal de z se buscan en la primera columna, y el segundo decimal en la cabecera de la tabla.

Page 11: Distribucion Normal Johan

Segunda cifra decimal del valor de z

z0.00

.01 .02 .03 .04 .05 .06 .07 .08 .09

0.0

.5000

.5040

.5080

.5120

.5160

.5199

.5239

.5279

.5319

.5359

0.1

.5398

.5438

.5478

.5517

.5557

.5596

.5636

.5675

.5714

.5753

0.2

.5793

.5832

.5871

.5910

.5948

.5987

.6026

.6064

.6103

.6141

0.3

.6179

.6217

.6255

.6293

.6331

.6368

.6406

.6443

.6480

.6517

0.4

.6554

.6591

.6628

.6664

.6700

.6736

.6772

.6808

.6844

.6879

0.5

.6915

.6950

.6985

.7019

.7054

.7088

.7123

.7157

.7190

.7224

0.6

.7257

.7291

.7324

.7357

.7389

.7422

.7454

.7486

.7517

.7549

0.7

.7580

.7611

.7642

.7673

.7704

.7734

.7764

.7794

.7823

.7852

0.8

.7881

.7910

.7939

.7967

.7995

.8023

.8051

.8078

.8106

.8133

Page 12: Distribucion Normal Johan

0.9

.8159

.8186

.8212

.8238

.8264

.8289

.8315

.8340

.8365

.8389

1.0

.8413

.8438

.8461

.8485

.8508

.8531

.8554

.8577

.8599

.8621

1.1

.8643

.8665

.8686

.8708

.8729

.8749

.8770

.8790

.8810

.8830

1.2

.8849

.8869

.8888

.8907

.8925

.8944

.8962

.8980

.8997

.9015

1.3

.9032

.9049

.9066

.9082

.9099

.9115

.9131

.9147

.9162

.9177

1.4

.9192

.9207

.9222

.9236

.9251

.9265

.9279

.9292

.9306

.9319

1.5

.9332

.9345

.9357

.9370

.9382

.9394

.9406

.9418

.9429

.9441

1.6

.9452

.9463

.9474

.9484

.9495

.9505

.9515

.9525

.9535

.9545

1.7

.9554

.9564

.9573

.9582

.9591

.9599

.9608

.9616

.9625

.9633

1.8

.9641

.9649

.9656

.9664

.9671

.9678

.9686

.9693

.9699

.9706

1.9

.9713

.9719

.9726

.9732

.9738

.9744

.9750

.9756

.9761

.9767

2.0

.9772

.9778

.9783

.9788

.9793

.9798

.9803

.9808

.9812

.9817

Page 13: Distribucion Normal Johan

2.1

.9821

.9826

.9830

.9834

.9838

.9842

.9846

.9850

.9854

.9857

2.2

.9861

.9864

.9868

.9871

.9875

.4878

.9881

.9884

.9887

.9890

2.3

.9893

.9896

.9898

.9901

.9904

.9906

.9909

.9911

.9913

.9916

2.4

.9918

.9920

.9922

.9925

.9927

.9929

.9931

.9932

.9934

.9936

2.5

.9938

.9940

.9941

.9943

.9945

.9946

.9948

.9949

.9951

.9952

2.6

.9953

.9955

.9956

.9957

.9959

.9960

.9961

.9962

.9963

.9964

2.7

.9965

.9966

.9967

.9968

.9969

.9970

.9971

.9972

.9973

.9974

2.8

.9974

.9975

.9976

.9977

.9977

.9978

.9979

.9979

.9980

.9981

2.9

.9981

.9982

.9982

.9983

.9984

.9984

.9985

.9985

.9986

.9986

3.0

.9987

.9987

.9987

.9988

.9988

.9989

.9989

.9989

.9990

.9990

3.1

.9990

.9991

.9991

.9991

.9992

.9992

.9992

.9992

.9993

.9993

3.2

.9993

.9993

.9994

.9994

.9994

.9994

.9994

.9995

.9995

.9995

Page 14: Distribucion Normal Johan

3.3

.9995

.9995

.9995

.9996

.9996

.9996

.9996

.9996

.9996

.9997

3.4

.9997

.9997

.9997

.9997

.9997

.9997

.9997

.9997

.9997

.9998

Figura 3. Ejemplos de distribuciones normales con diferentes parámetros.

Page 15: Distribucion Normal Johan

Figura 4. Histogramas y gráficos de probabilidad normal de los valores de peso y edad en dos muestras de pacientes.

Figura 4a.- Histogramas

Page 16: Distribucion Normal Johan

Figura 4b.- Gráficos Q-Q de probabilidad.

Page 17: Distribucion Normal Johan

"LA DISTRIBUCIÓN NORMAL COMO

MODELO PROBABILISTICO"

 

 

Page 18: Distribucion Normal Johan

 

 

 

 

 

HISTORIA:

 

La distribución normal fue presentada por vez primera por Abraham de Moivre en un artículo del año 1733, que fue reimpreso en la segunda edición de su The Doctrine of Chances, de 1738, en el contexto de cierta aproximación de la distribución binominal para grandes valores de n. Su resultado fue ampliado por Laplace en su libro Teoría analítica de las probabilidades (1812), y en la actualidad se llama Teorema de De Moivre – Laplace.

Laplace usó la distribución normal en el análisis de errores de experimentos. El importante método de mínimos cuadrados fue

Page 19: Distribucion Normal Johan

introducido por Legendre en 1805. Gauss , que afirmaba haber usado el método desde 1794 , lo justificó rigurosamente en 1809 asumiendo una distribución normal de los errores. El nombre de Gauss se ha asociado a esta distribución porque la usó con profusión cuando analizaba datos astronómicos y algunos autores le atribuyen un descubrimiento independiente del de De Moivre. Esta atribución del nombre de la distribución a una persona distinta de su primer descubridor es un claro ejemplo de la Ley de Stingler.

El nombre de "campana" viene de Esprit Jouffret que usó el término "bell surface" (superficie campana) por  primera vez en 1872 para una distribución normal bivariante de componentes independientes. El nombre de "distribución normal" fue otorgado independientemente por Charles S. Pierce, Francis Galton y Wilhelm Lexis hacia 1875.

 

 

 

Abraham de Moivre, descubridor de la distribución normal

Page 20: Distribucion Normal Johan

 QUÉ ES LA DISTRIBUCIÓN NORMAL?

DISTRIBUCION NORMAL

Esta distribución es frecuentemente utilizada en las aplicaciones estadísticas. Su propio nombre indica su extendida utilización, justificada por la frecuencia o normalidad con la que ciertos fenómenos tienden a parecerse en su comportamiento a esta distribución.

Muchas variables aleatorias continuas presentan una función de densidad cuya gráfica tiene forma de campana. 

En resumen, la importancia de la distribución normal se debe principalmente a que hay muchas variables asociadas a fenómenos naturales que siguen el modelo de la normal.

Caracteres morfológicos de individuos (personas, animales, plantas,...) de una especie, por ejemplo. tallas, pesos, envergaduras, diámetros, perímetros,...

Caracteres fisiológicos, por ejemplo: efecto de una misma dosis de un fármaco, o de una misma cantidad de abono.Caracteres sociológicos, por ejemplo: consumo de cierto producto por un mismo grupo de individuos, puntuaciones de examen entre otros.Caracteres psicológicos, por ejemplo: cociente intelectual, grado de adaptación a un medio etc.Errores cometidos al medir ciertas magnitudes.Valores estadísticos muestrales, por ejemplo: la media.Otras distribuciones como la binomial o la de Poisson se pueden aproximar adecuadamente con la distribución normal.FUNCIÓN DE DENSIDAD DE UNA DISTRIBUCIÓN NORMAL:

 

Si la variable aleatoria x tiene densidad

 para menos infinito < x < mas infinito

Page 21: Distribucion Normal Johan

 

Donde la media y la desviación estándar son números tales que menos infinito < la media < mas infinito y cero < la desviación estándar < más infinito, donde e y π son las constantes; e = 2,7182 y π = 3,141.

NOTACIÓN:

Si la variable aleatoria x sigue una distribución normal con media µ y varianza 

X ~ n ( µ ,   )

 

Ahora, la media proporciona una medida de posición central, mientras que la varianza da una medida de disperción alrededor de la media.

 

 

El área total debajo de la curva es igual a 1. El área debajo de la curva comprendida entre µ - σ y µ + σ es aproximadamente igual a 0,68 del área total; entre µ - 2σ y µ + 2σ es aproximadamente igual a 0,95 del área total:Es importante ver que los únicos parámetros necesarios para dibujar el gráfico de la distribución normal son la media y desviación stándard de la población. Con estos dos parámetros sabemos donde situar la campana de Gauss (En el punto correspondiente a la media) y cual es su dispersión (Determinado por la desviación standard).

DEFINICIÓN 2

Page 22: Distribucion Normal Johan

TEOREMA DE TIPIFICACIÓN O ESTANDARIZACIÓN

 

Si X ~ n(µ, ) entonces las variables aleatorias  ~N(0,1).

Esto se hace con el fin de utilizar las tablas y poder calcular todas las probabilidades requeridas, ya que si no se hace este cambio de escala, se tendría que calcular la fórmula de la distribución de densidad que implica calcular integrales; y por tanto se volvería inmanejable para un gran número de personas que no tiene formación para ello.

 Si no se cuenta con una tabla como la siguiente, debemos proceder a realizar la siguiente fórmula para calcular la probabilidad:

 

p ( a *< z < b * ) = f z ( b*) - f z (a*)

 Cuando el valor de z da negativo, y en la tabla de distribución normal estándar no se encuentra; buscamos la probabilidad absoluta y la restamos de uno. Sin embargo, a continuación se coloca la tabla considerando tanto valores negativos como positivos de la nueva variable estándar z, por lo tanto, no se requiere hacer ningún cambio, sólo busca la intersección, por ejemplo sí:

z= -2.43, la probabilidad es 0.007549 z= 1.28, la probabilidad es 0.899727

En otro OA, se mostrará el uso del Excel para calcular las diferentes probabilidades.

PROPIEDADES

Tiene una única moda, que coincide con su media y su mediana (aproximadamente).

La curva normal es asintótica al eje de las absisas. Por ello, cualquier valor entre menos infinito e infinito es teoricamente posible. El área bajo la curva normal es igual a la unidad.

Page 23: Distribucion Normal Johan

La curva normal es asintótica al eje de abscisas. Por ello, cualquier valor entre -∞ y +∞ es teóricamente posible. El área total bajo la curva es, por tanto, igual a 1.

 

El área bajo la curva comprendido entre los valores situados aproximadamente a dos desviaciones estándar de la media es igual a 0.95. En concreto, existe un 95% de posibilidades de observar un valor comprendido en el intervalo La forma de la campana de Gauss depende de los parámetros µ y desviación estándar. La media indica la posición de la campana, de modo que para diferentes valores de µ la gráfica es desplazada a lo largo del eje horizontal. Por otra parte, la desviación estándar determina el grado de apuntamiento de la curva. Cuanto mayor sea el valor de la desviación estándar, más se dispersarán los datos en torno a la media y la curva será más plana. Un valor pequeño de este parámetro indica, por tanto, una gran probabilidad de obtener datos cercanos al valor medio de la distribución. El tiempo para realizar una intervención quirurgica tiene un comportamiento aproximadamente normal, con media de 140 minutos y desviacion de 50 minutos . Calcule la probabilidad de que una intervención quirúrgica se demore:

a- A lo sumo 100 minutos

EJEMPLO 2

Para el caso en que se tiene la probabilidad y el interés es determinar el valor de x, el proceso es inverso, es decir, se busca el valor de z y se despeja el de x. Para el caso anterior:

 

P(x<=x0 )=0.5

P(z<(x0 - µ)/ σ)=P(z<(x0 -140)/50)=0.5

(x0 -140)/50)=0.00 probabilidad de la tabla normal. Al depejar x0 se tiene:

x0= µ +p(z)* σ

x0= 140+0.00*50=140

Page 24: Distribucion Normal Johan

EJEMPLO 3

Los pesos de una población de adultos mayores indigentes tienen un comportamiento que se asemeje a una campana normal con una media de 132 libras y una varianza de 225. Calcular la probabilidad de que una persona seleccionada al azar de entre esa población, pese:

 

a. Más de 155

P(x>155)=1-P(x<155)

=1-P(z<(155-132)/15)= 1-P(z<1.53)

=1-0.9370=0.063

 

b. 100 libras o menos

P(x<=100)=P(z<=(100-132)/15)=P(z<=-2.13)=0.0166

 

c. Entre 105 y 143 libras

P(105<x<143)= P(x<143)-P(x<=105). luego de tipificar, se tiene:

P(z<0.73)-P8z<-1.8)=0.7673-0.0359=0.7324

ACTIVIDAD

 Pregunta Verdadero-Falso

Una de las propiedades de la distribucion normal es que tiene una moda que coincide con su mediana y su media.

Verdadero   Falso 

Page 25: Distribucion Normal Johan

Los parámetros que definen la distribución normal son la media y la desviación típica o estándar

Verdadero   Falso          

 Pregunta de Selección MúltipleCuando un valor negativo no se encuentra en la tabla de distribucion normal estandarizada:

Las probabilidades nunca pueden dar negativa.Se busca la probabilidad absoluta y se resta de uno.Las probabilidades nunca pueden dar negativa.

 

La distribución normal tiene aplicación en:

Ergonomía

Medicina

Todas las anteriores

6.8.6 Distribución normal o gaussiana

La distribución gaussiana, recibe también el nombre de distribución normal, ya que una gran mayoría de las v.a continuas6.3 de la naturaleza siguen esta distribución. Se dice que una v.a. X sigue una distribución

normal de parámetros   y  , lo que representamos del

modo  6.4 si su función de densidad es:

 

6.8.6.1 Observación

Page 26: Distribucion Normal Johan

Estos dos parámetros   y   coinciden además con la media (esperanza) y la varianza respectivamente de la distribución como se demostrará más adelante6.5:

La forma de la función de densidad es la llamada campana de Gauss.

  Figura: Campana de Gauss o función de densidad de una v.a. de distribución normal. El área contenida entre la gráfica y el eje de abcisas vale 1.

Para el lector es un ejercicio interesante comprobar que ésta alcanza

un único máximo (moda) en  , que es simétrica con respecto al mismo,

y por tanto  , con lo cual en   coinciden la media, la mediana y la moda, y por último,calcular sus puntos de inflexión.

Page 27: Distribucion Normal Johan

El soporte de la distribución es todo  , de modo que la mayor parte de la masa de probabilidad (área comprendida entre la curva y el eje de abcisas) se encuentra concentrado alrededor de la media, y las ramas de la curva se extienden asintóticamente a los ejes, de modo que cualquier valor ``muy alejado" de la media es posible (aunque poco probable).

La forma de la campana de Gauss depende de los parámetros   y  :

 indica la posición de la campana (parámetro de centralización); 

  

Figura: Distribuciones gaussianas con diferentes medias e igual dispersión.

 (o equivalentemente,  ) será el parámetro de dispersión. Cuanto menor sea, mayor cantidad de masa de probabilidad habrá concentrada alrededor de la media (grafo de f muy

apuntado cerca de  ) y cuanto mayor sea ``más aplastado" será.

Page 28: Distribucion Normal Johan

  

Figura: Distribuciones gaussianas con igual media pero varianza diferente.

La función característica de la distribución normal, se comprueba más adelante que es

Como consecuencia, la distribución normal es reproductiva con

respecto a los parámetros  , y  , ya que

Page 29: Distribucion Normal Johan

6.8.6.2 Observación

Como se ha mencionado anteriormente, la ley de probabilidad gaussiana la encontramos en la mayoría de los fenómenos que observamos en la naturaleza, por ello gran parte de lo que resta del curso lo vamos a dedicar a su estudio y a el de las distribuciones asociadas a ella. Sin embargo, a pesar de su utilidad, hay que apuntar un hecho negativo para esta ley de probabilidad:

La función   no posee primitiva6.6 conocida6.7.

Las consecuencias desde el punto de vista práctico son importantes, ya que eso impide el que podamos escribir de modo sencillo la función de distribución de la normal, y nos tenemos que limitar a decir que:

sin poder hacer uso de ninguna expresión que la simplifique. Afortunadamente esto no impide que para un valor de xfijo, F(x) pueda ser calculado. De hecho puede ser calculado con tanta precisión (decimales) como se quiera, pero para esto se necesita usar técnicas de cálculo numérico y ordenadores. Para la utilización en problemas prácticos de la función de distribución F, existen ciertas tablas donde se ofrecen (con varios decimales de precisión) los valores F(x) para una serie limitada de valores xi dados. Normalmente F se encuentra

Page 30: Distribucion Normal Johan

tabulada para una distribución Z, normal de media 0 y varianza 1 que se denomina distribución normal tipificada:

 

En el caso de que tengamos una distribución diferente  , se obtiene Z haciendo el siguiente cambio:

 

De manera general se tiene6.8:

6.8.6.3 Proposición (Cambio de origen y escala)

Sean  . Entonces

Este resultado puede ser utilizado del siguiente modo: Si  , y

nos interesa calcular  ,

1.

Hacemos el cambio  y calculamos  ;2.

Usamos la tabla 3, relativa a la distribución   para obtener

(de modo aproximado)  ;3.

Como

Page 31: Distribucion Normal Johan

tenemos que el valor obtenido en la tabla, FZ(z) es la probabilidad buscada.

6.8.6.4 Ejemplo

Supongamos que cierto fenómeno pueda ser representado mediante

una v.a.  , y queremos calcular la probabilidad de que Xtome un valor entre 39 y 48, es decir,

Comenzamos haciendo el cambio de variable

de modo que

Page 32: Distribucion Normal Johan

Vamos ahora a demostrar algunas de las propiedades de la ley gaussiana que hemos mencionado anteriormente.

6.8.6.5 Proposición

Sea  . Entonces

Demostración

Por ser la normal una ley de probabilidad se tiene que 

es decir, esa integral es constante. Con lo cual, derivando la expresión

anterior con respecto a   se obtiene el valor 0:

luego  .

Para demostrar la igualdad entre la   y  , basta con aplicar la misma técnica, pero esta vez derivando con respecto a  :

Page 33: Distribucion Normal Johan

Luego 

Para demostrar el resultado relativo a la función característica, consideramos en primer lugar la v.a. tipificada de X,

y calculamos

Como  , por la proposición 5 deducimos que

6.8.6.6 Aproximación a la normal de la ley binomial

Page 34: Distribucion Normal Johan

Se puede demostrar (teorema central del límite) que una v.a.

discreta con distribución binomial,  se puede aproximar mediante una distribución normal si n es suficientemente grande y p no está ni muy próximo a 0 ni a 1. Como el valor esperado y la varianza

de X son respectivamente   y  , la aproximación consiste en decir

que  . El convenio que se suele utilizar para poder realizar esta aproximación es:

aunque en realidad esta no da resultados muy precisos a menos que

realmente nsea un valor muy grande o  . Como ilustración obsérvense las figuras 6.10 y 6.11.

  Figura: Comparación entre la función de densidad de una v.a. continua con

distribución  y el diagrama de barras de una v.a.

discreta de distribución   para casos en que la aproximación normal de la binomial es válida. Es peor esta aproximación cuando p está próximo a los bordes del intervalo [0,1].

Page 35: Distribucion Normal Johan

  Figura: La misma comparación que en la figura anterior, pero realizada con parámetros con los que damos la aproximación normal de la binomial es mejor.

Page 36: Distribucion Normal Johan

6.8.6.7 Ejemplo

Durante cierta epidemia de gripe, enferma el   de la población. En un aula con 200 estudiantes de Medicina, ¿cuál es la probabilidad de que al menos 40 padezcan la enfermedad? Calcular la probabilidad de que haya 60 estudiantes con gripe.

Solución: La v.a. que contabiliza el número de alumnos que padece la gripe es

cuya media es   y su varianza es  . Realizar los cálculos con la ley binomial es muy engorroso, ya que intervienen números combinatorios de gran tamaño, y potencias muy elevadas. Por ello utilizamos la aproximación normal de X, teniendo en cuenta que se verifican las condiciones necesarias para que el error sea aceptable:

Así aproximando la v.a. discreta binomial X, mediante la v.a. continua normal XN tenemos:

Page 37: Distribucion Normal Johan

También es necesario calcular  . Esta probabilidad se calcula exactamente como:

Dada la dificultad numérica para calcular esa cantidad, y como la distribución binomial no está habitualmente tabulada hasta valores tan altos, vamos a utilizar su aproximación normal, XN. Pero hay que prestar atención al hecho de que XN es una v.a. continua, y por tanto la probabilidad de cualquier punto es cero. En particular,

lo que ha de ser interpretado como un error de aproximación. Hay métodos más aproximados para calcular la probabilidad buscada. Por

ejemplo, podemos aproximar   por el valor de la función de densidad de XN en ese punto (es en el único sentido en que se puede

Page 38: Distribucion Normal Johan

entender la función de densidad de la normal como una aproximación de una probabilidad). Así:

Por último, otra posibilidad es considerar un intervalo de longitud 1centrado en el valor 60 del que deseamos hallar su probabilidad y hacer:

6.8.6.8 Ejemplo

Según un estudio, la altura de los varones de cierta ciudad es una v.a. X, que podemos considerar que se distribuye según una ley

gaussiana de valor esperado   y desviación típica  .

Dar un intervalo para el que tengamos asegurado que el   de los habitantes de la ciudad estén comprendidos en él.

Solución: Tenemos que  . Si buscamos un

intervalo donde estar seguros de que el   de los habitantes tengan sus alturas comprendidas en él hay varias estrategias posibles:

1.Podemos tomar el percentil 50, ya que este valor deja por debajo suya a la mitad, 0,5, de la masa de probabilidad. Este valor, x0,5, se definiría como:

Page 39: Distribucion Normal Johan

donde

El valor z0,5 lo podemos buscar en la tabla 3 (distribución  ) y se obtiene

Por tanto podemos decir que la mitad de la población tiene una

altura inferior a  . Este resultado era de esperar, ya que en la distribución es simétrica y habrá una mitad de individuos con un peso inferior a la media y otro con un peso superior (figura 6.12). Esto puede escribirse como:

El   de la población tiene un peso comprendido en el

intervalo  .

  Figura: Intervalo donde tenemos asegurado que el 50% de la población tiene un peso comprendido en él. Como se observa, no es un tamaño óptimo, en el sentido de que el intervalo es demasiado grande (longitud infinita

Page 40: Distribucion Normal Johan

a la izquierda).

2.Análogamente podemos considerar el percentil 50, y tomar como intervalo aquellos pesos que lo superan. Por las mismas razones que en el problema anterior, podremos decir:

El   de la población tiene un peso comprendido en el

intervalo  .

3.Los anteriores intervalos, aún dando un resultado correcto, no son satisfactorios en el sentido de que son muy grandes, y no tienen en cuenta la simetría de la distribución normal para tomar

un intervalo cuyo centro sea  . Vamos a utilizar entonces otra técnica que nos permita calcular el intervalo centrado en la media, y que además será el más pequeño posible que contenga

al  de la población.

Para ello observamos que la mayor parte de probabilidad está concentrada siempre alrededor de la media en las leyes gaussianas. Entonces podemos tomar un intervalo que contenga

un   de probabilidad del lado izquierdo más próximo a la

media, y un   del derecho (figura 6.13).

  

Page 41: Distribucion Normal Johan

Figura: Intervalo donde tenemos asegurado que el 50% de la población tiene un peso comprendido en él. En este caso el intervalo es más pequeño que el

anterior y está centrado en  .

Esto se puede describir como el intervalo

donde x0,25 es el valor que deja por debajo de sí al  de la masa de probabilidad y x0,75 el que lo deja por encima (o lo que es lo

mismo, el que deja por debajo al   de las observaciones). Del mismo modo que antes estos valores pueden ser buscados en una tabla de la distribución normal, tipificando en primera instancia para destipificar después:

Page 42: Distribucion Normal Johan

donde

En una tabla encontramos el valor z0,75, y se destipifica: 

Análogamente se calcularía

donde

Por la simetría de la distribución normal con respecto al origen, tenemos que z0,25= - z0,75.Luego

Page 43: Distribucion Normal Johan

En conclusión:

El   de la población tiene un peso comprendido en el intervalo [168,25,181,75].

De entre los tres intervalos que se han calculado el que tiene más interés es el último, ya que es simétrico con respecto a la media, y es el más pequeño de todos los posibles (más preciso). Este ejemplo es en realidad una introducción a unas técnicas de inferencia estadística que trataremos posteriormente, conocidas con el nombre de ``estimación confidencial'' o ``cálculo de intervalos de confianza''.