3. MEDIDAS RESUMEN: Numéricas y Gráficas. · Veremos medidas de la posición del centro, la...

29
Estadística (Q) Dra. Diana M. Kelmansky FCEN-UBA 18 3. MEDIDAS RESUMEN: Numéricas y Gráficas. 3.1 Introducción Ejemplo. “Admítelo una salchicha no es una zanahoria”. Así decía la revista ”El Consumidor” en un comentario sobre la baja calidad nutricional de las salchichas. Hay tres tipos de salchichas: i. carne vacuna, ii. mezcla (carne porcina, vacuna y de pollo) iii. pollo. ¿Existe alguna diferencia sistemática entre estos tres tipos de salchichas, en estas dos variables? Calorías y sodio en salchichas por tipo Vacuno Mezcla Pollo Calorías Sodio Calorías Sodio Calorías Sodio 186 495 173 458 129 430 181 477 191 506 132 375 176 425 182 473 102 396 149 322 190 545 106 383 184 482 172 496 94 387 190 587 147 360 102 542 158 370 146 387 87 359 139 322 139 386 99 357 175 479 175 507 170 528 148 375 136 393 113 513 152 330 179 405 135 426 111 300 153 372 142 513 141 386 107 344 86 358 153 401 195 511 143 581 190 645 135 405 152 588 157 440 140 428 146 522 131 317 138 339 144 545 149 319 135 296 132 253 Nos interesa resumir las características más importantes del conjunto de datos en una pequeña cantidad de números que sean fácilmente interpretables. La distribución de la cantidad de sodio en las salchichas de pollo muestra dos grupos distintivos. Este tipo de distribuciones no estará bien representada por las medidas resumen.

Transcript of 3. MEDIDAS RESUMEN: Numéricas y Gráficas. · Veremos medidas de la posición del centro, la...

  • Estadística (Q) Dra. Diana M. Kelmansky FCEN-UBA

    18

    3. MEDIDAS RESUMEN: Numéricas y Gráficas. 3.1 Introducción Ejemplo. “Admítelo una salchicha no es una zanahoria”. Así decía la revista ”El Consumidor” en un comentario sobre la baja calidad nutricional de las salchichas. Hay tres tipos de salchichas:

    i. carne vacuna, ii. mezcla (carne porcina, vacuna y de pollo) iii. pollo.

    ¿Existe alguna diferencia sistemática entre estos tres tipos de salchichas, en estas dos variables? Calorías y sodio en salchichas por tipo

    Vacuno Mezcla Pollo Calorías Sodio Calorías Sodio Calorías Sodio

    186 495 173 458 129 430 181 477 191 506 132 375 176 425 182 473 102 396 149 322 190 545 106 383 184 482 172 496 94 387 190 587 147 360 102 542 158 370 146 387 87 359 139 322 139 386 99 357 175 479 175 507 170 528 148 375 136 393 113 513 152 330 179 405 135 426 111 300 153 372 142 513 141 386 107 344 86 358 153 401 195 511 143 581 190 645 135 405 152 588 157 440 140 428 146 522 131 317 138 339 144 545 149 319 135 296 132 253

    Nos interesa resumir las características más importantes del conjunto de datos en una pequeña cantidad de números que sean fácilmente interpretables. La distribución de la cantidad de sodio en las salchichas de pollo muestra dos grupos distintivos. Este tipo de distribuciones no estará bien representada por las medidas resumen.

  • Estadística (Q) Dra. Diana M. Kelmansky FCEN-UBA

    19

    Los resúmenes pueden ser muy útiles pero no son los detalles. Generalmente los detalles agregan poco, pero es importante estar preparados para las ocasiones en que sí agregan mucho. 3.2 Centro y dispersión. Los conjuntos de datos provenientes de una población homogénea poseen, en general, dos propiedades importantes: un valor central y la dispersión alrededor de ese valor. Vemos esta idea en los siguientes histogramas hipotéticos:

  • Estadística (Q) Dra. Diana M. Kelmansky FCEN-UBA

    20

    Veremos medidas de la posición del centro, la dispersión y otras medidas de posición. 3.3 Media y varianza muestrales Las medidas resumen clásicas utilizan solamente operaciones aritméticas simples (+, *, raíz cuadrada) para resumir un conjunto de datos de n observaciones, x1, x2, . . . , xn . La media muestral x , como medida de la posición del centro de los datos,

    nxx

    x n++

    = 1 ,

    la varianza muestral,

    ∑=

    −−

    =n

    ii xxn

    s1

    22 )(1

    1

    ó el desvió estándar

    s =DS n x xii

    n= − −=

    ∑1 12

    1( )

    como medida de variabilidad o dispersión.

    El desvío estándar es la medida clásica de variabilidad. Observación: el desvío estándar (DS) tiene las mismas unidades que las observaciones. Desviación respecto de la media xi x− desviación i-ésima respecto de la media.

    Los datos menores que la media tienen un desvío negativo. Los datos mayores que la media tienen un desvío positivo.

  • Estadística (Q) Dra. Diana M. Kelmansky FCEN-UBA

    21

    Si • todas las diferencias son pequeñas en valor absoluto: • las observaciones xi están cerca de x ∴ los datos presentan poca variabilidad, • algún x xi − es grande en valor absoluto se tiene mayor variabilidad.

    Es fácil ver que ( )x xi − =∑ 0.

    La varianza muestral mide la desviación cuadrática de los datos respecto de su media

    Es más fácil realizar cálculos con desvíos cuadráticos, (x xi −2) , que con desvíos absolutos,

    | |x xi − . 3.3 Media y varianza poblacionales, para poblaciones finitas Si datos son poblacionales tendremos: • como medida de posición, la media poblacional μ que se calcula como

    μ = =∑ x

    N

    ii

    N

    1

    • como medida de dispersión, la varianza poblacional σ2

    σ μ2 21

    1= −

    =∑N xiiN

    ( )

    ó la raíz cuadrada de σ2, σ , que llamaremos desvío estándar. . Población ocupada, República Argentina, Octubre de 1994. Síntesis 3, INDEC, 1995 Aglomerado Urbano Pobl. Ocup. Aglomerado Urbano Pobl. Ocup.

    Gran Buenos Aires 4300500 Gran Tucumán y Tafí Viejo 197809 Gran Córdoba 440558 Neuquén 66506 Gran Mendoza 294768 Paraná 66604 Gran Rosario 401203 Santa Rosa - Toay 32286

    La cantidad media de ocupados por aglomerado urbano (n=8) es 725029 y su desvío estándar es 1359044. Si excluimos Gran Buenos Aires (n=7) tendremos media = 214248 y desvío estándar = 155692. Una sola observación ha modificado fuertemente los resultados. Las medidas resumen deberían ser resistentes (varíen poco en presencia de un cambio arbitrario de una pequeña parte del lote).

  • Estadística (Q) Dra. Diana M. Kelmansky FCEN-UBA

    22

    Un único dato aberrante puede producir un importante efecto adverso tanto en la media muestral como la varianza muestral 3.4 Medidas resistentes a datos extremos o aberrantes. Las medidas resistentes utilizan los datos ordenados. Ordenamos los datos, x1, x2, . . . , xn , en orden ascendente y obtenemos la muestra ordenada:

    x(1) ≤ x(2) ≤ . . . ≤ x(n) ; Podemos contar desde el más pequeño hacia el más grande, rango ascendente, ó desde el más grande hacia el más pequeño, rango descendente. Definición: La profundidad de un dato en la muestra es el menor de los rangos ascendente y descendente. 3.4.1 Mediana Definición: La mediana, M es el valor que deja la misma cantidad de los datos ordenados de cada lado. La mediana es una medida resistente de posición del centro de los datos.

    La profundidad de la mediana es pM = 2

    1+n.

    La mediana se calcula como el valor central si n es impar y promedio de los dos valores centrales si n es par

    Ejemplo (continuación): La mediana es el dato con profundidad 59 1

    230

    += . M = 63.53.

    PROF. # hojas TALLO HOJAS 1 1 628 : 5 1 0 629 : 4 3 630 : 358 7 3 631 : 033 9 2 632 : 77 18 9 633 : 001446669 23 5 634 : 01335 10 635 : 0000113668 26 7 636 : 0013689 19 2 637 : 88 17 6 638 : 334668 11 5 639 : 22223 6 0 640 : 6 1 641 : 2 5 3 642 : 147

    La media, 63.589, es cercana a la mediana. Este hecho es coherente con la simetría que presentan los datos alrededor de la mediana. Una profundidad identifica dos valores de los datos, uno por debajo y otro por encima de la mediana.

  • Estadística (Q) Dra. Diana M. Kelmansky FCEN-UBA

    23

    2 0 643 : 2 2 644 : 02

    Comparación de media y mediana para distintos tipos de distribuciones mediante histogramas suavizados.

    Asimétrica a izquierda Simétrica Asimétrica a derecha

    3.4.2 Media podada Ordene los datos, descarte las 100α% de las observaciones menores y el 100α% de las observaciones mayores; calcule el promedio de los datos restantes. Se recomienda tomar α entre 0.1 y 0.2:

    ][2][1][

    ααα

    α nnxx

    x nnn−

    ++= −+ ,

    3.4.4 Otras medidas de posición A la mediana y los extremos les agregamos otro par de valores resumen, los cuartiles, que dejan un cuarto y tres cuartos de las observaciones a cada lado.

    profundidad del cuartil = n + 1

    4

    En el ejemplo, la profundidad del cuartil es 59 1

    415

    +=

    Por lo tanto: Cuartil inferior=63.36 Cuartil superior=63.84 3.4.5 Otras medidas de dispersión de los datos.

    • distancia intercuartil (dQ) , o rango intercuartil,

    dQ = Cuartil superior - Cuartil inferior

  • Estadística (Q) Dra. Diana M. Kelmansky FCEN-UBA

    24

    • rango, la diferencia entre los valores extremos, también refleja la dispersión pero valores sueltos afectan tanto el rango que su resistencia es despreciable.

    • MAD: Desvio absoluto respecto de la Mediana: Es una versión resistente del desvío estándar basada en la mediana.

    ( )M medianaMAD −= ix ¿Cómo calculamos la MAD?

    • Ordenamos los datos de menor a mayor. • Calculamos la mediana, valor en la posición (n+1)/2. • Calculamos los desvíos absolutos de cada dato respecto de la mediana (la distancia de cada

    dato a la mediana, sin signo). • Ordenamos los desvíos absolutos de menor a mayor. • Calculamos la mediana de los desvíos. Observación: Si deseamos comparar la distancia intercuartil y la MAD con el desvío estándar es conveniente dividirlas por constantes adecuadas. En ese caso se compara el DS con

    675.0MAD

    35.1Qd

    Ejemplo: continuamos con los puntos de fusión de ceras naturales DESCRIPTIVE STATISTICS CERA MEAN 63.589 SD 0.3472 MINIMUM 62.850 1ST QUARTI 63.360 3RD QUARTI 63.840 MAXIMUM 64.420 MAD 0.2300 dQ = Cuartil superior - Cuartil inferior = 63.84 - 63.36 = 0.48

    675.0MAD

    = 0.23 / 0.675 = 0. 341

  • Estadística (Q) Dra. Diana M. Kelmansky FCEN-UBA

    25

    35.1Qd

    = 0.48 / 1.35 = 0.356

    SD = 0.3472 Las correcciones han acercado las estimaciones de la variabilidad de la MAD y la distancia intercuartil al valor obtenido para el desvío estándar. Veremos más adelante qué características deben presentar los datos para que las tres medidas de dispersión sean similares, como ocurre en el ejemplo. 3.4.6 Más medidas de posición: Percentiles La mediana de un conjunto de datos ordenados es el valor que los divide en dos partes iguales, tiene profundidad (n+1)*0.5. Es el percentil del 50% (100*0.5%). El cuartil inferior, que deja a su izquierda al 25% de los datos y se encuentra en la posición (n+1)*0.25, es el percentil del 25% (100*0.25%). El cuartil superior, tiene la posición (n+1)*0.75. Así, el valor que deja un 95% de los datos por debajo y un 5% por encima es el percentil del 95%.

    Gráfico de un percentil en un histograma suavizado.

    El percentil del 100*α%, Pα, de un conjunto de datos ordenados, es el valor que deja un 100*α% de los datos por debajo y un 100*(1-α)% por encima se encuentra en la posición (n+1)* α. Cuando este valor no es entero se interpola. Percentiles de la altura (cm) de mujeres y varones de 18 años (Crecimiento y Desarrollo. Sociedad Arg. de Pediatría. 1986) Percentil 3% 10% 25% 50% 75% 90% 97% Varón 1.60 1.64 1.68 1.72 1.77 1.81 1.85 Mujer 1.49 1.53 1.56 1.60 1.64 1.68 1.72

  • Estadística (Q) Dra. Diana M. Kelmansky FCEN-UBA

    26

    En distribuciones perfectamente simétricas los percentiles del 100*α% y del 100*(1-α)% equidistan de la mediana. La distribución de las alturas de mujeres y varones es aproximadamente simétrica, pero la de los pesos no lo es.

  • Estadística (Q) Dra. Diana M. Kelmansky FCEN-UBA

    27

    4. Box Plots o Gráficos Caja El boxplot es la representación gráfica de la mediana, los cuartiles, y el máximo y mínimo siempre que no haya valores atípicos (outliers). En este caso el máximo y el mínimo se reemplazan por los valores adyacentes superior e inferior respectivamente y los valores atípicos se grafican por separado. Se trata de los valores externos que pueden clasificarse como moderados o severos. Permite extraer los siguientes aspectos del lote: Posición del centro - Dispersión - Asimetría - Longitud de la cola Puntos que yacen fuera del conjunto. 4.1 Identificación de valores atípicos. Utilizamos una medida de dispersión que sea insensible a los valores atípicos, la distancia intercuartil y definimos puntos de corte para detectar outliers:

    d1.5-Q=InferiorInterna Valla QI d1.5+Q=SuperiorInterna Valla QS

    d3-Q=InferiorExterna Valla QI d3+Q=SuperiorExterna Valla QS

    . inferior interna vallala a

    igual, omayor cercano, másvalor =(VAI) INFERIOR

    ADYACENTE VALOR

    ⎩⎨⎧

    ⎩⎨⎧

    superior. interna vallala a igual, omenor cercano, másvalor

    =(VAS) SUPERIOR

    ADYACENTE VALOR

  • Estadística (Q) Dra. Diana M. Kelmansky FCEN-UBA

    28

    Si no hay valores atípicos: VAI = mínimo VAI = máximo 4.2 Construcción del Box Plot

    de CO2 (miligramos/M2*minuto ) iguientes:

    onstruiremos un boxplot para las 15 concentracionesC

    s 9.21 10.6 13.65 14.17 16.95 28.27 38.36 41.28 51.52 55.71 58.1 206.43 207.08 497.15 1837.81

    El boxplot se construye dibujando:

    medidas en diferentes puntos de un depósito de residuos patológicos

    i) una caja cuyos extremos son los cuartiles (QI

    caja hasta el corresp.

    las externas son outliers moderados,

    =14.17) y (QS=206.43) y con una barra vertical en la mediana (M= 41.28),

    ii) una línea de cada extremo de la valor adyacente (VAI = VAS = ),

    iii) los valores que caen fuera de las vallas internas pero dentro de

    iv) los valores que caen fuera de las vallas externas son outliers severos.

    OJO! no confundir l Cálculos parciales

    mediana (M= 41 posición (15+1)/2 = 8 4 = 4 )*3/4 = 12

    (dQ) = QS - QI = 206.43 - 14.17 = 192.26

    a valla con el valor adyacente!

    .28) se encuentra en la LaEl cuartil inferior (QI =14.17) en la posición (15+1)/

    l cuartil superior (QS=206.43) en la posición (15+1Edistrancia intercuartil 1.5* dQ = 1.5 * 192.26 = 288.39 3* dQ = 3 * 192.26 = 576.78 QI - 1.5* dQ= -274.22 QI - 3* dQ= -562.61

    S + 1.5* dQ= 494.82 QQS + 3* dQ= 783.21

  • Estadística (Q) Dra. Diana M. Kelmansky FCEN-UBA

    29

    Resistencia del Boxplot

    onstruirse en base a la media y el desvío muestrales. Tal gráfico arecería de resistencia. ¿Porqué es esto importante?

    .3 Comparación de lotes

    del contenido calórico de tres tipos de salchichas

    Un gráfico similar podría cc 4

    Boxplots

  • Estadística (Q) Dra. Diana M. Kelmansky FCEN-UBA

    30

    iagramas-tallo hoja de los datos de calorías en diferentes clases de salchichas.

    Vacuno Mezcla Pollo D

    Tallo Hojas Tallo Hojas Tallo Hojas 8

    1

    7

    8 67 9

    10 11 12 13 1259 14 1899 15 2378 16 17 56 18 146 19 00

    8 9 10 11 12 13 5689 14 067 15 33 16 17 2359 18 2 19 015

    9 49 10 226 11 3 12 9 13 25 14 2346 15 2

    16 17 0

    De los Bas salchichas de pollo, como grupo, contienen menos calorías que las de carne o las de

    a del contenido calórico de las de pollo está por debajo del cuartil inferior de

    ara los datos de “mezcla” vemos que se distinguen claramente dos grupos de marcas, la n outlier en la cola inferior.

    ente en el centro de cada uno de los rupos, de manera que gran parte de la distancia intercuartil (dc ) está dada por la distancia entre

    eparados, como en “vacuno” y “mezcla”, pueden verse claramente dos picos.

    o diagrama tallo oja tenemos a continuación

    889 4 | 033

    4 89

    Esta distribución bimod n sugiere la presencia de dos grupos en los datos.

    ox-Plots: Lmezcla: la medianlas otras distribuciones. Todos los tipos muestran una gran dispersión entre marcas; las salchichas de pollo no garantizan una comida de bajas calorías. De los diagramas Tallo-Hoja: Pdistribución tiene dos picos y u Los cuartiles, Ci=139.50 y Cs=179.75, están aproximadamglos grupos. Por esta razón el 1.5* dc que se utiliza para graficar el box-plot no distinguió al outlier. Aunque en el diagrama correspondiente a las salchichas de pollo no se observan dos grupos s Retomemos el ejemplo de la cantidad de sodio en las salchichas de pollo, cuyh

    3 | 666

    4 | 5 | 1123 5 | 5

    al tambié

  • Estadística (Q) Dra. Diana M. Kelmansky FCEN-UBA

    31

    Los valores ordenados de la cantidad de sodio en salchichas de pollo son: 357 358 359 375 383 387 396 426 430 513 522 528 542 581 588 La media (449,66) se encuentra en una zona donde no hay datos y la mediana (426) cerca del borde de uno de los dos grupos. El intervalo ( sx − , sx + ) no es una buena representación de los datos y el gráfico caja tampoco. Ni la media ni la mediana ni el boxplot dan una buena información sobre este tipo de datos porque no está presente en ellos un centro claro. 4.4 Ejemplos con Valores atípicos Ejemplo 1: En 1985 los científicos británicos anunciaron un agujero en la capa de ozono de la atmósfera terrestre sobre el polo sur. El reporte de los británicos fue descartado al comienzo pues estaba basado en instrumentos terrestres enfocados hacia arriba. Observaciones más completas, obtenidas por instrumentos satelitales mirando hacia abajo, no habían mostrado nada inusual. Luego, un análisis más exhaustivo de las mediciones satelitales, reveló que las lecturas de

  • Estadística (Q) Dra. Diana M. Kelmansky FCEN-UBA

    32

    ozono en el polo sur eran tan bajas que el programa de computadora que las analizaba las había suprimido automáticamente como outliers en forma equivocada. Se reanalizaron las lecturas desde 1979. Éstas mostraron un agujero de tamaño creciente en la capa de ozono que no tenía explicación. Ejemplo 2: Mediciones obtenidas por Newcomb entre Julio y Septiembre de 1882.

    28 22 36 26 26 28 26 24 32 30 27 24 33 21 36 32 31 25 24 25 28 36 27 32 34 30 25 26 26 25 -44 23 21 30 33 29 27 29 28 22 26 27 16 31 29 36 32 28 40 19 37 23 32 29 -2 24 25 27 24 16 29 20 28 27 39 23

    ¿qué variable ha sido medida? • Newcomb midió cuánto tardó la luz en llegar, desde su laboratorio sobre el río Potomac a la

    base del monumento a Washington y volver, una distancia total de 7400 metros. • es necesario tener la descripción del instrumento • juzgar si la variable medida es la adecuada (conocimiento experto) • sobre el campo particular en estudio. Por ejemplo Newcomb construyó aparatos nuevos y complicados para medir el tiempo en que pasaba la luz. Nosotros aceptamos el juicio de los físicos sobre que este instrumento es adecuado para su propósito y más preciso que instrumentos anteriores. Codificación: La primera medición del tiempo de paso de la luz era 0.000024828 segundos. Corremos al punto decimal nueve lugares a la derecha, obteniendo 24828 y luego registramos únicamente el desvío respecto de 24800. Luego 28 es la versión corta de 0.000024828 y -2 se corresponde con 0.000024798. Variación Los aparatos cambian levemente con la temperatura, la densidad de la atmósfera cambia día a día y así siguiendo. Incluso los mejores experimentos producen resultados variables. Esta es la razón porque Newcomb tomó muchas mediciones en vez de una.

    En general, el promedio de varias observaciones es menos variable que

    el de una única observación.

    Poniéndonos en lugar de Newcomb, estamos tentados de calcular el promedio de los tiempos de pasaje de la luz, convertir este tiempo en una estimación nueva y mejor de la velocidad de la luz y correr, para hacernos una reputación, a publicar el resultado. !!PELIGRO!!

  • Estadística (Q) Dra. Diana M. Kelmansky FCEN-UBA

    33

    Histograma de las 66 mediciones de Simon Newcomb

    Un dato atípico en la brillantez vista por un satélite de vigilancia puede representar el lanzamiento de un misil. Un dato atípico de las mediciones de actividad eléctrica en un detector utilizado en física de altas energías puede ser evidencia de una nueva partícula elemental. En tales casos la distribución general simplemente provee un patrón de referencia sobre el cual sobresalen los eventos extraordinarios. Cuando los datos atípicos son inesperados e indeseados se debería hallar una causa clara para cada outlier, como la falla del equipo durante el experimento o un error en la transcripción de los datos, en esos casos, se puede corregir o eliminar el dato. Cuando no se encuentra ninguna causa es muy difícil tomar una decisión. Newcomb finalmente eliminó el peor outlier (-44) pero retuvo el otro. La media de todas las 66 observaciones es 26.21; la media de las 65 observaciones retenidas es 27.29. El gran efecto del único valor -44 sobre la media es la razón para eliminarlo.

  • Estadística (Q) Dra. Diana M. Kelmansky FCEN-UBA

    34

    Este gráfico sugiere levemente que la variabilidad (dispersión vertical) es decreciente con el tiempo. Quizás, a medida que ganó experiencia, Newcomb se volvió más experto en el uso de su equipo. Los efectos de aprendizaje como el que muestran los datos de Newcomb son muy frecuentes y deben ser tenidos en consideración. Si dejamos las primeras 20 observaciones de Newcomb para el aprendizaje, la media de las 46 restantes resulta 28.15. Las mejores mediciones modernas sugieren que el “verdadero valor” para el tiempo de paso de la luz del experimento de Newcomb es 33.02. Eliminar los outliers ó fijar un período de aprendizaje, acercan los resultados al verdadero valor. Pero si es posible, siempre, hay que hallar la razón de un outlier. RESUMEN • Una medida resistente no se ve afectada por cambios en los valores numéricos de una

    pequeña proporción de la cantidad total de observaciones, sin importar cuánto cambien estos valores.

    • El centro de una distribución es medido por la media, la media α podada ó la mediana. La media es el promedio aritmético de todos los datos. La media α podada es el promedio aritmético de los datos excluidos el 100*α% de los valores mayores y el 100*α% de los valores menores. La mediana es el punto medio de los datos ordenados.

    • La distancia intercuartil provee una medida resistente de la dispersión o variabilidad de la distribución. Los cinco números resumen, dados por la mediana, los cuartiles, el máximo y el mínimo proveen una descripción rápida de la forma global de una distribución.

    • Los Boxplots, basados en los cinco números resumen, son útiles para comparar varias distribuciones. Las vallas internas y externas son útiles para identificar potenciales valores atípicos (outliers).

  • Estadística (Q) Dra. Diana M. Kelmansky FCEN-UBA

    35

    • La varianza muestral s2 y especialmente su raíz cuadrada, el desvío estándar DS, son

    medidas muy usuales, pero no resistentes, de la dispersión de los datos alrededor de la media.

    5. Curvas de densidad ¿Existe alguna manera de describir una distribución completa mediante una única expresión? • un diagrama tallo-hoja no es práctico pues se trata de demasiados datos • un histograma elimina los detalles y depende de la elección de las clases • la mediana y los percentiles registran algunos aspectos específicos de los datos. Si queremos tener una descripción de la forma global de la distribución, omitiendo valores atípicos y otras desviaciones del patrón general, la respuesta es sí. Histograma del puntaje de vocabulario y la aproximación por una curva gaussiana.

    Aproximamos al histograma por una curva suave que muestre la forma de la distribución sin las irregularidades del histograma. En este ejemplo se trata de la curva gaussiana que describiremos en las próximas secciones. Observe que la escala de frecuencias relativas (Frecuencias/ 947; 0.05 0.11 0.16 0.21 0.26) coincide en este caso con la escala de densidad porque la longitud de los intervalos de clase del histograma es 1. 5.1 Superposición de una curva normal a un histograma a mano

  • Estadística (Q) Dra. Diana M. Kelmansky FCEN-UBA

    36

    • grafique una curva simétrica de altura =

    12DS π

    y puntos de inflexión en x DS± .

    • la escala en el eje vertical es la frecuencia relativa, siempre que la longitud de la base de los rectángulos de clase sea 1. En cualquier otro caso, en el eje vertical se grafica (la frecuencia relativa de cada clase) / (longitud de la clase) de manera que el

    área de un rectángulo = (longitud de la base)*(altura del rectángulo)= frecuencia relativa Verifiquemos este procedimiento para la superposición que muestra la figura sabiendo que la media del puntaje es 6.9156, el desvío es 1.6305, la longitud del intervalo de clase es 1 y

    12DS π

    = 0.2447

    5.2 Propiedades de una curva de densidad Como la frecuencia relativa de todas las observaciones es 1, requerimos que el área total bajo la curva sea 1. El área bajo la curva y sobre un intervalo, correspondiente a cualquier rango de valores de la variable, es la proporción de observaciones que caen en ese rango. La curva describe la forma de la distribución y el

    área bajo la curva = frecuencia relativa. Es llamada curva de densidad de la distribución. El eje vertical mide la

    frecuencia relativa/(longitud del intervalo de clase). Una curva de densidad con la forma apropiada suele ser una descripción adecuada del patrón global de una distribución. Los datos atípicos, que son desviaciones del patrón global, no están descriptos por la curva.

  • Estadística (Q) Dra. Diana M. Kelmansky FCEN-UBA

    37

    Media y mediana en una curva de densidad simétrica

    Media y mediana en una curva de densidad asimétrica a derecha Las medidas de posición y dispersión también se aplican al caso de curvas de densidad. El p-ésimo percentil, xp , en una curva de densidad es el punto que deja a su izquierda un p % del área bajo la curva y el (100 - p) % restante, a la derecha.

    p % del área (100 - p) % del área

    xp En particular la mediana es el punto de áreas iguales, es decir, el punto que deja áreas iguales de cada lado. Si pensamos a las observaciones como pesos en una vara delgada la media es el punto en que la vara quedaría equilibrada al poner un fiel justo debajo de él. Esta interpretación se extiende a la curva de densidad.

  • Estadística (Q) Dra. Diana M. Kelmansky FCEN-UBA

    38

    . La media es un punto de equilibrio de una curva de densidad. Las curvas de densidad simétricas son perfectamente simétricas a pesar que los datos reales rara vez mostrarán simetría perfecta. Debemos distinguir los parámetros poblacionales , la media = μ y el desvío = σ , de una curva de

    densidad de los números x y DS calculados a partir de las observaciones. 5.3 Distribuciones Normales o Gaussianas. Todas las distribuciones gaussianas tienen la misma forma. Vemos dos curvas normales con μ= 1 y μ=5 y σ=1.

    Dos curvas normales con diferente σ.

  • Estadística (Q) Dra. Diana M. Kelmansky FCEN-UBA

    39

    Podemos localizar σ a ojo en una curva normal. A medida que nos movemos en ambas direcciones desde el centro μ de la curva, ésta aumenta su pendiente

    hasta un punto (punto de inflexión) en que la pendiente empieza a disminuir

    Los dos puntos en los cuales ocurre este cambio de curvatura están localizados a una distancia σ a cada lado del centro μ. Recuerde que μ y σ sólos no determinan la forma de una distribución en general. Éstas son propiedades de las distribuciones gaussianas. Existen otras distribuciones no gaussianas con forma de campana. Las curvas de densidad normal están descriptas por la siguiente ecuación

    2)(

    21 σ

    μ

    πσ

    −−

    =x

    ey (2) Observación: la ecuación (2) de la curva queda completamente especificada cuando se conocen los valores de μ y σ.

  • Estadística (Q) Dra. Diana M. Kelmansky FCEN-UBA

    40

    Las distribuciones normales proveen buenos modelos para • puntajes de pruebas tomadas en poblaciones grandes (pruebas habilidades escolares y

    muchas pruebas psicológicas), • mediciones cuidadosamente replicadas y de la misma calidad (datos de Newcomb tabla 2.1

    sin outliers), • características de una población biológicamente homogénea (longitudes de las cucarachas,

    rendimiento de la soja y pérdida de humedad en carne de pollo envasada). Las distribuciones de las siguientes variables, en cambio, son generalmente asimétricas: • variables económicas (ingreso personal, ventas en firmas comerciales), • tiempos de sobrevida (de pacientes de cáncer luego de realizado un tratamiento), • tiempo de vida (de componentes mecánicos o electrónicas). A pesar que la experiencia puede sugerir si un modelo gaussiano es o no factible en un caso particular, es muy riesgoso suponer la normalidad de los datos sin inspeccionarlos. Observaciones

    • El desvío estándar no significa nada si los datos no son Normales o

    aproximadamente Normales

    • La media no describe el centro si los datos no son simétricos

    • La mediana y la distancia intercuartil pueden fallar si los datos forman grupos

    • El significado de las medidas resumen está atado a la forma de la distribución de los datos.

    5.4 Propiedades de la distribución Normal o gaussiana Sabemos que una transformación lineal no modifica la forma global de una distribución. a) Cualquier variable, X*, obtenida de una variable X que se distribuye de acuerdo con la

    curva Normal con media μ y desvío σ (X ~ N(μ,σ2) ) mediante una transformación lineal, sigue siendo teniendo distribución Normal (es decir gaussiana).

    b) Si los valores, x, de la variable X se transforman por

    xbax +=* con 0>b la variable transformada, X*, tendrá media μba + y desvío σb . c) Si una variable X tiene distribución normal con media μ y desvío σ entonces la variable

    estandarizada

  • Estadística (Q) Dra. Diana M. Kelmansky FCEN-UBA

    41

    σμ−

    =XZ

    tiene una distribución normal con media 0 y desvío 1 (N(0,1)). Esta es llamada distribución normal estándar. Cuando la distribución de los valores de una variable es aproximadamente normal, las observaciones son frecuentemente estandarizadas restándole la media y dividiéndolas por el desvío. La estandarización de una observación indica a cuantos desvíos se encuentra de la media y para qué lado. Ejemplo. Las alturas de las mujeres jóvenes argentinas están distribuídas (aprox.) normalmente con μ = 160 cm σ = 4 cm. La altura estandarizada

    4160-altura

    =Z

    sigue una distribución normal estándar. Una mujer que mide 170 cm tiene una altura estandarizada

    Z = =170 - 160

    4 2 5. es decir 2.5 desvíos estándar por encima de la media. Análogamente una mujer que mide 155 cm tiene una altura estandarizada

    Z = =155 - 160

    4 125.− es decir 1.25 desvíos estándar por debajo de la media. ¿Qué proporción de mujeres miden menos de 155 cm? Esta frecuencia relativa es el área bajo la curva N(160, 42) a la izquierda del punto 155. Como la altura estandarizada es -1.25, esta área es la misma que el área bajo la curva normal estándar por debajo de -1.25.

  • Estadística (Q) Dra. Diana M. Kelmansky FCEN-UBA

    42

    El área bajo la curva y sobre el punto 155 es cero, por lo tanto la frecuencia relativa de los valores de la variable que son estrictamente menores que él (X < 155) es igual a la frecuencia relativa de los valores de la variable que son menores ó iguales que él (X ≤ 155). Esto no es verdad en conjunto de datos reales, que pueden contener la altura 155 cm. 5.5 Función de distribución acumulada.

    Si Z es una variable cuya función de densidad está dada por la curva normal estándar, el área bajo dicha curva para valores menores o iguales que z • es la frecuencia relativa de los valores de Z que son menores o iguales que z • se representa por φ(z) • se denomina Función de Distribución Acumulada de la variable Z • se calcula mediante la siguiente integral, que está tabulada para diferentes valores de z y

    también es calculada por los programas estadísticos usuales,

    ∫∞−

    −=Φ

    z x

    ez 22

    21)(π

  • Estadística (Q) Dra. Diana M. Kelmansky FCEN-UBA

    43

    5.6 Gráfico de probabilidad normal. Gráfico cuantil-cuantil. Un histograma o un diagrama tallo-hoja pueden revelar aspectos no normales en los datos como los outliers (Histograma de los datos de Newcomb ) o mostrar una pronunciada asimetría (ejemplo de gastos, tallo-hoja) Una medida más sensible para determinar si el modelo normal es adecuado para un conjunto de datos está provista por un gráfico cuantil-cuantil. Cuantil es la denominación alternativa a percentil cuando hablamos de proporciones en vez de porcentajes.

    La idea general de un gráfico cuantil-cuantil es comparar dos distribuciones graficando sus cuantiles (ó sus percentiles) uno versus el otro.

    Si las distribuciones son aproximadamente iguales sus cuantiles serán también aproximadamente iguales. El gráfico cuantil-cuantil estará cerca de la recta y = x. Si nó, las desviaciones de esta recta mostrarán cómo difieren las distribuciones. Estamos interesados en una aplicación de esta idea general: la comparación de la distribución observada de la variable, con la distribución normal. La idea de un gráfico cuantil-normal para un conjunto de observaciones es considerar a cada observación como el cuantil de la distribución observada y graficarlo contra el cuantil de la distribución normal estándar. La menor de 20 observaciones, es el cuantil 0.05 de los datos, porque 1/20 ó 0.05 de las observaciones son menores o iguales que ella. Graficamos cada observación contra el valor de la normal que deja la misma proporción de la distribución por debajo.

  • Estadística (Q) Dra. Diana M. Kelmansky FCEN-UBA

    44

    Gráfico cuantil-normal para los datos del tiempo de paso de la luz de Newcomb. La mayoría de los puntos están cerca de una recta, indicando que un modelo gaussiano ajustaría bien. Los dos valores atípicos se desvían de la recta y muestra cómo responde el gráfico a colas pesadas a izquierda ó a outliers bajos.

    En una distribución asimétrica a izquierda las observaciones menores yacen notoriamente por debajo de la recta trazada por cuerpo principal de las observaciones mayores.

    El gráfico correspondiente a los datos del contenido calórico en salchichas de mezcla de carnes, muestra claramente dos grupos (clusters) y el outlier bajo.

    Es visible la asimetría a derecha del grupo de los valores más bajos por la curvatura de dichos puntos. Al trazar una recta por los primeros 4 puntos del grupo los otros cuatro quedan por encima de dicha recta. El diagrama tallo-hoja muestra muy claramente la distribución de este pequeño conjunto de datos, que es definitivamente no gaussiano. Comparar el diagrama tallo-hoja con el gráfico cuantil normal nos permite ver claramente como es el comportamiento de un gráfico cuantil-normal.

  • Estadística (Q) Dra. Diana M. Kelmansky FCEN-UBA

    45

    Gráfico cuantil-normal para los datos del gasto de los clientes en un almacén.

    La marcada asimetría a derecha de esta distribución se destaca al trazar una recta por los puntos que se encuentran más abajo, que corresponden a las observaciones menores. Las observaciones mayores están sistemáticamente por encima de esta recta, indicando asimetría a derecha. No se observan outliers individuales.

    Gráfico cuantil-normal para los datos del tiempo de paso de la luz de Newcomb con los outliers

  • Estadística (Q) Dra. Diana M. Kelmansky FCEN-UBA

    46

    omitidos. Las únicas desviaciones importantes de la normalidad son los numerosos grupitos horizontales de datos. Estos representan observaciones con el mismo valor, debidas a la limitación en la precisión y no traen problemas al adoptar el modelo normal Los datos reales, casi siempre, mostrarán algún apartamiento del modelo gaussiano teórico. Es importante al examinar un gráfico cuantil-normal buscar formas que muestren un claro apartamiento de la normalidad. RESUMEN Una curva de densidad frecuentemente permite describir en forma compacta el patrón general de una distribución. El área por debajo de una curva de densidad es una frecuencia relativa. El área total es 1. La media μ (punto de equilibrio), la mediana (punto de áreas iguales) y otros percentiles pueden ser localizados bajo una curva normal. El desvío estándar σ no puede localizarse a ojo en la mayoría de las curvas de densidad. La media y la mediana coinciden para curvas de densidad simétricas, pero la media de una curva asimétrica a derecha está localizada más lejos hacia la cola larga que la mediana. Las distribuciones normales, ó gaussianas, están representadas por curvas simétricas con forma de campana. La media μ y el desvío estándar σ especifican completamente la distribución N(μ,σ2). La media es el centro de simetría y σ es la distancia desde μ hasta los puntos de inflexión de la curva. Todas las curvas normales coinciden cuando las mediciones están realizadas en unidades de σ alrededor de la media. Estas son llamadas mediciones estandarizadas.

    Si X tiene distribución N(μ,σ2) luego la variable estandarizada Z = (X-μ)/σ tiene distribución normal estándar N(0,1). Las frecuencias relativas de cualquier distribución normal pueden calcularse a partir de la distribución N(0,1).