Behar-Grima El Histograma Como Instrumento

download Behar-Grima El Histograma Como Instrumento

of 7

Transcript of Behar-Grima El Histograma Como Instrumento

  • 8/17/2019 Behar-Grima El Histograma Como Instrumento

    1/7

    En J. M. Contreras, G. R. Cañadas, M. M. Gea y P. Arteaga (Eds.), Actas de las Jornadas Virtuales enDidáctica de la Estadística, Probabilidad y Combinatoria (pp. 229-235). Granada, Departamento deDidáctica de la Matemática de la Universidad de Granada, 2013.

    El histograma como un instrumento para la comprensión de lasfunciones de densidad de probabilidad

     Behar Gutiérrez Roberto1 , Grima Cintas Pere

    1Universidad del Valle, Cali, Colombia2

    UPC Barcelona, España

    Resumen

    Tradicionalmente los profesores de Estadística de nivel medio y superior hemosmirado la Estadística Descriptiva como una temática divorciada de la probabilidady de la Inferencia. Cuando llega el momento de explicar el histograma,generalmente se construyen intervalos de igual tamaño y el eje de las ordenadasrepresenta directamente la frecuencia relativa. Sin embargo, cuando trata latemática de las funciones de densidades en probabilidad, para calcular la

     probabilidad, que conceptualmente es el homólogo de la frecuencia relativa, si se

    mira como una extensión del concepto a la población entera, debe calcularse unárea, ya no son las ordenadas las que proporcionan esta información.

    La pregunta que surge es ¿Por qué si el concepto de probabilidad es una extensiónde la frecuencia relativa a la población, en un caso se calcula un área y en el otrouna altura? Esto parece conceptualmente incoherente. En el presente trabajo se

     plantea una estrategia para lograr coherencia, definiendo el histograma como ungráfico de la densidad empírica. Esto tiene una doble función, ganar potencialintuitivo para dar sentido real a la idea de densidad, logrando que la definición devariable aleatoria continua no suene artificial para los estudiantes y por otro ladoresolver la mencionada incoherencia. En este trabajo se ilustra con un ejemplo laestrategia que se plantea.

    Palabras clave: Histograma, función de densidad empírica, intervalos de clase.Función de densidad de probabilidad.

    4.1. Introducción

    En los cursos básicos de estadística, el capítulo que corresponde a EstadísticaDescriptiva, aparece como un tema aislado, que puede ir antes o después de la parte de

     probabilidad. En estas condiciones no se aprovechan algunos desarrollos de la EstadísticaDescriptiva que podrían ser usados como un puente intuitivo para la comprensión deresultados más abstractos de la teoría de la probabilidad. En este artículo se hará referencia

    específica al concepto de histograma, representación de la función empírica de densidad para dar sentido a la definición de variable aleatoria continua.

    Una primera contradicción que podría enfrentar un estudiante, es que cuandoaprendió su concepto de histograma, las ordenadas del gráfico representaban la frecuenciarelativa, sin embargo en la extensión de la idea de histograma a la de densidad de

     probabilidad, se propone el cálculo del área bajo la curva para calcular la probabilidad y nolas ordenadas. Esta fractura no tiene explicación alguna, convirtiéndose posiblemente en unobstáculo para el aprendizaje significativo de la función de densidad de probabilidad.

    Si se quiere que la función de densidad de probabilidad sea una extensión de la ideade histograma, es conveniente que la definición de histograma se corresponda con el gráficode función de densidad empírica. De esta manera se garantiza una continuidad en el

    concepto y se proporciona una base intuitiva para la comprensión de la definición devariable aleatoria continua, que es generalmente es matemática.

  • 8/17/2019 Behar-Grima El Histograma Como Instrumento

    2/7

     

    Página 230

    Lee y Meletiou (2003) estudian algunos tipos de razonamientos erróneos al construir,interpretar y aplicar los histogramas en diferentes contextos de la vida real, sin embargo, nose refieren a la situación en la cual las áreas del histograma representan las frecuencias.

    Wu (2004), típica algunos errores comunes relacionados con la interpretación ysignificado de algunos gráficos. Destaca la confusión entre gráficos parecidos pero denaturaleza distinta, en particular entre el histograma y gráfico de barras, pero no trata lorelativo al histograma como una representación de la función empírica de densidad, lo cual

     puede ser objeto de confusión, toda vez que esta no es observable de manera directa.

    5.  Definición de Histograma. (Función empírica de densidad)

    Por comodidad, generalmente se toman los intervalos de clase del mismo ancho y seomite el concepto de densidad empírica, pues en caso de intervalos de igual ancho, la formadel histograma es idéntica, si se toma como ordenada la densidad o si se asume como lafrecuencia relativa. El software de estadística, refuerza esta costumbre, pues por defectohace gráficos de histograma con intervalos del mismo ancho.

    Introduciendo el tema de la representación gráfica de los datos, usando intervalos deanchura desigual, se produce una ganancia conceptual importante, pues obliga a larepresentación del histograma como rectángulos que tienen como base el intervalo de clasey su área proporcional (o igual) a la frecuencia relativa.

    Definiendo el histograma de esta manera sus ordenadas representan automáticamentela función empírica de densidad, generándose el enlace conceptual apropiado con ladensidad de probabilidad de una variable aleatoria. Además la palabra “empírica” se asociacon muestral, y la densidad de probabilidad como su análogo poblacional. Ilustremos lasituación con un ejemplo.

     Ejemplo 1. En el sector de la industria metalmecánica, se toma una muestra al azar de500 obreros y se determina la antigüedad en su trabajo. Por razones de índole

    administrativo, se quiere representar los datos por medio de un histograma que considere lossiguientes intervalos de clase: 0-2 años, 2-3 años, 3-5 años, 5-10 años, 10-20 años. Despuésde contar el número de obreros que pertenecen a cada intervalo y expresarlo en porcentaje,se obtiene la Tabla 1. La frecuencia relativa se ha denotado por 

     

    i f   

    Tabla 1. Frecuencia relativa de la variable Antigüedad en el trabajo

    i Intervalo(Años de Antigüedad)

    Frecuencia Relativa% ( f i)

    1 (0-2] 102 (2-3] 53 (3-5] 404 (5-10] 40

    5 (10-20] 5Total 100

    Ahora se procede a construir el histograma, como el gráfico de la función de densidadempírica. Note que en esta situación los intervalos son de diferente ancho (Ci). Se debeahora construir un conjunto de rectángulos cuya base sea el intervalo de clasecorrespondiente y cuya área (Ai) represente la frecuencia relativa (fi) del intervalorespectivo. De esta manera, si un rectángulo asociado con un intervalo de clase tiene eldoble de área que otro, es porque contiene el doble de datos. En nuestro ejemplo, sidetallamos la frecuencia relativa en la Tabla 1, el área sobre el primer intervalo deberá serel doble del área sobre el segundo. El área del rectángulo sobre el tercer intervalo deberá sercuatro veces el área del primero. De esta manera la ordenada, es decir las alturas, digamos

  • 8/17/2019 Behar-Grima El Histograma Como Instrumento

    3/7

     

    Página 231

     f*i, del rectángulo construido sobre el i-ésimo intervalo, deberá ser tal que el área delrectángulo Ai coincida con su frecuencia fi, es decir que:

     Ai    f 

    i   (base).(altura)  C

    i. f 

    i

    donde Ci es el ancho del intervalo. Así, despejando  f*i, se obtiene la altura (ordenada

    eje vertical) que debe tener cada rectángulo:i

    ii C 

     f  f    * .

    Observe que se divide la frecuencia relativa entre el número de unidades que tenga elintervalo correspondiente, entonces las unidades de f*i son (% de datos por cada unidad dela variable en dicho intervalo). Veamos por ejemplo para el primer intervalo:

    1 10% f   1 2C   ,

    así que la altura del primer rectángulo es:

    * 11

    1

    10%5%/

    2

     f  f año

    C años

     

    Es intuitivamente claro, que si el primer intervalo tiene el 10% de los datos y estos

    datos están distribuidos en un intervalo que tiene una longitud de dos (2) unidades, pues en promedio hay 5% por cada unidad ( f*i=5% /año=0.05/año).

    El cuarto intervalo, (5; 10], por ejemplo, en sus 5 unidades (5 años) contiene 40% delos datos. Así que en promedio, hay 8% de los datos en cada unidad o lo que es lo mismo:

    * 44

    4

    40%8% / 0,08/

    5

     f  f año año

    C años

     

    Es decir que las unidades del eje Y en el gráfico del histograma es %/unidad deintervalo, por eso se le conoce como densidad de frecuencia ( f*i) y en este caso, para tomaren consideración que se calcula con base en los datos de una muestra, se le llama funciónempírica de densidad de frecuencia. En la siguiente tabla, se registra la densidad empírica

    de frecuencia para cada intervalo.Tabla 2. Densidad empírica de frecuencia para la variable antigüedad

    i Intervalo(Años de Antigüedad)

    Frecuencia Relativa f i %

    Densidad de Frecuencia f*i %/año

    1 (0-2] 10 52 (2-3] 5 53 (3-5] 40 204 (5-10] 40 85 (10-20] 5 0,5Total 100

    Si se realiza el gráfico de las densidades empíricas de frecuencias de la Tabla 2, seobtiene el histograma de la Figura 1.

    Figura 1. Histograma. Función empírica de densidad de frecuencia

  • 8/17/2019 Behar-Grima El Histograma Como Instrumento

    4/7

     

    Página 232

    Sobre cada rectángulo se ha colocado su área, es decir la frecuencia relativa. Laordenada correspondiente representa la densidad.De esta manera la estimación de un

     porcentaje relacionado con evento de la variable antigüedad, se convierte en el cálculo de unárea, tal como ocurrirá más tarde, cuando se trate el tema de variables aleatorias continuas.

    Así por ejemplo si se está interesado en estimar el porcentaje de obreros conantigüedad menor o igual a 4 años, digamos P(X≤4), bastará calcular el área del histogramacomprendida entre cero (0) y cuatro (4), como se muestra en la Figura 2

    Figura 2. Área oscura del gráfico representa P(X≤4) 

    Observe que el área sombreada se calcula sumando por un lado las áreas de los primeros rectángulos (10%+5%) y por otro lado la parte del tercer rectángulo comprendidaentre 3 y 4, como se conoce su densidad, que es 20% , y se requiere un año, Así que el

     porcentaje de trabajadores con antigüedad de 4 años o menos se estima en:

     P(X ≤ 4)=10%+5% +20% .(1 año) = 35%

    Análogamente, si se desea estimar el porcentaje de obreros con antigüedad entre 4 y7,5 años, es decir P(4≤  X ≤ 7,5). La respuesta será calcular el área del histograma entre dichosvalores, como se muestra en la Figura 3.

    Figura 3. Representación de P(4≤X≤7.5). Área sombreada. 

    Haciendo el cálculo, usando el concepto de densidad, se obtiene:

    * *3 44 7,5 * 5 4 *(7,5 5) 20%/ *(1 ) 8%/ *(2,5 ) 40% P X f f año año año años  

    Después de éste recorrido, abordemos la definición de variable aleatoria continua.

  • 8/17/2019 Behar-Grima El Histograma Como Instrumento

    5/7

     

    Página 233

    6.  Variable aleatoria. Definición (Función de densidad de probabilidad)

    Se dice que X es una variable aleatoria continua si existe una función f(x), llamadafunción densidad de probabilidad (fdp) de X, que satisface las siguientes condiciones:

    a. 

    ( ) 0 f x x ;

    Es razonable que no tome valores negativos, si se asocia con la función empírica dedensidad de frecuencia.

     b. 

    . 1 f x d x

     

    Ya hemos dicho antes que el área del histograma y ahora el área bajo la función dedensidad, debe ser 100%.

    c. 

    Para cualquier a, b se tiene que 

    El área atrapada entre los valores a y b es justamente el porcentaje de datos de la población que cumple con esas especificaciones, análogamente a lo observado en elhistograma. Mirado como la experiencia aleatoria de sacar al azar un valor de X, estaárea puede interpretarse como probabilidad.

     Ejemplo 2. El histograma de una cierta característica continua X, es el que muestrasombreado en la Figura 4. Se pretende ajustar una función empírica densidad continua ysuena razonable la que aparece formando un triángulo equilátero. Encuentre la definición dedicha función de densidad de probabilidad estimada, f(x).

    Figura 4. El gráfico sombreado es un histograma y las líneas una aproximación a una densidadempírica continua.

    En primer lugar se observa que el rango de valores que puede tomar la variable

    aleatoria X son los puntos en el intervalo que va de cero (0) a dos (2). Es decir que:

    / 0 2 X   x x  El rango o recorrido de la variable aleatoria X. algunas veces se denota por

    ¿Cual deberá ser la ecuación que defina las dos rectas que conforman el triánguloequilátero y que definen la función de densidad de probabilidad estimada?Pues como el áreadebe ser igual a la unidad, esto significa que la altura h del triángulo, debe ser tal que el áreavalga 1.

    * 2*1 1

    2 2

    base altura h Area 

     

    .b

    a

     P a X b f x dx

     X 

  • 8/17/2019 Behar-Grima El Histograma Como Instrumento

    6/7

     

    Página 234

    De donde se deduce que la altura h=1. Por lo tanto la ecuación de la recta de pendiente positiva es f(x)=x. la ecuación de la recta con pendiente negativa será: f(x)=2 –x,así pues:

    Figura 5. Función de densidad empírica ajustada

    0 1

    2 1 2

     x f x

     x x

     

     

    Si se produce una realización de la variable aleatoria X, estime el porcentaje de vecesen el que dicho valor resulta entre 0,5 y 1,5?

    1,5

    0,5

    0,5 1,5 . P X f x dx   1,0 1,5

    0,5 1,0

    0,5 1,5 . 2 . P X x dx x dx  

    1,0 1,5

    0,5 1,0

    0,5 1,5 . 2 . P X x dx x dx   1,51,02 2

    0,5 1,0

    0,5 1,5 22 2

     x x P X x

     

    3

    0,5 1,54

     P X   

    Observe que el área, en este caso, se hubiera podido calcular como el área de dostrapecios, con base mayor la altura del triángulo.

    Figura 6. Representación de P(4≤X≤7.5).

    7.  Conclusión

    La definición de variable aleatoria continua, es muy poco intuitiva e introduce lafunción de densidad de probabilidad de manera muy artificial. Desarrollar la idea de función

  • 8/17/2019 Behar-Grima El Histograma Como Instrumento

    7/7

     

    Página 235

    empírica de densidad, al momento de tratar la representación gráfica de variables de tipocontinuo, a través de una definición apropiada de histograma, para una situación deintervalos de clase desiguales, en la cual las áreas y no las alturas representen la frecuenciarelativa, hace que la definición y los procesos operativos con variables aleatorias sean másnaturales y con una buena componente intuitiva.

    Referencias

    Lee y Meletiou (2003). Some difficulties of learning histograms in introductory statistics.Trabajo presentado en el Joint Statistical Meetings Section on Statistical Education. Online:http://www.statlit.org/PDF/2003LeeASA.pdfNadaraya, E.A. (1964).

    Wu, Y. (2004). Singapore secondary school students´understanding of statisticalgraphs. Trabajo presentado en el 10th International Congress on Mathematics Education.