Box plot

6
1 EJERCICIO VOLUNTARIO: INTERPRETACIÓN DE BOX PLOT TEMA 6: REPRESENTACIONES GRÁFICAS Los diagramas de cajas (“caja-bigotes” o Box-plot) son gráficos que representan variables cuantitativas, de intervalo o de escala. Son los gráficos más usados en salud; en la mayoría de los casos para comparar una variable en grupos distintos, aunque también se pueden usar para comparar distintas variables de un mismo grupo. En él podemos observar un rectángulo (la caja), donde se encuentran el 50% de los casos, situado entre dos brazos (los bigotes). La línea que corta la caja es la mediana o lo que es lo mismo el segundo cuartil (Q2), valor que divide a los datos ordenados en dos partes iguales. Los bigotes son los valores máximos y mínimos, y entre estos y los límites de la caja están el 25% de los casos. Por lo tanto este gráfico nos da información acerca de los cuartiles Q1, Q2 o mediana y Q3 y de los valores máximos y mínimos. Además podemos ver si existe algún valor atípico, la continuidad de la variable y la simetría de esta.

Transcript of Box plot

Page 1: Box plot

1

EJERCICIO VOLUNTARIO: INTERPRETACIÓN DE BOX PLOT

TEMA 6: REPRESENTACIONES GRÁFICAS

Los diagramas de cajas (“caja-bigotes” o Box-plot) son gráficos que representan variables

cuantitativas, de intervalo o de escala.

Son los gráficos más usados en salud; en la mayoría de los casos para comparar una variable en

grupos distintos, aunque también se pueden usar para comparar distintas variables de un mismo

grupo.

En él podemos observar un rectángulo (la caja), donde se encuentran el 50% de los casos, situado

entre dos brazos (los bigotes). La línea que corta la caja es la mediana o lo que es lo mismo el

segundo cuartil (Q2), valor que divide a los datos ordenados en dos partes iguales. Los bigotes son

los valores máximos y mínimos, y entre estos y los límites de la caja están el 25% de los casos.

Por lo tanto este gráfico nos da información acerca de los cuartiles Q1, Q2 o mediana y Q3 y de los

valores máximos y mínimos. Además podemos ver si existe algún valor atípico, la continuidad de la

variable y la simetría de esta.

Page 2: Box plot

2

1. Teniendo en cuenta las características del diagrama Box-Plot… Interpreta los siguientes

gráficos que recogen las respuestas del alumnado de Enfermería de Primero del cuso

académico 2013-2014.

GRÁFICO 1

Nos encontramos ante un diagrama de cajas en que el que se representa la variable: valoración

social de la enfermería. Es por tanto una sola variable de intervalo estudiada en una población de

50 alumnos de enfermería de primero del curso académico 2014/2015 (cosa que sabemos por el

enunciado de la actividad y la tabla que le prosigue).

Según observamos el diagrama vemos que la puntuación mínima que se ha dado ha sido 4 (bigote

inferior) y la puntuación máxima ha sido 10 (bigote superior); tenemos por tanto un rango de

puntuación de 6 que va de 4 a 10.

Otros datos como la media o la deviación los podemos observar en la tabla general que

encontramos a continuación del enunciado.

Page 3: Box plot

3

Un 25% de estudiantes (brazo inferior) dieron una valoración igual o inferior a 6, otro 25% (brazo

superior) dieron una puntuación de 8 a 10, y el 50% de los estudiantes (la caja) dieron una

valoración de 6 a 8.

Otra manera de decir esto es que el primer cuartil es 6, por lo tanto el 25% dieron una puntuación

igual o inferior a esta como ya hemos dicho antes; el segundo cuartil y por tanto la mediana es 7,

por lo que el 50% de los alumnos dieron una puntuación igual o inferior a 7; el tercer cuartil es 8,

por lo que el 75% eligieron que la valoración era igual o inferior a 8.

También podemos decir que atendiendo a la mediana que divide por la mitad, el 50% de los

estudiantes dijeron que la valoración social de la enfermería estaba en un rango de 4 a 7, y el otro

50% por ciento dijeron que de 7 a 10.

Por último, también observamos que la distribución vista en el gráfico es simétrica.

GRÁFICO 2

En este segundo gráfico se representa las horas dedicadas al deporte por los estudiantes de

primero de enfermería del curso académico 2014/2015; en este caso el tamaño de la muestra es

de 31, según observamos en la gráfica puesto que ha habido 19 perdidos.

En este caso igual que en el anterior lo que se estudia es una única variable de intervalo en un

único grupo.

Según observamos el diagrama vemos el mínimo de horas dedicadas al deporte por estos

estudiantes es de 1, y el máximo de horas son 15, pero el brazo superior de la caja no llega hasta

15, sino que se queda en 7, puesto que ningún alumno ha dicho que practique un número de

horas que sea superior a 7 pero inferior a 15.

Otros datos como la media o la deviación los podemos observar en la tabla general que

encontramos a continuación del enunciado.

Page 4: Box plot

4

Un 25% de estudiantes (brazo inferior) practican de 1 a 2 horas de deporte, otro 25% (brazo

superior) de 5 a 7, y el 50% de los estudiantes (la caja) practica de 2 a 5 horas. Arriba del bigote

superior podemos observar un asterisco en el valor 15 con un 4 al lado, esto significa que el caso

número 4 ha respondido con un valor tan extremo (15 horas) que no se ajustaba a la mayoría y

que para no alterar la distribución de la gráfica se coloca aparte.

Otra manera de decir esto es que el primer cuartil es 2, por lo tanto el 25% practican 2 o menos

horas; el segundo cuartil y por tanto la mediana es 4, por lo que el 50% de los alumnos practican 4

o menos horas; el tercer cuartil es 5, por lo que el 75% practican 5 o menos horas.

También podemos decir que atendiendo a la mediana que divide por la mitad, el 50% de los

estudiantes practican de 1 a 4 horas, y el otro 50% por ciento de 4 a 7.

GRÁFICO 3

En este tercer gráfico se representa el número de cigarrillos fumados al día por los estudiantes de

primero de enfermería del curso académico 2014/2015; en este caso el tamaño de la muestra es

de 12, según observamos en la gráfica puesto que ha habido 38 perdidos.

En este caso igual que en los dos anteriores lo que se estudia es una única variable de intervalo en

un único grupo.

Según observamos el diagrama vemos el mínimo de cigarrillos fumados al día por estos

estudiantes es 1, y el máximo son 10, pues es hasta donde llega el brazo superior de la gráfica.

Otros datos como la media o la deviación los podemos observar en la tabla general que

encontramos a continuación del enunciado.

Un 25% de estudiantes (brazo inferior) fuman de 1 a 3, otro 25% (brazo superior) de 9 a 10, y el

50% de los estudiantes (la caja) fuma de 3 a 9 cigarrillos. Arriba del bigote superior podemos

Page 5: Box plot

5

observar dos valores atípicos que están fuera de rango, ambos se corresponden con un valor de 20

cigarrillos al día.

Otra manera de decir esto es que el primer cuartil es 3, por lo tanto el 25% fuman 3 o menos

cigarrillos; el segundo cuartil y por tanto la mediana es 4, por lo que el 50% de los alumnos

practican fuman 4 o menos cigarrillos; el tercer cuartil es 9, por lo que el 75% fuman 9 o menos

cigarrillos.

También podemos decir que atendiendo a la mediana que divide por la mitad, el 50% de los

estudiantes fuman de 1 a 4, y el otro 50% por ciento de 4 a 10.

Podemos observar una asimetría ya que la línea que determina la mediana está muy próxima a la

que determina el cuartil 1.

2. ¿Y qué diferencias observas entre chicos y chicas?

GRÁFICO 4

En este último caso, tenemos un diagrama de cajas compuesto por dos cajas-bigotes puesto que

estamos comparando una misma variable cuantitativa (el peso) en dos grupos distintos (varones y

mujeres).

Observamos que el máximo de peso de las chicas es de 80 Kg aproximadamente, y el mínimo es de

40 Kg aproximadamente. Por otro lado el máximo de peso en los chicos es de 100 Kg

aproximadamente y el mínimo es de unos 70 Kg aproximadamente.

Page 6: Box plot

6

En los varones un 25% pesa de 70 a 75 Kg (primer cuartil), otro 25% pesa de 85 (tercer cuartil) a

100 Kg aproximadamente; y un 50% (el interior de la caja) pesa de 75 a 85 Kg. Es decir, un 75% de

la población pesa 85 Kg o menos.

Otra forma de decirlo, teniendo en cuenta que la mediana del peso de los varones gira en torno a

los 77 Kg, es que el 50% de la población pesa de 70 a 77Kg y el otro 50% pesa de 77 a 100 Kg.

Estos datos son totalmente diferentes en las mujeres: un 25% pesa de 40 a 50 Kg (primer cuartil),

el otro 25% pesa entre 65 (tercer cuartil) y 80 Kg, y un 50% de las mujeres (el interior de la caja)

tienen un peso entre los 50 y 65 Kg. Es decir, un 75% de las mujeres pesan 65 Kg o menos.

Otra forma de decirlo, teniendo en cuenta que la mediana del peso de las mujeres gira en torno al

valor de 58 Kg, es que el 50% de las mujeres pesan de 40 a 58 Kg y el otro 50% de 58 a 80 Kg

aproximadamente.

A diferencia de los varones en el gráfico de las mujeres observamos que hay pesos atípicos

alejados de los pesos habituales y cercanos a los 90 Kg, por ellos para no alterar la distribución se

separan de la gráfica.

Por último, si comparamos las dos gráficas y los datos que hemos obtenido de ellas vemos que los

varones tienen valores de peso más alto que las mujeres, siendo el mínimo de estos 70 mientras

en las mujeres 80 es el máximo. También observamos que el peso de los hombres está más

concentrado en la muestra que hemos estudiado que en la muestra de las mujeres y que la

distribución de peso de ellos es más irregular. Por último en el gráfico de los varones observamos

una mayor asimetría al estar la línea del gráfico que define la mediana muy cerca de la que define

el primer cuartil.

*Nota: en este último gráfico los valores de peso que hemos mencionados son aproximados en la

mayoría de casos.