Diagrama de Caja

8
DIAGRAMA DE CAJA Un diagrama de caja o diagrama de caja y bigotes o box plot, es un diagrama que muestra una representación gráfica de la distribución de datos, señalando donde caen la mayoría de los valores y los valores que difieren considerablemente de la norma (valores atípicos). Es un gráfico que suministra información sobre los valores mínimo y máximo, los cuartiles Q1, Q2 o mediana y Q3, y sobre la existencia de valores atípicos y la simetría de la distribución. Primero es necesario encontrar la mediana para luego encontrar los 2 cuartiles restantes Cómo expresarlo gráficamente +-----+-+ * o |-----------| | |---| +-----+-+ +---+---+---+---+---+---+---+---+---+---+---+---+ 0 5 10 12 Ordenar los datos y obtener el valor mínimo, el máximo, los cuartiles Q1, Q2 y Q3 y el Rango Inter Cuartilico (RIC) En el ejemplo, para trazar la caja: Valor 7: es el Q1 (25% de los datos) Valor 8.5: es el Q2 o mediana (el 50% de los datos) DIAGRAMA DE CAJA ESTADISTICA I

Transcript of Diagrama de Caja

DIAGRAMA DE CAJAUndiagrama de cajaodiagrama de caja y bigotesobox plot, es un diagrama que muestra una representacin grfica de la distribucin de datos, sealando donde caen la mayora de los valores y los valores que difieren considerablemente de la norma (valores atpicos).Es un grfico que suministra informacin sobre los valores mnimo y mximo, los cuartiles Q1, Q2 o mediana y Q3, y sobre la existencia de valores atpicos y la simetra de la distribucin. Primero es necesario encontrar la mediana para luego encontrar los 2 cuartiles restantesCmo expresarlo grficamente +-----+-+ * o |-----------| | |---| +-----+-+ +---+---+---+---+---+---+---+---+---+---+---+---+0 5 10 12Ordenar los datos y obtener el valor mnimo, el mximo, los cuartiles Q1, Q2 y Q3 y el Rango Inter Cuartilico (RIC)En el ejemplo, para trazar la caja:Valor 7: es el Q1 (25% de los datos)Valor 8.5: es el Q2 o mediana (el 50% de los datos)Valor 9: es el Q3 (75% de los datos)Rango Inter Cuartilico RIC (Q3-Q1)Los bigotes, las lneas que se extienden desde la caja, se extienden hasta los valores mximo y mnimo de la la serie o hasta 1.5 veces el RIC.Cuando los datos se extienden ms all de esto, significa que hay valores atpicos en la serie y entonces hay que calcular los lmites superior e inferior, Li y Ls.Para ello, se consideran atpicos los valores son aquellos inferiores a Q1-1.5*RIC o superiores a Q3+1.5*RIC.En el ejemplo:inferior: 7-1.5*2=4superior: 9+1.5*2=12Ahora se buscan los ltimos valores que NO son atpicos, que sern los extremos de los bigotes.En el ejemplo: 4 y 10Marcar como atpicos todos los datos que estn fuera del intervalo (Li, Ls).En el ejemplo: 0.5 y 2.5Adems, se pueden considerar valores extremadamente atpicos aquellos que exceden Q1-3*RIC o Q3+3*RIC.De modo que, en el ejemplo:inferior: 7-3*2=1superior: 9+3*2=15UtilidadProporcionan una visin general de la simetra de la distribucin de los datos; si la mediana no est en el centro del rectngulo, la distribucin no es simtrica.Son tiles para ver la presencia de valores atpicos tambin llamados outliers.Pertenece a las herramientas de las estadstica descriptiva. Permite ver como es la dispersin de los puntos con la mediana, los percentiles 25 y 75 y los valores mximos y mnimos.Elementos de los diagramas de cajaEl lado inferior del rectngulo representa el primer cuartil, y el lado superior, el tercer cuartil. En consecuencia, la altura de la caja representa el rango intercuartilico.La lnea horizontal a travs de la caja es la mediana.Las lneas verticales que sobresalen de la caja, el 'bigotes', se extienden, respectivamente, hasta al mnimo y el massimo del conjunto de datos, siempre que estos valores no difieren de la media de ms de una vez y media el rango intercuartlico. Los extremos de los bigotes estn marcados por dos lneas horizontales cortas.Los valores, indicados por puntos, respectivamente, por debajo y por encima de los bigotes inferior y superior se consideran valores atpicos.Construccin:Una grfica de este tipo consiste en unacajarectangular, donde los lados ms largos muestran elrecorrido intercuartlico. Este rectngulo est dividido por un segmento vertical que indica donde se posiciona la mediana y por lo tanto su relacin con los cuartiles primero y tercero(recordemos que el segundo cuartil coincide con la mediana).Esta caja se ubica a escala sobre un segmento que tiene como extremos los valores mnimo y mximo de la variable. Las lineas que sobresalen de la caja se llamanbigotes. Estos bigotes tienen tienen un lmite de prolongacin, de modo que cualquier dato o caso que no se encuentre dentro de este rango es marcado e identificado individualmenteEJEMPLO DISTRIBUCIN DE EDADESUtilizamos la ya usada distribucin de frecuencias (en tallos y hojas), que representan la edad de un colectivo de 20 personas.36 25 37 24 39 20 36 45 31 31

39 24 29 23 41 40 33 24 34 40

ORDENAR LOS DATOSPara calcular los parmetros estadstico, lo primero es ordenar la distribucin20 23 24 24 24 25 29 31 31 33 34 36 36 37 39 39 40 40 41 45CALCULO DE CUARTILESQ1, el cuartil Primero es el valor mayor que el 25% de los valores de la distribucin. Como N = 20 resulta que N/4 = 5; el primer cuartil es la media aritmtica de dicho valor y el siguiente:Q1=(24 + 25) / 2 = 24,5Q2, el Segundo Cuartil es, evidentemente, la mediana de la distribucin, es el valor de la variable que ocupa el lugar central en un conjunto de datos ordenados. Como N/2 =10 ; la mediana es la media aritmtica de dicho valor y el siguiente:me= Q2= (33 + 34)/ 2 =33,5Q3, el Tercer Cuartil, es el valor que sobrepasa al 75% de los valores de la distribucin. En nuestro caso, como 3N / 4 = 15, resultaQ2=(39 + 39) / 2 = 39DIBUJAR LA CAJA Y LOS BIGOTES

Elbigotede la izquierda representa al colectivo de edades( Xmn, Q1)La primera parte de la caja a(Q1, Q2),La segunda parte de la caja a(Q2, Q3)Elbigotede la derecha viene dado por(Q3, Xmx).

INFORMACIN DEL DIAGRAMA

Podemos obtener abundante informacin de una distribucin a partir de estas representaciones. Veamos alguna:

La parte izquierda de la caja es mayor que la de la derecha; ello quiere decir que las edades comprendidas entre el 25% y el 50% de la poblacin est ms dispersa que entre el 50% y el 75%. El bigote de la izquierda (Xmm, Q1) es ms corto que el de la derecha; por ello el 25% de los ms jvenes estn ms concentrados que el 25% de los mayores. Elrango intercuartlico= Q3- Q1= 14,5; es decir, el 50% de la poblacin est comprendido en 14,5 aos.Seguro que t podrs obtener ms informacin (Utiliza la mediana!)Comparar distribucionesLa mayor utilidad de los diagramas caja-bigotes es para comparar dos o ms conjuntos de datos. Comparacin distribucin de edades Comparacin entrenamientos de un corredor Comparacin clasificacin ligaCOMPARACIN DISTRIBUCIN DE EDADESAnlogamente a lo realizado con los diagramas de tallo y hojas, comparamos, mediante estos diagramas, esta distribucin con la delotro ejemplode distribucin de edades.35 38 32 28 30 29 27 19 48 40

39 24 24 34 26 41 29 48 28 22

A partir de dicha comparacin puede obtenerse bastante informacin de ambas distribuciones.COMPARACIN ENTRENAMIENTOS DE UN CORREDORUn corredor entrena para una determinada carrera y se toman los tiempos que necesita para recorrer los 200 m, durante 10 das consecutivos (cada da se toman varios tiempos y se calculan mediana, cuartiles, valores mnimo y mximo)

Observamos que el desplazamiento de las grficas de caja hacia la izquierda indica que el entrenamiento ha dado resultado, ya que se tardan menos segundos en recorrer la misma distancia, siendo la diferencia entre el mximo y el mnimo menor, como as tambin la diferencia intercuartlica.DIAGRAMA DE CAJAESTADISTICA I