Capítulo 2 Estadística descriptiva 23 Estadística descriptiva.
Estadística descriptiva
-
Upload
jose-manuel-ls -
Category
Education
-
view
284 -
download
0
Transcript of Estadística descriptiva
Autor: Abel Barrantes Herrera Página 1
Tema : Estadística Descriptiva
Estadística Descriptiva
La Estadística Descriptiva es la parte de la estadística que trata de la colección, organización, análisis e interpretación de los datos.
Colección de datos es el proceso de obtener información por medidas o conteos o clasificaciones. La conclusiones serán validas si los datos son representativos y la colección se ha hecho de manera correcta.
Organización de los datos es el proceso de presentar los datos en una forma apropiada para poder analizarlos y llegar a conclusiones lógicas. Los métodos más representativos de presentar los datos son tablas y gráficos
Análisis de los datos es el proceso de extraer información relevante a partir de la cual podamos formular una clara descripción de su comportamiento.
Interpretación de los datos es la tarea de derivar conclusiones basadas en el análisis de los datos y que usualmente incluye predicciones acerca de un gran conjunto de datos basados en el estudio de una pequeña parte de ellos.
Colección de datos: Población y Muestra
Población o universo es la totalidad de elementos que tienen una determinada característica susceptible de ser estudiada. Por ejemplo :
a) La población de todas las cuentas de ahorro del Banco de la Nación
b) La población de los glóbulos rojos de un paciente del IPSS
c) La población de la pesca anual de anchoveta en los puertos del litoral peruano
Muestra es el conjunto de datos (observaciones), extraído de población; la muestra es un subconjunto de la población.
La distinción entre muestra y población depende del objeto del estudio, así si se desea estudiar la estatura de los alumnos de secundaria del distrito del Rimac, entonces las mediciones de todos los alumnos de ese distrito constituyen una población, pero si el estudio se realiza para toda Lima Metropolitana, esas mediciones constituyen una muestra.
Dato estadístico.- Son medidas fruto de observaciones que pueden ser comparados, analizados e interpretados. Un número aislado que no tenga relación significativa con otros números, o que no pueda ser comparado con otros números no es un dato estadístico.
Clasificación de variables
1. Variables cualitativas.- son aquellas cuyos valores son categorías de clasificación referidas a una cualidad de la población por ejemplo la variable “Sexo” puede asumir los valores: Masculino ó Femenino; la variable “Clase social” puede asumir los valores: Alta, Media, Baja. Estas variables se subdividen en:
a) Variables cualitativas nominales.- Cuando sólo se cuenta el número de observaciones de cada categoría y no hay ningún orden en las posibles modalidades, por ejemplo “Color de cabello” con sus posibles modalidades: Negro, Castaño, Rubio, etc.
Autor: Abel Barrantes Herrera Página 2
Tema : Estadística Descriptiva
b) Variables cualitativas ordinales.- donde no solo se clasifica sino que se ordena en términos del grado que posee una característica, ejemplo: “Grado de Instrucción”con las posibles modalidades Primaria, Secundaria, Superior
2. Variable cuantitativas.- se obtienen de mediciones o conteos y se subdividen en:
a) Variable discretas.- que toman valores aislados y son susceptibles de ser contados. Ejemplo número de pacientes ambulatorios en un hospital del IPSS, Número de aviones que llegan a un aeropuerto en un día dado, Número de accidentes de tránsito en una ciudad durante un periodo de tiempo dado
b) Variables continuas.- que si asumen dos valores cualquiera, asumen todos los valores intermedios. Ejemplo: peso de los estudiantes de ingeniería de la UTP, Estatura de los alumnos de secundaria de Lima Metropolitana, etc.
Organización de los datos
La presentación de los datos es una forma importante de ayudarnos a comprenderlos e interpretarlos correctamente. Dos métodos son los mas comunes de presentar los datos cuantitativos, uno de ellos son los cuadros ó tabulaciones y el otro son los gráficos y diagramas. La representación de los datos por cualquiera de estos métodos esta orientada sobre todo a la mejor comprensión de la información en análisis.
Métodos de presentación de datos
Ejemplo de tabulación 1: las notas de un examen rendido por 150m alumnos son mostrados en el cuadro 1:
Nota 6 7 8 9 10 11 12 13 14 15 16 18
Alumnos 3 9 12 18 25 26 21 15 11 4 4 2
CUADRO 1
Esta tabla puede graficarse como un diagrama de barras
0
5
10
15
20
25
30
6 7 8 9 10 11 12 13 14 15 16 18
N°
de A
lum
no
s
Notas
GRAFICO 1
Autor: Abel Barrantes Herrera Página 3
Tema : Estadística Descriptiva
Supongamos ahora que tenemos las tierras de cultivo en hectáreas de los siguientes departamentos
Departamento Tierra de Cultivo
1000Ha
Tumbes 1360
Piura 1840
Lambayeque 1570
Cajamarca 1970
La Libertad 2100
Gráfico de barras
Grafico de sectores
0 500 1000 1500 2000 2500
Tumbes
Piura
Lambayeque
Cajamarca
La Libertad
1000Ha
Tierras de Cultivo
Autor: Abel Barrantes Herrera Página 4
Tema : Estadística Descriptiva
ANÁLISIS DE LOS DATOS
El análisis de los datos pasa necesariamente por determinar un “centro” de los datos y que tan juntos o distantes están los datos entre si, es decir que tan dispersos están los datos. Las medidas de centralización y dispersión responden a diversos criterios que veremos a continuación.
Los datos de una variable discreta aparecen 1 2, , , nx x x dato por dato, ó
indicando cuantas veces se repite cada dato 1 1 2 2( , );( , ); ;( , )k kx f x f x f donde los
if indican las veces que se repite el i-ésimo dato y se denomina como
Frecuencia Absoluta
Si 1
k
i
i
n f
, (total de los datos), al cociente ii
fh
n lo denominamos frecuencia
relativa, cumpliéndose 1
1k
ih
Definimos adicionalmente las frecuencias acumuladas:
1
l
l i
i
F f
Frecuencia absoluta acumulada, hasta el dato lx ;
1
l
l i
i
H h
Frecuencia relativa acumulada, hasta el dato lx
En este caso los datos se tabulan mostrando las frecuencias. Para el caso del ejemplo 1 tenemos:
i
Nota
ix
Frecuencia
Absoluta
if
Frecuencia
Absoluta
Acumulada iF
Frecuencia
Relativa
ih
Frecuencia
Relativa
Acumulada iH
1 06 3 3 0.020 0.020
Tierras de Cultivo
Tumbes
Piura
Lambayeque
Cajamarca
La Libertad
Autor: Abel Barrantes Herrera Página 5
Tema : Estadística Descriptiva
2 07 9 12 0.060 0.080
3 08 12 24 0.080 0.160
4 09 18 42 0.120 0.280
5 10 25 67 0.167 0.447
6 11 26 93 0.173 0.620
7 12 21 114 0.140 0.760
8 13 15 129 0.100 0.860
9 14 11 140 0.073 0.933
10 15 4 144 0.027 0.960
11 16 4 148 0.027 0.987
12 18 2 150 0.013 1.000
Σ 150 1.000
Los datos de una variable continua aparecen agrupados en clases de manera que cada clase se representa por un intervalo cerrado a la izquierda , abierto a
la derecha cumpliéndose que 1 1 2 2[ , ) [ , ) [ , )k ka b a b a b cubre todos los
datos. La frecuencia absoluta if de un intervalo es el número de datos que
cumplen con i ia x b
Para cada intervalo ó clase definimos:
il : Límite inferior de la clase i
iL : Límite superior de la clase i
2
i ii
l Lx
: Marca de la clase i (punto medio del intervalo)
i i iC L l Ancho de la clase i
if : frecuencia absoluta de la clase i, siendo 1
k
i
i
n f
ii
fh
n : frecuencia relativa de la clase i, se cumple que
1
1k
ih
1
l
l i
i
F f
Frecuencia absoluta acumulada de la clase l
1
l
l i
i
H h
Frecuencia relativa acumulada de la clase l
Ejemplo de datos agrupados. Sean las notas de un examen :
Notas Frecuencia
Autor: Abel Barrantes Herrera Página 6
Tema : Estadística Descriptiva
90 –99 2
80-89 6
70-79 12
60-69 20
50-59 10
40-49 2
Para tabular estos datos es necesario modificar los intervalos conforme a lo definido anteriormente.
Los nuevos intervalos serán:
[39.5,49.5); [49.5,59.5);[59.5,69.5);....[89.5,99.5)
Definidos los límites de cada clase es posible formar el cuadro de frecuencias
Cuadro De Frecuencias ó Histograma de frecuencias
i
Límite inf.
De Clase
il
Límite Sup.
De Clase
iL
Marca de Clase
ix
Frecuencia
Absoluta
if
Frecuencia
Absoluta Ac.
iF
Frecuencia
Relativa
ih
Frecuencia
Relativa Ac
iH
1 39.5 49.5 44.5 2 2 0.04 0.04
2 49.5 59.5 54.5 10 12 0.20 0.24
3 59.5 69.5 64.5 18 30 0.36 0.60
4 69.5 79.5 74.5 12 42 0.24 0.84
5 79.5 89.5 84.5 6 48 0.12 0.96
6 89.5 99.5 94.5 2 50 0.04 1.00
Autor: Abel Barrantes Herrera Página 7
Tema : Estadística Descriptiva
0
2
4
6
8
10
12
14
16
18
20
44.5 54.5 64.5 74.5 84.5 94.5
GRAFICO DE BARRAS - FRECUENCIAS ABSOLUTAS
Autor: Abel Barrantes Herrera Página 8
Tema : Estadística Descriptiva
Medidas de Centralización.- Las medidas de centralización buscan ubicar un punto central entre los datos analizados. La determinación de este punto se hace por diversos criterios:
1. Media Aritmética
1
1 n
ix xn
para datos no agrupados
1
1 n
i ix f xn
para datos agrupados
1
1
1 k
i ik
i
x f x
f
para datos agrupados en k clases, donde ix es
la marca de clase
Propiedades:
(i) 1
( ) 0n
i if x x
(ii) Para un conjunto de datos la media es única
(iii) Si un valor se modifica la media también se modifica
(iv) 2 2
1 1
( ) ( )n n
i i i if x x f x B B significando que la media
aritmética es el punto que minimiza la suma de los cuadrados de las distancias de los datos a un punto dado
(v) Si a todos los valores de una variable X se les suma (resta) una constante C, entonces la media aritmética aumenta (disminuye) en C
si y x C y x C
(vi) Si los valores se multiplican por una constante la media queda multiplicada por dicha constante
si y Cx y Cx
Ejemplos: sean los datos
Autor: Abel Barrantes Herrera Página 9
Tema : Estadística Descriptiva
Media ponderada.- Si 1 2, , , rx x x son las medias aritméticas
de conjuntos de tamaño 1 2, , , rn n n ; respectivamente, entonces
la media ponderada pX está dada por:
1 1 2 2
1 2
r rp
r
n x n x n xX
n n n
2. Mediana
Para datos sueltos
Si la variables es discreta, se procede a ordenar los datos en forma ascendente ó descendente y se define
1
2
( ) nMed x x cuando n es impar
12 2( )
2
n nx x
Med x
Para datos agrupados (la variables es continua ó se considera continua) la mediana es el punto que divide a los datos en 2 partes iguales 50% antes, 50% después.
Resolveremos el caso de manera genérica, para dividir los datos en 2 partes %p a la derecha, 100 %p a la izquierda. Al número p le llamamos
percentil y lo denominamos por pP .
a) Calcular /100p donde p = 1,2,....,100
b) Se identifica la clase que contiene al percentil analizando su frecuencia relativa acumulada. Esta clase, a la que denominaremos por k es la que cumple con:
1 /100k kH p H
c) Conocida la clase donde se encuentra el percentil, lo calculamos por una simple regla de tres dividiendo la fracción del percentil contenida en dicha clase entre la frecuencia relativa de la clase y multiplicando este cociente por el ancho de clase.
1
1
100k
p k k
k k
pH
X l CH H
Autor: Abel Barrantes Herrera Página 10
Tema : Estadística Descriptiva
ó también, si deseamos expresarlo en términos de frecuencias absolutas
1
1
*
100k
p k k
k k
p nF
X l CF F
Donde :
kl es el límite inferior de la clase que contiene a p
n es el numero total de datos
kC es el ancho de la clase que contiene a p
kH es la frecuencia relativa acumulada de la clase que contiene a p
1kH es la frecuencia relativa acumulada de la clase anterior de la
clase que contiene a p
kF es la frecuencia relativa acumulada de la clase que contiene a p
1kF es la frecuencia relativa acumulada de la clase anterior de la
clase que contiene a p
Esta fórmula permite calcular la mediana (caso 50P )
Propiedades de la mediana
(i) 1 1
| ( ) | | |k k
i i i if x Med x f x A A
(ii) La mediana depende del número de valores observados y no del tamaño de los valores extremos
(iii) La mediana no es adecuada para operaciones algebraicas
Nota esta fórmula es aplicable a todo los percentil, especialmente a :
Primer cuartil = 25P
Tercer cuartil = 75P
Primer decil = 10P , etc.
Autor: Abel Barrantes Herrera Página 11
Tema : Estadística Descriptiva
3. La Moda
Para el caso de datos sueltos la moda es el dato que mas veces se repite, puede no ser única.
Una distribución con una moda se denomina unimodal
Una distribución con dos modas se denomina bimodal
Una distribución con tres modas se denomina trimodal, etc.
Para calcular la moda con datos continuos agrupados en clases:
a) Identificar la clase modal Cm (la de mayor frecuencia) b) Usar la fórmula
1
1 2
( ) m mModa X l C
donde:
ml es el límite inferior de la clase modal
mC es el ancho de la clase modal
1 1Mo Mof f siendo Mof la frecuencia de la clase modal, 1Mof la
frecuencia de la clase anterior a la clase modal
2 1Mo Mof f siendo Mof la frecuencia de la clase modal, 1Mof la
frecuencia de la clase posterior a la clase modal
Propiedades
(i) El valor de la moda es independiente de los valores extremos (ii) Varía si cambia el intervalo de clase (iii) No se presta a manipulaciones algebraicas
Relación entre Media, Mediana y Moda
a) Para el caso
( ) ( )x Med x Moda x
La distribución es simétrica
b) Para el caso
Autor: Abel Barrantes Herrera Página 12
Tema : Estadística Descriptiva
( ) ( )x Med x Moda x
La distribución es sesgada a la derecha
c) Para el caso
( ) ( )x Med x Moda x
La distribución es sesgada a la izquierda
Nota sesgo significa donde está la mayor cola
4. Media Armónica
Si tenemos datos sueltos
1 2, , , kx x x con frecuencias 1 2, , , kf f f definimos la media
armónica por la fórmula
1 2
1 2
1
( ) ;k
k
k
i
nMh x
ff f
x x x
n f
5. Media Geométrica
La media geométrica para n datos sueltos 1 2, , , nx x x se define por:
1 2( ) * * *nnMG X x x x
Si los datos están agrupados en frecuencias, entonces
1 2
1 2( ) * * * kff fnkMG X x x x
donde 1
k
i
i
n f
Si aplicamos logaritmos a esta última fórmula
1 1 2 2 1
( )( ) ( ) ( )
( ( ))
k
i i
k k i
f Log xf Log x f Log x f Log x
Log MG Xn n
Autor: Abel Barrantes Herrera Página 13
Tema : Estadística Descriptiva
de donde 1 1
( )
( )
k
i i
i
f Log x
MG X Logn
de donde concluimos que la media geométrica es el antilogaritmo de la media aritmética de los logaritmos de los datos en análisis.
Propiedades
i. Si ( )
( )( )
ii
i
X MG XZ MG Z
Y MG Y
ii. El cálculo está basado en todos los datos u observaciones iii. No es aplicable a datos negativos iv. Si uno de los datos es 0 la media geométrica es 0 v. Es de utilidad cuando se aplica para promediar proporciones
NOTA.- la relación entre las medias es: ( ) ( )Mh X MG X X
6. Media Cuadrática
La media cuadrática para n datos sueltos 1 2, , , nx x x se define por:
2 2 2
1 2( ) nx x xMQ X
n
Si los datos están agrupados en frecuencias, entonces
2 2 2
1 1 2 2( ) k kf x f x f xMQ X
n
donde 1
k
i
i
n f
Medidas de Dispersión.- Las medidas de dispersión buscan definir que tan cerca (lejos) se encuentran los datos de su centro.
1. ( ) ( )Rango Max X Min X
2. Recorrido intercuartílico
3 1iQ Q Q
3. Recorrido semi-intercuartílico
Autor: Abel Barrantes Herrera Página 14
Tema : Estadística Descriptiva
3 1
2is
Q QQ
4. Desviación Media a un punto r
1
( ) | |k
M i iD r h x r
En el caso de datos agrupados xi es la marca de clase. Son de interés los casos cuando r es la media, la mediana, o la moda
Nótese que la Desviación Media usa todos los datos.
5. Varianza
a) Para datos sueltos:
2
2 1
( )
1
n
ix x
Sn
b) Para datos agrupados en frecuencias
2
2 1
( )
1
k
i if x x
Sn
c) Para datos agrupados en k clases
2
2 1
( )
1
k
i if x x
Sn
, donde ix es
la marca de clase
d) Llamamos Desviación Estándar a 22S S
Propiedades
i) 2 0S Para que sea 0 es necesario que 1 1 nx x x Cte
ii) Se tiene
( ) ( )Var x c Var x
Demostración:
( )Media x c x c
2
1
[( ) ( )]
( )1
k
i i if x c Media x c
Var x cn
2
1
[( ) ( )]
( )1
k
i i if x c x c
Var x cn
Autor: Abel Barrantes Herrera Página 15
Tema : Estadística Descriptiva
2
1
( )
( ) ( )1
k
i i if x x
Var x c Var xn
2( ) ( )Var cx c Var x
La demostración es similar usando ( )Media cx cx
iii) 2( ) ( )Var aX b a Var X para a y b constantes
iv) Para distribuciones simétricas se cumple que:
El 68.27% delos datos X S
El 95.45% de los datos 2X S
El 99.73% de los datos 3X S
v) Si conocemos 1 2,x x las medias y 2 2
1 2,S S las varianzas de dos
muestras de tamaño n1, n2, respectivamente, entonces:
2 22 21 1 2 22 1 1 2 2
1 2 1 2
( ) ( )( 1) ( 1)
1 1
p pn x x n x xn S n SS
n n n n
Esto se puede generalizar considerando 1 2, , , lx x x las medias y 2 2 2
1 2, , , lS S S las varianzas de l muestras de tamaño 1 2, , , ln n n
respectivamente, entonces
2 2
2 1 1
( 1) ( )
1 1
l l
i i i i pn S n x x
Sn n
, siendo
1
l
in n
2
1
( 1)
var1
l
i in S
Intra ianzan
2
1
( )
var1
l
i i pn x x
Inter ianzan
Medidas de dispersión relativa
Coeficiente de Variación
. .S
CVx
Autor: Abel Barrantes Herrera Página 16
Tema : Estadística Descriptiva
Considerando si . . 50%CV alto grado de dispersión
Momentos
Sean 1 2, , , kx x x valores de la variable X con frecuencias absolutas 1 2, , , kf f f ;
respectivamente. Definimos el momento de orden m respecto del punto C:
1 1
1
1
( ) ( )
( ) ( )
k kr r
i i i i kr
r i ik
i
f x C f x C
M C h x Cn
f
La interpretación es similar a la interpretación física, si consideramos a ih como
la masa concentrada en el punto ix y a ( )ix C la distancia de ix al punto C .
Así tenemos una similitud con los momentos de masa usados en física.
Son de particular interés los momentos respecto del origen (cuando 0C )
denominados rM y los momentos respecto de la media (C x ) denominados
rM teniéndose:
0 0
1 10 0
1 1
1 11 1
2 2
1 12 2
( )
1 1
( )
0
( )
( )
k k
i i i i
k k
i i i i
k k
i i i i
f x f x x
M Mn n
f x f x x
M x Mn n
f x f x x
M M Var Xn n
Autor: Abel Barrantes Herrera Página 17
Tema : Estadística Descriptiva
Medidas de Asimetría
Las medidas de dispersión nos muestran la magnitud de las variaciones sin indicarnos la dirección hacia donde ocurren. Las medidas de asimetría indican la deformación horizontal de las curvas de frecuencias, así sin la curva es alargada a la derecha decimos que tiene asimetría a la derecha o positiva, si es alargada a la izquierda decimos que tiene asimetría a la izquierda o negativa.
Coeficientes de Asimetría
Cuando disponemos de los valores de la media, moda, mediana, cuartiles y desviación estándar y la distribución es unimodal, debemos usar:
Primer coeficiente de Pearson
( ) ( )s
Media X Moda XA
S
En el caso que no podamos calcular la media ni la distribución estándar,
Segundo coeficiente de Pearson
3 1
3 1
2 ( )s
Q Q Mediana XA
Q Q
La lectura de los coeficientes es:
Si 0sA la distribución es simétrica
Si 0sA la distribución es sesgada al lado derecho
Si 0sA la distribución es sesgada al lado izquierdo
Coeficiente de Fisher
3
3 1
3 3
( )k
i i
s
f x xM
AS nS
Un valor | | 1kS indica una distribución altamente asimétrica, una distribución
con 1 | | 1/ 2kS indica una asimetría moderada, y si 1/ 2 | | 0kS la
distribución es simétrica
Medidas de Curtosis
Curtosis es el grado de deformación vertical (apuntamiento) esto es que tan alargadas hacia arriba ó aplanadas son las distribuciones de frecuencias.
Autor: Abel Barrantes Herrera Página 18
Tema : Estadística Descriptiva
Según el grado de apuntamiento las curvas se clasifican en Leptocúrticas, si su apuntamiento es alto, Mesocúrticas si su apuntamiento es medio y platicúrticas si son mas bien aplanadas. El siguiente cuadro muestra los tres casos
Una de las medidas de curtosis está dada por el coeficiente
3 1
90 102( )
Q Qk
P P
donde
Si K > 0.263 la curva de la distribución es leptocúrtica
Si k = 0.263 la curva de la distribución es mesocúrtica
Si k < 0.263 la curva de la distribución es platicúrtica
Otra forma de medir la curtosis es usando 4
4t
MK
S Esta medida es siempre
positiva y se interpreta por
Si 3tK la curva de la distribución es leptocúrtica
3Q : Cuartil 3° 1Q : Cuartil 1°
90P : Percentil 90 10P : Percentil 10
Autor: Abel Barrantes Herrera Página 19
Tema : Estadística Descriptiva
Si 3tK la curva de la distribución es mesocúrtica
Si 3tK la curva de la distribución es platicúrtica
Autor: Abel Barrantes Herrera Página 20
Tema : Estadística Descriptiva
Ejemplos
CALCULO DE MEDIDAS DE CENTRALIZACIÓN
CALCULO DE LA MODA.- Sea el cuadro de frecuencias
De a Marca de clase
Frecuencia relativa
Frecuencia relativa ac.
Frecuencia Absoluta
Frecuencia Absoluta ac.
1 0.50 2.50 1.50 0.02 0.02 4 4
2 2.50 4.50 3.50 0.10 0.12 20 24
3 4.50 6.50 5.50 0.20 0.32 40 64
4 6.50 8.50 7.50 0.16 0.48 32 96
5 8.50 10.50 9.50 0.40 0.88 80 176
6 10.50 12.50 11.50 0.10 0.98 20 196
7 12.50 14.50 13.50 0.02 1.00 4 200
Sumas 1 200
Clase modal : 5ª (la de mayor frecuencia absoluta ó relativa)
Fórmula
1
1 2
( ) m mModa X l C
donde:
ml es el límite inferior de la clase modal 8.5ml
mC es el ancho de la clase modal 2mC
1 1Mo Mof f siendo Mof la frecuencia de la clase modal, 1Mof la
frecuencia de la clase anterior a la clase modal
1 1 80 32 48Mo Mof f
2 1Mo Mof f siendo Mof la frecuencia de la clase modal, 1Mof la
frecuencia de la clase posterior a la clase modal
2 1 80 20 60Mo Mof f
1
1 2
48( ) 8.5 2 9.39
48 60m mModa X l C
Autor: Abel Barrantes Herrera Página 21
Tema : Estadística Descriptiva
CALCULO DE LA MEDIANA
De a Marca de clase
Frecuencia relativa
Frecuencia relativa ac.
Frecuencia Absoluta
Frecuencia Absoluta ac.
1 0.50 2.50 1.50 0.02 0.02 4 4
2 2.50 4.50 3.50 0.10 0.12 20 24
3 4.50 6.50 5.50 0.20 0.32 40 64
4 6.50 8.50 7.50 0.16 0.48 32 96
5 8.50 10.50 9.50 0.40 0.88 80 176
6 10.50 12.50 11.50 0.10 0.98 20 196
7 12.50 14.50 13.50 0.02 1.00 4 200
Sumas 1 200
Clase Mediana: 5ª (la menor de las clases cuya frecuencia relativa acumulada es mayor ó igual a 0.5 )
Usamos la fórmula para percentíles recordando que la mediana es el percentil 50 (p = 50)
1
1
100k
i k k
k k
pH
p l CH H
Donde :
kl es el límite inferior de la clase que contiene a p 8.5kl
n es el numero total de datos
kC es el ancho de la clase que contiene a p 2kC
kH es la frecuencia relativa acumulada de la clase que contiene a p
0.88kH
1kH es la frecuencia relativa acumulada de la clase anterior de la
clase que contiene a p 1 0.48kH
1
1
0.50 0.48100( ) 8.5 2 8.60.88 0.48
k
k k
k k
pH
Med X l CH H
Autor: Abel Barrantes Herrera Página 22
Tema : Estadística Descriptiva
Autor: Abel Barrantes Herrera Página 23
Tema : Estadística Descriptiva
CALCULO DE LA MEDIA
De a Marca de clase
Frecuencia relativa
Frecuencia Relativa Ac.
Frecuencia Absoluta
Frecuencia Absoluta Ac. Xi*hi
1 0.50 2.50 1.50 0.02 0.02 4 4 0.03
2 2.50 4.50 3.50 0.10 0.12 20 24 0.35
3 4.50 6.50 5.50 0.20 0.32 40 64 1.1
4 6.50 8.50 7.50 0.16 0.48 32 96 1.2
5 8.50 10.50 9.50 0.40 0.88 80 176 3.8
6 10.50 12.50 11.50 0.10 0.98 20 196 1.15
7 12.50 14.50 13.50 0.02 1.00 4 200 0.27
Sumas 1 200 7.9
1 1
1
1 k k
i i i ik
i
x f x h x
f
para datos agrupados en k clases,
donde ix es la marca de clase
En este caso 7.9x
Autor: Abel Barrantes Herrera Página 24
Tema : Estadística Descriptiva
CALCULO DE LAS MEDIDAS DE DISPERSION
De A Marca de clase
Frec. relativa
Frec. relat. ac.
Frec. Abs.
Frec. Abs. ac. *i ix h ix x
2( )ix x 2( )i ih x x
1 0.50 2.50 1.50 0.02 0.02 4 4 0.03 -6.40 40.96 0.8192
2 2.50 4.50 3.50 0.10 0.12 20 24 0.35 -4.40 19.36 1.9360
3 4.50 6.50 5.50 0.20 0.32 40 64 1.1 -2.40 5.76 1.1520
4 6.50 8.50 7.50 0.16 0.48 32 96 1.2 -0.40 0.16 0.0256
5 8.50 10.50 9.50 0.40 0.88 80 176 3.8 1.60 2.56 1.0240
6 10.50 12.50 11.50 0.10 0.98 20 196 1.15 3.60 12.96 1.2960
7 12.50 14.50 13.50 0.02 1.00 4 200 0.27 5.60 31.36 0.6272
Sumas 1 200 7.9 6.8800
CALCULO DE LA VARIANZA
2 2
2 1 1
22
( ) ( )
1 1
k k
i i i if x x n h x x
Sn n
S S
Siendo S la Desviación Estándar
En este caso 2 200*6.88 6.91
199S
2.63S
MEDIDAS DE DISPERSIÓN RELATIVAS:
CALCULO DEL COEFICIENTE DE VARIACIÓN
Coeficiente de variación 2.63
. . 33.27%7.9
SCV
x
Autor: Abel Barrantes Herrera Página 25
Tema : Estadística Descriptiva
PROBLEMAS RESUELTOS
1. La medida de los diámetros de un conjunto de rodamientos está dada por la siguiente tabla
De A frecuencia
2.35 2.45 7
2.45 2.55 13
2.55 2.65 19
2.65 2.75 23
2.75 2.85 17
2.85 2.95 7
2.95 3.05 4
a) Calcular la media b) Calcular la mediana c) Calcular la moda d) Calcular los cuartiles 1° y 3° e) Calcular los percentil 90 y 10 f) Evaluar la Asimetría g) Evaluar la Curtosis h) Calcular el Coeficiente de Variación
SOLUCION
El cuadro de frecuencias es:
i li Li fi Fi hi Hi Xi Xi*hi fi*(Xi - X)^2
1 2.35 2.45 7 7 0.078 0.078 2.4 0.1872 0.5271
2 2.45 2.55 13 20 0.144 0.222 2.5 0.36 0.3954
3 2.55 2.65 19 39 0.211 0.433 2.6 0.5486 0.1052
4 2.65 2.75 23 62 0.256 0.689 2.7 0.6912 0.0151
5 2.75 2.85 17 79 0.189 0.878 2.8 0.5292 0.2682
6 2.85 2.95 7 86 0.078 0.956 2.9 0.2262 0.3563
7 2.95 3.05 4 90 0.044 1 3 0.132 0.4241
90 1 2.6744 2.0912
a. Para calcular la media podemos usar las fórmulas
1
1
k
i i
k
i
f x
x
f
ó
1
k
i ix h x
usando la segunda obtenemos: Media(X) = 2.6744
Autor: Abel Barrantes Herrera Página 26
Tema : Estadística Descriptiva
b. Cálculo de la Mediana(X) Fórmula:
1
1
100k
i k k
k k
pH
p l CH H
i. 50p ; Clase mediana: 4ª (nótese: 3 40.50H H )
ii. 2.65kl
iii. 0.1kC
iv. 0.689kH
v. 1 0.433kH
Mediana(X)=2.676
c. Moda :
1
1 2
( ) m mModa X l C
Clase modal: 4ª
lm = 2.65
1
1
23 19 4
23 17 5
0.1mC
Moda = 2.690
d. Rango Intercuartílico
i. p = 25 ; Clase: 3ª
ii. 2.55kl
iii. 0.1kC
iv. 0.433kH
v. 1 0.222kH
p(25) =2.563
vi. p = 75 ; Clase: 5ª
vii. 2.75kl
viii. 0.1kC
Autor: Abel Barrantes Herrera Página 27
Tema : Estadística Descriptiva
ix. 0.878kH
x. 1 0.689kH
p(75)=2.782
Rango intercuartílico = 2.782 – 2.563 = 0.219
e. Percentil 90
i. 90p ;Clase: 6ª
ii. 2.85kl
iii. 0.1kC
iv. 0.956kH
v. 1 0.878kH
p(90)=2.878
Percentil 10
vi. 10p ;Clase: 2ª
vii. 2.45kl
viii. 0.1kC
ix. 0.222kH
x. 1 0.078kH
p(10)=2.878
f. Asimetría.- Se cumple Moda > Mediana > Media, entonces, es sesgada a la derecha. Nótese que las diferencias entre las tres medidas son mínimas.
g. Curtosis
3 1
90 102( )
Q Qk
P P
;
2.782 2.5630.265
2(2.878 2.465)k
0.263k la curva es leptocúrtica
h. Coeficiente de variación
Varianza = 2.0912/89 = 0.0235
Desviación estándar = 0.153
Coeficiente de variación = 0.153/2.674 = 5.72%
Autor: Abel Barrantes Herrera Página 28
Tema : Estadística Descriptiva
0.00
0.10
0.20
0.30
0.40
0.50
0.60
0.70
0.80
0.90
1.00
2.35 2.45 2.55 2.65 2.75 2.85 2.95 3.05
OJIVA