Estadística descriptiva
Embed Size (px)
Transcript of Estadística descriptiva

Preparador: Eduardo Lakatos Contreras
1 Universidad Católica Andrés Bello Preparaduría Probabilidades y Estadísticas
UNIVERSIDAD CATOLICA ANDRES BELLO
Urb. Montalbán – La Vega – Apartado 29068
Teléfono: 471-4148 Fax: 471-3043
Caracas, 1021 - Venezuela ___________
Facultad de Ingeniería
Escuela de Ingeniería Informática
-----------------------
ESTADÍSTICA DESCRIPTIVA
A continuación serán expuestas las definiciones y notaciones que vamos a utilizar en estadística descriptiva:
Frecuencia Absoluta: if
Frecuencia Relativa: ih
Frecuencia Relativa Porcentual: %ih
Frecuencia Acumulada: iF
Frecuencia Relativa Acumulada: iH
Frecuencia Porcentual Acumulada: %iH
Marca de Clase ( iX ): 2
riorLimiteSuperiorLimiteInfe
Amplitud de Clase ( a ): k
NM MáximoM , MínimoN
1) Número de Clases ( k ): nk n tamaño de la muestra
Observación: Esta regla es útil cuando 400n .
2) Número de Clases ( k ): )log(*322,31 n (Regla de Sturges)
3) Número de Clases ( k ): )2log(/)log(n
La estadística descriptiva se divide en tres partes que serán expuestas a continuación: Representación Grafica:
- Sectores Circulares. - Histograma. - Diagrama de Cajas. - Barras. - Puntos.

Preparador: Eduardo Lakatos Contreras
2 Universidad Católica Andrés Bello Preparaduría Probabilidades y Estadísticas
Medidas de Tendencia Central: Son un número entorno a que valor está concentrado el resto de la muestra.
- Media Aritmética. - Moda: Es la variable de la muestra que más se repite. - Mediana: Es el valor que divide el conjunto de datos ordenados en dos partes
iguales. Medidas de Dispersión: Cuan disperso están los valores.
- Recorrido. - Desviación Estándar. - Varianza.
Medidas de Posición: Dividen la muestra en distintas partes iguales.
- Cuartiles: Dividen el conjunto de datos ordenados en 4 partes iguales. - Deciles: Dividen el conjunto de datos ordenados en 10 partes iguales. - Percentiles: Dividen el conjunto de datos ordenados en 100 partes iguales.
Fórmulas de Medidas de Tendencia Central: Media Aritmética:
x Cuando sea para una muestra. Cuando sea para una población.
Datos no Agrupados Datos Agrupados
n
XXXX
n
X
x n
n
i
i
...3211
N
XN
i
i 1
n
fXfXfX
n
fX
x nn
i
n
i
i*...**
*22111
iX : Marcas de Clases.
if : Frecuencias absolutas.
Moda: Es el valor que más se repite en un grupo de números dentro de una muestra.
Datos no Agrupados Datos Agrupados No existe fórmula para datos no agrupados, lo único que hay que hacer es tomar la variable
con el valor que más se repite.
Los pasos son:
1. Ubicar la mayor if , para hallar el
intervalo modal

Preparador: Eduardo Lakatos Contreras
3 Universidad Católica Andrés Bello Preparaduría Probabilidades y Estadísticas
2. Aplicar la fórmula
alMosi
ii *
il : Límite inferior.
i : Es el valor que se obtiene de restar la
alfmod con la frecuencia anterior.
s : Es el valor que se obtiene de restar la
alfmod con la frecuencia siguiente.
a : Amplitud de Clase.
Consideraciones:
- Puede haber más de una moda cuando dos o más números se repiten la misma cantidad de veces. En este caso se estaría hablando de una muestra multi-modal.
- No hay moda si ningún número se repite más de una vez. Mediana:
Datos no Agrupados Datos Agrupados El valor de la mediana puede coincidir o no
con un valor de la muestra, todo depende si el número de datos es par o impar.
Los pasos son:
1. Organizar en orden ascendente los datos.
2. Si el número de datos es impar,
utilizamos la siguiente fórmula: 2
1n
Si el número de datos es par, la mediana será el promedio aritmético de los dos valores que se encuentran en la mitad de la muestra.
Los pasos son:
3. Calcular: 2
n
4. Localizar ese valor en iF , si no está
pasar al inmediato superior, con esto se haya el intervalo de la mediana.
5. Aplicar la formula sustituyendo los valores correspondientes.
af
Fn
lMemed
a
i *2
il : Límite inferior.
aF : Frecuencia acumulada anterior.
medf : Frecuencia absoluta del intervalo de la
mediana. a : Amplitud de Clase.
Fórmulas de Medidas de Dispersión: Recorrido: Es la diferencia entre el valor más alto y el más bajo observado.

Preparador: Eduardo Lakatos Contreras
4 Universidad Católica Andrés Bello Preparaduría Probabilidades y Estadísticas
XmínimoXmáximoR Desviación típica o estándar: Se define como la raíz cuadrada positiva de la varianza. S Cuando sea para una muestra. Cuando sea para una población.
Datos no Agrupados Datos Agrupados
1
)(1
2
n
XX
S
n
i
i
N
XN
i
i
1
2)(
1
*)(1
2
n
fXX
S
n
i
ii
N
fXN
i
ii
1
2 *)(
Consideraciones:
- La desviación típica de una constante es cero. - Siempre es una cantidad positiva. - La desviación típica del producto de una constante por una variable es igual al
producto de la constante por la desviación típica de la variable. Varianza: Es la medida del cuadrado de la distancia promedio entre la media y cada elemento de la población.
2S Cuando sea para una muestra.
2 Cuando sea para una población.
Datos no Agrupados Datos Agrupados
1
)(1
2
2
n
XX
S
n
i
i
N
XN
i
i
1
2
2
)(
1
*)(1
2
2
n
fXX
S
n
i
ii
N
fXN
i
ii
1
2
2
*)(
Consideraciones:
- Cuando deseamos estimar la varianza de una población, a partir de una muestra, el error cometido es mucho menor si lo dividimos entre 1n y no n .

Preparador: Eduardo Lakatos Contreras
5 Universidad Católica Andrés Bello Preparaduría Probabilidades y Estadísticas
Fórmulas de Medidas de Posición:
5052 PDQMEDIANA
Anteriormente observamos la mediana con su respectiva medida de posición. Además podemos denotar otros tipos de igualdades entre las diferentes medidas de posición: Cuartiles = Percentiles
753
251
PQ
PQ
Deciles = Percentiles
404
303
202
101
PD
PD
PD
PD
909
808
707
606
PD
PD
PD
PD
Datos no Agrupados Datos Agrupados Los pasos son:
1. Organizar en orden ascendente los datos.
2. Calcular el índice “i”:
np
i *100
p : Percentil que queremos hallar.
n : Tamaño de la muestra.
- Si “i” es entero el percentil es el promedio de los valores de los datos ubicados en los lugares “i” e “i+1”.
- Si “i” no es entero el percentil se redondea al valor entero inmediato superior.
Los pasos son:
1. Ubicar el resultado de 100
* pn en iF
2. Si no está el valor, se pasa al inmediato superior.
3. Al ubicar el valor de iF determinamos
el valor de donde se obtendrán los datos para sustituir en la ecuación.
4. Aplicamos la fórmula:
af
Fpn
lPp
a
ip *100
*
il : Límite inferior.
aF : Frecuencia acumulada anterior.
p : Percentil que queremos hallar.
n : Tamaño de la muestra. a : Amplitud de Clase.
pf : Frecuencia Absoluta del intervalo.

Preparador: Eduardo Lakatos Contreras
6 Universidad Católica Andrés Bello Preparaduría Probabilidades y Estadísticas
PROBLEMAS Debemos destacar que los problemas expuestos en esta sección son sacados de libros, guías, internet o cualquier otra herramienta bibliográfica. Tabla de distribución de frecuencias para datos sin agrupar: 1) (Prof. José Campos) Si en un examen de base de datos las notas fueron 7, 7, 7, 8, 9, 9, 9, 10, 10, 11, 11, 11, 11, 12, 12, 14. Construimos la tabla de distribución de frecuencias.
NOTAS Frecuencia Absoluta
Frecuencia Relativa
Frecuencia Acumulada
Frecuencia Relativa
Porcentual
Frecuencia Relativa
Acumulada
Frecuencia Porcentual Acumulada
7 3 3/16 =0,19 3 19 0,19 19
8 1 1/16 =0,06 4 6 0,25 25
9 3 3/16 =0,19 7 19 0,44 44
10 2 2/16 =0,125 9 12,5 0,565 56,5
11 4 4/16 =0,25 13 25 0,815 81,5
12 2 2/16 =0,125 15 12,5 0,94 94
14 1 1/16 =0,06 16 6 1 100
TOTAL 16 1 16 100 1 100
Cálculo de Medidas de Tendencia Central para datos sin agrupar:
a. Media:
88,916
158
16
16
1412121111111110109998777
16
16
1
16
1
i
i
i
i
X
x
X
x
b. Mediana
Par.- 102
1010
22
981
22
XX
XX
Me
nn

Preparador: Eduardo Lakatos Contreras
7 Universidad Católica Andrés Bello Preparaduría Probabilidades y Estadísticas
c. Moda La moda es: 11Mo Cálculo de Medidas de Dispersión para datos sin agrupar:
a. Recorrido
7714 XmínimoXmáximoR
b. Desviación típica o estándar
029,2116,415
74,61
15
97,1699,802,503,032,253,388,24
15
)88,914()88,912(*2[
])88,911(*4[])88,910(*2[])88,99(*3[)88,98(])88,97(*3[
1
)(
22
22222
1
2
S
S
n
XX
S
n
i
i
c. Varianza
116,42 SV
Tabla de distribución de frecuencias para datos agrupados: 2) (Prof. José Campos) Si en un examen de base de datos las notas fueron 7, 7, 7, 8, 9, 9, 9, 10, 10, 11, 11, 11, 11, 12, 12, 14.
- Para construir la tabla de distribución de frecuencias (datos agrupados):
1) Ordeno los datos en forma ascendente. 2) Busco n . 3) Busco el número de clases k .

Preparador: Eduardo Lakatos Contreras
8 Universidad Católica Andrés Bello Preparaduría Probabilidades y Estadísticas
4) Busco la amplitud de la clase a .
1) Ordeno los datos en forma ascendente: 7, 7, 7, 8, 9, 9, 9, 10, 10, 11, 11, 11, 11, 12, 12, 14. 2) Buscamos n :
16n
3) Buscamos el número de clases k .
416 k
4) Buscamos la amplitud de la clase a .
275,14
7
4
714
a
Construimos la tabla de distribución de frecuencias.
NOTAS Frecuencia Absoluta
Marca de Clase
Frecuencia Relativa
Frecuencia Acumulada
Frecuencia Relativa
Porcentual
Frecuencia Relativa
Acumulada
Frecuencia Porcentual Acumulada
[7-9) 4 8 4/16 = 0,25 4 25 0,25 25
[9-11) 5 10 5/16 = 0,31 9 31 0,56 56
[11-13) 6 12 6/16 = 0,38 15 38 0,94 94
[13-15) 1 14 1/16 = 0,06 16 6 1 100
TOTAL 16 1 16 100 1 100
Cálculo de Medidas de Tendencia Central para datos agrupados:
a. Media:
5,1016
168
16
14*16*125*104*8
16
*16
1
i
i
i fX
x
El valor anterior es un estimado de la media ya que al agrupar las clases no conocemos el verdadero valor de cada individuo de la muestra, se renuncia a la exactitud por la comodidad de los cálculos.
b. Mediana

Preparador: Eduardo Lakatos Contreras
9 Universidad Católica Andrés Bello Preparaduría Probabilidades y Estadísticas
Calcular: 82
16
2
n
Como no se encuentra 8 en la frecuencia acumulada, se toma el inmediato superior, que en este
caso vendría siendo 9.
6,102*
5
489
Me
c. Moda
333,112*
)16()56(
5611
Mo
Cálculo de Medidas de Dispersión para datos agrupados:
a. Recorrido
7714 XmínimoXmáximoR
b. Desviación típica o estándar
862,1467,315
52
15
25,125,1325,125
15
]1*)5,1014[(]6*)5,1012[(]5*)5,1010[(]4*)5,108[(
1
*)(
2222
1
2
S
S
n
fXX
S
n
i
ii
c. Varianza
467,32 SV
3) (Prof. José Campos) Un investigador desea determinar cómo varían las estaturas de las obreras de una empresa y toma una muestra de 50 mujeres para registrar luego sus estaturas en pulgadas. Los datos obtenidos fueron los siguientes:

Preparador: Eduardo Lakatos Contreras
10 Universidad Católica Andrés Bello Preparaduría Probabilidades y Estadísticas
65 63 65 63 69 67 53 58 60 61
64 65 64 72 68 66 55 57 60 62
64 65 64 71 68 66 56 59 61 62
63 65 63 70 67 66 57 59 61 62
64 64 63 69 67 66 58 60 61 62
- Para construir la tabla de distribución de frecuencias (datos agrupados):
5) Ordeno los datos en forma ascendente. 6) Busco n . 7) Busco el número de clases k .
8) Busco la amplitud de la clase a .
1) Ordeno los datos en forma ascendente: 53, 55, 56, 57, 57, 58, 58, 59, 59, 60, 60, 60, 61, 61, 61, 61, 62, 62, 62, 62, 63, 63, 63, 63, 63, 64, 64, 64, 64, 64, 64, 65, 65, 65, 65, 65, 66, 66, 66, 66, 67, 67, 67, 68, 68, 69, 69, 70, 71, 72. 2) Buscamos n :
50n
3) Buscamos el número de clases k .
071,750 k 7
4) Buscamos la amplitud de la clase a .
371,27
19
7
5372
a
Construimos la tabla de distribución de frecuencias. ESTATURAS
if iX ih iF %ih iH %iH
[53-56) 2 54,5 0,04 2 4 0,04 4
[56-59) 5 57,5 0,1 7 10 0,14 14
[59-62) 9 60,5 0,18 16 18 0,32 32
[62-65) 15 63,5 0,3 31 30 0,62 62**
[65-68) 12 66,5 0,24 43 24* 0,86 86
[68-71) 5 69,5 0,1 48 10 0,96 96
[71-74) 2 72,5 0,04 50 4 1 100
TOTAL 50 1 50 100 1 100

Preparador: Eduardo Lakatos Contreras
11 Universidad Católica Andrés Bello Preparaduría Probabilidades y Estadísticas
Interpretación * El 24% de las obreras tienen una estatura mayor de 65 y menor de 68 pulgadas. ** El 62% de las obreras tienen una estatura menor de 65 pulgadas.
a. Media:
68,6350
3184
50
2*5,725*5,6912*5,6615*5,639*5,605*5,572*5,54
50
*50
1
i
i
i fX
x
Las obreras en promedio tienen una estatura de 63,68 pulgadas
b. Mediana
Calcular: 252
50
2
n
Como no se encuentra 25 en la frecuencia acumulada, se toma el inmediato superior, que en
este caso vendría siendo 31.
8,633*
15
162562
Me
El 50% de las obreras tienen una estatura igual o inferior a 63,68 aproximadamente.
c. Moda
643*
)1215()915(
91562
Mo
La mayoría de las obreras tienen una estatura de 64 pulgadas aproximadamente.
d. Recorrido
195372 XmínimoXmáximoR

Preparador: Eduardo Lakatos Contreras
12 Universidad Católica Andrés Bello Preparaduría Probabilidades y Estadísticas
e. Desviación típica o estándar
49
]2*)68,635,72[(]5*)68,635,69[(]12*)68,635,66[(
]15*)68,635,63[(]9*)68,635,60[(]5*)68,635,57[(]2*)68,635,54[(
222
2222
S
217,4783,1749
38,871S
f. Varianza
783,172 SV
4) (Prof. José Campos) La siguiente tabla representa la edad de los empleados que trabajan en cierta empresa:
Edad N° de Empleados 22-26) 12
26-30) 29
30-34) 27
34-38) 19
38-42) 16
42-46) 10
46-50) 7
Construimos la tabla de distribución de frecuencias.
Edad if iX ih iF %ih iH %iH
[22-26) 12 24 0,1 12 10 0,1 10
[26-30) 29 28 0,24 41 24 0,34 34
[30-34) 27 32 0,23 68 23 0,57 57
[34-38) 19 36 0,16 87 16 0,73 73
[38-42) 16 40 0,13 103 13 0,86 86
[42-46) 10 44 0,08 113 8 0,94 94
[46-50) 7 48 0,06 120 6 1 100
TOTAL 120 1 120 100 1 100

Preparador: Eduardo Lakatos Contreras
13 Universidad Católica Andrés Bello Preparaduría Probabilidades y Estadísticas
a. Edad más frecuente:
58,294*)2729()1229(
122926
Mo
b. La edad que se encuentra justo en el 50% de la distribución:
Calcular: 602
120
2
n
Como no se encuentra 60 en la frecuencia acumulada, se toma el inmediato superior, que en
este caso vendría siendo 68.
81,324*
27
416030
Me
c. La edad mínima del 40% entre los mayores:
Calculamos el 60P
72100
60*120
Como no se encuentra 72 en la frecuencia acumulada, se toma el inmediato superior, que en
este caso vendría siendo 87.
84,344*19
68100
60*120
3460
P
d. Porcentaje entre 28 y 40 años:
28pP 40pP
100*
*)(
n
Fa
flP
pa
iip
08,22100*120
124
29*)2628(
p
100*
*)(
n
Fa
flP
pa
iip
17,79100*120
874
16*)3840(
p

Preparador: Eduardo Lakatos Contreras
14 Universidad Católica Andrés Bello Preparaduría Probabilidades y Estadísticas
El porcentaje entre 28 y 40 años es: 07,5908,2217,79 R
e. Porcentaje entre sx : Media:
87,33120
4064
120
7*4810*4416*4019*3627*3229*2812*24
120
*120
1
i
i
i fX
x
Desviación típica o estándar:
119
]7*)87,3348[(]10*)87,3344[(]16*)87,3340[(
]19*)87,3336[(]27*)87,3332[(]29*)87,3328[(]12*)87,3324[(
222
2222
S
72,6159,45119
87,5373S
927,15;40,5:sx
15,27pP 59,40pP
100*
*)(
n
Fa
flP
pa
iip
95,16100*120
124
29*)2615,27(
p
100*
*)(
n
Fa
flP
pa
iip
13,81100*120
874
16*)3859,40(
p
El porcentaje sx es: 18,6495,1613,81 R
f. Calcule la curtosis e interprete:
El intervalo es 64,18% por lo que la distribución de los datos es platicúrica.

Preparador: Eduardo Lakatos Contreras
15 Universidad Católica Andrés Bello Preparaduría Probabilidades y Estadísticas
g. Calcule el coeficiente de asimetría e interprete:
47,072,6
)81,3287,33(*3)(*3
S
MedxSK
La asimetría es positiva, lo que quiere decir, sesgo a la derecha.
h. Histograma:
0
5
10
15
20
25
30
35
[22-26) [26-30) [30-34) [34-38) [38-42) [42-46) [46-50)