Estadística descriptiva

15

Click here to load reader

Transcript of Estadística descriptiva

Page 1: Estadística descriptiva

Preparador: Eduardo Lakatos Contreras

1 Universidad Católica Andrés Bello Preparaduría Probabilidades y Estadísticas

UNIVERSIDAD CATOLICA ANDRES BELLO

Urb. Montalbán – La Vega – Apartado 29068

Teléfono: 471-4148 Fax: 471-3043

Caracas, 1021 - Venezuela ___________

Facultad de Ingeniería

Escuela de Ingeniería Informática

-----------------------

ESTADÍSTICA DESCRIPTIVA

A continuación serán expuestas las definiciones y notaciones que vamos a utilizar en estadística descriptiva:

Frecuencia Absoluta: if

Frecuencia Relativa: ih

Frecuencia Relativa Porcentual: %ih

Frecuencia Acumulada: iF

Frecuencia Relativa Acumulada: iH

Frecuencia Porcentual Acumulada: %iH

Marca de Clase ( iX ): 2

riorLimiteSuperiorLimiteInfe

Amplitud de Clase ( a ): k

NM MáximoM , MínimoN

1) Número de Clases ( k ): nk n tamaño de la muestra

Observación: Esta regla es útil cuando 400n .

2) Número de Clases ( k ): )log(*322,31 n (Regla de Sturges)

3) Número de Clases ( k ): )2log(/)log(n

La estadística descriptiva se divide en tres partes que serán expuestas a continuación: Representación Grafica:

- Sectores Circulares. - Histograma. - Diagrama de Cajas. - Barras. - Puntos.

Page 2: Estadística descriptiva

Preparador: Eduardo Lakatos Contreras

2 Universidad Católica Andrés Bello Preparaduría Probabilidades y Estadísticas

Medidas de Tendencia Central: Son un número entorno a que valor está concentrado el resto de la muestra.

- Media Aritmética. - Moda: Es la variable de la muestra que más se repite. - Mediana: Es el valor que divide el conjunto de datos ordenados en dos partes

iguales. Medidas de Dispersión: Cuan disperso están los valores.

- Recorrido. - Desviación Estándar. - Varianza.

Medidas de Posición: Dividen la muestra en distintas partes iguales.

- Cuartiles: Dividen el conjunto de datos ordenados en 4 partes iguales. - Deciles: Dividen el conjunto de datos ordenados en 10 partes iguales. - Percentiles: Dividen el conjunto de datos ordenados en 100 partes iguales.

Fórmulas de Medidas de Tendencia Central: Media Aritmética:

x Cuando sea para una muestra. Cuando sea para una población.

Datos no Agrupados Datos Agrupados

n

XXXX

n

X

x n

n

i

i

...3211

N

XN

i

i 1

n

fXfXfX

n

fX

x nn

i

n

i

i*...**

*22111

iX : Marcas de Clases.

if : Frecuencias absolutas.

Moda: Es el valor que más se repite en un grupo de números dentro de una muestra.

Datos no Agrupados Datos Agrupados No existe fórmula para datos no agrupados, lo único que hay que hacer es tomar la variable

con el valor que más se repite.

Los pasos son:

1. Ubicar la mayor if , para hallar el

intervalo modal

Page 3: Estadística descriptiva

Preparador: Eduardo Lakatos Contreras

3 Universidad Católica Andrés Bello Preparaduría Probabilidades y Estadísticas

2. Aplicar la fórmula

alMosi

ii *

il : Límite inferior.

i : Es el valor que se obtiene de restar la

alfmod con la frecuencia anterior.

s : Es el valor que se obtiene de restar la

alfmod con la frecuencia siguiente.

a : Amplitud de Clase.

Consideraciones:

- Puede haber más de una moda cuando dos o más números se repiten la misma cantidad de veces. En este caso se estaría hablando de una muestra multi-modal.

- No hay moda si ningún número se repite más de una vez. Mediana:

Datos no Agrupados Datos Agrupados El valor de la mediana puede coincidir o no

con un valor de la muestra, todo depende si el número de datos es par o impar.

Los pasos son:

1. Organizar en orden ascendente los datos.

2. Si el número de datos es impar,

utilizamos la siguiente fórmula: 2

1n

Si el número de datos es par, la mediana será el promedio aritmético de los dos valores que se encuentran en la mitad de la muestra.

Los pasos son:

3. Calcular: 2

n

4. Localizar ese valor en iF , si no está

pasar al inmediato superior, con esto se haya el intervalo de la mediana.

5. Aplicar la formula sustituyendo los valores correspondientes.

af

Fn

lMemed

a

i *2

il : Límite inferior.

aF : Frecuencia acumulada anterior.

medf : Frecuencia absoluta del intervalo de la

mediana. a : Amplitud de Clase.

Fórmulas de Medidas de Dispersión: Recorrido: Es la diferencia entre el valor más alto y el más bajo observado.

Page 4: Estadística descriptiva

Preparador: Eduardo Lakatos Contreras

4 Universidad Católica Andrés Bello Preparaduría Probabilidades y Estadísticas

XmínimoXmáximoR Desviación típica o estándar: Se define como la raíz cuadrada positiva de la varianza. S Cuando sea para una muestra. Cuando sea para una población.

Datos no Agrupados Datos Agrupados

1

)(1

2

n

XX

S

n

i

i

N

XN

i

i

1

2)(

1

*)(1

2

n

fXX

S

n

i

ii

N

fXN

i

ii

1

2 *)(

Consideraciones:

- La desviación típica de una constante es cero. - Siempre es una cantidad positiva. - La desviación típica del producto de una constante por una variable es igual al

producto de la constante por la desviación típica de la variable. Varianza: Es la medida del cuadrado de la distancia promedio entre la media y cada elemento de la población.

2S Cuando sea para una muestra.

2 Cuando sea para una población.

Datos no Agrupados Datos Agrupados

1

)(1

2

2

n

XX

S

n

i

i

N

XN

i

i

1

2

2

)(

1

*)(1

2

2

n

fXX

S

n

i

ii

N

fXN

i

ii

1

2

2

*)(

Consideraciones:

- Cuando deseamos estimar la varianza de una población, a partir de una muestra, el error cometido es mucho menor si lo dividimos entre 1n y no n .

Page 5: Estadística descriptiva

Preparador: Eduardo Lakatos Contreras

5 Universidad Católica Andrés Bello Preparaduría Probabilidades y Estadísticas

Fórmulas de Medidas de Posición:

5052 PDQMEDIANA

Anteriormente observamos la mediana con su respectiva medida de posición. Además podemos denotar otros tipos de igualdades entre las diferentes medidas de posición: Cuartiles = Percentiles

753

251

PQ

PQ

Deciles = Percentiles

404

303

202

101

PD

PD

PD

PD

909

808

707

606

PD

PD

PD

PD

Datos no Agrupados Datos Agrupados Los pasos son:

1. Organizar en orden ascendente los datos.

2. Calcular el índice “i”:

np

i *100

p : Percentil que queremos hallar.

n : Tamaño de la muestra.

- Si “i” es entero el percentil es el promedio de los valores de los datos ubicados en los lugares “i” e “i+1”.

- Si “i” no es entero el percentil se redondea al valor entero inmediato superior.

Los pasos son:

1. Ubicar el resultado de 100

* pn en iF

2. Si no está el valor, se pasa al inmediato superior.

3. Al ubicar el valor de iF determinamos

el valor de donde se obtendrán los datos para sustituir en la ecuación.

4. Aplicamos la fórmula:

af

Fpn

lPp

a

ip *100

*

il : Límite inferior.

aF : Frecuencia acumulada anterior.

p : Percentil que queremos hallar.

n : Tamaño de la muestra. a : Amplitud de Clase.

pf : Frecuencia Absoluta del intervalo.

Page 6: Estadística descriptiva

Preparador: Eduardo Lakatos Contreras

6 Universidad Católica Andrés Bello Preparaduría Probabilidades y Estadísticas

PROBLEMAS Debemos destacar que los problemas expuestos en esta sección son sacados de libros, guías, internet o cualquier otra herramienta bibliográfica. Tabla de distribución de frecuencias para datos sin agrupar: 1) (Prof. José Campos) Si en un examen de base de datos las notas fueron 7, 7, 7, 8, 9, 9, 9, 10, 10, 11, 11, 11, 11, 12, 12, 14. Construimos la tabla de distribución de frecuencias.

NOTAS Frecuencia Absoluta

Frecuencia Relativa

Frecuencia Acumulada

Frecuencia Relativa

Porcentual

Frecuencia Relativa

Acumulada

Frecuencia Porcentual Acumulada

7 3 3/16 =0,19 3 19 0,19 19

8 1 1/16 =0,06 4 6 0,25 25

9 3 3/16 =0,19 7 19 0,44 44

10 2 2/16 =0,125 9 12,5 0,565 56,5

11 4 4/16 =0,25 13 25 0,815 81,5

12 2 2/16 =0,125 15 12,5 0,94 94

14 1 1/16 =0,06 16 6 1 100

TOTAL 16 1 16 100 1 100

Cálculo de Medidas de Tendencia Central para datos sin agrupar:

a. Media:

88,916

158

16

16

1412121111111110109998777

16

16

1

16

1

i

i

i

i

X

x

X

x

b. Mediana

Par.- 102

1010

22

981

22

XX

XX

Me

nn

Page 7: Estadística descriptiva

Preparador: Eduardo Lakatos Contreras

7 Universidad Católica Andrés Bello Preparaduría Probabilidades y Estadísticas

c. Moda La moda es: 11Mo Cálculo de Medidas de Dispersión para datos sin agrupar:

a. Recorrido

7714 XmínimoXmáximoR

b. Desviación típica o estándar

029,2116,415

74,61

15

97,1699,802,503,032,253,388,24

15

)88,914()88,912(*2[

])88,911(*4[])88,910(*2[])88,99(*3[)88,98(])88,97(*3[

1

)(

22

22222

1

2

S

S

n

XX

S

n

i

i

c. Varianza

116,42 SV

Tabla de distribución de frecuencias para datos agrupados: 2) (Prof. José Campos) Si en un examen de base de datos las notas fueron 7, 7, 7, 8, 9, 9, 9, 10, 10, 11, 11, 11, 11, 12, 12, 14.

- Para construir la tabla de distribución de frecuencias (datos agrupados):

1) Ordeno los datos en forma ascendente. 2) Busco n . 3) Busco el número de clases k .

Page 8: Estadística descriptiva

Preparador: Eduardo Lakatos Contreras

8 Universidad Católica Andrés Bello Preparaduría Probabilidades y Estadísticas

4) Busco la amplitud de la clase a .

1) Ordeno los datos en forma ascendente: 7, 7, 7, 8, 9, 9, 9, 10, 10, 11, 11, 11, 11, 12, 12, 14. 2) Buscamos n :

16n

3) Buscamos el número de clases k .

416 k

4) Buscamos la amplitud de la clase a .

275,14

7

4

714

a

Construimos la tabla de distribución de frecuencias.

NOTAS Frecuencia Absoluta

Marca de Clase

Frecuencia Relativa

Frecuencia Acumulada

Frecuencia Relativa

Porcentual

Frecuencia Relativa

Acumulada

Frecuencia Porcentual Acumulada

[7-9) 4 8 4/16 = 0,25 4 25 0,25 25

[9-11) 5 10 5/16 = 0,31 9 31 0,56 56

[11-13) 6 12 6/16 = 0,38 15 38 0,94 94

[13-15) 1 14 1/16 = 0,06 16 6 1 100

TOTAL 16 1 16 100 1 100

Cálculo de Medidas de Tendencia Central para datos agrupados:

a. Media:

5,1016

168

16

14*16*125*104*8

16

*16

1

i

i

i fX

x

El valor anterior es un estimado de la media ya que al agrupar las clases no conocemos el verdadero valor de cada individuo de la muestra, se renuncia a la exactitud por la comodidad de los cálculos.

b. Mediana

Page 9: Estadística descriptiva

Preparador: Eduardo Lakatos Contreras

9 Universidad Católica Andrés Bello Preparaduría Probabilidades y Estadísticas

Calcular: 82

16

2

n

Como no se encuentra 8 en la frecuencia acumulada, se toma el inmediato superior, que en este

caso vendría siendo 9.

6,102*

5

489

Me

c. Moda

333,112*

)16()56(

5611

Mo

Cálculo de Medidas de Dispersión para datos agrupados:

a. Recorrido

7714 XmínimoXmáximoR

b. Desviación típica o estándar

862,1467,315

52

15

25,125,1325,125

15

]1*)5,1014[(]6*)5,1012[(]5*)5,1010[(]4*)5,108[(

1

*)(

2222

1

2

S

S

n

fXX

S

n

i

ii

c. Varianza

467,32 SV

3) (Prof. José Campos) Un investigador desea determinar cómo varían las estaturas de las obreras de una empresa y toma una muestra de 50 mujeres para registrar luego sus estaturas en pulgadas. Los datos obtenidos fueron los siguientes:

Page 10: Estadística descriptiva

Preparador: Eduardo Lakatos Contreras

10 Universidad Católica Andrés Bello Preparaduría Probabilidades y Estadísticas

65 63 65 63 69 67 53 58 60 61

64 65 64 72 68 66 55 57 60 62

64 65 64 71 68 66 56 59 61 62

63 65 63 70 67 66 57 59 61 62

64 64 63 69 67 66 58 60 61 62

- Para construir la tabla de distribución de frecuencias (datos agrupados):

5) Ordeno los datos en forma ascendente. 6) Busco n . 7) Busco el número de clases k .

8) Busco la amplitud de la clase a .

1) Ordeno los datos en forma ascendente: 53, 55, 56, 57, 57, 58, 58, 59, 59, 60, 60, 60, 61, 61, 61, 61, 62, 62, 62, 62, 63, 63, 63, 63, 63, 64, 64, 64, 64, 64, 64, 65, 65, 65, 65, 65, 66, 66, 66, 66, 67, 67, 67, 68, 68, 69, 69, 70, 71, 72. 2) Buscamos n :

50n

3) Buscamos el número de clases k .

071,750 k 7

4) Buscamos la amplitud de la clase a .

371,27

19

7

5372

a

Construimos la tabla de distribución de frecuencias. ESTATURAS

if iX ih iF %ih iH %iH

[53-56) 2 54,5 0,04 2 4 0,04 4

[56-59) 5 57,5 0,1 7 10 0,14 14

[59-62) 9 60,5 0,18 16 18 0,32 32

[62-65) 15 63,5 0,3 31 30 0,62 62**

[65-68) 12 66,5 0,24 43 24* 0,86 86

[68-71) 5 69,5 0,1 48 10 0,96 96

[71-74) 2 72,5 0,04 50 4 1 100

TOTAL 50 1 50 100 1 100

Page 11: Estadística descriptiva

Preparador: Eduardo Lakatos Contreras

11 Universidad Católica Andrés Bello Preparaduría Probabilidades y Estadísticas

Interpretación * El 24% de las obreras tienen una estatura mayor de 65 y menor de 68 pulgadas. ** El 62% de las obreras tienen una estatura menor de 65 pulgadas.

a. Media:

68,6350

3184

50

2*5,725*5,6912*5,6615*5,639*5,605*5,572*5,54

50

*50

1

i

i

i fX

x

Las obreras en promedio tienen una estatura de 63,68 pulgadas

b. Mediana

Calcular: 252

50

2

n

Como no se encuentra 25 en la frecuencia acumulada, se toma el inmediato superior, que en

este caso vendría siendo 31.

8,633*

15

162562

Me

El 50% de las obreras tienen una estatura igual o inferior a 63,68 aproximadamente.

c. Moda

643*

)1215()915(

91562

Mo

La mayoría de las obreras tienen una estatura de 64 pulgadas aproximadamente.

d. Recorrido

195372 XmínimoXmáximoR

Page 12: Estadística descriptiva

Preparador: Eduardo Lakatos Contreras

12 Universidad Católica Andrés Bello Preparaduría Probabilidades y Estadísticas

e. Desviación típica o estándar

49

]2*)68,635,72[(]5*)68,635,69[(]12*)68,635,66[(

]15*)68,635,63[(]9*)68,635,60[(]5*)68,635,57[(]2*)68,635,54[(

222

2222

S

217,4783,1749

38,871S

f. Varianza

783,172 SV

4) (Prof. José Campos) La siguiente tabla representa la edad de los empleados que trabajan en cierta empresa:

Edad N° de Empleados 22-26) 12

26-30) 29

30-34) 27

34-38) 19

38-42) 16

42-46) 10

46-50) 7

Construimos la tabla de distribución de frecuencias.

Edad if iX ih iF %ih iH %iH

[22-26) 12 24 0,1 12 10 0,1 10

[26-30) 29 28 0,24 41 24 0,34 34

[30-34) 27 32 0,23 68 23 0,57 57

[34-38) 19 36 0,16 87 16 0,73 73

[38-42) 16 40 0,13 103 13 0,86 86

[42-46) 10 44 0,08 113 8 0,94 94

[46-50) 7 48 0,06 120 6 1 100

TOTAL 120 1 120 100 1 100

Page 13: Estadística descriptiva

Preparador: Eduardo Lakatos Contreras

13 Universidad Católica Andrés Bello Preparaduría Probabilidades y Estadísticas

a. Edad más frecuente:

58,294*)2729()1229(

122926

Mo

b. La edad que se encuentra justo en el 50% de la distribución:

Calcular: 602

120

2

n

Como no se encuentra 60 en la frecuencia acumulada, se toma el inmediato superior, que en

este caso vendría siendo 68.

81,324*

27

416030

Me

c. La edad mínima del 40% entre los mayores:

Calculamos el 60P

72100

60*120

Como no se encuentra 72 en la frecuencia acumulada, se toma el inmediato superior, que en

este caso vendría siendo 87.

84,344*19

68100

60*120

3460

P

d. Porcentaje entre 28 y 40 años:

28pP 40pP

100*

*)(

n

Fa

flP

pa

iip

08,22100*120

124

29*)2628(

p

100*

*)(

n

Fa

flP

pa

iip

17,79100*120

874

16*)3840(

p

Page 14: Estadística descriptiva

Preparador: Eduardo Lakatos Contreras

14 Universidad Católica Andrés Bello Preparaduría Probabilidades y Estadísticas

El porcentaje entre 28 y 40 años es: 07,5908,2217,79 R

e. Porcentaje entre sx : Media:

87,33120

4064

120

7*4810*4416*4019*3627*3229*2812*24

120

*120

1

i

i

i fX

x

Desviación típica o estándar:

119

]7*)87,3348[(]10*)87,3344[(]16*)87,3340[(

]19*)87,3336[(]27*)87,3332[(]29*)87,3328[(]12*)87,3324[(

222

2222

S

72,6159,45119

87,5373S

927,15;40,5:sx

15,27pP 59,40pP

100*

*)(

n

Fa

flP

pa

iip

95,16100*120

124

29*)2615,27(

p

100*

*)(

n

Fa

flP

pa

iip

13,81100*120

874

16*)3859,40(

p

El porcentaje sx es: 18,6495,1613,81 R

f. Calcule la curtosis e interprete:

El intervalo es 64,18% por lo que la distribución de los datos es platicúrica.

Page 15: Estadística descriptiva

Preparador: Eduardo Lakatos Contreras

15 Universidad Católica Andrés Bello Preparaduría Probabilidades y Estadísticas

g. Calcule el coeficiente de asimetría e interprete:

47,072,6

)81,3287,33(*3)(*3

S

MedxSK

La asimetría es positiva, lo que quiere decir, sesgo a la derecha.

h. Histograma:

0

5

10

15

20

25

30

35

[22-26) [26-30) [30-34) [34-38) [38-42) [42-46) [46-50)