Estadística descrptiva

53
Estadística descriptiva

description

 

Transcript of Estadística descrptiva

Page 1: Estadística descrptiva

Estadística descriptiva

Page 2: Estadística descrptiva

La mayor parte de la información

estadística que aparece en los diarios,

revistas, informes de compañías y demás

publicaciones consiste en datos resumidos

y presentados en forma comprensible para

el lector. Esos resúmenes de datos, que

pueden ser tabulares, gráficos o numéricos

se llaman estadísticas descriptivas.

Page 3: Estadística descrptiva

Ejemplo

En la tabla 1.4 hay un resumen tabular de los datos de la variable

cualitativa bolsa. En la figura 1.5 se representa un resumen de los

mismos datos conocidos como gráfica de barras. El objeto de los

resúmenes tabulares y gráficos como éstos es facilitar la

interpretación de los datos. Si se observa la tabla 1.4 o la figura 1.5

se puede percibir con facilidad que la mayoría de las acciones se

negocian en ventanilla, 24% en American Stock Exchange (AMEX)

y sólo 20% en la bolsa de valores de Nueva York (NYSE)

Page 4: Estadística descrptiva

Bolsa Frecuencia Porcentaje

NYSE 5 20

AMEX 6 24

OTC 14 56

Total 25 100

Tabla 1.4: Frecuencias y frecuencias

porcentuales para la variable bolsa

Page 5: Estadística descrptiva

Figura 1.5: Gráfica de barras para la variable bolsa

Bolsa

po

rce

nta

je

OTCAMEXNYSE

60

50

40

30

20

10

0

Gráfica de barras para la variable bolsa

Page 6: Estadística descrptiva

Inferencia estadística

Page 7: Estadística descrptiva

Uno de los mayores aportes de la

estadística es que los datos de una

muestra pueden emplearse para

elaborar estimaciones y probar

hipótesis acerca de las

características de una población. A

este proceso se le denomina

inferencia estadística.

Page 8: Estadística descrptiva

Población

Una población es el conjunto de todos los elementos de interés

en determinado estudio.

Muestra

Una muestra es un subconjunto de la población

Page 9: Estadística descrptiva

Ejemplo de inferencia estadística

Page 10: Estadística descrptiva

Veamos el estudio de Norris Electronics. Esta empresa

fabrica una bombilla de gran intensidad, que se

emplea en varios productos eléctricos. Al tratar de

aumentar la vida útil de sus bombillas, los diseñadores

del producto desarrollaron un nuevo filamento. En este

caso, se define la población como todas las bombillas

que se pueden producir con el nuevo filamento. Para

evaluar las ventajas del producto mejorado se

fabricaron y se puso a prueba una muestra de 200

bombillas con el nuevo filamento. Se reunieron los

datos sobre la cantidad de horas que funcionó cada

uno de ellos hasta fundirse.

Page 11: Estadística descrptiva

Suponga que a Norris le interesa usar los mismos

datos para hacer una inferencia acerca de las horas

promedio de vida útil para la población de todas las

bombillas que se puedan producir con el nuevo

filamento. Al sumar los 200 valores y dividir el total

entre 200 se determina la vida media para la

muestra: 76 horas. Podemos usar este resultado para

estimar que la vida promedio de las bombillas es 76

horas

Page 12: Estadística descrptiva

La siguiente figura es un resumen gráfico del

proceso de inferencia estadística en el caso

de Norris Electronics

Page 13: Estadística descrptiva

Proceso de inferencia estadística en el ejemplo de Norris Electronics

1. La población es

igual a todas las

bombillas

fabricadas con el

nuevo filamento. Se

desconoce la

duración promedio

2. Se fabrica una

muestra de 200

bombillas con el nuevo

filamento

3.El resumen de los datos de

la muestra da como

resultado una duración

promedio de 76 horas por

bombilla

4.4 El valor del promedio de

la muestra se emplea para

estimar el promedio de la

población

Page 14: Estadística descrptiva

Resumen de datos cualitativos

Page 15: Estadística descrptiva

Primero describiremos cómo se pueden

emplear métodos tabulares y gráficos para

resumir datos cualitativos a partir de la

definición de distribución de frecuencias

Page 16: Estadística descrptiva

Distribución de frecuencias

Una distribución de frecuencias es un

resumen tabular de un conjunto de

datos que muestra el número

(frecuencia) de artículos en cada una

de varias clases que no se traslapan.

Page 17: Estadística descrptiva

Ejemplo

Suponga que se tiene un resumen de

cómo se distribuyen las 50 compras

de una bebida carbonatada. Mediante

este resumen se tiene una visión más

clara de las preferencias

Page 18: Estadística descrptiva

Distribución de frecuencias de compras de

bebidas carbonatadas

Marca Frecuencia

Coke Classic 19

Diet Coke 8

Dr. Pepper 5

Pepsi-Cola 13

Sprite 5

Total 50

Page 19: Estadística descrptiva

Distribución de frecuencias

relativas

La frecuencia relativa de una clase es la

fracción o proporción de elementos que

pertenecen a esa clase. Para un conjunto de

datos con n observaciones, la frecuencia

relativa de cada clase es como sigue:

Page 20: Estadística descrptiva

n

claseladeFrecuenciaclaseunaderelativaFrecuencia

Page 21: Estadística descrptiva

Frecuencia porcentual

Es la frecuencia relativa multiplicada

por 100

Page 22: Estadística descrptiva

Distribuciones de frecuencias relativas y procentuales de

compras de bebidas carbonatadas

Marca

Frecuencia

relativa

Frecuencia

porcentual

Coke Classic 0.38 38

Diet Coke 0.16 16

Dr. Pepper 0.10 10

Pepsi-Cola 0.26 26

Sprite 0.10 10

Total 1.00 100

Page 23: Estadística descrptiva

Gráficas de barras

Es una forma gráfica de representar datos cualitativos que se han

resumido en una distribución de frecuencias, de frecuencias

relativas o de porcentuales. En uno de los ejes de la gráfica (por lo

común el eje horizontal), especificamos las etiquetas que se utilizan

para las clases (categorías) de los datos. Para el otro eje de la

gráfica (por lo general el eje vertical), se puede usar una escala de

frecuencias, de frecuencias relativas o de frecuencias

porcentuales. Entonces, con una barra de un ancho fijo trazada

sobre cada indicador de clase llegamos a la altura que

corresponda a la frecuencia, a la frecuencia relativa o a la

porcentual de la clase. Para los datos cualitativos, las barras deben

estar separadas para enfatizar el hecho de que cada clase

(categoría) es separada

Page 24: Estadística descrptiva

Marca

Fre

cu

en

cia

re

lati

va

SpritePepsi ColaDr. PepperDiet CokeCoke Classic

0,4

0,3

0,2

0,1

0,0

Gráfica de Barras de las frecuencias relativaspara las 50 compras de refresco

Page 25: Estadística descrptiva

Diagrama de pastel

Es otra forma de representar las distribuciones

de frecuencias relativas y de frecuencias

porcentuales. En la construcción de un

diagrama de pastel primero se traza un círculo

para representar todos los datos. A

continuación, con las frecuencias relativas, se

divide el círculo en sectores o partes, que

corresponden a la frecuencia relativa de cada

clase

Page 26: Estadística descrptiva

Ejemplo

Como hay 360 grados en un círculo, y como Coke

Classic tiene 0.38 de frecuencia relativa, el sector de la

gráfica de pastel que le corresponde debe tener

0.38(360) = 136.8 grados. El sector del diagrama

etiquetado como Diet Coke consiste en 0.16(360) = 57.6

grados. Se efectúan cálculos semejantes para las

demás clases, obteniéndose el diagrama de pastel

correspondiente. Los valores numéricos que se ven en

cada sector pueden ser frecuencias, frecuencias

relativas o frecuencias porcentuales

Page 27: Estadística descrptiva

Category

0,10

0,26

0,36

0,38

Diagrama de pastel de las frecuencias relativaspara las 50 compras de refresco

Page 28: Estadística descrptiva

Resumen de datos

cuantitativos

Page 29: Estadística descrptiva

Distribución de frecuencias

Como ya hemos señalado anteriormente, una

distribución de frecuencias es un resumen tabular que

muestra el número (frecuencia) de elementos en cada

una de varias clases que no se traslapan. Esta

definición es válida para datos cuantitativos y

cualitativos. Sin embargo, debemos tener más cuidado

con los datos cuantitativos al definir las clases no

traslapantes que se usan en la distribución de

frecuencias.

Page 30: Estadística descrptiva

Ejemplo

Veamos los datos cuantitativos de la

siguiente tabla. Estos muestran el tiempo

requerido, en días, para terminar

auditorías de fin de año en una muestra

de 20 clientes de Sanderson y Clifford,

pequeño bufete de contadores públicos

Page 31: Estadística descrptiva

Tiempo de auditorias de fin de año (días)

12 14

19

18

15 15

18

17

20 27

22

23

22 21

33

28

14 18

16

13

Page 32: Estadística descrptiva

Los tres pasos necesarios para definir las clases en

una distribución de frecuencias con datos cuantitativos

son:

1.-Determinar la cantidad de clases no traslapantes.

2.- Determinar el ancho de cada clase.

3.-Determinar los límites de clase.

Page 33: Estadística descrptiva

Número de clases

Las clases se forman al especificar los intervalos que se utilizarán

para agrupar los datos. Como regla general, se recomienda usar

entre 5 y 20 clases. Para un número pequeño de elementos, se

podrían usar cinco o seis clases para resumir los datos. Para una

cantidad más grande de elementos se requiere un número mayor

de clases. El propósito es emplear suficientes clases para mostrar

la variación de los datos, pero no tantas que varias contendrían

unos cuantos elementos. Debido a que el número de elementos

en la tabla es relativamente pequeño (n = 20), optaremos por

formar una distribución de frecuencias con cinco clases.

Page 34: Estadística descrptiva

Ancho de clase

El segundo paso en la formación de una distribución

de frecuencias para datos cuantitativos es elegir un

ancho de las clases. Como regla general

recomendamos igual ancho para todas las clases. Así,

las opciones de la cantidad de clases y el ancho de

ellas no son decisiones independientes. Una mayor

cantidad de clases se traduce en un menor ancho de

clase, y viceversa.

Page 35: Estadística descrptiva

Para determinar un ancho aproximado de

clase se comienza por identificar los valores

máximo y mínimo. Una vez especificada la

cantidad deseada de clases, podemos aplicar

la siguiente ecuación para determinar el ancho

aproximado de clase:

Page 36: Estadística descrptiva

clasesdeCantidad

datoslosenmínimovalordatoslosenmáximovalorclasedeaproximadoAncho

El ancho de clase obtenido con la ecuación puede

ajustarse a un valor conveniente con base en la

preferencia de quien desarrolla la distribución de

frecuencias. Por ejemplo, un ancho de clase calculado

de 9.28 se podría ajustar a 10, simplemente porque 10

es un valor más conveniente para trazar y representar

una distribución de frecuencias.

Page 37: Estadística descrptiva

Para el conjunto de datos de los tiempos de

auditoría, el valor máximo es 33 y el mínimo es

12. Como hemos decidido resumir ese conjunto

con cinco clases, al aplicar la ecuación se

obtiene un ancho aproximado de clase de (33-

12)/5 = 4.2. En consecuencia, optamos por usar

un ancho de clase de cinco para la distribución

de frecuencias.

Page 38: Estadística descrptiva

Límites de clase

Se deben escoger los límites de clase de tal

manera que cada valor de dato pertenezca a una

clase y sólo una. El límite inferior de clase es el

valor mínimo posible de los datos que se asignan

a la clase. El límite superior de clase es el valor

máximo posible de los datos que se asignan a la

clase.

Page 39: Estadística descrptiva

Para los datos de tiempo de auditoría definimos los

límites de clase como 10-14; 15-19; 20-24; 25-29 y 30-

34. El valor mínimo de los datos que es 12, se incluye

en la clase de 10-14, 10 es el límite inferior de clase y

14 es el límite superior. La diferencia entre los límites

inferiores de clase adyacentes es igual al ancho de

clase. Al usar los primeros límites inferiores de clase,

que son 10 y 15, vemos que el ancho de clase es 15-10

= 5.

Page 40: Estadística descrptiva

Una vez determinada la cantidad de clases, el

ancho de clase y los límites de clase, se puede

obtener la distribución de frecuencias

contando la cantidad de datos que pertenecen

a cada clase. En la siguiente tabla se

presentan estos datos:

Page 41: Estadística descrptiva

Tiempo de auditoría (días) Frecuencia

10-14 4

15-19 8

20-24 5

25-29 2

30-34 1

Total 20

En la tabla vemos que:

1.- Las duraciones más frecuentes de auditoría están en la clase de

15 a 19 días. Ocho de los 20 tiempos de auditoría pertenecen a esa

clase.

2.- Sólo una auditoría requirió de 30 días o más.

Page 42: Estadística descrptiva

Punto medio de clase O MARCA DE CLASE

Este punto medio de clase es el valor

promedio entre los límites inferior y superior de

clase. Para los datos de tiempo de auditoría, los

puntos medios de las cinco clases son 12, 17,

22, 27 y 32.

Page 43: Estadística descrptiva

Distribuciones de frecuencias relativas

Recordamos que la frecuencia relativa simplemente

es la proporción de la cantidad total de artículos que

pertenece a una clase. Con n observaciones:

n

clasedeFrecuenciaclasederelativaFrecuencia

Page 44: Estadística descrptiva

Frecuencia porcentual

Es la frecuencia relativa multiplicada por 100

Tiempo de auditoría

(días)

Frecuencia

relativa

Frecuencia

porcentual

10-14 0.20 20

15-19 0.40 40

20-24 0.25 25

25-29 0.10 10

30-34 0.05 5

Total 1.00 100

Observe que 0.40, o 40% de las auditorías requirieron de 15 a 19 días.

Sólo el 0.05 o 5%, requirió de 30 o más días. Hay otras interpretaciones

que también se pueden obtener revisando la tabla.

Page 45: Estadística descrptiva

Gráfica de puntos

Uno de los gráficos más sencillos para los

datos es una gráfica de puntos. Un eje

horizontal muestra el intervalo de los valores

para los datos. A continuación, el valor de

cada dato se representa con un punto

colocado sobre el eje.

Page 46: Estadística descrptiva

Tiempo de auditoría

3330272421181512

Grífica de puntospara los tiempos de auditoría

En la gráfica: los tres puntos localizados arriba de

18 en el eje horizontal indican que hay tres

observaciones con un valor de 18. Las gráficas de

puntos muestran los detalles de los datos, y son

útiles para comparar la distribución de los datos

para dos o más variables.

Page 47: Estadística descrptiva

Histogramas

Otra representación gráfica común de datos cuantitativos

es el histograma. Este resumen gráfico se puede

preparar con datos que se han resumido anteriormente

en una distribución de frecuencias, de frecuencias

relativas o de frecuencias porcentuales. Un histograma

se traza colocando la variable de interés sobre el eje

horizontal y la frecuencia, la frecuencia relativa o la

frecuencia porcentual en el eje vertical. Cada frecuencia

de clase se representa trazando un rectángulo cuya

base es el intervalo de clase sobre el eje horizontal, y

cuya altura es la frecuencia correspondiente. Los

rectángulos adyacentes de un histograma se tocan entre

Page 48: Estadística descrptiva

Como los límites de clase de los datos de tiempo de

auditoría se definieron como 10 a 14, 15 a 19, 20 a

24, 25 a 29 y de 30 a 34, parece haber intervalos de

una unidad, de 14 a 15, de 19 a 20, de 24 a 25 y de

29 a 30 entre las clases. Esos espacios se eliminan

trazando las líneas verticales del histograma a medio

camino entre los límites de clase. Las líneas verticales

que separan las clases en el histograma están en los

valores 9.5, 14.5, 19.5, 24.5, 29.5 y 34.5. Este

pequeño ajuste para eliminar los espacios entre las

clases ayuda a mostrar que, aunque los datos están

redondeados, son posibles todos los valores entre el

límite inferior de la primera clase y el límite superior

de la última.

Page 49: Estadística descrptiva

Tiempo

Fre

qu

en

cy

353025201510

9

8

7

6

5

4

3

2

1

0

1

2

5

8

4

Histograma del tiempo de auditoría de fin de año

Page 50: Estadística descrptiva

Distribuciones acumuladas

Una variación de la distribución de frecuencias, que

proporciona otro resumen tabular de datos

cuantitativos, es la distribución de frecuencias

acumuladas. En ella se usa el número de clases,

anchos de clase y límites de clase que fueron definidos

para la distribución de frecuencias. Sin embargo, más

que mostrar la frecuencia de cada clase, la distribución

de frecuencias acumuladas muestra la cantidad de

elementos con valores menores que, o iguales al

límite superior de clase para cada clase.

Page 51: Estadística descrptiva

Las dos primeras columnas de la siguiente tabla,

muestran la distribución de frecuencias acumuladas de

los datos de tiempo de auditoría.

Tiempo de auditoría

(días)

Frecuencia

acumulada

Frecuencia relativa

acumulada

Frecuencia porcentual

acumulada

Menor que o igual a 14 4

0.20

20

Menor que o igual a 19 12

0.60

60

Menor que o igual a 24 17

0.85

85

Menor que o igual a 29 19

0.95

95

Menor que o igual a 34 20

1.00

100

Se puede interpretar en la tabla, que se terminaron cuatro

auditorías en 14 días o menos, y que 19 auditorías se

terminaron en 29 días o menos

Page 52: Estadística descrptiva

Ojiva

Una gráfica de una distribución acumulada se

llama ojiva. Los valores de los datos están en el

eje horizontal y las frecuencias acumuladas,

frecuencias relativas acumuladas o frecuencias

porcentuales acumuladas se muestran en el eje

vertical.

Page 53: Estadística descrptiva

Tiempo (días)

Fre

cu

en

cia

acu

mu

lad

a

3530252015

20,0

17,5

15,0

12,5

10,0

7,5

5,0

Ojiva de la distribución acumulada del tiempo de auditoría