Estadistic descriptiva

17
3.2 Descripción de datos: Datos agrupados y no agrupados, TEORÍA DE DECISIÓN Estudio formal sobre la toma de decisiones. Los estudios de casos reales, que se sirven de la inspección y los experimentos, se denominan teoría descriptiva de decisión; los estudios de la toma de decisiones racionales, que utilizan la lógica y la estadística, se llaman teoría preceptiva de decisión. Estos estudios se hacen más complicados cuando hay más de un individuo, cuando los resultados de diversas opciones no se conocen con exactitud y cuando las probabilidades de los distintos resultados son desconocidas. La teoría de decisión comparte características con la teoría de juegos, aunque en la teoría de decisión el "adversario" es la realidad en vez de otro jugador o jugadores. La Estadística descriptiva es una parte de la estadística que se dedica a analizar y representar los datos. Este análisis es muy básico, pero fundamental en todo estudio. Aunque hay tendencia a generalizar a toda la población las primeras conclusiones obtenidas tras un análisis descriptivo, su poder inferencia es mínimo y debería evitarse tal proceder. Otras ramas de la estadística se centran en el contraste de hipótesis y su generalización a la población. Algunas de las técnicas empleadas en este primer análisis de los datos se enumeran más abajo en el listado de conceptos básicos. Básicamente, se lleva a cabo un estudio calculando una serie de medidas de tendencia central, para ver en qué medida los datos se agrupan o dispersan en torno a un valor central. DATOS AGRUPADOS Y NO AGRUPADOS Cuando la muestra que se ha tomado de la población o proceso que se desea analizar, es decir, tenemos menos de 20 elementos en la muestra, entonces estos datos son analizados sin necesidad de formar clases con ellos y a esto es a lo que se le llama tratamiento de datos no agrupados. Cuando la muestra consta de 30 o más datos, lo aconsejable es agrupar los datos en clases y a partir de estas determinar las características de la muestra y por consiguiente las de la población de donde fue tomada. Antes de pasar a definir cuál es la manera de determinar las características de interés (media, mediana, moda, etc.) cuando se han agrupado en clases los datos de la muestra, es necesario que sepamos cómo se agrupan los datos. Conceptos Estadísticos Población. Es el total de datos sobre los cuales vamos a tomar una decisión, basados en una muestra. Sus características se representan por los parámetros (como la media y la desviación estándar poblacionales).

description

Conceptos y ejercicios de estadistica descriptiva

Transcript of Estadistic descriptiva

3.2 Descripcin de datos: Datos agrupados y no agrupados,

TEORA DE DECISINEstudio formal sobre la toma de decisiones. Los estudios de casos reales, que se sirven de la inspeccin y los experimentos, se denominan teora descriptiva de decisin; los estudios de la toma de decisiones racionales, que utilizan la lgica y la estadstica, se llaman teora preceptiva de decisin. Estos estudios se hacen ms complicados cuando hay ms de un individuo, cuando los resultados de diversas opciones no se conocen con exactitud y cuando las probabilidades de los distintos resultados son desconocidas. La teora de decisin comparte caractersticas con la teora de juegos, aunque en la teora de decisin el "adversario" es la realidad en vez de otro jugador o jugadores.La Estadstica descriptiva es una parte de la estadstica que se dedica a analizar y representar los datos. Este anlisis es muy bsico, pero fundamental en todo estudio. Aunque hay tendencia a generalizar a toda la poblacin las primeras conclusiones obtenidas tras un anlisis descriptivo, su poder inferencia es mnimo y debera evitarse tal proceder. Otras ramas de la estadstica se centran en el contraste de hiptesis y su generalizacin a la poblacin.

Algunas de las tcnicas empleadas en este primer anlisis de los datos se enumeran ms abajo en el listado de conceptos bsicos. Bsicamente, se lleva a cabo un estudio calculando una serie de medidas de tendencia central, para ver en qu medida los datos se agrupan o dispersan en torno a un valor central.

DATOS AGRUPADOS Y NO AGRUPADOSCuando la muestra que se ha tomado de la poblacin o proceso que se desea analizar, es decir, tenemos menos de 20 elementos en la muestra, entonces estos datos son analizados sin necesidad de formar clases con ellos y a esto es a lo que se le llama tratamiento de datos no agrupados.

Cuando la muestra consta de 30 o ms datos, lo aconsejable es agrupar los datos en clases y a partir de estas determinar las caractersticas de la muestra y por consiguiente las de la poblacin de donde fue tomada. Antes de pasar a definir cul es la manera de determinar las caractersticas de inters (media, mediana, moda, etc.) cuando se han agrupado en clases los datos de la muestra, es necesario que sepamos cmo se agrupan los datos.

Conceptos Estadsticos

Poblacin. Es el total de datos sobre los cuales vamos a tomar una decisin, basados en una muestra. Sus caractersticas se representan por los parmetros (como la media y la desviacin estndar poblacionales).

Muestra. Es una parte de la poblacin que se va a representar de manera estadstica. Sus caractersticas se representan por los estadsticos (como la media y la desviacin estndar muestrales).

Variables. Producen valores que tienen a mostrar cierto grado de variabilidad al efectuarse mediciones sucesivas como: calificaciones, porcentajes, ingresos.

Variables discretas. Son el resultado de contar un nmero de conceptos u objetos, sus resultados son enteros. Ejemplo: Nmero de alumnos, accidentes.

Variables continuas. Son el resultado de un proceso de medicin con un aparato o dispositivo, aunque restringen su grado de precisin, sus resultados son cualquier valor en un intervalo continuo.

Ejemplo: Altura y longitud (metro), peso (balanza), espesor (pie de rey), velocidad (velocmetro), tiempo (reloj), temperatura (termmetro).

FRECUENCIA DE CLASEMarca de clase (punto medio): punto que divide a la clase en dos partes iguales. Es el promedio entre los lmites superior e inferior de la clase.

Intervalo de clase: para una distribucin de frecuencias que tiene clases del mismo tamao, el intervalo de clase se obtiene restando el lmite inferior de una clase del lmite inferior de la siguiente.

FRECUENCIA RELATIVAEs la relacin o cociente entre la frecuencia absoluta y el nmero total de observaciones. Es la proporcin entre la frecuencia de un intervalo y el nmero total de datos.

PUNTO MEDIOPunto medio es el punto que divide a un segmento en dos partes iguales.

LIMITESSon los valores extremos que tiene el intervalo de clase, inferior y superior, entre los cuales van a estar los valores de los datos agrupados en ese intervalo de clase.

MEDIDAS DE TENDENCIA CENTRAL (posicin)Media aritmtica, GeomtricaponderadaMediana,Moda,MEDIDAS DE DISPERSION

Rango.Desviacin mediaVarianza, Desviacin estndar, , MEDIDAS DE TENDENCIA CENTRAL DATOS NO AGRUPADOS

MEDIA ARITMETICA: Para datos no agrupados se usa la siguiente frmula En donde n es el nmero total de datos y son los valores de la variable.Ejercicio: Calcule la media aritmtica de los siguientes valores: {5,7,8,9,11,14}

por tanto la media aritmtica es 9.

MEDIA PONDERADA La media ponderada es una medida de tendencia central, se construye asignndole a cada clase un peso, y obteniendo un promedio para los pesos.MEDIANA (VER MEDIDA DE POSICION: PERCENTIL 50)

Para encontrar la mediana en una serie de datos no agrupados, lo primero que se hace es ordenar los datos en una forma creciente o decreciente y luego se ubica la posicin que esta ocupa en esa serie de datos; para ello hay que determinar si la serie de datos es par o impar.

Si el total de datos n es impar, es el dato de la posicin central es decir, se usa la frmula Si el total de datos n es par, se aplica la frmula

Ejercicio: Sean los siguientes datos, 5, 12, 7, 8, 10, 6, y 9, los aos de servicios de un grupo de trabajadores. Determine la mediana.

Lo primero que se hace es ordenar los datos en forma creciente o decreciente; Los datos ordenados quedaran as:

5, 6, 7, 8, 9, 10, 12.

Luego, como se trata de un numero impar de datos (n=7), se aplica la formula

para ubicar la posicin de la mediana. Esto indica que la mediana ocupa la posicin 4, que en la serie de valores esa posicin corresponde al nmero 8, entonces, Me = 8.

Ejercicio: Tenemos ahora los datos: 5, 5, 7, 9, 11, 12, 15, 18.

Como se trata de un numero par de datos (n =8), la mediana esta dada por:

MODA. Es una clase, puede ser un valor nico o un intervalo, que tiene la ms alta frecuencia.La moda es la medida de posicin que indica la magnitud del valor que se presenta con ms frecuencia en una serie de datos; es pues, el valor de la variable que ms se repite en un conjunto de datos.Se designa con las letras Mo.Cuando los datos se encuentran no agrupados la determinacin de la moda es sencilla y exacta; pero para calcularla en datos agrupados existen varios mtodos; cada uno de los cuales puede dar un valor diferente de la moda: En este curso se dar el mtodo de la interpolacin por considerarse uno de los ms precisos en el clculo de esta. Este mtodo puede expresarse mediante la siguiente formula:

Ejemplo: Dada la siguiente distribucin de frecuencia correspondiente al peso en Kg. de un grupo de trabajadores de una empresa, calcule la moda.Peso (Kg) Trabajadores

30-----39 2

40-----49 2

50-----59 7

60-----69 11

70-----79 12

80-----89 16

90-----99 2

TOTAL

donde Li = 80 1=16-12=4, 2=162=14, Ic=10 Aplicando la formula se tiene:

Este resultado de la moda se interpreta as: La mayora de los trabajadores tiene un peso aproximadamente de 82.22 KgMEDIDAS DE DISPERSION DATOS NO AGRUPADOS

Miden cun prximos estn los valores de un grupo entre s. Las medidas ms frecuentes son: Desviacin absoluta media, desviacin estndar o desviacin tpica, varianza.Rango o Amplitud de Variacin: R que es la diferencia entre los nmeros mayor y menor de un grupo o es el intervalo o amplitud de variacin de un grupo de datos. Esta medida no es confiable ya que es muy limitada (considera solo dos datos del total de daos).

Ejercicio: Determinar el rango o la amplitud de variacin de los datos siguientes: 20, 21, 45, 39, 85, 15

R = 85-15 = 70 R = De 15 a 85 = 15 85.

Desviacin Absoluta Media: DAM= , si n es el nmero de observaciones. Mide la desviacin promedio de valores con respecto a la media del grupo, sin tomar en cuenta el signo de la desviacin. Se obtiene al restar la media de cada valor del grupo eliminando el signo. Ejemplo: Calcular la desviacin absoluta media de los valores siguientes: 5, 8, 17, 29.

Varianza: obtenida de los valores a partir de la media aritmtica.

Obtenida de los valores sin usar la media aritmtica Ejemplo: Determinar la varianza de los datos: 6, 10, 18, 35, 21.

Desviacin Estndar O Desviacin Tpica O Error Estndar: s = S2Es simplemente la raz cuadrada de la varianza, es una medida lineal, que mide la variacin de los datos.Ejemplo: La desviacin estndar del ejercicio anterior, donde , es: s2 =126.52 s =s2 = 126.5 =11.25

Ejercicio: Dados los valores 23, 45, 27, 39, 85, 19, obtener las medidas de posicin (rango, desviacin media, varianza, desviacin estndar) y medidas de tendencia central (Media aritmtica, Geomtrica, Mediana, Moda).Solucin: Primeramente ordenar los valores del menor al mayor: 19, 23, 27, 39, 45, 85.

Moda: Es multimodal, no existe un valor con mas alta frecuencia.

Varianza: MEDIDAS DE DISPERSION DATOS AGRUPADOS

Se utilizan para indicar un valor que tiende a tipificar o a ser el ms representativo de un conjunto de datos.donde n es el nmero total de datosXi es la variable, o la marca de clase, es decir el punto medio del intervalo

fi es la frecuencia de los datos en cada intervalo

pi es la probabilidad o frecuencia relativa.

Ejercicio:

Calcule la media de la siguiente distribucin de frecuencia correspondiente al peso en Kg. de un grupo de obreros. Realice los clculos respectivos para completar el siguiente cuadro.CLASES if

75-------79 20

80-------84 40

85-------89 60

90-------94 100

95 ------99 140

=if = n =360

Solucin: PESOS XN DE OBREROS Xfi

75-------79 77 20 1540

80-------84 82 40 3280

85-------89 87 60 5220

90-------94 92 100 9200

95 ------99 97 140 13580

n =360 =iiXf32820

Aplicando la formula se tiene:

Interpretacin: El peso promedio del grupo de 360 obreros es de 91.17 KgPASOS PARA DETERMINAR LA MEDIANA EN DATOS AGRUPADOS 1. Se elabora la tabla de frecuencia de datos con sus diferentes intervalos de clases, se ubican las frecuencias fi y se calculan las frecuencias acumuladas Fi de esa distribucin.

2. Se determina la ubicacin o posicin de la mediana en el intervalo de la distribucin de frecuencia, mediante la formula 2n. El resultado obtenido determinar la clase donde se encuentra ubicada la mediana, lo cual se conseguir en la clase donde la frecuencia acumulada Fi sea igual o superior a este resultado. Luego se aplica la frmula: Donde,

n/2 = posicin de la mediana

Li = es el limite inferior de la clase donde se encuentra ubicada la mediana.

F(i-1) = es el valor de la frecuencia acumulada anterior a la clase mediana.

fi = es el valor de la frecuencia de clase donde se encuentra la mediana.

Ic = es el tamao del intervalo de clase.

n = es el nmero total de datos de la distribucin en estudio.Ejercicio:

Dada la siguiente distribucin de frecuencia referida a las horas extras laboradas por un grupo de obreros. Calcule la mediana. Realice los clculos respectivos para completar el siguiente cuadro.N de horas Extras Obreros

55------59 6

60------64 20

65------69 18

70------74 50

75------79 17

80------84 16

85------89 5

n = 132

Solucin:Cuadro con frecuencias acumuladas

n/2 = 132/2 = 66luego se busca en la frecuencia acumulada Fi, un valor que sea igual o superior a 66, este se encuentra en la clase 70 -74, la cual llamaremos clase mediana. Por lo tanto el limite inferior de esa clase es 70 = Li. La frecuencia absoluta de esa clase es 50 = fi , F(i-1) = 44 y el Ic = 5. Aplicando la formula se tiene:

Luego la mediana de esa distribucin es 72.2. Esto quiere decir que un 50 % de los obreros trabajaron horas extras por debajo de 72.2 horas y el otro 50 % trabajaron horas extras por encima de 72.2 horas.CARACTERSTICAS DE LA MEDIANA La mediana no es afectada por los valores extremos de una serie de valores, puesto que la misma no es calculada con todos los valores de la serie.

La mediana no esta definida algebraicamente, ya que para su clculo no intervienen todos los valores de la serie.

La mediana en algunos casos no se puede calcular exactamente y esto ocurre cuando en una serie de valores para datos no agrupados el nmero de datos es par, en este caso la mediana se calcula aproximadamente.

La mediana se puede calcular en aquellas distribuciones de frecuencia de clases abierta, siempre y cuando los elementos centrales puedan ser determinados.

La suma de los valores absolutos de las desviaciones de los datos individuales con respecto a la mediana siempre es mnima. (propiedad)

Desviacin Absoluta Media: DAM= , si n es el nmero de observaciones. Mide la desviacin promedio de valores con respecto a la media del grupo, sin tomar en cuenta el signo de la desviacin.

Xi son las clases y es la media de los datos agrupados. Mide la desviacin promedio de las clases con respecto a la media del grupo, sin tomar en cuenta el signo de la desviacin.

Varianza: si n=nmero de observaciones, Xi son las clases y es la media de los datos agrupados, fi es la frecuencia de cada clase.La varianza es la medida de dispersin que mejor expresa la variabilidad del fenmeno que estamos estudiando. Se define como la media aritmtica de las desviaciones al cuadrado entre cada valor de la variable y la media aritmtica. Para que no se contrarresten las diferencias, en lugar de utilizar los valores absolutos se eleva al cuadrado el valor de cada una de ellas. La frmula para su determinacin ser: Desviacin Estndar O Desviacin Tpica O Error Estndar: s = S2Es simplemente la raz cuadrada de la varianza, es una medida lineal, que mide la variacin de los datos.

Ejemplo2: Obtener las medidas de tendencia central, de dispersin, dada la distribucin de frecuencias, obtenida anteriormente:

Medidas de Tendencia Central, de los datos agrupadosMedidas de dispersin de los datos agrupados

Varianza:

Desviacin estndar:

HISTOGRAMAS, POLIGONOS DE FRECUENCIA Y OJIVA HISTOGRAMA: Es la representacin grfica de las frecuencias agrupadas de una variable continua sobre intervalos. A diferencia de los diagramas de barras, los histogramas dibujan rectngulos unidos entre si, lo que significa que existe continuidad en la variable cuyos valores se representan en el eje horizontal que se haya dividido en intervalos de igual amplitud. Las reas de los rectngulos son proporcionales a las frecuencias que representan.Histograma correspondiente a las horas extras laboradas por un grupo de obreros petroleros.

El histograma o diagrama de barras proporcionan mucha informacin respecto a la estructura de los datos, nos permite evidenciar fundamentalmente tres caractersticas:

1. Forma de la distribucin.

2. Acumulacin o tendencia posicional (valor central de la distribucin).

3. Dispersin o variabilidad.

Un histograma es un diagrama de barras de una distribucin de frecuencias.

Un polgono de frecuencias es un grfico de distribucin de frecuencias.

Una ojiva es una grafica de frecuencias acumuladas

DISTRIBUCIONES DE FRECUENCIAEjercicio 0: (estadisticageneralaleatoria.pdf pag 11)El gobierno desea averiguar si el nmero medio de hijos por familia ha descendido respecto de la dcada anterior. Para ello ha encuestado a 50 familias respecto al nmero de hijos, y ha obtenido los siguientes datos:

00 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2

2 2 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 5 6

Se pide:

a. Construir la tabla de frecuencias absolutas

b. Cul es el nmero de familias que tiene como mximo dos hijos?

c. Cuntas familias tienen ms de 1 hijo pero como mximo 3?

d. Qu porcentaje de familias tiene ms de 3 hijos?

Solucin:

a. Para construir la tabla de frecuencias hay que tener en cuenta que la variable en estudio es el nmero de hijos (discreta), que toma los valores existentes entre 0 y 6 hijos y las frecuencias son el conjunto de familias, de esta forma tenemos:

b. En la columna de las fi: 2+4+21=27 en la columna de las Fi: F2= 27

c. En la columna de las fi: 21+15=36 en la columna de las Fi: 42-6=36

d. En la columna de las hj: 0.12+0.02+0.02=0.16, que supone un 16% en la columna de las Hi: 1-0.84=0.16, 16%Ejercicio 1: Elaborar una distribucin de frecuencias con los datos dados:

1. Rango: R = 89.6-25.2 = 64.4

2. Nmero de clases: Interpretacin: pueden ser 5 o 6 clases. c = n = 30 = 5.48

3. Amplitud de clase: de ancho de clase =11.75 12 5.48 C

4. Distribucin de frecuencias

a) Clase

b) Punto medio

Ejercicio 2. (mtra Elsa)

Rango: R = 109-51 = 58

Nmero de clases: clases. c =n = 36 = 6

Amplitud de clase: de ancho de clase = 9.7 10 Ancho de clase

Distribucin de frecuencias

Ejercicio 3. Un nuevo hotel va abrir sus puertas en una cierta ciudad. Antes de decidir el precio de sus habitaciones, el gerente investiga los precios por habitacin de 40 hoteles de la misma categora de esta ciudad. Los datos obtenidos (en miles de pesetas) fueron:3.3 3.3 3.7 3.8 3.9 3.9 3.9 4.0 4.1 4.2

4.2 4.3 4.3 4.3 4.3 4.4 4.4 4.5 4.5 4.5

4.5 4.7 4.7 4.7 4.7 4.8 4.9 5.0 5.0 5.1

5.1 5.3 5.3 5.4 5.6 5.8 5.8 6.0 6.1 6.1Cuando se tenga dudas en determinar el numero de intervalos de clases, es de gran utilidad utilizar el mtodo sugerido por Hebert A. Sturges, el cual establece que: K= 1+3,322 log(n) = numero de intervalos.Solucin:1.- El menor valor es 3.3 y el mayor 6.1, la diferencia es 2.8 y por tanto R=2.8.

2.- K= 1+3,322 log(40) = 6.3 6 nmeros de intervalos

3.- Ic = 2.8 / 6 = 0.467 0.5 tamao de los intervalos

As pues la tabla sera:

Cuantos hoteles tienen un precio entre 3.3 y 3.8? 3

Cuantos hoteles tienen un precio superior a 4.8? 15

Que porcentaje de hoteles cuestan como mucho 4.3? 27.5 %

Datos Agrupados

Datos No Agrupados