Post on 08-Feb-2016
CENTRO DE ESTUDIOS VERACRUZ
Estadística Descriptiva Administración de Empresas
Félix Flores Olivares
Estadística Descriptiva
CEV – Félix Flores Olivares Página 2
ESTADÍSTICA DESCRIPTIVA
La estadística descriptiva es la rama de las Matemáticas que recolecta, presenta y caracteriza un
conjunto de datos (por ejemplo, edad de una población, altura de los estudiantes de una escuela,
temperatura en los meses de verano, etc.) con el fin de describir apropiadamente las diversas
características de ese conjunto.
POBLACIÓN
Es el conjunto de personas u objetos que poseen ciertas características comunes, las cueles deben
ser claramente definidas de tal manera que sea posible identificar con precisión si un elemento
pertenece o no a la población; para ello, la delimitación en tiempo y espacio ayudara a precisar la
población.
A cada integrante que conforma una población se le denomina elemento.
Los elementos no solo son tangibles o materiales; por ejemplo un conjunto de dialecto,
“Zapoteco” es el elemento.
La población es finita cuando incluye un número limitado de elementos. Siempre que sea posible
contar el número total de elementos se considera finita la población.
Ejemplo: Población de una ciudad, niños en una escuela, población de aves.
La población infinita incluye un gran número de elementos que no pueden contarse en su
totalidad.
Ejemplo: La cantidad de estrellas del Universo, cantidad de granos de arena del mar
MUESTRA
Es la parte o subconjunto de elementos de una población.
PARÁMETRO Y ESTADÍSTICO
Todo valor numérico que describa a una población recibe el nombre de parámetro; si se refiere a
una muestra recibe el nombre de estadístico.
Ejemplo: El coeficiente intelectual promedio de todos los estudiantes de quinto de
bachillerato en Veracruz es un parámetro; pero si dicho promedio se obtiene de una
muestra es estadístico.
VARIABLE
Es una característica que puede tener distintos valores, a medida que se observa en los diferentes
elementos de una población.
Estadística Descriptiva
CEV – Félix Flores Olivares Página 3
DATO
Es el valor de la variable asociado a un elemento de una población o una muestra.
EXPERIMENTO
Es la actividad realizada, según un plan definido, cuyos resultados producen un conjunto de datos.
Es el método, así como la manera de cavar información.
VARIABLES CUANTITATIVAS Y CUALITATIVAS
CUALITATIVAS
En una variable cualitativa sus valores o categorías nos permiten clasificar los elementos de la
población y contabilizar el número de veces que se presentan por categoría. Pueden ser
nominales u ordinales.
Es un ejemplo de valores hombre y mujer no tiene por sí mismo un criterio para establecer
un orden entre ellos, su escala es nominal.
En un variable grado máximo (lista opcional), la escala de medición se llama ordinal.
CUANTITATIVAS
Variables cuantitativas continuas. Cuando entre dos valores se puede tomar cualquiera de los
infinitos comprendidos entre ellos. Ejemplo la estatura 1.70cm 1.75cm 1.80cm
Variables cuantitativas discretas. Aquella cuya medición solo puede expresarse en números
enteros, porque entre dos valores consecutivos no puede haber ninguno intermedio.
En una variable cuantitativa podemos encontrar dos tipos de escalas de medición: de intervalo y
de razón.
ENCUESTAS
Las encuestas se pueden realizar sobre el total de la población o sobre una parte representativa de
la misma que llamaremos muestra. Una encuesta realizada al total de la población es el Censo
referido al 31 de marzo de los anos terminados en 1 en el que se recoge información sobre todos
los censados en cada uno de los municipios disponiendo de una base de datos el Instituto Nacional
de Estadística para estudios posteriores de la población, a que estos datos se van actualizando y
poniendo al día para saber en cada momento la situación del país.
Exceptuado estos estudios a toda la población, las encuestas se suelen realizar sobre una muestra
representativa. Diversos motivos inducen a tomar muestras de las poblaciones, entre las que cabe
destacar:
Estadística Descriptiva
CEV – Félix Flores Olivares Página 4
Cuando la población es muy grande.
Por motivo económicos.
Por falta de personal adecuado.
Por motivo de calidad de los resultados.
Por mayor rapidez en recoger los datos y presentar los resultados.
No obstante también se presentan unas limitaciones a la toma de muestras representativas, que
se pueden resumir en:
Cuando se necesita información de todos los elementos de la población.
Cuando no se domina la técnica de muestreo.
Cuando la población es muy pequeñina.
Cuando se toma información de todos y cada uno de los elementos de la población de interés, se
está realizando un censo. Tomar información de un muestra, se denomina muestreo.
ORDENAMIENTO DE DATOS
Muchas veces uno se pregunta, ¿para qué sirven las encuestas que a veces se hacen en la calle?,
¿Cómo saber si una estación de radio se escucha más que otra? , ¿Cuál candidato puede ganar? La
respuesta se comienza con la recaudación de datos.
Los datos son información que se recoge, esto puede ser opinión de las personas sobre un tema,
edad o sexo de encuestados, dónde viven, cuántas personas viven en una casa, qué tipo de sangre
tiene un grupo de personas, etc.
Hay datos que pueden ser de mucha utilidad a diferentes profesionales en la toma de decisiones,
para resolver problemas o para mostrar resultados de investigaciones. Una vez que se haya
Estadística Descriptiva
CEV – Félix Flores Olivares Página 5
recogido toda la información, se procede a crear una base de datos, donde se registran todos los
datos obtenidos.
REPRESENTACIÓN GRAFICA
TABLA DE FRECUENCIA
Toda la información recopilada se llama dato. La información puede ser la opinión de una persona
encuestada, gustos, edad, sexo, el lugar donde viven, etc.
Una vez acopiado la información, se crea una base de datos donde estos se registran, se manipula
la información y agrupa, llegando a lo que en estadística llamamos tabla de frecuencia.
Frecuencia Absoluta y Frecuencia Relativa
Frecuencia absoluta es la cantidad de datos que integran cada una de las clases, o que son las
repeticiones que encontramos dentro de una misma clase.
Frecuencia relativa es la cantidad de repeticiones obtenidas para cada clase, en relación con el
total de las observaciones. Las frecuencias relativas son un porcentaje, ya que relacionan una parte
del conjunto con el total.
EJ. Se realizo una encuesta a 10 jóvenes de 15 años para saber que animal tienen en su casa y
estos fueron los resultados:
Animal que tienen en su casa Frecuencia (f) Frecuencia Relativa
Perro 4 4/10 = 0.4
Gato 2 2/10 = 0.2
Pez 1 1/10 = 0.1
Ninguno 3 3/10 = 0.3
Total 10 1
Frecuencia Acumulada y Relativa Acumulada
Este concepto es aplicable solamente para datos cuantitativos. La frecuencia acumulada es aquella
que acumula frecuencias hasta un determinado valor de la variable.
Sumando la frecuencia de todos los valores inferiores de un límite fijado obtenemos la frecuencia
relativa acumulada hasta ese valor.
Frecuencia de Variables Agrupada en Intervalo
Si los valores que toma la variable son muy diversos y cada uno de ellos se repite muy pocas veces,
entonces conviene agruparlos por intervalos.
Estadística Descriptiva
CEV – Félix Flores Olivares Página 6
Debemos entender por recorrido o rango la diferencia entre el dato mayor y el dato menor en los
valores observados de la variable en estudio: por ejemplo el dato menor de una muestra es 63 y
el mayor es 128 el recorrido es:
Recorrido = 128-63=65 Amplitud del intervalo = Rango/Números de Intervalos Deseados
EJERCICIO
Durante el mes de julio, en una ciudad se han registrado las siguientes temperaturas máximas:
32, 31, 28, 29, 33, 32, 31, 30, 31, 31, 27, 28, 29, 30, 32, 31, 31, 30, 30, 29, 29, 30, 30, 31, 30, 31, 34,
33, 33, 29, 29.
Construir la tabla de frecuencias
Temperatura Frecuencia Absoluta
Frecuencia Relativa
Frecuencia Acumulada
Frecuencia Relativa Acumulada
27
28
29 6
30
31 0.258
32
33
34 31 1
31 1
Los pesos de los 65 empleados de una fábrica vienen dados por la siguiente tabla:
[50 - 60] [60 - 70] [70 - 80] [80 - 90] [90 - 100] [100 - 110] [110 - 120]
Peso 8 10 16 14 10 5 2
Rango Frecuencia Absoluta
Frecuencia Relativa
Frecuencia Acumulada
Frecuencia Relativa Acumulada
[51 - 60] 8
[61 - 70] 10
[71 - 80] 16
[81 - 90] 14 0.22
[91 - 100] 10
[101 - 110] 5
[111 - 120] 2 65 0.99
65
Estadística Descriptiva
CEV – Félix Flores Olivares Página 7
Los datos a continuación representan los tiempos, en minutos, que les tomó a un grupo de
personas contestar una prueba estandarizada.
Obtener el Recorrido tomando en cuenta el dato menor como 15 y el mayor 35
Obtener la amplitud del intervalo de 5
Elaborar una tabla de frecuencias que contenga, frecuencia absoluta, frecuencia relativa,
frecuencia acumulada y frecuencia relativa acumulada.
Los 40 alumnos de una clase han obtenido las siguientes puntuaciones, sobre 50, en un examen
3, 15, 24, 28, 33, 35, 38, 42, 23, 38, 36, 34, 29, 25, 17, 7, 34, 36, 39, 44, 31, 26, 20, 11, 13, 22, 27,
47, 39, 37, 34, 32, 35, 28, 38, 41, 48, 15, 32, 13.
Obtener el Recorrido
Obtener la amplitud del intervalo de 10
Elaborar una tabla de frecuencias que contenga, frecuencia absoluta, frecuencia relativa,
frecuencia acumulada y frecuencia relativa acumulada.
HISTOGRAMA
Un histograma es una representación gráfica de una variable en forma de barras.
Estadística Descriptiva
CEV – Félix Flores Olivares Página 8
MEDIDAS DE TENDENCIA CENTRAL
Cuando queremos sintetizar un grupo de datos de una población o muestra necesitamos señalas al
menos como se concentran los valores y como se dispersan, para ello requerimos las medidas de
tendencia central.
Las medidas de tendencia central son llamadas así porque tienden a localizarse en el centro de la
información (de ahí que también se les conoce como medidas de posición).
Las principales medidas de tendencia central son:
Media
Mediana
Moda
CALCULO DE MEDIDAS DE TENDENCIA CENTRAL PARA DATOS NO AGRUPADOS
MEDIA
Es la Medida de Tendencia Central más utilizada. La media de un conjunto de valores es igual a la
suma de dichos valores dividido entre el numero de ellos. El símbolo que utilizaremos para
representarla será 𝑋 (equis barra).
𝑋 = 𝑋
𝑛
Se toma el registro sobre el numero de cigarros que fuma un señor en una semana y se obtienen
los siguientes datos: 4, 3, 5, 6, 4, 3, 5. El primer dato corresponde al lunes, el segundo al martes y
así sucesivamente.
𝑋 = 𝑋
𝑛=
4 + 3 + 5 + 6 + 4 + 3 + 5
7=
30
7= 4.2 𝑐𝑖𝑔𝑎𝑟𝑟𝑜𝑠
Tomando en contexto la situación, significa que el seños fuma en promedio 4.2 cigarros al día.
Calculo de la Media para Datos Organizados
Un grupo de 50 bailarinas se presento a un casting para una comedia musical, registrando las
siguientes edades.
Estadística Descriptiva
CEV – Félix Flores Olivares Página 9
Aplicando la formula de la media tenemos:
𝑋 = 𝑋
𝑛=
21 + 19 + +22 + 19 + 18 + 20 + …+ 17
50=
1008
50= 20.1
Si observamos con atención los datos nos daremos cuenta que el primer valor 21 se repite 12
veces y el 19 se repite 16, lo cual simplificaremos los cálculos gracias a la relación entre la suma y
la multiplicación organizando los datos de la siguiente forma:
𝑋 = 1 17 + 3 18 + 16 19 + 10 20 + 12 21 + 5 22 + 1 23 + 2 24
50=
1008
50= 20.1
Así, la fórmula para calcular la media sufre algunas modificaciones:
𝑋 = 𝑓𝑋
𝑛
Los números también son sensibles
Como se ha dicho, la Media o Promedio es una de las medidas más utilizadas, pero tiene una
desventaja: es muy sensible a los valores extremos. Veamos el siguiente ejemplo:
Supongamos que 19 trabajadores de una empresa perciben un sueldo quincenal de $2,000.00,
mientras que el gerente general tiene un sueldo de $22,000.00. Si obtenemos la media de los
sueldos quincenales de estos 20 trabajadores – incluyendo al gerente general – se obtiene lo
siguiente:
𝑋 = 19 2,000 + 1(22,000)
20=
38,000 + 22,000
20=
60,000
20= 3,000 𝑝𝑒𝑠𝑜𝑠
Interpretando, diríamos que el salario quincenal promedio de estos trabajadores es de $3,000.00,
lo cual no es representativo de la mayoría de los salarios, esta cantidad es engañoso.
Cuando la variable incluye valores muy dispares o extremos, la media pierde representatividad, en
estos casos es más conveniente utilizar la mediana.
MEDIANA
Es el valor que divide al grupo de datos en dos partes iguales, 50% por debajo de él y el otro 50%
por arriba del mismo.
Para encontrar la mediana, para la cual utilizaremos el símbolo Me, se procede de la siguiente
manera:
1. Se ordenan los datos de menor a mayor
2. Identificamos el valor que se ubique justo en medio de los datos. Aquí se pueden
presentar dos casos
a) Cuando el número de n es impar, la mediana queda precisamente en medio de ellos.
Estadística Descriptiva
CEV – Félix Flores Olivares Página 10
b) Cuando es par, la median es el promedio de los dos valores centrales.
Hallemos la mediana de los siguientes valores, los cuales representan las calificaciones de 5
estudiantes en una prueba.
3.9 7.7 5.1 8.1 7.8
3.9 5.1 7.7 7.8 8.1
Veamos el siguiente ejemplo donde n es par.
6 8 10 7 9 9
6 7 8 9 9 10
𝑀𝑒 = 8 + 9
2=
17
2= 8.5
Existe una fórmula para conocer la posición de la mediana, la cual es muy útil especialmente
cuando el número de datos n es muy grande.
La formula es la siguiente:
𝑃𝑜𝑠𝑖𝑐𝑖𝑜𝑛 𝑑𝑒 𝑙𝑎 𝑚𝑒𝑑𝑖𝑎𝑛𝑎 = 𝑃𝑀𝑒 = 𝑛 + 1
2, 𝑟𝑒𝑐𝑜𝑟𝑑𝑎𝑛𝑑𝑜 𝑞𝑢𝑒 𝑛 𝑒𝑠 𝑒𝑙 𝑛𝑢𝑚𝑒𝑟𝑜 𝑑𝑒 𝑑𝑎𝑡𝑜𝑠
Se ha entregado a un grupo de 15 adultos una lista de 100 palabras y se le ha pedido a cada uno
de ellos que recuerde el mayor número de palabras posibles, obteniendo los siguientes valores:
7 3 9 5 4 6 5 7 8 11 10 7 4
6 8
Ordenemos los datos mediante el auxilio de la siguiente tabla:
Posición o lugar Palabras recordadas
1 3
2 4
3 4
4 5
5 5
6 6
7 6
8 7
9 7
10 7
11 8
12 8
Estadística Descriptiva
CEV – Félix Flores Olivares Página 11
13 9
14 10
15 11
Aplicando la fórmula para conocer la posición de la mediana y recordando que n = 15 se tiene que:
𝑃𝑀𝑒 = 15 + 1
2= 8
Lo cual significa que la mediana ocupa el octavo lugar, por lo tanto, Me = 7 palabras.
Cuando se presentan los datos ya organizados en una tabla de frecuencia simple, la formula
anterior adquiere mayor relevancia en cuanto a su utilidad.
La siguiente figura se presenta las calificaciones de un examen de Taller de Lectura y Redacción de
un grupo de alumnos de bachillerato, indicando las siguientes frecuencias.
Calificación (X) Número de Alumnos (f)
3 2
4 3
5 3
6 5
7 17
8 9
9 5
10 3
Total n = 47
Para proceder a ubicar la posición de la mediana, necesitamos agregar la columna de frecuencias
acumuladas, quedando la tabla anterior así:
Calificación (X) Número de Alumnos (f) fa
3 2 2
4 3 5
5 3 8
6 5 13
7 17 30
8 9 39
9 5 44
10 3 47
Total n = 47
𝑃𝑀𝑒 = 47 + 1
2= 24
Estadística Descriptiva
CEV – Félix Flores Olivares Página 12
Lo anterior indica que la mediana se encuentra en el lugar 24. Para hallar el valor ubicamos en la
tercera columna: la primera fila, fa=2, significa que las dos primeras calificaciones son iguales a 3,
la segunda fila, fa=5, significa que del tercero al quinto datos las calificaciones son iguales a 4 y así
sucesivamente hasta llegar a la posición de la mediana, la cual es Me=7.
MODA
Es el dato o valor de la variable que ocurre con mayor frecuencia. El símbolo que utilizaremos es
Mo.
CALCULO DE MEDIDAS DE TENDENCIA CENTRAL PARA DATOS AGRUPADOS
Recuerda que cuando hablamos de datos agrupados nos referimos a que están distribuidos en
intervalos de clase.
MARCA DE CLASE
Se llama marca de clase de un intervalo al valor que está justo en medio del mismo y se obtiene
promediando los límites del intervalo, es decir, sumándolos y dividiendo el resultado entre dos.
𝑀𝑎𝑟𝑐𝑎 𝑑𝑒 𝑐𝑙𝑎𝑠𝑒 = 𝑀𝐶 = 𝐿𝐼 + 𝐿𝑆
2
Donde: LI = Limite inferior LS= Limite superior Así, la marca de clase del intervalo 11-20 es:
𝑀𝐶 = 11 + 20
2= 15.5
LIMITES REALES Se llaman límites reales a los que obtiene de restar y sumar medida unidad a los límites inferiores y superiores del intervalo, respectivamente. Limite real inferior = LRI = 11 – 0.5 = 10.5 Limite real superior = LRS = 20 + 0.5 = 20.5 AMPLITUD O ANCHURA Al tamaño del intervalo de le denomina amplitud o anchura del intervalo y se calcula obteniendo la diferencia entre los limites reales del intervalo. La amplitud del intervalo 11 – 20 es: a = 20.5 – 10.5 = 10
Estadística Descriptiva
CEV – Félix Flores Olivares Página 13
MEDIA
𝑋 = 𝑓𝑋
𝑛
MEDIANA
El procedimiento para calcular la mediana cuando los datos están agrupados es el siguiente:
1. Se identifica el intervalo que contiene al valor de la mediana, para ello debemos conocer
qué lugar ocupa:
𝑃𝑀𝑒 = 𝑛
2
2. Se calcula la frecuencia acumulada fa correspondiente al intervalo inmediato inferior al
que contiene a la mediana.
3. Se identifica la frecuencia absoluta f del intervalo que contiene a la mediana.
4. Se mide la amplitud o anchura a del intervalo que contiene a la mediana.
5. Se identifica el limite real inferior L del intervalo que contiene a la mediana.
𝑀𝑒 = 𝐿 +
𝑛2− 𝑓𝑎
𝑓 (𝑎)
MODA
Para obtener ese valor cuando tenemos los datos agrupados en intervalos, nos fijamos en el
intervalo que tenga la frecuencia más alta, la moda será la marca de clase de ese intervalo.
MEDIDAS DE DISPERSIÓN O VARIABILIDAD
Las medidas de dispersión, también llamadas de variabilidad, indican ciertos aspectos del conjunto
de datos que no nos los dicen las medidas de tendencia central; por lo tanto, una descripción mas
completa de la naturaleza de un conjunto de datos se obtiene cuando se utilizan tanto las medidas
de tendencia central como las de variabilidad o dispersión.
Una variación o dispersión pequeña indica un alto grado de homogeneidad en los datos, mientras
que una variación grande indica poca homogeneidad.
Por ejemplo, si en una fábrica que se dedica a producir tornillos se encontraran una alta variación
de los diámetros de los mismos, esto causara un alto porcentaje de productos defectuosos. Por
otro lado si se tratara de elegir entre varios aspirantes a ocupar el puesto de contador y el examen
arrojara poca variación en los puntajes, la decisión se tornara difícil al tener una población
relativamente homogénea de aspirantes.
Existen varias medidas de variabilidad, las que nosotros abordaremos son:
Estadística Descriptiva
CEV – Félix Flores Olivares Página 14
Varianza
Desviación típica DESVIACIÓN TÍPICA Es la medida de variabilidad mas adecuada por sus propiedades algebraicas, se le conoce también como desviación estándar. La desviación típica es una medida de la variación de los valores con respecto a la media. Es una especie de desviación promedio con respecto a la media. La desviación típica se calcula con la siguiente fórmula:
𝑠 = (𝑋 − 𝑋 )2
𝑛
ó
𝑠 = 𝑓(𝑋 − 𝑋 )2
𝑛
VARIANZA La varianza es una medida de variabilidad que se obtienen elevando al cuadrado la desviación estándar.
𝑠2
MEDIDAS DE POSICIÓN
Son indicadores estadísticos que muestran la frecuencia acumulada hasta un valor k cualquiera. PERCENTILES Los percentiles representan los valores de la variable que están por debajo de un porcentaje, el cual puede ser una valor de 1% a 100% (en otras palabras, el total de los datos es divido en 100 partes iguales). La notación empleada será:
𝑃𝑘 Donde k es equivalente al porcentaje de datos acumulados, y 𝑃𝑘 es el valor de la variable que representa dicho porcentaje. Por ejemplo, 𝑃5 es el valor de la variable que deja por debajo el 5% de los datos. 𝑃78 será entonces el valor que agrupa el 78% de los datos.
Estadística Descriptiva
CEV – Félix Flores Olivares Página 15
Así, si en un grupo de personas el percentil 70 de las estaturas es de 1.73 metros; esto significa que lo a sumo el 70% de las personas es más baja que 1,73 y que lo a sumo el 30% es más alta que 1.73 El cálculo percentil es diferente, según los datos estén sin agrupar o agrupados. Calculo percentil para datos sin agrupar: Ejemplo 1. Al medir las estaturas de 9 personas, se encuentran los siguientes resultados: 1.83, 1.72, 1.76, 1.62, 1.56, 1.78, 1.60, 1.66 y 1.58. Encuentre el percentil 30.
1.56, 1.58, 1.60, 162, 166, 1.72, 1.76, 1.78, 1,83 Ejemplo 2. Al tomar a 20 alumnos un examen de Matemáticas, las calificaciones fueron: 54, 21, 34, 78, 93, 45, 66, 38, 50, 87, 63, 88, 31, 62, 96. 80, 71, 59, 35 y 42. Hallar el percentil 60 de las calificaciones obtenidas.
21, 31, 34, 35, 38, 42, 45, 50, 54, 59, 62, 63, 66, 71, 78, 80, 87, 88, 93, 96 Calculo percentil para datos agrupados Ejemplo 1. Determinar el percentil 40 y el percentil 75, en la siguiente distribución de frecuencias:
Clase 10-19 20-29 30-39 40-49 50-59 60-69 70-79
Frecuencia 12 26 55 61 40 28 4
Limites Reales
<19.5 <29.5 <39.5 <49.5 <59.5 <69.5 <79.5
Frecuencia Acumulada
12 38 93 154 194 222 226
Existen 226 datos y se quiere encontrar el “Percentil 40”; por tanto, hay que calcular el 40% de 226, que resulta ser 90.4
Estadística Descriptiva
CEV – Félix Flores Olivares Página 16
El intervalo donde cae 𝑃40 es el tercero, pues en él en donde se alcanza esta frecuencia acumulada de 38 y termina con una de 93.
𝑃𝑘 = 𝐿 +
𝑛𝑘100
− 𝑓𝑎
𝑓 (𝑎)
Aplicando la formula anterior obtenemos como resultado 39.03 que significa que el 40% de ellos es menor que el valor 39.03 y el 60% restante es mayor que 39.03. Al hallar el percentil de 75 nos da como resultado 53.38