ESTADISTICA DESCRIPTIVA CON EXCEL 2016 Y EL … lineal/Estadística Descriptiva... · ESTADISTICA...

pág. 1 Dagoberto Salgado Horta

ESTADISTICA DESCRIPTIVA CON

EXCEL 2016 Y EL COMPLEMENTO

MEGASTAT

DAGOBERTO SALGADO HORTA


INTRODUCCIÓN Según Allen (1996), Chao (1996), Yule y Kendal (1986) y Rivas González (1993) la estadística es una ciencia (otros investigadores la consideran como un conjunto de métodos) que se encarga de la recolección, clasificación, presentación, organización, análisis e interpretación de un conjunto de fenómenos, (naturales, económicos, políticos o sociales) de manera metódica y numérica, que permitan extraer conclusiones de un hecho, en un momento determinado y así poder tomar decisiones valederas. De acuerdo con la definición anterior la estadística se encarga de la recolección, clasificación, análisis e interpretación de un conjunto de datos en una investigación determinada. Según, algunos investigadores la estadística, es una rama de las matemáticas que se ocupa de reunir, organizar y analizar datos numéricos y que ayuda a resolver problemas como el diseño de experimentos y la toma de decisiones. También, se puede decir que es una rama de las matemáticas que utilizando un conjunto de métodos y técnicas se encarga de la recolección, organizar, presentación, analizar e interpretación de datos naturales, económicos, políticas, sociales, etc, para presentar los resultados obtenidos y sacar conclusiones válidas basadas en dicho análisis y así poder tomar una decisión. La función principal de la estadística es elaborar principios y métodos que ayuden a tomar decisiones frente a la incertidumbre. En realidad, muchos autores definen la estadística actualmente como un método de toma de decisiones frente a la incertidumbre. La estadística puede presentar conclusiones referentes únicamente al grupo estudiado, o puede generalizarlas para grupos mayores. La estadística es una ciencia que soporta la mayoría de estudios en cualquiera de los campos particulares de la ciencia. Decisiones empresariales, son apoyadas el análisis estadístico, inferencias en todo tipo investigaciones de las diferentes áreas del conocimiento y soporte de muchos análisis financieros, son algunos de sus aportes. De la misma forma todas las ciencias se benefician del uso de la informática para tener mayor rapidez en el desarrollo de sus procesos, la estadística como tal no se escapa de esta influencia por los grandes volúmenes de información que se manejan y por ello en el mercado se presentan diferentes softwares estadísticos. No obstante, aun con la existencia de muchos programas estadísticos, la gran mayoría presentan inconvenientes por altos costos en sus licencias. Es por ello que se ha pensado en una herramienta de fácil acceso y manejo de datos como lo es la plantilla cálculo Excel 2016 y el complemento Megastat programado por el Doctor Orris para solucionar estos inconvenientes. El libro explica detalladamente la utilización de plantillas de cálculo de Microsoft Excel en técnicas estadísticas básica en la investigación, como también el manejo de la macro Megastat como complemento a la misma hoja de cálculo. En la mayoría de las explicaciones se toma como referencia la base de datos correspondiente a una encuesta realizada a 500 trabajadores de una empresa que llamaremos ABC, y que se puede bajar en el siguiente link: http://www.estadisticacondago.com/index.php/aplicaciones-excel-mainmenu-101

http://www.estadisticacondago.com/index.php/aplicaciones-excel-mainmenu-101


Esta base de datos contiene información de 500 empleados de la empresa ABC, en 10 variables como son: SEXO = sexo del empleado EDAD = edad del empleado, expresada en años EDUCACION = años de educación FUNCION = función que ocupa dentro de la empresa SALARIO = salario anual (miles de pesos) SERVICIO = años de servicio EXPERIENCIA = experiencia (años) ESTADO = estado civil del empleado HIJOS = número de hijos del empleado ESTRATO = estrato social del empleado


1. CONCEPTOS FUNDAMENTALES

1.1 CONCEPTO DE ESTADÍSTICA Y SU CLASIFICACION Estadística: se ocupa de los métodos y procedimientos para recoger, clasificar,

resumir, hallar regularidades y analizar los datos, siempre y cuando la variabilidad

e incertidumbre sea una causa intrínseca de los mismos; así como de realizar

inferencias a partir de ellos, con la finalidad de ayudar a la toma de decisiones y en

su caso formular predicciones.

Podríamos por tanto clasificar la Estadística en descriptiva, cuando los resultados del análisis no pretenden ir más allá del conjunto de datos, e inferencial cuando el objetivo del estudio es derivar las conclusiones obtenidas a un conjunto de datos más amplio.

Clasificación de la Estadística

Estadística Ciencia que recoge y organiza datos de forma

sistemática. Datos numéricos sistemáticamente

recolectados y organizados.

Estadística descriptiva Organización de los datos en tablas y gráficas. Se

encarga de establecer los parámetros que definen

una población.

Estadística matemática Comparación de medidas calculadas mediante

distribuciones de probabilidades:

Estadística no

paramétrica

Pruebas estadísticas aplicadas cuando se supone

que los datos "no" se distribuyen normalmente.

Estadística paramétrica Pruebas estadísticas aplicadas cuando se supone

que los datos se distribuyen normalmente.

Población: Conjunto de individuos u objetos de interés o medidas obtenidas a partir de todos los individuos u objetos de interés.


Muestra: Porción o parte de la población de interés. También se puede decir que es una colección de unidades de muestreo seleccionados de un marco muestral o de varios marcos muestrales. Al número de elementos de la muestra se denota por “n”. Una muestra tiene las siguientes características: a. Es representativa. b. Es adecuada. Para la determinación del tamaño de muestra se utilizan técnicas de muestreo

donde dependiendo de esta, se utiliza correctamente las fórmulas adecuadas.

Muestreo: Es una técnica estadística por la cual se realizan inferencias o generalizaciones para una población examinando solo una muestra de ella. Es una técnica empleada para seleccionar elementos de una población. Su propósito es proporcionar diferente tipo de información estadística de naturaleza cuantitativa o cualitativa. Por su gran importancia los investigadores lo utilizan en los diferentes campos de saber y también lo usamos en la vida diaria. Unidad de estudio: Es el animal persona o cosa de quien se dice algo. Es el elemento quien nos va a dar la información. Es el individuo u objeto del cual se toman las mediciones u observaciones. Ejemplos: Un docente, un auxiliar de educación, un votante, una factura, una empresa, una botella de cerveza, una universidad, una vaca, una gota de sangre, etc. Observaciones: Estadísticamente son los datos que se recolectan para un estudio. Una observación o dato es cuando una variable en sí toma un valor específico.

Variables: Las variables son magnitudes que pueden tener un valor cualquiera de los comprendidos en un conjunto de valores de un estudio o investigación determinada. Son todos aquellos datos u observaciones que pueden ser expresados mediante números, es decir, son características de una población determinada, susceptible de medición.

Tipos de variables: Existen dos tipos básicos de variables: 1) cualitativas y 2) cuantitativas. Cuando la característica que se estudia es de naturaleza no numérica, recibe el nombre de variable cualitativa o atributo. Algunos ejemplos de variables cualitativas son el sexo del empleado, función que ocupa dentro de la empresa, estado civil del empleado, estrato social del empleado. Cuando la variable que se estudia aparece en forma numérica, la variable se denomina variable cuantitativa. Ejemplos de variables cuantitativas son edad del empleado expresada en años, años de educación, salario anual (miles de pesos), años de servicio, experiencia (años), número de hijos del empleado. Las variables cuantitativas pueden ser discretas o continuas. Las variables discretas adoptan sólo ciertos valores y existen vacíos entre ellos. Ejemplos de variables discretas son años de educación, número de hijos del empleado. Las observaciones de una variable continua toman cualquier valor dentro de un intervalo específico. Ejemplos de variables continuas son edad del empleado expresada en años, salario anual (miles de pesos), años de servicio, experiencia (años).


Niveles de medición: Los datos se clasifican por niveles de medición. El nivel de medición de los datos rige los cálculos que se llevan a cabo con el fin de resumir y presentar los datos. También determina las pruebas estadísticas que se deben realizar. Existen cuatro niveles de medición: nominal, ordinal, de intervalo y de razón. La medición más baja, o más primaria, corresponde al nivel nominal. La más alta, o el nivel que proporciona la mayor información relacionada con la observación, es la medición de razón. En el caso del nivel nominal de medición, las observaciones acerca de una variable cualitativa sólo se clasifican y cuentan. No existe una forma particular para ordenar las categorías. El nivel inmediato superior de datos es el nivel ordinal, sus categorías requieren de un orden, sin embargo, no es posible distinguir la magnitud de las diferencias entre los grupos. El nivel de intervalo de medición es el nivel inmediato superior. Incluye todas las características del nivel ordinal, pero, además, la diferencia entre valores constituye una magnitud constante, la razón entre dos números no es significativa y el punto cero no tiene sentido. El nivel de razón es el más alto. Posee todas las características del nivel de intervalo, aunque, además, el punto 0 tiene sentido y la razón entre dos números es significativa.


2. DISTRIBUCION DE FRECUENCIA

El Análisis Exploratorio de datos, antiguamente llamado Estadística Descriptiva, constituye lo que la mayoría de las personas entiende como Estadística, e inconscientemente se usa a diario. Consiste en resumir y organizar los datos colectados a través de tablas, gráficos o medidas numéricas, y a partir de los datos resumidos buscar alguna regularidad o patrón en las observaciones (interpretación de los datos). 2.1. Distribución de Frecuencias

Cuando la información que se tiene es un gran volumen, resulta muy conveniente ordenar y agrupar los datos para manejarlos de acuerdo a la distribución de frecuencias la cual consiste en agrupar los datos por categorías para variables cualitativas o en clases que estarán definidas por un límite mínimo y uno máximo de variación, mostrando en cada clase el número de elementos que contiene o sea la frecuencia.

La ordenación de datos en cuadros estadísticos, denominada forma tabular o tabulación, están constituidos por datos cuantitativos y éstos a su vez están en filas y columnas de acuerdo con las especificaciones de los datos. La tabulación es una presentación sistemática de los datos estadísticos de una investigación determinada, estos se presentan en forma resumida a través de las tablas o cuadros estadísticos.

Cuadros estadísticos: Son esquemas organizados en los que se registran los datos estadísticos en forma organizada con la frecuencia de cada uno de estos, los mismos se observan en columnas y filas con la finalidad de presentar la información recopilada de una investigación o estudio determinado. Por lo tanto, los cuadros estadísticos es una ordenación de datos numéricos en filas y columnas con las especificaciones correspondientes acerca de la naturaleza de los datos. Constituye una forma útil de presentar los datos estadísticos obtenidos en una investigación a través de cuadros, tablas y gráficos. Esta puede presentar la información para referencias generales o para un uso específico o particular.

Los cuadros estadísticos están compuestos por las siguientes partes:

título: ¿Qué son los datos incluidos en el cuerpo de la tabla?, ¿Dónde está el área representada por los datos?, ¿Cómo están los datos clasificados?, ¿Cuándo ocurrieron los datos?

Concepto o Columnas Matriz: La descripción en hilera de la tabla son llamados conceptos; y estos son colocados al lado izquierdo de la tabla. La naturaleza de las clasificaciones es indicada por los encabezados de las columnas, incluyendo la columna matriz.


Cuerpo del cuadro: El cuerpo del cuadro es la parte que contiene los datos

estadísticos presentados en éste. Cada dato individual ocupa en el cuadro un lugar

que corresponde a la intersección de una fila y una columna dada; por tanto, el

significado de los datos en un lugar está indicado por las especificaciones o partidas

combinadas de la columna y la fila que se interceptan.

Fuentes: Las fuentes de datos o simplemente fuentes, es usualmente escrita

debajo de las notas de pie. Si los datos fueron recopilados y presentados por la

misma persona, es costumbre no establecer la fuente en la tabla. El objeto de la

indicación de las fuentes de los datos es el de proporcionar el debido reconocimiento

a la persona u organismo que recopiló y /o publicó los datos, además de indicar, a

quienes deseen ampliar la información, el origen de la misma.

2.2. Representación Gráfica

El patrón de variación de los datos puede apreciarse mejor representando gráficamente la información contenida en el cuadro. Son expresiones en forma de figura, de información originada de un conjunto de datos estadísticos, que explican un fenómeno determinado. Son descripciones de operaciones y demostraciones que se representan por medio de figuras o signos, los mismos se realizan con los valores de los cuadros estadísticos. En otras palabras, es una representación de la relación entre variables, que se realiza en un plano determinado.

El fin que persigue todo gráfico es el de dar una idea rápida de la situación que en ese momento se está investigando. Por tal motivo, la presentación de los datos por medio de gráficos debe ser de una forma simple y de una compresión fácil. Es preferible construir un conjunto de gráficos en donde cada uno de ellos presente un aspecto sencillo de una situación determinada, que presentar un solo gráfico en el cual se observen demasiadas relaciones que se haga difícil estudiar de una forma efectiva. Por lo tanto, no debe sobrecargarse un gráfico para tratar de mostrar demasiadas categorías, ya que, la simplicidad es una de la característica básica de estos.

Partes de un gráfico estadístico

• Numeración.

• Título: Aquí se señala la población en estudio y la variable de interés.

• Diagrama: está dado por el propio dibujo, el cual representa el comportamiento de los datos.

• Escalas y/o leyendas: Son indicadores donde se precisa la correspondencia entre los elementos del gráfico y la naturaleza de las medidas representadas.

• Fuente: Aquí se señala el cuadro de frecuencias que permitió obtener el respectivo gráfico.


Criterios para construir gráficos

• No existe una regla específica para la construcción de gráficos, pero si es posible considerar algunas recomendaciones o criterios.

• Se emplea una diversidad de gráficos, cuya estructura o forma dependerá del tipo de variable que se está estudiando.

• Este gráfico debe tener rasgos simples y de fácil comprensión.

Existe una gran variedad de tipos de gráficos entre los que se pueden mencionar los pictogramas, cartogramas, de cuadrados, de triángulos y círculos proporcionales, de sectores circulares, de barras, lineales, estereogramas, polares, etc., pero los más utilizados y de interpretación sencilla son los: Los gráficos de barras, los de sectores circulares y los lineales. Solo se estudiarán las siguientes gráficas:

1.- Diagrama de Líneas.

2.- Diagrama de Barras.

3.- Diagrama Circular o de Pastel.

4.- Histograma.

5.- Polígono de Frecuencia.

6.- Polígono Acumulativo (OJIVA).

Los diagramas de líneas, el histograma, el polígono de frecuencia y la ojiva son gráficos cartesianos porque para su construcción requieren del plano cartesiano, a estos se le denominan en términos generales gráficos de líneas. El diagrama de barras y el de pastel se les denomina gráficos de sectores, puesto que, no requieren del plano cartesiano para su construcción.

Cabe aclarar que tanto las tablas como los gráficos deben acatar las órdenes según el tipo de norma con las que se trabaje, ya sea Icontec, Apa, Vancouver, etc.

El objetivo que corresponde ahora es presentar los principales procedimientos de Análisis Exploratorio de datos, en cuanto a su parte tabular y gráfica, para algunas de las distintas variables de la base de datos mencionada anteriormente, tanto en la plantilla de cálculo Excel, como en el complemento Megastat. Los procedimientos fueron realizados utilizando Microsoft Excel 2016, aunque son Muy parecidos a los de otras versiones de esta hoja de cálculo de Microsoft Office. 2.3. Instrucciones para las variables cualitativas


Cuando se quiere realizar un análisis descriptivo en donde únicamente se toman variables cualitativas, lo más habitual es construir tablas de frecuencia para cada variable individualmente, o tablas de contingencia relacionando dos variables. Los gráficos pueden ser creados a partir de las tablas. Para las variables cualitativas en Excel 2016 necesitamos utilizar las tablas dinámicas. 2.3.1. Tabla de frecuencia y gráficos de la variable ESTADO (cualitativa

nominal)

a) en la barra de menú seleccione insertar Tabla dinámica, vea la Figura 1.

Figura 1 Insertar Tabla dinámica

b) escoja la opción Tabla o rango y seleccione toda la base de datos (A1:J501) incluyendo los nombres de las variables (etiquetas). Figura 2

Figura 2 Crear Tabla dinámica


c) Elija dónde desea colocar el informe de tabla dinámica (nueva hoja de cálculo

o hoja de cálculo existente), por defecto escogemos hoja de cálculo existente y seleccione aceptar, aparece la apariencia de la Figura 3

Figura 3 Campos de la Tabla dinámica Observe a la derecha los nombres de las variables existentes en el archivo de datos, y que fueron seleccionados en el paso anterior. Como existe interés únicamente en la variable ESTADO debemos seleccionarla e inmediatamente aparece en el campo FILA. Las otras variables no formarán parte de la tabla. Debemos arrastrar también la variable ESTADO para el campo VALORES. Eso es necesario para especificar la acción que la tabla deberá ejecutar. La acción a realizar es el conteo de los valores, tal como es mostrado en la Figura 4.


Figura 4 Tabla dinámica de la variable ESTADO Cabe precisar que esta tabla como su nombre lo indica queda de forma dinámica, de tal manera que seleccionando la pestaña al lado derecho de la palaba ESTADO, podemos escoger las categorías que deseemos. Ahora si se quiere a partir de ella generar una tabla más completa con sus respectivas frecuencias relativas, la copiamos y la pegamos en otro especio cualquiera de la hoja de cálculo, y se procede a generar los porcentajes de la siguiente forma: Seleccionamos la tabla dinámica y la pegamos más abajo (en nuestro ejemplo a partir de la celda M18). Figura 5, en las celdas N18 y O18, escribimos respectivamente ni (frecuencia absoluta) y hi% (frecuencia relativa). Ahora en la celda O19 escribimos la siguiente formula: =N19/$N$24, y la copiamos para las demás celdas hasta la O24.


Figura 5 Generación Tabla de frecuencias variable ESTADO Finalmente, la tabla de frecuencias para la variable nominal ESTADO con su respectivo título será: Tabla No 1: Distribución de frecuencias del estado civil de 500 empleados de la empresa ABC. Ibagué agosto 2016.

A partir de los resultados de la tabla dinámica, es posible también construir gráficos. Para realizar esta actividad, se selecciona la tabla dinámica, parándose en la celda donde está la palabra ESTADO. En la barra de menú seleccionamos insertar Columna en 2-D, y en el cuadro de despliegue seleccionamos el gráfico adecuado (en nuestro caso las barras simples) Figura 6. Parados en la gráfica se puede ir a diseño rápido y mejorarla. También se puede modificar una serie de aspectos en su

ESTADO ni hi%

Casado 95 19%

Separado 104 21%

Soltero 105 21%

Unión Libre 93 19%

Viudo 103 21%

Total general 500 100%


apariencia, tales como escala, colores, títulos, entre otras. Se puede cambiar el tipo de gráfico seleccionando el mismo y escogiendo la herramienta “Cambiar tipo de gráfico” (por ejemplo, por un diagrama de sectores. Los gráficos generados son los mostrados en la figura 6 y 7.

Figura 6 Generación de gráficos variable ESTADO Grafica No 1: Diagrama de barras del estado civil de 500 empleados de la empresa ABC. Ibagué agosto 2016.


Grafica No 2: Diagrama circular del estado civil de 500 empleados de la empresa ABC. Ibagué agosto 2016.

Se puede de esta forma generar interpretaciones de la variable ESTADO. Por ejemplo:

• Casi en proporciones iguales, el estado civil de los empleados de la empresa ABC, se encuentra repartido para cada una de las diferentes categorías.

2.3.2. Tabla de frecuencia y gráficos de la variable ESTRATO (cualitativa

ordinal) Siguiendo los mismos pasos de la variable ESTADO, y teniendo cuidado en ordenar las categorías (bajo-medio-alto), se tabula y grafica la variable ESTRATO, la única diferencia es que la tabla de distribución de frecuencia tiene dos nuevas columnas (Ni y Hi%), frecuencia absoluta acumulada y frecuencia relativa acumulada respectivamente. Para generar Ni, nos ubicamos para nuestro caso en la celda P21, y colocamos la fórmula: =N21, luego desde la celda P22, escribimos: =P21+N22, y arrastramos esta celda hasta la última frecuencia absoluta acumulada (P23), de igual forma para generar Hi%, nos ubicamos en la celda Q21, y colocamos la fórmula: =O21, luego desde la celda Q22, escribimos: =Q21+O22, y arrastramos esta celda hasta la última frecuencia relativa acumulada (Q23). Ver Figura 7


Figura 7 Generación Tabla de frecuencias variable ESTRATO La tabla de frecuencias para la variable nominal ESTRATO con su respectivo título será: Tabla No 2: Distribución de frecuencias del estrato social de 500 empleados de la empresa ABC. Ibagué agosto 2016.

Grafica No 3: Diagrama de barras para el estrato social de 500 empleados de la empresa ABC. Ibagué agosto 2016.

ESTRATO ni hi% Ni Hi%

Bajo 160 32% 160 32%

Medio 184 37% 344 69%

Alto 156 31% 500 100%



Grafica No 4: Diagrama de sectores para el estrato social de 500 empleados de la empresa ABC. Ibagué agosto 2016.

Interpretación:

• Un 37% (184) de los 500 empleados de la empresa ABC de la ciudad de Ibagué, pertenecen al estrato medio, mientras que aproximadamente por proporciones iguales, los demás empleados pertenecen a los estratos bajo y alto. En cuanto a las frecuencias acumuladas podemos decir que 344 empleados que corresponde a un 69%, tiene un estrato social bajo o medio.

156160

184

Alto Bajo Medio


2.3.3. Tabla de frecuencia y gráficos de la variable EDUCACION (cuantitativa discreta)

Si la variable a analizar es discreta, por ejemplo, Años de Educación (EDUCACION) en la planilla “base de datos”, el procedimiento puede ser semejante al utilizado para la variable ESTRATO, sin embargo, al construir la tabla dinámica, Excel irá a seleccionar “Suma de EDUCACION” como acción (porque los valores de la variable son números), y se necesitará modificar eso para conteo de los valores, en configuración de campo de valor: Cuenta de EDUCACION, siguiendo el procedimiento que se ilustró en la Figura 4. Luego de realizar los ajustes necesarios, se obtendrá la siguiente tabla dinámica:

Y la siguiente tabla de distribución de frecuencias: Tabla No 3: Distribución de frecuencias de 500 empleados de la empresa ABC, según los años que se han educado. Ibagué agosto 2016.

Cuenta de EDUCACION

EDUCACION Total

8 54

12 201

14 6

15 125

16 63

17 11

18 9

19 28

20 2

21 1

Total general 500

EDUCACION ni hi% Ni Hi%

8 54 10.8% 54 10.8%

12 201 40.2% 255 51.0%

14 6 1.2% 261 52.2%

15 125 25.0% 386 77.2%

16 63 12.6% 449 89.8%

17 11 2.2% 460 92.0%

18 9 1.8% 469 93.8%

19 28 5.6% 497 99.4%

20 2 0.4% 499 99.8%

21 1 0.2% 500 100%



Las gráficas adecuadas para una variable cuantitativa discreta son el diagrama de líneas verticales para las frecuencias no acumuladas (ni y hi%), y el diagrama de líneas horizontales para las frecuencias acumuladas (Ni y Hi%). En el caso del diagrama de líneas verticales, se puede generar un diagrama de barras simples, como se explicó para las anteriores variables, pero por opciones de serie, llevar el ancho del intervalo al máximo que es del 500%. Grafica No 5: Diagrama líneas verticales para los años de educación de 500 empleados de la empresa ABC. Ibagué agosto 2016.

Excel no tiene la opción de graficar el diagrama de líneas horizontales para las frecuencias acumuladas, pero aprovechando, la opción de bordes, un buen acercamiento a este grafico es el siguiente: Grafica No 6: Diagrama líneas horizontales para los años de educación de 500 empleados de la empresa ABC. Ibagué agosto 2016.


Interpretación:

• Esta variable nos puede informar por ejemplo que el 40.2%, correspondiente a 201 empleados han tenido 12 años de educación, y tan solo el 6.2% (31 empleados), han estudiado entre 19 y 21 años.

• En cuanto a las frecuencias acumuladas, por ejemplo, el 93.8% (469 empleados), tienen máximo 18 años de educación.

2.3.4. Tabla de frecuencia y gráficos de la variable EDAD (cuantitativa

continua)

La disposición tabular de los datos estadísticos se encuentra ordenados en clases y con la frecuencia de cada clase; es decir, los datos originales de varios valores adyacentes del conjunto se combinan para formar un intervalo de clase. No existen normas establecidas para determinar cuándo es apropiado utilizar datos agrupados en clases o datos no agrupados en clases; sin embargo, se sugiere que cuando el número total de datos (n) es igual o superior 50 y además el rango o recorrido de la serie de datos es mayor de 20, entonces, se utilizará la distribución de frecuencia para datos agrupados en clases, también se utilizará este tipo de distribución cuando se requiera elaborar gráficos lineales como el histograma, el polígono de frecuencia o la ojiva.

La razón fundamental para utilizar la distribución de frecuencia de clases es proporcionar mejor comunicación acerca del patrón establecido en los datos y facilitar la manipulación de los mismos. Los datos se agrupan en clases con el fin de sintetizar, resumir, condensar o hacer que la información obtenida de una investigación sea manejable con mayor facilidad.

Este tipo de distribución se basa en el principio de que una observación no puede considerarse diferente de otra por presentar pequeñas diferencias cuantitativas, como por ejemplo el sueldo mensual de dos empleados que difieran en 500 pesos, de dos edades de personas adultas que difieran en un año, dos alturas de un edificio que difieran en un metro, el costo de 2 autos nuevos que difieran en 5000 pesos, etc.

Al agrupar los datos en una distribución de frecuencia de clase se pierde parte de la información. La reducción o agrupamiento a que son sometidos los datos de una serie de valores cuando existen muchos valores diferentes, originan los denominados errores de agrupamiento; sin embargo, estos errores son en general muy pequeños, razón por la cual la distribución de frecuencia de clase tiene una validez estadística práctica.


2.3.4.1. Componentes de una distribución de frecuencia de clase

1.- Rango o Amplitud total (recorrido): Es el límite dentro del cual están comprendidos todos los valores de la serie de datos, en otras palabras, es el número de diferentes valores que toma la variable en un estudio o investigación dada. Es la diferencia entre el valor máximo de una variable y el valor mínimo que ésta toma en una investigación cualquiera. El rango es el tamaño del intervalo en el cual se ubican todos los valores que pueden tomar los diferentes datos de la serie de valores, desde el menor de ellos hasta el valor mayor estando incluidos ambos extremos. El rango de una distribución de frecuencia se designa con la letra R.

Para obtener el rango, se tienen que identificar los extremos del conjunto de datos, o sea, sus valores máximo y mínimo. Se iniciará por el mínimo. Seleccione una celda donde desea que el resultado sea colocado: por ejemplo, la celda L2. Seleccione esta celda con el cursor. Observe que en la barra de herramientas de

Excel hay un botón llamado Insertar función , vea la Figura 8.

Figura 8. Barra de herramientas de Excel: “Insertar función”

Si presiona surgirá la pantalla vista en la Figura 9.


Figura 9. Funciones disponibles en Excel

Se puede seleccionar una categoría, y en la parte inferior se encuentran las funciones disponibles, con una breve descripción de cada una de ellas. Una de las categorías se llama: “Usadas recientemente”, que registra las últimas funciones aplicadas por el usuario, en cualquier planilla. Estamos especialmente interesados en las categorías “Matemáticas y trigonométricas”, “Lógicas” y, obviamente “Estadísticas”. Las funciones MAX y MIN se encuentran en esta última categoría. Seleccionando “Estadísticas” vamos a obtener el resultado de la Figura 10.

Figura 10. Funciones Estadísticas

Luego de seleccionar “Estadística”, basta buscar la función MIN: y observe la descripción en la parte inferior. También se puede pedir ayuda a Excel sobre la


descripción detallada de las funciones. Buscando detenidamente, se encontrarán otras funciones estadísticas muy útiles en el análisis de una variable cuantitativa. Una vez seleccionada la función y escogida la variable “EDAD”, (B1:B501), basta presionar ACEPTAR y para el caso de MIN se tendrá:

Figura 11. Función MIN

El mismo resultado podría ser obtenido simplemente digitando la fórmula directamente en la celda: =MIN(E2:E475) . Pueden ser utilizadas mayúsculas o minúsculas.

Para encontrar el valor máximo se puede realizar un proceso análogo utilizando la función MAX, pero colocando el resultado en otra celda, L3 por ejemplo. Para calcular el rango se puede colar una fórmula en la celda L4, haciendo la sustracción entre máximo y mínimo. Los resultados pueden observarse a continuación:

Figura 12. Rango de la variable EDAD

La menor edad es 29,84 y la mayor de 71,87, resultando en un rango de 42,03 aproximando a dos decimales. Este rango es el que se necesita para la construcción de la distribución en clases del conjunto de datos.

EDAD

Mínimo 29.83836

Máximo 71.86575

Rango 42.0274


2.- Dividir el rango en un número conveniente de clases: Usualmente se define el

número de clases (m), utilizando la ecuación de Sturges, m = 1+3.33 * log10 (n), como en nuestro caso n = 500 empleados, tenemos que el número de clases es aproximadamente igual a 10. De acuerdo a esto, la amplitud (o ancho de clase) sería igual al cociente entre el rango y el número de clases (R/m), dando como resultado, A = 4,203, esta amplitud la aproximamos a dos decimales (con este formato se está trabajando) por exceso, es decir, 4,21. Inmediatamente y para corregir dicha aproximación, redefinimos el rango, el mínimo y el máximo de la siguiente manera: R” = A x m = 4,21 x 10 = 42,1 R” – R = 42,1 – 42,03 = 0,07 Esta diferencia la dividimos en dos números los más equitativos, pero con dos decimales, para mantener el formato, es decir 0,03 y 0,04, uno de estos números lo restamos del mínimo y el otro se lo sumamos al máximo, lo cual quedaría: Mínimo redefinido = 29,84 – 0,03 =29,81 Máximo redefinido = 71,87 + 0,04 =71,91

3.- Generación de intervalos, marca de clase y frecuencias: Ahora en Excel Colocamos las convenciones que aparecen en la tabla. Para ello escogemos unas celdas vacías, por ejemplo, de K13 a Q13. Figura 14 Li: Límite inferior Ls: Límite superior Yi: Marca de clase ni: Frecuencia absoluta hi%: Frecuencia relativa Ni: Frecuencia absoluta acumulada Hi%: Frecuencia relativa acumulada En K14, colocamos el mínimo redefinido (29,81) y en L14, escribimos la fórmula =K14+4.21 que es el valor de la amplitud, luego en la celda K15 escribimos =L14, posteriormente arrastramos las celdas K15 y L15, hasta K23 y L23, completando de esta manera las diez clases donde se distribuirán las edades de los 500 empleados. Ahora las marcas de clase utilizan la siguiente fórmula: Yi = (Li + Ls)/2. Desde la celda M14, escribimos: =(K14+L14)/2, y ubicados en la misma celda, la arrastramos Hasta M23.


Figura 12. Función frecuencia

Para la frecuencia absoluta (ni), se selecciona el rango desde la celda N14 a N23,

se presiona y surgirá la pantalla vista en la Figura 12. Escogemos la función frecuencias, y damos aceptar. Aparece el cuadro de la figura 13 “Argumentos de función”.

Figura 13. Argumentos de la función frecuencia

En datos seleccionamos la variable EDAD (B1:B501), y en grupos el rango de los límites superiores del intervalo (L14:L23), no oprimimos aceptar, se oprimen las teclas

CTRL+MAYÚS+Entrar a la vez, de lo contrario solo se mostrará el valor de la celda N14. El mismo resultado podría ser obtenido simplemente digitando la fórmula


directamente en la celda: =FRECUENCIA(B1:B501;L14:L23), previa selección del rango desde la celda N14 a N23 . Pueden ser utilizadas mayúsculas o minúsculas. Para las demás frecuencias se repite el mismo procedimiento de la variable discreta.

Figura 14. Generación Tabla de frecuencias variable EDAD

Finalmente, la tabla de distribución de frecuencias con su respectivo título será: Tabla No 4: Distribución de frecuencias de 500 empleados de la empresa ABC, según la edad en años. Ibagué agosto 2016.

Li Ls Yi ni hi% Ni Hi%

29.81 34.02 31.92 83 16.6% 83 16.6%

34.02 38.23 36.13 142 28.4% 225 45.0%

38.23 42.44 40.34 87 17.4% 312 62.4%

42.44 46.65 44.55 21 4.2% 333 66.6%

46.65 50.86 48.76 27 5.4% 360 72.0%

50.86 55.07 52.97 33 6.6% 393 78.6%

55.07 59.28 57.18 29 5.8% 422 84.4%

59.28 63.49 61.39 29 5.8% 451 90.2%

63.49 67.7 65.60 26 5.2% 477 95.4%

67.7 71.91 69.81 23 4.6% 500 100.0%

500 100.0%TOTAL


Esta tabla puede ser usada para construir un histograma. Seleccionando los intervalos de la tabla, pero cada intervalo en una sola celda, la frecuencia absoluta (ni), escogiendo el gráfico de columnas, y reduciendo el ancho del intervalo a cero, entre otros ajustes, tal como se muestra en la Figura 15.

Figura 15. Tabla para generar el histograma de la variable EDAD

Grafica No 7: Histograma de frecuencias para los años de educación de 500 empleados de la empresa ABC. Ibagué agosto 2016.

Si se selecciona el grafico y se escoge la opción Diseño – Cambiar tipo de gráfico – Gráficos recomendados – Línea, se puede obtener el polígono. Figura 15

Intervalos ni

29.81 - 34.02 83

34.02 - 38.23 142

38.23 - 42.44 87

42.44 - 46.65 21

46.65 - 50.86 27

50.86 - 55.07 33

55.07 - 59.28 29

59.28 - 63.49 29

63.49 - 67.70 26

67.70 - 71.91 23


Figura 16. Generación del polígono de frecuencias para la variable EDAD Grafica No 8: Polígono de frecuencias para los años de educación de 500 empleados de la empresa ABC. Ibagué agosto 2016.

Ahora con la tabla que se muestra en la Figura 17, se puede construir la ojiva. Seleccionando los intervalos de la tabla, pero cada intervalo en una sola celda, la frecuencia absoluta acumulada (Ni), escogiendo el gráfico de líneas con marcadores, y realizando los ajustes necesarios.


Figura 17. Tabla para generar la ojiva de la variable EDAD

Grafica No 9: Ojiva de frecuencias para los años de educación de 500 empleados de la empresa ABC. Ibagué agosto 2016.

Algunas interpretaciones:

• 142 empleados que corresponden al 28.4%, tiene una edad comprendida entre 34,02 y 38,23 años, con un promedio de 36,13 años.

• 393 empleados que corresponden al 78.6%, tiene una edad máxima de 55,07 años.

2.3.5. Tabla de frecuencia bidimensional (contingencia) y gráfico de la

variable FUNCION vs ESTADO (2 variables cualitativas)

Intervalos Ni

29.81 - 34.02 83

34.02 - 38.23 225

38.23 - 42.44 312

42.44 - 46.65 333

46.65 - 50.86 360

50.86 - 55.07 393

55.07 - 59.28 422

59.28 - 63.49 451

63.49 - 67.70 477

67.70 - 71.91 500


El procedimiento es similar al descrito en el inciso 2.3.1, pero ahora serán utilizadas dos variables, teniendo como propósito construir una tabla de contingencia. Las instrucciones descritas en las literales a) a la c) del inciso 2.3.1 pueden ser repetidas literalmente. Las diferencias comienzan a aparecer cuando se hace el diseño de la tabla. Se arrastra una de las dos variables a FILAS, la otra a COLUMNAS, y cualquiera de las dos a ∑ VALORES, como lo indica la figura 18.

Figura 18. Tabla dinámica de contingencia para las variables FUNCION vs ESTADO

La tabla de frecuencias absoluta bidimensional con su respectivo título será: Tabla No 5: Distribución de frecuencias de la función de desempeño vs el estado civil de 500 empleados de la empresa ABC. Ibagué agosto 2016.

Si cada celda se divide por el tamaña de muestra (500), y se le da el formato porcentaje, se obtiene la tabla de frecuencias relativa bidimensional.

Cuenta de FUNCION ESTADO

FUNCION Casado Separado Soltero Unión Libre Viudo Total general

Gerencia 9 24 18 20 17 88

Oficina 79 73 80 69 84 385

Servicios Generales 7 7 7 4 2 27

Total general 95 104 105 93 103 500


Tabla No 6: Distribución de frecuencias porcentual de la función de desempeño vs el estado civil de 500 empleados de la empresa ABC. Ibagué agosto 2016.

Grafica No 10: Diagrama de barras compuestas de la función de desempeño vs el estado civil de 500 empleados de la empresa ABC. Ibagué agosto 2016.

Grafica No 11: Diagrama de barras apiladas de la función de desempeño vs el estado civil de 500 empleados de la empresa ABC. Ibagué agosto 2016.

FUNCION Casado Separado Soltero Unión Libre Viudo Total general

Gerencia 1.8% 4.8% 3.6% 4.0% 3.4% 17.6%

Oficina 15.8% 14.6% 16.0% 13.8% 16.8% 77.0%

Servicios Generales 1.4% 1.4% 1.4% 0.8% 0.4% 5.4%

Total general 19.0% 20.8% 21.0% 18.6% 20.6% 100%

ESTADO


Algunas interpretaciones:

• De los 500 empleados de la empresa ABC, 80 que corresponden al 16%, trabajan en oficina y son solteros.

• De los 500 empleados de la empresa ABC, 17 que corresponden al 3.4%, son gerentes y actualmente se encuentran viudos.

2.4. Ejercicios

1. Elaborar las tablas y graficas con sus respectivos títulos e interpretaciones, de las siguientes variables, correspondientes a la plantilla “base de datos”.

SEXO, = edad del empleado, expresada en años FUNCION = función que ocupa dentro de la empresa SALARIO = salario anual (miles de pesos) SERVICIO = años de servicio EXPERIENCIA = experiencia (años) ESTRATO = estrato social del empleado

Para el caso bidimensional, cruce las variables FUNCION vs ESTRATO

2. Clasifica las siguientes variables como cualitativas o cuantitativas, y a estas últimas como continuas o discretas. Identifique su escala de medición.

a) Intención de voto de un colectivo b) Nº de cartas que se escriben en un mes c) Número de calzado


d) Nº de Km. recorrido en un fin de semana e) Marcas de cerveza f) Nº de empleados de una empresa g) Altura h) Temperatura de un enfermo

3. Muchas de las personas que invierten en bolsa lo hacen para conseguir beneficios rápidos, por ello el tiempo en que mantienen las acciones es relativamente breve. Preguntada una muestra de 40 inversores habituales sobre el tiempo en meses que han mantenido sus últimas inversiones se recogieron los siguientes datos

10.5 11.2 9.9 15.0 11.4 12.7 16.5 10.1 12.7 11.4

11.6 6.2 7.9 8.3 10.9 8.1 3.8 10.5 11.7 8.4

12.5 11.2 9.1 10.4 9.1 13.4 12.3 5.9 11.4 8.8

7.4 8.6 13.6 14.7 11.5 11.5 10.9 9.8 12.9 9.9

Construye una tabla de frecuencias que recoja adecuadamente esta información, y

haz también alguna representación gráfica.

4. Investigados los precios por habitación de 50 hoteles de una ciudad se han obtenido los siguientes resultados

700 300 500 400 500 700 400 750 800 500

500 750 300 700 1000 1500 500 750 1200 800

400 500 300 500 1000 300 400 500 700 500

300 400 700 400 700 500 400 700 1000 750

700 800 750 700 750 800 700 700 1200 800

Determínese: a) La distribución de frecuencias de los precios. b) Porcentaje de hoteles con un precio superior a 750. c) Cuántos hoteles tienen un precio mayor o igual que 500 pero menor o igual a 1000.

d) Representar gráficamente dichas distribuciones.


5. El gobierno desea saber si el número medio de hijos por familia ha descendido respecto a la década anterior. Para ello ha encuestado a 50 familias respecto al número de hijos y ha obtenido los siguientes datos:

2 4 2 3 1 2 4 2 3 0 2 2 2 3 2 6 2 3 2 2 3 2 3 3 4

3 3 4 5 2 0 3 2 1 2 3 2 2 3 1 4 2 3 2 4 3 3 2 2 1

a) Construye la tabla de frecuencias a partir de estos datos. b) ¿Cuántas familias tienen exactamente tres hijos? c) ¿Qué porcentaje de familias tienen exactamente 3 hijos? d) ¿Qué porcentaje de las familias de la muestra tienen más de dos hijos?

¿Y menos de 3? e) Construye el grafico que consideres más adecuado con las frecuencias

no acumuladas f) Construye el gráfico que consideres más adecuado con las frecuencias

acumuladas.

6. En un hospital se desea hacer un estudio sobre los pesos de los recién nacidos. Para ello, se recogen los datos de 40 bebes y se tiene:

3.2 3.7 4.2 4.6 3.7 3.0 2.9 3.1 3.0 4.5

4.1 3.8 3.9 3.6 3.2 3.5 3.0 2.5 2.7 2.8

3.0 4.0 4.5 3.5 3.5 3.6 2.9 3.2 4.2 4.3

4.1 4.6 4.2 4.5 4.3 3.2 3.7 2.9 3.1 3.5

Se pide: a) Construir la tabla de frecuencias b) Si sabemos que los bebes que pesan menos de 3 kilos nacen prematuramente ¿Qué porcentaje de niños prematuros han nacido entre estos 40? c) Normalmente los niños que pesan más de 3 kilos y medio no necesitan estar en la incubadora ¿Puedes decirme que porcentaje de niños están en esta situación?

d) Representa gráficamente la información recogida

7. En una finca de apartamentos en el Tolima, se reúne la comunidad de vecinos para ver si contratan una persona que les lleve la contabilidad. El resultado de la votación es el siguiente: 25 vecinos a favor de la contratación,


15 vecinos en contra y 5 vecinos se abstienen. Construye la tabla de frecuencias para estos datos y representa gráficamente la información recogida mediante un diagrama de sectores.


3. ESTADISTICOS Son medidas de resumen que se calculan dentro de las muestras. Se clasifican en:

a) Medidas de posición b) Medidas de dispersión c) Medidas de forma d) Medidas de concentración

3.1. Medidas de posición: El análisis estadístico de una serie de datos se elabora mediante el cálculo de diferentes estadísticos. Después que los datos han sido reunidos y tabulados, se inicia el análisis con el fin de calcular un número único, que represente o resuma todos los datos. Por lo general, las frecuencias de los intervalos centrales de una serie de datos son mayores que el resto, ese número se le denomina medida de posición. Una medida de posición es un número que se escoge como orientación para hacer mención a un grupo de datos. Uno de los problemas fundamentales que presenta un análisis estadístico, es el de buscar el valor más representativo de una serie de valores. El primer paso que hay que realizar para que se entienda una larga serie de valores u observaciones, es el de resumir los datos en una distribución de frecuencia; esto no es suficiente para fines practico, puesto que a menudo es necesario una sola medida descriptiva, y en especial cuando se requiere comparar dos o más serie estadísticas. Es necesario continuar el proceso de reducción hasta sustituir todos los valores observados por uno solo que sea representativo, de tal forma que permita una interpretación global del fenómeno en estudio; para que ese valor sea representativo debe reflejar la tendencia de los datos individuales de la serie de valores. Un valor o dato de la serie con estas características recibe el nombre de promedio, media o medida de posición, esto es debido a su ubicación en la zona central de la distribución. Las medidas de posición son de gran importancia en el resumen estadístico, ya que representan un gran número de valores individuales por uno solo. El valor más representativo de un conjunto de datos por lo general no es el valor más pequeño ni el más grande, es un número cuyo valor se encuentra en un punto intermedio de la serie de datos. Por lo tanto, un promedio es con frecuencia un valor referido que representará la medida de posición de la serie de valores. Las medidas de posición se emplean con frecuencia como mecanismo para resumir un gran número de datos o cantidades con la finalidad de obtener un valor que sea representativo de la serie. Las Principales Medidas de Posición son:

a) La Media Aritmética, b) La Mediana, c) La Moda, d) Los cuartiles, e) Los Deciles y f) Los Percentiles.

3.1.1. Características de las medidas de posición

• Deben ser definidas rigurosamente y no ser susceptibles de diversas interpretaciones.


• Deben depender de todas las observaciones de la serie, de lo contrario no sería una

característica de la distribución.

• No deben tener un carácter matemático demasiado abstracto.

• Deben ser susceptibles de cálculo algebraico, rápido y fácil.

3.1.2. Media aritmética: La media aritmética ( X ) o simplemente la media es el parámetro de posición de más importancia en las aplicaciones estadísticas. Se trata del valor medio de todos los valores que toma la variable estadística de una serie de datos. Por lo tanto, la medida posicional más utilizada en los estudios estadísticos viene a ser la media. Por su fácil cálculo e interpretación, es la medida de posición más conocida y más utilizada en los cálculos estadísticos. La media es el valor más representativo de la serie de valores, es el punto de equilibrio, es el centro de gravedad de la serie de datos. La media aritmética por lo general se le

designa con X . La media aritmética de una serie de N valores de una variable X1, X2, X3; X4,.........Xn, es el cociente de dividir la sumatoria de todos los valores que toma la variable Xi, entre el número total de ellos. La fórmula se puede expresar así:

N

X

X

n

1i

i .

Desviaciones o desvíos. - Son diferencias algebraicas entre cada valor de la serie o cada punto medio y la media aritmética de dicha serie, o un valor cualquiera tomado arbitrariamente. Los desvíos o desviación se designan con la letra di. Dado una serie de valores X1, X2, X3, .......Xn, se llama desvío a la diferencia entre un valor cualquiera Xi de la serie y un valor indicado k de esa misma serie. Si el valor indicado k de la serie corresponde precisamente a la media aritmética de esos valores dados, se dice entonces que los desvíos son con respecto a la media

aritmética. En símbolo: ).( XXd ii

Propiedades de la media aritmética 1. La suma de las desviaciones con respecto a la media aritmética es igual a cero.

.0 id

2. La suma de las desviaciones al cuadrado de los diversos valores con respecto a la media aritmética es menor que la suma de las desviaciones al cuadrado de los diversos valores con respecto a cualquier punto K, que no sea la media

aritmética. 2 XX i 2

KX i .

3. La media aritmética total o conjunta de dos o más serie de datos, se puede calcular en función de las medias aritméticas parciales y del número de datos de cada una de ellas, mediante la siguiente formula:


,...............

3

3

2

2

1

1332211

k

kkkt

n

X

n

X

n

X

n

X

N

XnXnXnXnX

Donde:

,......321 knnnnN en esta n1, n2, n3 y nk es el número de datos de cada

serie. Además, sonXyXXX k .,.....,.,.,....,. 3.,21 las medias de cada una de las series.

4. La media del producto de una constante por una variable, es igual al producto

de la constante por la media de la variable.

.XKN

XK

N

KXX

ii

5. La media de la suma de una constante más una variable, es igual a la media de

la variable más la constante.

.KX

n

K

n

X

n

KXX

ii

KX i

., de

la misma forma se cumple esta propiedad para la resta.

Características principales de la media aritmética

1. El valor de la media depende de cada una de las medidas que forman la serie de datos, y se halla afectada excesivamente por los valores extremos de la serie de datos.

2. La media se calcula con facilidad y es única para cada caso y permite

representar mediante un solo valor la posición de la serie de valores. 3. La media es una medida de posición que se calcula con todos los datos de la

serie de valores y es susceptible de operaciones algebraicas. Cálculo de la media para datos no agrupados Para calcular la media de datos no agrupados en clases se aplica la siguiente formula:

N

XX

i . En donde N es el número total de datos y iX son los valores de

la variable. Ejemplo: Calcule la media aritmética de los siguientes valores:

14.,.11.,9,.8,.7,.5iX


.96

54

6

14119875

N

XX

i

Por lo tanto, la media es 9.

Cálculo de la media para datos agrupados Cuando se construye una distribución de frecuencia, los datos se agrupan en clases definidas por unos límites. Cuando se trabaja con la distribución de frecuencia se parte del supuesto de que todos los datos comprendidos en un intervalo de clase se distribuyen uniformemente a lo largo de este, entonces se puede tomar la marca

de clase o punto medio ( X ) del intervalo como adecuada representación de los valores que conforman el mencionado intervalo. El punto medio se designa con la

letra X . Para calcular la media en estas condiciones se pueden utilizar los pasos a siguientes:

• Se agrupan los datos en clases y se llevan a una columna, se calculan los puntos medios de cada clase y se colocan en sus respectivas columnas, se determinan las frecuencias de cada clase y se ubican en sus respectivas columnas.

• Se multiplican los puntos medios de cada clase por sus respectivas frecuencias, luego se obtiene la sumatoria de las frecuencias (fi) multiplicadas

por el punto medio ( X ) así: ii Xf .

• Luego se calcula la media aritmética aplicando la fórmula:

NDondeN

Xf

Nf

XfX

i

i

ii.....

es igual al número total de datos. fi representa

la frecuencia absoluta, que en el capítulo de distribuciones de frecuencias se ha denotado como ni. Ejemplo: Calcule la media de la siguiente distribución de frecuencia correspondiente al peso en Kg de un grupo de obreros. Realice los cálculos respectivos para completar el siguiente cuadro.

CLASES if

75-------79 20 80-------84 40 85-------89 60 90-------94 100 95 ------99 140

if N =360


CLASES X if Xf i

75-------79 77 20 1540 80-------84 82 40 3280 85-------89 87 60 5220 90-------94 92 100 9200 95 ------99 97 140 13580

TOTAL if N =360 ii Xf 32820

Aplicando la formula se tiene:

.17.91360

32820

N

XfX

ii

Kg

3.3.1. La mediana: La mediana (Md) es una medida de posición que divide a la

serie de valores en dos partes iguales, un cincuenta por ciento que es mayor o igual

a esta y otro cincuenta por ciento que es menor o igual que ella. Es por lo tanto, un

estadístico que está en el medio del ordenamiento o arreglo de los datos

organizados, entonces, la mediana divide la distribución en una forma tal que a cada

lado de la misma queda un número igual de datos.

Para encontrar la mediana en una serie de datos no agrupados, lo primero que se hace es ordenar los datos en una forma creciente o decreciente y luego se ubica la posición que esta ocupa en esa serie de datos; para ello hay que determinar si la serie de datos es par o impar. Si el número N de datos es impar, entonces la

posición de la mediana se determina por la fórmula:2

1Np

Md

, luego el número

que se obtiene indica el lugar o posición que ocupa la mediana en la serie de valores. Para obtener la posición de la mediana en una serie de datos no agrupados,

en donde el número N de datos es par, se aplica la formula 2

NPMd El

resultado obtenido, es la posición que ocupara la mediana, pero en este caso se ubica la posición de la mediana por ambos extremos de la serie de valores y los dos valores que se obtengan se le saca la media y esta será la mediana buscada, por lo tanto la mediana, en este caso, es un número que no se encuentra dentro de la serie de datos dados. Ejemplos:

• Sean los siguientes datos, 5, 12, 7, 8, 10, 6, y 9, los años de servicios de un grupo de trabajadores. Determine la mediana. Lo primero que se hace es ordenar

los datos en forma creciente o decreciente; luego se aplica la formula 2

1

NPMd

, para ubicar la posición de la mediana. Los datos ordenados quedaran así: 5, 6,

7, 8, 9, 10, 12. La posición .42

17

Mdp Esto indica que la mediana ocupa la


posición 4 en la serie de valores y por lo tanto esa posición corresponde a los números 8 y 9 que en este caso ocupan la posición por la izquierda y por la derecha,

por lo tanto la Md viene a ser la semisuma de ambas posiciones

5.8

2

98en

este caso 8.5 es la mediana. Cuando los valores de los datos brutos de un conjunto de datos se agrupan en una distribución de frecuencia de clase, cada valor pierde su identidad, por tal motivo la mediana obtenida de una distribución de frecuencia de datos puede no ser la misma que la mediana obtenida de los datos sin arreglar en clases, pero el resultado será una aproximación. Cuando se obtiene la mediana para datos agrupados se utiliza el método de interpolación. La interpolación parte del supuesto de que los datos de cada intervalo de la distribución están igualmente distribuidos. Pasos para determinar la mediana en datos agrupados

• Se elabora la tabla de frecuencia de datos con sus diferentes intervalos de clases, se ubican las frecuencias fi (ni) y se calculan las frecuencias acumuladas Fa (Ni)de esa distribución.

• Se determina la ubicación o posición de la mediana en el intervalo de la

distribución de frecuencia, mediante la fórmula 2

NPMd . El resultado obtenido

determinará la clase donde se encuentra ubicada la mediana, lo cual se conseguirá en la clase donde la frecuencia acumulada Fa sea igual o superior a este resultado.

Luego se aplica la fórmula: ,2 Icfm

FaaN

LiMd

en esta fórmula Md es la

mediana, Li es el límite real inferior de la clase donde se encuentra ubicada la mediana, Faa es el valor de la frecuencia acumulada anterior a la clase donde se encuentra la mediana, fm es el valor de la frecuencia fi de la clase donde se encuentra la mediana, Ic es el valor o longitud del intervalo de clase y N es el número total de datos de la distribución en estudio. Ejemplo: Dada la siguiente distribución de frecuencia referida a las horas extras laboradas por un grupo de obreros. Calcule la mediana. Realice los cálculos respectivos para completar el siguiente cuadro.

N° de horas Extras Obreros CLASES fi 55------59 6 60------64 20 65------69 18 70------74 50 75------79 17 80------84 16


85------89 5 N = 132

Cuadro con las frecuencias acumuladas:

N° de horas Extras Obreros Obreros CLASES fi fa 55------59 6 6 60------64 20 26 65------69 18 44 70------74 50 94 75------79 17 111 80------84 16 127 85------89 5 132

N = 132

Ahora se aplica la fórmula: Icfm

FaaN

LiMd

2

N = 132, ,662

132

2

N luego la mediana se encuentra en la clase 70----74, por

lo tanto el limite real inferior de esa clase es 69.5 = Li. La frecuencia fi de esa clase es 50 = fm , Faa = 44 y el Ic = 5. Aplicando la formula se tiene:

.70.712.25.695.50

225.695

50

44665.69Md

Luego la mediana de esa distribución es 71.70. Esto quiere decir que un 50 % de los obreros trabajaron horas extras por debajo de 71.70 horas y el otro 50 % trabajaron horas extras por encima de 71.70 horas. Características de la mediana

• La mediana no es afectada por los valores extremos de una serie de valores, puesto que la misma no es calculada con todos los valores de la serie.

• La mediana no está definida algebraicamente, ya que para su cálculo no intervienen todos los valores de la serie.

• La mediana en algunos casos no se puede calcular exactamente y esto ocurre cuando en una serie de valores para datos no agrupados el número de datos es par, en este caso la mediana se calcula aproximadamente.


• La mediana se puede calcular en aquellas distribuciones de frecuencia de clases abierta, siempre y cuando los elementos centrales puedan ser determinados.

• La suma de los valores absolutos de las desviaciones de los datos individuales con respecto a la mediana siempre es mínima.

3.3.2. La moda: La moda es la medida de posición que indica la magnitud del valor que se presenta con más frecuencia en una serie de datos; es pues, el valor de la variable que más se repite en un conjunto de datos. De las medias de posición la moda es la que se determina con mayor facilidad, ya que se puede obtener por una simple observación de los datos en estudio, puesto que la moda es el dato que se observa con mayor frecuencia. La moda se designa con las letras Mo. En las representaciones gráficas la moda es el punto más alto de la gráfica. La obtención de la moda para datos agrupados no es un valor exacto, ya que varía con las diferentes formas de agrupar una distribución de frecuencia. En algunas distribuciones de frecuencias o serie de datos no agrupados o agrupados se presentan dos o más modas, en esta casa se habla de serie de datos bimodales o multimodales, según sea el caso. Estos tipos de distribuciones o series de valores se deben a la falta de homogeneidad de los datos. Cuando una serie de valores es simétrica, la media, la mediana y el modo coinciden, y si la asimetría de la serie es moderada, la mediana estará situada entre la media y el modo con una separación de un tercio entre ambas. Tomando en cuenta esta relación, cuando se tengan dos de esta medidas se puede determinar la tercera; sin embargo es conveniente utilizar esta relación para calcular solamente la moda ya que para calcular la media y la mediana existen fórmulas matemáticas que dan resultados más exactos; la fórmula matemática para calcular la moda por medio de

la relación antes mencionada es: MdXXMo 3 .

Para calcular la moda en datos agrupados existen varios métodos; cada uno de los métodos puede dar un valor diferente de la moda: Aquí se dará un método el cual se puede considerar uno de los más precisos en el cálculo de esta. Es un método matemático que consiste en la interpolación mediante la siguiente formula:

IcLiMo .21

1

, en donde Mo es la moda, Li es el límite real de la clase

que presenta el mayor número de frecuencia; la clase que presenta el mayor número de frecuencias fi se le denomina clase modal y a las frecuencias de esa

clases se les denomina frecuencia modal fm, 1 es la diferencia entre la frecuencia

de la clase modal ( fm) y la frecuencia de la clase anterior a la modal, la cual se

designa con fa , entonces, )(1 fafm ; 2 es la diferencia entre la frecuencia


de la clase modal (fm) y la frecuencia de la clase siguiente a la modal, esta se

designa con fs , entonces, ).(2 fsfm

Ejemplo: Dada la siguiente distribución de frecuencia correspondiente al peso en Kg de un grupo de trabajadores de una empresa, calcule la moda.

CLASES fi 30-----39 2 40-----49 2 50-----59 7 60-----69 11 70-----79 12 80-----89 16 90-----99 2 TOTAL

La clase modal es 80----89, entonces Li = 79.5 y su fm = 16, fa = 12 y fs = 2,

10Ic , entonces:

14216ff;..41216ffsm21am1

Aplicando la formula se tiene:

.71.8122.25.7918

405.7910.

144

45.79MoLMo

21

1

i

Este resultado de la moda se interpreta así: La mayoría de los trabajadores tiene un peso aproximadamente de 81.71 Kg. Características de la moda

• El valor de la moda puede ser afectado grandemente por el método de elaboración de los intervalos de clases.

• El valor de la moda no se halla afectado por la magnitud de los valores extremos de una serie de valores, como sucede en la media aritmética.

• La moda se puede obtener en una forma aproximada muy fácilmente, puesto que la obtención exacta es algo complicado.

• La moda tiene poca utilidad en una distribución de frecuencia que no posea suficientes datos y que no ofrezcan una marcada tendencia central.

• No es susceptible de operaciones algebraicas posteriores.

• La moda se utiliza cuando se trabaja con escalas nominales, aunque se puede utilizar con las otras escalas.


• La moda es útil cuando se está interesado en tener una idea aproximada de la mayor concentración de una serie de datos.

3.3.3. Otras medidas posiciónales: Cuando se estudió la mediana se pudo detectar que esta divide la serie de valores en dos partes iguales, una generalización de esta medida da origen a unas nuevas medidas de posición denominadas: Cuartiles, Deciles y Percentiles. Estas nuevas medidas de posición surgen por la necesidad de requerir de otras medidas que expresen diferentes situaciones de orden, aparte de las señaladas por la mediana. Por lo tanto, es interesante ubicar otras medidas que fraccionen una serie de datos en diferentes partes. Es bueno destacar que los cuarteles, los Deciles y los Percentiles son unas variantes de la mediana: De la misma forma los percentiles abarcan tanto a los cuarteles como a los Deciles. Los cuartiles: Son medidas posiciónales que dividen la distribución de frecuencia en cuatro partes iguales. Se designa por el símbolo Qa en la que a corresponde a los valores 1, 2 y 3., que viene a ser el número de Qa que posee una distribución de frecuencia de clase. El Q1 divide la distribución de frecuencia en dos partes, una corresponde a 25 % que está por debajo de Q1 y el otro 75 % por encima de Q1. El Q2 divide la distribución de frecuencia en dos partes iguales, un 50 % que está por debajo de los valores de Q2 y otro 50 % que está por encima del valor de Q2. El Q2 es igual a la mediana. Cálculo de los cuartiles: Para datos no agrupados no tiene ninguna utilidad práctica calcular los cuartiles. Para el cálculo de los cuartiles en datos agrupados en una distribución de frecuencia existe un método por análisis gráfico y otro por determinación numérica, por fines prácticos en esta cátedra se utilizará el último método. Para calcular los cuartiles por el método numérico se procede de la siguiente manera:

• Se localiza la posición del cuartil solicitado aplicando la fórmula de posición:

4

aNPQa , en donde a viene a ser el número del cuartil solicitado, N

corresponde al número total de datos de la distribución y 4 corresponde al número de cuartiles que presenta una distribución de frecuencia.

• Luego se aplica la fórmula para determinar un cuartil determinado, así:

..4 Icfm

FaaaN

LiQa

En esta fórmula, Qa = El cuartil solicitado, en esta a

corresponde al número del cuartil solicitado; Li = Limite real inferior de la clase donde se encuentra ubicado el cuartil; Faa = Frecuencia acumulada anterior a la clase donde se encuentra el cuartil; fm = Frecuencia fi que posee el intervalo de


clase donde se encuentra el cuartil; 4

aNPQa = Posición que ocupa el cuartil en

la distribución de frecuencia, este resultado obtenido determinará la clase donde se encuentra ubicado el cuartil, el mismo se encontrará en la clase donde la frecuencia acumulada Fa sea igual o superior a este resultado. Los deciles: Son medidas de posición que dividen la distribución de frecuencia en diez partes iguales y estas van desde el número uno hasta el número nueve. Los deciles se les designa con las letras Da, siendo a, el número de los diferentes deciles, que en este caso son nueve. El D2 es el punto debajo del cual se encuentran ubicados el 20 % de los valores de la distribución o también el punto por sobre el cual se encuentra el 80 % de los valores de la serie de datos. La mediana es igual al D5, puesto que este decil divide la distribución en dos partes iguale tal como lo hace la mediana, de la misma forma el decil cinco es igual al cuartil dos. Cálculo de los deciles: El cálculo de los deciles es similar al cálculo de los cuartiles, solo que en estos varía la posición, la misma se calcula con la fórmula:

10

aNPDa , en esta a corresponde al número del decil que se desea calcular, N

equivale al número de datos de la distribución y 10 corresponde a las diez partes en la que se divide la serie de valores de la distribución.

La fórmula para su cálculo es: Icfm

FaaaN

LiDa .10

. En este caso se aplica la

fórmula de la misma manera que se hizo para calcular los cuartiles, solo que en esta fórmula varia la posición de ubicación de la clase donde se encuentra ubicado el decil. Los percentiles: Son medidas posicióneles que dividen la distribución de frecuencia en 100 partes iguales. Con estos se puede calcular cualquier porcentaje de datos de la distribución de frecuencia. Los percentiles son las medidas más utilizadas para propósitos de ubicación de valor de una serie de datos ubicados en una distribución de frecuencia. El número de percentiles de una distribución de frecuencia es de 99. El percentil 50 es igual a la mediana, al decil 5 y al cuartil 2, es

decir: %50.5052 PDQMd por encima y 50 % por debajo de los datos de la

distribución. Cálculo de los percentiles: es similar al cálculo de los cuartiles y los deciles con una variante en la posición de ubicación de estos, que viene expresada por la siguiente formula:

100

aNPPa . Con esta posición se aplica la fórmula: Ic

fm

FaaaN

LiPa .100

.


Ejemplo: Dada la siguiente distribución correspondiente al salario semanal en dólares de un grupo de obreros de una empresa petrolera trasnacional. Calcule: a) Q1, b) Q2, c) Compare los resultados con la mediana D3, d) D5, e) P25, f) P50, g) P7

SALARIO EN $ fi Fa 200-----299 85 85 300-----399 90 175 400-----499 120 295 500-----599 70 365 600-----699 62 427 700-----799 36 463 Totales = N 463

a) Para calcular Q1, se determina primero la posición así:

.75.1154

463

4

46311

xPQ

PQ1 = 115.75. Con ese valor de la posición encontrado se busca en las frecuencias acumuladas para ver cuál de esas contiene ese valor. Observando las frecuencias acumuladas se puede detectar que la posición 115.75 se encuentra en la clase 300------399, por lo tanto, el Li = 299.5, fm = 90, y la Faa = 85 y Ic = 100, aplicando la formula se tiene:

.67.33317.345.29990

30755.299100.

90

8575.1155.2991

Q

Este valor de Q1 indica que el 25 % de los obreros en estudio, devengan un salario semanal por debajo de $ 333.67 y el 75 % restante gana un salario por encima de $ 333.67. b) Para calcular Q2=Md se determina primero la posición de este así.

5.2314

46322

xPQ

, ahora se ubica esta posición en las frecuencias acumulados

para determinar la posición de Q2, se puede observar en la distribución que esta posición de Q2 está ubicada en la clase 400----499, entonces, Li = 399.5, fm = 120, Faa = 175 y Ic = 100, aplicando la formula se tiene:

.58.44608.475.399120

56505.399100.

120

1755.2315.3992

Q

Este resultado de Q2 establece que el 50 % de los obreros de este estudio, devengan un salario semanal por debajo de $ 446.58 y el otro 50 % devenga un sueldo por encima de $ 446.58. Calcule la mediana y compárela con este resultado.


c) Para determinar D3 = P30 hay primero que calcular la posición de este así:

9.13810

46333

xPD

, ahora se ubica esta posición en las frecuencias acumuladas

para determinar la posición de D3, en la tabla de la distribución de frecuencia se observa que D3 se encuentra en la clase 300----399, luego, Li = 299.5, fm = 90, Faa = 85 y Ic = 100, aplicando la formula se tiene:

39.35989.595.299100.90

859.1385.2993

D . Esto indica que un 30 % de los

obreros ganan un salario semanal por debajo de $ 359.39 y el 70 % restante devenga un sueldo por encima de $ 359.39. d) Calcular, D5 = Q2 = P50, además P25 = Q1, la comprobación de estos resultados se le deja como practica al estudiante. g) Para calcular P70 lo primero que se hace es determinar la posición,

10.324'100

4637070

xPP

. Ahora se ubica este resultado en la columna de frecuencias

acumuladas para encontrar la posición de P70 en la distribución de frecuencia. Como se puede observar en la tabla de distribución de frecuencia, P70 se encuentra ubicado en la clase 500-------599, entonces, Li = 499.5, fm = 70, Faa = 295 y Ic = 100, aplicando la formula se tiene:

.07.54157.415.49970

29105.499100.

70

29510.3245.49970

P

Esto indica que el 70 % de los obreros devengan un sueldo semanal que está por debajo de $ 541.07 y que el 30 % de los restantes obreros, ganan un salario por encima de $ 541.07. Porcentajes de valores que están por debajo o por encima de un valor determinado: Muchas veces necesitamos conocer el porcentaje de valores que están por debajo o por encima de un valor determinado; lo que representa un tipo de problema contrario al estudiado anteriormente, esto es, dado un cierto valor en el eje de abscisa (X) del plano cartesiano, determinar en la ordenada (Y) el tanto por ciento de valores inferiores y superiores al valor dado. Operación que se resuelve utilizando la siguiente fórmula matemática:

NI

LPffaap

c

ii 100(

, donde:

porcentajep que se quiere buscar.

P Valor dado en el eje de las X (valor que se ubica en las clases). faa Frecuencia acumulada de la clase anterior a la clase donde se encuentra

ubicado P.

if Frecuencia de la clase donde se encuentra ubicada P.

iL Límite inferior de la clase donde se encuentra ubicada P.

cI Intervalo de clase.

N = Número total de datos o total de frecuencias.


Ejemplo: Utilizando los datos de la distribución de frecuencia anterior, Determine qué porcentaje de obreros ganan un salario semanal inferior a $ 450. Solución: Datos:

?p

P 450 faa 175

iL 400

cI 100

N = 463 Ahora se aplica la fórmula:

NI

LPffaap

c

ii 100(

, Sustituyendo valores se tiene:

75.50463

100

100

400450(120175

pp

De acuerdo con el resultado se puede afirmar que el 50.75 % de los obreros devengan un salario inferior a $ 450 y el 49.25 % de los obreros ganan un salario superior a $ 450. 3.2. Medidas de dispersión: Las medidas de posición central son los valores que de una manera condensada representan una serie de datos, pero realmente no son suficientes para caracterizar una distribución de frecuencia. Para describir una distribución de frecuencia o serie de datos es necesario, por lo menos otra medida que indique la dispersión o variabilidad de los datos, es decir, su alejamiento de las medidas de posición central. Estas medidas de posición central no tienen ningún valor si no se conoce como se acercan o se alejan esos valores con respecto al promedio, en otras palabras, es conocer cómo se dispersan o varían esos valores con respecto al promedio de una distribución de frecuencia. La dispersión o variabilidad: se entiende como el hecho de que los valores de una serie difieran uno de otro, es decir, como se están dispersando o distribuyendo en la distribución. De acuerdo con esto es necesario encontrar una medida que indique hasta qué punto los valores de una variable están dispersos en relación con el valor típico. Las medidas de variabilidad son números que expresan la forma en que los valores de una serie de datos cambian alrededor de una medida de posición central la cual por lo general es la media aritmética.


La dispersión puede ser mayor o menor, tomando en cuenta esas diferencias. La variabilidad es la esencia de la estadística, puesto que las variables y atributos se caracterizan siempre por diferencias de valores entre observaciones individuales. Casi siempre en una distribución de frecuencia el promedio obtenido difiere de los datos de la serie; por esto es importante determinar el grado de variación o dispersión de los datos de una serie de valores con respecto al promedio. Las medidas de dispersión se clasifican en dos grandes grupos: a) Las Medidas de Dispersión Absolutas y las Relativas; las Relativas, vienen expresadas en las mismas medidas que se identifican la serie de datos, las mismas son: 1) El Recorrido, 2) La Desviación cuartilica, 3) La Desviación Semicuartilica, 4) La desviación Media, 5) La Desviación Típica o Estándar 6) La varianza. Las Medidas de Dispersión relativa. Son relaciones entre medidas de dispersión absolutas y medidas de tendencia central multiplicadas por 100, por lo tanto, vienen expresadas en porcentaje, su función es la de encontrar entre varias distribuciones la dispersión existente entre ellas. La medida de dispersión relativa de mayor importancia es el Coeficiente de Variación. Se llama Variación o Dispersión de los datos, el grado en que los valores de una distribución o serie numérica tiende a acercarse o alejarse alrededor de un promedio. Cuando la dispersión es baja indica que la serie de valores es relativamente homogénea mientras que una variabilidad alta indica una serie de valores heterogénea. Cuando los valores observados de una serie están muy concentrados alrededor del

promedio, se dice que ese promedio es o será muy representativo; pero si están

muy dispersos con relación al promedio, es decir muy esparcidos con respecto al

promedio, entonces ese promedio es poco representativo de la serie o distribución,

puesto que no representan adecuadamente los datos individuales de esa

distribución. Es importante obtener una medida que indique hasta qué punto las

observaciones de una serie de valores están variando en relación con el valor típico

de la serie.

3.2.1. Rango o Recorrido (R): Es la primera medida de dispersión, no está

relacionada con ningún promedio en particular, ya que este se relaciona con los

datos mismos, puesto que su cálculo se determina restándole al dato mayor de una

serie el dato menor de la misma. El rango es el número de variables diferentes que

posee una serie de valores. Su fórmula se calcula así:

Rango(R) = Dato mayor (XM)Dato Menor (Xm)

R = XM Xm. El rango es la medida de dispersión más sencilla e inexacta dentro de

las medidas de dispersión absoluta.


3.2.2. Desviación íntercuartilica (DC): La desviación íntercuartilica es la diferencia

que existe entre el cuartil tres (Q3) y el cuartil uno (Q1) de una distribución de

frecuencia y se expresa así: DC = Q3 Q1.

3.2.3. desviación semi-íntercuartilica (DSC): La desviación semi-íntercuartilica es

la diferencia entre el Q3 y el Q1 dividido entre dos:

2

13 QQDSC

.

Si los valores de la DC o DSC son pequeños indica una alta concentración de los

datos de la distribución en los valores centrales de la serie de datos. Estas medidas

se utilizan para comparar los grados de variación de los valores centrales en

diferentes distribuciones de frecuencias. Los mismos no son afectados por los

valores extremos, no se adaptan a la manipulación algebraica, por tal motivo son de

poca utilidad.

3.2.4. Desviación media: La desviación media de un conjunto de N observaciones

x1, x2, x3, .............xn, es el promedio de los valores absolutos de las desviaciones

(di) con respecto a la media aritmética o la mediana. Si se denomina como DM a la

desviación media, entonces su fórmula matemática será la siguiente:

Esta fórmula es para datos no agrupados. Se toma el valor absoluto en la ecuación,

debido a que la primera propiedad de la media aritmética establece que los desvíos

(di) de una serie con respecto a la media aritmética siempre son iguales a cero, es

decir: di = 0.

Cuando los datos están en una distribución de clases o agrupados se aplica la

siguiente formula:

En esta fórmula X es el punto medio de cada clase y fi es la frecuencia de cada

clase. La Desviación Media a pesar de que para su cálculo se toman todas las

observaciones de la serie, por el motivo de no tomar en cuenta los signos de las

desviaciones (di), es de difícil manejo algebraico. Su utilización en estadística es

muy reducida o casi nula, su importancia es meramente histórica, ya que de esta

fórmula es la que da origen a la desviación típica o estándar.

N

d

N

XX

DM

N

i

i

N

i

i

11

N

df

N

fXX

DM

N

1i

ii

N

1i

ii


3.2.5. Desviación típica o Estándar: Es la medida de dispersión más utilizada en

las investigaciones por ser la más estable de todas, ya que para su cálculo se

utilizan todos los desvíos con respecto a la media aritmética de las observaciones,

y, además, se toman en cuenta los signos de esos desvíos. Se le designa con la

letra castellana S cuando se trabaja con una muestra y con la letra griega minúscula

(Sigma) cuando se trabaja con una población. Es importante destacar que cuando

se hace referencia a la población él número de datos se expresa con N y cuando se

refiere a la muestra él número de datos se expresa con n. La desviación típica se

define como:

“La raíz cuadrada positiva del promedio aritmético de los cuadrados de los desvíos

de las observaciones con respecto a su media aritmética”. La desviación típica es

una forma refinada de la desviación media”.

Características de la Desviación Típica:

• La desviación típica se calcula con cada uno de los valores de una serie de

datos.

• La desviación típica se calcula con respecto a la media aritmética de las

observaciones de una serie de datos, y mide la variación alrededor de la

media.

• La desviación típica es susceptible de operaciones algebraicas, puesto que

para su cálculo se utilizan los signos positivos y negativos de los desvíos de

todas las observaciones de una serie de valores, por lo tanto, es una medida

completamente matemática.

• Es una medida de bastante precisión, que se encarga de medir el promedio

de la dispersión de las observaciones de una muestra estadística. Las

influencias de las fluctuaciones del azar, al momento de seleccionar la

muestra la afectan muy poco. Le da gran significación a la media aritmética

de la serie de valores.

• Es siempre una cantidad positiva.

Interpretación de la desviación típica: La desviación típica como medida absoluta

de dispersión, es la que mejor nos proporciona la variación de los datos con

respecto a la media aritmética, su valor se encuentra en relación directa con la

dispersión de los datos, a mayor dispersión de ellos, mayor desviación típica, y a

menor dispersión, menor desviación típica.


Su mayor utilidad se presenta en una distribución normal, ya que en dicha

distribución en el intervalo determinado por X se encuentra el 68. 27% de los

datos de la serie; en el intervalo determinado por la 2X se encuentra el 95,45%

de los datos y entre la 3X se encuentra la casi totalidad de los datos, es decir,

el 99,73% de los datos; además, existe una regla general de gran utilidad para la

comprobación de los cálculos que dice: “una oscilación igual a seis veces la ,

centrada en la media comprende aproximadamente el 99% de los datos”. Ver figura

19.

Figura 19. Porcentajes característicos de la distribución normal

A la zona limitada por la X conoce bajo el nombre de zona normal, ya que se

considera a los datos que caen dentro de esa zona, datos normales en relación con

el grupo estudiado; los datos que estén por encima o por debajo de dicho intervalo

se consideran supranormales e infranormales.

Cálculo de la Desviación Típica: La desviación típica para calcularla se procede

de dos formas: a) Para datos no agrupados en clases, b) Para datos agrupados en

clases.

a) Para datos no Agrupados.- Las fórmulas para determinar la desviación

típica de una S y de una son:

95,45%

99,73%

Media

68,27%

11

)(..1

22

n

d

n

XXS

ii


Es importante recordar que cuando se trabaja con la formula para datos no

agrupados y se trata de una muestra se utilizará como denominador n1, para

corregir el sesgo.

Para caular la desviacián tipica de una poblacián para datos no agrupados, se

utilizan las siguientes formulas:

Método para calcular la Desviación Típica en datos no agrupados:

• Se calcula la media aritmética.

• Se calculan los desvíos (di) de la serie de valores Xi, con respecto a la media aritmética.

• Se elevan al cuadrado cada una de las desviaciones (di)2 , y se determina la

sumatoria de esos. De la misma forma se elevan al cuadrado cada uno de

los Xi y se calcula la sumatoria de estos; de igual manera se calcula la

sumatoria de los Xi y se elevan al cuadrado. Despues de hacer todos estos

cálculos se elabora un cuadro estadístico con estos cálculos.

)1(

)(

1

)(

..3

22

2

2

nn

XXN

n

n

XX

Sii

i

i

22 )(..2 XXd ii

N

d

N

XX ii

22)(..4

2

222

..5 XN

X

N

X

N

X iii


• Finalmente se aplica la formula de la desviación típica para datos no agrupados de la muestra o de la población, según el caso.

Ejemplo: Los siguientes valores corresponden a la edad de ñiños de una muestra

tomada de una población: Xi = 3, 4, 5, 6, 7. Determine la desviación típica.

Xi

ii

d)XX(

2

id

3 3 – 5 = - 2 4

4 4 – 5 = - 1 1

5 5 – 5 = 0 0

6 6 – 5 = 1 1

7 7 – 5 = 2 4

25Xi 0d

i

10di

Este problema se resolverá utilizando la media aritmética y sin utilizar la media, para ello se utilizarán las formulas 1 y 3 .

Interpretación: El resultado obtenido con las formulas 1 y 3 indican que en

promedio, las edades de los ñiños de esa muestra se desvian o varian con respecto

a la media aritmética en una cantidad igual a 1.58 años.

Si este problema se resuelve ahora, considerando los datos como si fueran de una

población y se aplica la formula 4 y 5, entonces se tiene:

58.1

20

50

)4(5

625135(5

)1(..3

22

nn

XXnS

ii

55

25

n

XX

i

58.15.24

10

1..1

2

n

dS

i


En la solución del problema con las formula 4 y 5 de la población se observa que

la de la población es menor que la S de la muestra, esto es debido a que la S de

la muestra utilizó n-1, para corregir el error producto del sesgo, y la de la población no lo utilizó.

b) Para datos Agrupados en Clases.- Para calcular la desviación típica en

datos agrupado existen varios criterios en relacion a la corrección del sesgo que se

produce al tomar una muestra, en este estudio se considerará la formula que corrige

el sesgo de aquellas muestras en estudio; sin embargo, cuando n sea mayor que

50, no es necesario tal corrección. . Existen muchas formulas matemáticas para

calcular la desvición típica, queda a juicio del estudiante utilizar la formula que él

considere más fácil, siempre y cuando su aplicación sea valedera.

Formulas Para calcular la muestra y la población de una desviación típica

con datos agrupados en clases:

.41.125

10..4

2

N

d i

.41.1225275

625

5

135..5

22

N

X

N

X ii

11

)(..1

22

n

fd

n

fXXS

iiii

14.258.425.5683.60


Para calcular la S de la fórmula 1 es necesario calcular el punto medio de cada una de las clases de la distribución, calcular la media aritmética y luego calcular los desvíos de los puntos medios con respecto a la media aritmética. En la formula 2 no es necesario calcular la media.

En la fórmula 3, a

X es un valor arbitrario que se toma de los i

X de la distribución,

es recomrndable que se escoja el i

X lo más central posible para así facilitar los

calculos posteriores.

El término Ki , en esta formula, viene a ser un desvío arbitrario con respecto a una

mdia arbitraria a

X .Entonces, )XX(Kai

. Este método para calcular S en datos

agrupados, se fundamenta en la propiedad de la desviación típica que establece:

“si a cada una de los valores de una serie de datos se le suma una constante, la

desviación típica no se altera en sus resultados”.

1..2

2

2

n

n

fXfX

S

ii

ii

1n

n

)XX(f)XX(f

S..3

2

aii2

aii

1n

n

KfKf

2

ii2

ii

N

df

N

XXf iiii

22)(..4

2

2

..5 XN

Xf ii

22

..6

N

Xf

N

Xf iiii


Método para calcular la Desviación Típica en datos Agrupados

• Se calcula la X

• Se calcula el iX de cada una de las clases que integran la distribución de

frecuencia, se determinan los desvíos di de los iX con respecto a la X ,

luego se elevan al cuadrado los di y se multiplican por fi, y se calcula la 2

iidf .

• Se calcula la 2

iiXf , luego se determina la ii Xf

2.

• Se elabora un cuadro estadístico y se llevan a este todos los datos calculados.

• Se aplica la formula necesaria para calcular la desviación típica.

Ejemplo: Los siguientes datos corresponden a las horas extras trabajadas por los obreros de la empresa FATEXTOL, en un mes (se resolverá considerando los datos

como de una S y ).

CLASES

fi iX Xf i

di = XX i

2

iidf 2iiXf

40 — 44

1 42 42 - 15.26 232.87 1764

45 — 49 6 47 282 - 10.26 631.60 13254

50 — 54 21 52 1092 - 5.26 581.02 56784

55 — 59 75 57 4275 - 0.26 5.07 243675

60 — 64 23 62 1426 4.74 516.75 88412

65 — 69 7 67 469 9.74 664.07 31423

70 — 74 2 72 144 14.74 434.54 10368

135 ii

Xf =7730 82.1di

2

iidf =3065.92

2

iiXf =445680

Para resolver el problema lo primero que se debe hacer es calcular la media aritmética así:

N

N

KfKf

N

Xf

N

)XX(f..7

2

ii2

ii

2

ii

2

aii


26.57135

7730

n

XfX

i

Ahora se calculan los diferentes, para determinar los otros parámetros necesarios

(es recomendable que se realice todos los cálculos) para resolver el problema

planteado, en el cuadro de arriba se colocaron los cálculos realizados que son

necesarios para resolver el mismo; este se resolverá aplicando las formulas 1, 2, y

3 de la S, considerando los datos como los de una muestra.

Para aplicar la fórmula 3 se toma una media arbitraria a

X que en este caso la más

céntrica es 57, luego se calculan los desvíos de los puntos medios con respecto

a la a

X así:

Ki = ( iX a

X ) se elabora un cuadro estadístico para resumir los datos y finalmente

se procede a buscar la desviación

fi iX ( iX

aX ) =Ki

fi . Ki fi (ki)2

1 42 - 15 - 15 225

6 47 - 10 - 60 600

21 52 - 5 - 105 525

75 57 0 0 0

23 62 5 115 575

7 67 10 70 700

2 72 15 30 450

135 if

35 ii Kf 30752 ii Kf

78.488.22134

92.3065

1135

92.3065

1.1

2

n

dfS

ii

.78.488.22134

93.3065

1135

135

7730445680

1n

n

XfXf

S..2

22

ii2

ii


Interpretación: Los resultados obtenidos con las formulas 1, 2, y 3, indican que los

promedios de las horas extras laboradas por los trabajadores se desvían o varían

con respecto a su media aritmética en una cantidad igual a 4.78 y 4.76

respectivamente. La misma interpretación se obtiene con los resultados obtenidos

con las formulas 4, 5 y 6.

La aplicación de la fórmula 7 se deja para que el participante la aplique y resuelva

el mismo problema, el cual tendrá resultados idénticos a los anteriores.

135

135

353075

..3

22

2

N

N

KfKf

ii

ii

.76.471.22135

93.3065

135

07.93075

135

135

12253075

76.471.22135

92.3065..4

2

N

df ii

.76.471,2262.3278135

445680..5 2

2

XN

Xf ii

.76.4135

7730

135

445680..6

22

2

N

Xf

N

Xf iiii


Propiedades de la Desviación Típica

• La desviación típica de una constante k es cero. Si se parte de que la media

aritmética de una constante es igual a la constante, esto es así, debida a

que al ser todos los datos iguales no habrá dispersión en la serie de datos

con respecto a la media aritmética, por lo tanto (k) = 0.

• Si a cada uno de los valores de una serie de variables se le suma o se le

resta una constante K, la desviación típica no se altera. Esta se apoya en la

propiedad de la media aritmética que establece “si a cada valor de la serie

se le suma una constante, la media de la nueva serie es igual a la media de

la serie original más la constante”, igual sucede con la resta, la nueva media

vendrá disminuida en el valor de dicha constante.

• Si a cada uno de los términos de la serie de valores se le multiplica por una

constante K, la desviación típica de la serie quedará multiplicada por K, y la

nueva desviación típica será igual a la constante K tomada en valor absoluto

por la desviación típica original. Esta propiedad se apoya en la propiedad del

producto de la media aritmética

• Para distribuciones normales siempre se cumple que: 68.27 % de los datos

se encuentran en el intervalo ( X ). 95.45 % de los datos se encuentran

en el intervalo ( X 2). 99.73 % de los datos se encuentran en el intervalo

( X 3). Estos valores se cumplen con bastante aproximación, para

distribuciones que son Normales y para las que son ligeramente asimétricas.

• Para dos series de valores, de tamaño n1 y n2, con variaciones S21 y S2

2,

respectivamente, la varianza

3.2.5. Varianza: Es otra de las variaciones absolutas y la misma se define como el cuadrado de la desviación típica; viene expresada con las mismas letras de la

desviación típica pero elevadas al cuadrado, así S2 y 2. Las fórmulas para calcular la varianza son las mismas utilizadas por la desviación típica, exceptuando las

......,)(

..1

2

2 agrupadosnodatosparaN

X i

.... )().( ii XKX K

)()( ii XKX

21

2

22

2

112

nn

SnSnST


respectivas raíces, las cuales desaparecen al estar elevados el primer miembro al cuadrado.

La varianza general de la muestra se expresa así:

3.2.6. Dispersión relativa: Las medidas de variabilidad, estudiadas hasta ahora,

solo permitían medir las dispersiones absolutas de los términos de la muestra. Las

medidas, tomadas en esas condiciones, serán de utilidad, solo cuando se trata de

analizar una sola muestra; pero, cuando hay que establecer comparaciones entre

distintas muestras, será necesario expresar tales medidas en valores relativos, que

pueden ser proporciones o porcentajes.

Las medidas de dispersión relativas permiten comparar grupos de series distintas

en cuanto a su variación, independientemente de las unidades en que se midan las

diferentes características en consideración. Generalmente las medidas de

dispersión relativas se expresan en porcentajes, facilitando así el estudio con

medidas procedentes de otras series de valores La dispersión relativa viene a ser

igual a la dispersión absoluta dividida entre el promedio.

Existen varias medidas de dispersión relativa, pero, la más usada es el coeficiente

de variación de Pearson, este es un índice de variabilidad sin dimensiones, lo que

permite la comparación entre diferentes distribuciones de frecuencias, medidas en

diferentes unidades. El coeficiente de variación de Pearson se designa con las letras

CV. La fórmula matemática es:

.100xX

CV

......,.1

)(..3

2

2 agrupadosnodatosparan

XXS

i

.....,.1

)(..4 2 agrupadosdatospara

n

XXfS

ii

.....,.)(

..2

2

2 agrupadosdatosparaN

Xf ii


Ejemplo: La venta en el mercado de tres productos, varía de acuerdo al siguiente

cuadro. Determine el CV de cada uno y diga cuál de ellos presenta mayor variación

y cuál la menor.

Producto X S Unidades CV

1 45 5 Bs. 11.11 %

2 450 40 Bs. 8.87 %

3 4500 350 Bs. 7.78 %

Para resolver el problema se calcula el CV de cada producto y luego sé determina

cuál presenta mayor o menor variación

CV = Sx100/ X

CV1 = 5x100/45 = 11.11 %.

CV2 = 40x100/450 = 8.87 %.

CV3 = 350x100/4500 = 7.78 %.

Se puede observar que la menor dispersión la presenta el producto 3, por lo tanto, de los 3 productos el que menos varia es ese; por otro lado, el de mayor dispersión o variabilidad es el producto 1. 3.3. Medidas de forma: Hasta ahora, hemos estado analizando y estudiando la

dispersión de una distribución, pero parece evidente que necesitamos conocer más

sobre el comportamiento de una distribución. En esta parte, analizaremos las

medidas de forma, en el sentido de histograma o representación de datos, es decir,

que información nos aporta según la forma que tengan la disposición de datos.

Las medidas de forma de una distribución se pueden clasificar en dos grandes

grupos o bloques: medidas de asimetría y medidas de curtosis.


3.3.1. Simetría: Según el Diccionario de la Real Academia Española es la “Regularidad en la disposición de las partes o puntos de un cuerpo o figura, de modo que posea un centro, un eje o un plano de referencia”. Es por lo tanto la armonía de posición de las partes o puntos similares uno respecto de otros y con referencia a puntos, líneas o planos determinados. Se puede generalizar diciendo que es una proporción de las partes entre sí y con el todo. En estadística se dice que una distribución de datos es simétrica si se le puede doblar a lo largo de un eje vertical de una manera tal que coincidan los dos lados de la distribución. Las distribuciones que no tienen simetría con respecto al eje vertical se les llama sesgada o asimétrica. Una distribución sesgada a la derecha tiene una cola prolongada del lado derecho de la distribución y una cola más corta del lado izquierdo de la misma; esta asimetría se le denomina positiva, cuando la cola de la distribución del lado izquierdo es más larga que la del lado derecho, entonces la asimetría es negativa. En una distribución simétrica la media, la mediana y la moda son iguales. La simetría se mide por medio del coeficiente de asimetría. Una distribución simétrica tiene un coeficiente de asimetría igual a cero. Cuando una distribución de frecuencia es asimétrica, la media, la mediana y la moda se alejan una de otra, es decir, las tres medidas de posición son diferente; mientras más se separe la media de la moda, mayor es la asimetría. Si la distribución de frecuencia es asimétricamente negativa, la cola de la curva de distribución se encuentra hacia los valores más pequeños de la escala de las X y si la distribución es asimétricamente positiva la cola de la distribución se ubica hacia los valores más grandes de la escala de las X. Karl Pearson un estudioso de la estadística designo el coeficiente de asimetría con las letras SK y determinó la fórmula para su cálculo, al cual se le denominó primer coeficiente de asimetría de Pearson

Esta fórmula se puede transformar por medio de la relación:

.333 MdXMoXMdXXMoMdXXMo

MdXMoX 3 , si ahora se sustituye 3( X - Md) en el primer coeficiente de

asimetría de Pearson, se tiene otro coeficiente de asimetría utilizando la mediana que se le denomina segundo coeficiente de asimetría de Pearson, este es más preciso que el primero

S

MoXSK

)(1

S

MdXSK

)(32


Arthur Bowley otro estudioso de la estadística determinó que el coeficiente de asimetría se podía calcular por medio de los cuartiles y utilizó el coeficiente de asimetría por medio de cuartiles (skq), y la formula es

En donde, Q1, Q2 y Q3 son los cuartiles 1, 2 y 3 respectivamente. El valor de SKq

varía entre 1 y 1; según Bowley una distribución de frecuencia con un coeficiente de asimetría igual a 0.1, se considera como ligeramente asimétrica y con un valor mayor 0.3 se le considera marcadamente asimétrica. El coeficiente de asimetría se puede calcular también en función de los momentos, siendo el momento m3 el parámetro utilizado para tal efecto. El coeficiente de asimetría según los momentos se designa con las letras SKm y sé calcula mediante

la fórmula En esta fórmula m3 es el momento tres con respecto a la media aritmética y S3 es la desviación típica elevada a la potencia tres. Este coeficiente es el más confiable de todos los antes descritos, así que para cualquier cálculo se debería utilizar este, ya que es un parámetro que utiliza todos los datos de la serie de valores.

Si en una serie de valores la X Md Mo, entonces la distribución de frecuencia

presenta una curva asimétrica positiva; si la X = Md = Mo = 0 , la curva de la

distribución es simétrica y si la distribución presenta una curva en la que el Mo

Md X , entonces se dice que la curva de la distribución asimétrica negativa. Sí la curva de una distribución de frecuencia es sesgada, la media tratara de ubicarse hacia el extremo o lado opuesto, de la serie de valores, donde se concentran los datos. Es bueno hacer referencia que en una asimetría positiva la

Md y en una asimetría negativa la X Md. Si en una distribución de frecuencia, los intervalos de las clases que la conforman presentan frecuencias balanceadas en cada uno de ellos y no presentan ninguna aglomeración especial en los extremos y, además, presenta una concentración de los datos en el centro de la distribución, entonces se dice que la distribución de frecuencia es simétrica. Cuando la curva de una distribución de datos es simétrica el SK = 0, esta es una de las características de la curva Normal o Campana de Gauss.

X

13

231 2

QQ

QQQSK q

3

3

S

mSKm


Si la mayoría de los datos de una serie de valores están ubicados en el centro de la distribución y, además existe una dispersión medianamente hacia los extremos mayores o menores de las variables, entonces se afirma que la curva de la distribución es Ligeramente Asimétrica. Ejemplo:

CLASES 1 f1 CLASES 2

f2

3—5 5 3—5 8 6—8 10 6—8 12 9—11 25 9—11 20 12—14 40 12—14 40 15—17 20 15—17 25 18—20 12 18—20 10 21—23 8 21—23 5 TOTAL 120 TOTAL 120

En este ejemplo la distribución 1 es ligeramente asimétrica positiva y la distribución 2 es ligeramente asimétrica negativa. La mayoría de las distribuciones de casos reales por lo general son ligeramente asimétricas. Una distribución de datos es marcadamente asimétrica si la mayoría de los datos de la misma se encuentran ubicados en los extremos mayores o menores de las variables que conforman la distribución. Si la mayoría de los de los datos de una serie de valores se encuentra situados en el extremo de las clases menores de la distribución, entonces la curva de la distribución de frecuencia presenta una

asimetría positiva, siendo en este caso el SK 0; y si por el contrario esa mayoría se encuentra en los extremos de las clases mayores de las variables, entonces la serie de valores presenta una curva con una asimetría negativa, luego el

Coeficiente de asimetría será mayor que cero, es decir, SK0 Ejemplo:

CLASES 3 f3 CLASES 4 f4 3—5 15 3—5 5 6—8 25 6—8 10 9—11 40 9—11 15 12—14 60 12—14 60 15—17 15 15—17 40 18—20 10 18—20 25 21—23 5 21—23 15 TOTAL 170 TOTAL 170


En la distribución 3 los datos presentan una curva marcadamente asimétrica positiva y el caso 4 la curva de la distribución es marcadamente asimétrica negativa. Existen distribuciones de frecuencias que presentan curvas fuertemente marcadamente asimétricas y otras que las curvas son ligeramente asimétricas. Considerar la asimetría de una curva de frecuencia marcadamente o ligeramente asimétrica, es un asunto de criterio del investigador, puesto que no existen reglas rígidas establecidas que determinen las líneas divisorias o parámetros entre ligeramente o marcadamente asimétrica; Sin embargo cuando la mayoría de los datos de una distribución de frecuencia se ubican en los extremos mayores o menores de las variables se puede afirmar con certeza que la curva de la distribución es marcadamente asimétrica. Algunos investigadores como Arthur Bowley determinaron que si se aplica el SKq y ese coeficiente de asimetría obtenido es menor que 0.3 (sin considera el signo) se puede afirmar que la curva de la distribución es ligeramente asimétrica, en caso contrario la curva de la distribución sería marcadamente asimétrica. Otros investigadores utilizan el coeficiente de asimetría según los momentos (SKm) para tales efectos, pero no existe criterio en cual ha de ser el coeficiente especifico que marque el límite entre ligera y marcadamente. Sin embargo, en este estudio se considerará que un coeficiente de asimetría según los momentos comprendido

entre 0.30 SKm 0.30, sería un buen límite para considerar una curva de distribución como ligeramente asimétrica, de lo contrario sería marcadamente asimétrica. El SKm es el coeficiente de asimetría de mayor precisión y confiabilidad, puesto que este, utiliza para su cálculo todos los valores de la serie de datos. Es bueno afirmar que cuando el coeficiente de asimetría de una curva de distribución es marcadamente asimétrico no se puede utilizar la media aritmética como medida de tendencia central, puesto que esta es afectada altamente por los valores extremos de una serie de datos, en su lugar es recomendable utilizar la mediana como medida de posición. 3.3.2. Kurtosis (Curtosis): Es el grado de apuntamiento o altura de la curva de una distribución de frecuencia. La finalidad de la Kurtosis es determinar si la distribución de los términos de una serie de valores responde a una curva normal o no. Se utiliza para observar el promedio o posición de la distribución, así como la media, la mediana y la moda, se puede en esta observar la asimetría, el grado de concentración de los datos, en fin, para observar en forma general el comportamiento de una serie de datos en una distribución de frecuencia. Por medio de la Kurtosis se determinará si la distribución de frecuencia es demasiado puntiaguda, normal o muy achatada. El grado de apuntamiento o altura de una curva de distribución se determina por medio del coeficiente de Kurtosis, el cual se calcula utilizando el momento cuatro de una serie de valores con respecto a su media aritmética. La Kurtosis se designa con la letra K4 y la fórmula de cálculo es:


En esta fórmula m4 es el momento cuatro con respecto a la media aritmética y S4 es la desviación típica elevada a la cuarta potencia, K4 es el coeficiente de Kurtosis. Tomando en cuenta la Kurtosis el k4 de una curva de distribución puede ser: Mesocurtica, Platicurtica y Leptocurtica. Mesocurtica: Es aquella curva de una distribución de frecuencia que no es ni muy alta ni muy achatada, es la llamada curva normal. La curva Mesocurtica tiene un coeficiente de Kurtosis igual a tres, es decir, K4 = 3. Leptocurtica: Es aquella curva de la distribución que presenta un apuntamiento o altura relativamente más alta que la curva Mesocurtica, en esta los datos se encuentran más concentrados alrededor del máximo valor. El coeficiente de

Kurtosis para curva Leptocurtica es mayor de tres, es decir, K4 3. Platicurtica: Es la curva de una distribución de frecuencia que presenta un achatamiento más pronunciado que la Mesocurtica, encontrándose los datos más dispersos alrededor del máximo valor de la distribución. En esta curva el coeficiente

de Kurtosis es menor de tres, es decir, K4 3. En la Figura 20 de Kurtosis se pueden observar los tres tipos de Kurtosis antes descritos, siendo la primera curva Platicurtica (azul), la segunda Mesocurtica (roja) y la última es Leptocurtica (amarilla):

4

44

S

mK


Figura 20. Curvas según su curtosis

Ejemplo: En la siguiente distribución de frecuencia, determine el coeficiente de asimetría utilizando los métodos de Pearson, de Bowley y el de los momentos, interprete los resultados y haga un análisis de los diferentes resultados y diga cuál es el resultado más recomendado en este caso; encuentre la Kurtosis e interprete los resultados. CLASES

fi

10—12 1

13—15 5 16—18 15

19—21 40 22—24 15 25—27 10

28---30 9

95

Solución: Para resolver el problema lo primero que hay que hacer es calcular la X y determinar los desvíos di con respecto a la media, luego se elabora un cuadro estadístico con el resumen de los cálculos necesarios para determinar la asimetría

KURTOSIS

1° PLATIKURTICA

2° MESOKURTICA

3° LEPTOKURTICA


y la curtosis. Además, se tendrá que calcular la mediana, la moda, el Q1 el Q3, y después de realizar todos esos cálculos se procede a buscar la asimetría y la curtosis con las formulas respectivas. En el siguiente cuadro se encuentran resumidos la mayoría de los cálculos necesarios, el resto se calcularán aparte.

CLASES fi iX ii Xf di fi.di fi.d2 fi.d3 fi.d4

10—12 1 11 11 -10.07 -10.07 101.40 -1021.15 10282.95 13—15 5 14 70 -7.07 -35.35 249.92 -1766.97 12492.45 16—18 15 17 255 -4.07 -61.05 248.47 -1011.29 4115.94 19—21 40 20 800 -1.07 -42.80 45.80 -49.00 52.43 22—24 15 23 345 1.93 28.95 55.87 107.84 208.12 25—27 10 26 260 4.93 49.30 243.05 1198.23 5907.28 28---30 9 29 261 7.93 71.37 565.96 4488.10 35590.60

95 2002 0.38 1510.40 1945.76 68649.77

Se recomienda realizar los cálculos de los parámetros, ya que solo aparecen sus resultados

X = 21.07, Mo = 20.0, Q1 = 18.71, Q2 = Md = 20.49, Q3 = 23.55, S = 4.41, S2 = 19.46, S3 = 85.82, S4 = 378,82.

El resultado indica que la curva de distribución es ligeramente asimétrica positiva.

El resultado indica que la curva de la distribución es marcadamente asimétrica positiva.

El resultado indica que la curva es ligeramente asimétrica positiva.

44.099.3

74.1

99.3

)49.2007.21(3)(32

S

MdXSK

.26.84.4

28.1

71.1855.23

)49.20(255.2371.182

13

221 oQQ

QQQSK q

27.099.3

07.1

99.3

0.2007.211

S

MoXSK


Para calcular el coeficiente de asimetría según los SKm se cálcula primero el m3

así:

El coeficiente SKm indica que la curva de la distribución es marcadamente asimétrica positiva. Si se observan los diferentes coeficientes de asimetría se puede notar que el SK2 y el SKm son marcadamente asimétricos y los otros son ligeramente asimétricos, esto es así por cuanto él valor obtenido con el SK2 y el SKm son más precisos que los otros, lo que indica que se debe preferir el resultado de estos últimos por razones obvias. Siempre el SKm será más preciso que cualquier otro coeficiente de asimetría, ¿Por qué? Los resultados obtenidos con los diferentes coeficientes de asimetría indican que esta es positiva, es decir, con un sesgo hacia la cola de la derecha. Para calcular el K4 se calcula el m4 así:

Ahora se procede a calcular el K4 aplicando la formula

El resultado indica que el apuntamiento de la curva es achatado, la primera curva (de color verde), es decir, la curva es platicurtica. Observe la Figura 21, donde se puede ver la curva normal (de color rojo) y se puede observar la kurtosis y la simetría. La asimetría positiva se puede observar en la parte derecha de la gráfica.

32.040.63

48.203

3

S

mSKm

63.72295

77.686494

4

n

dfm

ii

.86.28.252

63.7224

44

S

mK

48.2095

76.19453

3

n

dfm

ii


Figura 21. Curtosis y Asimetria Ejemplo: En la siguiente distribución de frecuencia determine el SK1, SK2, SKq y el skm, interprete los resultados y diga cuál es el más recomendado; encuentre la curtosis e interprete el resultado.

CLASES fi

10—12 9

13—15 10

16—18 15

19—21 40

22—24 15

25—27 5

28—30 1

95

Solución.- Para resolver este problema se debe calcular la X y los desvíos di con respecto a esta, también es necesario calcular la Md, el Mo, el Q1, el Q3, la S, el m3, el m4, elaborar un cuadro estadístico y finalmente aplicar las formulas respectivas.

KURTOSIS Y ASIMETRÍA

0

10

20

30

40

50

60

1d ASIMETRÍA + 1 5 15 40 15 9 10

CURVA NORMAL 1 5 15 50 15 5 1

11 14 17 20 23 26 29


En el siguiente cuadro se resumen los cálculos para tales efectos. Se recomienda al estudiante realizar todos los cálculos pertinentes.

CLASES fi iX

ii Xf di fi.di fi.d2 f i . d 3 fi.d4

10—12 9 11 99 -7.93 -71.37 565.96 -4488.10 35590.60

13—15 10 14 140 -4.93 -49.30

49.30

243.05 -1198.23 5907.28

16—18 15 17 255 -1.93 -28.95 55.87 -107.84 208.12

19—21 40 20 800 1.07 42.80 45.80 4 9 . 0 0 52.43

22—24 15 23 345 4.07 61.05 248.47 1011.29 4115.94

25—27 5 26 130 7.07 35.35 249.92 1766.97 12492.45

28—30 1 29 29 10.0

7

10.07 101.40 1021.15 10282.95

95 1798 -0.35 1510.4

7

-1945.76 68649.77

Los resultados obtenidos de los diferentes cálculos son:

X = 18.93, Mo = 20.0, Q1 = 16.45, Q2 = Md = 19.91.

S = 3.99, S3 = 63.40, S4 = 252.80, m3 = 20.48, m4 = 722.63

Ahora se procederá a calcular los diferentes coeficientes de asimetría así:

Si observa puede ver que este problema es casi idéntico al anterior, solo las

frecuencias fueron cambiadas de la parte alta de las variables hacia la parte baja de

las mismas, por tal razón todos sus cálculos son idénticos en valor absoluto al

.44.099.3

74.1

99,3

)51.1993.18(3)(32

S

MdXSK

26.084.4

28.1

45.1629.21

)51.19(229.2145.162

13

231

QQ

QQQSK q

32.040.63

48.203

3

S

mSKm

27.099.3

07.1

99.3

0.2093.181

S

MoXSK


anterior, lo que indica que ahora la asimetría obtenida es negativa, es decir, con sesgo hacia la izquierda. Para calcular la Kurtosis se procede así:

La curva de la distribución es platikurtica. La interpretación es idéntica a la del problema anterior. Se puede ver que la curva más alta es la normal (roja) o Mesocurtica y la más achatada es la curva de la distribución en estudio, y en este caso es platikurtica. 3.4. Medidas de concentración: Las medidas de concentración tratan de poner

de relieve el mayor o menor grado de igualdad en el reparto del total de los valores

de la variable, son por tanto indicadores del grado de distribución de la variable.

Denominamos concentración a la mayor o menor equidad en el reparto de la suma

total de los valores de la variable considerada (renta, salarios, etc.).

Las infinitas posibilidades que pueden adoptar los valores, se encuentran entre los

dos extremos:

Concentración máxima, cuando uno solo percibe el total y los demás nada, en

este caso, nos encontraremos ante un reparto no equitativo.

Concentración mínima, cuando el conjunto total de valores de la variable está

repartido por igual, en este caso diremos que estamos ante un reparto equitativo

De las diferentes medidas de concentración que existen nos vamos a centrar en

dos:

Índice de Gini: Coeficiente, por tanto, será un valor numérico. Curva de Lorenz: gráfico, por tanto, será una representación en ejes coordenados. Sea una distribución (xi, ni) de la que formaremos una tabla con las siguientes

columnas:

• Los productos xi ni, que nos indicarán la totalidad percibida por los ni

frecuencias de valores individuales xi.

• Las frecuencias absolutas acumuladas Ni.

• Los totales acumulados ui que se calculan de la siguiente forma:

.86.280.252

63.7224

44

S

mK


u1= x1 n1

u2 = x1 n1 + x2 n2

u3 = x1 n1 + x2 n2 + x3 n3

u4 = x1 n1 + x2 n2 + x3 n3 + x4 n4

un = x1 n1 + x2 n2 + x3 n3 + x4 n4 + …………. + xn nn

Por tanto podemos decir que

n

i

iin nxu1

• La columna total de frecuencias acumuladas relativas, que expresaremos en

tanto por ciento y que representaremos como pi y que vendrá dada por la

siguiente notación

100n

Np i

i

• La renta total de todos los rentistas que será un y que, dada en tanto por

ciento, la cual representaremos como qi y que responderá a la siguiente

notación:

100n

ii

u

uq

Por tanto, ya podemos confeccionar la tabla que será la siguiente:

xi

ni

xi ni

Ni

ui

100n

Np i

i 100n

ii

u

uq pi - qi

x1 n1 x1 n1 N1 u1 p1 q1 p1 - q1

x2 n2 x2 n2 N2 u2 p2 q2 p2 - q2

... ... ... ... ... ... ... ...

xn nn xn nn Nn un pn qn pn - qn


Como podemos ver la última columna es la diferencia entre las dos penúltimas, esta

diferencia seria 0 para la concentración mínima ya que pi = qi y por tanto su

diferencia seria cero.

Si esto lo representamos gráficamente obtendremos la curva de concentración o

curva de Lorenz. La manera de representarlo será, en el eje de las X, los valores

pi en % y en el de las Y los valores de qi en %. Al ser un %, el gráfico siempre será

un cuadrado, y la gráfica será una curva que se unirá al cuadrado, por los valores

(0,0), y (100,100), y quedará siempre por debajo de la diagonal.

La manera de interpretarla será: cuanto más cerca se sitúe esta curva de la

diagonal, menor concentración habrá, o más homogeneidad en la distribución.

Cuanto más se acerque a los ejes, por la parte inferior del cuadrado, mayor

concentración.

Los extremos son:

Figura 22. Valores extremos de la concentración

Analíticamente calcularemos el índice de Gini el cual responde a la siguiente

ecuación

1

1

1

1

k

i

i

k

i

ii

G

p

qp

I

Este índice tomara los valores de IG = 0 cuando pi = qi concentración mínima y

de Ig = 1 cuando qi = 0 Esto lo veremos mejor con un ejemplo:


Se pide Índice de concentración y Curva de Lorenz correspondiente

a) Índice de concentración de GINI

193,0

15,651

48,1251

1

1

1

k

i

i

k

i

ii

G

p

qp

I,

Observamos que hay poca concentración por encontrarse cerca del 0.

b) Curva de Lorenz La curva la obtenemos cerca de la diagonal, que indica que hay poca

concentración:

marca xini Sun pi = (Ni/n) 100 qi = (ui/un) 100 pi - qi

Li-1 - Li xi ni Ni

0 - 50 25 23 23 575 575 8,85 1,48 7,37

50 - 100 75 72 95 5400 5975 36,54 15,38 21,16

100 - 150 125 62 157 7750 13725 60,38 35,33 25,06

150 - 200 175 48 205 8400 22125 78,85 56,95 21,90

200 - 250 225 19 224 4275 26400 86,15 67,95 18,20

250 - 300 275 8 232 2200 28600 89,23 73,62 15,61

300 - 350 325 14 246 4550 33150 94,62 85,33 9,29

350 - 400 375 7 253 2625 35775 97,31 92,08 5,22

400 - 450 425 5 258 2125 37900 99,23 97,55 1,68

450 - 500 475 2 260 950 38850 100,00 100,00 0,00

260 38850 651,15 125,48

Frecuencia


Figura 23. Curva de Lorenz

3.5. Ejercicios

1. En un estudio de mercado se ordena encuestas a 20 personas de determinada población. Se medirá un conjunto de variables entre las cuales figura el ingreso mensual (I) en miles de pesos y el nivel socioeconómico (NSE) que se supone fuertemente relacionado con la variable anterior. Los datos obtenidos se muestran en la siguiente tabla:

Encuesta Sexo Edad Ingreso NSE

1 M 24 123.5 C4

2 M 46 678.8 C2

3 F 24 539.0 C2

4 F 35 234.5 C3

5 F 45 149.9 C4

6 F 89 56.8 E

7 M 58 889.3 C1


8 F 25 361.5 C3

9 M 64 548.7 C2

10 M 34 154.5 C4

11 M 72 2630.4 AB

12 F 37 129.5 C4

13 M 59 162.9 C4

14 F 45 516.5 C2

15 F 46 250.6 C3

16 F 45 850.8 C1

17 F 63 57.3 E

18 F 59 409.2 C2

19 F 60 135.0 C4

20 M 34 159.9 E

a) Clasifique las variables del estudio. b) En que subpoblación, mujeres u hombres, los datos de ingreso mensual son

más homogéneos.

2. Se conocen los puntajes que un grupo de postulantes, no así las identificaciones de los mismos. Uno de ellos, Andrés quiere conocer su puntaje y le han dicho que es mayor que el promedio y menor que el percentil 75 Los puntajes son los siguientes

851 344 591 513 744 526 522

684 491 618 750 739 527 765 590

a) Obtenga los posibles puntajes de Andrés. b) De entre los valores calculados en a), el puntaje de Andrés es aquel que, al

calcular la desviación estándar de los 14 restantes, produce la mayor variabilidad ¿Cuál es el puntaje de Andrés?


3. Si se conoce que el salario medio mensual de 5 hermanos, es de $120.000, y la mediana es de $100.000.

a) ¿Cuánto dinero llevan mensualmente a la casa los cinco hermanos? b) Si Juan, el mejor pagado de los cinco recibe un aumento de $10.000; cuál es

la nueva media y cuál es la nueva mediana.

4. Un grupo de 80 estudiantes se compone de 35 hombres. En un test, el puntaje medio de las mujeres fue de 70 puntos y del grupo completo fue 66.5 puntos.

a) Determine el puntaje medio de los hombres. b) Si se cambia la escala de puntajes mediante la transformación Y Xi i

(X i : puntaje antiguo, Yi puntaje nuevo), determine el nuevo puntaje medio

de hombres, mujeres y el grupo completo. c) Compruebe que si se aplica la transformación al puntaje medio del grupo

total (66.5) se obtiene el mismo resultado que si se calcula el puntaje medio del grupo total transformado, como promedio ponderado de los puntajes transformados de hombres y mujeres (trate de comprobar esta propiedad en forma general).

5. En una distribución simétrica de 7 intervalos de igual amplitud se conocen los siguientes datos:

10A ; 81 n ; 126033 nY ; 6252 nn ; 21.03 h ; 96.06 H .

a) Complete la información. b) Calcule el promedio bajo la transformación lineal 73 xy .

6. En un banco comercial se desea estudiar el tiempo de atención necesario para que un cliente realice una transacción entre las 12:00 horas y las 14:00 horas. Durante una semana se tomaron los tiempos de atención de 10 clientes diariamente, obteniéndose los siguientes datos tabulados:

Tiempo de atención

(min.)

Cantidad de

Clientes

0.25 - 1.65 17

1.65 - 3.05 11


3.05 - 4.45 7

4.45 - 5.85 7

5.85 - 7.25 4

7.25 - 8.65 2

8.65 - 10.05 2

Total 50

a) Determine qué porcentaje de clientes demoraron a lo más 3 minutos en su atención.

b) Determine cuántas horas a lo más demorará en su transacción el 84% de los clientes.

c) Construya un gráfico adecuado que permita mostrar (aproximadamente) la ubicación de la Mediana y el Percentil 75.

7. La distribución de frecuencias observadas, de los sueldos para los trabajadores del departamento de producción de dos empresas, A y B, para dos muestras se da a conocer la siguiente tabla:

Sueldo (UF) nA nB

10.5 – 15.5 4 5

15.5 – 20.5 9 8

20.5 – 25.5 12 7

25.5 – 30.5 15 12

30.5 – 35.5 20 18

35.5 – 40.5 17 23

40.5 – 45.5 10 18

45.5 – 50.5 8 17

50.5 – 55.5 5 12

Total 100 120

a) Calcular en cada muestra las medidas de tendencia central.


b) Compare la homogeneidad de los datos a partir de los sueldos de la empresa.

8. Los siguientes datos corresponden a los tiempos (en minutos) que duran 40 llamadas telefónicas recibidas por una central:

2.2 0.8 1.5 1.9 1.3 2.3 2.3 0.9 0.5 1.3 2.0 1.7

1.1 1.1 1.3 1.7 1.1 1.0 2.1 0.7 1.9 2.6 1.7 2.3

1.4 2.4 2.1 1.7 1.2 1.6 1.5 1.4 2.1 2.0 1.0 2.8

1.3 1.1 1.5 1.4

a) Construya una tabla de frecuencias con seis intervalos de igual amplitud. b) Construya un histograma de frecuencias relativas porcentuales.

c) ¿Qué porcentaje de llamadas se encuentran en el intervalo sxsx ; .

9. La media de un grupo de facturas es de $150 y la desviación $20. Utilizando

la regla empírica, construya un intervalo donde se encuentre el 99,7% del

monto de las facturas.

10. Una compañía produce lotes de tubos para gas con un diámetro promedio de

14 milímetros y una desviación de 0,1 milímetros. El gerente de control de

calidad de la compañía piensa que los tubos que no tengan diámetros entre

13,8 y 14,2 milímetros no deben ser puestos a la venta. Usando la regla

empírica, ¿aproximadamente qué porcentaje de tubos se encuentra apto

para la venta?

11. Para cada uno de los ejercicios siguientes, determine: la desviación estándar,

la varianza, el coeficiente de variación y el coeficiente de asimetría.

Establezca, así mismo, al menos una conclusión acerca de la dispersión y

otra acerca de la asimetría.

a) La producción diaria de dos plantas de ensamblado de vehículos se

muestra a continuación.

Planta “A”

49 51 50 48 49 50 50 51 52


Planta “B”

50 4 0 47 47 50 60 50 53 53

b) A continuación se presentan las notas de un examen de estadística (sobre

100 puntos).

95 81 59 68 100 92 75 67 85 79 71 88 100 94 87 65 93 72 83 91

c) La siguiente es una muestra de los aportes realizados por un grupo de

empleados al seguro social.

12. En un barrio de una gran ciudad se ha constatado que las familias residentes

se han distribuido, según su composición, de la siguiente forma:

Composición 0–2 2–4 4-6 6-8 8-10

Familias 110 200 90 75 25

a) ¿Cuál es el número medio de personas por familia? b) ¿Cuál es el tipo de familia más usual? c) Si sólo hubiera plazas de aparcamiento para el 50% de las familias, y

éstas se atendieran de mayor a menor número de miembros, ¿Cuántos componentes debería tener una familia para entrar en el cupo?

d) Si el coeficiente de variación de Pearson de otro barrio de la misma ciudad es 1,8, ¿cuál de los dos barrios puede ajustar mejor sus previsiones en base al diferente número de miembros de las familias que lo habitan?

e) Si el ayuntamiento concede una ayuda de 5.000 ptas. fijas por familia, más 10.000 ptas. por cada miembro de la unidad familiar, determinar el importe medio por familia y la desviación típica.

f) Número de miembros que tienen como máximo el 85% de las familias menos numerosas.

Cantidad (miles de$) Número de empleados

10 - 19 10

20 - 29 33

30 - 39 64

40 - 49 13


13. Las siguientes tablas corresponden a dos muestras representativas de los

créditos concedidos, en millones de pesos, por dos agencias de una entidad

bancaria en el último ejercicio. Comparar la concentración y la homogeneidad

de ambas distribuciones.

Agencia A Agencia B

Valor crédito Nº créditos Nº créditos

0 - 0,5 3 10

0,5 - 1 4 12

1- 2 6 8

2 - 4 58 30

4 - 7 78 12

7 - 12 90 15

12 - 14 20 5

14 - 18 6 6

18 - 20 4 16


4. ESTADÍSTICOS EN EXCEL 2016

Aunque podríamos utilizar fórmulas de Excel para obtener información como el valor máximo, el mínimo, la media, la suma, etc., podremos obtener toda esa información con solo utilizar la herramienta Estadística descriptiva.

El primer paso es pulsar el botón Análisis de datos de la ficha Datos y seleccionar la opción Estadística descriptiva.

Figura 22 y 23. Opción Datos y Análisis de datos Al pulsar el botón Aceptar se mostrará un nuevo cuadro de diálogo que nos permitirá hacer las configuraciones necesarias para obtener los datos estadísticos de nuestra información.


Figura 24. Estadística descriptiva

Las opciones dentro de este cuadro de diálogo a las que se debe prestar especial atención son las siguientes:

• Rango de entrada: La columna que contiene los datos numéricos de los cuales se obtendrán los datos estadísticos.

• Agrupado por: Indica la orientación del rango de entrada. Para el ejemplo los datos están en una columna.

• Rótulos en la primera columna: Si dentro del rango de entrada está incluida la celda que contiene el título de la columna, entonces debes marcar esta caja de selección.

• Opciones de salida. Podrás elegir tres posibles opciones de salida: elegir un rango dentro de la misma hoja donde se colocarán los resultados, o elegir que los resultados se coloquen en una hoja nueva o en un libro nuevo.

• Resumen de estadísticas. Es necesario que esta opción esté seleccionada para obtener los datos estadísticos que necesitamos.

Una vez que has hecho las configuraciones necesarias en el cuadro de diálogo Estadística descriptiva pulsa el botón Aceptar para ver los resultados.

En muchas ocasiones al pulsar Datos, no aparece la opción de Análisis de datos (Figura 24), esto se debe a que esta opción es un complemento de Excel, y en ese momento no está activado o instalado.


Figura 25. Opción Datos sin Análisis de datos Para activarlo, se seleccionan la siguiente secuencia de comandos: Archivo – Opciones – Complementos – Ir – Herramientas para análisis. Como lo muestran las figuras de la 26 a la 30

Figura 26. Comando archivo

Figura 27. Comando opciones


Figura 28. Comando complementos

Figura 29. Comando ir


Figura 30. Comando herramientas para análisis

Ejemplo: Calcular las medidas de resumen de la variable EDAD, correspondiente a

la plantilla: “base de datos”.

Figura 31. Resumen de estadísticas para la variable EDAD


Figura 31. Medidas de resumen para la variable EDAD

Excel maneja las siguientes expresiones para la asimetría y la curtosis:

• CURTOSIS se define como sigue:

• ecuación para la ASIMETRÍA es la siguiente:

Como se puede observar la curtosis en su fórmula resta una expresión al lado

derecho relacionada con el número 3, luego su interpretación se hace con referencia

al número 0.

CURTOSIS > 0 Leptocurtica

CURTOSIS < 0 Platicurtica

Media 44.0760219

Error típico 0.5228584

Mediana 38.8465753

Moda 38.4109589

Desviación estándar 11.6914691

Varianza de la muestra 136.690451

Curtosis -0.53532468

Coeficiente de asimetría 0.87473403

Rango 42.0273973

Mínimo 29.8383562

Máximo 71.8657534

Suma 22038.011

Cuenta 500

EDAD


CURTOSIS = 0 Mesocurtica

Otra medida que se puede generar a partir de la tabla de la Figura 3, es el coeficiente

de variación, dividiendo la desviación estándar entre la media y expresándola en

formato porcentual. Su resultado es: C.V. = 26.53%.

Los cuartiles, deciles, percentiles, se pueden generar desde cada celda, mediante

las siguientes expresiones:

=CUARTIL(B2:B6;1) para el cuartil 1



=PERCENTIL(B1:B501;0.7) para el decil 7

=PERCENTIL(B1:B501;0.89) para el percentil 89

Figura 32. Cuartiles, Decil y Percentil para la variable EDAD

Interpretación: La edad promedio de los 500 empleados de la empresa ABC, es

aproximadamente de 44, 08 años. Un 50% de estos empleados tienen una edad

máxima de 38,85 años. La mayoría de los empleados tienen una edad aproximada

de 38,41 años. La distribución de la variable edad es platicurtica y asimétrica

positiva. La edad mínima es de 29,84 y la máxima de 71,87. La variable edad

presenta una leve heterogeneidad. El 25% de los empleados tiene una edad

máxima de 35,54 años, el 75% una edad máxima de 52,5 años, el 70% una edad

máxima de 48.98 años, y el 89% una edad máxima de 62,82 años.

Ejercicio:

1. Calcule e interprete las diferentes medidas de resumen para las siguientes

variables de la plantilla “base de datos”

EDUCACION = años de educación SALARIO = salario anual (miles de pesos) SERVICIO = años de servicio EXPERIENCIA = experiencia (años)

Cuartíl 1 35.54452

Cuartíl 2 38.84658

Cuartíl 3 52.49726

Decil 7 48.97973

Percentil 89 62.81882


2. Calcule e interprete las diferentes medidas de resumen para el ejercicio 8 del

capítulo 3.


5. DIAGRAMAS COMPLEMENTARIOS PARA EL ANALISIS EXPLORATORIO

DE DATOS

5.1. Diagrama de tallo y hojas: Un procedimiento semi-gráfico de presentar la información para variables cuantitativas, que es especialmente útil cuando el número total de datos es pequeño (menor que 50), es el diagrama de tallo y hojas de Tukey. Los principios para constituirlo son:

• Redondear los datos a dos o tres cifras significativas, expresándolos en unidades convenientes.

• Disponerlos en una tabla con dos columnas separadas por una línea como sigue: a) Para datos con dos dígitos, escribir a la izquierda de la línea los dígitos de

las decenas (forma el tallo), y a la derecha las unidades (hojas). b) Para datos con tres dígitos el tallo estará formado por los dígitos de las

centenas y decenas, que se escribirán a la izquierda, separados de las unidades.

• Cada tallo define una clase, y se escribe sólo una vez. El número de hojas representa la frecuencia de dicha clase.

Ejemplo:

1. Datos recogidos en cm:

11,357; 12,542; 11,384; 12,431; 14,212: 15,213; 13,300; 11,300; 17,206; 12,710;

13,455; 16,143; 12,162; 12,721; 13,420; 14,698.

2. Datos redondeados expresados en mm:

114; 125; 114; 124; 142; 152; 133; 113; 172; 127; 135; 161; 122, 127; 134; 147.

3. Diagrama de tallo y hojas, datos en mm:

11 443 12 54727 13 354 14 27 15 2 16 1 17 2

decenas unidades


Cuando el primer dígito de la clasificación varía poco, la mayoría de los datos tienden agruparse alrededor de un tallo y el diagrama resultante tiene poco detalle. En ese caso es conveniente subdividir cada tallo en dos o más partes introduciendo algún signo arbitrario, como se indica:

• Las pulsaciones por minuto de un grupo de 40 personas se han representado en el diagrama de tallo y hojas siguiente:

5 2 6 6 0 0 0 0 0 0 4 4 4 4 4 4 8 8 8 8 8 8 8 8 7 2 2 2 2 2 2 2 2 6 6 6 6 6 8 0 0 4 4 8 8

9 2

• Podemos obtener más detalle subdividiendo cada tallo en dos partes iguales: en una colocaremos las hojas 0 a 4 y lo representamos por ( * ) y en la otra las hojas de 5 a 9 y lo representaremos por ( . ), obteniendo el diagrama:

5 * 2 . 6

6 * 0 0 0 0 0 0 4 4 4 4 4 4 . 8 8 8 8 8 8 8 8

7 * 2 2 2 2 2 2 2 2 . 6 6 6 6 6

8 * 0 0 4 4 . 8 8

9 * 2 .

Observemos que todos los datos son múltiplos de 4, lo que hace sospechar que

se han obtenido midiendo las pulsaciones cada 15 segundos y multiplicando por

cuatro.


5.2. Diagrama de cajas y bigotes: Los diagramas de Caja-Bigotes (boxplots o

box and whiskers) son una presentación visual que describe varias características

importantes, al mismo tiempo, tales como la dispersión y simetría. Para su

realización se representan los tres cuartiles y los valores mínimo y máximo de los

datos, sobre un rectángulo, alineado horizontal o verticalmente. Una gráfica de este

tipo consiste en una caja rectangular, donde los lados más largos muestran el

recorrido intercuartílico. Este rectángulo está dividido por un segmento vertical que

indica donde se posiciona la mediana y por lo tanto su relación con los cuartiles

primero y tercero (recordemos que el segundo cuartil coincide con la mediana). Esta

caja se ubica a escala sobre un segmento que tiene como extremos los valores

mínimo y máximo de la variable. Las líneas que sobresalen de la caja se llaman

bigotes. Estos bigotes tienen tienen un límite de prolongación, de modo que

cualquier dato o caso que no se encuentre dentro de este rango es marcado e

identificado individualmente.

Si la distribución es aproximadamente normal, se declaran puntos extremos

(outliers) aquellos que caen por fuera del intervalo X 2.7*S ya que P (-2.7*S < X

< + 2.7*S) = 0.993. Si la distribución es asimétrica, se acostumbra dividir la serie

en áreas o segmentos como se muestra en la siguiente gráfica, llamada gráfica de

Box and Whisker o caja esquemática o diagrama de bigotes:

Donde:

1: Q1 – 3xRq

2: Q1 – 1.5xRq

3: Q3 + 1.5xRq

4: Q3 + 3.xRq

Obsérvese que los puntos a distancias menores de la representación 1 o mayores

de la representación 4, son altos extremos. Los puntos entre la representación 3 y

4 y entre 1 y 2 se consideran como puntos de advertencia o bajos extremos; los

puntos entre la representación 2 y 3 se consideran como puntos normales.


Cuando la caja es contrecha, se puede determinar homogeneidad en la variable, en

caso contrario heterogeneidad.

Si el bigote derecho es más largo que el izquierdo, se puede determinar asimetría

positiva, en caso contrario asimetría negativa.

5.3. Diagrama de cajas y bigotes en Excel: Para construir un boxplot necesitamos determinar el valor del primer y el tercer cuartil, el valor del a mediana, y los valores mínimo y máximo de la variable analizada. Todos estos estadísticos son provistos por la opción de estadística descriptiva del menú de Análisis de Datos de Excel, con excepción del primer y tercer cuartil. Ejemplo: Vamos a elaborar un diagrama de cajas y bigotes, para la variable EDAD, de la “base de datos”. Calculamos los estadísticos que aparecen en la Figura 33:

Figura 33. Algunos estadísticos para la variable EDAD

Seleccione el rango de celda M20 a N24 y luego usando el botón derecho del ratón seleccione la alternativa Copiar. Manteniendo el rango seleccionado M20 a N24 diríjase al menú principal y elija Edición/Pegado especial. En el cuadro de diálogo que aparece seleccione la opción valores, como se muestra en la figura 34.


Figura 34. Pegado especial - Valores

Presione el botón Aceptar y verá que aparentemente no se opera cambio alguno. En realidad, acaba de convertir las fórmulas introducidas en el paso anterior en valores que pueden usarse para cálculos posteriores.

Seleccione el rango M20 a N24 y luego del menú principal elija Insertar/Gráfico. En tipo de gráfico seleccione Líneas y en subtipo de gráfico Línea con marcadores en cada valor, generándose el grafico de la figura 34. Se puede agregarle un título al gráfico

Figura 35. Diagrama de líneas

Parados en la línea azul de la figura 35, damos botón derecho y escogemos

seleccionar datos. Figura 36


Figura 36. Seleccionar datos

Seleccionamos el botón “Cambiar fila/columna que aparece en la figura 37

Figura 37. Cambiar fila/columna

El gráfico resultante deberá tener el siguiente aspecto:

Figura 38. Cambiar fila/columna


Figura 39. Agregar elemento de gráfico – Diseño rápido

En diseño rápido seleccionamos “Diseño 1”, y en Agregar elemento de gráfico,

seleccionamos Líneas – Líneas de máximos y mínimos y Barras ascendentes y

descendentes. Figura 40.

Figura 40. Líneas máximos y mínimos – Líneas ascendentes y descendentes

Finalmente, el diagrama de cajas y bigotes, con sus respectivos ajustes será:

Figura 41. Diagrama de cajas y bigotes para la variable EDAD

0

10

20

30

40

50

60

70

80

1

Títu

lo d

el e

je

Diagrama de cajas y bigotes para la EDAD

Primer cuartil

Mínimo

Mediana

Máximo

Tercer cuartil


6. ESTADISTICA DESCRIPTIVA MEDIANTE EL COMPLEMENTO

MEGASTAT

6.1. Que es Megastat: Es un complemento de Microsoft Excel. Creado por J. B.

Orris en la Universidad de Butler. Hasta la versión 9.1 era de uso libre, sin embargo,

hoy en día es distribuido por la editorial McGraw-Hill. MegaStat ofrece herramientas

para efectuar estadística descriptiva, cálculos probabilísticos, estimación por

intervalos, prueba de hipótesis, series de tiempo y control de calidad.

MegaStat 10.3 Release 3.2 y versiones posteriores se ejecutarán en 32 bits o 64

bits Excel 2010, 2013, y 2016. Las versiones anteriores se pueden ejecutar sólo en

32 bits de Excel.

MegaStat 10.2 ha sido probado con las versiones de 32 bits de Microsoft Excel

2010, 2013, y 2016. MegaStat 10.2 y versiones anteriores pueden ejecutarse en

Excel 2007, MegaStat trabajará con 32 y 64 bits de Windows 10, Windows 8,

Windows 7, y Windows Vista Service Pack 2.

Según sea el sistema operativo o la versión de Excel, el ejecutable de Megastat se

puede bajar del siguiente link:

http://www.estadisticacondago.com/index.php/software-aplicativo-superior-89

http://www.estadisticacondago.com/index.php/software-aplicativo-superior-89


6.2. Instalación y activación de Megastat: Por ser un complemento de Excel, el

ejecutable de Megastat, debe ser descomprimido en la carpeta “Library” o en la

carpeta “AddIns”, según la versión de Excel. Para ir en busca de cualquiera de estas

dos rutas, siga las siguientes instrucciones:

• Abra Excel, y siga la siguiente ruta: Archivo – Opciones – Complementos – Ir

- Examinar

Figura 42. Ruta para el copiado de Megastat

• Copie la ruta que aparece en la Figura 43


Figura 43. Carpeta del complemento Megastat

• La ruta definitiva para este PC que tiene instalado el Excel 2016, es la

siguiente: C:\Users\DAGO\AppData\Roaming\Microsoft\AddIns.

• Copie esta dirección en cualquier carpeta del explorador, y pegue la versión

adecuada del Megastat, descomprimiéndola.

Figura 44. Pegado y descomprensión de Megastat


• Una vez realizado el paso anterior, vuelva y abra la ruta de la Figura 42 y

active Megastat, como lo indica la Figura 45, finalmente oprima “Aceptar”

Figura 45. Activación de Megastat

Figura 46. Megastat Activado

6.3. Configuración del punto como separador de decimales: Algo muy

importante para trabajar con Megastat, es la configuración del punto y como

tal la coma, por ser una macro programada en otra región. Para ello se abre

el “Panel de control” del PC, y se realiza lo siguiente:

• Escogemos “Reloj, idioma y región” – “Región” y “Configuración adicional…”

Figura 47.


Figura 47. Configuración adicional del Panel de control

• En “Símbolo decimal”, escogemos punto “.”, y en “Símbolo de separación

de miles, escogemos coma “,”, y damos “Aceptar” “Aceptar”. Figura 48.

Figura 48. Configuración del punto y la coma


6.4. Configuración de rangos en Excel: Una forma para facilitar el trabajo en

Megastat, es configurar los rangos de cada una las variables. Esto se realiza

de la siguiente forma: se selecciona toda la variable, incluyendo su etiqueta,

por ejemplo, en el caso de la variable SEXO, se sombrea desde A1 a A501,

y en el “cuadro de nombres”, reemplazamos su contenido por el nombre de

la variable (para nuestro ejemplo “SEXO”. Figura 49. De la misma forma se

hace el procedimiento para el resto de variables.

Figura 49. Rangos para las varables

6.5. Tabulación y graficación variable cualitativa nominal con Megastat

(ESTADO):

a) En la opción “Datos” – “Filtro”, se puede visualizar las diferentes categorías

y el formato de las mismas, para cada variable. En el caso de la variable

ESTADO, se pude observar que existen 5 categorías: Casado, Separado,

Soltero, Unión Libre, Viudo. Figura 50


Figura 50. Filtro para visualizar categorías de las variables

b) En un área libre de la base de datos, por ejemplo, de L3 a L7, se colocan las

diferentes categorías de la variable, respetando el formato original, es decir,

teniendo en cuenta la escritura original en la base datos (respetando

mayúsculas y minúsculas). Figura 51.

Figura 51. Categorías de la variable ESTADO


c) Se elige la ruta: “Complementos – Megastat – Freqency Distributions –

Qualitative…”, como la indica la Figura 52.

Figura 52. Selección del comando Qualitative

d) Inmediatamente después, aparece un cuadro de dialogo como el de la Figura

53, donde en la opción “InputRange”, se escribe el nombre de la variable

definida en el rango que se configuro anteriormente (sección 6.4), o se

oprime la pestaña encerrada en el ovalo azul, seleccionando el rango de la

variable ($H$1:$H$501), y en la opción “specification range”, se ubica el

rango de las categorías ($L$3:$L$7). Escogemos la opción “histogram”, para

que se genere la gráfica, que no es un histograma sino un diagrama de barras

Figura 53. Selección del rango y las categorías de la variable ESTADO

El resultado obtenido se muestra en la Figura 54, en una hoja nueva del libro Excel,

llamada “Output”.


Figura 54. Output de la variable ESTADO

e) Por último, se edita la tabla y las gráficas como en el apartado 2.3.1.

6.6. Tabulación y graficación variable cualitativa ordinal con Megastat

(ESTRATO):

a) Se repiten los incisos del a) al d), de la sección anterior 6.5, teniendo en

cuenta que las categorías que deben ir en el área en blanco de la base de

datos son: Bajo, Medio y Alto. Estas categorías deben de tener un orden

establecido, por ser una variable Ordinal.

b) Se edita la tabla y las gráficas de la misma forma que en el apartado 2.3.2.

6.7. Tabulación y graficación variable cuantitativa discreta con Megastat

(EDUCACION):

a) Se repiten los incisos del a) al d), de la sección 6.5, teniendo en cuenta que

las categorías que deben ir en el área en blanco de la base de datos son los

números: 8-12-14-15-16-17-18-19-20-21. Estos números deben de ir en


orden por ser una variable Discreta. Se aclara que la variable EDUCACION,

es una variable discreta, pero para el tratamiento en Megastat, optamos por

la opción del apartado 6.5.

b) Se edita la tabla y las gráficas de la misma forma que en el apartado 2.3.3.

6.8. Tabulación y graficación variable cuantitativa continua con Megastat

(EDAD):

Teniendo en cuenta los incisos del 1 al 3 del apartado 2.3.4.1., para el cálculo de la

amplitud (4,21) y el mínimo redefinido (29,81), se realizan los siguientes pasos:

a) Se elige la ruta: “Complementos – Megastat – Freqency Distributions –

Quantitative…”, como la indica la Figura 55.

Figura 55. Selección del comando Quantitative

b) Aparece un cuadro de dialogo como el de la Figura 56, donde en la opción

“InputRange”, se escribe el nombre de la variable definida en el rango que se

configuro anteriormente (sección 6.4), o se oprime la pestaña encerrada en

el ovalo azul, seleccionando el rango de la variable ($B$1:$B$501). En

“interval width”, escribimos la amplitud (4,21) y en “lower boundary of first

interval”, el límite inferior del primer intervalo (29,81). Seleccionamos las tres

gráficas para las frecuencias acumuladas y las no acumuladas “Histogram,

Polygon y Ogive” y damos “OK”.


Figura 56. Selección del rango, amplitud y límite inferior del primer intervalo

de la variable EDAD

El resultado obtenido se muestra en la Figura 57, en una hoja nueva del libro Excel,

llamada “Output”.

Figura 57. Output de la variable EDAD

c) Por último, se edita la tabla y las gráficas con las convenciones como en el

apartado 2.3.4.


6.9. Estadísticos y análisis exploratorio de datos con Megastat


BIBLIOGRAFÍA

• Berenson, Mark. (1.992): Estadística Básica en Administración. Editorial. Harla. Cuarta Edición. México.

• Best,J. W. (1987): Como Investigar en Educación. Editorial Morata. Madrid – España.

• Castañeda J., J. (1991): Métodos de Investigación 2. Editorial McGraw-Hill. México.

• Chao, L.(1993): Estadística para la Ciencia Administrativa. Editorial McGraw –Hill. 4ta Edición. Colombia

• DANIEL WAYNE, W. y Otros (1993): Estadística con Aplicación a las Ciencias Sociales y a la Educación Editorial McGraw-Hill Interamericana de México, S.A. de C.V. México.

• ERKIN KREYSZIA (1978): Introducción a la Estadística Matemática. Editorial Limusa, S.A. México.

• Gomes Rondón, Francisco (1985): Estadística Metodológica: Ediciones Fragor. Caracas.

• González, Nijad H. (1986): Métodos estadísticos en Educación. Editorial Bourgeón, Caracas.

• Mason, Robert (1.992): Estadística para la Administración y Economía. Ediciones Alfaomega S.A.N. México.

• WALPOLE, R. y Myers, R. (1987): Probabilidad y Estadística para Ingenieros. Editorial Interamericana. México.

• Webster, Allen L. (1996): Estadística Aplicada a la Empresa y la Economía. Editorial Irwin. Segunda edición. Barcelona – España.

• Weimer, Richard C. (1996) Estadística. Compañía Editorial Continental, SA de CV. México.

• Wonnacott, T. H. y Wonnacott, R: J. (1989): Fundamentos de Estadística para Administración y Economía. Editorial LIMUSA. México.

ESTADISTICA DESCRIPTIVA CON EXCEL 2016 Y EL … lineal/Estadística Descriptiva... · ESTADISTICA...

Documents

Transcript of ESTADISTICA DESCRIPTIVA CON EXCEL 2016 Y EL … lineal/Estadística Descriptiva... · ESTADISTICA...