VI. Guía de Estudios UNIDAD I SIGNIFICADO Y...

136
21 VI. Guía de Estudios SIGNIFICADO Y ALCANCE DE LA ESTADÍSTICA 1. La Estadística como disciplina científica En el lenguaje cotidiano se utiliza la palabra "estadística" como un con- junto de cifras referido a alguna actividad, por ejemplo: número de acci- dentes de tránsito durante un año, cifras de producción de cereales; índi- ces mensuales de precios al consumidor, etc. Sin embargo, por "estadística" debe entenderse algo más elaborado y más susceptible de tratamiento científico. En la actualidad, todas las dis- ciplinas utilizan la información estadística con el objeto de planificar cursos de acción, y aún cuando se trabaja en condiciones de incertidumbre, de- ben tomarse las decisiones correspondientes. La Estadística, precisamente, proporciona un conjunto de métodos para la preparación de decisiones acertadas frente a la incertidumbre. Trata de la resolución de problemas, y en consecuencia, se encuentra dentro de los límites del método cientí- fico. Queda claro, entonces, que hoy en día los métodos estadísticos no se aplican únicamente para reunir cifras históricas, sino que deben permitir el tratamiento de la información numérica con fines de obtener conclusiones útiles y elaborar pronósticos. Por ejemplo, en el nuevo escenario económi- co, un gerente utiliza los datos de ventas no sólo para conocer los resul- tados económicos, sino con el propósito de hacer estimaciones y analizar tendencias. De todo lo expuesto, se puede resumir el concepto de Estadística como sigue: “Es la disciplina que comprende un conjunto de teorías, métodos y técnicas para obtener, describir e interpretar datos e informacio- nes con el objeto de tomar decisiones y predecir fenómenos que pueden expresarse en forma cuantitativa”. UNIDAD I

Transcript of VI. Guía de Estudios UNIDAD I SIGNIFICADO Y...

21

VI. Guía de Estudios

SIGNIFICADO Y ALCANCE DE LA ESTADÍSTICA

1. La Estadística como disciplina científica

En el lenguaje cotidiano se utiliza la palabra "estadística" como un con-junto de cifras referido a alguna actividad, por ejemplo: número de acci-dentes de tránsito durante un año, cifras de producción de cereales; índi-ces mensuales de precios al consumidor, etc.

Sin embargo, por "estadística" debe entenderse algo más elaborado ymás susceptible de tratamiento científico. En la actualidad, todas las dis-ciplinas utilizan la información estadística con el objeto de planificar cursosde acción, y aún cuando se trabaja en condiciones de incertidumbre, de-ben tomarse las decisiones correspondientes. La Estadística, precisamente,proporciona un conjunto de métodos para la preparación de decisionesacertadas frente a la incertidumbre. Trata de la resolución de problemas,y en consecuencia, se encuentra dentro de los límites del método cientí-fico.

Queda claro, entonces, que hoy en día los métodos estadísticos no seaplican únicamente para reunir cifras históricas, sino que deben permitir eltratamiento de la información numérica con fines de obtener conclusionesútiles y elaborar pronósticos. Por ejemplo, en el nuevo escenario económi-co, un gerente utiliza los datos de ventas no sólo para conocer los resul-tados económicos, sino con el propósito de hacer estimaciones y analizartendencias.

De todo lo expuesto, se puede resumir el concepto de Estadística comosigue:

“Es la disciplina que comprende un conjunto de teorías, métodosy técnicas para obtener, describir e interpretar datos e informacio-nes con el objeto de tomar decisiones y predecir fenómenos quepueden expresarse en forma cuantitativa”.

UNIDAD I

22

2. Aplicaciones de la estadística

2.1. Aplicación en distintas disciplinas

Existen dos tipos extremos respecto a la Estadística: una aceptaciónindiscriminada, donde se pretende tomar decisiones basándose solamen-te en métodos estadísticos; o bien, una desconfianza sistemática en ella,lo que lleva a ignorar muchos hechos de la realidad. Es por ello que debeadoptarse una actitud intermedia, es decir utilizar los métodos y técnicasestadísticas como herramientas para el logro de objetivos buscados. Nin-gún procedimiento estadístico, en sí mismo, puede conducir directamentea resultados buscados. La utilización adecuada depende de la habilidad yexigencias de quienes los emplee(1) .

Como en todas las disciplinas se realizan trabajos de investigación, losmétodos estadísticos son instrumentos fundamentales de aplicación. Sepueden citar los siguientes ejemplos:

- En Agricultura, un área relacionada con las Ciencias Biológicas, seutilizan para determinar los efectos de fertilizantes en la producciónde cereales.

- En Medicina, se emplean para determinar los posibles efectos de unnuevo tratamiento para una determinada enfermedad.

- En Ingeniería Industrial, es fundamental el conocimiento sobre lastécnicas estadísticas de control de calidad.

De la misma manera se puede afirmar que la Estadística es de granutilidad en Psicología, Educación, Sociología, Antropología, Geografía,Turismo, Química, etc.

2.2. Aplicación en la Economía y los Negocios

La creciente complejidad de la Economía provoca cada vez mayor in-certidumbre para las operaciones de cualquier empresa, pero como ya sedijo, los administradores deben igualmente resolver problemas y tomardecisiones. Particularmente, en el campo de la Administración, la Estadís-tica ha demostrado ser una importante herramienta en áreas tales como

1. D'Ottone, Horacio. Op. cit. en la bibliografía.

23

investigación de mercados, evaluación de proyectos, pronósticos de ven-tas, etc. En la actualidad, se trata de incluir todos los métodos relaciona-dos con las decisiones estadísticas en una teoría que las abarque porcompleto denominada "teoría de las decisiones".

Se debe puntualizar la importancia de los métodos estadísticos paracualquier gobierno. Por ejemplo, la obtención de diferentes indicadorescomo ser el PBI, índices de precios, tasas de interés, y otros, sirven nosólo para describir el estado actual de la economía, sino que proporcionanideas de la tendencias, lo que permite evaluar las medidas de un planeconómico. Estos indicadores también son utilizados por los distintos sec-tores económicos que llevarán a decisiones respecto a las operaciones ypolíticas de cada uno.

3. La Falsedad estadística

La mala utilización de los métodos estadísticos llevan a resultados erró-neos que destruyen el valor de cualquier investigación. Obtención de da-tos insuficientes, construcciones inadecuadas de gráficos, datos muestralesno representativos, son algunas de las situaciones que llevan a interpreta-ciones engañosas y conclusiones equivocadas.

Por lo expresado, se requiere de cuidado y prudencia en el manejo dedatos estadísticos. Los errores cometidos son involuntarios en muchoscasos, pero también puede mentirse con estadísticas debido a interesescreados. El primer ministro británico del siglo XIX, Benjamín Disraeli ex-presó burlonamente que "existen tres tipos de falsedades: las mentiras,las mentiras detestables y las estadísticas".

A medida que se avance en el desarrollo de los temas se irán haciendoreferencias al mal uso de la estadística en distintos métodos, técnicas yprocedimientos.

24

Actividad Nº 1

1. a. Busque en el diccionario las distintas acepciones del vocablo "es-tadística".

b. De acuerdo a los conceptos desarrollados en el punto 1 de estemódulo y a las acepciones expuestas en (a), construya su propiadefinición de estadística y explíquela.

2. Realice un listado de por los menos 5 actividades o ámbitos empre-sariales donde la estadística resulte esencial.

3. Ilustre con un ejemplo la aplicación de la estadística en cada una delas siguientes disciplinas.

a) Geografíab) Turismoc) Educaciónd) Psicología

4) En los procesos decisorios se utilizan también los modelos proporcio-nados por la Investigación operativa y la Econometría.

Investigue cuál es la finalidad de cada una y establezca la relacióncon la Estadística.

5) Consulte la bibliografía y elabore un resumen sobre la historia de laEstadística.

25

UNIDAD II

LA INVESTIGACIÓN ESTADÍSTICA

1. Etapas de un trabajo estadístico

Toda investigación estadística es un procedimiento sistemático que tie-ne las siguientes etapas:

1.Formulación del problema: Debe determinarse en forma precisa elobjeto de la investigación, es decir "el qué" y "el para qué" se investiga.Deben indicarse los sujetos del estudio (unidades de observación) y lascaracterísticas de interés (variables).

2.Diseño del experimento: Se denomina "experimento" a la observa-ción planeada de un fenómeno de cualquier índole con la finalidad dedescribir su comportamiento y/o tomar una decisión. Formulado el proble-ma, el investigador debe decidir si estudia toda la población (universo) osólo una parte de ella (muestra). En el Primer caso deberá realizar uncenso (enumeración completa de la población). Si elige una muestra, de-berá diseñar el procedimiento adecuado para obtener una muestra repre-sentativa de la población.

3.Relevamiento de datos: Se procede a recopilar los datos de lasdistintas fuentes disponibles utilizando los distintos métodos de recolec-ción.

4.Organización y presentación de datos: Los datos organizados ypresentados en cuadros (tablas) y/o gráficos se convierten en informaciónútil para facilitar la lectura y el análisis de la misma.

5.Análisis: Según sea el objetivo de la investigación, el análisis puedeser descriptivo o inferencial. (Ver tema 5).

6.Interpretación: Los resultados obtenidos, que están expresados enlenguaje estadístico, deben ser "traducidos" al lenguaje de la disciplinacientífica en la cual se investiga. La interpretación permite la elaboraciónde conclusiones y la toma de decisiones.

26

2. Variables

Cualquier objeto o evento cuyas características son observables cons-tituye un "fenómeno". En un sentido más amplio se puede decir que un"fenómeno" indica qué aspectos de la realidad está bajo observación oestudio.

Sea la siguiente información sobre el personal de una universidad.

ANTIGÜEDAD CARGO Y SEXO

(en años) Docentes Administrativos

V M V M

0 - 5 3 5 2 4 5 - 10 18 16 19 11 10 y más 45 60 22 24

TOTAL 66 81 43 39

En la información del cuadro hay 3 características observables: antigüe-dad, cargo y sexo. Cada una de ellas constituye una variable.

Una variable es una propiedad o característica de un objeto de estudioque puede asumir distintos valores. También puede definirse como unacaracterística observable de un objeto de estudio que se puede describirsegún un esquema de clasificación y medición bien definida.

VARIABLE VALORES O CATEGORIA DE VARIABLES

Antigüedad 0 - 5 5 - 10 10 y másCargo Docente - AdministrativoSexo Varón - Mujer

Las variables se clasifican: en a) cualitativas y b) cuantitativas.

a) Las variables cualitativas, llamadas también "atributos", expresa pro-piedades de los fenómenos que se pueden describir cualitativamente

27

y, desde luego, no están representadas numéricamente. Ej.: Cargo ySexo. Otros ejemplos: nacionalidad, nivel instrucción, estado civil, etc.

b) Las variables cuantitativas son las expresiones numéricas de algunaspropiedades de los fenómenos. En la información sobre el personal,la antigüedad es una variable continua. Otros ejemplos: edad, peso,estatura, etc.

Las variables cuantitativas pueden ser: "discretas" o "continuas".

- Las variables discretas son aquellas que pueden tomar sólo ciertosvalores es el intervalo considerado y no admiten valores intermedios.Generalmente son valores enteros. Ej.: el número de hijos. Una fami-lia puede tener 0,1, 2... hijos, pero no algún valor intermedio.

- Las variables continuas son las que pueden tomar cualquier valor enel intervalo considerado. Ej.: el peso. Una persona que pesa 65 kgs.,redondeando a enteras se puede tener la certeza que su peso es unvalor entre 64,5 y 65,5 kgs. Puede pesar 65 a 65,385 kgs., o cualquiervalor entre 64,5 y 65,5 kgs.

Hay muchas variables continuas cuyos valores parecen ser discretos.Por ejemplo, la edad de una persona. Si alguien dice que cumplió 25 años,en realidad tiene 25 años más una fracción de año.

Ahora bien, el empleo de fracciones o decimales no significa que nece-sariamente las variables sean continuas. En algunas competencias depor-tivas participantes pueden recibir calificaciones como 7; 7,5; 8; 8,5. Estosvalores son discretos ya que no se puede calificar entre 7 y 7,5.

En resumen:

- Las observaciones para una variable discreta se obtienen por el pro-ceso de "conteo": número de acciones vendidas en la Bolsa, unidadesde un producto en un inventario, etc.

- Las observaciones para una variable continua se obtienen por el pro-ceso de "medición": peso, estatura, temperatura, etc.

28

3. Datos estadísticos

Un dato es el valor de la variable. Si una persona es "varón", "docente"y tiene una antigüedad de "6 años" en la universidad, cada uno de estosvalores individuales constituye un dato para cada variable de interés.

De hecho, los datos se presentan con algún tipo de "medición", es decirque los registros de observaciones deben expresarse en números (osímbolos) de manera que puedan aplicarse los métodos estadísticos.

Las características cuantitativas pueden transformarse en datos numé-ricos, simplemente por medición directa en unidades tales como metro,kilogramos, pesos, dólares, etc.

Si las características son cualitativas, las observaciones puedenclasificarse como poseedoras o no de una cualidad o propiedad determi-nada. Un artículo puede considerarse como "defectuoso" o "bueno". Perolos atributos pueden expresarse numéricamente a los efectos de un trata-miento estadístico, por ejemplo, asignar el valor 0 a los artículos defectuo-sos y el valor 1 a los artículos buenos.

En muchos casos, los datos cuantitativos también pueden ser tratadoscualitativamente según la naturaleza del problema bajo estudio. La califi-cación de exámenes es cuantitativa, pero puede ser tratada como atribu-to, categorizando la calificación o resultado como "aprobado" o "desapro-bado".

Lo más importante para destacar es que no toda información numéricaes considerada como dato estadístico. La información apropiada para unanálisis estadístico debe ser un conjunto de números que muestren "rela-ciones significativas", es decir deben ser cifras que puedan ser compara-das, analizadas e interpretadas. Un número aislado que no muestre rela-ción significativa no es un dato estadístico (2).

(2) Shao, Stephen, op. cit. en la bibliografía

29

Actividad Nº 2

1. Indique si el siguiente enunciado es correcto o incorrecto y funda-mentar la respuesta:

"Las variables discretas son las que asumen valores enteros"

2. Clasifique las siguientes variables:

a) Indices de desocupación de las provincias argentinas.b) Número de asignaturas aprobadas por alumnos de una carrera

universitaria.c) Causa de los accidentes de trabajo.d) Densidad de población de los departamentos de la provincia de

Salta.e) País de destino de las exportaciones argentinas.f) Número de ambientes de las viviendas de un barrio.

3. ¿Por qué no cualquier número es un dato estadístico?

4. En diarios o revistas, identifique secciones que incluyan datos esta-dísticos

30

4. Población y Muestra

4.1. Población

En la investigación estadística es fundamental definir el marco de refe-rencia de estudio, esto lleva a definir la Población o Universo.

Población es la totalidad de posibles mediciones yobservaciones bajo consideración en una situacióndada de un problema.

Cada situación en particular implica definir una población diferente. Si elproblema consiste en analizar las evaluaciones del desempeño de todoslos empleados de una empresa comercial, entonces la población estáconstituida por las evaluaciones de todos los empleados de esa empresa.Si el problema consiste solamente en el análisis del desempeño de losvendedores de la empresa, entonces la población está formada por lasevaluaciones de todos los vendedores de la organización. Es fundamentalque la población quede claramente especificada a fin de identificar losintegrantes de la misma.

Cada elemento de la población se denomina "unidad elemental deobservación". Sobre cada una de ellas se efectuarán las mediciones delas características o propiedades que pueden ser cuantitativas o cualitativas.

Ejemplo: Durante una auditoría en una librería se revisan las cuentascorrientes de los clientes a efectos de determinar el saldo promedio.

- La población consiste en todas las cuentas corrientes de los clientesdel negocio.

- La variable bajo estudio es el saldo. Es cuantitativa.- La unidad de observación es cada cuenta individual.

Es fundamental definir cuidadosamente la unidad elemental y su carac-terística observada. En un estudio sobre viviendas puede interesar el nú-mero de habitaciones de cada una. Pero, qué es una habitación? ¿Undormitorio, un cuarto de baño, una cocina? ¿Se incluirán todas las depen-dencia de la vivienda o sólo algunas? Otro ejemplo puede ser un análisissobre la rentabilidad de las pequeñas empresas. En este caso habrá queprecisar qué es una pequeña empresa y qué características se tendrán encuenta para considerarla como tal.

31

Puede ocurrir que distintos investigadores se opongan en las definicio-nes sobre una misma cuestión básica. Por ejemplo, si se toma en conside-ración al “turista” como unidad de observación para un análisis cualquiera,puede ocurrir que para un economista, un turista sea la persona que sedesplaza de su residencia habitual, ya que tal desplazamiento lo obliga arealizar gastos de hotelería, transporte, comida, etc. cualquiera sea la“motivación” del viaje; sin embargo un sociólogo puede considerar que un“viajante de comercio” o “un director de una S.A." que asiste a una reuniónde trabajo, no es un turista, puesto que la motivación de su viaje es con-secuencia de la actividad laboral.

En resumen, la definición de la población y las características de susunidades elementales dependen de la naturaleza del problema que seestudia, lo que importa es que esa definición sea lo más precisa posible.

4.2. Población finita y población infinita

Se denomina población “finita” a la que incluye unnúmero limitado de observaciones.

Por ejemplo, el conjunto de salarios de los operarios en una compañía.Algunas poblaciones finitas incluyen solamente unos cuantos datos, mien-tras que otras, consisten en miles o millones de datos. Siempre que seaposible alcanzar el número total de observaciones, se considera comofinita la población.

Población “infinita” es aquella que incluye una grancantidad de medidas u observaciones que no pue-den alcanzarse por conteo.

Una población de este tipo podría ser todas las baterías posibles quefabricaría un industrial si continuara trabajando indefinidamente, bajo de-terminadas condiciones de operación. Otra población infinita sería todoslos resultados posibles al lanzar un dado en forma continua e indefinida.En las poblaciones infinitas, no puede obtenerse información completa,por lo que para poder estudiarla se deberá trabajar con una muestra.

32

4.3. Muestra

Si las poblaciones que se investigan son infinitas, se dijo que el únicoprocedimiento posible es el de muestreo; como no puede contarse contodos los elementos de la población, se toma de la misma una parte. En elcaso de poblaciones finitas, el muestreo sigue siendo el único procedi-miento práctico, sobre todo si éstas son muy grandes y su enumeracióncompleta es prácticamente imposible. Por ejemplo, si se desea investigarlas preferencias de las amas de casa de la ciudad de Salta sobre unamarca de jabón, no será posible entrar en contacto con todas ellas, másbien se encuestará a una parte de ella, o sea, se obtendrá una muestra.

Una muestra es un conjunto de observaciones toma-das a partir de una población dada. Es un subconjuntode la población o universo.

Fundamentalmente, una muestra se elige por las siguientes razones:

a) MENOR COSTO. Cuando los datos se obtienen mediante una muestra,los gastos son menores que si se trabaja con un censo completo.

b) MAYOR RAPIDEZ. Los datos se pueden recopilar y procesar más rápida-mente. Esto es importante si la información se requiere con urgencia.

c) MAYOR ALCANCE. Como se trabaja con una parte de la población, esposible obtener información más completa y precisa que si se trabajacon un censo.

d) En otros casos, el examen de los elementos requiere de la destruc-ción de los mismos, como por ejemplo cuando se desea determinarla calidad de los fósforos; aquí, el control se debe hacer con unamuestra porque si se trabajara con el censo esto implicaría la des-trucción de toda la producción y no quedarían productos después delexamen.

De hecho, toda muestra debe ser representativa del universo que seestudia, para permitirle al investigador extraer conclusiones en cuanto alas relaciones entre sus variables y establecer generalizaciones, es decirinferencias válidas a la población.

33

Existen varios tipos de diseños de muestras, pero todos ellos producendos categorías de muestras. Las probabilísticas y las no probabilísticas.

En las muestras probabilísticas todos los elementos de la poblacióntienen una probabilidad conocida de ser incluidos en la muestra.

Las muestras no probabilísticas son muestras de "juicio" donde el inves-tigador elige los elementos que, en su opinión, son representativas de lapoblación.

4.4. Parámetro y Estadígrafo

Las características medibles de una población se denominan paráme-tros. Por ejemplo, se desea realizar un análisis sobre los resultados deuna prueba de ingreso a todos los aspirantes a las carreras universitariasde Ciencias Económicas en la provincia de Salta. Suponiendo que se tra-baje con la población, se puede obtener un promedio de todas las califica-ciones de los aspirantes en la prueba. Ese promedio describe una carac-terística del universo, por lo tanto constituye un parámetro.

Si se decide trabajar con una muestra, se selecciona un grupo de aspi-rantes, se registran sus calificaciones en la prueba y se obtiene un prome-dio. En este caso, ese promedio está calculado sobre una muestra y sedenomina estadígrafo o estadístico. Los estadígrafos son las caracte-rísticas medibles de una muestra.

34

Actividad Nº 3

1) Se ha hecho un estudio para determinar la preferencia de una marcaespecial de detergente por parte de las amas de casa de la ciudad deSalta. Entre las 200 amas de casas entrevistadas, 120 respondieronque preferían esa marca.

a) ¿Cuál es la población?b) ¿Cuál es la unidad de observación?c) ¿Qué constituye la muestra?

2) Se lanza una moneda 100 veces y se obtienen 60 caras.

a) ¿Qué constituye la muestra?b) ¿Qué constituye la población?

3) Durante una semana, en un cine asistieron 1000 espectadores. Expli-que las circunstancias bajo las cuales estos 1000 espectadores pue-den considerarse.

a) como muestra,b) como una población.

4) La Municipalidad de Salta está efectuando una encuesta domiciliariade opinión sobre el servicio de recolección de residuos. Con ese ob-jetivo se ha ideado un esquema para realizar un muestreo aleatoriode las casas en distintos puntos de la ciudad y planea efectuar en-cuestas durante los días hábiles de 9 a 14 horas. ¿Producirá esteesquema una muestra aleatoria?

5) En cada uno de los siguientes casos, identifique:

1) el objetivo del trabajo,2) la variable de interés,3) la población,4) la muestra,5) la unidad de observación.

35

a) Varias veces durante el día un ingeniero de control de calidad, enuna fábrica textil, selecciona diferentes muestras de metros cua-drados de tela, las examina y registra el número de imperfeccionesque encuentra.

b) El Ministerio de Trabajo investiga la seguridad de las empresasindustriales de la provincia de Salta. A tal efecto registra los índicesde accidentes de trabajo a 50 establecimientos elegidos al azar.

c) A partir del registro de volantes en un distrito electoral, se tomauna muestra de 60 electores y encuentra que 30 están afiliados aalgún partido político.

36

5. Objetivos del Análisis Estadístico

Los datos estadísticos se pueden recopilar para fines prácticos (des-criptivos) y de conocimiento científico (inductivos). Según el objetivo, laEstadística puede dividirse en Estadística Descriptiva y EstadísticaInferencial.

5.1. Estadística Descriptiva

La estadística Descriptiva se refiere a aquella partedel estudio que incluye la obtención, organización,presentación y descripción de información numéri-ca. El análisis se limita a los datos obtenidos en uncaso particular y no implica ningún tipo de inferen-cia o generalización.

Por ejemplo, un gerente de ventas desea conocer las aptitudes de cincovendedores. Obtiene las ventas realizadas por los mismos durante unasemana y las presenta en el siguiente cuadro:

Vendedor A B C D E

Monto (en 18 25 20 15 22miles de $)

Una medida estadística para describir esta información puede ser laventa media o media aritmética.

18 + 25 + 20 + 15 + 22 Media = = $ 20

5

En este caso, se utilizan métodos descriptivos, ya que el promedio resu-me y describe la información obtenida y no hay ninguna generalizaciónhacia las aptitudes de los otros vendedores de la compañía.

37

5

A B C D E Vendedor

$

10

15

20

25

30

Los datos pueden presentarse en diversos gráficos, como por ejemplo,un gráfico de barras.

5.2. Estadística Inferencial

Si el interés del gerente de ventas es conocer las aptitudes de todos losvendedores de la compañía, deberá recurrir a otros métodos estadísticos.Si carece de tiempo y de recursos para trabajar con todos los datos,utilizará una muestra como base para realizar una inferencia o estimaciónacerca de la venta media de todos los vendedores. Para ello, deberá apli-car los métodos de la Estadística Inferencial o Inferencia Estadística.

La Inferencia Estadística es un método mediante el cual se obtienen generalizaciones o se tomandecisiones acerca de una población basadas en

información de una muestra.

Se debe observar que la inferencia estadística se relaciona con la esta-dística descriptiva, ya que la información parcial de la muestra es obtenidapor métodos descriptivos. La venta media de $ 20 que es el estadígrafo,podría utilizarse para estimar la venta media de todos los vendedores dela empresa, es decir obtener una estimación del parámetro.

Como la Estadística Inferencial trabaja sobre una muestra, también sedenomina Estadística Muestral.

38

En el ámbito de la administración de empresas, los métodos de inferenciasson fundamentales para la toma de decisiones. Se tomarán a modo deejemplos dos casos típicos.

- Un comerciante mayorista recibe un embarque de artículos compra-dos. Para determinar la calidad de los mismos, inspecciona 50 unida-des y encuentra que 5 son defectuosas. Rechaza el embarque y lodevuelve al proveedor?.

- Se emplean dos programas de capacitación para operarios de unaempresa industrial. Se aplican a dos grupos semejantes y al finalizarel período de capacitación, se toma una prueba a ambos grupos. Enbase a la calificación promedio de cada grupo, ¿podrá evaluarse laefectividad de los dos programas de capacitación?

Visto los conceptos de ambas ramas de la Estadística, se puede daruna definición más específica de esta disciplina:

La Estadística se refiere a un conjunto de métodospara manejar la obtención, presentación y análisisde observaciones numéricas. Sus fines son descri-bir al conjunto de datos obtenidos (muestra) y tomardecisiones o realizar generalizaciones acerca de lascaracterísticas de todas las posibles observacionesbajo consideración. (población)

39

Actividad Nº 4

1) Cinco baterías marca "Alfa" y cinco baterías marca "Beta" se pruebanpara determinar su duración. Las duraciones para Alfa son: 27, 38,37, 35 y 33 meses; para la marca Beta, las duraciones son : 25, 35,28, 32 y 30 meses. A partir de las siguientes conclusiones, identifiquelas que provienen de métodos descriptivos y las que provienen demétodos inferenciales:

a) La duración promedio de las 5 baterías Alfa es de 34 meses y laduración promedio de las 5 baterías marca Beta es de 30 meses.

b) La duración promedio de Alfa es mayor que la de Beta.

c) Probablemente, la duración promedio de todas las baterías Alfasea mayor que la duración promedio de todas las baterías Beta.

d) Si el precio de Alfa es igual al precio de Beta, es preferible comprarAlfa.

2) Un candidato a ocupar un cargo público asegura que ganará la elec-ción. Un sondeo de opinión indica que sobre 200 electores 40 votaránpor él, 100 favorecerán a su oponente y 15 están indecisos.

a) ¿Cuál es el parámetro poblacional de interés?b) ¿Cuál de los estadígrafos debe utilizar para estimar el parámetro?

3) Proporcione un ejemplo de utilización de Estadística Descriptiva eInferencia Estadística aplicada a la Economía y los Negocios.

40

6. Relevamiento de datos estadísticos

6.1. Concepto

El relevamiento consiste en la recopilación de datos de diversas fuentes.

6.2. Clases de fuentes

a.Fuentes internas y fuentes externas

- Las fuentes internas son las que se encuentran dentro de la organi-zación. Los datos obtenidos de estas fuentes, denominados internos,son los relacionados directamente con las actividades de la empresa.Estos datos están registrados en comprobantes (facturas, recibos,etc.), fichas, registros contables, informes, o bien, en forma codifica-da en discos, disquetes o memoria de una computadora. Por ejem-plo: la información que proporciona el departamento de ventas sobreel monto de ventas de una compañía en un período determinado olos datos sobre la asistencia de los empleados obtenidos de la Oficinade Personal.

- Las organizaciones necesitan también datos ajenos al funcionamien-to y, por lo tanto, deben recurrir a fuentes externas. Los datos exter-nos pueden obtenerse de distintas revistas o publicaciones; por ejem-plo: una empresa agrícola requiere información sobre exportacionesde granos puede recurrir a publicaciones de la Sociedad Rural Argen-tina. En otras ocasiones, deben prepararse encuestas para recopilardatos no disponibles en fuentes internas u otras por ejemplo, opinio-nes de los consumidores de un nuevo producto.

b. Fuentes primarias y fuentes secundarias

- Las fuentes primarias son fuentes originarias de datos. Se denomi-nan primarias porque los datos son obtenidos de una publicacióneditada por el recopilador original. Como los datos se recopilan porprimera vez, se pueden utilizar experimentos estadísticos y encues-tas como métodos de recolección. En el ejemplo sobre las opinionesde los consumidores de un nuevo producto, la encuesta diseñada porla empresa constituye una fuente primaria.

41

- Las fuentes secundarias son aquellas que proporcionan toda la infor-mación existente sobre el tema bajo estudio. Se denominan secunda-rias porque los datos son obtenidos de una reimpresión, que es publi-cada por una persona u organización distinta al recopilador original.

La utilización de fuentes primarias o secundarias depende de la necesi-dad y disponibilidad de datos, como así también del costo y la confiabilidad.Las fuentes primarias son más costosas, pero pueden ser más confiables.Si se utiliza una encuesta, ésta debe ser cuidadosamente planteada yaque hay que establecer objetivos, diseñar la muestra, preparar a losencuestadores, realizar pruebas pilotos; todo esto lleva tiempo y dinero.Las fuentes secundarias tienen costos de búsqueda más bajos, pero sedebe evaluar la confiabilidad de las mismas, ya que los datos pueden estardesactualizados, parcialmente publicados o pueden contener errores deimpresión.

Con respecto a publicaciones y revistas, existen una gran variedad delas mismas confeccionadas por organismos gubernamentales (Ejemplo:publicaciones del INDEC, del Banco Central, etc.). También se encuentranlas estadísticas elaboradas por Naciones Unidas (a través de sus organis-mos: FAO, OMS, UNESCO, UNICEF), Organización de los Estados Ame-ricanos y otros organismos internacionales. Se pueden consultar revistasespecializadas de cámaras sectoriales, fundaciones, institutos de investi-gaciones y otras entidades que compilan y publican datos sobre las acti-vidades que les conciernen.

6.3. Experimentos y Encuestas. Métodos de recolección de datos

Un experimento estadístico es un proceso derecolección de datos donde se ejerce un controlsobre algunos o todos los factores que pueden

influir sobre la variable bajo estudio.

Por ejemplo, la administración de una compañía industrial desea cono-cer si el nuevo plan de capacitación preparado por el departamento depersonal conduce a un aumento en la productividad. Un experimento paraaveriguar este problema podría consistir en seleccionar a un grupo deoperarios y hacerlo participar en el nuevo plan de capacitación, dejando alotro grupo trabajando en las mismas condiciones. Luego, se compararánlas productividades de dos grupos y se evaluará si el plan es o no efectivo.

42

Una encuesta estadística es el proceso de recopi-lación de datos relacionados con las característi-

cas de elementos, sin un control especial queinfluya sobre la variable de interés.

Considerando el estudio de la productividad (variable bajo estudio) delos operarios, se pueden obtener datos sobre la productividad durante losúltimos meses y además se puede obtener información sobre el nivel deinstrucción, éste es un datos de encuesta. Se puede analizar la relaciónentre el nivel de instrucción y la productividad, pero debe observarse queno se ejerce ningún control sobre el factor "instrucción".

6.4. El proceso de obtener datos

En las encuestas o experimentos se pueden utilizar distintos métodos.Algunos de ellos son:

a) Observación directa: Es muy apropiado y eficiente para recopilarciertos tipos de datos. Un ejemplo clásico es el estudio sobre el tráficode vehículos con el objeto de organizar el tráfico de una ciudad. Losobservadores se ubican en un determinado punto de la ciudad paracontar y registrar el número de vehículos que pasan por el lugar. Lacantidad y el tipo de datos que pueden ser recopilados por este mé-todo son limitados. Una limitación puede ser los prejuicios del obser-vador, quien registra algunos hechos, pasando por alto otros quepueden ser importantes. Los observadores deben ser entrenados demanera tal que puedan registrar con precisión los datos relevantes delos fenómenos que se investigan. Por otro lado, la observación debeser de suficiente duración para que pueda obtenerse la cantidad ne-cesaria de datos.

b) Respuestas individuales: Los datos mediante respuestas individualespueden obtenerse por entrevistas personales, entrevistas telefónicaso cuestionarios escritos. El cuestionario está especialmente indicadocuando los datos buscados requieren respuestas muy concretas, obien cuando las muestras son muy grandes. Los datos para el CensoNacional de Población y Vivienda, por ejemplo, se relevan medianteun cuestionario. En otras ocasiones, los cuestionarios se envían porcorreo, como sería el caso de una revista que desea conocer opinio-

43

nes de sus suscriptores acerca de la misma, de esta manera puederecabar los datos en distintos lugares de un área geográfica determi-nada.

Si los datos requieren respuestas más matizadas, y mayor número derespuestas por parte de las personas seleccionadas en la muestra, laentrevista personal sería el método adecuado.

La decisión de utilizar experimentos o encuestas y alguno de los méto-dos mencionados depende de la naturaleza del problema, del costo y eltiempo disponible. Cualquier encuesta o experimento debe planearse yconducirse con cuidado a efectos de conseguir datos relevantes, es decirprecisos y útiles. Existe la posibilidad de emplear un método en particularo bien una combinación de dos o más, lo importante es disponer de datosprecisos y útiles.

7. Organización de los Datos

7.1. Corrección

Antes de la presentación, será necesario efectuar una corrección de losdatos relevados para evaluar la confiabilidad de los mismos. En las entre-vistas y cuestionarios, son muy comunes errores cometidos por los entre-vistadores o por los respondientes. Puede haber omisiones, respuestasinconsistentes, respuestas incompletas. Si se han utilizado fuentes secun-darias, es necesario verificar que los datos sean completos y/o actualiza-dos.

Si no se revisan los datos, se corre el riesgo de continuar con unainvestigación que no llevará a los resultados deseados y se habrá perdidotiempo y dinero.

7.2. Clasificación

La clasificación implica el establecimiento de grupos o clases para losresultados de una variable. El criterio de clasificación depende de los ob-jetivos y el método de estudio. La clasificación es importante para el aná-lisis de relaciones entre variables.

44

El monto de ventas, por ejemplo, puede clasificarse por año o por sucur-sal de una compañía. Los empleados de una empresa pueden clasificarsepor categorías o por nivel de instrucción.

Cuando los datos se tabulan conjuntamente en dos o más sistemas declasificación se denominan datos en clasificación cruzada. Por ejemplo, elmonto de ventas de las compañías puede clasificarse por año y sucursal.Los empleados pueden clasificarse por categoría, sexo y nivel de instruc-ción.

7.3. Tabulación

La tabulación implica la determinación del número de casos o el valor delos elementos que se incluyen en cada clase o categoría determinada. Enotras palabras, la tabulación es el proceso que permite un arreglo de losdatos en forma resumida de acuerdo a las clasificaciones.

El siguiente, es un ejemplo de tabulación manual con una tabla de conteopor medio de marcas.

Edad de los Conteo Número deempleados empleados

20 - 25 / / / 3 25 - 30 / / / / / / / 8 30 - 35 / / / / 5 35 y más / / 2

18

Los sistemas de computación permiten tabulaciones más extensas enun menor tiempo.

45

Actividad Nº 5

1) Nombre publicaciones que proporcionan información estadística.

2) Consulte la bibliografía y confeccione un resumen sobre aspectosbásicos para la confección de cuestionarios.

3) Identifique, al menos, una falla principal en cada una de las siguientespreguntas diseñadas para obtener información y redacte nuevamen-te la pregunta para eliminar la falla.

a) "¿Cuántas veces visitó el Shopping en los últimos 6 meses?"b) "¿Le viene a la cabeza el nombre de "Pepsi" o de otras marca

cuando escucha la palabra "gaseosa"?"c) "Indique qué marca de yerba prefiere Ud. y dé 3 razones para su

preferencia".

4) Una compañía elaboró recientemente una nueva bebida sin alcohol,distribuyéndola embotellada a los supermercados y en latas a nego-cios minoristas. Actualmetne está examinando los datos de ventaspara observar qué tipo de envase es preferido por los clientes.

a) ¿Por qué estos datos de ventas son encuesta?b) ¿Cómo podría Ud. establecer un experimento para estudiar la pre-

ferencia con resepcto al envase? Explique.

5) En cada una de las siguientes situaciones, indique si sería preferibleun censo o una muestra para obtener la información deseada; expli-que además si serían preferibles cuestionarios o entrevistas.

a) Un noticiero de TV desea conocer la opinión de los ciudadanossobre la reforma de la Constitución.

b) El Consejo Profesional de Ciencias Económoicas desea actualizarlos datos de sus matriculados.

c) Una compañía con 500 empleados desea determinar las actitudesde los empleados hacia las políticas de la empresa.

46

8. Presentación de los datos estadísticos

8.1. Introducción

La presentación de los datos es la disposición de los mismos de maneratal que se conviertan en información significativa que permitan su análisise interpretación.

Las dos técnicas básicas de presentación son los cuadros o tablas y losgráficos.

8.2. Cuadros estadísticos

8.2.1. Concepto

La técnica de los cuadros consiste en arreglos de los datos, divididospor uno o más sistemas de clasificación, en columnas e hileras.

Cuando el cuadro tiene una sola clasificación se denomina de clasifica-ción simple, cuando se confecciona con dos o más clasificaciones se llamacuadro de clasificación cruzada o de doble entrada.

La construcción de una tabla depende de la utilización y del tipo deanálisis que se realice. Para que una tabla sea efectiva debe ser clara yprecisa para posibilitar su lectura. Se deben evitar tablas complicadas ylargas. Cuando se desean hacer comparaciones, las tablas deben serdiseñadas para facilitar las mismas.

En los cuadros de doble entrada debe tenerse especial cuidado en elorden y disposición de las clasificaciones. Demasiadas divisiones ysubdivisiones pueden tornar confusa la información, siendo preferiblesvarios cuadros simples en lugar de uno con clasificación cruzada.

8.2.2. Elementos estructurales

Una tabla completa debe contener los siguientes elementos estructura-les o partes:

47

PRODUCCION ARGENTINADE PAPEL POR PRINCIPALES TIPOS

(En miles de toneladas)

P E R I O D O STIPOS

1991 1992 1993 (1)

Diario 221 208 198Impresión 179 170 176Industrial 510 508 504Doméstico 38 36 50

TOTALES 948 922 922

(1) Datos estimados (f) Notas al pie

Fuente: Unión Industrial Argentina (UIA) (g) Fuente

a) Título: El título describe el contenido de la tabla. Debe ser completoy preciso.

b) Nota del encabezado: Es una aclaración o amplitud del título ya seapara detallar algún elemento importante o para expresar la unidad demedida de los datos. Se coloca debajo del título y entre paréntesis.

c) Encabezado: Contiene los títulos de las clasificaciones ubicadas enlas columnas.

d) Columna Matriz: Contiene los títulos de las clasificaciones ubicadasen las filas.

e) Cuerpo: Es el contenido de los datos estadísticos arreglados de acuer-do a las descripciones de los encabezados. Cada dato se consignaen una celda que es la intersección entre una fila y una columna.

f) Notas al pie: Se utiliza para explicar o aclarar algunos elementos delcuadro. Ayudan al análisis e interpretación.

g) Fuente: Indica la procedencia de los datos. Permite conocer quiénrecopiló la información y evaluar la confiabilidad de la fuente. Además,saber donde recurrir si se necesita información adicional sobre el tema.

8.2.3. Consideraciones adicionales sobre los cuadros

1) Es importante que en cada celda se registre algo. Si el dato es cero,este cero debe ser anotado en la celda. Si la información no estádisponible, debe indicarse con ND o bien con una aclaración al pie. Si

(a) Título

(b) Nota deencabezado

(c)Encabezado

(e)Cuerpo

(d)ColumnaMatriz

48

la celda se deja en blanco, no se sabe si el dato es cero, no estádisponible o hubo alguna omisión.

2) Cuando en un informe o texto se presentan varias tablas, se hacenecesario numerar las mismas por orden de aparición a fin de facilitarla referencia de las mismas. El número se coloca antes del título.

3) Cuando se quieren analizar relaciones estadísticas entre variable-dependiente e independiente, es conveniente ubicar la primera en lacolumna matriz. La variable de interés fundamental en una investiga-ción es una variable dependiente. Otras variables, las cuales se creeque afectan las mediciones de las variables dependientes, son lasvariables independientes. Se puede decir que la variable dependienteestá determinada o influenciada por la variable independiente. Porejemplo: se desea analizar el desempeño de un grupo de empleados;en este caso el desempeño es la variable de interés. Además sequiere conocer qué factores pueden influir sobre el desempeño, pu-diéndose considerar la instrucción y el sexo que serían en este casolas variables independientes.

4) Presentación en porcentajes: Cuando se presentan datos en porcen-tajes, se pueden utilizar distintas bases que dependerán del análisisy/o comparación que se desee realizar sobre los datos.

Ejemplo: Número de empleados por sexo y categoría-Cifras absolutas

Categoría Varones Mujeres Total

Vendedores 60 50 100Administrativos 40 20 60

Maestranza 20 10 30

Total 120 80 200

Porcentajes conjuntos

Categoría Varones Mujeres Total

Vendedores 30 25 55Administrativos 20 10 30

Maestranza 10 5 15

Total 60% 40% 100%

49

Porcentajes verticales

Categoría Varones Mujeres Total

Vendedores 50 62.5 55Administrativos 33 25 30Maestranza 17 12.5 15

Total 100% 100% 100%

Porcentajes horizontales

Categoría Varones Mujeres Total

Vendedores 55 45 100%Administrativos 67 33 100%Maestranza 67 33 100%

Total 60% 40% 100%

50

Actividad Nº 6

1) El Centro de Industriales Siderúrgicos presentó el siguiente informesobre la producción siderúrgica comparando los meses de enero yfebrero de 1997 y 1998. Los productos considerados son hierro pri-mario y acero crudo.

Los datos indican que la producción de hierro primario en enero de1997 fue de 229.000 toneladas y en enero de 1998 a 256.000 tone-ladas; para el mes de febrero de cada año fue de 262.000 y 275.000toneladas respectivamente. Para el acero crudo la producción totalpara los meses de enero y febrero de 1997 fue de 500.000 toneladas,correspondiendo el 45% al mes de enero y el 55% al mes de febrero;en el mes de enero de 1998 la producción aumentó un 15% respectodel mismo mes en 1997, mientras que en el mes de frebrero de 1998disminuyó un 10% con respecto a febrero de 1997. La instituciónaclaró que los datos de 1998 son provisorios.

Presente todos datos del informe en cuadro con todos los elementosestructurales asegurando una lectura comprensiva de las cifras.

2) La compañía Aguila estudió los factores que afectaban el ausentismode los trabajadores de producción en una de sus plantas. Se obtuvie-ron los siguientes resultados clasificados; los datos se clasificaronpor el sexo y record de asistencia.

Records satisfactorios Records no satisfactoriosHombres: 1920 Hombres: 989Mujeres: 925 Mujeres: 475

a) Convierta estos datos en porcentajes y preséntelos en una tablaen forma que pueda estudiarse la relación entre las variables. ¿Québase utilizó para el cálculo de porcentajes?

b) ¿Existe alguna indicación de relación estadística entre las varia-bles de la tabla? Explique.

c) Luego se agregó al análisis la variable "estado civil" y se obtienenlos siguientes resultados.

51

- Hombres casados 1730 satisfactorios y 630 insatisfactorios.- Hombres en otro estado civil 190 satisfactorio y 350 insatisfactorio.- Mujeres casadas 304 satisfactorios y 430 insatisfactorios.- Mujeres en otro estado civil 621 satisfactorios y 45 insatisfactorio.

Convierta estos datos en porcentajes y preséntelos en una tabla paraestudiar las relaciones causa-efecto entre las variables dependiente e in-dependiente. ¿Existe una relación estadística entre las tres variables?Fundamente su respuesta.

52

8.3. Gráficos Estadísticos

8.3.1. Concepto

En los gráficos, la información se presenta en magnitudes que puedaninterpretarse visualmente. Deben dibujarse en forma sencilla y atractivaque permitan una rápida comprensión de su contenido.

3.2. Partes de un gráfico

Ventas mensuales de la empresa xx Título(en miles de $) Nota del encabezado

Fuente: Dpto. de Vtas. Fuentes

- Titulo: Describe le contenido del gráfico.- Diagrama: Son los distintos trazos con que se presentan los datos.

Pueden ser líneas, barras, etc.- Escala: En el eje de ordenadas (y) generalmente se miden las mag-

nitudes de los datos. El eje de las abscisas (x) es frecuentementeusada para colocar la clasificación.

- Fuente: Indica la procedencia de los datos.

Al igual que los cuadros, en los gráficos se consignan las notas delencabezado y notas al pie cuando fuese necesario.

10

20

30

40

50

60

Enero Febrero

Mes

DiagramasEscala de y

Escala de x

$

53

8.3.3. Tipos de gráficos

Existen muchos tipos de gráficos. Aquí se considerarán los gráficosmás sencillos y de uso corriente.

a) SimplesI. Lineales

b) Múltiples

a) SimplesGRAFICOS II. De Barras b) Múltiples

c) Compuestasd) Bidireccionales

III. Circulares

Se desarrollarán algunas características de los gráficos en base a losdatos hipotéticos presentados en los siguientes cuadros:

Cuadro Nº 1

Ventas diarias de la Empresa "Llave" S.R.L.(en miles de $)

Día Crédito Contado Total

Lunes 5 3 8Martes 2 2 4Miércoles 5 2 7Jueves 11 4 15Viernes 7 3 10Sábado 8 5 13

38 19 57

Cuadro Nº 2

Número de ingresantes a 3 carreras en la U.C.S. en los años 1997-1998.

54

2

4

6

8

10

12

14

16

L M M J V SDía

$

CARRERA 1997 1998

Abogacía 90 108Adm. de Empresas 40 80Ingeniería Civil 70 35

I. Gráficos Lineales

Los gráficos lineales vienen representados en los ejes de coordenadascartesianas mediante líneas rectas o quebradas. Son útiles para repre-sentar series cronológicas, es decir cuando la observación de un fenóme-no se hace a través de tiempo (años, meses, días, etc.). Cuando hay ungran número de períodos y existen marcadas fluctuaciones en los datos,este tipo de gráfico es el adecuado.

a)Gráfico lineal simple. Representa una sola serie de datos

Ventas totalesdiarias de la empresaLlave

El tiempo siemprese coloca en el eje de la x.

b)Gráfico lineal múltiple

Se utiliza para representar dos o más serie de datos. Se deben diferen-ciar las líneas con distintos trazos o colores para individualizar cada serie.

55

2

4

6

8

10

12

14

16

L M M J V SDía

$

GRAFICO Nº 2

Ventas diariasal contado y a créditode la empresa LLave

Si se pretende representar másde 3 series, el gráfico puede resultarconfuso.

II.Gráfico de barras

Los gráficos de barras son de fácil interpretación. Los datos se repre-sentan mediante barras o rectángulos cuya amplitud es constante y lalongitud proporcional al número de observaciones. Las barras puedendisponerse en forma vertical u horizontal. Dentro de este tipo de gráfico,se encuentran las siguientes variantes:

a) Gráfico de barras simples: Representa una sola serie de datos. Lasventas totales por día se grafican dibujando una barra para cada díade la semana con una altura igual al volumen de ventas. (Gráfico Nº 3).

b) Gráfico de barras múltiples: Representan dos o más series dedatos. Son adecuados para efectuar comparaciones. Las ventas alcontado y a crédito de la semana se muestran en el gráfico Nº 4.

c) Gráficos de barras compuestas: Este procedimiento de represen-tar dos o más series en el mismo gráfico consiste en dibujar el diagra-ma de barras dibujadas con otras de distinto fondo que representaránla segunda (o tercera) serie. Cada barra tendrá una longitud igual a lasuma de los datos de las dos series. En el gráfico Nº 5, cada barrarepresenta el total de las ventas por día y está en dos: la parte rayadacorresponde a las ventas a crédito y la parte de arriba (sin rayar) lasventas al contado.

56

2

4

6

8

10

12

14

16

L M M J V S Día

$

GRAFICO Nº 3(Barras Simples)

GRAFICO Nº 4(Barras Múltiples)

d) Gráfico de barras bidireccionales. Se utiliza para indicar cambiosporcentuales, para ilustrar ganancias o pérdidas, producción y ven-tas sobre lo normal o bajo lo normal de un período a otro, saldospositivos y negativos, etc. Las barras bidireccionales pueden dispo-nerse en forma vertical u horizontal.

57

Se representarán los cambios porcentuales en el número de ingresan-tes en 1998 con respecto a 1997.

Carrera: Abogacía Adm. de Empresas Ing. Civil

Variaciónporcentual +20% +100% -50%

Gráfico Nº 6 - Ingresantes a las 3 Carrerasde la U.C.S. en 1998 (cuadro 2)

GRAFICO Nº 7

25 50 100

Adm. DeEmpresa

Ing.Civil

Abogacía

Carrera

75

Nº de Alumnos

0-20 -20-40 -40-80 -80-60 -60-100

Adm. DeEmpresas

Abogacía

Ing. Civil

-100

58

GRAFICO Nº 5(Barras Compuestas)

Las barras, como se dijo anteriormente, se pueden disponer en formahorizontal. Esta disposición es utilizada habitualmente para graficar enseries de datos que se presentan en un solo período de tiempo. Al igualque las verticales, pueden ser simples, múltiples y compuestas.

Una técnica comúnmente usada es disponer los aumentos porcentua-les en orden descendente y las disminuciones en orden ascendente.

III. Gráficos circulares

Los gráficos circulares son adecuados para recalcar la magnitud relati-va de los componentes del total. Consiste en dividir un circuito en sectorescuyas superficies sean proporcionales a las cantidades correspondientesa cada categoría. Dado que los sectores circulares dependen de su ángu-lo central, éstos se determinan estableciendo la proporcionalidad respectoa 360º, que es el ángulo de la circunferencia. El método corriente paradibujar este tipo de gráfico es reducir los datos a porcentajes del total.

Utilizando los datos del cuadro Nº 2 respecto a los ingresantes en 1997,se construirá un gráfico de sectores.

59

Abogacía 45%

Adm. DeEmp.20%

Ing. Civil35%

Carrera Ingresante %

Abogacía 90 45Adm. de Empresas 40 20Ing. Civil 70 35

200 100

100% le corresponde 360º

Abogacía

100 360 45 x 360 45 x X= = 162º

100

Adm. de Empresas

100 360 20 x 360 20 x x = = 72º

100

Ing. Civil

100 360 35 x 360 126º 35 x x = =

100 360º

Actualmente la construcción de gráficos se facilita utilizando programasde computación que poseen una gran variedad de los mismos. Lo impor-tante es determinar el gráfico adecuado según el tipo de información.

60

Además de los gráficos desarrollados, los datos pueden presentarse enmapas estadísticos, pictogramas, gráficos de volúmenes, etc.

8.3.4. La falsedad estadística a través de gráficos

Una de las formas de mentir con la estadística es dibujando gráficosengañosos. Considérese la siguiente información sobre las ventas de 3vendedores de una compañía para ilustrar un ejemplo.

GRÁFICO (a)

GRAFICO (b)

El eje vertical debe comenzar en cero para que se tenga una adecuadarepresentación de la situación. Los gráficos cuyas escalas de los ejesverticales comienzan en cero tienden a enfatizar la magnitud de las cifrasconsideradas, mientras que en los gráficos que omiten el cero tienden aenfatizar la variación en el número sin considerar la verdadera magnitud.

Al observar el gráfico (a) puede concluirse erróneamente que el vende-dor B tuvo ventas que apenas superaron la mitad de lo que vendió C. Encambio en el gráfico (b) muestra la información real ya que destaca quelas tres cifras son relativamente grandes, lo cual resta el énfasis puesto ala variabilidad que muestra el gráfico. (a)

61

Actividad Nº 7

1) Identificar en diarios y/o revistas gráficos estadísticos distintos a losdesarrollados en el módulo.

2) Cuadro de Ingresos y Egresos de Caja de un Negocio (en miles de $)

Mes Enero Febrero Marzo Abril Mayo Junio

Ingresos 50 45 70 40 80 100

Egresos 20 30 120 60 100 130

a) Representar en un gráfico lineal los ingresos y egresosb) Representar gráficamente la comparación de ingresos y egresos en

un diagrama de barras.c) Obtener los saldos para cada mes y representarlos gráficamente.

3)Relación egresados por cada 100 ingresantes en la Universidad

Facultad Egresados Facultad EgresadosAgronomía 22 Cs. Exactas y Naturales 12Arquitectura 24 Farmacia y Bioquímica 27Ingeniería 19 Ciencias Económicas 12

Representar la información en un gráfico adecuado.

4)Un informe sobre turismo consigna lo siguiente:

- En enero y febrero de 1998 ingresaron a la provinica 15.450 y 12.750turistas mostrando un aumento del 18% y 12 % con respecto a losmismos meses delaño anterior.

- De los totales de la temporada 1998, el 48% fueron visitantes extran-jeros, el 30% de la región próxima a Salta y el resto de otros puntosdel país.

62

a) Obtener el número de turistas que ingresaron en enero y febrero de1997. Construir un gráfico comparativo.

b) Construir un gráfico para mostrar las cifras referentes a la proceden-cia de los turistas.

63

Actividad Obligatoria

1) Explique la importancia que tiene el análisis estadístico en la organi-zación donde Ud. trabaja.

2) Describa una aplicación de la estadística en el área donde Ud. des-empeña su trabajo. Especifique

a) Objetivo de la investigación.b) La población bajo estudio y las variables de interés.c) Tipos de fuentes de datos disponibles y métodos de recolección a

utilizar.

3) Con referencia al punto 2:

a) Recopile los datos necesariosb) Organice y presente la información en cuadros y gráficos.c) Elabore un informe sobre los resultados y conclusiones de su in-

vestigación.d) Si fuera necesario, indique las dificultades que tuvo para realizar

este trabajo de aplicación.

NOTA: En el caso de que Ud. no trabaje, concurra a cualquier empresau organización y realice allí esta actividad de investigación integradora.

64

65

DISTRIBUCIÓN DE FRECUENCIAS

1. Introducción

Una de las etapas de la investigación estadística es el análisis de losdatos que puede ser descriptivo o inferencial. Pero también en la investi-gación puede interesar el estudio de una, dos o tres, o más variables.

Cuando se trabaja con una sola variable, el análisis es univariado (dis-tribución de empleados por ingreso); si se trabaja con dos variables, elanálisis es bivariado (distribución de empleados por ingreso y por anti-güedad) y el análisis es multivariado cuando se trabaja con tres o másvariables (distribución de empleados por ingreso, por antigüedad y ni-vel de instrucción).

Este módulo trataría específicamente el análisis descriptivo para distri-buciones univariadas.

2. Series estadísticas

Una serie estadística es un conjunto de datos numéricos, ordenados yclasificados según un determinado criterio. Las series pueden clasificarsede la siguiente manera:

Temporales o cronológicasSeriesestadísticas

EspacialesIntemporales

De CualitativasFrecuencia Discretas

Cuantitativas Continuas

Las series "temporales" son aquellas cuyos valores de la variable seobservan en períodos de tiempos. Por ejemplo, las ventas mensuales deuna compañía o la producción anual de cereales de un país.

UNIDAD III

66

En las series intemporales los valores se observan en un período fijo oen un momento determinado. Si los valores se estudian en función de unespacio geográfico; las series se denominan "espaciales"; por ejemplopoblación (número de habitantes) de las provincias argentinas en 1997.

Las series intemporales de frecuencias son aquellas que se confeccio-nan cuando se estudia o analiza la repetición de los valores de una varia-ble. Según sea el tipo de la variable, estas series pueden ser cualitativaso cuantitativas. Estas series son el objetivo de estudio de esta unidad.

3. Distribución de frecuencias

Cuando el número de valores que toma la variable es grande, se hacenecesario resumir la información para posibilitar la lectura y la interpreta-ción. Una manera efectiva de reducir el tamaño de la serie y facilitar sutratamiento es mediante la confección de distribuciones de frecuencias.

Una distribución de frecuencias es una tabla donde los datos seagrupan en clases o categorías con sus respectivas frecuencias.

Con estas tablas se puede apreciar mejor la configuración de la informa-ción a la vez que se facilitan los cálculos y el análisis de los datos.

4. Distribución de frecuencias para variables continuas

Supóngase que se analizan los índices mensuales de accidentes de lasempresas industriales de una ciudad determinada. Para el estudio se selec-cionan 25 establecimientos y se registra para cada una el número de acciden-tes por mil horas-hombre del último mes. Los datos son los siguientes.

2,7 1.8 1.0 2.2 4.13.8 4.8 2.5 1.4 4.53.1 3.3 3.6 3.0 2.55.3 3.3 3.0 5.8 4.43.4 2.1 5.6 3.9 3.4

Estos valores constituyen una "serie simple" de datos. Son datos brutosporque todavía no han sido procesados por métodos estadísticos.

67

4.1. Organización de los datos

Una primera técnica sencilla de organización es la "ordenación" queconsiste en una disposición de los valores en forma ascendente o descen-dente.

1.0 2.5 3.1 3.6 4.51.4 2.5 3.3 3.8 4.81.8 2.7 3.3 3.9 5.32.1 3.0 3.4 4.1 5.62.2 3.0 3.4 4.4 5.8

Una de las ventajas de este arreglo es la identificación rápida de valoresmáximos y mínimos. Sin embargo, la ordenación no resulta práctica parael análisis y pierde importancia cuando es grande el número de datos.

Otra técnica de organizar los datos para la evaluación del investigadorcon el objeto de seleccionar extremos, valores típicos y concentración devalores, es el "arreglo de tallos y hojas". Se ordenan el (o los) primero(s)dígitos de cada valor, se forman los tallos, y con los dígitos siguientes seforman las hojas. Para los datos del ejemplo los dígitos iniciales 1 - 2 - 3 -4 y 5 son los tallos y los dígitos sucesivos (decimales) son las hojas.

Indices de accidentes

Tallos Hojas

1 8 0 4 2 7 1 5 2 5 3 8 1 4 3 3 6 0 0 9 4 4 8 1 5 4 5 3 6 8

Al igual que la ordenación, la representación de tallos y hojas tiene unautilidad limitada cuando es grande el número de datos.

68

4.2. Construcción de las tablas de frecuencias

La ordenación y el diagrama de tallos y hojas son técnicas que ayudana la organización pero no puede reconocerse la configuración de los índi-ces de accidentes con sólo volcar los registros proporcionados por cadaempresa. Para resumir estos datos en una tabla, primero se deben deter-minar los intervalos de clase.

Un intervalo para el conjunto de índices puede ser:

2 - 3 intervalo de clase o clase

Definido el intervalo se determina su frecuencia, o sea la cantidad deobservaciones incluida en esa clase. La frecuencia para este intervalo es3, es decir que en 3 empresas ocurrieron entre 2 y 3 accidentes mensua-les.

La confección de las distribuciones depende de la naturaleza y del nú-mero de datos. Los intervalos deben seleccionarse adecuadamente paraque la configuración de la distribución no resulte confusa. Al construir lastablas de frecuencias se pierde un poco de información, pero las mismasofrecen ventajas al momento del análisis y la interpretación.

Entre las pautas para la confección se deben considerar las siguientes:

a) El número de clases no debe ser ni muy grande ni muy pequeño.Cuando hay muchos intervalos, la amplitud de los mismos es peque-ña, por lo tanto cada uno tendría pocos datos o ninguno. Si hay pocasclases con intervalos amplios, puede resultar que queden cifras rela-tivamente significativas concentradas en unas cuantas clases.

b) Los intervalos deben tener la misma amplitud a efectos de poderhacer comparaciones. En algunas situaciones pueden presentarseintervalos de distinta amplitud, pero se dificulta la interpretación de ladistribución. En otros casos se debe recurrir a intervalos abiertos.

c) La confección de la distribución debe facilitar el trabajo de análisis,por lo tanto los intervalos de clase deben ser fáciles de manejar.

69

Se puede utilizar el siguiente procedimiento para determinar la amplitudde los intervalos.

1')Obtener el rango o recorrido (R). El rango es la diferencia entre elvalor mayor y el valor menor de la distribución.

R = Valor mayor - Valor menor

Para la distribución de los índices de accidentes, el rango es:

R = 5.8 - 1.0

R = 4.8

2')Seleccionar el número de clases (k). La "regla de Sturges" (1) esuna pauta que sirve de orientación para determinar cuántos interva-los debe tener la distribución:

Número de valores Número apropiado dede la distribución intervalos

10 a 100 4 a 8 100 a 1.000 8 a 111.000 a 10.000 11 a 14

Para la distribución de la serie se eligen 5 clases.

3')Determinar la amplitud o ancho de la clase (A) dividiendo el rangosobre el número de intervalos.

R R = 4.8A=

k k= 5

4.8A= = 0.96

5

A = 1

(1) La fórmula de Sturges establece que k = 1 + 3.3 log n (siendo n el número de observaciones)

70

Por conveniencia y facilidad de lectura, el ancho del intervalo se redon-dea a 1.

4')Establecer los límites de cada clase a fin de evitar superposicionesde clases para que ninguna observación caiga dentro de más de unacategoría; de acuerdo a esto, el primer intervalo es "1,0 pero menosde 2,0".

Las 5 clases de la distribución de los accidentes son:

1.0 < 2.02.0 < 3.03.0 < 4.04.0 < 5.05.0 < 6.0

4.3. Tabulación de los datos

Definidos los intervalos de clase, se procede a determinar las frecuen-cias de clases (fi). La frecuencia de clase es la cantidad de observacionesque se incluye en cada intervalo.

Indices de Conteo Cantidad de accidentes empresas fi

1.0 - 2.0 / / / 32.0 - 3.0 / / / / 53.0 - 4.0 //// //// 104.0 - 4.0 / / / / 45.0 - 6.0 / / / 3

Las frecuencias obtenidas se denominan "frecuencias absolutas sim-ples".

71

4.4 Marca de clase (xi)

La marca de clase es el punto medio del intervalo de clase; es el valorque representa a la clase. Se obtienen sumando el límite inferior y el límitesuperior de cada clase dividido entre 2.

Li + Lsx

i =

2

La marca de clase para el primer intervalo es:

1.0 + 2.0x

i=

2

xi = 1.5

Indices de Marca de clase Cantidad deaccidentes x

iempresas fi

1.0 - 2.0 1.5 32.0 - 3.0 2.5 53.0 - 4.0 3.5 104.0 - 5.0 4.5 45.0 - 6.0 5.5 3

25

4.5. Distribución de frecuencias relativas simples (fr)

En muchas ocasiones es preferible trabajar con una distribución de fre-cuencias relativas. La frecuencia relativa es la proporción o porcentaje deltotal de datos que se incluye en cada clase.

La frecuencia relativa se calcula dividiendo la frecuencia absoluta decada clase entre el número total de observaciones

72

fifr =

n

Si se expresa en porcentaje

fifr = . 100

n

La frecuencia relativa del primer intervalo es:

3 3fr = o fr= . 100

25 25

fr = 0.12 o 12%

Hay un 12% de las empresas que posee un índice de accidentes entre1 y 2.

La distribución de frecuencias relativas para los índices de accidentesde las 25 empresas es la siguiente:

Indice deaccidentes fr

1.0 - 2.0 0.12 o 12%2.0 - 3.0 0.20 o 20%3.0 - 4.0 0.40 o 40%4.0 - 5.0 0.16 o 16%5.0 - 6.0 0.12 o 12%

1.00 o 100%

De hecho, la suma de las frecuencias relativas debe ser igual a 1 o al100%.

73

4.6. Gráficos de distribución de frecuencias simples

Una distribución de frecuencias simples puede representarse mediantedos gráficos: a) Histograma; b) Polígono de frecuencias.

a)Histograma

El histograma es un gráfico de barras. Para cada intervalo se dibuja unabarra con altura igual a la frecuencia absoluta simple o frecuencia relativasimple.

1 2 3 4 5 6 Indices(Intervalos)

b) Polígono de frecuencias

El polígono de frecuencias es un gráfico lineal que se representa con lasmarcas de clases. Se construye ubicando sobre cada marca un punto a laaltura de la frecuencia absoluta (o relativa), uniendo luego los puntos re-sultantes mediante segmentos de recta.

12

10

8

6

4

2

74

Obsérvese que el gráfico presenta las marcas de clases de los interva-los anterior al primero (0.5) y posterior al último (6.5) para que la figuraquede cerrada. De hecho, estas marcas tienen frecuencia cero.

El polígono de frecuencias puede construirse conjuntamente con elhistograma en los mismo ejes con solo unir los puntos medios de lostechos de las barras.

12

10

8

6

4

2

0.5 1.5 2.5 3.5 4.5 5.5 6.5 Indices (xi)

12

10

8

6

4

2

0.5 1.5 2.5 3.5 4.5 5.5 6.5 Indices (xi)

75

4.7. Algunas situaciones particulares con las tablas de frecuencias

a)Distribuciones con intervalos de amplitudes desiguales

En algunos casos se construyen tablas de frecuencias con intervalos deamplitudes desiguales. Esto sucede cuando la variable de interés tienealgunas observaciones extremas altas. En lugar de definir pocos interva-los con igual tamaño, pero muy amplios; o bien muchos intervalos de igualtamaño, pero más estrechos, es frecuente definir tamaños variables paralos intervalos de clase.

La siguiente tabla muestra las ventas semanales de 35 sucursales deuna empresa.

Ventas Nº de(en miles de $) sucursales

fi

10 - 20 420 - 30 730 - 40 1240 - 60 860 - 100 4

35

Obsérvese que las tres primeras clases tienen una amplitud de 10, latercera clase, 20 y la última tiene una amplitud de 40.

Se debe tener cuidado al representar gráficamente este tipo de distribu-ciones ya que se pueden construir gráficos inadecuados, como el siguien-te histograma para la distribución de las ventas.

76

fi

12

10

8

6

4

2

10 20 30 40 60 100 Intervalos

Aquí hay una deformación, porque se exageran demasiado las áreas delas barras para los intervalos más anchos.

La forma adecuada consiste en que la altura de cada barra esté repre-sentada sobre una base de "frecuencia por intervalo estándar" (o unabase de porcentaje por intervalo estándar si se trata de una distribución defrecuencias relativas). Se selecciona una amplitud estándar, en este caso$10 que es la más típica, que se utiliza para ajustar las frecuencias sobreeste intervalo estándar.

Intervalos Amplitud Nº de intervalos Frecuencia Frecuenciaestandarizados por intervalo por intervalo

estandarizado

10 - 20 10 1 4 4

20 - 30 10 1 7 7

30 - 40 10 1 12 12

40 - 60 20 2 8 4

60 - 100 40 4 4 2

77

El histograma apropiado será el siguiente:

fi 12

10

8

6

4

2

10 20 30 40 60 100 Intervalos

b) Intervalos abiertos

Cuando las series de datos tienen observaciones muy extremas, enlugar de intervalos de tamaños variables, se pueden utilizar intervalos conextremos abiertos.

Ventas Nº de sucursales (en miles de $) fi

Menos de 20 420-30 630-40 1040-50 3

50 y más 2

25

Los intervalos abiertos son aquellos que no tienen definidos uno de loslímites. En el primer intervalo no está definido el límite inferior y en elúltimo, el límite superior.

78

Las clases abiertas se utilizan con fines de presentación, pero presen-tan dificultades para los cálculos, como así también para la representa-ción gráfica.

Por ejemplo, es el histograma de la distribución sólo se hace referenciaa las clases abiertas pero no se las grafica.

fi12

10

8

6

4

2 4 empresas 2 empresas tienen ventas tiene ventas

de menos de de 50 y más 20. Ventas

10 20 30 40 50

4.8. Distribuciones de frecuencias acumuladas

Las distribuciones de frecuencias acumuladas permiten observar cuán-tas observaciones se hallan por encima o por debajo de ciertos valores.

Considérese la distribución de frecuencias simples de los índices deaccidentes de las 25 empresas.

Indices de Cantidad Proporción deaccidentes de empresas empresas

fi fr 1.0 - 2.0 3 0.12 2.0 - 3.0 5 0.20 3.0 - 4.0 10 0.40 4.0 - 5.0 4 0.16 5.0 - 5.6 3 0.12

25

79

Indices Frecuencias acumuladas (fa)

Menor que 1.0 0Menor que 2.0 3Menor que 3.0 8 (3 + 5)Menor que 4.0 18 (3 + 5 + 10)Menor que 5.0 22 (3 + 5 + 10 + 4)Menor que 6.0 25 (3 + 5 + 10 + 4 + 3)

Esta tabla recibe el nombre de distribución de frecuencias acumula-das "menor que". Por ejemplo, la frecuencia acumulada 18 indica que 18empresas tienen un índice de accidentes menor a 4,0.

Ahora se construye la siguiente tabla:

ÍNDICES FRECUENCIAS ACUMULADAS (fa)

1.0 y mayor 25

2.0 y mayor 22 (25-3)

3.0 y mayor 17 (25-8)

4.0 y mayor 7 (25-18)

5.0 y mayor 3 (25-22)

6.0 y mayor 0

Esta tabla recibe el nombre de distribución de frecuencias acumula-das "mayores que". Por ejemplo, se observa en la información que 17empresas registran un índice de 3.0 y más.

También se pueden confeccionar las tablas de frecuencias acumuladasrelativas.

80

Frecuencias acumuladas Frecuencias acumuladas"menor que" "mayor que"

Índice fa Índice fa

Menor que 1.0 0 1.0 y mayor 1.00

Menor que 2.0 0.12 2.0 y mayor 0.88

Menor que 3.0 0.32 3.0 y mayor 0.68

Menor que 4.0 0.72 4.0 y mayor 0.28

Menor que 5.0 0.88 5.0 y mayor 0.12

Menor que 6.0 1.00 6.0 y mayor 0

Las distribuciones de frecuencias acumuladas se representan gráfica-mente mediante un "polígono de frecuencias acumuladas" u "ojiva".

Para una distribución acumulada "menor que" la ojiva será creciente, ypara una distribución acumulada "mayor que" será decreciente.

fa

Ma ïndices

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

1 2 3 4 5 6

81

Mediante las ojivas se puede obtener gráficamente el valor mediano(3,45) que es el valor que deja dividida la distribución en la mitad (VerUnidad IV).

5. Distribución de frecuencias para variables discretas

Se registra el número de hijos para cada uno de los 20 empleados deuna compañía. Los datos, ya ordenados, son los siguientes:

1 1 1 2 22 2 2 2 23 3 3 3 34 4 4 5 5

La variable Xi (número de hijos) toma valores entre 1 y 5. Como X

i

asume pocos valores, puede considerarse cada valor de la variable comouna clase, o sea:

Nº de hijos (Xi) : 1 2 3 4 5

La tabla de frecuencias simples (absolutas y relativas) queda conforma-da como sigue:

Número de hijos Nº de empleados Proporción o porcentaje(X

i) (f

i) de empleados (fr)

1 3 0.15 o 15%2 7 0.35 o 35%3 5 0.25 o 25%4 3 0.15 o 15%5 2 0.10 o 10%

20 1 100 %

La representación gráfica de esta distribución se realiza en un "gráficode bastones". Para cada valor de la variable se dibuja un segmento conaltura equivalente a la frecuencia (absoluta o relativa).

82

fi

7

6

5

4

3

2

1

0 Xi

0 1 2 3 4 5

También se puede construir una tabla de frecuencias acumuladas parala distribución del número de hijos.

Nº de hijos Nº de empleados (xi) (fa)

Hasta 1 3Hasta 2 10 (3 + 7)Hasta 3 15 (3 + 7 + 5)Hasta 4 18 (3 + 7 + 5 + 3)Hasta 5 20 (3 + 7 + 5 + 3 + 2)

Las frecuencias acumuladas se representan en un gráfico denominado"escalonado". En el eje horizontal se marcan los valores de la variable (xi)y se levanta en cada uno de los puntos un segmento vertical de longitudigual a la frecuencia acumulada respectiva. Luego, se dibujan los tramoshorizontales correspondientes a los intervalos dentro de los cuales nopueden existir datos, ya que la variable discreta no admite valores inter-medios.

83

fa

20

18

16

14

12

10

8

6

4

2

0 Xi

0 1 2 3 4 5

Cuando los valores de una variable discreta son numerosos, el trata-miento para la construcción de las tablas de frecuencias puede asimilarseal caso de una variable continua como se estudió en el punto 4.

6. Distribución de frecuencias para variables cualitativas

Se registran los elementos de una población o muestra con respecto aun atributo y los resultados obtenidos de dichas observaciones se agru-pan según las distintas modalidades que tome al atributo. Por ejemplo, 80empleados de una compañía pueden clasificarse según el estado civil.

Estado civil Nº de empleados Porcentaje de empleados

Casado 45 56.25 %Soltero 23 28.75 %Divorciado 7 8.75 %Viudo 5 6.25 %

80 100 %

84

Para graficar esta información pueden utilizarse gráficos de barras ocirculares como los desarrollados en la unidad II.

Viudo6,25%Divorciado

8,75%

Soltero28.75%

Casado56,25%

85

Actividad Nº 8

Una compañía financiera desea analizar la información sobre los mon-tos de préstamos solicitados por 50 personas. A tal fin, obtiene los datosde los formularios correspondientes:

Montos (en miles de pesos):

1.85 2.50 2.80 3.40 1.40 1.20 2.45 2.302.30 2.80 2.10 2.15 2.20 3.30 2.70 2.401.00 1.20 3.80 3.55 2.15 2.10 2.70 2.702.35 1.55 1.90 1.45 1.70 3.90 3.60 3.002.45 1.95 2.85 1.45 1.55 2.25 3.60 2.602.90 2.65 3.15 3.10 1.65 1.70 2.50 2.301.85 2.40

a) Identificar la variable bajo estudio y clasificarla.

b) Organizar los datos en una tabla de frecuencias con intervalos deamplitud 0,50 ($500).

c) Calcular las marcas de clase.

d) Confeccionar una tabla de frecuencias relativas.

e) Construir un histograma de frecuencias relativas.

f) Construir un polígono de frecuencias absolutas.

g) Confeccionar las tablas de frecuencias acumuladas "menos que" y"más que" tanto absolutas como relativas.

h) Dibujar las ojivas correspondientes.

86

Actividad Nº 9

El dueño de una frutería recibió un pedido de cajones de manzanas.Para determinar la calidad, tomó una muestra de 20 cajones y encontrólas siguientes cantidades de manzanas en mal estado en cada uno.

2 2 3 3 4 0 6 2 6 43 2 2 6 4 2 0 2 3 3

a)Identificar las variables bajo estudio y clasificarlas.

b)Construir una tabla de frecuencias absolutas simples.

c)Representar gráficamente la información de (b).

d)Construir una tabla de frecuencias absolutas acumuladas.

e)Representar gráficamente la información de (d).

87

Actividad Nº 10

La facultad de Administración organizó un curso de Marketing para pro-fesionales. Con el objeto de planificar las clases, el cuerpo docente deseaconocer las profesiones de los 40 participantes. Los datos se obtienen delas fichas de inscripción.

Ficha Profesión Ficha Profesión Ficha Profesión

01 Médico 13 Médico 25 Psicólogo02 Psicólogo 14 Contador 26 Abogado03 Médico 15 Médico 27 Ingeniero04 Médico 16 Ingeniero 28 Médico05 Ingeniero 17 Ingeniero 29 Contador06 Abogado 18 Médico 30 Abogado07 Médico 19 Contador 31 Ingeniero08 Abogado 20 Abogado 32 Médico09 Odontólogo 21 Contador 3310 Psicólogo 22 Psicólogo 34 Contador11 Ingeniero 23 Abogado 35 Médico12 Arquitecto 24 Médico 36 Abogado

a) Identificar la variable bajo estudio.

b) Confeccionar una tabla de frecuencias absolutas y otra de frecuen-cias relativas.

c) Representar gráficamente la información elaborada.

88

Actividad Nº 11

En una discusión de un grupo de asesores sobre el potencial de ventasde una compañía, un asesor estableció que es un error creer que laspersonas de edad más baja representan un número relativamente altopara las ventas de uno de los productos principales de la compañía. Paraapoyar su argumento, el asesor citó los siguientes datos sobre edades delos clientes, basados en un reciente estudio de investigación de merca-dos:

Grupo de edad % de clientes

Menos de 16 116 - 17 618 - 19 820 - 19 722 - 25 1226 - 29 1430 - 39 1940 - 49 2550 o más 8

100 %

El asesor dijo que los porcentajes de edad entre 30 y 49 años sonconsiderablemente mayores que los porcentajes de los grupos de clientesmás jóvenes. "De hecho", hizo notar, las personas de edad entre 40 y 49años son los mejores clienes del producto.

¿Está Ud. de acuerdo con esta interpretación de los datos? Si es así,apoye su argumento citando cifras específicas. Si no, explique por qué noestá de acuerdo con la interpretación del asesor.

89

Actividad Nº 12

Lea la siguiente distribución de frecuencias:

clases: 100 - 150 150 - 200 200 - 250 300 - 350 350 - 450

fi: 5 9 18 10 8

a)¿Qué particularidad presenta la tabla?

b)Construir un histograma.

90

Actividad Nº 13

La siguiente información corresponde a la antigüedad (en años) de 100docentes universitarios:

Antigüedad Nº de docentes

5 - 9 910 - 14 1415 - 19 1820 - 24 3225 - 29 1730 - 34 535 - 39 5

100

a) ¿Cuál es la amplitud de las clases?

b) Obtener las marcas de clase.

c) Calcular las frecuencias relativas.

d) ¿Cuántos docentes tienen una antigüedad media de 27 años?

e) ¿Qué intervalo tiene la mayor frecuencia?

f) ¿Qué porcentaje de docentes tiene por lo menos 20 años de antigüe-dad?

g) ¿Qué porcentaje de docentes tiene a lo sumo una antigüedad de 14años?

h) ¿Qué porcentaje tiene una antigüedad mínima de 15 años pero nomayor de 30?

i) Representar gráficamente la información de la tabla.

91

Actividad Nº 14

La siguiente tabla corresponde a los salarios pagados a 53 periodistas:

Salarios ($) Menos de 300 300-500 500-700 700 y +

Nº de 10 22 15 6empleados (fi)

a) ¿Cuántas clases tiene la distribución?

b) ¿Cuántas clases distintas hay?

c) ¿Cómo definiría el 1º intervalo si su amplitud fuera igual al 2º?

d) ¿Qué limitación existe para construir los gráficos?. ¿Qué modifica-ción debe hacerse?

92

93

RESUMEN DE INFORMACIÓN A TRAVÉSDE MEDIDAS DESCRIPTIVAS

1. Concepto

Las medidas descriptivas son valores representativos de una distribu-ción, son cifras individuales que resumen la información. Se utilizan paradescribir ciertas características de los datos, permitiendo una compren-sión más precisa. Además, a partir de estas medidas se podrán realizarinferencias y pronósticos.

El análisis de la información se puede realizar a través de:

- Medidas de posición.- Medidas de dispersión.- Medidas de asimetría (sesgo)- Medidas de apuntamiento (curtosis)

2. Medidas de posición

Estas medidas habitualmente se denominan "promedios". Desde el puntode vista estadístico un promedio es una medida de tendencia central, esdecir tiende a ubicarse en el centro de la distribución.

Las medidas de posición o localización son:

- Media aritmética - Media geométrica - Cuartiles- Mediana - Media armónica - Deciles- Moda - Percentiles

UNIDAD IV

94

2.1. Media aritmética

2.1.1. Concepto

La media aritmética de un conjunto deobservaciones numéricas es la suma de

los valores del conjunto divididapor el número de observaciones.

Siete trabajadores de una compañía perciben los siguientes salarios:

320 360 330 340 355 325 346

El salario medio es:

320 + 360 + 330 + 340 + 355 + 325 + 346 2376Media = =

7 7

Media = · 339,43

320 330 340 350 360

a)Sean x1, x

2 ...........x

n los N datos correspondientes a una población.

La media población (simbolizada por m) es:

x1 + x

2 + ... + x

n xi

= = (1) N N

b)Sean x1, x2 ..., xn los n datos correspondientes a una muestra. Lamedia muestral (simbolizada por x) es:

x1 + x

2+ ... + x

n xi

X = = (2) n n

95

xi = representa a cada valor de la distribución.N = representa al total de observaciones de la población.n = representa al total de observaciones de la muestra.

= Suma de los valores de la variable.

2.1.2. Principales características de la media aritmética

a) La media aritmética se calcula con todos los valores de un conjunto.Cada valor del conjunto afecta el valor de la media. Cuando existenvalores extremos, la media puede llegar a ser menos representativa.

Ejemplo:

Obtener la media de los siguientes valores

8 - 10 - 12 - 15 - 50

8 + 10 + 12 + 15 + 50 = = 19

5

8 9 10 11 12 13 14 15 16 17 18 19 50

xLa media está afectada por el valor extremo.

50 En la escuela se puede observar que el promedio tiende hacia los

valores altos.

b) La media aritmética está definida algebraicamente. Conociendo dosde los tres términos de la expresión, se puede determinar el tercero.

Ejemplo:

Durante una semana 5 corredores de seguros vendieron un promediode 4,8 pólizas. ¿Cuál fue el total de pólizas vendidas?

96

x = 4.8 n = 5 xi (Total) = ?

xi

xi= n (x)

x = n x

i = 5 (4,8) = 24 pólizas

c)La media aritmética tiene las siguientes propiedades:

(1) La suma algebraica de los desvíos (d) de los valores de la variablecon respecto a su media es siempre igual a cero.

d = xi - x

(xi - x) = 0

o d = 0

Ejemplo: Cuatro operarios perciben los siguientes jornales semanales

25 - 30 - 34 - 41

El jornal medio es x = $32.5

Los desvíos de los valores con respecto a la media son:

xi

d = (xi - x)

25 25 - 32.5 = - 7.530 30 - 32.5 = - 2.534 34 - 32.5 = 1.541 41 - 32.5 = 8.5

= 0

(2) La suma del cuadrado de las desviaciones con respecto a la mediaes mínima. Esto significa que la suma del cuadrado de las desviacionescon respecto a la media es menor que la suma del cuadrado de las desvia-ciones con respecto a cualquier otro valor. Esto es:

(xi - x )2 es menor que (x

i- cualquier valor)2

97

Ejemplo: Considerando los datos del ejemplo anterior, cuya media es32.5, se elige arbitrariamente el valor 33.

xi

d = xi - x (x

i - x)2 x

id = x

i - 33 (x

i - 33)2

25 - 7.5 56.25 25 - 8 6430 - 2.5 6.25 30 - 3 934 1.5 2.25 34 1 141 8.5 72.25 41 8 64

=137 =138

(xi - 32.5)2 < (x

i - 33)2

137 < 138

(3) Si a cada valor de la variable se le suma (o se le resta) una constan-te, la media queda sumada (o restada) por esa constante.

Si y = xi + c entonces y = x + c

Ejemplo: Los jornales de los cuatro operarios son:

x1

x2

x3

x4

Jornales (xi) = 25 30 34 41

x = $32.5 jornal medio

Supóngase que se decide un aumento de $10 para todos los jornales.Los nuevos valores son:

Jornales (yi): x

1 + c x

2 + c x

3 + c x

4 + c

yi : 25 + 10 30 + 10 34 + 10 41 + 10

yi: 35 40 44 51

La media después del aumento es:

170 y = = $42.5

4

98

y = x + c 42.5 = 32.5 + 10

(4) Si a cada valor de la variable se le multiplica (o se divide) una cons-tante, la media queda multiplicada (o dividida) por esa constante.

Si y = xi . c entonces y = x . c

Si y = xi/c entonces y = x/c

2.1.3 Media aritmética ponderada

Cuando los datos de un conjunto de datos tienen distintas importanciasen el grupo, al calcular la media aritmética debe considerarse esta impor-tancia que está expresada en una ponderación.

La media aritmética se denomina "ponderada" y se obtienemultiplicando cada valor de la variable (xi) por suponderación (pi ) y la suma de los productos se

divide por el total de las ponderaciones.

Sean x1, x

2 ... x

nlos valores de la variable y p

1, p

2... p

n sus ponderacio-

nes correspondientes. La media ponderada (w) es:

x1 p

1 + x

2 p

2 + ... x

n p

n

w = p

1 + p

2 + .... + p

n

xi p

i

w = (3) xi: Cada valor de la variable

pi

pi: cada ponderación

Un ejemplo práctico es el índice académico de la Universidad Católicade Salta. Cada asignatura en el plan de estudios tiene asignada un núme-ro de "créditos". Estos créditos indican la importancia de la materia en elplan. El promedio aritmético final de un egresado se obtiene teniendo encuenta los créditos, es decir es un promedio ponderado y no un promediosimple.

99

Ejemplo: un estudiante de Administración de la U.C.S. obtuvo las si-guientes calificaciones en 3 asignaturas:

Filosofía: 10 (diez); Economía: 6 (seis); Costos: 4 (cuatro)

La calificación media (promedio simple) es:

20x = = 6,67

7

Pero cada materia tiene el siguiente número de créditos: Filosofía: 2créditos; Economía: 3 créditos y Costos: 4 (créditos). La calificación media(índice académico) de este alumno cambiará ya que será un promedioponderado:

Asignatura Calificación (xi) Créditos (pi)

Filosofía 10 2Economía 6 3Costos 4 4

10 (2) + 6 (3) + 4 (4) 54Indice académico = w = =

2 + 3 + 4 9

w = 6

El promedio ha disminuido por el efecto de las ponderaciones. En Cos-tos, la asignatura de mayor ponderación, el alumno obtuvo una calificaciónbaja.

100

2.2. Mediana

2.2.1. Concepto

La mediana es el valor que se ubica en el centro de un conjunto de datosordenados.

La mediana deja dividida a la distribución en dos partes iguales, o seaque tiene tantos términos inferiores como superiores a ella.

Para el cálculo debe considerarse dos situaciones.

a)Número impar de datos

La mediana es el valor que se ubica en la posición [(n+1)/2].

Los salarios de los 7 trabajadores ordenados de menor a mayor.

320 325 330 340 346 355 360

La mediana se ubica en la posición [(7 + 1)/2] = 4º lugar.

Md = $ 340

320 330 340 350 360

Md

b)Número par de datos

La mediana es el valor que se ubica en las posiciones.

(n/2) y [(n + 2)/2]

Los salarios de 8 trabajadores ordenados son:

320 325 330 340 346 355 360 365

101

La mediana se ubica entre el 4º y 5º lugar, o sea:

340 + 346(8/2) = 4º y [(8/2)/2] = 5º Md = = $343

2

2.2.2 Principales características de la mediana

a) La mediana no esta afectada por valores extremos porque no utilizatodos los valores para su cálculo.

Ejemplo: Dados los valores 8 10 12 15 50

La mediana es el valor que se ubica en el 3º lugar.

Md = 12

Si el valor 50 se incrementa, la media aritmética si aumenta, pero lamediana sigue siendo la misma.

b) La mediana no está definida algebraicamente.

c) En algunos casos, como cuando el número de datos es par, la media-na es un valor aproximado, ya que es el valor medio de los dos valo-res centrales.

2.3 Moda

2.3.1 Concepto

La moda es el valor que se presenta con la mayor frecuencia.

Ejemplo: Los salarios de 10 trabajadores son:

365 - 320 - 340 - 370 - 380 - 340 - 355 - 340 - 326 - 340

Como el número de trabajadores que percibe $340 es mayor que cual-quier otro, la moda es 340.

102

Mo = $ 340

320 330 340 350 360 370 380

2.3.2 Principales características de la moda

a) La moda no está definida algebraicamente.

b) No está afectada por valores extremos.

c) Es una medida adecuada para el análisis de variables cualitativas.Por ejemplo: estado civil modal, nivel de instrucción modal, etc.

d) En un conjunto de datos puede haber una, dos o más modas y enalgunas distribuciones puede no haber moda ya que no hay ningúnvalor que se presente con la mayor frecuencia.

Si la distribución tiene una moda se denomina unimodal, si tiene dos, sedenomina bimodal y si tiene tres o más modas se denomina multimodal.

103

Actividad Nº 15

1. Un negocio de electrodomésticos que posee diez sucursales registróel número de heladeras vendidas por cada una durante una semana.

Sucursal A B C D E F G H I J

Número deheladeras vendidas 4 6 0 7 3 5 2 1 5 5

a) Calcular la venta media, la venta mediana y la venta modal.

b) Se estima que para la semana siguiente las ventas aumentarán un20% en cada sucursal ¿Cuál es la nueva venta media?

2. Una agencia de turismo recibió un total de $3.800 por parte de losestudiantes de un colegio en concepto de seña por un viaje de egre-sados. Si la seña media por alumno es $95, ¿cuántos estudiantesparticiparán del viaje?

3. Una compañía tiene tres productos A, B y C, cuyos márgenes deutilidades son respectivamente 15%, 13% y 10%. Si las ventas men-suales correspondientes a cada producto son (en miles de $) 4.0 - 2.5y 1.8, ¿cuál es el margen medio de ganancia?

4. Cinco jóvenes fueron beneficiados con becas para estudios universi-tarios siendo el importe medio de $150 y el importe mediano de $135.

a) ¿Cuál fue el importe total entregado a los 5 estudiantes?b) Supóngase que al estudiante que recibía el mayor importe se le

incrementa la beca en $20.

i) ¿Cuál es el nuevo importe medio?ii) ¿Cuál es el nuevo importe mediano?

5.Un informe sobre el turismo en Salta muestra los siguientes datos:

a) La mayoría de los turistas que visitan Salta provienen de la provin-cia de Buenos Aires.

104

b) Los hoteles de tres estrellas registran un promedio de 2 pernoctespor noche.

c) La mitad de los hoteles de tres estrellas logró un índice de aloja-miento menor que 70% y la otra mitad logró un índice superior al70%.

Indicar qué promedio (media, mediana o moda) se utiliza en cada unade la conclusiones mencionadas.

6. En una discusión salarial, el gerente general de una compañía sostie-ne que el salario promedio pagado a los trabajadores es de $380 pormes. En cambio, el delegado gremial afirma que el salario prevale-ciente es de $350 ¿Quién maneja los verdaderos valores?

105

2.4. Media aritmética, mediana y moda para datos agrupados

2.4.1 Media aritmética

Las fórmulas (1) y (2) estudiadas en el punto 2.1.1. se utilizan paracalcular la media aritmética cuando los datos están presentados en unaserie simple.

Si cada valor x1, x

2, ... x

n está agrupado en una tabla con su frecuencia

respectiva, f1, f

2, ... f

n, la media aritmética se obtiene multiplicando cada

valor (xi) por su frecuencia (f

i) y la suma de los productos se divide por el

total de observaciones de la muestra o de la población, o sea:

x1 f

1 + x

2 f

2 + ... + x

n f

n

= f

1 + f

2 + ... + f

n

xi f

i x

i f

i

= (4) x = (5) f

ifi

Media poblacional Media muestral

Como fi = N (en caso de una población) y f

i = n (en caso de una mues-

tra), las fórmulas (4) y (5) se puede expresar como:

xi f

i x

i f

i

= (6) x = (7)N n

Ejemplo: Se toma una muestra de 40 familias para determinar el núme-ro medio de hijos. Los datos se presentan en la siguiente tabla:

Número de hijos Cantidad de familiasx

i f

i

2 103 154 95 6

40

106

Utilizando la fórmula (6)

2 (10) + 3 (15) + 4 (9) + 5 (6) 131x = =

11 + 14 + 9 + 6 40

x = 3.3 hijos

Cuando los datos están agrupados en una tabla con intervalos de clase,el x

i de las fórmulas (6) y (7) representa a la marca de clase de cada

intervalo. Para el cálculo de la media, se multiplica cada marca de clase(x

i) por su frecuencia de clase (f

i) y la suma de los productos se divide por

el total de observaciones de la distribución.

Ejemplo: Calcular el índice medio de accidentes de la muestra de 25empresas (Punto 4.4. - Unidad III).

Indices Marca de clase Número de empresas x

ifi

1 - 2 1.5 3 2 - 3 2.5 5 3 - 4 3.5 10 4 - 5 4.5 4 5 - 6 5.5 3

25

1.5 (3) 2.5 (5) + 3.5 (10) + 4.5 (4) + 5.5 (3) 86.5x = =

25 25

x = 3.5 índice medio de accidentes

Media aritmética combinada

Cuando se analizan distintas muestras (o distintos conjuntos de datos)donde se obtiene la media aritmética de cada una, y se desea calcular lamedia para todas las muestras, la media aritmética se denomina "combi-nada" (x).

107

La media combinada se obtiene multiplicando cada media muestral (x)por su tamaño (n) y dividiendo la suma de los productos por el total de lostamaños de las muestras, o sea:

x1n

1 + x

2 n

2 + ... + x

n. n

n

x = n

1 + n

2 + ... + n

n

xi . n

ix

i: media de cada muestra

x = ni: tamaño de cada muestra

ni

Ejemplo: la empresa A tiene 100 operarios cuyo sueldo medio es de$320, mientras que la empresa B que tiene 50 operarios tiene un sueldopromedio de $390. ¿Cuál es el salario medio para los operarios de ambasempresas?

320 (100) + 50 (390) 51.500x = =

100 + 50 150

x = $ 343.33

108

Actividad Nº 16

1. Calcular la media aritmética para la siguiente distribución de los alqui-leres de 100 locales comerciales.

Alquileres Nº de localesfi

200 - 300 22300 - 400 30400 - 500 19500 - 600 10600 - 700 12700 - 800 7

100

2. En una empresa hay 15 técnicos, 20 empleados administrativos y300 operarios. Las edades medias de cada grupo son 42,5 años; 34,5años y 28,7 años respectivamente. Calcular la edad media para to-dos los trabajadores.

3. El promedio general de calificaciones de dos cursos A y B es 7,1. Elcurso A tiene 20 alumnos y una calificación media 6,4 y el curso Btiene una calificación media de 7,5. ¿Cuántos alumnos tiene el cursoB?

109

2.4.2 Mediana

La mediana para datos agrupados en una tabla de frecuencias conintervalos de clase es un valor aproximado a la verdadera mediana. Sepuede obtener por dos métodos: a) el método gráfico y b) el método deinterpolación.

a) Método gráfico

Como ya se analizó el punto 4.8 de la unidad III, la mediana se puedeobtener gráficamente mediante las ojivas. Las dos ojivas se intersectan enla mitad del total de las frecuencias (12,5), siendo el valor mediano 3,45,es decir que el 50% de las empresas tiene un índice menor a 3,45 y el otro50% tiene un índice mayor a 3,45.

Indices Nº de empresas Frecuencias acumuladas f

i f

a

1 - 2 3 32 - 3 5 83 - 4 10 184 - 5 4 225 - 6 3 25

25

110

fa

25

20

18 E

15

n/2 = 12.5 C 10

10 4.5

8.0 A B D

5

Indices

1 2 3 4 5 6 L

i

Md

b)Método de interpolación

En primer lugar se debe identificar el "intervalo mediano". Observandoel gráfico la mitad del total de datos (n/2 = 12,5) se localiza en la clase 3- 4, por lo tanto este es el intervalo que contiene a la mediana.

Hasta el intervalo 2 - 3 hay 11 observaciones; en el intervalo 3 - 4 seincluye desde el dato número 12 hasta el dato número 18, o sea que los12.5 primeros datos se encuentran en esta clase que es el intervalo me-diano.

Luego, se aplica la siguiente fórmula:

n/2 - fa

Md = Li + . C

i(9)

fi

111

Li: límite inferior del intervalo mediano

n: total de datos promediadosfa: frecuencia acumulada anterior al intervalo mediano

fi: frecuencia absoluta simple del intervalo mediano

Ci: amplitud del intervalo mediano.

Esta fórmula se fundamenta en una distribución uniforme de los distin-tos valores de la variable dentro del intervalo que contiene la mediana.

Se puede establecer la siguiente relación de proporcionalidad.

AB AD CB . AD = donde AB =

CB ED ED

Del gráfico se desprende que:

Md = Li + AB

Sustituyendo AB por la expresión hallada

CB . ADMd = L

i + ED

donde:

CB = n/2 - fa

entonces CB = 12.5 - 8 = 4.5

que indica los elementos que faltan para llegar a la mitad del total dedatos. Hasta la clase anterior al intervalo mediano hay 8 observaciones,por lo que faltan 4,5 para la mitad.

A su vez ED = fi o sea ED = 10. De las 10 observaciones que hay en el

intervalo mediano, se necesitan 4,5 para alcanzar la mitad, por eso sedivide n/2 - f

a sobre f

i que es una fracción del intervalo de clase.

n/2 - fa

12,5 - 8 4,5 = =

fi

10 10

112

Por último AD = Ci o sea AD = 1 (amplitud del intervalo). La fracción

anterior se multiplica por la amplitud que da la posición de la medianadentro del intervalo.

n/2 - fa

4,5 . C

i = . 1 = 0.45

fi

10

El valor 0.45 se agrega al límite inferior de la clase mediana (Li) para

obtener el valor de la mediana.

n/2 - fa

Md = Li + C

i

fi

12.5 - 8Md = 3 + . 1

10

Md = 3 + 0.45 = 3.45

113

Actividad Nº 17

La siguiente distribución corresponde a los alquileres pagados por 100locales comerciales:

Alquileres Nº de locales $ f

i

200 - 300 22300 - 400 30400 - 500 19500 - 600 10600 - 700 12700 - 800 7

100

Obtener la mediana:

a) por el método gráficob) por el método de interpolación

114

2.4.3 Moda

La moda, para una distribución de frecuencias, no puede calcularseexactamente, sino en forma aproximada.

Los métodos de cálculos son:

a)el método directo;b)el método de interpolación mediante gráfico yc)el método de interpolación mediante fórmula.

La tabla de frecuencias de los índices de accidentes de las 25 empresasse utilizarán para ejemplificar la aplicación de los 3 métodos.

Indices Nº de empresas Marca de clase f

i x

i

1 - 2 3 1.52 - 3 5 2.53 - 4 10 3.54 - 5 4 4.55 - 6 3 5.5

25

Cada uno de los puede dar un valor diferente a la moda.

a)Método directo

La moda directa en una distribución de frecuencias es la marca de claseo punto medio del intervalo modal. El intervalo modal es el que tiene lamayor frecuencia.

En la distribución de los índices de accidentes el intervalo modal es 3 -4 porque allí se concentra la mayor frecuencia que es 10. Como el puntomedio 3,5 es el valor que representa a la clase modal por lo tanto seconsidera la moda de la distribución.

Mo = 3.5 accidentes

115

b)Interpolación mediante gráfico

(1) Se construye un histograma

fi

clase modal fn = 10

10

8 d1

d2

6

4 f1 = 5

f2 = 4

2

1 2 3 4 5 6 Indices moda 3,4

(2) Se dibujan dos líneas diagonalmente en el interior de la barra de laclase modal, partiendo de las esquinas superiores de la barra a las esqui-nas superiores de las barras adyacentes.

(3) Se dibuja una línea perpendicular desde la intersección de las dosdiagonales hasta el eje de las x. La moda se localiza en dicho eje y es 3,4.

Obsérvese que se han empleado los valores y la frecuencia de la clasemodal y las frecuencias de las clases inmediatamente anterior y posteriora la clase modal.

c) Interpolación por fórmula

La fórmula para el cálculo de la moda es:

d1

Mo = L

i + . C

i(10)

d1+ d

2

116

Li: Límite inferior del intervalo modal

d1:Diferencia entre la frecuencia de la clase modal y la frecuencia de laclase premodal (d

1= f

n - f

1)

d2:Diferencia entre la frecuencia de la clase modal y la frecuencia de laclase posmodal (d

2 = f

n - f

2).

Ci: Amplitud de la clase modal.

Aplicando la fórmula (10) para la distribución de índices de accidentesse tiene:

Li = 3

d1 = 10 - 5 = 5

d2 = 10 - 4 = 6

Ci = 1

5Mo = 3 + . 1

5 + 6

Mo = 3 + 0.45 = 3.45

Mo ~ 3.45 accidentes

Si el gráfico fue dibujado exactamente, la moda calculada mediantefórmula deberá ser el mismo valor que la moda obtenida el histograma.

117

Actividad Nº 18

Calcular la moda por los tres métodos desarrollados para la distribuciónde alquileres de los 100 locales comerciales.

Alquileres Nº de locales f

i

200 - 300 22300 - 400 30400 - 500 19500 - 600 10600 - 700 12700 - 800 7

100

118

2.5. Otras medidas de posición

2.5.1 Media Geométrica

La media geométrica (G) se define como la raíz n-ésima de los produc-tos de los valores de un conjunto de datos.

n

G = x1 . x

2 ... x

n

Ejemplo: Calcular la media geométrica de los valores 5 - 7 - 10 - 12

4 4

G = (5) (7) (10) (12) = 4.200

G = 8,05

La media geométrica tiene las siguientes características.

(1) Es susceptible de tratamiento algebraico. Si se conocen dos de lostres términos de la expresión, el tercero puede ser determinado.

n

G = Producto de n valores

Ejemplo:

Si un conjunto de 5 valores tiene una media geométrica de 3 ¿Cuál esel producto de los 5 valores?

G = 3 n = 5

Producto de n valores = Gn

= 35 = 243

(2) El cálculo de G se basa en todos los valores de un conjunto de datos.Cada valor del conjunto afecta el valor de G. Si uno de los valores es cero,el valor de G es cero.

119

Ejemplo: 12 - 8 - 0

3

G = (12) (8) (0)

G = 0

(3) La media geométrica es afectada por los valores extremos pero enmenor cantidad que lo es a la media aritmética.

Ejemplo. Sean los valores 4 - 7 - 25

La media aritmética es:

xi

x = n

36x = = 12

3

La media geométrica es:

3

G = (4) (7) (25)

G = 8,9

El valor de G es siempre menor que la media aritmética.

(4) Cuando se obtienen las razones de los valores de un conjunto conrespecto a cada valor inmediato anterior, la media geométrica es el únicopromedio apropiado para las razones.

Ejemplo: Las ventas de un negocio durante cuatro meses fueron:

Mes Ventas ($) Razón con respecto al mes anterior (xi)Enero 1.000 1.10Febrero 1.100 1.70Marzo 1.870 1.70Abril 3.740 2.00

120

Se calcula la media geométrica de las razones.

3 3

G = (1.10) (1.70) (2.00) = 3.74

G = 1.5522 o 155.22 %

En el cuadro siguiente se muestran las ventas mensuales basadas enG.

Mes Ventas E 1.000 - F 1.100 1.000 (1.5522) = 1.552.20 M 1.870 1.552.20 (1.5522) = 2.409.32 A 3.740 2.409.32 (1.5522) = 3.739.75 = 3.740

Con la media geométrica se llega al último valor (3.740), mientras que sise hubiera utilizado la media aritmética de las razones, el resultado nohubiera sido consistente.

Cuando un número es obtenido multiplicando el número anterior por larazón promedio, la secuencia de los números se denomina progresióngeométrica. Los valores de las ventas constituyen una progresióngeométrica con una razón promedio de 155.22%.

Uso de la G para obtener tasas promedio de crecimiento

Considerando la secuencia de valores de una progresión geométrica,se tiene:

Po: Valor del primer período (período base)

Pn: valor del último período

n: número de valores excluyendo el primero de ellos.G: la razón promedio.

121

SimbólicamenteEnero (base) = 1.000 P

o

Febrero = 1.000 (1.5522) = 1.552.20 Po . G

Marzo = 1.552.20 (1.5522) = 2.409.32 Po G(G) = P

oG2

Abril = 2.409,32 (1.5522) = 3.739.75 Po G2 (G) = P

oG3

En general, el valor al final del n-ésimo período es:

Po . Gn = P

n

Pn

Gn = P

o

Pn

G =n

(12)P

o

La tasa promedio de crecimiento (r) es:

r = G - 100% (13)

La base de una razón expresada en % es igual al 100%.

Po = 1.000 P

n = 3.740 n = 3 (se excluye el período base)

G = ? r = ?

3.740G=

3

1.000

G = 1.5522 o 155.22 %

r = 155.22 - 100

r = 55.22%

Las ventas tienen una tasa promedio de crecimiento mensual del 55,22%.

122

2.5.2 Media Armónica

Se define la media armónica (H) como el inverso de la media aritméticade los inversos de los valores de la variable.

1 nH = entonces H = (14)

1 1x x

por lo tanto

n H =

1 1 1+ + .... +

x1

x2

xn

Ejemplo: Dados los valores 2 - 3 - 6 - 8

4 4 H = =

1 1 1 1 54 + + +2 3 6 8 48

H = 3.55

La media armónica se obtiene utilizando todos los valores del conjunto,por lo tanto es afectada por valores extremos, pero en menor cantidad quela media geométrica.

Ejemplo: 4 - 7 - 25

x = 12 G = 8.9

123

3 H =

1 1 1 + +4 7 25

H = 7

En resumen:

H < G < x

El significado de la media armónica se puede ilustrar con el siguienteejemplo:

Se ha recorrido la distancia Salta - Tucumán a razón de 80 km por horay el regreso Tucumán - Salta a razón de 60 km por hora ¿Cuál es eltrayecto total de ida y vuelta?

La media aritmética dará como respuesta:

80 + 60= 70 km/h

2

El resultado es erróneo. El tiempo invertido en recorrer la distancia (D)entre Salta y Tucumán será: D/80 y el regreso D/60.

La velocidad media de ida y vuelta será:

Espacio 2H (velocidad media) = =

Tiempo 1 1+

80 60

H = 68.57 km/h

124

2.5.3 Cuartiles

Así como la mediana divide la distribución en dos partes iguales, loscuartiles dividen a la distribución en cuatro partes iguales (o casi iguales).Existen tres cuartiles:

- Primer cuartil (Q1) es el valor de la variable por debajo del cual queda

el 25% de los elementos de la serie estudiada.

- Segundo cuartil (Q2) es el valor por debajo del cual queda el 50% de

los elementos de la distribución. El segundo cuartil es igual a la mediana.

- Tercer cuartil (Q3) es el valor por debajo del cual queda el 75% de los

elementos de la distribución.

Para calcular los cuartiles en los datos sin agrupar se debe seguir elsiguiente procedimiento.

1') Ordenar los datos de menor a mayor.

2') Encontrar la posición que ocupa el Q1, Q

2 o Q

3 a través de las si-

guientes fórmulas:

n + 1 2(n + 1) 3 (n + 1)Orden Q

1 = ; Orden Q

2 = ; Orden Q

3 =

4 4 4

3') Buscar el dato que ocupa la posición hallada en el peso anterior.

Ejemplo: Los siguientes datos corresponden a las puntuaciones de 15exámenes tomados a postulantes a un cargo en una empresa de servicio.

45 - 47 - 49 - 50 - 52 - 52 - 57 - 60 -62 - 65 - 65 - 68 - 70 - 74 - 78

* El primer cuartil será:

n + 1Orden Q

1 =

4

125

15 + 1Orden Q

1 = = 4º lugar

4

El dato que ocupa el 4 lugar es 50, o sea:

Q1 = 50 puntos

El 25% de los postulantes tiene una puntuación inferior a 50 puntos:

* El segundo cuartil será:

3 (n + 1)Orden Q

3 =

4

3 (15 + 1)Orden Q

3 = = 12º lugar

4

El dato que ocupa el lugar número 12 es 68 , o sea:

Q3 = 68 puntos

El 75% de los postulantes tiene una puntuación inferior a 68 puntos.

- Si el valor resultante de la posición es un entero, se selecciona el datocorrespondiente al orden del cuartil buscado. Este es el caso del ejemploanterior.

- Si el punto de posición está a la mitad entre dos puntos de posición,se selecciona la media de sus valores correspondientes.

- Si el valor del orden no es un entero ni un valor a la mitad entre losotros dos puntos de posición se utiliza la siguiente regla empírica paraaproximarse al cuartil: redondearlo al punto de posición del enteromás cercano y seleccionar el valor de la observación correspondiente.

126

Ejemplo: Dados los siguientes valores:

10 2012 2214 2518 2718 30

n + 1 10 + 1Orden Q

1 = = = 2.75 4 4

El 1º cuartil se ubica entre el 2º y 3º lugar, o sea entre los valores 12 y14. Como el orden (por redondeo) se acerca a 3, se considera 14 comovalor aproximado del 1º cuartil.

Q1 = 14

3 (n+1) 3(10+1)Orden Q

3= = = 8.25

4 4

El 3º cuartil se ubica entre el 8º y 9º lugar, o sea entre los valores 25 y27. Como el orden (por redondeo) se acerca a 8, se considera 25, comovalor aproximado del 3º cuartil.

Q3

25

Cuando los datos están agrupados en una tabla de frecuencias, loscuartiles se calculan por el mismo procedimiento que el cálculo de la me-diana.

1') Se identifica el intervalor que contiene el 1' y el 2' o el 3' cuartil.

2') Luego se utiliza una de las siguientes fórmulas:

127

n/4 - fa

Q1 = L

i + . C

i(15)

f

i

2n/4 - fa

Q2 = L

i+ .C

i(16)

fi

3n/4 - fa

Q3 = L

i+ . C

i(17)

fi

Li: Límite inferior de la clase a la que pertenece el 1', el 2' o el 3' cuartil

n/4: Orden del 1 cuartil - 2n/4: Orden del 2 cuartil.2n/4: Orden del 3' cuartil.

fa: Frecuencia acumulada anterior a la clase que contiene el cuartil bus-

cado.

fi: Frecuencia simple de la clase cuartílica.

Ci: Amplitud de la clase cuartílica.

Ejemplo: Calcular el Q1 y el Q

3 de la distribución de frecuencias de los

índices de accidentes de las 25 empresas.

Indices Nº de empresas Frecuencia Acumuladafi

fa

1 - 2 3 32 - 3 5 83 - 4 10 184 - 5 4 225 - 6 3 25

25

128

fa

25

20

15

10

5

1 2 3 4 5 Indices

Q1

Q3

Orden 1 cuartil Orden 3' cuartil

n 25 3n 3(25)Q

1 = = = 6.25 Q

3 = = = 18.75

4 4 4 4

La clase del 1' cuartil se localiza La clase del 3' cuartil se localiza enen el intervalor 2 - 3. el intervalor 4 - 5.

Luego, se aplica la fórmula (15) Luego se aplica la fórmula (17)

3.25 - 3 18.75 - 18Q

1 = 2 + . 1 Q

3 = 4 + . 1

5 4

Q1 = 2.65 Q

3 = 4.1875

Una de las aplicaciones importantes de los cuartiles es en la confeccióndel diagrama de caja que se desarrollará más adelante.

129

2.5.4 Deciles y Percentiles

- Los deciles (D) dividen a la distribución en diez partes iguales. Así, porejemplo, el decil 1 (D

1), deja el 10% de los valores por debajo de él; el

decil 2 (D2) deja el 20% de los valores por debajo de él. Análogamente

ocurre con los deciles D3, D

4... D

9.

- Los percentiles (P) dejan dividida a la distribución en cien partes igua-les. Los percentiles se denotan por P

1, P

2, P

3 ... P

99. Así, por ejemplo,

el P80

deja por debajo el 80% de los elementos de la distribución.

Debido a que estas medidas no son de uso frecuente en el campo de laAdministración, no se desarrollarán las fórmulas para su cálculo. No obs-tante, los procedimientos de dichos cálculos son análogos a los utilizadospara la mediana y los cuartiles.

130

Actividad Nº 19

1) Dados los siguientes valores:

2 - 7 - 8 - 15 - 10 - 4 - 9 - 10

Calcular:

a) La media geométrica;b) La media armónica;c) El tercer cuartil.

2) Según el censo de 1970, la población de la ciudad de Salta era de176.216 habitantes. De acuerdo a los datos del censo 1991 la pobla-ción aumentó a 373.857. Obtener la tasa promedio de crecimientoanual por cada mil habitantes de la población de la ciudad.

3) Dada la distribución de los alquileres de los 100 locales comerciales.

a) Calcular el Q1 y Q

3

b) Interpretar las medias calculadas.

Alquileres Nº de localesfi

200 - 300 22300 - 400 30400 - 500 19500 - 600 10600 - 700 12700 - 800 7

100

131

3. Medidas de Dispersión

Las medidas de dispersión describen lavariabilidad de las observaciones de un conjunto

de datos con respecto a un valor promedio.

RangoDe distancia Rango inter-cuartil (*)

Desviación cuartílica (*)Absolutas

Medidas * Desviación absoluta promedio de De desviación * VarianzaDispersión promedio * Desviación típica

* Desviación intercuartílica (*)

Relativa Coeficiente de Variación

Considérese el número de pólizas vendidas durante una semana pordos sucursales de una compañía de seguros.

Lunes Martes Miércoles Jueves ViernesSucursal "A" 5 12 8 14 11Sucursal "B" 9 8 10 12 11

A0 1 2 3 4 5 6 7 8 9 10 11 12 13 14

A0 1 2 3 4 5 6 7 8 9 10 11 12 13 14

La media de ambas sucursales es 10 pólizas.

A = 10

B = 10

Si bien ambas sucursales tiene la misma venta media, se puede obser-var que los valores de la Sucursal "A" están más dispersos que los valoresde la Sucursal "B" respecto a la media.

* Se tratan en el punto 3.8

132

3.1 Rango

Es la diferencia entre el valor máximo y el valormínimo de un conjunto de datos.

R = xn - x

1 (18) x

n = valor máximo; x

1 = valor mínimo

RA = 14 - 5 = 9 R

B = 12 - 8 = 4

Características del Rango

1. Es una medida de cálculo sencillo.

2. El rango no está afectado por los valores comprendidos entre el valormáximo o mínimo, al utilizar los extremos no proporciona una medidaefectiva de variabilidad en relación el valor promedio.

3.2 Desviación Absoluta Promedio

La desviación absoluta promedio es la media aritmética de las desvia-ciones de los valores individuales de la distribución con respecto a supromedio (generalmente se utiliza la desviación media).

xi -

Dm = (19) N

Los signos de las desviaciones se ignoran, ya que de acuerdo la propie-dad de la media ya estudiada, la suma de los desvíos es cero.

133

SUCURSAL "A"

xi xi - Valor absoluto de los desvíos

5 5 - 10 = - 5 512 11 - 10 = 2 28 8 - 10 = - 2 214 14 - 10 = 4 411 11 - 10 = 1 1

= 0 d = 14

SUCURSAL "B"

xi xi - Valor absoluto de los desvíos

9 9 - 10 = - 1 18 8 - 10 = - 2 210 10 - 10 = 0 012 12 - 10 = 2 211 11 - 10 = - 1 1

= 0 d = 14

14 6Dm

A = = 2,8 Dm

B = = 1,2

5 5

Características de la DM

1. El cálculo está basada en todos los valores e indica la dispersión conrelación a un valor promedio.

2. Al ignorarse los signos de las desviaciones, la medida no resultaadecuada para un manejo matemático.

134

3.3 Varianza

La varianza es el promedio de los cuadrados de lasdesviaciones de los valores de la variable

con respecto a su media.

La varianza poblacional se simboliza con sigma cuadrado ( 2) y la fór-mula se expresa:

(xi - )2

2 = (19) N

L M M J V

Sucursal A (xi - )2 25 4 4 16 1 = 50

Sucursal B (xi - )2 1 4 0 4 1 = 10

50 102A = 2

B=

5 5

2A

= 10 2B

= 2

Principales características de la varianza

1. La varianza es matemáticamente lógica ya que considera los signosde los desvíos, de allí su ventaja con respecto a la desviación abso-luta promedio.

2. La varianza no está expresada en unidades originales, sino en unaunidad al cuadrado. Esto es debido a la operación de elevar al cuadra-do las desviaciones.

3. Cuando las varianzas son grandes se hace difícil su interpretación.

Para calcular la varianza se pueden emplear las variantes de la fórmula:

135

xi2 x

i 2 x

i

(20) 2 = - (21) 2 = - ( )2

N N N

Para aplicar estas fórmulas se utilizarán los datos de la sucursal B.

xi

9 8 10 12 11 = 50

xi2 81 64 100 144 121 = 510

Utilizando la Utilizando lafórmula 20 fórmula 21

510 50 2 5102 = - 2 = - (10)2

5 5 5

2 = 102 - 100 2 = 102 - 100

2 = 2 2 = 2

3.4 Desviación típica o estándar

Debido a que la varianza no está expresada en unidades originales ypara restaurarlas se obtiene la raíz cuadrada de esta medida.

La medida así obtenida recibe el nombre de "desviación típica o están-dar"

La desviación típica es la raíz cuadrada delpromedio de los cuadrados de las desviaciones

de los valores con respecto a su media.

La desviación típica poblacional se simboliza con s (sigma) y la fórmulase expresa.

136

(xi - )2

= (22) N

La desviación típica de A es La desviación típica de B es:

50 10

A = = 10

B = = 2

5 3

A= 3,2 pólizas

B = 1,4 pólizas

La fórmula (22) se puede expresar como:

xi2 x

i 2 x

i

= - (23) = - ( )2 (24) N N N

Principales característica de la desviación típica

1. Como la varianza, la desviación típica se calcula en base a todos losvalores. Mide la dispersión alrededor de la media y no con respecto aciertos valores como el rango.

2. La desviación estándar es matemáticamente lógica, ya que al igualque la varianza, tiene en cuenta los signos positivos y negativos delos desvíos individuales.

3. Como ya se señaló anteriormente, el desvío típico está expresado enunidades originales lo que facilita su análisis e interpretación.

4. a)Si a cada valor de la variable se le suma (o se le resta) una cons-tante, el desvío típico no se modifica.

137

b)Si a cada valor de la variable x lo multiplica (o se lo divide) por unaconstante, el desvío típico queda multiplicada (o dividida) por dichaconstante.

5. Hasta ahora se hizo referencia a la varianza y el desvío típicopoblacional, por cuanto las fórmulas de ambas medidas calculadas apartir de una muestra tienen la siguiente variante: el denominador sedivide por n-1. La explicación se desarrolla en el punto 3.5. La varianzay el desvío típico muestrales se simbolizan por S2 y S respectivamente.

3.5. Varianza y desvío típico de una muestra

La varianza muestral (S2) se obtiene mediante la siguiente fórmula:

(x1 - x)2

S2 = (25) n - 1

La desviación típica muestral (S) se obtiene por:

(x1 - x)2

S = (26) n - 1

El denominador se divide por n-1. Este término se denomina "grados delibertad".

Ejemplo: las edades de una muestra de cinco personas son: 20; 24; 28;35; 40. La media es:

xi

x = x = 29.4 años. n

Al calcular la desviación típica muestral, se utiliza una estimación de lamedida de la población. Se introduce un sesgo debido a que el valor =(x

1

- x)2 es un valor mínimo para cualquier distribución dada. Si a cada ele-mento se hubiera restado cualquier otro valor distinto de 29,4 años, lasuma de las diferencias sería mayor que = (x

1 - 29.4)2.

138

Al utilizar en el cálculo la moda muestral como estimador de la mediapoblacional, por lo regular se obtendrá una desviación estándar menorque la desviación estándar poblacional. Este sesgo se puede corregir di-vidiendo = (x

i - x )2 entre los grados de libertad n - 1. Debido que la media

muestral se usó como estimación de la media poblacional en el cálculo deldesvío muestral, solo cuatro de las edades son libres de varias, ya que laquinta edad se puede determinar porque = (x

i - x) = 0. Sólo se requiere

de cuatro edades para tener toda la información.

Los grados de libertad en un conjunto de datos indican el número deelementos de datos que son independientes de los otros y que se consti-tuyen como piezas únicas de información.

139

Actividad Nº 20

1) Las ventas de una compañía (en miles de pesos) durante una sema-na fueron:

Día L M M J V S

Ventas ($) 8 4 6 7 10 7

a) Obtener las siguientes medidas:

i) Rango;ii) Desviación absoluta promedio;iii) varianzaiv) Desviación típica

b) El gerente estima que las ventas disminuirán un 10% la próximasemana ¿Qué ocurrirá con el desvío típico?

2) Un productor cinematográfico elige un grupo de extras para una pe-lícula. Las edades de los primeros 10 entrevistados son:

50 - 56 - 55 - 49 - 5257 - 56 - 57 - 56 - 59

El productor quiere extras cuya edad se agrupe estrechamente alre-dedor de los 55 años como aceptable,pero que la variabilidad nosupere los 3 años. ¿Cumple este grupo con los requisitos?

3) En uno de los departamentos de producción de una empresa indus-trial la producción diaria media por operario era de 374.3 unidades yla desviación típica de la producción diaria por operario de 34.7 unida-des. Se condujo un programa de entrenamiento para los operariosmenos eficientes. Subsecuentemente, la producción diaria media subióa 421.6 unidades por operario y la desviación típica se redujo a 29.3unidades.

Describir los cambios que tuvieron lugar después del entrenamiento.

140

4) Se toman las medidas a 80 personas y resulta una estatura media de1.70 mts. y una desviación típica de 0.02 mts. Posteriormente severifica que el instrumento usado en la medición tenía 3 cm menos.Ratifique o rectifique los valores mencionados.

141

3.6. Coeficiente de Variación

Cuando se desea comparar dos distribuciones, las medidas absolutasde dispersión son útiles si los promedios de ambas son aproximadamentedel mismo tamaño y las unidades de medida de los conjuntos son iguales,de lo contrario la comparación de la dispersión se hace complicada.

Ejemplo: la media y el desvío típico de los salarios de dos compañías:

Cía. I Cía. II

1 = 400

2 = 200

1 = 65

2 = 48

A simple vista, la Cía. I tiene mayor dispersión que la Cía. II debido a queel desvío típico es mayor. Pero esta conclusión no es cierta, ya que ladesviación típica es significativa sólo en relación con la media respecto ala cual se calcula.

Para la comparación se requiere una medida relativa que describa unaidea general de la magnitud del desvío estándar en relación con la magni-tud de la media. Esta medida se denomina "coeficiente de variación" quese obtiene dividiendo el desvío típico sobre la media aritmética.

(27) cv = Población

S(28) cv = Muestra

x

Si se expresa en porcentaje se multiplica por 100

Compañía I Compañía II

65 48 cv = cv =

400 200

142

cv = 0.1625 o 16.25% cv = 0.24 o 24%

La distribución I tiene una variación absoluta mayor que la distribución II,pero la variación relativa es menor porque es mayor su media aritmética.

Existen dos propiedades:

a)Cuando a cada valor de la variable se le suma (o se le resta) unaconstante, el cv disminuye (o aumenta).

Ejemplo: El salario medio de una muestra de trabajadores una compa-ñía es de $200 con una desviación típica de $ 20.

Sx

20cv = cv = = 0,10

x 200

Se decide aumentar los salarios en $40.

y = $ 240 Sy = $20

La nueva media El nuevo desvío se incrementa a 240 no se modifica

Sy

20cv = cv = = 0.08 el nuevo CV disminuye

y 204

b)Cuando a cada valor de la variable se multiplica (o se divide) por unaconstante, el cv no se modifica.

Ejemplo: se decide duplicar los salarios originales:

y = $400 Sy = $40

La nueva media también El nuevo desvío también se duplica se duplica

143

Sy

400cv = cv= = 0.10 el nuevo CV no se

y 40 modifica

144

Actividad Nº 21

1) Una compañía mayorista estaba estudiando la posibilidad de conver-tirse en proveedor de 3 minoristas, pero la escasez de inventario laobligó a seleccionar un solo minorista. El gerente de crédito de lacompañía está evaluando los créditos de los tres. En los últimos 5años, sus cuentas por cobrar se han atrasado el siguiente númeropromedio de días. El gerente de crédito considera que la consisten-cia, además de un promedio mínimo, es de suma importancia. Ba-sándose en la dispersión relativa. ¿Cuál minorista será mejor cliente?

López 62.2 61.8 63.4 63.0 61.7Guzmán 62.5 61.9 62.8 63.0 60.7Sánchez 62.0 61.9 63.0 63.9 61.5

2. La media de una distribución de un centenar de artículos es 50 y lasuma de los cuadrados de las desviaciones respecto de la media es3.600, por lo que el coeficiente de variación es igual a 0.08. ¿Escorrecto este enunciado?.

145

3.7 Varianza y desvío típico para datos agrupados

La varianza y la desviación típica para datos de una población agrupa-dos es una tabla de frecuencias se obtienen con las siguientes fórmulas:

Varianza Desvío típico

(xi - )2 . f

i (x

i - )2 . f

i2 = (29) = (30)

N N

Si se trata de una muestra, el denominador se divide por n - 1.

Varianza Desvío típico

(xi - x)2 . f

i (x

i - x)2 . f

i2 = (31) = (32)

n - 1 n - 1

donde:

xi = valor de la clase o punto medio del intervalo

m = media poblacionalx = media muestralfi = frecuencia de clase.

N = total de observaciones de la poblaciónn = total de observaciones de la muestra.

La desviación al cuadrado para cada clase se multiplica por su frecuen-cia y la suma de los productos se divide por N o en n - 1.

La varianza y el desvío típico para la distribución del número de acciden-tes de la muestra de 25 empresas, cuya media es 3.5, se obtienen acontinuación.

146

Indices Marca de Nº de empresas (xi - x)2 (xi - x)2 f

1 - 2 1.5 3 (1.5 - 3.5)2 = 4 4 (3) = 12

2 - 3 2.5 5 (2.5 - 3.5)2 = 1 1 (5) = 5

3 - 4 3.5 10 (3.5 - 3.5)2 = 0 0 (10) = 0

4 - 5 4.5 4 (4.5 - 3.5)2 = 1 1 (4) = 4

5 - 6 5.5 3 (5.5 - 3.5)2 = 4 4 (3) = 12

25 33

Aplicando las fórmulas (31) y (32).

33 33 33 2 = = = = 1.375 25 - 1 24 25 -1

2 = 1.375 = 1.17

Las fórmulas equivalentes de (29) y (30) son:

xi2 - f

i x

i2 - f

i2 = - 2 (33) = 2 (34)

N N

Las fórmulas equivalentes de (33) y (34) son:

xi2f

i- n x 2 x

i2f

i- nx 2

2 = (35) = (36) n - 1 n - 1

147

Actividad Nº 22

El número de cheques cobrados diariamente en 5 sucursales de unbanco durante 100 días tuvo la siguiente distribución de frecuencias:

Nº de cheques 0-200 200-400 400-600 600-800 800-1000fi 10 13 17 42 18

El director de operaciones del banco, sabe que una desviación standardo típica en el cobro de más de 200 cheques diarios crea problemas deorganización y dotación del personal en las sucursales, debido a una car-ga de trabajo no uniforme ¿Debe preocuparse en este momento?.

148

3.8 Otras medidas de dispersión

3.8.1 Rango intercuartil

El rango intercuartil (RI) representa la distanciaentre el tercer cuartil (Q1) y el primer cuartil (Q3).

RI = Q3 - Q

1 (37)

Considérese nuevamente los datos correspondientes a las puntuacio-nes de 15 exámenes tomados a postulantes (ver punto 2.5.1).

45 - 47 - 49 - 50 - 52 - 57 - 60 - 62 - 65 - 65 - 68 - 70 - 74 - 78

El primer cuartil (Q1) y el tercer cuartil calculados fueron:

Q1 = 50 Q

3 = 68

El rango intercuartil es:

RI = 68 - 50

RI = 18 puntos

3.8.2 Desviación cuartílica (QD)(*)

La desviación cuartílica consiste en la divisióndel rango intercuartílico entre dos.

Q3 - Q

1

QD = (38) 2

(*) Shao, Stephen, op. cit. en bibliografía.

149

68 - 50QD =

2

QD = 9 puntos

Las principales características de QD son:

(1) La QD está basada en dos valores: Q1 y Q

3. No está afectada por

valores extremos, los cuales son menores que Q1 o mayores que Q

3. El

50% de los datos está entre Q1 y Q

3. Una QD baja indica una pequeña

variación entre el 50% de los datos centrales. En cambio, una QD altasignifica que la variación entre los elementos centrales es grande.

(2) La QD tiene el inconveniente de que no está basada en cada valor deuna distribución.

Los cuartiles y el rango intercuartil son utilizados para confeccionar eldiagrama de caja que se trata en el anexo de este módulo, reproduciendoel artículo de la revista Capacitando en Calidad - N VII del Dpto. de Mate-mática de la Universidad Nacional del Sur.

4. Formas de la distribución

4.1 Simetría y Asimetría

Distribución simétrica

Considérese la distribución A

Intervalos fi xi

10 - 20 3 1520 - 30 5 2530 - 40 9 3540 - 50 5 4550 - 60 3 55

25

150

Se construye a continuación el polígono de frecuencias.

fi

10

9

8

7

6

5

4

3

2

1

xi

5 15 25 35 45 55 65

El polígono se vuelve cada vez más suave y curvo a medida que au-menta el número de observaciones. El Polígono suavizado recibe el nom-bre de “curva de frecuencia”.

151

Se puede observar que la distribución es simétrica por la forma delpolígono. En este caso los valores de la media aritmética, la mediana y lamoda son iguales o casi iguales.

x = 35 Md = 35 M

o = 35

4.2 Distribuciones asimétricas

Se presenta a continuación otras dos distribuciones B y C.

(B) (C)Intervalos fi xi Intervalos fi xi

10 - 20 3 15 10 - 20 2 15 20 - 30 12 25 20 - 30 3 25 30 - 40 5 35 30 - 40 5 35 40 - 50 3 45 40 - 50 12 45 50 - 60 2 55 50 - 60 3 55

25 25

152

Se construyen el polígono y la curva de frecuencias para ambas distri-buciones y se calculan los 3 promedios.

En la distribución (B) hay una asimetría (sesgo) hacia la derecha, ya quela media es mayor que la mediana y ésta mayor que la moda. En este casox es afectada por algunos valores extremos altos.

La distribución (C) tiene una asimetría hacia la izquierda. La media esmenor que la mediana y ésta menor que la moda. La media es afectadapor valores extremos bajos.

En resumen

fi

12

10

8

6

4

2

0

x = 30,6md = 27,9mo = 25

fi

12

10

8

6

4

2

0

fi

12

10

8

6

4

2

0

fi

12

10

8

6

4

2

0

x = 39,4md = 42,1mo = 45

153

Distribución simétrica Distribución asimétrica Distribución asimétrica hacia hacia la derecha o la izquierda o negativa asimétrica positiva

x = Md = Mo Mo<Md< x x < Md < Mo

4.3. Coeficiente de Asimetría de Pearson

La asimetría puede medirse a través de un coeficiente. Uno de los másutilizado es el coeficiente de asimetría de Pearson que se obtiene de lasiguiente manera:

x - MO

Sk = (39) S

k = 3 (x - Md) (40)

S S

Si Sk = 0 distribución simétrica.

Si Sk

< 0 distribución asimétrica negativa. Si S

k> 0 distribución asimétrica positiva.

Distribución A Distribución B Distribución C

S = 11,9 S = 11,2 S = 11,2

35 - 35 30,6-25 39,4-45S

k = S

k = S

k =

11,9 11,2 11,2

Sk = 0 S

k = 0.50 S

k = -0.50

Simétrica Positiva Asimétrica negativa

MediaMedianaModa

ModaMediana

Media

ModaMediana

Media

154

Mientras más marcada sea la asimetría menos representativa es lamedia, siendo la mediana una medida más conveniente debido a que norecibe influencias de valores extremos.

4.4. Curtosis

La curtosis mide el grado de apuntamiento de una distribución, es decirse mide su grado de pico.

Existen medidas para describir la curtosis que se tratan en el módulo III.Sólo se hará referencia a que una distribución con respecto al apunta-miento puede ser: leptocúrtica, mesocúrtica o platocúrtica.

Leptocúrtica Alto apuntamiento.“Lepto”: palabra griega quesignifica “esbelto”.

Mesocúrtica Apuntamientointermedio.“Meso”: palabra griega quesignifica “mitad”.

Platocúrtica Achatada“Platos” palabra griega quesignifica “ancho” o “plano”.

fi

fi

fi

155

Actividad Nº 23

Dada la siguiente distribución:

Intervalo fi

0 - 200 10200 - 400 13400 - 600 17600 - 800 42800 - 1000 18

100

a)Calcular la media, la mediana, la moda y el desvío típico.

b)Calcular e interpretar el coeficiente de asimetría.

156

EL GRÁFICO DE CAJA

Lic. ALICIA QUINTANA

Señor Supervisor, SeñorOperario: supongamosque en sus tareas dia-rias de trabajo haya te-nido que analizar unconjunto de datos y seha encontrado con lapresencia de unos pocosvalores que le han llama-do la atención, le hanparecido extraños, ra-ros, por ser muy gran-des o muy pequeños enrelación al resto de losdatos. El problema esque, tal vez, Usted no hasabido qué hacer. En elpresente artículo se lebrinda una solución.

El Gráfico de Caja esuna técnica estadísticaque se construye paracumplir con dos objeti-vos principales:

- visualizar las caracte-rísticas o propiedadesque tiene un conjuntodado de datos.

- detectar la presenciade valores "outliers", osea valores que resul-tan ser sospechosos.

INTRODUCCIÓNPREVIA

Para poder iniciar eltema, necesitamos dealgunos conceptos pre-vios, a saber:

I. Mediana.II. Cuartiles.III. Rango intercuartílico.

I. MEDIANA

La mediana (M) es el va-lor que divide al conjun-to de datos ordenadosde menor a mayor endos partes iguales. Osea, el 50% de los datoses inferior a M y el otro50% es superior a M.

Los pasos a seguir parael cálculo son los si-guientes:

Paso 1: ordenar los da-tos de menor a mayor.

Paso 2: hallar el lugar oposición ocupada por lamediana a través de lafórmula (n+1)/2 siendo lan la cantidad de datos.

Paso 3: buscar la obser-vación que ocupa el lu-gar encontrado en elpaso 2.

Como ilustración vea-mos los siguientes ejem-plos:

Ejemplo 1:

16 18 11 13 8 11 9

Siguiendo el esquema delos pasos, ordenamoslos datos de menor amayor:

8 9 11 11 13 16 18

El lugar que ocupa lamediana es (7+1)/2=4.Por lo tanto, la medianaocupa el 4º lugar que esigual a 11.

Ejemplo 2:

16 4 18 11 13 8 9 8

Ordenando los datos demenor a mayor obtene-mos:

4 8 8 9 11 13 16 18