Cap 1 y 2

C.Véli

z

CAPITULO I

ESTADISTICA DESCRIPTIVA

1.1. LA ESTADISTICA Y LA VARIABILIDAD.

La Estadística se ocupa de la recolección y análisis de datos que corresponden a fenómenos o situaciones en donde está presente la variabilidad. La finalidad del análisis es explicar tal variabilidad. Si con suficiente resolución, se realizan mediciones del peso de un artículo, se encontrará que éstas varían. Esta variabilidad puede deberse a diversas razones: al instrumento de medición, a la persona que realiza las mediciones, a las condiciones en

que se realiza la medición, etc. Si se eligen 10 personas al azar y se mide su estatura se podrá observar nuevamente el fenómeno de la variabilidad y ella puede deberse: al instrumento de medida, a factores de herencia, al tipo de alimentación, etc. Para cruzar un río no es suficiente saber que en promedio la profundidad del agua es 0.50 m; Es necesario conocer como varía la profundidad.

La variabilidad aparece en muchos procesos. La finalidad de la

Estadística es explicarla.

A partir del conocimiento de la variabilidad se podrá realizar inferencias, predecir, y muchas veces, controlar resultados. El estudio de la variabilidad se realiza a partir de la Probabilidad. En el segundo y tercer capítulos se introducen los conceptos básicos de esta teoría. Se indica en estos capítulos los modelos probabilísticos principales que servirán para representar situaciones en donde está presente la variabilidad.

En este primer capítulo se desarrollan métodos esenciales de la Estadística Descriptiva,

métodos que tienen que ver con la codificación, tabulación, representación gráfica y la síntesis numérica de datos que presentan variabilidad. Se estudian las técnicas básicas para organizar y presentar los datos antes de pretender cualquier interpretación. A partir de la Estadística Descriptiva, mediante gráficos y diagramas, se identifican los modelos probabilísticos que servirán para llevar a cabo la inferencia de las características de toda una población sobre la base de los datos recolectados

C.Véli

z

2. Estadística Descriptiva. Carlos Véliz Capuñay

1.2. POBLACION. UNIDAD DE ANALISIS. VARIABLE. Población, unidad de análisis y variable son conceptos sobre los que se basan las técnicas estadísticas para analizar los datos. Si se estudia la opinión que tienen los

peruanos respecto de una ley recién promulgada, la población será el Perú, cada una de los pobladores es una unidad de análisis y la variable está relacionada a la opinión acerca de la ley. Si se desea estudiar la variación de la edad de los habitantes de la región Sur, habrá que referirse a la población formada a los habitantes de la región Sur, a las unidades de análisis (cada uno de los pobladores de la región) y a la variable edad. Si se estudia el grado de conservación de los monumentos históricos de una ciudad, la población estará formada por los monumentos históricos de la ciudad, la unidad de análisis es cada uno de los monumentos históricos y la variable es el grado de conservación. Si para esta misma población y para estas mismas unidades de análisis se

estudia la antigüedad que éstos tienen, la variable es el tiempo que tiene cada uno de los monumentos. Lo anterior indica que una población no necesariamente estará formada por personas y que en ella pueden definirse una o más variables.

Población.

Cualquier conjunto A es una población y cada uno de sus elementos es

una unidad de análisis.

A cada unidad de análisis también se le llama unidad estadística o unidad experimental.

1.1. Ejemplo. El conjunto formado por todos los trabajadores que laboran actualmente en la industria textil de un país es una población. Cada trabajador es una unidad estadística o de análisis.

El conjunto formado por todos los artículos producidos por una fábrica es una población. Cada uno de los artículos es una unidad estadística o unidad experimental.

Cualquier subconjunto de una población se llama muestra. 1.2. Ejemplo.

Interesaba conocer si el programa de TV “0007”, que se propaga entre las 8 p.m. y las 9

p.m., tiene o no aceptación entre los televidentes del país. Para ello se propuso estimar la proporción de las personas que ven el programa entre todos los televidentes que tienen encendido su televisor en dicho horario. La estimación se realizó escogiendo sólo 165 familias entre todas las que acostumbran encender su televisor en el horario indicado. La población la constituyen todas las familias del país que encienden su televisor entre las 8 p.m. y las 9 p.m. Las 165 familias escogidas forman una muestra.

C.Véli

z

C a r lo s Vé l i z C ap uñ ay Es tad í s t i c a De sc r ip t i v a . 3

En Estadística interesan las poblaciones cuyos elementos tienen características comunes y que pueden traducirse en números. Esta idea tiene que ver con el concepto de variable.

Variable o carácter. Para referirnos a una característica de los elementos de una población, por ejemplo la edad, el lugar de procedencia, el coeficiente de inteligencia de un grupo de personas, o el peso de los artículos que produce una fábrica, se usa el concepto de variable o

carácter. Una variable es susceptible de adoptar distintos valores. Así, la variable edad

definida en la población “Región Sur” puede tomar los valores: 10, 50, 65, etc., años; la variable opinión, establecida para estudiar si los ciudadanos de una país están de acuerdo o no con una determinada ley, puede tomar el valor 1, si el poblador está de acuerdo, el valor 2, si no está de acuerdo y el valor 3, si su posición es indiferente.

El establecimiento de una variable es una de las etapas más importante de

toda tarea “estadística”. Mediante una variable el investigador cuantifica,

transforma en cifras las características de una cualidad de los elementos de la

población.

Para estudiar una característica de una población, se hace corresponder a cada unidad de análisis un número real. De ahí que

se define una variable, como una función X que a cada elemento de una

población le hace corresponder un número real.

A una variable, también se le llama carácter.

1.3. Ejemplo.

En la población determinada por todos los trabajadores de la industria del automóvil se puede definir la variable X, que a cada trabajador le asigna su edad correspondiente. En la misma población también se puede definir la variable Y, que a cada trabajador le asigna el número 0 si es soltero, el número 1 si es casado y el número 3 si es viudo o divorciado. La asociación de números en lugar de palabras que indican el estado civil del trabajador será muy útil en general, pues así se evita escribir las frases: soltero, casado, etc., ahorrando tiempo y espacio al escribir. 1.4. Ejemplo.

En la población formada por los artículos producidos en una fabrica, se puede definir la variable que a cada artículo le hace corresponder el número de defectos que tiene.

C.Véli

z


Variables y encuestas A menudo se realizan encuestas, a través de cuestionarios, para recoger información de una población.

Cada pregunta puede relacionarse con una variable, como en el caso siguiente: ¿Está usted de acuerdo con la ley antitabaco?. Las respuestas pueden ser: si, no, no sabe / no contesta. El entrevistado debe dar sólo una respuesta. Esta respuesta puede ser codificada, respectivamente, con los valores 1, 2 y 3, correspondiendo estos valores a una variable que puede llamarse “ley antitabaco”.

Otras veces, a una pregunta de un cuestionario están ligadas varias variables como en el siguiente ejemplo. ¿Cuáles de estos medios de transporte público usa para trasladarse a su centro de labores y con qué frecuencia?. Esta pregunta puede ser relacionada con dos variables: una de éstas puede llamarse bus,

la cual puede tomar los valores: 1, si viaja en bus y con gran frecuencia; 2, si viaja en bus y con poca frecuencia y 3, si no viaja en bus y la otra, que puede nombrarse con taxi y que se define de manera análoga a la anterior.

Si con gran

frecuencia Si con poca

frecuencia

No

Bus

Taxi 1 1

2 2

3 3

Matrices de datos. Los datos que se recogen de una población pueden escribirse en tablas formándose cuadros llamados matrices de datos. 1.5. Ejemplo.

En la siguiente tabla se presenta una serie de variables definidas en el conjunto formado

por los países: Perú, Colombia, Chile, Bolivia, Argentina, Venezuela, Brasil y Japón. En la tabla se indican las siguientes variables : número de habitantes en 1992 en millones (V1), superficie en miles de kilómetros cuadrados (V2), producto nacional bruto promedio por habitante (PNB) en dólares y para 1992 (V3), tasa media de inflación anual en porcentaje para 1980 - 1990 (V4), y esperanza de vida al nacer en años (V5).

Como referencia se indica los valores de cada una de las variables para toda la población mundial.

C.Véli

z


Se han indicado algunos elementos que son esenciales para su interpretación. Estos elementos son:

- el título de la tabla: INDICADORES BASICOS

- la fuente de la cual se ha extraído la información: Banco Mundial.

- signos empleados: el símbolo < indica "menor que".

- las unidades que se usan para representar las cifras: dólares, porcentajes, etc.

INDICADORES BASICOS

País

N.Habit.

(millón)

V1

Superficie.

(en miles de km2)

V2

PNB

(en $)

V3

Tasa inf.

(en %)

V4

Esper. vida

(en años)

V5

Perú

Colombia

Chile

Bolivia

Argentina

Venezuela

Brasil

Japón

22

32

13

7

32

20

150

124

1285

1139

757

1099

2767

912

8512

378

1160

1260

1940

630

2370

2560

2680

25430

233.9

24.8

20.5

317.9

395.2

19.3

284.3

< 5

63

69

72

60

71

70

66

79

Población

mundial

5284 133342 4200 14.7 66

Fuente: Banco Mundial. Informe sobre el desarrollo mundial 1992.

< 5 indica "menor que 5, "

En lo que sigue y cuando sea necesario, se tratará de que aparezcan los principales elementos que describen la tabla. 1.6. Ejemplo.

En la siguiente tabla se presentan los valores de la variable X que a cada uno de los nueve países indicados le hace corresponder la "inflación" en el mes de Octubre de 1993; esto es, la variación del promedio de los precios de los principales bienes con respecto al mes anterior. También se presentan los valores de la variable Y que a cada uno de los países que

aparecen en la tabla les hace corresponder la "inflación anual acumulada" durante el año 1993. (Los conceptos sobre inflación se explican más adelante).

C.Véli

z


INFLACION (Variación porcentual)

PAISES

X: Inflación Octubre 1993

Y: Inflación anual 1993

Brasil Venezuela

Ecuador Chile Uruguay Perú

Colombia Argentina Bolivia

34.12 5.00

5.13 2.60 2.18 1.50

1.06 0.60 0.51

2567.46 44.1

32.3 12.1 52.3 39.5

22.4 7.7 8.8

Fuente: INEI

1.3. ESCALAS DE MEDIDA. Tipos de escala. La asignación de números a los elementos de una población se hace siguiendo determinadas reglas y teniendo en cuenta los diferentes niveles de medida de la variable

en estudio. Así, a cada persona se le asigna su coeficiente de inteligencia, calculando previamente un número que corresponde a respuestas ante determinadas situaciones típicas. En general, cuando tal procedimiento se realiza se dice que se ha establecido una

escala de medida. El conocimiento de los diferentes tipos de escalas de medida permite una mejor aplicación de los métodos estadísticos, de ahí que sea importante su estudio. La tradicional clasificación en cuatro escalas fundamentales: nominales, ordinales, intervalares y de razón o cociente, fue realizada por S.S. Stevens (1946).

Escala nominal.

Se tiene una escala nominal si a todos las unidades estadísticas equivalentes respecto de la propiedad o atributo en estudio se les hace corresponder un mismo número real, que

funciona sólo como "etiqueta". Las operaciones que se puedan realizar con los números asignados a las unidades estadísticas, así como el orden que entre ellos se puedan establecer, no tienen significado en relación con el atributo que se mide. Con una escala de este tipo se consigue la agrupación de las unidades estadísticas en clases equivalentes

llamadas modalidades o categorías. La escala nominal es el tipo de escala más sencillo.

Con ella se logra una notación abreviada, por lo que su uso se ha incrementado con la aparición de la computadora. 1.7. Ejemplo.

Consideremos la población formada por todos los estudiantes de la universidad AA y en ésta, la variable sexo. Asignemos a los de sexo masculino el número 1 y a los de sexo femenino, el número 0. Se tiene así una escala nominal con las modalidades o

C.Véli

z


categorías: "masculino" y "femenino". Los elementos que forman la población han quedado agrupados en dos clases: los de sexo masculino y los de sexo femenino.

Es cierto que 1 es mayor que 0, pero no se puede decir lo mismo respecto de las personas de sexo masculino y femenino. A lo más se puede decir que la persona a la que se asignó el número 1 es diferente de la persona que se le asignó el número 0. También se tiene una escala nominal si a los estudiantes de Ciencias se les asigna el valor 1, a los de Derecho, el valor 2, a los de Sicología, el valor 3, etc. Tampoco se puede decir que un estudiante de Sicología es igual a un estudiante de

Ciencias más un estudiante de Derecho, aún cuando 3 = 1+2. El número de modalidades de una variable, cuyos valores corresponden a una escala nominal, depende de la información disponible. Por ejemplo, la variable "estado civil" definida en una población formada por miembros de una comunidad puede tener: - dos modalidades: casado y soltero;

- tres modalidades: casado, soltero, viudo o divorciado; - cuatro modalidades: casado, soltero, viudo o divorciado, no declara.

Escala ordinal.

Se tiene una escala ordinal, cuando el orden de los números asignados a las unidades estadísticas refleja diferentes grados de la propiedad o atributo en estudio. De modo que si la cifra asignada al elemento w es mayor que la asignada al elemento u, se puede inferir que w posee un mayor grado que u en la propiedad que se estudia. Los números asignados, según la escala ordinal, sólo tienen sentido en cuanto a orden se refiere. La diferencia entre los números asignados no necesariamente tiene significado. Así, el ordenamiento en categorías de los vendedores de una tienda, asignándoles el 1, al que logró las ventas más altas, el 2 al que logró ventas intermedias y el 3 al que logró las

ventas más bajas, no indica que la diferencia en ventas entre los vendedores de ventas bajas y los de ventas intermedias es igual a la diferencia en ventas entre los vendedores de ventas intermedias y los de vendedores de ventas altas, aún cuando 3 - 2 = 2 - 1.

1.8. Ejemplo.

Si al considerar la población formada por los alumnos del curso de Geografía se asigna a cada uno el orden de mérito, según las calificaciones que obtuvieron, se tendrá una escala ordinal. Si a un alumno se le asignó el número 5 y a otro se le asignó el número 8, se puede decir que el primer alumno está en mejor posición que el segundo pero no

podemos decir nada respecto a la diferencia 8 - 5 = 3.

C.Véli

z


1.9. Ejemplo.

Si se considera la población formada por todos los minerales que se producen en cierta

región y a cada uno de éstos le asignamos un número, de acuerdo al "grado de dureza" que poseen, la escala asignada es ordinal. Si al mineral a le asignamos el valor 2; al mineral b, el valor 4; al mineral c, el valor 10 y al mineral d, el valor 12; se puede decir que el mineral a es menos "duro" que el mineral b; que el mineral d es más "duro" que el mineral c; sin embargo, si al asignar las medidas sólo se tuvo en cuenta el orden de los valores, no se puede decir que la diferencia del grado de dureza que existe entre a y b es igual, a la diferencia del grado

de dureza que hay entre c y d. La diferencia que existe entre los números asignados no necesariamente tiene significación en esta escala.

Escala intervalar.

Se tiene una escala intervalar, cuando los valores asignados a las unidades estadísticas no sólo permiten que éstas puedan ser ordenadas, sino que además, las diferencias iguales entre éstos indican diferencias iguales en las cuantías de las propiedades a medir. Como ejemplo de escalas intervalares, tenemos las escalas de Fahrenheit y de Celsius (centígrada) para medir la temperatura. Para cada una de estas escalas, por ejemplo la de Celsius, los números más grandes significan mayor temperatura; el orden de los números asignados tiene significado, pero

también tienen significado expresiones como “la temperatura de hoy es 50 C más alta que la de ayer”. La diferencia entre las temperaturas tiene sentido. PROPIEDAD.

Una propiedad importante de este tipo de escalas indica que si para medir el mismo

atributo en tres elementos w w w1 2 3, , se usan, respectivamente, los números x x x

1 2 3, ,

en la escala intervalar E1 y los valores y y y1 2 3, , en una segunda escala intervalar E2,

entonces el cociente x x

x x

1 3

1 2

−

− es igual al cociente

y y

y y

1 3

1 2

−

−.

Se conoce, por ejemplo que

Grados centígrados Grados Fahrenheit

El agua se congela a

El agua hierve a

Temperatura de un

cuerpo A.

0

100

5

32

212

41

C.Véli

z

C a r lo s Vé l i z C ap uñ ay E s tad í s t i c a De sc r ip t i v a . 9

Observando los valores de la escala centígrada, se tiene que la razón de diferencias, 100 0

5 020

−

−= , es igual a la que se observa en los valores correspondientes de la escala

Fahrenheit, 212 32

41 3220

−

−= .

En general, la propiedad anterior, referente a la igualdad de la proporcionalidad de las diferencias de dos escalas diferentes, de manera equivalente, puede enunciarse de la siguiente manera: Si x e y son dos valores asignados al mismo elemento para medir la misma cualidad,

según dos escalas de intervalo diferentes, entonces entre estos valores se cumple la

relación lineal y a bx= +

y2

y1

y

Escala II

x2x1 x

Escala I

y = a + bx Se observa quey y

y y

x x

x x

−

−=

−

−

2

2 1

2

2 1

Figura 1.1 Así por ejemplo, entre los valores x, en grados centígrados, y los valores y, en grados Fahrenheit, se cumple:

y x= +32 9 5( / ) .

En estas escalas, el 0 no indica ausencia de temperatura, no tiene significado. Así, bajo ciertas condiciones, el agua se congela a 00 C y a los 320 Fahrenheit. La elección arbitraria del origen asignado en las escalas indicadas, tampoco permite decir, por ejemplo, que “300 es dos veces más caliente que 150.

1.10. Ejemplo.

Al asignarle a cada individuo de una población su edad, estamos considerando una escala intervalar. Si José, Tito, María y Juan tienen las edades: 2, 4, 10 y 12, respectivamente, se podrá decir que José es menor que Tito, etc., pero además se podrá indicar que la diferencia entre el tiempo vivido entre José y Tito es igual a la que existe entre el tiempo vivido por María y Juan. Podemos decir que “la distancia entre José y Tito es igual a la que existe entre María y Juan”. 1.11. Ejemplo.

La estatura de una persona corresponde a una escala intervalar.

C.Véli

z


Muchas veces, en el estudio del comportamiento humano se realizan diversas mediciones que no corresponden exactamente a escalas intervalares; sin embargo, suelen usarse como si lo fueran. Tal es el caso, por ejemplo, de mediciones de la inteligencia,

del rendimiento de una persona en Matemáticas, etc. Esto permite aplicar una serie de métodos de la Estadística que se aplican para escalas intervalares. Se puede decir que la escala intervalar es una escala cuantitativa y con ella pueden aplicarse muchos de los procedimientos estadísticos conocidos. Nótese que si para los valores 100 y 5 en la escala centígrada se realiza el cociente 100/5, el resultado es diferente al que se obtiene al realizar el cociente entre los valores

correspondientes en la escala Farenheit, 212 y 41. En general, la razón entre los valores para las dos escalas de temperatura no es constante. Sin embargo, esta propiedad se cumple para las escalas de razón, que a continuación se estudian.

Escala de razón.

La escala de razón o cociente, es una escala intervalar en donde los cocientes o razones de los números asignados reflejan los cocientes o razones en las cuantías de las

propiedades que se miden. Para este tipo de escalas, además del cociente entre los números asignados, tienen sentido el orden y las diferencias que entre ellos se puedan establecer. Es decir toda escala de razón es intervalar y ordinal. Así, una persona que gana $1200 tiene mayor “poder adquisitivo” que otra que gana $400. El orden en esta escala tiene sentido. También se puede indicar la cantidad que gana más el primero que el segundo. La diferencia entre los números asignados tiene sentido. Además los cocientes de los valores indicados tienen significación; tiene sentido, por ejemplo, la expresión “el primero gana tres veces más que el segundo”.

PROPIEDAD. Si x e y son dos valores asignados a un mismo elemento para medir la misma cualidad,

según dos escalas de razón diferentes, entonces entre estos valores se cumple la

relación y = bx.

y1

y

Escala II

x1x

Escala I

y = bx.Se observa que

y

x

y

x

1

1=

Figura 1.2

C.Véli

z

C a r lo s Vé l i z C ap uñ ay E s tad í s t i c a De sc r ip t i v a . 1 1

Según esta relación, el 0 tiene el mismo significado para cualquier escala de razón. Indica ausencia de la propiedad en estudio.

Si el salario de una persona se expresa en dólares (x) o en soles (y), entonces se cumple la relación y = 2.5x, si se supone que un dólar equivale a 2.5 soles. La constante 2.5

corresponde a lo que se denomina tipo de cambio. El cociente entre los salarios de dos personas expresados en dólares es igual al cociente de los mismos expresados en soles. Si dos personas ganan 200 y 300 dólares, respectivamente, entonces la razón entre los salarios, 300/200, es igual a la razón entre los salarios expresados en soles, 750/500.

1.4. CLASIFICACION DE LAS VARIABLES.

De acuerdo a la escala usada, las variables pueden ser: cualitativas o categóricas y

cuantitativas.

Variables cualitativas o categóricas.

Si para un variable, la asignación de valores sólo tiene sentido cuando se usa una escala

nominal u ordinal, ésta se llama variable cualitativa o categórica; así por ejemplo, el “lugar de procedencia” de un conjunto de personas, "el color" de los autos producidos por una fábrica, corresponden a variables cualitativas.

Variables cuantitativas.

Una variable se llama cuantitativa o también estadística si tiene sentido para las escalas

intervalar o de razón. Por ejemplo, la variable que a cada persona le hace corresponder su salario es una variable cuantitativa. La variable que a cada uno de los aparatos electrónicos producidos por una fábrica le asigna su tiempo de vida es una variable cuantitativa.

De acuerdo al conjunto de valores de la variable, éstas se clasifican en: discretas y

continuas.

Variables discretas

Una variable es discreta, si el conjunto de valores que puede tomar es finito o infinito enumerable. (Un conjunto es "infinito enumerable" si sus elementos se pueden contar). 1.12. Ejemplo.

La variable X, definida en la población formada por los trabajadores de la industria

automotriz y que indica "el número de hijos, es una variable discreta. Los valores que puede tomar esta variable sólo pueden ser los del conjunto discreto {0, 1, 2, 3, 4, ... , n}.

C.Véli

z


Una variable discreta cuyo conjunto de valores está formado por dos elementos, se llama

binaria o dicotómica.

Variables continuas.

Una variable es continua, si sus valores pueden ser cualesquiera de los elementos de un intervalo o de la reunión de intervalos.

1.13. Ejemplo.

La variable que indica el tiempo de vida de los aparatos electrónicos es una variable continua, la variable que indica la estatura de cada habitante de un país es una variable continua. Los valores que pueden tomar estas variables son no negativos. Para efectos de mejor estudio de estas variables, se considera que el intervalo en donde pueden variar los valores es [ , [0 +∞ .

Muchas variables estadísticas que teóricamente son continuas, en la práctica se expresan como variables discretas. Por ejemplo, la estatura de una persona es una variable cuantitativa continua pero por la limitación de los instrumentos de medición tal vez podamos expresarla, a lo más, en centésimas de milímetro.

Por otro lado, una variable cuantitativa discreta o continua, en la práctica, también

puede ser considerada como una variable cualitativa. Por ejemplo, si la edad de una persona se clasifica en: menos de 20 años, entre 20 y menos de 60 años y más de 60 años, se tendrá que esta variable puede tratarse como cualitativa con las modalidades correspondientes a: “joven”, “adulto” y “anciano”, respectivamente.

Las variables, de acuerdo al papel que cumplen en una investigación, pueden clasificarse

en independientes, dependientes y de control.

Variables independientes.

Una variable es independiente, (con relación a otra u otras) si sus valores influyen en

otra u otras variables.

Variables dependientes.

Una variable es dependiente si sus valores dependen de los valores que tiene una variable independiente.

Las variables independientes y dependientes también se llaman explicativas y explicadas, respectivamente.

Así, para ver como influye una droga A en el tratamiento de una enfermedad, el investigador aplica diferentes dosis al enfermo para observar si éste mejora o no. La variable cuyos valores son las distintas dosis de droga suministrada es una variable

C.Véli

z


independiente, mientras que la variable que indica el grado de mejoría del enfermo es una variable dependiente. En este caso, los valores de la variable independiente pueden ser manejados por el experimentador; otras veces esto no es posible, pues los valores de

la variable independiente son intrínsecas al individuo al cual se aplica. Así sucede cuando se considera la variable independiente “años de estudio” y la variable dependiente “sueldo”.

Variables de control.

Las variables de control ayudan a comprender la relación entre una variable independiente y una dependiente.

Algunas veces se puede observar que los valores de una variable aumentan (disminuyen)

cuando los valores de otra también aumentan (disminuyen); sin embargo, no es suficiente para indicar que la característica que mide una es la causa de la característica que mide la otra variable. En una encuesta se determinó que la altura de una persona y sus ingresos estaban relacionados: la gente más alta ganaba más; sin embargo, esto no fue suficiente como para indicar que la relación era “causal”. No se necesitaba ser alto para tener mejor remuneración, pues un estudio posterior, en donde se introdujo la variable sexo, indicó que los hombres eran más altos que las mujeres y que los sueldos de éstas, a pesar de la igualdad de condiciones de trabajo, eran más bajos que el de los

hombres. De este modo se determinó que las variables estatura y sueldo estaban relacionadas por su relación con la variable sexo. Existía tan sólo una relación espuria, de tipo práctico (relación estadística) pero no una relación de causa - efecto (relación

causal).

Las variables de control también se usan para entender una relación causal, cuya existencia no se discute. Así, para explicar por qué el grado de instrucción influye en la posición política de los electores de un país, se puede usar la variable de control “ingreso”, pues se piensa que las personas con mayores estudios ganan más dinero, y el

hecho de ser más o menos rico determina el comportamiento político de los electores de un país.

1.5. CLASIFICACION DE LA INFORMACION: Codificación y tabulación.

Muchas veces los números que se asignan a los elementos de una población se obtienen directamente, como por ejemplo cuando se recopila la edad de los pobladores de una región. Otras veces, la asignación de números se realiza a partir de las posibles respuestas que se obtienen al realizar el trabajo de observación; así por ejemplo, cuando se trata de obtener información sobre la opinión que un grupo de personas tiene acerca de una determinada ley, se escribe 0, si el poblador está de acuerdo; 1, si no está de

C.Véli

z


acuerdo y 2 si no sabe o no opina. La codificación de las respuestas da lugar a categorías o modalidades.

La codificación facilita la tabulación y el conteo y debe ser cuidadosamente realizada, pues de ella depende la obtención de una buena información. Determinadas sugerencias se hacen para obtener una buena codificación sobre todo cuando la recogida se hace sobre la base de cuestionarios.

Si el cuestionario comprende preguntas abiertas, (preguntas cuya respuesta es libre de parte de la persona que responde) éstas deben ser previamente clasificadas en categorías. Asignando de manera biunívoca un número a cada categoría se tendrá un código para cada respuesta.

Por ejemplo, ante la pregunta ¿cuál cree usted que pueden ser las consecuencias de una guerra para el país?, las respuestas pueden ser:

- Desastre económico. - No inversión de capitales.

- Retiro de capitales. - Retraso de la cultura.

- Pérdida de muchas vidas. - Emigración de la población.

- Desastre ecológico. - No sé.

- Me abstengo de contestar.

La categorización puede ser:

Para “Deterioro económico” (comprende las respuestas de tipo económico), el 1.

Para “Deterioro humano” (comprende las respuestas que tienen que ver con la vida y la

cultura), el 2.

Para “No hay respuesta” (comprende las respuestas: No sé y me abstengo de contestar),

el 3.

Para “otros” (comprende cualquier otro tipo de respuesta), el 4.

De este modo, el código que le corresponde a la respuesta “retiro de capitales” es 1; a “retraso de la cultura” le corresponde el código 2, etc.

Para formar categorías se recomienda:

• El análisis previo del objetivo de la investigación que se realiza. Así por ejemplo, si con la pregunta anterior deseamos conocer la proporción de personas que creen

C.Véli

z


que la consecuencia de la guerra tienen que ver con la economía, bastará con formar sólo las tres categorías siguientes:

1. Deterioro económico. 2. Otras consecuencias y 3. No sabe, no contesta.

• Estudios previos de la muestra de algunos cuestionarios. Estos nos darán las pautas

de las posibles respuestas y por lo tanto de las categorías que debemos formar. Algunas veces se realizan “investigaciones pilotos” antes de realizar toda investigación.

• Que las categorías contemplen todas las respuestas posibles. Existirán categorías principales, para las respuestas relevantes y categorías de tipo general que comprendan a las respuestas que no caen en las categorías principales.

• Que las categorías no se traslapen. Cada respuesta debe pertenecer a una única categoría.

• Que las categorías sean descritas de manera clara, tratando que sean lo más detalladas posibles y útiles en la investigación que se realiza.

• Que las categorías de tipo general no comprendan una gran cantidad de

respuestas. Se sugiere que cada categoría comprenda alrededor del 5% de todas las preguntas.

Cuando las preguntas son “cerradas”; esto es, cuando las respuestas posibles son especificadas de antemano, cada categoría se identifica con cada una de las respuestas

posibles.

Así por ejemplo, si la pregunta es ¿cuál es su región de procedencia? y las posibles respuestas son: 1. Costa, 2. Sierra y 3. Selva, se tendrán los siguientes códigos y categorías:

Código Categoría

1 Costa

2 Sierra

3 Selva

Como se ha indicado, las categorías que deben tomarse dependen de la investigación

que se desee realizar. Por ejemplo, ante la pregunta ¿cuál es su edad en años?, se puede usar tantas categorías como posibles respuestas existan o usar como categorías las siguientes:

C.Véli

z


Código Categoría

1 de 0 a 13 años

2 de 14 a 18 años

3 de 19 a más años

Esta codificación no será útil si, por ejemplo, el objetivo es determinar la edad promedio de los habitantes; sin embargo, ésta si será de utilidad si el deseo es, por ejemplo, analizar la relación que exista entre la edad y otra variable cualitativa.

1.6. PRESENTACION DE LA INFORMACION Tablas de distribución de frecuencias. Algunas veces la información requerida puede obtenerse directamente de los datos sin haber sido previamente tratados; muchas veces; sin embargo, es necesario agrupar los

datos y presentarlos en tablas y diagramas sencillos. Precisamente, las tablas de

distribución de frecuencias son cuadros que indican la distribución de un conjunto de datos en clases o categorías, y en donde se muestra el número de elementos y la proporción que en cada una de ellas existe. Una tabla de frecuencias describe la manera como están distribuidos o como varían los valores de una variable, permitiendo una buena ayuda para formularse interrogantes acerca de los datos y un punto de partida en la búsqueda de un modelo teórico para analizar tal distribución.

Los "paquetes computacionales estadísticos" disponibles en la actualidad son innumerables y muchos de ellos, aparte de realizar una serie de análisis, tienen excelentes presentaciones de gráficas y cuadros. Entre los paquetes estadísticos están: el SPSS, el STATGRAPHICS, el SAS, el BMDP, el STATPAC, el SYSTAT, etc. También existen otros tipos de "software", tales como el QUATRO, el EXCEL, etc., que sin ser de tipo estadístico, permiten la construcción de tablas y gráficos de frecuencias.

En secciones anteriores se utilizaron algunas tablas de distribución de frecuencia. En lo

que sigue se presentan de manera sistemática otros ejemplos.

Caso cualitativo. 1.14. Ejemplo.

Se considera la población formada por 50 personas y en ésta, la variable cualitativa sexo. Si existen 30 varones y 20 mujeres, se puede escribir la siguiente tabla de

frecuencias.

C.Véli

z


Modalidad Frecuencia Frec. relativa Frec. relativa

en porcentaje

Varón 30 30/50 = 0.60 60

Mujer 20 20/50 = 0.40 40

Total 50 1.00 100

En la tabla, la "frecuencia" indica las veces que se repite cada modalidad. La

"frecuencia relativa" de cada modalidad es igual a la frecuencia de la modalidad entre el total de observaciones. La frecuencia relativa puede expresarse en "porcentaje", tal como se indica en la última columna. La frecuencia relativa es útil para hacer comparaciones entre dos poblaciones diferentes. Por ejemplo, cuando se desea comparar la distribución de la variable sexo en la comunidad A y en la comunidad B.

En forma general, una tabla de frecuencias correspondiente a una variable cualitativa C con modalidades o categorías C1, ... , Ck, es de la forma siguiente y en donde

ni indica la frecuencia o las veces que se repite la modalidad Ci ,

T es el total de datos y

fi = ni/T es la frecuencia relativa de tal modalidad.

DISTRIBUCION DE FRECUENCIAS DE ACUERDO A LA VARIABLE C.

Modalidad de

la variable

ni fi = ni/T (ni/T)100%

C1 n1 n1/T (n1/T)100

... ... ... ...

Ci ni ni/T (ni/T)100

... ... ... ...

Ck nk nk/T (nk/T)100

Total T 1 100

Las frecuencias relativas pueden expresarse en porcentajes y el orden elegido para las

modalidades es arbitrario.

1.15. Ejemplo.

En una entidad estatal existen 18 abogados, 32 ingenieros, 45 topógrafos, 20 obreros y 15 secretarias. La distribución de los empleados de acuerdo a la variable "ocupación" aparece en la siguiente tabla, en donde 1 corresponde a “abogado”, 2, corresponde a “ingeniero”, etc.

C.Véli

z


Las frecuencias que se indican en las columnas de la tabla pueden representarse con

barras rectangulares o mediante sectores circulares.

Ocupación. ni ni/T (ni/T)100

(1): Abogados

(2): Ingenieros

(3): Topógrafos

(4): Obreros

(5): Secretarias

18

32

45

20

15

0.1385

0.2461

0.3462

0.1538

0.1154

13.85

24.61

34.62

15.38

11.54

TOTAL T = 130 1.0000 100.00

Se representa por ejemplo, las frecuencias ni utilizando barras rectangulares (figura 1.3.

a) y luego mediante sectores circulares (figura 1.3. b).

En el gráfico de barras, cada barra rectangular corresponde a una modalidad, tiene base constante y su altura puede ser medida en unidades de frecuencia o de frecuencia relativa. En la gráfica, para la modalidad "abogado" se tiene una barra vertical de altura igual a 18.

En los "sectores circulares", cada sector corresponde a una modalidad y su

correspondiente ángulo en el centro es θi = 360oni/T, en donde ni es la frecuencia en la

modalidad. A la modalidad "abogado", por ejemplo, le corresponde un sector circular cuyo ángulo en el centro es igual a (360)(18)/130 = 49.84o.

0

10

20

30

40

50

ABOG INGE TOPO OBRE SECR

ABOG

INGE

TOPO

OBRE SECR

(a) (b)

Figura 1.3 1.16. Ejemplo.

En la industria, para mejorar la calidad de un proceso, lo primero que generalmente se hace es reunir datos sobre la frecuencia de cada tipo de fallas. Así por ejemplo, en la fabricación de cierto tipo de piezas metálicas se detectaron las siguientes causas de fallas.

C.Véli

z


Causas de fallas Frecuencias

Herramienta gastada 12

Errores de operación 7 Mal diseño 3 Mala calidad del material 5. La representación gráfica se hace mediante un diagrama de barras como el que sigue.

12

7

3

5

1 2 43

1: Herram. gastada

2: Errores operacio.

3: Mal diseño

4: Mala calidad

Figura 1.4. Diagrama de fallas.

Caso cuantitativo discreto. 1.17. Ejemplo.

En una población formada por 100 lotes de 50 artículos cada uno, se consideró la variable cuantitativa discreta X = "número de artículos defectuosos en cada lote". Los resultados fueron: 1 5 4 2 3 4 5 3 5 4 2 4 5 6 4 5 2 5 3 2 4 6 3 4 5 1 6 3 2 5 4 3 6 3 5 7 2 5 4 2 7 4 6 5 2 8 3

3 6 4 2 4 3 4 8 1 5 3 7 3 7 2 4 1 3 5 3 8 4 6 5 4 5 4 5 4 5 2 6 3 4 3 5 2 3 4 3 1 4 5 4 4 7 4 6 2 6 2 4 5. La información puede organizarse como en la siguiente tabla

DISTRIBUCION DE 100 LOTES DE ACUERDO AL NUMERO DE ARTICULOS DEFECTUOSOS.

xi Computo ni fi=ni/T Ni Fi

1

2

3

4

5

6

7

8

|||||

||||| ||||| ||||

||||| ||||| ||||| |||

||||| ||||| ||||| ||||| |||||

||||| ||||| ||||| |||||

||||| |||||

|||||

|||

5

14

18

25

20

10

5

3

0.05

0.14

0.18

0.25

0.20

0.10

0.05

0.03

5

19

37

62

82

92

97

100

0.05

0.19

0.37

0.62

0.82

0.92

0.97

1.00

Total T = 100 1

C.Véli

z


en donde,

xi , corresponde a los distintos valores que puede tomar la variable,

ni , indica la frecuencia con que se repite xi (ej. la frecuencia para 3 es 18),

fi = ni/T , es la frecuencia relativa respecto del número total, T, de los datos. (ej. la frecuencia relativa para 3 es 0.18). Se presenta también en porcentajes (multiplicando cada valor por 100),

Ni , es la frecuencia acumulada. Es igual a la suma de las frecuencias de los valores que son menores o iguales a xi, (ej. la frecuencia acumulada para 3 es 5 + 14 + 18 = 37),

Fi , es la frecuencia acumulada relativa. Es igual a la suma de las frecuencias relativas de los valores que son menores o iguales a xi (ej. la frecuencia acumulada

relativa para 3 es 0.05 + 0.14 + 0.18 = 0.37).

En la tabla se ha incluido una columna de "cómputo". Las marcas facilitan el conteo. En la tabla se observa que los datos varían entre 1 y 8 y que la mayoría de los valores están entre 3 y 5. La representación gráfica de las frecuencias relativas fi, , por ejemplo, puede hacerse en un sistema de ejes coordenados cartesianos (figura 1.5), colocando en el eje de las X los distintos valores xi de la variable y en el eje de las Y, las frecuencias relativas.

Se obtienen así gráficos llamados de bastones. Para el ejemplo anterior la frecuencia relativa tiene la siguiente representación. Uniendo los puntos superiores de los “bastones” se tiene el polígono de frecuencias (en este caso relativas).

81 2 3 4 5 6 70

0.25

X

-

fi

Figura 1.5. Gráfico de bastones.

Cada una de las siguientes figuras puede usarse para representar a la frecuencia

acumulada relativa, Fi.

C.Véli

z


1

X

Fi

8 1 2 3 4 5 6 7

0.62

0.92

0.05

1

X

Fi

8 1 2 3 4 5 6 7

0.62

0.92

0.05

Figura 1.6 Gráficas de la frecuencia acumulada relativa

Los gráficos indican el punto de partida en la búsqueda del “mejor” modelo que servirá al estadístico para estudiar la variabilidad de los resultados.

Caso cuantitativo continuo. Para organizar datos de variables estadísticas continuas se procede como en el siguiente

ejemplo. 1.18. Ejemplo.

Se desea estudiar la distribución de 36 niños de acuerdo a su peso en kilos. Los datos fueron como sigue:

34.51 40.00 31.60 35.40 30.00 32.91 33.29 33.15 35.61 33.00 36.20 37.10

35.47 33.20 35.93 36.57 38.24 34.55 36.23 36.88 30.16 36.00 36.80 37.85 36.96 31.54 31.57 33.80 34.50 34.60 33.98 34.90 34.00 36.70 38.20 38.10

La variable en estudio es X = peso. Esta variable es continua. Si se sigue un procedimiento como el que se usó en el caso discreto, podría tenerse una tabla de hasta 36 líneas (una línea por cada valor diferente de la variable). Esto no es conveniente, por lo que se desarrolla el siguiente procedimiento.

Los valores indicados se encuentran comprendidos entre 30 y 40 y pueden ser clasificados en "clases". Estas se obtienen dividiendo el intervalo I = [30, 40] en subintervalos de longitud igual, para simplificar. Si se acuerda dividir el intervalo I en k = 8 subintervalos de igual longitud, se tendrá que cada subintervalo obtenido mide

h = x x

kmax min−

=−

=40 30

8 1.25.

en donde:

xmax = dato mayor, xmin = dato menor y k = número de subintervalos.

Al valor xmax - xmin se le llama recorrido o rango de la variable.

C.Véli

z


Los subintervalos pueden ser de longitudes diferentes, para mayor facilidad se usan de longitudes iguales.

Los subintervalos obtenidos se toman, por convención, cerrados por la izquierda y abiertos por la derecha, a excepción del último, que es cerrado en ambos extremos. Los

intervalos que así se forman se llaman intervalos de clase.

I1 = [30.00, 31.25[ I2 = [31.25, 32.50[

I3 = [32.50, 33.75[ I4 = [33.75, 35.00[

I5 = [35.00, 36.25[ I6 = [36.25, 37.50[

I7 = [37.50, 38.75[ I8 = [38.75, 40.00]

30 4031.25 38.7532.50 33.75 35.00 36.25 37.50

Figura 1.7

NOTA.

Si la longitud de cada intervalo de clase no es exacta, se aproximará por exceso; de este modo la reunión de los intervalos de clase cubrirá a todos los datos considerados. Los datos ahora pueden presentarse como en la siguiente tabla.

DISTRIBUCION DE LOS 100 VALORES DE LA VARIABLE PESO.

Intervalos xi ni fi Ni Fi

I1 30.6250 2 0.0555 2 0.0555

I2 31.8750 3 0.0833 5 0.1388

I3 33.1250 5 0.1388 10 0.2776

I4 34.3750 8 0.2222 18 0.4998

I5 35.6250 7 0.1944 25 0.6942

I6 36.8750 6 0.1666 31 0.8608

I7 38.1250 4 0.1111 35 0.9719

I8 39.3750 1 0.0277 36 1

En la tercera columna de la tabla se indica la frecuencia o número de datos que existen en cada intervalo de clase. Así, en el intervalo de clase I3 hay 5 datos.

En la segunda columna aparecen las marcas de clase que son los puntos medios de cada intervalo de clase. Se puede considerar que cada uno de estos valores es un representante

de los datos que caen en el respectivo intervalo de clase. En este sentido, se puede decir que 33.1250 se repite 5 veces, el valor 34.3750 se repite 8 veces, etc. De ello se deduce la importancia que tiene el escoger un número conveniente de intervalos de clase; si se eligen pocos, la longitud de cada intervalo de clase es grande y las marcas

C.Véli

z


de clase no son buenas representaciones de los valores que están en él; si se eligen muchos, la longitud de cada uno de ellos es pequeña, se logra así una mejor representación pero la organización de los datos requiere de mayor trabajo.

Los estudiosos de estos métodos han indicado diferentes reglas para determinar el número de intervalos de clase. Así, una de éstas dice que cuando el número de datos, T, es una potencia de 2 lo recomendable es tomar [1+3.3log10T] como número máximo de intervalos; esta regla se llama "de Sturges". Otra regla práctica para determinar el número de intervalos de clase aparece a continuación:

Número de observaciones Número de intervalos de clase

Menor que 25 5 o 6. Entre 25 y 50 de 7 a 14. Mayor que 50 de 15 a 20.

La cuarta columna de la tabla, indicada con fi, corresponde a la frecuencia relativa, e

indica la proporción de datos en cada intervalo. En la quinta columna aparece la frecuencia acumulada y la sexta columna, corresponde a la frecuencia acumulada relativa.

El valor de la frecuencia acumulada, Ni, en un intervalo de clase dado, se interpreta co-

mo el número de datos acumulados hasta ese intervalo, mientras que el valor de la

frecuencia acumulada relativa, Fi, indica la proporción de datos acumulados hasta el

intervalo respectivo. Una tabla así construida resalta las características importantes de los datos, aún cuando al formarla se pierde cierta información. Tabulados los datos es más fácil observar las características de variabilidad. En el

ejemplo, los datos varían entre 30 y 40. La mayor parte de los datos están entre 33.75 y 37.50. OBSERVACION. Si n es la frecuencia en el intervalo de clase [a, b[ y se considera que los datos se distribuyen de manera “uniforme” en ese intervalo, entonces podemos considerar, por ejemplo, que en el intervalo [a, c] contenido en [a, b], existen aproximadamente

nc a

b an' =

−

− datos

C.Véli

z


n

n’

a c b

Figura 1.8.

En efecto, usando la semejanza de triángulos se tiene que n

b a

n

c a−=

′−

, de donde resulta

lo antes indicado. En particular, si c es la marca de clase del intervalo, en [a, c[ hay n n' ( / )= 1 2 .

El resultado anterior se extiende para el caso de las frecuencias relativas De este modo si la frecuencia relativa en [a, b[ es f, entonces la frecuencia relativa en [a, c[ es f' = [(c -

a)/(b - a)]f. 1.19. Ejemplo.

La distribución de frecuencias de 80 alumnos, de acuerdo a sus notas de Historia es

ni f i Ni Fi

[10, 12[ 12 0.150 12 0.150

[12, 14[ 30 0.375 42 0.525

[14, 16[ 28 0.350 70 0.875

[16, 18] 10 0.125 80 1.000

Si se desea asignar el calificativo "excelente" al 5% de los estudiantes, ¿cuál es el valor aproximado de la nota A que se debe considerar como mínima para tener tal calificativo?.

Solución. En la tabla se lee que el 87.5% de estudiantes tienen nota inferior a 16. La nota A

buscada está en el intervalo [16, 18[. El 5% de los estudiantes debe tener notas comprendidas entre los valores A y 18.

Luego, 18 16

0125

18

0 05

−=

−

. .

A

Despejando, resulta que la nota a considerar, por encima de la cual existe el 5%, es A = 17.2 1.20. Ejemplo.

Las notas de N estudiantes están distribuidas tal como se indica en la siguiente tabla.

C.Véli

z


Notas fi

[8, 11[ f1

[11, 14[ f2

[14, 17[ f3

[17, 20] f4

Calcular las frecuencias relativas si el 40% de los estudiantes tienen notas menores que 12.5, el 80% tienen notas menores que 15.5 y el 85% tienen notas menores o iguales a 16.

Solución. Se tiene que

f f f f

f f la proporción de datos en es f

1 2 3 4

1 2 2

1

05 0 4 11 12 5 05

+ + + =

+ =. . ( [ , . [ . )

f f f la proporción de datos en es f

f f f la proporción de datos en es f

1 2 3 3

1 2 3 3

0 5 0 80 14 155 0 5

2 3 0 85 14 16 2 3

+ + =

+ + =

. . ( [ , . [ . )

( / ) . ( [ , [ ( / ) )

Resolviendo las ecuaciones, se tiene: f1 = 0.15, f2 = 0.5, f3 = 0.30 y f4 = 0.05.

HISTOGRAMAS Como en el caso discreto, las frecuencias de los conjuntos de datos que corresponden a variables continuas se representan gráficamente con la finalidad de obtener patrones que indiquen la variabilidad o distribución de los mismos. A menudo se usan curvas cuyas formas se obtienen a partir de los gráficos llamados histogramas.

Los histogramas se obtienen al yuxtaponer bandas rectangulares. Cada banda corresponde a cada intervalo de clase Ii. La base es el intervalo y la altura puede tomarse

proporcional a la frecuencia que se desea representar. Así, para representar la frecuencia

relativa, fi, cada altura puede tomarse igual a fi/li, en donde l

i es la longitud del

intervalo de clase correspondiente. De este modo se tiene que la suma de las áreas de las bandas es igual a 1 y el histograma es un histograma de frecuencias relativas.

4030 Ii

polígono de

de frecuencias

i

Ii

l

fi li/

Figura 1.9. Histograma correspondiente al ejemplo 1.17

C.Véli

z


OBSERVACION. A menudo se usa como altura de cada banda rectangular al lado de longitud fi, sobre todo si todos los intervalos de clase tienen la misma longitud. Cuando los intervalos de clase

son de longitudes diferentes, la altura de cada banda rectangular se toma igual a fi/li.

POLIGONOS DE FRECUENCIA.

Uniendo los puntos medios de los lados superiores de cada banda rectangular del

histograma se obtiene un polígono llamado polígono de frecuencias. (Figura 1.9) El polígono de frecuencias, como en el caso discreto, ayuda en la búsqueda de la curva o modelo teórico que mejor describe la variabilidad o distribución de los elementos de la población de acuerdo a la variable en estudio. A continuación se presentan de manera

"suavizada" diversas formas de polígonos de frecuencias. El gráfico que aparece en (a) indica que el grupo de datos se acumula a la izquierda; que

hay pocos datos con valores altos. Se dice que este tipo de polígono es sesgado con cola

a la derecha. De manera análoga, se puede decir que el gráfico que aparece en (b) es

sesgado con cola a la izquierda.

El gráfico que aparece en (c) corresponde a un histograma simétrico, indica que los datos están distribuidos de manera simétrica, que éstos están acumulados en su mayoría en la parte central mientras que a la izquierda y a la derecha del centro hay pocos. Las distribuciones con este tipo de gráficos son muy comunes y a menudo se llaman

“distribuciones normales”; sin embargo, para que las distribuciones tengan este calificativo necesitan ciertas condiciones adicionales, que estudiaremos posteriormente.

La gráfica (d) corresponde a una distribución bimodal; los datos están agrupados en dos sectores de la recta.

(a) (b) (c) (d)

Figura 1.10. Diversas formas de los polígonos suavizados de frecuencias.

1.21. Ejemplo.

En la siguiente tabla se presenta la distribución de 50 alumnos de un centro de educación superior de acuerdo a las calificaciones de una prueba de aptitud. El polígono de frecuencias absolutas y la curva que las suaviza aparecen a continuación. Se observa que es una gráfica asimétrica con una cola a la derecha.

C.Véli

z


DISTRIBUCION DE 50 ALUMNOS DE ACUERDO A LA VARIABLE "APTITUD"

Puntuaciones Frec. absoluta

[30, 40[

[40, 50[

[50, 60[

[60, 70[

[70, 80[

[80, 90[

[90, 100[

[100, 110[

[110, 120]

4

11

7

14

5

5

3

0

1

Figura 1.11. Polígono de frecuencias y su "suavización".

Las frecuencias acumulada absoluta y acumulada relativa de un grupo de datos se representan de manera análoga a las frecuencias absoluta y relativa. En este caso las bandas yuxtapuestas tienen altura igual al valor de la frecuencia acumulada correspondiente. (Figura 1.12).

La representación de un polígono de frecuencias acumuladas, por ejemplo, relativas, se

hace considerando que los datos se distribuyen de manera uniforme en cada uno de los intervalos de clase, de tal modo que en cada uno de éstos la frecuencia acumulada se puede aproximar con un segmento tal como AB en el intervalo [750, 1000[. Figura 1.13

a). La poligonal que se forma con los segmentos se llama ojiva. En la figura 1.13 b). se muestra la ojiva suavizada. Los diagramas de frecuencias acumulada son herramientas que se usan a menudo para descubrir corrimientos en los datos. Así, para comparar la calidad del aire en Enero y Julio para un grupo de ciudades se puede graficar las frecuencias acumuladas relativas

del número de días que tuvieron un índice de contaminación mayor que un determinado valor. 1.22. Ejemplo

La siguiente tabla corresponde a la distribución de los salarios de 25 obreros. Los valores que aparecen en la última columna corresponden a la frecuencia acumulada relativa.

DISTRIBUCION DE LOS SALARIOS DE 25 OBREROS.

Intervalos xi ni fi Fi

[250,500[ 375 2 0.08 0.08

[500,750[ 625 4 0.16 0.24

[750,1000[ 875 6 0.24 0.48

[1000,1250[ 1125 7 0.28 0.76

[1250,1500[ 1375 3 0.12 0.88

[1500,1750] 1625 3 0.12 1.00

Los histogramas para la frecuencia relativa y acumulada relativa son los siguientes:

5

10

15

-

-

-

20 -

30 120

Polígono de frecuencias

40 50 60 70 80 90 100 110

C.Véli

z


250

500

750

1000

1250

1500

1750

0.08

0.16

0.24

0.28

1 f

-

-

-

-

250

500

750

1000

1250

1500

1750

0.08

0.24

0.48

0.76

1 F

-

-

-

-

Figura 1.12. f: frecuencia relativa y F: frecuencia acumulada relativa.

La ojiva y su suavización se presentan a continuación.

250

500

750

1000

1250

1500

1750

0.08

0.24

0.48

0.76

1 F

-

-

-

-

(a)

A

B

Ojiva

1

x

x

F ( x )f

(b )

F (x )

Figura 1.13. (a) Ojiva. (b) Ojiva suavizada

1.23. Ejemplo.

Completar la siguiente tabla de distribución de frecuencias si el histograma correspondiente es simétrico, el 75% de los datos son mayores que 43.5 y los intervalos de clase son de igual longitud. (Se considera que n = frecuencia y N = frecuencia

acumulada).

n N

[a, b] n1

[b, c[ n1+5

[c, d[ 30

[d, e[

[e, f[

[60, h] 150

Solución.

Como la distribución es simétrica, se tiene que las frecuencias en los intervalos [d, e[, [e, f[ y [60, h] son: 30, n

1+5 y n

1, respectivamente.

C.Véli

z

C a r lo s V é l i z C a p u ñ a y E s ta d í s t i c a De sc r ip t i v a . 2 9

La frecuencia acumulada en el intervalo [60, h] es 150, luego,

150 = 2n1+ 2(n

1+ 5) + 2(30).

Desarrollando resulta n

1 = 20. A partir de este valor se obtienen las frecuencias

respectivas de los otros intervalos: 25, etc.

Obtenidas las frecuencias para cada intervalo se encuentran las frecuencias acumuladas que faltan: 20, 45, 75, 105, 130. Para obtener los extremos de los intervalos de clase, obsérvese que si A es la longitud de cada intervalo, el extremo izquierdo del primer intervalo es 60 - 5A. El histograma de

frecuencias acumuladas para los dos primeros intervalos de clase es como sigue.

n1 20=

n2 25=17.5

60-5A 60-4A 60-3A43.5

Figura. 1.14

Hasta b se han acumulado 20 datos (menos del 25%). Hasta c se han acumulado 45 datos (más del 25%). Luego, el valor 43.5, hasta donde existe el 25% de los datos, estará en el segundo intervalo.

Por semejanza de triángulos: 435 60 4

17.5 25

. ( )− −=

A A, de donde resulta que A = 5.

Los extremos del primer intervalo son 35 y 40, del segundo, 40 y 45, etc. 1.24. Ejemplo.

La siguiente tabla resume la distribución porcentual de 500 familias en función de su

renta. Como en los casos anteriores, los intervalos de clase incluyen el límite izquierdo y excluyen el derecho, a excepción del último intervalo. El histograma se ha construido de tal manera que el área de cada banda rectangular es igual a la frecuencia porcentual correspondiente. La suma de las áreas de todas las bandas rectangulares es igual a 100%. La altura del rectángulo con base el intervalo [7000, 10000[, por ejemplo, es de 15%/3 = 5% por cada mil dólares.

C.Véli

z


N iv e l d e in g %

[0 , 1 0 0 0 [ 1[1 0 0 0 , 2 0 0 0 [ 2[2 0 0 0 , 3 0 0 0 [ 3[3 0 0 0 , 4 0 0 0 [ 4[4 0 0 0 ,5 0 0 0 [ 5[5 0 0 0 ,6 0 0 0 [ 5[6 0 0 0 , 7 0 0 0 [ 5[7 0 0 0 , 1 0 0 0 0 [ 1 5[1 0 0 0 0 , 1 5 0 0 0 [ 2 6[1 5 0 0 0 , 2 5 0 0 0 [ 2 6[2 5 0 0 0 , 5 0 0 0 0 ] 9 0 5 1 0 1 5 2 5 5 0

R e n ta (m ile s d e d ó la res)

% p o r m il d ó la re s

1

2

3

4

5

6

Figura. 1.15

Cuando la variable en estudio es discreta y posee muchos valores, se usan también

histogramas. En tal caso, los intervalos de clase están centrados en los valores de la variable.

Histogramas y control sobre una variable. Uno de los temas a investigar que eligió un grupo de estudiantes de medicina fue el efecto del número de hijos que tenía una mujer sobre la presión sanguínea. Parecía natural comparar los histogramas de la presión sanguínea de grupos de mujeres con diferentes números de hijos y así se hizo. Si bien es cierto que se comparó grupos de mujeres con diferentes números de hijos, se presenta a continuación esbozos de la

suavización de los polígonos de frecuencias de grupos de mujeres con 2 y 4 hijos.

Con 2 hijos

Con 4 hijos

90 mm 160 mm

Figura. 1.16

Al parecer y según el gráfico, el número de hijos influye en el aumento de presión en las mujeres y podría concluirse que las mujeres con cuatro hijos tienen la presión más alta que las mujeres que tienen dos hijos; sin embargo, no se puede indicar que ello es una prueba de causalidad; es decir que sea el mayor número de hijos la causa del aumento de

la presión sanguínea en las mujeres, pues hay que tener en cuenta que generalmente las mujeres con mayor número de hijos tienen mayor edad y podría suceder que sea la edad un factor cuyos efectos se confunden con el tener hijos. Para poder estudiar con claridad el efecto del número de hijos era necesario efectuar comparaciones independientes para cada grupo de edad, esto es, establecer un control sobre la variable edad y así se pudo comprobar que no existía asociación entre el número de niños que una mujer había tenido y su presión sanguínea.

C.Véli

z


En muchas ocasiones un factor que cause confusión puede ser controlado, como se indicará más adelante mediante el empleo de las tablas de frecuencias.

Diagrama de tallo y hojas. Los histogramas y gráficos de bastones nos muestran la manera como varían los datos. Sin embargo, éstos no permiten la identificación de los datos que se han usado para ello.

El gráfico de tallo y hojas indica no sólo la manera como están distribuidos los datos sino que además los muestra.

El gráfico de "tallos y hojas” se construye, básicamente, partiendo las cifras que forman

al dato en dos grupos: uno con las primeras cifras para formar el tallo y el otro con las

cifras restantes para formar las hojas. Así por ejemplo, si tenemos el dato 68, la cifra 6 de las décimas corresponderá al tallo mientras que el 8, que es la cifra de las unidades, formará la hoja. El tallo y las hojas que se formen se dividen con una línea vertical.

Tallo Hojas

6 8

1.25. Ejemplo.

Representar, usando el diagrama de tallo y hojas, los siguientes datos correspondientes a las puntuaciones de un test de memoria.

21 22 32 36 38 42 44 44 46 46 46 48 51 52 54 55 56 64 65 70 82.

Solución. Tomando las decenas como tallos y las unidades como hojas resulta

2

3

4

5

6

7

8

1 2

2 6 8

2 4 4 6 6 6 8

1 2 4 6 5

4 5

0

2

En el diagrama se observa que existe cierta simetría en la dispersión; y que el valor 82 es discordante con el resto de datos. En el caso de datos que tienen cifras decimales, al construir el diagrama de tallo y hojas, el punto decimal se pierde, por tal razón se acostumbra indicar las unidades que los datos del tallo representan. 1.26. Ejemplo.

En el siguiente diagrama la indicación "Unidad = 0.01" significa que, por ejemplo, 41|2 representa al dato 4.12.

C.Véli

z


Unidad = 0.01 Ejemplo. 41|2 representa 4.12.

41

42

43

44

45

46

2 2

6 6 8

1 0 3 2 5 1

2 3

1

2

Si se indicara: "Unidad = 0.1", se tendría, por ejemplo, que 41|2 representa al dato 41.2.

1.7. EJERCICIOS.

1. Se ha indicado que el porcentaje de varones mayores de 20 años que no tienen empleo en una ciudad de 5

millones de habitantes es 6 %. Los resultados fueron obtenidos a partir de un cuestionario aplicado a 2000

personas de la ciudad, elegidas de entre las personas mayores de 20 años.

a) ¿Sobre qué población se ha realizado la encuesta?. ¿Cuáles son las unidades estadísticas?.

b) ¿Cuál ha sido la muestra utilizada?.

Rpta. Población: conjunto formado por las personas mayores de 20 años. Unidad estadística: cada

varón mayor de 20 años. Muestra: conjunto formado por los 2000 personas mayores de 20 años.

2. El gerente de ventas de una tienda de prendas de vestir desea saber cuál será la demanda de pantalones en el

próximo mes, así como las tallas que más demanda tendrán. Si el gerente dispone de un registro del total de

las ventas realizadas por la tienda durante los 10 meses anteriores y usa esta información como una muestra

para predecir las ventas del próximo mes, ¿cuál es la población?.

3. En los siguientes casos, indicar la población, las unidades estadísticas y el tipo de escala a usar si se trata

de:

a) Asignar a los distritos de la capital su código postal.

b) Asignar a las personas de una ciudad, el número de teléfono que poseen.

c) Asignar a cada profesor de una universidad su categoría (profesor auxiliar, profesor asociado o profesor

principal).

d) Asignar a cada par de ciudades de un país la distancia, en kilómetros, que existe entre ellas.

Rpta. a) Nominal b) nominal, c) ordinal, d) intervalar y de razón.

4. El censo de alumnos de una universidad considera las siguientes variables: Facultad, año de ingreso,

nacionalidad, tiempo de residencia en el país, número de semestres que lleva en la universidad, grado en la

escala de pensiones, grado de instrucción del padre, número de hermanos, ingreso mensual familiar

promedio. Clasifique las variables e indique el tipo de escala en que están medidas.

5. Un profesor propone a sus alumnos del curso de Aritmética, una prueba de 10 ejercicios de cálculo de

sumas. Si alguno de los ejercicios presenta, al resolverlo, algún error de cálculo, el profesor califica la

prueba con 0, de otro modo la califica con 1. ¿Qué tipo de escala empleó?.

Rpta. Ordinal.

6. Si el profesor del ejercicio anterior cuenta los ejercicios correctos y considera que tal número corresponde a

la “habilidad de cálculo”, ¿qué tipo de escala ha empleado?.

7. A los elementos w, y y z de una población se les asignó los números 8, 16 y 30 respectivamente, para medir

cierto atributo. Si en lugar del número asignado a w se le asignara el 20 y el número 40 a y, ¿qué número se

le puede asignar a z si las escalas usadas son:

C.Véli

z


a) nominales?. b) ordinales?. c) intervalares?.

Rpta. a) Cualquier número diferente de 20 y 40, b) Cualquier número mayor que 40, c) 75.

8. Ciento setenta y cinco médicos fueron clasificados de acuerdo a su especialidad. Los resultados fueron los

siguientes: de Medicina General: 25, de Pediatría: 50, de Medicina Interna: 80, de otras especialidades: 20.

Construir un diagrama de barras para ilustrar la distribución de los 175 médicos de acuerdo a su

especialidad.

9. En Marzo de 1995 la inversión extranjera en el Perú y de acuerdo al país de origen fue como sigue:

España 46% Países Bajos 6%

EE.UU. 16% Panamá 5%

Reino Unido 8% Chile 4%

Otros 15%.

a) Identificar la variable medida.

b) Representar usando un diagrama de sectores circulares, la información anterior

10. En Marzo de 1995 la inversión extranjera en el Perú de acuerdo al sector de destino fue como sigue:

Comunicaciones 45% Finanzas 6%

Minería 20% Comercio 5%

Industria 12% Otros 4%

Energía 8%

a) Identificar la variable medida.

b) Representar, usando un gráfico de barras, la información anterior.

11. Usando un diagrama de barras, mostrar la extensión territorial de los países Perú, Chile, Ecuador,

Argentina y Brasil.

12. Construir un diagrama adecuado que permita comparar la predilección de los estudiantes por las carreras

de ciencias en tres universidades si se tienen los siguientes datos:

Universida

d

Alumnos de

Ciencias

Total de

alumnos

A 150 2000

B 50 5000

C 140 3000

13. Los siguientes datos proporcionan los ingresos anuales en miles de dólares de 50 personas:

7.9 10.3 45.7 95 43.0 56.0 38.0 6.7 48.0 30.5 25.0 40.0 30.0 25.5 50.0 17.1 25.5 43.5 31.6 59.0

41.5 13.5 12.0 9.2 42.0 41.9 35.0 11.7 55.3 27.0 58.4 57.0 29.6 38.5 26.0 16.5 18.0 24.9 20.0

28.0 28.5 36.4 39.5 5.0 9.0 5.0 6.9 7.0 12.0 8.3.

a) Construir un histograma de frecuencias relativas con 6 intervalos de clase para los ingresos anuales.

b) Interpretar el histograma.

c) Usar las marcas de clase construido para estimar la proporción de ingresos que están entre 12500 dólares

y 52500 dólares.

d) Estimar la proporción de sueldos que están debajo de 50000.

e) Estimar la proporción de sueldos que están por encima de 40000.

14. Un censo realizado a 10 jefes de familia proporcionó los datos que aparecen en la siguiente tabla, en

donde

C.Véli

z


V1 = Procedencia, V2 = Edad, V3 = Estado civil, V4 = Sueldo, V5 = Número de hijos y V6 = Cantidad de

dinero que asigna en alimentación de la familia.

a) Indicar a que tipo pertenece cada una de las variables consideradas.

b) Para la variable "procedencia" construir una tabla de frecuencias y represente gráficamente la

distribución mediante una gráfico de barras y de sectores circulares.

c) Como en la parte b), para la variable "estado civil".

Familia V1 V2 V3 V4 V5 V6

1

2

3

4

5

6

7

8

9

10

P

P

L

P

L

L

L

P

P

P

32

28

45

38

49

50

30

32

52

49

S

C

C

C

S

V

S

C

C

V

600

700

650

850

900

1000

860

550

890

900

1

1

2

2

3

2

3

2

0

3

300

400

350

380

400

380

560

300

350

400

L = Lima, P = provincias, S = soltero, C = casado, V = viudo

Rpta. V1: Cualitativa, V2: Cuantitativa, continua, V3: Cualitativa, V4: Cuantitativa, continua, V5:

Cuantitativa, discreta, V6: Cuantitativa, continua.

15. El consumo de agua, en metros cúbicos, de 30 viviendas en el mes de Julio fue como sigue:

4.3 78 6.1 15.7 12.8 17.2 3.5 16.1 12.4 6.9 18.0 11.5 13.4 6.5 14.3 8.7 13.0 9.2 12.8 3.0 4.2

11.2 16.2 7 4.5 7.8 15.9 16.5 8.4 5. 9.

a) Construir una tabla de distribución de frecuencias usando 5 intervalos de clase y graficar: el histograma

de frecuencias relativas, el polígono de frecuencias relativas y la ojiva.

b) Indicar de manera aproximada el porcentaje de viviendas que consumieron entre 10 y 15 metros cúbicos.

c) Graficar la ojiva y usando ésta, indicar de manera aproximada, el porcentaje de viviendas que

consumieron entre 12 y 15 metros cúbicos.

16. El número de periódicos que un canillita vendió durante los últimos 24 días fue como sigue:

13 21 16 30 42 5 33 26 28 45 17 28 39 32 8 34 27 33 27 26 24 28 16 21.

¿Cuál es el porcentaje de días en los que el canillita vendió más de 20 periódicos?. Usar el método de los

intervalos de clase indicado para variables continuas, para obtener una tabla de distribución de frecuencias.

con cuatro intervalos de clase y responder la pregunta anterior. Comentar los resultados, con respecto a los

métodos usados.

Rpta. 75%.

17. Los salarios que una empresa ofrece a los practicantes oscilan entre $150 y $270 y se encuentran divididos

en cuatro intervalos de clase de igual longitud. Si se supone que los salarios se distribuyen de manera

uniforme, que el 40% de los practicantes ganan no más de $195, el 80% ganan $225 o menos y el 15%

gana más de $232.5,

a) ¿cuál es el porcentaje de practicantes en cada categoría o intervalo de clase?.

b) ¿Cuánto debe aumentar la compañía a cada practicante para que el 20% de ellos supere los $240 de

salario?.

18. Completar la siguiente tabla. Indicar los extremos de cada intervalo de clase.

C.Véli

z


Intervalos de

clase.

Marca de clase Frecuencia.

relativa

Frecuencia

acumulada. relativa

A .. 0.10 ...

B 6 ... 0.25

C ... 0.55 ...

D 14 ... 0.9

E ... 0.10 ...

19. En la siguiente tabla de distribución, un agente de seguros ha ordenado los datos mensuales

correspondiente a la cantidad de dólares de las pólizas de seguros que ha vendido durante los tres años

anteriores:

Venta mensual Frecuencia Venta mensual Frecuencia

[10000, 12000[

[12000, 14000[

[14000, 16000[

[16000, 18000[

2

4

7

5

[18000, 20000[

[20000, 22000[

[22000, 24000[

[24000, 26000]

6

8

2

1

a) Construir el histograma de frecuencias relativas

b) Construir el polígono de frecuencias relativas.

c) Indicar la ojiva correspondiente

d) Indicar las características de la distribución indicada.

20. El peso, en gramos, de 30 objetos de un mismo tipo fue como sigue.

21.3 15.8 18.4 22.7 19.6 15.8 26.4 17.3 11.2 23.9 26.8 22.7 18.0 20.5 11.0 18.5 23.0 24.6 20.1

16.2 08.3 21.9 12.3 22.3 13.4 17.9 12.2 13.4 15.1 19.1.

Construir un diagrama de tallo y hojas para los datos indicados. Indicar las características de la distribución.

21. La siguiente figura es un histograma que muestra la distribución de la presión sanguínea de un grupo de

mujeres que participaron en un estudio.

4

3

2

1

0

%

1 5 01 4 01 3 01 2 01 1 01 0 0 1 6 09 0

P r e s i ó n s a n g u í n e a .

Figura. 1.17.

a) ¿En qué intervalo hay más mujeres: en [135, 140] o en [140, 150] ?.

b) ¿Qué intervalo es más denso: [135, 140] o [140, 150]?.

c) ¿Cuál es el intervalo más denso de todo el histograma?.

C.Véli

z


1.8. METODOS NUMERICOS PARA DESCRIBIR DATOS. La naturaleza de los datos permite, en muchos casos, cierto tipo de análisis a partir de los gráficos de la distribución. Sin embargo, también es necesario considerar resúmenes

numéricos que permitan tener una mejor idea de la manera como los datos están distribuidos a lo largo de la recta. Estas características numéricas, que se estudiarán en

esta sección, se llaman estadígrafos. Los estadísticos han tratado de establecer estadígrafos que sean objetivos y fáciles de calcular. Algunas de estas medidas dependen de todas las observaciones y son muy sensibles a las fluctuaciones de éstas; ótras, sin embargo, no dependen de todas las

observaciones, siendo resistentes ante los cambios de los valores extremos. La mayor parte de los conjuntos de datos muestran una tendencia a agruparse alrededor

de un valor central. Estos valores, que de alguna manera tipifican al conjunto, se llaman

medidas de tendencia central. Entre estas medidas se tienen: la moda, la media

aritmética, la mediana, la media geométrica y la media armónica. Además de las medidas de tendencia central están las medidas que indican la dispersión

que se produce en torno del centro de los datos. Entre estas medidas se tiene: el rango o

recorrido, la varianza, la desviación estándar, el coeficiente de variación, los

intercuartiles, etc. La manera como están distribuidos los datos de un conjunto puede resumirse en lo que

se llama la simetría y el apuntamiento de la curva que los describe.

MEDIDAS DE TENDENCIA CENTRAL.

La moda.

Para un grupo de datos, correspondientes a una variable, la moda es el valor de la variable que más se repite.

La moda es el dato "más frecuente". Se denotará con M 0. (Figura 1.18 a).

1.27. Ejemplo.

Para el siguiente grupo de datos: 3 3 3 5 3 4 5 7 3 5 7 8 3 4 9 2 8 1, la moda es 3. 1.28. Ejemplo.

En la siguiente tabla se presenta la distribución de los valores de la variable “grado de instrucción” correspondiente a 40 personas. En esta tabla se observa que la categoría que más se repite corresponde al grado de instrucción secundaria, la cual se ha nombrado con el número 3. La moda es 3. La mayoría de las 40 personas tienen educación secundaria.

C.Véli

z


Grado de Instruc. Frecuencia

Analfabetos: 1

Primaria: 2

Secundaria: 3

Técnica: 4

Universit: 5

3

11

25

0

1

Un grupo de datos puede tener una moda, dos modas, etc. En tales casos la distribución

se llama, respectivamente, unimodal, bimodal, etc. La moda se puede usar para cualquier tipo de escala. Si los datos están agrupados en una tabla de intervalos de clase y corresponden a una variable continua, no será posible determinar exactamente la moda; pero sí el intervalo

de mayor frecuencia; a éste se le llama intervalo modal (Figura 1.18 b).

M0

a b

(a) Moda (b) [a, b] es el intervalo modal

Figura 1.18.

La media aritmética.

La media aritmética o simplemente media de un grupo de datos, caracteriza a los grupos de datos cuyo polígono de frecuencias presenta simetría y poca dispersión. Se define de la siguiente manera:

Si x1, ... , xn es un grupo de valores, la media aritmética o simplemente

media de estos datos es el número

xx x

n nx

ni

i

n

=+ +

==

∑1

1

1...

1.29. Ejemplo.

Los siguientes datos corresponden al tiempo, en minutos, que utilizan 30 empleados en realizar una tarea.

4.1 2.2 6.7 2.9 5.0 3.2 3.7 3.4 4.0 7.5 3.1 8.0 2.4 7.6 6.2 8.7 4.5 4.7 6.1 3.5 2.7 4.5 3.9 5.1 3.0 4.6 4.6 3.6 4.0 3.7.

C.Véli

z


La media es x =+ +

=41 37

304 5733

. ... .. .

OBSERVACIONES.

1. Observar que la media no necesariamente es uno de los datos.

2. La media aritmética resulta afectada por valores extremos que no son representativos del resto de los datos. Esto es una desventaja.

Si los valores x1, ... , xk se repiten, respectivamente, n1, ..., nk veces (n1 +... + nk = total de datos), entonces,

xx n x n

n nf x

k k

ki i

i

k

=+ +

+ +=

=

∑1 1

1 1

...

...

en donde fi = ni/n, (frecuencia relativa de xi).

A esta igualdad se le llama a menudo fórmula de la media para datos agrupados. Esta

expresión permite interpretar la media aritmética como una suma ponderada de los

diferentes datos del grupo. La ponderación de cada valor xi es fi. (Nótese que la suma de las ponderaciones es 1).

En general, dados los valores x x xk1 2

, , ... , , la media ponderada de éstos se define

como el número

x w xi i

i

k=

=∑

1

con wi

=∑ 1 ,

en donde w i es un “peso o ponderación” que indica la importancia relativa de la i-ésima

observación.

1.30. Ejemplo.

Para la confección de un artículo una compañía utiliza: 1 hora para armado y 5 horas para acabado. El salario por hora que paga la compañía es de $5 por hora para el armado y de $9 por el acabado. La compañía desea saber el promedio del costo de trabajo por hora para confeccionar dicho producto. El simple promedio aritmético de los salarios pagados por trabajo es

x =+

=5 9

27

C.Véli

z

C a r lo s V é l i z C a p u ñ a y E s ta d í s t i c a De s c r ip t i v a . 3 9

Utilizando este promedio, se tendría que el costo del trabajo realizado para confeccionar una unidad del producto es 7(1 + 5) = 42. Lo que es incorrecto.

Como se realizan diferentes actividades para confeccionar el producto, es obvio que ello debe tomarse en cuenta. El promedio correcto se puede determinar considerando que el costo total por el trabajo realizado es (5x1) + (9x5) = 49 y como se invierten 6 horas de trabajo, el costo promedio de trabajo por hora es 49/6 = 8.17 aprox. Se obtiene el mismo resultado si se considera que para confeccionar una unidad del producto es necesario 6 horas. Un 1/6 de ese tiempo es para el armado y 5/6 para el acabado. Utilizando estas fracciones como ponderaciones se tendrá que una hora de

trabajo realizado cuesta en promedio

(1/6)5 + (5/6)9 = 8.17 aprox. Se tiene que el costo promedio por hora para confeccionar un producto es la media ponderada de los valores 5 y 9. El aumento del precio de un bien puede ser “insignificante” para algunos pero “muy

importante” para otros. Si el aumento del precio del consumo de electricidad es 20%, el de la vivienda el 10% y el de la alimentación, el 3%, se tendrá que la media del aumento de los precios es 11%; sin embargo, para una persona que dedica el 1% de su sueldo a consumo de electricidad, el 9% a vivienda y el 90% para alimentación, el promedio del aumento de los precios es 3.80%; para otra persona que dedica el 10% de su sueldo a electricidad, el 40% a vivienda y el 50% a alimentación, el promedio es 7.5%. Si los datos están agrupados en intervalos de clase, la media se aproxima usando las marcas de clase, x ' :

xn

x ni ii

k

≈ ′=

∑1

1

,

1.31. Ejemplo.

En la siguiente tabla de frecuencias aparecen los intervalos de clase, las marcas de clase y la frecuencia de un conjunto de 17 datos.

Intervalos xi ni

[5 9[ 7 2

[9 13[ 11 4

[13 17[ 15 7

[17 21[ 19 3

[21 25] 23 1

Una aproximación de la media es

C.Véli

z


x ≈+ + + +

=2 7 4 11 7 15 3 19 1 23

1714 294

( ) ( ) ( ) ( ) ( ). .

La media no tiene significación si los datos, para los cuales se calcula, han resultado de aplicar una escala nominal u ordinal.

Propiedades de la media aritmética.

a) La suma de n datos es igual a n veces su media. Esto es,

x nxii

n

=

∑ =1

b) Si a cada uno de los datos se le suma una constante k, la media de los

datos transformados es igual a la media de los datos originales más la

constante k.

En particular, si a cada uno de los valores x1, ... , xn , se les resta la

media del grupo, la media de los nuevos valores es 0. Esto es,

( )x x

n

ii

n

−

==

∑1

0

c) De la relación anterior se tiene que la suma de las desviaciones de

cada dato respecto de su media es 0. Esto es,

( )x xii

n

− ==

∑ 01

d) Si a cada uno de los datos se les multiplica (divide) por una constante

k, la media de los datos transformados es igual a la media de los datos

originales multiplicada (dividida) entre la constante.

e) Si el conjunto de m datos, x1, ..., xm tiene media x y el conjunto de n datos, y1, ..., yn tiene media y , entonces el conjunto x1, ..., xm, y1, ..., yn,

tiene media

mx ny

m n

+

+ .

f) La media x de los valores x1, ... , xn corresponde al valor de a que hace mínima a la expresión

C.Véli

z


( ) ,x a ai

i

n− ∀

=∑ 2

1

.

Esto es, ( ) ( ) , .x x x a ai

i

n

ii

n− ≤ − ∀

= =∑ ∑2

1

2

1

Nota.

Obviamente, k x x k x a ai

i

n

ii

n( ) ( ) ,− ≤ − ∀

= =∑ ∑2

1

2

1

y para cualquiera valor de la

constante k. 1.32. Ejemplo.

El promedio de los precios de los artículos que conforman “la canasta familiar” en cierta ciudad es 400 unidades monetarias. Si cada artículo de la canasta aumenta el 10% de su precio entonces el nuevo promedio de los precios de la canasta es igual a (1.10)(400) = 440.

1.33. Ejemplo.

Si el salario promedio de las 20 mujeres que trabajan en una compañía A es 200 unidades monetarias y el de los 30 hombres que trabajan en la compañía B es 250 unidades monetarias, se tendrá que el salario promedio de las 50 personas que trabajan en ambas compañías es

( )( ) ( )( ).

20 200 30 250

20 30230

+

+=

1.34. Ejemplo.

En un grupo de personas conformado por obreros y empleados, la edad promedio es 32 años. La edad promedio de los obreros es 25 y la de los empleados, 35. ¿Cuál es el porcentaje de obreros y empleados?.

Solución. Si se denota con a al número de obreros y con b al número de empleados se tiene que

3225 35

=+

+

a b

a b.

Escribiendo A = a

a b+ y B =

b

a b+, resulta: 32 = 25A + 35B.

Considerando que A + B = 1, se tendrá: A = 0.3 y B = 0.7. Es decir, el 30% de las personas que conforman el grupo son obreros y el resto son empleados.

C.Véli

z


1.35. Ejemplo

En la siguiente tabla se indica el Producto Nacional Bruto (PNB) promedio por persona y la población en tres países.

País PNB ($) Población

Perú

Colombia

Bolivia

1160

1260

630

22 mill.

32 mill.

7 mill.

Fuente: Banco Mundial. 1992.

Se deduce que el PNB promedio por persona en los tres países es

PNB promedio = 1160 22 1260 32 630 7

22 32 7

( ) ( ) ( )+ +

+ + = 1151.63 dólares.

1.36. Ejemplo.

El costo por unidad para producir 3000 pantalones es 12 unidades monetarias, el costo por unidad para producir 5000 camisas es 10 unidades monetarias y el costo por unidad para producir 2000 sacos es 50 unidades monetarias. Hallar el costo promedio por

unidad de producción.

Solución.

El costo promedio de producción es

x =+ +

+ +=

12 3000 10 5000 50 2000

3000 5000 200018 6

( ) ( ) ( ). unidades monetarias.

1.37. Ejemplo.

El costo de producción de un artículo en cada una de las tres fábricas que una compañía tiene en la costa (C), en la sierra (S) y en la selva (U) es, respectivamente, 2, 2.3 y 2.5. En C se produce el 90% de los artículos que se producen en S, mientras que en U se produce 30% más artículos que en S. a) Hallar el costo promedio por artículo en las tres fábricas. b) Hallar el precio promedio de venta por artículo si el estado establece que se debe

ganar el 10% por artículo.

Solución.

Si x es la producción en S, entonces en C la producción es 0.9x y en U, 1.3x. La producción total es 0.9x + x + 1.3x = 3.2x. El costo de producción es 2(0.9x) + 2.3(x) + 2.5(1.3x) = 7.35x.

a) El costo promedio es 7.35x/3.2x = 2.2968.

C.Véli

z


b) Como el precio de venta es 1.10 × (precio de costo), el promedio del precio de venta es 1.10(costo promedio) = 1.10(2.2968) = 2.5265. 1.38. Ejemplo.

Tres poblados A, B y C (en ese orden), se encuentran situados a lo largo de una carretera recta. La distancia entre A y B es 15 km, entre B y C, 22 km. Se desea construir en un punto M de la carretera un centro de recreo de tal manera que al transportar a este centro 30 personas de A, 20 de B y 40 de C, el costo total por transporte sea mínimo. Hallar el punto M si el costo por transportar a cada persona de cada poblado es proporcional al cuadrado de la distancia recorrida.

Solución.

Asignemos las coordenadas 0; 15 y 37 a los poblados A, B y C, respectivamente. Si la coordenada de M es a, el costo total por transportar las 90 personas es

Costo k a k a k a= − + − + −30 0 20 15 40 372 2 2( ) ( ) ( ) , en donde k es la constante de

proporcionalidad.

Según la propiedad f), el valor de a que hace mínimo al costo es la media de los valores

0 0 0 15 15 37 37

30 20 40

, , ... , , , ... , , , ... ,

veces veces veces1 24 34 1 24 34 1 24 34

Luego la coordenada de M es a = 19.7777. El centro de recreo debe estar 4.7777 km. de la ciudad A.

La propiedad e) de la media puede extenderse de la siguiente manera: Si k conjuntos de

datos constan de n n nk1 2, , ... , observaciones y si tienen medias x x xk1 2, . , .. . , ,

respectivamente, entonces la media global de los k conjuntos es

x

n x

n

i ii

k

ii

k=

∑

∑

=

=

1

1

La media de un conjunto de datos se calcula a partir de todos ellos, por ello es necesario tener cuidado en el momento de hacer la interpretación correspondiente, pues los datos extremos pueden influenciar fuertemente en el resultado, desvirtuando de este modo la imagen real de la media aritmética. En la siguiente tabla se indica la distribución de 11 personas de acuerdo a su sueldo.

C.Véli

z


Sueldos (xi) Frecuencia (ni)

100

120

2000

3000

4

5

1

1

La media de los sueldos es x =+ + +

=100 4 120 5 2000 1 3000 1

11545 45

( ) ( ) ( ) ( ). ; sin embargo, 9

de las 11 personas tiene una remuneración menor o igual a 121. Los valores extremos 2000 y 3000 han influido grandemente en el resultado. (Si se construye el polígono de frecuencias de la tabla anterior, podrá notarse que éste tiene un sesgo con cola a la derecha). La observación anterior indica que si una distribución de datos tiene un sesgo (con cola a la derecha o con cola a la izquierda) es mejor utilizar otra medida de tendencia central que sea resistente a los valores extremos, tal como la mediana, que a continuación se

estudia.

La mediana.

Para un grupo de n datos ordenados, la mediana Me es el valor central,

si n es impar y es igual al promedio de los dos datos centrales, si n es

par.

Para establecer el concepto de mediana se ha hecho uso del orden de los números que representan a los datos, luego esta medida no tiene significación si los datos se obtienen

al usar una escala nominal.

Propiedades de la mediana.

a). La mediana Me es un valor que está en el centro de los datos. Esto

generalmente no ocurre con la media ni con la moda. Sin embargo,

cuando el polígono de frecuencias es simétrico, los tres valores coinciden

y están en el centro de los datos.

b). La mediana Me es una medida de centralización resistente. Al variar

uno de los datos que no sean los de la posición central, ésta no varía. Por

ello se usa para resumir grupos de datos en donde existen valores

excepcionalmente grandes o pequeños y cuya forma del polígono de

frecuencias no sea simétrica. 1.39. Ejemplo.

La mediana de los datos: 3 4 5 8 12 15 17, es 8, y la mediana de: 4 5 6 7 es 5.5.

C.Véli

z

C a r lo s Vé l i z C ap uñ ay Es tad í s t i c a De sc r ip t i v a . 4 5

Debajo de la mediana existe aproximadamente el 50% de los datos (Figura 1.19 (a)) Suavizando la ojiva de la frecuencia acumulada relativa se ubica la mediana de un

conjunto de datos correspondientes a una variable continua. (Figura 1.19 (b)).

M

50% 50%

e

(a)

1

F0.5

Me

(b) Figura 1.19

En el caso discreto siempre será posible determinar exactamente la mediana, ya sea que los datos se presenten de manera enumerativa o en una tabla de frecuencias. En el caso continuo y cuando los datos se presentan en una tabla de intervalos de clase no será posible determinar exactamente el valor de la mediana por cuanto no se tiene la información completa. Sin embargo, puede aproximarse como se indica a continuación.

Aproximación de la mediana para datos agrupados en una tabla de intervalos de clase. En una tabla de frecuencias de intervalos de clase, a partir de la frecuencia acumulada relativa se puede indicar el intervalo en donde se encuentra la mediana.

Suponiendo que la mediana Me

está en el intervalo [a b[ (hasta a la frecuencia

acumulada relativa Fa es menor que 0.5 y hasta b la frecuencia acumulada relativa Fb

es mayor o igual a 0.5), (Figura 1.20 a) y considerando la aproximación lineal de la parte de la gráfica de la ojiva F en el intervalo [a, b], el valor de la mediana se aproxima usando la semejanza de triángulos.

En Me

el valor de la frecuencia relativa es aproximadamente igual a 0.5, haciendo uso

de la semejanza de triángulos, se tiene

M a

b a

F

F F

e a

b a

−

−≈

−

−

05. o

M a b aF

F Fe

a

b a

≈ + −−

−( )

.05

C.Véli

z


a b

Fa

Fb

Ojiva de fr.ac.relativa

(a)

a M b

0.5

F

Fb

Fa

Ojiva en [a, b]

(b)

e

Figura 1.20.

en donde a es el extremo izquierdo del intervalo que contiene la mediana, b es el extremo derecho del intervalo que contiene a la mediana, Fa es el valor de la frecuencia acumulada relativa "hasta el extremo" a y Fb es el valor de la frecuencia acumulada relativa "hasta el extremo" b. 1.40. Ejemplo.

A partir de la información que se encuentra en la siguiente tabla de frecuencias no es posible indicar directamente el valor de la mediana Me; sin embargo, se puede decir que ésta se encuentra en el intervalo de clase [a, b[ = [14, 17[.

Interv. Clase xi ni fi Fi

[5, 8[ 6.5 3 0.125 0.125

[8, 11[ 9.5 6 0.250 0.375

[11, 14[ 12.5 2 0.083 0.458

[14, 17[ 15.5 9 0.375 0.833

[17, 20[ 18.5 3 0.125 0.958

[20, 23] 21.5 1 0.041 1.000

Se tiene que

M e 14≈ + (17 - 14)0 50 0 458

0 833 0 458

. .

. .

−

− = 14.336.

Otra propiedad de la mediana

c). Se puede demostrar que para un grupo de datos x1, ... , xn, la mediana

Me de éstos corresponde al valor que hace mínima la expresión

| |x ai

i

n−

=∑

1

, en donde a es un número real cualquiera.

C.Véli

z


Esto es,

| | | |x M x a a reali ei

n

ii

n

− ≤ − ∀= =

∑ ∑1 1

.

Relaciones entre la moda, la media y la mediana. Para distribuciones simétricas unimodales, la moda, la mediana y la media coinciden.

Para curvas de frecuencia que están sesgadas a la derecha o a la izquierda, la posición de la moda, de la mediana y la media se indican en la siguiente figura.

Mo

x

M0

x

Figura 1.21. Cuando la curva de frecuencias tiene cola a la derecha, M M xe0 ≤ ≤ .

Cuando la curva de frecuencias tiene cola a la izquierda, x M Me≤ ≤ 0

La media geométrica y la media armónica.

Dados los valores positivos x1, x2, ... , xn , se llama media geométrica

de éstos, al valor G x x xn

n=1 2

... .

Se observa que lnG es la media aritmética de ln(x1), ln(x2), ... , ln(xn)

Se llama media armónica de los valores x1, ... , xn , diferentes de 0, al

valor Hn

x

x

ii

n i= ≠

=∑

10

1

, ( ) .

OBSERVACIONES

1. La media armónica es el inverso de la media de los inversos de cada uno de los

valores. 2. Nótese que si los valores x1, ... , xk tienen frecuencias n1, ..., nk, respectivamente, (n1

+ ... + nk = n), entonces

C.Véli

z


H

fx

x

iii

k i= ≠

=∑

1

10

1

en donde fi = ni/n es la frecuencia relativa de xi. A esta expresión se le llama media

armónica ponderada. 1.41. Ejemplo.

Para el conjunto de datos 7 8 8 9 10 11, la media geométrica es

G = ( )( )( )( )( )( )7 8 8 9 10 116 = 8.7328,

mientras que la media armónica es

H =+ + + + +

=6

1 7 1 8 1 8 1 9 1 10 1 118 6346

/ / / / / /. .

1.42. Ejemplo.

En cierta región la producción de arroz, durante tres años consecutivos, aumentó respecto del año anterior en: 70%, 50%, 10%. ¿En qué razón promedio anual aumentó la producción?.

Solución. Si A es la producción inicial se tendrá que después del primer año, la producción es

(1.7)(A), después del segundo año, la producción es (1.5)(1.7)(A), y después del tercer año es (1.1)(1.5)(1.7)(A). Por otro lado, si llamamos con a a la razón anual promedio, se tendrá que después del primer año, la producción es (a + 1)A, después del segundo año, (1 + a)(1 + a)A, y

después del tercer año, (1 + a)(1 + a)(1 + a)A = ( )13

+ a A

Luego:

( )1 3+ a A = (1.1)(1.5)(1.7)A, de donde a = 0.41.

El aumento porcentual promedio es 41.00%. Se observa que 1+a es la media geométrica de las cantidades 1.1, 1.5, y 1.7. 1.43. Ejemplo.

Los precios de una acción de la bolsa de valores en tres días consecutivos fueron: A, 0.5A y A, respectivamente. Luego la variación de los precios con respecto al día anterior fue como sigue: -50% y 100%, respectivamente.

C.Véli

z


Un número adecuado para indicar la tasa de variación promedio de los precios de la acción no es la media aritmética de -50 y 100. ¿Por qué?. Procediendo como en el ejemplo anterior, se tiene que si r es la tasa promedio de variación, entonces

( )( . ) ( )1 1 1 05 1 2+ − = +A r A .

De donde r = 0. Luego, la tasa promedio de variación es 0. 1.44. Ejemplo.

Una persona recorre la distancia de A a B con una velocidad de 30 km./h; otra persona recorre la misma distancia con una velocidad de 60 km./h. ¿Cuál es el "promedio" adecuado de las velocidades de las dos personas?.

Solución. Si la distancia de A a B es e km, entonces la primera persona utiliza e/30 horas para recorrer la distancia de A a B y la segunda persona, e/60.

La velocidad "promedio" es 2e/[(e/30) + (e/60)] = 2/[(1/30) + (1/60)] = 40. (Es la media armónica de las cantidades 30 y 60).

MEDIDAS DE DISPERSION Dos grupos diferentes de datos pueden tener iguales medidas de tendencia central; sin

embargo, las características de su distribución pueden ser diferentes. Un grupo de datos puede tener mayor o menor dispersión que el otro con respecto de la medida central. Precisamente, para interpretar mejor los datos se construyen medidas de dispersión o estadígrafos de dispersión.

Las medidas de dispersión ilustran sobre la manera como varían los datos observados alrededor de una medida de tendencia central, indican como están concentrados los datos alrededor del parámetro de centralización, permiten comparar una información con otra y ayudan a verificar si determinadas medidas de tendencia central son o no significativas.

Por ejemplo, cuando la dispersión es muy grande la media aritmética no tiene mucha significación; sin embargo si la dispersión es baja, la media adquiere significación. Entre

las medidas de dispersión están: el recorrido o rango, la varianza, la desviación

estándar, el coeficiente de variación, los intercuartiles, etc.

El recorrido o rango.

Aunque de uso muy limitado, el recorrido o rango de un conjunto de datos es la

diferencia entre el dato mayor y el dato menor. Por ejemplo, si los datos de cierta variable son: 23, 24, 24.5, 24.6, 24.7, 24.9, 25, 26,9, 27, 28, 100, el rango es, como en el caso anterior, 100 - 23 = 77.

C.Véli

z


Sin embargo, puede observarse que la forma como están distribuidos los datos no es la misma en ambos casos. En el segundo caso, los datos están más agrupados hacia el dato menor. Esto muestra que el rango no indica la manera como están distribuidos los datos.

La varianza y la desviación estándar.

Si x1, ... , xn es un conjunto de datos con media aritmética x , la varianza

de los n datos, se denota con s '2, o con V y se define como

sn

x xii

n

' ( )2

1

21= −

=

∑ .

La varianza es el promedio de las desviaciones al cuadrado de los datos respecto de su media. Indica la manera como los datos están dispersos alrededor de la media.

La raíz cuadrada positiva de la varianza se llama desviación estándar. Se denota con s' .

La desviación estándar representa, aproximadamente, el promedio de las desviaciones de cada uno de los datos respecto de su media aritmética. Como se notará más adelante, la mayor parte de los datos estará a una distancia de una desviación estándar de la media. Muy pocos estarán más allá de dos o tres veces la desviación estándar.

La media de 1, 3, 5 y 7 es 4 y su varianza, V =− + − + − + −

=( ) ( ) ( ) ( )1 4 3 4 5 4 7 4

45

2 2 2 2

.

La desviación estándar es 2.2360.

NOTAS. 1. La varianza se expresa también como

sn

x xii

n

'2 2

1

21= −

=∑

Esta fórmula se justifica pues,

sn

x xn

x x x xn

x xii

n

ii

n

ii

n

i

n

ii

n

' ( )2

1

2 2

1 1

2

1

2

1

21 12

1= − = − +

= −

= = = = =∑ ∑ ∑ ∑ ∑ .

2. Si x1 se repite n1 veces, ... , xk se repite nk veces; la varianza puede escribirse como

C.Véli

z


′ =

−

= −=

=

=

=

∑

∑

∑

∑

s

x x n

n

x n

n

xi i

i

k

jj

k

i ii

k

jj

k

2

2

1

1

2

1

1

2

( )

( ) ,

1.45. Ejemplo.

En la siguiente tabla de distribución de frecuencias

xi 3 5 7

ni 10 15 9

la media aritmética y la varianza son:

x = [10(3) + 15(5) + 9(7)]/[10 + 15 + 9] = 4.9412 y

s ' ( . ) ( ) ( . ) ( ) ( . ) ( ). .2

2 2 23 4 9412 10 5 4 9412 15 7 4 9412 9

10 15 92 2316=

− + − + −

+ +=

Si n datos están agrupados en k intervalos de clase y en cada intervalo hay ni datos,

usando las marcas de clase x i' , se obtiene la siguiente aproximación de la varianza:

s

x x n

n

i ii

k

'

( )2

2

1=

′ −=∑

.

1.46. Ejemplo.

Para los datos, cuya distribución se muestra en la siguiente tabla, hallar la media y la desviación estándar de manera aproximada.

Inter. de clase marca de

clase

x'i

frecuenc.

ni

[2, 4[

[4, 6[

[6, 8[

[8, 10[

[10, 12]

3

5

7

9

11

5

7

10

4

2

Solución.

Usando las marcas de clase se tiene que

x

x n

n

i ii

k

≈ =+ + + +

+ + + +==

∑ '( ) ( ) ( ) ( ) ( )

.1 3 5 5 7 7 10 9 4 11 2

5 7 10 4 26 3571 .

C.Véli

z


s

x x n

n

s

i ii

k

'

( ' )( . ) ( ) ... ( . ) ( )

.

' . .

2

2

12 23 6 3571 5 11 6 3571 2

2851581

2 2711

≈

−

=− + + −

=

≈

=∑

NOTA. Otra forma de medir la dispersión de los datos, es mediante la varianza muestral que se define con

( )x x

n

ii

n−

−=∑ 2

1

1.

PROPIEDADES DE LA VARIANZA. A partir de la definición de la varianza se pueden deducir las siguientes propiedades:

a) La varianza es un número no negativo. b) Si todos los datos son iguales a una constante c, su varianza es igual a 0. (En este caso la media es igual a c). No hay dispersión.

c) Si a cada uno de los datos x1, ..., xn se les suma una constante b,

entonces la varianza de los datos transformados: x1 + b, ... , xn + b es

igual a la varianza de los datos originales.

d) Si a cada uno de los datos x1, ... , xn se les multiplica por una constante

k, entonces la varianza de los datos transformados: kx1, ... , kxn es igual a

la varianza de los datos originales multiplicada por el cuadrado de la

constante. Esto es, si la varianza de los datos originales es s '2 entonces la

varianza de los datos transformados es k s2 2' .

e) Si el conjunto de m datos: x xm1

, ... tiene media x y varianza sx'2 ,

mientras que el conjunto de n datos: y yn1

, ... tiene media y y varianza

sy'2 , entonces el conjunto de datos x x y y

m n1 1, ... , , ... , tiene varianza

sms ns

m n

m

m nx M

n

m ny M

x y'

' '( ) ( )2

2 22 2=

+

++

+− +

+− ,

en donde M es la media del conjunto x x y ym n1 1

, ... , , ... , .

C.Véli

z


Si las medias x e y son iguales, entonces

sms ns

m n

x y'

' '2

2 2

=+

+

f) Existe una propiedad muy importante, llamada de Chebyshev, que permite la interpretación de la desviación estándar:

Para cualquier conjunto de datos con media y desviación estándar muestral x s y ' , respectivamente, la proporción de datos que caen en el

intervalo [ ' , ' ]x ks x ks− + , en donde k = 1, 2, ... , es mayor o igual a

1 12

− ( / )k .

Así, en el intervalo [ ' , ']x s x s - 2 + 2 por lo menos hay el 75% de los datos,

en el intervalo [ ' , ']x s x s - 3 + 3 por lo menos hay el 89% de los datos. 1.47. Ejemplo.

Aplicando las propiedades de la varianza, el lector puede observar que, si x1, ... , xm , es un conjunto de datos cuya varianza es V X , entonces, el conjunto de datos y1, ..., ym ,

obtenidos al realizar la transformación y ax bi i

= + , en donde a y b son constantes,

tienen media, varianza y desviación estándar

xY = ax b+ , V a VY X= 2 , s a sY X' | | '= , respectivamente.

1.48. Ejemplo.

N estudiantes se matricularon, cada cual, en un número de créditos cuya media y varianza son iguales a: 19.4 y 1.84, respectivamente. Si cada estudiante pagó el costo fijo de $20, más $60 por cada crédito, ¿cuál es la media y la varianza de los pagos que realizaron los estudiantes?.

Solución.

Si el número de créditos en que se matricularon los estudiantes es: x x x N1 2, , ... , .

Los pagos realizados son: 20 + 60( x1), 20 + 60( x2 ),... , 20 + 60( xN ).

Aplicando las propiedades del ejemplo anterior se tiene que la media y la varianza de los pagos realizados son, respectivamente,

20 + 60(19.4) = 1184 y (60)2(1.84) = 6624.

1.49. Ejemplo.

En un salón de clase estudian hombres y mujeres. El promedio general en el curso de Estadística es 25 y la desviación estándar, 5. La media de las notas en el grupo de los

C.Véli

z


varones es 27 y la desviación estándar, 4. Si la media en el grupo de las mujeres es 22, hallar la desviación estándar en este grupo.

Solución. Denotemos con M al grupo de las mujeres, con H al grupo de los hombres, con m al número de mujeres, con h al número de hombres y con t al total de personas (t = m + h). De los datos se tiene:

x media general desv est general

x media hmbr desv est hmbr

x media muje desv est muje

G G

H H

M M

= = = =

= = = =

= = = =

25 5

27 4

22

, . .

. , . . .

. , . . ?

σ

σ

σ

Hallaremos la varianza en el grupo de las mujeres: σM i

MM

m x x2 2 21= −∑( / ) ( ) (1)

A partir de los datos se tienen las siguientes relaciones:

2527 22

=+h m

t (2)

25 25 25

2

2

2 2

2= − =

+

−

∑ ∑ ∑x

t

x x

t

iG

iH

iM

( ) ( ) (3)

16 27

2

2= −

∑x

h

iH

( ) (4)

De (3) y (4), se tiene que x t hiM

2 2 225 25 16 27∑ = + − +[ ( ) ] [ ( ) ] (5)

Reemplazando en (1), resulta

σ M

t h

m

2 2650 74522=

−− ( ) (6)

De (2) y considerando que m + h = t, se obtiene t/m = 5/2 y h/m = 3/2. Luego,

σ M

t h

m

2 2650 74522=

−− ( ) = 650(5/2) - 745(3/2) - 484 = 23.5.

La desviación estándar de las notas en el grupo de las mujeres es 23 5. = 4.8476.

1.50. Ejemplo.

Se han registrado durante 30 días, el número de viajeros que hacen reservaciones a una agencia de viajes pero que no las hacen efectivas:

C.Véli

z


12 18 14 12 10 10 20 9 19 15 18 16 16 16 14 18 16 18 14 19 19 15 13 15 13 18 12 17 14 14.

La media del número de pasajeros que hacen reservaciones y no las hacen efectivas es igual a 15.1333 y la desviación estándar es 2.8952. En el intervalo [9.3429, 20.9237], que tiene la media como centro y dos desviaciones estándar muestrales como radio, existe, según Chebyshev, el 75% de los datos, por lo menos.

Demostración de la propiedad de Chebyshev. Se desea demostrar que para un conjunto de datos, x xn1 , ... , , la proporción de datos que

existen en el intervalo [ , ]x ks x ks− ′ + ′ es por lo menos 1 - (1/k2).

Al conjunto de datos que están dentro del intervalo lo llamaremos con D y al conjunto de los datos que están fuera con F. Llamando con a al número de datos en F, se tiene:

′ =

− + −

≥

−

>

′

=′∈ ∈ ∈ ∈

∑ ∑ ∑ ∑s

x x x x

n

x x

n

k s

n

ak s

n

ixi D

ixi F

ixi F xi F2

2 2 2 2 2

2 2( ) ( ) ( )

,

de donde resulta, tomando los extremos, ′ >′

sak s

n

22 2

o 12k

a

n> .

La última relación indica que la proporción de datos que están fuera del intervalo es menor que 1/k2. Por tanto la proporción de datos que están dentro del intervalo es mayor o igual a 1 - 1/k2.

1.51. Ejemplo.

N datos correspondientes a la producción diaria de gasolina de una planta

tienen media 150000 galones con una desviación estándar de 1000 galones. a) Hallar la proporción de días cuya producción de gasolina está entre 148000 y 152000. b) Si se sabe que la menor producción es 147000, calcular un intervalo que contenga por lo menos 90% de los datos. c) ¿Con qué frecuencia se puede decir que la producción será mayor que

157000 galones diarios?.

C.Véli

z


Solución.

a) El intervalo [148000, 152000] corresponde a [ ,x ks x ks− ′ + ′] con x = 150000

, ′s = 1000 y k = 2. Aplicando la propiedad de Chebyshev con k = 2, se tiene que la proporción de días cuya producción está en el intervalo indicado es por lo menos igual 1 -

(1/k2) = 0.75. b) Un intervalo que satisface lo pedido es uno de la forma [ ,x ks x ks− ′ + ′] donde

k es tal que 11

0 902

− =k

. . Luego k = 10 = 3.1622 y [ ,x ks x ks− ′ + ′] =

[146837.80, 153162.20]. Como la menor producción es 147000, un intervalo que satisface la condición

es [147000, 153162.20].

c) La distancia entre 157000 y la media de la producción expresada en desviaciones estándar de la misma es

157000 150000

10007

−= .

Esto indica que 157000 está a 7 desviaciones estándar de la media.

Aplicando la propiedad de Chebyshev, se tiene que la proporción de días cuyo producción está en el intervalo [150000 - 7(1000), 150000 + 7(1000)] =

[143000, 157000] es por lo menos 11

11

71 0 0204 0 9796

2 2− = − = − =

k. . .

Como la menor producción es 147000 podemos decir que la producción será mayor que 157000, en el (1 - 0.9796)100% = 2.04% de los días, a lo más.

Datos tipificados o estandarizados Si a cada elemento de un grupo de m datos, x x

m1, ... , se les resta su media y a este

resultado se le divide entre su desviación estándar, entonces se dice que éstos se han

estandarizado o tipificado. Las expresiones estandarizadas de los datos anteriores son:

x x

s

x x

s

m1− −

', ... ,

'

C.Véli

z


Las expresiones estandarizadas permiten describir la posición relativa de una medida particular en un conjunto de datos y sirven para realizar comparaciones. Para ilustrar, supondremos que en el aula A la media de las notas de Matemáticas es 13 y la

desviación estándar es 2, mientras que en el aula B las notas de Matemáticas tienen media 16 y desviación estándar 1. Si Juan, que estudia en el aula A, tiene la nota 12, y Pedro, quien estudia en el aula B, tiene la nota 14, entonces se tendrá que, dentro de cada uno de sus salones, Juan estará en mejor posición en su salón que Pedro en el suyo, ya que la nota estandarizada de Juan (-0.5) es mayor que la nota estandarizada de Pedro (-2).

Nótese que, en virtud de las propiedades de la media y de la varianza, para cualquier conjunto de datos estandarizados su media es 0 y su varianza es 1.

Coeficiente de variación.

El coeficiente de variación se define como

CVs

x=

'

Este coeficiente expresa la desviación estándar en “medias aritméticas”; también se indica en porcentaje y a menudo se usa para comparar la variabilidad de dos o más conjuntos de datos que están expresados en diferentes unidades. El grupo de datos que

tiene el mayor coeficiente de variación, es el que tiene la mayor dispersión. Si las medias de los dos grupos son iguales, entonces el grupo que tenga mayor desviación estándar será el de mayor variación o dispersión. Así por ejemplo, para cada grupo de datos: 0, 1, 2, 3, 4, y 50, 75, 100, 125, 150, las desviaciones estándar son 1.4142 y 35.3553, respectivamente; sin embargo, no se puede decir que en el segundo grupo existe mayor dispersión que en el primero. Los coeficientes de variación son: para el primer grupo, CV1 = 0.7071 (70.71%) y para el

segundo grupo, CV2 = 0.3535 (35.35%), indicando que en el primer grupo existe mayor dispersión, que en el segundo. El coeficiente de variación tiene sentido para la escala de razón. 1.52. Ejemplo.

Una serie de mediciones de la temperatura de un cuerpo realizadas con el termómetro A, tiene media 12.01 y desviación estándar 0.027; mientras que con otro termómetro B, la

media de las mediciones fue 11.97 y la desviación estándar, 0.014. Suponiendo que la persona que opera los instrumentos no introduce sesgo alguno en las mediciones, ¿cuál es el termómetro relativamente más consistente?.

C.Véli

z


Solución. El termómetro más consistente es el que tiene menor coeficiente de variación. El

coeficiente de variación del termómetro A es 0.0022 (0.22%), mientras que para el termómetro B este coeficiente es 0.0012 (0.12%). El termómetro B es más consistente. 1.53. Ejemplo.

En una entidad estatal los sueldos de los directivos, de los empleados y de los obreros son como aparece en la siguiente tabla.

Media Desv. Estánd.

Directivos 2000 100

Empleados 1200 100

Obreros 1100 100

En este caso no podemos decir que la dispersión de los sueldos de los directivos, de los empleados y de los obreros son iguales, aún cuando las desviaciones estándar lo son. Los coeficientes de variación son: para los directivos, 0.0500 (5%), para los empleados,

0.0833 (8.3%) y para los obreros, 0.0909 (9.09%). Ahora podemos indicar que, con respecto a la media, la dispersión es mayor en los obreros y que la de los empleados es mayor que la de los directivos. 1.54. Ejemplo.

La media y el coeficiente de variación de los salarios de los empleados de una fábrica son $200 y 0.1, respectivamente. Si a cada empleado se le aumenta el 15% de su sueldo más $20 por concepto de movilidad, ¿cómo cambia el coeficiente de variación?.

Solución.

Antes de los aumentos, la media y el coeficiente de variación son iguales, respectivamente, a 200 y 0.1. Luego, la desviación estándar antes del aumento es igual a (200)(0.1) = 20. Por las propiedades de la media y de la varianza, la media de los sueldos después de los aumentos es (1.15)(200) + 20 = 250 mientras que la varianza es (1.15)2(20)2 = 529.00 (la desviación estándar es (1.15)(20) = 23).

Después de los aumentos el coeficiente de variación es (1.15)(20)/[1.15(200) + 20] = 23/250 = 0.092. La dispersión disminuyó el [(0.1 - 0.092)/(0.1)](100) = 8% con

respecto al valor anterior. 1.55. Ejemplo.

En una empresa los salarios para los hombres tiene media $500 y desviación estándar $50. Para las mujeres, que constituyen el 30% del total de trabajadores, la media de los salarios es $490 y la desviación estándar 30. Para el próximo mes, la empresa proyecta realizar un aumento general del 15% a hombres y mujeres. Use el coeficiente de

variación para indicar si cambia o no la dispersión de los salarios. ¿Cómo cambia la variación de los salarios si en lugar de aumentar el 15%, se aumenta $50 a cada hombre y a cada mujer?.

C.Véli

z


Solución. La media de todos los trabajadores es xT = + =0 7 500 0 3 490 497. ( ) . ( ) .

La varianza de todos los salarios es

sT2 2 2 2 20 7 50 0 3 30 0 7 500 497 0 3 490 497 2041= + + − + − =. ( ) . ( ) . ( ) . ( ) .

La desviación estándar de todos los salarios es 45.1774. El coeficiente de variación es 45.1774/497 = 0.0900 (= 9%)

Después de aumentar el 15%, la media es igual a (1.5)(497) = 571.55, la desviación estándar es (1.5)(45.1774) = 51.9540 y el coeficiente de variación es 0.0909 (= 9.09%). La dispersión de los salarios aumentó. Después de aumentar $50, la media aumenta a 547, la desviación estándar sigue siendo igual a 45.1774 y el coeficiente de variación es 45.1774/547 = 0.0826, esto es 8.26%. La dispersión de los salarios disminuyó.

Percentiles e intercuartil para un grupo de datos. Muchas veces se desea describir la posición de una cierto valor en un conjunto de datos, así por ejemplo, supongamos que se desea conocer si la nota 13, que un alumno ha obtenido en una determinada asignatura, es "grande" o "pequeña" dentro de su grupo. Para responder esta inquietud se usan los percentiles.

Para introducir la definición de percentil, ordenemos el conjunto de datos x x xn1 2, . , ... ,

de tal manera que x( )1 sea el menor, x( )2 sea el que le sigue y así sucesivamente hasta

tener el mayor valor x n( ) . Así se tiene que x x x n( ) ( ) ( )...1 2≤ ≤ ≤ .

A cada número entre paréntesis se le llama rango de la observación.

Por definición,

el valor x i( ) es el percentil 100 0 5[( . ) / ]i n− del conjunto de datos.

1.56. Ejemplo.

Ordenando el siguiente conjunto de datos: 15 18 23 15 16 25 17 19 21 25 se tiene:

15 15 16 17 18 19 21 23 25 25≤ ≤ ≤ ≤ ≤ ≤ ≤ ≤ ≤ .

El valor x( )3 16= es el percentil 100(3 - 0.5)/10 = 25. Nótese que debajo de 16 existe

aproximadamente el 25% de los datos.

C.Véli

z


El valor x( )5 18= es el percentil 45. Aproximadamente, el 45% de los datos son

menores o iguales que 18. El percentil 35 corresponde al dato cuyo rango es 4. Esto es, el percentil 35 es 17.

En efecto,

350 5 100

10=

−( . )i, de donde i = + =

10 35

1000 5 4

( ). .

Luego, el percentil 35 es x( )

.4

17=

En general, de la definición se tiene que el percentil k es la observación con rango (nk/100) + 0.5. Cuando este valor no es entero, se toma el promedio de los datos cuyos rangos son próximos a este número.

OBSERVACIONES.

1. Aproximadamente, el k% de los datos es menor o igual que el percentil k.

2. El percentil 50 es igual a la mediana, pues para éste el rango es n(50)/100 + 0.5 = n/2 + 0.5, valor que corresponde al dato central cuando n es impar y al promedio de los dos datos centrales cuando n es par.

3. A x i( ) se le llama también cuantil de orden (i - 0.5)/n.

Denotaremos con Ck al percentil k.

A partir de la “suavización”, y = F(x), de la ojiva correspondiente a la frecuencia acumulada relativa de un grupo de datos (figura 1.22 b) se observa que F(Ck) es aproximadamente igual a k/100. Así, F(C25) ≅ 25/100 = 0.25, F(C50) ≅ 50/100 = 0.5, etc.

C25

C50

C75

25% 25% 25% 25%

área área áreaárea

C

25

0.25

0.50

C50

1

C75

F

0.75

(a) (b)

Figura 1.22. Centiles.

C.Véli

z


A los percentiles 25, 50 y 75 se les llama primer cuartil, segundo cuartil y tercer

cuartil, respectivamente. 1.57. Ejemplo.

Si los sueldos de 15 personas son, respectivamente, 100, 300, 400, 1300, 1370, 1450, 1500, 1650, 1670, 1710, 1800, 1900, 1950, 2000, 2050, se tiene que:

El percentil 25 (primer cuartil) corresponde al rango (25)(15)/100 + 0.5 = 4.25.

Como el rango no es entero, el percentil 25 es el valor

[ ] / [ ] / .( ) ( )x x4 5 2 1300 1370 2 1335+ = + =

el percentil 75 corresponde al rango (75)(15)/100 + 0.5 = 11.75. Luego, el percentil 75 es el valor

[ ] / [ ] / .( ) ( )x x11 12 2 1800 1900 2 1850+ = + =

1.58. Ejemplo.

Los tiempos respectivos, en minutos, que 10 personas demoran en ir de A a B son:

81 77 76 86 79 79 80 89 77 78 85 76 88 78 83.

Ordenando los datos:

76 76 77 77 78 78 79 79 80 81 83 85 86 88 89≤ ≤ ≤ ≤ ≤ ≤ ≤ ≤ ≤ ≤ ≤ ≤ ≤ ≤

La mediana es el valor cuyo rango es 15/2 +0.5 = 8. Luego, la mediana es x( )8 79= .

El primer y tercer cuartil corresponden a los valores cuyos rangos son: 15/4 + 0.5 = 4.25

y 15(3/4) + 0.5 = 11.75. Como los rangos no son enteros el primer y tercer cuartil se aproximan con:

[ ] / .( ) ( )x x4 5 2 77 5+ = y [ ] / .( ) ( )x x11 12 2 84 5+ = .

Utilizando los percentiles es posible formar intervalos cuyas longitudes suelen considerarse como índices de dispersión de los datos. El intervalo que más se usa es el

que tiene como extremos el primer y tercer cuartil; la longitud de éste se llama rango

intercuartil. En el ejemplo, el rango intercuartil es 84.50 - 77.50 = 7.00.

Las ventajas del rango intercuartil, como medida de dispersión, son: la rapidez en su cálculo y la resistencia ante fluctuaciones de los datos extremos. Un dato extremo puede cambiar sensiblemente pero no el rango intercuartil.

C.Véli

z


Cálculo de los percentiles para datos agrupados. A partir de una tabla de frecuencias, obtenida por el método de intervalos de clase, para aproximar el percentil Ck se sigue un procedimiento análogo al que se realizó

para aproximar la mediana, si se tiene en cuenta que debajo de éste existe k% de los datos, aproximadamente,

1. Se ubica el intervalo [a, b[ en donde está el percentil Ck . 2. El valor del percentil es, aproximadamente,

C a b ak F

F Fk

a

b a

≅ + −−

−( )

( / )100,

en donde Fa es la frecuencia relativa hasta el valor a , mientras que Fb es

la frecuencia relativa hasta b. 1.59. Ejemplo.

A continuación se presenta la distribución de las puntuaciones en un examen del idioma inglés de 65 alumnos. En forma aproximada, calcular el intercuartil.

Puntuaciones Ni fi Fi

[50, 55[

[55, 60[

[60, 65[

[65, 70[

[70, 75[

[75, 80[

[80, 85[

[85, 90[

[90, 95[

[95, 100]

1

2

3

2

8

9

7

16

11

6

0.0154

0.0307

0.0461

0.0307

0.1231

0.1385

0.1077

0.2461

0.1693

0.0923

0.0154

0.0461

0.0922

0.1229

0.2460

0.3845

0.4922

0.7383

0.9076

1.0000

Solución. Aproximando el primer cuartil C25 y luego el tercer cuartil C75. El primer cuartil está en el intervalo [75, 80[. Aplicando la expresión general para

aproximar un percentil, se tiene

C25

75 50 2500 0 2460

0 3845 0 2460751444≈ +

−

−=( )

. .

. .. .

El tercer cuartil está en el intervalo [90, 95[, luego se tiene

C.Véli

z


C75

90 50 7500 0 7383

0 9076 0 738390 3455≈ +

−

−=( )

. .

. .. .

El intercuartil es 90.3455 - 75.1444 = 15.2011, aproximadamente. Hay 50% de los

alumnos que tienen puntuaciones entre 75.1444 y 90.3455.

MEDIDA DE ASIMETRIA: Sesgo de Pearson.

La asimetría de los gráficos de distribuciones unimodales se mide con el sesgo de

Pearson. Este índice se calcula teniendo en cuenta que en este tipo de curvas la media aritmética tiende a situarse, con respecto de la moda, al mismo lado de la cola más larga. (Figura 1.23).

Una medida para el sesgo se obtiene con la diferencia media - moda. Si la diferencia es

positiva, la curva tiene una cola a la derecha; si la diferencia es cero la curva es simétrica; si la diferencia es negativa la curva tiene una cola a la izquierda. La medida obtenida depende de las unidades que en cada caso se usen, por ello para comparar la simetría de dos o más curvas es necesario estandarizar los sesgos,

obteniéndose la medida que se conoce como el sesgo de Pearson:

Media Moda

Desv est

−

. .

x M 0

xM 0

x

M 0

x

Figura 1.23.

En distribuciones que no son muy asimétricas se cumple la relación empírica

Moda x x Mediana≈ − −3( ) .

Usando esta relación, el sesgo de Pearson se aproxima con

C.Véli

z


Sesgo de Pearson ≈−3( )

. .

Media Mediana

Desv estd.

Esta aproximación es más fácil de calcular y como en el caso anterior, es igual a cero cuando la curva de distribución es simétrica. Si este valor es positivo, la curva de

distribución tiene una cola a la derecha y si es negativo la curva de distribución tiene una cola a la izquierda. La asimetría o simetría del polígono de frecuencias suele también calcularse con

A =C C C

C C

75 25 50

75 25

2+ −

−.

C C C25 50 75

| | |

Figura 1.24.

Como C C C C C C C75 25 50 75 50 50 252+ − = − − −( ) ( ) , se puede indicar que el polígono

de frecuencias es * simétrico, si C C C75 25 502+ − = 0, (las longitudes de los intervalos [ , ]C C25 50 y

[ , ]C C50 75 deben ser iguales). Esto es, si A = 0.

* asimétrico, con cola a la derecha, si C C C75 25 502+ − > 0. Esto es, si A > 0.

* asimétrico, con cola a la izquierda, si C C C75 25 502+ − < 0. Esto es, si A < 0.

NOTAS. 1. A partir de un conjunto de datos cuyo polígono de frecuencias no es simétrico, se

puede lograr un nuevo conjunto de datos cuyo polígono de frecuencias si es simétrico. Para ello se eleva cada dato a una determinada potencia positiva, tal como 1/2, 1/3 o aplicando el logaritmo. La elección de la potencia adecuada puede lograrse, en primera instancia, por ensayo y luego, con ayuda del histograma, observar si se ha cumplido el objetivo.

2. Otra medida de la asimetría es el coeficiente de Fisher que se define como

γµ

13

3=

′s

en donde µ3

3

1

1= −

=∑

nx x

ii

n

( ) y ′s es la desviación estándar de x xn1

, ... , .

C.Véli

z


El coeficiente de Fisher no tiene dimensión y es igual a 0 cuando la distribución es simétrica. Si la distribución es unimodal, el coeficiente de Fisher es positivo si ésta es asimétrica con cola a la derecha y es negativo en el caso contrario.

MEDIDA DE APUNTAMIENTO O AGUDEZA: Curtosis.

El coeficiente de curtosis de un grupo de datos, es una medida del apuntamiento o aplastamiento de su polígono de frecuencias; se define como

kC C

C C=

−

−

( . )( )0 5 75 25

90 10,

en donde C75 es el percentil 75, etc.

Cuando el coeficiente de curtosis tiende a 0.5; esto es, si las diferencia C75 −C25 y C90 − C10 son aproximadamente iguales, la curva se llama leptocúrtica.

Si el coeficiente de curtosis tiende a 0; esto es, cuando la diferencia C75 −C25 es

pequeña, respecto de C90 − C10 , la curva se llama platicúrtica.

Si el coeficiente de curtosis es aproximadamente 0.25; esto es, si C90 − C10 es

aproximadamente el doble de C75 −C25, la curva se llama mesocúrtica.

M e s o c ú r t i c a

P l a t i c ú r t i c a

Figura 1.25.

NOTA.

Otra medida de la curtosis es el coeficiente de apuntamiento de Fisher que se define como

γµ

24

43=

′−

s

en donde µ4

4

1

1= −

=∑

nx x

ii

n

( ) y ′s es la desviación estándar de x xn1

, ... , .

Este es un coeficiente sin dimensión. La constante 3 se elige de tal manera que el coeficiente sea nulo cuando la distribución sea mesocúrtica.

Leptocúrtica.

C.Véli

z


El coeficiente de apuntamiento de Fisher es positivo cuando la distribución es leptocúrtica y negativo cuando la distribución es platicúrtica.

GRAFICOS DE CAJAS. (“Box Plots”).

En los gráficos de cajas se representan: la mediana y los cuartiles, permitiendo tener una idea de la dispersión de los datos.

Un gráfico de cajas es un rectángulo, como el de la siguiente figura,

L UC25

C75

M

| | | | |

| |

e

Figura 1.26.

en donde los lados "laterales" indican los percentiles C25 y C75, respectivamente. En el rectángulo se indica la mediana, con un segmento. De los lados que representan a los

percentiles 25 y 75 parten, respectivamente, un segmento hasta el valor L = C d25

15− . ,

en donde d es el rango intercuartil y un segmento hasta el valor U = C d75

15+ . .

De un gráfico de cajas se obtiene información acerca de:

• La centralización de los datos (con la mediana).

• La dispersión (con el rango intercuartil C75 - C25).

• La simetría (observando la posición de la mediana).

• La longitud de las "colas" (con los segmentos que parten de los lados laterales). En muchos casos, observaciones inconsistentes son incluidas en un conjunto de datos.

Estas observaciones atípicas o discordantes se conocen con el nombre de "outliers" (en

el idioma inglés). Un "outlier" aparece generalmente debido a las siguientes causas: a) Por observación incorrecta, por anotación incorrecta o por introducción incorrecta del dato al computador. b) Porque la observación es de una población diferente a la población de la cual viene el resto de las observaciones.

C.Véli

z


c) Porque la medida es correcta pero el evento es raro. Una regla práctica indica que una observación es outlier si es menor que L o mayor que

U. Las observaciones de este tipo se representan en el gráfico con *. 1.60. Ejemplo.

La siguiente figura representa un gráfico de cajas correspondiente a 58 notas de los alumnos de un curso de Historia.

28 9 12 18

*

19

0 20| |

Notas

| *|

Figura 1.27.

Se observa que el "centro" de los datos es 9 (la mediana). El percentil 25 es 8, el percentil 75 es 12. El rango intercuartil es 4 (el 50% de las notas están entre 9 y 14). Las notas 19 y 20 son datos discordantes o outliers. Los gráficos de cajas se usan para comparar la dispersión de dos o más grupos de datos, cuando éstos están expresados en la misma unidad de medida. Tal caso se presenta en la siguiente representación, en donde se nota, por ejemplo, que el grupo B tiene un outlier que es mayor que el “outlier” que se presenta en A. En el grupo A hay mayor dispersión que en el grupo B. El grupo B es más simétrico que el grupo A. El grupo A tiene una

cola a la izquierda.

*

*

| | | | | | | |

0 20 40 60 80 100 120 140

Grupo A

Grupo B

Figura 1. 28.

1.9. CARACTERISTICAS DE CONCENTRACION: Indice de Gini.

Para medir la manera como están concentrados los salarios o la riqueza, en distintos

grupos de una población se usa el índice de concentración de Gini.

C.Véli

z


Para establecer el índice de concentración de Gini, consideremos la siguiente tabla, en donde se observa la distribución de 58058 obreros de acuerdo a su salario.

En esta tabla, ni es la frecuencia en cada intervalo de clase, Fi es la frecuencia acumulada relativa. La columna indicada con Si expresa la suma total de los ni sueldos que se encuentran en el respectivo intervalo y la columna indicada con qi expresa la proporción de la masa total monetaria que han ganado los n1 + n2 + ... + ni primeros obreros. Esto es,

q

S

Si

ij

i

==∑

1

en donde S es el total de masa monetaria ganada por todos los obreros.

DISTRIBUCION DE 58058 OBREROS DE ACUERDO A SUS SALARIOS.

inter.de clase Ni Fi Si qi

[100, 120[

[120, 130[

[130, 140[

[140, 150[

[150, 160[

[160, 170[

[170, 180[

[180, 190[

[190, 200]

2413

4342

8642

13300

14500

10200

4093

443

125

0.0416

0.1164

0.2652

0.4942

0.7440

0.9196

0.9901

0.9978

1.0000

253365

525382

1192596

1888600

2276500

1652400

732647

81955

24875

0.0293

0.0903

0.2284

0.4473

0.7112

0.9027

0.9876

0.9971

1.0000

Total 58058 8628320

en donde S es el total de masa monetaria ganada por todos los obreros. En la tabla podemos leer, por ejemplo, que el 49.42% de los trabajadores reciben el 44.73% de la masa total de los salarios de los 58058 trabajadores, que el 74.40% de los trabajadores perciben el 71.12% del total de los salarios, etc.

Uniendo los puntos (qi , Fi) se obtiene la curva de concentración de Lorenz, que en la siguiente figura se indica.

C.Véli

z


Curva de Lorenz

10

1

q

Fi

i -

qi

Fi -

11

q

F

A

Figura 1.29.

El índice de concentración de Gini, se define como el doble del área de la región comprendida entre la curva de concentración de Lorenz y la bisectriz principal.

OBSERVACIONES

1. El índice de Gini es un valor comprendido entre 0 y 1.

2. El mínimo valor del índice de Gini es igual a 0 y se obtiene cuando todos los grupos, se reparten por igual la masa monetaria.

3. Si un grupo, digamos el primero, gana toda la masa monetaria, se demuestra que el índice de Gini es igual a 1.

Lo anterior indica que si la curva de concentración tiende a los lados del rectángulo, existe una "fuerte concentración"; un alto porcentaje de los asalariados se reparte una pequeña parte de los salarios mientras que un pequeño porcentaje de ellos se reparte casi la masa total de los salarios. Si la curva de concentración tiende a la bisectriz del cuadrado se dice que existe "una concentración débil"; el índice de Gini tiende a 0 y los

salarios son casi idénticos para toda la masa de trabajadores. Una expresión aproximada del índice de Gini, se encuentra aproximando el área A de la región comprendida entre la bisectriz y la curva de concentración. Se tiene que

Area A ≈ 0.5 - [ ]0 5 1 1. ( )( )q q F Fi i i i+ −− −∑ .

Luego,

Indice de Gini = 2(Area A) ≈ 1 - [ ]( )( )q q F Fi i i i+ −− −∑ 1 1

Para los datos registrados en la tabla de distribución de los 58058 obreros, el índice de Gini es igual a 0.4399. La concentración de los salarios es baja.

C.Véli

z


1.10. EJERCICIOS. 1.- Calcular la media, la mediana y la moda de los datos 2 5 5 6 6 6 7 7 60. Comentar los resultados .

¿Cuál de las medidas calculadas describe mejor el centro de la distribución de los datos?.

Rpta. x M Me= = =115555 0 6 6. , , .

2. El siguiente conjunto de datos, corresponde a los porcentajes de humedad en diferentes lugares en una

determinada región: 90 63 20 18 12 60 24 28 14 11 85 29 25 8 10 86 16 25 6 11

80 16 20 16 6.

a) Calcular la media y la desviación estándar s’ b) ¿Qué porcentaje de datos está en el intervalo [ , ]x s x s− ′ + ′2 2 ?.

Rpta. a) x s= =311600 27 2597. ' . .

3. A continuación se presenta la distribución de 53 tiendas de abarrotes de acuerdo al número de empleados

que tienen.

Núm. de

emplead.

Núm. de

tiendas

2 11

3 16

4 17

5 9

Usar la información de la tabla para calcular la media, la mediana y la desviación estándar del número de empleados.

4. Los siguientes resultados indican el rendimiento de dos marcas de llantas:

Llanta Mediana, en Km.. Media en Km.

A 25000 27000 B 27000 25000

Si las llantas de cualquier marca se venden al mismo precio, ¿qué marca de llanta se recomienda?.

5. Los datos siguientes corresponden al tiempo, en minutos, que demora una oficina "en darle trámite" a 50

documentos que ha recibido. 400 392 358 304 108 156 438 60 360 168 448 224 576 384 194 216 120 208 232 72 264 168 128 256 72 136 168 308 340 64 480 114 80 246 224 184 104 112 184 152 152 536 224 464

72 152 168 288 264 208. a) A partir de la tabla de frecuencias, construir el histograma de frecuencias relativas. Graficar el polígono de frecuencias relativas. Indicar las características de la distribución.

b) Calcular la media, varianza, desviación estándar y el coeficiente de variación de los datos. c) Calcular la mediana, utilizando directamente los datos y utilizando la ojiva de la frecuencia acumulada relativa.

d) Calcular los percentiles C10, C20, C75, y C90.

6. Se informa que en el salón B las notas de Historia de los alumnos que lo forman se distribuyen tal como lo indica la siguiente tabla y en donde fi son las frecuencias relativas

C.Véli

z


Notas fi

[8, 12[ f1

[12, 16[ f2

[16, 20] f3

Calcular aproximadamente la media de las notas en B si el 45% tiene una nota inferior a 11 y el 70% tienen una nota inferior a 17.

Rpta. Los valores respectivos de las frecuencias relativas son 0.60, 0 y 0.4. La media es 13.2

7. Indicar una lista de 10 números de forma que la desviación estándar sea lo más grande posible con la

condición de que:

a) cada número sea un 1 o un 5. b) cada número sea un 1 o un 5 o un 9 y, a lo más, dos de ellos sean 5.

8. Un investigador toma una muestra de 100 hombres cuyas edades están comprendidas entre 18 y 24 años de edad en una ciudad determinada. Otro investigador toma una muestra de 1000 hombres cuyas edades también están entre 18 y 24 años.

a) ¿Habrá una muestra con una media mayor que la media de la otra muestra o serán ambas parecidas?. b) ¿Habrá una muestra con una desviación estándar mayor o serán ambas parecidas?.

9. Tres profesores están comparando las notas de los exámenes finales que han realizado. Cada profesor tiene

99 alumnos. En la clase A, un estudiante obtuvo 1 punto, otro obtuvo 99 puntos, y el resto obtuvieron 50 puntos. En la clase B, 49 estudiantes lograron una puntuación de 1, un estudiante logró 50 puntos y 49 alumnos llegaron a los 99 puntos. En la clase C, un estudiante logró 1 punto, otro estudiante 2 puntos, otro estudiante 3 puntos y así sucesivamente hasta llegar el estudiante número 99 que logró los 99 puntos.

a) ¿Existe alguna clase que tenga una media de notas superior a las demás o todas las medias son iguales?. b) ¿Existe alguna clase que tenga una desviación estándar de notas superior a las demás o todas las desviaciones estándar son iguales?.

10. En un conjunto de números positivos, ¿puede ser mayor la desviación estándar que la media en alguna

ocasión?.

11. Un conjunto está formado por 10 números. Cada número es: o el 1, o el 2 o el 3.

a) La media es 2 y la desviación estándar es 0. ¿Cómo es el conjunto de datos exactamente?.

b) La desviación estándar es 1. ¿Cómo es el conjunto exactamente?. c) ¿Puede ser la desviación estándar superior a 1?.

12. Un profesor está haciendo a sus alumnos un examen que tiene una calificación máxima de 20 puntos. Su

sistema es tal, que las notas deben ser necesariamente múltiplos de 5. Al final, una vez corregidos los exámenes obtiene la siguiente distribución de notas.

40% obtuvieron la nota 20, 30% obtuvieron 15, 20% obtuvieron 10 y 10% obtuvieron 5.

a) Si se supone que hay 20 alumnos, ¿se puede hallar la media y la desviación estándar?. b) Si no se sabe el número de alumnos, ¿se puede calcular la media y la desviación estándar?.

13. La repartición de un grupo de 75 alumnos de un colegio de acuerdo a su talla en cm, es como se indica en la siguiente tabla. a) Graficar la frecuencia relativa y la frecuencia acumulada relativa.

C.Véli

z


b) Usar las marcas de clase para aproximar la media, la mediana y la desviación estándar.

Talla Frecuencia

[80, 85[

[85, 90[

[90, 95[

[95, 100[

[100, 105[

[105, 110]

4

14

23

17

11

6

14. A continuación se presenta la distribución de los tiempos totales, en minutos, que diferentes estaciones de

radio dedican a los avisos comerciales entre las 8:00 a. m. y las 12:00 m.

Tiempo # radios

[0.5, 6.5[

[6.5, 12.5[

[12.5, 18.5[

[18.5, 24.5[

[24.5, 30.5[

[30.5, 36.5[

[36.5, 42.5[

[42.5, 48.5[

[48.5, 54.5[

[54.5, 60.5]

1

3

18

2

1

10

0

0

2

14

a) Usar las marcas de clase para aproximar la media y la desviación estándar del tiempo que las estaciones de radio dedican a los avisos comerciales entre las 8:00 a.m. y las 12:00 m.

b) Calcular el porcentaje de tiempos de avisos comerciales que están en el intervalo [ , ]x s x s− ′ + ′3 3 .

c) Calcular la mediana, utilizando la ojiva de la frecuencia acumulada relativa.

15. Los 100 alumnos de una sección A se distribuyen de acuerdo a sus notas de Historia tal como indica la siguiente tabla (ni indica la frecuencia).

Notas ni

[8, 10[ 28

[10, 12[ 50

[12, 14] 22

De manera aproximada, calcular la nota debajo de la cual está el 40% de las notas. También calcular, aproximadamente, la mediana.

Rpta. El percentil 40 es 10.48.

16. Se encontró que en 800 datos la media aritmética y la desviación estándar eran 9.496 y 0.345, respectivamente. Una revisión de los resultados mostró que en lugar del valor 9.56 se introdujo 1.56. Recalcular la media aritmética y la desviación estándar.

Rpta. 9.506, 0.200.

17. Calcular la media de un grupo de 80 datos que ha sido dividido en tres subgrupos: A, B y C, para los cuales se tienen las medias y el número de datos correspondiente:

C.Véli

z


xA N A A xB NB B xC NC C= = = = = = = = =50 10 80 20 60 50, #( ) , , #( ) , #( ) . y

Rpta. 63.75.

18. Aplicando las propiedades de la media, probar que si x1, ... , xm , es un conjunto de datos cuya media es

x , entonces el conjunto de datos y1, ... , ym , obtenidos al realizar la transformación yi axi b= + , donde a

y b son constantes, tienen media y ax b= + .

19. Calcular la media y la desviación estándar de un grupo de 30 datos que ha sido dividido en dos grupos: A y B, para los cuales se tiene:

x A N A s A x B N B sB= = = = =50 10 80 20 8, , , , . = 5 y

Rpta. La media es 70 y la desviación estándar, 15.84.

20. El 70% del personal de una compañía son varones y el resto, mujeres. El promedio de los sueldos de los

varones es $ 700 y el promedio en el grupo de mujeres es $ 600. Hallar el sueldo promedio del personal de la compañía.

21. La media y la varianza de los tiempos x xn1,..., utilizados en realizar n tareas similares son 14 y 2.89,

respectivamente. El costo por realizar cada tarea es yi xi xi= + +20 05 01 2. . , hallar la media de los costos.

22. En una empresa pública el promedio de los sueldos de los obreros es 40 unidades monetarias (u.m.) y el de

los empleados, 50 u.m. Si la empresa decide aumentar 20 u.m. a cada empleado y obrero; hallar el promedio general de los sueldos actuales (considerando el aumento) si el número de obreros es el 10% del número de empleados.

Rpta. 69.09.

23. Durante el mes de marzo el sueldo promedio de los trabajadores del sector industrial era de $100. Para el

mes de abril se considera para cada trabajador un aumento del 30%, con respecto del mes de marzo más un adicional de $50. Si el coeficiente de variación en marzo era de 0.25, ¿se puede decir que la distribución de

sueldos en abril es más homogénea?.

Rpta. Si, el nuevo coeficiente de variación es 0.1805.

24. En el mes de enero, el promedio de los salarios de los empleados de una empresa era 40 u.m.; en el mes de

febrero, la empresa consideró un incremento del 25% en el número de empleados y con un salario igual al 80% del promedio de los salarios de los antiguos empleados. En el mes de marzo, la empresa hizo efectivo un aumento del 25% en el salario de cada uno de los empleados, más una asignación de 20 u.m. por escolaridad. Hallar el sueldo promedio de los salarios de los empleados en el mes de marzo.

25. El coeficiente de variación de un grupo de datos es 0.1. Si a cada dato se le aumenta primero el 20% de su

valor y luego 5 unidades, el coeficiente de variación es igual a 0.05. Halle el valor de la media y la varianza de los datos originales. Halle el valor de la media y de la varianza después del aumento.

Rpta. La media y la desviación estándar originales son: 4.1666, 0.4166.

26. El tiempo que 30 operarios demoraron en ejecutar una tarea fue registrado en minutos, obteniéndose:

7.0 9.0 11.4 7.2 10.2 13.5 17.0 14.0 14.5 8.0 9.1 9.4 13.1 8.5 10.4 15.5 12.0 11.0 11.2 9.6 9.2 9.5 15.6 8.4 10.8 13.0 12.5 12.4 10.5 7.8. Construir una distribución de frecuencias con cinco intervalos de igual longitud y a partir de ésta estudiar,

usando medidas estadísticas adecuadas las siguientes afirmaciones: a) “Calculando una medida central representativa para esta distribución, se deduce que el tiempo promedio de ejecución de la tarea por operario llega a superar los 11 minutos”. b) “La mitad de los operarios no demoró más de 10.8 minutos”.

C.Véli

z


c) “Un operario cualquiera nunca demoró un tiempo que excedió al tiempo medio en más de dos desviaciones estándar”.

Si se eligiera al azar a uno de los operarios y se deseara predecir el tiempo en que éste ejecutó la tarea, de tal manera que el promedio de los cuadrados de los errores fuera mínimo, ¿cuál sería el valor de predicción?.

Si se eligiera al azar a uno de los operarios y se deseara predecir el tiempo en que éste ejecutó la tarea, de tal manera que el promedio de los de los errores en valor absoluto fuera mínimo, ¿cuál sería el valor de predicción?.

27. La distribución de mujeres cuyas edades fluctúan entre 40 y 50 años, de acuerdo al número de hijos en las comunidades A y B es como se indica en la siguiente tabla.

Número de mujeres

Número hijos A B

0 6 8 1 9 15 2 23 20 3 28 15

4 22 10

Comparar las distribuciones en A y B usando las medias y los coeficientes de variación. a) ¿Las mujeres, de qué comunidad, tienen el mayor promedio de hijos?.

b) ¿Para que comunidad, la distribución del número de hijos es más homogénea?.

28. En un grupo de datos, el 1 se repite el 25% de las veces y el 2 se repite el 75% restante. Para tal grupo,

hallar el valor a que hace que la suma (1 − a)2 + ... + (1 − a)2 + (2 − a)2 + ... + (2 − a)2 , sea mínima.

Rpta. 1.75

29. Las ciudades A, B, y C (en ese orden) están unidas en línea recta por una carretera. La distancia entre las

ciudades A y B es 4 km, mientras que entre B y C la distancia es 5 km. Se desea construir un centro de recreo en un punto de la carretera para un total de 200 niños distribuidos de la siguiente manera: 25% de los

niños viven en A, 35% de los niños viven en B y el resto vive en C. ¿Cuál debe ser la ubicación del centro de recreo si se considera que el costo de transporte por cada niño es proporcional a la distancia recorrida y el costo total al transportar a todos los niños debe ser mínima?.

Rpta. La respuesta corresponde a la mediana de los valores: 0, repetido 50 veces, 4 repetido 70 veces y 9

repetido 50 veces. 30. Usando los datos del ejercicio 5, calcular los percentiles 10, 20, 50 y 75.

31. Usando los datos de la tabla del ejercicio 8, calcular aproximadamente el intercuartil.

32. Durante cuatro años consecutivos un banco aumentó su capital en 100%, 150%, 300% y 400%. Indicar la tasa de aumento promedio del capital si al inicio fue 50 millones de dólares.

33. El aumento de la tasa de cambio en el país durante las cuatro semanas del mes de Junio y con respecto a la

semana anterior fue como sigue: 1%, 2%, 3%, y 2%. Calcular, usando la media geométrica, el aumento promedio de la tasa de cambio.

Rpta. El aumento promedio de la tasa de cambio es 1.9975%.

C.Véli

z


34. Determinar la tasa de crecimiento promedio de la población en los últimos tres años si en 1992 la población fue 18000000, en 1993 fue 2000000 y en 1994 fue 25500000. Indicar por qué la media

aritmética no es adecuada para indicar el cambio promedio de crecimiento. 35. La velocidad con que escriben tres personas el mismo texto es 60, 70 y 65 palabras por minuto,

respectivamente. Calcular la velocidad promedio.

Rpta. 64.74 palabras por minuto.

36. En la siguiente tabla se registran: el tiempo que emplean 5 obreros en fabricar un artículo así como el tiempo total trabajado por cada uno de ellos. Calcular el tiempo promedio que se utiliza en fabricar un

artículo.

Obreros Tiempo total trab.

en minuto.

Tiempo. usado por artículo en minuto.

1

2

3

4

5

480

480

480

480

240

0.80

1.00

1.20

1.20

1.50

37. Dos alumnos desarrollaron, cada uno, una prueba que tenía 40 "ítems". El primero hizo una pregunta cada

2 minutos y el segundo una pregunta cada 2.5 minutos. Calcular el promedio de preguntas desarrolladas

cada 5 minutos.

Rpta. 2.22 preguntas cada 5 minutos.

38. Una propiedad importante de la media dice que si x xn1,..., tienen media x y si y f x= ( ) es una

función cóncava hacia abajo entonces f xn

f xii

n( ) ( )≥

=∑

1

1

(Desigualdad de Jensen).

Usando la desigualdad de Jensen, probar que G x≤ , en donde G es la media geométrica de los datos.

39. Para los datos del ejercicio 5, hallar el sesgo y el coeficiente de curtosis. ¿A qué tipo de curva corresponde?.

40. El índice de Gini puede usarse también para analizar la concentración de la población de una determinada

región. A partir de la siguiente información, analizar la concentración de la población.

Habitantes Número de

distritos

Población

total

[500, 1000[

[1000, 1500[

[1500, 2000[

[2000, 2500[

[2500, 3000[

[3000, 3500[

320

130

110

80

30

10

192000

143000

187000

192000

79500

34500

Cap 1 y 2

Documents

Transcript of Cap 1 y 2