Lectura 2. Tablas estadísticas. Distribución de frecuencias.

10
5.1 Distribuciones frecuenciales El objetivo de la estadística es estudiar los datos obtenidos de una muestra y a partir de ellos aprender sobre el comportamiento de una población, respecto a ciertas características. El estudio incluye la recopilación, la descripción y el análisis del conjunto de datos, convirtiéndolos en información objetiva que genera conocimiento. La parte de la estadística que describe, analiza y representa al conjunto de datos, mediante métodos numéricos y gráficos que muestran y sintetizan información a partir de los datos, se conoce con el nombre de estadística descriptiva. 5.1.1 Población y muestra Población En general, una población es un grupo de seres vivos de una especie particular, que vive en un área o espacio, y cuyo número de habitantes se determina normalmente mediante un censo. En estadística, la noción de población es más amplia; se define como el conjunto total de elementos sobre los cuales se pueden realizar observaciones respecto a cierta o ciertas características comunes, y así obtener conclusiones al respecto. Es claro que una población estadística no se restringe a seres vivos, ni a un área o espacio. Tamaño de la población El tamaño de la población es el número de elementos que la constituyen; según el número de elementos la población puede ser finita o infinita. Una población finita es, por ejemplo, el conjunto de estudiantes de la Facultad de Ingeniería de la UNAM. Y convencionalmente, cuando el número de elementos de la población es muy grande, ésta se puede considerar como población infinita; por ejemplo, el número de granos de arena en una playa. El propósito de un censo de población siempre es determinar el número de personas que constituyen un grupo, generalmente de un país, cada cierto período determinado; en tal caso, la población estadística comprende a todos habitantes del grupo o país. Por lo general, el censo de población se aprovecha para obtener datos demográficos, económicos y sociales relativos a esos habitantes, expresados en términos numéricos. Es claro que un censo implica demasiado trabajo, tiempo y costo; resulta impráctico y absurdo observar a la totalidad de los elementos de una población, sistemáticamente.

Transcript of Lectura 2. Tablas estadísticas. Distribución de frecuencias.

Page 1: Lectura 2. Tablas estadísticas. Distribución de frecuencias.

5.1 Distribuciones frecuenciales

El objetivo de la estadística es estudiar los datos obtenidos de una muestra y a partir

de ellos aprender sobre el comportamiento de una población, respecto a ciertas

características. El estudio incluye la recopilación, la descripción y el análisis del

conjunto de datos, convirtiéndolos en información objetiva que genera conocimiento.

La parte de la estadística que describe, analiza y representa al conjunto de datos,

mediante métodos numéricos y gráficos que muestran y sintetizan información a

partir de los datos, se conoce con el nombre de estadística descriptiva.

5.1.1 Población y muestra

Población

En general, una población es un grupo de seres vivos de una especie particular, que

vive en un área o espacio, y cuyo número de habitantes se determina normalmente

mediante un censo. En estadística, la noción de población es más amplia; se define

como el conjunto total de elementos sobre los cuales se pueden realizar observaciones

respecto a cierta o ciertas características comunes, y así obtener conclusiones al

respecto. Es claro que una población estadística no se restringe a seres vivos, ni a un

área o espacio.

Tamaño de la población

El tamaño de la población es el número de elementos que la constituyen; según el

número de elementos la población puede ser finita o infinita. Una población finita es,

por ejemplo, el conjunto de estudiantes de la Facultad de Ingeniería de la UNAM. Y

convencionalmente, cuando el número de elementos de la población es muy grande,

ésta se puede considerar como población infinita; por ejemplo, el número de granos

de arena en una playa.

El propósito de un censo de población siempre es determinar el número de personas

que constituyen un grupo, generalmente de un país, cada cierto período determinado;

en tal caso, la población estadística comprende a todos habitantes del grupo o país.

Por lo general, el censo de población se aprovecha para obtener datos demográficos,

económicos y sociales relativos a esos habitantes, expresados en términos numéricos.

Es claro que un censo implica demasiado trabajo, tiempo y costo; resulta impráctico y

absurdo observar a la totalidad de los elementos de una población, sistemáticamente.

Page 2: Lectura 2. Tablas estadísticas. Distribución de frecuencias.

Muestra

En lugar de examinar la población entera, se estudia solo una parte del grupo, una

colección de algunos elementos de la población, no de todos. El subgrupo de población

que será estudiado experimentalmente en detalle se llama muestra y, para que sea

representativa, debe contener las características relevantes de esa población. Así

mismo, las conclusiones que se obtengan de dicha muestra solo podrán referirse a la

población de donde se obtuvo la muestra.

El estudio de una muestra es más sencillo que el estudio de la población completa,

cuesta menos y lleva menos tiempo. Más aún, se considera que el estudio exhaustivo

de una población entera es más susceptible de errores que un estudio muestral, por lo

que, en algunos casos, el muestreo puede elevar el nivel de calidad de la información

obtenida. La estadística descriptiva estudia únicamente muestras, ordenando,

clasificando y describiendo los datos de cada muestra.

Muestra aleatoria

Una muestra aleatoria es una muestra obtenida de una población estadística, de modo

que todos los elementos de la población tienen la misma probabilidad de ser elegidos

y los elementos elegidos de la muestra son seleccionados de modo independiente.

Una población es un todo y una muestra es una fracción o segmento de ese todo, de

modo que ambos son conceptos relativos. Los datos recogidos de una muestra son

transformados en información sobre la población representada por la muestra.

Se trabaja con una muestra aleatoria de una población cuyo tamaño es mayor que el

de la muestra obtenida, de manera que tal muestra aleatoria aislada no es más que

una de muchas muestras diferentes que se habrían podido obtener mediante el

proceso de selección. El que la muestra sea representativa de la población no significa

que la distribución de los elementos de la muestra coincida exactamente con los de la

población total.

Existen otros tipos de muestras no aleatorias, denominadas muestras de juicio, que se

basan en la experiencia que alguien tiene sobre la población y se usan como guía para

decidir como tomar una muestra aleatoria más adelante.

Tamaño de la muestra

El tamaño de la muestra es el número de elementos que componen la muestra y

necesarios para que los datos obtenidos sean representativos de la población.

Notación: n

Page 3: Lectura 2. Tablas estadísticas. Distribución de frecuencias.

Características

Las características de interés en una población pueden ser cualitativas, tales como el

sexo y la nacionalidad de una persona; o pueden ser cuantitativas, como el espesor y

la porosidad de un estrato geológico. Lo relevante es que todos los elementos de la

población poseen esas características y son éstas las que se estudian en cada elemento

de la muestra, con valores que son comparables entre sí y susceptibles de análisis.

Variables

Las características cuantitativas se denominan variables y pueden ser expresadas

numéricamente, como la presión arterial sistólica o el número de hijos varones. Los

diferentes valores numéricos que puede tomar una característica cuantitativa

constituyen el dominio de definición de la variable. Cuando la variable puede tomar

solamente un valor se llama constante, como la aceleración de la gravedad en

determinado punto de la superficie terrestre.

Los valores de la variable se expresan numéricamente y son observados sobre los

elementos de la muestra. Si la característica de interés puede ser medida, se trata de

una variable continua, tal como el peso o la talla de un individuo; para asignar los

valores de la variable, es necesario concretar la escala de medición que conviene

utilizar en cada caso. Si la característica no es medible, sino solamente numerable, se

trata de una variable discreta, tal como el número de veces que ocurre un suceso.

Atributos

Los atributos son las características cualitativas de una población, cuyas diferentes

modalidades se expresan a través de nombres, pues no son susceptibles de medición.

Los atributos clasifican cada observación en una de varias categorías. La situación más

simple es cuando se consideran únicamente dos categorías, como hombre – mujer o

fumador - no fumador. En otras ocasiones la dicotomía no es suficiente y se requiere

un mayor número de categorías, como es el caso del grupo sanguíneo de una persona

o la dureza de un material.

Para clasificar los valores de los atributos, a veces se puede utilizar una escala ordinal,

cuando es factible establecer un orden jerárquico de las categorías, como es el caso del

grado de disnea de un paciente o la escala de Mohs para la dureza. La mayor parte de

las veces, sin embargo, los valores de los atributos no mantienen una relación de

orden entre sí, por lo que se tiene que recurrir a escalas nominales, como en el caso

del color de ojos de un individuo o el su estado civil.

Page 4: Lectura 2. Tablas estadísticas. Distribución de frecuencias.

Datos estadísticos

Los datos estadísticos son los valores de alguna característica de interés, observados

sobre los elementos de la muestra, los cuales pueden ser comparados, analizados e

interpretados.

En congruencia con los tipos de variable, los datos pueden ser numéricos o nominales.

En ingeniería los datos numéricos son los más frecuentes e importantes, por lo que, en

lo que sigue, se les da prioridad.

Ejemplo 5.1. DURACIÓN DE LLANTAS. Una fábrica de llantas para automóvil ha probado

sus llantas del tipo 225/50R16 91W bajo diferentes condiciones; se ha obtenido una

muestra aleatoria de tamaño 30, que han registrado las siguientes duraciones, en

miles de kilómetros.

Tablas estadísticas

Las tablas estadísticas son formas de presentación tabular utilizadas para organizar

los datos estadísticos. En función del número de datos y el rango de datos, se pueden

distinguir tres tipos de tablas estadísticas:

Cuando el tamaño de la muestra y el rango son pequeños. Los datos se anotan de

manera ordenada en filas o columnas.

Cuando el tamaño de la muestra es grande y el rango de datos es pequeño. Existen

valores de la variable que se repiten; es el caso de las variables discretas.

Cuando el tamaño de la muestra y el rango de datos, ambos son grandes. Se

requiere agrupar los valores de la variable en intervalos; es el caso de las variables

continuas.

Tabla de datos ordenados

Una tabla de datos ordenados es aquella que simplemente presenta los valores de

menor a mayor.

Page 5: Lectura 2. Tablas estadísticas. Distribución de frecuencias.

Diagrama de tallos y hojas

Otra forma de presentar ordenadamente un conjunto de datos de tamaño moderado

es el llamado diagrama de tallos y hojas, que consiste en dividir cada valor de dato en

dos partes: su tallo y su hoja; por ejemplo, si los datos son de dos dígitos, el tallo sería

el dígito de las decenas y su hoja el dígito de las unidades. Así, el dato 37 tendría por

tallo el 3 y por hoja el 7.

5.1.2 Intervalos de clase

Los intervalos de clase se emplean cuando la variable es continua o cuando el número

de valores que toma una variable discreta es grande.

Rango de datos

Es la diferencia entre el dato de mayor valor y el dato de menor valor:

max minR x x (5.1)

R 52.0 40.1 11.9 12

Número de intervalos

El número de intervalos de clase en el que se agruparán los datos fluctúa, en la

práctica, entre 5 y 15. La regla empírica de la raíz cuadrada del número de datos ha

quedado en desuso y en su lugar se utiliza la regla de Sturges, dada por la expresión:

2k 1 log n (5.2)

2

ln30k 1 log 30 1 1 4.9 5.9 6

ln2

Amplitud de clase

Se obtiene dividiendo el rango de datos entre el número de intervalos de clase:

id R / k

(5.3)

Page 6: Lectura 2. Tablas estadísticas. Distribución de frecuencias.

Para evitar ambigüedades en la clasificación de los datos, al calcular la amplitud de

clase conviene considerar un rango de datos ligeramente mayor que el rango de datos

exacto, a fin de garantizar que el dato de menor valor quede incluido en el primer

intervalo de clase y el dato de mayor valor quede incluido en el último intervalo de

clase. i

12d 2

6

Límites reales de clase

Cada intervalo de clase tiene dos límites reales de clase; el menor de ellos se llama

límite real inferior y el mayor se llamas límite real superior. Notación: Lj, j = 1, 2,..., k+1.

El límite real superior de un intervalo i debe ser mayor en media unidad, una cifra

significativa más, que el límite superior del intervalo i y menor en media unidad que el

límite inferior del intervalo i + 1, de manera que el límite superior de un intervalo i, es

también el límite real inferior del siguiente intervalo i + 1. Aquí se debe cumplir que:

i 1 i iL L d , i 1,2,...,k

(5.4)

Límites de clase

Los límites de clase son los números que limitan un intervalo de clase; el menor se

llama límite inferior de clase y el mayor se llama límite superior de clase. Notación:

Ij, Sj, j=1,2,...,k.

Los límites de clase tienen el mismo número de cifras significativas que los datos; el

límite inferior del primer intervalo de clase debe ser menor o igual al menor de los

datos: I1 m; y el límite superior del último intervalo de clase debe ser mayor o igual

que el mayor de los datos: Sk M. El límite superior de clase de un intervalo i no

coincide con el límite inferior de clase del siguiente intervalo i+1, sino que es menor

en una unidad.

Page 7: Lectura 2. Tablas estadísticas. Distribución de frecuencias.

Marca de clase

Es el punto medio del intervalo de clase. Notación: xi, i = 1, 2,..., k

i i 1i

L Lx , i 1,2,...,k

2 (5.5)

i ii

I sx , i 1,2,...,k

2

Tabla de datos agrupados

Es aquella en la que se anotan los datos básicos en grupos. El agrupamiento se hace

con base en los intervalos de clase.

5.1.3 Frecuencias

Frecuencia

Es el número de veces que ocurre un evento. Si A es un evento y ocurre n(A) veces, la

frecuencia de A es n(A)

Frecuencia relativa

Si un experimento se realiza n veces es el número de veces que se presenta el evento

A, la frecuencia relativa del evento A es n(A)/n. La frecuencia relativa solo puede

tomar valores entre cero y uno; 0 n(A)/n 1

Distribución de frecuencias

Es toda representación de la relación entre el conjunto de eventos mutuamente

exclusivos y colectivamente exhaustivos y la frecuencia de cada uno de ellos.

Page 8: Lectura 2. Tablas estadísticas. Distribución de frecuencias.

Frecuencia de clase

Es la frecuencia de cada intervalo. Notación: fi, i =1, 2,…, k

La tabla de distribución de frecuencias es aquella en la que se presentan los eventos

con su correspondiente frecuencia.

Frecuencia relativa de clase

Es la que resulta de dividir la frecuencia de un intervalo entre el número total de

datos. Notación: fri, i = 1, 2,…, k

La tabla de distribución de frecuencias relativas es aquella que presenta los eventos

con su correspondiente frecuencia relativa.

Frecuencia acumulada de clase

Es la suma de las frecuencias de clase del intervalo en consideración y de los

intervalos anteriores. Notación: Fi, i = 1, 2,…, k

La tabla de distribución de frecuencias acumuladas es aquella en la que se presentan

los eventos con sus correspondientes frecuencias acumuladas. La frecuencia

acumulada del último intervalo de clase debe ser igual al número de observaciones.

Frecuencia relativa acumulada de clase

Es la que resulta de dividir la frecuencia acumulada de un intervalo entre el número

total de observaciones. También puede obtenerse sumando a la frecuencia relativa del

intervalo en consideración, las frecuencias relativas correspondientes a todos los

intervalos anteriores. Notación: Fri, i = 1, 2,…, k

La tabla de distribución de frecuencias relativas acumuladas es aquella en la que se

presentan los eventos con sus correspondientes frecuencias relativas acumuladas. La

frecuencia relativa acumulada del último intervalo debe ser igual a la unidad.

Tabla de distribuciones de frecuencias

Page 9: Lectura 2. Tablas estadísticas. Distribución de frecuencias.

5.1.4 Caso discreto y nominal

Caso discreto

No tiene sentido hablar de intervalos de clase ni de límites de clase, sino simplemente

de clase; cada clase representa un valor discreto de la variable.

Ejemplo 5.2. FALTAS DE ASISTENCIA A CLASE. En el grupo 21 de Probabilidad y

Estadística del semestre 2011-2, la lista de asistencia registra las faltas de los 49

alumnos inscritos, conforme se muestra en la siguiente tabla:

Caso nominal

Además de lo expuesto para el caso discreto, aquí no se puede hablar de frecuencias

acumuladas.

Ejemplo 5.3. CARRERA QUE ESTUDIAN. En el grupo 21 de Probabilidad y Estadística del

semestre 2011-2, se tiene registro de que los alumnos inscritos están estudiando

alguna de las 12 carreras que ofrece la Facultad de Ingeniería, conforme a los

siguientes datos, que ya han sido presentados como tabla de frecuencias:

Page 10: Lectura 2. Tablas estadísticas. Distribución de frecuencias.