Tema 5

15
Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez Contenido: Introducción 1. Distribuciones de Frecuencias para Variables Cualitativas y Discretas 1.1 Distribución de frecuencias para una variable cualitativa 1.2 Distribución de frecuencias para una variable discreta 2. Distribución de Frecuencias para Variables Continuas 2.1 El problema del redondeo 2.2 Construcción de la Distribución de Frecuencias de Variables Continuas 3. Límites, Intervalo y Puntos medios de clase 3.1 Límites indicados y límites reales 3.2 Intervalo de clase 3.3 Punto medio de clase 4. Frecuencias Absolutas y Relativas, Simples y Acumuladas 5. Representación Gráfica de las Distribuciones de Frecuencia 5.1 Distribución de una variable discreta 5.2 Distribución de una variable continua 6. Ejemplo Ilustrativo General Fuentes consultadas Lecturas Recomendadas Ejercicios de Autoevaluación Objetivo:

description

Dsitribución de frecuencias para variables

Transcript of Tema 5

Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez

Contenido:

Introducción

1. Distribuciones de Frecuencias para Variables Cualitativas y Discretas

1.1 Distribución de frecuencias para una variable cualitativa

1.2 Distribución de frecuencias para una variable discreta

2. Distribución de Frecuencias para Variables Continuas

2.1 El problema del redondeo

2.2 Construcción de la Distribución de Frecuencias de Variables Continuas

3. Límites, Intervalo y Puntos medios de clase

3.1 Límites indicados y límites reales

3.2 Intervalo de clase

3.3 Punto medio de clase

4. Frecuencias Absolutas y Relativas, Simples y Acumuladas

5. Representación Gráfica de las Distribuciones de Frecuencia

5.1 Distribución de una variable discreta

5.2 Distribución de una variable continua

6. Ejemplo Ilustrativo General

Fuentes consultadas

Lecturas Recomendadas

Ejercicios de Autoevaluación

Objetivo:

Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez

2

Presentar y describir los resultados obtenidos por medio de distribuciones de

frecuencias.

Introducción: La importancia de clasificar y resumir la información.

En el desarrollo de los temas anteriores hemos reiterado que el tratamiento

estadístico de la información tiene como objetivo principal presentar los resultados

de una investigación o estudio en forma resumida. Para analizar un conjunto de

datos relativamente grande, es importante conocer al menos tres aspectos:

1. La distribución (tendencia o patrón) que siguen los datos

2. La posición (o tendencia central) de la distribución

3. Dispersión de los datos alrededor de los valores centrales (variabilidad)

El segundo y tercer aspecto los estudiamos en las fichas anteriores, ahora vamos

a dedicarnos al primero. Cuando trabajamos con un conjunto pequeño de datos es

fácil conocer los aspectos antes mencionados. Si ordenamos los datos por

magnitud, con un simple examen podemos dar algunas apreciaciones sobre los

mismos, como en el siguiente ejemplo.

Ejemplo 1: Suponga que las notas obtenidas por un grupo de estudiantes son:

80 65 90 70 42 59 70 87

Si ordenamos dichas notas de menor a mayor queda:

42 59 65 70 70 80 87 90

Podemos observar que una tendencia hacia la nota 70, ya que hay igual número

de valores a la izquierda y a la derecha del mismo, si calculamos el promedio

efectivamente nos da un valor alrededor de 70. Asimismo, puede deducirse una

variabilidad relativamente alta, debido a que la nota más baja es 42 y la más alta

90, con un intervalo de 48 puntos entre ambas calificaciones.

Al contrario del ejemplo anterior, el problema se presenta cuando la cantidad de

datos es numerosa, de manera que a simple vista no podemos analizarnos. Por

limitaciones de nuestra memoria, es difícil identificar regularidades o patrones que

presentan los datos, hacer análisis o sacar conclusiones. Por tanto, resulta

conveniente “condensar” o “resumir” los datos por medio de su ordenamiento en

grupos o clases, clasificación conocida como distribución de frecuencias:

Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez

3

1. Construcción de una Distribuciones de Frecuencias para Variables

Cualitativas (Atributos) y Variables Discretas.

1.1 Distribución de Frecuencias para una Variable Cualitativa.

En general, al hablar de una distribución de frecuencias se hace referencia a la

clasificación de una variable cuantitativa. Sin embargo, estas distribuciones

también son utilizadas para características cualitativas (atributos). Lo que

realizamos es un recuento del número de observaciones en cada una de las

categorías de la variable, de acuerdo a cómo se definieron en el estudio. El título

de la distribución debe describir cuáles son los datos que se presentan en el

cuadro y el total puede ir arriba o abajo, dependiendo de su importancia.

Ejemplo 2: Suponga que los siguientes datos corresponden al estado civil de un

grupo de 20 personas:

№ Est.Cvil № Est.Cvil № Est.Cvil № Est.Cvil

1 1 6 4 11 2 16 4

2 2 7 1 12 1 17 1

3 1 8 1 13 3 18 3

4 3 9 3 14 1 19 2

5 2 10 1 15 2 20 1

Si los códigos utilizados para esta variable fueron: 1 soltero/a, 2 casado/a, 3 unión

libre y 4 para otras situaciones (divorciado/a, viudo/a), al contar el número de

personas en cada categoría obtenemos la siguiente distribución de frecuencias:

Nº de Personas según Estado Civil

Estado Civil Nº personas

Soltero/a 9

Casado/a 5

Unión libre 4

Otro 2

Total 20

Distribución de Frecuencias: Es una organización o arreglo de los datos en

clases o categorías que muestran, para cada una de ellas, el número de

elementos u observaciones que agrupan.

Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez

4

1.2 Distribución de Frecuencias para una Variable Discreta.

En el caso de una variable discreta, aquellas que asumen solamente números

aislados (generalmente enteros) en la escala utilizada, para elaborar la distribución

de frecuencias necesitamos contar el número de veces que aparece cada valor

entre los datos correspondientes, es decir, debemos realizar un recuento.

Ejemplo 3: Suponga que los siguientes datos corresponden a las notas, en una

escala de 1 a 10, obtenidas por 30 estudiantes:

8 7 5 9 3 10

6 10 7 2 7 4

4 6 8 5 8 8

9 7 4 7 2 1

5 9 6 6 5 7

Por medio del recuento del número de observaciones para cada valor, vamos a

construir las siguientes columnas:

Frecuencia Frecuencia

Nota Recuento Absoluta Relativa

(1) (2) (3) (4)

1 | 1 0,03

2 || 2 0,07

3 | 1 0,03

4 ||| 3 0,10

5 |||| 4 0,13

6 |||| 4 0,13

7 |||||| 6 0,20

8 |||| 4 0,13

9 ||| 3 0,10

10 || 2 0,07

30 1,00

- Columna 1: Anotamos cada uno de los valores que puede asumir la

variable discreta, en este caso las notas van de 1 a 10.

- Columna 2: Se cuenta el número de veces que aparece la nota

correspondiente dentro del conjunto de datos

- Columna 3: La frecuencia absoluta es el número de veces que aparece

cada valor. La suma de las frecuencias absolutas debe ser igual al número

total de observaciones, en este caso 30 notas.

Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez

5

- Columna 4: Al dividir cada frecuencia absoluta entre el número total de

observaciones (30) se obtienen las frecuencias relativas. Estos valores nos

permiten conocer la proporción de estudiantes que obtuvieron una nota

determinada. Por ejemplo, 0,13 es la frecuencia relativa para la nota 5,

indicándonos que el 13% de los estudiantes obtuvo una calificación de 5.

El cuadro que muestra la distribución de frecuencias para los datos anteriores

quedaría de la siguiente forma:

Distribución de las Notas Obtenidas en el Curso

Nota № de

Obtenida Estudiantes

1 1

2 2

3 1

4 3

5 4

6 4

7 6

8 4

9 3

10 2

Total 30

Note que en el cuadro anterior se presenta el dato específico para cada nota. Para

brindar una distribución más “resumida” podrían agruparse las notas en rangos

(por ejemplo: notas inferiores a 5, notas de 5 a 7, notas superiores a 7), o en las

categorías que fuesen más adecuadas.

En el siguiente apartado vamos a estudiar los aspectos a tomar en cuenta al

elaborar distribuciones de frecuencias para variables continuas, pero las

indicaciones que se brindan son aplicables para construir distribuciones de

variables discretas en los casos que corresponda.

2. Distribución de Frecuencias para una Variable Continua.

2.1 El Problema del Redondeo.

Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez

6

Como estudiamos en el tema 1, las variables continuas son las pueden tomar

cualquier valor dentro de un intervalo y sus valores se obtienen por medición, tales

como las mediciones de peso, estatura, temperatura y tiempo; entre otras.

Debido a las limitaciones para medir con exactitud las variables continuas, la

mayoría de las veces lo que hacemos es aplicar algún tipo de redondeo. Por

ejemplo, para registrar la edad exacta de una persona sería necesario anotar los

años, meses, días, horas e inclusive los minutos que ha vivido; pero aún así entre

dos edades específicas siempre existe un número casi infinito de valores que

podría asumir la variable edad. En este caso, si calculamos la edad de las

personas de acuerdo con su año de nacimiento, sin tomar en cuenta el mes, en

algunos casos vamos a redondear a la edad próxima (para quienes no han

cumplido años) y en otros años vamos redondear a la edad que ya cumplió

durante el año en curso, es decir, redondeamos a la edad anterior.

El procedimiento de redondeo que más conocemos es “a la unidad más próxima”

pero también puede aplicarse el redondeo “había abajo” o “hacia arriba”:

- Redondeo “a la unidad más próxima”: de acuerdo con la unidad de medida

que utilicemos, observamos si la cantidad en décimas, centésimas o milésimas es

menor o mayor a la mitad de dicha unidad. Por ejemplo, si el promedio ponderado

de un estudiante es 80,4 y necesitamos expresarlo en cifras enteras, registramos

su promedio como 80, dado que 0,4 es menor a 0,5. Si el promedio ponderado de

otro estudiante fuese 77,8 entonces quedaría registrado como 78 (ya que 0,8 es

mayor a 0,5).

¿Qué pasa cuando la cantidad de referencia es igual a la mitad de la unidad de

medida? Por ejemplo, que un promedio ponderado fuese de 73,5. En este caso se

puede aplicar la siguiente regla práctica:

- Si el dígito que precede al último número es par: la cantidad entera se deja igual.

- Si el dígito que precede al último número es impar: entonces la cantidad se

aumenta (redondea) a la unidad siguiente.

En el ejemplo anterior, dado que en el promedio 73,5 el número que precede al

cinco es impar (3), entonces se registraría un promedio ponderado de 74.

Redondeo “hacia abajo”: En este tipo de redondeo se mantiene igual la parte

“entera” y se elimina la parte decimal. Por ejemplo, una nota final de 92,7 se

redondearía a 92.

Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez

7

Redondeo “había arriba”: En este caso el último dígito siempre aumenta en una

unidad, excepto que la cifra “entera” vaya seguido de ceros (sin decimales). De

esta forma, una nota de 65,2 aumentaría a 66; mientras que una nota de 85,0

quedaría siempre como 85.

Lo más importante es que todas las personas involucradas en el estudio o

investigación sigan las mismas normas de medición y redondeo de las variables

continuas, para evitar problemas de precisión en los datos recopilados.

2.2 Construcción de la Distribución de Frecuencias de Variables Continuas.

Como observamos en el primer apartado de esta ficha, la construcción de

distribuciones de frecuencia para variables cualitativas o discretas no presenta

ninguna dificultad especial. En el caso de las variables continuas es necesario

agrupar los datos en intervalos o clases, de manera que la distribución de

frecuencias realmente pueda brindar al lector o usuario final de los datos un

resumen de los mismos.

Los pasos a seguir para la construcción de una distribución de frecuencias son:

a. Determinar la amplitud total: que es la diferencia entre la mayor y menor de

las observaciones (el recorrido): R = observación mayor – observación menor.

b. Seleccionar el número de clases (k) y el intervalo de clase (c): para lo cual

se divide la amplitud total entre 5 para obtener el intervalo más grande y entre 15

para el intervalo más pequeño. Es recomendable que el intervalo de clase elegido

sea un número entero y si es posible impar, ya que van a producir puntos medios

enteros cuando se aplica el redondeo a la unidad más próxima.

No hay un criterio o regla única para establecer el número de clases adecuado

para un grupo de datos, pero en general varía entre 5 y 20 clases. De manera

similar, el establecimiento del intervalo de clase depende mucho de la experiencia

del investigador y de una adecuada apreciación de los datos recopilados.

Sugerencia: Se recomienda que los intervalos sean iguales para todas las

clases, ya que si las amplitudes son diferentes no sería posible hacer

comparaciones entre ellas. Además, para la representación gráfica de la

Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez

8

distribución tendrían que realizarse cálculos adicionales (densidades de

frecuencia).

c. Determinar los límites y puntos medios de clase: estos límites deben

elegirse de manera que el valor medio de cada clase coincida, hasta donde sea

posible, con los valores alrededor de los cuales tienden a concentrarse los datos.

Por ejemplo, si en una distribución hay un valor que se repite con mayor

frecuencia (valor modal), dicho valor debería corresponder al punto medio de la

clase correspondiente. Los otros límites se van obteniendo al restar o sumar el

intervalo de clase establecido, hasta obtener suficientes clases para que la menor

y mayor de las observaciones queden incluidas en la distribución de frecuencias.

Es común establecer el límite inferior de la primera clase igual al valor más

pequeño presente del conjunto de datos, no obstante, también puede iniciarse con

un valor inferior si es más conveniente. Luego, se va sumando el intervalo de

clase para establecer los restantes límites inferiores.

Una vez determinados los aspectos anteriores se procede a elaborar el cuadro

con la respectiva distribución de frecuencias. Además de los límites de cada clase

(reales o indicados), los puntos medios de clase y las frecuencias absolutas

simples (número de observaciones en cada clase), pueden incluirse otras

columnas adicionales con las frecuencias relativas (proporciones o porcentajes) y

frecuencias acumuladas. El siguiente es un esquema de una distribución que

incluye todas las columnas anteriores:

Frecuencia Frecuencia Frecuencia Frecuencia

Puntos Frecuencia Frecuencia Absoluta Absoluta Relativa Relativa

Clases Medios Absoluta Relativa Acumulada Acumulada Acumulada Acumulada

Li - Ls (xi) (fi) (fi/n) Fi ↓ Fi ↑ ↓ ↑

Li - Ls x1 f1 f1/n F1 = f1 F1 = n F1/n = f1/n Fk/n = 1

Li - Ls x2 f2 f2/n F2 = f1 + f2 : : :

: : : : : : : :

Li - Ls xk fk fk/n Fk = n Fk = fk Fk/n = 1 Fk/n = fk/n

Total n 1

Distribución de Frecuencias Elementos Adicionales

En los siguientes apartados se describen más detalladamente los elementos de

una distribución de frecuencias.

3. Límites, Intervalo y Puntos Medios de Clase.

3.1 Límites Indicados y Límites Reales:

Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez

9

Los límites de clase son los valores que separan a una clase en particular de la

anterior y de la siguiente. Las clases pueden anotarse en forma de límites

indicados o límites reales, siendo importante establecer bien estos últimos

porque con base en ellos se calculan luego los puntos medios de clase, que serán

utilizados para el cálculo de algunas medidas de posición y variabilidad.

Usualmente, los límites se representan con Li (límite inferior) y Ls (límite superior).

Por lo general, al presentar una distribución de frecuencias en un informe o

artículo de investigación, los límites incluidos en la columna matriz del cuadro son

los límites indicados.

Para las variables discretas los límites reales y los indicados son iguales, pero en

el caso de variables continuas dependen del tipo de redondeo que se haya

aplicado a los datos. Por ejemplo, suponga que se tienen datos referentes al peso

en Kg. de un conjunto de personas, según el redondeo que haya sido aplicado, los

límites indicados y los límites reales podrían ser:

Establecimiento de los Límites Reales:

Límites Redondeo al Redondeo hacia abajo Redondeo hacia arriba

Indicados Kg. más próximo Kg. completos Kg. siguiente

40 Kg. - 49 Kg. 39,5 Kg. - 49,5 Kg. 40 a menos de 50 Más de 39 a 49

50 Kg. - 59 Kg. 49,5 Kg. - 59,5 Kg. 50 a menos de 60 Más de 49 a 59

60 Kg. - 69 Kg. 59,5 Kg. - 69,5 Kg. 60 a menos de 70 Más de 59 a 69

etc. etc. etc. etc.

En el caso de redondeo al Kg. más próximo, los límites reales señalan que en la

clase que va de 40 a 49 Kg. hemos clasificado los pesos que en realidad variaban

entre 39,5 y 49,5. El hecho que el límite superior de la primera clase coincida con

el límite inferior de la segunda clase (49,5 Kg.) refleja que estamos trabajando con

una variable continua.

Con respecto al redondeo hacia abajo, tomaríamos en cuenta solamente el peso

en Kg. completos, por ello si una persona pesa 40 o más Kg. y no llega a

completar los 50 Kg. (aunque su peso fuese por ejemplo 49,9) en los límites reales

se indica que el peso real varía entre 40 a menos de 50 Kg. En el caso del

redondeo hacia arriba, siempre aumentamos al Kg. siguiente, por lo cual una

persona cuyo peso sea de más de 39 hasta 49 Kg. sería clasificado entre los

límites indicados para la primera clase (40 a 49).

Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez

10

3.2 Intervalo de Clase (c).

El intervalo indica la amplitud o tamaño de una clase y se obtiene por medio de la

diferencia entre el límite real superior y el límite real inferior de cada clase. Lo

usual en las distribuciones de frecuencias es que todas las clases sean de igual

amplitud y, por tanto, el intervalo es uniforme (igual) en la distribución. No

obstante, en algunas situaciones y debido al comportamiento que pueden mostrar

las variables es necesario construir clases de diferente amplitud. En algunas

fórmulas de cálculo para datos agrupados se requiere calcular el intervalo de

clase, el cual se denota con la letra “c”.

3.3 Punto Medio de Clase (xi):

Los puntos medios son los valores centrales de cada clase y se obtienen

calculando el promedio entre los límites reales (inferior y superior), es decir, se

suman dichos límites y luego el total se divide entre dos. Los puntos medios son

muy importantes porque intervienen en algunas fórmulas para el cálculo de

medidas de posición y variabilidad. Esto quiere decir que el punto medio de clase

es representativo de todas las observaciones agrupadas en la respectiva clase y

es representado como xi.

Nota: En algunas ocasiones, debido a la presencia de valores cuya magnitud

se aparta mucho de la mayoría de los datos, ya sean valores muy pequeños o

muy grandes con respecto a los demás, obliga a crear en una distribución lo

que se conoce como clases abiertas. Lo anterior porque tendrían que dejarse

clases vacías para lograr una distribución con intervalos iguales. Esta situación

se presenta cuando observamos, por ejemplo, que la última clase dice “60

años o más” o la primera clase de una distribución indica “Menos de 15 años”.

La presencia de clase abiertas imposibilita del intervalo y el punto medio de

clase, por ello se recomienda evitarlas siempre que sea posible.

4. Frecuencias Absolutas y Relativas, Simples y Acumuladas.

Según los resultados requeridos por el/la investigador/a, en la distribución de frecuencias pueden incluirse las siguientes columnas:

a. Frecuencias Absolutas Simples (fi): corresponden al número de

observaciones en cada clase. La suma de las frecuencias absolutas simples es

igual al número de observaciones o datos (∑fi = n).

Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez

11

b. Frecuencias Relativas Simples (fi/n): es la proporción o porcentaje de

observaciones en cada clase con respecto al total. La suma de las frecuencias

relativas es igual a uno (∑fi/n = n/n = 1).

c. Frecuencias Absolutas Acumuladas: La acumulación puede hacerse en dos

sentidos:

- “Menos de” o “igual o menor que” (Fi ↓): muestran el número de

observaciones menores o iguales al límite real superior de la clase

correspondiente.

- “Más de” o “mayor o igual que” (Fi ↑): muestran el número de

observaciones mayores o iguales al límite real inferior de la clase

correspondiente.

d. Frecuencias Relativas Acumuladas: Se definen de manera similar a las

frecuencias absolutas acumuladas, pero en términos de proporciones o

porcentajes.

5. Representación Gráfica de las Distribuciones de Frecuencia.

5.1 Distribución de una Variable Discreta.

- Gráfico de Bastones: La representación gráfica de una distribución de

frecuencias correspondiente a una variable discreta puede hacerse mediante un

gráfico de bastones, representando en el eje “X” los valores que asume la variable

y en el eje “Y” las respectivas frecuencias. Puede construirse tanto para

representar las frecuencias absolutas como las frecuencias relativas o las

frecuencias acumuladas (en este último caso el gráfico mostrará una forma similar

a unas gradas).

- Polígono de Frecuencias: Si al gráfico de bastones se le traza además una

línea de tendencia, la cual une los puntos superiores de cada bastón, obtenemos

el gráfico denominado polígono de frecuencias.

Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez

12

5.2 Distribución de una Variable Continua.

- Histograma: Es un gráfico de barras verticales contiguas (juntas). En el eje “X”

se marcan los límites reales de clase y dibujamos una línea hacia arriba hasta el

punto del eje “Y” al cual corresponde la frecuencia absoluta simple de la respectiva

clase. En caso que las clases tengan diferente amplitud, la altura de las barras

debe ser igual a su densidad de frecuencia, con el propósito que refleje el área

correspondiente.

- Polígono de Frecuencias: Este gráfico presenta de forma más clara la forma

general de la distribución. En el eje “X” se representan los puntos medios de clase

y en el eje “Y” la frecuencia absoluta.

- Curva de Frecuencias: Se puede decir que una primera aproximación a la

representación gráfica de una distribución de frecuencias teórica (distribución de

probabilidades) es un polígono de frecuencias suavizado. La mayoría de variables

pueden mostrar una curva aproximada a distribución normal (forma de campana).

de E

stu

dia

nte

s

Nº Cursos Matriculados

Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez

13

- Polígono de Frecuencias Acumuladas (Ojivas):

Este gráfico se obtiene al plotear las frecuencias acumuladas “menos de” sobre

los límites superiores reales de cada clase, y las frecuencias acumuladas “más de”

sobre los límites inferiores reales. Las frecuencias acumuladas se representan en

el eje “Y”. El valor correspondiente a la intersección entre ambas ojivas

corresponde a la mediana.

6. Ejemplo Ilustrativo General.

Los siguientes datos corresponden a la edad en años cumplidos de un grupo de

50 estudiantes, redondeadas a la edad más próxima:

21 22 23 24 24 24 24 24 25 25

25 26 26 26 26 27 27 27 27 27

27 27 27 28 28 28 28 28 29 29

29 30 30 30 30 30 30 31 31 31

33 34 34 35 36 37 42 44 44 47

Para elaborar una distribución de frecuencias con los datos anteriores vamos a

proceder a:

- Calcular el recorrido total de los datos: R = 47 – 21 = 26

- Determinar el intervalo (c) y número de clases (k): para ello vamos a calcular

diferentes opciones:

Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez

14

Nº de Intervalo

Clases (=26/k)

k = 5 5,2

k = 6 4,3

k = 7 3,7

k = 8 3,3

k = 9 2,9

k = 10 2,6

De acuerdo con las opciones anteriores, el intervalo de clase podría variar entre 5

y 3. En este caso se considera una buena opción es construir 5 clases con un

intervalo de clase de 5 años cada una. Recordemos también que es preferible

trabajar con un intervalo impar para así obtener puntos medios que sean números

enteros.

- Determinar los límites y puntos medios de clase: el valor más pequeño en el

conjunto de datos es 21 años, no obstante, vamos a establecer el límite inferior de

la primera clase en 20 años. Dado que el intervalo a utilizar es de 5 años, el límite

superior de la primera clase es 24 años, ya que comprende las edades: 20, 21, 22,

23 y 24. Luego, aplicando el mismo intervalo vamos estableciendo los límites

indicados de las restantes clases.

Dado que el tipo de redondeo que se aplicó fue a la edad más próxima, definimos

los límites reales que reflejan dicho redondeo. Y, luego calculamos el promedio de

dichos límites para obtener los puntos medios de clase, que también van a tener

una diferencia de 5 años entre uno y otro.

- Obtener las frecuencias simples, relativas y acumuladas: por medio del conteo

de casos obtenemos la frecuencia simple (número de observaciones) que se

encuentran dentro de los límites de cada clase. En este caso estas frecuencias

corresponden al número de estudiantes que tienen edades entre los límites

correspondientes. A partir de estas frecuencias absolutas se pueden calcular las

frecuencias relativas y acumuladas:

Distribución de las Edades de 50 Estudiantes

Puntos Nº de Frecuencia Frecuencia

Límites Límites Medios Estudiantes Proporción Acumulada Acumulada

Indicados Reales (xi) (fi) (fi/n) Fi ↓ Fi ↑

20-24 19,5 a 24,5 22 8 0,16 8 50

Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez

15

25-29 24,5 a 29,5 27 23 0,46 31 42

30-34 29,5 a 34,5 32 12 0,24 43 19

35-39 34,5 a 39,5 37 3 0,06 46 7

40-44 39,5 a 44,5 42 3 0,06 49 4

45-49 44,5 a 49,5 47 1 0,02 50 1

Total 50 1

Fuentes Consultadas.

- Gómez Barrantes, Miguel. Elementos de Estadística Descriptiva. 3º edición.

EUNED. Costa Rica, 2010.

- Chavarría, Juan B. Notas de Clase para el curso Métodos Estadísticos. Inédito.

- Quintana R., Carlos. Estadística Elemental. 1 edición. Editorial Universidad de

Costa Rica. Costa Rica, 2007.

Lecturas Recomendadas en el libro “Elementos de Estadística Descriptiva.

- Tema VII. Distribuciones de Frecuencias (completa), de la pág. 239 a 259.