Apuntes de Estadística Descriptiva - rincondepaco.com.mx · Tipos de estadística ... Las...
Transcript of Apuntes de Estadística Descriptiva - rincondepaco.com.mx · Tipos de estadística ... Las...
Apuntes de Estadística Descriptiva
Elsa Karina López Lugo Francisco Juárez García
Primera Edición, 2004
© 2004 Francisco Juárez García
Instituto Nacional de Psiquiatría Ramón de la Fuente,
Dirección de Investigación Epidemiológicas y Psicosociales
Calzada México Xochimilco 101,
Col. San Lorenzo Huipulco,
14370 México, D. F.
Tel.: 56 55 28 11 ext. 202 fax: 55 13 34 46
e-mail: [email protected]
Reservados todos los derechos
ISBN:
Impreso en México / Printed in Mexico
Agradeceremos todos los comentarios relativos a esta guía, estos deben ser enviados a la dirección
arriba mencionada.
El presente trabajo debe ser citado como sigue:
López, E. K. y Juárez, F. (2004). Apuntes de Estadística Descriptiva. México, D. F.: Instituto Nacional
de Psiquiatría Ramón de la Fuente.
3
Contenido
Presentación ....................................................................................................................................... 5
Introducción al Análisis Estadístico de Datos................................................................................... 6 La estadística en Psicología .............................................................................................................. 6
Importancia y utilidad en la Psicología .......................................................................................... 6
Tipos de estadística .......................................................................................................................... 6
Estadística Descriptiva .................................................................................................................. 7
Estadística Inferencial ................................................................................................................... 7
Conceptos básicos para el análisis estadístico ................................................................................... 7
Variables ....................................................................................................................................... 7
La estadística y la computadora ...................................................................................................... 10
Codificación de datos .................................................................................................................. 10
Frecuencias ...................................................................................................................................... 15 Tabla de frecuencias ....................................................................................................................... 15
Tabla de frecuencia de datos no agrupados .................................................................................. 15
Tabla de frecuencia de datos agrupados ....................................................................................... 16
Columna de datos o categorías .................................................................................................... 17
Frecuencia absoluta (f) ................................................................................................................ 17
Frecuencia absoluta acumulada (fa) ............................................................................................. 17
Frecuencias relativas o porcentajes (%) ....................................................................................... 17
Frecuencias relativas acumuladas o porcentajes acumulados (%a) ............................................... 19
Requerimientos para la elaboración de tablas:................................................................................. 19
Representación Gráfica de Datos .................................................................................................... 20 Datos Cualitativos .......................................................................................................................... 20
Gráfica de barras ......................................................................................................................... 20
Gráfica Circular .......................................................................................................................... 20
Gráfica Pictórica o Pictograma .................................................................................................... 21
Datos Cuantitativos ........................................................................................................................ 21
Histograma.................................................................................................................................. 21
Polígono de frecuencia ................................................................................................................ 21
Gráfica Lineal o Poligonal........................................................................................................... 22
Requerimientos para la elaboración de gráficas .............................................................................. 22
Gráficas engañosas ......................................................................................................................... 22
Medidas de Tendencia Central ....................................................................................................... 23
Media aritmética ( x ) ..................................................................................................................... 23
Moda (Mo) ..................................................................................................................................... 24 Mediana (Md) ................................................................................................................................. 24
Medidas de Posición ........................................................................................................................ 27 Cuartiles ......................................................................................................................................... 27
Percentiles ...................................................................................................................................... 27
Medidas de Dispersión o Variabilidad ............................................................................................ 31 Valores mínimo y máximo ............................................................................................................. 31
4
Rango o amplitud ........................................................................................................................... 31
Varianza ......................................................................................................................................... 32 Desviación Estándar o Típica (s) .................................................................................................... 34
Medidas de Distribución.................................................................................................................. 36
Características de la Curva Normal ............................................................................................... 40
Bibliografía: ..................................................................................................................................... 42
5
Presentación
En el aprendizaje de la Psicología es necesario considerar diversas herramientas que permitirán el
óptimo desarrollo en el campo profesional. Entre estas herramientas se encuentran las relacionadas con
investigación, la manera de realizarla (método) y la forma de analizar los datos obtenidos y de interpretar los
resultados (estadística)
La estadística es una herramienta invaluable dentro de la Psicología. El dominio de esta materia
permite, no solo el análisis de las investigaciones propias, sino también permite la comprensión de los
trabajos realizados por otros, como es el caso de los artículos científicos.
Esta material tiene como finalidad brindar a herramientas metodológicas utilizadas en Psicología y
despertar el interés en la investigación en esta área. En un primer momento se reflexiona acerca de la
importancia de aprender la estadística, más allá de su relación con las matemáticas, como una forma de
organizar e interpretar datos, en el trabajo creativo necesario para la investigación. Posteriormente se sientan
las bases para poder realizar un análisis estadístico de los datos para, finalmente a revisar cada uno de los
procesos estadísticos descriptivos.
Objetivos:
Al finalizar el lector:
Reconocerá la estadística cómo una herramienta importante en el campo de la Psicología
Podrá elegir el estadístico adecuado para describir las características de los sujetos de una
investigación, de acuerdo con el nivel de medición de las variables
Interpretará los resultados obtenidos
Nivel: Introductorio
6
Introducción al Análisis Estadístico de Datos
La estadística en Psicología
La estadística es una rama de las matemáticas aplicadas. que tiene como objetivo la descripción y el
análisis de los fenómenos de interés social.
La mayor parte de los fundamentos de estadística aplicada y su uso apropiado pueden dominarse sin
hacer referencia a habilidades en matemáticas avanzadas, de hecho, los conocimientos que se requieren para
el aprendizaje de la estadística están relacionados con las matemáticas básicas y el álgebra.
Importancia y utilidad en la Psicología
En la Psicología una de las funciones más importantes que realizamos es la observación de los
fenómenos que acontecen a nuestro alrededor. Sin embargo para que estas observaciones se consideren sin
interferir el criterio del observador, es necesario echar mano de herramientas científicas que nos permitan
hacer válido el proceso de recolección de datos.
En todas las disciplinas, y en la psicología en particular, la estadística permite dar una explicación
más científica de los fenómenos de estudio. Debido a su objetividad en la medición de dichos fenómenos.
En Psicología los números nos sirven para:
Describir a los sujetos de una población. Decir cuántas personas hay y con qué características.
Obtener parámetros para ubicar a los sujetos de una población con base en una característica. Por
ejemplo: En la interpretación de las pruebas psicológicas comparamos a cada persona con una norma
ya establecida.
Hacer predicciones de cómo se comportarán los fenómenos a futuro. Con mediciones sistemáticas a
lo largo del tiempo los modelos estadísticos van a permitir suponer cómo se seguirán comportando
posteriormente.
La importancia de medir en Psicología está presente en todas sus áreas de trabajo:
Investigación: Ayuda a conocer y prevenir problemas sociales e individuales.
Clínica: Permite conocer las características individuales de los pacientes y sus padecimientos, para así
poder ayudarlos más efectivamente.
Educativa: Determina las características y las necesidades de la población escolar para desarrollar
programas que les permitan mejorar.
Organizacional: En empresas es importante conocer las características de los empleados, para así
poder ubicarlos en el mejor puesto o potencializar sus habilidades.
Tipos de estadística
Existen dos corrientes que han influenciado el desarrollo de los métodos estadísticos:
El primero se relaciona con las actividades de conteo, medición, descripción, tabulación,
ordenamiento y levantamiento censal. Este tipo de estadística permite describir la población con la
que se está trabajando. Estadística Descriptiva.
El segundo tipo está basada en la exactitud de la probabilidad matemática y se originó de los juegos
del azar. Permite hacer inferencias del comportamiento: Estadística Inferencial.
7
Estadística Descriptiva
La mente humana no puede extraer fácilmente toda la importancia de una serie de datos
desorganizados, sin la ayuda de técnicas especiales. De manera que cuando los conjuntos de datos muy
grandes deben experimentar un proceso de organización y resumen para que sean entendibles para las
personas que no estén familiarizadas con la investigación.
Es por ello que la Estadística Descriptiva proporciona herramientas para organizar, simplificar y
resumir información básica a partir de un conjunto de datos que de otra forma sería poco manejable. Incluye
la tabulación, representación y descripción de conjuntos de datos tanto de variables numéricas como de
variables categóricas. Es la primera tarea a realizar en el análisis de los datos, ya que su misión es describir
los datos, valores o puntuaciones obtenidos para cada variable y sirve de base para otros análisis más
avanzados.
Estadística Inferencial
Proporciona métodos para estimar las características de un grupo total o población, basándose en
datos de un subconjunto obtenido de la población o muestra de observaciones. Realiza inferencias objetivas
basadas en los datos obtenidos. Utiliza la estadística descriptiva como el primer paso antes de la realización
de inferencias.
Conceptos básicos para el análisis estadístico
El objetivo del presente escrito es dar a conocer los principales usos de la estadística descriptiva, así
como el desarrollo de sus estadísticos y fórmulas. Para ello, es necesario que antes se conozcan algunos
conceptos que servirán como base para el mejor entendimiento de los contenidos.
Variables
Las variables son todos aquellos atributos que se pueden medir, controlar y estudiar en una
investigación.
Las variables son construcciones hipotéticas o propiedades que se estudian.
Una variable es una propiedad que adquiere distintos valores. Es una cosa que varía.
Es un atributo o concepto al que se le asignan números o valores.
8
Las variables adquieren valor para la investigación científica cuando pueden ser relacionadas con otras
variables.
Existen diferentes clasificaciones de las variables, las cuales dependen de:
A. La cantidad de valores
Dicotómica. Es aquella variable en la que sólo existen dos valores. Generalmente se refiere a la
existencia o no existencia de la característica o a la clasificación en dos categorías.
Ejemplo: Sexo: Masculino y femenino.
Politómicas. Es cuando el fenómeno puede presentarse en tonalidades o matices diferentes, o en
grados, magnitudes o medidas distintas. Ejemplo: Edad, religión, estado civil, sueldo, estatura, etc.
Por sus características, las variables politómicas pueden convertirse en dicotómicas, al agrupar los
números o las categorías, pero no puede existir el procedimiento inverso. Esto depende de los
objetivos de investigación.
Ejemplo de ello es la variable estado civil que originalmente es politómica al tener muchos valores,
pero que puede convertirse en dicotómica como lo muestra el siguiente esquema:
Soltero
Casado
Divorciado
Unión libre
Viudo
Con pareja
Sin pareja
ESTADO CIVIL POLITÓMICA ESTADO CIVIL DICOTÓMICA
B. El tipo de valores
Categórica. Es aquella en la que el fenómeno tiene valores referidos a clasificaciones o categorías sin
un correlato numérico directo. Ejemplo: Sexo (hombres y mujeres), estado civil (soltero, casado,
divorciado, etc.).
Numérica. Es cuando los valores de la variable se presentan naturalmente en números. Esto es, las
respuestas a las preguntas van a ser datos numéricos. Ejemplo: Edad, Peso, Talla, etc.
Las variables continuas pueden convertirse en categóricas, al agrupar los números en categorías, pero
no puede existir el procedimiento inverso.
Ejemplo: La edad es una variable numérica por naturaleza, pero en ocasiones debe convertirse en
categórica para el mejor manejo de la información, como se muestra a continuación:
EDAD NUMÉRICA 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
EDAD CATEGÓRICA Adolescentes Jóvenes Adultos jóvenes
C. El nivel de medición
En la interpretación de una variable influye la escala con la que fue medida. Así, existen 4 escalas o
niveles de medición:
9
Nominal
Es el nivel de medida más básico.
Agrupa unidades en categorías basándose en uno o más atributos o propiedades.
No existe un correlato numérico.
Las categorías no reflejan ningún orden o jerarquía entre unas y otras.
Ejemplos: Sexo, estado civil, carrera, religión, deporte favorito, ocupación, pasatiempo, etc.
Ordinal
Las observaciones pueden colocarse en un orden jerárquico.
Se utilizan categorías que no representan un orden.
No existe una diferencia exacta entre un valor y otro. Esto es, no se sabe si hay la misma distancia
entre una categoría y otra.
No hay indicación de cuanto se posee del atributo.
Ejemplos: Escolaridad, grado académico, puesto en el trabajo, semestre, etc.
Intervalar o de intervalo
Son valores numéricos.
Los números son consecutivos y marcan intervalos iguales o cantidades iguales entre ellos.
No tienen un cero absoluto, esto es, el cero no representa la ausencia de la característica, puede ser un
valor más de la escala.
Se sabe cuanto se diferencian los objetos uno de otro.
Por su forma de ser medidas, las variables referidas a características psicológicas son intervalares.
Ejemplos: Temperatura, depresión, actitud, etc.
Se compara un sujeto con respecto a otro o con respecto a la media poblacional.
Ejemplo: La diferencia entre un C. I. de 120 a 125 es la misma que entre 112 y 117 (125-120 = 5,
117-112= 5).
De proporción o razón
Tiene las mismas características que los intervalares, pero el cero es absoluto, esto es, el cero indica la
ausencia de la característica.
Inicia la medición a partir de cero.
Se compara un sujeto con respecto al cero absoluto.
Las medidas físicas, en su mayoría, tienen este nivel de medición.
Ejemplos: Longitud, tiempo, peso, área, costo por estudiante, calificaciones, etc.
Características de los niveles de medición
Nominal Ordinal Intervalar Proporción
A diferente de B
A mayor que B
A excede en X unidades a B
A excede en X % a B
10
Aplicaciones en psicología
En todas las áreas de la psicología, y especialmente en investigación, se utilizan variables con diferentes
niveles de medición: Estos nos indican la forma o escala por la que fueron medidas dichos datos. Se
clasifican en:
Nominales. Pacientes clasificados por padecimientos, fumadores y no fumadores, personas que
tienen una enfermedad o no la tienen, etc.
Ordinales. Nivel de patología: Ausente, leve, moderado, alto
Intervalares. Calificación de inteligencia, autoestima, depresión.
De razón. Tiempo en el que la rata cruza un laberinto, tiempo de reacción, promedio escolar.
La estadística y la computadora
Otra herramienta indispensable en la actualidad para el desarrollo de la Psicología, es la computadora,
instrumento mediante el cual podemos hacer una cantidad de tareas con mayor facilidad y rapidez.
Entre estas tareas se encuentran:
Elaboración de textos y gráficas para artículos o tareas con buena presentación.
Presentaciones visuales de nuestros trabajos.
Bases de datos que permitan el acceso más rápido de la información que buscamos. Por ejemplo: la
biblioteca.
Análisis de datos de manera más rápida y precisa.
Este último se realiza, en Psicología, mediante paquetes de análisis estadístico de datos como el
programa SPSS (Statistical Package for Social Sciences). Dicho programa nos permite desde obtener una
descripción general de nuestros sujetos, hasta un análisis complicado que nos permita predecir como se
comportará el fenómeno a futuro.
En la actualidad el análisis de datos se lleva a cabo por computadora. Ya prácticamente nadie lo hace
de forma manual, especialmente si hay un volumen de datos considerable. Es por ello que casi todas las
instituciones de educación superior, centros de investigación y empresas, disponen de sistemas de cómputo
para archivar y analizar datos.
Codificación de datos
Una vez que se han aplicado los cuestionarios de una investigación, es necesario preparar los datos
obtenidos para poder analizarlos estadísticamente. Para ello hay que realizar dos actividades:
Codificar las respuestas
Realizar una guía de codificación
Codificar las respuestas
Es asignar números preestablecidos a cada una de las respuestas dadas al cuestionario aplicado. Esto
es, asignar valores a cada una de las opciones de una variable.
La razón de codificar es hacer que los datos de investigación sean comparables entre sí y poder tener
un mayor control de ellos. Aunque se pueden capturar categorías alfabéticas, cuando se utilizan letras para la
computadora las letras minúsculas y mayúsculas son caracteres diferentes, lo que permite una combinación
muy grande de ellos en una misma palabra, por ejemplo: En una variable cuyas opciones de respuesta son no
11
o si, la palabra Si es diferente de la palabra si y de la palabra SI y de la palabra sI, como puede apreciarse, aún
con dos letras, la combinación posible es de cuatro opciones distintas posibles que se pueden capturar, con
cuatro códigos completamente distintos, de una sola de las opciones, más otras cuatro de la respuesta No. Si
en lugar de eso definimos para la opción Si el código 1 y para el No el código 2, esta situación se vuelve más
controlable.
Procedimiento para codificar
Primeramente es necesario identificar las variables y las respuestas que puede adquirir cada una de
ellas. En el siguiente ejemplo se tienen: una variable nominal (sexo), una ordinal (escolaridad) y una
intervalar (edad).
Variables Sexo Escolaridad Edad
Respuestas Hombre
Mujer
Primaria
Secundaria
Preparatoria
Licenciatura
6
8
12
17
Posteriormente se asignan valores determinados por el investigador a las opciones de cada variable
categórica, cabe aclarar que las variables continuas mantienen su valor pues su significado numérico no
necesita mayor interpretación. Es así que las variables categóricas como sexo y escolaridad se les asigna un
valor, para las variables nominales no importa cuál le corresponda a cada opción pues únicamente permitirán
identificar y diferenciar (en este caso hombre con 1 y mujer con 2, aunque esto puede invertirse) y para la
variable ordinal los códigos deben reflejar el orden que representan las categorías (la menor escolaridad es
primaria por lo que le corresponde el valor más pequeño, seguida de secundaria y preparatoria, la mayor es
licenciatura por lo que debe asignársele el valor mas alto).
Variables Sexo Escolaridad Edad
Respuestas Hombre
Mujer
Primaria
Secundaria
Preparatoria
Licenciatura
6
8
12
17
Valores 1. Hombre
2. Mujer
1. Primaria
2. Secundaria
3. Preparatoria
4. Licenciatura
6
8
12
17
La asignación de códigos a las variables se realiza de manera arbitraria, esto es, cada investigador
asigna los códigos que el mismo establece. Sin embargo, cuando dicha investigación va a ser retomada en un
tiempo lejano o por otras personas, es difícil adivinar los códigos asignados, es por ello que se debe realizar
una guía de codificación que permita evitar errores al respecto.
Guía de codificación
La guía de codificación es como un índice en donde se especifican todas y cada una de las variables
del estudio, sus características y los valores que se les asignaron al codificarlas.
12
Es una herramienta muy importante por las siguientes razones:
Contiene toda la información que se requiere a lo largo del proceso.
Homogeneiza la elaboración de bases de datos y documentos derivados del análisis.
Permite que otra persona identifique las características de los datos utilizados, por lo que sirven de
consulta para investigaciones posteriores.
Los elementos que conforman una guía de codificación son:
Nombre de la variable (NAME).
Se requiere un nombre resumido con el cual se identificará la variable en el análisis. Debe:
Ser una clave de máximo 8 caracteres
Comenzar con una letra
No debe incluir espacios, acentos, ni caracteres especiales como: ¿?#$%(/)\+-*.
Tipo de variable (TYPE).
Se refiere al tipo de datos que contendrá la variable. Existen muchos, pero los más usuales son:
► Alfabética. Cuando las respuestas del cuestionario están dadas en letras y no en números.
Limita la realización de análisis estadísticos, por lo que se recomienda primeramente codificar
la variable y pasarla a numérica, ya que así se tendrán más posibilidades para el análisis.
► Numérica. Permite la captura de números solamente. Es el más recomendado ya que permite
realizar más análisis estadísticos que los otros tipos. Además, al hacer la codificación siempre
se asignan números a las categorías, por lo que es el tipo más usado.
Número de campos (WIDTH) y decimales (DECIMALS).
Se trata del número de dígitos que componen la respuesta de la variable. Se cuenta el número de
espacios necesarios para capturar todas las opciones de una variable. En el conteo deben incluirse
el punto y los decimales.
Ejemplo:
Sexo: Se codificó como (1) Hombre y (2) Mujer, para capturar estas
opciones se requiere de una columna o espacio. Esto puede
simbolizarse como 1.0, ya que se utilizará una columna sin
decimales.
Escolaridad: Se codificó como (1) Primaria, (2) Secundaria, (3)
Preparatoria y (4) Licenciatura, para capturar estas opciones se
requiere de una columna o espacio. Al igual que la anterior se
simboliza como 1.0.
Edad: Para esta variable se captura la respuesta directa de los sujetos que
en este caso va de 6 a 17 años. Para poder capturar esta variable se
requieren dos columnas. En este caso se describe como 2.0, es
decir una variable de dos espacios sin decimales.
Estatura en metros: Para variables con decimales, debe contabilizarse la
posición del punto decimal, por lo que en este ejemplo que se
tienen estaturas de 1.54 a 1.72 metros, se ocuparán cuatro
columnas de las cuales dos de ellas están después del punto
decimal. Para referirnos al formato de esta variable se puede
1
2
1
2
3
4
6
8
1 2
1 7
13
escribir como 4.2, indicando que utilizará cuatro columnas, de las
cuales las últimas dos son ocupadas por decimales.
Etiqueta de la variable (LABEL).
Permite escribir el nombre completo de la variable o la pregunta que se indaga. Se pueden utilizar
hasta 80 caracteres, con sus respectivos espacios, acentos y otros caracteres como paréntesis,
comillas, diagonales o apóstrofes.
Valores (VALUES).
Es donde se indica a qué se refiere cada uno de los valores codificados. Sólo se utiliza para
variables categóricas cuyos valores se codificaron, Se debe especificar:
► Código de la variable
► Etiquetas de los valores
Variable Códigos Etiqueta del valor
Escolaridad
1
2
3
4
Primaria
Secundaria
Preparatoria
Licenciatura
Valores perdidos (MISSING VALUES).
Se asigna un valor determinado a las situaciones donde no se obtiene respuesta o ésta no entra
dentro del rango de respuesta establecido por el investigador.
Generalmente se utiliza el “9” o cadenas de nueves para asignar este valor.
Está estrechamente relacionada con el número de espacios que se le asignó a cada variable.
Ejemplo: En una variable como el sexo que ocupa solo un espacio su valor perdido es “9”
Variable Numero de
Campos Valor perdido
Escolaridad 1 9
Pasatiempo 2 99
Sueldo
mensual 5 99999
Nivel de medición (MEASURE).
Indica el nivel de medida de la variable, lo que ayuda a elegir los estadísticos a utilizar.
Pueden ser de tres tipos: nominal, ordinal y escalar. En este último se agrupan las variables
numéricas (De razón e intervalar).
La guía de codificación se debe realizar utilizando una tabla como la siguiente, donde cada renglón
indica una variable. Esto es, tendremos tantos renglones como variables en el estudio.
1 . 7 2
1 . 6 8
1 . 5 4
1 . 6 5
14
GUÍA DE CODIFICACIÓN
Nombre de
variable Tipo Campos
Etiqueta de la
variable Valores
Valores
perdidos
Nivel de
medición
Una vez que se tienen las respuestas de los sujetos listas para analizar, se utiliza la estadística descriptiva de
tres maneras:
Tablas de frecuencia
Gráficas
Análisis estadísticos
15
Frecuencias
La recolección de datos constituye la materia prima con la que debe trabajar un investigador para
analizar sus datos, obtener resultados y probar sus hipótesis sobre la naturaleza de la realidad social.
La información estadística puede comunicarse más fácilmente si se organiza en tablas y se muestra en
gráficas, las cuales se describen a continuación:
Tabla de frecuencias
Al resumir grandes colecciones de datos, resulta útil distribuirlos en clases o categorías, y determinar
el número de individuos que pertenecen a cada clase, lo cual se denomina frecuencia de clase. Así, las
frecuencias son el número de veces que ocurre un evento.
Una disposición tabular de los datos por clases junto con las correspondientes frecuencias de clase se
conoce como distribución de frecuencias o tabla de frecuencias.
La comparación entre distribuciones de frecuencia es un procedimiento que se utiliza a menudo para
aclarar resultados y agregar información.
Existen dos tipos de tablas de frecuencia:
De datos no agrupados
De datos agrupados
Tabla de frecuencia de datos no agrupados
La distribución de frecuencias no agrupadas contiene en una columna todos los valores posibles y
en la otra la cantidad de veces que este número o categoría se presenta, esto es, su frecuencia (f).
Ejemplos:
Tabla 1. Sexo Tabla 2. Edad
Categoría f Categoría f
Mujeres 200 60 1
Hombres 600 61 1
Total 800 62 2
63 3
64 5
66 4
67 6
68 3
70 4
71 6
72 3
73 1
74 1
Total 40
La tabla 1 muestra la distribución del género de 800 empleados, donde 600 son hombres y el resto
mujeres.
16
En la tabla 2 se observa que se entrevistaron a 40 personas entre 60 y 74 años, donde las edades más
frecuentes fueron 67 y 71 años.
Tabla de frecuencia de datos agrupados
Es aquella que sus valores se presentan en intervalos. Se utilizan únicamente con variables numéricas
y cuando la variabilidad de los datos es muy amplia.
Pasos para construir una distribución de frecuencia agrupada:
1. Calcular el rango. El rango es la diferencia entre el valor más grande y el valor más pequeño de la
distribución de datos. Suponiendo que el mayor dato sea 74 y el menor sea 60, el rango corresponde
a: 74 – 60 = 14.
2. Determinar el número de intervalos. Lo más indicado es tomar entre 5 y 20 intervalos de clase,
según la distribución de los datos. Generalmente se utilizan 7 que no es tan pequeño ni tan grande,
pero esto siempre depende del interés del investigador, de sus objetivos y de la variabilidad de datos.
Así, si los datos varían poco es recomendable agruparlos en pocos intervalos y viceversa.
3. Determinar el ancho del intervalo (w). Se calcula dividiendo el rango entre el número deseado de
intervalos. Siempre debe ser un número entero o redondearse para que lo sea. Se debe dividir el rango
en un número de intervalos de clase del mismo tamaño.
4. Especificar los límites del intervalo. Deben ser estandarizados para evitar las decisiones contrarias
en cada caso:
o Límite inferior. El intervalo debe comenzar con un múltiplo de w. El primer intervalo
comienza con el múltiplo de w que sea menor o igual al mínimo del rango. Ejemplo: si w es =
3 y el valor mínimo de la distribución es 62 deberá iniciarse en 60.
o Límite superior. Debe sumarse el límite inferior de cada intervalo con el resultado de restar
una al rango. El intervalo debe comenzar con un múltiplo de w. El primer intervalo comienza
con el múltiplo de w que sea menor o igual al mínimo del rango: límites inferiores + (w-1).
Esto con el objeto de que en cada intervalo queden exactamente el número de dígitos
establecido en el rango: 28, 29, 30, 31.
5. Hallar las frecuencias de clase. Contar los valores que caen en cada intervalo para encontrar la
frecuencia de cada intervalo.
Es importante considerar que no siempre resulta exacto el número de intervalos debido a la regla de
los rangos.
Ejemplo (tomando los datos de la tabla de edad anterior):
Paso 1. minmaxrango xx , 146074rango
Paso 2. No. de Intervalos = 5
Paso 3. intervalos de No.
rangow , 8.2
5
14w , redondeado = 3
Paso 4. Límite inferior: base el valor más pequeño con incrementos de w: 60, 63, 66, 69, 72
Limite superior = límites inferiores + (w-1): 62, 65, 68, 71, 74
17
Paso 5. Obtener las frecuencias de clase
Intervalo f
60-62 4
63-65 8
66-68 13
69-71 10
72-74 5
40
Todas las tablas de frecuencias de datos, tanto las agrupadas como las no agrupadas, deben contener
las siguientes columnas:
Columna de datos o categorías
Consiste en datos recogidos que no han sido organizados numéricamente. Para darle orden a una fila
de datos se construye un conjunto de datos numéricos en orden creciente o decreciente.
Cuando se trata de variables categóricas, la fila de datos contiene cada una de las categorías de la
variable.
Frecuencia absoluta (f)
Es el conteo de los datos de cada una de las categorías. Es el número de veces en que se repite cada
uno de los eventos. La sumatoria total de cada uno de esto eventos constituye el número total de
sujetos de la muestra.
Frecuencia absoluta acumulada (fa)
La Frecuencia acumulada se define como el número total de casos que tengan cualquier puntaje dado
o uno que sea mas bajo.
La frecuencia acumulada para cualquier categoría se obtiene sumando la frecuencia total para todas
las categorías abajo de ella. Esto es, tomar la frecuencia de la categoría y sumarla a la frecuencia de la
categoría posterior, y así consecutivamente. La última frecuencia acumulada debe ser igual al número
de sujetos entrevistados.
Una tabla que presente tales frecuencias acumuladas se denomina distribución de frecuencias
acumulada, tabla de frecuencias acumuladas, o bien, distribución acumulada.
Ejemplo:
Edad Frecuencia Frecuencia
acumulada
60-62 4 4
63-65 8 12
66-68 13 25
69-71 10 35
72-74 5 40
Frecuencias relativas o porcentajes (%)
La frecuencia relativa de una clase es su frecuencia dividida por la frecuencia total de todas las clases
y multiplicada por 100. Se expresa generalmente como porcentaje.
Por ejemplo, la frecuencia relativa de la clase 66–68 (ver la tabla de frecuencias) es 13 (frecuencia de
clase): 5.3210040
13
18
La suma de las frecuencias relativas de todas las clases debe dar 100% o un dato muy cercano,
considerando las variantes debidas a los decimales.
Ejemplo general:
Intervalo F %
60-62 4 10
63-65 8 20
66-68 13 32.5
69-71 10 25
72-74 5 12.5
Total 40 100
Si se sustituyen las frecuencias por las correspondientes frecuencias relativas, la tabla resultante se
denomina distribución de frecuencias relativas, distribución de porcentajes, o bien, tabla de frecuencias
relativas.
Un porcentaje es la relación que se establece entre una de las partes con respecto al todo o total
multiplicado por cien. Por ejemplo, si un conjunto de personas es dividido en dos subconjuntos (hombres y
mujeres), el coeficiente que resulta de dividir el número de hombres con relación al total de personas y
multiplicado por cien, indica el número de hombres por cada cien personas que integran ese conjunto:
Mujeres 200
Hombres 600
Total 800
%25)100(800
200)100(
personasdetotal
mujeresde#mujeresde%
%75)100(800
600)100(
personasdetotal
hombresde#hombresde%
La principal función de los porcentajes es la de poder comparar de manera más precisa, ya que con las
frecuencias la interpretación puede ser errónea. Ejemplo: En la Facultad de Ciencias Políticas y Sociales se
inscribieron, en el año de 1967, un total de 1365 alumnos. Si se desea conocer el tipo de escuela primaria de
la que provienen (pública o privada) y, además, su relación con el sexo, es conveniente transformar los datos
absolutos a porcentajes, con el fin de establecer mejor dicha relación. Así:
Escuela Mujeres Hombres Total
Oficial 146 668 814
Privada 225 336 561
Total 371 1004 1375
Los datos absolutos no indican claramente en qué medida los hombres y mujeres provienen, en mayor
o menor proporción, de escuelas oficiales. Si bien se puede apreciar que la mayor parte de las mujeres
provienen de escuelas particulares y que los hombres provienen, en mayor proporción, de escuelas oficiales,
19
resulta difícil señalar cómo se da esta diferencia, pues las relaciones se ven oscurecidas por la dimensión
absoluta de las cifras. Si se reducen el total de mujeres y el total de hombres a la base de 100 y se evalúan los
porcentajes correspondientes a ambos subconjuntos (escuelas oficiales y privadas), las diferencias se
presentan con claridad. De esta forma se observa lo siguiente:
Escuelas Mujeres Hombres Total
f % f % f %
Oficial 146 39 668 67 814 59
Privada 225 61 336 33 561 41
Total 371 100 1004 100 1375 100
Al reducir los valores absolutos a relativos, se aprecia que de cada 100 mujeres inscritas, 39
provienen de escuelas oficiales y que de cada 100 hombres inscritos, 67 provienen de escuelas oficiales.
Frecuencias relativas acumuladas o porcentajes acumulados (%a)
Se define como el porcentaje total de casos que tengan cualquier puntaje dado o uno que sea mas
bajo. El porcentaje acumulado para cualquier categoría se obtiene sumando el porcentaje total para todas las
categorías abajo de el. Esto es, tomar el porcentaje de la categoría y sumarlo al porcentaje de la categoría
anterior. El último porcentaje acumulado debe dar 100.
Ejemplo general:
Intervalo F fa % % a
60-62 4 4 10 10
63-65 8 12 20 30
66-68 13 25 32.5 62.5
69-71 10 35 25 87.5
72-74 5 40 12.5 100
Total 40 100
Requerimientos para la elaboración de tablas:
Además de las columnas las tablas de frecuencia deben cumplir con ciertos requisitos como son:
Ser autoexplicativa, esto es, que no se necesite recurrir a otra fuente para entender su contenido.
Llevar un título corto pero que describa claramente lo que contiene.
Especificar a que se refiere cada una de las columnas y las categorías.
Puede llevar una nota al pie donde se indiquen aclaraciones sobre la tabla o la fuente de donde
provino-
20
Representación Gráfica de Datos
Hecha la recopilación de los datos, el siguiente paso es la correcta organización para que brinde
información fiel y de utilidad. De la misma manera que las tablas de frecuencia, las gráficas permiten
presentar de manera resumida los datos encontrados en una investigación.
Una gráfica es la representación de datos, generalmente numéricos, mediante líneas, superficies o
símbolos, para ver la relación que esos datos guardan entre sí. Son de gran utilidad debido a que permiten la
visualización rápida de los resultados, son atractivas por lo que captan la atención del lector, además de que
son fáciles de entender e interpretar. Sin embargo, pese a que son muy utilizadas es necesario tener en cuenta
que las gráficas no son de uso indiscriminado, esto es, dependiendo de los datos recolectado es el tipo de
gráfica que se va a utilizar.
Para hacer la elección, es necesario considerar la naturaleza de los datos de acuerdo con el propósito
para el cual fueron recopilados. Si las observaciones se hicieron atendiendo a ciertas cualidades o atributos de
una población se les llama datos cualitativos. Si, por el contrario, las observaciones se hicieron atendiendo a
características que pueden representarse numéricamente como son: estatura, peso, temperatura, volumen,
costos, entre otras, de una población se les llama datos cuantitativos. A continuación se representan las
gráficas más apropiadas tanto para datos cualitativos como para cuantitativos.
Datos Cualitativos
Gráfica de barras
Es una forma muy usual para representar datos
cualitativos. Se hacen dibujando rectángulos o
barras, que indican diversos valores bajo una
escala común y teniendo un mismo origen que
representa cero.
Las barras pueden presentarse vertical u
horizontalmente. La escala de valores se coloca
sobre dos rectas perpendiculares, en el eje X se
ponen las categorías y en el Y las frecuencias o
porcentajes. Este tipo de gráfica puede utilizarse
tanto para variables nominales como para
ordinales.
Gráfica 1. Número de Alumnos por Materia
Gráfica Circular
Este tipo de gráfica se representa, generalmente,
en un círculo y las divisiones que presenta son
proporcionales a las diferencias cuantitativas que
se tratan de representar.
La abertura de cada sector del círculo representa
el porcentaje correspondiente. Asimismo, este
tipo de gráfica debe utilizarse exclusivamente
para variables nominales o que describan las
características de la población.
Gráfica 2. Porcentajes de la población de México por
grupos de edad
21
Gráfica Pictórica o Pictograma
Son llamadas también gráfica de figuras,
estadística de figuras o lenguaje estadístico
internacional. Son equivalentes a las gráficas de
barras, pero son más llamativas y de fácil
comprensión por su sencillez.
En lugar de barras se utilizan dibujos referentes a
lo que se quiere expresar. Dichos dibujos
expresan cantidades parciales o totales: Signos de
pesas para dinero, sacos de harina para
agricultura, etc. Para interpretar estas gráficas
basta conocer el valor de cada figura o signo.
Datos Cuantitativos
Histograma
El histograma puede interpretarse como una
gráfica especial de barras o rectángulos, los cuales
se trazan de tal manera que su ancho es igual al
intervalo de clase; como todos los intervalos son
iguales, todos los rectángulos tienen el mismo
ancho. La altura de cada barra es igual a la
frecuencia correspondiente a dicho intervalo. Para
tal efecto, se trazan dos ejes coordenados: en el
horizontal se marcan los intervalos de clase y en
el vertical las frecuencias. Así pues, esta gráfica
se utiliza para variables de tipo intervalar o de
razón y sus barras deben ir juntas.
Gráfica 4. Distribución de edad de un grupo de
adolescentes
Polígono de frecuencia
Es una gráfica lineal que se obtiene marcando los
puntos medios de cada intervalo de clase en las
abscisas y como ordenada la frecuencia
correspondiente al intervalo.
Posteriormente, se unen con rectas dichos puntos
para formar la poligonal que se limita en los
puntos medios del intervalo anterior y del
intervalo que sigue a los marcados en la tabla.
Puede ser una gráfica que combina las gráficas
lineales con el histograma.
Este tipo de gráfica se utiliza para variables
intervalares o de razón.
Gráfica 5. Número de síntomas de depresión en un
grupo de mujeres mayores
22
Gráfica Lineal o Poligonal
Las gráficas lineales se representan en una cuadrícula a base de líneas horizontales y verticales, expresando a
la izquierda y, en la base de dicha cuadrícula, dos tipos diferentes de escalas normalmente que se refieren a
cantidad y tiempo.
Sirven fundamentalmente para comparar y
observar la evolución de ascenso y descenso en
todo tipo de fenómeno, sea social, económico,
industrial, comercial, físico, etc.
Este tipo de gráfica sirve también para llevar un
registro pormenorizado de cualquier fenómeno y
está considerada como una de las gráficas más
exactas. Se utiliza principalmente para variables de
razón.
Gráfica 6. Crecimiento Poblacional en la República
Mexicana
Requerimientos para la elaboración de gráficas
Al igual que las tablas de frecuencia, las gráficas deben cumplir con ciertos requisitos como son:
Ser autoexplicativa, esto es, que no se necesite recurrir a otra fuente para entender su contenido.
Llevar un título corto pero que describa claramente lo que contiene la gráfica.
Especificar a que se refiere cada uno de los ejes (sexo, edad, etc.) y las unidades representadas
(frecuencia, porcentaje).
Puede llevar una nota al pie donde se indiquen aclaraciones sobre la gráfica o la fuente de donde
provino-
En la elaboración de un documento es recomendable poner gráfica y tablas para representar diferente
datos, pero nunca debe ponerse una gráfica y una tabla para representar lo mismo.
Gráficas engañosas
Una forma muy común de mentir con la estadística es a través de las gráficas. En muchas ocasiones se
presentan gráficas que son ambiguas por lo que la interpretación de ellas puede variar, mientras que en otros
momentos las gráficas están presentadas propositivamente para resaltar un resultado no muy relevante, pero
encaminado a influir en la percepción del lector. De esta manera, se amplían las escalas de las gráficas,
haciendo ver diferencias importantes donde no las hay, o por el contrario, se minimizan las escalas para que
se ven pocas diferencias entre los grupos.
Es por ello que debe serse muy cuidadoso al interpretar una gráfica, tomando en cuenta, los datos que
se están graficando, el número de personas entrevistadas y sobre todo la escala de medida que se grafica
(frecuencias, porcentajes, etc.).
23
Medidas de Tendencia Central
Son aquellas que nos indican que tanto se agrupan los datos o se acercan a un punto medio.
Media aritmética ( x )
La media aritmética, o promedio aritmético, se define como la suma de todos los valores entre el
número total de ellos. Es un puntaje que equilibra todos los puntajes ubicados a uno y otro lado de ella. Es el
promedio que se encuentra usualmente. Las fórmulas son las siguientes:
Para datos no agrupados: Para datos agrupados:
n
xx
n
fxx
En donde: x = calificación o punto medio de la calificación
n = número de calificaciones o datos
f = frecuencia
Se interpreta como el promedio de los datos obtenidos, es decir, el dato alrededor del cual se
encuentran los demás datos de la distribución. Por ejemplo: si promediamos la edad de un grupo de alumnos
de secundaria probablemente obtengamos 14 años, lo que las edades de los alumnos están alrededor de esta
edad pudiendo ser mayores o menores.
La media no es siempre el puntaje que ocurre más a menudo, ni el más cercano al medio en una
distribución. Media es el punto alrededor del cual las desviaciones positivas y negativas de la distribución se
equilibran.
Ejemplos:
Datos no agrupados
Si quisiéramos encontrar la media
del coeficiente intelectual de los 8
entrevistados. En resultado indica
que el coeficiente intelectual del
grupo en promedio fue 107.87.
Entrevistado C.I.
87.1078
863
n
xx
Leticia 125
Francisco 92
Sara 72
Miguel 125
Rebeca 120
Rocío 99
Benjamín 130
Pablo 100
Total 863
Datos agrupados
Si obtenemos el promedio de
calificaciones de matemáticas de
un grupo de secundaria, el
resultado indica que en promedio
la calificación del grupo fue 6.76,
esto es, que hay tanto
calificaciones mayores como
menores a esta.
x f fx
76.625
169
n
fxx
10 1 10
9 3 27
8 6 48
7 4 28
6 5 30
5 2 10
4 4 16
Total 25 169
24
Moda (Mo)
La moda es el valor que se presenta con mayor frecuencia en un conjunto de datos. De todas las
medidas de tendencia central, la moda es la más fácil de determinar, puesto que, en el caso de las
distribuciones con datos no agrupados, se obtiene por inspección, no por cómputo. Por otra parte, cuando los
datos están agrupados, la moda se define como el promedio los valores mínimo y máximo del intervalo de
mayor frecuencia.
A una distribución que cuenta con una sola moda se le denomina unimodal. Las bimodales refieren
dos valores que tienen frecuencias máximas similares. Las multimodales, por su parte, son distribuciones de
mediciones que tienen varias modas.
Se interpreta como el dato que se repite el mayor número de veces en una distribución, es decir, es el
dato de mayor frecuencia.
Entrevistado C.I. x f fx
Leticia 125 10 1 10
Francisco 92 9 3 27
Sara 72 8 6 48
Miguel 125 7 4 28
Rebeca 120 6 5 30
Rocío 99 5 2 10
Benjamín 130 4 4 16
Pablo 100 Total 25 169
Total 864
La moda o coeficiente intelectual más
frecuente es 125 que se presenta en dos
entrevistados
La calificación de matemáticas más
frecuente en un grupo de secundaria
es 8. Este dato constituye la moda.
Mediana (Md)
Es el valor o punto en una serie que divide los valores ordenados en dos grupos de igual tamaño. De
manera que el 50 % de los sujetos tiene puntajes iguales o menores a la mediana y el otro 50 % de
individuos, tiene calificaciones iguales o mayores a la mediana.
Procedimiento para datos no agrupados:
Ordenar los datos de manera ascendente o descendente.
Identificar la posición de la mediana, esto es, al sujeto que está justo en medio de la distribución
mediante alguna de las siguientes fórmulas.
Cuando n es par: Cuando n es impar:
2
1
nMd
2
nMd
El resultado de la fórmula se busca en las frecuencias acumuladas. A ese dato se le conoce como
posición de la mediana.
Identificar el valor o calificación que pertenece al sujeto que está a la mitad de la distribución. Ese
valor corresponde al valor numérico de la mediana.
25
Ejemplo de datos no agrupados:
X f fa
5.112
23
2. n
Md
Md = 11.5 = 4
7 2 2
6 3 5
5 4 9
4 5 14
3 4 18
2 3 21
1 2 23
Total 23
El dato obtenido de la fórmula (11.5) se busca en las frecuencias acumuladas. En este caso cae en la
Fa 14 en donde se encuentran los sujetos del 10 al 14. Posteriormente se ubica el valor correspondiente al
sujeto. El valor es 4. Lo que indica que la Mediana es igual a 4.
Interpretación: Se obtuvieron las calificaciones de 23 personas, observando que el 50% de ellas
obtuvieron un puntaje igual o mayor a 4.
Procedimiento para datos agrupados:
Identificar la posición de la mediana, esto es, al sujeto que está justo en medio de la distribución
mediante alguna de las fórmulas anteriores.
El resultado de la fórmula se busca en las frecuencias acumuladas. A ese dato se le conoce como
posición de la mediana. El intervalo donde se encuentre esta será el que se utilice en la fórmula.
Identificar el valor o calificación que pertenece al sujeto que está a la mitad de la distribución, dentro
del intervalo seleccionado. Para lo cual se utiliza la siguiente fórmula:
)()5.0(
if
faanLRIMd
Donde:
LRI = Límite real inferior del intervalo
donde se encuentra la mediana
faa = Frecuencia acumulada anterior
f = Frecuencia del intervalo
i = Tamaño del intervalo
El resultado de la fórmula es el valor numérico de la mediana.
Ejemplo de datos agrupados:
Se aplicó un examen cuya calificación mayor fue 98 y la menor 64, elabore 7 intervalos y obtenga la mediana
26
x f x f x f x f x f
64 1 71 4 78 5 85 4 92 2
65 2 72 3 79 6 86 4 93 2
66 1 73 3 80 6 87 4 94 4
67 2 74 4 81 6 88 4 95 3
68 2 75 5 82 7 89 5 96 2
69 3 76 5 83 7 90 5 97 2
70 5 77 5 84 4 91 3 98 2
i f fa LRI
64-68 8 8 63.5
69-73 18 26 68.5
74-78 24 50 73.5
79-83 32 82 78.5
84-88 20 102 83.5
89-93 17 119 88.5
94-98 13 132 93.5
5.662
133
2
1.
n
Md
81)5(32
50665.78)5(
32
50)1325.0(5.78)(
)5.0(
i
f
faanLRIMd
Interpretación: Se aplicó un examen a 132 personas, observando que la calificación mayor fue 98 y la menor
64. El 50% de las personas obtuvo una calificación entre 64 y 81, mientras que la otra mitad obtuvo entre 81
y 98.
27
Medidas de Posición
Son aquellas que se utilizan para conocer el lugar exacto que ocupa un dato dentro de la distribución.
Las medidas de distribución más populares son el cuartil, el percentil y el decil.
Cuartiles
Son puntos que parten la distribución en cuatro partes o cuartos. El punto que divide el cuarto inferior
(25%) de los tres cuartos superiores de la distribución, es el primer cuartil (Q1). El segundo cuartil (Q2) es
idéntico a la mediana, ya que divide a la población en 2 partes iguales. El tercer cuartil (Q3) divide el cuarto
superior de los tres cuartos inferiores de la distribución. La división se realiza de acuerdo a la proporción de
frecuencias observadas.
Percentiles
Son puntos que dividen en centésimas (cien partes iguales) la distribución. Esto es, son puntos bajo
los cuales cae un porcentaje dado “P” de los casos. P50 es equivalente a la mediana y al punto Q2. Asimismo,
P25 es equivalente a Q1 y, por último, P75 equivale a Q3.
Cálculo de las medidas de posición de datos NO agrupados:
Cuartiles
Ordenar los datos de manera ascendente.
Identificar la posición del cuartil mediante alguna de las siguientes fórmulas.
41
nQ
4
22
nQ
4
33
nQ
El resultado de la fórmula se busca en las frecuencias acumuladas. A ese dato se le conoce como
posición del cuartil.
Identificar el valor numérico del cuartil localizando la calificación que pertenece a la posición.
Percentiles
Ordenar los datos de manera ascendente.
Identificar la posición del percentil que se desea con la siguiente fórmula.
100
xnPx
El resultado de la fórmula se busca en las frecuencias acumuladas. A ese dato se le conoce como
posición del percentil.
28
Identificar el valor numérico del percentil localizando la calificación que pertenece a la posición.
Ejemplo de datos no agrupados
Se les preguntó a un grupo de padres la edad en meses en que sus hijos habían tenido la primera expresión
verbal. Los datos se muestran a continuación:
13 17 15 16 15 17 15 16 15 19 17 18 15 16 21
15 16 13 17 16 18 15 15 19 16 18 19 23 17 23
17 14 16 20 18 13 15 18 16 18 20 21 20 16 16
23 18 15 18 16 16 18 16 21 16 17 22 21 17 24
Obtener los cuartiles 1,2 y 3 y los percentiles 15 y 80.
Valores f Fa Porcentaje % acumulado
13 3 3 5.00 5.00
14 1 4 1.66 6.66
15 10 14 16.66 23.32
16 14 28 23.33 46.65
17 8 36 13.33 59.98
18 9 45 15.00 74.98
19 3 48 5.00 79.98
20 3 51 5.00 84.98
21 4 55 6.66 91.64
22 1 56 1.66 93.3
23 3 59 5.00 98.3
24 1 60 1.66 99.96
Total 60 99.96
16154
601 Q 1730
4
)60(22 Q 1845
4
)60(33 Q
159100
)60(1515 P 1948
100
)60(8080 P
Los resultados se interpretan de la siguiente manera:
El 25% de los bebes dicen su primera palabra entre los 13 y los 16 meses; el 50% antes de los 17
meses; el 25% entre los 18 y los 24 meses; el 15% de los bebes entre los 13 y los 15 meses y el 20% que se
tarda más en hablar lo hace entre los 19 y los 24 meses.
Cálculo de las medidas de posición para datos agrupados:
El procedimiento tanto para cuartiles como para percentiles es el mismo, lo único que cambia es el
multiplicador en la fórmula. Es por ello que se explicarán juntos los procedimientos.
Identificar la posición distribución mediante alguna de las fórmulas anteriores.
29
Identificar el valor numérico con alguna de las siguientes fórmulas:
)()4/(
if
faaxnLRIQ
x
)(
)100/(i
f
faaxnLRIPx
Donde:
LRI = Límite real inferior del intervalo
donde se encuentra la medida buscada
faa = Frecuencia acumulada anterior
f = Frecuencia del intervalo
i = Tamaño del intervalo
x = Número de percentil o cuartil que se
quiere obtener.
Ejemplo de datos agrupados
Se aplicó una prueba para conocer el nivel de autoestima de un grupo de empleados de una empresa.
Obtener los cuartiles y los percentiles 10 y 60.
Intervalos f fa % % acumulado Punto Medio LMI
50 – 54 6 6 3.09 3.09 52 49.5
55 – 59 12 18 6.18 9.27 57 54.5
60 – 64 21 39 10.82 20.09 62 59.5 P10
65 – 69 32 71 16.49 36.59 67 64.5 Q1
70 – 74 46 117 23.71 60.29 72 69.5 Q2 P60
75 – 79 39 156 20.10 80.39 77 74.5 Q3
80 – 84 20 176 10.30 90.69 82 79.5
85 – 89 18 194 9.27 99.96 87 84.5
Total 194 99.96
5.484
1941 Q 97
4
)194(22 Q 5.145
4
)194(33 Q
4.19100
)194(1010 P 4.116
100
)194(6060 P
98.65)5(32
395.485.64)5(
32
39)19425.0(5.64)(
)25.0(1
i
f
faanLRIQ
32.72)5(46
71975.69)5(
46
71)1945.0(5.69)(
)5.0(2
i
f
faanLRIQ
30
15.79)5(39
1175.1455.75)5(
39
117)19475.0(5.75)(
)75.0(3
i
f
faanLRIQ
83.59)5(21
184.195.59)5(
21
18)100/)194(10(5.59)(
)100/)(10(10
i
f
faanLRIP
43.74)5(46
714.1165.69)5(
46
71)100/)194(60(5.69)(
)100/)(60(60
i
f
faanLRIP
Los resultados se interpretan de la siguiente manera:
El 25% de los sujetos obtuvo 65.98 o menos en la prueba; el 50% de los empleados obtuvo más de
72.32; el 75% sacó de 79.15 para arriba en la prueba, estos son lo que tienes una mayor autoestima. Además,
el 60% de los empleados obtuvo un puntaje menor o igual a 74.43, mientras solo el 10% tiene menos de
59.83, esto es, los de menor autoestima en el grupo.
31
Medidas de Dispersión o Variabilidad
Las dos características más importantes de cualquier conjunto de datos son:
Su tendencia central
Su variabilidad o dispersión
Estos conceptos nos sirven para resumir las características principales de un conjunto de datos.
Ambos son requisito indispensable para poder interpretar una observación.
Las medidas de tendencia central están relacionadas con el promedio o valor típico o representativo
de la distribución. Mientras que la variabilidad entre los valores, se refiere a qué tan grandes son las
diferencias entre ellos.
Las medidas de variabilidad cuantifican el grado de dispersión o la extensión de las diferencias
individuales en la distribución.
Las medidas de dispersión son:
Valor mínimo y máximo
Rango
Varianza
Desviación estándar o típica
Valores mínimo y máximo
Estos valores sirven para describir a la población y funcionan como indicadores para determinar dónde se
encuentran los sujetos con respecto a la variable evaluada. Asimismo, van a utilizarse para obtener el rango
de la distribución.
Rango o amplitud
El rango mide la extensión total de un conjunto de datos y se calcula utilizando únicamente dos
números. Para encontrar el rango se restan los dos extremos de la medición, la medición más grande menos
medición más pequeña.
MINMAX XXR
El rango sirve para describir la distribución de datos y se interpreta como el valor que indica la
cantidad de unidades que se encuentran comprendidas entre el valor mínimo y el valor máximo de la
distribución. Se interpreta como el valor que indica la amplitud de la base de la curva de distribución.
El rango de la muestra aún cuando es fácil de calcular, a menudo es calificado de ineficiente porque
ignora toda la información disponible en los valores intermedios de la muestra. Sin embargo, para muestras
pequeñas, la eficiencia es suficientemente alta. Así el rango de la muestra goza de una aceptación favorable y
uso amplio, debido a la facilidad para calcularlo en aplicaciones estadísticas como control de calidad, donde
las muestras son pequeñas.
Ejemplo
Durante un mes determinado del verano, los ocho vendedores de aparatos electrónicos de una
empresa vendieron el siguiente número de ventiladores: 8, 11, 5, 14, 8, 11, 16, 11. Obtener el rango.
32
MINMAX XXR R = 16 – 5 = 11 unidades
Interpretación: La amplitud de lo vendido es de 11, lo que indica que hay una diferencia de 11
unidades entre el que más vendió y el que menos vendió.
Varianza
Es una medida de dispersión que se abrevia S2 e indica que tanto se alejan los datos con relación a la
media. La varianza se basa en el cuadrado de la diferencia entre cada uno de los valores del conjunto de datos
y la media del grupo.
La varianza toma en cuenta la distancia de cada medida con respecto a la media; esta distancia se
llama desviación. Si una sola medición cae a la izquierda de la media sobre una gráfica de datos, se dice que
la medida tiene una desviación negativa con respecto a la media; si cae a la derecha de la media, se dice que
tiene una desviación positiva. Si tratamos de calcular la distancia promedio de cada medida con respecto a la
media, la suma de las desviaciones positivas invalida la suma de las desviaciones negativas. El resultado de
la suma numérica es cero, es decir, representa una medida inútil de variabilidad. Para evitar este problema se
elevan las desviaciones al cuadrado (de este modo se eliminan los signos negativos) y entonces, se promedia
la suma de los cuadrados. Este cálculo produce la varianza que indica la desviación con respecto a la media
de cada medida de la muestra.
La varianza para datos agrupados se obtiene restando el punto medio del intervalo mayor del punto
medio del intervalo más pequeño, obteniendo así los valores de x.
La varianza se obtiene mediante la siguiente fórmula:
Para datos no agrupados: Para datos agrupados:
n
xxs
)(2
2
n
xfxs
)(2
2
La varianza no tiene una interpretación descriptiva, pero es básica para el cálculo de análisis
estadísticos más avanzados.
Ejemplo
A continuación se presentan varias muestras de calificaciones obtenidas por cuatro grupos en una prueba.
Conjunto Calificaciones de la prueba Media
1 70, 70, 70, 70, 70 70
2 68, 69, 70, 71, 72 70
3 60, 70, 70, 70, 80 70
4 60, 65, 70, 75, 80 70
En los cuatro conjuntos la media es la misma, 70, pero los conjuntos son, desde luego, completamente
diferentes. No hay variabilidad alrededor de la media en el conjunto uno, mientras que existe una gran
variabilidad alrededor de la media en el conjunto cuatro. Es obvio que la media en sí misma no refleja en
33
forma alguna la variabilidad de estas calificaciones. Por tanto para encontrar el número que refleje la
variabilidad de las calificaciones de la prueba se emplea el rango, mediante el cual se determina la diferencia
entre la calificación más alta y la más baja.
Conjunto Calificaciones de la prueba Media Rango
1 70, 70, 70, 70, 70 70 0 (70-70=0)
2 68, 69, 70, 71, 72 70 4 (72-68=4)
3 60, 70, 70, 70, 80 70 20 (80-60=20)
4 60, 65, 70, 75, 80 70 20 (80-60=20)
Como puede observarse, el rango sólo toma la medida mayor y menor, así que para considerar todas
las medidas se utiliza la varianza, la cual toma en cuenta la distancia de cada medida con respecto a la media.
A continuación se desglosa el cálculo de la varianza de uno de los conjuntos de calificaciones
Valor Media
x
Desviación
(x- x )
Desviación al
cuadrado (x- x )2
68 70 -2 (-2)2
= 4
69 70 -1 (-1)2 = 1
70 70 0 02 = 0
71 70 1 12 = 1
72 70 2 22 = 4
Total = 350 Total = 0 (x- x )2 =10
Como N = 5, la varianza es igual a: 25
10)(2
2
n
xxs
Si de la misma manera calculamos la varianza para cada conjunto, los resultados nos indican que a
mayor variabilidad en los datos mayor será la varianza, aunque la media de cada conjunto sea la misma.
Conjunto Calificaciones de la prueba Media Rango Varianza
1 70, 70, 70, 70, 70 70 0 (70-70=0) 0
2 68, 69, 70, 71, 72 70 4 (72-68=4) 2
3 60, 70, 70, 70, 80 70 20 (80-60=20) 40
4 60, 65, 70, 75, 80 70 20 (80-60=20) 50
34
Desviación Estándar o Típica (s)
La desviación típica equivale al promedio de la variabilidad de los datos. Es una medida de dispersión
utilizada en la interpretación de los datos. Sirve para conocer la normalidad de una distribución, puesto que la
normalidad refiere la suma y resta de dos desviaciones a la media.
Su fórmula es:
Para datos no agrupados: Para datos agrupados:
ns
xx
)(2
n
sxfx
)(
2
Se interpreta como el dato que refiere el promedio de la distancia a la que se encuentran las
puntuaciones con respecto a la media. Si la desviación estándar es pequeña con respecto a la media, indica
que las calificaciones son homogéneas, es decir están muy cercanas, pero si es grande, las puntuaciones son
heterogéneas, esto es, muy diferentes entre sí.
Ejercicio de datos no agrupados
Obtener la media y la desviación estándar de la edad de los asistentes a un curso de capacitación:
Edad x- x (x- x )2
25 -12.88 165.89
27 -10.88 118.37
32 -5.88 34.57
33 -4.88 23.81
38 0.12 0.01
39 1.12 1.25
43 5.12 26.21
48 10.12 102.41
56 18.12 328.33
Total 341 800.89
n
xx
88.37
9
341x
ns
xx
)(2
43.99
89.800s
El promedio de la edad de los asistentes es 37.88 años y el promedio de la distancia a la que se
encuentran las edades con respecto a la media es 9.43. Esto significa que las edades se desvían en promedio
24 años hacia arriba y hacia abajo de la media.
35
Ejercicio para datos agrupados
Se aplicó una prueba de matemáticas a 200 estudiantes que deseaban ingresar a la Licenciatura en
Ingeniería. Obtener la media y la desviación estándar.
Calificaciones f pm
(x) Fx x- x (x- x )
2
32 – 34 2 33 66 -21.99 479.61
35 – 37 4 36 144 -18.99 357.21
38 – 40 4 39 156 -15.99 252.81
41 – 43 16 42 672 -12.99 166.41
44 – 46 16 45 720 -9.99 98.01
47 – 49 18 48 864 -6.99 47.61
50 – 52 22 51 1122 -3.99 15.21
53 – 55 22 54 1188 -0.99 0.81
56 – 58 24 57 1368 2.11 4.41
59 – 61 22 60 1320 5.11 26.01
62 – 64 16 63 1008 8.11 65.61
65 – 67 12 66 792 11.11 123.21
68 – 70 10 69 690 14.11 198.81
71 – 73 6 72 432 17.11 292.41
74 – 76 4 75 300 20.11 404.01
77 – 79 2 78 156 23.11 533.61
Total 200 10998 3065.76
99.54200/10998
n
fxx 32.15
200
76.3065)(2
nS
xx
El promedio de las calificaciones de la prueba de matemáticas es 54.99, mientras que el promedio de
la distancia a la cual se encuentran las calificaciones con respecto a la media es 15.32. Esto indica que las
calificaciones se desvían 15 puntos por arriba y por abajo del promedio o media.
Las medidas de tendencia central, por sí solas, no son suficientes, lo cual puede comprobarse si se
considera el hecho de que dos o más conjuntos de datos pueden tener la misma media, mediana o moda sin
que dichos conjuntos sean los mismos. Por lo tanto, son necesarias también las medidas de variabilidad o
dispersión para describir los valores de forma más individual.
36
Medidas de Distribución
Basadas en las gráficas que existen para representar los datos encontrados en variables numéricas,
existen variaciones de las mismas que permiten conocer como se distribuyen los datos del fenómeno
estudiado (Hopkins, Hopkins, y Glass, 1997). Entre las distribuciones más frecuentes en Psicología se
encuentran:
a) Rectangular. Distribución simétrica con una frecuencia
constante para todos los valores. Por ejemplo nacimientos por
cada día de la semana. No tiene una moda ya que todos los
valores tienen aproximadamente la misma frecuencia. La
media y la mediana pueden ser las mismas.
b) Bimodal. Cuando existen 2 modas en la distribución. Por ejemplo en la distribución de las estaturas
de hombres y mujeres, ya que sus estaturas difieren generalmente. Puede ser que una moda sea
ligeramente más pequeña que la otra, en eso caso se habla de moda mayor y menor. Esta distribución
también se presenta cuando las opiniones hacia un fenómeno se encuentran polarizadas. Por ejemplo
la actitud hacia el aborto. La media y la mediana pueden ser las mismas.
c) Normal. Se llama distribución de campana o distribución normal. Tiene dos características
principales:
- Es simétrica respecto a la línea vertical de la mediana (Asimetría = 0)
- La moda y la media son iguales a la mediana
- Unimodal
- 96% de la población cae dentro (normal) y el 4% cae fuera (anormal)
Por ejemplo la estatura de las mujeres.
d) Asimétricas. Son distribuciones que no son iguales para ambos lados. La asimetría puede ser desde
ligera hasta muy extrema. Dependiendo de la dirección puede ser:
- Positivas. Se alarga hacia la derecha, hacia el extremo de valores más alto. Por ejemplo:
Número de faltas a una materia en un semestre.
- Negativas. Se alarga hacia la izquierda, hacia el extremo de valores más bajo. Por ejemplo:
Las calificaciones de un examen muy fácil.
En las distribuciones asimétricas la media es jalada hacia los valores extremos de la cola, por lo que
en la positiva es mayor que la mediana y la moda, mientras que en la negativa es menor.
Numero de personas que consultan la
página de la Secretaría de Salud
1000
6000
11000
16000
ener
o
mar
zo
may
ojulio
sept
iem
bre
noviem
bre
37
Estatura Mujeres Hombres Media 163.75 167.25 Mediana 163 168 Moda 163 168 Distribución Positiva Negativa
Estatura Mujeres Hombres 158 1 0 159 2 1 160 3 1
161 4 1 162 5 1 163 6 1 164 5 2 165 4 3 166 3 4 167 2 5 168 1 6 169 1 5 170 1 4 171 1 3 172 1 2 173 0 1
TOTAL 40 40
Distribución Normal
La distribución normal es la representación gráfica de las observaciones de un fenómeno y se
denomina campana de Gauss. Se ha encontrado que si un fenómeno es observado en repetidas
ocasiones, este tiene variaciones naturales que se distribuyen de manera regular y que de manera
gráfica se convierten en la curva normal. Por ejemplo: la estatura se distribuye normalmente en al tener
personas de la misma edad.
Muchas medidas en psicología tienen una distribución parecida a la de la curva normal. Aunque
nunca se tiene una curva distribución normal perfecta, pero se acerca a esta entre más sujetos se
incluyen.
Para saber el grado en que una curva de distribución se parece a una curva normal, se utilizan
dos medidas: curtosis y asimetría.
COMPARACION DE ESTATURAS DE HOMBRES Y MUJERES
0
1
2
3
4
5
6
7
15
8
15
9
16
0
16
1
16
2
16
3
16
4
16
5
16
6
16
7
16
8
16
9
17
0
17
1
17
2
17
3
ESTATURAS
FR
EC
UE
NC
IA
Mujeres
Hombres
38
Curtosis
Describe el grado en que las proporciones observadas difieren de las de la curva normal. Se
refiere a la amplitud de la curva en una distribución normal, esto es la agudeza que presenta el perfil de
una curva unimodal.
La curtosis está relacionada con el número de sujetos que estamos observando. En la medida
que el número de sujetos es más pequeño, la curva se hace más anchas y conforme crece el número de
sujetos las curva es menos ancha y se parece más a una distribución normal.
De acuerdo a la curva que reflejen las distribuciones pueden ser de 3 tipos
Cuando los puntajes obtenidos al aplicar una prueba psicológica tienden a agruparse en el
centro de la distribución en un intervalo reducido de valores, se tiene una curva aguda o leptocúrtica.
Cuando esto ocurre, se dice que el grupo es homogéneo con respecto a lo que se mide. Cuando el
resultado de la curtosis es positivo y mayor a 1, indica que hay más casos en medio de la curva que en
una distribución normal.
> 1
Si el intervalo en el que tienden a agruparse los puntajes de un agrupo no es tan reducido, la
curva se denomina semiaguda o mesocúrtica. Esta equivale a la curva normal. La distribución normal
tiene una curtosis igual a 1. Entre más se aleje este valor del 1, menos se parecerá a una distribución
normal estricta.
= 1
Un caso opuesto a la curva leptocúrtica es el que corresponde a una distribución donde existe
un intervalo amplio de puntajes con una agrupación mínima en el centro. A esta curva se le llama
aplanada o platocúrtica. Los datos en esta distribución son heterogéneos entre sí. Una curtosis menor
a 1 o negativa indica más casos en los extremos de la curva que en una distribución normal.
< 1
39
As<0
Asimetría o sesgo (Skeeness)
Describe la falta de simetría en una distribución. La asimetría (As) se presenta cuando una
curva de distribución, en una de sus colas, se extiende más lejos que la otra en una dirección.
Existen dos tipos de asimetría:
Sesgo Negativo: Describe distribuciones simétricas en las que la mediana excede a la media, la cola de
la distribución es hacia los valores bajos. Cuando la cola se extiende hacia la izquierda, el valor del
estadístico es negativo
Sesgo Positivo: Describe distribuciones asimétricas en las que la media excede a la mediana, la cola de
la distribución es hacia los valores altos. Es cuando está más extendida la cola de la derecha de la
curva, el valor del estadístico es positivo.
Si la asimetría es igual a cero, se obtiene una curva normal.
El llamado coeficiente de asimetría se calcula con la siguiente fórmula:
s
MoxAs
donde:
As = Coeficiente de asimetría de Pearson Mo = Moda
X = Media aritmética muestral S = Desviación estándar muestral
As=0
As>0
POSITIVA
AAA
NEGATIVA
POSITIVA
NORMAL
40
Características de la Curva Normal
La curva normal es un modelo teórico o ideal sobre cómo debe comportarse la distribución de
las variables en una muestra, se obtuvo de una ecuación matemática. Se utiliza como parámetro de
comparación para diferentes fenómenos. Sus principales características son (Ritchey, 2002):
Las variables que representan debe ser numérica, esto es, con un nivel de medición intervalar o
de razón.
Representa una curva de distribución de frecuencias en la que la mediana, la moda y la media
de una variable son iguales y dividen en dos partes iguales a la distribución.
Tiene forma de campana
Es geométricamente simétrica, lo cual indica que la mitad derecha es el espejo perfecto de la
mitad izquierda.
Aunque los valores de la Media y la desviación estándar cambiaran dependiendo de las
variables observadas, cada curva normal es simétrica y tiene siempre el mismo porcentaje de
observaciones que cae entre la media y las desviaciones.
Permite conocer la distribución de situaciones reales.
Muchas variables relacionadas a atributos psicológicos, como la inteligencia medida en
términos de Coeficiente Intelectual (CI), se distribuyen en la población tomando la forma de la curva
normal, en que la mayoría de los casos se encuentran en el centro (Moda), existiendo pocos casos en
los extremos, siguiendo el ejemplo del CI, existen pocos sujetos con inteligencia muy baja por un lado
y pocos genios por el otro, esto es lo que da a la curva normal su característica forma de campana
(Ritchey, 2002).
El área bajo la curva.
Representa el 100%, 50% de cada lado
Es igual a 1 (convertida en términos de probabilidad)
Se calcula sumando y restando desviaciones estándar a la media.
%26.681 sx %952 sx %993 sx
Utilizando esta información se puede calcular el área comprendida entre dos puntos con base en
las puntuaciones crudas. Por ejemplo: Una población de 1000 sujetos, tiene una media de edad de 75
años y una desviación estándar de 8, ¿cuántas personas tienen entre 67 y 75 años?
-3 -2 -1 0 +1 +2 +3
68.26%
95%
99%
34.13%
41
Sustituyendo la media (75) en el centro y las desviaciones estándar a la izquierda o negativas (-
8) y a la derecha o positivas (+8), la respuesta es el 34.13% del total de la población es decir 341
sujetos tienen entre 67 y 75 años.
Sin embargo si tenemos a un sujeto evaluado en 2 variables o 2 escalas diferentes, es difícil
hacer la comparación con los puntajes brutos. Para ello se utilizan las calificaciones estandarizadas.
Las calificaciones estandarizadas son puntuaciones que pueden ser comparadas transformando los
valores brutos y sirven de parámetros de comparación.
Las calificaciones estandarizadas más conocidas son los puntajes z y se refieren a calificaciones
expresadas en unidades de desviaciones estándar de la media. La distribución de calificaciones Z tiene
parámetros fijos:
0x 1s
s
xxz
x = Valor bruto
Ejemplo:
Se quiere comparar la inteligencia de dos personas, cada una de ellas medidas con escalas diferentes.
Para lograr esta comparación se convierten las calificaciones naturales (x) en calificaciones
estandarizadas (z). Observando que los puntajes naturales indican que el segundo sujeto tiene mayor
inteligencia que el primeo, los puntajes Z indican que el sujeto medido con la escala A tiene un
coeficiente mayor.
x x s z
Depresión
Escala A 80 90 5 -2
Depresión
Escala B 90 100 7 -1.43
Depresión Escala A: Depresión Escala B:
25
9080
z 47.1
7
10090
z
51 59 67 75 83 91 99
34.13%
341
42
Bibliografía:
1. Christensen, H. (1983). Estadística paso a paso. México: Trillas.
2. Coolican, H. (1997). Métodos de Investigación y Estadística en Psicología. México: Manual
Moderno.
3. Downie, M. & Heath, R. (1973). Métodos estadísticos aplicados. México: Harper & Row
Latinoamericana.
4. Elorza, H. (2000). Estadística para las ciencias sociales y del comportamiento. México:Oxford.
5. Ferrán, M. (1996). SPSS para Windows. Programación y análisis estadístico. Madrid: McGraw-
Hill.
6. Glass, G. y Stanley, J. (1970). Métodos estadísticos aplicados a las Ciencias Sociales. Madrid:
Prentice Hall.
7. Hernández, S.R., Fernández, C.C. y Baptista, L.P. (1999). Metodología de la Investigación.
México: McGraw-Hill.
8. Hopkins, K.D., Hopkins, B.R. y Glass, G.V. (1997). Estadística Básica para las Ciencias Sociales
y del Comportamiento. México: Prentice Hall.
9. Kerlinger, F.N. (1998). Investigación del Comportamiento. México: McGraw-Hill.
10. Leach, C. (1983). Fundamentos de Estadística. México: Limusa.
11. Levin, J. (1979). Fundamentos de Estadística en la Investigación Social. México: Harla.
12. Maxim, P.S. (2002). Métodos Cuantitativos aplicados a las ciencias sociales. México: Oxford
University Press.
13. Ostle, B. (2000). Estadística Aplicada. México: Limusa Noriega Editores.
14. Ritchey, F. J. (2002). Estadística para las Ciencias Sociales: El Potencial de la Imaginación
Estadística. México: Mc Graw Hill.
15. Siegel, S. (1982). Estadística no paramétrica aplicada a las ciencias de la conducta. México:
Trillas.
16. SPSS Inc. (1998). SPSS Manual. USA: SPSS Inc.