Apuntes de Estadística Descriptiva - rincondepaco.com.mx · Tipos de estadística ... Las...

Apuntes de Estadística Descriptiva

Elsa Karina López Lugo Francisco Juárez García

Primera Edición, 2004

© 2004 Francisco Juárez García

Instituto Nacional de Psiquiatría Ramón de la Fuente,

Dirección de Investigación Epidemiológicas y Psicosociales

Calzada México Xochimilco 101,

Col. San Lorenzo Huipulco,

14370 México, D. F.

Tel.: 56 55 28 11 ext. 202 fax: 55 13 34 46

e-mail: [email protected]

Reservados todos los derechos

ISBN:

Impreso en México / Printed in Mexico

Agradeceremos todos los comentarios relativos a esta guía, estos deben ser enviados a la dirección

arriba mencionada.

El presente trabajo debe ser citado como sigue:

López, E. K. y Juárez, F. (2004). Apuntes de Estadística Descriptiva. México, D. F.: Instituto Nacional

de Psiquiatría Ramón de la Fuente.

3

Contenido

Presentación ....................................................................................................................................... 5

Introducción al Análisis Estadístico de Datos................................................................................... 6 La estadística en Psicología .............................................................................................................. 6

Importancia y utilidad en la Psicología .......................................................................................... 6

Tipos de estadística .......................................................................................................................... 6

Estadística Descriptiva .................................................................................................................. 7

Estadística Inferencial ................................................................................................................... 7

Conceptos básicos para el análisis estadístico ................................................................................... 7

Variables ....................................................................................................................................... 7

La estadística y la computadora ...................................................................................................... 10

Codificación de datos .................................................................................................................. 10

Frecuencias ...................................................................................................................................... 15 Tabla de frecuencias ....................................................................................................................... 15

Tabla de frecuencia de datos no agrupados .................................................................................. 15

Tabla de frecuencia de datos agrupados ....................................................................................... 16

Columna de datos o categorías .................................................................................................... 17

Frecuencia absoluta (f) ................................................................................................................ 17

Frecuencia absoluta acumulada (fa) ............................................................................................. 17

Frecuencias relativas o porcentajes (%) ....................................................................................... 17

Frecuencias relativas acumuladas o porcentajes acumulados (%a) ............................................... 19

Requerimientos para la elaboración de tablas:................................................................................. 19

Representación Gráfica de Datos .................................................................................................... 20 Datos Cualitativos .......................................................................................................................... 20

Gráfica de barras ......................................................................................................................... 20

Gráfica Circular .......................................................................................................................... 20

Gráfica Pictórica o Pictograma .................................................................................................... 21

Datos Cuantitativos ........................................................................................................................ 21

Histograma.................................................................................................................................. 21

Polígono de frecuencia ................................................................................................................ 21

Gráfica Lineal o Poligonal........................................................................................................... 22

Requerimientos para la elaboración de gráficas .............................................................................. 22

Gráficas engañosas ......................................................................................................................... 22

Medidas de Tendencia Central ....................................................................................................... 23

Media aritmética ( x ) ..................................................................................................................... 23

Moda (Mo) ..................................................................................................................................... 24 Mediana (Md) ................................................................................................................................. 24

Medidas de Posición ........................................................................................................................ 27 Cuartiles ......................................................................................................................................... 27

Percentiles ...................................................................................................................................... 27

Medidas de Dispersión o Variabilidad ............................................................................................ 31 Valores mínimo y máximo ............................................................................................................. 31

4

Rango o amplitud ........................................................................................................................... 31

Varianza ......................................................................................................................................... 32 Desviación Estándar o Típica (s) .................................................................................................... 34

Medidas de Distribución.................................................................................................................. 36

Características de la Curva Normal ............................................................................................... 40

Bibliografía: ..................................................................................................................................... 42

5

Presentación

En el aprendizaje de la Psicología es necesario considerar diversas herramientas que permitirán el

óptimo desarrollo en el campo profesional. Entre estas herramientas se encuentran las relacionadas con

investigación, la manera de realizarla (método) y la forma de analizar los datos obtenidos y de interpretar los

resultados (estadística)

La estadística es una herramienta invaluable dentro de la Psicología. El dominio de esta materia

permite, no solo el análisis de las investigaciones propias, sino también permite la comprensión de los

trabajos realizados por otros, como es el caso de los artículos científicos.

Esta material tiene como finalidad brindar a herramientas metodológicas utilizadas en Psicología y

despertar el interés en la investigación en esta área. En un primer momento se reflexiona acerca de la

importancia de aprender la estadística, más allá de su relación con las matemáticas, como una forma de

organizar e interpretar datos, en el trabajo creativo necesario para la investigación. Posteriormente se sientan

las bases para poder realizar un análisis estadístico de los datos para, finalmente a revisar cada uno de los

procesos estadísticos descriptivos.

Objetivos:

Al finalizar el lector:

Reconocerá la estadística cómo una herramienta importante en el campo de la Psicología

Podrá elegir el estadístico adecuado para describir las características de los sujetos de una

investigación, de acuerdo con el nivel de medición de las variables

Interpretará los resultados obtenidos

Nivel: Introductorio

6

Introducción al Análisis Estadístico de Datos

La estadística en Psicología

La estadística es una rama de las matemáticas aplicadas. que tiene como objetivo la descripción y el

análisis de los fenómenos de interés social.

La mayor parte de los fundamentos de estadística aplicada y su uso apropiado pueden dominarse sin

hacer referencia a habilidades en matemáticas avanzadas, de hecho, los conocimientos que se requieren para

el aprendizaje de la estadística están relacionados con las matemáticas básicas y el álgebra.

Importancia y utilidad en la Psicología

En la Psicología una de las funciones más importantes que realizamos es la observación de los

fenómenos que acontecen a nuestro alrededor. Sin embargo para que estas observaciones se consideren sin

interferir el criterio del observador, es necesario echar mano de herramientas científicas que nos permitan

hacer válido el proceso de recolección de datos.

En todas las disciplinas, y en la psicología en particular, la estadística permite dar una explicación

más científica de los fenómenos de estudio. Debido a su objetividad en la medición de dichos fenómenos.

En Psicología los números nos sirven para:

Describir a los sujetos de una población. Decir cuántas personas hay y con qué características.

Obtener parámetros para ubicar a los sujetos de una población con base en una característica. Por

ejemplo: En la interpretación de las pruebas psicológicas comparamos a cada persona con una norma

ya establecida.

Hacer predicciones de cómo se comportarán los fenómenos a futuro. Con mediciones sistemáticas a

lo largo del tiempo los modelos estadísticos van a permitir suponer cómo se seguirán comportando

posteriormente.

La importancia de medir en Psicología está presente en todas sus áreas de trabajo:

Investigación: Ayuda a conocer y prevenir problemas sociales e individuales.

Clínica: Permite conocer las características individuales de los pacientes y sus padecimientos, para así

poder ayudarlos más efectivamente.

Educativa: Determina las características y las necesidades de la población escolar para desarrollar

programas que les permitan mejorar.

Organizacional: En empresas es importante conocer las características de los empleados, para así

poder ubicarlos en el mejor puesto o potencializar sus habilidades.

Tipos de estadística

Existen dos corrientes que han influenciado el desarrollo de los métodos estadísticos:

El primero se relaciona con las actividades de conteo, medición, descripción, tabulación,

ordenamiento y levantamiento censal. Este tipo de estadística permite describir la población con la

que se está trabajando. Estadística Descriptiva.

El segundo tipo está basada en la exactitud de la probabilidad matemática y se originó de los juegos

del azar. Permite hacer inferencias del comportamiento: Estadística Inferencial.

7

Estadística Descriptiva

La mente humana no puede extraer fácilmente toda la importancia de una serie de datos

desorganizados, sin la ayuda de técnicas especiales. De manera que cuando los conjuntos de datos muy

grandes deben experimentar un proceso de organización y resumen para que sean entendibles para las

personas que no estén familiarizadas con la investigación.

Es por ello que la Estadística Descriptiva proporciona herramientas para organizar, simplificar y

resumir información básica a partir de un conjunto de datos que de otra forma sería poco manejable. Incluye

la tabulación, representación y descripción de conjuntos de datos tanto de variables numéricas como de

variables categóricas. Es la primera tarea a realizar en el análisis de los datos, ya que su misión es describir

los datos, valores o puntuaciones obtenidos para cada variable y sirve de base para otros análisis más

avanzados.

Estadística Inferencial

Proporciona métodos para estimar las características de un grupo total o población, basándose en

datos de un subconjunto obtenido de la población o muestra de observaciones. Realiza inferencias objetivas

basadas en los datos obtenidos. Utiliza la estadística descriptiva como el primer paso antes de la realización

de inferencias.

Conceptos básicos para el análisis estadístico

El objetivo del presente escrito es dar a conocer los principales usos de la estadística descriptiva, así

como el desarrollo de sus estadísticos y fórmulas. Para ello, es necesario que antes se conozcan algunos

conceptos que servirán como base para el mejor entendimiento de los contenidos.

Variables

Las variables son todos aquellos atributos que se pueden medir, controlar y estudiar en una

investigación.

Las variables son construcciones hipotéticas o propiedades que se estudian.

Una variable es una propiedad que adquiere distintos valores. Es una cosa que varía.

Es un atributo o concepto al que se le asignan números o valores.

8

Las variables adquieren valor para la investigación científica cuando pueden ser relacionadas con otras

variables.

Existen diferentes clasificaciones de las variables, las cuales dependen de:

A. La cantidad de valores

Dicotómica. Es aquella variable en la que sólo existen dos valores. Generalmente se refiere a la

existencia o no existencia de la característica o a la clasificación en dos categorías.

Ejemplo: Sexo: Masculino y femenino.

Politómicas. Es cuando el fenómeno puede presentarse en tonalidades o matices diferentes, o en

grados, magnitudes o medidas distintas. Ejemplo: Edad, religión, estado civil, sueldo, estatura, etc.

Por sus características, las variables politómicas pueden convertirse en dicotómicas, al agrupar los

números o las categorías, pero no puede existir el procedimiento inverso. Esto depende de los

objetivos de investigación.

Ejemplo de ello es la variable estado civil que originalmente es politómica al tener muchos valores,

pero que puede convertirse en dicotómica como lo muestra el siguiente esquema:

Soltero

Casado

Divorciado

Unión libre

Viudo

Con pareja

Sin pareja

ESTADO CIVIL POLITÓMICA ESTADO CIVIL DICOTÓMICA

B. El tipo de valores

Categórica. Es aquella en la que el fenómeno tiene valores referidos a clasificaciones o categorías sin

un correlato numérico directo. Ejemplo: Sexo (hombres y mujeres), estado civil (soltero, casado,

divorciado, etc.).

Numérica. Es cuando los valores de la variable se presentan naturalmente en números. Esto es, las

respuestas a las preguntas van a ser datos numéricos. Ejemplo: Edad, Peso, Talla, etc.

Las variables continuas pueden convertirse en categóricas, al agrupar los números en categorías, pero

no puede existir el procedimiento inverso.

Ejemplo: La edad es una variable numérica por naturaleza, pero en ocasiones debe convertirse en

categórica para el mejor manejo de la información, como se muestra a continuación:

EDAD NUMÉRICA 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25

EDAD CATEGÓRICA Adolescentes Jóvenes Adultos jóvenes

C. El nivel de medición

En la interpretación de una variable influye la escala con la que fue medida. Así, existen 4 escalas o

niveles de medición:

9

Nominal

Es el nivel de medida más básico.

Agrupa unidades en categorías basándose en uno o más atributos o propiedades.

No existe un correlato numérico.

Las categorías no reflejan ningún orden o jerarquía entre unas y otras.

Ejemplos: Sexo, estado civil, carrera, religión, deporte favorito, ocupación, pasatiempo, etc.

Ordinal

Las observaciones pueden colocarse en un orden jerárquico.

Se utilizan categorías que no representan un orden.

No existe una diferencia exacta entre un valor y otro. Esto es, no se sabe si hay la misma distancia

entre una categoría y otra.

No hay indicación de cuanto se posee del atributo.

Ejemplos: Escolaridad, grado académico, puesto en el trabajo, semestre, etc.

Intervalar o de intervalo

Son valores numéricos.

Los números son consecutivos y marcan intervalos iguales o cantidades iguales entre ellos.

No tienen un cero absoluto, esto es, el cero no representa la ausencia de la característica, puede ser un

valor más de la escala.

Se sabe cuanto se diferencian los objetos uno de otro.

Por su forma de ser medidas, las variables referidas a características psicológicas son intervalares.

Ejemplos: Temperatura, depresión, actitud, etc.

Se compara un sujeto con respecto a otro o con respecto a la media poblacional.

Ejemplo: La diferencia entre un C. I. de 120 a 125 es la misma que entre 112 y 117 (125-120 = 5,

117-112= 5).

De proporción o razón

Tiene las mismas características que los intervalares, pero el cero es absoluto, esto es, el cero indica la

ausencia de la característica.

Inicia la medición a partir de cero.

Se compara un sujeto con respecto al cero absoluto.

Las medidas físicas, en su mayoría, tienen este nivel de medición.

Ejemplos: Longitud, tiempo, peso, área, costo por estudiante, calificaciones, etc.

Características de los niveles de medición

Nominal Ordinal Intervalar Proporción

A diferente de B

A mayor que B

A excede en X unidades a B

A excede en X % a B

10

Aplicaciones en psicología

En todas las áreas de la psicología, y especialmente en investigación, se utilizan variables con diferentes

niveles de medición: Estos nos indican la forma o escala por la que fueron medidas dichos datos. Se

clasifican en:

Nominales. Pacientes clasificados por padecimientos, fumadores y no fumadores, personas que

tienen una enfermedad o no la tienen, etc.

Ordinales. Nivel de patología: Ausente, leve, moderado, alto

Intervalares. Calificación de inteligencia, autoestima, depresión.

De razón. Tiempo en el que la rata cruza un laberinto, tiempo de reacción, promedio escolar.

La estadística y la computadora

Otra herramienta indispensable en la actualidad para el desarrollo de la Psicología, es la computadora,

instrumento mediante el cual podemos hacer una cantidad de tareas con mayor facilidad y rapidez.

Entre estas tareas se encuentran:

Elaboración de textos y gráficas para artículos o tareas con buena presentación.

Presentaciones visuales de nuestros trabajos.

Bases de datos que permitan el acceso más rápido de la información que buscamos. Por ejemplo: la

biblioteca.

Análisis de datos de manera más rápida y precisa.

Este último se realiza, en Psicología, mediante paquetes de análisis estadístico de datos como el

programa SPSS (Statistical Package for Social Sciences). Dicho programa nos permite desde obtener una

descripción general de nuestros sujetos, hasta un análisis complicado que nos permita predecir como se

comportará el fenómeno a futuro.

En la actualidad el análisis de datos se lleva a cabo por computadora. Ya prácticamente nadie lo hace

de forma manual, especialmente si hay un volumen de datos considerable. Es por ello que casi todas las

instituciones de educación superior, centros de investigación y empresas, disponen de sistemas de cómputo

para archivar y analizar datos.

Codificación de datos

Una vez que se han aplicado los cuestionarios de una investigación, es necesario preparar los datos

obtenidos para poder analizarlos estadísticamente. Para ello hay que realizar dos actividades:

Codificar las respuestas

Realizar una guía de codificación

Codificar las respuestas

Es asignar números preestablecidos a cada una de las respuestas dadas al cuestionario aplicado. Esto

es, asignar valores a cada una de las opciones de una variable.

La razón de codificar es hacer que los datos de investigación sean comparables entre sí y poder tener

un mayor control de ellos. Aunque se pueden capturar categorías alfabéticas, cuando se utilizan letras para la

computadora las letras minúsculas y mayúsculas son caracteres diferentes, lo que permite una combinación

muy grande de ellos en una misma palabra, por ejemplo: En una variable cuyas opciones de respuesta son no

11

o si, la palabra Si es diferente de la palabra si y de la palabra SI y de la palabra sI, como puede apreciarse, aún

con dos letras, la combinación posible es de cuatro opciones distintas posibles que se pueden capturar, con

cuatro códigos completamente distintos, de una sola de las opciones, más otras cuatro de la respuesta No. Si

en lugar de eso definimos para la opción Si el código 1 y para el No el código 2, esta situación se vuelve más

controlable.

Procedimiento para codificar

Primeramente es necesario identificar las variables y las respuestas que puede adquirir cada una de

ellas. En el siguiente ejemplo se tienen: una variable nominal (sexo), una ordinal (escolaridad) y una

intervalar (edad).

Variables Sexo Escolaridad Edad

Respuestas Hombre

Mujer

Primaria

Secundaria

Preparatoria

Licenciatura

6

8

12

17

Posteriormente se asignan valores determinados por el investigador a las opciones de cada variable

categórica, cabe aclarar que las variables continuas mantienen su valor pues su significado numérico no

necesita mayor interpretación. Es así que las variables categóricas como sexo y escolaridad se les asigna un

valor, para las variables nominales no importa cuál le corresponda a cada opción pues únicamente permitirán

identificar y diferenciar (en este caso hombre con 1 y mujer con 2, aunque esto puede invertirse) y para la

variable ordinal los códigos deben reflejar el orden que representan las categorías (la menor escolaridad es

primaria por lo que le corresponde el valor más pequeño, seguida de secundaria y preparatoria, la mayor es

licenciatura por lo que debe asignársele el valor mas alto).

Variables Sexo Escolaridad Edad

Respuestas Hombre

Mujer

Primaria

Secundaria

Preparatoria

Licenciatura

6

8

12

17

Valores 1. Hombre

2. Mujer

1. Primaria

2. Secundaria

3. Preparatoria

4. Licenciatura

6

8

12

17

La asignación de códigos a las variables se realiza de manera arbitraria, esto es, cada investigador

asigna los códigos que el mismo establece. Sin embargo, cuando dicha investigación va a ser retomada en un

tiempo lejano o por otras personas, es difícil adivinar los códigos asignados, es por ello que se debe realizar

una guía de codificación que permita evitar errores al respecto.

Guía de codificación

La guía de codificación es como un índice en donde se especifican todas y cada una de las variables

del estudio, sus características y los valores que se les asignaron al codificarlas.

12

Es una herramienta muy importante por las siguientes razones:

Contiene toda la información que se requiere a lo largo del proceso.

Homogeneiza la elaboración de bases de datos y documentos derivados del análisis.

Permite que otra persona identifique las características de los datos utilizados, por lo que sirven de

consulta para investigaciones posteriores.

Los elementos que conforman una guía de codificación son:

Nombre de la variable (NAME).

Se requiere un nombre resumido con el cual se identificará la variable en el análisis. Debe:

Ser una clave de máximo 8 caracteres

Comenzar con una letra

No debe incluir espacios, acentos, ni caracteres especiales como: ¿?#$%(/)\+-*.

Tipo de variable (TYPE).

Se refiere al tipo de datos que contendrá la variable. Existen muchos, pero los más usuales son:

► Alfabética. Cuando las respuestas del cuestionario están dadas en letras y no en números.

Limita la realización de análisis estadísticos, por lo que se recomienda primeramente codificar

la variable y pasarla a numérica, ya que así se tendrán más posibilidades para el análisis.

► Numérica. Permite la captura de números solamente. Es el más recomendado ya que permite

realizar más análisis estadísticos que los otros tipos. Además, al hacer la codificación siempre

se asignan números a las categorías, por lo que es el tipo más usado.

Número de campos (WIDTH) y decimales (DECIMALS).

Se trata del número de dígitos que componen la respuesta de la variable. Se cuenta el número de

espacios necesarios para capturar todas las opciones de una variable. En el conteo deben incluirse

el punto y los decimales.

Ejemplo:

Sexo: Se codificó como (1) Hombre y (2) Mujer, para capturar estas

opciones se requiere de una columna o espacio. Esto puede

simbolizarse como 1.0, ya que se utilizará una columna sin

decimales.

Escolaridad: Se codificó como (1) Primaria, (2) Secundaria, (3)

Preparatoria y (4) Licenciatura, para capturar estas opciones se

requiere de una columna o espacio. Al igual que la anterior se

simboliza como 1.0.

Edad: Para esta variable se captura la respuesta directa de los sujetos que

en este caso va de 6 a 17 años. Para poder capturar esta variable se

requieren dos columnas. En este caso se describe como 2.0, es

decir una variable de dos espacios sin decimales.

Estatura en metros: Para variables con decimales, debe contabilizarse la

posición del punto decimal, por lo que en este ejemplo que se

tienen estaturas de 1.54 a 1.72 metros, se ocuparán cuatro

columnas de las cuales dos de ellas están después del punto

decimal. Para referirnos al formato de esta variable se puede

1

2

1

2

3

4

6

8

1 2

1 7

13

escribir como 4.2, indicando que utilizará cuatro columnas, de las

cuales las últimas dos son ocupadas por decimales.

Etiqueta de la variable (LABEL).

Permite escribir el nombre completo de la variable o la pregunta que se indaga. Se pueden utilizar

hasta 80 caracteres, con sus respectivos espacios, acentos y otros caracteres como paréntesis,

comillas, diagonales o apóstrofes.

Valores (VALUES).

Es donde se indica a qué se refiere cada uno de los valores codificados. Sólo se utiliza para

variables categóricas cuyos valores se codificaron, Se debe especificar:

► Código de la variable

► Etiquetas de los valores

Variable Códigos Etiqueta del valor

Escolaridad

1

2

3

4

Primaria

Secundaria

Preparatoria

Licenciatura

Valores perdidos (MISSING VALUES).

Se asigna un valor determinado a las situaciones donde no se obtiene respuesta o ésta no entra

dentro del rango de respuesta establecido por el investigador.

Generalmente se utiliza el “9” o cadenas de nueves para asignar este valor.

Está estrechamente relacionada con el número de espacios que se le asignó a cada variable.

Ejemplo: En una variable como el sexo que ocupa solo un espacio su valor perdido es “9”

Variable Numero de

Campos Valor perdido

Escolaridad 1 9

Pasatiempo 2 99

Sueldo

mensual 5 99999

Nivel de medición (MEASURE).

Indica el nivel de medida de la variable, lo que ayuda a elegir los estadísticos a utilizar.

Pueden ser de tres tipos: nominal, ordinal y escalar. En este último se agrupan las variables

numéricas (De razón e intervalar).

La guía de codificación se debe realizar utilizando una tabla como la siguiente, donde cada renglón

indica una variable. Esto es, tendremos tantos renglones como variables en el estudio.

1 . 7 2

1 . 6 8

1 . 5 4

1 . 6 5

14

GUÍA DE CODIFICACIÓN

Nombre de

variable Tipo Campos

Etiqueta de la

variable Valores

Valores

perdidos

Nivel de

medición

Una vez que se tienen las respuestas de los sujetos listas para analizar, se utiliza la estadística descriptiva de

tres maneras:

Tablas de frecuencia

Gráficas

Análisis estadísticos

15

Frecuencias

La recolección de datos constituye la materia prima con la que debe trabajar un investigador para

analizar sus datos, obtener resultados y probar sus hipótesis sobre la naturaleza de la realidad social.

La información estadística puede comunicarse más fácilmente si se organiza en tablas y se muestra en

gráficas, las cuales se describen a continuación:

Tabla de frecuencias

Al resumir grandes colecciones de datos, resulta útil distribuirlos en clases o categorías, y determinar

el número de individuos que pertenecen a cada clase, lo cual se denomina frecuencia de clase. Así, las

frecuencias son el número de veces que ocurre un evento.

Una disposición tabular de los datos por clases junto con las correspondientes frecuencias de clase se

conoce como distribución de frecuencias o tabla de frecuencias.

La comparación entre distribuciones de frecuencia es un procedimiento que se utiliza a menudo para

aclarar resultados y agregar información.

Existen dos tipos de tablas de frecuencia:

De datos no agrupados

De datos agrupados

Tabla de frecuencia de datos no agrupados

La distribución de frecuencias no agrupadas contiene en una columna todos los valores posibles y

en la otra la cantidad de veces que este número o categoría se presenta, esto es, su frecuencia (f).

Ejemplos:

Tabla 1. Sexo Tabla 2. Edad

Categoría f Categoría f

Mujeres 200 60 1

Hombres 600 61 1

Total 800 62 2

63 3

64 5

66 4

67 6

68 3

70 4

71 6

72 3

73 1

74 1

Total 40

La tabla 1 muestra la distribución del género de 800 empleados, donde 600 son hombres y el resto

mujeres.

16

En la tabla 2 se observa que se entrevistaron a 40 personas entre 60 y 74 años, donde las edades más

frecuentes fueron 67 y 71 años.

Tabla de frecuencia de datos agrupados

Es aquella que sus valores se presentan en intervalos. Se utilizan únicamente con variables numéricas

y cuando la variabilidad de los datos es muy amplia.

Pasos para construir una distribución de frecuencia agrupada:

1. Calcular el rango. El rango es la diferencia entre el valor más grande y el valor más pequeño de la

distribución de datos. Suponiendo que el mayor dato sea 74 y el menor sea 60, el rango corresponde

a: 74 – 60 = 14.

2. Determinar el número de intervalos. Lo más indicado es tomar entre 5 y 20 intervalos de clase,

según la distribución de los datos. Generalmente se utilizan 7 que no es tan pequeño ni tan grande,

pero esto siempre depende del interés del investigador, de sus objetivos y de la variabilidad de datos.

Así, si los datos varían poco es recomendable agruparlos en pocos intervalos y viceversa.

3. Determinar el ancho del intervalo (w). Se calcula dividiendo el rango entre el número deseado de

intervalos. Siempre debe ser un número entero o redondearse para que lo sea. Se debe dividir el rango

en un número de intervalos de clase del mismo tamaño.

4. Especificar los límites del intervalo. Deben ser estandarizados para evitar las decisiones contrarias

en cada caso:

o Límite inferior. El intervalo debe comenzar con un múltiplo de w. El primer intervalo

comienza con el múltiplo de w que sea menor o igual al mínimo del rango. Ejemplo: si w es =

3 y el valor mínimo de la distribución es 62 deberá iniciarse en 60.

o Límite superior. Debe sumarse el límite inferior de cada intervalo con el resultado de restar

una al rango. El intervalo debe comenzar con un múltiplo de w. El primer intervalo comienza

con el múltiplo de w que sea menor o igual al mínimo del rango: límites inferiores + (w-1).

Esto con el objeto de que en cada intervalo queden exactamente el número de dígitos

establecido en el rango: 28, 29, 30, 31.

5. Hallar las frecuencias de clase. Contar los valores que caen en cada intervalo para encontrar la

frecuencia de cada intervalo.

Es importante considerar que no siempre resulta exacto el número de intervalos debido a la regla de

los rangos.

Ejemplo (tomando los datos de la tabla de edad anterior):

Paso 1. minmaxrango xx , 146074rango

Paso 2. No. de Intervalos = 5

Paso 3. intervalos de No.

rangow , 8.2

5

14w , redondeado = 3

Paso 4. Límite inferior: base el valor más pequeño con incrementos de w: 60, 63, 66, 69, 72

Limite superior = límites inferiores + (w-1): 62, 65, 68, 71, 74

17

Paso 5. Obtener las frecuencias de clase

Intervalo f

60-62 4

63-65 8

66-68 13

69-71 10

72-74 5

40

Todas las tablas de frecuencias de datos, tanto las agrupadas como las no agrupadas, deben contener

las siguientes columnas:

Columna de datos o categorías

Consiste en datos recogidos que no han sido organizados numéricamente. Para darle orden a una fila

de datos se construye un conjunto de datos numéricos en orden creciente o decreciente.

Cuando se trata de variables categóricas, la fila de datos contiene cada una de las categorías de la

variable.

Frecuencia absoluta (f)

Es el conteo de los datos de cada una de las categorías. Es el número de veces en que se repite cada

uno de los eventos. La sumatoria total de cada uno de esto eventos constituye el número total de

sujetos de la muestra.

Frecuencia absoluta acumulada (fa)

La Frecuencia acumulada se define como el número total de casos que tengan cualquier puntaje dado

o uno que sea mas bajo.

La frecuencia acumulada para cualquier categoría se obtiene sumando la frecuencia total para todas

las categorías abajo de ella. Esto es, tomar la frecuencia de la categoría y sumarla a la frecuencia de la

categoría posterior, y así consecutivamente. La última frecuencia acumulada debe ser igual al número

de sujetos entrevistados.

Una tabla que presente tales frecuencias acumuladas se denomina distribución de frecuencias

acumulada, tabla de frecuencias acumuladas, o bien, distribución acumulada.

Ejemplo:

Edad Frecuencia Frecuencia

acumulada

60-62 4 4

63-65 8 12

66-68 13 25

69-71 10 35

72-74 5 40

Frecuencias relativas o porcentajes (%)

La frecuencia relativa de una clase es su frecuencia dividida por la frecuencia total de todas las clases

y multiplicada por 100. Se expresa generalmente como porcentaje.

Por ejemplo, la frecuencia relativa de la clase 66–68 (ver la tabla de frecuencias) es 13 (frecuencia de

clase): 5.3210040

13

18

La suma de las frecuencias relativas de todas las clases debe dar 100% o un dato muy cercano,

considerando las variantes debidas a los decimales.

Ejemplo general:

Intervalo F %

60-62 4 10

63-65 8 20

66-68 13 32.5

69-71 10 25

72-74 5 12.5

Total 40 100

Si se sustituyen las frecuencias por las correspondientes frecuencias relativas, la tabla resultante se

denomina distribución de frecuencias relativas, distribución de porcentajes, o bien, tabla de frecuencias

relativas.

Un porcentaje es la relación que se establece entre una de las partes con respecto al todo o total

multiplicado por cien. Por ejemplo, si un conjunto de personas es dividido en dos subconjuntos (hombres y

mujeres), el coeficiente que resulta de dividir el número de hombres con relación al total de personas y

multiplicado por cien, indica el número de hombres por cada cien personas que integran ese conjunto:

Mujeres 200

Hombres 600

Total 800

%25)100(800

200)100(

personasdetotal

mujeresde#mujeresde%

%75)100(800

600)100(

personasdetotal

hombresde#hombresde%

La principal función de los porcentajes es la de poder comparar de manera más precisa, ya que con las

frecuencias la interpretación puede ser errónea. Ejemplo: En la Facultad de Ciencias Políticas y Sociales se

inscribieron, en el año de 1967, un total de 1365 alumnos. Si se desea conocer el tipo de escuela primaria de

la que provienen (pública o privada) y, además, su relación con el sexo, es conveniente transformar los datos

absolutos a porcentajes, con el fin de establecer mejor dicha relación. Así:

Escuela Mujeres Hombres Total

Oficial 146 668 814

Privada 225 336 561

Total 371 1004 1375

Los datos absolutos no indican claramente en qué medida los hombres y mujeres provienen, en mayor

o menor proporción, de escuelas oficiales. Si bien se puede apreciar que la mayor parte de las mujeres

provienen de escuelas particulares y que los hombres provienen, en mayor proporción, de escuelas oficiales,

19

resulta difícil señalar cómo se da esta diferencia, pues las relaciones se ven oscurecidas por la dimensión

absoluta de las cifras. Si se reducen el total de mujeres y el total de hombres a la base de 100 y se evalúan los

porcentajes correspondientes a ambos subconjuntos (escuelas oficiales y privadas), las diferencias se

presentan con claridad. De esta forma se observa lo siguiente:

Escuelas Mujeres Hombres Total

f % f % f %

Oficial 146 39 668 67 814 59

Privada 225 61 336 33 561 41

Total 371 100 1004 100 1375 100

Al reducir los valores absolutos a relativos, se aprecia que de cada 100 mujeres inscritas, 39

provienen de escuelas oficiales y que de cada 100 hombres inscritos, 67 provienen de escuelas oficiales.

Frecuencias relativas acumuladas o porcentajes acumulados (%a)

Se define como el porcentaje total de casos que tengan cualquier puntaje dado o uno que sea mas

bajo. El porcentaje acumulado para cualquier categoría se obtiene sumando el porcentaje total para todas las

categorías abajo de el. Esto es, tomar el porcentaje de la categoría y sumarlo al porcentaje de la categoría

anterior. El último porcentaje acumulado debe dar 100.

Ejemplo general:

Intervalo F fa % % a

60-62 4 4 10 10

63-65 8 12 20 30

66-68 13 25 32.5 62.5

69-71 10 35 25 87.5

72-74 5 40 12.5 100

Total 40 100

Requerimientos para la elaboración de tablas:

Además de las columnas las tablas de frecuencia deben cumplir con ciertos requisitos como son:

Ser autoexplicativa, esto es, que no se necesite recurrir a otra fuente para entender su contenido.

Llevar un título corto pero que describa claramente lo que contiene.

Especificar a que se refiere cada una de las columnas y las categorías.

Puede llevar una nota al pie donde se indiquen aclaraciones sobre la tabla o la fuente de donde

provino-

20

Representación Gráfica de Datos

Hecha la recopilación de los datos, el siguiente paso es la correcta organización para que brinde

información fiel y de utilidad. De la misma manera que las tablas de frecuencia, las gráficas permiten

presentar de manera resumida los datos encontrados en una investigación.

Una gráfica es la representación de datos, generalmente numéricos, mediante líneas, superficies o

símbolos, para ver la relación que esos datos guardan entre sí. Son de gran utilidad debido a que permiten la

visualización rápida de los resultados, son atractivas por lo que captan la atención del lector, además de que

son fáciles de entender e interpretar. Sin embargo, pese a que son muy utilizadas es necesario tener en cuenta

que las gráficas no son de uso indiscriminado, esto es, dependiendo de los datos recolectado es el tipo de

gráfica que se va a utilizar.

Para hacer la elección, es necesario considerar la naturaleza de los datos de acuerdo con el propósito

para el cual fueron recopilados. Si las observaciones se hicieron atendiendo a ciertas cualidades o atributos de

una población se les llama datos cualitativos. Si, por el contrario, las observaciones se hicieron atendiendo a

características que pueden representarse numéricamente como son: estatura, peso, temperatura, volumen,

costos, entre otras, de una población se les llama datos cuantitativos. A continuación se representan las

gráficas más apropiadas tanto para datos cualitativos como para cuantitativos.

Datos Cualitativos

Gráfica de barras

Es una forma muy usual para representar datos

cualitativos. Se hacen dibujando rectángulos o

barras, que indican diversos valores bajo una

escala común y teniendo un mismo origen que

representa cero.

Las barras pueden presentarse vertical u

horizontalmente. La escala de valores se coloca

sobre dos rectas perpendiculares, en el eje X se

ponen las categorías y en el Y las frecuencias o

porcentajes. Este tipo de gráfica puede utilizarse

tanto para variables nominales como para

ordinales.

Gráfica 1. Número de Alumnos por Materia

Gráfica Circular

Este tipo de gráfica se representa, generalmente,

en un círculo y las divisiones que presenta son

proporcionales a las diferencias cuantitativas que

se tratan de representar.

La abertura de cada sector del círculo representa

el porcentaje correspondiente. Asimismo, este

tipo de gráfica debe utilizarse exclusivamente

para variables nominales o que describan las

características de la población.

Gráfica 2. Porcentajes de la población de México por

grupos de edad

21

Gráfica Pictórica o Pictograma

Son llamadas también gráfica de figuras,

estadística de figuras o lenguaje estadístico

internacional. Son equivalentes a las gráficas de

barras, pero son más llamativas y de fácil

comprensión por su sencillez.

En lugar de barras se utilizan dibujos referentes a

lo que se quiere expresar. Dichos dibujos

expresan cantidades parciales o totales: Signos de

pesas para dinero, sacos de harina para

agricultura, etc. Para interpretar estas gráficas

basta conocer el valor de cada figura o signo.

Datos Cuantitativos

Histograma

El histograma puede interpretarse como una

gráfica especial de barras o rectángulos, los cuales

se trazan de tal manera que su ancho es igual al

intervalo de clase; como todos los intervalos son

iguales, todos los rectángulos tienen el mismo

ancho. La altura de cada barra es igual a la

frecuencia correspondiente a dicho intervalo. Para

tal efecto, se trazan dos ejes coordenados: en el

horizontal se marcan los intervalos de clase y en

el vertical las frecuencias. Así pues, esta gráfica

se utiliza para variables de tipo intervalar o de

razón y sus barras deben ir juntas.

Gráfica 4. Distribución de edad de un grupo de

adolescentes

Polígono de frecuencia

Es una gráfica lineal que se obtiene marcando los

puntos medios de cada intervalo de clase en las

abscisas y como ordenada la frecuencia

correspondiente al intervalo.

Posteriormente, se unen con rectas dichos puntos

para formar la poligonal que se limita en los

puntos medios del intervalo anterior y del

intervalo que sigue a los marcados en la tabla.

Puede ser una gráfica que combina las gráficas

lineales con el histograma.

Este tipo de gráfica se utiliza para variables

intervalares o de razón.

Gráfica 5. Número de síntomas de depresión en un

grupo de mujeres mayores

22

Gráfica Lineal o Poligonal

Las gráficas lineales se representan en una cuadrícula a base de líneas horizontales y verticales, expresando a

la izquierda y, en la base de dicha cuadrícula, dos tipos diferentes de escalas normalmente que se refieren a

cantidad y tiempo.

Sirven fundamentalmente para comparar y

observar la evolución de ascenso y descenso en

todo tipo de fenómeno, sea social, económico,

industrial, comercial, físico, etc.

Este tipo de gráfica sirve también para llevar un

registro pormenorizado de cualquier fenómeno y

está considerada como una de las gráficas más

exactas. Se utiliza principalmente para variables de

razón.

Gráfica 6. Crecimiento Poblacional en la República

Mexicana

Requerimientos para la elaboración de gráficas

Al igual que las tablas de frecuencia, las gráficas deben cumplir con ciertos requisitos como son:

Ser autoexplicativa, esto es, que no se necesite recurrir a otra fuente para entender su contenido.

Llevar un título corto pero que describa claramente lo que contiene la gráfica.

Especificar a que se refiere cada uno de los ejes (sexo, edad, etc.) y las unidades representadas

(frecuencia, porcentaje).

Puede llevar una nota al pie donde se indiquen aclaraciones sobre la gráfica o la fuente de donde

provino-

En la elaboración de un documento es recomendable poner gráfica y tablas para representar diferente

datos, pero nunca debe ponerse una gráfica y una tabla para representar lo mismo.

Gráficas engañosas

Una forma muy común de mentir con la estadística es a través de las gráficas. En muchas ocasiones se

presentan gráficas que son ambiguas por lo que la interpretación de ellas puede variar, mientras que en otros

momentos las gráficas están presentadas propositivamente para resaltar un resultado no muy relevante, pero

encaminado a influir en la percepción del lector. De esta manera, se amplían las escalas de las gráficas,

haciendo ver diferencias importantes donde no las hay, o por el contrario, se minimizan las escalas para que

se ven pocas diferencias entre los grupos.

Es por ello que debe serse muy cuidadoso al interpretar una gráfica, tomando en cuenta, los datos que

se están graficando, el número de personas entrevistadas y sobre todo la escala de medida que se grafica

(frecuencias, porcentajes, etc.).

23

Medidas de Tendencia Central

Son aquellas que nos indican que tanto se agrupan los datos o se acercan a un punto medio.

Media aritmética ( x )

La media aritmética, o promedio aritmético, se define como la suma de todos los valores entre el

número total de ellos. Es un puntaje que equilibra todos los puntajes ubicados a uno y otro lado de ella. Es el

promedio que se encuentra usualmente. Las fórmulas son las siguientes:

Para datos no agrupados: Para datos agrupados:

n

xx

n

fxx

En donde: x = calificación o punto medio de la calificación

n = número de calificaciones o datos

f = frecuencia

Se interpreta como el promedio de los datos obtenidos, es decir, el dato alrededor del cual se

encuentran los demás datos de la distribución. Por ejemplo: si promediamos la edad de un grupo de alumnos

de secundaria probablemente obtengamos 14 años, lo que las edades de los alumnos están alrededor de esta

edad pudiendo ser mayores o menores.

La media no es siempre el puntaje que ocurre más a menudo, ni el más cercano al medio en una

distribución. Media es el punto alrededor del cual las desviaciones positivas y negativas de la distribución se

equilibran.

Ejemplos:

Datos no agrupados

Si quisiéramos encontrar la media

del coeficiente intelectual de los 8

entrevistados. En resultado indica

que el coeficiente intelectual del

grupo en promedio fue 107.87.

Entrevistado C.I.

87.1078

863

n

xx

Leticia 125

Francisco 92

Sara 72

Miguel 125

Rebeca 120

Rocío 99

Benjamín 130

Pablo 100

Total 863

Datos agrupados

Si obtenemos el promedio de

calificaciones de matemáticas de

un grupo de secundaria, el

resultado indica que en promedio

la calificación del grupo fue 6.76,

esto es, que hay tanto

calificaciones mayores como

menores a esta.

x f fx

76.625

169

n

fxx

10 1 10

9 3 27

8 6 48

7 4 28

6 5 30

5 2 10

4 4 16

Total 25 169

24

Moda (Mo)

La moda es el valor que se presenta con mayor frecuencia en un conjunto de datos. De todas las

medidas de tendencia central, la moda es la más fácil de determinar, puesto que, en el caso de las

distribuciones con datos no agrupados, se obtiene por inspección, no por cómputo. Por otra parte, cuando los

datos están agrupados, la moda se define como el promedio los valores mínimo y máximo del intervalo de

mayor frecuencia.

A una distribución que cuenta con una sola moda se le denomina unimodal. Las bimodales refieren

dos valores que tienen frecuencias máximas similares. Las multimodales, por su parte, son distribuciones de

mediciones que tienen varias modas.

Se interpreta como el dato que se repite el mayor número de veces en una distribución, es decir, es el

dato de mayor frecuencia.

Entrevistado C.I. x f fx

Leticia 125 10 1 10

Francisco 92 9 3 27

Sara 72 8 6 48

Miguel 125 7 4 28

Rebeca 120 6 5 30

Rocío 99 5 2 10

Benjamín 130 4 4 16

Pablo 100 Total 25 169

Total 864

La moda o coeficiente intelectual más

frecuente es 125 que se presenta en dos

entrevistados

La calificación de matemáticas más

frecuente en un grupo de secundaria

es 8. Este dato constituye la moda.

Mediana (Md)

Es el valor o punto en una serie que divide los valores ordenados en dos grupos de igual tamaño. De

manera que el 50 % de los sujetos tiene puntajes iguales o menores a la mediana y el otro 50 % de

individuos, tiene calificaciones iguales o mayores a la mediana.

Procedimiento para datos no agrupados:

Ordenar los datos de manera ascendente o descendente.

Identificar la posición de la mediana, esto es, al sujeto que está justo en medio de la distribución

mediante alguna de las siguientes fórmulas.

Cuando n es par: Cuando n es impar:

2

1

nMd

2

nMd

El resultado de la fórmula se busca en las frecuencias acumuladas. A ese dato se le conoce como

posición de la mediana.

Identificar el valor o calificación que pertenece al sujeto que está a la mitad de la distribución. Ese

valor corresponde al valor numérico de la mediana.

25

Ejemplo de datos no agrupados:

X f fa

5.112

23

2. n

Md

Md = 11.5 = 4

7 2 2

6 3 5

5 4 9

4 5 14

3 4 18

2 3 21

1 2 23

Total 23

El dato obtenido de la fórmula (11.5) se busca en las frecuencias acumuladas. En este caso cae en la

Fa 14 en donde se encuentran los sujetos del 10 al 14. Posteriormente se ubica el valor correspondiente al

sujeto. El valor es 4. Lo que indica que la Mediana es igual a 4.

Interpretación: Se obtuvieron las calificaciones de 23 personas, observando que el 50% de ellas

obtuvieron un puntaje igual o mayor a 4.

Procedimiento para datos agrupados:

Identificar la posición de la mediana, esto es, al sujeto que está justo en medio de la distribución

mediante alguna de las fórmulas anteriores.


posición de la mediana. El intervalo donde se encuentre esta será el que se utilice en la fórmula.

Identificar el valor o calificación que pertenece al sujeto que está a la mitad de la distribución, dentro

del intervalo seleccionado. Para lo cual se utiliza la siguiente fórmula:

)()5.0(

if

faanLRIMd

Donde:

LRI = Límite real inferior del intervalo

donde se encuentra la mediana

faa = Frecuencia acumulada anterior

f = Frecuencia del intervalo

i = Tamaño del intervalo

El resultado de la fórmula es el valor numérico de la mediana.

Ejemplo de datos agrupados:

Se aplicó un examen cuya calificación mayor fue 98 y la menor 64, elabore 7 intervalos y obtenga la mediana

26

x f x f x f x f x f

64 1 71 4 78 5 85 4 92 2

65 2 72 3 79 6 86 4 93 2

66 1 73 3 80 6 87 4 94 4

67 2 74 4 81 6 88 4 95 3

68 2 75 5 82 7 89 5 96 2

69 3 76 5 83 7 90 5 97 2

70 5 77 5 84 4 91 3 98 2

i f fa LRI

64-68 8 8 63.5

69-73 18 26 68.5

74-78 24 50 73.5

79-83 32 82 78.5

84-88 20 102 83.5

89-93 17 119 88.5

94-98 13 132 93.5

5.662

133

2

1.

n

Md

81)5(32

50665.78)5(

32

50)1325.0(5.78)(

)5.0(

i

f

faanLRIMd

Interpretación: Se aplicó un examen a 132 personas, observando que la calificación mayor fue 98 y la menor

64. El 50% de las personas obtuvo una calificación entre 64 y 81, mientras que la otra mitad obtuvo entre 81

y 98.

27

Medidas de Posición

Son aquellas que se utilizan para conocer el lugar exacto que ocupa un dato dentro de la distribución.

Las medidas de distribución más populares son el cuartil, el percentil y el decil.

Cuartiles

Son puntos que parten la distribución en cuatro partes o cuartos. El punto que divide el cuarto inferior

(25%) de los tres cuartos superiores de la distribución, es el primer cuartil (Q1). El segundo cuartil (Q2) es

idéntico a la mediana, ya que divide a la población en 2 partes iguales. El tercer cuartil (Q3) divide el cuarto

superior de los tres cuartos inferiores de la distribución. La división se realiza de acuerdo a la proporción de

frecuencias observadas.

Percentiles

Son puntos que dividen en centésimas (cien partes iguales) la distribución. Esto es, son puntos bajo

los cuales cae un porcentaje dado “P” de los casos. P50 es equivalente a la mediana y al punto Q2. Asimismo,

P25 es equivalente a Q1 y, por último, P75 equivale a Q3.

Cálculo de las medidas de posición de datos NO agrupados:

Cuartiles

Ordenar los datos de manera ascendente.

Identificar la posición del cuartil mediante alguna de las siguientes fórmulas.

41

nQ

4

22

nQ

4

33

nQ


posición del cuartil.

Identificar el valor numérico del cuartil localizando la calificación que pertenece a la posición.

Percentiles

Ordenar los datos de manera ascendente.

Identificar la posición del percentil que se desea con la siguiente fórmula.

100

xnPx


posición del percentil.

28

Identificar el valor numérico del percentil localizando la calificación que pertenece a la posición.

Ejemplo de datos no agrupados

Se les preguntó a un grupo de padres la edad en meses en que sus hijos habían tenido la primera expresión

verbal. Los datos se muestran a continuación:

13 17 15 16 15 17 15 16 15 19 17 18 15 16 21

15 16 13 17 16 18 15 15 19 16 18 19 23 17 23

17 14 16 20 18 13 15 18 16 18 20 21 20 16 16

23 18 15 18 16 16 18 16 21 16 17 22 21 17 24

Obtener los cuartiles 1,2 y 3 y los percentiles 15 y 80.

Valores f Fa Porcentaje % acumulado

13 3 3 5.00 5.00

14 1 4 1.66 6.66

15 10 14 16.66 23.32

16 14 28 23.33 46.65

17 8 36 13.33 59.98

18 9 45 15.00 74.98

19 3 48 5.00 79.98

20 3 51 5.00 84.98

21 4 55 6.66 91.64

22 1 56 1.66 93.3

23 3 59 5.00 98.3

24 1 60 1.66 99.96

Total 60 99.96

16154

601 Q 1730

4

)60(22 Q 1845

4

)60(33 Q

159100

)60(1515 P 1948

100

)60(8080 P

Los resultados se interpretan de la siguiente manera:

El 25% de los bebes dicen su primera palabra entre los 13 y los 16 meses; el 50% antes de los 17

meses; el 25% entre los 18 y los 24 meses; el 15% de los bebes entre los 13 y los 15 meses y el 20% que se

tarda más en hablar lo hace entre los 19 y los 24 meses.

Cálculo de las medidas de posición para datos agrupados:

El procedimiento tanto para cuartiles como para percentiles es el mismo, lo único que cambia es el

multiplicador en la fórmula. Es por ello que se explicarán juntos los procedimientos.

Identificar la posición distribución mediante alguna de las fórmulas anteriores.

29

Identificar el valor numérico con alguna de las siguientes fórmulas:

)()4/(

if

faaxnLRIQ

x

)(

)100/(i

f

faaxnLRIPx

Donde:

LRI = Límite real inferior del intervalo

donde se encuentra la medida buscada

faa = Frecuencia acumulada anterior

f = Frecuencia del intervalo

i = Tamaño del intervalo

x = Número de percentil o cuartil que se

quiere obtener.

Ejemplo de datos agrupados

Se aplicó una prueba para conocer el nivel de autoestima de un grupo de empleados de una empresa.

Obtener los cuartiles y los percentiles 10 y 60.

Intervalos f fa % % acumulado Punto Medio LMI

50 – 54 6 6 3.09 3.09 52 49.5

55 – 59 12 18 6.18 9.27 57 54.5

60 – 64 21 39 10.82 20.09 62 59.5 P10

65 – 69 32 71 16.49 36.59 67 64.5 Q1

70 – 74 46 117 23.71 60.29 72 69.5 Q2 P60

75 – 79 39 156 20.10 80.39 77 74.5 Q3

80 – 84 20 176 10.30 90.69 82 79.5

85 – 89 18 194 9.27 99.96 87 84.5

Total 194 99.96

5.484

1941 Q 97

4

)194(22 Q 5.145

4

)194(33 Q

4.19100

)194(1010 P 4.116

100

)194(6060 P

98.65)5(32

395.485.64)5(

32

39)19425.0(5.64)(

)25.0(1

i

f

faanLRIQ

32.72)5(46

71975.69)5(

46

71)1945.0(5.69)(

)5.0(2

i

f

faanLRIQ

30

15.79)5(39

1175.1455.75)5(

39

117)19475.0(5.75)(

)75.0(3

i

f

faanLRIQ

83.59)5(21

184.195.59)5(

21

18)100/)194(10(5.59)(

)100/)(10(10

i

f

faanLRIP

43.74)5(46

714.1165.69)5(

46

71)100/)194(60(5.69)(

)100/)(60(60

i

f

faanLRIP

Los resultados se interpretan de la siguiente manera:

El 25% de los sujetos obtuvo 65.98 o menos en la prueba; el 50% de los empleados obtuvo más de

72.32; el 75% sacó de 79.15 para arriba en la prueba, estos son lo que tienes una mayor autoestima. Además,

el 60% de los empleados obtuvo un puntaje menor o igual a 74.43, mientras solo el 10% tiene menos de

59.83, esto es, los de menor autoestima en el grupo.

31

Medidas de Dispersión o Variabilidad

Las dos características más importantes de cualquier conjunto de datos son:

Su tendencia central

Su variabilidad o dispersión

Estos conceptos nos sirven para resumir las características principales de un conjunto de datos.

Ambos son requisito indispensable para poder interpretar una observación.

Las medidas de tendencia central están relacionadas con el promedio o valor típico o representativo

de la distribución. Mientras que la variabilidad entre los valores, se refiere a qué tan grandes son las

diferencias entre ellos.

Las medidas de variabilidad cuantifican el grado de dispersión o la extensión de las diferencias

individuales en la distribución.

Las medidas de dispersión son:

Valor mínimo y máximo

Rango

Varianza

Desviación estándar o típica

Valores mínimo y máximo

Estos valores sirven para describir a la población y funcionan como indicadores para determinar dónde se

encuentran los sujetos con respecto a la variable evaluada. Asimismo, van a utilizarse para obtener el rango

de la distribución.

Rango o amplitud

El rango mide la extensión total de un conjunto de datos y se calcula utilizando únicamente dos

números. Para encontrar el rango se restan los dos extremos de la medición, la medición más grande menos

medición más pequeña.

MINMAX XXR

El rango sirve para describir la distribución de datos y se interpreta como el valor que indica la

cantidad de unidades que se encuentran comprendidas entre el valor mínimo y el valor máximo de la

distribución. Se interpreta como el valor que indica la amplitud de la base de la curva de distribución.

El rango de la muestra aún cuando es fácil de calcular, a menudo es calificado de ineficiente porque

ignora toda la información disponible en los valores intermedios de la muestra. Sin embargo, para muestras

pequeñas, la eficiencia es suficientemente alta. Así el rango de la muestra goza de una aceptación favorable y

uso amplio, debido a la facilidad para calcularlo en aplicaciones estadísticas como control de calidad, donde

las muestras son pequeñas.

Ejemplo

Durante un mes determinado del verano, los ocho vendedores de aparatos electrónicos de una

empresa vendieron el siguiente número de ventiladores: 8, 11, 5, 14, 8, 11, 16, 11. Obtener el rango.

32

MINMAX XXR R = 16 – 5 = 11 unidades

Interpretación: La amplitud de lo vendido es de 11, lo que indica que hay una diferencia de 11

unidades entre el que más vendió y el que menos vendió.

Varianza

Es una medida de dispersión que se abrevia S2 e indica que tanto se alejan los datos con relación a la

media. La varianza se basa en el cuadrado de la diferencia entre cada uno de los valores del conjunto de datos

y la media del grupo.

La varianza toma en cuenta la distancia de cada medida con respecto a la media; esta distancia se

llama desviación. Si una sola medición cae a la izquierda de la media sobre una gráfica de datos, se dice que

la medida tiene una desviación negativa con respecto a la media; si cae a la derecha de la media, se dice que

tiene una desviación positiva. Si tratamos de calcular la distancia promedio de cada medida con respecto a la

media, la suma de las desviaciones positivas invalida la suma de las desviaciones negativas. El resultado de

la suma numérica es cero, es decir, representa una medida inútil de variabilidad. Para evitar este problema se

elevan las desviaciones al cuadrado (de este modo se eliminan los signos negativos) y entonces, se promedia

la suma de los cuadrados. Este cálculo produce la varianza que indica la desviación con respecto a la media

de cada medida de la muestra.

La varianza para datos agrupados se obtiene restando el punto medio del intervalo mayor del punto

medio del intervalo más pequeño, obteniendo así los valores de x.

La varianza se obtiene mediante la siguiente fórmula:


n

xxs

)(2

2

n

xfxs

)(2

2

La varianza no tiene una interpretación descriptiva, pero es básica para el cálculo de análisis

estadísticos más avanzados.

Ejemplo

A continuación se presentan varias muestras de calificaciones obtenidas por cuatro grupos en una prueba.

Conjunto Calificaciones de la prueba Media

1 70, 70, 70, 70, 70 70

2 68, 69, 70, 71, 72 70

3 60, 70, 70, 70, 80 70

4 60, 65, 70, 75, 80 70

En los cuatro conjuntos la media es la misma, 70, pero los conjuntos son, desde luego, completamente

diferentes. No hay variabilidad alrededor de la media en el conjunto uno, mientras que existe una gran

variabilidad alrededor de la media en el conjunto cuatro. Es obvio que la media en sí misma no refleja en

33

forma alguna la variabilidad de estas calificaciones. Por tanto para encontrar el número que refleje la

variabilidad de las calificaciones de la prueba se emplea el rango, mediante el cual se determina la diferencia

entre la calificación más alta y la más baja.

Conjunto Calificaciones de la prueba Media Rango

1 70, 70, 70, 70, 70 70 0 (70-70=0)

2 68, 69, 70, 71, 72 70 4 (72-68=4)

3 60, 70, 70, 70, 80 70 20 (80-60=20)

4 60, 65, 70, 75, 80 70 20 (80-60=20)

Como puede observarse, el rango sólo toma la medida mayor y menor, así que para considerar todas

las medidas se utiliza la varianza, la cual toma en cuenta la distancia de cada medida con respecto a la media.

A continuación se desglosa el cálculo de la varianza de uno de los conjuntos de calificaciones

Valor Media

x

Desviación

(x- x )

Desviación al

cuadrado (x- x )2

68 70 -2 (-2)2

= 4

69 70 -1 (-1)2 = 1

70 70 0 02 = 0

71 70 1 12 = 1

72 70 2 22 = 4

Total = 350 Total = 0 (x- x )2 =10

Como N = 5, la varianza es igual a: 25

10)(2

2

n

xxs

Si de la misma manera calculamos la varianza para cada conjunto, los resultados nos indican que a

mayor variabilidad en los datos mayor será la varianza, aunque la media de cada conjunto sea la misma.

Conjunto Calificaciones de la prueba Media Rango Varianza

1 70, 70, 70, 70, 70 70 0 (70-70=0) 0

2 68, 69, 70, 71, 72 70 4 (72-68=4) 2

3 60, 70, 70, 70, 80 70 20 (80-60=20) 40

4 60, 65, 70, 75, 80 70 20 (80-60=20) 50

34

Desviación Estándar o Típica (s)

La desviación típica equivale al promedio de la variabilidad de los datos. Es una medida de dispersión

utilizada en la interpretación de los datos. Sirve para conocer la normalidad de una distribución, puesto que la

normalidad refiere la suma y resta de dos desviaciones a la media.

Su fórmula es:


ns

xx

)(2

n

sxfx

)(

2

Se interpreta como el dato que refiere el promedio de la distancia a la que se encuentran las

puntuaciones con respecto a la media. Si la desviación estándar es pequeña con respecto a la media, indica

que las calificaciones son homogéneas, es decir están muy cercanas, pero si es grande, las puntuaciones son

heterogéneas, esto es, muy diferentes entre sí.

Ejercicio de datos no agrupados

Obtener la media y la desviación estándar de la edad de los asistentes a un curso de capacitación:

Edad x- x (x- x )2

25 -12.88 165.89

27 -10.88 118.37

32 -5.88 34.57

33 -4.88 23.81

38 0.12 0.01

39 1.12 1.25

43 5.12 26.21

48 10.12 102.41

56 18.12 328.33

Total 341 800.89

n

xx

88.37

9

341x

ns

xx

)(2

43.99

89.800s

El promedio de la edad de los asistentes es 37.88 años y el promedio de la distancia a la que se

encuentran las edades con respecto a la media es 9.43. Esto significa que las edades se desvían en promedio

24 años hacia arriba y hacia abajo de la media.

35

Ejercicio para datos agrupados

Se aplicó una prueba de matemáticas a 200 estudiantes que deseaban ingresar a la Licenciatura en

Ingeniería. Obtener la media y la desviación estándar.

Calificaciones f pm

(x) Fx x- x (x- x )

2

32 – 34 2 33 66 -21.99 479.61

35 – 37 4 36 144 -18.99 357.21

38 – 40 4 39 156 -15.99 252.81

41 – 43 16 42 672 -12.99 166.41

44 – 46 16 45 720 -9.99 98.01

47 – 49 18 48 864 -6.99 47.61

50 – 52 22 51 1122 -3.99 15.21

53 – 55 22 54 1188 -0.99 0.81

56 – 58 24 57 1368 2.11 4.41

59 – 61 22 60 1320 5.11 26.01

62 – 64 16 63 1008 8.11 65.61

65 – 67 12 66 792 11.11 123.21

68 – 70 10 69 690 14.11 198.81

71 – 73 6 72 432 17.11 292.41

74 – 76 4 75 300 20.11 404.01

77 – 79 2 78 156 23.11 533.61

Total 200 10998 3065.76

99.54200/10998

n

fxx 32.15

200

76.3065)(2

nS

xx

El promedio de las calificaciones de la prueba de matemáticas es 54.99, mientras que el promedio de

la distancia a la cual se encuentran las calificaciones con respecto a la media es 15.32. Esto indica que las

calificaciones se desvían 15 puntos por arriba y por abajo del promedio o media.

Las medidas de tendencia central, por sí solas, no son suficientes, lo cual puede comprobarse si se

considera el hecho de que dos o más conjuntos de datos pueden tener la misma media, mediana o moda sin

que dichos conjuntos sean los mismos. Por lo tanto, son necesarias también las medidas de variabilidad o

dispersión para describir los valores de forma más individual.

36

Medidas de Distribución

Basadas en las gráficas que existen para representar los datos encontrados en variables numéricas,

existen variaciones de las mismas que permiten conocer como se distribuyen los datos del fenómeno

estudiado (Hopkins, Hopkins, y Glass, 1997). Entre las distribuciones más frecuentes en Psicología se

encuentran:

a) Rectangular. Distribución simétrica con una frecuencia

constante para todos los valores. Por ejemplo nacimientos por

cada día de la semana. No tiene una moda ya que todos los

valores tienen aproximadamente la misma frecuencia. La

media y la mediana pueden ser las mismas.

b) Bimodal. Cuando existen 2 modas en la distribución. Por ejemplo en la distribución de las estaturas

de hombres y mujeres, ya que sus estaturas difieren generalmente. Puede ser que una moda sea

ligeramente más pequeña que la otra, en eso caso se habla de moda mayor y menor. Esta distribución

también se presenta cuando las opiniones hacia un fenómeno se encuentran polarizadas. Por ejemplo

la actitud hacia el aborto. La media y la mediana pueden ser las mismas.

c) Normal. Se llama distribución de campana o distribución normal. Tiene dos características

principales:

- Es simétrica respecto a la línea vertical de la mediana (Asimetría = 0)

- La moda y la media son iguales a la mediana

- Unimodal

- 96% de la población cae dentro (normal) y el 4% cae fuera (anormal)

Por ejemplo la estatura de las mujeres.

d) Asimétricas. Son distribuciones que no son iguales para ambos lados. La asimetría puede ser desde

ligera hasta muy extrema. Dependiendo de la dirección puede ser:

- Positivas. Se alarga hacia la derecha, hacia el extremo de valores más alto. Por ejemplo:

Número de faltas a una materia en un semestre.

- Negativas. Se alarga hacia la izquierda, hacia el extremo de valores más bajo. Por ejemplo:

Las calificaciones de un examen muy fácil.

En las distribuciones asimétricas la media es jalada hacia los valores extremos de la cola, por lo que

en la positiva es mayor que la mediana y la moda, mientras que en la negativa es menor.

Numero de personas que consultan la

página de la Secretaría de Salud

1000

6000

11000

16000

ener

o

mar

zo

may

ojulio

sept

iem

bre

noviem

bre

37

Estatura Mujeres Hombres Media 163.75 167.25 Mediana 163 168 Moda 163 168 Distribución Positiva Negativa

Estatura Mujeres Hombres 158 1 0 159 2 1 160 3 1

161 4 1 162 5 1 163 6 1 164 5 2 165 4 3 166 3 4 167 2 5 168 1 6 169 1 5 170 1 4 171 1 3 172 1 2 173 0 1

TOTAL 40 40

Distribución Normal

La distribución normal es la representación gráfica de las observaciones de un fenómeno y se

denomina campana de Gauss. Se ha encontrado que si un fenómeno es observado en repetidas

ocasiones, este tiene variaciones naturales que se distribuyen de manera regular y que de manera

gráfica se convierten en la curva normal. Por ejemplo: la estatura se distribuye normalmente en al tener

personas de la misma edad.

Muchas medidas en psicología tienen una distribución parecida a la de la curva normal. Aunque

nunca se tiene una curva distribución normal perfecta, pero se acerca a esta entre más sujetos se

incluyen.

Para saber el grado en que una curva de distribución se parece a una curva normal, se utilizan

dos medidas: curtosis y asimetría.

COMPARACION DE ESTATURAS DE HOMBRES Y MUJERES

0

1

2

3

4

5

6

7

15

8

15

9

16

0

16

1

16

2

16

3

16

4

16

5

16

6

16

7

16

8

16

9

17

0

17

1

17

2

17

3

ESTATURAS

FR

EC

UE

NC

IA

Mujeres

Hombres

38

Curtosis

Describe el grado en que las proporciones observadas difieren de las de la curva normal. Se

refiere a la amplitud de la curva en una distribución normal, esto es la agudeza que presenta el perfil de

una curva unimodal.

La curtosis está relacionada con el número de sujetos que estamos observando. En la medida

que el número de sujetos es más pequeño, la curva se hace más anchas y conforme crece el número de

sujetos las curva es menos ancha y se parece más a una distribución normal.

De acuerdo a la curva que reflejen las distribuciones pueden ser de 3 tipos

Cuando los puntajes obtenidos al aplicar una prueba psicológica tienden a agruparse en el

centro de la distribución en un intervalo reducido de valores, se tiene una curva aguda o leptocúrtica.

Cuando esto ocurre, se dice que el grupo es homogéneo con respecto a lo que se mide. Cuando el

resultado de la curtosis es positivo y mayor a 1, indica que hay más casos en medio de la curva que en

una distribución normal.

> 1

Si el intervalo en el que tienden a agruparse los puntajes de un agrupo no es tan reducido, la

curva se denomina semiaguda o mesocúrtica. Esta equivale a la curva normal. La distribución normal

tiene una curtosis igual a 1. Entre más se aleje este valor del 1, menos se parecerá a una distribución

normal estricta.

= 1

Un caso opuesto a la curva leptocúrtica es el que corresponde a una distribución donde existe

un intervalo amplio de puntajes con una agrupación mínima en el centro. A esta curva se le llama

aplanada o platocúrtica. Los datos en esta distribución son heterogéneos entre sí. Una curtosis menor

a 1 o negativa indica más casos en los extremos de la curva que en una distribución normal.

< 1

39

As<0

Asimetría o sesgo (Skeeness)

Describe la falta de simetría en una distribución. La asimetría (As) se presenta cuando una

curva de distribución, en una de sus colas, se extiende más lejos que la otra en una dirección.

Existen dos tipos de asimetría:

Sesgo Negativo: Describe distribuciones simétricas en las que la mediana excede a la media, la cola de

la distribución es hacia los valores bajos. Cuando la cola se extiende hacia la izquierda, el valor del

estadístico es negativo

Sesgo Positivo: Describe distribuciones asimétricas en las que la media excede a la mediana, la cola de

la distribución es hacia los valores altos. Es cuando está más extendida la cola de la derecha de la

curva, el valor del estadístico es positivo.

Si la asimetría es igual a cero, se obtiene una curva normal.

El llamado coeficiente de asimetría se calcula con la siguiente fórmula:

s

MoxAs

donde:

As = Coeficiente de asimetría de Pearson Mo = Moda

X = Media aritmética muestral S = Desviación estándar muestral

As=0

As>0

POSITIVA

AAA

NEGATIVA

POSITIVA

NORMAL

40

Características de la Curva Normal

La curva normal es un modelo teórico o ideal sobre cómo debe comportarse la distribución de

las variables en una muestra, se obtuvo de una ecuación matemática. Se utiliza como parámetro de

comparación para diferentes fenómenos. Sus principales características son (Ritchey, 2002):

Las variables que representan debe ser numérica, esto es, con un nivel de medición intervalar o

de razón.

Representa una curva de distribución de frecuencias en la que la mediana, la moda y la media

de una variable son iguales y dividen en dos partes iguales a la distribución.

Tiene forma de campana

Es geométricamente simétrica, lo cual indica que la mitad derecha es el espejo perfecto de la

mitad izquierda.

Aunque los valores de la Media y la desviación estándar cambiaran dependiendo de las

variables observadas, cada curva normal es simétrica y tiene siempre el mismo porcentaje de

observaciones que cae entre la media y las desviaciones.

Permite conocer la distribución de situaciones reales.

Muchas variables relacionadas a atributos psicológicos, como la inteligencia medida en

términos de Coeficiente Intelectual (CI), se distribuyen en la población tomando la forma de la curva

normal, en que la mayoría de los casos se encuentran en el centro (Moda), existiendo pocos casos en

los extremos, siguiendo el ejemplo del CI, existen pocos sujetos con inteligencia muy baja por un lado

y pocos genios por el otro, esto es lo que da a la curva normal su característica forma de campana

(Ritchey, 2002).

El área bajo la curva.

Representa el 100%, 50% de cada lado

Es igual a 1 (convertida en términos de probabilidad)

Se calcula sumando y restando desviaciones estándar a la media.

%26.681 sx %952 sx %993 sx

Utilizando esta información se puede calcular el área comprendida entre dos puntos con base en

las puntuaciones crudas. Por ejemplo: Una población de 1000 sujetos, tiene una media de edad de 75

años y una desviación estándar de 8, ¿cuántas personas tienen entre 67 y 75 años?

-3 -2 -1 0 +1 +2 +3

68.26%

95%

99%

34.13%

41

Sustituyendo la media (75) en el centro y las desviaciones estándar a la izquierda o negativas (-

8) y a la derecha o positivas (+8), la respuesta es el 34.13% del total de la población es decir 341

sujetos tienen entre 67 y 75 años.

Sin embargo si tenemos a un sujeto evaluado en 2 variables o 2 escalas diferentes, es difícil

hacer la comparación con los puntajes brutos. Para ello se utilizan las calificaciones estandarizadas.

Las calificaciones estandarizadas son puntuaciones que pueden ser comparadas transformando los

valores brutos y sirven de parámetros de comparación.

Las calificaciones estandarizadas más conocidas son los puntajes z y se refieren a calificaciones

expresadas en unidades de desviaciones estándar de la media. La distribución de calificaciones Z tiene

parámetros fijos:

0x 1s

s

xxz

x = Valor bruto

Ejemplo:

Se quiere comparar la inteligencia de dos personas, cada una de ellas medidas con escalas diferentes.

Para lograr esta comparación se convierten las calificaciones naturales (x) en calificaciones

estandarizadas (z). Observando que los puntajes naturales indican que el segundo sujeto tiene mayor

inteligencia que el primeo, los puntajes Z indican que el sujeto medido con la escala A tiene un

coeficiente mayor.

x x s z

Depresión

Escala A 80 90 5 -2

Depresión

Escala B 90 100 7 -1.43

Depresión Escala A: Depresión Escala B:

25

9080

z 47.1

7

10090

z

51 59 67 75 83 91 99

34.13%

341

42

Bibliografía:

1. Christensen, H. (1983). Estadística paso a paso. México: Trillas.

2. Coolican, H. (1997). Métodos de Investigación y Estadística en Psicología. México: Manual

Moderno.

3. Downie, M. & Heath, R. (1973). Métodos estadísticos aplicados. México: Harper & Row

Latinoamericana.

4. Elorza, H. (2000). Estadística para las ciencias sociales y del comportamiento. México:Oxford.

5. Ferrán, M. (1996). SPSS para Windows. Programación y análisis estadístico. Madrid: McGraw-

Hill.

6. Glass, G. y Stanley, J. (1970). Métodos estadísticos aplicados a las Ciencias Sociales. Madrid:

Prentice Hall.

7. Hernández, S.R., Fernández, C.C. y Baptista, L.P. (1999). Metodología de la Investigación.

México: McGraw-Hill.

8. Hopkins, K.D., Hopkins, B.R. y Glass, G.V. (1997). Estadística Básica para las Ciencias Sociales

y del Comportamiento. México: Prentice Hall.

9. Kerlinger, F.N. (1998). Investigación del Comportamiento. México: McGraw-Hill.

10. Leach, C. (1983). Fundamentos de Estadística. México: Limusa.

11. Levin, J. (1979). Fundamentos de Estadística en la Investigación Social. México: Harla.

12. Maxim, P.S. (2002). Métodos Cuantitativos aplicados a las ciencias sociales. México: Oxford

University Press.

13. Ostle, B. (2000). Estadística Aplicada. México: Limusa Noriega Editores.

14. Ritchey, F. J. (2002). Estadística para las Ciencias Sociales: El Potencial de la Imaginación

Estadística. México: Mc Graw Hill.

15. Siegel, S. (1982). Estadística no paramétrica aplicada a las ciencias de la conducta. México:

Trillas.

16. SPSS Inc. (1998). SPSS Manual. USA: SPSS Inc.

Apuntes de Estadística Descriptiva - rincondepaco.com.mx · Tipos de estadística ... Las...

Documents

Transcript of Apuntes de Estadística Descriptiva - rincondepaco.com.mx · Tipos de estadística ... Las...