Transcript of Bioestadistica
1.2 ALGUNOS CONCEPTOS BAsICOS 1.5 COMPUTADORAS Y ANIDSIS
BIOESTADiSTICO
1.3 MEDIDAS Y ESCALAS DE MEDICION 1.6 RESUMEN
1.1 INTRODUCCION
Con frecuencia se recuerda el hecho de que se vive en la edad de la
informacion, asi que, oportunamente, este libro es acerca de
informacion: como se obtiene, como se analiza y como se interpreta.
A la informacion que trata este libro se Ie llama datos, los cuales
estan disponibles en forma de niimeros.
Los objetivos de este libro sondos: 1) ensefiar al estudiante a
organizar y resumir datos; 2) ensefiarle como tomar decisiones
respedo a un gran volumen de datos al examinar solo una pequefia
parte de ellos. Los conceptos y metodos necesarios para lograr el
primer objetivo se presentan bajo el titulo de estadistica
descnptiva, y el segundo objetivo se logra mediante el estudio de
10 que se conace como estadistica inforencial. En este capitulo se
estudia la estadistica descriptiva. Del capitulo 2 al 5 se estudian
los t6picos que conforman la base de la inferencia estadistica, y
en elresto dellibro se expone la estadistica inferenciaL
Puesto que.este libro esta disefiado para personas que se preparan
para iniciar 0 que ya cursan una carrera en el area de ciencias de
la salud, el material y los ejercicios reflejan los problema:s y
actividades que tales personas probablemente encontraran en la
practica de su trabajo.
1
1.2 ALGUNOS CONCEPTOS BAsICOS
AI igual que en todos los campos del aprendizaje, la estadistica
tiene su propio vocabulario. AIgunas de las expresiones frecuehtes
en el estudio de la estadfstica son nuevas para quienes no han
tenido relaci6n previa con el tema. Otros terminos, aunque parecen
familiares, probablemente tienen significados especializados que
difieren del significado asociado por costumbre a dichos t'erminos.
Los siguientes terminos se utilizan extensamente en todo
ellibro.
Datos Los datos son la materia prima de la estadfstica. Para este
prop6sito se puede definir a los datos como numeros. Las dos clases
de numeros que se utilizan en estadfstica son numeros que resultan
de la toma --en el sentido literal del termi no- de medidas, y
aquellos que resultan del proceso de conteo. Por ejemplo, cuando
una enfermera pesa al paciente 0 Ie toma 1a temperatura, se obtiene
1a medida que consiste en una cantidad, por ejemp10 150 libras 0
100 grados Farenheit. Un tipo bastante diferente de numeros se
obtiene cuando el administrador de un hospital cuenta el numero de
pacientes, quiza 20, dados de alta en un dfa. Cada uno de los tres
numeros es un dato (datum) y los tres juntos son datos.
Estadlstica En la seccion anterior esta imp1icito el significado de
la estadfstica. Pero, para ser mas precisos, se puede decir que la
estadistica es la disciplina que se ocupa de 1) la recoleccion,
organizacion, resumen y analisis de datos, y 2) la obtenci6n de
inferencias a partir de un volumen de datos cuando se examina solo
una parte de estos.
Las personas que realizan estas actividades estadfsticas deben
estar prepara das para interpretar y comunuar los resultados a los
demas, tal como 10 demande la situaci6n. En terminos sencillos, se
puede decir que los datos son numeros, que los numeros contienen
informacion y que el prop6sito de la estadistica es investigar y
evaluar 1a naturaleza y el significado de esa informacion.
Fuente de datos EI desempeflo de actividades estadfsticas obedece a
la necesi dad de responder a diversas preguntas. Por ejemplo, los
medicos probablemente quieran encontrar respuestas a preguntas con
respettoa la utilidad relativa de pro cedimientos de tratamiento
alternativos. Losadministradores posiblemente quie ran responder a
preguntas respecto a areas de interescomo el espfritu de equipo de
los empleados 0 el uso de las instalaciones. Cuando se determina
que el enfoque adecuado para buscar una respuesta a la pregunta
requiere del uso de la estadistica, se comienza a investigar datos
apropiados que sirvan como la materia prima en la investigacion.
Estos datos norrnalmente esrnn disponibles de una 0 mas fuentes
como las siguientes: .
1. Registros rutinarios. Es diffcil imaginar algun tipo de
organizaci6n que no lleve registros de 1aoperacion diaria de sus
actividades. Mientras que los registtosclinicos de un hospital, por
ejemplo, contienen una inmensa canti dad de informaci6nacerca de
los pacientes, los registros contables de la instituci6n contienen
datos en abundancia sobre las actividades financieras del hospital.
Cuando surge la necesidad de tener datos, se debe buscar prime ro
en los registros que se llevan rutinariamente.
3 1.2 ALGUNOS CONCEPTOS BAsICOS
2. Encuesta. 8i los datos necesarios para contestar una pregunta no
estan disponibles a partir de los registros almacenados de manera
rutinaria, la fuente 16gica puede ser una encuesta. Por ejemplo,
suponga que el admi nistrador de una cHnica desea obtener
informacion respecto a Ia forma de transporte que utiliza el
paciente para visitar la cHnica. 8i Ia forma de admi sion no
contiene una pregunta ace rca del transporte, es posible llevar a
cabo una encuesta entre los pacientes para obtener esta
informacion.
3. Experimentacion. Frecuentemente, los datos necesarios para
responder una pregunta estan disponibles solo como resultado de la
experimentacion. Tal vez una enfermera quiere saber que estrategia
es mejor para maximizar el seguimiento de las indicaciones medicas
por parte del paciente. La enferme ra podria conducir un
experimento en el que se prueben diferentes estrate gias para
motivar el cumplimiento del tratamiento en distintos pacientes. La
evaluacion subsecuente de las respuestas a las diversas estrategias
puede ca pacitar a Ia enfermera para decidir cual es mas
efectiva.
4. Fuentes externas. Los datos necesarios para responder a una
pregunta pue den ya existir como informes publicados, bancos de
datos disponibles 0 en la literatura de investigacion. En otras
palabras, uno se puede encontrar con que alguien mas ya planteo la
misma pregunta y que la respuesta que obtuvo puede aplicarse a la
situacion presente.
Bioestadistlca Las herramientas de Ia estadistica se utilizan en
muchos cam pos: negocios,ensefianza, psicologia, agricultura y
economia, por mencionar algu nos cuantos. Cuando los datos que se
analizan proceden de las ciencias biologicas 0
medicas, se utiliza el termino bioestadistica para diferenciar esta
aplicacion particu lar de las herramientas y conceptos de la
estadfstica general. Dicha aplicacion es la que se estudia en este
libra.
Variable Una caracteristica se clasifica como variable si, tal como
se observa, se encuentra que esta toma diferentes valores en
diferentes personas, lugares 0 cosas. Esto se hace por la simple
razon de que la caracterfstica no es la misma cuando se observa en
diferentes sujetos. Algunos ejemplos de variables son: presion
sanguf nea diastolica, frecuencia cardiaca, estaturas de varones
adultos, peso de ninos en edad preescoIar, y la edad de los
pacientes que consultan a un dentista.
Variable cumditativa Una variable cuantitativa es aquella que puede
medirse en la forma usual. 8e pueden obtener mediciones de la
estatura de los varones adultos, del peso de los ninos en edad
preescolar, y de la edad de los pacientes que consultan a un
dentista. Estos son ejemplos de variables cuantitativas. Las
mediciones hechas sobre va riables cuantitativas conllevan
informaci6n respecto a cantidad.
Variable cualitatlva Algunas caracteristicas no pueden ser medidas
como la estatura, el peso y la edad. Muchas de ellas solo se pueden
clasificar, por ejemplo, cuando a una persona enferma se Ie da un
diagnostico medico 0 cuando se deter mina que alguien pertenece a
un grupo etnico dado, 0 bien, cuando se dice que una persona, Iugar
0 cosa poseen 0 no alguna caracteristica de interes. En
tales
4 CAPITULO 1 INTRODUCCION A LA BIOESTADISTICA
casos, la medicion consiste en una clasificacion. Y las variables a
las que uno se refiere se Haman variables cualitativas. Las
mediciones hechas sobre este tipo de variables cdntienen
informacion respecto a los atributos.
Aunque en el caso de las variables cualitativas las mediciones no
se llevan a cabo en el sentido usual de la palabra, se puede contar
el numero de personas, lugares 0
cosas pertenecientes a varias categorfas. EI administrador de un
hospital, por ejem plo, puede contar el n6.mero de pacientes
internados en un dfa, con base en cada uno de los diagnosticos de
admision. Estos conteos 0 jrecuencias, como se denominan, son el
numero que se maneja cuando el analisis involucra variables
cualitativas.
Variable alealoria Siempre que se determina la estatura, el peso 0
la edad de un individuo, el resultado frecuentemente se denomina
valor de la variable respec tiva. Cuando los valores se originan
como resultado de factores aleatorios (al azar), que no pueden
predecirse con exactitud y anticipacion, la variable se llama
variable aleatoria. Un ejemplo de variable aleatoria es la estatura
de los adultos; cuando nacen los ninos no es posible predecir con
exactitud la estatura que tendran en su edad adulta; la estatura
que alcanza un adulto es el resultado de muchos factores geneticos
y ambientales. Los val ores resultantes de los procedimientos de
medicion se denominan observaciones 0 medidas.
Variable· alealoria discreta Las variables pueden caracterizarse
aun mas como discretas 0 continuos. Puesto que la definicion
rigurosamente matematica de las variables discreta y continua va
mas aHa del limite de este libro, en su lugar se presentan
definiciones menos formales y un ejemplo de ca~ una.
Una variable discreta se caracteriza por separaciones 0
interrupciones en la escala de valores que puede tomar. Estas
separaciones 0 interrupciones indican la ausencia de valores entre
los valores especfficos que puede asumir la variable. Algunos
ejemplos ilustran el punto. EI numero de admisiones diarias en un
hospital general es una variable aleatoria discreta, puesto que el
numero de admisiones por dia debe repre sentarse con numeros
enteros tales como 0, 1,203. EI numero de admisiones en un dfa
determinado no puede ser 1.5, 2.997 0 3.333. EI n6.mero de caries,
amalga mas 0 perdida de dientes por nino en una escuela primaria
es otro ejemplo de una variable discreta.
Variable alealoria continua Una variable aleatoria continua no
posee las sepa raciones 0 interrupciones tipicas de una variable
a/eatoria discreta. Una variable aleatoria continua puede tomar
cualquier valor dentro de un intervalo espedficado de valo res
asumidos poria variable. Entre los ejemplos de variables continuas
se hallan las diversas mediciones que pueden hacerse en individuos
tales como su estatura, peso y diametro craneano. Sin importar cuan
cerca esten las estaturas de dos personas, teoricamente siempre es
posible encontrar otra persona cuya estatura se encuentre entre las
dos estaturas de referenda.
Ahora bien, debido a las limitaciones de los instrumentos de
medicion disponi bles, las observaciones sobre variables que son
inherentemente continuas se registran como si fueran discretas. La
estatura, por ejemplo, normalmente se redondea hacia el cuarto,
media 0 pulgada completa mas cercanos, mientras que si se cuenta
con el ins trumento de medicion adecuado, esa medida puede hacerse
tan precisa como se desee.
1.3 MEDIDAS Y ESCALAS DE MEDICION 5
Poblacion Habitualmente se considera a una poblacion como una
coleccion de entidades, por 10 general personas. Sin embargo, una
poblacion 0 coleccion de entidades puede estar compuesta de
animales, maquinas, plantas 0 celulas. Para los propositos de este
libro, una poblaci6n de entidades se define como la colecci6n mas
grande de entidades de interes en un momento particular. Si se toma
la medida de alguna variable para cada una de las entidades en una
poblacion, se obtiene una poblacion de valores para esa variable.
Por 10 tanto, una poblaci6n de valores se puede definir como la
mayor colecci6n de valores para una variable aleatoria, los cuales
son de interes en un momento particular. Por ejemplo, si se tiene
interes en conocer el peso de todos los niiios inscritos en el
sistema de educacion primaria del estado, la poblacion esta formada
por todos esos pesos. Si se tiene interes solo en el peso de los
estudiantes inscritos en el primer grado, se tiene una poblacion
diferente, compuesta por los pesos de los estudiantes de primer
grado. Por 10 tanto, las poblaciones se determinan 0 definen con
base en el campo de interes. Las pobla ciones pueden ser finitas 0
infinitas. Si una poblacion de valores consiste en un numero fijo
de esos valores, se dice que la poblacion es finita. Si, por otra
parte, una poblacion consiste en una sucesion interminable de
valores, entonces es una poblacion infinita.
Muestra Una muestra puede definirse simple mente como una parte de
una po blaci6n. Suponga que una poblacion se compone de los pesos
de todos los niiios inscritos en el sistema de educacion primaria
del estado, y se escoge para el analisis solo una fraccion de los
niiios; entonces se tiene unicamente una parte de la pobla cion,
es decir, se tiene una muestra.
1.3 MEDIDAS YESCALAS DEMEDICION
En la seccion anterior se utilizo varias veces la palabra medici6n
en su sentido usual y, con seguridad, ellector ha comprendido
claramente el significado deseado. Sin embargo, la palabra medici6n
puede tener una defininicion mas cientifica. De he cho, existe una
gran cantidad de obras dedicadas al tema de mediciOn. Una parte de
estas obras se ocupa tambien de la naturaleza 'de los numeros que
resultan de las medici ones. Expertos en el tema de mediciones,
hablan de escalas de medicion que dan como resultado la
categorizacion de mediciones de acuerdo con su naturaleza. En este
apartado se define la medici6n y las cuatro escalas de medici6n
resultantes. El estudio del tema con mas detalle, se encuentra en
las obras de Stevens (1, 2).
MediciOn Se define como la asignaci6n de numeros a objetos 0
eventos de acuerdo con un conjunto de reglas. Las diversas escalas
de medicion son consecuencia de que la medici6n puede llevarse a
cabo seglin diferentes conjuntos de reglas.
Escala nominal La escala de medici6n mas baja es la escala nominal.
Como su nombre 10 indica, consiste en designar 0 "nombrar" las
obserVaciones 0 clasificarlas en varias categorias mutuamente
excluyentes y colectivamente exhaustivas. La prac tic a de
utilizar numeros para distinguir entre diversos diagn6sticos
medicos consti
6 CAPITULO 1 INTRODUCCION A LA BIOESTADisTICA
tuye una medicion sobre una escala nominal. Otros ejemplos incluyen
dicotomfas . como masculino-femenino, sano-enfermo, menor de 65
aiios de edad-mayor de 65 aiios de edad en adelante, nifio-adulto y
casado-soltero.
Escala ordinal Siempre que las observaciones no solo difieran de
categoria a categoria, sino que ademas puedan clasificarse por
grados de acuerdo con alglin criterio, se dice que se miden sobre
una escala ordinal. Los padentes convalescien tes pueden
c1asificarse como sin mejoria, mejorados y bastante mejorados. Las
per sonas pueden clasificarse de acuerdo con su estado
sodoeconomico como de clase baja, de clase media 0 clase alta. La
inteligencia de los niiios puede estar por enci ma del promedio,
promedio 0 por debajo del promedio. En cada uno de estos ejemplos,
todos los miembros de cualquiera de las categorias se consideran
iguales, pero los miembros de una categoria se consideran
inferiores, peores 0 menores que los de otra que, a su vez, guard a
una relacion similar con otra categorfa. Por ejem plo, un paciente
bastante mejorado esta en mejor estado de salud que uno clasifica
do como mejorado, mientras que un paciente que ha mejorado esta en
mejor condicion que uno sin mejoria. Por 10 general, es imposible
inferir que la diferencia entre los miembros de una de las
categorias y la categoria inmediata adyacente sea igual ala
diferenda entre los miembros de esa categoria y los miembros de la
categorfa adyacente a ella. El grade de mejoria entre los sin
mejoria y los mejora dos quiza no sea el mismo que el :que existe
entre los mejorados y los bastante mejorados. La implicacion es que
si se hiciera una division mas fina, que produje ra mas
categorfas, estas podrfan tambien ordenarse de manera semejante. La
funcion de los numeros asignados a datos ordinales es la de ordenar
(0 asignar una categoria seglin el rango) las observaciones desde
las mas bajas hasta las mas altas; de aqui el termino
ordinal.
Escala de intervalos La escala de intervalos es una escala
masespecializada que la nominal 0 la ordinal en el sentido de que,
con esta escala, no soloes posible ordenar las mediciones, sino que
tambien se conoce la distancia entre dos medicio nes cualesquiera.
Por ejemplo, se sabe que la diferencia entre una medida de 20 y una
medida de 30 es igual a la diferencia entre lasmedidas de,30 y 40.
La capaci dad para hacer esto implica el uso de una distancia
unitaria y un punto cero, los cuales son arbitrarios. El punto cero
seleccionado no es necesariamente un cero verdadero en el sentido
de que no indica una ausencia total de la cantidad que se esta
midiendo. Quiza el mejor ejemplo de una escala de intervalos es la
forma en que generalmente se mide la temperatura (grados Fahrenheit
0 Celsius). La uni dad de medidon es el grado, y el punto de
comparadon es el que se selecciona arbitrariamente como "cero
grados", el cual no implica una ausencia de calor. La escala de
intervalos, a diferencia de las escalas nominal y ordinal, es una
escala realmente cuantitativa.
Escala de razones El nivel mas alto de medicion es la escala de
razones. Esta escala se caracteriza por el hecho de que puede
determinarse tanto la igualdad de las razones como la de los
intervalos. Y para esta escala es fundamental un punto cero
verdadero. La medicion de rasgos tan familiares como altura, peso y
longitud, hacen uso de este tipo de escala.
1.4 MUESTREO ALEATORIO SIMPLE 7
1.4 l\'IUESTREO ALFATOmO SIMPLE
Tal como se sefialo can anterioridad, uno de los prapositos de este
libra es ensefiar los conceptos de inferencia estadfstica, la cual
puede ser definida como sigue:
DEFINICION
La inferencia estadistica es el procedillliento por llledio del
cual se llegaa una conclusion acerca de una poblacion con base en
los resultados que se obtienen de una llluestra extraida de esa
poblacion.
Existen muchas clases de muestras que pueden obtenerse de una
poblaci6n. Sin embargo, no se puede utilizar cualquier tipo de
muestra como base para hacer inferencias validas acerca de la
poblacion. En general, para realizar una inferencia valida acerca
de una poblacion se necesita un muestreo de la poblacion fundamen
tado cientfficamente. Tambien existen muchas c1ases de muestras
cientificas que pueden obtenerse de una poblacion. La mas sencilla
es la muestra aleatoria sim ple. En esta secci6n se define la
muestra aleatoria simple y se explica como obtener la de la
poblacion.
Si se utiliza la letra N para designar el tamafio de una poblacion
finita, y la letran para designar el tamafio de la muestra, es
posible definir una muestra aleatoria simple como: .
DEFINICION
Si se extrae una muestra de tamaiio n de una poblaci6n de talllano
N, de lllanera que cada llluestra posible de tamano n tenga la
lllisllla probabilidad de ser seleccionada, la llluestra se llallla
muestra aleatoria simple.
El sistema de seleccion de muestras que satisface la definicion
anterior se llama muestreo aleatorio simple.
Mas adelante se demuestra el pracedimiento del muestreo aleatorio
simple, pero antes se considera la cuesti6n de si se muestrea con
reemplazo a sin reemplazo. Cuando se utiliza un muestreo con
reemplazo, cada elemento de la poblacion esta disponible para cada
seleccion. Par ejempl0, como parte de un estudio de duracion de la
estancia, se selecciona una muestra de una poblacion de pacientes
que alguna vez fueran internados en el hospital. Suponga que el
muestreo comprende la seleccion de una muestra de expedientes,
tornados del archivo del departamento de registra medi co, de los
pacientes dados de alta. En el muestreo con reemplazo se selecciona
un expediente para incluirlo en la muestra, se registra la duracion
de la estancia y se de vuelve el expediente al archivo. AI
devolver el expediente a la "poblacion" este puede ser seleccionado
de nuevo, en cuyo caso, el tiempo de estancia se registrara una vez
mas. En un muestreo sin reemplazo, el expediente extrafdo no se
regresa al archivo despues de registrar el data que se investiga,
sino que se separa hasta extraer toda la
8 CAPiTULO I INTRODUCCION A LA BIOESTADiSTICA
muestra. Con este procedimiento, un expediente debe aparecer solo
una vez en la muestra. En la practica, por 10 general, un muestreo
siempre se hace sin reempla zoo La importancia y significado de
esto se explica mas adelante; por ahora, es nece sario estudiar la
manera en que se selecciona una muestra aleatoria simple. Para
asegurar una seleccion totalmente aleatoria, se debe seguir algful
procedimiento ob jetivo, pues se intenta evitar el uso dejuicios
subjetivos para decidir que elementos de la poblacion constituyen
una muestra aleatoria. En el siguiente ejemplo se muestra un metodo
para elegir una muestra aleatoria simple a partir de una
poblacion.
EJEMPLO 1.4.1
Clasen et al. (A-I) estudiaron la oxidacion de esparteina y
mefenitoina en un grupo de individuos residentes en Groenlandia. Se
representaron dos poblaciones en su estudio: habitantes del este y
del oeste de Groenlandia. Los investigadores se interesaron en
comparar los dos grupos con respecto a las variables de interes. La
tabla 1.4.1 muestra las edades de 169 individuos del oeste de
Groenlandia. Para propositos ilustrativos, considere que estos
individuos forman una poblacion de tamafio N = 169 de la que se
quiere obtener una muestra aleatoria simple de tamafio 10.
TABlA 1.4.1 Edades de 169 individuos que participan en un estudio
de oxidacion de esp81'teina y mefenitoina
Individuo num. Edad Individuo nUm. Edad Individuo num. Edad
1 27 57 29 113 45 2 27 58 26 114 28 3 42 59 52 115 42 4 23 60 20
116 40 5 37 61 37 117 26 6 47 62 27 118 29 7 30 63 63 119 48 8 27
64 44 120 53 9 47 65 22 121 27
10 41 66 44 122 38 11 19 67 45 123 53 12 52 68 40 124 33 13 48 69
48 125 24 14 48 70 36 126 25 15 32 71 51 127 43 16 35 72 31 128 39
17 22 '73 28 129 40 18 23 74 44 130 22 19 37 75 63 131 25 20 33 76
30 132 21 21 26 77 21 133 26
(Continua)
TABlA 1.4.1 (Continuaci6n)
Individuo num. Edad Individuo num. Edad Individuo num. Edad
22 22 78 50 134 41 23 48 79 30 135 47 24 43 80 31 136 30 25 34 81
30 137 42 26 28 82 24 138 33 27 23 83 26 139 31 28 61 84 56 140 29
29 24 85 31 141 37 30 29 86 26 142 40 31 32 87 23 143 31 32 38 88
18 144 26 33 62 89 38 145 30 34 25 ·90 53 146 27 35 34 91 40 147 26
36 46 92 23 148 36 37 24 93 24 149 24 38 45 94 18 150 50 39 26 95
49 151 31 40 29 96 49 152 42 41 48 97 39 153 34 42 34 98 32 154 27
43 41 99 25 155 28 44 53 100 32 156 31 45 30 101 23 157 40 46 27
102 47 158 28 47 22 103 34 159 29 48 27 104 26 160 29 49 38 105 46
161 24 50 26 106 21 162 28 51 27 107 19 163 22 52 30 108 37 164 50
53 32 109 36 165 30 54 43 110 24 166 38 55 29 III 51 167 28 56 24
112 30 168 23
169 39
10 CAPITULO 1 INTRODUCCION A LA BIOESTADISTICA
Solucion: Una forma de seleccionar lUla muestra aleatoria simple es
utilizar una tabla de nfuneros aleatorios como la tabla A, que se.
muestra en el apendi ceo EI primer paso es localizar un punto de
partida aleatorio en la tabla. Esto se puede hacer de varias
formas: una de ellas es quitar la vista de la pagina mientras se
toca esta con la punta del lapiz. EI punto de partida aleatorio es
el dfgito mas cercano allugar donde apunte ellapiz. Suponga que el
punta de partida aleatorio, obtenido mediante el procedimiento
descrito, se encuentra en la intersecci6n del rengl6n 21 y la
columna 28. El dfgito en ese PlUlto es 5. Puestd que se tienen
unicamente 169 valores para elegir, s610 se puede utilizar nfuneros
aleatorios dell a1169. Resulta conveniente seleccionar numeros de
tres dfgitos, de manera que solamen te pueda elegirse entre los
numeros del 001 a1169. El primer numero de tres dfgitos para el
punto de partida aleatorio es 532, un numero que no se puede
utilizar. AI recorrer la tabla hacia abajo, aparecen los numeros
196,372,654,928 Yfinalmente el137, que es un numero que sf se puede
utilizar. La edad del sujeto que tiene ellugar 137 de la tabla
1.4.1 es 42, y este constituye el primer valor de la muestra. Se
procede a registrar el numero aleatorio y la edad correspondiente
en la tabla 1.4.2. Los nume ros aleatorios se registran para ver
cuales fueron seleccionados. Puesto que se trata de una muestra sin
reemplazos, no se incluye dos veces un mismo valor. AI continuar
con este procedimiento se obtienen los nueve numeros aleatorios
restantes junto con sus edades respectivas, tal como se muestra en
la tabla 1.4.2. Observe que, cuando se llega al final de la co
lumna, simplemente se avanzo tres digitos hasta el 028 y se
continu6 ha cia arriba de la columna. Tambien se pudo haber
comenzado desde la parte de arriba de dicha columna con el numero
369.
De esta forma se obtiene la muestra aleatoria simple de tamano 10 a
partir de la poblacion de tamano 169. En todo estudio futuro,
siempre que se utilice el termino de muestra aleatoria simple, se
entendera que dicha muestra se obtiene de esta forma 0 de una
equivalente.
TABlA 1.4.2 Muestra de 10edades extralda de las edades de la tabla
t .4.t
Numero Numero de individuo aleatorio de la muestra Edad
137 1 42 114 2 28 155 3 28 028 4 61 085 5 31 018 6 23 164 7 50 042
8 34 053 9 32 108 10 37 •
11 1.5 COMPUTADORAS Y AJ~ALISIS BIOESTADISTICO
EJERCICIOS
1.4.1 Utilice latabla de numerus aleatorios para seleccionar un
nuevo punto aleatorio de partida, y extraiga otra muestra aleatoria
simple de tamafto 10 apartir de la tabla 104.1. Registre las edades
de losindividuos de la nueva muestra. Guarde sus datos para uso
futuro. ~Cual es la variable de interes en este ejercicio? ~Que
escala de medici6n se utiliz6 para obtener las mediciones?
1.4.2 Ebja otra muestra aleatoria simple de tamafio lOa partir dela
poblaci6n representada en la iabla 104.1. Compare a los sujetos de
esta muestra con los de las muestras obtenidas en el ejerCicio 1.4.
L (Existen individuos que aparezcan en ambas muestras? ~Cuantos?
Compa re las edades de los individuos en las dos inuestras.
~Cuantas edades de la primera muestra se duplicaron en la
segunda?
1.5 COMPUTADORAS Y ANAuSIS BIOESTADiSTICO
La difusi6n relativamente reciente del uso de la computadora ha
tenido un gran imp acto, particularmente en el anal isis
bioestadistico y, en general, en la investiga ci6n de ciencias de
la salud. La necesidad de efectuar un gran numero de calculos
aritmeticos como parte del analisis estadistico de los datos solo
vive en el recuerdo de aquellos investigadores y profesionales
cuyas carreras son anteriores a la llama da "revolucion de las
computadoras". Las computadoras pueden ejecutar calculos mas
rapidos y mucho mis predsos de 10 que puede un tecnico humano. El
uso de las computadoras hace posible que los investigadores
dediquen mas tiempo a me jorar la cali dad de los datos originales
y a la interpretacion de resultados.
El predominio actual de las computadoras y la disponibilidad de
gran canti dad de programas de software para estadfstica han
revoludonado aun mas el calcu 10 estadistico. EI estudiante
interesado en los paquetes de software estadistico encontrara fiUY
utiles las revistas como The American Statistician, publicacion
tri mestral del American Statistical Association (Asodadon
Estadistica de Estados Uni dos de Norteamerica), donde
regularmente aparecen las resefias y promoci6n de dichos
paquetes.
Muchas de las computadoras actualmente en el mercado estan
equipadas con capacidad para generar numeros aleatorios. Los
investigadores pueden utili zar las computadoras para generar los
numeros aleatorios que necesiten, como alternativa al uso de tablas
impresas de numeros aleatorios. En realidad, los nu meros
"aleatorios" generados por muchas computadoras son realmente
numeros pseudoaleatorios porque son el resultado de una formula
determinfstica. Sin em bargo, Fishman (3) asegura que los numeros
parecen ser satisfactorios para mu chos prop6sitos
practicos.
La utilidad de la computadora en las ciencias de la salud no se
limita al analisis estadistico. El estudiante interesado en
aprender mas acerca del uso de la computadora en ciendas de la
salud encontrara utiles los libros de Hersh (4), Johns (5), Miller
et al. (6), y Saba y McCormick (7). Aquellos que quieran obtener
mayor
12 CAPITULO 1 INTRODUCCION A LA BIOESTADISTICA
beneficio de la Internet probablemente quieran consultar los libros
Physician's Guide to the Internet (8) y Computers in Nursing's
Nurses' Guide to the Internet (9). Los avances actuales en el
empleo de la computadora en los campos de biologfa, medicina y
otros se publican en algunas revistas dedicadas al tema, como:
Computers in Biology and Medicine, Computers and Biomedical
Research, International Journal ofBio-Medical Computing, Computer
Methods and Programs in Biomedicine, Computer Applications in the
Biosciences y Computers in Nursing.
En este libro se utili zan salidas impresas de computadora para
ejemplificar el uso de computadoras en el analisis bioestadfstico;
los paquetes de software estadis tico como MINITAB, SPSS Y SAS®,
para computadoras personales obedecen al mis mo proposito.
Seutilizo MINITAB para Windows en los ejemplos que muestran el uso
de MINITAB. Despues de ingresar los datos para la aplicacion,
MINITAB ini cia con una barra de menu como la siguiente:
tile ~dit Manip Qale 5.tat Graph ~ditor Window Help
Para cada ejemplo que se utiliz6 para ilustrar MINITAB se muestra
el procedi miento de Windows (identificado como "Caja de dialogo")
y los comandos corres pondientes (con el membrete "Comandos de la
sesion") que tambien pueden teclearse.
1.6 RESllMEN
En este capitulo se presentan los conceptos basicos de estadfstica.
Se define a la estadistica como un area que se dedica a la
recolecci6n y descripcion de datos, as! como a la elaboracion de
inferencias estadfsticas. Se define la inferencia estadfsti ca
como el procedimiento por medio del cual se obtienen conclusiones
acerca de una poblacion con base en la informacion contenida en la
muestra extraida de esa poblacion. Se estudia que el tipo basico de
muestreo para hacer inferencias validas es el muestreo aleatorio
simple. Se describe como milizar las tablas de numeros aleatorios
para obtener muestras aleatorias simples de una poblacion.
Se presentan las definiciones de algunos terminos basicos, como
variable y muestra, que se usan en el estudio de la estadistica.
Tambien se habla acerca de la medicion y se definen cuatro escalas
de medicion: nominal, ordinal, de intervalos y de razones:
Por ultimo, se menciona la importancia de las computadoras en el
desarrollo de las actividades propias de la estadistica.
PREGUNTAS YEJERCICIOS DE REPASO
13 BIBLIOGRAFlA
3. Defina:
e) Variable cualitativa f) Variable aleatoria
g) Poblaci6n h) Poblaci6n finita
i) Poblaci6n infinita j) Muestra
k) Variable discreta 1) Variable continua
m) Muestra aleatoria simple n) Muestreo con reemplazo
0) Mliestreo sin reemplazo
5. Enumere, describa y compare las cuatro escalas de
medici6n.
6. Para cada una de las siguientes variables indique si son
cuantitativas 0 cualitativas, y especi fique la escala de medicion
que se utilizo cuando se tomaron las mediciones en cada una de las
siguientes:
a) Posicion social de los miembros de esta clase en relacion con
los demas.
b) Diagnosticos de admisi6n de pacientes admitidos en clinicas de
salild mental.
c) Peso de los bebes nacidos en un hospital en un ano.
d) Sexo de los bebes nacidos en un hospital en un ano.
e) Rango de movilidad de la articulaci6n del codo de estudiantes
inscritos en un programa de estudios de ciencias de la salud.
f) Temperatura axilar de bebes con un dia de nacidos en el
hospital.
7. Para cada una de las siguientes situaciones, responda los
incisos a-e:
a) (Cmil es la muestra del estudio?
b) (Cual es la poblaci6n?
c) lCua! es la variable de interes?
d) (CUantas mediciones se hicieron para ca1cular los resultados
informados?
e) (Que escala de medici6n se utilizo? Situaci6n A. Un estudio de
300 hogares en un pequeno pueblo sureno revel6 que 20 por ciento
tiene al menos un hijo en edad escolar. Situaci6n B. Un estudio de
250 pacientes admitidos en un hospital durante el ano pasado revel6
que, en promedio, los pacientes viven a 22.5 kilometros del
hospital.
BffiUOGRAFiA
Bibliografia de metodologia
1. S. S. Stevens, "On the Theory ofScales of Measurement". Science.
103,677-680.
2. S. S. Stevens, "Mathematics, Measurement and Psychophysics", in
S. S. Stevens (editor). Handbook ofExperimental Psychology, Wiley.
New York.
14 CAPITULO 1 INTRODUCCION A LA BIOESTADISTICA
3. George S. Fishman, Concepts and Methods in Discrete Event
Digital Simulation, Wiley, New York.
4. William R. Hersh, Information Retrieval: A Health Care
Perspective, Springer, New York.
5. Merida L. Johns, Information Management for Health Proftssions,
Delmar Publishers, Albany, NY.
6. MarvinJ. Miller, Kenric W. Hammond y Matthew G. Hile (editores),
Mental Health Computing, Springer, New York.
7. Virginia K. Saba y Kathleen A. McCormick, Essentials ofComputers
for Nurses, McGraw-Hill, New York.
8. Lee Hancock, Physicians' Guide to the Internet,
Lippincott-Raven, Philadelphia.
9. Leslie H. Nicoll y Teena H. Ouellette, Computers in Nursing's
Nurses' Guide to the Intemet, Lippincott, Philadelphia .
. Bibliografia de aplicaciones
A-I. Knud Clasen, Laila Madsen, Kim Brylsen, Kurt Albylge, Susan
Misfeldt y Lars F. Gram, "Sparteine and Mephenytoin Oxidation:
Genetic Polymorphisms in East and West Greenland", Clinical
Pharmacology & Therapeutics, 49,624-631.
2.1 INTRODUCCION 2.4 ESTADISllCA DESCRIPTIV A: MEDIDAS DE TENDENCIA
CENTRAL
2.2 ARREGLO ORDENADO 2.5 ESTADISllCA DESCRIPTIVA:
2.3 DATOS AGRUPADOS Y MEDIDAS DE DISPERSION DISTRIBUCION DE
FRECUENCIAS 2.6 RESUMEN
2.t JNTRODUCCION
En el capitulo 1 se establecio que la toma de medici ones y el
proceso de con teo producen numeros que contienen informacion. El
objetivo de la gente que aplica herramientas estadisticas a esos
numeros es determinar la naturaleza de esa informacion. Esta tare a
es mucho mas facil si los numeros estan organizados y resumidos.
Cuando se hacen las mediciones sobre entidades de una poblaci6n
0
. muestra, los valores resultantes estan disponibles para el
investigador 0
estadfstico como una masa de datos desorganizados. Las mediciones
que no han sido organizadas, procesadas 0 manejadas de alguna otra
forma se les llama datos crudos (materia prima). A menos que el
numero de observaciones sea extremadamente pequeno, es improbable
que esos datos crudos proporcionen suficiente informaci6n hasta que
sean puestos en alglin orden.
En este capitulo se ensenan algunas tecnicas para organizar y
procesar datos de tal manera que sea mas facil determinar que
informacion contienen. Lo mas actual en procesamiento de datos es
el calculo de un numero individual que de alguna manera incluye
informaci6n importante acerca de los datos que sirvieron para
calcularlo. A estos numeros individuales utilizados para describir
datos se les llama medidas descriptivas. Despues de estudiar este
capitulo el estudiante podra calcular algunas medidas descriptivas
tanto para poblaciones como para muestras de datos.
EI proposito de este capitulo es desarrollar en el estudiante
habilidades para poder manejar la informacion numerica que se
encuentre como profesional en ciencias de la salud. Entre mejor
capacitado este para manejar tal informacion, tendra una mejor idea
del ambiente y de las fuerzas que generan la informacion.
15
2.2 ARREGLO OBDENADO
EI primer paso para organizar datos es preparar un arreglo
ordenado. Un arreglo ordenado es una lista de valores de un grupo
(sea poblacion 0 muestra) en orden de magnitud de menor a mayor
valor. Se recomienda el uso de la computadora si el numero de
mediciones a ordenar es bastante grande.
Un arreglo ordenado permite determinar con rapidez los valores de
las medi ciones mas pequefias, de las mas grandes, y otros
aspectos acerca de los datos arre glados que pudieran necesitarse
en caso de urgencia. A continuaci6n se muestra la construcci6n de
un arreglo ordenado con los datos que se estudiaron en el ejemplo
1.4.1.
EJEMPL92.2.1
La tabla 1.4.1. contiene una lista de las edades de los individuos
que participaron en el estudio de residentes de Groenlandia,
estudiados en el ejemplo 104.1. Como puede apreciarse, esta tabla
desordenada requiere de mucha investigaci6n para determinar
informacion basica como la edad de los individuos mas j6venes hasta
los mas viejos.
Soludon: La tabla 2.2.1 presenta los datos de la tabla 1.4.1 en
forma de arreglo ordenado. AI referirse a la tabla 2.2.1 es posible
determinar rapidamen te la edaddel individuo mas joven (18) y la
edad del mas viejo (63). Tambien es posible identificar con
facilidad que casi tres cuartas partes de los individuos tienen
menos de 40 afios de edad. •
Anii1isisporcompldadom Cuando se requieren cilculos adicionales y
organiza cion de un conjunto de datos en forma manual, el trabajo
se facilita mediante un arre glo ordenado. Si los datos son
analizados por computadora, esto no es aconsejable
TABIA2.2.1 Arreglo ordenado de las edades de los individuos de la
tabla 1.4.1
\
Dialog box:
FIGURA 2.2.1 Caja de diaIogo para e1 ejemplo 2.2.1.
para preparar un arreglo ordenado, a menos que se necesite para
prop6sitos de refe rencia 0 para otro uso. La computadora no
necesita que el usuario haga un arreglo ordenado antes de meter los
datos para construir la distribuci6n de frecuencias y para hacer
otros amllisis.
Si desea un arreglo ordenado, muchos paquetes de software para
computado ni contienen rutinas para construirlo. Por ejemplo,
suponga que se usa el MINITAB Yque las edades de la tabla 104.1
estan en la columna 1. El comando SORT C 1 C2 dasifica las edades y
las pone en la columna 2, como 10 muestra la tabla 2.2.1. Si se
utilizael paquete MINITAB para Windows, y los datos se colocan en
la columna 1, el proceso es como sigue: con el mouse haga die en
Manip, luego en Sort, escriba c1 en la caja etiquetada como "Sort
column[s]", escriba c2 en la caja eti quetada como "Store sorted
column[s] in" (para tener los datos dasificados en c2), y escriba
c1 en la caja etiquetada "Sort by column". Si desea ordenar en
forma descendente haga dic en "Descending". Si no se selecciona esa
opci6n en este punto, el resultado es una clasificaci6n en orden
ascendente. Finalmente, haga dic en OK. La caja de dialogo para el
ejemplo 2.2.1 se muestra en la figura 2.2.1.
2.3 DATOSAGRUPADOS YDISTRIBUCION DE FRECUENCIAS
Aunque un conjunto de observaciones puede hacerse mas comprensible
y mas sig nificativo por medio de un arregloordenado, es mas util
el resumen que se obtiene mediante la agrupaci6n de datos. Antes de
la era de las computadoras, uno de los principales objetivos de
agrupar grandes conjuntos de datos era el de facilitar el calculo
de varias medidas descriptivas, como porcentajes y promedios.
Debido a
18 CAPiTULO 2 ESTADiSTICA DESCRIPTIV A
. que las computadoras pueden ejecutar esos calrulos a partir de
grandes conjuntos sin agrupacion previa, actualmente el proposito
principal de agrupar los datos es el de resumir la informacion. Se
debe tener en mente que los datos contienen infor macion y que el
resumen es una forma sencilla para determinar su naturaleza.
Para agruparun conjunto de observaciones se debe seleccionar un
conjunto de intervalos contiguos que no se traslapen, para que cada
valor en el conjunto de observaciones pueda ser puesto en uno y
solo uno de los intervalos. Estos intervalos normalmente se
identifican como intervalos de clase.
Una de las primeras consideradones ruando se agrupan datos es la de
ruantos intervalos se deben incluir. Resulta inadecuado incluir
pocos intervalos, porque se perderia informacion. Por otro lado, si
se utilizan muchos intervalos, el objetivo de resumir no se
consigue. La mejor guia en este caso, asi como para la toma de
otras dedsiones sobre la agrupadon de datos, es el conocimiento de
los datos. Puede ser que los intervalos de clase queden
determinados por los precedentes, como en el caso de las
tabulaciones anuales, en las que los intervalos de clase de los
afios anteriores se conservan para propositos comparativos. Una
regIa empfrica que habitualmente se sigue establece que deben
ser.entre seis y 15 intervalos. Si hay menos de seis intervalos,
los datos se han resumido en exceso y la informaci6n que contienen
se habra perdido. Si hay mas de 15 intervalos, los datos no fueron
resumidos 10 suficiente.
Quienes deseen gufas mas espedficas para decidir cuantos intervalos
de clase son necesarios, pueden utilizar la f6rmula propuesta por
Sturges (1). Esta formula se enuncia k = 1 + 3.322(loglO n), donde
k es el numero de intervalos de clase y n es el numero de valores
en el conjunto de datos en observaci6n. La respuesta que se obtiene
con la regla de Sturges no es definitiva, sino que se debe
considerar unica mente como gufa. El numero de intervalos de clase
especificado par esta regIa debera incrementarseo disminuirse por
conveniencia y para lograr una presenta cion mas clara.
Por ejemplo, suponga que una muestra tiene 275 observaciones para
agrupar. Ellogaritmo base 10 de 275 es 2.4393. Con la aplicacion de
la formula de Sturges se obtiene k = 1 + 3.322(2.4393)::::: 9. En
la practica, otras consideraciones pueden sugerir el uso de 8 0
menos, 0 quiza 10 0 mas intervalos de clase.
Otra preguntaque se debe responder se refiere a la amplitud del
intervalo de clase. Los interval os de clase generalmente deben ser
de la misma amplitud, aun que algunas veces esto es imposible. La
amplitud se determina dividiendo el rango entre k, que es el numero
de intervalos de clase. Simbolicamente, la amplitud de los
intervalos de clase esta dada por:
R w (2.3.1)
k
donde R (el rango) es la diferencia entre la observacion mas
pequefia y la mas grande dentro del conjunto de datos. Por 10
general, con este procedimiento se obtiene una amplitud que no es
conveniente usar, y de nuevo se debe utilizar el sentido comun para
elegir la amplitud (normalmente cercana a la que se obtiene con la
ecuacion 2.3.1) que sea mas conveniente.
19 2.3 DATOS AGRUPADOS Y DISTRIBUCION DE FRECUENCIAS
Existen otras reglas empiricas que son de gran ayuda para armar
intervalos de clase utiles. Cuando la naturaleza de los datos los
hace adecuados, la amplitud de los intervalos de clase de 5 0 10
unidades y amplitudes multiplos de 10 tienden a hacer que el
resumen sea mas comprensible. Cuando se utilizan estas amplitudes
es una buena practica tener ellimite inferiorde cada extrema de
intervalo en 0 0 5. Generalmente los intervalos de clase se
almacenan de menor a mayor: es decir; el primer intervalo de clase
contiene las mediciones mas pequenas y el ultimo inter valo
contiene las mediciones mas grandes. Cuando sea este el caso,
ellimite infe rior del primer intervalo de clase debe ser menor 0
igual que la medici6n mas pequena en el conjunto de datos, y
ellimite superior del ultimf) intervalo de clase debe ser mayor 0
igual que la medici6n mas grande.
Aunque muchos paquetes de software para microcomputadora contienen
ru tinas para construir interval os de clase, frecuentemente
requieren que el usuario registre la amplitud del intervalo y el
numero de intervalos deseados. A continua ci6n se utilizan las 169
edades incluidas en la tabla 1.4.1 y arregladas en la tabla 2.2.1
para ilustrar la construcci6n de la distribuci6n de
frecuencias.
EJEMPLO 2.3.t
Se quiere saber cuantos intervalos de clase se tienen en la
distribuci6n de frecuen cias de datos y tambien se quiere saber
que tan amplios deben ser los intervalos.
Solucion: Para tener una idea del numero de intervalos a utilizar,
la aplicaci6n de la regIa de Sturges indica:
k = 1 + 3.322(log 169)
"" 8
Ahora, al dividir el rango entre 8 para darse una idea de la ampli
tud de los intervalos de clase, se obtiene:
R = 63 -18 = 45 =5.625 k 8 8
Es evidente que un intervalo de clase con una amplitud de 5 0 10 es
mas conveniente y significativo para ellector. Suponga que se
decide que sea 10. Ahora es posible construir los intervalos.
Puesto que el valor mas pequeno en la tabla 2.2.1 es 18 y el mayor
es 63', entonces los intervalos inician con 10 Y terminan con 69.
Se obtienen los siguientes intervalos:
10-19
20-29
30-39
40-49
50-59
60-69
20 CAPiTULO 2 ESTADiSTICA DESCRIPTIV A
Puede observarse que hay 6 de esos intervalos, es dedr, dos menos
que el numero de intervalos calculados con la regIa de Sturges
.
. AIgunas veces resulta util referirse al centro Hamado punta media
del intervalo de clase, el cual se determina sumando los limites
extre mosdel intervalo de clase y dividiendo entre 2~ Por ejemplo,
el punto medio del intervalo de clase 10-19 es (10 + 19)/2= 14.5.
•
Cuando se agrupan datos manualmente, determinar el numero de
valores que caen dentro de cada intervalo de clase es solo un
problema de busqueda en el arreglo ordenadoy conteo del numero de
observadones que caen en los distintos intervalos. Si se aplica
esto al ejemplo anterior, se obtiene la tabla 2.3.1.
Una tabla de este tipo se canoce como distribucwn de frecuencias.
En ella se muestra como se distribuyen los valores dentro de los
intervalos de clase espedfica dos. AI consll,ltarla, es posible
determinar la frecuenda de ocurrencia de los valores dentro de
cualquiera de los intervalos.
Frecuencias relaiivas En ocasiones, puede ser de utilidad conocer
la pro pordon, en lugar del nlimero, de valores que caen dentro de
un intervalo de clase en particular. Esta informacion se obtiene
dividiendo el numero de valores en un intervalo de clase particular
entre el numero total de valores. Si en el ejemplo ante rior se
pretende conocer la proporci6n de valores entre 30 y 39, inclusive,
se divide 47 entre 169, para obtener .2781. Esto indica que 47 de
169, ~7/169, 0 0.2781 de los valores caen entre 30 y 39. AI
multiplicar .2781 por roo se obtiene el porcen taje de valores
entre 30 y 39. Con 10 anterior se puede decir que el 27.81 por
ciento de los individuos tienen entre 30 y 39 alios de edad.
Finalmente, a la pro pordon de valores que caen dentro de un
intervalo de clase se Ie conoce como la frecuencia relativa de
acurrencias en ese intervalo.
TABlA 2.3.1 Distribuci6n de frecuencias de las edades de los 169
individuos incluidos en la talJla 1.4.1 y2.2.1
Intervalos de clase Frecuencias
10-19 4 20-29 66 30-39 47 40-49 36 50-59 12 60-69 4
Total 169
TABlA 2.3.2 Distribuciones de: frecuencia, frecuencia acumulada,
frecuencia relativa y frecuencia relativa acumulada de las edades
de los sujetos descritos en el ejemplo 1.4.1
Frecuencia Intervalos de Frecuencia Frecuencia relativa clase
Frecuencia acumulada relativa acumulada
10-19 4 4 .0237 .0237 20-29 66 70 .3905 .4142 30-39 47 117 .2781
.6923 40-49 36 153 .2130 .9053 50-59 12 165 .0710 .9763 60-69 4 169
.0237 1.0000
Total 169 1.0000
Para determinar la frecuencia de valores que caen dentro de dos 0
mas in tervalos de clase, se obtiene la suma del numero de valores
que caen dentro de los intervalos de clase correspondientes.
Analogamente, si se pretende conocer la frecuencia relativa de
ocurrencia de valores que caen dentro de dos 0 mas interva los de
clase, entonces, se suman las frecuencias relativas respectivas. Se
pueden sumar, 0 acumular, las frecuencias y las frecuencias
relativas para facilitar la obten cion de informacion ace rca de
las frecuencias 0 frecuencias relativas de valores dentro de dos 0
mas intervalos de clase contiguos. La tabla 2.3.2 muestra los datos
de la tabla 2.3.1 con las frecuencias acumuladas, frecuencias
relativas y frecuen cias relativas acumuladas.
Si el interes esta centrado en la frecuencia relativa de los
valores que caen entre 30 y 59, entonces se utiliza la columna de
las frecuencias relativas acumuladas de la tabla 2.3.2 y se resta
.4142 de .9763 para obtener .5621.
Se puede utilizar elpaquete de software estadfstico MINITAB para
obtener una tabla comparable con Ja tabla 2.3.2. MINITAB genero los
valores de la tabla con las frecuencias relativas y frecuencias
relativas acumuladas expresados en por centajes. EI procedimiento
incluye asignar codigos a los intervalos de clase y meter la
informacion a traves del teclado. Cuando se asignan los codigos 0,
1, 2, 3, 4 Y 5, respectivamente, a las seis clases de intervalos,
se debeteclear el siguiente comando:
MTB> Code (10: 19)0 (20:29) 1 (30:39)2 (40:49)3 (50:59)4
(60:69)5 c1 c2
La caja de dialogo, los comandos de la sesion y la salida se
muestran en la figura 2.3.1.
E1 histograma Es posible presentar una distribucion de frecuencias
(0 una distribucion de frecuencias relativas) graficamente en forma
de histograma, que es un tipo especial de grafica de barras.
22 CAPITULO 2 ESTADISTICA DESCRIPTIVA
Caja de dialogo: Comandos de la sesi6n:
MTB> C2i Stat >- Tables >-- Tally SUBC> Countsi
SUBC> CumCountsi Teclear C2 en Variables. Verifique Counts,
SUBC> Percents; Percents, Cumulative Counts y SUBC>
CumPercents. Cumulative percents en Display. Clic OK
Resultados:
Resumen estadlstico para variables discretas
C2 Count CumCnt Percent CumPct 0 4 4 2.37 2.37 1 66 70 39.05 41.42
2 47 117 27.81 69.23 3 36 153 21.30 90.53 4 12 165 7.10 97.63 5 4
169 2.37 100.00
N 169
FIGURA 2.3.1 Distribuci6n de frecuencia, frecuencias acumuladas,
porcentajes y porcentajes acumulados de las edades de los
individuos descritos en el ejemplo 1.4.1, tal como 10 construy6 el
paquete MINITAB.
Para construir un histograma, los valores de la variable respectiva
se ponen sabre el eje horizontal, y las frecuencias (0 frecuencias
relativas, si as! se quiere) de ocurrencia, en el eje vertical.
Sobre cada intervalo de clase, arriba del eje hori zontal, se
levanta una barra rectangular, 0 celda, como algunas veces se Ie
nom bra, hasta que intercepte con la frecuencia respectiva. Las
barras del histograma deben ser adyacentes, y es necesario tomar en
cuenta los lfmites correctos de los intervalos de clase para evitar
la separacion de barras en la grafica.
El nivel de precision que se observa en los datos obtenidos y que
tienen medi ciones ~obre una escala continua indica algUn orden de
redondeo. El orden de redon dec refleja la preferencia personal
del informante 0 las limitaciones de los instrumentos de medicion
empleados. Cuando una distribucion de frecuencia se construye a
par tir de los datos, los Hmites de los intervalos de clase
frecuentemente reflejan el grado de precision de los daws
originales. Esto mismo se ha efectuado en el ejemplo. Sin embargo,
se sabe que algunos de los valores que caen dentro del segundo
intervalo de clase, por ejemplo, probablemente seran un poco
menores que 20 mientras que
23 2.3 DATOS AGRUPADOS Y DISTRIBUCION DE FRECUENCIAS
70TABlA 2.3.3 Datos de la iabla 2.3. t que muestra los
60IImites COl'l"ectos de los intervalos de clase
50
Intervalos de clase Frecuencias ::l 40'0 c: Q) :::J Q)9.5-19.5 4
t,) 30 u:
19.5-29.5 66 20 29.5-39.5 47
39.5-49.5 36 10
Total 169
otros seran un poco mayores que 29, cuando la medici6n es precisa.
AI considerar la continuidad implfcita de la variable, y suponiendo
que los datos fueran redondeados al entero positivo inferior mas
pr6ximo, entonces es 16gico suponer que 19.5 y 29.5 son los limites
correctos para este segundo intervalo. Los limites correctos para
cada intervalo de clase se toman como semuestra en la tabla
2.3.3.
Si se elabora una grafica utilizando estos lfmites de intervalos de
clase como la base de los rectangulos, no habra separaciones entre
las barras, y se obtendra el histograma que se muestra en la figura
2.3.2. Se utiliz6 el paquete MINITAB para elaborar el histograma.
Se almacenaron los datos en la columna 1 y se Ie nombr6 "Edad". El
procedimiento se muestra en la figura 2.3.3. EI mensaje
14.5:64:5110 indica que el primer punto medio es 14.5, que el
ultimo punto medio es 64.5 y que los intervalos estan igualmente
espaciados en incrementos de 10 unidades. Se con sider6 un espacio
delimitado por el eje horizontal y ellfmite exterior formado por
las barras en la figura 2.3.2.
14.5 24.5 34.5 44.5 54.5 64.5
Edad
FIGURA 2.3.2 Histograma de las edades de 169 individuos a partir de
la tabla 2.3.1.
Caja de dialogo: Comandos de la sesi6n:
Graph ,.. Histogram
MTB> Histogram 'Edad'; SUBC> MidPoint 14.5:64.5/10; SUBC>
Bar.
Clic Options. Elegir MidPoint. Teclear 14.5:64.5/l0 en
MidPoint/cutPoint positions: Clic OK dos veces.
FIGURA 2.3.3 Caja de diilogo y comandos de la sesi6n de MINITAB
para elaborar el histograma a partir de los datos del ejemplo
1.4.1.
24 CAPITULO 2 ESTADISTICA DESCRIPTIVA
AI espacio entre los limites del histograma se Ie conoce como area
del histograma. A cada observacion se Ie asigna una unidad de esta
area. Puesto que se tienen 169 observaciones, el histograma tiene
en total 169 unidades. Cada harra contiene cierta proporcion del
area total, de acuerdo con la frecuencia. La segunda barra, por
ejemplo, contiene 66/169 del area. Esto, como ya se estudi6, es la
fre cuencia de ocurrencia de los valores entre 19.5 y 29.5. A
partir de esto se observa que las subareas del histograma definidas
por las barras corresponden a las fre cuencias de ocurrencia de
valores entre los lfmites de las areas de la escala horizon tal.
El porcentaje de una subarea particular del area total del
histograma es igual a la frecuencia relativa de ocurrencia de los
val ores entre los puntos correspondientes sobre el eje
horizontal.
El polfgono de jrecuencia Una distribuci6n de frecuencia tambien
puede ser representada graficamente por medio de un poligono de
frecuencia, que es una dase especial de grafica lineal. Para
dibujar este poHgono, primero se hace una marca arriba del punto
medio de cada intervalo de clase, representado sobre el ~je
horizontal de la grafica, como se muestra en la figura 2.3.2. La
altura con respecto del eje horizontal de una marca dada
corresponde ala frecuencia del intervalo de c1ase. AI unir las
marcas mediante lineas rectas se obtiene el poligono de frecuen
cia. La figura 2.3.4 muestra el polfgono de frecuencia para los
datos de edades de la tabla 2.2.1.
Observe que el poligono cae sobre el eje horizontal en los extremos
en los puntos que corresponderian a los puntos medios en caso de
haber una celda adi donal en cada extremo del histograma
correspondiente. Esto permite que el area total sea delimitada. El
area total bajo el poligono de frecuencia es igual al area
bajo
70 70
60 60
10 10
0 0 14.5 24.5 34.5 44.5 54.5 64.5 14.5 24.5 34.544.5 54.5
64.5
Edad Edad
FIGURA 2.3.4 Pollgono de frecuencia para las FIGURA 2.3.5
Histograma y poligono de fre edades de 169 individuos incluidas en
la tabla cuencia para las edades de 169 individuos inclui 2.2.1.
das en la tabla 2.2.1.
25 2.3 DATOS AGRUPADOS Y DlSTRIBUCION DE FRECUENCIAS
el histograma. La figura 2.3.5 muestra el poligono de frecuencia de
la figura 2.3.4 sobrepuesta al histograma de la figura 2.3.2. Esta
figura permite observar la rela cion entre las dos formas graficas
para un mismo conjunto de datos.
Desplkgues de lalla y hajas atro sistema grafico muy util para
representar conjuntos de datos cuantitativos es el despliegue de
tallo y hojas. Un despliegue de este tipo presenta una gran
similitud con el histograma y tiene el mismo proposito. Un
despliegue construido correctamente, al igual que un histograma,
proporciona informacion respecto al rango del conjunto de datos,
muestra la ubicacion de la mayor concentracion de mediciones y
revela la presencia 0 ausencia de simetrfa. Una ventaja del
despliegue de tallo y hojas sobre el histograma es que conserva la
informacion contenida en las mediciones individuales. Tal
informacion se pierde cuando las mediciones son asignadas a los
intervalos de clase del histograma. Como se vera mas adelante otra
ventaja adicional del despliegue es que puede construirse durante
el proceso de marcaje, de tal forma que se elimina el paso
intermedio (la preparacion de un arreglo ordenado).
Para construir un despliegue se divide cada medicion en dos, la
primera parte se llama tallo y la segunda, hojas. EI tallo se forma
con uno 0 mas digitos iniciales de la medicion, y las hojas se
forman con uno 0 mas de los digitos restantes. Todos los numeros
divididos se muestran en un solo despliegue; los tallos forman una
columna ordenada de menor a mayor. En la columna de tallos se
incluyen todos aquellos que se encuentren dentro del rango de los
datos, aun cuando una medicion con ese tallo no este en el conjunto
de datos. Los renglones del despliegue contienen las hojas
ordenadas en una lista a la derecha de sus respectivos tallos.
Cuando las hojas se forman con mas de un digito, todos los digitos
despues del primero se pueden bo rrar. Los decimales, cuando
ocurren en los datos originales, se omiten en el desplie gue. Los
tallos se separan de sus hojas mediante una linea vertical. Asi, se
observa que un despliegue tambien es un arreglo ordenado de los
datos.
Los despliegues de tallo y hojas son mas eficientes en conjuntos de
datos rela tivamente pequeiios. Como una norma, no es aconsejable
utilizarlos en informes anuales 0 en otros medios de difusion para
el publico en general. Son una ayuda basica para que investigadores
y tomadores de decisiones comprendan la natura leza de sus datos.
Los histogramas son mas adecuados para las publicaciones de
circulacion externa. EI siguiente ejemplo ilustra la construccion
del despliegue de tallo y hojas.
FJEMPLO 2.3.2
Utilice los datos de edades de la tabla 2.2.1 para construir un
despliegue de tallo y hojas.
Soindon: Puesto que todas las mediciones son numeros de dos
dfgitos, se tienen tallos y hojas de un digito cada uno. Por
ejemplo, la medicion 18 tiene un tallo de 1 y una hoja de 8. La
figuni 2.3.6 muestra el despliegue de tallo y hojas para los
datos.
26 CAPITULO 2 ESTADISTICA DESCRIPTIVA
Tallo Hoja
4 000000111222233344455566777788888899 5 000112233336 6 1233
FIGURA 2.3.6 Despliegue de tallo y hojas para las edades de 169
individuos incluidas en la tabla 2.2.1 (unidad de tallo = I, unidad
de hoja = I).
EI paquete de software estadistico MINITAB se puede utilizar para
elaborar el despliegue de tallo y hojas. Con los datos en la
columna 1, Hamada "Edad", el paquete produce y presenta una salida
como la que se muestra en la figura 2.3.7. El subcomando increment
especifica la distancia desde el primer tallo hasta el siguiente.
Los numeros en las columnas del extrema izquierdo de la figura
2.3.7 proporcionan informacion respecto al numero de observaciones
(hojas) en una linea dada y por encima de ella, 0 el numero de
observaciones en esa linea y en la de abajo.
Caja de dialogo: Comandos de la sesi6n:
MTB > Stem-and-Leaf 'Edad'i .Graph >- Characte~ Graphs >-
Histogram > SUBC> Increment 10. Stem-and-Leaf
Tedear Edad en Variables. Tedear 10 en Increment. Clic OK.
Resultados: Oespliegue en modo caracter de tallo y hojas
Stem-and-Leaf of 'Edad' N= 169 Leaf Unit = 1.0
4 1 8899 70 2
01112222223333333444444444555566666666666777777777788888889999999+
(47) 3 00000000001111111222223334444456667777788888999 . 52 4
0000001112222333A4455566777788888899
16 5 000112233336 4 6 1233
FIGURA 2.3.7 Despliegue de tallo y hojas preparado por el paquete
MINITAB a partir de los datos de las edades incluidas en la tabla
2.2.1.
EJERCICIOS 27
Por ejemplo, el numero 70 sobre la segunda linea indica que hay 70
observaciones (u hojas) en esa linea yen la de arriba. EI numero 52
en la cuarta linea (contando desde arriba) dice que hay 52
observacio nes en esa linea y en todas las de abajo. El numero
entre parentesis dice que hay 47 observaciones en esa lInea. Los
parentesis indican la lineaque contiene la observaci6n central si
el numero total de observa ciones es impar, 0 las dos
observaciones centrales si el numero total de observaciones es
par.
EI signa + al final de la segunda linea de la figura 2.3.7 indica
que la frecuencia para esa linea (el grupo de edades de 20 a 29)
excede la capacidad de la lfnea, y que existe al menos una hoja
adicional que no se muestra. En este caso, la frecuencia para el
grupo de edades de 20-29 es de 66. En la linea hay s6lo 65 hojas,
as! que el signo + indica que existe una hoja mas, un 9, que no se
muestra. •
Una manera para no exceder la capacidad dela linea es tener mas
lineas. Esto se puedehacer acortando la distancia entre las lfneas,
es decir, reduciendo la ampli tud de los intervalos de c1ase. Para
este ejemplo, se puede utilizar un intervalo de dases con amplitud
5, as! que la distancia entre las lfneas es de 5. La figura 2.3.8
muestra el resultado producido por el paquete MINI1AB para el
despliegue de tallo y hojas.
Stem-and-Leaf of 'Edad' N 169 Leaf Unit 1.0
4 1 8899 30 2 01112222223333333444444444 70 2
5555666666666667777777777888888899999999
(30 ) 3 000000000011111112222233344444 69 3 56667777788888999 52 4
0000001112222333444 33 4 55566777788888899 16 5 00011223333
5 5 6 4 6 1233
FIGURA 2.3.8 Despliegue de tallo y hojas preparado por el paquete
MINITAB a partir de los datos de las edades incluidas en la tabla
2.2.1, con intervalos de clase de amplitud = 5.
EjERCICIOS
2.3.1 En un estudio de la actividad proliferativa del cancer de
seno, Veronese y Gambacorta (A-1) utilizaron los metodos
inmunohistoquimico y de anticuerpos monoclonal Ki-67. Los investi
gadores obtuvieron tejido tumoral de 203 pacientes con carcinoma de
pecho. Los pacientes
28 CAPiTULO 2 ESTADISTICA DESCRIPTIV A
tenfan entre 26 y 82 aftos de edad. La siguiente tabla muestra los
valores de !{i-67 (expresa dos en porcentajes) para esos
pacientes.
10.12 10.80 10:54 27.30 8.38 10.15 5.48 23.50 32.60 42.70 19.30
16.40 4.40 26.80 16.60 33.00 11.65 26.30 1.73 35.90
9.63 9.31 7.40 9.35 14.78 ~1.42 25.11 12.60 17.96 41.12 28.30 19.50
15.92 19.40 7.19
4.65 73.00 17.84 10.90 2.74 21.09 11.95 33.30 .. 4.53 19.40
1.00 27.00 9.03 51.20 6.40 13.72 32.90 9.80 2.43 2.00 8.77 9.40
35.40 51.70 43.50 3.00 4.70 14.00 15.00 3.60 4.09 9.20 6.20 5.00
15.00
17.60 50.00 10.00 20.00 30.00 5.22 5.00 15.00 25.00 10.00
12.70 30.00 10.00 15.00 20.00 7.39 4.00 25.00 20.00 30.00
21.36 49.85 29.70 19.95 5.00 11.36 24.89 29.55 10.00 38:90 8.12
28.85 19.80 4.99 6.00 3.14 5.00 44.20 30.00 9.88 4.33 9.20 4.87
10.00 29.10 5.07 2.00 3.00 2.00 2.96 8.10 4.84 9.79 5.00 9.50 4.23
10.00 19.83 20.00 4.77
13.11 75.00 20.00 5.00 4.55 4.07 14.79 8.99 3.97 30.00 6.07 15.00
40.00 18.79 13.76
45.82 4.32 5.69 1.42 18.57 5.58 12.82 4.50 4.41 1.88 5.00 10.00
4.12 14.24 9.11 9.69 8.37 6.20 2.07 3.12 4.14 2.03 2.69 3.69 5.42
4.59 10.00 6.27 6.37 13.78
27.55 9.83 6.55 8.21 3.42 3.51 9.10 11.20 6.88 7.53 8.58 5.00 29.50
9.60 6.03
14.70 5.60 28.10 5.48 7.00 6.72 3.32 13.52 5.70 17.80
13.10 9.75 7.37
FUENTE: Utilizado con autorizaci6n de Silvio M. Veronese, Ph.
D.
EJERCICIOS 29
Una distribuci6n de frecuencias
Una distribuci6n de frecuencias relativas acumuladas
Un histograma
b) ~Que porcentaje de las mediciones es menor que 10?
c) ~Que proporci6n de individuos tiene mediciones mayores 0 iguales
que 20?
d) ~Que porcentaje de mediciones esta entre 20 y 49,
inclusive?
e) ~Cuantas mediciones son mayores que 39?
t) ~Que proporci6n de las mediciones es menor que 10 0 mayor que
69?
g) Alguien selecciona aleatoriamente una medici6n de este conjunto
de datos y Ie pide que adivine el valor. ~Cual seria su respuesta?
~Por que?
b) La distribuci6n de frecuencias y sus histogramas pueden ser
descritas de varias maneras segUn su forma. Por ejemplo, puede ser
simetrica (la mitad izquierda es al menos aproxima damente igual a
la mitad de la derecha), con inclinaci6n a la izquierda (las
frecuencias tien den a incrementarse conforme-Ias medicionesse
iilcrementan en tamano), con inclinaci6n a la derecha (las
frecuencias tienden a decrecer conforme las mediciones disminuyen
en tama no), 0 en forma de U (las frecuencias son-altas en cada
extrema y cortas en el centro). ~C6mo
se describe esta distribuci6n?
2.3.2 Jarjour et al. (A-2) realizaron un estudio en el que se
midieron los niveles de histamina del fluido de lavado
bronquialveolar (BAL, siglas en ingles) en individuos con rinitis
alergica, individuos con asma y voluntarios normales. Una de las
mediciones obtenidas es la protei na total Olg/ml) en muestras de
BAL. Los siguientes son los resultados de 61 muestras
analizadas:
76.33 57.73 74.78 100.36 73.50 77.63 88.78 77.40 51.16 62.20
149.49 86.24 57.90 72.10 67.20 54.38 54.07 91.47 62.32 44.73 55.47
95.06 71.50 73.53 57.68 51.70 114.79 61.70 47.23 78.15 53.07 106.00
35.90 85.40 72.30 61.10 72.20 41.98 59.36 63.96 66.60 69.91 59.20
54.41 59.76
128.40 67.10 83.82 95.33 88.17 109.30 79.55 58.50 82.60 153.56
84.70 62.80 70.17 44.40 61.90 55.05
FUENTE: Utilizado con autorizaci6n de Nizar N. ]arjour, M. D.
30 CAPITULO 2 ESTADISTICA DESCRIPTIVA
a) Construya con los datos:
Una distribuci6n de frecuencias
Una distribuci6n de frecuencias relativas acumuladas
Un histograma
Un polfgono de frecuencia
b) ~Que porcentaje de mediciones esta entre 55 y 114,
inclusive?
c) ~Cuantas mediciones son menores que 95?
d) ~Que proporci6n de las mediciones es mayor 0 igual que 75?
e) ~Que porcentaje de medici ones es menor que 55 0 mayor que
114.99?
f) Remitase al ejercicio 2.3.1 inciso h para describir la
distribuci6n de proteina total en las muestras de BAL en terminos
de simetria e inclinaci6n.
2.3.3 Ellis et al. (A-3) realizaron un estudio para investigar las
caracteristicas de uni6n de la imipramina a las plaquetas en
pacientes maniacos y comparar los resultados con datos equivalentes
de personas sanas y pacientes depresivos. Como parte del estudio,
los investigadores obtuvieron los val ores maximos de uni6n a la
molecula receptora (B rna) en estos individuos. Los siguientes
valores son de 57 inqividuos estudiados que fueron diagnosticados
con depresi6n unipolar.
1074 392 286 179 372 475 511 530 473 319 147 446 797 301 476 328
385 556 416 348 769 300 528 773 797 339 419 697 485 488 328 520 334
1114 1220 341 670 761 438 604 510 571 238 420 299 306 867 397 333
80 1657 303 607 790 768 1017 479
FUENTE: Utilizado con autorizaci6n de Peter E. Ellis.
a) Construya con los datos:
Una distribuci6n de frecuencias
Una distribuci6n de frecuencias relativas acumuladas
Un histograma
b) ~Que porcentaje de mediciones es menor que 500?
c) ~Que porcentaje de mediciones esta entre 500 y 999,
inclusive?
EJERCICIOS 31
d) ~Que porcentaje de mediciones es mayor que 749?
e) Describa estos datos con respecto a la simetria e incIinaci6n
tal como se estudi6 en el ejercicio2.3.1, inciso h.
f) C:Cuantas de las mediciones son menores que 1000?
2.3.4 EI objetivo de un estudio de Herrman et at. (A-4) era
determinar la prevalencia de des6rdenes mentales severos en una
muestra representativa de convictos de tres centros de readaptaci6n
social'en Melboume, Australia. Los tres grupos de convictos se
cIasificaron como: aquellos que estuvieron de acuerdo en ser
entrevistados, aquellos que rehusaron ser entrevistados y aquellos
que estuvieron de acuerdo en sustituir a aquellos que se rehusaron
a participar. Ademas de evaluar la prevalencia de des6rdenes
mentales entre los individuos, los investigadores ob tuvieron
informaci6n del tiempo de sentencia y tiempo de confinamiento al
momento del estudio. Los siguientes datos son el tiempo minimo de
sentencia (en dfas) para cada indivi duo que rehus6 la
entrevista.
18 4380 0 360 4955 720 1095 727 2190 730 365 1275 450 455 180
344
3650 0 2340 2555 2920 540 360 545
270 545 180 90 1000 0 2005 60 270 150 717 540 180 1825 3710 90 910
2920 180 660
90 270 2555 365 253 284 4015 3100 450 330 2885 1050 360 0 730
90
1460 1000 3160 450 1095 1460 910 1200 635 360 360 120
1953 0 466 1460 844 120 2920 409 360 1095 240 910 570 330 4745 0
951 540 88 1125 540 730 545 450 90 450 1670 730
FUENTE: Utilizado con autorizacion de Helen Herrman, M. D.
a) Construya con los datos: Una distribuci6n de frecuencias
relativas Una distribuci6n de frecuencias acumuladas
Una distribuci6n de frecuencias relativas Un histograma
Una distribuci6n de frecuencias acmnuladas Un poligono de
frecuencia
32 CAPITULO 2 ESTADISTICA DESCRIPTIV A
b) Describa estos datos con respecto a la simetria e inclinad6n tal
como se estudi6 en el ejercido 2.3.1, indso h. c) ~Por que se cree
que los datos esuin inclinados de esa manera? d) ~C6mo podrian
utilizar los investigadores esta informacion en estudios
posteriores? e) (Cmintas mediciones son mayores que 729? f) (Que
porcentaje de mediciones es menor que 1460?
2.3.5 La siguiente tabla muestra e1 numero de horas de sueno de 45
pacientes de un hospital como consecuencia de la administracion de
derto anestesico.
7 10 12 4 8 7 3 8 5 12 11 3 8 1 1 13 10 4 4 5 5 8 7 7 3 2 3 8 13 1
7 17 3 4 5 5 3 1 17 10 4 7 7 11 8
a) Construya a partir de estos datos: Una distribuci6n de
frecuencias Un histograma Una distribuci6n de frecuendas relativas
Un poHgono de frecuencia
b) Describa estos datos con respecto a la simetria e inclinaci6n
tal como se estudi6 en el ejercicio 2.3.1, inciso h.
2.3.6 Los siguientes datos corresponden al numero de ninos que
nacieron durante un ano, en 60 hospitales comunitarios:
30 55 27 45 56 48 45 49 32 57 47 56 37 55 52 34 54 42 32 59 35 46
24 57 32 26 40 28 53 54 29 42 42 54 53 59 39 56 59 58 49 53 30 53
21 34 28 50 52 57 43 46 54 31 22 31 24 24 57 29
a) Construya a partir de estos datos: Una distribuci6n de
frecuencias Una distribuci6n de frecuencias relativas Un histograma
Un poligono de frecuenda
b) Describa estos datos con respecto a la simetria e inclinaci6n
tal como se estudi6 en el ejercicio 2.3.1, inciso h.
2.3.7 En un estudio acerca de los niveles de resistenda fisica de
estudiantes varones de reciente ingreso a la universidad, se
registraron las siguientes puntuaciones con base en algunas ruti
nas de ejercicios.
254 281 192 260 212 179 225 179 181 149 182 210 235 239 258 166 159
223 186 190 180 188 135 233 220 204 219 211 245 151 198 190 151 157
204 238 205 229 191 200 222 187 134 193 264 312 214 227 190 212 165
194 206 193 218 198 241 149 164 225 265 222 264 249 175 205 252 210
178 159 220 201 203 172 234 198 173 187 189 237 272 195 227 230 168
232 217 249 196 223 232 191 175 236 152 258 155 215 197 210
(ContinUa)
EJERCICIOS 33
214· 278 252 283 205 184 172 228 193 130 218 213 172 159 203 212
117 197 206 198 169 187 204 180 261 236 217 205 212 218 191 124 199
235 139 231 116 182 243 217 251 206 173 236 215 228 183 204 186 134
188 195 240 163 208
a) Construya a partir de estos datos:
Una distribuci6n de frecuencias
Un poligono de frecuencia
Un histograma
b) Describa estos datos con respecto a la simetrfa e inclinaci6n
tal como se estudi6 en el ejercicio 2.3.1, inciso h.
2.3.8 Las edades indicadas a continuaci6n corresponden a 30
pacientes atendidos en la sala de urgencias de un hospital un
viernes por la nocbe. Construya un despliegue de tallo y hojas con
esos datos. Describir estos datos con respecto a la slmetrfa e
inclinaci6n tal como se estudi6 enel ejercicio 2.3.1, inciso
h.
. 35 32 21 43 39 60 36 12 54 45 37 53 45 23. 64 10 34 22 36 45 55
44 55 46 22 38 35 56 45 57
2.3.9 Los siguientes datos corresponden a los cobros realizados a
25 pacientes en la sala de urgen cias de dos hospitales urbanos.
Construya un despliegue de tallo y hojas para cada conjunto de
datos. ':Que sugiere la comparaci6n de los dos despliegues respecto
a los dos hospitales? Describa los dos con juntos de datos con
respecto a la simetrfa e inclinaci6n tal como se estudi6 en el
ejercicio 2.3.1. inciso h.
Hospital A
249.10 202.50 222.20 214.40 205.90 214.30 195.10 213.30 225.50
191.40 201.20 239.80 245.70 213.00 238.80 171.10 222.00 212.50
201.70 184.90 248.30 209.70 233.90 229.80 217.90
Hospital B
199.50 184.00 173.20 186.00 214.10 125.50 143.50 190.40 152.00
165.70 154.70 145.30 154.60 190.30 135.40 167.70 203.40 186.70
155.30 195.90 168.90 166.70 178.60 150.20 212.40
34 CAPITULO 2 ESTADISTICA DESCRIPTIV A
2.3.10 Para este ejercicio es necesario utilizar los datos del
ejemplo 1.4.1 desplegados en la tabla 1.4.1.
a) Construya intervalos de clase con amp1itud 5 para:
Una distribuci6n de frecuencias
Una distribuci6n de frecuencias relativas acumuladas
Un histograma
Un poHgono de frecuencia
b) Describa estos datos con respecto a la simetrfa e inclinaci6n
tal como se estudi6 en el ejercicio 2.3.1, incisoh.
2.3.11 Los objetivos de una investigaci6n realizada por Skjelbo et
ai. (A-5)fueron examinar: a) la relaci6n entre el metabolismo de La
cloroguanida y la eficacia de la profilaxis contra la mala ria;·o)
el metabolismo de la mefenitoina y su relaci6n con el metabolismo
de la cloroguanida entre habitantes de Tanzania. A partir de la
informacion proporcionada por las muestras de orina de 216
individuos, los investigadores calcularon el porcentaje de
inmutabilidad de S mefenitofna hacia R-mefenitoina (porcentaje
SIR). Los resultados son los siguientes:
0.0269 0.0400 0.0550 0.0550 0.0650 0.0670 0.0700 0.0720 0.0760
0.0850 0.0870 0.0870 0.0880 0.0900 0.0900 0.0990 0.0990 0.0990
0.0990 0.0990 0.0990 0.0990 0.0990 0.0990 0.0990 0;0990 0.0990
0.0990 0.0990 0.0990 0.0990 0.0990 0.0990 0.0990 0.0990 0.0990
0.0990 0.0990 0.0990 0.0990 0.0990 0.0990 0.0990 0.0990 0.0990
0.1000 0.1020 0.1040 0.1050 0.1050 0.1080 0.1080 0.1090 0.1090
0.1090 0.1160 0.1190 0.1200 0.1230 0.1240 0.1340 0.1340 0.1370
0.1390 0.1460 0.1480 0.1490 0.1490 0.1500 0.1500 0.1500 0.1540
0.1550 . 0.1570 0.1600 .0.1650 0.1650 0.1670 0.1670 0.1677 0.1690
0.1710 0.1720 0.1740 0.1780 0.1780 0.1790 0.1790 0.1810 0.1880
0.1890 0.1890 0.1920 0.1950 0.1970 0.2010 0.2070 0.2100 0.2100 .
0.2140 0.2150 0.2160 0.2260 0.2290 0.2390 0.2400 0.2420 0.2430
0.2450 0.2450 0.2460 0.2460 0.2470 0.2540 0.2570 0.. 2600 0.2620
0.2650 0.2650 0.2680 0.2710 0.2800 0.2800, 0.2870 0.2880 0.2940
0.2970 0.2980 0.2990 0.3000 0.3070 0.3100 0.3110 0.3140 0.3190
0.3210 0.3400 0.3440 0.3480 0.3490 0.3520 0.3,530 0.3570 0.3630
0.3630 0.3660 0.3830 0.3900 0.3960 0.3990 0.4080 0.4080 0.4090
0.4090 0.4100 0.4160 0.4210 0.4260 0.4290 0.4290 0.4300 0.4360
0.4370 0.4390 0.4410 0.4410 0.4430 0.4540 0.4680 0.4810 0.4870
0.4910 0.4980 0.5030 0.5060 0.5220 0.5340 0.5340 0.5460 0.5480
0.5480 0.5490 0.5550 0.5920 0.5930 0.6010 0.6240 0.6280 0.6380
0.6600 0.6720 0.6820 0.6870 0.6900 0.6910 0.6940 ().7040 0.7120
0.7200 0.7280 0.7860 0.7950 0.8040 0.8200 0.8350 0.8770 0.9090
0.9520 0.9530 0.9830 0.9890 l.()120 l.0260 l.0320 1.0620
1.1600
FUENTE: Utilizado con autorizaci6n de Erik Skjelbo, M. D.
EJERCICIOS 35
a) Construya con los datos las siguientes distribuciones:
frecuencia, frecuencia relativa, fre cuencia acumulada y
frecuencia relativa acunmlada; asi como las siguientes graficas:
histograma, poligono de frecuencia y desplieglte de tallo y hojas.
.
b) Describa estos datos con respecto a la simetria e inclinacion
tal como se estudio en el ejercicio 2.3.1, inciso h. .
c) Los investigadores definieroncomo metabolizantes de bajo
rendimiento de mefenitoina a cualquier individuo con un porcentaje
mefenitofna SIR mayor a .9. ~Cuantos y que porcenta je de
individuos son metabolizantesde bajo rendimiento?
d) ~Cuantos y que porcentaje de individuos tienen porcentajes
menores que. 7, entre .3 y .6999, inclusive, y mayores que
.4999?
2.3.12 Schmidt et al. (A-6) efectuaron un estudio para investigar
si la autotransfusi6n de sangre extraida del mediastino podia
reducir el numero de pacientes que necesitaba transfusiones de
sangre homologa y reducir la cantidadde sangre hom61oga
transfundida utilizando crite rios de transfusion fijos. La
siguiente tabla muestra las estaturas en centimetros de 109 indi
viduos de los cuales 97 son varones.
1.720 1.710 1.700 1.655 1.800 1.700 1.730 1.700 1:820 1.810 1.720
1.800 1.800 1.800 1.790 1.820 1.800 1.650 1.680 1.730 1.820 1.720·
1.710 1.850 1.760 1.780 1.760 1.820 1.840 1.690 1.770 1.920 1.690
1.690 1.780 1.720 1.750 1.710 1.690 1.520 1.805 1.780 1.820 1.790
1.760 1.830 1.760 1.800 1.700 1.760 1.750 1.630 1.760 1.770 1.840
1.690 1.640 1.760 1.850 1.820 1.760 1.700 1.720 1.780 1.630 1.650
1.660 1.880 1.740 1.900 1.830 1.600 1.800 1.670 1.780 1.800 1.750
1.610 1.840 1.740 1.750 1.960 1.760 1.730 1.730 1.810 1.810 1.775
1.710 1.730 1.740 1.790 1.880 1.730 1.560 1.820 1.780 1.630 1.640
1.600 1.800 1.800 1.780 1.840 1.830 1.770 1.690 1.800 1.620
FUENTE: Utilizado con autorizaci6n de Henrik Schmidt, M. D.
a) Construya con los datos las siguientes distribuciones:
frecuencia, frecuencia relativa, fre cuencia acumulada y
frecuencia relativa acumulada; as! como las siguientes grMicas:
histograma, poligono de frecuencia y despliegue de !;allo y
hojas.
b) Describa estos datos con respecto a la simetria e inclinacion
tal como se estudio en el ejercicio 2.3.1, inciso h. .
c) ~C6mo se puede explicar la forma de distribucion de estos
datos?
d) ~Que tan altos son el6.42 por ciento de individuos mas
altos?
e) ~Que tan altos son ell0.09 por ciento de individuos de menor
estatura?
36 CAPITULO 2 ESTADISTICA DESCRIPTIV A
2.4 ESTADiSTICADESCRIPTIVA: MEDIDAS DE TENDENCIA CENTRAL
Aunque las distribuciones de frecuencia sirven a prop6sitos muy
titiles, existen muchas situaciones en que se requieren otros tip6s
de resumen de datos. Lo que se necesita, en muchos casos, es la:
posibilidad de condensar datos por medio de un s610 ntimero llamado
medida descriptiva. Las medidas descriptivas pueden calcularse a
partir de los datos de unamuestra 0 de una poblaci6n. Para
distinguirlas entre sf se tienen las siguientes definiciones:
DEFINICIONES
1. Una Inedida descriptiva calculada a partir de los datos de una
m1,lestra se llaIna estadistica.
2. Una Inedida descriptiva calculada a partir de los datos de una
poblacion se llaIna parametro.
Algunos tipos de medidas descriptivas se pueden calcular a partir
de un con junto de datos. Sin embargo, este capitulo se limita al
estudio de las medidas de tendencia central y de las medidas de
dispersion. Las medidas de tendencia central se consideran en esta
secci6n, y las medidas de dispersi6n, en la siguiente.
Encada una de las medidas de tendenda central, de las que se
discuten s6lo tres, tinicamente un valor delconjunto de datos se
considera como el representati vo del todo. Las medidas de
tendencia central conllevan informaci6n respecto al valor promedio
de un conjunto de valores. Tal como se vera, la palabra promedio se
puede definir en diversas formas.
Las tres medida~ de tendencia central de uso mas frecuente son: la
media, la moda y la mediana.
La media aritmetica La medida de tendencia central mas conocida es
la me dia aritmetica. Esta es la medida descriptiva que la mayona
de las personas tienen en mente cuando se habla de "promedio". EI
adjetivo aritmetica distingue a esta media de otras que se puedan
calcular. Puesto que no se estudian otras medias en este libro, no
debe ser causa de confusi6n si al referirse a la media aritmetica
s610 se dice media. La media se obtiene sumando todos los valores
en una poblaci6n 0 muestra y dividiendo entre el ntimero de valores
sumados.
FJEMPLO 2.4.1
Obtenga la edad media de la poblaci6n de los 169 individuos
registrados en la tabla 1.4.1.
Soluci6n: Se procede de la siguiente forma:
27+27+···+23+39 edad media =-------
169
5797
169 34.302
• Los tres puntos en el numerador representan valores que no se
muestran para
economizar espacio.
2.3 ESTADisTICA DESCRIPTIVA: MEDIDAS DE TENDENCIA CENTRAL 37
Formula general para la media Es conveniente generalizar el
procedi miento para obtener la media y, ademas ,representarlo en
notaci6n de forma mas compacta. Se inicia por designar a la
variable aleatoria con la letra mayiiscula X. En este ~empl0 X
representa a la variable aleatoria de edad. Los valores espedficos
para una variable aleatoria se representan con la letra minuscula
x. Para referirse al primero, al segundo, al tercer valor, y asf
sucesivamente, se afiade un subfndice a la x. Por ejemplo, a partir
de la tabla 1.4.1 se tiene:
Xl = 27, x;1 = 27, ... , = 39X l69
En general, un valor comun para la variable aleatoria se designa
con Xi' y el valor final en una poblaci6n finita de valores, con xN
' donde N es el numero de valores en la poblacion. Por ultimo, se
utiliza la letra griega Il para simbolizar la media de la
poblacion. Ahora se puede escribir la formula general para la media
de una pobla ci6n finita como sigue:
N
N
El simbolo :2.:1significa que todos los valores para la variable se
suman desde el
primero hasta el ultiIJ1.o. A este slmbolo L se Ie conoce como
signa de sumataria, y se utiliza extensamente en este libro. Cuando
por el contexto sea obvio cuales son los valores que se suman, los
simbolos de arriba y de abajo del signo L se omiten.
La media de la muesira Cuando se calcula laIl1edia para una muestra
de valores, el procedimiento reciendescrito requiere algunas
modificaciones en la nota cion. Se utiliza '3c para identificar a
la media dela muestra, yn para indicar el numero de valores enla
muestra. For 10 tanto, la media de la muestra se expresa como
sigue:
(2.4.2) n
EJEMPLO 2.4.2
. En el capitulo 1 se obtuvo una muestra aleatoria simple de 10
individuos a partir de lapoblacion mostrada en la tabla 1.4.1.
Ahora corresponde calcular la edad media de los 10 individuos en la
inuestra. .
Soludon: Las edades (vease la tabla 1.4.2) de los 10 individuos de
la muestra son: XI = 42,x = 28,x = 28,x 61,xs 31,x6 = 23,x7 = 50,xs
= 34,xg = 32,2 3 4 x
10 = 37. AI sustituir los datos de la muestra en la ecuaci6n 2.4.2
se obtiene:
n
n 10 10 •
38 CAPITULO 2 ESTADISTICA DESCRIPTIV A
Propiedades de ta media La media aritmetica tiene ciertas
prapiedades, algunas deseables y otras no tanto. Algunas de estas
propiedades son las siguientes:
1. Es unica. Para un conjunto de datos existe·una y s610 una media
aritmetica.
2. Simplicidad. EI calculo y comprension de lamedia aritmetica son
sencillos.
3. Puesto que todos y cada uno de los valores en d conjunto de
datos entran en el dtlculo de la media, esta es afectada por cada
valor. Por 10 tanto, los valores extremos influyen sobre la media
y, en algunos casos, pueden distorsionarla tanto que llega a ser
indeseable como medida de tendencia central.
A contipuacion se muestra un ejemplo de como los valores extremos
pueden afectar la media. Considere la siguiente situacion: cinco
medicos que trabajan en cierta area son llamadosa declarar sus
cobras por realizar cierto procedimiento. Suponga que se reporta 10
siguiente: $75, $75,$80, $80 Y $280. EI cobra medio para los cinco
medicos es de $118, un valor que no es muy representativo del con
junto de datos. El unico valor atlpico del con junto tuvo el efecto
de inflar la media.
La mediana La mediana de un conjunto finito de val ores es aquel
valor que divide al con junto en dos partes iguales, de forma que
el numero de valores mayo res 0 iguales a la mediana es igual al
numera devalores menores 0 iguales a esta. Si el numero de valores
es impar, la mediana es el valor medio 0 central siempre y cuando
todas las variables sean arregladas eri orden de magnitud. Cuando
el nu mera de valores en e!: conjunto es pat, no existe un valor
medio unico, sino que existen dos valores medios. En tal caso, la
mediana corresponde a la media de esos dos valores centrales,
cuando todos los valores son arreglados en orden de magni tud. Es
decir, la mediana del conjuntode datos .es la (n+ 1) 12-esima
observacion, cuando las observaciones han sido ordenadas. Por
ejemplo, si se tienen 11 observa cjones, la mediana es la (11 + 1)
12 ~ 6-esima observadon ordenada. Si se tienen 12 observaCiones, la
mediana es la (12+ 1)/2=6.5-esima observacion ordenada yes el valor
que esta entre la sexta y septima observaci6n ordenada.
EJEMPLO 2.4.3
Encuentre la mediana de los datos contenidos en la tabla
2.2.1.
Soluci6n: En la tabla, los valores ya estan ordenados, de modo que
s610 se requiere encontrar losqos valores medios.El valor medio es
el (n+ 1)/2 =(169+ 1)1 2 170/2 85-esimo. Contando desde el mas
pequeno hasta el 85 esimo valor se observa que corresponde al 31.
Por 10 tanto, la edad me diana de los 169 individuos es de 31
anos. •
FJEMPLO 2.4.4
Obtenga ahora la edad mediana para los ind}viduos de la muestra
descrita en el ejemplo 2.4.2.
39 2.5 ESTADisTICA DESCRIPTIVA: MEDIDAS DE DISPERSION
Soluci6n: Al arreglar las 10 edades en orden de magnitud desde el
valor mas pe quefio hasta el mas grande seobtiene
23,28,28,31,32,34,37,42,50, 61. Puesto que se trata de un numero
impar de valores, no existe solo un valor central. Sin embargo, los
dos valores del centro son 32 y 34, asf que la mediana es (32 +
34)/2 = 33. •
_ Propiedades de la mediana Entre las propiedades de la mediana se
en cuentran las siguientes:
1. Es unica. Al igual que en el caso de la media, existe solamente
una mediana par~un conjunto de datos.
2. Simplicidad. Es muy sencillo calcularla.
3. Los valores extremos no tienen efectos importantes sobre la
mediana, 10 que sf ocurre con la media.
La moda La moda de un conjunto .devalores es aquel valor que ocurre
con mayor frecuencia. Si todos los valores son diferentes, no hay
moda. Por otra parte, un conjunto devalores puede tener mas de una
moda.
FJEMPLO 2.4.5
Encuentre laedad modal de los individuos cuyas edades se presentan
en la tabla 2.2.1.
Soluci6n: El conteo de las edades en la tabla 2.2.1 revela que la
edad 26 ocurre con mas frecuencia (11veces). La moda para esta
poblaci6n de edades es de 26. •
Para ilustrar un conjunto de valores que tiene mas de una moda,
considere un laboratorio con diez empleados cuyas edades son: 20,
21,20,20,34,22,24,27,27 Y 27. Se puede decir que estos datos tienen
dos modas 20 y 27. Una muestra que consista en los valores 10, 21,
33, 53 Y 54 no tiene moda,puestoque todos los valores son
diferentes.
La moda se puedeutilizarpara describir datos cualitativos. Por
ejemplo, su ponga que los pacientes de una cHnica de salud mental
durante un afio dado reci bieron uno de los siguientes
diagnosticos: retardo mental, sfndrome cerebral organico, psicosis,
neurosis y trastornos de personalidad.El diagh6stico que ocurre con
mayor frecuencia en el grupo de pacientes se denominarfa
diagnostico modal.
2.5 ESTADISllCA DESCRIP11VA: MEDIDA.." DE DISPERSION
G dispersion de un conjunto de observaciones se refiere a la
variedad que muestran estas. Una medida de dispersion conlleva
informacion respecto ala cantidad total de variabilidad presente en
el conjunto de datos. Si todos los valores son iguales, no hay
dispersion, perosi no todos son iguales, entoncesexiste dispersi6n
en los datos. La m