MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

125
MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA Alfonso S. González Cervera Departamento de Atención a la Salud Universidad Autónoma Metropolitana Unidad Xochimilco [email protected]

Transcript of MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

Page 1: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

MANUAL DE ESTADÍSTICA BÁSICA

PARA ESTUDIANTES DE MEDICINA

Alfonso S. González CerveraDepartamento de Atención a la SaludUniversidad Autónoma Metropolitana

Unidad Xochimilco

[email protected]

Page 2: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

CONTENIDO.

Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . i

Simbología. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ii

CAPÍTULO 1: ORGANIZACIÓN DE LA INFORMACIÓN . . . . . . . . . . . . . . . . . . . . . . . . . 11.1. Variables y Constantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2. Bases de Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41.3. Distribuciones de Frecuencias y Construcción de Cuadros . . . . . . . . . . . . . . . . 51.4. Construcción de Gráficas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

Ejemplo 1.1: Una Base de Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18Ejemplo 1.2: Errores en la Construcción de Gráficas . . . . . . . . . . . . . . . . . 19

CAPÍTULO 2: MEDIDAS DE RESUMEN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22Generalidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22Medidas de Tendencia Central . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222.1. Moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222.2. Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232.3. Media aritmética . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232.4. Media Ponderada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

Ejemplo 2.1: Obtención de la Moda (Mo) y de la Mediana (Md) . . . . . . . . 26Ejemplo 2.2: Obtención de una Media Aritmética . . . . . . . . . . . . . . . . . . . 28Ejemplo 2.3: Media Ponderada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

Medidas de Dispersión. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 322.3. Rango . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 322.4. Varianza (F , s ) y Desviación Estándar . . . . . . . . . . . . . . . . . . . . . . . . . . . . .2 2 32

Ejemplo 2.4: Obtención e Interpretación de la Desviación Estándar (s) . . . 35Razones y Proporciones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 372.5. Variables Cualitativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

Ejemplo 2.5: Obtención de una Proporción . . . . . . . . . . . . . . . . . . . . . . . . 39

CAPÍTULO 3: DISTRIBUCIONES DE PROBABILIDAD . . . . . . . . . . . . . . . . . . . . . . . . . 413.1. Concepto de Probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 413.2. Distribución Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 433.3. Distribución Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 463.4. Aproximación de la Distribución Binomial a la Normal . . . . . . . . . . . . . . . . . 52

Ejemplo 3.1: Determinación del área bajo la curva (probabilidad) . . . . . . . 59Ejemplo 3.2: Aproximación de la Distribución Binomial a la Normal . . . . . 63

CAPÍTULO 4: MUESTREO Y DISTRIBUCIONES DE MUESTRAS . . . . . . . . . . . . . . . . . 644.1. Población y Muestra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 644.2. Distribuciones Muestrales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

Page 3: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

4.3. Intervalos de Confianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69Ejemplo 4.1: Obtención de un Intervalo de Confianza para la Verdadera Media

en una Población . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72Ejemplo 4.2: Obtención de un Intervalo de Confianza para la Verdadera

Proporción en una Población . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

CAPÍTULO 5: CONTRASTE DE HIPÓTESIS PARA UNA SOLA MUESTRA . . . . . . . . . . 765.1. Una Sola Media . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 765.2. Una Sola Proporción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

Ejemplo 5.1: Contraste de Hipótesis para Una Sola Media . . . . . . . . . . . . . 80Ejemplo 5.2: Contraste de Hipótesis para Una Sola Proporción . . . . . . . . . 83

CAPÍTULO 6: CONTRASTE DE HIPÓTESIS PARA DOS MUESTRAS GRANDES . . . . . 866.1. Medias de Dos Muestras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 866.2. Proporciones de Dos Muestras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88

Ejemplo 6.1: Contraste de Hipótesis para las Medias de Dos Muestras . . . . 90Ejemplo 6.2: Contraste de Hipótesis para las Proporciones de Dos Muestras

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

CAPÍTULO 7: DISTRIBUCIÓN t DE STUDENT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 967.1. Muestras Pareadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 977.2. Muestras no Pareadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98

Ejemplo 7.1: Contraste de Hipótesis para Dos Medias de Muestras PequeñasPareadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101

Ejemplo 7.2: Contraste de Hipótesis para Dos Medias de Muestras No Pareadas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104

CAPÍTULO 8: PRUEBA DE P (JI AL CUADRADO) . . . . . . . . . . . . . . . . . . . . . . . . . . .2 106Ejemplo 8.1: Obtención de Ji al Cuadrado . . . . . . . . . . . . . . . . . . . . . . . . 110

CAPÍTULO 9: REGRESIÓN LINEAL Y CORRELACIÓN . . . . . . . . . . . . . . . . . . . . . . . . 1139.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1139.2. Regresión lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1149.3. Correlación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120

Ejemplo 9.1: Regresión Lineal y Correlación . . . . . . . . . . . . . . . . . . . . . . 126

Page 4: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

i

INTRODUCCIÓN.El aprendizaje de la estadística es indispensable para todo estudiante de medicina, pues enla actualidad es imposible mantenerse actualizado en cualquier campo de la profesión sin lalectura o la consulta de artículos de investigación médica.

Pero tampoco es posible entender lo que estos artículos se preguntan o afirman sin conocerel lenguaje, al menos el más sencillo, que se utiliza para el análisis de los resultados y para lainterpretación de la información. En medicina, este lenguaje está dado básicamente por laepidemiología y por la estadística.

La epidemiología proporciona las herramientas necesarias para entender los procedimientosútiles y necesarios (los métodos) que permiten llevar a cabo investigaciones en el área de lasalud, mientras que la estadística provee las técnicas que se requieren para analizar losresultados de esas investigaciones. De estas últimas se ocupa el presente manual.

La estadística, sin embargo, no se limita (ni mucho menos) a las técnicas de análisis que aquíse presentan. Estas son sólo las más elementales, son las que constituyen la base para poderposteriormente avanzar sobre las más complejas. Pero no se pueden abordar estas últimas sinel conocimiento y manejo adecuado de las primeras.

Desafortunadamente, la gran mayoría de los libros de estadística para estudiantes de medicina(o como se les llama comúnmente, de bioestadística) no son muy estimulantes para elaprendizaje pues, en su afán por exponer de la manera más formal los fundamentos de lastécnicas, se vuelven innecesariamente complejos y confusos para los que desean o necesitanuna introducción a este campo.

Este manual tiene como objetivo facilitar el aprendizaje, pero debe tomarse en cuenta que,por el tratamiento preliminar que se da a sus fundamentos, no debe verse como un sustitutode la lectura y del estudio de algún libro de estadística.

Page 5: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

ii

SIMBOLOGÍA.

Caracteres latinos:a : valor de la intersección de una línea de regresión en una muestra (capítulo 9).b : valor de la pendiente de una línea de regresión en una muestra (o coeficiente

de regresión; capítulo 9).EE : error estándar (o de muestreo o aleatorio o experimental; capítulos 4 al 7).gl : grados de libertad (usualmente, pero no siempre, n - 1).Ho : hipótesis nula (capítulos 5 al 9).n : número total de observaciones (casos) en una muestra.n - 1 : grados de libertad (gl).p : proporción en una muestra (capítulo 2).p(x) : probabilidad de que ocurra un suceso x (capítulo 3).p<, p>, p=:probabilidad de equivocarse al rechazar la hipótesis nula (capítulos 5 al 8).r : coeficiente de correlación de Pearson (capítulo 9); también se utiliza para

señalar el número de observaciones con la característica buscada (capítulo 2).r : coeficiente de determinación (capítulo 9).2

s : desviación estándar en una muestra (capítulo 2).s : varianza en una muestra (capítulo 2).2

xG : media aritmética de una muestra de la variable x (capítulo 2).yG : media aritmética de una muestra de la variable y.

Caracteres griegos:

" : valor de la intersección de una línea de regresión en una población (capítulo 9).

$ : valor de la pendiente (o coeficiente de regresión) de una línea de regresión en

una población (capítulo 9).: : media aritmética de la variable x en la población(capítulo 2).B : proporción en una población (capítulo 2).E : suma.F : desviación estándar en una población (capítulo 2).F : varianza en una población (capítulo 2).2

P : Ji al Cuadrado (capítulo 8).2

Page 6: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

1

CAPÍTULO 1: ORGANIZACIÓN DE LA INFORMACIÓN

1.1. VARIABLES Y CONSTANTES.

Cuando se lleva a cabo una investigación, uno de los aspectos que en primer lugar se tomaen cuenta es el tipo de datos recolectados, pues ello define el diseño de la base de datos, losanálisis que puedan llevarse a cabo y las formas de presentación.

En primer lugar, podemos advertir que existen cantidades (o magnitudes) cuyos valoressiempre permanecen fijos, mientras que otras pueden tomar distintos valores. Por ejemplo,si observamos el diámetro de la pupila, podremos apreciar que se modifica de acuerdo a lacantidad de luz que llega al ojo; sin embargo, la relación entre la circunferencia de la pupilay su diámetro permanece constante, no importando que se trate de un círculo grande opequeño (la circunferencia siempre es 3.1416 veces la longitud del diámetro, aproximadamen-te, o sea el número B). De esta manera, el diámetro (una cantidad que se modifica) es unavariable; por otro lado, la relación entre la circunferencia y el diámetro (que siempre es lamisma) es una constante.

Existen distintos tipos de constantes: las numéricas (como la mencionada arriba o el númeroe, igual a 2.718281828 aproximadamente, base de los logaritmos naturales), las físicas(constante de Boltzmann, k; constante de Planck, h) o las químicas (número o constante de

A CAvogadro, N ; constante de los gases, R; constante de equilibrio, K ). La estadística, sinembargo, tiene que ver casi siempre con variables más que con constantes.

Las variables y las constantes son generalmente representadas por símbolos, con el objeto depoderlas escribir rápida y concisamente al manipular fórmulas o reglas de computación. Porlo regular se utilizan letras. Se acostumbra usar las del final del abecedario (por ejemplo, x, y,z) para las variables, y las del inicio (por ejemplo, a, b, c) para las constantes. Otras letras,como i, j o k, se usan para procesos de conteo repetitivo; mientras que la letra n se usa pararepresentar el número total de repeticiones u observaciones.

Sin embargo, éstas son convenciones que pueden estar sujetas a cambios, dependiendo deltema o del autor, por lo que es aconsejable que siempre se aclare el significado de cadasímbolo, especialmente cuando se trata de uno nuevo o se le da una denotación distinta a lausual. En este manual se procurará utilizar la simbología más común (ver la sección deSímbolos Utilizados).

Las variables también pueden clasificarse en distintas clases. En los libros de estadística podránencontrarse clasificaciones diferentes, pero todas, excepto por lo que aquí mencionaremos,pueden reducirse a dos categorías: variables cualitativas y variables cuantitativas. Además,

Page 7: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

2

como se verá en los siguientes temas, es esta distinción la que más nos interesa para el análisisestadístico.

Las variables cualitativas, como su nombre lo expresa, son aquéllas que se refieren a unacualidad, es decir, a una característica o atributo, a la calidad de algo. Estos atributos sonmutuamente excluyentes. El sexo, el lugar de nacimiento, la presencia de un síntoma, sonejemplo de ello: se pertenece a un sexo o a otro, se puede nacer en un lugar o en otro, setiene o no un síntoma, pero no se puede tener ambas condiciones a la vez (son mutuamenteexcluyentes). En realidad, en contraste con la definición de variable que se dio anteriormente,estas no manifiestan una cantidad o magnitud, su variabilidad está en términos de la presenciao ausencia de una característica.

Las variables cuantitativas son aquellas cuya magnitud puede expresarse en una escalanumérica y son de dos tipos: las continuas y las discontinuas. Variables discontinuas son lasque se refieren a magnitudes que únicamente pueden tomar valores enteros en una escala:el número de embarazos, el número de leucocitos, el número de pacientes tratados. Estasvariables también se conocen como "discretas", término inapropiado en español, producto deuna pésima traducción del inglés. Las variables continuas son las que pueden tomar cualquiervalor entre dos puntos de una escala continua. Como es conocido por cualquier persona quehaya cursado la escuela secundaria, la cantidad de valores que puede haber entre estos dospuntos es infinita, y la precisión con que se pueda medir la variable dependerá del instrumentode medición. Ejemplos de estas son: la talla (longitud), la edad (tiempo), la presión, losvolúmenes.

Las variables pueden expresarse, de acuerdo con su naturaleza, en diferentes escalas:- escalas cardinales: o nominales, son aquellas en las que los números sirven sólo paraidentificación de las distintas categorías. Por ejemplo, es usual que los datos cualitativosobtenidos sean codificados con números para su más fácil manejo, particularmentecuando se crean bases de datos por medios electrónicos. Así, los individuos del sexomasculino pueden ser identificados con el número 1, mientras que a los del sexofemenino se les puede asignar el número 2; a los que no tienen ningún síntoma de unpadecimiento estudiado se les puede asignar el número 0 (cero), a quienes presentanun síntoma el número 1, a quienes presentan más síntomas el número 2. Como se ve,esto es arbitrario, y lo mismo daría si se invirtiera el orden o si se asignara cualquierotro número. Estas escalas se utilizan para variables cualitativas.- escalas ordinales: son aquellas que expresan un orden, como su nombre lo indica,pero en las que los distintos puntos no tienen relación con una magnitud determinada.Por ejemplo, la escala de Mohs, que establece la dureza de los minerales (de acuerdocon su capacidad para rayar a otros) y que va del 1 al 10, correspondiendo el 1 almineral más suave (talco) y el 10 al más duro (diamante); en el ámbito médico se usanpara señalar de manera subjetiva ciertos hechos (intensidad del dolor, gravedad delpaciente). Otras escalas muy utilizadas en medicina son: la de la puntuación APGAR,la de Glasgow para los estados de coma o la del cáncer cérvico-uterino. La característi-

Page 8: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

3

ca de estas escalas es que la magnitud entre un intervalo y el siguiente de la escala noes por necesidad la misma. Por ejemplo, en la escala de Mohs, la dureza de un mineralcolocado en el punto 4, no necesariamente es el doble de la de otro colocado en elpunto 2, simplemente indica que el primero es más duro que el segundo. Estas escalasse utilizan preferentemente para variables cualitativas.- escalas de intervalos: estas tienen la característica de que la distancia entre dos puntosde una escala expresa una magnitud dada. Por ejemplo, la distancia que hay entre los10º y los 15º centígrados, es la misma que hay entre los 30º y los 35º.- escalas de razones: es similar a la de intervalos, pero esta tiene un cero absoluto. Sepuede ver la diferencia entre una y otra si tomamos en cuenta, por ejemplo, que elcontenido de calor de un cuerpo a 40º centígrados no es el doble del de un cuerpo a20º centígrados, pues el cero en esta escala no es absoluto (no indica ausencia decalor), mientras que si se mide la temperatura en grados Kelvin, sí se puede decir queun cuerpo a 40º K contiene el doble de calor que otro a 20º K.

Estas dos últimas escalas se utilizan para las variables cuantitativas.

Gráfica 1.1. Escalas ordinales para identificar el nivel de dolor.

Debe señalarse que algunos autores utilizan la clasificación de las escalas para referirse a lasvariables; algunos otros usan denominaciones distintas a las de arriba. Sin embargo, lo máscomún es emplear la terminología que aquí presentamos, además de ser la más clara.

Page 9: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

4

Adicionalmente, es conveniente señalar que las variables cuantitativas pueden ser tratadascomo si fueran cualitativas; esto es, en ocasiones ciertos niveles de una variable pueden serasociados a atributos o cualidades. Por ejemplo, si tomamos la presión arterial sistólica(variable continua) de una persona, podemos clasificarla como hipotensa, normotensa ohipertensa (variable cualitativa).

Asimismo, podrán encontrarse en distintos libros otras categorías de variables. Una muycomún es la de variable aleatoria. Esta se refiere a que existen magnitudes variables cuyoscambios están dados al azar (por ejemplo, si medimos en repetidas ocasiones y bajo lasmismas condiciones, los niveles de hemoglobina de un individuo sano, estos variarán de unaocasión a otra sin un orden predeterminado). Por otro lado, hay otras magnitudes que puedenvariar pero con un orden preestablecido; por ejemplo, la posición de las manecillas de un relojes variable, pero sus cambios no están sujetos al azar.

Existen también las variables conocidas como dependientes e independientes (ver capítulo 9),las cuales pertenecen a la categoría de las aleatorias.

1.2. Bases de Datos.

Una base de datos consiste en una colección organizada de observaciones (casos) y devariables (información sobre cada caso), de tal forma que sirva de partida para su inspeccióny análisis.

Una vez que los datos de una investigación se han recolectado, por ejemplo, en uncuestionario, en una historia clínica o en algún otro tipo de registro, se concentran ya seasobre papel o, más comúnmente en la actualidad, en medios electrónicos. Para esta últimaopción existen diferentes formas de hacerlo:

- utilizando programas especiales para la "captura" (según la terminología más común)de los datos, como dBase ©, Paradox ©, FoxPro © o Access © entre otros;- en hojas (o "cuadernos") de cálculo como Excel © o Quattro Pro ©;- o bien en programas especiales para análisis estadístico como SPSS ©.

La ventaja que supone el primer tipo de programas es que, con diferencias entre ellos,permiten un mayor control o "validación", de la captura, lo que reduce las oportunidades deerrores; los otros permiten realizar análisis directos de la información, ya sean numéricos,tabulares o gráficos. Por lo regular, las bases creadas en los dos primeros tipos de programasdeben ser "exportadas" a los especializados en estadística para llevar a cabo dichos análisis oal menos hacerlos con mayor facilidad. Esto no representa mayor problema, pues práctica-mente todos los distintos formatos de archivos son intercambiables. Esto último depende delas versiones de los programas en que hayan sido creados y de otras limitaciones particularesque no cabe describir aquí.

Page 10: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

5

Lo más importante es saber que el diseño acertado de la base de datos es fundamental parasu utilización fácil y ágil y que dependerá en buena parte del programa que se piense utilizar(véase el ejemplo 1.1).

1.3. Distribuciones de Frecuencias y Construcción de Cuadros.

Una vez que se ha creado la base de datos (como en el ejemplo 1.1) lo que se desea esexaminarla para descubrir las características que posee en términos de la magnitud quealcanzan las distintas variables o de sus tendencias. En dicho ejemplo, esta inspección no seríadifícil, pues contiene pocas observaciones (28) y la totalidad de la información podríaapreciarse en una sola ojeada. Aún así, cuando se vaya realizar el análisis y la discusión delos resultados, siempre será conveniente que los datos se presenten en forma resumida parafacilitar la exposición de los hallazgos y de las ideas que resulten de ellos; esto se vuelve másimperioso conforme el número de observaciones crece.

Previamente a la popularización de los recursos electrónicos con que ahora contamos, la cualse dio sobre todo durante los últimos 30 años del siglo XX, primero con las calculadoras queincluyeron funciones estadísticas y luego con las computadoras personales, la construcciónidónea de una distribución de frecuencias era un asunto de la mayor importancia,especialmente cuando el número de observaciones era grande y las variables eran continuas.Esta importancia radicaba en el hecho de que, no habiendo otros recursos más sofisticadospara el común de los investigadores que la regla de cálculo o el ábaco, aún los análisis mássencillos podían entrañar una gran dificultad y una enorme paciencia. Para contender conestos obstáculos se idearon técnicas que, trabajando con datos resumidos (el término técnicoes "agregados"), permitían llevar a cabo los análisis requeridos. Estas técnicas se basaban enla construcción de distribuciones de frecuencias con un determinado número de intervalos devalores y una amplitud conveniente de tales intervalos. Actualmente, a no ser que uno seencuentre en la miseria tecnológica, estas técnicas han dejado de tener utilidad, pero aún sepueden encontrar en algunos libros de estadística, por si acaso. Este manual no los abordará.

En nuestros días la importancia de una distribución de frecuencias radica más en lapresentación de los resultados que en el análisis mismo, pues este se lleva a cabo con cadauna de las observaciones tomadas individualmente. En otras palabras, la distribución defrecuencias se realiza con la finalidad de construir un cuadro que ayude a comunicar loshallazgos del estudio realizado y que facilite el entendimiento de los argumentos expuestos.Para cumplir con este objetivo es conveniente considerar las siguientes ideas:

1. TÍTULO. Todo cuadro debe tener un título que diga el "qué" (de qué se trata, a quétema se refiere), el "dónde" (país, institución, comunidad en donde se obtuvo lainformación) y el "cuándo" (fecha, año); los dos últimos aspectos son menosimportantes cuando se presentan resultados de experimentos realizados en unlaboratorio, pero son esenciales en los trabajos de campo. Es nuestra la obligaciónlibrar al lector de la necesidad de recurrir al cuerpo del texto para conocer esta

Page 11: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

6

información pues, por una parte lo que queremos es facilitar la comunicación y si elcuadro no lo hace, el lector no tiene ningún compromiso para hacer esfuerzosadicionales sólo para enterarse de lo que queremos decir (a menos que seamospersonas realmente importantes) y, por otra parte, el lector experimentado lo primeroque ve (después del resumen, si lo hay, y de las conclusiones) son los cuadros. Si nonos importa lo que el lector pueda pensar o sentir respecto a lo que escribimos, mejorno escribamos.

2. COLUMNAS y FILAS. Todas deben tener sus propios títulos. No es convenientepresentar cuadros demasiado complejos, es decir, con muchas filas y columnas, puesello no propicia la comunicación; pero si juzgamos necesario hacerlo, resulta mejorcolocar el cuadro en un anexo o apéndice, para no interrumpir nuestro discurso y ala vez permitir que quien tenga interés pueda analizar nuestros hallazgos más a fondo.

3. TOTALES. Aunque no siempre son pertinentes, donde sí lo sean debe presentarse lostotales de filas y de columnas.

4. FRECUENCIAS ABSOLUTAS Y RELATIVAS. Siempre debe presentarse lasfrecuencias absolutas (el conteo de las observaciones que pertenecen a cada categoríao a cada intervalo de valores) y las relativas (los porcentajes que estos conteosconstituyen sobre el total de las categorías o de los intervalos; este total es, porsupuesto, 100 por ciento). El mostrar las frecuencias relativas facilita al lector apreciarla contribución de cada categoría o intervalo y le permite, dado el caso, establecerrápidamente comparaciones con los resultados de otros estudios, sin obligarlo a realizaroperaciones tediosas. Por su parte, las frecuencias absolutas deben aparecer paraponderar la importancia de las relativas ya que, por ejemplo, no es igual considerar unvalor de 10 por ciento basado en 10 observaciones que uno basado en 500observaciones. Debe sospecharse siempre de la importancia de los porcentajes de uncuadro en el que no se muestran las frecuencias absolutas.

5. CLAVES y ABREVIATURAS. Es muy frecuente que en los títulos de filas y de columnasno se cuente con el espacio suficiente para colocar todo el texto necesario, por lo quese debe recurrir a claves o a abreviaturas. Todas ellas, como cualquiera otra aclaraciónque sea necesaria o conveniente, deben ir suficientemente explicadas al pie del cuadro.

6. SIGLAS. En ocasiones los autores piensan en términos de su círculo profesional másestrecho y utilizan siglas que, fuera de ese círculo, no son reconocidas o pueden serconfundidas; por ejemplo, un lector fuera de México, aunque sea hispanohablante, notiene ninguna obligación de saber qué significa IMSS (Instituto Mexicano del SeguroSocial) por más que en el país resulte obvio. El uso de siglas debe seguir la misma reglaque el de claves y abreviaturas.

7. FUENTE. Al pie del cuadro y cuando los datos no son originales de quien escribe eltrabajo en cuestión, debe ponerse la fuente (referencia bibliográfica, electrónica o eninternet) de donde se obtuvieron, ya sean los datos crudos o el cuadro mismo. Cuandoel cuadro es resultado del estudio y se está presentando en el apartado o capítulo de"resultados" no debe colocarse ninguna "fuente", pues resulta más que evidente lo quese está mostrando, de manera que cuando se ponen cosas como "Fuente: el propioestudio" estamos mostrando que tenemos una idea muy tosca de lo que es la

Page 12: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

7

comunicación de hallazgos. Por otro lado, los cuadros cuyos datos no son producto delestudio que se está presentando, nunca van en "resultados" sino en los apartados deantecedentes, discusión o conclusiones.

1.4. Construcción de Gráficas.

Cuando deseamos comunicar nuestros resultados y los fundamentos de nuestras conclusiones,siempre recordamos el refrán que afirma que "una imagen dice más que mil palabras" lo cual,como todo en la sabiduría popular, muchas veces no es cierto. Debemos tomar en cuenta quesi bien una presentación gráfica de nuestros datos puede ayudar a comunicar sus característi-cas generales, especialmente cuando se ejercen comparaciones, los análisis definitivos sonnuméricos y no pueden ser sustituidos por una figura, aún cuando ésta sea bien hecha yatractiva, por lo que siempre será preferible examinar un cuadro. Sólo en ocasiones muyparticulares las gráficas son insustituibles para guiar el análisis numérico (véase el capítulo 9).

Por otro lado, los recursos electrónicos actuales han conducido al manoseo de las representa-ciones gráficas y, lo que es peor, de las representaciones incorrectas, pues con excesivafrecuencia se ignoran los principios fundamentales de su construcción idónea, indispensablespara dar una impresión correcta de los hallazgos de un estudio y para orientar los análisis ylas conclusiones.

Debemos recordar que una gráfica está basada en lo que se conoce como sistema rectangularcartesiano el cual consiste en un marco de referencia con dos líneas rectas, llamadas ejes, unahorizontal y otra vertical que se cruzan, formando un ángulo recto en un punto llamadoorigen. Al eje horizontal se le conoce como eje de las abscisas o eje de las x y al vertical comoeje de las ordenadas o eje de las y. Usualmente, al origen se le asocia el valor 0 (cero) y losvalores de x son positivos a la derecha del origen y negativos a la izquierda, mientras que losvalores de y son positivos hacia arriba del origen y negativos hacia abajo (gráfica 1.2).

Page 13: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

8

Gráfica 1.2. Sistema rectangular cartesiano.

Existen excepciones a lo anterior, por ejemplo, el sistema oblicuo cartesiano en el que los ejesno se cruzan en ángulo recto o aquéllas en que los valores de y, positivos o negativos, seinvierten respecto a lo dicho arriba, pero su uso es muy poco frecuente.

Los ejes dividen el espacio en cuatro cuadrantes: el primero, donde los valores de x y de y sonpositivos; el segundo, donde los valores de x son negativos y los de y positivos (se numeranen sentido contrario a las manecillas del reloj); el tercero, en donde x y y tienen valoresnegativos; y el cuarto, en donde x es positiva y y es negativa. De esta forma, cualquier par devalores (x,y), conocidos como coordenadas, puede ser ubicado en el sistema cartesiano. Lomás común, pero no siempre, es que se representen únicamente los valores positivos deambos ejes, es decir, el primer cuadrante.

Para una correcta representación gráfica, hay que tomar en cuenta dos principios básicos: quelos ejes deben ser proporcionales en tamaño, siendo el de las x ligeramente mayor que el delas y en una relación de 3 a 2, es decir, por cada 3 cm del eje de las x el de las y medirá 2 cmo, en todo caso podrán ser iguales (1 a 1); y que el eje de las y deberá iniciar siempre en cero.Cuando no se cumplen estas dos condiciones, la impresión visual que se ofrezca seráengañosa (véase el ejemplo 1.2).

Por otro lado, así como hay dos categorías básicas de variables existen dos clases de gráficasque se les asocian. Para las variables cualitativas, las gráficas de barras y, para las cuantitati-vas, los histogramas o bien su equivalente, los polígonos de frecuencias.

Page 14: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

9

Cuando se desea hacer una representación gráfica de una variable cualitativa, hay que tomaren cuenta que sus categorías no son numéricas y que, en consecuencia, su representaciónvisual no corresponde a lo dicho respecto al sistema cartesiano ya que no existe ningún ejede las x y únicamente se habrán de representar las frecuencias (absolutas o relativas) de cadacategoría. Estas son las gráficas de barras una muestra de las cuales se presenta enseguida conlos datos del ejemplo 1.1:

Nótese que las categorías, representadas en sentido horizontal, no corresponden a ningún ejecartesiano, pues son cualitativas y que bien se podría invertir el orden en que se presentan sinque por ello se alterara la representación visual correcta. Aquí lo único importante es la alturaque alcanzan las barras, pues ello nos indica su frecuencia. Por lo tanto, no tenemospreocupaciones por la proporción de los ejes (no existen).

Debido a lo anterior, estos mismos datos se pueden representar, correctamente, de otrasformas; por ejemplo, en sentido horizontal:

Las barras pueden estar alejadas unas de las otras, como arriba, o juntas:

Page 15: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

10

El ancho de las barras no importa, sólo su longitud:

Lo que se debe buscar en estos casos es obtener una representación agradable a la vista, porejemplo:

Page 16: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

11

Otra forma de representar este tipo de información es por medio de las gráficas de pastel(también llamadas de sectores) que, aunque comúnmente no se consideran apropiadas paraun trabajo científico o académico, pueden resultar muy demostrativas:

Lo que resulta por completo inaceptable es la utilización de las llamadas gráficas en terceradimensión:

Page 17: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

12

Estas gráficas han alcanzado gran popularidad por la facilidad con que se pueden construiry por lo atractivas que parecen ser. En un trabajo científico o académico, o en cualquiertrabajo medianamente serio, se debe prescindir de ellas siempre pues si uno las examina concuidado, se puede dar cuenta de que:

a. no son en tercera dimensión (es sólo apariencia);b. no aportan más información. A esto se le conoce técnicamente como tinta sin datos;c. confunden, obstaculizando su lectura.

En resumen, únicamente una persona inexperta y mal entrenada utiliza este tipo de gráficas.

Finalmente, otra manera informal de presentar las frecuencias de variables cualitativas es pormedio de pictogramas en los cuales las barras son sustituidas por figuras alusivas al tema que,apiladas o de distinto tamaño, ilustran las frecuencias o valores:

Esta forma de representación no es propia de un escrito científico o académico, aunque esmuy popular en folletos o en diarios.

Por su parte, las gráficas de las variables cuantitativas deben cumplir con los requisitos del ejede las y con inicio en 0 y de la proporcionalidad de los ejes (véase el ejemplo 1.2). Loshistogramas son una representación por medio de rectángulos, que algunas personasconfunden con las barras. Aquí, la diferencia está en que la base del rectángulo correspondeexactamente a la amplitud de los intervalos que se hayan definido para la variable en cuestióny su altura a la frecuencia; de esta forma el área total definida por todos los rectángulosrepresenta la función de la frecuencia y del valor de la variable. Los rectángulos deben estarcontiguos unos a los otros, particularmente en las variables continuas (pero también seacostumbra representar así a las discontinuas):

Page 18: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

13

Los mismos datos pueden representarse como un polígono de frecuencias en donde lospuntos medios de los rectángulos (que corresponden a los puntos medios de los intervalos)se unen con líneas rectas:

Una forma de representación gráfica muy común, aunque poco utilizada por los novatos, esla gráfica semilogarítmica. Esta consiste en transformar el eje de las y, usualmente en escalaaritmética, a una escala logarítmica lo que puede tener ventajas para el análisis visual deciertos fenómenos. Por ejemplo, podemos tener la siguiente serie de datos:

1000050001000

500100

Page 19: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

14

5010

51

0.5

En este cuadro observamos que las magnitudes van desde muy grandes (10,000) hasta muypequeñas (0.5). Una gráfica con escala aritmética resultaría en lo siguiente:

Puede advertirse que los valores menores (a partir de 100) no se observan ya, pareciera quea partir del valor 5000 el fenómeno cambia pero que sus cambios son muy pequeños y que,desde el valor 500 estos cambios son imperceptibles; que en realidad se mantiene constante.Sin embargo el fenómeno, cualquiera que este sea, continúa modificándose. Si el eje de lasy es transformado a escala logarítmica, la gráfica resultante sería la siguiente:

En ésta vemos que la representación de los datos del cuadro anterior es completa, desde losmayores hasta el menor y que el fenómeno sigue modificándose con la misma tendenciaindependientemente de las magnitudes. De hecho, se observa que las modificaciones son tanimportantes, proporcionalmente hablando, cuando los cambios van de 10,000 a 5,000

Page 20: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

15

(disminución de 50 por ciento), como cuando van de 1 a 0.5 (también una disminución del50 por ciento).

La escala logarítmica aparecería como sigue:

También podrán encontrarse gráficas logarítmicas, en las que los dos ejes se transforman o,más raramente, gráficas semilogarítmicas en el eje de las x.

Actualmente resulta fácil obtener otros muchos tipos de gráficas haciendo uso correcto de losrecursos electrónicos. Estos otros tipos no se verán aquí, excepto por las gráficas decorrelación que se tratarán en el capítulo 9.

Ahora observe la siguiente gráfica que representa los valores de la tasa de mortalidad infantilpara cada estado de la República Mexicana en 1999. En el eje horizontal se encuentran losnombres abreviados de los estados:

Page 21: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

16

Ahora diga:- si esta es la forma adecuada de presentar la información;- si la información es clara;- y si, en todo caso, debería presentarse de otra manera.

Page 22: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

17

Ejemplo 1.1: Una Base de Datos.

La siguiente es una base de datos en papel, con 28 observaciones (adultos sanos):

ID EDAD SEXO ERITROCITOS HEMOGLOBINA PLAQUETAS GLUCOSA COLESTEROL TO-

TAL

8 31 femenino 4.85 14.8 297 82 155

10 35 femenino 5.25 15.2 263 87 196

23 24 femenino 4.86 15.0 297 84 155

34 30 femenino 4.79 15.1 245 80 192

41 23 femenino 4.76 14.8 272 80 136

53 29 femenino 4.49 14.8 . 89 207

54 22 femenino 4.41 13.2 263 77 211

60 23 femenino 4.58 13.8 236 84 138

70 24 femenino 4.10 13.3 194 81 147

74 22 femenino 4.24 13.1 235 79 173

78 29 femenino 4.44 13.5 214 71 134

103 31 femenino 4.40 14.1 . 103 179

105 23 femenino 5.15 13.8 . 90 180

106 16 femenino 4.92 14.2 308 72 70

107 31 femenino 5.05 15.1 312 68 214

110 34 femenino 4.99 15.6 227 84 166

113 27 femenino 4.11 13.0 278 78 227

114 . femenino 4.65 13.9 278 88 183

115 24 femenino 4.48 12.0 312 73 120

118 28 femenino 4.75 14.7 183 91 151

30 24 masculino 5.66 17.8 308 . .

86 26 masculino 5.84 16.9 209 88 129

87 21 masculino 5.33 16.4 332 83 129

130 31 masculino 5.42 15.9 254 81 112

133 22 masculino 5.18 15.7 343 83 177

153 22 masculino 5.49 17.2 175 86 176

155 24 masculino 4.83 16.2 179 91 128

ID es la clave de identificación.

EDAD en años cumplidos.

ERITROCITOS por 10 .6

HEMOGLOBINA en g/dl.

PLAQUETAS por 10 .3

GLUCOSA en mg/dl.

COLESTEROL TOTAL en mg/dl.

Page 23: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

18

Ejemplo 1.2: Errores en la Construcción de Gráficas.

INFORMACIÓN

Se desea construir una gráfica a partir de los siguientes datos:Tasas ajustadas de mortalidad masculina (15 años de edad y más) por causas directamenteatribuibles al consumo de alcohol (México, 1979 - 1993).

PROCEDIMIENTO

1. : Uso de programas de cómputo.Lo más común es recurrir a programas como Excel ©, creando una hoja de cálculo a partirde la cual se hace la gráfica.

2. : Proporción de los ejes.En este programa (como en la gran mayoría de ellos), el procedimiento por omisión daría porresultado la siguiente gráfica:

Page 24: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

19

En una primera inspección de la gráfica se podría decir que la proporción de los ejes está bienguardada y que, por lo tanto, la impresión visual que nos da esta representación es correcta.A partir de lo anterior, se puede hacer una serie de consideraciones y, tal vez, obtener algunasconclusiones.

Una gráfica igual se puede obtener al utilizar un paquete de cómputo especializado en análisisestadístico como SPSS ©.

3. : Eje de las y.Debe observarse que en la gráfica anterior el eje de las y no se inicia en 0 (cero), sino en 40.Esto implica que si llevásemos el eje hasta cero, la proporción se perdería por completo,quedando algo como lo siguiente:

Sería difícil afirmar que una gráfica así está bien proporcionada.

4. Valores por omisión.

Page 25: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

20

Para una representación idónea de esta serie de valores, es necesario instruir al programa quese esté utilizando (en este caso, que el eje de las y se inicie en 0) para que nos construya unagráfica correcta, que sería la siguiente:

La impresión visual resultante es muy distinta, y las consideraciones y conclusiones que sepueden hacer a partir de ella también lo serán.

Page 26: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

21

CAPÍTULO 2: MEDIDAS DE RESUMEN

GENERALIDADES.Aunque los datos se hayan organizado en cuadros y gráficas, generalmente se desea teneralguna medida única que describa el conjunto, sin tener que recurrir al análisis de cada unade sus categorías o de sus intervalos por separado y que además permita la comparaciónrápida entre distintas colecciones de datos.

Para tales fines están las llamadas medidas de resumen cuya utilidad es precisamente reducirla información y presentarla en una sola expresión numérica. Estas medidas pueden ser dedos clases: aquellas que muestran el valor alrededor del cual los datos tienden a agruparse,conocidas como medidas de tendencia central; y las que muestran el grado en que esos datosse diferencian unos de otros o en relación con algún punto de referencia, conocidas comomedidas de dispersión.

Las medidas de resumen corresponden a lo que en la ciencia se conoce como los principiosde unidad y de diversidad. Estos principios establecen que todas las entidades existentes,aunque distintas entre sí, al final forman parte de un mismo proceso, es decir, que si bien lamateria puede expresarse de distintas maneras, su estructura fundamental, en todos los casos,es la misma. Con las medidas de tendencia central pretendemos acercarnos, inicialmente deuna manera muy simple, a la indagación del principio de la unidad. Por el otro lado, si bientodo lo existente es parte de un mismo proceso, cada entidad tiene sus propias y muycaracterísticas particularidades que la hacen diferente a todas las demás. Con las medidas dedispersión se intenta el estudio de este principio.

De ahí que la descripción de un fenómeno, desde el punto de vista estadístico, nunca estécompleta si no se habla de estas dos clases de medidas: tendencia central y dispersión.

MEDIDAS DE TENDENCIA CENTRAL.2.1. Moda.No existe un símbolo universalmente aceptado para la moda, si acaso se le puede representarpor Mo. La moda es una medida de tendencia central que se define como el valor o lacaracterística de una distribución que ocurre con más frecuencia, es decir, corresponde a loque la palabra significa en el lenguaje común: lo que predomina o se usa de manera másgeneralizada.

Como puede advertirse, se trata de una medida descriptiva muy simple que no se utiliza enanálisis estadísticos más avanzados pues no permite conocer nada acerca de los datos nocontenidos en ella, sólo del valor más frecuente.

Page 27: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

22

Cuando en una distribución dos valores o características son igualmente los más frecuentes,se dice que es una distribución bimodal. De la misma forma, puede hablarse de distribucionesmultimodales.

La moda se utiliza preferentemente para la descripción de observaciones correspondientes aescalas cardinales, por ejemplo, los números de identificación o clasificación de personas porcategorías. Puede ser útil también para variables discontinuas (véase el ejemplo 2.1).

2.2. Mediana.No existe un símbolo universalmente aceptado pero puede utilizarse Md. La mediana es elvalor que toma la observación central en una serie ordenada de datos (de mayor a menor oviceversa) y que deja el mismo número de casos a cada lado de ella; es decir, el 50 por cientode las observaciones tendrá un valor menor que la mediana y el otro 50 por ciento un valormayor, por lo que también se le conoce como percentil 50.

La mediana se obtiene aplicando la siguiente fórmula:

L Mediana = valor que toma la ½ (n +1) observaciónésima

NÓTESE que el valor de la mediana no es el resultante de aplicar la fórmula ½(n+1), pues esta nos da sólo el número de la observación que queda a la mitadde la distribución; el valor que tiene esta observación es el de la mediana (véaseel ejemplo 2.1).

Si n es número par, la mediana se define como la media aritmética (el "promedio") de las dosobservaciones centrales. Se le utiliza para variables cuantitativas, particularmente en caso dedistribuciones asimétricas y para escalas ordinales. Su gran desventaja, igual que la moda, esque no toma en cuenta la información del resto de las observaciones, sólo la central o las doscentrales.

2.3. Media aritmética (µ, 0).La media aritmética es lo que en el lenguaje común se conoce como "promedio", aunque deacuerdo a la terminología técnica, también la moda y la mediana son promedios, por lo quees impropio que en un escrito técnico se utilice la palabra "promedio" para referirse a la mediaaritmética.

Existen otras medias: la armónica y la geométrica, las cuales son de uso menos frecuente; poreso, cuando simplemente se habla de la "media" se entiende que se hace referencia a la mediaaritmética.

Los símbolos utilizados para representar a la media aritmética son la letra µ (my o muminúscula del alfabeto griego) para los datos que corresponden a una población completa y

Page 28: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

23

con el símbolo 0 (se pronuncia "equis barra") para los datos de una muestra (véase el capítulo4).

En lo sucesivo, todos los símbolos que utilicen letras griegas se referirán a los valores de todala población, mientras que las letras latinas corresponderán a los de una muestra. La únicaexcepción la constituye la letra E (sigma mayúscula), que indica una suma.

La media aritmética se obtiene de acuerdo a la siguiente fórmula:

Donde µ es la media aritmética para los valores de la variable x;

iEx es la suma de los valores de las observaciones, desde la primera (i = 1) hasta laúltima (i = n);n es el número total de observaciones.

i 1La fórmula se lee: la suma de los valores de las x desde la x hasta la última (n); dividida porel número total de observaciones.

Por supuesto que en el caso de una muestra, habrá que sustituir el valor de µ por el de 0:

L

La media es la medida de tendencia central más utilizada porque toma en cuenta la

iinformación de todas y cada una de las observaciones (x ). Es la medida de tendencia centralpreferida para describir las distribuciones simétricas, y en escalas de intervalos y de razones(véase el ejemplo 2.2).

2.4. Media Ponderada.

pEn ocasiones se desea obtener la media de varias medias (0 , media ponderada, media demedias o gran media); esto puede suceder cuando no se cuenta con los datos originales, esdecir, desagregados.

iMuchas veces se piensa que sumando las medias (E0 ) y dividiéndolas entre el número total

0 pde ellas (n ), bastaría para obtener la media ponderada (0 ). Sin embargo, este procedimiento

Page 29: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

24

ipuede seguirse únicamente cuando el número de observaciones (n ) en que está basada cada

iuna de las medias parciales es igual. Si este número n es distinto para las medias parciales,entonces se necesita ponderar:

EnPL 0 =

_ _____i iE0 n

Pdonde 0 es la media ponderada.

i iE0 n es la suma de los productos de cada media por su correspondiente número deobservaciones.En es la suma de las observaciones de todos los grupos.

Así, una media de elevada magnitud, pero obtenida con pocas observaciones, verá disminuidosu valor relativo. De igual manera, una media pequeña obtenida de un gran número de datos,incrementará su valor relativo (véase el ejemplo 2.3).

Page 30: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

25

Ejemplo 2.1: Obtención de la Moda (Mo) y de la Mediana (Md).

INFORMACIÓN

En un estudio realizado en una clínica prenatal, se obtuvieron los antecedentes sobre la edady la paridad de 54 mujeres embarazadas. Los resultados son los siguientes:

Número dePartos

Número de Mujeres por ciento

0 29 53.7

1 17 31.5

2 3 5.6

3 2 3.7

4 2 3.7

5 1 1.8

Total 54 100

Obtenga la moda y la mediana de esta distribución.

PROCEDIMIENTO

1. Obtenga la Moda:como la mayor cantidad de mujeres tiene una paridad igual a cero (29 mujeres, o 53.7 porciento del total), entonces

Mo = 0 partos

porque cero es el valor que se presenta con mayor frecuencia.

2. Obtenga la Mediana: se dijo que la mediana es el valor que toma la observación que deja la mitad de los casos porencima de ella y la mitad por debajo, y que para saber cuál es esa observación se utiliza lafórmula:

½ (n + 1)ésima

Page 31: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

26

donde n es el total de observaciones, en este caso

n = 54

que es par, por lo cual se encontrarán dos observaciones centrales, la número 27 y la número28 (al aplicar la fórmula tendríamos 27.5), en estos casos se debe tomar el valor "promedio"de las dos observaciones centrales. Como en el ejemplo ambas observaciones tienen valorigual a cero partos, entonces:

Md = 0 partos

Page 32: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

27

Ejemplo 2.2: Obtención de una Media Aritmética (0).

INFORMACIÓN

En un estudio acerca de la absorción de hierro, se midieron los niveles de hemoglobina(mg/100 ml) en 19 voluntarios; los resultados son los siguientes:

CASO Hb (mg/100 ml) CASO Hb (mg/100 ml)1 14.4 11 13.12 17.4 12 13.43 15.5 13 13.84 16.3 14 12.75 13.9 15 15.46 13.9 16 14.77 14.5 17 13.98 14.7 18 14.29 15.0 19 16.510 15.7

Obtenga el valor de 0 para estos datos.

PROCEDIMIENTO

1. Obtenga los Datos Básicos:como la fórmula para calcular la media aritmética es

i0 = Ex / n

lo que se requiere es el número total de observaciones y la suma de todos los valoresobservados de hemoglobina:

n = 19 voluntariosEx= 279 mg/100ml

2. Obtenga el Valor de la Media:simplemente se sustituyen los valores de la fórmula referida:

i0 = Ex / n

= 279/19

Page 33: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

28

= 14.68 mg de Hb /100 ml por persona

Page 34: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

29

Ejemplo 2.3: Media Ponderada.

INFORMACIÓN

En este ejemplo se muestra cómo la ponderación de una media de medias, obtenida a partirde diferentes medias parciales arroja resultados totalmente distintos a los que se obtienencuando no se sigue el procedimiento correcto. El autor del artículo no ponderó las medias yfinalmente llegó a conclusiones erróneas. El cuadro se reproduce parcialmente:

Estudio de índices de caries en piezas temporalesantes de la vacunación y 10 meses después

(Datos para el grupo vacunado)

Edad enAños Cum-

plidos

Número deNiños

Noviembre de 1969 Septiembre de 1970

ceoD ceoS ceoD ceoS

3 7 0 0 0 0

4 55 3.5 6.1 4.56 7.87

5 74 4.71 5.99 5.34 7.19

6 37 4 6.9 4.32 7.85

Total 173 3.05 4.74 3.55 5.72

MediaPonderada

3.98 5.98 4.66 7.26

ceo: cariadas, extraídas, obturadas.D: pieza dentaria.S: superficie dentaria.

PROCEDIMIENTO

1. El autor cometió un error:simplemente sumó las medias parciales correspondientes a cada grupo de edad, por ejemplo(véase la columna de noviembre 1969, promedio de ceoD):

0 + 3.5 + 4.71 + 4 = 12.21

Page 35: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

30

y luego dividió entre 4, que es el número de las medias parciales, sin tomar en consideraciónque cada una de estas estaba basada en un distinto número de observaciones:

12.21 / 4 = 3.05

obteniendo una media de medias incorrecta. Lo mismo puede observarse en las otrascolumnas.

2. El procedimiento correcto debió haber sido:primero multiplicar cada media parcial por su frecuencia (por el número de niños estudiadosen cada grupo de edad) y luego dividir entre el total de niños, por ejemplo:

[(7*0) + (55*3.5) + (74*4.71) + (37*4)] / 173 = 3.98

Obsérvese cómo los resultados correctos (medias ponderadas) difieren sustancialmente de losque el autor obtuvo.

Page 36: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

31

MEDIDAS DE DISPERSIÓN.2.3. RANGO.Es una medida de dispersión que consiste en obtener la diferencia entre los valores de las dosobservaciones extremas de una distribución, es decir la de mayor valor con respecto a la demenor valor:

máx mínL Rango = x - x

y es una medida poco utilizada, porque no toma en cuenta la variabilidad que puede haberen las observaciones dentro de los dos extremos, es decir, se pierde información; además, escomún que estos valores extremos sean los menos estables, esto es, que se modifiquenfácilmente, pues el rango tiende a aumentar conforme aumenta el número de observaciones.

2.4. VARIANZA (F , s ) Y DESVIACIÓN ESTÁNDAR (F, s).2 2

La varianza es una medida de dispersión que toma en cuenta los valores de todas y cada una

ide las observaciones (x ). Por este motivo es la medida de dispersión de más amplio uso enla estadística. Una varianza grande significa simplemente una variabilidad mayor entre losvalores de las observaciones, se puede decir entonces que se trata de un conjunto de valoresheterogéneos; por el contrario, cuando una varianza es pequeña, se puede decir que losvalores tienden a ser homogéneos, cercanos entre sí.

La varianza se obtiene de acuerdo a la siguiente fórmula:

Ya que generalmente se trabaja con muestras, la forma más común de expresarla es:

L

donde s² es la varianza.E(x-0) es la suma de todas las diferencias entre cada observación y la media; cada2

diferencia se eleva al cuadrado y luego se hace la suma.n-1 el número total de las observaciones, menos una (lo que se conoce en estadísticacomo grados de libertad).

Page 37: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

32

El que cada diferencia de las observaciones con respecto a la media se eleve al cuadrado,responde al hecho de que habrá observaciones mayores que la media (la diferencia será designo positivo) y habrá otras menores que ella (la diferencia será de signo negativo); si se hacela suma de ellas, E(x-0), ésta será siempre igual a cero. Por lo tanto, al elevarlas al cuadrado,se cancelan los signos negativos y puede hacerse la suma.

Los grados de libertad (n-1) se utilizan particularmente para el caso de muestras pequeñas(donde el total de las observaciones, n, es menor que 30), pero como pueden ser utilizadostambién en muestras grandes (n > 30) sin afectar mayormente el resultado, casi siempre esesta expresión la que se usa.

Si la principal ventaja de la varianza es que toma en cuenta la información provista por todasy cada una de las observaciones y que claramente puede entenderse como un "promedio" (lamedia aritmética) de las desviaciones respecto a la media, su desventaja es que las unidadesen que se expresa son las unidades originales elevadas al cuadrado (por ejemplo kg²), lo quedificulta su interpretación en términos del problema real estudiado.

Esta cuestión puede resolverse sencillamente obteniendo la raíz cuadrada de la varianza:

L

Esto es la desviación estándar, la cual nos permite interpretar fácilmente la magnitud de lavariabilidad en términos de las unidades originales (por ejemplo kg). La desviación estándarse puede interpretar de la siguiente manera:

a) se trata en realidad de un promedio de las desviaciones de las observaciones conrespecto a su media.b) su magnitud está en términos de las unidades en que se mide la variable (kg, cm, m²o lo que sea).c) el intervalo definido por:0 ± 1s incluye al 68% de las observaciones,0 ± 2s incluye al 95% de las observaciones,0 ± 3s incluye al 99% de las observaciones.

Estos valores corresponden a la "distribución normal" (ver el capítulo 3), son aproximados, seobservan con mayor exactitud en muestras grandes y se discutirán en próximos temas.

Existe una fórmula equivalente para obtener la varianza o la desviación estándar, la cualpuede utilizarse en caso de no contar con ningún instrumento electrónico (al menos con una

Page 38: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

33

calculadora con funciones estadísticas), además de otra para datos agrupados. No sepresentan aquí, pues cada día pierden más su utilidad.

Page 39: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

34

Ejemplo 2.4: Obtención e Interpretación de la Desviación Estándar (s).

INFORMACIÓN

Se utilizarán los mismos datos del ejemplo 2.2:

CASO Hb (mg/100 ml) CASO Hb (mg/100 ml)1 14.4 11 13.12 17.4 12 13.43 15.5 13 13.84 16.3 14 12.75 13.9 15 15.46 13.9 16 14.77 14.5 17 13.98 14.7 18 14.29 15.0 19 16.510 15.7

PROCEDIMIENTO

1. Identifique y obtenga los datos necesarios:n = 19 (total de individuos observados).0 = 14.68 mg/100 ml (del ejemplo 2.2)

iE(x - 0) =23.562

2. Obtenga la desviación estándar:

is =/[E(x - 0) / (n-1)]2

= /[23.56 / 18]

= /1.31

= 1.14 mg de Hb /100 ml

3. Obtenga el intervalo:si el intervalo medido por 0 ± 1s incluye al 68% de las observaciones, entonces se tendríaque:

14.68 ± 1.14

Page 40: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

35

define un intervalo que está entre 13.54 mg/100 ml (como límite inferior, que resulta de restaruna desviación estándar a la media) y 15.82 mg/100 ml (límite superior, que resulta de sumaruna desviación estándar a la media). Con esto, se puede esperar que trece observaciones(68%), de un total de diecinueve, caigan dentro del intervalo y siete fuera de él. Al revisar losdatos se puede verificar que el resultado es el predicho.

Page 41: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

36

RAZONES Y PROPORCIONES.2.5. VARIABLES CUALITATIVAS.Las medidas descritas anteriormente son aplicables sólo a variables cuantitativas. Cuando setrata de las cualitativas, lo que interesa es conocer la frecuencia con que se presenta ciertacaracterística en relación con el total de observaciones (n), esto es la proporción (B, p):

L p = r / n

En donde n es el número total de observaciones y r es el número de observaciones con la característica de interés.

Nótese que si se multiplica p por 100, lo que se obtiene es simplemente un porcentaje.

Para el caso de estas variables, el valor de la varianza se obtiene por:

y el de la desviación estándar por:

L

Por supuesto que las fórmulas correspondientes para p son:

y L

Page 42: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

37

Puede verse que si r es el número de observaciones con la característica buscada y n es eltotal de observaciones, entonces r no puede ser mayor que n, por lo que p nunca podrá sermayor que 1 ni menor que 0, es decir, no puede haber más del 100 por ciento de observacio-nes ni menos que el 0 por ciento con la característica buscada. Por esto mismo, aunque todaslas proporciones pueden representarse como porcentajes, no todos los porcentajes sonproporciones.

Existe una proporción complementaria de p, la cual se denomina q, y que representa laproporción de observaciones que no tienen la característica buscada y entonces p + q = 1 (laproporción de las observaciones que tienen la característica buscada, más la proporción delas que no la tienen es igual al 100 por ciento; ejemplo 2.5).

Page 43: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

38

Ejemplo 2.5: Obtención de una Proporción.

INFORMACIÓN

Los datos corresponden al ejemplo 2.1.

PROCEDIMIENTO

Si se desea obtener, por ejemplo, la proporción de mujeres con paridad igual a 1, entonces:1. Identifique los datos necesarios:n = 54 mujeres (el total estudiado).r = 17 mujeres con paridad igual a 1.

2. Obtenga p y q:Proporción de mujeres con paridad igual a 1:

p = r/n

= 17/54

= 0.3148 ó 31.48%

Proporción de mujeres con paridad distinta a 1:

q = 1 - p

= 1 - 0.3148

= 0.6852 ó 68.52%

Nótese que

p + q = 1

esto es

0.3148 + 0.6852 = 1 ó 100%

Page 44: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

39

Duncan RC et al. (1980). Bioestadística. Ed. Interamericana. México.1

CAPÍTULO 3: DISTRIBUCIONES DE PROBABILIDAD

(BINOMIAL Y NORMAL)

3.1. CONCEPTO DE PROBABILIDAD."El estudio de la teoría de la probabilidad puede convertirse en una de las experiencias másdesesperantes... Hay muchas razones para ello, sobre todo si se intenta establecer una basefilosófica y matemática para los enunciados de la probabilidad...". Este problema es el que,1

con mucha frecuencia aleja, particularmente a quienes no buscan ser especialistas en elcampo, del estudio de la estadística.

En nuestro caso, la veremos de manera intuitiva (como se dice en la jerga matemática, paradistinguirlo del análisis formal) y muy elemental, pero que proporcione los elementosindispensables para entender las bases estadísticas.

Una definición sencilla de probabilidad puede ser: la proporción de veces que un suceso (oun resultado) ocurre en una larga serie de observaciones.

El primer elemento de esta definición plantea a la probabilidad como una proporción (p) que,como tal, no puede tomar valores menores que 0 ni mayores que 1 (véase el capítulo 2; a estose le conoce como el Axioma 1 de Kolmogorov). Siendo la probabilidad de que un resultadono ocurra (q):

q = (1 - p)

La suma de todos los resultados posibles es la probabilidad total, igual a 1 (o 100%; Axioma2 de Kolmogorov):

p + q = 1

Si descomponemos la probabilidad total (1) en las probabilidades de cada resultado posible(y si estos son mutuamente excluyentes), estamos hablando de una distribución deprobabilidades (por ejemplo, la probabilidad de que en un grupo de individuos encontremosalgunos con presión sistólica mayor que 140 mmHg, más la probabilidad de que encontremosindividuos con presión sistólica entre 90 mmHg y 140 mmHg, más la probabilidad deencontrar individuos con presión menor que 90 mmHg es igual a 1; Axioma 3 de Kolmogo-rov).

Finalmente, como el concepto de probabilidad se refiere a una larga serie de observaciones,no puede definirse para un caso particular, aunque este sea un error en el que se incurre

Page 45: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

40

comúnmente, tanto en la vida diaria como en asuntos especializados (por ejemplo, en elconsejo genético o en el pronóstico de una enfermedad para un paciente). También seconfunde con el concepto de riesgo; pero si recordamos que este último puede atribuirse a unindividuo, al igual que a una pluralidad de individuos, entonces se puede hacer la distinción.Por ejemplo, podemos decir que una mujer de 45 años de edad que se embaraza tiene, ellacomo individuo, un mayor riesgo de que su hijo resulte con síndrome de Down que una mujerde 25 años de edad que se embaraza; pero no podemos decir que tiene una probabilidaddada, ella como individuo, de tener un hijo con el síndrome, pues esta sólo se aplica a unconjunto de mujeres con las mismas características.

Debe considerarse que la frecuencia con que se presente un resultado tiende a variar, tantocon cada serie de observaciones (de una serie a otra), como dentro de una misma serieconforme aumenta el número de las observaciones. Pero al incrementase el número de series(de pruebas o de experimentos) la probabilidad tiende a estabilizarse.

El cálculo de la probabilidad, basado en esta idea de la observación de frecuencias, nosiempre es posible o deseable dado que requiere de pruebas repetidas de un mismofenómeno. Por ello, se desarrollaron distintos modelos matemáticos para estimar laprobabilidad.

Cuando la probabilidad no puede ser derivada de modelos matemáticos, se recurre a lasfacilidades que brindan los actuales recursos electrónicos, llevando a cabo experimentossimulados, los cuales pueden repetirse en múltiples ocasiones. Estas simulaciones producenresultados aleatorios, por lo que se les conoce como "simulaciones Monte Carlo", nombretomado del famoso casino en Mónaco. Esta simulación, en su forma más simple estáejemplificada por el uso de los números aleatorios, como se verá en el capítulo 4.

Dentro de las probabilidades, tenemos dos tipos: las condicionales y las independientes. Sudistinción es importante, ya que las reglas para su cálculo y su importancia para el análisisestadístico son distintas en cada caso.

La probabilidad condicional es aquella en la que se define la probabilidad de que ocurra unresultado B dado que un resultado A ya ha ocurrido. Por ejemplo, si en una muestra de 27pacientes, de los cuales 7 son hombres (ejemplo 1.1), la probabilidad de que el primeroescogido sea hombre es de 7/27 o 0.26, pero la probabilidad de que el segundo también seahombre es de 6/26 o 0.23 siendo la pregunta: ¿cuál es la probabilidad de que en esta muestrael segundo seleccionado sea hombre, dado que el primero fue hombre?

Por su parte, en la probabilidad independiente, la distribución de probabilidades de unavariable es la misma para todos los valores de otra variable. Por ejemplo, la probabilidad depadecer psoriasis es independiente del sexo de los pacientes. Este es el tipo de probabilidadcon el que se trabajará en este manual.

Page 46: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

41

3.2. DISTRIBUCIÓN BINOMIAL.Si en una población de familias, cada una de ellas con dos hijos, estudiáramos la probabilidadde que esos hijos fueran de uno u otro sexo, podríamos encontrar los siguientes casosposibles:

1 Hijo 2º Hijoer

m m

m f

f m

f f

m: masculinof: femenino

donde la probabilidad de que un hijo cualquiera sea del sexo masculino es p(m) = 0.5(aunque esto no es totalmente cierto, pues se sabe que nacen más hombres que mujeres, enuna razón aproximada de 103 a 105 hombres por cada 100 mujeres y que mueren máshombres que mujeres, pero se tomará así con fines de ilustración del tema), y en consecuen-cia, la probabilidad de que sea del sexo femenino es p(f) = 0.5. De esa distribución se puedeconstruir una distribución de probabilidades en la que:

- la probabilidad de que los dos hijos sean varones es de ¼ (1 de los 4 posibles resultados),o sea 0.25;- de que ambas sean mujeres es también de ¼ (o 0.25); y- de que sean de distinto sexo, sin importar el orden, es de ½ (o 0.5).

Lo que hace un total de 1 (o 100 por ciento, la probabilidad total):

1 Hijo 2º Hijo Probabilidader

m m ¼ ¼ 0.25

m f ¼½ 0.5

f m ¼

f f ¼ ¼ 0.25

Total 1 1 1

Nótese que dentro de una familia en particular, el sexo de los hijos no necesariamente esindependiente, es decir, existen familias en las que predominan los hijos hombres y otras en

Page 47: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

42

las que predominan las hijas mujeres. Pero en la población de familias (en una larga serie deobservaciones) se verá una tendencia al equilibrio.

La probabilidad de que ambos sean varones, p(m,m), resulta de multiplicar la probabilidadde cada uno:

p(m,m) = p(m) * p(m) = 0.5 * 0.5 = 0.25

y lo mismo cabe para los otros casos, por lo que la distribución de probabilidad sería:

p(m)p(m) + p(m)p(f) + p(f)p(m) + p(f)p(f)

es decir:

p(m)² + 2p(m)p(f) + p(f)² = 1

y si representamos a p(m) como p y a p(f) como q entonces:

p² + 2pq + q² = 1

lo que es igual a:

(p + q) = 12

Si se tratase de familias cada una con tres hijos, tendríamos la siguiente distribución:

1 Hijo 2º Hijo 3 Hijo Probabilidader er

m m m 37468 37468 0.125

m m f 37468

m f m 37468 37470 0.375

f m m 37468

m f f 37468

f m f 37468 37470 0.375

f f m 37468

f f f 37468 37468 0.125

Page 48: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

43

Total 1 1 1

donde tendríamos:

p(m) + 3p(m)²p(f) + 3p(m)p(f)² + p(f) = 13 3

es decir:

p + 3p²q + 3pq² + q = 13 3

lo que es igual a:

(p + q) = 13

De esta manera, podríamos seguir definiendo las probabilidades de ocurrencia para cualquierfenómeno (variables cualitativas y variables discontinuas) de cualquier magnitud.

Se debe notar que cualquier expresión del binomio (p + q) es siempre igual a 1, esto es:

(P + Q) = 1N

lo que representa la probabilidad total.

Cuando el valor de n crece, esta forma de cálculo resulta, por supuesto, inapropiada puestoque el número de resultados posibles es cada vez más grande. En tales circunstancias se utilizael siguiente modelo:

L

Donde p(r) es la probabilidad de que se presenten r resultados con la característica de interés.n! es el factorial de n.B es la probabilidad previamente definida.

Así, por ejemplo, la probabilidad de que en familias de 3 hijos (n = 3), encontremos familiasen que 2 de ellos sean del sexo masculino (r = 2), sin importar el orden en que se presentan,siendo que la probabilidad de que un hijo cualquiera sea del sexo masculino es de 0.5 (B =0.5), es:

n! = 3! = 3*2*1 = 6

Page 49: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

44

r! = 2! = 2*1 = 2

(n-r)! = (3-2)! = 1! = 1

2 * 1 0.5 * 0.5p(m,m,f) = 2 3-2_____ 6

p(m,m,f) = 3 * 0.25 * 0.5 = 0.375

el mismo resultado que observamos en el cuadro arriba.

Esta distribución de probabilidades, propuesta alrededor del siglo XVII, originalmente fueideada para dar cuenta de sucesos como eran las oportunidades de tener éxito en los juegosde azar; de aquí viene la tan arraigada costumbre de que en muchos libros de estadística sele ilustre con ejemplos de ésa clase (juegos de dados, de baraja, etc.). En realidad, susfundamentos matemáticos son mucho más complejos que lo presentado aquí, peroconsideramos que con esto se puede tener una idea suficiente para los propósitos de estemanual.

3.3. DISTRIBUCIÓN NORMAL.La distribución normal (originalmente desarrollada por Abraham de Moivre (1667 - 1754) ypublicada por él mismo en 1733) es una distribución de probabilidades que se desarrolló conpropósitos menos triviales que la binomial. En realidad, es un modelo matemático de algunasdistribuciones encontradas en la observación de distintos fenómenos; es entonces un modeloinductivo. Como todo modelo, constituye una representación idealizada de la realidad, porlo que en la práctica no encontraremos nunca un grupo de observaciones que lo siganexactamente, pero si lo observado es de alguna manera parecido a lo teórico, entonces sejustifica su utilización (véase la gráfica 3.1).

Gráfica 3.1.

Como características generales de la distribución normal, podemos señalar las siguientes:a) Es una distribución de probabilidades de una variable continua, que generalmente serepresenta por la letra x. En la escala de medición de este tipo de variables, resulta inútilseñalar la probabilidad para un punto preciso de la escala (por ejemplo, la probabilidad de

Page 50: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

45

encontrar individuos con una talla de exactamente 172 cm en una población dada, esprácticamente nula, ya que el número de valores posibles entre dos puntos de una escalacontinua es infinito), más bien se habla de la probabilidad referida a un intervalo de esaescala (por ejemplo, la probabilidad de encontrar individuos con una talla entre 170 y 174cm).b) La curva de la distribución normal tiene forma de campana, con altura máxima en elvalor correspondiente a µ (véase la gráfica 3.2).c) La curva de la distribución normal es simétrica alrededor de µ y por lo tanto, la mediaaritmética la divide en dos partes iguales. Por esa misma razón, en la curva normal lamedia, la mediana y la moda tienen el mismo valor (véase la gráfica 3.2).d) Siendo una distribución de probabilidades, el área total bajo la curva representa a laprobabilidad total (la cual es igual a 1), por lo que la media, al dividir la distribución en dospartes iguales, deja dos áreas con valor de 0.5 a cada lado de ella. Sin embargo la curvaes asintótica, por lo cual nunca se puede determinar la probabilidad absoluta (véase lagráfica 3.2).

Gráfica 3.2.

e) La probabilidad (área bajo la curva) entre los límites del intervalo definido por:µ ± 1F contiene al 0.68 (68 por ciento) del área bajo la curva;µ ± 1.96F contiene al 0.95 (95 por ciento) del área bajo la curva; yµ ± 2.58F contiene al 0.99 (99 por ciento) de área bajo la curva (véasela gráfica 3.3).

Page 51: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

46

Gráfica 3.3.

Estos valores han sido definidos a través de cálculo integral. Debe recordarse que en elcapítulo anterior se dieron unos valores aproximados, que pueden ser utilizados enestimaciones rápidas, sin embargo, los que ahora mostramos son los que se usan para lapresentación de resultados y su análisis.

f) La curva de distribución normal está determinada por dos valores: µ y F (véase la gráfica3.4). La media define el lugar que ocupa una distribución en la escala, es decir, almodificarse la media se modifica la posición de la distribución en la escala, por ello tambiénse le conoce como medida de posición; mientras que la desviación estándar determina elgrado de apuntamiento, llamado curtosis, que tenga una distribución.

Gráfica 3.4.

Page 52: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

47

Aquí se puede ver que al variar la F, el grado de apuntamiento o curtosis se modifica: si la

1F es pequeña, como en F , quiere decir que los valores de las observaciones tienden aparecerse entre sí (son homogéneos y están cerca de la media) y la curva se vuelve muyapuntada, es decir, leptocúrtica; pero si los valores son muy distintos entre sí (heterogéneos,

3alejados de la media), como con F , la curva se aplana y se vuelve platocúrtica. La curva

2normal (F ) queda enmedio de las otras dos y se le conoce como mesocúrtica.

Además, se observa que las tres distribuciones son muy distintas unas de las otras, auncuando tienen la misma media, por lo que podemos concluir que para la correctadescripción de una distribución siempre deberán referirse tanto las medidas de tendenciacentral como las de dispersión.

Para saber si la aplicación de la distribución normal es adecuada para una distribuciónobservada, se necesita conocer la curtosis y el sesgo (grado de asimetría) de esta última. Enla actualidad, con los programas de computadora disponibles, es fácil obtener estasmediciones y determinar si lo observado se aleja o no de manera considerable de unadistribución normal. Diferencias importantes impiden que se lleven a cabo análisis másavanzados, como se verá en capítulos posteriores.

g) La distribución normal está descrita por:

L

Donde y es el valor que toma el eje de las ordenadas.n: número de observacionesB: 3.14159...exp: es el número e (2.71828...), base de los logaritmos naturales (ln) elevado a la potencia señalada.x: valor de una observación sobre el eje de las abscisas.µ: media aritmética de la distribución.F : varianza de la distribución.2

En siglos anteriores, este modelo debía ser aplicado para "normalizar" las observaciones yobtener los valores de la probabilidad (área bajo la curva) para la observación de un suceso.En un inicio (siglo XVIII), esto resultaba ser un problema de considerable magnitud, pues paracada tamaño de muestra (n) y para cada valor de la variable (x) había que realizar lasoperaciones necesarias; y si por acaso se modificaba, aunque fuera un poco, el tamaño de lamuestra o alguno de los valores, lo hecho anteriormente ya no era útil (en la actualidad losmedios electrónicos lo han resuelto por completo). Se pensó entonces en construir unadistribución modelo que pudiera ser aplicada en todos los casos: esta es la distribución normalestándar, en la cual se trata de determinar la distribución de una variable imaginaria,

Page 53: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

48

identificada como z, en lugar de la variable observada x, y que siempre tiene una µ = 0 y unaF = 1. Con esto se simplificó considerablemente el modelo anterior, y se pudo definir laprobabilidad bajo la curva para cada valor de z (véase la tabla 1 del Apéndice).

El razonamiento de lo anterior consiste en lo siguiente:a) Se imaginaron una distribución normal en la cual la media (µ) siempre es igual a 0, y ladesviación estándar es igual a 1. La media sería 0 porque, habiendo valores de la variablemayores que ella, las diferencias de aquéllos con respecto a ésta resultarían positivas,mientras que las diferencias de los valores menores que la media serían negativas; así, lamedia estaría en el origen de los ejes, cuyo valor es 0. Por otro lado, una desviaciónestándar igual a 1 simplificaría cualquier operación.b) En el modelo de la distribución normal arriba descrito, hicieron las sustitucionescorrespondientes (como F = 1, entonces también F = 1, por lo que no tenía caso2

conservarla en la ecuación; como la µ = 0, también se omitió).

c) Pero como los valores de n podían cambiar, el problema persistía, por lo que pensaronen algún valor que pudiera ser de aplicación general. Este valor era el área total bajo lacurva, la probabilidad total, es decir, 1.

d) Pero como ya no se trataba de la distribución de una variable observada, sino de unadistribución imaginaria, ya no se estaba hablando de la variable x, por lo que le dieron otronombre: z.

L

e) Una vez hecho lo anterior, se determinó el área bajo la curva para distintos intervalos dela distribución de esta variable imaginaria z (véase la tabla 1 del Apéndice).f) Ahora que ya se tenía una distribución (distribución normal estándar, de naturalezateórica), cuyas áreas bajo la curva (probabilidades), para distintos intervalos, eranconocidas, sólo restaba aplicarla a cualquier distribución empírica, observada. Pero lapregunta es ¿cómo se puede lograr esto?g) Hay que tomar en cuenta que la variable z está expresada en unidades de desviaciónestándar, pues si F = 1, entonces cuando z = 1= F. En otras palabras, z expresa elalejamiento, la diferencia con respecto a µ en unidades de desviación estándar. Por

Page 54: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

49

consiguiente, si tomamos la diferencia de alguna observación x con respecto a µ, y si estadiferencia la relacionamos con F podremos ver qué distancia hay de x respecto a µ enunidades de F , es decir, en valores de z.

L

Así, se hizo el trabajo una única vez y para siempre: la probabilidad entre dos valores

1 2 1 2observados (x , x ) puede encontrarse por la probabilidad entre z y z (véase el ejemplo 3.1).No es extraño que se desconozcan los valores de µ y de F por lo que en su lugar deberánusarse los de la muestra.

3.4. APROXIMACIÓN DE LA DISTRIBUCIÓN BINOMIAL A LA NORMAL.En el caso de la distribución de probabilidades en cuanto al sexo de los hijos en familias dedos o tres, se obtuvieron los siguientes resultados (inciso 3.2), donde p(m=r) es la probabilidadde tener r hijos del sexo masculino:

n=2p=0.5

p

p(m=0) 0.25

p(m=1) 0.5

p(m=2) 0.25

Total 1

n=3p=0.5

p

p(m=0) 0.125

p(m=1) 0.375

p(m=2) 0.375

p(m=3) 0.125

Total 1

Si esto se representa en histogramas, en la primera situación se observarían tres rectángulosy en la segunda cuatro. Sin embargo, el área total contenida en ellos es la misma: 1, o sea laprobabilidad total:

Page 55: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

50

Si tomásemos familias con cinco hijos, el número de rectángulos (de posibles resultados) serámayor (y cada vez mas estrechos) pero contienen, al sumarlos, la misma probabilidad total:

n=5p=0.5

p

p(m=0) 0.0313

p(m=1) 0.15625

p(m=2) 0.3125

p(m=3) 0.3125

p(m=4) 0.15625

p(m=5) 0.0313

Total 1

Page 56: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

51

Con familias de 8, la distribución de probabilidades tendría aún una mayor cantidad derectángulos, cada vez más estrechos, pues la probabilidad total, siempre igual a 1, debedistribuírse en cada ocasión en una mayor cantidad de resultados posibles:

n=8p=0.5

p

p(m=0) 0.004

p(m=1) 0.0313

p(m=2) 0.10937

p(m=3) 0.21875

p(m=4) 0.27344

p(m=5) 0.21875

p(m=6) 0.10937

p(m=7) 0.0313

p(m=8) 0.004

Total 1

En otros fenómenos el número de posibles sucesos (n) puede ser más grande. Si la cantidadde ocurrencias posibles es grande, la distribución binomial va tomando una forma parecidaa la distribución normal, entre mayor sea n más semejante será aquella a esta, pero nuncallegará a ser continua. Sin embargo, podemos aplicar lo que sabemos de la normal a labinomial.

Page 57: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

52

Las probabilidades extremas no se observan en la gráfica por ser muy pequeñas.

Debido a esta característica de la distribución binomial, y para evitar el cálculo complejo deprobabilidades que suponía, antes del uso generalizado de los instrumentos electrónicos, seha utilizado lo que se conoce como aproximación de la distribución binomial a la normal, através de la cual se obtiene la puntuación z para conocer la probabilidad de un sucesobinomial, donde:

Nótese que r hace las veces de x, y nB las de la media, mientras que el denominador es ladesviación estándar (véase el capítulo 2). Después de lo cual, usando la tabla 1 del Apéndicepodemos encontrar la probabilidad correspondiente.

Sin embargo, es necesario echar mano de lo que se conoce como corrección por continuidad,dado que estamos tratando una variable cualitativa, o una discontinua, con un modelo paravariables continuas pues, de no hacerlo, las estimaciones tendrán un considerable margen deerror:

L

en ocasiones, en lugar de B se utiliza el valor de p (cuando tratamos con muestras).

Page 58: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

53

Como ejemplo de la aproximación, véase que si se utiliza la distribución binomial en el casode las familias con 8 hijos, la probabilidad de que 6 o más sean varones es igual a 0.14452(usando la distribución binomial), si obtenemos el valor de z, entonces:

Z = [(6-0.5) - (8*0.5)] / /(8*0.5*0.5) = 1.06

lo que de acuerdo a la tabla 1, significa que el área bajo la curva por encima del valor de z =1.06, es igual a 0.1446, lo que resulta prácticamente igual a lo obtenido con la distribuciónbinomial. En la actualidad, con los medios electrónicos disponibles, este tipo de conversionesno son necesarias para el cálculo de probabilidades, pero es conveniente tenerlas en menteporque se utilizan para análisis que posteriormente se abordarán y que no permite hacer ladistribución binomial.

Dos requisitos son indispensables para aplicar esta aproximación:a) El número de observaciones (n) debe ser grande.b) La proporción estudiada debe estar cercana a 0.5, ya que de no ser así la distribuciónbinomial deja de ser simétrica y se aleja de la normal. Véase el caso cuando p = 0.3:

n=7p=0.3

p

p(7) 0.00022

p(6) 0.00357

p(5) 0.025

p(4) 0.09724

p(3) 0.22689

p(2) 0.31765

p(1) 0.24706

p(0) 0.08235

Total 1

En este caso, la probabilidad de que cuatro o más individuos tengan la característica buscadasería igual a 0.1260, de acuerdo a la distribución binomial. Mientras que si utilizamos laaproximación, tendremos que z = 1.15, y la probabilidad resultante es igual a 0.1251, con uncierto margen de error, debido a que la distribución pierde la simetría (está sesgada), quepuede ser importante de acuerdo al problema de que se trate en la realidad, pero que serámayor conforme p se aleja de 0.5.

Page 59: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

54

En la gráfica siguiente se tienen cuatro distribuciones, basadas en distintas probabilidades (0.1,0.5, 0.7 y 0.9). Puede verse que cuando p = 0.5, la distribución es simétrica, pero almodificarse la probabilidad, las distribuciones empiezan a presentar un sesgo, el cual es mayorconforme la probabilidad se aleja más de 0.5 (si la probabilidad es menor que 0.5, el sesgo sehace positivo, si es mayor, el sesgo es negativo).

Las probabilidades extremas no se observan en la gráfica por ser demasiado pequeñas.

Page 60: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

55

Ejemplo 3.1: Determinación del área bajo la curva (probabilidad).

INFORMACIÓN

En un grupo de pacientes que habían sufrido infarto al miocardio se encontró, después de surecuperación y de un tratamiento especial seguido durante 3 años, que su presión sistólicamedia era de 136.0 mmHg, con una desviación estándar de 23.6 mmHg.

¿Qué proporción de estos pacientes esperaría encontrar cona) una presión sistólica menor que 120 mmHg?b) una presión sistólica mayor que 160 mmHg?c) una presión sistólica menor que 145 mmHg?d) una presión sistólica entre 100 y 110 mmHg? e) ¿Por encima de qué nivel de presión sistólica estaría el 2.3% de pacientes con presiónmas alta?

PROCEDIMIENTO

1. Identifique los datos básicos:0 = 136.0 mmHgs = 23.6 mmHg

2. Encuentre las áreas pedidas:para esto, hay que convertir los valores de la variable observada (x) en valores de la variablez.

a) En este caso x = 120, por lo que

z = (120 - 136) / 23.6

= -16 / 23.6

= -0.68

b) En este caso x = 150, por lo que

z = (160 - 136) / 23.6

= 24 / 23.6

= 1.02

Page 61: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

56

N.B.: el signo negativo o positivo de z indica solamente el lado de la curva en el cual se estátrabajando; si es negativo, el valor se encuentra a la izquierda de la media (el valor en cuestiónes menor que la media), si es positivo, a la derecha (es mayor que la media). Como la curvaes simétrica, la tabla 1 del apéndice únicamente muestra los valores positivos.

3. Encuentre el Área Bajo la Curva que está entre el Valor de y de z:en la primera columna de la tabla 1 del apéndice se muestran, encabezados por la letra z , losvalores enteros y el primer decimal, las otras columnas (0 a 9) corresponden al segundodecimal de z (generalmente, z sólo para dos decimales.

a) si z = -0.68, se busca en la primera columna de la tabla el valor 0.6, en esa fila se buscael valor correspondiente a la columna encabezada por el número 8 (segundo decimal dez. La tabla nos muestra que el área bajo la curva que está entre µ = 0 y z = 0.68 equivalea 0.2518 (o al 25.18% del total del área bajo la curva).

Gráfica A

Sin embargo, lo que interesa es el área que se encuentra por debajo de z = -0.68, es decir,la proporción de los pacientes con una presión sistólica menor que 120 mmHg:

Gráfica B

Page 62: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

57

Entonces, si se sabe que el área a cada lado de la media es igual a 0.5 (o al 50%):

Gráfica C

simplemente se resta a este último valor el área obtenida en la tabla:

área buscada = 0.5 - 0.2518

= 0.2482

La respuesta es que la proporción de individuos que se espera encontrar con una presiónsistólica menor que 120 mmHg es 0.2482 o 24.82%.

b) Si z = 1.02, el procedimiento que se sigue es el mismo. Se busca en la tabla la fila dondez = 1.0 y luego el valor indicado en esa misma fila para la columna encabezada por elnúmero 2. La tabla indica que el valor del área bajo la curva entre µ = 0 y z = 1.02 es0.3461:

Gráfica D

Pero lo que interesa es el valor del área por encima de z = 1.02, es decir, la proporción delos pacientes con una presión sistólica mayor que 160 mmHg:

Page 63: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

58

Gráfica E

y al igual que anteriormente:

z = 0.5 - 0.3461

= 0.1539

La respuesta es que la proporción de pacientes que se puede esperar encontrar con unapresión sistólica mayor que 160 mmHg es 0.1539 o 15.39%.

c) Encuentre las respuestas a las otras preguntas. En la última, note que se debe procederen sentido inverso (primero, encontrar el valor de z y después el de x, que es la interrogan-te.

Ejemplo 3.2: Aproximación de la Distribución Binomial a la Normal.

INFORMACIÓN

En 65 pacientes tratados con warfarina (anticoagulante que se utiliza para prevenirtromboembolias), se produjeron hemorragias graves. En 24 de ellos, estas fueron gastrointesti-nales. Suponiendo que esta proporción pueda tomarse como referencia para otros casos, ¿cuáles la probabilidad de que en una muestra de 100 pacientes con hemorragia grave debida altratamiento con warfarina, sufran de hemorragia gastrointestinal?

PROCEDIMIENTO

1. Identifique la información básica:n = 100 pacientes tratados con warfarina y que sufren hemorragias graves

Page 64: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

59

r = 40 pacientes de los anteriores que sufren hemorragia gastrointestinalB = 24/65 = 0.3692, proporción obtenida en el estudio mencionado, y que se toma comoreferencia

2. Obtenga el valor correspondiente de z:

z = [(r-0.5) - (nB)] / /[nB (1-B)]

por lo tanto

z = (40-0.5)(100*0.3692) / /[100*0.3692*0.6308]

= 2.58 / /23.289

= 2.58 / 4.8259

= 0.53

3. Busque la correspondiente área bajo la curva:En la tabla 1, tenemos que el valor del área desde la media hasta z = 0.53 es: 0.2019.

Como el área que se pide es la que queda por encima de este valor, entonces: 1 - 0.2019 =0.7981, por lo que se concluye que de estos 100 pacientes, se puede esperar que 79.81 porciento tengan hemorragia grave gastrointestinal.

Page 65: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

60

CAPÍTULO 4: MUESTREO Y DISTRIBUCIONES DE MUESTRAS

4.1. POBLACIÓN Y MUESTRA.En estadística, la población es un agregado o conjunto de observaciones que poseen ciertascaracterísticas en común, definidas de acuerdo a los intereses de una investigación. Esteconcepto de población se diferencia del que se tiene en la epidemiología o en la demografía,en las cuales se habla de conjuntos de personas. En el lenguaje estadístico, la población puedeser referida a individuos, pero también a agregados de ellos (por ejemplo, una población defamilias o una población de localidades), o a agregados de características (por ejemplo, unapoblación de presiones arteriales o una población de retinas).

Cuando la investigación incluye el estudio de toda la población se habla de un censo; siúnicamente se escoge una parte (n) se hace referencia a una muestra. El objetivo de estaúltima no es, como en ocasiones se cree, conocer lo que sucede en la muestra misma, sinoobtener información que posteriormente pueda ser generalizada a la población de la cual esamuestra procede. Esto se conoce como estadística inferencial.

Debido a que al tomar una muestra se estudia sólo parte de la población, las conclusiones quede ella se obtengan siempre tendrán un grado de error; entonces, ¿por qué llevar a cabo unmuestreo y no un censo?:

a) porque con frecuencia se trabaja con poblaciones infinitas y por lo tanto no es posiblellevar a cabo un censo, puesto que la población siempre estará cambiando y enconsecuencia no se podrá determinar el número total de sus elementos. Ejemplo de ellases el grupo de pacientes que requiere de un tratamiento particular, porque siempre habráaquellos que dejen de necesitar el tratamiento (ya sea porque se curaron o porquefallecieron) y otros que ingresan al grupo porque han adquirido la enfermedad;b) porque al trabajar con una población finita (aquella en la cual el número de elementospuede ser definido) esta resulta demasiado grande o bien se desea ahorrar trabajo, tiempoy costos.c) o bien, aunque en ocasiones se está en capacidad para levantar un censo y se cuenta conlos recursos suficientes, al tomar una muestra parte de esos recursos puede ser mejoraprovechada en la indagación de otros problemas o en ahondar en ciertos aspectos delasunto central.

En cualquier caso, al tomar una muestra tenemos las siguientes:a) Ventajas: ahorro en trabajo, tiempo y costos; capacidad para entrenar a un númeroconveniente de observadores bien calificados que recaben los datos de manera másconfiable.b) Desventajas: se pierde precisión. En realidad lo que hacemos es reemplazar unaafirmación absoluta con respecto a la población por una aproximación (el términoestadístico es estimación).

Page 66: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

61

Al obtener una muestra, se desea conocer una de dos cosas:a) el valor medio (µ) de alguna medida, ob) la proporción (B) de la población con alguna característica.

Pero, como se dijo arriba, ya que sólo se ha estudiado a una parte de la población y no a todaella, las estimaciones tendrán un grado de error.

En otras palabras, nunca se podrá esperar que las estimaciones muestrales sean iguales a losvalores reales, o parámetros, en la población (0 =/ µ; p =/ B), si acaso serán aproximadamenteiguales. De hecho, si los valores obtenidos a partir de una muestra fuesen los mismos que losde la población, no lo sabríamos, pues desconocemos estos últimos, lo cual es el motivo delestudio.

Es importante reconocer que al tomar una muestra pueden existir dos tipos de errores:a) El error aleatorio (error de muestreo, error experimental) que surge debido al hechomismo de que estamos observando precisamente a una parte de la población y no al total.Este tipo de error tiene dos importantes características: conforme aumenta el tamaño de lamuestra (n), el error disminuye (en un censo no hay error de muestreo); y además puedeser medido.b) El error no aleatorio (error sistemático), que se debe a la introducción de sesgos en laselección de la muestra, el cual constituye un descuido o una tendencia por parte delobservador, aunque también se puede deber al sujeto observado. Este tipo de error nodisminuye al aumentar el tamaño de la muestra (no desaparece ni aun cuando se levantaun censo) y no puede ser medido.

Dadas las características de ambos tipos de error, es importante reducir el primero y saberevitar el segundo. Ello dependerá de la forma en que las unidades muestrales seanseleccionadas. Aquí se tratarán únicamente los aspectos relacionados con el error de muestreo,los errores sistemáticos son motivo de estudio metodológico más que estadístico.

Una de las preocupaciones más frecuentes cuando se toma una muestra, es que esta searepresentativa de la población de la cual procede, esto es, que de alguna manera reflejeadecuadamente las características de la población. Algunos autores prefieren no referirse a estetérmino por las dificultades implícitas que plantea. En todo caso la única manera de "asegurarla representatividad" consiste en la toma de una muestra aleatoria. Es decir, lo importante enel muestreo es la forma en que se ha llevado a cabo.

La selección aleatoria se basa en que cada una de las unidades muestrales tiene la mismaoportunidad de ser elegida. Para ello, antiguamente se utilizaban las tablas de númerosaleatorios que aún contienen los libros de estadística (véase la tabla 2 del Apéndice);actualmente es fácil auxiliarse de distintos recursos electrónicos como son las calculadorascientíficas de bolsillo o distintos programas de cómputo.

Page 67: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

62

El uso de esta tabla es sencillo: en primer lugar se decide la cantidad de dígitos que han deformar los números que se seleccionarán; por ejemplo, si la población de la cual se ha deextraer la muestra está constituida por 500 elementos, se requiere de tres dígitos, por lo quese numerarán desde 001 hasta 500; se decide de antemano el sentido en el que se ha de leerla tabla (de izquierda a derecha, de derecha a izquierda, de abajo hacia arriba, o cualquiercombinación que se desee); se escoge al azar el punto de inicio en la tabla y se procede aseleccionar los números.

Con instrumentos del tipo de las calculadoras científicas de bolsillo se siguen los mismosprincipios. Por lo general, estas calculadoras tienen una tecla ("random" o algo similar) queproduce números en el formato de tres decimales. Tales números son "semialeatorios" puesson producidos a partir de un número "semilla". De cualquier forma, es necesario definir deantemano cómo habrán de ser utilizados los resultados. Algunos programas de cómputo, comoExcel ©, pueden producir números aleatorios con una amplia variedad de controles por partedel usuario.

Como alternativa a la selección aleatoria existe la selección regulada, donde el investigadorescoge unidades muestrales típicas del fenómeno estudiado. Este tipo de muestra, aunque enocasiones proporciona resultados más precisos en el estudio de ciertos fenómenos (porejemplo, alguna enfermedad) tiene la desventaja de que no permite medir el error demuestreo, no permite hacer estudios comparativos y está sujeta a la posibilidad de sesgos muyimportantes.

Otro tipo de selección es la sistemática, en donde se toman las unidades muestrales que seencuentran a cada determinado número de elementos que integran el universo (por ejemplo,cada tercer paciente). Esto puede hacerse únicamente si el número de elementos selecciona-dos es grande y la homogeneidad entre ellos no es importante para el estudio. Además, sepuede "aleatorizar" al dejar al azar el número que resulte como punto de partida.

En lo subsecuente se supone que se hablará siempre de muestras aleatorias las cuales,además, pueden ser de diferentes tipos: simples, estratificadas, proporcionales, etc. Aquí sesupondrá que hablamos siempre de las muestras aleatorias simples.

4.2. DISTRIBUCIONES MUESTRALES.Cuando se toma una muestra aleatoria de tamaño n y calculamos su media 0, se sabe quedebido al error de muestreo ésta será diferente de la verdadera media µ. Entonces, interesasaber qué tan diferente es; en otras palabras, interesa conocer cuál es la magnitud del errorde estimación. Por supuesto nunca se podrá conocer exactamente dado que se ignora el valorde µ (pues si se conociese no tendría objeto hacer la investigación).

Suponiendo que se toman muchas muestras (i muestras) todas del mismo tamaño n y de la

imisma población, se pueden obtener entonces sus respectivas medias 0 . Si estas resultan ser

isimilares entre sí, se puede decir que el error de muestreo es pequeño. Si las 0 difieren

Page 68: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

63

ampliamente, el error sería grande. ¿De qué depende entonces la magnitud del error?Fundamentalmente de dos aspectos:

a) Como se vio anteriormente, el error de muestreo será menor conforme el tamaño de lamuestra aumente, de tal manera que en un censo completo no existe error de muestreo.b) Pero además, dependerá de la variabilidad (dispersión) de los valores en la poblaciónestudiada. Una población heterogénea (con F grande) dará un error de muestreo mayor2

que una población homogénea (con F pequeña); esto es resultado de que, en el primer2

caso, los valores seleccionados para la muestra tenderán a estar más cercanos a µ.

De esta manera, el error de muestreo será el resultado de la relación entre dos factores: eltamaño de la muestra y la variabilidad de las observaciones, y esto se puede expresar comosigue:

En esta relación se puede ver que el resultado aumenta si aumenta la varianza y disminuyesi aumenta el tamaño de la muestra.

iSi, de acuerdo a la suposición de párrafos anteriores, se obtuviesen diferentes medias 0 (todascon el mismo tamaño) y se observase su distribución, se podrían advertir las siguientescaracterísticas:

ia) La distribución de las 0 tiende a ser normal aún cuando la distribución de la variableoriginal que está bajo estudio no lo sea (teorema del límite central; gráfica 4.1).

ib) La media de la distribución de las 0 es la misma que la media de la variable original enla población, o sea µ (gráfica 4.1).

ic) La varianza de la distribución de las 0 es F /n.2

d) La desviación estándar es la raíz cuadrada de la varianza, y se le denomina errorestándar de la media (EE0):

o más comúnmente:

L EE0 =

el cual representa la magnitud del error de muestreo.

Page 69: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

64

Gráfica 4.1.

Nótese que si n aumenta el EE0 disminuye y si F aumenta el EE0 aumenta y viceversa.

Por lo general, como el valor de F se desconoce, deberá ser substituido por el valor de lamuestra (s):

L EE0 =

iPor último, si la distribución de las 0 tiende a ser una distribución normal, entonces podemosaplicar las propiedades de ésta a la distribución de las medias muestrales. Esto significa queel intervalo definido por:

µ ± 1.96 EE0 incluye al 95% de las medias muestrales

similar al intervalo definido por:

µ ± 1.96 F que incluye al 95% de las observaciones (véase el capítulo 3; gráfica 4.2).

Gráfica 4.2.

Page 70: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

65

Se puede definir el intervalo correspondiente para el 99 por ciento:

µ ± 2.58 EE0 incluye al 99% de las medias muestrales

Para el caso de las variables binomiales tenemos que:

o más comúnmente:

L

Por lo general, como los valores de B se desconocen, deberán ser sustituídos por el valor dela muestra (p):

L

4.3. INTERVALOS DE CONFIANZA.Una vez conocida la magnitud del error de muestreo, queda por responder a la pregunta sobrequé tan buen estimador resulta la media de la muestra 0, de la media de la población µ, cuyovalor nos es desconocido. Anteriormente se vio que en una distribución de medias muestrales

i(0 ) el 95 por ciento de ellas caerían dentro del intervalo:

µ ± 1.96 EE0

es decir, existe el 95 por ciento de probabilidad de que el error de estimación no seanuméricamente mayor que 1.96 EE0 o, dicho en otras palabras, confiamos en que la única

imedia observada 0, forme parte de ese conjunto de medias 0 que tienen como media a µ ycomo medida de dispersión al EE0. En la estimación o inferencia científicas se trabaja con esteconcepto probabilístico en el que siempre habrá un grado de incertidumbre pues, en nuestro

iejemplo, un 5 por ciento de las medias 0 caerá por fuera del intervalo 1.96 EE0. Podemos

iconstruir un intervalo dentro del cual caiga el 99 por ciento de las medias 0 , o el 99.9 porciento, o cualquier otro, pero nunca podremos definir un intervalo tal en que la certeza denuestras afirmaciones sea absoluta (recuérdese que la distribución normal es asintótica).

Sin embargo, el problema usual no es el anterior, ya que por lo regular no tomamos muchasmuestras de la misma población. Se pretende que, a través de una sola muestra, podamos

Page 71: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

66

estimar el valor que tiene µ, la cual permanece desconocida y que es el motivo de lainvestigación.

Para lo anterior, dicho en palabras coloquiales, la inferencia científica juega a la lotería, peroen sentido contrario: en la lotería, el jugador desea, o confía, que el número comprado salgapremiado con el premio principal, es decir, busca obtener, por medio del azar, el resultadomenos probable; en la inferencia estadística se desea que la única media 0 forme parte del

iconjunto de medias 0 que caen dentro del intervalo, por ejemplo, del 95 por ciento (µ ± 1.96EE0), en otras palabras, se confía en que no se obtendrá el primer premio, en que el error deestimación no será mayor que 1.96 EE0, y que por lo tanto, el intervalo definido por:

L 0 ± 1.96 EE0

tenga en realidad una probabilidad del 95 por ciento de contener el valor de µ. Este intervaloes llamado intervalo de confianza al nivel del 95 por ciento para la verdadera media de lapoblación y es una medida de la precisión con que 0 estima el valor de µ. Nótese que es elintervalo de confianza el que tiene una probabilidad dada de incluir el valor de µ y que no esµ la que tiene esa probabilidad de caer dentro del intervalo.

Entre más amplio resulte el intervalo al mismo nivel de confianza (por ejemplo 95 por ciento),menor será la precisión con que se está estimando el parámetro de la población y viceversa.Un intervalo muy amplio será de menor utilidad práctica que uno estrecho.

El mismo razonamiento se sigue para las variables binomiales, donde el intervalo de confianzadel 95 por ciento para la verdadera proporción de la población (B) es:

L p ± 1.96 EEp

Por supuesto, se pueden definir otros intervalos a distintos niveles de confianza:

0 ± 2.58 EE0p ± 2.58 EEp

que son los intervalos correspondientes al nivel de confianza del 99 por ciento. Por supuesto,el intervalo del 99 por ciento será más amplio que el del 95 por ciento, con un mismo errorestándar, debido al simple hecho de que se abarca un área mayor bajo la curva (no a que seamenos exacto).

Estos dos intervalos son los más usados en la investigación, pero ello es arbitrario y se puedeutilizar cualquier otro.

Page 72: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

67

Es por medio de estos intervalos que se puede estimar el valor desconocido de un parámetrode la población (µ o B) por medio de una muestra, con una cierta probabilidad de acertar y,en consecuencia, con una cierta probabilidad de equivocarse (que siempre existirá y que enocasiones puede hacerse real, por pequeña que nos parezca; ¡hay quienes obtienen el primerpremio de la lotería!; véanse los ejemplos 4.1 y 4.2).

Page 73: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

68

Ejemplo 4.1: Obtención de un Intervalo de Confianza para la Verdadera Media en unaPoblación.

INFORMACIÓN

En un estudio realizado en una comunidad rural de México, se tomó una muestra de 127individuos, a quienes se les midió el nivel de colesterol sérico. Los resultados arrojaron unamedia (0) igual a 250.16 mg/100 ml y una desviación estándar (S) igual a 48.29 mg/100 ml.Suponiendo que esta muestra fue correctamente tomada y que es representativa de lapoblación de la cual se obtuvo, ¿cuál sería el intervalo de confianza del 95 por ciento paraestimar la verdadera media de la población?

PROCEDIMIENTO

1. Defina los datos básicos:n = 127 individuos0 = 250.16 mg/100 ml por individuos = 48.29 mg/100 ml

2. Obtenga el error estándar:EE0 = s/%n

= 48.29/%127

= 48.29/11.269

= 4.29 mg/100 ml

3. Obtenga el intervalo de confianza del 95 por ciento:0 ± 1.96 EE0

250.16 ± (1.96 * 4.29)

250.16 ± 8.41

es decir, de 241.75 mg/100ml a 258.57 mg/100ml

INTERPRETACIÓN

Page 74: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

69

Con un 95 por ciento de probabilidades de acertar, se puede afirmar que el valor de laverdadera media de colesterol sérico, en la población de la cual fue tomada esta muestra, seencuentra entre 241.75 y 258.57 mg/100ml.

Page 75: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

70

Ejemplo 4.2: Obtención de un Intervalo de Confianza para la Verdadera Proporción en unaPoblación.

INFORMACIÓN

La infección por virus de hepatitis B (VHB) puede tener diferentes consecuencias, como sonla hepatitis aguda, la hepatitis activa crónica, la cirrosis y el carcinoma hepatocelular primario.En los adultos esta infección es responsable de una gran parte de tales enfermedades. En unestudio realizado en Argentina, fueron examinadas 276 personas con hepatitis crónica, de lascuales 174 resultaron positivas al VHB; en otro estudio, llevado a cabo en Chile fueronexaminadas 48 personas con carcinoma hepatocelular, de las cuales 34 resultaron positivaspara el VHB.

Suponiendo que estas fueron muestras seleccionadas al azar, determine:a) el intervalo de confianza del 95por ciento para la verdadera proporción (B) de pacientescon hepatitis crónica VHB positivos en Argentina.b) el intervalo de confianza del 95por ciento para la verdadera proporción (B) de pacientescon carcinoma hepatocelular VHB positivos en Chile.

PROCEDIMIENTO

Para el problema (a):1. Defina los datos básicos:

n = 276 pacientes con hepatitis crónicar = 174 pacientes con hepatitis crónica VHB positivos

2. Obtenga la proporción de la muestra:

p = r / n

= 174 / 276

= 0.6304

3. Obtenga el error estándar:

EEp = %[p(1-p) / n]

= %[0.6304*0.3696 / 276]

Page 76: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

71

= 0.0291

4. Obtenga el Intervalo de Confianza del 95 por ciento:

p ± 1.96 EEp

0.6304 ± (1.96 * 0.0291)

0.6304 ± 0.057

esto es, de 0.5734 hasta 0.6874.

INTERPRETACIÓN

Con un 95 por ciento de probabilidad de acertar (o de confianza), se puede afirmar que laverdadera proporción de pacientes con hepatitis crónica que son VHB positivos se encuentraentre 0.5734 y 0.6874, es decir, entre el 57.34 por ciento y el 68.74 por ciento.

Esto será válido solamente para la población de la cual fue extraída la muestra y en el casode que esta realmente haya sido obtenida por métodos aleatorios.

Obtenga el intervalo de confianza del 99 por ciento.

Obtenga los resultados para el problema (b).

Page 77: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

72

CAPÍTULO 5: CONTRASTE DE HIPÓTESIS

PARA UNA SOLA MUESTRA

5.1. UNA SOLA MEDIA.En ocasiones, al tomar una sola muestra, interesa saber si los resultados obtenidos (0)proceden de una población de la que µ es conocida. Esta situación es común cuando tratamosde ver si, por ejemplo, los enfermos de un padecimiento se diferencian de la población sana(de la cual se supone se conoce su verdadera media) en cuanto a, por ejemplo, un resultadode laboratorio. Por supuesto, en estricto sentido, una población de este tipo sería infinita y enrealidad no podríamos llegar a conocer su verdadera media.

En la realidad, es difícil decir que se conoce F, por lo que hay que utilizar el valor de ladesviación estándar de la muestra (s).

En primer lugar, siempre se pone a prueba una afirmación que se denomina hipótesis nula(Ho) la cual establece que la media 0 en realidad procede de la población con media µ, y quetoda diferencia observada se debe al error de muestreo y no a una verdadera diferencia (esdecir, en este caso la hipótesis nula nos diría que la medición que estamos tomando en losenfermos tiene la misma media que la de la población sana). En otras palabras, la Hoestablece la nulidad de las diferencias entre las dos medias y esto es algo que requiere serprobado. A la prueba que se hace para verificar lo anterior se le llama contraste de hipótesiso prueba de hipótesis.

Una forma de abordar el problema es a través del establecimiento de intervalos de confianza.Si se sabe que el intervalo definido por:

µ ± 1.96

iincluirá al 95 por ciento de las medias 0 (todas del mismo tamaño n; véase el capítulo 4),entonces la probabilidad de que la 0 observada caiga dentro de ese intervalo es igual a 0.95;si en algún caso no es así, se dice que se ha encontrado una diferencia significativa al nivel designificancia del 0.05 o 5 por ciento, lo cual se expresa como:

p < 0.05

donde p se interpreta siempre como la probabilidad de equivocarse al rechazar la hipótesisnula. Es decir, en este caso se rechazaría la Ho con una probabilidad de error menor que 0.05o 5 por ciento. Esto quiere decir que se ha encontrado evidencia de que existe una diferenciaentre 0 y µ.

Page 78: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

73

Si la 0 cae dentro de ese intervalo, entonces no se puede rechazar la Ho a ese nivel designificancia, puesto que su valor está dentro del intervalo en el que caería la mayoría de las

i0 que tienen como verdadera media a µ, y se expresa como:

p > 0.05

lo que indica que la probabilidad de equivocarse al rechazar la Ho es mayor que 0.05 o queel 5 por ciento. Es decir, que no se ha encontrado evidencia de alguna diferencia significativay que la observada entre 0 y µ se debe sólo al error de muestreo.

Debe tenerse presente que una Ho nunca se acepta, pues un resultado negativo nunca esevidencia de nada, es decir, el hecho de que no se observe una diferencia significativa noquiere decir que esta no exista.

Si se desean otros niveles de significancia, se pueden construir los intervalos respectivos, comopor ejemplo:

µ ± 2.58

para el nivel de significancia del 0.01 o 1 por ciento, y los resultados se expresan como:

p < 0.01

o bien como:

p > 0.01

según sea el caso de que se trate de una diferencia significativa o no, respectivamente.

Sin embargo, este procedimiento puede resultar tedioso si hay que comparar la 0 con variosniveles de significancia (por ejemplo, si resulta significativa al nivel de 0.05 y se desea ver sitambién lo es al nivel de 0.01), pues en cada caso se deberá construir el intervalo de confianzarespectivo. Una manera más sencilla de hacer la prueba o contraste consiste en obtener lapuntuación z para la diferencia de las medias, donde:

L

y si el resultado es numéricamente mayor que 1.96 (sin importar el signo), entonces ladiferencia entre 0 y µ es significativa (p < 0.05), como anteriormente. Al mismo tiempo, y sin

Page 79: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

74

necesidad de hacer ninguna otra operación, se puede ver si z es mayor que 2.58 y si es así,la diferencia también será significativa al nivel de 0.01 (p < 0.01).

La interpretación que se puede hacer es igual a lo dicho con respecto a los intervalos deconfianza, cuando z es menor que 1.96 o 2.58 entonces: p > 0.05 o p > 0.01. En el caso deque z sea mayor que 1.96 pero menor que 2.58, entonces:

0.01 < p < 0.05

lo que quiere decir que se ha encontrado diferencia significativa al nivel del 5 por ciento perono al nivel del 1 por ciento. En la actualidad con los medios electrónicos al alcance, es comúnencontrar la probabilidad exacta en expresiones como:

p = 0.038

que equivaldría a 0.01 < p < 0.05.

Es necesario aclarar que los niveles de significancia del 1 por ciento, 5 por ciento o cualquierotro son arbitrarios y dependerán del problema estudiado y de las preferencias delinvestigador establecidas de antemano en el protocolo de investigación.

Por otro lado, debe tenerse en cuenta que "significativo" en estadística, indica que la diferenciano es fácilmente explicada por el azar, esto es, por el error de muestreo, y que entoncesdebería ser explicada de otras maneras (por ejemplo, a través de la influencia de algunavariable que se esté estudiando).

Además, es importante recordar siempre que una diferencia estadísticamente significativa nonecesariamente implica una diferencia importante en términos del fenómeno real estudiado,y que existe la posibilidad de error en las conclusiones (rechazar una Ho cuando en realidadno hay diferencia, o no rechazarla cuando sí la hay). La decisión final acerca de la importanciaque puede tener una diferencia dada, dependerá de criterios distintos a los puramenteestadísticos (véase el ejemplo 5.1).

Debemos insistir en que nuestras conclusiones, basadas en principios probabilísticos, siemprecontienen la posibilidad de resultar erróneas.

5.2. UNA SOLA PROPORCIÓN.En el caso de las proporciones, la comparación que se hace es la siguiente:

L

Page 80: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

75

o su equivalente:

L

las dos fórmulas dan los mismos resultados los cuales, de acuerdo a la magnitud de z, seinterpretan de la misma manera que para el caso de las medias (véase el ejemplo 5.2).

Page 81: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

76

Ejemplo 5.1: Contraste de Hipótesis para Una Sola Media

INFORMACIÓN

La infección por microorganismos provoca una compleja respuesta en el hospedero, la cualpuede incluir alteraciones en el metabolismo intermedio. Entre otras cosas, se puede produciruna disminución en los procesos de remoción de lipoproteínas circulantes, a la vez que unincremento en la síntesis hepática de lípidos. Se piensa que estas alteraciones son producidaspor las citoquinas liberadas durante la respuesta inmune. Por estos motivos, se ha sugeridoque puede existir una asociación entre el síndrome de inmunodeficiencia adquirida (SIDA) ylos niveles elevados de triglicéridos en la sangre.

En un estudio en el que se analizaron estos niveles, en 32 pacientes con SIDA, se encontró unamedia de 231 mg/dl. Si en la población normal el nivel promedio es de 91 mg/dl, con unadesviación estándar de 41.23 mg/dl, ¿existe evidencia de que la hipertrigliceridemia puedeconsiderarse como una manifestación del SIDA?

PROCEDIMIENTO

1. Identifique la información básica:µ = 91 mg/dlF = 41.23 mg/dl0 = 231 mg/dln = 32 pacientes

2. Establezca la hipótesis nula:En este caso, la Ho podría plantearse como: la diferencia observada entre la media detriglicéridos en los pacientes con SIDA, y la de la población sana se debe únicamente al errorde muestreo y no al hecho de que aquéllos estén enfermos.

3. Obtenga el error estándar:

EE0 = F / %n

= 41.23 / %32

= 7.2885

4. Obtenga el valor de z:

Page 82: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

77

z = (0 - µ) / EE0

= (231-91) / 7.2885

= 19.21

INTERPRETACIÓN

Ya que el valor de z es numéricamente mucho mayor que los niveles críticos de 1.96 y de 2.58,se puede rechazar la hipótesis nula al nivel de significancia del 1 por ciento o inclusive de 0.1por ciento:

p < 0.001

(en realidad, p = 5.58 *10 ).-52

Esto quiere decir que los niveles de triglicéridos en sangre son significativamente más altos enlos pacientes con SIDA, comparados con la población sana; o en otras palabras, que lospacientes con SIDA pertenecen a una población cuyos niveles de triglicéridos son más altosque los de la población sana.

Pero muchas veces interesa saber si esta diferencia, estadísticamente significativa, es tambiénimportante en términos clínicos o biológicos. Para ello se debe obtener el intervalo deconfianza para la verdadera diferencia entre 0 y µ, puesto que la diferencia observada estábasada en los resultados obtenidos de una muestra y no puede considerarse como laverdadera:

L (0 - µ) ± (1.96)(EE0)

Para lo cual se sustituyen los correspondientes valores:

(231 - 91) ± (1.96)(7.2885)

140 ± 14.29

Es decir, el intervalo de confianza para la verdadera diferencia está entre 125.7 y 154.3 mg/dl.En otras palabras, con un nivel de confianza del 95 por ciento, podemos afirmar que losniveles de triglicñéridos en la sangre son más altos en los pacientes con SIDA, comparados conlas personas sanas, en al menos 125.7 mg/dl y hasta 154.3 mg/dl.

Page 83: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

78

Ejemplo 5.2: Contraste de Hipótesis para Una Sola Proporción.

INFORMACIÓN

En un estudio para verificar la teoría de que la resistencia a la dieldrina (0.4 por ciento conexposición de una hora) es debida a un solo gene dominante en Anopheles farauti,homocigotos resistentes (RR) fueron cruzados con homocigotos susceptibles (rr) para produciruna población de heterocigotos (F1). Los mosquitos F1 fueron nuevamente cruzados con unacepa de homocigotos susceptibles. De acuerdo con la teoría de la determinación unigénica,el porcentaje de la progenie de este último entrecruzamiento que podría ser susceptible a ladieldrina es de 50 por ciento. De 465 mosquitos de esta progenie, 264 (56.77 por ciento)murieron. ¿Es este porcentaje significativamente diferente al porcentaje que predice el modelogenético?

PROCEDIMIENTO

1. Identifique la información básica:B = 0.5 (proporción predicha por la teoría)n = 465 (mosquitos estudiados)r = 264 (mosquitos muertos)p = 0.5677 (proporción observada)

2. Establezca la hipótesis nula:La Ho podría plantearse de la siguiente manera: la diferencia en el porcentaje de mosquitosmuertos entre el experimento realizado y lo predicho por la teoría, se debe solamente al errorde muestreo; es decir, la teoría de que la resistencia a la dieldrina se debe a un único genedominante, es cierta.

3. Obtenga el error estándar:

EEp = %[B(1-B) / n]

= %[0.5*0.5 / 465]

= 0.0232

4. Obtenga el valor de z:

z = (p - B) / EEp

Page 84: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

79

= (0.5677-0.5) / 0.0232

= 2.919

o de acuerdo a la otra fórmula

z = (r - nB) / %[nB(1-B)]

= 264-232.5 / 10.78

= 2.92

INTERPRETACIÓN

Ya que el valor de z es mayor que 1.96 se puede rechazar la hipótesis nula

p < 0.05

e inclusive puede hacerse al nivel de significancia del 1 por ciento

p < 0.01

(en realidad p = 0.0035).

Por este motivo se puede afirmar que existe evidencia para rechazar la hipótesis de que laresistencia a la dieldrina se debe a un único gene dominante, y que por lo tanto, debebuscarse alguna otra explicación al fenómeno.

Al haber encontrado una diferencia significativa entre la proporción esperada por la teoría yla observada, resulta de interés estimar la verdadera magnitud de esa diferencia. Para tal casose puede construir un intervalo de confianza (95 por ciento, 99 por ciento o cualquier otro)para la verdadera diferencia. El intervalo de confianza del 95 por ciento es:

L (p - B) ± 1.96 EEp

0.0677 ± (1.96 * 0.0232)

0.0677 ± 0.0455

lo que quiere decir que la magnitud de la verdadera diferencia entre las proporciones esperaday observada, con un 95 por ciento de probabilidad de acertar, está entre 0.0222 y 0.1332 o

Page 85: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

80

que el porcentaje de mosquitos muertos observado debe ser mayor que el esperado por lateoría entre 2.22 y 13.32 puntos porcentuales.

Page 86: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

81

CAPÍTULO 6: CONTRASTE DE HIPÓTESIS

PARA DOS MUESTRAS GRANDES

Tal vez una de las técnicas estadísticas más comunes utilizadas en la investigación médica sea la comparaciónde los resultados de dos muestras, por ejemplo, al comparar el efecto que dos tratamientos distintos pueden tenersobre sendos grupos de individuos con características similares. Al hacer esto, se puede determinar si los nivelesmedios de algún indicador se modifican de manera más favorable con uno de los tratamientos o si estos tienenefectos similares, o bien si es mayor la proporción de individuos que presentan alguna mejoría, o son curados,con un tratamiento en comparación con el otro.

En este capítulo se muestra el procedimiento que se sigue en casos donde se tienen dos muestras cuyo tamañoes grande, y lo que se desea es contrastar la hipótesis nula de que son iguales entre sí.

6.1. MEDIAS DE DOS MUESTRAS.1 1 2 2Supongamos que existen dos poblaciones, una con µ , F y la otra con µ , F . Si se toman muestras de tamaño

1 2n y n de estas dos poblaciones (no se requiere que estas muestras sean del mismo tamaño), se calcula la

1 2diferencia de sus medias (0 - 0 ) y se repite el procedimiento i veces, se puede encontrar que:

1 2 i 1 2a) la media de la distribución de las diferencias (0 - 0 ) es (µ - µ ), es decir, la diferencia de las medias delas respectivas poblaciones).b) la varianza de la distribución de las diferencias es la suma de las varianzas individuales, es decir:

1 2 1 2varianza (0 - 0 ) = varianza(0 ) + varianza(0 )

1 1 2 2 = F /n + F /n2 2

1 2Siendo el error estándar de la diferencia de las medias, EE(0 -0 ):

1 2L EE(0 -0 ) =

En el caso de una sola muestra ponemos a prueba la Ho que afirma que la 0 procede enrealidad de una población con media µ y que toda diferencia observada se debe al error demuestreo. La respuesta se obtuvo calculando (capítulo 5):

1En el presente caso, ya que se cuenta con dos muestras, la Ho establece que las medias 0

2 1 2y 0 han sido tomadas de poblaciones cuyas medias µ y µ son iguales, es decir:

1 2µ = µ , o bien

1 2µ - µ = 0

Page 87: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

82

1 2y que la diferencia observada entre 0 y 0 es debida únicamente al error de muestreo.

Para probar (contrastar) la hipótesis nula, de nuevo se calcula z, pero ahora se sustituyen los

1 2 1 2valores de 0 por (0 - 0 ) y de µ por (µ - µ ), y el error estándar de la media EE0 por el error

1 2estándar de la diferencia de las medias EE(0 -0 ):

lo cual, de acuerdo a la Ho queda como sigue:

donde el valor cero expresa lo afirmado por la Ho.

Debido a que F² generalmente permanece desconocida y a que se trata de muestras grandes

1 2(en donde s² tiende a parecerse a F²), entonces se utilizan los valores muestrales s y s como2 2

estimadores, quedando la fórmula que se utilizará como:

L

El valor de z que se obtenga se interpreta de la misma manera que en el caso de una solamedia, generalmente a los niveles críticos del 5 por ciento y del 1 por ciento. Debe tenersepresente que si primero se obtuvo el valor de z con una sola media muestral para estimar elvalor de la verdadera media de la población (capítulo 4) y luego se obtuvo para el valor dez para ver la verdadera diferencia entre 0 y µ (capítulo 5), ahora se calcula z para indagar la

1 2verdadera diferencia entre dos medias de las muestras, 0 y 0 .

Finalmente, resulta importante estimar la magnitud de la verdadera diferencia (si es que se haencontrado una diferencia significativa) entre las dos muestras estudiadas. Esto se puede hacerconstruyendo un intervalo de confianza para la verdadera diferencia, por ejemplo:

1 2 1 2(0 -0 ) ± 1.96 EE(0 -0 )

o cualquier intervalo a otros niveles de confianza (véase el ejemplo 6.1).

6.2. PROPORCIONES DE DOS MUESTRAS.

Page 88: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

83

En el caso de las variables binomiales, frecuentemente interesa saber si la proporción deindividuos con una característica dada difiere en dos grupos que se comparan. La Ho dice que

1 2las proporciones, B y B , de las poblaciones de las cuales proceden las muestras, son iguales:

1 2B = B , o bien

1 2B - B = 0

Por ello, de las dos muestras se pretende obtener la mejor estimación de B que sea posible,

cesto es, una proporción combinada (p ), donde:

L

1 2Con la cual se puede calcular el error estándar de la diferencia de las proporciones EE(p -p ),que originalmente sería:

cpero que al sustituir B por la estimación p , se tiene:

y ya simplificado:

1 2L EE(p -p ) =

Con cuyo valor se puede proceder a obtener el valor de z para la diferencia de lasproporciones:

L

Y de la misma manera que para la diferencia de medias, se puede obtener el intervalo deconfianza para la verdadera diferencia de las proporciones:

Page 89: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

84

1 2 1 2(p -p ) ± 1.96 EE(p -p )

(véase el ejemplo 6.2).

Page 90: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

85

Ejemplo 6.1: Contraste de Hipótesis para las Medias de Dos Muestras.

INFORMACIÓN

En un estudio de la edad a la menarquia en mujeres de EUA, se obtuvo la siguientedistribución por edades en una muestra de dos generaciones de mujeres, una con edadesentre 21 y 30 años y la otra con edades entre 31 y 40 años en el momento del estudio.

Se pretende probar la hipótesis de que no hay diferencia en la edad promedio a la menarquiaentre ambos grupos de mujeres.

Edad a la Mujeres de Menarquia 31-40 años 21-30 años

10 0 311 2 1112 8 2813 14 2314 27 1215 5 116 8 017 1 018 1 0

TOTAL 16 78

PROCEDIMIENTO

1. Identifique y obtenga los datos básicos:

1 2n = 66 mujeres de 31-40 años n = 78 mujeres de 21-31 años

1 20 = 13.88 años de edad a la menarquia 0 = 12.42 años de edad a la menarquia

1 2s = 1.93 s = 1.172 2

2. Obtenga el error estándar de la diferencia de las medias:

1 2 1 1 2 2EE(0 -0 ) = %[s /n + s /n ]2 2

= %[1.93/66 + 1.17/78]

= %0.0442

Page 91: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

86

= 0.2103

3. Obtenga el valor de z para la diferencia de las medias:

1 2 1 2z = (0 -0 ) / EE(0 -0 )

= (13.88-12.42) / 0.2103

= 6.94

INTERPRETACIÓN

Como z es mayor que el valor crítico de 1.96, y aún mucho mayor que 2.58, la diferencia entrelas medias resulta altamente significativa:

p < 0.001(en realidad, p = 0.1099 * 10 ).-6

Esto quiere decir que existe evidencia de que la edad promedio a la menarquia ha variado (hadisminuido, de acuerdo a las medias muestrales) significativamente entre una y otrageneración.

4. Obtenga el intervalo de confianza del 95 por ciento para la verdadera diferencia entre lasmedias:

Ya que se encontró una diferencia altamente significativa entre las dos medias de las muestras,interesa saber cuál puede es la magnitud del cambio:

1 2 1 2(0 -0 ) ± 1.96 EE(0 -0 )

(13.88-12.42) ± (1.96 * 0.2103)

1.46 ± 0.4122

lo que da un intervalo que se encuentra entre 1.05 y 1.87 años de diferencia en la edad a lamenarquía.

INTERPRETACIÓN: con un 95 por ciento de probabilidades de acertar, se puede afirmar quela edad a la menarquia se ha reducido entre 1.05 y 1.87 años en promedio para las mujeresde la generación más joven.

Page 92: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

87

Ejemplo 6.2: Contraste de Hipótesis para las Proporciones de Dos Muestras.

INFORMACIÓN

La mayoría de las mujeres que voluntariamente se someten a esterilización quirúrgica dicenno arrepentirse de su elección. No obstante, entre el 1 por ciento y el 3 por ciento solicitan mástarde la recanalización quirúrgica de las trompas, lo cual se puede lograr con métodosmodernos, aunque complejos y costosos. El porcentaje de éxitos varía entre el 50 por cientoy el 70 por ciento, dependiendo, entre otras cosas, del método de esterilización que se hayaseguido.

En un estudio se vio que de 299 mujeres recanalizadas después de la esterilización por mediode la ligadura de Pomeroy, 176 lograron tener un embarazo a término; en comparación, de258 mujeres recanalizadas después de la esterilización con electrocoagulación, 111 lograrontener un embarazo a término.

Para ver si existe una diferencia significativa entre ambos grupos de mujeres, respecto alporcentaje que logra tener un embarazo a término después de la recanalización:

a) establezca la hipótesis nula.b) obtenga el porcentaje de mujeres que lograron un embarazo a término en uno yotro casos.c) realice el contraste de hipótesis para ver si existe una diferencia entre ambosporcentajes.d) obtenga el intervalo de confianza para la verdadera diferencia, en caso de que estasea significativa.

PROCEDIMIENTO

1. Establezca la hipótesis nula:

Una forma de plantear la hipótesis nula podría ser: los resultados de la recanalizaciónquirúrgica en mujeres que han sido esterilizadas por la ligadura de Pomeroy y en las que lohan sido por electrocoagulación, en realidad son iguales, cualquier diferencia observada sedebe al error de muestreo.

2. Obtenga los porcentajes de embarazos:

GRUPO A (LIGADURA DE POMEROY) GRUPO B (ELECTROCOAGULACION)

1 2n = 299 mujeres recanalizadas n = 258

1 2r = 176 mujeres con embarazo a término r = 111

Page 93: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

88

1 2p = 176/299 = 0.5886 o 58.86% p = 111/258 = 0.4302 o 43.02%

3. Obtenga la Proporción Combinada:

c 1 2 1 2p = (r +r ) / (n +n )

= (176+111) / (299+258)

= 0.5153

4. Obtenga el error estándar de la diferencia de las proporciones:

1 2 c c 1 2EE(p -p ) = /[p (1-p )(1/n + 1/n )

= /[0.5153(1-0.5153)(1/299 + 1/258)

= 0.0425

5. Obtenga el valor de z para la diferencia de las proporciones:

1 2 1 2z = (p -p ) / EE(p -p )

= (0.5886-0.4302)/0.0425

= 3.73

INTERPRETACIÓN

Como z es numéricamente mayor que el valor crítico de 2.58, se puede afirmar que existe unadiferencia significativa entre ambos grupos de pacientes en cuanto al éxito de la recanalización,el cual es mayor para las mujeres que siguieron la esterilización por medio de la ligadura dePomeroy:

p < 0.001

(en realidad, P = 0.00019).

6. Obtenga el intervalo de confianza del 95 por ciento para la verdadera diferencia entre lasproporciones:

Page 94: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

89

Debido a que se encontró una diferencia significativa, es conveniente obtener este intervalo,con el objetivo de determinar cuál puede ser la magnitud de la verdadera diferencia:

1 2 1 2(p -p ) ± 1.96 EE(p -p )

(0.5886-0.4302) ± (1.96 * 0.0425)

0.1584 ± 0.0833

es decir, la verdadera diferencia se encuentra entre 0.0751 y 0.2417.

INTERPRETACIÓN: con un 95 por ciento de probabilidad de acertar, se puede afirmar quela verdadera proporción de éxitos en la recanalización es mayor entre 7.51 y 24.17 puntosporcentuales para las pacientes que fueron esterilizadas por medio de la ligadura de Pomeroy,comparadas con las que se sometieron a la electrocoagulación.

Page 95: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

90

CAPÍTULO 7: DISTRIBUCIÓN t DE STUDENT

El contraste de hipótesis para la media de una sola muestra implica el cálculo de:

cuyo resultado se compara con los niveles críticos de 1.96 o de 2.58 (o alguno otro que sedesee). Sin embargo, F generalmente permanece desconocida, por lo que se utiliza s como suestimador.

Si el tamaño de la muestra es grande (n > 30) entonces s se aproxima al valor de F, pero siel tamaño de la muestra es pequeño (n < 30) se introduce una fuente adicional de error enlos cálculos pues en estas circunstancias s tiende a ser menor que F, por lo que se subestimael error de muestreo por lo que la probabilidad de equivocarse al decir que se ha encontradouna diferencia significativa es mayor que lo dicho en los capítulos anteriores. Debido a esto,se deben hacer modificaciones apropiadas introduciendo lo que se conoce como Teoría deMuestras Pequeñas, o más apropiadamente Teoría Exacta de Muestreo, ya que sus resultadosson válidos también para muestras grandes. Esta es la Distribución t de Student.

En este caso, al introducir el valor s basado en una muestra pequeña, se obtiene una nuevaestimación:

L

que es por completo análoga a z.

Sin embargo, el valor observado de t deberá compararse con valores críticos más estrictos yya no con los valores de z (que son 1.96 al nivel de significancia de 0.05 o 2.58 al nivel designificancia de 0.01) pues estos incluirán una área menor bajo la curva y, por lo tanto, laprobabilidad de errar, al utilizarlos, será mayor. Los valores con los que se compare t no sonfijos, y dependerán de qué tan buen estimador sea s de F, lo que está en relación con eltamaño de la muestra, es decir, con los grados de libertad (n-1).

Para poder aplicar esta distribución se deben cubrir los siguientes supuestos básicos:a) Las observaciones son independientes.b) Las muestras han sido tomadas de poblaciones que se distribuyen normalmente.c) Las varianzas son iguales. Para esto se recurre a algunas pruebas como la F deSnedecor para el contraste de las varianzas.

Page 96: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

91

En el caso de que de que no se cumplan estos requisitos se deberá utilizar las pruebasconocidas como no paramétricas. Tampoco se utiliza la prueba de t para contrastarproporciones obtenidas con muestras pequeñas.

La interpretación de los niveles de significancia para la prueba de t es igual que en el caso dez, aunque los valores críticos con los que se le compara, como ya se dijo, varían de acuerdoal tamaño de la muestra.

La prueba de t es muy útil en los estudios clínicos pues con frecuencia no es posible tener ungrupo grande de pacientes para realizar las investigaciones, y por lo tanto, el observador seve obligado a trabajar con muestras pequeñas (esto es particularmente cierto en estudios decasos y testigos sobre enfermedades de baja frecuencia).

7.1. MUESTRAS PAREADAS.En muchas ocasiones, al efectuar un estudio médico se desea establecer una comparaciónentre dos grupos de individuos (comparar dos tratamientos, comparar casos y testigos,etcétera) y se recurre al pareamiento de los casos de uno y otro grupo. En tal situación:

1 2y la Ho que utilizamos será que la diferencia de las medias de las poblaciones (µ -µ ) de dondeproceden las muestras, es cero:

1 2µ = µ

1 2µ - µ = 0De tal manera que:

L

donde n es el número de pares de observaciones y

ds es la desviación estándar de las diferencias entre cada par.

Nótese que en estos estudios a cada caso del primer grupo le corresponde uncaso en particular del segundo grupo, pues están organizados por pares:

11 12x , x (observación 1 del grupo 1, observación 1 del grupo 2)

21 22x , x

31 32x , x . .

Page 97: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

92

.

n1 n2x , x

por lo que se puede obtener la diferencia para cada uno de los pares de

i i1 i2observaciones (d = x - x ), a partir de las cuales se calcula la media de las

ddiferencias, Gd, y su desviación estándar, s , es decir, cada par es tratado comosi fuera una única observación.

El resultado se compara con el valor de t en la tabla de la distribución teórica de acuerdo alnivel de significancia elegido y a los grados de libertad (tabla 3 del Apéndice; véase el ejemplo7.1).

Si el valor absoluto (sin tomar en cuenta el signo) de t observada es menor que el de la tabla,al nivel de significancia elegido, no se puede rechazar la Ho (se dice que no se observódiferencia significativa); si, por el contrario, es mayor que el de la tabla, se rechaza la Ho, demanera análoga a como se haría con z.

Cuando llega a encontrarse una diferencia significativa, será conveniente obtener el intervalode confianza para estimar la magnitud de la verdadera diferencia. Esto se hace obteniendo elintervalo de confianza respectivo:

1 2 ",gl 1 2L (0 -0 ) ± t EE(0 -0 )

donde t es el valor de t en la distribución teórica." es cierto nivel de significancia (0.05, 0.01, etc.).gl son los grados de libertad (n pares - 1).

7.2. MUESTRAS NO PAREADAS.Cuando las muestras no son pareadas (se les llama independientes), en las que sus tamañospueden ser iguales o distintos entre sí, se establece la Ho siguiente: las dos muestras han sido

1 2tomadas de poblaciones distribuidas normalmente, cuyas µ y µ son en realidad iguales ycuyas varianzas también son iguales:

1 2µ = µ

1 2µ - µ = 0

1 2F = F2 2

1 2Esto quiere decir que se puede hablar de una sola varianza verdadera. Entonces s y s son2 2

estimaciones separadas de una misma varianza F resultaría mejor, particularmente si se trata2

de muestras pequeñas, obtener una sola estimación, la cual se puede llamar varianzaponderada:

Page 98: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

93

o más comúnmente:

L

Con este valor de la varianza ponderada se puede calcular el error estándar de la diferenciade las medias:

o más comúnmente:

L

Finalmente, se obtiene el valor de t:

L

En caso de que se haya encontrado una diferencia significativa, se puede obtener el intervalode confianza para estimar la verdadera diferencia de las medias:

1 2 ",gl 1 2(0 -0 ) ± t EE(0 -0 )

donde t es el valor de t en la distribución teórica. " es cierto nivel de significancia.

1 2 gl son los grados de libertad (en este caso [n + n - 2]; véase el ejemplo 7.2).

Page 99: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

94

Ejemplo 7.1: Contraste de Hipótesis para Dos Medias de Muestras Pequeñas Pareadas.

INFORMACIÓN

En un estudio para evaluar la eficacia de dos drogas en el tratamiento de la angina de pecho,12 pacientes fueron estudiados. Durante un período se les administró nifedipina (20 mg cuatroveces al día) y posteriormente propanolol (80 mg cuatro veces al día). A través de electrocar-diografía ambulatoria, se detectaron los episodios de aplanamiento del segmento S-T,indicativo de episodios de angina de pecho.

Los resultados son los siguientes:

Paciente Nifedipina Propanolol 1 26 6.5 2 3.5 1 3 0 0 4 8 0 5 0 0.5 6 0 0 7 2.5 0.5 8 3.5 0 9 4 010 1 4.511 0.5 0.512 0 0

¿Existe evidencia de que los tratamientos difieren significativamente en la prevención deepisodios de angina de pecho?

PROCEDIMIENTO

1. Obtenga los datos básicos:

10 = 4.08 episodios

20 = 1.12 episodios

1s = 7.48

2s = 2.08n = 12 pacientes

2. Obtenga la desviación estándar de las diferencias:

Page 100: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

95

Esto se logra simplemente restando los valores de la segunda columna de los datos a los dela primera, y obteniendo la desviación estándar de estas diferencias por los procedimientoscomunes:

PACIENTE NIFEDIPINA PROPANOLOL DIFERENCIA 1 26 6.5 19.5 2 3.5 1 2.5 3 0 0 0 4 8 0 8 5 0 0.5 -0.5 6 0 0 0 7 2.5 0.5 2 8 3.5 0 3.5 9 4 0 410 1 4.5 -3.511 0.5 0.5 012 0 0 0

dEn este caso: s es igual a 5.96

3. Obtenga el error estándar para la diferencia de las medias:

1 2 dEE(0 -0 ) = s / /n

= 5.96 / /12

= 5.96 / 3.46

= 1.72

4. Obtenga el valor de t para la diferencia de las medias:

1 2 dt = [(0 -0 ) - 0] / (s //n)

= (4.08 - 1.12) / 1.72

= 1.72

11,0.055. Compare el valor de t observada (1.72) con el valor de t en la tabla 3 (es decir, el valorde t en la distribución teórica con 11 grados de libertad, al nivel de significancia del 5%), elcual es igual a 2.20.

Page 101: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

96

INTERPRETACIÓN

Dado que el valor de t observada es menor que el de la distribución teórica, no se haencontrado evidencia de que los medicamentos difieran entre sí por lo que se refiere a laprevención de episodios de angina de pecho. Por este motivo, no se hace necesario buscarel intervalo de confianza para la verdadera diferencia.

Page 102: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

97

Ejemplo 7.2: Contraste de Hipótesis para Dos Medias de Muestras No Pareadas.

INFORMACIÓN

En un estudio se midió la dosis diaria descargada (µg) cuando se implantaban 2 o 3 gránulosbiodegradables de noretindrona (NET), pues ello es importante para correlacionarlo con laeficacia anticonceptiva.

En un grupo de 8 mujeres a quienes se les implantaron 2 gránulos, la liberación media diariade NET fue de 111 µg, con una desviación estándar de 20 µg; en otro grupo de 12 mujeresa quienes se les implantaron 3 gránulos, la liberación media diaria fue de 150 µg y ladesviación estándar de 7 µg. ¿Sugieren estos datos que la descarga media diaria difiere entrelos dos grupos de mujeres?

PROCEDIMIENTO

1. Obtenga los datos básicos:Grupo A (2 gránulos) Grupo B (3 gránulos)

1 2n = 8 mujeres n = 12 mujeres

1 20 = 111 µg 0 = 150 µg

1 2s = 20 µg s = 7 µg

1 2s = 400 s = 492 2

2. Obtenga la varianza ponderada:

p 1 1 2 2 1 2s = [(n -1) s 1 + (n -1)s ] / (n +n -2)2 2 2

= [8*400 + 12*49] / 18

= 210.44

por lo que la desviación estándar ponderada es

ps = 14.51 µg

3. Obtenga el error estándar para la diferencia de las medias:

1 2 p 1 2EE(0 -0 ) = s /[1/n + 1/n ]

Page 103: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

98

= 14.51 * /[1/8 + 1/12]

= 6.6229

4. Obtenga el Valor de t para la Diferencia de las Medias

1 2 1 2t = (0 -0 ) / EE(0 -0 )

= (111-150) / 6.6229

= -5.889

18,0.0015. Compare el valor de la t observada (-5.889) con el valor de t en la tabla 3 (es decir,el valor de t en la distribución teórica con 18 grados de libertad, al nivel de significancia del0.1%), el cual es igual a 3.922.

INTERPRETACIÓN

Dado que el valor de t observada es muy grande, se puede concluir que existe evidencia deque la liberación media diaria de NET difiere significativamente entre los dos grupos demujeres (p < 0.001).

6. Obtenga el Intervalo de confianza del 95 por ciento para la verdadera diferencia:

1 2(0 -0 ) ±

Page 104: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

99

CAPÍTULO 8: PRUEBA DE P (JI AL CUADRADO)2

En las pruebas de contraste de hipótesis de la distribución t de Student con muestraspequeñas, los supuestos básicos consisten en que las variables estudiadas pertenecen apoblaciones cuyos valores se distribuyen normalmente y en las que sus varianzas son iguales.En otros casos, tal vez se necesite comparar dos proporciones, pero no se cumplen losrequisitos necesarios para aplicar la aproximación de la distribución binomial a la normal (ngrande y p no muy alejada de 0.5; véase el capítulo 3). Debido a que se establecen talescondiciones, las anteriores se conocen como pruebas paramétricas. Sin embargo, no siemprese tiene la información necesaria para sostener tales afirmaciones, o bien se sabe que enrealidad no se cumple con ellas.

En tales situaciones, es conveniente recurrir a otro tipo de pruebas que no requieren de estossupuestos. Estas son las que se conocen como pruebas no paramétricas entre las cuales tal vezla más utilizada sea la de P² (Ji al cuadrado).

La característica de esta prueba es que se utiliza para frecuencias absolutas. Generalmente seaplica a variables cualitativas o a variables discontinuas, pero de igual manera puede utilizarsecon variables continuas haciendo las conversiones necesarias a categorías o a intervalos.

La prueba de P² se utiliza con distintos propósitos:a) Para comprobar si una distribución difiere de otra que es conocida de antemano.b) Para determinar si las respuestas de dos o más grupos difieren frente a un tratamiento.Es decir, se pretende ver si las variables son independientes entre sí (contraste deindependencia).c) Para indagar si una distribución observada sigue una cierta distribución. Esta es lo quese conoce como la bondad del ajuste.

Como se puede ver, el sentido general de la prueba es comparar dos frecuencias, comúnmen-te, una observada con una esperada.

El cálculo e interpretación en todos los casos son iguales, en lo único que difieren es en lamanera de obtener las frecuencias esperadas, así, las frecuencias esperadas en el primer caso,están dadas por una distribución, teórica o empírica, que se conoce previamente. En elsegundo caso se podrán comparar las frecuencias de los distintos grupos. Lo más común, sinembargo, es que se recurra al tercer caso, en donde se ignora la distribución de frecuenciasesperadas y debe recurrirse a un procedimiento, ya establecido, para obtenerlas.

Una característica del análisis con P² consiste en que es posible comparar dos o másproporciones (aún cuando lo que se utilice sean las frecuencias absolutas, el efecto es el

Page 105: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

100

mismo), lo que representa una gran ventaja sobre el análisis con la aproximación a ladistribución normal, en donde sólo se pueden comparar dos proporciones.

La Ho en este caso establece que las diferencias que se encuentran entre las frecuenciasobservadas y las esperadas se deben al error de muestreo.

La manera de llevar a cabo el análisis consiste en organizar los datos en una tabla decontingencia (en el sentido de eventualidad; este tipo de tablas son aquellas cuyos subtotalesde las filas suman exactamente lo mismo que los subtotales de las columnas), en las cuales seordenan las observaciones de acuerdo a las categorías de dos variables. Las tablas decontingencia más sencillas son aquellas que tienen dos filas y dos columnas:

Variable 1

categoría 1 categoría 2 Total

Variable 2categoría 1 a b a + b

categoría 2 c d c + d

Total a + c b + dGran Total =

a+b+c+d

Una vez que se ordenan las observaciones, se debe obtener las frecuencias esperadas. Engeneral, las frecuencias esperadas para cada casilla se obtienen de la siguiente manera:

E = (tf*tc)/gt

donde tf es el total de la fila correspondiente a la casillatc es el total de la columna correspondiente a la misma casilla.gt es el gran total, es decir, la suma de todos los subtotales de las filas (o de las columnas).

Por ejemplo, la frecuencia esperada para la casilla "a" (Ea) es:

Ea = ((a+b) * (a+c)) / (a+b+c+d)

Este procedimiento se repite para cada casilla. El sentido de este procedimiento consiste enlo siguiente: la relación (a+b)/gt, por ejemplo, nos señala la probabilidad, en una serie deobservaciones, de pertenecer a la categoría 1 de la variable 2, independientemente de losefectos de la variable 1. La relación (a+c)/gt es la probabilidad, en la misma serie deobservaciones, de pertenecer a la categoría 1 de la variable 1, independientemente de losefectos de la variable 2. Esto es, se han obtenido las probabilidades de dos sucesosindependientes entre sí. Si se multiplican estas dos probabilidades, entonces se obtendrá laprobabilidad de que se dé el suceso de la casilla "a" si los efectos de las variables 1 y 2 fuesen

Page 106: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

101

independientes y, si a su vez se multiplica esta probabilidad por el gran total, se obtiene lafrecuencia que se esperaría en la casilla "a" en el caso de que los efectos de ambas variablesfueran independientes entre sí.

La fórmula general para el contraste de hipótesis es:

L

donde O son las frecuencias observadas.E son las frecuencias esperadas.

Nótese que:

Las diferencias entre las frecuencias observadas y las esperadas en cada casilla se elevanal cuadrado, (O-E) , de ahí que el nombre de la prueba sea P , pues de otra manera, E(O-2 2

E)= 0.Entre menores sean las diferencias (entre más parecidas sean las frecuencias observadasrespecto a las esperadas) menor es el valor de P , lo que implicaría que las variables no2

están asociadas (hipótesis nula), y viceversa.

Los valores críticos con los que se compara el resultado dependerán de los grados de libertad:

gl = (número de columnas - 1)(número de filas - 1)

por lo que para tablas de contingencia de 2*2 los grados de libertad serán siempre 1. Paraobtener los valores correspondientes de la distribución teórica de P², se utiliza la tabla 4 delApéndice.

Si la diferencia entre las frecuencias observadas y las esperadas es grande, entonces P²también será grande, lo cual señalará una diferencia significativa, si P² = 0, entonces ladistribución observada y la esperada concuerdan exactamente.

El análisis no debe incluir casillas con frecuencias esperadas menores que 3 (algunos autoressugieren el valor de 5 como mínimo; este es el criterio que se toma en SPSS©).

Como P² es una variable continua, al momento de usar esta distribución para variablesdiscontinuas o cualitativas es conveniente hacer la corrección por continuidad necesaria(corrección de Yates):

L

Page 107: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

102

donde |O-E| es el valor absoluto de la diferencia, es decir, el valor numérico independientedel signo (véase el ejemplo 8.1).

Page 108: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

103

Ejemplo 8.1: Obtención de Ji al Cuadrado.

INFORMACIÓN

En un estudio realizado en una comunidad rural, a un grupo de niños que tenían coproparasi-toscópico (CPS) positivo para Ascaris se le dividió en dos: uno sujeto a tratamiento trimestralcon levamisol durante un año, y el otro con placebo.

Al final se vió que de 22 niños bajo tratamiento, 15 permanecieron con CPS negativo, y quede los 32 con placebo 20 resultaron con CPS positivo para Ascaris.

Realice una prueba de P² para determinar si los niños con tratamiento evolucionaron mejorque los niños con placebo.

PROCEDIMIENTO

1. Identifique la información básica:Total de niños bajo tratamiento: 22Niños bajo tratamiento que al final resultaron negativos: 15Niños bajo tratamiento que al final resultaron positivos: 7Total de niños con placebo: 32Niños con placebo que al final resultaron negativos: 12Niños con placebo que al final resultaron positivos: 20Gran total: 54

2. Construya el cuadro de contingencia:

Distribución de Niñoscon CPS InicialmentePositivo de Acuerdo al

Grupo Asignado

Levamisol Placebo Total

CPS FinalPositivo 7 20 27

Negativo 15 12 27

Total 22 32 54

Page 109: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

104

3. Establezca la hipótesis nula:Una manera de plantear la hipótesis nula puede ser: el número de niños que al final delestudio resultaron positivos para Ascaris, en ambos grupos, en realidad no difiere respecto alnúmero que se podría esperar si el tratamiento y el placebo tuvieran el mismo efecto, todadiferencia observada se debe al error de muestreo.

4. Obtenga las frecuencias esperadas (E) para cada casilla:E = (total de la fila * total de la columna) / gran total

Distribución de Niñoscon CPS InicialmentePositivo de Acuerdo al

Grupo Asignado

Levamisol Placebo Total

CPS FinalPositivo a b 27

Negativo c d 27

Total 22 32 54

a) Nótese que los subtotales de las filas y de las columnas, y el gran total, son iguales a losobservados.b) Casilla a: (27 * 22) / 54 = 594 / 54 = 11c) Casilla b: (27 * 32) / 54 = 864 / 54 = 16 (o simplemente, ya que se conocen los valoresde la casilla "a" y del subtotal de la fila: 27 - 11 = 16)d) Casilla c: (22 * 27) / 54 = 594 / 54 = 11 ( o simplemente, 22 - 11 = 11)e) Casilla d: (32 * 27) / 54 = 864 / 54 = 16

5. Obtenga el valor de P²:

P² = E(O-E) /E2

= (7-11)²/11 + (15-11)²/11 + (20-16)²/16 + (12-16)²/16

= 16/11 + 16/11 + 16/16 + 16/16

= 1.45 + 1.45 + 1+1

= 4.9

6. Compare el valor obtenido con el de la distribución teórica:

Page 110: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

105

1,0.05En la tabla 4 del apéndice, busque por ejemplo el valor de P² , es decir, con un grado delibertad, pues se trata de una tabla de contingencia de 2*2, al nivel de significancia del 5 porciento. Este valor es igual a 3.841.

INTERPRETACIÓN

Como el valor de P² observada (4.9) es mayor que el de la distribución teórica, se rechaza lahipótesis nula al nivel del 5 por ciento de significancia, y se puede afirmar que existe evidenciade que el grupo de niños sujeto a tratamiento evolucionó distinto al grupo sujeto a placebo.De hecho, se puede observar que el porcentaje de niños sujetos a tratamiento y que al finalresultó negativo es mayor que el correspondiente en el grupo con placebo, p < 0.05.

7. ¿Qué sucede al nivel de significancia del 1 por ciento?

8. Realice el análisis con la corrección de yates.

9. ¿Cuál es su conclusión final?

Page 111: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

106

CAPÍTULO 9: REGRESIÓN LINEAL Y CORRELACIÓN

9.1. INTRODUCCIÓN.Un frecuente interés durante las investigaciones consiste en tratar de determinar si dos sucesosestán relacionados entre sí, de tal manera que al conocer lo que sucede con el primero, sepueda prever o predecir lo que acontezca con el segundo.

Lo anterior se identifica generalmente con el estudio de la causalidad, pero los procedimientosestadísticos, por su propia naturaleza, no pueden dar respuesta a esta cuestión, aunque sonútiles para aproximarse a ella. La afirmación de la existencia de una relación causa - efectoentre dos sucesos requiere de un conocimiento profundo de los mecanismos y de los procesosque intervienen, y de una base teórica firme que los explique y sistematice. De hecho, en lasciencias médicas el establecimiento de las relaciones causa - efecto, por ejemplo el atribuir aun factor el desarrollo o aparición de una enfermedad, no siempre requiere de algún modelomatemático, más bien necesita del conocimiento detallado de la fisiopatología. La estadísticacontribuye dando a conocer el grado y el sentido de la asociación entre sucesos, pero nopuede decir mucho acerca de su validez o de su veracidad.

Tal vez el procedimiento más utilizado para indagar la asociación entre dos sucesos(identificados por variables) es el modelo de regresión lineal. Este modelo de análisis, en suformulación más simple, pretende determinar hasta qué punto los cambios en el valor de unavariable (llamada independiente) influyen en los cambios observados en los valores de la otravariable (llamada dependiente). En ocasiones se entiende que la primera es la causa de loscambios en la segunda, reconocida como el efecto, pero esta es una interpretación erróneaen tanto el análisis estadístico no se acompañe de un análisis teórico que soporte la existenciade tal relación.

El modelo de regresión lineal fue desarrollado en el siglo XIX por F. Galton, fundador de laeugenesia, a partir de sus observaciones sobre un fenómeno hereditario: la relación deestaturas entre padres e hijos. Pudo ver que aunque los padres de estatura alta tendían a tenerhijos altos y los de estatura baja hijos bajos, la distribución de estaturas de una generación aotra no cambiaba. Galton explicó este fenómeno por la tendencia de la estatura promedio adesplazarse hacia la media poblacional, es decir, a sufrir una regresión. Así, los padres conestatura promedio alta tenían hijos con estatura promedio menor que ellos, y los padres conestatura promedio baja tenían hijos con estatura promedio mayor que ellos.

Cuando solamente se toma el valor de una variable independiente para explicar los cambiosen la variable dependiente, se habla de regresión lineal simple, y cuando se utilizan dos o másvariables independientes, se habla de regresión lineal múltiple. Ambos modelos pertenecen aun sistema más amplio de análisis matemático que se conoce como curvas de ajuste o deaproximación, el cual incluye relaciones no lineales y que no serán tratadas aquí.

Page 112: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

107

Con el término "lineal" nos estamos refiriendo a aquellas relaciones cuyo ajuste se hace pormedio de una línea recta, la cual tiene las siguientes características:

• Es el tipo más sencillo de linea de aproximación.La relación funcional más simple entre dos variables es la igualdad: y = x; es decir, si x = 0entonces y = 0, si x = 1 entonces y = 1, etcétera (esto se conoce como recta a través delorigen puesto que cruza a éste en un ángulo de 45 grados).• Las propiedades comunes de todas las ecuaciones de lineas rectas son: contienen valores

solamente de x y de y; no hay productos ni cocientes de x ni de y; no hay potenciasmayores de x ni de y (x = x ).1

• La ecuación de una linea recta es y = a+bx.• Dados dos puntos (dos coordenadas x, y) se pueden encontrar los valores de a y de b; o

bien, conocidas a y b, se puede trazar la línea.

2 1• El cambio en los valores de y (y -y ) está relacionado con el cambio en los valores de x

2 1(x -x ) de la siguiente manera:

2 1 2 1(y -y ) = b(x -x )

por lo que

De aquí se deduce que b representa la magnitud del cambio en y por cada unidad decambio en x. Esto es, los cambios son proporcionales; por ejemplo, si b = 2, entonces yse modifica el doble de lo que se modifica x. De aquí, para cualquier valor conocido dex y de y se puede obtener a = y-bx.

• Las constantes (dentro de la ecuación) a y b son llamadas respectivamente "intersección"(es el valor que toma y cuando x = 0, es decir, el punto del eje de las ordenadas endonde la línea recta cruza) y "pendiente" (la inclinación de la línea, entre más alejado estésu valor de cero, ya sea positivo o negativo, mayor será su inclinación). Cuando b=0tenemos el caso en que para cualquier valor de x, y siempre tendrá el mismo valor(constante).

9.2. REGRESIÓN LINEAL.Comúnmente en las investigaciones se mide más de una variable en el mismo caso, ya quese encuentra o se sospecha que existe alguna relación entre ellas. El objetivo es saber cómola respuesta (variable dependiente) cambia con el estímulo (variable independiente).

Si la variable independiente es x y la dependiente es y, entonces, como para cada caso existeun par de observaciones, se tiene en total n coordenadas:

1 1(x , y )

2 2(x , y )...

n n(x , y )

Page 113: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

108

El primer paso para tratar de ver si existe relación entre las dos variables es construir unagráfica de correlación (de dispersión o de nube de puntos) y si los puntos (definidos por losvalores de las coordenadas, es decir, por cada par de valores x, y) caen cercanos a una línearecta, se puede asumir que entre las variables existe una relación lineal (véase la gráfica 9.1)y se puede trazar a ojo una línea que siga la tendencia general de las coordenadas (métodolibre de ajuste). Aquí es cuando la representación gráfica se vuelve indispensable para elanálisis estadístico. Sin embargo, esta forma de llevar a cabo el análisis es muy subjetiva, locual significa que diferentes observadores podrían obtener diferentes líneas de ajuste, enparticular por el hecho de que en la realidad las coordenadas prácticamente nunca coincidentodas sobre una sola línea.

Gráfica 9.1.

La regresión lineal es un método objetivo para ajustar esta línea recta a través de un conjuntode puntos. Se le denomina objetivo porque cualquier persona que realice el análisis siguiendoel procedimiento establecido, y utilizando los mismos datos, llegará a idénticos resultados.

La línea recta resultante del análisis de regresión se conoce como línea de regresión o de ajusteóptimo. Esta línea es una recta respecto de la cual la suma de los cuadrados de las diferenciasentre ella y las coordenadas observadas es mínima, por lo que se le conoce también comorecta de los mínimos cuadrados. Es decir, cuando

1 2 nd +d + ... +d2 2 2

ies mínima con respecto a la línea de regresión, siendo las d los valores de las diferencias al2

cuadrado entre las coordenadas observadas y la línea (véase la gráfica 9.2).

Page 114: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

109

Gráfica 9.2.

El trazado de la línea recta puede lograrse a través de la siguiente ecuación:

donde " y $ son las dos constantes de la ecuación (ver arriba);x es la variable independiente, continua, que se ubica en el eje delas abscisas;y es la variable dependiente, continua, que se ubica en el eje delas ordenadas.

De la misma manera que arriba se refirió, se puede ver que cuando x = 0, entonces y = ",lo que quiere decir que " es el punto en que la línea cruza el eje de las y, por lo que se le llamaintersección. Por supuesto, si x = y, entonces " = 0. Por su parte, $ representa la magnituddel cambio promedio en el valor de y por cada unidad de x. Entre más alejado de cero estéel valor de $ (positivo o negativo) mayor será la inclinación de la línea de regresión; mientrasque entre más cercano sea a cero, la línea de regresión se acercará más a la horizontal. Poreste motivo, a $ se le conoce como la pendiente. Cuando, para cualquier valor de x, y tomasiempre el mismo valor, se dice que es una relación constante, y $ será igual a cero.

En una muestra, los valores de " y de $, que son los valores poblacionales, permanecen porlo general desconocidos, por lo que se estiman con los valores muestrales a y b. Para calcularestas estimaciones se tiene que (las siguientes ecuaciones se han obtenido por cálculodiferencial y no de la manera simple relatada arriba para la línea recta):

Page 115: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

110

L

y que

L

o lo que es lo mismo:

donde yG es la media de los valores de la variable y;xG es la media de los valores de la variable x;E(x-xG) es simplemente el denominador de la varianza de la variable x. También se2

xxrepresenta como S ;E(x-xG)(y-yG) es la varianza conjunta de x y de y; a esto se le conoce como covarianza.Nótese que, en este caso, las diferencias de x y de y con respecto a sus medias no seelevan al cuadrado, pues al multiplicarse entre ellas su suma no necesariamente es iguala cero (podría llegar a serlo, pero ello no impide el análisis), y además puede tener un

xyresultado con signo positivo o negativo. También se representa como S .

Estas ecuaciones son las que permiten obtener la línea recta en la que la suma de lasdistancias, elevadas al cuadrado, de las coordenadas observadas con respecto a la recta esmínima. Una vez conocidas estas constantes, es posible trazar la recta de ajuste óptimo:

1 2a) Se escogen dos puntos, cada uno con un valor determinado de x (x y x ), para los

1 2cuales se obtienen los valores correspondientes de y (y y y ).b) Se marcan las coordenadas de los puntos anteriores en la gráfica y se unen.c) Se verifica que la línea trazada cruce la coordenada correspondiente a las medias (xG,yG).

En décadas anteriores, llevar a cabo un análisis de regresión lineal podía constituir toda unahazaña, particularmente si el número de observaciones era grande. En la actualidad, con losrecursos electrónicos disponibles, todos estos procedimientos se realizan de manera fácil yrápida.

Con este procedimiento, además se puede "predecir" el valor que tomará y para cualquiervalor de x:

py = a + bx

pdonde y es la y predicha por el modelo.

Page 116: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

111

Sin embargo, hay que tomar en cuenta que se trabaja con una muestra, y será necesario,como siempre, estimar la magnitud del error de muestreo, pues tal y predicha, por caer sobrela línea, es únicamente el valor medio de todas las y que se podría esperar observar para elvalor de x particular dado en la ecuación:

L

y,xdonde EE se conoce como el error estándar de la regresión de y sobre x;

y,xs es la desviación estándar de la regresión de y sobre x: .

Se puede advertir de la ecuación del error estándar que éste varía para cada valor de x,haciéndose mayor conforme x se aleja de su media y viceversa. Con dicho error de muestreose puede calcular un intervalo de confianza (95 por ciento, 99 por ciento o cualquier otro quese desee) para estimar los valores de y que se podrían observar para un determinado valor dex. Estos intervalos se calculan utilizando la distribución t de Student:

Como se observa en la gráfica anterior, al calcular los intervalos a partir de todos los valoresde x, lo que se obtiene es una franja de confianza.

Por otro lado, siendo la constante b de gran importancia para el modelo obtenido (no en vanose le conoce también como coeficiente de regresión), vale la pena estimar cuál puede ser elvalor de este parámetro en la población ($), pues b es un valor obtenido a partir de unamuestra. Interesa, en particular, estimar si $ = 0 (hipótesis nula) pues, de ser así, nopodríamos afirmar que existe una asociación entre las dos variables que estamos analizando.Para ello, debemos obtener el error estándar de b:

Page 117: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

112

y,xque es en todo similar a EE excepto por la unidad dentro de la raíz cuadrada. Con ello sepuede obtener también una franja de confianza para la verdadera línea de regresión acualquier nivel de confianza (95%, 99%, o algún otro que se desee). De igual manera, seutiliza la distribución t de Student:

Gráfica 9.4.

Con este mismo error estándar se puede hacer el contraste de hipótesis para determinar si bes significativamente diferente de cero:

donde b es el valor estimado de $ a partir de la muestra;t es el valor en la distribución t de Student al nivel " de significancia (0.5, 0.01 o el quese desee) y con gl grados de libertad (n-2).

Así, cuando el intervalo incluye el valor cero, no se puede rechazar la hipótesis nula de que$ = 0, es decir, no se ha encontrado asociación lineal entre las variables, aunque siempredebe advertirse que puede haber otro tipo de asociación, la cual se puede sospechar alobservar la gráfica de dispersión (de nuevo, la representación gráfica inicial es indispensablepara este análisis). Si el intervalo no incluye el valor cero, entonces se rechaza la hipótesis nulay se puede afirmar que la pendiente es significativa (que y cambia significativamente conformecambia x).

Dado que para calcular estos errores y sus respectivas franjas de confianza se requiere decálculos muy tediosos (hay que repetir los cálculos para cada valor de x que se desee), se

Page 118: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

113

asume que el estudiante tendrá acceso a programas de cómputo estadísticos que harán másfeliz su vida.

9.3. CORRELACIÓN.Pero aún cuando b sea significativa y de gran magnitud, queda por medir la fuerza de laasociación, es decir, el grado de relación entre las dos variables estudiadas.

Si la variable dependiente tiende a incrementar su valor conforme lo hace la independiente(si el coeficiente de regresión b es positivo), entonces se habla de una correlación positiva (loque en el lenguaje común se conoce como "directamente proporcional"):

Gráfica 9.5.

Si, además de lo anterior, todas las coordenadas llegaran a corresponder a la ecuación (sitodas cayeran sobre la línea de regresión) se dice que existe una correlación perfecta positiva:

Gráfica 9.6.

Page 119: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

114

Por otro lado, si el valor de la variable dependiente tiende a disminuir cuando el de laindependiente aumenta, se tratará de una correlación negativa (en el lenguaje común se leconoce como "inversamente proporcional"):

Gráfica 9.7.

De la misma manera que anteriormente, si todas las coordenadas caen sobre la línea recta,se habla de una correlación perfecta negativa:

Gráfica 9.8.

Si el cambio en y cuando cambia x no muestra ninguna tendencia, entonces podemos decirque las variables no están correlacionadas:

Page 120: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

115

Gráfica 9.9.

Pueden existir, sin embargo, relaciones no lineales:

Gráfica 9.10.

Al hacer la representación gráfica, habrá ocasiones en donde las coordenadas se dispersen enmayor grado alrededor de la linea de regresión, o en donde se acerquen mucho a ella. En elprimer caso, diremos que la fuerza de asociación es menor que en el segundo:

Page 121: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

116

Gráfica 9.11.

La manera de medir esta fuerza de asociación es por medio del coeficiente de correlación rde Pearson (no confundir con el coeficiente de regresión, b):

cuyas propiedades son:a) el signo de r es el mismo signo que el de la pendiente (véase que el numerador es elmismo);b) r sólo toma valores entre -1 y +1 y su valor no tiene ninguna magnitud en términosde las unidades de medida de x o de y;c) si r = 1 o r = -1, entonces se habla de una correlación perfecta;d) si r es igual o muy cercana a cero se puede decir que no hay correlación, pero se debeestar pendiente siempre de la posibilidad de una correlación no lineal;e) una correlación alta (cercana a ±1) no necesariamente indica una relación dedependencia entre las variables, pues puede haber correlaciones falsas.

Debe recordarse que la correlación es asociación estadística, no necesariamente relacióncausal.

El coeficiente r de Pearson es también un estimador del verdadero coeficiente de correlaciónde la población (D), por lo que se le somete a pruebas de hipótesis, en las que la hipótesis nulaes que D = 0. Para ello, se utiliza también la distribución t de Student:

Page 122: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

117

El resultado se contrasta con la distribución t al nivel de significancia deseado y con n-2 gradosde libertad.

Finalmente, es común recurrir a otro coeficiente que en ocasiones sirve como resumen de todoel análisis. Este se llama coeficiente de determinación y es simplemente r el cual se interpreta2

como la proporción o porcentaje en el que la variación de la variable dependiente puede seratribuido a la variación en la variable independiente. Como proporción sólo toma valoresentre 0 y 1 (entre 0 y 100 por ciento). Es decir, entre más alto es el valor de r podemos2

afirmar que la relación entre una y otra variables es más estrecha (ejemplo 9.1).

Page 123: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

118

Ejemplo 9.1: Regresión Lineal y Correlación.

INFORMACIÓN

En un estudio realizado por el Instituto para el Desarrollo de los Recursos (EUA), se midieronentre otras cosas el porcentaje de niños con diarrea tratados por medio de la terapia derehidratación oral (TRO) y los niveles de mortalidad infantil (tasa por 1000 nacidos vivos: TMI)en diferentes países. Esto formó parte del Programa de Encuestas Demográficas y de Salud.Algunos resultados se presentan enseguida:

País TRO (%) TMI (x1000)1 2

Burundi 30 75

Liberia 7 144

Mali 2 108

Senegal 2 86

Marruecos 15 73

Sri Lanka 29 25

Tailandia 37 35

Túnez 20 50

Brasil 9 76

Colombia 42 33

Rep. Dominicana 38 68

El Salvador 26 71

Perú 4 76

Trinidad y Tobago 53 26

: por ciento de niños con diarrea tratados con terapia de rehidratación oral (TRO).1

: tasa de mortalidad infantil (TMI) por 1000 nacidos vivos.2

Utilizando el análisis de regresión lineal, determine si existe una relación entre el porcentajede niños con diarrea tratados con TRO y el nivel de la tasa de mortalidad infantil.

Por supuesto, siempre será mejor hacer este tipo de análisis en con computadora o, al menos,con una calculadora científica con funciones para regresión lineal. En este ejemplo sólo seilustran los pasos generales.

Page 124: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

119

PROCEDIMIENTO

1. Distinga la variable dependiente de la independiente:a) variable independiente (x): porcentaje de niños con diarrea tratados con TRO.b) variable dependiente (y): tasa de mortalidad infantil por 1000 nacidos vivos.

2. Construya la gráfica de dispersión:Vea si los puntos presentan alguna tendencia. Con fines de comparación posterior, trace unalínea a ojo.

3. Obtenga los datos básicos:xG = 22.4286yG = 67.5714E(x-xG) = 3539.42862

E(x-xG)(y-yG) = -5274.4286E(y-yG) = 14159.42862

4. Obtenga los valores de a y de b:b = -5274.43 / 3539.43 = -1.49a = 67.57 - (-1.49) 22.43 = 100.99

5. Trace la linea de regresión:

1 1 2 2Primero, obtenga los valores predichos de y en dos coordenadas (x ,y ) y (x ,y ) que no seencuentren muy cercanas entre sí y compare esta linea con la que trazó a ojo. Por ejemplo:

1si x = 10 por ciento de ninños con diarrea tratados con TRO, entonces

1y = a+bx = 100.99 + (-1.49)(10) = 86.09 (TMI predicha por el modelo para el valorde x);

2y si x = 60, entonces

2y = a+bx = 100.99 + (-1.49)(60) = 11.58

Compruebe que la línea de regresión trazada cruza por la coordenada (xG,yG).

6. Obtenga el valor del coeficiente de correlación:r = E(x-xG)(y-yG) / (E(x-xG) E(y-yG) ) = -5274.43 / (3539.43)(14159.43) = -0.74512 2

7. Obtenga el valor del coeficiente de determinación:r = (-0.7451) = 0.55522 2

INTERPRETACIÓN

Page 125: MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

120

a) Si bien el gráfico de correlación no muestra uniformidad total en la tendencia de los puntos,esto es algo que cabe esperar en todos los casos, más aún cuando son pocas las observacio-nes, como en este ejemplo. A pesar de todo, la tendencia es clara en el sentido de queconforme aumenta el porcentaje de niños con diarrea tratados con TRO, disminuye la TMI;por lo tanto, pareciera ser que el modelo de regresión lineal es aplicable en este caso (enrealidad, harían falta otros análisis para afirmar esto con mayor certeza, pero estos no se veránen el manual).

b) El valor de a = 100.99 indica que la TMI en promedio, tendría este nivel si el porcentajede niños con diarrea tratados con TRO fuera igual a 0. El valor de b = -1.49 indica que porcada punto porcentual de aumento en los niños con diarrea tratados con TRO, la TMI sereduciría en promedio en 1.5 defunciones por cada 1000 nacidos vivos.

c) El valor del coeficiente de correlación r = -0.7451, es alto y negativo, lo que indica unafuerte asociación entre las dos variables. Ello no significa, sin embargo, que necesariamenteexista una relación de causalidad, esta debería establecerse, en todo caso, a través de laexplicación de cómo la TRO puede modificar la TMI y hasta qué punto. Además, otros muchosfactores entran en juego para determinar el nivel de la mortalidad infantil.

d) El coeficiente de determinación r = 0.5551 nos indica que el 55.5 por ciento de la2

variación (de los cambios) en la TMI pueden ser atribuidos a la variación en el porcentaje deniños con diarrea tratados con TRO.