BIOESTADISTICA ( Para Carreras Del Area de La Salud)

105

Transcript of BIOESTADISTICA ( Para Carreras Del Area de La Salud)

Page 1: BIOESTADISTICA ( Para Carreras Del Area de La Salud)
Page 2: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

INDICE Págs. 1. La investigación científica 2. Niveles de medición 3. Errores de la información estadística 4. Tablas estadísticas 5. Gráficos 6. Indicadores de salud 7. Medidas de resumen 8. La distribución normal 9. Probabilidad 10. Distribución binomial 11. Inferencia 12. Estimación de la tasa del universo basada en la tasa muestral (p) 13. La prueba de significación estadística de diferencias entre tasas. El método general seguido en la prueba 14. Prueba X2 (Ji cuadrado) 15. Introducción a la técnica de muestreo 16. Regresión lineal 17. Correlación 18. Tablas Normal Distribución de student Distribución X2

Page 3: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

LAINVESTIGACIONCIENTIFICA A) Necesidad del conocimiento Científico El hombre aspira a captar el orden que existe en el mundo de los fenómenos para hacerlos inteligibles, dar una explicación racional de ellos y hacerlos manejables o previsibles una vez que conoce sus causas. En el campo biológico, los hechos se nos ofrecen a menudo complejos y variables, influidos por causas múltiples y unidos por relaciones diversas, algunas de las cuales son esenciales y permanentes, en tanto que otras son fortuitas circunstanciales. Supongamos por ejemplo que entre los antecedentes de un enfermo de difteria esté el hecho de haber tenido contacto con otro caso de difteria, y que la enfermedad se inició un martes 13. Es tarea propia de la ciencia, observar adecuadamente los hechos, discernir qué elementos son constantes en ellos y determinar las leyes que los rigen, es decir, sus relaciones constantes y universales. Es el método propio a la ciencia, el METODO CIENTIFICO, el que nos permite. en el ejemplo anterior, negar influencia al día que la superstición supone maléfico y afirmar en cambio, que uno de los factores que pueden determinar una difteria clínica es la exposición al contagio. B) El Método Científico Método Científico es un procedimiento que se aplica al ciclo completo de una investigación, desde el enunciado del problema hasta la evaluación de los resultados obtenidos. En forma esquemática, y con las limitaciones que esto supone, podemos distinguir diversas etapas en el método científico. 1. Elección y Enunciado del problema La elección de un problema con el fin de averiguar sus causas o de encontrarle soluciones, dependerá de los juicios de valor del investigador y de las condiciones sociales, políticas y económicas en las cuales se desarrolla la ciencia. Una vez elegido es necesario definir con precisión el problema que se va a investigar para tener un marco de referencia en todas las etapas posteriores. El enunciado puede hacerse a través de la descripción de la situación problema o mediante el planteamiento de una pregunta. Un problema de interés podría ser por ejemplo el de la colelitiasis (cálculos biliares) enfermedad que es frecuente en Chile, consume gran cantidad de recursos médicos y expone a los que de ella sufren, a graves riesgos para su salud. E1 problema a estudiar podría ser; se desconocen los factores causales de la colelitiasis o, si se desea plantear como pregunta; ¿Cuáles son los factores causales de la colelitiasis? 2. Formulación de una Hipótesis La hipótesis es una explicación posible de la situación Problema o una respuesta posible a la pregunta planteada. Se formula en términos afirmativos respecto a relaciones entre variables pertinentes. Frente al problema que sirvió de ejemplo, una hipótesis podría ser; un factor causal de la colelitiasis es el alto contenido en sales minerales del agua de bebida. Esta afirmación será sometida a prueba. En general, la hipótesis se basa en el conocimiento científico existente, en la experiencia previa del investigador o en la observación de hechos relacionados con el problema. Excepcionalmente un investigador formulará hipótesis que no se basan en el conocimiento existente sino que son el resultado de una originalidad genial que puede hacer cambiar el curso de la ciencia. 3. Deducción de consecuencias verificables de la Hipótesis Siendo la hipótesis una explicación o una respuesta general, muchas veces no es posible investigar directamente su veracidad. Se procede en estos casos a deducir en forma lógica, consecuencias particulares de la hipótesis. De la hipótesis más arriba enunciada puede deducirse por ejemplo que, regiones con agua dura tendrán mayor morbilidad por colelitiasis que regiones con agua blanda. 4. Verificación de la Hipótesis La verificación puede hacerse, sobre todo en las ciencias exactas, mediante demostraciones teóricas basadas en relaciones aceptadas en el estado actual del conocimiento.

Page 4: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

En el campo biológico la verificación se hace, a través de recolección de información o de observación de los fenómenos. Esto implica la aplicación de una serie de procedimientos estadísticos. En el ejemplo de la colelitiasis la verificación podría consistir en el análisis del agua y la recolección de datos sobre frecuencia de colelitiasis en diferentes regiones, estableciendo relaciones entre ambas variables. 5. Interpretación de los resultados Con los datos obtenidos en la etapa anterior se decide si se ha de rechazar o no la hipótesis en estudio. Si las consecuencias particulares de la hipótesis fueron deducidas lógicamente y los hechos no están de acuerdo con lo esperado, en principio debemos rechazar la hipótesis. Si por ejemplo la frecuencia de colelitiasis es semejante en regiones con agua dura y agua blanda, deberemos rechazar la hipótesis de la cual se dedujo la consecuencia estudiada. Debe tenerse cuidado, sin embargo, de considerar en este caso, que la dureza del agua podría no ser el único factor causal, siendo posible la existencia de otros factores que encubrieran el verdadero efecto de las sales minerales del agua. Si por ejemplo, los que viven en sitios de agua dura, consumen menos grasa que los otros y si el consumo de grasas fuera otro factor causal, un efecto real del agua podría quedar contrarrestado por el efecto de la dieta que está actuando en sentido contrario. Si los hechos se muestran de acuerdo con la hipótesis y sus consecuencias, no rechazaremos la hipótesis. Esta actitud también está expuesta a error. Si la verdadera causa de la colelitiasis radicara en él consumo de grasa y en las regiones con agua dura se consumiera más grasa, una mayor frecuencia de colelitiasis en esas regiones se interpretará erróneamente como consecuencia del contenido mineral del agua por ser esa la variable considerada de acuerdo a la hipótesis. Tanto el rechazo como él no rechazo de la hipótesis llevan a la reiniciación del ciclo de investigación descrito más arriba. Si la hipótesis ha sido rechazada, el problema persiste y habrá que seguir investigando ésta o nuevas hipótesis. Si la hipótesis no se rechazó habrá que seguir 'aportando mayores evidencias a su veracidad. La verdad absoluta, seguirá siendo la meta final y desconocida del método científico. Los logros se reducirán a construir un cuerpo de conocimientos con estructura lógica y soportes racionales que resista la verificación empírica. "La ciencia es una escuela dé modestia, de valor intelectual y de tolerancia: muestra que el pensamiento es un proceso, que no hay un gran hombre que no se haya equivocado, que no hay dogma que no se haya desmoronado ante el embate de los nuevas hechos". (Ernesto Sábato en: Uno y el Universo). C) El Método Estadístico Es un conjunto de procedimientos aplicados en secuencia lógica a la obtención y análisis de datos influidos por múltiples factores. El método estadístico proporciona las técnicas para llevar a la práctica aquellas etapas del método científico que requieren recolección y análisis de información. Se divide en una etapa de planificación y una etapa de ejecución. l. Planificación Mientras mejor planeada esté una investigación, más se facilitará su realización. Es conveniente considerar los siguientes aspectos en la planificación o diseño de una investigación. 1.1 Definición de Objetivos Debe ser el primer paso de toda investigación. Consiste en señalar detalladamente lo que se pretende investigar, el qué, cómo, dónde, cuándo, y por qué. Los objetivos podrán modificarse en las etapas siguientes si se ve que por alguna circunstancia no será factible cumplirlos. Idealmente, toda modificación debería hacerse en la etapa de planificación para que la ejecución se realice con objetivos definitivos. Formalmente pueden corresponder a la descripción del problema que da origen a la investigación o a las preguntas que la investigación pretende contestar En los casos en que existe hipótesis, corresponderán a las consecuencias que se han derivado de ella. 1.2 Definición del Universo E1 universo o población del cual se extraerá la información y a h cual se referirán los resultados debe quedar claramente definido.

Page 5: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

Así por ejemplo si se desea describir el problema de las drogas en la juventud chilena será importante definir qué se entenderá por juventud chilena y si no posible abarcar a toda la juventud, delimitar a que parte de ella se refiere el estudio. 1.3 Diseño de la Muestra Con frecuencia es imposible, innecesario o poco práctico el estudio de el universo. En estos casos se estudiará una muestra que, si se diseña de acuerdo a ciertos principios probabilísticos, permitirá la generalización al universo de origen de los resultados en ella obtenidos. 1.4 Definición del Grupo Control La investigación de hipótesis hace necesaria la comparación entre grupos con y sin la variable en estudio, o bien entre unidades de observación con diversos valores de esta variable. En el primer caso se llamará grupo de estudio al que posee la variable y grupo control o testigo, al que no la posee. El grupo de estudio puede ser por ejemplo el que recibe un trata miento cuyo efecto se desea averiguar y grupo control el que no lo recibe. Para que la comparación sea válida, ambos grupos debieran diferir sólo en la variable bajo estudio. Un modo eficaz de lograrlo es la adjudicación aleatoria del tratamiento a las unidades de observación, posible sólo en Los experimentos. 1.5 Definición de las Unidades de Observación Tiene importancia tener claro en qué elementos se estudiarán las variables. En una misma investigación cada objetivo puede requerir el estudio de distintas unidades. Así por ejemplo en una investigación sobre morbilidad podría haber aspectos que se refieran a la familia, otros a la vivienda y otros a cada persona de la familia. 1.6 Determinación de la Información Necesaria Con el fin de simplificar las etapas de recolección y análisis debe hacerse una cuidadosa selección de la información a recoger. Esta debe ser la mínima suficiente para cumplir los objetivos, debe ser accesible y medible con un error mínimo. 1.7 Determinación de la Fuente de Origen de la Información Podrá abstenerse de registros permanentes como lo son por ejemplo las fichas clínicas de un hospital, el Registro Civil, etc. Son datos fácilmente obtenibles pero tienen el defecto de no haber sido recogidos, la mayoría de las veces, para los objetivos de la investigación. Entre las formas más frecuentes de obtener información para determinado estudio están la entrevista para las encuestas, y la observación y medición para los estudios clínicos y de laboratorio. 1.8 Fijación de Unidades de Medida y Escalas de Clasificación Esta fijación determinará la manera de registrar y tabular la información. Si por ejemplo en una investigación la edad de los individuos sólo requiere ser conocida en su distribución en grandes grupos no habrá necesidad de registrar la edad exacta sino que el grupo al que pertenece la persona. Debe tenerse presente que una decisión de este tipo hace que la información detallada se pierda definitivamente en esta investigación. 1.9 Elaboración del Plan de Tabulación y Análisis Muchas veces se revisará la información que se estimó necesaria al comienzo, agregando o suprimiendo datos; en el momento de clarificar la forma en que se presentará y analizará esta información. 1.10 Organización de la Investigación Comprende todos los aspectos prácticos. Habrá que determinar la cronología, estimando la duración aproximada de diversas etapas de la ejecución. La elección del personal que debe intervenir y su adiestramiento será otro punto importante. Deberán fijarse los procedimientos de análisis: manual, computación con equipos convencionales o electrónicos. Por fin deberá estimarse el costo de la investigación por conceptos de remuneraciones, obtención de muestra, materiales, uso de equipo, etc. 2. EJECUCIÓN Consiste en llevar a la Práctica lo que se planificó. Pueden mencionarse algunas sub-etapas:

Page 6: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

2.1 Recolección de la Información Deberá hacerse siguiendo criterios e instrucciones uniformes, sobre todo cuando hay varios investigadores. 2.2 Elaboración de la Información La información se revisará respecto a su integridad y a la existencia de errores. Luego se clasificarán las unidades de observación de acuerdo a las escalas elaboradas previamente y se hará el recuento de unidades en cada categoría. La presentación tabular y gráfica facilitará la descripción y análisis. E1 resumen de los datos mediante medidas adecuadas permitirá la descripción y comparación de los grupos en estudio. 2.3 Análisis de los resultados Cuando un estudio es sólo descriptivo, esta etapa consiste en la presentación de los hechos encontrados. Cuando existe una hipótesis, se evalúa el cumplimiento de los supuestos teóricos a la luz de la inferencia estadística. Los resultados obtenidos nos llevarán a rechazar o no, la hipótesis en estudio, con probabilidad de error conocidas y aceptadas, siempre que el diseño de la investigación permita este análisis. D). Tipos de Investigaciones Un mismo problema puede estudiarse de distintas maneras. E1 tipo de investigación que se realice dependerá entre otras cosas de: los objetivos de La investigación, la existencia de hipótesis, la fuente de origen de los datos el orden en que se recoge la información y el manejo de las variables. A continuación se muestran algunas clasificaciones de investigaciones con frecuencia en medicina. 1. Retrospectiva y Prospectiva Con respecto a la relación entre tiempo de ocurrencia .y registro de la información se define a la investigación retrospectiva como aquélla que averigua hechos ocurridos en el pasado, la investigación prospectiva, en cambio va registrando la información a medida que se va produciendo. Con respecto a la relación entre causa y efecto, en la investigación retrospectiva, las unidades de observación se clasifican según la variable “efecto” y luego se averigua la existencia o intensidad de la variable presumiblemente causal en las diferentes clases. En la investigación prospectiva la primera clasificación se hace según la variable que se supone causal y luego se va registrando la ocurrencia o no, del efecto. Ejemplo: Frente a la hipótesis de que el consumo de cigarrillos favorece la aparición de cáncer pulmonar la investigación retrospectiva clasificaría a los individuos en cancerosos y sanos y averiguaría si existe diferencia en el hábito de fumar entre los dos grupos. En una investigación prospectiva se observaría si en un grupo de fumadores aparecen más enfermos o muertos de cáncer pulmonar que en un grupo de no fumadores. 2. Transversal y Longitudinal La investigación transversal estudia las diversas variables en determinado momento, la longitudinal estudia las variables a través del tiempo. Pueden compararse a una fotografía instantánea y a una película de los hechos respectivamente. Ejemplo: Para determinar el crecimiento ponderal de niños normales es posible hacer un estudio transversal en que se pesan niños normales de diferentes edades. El promedio de peso de los niños de sucesivas edades da respuesta al problema. El estudio longitudinal del problema implica controlar desarrollo, ponderal de un grupo de niños a partir de su nacimiento en intervalos de tiempo determinados. 3.Descriptiva y Explicativa La investigación descriptiva tiene como objetivo mostrar una situación, la explicativa, pretende averiguar la veracidad de una hipótesis. Los resultados obtenidos en una investigación descriptiva pueden dar origen a una hipótesis y cumplir así con la primera etapa del método científico. Ejemplo: El estudio del crecimiento ponderal del niño sano es una investigación descriptiva, en cambio, averiguar la relación entre cáncer de Y el hábito de fumar es una investigación explicativa.

Page 7: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

4. Experimental y no Experimental La investigación experimental tiene como característica que el investigador maneja la variable independiente. Las unidades experimentales son adjudicadas en forma aleatoria a las diferentes categorías del factor presumiblemente causal, estudiándose los efectos que se producen. En las investigaciones no experimentales sólo se puede clasificar el material de estudio en diferentes categorías de los factores causa y efecto, estudiando la relación entre ambos. Las conclusiones de estudios experimentales bien diseñados son más válidas que las conclusiones que se obtengan de buenos estudios no experimentales. El experimento es el mejor camino para acercarse científicamente a la verdad en la investigación de relaciones causales porque permite conocer la probabilidad del error que pueda cometerse en las conclusiones. Ejemplo: Para estudiar el efecto de la dieta sobre el desarrollo intelectual puede hacerse un experimento con ratones. Si se dispone de dos dietas, una completa y otra carenciada, podría usarse el siguiente procedimiento aleatorio (al azar) para determinar cuáles animales recibirán una y otra dieta: se toman tantas fichas como animales haya en el experimento, la mitad de color rojo, simbolizando la dieta completa y la otra mitad azul, simbolizando la dieta carenciada. Frente a cada ratón se saca a ciegas una ficha cuyo color indicará la dieta que se le suministrará. Se espera que el azar haya repartido todas las características de los animales en forma equitativa entre los dos grupos, de modo que sean fundamentalmente semejantes, diferenciándose solamente en la dieta. Se estudiará luego el desarrollo intelectual a través de pruebas de aprendizaje u otros procedimientos en ambos grupos para ver si existen diferencias entre ellos. Un estudio no experimental del mismo tema consistiría en estudiar por ejemplo la capacidad intelectual de niños que hayan sido calificados como desnutridos en comparación con la capacidad intelectual de niños bien nutridos. Si la desnutrición estuviera ligada a mal cuidado de la madre por un bajo desarrollo intelectual de ella, va a ser difícil separar el factor hereditario del factor nutricional y si bien se pueden hacer comparaciones entre bien y mal nutridos en diferentes subgrupos de la población investigada. estas subdivisiones estarán sujetas al criterio del investigador y nunca estaremos seguros que no se le ha escapado el verdadero factor causal en la clasificación que ha hecho. De esta manera, los estudios no experimentales. los únicos posibles muchas veces por razones éticas, sólo pueden indicarnos posibles relaciones entre las variables. Las distintas clasificaciones no son mutuamente excluyentes e incluso la pertenencia a una categoría puede determinar que una investigación deba ser necesariamente de determinado grupo en las otras clasificaciones. Es así por ejemplo que el experimento será prospectivo, longitudinal. y explicativo en cambio la investigación no experimental puede ser de cualquier tipo en las otras clasificaciones.

Page 8: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

NIVELESDEMEDICIÓN Para describir un objeto, un individuo u otra entidad, hacemos referencia a las propiedades o atributos que posee. Estas atributos pueden expresarse en escalas de diferente nivel de medición. 1 E1 nivel de medición puede depender entre otros, de uno o más de los siguientes factores: naturaleza del atributo, avances científicos y técnicos en 1a medición del atributo, disponibilidad de recursos para efectuar la medición y precisión requerida en la medición. Una vez que se ha elegido el nivel de medición para el atributo o propiedad, las entidades o unidades de observación pueden ser asignadas -a las diferentes categorías de las escalas correspondientes. Consideraremos el siguiente esquema de escalas, que sin ser el único posible, satisface nuestras necesidades de conceptualización básica para fundamentar diferentes técnicas en la presentación y el análisis de datos: Nominal Escalas Ordinal De intervalos Discontinua o discreta Continua Escala Nominal

Las diferentes categorías de la escala se distinguen por el "nombre". que se les asigna. Son ejemplos de datos clasificables en esta escala, las causas de muerte de las defunciones, la circunscripción en que ocurren los nacimientos, el estado civil de las personas. No existe jerarquía entre las diferentes clases de esta escala y su ordenamiento es arbitrario, dependiendo de las preferencias o de las necesidades del usuario de la información. La denominación de cada clase se puede hacer con una palabra o frase, En el ejemplo de las causas de muerte los grupos podrían denominarse: enfermedades infecciosas, tumores, etc. Esta palabra o frase puede ser remplazada por un símbolo cualesquiera o por un código numérico. Por ejemplo se le puede asignar al grupo de enfermedades infecciosas el código 000-136, al de tumores 140-239, etc. Estos números no tienen un significado cuantitativo, sino que son una manera de remplazar un símbolo verbal, como lo es la palabra, por un símbolo numérico. Escala Ordinal Esta escala lleva implícita la idea de jerarquización o de "orden" que permite indicar la posición relativa de los distintos elementos clasificados. Constituye de esta manera una etapa de transición hacia la cuantificación de un fenómeno. Son ejemplos de datos clasificables en esta escala el grado de desarrollo de un país, la gravedad de una enfermedad, la intensidad de un dolor. La calificación de una entidad con el fin de asignarla a alguna de las categorías de estas escalas, puede ser el resultado de la evaluación de uno o más atributos. En este último caso deben resumirse en un índice que re. fleje jerarquía. Este procedimiento es muy usado en ciencias sociales. En psicología y también tiene utilidad en clínica. Se puede definir por ejemplo la gravedad de una tuberculosis pulmonar, por la extensión de la lesión en la placa radiográfica, el examen bacteriológico de la expectoración y el estado general del paciente. Si en cada una de estas variables asumimos la existencia de tres grados: 1, 2, y 3, que a su vez constituyen categorías de escala de tipo ordinal, un paciente podrá quedar catalogado, por suma de estos grados en una escala entre 3 y 9 siempre que se suponga la equivalencia de la importancia de estas variables.

1 (*) Medición es el proceso de asignar números o poner en correspondencia de uno a uno a objetos u observaciones. (Sidney Siegel.)

Page 9: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

Se debe entender claramente que en muchos casos de escalas ordinales en que a las diferentes categorías se le asignan valores numéricos, estos símbolos no gozan de todas las propiedades de los números. Así un grado 3 no tiene el significado de ser tres veces el grado 1 o de estar a igual distancia del grado 2 que éste del grado 1. Sólo se exige que se cumpla una relación de orden en que por ejemplo 1 es menos que 2 y 3 es más que 2. Escalas de Intervalos Las escalas de intervalos se caracterizan porque los números asignados a las diferentes categorías tienen un significado cuantitativo claro, respecto a la distancia que existe entre dos observaciones diferentes. Así por ejemplo, la diferencia entre una persona que mide 1,65 m y otra que mide 1,67 m es igual a la que existe entre una persona que mide 1,72 m y otra que mide 1,74 m. En ambos casos el intervalo entre las mediciones es de 0,02 m. Para nuestras necesidades de descripción y análisis de datos, nos basta distinguir en las escalas de intervalos las que son discontinuas o discretas de las que son continuas. Escala Discontinua o Discreta Esta escala se refiere a datos que resultan del recuento de elementos pertenecientes a la unidad de observación. Así por ejemplo el número de camas de los hospitales, el número de hijos vivos de las mujeres, etc. La escala tiene explícita la relación de orden entre sus diferentes categorías. Así por ejemplo una mujer con tres hijos tiene tres veces más hijos que la que tiene 1. Se llama escala discreta o discontinua porque sus diferentes categorías son los números naturales incluyendo al 0. Escala Continua Corresponde a datos que son el resultado de mediciones, como por ejemplo el peso, la longitud, la temperatura, etc. Su característica es la Posibilidad de existencia de infinitos valores intermedios entre una división de la escala de medida y la próxima. La restricción para la continuidad perfecta en la práctica depende de la precisión del instrumento de medida, y de las necesidades del usuario. Así por ejemplo el peso de un niño recién nacido se expresará a lo más con el detalle de unidades de 10 gramos, aunque entre un peso de 2.950 y 2.960 grs. hay infinitos pesos posibles. Por las limitaciones del instrumento de medición, las escalas continuas en la práctica aparecen como discretas, sin embargo en su presentación y análisis prevalece el criterio de su continuidad teórica. Relación entre Escalas de Diferente Nivel de Medición Se puede observar que el orden en que se han presentado las diferentes escalas, refleja grados de complejidad y de precisión dentro de la naturaleza del fenómeno medido. Es posible que de una escala de intervalos continua, se baje a una escala ordinal. Por ejemplo, la estatura que por la naturaleza de la medida de longitud corresponde a una escala. continua, puede expresarse en escala ordinal si al poner en orden ascendente de estatura, a un grupo de individuos, se les califica por alguna división arbitraria en bajos, medianos y altos. E1 paso de una escala de intervalos a una escala nominal es menos frecuente. Un ejemplo podría ser el de los colores: pueden expresarse en escala continua, usando la longitud de onda de luces de distintos colores, o bien simplemente en una escala nominal que describa la percepción visual del color de un objeto. E1 proceso inverso no es posible y una vez que los datos han quedado clasificados en una escala de. menor precisión, no es posible pasar a una de mayor precisión. Por último debe reflexionarse sobre el hecho que la cantidad de información que aporta cada nivel de medición sobre las unidades de observación no es necesariamente equivalente a la precisión que se obtiene en cada caso. En general la asignación a una categoría en una escala nominal requiere de una amplia definición de los atributos que tienen los objetos en cada categoría, como puede suceder por ejemplo con un diagnóstico clínico en que deben considerarse múltiples elementos. A medida que se progresa en la cuantificación, la atención se restringe a menos elementos medidos con más capacidad de discriminación. La ventaja de la cuantificación reside más que nada en la mayor objetividad que se logra a través de estas mediciones lo que a su vez permite una mejor comparación de diferentes unidades de observación. Es por estos motivos que la aspiración de toda disciplina científica es llegar a la cuantificación de las variables que utiliza.

Page 10: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

ERRORESDELAINFORMACIÓNESTADÍSTICA "El estadístico ha dejado de ser un alquimista del cual se espera que produzca oro a partir de cualquier material sin valor. Es más bien un químico capaz de determinar exactamente cuanto contiene de valioso, y capaz también de extraer esa cantidad y no más. En estas circunstancias sería absurdo alabar a un estadístico porque sus resultados son precisos o reprobarlo porque no lo son. Si es competente en su oficio, el valor de los resultados depende exclusivamente del valor del material que se le ha entregado. Contiene esa cantidad de información y no más: Su única tarea es producir lo que contiene". (R.A. Fisher.) Estas palabras del más importante estadístico de nuestros tiempos tienen interés sobre todo para aquellos que, sin pretender llegar a ser especialistas, estudian algunos principios básicos de estadística o recurren al estadístico para resolver problemas de interpretación de datos. Una información de buena calidad debería ser EXACTA, en otras palabras, debería reflejar la verdad. Sin embargo en el campo de las ciencias aplicadas, la exactitud se ve amenazada por múltiples factores que van desde el diseño de la investigación hasta el registro de los datos. Llamaremos ERROR a la diferencia entre la medida asignada a un objeto y su valor verdadero. Las posibles causas así como los medios para reducir o evitar los errores son fáciles de imaginar. Sin embargo la frecuencia con que a pesar de eso incurrimos en ellos, hace aconsejable discutirlos breve-mente. En el marco del método científico el proceso de OBTENCION DE INFORMA¬CION consiste en que, de acuerdo a un plan preestablecido, un observador fija su atención en una propiedad del objeto o unidad de observación y la mide por medio de instrumentos. El PLAN preestablecido para la observación será parte de la planificación de la investigación. Comprende el enunciado de las definiciones a utilizar, la especificación de las condiciones en que se hará la observación y la descripción de los procedimientos d e medición. Llamaremos OBSERVADOR a toda persona que interviene en el procesó de obtención de información desde la inspección, interrogación, examen o medición del objeto hasta el registro del dato. . El OBJETO es todo lo que puede ser materia de conocimiento o sensibilidad de parte del observador. Definiremos a la UNIDAD DE OBSERVACIÓN como la menor división del material en estudio sometida á observación. El INSTRUMENTO es el medio utilizado para realizar la observación. podrá ser uno de los órganos dé los sentidos del observador, un aparato analizador, una pipeta, una regla, etc. Cuanto mayor sea el poder discriminatorio del instrumento tanto más PRECISA será la observación. A excepción de algunas medidas que resultan de la operación de contar, es imposible en la práctica, conocer la verdad. acerca de un objeto. La presencia de error sólo se detecta a través de las INCONSISTENCIAS DE CLASIFICACION, es decir, cuando se adjudica una misma unidad de observación a diferentes categorías de una escala de clasificación, cuando, esta adjudicación se realiza en más de una oportunidad. Intentaremos algunas clasificaciones de errores que son arbitrarias y , no son las únicas posibles pero servirán para definir un lenguaje común y para sistematizar ideas. ERRORESORIGINADOSENELEMENTOSDELPROCESODEOBTENCIONDEINFORMACION En la planificación La planificación deficiente puede causar errores por falta de definiciones precisas y por heterogeneidad en las condiciones en que se realiza la observación o de los procedimientos de medición. La FALTA DE DEFINICIONES afecta sobre todo a las variables medidas en escalas nominal y ordinal, en que cada categoría de la escala representa en general a un conjunto de propiedades de la unidad de observación que a su vez deben quedar definidas. Así por ejemplo, al clasificar a un grupo de enfermos por diagnóstico, debe definirse qué síntomas, signos y resultados de exámenes se considerarán propios de cada enfermedad. Además se deberá definir qué se entenderá por determinado síntoma o signo. Esto será fácil cuando los factores son pocos y precisos, pero puede ser extremadamente difícil en casos complejos. Una situación similar se observa en una escala ordinal si se desea clasificar enfermos según la gravedad de un síntoma. Cuanto más exhaustivas sean las definiciones tanto más precisos serán los datos obtenidos. En las escalas de intervalos discretas la definición tiene menor importancia por tratarse de datos que son el resultado de recuentos, sin embargo en situaciones en que los elementos contados pueden prestarse a dudas, como por ejemplo en el recuento de colonias microbianas en un cultivo de orina, será

Page 11: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

necesario definir los criterios de lo que se denominará colonia. En las escalas continuas en general la unidad de medida está bien definida como sucede al medir longitud, peso, etc. La heterogeneidad en las condiciones de observación y en los procedimientos de medición puede influir en la exactitud de los datos en cualquiera de las escalas de clasificación. Así por ejemplo, una ictericia puede pasar desapercibida si el paciente es examinado con luz artificial y detectarse al examinarlo con luz natural. calificación de una persona a través de una entrevista puede verse influida por el cansancio del entrevistador, el peso de un individuo depende de la ropa que lleva puesta, Todo esfuerzo que se haga durante la planificación respecto a especifica, las condiciones en que debe realizarse la medición se verá recompensado por la obtención de datos más exactos. Del observador Los errores debidos al OBSERVADOR están relacionados con sus destrezas y habilidades, con su experiencia y con su acuciosidad. La VARIABILIDAD entre observadores o del mismo observador se detecta al someter al mismo objeto a examen por varios observadores o por el mismo observador en diferentes oportunidades respectivamente. Si se encuentran discrepancias entre las calificaciones habrá que adiestrar al observador hasta conseguir una nivelación que asegure límites tolerables de variación. De la unidad de observación Las diferentes variables que pueden ser objeto de medición en la unidad de observación están sujetas a variaciones que no siempre son evitables o previsibles. Así por ejemplo, en un enfermo puede aparecer un nuevo síntoma que hace cambiar e1 diagnóstico primitivo, la presión arterial de un individuo puede variar por diferentes motivos en el transcurso del día, las respuestas a un test de inteligencia pueden depender de factores emocionales, etc. La variabilidad de la unidad de observación prácticamente no puede evitarse pero debe tenerse presente al analizar los datos con el fin de determinar su magnitud, cuando parezca necesario, a través de observaciones sucesivas, en que se asegure la estabilidad de otros posibles factores de error. Del instrumento Las inconsistencias causadas por el instrumento de medición son frecuentes máxime si incluimos en la denominación dé instrumentos a los órganos de los sentidos del observador. Estos influyen sobre todo en los datos en escala nominal u ordinal, en que la sensibilidad varía de uno a otro observador. y en el mismo observador en distintas circunstancias. Los instrumentos de medida tales como pipetas, reglas, balanzas. etc. pueden tener defectos en su CALIBRACION que tienen como consecuencia una inconsistencia en la determinación de la variable cuando es medida con dos instrumentos diferentes. Hay instrumentos muy sensibles que se descalibran fácilmente ante variaciones de las condiciones atmosféricas y que deben calibrarse periódicamente para evitar inconsistencias en las mediciones con el mismo instrumento. Errores Sistemáticos y Aleatorios Los errores analizados más arriba pueden ser todos clasificados en dos categorías; sistemáticos y aleatorios. Se habla de ERROR SISTEMÁTICO cuando cada valor de una serie de observaciones tiene una desviación en una dirección, ya sea en términos de frecuencia o que todos los valores estén aumentados o disminuidos, con respecto a su valor verdadero. Este tipo de error ocurre en todas las escalas. En la escala NOMINAL se manifiesta a través de una mayor frecuencia de clasificación de las unidades en determinado rubro. Así por ejemplo se ha visto en la revisión de causas de muerte no certificadas por médico que hay una repetición de determinada causa de muerte en algunas circunscripciones, dependiendo de los diagnósticos preferenciales que hace el oficial de Registro Civil a base de la descripción de la causa de muerte hecha por los testigos. En la escala ORDINAL es posible que en ausencia de definiciones precisas para distintos grados de intensidad haya diferencia sistemática entre los observadores para calificar la intensidad de un síntoma.. En la escala de INTERVALOS DISCRETA el recuento de colonias microbianas por ejemplo puede tener variación sistemática entre un observador y otro al mirar las mismas placas, por distinta apreciación de lo que es una colonia. En las escalas CONTINUAS en que interviene un instrumento de medición, la defectuosa calibración de una balanza o de una pipeta produce errores sistemáticos en un sentido con respecto a instrumentos con otra calibración.

Page 12: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

Las CAUSAS de los errores sistemáticos son en resumen la falta de definiciones precisas, la diversidad de criterios o la mala calibración dé instrumentos. Dependen en consecuencia del observador o del instrumento y raramente de la unidad de observación. Para REDUCIRLOS o evitarlos deberán unificarse las definiciones y calibrarse correctamente los instrumentos. Si se descubre el defecto de calibración y se le puede asignar un valor, es posible corregirlos sumando o restando una cantidad fija a cada observación según el sentido en que haya actuado la mala calibración. Los ERRORES ALEATORIOS se deben a múltiples factores, generalmente no identificados y que producen variación en mas o menos respecto al verdadero valor. Se pesquisan sobre todo en datos en escala de intervalos en que para sucesivas lecturas o mediciones de un mismo objeto se observa una dispersión de los valores. Se estudian de preferencia en medidas en escala continua. Son ejemplos de estos errores la dispersión que se encuentra cuando diferentes observadores miden una misma recta o cuando un mismo observador repite la medición de esa recta. Prácticamente no hay medios eficaces para evitarlos. Se podrán reducir haciendo mediciones cuidadosas. Lo más frecuente es que se describa su magnitud a través de modelos teóricos de la conducta del error, que permiten obtener un valor central para la medición y una magnitud para la dispersión. Equivocaciones Usaremos esta denominación para errores que se producen por la incorrecta aplicación de un procedimiento o de una norma. Son ejemplos de equivocación los errores de recuento, cálculo aritmético, asignación de códigos, registro de datos, etc. Por definición se deben al OBSERVADOR y generalmente son ocasionados por falta de acuciosidad en el trabajo o por cansancio en la repetición de operaciones rutinarias. La manera de evitar equivocaciones es la REVISION cuidadosa de las operaciones realizadas ya sea por el mismo observador o mejor aún por otra persona, ya que es poco probable que dos personas cometan la misma equivocación. Los procedimientos de revisión están contemplados en todo buen plan de investigación y deberán ser tanto más completos cuanto más graves pueden ser las consecuencias de la equivocación.

TABLASESTADISTICAS Las tablas estadísticas sirven para presentar los datos numéricos obtenidos en algún estudio, en forma ordenada. Las etapas principales en la construcción de una tabla son; 1) Definir los propósitos de la tabla 2) Colocar un título a la tabla 3) Asignar las escalas de clasificación a filas y columnas 4) Colocar los datos numéricos obtenidos del material en estudio y completarlos con porcentajes si es necesario. 1) Definir los propósitos de la tabla Según los propósitos distinguimos tablas de DISTRIBUCION DE FRECUENCIAS en que el material se clasifica según un solo criterio y tablas de ASOCIACION en que se desea mostrar la relación entre dos o más variables en las unidades de observación. La definición de los propósitos ayuda a determinar los CRITERIOS DE CLASIFICACION a usar en las tablas y el SENTIDO en que deben analizarse los datos. Si el propósito es por ejemplo mostrar las edades de un grupo de enfermos sólo emplearemos un criterio de clasificación, la edad, y construiremos una tabla de distribución de frecuencias. Si el propósito es, en cambio. mostrar la relación que existe entre la edad y la gravedad de la enfermedad haremos una tabla de asociación con dos criterios de clasificación, la edad y la gravedad. La manera más práctica para definir los propósitos de una tabla es a través de la formulación de la o las preguntas que se intenta contestar con la tabla. Es así como en el primer ejemplo se podría preguntar: ¿cuál es la distribución por edad de los enfermos?, y en el segundo: ¿hay relación en¬tre la edad de los enfermos y su gravedad?

Page 13: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

2) Colocar el título Las tablas deben tener un título completo que especifique: QUE se presenta. Por ejemplo: enfermos, operados, diagnósticos, etc. COMO se clasifican las unidades de observación. Por ejemplo: enfermos según grupos de edades, operaciones según resultados, diagnóstico según gravedad, etc. DONDE fueron registrados los datos. Por ejemplo: Departamento de Cirugía del Hospital A., Asistencia Pública de Santiago, etc. CUANDO se registraron los datos: 1972, de 1940 a 1970, etc. Hay algunos CASOS ESPECIALES en que no es necesario ceñirse estrictamente a estos datos en el título o en que deben agregarse otros elementos: Los TITULOS CON MENOS DATOS se podrán colocar cuando en una misma investigación se presentan varias tablas que se han originado todas en el mismo lugar y en el mismo tiempo. Estos datos aparecerán en el texto del trabajo y no será necesario repetirlos en cada tabla. Entre los elementos agregados tenemos las NOTAS AL PIE que deberán colocarse por ejemplo cuando el origen de los datos es otro estudio cuya referencia debe quedar anotada. Como las referencias en general son largas y le restarían claridad al título se puede colocar allí un signo y colocar frente al mismo signo en el pie de la página, la referencia completa. También se colocarán notas al pie cuando debe explicarse la forma de obtención o de análisis de los datos. Por ejemplo: Se excluyó en el análisis la categoría: desconocidos. En general será objeto de una nota al pie cualquiera circunstancia que requiera una aclaración. Cuando un trabajo contiene varias tablas conviene colocarles NUMEROS: tabla 1, tabla 2, etc. Esto facilita la referencia a la tabla en el texto. El número complementa al título, y se coloca independiente de él, ya sea sobre él o al pie de la tabla. 3) Asignar las escalas de clasificación a filas y columnas Cuando hay un solo criterio de clasificación de las observaciones se colocará la escala de clasificación en la primera columna. En el ejemplo de clasificación por edad:

Cuando hay MAS DE UN criterio se preferirá colocar la escala con MAYOR NUMERO DE GRUPOS en la primera columna. Al clasificar por edad y gravedad a un grupo de enfermos son más los grupos de edad que las categorías de gravedad.

Page 14: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

Cuando hay dos escalas de clasificación y una se refiere a los antecedentes y la otra a las consecuencias, preferimos colocar los antecedentes en la columna de la izquierda y la consecuencia en la fila superior. Si por ejemplo, deseamos estudiar la relación entre tratamiento y desenlace de una enfermedad en que el tratamiento es el antecedente y el resultado es la consecuencia, la tabla se haría en la siguiente forma:

Las tablas de más de dos criterios de clasificación presentan dificultades de lectura y debieran evitarse como tablas de presentación en publicaciones. Son útiles como tablas de referencia para colocarlas en anexos del trabajo. También sirven como tablas de trabajo para resumir todos los datos y poder extraer de ellas tablas más sencillas. 4) Colocación de los datos numéricos Una vez que se tienen claros los propósitos de la tabla, se ha colocado el título y se han asignado las escalas de clasificación a las filas y las columnas es útil disponer de una columna o fila o de ambas con los totales marginales que se obtienen por suma horizontal o vertical de los valores de los casilleros. 5e calcularán PORCENTAJES y se colocarán al lado de los valores absolutos respectivos con dos objetivos: Destacar la FRECUENCIA de un hecho en un total o COMPARAR la ocurrencia de un mismo hecho en dos o más grupos. Es más fácil entender que 83,4% del total de enfermos mejoró que decir mejoraron 176 de 211 enfermos.

No usaremos porcentajes cuando el número de casos es muy reducido. Si por ejemplo se somete a tratamiento a 5 enfermos cada uno de ellos representa un 20% del total. Si en este caso hablamos de éxito en el 80% de los casos daremos una falsa impresión de estabilidad de nuestra información la que no refleja la realidad de nuestra experiencia. Podríamos fijar arbitrariamente la cantidad de 20 como límite entre número reducido en que no calculamos porcentajes : número grande en que si lo calculamos. Para el CALCULO DE PORCENTAJES se divide el número de obs. del grupo cuya frecuencia se requiere destacar por el total del cual proviene y luego se multiplica por 100. En nuestro ejemplo la mejoría con tratamiento A se obtuvo en 72 de los 83 tratados. 72 : 83 = 0, 867 0,867 x 100 = 86,7%

Page 15: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

EjemplosdeTablas DistribucióndeFrecuenciasEjemplo N° 1 1. Propósito Mostrar la distribución de frecuencia de diagnóstico en enfermos con hemorragia digestiva alta.

2. Título

Indica QUE se pregunta: enfermos con hemorragia digestiva alta; COMO se clasifican: según diagnóstico; DONDE fueron estudiados: en el servicio X; CUANDO fueron estudiados: año 1972. 3. Escalas de clasificación Hay un solo criterio de clasificación: el diagnóstico, por lo tanto lo colocaremos en la primera columna. 4.Datos numéricos Se estudió un total de 350 enfermos. Por tratarse de una escala nominal no hay un orden preestablecido de las categorías y se colocarán por orden de frecuencia a excepción del rubro "no precisado" que se deja en último lugar. Para mayor claridad se calcularán porcentajes sobre el total.

TablaN‐°1Diagnóstico en enfermos con Hemorragia Digestiva alta Servicio X Año 1972

TablasdeAsociación Ejemplo N°1 1. Propósito Mostrar el efecto de dos tratamientos en la evolución del dolor en enfermos de angina de pecho. 2. Titulo Indica QUE se presenta: enfermo de angina de pecho; como se clasifican: según efecto de la droga X y de un placebo (sustancia similar en apariencia a la droga pero sin contener su principio activo) sobre el dolor; DONDE fue estudiado el grupo de enfermos y CUANDO se estudió.

Page 16: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

3. Escalas de clasificación Hay dos criterios de clasificación: tratamiento que puede ser droga X o placebo y evolución del dolor que se clasifica en tres tipos en una escala ordinal que determina la secuencia en que se anotarán las categorías ya sea en orden creciente a decreciente del efecto. Según la regla anteriormente mencionada, de colocar la escala con mayor número de categorías en la primera columna, deberíamos colocar allí la evolución del dolor. (Tabla 2), sin embargo, esta forma de presentar los datos parece menos clara que si seguimos el criterio de colocar el antecedente en la primera columna y la consecuencia en la primera fila (Tabla 3). 4. Datos numéricos Si bien en este caso los dos grupos son de igual tamaño: 35 pacientes, lo que no hace indispensable el calculo de porcentajes, éstos facilitan la comparación. E1 sentido en que deben calcularse los porcentajes está especificado en el propósito de la tabla: deseamos saber la frecuencia con que los enfermos mejoran, siguen igual o empeoran de su dolor en cada tratamiento. Se calcularan, por lo tanto, sobre el total de cada grupo de tratados. La interpretación se haría muy engorrosa si los porcentajes se calcularan en el otro sentido, pues nos dirían cuántos de los enfermos que mejoran, siguen igual o empeoran han sido tratados con droga o con placebo.

TablaN°‐2Efecto de droga X y de placebo sobre el dolor en enfermos con angina de pecho, Servicio X, año Y

TablaN‐°3Efecto de droga X y de placebo sobre el dolor en enfermos con angina de pecho, Servicio X, año Y

Page 17: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

Ejemplo N°- 2 1. Propósito Mostrar si la mortalidad de prematuros depende del peso al nacer y del sexo. 2. Título Específica toda la información que se presenta en la tabla.

3. Escalas de clasificación

Son tres: peso, sexo y mortalidad. Debido a que tanto en mujeres como en hombres interesa la mortalidad en relación al peso, el peso es el antecedente más general y lo colocaremos en la primera columna, Los otros dos criterios se colocaran arriba comenzando por el antecedente segundo en importancia que es el sexo y colocando debajo el criterio que corresponde a la consecuencia que es la mortalidad. 4. Datos numéricos Para cada sexo y en cada grupo de peso el desenlace puede ser sobrevida o muerte. Con el fin de no recargar la tabla será preferible colocar so- lo uno de estos datos (Tabla N°- 4), Se ve que al hacer la tabla completa (Tabla N -°5) se dificulta el análisis.

Tabla N°‐4Mortalidad de prematuros con trastornos respiratorios severos según peso al nacer y sexo Servicio A, 19 ..

TablaN‐°5Mortalidad de prematuros con trastornos respiratorios severos según peso al nacer y sexo Servicio A, 19,.

Page 18: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

CasoEspecialCuando una misma unidad de observación puede presentar más de un atributo de la escala de clasificación, se presenta el problema de que la suma total de casos no corresponde al número de unidades de observación. Esto sucede por ejemplo, al hacer una distribución de frecuencia de síntomas o de complicaciones de una enfermedad, en que cada paciente puede presentar más de un síntoma o complicación. En estos casos deberá especificarse en el título que se están clasificando síntomas y aclarar con una nota al pie el procedimiento que se usó para hacer la tabla.

TablaN‐°6Frecuencia de síntomas subjetivos en 126 enfermos con cuadros neuróticos y neurovegetativos funcionales.

Casuística X año Y

(*) % sobre el total de 126 enfermos. La suma del número de casos es 557 y corresponde en realidad al número de síntomas que hubo. El título especifica claramente 'que se trata de síntomas en 126 enfermos. Además se hace referencia a través de la llamada (*) frente al porcentaje a la nota aclaratoria al pie de la tabla. En este caso no se coloca total bajo las columnas.

Page 19: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

GRAFICOS El gráfico es la representación de datos numéricos en el plano con el fin de obtener una impresión visual de conjunto del material presentado que facilite su rápida comprensión. Los objetivos de la mayoría de los gráficos son representar distribuciones de frecuencias o mostrar la asociación entre dos o más variables investigadas en las unidades de observación. Requisitosgeneralesdeungráfico 1. Debe ser sencillo y autoexplicativo. No debe tener más elementos que los que puedan captarse cómodamente con la vista ni menos que los que permiten la identificación del material presentado: títulos, escalas numéricas y leyendas. 2. Debe presentar fielmente los hechos. Se evitarán distorsiones por escalas exageradas. Ejemplo: Baja de un índice en el lapso de 10 años desde dos puntos de vista.

En la comparación de grupos debe evitarse el predominio de un color o de un matiz sobre otro. Es preferible el contraste entre distintos rayados que entre negro y blanco ya que en el último caso las secciones blancas aparecerán menos importantes. Ejemplo: Los hombres parecen menos importantes en el gráfico A que en el B.

Page 20: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

En los gráficos de barras los rayados se harán de preferencia oblicuos porque las rayas horizontales o verticales distorsionan el ancho y el largo de la barra. 3. Debe ser agradable a la vista. Se recomienda en lo posible la proporción de 1:1,5 entre la longitud de los ejes que corresponde aproximadamente a la sección áurea. Para categorías de una misma variable representadas por barras se usará un solo color o un solo tipo de rayado ya que la profusión de colores o rayados fuera de resultar antiestética quita claridad a la presentación. El gráfico debe ser limpio, de trazos netos, títulos escritos con letra caligráfica o a máquina y leyendas ubicadas en lugares apropiados. Etapasenlaconstruccióndeungráfico l. Definición de objetivos. Se debe especificar qué se desea mostrar, para qué, a quienes y dónde. 2. Elección del tipo de gráfico. Depende de las escalas de clasificación de los datos y de los objetivos del gráfico. 3. Construcción propiamente tal. Decisión sobre tamaño y proporciones. Adaptación de las escalas a estas proporciones. Inscripción de puntos y dibujo del gráfico. Colocación de Títulos al gráfico y a sus elementos, que especifiquen claramente lo que se está presentando. Tiposdegráficos La mayoría de los gráficos utilizados con fines de presentación de datos estadísticos se basan en un sistema de ejes perpendiculares orientados en los que se inscriben las escalas de clasificación o las frecuencias.

Page 21: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

1. Gráficos de Barras Barras simples Se usa para presentar la distribución de frecuencias de variables en escalas nominal, ordinal y de intervalos discontinua. Cada categoría se representa por una barra cuyo largo indica la frecuencia o el número de casos pertenecientes a esa categoría. E1 ancho de las barras es constante al igual que los espacios entre las barras. En escalas de intervalos discretas con muchas categorías, es frecuente el uso de barras lineales. El orden de las barras puede estar dado por su longitud o por la secuencia más lógica de las categorías. Así por ejemplo al representar la frecuencia de síntomas de una enfermedad podría ser más adecuada una ordenación por frecuencia, en cambio, si se desea representar la frecuencia de número de hijos de las mujeres de una población, será mejor una ordenación de las barras según este número. Cada barra debe tener un título que especifique la categoría que representa. Si los títulos son largos conviene hacer el gráfico con barras transversales si son cortos se preferirán barras verticales. Debe evitarse la colocación de claves a las barras con una interpretación adjunta ya que ello dificulta la rápida comprensión del gráfico. No deben colocarse títulos o números sobre o dentro de las barras porque distorsionan la magnitud de ellas. Las barras pueden inscribirse marcando sólo su contorno a bien rellenándolas de negro o con rayados oblicuos. Las barras en color se usan de preferencia para gráficos de presentación al público y no convienen para publicaciones ya que el costo de impresión es alto. Tanto el rayado como el color debe ser el mismo para todas las barras de este tipo de gráfico. Ejemplos:

Barras agrupadas Se usa para mostrar la asociación o relación entre dos o más variables en escalas nominal y ordinal y en algunos casos de escalas de intervalos discretas. Se dibujan grupos de barras que correspondan a subdivisiones de una clasificación más general.

Page 22: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

Si queremos representar por ejemplo el resultado en términos de mejoría y muerte de tres tratamientos: A, B y C, podremos construir para cada resultado el trío de barras correspondiente a los tratamientos, o bien construir para cada tratamiento el par de barras correspondiente a los diferentes resultados. Las barras de cada grupo deberán tener rayados diferentes para cada subdivisión con una interpretación de la clave en. un lugar apropiada del gráfico. Será preferible hacer la clasificación primaria por la variable con más categorías con el fin de disminuir el número de claves necesarias para la interpretación, a menos que con esta agrupación se pierda claridad en la demostración de los hechos que se presentan o no se cumpla con el objetivo real del gráfico. Debe tenerse presente que las variables cuya comparación sea de mayor interés se deben colocar dentro de un mismo grupo de barras. Ejemplos: La relación entre condiciones higiénicas, edad y frecuencia de anticuerpos para virus de poliomielitis puede estudiarse en los dos gráficos que siguen. El gráfico A destaca la comparación entre condiciones higiénicas. el gráfico B, la comparación entre edades. Debe notarse que en este caso la variable edad, que por su naturaleza debiera estar en escala continua, se maneja como discontinua con 3 grupos en que el último no tiene límite superior definido.

Page 23: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

Barras subdivididas

Es un gráfico muy apropiado para mostrar la composición proporcional de distintas categorías. No conviene hacer más de tres subdivisiones de cada barra porque se dificulta la comparación. Está especialmente indicado cuando en algunas categorías el 100% de las unidades de observación pertenece a uno de los subgrupos, caso en el que para un gráfico de barras agrupadas se encuentra el problema de no tener frecuencia para una de las barras de una de las categorías. Ejemplo:

2. Gráficos Sectoriales Por su agradable apariencia son adecuados sobre todo para la presentación al público. Se utilizan para los mismos casos que los gráficos de barras, con la limitante que toda frecuencia debe expresarse como proporción del total. Esta proporción determina el ángulo con respecto a los 360, del circulo total que debe limitar el sector que representa la frecuencia correspondiente. Ejemplo:

Page 24: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

3. Histogramas Se usan para presentar datos en escalas de intervalos continuas. Consisten en una serie de rectángulos adyacentes cuyas superficies representan la frecuencia en cada categoría de la escala de clasificación. Cuando el material de estudio está clasificado en intervalos iguales, los rectángulos tienen todos el mismo ancho y su altura corresponde directamente a la frecuencia observada en el intervalo. Para la distribución por edades que se muestra en la siguiente tabla, el gráfico adjunto es un ejemplo de histograma.

Si en el ejemplo anterior, en vez de la clasificación en grupos quinquenales interesaran los siguientes intervalos: 0 - 4. 5 - 14. 15 - 24 y 25 - 39, las frecuencias en estas nuevas categorías serán la suma de las frecuencias que existían en las que le dieron origen:

Vemos que ahora los intervalos son desiguales, situación que se debe mostrar en el histograma correspondiente a través del diferente ancho de los rectángulos o barras. Para que los rectángulos mantengan una superficie que represente la frecuencia real, será necesario ajustar su altura al ancho de los intervalos. E1 gráfico resultante se llama HISTOGRAMA AJUSTADO. Como primer paso en su construcción se elige una unidad de intervalo que esté contenida en todas las clases. En el presente ejemplo podemos elegir como unidad, un intervalo de 1 año, que estará contenido 5, 10, 10y 15 veces respectivamente en las sucesivas clases de la tabla. Las frecuencias observadas se dividen por el número de unidades contenidas en cada categoría, dando la frecuencia por intervalos de 1 año la que determina la altura de los rectángulos.

Page 25: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

La posibilidad de expresar las frecuencias ajustadas por diferentes unidades hace necesario que en el eje vertical del gráfico se especifique la unidad de intervalo en la que se expresa la frecuencia: Además es recomendable agregar un rectángulo con una unidad de superficie traducida a frecuencia, para una más fácil interpretación del gráfico.

Cuando una o ambas clases extremas de la distribución de frecuencias tiene límites precisos, como sucede a veces con distribuciones por edad en que la última clase puede ser por ejemplo: 65 y más años, debe ajustarse la frecuencia en esa clase a un intervalo arbitrario que debe quedar especificado al pie del gráfico. Además se hará notar esta situación, dibujando el contorno de ese rectángulo con línea interrumpida o dejándola abierta hacia el límite no definido. 4. Polígonos de Frecuencia Se utilizan de preferencia para la comparación de distribuciones de frecuencias en escalas de intervalos continuas. Son una variedad de histograma simple o ajustado en que el contorno de los rectángulos se remplaza por un polígono que une los puntos medios de sus bordes superiores. De esta manera las áreas de los distintos rectángulos se compensan aproximadamente. Cuando los grupos a comparar son de tamaño diferente las frecuencias absolutas de la distribución deberán convertirse en frecuencias relativas, porcentuales.

Page 26: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

Es conveniente que el comienzo y el final del polígono llegue al punto medio del primer y último intervalo en que sé observaron frecuencias respectivamente: La prolongación de las líneas hasta la frecuencia 0 en el punto medio de los intervalos adyacentes puede llevar a una representación falsa de los hechos. Esto 'ocurre sobre todo cuando la escala horizontal comienza en 0 y cuando la prolongación hacia la izquierda implicaría la existencia de valores negativos, lo que a veces es imposible. Ejemplo:

5. Gráficos lineales Están indicados cuando se debe representar la relación entre dos variables en, escala de intervalos continuas, por ejemplo: concentración sanguínea en función de dosis inyectada, tasa de mortalidad infantil a través de los últimos 10 años, etc. La variable independiente se inscribe en el eje horizontal y la variable dependiente en el eje vertical. La escala en el eje vertical debe comenzar en 0. Si esto implica que un segmento importante del eje no se utiliza y que la escala pierde detalle, se podrá interrumpir este eje mediante dos líneas. Frente al valor de la variable independiente de una unidad de observación se inscribirá con un punto, el valor de la variable dependiente correspondiente. Los puntos contiguos se unen por líneas rectas: Cuando se tiene una serie de intervalos iguales y por algún motivo se desconoce la información frente a alguno de los valores de la variable independiente conviene indicar este hecho con una interrupción de la línea. Esto vale sobre todo para series cronológicas en que los datos de un período a otro suelen sufrir grandes fluctuaciones. Si para la misma escala de la variable independiente se quieren mostrar varios fenómenos, cada uno se inscribirá con líneas de diferente trazado o color. Cuando se desea conocer la conducta del fenómeno en términos absolutos se usarán escalas aritméticas en ambos ejes. Si se desea investigar cambios relativos de la variable dependiente, es útil usar el gráfico semilogarítmico, con el eje horizontal en escala aritmética y el vertical en escala logarítmica. E1 último objetivo también se logra expresando cada valor de la variable dependiente en relación a un valor base, por ejemplo, la mortalidad por enfermedades infecciosas y la mortalidad por cáncer en 20 años se puede expresar en términos del porcentaje que son estas mortalidades cada año respecto a la mortalidad del año inicial del período. En este caso ambas líneas parten del l00%. Los gráficos A y B se basan en los mismos datos. Tasas de mortalidad infantil y de mortalidad general en Chile a partir de 1930. El gráfico A en escalas aritméticas muestra los cambios absolutos, el B en escala logarítmica para las tasas, muestra la reducción relativa de ambos índices.

Page 27: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

8. Gráficos de correlación o Diagramas de dispersión Obedece a los mismos principios que los gráficos lineales, pero en vez de tener una observación frente a cada valor de la variable independiente, pueden tener varios. Sirven para estudiar la relación entre dos variables en escala continua. Los ejes vertical y horizontal deben tener aproximadamente la misma longitud y sólo comprenderán el intervalo en que existen observaciones sin necesidad de indicar un corte de los ejes. Los puntos no se unen entre sí. Lo que se observa en estos gráficos es la forma de la nube de puntos: mientras más se acerca a una distribución lineal más estrecha es la relación entre ambas variables. Ejemplos:

Page 28: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

Se observa que la relación entre variable X e Y es más estrecha en el gráfico B que en el gráfico A. 7. Pictogramas Se utilizan para presentaciones al público o para fines propagandísticos, en que el objetivo principal es atraer la atención. Se puede representar por ejemplo el número de defunciones por ataúdes, la frecuencia de enfermedades cardiovasculares, hepáticas y cerebrales por filas de corazones, hígados y cerebros en que cada uno de estos órganos representa un determinado número de enfermos. Se puede comparar la población de distintos países por filas de hombrecitos en que cada uno representa varios miles de habitantes, etc. Ejemplo: representando cada 5% de tasa de letalidad por un ataúd completo:

Page 29: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

Las INDICACIONES más comunes de los gráficos analizados se presentan a continuación en un esquema que contempla los objetivos de los gráficos y las escalas de clasificación.

INDICADORESDESALUDTASAS,RAZONESYPROPORCIONES Cifrasabsolutasyfrecuenciasrelativas Las estadísticas que resultan de las tabulaciones de diferentes tipas de datos (nacimientos, defunciones, casos de enfermedad, consultas, egresos hospitalarios, etc.) proporcionan números absolutos que son muchas veces utilizables directamente en Salud Pública. Por ejemplo, el. número de consultas otorgadas en un consultorio externo permite al. administrador en salud estimar la cantidad de recursos necesarios para dar una atención suficiente; el número de nacimientos es un dato valioso para los programas de atención materno-infantil; el número de egresos de un hospital muestra el volumen de hospitalización y sirve para calcular costos y rendimientos. Sin embargo, a pesar de la importancia de las cifras absolutas, son las FRECUENCIAS RELATIVAS las que tienen una mayor utilidad. Bajo esta denominación se incluyen las tasas, proporciones, porcentajes y simples razones. Las frecuencias relativas tienen la ventaja de facilitar la presentación de las relaciones que existen entre dos o más datos y hacer más sencilla la comparación de resultados. l. Razones Son cuocientes entre dos cantidades de igual o distinta naturaleza. In dican cuantas veces sucede; el hecho que está en el numerador con respecto al hecho que está en el denominador. Ejemplo: Razón de masculinidad = N° de hombres N° de mujeres Indica cuántos hombres hay por cada mujer. Si se amplifica por 100, se sabrá cuántos hombres hay por cada 100 mujeres, en Chile 1982 había 96 hombres por cada 100 mujeres. Chile 1982 = 5.521.067 x 100 = 95. 9 5.754.373

Page 30: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

Otro ejemplo : En el programa de atención maternal se desea comparar la relación entre controles y consultas de morbilidad otorgadas en dos Servicios de Salud en 1982.

El examen de estas cifras absolutas hace un poco difícil la comparación. En una forma gruesa se puede decir que ambos Servicios dieron número de controles y que, en cambio, el número de consultas por morbilidad fue muy superior en el Servicio Sur. Resulta más clara la comparación si se calculan los cuocientes entre el número de controles y el número de consultas en cada uno de los Servicios. Servicio oriente 72.154/72.568 = 1 control por cada consulta. Servicio Sur 72.029/87.041 = 0.8 controles por cada consulta. Se establece que el Servicio oriente ha dado más controles por consulta que el Servicio Sur. 2. Proporciones Son cuocientes entre dos cantidades de igual naturaleza. Describen la fracción que una serie de sucesos que figuran en el numerador representa con respecto al total de sucesos de igual índole. Cuando el resultado de este cuociente se multiplica por 100 resulta un porcentaje, que es la forma habitual de calcular esta frecuencia relativa. Ejemplo: En Chile en 1982 el Sistema Nacional de Servicios de Salud controló el estado nutricional de 1.160.813 niños menores de 6 años. En el mismo año la Región Metropolitana controló 390.464 niños de igual edad. Como la Región Metropolitana es una parte del Sistema Nacional se puede calcular el porcentaje que representan los controles de esta Región con respecto al total del país: 390.464 x 100 1.160.813 De este modo se sabe que 34% del total de niños menores de seis años en control nutricional en el país, pertenecen a la Región Metropolitana. Es importante insistir que tanto los hechos que figuran en el numerador como los del denominador deben ser de igual naturaleza De este modo el resultado expresa la importancia relativa que el dato del numerador tiene con respecto al total. Los porcentajes tienen la ventaja de permitir una comparación fácil de series que tienen totales diferentes, al referirlos a una base común que en este caso es 100. Si suponemos dos Provincias en que se desea conocer si la mortalidad del menor de 28 días es diferente en importancia con respecto al total de niños menores de 1 año, es más sencillo calcular los porcentajes que representan las defunciones de menores de 28 días con respecto al total de defunciones de menores de 1 año.

Page 31: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

En la provincia de Concepción las defunciones de menores de 28 días representan e1 48.2% del total de defunciones infantiles, en cambio en la provincia de Bio-Bío representan el 45.6%. Limitaciones de los porcentajes y necesidad del cálculo de tasas A pesar de su utilidad, los porcentajes tienen limitaciones. Sise estudian, por ejemplo, las muertes por accidentes en dos grupos de edades en un país X nos encontramos con lo siguiente:

En este caso podría concluirse que los accidentes son un peligro más serio para los jóvenes, en los que más de una cuarta parte de las defunciones se debe a accidentes, que para las personas de mayor edad , en las que los accidentes causan menos del 4% de las defunciones. Las cifras anteriores no expresan realmente el riesgo de. morir por accidente, sino la importancia relativa que esta causa tiene en el total de defunciones de cada grupo de edad. E1 conocimiento del riesgo no se obtiene con el cálculo de los porcentajes; para ello hay que introducir en la comparación un elemento importante que es la población expuesta al riesgo de sufrir accidentes. El resultado que se obtiene al dividir el número de muertes debidas a accidentes por la población expuesta al riesgo de sufrir un accidente es lo que se denomina tasa de mortalidad por accidente. 3. Tasas Una tasa es un cuociente formado por tres elementos: -Un numerador, que consiste en el número de veces que ocurrió un determinado hecho en un período de tiempo dado y en un área determinada. Por ejemplo, el número de casos de una enfermedad que se registró en un área durante un año. -Un denominador, que es la población expuesta al riesgo de que le suceda el fenómeno que aparece en el numerador. -Una constante por la cual se multiplica el cuociente. Debido a que el cuociente resultante en una tasa es siempre de valor inferior a la unidad, éste se multiplica por 100, 1.000, 10.000 ó 100.000 de modo de tener cifras superiores a la unidad lo que facilita la interpretación. En efecto, es más fácil entender que la tasa de mortalidad de una región es 8 por 1.000 habitantes que decir que es 0.008 por habitante. Requisitos generales de las tasas Es necesario que en una tasa haya concordancia entre el numerador y el denominador en tres aspectos importantes: la naturaleza del hecho, la zona geográfica y el período de tiempo dentro del cual ocurre el hecho. En relación con la naturaleza del hecho, debe usarse en el denominador la población de la cual haya emanado el hecho del numerador. Así, no podríamos tener una tasa de mortalidad por cáncer de la próstata si en el denominador figura la población femenina. El área geográfica debe ser la misma para el numerador que para el denominador. Con respecto al tiempo, las tasas se calculan generalmente sobre una base anual. Se presenta un problema en cuanto al denominador de la tasa, ya que debido a qué la población varía a lo largo del año, pueden hacerse distintas estimaciones de ella. Si la población se estima al comienzo del período no representa toda la población expuesta ya que en esta población no figuran por ejemplo, los niños que nacerán duran te el año. Si la población que se usa es la estimada al final del año sucede lo contrario, ya que no aparecerán en ella los que han fallecido y los que han emigrado en el curso del año. De aquí que es de uso habitual coma representativa de 1a población media expuesta al riesgo la estimación a mitad del período, es decir al 30 de junio del año en estudio.

Page 32: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

Tipos de tasas En general pueden distinguirse dos tipos principales de tasas: a. Tasas crudas o brutas. b. Tasas específicas Cuando en el denominador figura el total de la población se habla de tasas crudas porque no se consideran características como edad, sexo, etc. Es una medición gruesa de la fuerza de ocurrencia de un hecho. Cuando en el denominador se usa sólo cierto sector de la población por ejemplo, la población de 20 a 25 años (en el numerador debe figurar el hecho referido que afecta sólo a este grupo de edad) se habla de tasas específicas. Estas tasas son más refinadas y miden con mayor exactitud el riesgo que se desea conocer, ya que en general los riesgos son diferentes según las características de las personas. Por ejemplo, la mortalidad es muy diferente en algunos grupos de edad y la tasa cruda es sólo una especie de promedio de las diferentes tasas específicas. A veces se habla impropiamente de que una tasa es específica. Tal es el caso de la tasa de mortalidad por una causa determinada, por ejemplo tuberculosis. Si en el numerador figuran todas las defunciones por tuberculosis en el denominador debe estar toda la población y es por lo tanto una tasa cruda por una causa específica. Las tasas que habitualmente se usan en Salud Pública se refieren a la mortalidad, la morbilidad la letalidad y la fecundidad. 3.1. Tasa bruta de mortalidad Su numerador incluye la totalidad de las defunciones de ambos sexos, de todas las edades y por todas las causas, registradas a lo largo de un año calendario en un área determinada. Su denominador es la población total de esa misma área estimada a mitad de período, es decir, al. 30° de junio del mismo año. Tal como ocurre con todas las tasas de mortalidad debido a que en la población expuesta al riesgo de morir sólo a algunos individuos han muerto en el término del año calendario, el denominador. es siempre mayor que el numerador y para obtener cifras enteras es necesario amplificar el cuociente entre defunciones y población por una constante que, en el caso de la tasa bruta es 1.000 Tasa bruta de mortalidad = = N° total de defunciones en un área y año determinados x 1.000 Población total del área al 30 de junio de ese año Según causa Tasa de mortalidad por causa = = Defunciones por una causa en un área y año determinados x 100.000 Población total al 30/junio de ese año y área El denominador de las tasas por causa, en general, es la población total y por consiguiente se trata de tasas crudas por una causa o grupo de causas específicas. La construcción de estas tasas implica separar el conjunto de todas las muertes diversos subconjuntos atendiendo a la causa de muerte. Dichas muertes, si no hay otra especificación adicional, incluyen las de funciones de cualquier edad y ambos sexos que han ocurrido por una misma causa o grupo de causas. Debido a la necesidad de disponer de tasas por causas de muerte cuya magnitud en la población puede ser muy pequeña y a fin de que la magnitud de las tasas de mortalidad por las diferentes causas sea fácilmente comparable, la constante que en ellas se utiliza es 100.000. Tasa de mortalidad materna = Muertes debidas a complicaciones del embarazo, parto o puerperio x 1.000 (ó - x 10.000). Nacidos vivos en ese año y área Se denominan muertes maternas aquéllas cuya causa está relacionada con complicaciones del embarazo, parto o puerperio y ellas constituyen el numerador de la tasa. Su denominador podrían ser las mujeres entre 15 y 49 años pero el riesgo especifico que indica el numerador sólo afecta a aquellas que en dicho año han tenido un embarazo, por lo tanto lo más adecuado seria colocar el número de embarazadas. Como habitualmente no se dispone de información fidedigna respecto a este dato, se ha convenido internacionalmente utilizar como denominador el número de nacidos vivos del mismo año en que sucedieron las muertes del numerador.

Page 33: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

La tasa de mortalidad materna se define como la relación entre el número de defunciones por causas relacionadas con las complicaciones del embarazo, parto o puerperio ocurridas en un año y área dadas y el número de nacidos vivos en el mismo año y área. Se puede expresar por 1.000 6 por 10.000. 3.2. Tasas específicas de mortalidad Según sexo: El riesgo de morir difiere según el sexo. Por ello es conveniente medir por separado la mortalidad de hombres y de mujeres. Tasa Mortalidad masculina = = Defunciones masculinas en un área y año determinados x 1.000 Población masculina al 30/VI de ese año y área Tasa Mortalidad Femenina = = Defunciones femeninas en un área y año determinados x 1.000 Población femenina al 30/VI de ese año y área Igual que la tasa bruta de mortalidad, ambas tasas se amplifican por 1.000. Debido a que sus denominadores son deferentes estas dos tasas no se pueden sumar directamente para reconstruir la tasa bruta de mortalidad. Según edad : La mortalidad difiere marcadamente según la edad. Por eso corrientemente la medición de la mortalidad requiere medir el riesgo de muerte por edades. A1 elaborar las tasas de mortalidad por edad puede llegarse a tal grado de especificación que los subconjuntos de defunciones incluyan sólo edades simples, es decir, se elabore una tasa para cada año de edad. Sin embargo, lo habitual es que se trabaje con grupos de edades, usándose frecuentemente grupos quinquenales de edad o bien grupos de mayor, amplitud. Sólo para las edades más jóvenes, en que el riesgo de morir cambia más rápidamente con la edad, está justificado construir tasas de mortalidad por edades simples o aún por intervalos que sean menos amplios que 1 año. Tasa de mortalidad por edad = = Defunciones de un grupo de edad en un área y año determinados x 1.000 Población de ese grupo de edad al 30/VI de ese año y área. Todas las tasas de mortalidad por edad se amplifican por 1.000. Estas tasas se pueden calcular separadamente para cada sexo. En tales casos la doble especificación de sexo y edad debe hacerse tanto para las defunciones como para la población. Ejemplo: Tasas mortalidad masculina de 20 - 24 años = = Defunciones masculinas de 20-24 en un área y año determinados x 1.000 Población masculina de 20-24 años al 30/VI para ese año y área Un caso especial dentro de las tasas de mortalidad por edad lo constituyen las muertes de los menores de un año. El riesgo de morir es considerablemente más alto en el primer año de vida que en las edades siguientes, salvo las edades muy avanzadas. Es precisamente en esta edad cuando la mortalidad es más sensible a los efectos del ambiente y si las tasas son altas una buena proporción de estas defunciones son evitables. Por ello esta medida es un indicador usual del nivel de salud e interesa particularmente conocerla. Tasa de mortalidad infantil= = Defunciones de niños menores de 1 año en un área y año determinados x 1.000 Nacidos vivos en ese año y área Tal como en la tasa bruta de mortalidad y las tasas de mortalidad por sexo y edad, la constante que se utiliza en esta tasa es 1.000. El numerador de la tasa de mortalidad infantil incluye las defunciones de ambos sexos y por todas las causas que ocurren dentro de un año calendario y en un área determinada en los niños que aún no han cumplido su primer año de vida. Dada la naturaleza de su numerador la tasa de mortalidad infantil tiene el carácter de una tasa de mortalidad por edad. Por lo tanto, debería esperarse que su denominador fuera la población de menores de 1 año de edad,

Page 34: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

estimada a mitad del mismo año calendario a que se refieren las muertes. Sin embargo, hay razones metodológicas por las cuales se hace necesario el uso de otro denominador. Entre estas razones está el hecho de que la población menor de 1 año se omite en los censos en una proporción mayor que la de cualquiera otra edad, y por ello su tamaño, para un año censal y con mayor razón en las estimaciones para los años posteriores al censo, son más inexactas que. para los grupos de edades mayores. Por otra parte, los niños menores de 1 año que existen en una población depende del nivel y las tendencias de la natalidad en los años recientes. En cambio, en los grupos de edades mayores los efectivos de población san menas sensibles a las modificaciones de la natalidad en los años inmediatamente precedentes. Es por esto, que para estar a cubierto de las variaciones que existen entre los países respecto a la cabalidad de los censos y de las fluctuaciones que puede experimentar el nivel de la natalidad, se ha convenido internacionalmente en utilizar como denominador de la tasa de mortalidad infantil la cifra de nacidos vivos del año, en lugar de la población estimada de menores de l año. La tasa de mortalidad infantil se subdivide en dos componentes: Tasa de mortalidad neonatal = = Defunciones s niños menores de 28 ds en un área y año determinados x l.000 Nacidos vivos en ese año y área Esta tasa mide la frecuencia de muertes que ocurren en los menores de 28 días en un año calendario y en un área determinada por cada 1.000 nacidos vivos en ese mismo año y área. Tasa de mortalidad infantil tardía = = Defunciones de niños de 28 ds a11 ms en un área y año determinados x 1.000 Nacidos vivos en ese año y área La tasa de mortalidad infantil tardía mide la frecuencia de muertes que ocurren en el primer año de vida a partir del 28° día, en un año calendario y área dada por 1.000 nacidos vivos en ese año y área. Así como entre las muertes del primer año es conveniente distinguir las que ocurren en las primeras 4 semanas del resto de las muertes infantiles, también es útil analizar separadamente las muertes de la primera semana de vida de las correspondientes a las 3 semanas siguientes. Si se refieren estos nuevos dos subconjuntos a la misma cifra de nacidos vivos del año se obtienen dos nuevas tasas que sumadas equivalen a la tasa de mortalidad neonatal. Ambas se expresan igualmente por 1.000. La tasa de mortalidad de la primera semana se denomina tasa de mortalidad neonatal precoz y la de la segunda a cuarta semana tasa de mortalidad neonatal tardía Tasa de mortalidad neonatal precoz = = Defunciones de menores de 7 días en un área y año determinados x 1.000 Nacidos vivos en ese ano y área Esta tasa mide la frecuencia de muertes que ocurren en la primera semana de vida en un año calendario y área dada por cada 1.000 nacidos vivos del mismo año y área. Tasa de mortalidad neonatal tardía = = Defunciones de niños de 7 a 27 días en un área y año determinados x 1.000 Nacidos vivos en ese año y área Mide la frecuencia de muertes que ocurren entre la segunda y cuarta se mana de vida en un año calendario y área dados por cada 1.000 nacidos vivos del mismo año y área. Tasa de mortalidad fetal tardía (o mortinatalidad)= = Defunciones fetales tardías (28 y + semanas de gestación) en un área y año determinados x 1.000 Nacidos vivos en ese año y área Según el momento de la gestación en que se produce la muerte del producto de la concepción, las defunciones fetales se clasifican en precoces (menos de 20 semanas de gestación) intermedias (20a 27 semanas) y tardías (28 y más semanas de gestación). Las defunciones fetales tardías corresponden a los mortinatos y las precoces e intermedias a los abortos. El registro de las defunciones fetales tiene una omisión importante . Esta omisión afecta principalmente a las defunciones fetales precoces. Para las defunciones fetales tardías en cambia, el registro proporciona una información más completa, aunque siempre subestima la magnitud real del problema. Su denominador también son los nacidos vivos por las razones expuestas en la tasa de mortalidad materna.

Page 35: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

Tasa de mortalidad perinatal = = Defunciones fetales tardías + defunciones de niños menores de 7 días en un área y año determinados x 1.000 Nacidos vivos en ese año y área Esta tasa mide el riesgo de muerte que implica para el producto de la concepción el paso de la vida intrauterina a la vida extrauterina. 3.3. Medición de la morbilidad El estudio la morbilidad tiene serias dificultades. Desde luego a diferencia de la muerte que ocurre una sola vez y en un momento bien definido y es un hecho permanente, la enfermedad puede ocurrir varias veces en la vida de un individuo, ya que se trata de una misma enfermedad o de enfermedades distintas y por último ellas pueden tener duración variable. En lo que se refiere a la medición de la enfermedad se pueden distinguir tres tipos de unidades: 1. Personas enfermas, 2. Enfermedades, 3. Episodios de enfermedad Por ejemplo, si una persona tiene durante el año 2 resfríos y 3 episodios diarreicos, se contabilizará: a. persona enferma; b. 2 enfermedades; c. 5 episodios. Por este motivo el Comité de Expertos en Estadísticas de salud recomienda que en las estadísticas de morbilidad se especifique claramente a cual de estos tres criterios se refieren los datos. En la medición de la morbilidad interesa fundamentalmente medir la frecuencia de la enfermedad en la población, su duración y su gravedad. 3.3.a. Medición de la frecuencia de la enfermedad Se distinguen dos tipos: la incidencia y la prevalencia. -Tasa de incidencia se denomina incidencia al número de casos nuevos que se presenta en un período de tiempo. Se refiere a enfermedades que comienzan durante un período definido y la tasa mide la frecuencia de acontecimientos que ocurren durante el período. En la tasa de incidencia se incluyen en el numerador los casos nuevos (enfermedades o enfermos) registrados durante el periodo y el denominador se refiere a la población estimada en el punto medio del período. Las tasas de incidencia pueden ser anuales pero también pueden referirse a cualquiera otra unidad de tiempo. Tasa de incidencia = = Número de casos nuevos en el período x 100.000 Población a mitad del período La tasa de incidencia muestra la dinámica de la enfermedad y expresa el riesgo de enfermar que tiene la población durante el período observado. -Tasa de prevalencia Prevalencia: es el número de casos (nuevos y antiguos) que se registran en un tiempo o momento dado, por ejemplo, el primer día de un mes o el último día de un año o el promedio diario dentro de un período de tiempo. La tasa de prevalencia tiene como numerador el número de casos que están presentes en ese momento y como denominador la población estimada para el mismo momento. Tasa de prevalencia= = Número de casos existentes en un momento dado x 100.000 población en ese momento La tasa de prevalencia es una medida relativa cuyo sentido es comparable a la información que proporcionan los censos de población y mide sólo lo que existe o prevalece en ese momento. Es necesario hacer notar que en el numerador figuran todos los casos tanto los que se iniciaron antes del momento de medición como los casos nuevos que aparecen en ese momento. Tratándose de enfermedades crónicas la prevalencia refleja mejor que la incidencia la magnitud del problema en la comunidad. 3.3.b. Medición de la gravedad de la enfermedad Un aspecto de la morbilidad cuyo conocimiento tiene gran interés es la gravedad de la enfermedad. Ella puede medirse en términos de la incapacidad que produce. Por ejemplo, una enfermedad menor es aquella que no es causa de ausencia del trabajo. Esto hace necesario tener una escala de incapacidad para medir la severidad del cuadro. A demás la medición tiene el problema de que la gravedad depende no sólo de la enfermedad sino que también de las

Page 36: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

características de los in dividuos que la padecen. Por ejemplo, un resfrío común puede ser motivo para que una persona guarde cama, mientras otro individuo con un resfrío de iguales condiciones continúa desarrollando sus actividades. Por estas dificultades el índice de gravedad de una enfermedad que más se utiliza es la tasa de letalidad, que establece la relación entre los fallecidos por una enfermedad y los enfermos que padecen esa enfermedad. Tasa de letalidad = = Número de defunciones por una enfermedad dada x 100 Número de enfermos de esa enfermedad Mide la frecuencia con que se produce la muerte en una enfermedad. Esta es la tasa que permite establecer el pronóstico de las enfermedades. 3.3.c. Medición de la duración de la enfermedad La duración de la enfermedad es un dato que interesa medir, entre otras razones, porque la enfermedad de mayor duración significa mayor costo. Puede hacerse esta medición en forma de un promedio. Por ejemplo, 60 enfermos de tifoidea estuvieron en cama un total de 1.080 días, la duración de la enfermedad es entonces: Duración = 1.080 = 18 días en promedio 60 Para la medición de la duración es necesario definir previamente qué se entiende por enfermedad. En este caso la duración se refiere al tiempo promedio de estada en cama de los enfermos. Otras definiciones podrían tomar en cuenta, por ejemplo, el día de los primeros síntomas o el día en que se hizo el diagnóstico, etc. El promedio puede obtenerse no sólo en relación a los enfermos (60 en el ejemplo anterior) sino que puede obtenerse para episodios de enfermedad. Por ejemplo: en una escuela se registraron los resfríos de los alumnos y se tuvo un total de 100 resfríos en el año. La duración total de los resfríos fue de 500 días. La duración media de cada episodio fue, por lo tanto de 5 días. 3.4. Medición de la fecundidad La medición de la fecundidad se hace a través de diferentes tipos de tasas que tratan de medir los niveles del fenómeno en un área. Tasa bruta de natalidad Es una tasa simple que relaciona los nacidos vivos registrados en un área geográfica durante un año con la población total de esta área. Tasa bruta de natalidad = = Nacidos vivos en un área y año determinados x 1.000 Población total al 30/VI en ese año y área Como incluye a la población total (de todas las edades y de ambos sexos) no puede interpretarse como una probabilidad porque en el denominador hay población que no está expuesta al riesgo de tener un niño. Expresa más bien la frecuencia de los nacimientos por cada 1.000 habitantes. Las tasas de natalidad son prácticamente las únicas medidas de fecundidad que es posible calcular para áreas geográficas pequeñas y permite estudiar las tendencias del fenómeno en un área determinada. Cuando se comparan áreas diferentes hay que ser extremadamente cuidadoso en la interpretación porque puede haber diferencias en la estructura de la población especialmente en lo que se refiere a la composición por edad de la población femenina y esta diferencia puede por si sola determinar diferencias en las tasas de natalidad. Tasa de fecundidad general Es ésta una tasa más específica ya que tiene un denominador la población potencialmente expuesta al riesgo de tener un nacido vivo: la población femenina en edad fértil. Tasa de fecundidad general = = Nacidos vivos en un área y año determinados x 1.000 Población femenina de 15 a 49 años al 30/VI en ese año y área A1 tomar en cuenta solamente a las mujeres y en el grupo de edad expuesto al riesgo es una tasa más útil para hacer comparaciones entre zonas o comparaciones internacionales. Tasa de fecundidad por edad Esta tasa tiene un nuevo refinamiento y es más específica ya que toma en cuenta no sólo e1 sexo, sino la composición por edad. En efecto, en su numerador se anotan los nacimientos de madres de un grupo dé edad determinada y en el denominador la población femenina de esa edad

Page 37: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

Tasa de fecundidad por edad = = Nacidos vivas de mujeres de un grupo de edad en un área y año determinados x 1.000 Población femenina de ese grupo de edad al 30/VI en ese año y área Ejemplo: Nacidos vivos de mujeres de 15 a 19 años en un área y año determinados x 1.000 Población femenina de 15 a 19 años al 30/VI en ese año y área Por lo general las tasas de fecundidad por edad se calculan para grupos quinquenales de edades comprendidas entre los 15 y los 49 años, es decir, se calculan 7 tasas de fecundidad por edad. Otras medidas de fecundidad Los estudios demográficos más finos de 1a. fecundidad utilizan además de las tasas anteriores, las llamadas tasas de reproducción que tratan de medir el aporte futuro de la fecundidad al reemplazo de la población haciendo una corrección en. los nacimientos utilizando la proporción de nacimientos femeninos. Como se trata de tasas usadas por especialistas remitimos al lector a los textos de Demografía para su estudio.

MEDIDASDERESUMEN Una de las características de los fenómenos biológicos es su variabilidad. Así por ejemplo, el pesa o la presión arterial varían de persona a persona y también varían para un mismo individua en diferentes momentos. Sin embargo es posible determinar los valores esperados de estas medidas para distintos grupos y fijar límites a su variación habitual cuando se conoce su conducta o distribución. Se sabe por ejemplo que los enfermos de hipertiroidismo tienen en general un peso inferior al de los individuos normales y que en algunas enfermedades renales está aumentada la presión arterial. Por otra parte, si se dice que el peso normal para un adulto de 170 cm de estatura es 66,6 Kg., no se espera que todo adulto de esta estatura tenga ese peso sino que se aceptan variaciones entre 59,8 y 74,7 Kg. La estadística nos proporciona técnicas que permiten describir la ubicación de un grupo respecto a una escala de medición y cuantificar la variabilidad de los valores individuales mediante las medidas de posición y de dispersión respectivamente. Medidasdeposición

Tienen por objeto la obtención de un valor que resuma en si todas las mediciones. La mayoría de ellas tratan de ubicar el centro de la distribución, por lo que también reciben el nombre de medidas de tendencia central. Mencionaremos aquí el promedio aritmético, la mediana, los percentiles y el modo. PromedioomediaaritméticaSe define como la suma de los valores de todas las observaciones dividida por el número de observaciones Se representa por el símbolo x cuando se refiere a una muestra y por /u cuando se refiere a un universo. Para un grupo de observaciones:

En que: ∑ símbolo que denota suma de los valores que siguen n número de observaciones Xi valor de la variable x en la i ésima observación. El subíndice i va de 1 a n, por lo tanto el valor de la primera observación se simboliza por x1, el de la segunda, por x2 y así sucesivamente hasta xn.

Page 38: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

Ejemplo: Las edades de 5 enfermos son: 50, 25, 45, 20, 30.

el promedio es: PropiedadesdelpromedioomediaaritméticaEntre las propiedades de la media destacaremos dos: 1. La suma algebraica de las desviaciones de cada valor de una serie con respecto a su media es cero: ∑ (xi - x) = 0 En el ejemplo anterior:

2. Si f1 números tienen media x1. f2 números tienen media x2 ….... .... fk números tienen media xk, entonces la media de todos los números es:

Cálculodelpromedioenseriesagrupadas

Si los datos están agrupados en una distribución de frecuencias no conocemos el valor de cada observación, sólo sabemos en qué intervalo se encuentra. Por lo tanto para calcular el promedio habrá que determinar, para cada intervalo, un valor que represente a todas las observaciones en él contenidas. Se elige, para este efecto el centro o marca de clase que lo simbolizaremos por x', para indicar que es el centro de la c ase j en- que j va de 1 a k siendo k el número de clases, o intervalos de la clasificación. Corresponde al punto medio del intervalo y se calcula Promediando sus límites reales, supongamos por ejemplo que tenemos una clasificación por edad en grupos quinquenales de años, y que el primer intervalo es de 0 a 4 años. Por convención la edad se aproxima al valor inferior de manera que un niño tendrá 0 años hasta el momento en que cumple 1 año tendrá 1 año hasta que cumpla dos y así sucesivamente. Los límites reales del intervalo que nos preocupa serán entonces; 0 el inferior y 5 el superior. Por lo tanto el centro de clase será:

Page 39: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

En otros casos es posible que la aproximación se haga a la unidad más cercana como sucede por ejemplo al determinar estatura. Si la unidad usada es el cm., una persona que mide 161,4 cm. tendrá un valor aproximado de 161 cm, y una que mida 161.8 cm. un valor de 162 al hacer la aproximación. En este caso una clase de 160 a 164 cm. tendrá como límites reales: 159.5 y 164,5 y su centro será 162 cm. El hecho de tomar el centro del intervalo como valor para las observaciones del grupo se basa en el supuesto que los valores individuales se distribuyen en forma simétrica alrededor de éste, de modo que las subestimaciones se compensan con las sobreestimaciones. Una vez obtenido el centro de cada clase éstos se multiplican por la frecuencia de observaciones en la clase correspondiente, lo que da la suma de los valores de las observaciones en el intervalo. Si las frecuencias se simbolizan por fj la suma en el primer intervalo será:

Ejemplo :

Proteínas totales del plasma en prematuros normales de 15 días de edad

MedianaSe define como el valor que deja igual número de observaciones de valores iguales o inferiores por debajo de él. como valores iguales o superior por encima de él. cuando los valores de la variable están ordenados según magnitud. La simbolizaremos por Md. Para su cálculo se debe proceder de la siguiente forma:

Page 40: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

1. Ordenar los valores de la variable según magnitud. 2. Determinar la posición correspondiente a la mediana. es decir, la posición (n + 1)/2. en que n representa el número de observaciones. 3. Ubicar el valor correspondiente a la (n + 1)/2 ava observación. Cuando el N° de observaciones es par no hay una observación central sino dos, en este caso se adopta el criterio de definir la mediana como el promedio de estas dos observaciones centrales. Ejemplo: Si la edad de 6 enfermos es: 45,43, 47, 52, 43, 55 para obtener la mediana, debemos en primer lugar ordenar la serie según magnitud: 43, 43, 45, 47, 52, 55 la mediana ocupará el lugar (n + 1)/2 = 7/2 = 3.5, es decir será el promedio entre la tercera y cuarta observación. Md = (45 + 47) /2 = 46 años CálculodelamedianaenserieagrupadaCuando la serie es muy larga, la parte más laboriosa es el ordenamiento. Una forma de facilitar el cálculo es agrupar la serie, lo cual modifica el procedimiento de cálculo. Cuando los datos están agrupados en intervalos de clases, la mediana no puede ser localizada con exactitud. Sin embargo si se supone que cada intervalo es compartido en partes iguales por todas las observaciones que en él se encuentran, se puede obtener una buena aproximación. Si por ejemplo en una clase de edad de 55 a 64 años (cuyos límites reales son 55 y 65) se encuentran 270 observaciones, debemos suponer que. a cada observación le pertenece un 270 avo del ancho del intervalo de 10 años, o sea, le corresponde un intervalo de 0,037 años. La ubicación del valor-de la mediana ya no corresponderá en este caso a una determinada observación sino que a un valor que deja un 50% de los intervalos individuales por debajo y un 50% por encima, cuando están ordenados por magnitud. Para n observaciones habrá n intervalos y la mediana estará ubicada en n/2. En la siguiente serie agrupada en la columna de frecuencias acumuladas: Fj . la mediana estará en la clase 55 a 64 en que se encuentra n/2 = 975/2 =487,5, Como en las edades inferiores a 55 años había 430 casos acumulados deberemos llegar hasta el punto 487,5 por medio de una interpolación lineal determinando el valor correspondiente a 57,5/ 270 avos del intervalo de 10 años, entre 55 y 64.

Distribución de 975 individuos según edad, lugar X, fecha Y

Page 41: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

En general, la fórmula de la Mediana será:

Donde: L. inf = límite real inferior del intervalo que contiene la Mediana n = número total de observaciones S = suma de frecuencias acumuladas hasta el intervalo anterior al que contiene la mediana. W = amplitud del intervalo que contiene a la mediana fMd = frecuencia de observaciones en el intervalo que contiene a la Mediana Percentiles,decilesycuartilesAdemás de la mediana se puede calcular en forma similar otros dos valores que unidos a ella dividen la serie en 4 partes iguales de 25% de los casos cada una y que se denominan cuartiles. En igual forma pueden calcularse los deciles que dividen la serie en 10 partes iguales de 10% cada una y los percentiles que la dividen en 100 partes iguales de 1% de los casos cada una. Cálculos de percentiles En cada serie ordenada los percentiles mantienen una posición precisa. Así por ejemplo, el percentil 59 divide la serie en dos partes: una que contiene e1 5'9% de las observaciones, las de valores menores, y la otra. el 41% restante. La mediana divide la serie en dos grupos, cada uno de los cuales contiene el 50% de las observaciones. De este modo también se la puede llamar percentil 50, o decil 5 ó cuartil 2. Supóngase por otra parte, que es necesario saber qué valor es sobrepasado no más de 33% de las veces; en otras palabras cuál es el valor del percentil 67. En una serie simple, este valor corresponde a la

observación. Donde p corresponde al percentil buscado. En series agrupadas el intervalo que contiene al percentil buscado se identifica de la misma manera que lo hacemos para la mediana. Se calcula

y se ubica en la columna de frecuencias acumuladas en qué intervalo se encuentra este valor. En la serie agrupada del ejemplo anterior esta observación cae en el intervalo 55 - 64 ya que el 67% de 975 es 653. Utilizando e1 mismo razonamiento que en el caso de la mediana aplicado ahora a percentiles se tiene:

Page 42: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

Donde; L. inf . = límite real inferior del intervalo que contiene el percentil n = número total de observaciones p = percentil buscado S = suma de frecuencias acumuladas hasta el al que contiene al percentil W = amplitud del intervalo que contiene al percentil FPp = frecuencia de observaciones en la clase del percentil

Para el ejemplo:

Significa que 67% de las personas de dicho grupo tienen una edad igual inferior a 63.3 años. Para el cálculo de cuartiles y deciles, se consideran los percentiles correspondientes. ModoEl modo de una serie de valores es aquel valor que se presenta por frecuencia, Por ejemplo en la serie: 2, 4, 5, 5, 5, 7, 8 el modo es 5. En una distribución de frecuencias con intervalos de clases iguales, llamaremos intervalo a clase modal a la categoría que tiene la máxima frecuencia. En un histograma será fácil visualizar esta clase modal porque corresponderá al intervalo frente al cuál el gráfico llega a su mayor altura. En una distribución puede ocurrir que no exista modo, si todas las categorías tienen igual frecuencia o puede haber varios modos si definición, diciendo que corresponde a un valor alrededor del tos tienden a concentrarse. Una distribución que tiene un solo modo se llama unimodal. Cuando el nivel de medición de la variable estudiada es nominal es la única medida de posición que se puede MedidasdedispersiónUna medida de posición no es suficiente para describir una distribución debido a que no considera la variabilidad de los valores, característica de los fenómenos biológicos y ,que ya ha sido mencionada anteriormente. Por lo tanto una descripción completa de una distribución requiere que además de la medida de posición se cuantifique la dispersión. Entre las medidas de dispersión mencionaremos la amplitud, los percentiles y la desviación standard. AmplitudSe define como la diferencia entre el valor máximo y el valor mínimo de una serie. Ejemplo: en la serie 2, 5, 6, 9, 10, 13 la amplitud es: 13 - 2 = 11 Es una medida de fácil obtención y `comprensión, Sin embargo por depender sólo de los dos valores extremos tiene serias limitaciones. Así por ejemplo, es posible que aparezca en una serie un valor muy bajo o muy alto, lo que tendría como consecuencia una amplitud grande que no reflejaría la verdadera variabilidad de los valores. Esto podría subsanarse eliminando valores extremos muy alejados, pero las reglas para hacer esta eliminación serían de difícil formulación y se prestarían a interpretaciones subjetivas. PercentilesA1 estudiar las medidas dé posición se definió el percentil. Es fácil imaginar que la distancia entre dos percentiles determinados servirá para comparar la variabilidad de diferentes series de valores. Por ejemplo. si la diferencia entre los valores del percentil 95 y el percentil 5 es de 50 unidades para una serie y de 70 para otra sabremos que los valores de la segunda serie son más variables. Una diferencia particular entre percentiles es la llamada AMPLITUD INTERCUARTILICA que se define como la diferencia entre el cuartil 3 (o percentil 75) y el cuartil 1 (o percentil 25).

Page 43: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

Sin embargo no es este el uso más importante de los percentiles como medidas de dispersión; Es en la determinación de los límites de variación, habitual que los percentiles adquieren su máxima utilidad. Así por ejemplo, si se necesita saber cuál es la temperatura máxima que se puede aceptar como normal antes de declarar que una persona tiene fiebre es posible hacer un estudio de la temperatura de un grupo de individuos normales. Si, en este grupo de mediciones determinamos la temperatura correspondiente al percentil 99 por ejemplo, sabremos que temperaturas de esa magnitud o superiores sólo se observan en un 1% de las personas normales, o en otras palabras son raras en una persona normal, y es lícito entonces catalogarlas dé fiebre. E1 percentil que se usará de límite entre lo que se vaya a considerar normal o habitual y 1o que se considerará anormal es arbitrario y de-penderá de lo que se considere poco probable o raro. Es frecuente usar el percentil 95 ó el 99 como límite superior y el percentil 1 ó 5 como límite inferior. Cuando en una distribución se ha usado la mediana como medida de posición se usarán los percentiles como medida de dispersión. . DesviaciónstandardPara medir la dispersión de los valores de un grupo de datos en que se ha usado el promedio como medida de posición corresponde indicar cómo varían las observaciones con respecto a este promedio. Podría pensarse que la suma de .las desviaciones de la media sería una medida adecuada pero ya hemos visto que esta suma es-siempre igual a cero. (Propiedad 1 de la media) Esta dificultad se puede obviar elevando al cuadrado cada diferencia. Tenemos entonces: ∑ (xi - µ)2 Pero este valor además de depender de la distancia de los valores con respecto a su media, depende del número de observaciones realizadas. Esto se soluciona dividiendo por el número de observaciones lo que nos da una medida llamada varianza y que simbolizaremos por σ2 : σ2 = ∑ (xi - µ) 2/N. Cuando se trata de una muestra la varianza se calcula con las diferencias cuadráticas de la media muestral ̅x y dividiendo por (n - 1), simbolizándose por:

La unidad de medida de esta expresión es el cuadrado de la unidad en que está medida la variable (si por ejemplo trabajamos con cm, la varianza que da expresada en cm2). Si obtenemos la raíz cuadrada de la varianza nos queda una medida de la dispersión en la misma unidad de medida de la variable y a esta expresión la llamaremos desviación standard y la simbolizaremos por o si corresponde a un universo. Cuando se trata de una muestra, se usará:

La desviación standard refleja la dispersión de los valores con respecto al promedio: es grande cuando hay mucha dispersión y es pequeña cuando hay poca dispersión. Cálculo de la desviación standard en serie simple

Si la edad de 5 enfermos es 4,8, 10,11,17

Page 44: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

Cuando tenemos muchos datos, esta manera de hacer los cálculos es muy engorrosa y conviene usar otra fórmula equivalente:

CálculodeladesviaciónstandardenserieagrupadaCuando tenemos una serie agrupada podemos hacer los cálculos en ella sin necesidad de conocer los valores individuales.

Ejemplo:

Page 45: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

EleccióndelasmedidasdeposiciónydispersiónA1 tratar de describir un grupo de datos nos encontramos con el problema de decidir cuáles de las medidas deben usarse para caracterizar su distribución. Un criterio para la elección de estas medidas será el nivel de medición de la variable. Sabemos que en una escala nominal sólo se podrá determinar el modo de la distribución, es decir, la categoría más frecuente, y no será posible dar una medida de dispersión ya que no existe un orden implícito en la clasificación. En escala ordinal además del modo se podrá calcular la mediana y los percentiles que sean de interés. En este tipo de escala evidentemente se preferirá la descripción con mediana y percentiles ya que así se logra no sólo una descripción de la posición del grupo sino que también de su dispersión. Cuando las mediciones se han hecho en escala de intervalos se presenta el verdadero problema de elección de las medidas. Dejaremos aparte al modo, que podrá darse como información adicional y discutiremos las alternativas de describir una serie con mediana y percentiles o con promedio y desviación standard. En este caso será muy importante el tipo de distribución que tengan los valores que deseamos describir. Cuando hay distribución nos es desconocida o cuando es asimétrica, con acumulación de valores en uno de los extremos de la distribución. lo indicado será su descripción a través de mediana y percentiles, Estas medidas nos aseguran en cualquier caso que un determinado porcentaje de las observaciones tiene valores iguales o inferiores a ellas y nos darán una imagen fácilmente comprensible de la distribución. Para utilizar el promedio y la desviación standard en la descripción de un grupo de datos es necesario que éstos cumplan ciertos requisitos en su distribución si queremos que estas medidas tengan sentido. La distribución deberá ser simétrica y un¡ modal y parecerse a lo que conoceremos más adelante por distribución normal. En una distribución de este tipo sucederá que entre el promedio más menos una desviación standard se encontrarán los valores de aproximadamente dos tercios de las observaciones, que alrededor del 95% de los valores está entre el promedio más menos dos desviaciones standard y que prácticamente todas las observaciones quedan comprendidas entre los límites dados por el promedio más, menos tres desviaciones standard

Page 46: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

LADISTRIBUCIONNORMAL Un problema frecuente en el campo biológico y más específicamente en el campo médico, es determinar si un individuo está sano o enfermo, si es normal o se aparta de la normalidad. Para llegar a tal decisión generalmente se miden algunas características del individuo y si los valores encontrados son los habituales en personas sanas se le considera como tal, considerándolo como enfermo o anormal en caso contrario. Así por ejemplo, consideraríamos normal que un adulto tuviera una presión arterial de 130 mm y anormal que tuviera una presión de 210 mm, porque este último valor es raro de encontrar en adultos sanos. Para establecer los límites entre lo habitual y lo raro es necesario conocer la distribución de la variable en estudio, en individuos normales. E1 gráfico que se utiliza para representar una distribución de frecuencias de datos en escala de intervalos continua es el histograma. En este gráfico la frecuencia en cada categoría de la escala está representada por el área de la barra correspondiente y el total o 100% de las observaciones por la suma de las superficies de todas las barras. Supongamos que conocemos la distribución de los valores de glucosa sanguínea de un grupo de individuos sanos y que la representamos en un histograma.. Basados en esta distribución es posible fijar los límites entre los que se encuentra la mayoría de las personas sanas y fuera de los cuales se encuentran muy pocos individuos. Existe una distribución de frecuencias teóricas llamada distribución normal, que puede considerarse como modelo adecuado para la distribución de un gran número de variables en el campo biológico, en el sentido que si se aumenta el número de observaciones y se disminuye el tamaño de los intervalos de clasificación, el gráfico se asemeja al de la distribución normal, distribución que tiene las siguientes características: 1. Su gráfico semeja una campana simétrica cuyas colas se extienden hacia el infinito tanto en dirección negativa como positiva (es asintótica respecto al eje horizontal). 2. El promedio, la mediana y el modo de la distribución tienen el mismo valor. 3. La distribución queda completamente definida por el promedio y la desviación standard. El promedio nos informa sobre la posición o ubicación de 1a distribución en el eje horizontal y la desviación standard refleja la dispersión de los valores con respecto al promedio. 4. E1 área bajo la curva comprendida entre los valores de x: µ - σ y µ + σ es aproximadamente 0.683 ó 68,3 % µ - 2σ y µ + 2σ es aproximadamente 0.954 ó 95,4 % µ - 3σ y µ + 3σ es aproximadamente 0.973 ó 97,3 % cualesquiera sean los valores de µ y σ Aunque teóricamente la distribución llega a - ∞ y a + ∞ en la práctica no se encuentran valores a más de 3 desviaciones standard del promedio.

Page 47: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

CalculodeáreasSupongamos que frente a una determinación de glucosa en la sangre tengamos que decidir si este valor es normal o no. Se sabe que midiendo la glucosa sanguínea en mg por 100 ml de sangre tiene distribución normal con promedio 83 y desviación standard 4. Supongamos que en un paciente se encuentra un valor de 90. Para determinar si es habitual tener un valor de esta magnitud o superior, estando sana, debemos conocer la probabilidad con que esto ocurre. Par á calcular el área bajo la curva normal a partir de determinado valor de la variable x sería necesario integrar la función de densidad normal. Para evitar este trabajo se han construido tablas de, áreas de la normal reducida, que tiene promedio 0 y desviación standard 1. Para poder usar estas tabulaciones es necesario transformar la variable original en que están dados los datos de manera que su promedio y su desviación standard tengan estos valores. Esta variable transformada se llama variable normal standard y se simbolizará por z en que

En el problema que nos preocupaba, habíamos encontrado un valor de glucosa sanguínea de 90. El valor de z correspondiente es:

Esto quiere decir que 90 se encuentra a 1,75 desviaciones standard del promedio. En la tabla, z aparece hasta can das decimales, indicándose las enteros y el primer decimal en la primera columna y el segundo decimal en la primera fila. El centro de la tabla contiene los valores de la superficie baja la curva, expresada en relación a 1 desde el valor de z hasta infinito, en la misma dirección. Es decir, para un z positivo, desde z hasta + ∞ y para un z negativo, desde z hasta - ∞. En nuestro ejemplo, en que z = + 1,75 el área corresponde al valor anotado en la intersección de la fila correspondiente a 1,7 y la columna 0.05 y es 0.0401. Esto significa que según el modelo de la distribución normal que la probabilidad de encontrar valores iguales a superiores es 0.0401 o bien que hay un 4.01% de valores iguales o superiores a 90 mg por 100 ml de sangre. Si definiéramos como raros, aquellos valores que ocurren menos de 5% de las veces en este caso deberíamos declarar anormal la glicemia encontrada. La tabla permite determinar otras probabilidades, como por ejemplo, la de encontrar valores en determinado intervalo de la variable x. para lo cual habrá que tener presente que la superficie total vale 1. Si por ejemplo quisiéramos conocer la probabilidad de encontrar valores d e glicemia entre 75 y 85 mg, buscaríamos z y su área para ambos valores:

En el gráfico, las áreas correspondientes se indican por la parte sombreada.

Page 48: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

Lo que nos interesaba, sin embargo, era el área en blanco. Sumando las áreas extremas y restándolas a la superficie total 1 encontramos la probabilidad buscada.

De modo que la probabilidad de encontrar -valores entre 75 y 85 es de 0.6915 o lo que es lo mismo, esperamos que el 69,15% de los individuos sanos tenga glicemia entre 75 y 85. La tabla permite solucionar no sólo problemas relativos a la probabilidad de encontrar valores de z superiores, inferiores o entre determinado valor es de z sino que sirve también para encontrar los valores de z y consecuentemente los de x que delimitan áreas preestablecidas. Supongamos que en el problema de la glicemia quisiéramos establecer límites inferior y superior para lo habitual. En primer lugar habría que definir el criterio de habitual y raro. Supongamos que consideramos raro un hecho que ocurre sólo un 5% de las veces. Aplicado este criterio al límite inferior de la glicemia, debemos encontrar el valor de z bajo el cual queda el 5% del área de la distribución, o en otras palabras que tiene probabilidad 0.05 de ocurrir. En este caso buscaremos en el centro de la tabla el valor 0,0500 y determinaríamos a qué z corresponde. Lo más próximo a este valor es 0,0505 que corresponde a z = 1,64. Este z tendrá valor negativo para el límite inferior. Para el límite superior. rigiendo el mismo criterio, tendremos un valor de z límite de + 1,64. Para encontrar los valores de x correspondiente sólo resta despejar x de la fórmula de z:

En el gráfico los valores habituales corresponden al área sombreada (90%) y los valores raros en personas normales, al área en blanco (10%).

Come, se puede desprender del ejemplo. el límite que se fije para lo que se considerará habitual y raro es arbitrario. Podría haberse dado un 2%, un 1% etc. dependiendo del criterio del investigador. Por último debe quedar en claro que, por muy atractivo que resulta este método para asignar probabilidades a un intervalo de valores o para determinar límites de variación habitual, esto sólo tiene sentido cuando los datos con que se trabaja se conducen según el modelo de la distribución normal. Los requisitos que deben cumplir son: que sea una variable en escala de intervalos continua, que la distribución sea unimodal y simétrica. que su histograma se asemeje al de la distribución normal y que las frecuencias en los distintos intervalos de la variable estudiada coincidan aproximadamente con las que se esperan por la distribución normal. Esta coincidencia se puede evaluar con otros métodos estadísticos que no se detallan en este momento.

Page 49: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

PROBABILIDAD UnconceptousadocorrientementeenlavidadiariaUn carácter común a los hechos cuya frecuencia se expresa en términos de probabilidad, es la incertidumbre previa sobre la ocurrencia del hecho en un caso particular. A pesar de ello, puede existir la necesidad de predecir el resultado para adoptar una decisión. Por ejemplo, cada vez que se hace un viaje en avión no se conoce con certeza si ocurrirá o no un accidente: hay una pequeña probabilidad de que éste ocurra y, complementariamente, una alta probabilidad de que no suceda. Tomar la decisión de hacer el viaje supone predecir que no habrá un accidente en su curso, predicción que se basa en la probabilidad antedicha. PorquéinteresaenmedicinaAún con las técnicas actuales, no es posible identificar y cuantificar todos los factores, múltiples y complejos, que determinan la ocurrencia de los hechos biológicos. Con todo, en medicina clínica y ante un enfermo, nos vemos forzados a hacer un diagnóstico y pronóstico probables, y a formular un tratamiento. Por ejemplo, uno de los factores pronósticos en una persona quemada, es la extensión de la quemadura. La experiencia muestra que cuando ésta no excede al 20% de la superficie corporal, fallecen 10% de los enfermos; cuando la quemadura alcanza la mitad de toda la superficie corporal, la mortalidad llega a 95%. Ante una persona que tiene una quemadura de escasa extensión, diríamos que el Pronóstico es benigno porque lo más probable es que sobreviva; este pronóstico no tiene seguridad absoluta: tal enfermo podría ser precisamente uno de los que mueren a pesar de que las quemaduras no son extensas. Lo importante es que es posible hacer predicciones probabilísticas en base a la experiencia anterior, PREDICCIONES QUE SON VALIDAS. con restricciones. PARA GRUPOS DE INDIVIDUOS. Por ejemplo: la tasa de mortalidad general en Chile fluctúa alrededor de 9%. y esto significa que de cada 1.000 chilenos van a morir 9 en el plazo de un año; esta predicción se cumplirá con bastante exactitud sin que seamos capaces de predecir quiénes son los que vivirán y quiénes morirán. DefiniciónymedicióndeprobabilidadEjemplo: * 2En un estudio hecho en el Hospital Calvo Mackenna sobre frecuencia de parásitos en niños se encuentra: 22 casos de áscaris 178 casos sin áscaris 200 niños estudiados Si se elige al azar uno de estos 200 niños ¿cuál es la probabilidad que él esté infestado con este parásito? Simbología:n = número de niños examinados = número de casos posibles = número de puntos en el espacio muestral m A = número de niños con hecho A cuya probabilidad se estudia = número de casos “favorables''. P(A) = probabilidad de ocurrencia de A. entonces: P(A) = mA/n = 22/200 = 0,11 o bien 11% Definición:LA PROBABILIDAD DE QUE UN HECHO A OCURRA ES LA RAZON ENTRE EL NUMERO DE PUNTOS MUESTRALES QUE CORRESPONDEN A LA OCURRENCIA DE A (CASOS FAVORABLES) Y EL TOTAL DE PUNTOS (CASOS POSIBLES). Los puntos que representan todos los posibles resultados de una experiencia forman el espacio muestral.

2 Adaptación de "Encuesta enteroparasitológica en Hospital Calvo Mackenna" Bol. Chile. Parasit. XVII: 93-100. Oct.-dic. 1962.

Page 50: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

"Espacio muestral de un experimento es un conjunto de elementos tal que cualquier resultado del experimento corresponde exactamente a un elemento del conjunto. Un elemento en el espacio muestral se designa como punto muestral”3 En nuestro ejemplo el experimento consiste en elegir uno de los 200 niños al azar. El resultado del experimento puede ser de dos tipos: con áscaris. sin áscaris. El espacio muestral está constituido por 200 elementos (niños); cada niño es un punto muestral. La definición de probabilidad que hemos dado es de carácter aplicado y representa la frecuencia relativa con que ocurre determinado hecho si el experimento se repite indefinidamente. El espacio muestral puede representarse gráficamente:

El modelo que se está explicando se caracteriza porque se asigna una igual probabilidad a todos los puntos: cualquier niño puede ser elegido y su elección es igualmente probable. En este primer esquema, el más simple, nótese considera un solo hecho: infestación por áscaris. En consecuencia la probabilidad de que A no acontezca (no infestación) es:

Esto significa que las probabilidades complementarias suman uno, constituyendo certeza. P (A) + P (A̅) = 1 Si en el total de 200 niños no hubiera ninguno infestado con áscaris, P(A) = 0. A la inversa, si todos tuvieran áscaris, P(A) = 1. En consecuencia toda probabilidad tendrá un valor entre 0 y 1: 0 ≤ P ≤ 1 si P = 0 hay imposibilidad de ocurrencia si P = 1 hay certeza de ocurrencia A veces la probabilidad puede ser determinada "a priori". Por ejemplo en el lanzamiento de un dado todas las caras tienen igual probabilidad de ocurrencia y podemos establecer de antemano todos los casos posibles y los favorables. Por ejemplo, la probabilidad de obtener un seis es 1/6, porque los casos posibles en un lanzamiento son: 1 - 2 - 3 - 4 - 5 - 6, y el único caso favorable es 6. En muchas otras ocasiones la probabilidad se determina "a posteriori", en base a la frecuencia relativa observada en experiencia previa. Por ejemplo, en 1958 el total de nacidos vivos en Chile fue de 250.247. De ellos, 127.432 fueron hombres y 122.815 fueron mujeres. De estos datos deducimos que la probabilidad de que un nacido vivo sea hombre es de: 127.432 / 250.247 = 0,5092 (50,92%)

3 Mosteller. Rourke, Thomas. "Probability and Statistics" Addison- Wesley. 196P

Page 51: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

TeoremadeadicióndeprobabilidadesA menudo interesa la ocurrencia de más de un hecho. En el ejemplo usado anteriormente, se investigó también la existencia de otro parásito, la lamblia, con los resultados siguientes:

Originalmente teníamos dos probabilidades: que un niño elegido áscaris [P (A) = 0,11] o que no los tuviera [P (A) = 0,89] Ambas probabilidades sumaban 1. Vemos que al agregar un dato más a nuestra una serie de otras probabilidades. Denominemos por A y el de tener lamblias por B. La certeza actual =1, está constituida por la suma de las siguientes probabilidades:

Se puede ver fácilmente que lo probabilidad de que un niño elegido tenga cualquiera o ambas parásitos es la suma de P(AB) + P(AB) + P(AB) = 0,06 + 0,41 + 0,05 = 0,52. Simbolizaremos esta Situación por P(A o B) en que "o" significa; áscaris o lamblias o ambos. Esto es equivalente a decir que P(A o B) es 1a probabilidad de que ocurra POR LO MENOS UNO de los hechos A, B. Si comparamos con las probabilidades simples originales, vemos que P(AB) difiere de P(A) en que en el numerador se ha restado a los 22 casos con áscaris los 10 que además tenían lamblias. A su vez P(AB) difiere de P(B) en que en el numerador a los 92 casos con lamblias se les ha restado los 10 casos que además tenían áscaris. Luego:

Este es el teorema de adición de probabilidades: la probabilidad de que ocurra por lo menos uno de los hechos A o B es la suma de las probabilidades simples de ocurrencia de cada uno de ellos menos probabilidad de que ambos ocurran simultáneamente. Para nuestro ejemplo: P (A o B ) = 22 ¿? + 92/200 - 10/200 = 0,52

Page 52: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

Gráficamente se puede representar el espacio muestral de la siguiente manera:

Es posible que los dos hechos A y B sean MUTUAMENTE EXCLUYENTES es decir, que no pueden acontecer conjuntamente. En tal caso P(AB) = 0 y el Teorema de Adición se simplifica a:

Gráficamente el espacio muestral sería:

Este teorema se puede generalizar a más de dos hechos. Por ejemplo, en 1963 se notificaron 28.543 casos de Sarampión en Chile, de los cuales 13.768 ocurrieron en Santiago, 2.709 en Valparaíso y 2.186 en Concepción. Estos eventos son mutuamente excluyentes. La probabilidad de que un caso de sarampión haya ocurrido en Santiago. Valparaíso o Concepción es: 13.768 / 28.543 + 2.709 / 28.543 + 2.186 / 28.543 = 18.663 / 28.543 = 0,65 TeoremadeComposicióndeProbabilidadesEntendemos por probabilidad compuesta o conjunta, la probabilidad de que dos o más hechos ocurran simultáneamente. En nuestro ejemplo sería la probabilidad de que un niño tuviera al mismo tiempo áscaris y lamblias. esto es, P(AB). Con el fin de deducir una fórmula para P(AB) es necesario introducir el concepto de PROBABILIDAD CONDICIONAL. Esta es la probabilidad de que ocurra un hecho cuando se establece como condición que

Page 53: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

previamente haya ocurrido otro hecho. En símbolos se representa por: P(A/B) = probabilidad de que ocurra A habiendo ocurrido previamente B. En nuestro ejemplo P(A/B) sería la probabilidad de encontrar un niño infestado por áscaris en circunstancias de haberse comprobada que portaba lamblias. E1 espacio muestral de casos posibles se reduce entonces a los 92 niños infestados por lamblias y los casos favorables son los 10 niños que adicionalmente tienen áscaris:

Dividiendo numerador y denominador del término derecho por n tenemos:

Luego:

Este resultado es equivalente a 10/200 = 0,05 Este es el TEOREMA DE MULTIPLICACION DE PROBABILIDADES O PROBABILIDAD COMPUESTA O CONJUNTA. Habríamos llegado al mismo resultado aplicando este .e rema desde el punto de vista de 1a probabilidad condicional de tener lamblias cuando previamente se comprueba la existencia de áscaris: P(AB) = P(A) . P(B/A) = 22/200 . 10/22 = (0,11) (0,4545) = 0,05 (5%) HechosindependientesDos o más hechos son independientes cuando la ocurrencia de uno de ellos no afecta la probabilidad de ocurrencia de él o de los otros. En tal caso, es claro que: P(A/B) = P (A) y P(B/A) = P(B) con lo cual el teorema de composición de probabilidades se transforma en

LOS HECHOS INDEPENDIENTES JAMAS PUEDEN SER MUTUAMENTE EXCLUYENTES. Siendo P(A) mayor que 0 y P(B) mayor que 0. su producto nunca podrá ser 0. Desde otro punto de vista; sí la ocurrencia de un hecho hiciera imposible la ocurrencia de otro hecho, como sucede en acontecimientos mutuamente excluyentes estos hecho lógicamente no son independientes. Comparemos ahora lo que sucede cuando dos hechos son independientes y cuando no lo son. En una escuela se examina 1.500 alumnos para establecer su estado nutritivo en relación al sexo. Se define:

Page 54: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

Si el resultado es

¿Son A y B independientes? P(B/A) = 100/1.000 = 0,10 P (B) = 150/1.500 = 0,10 Luego A y B son independientes La probabilidad de que un niño elegido al azar de esta escuela sea hombre y desnutrido será por lo tanto: P(AB) = P(A) . P(B) = (1.000/1.500) (150/1.500) = 2/3 . 1/10 = 2/30 = 0.067 Si, en cambio, el resultado hubiera sido el siguiente:

En este caso P(B/A) = 50/1.000 = 0,05 P (B) = 100/1.500 = 0.067 Luego A y B no son independientes, es decir, la desnutrición depende del sexo. La probabilidad de que un niño elegido sea hombre y desnutrido será entonces: P(AB) = P(A) P(B/A) = (1.000/1.500) (50/1.000) = 50/1.500 = 0,033 Es erróneo, en cambio: P(AB) = P(A) P(B) = (1.000/1.500) (100/1.500) = 2/45 = 0,044 En realidad sabemos que la situación conjunta de ser hombre y desnutrido ocurre sólo en 40 niños de un total de 1.500, y su probabilidad es 50 /1.500 = 0,033.

Page 55: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

DISTRIBUCIONBINOMIAL ElproblemaCon cierta frecuencia en medicina una investigación consiste en la obtención de un determinado número de unidades de observación, en cada una de las cuales el hecho en estudio puede expresarse en sólo dos alternativas. Por ejemplo: - Se seleccionan 100 escolares a quienes se les hace una reacción de tuberculina, que puede ser "positiva" o "negativa", - Se ensaya una nueva droga en 30 enfermos y los resultados individuales se clasifican en "curación" o "fracaso". - Se inoculan 20 ratas con una substancia presumiblemente tóxica y se observa en cada animal si "muere" o "sobrevive". Entonces surge la pregunta de cuál es la probabilidad de que se observe un número dado de veces una de estas alternativas. Por ejemplo, en el experimento con la nueva droga se observan 20 curaciones (67,°6 de curaciones); con la droga hasta ahora usada las curaciones eran habitualmente 50% y en 30 enfermos deberíamos esperar 15 curaciones. Si la nueva droga no es mejor que la antigua, ¿cuán probable es que se registren 20 mejorías en vez de 15 por mera suerte en una experiencia con sólo 30 enfermos? Problemas de esta especie pueden ser resueltos utilizando la distribución binominal si se cumplen determinados requisitos. Requisitosparautilizarladistribuciónbinomial l. Debe haber un número fijo de "ensayos" 100 escolares, 30 enfermos, 20 ratas, etc. 2. En cada ensayo, los resultados posibles son necesariamente sólo dos, a menudo denominados "éxito" y "fracaso". La idea de binomio indica justamente dos nombres, dos términos. En la práctica los resultados posibles podrían ser más pero si se agrupan en dos alternativas el modelo, es aplicable. Por ejemplo, los resultados clínicos de un tratamiento podrían ser: curación, mejoría, estacionamiento, agravación, muerte; podríamos llamar "éxito" a los dos primeros y "fracaso" a los restantes. 3. La probabilidad de "éxito" debe ser igual en todos los ensayos Por ejemplo, sí se sabe que el porcentaje de niños tuberculino - positivos en las escuelas primarias de Santiago es 30% y se toman al azar 10 de ellos, podemos suponer que la probabilidad al elegir cada niño es 0.3 de que sea positivo. 4. Los ensayos deben ser independientes entre sí Esto es, la ocurrencia de una alternativa en un ensayo no debe afectar la probabilidad de ocurrencia de ella en ninguno de los otros ensayos. En el ejemplo de la droga ensayada en 30 diferentes enfermos, la probabilidad de curación del segundo enfermo es igual haya o no curado el primer enfermo. Si esta probabilidad fuera 0.70, entonces la probabilidad de que el primero y el segundo enfermo curen será (0,70) (0,70) = 0,49. Simbologían = número de ensayos, siendo n > 1 p = probabilidad de "éxito" en un ensayo; 0 < p < 1 q = 1 - p = probabilidad de "fracaso" en un ensayo x = número de éxitos en n ensayos = 0,1,2, ........... n Un ejemplo. En la difteria laríngea la letalidad es habitualmente de 10%. Si se eligen dos de estos enfermos al azar. ¿Cuál es la probabilidad de que uno de ellos muera y el otro sobreviva? En este caso el número de ensayos es dos enfermos, el curso de la enfermedad puede terminar en sobrevida (S) o muerte (M), se han elegido dos casos cualquiera a los cuales podemos atribuir una probabilidad "a priori" de sobrevivir igual, y lo que suceda al primer enfermo no afecta la evolución del segundo.

Page 56: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

Luego: n = 2 p = probabilidad de sobrevivir = 0,90 q = probabilidad de morir = 0,10 x = número de éxitos, esto es, sobrevivientes Se pide P(x = 1) = probabilidad de observar un sobreviviente El número de puntos muestrales es 4, porque el primer enfermo puede sobrevivir o morir (dos alternativas) y el segundo también (dos alternativas), lo que da 2 x 2 = 4 resultados posibles. El espacio muestral es: E = (SS, SM, MS, MM) Cada uno de estos puntos representa una probabilidad conjunta de dos hechos independientes, que corresponde al producto de las probabilidades simples. Por ejemplo: P (SS) = P (S) . P(S) = p . p = p2 = (0.90) (0,90) =0,81 De modo similar se obtiene:

Se ha pedido la probabilidad de obtener un sobreviviente. Aplicando el teorema de adición de probabilidades (que haya un sobreviviente, sea el primer enfermo o el segundo), en hechos que son mutuamente excluyentes, se obtiene: P(x = 1) = P(SM U MS) = P(SM) + P(MS) = 2 pq = 2(0,09) = 0.18 Se ve de inmediato que, tratándose de 2 ensayos, la probabilidad de tener 2, 1 ó 0 éxitos, se obtiene por los términos de expansión del binomio: (p + q) 2 = p2 + 2 pq + q2 Si se hubieran elegido, en similares condiciones, 3 enfermos, (n = 3), el espacio muestral tendría: 2 x 2 x 2 = 23 = 8 puntos, cuyas probabilidades son:

Page 57: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

Es decir, cuando n = 3, se obtienen las probabilidades 3, 2, 1 ó 0 éxitos, por la expansión del cubo del binomio: (P + q) 3 = p3 + 3p2q + 3pq2 + q3

El caso general para n ensayos ¿Cuál es la probabilidad de obtener en general x éxitos en n ensayos si la probabilidad de éxito es p? Designemos esta probabilidad por: P (x, n, p) Si en n ensayos hay x éxitos, debe haber también (n -x) fracasos. La probabilidad de obtener x éxitos, puesto que se trata de hechos independientes, es p multiplicado x veces por sí mismo, es decir, px . De igual modo, la probabilidad de obtener exactamente (n - x) fracasos es q n-x . De este modo, La probabilidad de obtener. EN CUALQUIER ORDEN exactamente x éxitos y (n - x) fracasos es: pxq (n-.x) (1) El hecho de que el orden en que aparecen éxitos y fracasos no altera esta probabilidad depende de que la independencia implica multiplicación de las probabilidades simples, y el orden de estos factores no altera el producto. Hemos visto que existen varias modos diferentes por los cuales pueden presentarse las x éxitos y los (n - x) fracasos. Por ejemplo, dos muertes y un sobreviviente en el ejemplo antedicho, pueden presentarse de tres modos diferentes: MMS MSM SMM Es necesario completar la fórmula (1), que especifica la probabilidad, con un coeficiente que indique todos los arreglos distintos de n ensayos con x éxitos. Este numero corresponde a las permutaciones de n elementos de dos clases, de los cuales x son de un tipo (n - x) son de otro: este coeficiente corresponde también a las combinaciones de n elementos tomados de a x cada vez:

n! es el símbolo para n factorial que significa n(n-1) (n-2)........ (n-n+l) Para el ejemplo anterior en que n = 3, x = l, n - x = 2

Por definición 0! = 1, de modo que las maneras de obtener 3 éxitos en 3

ensayos = (n) Existen pues x puntos que corresponden a exactamente x éxitos que forman el subconjunto de hechos "favorables". Cada punto tiene la probabilidad indicada en (1). La probabilidad total de x éxitos en n ensayos se obtiene por la suma de estas probabilidades.

Page 58: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

Por ejemplo, en el caso de los tres enfermos de difteria, la probabilidad de obtener un solo sobreviviente (éxito) y por tanto dos muertes (fracasos) es:

En la serie de términos obtenidos por el desarrollo del binomio (p+q)n el exponente de p disminuye de x = n hasta x = 0. Si p es la probabilidad de éxito, los términos expresan ordenadamente las probabilidades de obtener n, n-l, n-2. ....... 0 éxitos. En el ejemplo utilizado: (p+q)3 = p3 + 3 p2q + 3 p q2 + q3

reemplazando:

Probabilidad de obtener x sobrevivientes x = 3 x = 2 x = 1 x = 0 En general, si p = probabilidad de éxito:

Probabilidad n n – 1 x 0 de obtener éxitos éxitos éxitos éxitos El hecho de que (p + q)n = 1, indica que sus términos corresponden a las probabilidades de todos los puntos muestrales. Estos puntos son 2n, porque en cada ensayo , por definición, existen dos alternativas: éxito o fracaso. El número total de términos, que es el número total de resultados posibles del experimento, es n + l. Para cada término, los exponentes de p y de q, que son x y (n-x), suman n. puesto que el total de ensayos se compone sólo de éxitos y fracasos. Los coeficientes son simétricos, porque:

Sin embargo, la distribución de probabilidades no es simétrica, a menos que p = q = 0.5 Entonces :

Por ejemplo, si se lanzan al aire 6 monedas, es igualmente probable obtener 6 caras que obtener 6 sellos, y esta probabilidad es (0.5)6. Esta condición se observa en algunos experimentos en genética. Si se tiene un híbrido Aa, es igualmente probable que un gameto reciba el gene dominante A o el recesivo a. Los gráficos que siguen muestran en (1) y (2) la simetría producida por p = 0. 5. El aumento de n = 10 a n = 30 aumenta la amplitud en el número de éxitos: estos varían entre 1 y 9 en el primer caso, entre 9 y 21 en el segundo. Pero si el número de éxitos se expresa como un porcentaje, se ve que el aumento en el tamaño de la muestra reduce la variación. Para n = 10 esta variación es de 10 a 90%, es decir, 80% para n = 30 varía entre 30 y 70% es decir, 40% Esto es, si hacemos una experiencia con un mayor número de enfermos, los resultados porcentuales obtenidos serán menos variables por la influencia del azar. En el grafico (3) se observa una distribución muy asimétrica para p = 0.2 y n = 10. Sin embargo si n aumenta a 30, la distribución tiende a la simetría.

Page 59: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

En general, puede decirse que la distribución binomial puede considerarse simétrica si: np ≥ 5 y nq ≥ 5 Esta propiedad tiene importancia porque permite utilizar la curva normal como una aproximación del binomio, bajo determinadas condiciones.

Page 60: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

Aplicaciónaunexperimentodemuestreo En un trabajo práctico se ha hecho un experimento que consistió en obtener repetidas muestras aleatorias de 10 bolitas de un saco que contiene muchas bolitas y de las cuales 40% tienen determinado color. Suponemos que esto representa la extracción de muestras aleatorias de 10 niños, de una escuela donde se sabía que existía un 40% de niños tuberculino-positivos. El propósito era ver si el porcentaje de positivos observado en cada muestra podía diferir por simple azar de la proporción existente en la Escuela. Esta diferencia es importante porque en la práctica el problema consiste en estimar la proporción desconocida que existe en un universo o población, basados sólo en los resultados de una muestra. La distribución obtenida en 570 muestras se presenta en la tabla adjunta. Las probabilidades obtenidas por el desarrollo del binomio (0,4+0,6)10 se presentan en la tabla y se ve que coinciden bastante bien con los resultados del experimento:

Se observa que en el experimento en sólo 25,1% de las muestras se obtuvo el 40% de positivos existentes en la Escuela. Si hubiéramos inducido a la Escuela los resultados de una de estas muestras, en 100% - 25,1% = 74,9% de las veces habríamos llegado a una conclusión errónea. Este error deriva del hecho mismo de usar una muestra (ERROR DE MUESTREO): desaparecería si pudiéramos examinar a todo el universo o población. De acuerdo al experimento, este error es frecuente e inevitable. Esto significa que toda inducción científica tiene cierto grado de incertidumbre. La distribución obtenida es unimodal y centrada en el % existente en la Escuela: de todos los resultados posibles, el más probable es la tasa verdadera. - La distribución es aproximadamente simétrica. A medida que el porcentaje de la muestra se distancia más de 40% (es decir, a medida que el error de muestreo aumenta), la frecuencia de las muestras es menor. Esto es, la

Page 61: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

probabilidad de cometer grandes errores es baja; es más probable obtener una muestra que coincida con la tasa existente en la Escuela o que no sea muy diferente de ella. Si las bolitas se han extraído una a una, reponiendo la bolita extraída al saco después de cada ensayo para mantener constante p = 0,4, es evidente que ésta es una distribución binomial donde: n=10 p=0,4 q =0,6 EN SUMA. la inducción basada en muestras está expuesta inevitablemente. a error de muestreo. No obstante, disponemos de una teoría de probabilidad que permite estimar este error, si se cumplen determinados supuestos. Por ejemplo. ¿cuál es el riesgo de obtener una muestra que difiera en 30% o más de la verdadera tasa existente en la Escuela en el experimento que se analiza? Estas muestras serán las que tengan 0, 1, 7, 8, 9 ó 10 positivos. Luego, la probabilidad de cometer este error es: la suma de las probabilidades individuales de los términos del binomio correspondientes: 0,6 + 4,0 + 4,2 + 1,1 + 0,2 = 10,1% La aplicación de la teoría de la probabilidad a la inducción basada en muestras es lo que se conoce como inferencia estadística.

INFERENCIA Se define la inferencia estadística como aquélla parte de la metodología estadística que, a través de un razonamiento inductivo, extiende los resultados obtenidos en las muestras a su universo de origen. Dos son los objetivos de la inferencia: la estimación de parámetros y la docimasia de hipótesis, esta última más conocida coma prueba de significación estadística. Antes de explicar en qué consisten la estimación de parámetros y la docimasia de hipótesis conviene definir algunos términos. Se llama PARAMETRO a una medida que describe un universo. Cuando la medida correspondiente describe una muestra se la denomina ESTADISTICA. Supongamos por ejemplo que se conocen las estaturas de todos los individuos de un universo. Si quisiéramos una medida que describa la posición central de este universo calcularíamos el promedio de todas las estaturas, lo que constituiría el parámetro µx Si sólo tuviéramos información sobre las estaturas de una muestra extraída de este universo, el promedio x calculado en la muestra sería la estadística correspondiente. Si por otra parte nos interesara la dispersión de los valores individuales de las estaturas, calcularíamos la desviación standard que para el universo se simbolizará por σx y para la muestra por sx. El procedimiento de cálculo del parámetro σx difiere en este caso del de la estadística sx ya que en esta última la suma de las desviaciones cuadráticas se divide por (n - 1) en vez de dividir por N como se hace en el universo. Aceptando estas definiciones la ESTIMACIÓN DE PARRMETROS consiste en el cálculo de estadísticas para muestras, con el fin de obtener información sobre el valor de los parámetros del universo. Esta inducción se basa en la teoría de probabilidades y sólo es posible cuando se conoce la conducta o "distribución muestral" de las estadísticas. Cuando en una investigación explicativa se verifica la veracidad de la hipótesis los procedimientos estadísticos empleados, en la prueba de significación ayudan al científico a tomar una decisión respecto a la hipótesis planteada. La DOCIMASIA DE HIPOTESIS consiste en determinar la probabilidad de ocurrencia del resultado obtenido en la investigación basándose en la distribución muestral de la estadística utilizada para medir tal resultado. Distribucionesmuestrales Tanto para la estimación de parámetros como para la docimasia de hipótesis se mencioné la importancia de conocer las distribuciones muéstrales. Estas adoptan diferentes formas según las estadísticas investigadas. Para entender lo que es una distribución muestral analizaremos un ejemplo concreto.

Page 62: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

Supongamos que disponemos de un universo de fichas que llevan cada una un número que corresponde al valor de una variable distribuida normalmente con µx = 500 y σx = 100. Si de este universo extraemos repetidas muestras de tamaño n = 25 (reponiendo cada ficha al universo antes de sacar la próxima) y para cada muestra calculamos el promedio de los valores que aparecen en las fichas. ocurrirá que la mayoría de los promedios estarán cerca del µx del universo, es decir de 500, y pocas estarán muy alejados de este valor. Si los resultados se llevan a un gráfico este histograma tendrá el aspecto de una curva normal. Por lo tanto podríamos describir esta distribución con el promedio y la desviación standard de los promedios muestrales. Veremos que en nuestro ejemplo el promedio de los promedios estará cerca de 500 y su desviación standard tendrá un valor cercano a 20. A través de la teoría estadística se puede demostrar que si se extraen todas las distintas muestras posibles de tamaño n de un universo con µx y σx conocidos, los promedios de estas muestras se distribuyen normalmente con

en el presente ejemplo

Supongamos ahora que en vez de tener un universo de fichas con valores en escala de intervalos continua tuviéramos un universo con una variable en escala nominal, por ejemplo un universo de bolitas en que e1 40% de las bolitas fueran azules y el 60% grises. En este caso el parámetro del universo es P = 0,4 la proporción o tasa de bolitas azules, siendo Q su complemento: 1 - P, la proporción de bolitas grises. A1 sacar repetidas muestras de tamaño n = 20 de este universo (reponiendo las bolitas después de cada extracción) la proporción p de bolitas azules de las muestras se distribuirá en forma aproximadamente normal con

en el presente ejemplo:

Nota: Es aceptable describir esta distribución como normal siempre que la muestra tenga tamaño suficiente para que nP y nQ tengan valores iguales o superiores a 5. Estos dos ejemplos de muestreo de un universo nos servirán para entender el procedimiento de estimación de parámetros. Para comprender las distribuciones muestrales que se utilizan en la docimasia de hipótesis será útil considerar los siguientes casos: Supongamos que en vez de extraer cada vez una muestra de nuestro universo de fichas, sacamos pares de muestras de 25 fichas cada una y que estudiamos la diferencia entre los promedios de estos pares. Si llamamos x1 al promedio de la primera muestra del par y x2 al promedio de la segunda muestra. ocurre que la estadística x1 - x2 se distribuye normalmente con

Page 63: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

En el presente ejemplo:

Si igual procedimiento se sigue en el universo de bolitas, extrayendo pares de muestras de tamaño n = 20 la distribución de diferencias entre porcentajes de pares de muestras tendrá una distribución normal con

En el presente ejemplo:

Por los ejemplos expuestos pudiera quedar la impresión que toda distribución muestral es una distribución normal. Esto no es efectivo. Así por ejemplo la estadística np para muestras extraídas con reposición tiene distribución binominal. Una de las distribuciones más importantes en inferencia es la distribución t de Student. Cuando se desconoce el σx del universo, lo que en la práctica es la situación más corriente, el error standard del promedio debe calcularse a partir de la desviación standard de la muestra;

En este caso ya no es licito trabajar con la distribución normal

y la variable normal standard sino que se trabajará con la variable que tiene una distribución parecida a la normal pero un poco más amplia. Los valores de t dependen del N° de grados de libertad, los que se determinan a partir del número usado en el denominador para el cálculo de sx. Se observa por ejemplo que el percentil 97,5 que en la curva normal corresponde a un valor de z = 1,96, en la distribución de t para 24 grados de libertad corresponde a un t de 2.064. Para n infinito la distribución t es igual a la normal pero en la práctica cuando el número de observaciones es superior a 30 los valores de z y t son tan parecidos que se puede utilizar como aproximación la distribución normal. Afortunadamente la mayoría de las distribuciones muestrales tienden a parecerse a la normal cuando el tamaño de la muestra es grande.

Page 64: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

EstimacióndeparámetrosAl estudiar las distribuciones muestrales se han elaborado ejemplos de extracción de muestras de universos conocidos. En la práctica el problema consiste en cambio. en obtener información sobre un universo desconocido basándose en los resultados obtenidos en una sola muestra. En otras palabras, se desea estimar los parámetros del universo a partir de las estadísticas muestrales. Se vio en el ejemplo de la distribución de promedios muestrales que la máxima frecuencia de muestras está frente al parámetro µx del universo, lo que significa que µx es el valor más probable de obtener como promedio muestral. Por lo tanto al disponer de una sola muestra. La estadística x será la mejor estimación de µx. Este proceso se llama "estimación puntual" ya que se refiere a un punto en la escala de medición. E1 mismo razonamiento se puede aplicar a la estimación de P a través de la estadística p. Es evidente que la estimación puntual da una información incompleta porque no toma en consideración la dispersión de la distribución muestral. A1 afirmar que la distribución de los promedios muestrales, por ejemplo, es normal se deduce que aproximadamente un 95% de los promedios de muestras aleatorias extraídas del universo no se alejan más de 2 errores standard del promedio µx del. universo. A la inversa se puede decir que el 95% de las veces que se obtiene una muestra del universo, su promedio µx no quedará a una distancia mayor que dos errores standard del promedio muestral x. Existe por lo tanto una probabilidad de 0,95 de incluir a µx en el intervalo construido con x ± dos errores standard.

En otras palabras tenemos confianza que de cada 100 predicciones que hagamos en esta forma, 95 de ellas incluirán el verdadero valor del universo y sólo fracasaremos en 5. Este procedimiento se llama "estimación por intervalo" y se habla de intervalos de confianza de 95%, de 99%, etc. dependiendo de la seguridad que se quiera dar a la estimación. DocimasiadehipótesisLa docimasia de hipótesis se refiere generalmente a la comparación de dos o más grupos sometidos a tratamientos diferentes. Vimos que para el caso de dos grupos es conocida la distribución muestral de las diferencias de promedios o de porcentajes de pares de muestras provenientes de un mismo universo y que ambas están centradas en 0. Aplicando los conocimientos sobre distribución normal se puede predecir que en estas distribuciones será raro encontrar diferencias muy alejadas de 0 cuando las muestras provienen del mismo universo y que es posible adjudicar probabilidades a las magnitudes de las diferencias haciendo uso de la variable z, El conocimiento de estos hechos ha dado lugar al procedimiento para docimar hipótesis lo que más comúnmente se conoce como la prueba de significación estadística. Consiste en plantear dos hipótesis: la hipótesis de nulidad Ho y la hipótesis alternativa Hl. En la hipótesis dé nulidad se plantea que las muestras provienen del mismo universo y por tanto conocemos la distribución de la estadística bajo este supuesto. En la hipótesis alternativa se plantea que las muestras provienen de diferentes universos. Cuando la diferencia observada es tan grande que bajo el supuesto de la hipótesis de nulidad este hecho es poco probable, se rechaza la hipótesis de nulidad y en cambio se acepta la hipótesis alternativa. La calificación de poco probable es arbitraria y por costumbre se refiere a una probabilidad de 5% o de 1%. Esto es lo que se llama el nivel de significación. Si para una diferencia entre dos grupos se encuentra que está a más de 2 errores standard de 0 sabemos que esto ocurre a lo más en el 5% de los casos en que se extraen muestras de un mismo universo. Como esto lo consideramos improbable rechazamos esta procedencia común y aceptamos que realmente provienen de universos diferentes. Por este motivo en las publicaciones científicas aparece con frecuencia la anotación al lado de una diferencia: “Diferencia estadísticamente significativa, p < 0,05” o bien “p < 0.01” lo que se refiere al porcentaje de 5% o 1% habitual para el nivel de significación.

Page 65: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

ESTIMACIONDELATASADELUNIVERSO(P)BASADAENLATASAMUESTRAL(p)

Elproblema

Con el propósito de evaluar un programa de atención materno-infantil se desea conocer la tasa de mortalidad neonatal * de la población sometida a este programa. Para ello se tomó una muestra de 800 nacido vivos de esta población y se registró el N° de defunciones ocurridas antes de los 28 días de vida. Estas fueron 16 lo que da una tasa de mortalidad neonatal de 20%. Aunque este valor no es necesariamente igual a la tasa de mortalidad neonatal de la población, sí lo podemos utilizar como una estimación de ella. EstimaciónpuntualLa distribución de las tasas (p) de muestras aleatorias extraídas de un universo donde la tasa es P, es aproximadamente una curva normal con: Promedio = P

error standard = Podemos decir, pues, que la tasa observada. 20%, es una estimación de la desconocida tasa de mortalidad neonatal de la población sometida a este programa materno-infantil. EstimaciónporintervaloConsiderando la frecuente disparidad entre la tasa muestral y la del universo, parece mejor establecer un intervalo, para estimar la tasa de la población. De acuerdo al teorema referido, repetidas muestras de tamaño n = 800, obtenidas aleatoriamente de un universo en el cual la tasa de mortalidad neonatal es P, se distribuyen aproximadamente de acuerdo a una curva normal, con promedio y error standard ya indicados. Deberemos esperar que el 95% de las muestras, aproximadamente tengan tasas (p) comprendidas entre los límites:

Page 66: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

En consecuencia, sólo 5% de las muestras corresponderán a tasas que están fuera de estos límites. Estos límites no son determinables, puesto que P es desconocido. Si se parte de la tasa de la muestra, que si es conocida (en este caso = 20%) pueden establecerse los límites.:

Puesto que la tasa de la muestra no diferirá de la tasa del Universo en más de 1.96σp en 95% de las muestras, estos límites incluirán la tasa del universo (P) en 95 de cada 100 intervalos que construyamos de este modo. Por ello se habla de INTERVALOS DE 95% DE CONFIANZA. (Ver esquema de la próxima página). En 5 de cada 100 veces, la tasa de la muestra diferirá del universo en más de 1,96 σp , y los intervalos que construyamos con este p no incluirán entre sus límites la tasa del universo. Este error acontecerá en: 100 % - 95 % = 5%

Para calcular estos niveles de confianza necesitamos determinar el error estándar

Se ve que este valor no es determinable porque requiere el valor de P, que es precisamente la tasa desconocida del universo. Nos vemos obligados a estimarlo basados en la muestra y designaremos el error standard estimado por sp.

Page 67: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

El intervalo de confianza de 95% queda determinado en este ejemplo por los siguientes límites:

EN SUMA, basados en una experiencia de 800 recién nacidos, podemos decir con una confianza del 95%, que la tasa de mortalidad neonatal en la población beneficiaria de este programa está comprendida entre 10,2% y 29,8% SeguridadyprecisióndelaestimaciónHay dos elementos de interés práctico en la estimación de la tasa del universo. La SEGURIDAD O CONFIANZA es la probabilidad de que sea correcto un intervalo de confianza calculado con el método indicado, esto es, que realmente incluya entre sus límites a la tasa del universo. En este ejemplo. la seguridad es de 95%. La confianza del intervalo está determinada por el valor z que hayamos elegido, que en este caso ha sido 1,96. Por otra parte, con esta confianza de 95% afirmamos que la tasa de la muestra no debe diferir de la tasa del universo en más de 1,96. En este ejemplo. en más de ± 1,96 (5) = ± 9.8%. Este valor mide la PRECISIÓN de la estimación. Diríamos que una estimación de la verdadera tasa de mortalidad neonatal de la población sometida a programa sería más precisa si, afirmar que la tasa de la muestra no difiere de la tasa del universo en más de 5% . La confianza del intervalo puede aumentarse utilizando mayores valores para z. Por ejemplo, para límites de confianza de 99%, z = + 2,58 z = - 2,58 puesto que dentro de estos límites se encuentran aproximadamente el 99% de las muestras. El intervalo es ahora:

Hemos ganado así seguridad, pero a costa de sacrificar precisión, porque ahora: ± zsp = ± 2,58(5) = ± 12,9 en tanto que en los límites de confianza de 95% era: ± zsp = ± 1,96(5) = ± 9,8 El modo de ganar precisión sin perder seguridad (y viceversa) es aumentar el tamaño de la muestra, puesto que la magnitud del error standard de tasas varía inversamente donde n es el tamaño de la muestra. Supongamos que la experiencia se hubiera hecho con 3.200 niños:

Se ve que aumentar la muestra en 4 veces = (3.200/800) ha hecho este error standard a la mitad (5/2.5) debido a que n se encuentra raíz cuadrada.

Page 68: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

Los límites de confianza son ahora:

EN RESUMEN, los intervalos de confianza para las situaciones estudiadas son:

Determinacióndeltamañonecesariodelamuestra De todo esto resulta que es conveniente, al iniciar una investigación, decidir sobre el tamaño que debería tener la muestra para satisfacer los objetivos que se han determinado. Por ejemplo, podría considerarse que el intervalo de confianza que se ha calculado basado en 800 niños, parece demasiado amplio para resolver sobre la extensión del programa a otras poblaciones. Podría planearse entonces hacer una segunda experiencia complementaria. ¿Cuál sería el número de observaciones que deberíamos realizar? Supongamos que se especifican las siguientes condiciones para la estimación de la verdadera tasa de mortalidad neonatal: - Seguridad: intervalo de confianza de 95% - Precisión: que la tasa de la muestra no difiera de la tasa del universo en más de ± 4% El requisito de seguridad o confianza se cumple utilizando un valor de z tal que el 95% de las muestras estén incluidas entre (P - z σp-) En este caso: Z = ± 1,96 = 2 El requisito de precisión se satisface haciendo p - P = ± 4% Es necesario además tener alguna idea sobre el posible valor de la tasa de mortalidad neonatal que se trata de estimar (P). Basados en la experiencia anterior, usaríamos la tasa observada 20%, como estimación de P. Entonces:

Page 69: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

Una muestra de aproximadamente 5.000 niños satisfaría los requisitos establecidos.

Page 70: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

LAPRUEBADESIGNIFICACIONESTADISTICADEDIFERENCIASENTRETASASELMETODOGENERALSEGUIDOENLAPRUEBA

ProblemaEn el proceso de investigar la veracidad de una hipótesis, con frecuencia se trata de comprobar si existen o no diferencias en alguna o algunas características de dos o más grupos. Estos grupos son habitualmente muestras de universos en estudio. Cuando la investigación comprueba diferencias, el problema que resta es pronunciarse, por inducción. sobre la realidad de tales diferencias en los universos de origen, puesto que el error de muestreo puede producir diferencias muestrales que no corresponden a diferencias reales en las poblaciones o universos originales. Este es el problema que resuelve la PRUEBA DE SIGNIFICACION ESTADISTICA, usando de la teoría de la probabilidad. Requisito previo a la prueba de significación es la similitud de los grupos que se comparan. Si los grupos difieren además del factor que es motivo de investigación, en otros atributos, es evidente que no podemos establecer cual de ellos es responsable de la diferencia observada. En general aceptamos la similitud de los grupos si los "tratamientos"4 han sido adjudicados aleatoriamente a las unidades de observación y si son semejantes en ambos grupos las definiciones, métodos de medición, condiciones de observación, etc. Estos requisitos son más fáciles de cumplir cuando se trata de un experimento, esto es, cuando el investigador ha provocado las observaciones. Existen muchas situaciones prácticas en que no es posible la asignación aleatoria de los tratamientos a las unidades de observación. Sólo es factible entonces buscar un grupo de control tan parecido al grupo "tratado" como sea posible. En tal caso, se requiere investigar la similitud de los grupos en los atributos registrables y que sean atingentes al fenómeno en estudio. Por ejemplo, si se desea evaluar 1a acción de un programa sanita-rio. podría utilizarse una población testigo en la que no se desarrolle tal programa y que tenga similares características demográficas, sanitarias, sociales, económicas, etc. O bien utilizar la misma comunidad, comparando con el período anterior al programa, siempre que todo indique que los restantes factores que influyen en el nivel de salud no hayan tenido variación. Aun así, es posible que se encuentre que los grupos no son enteramente iguales. Por ejemplo, supongamos que se investiga la acción de una nueva droga A en la tasa de curación de una determinada enfermedad por comparación con un grupo de control que recibe la droga convencional B. Supongamos que se observa una mayor tasa de curación con A que con B. Si sucediera además que los casos tratados con A fueran menos graves que los del grupo de control, no podríamos precisar si la diferencia se debe a la mayor acción del tratamiento A o al carácter más benigno de los tratados con él. En este caso el factor que perturba el experimento opera en el mismo sentido que el efecto que se intenta detectar. Por el contrario, si los casos tratados con A fueran más graves y aún así el grupo tuviera una tasa de curación más alta que el control, la prueba de significación, si se cumplen las condiciones que se establecen más adelante, podría llevarnos a aceptar la mejor acción de A. Esto es posible porque el factor que diferencia los grupos tiene una acción inversa al efecto investigado. Naturalmente, el efecto revelado por el experimento sería menor que el real. Cuando es posible individualizar los factores que hacen que los grupos no sean similares, estos factores pueden ser neutralizados y restablecer así la condición de similitud. Por ejemplo, en el experimento que se comenta podría ser factible dividir los casos según gravedad y comparar las dos drogas en dos grupos de gravedad semejante. Lapruebadesignificaciónestadística1) Planteamiento de hipótesis Toda prueba de significación estadística se plantea en términos de una disyuntiva entre dos hipótesis referentes a él o los universos en estudio: la hipótesis de nulidad y la hipótesis alternativa. Se enuncian en la siguiente forma general: Hipótesis de nulidad (Ho)

4 Convencionalmente se habla de "Tratamiento" para referirse a los factores cuya acción se investiga por comparación de grupos.

Page 71: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

Los grupos comparados no difieren en la característica (parámetro) estudiado. Por lo tanto, la diferencia observada en la investigación es consecuencia del error de muestreo: hipótesis alternativa (H1) Los grupos difieren en la característica (parámetro estudiado. Por lo tanto la diferencia observada es consecuencia de efectivas diferencias entre los universos de origen. Ejemplo: Un investigador estudia la (A y B) por inoculación a dos grupos de animales, registrando la tasa de letalidad (% de muertes) en los animales inoculados. Sea: PA = tasa de letalidad en universo de animales inoculados con cepa A. PB = tasa de letalidad en universo de animales inoculados con cepa B. Las hipótesis son las siguientes: HipótesisdenulidadLa tasa de letalidad de animales inoculados es igual con ambas cepas. Esto equivale a negar una diferencia real de virulencia entre las dos cepas: Ho : PA = PB o bien PA – PB = 0 HipótesisalternativaLa letalidad de animales inoculados con la cepa A es distinta que la letalidad inducida por la cepa B. Esto es lo mismo que aceptar que la virulencia de las dos cepas es diferente. H1 : PA ≠ PB o bien PA - PB ≠ 0 El método para resolver esta disyuntiva de hipótesis es el siguiente. Se acepta por un momento que la hipótesis de nulidad es cierta. Es posible entonces estimar la probabilidad de obtener una diferencia de igual o mayor magnitud que la observada, puesto que se conoce la distribución teórica de muestras aleatorias obtenidas en las condiciones que establece la hipótesis. Si la probabilidad es muy baja, rechazamos la hipótesis de nulidad. Si la probabilidad es mayor no rechazamos la hipótesis de nulidad y la disyuntiva queda sin resolver. 2) Nivel de significación De acuerdo a este razonamiento la decisión que se toma no es de certeza sino de probabilidad; en consecuencia, está sometida a error. Rechazaremos la hipótesis de nulidad si la prueba da un valor cuya probabilidad asociada de ocurrencia bajo H es igual o menor que alguna pequeña probabilidad simbolizada por α que llamaremos nivel de significación. El hecho de que el valor sea poco probable, no quiere decir imposibilidad de que ocurra por azar, luego, corremos un riesgo conocido de rechazar Ho siendo esta verdadera. Este es el error tipo I, que designamos como α. E1 nivel de significación es fijado por el investigador, considerando entre otros factores, las consecuencias del error. Habitualmente se fija un nivel de 5% (α - 0.05) o de 1% (α - 0,01). En todo caso, el criterio para rechazar la hipótesis nula debe establecerse previamente al examen de los datos y no subordinarse a los hallazgos de la investigación. Podría pensarse que el procedimiento más seguro es reducir a un mínimo este error, pero este requisito significaría aumentar la probabilidad de cometer un segundo tipo de error, designado β, que es el error de no rechazar una hipótesis nula siendo esta falsa. El esquema de las situaciones posibles es el siguiente:

Page 72: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

3) Determinación de la región de rechazo de la hipótesis nula

La región de rechazo consiste en un conjunto de valores posibles tan extremos que, cuando Ho, es verdadera, es muy pequeña la probabilidad (α) de que la muestra observada produzca un valor que está entre ellos. La localización de la región de rechazo es afectada por la naturaleza de H1. Si H1 indica la dirección predicha de 1a diferencia, (H1 : PA> PB) entonces se requiere una prueba unilateral, si no indica la dirección de la diferencia. (H1: PA

≠ PB) entonces se requiere una prueba bilateral. Ejemplo:

El área sombreada muestra la región de rechazo de Ho. En ambos casos. La determinación de la zona de "rechazo" de la hipótesis nula se basa en la distribución teórica de la diferencia entre muestras, la cual depende de las condiciones del experimento. Es diferente, por ejemplo, si las diferencias son entre proporciones, promedios, coeficientes de regresión, etc., si las muestras son dependientes o independientes; si se comparan dos o más grupos; si la desviación standard del universo es conocida o desconocida etc. 4) Interpretación de los resultados de la prueba Diferenciasestadísticamentesignificativas:InterpretacióncorrectaSi la hipótesis nula fuera verdadera, es improbable, de acuerdo al nivel de significación establecido, que se hubiera obtenido una diferencia igual o mayor que la diferencia observada. Por lo tanto, aceptamos que se origina en el efecto de un factor diferencial entre los grupos. Interpretacionesincorrectasa) Es imposible que diferencias de esta magnitud se produzcan por error de muestreo. b) La significación estadística prueba que el factor en estudio ha causado la diferencia registrada. Diferenciasestadísticamentenosignificativas:InterpretacióncorrectaDe acuerdo al nivel de significación que se ha preestablecido, no hay suficiente evidencia para rechazar la posibilidad de que la diferencia observada se deba a error de muestreo, es decir, la posibilidad de que no exista realmente en los universos en estudio. Interpretacionesincorrectasa) E1 experimento prueba que el factor en estudio no tiene efecto diferencial en los grupos. A continuación veremos algunas pruebas de significación estadística.

Page 73: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

Pruebadesignificaciónestadísticadediferenciasentrelatasadeluniverso(P)ylatasadeunamuestra(p) ElproblemaLa tasa de letalidad de la fiebre tifoidea antes del uso de la cloromicetina era de 10% (Pc), según lo muestra una larga experiencia hospitalaria. Los primeros 100 casos tratados con este antibiótico revelan una letalidad de 2% (pt) ¿Puede aceptarse la diferencia 10% - 2% = 8% como una evidencia del mejor efecto del nuevo tratamiento? AnálisispreviodelosdatosdisponiblesDeberíamos estar ciertos que el grupo tratado con cloromicetina no difiere de la experiencia hospitalaria anterior en ningún factor atingente a la letalidad, excepto en el hecho de no haber recibido el antibiótico. Podrían ser factores de no comparabilidad, entre otros, la menor gravedad de los casos tratados; diferencias entre criterios diagnósticos o cambios en , la virulencia del germen. La similitud de los grupos podría ser establecida si el material es dividido en grupos según el factor ajeno al tratamiento que afecta a la letalidad. Por ejemplo, si se trata de la gravedad inicial de la enfermedad, los casos pueden ser clasificados en leves, de mediana gravedad y graves; las tasas de letalidad para tratados y controles podrían ser comparados en cada grupo. Si los factores que hacen disímiles a los grupos no pueden ser detectados, el experimento no puede llegar a una conclusión útil. Se ve la ventaja de haberlo diseñado mejor: por ejemplo, definiendo un grupo de enfermos que será admitido en la experiencia y asignando aleatoriamente el tratamiento a la mitad de ellos para dejar la otra mitad como grupo testigo. Satisfechas estas condiciones. ¿Podríamos asegurar que la cloromicetina" reduce la letalidad a 2% en cualquier caso de fiebre tifoidea tratado en condiciones similares? La idea de "cualquier caso" implica una generalización a partir de una muestra de 100 casos. Sabemos que toda muestra está expuesta al error de muestreo aunque sea una muestra aleatoria. Podría ser que una nueva experiencia mostrara una letalidad de 4% ó de 1%. Aun es posible imaginar que el antibiótico no fuera realmente efectivo y que, casualmente, hemos obtenido una muestra con una tasa excepcionalmente baja. Clarificar esta duda, en términos de probabilidad, es el objeto de la prueba de significación estadística. Lapruebadesignificaciónestadística 1. Formulación de hipótesis Hipótesisdenulidad:La tasa de letalidad de tifoideas tratadas con cloromicetina (Pt ) es 10% igual que la tasa de letalidad de la fiebre tifoidea antes del uso de la cloromicetina (Pc). En símbolos: Ho : Pt = Pc = 10% o bien Ho : Pt - Pc = 0 Esto es equivalente a decir que la diferencia observada se debe al error de muestreo. HipótesisalternativaLa tasa de letalidad de tifoideas tratadas con cloromicetina (Pt) es menor que la tasa de letalidad de los no tratados (Pc). En símbolos: H1 : Pt < Pc o bien Hl : Pt - Pc < 0 Esto es equivalente a decir que la diferencia observada traduce efectivas diferencias en las poblaciones originales. 2. Nivel de significación Podemos elegir un nivel de significación de 5% ( α = 0,05). Esto quiere decir que fijamos en 5% el riesgo de cometer el primer tipo de error, es decir, rechazar la hipótesis nula siendo ésta verdadera, en este caso, aceptar que la cloromicetina es mejor tratamiento que el antiguo, cuando realmente no lo es.

Page 74: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

Si somos más exigentes y trabajamos con un nivel de significación de 1%, por ejemplo, habremos reducido el primer tipo de error pero aumentado el segundo tipo de error, que consiste en declarar que el nuevo tratamiento no es efectivo, cuando en la realidad es mejor que el antiguo. 3. Determinación de la zona de rechazo de Ho Aceptamos por un momento que Ho (Pt = Pc = 10%) es verdadera. En tal caso podemos tomar los 100 tratados con cloromicetina como, una muestra de un universo con tasa de letalidad para la fiebre tifoidea de 10% TeoremaLa distribución de porcentajes (tasas) de muestras de tamaño n, extraídas de un universo con una tasa igual a P. es aproximadamente una normal con: promedio = tasa del universo = P

En este ejemplo, de acuerdo con la hipótesis de nulidad: P = tasa de letalidad de tifoideas, tratadas o no con cloromicetina = 10% (0.10). Q = tasa de sobrevivencia de estos enfermos = 90% (0.90) n = tamaño de la muestra = 100 casos

Definidos el promedio y la desviación standard de la curva normal, es posible utilizar la tabla de área de esta curva, Se trata de encontrar qué tasas muestrales, menores que el promedio, difieren de este en tal magnitud que la probabilidad de obtener, por simple azar, esas tasas o una menor en la muestra, no exceda 5%. Se requiere definir, pues, un área en el extremo izquierdo de la distribución que equivale a 5% del área total bajo la curva. En la tabla correspondiente se observa que el área a la izquierda de z = -1,65 es igual a 0,05 (5%). De acuerdo con el nivel de significación preestablecido, esta será la zona de rechazo de la hipótesis nula.

Por lo tanto rechazaremos Ho. si el z que calculamos a partir de nuestros datos es menor o igual que -1,65.

Page 75: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

4. Resolviendo sobre la diferencia observada.

Sólo resta ahora establecer si la diferencia observada cae en la zona de rechazo de Ho, calculando e1 correspondiente z:

El zobs es menor que -1,65 por lo tanto, de acuerdo con los criterios objetivos preestablecidos, rechazamos la hipótesis nula. (Pt = Pc = 10%). SobrelaconclusiónalcanzadaEsta conclusión, aunque obtenida por una buena metodología, tiene varias limitaciones que deben tenerse siempre presente. Desde luego, al aceptar un real efecto de la cloromicetina en la tifoidea y rechazar la hipótesis que la diferencia observada sea casual. corremos un riesgo calculado de error. Basados solo en una experiencia de 100, es posible, aunque sea poco probable, que la diferencia fuera simple error de muestreo. La inducción basada en la muestra no tiene carácter de certidumbre y es sólo un juicio de probabilidad. La repetición de experiencias similares, que coincidan en similar conclusión, afianzarán cada vez más este juicio: esto es lo que ha sucedido en la práctica con la cloromicetina de tal modo que no ponemos ahora en duda la eficacia de este tratamiento en la tifoidea. La prueba de significación trabaja con el supuesto implícito que ambos grupos son enteramente iguales. Si el grupo testigo no cumple razonablemente las condiciones de similaridad con el grupo tratado, esta teoría no tiene aplicación. Por eso el diseño del experimento y el estudio de los términos de comparación son asuntos previos a la prueba de significación. De igual modo, los errores de observación definiciones deficientes, malas mediciones, criterios no uniformes, sesgo de los observadores, etc. pueden llevar a una conclusión errónea, que la teoría de la prueba de significación no puede evitar. Nótese. por otra parte, que se juzga en este ejemplo el efecto de la droga en términos de reducción de la letalidad. Pudiera ser que una droga no modificara esta tasa, pero sin embargo fuera efectiva en otros aspectos (reducción del tiempo de enfermedad, menor frecuencia de secuelas, etc.). El juicio sobre la droga en consecuencia. depende del indicador usado. Pruebadesignificaciónestadísticadediferenciaentretasasdedosmuestras. ProblemaEn un consultorio se deseaba estudiar el impacto que tiene el trabajo de terreno en el estado nutritivo del lactante. Con tal objetivo, en los sectores en que no hay programa de terreno, se tomó una muestra de lactantes, a los cuales se calificó su estado nutritivo, lo mismo se hizo en sectores en que las, auxiliares de enfermería hacen visitas periódicas al domicilio de los lactantes. Los resultados fueron los siguientes:

Page 76: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

¿Es realmente mayor la tasa de desnutrición en los sectores sin programa? AnálisispreviodelosdatosdisponiblesAntes de proceder a la prueba de significación estadística debiera existir una razonable seguridad de que los sectores con y sin programa no difieren en otros aspectos que pueden influir en el estado nutritivo del lactante. El hecho de existir tales diferencias podría impedir sacar conclusiones respecto al factor trabajo de terreno que es el que nos interesa en este caso. Lapruebadesignificaciónestadística 1. Formulación de hipótesis Hipótesisdenulidad: La tasa de desnutrición en el universo de lactantes sin programa: P1 es igual a la del universo de lactantes con programa: P2. Esto equivale a decir que la diferencia observada se debe al error de muestreo. En símbolos: Ho : P1 = P2 o bien Ho : P1 - P2 = 0 HipótesisalternativaLa tasa de desnutrición real de los lactantes sin programa es mayor que la de los lactantes con programa. Esto equivale a decir que la diferencia observada traduce diferencias reales entre las poblaciones originales. En símbolos: H1 : P1 > P2 o bien H1 : P1 - P2 > 0 2. Nivel de significación Podemos elegir un nivel de significación de 5% esto equivale a decir que estamos aceptando un riesgo de un 5% de rechazar la hipótesis nula siendo ésta verdadera. 3. Determinación de la zona de rechaza de la hipótesis nula Suponiendo que la hipótesis nula fuera verdadera tendríamos que: P1 = P2 = P . TeoremaAl extraer pares de muestras de un universo con porcentaje P, las diferencias entre los porcentajes de las muestras se distribuyen aproximadamente como una normal con: promedio = 0

En este ejemplo: n1 = número de lactantes en la muestra del sector sin programa = 150 n2 = número de lactantes en la muestra del sector con programa =180 P = tasa de desnutrición en el universo de lactantes con o sin programa. Cantidad desconocida y que habría que estimar. La mejor estimación corresponde la tasa de desnutrición del total de niños estudiados.

Page 77: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

Definidos el promedio y la desviación standard, es posible utilizar la tabla de área de la curva normal. Se trata de encontrar qué diferencias entre tasas muestrales, mayores que 0 tienen una magnitud tal que la probabilidad de obtenerles por simple azar sea menor que 5% (nivel de significación fijado). Se requiere determinar por lo tanto un área en el extremo derecho de la distribución que equivale al 5% del área total bajo la curva. En la tabla correspondiente se observa que el área a la derecha de 1.65 (Zcrit) es igual a 5%.

Por lo tanto para todo z (observado) > 1.65 rechazaremos Ho. 4. Resolviendo sobre la diferencia observada Necesitarnos saber si la diferencia observada cae en la zona de rechazo, por lo tanto, es necesario calcular el z (observado).

El Zobs > Zcrit , Por lo tanto se rechaza la hipótesis nula. La tasa de desnutrición es mayor en los sectores sin programa.

Page 78: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

PRUEBAχ2(JiCUADRADO) Las pruebas de significación estadística presentadas anteriormente permiten tomar decisiones sobre diferencias entre "dos" tasas, de las cuales a lo menos una, es una tasa muestral, sin embargo en el campo de la salud, a menudo nos enfrentamos con problemas en los cuales es necesario comparar más de dos tasas. Ejemplos: 1. Comparar porcentajes de desnutridos de las distintas comunas del Gran Santiago. 2. Comparar efectividad de varios tratamientos para una misma enfermedad. 3. Estudiar si la mortalidad neonatal es independiente del número de controles de la madre durante el embarazo. 4. Estudiar si hay asociación entre muerte por cáncer pulmonar y hábito de fumar. 5. Estudiar si hay asociación entre tipo de úlceras y ubicación de ellas. Problemas de esta naturaleza son resueltos mediante una prueba de significación estadística denominada "Prueba Ji-cuadrado" y en la cual se hace uso de 1a "distribución Ji-cuadrado", cuyas características principales, señalamos a continuación: Distribuciónχ2A. Características 1. Es una distribución asimétrica. 2. Sólo toma valores positivos y es asintótica con respecto al eje de las x positivas ( 0 < χ2 < ∞ ) , 3. Está caracterizada por un único parámetro "n" llamado "grados de libertad". 4. El área comprendida entre la curva y el eje de las x es 1 ó 100% En la figura adjunta, aparecen gráficos de esta distribución para algunos valores de "n".

B. Aplicaciones Entre las aplicaciones más frecuentes de esta distribución, en el área de la salud, podemos señalar: B.1. Prueba de asociación B.2. Prueba de "bondad de ajuste" PruebadeAsociación 5 Esta prueba, como se puede visualizar a través de los ejemplos mencionados anteriormente, permite al clínico o investigador determinar si existe asociación entre dos variables con escala de medición nominal u ordinal. Estudiaremos la aplicación de esta prueba, a través de la resolución de un problema.

5 Esta prueba, también aparece en la literatura estadística con el nombre de "tablas de contingencia”.

Page 79: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

ProblemaLos datos que se presentan a continuación corresponden a un estudio anatómico de ulceraciones gástricas benignas y malignas realizadas entre 1940 y 1950 en el Boston City Hospital.

¿Se podría decir que hay asociación entre la ubicación de la úlcera y el tipo de ésta? Solucióni) Planteamiento de las hipótesis Hipótesis nula (Ho) : No hay asociación entre ubicación de la úlcera y tipo de ésta, es decir, el porcentaje de úlceras malignas es el mismo ya sea la ubicación de ésta prepilórica, en el cuerpo o cardial. Simbólicamente, Ho : Pprep = Pcuer = Pcar

Hipótesis alternativa (H1): Hay asociación entre ubicación de la úlcera y tipo de ésta, es decir, el porcentaje de ulceras malignas es diferente en por lo menos una de las ubicaciones. Simbólicamente, H1 : Pprep ≠ Pcuer

y/o pprep ≠ Pcar y/o Pcuer ≠ Pcar

ii) Nivel de significación: = 0.05 (arbitrario) iii) Estadística a utilizar:

en que Oi = frecuencia observada en la celda i Ei = frecuencia esperada en la celda i f . c = número de celdas, se obtiene multiplicando número de filas (f) por número de columnas (c). En este problema, fc = 6

Page 80: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

a) Cálculo de χ2 observado

NOTA: Bajo la hipótesis nula no hay asociación entre tipo de úlcera y ubicación de ésta, por lo tanto el porcentaje de úlceras malignas, debe ser el mismo para las tres ubicaciones (100/300), 33.3% y la frecuencia esperada (Ei) en cada celda la obtenemos aplicando este porcentaje a 160, 100 y 40 respectivamente. La frecuencia esperada para las benignas se pueden obtener por diferencia o aplicando a las mismas frecuencias anteriores 66,7%. b) χ2 critico El χ2 crítico se observa en la tabla de χ2 (1-1804) en la intersección de la fila n con la columna probabilidad. En que: -) n: son los grados de libertad (g.1.). En una tabla de asociación, los grados de libertad se obtienen multiplicando el número de columnas menos 1 (c - 1) por el número de filas menos 1 (f - l).

para este problema: g. 1 = (3 - 1) (2 - 1) g. 1 = 2 -) probabilidad : corresponde al nivel de significación α χ2 critico. para n = 2 y α = 0.05 es 5.991 χ2 crítico = 5.991

Page 81: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

iv) Región de Rechazo : R La región de rechazo, R, está constituida por todos los valores de χ2 mayores que χ2 crítico.

v) Conclusión Como χ2

ob es menor que χ2 crítico, concluimos que no hay evidencia para rechazar la hipótesis nula, es decir, para afirmar que el tipo de úlcera, dependa de la ubicación de ella. B.2. Prueba de bondad de ajuste La prueba de bondad de ajuste, permite afirmar con un cierto nivel de confianza, si las distribuciones de los universos de orígenes de muestras en estudio, se "ajustan" 'a alguna distribución de interés tal como : normal t, binomial, 9 : 3 : 3 : 1; etc. a fin de utilizar las propiedades de estas distribuciones o como en genética conducir experimentos de modo de obtener un número dado de fenotipos o predecir la estructura de la población en una generación dada. Ejemplos 1.Se podría realizar una prueba de bondad de ajuste para estudiar si la distribución los pesos de hombres sanos de una estatura determinada es normal con peso promedio igual a µ y desviación standard σ. Verifi cado que la distribución es normal, se podría establecer límites de normalidad para el peso. 2. En genética es usual verificar si las distribuciones de los universos de orígenes de las muestras son mendelianos o si los resultados obtenidos están de acuerdo a los modelos genéticos. Veremos cómo se resuelve un problema de bondad de ajuste. mediante la resolución de un problema del segundo tipo.

Page 82: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

ProblemaSegún una de las leyes de Mendel, el cruzamiento entre pollos normales y rizados extremo, debe producir en la segunda generación (F2) pollos : rizado suave y normal en la proporción 1 : 2 : 1. ¿Sí en un cruzamiento, se obtuvo en F2 : 23 rizado extremo, 50 rizado suave y 20 normal ,se podría decir que esta distribución es la dada por Mendel? Solucióni. Planteamiento de las hipótesis Hipótesis nula (Ho): La muestra proviene de un universo, donde las probabilidades de ocurrencia de los diversos fenotipos están en la proporción 1 : 2 : 1. Hipótesis Alternativa (H1): La muestra proviene de un universo, donde las probabilidades de ocurrencia de los diversos fenotipos, no están en la proporción 1 : 2 : 1 ii. Nivel de Significación : α = 0.01 iii. Estadística a utilizar:

Ei = frecuencia esperada según teoría, en la clase i Oi =frecuencia observada en la clase i k = número de clases Cálculo de: a) χ2 observado

NOTA: La frecuencia esperada de cada fenotipo, se obtiene aplicando al total observado, las proporciones, predicha por la teoría. En este ejemplo la proporción del fenotipo : rizado extremo es 1/4 rizado suave es 2/4 normal es 1/4 luego, las frecuencias esperadas, se obtienen multiplicando por 93, cada una de estas proporciones. b) χ2 crítico En general, en problemas de bondad de ajuste, en que no hay que estimar parámetros, los grados de libertad están dados por el número de clases menos uno. g. 1 = k - 1 En este problema k = 3 y por tanto g.1 = 2.

Page 83: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

El χ2 crítico, se observa en la tabla de χ2 en la intersección de la fila n=2 con la columna α = 0.01. χ2crítico = 9.210 iv) Región de rechazo: R La región de rechazo está constituida por todos los valores de χ2 mayores que χ2 críticos.

v. Conclusión Como χ2

ob < χ2 critico, concluimos que no hay evidencia para suponer, que la distribución de los fenotipos sea diferente de 1 : 2 : 1 Observaciones1. La estructura de la estadística, nos permite observar que mientras mayor sea la diferencia entre los valores observados y los esperadas, mayor será el valor de χ2 y aumentará por tanto la probabilidad de rechazar la hipótesis nula. 2. También se puede observar, que si en alguna clase el valor esperado es cero o cercano a cero, el valor de χ2

tenderá a ∞. Se recomienda que ningún valor esperado sea menor que 5, y cuando esto suceda, juntar clases adyacentes. 3. Como χ2 es una variable aleatoria continua, v 1a estamos utilizando para resolver problemas de variable discreta, es necesario, para el caso de pocas observaciones, usar una corrección de continuidad, denominada "corrección de Yates" o bien utilizar la distribución exacta, que será la multinominal, o una prueba no paramétrica. 4. Siempre que se utiliza alguna de las pruebas χ2, debe tenerse cuidado de que la suma de las frecuencias observadas, coincida con la suma de las frecuencias esperadas. 5. Para el cálculo del χ2 observado, se debe trabajar con las frecuencias absolutas y no con las porcentajes.

Page 84: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

INTRODUCCIONALATECNICADEMUESTREO Entre las características importantes del hombre, figura su capacidad para generalizar. En la búsqueda del conocimiento su de medio, pone en práctica inconscientemente este proceso, aún cuando no lo designe como tal y lo realiza desde el nivel más elemental. Así por ejemplo, es posible formarse una idea buena o mala de una persona al tratarla una sola vez. También se generaliza cuando se examina una pequeña cantidad de sangre de una persona y se supone que toda su sangre tiene esa misma composición. Es difícil comprender que este procedimiento es arriesgado y a veces peligroso, ya que se puede cometer un gran error. Las unidades con que se toma contacto son sólo parte, a veces muy pequeña, del total o universo y lo que se hace no es otra cosa que reconstruir una característica del universo en base a la información proporcionada por algunos representantes, los cuales constituyen una muestra. Si el universo es homogéneo, cualquier muestra proporciona el mismo resultado y el procedimiento de selección carece de importancia. Pero cuan do el universo es heterogéneo como sucede en la mayoría de los casos, el procedimiento mediante el cual se obtiene la muestra es decisivo y se hace necesario utilizar un procedimiento que nos indique cuántas unidades tomar, cómo seleccionarlas de modo que se pueden obtener conclusiones válidas para el total. Dicho procedimiento es el que se desarrolla a continuación en forma muy general. Definiciones1. Unidad de Análisis: Las unidades de análisis son las unidades para las cuales se desea obtener información. Éstas pueden ser personas, hospitales, ciudades. 2. Población o Universo: La población o universo es el grupo completo de todas las unidades de análisis cuyas características se desea estudiar. Los siguientes conjuntos podrán constituir universos para algunos estudios. Enfermos hospitalizados en el Hospital "E1 Salvador" entre el 10 y 15 de marzo de 1976. Infecciones ocurridas en Chile en el año 1975. En la definición del universo, se debe indicar la unidad de análisis, donde se investiga (lugar) y cuando se investiga (tiempo) dejando claramente especificado estos aspectos. 3. Unidad de Muestreo : La unidad de muestreo es una unidad seleccionada del marco de muestreo. Puede ser igual a la unidad de análisis aun que no necesariamente. Por ejemplo, para obtener información sobre personas, se puede utilizar una lista completa de un censo y seleccionar una muestra de personas directamente. Sin embargo, también se podrá seleccionar una muestra de hogares e incluir en la muestra a todas las personas de los hogares seleccionados. La elección de la unidad de muestreo más eficiente, es una de las consideraciones más importante en el diseño de la muestra. 4. Marco de muestreo : La totalidad de las unidades de muestreo, entre las cuales se seleccionará la muestra, se denominará marco de muestreo. El marco puede ser un listado de personas, de viviendas o un mapa donde están contenidas todas las unidades de muestreo. 5. Muestra : Es un conjunto de unidades de análisis extraídas del universo, con el fin de conocer una o más características de él. Diremos que una muestra es representativa del universo cuando todas las unida des de muestreo tienen una probabilidad conocida de entrar en la muestra, la que debe ser distinta de cero. TIPOSDEERRORES SesgodeSelección:Se entiende por tal a un error sistemático o dirigido en la selección de las unidades, con lo cual se obtiene una información parcial respecto del universo que se investiga. Por ejemplo, con el fin de conocer el nivel socioeconómico de los habitantes de una ciudad, se seleccionará una muestra a partir de la guía telefónica de la misma y se entrevistará a las familias de las personas seleccionadas, se estaría cometiendo un sesgo, ya que habrían algunas familias que no tendrían posibilidad de entrar en la muestra.

Page 85: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

ErrordeMuestreo:Diferencia entre lo que informa la muestra (estimación) y lo que real mente sucede en el universo (parámetro). Así por ejemplo, si tenemos un archivo con 500 casos clínicos de los cuales 300 corresponden al sexo femenino y los 200 restantes al sexo masculino y si tomamos al azar una muestra de 50 fichas es muy "poco probable" que obtengamos 30 fichas de mujeres y 20 de hombres. Podemos obtener por ejemplo 29 fichas de mujeres y 21 de hombres, lo que indicará que en este kárdex hay una proporción probable de: 29/50 x 100 = 58% de mujeres, cuando efectivamente hay 60% Esta diferencia entre la estimación dada por la muestra (58%) y el parámetro (60%) es lo que se denomina error de muestreo. Aparentemente pareciera que la presencia del error de muestreo sería un grave inconveniente para el uso de muestreo, pero esto no es así, ya que cuando usamos muestras probabilísticas podemos controlar este tipo de error. ProcedimientodeSelecciónMuestreoAleatorioSimple:Se denomina muestreo aleatorio a un método para seleccionar "n" unida des de "N”, de modo que cada una de las muestras posibles de tamaño n, tengan igual posibilidad de ser seleccionadas. En la práctica una muestra aleatoria es extraída unidad por unidad. Las unidades en la población son previamente numeradas en forma correlativa de "1” a "N". A continuación se extraen “n” números aleatorios entre "1" y "N" a partir de una tabla de números aleatorios, o con otro procedimiento que asegure igual probabilidad de selección para cada unidad. En el muestreo aleatorio simple, o muestreo aleatorio irrestricto, como también se le denomina, no es permitida la doble inclusión de una misma unidad en la muestra. Esto significa que la muestra debe estar constituida por "n” unidades diferentes. La probabilidad de selección en cada unidad está dada por la expresión: “f”=n/N denominada fracción de muestreo; donde "n” representa el tamaño de la muestra y “N” el del universo. SelecciónsistemáticaEs el procedimiento más aplicado por su sencillez y rapidez. Su característica es la selección de unidades tomando una de cada k unidades siendo k el espaciamiento de muestreo, dado por la expresión: k = N/n donde "N" corresponde al tamaño de la población y "n" al tamaño de la muestra. El procedimiento consiste en tomar un número en forma aleatoria dentro de las k primeras unidades. A esta primera unidad de muestreo seleccionada la denominaremos unidad de arranque. Para seleccionar las siguientes unidades que formarán la muestra, se le suma a la unidad de arranque k, 2k, 3k, etc. hasta obtener el tamaño de muestra deseado. Sea por ejemplo la serie 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, que representa a las doce unidades de una población determinada. Supóngase que deseamos tomar una muestra de tamaño 4, tenemos entonces que el espaciamiento de muestreo k es igual a 3. Por lo tanto, debemos elegir un número en forma aleatoria entre 1 y 3. Supongamos que el número elegido sea 2, la muestra queda constituida por las unidades de muestreo 2, 5, 8 y 11. Nótese que para obtener la segunda unidad de análisis (5), se sumó a la unidad de arranque (2) él intervalo de muestreo (3), procediéndose en forma análoga para todas las unidades seleccionadas. Es claro que al fijar el número de arranque, el resto de las unidades que ingresan a la muestra quedan seleccionadas en forma simultánea; es como sortear un grupo completo. Lógicamente que si siempre se partiera de dos sólo podrían entrar en la muestra las unidades 2, 5, 8, 11 y el resto quedaría con probabilidad "cero" de selección, en cuyo caso sería una muestra sesgada. De aquí que es necesario sortear la primera unidad en forma aleatoria. Las ventajas de este método radican como se dijo al inicio en la rapidez y sencillez de su operatoria. No necesita numeración de las unidades, sino solamente un ordenamiento físico que permita el recuento. Puede presentar también algunas desventajas. Una de ellas se refiere a la posible existencia de ciclos en la información y conjugándose con ella la posibilidad de que k coincida con dicho ciclo. Un ejemplo claro lo presentan las diarreas infantiles. Tienen un ciclo anual con máximo de verano y mínimo en invierno.

Page 86: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

Si para hacer un estudio en relación a diarreas infantiles, se sorteara un mes del año y se hicieran observaciones cada 12 meses, se obtendrá una información falsa aún cuando el procedimiento estuviera bien empleado. Ejemplo: feb., feb., .,.............feb. En este caso se obtendría un resumen sólo de los índices más elevados. Por esta razón es importante averiguar previamente la posibilidad de existencia de ciclos, ya que de ser así, se puede recurrir a diversos procedimientos para evitarlos. Entre ellos figura el doble sorteo de números de arranque, es decir, utilizar 2 números aleatorios entre 1 y 2k y utilizar como espaciamiento de muestreo para cada uno de ellos 2k. Rara vez es necesario utilizar procedimientos más complejos. MuestreoEstratificadoSimple Muchas veces las características que se estudian en una población, va rían de muy distinta manera entre los diversos individuos o unidades de análisis, es decir, se tiene una población muy heterogénea. Si no tomamos en consideración esta "heterogeneidad" es muy posible que nuestras estimaciones a base de la muestra difieran apreciablemente de los verdaderos valores en la población. Una manera de evitar la influencia de esta heterogeneidad en los resultados es agrupar los individuos más o menos semejantes en subpoblaciones y muestrear cada una de las subpoblaciones como si se tratara de poblaciones independientes. Los distintos grupos formados se denominan estratos y al proceso de muestreo que procede a agrupar los individuos en estos estratos especiales se le denomina estratificación. Una vez que se han fijado los estratos, se procede a la determinación del número de individuos que deben seleccionarse de cada uno de ellos (afijación), existen diferentes formas de fijar estos tamaños, una de ellas es tomar un tamaño de muestra mayor en aquel estrato que sea más heterogéneo, pero sucede muchas veces que no se tiene una medida aceptable de la variabilidad de la característica estudiada en los diversos estratos, en este caso si queremos una muestra del 10% de la población por ejemplo, lo más sencillo sería tomar dentro de cada estrato también un 10% de su tamaño (N° de unidades que contiene), a este tipo de afijación se le denomina, afijación proporcional. La estratificación es una técnica muy común. Entre las principales razones para su uso se encuentran las siguientes: 1. Si se desean resultados para ciertas subpoblaciones de la población es aconsejable considerar cada subpoblación como una "población" propiamente tal, y tomar una muestra independiente en cada una de ellas. 2. Ventajas de tipo administrativo pueden aconsejar el uso de la estratificación, por ejemplo, la institución que realiza la encuesta puede tener oficinas regionales, cada una de las cuales puede supervisar la encuesta para una parte de la población. 3. La estratificación puede contribuir a disminuir el error de muestreo. La idea básica es la que es posible dividir una población heterogénea en subpoblaciones, cada una de ellas homogénea en su interior. Esto está sugerido por el nombre de estrato qué implica la división en capas. Si cada estrato es homogéneo en el sentido de que las medidas varían poco de una unidad a otra, una estimación precisa del parámetro de cualquier estrato puede obtenerse en base a una pequeña muestra del estrato. MuestreodeConglomerados Puede suceder en la práctica que las unidades de análisis no se encuentren aisladas, sino formando grupos o aglomeraciones. Tal es el caso por ejemplo, de los habitantes de una ciudad que viven ya sea en grupos fa miliares o en agrupaciones especiales como ser: residenciales, hoteles, hospitales, cárceles, internados: etc. Si nos interesa saber lo que pasa con el individuo, se puede usar primeramente como unidades de muestreo estos núcleos o "conglomerados" de individuos, para enseguida tomar dentro de los conglomerados de la muestra a todos o parte de los individuos que en ellos se encuentran. Otras veces, par razones de orden económico, se agrupan los individuos de la población en "conglomerados" especiales, tales como zonas de empadronamientos, por ejemplo, o divisiones administrativas pequeñas, siguiendo enseguida un proceso de selección, como el indicado en el párrafo anterior. Debido al uso de "conglomerados" como unidades (primarias) de muestreo, el proceso de muestreo que hace uso de esta modalidad de agrupación de las unidades de análisis, recibe el nombre de "muestreo de conglomerados"

Page 87: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

VentajasdelusodelMuestreo:Hay seis razones básicas para el uso de muestreo: 1. Una muestra puede ahorrar dinero comparado con el costo de un censo. 2. Una muestra ahorra tiempo, cuando el hecho a estudiar presenta variaciones relativamente rápidas a través del tiempo, este poco consumo de tiempo en obtener los datos cobra especial importancia pues permite completar la recolección de ellos antes que se presenten variaciones de importancia. 3. Una muestra permite concentrar la atención en casos individuales, el tener que analizar un número reducido de individuos permite obtener mayor información respecto a ellos con todo el detalle que es necesario de acuerdo a los objetivos. 4. Una muestra permite el uso de poco personal y espacio. En general basta con un número reducido de personas debidamente entrenadas y que puedan trabajar en un espacio más reducido que el que se necesitaría para un trabajo de tipo censal. 5. Una muestra permite obtener resultados de mejor calidad, e1 uso de poco personal permite un mejor entrenamiento de ellos, junto al hecho de que se rechace la variación con que puede presentarse por el observador mismo. Todos estos hechos redundan en una mejor calidad de los resultados. 6. Una muestra, muchas veces es la única posibilidad razonable de análisis, en muchas oportunidades el examen de los elementos que forman una población o universo exige su destrucción o inutilización, como es el examen rutinario de leche embotellada, conservas, etc., por lo tanto, es absurdo destruir todo el lote de producción para tener una información respecto a su calidad. DesventajasdelMuestreo:A pesar de las ventajas del muestreo muchas veces no es aconsejable realizar una investigación a base de muestras. Casos de este tipo son los siguientes: a. Cuando se necesitan datos para subdivisiones muy pequeñas de la población, se requieren muestras desproporcionadamente grandes, pues la precisión de una muestra depende frecuentemente del tamaño de la muestra y no de la fracción de muestreo. En este caso de muestreo puede ser casi tan costoso como un censo completo. b. Cuando se requiere un inventario para cada uno de los elementos de la población, ejemplos de este tipo es la ficha clínica de hospital que tienen que existir para todos los pacientes, no sólo para un grupo de ellos. AplicacionesdeMuestreo:En el campo sanitario el muestreo tiene múltiples aplicaciones, que son por ejemplo: a. La obtención de información respecto a las personas que viven en el área de un entro de salud con el objeto de elaborar o transformar un programa. b. Probar la eficiencia de un método antes de aplicarlo al total de la población. c. Determinar necesidades de recursos médicos, asistenciales, de vivienda, de saneamiento dentro del área del Centro de Salud. d. Evaluar los resultados que está dando un programa en ejecución.

Page 88: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

REGRESIONLINEAL ElproblemaSe investiga la capacidad vital en 8 niños de diferentes edades, con los siguientes resultados:

Los datos se caracterizan porque en cada unidad de observación (niño) se hacen dos mediciones: edad (x) y capacidad vital (y). Se dispone de 8 pares de observaciones:

En general, para la observación i = 1.2....,n, en que n es el número de observaciones el par de mediciones es (xi, yi ). Obsérvese que la variable x (edad) no es aleatoria, porque los niños han sido elegidos en ciertas edades; es la variable independiente. La variable capacidad vital (y) es aleatoria y es la variable dependiente. Fundamentalmente se trata de contestar las siguientes preguntas: 1. ¿Depende la capacidad vital de la edad del niño? ¿Depende y de x? 2. Si la respuesta es afirmativa, ¿Cuál es la forma de esta dependencia, o bien, ¿Cómo se expresa y en función de x? Este tipo de problema es frecuente en medicina. Ejemplos: ¿Cuál es la curva ponderal de un niño sano? ¿Cómo varía la concentración sanguínea de un antibiótico después de su administración oral? ¿Qué relación hay entre el porcentaje de individuos inmunizados en una población y el número de casos dé una enfermedad infecciosa? ¿Cuál es el valor predictivo que tiene el examen de selección de Medicina respecto a las calificaciones del primer año de estudios médicos? La utilidad del método es múltiple. Si se construye un modelo con el peso de niños sanos en función de la edad, será posible saber cuál es el peso normal de un niño para una edad determinada, lo que ayuda al diagnóstico. El uso del examen de selección lleva implícita la idea que es capaz de predecir los resultados de los estudios universitarios. La expresión matemática de la asociación de dos variables facilita el resumen de muchas observaciones y su aplicación. Por último, precisar que existe una asociación y expresarla cuantitativamente es muchas veces un paso previo a formular hipótesis sobre su causa. ElgráficoysudescripciónEl primer paso en este tipo de problema es hacer un gráfico con la variable dependiente en el eje de las ordenadas y la variable independiente en el de las abscisas.

Page 89: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

En este ejemplo, el gráfico muestra que la capacidad vital aumenta con la edad, desde 0.79 a los 4 años de edad hasta 1,99 a los ll años. Aunque con ciertas irregularidades, los puntos tienden a seguir una línea más o menos recta. Usaremos, pues el modelo de regresión lineal. 6 ElmodeloderegresiónlínealLa ecuación general de una línea recta es: y = a + bx Siendo a = intercepto = valor de y para x = 0 b = pendiente = cambio en y por unidad de cambio en x.

¿Cómo se aplica este modelo en el campo multivariable de la medicina? ¿Qué supuestos o condiciones se acepta al aplicarlo? ¿Cómo se interpretan los parámetros de la ecuación? Si hubiéramos examinado un gran número de niños, no habríamos obtenido para cada edad exactamente la capacidad determinarla en el pequeño grupo de 8 observaciones. Por ejemplo, para la edad 5 años (x = 5). habríamos obtenido capacidades vitales variables aunque más o menos cercanas a y = 0,93. Por ello, en el modelo se acepta que

6 El nombre de regresión deriva de una de las primeras aplicaciones del método. En un estudio de la relación entre la estatura del padre y del hijo hombre, se encontró que los hijos de padres muy altos eran, en promedio, menos altos, y que los hijos de padres muy bajos alcanzaban, en promedio, estaturas más altas que sus padres. Esto es, hay una regresión a la normalidad en sucesivas generaciones.

Page 90: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

existe una familia de poblaciones, cada una determinada por un valor fijo y conocido de x. Cada una de estas poblaciones tiene una distribución normal, definida por un promedio y una distribución standard que designaremos: µ y/x = promedio de los valores de y para x dado σ y/x = desviación standard de los valores de y para x dado En el ejemplo, esto significa que para la edad 5 años (x = 5), el promedio de las capacidades vitales es µy/x = 5, y la dispersión para este valor puede expresarse por σy/x = 5. En un gráfico tridimensional la representación es la siguiente:

De acuerdo al modelo de regresión lineal, los promedios de estas distribuciones se disponen en una línea recta, cuya ecuación es: (2) µy/x = α + β x donde α = promedio de y para x = 0 (en este ejemplo, capacidad vital promedio para edad 0, es decir, al nacimiento) β = cambio en el promedio de y cuando x aumenta en una unidad. (En este ejemplo, aumento de la capacidad vital promedio por año de edad) Finalmente, es necesario aceptar que, para cada valor de x, la desviación standard de la distribución de y es la misma. Es decir, σy/x es constante para todo x En el ejemplo presente, esta condición dice que la variabilidad individual en la capacidad vital es igual para todas las edades. En la aplicación de un modelo matemático de esta especie conviene llamar la atención sobre los siguientes hechos: 1. Se acepta que el cambio de y es constante por unidad de x; en el ejemplo analizado. que el aumento en la capacidad vital es igual por cada año de edad cumplido. Esta situación no es habitual en el área biológica, pero el supuesto es aceptable muchas veces para determinados intervalos en el eje de las x. En el caso que se discute, aunque la capacidad vital no fuera una función lineal de la edad a lo largo de la vida humana, podría serlo en las edades consideradas. 2. Si la capacidad vital es variable en sujetos de igual edad, esto significa que está determinada ADEMAS por otros factores que no son la edad. Por lo tanto, σy/x expresa una variación de y que es independiente de x. Si la edad fuera el única factor que determinara la capacidad vital, para una edad determinada habría una capacidad vital única. Entonces σy/x = 0 y todos los puntos corresponderían exactamente a la línea de promedios. Lo habitual en el campo biológico es, por el contrario, que la variable y dependa no sólo de x sino de múltiples factores. Este carácter multifactorial y los errores de medición son las dos fuentes que explican la variación residual alrededor de la línea de regresión. Tratándose de una muestra, veremos más adelante que el error de muestreo es otra causa de esta dispersión.

Page 91: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

Toda la discusión anterior se refiere a los datos de la población del universo de niños. Lo cierto es que sólo disponemos de datos de una pequeña muestra de 8 mediciones de la capacidad vital, una para cada edad entre 4 y 11 años. ¿Cómo podemos estimar los valores desconocidos de α y de β que definen la línea recta que expresa la capacidad vital como función lineal de la edad? AjustedeunalínearectaporelmétododeloscuadradosmínimosPara referirnos a la recta ajustada a los datos disponibles (a la muestra) usaremos la simbología: Yi = a + bxi Hay múltiples líneas rectas que pueden ajustarse a los datos de este ejemplo, es decir. múltiples valores de a y de b, Desde luego. cada par de puntos define una recta; la recta, por otra parte, puede no pasar por los puntos observados. El mejor ajuste se obtiene por el criterio de cuadrados mínimos: es la recta que hace mínima la suma de las diferencias cuadráticas entre cada valor de yi y el valor predicho en xi por la línea de regresión. Es decir: ∑(yi - Yi )

2 mínimo En el gráfico siguiente se muestran cada una de estas diferencias como un trazo vertical:

Este ajuste de cuadrados mínimos tiene las propiedades de definir para cada conjunto de puntos observados una línea única y de hacer que las constantes a y b de la muestra sean la mejor estimación de los parámetros α y β respectivamente. Los valores de a y b que satisfacen las condiciones de cuadrados mínimos se obtienen por la resolución simultánea de las ecuaciones siguientes, llamadas ECUACIONES NORMALES y que resultan de la derivación parcial respecto a a y b de la función. S = ∑ (yi - Yi)

2 = ∑ (Yi - a - bxi )2

Las ecuaciones normales son: na + b ∑ xi = ∑ yi

a∑ xi + b∑ xi2 = ∑xi yi de donde resulta

Page 92: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

Esta última ecuación muestra que la recta pasa por el punto (x,y), es decir, por la medie de las dos distribuciones, puesto que y = a + bx para el ejemplo de la capacidad vital. el cálculo del ajuste. es el siguiente

Page 93: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

De acuerdo a esta función, por cada año de edad la capacidad vital se incrementa en 0.18 unidades entre las edades de 4 y 11 años. Extrapolando, la capacidad vital media para el nacimiento sería 0.05. La ecuación permite predecir la capacidad vital promedio para cualquier valor de x. Por ejemplo, para los 5 años y medio sería: Y5.5 = 0.05 + (0.18) 5.5 = 1.04 El resumen de la regresión en dos constantes permite también comparaciones entre grupos. Por ejemplo, si se estuviera estudiando la capacidad . vital en función de la edad entre grupos raciales, la comparación de interceptos permitirán determinar si hay diferencias en la capacidad vital al nacimiento entre los diversos grupos, y la comparación de las constantes b haría posible analizar si la raza tiene algún efecto en determinar un diferente incremento de la capacidad vital por año de edad. LavariabilidadalrededordelalíneaderegresiónHemos dicho que la dispersión de puntos respecto a la línea de regresión puede expresar que y depende de otros factores además de x, que hay errores en la medición y que los datos de la muestra difieren accidentalmente de la verdadera distribución en la población o universo de origen. Por estas y otras razones, interesa muchas veces medir esta variabilidad. En la aplicación del modelo lineal se ha aceptado que para cada valor de x, los valores de y tienen una distribución normal con promedio = µy/x desviación standard = σy/x

Los valores de µy/x son estimados por los correspondientes yi de la línea de regresión. Podemos estimar σy/x de modo similar por el ERROR STANDARD DE LA ESTIMACION.

n = número de pares de observaciones. Obsérvese que sy/x tiene una estructura semejante a sx utilizado en, la descripción de la variabilidad de una serie de medidas:

Las diferencias son las siguientes: 1. Las diferencias cuadráticas de cada valor observado no se refieren al promedio fijo del grupo observado, sino a un promedio que varía para cada xi , y que está dado por la línea de regresión (Yi). 2. Se divide por (n - 2) en vez de (n - 1), por razones teóricas que no es conveniente explicar aquí. En el ejemplo desarrollado, el cálculo de sy/x es el siguiente

Page 94: BIOESTADISTICA ( Para Carreras Del Area de La Salud)
Page 95: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

CORRELACION El análisis de correlación estudia el comportamiento recíproco de dos variables. Para poder hacerlo es necesario medir simultáneamente las dos variables en cada uno de los elementos de un conjunto de unidades de observación. Por ejemplo, en cada individuo de un grupo de hombres adultos se mide el peso y la estatura, en cada enfermo de un grupo de pacientes se mide la temperatura axilar y la presión sistólica, en cada árbol de un huerto se cuenta el número de frutas y se determina el promedio de tamaño de las frutas. Simbolizaremos por "x" a una de las variables y por "y" a la otra. El objetivo del estudio de la correlación es determinar si al variar los valores de "x" en determinado sentido en las unidades de observación, "y" en estas unidades aumenta, disminuye o se mantiene igual. Ejemplos: observar si hombres con mayor estatura pesan más que hombres con menor estatura; observar si al haber mayor temperatura corporal, la presión sistólica también aumenta; observar si a mayor número de frutas en el árbol el tamaño promedio de las frutas disminuye. Presentacióndelosdatos1) Tabla: Según el número de observaciones puede ser: a) una lista b) una tabla de datos agrupados a) La lista consiste en colocar frente a cada unidad de observación e1 valor de cada una de las variables medidas. Ejemplo:

En este ejemplo la unidad de observación es la familia. Cada familia se identificó arbitrariamente por un número. En este caso es indiferente a cual de las estaturas designemos por “x” y a cual por "y". Decidimos llamar "x" a las estaturas de los hermanos y llamar "y" a la estatura de las hermanas. b) La tabla de datos agrupados o tabla de correlación dispone de casilleros en los cuales quedan ubicadas las diferentes unidades de observación que corresponden a ellos. Este tipo de tabla permite la visualización inmediata de la relación existente entre las variables en estudio. Ejemplo:

Page 96: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

Se aprecia fácilmente que a medida que aumenta el peso de los individuos aumenta también el consumo de 02. 2) Gráfico La manera más sencilla de presentar y analizar la relación entre dos variables es el gráfico de correlación. La técnica para construir este gráfico es la siguiente: en cada uno de los ejes perpendiculares se coloca una de las variables estudiadas. La variable anotada en el eje horizontal se denomina "x." y la del eje vertical "y". La escala de variables en cada eje fluctúa entre el valor mínimo y el máximo de la serie, sin necesidad de comenzar en 0. Se proporcionarán las escalas de manera que ambos ejes tengan igual longitud. Una vez trazados los ejes y sus escalas se procede a inscribir unidad observada, representándola por un punto en la intersección de perpendiculares imaginarias levantadas en los valores que le corresponden al individuo para cada variable. Se logra así un gráfico de puntos cuya distribución nos informa sobre la existencia o no de correlación. El gráfico sólo puede hacerse a partir de una lista de los individuos, no de una tabla de correlación. Ejemplo: En 18 alumnos de primer año de una escuela se ha hecho un estudio de correlación entre el test que mide el coeficiente intelectual (CI) y las notas obtenidas en los exámenes de primer año. Los datos son los siguientes:

CI EXAMEN X Y 107 59 120 60 77 26 136 80 111 66 140 66 97 50 117 66 126 67 92 31 90 40 110 41 123 57 110 80 103 44 96 43 133 72 102 32

Page 97: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

En la tabla es muy difícil ver la relación que existe entre ambas variables, el gráfico en cambio, nos muestra inmediatamente que a mayor CI las notas son también mayores y viceversa. El gráfico de puntos nos revela correlación cuando los puntos se disponen en una nube elíptica y oblicua con respecto a los ejes. La correlación puede ser positiva o negativa. Es positiva cuando a valores bajos de x corresponden valores bajos de y, y a valores altos de x corresponden valores altos de y. Es negativa si al aumentar los valores de x los valores de y disminuyen. La ausencia de correlación se manifiesta en el gráfico por una disposición circular, horizontal o vertical de los puntos. Las imágenes de las situaciones descritas son:

El grado de correlación se revela en el gráfico por la mayor o menor dispersión de los puntos alrededor del eje mayor de la elipse. La correlación perfecta se revelaría por una disposición lineal de los puntos. Cuando es difícil ver si existe correlación, es una ayuda trazar perpendiculares a los ejes en los valores correspondientes a las medianas de las variables. En el gráfico del presente ejemplo, trazamos una línea vertical que

Page 98: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

deje 9 puntos a su izquierda y 9 a su derecha con lo que obtenemos la mediana del CI, luego trazamos una horizontal que deje 9 puntos arriba y 9 abajo dando la mediana de las notas de examen. En este caso particular la 9a y la l0a observación ordenada según CI están ambas frente al valor 110 y por lo tanto la vertical pasará por ambos puntos. Adjudicaremos dos mitades hacia la izquierda de la vertical y dos mitades hacia la derecha.

Contamos luego los puntos en cada uno de los cuadrantes obtenidos. Si en dos cuadrantes diagonalmente opuestos la cantidad de puntos es superior a la que se encuentra en el otro sentido decimos que hay correlación. Podemos resumir el resultado del análisis por medianas en una tabla de asociación. En nuestro ejemplo definiremos los valores a uno u otro lado de la mediana simplemente como altos o bajos con lo que obtendremos la siguiente tabla:

Se observa la mayor frecuencia de individuos en los casilleros en que ambas mediciones coinciden lo que nos revela correlación positiva. Elcoeficientedecorrelación"r"Tanto el análisis del gráfico como el método del trazado de las medianas son sólo aproximados para medir el grado de correlación. Cuando la falta de correlación es evidente no se justifica seguir adelante el análisis. Por el contrario, si estos métodos sugieren una correlación, necesitamos alguna medida para apreciar su magnitud y esta medida es el coeficiente de correlación r.

Page 99: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

Requisitosparaelcálculoder.Para que el coeficiente de correlación sea una buena medida es necesario que: . a) La correlación teórica sea una línea recta. b) Que sea una distribución bivariable, normal. El primer requisito se cumple cada vez qué la nube de puntos fuera resumible en una línea recta. El requisito de ser normal bivariante, se puede explicar con la tabla de correlación para peso corporal y consumo de-oxígeno en la página 2. Se ve en esa tabla que hay un esbozo de distribución normal frente a cada valor de peso y lo mismo frente a cada valor de consumo de O2. Este esbozo se perfeccionaría a medida que fuera aumentando él número de observaciones. En general se supone que estos requisitos se cumplen ya que no es posible verificarlo. Si evidentemente no se cumplen, hay otros métodos llamados "no paramétricos" que pueden utilizarse para medir el gradó de correlación. CálculoderLa fórmula para el cálculo de r es:

Para obtener las cantidades necesarias necesitamos las columnas indicadas a continuación. Para nuestro ejemplo:

Page 100: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

InterpretaciónderEl valor de r puede variar entre -1 y +1. Una visualización del valor de r se obtiene al analizar otra fórmula para r en presencia de un gráfico.

En los cuadrantes I y III los productos (x - x) (y - y) son positivos, en los cuadrantes II y IV son negativos. Así podemos entender que la suma del numerador será (+), (-) o 0 según si el número de sumandos positivos es mayor, menor o igual al de sumandos negativos, lo que hará que r sea (+), (-) o 0. La correlación es más estrecha mientras más cercano a -1 o a +1 esté r. De esta manera: - 1 = correlación inversa o negativa perfecta, 0 = ausencia absoluta de correlación + 1 = correlación directa o positiva perfecta. SignificaciónPara poder determinar si el valor de r encontrado es estadísticamente significativo, es necesario hacer una prueba de significación estadística que: Ho : ρ = 0 ausencia de correlación H1 : ρ ≠ 0 existencia de correlación

Page 101: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

Donde ρ es el coeficiente de correlación poblacional. La distribución muestral de r es aproximadamente una curva normal centrada en ρ = 0 y con error standard.

Con 16 grados de libertad. Las tablas de la t de Student muestran los valores para diferentes percentiles de la distribución. Si nuestro afuera 0.05 tratándose de una prueba de significación bilateral, debemos buscar el valor de t correspondiente al percentil 97,5 o bien, como aparece en la tabla, para .975 lo que nos da t = 2.120. Para α = 0.01 buscaremos bajo 995 lo que da t = 2.921. InterpretacióndelaexistenciadecorrelaciónUna vez que hayamos concluido que existe correlación debemos hacer una interpretación en términos del problema que analizamos. Las siguientes circunstancias pueden provocar la correlación entre dos variables : 1) Una variable es causa de la otra. Por ejemplo: la correlación entre aumento de peso y cantidad de calorías ingeridas pueden ser de este tipo. 2) Ambas variables son consecuencia de una tercera. Por ejemplo: la correlación entre mortalidad infantil y porcentaje de niños matriculados en la escuela en diferentes países tiene una correlación inversa explicada porque ambos fenómenos son consecuencia de un bajo nivel de vida. 3) La correlación se ha producido por azar. Esto puede suceder sobre todo cuando el número de observaciones es escaso. Interpretacióndelaausenciadecorrelación1) No hay correlación entre las variables 2) Hay correlación pero está encubierta por una variable que tiene correlación opuesta. Por ejemplo: la velocidad desarrollada en una carrera y el número de pulsaciones por minuto deberían estar correlacionados directamente pero es posible que los más veloces sean atletas que se vean menos afectados por el esfuerzo físico y por lo tanto reaccionen como escaso aumento del número de pulsaciones. 3) El azar nos ha presentado aquellos casos en que la correlación no se manifiesta. Esto puede suceder si el número de observaciones es escaso.

Page 102: BIOESTADISTICA ( Para Carreras Del Area de La Salud)

ConclusióngeneralLa presencia o ausencia de correlación entre dos variables no significa automáticamente la existencia o no de una relación causa-efecto. Debemos tener siempre presente las otras explicaciones que hemos señalado. El hecho de que las conclusiones que sacamos a partir de una correlación sean de tipo inductivo no le resta importancia al método. Hay muchas situaciones en que el único estudio posible, en una primera etapa es el de la correlación. Así por ejemplo, en la investigación de causas de enfermedades es útil estudiar la correlación entre la frecuencia de la enfermedad y distintos factores ambientales. Así se puede descubrir importantes hechos que pueden comprobarse posteriormente con procedimientos experimentales que dan mayor seguridad en la interpretación.

Page 103: BIOESTADISTICA ( Para Carreras Del Area de La Salud)
Page 104: BIOESTADISTICA ( Para Carreras Del Area de La Salud)
Page 105: BIOESTADISTICA ( Para Carreras Del Area de La Salud)