Manual Bioestadística PLUS MEDIC A

Manual de Bioestadística, Salud Pública y Epidemiología RM PLUS MEDIC A

www.plus-medica.com

BIOESTADÍSTICA


www.plus-medica.com

1ª Edición

Paul Pachas Chávez MD, MPH (c), MSc(c)

José castro Zevallos

Ramón Flores Valdeiglesias

Carátula: Edy Flores Valdeiglesias

Derechos Reservados 2012

Prohibida su venta

MANUAL de BIOESTADÍSTICA , SALUD

PÚBLICA, y EPIDEMIOLOGÍA

PLUS MEDIC A

Médico epidemiólogo Instituto Nacional de Salud

Ministerio de Salud

Médico internista Asistente del Dpto de Medicina del Hospital Nacional Dos de Mayo

Docente de la Universidad Científica del Sur Docente de la Universidad San Juan Baustista

Médico internista

Asistente del Dpto de Medicina del Hospital Nacional Dos de Mayo Docente de la Universidad Ricardo Palma

Docente de la Universidad Científica del Sur


www.plus-medica.com

Este manual está dedicado a los estudiantes de Medicina Humana y a los médicos jóvenes de las diferentes universidades de Lima y de nuestro Perú, que se esfuerzan

día a día en busca del conocimiento médico actualizado y que son fuente de inspiración y razón de ser de PLUS MEDIC A.

Los autores


www.plus-medica.com

Contenido 1. Estadística. Generalidades ……………………………………………………………………….. 6 1.1 Tipos de estadística 1.2 Población 1.3 Parámetro 1.4 Estadístico 2. Estadística descriptiva …………………………………………………………………………… 21 2.1 Variables 2.2 Gráficos para variables cualitativas 2.3 Gráficos para variables cuantitativas 2.4 Medidas de posición y de dispersión 3. Diseño y análisis del muestreo …………………………………………………………………. 37 3.1 Población o universo 3.2 Muestra 3.3 Marco muestral, unidad de muestreo, unidad de información y unidad de análisis. 3.4 Muestreo 3.5 Muestreo probabilístico 3.6 Muestreo no probabilístico 3.7 Tamaño muestral 4. Estadística inferencial …………………………………………………...………………………. 42 4.1 Estadística paramétrica 4.2 Estadística no paramétrica 4.3 Análisis estadístico 4.4 Pruebas con dos muestras independientes 5. Contraste de hipótesis………………………………………………………………………........ 56 5.1 Hipótesis nula, hipótesis alternativa y grado de significación estadística 5.2 Errores alfa y beta 5.3 Pruebas de significación estadística 5.4 Prueba de Chi cuadrado

MANUAL de SALUD PÚBLICA ,EPIDEMIOLOGÍA y BIOESTADÍSTICA PLUS MEDIC A

5

INTRODUCCIÓN

La estadística es una serie ordenada de métodos que se ocupan de la recolección, organización, presentación, análisis e interpretación de datos numéricos. ¿Cómo se clasifica la estadística?

Utiliza técnicas para recolectar, resumir, analizar presentar un conjunto de datos, a través de tablas o gráficos, con la finalidad de describir apropiadamente las características de ese conjunto.

Comprende las técnicas matemáticas que permiten generalizar la información obtenida de una muestra a la población. Debido a que las decisiones se toman en condiciones de incertidumbre, serán confiables con cierto grado de probabilidad.

POBLACIÓN

Es el conjunto total de

individuos, objetos o medidas

que poseen algunas

características comunes obser-

vables en un lugar y en un

momento determinado.

Cuando se vaya a llevar a cabo alguna investigación

debe de tenerse en cuenta algunas características

esenciales al seleccionarse la población bajo estudio:

que todos los miembros de la

población tengan las mismas características según las

variables que se vayan a considerar en el estudio o

investigación.

Determinar si el estudio es del momento presente o

si se va a estudiar a una población de cinco años

atrás o si se van a entrevistar personas de diferentes

generaciones.

Por falta de tiempo y recursos hay que limitar el

estudio a un área o comunidad en específico.

El tamaño de la población determina o afecta al

tamaño de la muestra que se vaya a seleccionar.

MUESTRA

Es un subconjunto fielmente representativo de la

población. sobre la que tenemos acceso y donde

hacemos las observaciones (mediciones).

Hay diferentes tipos de muestreo. El tipo de

muestra que se seleccione dependerá de la

calidad y cuán representativo se quiera sea el

estudio de la población:

cuando se selecciona al azar y

cada miembro tiene igual oportunidad de ser

incluido.

cuando se subdivide en

estratos o subgrupos según las variables o

características que se pretenden investigar. Cada

estrato debe corresponder proporcionalmente a

la población.

: cuando se establece un patrón

o criterio al seleccionar la muestra.


6

Muestreo

Es indispensable para el investigador ya que es

imposible entrevistar a todos los miembros de

una población debido a problemas de tiempo,

recursos y esfuerzo.

Al seleccionar una muestra lo que se hace es

estudiar una parte o un subconjunto de la

población, pero que la misma sea lo

suficientemente representativa de ésta para

que luego pueda generalizarse con seguridad

de ellas a la población.

por su naturaleza y

por la necesidad de tener control sobre las

variables, se recomienda muestras pequeñas que

suelen ser de por lo menos 30 sujetos.

se emplean muestras

grandes y algunas veces se recomienda seleccionar

de un 10 a un 20 por ciento de la población

accesible

PARÁMETRO Es una unidad numérica calculada sobre una población y resume los valores que ésta toma en varios atributos.

ESTADÍSTICO Es una unidad numérica calculada sobre una muestra que resume su información sobre algún aspecto.

Ejemplo: la media del peso de 300 habitantes de la ciudad de Lima.

VARIABLES ¿Cómo se define a las variables en estadística? a) Desde el punto de vista estadístico

CUALITATIVAS Si sus valores no se pueden asociar naturalmente a un número (no se pueden hacer operaciones algebraicas con ellos). Tipos:Si sus valores no se pueden ordenar .Sexo, Fumar (Sí/No) . : estado civil, color de los ojos,

profesión. : si sus valores se pueden ordenar IRA, grado de desnutrición, Intensidad del dolor.

CUANTITATIVAS Si sus valores son numéricos (tiene sentido hacer operaciones algebraicas con ellos) Tipos: Si toma valores enteros Ejemplo: Número de abortos, número de parejas sexuales, etc. Si entre dos valores, son posibles infinitos valores intermedios. Ejemplo: Edad, talla, presión intraocular, etc. El cero no es absoluto Temperatura en grados centígrado, la nota de un examen El cero es absoluto. Altura, peso


7

Variable cualitativa nominal

Es la variable cualitativa que no tiene punto de comparación. Ejemplo: el color de los ojos .

Variable cualitativa ordinal

Cuando hay un determinado orden. Ejemplo: duración de una enfermedad (aguda, subaguda, crónica).

Variable cuantitativa discreta, discontínua o de intervalo

Cuando la variable cuantitativa sólo se puede medir en valores enteros. Ejemplo: número de partos.

Variables cuantitativas continuas o de razón

Si la variable se puede expresar en fracciones, como peso al nacimiento (3,460 g) o estatura (51.3 cm)

b) Desde el punto de vista metodológico

GRÁFICOS para variables CUALITATIVAS Gráfico de barras

Representamos en el eje de ordenadas las modalidades y en abscisas las frecuencias absolutas o bien, las frecuencias relativas. Cuando los tamaños de las dos poblaciones son diferentes, es conveniente utilizar las frecuencias relativas, ya que en otro caso podrían resultar engañosas Fi. 1 Diagrama de barras para una variable cualitativa

Si, mediante el gráfico, se intenta comparar varias poblaciones entre sí, existen otras modalidades, como las mostradas en la figura. Fi. 2 Diagrama de barras para comparar una variable cualitativa en varias poblaciones Gráfico de sectores (tartas)

Se divide un círculo en tantas porciones como clases existan, de modo que a cada clase le corresponde un arco de círculo proporcional a su frecuencia absoluta o relativa .

Sean n1 < = n2 los tamaños respectivos de las 2 poblaciones. La población más pequeña se representa con un semicírculo de radio r1 y la mayor con otro de radio r2.


8

La relación existente entre los radios, es la que se obtiene de suponer que la relación entre las áreas de las circunferencias es igual a la de los tamaños de las poblaciones respectivas, es decir: Pictogramas

Expresan con dibujos alusivos al tema de estudio las frecuencias de las modalidades de la variable. Estos gráficos se hacen representado a diferentes escalas un mismo dibujo.

Fi. 3 Pictogramas

GRÁFICOS para variables CUANTITATIVAS Para las variables continuas

Utilizamos como diagramas diferenciales los histogramas y los polígonos de frecuencias. Histogramas

El criterio para calcular la altura de cada rectángulo es el de mantener la proporcionalidad entre la frecuencias absolutas (o relativas) de cada intervalo y el área de los mismos.

Polígono de frecuencia

Para representar el polígono de frecuencias en el primer y último intervalo, suponemos que adyacentes a ellos existen otros intervalos de la misma amplitud y frecuencia nula, y se unen por una línea recta los puntos del histograma que corresponden a sus marcas de clase.

El polígono de frecuencias tiene en común con el histograma el que las áreas de la gráficas sobre un intervalo son idénticas.

El diagrama integral para una variable continua se denomina también polígono de frecuencias acumulado, y se obtiene como la poligonal definida en abcisas a partir de los extremos de los intervalos en los que hemos organizado la tabla de la variable, y en ordenadas por alturas que son proporcionales a las frecuencias acumuladas.

ESTADÍSTICOS Indican los valores centrales de los datos. Media, mediana y moda Indican la mayor o menor concentración de los datos con respecto a las medidas de centralización. Desviación típica, coeficiente de variación, rango, varianza


9

Centralización o tendencia central Dispersión Cuantiles, percentiles, cuartiles, deciles PosiciónAsimetría Apuntamiento o curtosis Forma

Si los datos son una muestra, el promedio y la mediana se llamarán estadísticos. Si los datos son una población entonces estas medidas de tendencia central se llamarán parámetros

Ejem. Media de 2, 2, 3 y 7 es (2+2+3+7) /4=3,5 ¿Cuándo debemos usarla? cuando los datos tienen distribución normal o casi normal Precaución: es muy sensible a valores extremos. ¿Cuándo usarla? si la distribución de los datos es asimétrica. No es sensible a valores extremos. Mediana de 1,2,4,5,6,6,800 es 5. ¡La media es 117,7

Pasos para encontrar la mediana: 1. Ordenar los datos de menor a mayor; 2. Calcular la posición de la mediana: (n+1)/2, donde n es el número de observaciones 3. a) Si el número de observaciones es impar, la mediana es un único término central. b) Si el número de observaciones es par, la mediana es el promedio de los dos términos centrales.

Ejemplo Edades de n=20 sujetos... Calculamos (n+1)/2 obtenemos (20+1)/2 = 10,5. Entonces los términos centrales son la décima y un-


10

décima observaciones, es decir 43 y 44. La mediana es el promedio de estos dos términos, (43+44)/2=43,5 años. 32 37 39 40 41 41 41 42 42 43 44 45 45 45 46 47 47 49 50 51 • La moda de los valores: { 0, 0, 0, 0, 1, 1, 2, 2, 3, 4 } es 0. • { 0, 0, 0, 1, 1, 2, 2, 2, 3, 4 } dos modas, 0 y 2 (bimodal). • ¿Cuál sería la moda del siguiente conjunto de valores? { 0, 1, 2, 4, 5, 8 }. • {0, 0, 0, 0, 0, 1, 2, 3, 4, 4, 4, 4, 5} ... La Moda no se usa a menudo como medida de tendencia central para datos cuantitativos. Sin embargo la Moda es la medida de tendencia central que puede ser calculada en datos cualitativos. Pregunta: En nueve familias encuestadas los números de niños por familia fueron: 4,6,2,2,4,3,2,1 y 7. La media, mediana y moda de los niños por familia son respectivamente: a) 3.4, 2,3 b) 3, 3.4, 2 c) 3, 3.4, 2 d) 2, 3.5, 3 e) Ninguna anterior Pregunta: Un jefe de servicio desea considerar un valor central que resuma el tiempo de estancia de sus pacientes ingresados. En este valor prefiere que tengan escasa contribución aquellos pacientes ingresados por error diagnóstico que son trasladados a otro servicio en poco tiempo y aquellos pacientes que permanecen ingresados debido a su problemática social una vez finalizada la intervención médica. ¿Qué parámetro le recomendaría?: A. Mediana. B. Moda. C. Media. D. Desviación típica. E. Recorrido.

Estadísticos de DISPERSIÓN

Miden el grado de dispersión (variabilidad) de los da-

tos, independientemente de su causa.

Diferencia entre observaciones extremas. -2, 1, 4, 3, 8, 4. El rango es 8-1=7 -Es muy sensible a los valores extremos.

Rango Es la medida de variabilidad o dispersión más simple. Se calcula tomando la diferencia entre el valor máximo y el mínimo observado. Rango = Máximo – Mínimo. Analice cuáles podrían ser las ventajas y desventajas del rango como medida de variabilidad.

-Es la distancia entre el primer y tercer cuartil. Rango intercuartílico = P

75 - P

25

-Parecida al rango, pero eliminando las observaciones más extremas inferiores y superiores. -No es tan sensible a valores extremos.


11

Pensemos la desviación estándar como aproximadamente un promedio de las distancias de las observaciones a la media. Si todas las observaciones son iguales, entonces la desviación estándar es cero. La desviación estándar es positiva y mientras más alejados están los valores del promedio, mayor será la desviación estándar.

Dispersión en distribuciones “normales” -Centrado en la media y a una desviación estándar de distancia tenemos más de la mitad de las observaciones (68.25%). -A dos desviaciones estándar tenemos al 95.45% -A tres desviaciones estándar tenemos el 99.7%

ESTADÍSTICOS de POSICIÓN .

-La mediana es el percentil 50 -El percentil de orden 15 deja por debajo al 15% de las observaciones. Por encima queda el 85% En general, el k-ésimo percentil es un valor tal que el k% de los datos son menores o iguales que él, y el (100-k) % restante son mayores o iguales que él. .-Primer cuartil = Percentil 25 = Cuantil 0,25 -Segundo cuartil = Percentil 50 = Cuantil 0,5 = mediana -Tercer cuartil = Percentil 75 = cuantil 0,75

i

i xxn

S 22 )(1


12


13

OF: Un estudio ha codificado la intensidad del dolor

de los pacientes como: sin dolor, dolor leve, dolor moderado y dolor intenso. La variable ha sido media en una escala: a. Cualitativa nominal b. Cualitativa ordinal c. Cualitativa discreta d. Cualitativa contínua e. Dicotómica Rpta. B OF: Se está realizando un estudio para conocer el

efecto de un analgésico. La variable principal de respuesta es una escala de dolor con los siguientes valores: 1 . No dolor 2. Dolor leve 3.Dolor moderado y 4. Dolor intenso. ¿De qué tipo de variable se trata? a. Variable dicotómica b. Variable contínua c. Variable discreta d. Variable ordinal e. Variable cuantitativa Rpta. D OF : Al consultar la distribución del peso en una

muestra de sujetos adultos, se aprecia que el percentil 25 corresponde a 65 kg. ¿Cuál de las siguientes afirmaciones es correcta?: a)El 25% de los sujetos de la muestra pesan aproximadamente 65 kg. b)El 25% de los sujetos de la muestra tienen un peso igual o superior a 65 kg. c)Para poder interpretar este valor, es necesario conocer la desviación estándar de la distribución. d)Para poder interpretar este valor, es necesario conocer la media de la distribución. e)El 25% de los sujetos de la muestra tienen un peso igual o inferior a 65 kg. Rpta. E OF : En un estudio en que se ha medido la intensidad

de dolor en un grupo de 145 pacientes con artritis reumatoide mediante una escala de 0 (ausencia de dolor) a 10 (dolor de intensidad máxima), se informa que la mediana es de 6. ¿Cuál el significado de este valor?: a)La mitad de los sujetos de la muestra tienen valores de intensidad de dolor iguales o inferiores a 6.

b)El valor 6 indica la intensidad de dolor que puede considerarse normal en la escala utilizada. c)El valor 6 de la escala ha sido la puntuación obtenida con mayor frecuencia por los sujetos de la muestra. d)El valor 6 es la media aritmética de las puntuaciones obtenidas por los sujetos de la muestra. e)La diferencia entra la puntuación máxima y la mínima obtenida por los sujetos de la muestra es 6. Rpta. A OF: En un ensayo clínico se comparan 3 tratamientos

(p.e. placebo, tratamiento establecido y un tratamiento nuevo). La variable respuesta es contínua (p.e. nivel de glucosa en sangre). Aceptando que la variable tiene una distribución normal, el test correcto para comparar la respuesta es: a)La t de Student. b)El test de Wilcoxon. c)Análisis de la varianza. d)El test de Kruskal-Wallis. e)El test ji-cuadrado. Rpta. C


14

INTRODUCCIÓN

La investigación en salud tiene como objeto obtener conclusiones que permitan una adecuada toma de decisiones en lo que compete a conductas específicas y cambio de políticas establecidas en relación con la salud de los seres humanos. CONCEPTOS

Población o Universo Es un conjunto de individuos o elementos que guardan similitud entre sí en los aspectos que son relevantes para los objetivos de la investigación. Cada uno de los elementos están perfectamente identificados.

La población o universo es demasiado grande para estudiarla en su totalidad.

Población o universo

¡Estudiar a la población de bañistas de una

piscina es fácil, pero no precisamente de la

piscina de abajo! ¿Cuáles son las razones que limitan la medición en todos los sujetos de la población? -Las limitaciones severas en relación a recursos económicos y de tiempo, para lograr un cubrimiento del ciento por ciento de la población. -Falta de recurso humano suficientemente calificado para realizar las observaciones o para obtener las mediciones necesarias . -Dificultades geográficas y logísticas que presenta una tarea de gran magnitud como es el cubrimiento total de una población. Muestra Es un subgrupo de la población total.

¡Para muestra…. un

botón! Las dificultades ante- riormente menciona- das, que podrían hacer irrealizable un estudio, pueden ser soluciona- das si se estudia una muestra de la pobla- ción.


15

Una muestra correctamente seleccionada puede representar a la comunidad total de la cual fue extraídas y permite , que los resultados obtenidos en ella puedan extrapolar a un número mucho mayor personas pertenecientes a la misma población o a po-blaciones diferentes de características muy similares.

Marco muestral

Es un subconjunto de la población en el cual cada uno de los elementos está identificado Es una lista de unidades de muestreo.

Dentro del marco muestral se va a identificar la unidad de muestreo.

Unidad de muestreo

Es la unidad que se somete al proceso de aleatorización en los estudios que requieren muestreo.

En un muestreo por conglomerados o clústers son los grupos de unidades de estudio los que ingresan al sorteo. En un estudio sobre la relación médico-paciente son los médicos las unidades de muestreo.

Unidad de información

Es la unidad que nos brinda información de la unidad de estudio.

Cuando la unidad de estudio es la población el individuo se convierte en unidad de información. En un estudio retrospectivo las unidades de información son las historias clínicas.

Unidad de análisis

Es la unidad definida por el investigador para realizar mediciones. Es el elemento básico de estudio.

Las unidades de análisis pueden corresponder a las siguientes categorías o entidades:

El tipo de análisis al que se someterá la información es determinante para elegir la unidad de análisis. Por ejemplo, si el objetivo es dar cuenta de la satisfacción del usuario de un servicio médico, la


16

unidad de análisis natural es el paciente atendido, o la persona que se atiende en ese servicio médico.

Selección de una muestra La muestra se selecciona del Universo, de acuerdo con unos criterios de inclusión y exclusión previamente establecidos. En este sentido, cuantos más criterios de inclusión o exclusión se propongan, más reducida será la población a la que se pueda extrapolar el resultado.

MUESTREO

Preguntas en todo proceso de muestreo: Para que los datos sean representativos de la población que se pretende estudiar.

Tamaño de la muestra : ¿A cuántos vamos a muestrear ? Diseño muestral : ¿A quienes vamos a muestrear?

Objetivo del muestreo Es obtener una población que permita generalizar los resultados del estudio a personas que comparten las características del interés, pero que no estuvieron involucradas en el desarrollo del mismo.

Validez Interna Se refiere al grado en que la selección de sujetos y los otros aspectos del desarrollo de un estudio están libres de sesgos o errores sistemáticos que, de estar

presentes, podrían cambiar radicalmente los resultados finales de una investigación. Validez externa Equivale a la posibilidad de generalizar los resultados a la población, que se caracteriza por tener características compartidas.

Métodos de muestreo El muestreo puede ser, de acuerdo con sus características básicas, de dos tipos: probabilística y no probabilística. Muestreo no probabilístico

-Por conveniencia o deliberado -Accidental -Selección por expertos

Muestreo no probabilístico

-Muestreo aleatorio simple o irrestricto -Muestreo Sistemático -Muestreo Estratificado -Muestreo por Conglomerados -Muestreo Polietápico – Estratificado.

MUESTREO NO PROBABILÍSTICO En general, en este tipo de muestreo, las unidades se seleccionan por conveniencia, de manera secuencial, siguiendo determinados criterios subjetivos o porque simplemente están disponibles.

Desventaja La desventaja del muestreo no probabilístico es que no sirven para realizar generalizaciones, dado que no se tiene certeza de que la muestra extraída sea representativa de la población.


17

Muestreo por CONVENIENCIA : Implica el empleo de una muestra integrada por las personas o los objetos cuya disponibilidad como sujetos de estudio sea más conveniente.

Las muestras por conveniencia no constan necesariamente de individuos que el investigador conozca.

¡Las chicas los prefieren

flaquitos!

El muestreo por conveniencia es la técnica menos sólida, pero también la que más se utiliza en los estudios de ciencias de la

salud.

Cuando los fenómenos que se investigan son suficientemente homogéneos en la población, se reduce el riesgo de sesgo. Muestreo por CUOTAS : En el muestreo por cuotas el investigador identifica estratos de la población y establece las proporciones de elementos necesarias a partir de los distintos segmentos estratificados.

¿Muestreo por cuotas?

Con base en información previa acerca de la composición de la población, el investigador se asegura de que los diversos segmentos o sectores estén representados en la muestra en las mismas proporciones en que se presentan en la población.

El muestreo por cuotas no requiere de la aplicación de técnicas complejas ni la inversión de una cantidad extraordinaria de tiempo o esfuerzos, salvo por la identificación de estratos y la representación proporcional correspondiente, la técnica de muestreo por cuotas es muy semejante a la de conveniencia.

Este muestreo comparte muchas de las deficiencias de la técnica de conveniencia.

Muestreo INTENCIONAL : Se basa en la idea de que el investigador puede usar sus conocimientos acerca de la población para elegir los casos que incluirá en la muestra. El investigador debe seleccionar la variedad más amplia posible de personas o los sujetos que a su juicio son característicos de la población que le interesa o que disponen de mayor información acerca del tema de estudio. Si bien esta forma subjetiva de muestreo no ofrece un método externo y objetivo para evaluar cuán típicos de la población son los sujetos seleccionados, puede representar ciertas ventajas en circunstancias como la evaluación preprueba de instrumentos recién desarrollados con una muestra de diversos tipos de sujetos intencionalmente elegidos.

El muestreo intencional se aplica a menudo se busca una muestra de expertos, como cuando se desea aplicar una prueba de detección de necesidades con base en la técnica del informante clave.

MUESTREO PROBABILÍSTICO En este tipo de muestreo cada miembro de la población tiene una probabilidad, conocida y superior a cero, de ser incluido en la muestra y las unidades muestrales hacen parte de la muestra independientemente del criterio o gusto del investigador.

Es el MEJOR MÉTODO para asegurar la validez de cualquier inferencia o generalización hecha con base en los resultados obtenidos a partir de la muestra.


18

Clasificación El muestreo probabilístico se clasifica en: Muestreo ALEATORIO SIMPLE o Irrestricto: Es la técnica considerada como la más sencilla en el muestreo probabilístico. En ella, cada sujeto o unidad tiene una probabilidad igual y conocida de ser seleccionado. Todas las unidades están adecuadamente identificadas.

¡Asi de fácil es el

Muestreo aleatorio simple!

Supone que no existen razones para considerar que un conjunto específico de la población debe ser seleccionada con prioridad a otro.

Debido a estas importantes características, las muestras aleatorias simples son consideradas relativamente libre de sesgos.

Forma de seleccionar una muestra Este método se realiza en poblaciones pequeñas , lo que permite identificar y enumerar todos los elementos de la población de manera unívoca y exacta. ¿Qué se requiere para el muestreo? A través de algún procedimiento (tablas de números aleatorios, números aleatorios generados con una calculadora o una lista aleatoria generada por paquetes estadísticos) se elige a tantos participantes como sea necesario para completar el tamaño de muestra requerido.

Aplicación práctica Como puede verse en la fig. 1 primero debemos seleccionar de una población una muestra. Luego de seleccionar la muestra hay que determinar los estadísticos: x=Media s=Desviación standard

s2 =

Varianza p=Proporción n=Tamaño Luego estos estadísticos deben ser extrapolados a la población para obtener los parámetros. µ = Media σ= Desviación standard

σ2=

Varianza π=Proporción N=Tamaño Fig 1. Muestreo aleatorio simple Muestreo ALEATORIO SISTEMÁTICO : Este procedimiento se caracteriza por seleccionar las unidades de muestreo empleando un intervalo de medida constante sobre el marco muestral. No requiere la enumeración de las unidades del marco muestral; solamente basta con que estén físicamente ordenadas en un orden ascendente o descendente, para permitir el conteo.


19

La aplicación de este procedimiento requiere determinar de manera inicial el: -Intervalo muestral (k) intervalo que se calcula dividiendo N / n N = tamaño de la población total n= tamaño de la muestra calculada

Aproximando el resultado al número entero más próximo.

La variable de interés es una variable que puede influir en los resultados del estudio. Ej. Si se quiere determinar la media de la talla de un grupo de alumnos de un colegio mixto ,es necesario ordenar a los alumnos por la variable sexo, ya que la talla va a depender del sexo. El sexo es una variable que va a influir en la media de la talla que se va a determinar. Para hacer esta división vamos a tener una constante que se denomina como K . Por ejemplo: N = 300 (población total) n = 60 (tamaño de la muestra) N / n =300/60 = K = 5 Se selecciona al azar el número .

hasta completar el tamaño de la muestra requerido se localizan las unidades del marco muestral corres-pondientes a los valores obtenidos.El primer elemento por lo tanto es , el segundo elemento es el resultado de la suma de , el tercer elemento se halla sumando , el cuarto elemento resulta de la suma de , el quinto elemento sumando , el sexto elemento

resulta de la suma de y así sucesivamente hasta completar el tamaño de la muestra que es Fig.2 Muestreo aleatorio sistemático Aplicación práctica Como puede verse en la fig. 1 tenemos una población que debe ser ordenada en base a una variable que nos interesa controlar. Una vez ordenada la población hay que calcular el valor de K. N = 40 y n = 8 N/n = K = 5 En este ejemplo el valor elegido entre 1 y K es 3. hasta completar el tamaño de la muestra requerido 1º elemento : 3+5= 8 ; 2º elemento: 8+5= 13 ; 3º elemento : 13 +5 = 18 y así sucesivamente hasta completar el tamaño de la muestra que es 40. y extrapolamos los valores de los estadísticos a la población para obtener los parámetros. Muestreo ESTRATIFICADO : En algunas ocasiones la población que se desea estudiar está compuesta por subgrupos bien definidos que pueden ser identificados con anterioridad al proceso de selección de la muestra.


20

La característica de interés en el estudio varía ampliamente entre esos subgrupos definidos, es decir, existe gran heterogeneidad entre ellos; en tanto que dentro de cada subgrupo la variabilidad es poca, es decir, existe homogeneidad dentro del subgrupo.

Muestreo estratificado : “Dios los cría y ellos se

juntan”

Estratificación de la población La estratificación en algunas ocasiones puede obedecer a características de tipo espacial, tales como el sitio de vivienda, lo cual puede identificar una clase económica determinada que sigue ciertos comportamientos sociales, políticos, económicos y culturales.

Existen diferentes formas de realizar la selección de las unidades dentro de los estratos: Afijación igual: Consiste en distribuir equitativamente el tamaño de la muestra en cada uno de los estratos de la población; requiere conocer el número de estratos existentes.

Afijación proporcional: La distribución del tamaño de muestra se realiza porcentualmente según tamaño de cada estrato dentro de la población; por tanto, requiere conocer el número de estratos y el tamaño porcentual de cada uno en la población.

Afijación Óptima: Requiere conocer además del número de estratos y el tamaño porcentual de estos en la población, la desviación estándar poblacional en cada estrato. Consiste en balancear la variabilidad dentro de los estratos con su tamaño.

Ignorar la heterogeneidad que presenta la característica de interés sobre el marco muestral puede llevar a que las estimaciones obtenidas a partir de la muestra difieran considerablemente de los verdaderos valores de la población.

Tenemos una población bastante heterogénea por lo que vamos a formar estratos para tratar de homogenizar la población en cada uno de los estratos. Fig.3 Muestreo Estratificado


21

En el ejemplo de la fig. 3 estamos formando 2 estratos para tratar de homogenizar los elementos en el estrato que estamos determinando. La variable que vamos a utilizar para estratificar la población, es una variable que sabemos que puede influir en los resultados del estudio. Una vez determinados los estratos el siguiente paso es seleccionar una muestra de cada uno de los estratos ,. La selección de la muestra se puede realizar utilizando el: -Muestreo aleatorio simple -Sistemático.

Una vez obtenida la muestra determinamos los estadísticos. Extrapolamos los valores de los estadísticos a la población para obtener los parámetros. Muestreo por CONGLOMERADOS o Complejos Los conglomerados son agrupaciones de elementos que existen naturalmente (no los define el investigador) por razones económicas, biológicas, sociales, etc. (el hogar, el curso de estudiantes de un colegio, un municipio o ciudad). Una muestra por conglomerados es una muestra aleatoria simple en la cual las unidades muestradas son grupos de unidades del marco muestral.

DESVENTAJA

Este muestreo tiende a contener más errores de muestreo que los de tipo simple o estratificado.

VENTAJA

Sin embargo es mucho más económico y práctico que otras variantes de muestreo probabilística, en particular cuando la población es grande y se halla dispersa.

Se tiene una población bastante heterogénea y

grande, como por ejemplo la población de un

distrito , de una provincia o de un país.

Los conglomerados tienen las siguientes

características: -Dentro de cada conglomerado debe haber la mayor heterogeneidad posible. Entre los conglomerados debe haber la mayor homogeneidad posible.

Fig.4 Muestreo por conglomerados -El tamaño de los conglomerados no necesariamente es el mismo. Al no ser del mismo tamaño la probabilidad de selección de cada sujeto va a variar en cada conglomerado. Por lo tanto no todas las unidades de muestreo tienen las misma probabilidad de ser seleccionadas. -Una vez que se han formado los conglomerados vamos a seleccionar de todos estos una muestra de los conglomerados. Este muestreo se puede hacer con :

. Muestreo aleatorio simple

. Muestreo aleatorio Sistemático. -Se ha seleccionado una muestra de los conglomerados pero que sigue siendo demasiado grande, es por eso que dentro de cada conglomerado vamos a seleccionar una muestra de cada conglomerado En la muestra de cada conglomerado estimamos los estadísticos y luego extrapolamos los valores de los estadísticos a la población para obtener los parámetros (este proceso es difícil).


22

Más datos: Como puede verse en el ejemplo de la fig.4 en la selección de la muestra de los conglomerados (1ra. etapa) se utiliza el muestreo aleatorio Simple y para seleccionar la muestra de cada conglomerado (2da. etapa) es decir los elementos o unidades de muestreo se puede utilizar el muestreo aleatorio sistemático.

TAMAÑO DE LA MUESTRA Según Fisher, el tamaño de la muestra debe definirse partiendo de los criterios: Con relación al primer criterio la recomendación es siempre tomar la muestra mayor posible. La lógica nos indica que entre más grande sea ésta mayor posibilidad tendrá de ser más representativa y menor será el error de muestreo, el cual siempre existe.Fisher plantea que el tamaño de la muestra deberá ser suficiente para permitir un análisis confiable de los cruces de variables, para obtener el grado de precisión requerido en la estimación de proporciones, y para probar si las diferencias entre proporciones son estadísticamente significativas.

Otro de los conceptos básicos Otro de los conceptos básicos al usar las herramientas estadísticas es la diferencia entre los resultados de una muestra seleccionada (estimadores) y el valor poblacional de interés (parámetros).

Cuando se selecciona una muestra específica, esa muestra seleccionada es una de las posibles muestras que se pudo haber seleccionado. Por esta razón, existen procesos inferenciales que permiten extrapolar los resultados de una muestra aleatoria seleccionada a la población de estudio.

Uno de los criterios durante la planeación de la selección de una muestra es obtener estimadores confiables para alcanzar los objetivos del estudio.

Es necesario equilibrar los recursos, la logística de la selección, el proceso de recolección y el análisis de la muestra seleccionada. Por estas razones, existe un tamaño de muestra específico para cada diseño de muestreo y para los diferentes diseños de investigación en salud.

Adicionalmente, se quiere ganar eficiencia en el cálculo del tamaño de la muestra, involucrando dentro de la fórmula los elementos del tipo de diseño implementado en el estudio. Además, si se trata de un estudio exploratorio, los requisitos para calcular el tamaño de la muestra son menores en cantidad si se les compara con estudios en los que el objetivo sea la evaluación de una intervención.

El tamaño de la muestra debe ser calculado siempre en la fase de planeación, para permitir la planeación adecuada del estudio, para programar las estrategias de recolección, determinar los costos, preparar las intervenciones y procedimientos de evaluación y en general para determinar la factibilidad general.


23

DEFINICIÓN

Estadística inferencial es el conjunto de métodos estadísticos que permiten deducir (inferir) cómo se distribuye la población bajo estudio, a partir de la información que proporciona una muestra representativa obtenida de dicha población.

La estadística inferencial extrapola los datos ob-tenidos de una muestra hacia la población de la cual ha sido seleccionada la muestra que hemos estudiado.

CLASIFICACIÓN

Existen dos tipos básicos de estadística diferencial: -Estadística paramétrica -Estadistica no-paramétrica

Estadística paramétrica

Es la estadística que se recomienda por tener mayor potencia, se trata de técnicas más precisas.

Para que la estadística inferencial proporcione buenos resultados debe cumplir con 3 requisitos: -Distribución normal de los datos en la población -Muestra aleatoria (representativa de la población) -Datos cuantitativos: contínuos, discretos o de intervalo o razón.

Técnicas paramétricas

Cuadro nº 1 : Características comunes de las pruebas paramétricas.

1. Independencia de las observaciones a excepción de datos pareados.

2. Las observaciones para la variable dependiente se han obtenido de manera aleatoria de una población con distribución normal.

3. La variable dependiente es medida al menos en una escala de intervalo.

4. Se recomienda un tamaño de muestra mínimo de 30 sujetos por grupo.

5. Los datos son obtenidos de poblaciones que tienen varianzas iguales (una varianza no debe ser el doble o mayor que la otra).

6. Habitualmente las hipótesis se hacen sobre valores numéricos, especialmente el promedio de una población (μ), como ejemplo: Ho: μ1 = μ2 H1: μ1 ≠ μ2

7. Otros posibles requisitos: variable independiente nominal o de intervalo, homocedasticidad (para cada nivel de la variable independiente hay una variación similar de la variable dependiente) y casillas de igual tamaño.

Cuadro Nº2 : Valoración de las características de los datos. 1. Determinar el nivel de medida de la variable de interés.

2. Valorar la distribución de las variables.

• Medidas de tendencia central para cada variable.

• Sesgo y curtosis para cada variable.

• Valoración visual de la distribución de los datos.

• Examinar los diagramas de las probabilidades de la distribución.

• Si se considera necesario transformar las variables.

• Ver los resultados de la transformación.

3. Ver la homogeneidad de las varianzas.

4. Ver el tamaño de muestra total y de los subgrupos.

5. Determinar qué prueba estadística paramétrica o no paramétrica es la más adecuada.


24

Estadística no paramétrica Si los procedimientos estadísticos no requieren plantear inferencias acerca de los parámetros de la población (su media y dispersión) se le conoce como no paramétricos, o de distribución libre (ya que no se hacen suposiciones acerca de la distribución de la población de donde procede la muestra.

Es la alternativa para cuando no se puedan utilizar las técnicas paramétricas.

-No hay requisitos para la muestra -Se pueden utilizar tanto datos cualitativos como cuantitativos. -Datos cualitativos: nominal u ordinal

Técnicas no paramétricas para datos cuantitativos Técnicas no paramétricas para datos cualitativos

Cuadro 3. Características comunes de las pruebas no paramétricas.

1. Independencia de las observaciones aleatorias a excepción de datos pareados.

2. Pocas asunciones con respecto a la distribución de la población.

3. La variable dependiente es medida en escala categórica.

4. El punto primario es el ordenamiento por rangos o por frecuencias.

5. Las hipótesis se hacen sobre rangos, mediana o frecuencias de los datos.

6. El tamaño de muestra requerido es menor (20 o <).

Con las pruebas no paramétricas se puede trabajar con muestras pequeñas de datos categóricos u ordinales, independientemente de la distribución de las muestras que se desea contrastar.

Cuadro Nº 4. Características de las pruebas no paramétricas. Ventajas 1.Determinación sencilla. Mediante fórmulas simples de combinación. 2. Fáciles de aplicar. Las operaciones matemáticas son la jerarquización, conteo, suma y resta. 3. Rápidas de aplicar. Cuando las muestras son pequeñas. 4. Campos de aplicación. A grupos mayores de poblaciones. 5. Menos susceptibles a la contravención de los supuestos. Ya que los supuestos son escasos y menos complicados. 6. Tipo de medición requerida. Se pueden utilizar con datos ordinales o nominales. 7. Tamaño de la muestra. Cuando la muestra es < 10 son sencillas, rápidas y sólo un poco menos eficaces. Conforme aumenta el tamaño de la muestra se hacen más laboriosas y tardadas, y menos efectivas. 8. Efectividad estadística.

Cuando se satisfacen los supuestos de la prueba no paramétrica son igual de efectivas. Si se satisfacen los supuestos de una prueba paramétrica con muestras pequeñas son un poco menos efectivas y se vuelven menos eficaces a medida que aumenta el tamaño de muestra.


25

ANALISIS ESTADÍSTICO Tabla Nº1 Técnicas de análisis estadístico Preguntas básicas en el análisis estadístico

1º ¿Qué tipo de muestra nos están presentando en el problema? ¿La muestra es independiente o dependiente? Independiente: la selección de los elementos no depende de la selección de otras unidades o elementos.

En este caso tenemos muestras pareadas. Por ejemplo: si estamos haciendo un muestreo de tipo pareado por una variable que nos interesa (por ejemplo el sexo), si selecciono un sujeto del sexo femenino el siguiente sujeto también tiene que ser femenino. El máximo grado de apareamiento lo tendremos cuando estamos haciendo estudios en los cuales los sujetos son grupo control y grupo de intervención.

2º ¿Es una variable cualitativa o cuantitativa? 3º ¿Cuántos grupos se están comparando en el problema? 4º ¿Qué tipo de distribución tiene la variable que nos están presentando?

Luego de responder las 4 preguntas podemos identificar cual es la prueba estadística que le corresponde.

CASO: Se compara la talla promedio entre 2 grupos de niños que recibieron distintos patrones de alimentación. Cada grupo comprendía 25 niños. Señale la prueba de significación estadística más apropiada para analizar los datos: a)Prueba de Chi cuadrado bPrueba “Z” cPrueba “t” de student dPrueba de Spearson ePrueba de Mc Nemar Comentario Para resolver este caso es necesario formular varias preguntas: Cuando estamos frente a un problema y no nos dicen que la muestra es dependiente o independiente debemos asumir que es independiente.

En el caso que estamos viendo no nos indican si la muestra es dependiente o independiente por lo que asumimos que es una muestra independiente. La variable que se va a comparar es la talla , la cual es una variable de tipo cuantitativa. En este ejemplo nos dicen explícitamente que se están comparando 2 grupos. En este ejemplo no nos indican el tipo de distribución de los datos, pero si nos dicen de manera implícita que los datos tienen distribución normal, cuando nos


26

indican que lo que se va a comparar es la talla promedio o sea la media de la talla. Si se van a comparar 2 medias , la condición es que tengan una distribución normal.

CASO: En un ensayo clínico se comparan las cifras de glucosa en una muestra de sujetos representativa de una comunidad antes y después de la aplicación de un determinado tratamiento hipoglucemiante cuya eficacia queremos comprobar ¿Cuál prueba estadística es más adecuada para analizar los datos obtenidos? a)Test de la t de Student para datos independientes b)Análisis de varianza c)Test de la t de student – Fisher para los datos apareados d)Test de comparaciones múltiples e)Chi – cuadrado Comentario Para resolver este caso es necesario formular varias preguntas: Como es un estudio “antes y después” los sujetos son los mismos, por lo que es una muestra de tipo dependiente. Lo que se quiere comparar son los niveles de glucosa , la cual es una variable cuantitativa. A pesar que el estudio es de un solo grupo de sujetos, se consideran como 2 grupos debido a que los mismos sujetos están antes de la intervención y después de la misma se vuelve a hacer la medición. En este caso no se menciona ni implícita ni explícitamente cual es la distribución de los datos , es

por eso que tenemos que ir a las alternativas de la respuesta. a)Test de la t de Student para datos independientes La T de Student para datos independientes se usa cuando las muestras son independientes. En este ejemplo la muestra es dependiente por lo que no es el test estadístico apropiado. b)Análisis de varianza Lo utilizamos cuando queremos comparar 2 ó más grupos , la variable independiente es de tipo cuantitativa pero el tipo de muestra también tiene que ser independiente por lo tanto no es la alternativa correcta. c)Test de la t de student – Fisher para los datos apareados La T de Student para datos pareados se usa cuando: Por lo que es la alternativa correcta. d)Test de comparaciones múltiples Se utiliza después de realizar el Test de ANOVA para ver si hay alguna diferencia entre las medias que se están comparando. El test de ANOVA nos dice que hay una diferencia significativa entre las medias que se están comparando y el Test de comparaciones múltiples nos dice entre que medias hay esa diferencia significativa. Es falsa. e)Chi – cuadrado Se utiliza para variables de tipo cualitativo Estadística paramétrica

Estadística paramétrica Cuando se pretende probar una hipótesis respecto a uno o más parámetros de una población que tiende a una distribución normal, las pruebas usadas son las de la estadística paramétrica, como la t de Student (cuadro Nº2)

Aunque la potencia de las pruebas estadísticas paramétricas es mayor que la que ofrecen las pruebas no paramétricas, ya que con ellas se tiene la probabilidad de rechazar la hipótesis nula cuando ésta realmente es falsa (error de tipo II: 1-β). El adecuado tamaño de la muestra es un requisito indispensable para aumentar la eficacia de una prueba: a medida que aumenta el tamaño de muestra, disminuye la posibilidad de cometer el error de tipo II.


27

Tabla Nº 2. Pruebas paramétricas y su alternativa no paramétrica. Es conveniente comentar que el adecuado tamaño de muestra es un requisito indispensable para aumentar la eficacia de una prueba. PRUEBAS CON UNA SOLA MUESTRA

Ji cuadrada Esta prueba de hipótesis se usa para comparar la posible diferencia entre las frecuencias observadas en la distribución de una variable con respecto a las esperadas, en razón de una determinada hipótesis. Prueba binomial La prueba binomial compara las frecuencias observadas en cada una de las dos categorías de una variable dicotómica con respecto a las frecuencias esperadas bajo una distribución binomial que tiene un parámetro de probabilidad específico que, por defecto, para ambas categorías es 0.5. Para cambiar las probabilidades se puede ingresar una proporción de la prueba para el primer grupo por lo que la probabilidad para el segundo será 1 menos la probabilidad especificada para el primero.

Se asume que:

Esto quiere decir que si la variable no es dicotómica se deben colapsar los datos en 2 categorías mutuamente excluyentes.

Esta proporción teórica puede venir de registros públicos, censos o investigaciones previas. La prueba binomial está indicada cuando la variable a ser examinada es dicotómica, es especialmente útil en casos de tamaño de muestra pequeños, que no cumplen los requisitos de la bondad de ajuste de la Ji cuadrada.

Prueba de las rachas La prueba de las rachas mide hasta qué punto en una variable dicotómica la observación de uno de sus atributos puede influir en las siguientes observaciones; es decir, si el orden de ocurrencia en la observación de uno de los atributos de una variable dicotómica ha sido por azar.

Una serie de datos en los que hay muchas o pocas rachas, hacen pensar que éstas no han ocurrido por azar. Alternativa: para probar que dos muestras vienen de poblaciones con las mismas distribuciones, se emplea la prueba de rachas sugerida por Wald-Wolfowitz. Prueba de Kolmogorov-Smirnov Para una muestra

La prueba se usa para definir si el grado de ajuste de los datos a una distribución teórica: que puede ser con tendencia a la normal, a la de Poisson o exponencial.

La prueba Z de Kolmogorov-Smirnov (K-S), se computa a partir de la diferencia mayor (en valor absoluto) entre la distribución acumulada de una muestra (observada) y la distribución teórica.

La bondad de ajuste de la muestra permite suponer de manera razonable, que las observaciones pudieran


28

corresponder a la distribución específica. La contribución de Kolmogorov corresponde al problema relacionado con una sola muestra, mientras que la de Smirnov se ocupa de responder al problema respecto a dos muestras, tratando de probar la hipótesis de igualdad entre las poblaciones de origen de una con respecto a la de la otra.

La prueba de K-S no precisa que las observaciones sean agrupadas (como es el caso de la Ji cuadrada).

Se usa en cualquier muestra de cualquier tamaño, mientras que la Ji cuadrada requiere muestras con un tamaño mínimo. Esta prueba no se debe usar cuando los parámetros tienen que ser estimados a partir de la población y es útil, especialmente cuando se conoce la estructura en que subyace la distribución de la variable en estudio. Es más poderosa que la Ji cuadrada, especialmente cuando el tamaño de la muestra es pequeño y el nivel de medición de la variable es ordinal.

Alternativa: No hay opción paramétrica. Una alternativa no paramétrica es la prueba de bondad de ajuste de Ji cuadrada. PRUEBAS DE DOS MUESTRAS

INDEPENDIENTES

Las pruebas de dos muestras independientes comparan dos grupos de casos con una variable.

Hay disponibles cuatro pruebas para ver si las dos muestras independientes (grupos) vienen de la misma población y son: U de Mann-Whitney Es la más popular de las pruebas para el estudio de dos muestras independientes.

Es equivalente a la prueba de suma de rangos de Wilcoxon y a la prueba de dos grupos de Kruskal-Wallis.

Es la alternativa no paramétrica a la comparación de dos promedios independientes a través de la t de Student. Tiene tres asunciones:

El número de pares debe ser pequeño en relación al número total de observaciones. Si las poblaciones son idénticas en situación, los rangos deben mezclarse al azar entre las dos muestras.

Se calcula el número de veces que una cuenta del grupo 1 precede una cuenta del grupo 2 y el número de veces que una cuenta del grupo 2 precede una cuenta del grupo 1.

t de Student Es la alternativa paramétrica para muestras independientes, que es más poderosa que la U de Mann-Whitney cuando se llenan todas las asunciones, mientras que si los datos no se distribuyen normalmente, el tamaño de muestra es pequeño, los grupos son de diferente tamaño.

Una alternativa no paramétrica que puede ser utilizada, sobre todo si las colas de la distribución no son similares es la prueba de la mediana.


29

Prueba Z de Kolmogorov-Smirnov Está basada en la diferencia absoluta máxima entre la función de distribución acumulada observada para ambas muestras. Cuando esta diferencia es significativamente grande, las dos distribuciones son consideradas diferentes. La prueba de las reacciones extremas de Moses asume que la variable experimental afecta algunos sujetos en una dirección y otros sujetos en la dirección opuesta.

Prueba de rachas de Wald-Wolfowitz Es una alternativa no paramétrica para contrastar si dos muestras con datos independientes proceden de poblaciones con la misma distribución. Combina y acomoda las observaciones de ambos grupos. Si las dos muestras son de la misma población, los dos grupos deben distribuirse al azar a lo largo de la clasificación jerárquica. Si hay pocas rachas habla de que se tratan de grupos diferentes mientras que, si hay muchas rachas no hay diferencias significativas en la distribución de los dos grupos.

MIR: Un investigador está interesado en determinar

si existe una asociación entre las cifras de tensión arterial diastólica (medida en mm de Hg) y los niveles de colesterol (medidos en mgr/ml). Para ello, ha realizado estas mediciones a 230 voluntarios. ¿Qué prueba estadística es la más apropiada para examinar esta asociación?: a)Regresión logística. b)Prueba de la t. c)Prueba de chi cuadrado. d)Correlación de Pearson. e)Prueba de Fisher. Rpta. D


30

Prueba de hipótesis

Definición

Es el método para desarrollar un procedimiento para probar la validez de una aseveración acerca de un parámetro poblacional .

Objetivo

El propósito de la prueba de hipótesis no es cuestionar

el valor calculado del estadístico (muestral), sino hacer

un juicio con respecto a la diferencia entre estadístico de

muestra y un valor planteado del parámetro.

Procedimiento sistemático para una prueba

de hipótesis de una muestra

La hipótesis nula (Ho)

se refiere siempre a un valor especificado del parámetro de pobla- ción, no a una esta- dística de muestra.

La letra H significa hipótesis y el subíndice cero no hay diferencia.

Por lo general hay un "no" en la hipótesis nula que indica que "no hay cambio" Podemos rechazar o aceptar la Ho.

La hipótesis alternativa (H1) es

cualquier hipótesis que difiera de la hipótesis nula. Es una afirmación que se acepta si los datos maestrales proporcionan evidencia suficiente de que la hipótesis nula es falsa.

Nivel de significacia: Probabilidad de rechazar la hipótesis nula cuando es verdadera.

Se le denota mediante la letra griega α, también es denominada como nivel de riesgo.

Si suponemos que la hipótesis planteada es

verdadera, entonces, el nivel de significación

indicará la probabilidad de no aceptarla, es decir, que

estén fuera del área de aceptación.

Nivel de confianza (1-α): indica la probabilidad de aceptar la hipótesis planteada, cuando es verdadera en la población.

La distribución de muestreo de la estadística de

prueba se divide en dos regiones:

-Región de rechazo (conocida como región crítica)

-Región de no rechazo (aceptación).

Si la estadística de prueba cae dentro de la región de

aceptación, no se puede rechazar la hipótesis nula.

La región de rechazo puede considerarse como

el conjunto de valores de la estadística de prueba que

no tienen posibilidad de presentarse si la hipótesis nula

es verdadera.

http://www.monografias.com/trabajos13/mapro/mapro.shtml

http://www.monografias.com/trabajos2/mercambiario/mercambiario.shtml

http://www.monografias.com/trabajos/discriminacion/discriminacion.shtml

http://www.monografias.com/trabajos14/control/control.shtml

http://www.monografias.com/trabajos7/perde/perde.shtml

http://www.monografias.com/trabajos7/perde/perde.shtml

http://www.monografias.com/trabajos901/praxis-critica-tesis-doctoral-marx/praxis-critica-tesis-doctoral-marx.shtml


31

Tipos de errores

Cuando realizamos una prueba de hipótesis estamos haciendo un test de significancia para ver si la hipótesis

nula es verdadera o falsa.

Cualquiera sea la decisión tomada a partir de una

prueba de hipótesis, ya sea de aceptación de la Ho o de la Ha, puede incurrirse en error.

Error tipo I

Un error tipo I se presenta si la hipótesis nula Ho siendo verdadera es rechazada por el test de significancia (Fig 1)

La probabilidad de cometer un error tipo I se denomina con la letra alfa α.

Error tipo II

Un error tipo II, se denota

con la letra griega β se

presenta si la hipótesis nula es aceptada cuando de hecho es falsa y debía ser

rechazada (Fig. 1)

Fig 1. Tipos de error

Decisión correcta

Una decisión correcta se presenta si la hipótesis nula Ho es falsa y es rechazada por el test de significancia.

Una decisión correcta también se presenta si la hipótesis nula Ho es verdadera y no es rechazada por el test de significancia (FIg. 1)

Error tipo I (alfa)

Una error tipo I se presenta si la hipótesis nula Ho es verdadera (en el estado real) y es rechazada por el test de significancia (FIg. 2)

Nivel de significancia

También se conoce al error de tipo I como nivel de significancia y por convención se considera que este

error de significancia debe ser de 5%.

Nivel de confianza

Es el complemento del nivel de significancia, cuyo valor debe ser de 95%:

La suma del nivel de significancia más el nivel de confianza siempre debe ser 100%, lo que gana uno de ellos lo pierde el otro. Ejemplo: si el nivel de significancia aumenta a 10% , el nivel de confianza disminuye a 90%).

Fig 2. Otros tipos de error

Error tipo II (beta)

Una error tipo II se presenta si la hipótesis nula Ho es falsa (en el estado real) y no es rechazada por el test de significancia (FIg. 2)


32

Por convención el error de tipo II tiene un valor de 20%.

Potencia

Es el complemento del error de tipo 2, su valor es de 80%.

Si incrementamos el valor del error de tipo II la potencia disminuye.

Si aumentamos la potencia se disminuye la probabilidad de cometer un error de tipo II.

La suma de la potencia más el error de tipo II siempre debe dar 100%

Ejemplo:

Tenemos un reo en la vida real, que puede ser inocente o culpable y un juez que da el veredicto.

Fig. 3 Ejemplo de tipo de error

Decisión correcta

Tenemos 2 posibilidades:

Se produce cuando en la vida real el reo es realmente

inocente y el veredicto del juez dice que es inocente.

Se produce también cuando en la vida real el reo es

culpable y el veredicto del juez dice que es culpable.

Error

Se produce también cuando en la vida real el reo es

culpable y el veredicto del juez dice que es inocente.

Error más grave

Se produce cuando en la vida real el reo es inocente y el

veredicto del juez dice que es culpable.

Si aplicamos lo anterior a Salud tenemos:

-Cuando la hipótesis nula es falsa y el test de significancia la rechaza es un decisión correcta.

-Cuando la hipótesis nula es verdadera y el test de significancia no la rechaza también es un decisión correcta.

Error de tipo II

-Cuando la hipótesis nula es falsa y el test de significancia no la rechaza es un error de tipo II.

Si estamos probando la eficacia de un tratamiento, de una droga A sobre una droga B , en este caso se comete un error de tipo II cuando decimos que el tratamiento si tiene un efecto pero no lo percibimos. Es decir que hay diferencia entre el tratamiento A y B pero la prueba de significancia dice que no hay diferencia, no se rechaza la hipótesis nula. Se busca un tratamiento alternativo y no hay consecuencias adversas para el paciente.

Error de tipo I (alfa)

-Cuando en la vida real el tratamiento no tiene efecto pero el test de significancia nos dice que si tiene efecto , es decir rechazamos la hipótesis nula. Este error es más grave que el error de tipo II porque se está dando al paciente una droga que en la vida real no tiene efecto para la enfermedad que estamos tratando . Se le da porque la prueba de significancia nos dice que si tiene efecto.

Fig. 4 Ejemplo de tipo de error


33

Ejemplo:

Pregunta: Al comparar dos medias muestrales el rechazo de una hipótesis nula, que es verdadera, nos lleva a cometer un ERROR conocido como _________. a. Beta o Tipo II b. Aleatorio c. Estándar d. Alfa o tipo I e. Sistemático

Comentario:

Estamos frente a una hipótesis nula que es verdadera y que ha sido rechazada por el test de significancia. Se trata de un error alfa (tipo I).

Factores que influyen en el poder estadístico de un estudio.

El tamaño de la muestra a estudiar: A > tamaño muestral, > potencia estadística de un estudio.

Para que cualquier ensayo de hipótesis sea bueno, debe diseñarse de forma que minimice los errores de decisión. La única forma de reducir ambos tipos de errores es incrementar el tamaño de la muestra, lo cual puede ser o no ser posible.

El nivel de significación estadística: Si se disminuye el valor de α también se disminuye el poder de la prueba.

Es decir, si disminuimos la probabilidad de cometer un error de tipo I, aumentamos la probabilidad de cometer un error de tipo II. Se debe encontrar un punto de “equilibrio” de cometer ambos errores. Habitualmente se trabaja con un nivel de significación de 5% y un poder de 80%.

Términos estadísticos

es la probabilidad de que nuestro resultado sea correcto: Probabilidad = (1-α) ó 95%

es el máximo error que estamos dispuestos a aceptar como válida nuestra hipótesis. Es el error tipo I o α. Probabilidad : 5%

significancia estadística ,es la cuantificación probabilística de error tipo I.

representa la probabilidad de observar en la muestra una determinada diferencia y efecto, si existe en la población.

¿Cómo nos protegemos contra el error tipo I? p < 0,05 protege contra el error tipo I debido al chance. No garantiza protección contra el error tipo I debido a sesgo o confusión

¿Cómo nos protegemos contra el error tipo II? -Estimando un tamaño de muestra adecuado -Estableciendo grandes diferencias en nuestras hipótesis

La probabilidad de cometer un error de tipo II denotada con la letra griega beta β, depende de la diferencia entre los valores supuesto y real del parámetro de la población. Como es más fácil encontrar diferencias grandes, si la diferencia entre la estadística de muestra y el correspondiente parámetro de población es grande, la probabilidad de cometer un error de tipo II, probablemente sea pequeña.

.

Existe una relación inversa entre la magnitud de los errores α y β: conforme a aumenta, β disminuye. Esto

obliga a establecer con cuidado el valor de a para las pruebas estadísticas. Lo ideal sería establecer α y β.

En la práctica se establece el nivel α y para disminuir

el Error β se incrementa el número de observaciones

http://www.monografias.com/trabajos14/nociones-basicas/nociones-basicas.shtml

http://www.monografias.com/trabajos14/nuevmicro/nuevmicro.shtml

http://www.monografias.com/trabajos15/estadistica/estadistica.shtml


34

en la muestra, pues así se acortan los límites de confianza respecto a la hipótesis planteada .

¿Cómo incrementamos la potencia de un estudio? -Incrementando el tamaño de muestra -Estimando un tamaño de muestra adecuado -Utilizando el método más preciso y exacto (menor variabilidad) para medir la exposición y el efecto

La meta de las pruebas estadísticas es rechazar la hipótesis planteada. Es deseable aumentar cuando ésta es verdadera, o sea, incrementar lo que se llama poder de la prueba (1- β).

La aceptación de la hipótesis planteada debe interpretarse como que la información aleatoria de la muestra disponible no permite detectar la falsedad de esta hipótesis.

Este valor es determinado a partir de la información muestral, que se utiliza para determinar si se rechaza la hipótesis nula , existen muchos estadísticos de prueba para nuestro caso utilizaremos los estadísticos z y t.

Tipos de prueba

la hipótesis

planteada se formula con la igualdad

Ejemplo

H0 : µ = 200

H1 : µ ≠ 200

la hipótesis

planteada se formula con ≥ o ≤

H0 : µ ≥ 200 H0 : µ ≤ 200

H1 : µ < 200 H1 : µ > 200

En las pruebas de hipótesis para la media (μ), cuando se

conoce la desviación estándar (σ) poblacional, o cuando

el valor de la muestra es grande (30 o más), el valor

estadístico de prueba es z y se determina a partir de:

El valor estadístico z, para muestra grande y

desviación estándar poblacional desconocida se determina por la ecuación:

En la prueba para una media poblacional con

muestra pequeña y desviación estándar poblacional desconocida se utiliza el valor estadístico :

Se establece las condiciones específicas en la que se rechaza la hipótesis nula y las condiciones en que no se rechaza la hipótesis nula.

La región de rechazo define la ubicación de todos los valores que son tan grandes o tan pequeños, que la probabilidad de que se presenten bajo la suposición de que la hipótesis nula es verdadera, es muy remota.

http://www.monografias.com/trabajos7/plane/plane.shtml

http://www.monografias.com/trabajos7/caes/caes.shtml


35

Distribución muestral del valor estadístico z, con prueba de una cola a la derecha

Es el punto de división entre la región

en la que se rechaza la hipótesis nula y la región en la que no se rechaza la hipótesis nula.

Paso 5: Tomar una decisión.

En este último paso de la prueba de hipótesis, se

calcula el estadístico de prueba, se compara con el

valor crítico y se toma la decisión de rechazar o no la

hipótesis nula.

Tenga presente que en una prueba de hipótesis solo

se puede tomar una de dos decisiones: aceptar o

rechazar la hipótesis nula.

Debe subrayarse que siempre existe la posibilidad de

rechazar la hipótesis nula cuando no debería haberse

rechazado (error tipo I). También existe la posibilidad

de que la hipótesis nula se acepte cuando debería

haberse rechazado (error de tipo II)

Prueba de CHI CUADRADO

Es una de las pruebas estadísticas más utilizadas ,va a

depender si tiene una ó 2 variables.

Fig.5 Test de Chi cuadrado

PRUEBA DE BONDAD DE AJUSTE

Cuando queremos decidir , a partir de una muestra, si la población sigue (“ajusta”) una determinada distribución (problema de bondad de ajuste).

Supongamos que tenemos un número k de clases en las cuales se han ido registrado un total de n observaciones (n será el tamaño muestral). Denotaremos las frecuencias observadas en cada clase por O1, O2, ..., O k

(Oi es el número de valores en la clase Ai ). Se cumplirá:

E1 + E2 + ... + E k = n

Se tratará ahora de decidir si las frecuencias

observadas están o no en concordancia con las

frecuencias esperadas (es decir, si el número de

resultados observados en cada clase corresponde

aproximadamente al número esperado). Para

comprobarlo, haremos uso de un contraste de

hipótesis usando la distribución Chi-cuadrado:

El estadístico de contraste será

Observar que este valor será la suma de k números no negativos.

El numerador de cada término es la diferencia entre la frecuencia observada y la frecuencia esperada. Por tanto, cuanto más cerca estén entre sí ambos valores más pequeño será el numerador, y viceversa. El denominador permite relativizar el tamaño del numerador. χ2

Por el contrario, valores grandes de este estadístico indicarán falta de concordancia entre las observaciones y lo esperado. En este tipo de contraste se suele rechazar la hipótesis nula (los valores observados son coherentes con los esperados) cuando el estadístico es mayor que un determinado valor crítico.


36

Prueba de HOMOGENEIDAD

Cuando queremos decidir si dos o más muestras provienen de la misma poblacional ¿Estas muestras provienen de poblaciones con la misma distribución? Estamos interesados en determinar si los datos correspondientes a dos o más muestras aleatorias provienen de la misma población. Nuevamente el conjunto de posibles valores de las observaciones se divide en k conjuntos disjuntos: A1, A2, ..., Ak. ; clasificando en ellos las observaciones de cada muestra. Si nij representa el número de observaciones de la muestra i que pertenecen al conjunto Aj , los datos pueden tabularse en lo que se denomina una tabla de contingencia. La hipótesis de que las m poblaciones son homogéneas, se traduce en que cada conjunto Aj debe tener una probabilidad teórica pj , desconocida, pero que no varía de la población i a la población i’. Esto debe verificarse para todas las categorías, i.e., las categorías deben ser homogéneas en las diversas muestras. Del mismo modo que la Prueba de Bondad de Ajuste, en este caso debemos comparar las frecuencias observadas en cada una de las muestras y para cada categoría con las frecuencias bajo el supuesto de homogeneidad en las poblaciones. En este caso las frecuencias observadas corresponde al número de individuos de la muestra i en la clase j, i.e., nij El estadístico de contraste será Donde eij es la frecuencia esperada bajo el supuesto de homogeneidad, que puede representarse como ni Pj , es decir, el número de individuos en la muestra i por la probabilidad de que ocurra la característica j en la población. Para el cálculo de las probabilidades

de pertenecer un individuo a cada una de las categorías podemos utilizar: Observar que este valor será la suma de n*k números no negativos. El numerador de cada término es la diferencia entre la frecuencia observada y la frecuencia esperada. Por tanto, cuanto más cerca estén entre sí ambos valores más pequeño será el numerador, y viceversa. El denominador permite relativizar el tamaño del numerador. Las ideas anteriores sugieren que, cuanto menor sean el valor del estadístico ∗χ2, más coherentes serán las observaciones obtenidas con los valores esperados. Por el contrario, valores grandes de este estadístico indicarán falta de concordancia entre las observaciones y lo esperado. En este tipo de contraste se suele rechazar la hipótesis nula (los valores observados son coherentes con los esperados) cuando el estadístico es mayor que un determinado valor crítico

Prueba de INDEPENDENCIA

Se trata de contrastar si dos variables cualitativas son independientes (es decir, si existe relación entre ellas), o no. Por ejemplo: ¿Los hábitos de lectura de los padres influyen en los hábitos de lectura de los hijos? Estamos interesados en determinar si dos cualidades o variables referidas a individuos de una población están relacionadas. Se diferencia de los contrastes anteriores en que en este caso estamos interesados en ver la relación existente entre dos variables de una misma población, no queremos contrastar la distribución teórica de una variable (prueba de bondad de ajuste) ni en comparar la distribución de una única variable en dos poblaciones (prueba de homogeneidad). Supongamos que de n elementos de una población se han observado dos características X e Y, obteniéndose una muestra aleatoria simple bidimensional (X1,Y1),(X2,Y2),...,(Xn,Yn). Sobre la base de dichas observaciones se desea contrastar si las características poblacionales X e Y son independientes o no. Para ello se dividirá el conjunto de posibles valores de X en k conjuntos disjuntos


37

A1,A2,...,Ak; mientras que el conjunto de posibles valores Y será descompuesto en r conjuntos disjuntos: B1,B2,...,Br . Al clasificar os elementos de la muestra, aparecerá un cierto número de ellos, ijn , en cada una de las k × r clases así constituidas, dando lugar a una tabla de contingencia de la forma: Al igual que para el Test de homogeneidad, el estadístico del contraste será:

EJEMPLO: Hemos preguntado a un grupo de 20 hombres y 20 mujeres si fumaban o no. ¿Crees que hay diferencias significativas entre ambos sexos? Tenemos una tabla con la distribución de los 20 hombres y 20 mujeres. El total de los hombres y mujeres están en las columnas y en las filas el total de los que fuman y los que no fuman. En total son 40 sujetos.

A los totales se les llama totales marginales

En este caso vamos a estimar las frecuencias esperadas para las 4 celdas a, b, c y d y obtenemos los totales marginales de las filas y de las columnas . Hay una fórmula para obtener estas frecuencias que consiste en multiplicar los tatoles marginales dividiendo entre el total de observación.


38

¿Cómo obtenemos el Chi cuadrado?

El Chi cuadrado es igual a la sumatoria de las frecuencias observadas (Oi) menos las frecuencias esperadas (Ei) elevadas al cuadrado sobre las frecuencias esperadas.

Los valores esperados en cualquiera de las celdas siempre deben de ser > o = a 5

Si en una de las celdas el valor es menor a 5 NO podemos utilizar el valor del Chi cuadrado., debiéndose usar la prueba de Fisher exact ( más frecuentemente utilizado) o la prueba de Corrección de yates. OF: En un estudio que compara la eficacia de dos

fármacos no se observa una diferencia estadísticamente significativa entre ellos. Si en realidad ambos tratamientos fueran diferentes, todos los siguientes factores podrían explicar por qué se ha obtenido un resultado "falso negativo", EXCEPTO uno. Señálelo: a)Error tipo alfa. b)Error tipo beta. c)Potencia estadística insuficiente. d)Número de sujetos estudiados insuficiente. e)Existencia de un sesgo en la comparación. Rpta. A

OF: En un contraste de hipótesis, la potencia es la

probabilidad de: a)Rechazar la hipótesis nula siendo cierta. b)Rechazar la hipótesis nula siendo falsa. c)Aceptar la hipótesis alternativa. d)Que la hipótesis alternativa sea verdadera. e)Que la hipótesis nula sea falsa. Rpta. B

OF: Un ensayo clínico evalúa dos pautas

terapéuticas en pacientes hipertensos. Para comparar los porcentajes de pacientes controlados observados en cada grupo a los 6 meses de tratamiento, ¿qué prueba estadística le parece más adecuada?:

a)t de Student para datos independientes. b)Análisis de la varianza de medidas repetidas. c)Chi-cuadrado. d)t de Student para datos apareados. e)Análisis de la varianza. Rpta. C

Manual Bioestadística PLUS MEDIC A

Documents

Transcript of Manual Bioestadística PLUS MEDIC A