Curso de Bioestadística Parte 7 Introducción a estadística inferencial Dr. en C. Nicolás Padilla...

26
Curso de Bioestadística Parte 7 Introducción a estadística inferencial Dr. en C. Nicolás Padilla Raygoza Facultad de Enfermería y Obstetricia de Celaya Universidad de Guanajuato México

Transcript of Curso de Bioestadística Parte 7 Introducción a estadística inferencial Dr. en C. Nicolás Padilla...

Page 1: Curso de Bioestadística Parte 7 Introducción a estadística inferencial Dr. en C. Nicolás Padilla Raygoza Facultad de Enfermería y Obstetricia de Celaya.

Curso de BioestadísticaParte 7

Introducción a estadística inferencial

Dr. en C. Nicolás Padilla RaygozaFacultad de Enfermería y Obstetricia de Celaya

Universidad de Guanajuato México

Page 2: Curso de Bioestadística Parte 7 Introducción a estadística inferencial Dr. en C. Nicolás Padilla Raygoza Facultad de Enfermería y Obstetricia de Celaya.

Presentación

Médico Cirujano por la Universidad Autónoma de Guadalajara. Pediatra por el Consejo Mexicano de Certificación en Pediatría. Diplomado en Epidemiología, Escuela de Higiene y Medicina

Tropical de Londres, Universidad de Londres. Master en Ciencias con enfoque en Epidemiología, Atlantic

International University. Doctorado en Ciencias con enfoque en Epidemiología, Atlantic

International University. Profesor Asociado B, Facultad de Enfermería y Obstetricia de

Celaya, Universidad de Guanajuato. [email protected]

Page 3: Curso de Bioestadística Parte 7 Introducción a estadística inferencial Dr. en C. Nicolás Padilla Raygoza Facultad de Enfermería y Obstetricia de Celaya.

Competencias

Definirá qué es estadística inferencial. Conocerá qué es distribución de muestreo. Conocerá y definirá las propiedades de la

distribución de muestreo. Analizará las implicaciones de la distribución

de muestreo para trabajar con muestras.

Page 4: Curso de Bioestadística Parte 7 Introducción a estadística inferencial Dr. en C. Nicolás Padilla Raygoza Facultad de Enfermería y Obstetricia de Celaya.

Población y muestra

Queremos medir la prevalencia de Entamoeba histolytica en la República Mexicana.

No podemos medirla en toda la población mexicana, por razones prácticas y financieras.

Se mide la prevalencia en una subpoblación mexicana, llamada muestra

Page 5: Curso de Bioestadística Parte 7 Introducción a estadística inferencial Dr. en C. Nicolás Padilla Raygoza Facultad de Enfermería y Obstetricia de Celaya.

¿Cómo elegimos una muestra?

Sería más fácil obtener una muestra de la ciudad de México, pero es muy probable que la prevalencia de Entamoeba histolytica difiera del resto del país, dando una prevalencia sesgada de toda la población mexicana.

Si elegimos una muestra al azar, es muy probable que evitemos sesgos.

La muestra aleatoria (al azar) es cuando, sólo este decide quien es incluido y quien no.

Page 6: Curso de Bioestadística Parte 7 Introducción a estadística inferencial Dr. en C. Nicolás Padilla Raygoza Facultad de Enfermería y Obstetricia de Celaya.

Ejemplo de dos muestras

El Jefe de la Jurisdicción Sanitaria decide investigar la prevalencia de E. histolytica entre escolares de su Jurisdicción.

Le encarga el proyecto al epidemiólogo y se asignan pocos recursos al proyecto.

Un médico de la comunidad, quería conocer la prevalencia de amebiasis entre escolares.

Contrató a dos personas para reunir los datos.

Page 7: Curso de Bioestadística Parte 7 Introducción a estadística inferencial Dr. en C. Nicolás Padilla Raygoza Facultad de Enfermería y Obstetricia de Celaya.

Ejemplo de dos muestras

El epidemiólogo obtuvo una muestra del 10% de los escolares registrados en Escuelas de la Jurisdicción.

De los 500 escolares seleccionados se obtuvieron datos de edad y sexo y se les realizó una detección de antígeno de E. histolytica en heces.

Edad (años) Amebiasis + Amebiasis – Total

M F M F

__________________________________________

6 7 12 22 28 69

7 10 9 25 19 63

8 5 13 24 17 59

9 9 9 20 24 62

10 7 9 18 23 57

11 11 9 27 17 64

12 4 15 21 21 61

13 12 8 23 22 65

_________________________________________

Total 65 84 180 171 500

Page 8: Curso de Bioestadística Parte 7 Introducción a estadística inferencial Dr. en C. Nicolás Padilla Raygoza Facultad de Enfermería y Obstetricia de Celaya.

Ejemplo de dos muestras

Con una muestra del 10% se obtuvo una prevalencia de amebiasis del 29.8%.

26.5% en hombres y 32.9% en mujeres.

Page 9: Curso de Bioestadística Parte 7 Introducción a estadística inferencial Dr. en C. Nicolás Padilla Raygoza Facultad de Enfermería y Obstetricia de Celaya.

Ejemplo de dos muestras

El médico realizó una encuesta en dos escuelas de la ciudad, que estaban cerca de su casa.

Entrevistaron y realizaron la detección de antígeno de E. histolytica en 500 alumnos de esas escuelas.

Edad (años) Amebiasis + Amebiasis – Total M F M F

__________________________________________6 5 7 52 50 1147 10 9 71 34 1248 2 1 41 37 819 6 10 2 1 1910 7 3 13 19 4211 10 9 5 12 3612 4 7 7 18 3613 9 8 12 19 48

_________________________________________Total 53 54 203 190 500

Page 10: Curso de Bioestadística Parte 7 Introducción a estadística inferencial Dr. en C. Nicolás Padilla Raygoza Facultad de Enfermería y Obstetricia de Celaya.

Ejemplo de dos muestras

Con una muestra del 10% se obtuvo una prevalencia de amebiasis del 21.4%.

20.7% en hombres y 37.5% en mujeres.

Page 11: Curso de Bioestadística Parte 7 Introducción a estadística inferencial Dr. en C. Nicolás Padilla Raygoza Facultad de Enfermería y Obstetricia de Celaya.

Ejemplo de dos muestras

¿Por qué dieron resultados tan diferentes las dos muestras?

Primero, debemos revisar la distribución de las muestras.

Edad Muestra Jurisdicción Muestra Médico Masculino Femenino Masculino Femenino

% % % %_______________________________________________________

6 5.8 8.0 11.4 11.47 7.0 5.6 16.2 8.68 5.8 6.0 8.6 7.69 5.8 6.6 1.6 2.210 5.0 6.4 4.0 4.411 7.6 5.2 3.0 4.212 5.0 7.2 2.2 5.013 7.0 6.0 4.0 5.6

______________________________________________________

Page 12: Curso de Bioestadística Parte 7 Introducción a estadística inferencial Dr. en C. Nicolás Padilla Raygoza Facultad de Enfermería y Obstetricia de Celaya.

Población objetivo y población muestreada Es importante distinguir entre población objetivo y

población muestreada. La población objetivo es la población de la cual

queremos información. La población de la muestra es la población de la cual

podemos obtener información. Los dos estudios tienen la misma población objetivo,

pero son diferentes ya que no tienen la misma población muestreada.

Si las características de la población objetivo son diferentes a las de la población muestreada los resultados serán sesgados.

Page 13: Curso de Bioestadística Parte 7 Introducción a estadística inferencial Dr. en C. Nicolás Padilla Raygoza Facultad de Enfermería y Obstetricia de Celaya.

Estimados de muestras y distribución de muestras Seleccionamos una muestra debido a que queremos

información sobre un hecho en particular de la población objetivo; por ejemplo, la prevalencia de E. histolytica entre Escolares.

Ya que no podemos tener este resultado en forma directa, debemos reunir información sobre una muestra aleatoria, tomada de la población objetivo y usarla para obtener nuestro mejor estimado del valor del resultado en la población.

Para distinguir entre los valores de la población y de la muestra, usamos letras griegas para los valores de la población y letras latinas para los valores de la muestra.

Page 14: Curso de Bioestadística Parte 7 Introducción a estadística inferencial Dr. en C. Nicolás Padilla Raygoza Facultad de Enfermería y Obstetricia de Celaya.

Estimados de muestras y distribución de muestras Es poco probable que la proporción de escolares con

amebiasis encontrada en la muestra aleatoria de 500 alumnos del 29.8%, sea exactamente la misma que la verdadera prevalencia del total de la población de escolares de la jurisdicción.

¿Pero qué tan cercano es el estimado p, del verdadero valor de π de la población?

En general, no conocemos π, así que necesitamos encontrar otra forma de evaluar cuán seguro es p como un estimado de π.

Una forma es estar concientes que la muestra aleatoria que estamos usando es una de muchas que podrían haber sido extraídas.

Page 15: Curso de Bioestadística Parte 7 Introducción a estadística inferencial Dr. en C. Nicolás Padilla Raygoza Facultad de Enfermería y Obstetricia de Celaya.

Estimados de muestras y distribución de muestras Así, si muchas muestras alternativas podrían haber sido

reunidas en lugar de la única que hemos reunido: ¿Qué tan diferentes resultados podríamos haber

encontrado, si usamos varias muestras? Para resolver esta pregunta, debemos ver algunas

simulaciones: Tenemos una población de 5000 escolares cuya prevalencia

de amebiasis se asume es del 29.8%. Tomamos mil muestras independientes de esta población; el

tamaño de la muestra fue fijado en 500 (10%). Calculamos el porcentaje de escolares con amebiasis en cada

muestra. El porcentaje de escolares con amebiasis encontrados en las

primeras 20 muestras (estimados de muestras) son mostrados. Note que cada una de ellas representa un estimado de la

verdadera prevalencia de la población y que generamos 1,000 muestras.

Page 16: Curso de Bioestadística Parte 7 Introducción a estadística inferencial Dr. en C. Nicolás Padilla Raygoza Facultad de Enfermería y Obstetricia de Celaya.

Estimados de muestras y distribución de muestrasMuestra Prevalencia (%) Muestra Prevalencia (%) 1 29.8 8 28.42 32.1 9 30.73 28.0 10 33.14 32.0 11 28.8 5 27.3 12 29.56 25.4 13 30.57 31.1 14 29.4

Esta distribución es llamada la distribución de muestreo o de muestras.Note que:la mayoría de los estimados de las muestras están cercanos a la verdadera prevalencia, p=30%Su distribución va de 25 al 35%.Su distribución es casi simétrica

Page 17: Curso de Bioestadística Parte 7 Introducción a estadística inferencial Dr. en C. Nicolás Padilla Raygoza Facultad de Enfermería y Obstetricia de Celaya.

Distribución de muestreo

Distribución de estimados de 1000 muestras; tamaño de muestra=500

050

100150200

Prevalencia estimada

Fre

cu

en

cia

Page 18: Curso de Bioestadística Parte 7 Introducción a estadística inferencial Dr. en C. Nicolás Padilla Raygoza Facultad de Enfermería y Obstetricia de Celaya.

Distribución de muestreo

Se ha ilustrado la idea de que, en teoría, podemos obtener muchas muestras de una población y obtener diferentes estimaciones de las muestras.

Sin embargo, en la práctica, sólo tenemos una muestra de la población de interés. Así que nunca podremos observar una distribución de las estimaciones de las muestras.

La idea de la distribución de muestreo es fundamental en las inferencias estadísticas, debido a que nos permite relacionar la muestra de la población que tenemos, de donde obtuvimos nuestra información, con el valor verdadero de la población.

Page 19: Curso de Bioestadística Parte 7 Introducción a estadística inferencial Dr. en C. Nicolás Padilla Raygoza Facultad de Enfermería y Obstetricia de Celaya.

Propiedades de la distribución de muestreo

Todas las distribuciones de muestreo tienen las mismas características.De la misma población de 5000 escolares, tomamos muestras de diferente tamaño, veremos que sus características son similares.

Distribución de estimados de 1000 muestras; tamaño de muestra=10

050

100150

0.25

0.27

0.29

0.31

0.33

0.35

Prevalencia estimada

Fre

cuen

cia

Distribución de estimados de 1000 muestras; tamaño de muestra=150

050

100150200

0.25

0.27

0.29

0.31

0.33

0.35

Prevalencia estimadaF

recu

enci

a

Page 20: Curso de Bioestadística Parte 7 Introducción a estadística inferencial Dr. en C. Nicolás Padilla Raygoza Facultad de Enfermería y Obstetricia de Celaya.

Propiedades de la distribución de muestreo Las distribuciones de muestreo obtenidas de

muestras de diferente tamaño, obtenidas de la misma población, muestran las tres propiedades de las distribuciones de muestreo: La media La desviación estándar Su forma

Page 21: Curso de Bioestadística Parte 7 Introducción a estadística inferencial Dr. en C. Nicolás Padilla Raygoza Facultad de Enfermería y Obstetricia de Celaya.

Inferencias

Las tres propiedades de las distribuciones de muestreo nos permiten inferir resultados en cuanto a la población general de los datos obtenidos de una sola muestra.

Volvamos al ejemplo de prevalencia de amebiasis, donde el 29.8% de los escolares la presentaron.

Si relacionamos nuestros resultados con muchos otros resultados, que pudieran ser obtenidos, podemos establecer un rango de valores que es probable que incluyan la verdadera prevalencia de amebiasis entre los escolares.

Page 22: Curso de Bioestadística Parte 7 Introducción a estadística inferencial Dr. en C. Nicolás Padilla Raygoza Facultad de Enfermería y Obstetricia de Celaya.

Inferencias

El proceso de inferencia, se efectúa a través de 7 pasos:

1. La estimación de muestra de 0.298 obtenido es uno de muchos que se podrían haber obtenido de otras muestras aleatorias del mismo tamaño.

2. La propiedad uno de la distribución de muestreo dice que la media de la distribución de muestreo es el valor verdadero de la población

3. La propiedad dos de la distribución de muestreo, dice que el error estándar de la distribución de muestreo es:

π (1-π) ES(p)= ----------------

n

Page 23: Curso de Bioestadística Parte 7 Introducción a estadística inferencial Dr. en C. Nicolás Padilla Raygoza Facultad de Enfermería y Obstetricia de Celaya.

Inferencias

4. La propiedad tres de la distribución de muestreo dice que la distribución de muestreo es Normal cuando el tamaño de muestra es grande. Así, el 95% de las estimaciones de la muestra que pudieran ser obtenidas con tamaño de muestras de 500 estarán dentro de 2 ES desde la media, esto es la prevalencia de la población, π.

5. Si embargo, nosotros sólo tenemos una muestra, y no conocemos la media (π) de la distribución de muestreo. Por la misma razón, no podemos calcular ES debido a que requerimos π.

Page 24: Curso de Bioestadística Parte 7 Introducción a estadística inferencial Dr. en C. Nicolás Padilla Raygoza Facultad de Enfermería y Obstetricia de Celaya.

Inferencias

6. Sin embargo, podemos usar la proporción de la muestra como nuestra mejor estimación de π y usarla para calcular el ES.

7. De nuevo, usando las propiedades de la distribución Normal podemos decir que estamos 95% confiados de que la verdadera prevalencia de la población, π, está dentro de 2 ES de la proporción de la muestra, 0.289. Son los intervalos de confianza al 95%.

Page 25: Curso de Bioestadística Parte 7 Introducción a estadística inferencial Dr. en C. Nicolás Padilla Raygoza Facultad de Enfermería y Obstetricia de Celaya.

Inferencias

Conclusión Así, colocando todos estos resultados juntos,

podemos estimar la distribución de muestreo de la cual la estimación que tenemos es derivada.

Page 26: Curso de Bioestadística Parte 7 Introducción a estadística inferencial Dr. en C. Nicolás Padilla Raygoza Facultad de Enfermería y Obstetricia de Celaya.

Bibliografía

1.- Last JM. A dictionary of epidemiology. New York, 4ª ed. Oxford University Press, 2001:173.

2.- Kirkwood BR. Essentials of medical ststistics. Oxford, Blackwell Science, 1988: 1-4.

3.- Altman DG. Practical statistics for medical research. Boca Ratón, Chapman & Hall/ CRC; 1991: 1-9.