… de la semana pasada. El comando ‘histogram’ en STATA.

84
… de la semana pasada

Transcript of … de la semana pasada. El comando ‘histogram’ en STATA.

Page 1: … de la semana pasada. El comando ‘histogram’ en STATA.

… de la semana pasada

Page 2: … de la semana pasada. El comando ‘histogram’ en STATA.

El comando ‘histogram’ en STATA

Page 3: … de la semana pasada. El comando ‘histogram’ en STATA.

Histogram inf_edad, bin(12) kdensity

Page 4: … de la semana pasada. El comando ‘histogram’ en STATA.

Box Plot (Gráfico de cajas)

• Se muestra gráficamente los datos utilizando 5

números (estadísticas de resumen)

Mediana

4 6 8 10 12

Q3Q1 XMáximoXMínimo

Page 5: … de la semana pasada. El comando ‘histogram’ en STATA.

Relación entre el perfil de la distribución y el Box Plot

Sesgada derechaSesgada izquierda Simétrica

Q1 Mediana Q3Q1 Mediana Q3 Q1

Mediana Q3

Page 6: … de la semana pasada. El comando ‘histogram’ en STATA.

El comando ‘Graph’ en STATA

Page 7: … de la semana pasada. El comando ‘histogram’ en STATA.

graph box inf_edad

0.0

1.0

2.0

3D

ensi

ty

0 20 40 60 80Edad del paciente

Page 8: … de la semana pasada. El comando ‘histogram’ en STATA.

Box plot

Page 9: … de la semana pasada. El comando ‘histogram’ en STATA.

Los gráficos ‘box-plot’ permiten realizar comparaciones

Page 10: … de la semana pasada. El comando ‘histogram’ en STATA.

Gráficos ‘tallo y hoja’ comando ‘stem’ de STATA

Page 11: … de la semana pasada. El comando ‘histogram’ en STATA.
Page 12: … de la semana pasada. El comando ‘histogram’ en STATA.

Scatter-plots y Ejemplos de Relaciones No-lineales

Page 13: … de la semana pasada. El comando ‘histogram’ en STATA.
Page 14: … de la semana pasada. El comando ‘histogram’ en STATA.
Page 15: … de la semana pasada. El comando ‘histogram’ en STATA.
Page 16: … de la semana pasada. El comando ‘histogram’ en STATA.
Page 17: … de la semana pasada. El comando ‘histogram’ en STATA.

Ganancias25%

Ganancias25%

Representación gráfica y problemas éticosLast year, 25 percent of our sales dollar

was profits. Depending on whether we present it to our stockholders or the unions, we don’t want to give it the same emphasis.

That’s easy. For our stockholders, we’ll show it in our annual report as a coin in perspective and take the 25 percent profits from the front …

Whereas for the union, we’ll show it from the back where it won’t look anywhere as impressive.

Ganancias25%

.

Page 18: … de la semana pasada. El comando ‘histogram’ en STATA.

Representación gráfica y problemas éticos

Oops, we certainly don’t want to advertise that sharp increase in administrative costs, it may raise questions by our stockholders.

No sweat. We’ll switch the two components around. This way, by placing the administrative costs at the top, it doesn’t look so damning. As a matter of fact, it looks like it’s going down.

LaborCosts

AdministrativeCosts

LaborCosts

AdministrativeCosts

Page 19: … de la semana pasada. El comando ‘histogram’ en STATA.

Representación gráfica y problemas éticos

Now, if you could only show this declining sales picture as going up, all my problems would be solved.

Sure thing; no problem. A bit of perspective here, a bit of fore-shortening there, and now the line looks like it’s going up.

‘87 ‘88 ‘89 ‘90 ‘91 ‘920

25

50

75

100

‘87 ‘88 ‘89 ‘90 ‘91 ‘920

25

50

75

100

Page 20: … de la semana pasada. El comando ‘histogram’ en STATA.

Manejo de datos fuera de rango (outliers)

• Los Outliers son valores que se consideran “No Pertenecen” al conjunto de datos.

• Razones para darse:• 1. Errores de medición• 2. Resultados atípicos

• La recomendación es corregir los errores (si es posible) y remover las observaciones atípicas.

• PERO! Y si así es la ciencia ?! Mejor hacer doble análisis: con y sin ‘outliers’

Page 21: … de la semana pasada. El comando ‘histogram’ en STATA.
Page 22: … de la semana pasada. El comando ‘histogram’ en STATA.
Page 23: … de la semana pasada. El comando ‘histogram’ en STATA.

Análisis de OUTLIERS:

Datos Simétricos

Valores que se exceden en 3 DS de la media

-3s X

outlier region

outlier region

+ 3sXX

Page 24: … de la semana pasada. El comando ‘histogram’ en STATA.

Análisis de OUTLIERS:

Datos sesgados:

Valores que se exceden de 3 rangos intercuartiles por debajo del primer cuartil Q1 o por encima del tercer cuartil (Q3) (percentiles 25 y 75 respectivamente)

Sesgada izquierda Sesgada Positiva

Q1 – 3(Q3 – Q1)Q1 Q3 Q1 Q3 Q3 + 3(Q3 – Q1)

outlier region outlier

region

Page 25: … de la semana pasada. El comando ‘histogram’ en STATA.

Tratamientos TB MDR

+

-

o

P++

P - -

P - +

P + -

P++

P - -

P - +

P + -

P++

P - -

P - +

P + -

++ +

- - -

o oo

Beginning oftreatment

1st month oftreatment

2nd month oftreatment

3rd month oftreatment

Page 26: … de la semana pasada. El comando ‘histogram’ en STATA.

Probabilidad de Conversión en Bk y Cultivo durante el tratamiento

EstandarizadoInstantaneous probability of Bk conversion

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17Months of treatment

Pro

bab

ility

of

con

vers

ion

+

++

+++

Instantaneous probability of culture conversion

0

0.1

0.2

0.3

0.4

0.5

0.6

1 3 5 7 9 11 13 15 17

M onths of treatment

Pro

bab

ility

of

con

vers

ion

+

++

+++

Page 27: … de la semana pasada. El comando ‘histogram’ en STATA.

Proporción acumulada de casos Bk y cultivo negativos a lo largo del

tratamiento dentro de los que fueron positivos

Proportion of negative bk among baseline bk positives

0.5

0.55

0.6

0.65

0.7

0.75

0.8

0.85

0.9

0.95

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

Months of treatment

Pro

po

rtio

n +

++

+++

Proportion of culture negatives among baseline culture positives

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

M onths of treatment

Pro

po

rtio

n

+

++

+++

Page 28: … de la semana pasada. El comando ‘histogram’ en STATA.

• Semana 4. Estadística descriptiva. Prevalencia e incidencia. Sensibilidad y especificidad. Manejo de proporciones, razones y tasas provenientes de datos nominales en estudios epidemiológicos. Análisis exploratorio con variables continuas. Exploración gráfica y tabular bivariada. Estimación puntual e intervalos de confianza. Relación entre la sensibilidad, valor predictivo positivo y prevalencia de la enfermedad. Teorema de Bayes.

Page 29: … de la semana pasada. El comando ‘histogram’ en STATA.

Cualquier persona con malaria en el norte del Perú

Casos de malaria en

Sullana

Universo teóricoUniverso “real”: marco muestral

Casos enero-marzo 2004

Sujetos bajo estudio: muestra

MUESTREOGENERALIZACION

Proceso:

DELIMITACION

Page 30: … de la semana pasada. El comando ‘histogram’ en STATA.

Tipos de inferencia estadística:

• Estimación:– Cálculo numérico de un cierto parámetro en la

población

– En forma puntual y con intervalo de variabilidad

• Prueba de hipótesis:– Respuesta a una hipótesis o pregunta sobre el valor de

un parámetro en la población

– No se logra tener certeza: la respuesta se da como una probabilidad

Page 31: … de la semana pasada. El comando ‘histogram’ en STATA.

Manejo de proporciones, razones y tasas

Page 32: … de la semana pasada. El comando ‘histogram’ en STATA.
Page 33: … de la semana pasada. El comando ‘histogram’ en STATA.
Page 34: … de la semana pasada. El comando ‘histogram’ en STATA.

Prevalencia e incidencia

Page 35: … de la semana pasada. El comando ‘histogram’ en STATA.
Page 36: … de la semana pasada. El comando ‘histogram’ en STATA.
Page 37: … de la semana pasada. El comando ‘histogram’ en STATA.
Page 38: … de la semana pasada. El comando ‘histogram’ en STATA.
Page 39: … de la semana pasada. El comando ‘histogram’ en STATA.
Page 40: … de la semana pasada. El comando ‘histogram’ en STATA.
Page 41: … de la semana pasada. El comando ‘histogram’ en STATA.
Page 42: … de la semana pasada. El comando ‘histogram’ en STATA.
Page 43: … de la semana pasada. El comando ‘histogram’ en STATA.

Tasa o densidad de incidencia:• Numero de eventos / Tiempo en riesgo, varía de 0 a

infinito

• Expresa “velocidad” de ocurrencia, no la probabilidad de ocurrencia

• Resume el riesgo en un sólo indicador

• Unidades de tiempo definidas por el analista

• Supuestos:- exposición no tiene efecto acumulativo- riesgo es uniforme en el tiempo

Page 44: … de la semana pasada. El comando ‘histogram’ en STATA.
Page 45: … de la semana pasada. El comando ‘histogram’ en STATA.

¿Cuando se cumplen estos supuestos?

• Eventos “aleatorios” a través del tiempo, el riesgo no cambia en el tiempo

• El riesgo no tiene “memoria”, no depende de la última vez que hubo un evento

Page 46: … de la semana pasada. El comando ‘histogram’ en STATA.

Algunos ejemplos:• Picaduras de animales ponzoñosos

• Accidentes de tránsito

• Algunas enfermedades infecciosas en las que el riesgo no se acumula en el tiempo (TB, HIV)

• No se aplica a la mayoría de enfermedades crónicas o degenerativas

Page 47: … de la semana pasada. El comando ‘histogram’ en STATA.

Ejemplo:

0 10 20 30 0 10 20 30

Lima Iquitos

1530+15+2520+20

20+1020+20+15+15

(1+1+1) / (15+30+15+25+20+20)3 / 125 = 0.024 (riesgo anual 2.4%)

(1+1) / (20+10+20+20+15+15)2 / 100 = 0.020 (riesgo anual 2.0%)

Cuando llega a haber un evento, el tiempo en riesgo (denominador) sólo se cuenta hasta que ocurre el evento

Page 48: … de la semana pasada. El comando ‘histogram’ en STATA.
Page 49: … de la semana pasada. El comando ‘histogram’ en STATA.

Describiendo las tasas:

. cii 125 3, poisson

-- Poisson Exact --

Variable | Exposure Mean Std. Err. [95% Conf. Interval]

-------------+-------------------------------------------------------------

| 125 .024 .0138564 .0049501 .070122

. cii 100 2, poisson

-- Poisson Exact --

Variable | Exposure Mean Std. Err. [95% Conf. Interval]

-------------+-------------------------------------------------------------

| 100 .02 .0141421 .0024267 .0722176

Page 50: … de la semana pasada. El comando ‘histogram’ en STATA.

Comparando las tasas:. iri 3 2 125 100

| Exposed Unexposed | Total

-----------------+------------------------+----------

Cases | 3 2 | 5

Person-time | 125 100 | 225

-----------------+------------------------+----------

| |

Incidence Rate | .024 .02 | .0222222

| |

| Point estimate | [95% Conf. Interval]

|------------------------+----------------------

Inc. rate diff. | .004 | -.0348053 .0428053

Inc. rate ratio | 1.2 | .1374607 14.37037 (exact)

Attr. frac. ex. | .1666667 | -6.274809 .9304124 (exact)

Attr. frac. pop | .1 |

+-----------------------------------------------

(midp) Pr(k>=3) = 0.4340 (exact)

(midp) 2*Pr(k>=3) = 0.8679 (exact)

Page 51: … de la semana pasada. El comando ‘histogram’ en STATA.

Preparando los datos:tiempoevento es una variable que es igual a la edad a la que fumó por primer vez (si fumó) o a la edad actual si es que nunca fumo. Hay que tener cuidado con los valores perdidos

generate tiempoevento= p59 if p59!=88replace tiempoevento= inf_edad if (p58==4)

fumo es una variable que toma el valor 0 si la persona nunca fumó en su vida ó 1 si fumó alguna vez

generate fumo= (p58!=4) if p58!=.

Page 52: … de la semana pasada. El comando ‘histogram’ en STATA.

Aplicando a nuestro ejemplo:

Page 53: … de la semana pasada. El comando ‘histogram’ en STATA.

Tasas de incidencia estratificadas:

Page 54: … de la semana pasada. El comando ‘histogram’ en STATA.

Sensibilidad y especificidad

Page 55: … de la semana pasada. El comando ‘histogram’ en STATA.

Principios en programas de monitoreo

• Validez – la habilidad para predecir quien tiene la no la tiene

– Sensibilidad – la habilidad de un test para correctamente identificar a los que tienen la enfermedad

• Una prueba con alta densibilidad tendrá pocos falsos negativos

– Especificidad – la habilidad de una prueba para correctamente identificar aquellos quienes no tienen la enfermedad

• Una prueba con alta especificidad tendrá pocos falsos positivos

Page 56: … de la semana pasada. El comando ‘histogram’ en STATA.

Principios en programas de monitoreo (cont.)

• Una prueba ideal de monitoreo deberá tener 100% de sensibilidad y 100% de especificidad -no debería tener falsas negativas ni falsos positivos

• En la práctica, esos están inversamente relacionados– Es posible variar la sensibilidad y la

especificidad, variando el nivel en el cual la prueba se considera positiva

Page 57: … de la semana pasada. El comando ‘histogram’ en STATA.

Calculando mediciones de validez

a+b+c+db+da+cTotal

c+ddcNegativo

a+bbaPositivo

TotalNo enfermedadEnfermedadResultado de la prueba

Diagnóstico verdadero

Sensibilidad = a/(a+c); la probabilidad de tener una prueba positiva si es realmente positivo

Especificidad = d/(b+d); la probabilidad de tener una prueba negativa, si realmente es negativa

Valor predictivo positivo = a/(a+b); la probabilida de tener la enfermedad si la prueba es positiva

Valor predictivo negativo = d/(c+d); la probabilidad de no tener la enfermedad si la prueba es negativa

Prevalencia = (a+c)/(a+b+c+d)

Precisión (eficiencia de la prueba) = (a+d)/(a+b+c+d)

Page 58: … de la semana pasada. El comando ‘histogram’ en STATA.

Note las relaciones en monitoreo

• Especificidad + tasa de falsos positivos = 1

d/(b+d) + b/(b+d) = 1• Si la especificidad está incrementada, la tasa de falsos positivos

está disminuida• Si la especificidad está disminuida, la tasa de falsos positivos está

incrementada.

• Sensibilidad + tasa de falsos negativos = 1

a/(a+c) + c/(a+c) = 1• Si la sensibilidad está incrementada, la tasa de falsos negativos está

disminuida• Si la sensibilidad está disminuida, la tasa de falsos negativos está

incrementada

Page 59: … de la semana pasada. El comando ‘histogram’ en STATA.

Probabilidad de enfermedad

• Probabilidad de enfermedad pre-prueba = prevalencia de la enfermedad

• Probabilidad de enfermedad post-prueba =– Si normal, c/(c+d)– Si positiva, a/(a+b)

Page 60: … de la semana pasada. El comando ‘histogram’ en STATA.

Relación entre Sensibilidad y Especificidad

Page 61: … de la semana pasada. El comando ‘histogram’ en STATA.

Sensibilidad y especificidad del nivel de glucosa en sangre

100.0100.0

48.4

(verdaderos

negativos)

7.1

(falsos

negativos)

Aquellos con niveles inferiores a 110 mg/100 ml son clasificados como no

diabéticos

51.6

(Falsos

positivos)

92.9

(verdaderos

positivos)

Aquellos con niveles arriba de 110 mg/100 ml son clasificados como diabéticos

No diabéticos

(%)

Diabéticos

(%)

Nivel sanguíneo de glucosa

(mg/100 ml)

Sensibilidad y especificidad del nivel de glucosa en sangre de 110 mg/100 ml para determinación del status diabético

Page 62: … de la semana pasada. El comando ‘histogram’ en STATA.

¿Qué debe preferirse: alta sensibilidad o alta especificidad?

• Si se tiene una enfermedad fatal sin tratamiento (como casos tempranos de SIDA), prefiera alta especificidad

• Si está monitoreando para la prevención de la transmisión de una enfermedad transmisible (como el monitoreo de VIH en donadores de sangre), prefiera sensibilidad

Page 63: … de la semana pasada. El comando ‘histogram’ en STATA.

Recuerde….

• Sensibilidad y especificidad son funciones de la prueba de monitoreo

• Si usas una prueba de monitoreo en una población de baja prevalencia, tendrás un valor predictivo positivo bajo y potencialmente muchos falsos positivos

Page 64: … de la semana pasada. El comando ‘histogram’ en STATA.

Trasladado a la vida real…..

Otros 68,950 están asustados creyendo que tienen la enfermedad y requieren más pruebas

Pero, 10,500 personas que son VIH+ creen que no tienen la enfermedad

Eficiencia de la prueba = (P+ + P-)/Total probados = 98.9%

7 millones6,895,000105,000Total

6,836,5506,826,05010,500Prueba -

163,45068,95094,500Prueba +

TotalNo enfermedadSi enfermedad

99.8%58%1.5%NJ (7 million)

Valor predictivo-Valor predictivo+Prevalencia de VIHPoblación

Elisa tiene casi 90% de sensibilidad y 99% de especificidad

Page 65: … de la semana pasada. El comando ‘histogram’ en STATA.

Teorema de Bayes

Page 66: … de la semana pasada. El comando ‘histogram’ en STATA.
Page 67: … de la semana pasada. El comando ‘histogram’ en STATA.

La falacia del interrogador

El problema de la confesión

Sea A el suceso “el acusado es culpable”

Sea C el suceso “el acusado ha confesado”

Consideremos P(A) como la probabilidad de culpabilidad del acusado, antes de “las nuevas pruebas” de su autoconfesión

P(C / A) : probabilidad de que ha confesado el delito dado que es realmente culpable.

EntoncesP(A/C) =

P(C / A) P(A)

P(C / A) P(A) + P(C/A ) P(A )c c

P(C / A ): probabilidad de que ha confesado el delito dado que no es culpable

c

Page 68: … de la semana pasada. El comando ‘histogram’ en STATA.

Relación entre la sensibilidad, valor predictivo positivo y prevalencia de

la enfermedad

Page 69: … de la semana pasada. El comando ‘histogram’ en STATA.
Page 70: … de la semana pasada. El comando ‘histogram’ en STATA.

Estimación puntual e intervalos de confianza

Page 71: … de la semana pasada. El comando ‘histogram’ en STATA.

Estimación:

Puntual: determina que posible valor del parámetro de la población es mas consistente con los datos observados en la muestra. Ejemplo: ell cálculo de una tasa de incidencia, un RR o un promedio

Por intervalo: cuantifica la incertidumbre o variabilidad que tiene una estimación. Ejemplo: el cálculo de un intervalo de confianza

Page 72: … de la semana pasada. El comando ‘histogram’ en STATA.

Estimación puntual e intervalos de confianza

• Los parámetros de una población tienen un valor fijo, (es un número exacto)

• Usualmente estos parámetros no se conocen, por que es complicado medir a ‘toda la población’

• Ante esto, los parámetros se ‘estiman’ a partir de una ‘muestra’ de la población.

• La estimación puede ser ‘puntual’ o en un ‘intervalo de confianza’

Page 73: … de la semana pasada. El comando ‘histogram’ en STATA.

Intervalo de confianza:

• Intervalo construido bajo condiciones tales que con una cierta probabilidad (usualmente 95%) contenga al parámetro deseado

• Intervalo calculado de acuerdo a principios tales que 95 de cada 100 intervalos similarmente construidos contendrán el valor del parámetro

• Uno puede tener 95% de confianza en afirmar que ese intervalo contiene el valor real del parámetro

Page 74: … de la semana pasada. El comando ‘histogram’ en STATA.

Verdadero valor del parámetro

Intervalosde confianza de varias muestras (solo teórico)

Rango de valores valores del parámetro

Intervalo calculado

con LA UNICA muestra obtenida

Conceptualmente:

Page 75: … de la semana pasada. El comando ‘histogram’ en STATA.

Es mejor estimar el intervalo de confianza de un parámetro antes que

su estimación puntual…

• El intervalo de confianza es una ‘variable aleatoria’

• El 95% Intervalo de Confianza, es un intervalo que tiene un 95% de probabilidad de cubrir el verdadero valor del parámetro estimado

Page 76: … de la semana pasada. El comando ‘histogram’ en STATA.

El Teorema del Límite Central da validez a los intervalos de confianza

• La media de una muestra “grande” de datos de cualquier tipo sigue una distribución normal

• Esto aún se cumple para datos binomiales (sexo, prevalencia, sensibilidad, etc)

• Qué es una muestra grande? Eso varía según cada tipo de dato (entre otras cosas)

• A medida que el tamaño de muestra crece, la distribución de la media muestral se hace más normal

Page 77: … de la semana pasada. El comando ‘histogram’ en STATA.

0.2

.4.6

Fra

ctio

n

0 .25 .5 .75 1(mean) dichotomous

0.2

.4.6

Fra

ctio

n

0 .25 .5 .75 1(mean) dichotomous

0.2

.4.6

Fra

ctio

n

0 .25 .5 .75 1(mean) dichotomous

0.2

.4.6

Fra

ctio

n

0 .25 .5 .75 1(mean) dichotomous

0.2

.4.6

Fra

ctio

n

0 .25 .5 .75 1(mean) dichotomous

0.2

.4.6

Fra

ctio

n

0 .25 .5 .75 1(mean) dichotomous

n=2

n=5

n=30

n=3

n=15

n=60

Page 78: … de la semana pasada. El comando ‘histogram’ en STATA.

Efectos del ‘muestreo’ en la estimación de un parámetro

Page 79: … de la semana pasada. El comando ‘histogram’ en STATA.

En resumen:

• Un intervalo de confianza tiene una cierta probabilidad (usualmente 95%) de contener al parámetro deseado

• El TLC da validez a esta afirmación en muestras grandes para todo tipo de datos

• En datos binomiales, el IC tiene una probabilidad de 95% de incluir a la prevalencia o proporción de interés

Page 80: … de la semana pasada. El comando ‘histogram’ en STATA.

Comandos en STATA para los Intervalos de Confianza: ci

Page 81: … de la semana pasada. El comando ‘histogram’ en STATA.

Intervalos de confianza de variables normales

Std.Err. = Std.Dev / sqrt(N)

Page 82: … de la semana pasada. El comando ‘histogram’ en STATA.

Ci varlist, level( )

Page 83: … de la semana pasada. El comando ‘histogram’ en STATA.

Intervalos de confianza de proporciones

Page 84: … de la semana pasada. El comando ‘histogram’ en STATA.

Usando los menues de STATA 8