Análisis de datos El diseño estadístico. n Las variables se pueden clasificar según su escala....

Análisis de datos

El diseño estadístico

Las variables se pueden clasificar según su escala.– Cualitativas (nominales, ordinales).– Cuantitativas (discretas, continuas).

Variables

Variables cualitativas: clasifican a los individuos de acuerdo a ciertas características que les son comunes.– Variable nominal: aquella cuya característica se

define por un nombre, y al ser definida por uno no implica ser más o menos que la característica definida por otro nombre diferente.

– Variables ordinales: aquellas cuyas características pueden recibir algún orden subjetivo. Se puede asumir que una característica es más o menos que las otra, pero se desconoce qué tanto más o menos.

Variables cuantitativas: también permiten diferenciar entre los individuos pero, además, nos señalan cuán grandes son las diferencias observadas.– Variables discretas: aquellas cuyos valores

están separados entre sí por una cantidad determinada, y la unidad no puede ser fraccionada.

– Variables continuas: aquellas en que la escala de medición se puede dividir en una cantidad infinita de valores entre dos puntos cualquiera.

Variables en estudio

Una variable Dos variables Tres o más variables

Cualitativa

Cuantitativa

P

, mediana, rango

Cualitativa/Cualitativa

Cualitativa/Cuantitativa

Cuantitativa/Cuantitativa

P-P, PP

-

, ,

Análisis Multivariado(Regresión Múltiple, Regresión Logística, Regresión de Cox)

Series de enfermos

Series de expuestos. Son aquellos donde sólo se describen

sujetos enfermos, o sujetos expuestos.

Una variable cualitativa

Sevilla y Col. Rev Med IMSS 2004;42:137-143.

Una variable cualitativa

Proporciones.P = a (a+b)

donde P representa la proporción, a el número de elementos con la característica de interés y b el número de elementos sin la característica de interés. Hay que notar que a + b es el total del universo (N).

Se acostumbra multiplicarlas por 100 para expresarlas como porcentaje, y se especifican mediante el símbolo "%".

Una variable cuantitativa

Zhou y Col. BMC Public Health 2010;10:190.


Media

donde xi indica que hay que sumar todas las equis (x) disponibles desde x1 hasta xN.

N

i1 2 N i=1

xx +x +…+x

μ= =N N


Varianza y desviación estándar– La varianza poblacional se obtiene mediante la

fórmula

– La varianza se expresa en unidades cuadradas que son difíciles de interpretar.

– La desviación típica o desviación estándar que es igual a la raíz cuadrada de la varianza.

22

22 1

( )N

iiii

xx x NN N

Estudio transversal o de encuestas: diseño básico.

Población de interés

Muestra

Enfermos Sanos

Expuestos

No Expuestos

Ensayo clínico: diseño básico

Estudio de cohorte: diseño

Una variable cuantitativa y una variable cualitativa Diferencia de medias.

Diferencia de medias= µa – µb

donde µ representa la media, a y b identifican los grupos que se comparan.


Zhou y Col. BMC Public Health 2010;10:190.

Mean difference 2.3 -1.4 1.2

Dos variables cualitativas

Diferencia de proporciones.Riesgo Atribuible = Pa - Pb

Razón de proporciones.Riesgo Relativo= Pa Pb

donde P representa la proporción, a y b identifican los grupos que se comparan.

Tabla 2x2

Enfermos

Si No Total

Expuestos a b a+b

No expuestos c d c+d

a+c b+d a+b+c+d

Riesgo Relativo

Se define como la razón de la incidencia de enfermedad en el grupo expuesto (expresada como Ie) dividida entre la incidencia correspondiente en el grupo no expuesto (I0). Su fórmula es

0

/( )/( )

eIa a bRR

c c d I

Riesgo Relativo con incidencia acumulada: ejemplo Enfermos

Si No Total

Expuestos 20 80 100

No expuestos 20 200 220

20 /(20 80) 0.202.2

20 /(20 200) 0.09RR

Riesgo Relativo con incidencia acumulada: ejemplo.

Wikeysundera y Col. BMJ 2010;340:b5526.

Riesgo Relativo con densidad de incidencia: ejemplo Enfermos

Si No Total tiempo persona

Expuestos 20 500

No expuestos 20 1000

20 /500 0.042.0

20 /1000 0.02RR

Riesgo Relativo con densidad de incidencia: ejemplo.

Riesgo relativo

El riesgo relativo (RR) estima la magnitud de una asociación entre exposición y enfermedad e indica la probabilidad del grupo expuesto de desarrollar la enfermedad en relación a aquellos que no están expuestos.

Ayuda a responder a la pregunta: ¿La exposición causa la enfermedad?

Odds Ratio

En estudios de casos y controles no es posible estimar la incidencia, por lo que no es posible calcular el RR. Pero si se puede calcular el Odds Ratio, que es un estimador que se aproxima al RR. Su fórmula es:

adOR

cb

Estudio de casos y controles: diseño básico

Odds Ratio: ejemplo

Enfermos

Si No

Expuestos 20 80

No expuestos 20 200

20(200) 4,0002.5

20(80) 1,600OR

Odds Ratio: ejemplo

Riesgo Atribuible

Se define como la diferencia que resulta de la incidencia de enfermedad en el grupo expuesto (expresada como Ie) menos la incidencia correspondiente en el grupo no expuesto (I0). Su fórmula es

0eRA I I

Riesgo Atribuible con incidencia acumulada: ejemplo Enfermos

Si No Total

Expuestos 20 80 100

No expuestos 20 200 220

0.20 0.09 0.11RA

Riesgo Atribuible con densidad de incidencia: ejemplo Enfermos

Si No Total tiempo persona

Expuestos 20 500

No expuestos 20 1000

0.04 0.02 0.02RA

Riesgo Atribuible

El riesgo atribuible (RA) estima el efecto absoluto de la exposición o el exceso de la enfermedad en los expuestos en comparación con los no expuestos (cuando se infiere que la exposición es la causa de la enfermedad).

Dos variables cuantitativas

Gráfico de correlación. Muestra visualmente la relación que existe entre dos variables cuantitativas.

Correlación: , r. Mide la fuerza de asociación entre dos variables cuantitativas.

Pendiente: β, b. Describe el incremento de la vaiable dependiente por cada cambio de unidad de la variable independiente.

Intercepción: α, a. Describe el valor de la variable dependiente cuando el valor de la variable independiente es igual a 0.

Pendiente e intercepción

Correlación

Dos preguntas

Qué precisión tienen mis resultados: Intervalos de Confianza.

Qué probabilidad tiene el azar de afectar mi interpretación de los resultados: Prueba de hipótesis.

Intervalos de confianza: a pescar con red Estoy buscando el parámetro. Estimo un límite superior y otro inferior. Tengo confianza de que el parámetro se

encuentre entre los dos límites (superior e inferior) que calculo.

Prueba de hipótesis: a probar que no hay diferencia. Comparo dos medidas. Asumo que las poblaciones son iguales (H0). Calculo la probabilidad de que la diferencia

observada se deba al azar. Si la probabilidad (p) del azar es 0.05,

entonces rechazo la H0 y concluyo que la diferencia es “estadísticamente significativa

Variables en estudio

Una variable Dos variables Tres o más variables

Cualitativa

Cuantitativa

IC 95% de P

IC 95% de

Cualitativa/Cualitativa

Cualitativa/Cuantitativa

Cuantitativa/Cuantitativa

IC 95% de P-P, PPPrueba de Chi-cuadrada

IC 95% de -Prueba t de Student, ANOVA

IC 95% de t de Student, Prueba de F

Análisis Multivariado(Regresión Múltiple, Regresión Logística, Regresión de Cox)

Objetivos del análisis multivariado. Predecir el valor que la variable

dependiente tendrá mediante el uso de una serie de variables independientes.

Cuantificar la relación de una o más variables independientes con la variable dependiente. – Interacción.– Confusión.

Análisis multivariado utilizado en investigación clínica-epidemiológica Variable dependiente cuantitativa.

– Regresión múltiple. Variable dependiente cualitativa

dicotómica.– Análisis estratificado de Mantel-Hansel.– Regresión Logística.– Regresión de Cox.

Desventajas del análisis multivariado. Ecuaciones muy complejas. Una gran “caja negra” durante el proceso

de los datos. Resultados que frecuentemente son

difíciles de interpretar.

Ventajas del análisis multivariado. Identificación de interacciones. Control de factores de confusión. Facilidad durante el análisis de muestras

pareadas. Existen programas de cómputo para los

análisis multivariados más convencionales. (CUIDADO: también es una desventaja).

Interacción, o modificación del efecto. Se refiere al hecho de que la asociación

entre la exposición y el evento final de estudio pudiera variar según sea la presencia y/o magnitud de un tercer factor.

Se considera que hay interacción cuando el parámetro de un evento en presencia de dos o más variables difiere del parámetro esperado de la combinación de sus efectos individuales.

Efecto aditivo a dos exposiciones.

Presencia de la variable B

No Si

Presencia de la variable A

No 30 35

Si 40

Supongamos una variable dependiente cuantitativa (Y) y dos variables independientes dicotómicas (A y B).

El valor basal promedio de Y = 30, A incrementa el promedio en 10 unidades, y B lo hace en 5.

Cuál sería el valor promedio de Y cuando A y B se presentan juntas.

Efecto aditivo a dos exposiciones.


No Si


No 30 35

Si 40 45

Supongamos una variable dependiente cuantitativa (Y) y dos variables independientes dicotómicas (A y B).

El valor basal promedio de Y = 30, A incrementa el promedio en 10 unidades, y B lo hace en 5.

Cuál sería el valor promedio de Y cuando A y B se presentan juntas.

Interacción entre dos exposiciones.


No Si


No 30 35

Si 40 80

Sinergismo

AntagonismoPresencia de la variable B

No Si


No 30 35

Si 40 20

Confusión.

Implica que la asociación observada entre dos variables (independiente, dependiente) sea explicada, totalmente o en parte, mediante una distribución desigual entre los grupos de estudio de otros factores diferentes a la exposición de interés que también influyen en la variable dependiente.

Confusión.

El sesgo que introduce puede sobreestimar, subestimar y aún cambiar la dirección en la estimación de la asociación a evaluar.

La confusión debe ser entendida como una mezcla del efecto de la variable independiente en estudio con otra variable independiente (factor de confusión) que influye en la variable dependiente.

Confusión. Condiciones necesarias para que un factor

sea considerado de confusión:– El factor debe de estar asociado con la variable

dependiente, aún en ausencia de la variable independiente en estudio.

– El factor debe estar asociado con la variable independiente en la población base.

– El potencial factor no debe ser un eslabón intermedio de la cadena causal entre la variable independiente de interés y la variable dependiente.

Confusión.

No hay confusión cuando.

Análisis de datos El diseño estadístico. n Las variables se pueden clasificar según su escala....

Documents

Transcript of Análisis de datos El diseño estadístico. n Las variables se pueden clasificar según su escala....