Mónica López Ratón BIOSTATECH, Advice, Training ...

43
Mónica López Ratón – BIOSTATECH, Advice, Training & Innovation in Biostatistics, S.L. Octubre 2012 [email protected]

Transcript of Mónica López Ratón BIOSTATECH, Advice, Training ...

Page 1: Mónica López Ratón BIOSTATECH, Advice, Training ...

Mónica López Ratón – BIOSTATECH, Advice, Training & Innovation in Biostatistics, S.L. Octubre 2012 [email protected]

Page 2: Mónica López Ratón BIOSTATECH, Advice, Training ...

Tablas de contingencia y tests asociados

Page 3: Mónica López Ratón BIOSTATECH, Advice, Training ...

3

Índice

1. Datos categóricos

2. Tablas de contingencia

3. Algunos tests estadísticos asociados

– Tests de independencia y homogeneidad

– Tests para muestras relacionadas

4. Software

5. Bibliografía

Page 4: Mónica López Ratón BIOSTATECH, Advice, Training ...

4

1. Datos categóricos

Page 5: Mónica López Ratón BIOSTATECH, Advice, Training ...

5

1. Datos categóricos

¿Cuándo hablamos de datos categóricos?

• En general …

– Variables nominales (no hay un orden en las categorías). Por ejemplo, el sexo .

– Variables ordinales (hay un orden en las categorías). Por ejemplo, el estatus socioeconómico.

– Variables de intervalo discretas con pocos valores.

– Variables de intervalo continuas en las que los valores están agrupados en un nº pequeño de categorías/ intervalos.

Page 6: Mónica López Ratón BIOSTATECH, Advice, Training ...

6

2. Tablas de contingencia

Page 7: Mónica López Ratón BIOSTATECH, Advice, Training ...

7

1. Tablas de contingencia

• Múltiples estudios, en particular en el campo biomédico, clasifican a los individuos en base a dos o más factores (datos categóricos).

• Dicha información puede resumirse en una tabla de contingencia (Pearson, 1904): en cada celda la frecuencia de cada combinación de las variables analizadas.

• Nos centraremos en el caso más simple: tablas de contingencia bidimensionales (dos factores o variables).

Page 8: Mónica López Ratón BIOSTATECH, Advice, Training ...

8

Tablas de contingencia bidimensionales

B1 … Bj … BJ Margin.

A1 n11 … n1j --- n1J n1.

… … … … … … …

Ai ni1 … nij --- niJ ni.

… … … … … … …

AI nI1 --- nIj nIJ nI.

Margin. n.1 n.j n.J n..

Número de individuos

con Ai y Bj

Marginales fila

J

j

iji nn1

.

Marginales columna

I

i

ijj nn1

.

I

I

J

j

ij nnn1 1

..

Page 9: Mónica López Ratón BIOSTATECH, Advice, Training ...

9

3. Algunos tests estadísticos asociados

Page 10: Mónica López Ratón BIOSTATECH, Advice, Training ...

10

Contrastes de independencia y homogeneidad

• En general, la cuestión más importante que se plantea ante una tabla de contingencia es si las variables son independientes o no (están asociadas).

Con

• Diversos tests estadísticos que dan respuesta a esta cuestión:

ji,pppH jiij ,: ..0 (Modelo de independencia o no asociación)

Tests de independencia/asociación

nnp ijij /

Page 11: Mónica López Ratón BIOSTATECH, Advice, Training ...

11

Contrastes de independencia y homogeneidad

Test Ji-cuadrado de Pearson

• Hipótesis nula: No discrepancias entre las frecuencias observadas en la tabla y las frecuencias esperadas.

2

)1)(1(

1 1

2

2 ~

JI

I

i

J

j ij

ijij

e

en

n

nne

ji

ij

..

< 20% de las celdas con frecuencia esperada < 5 y ninguna celda con frecuencia esperada < 1.

Validez de la prueba:

Frecuencias

esperadas

Page 12: Mónica López Ratón BIOSTATECH, Advice, Training ...

12

Contrastes de independencia y homogeneidad

Test Ji-cuadrado de Pearson con corrección de Yates

• Para tablas 2x2, existe una versión del test Ji-cuadrado que para mejorar la aproximación, incorpora la llamada corrección de Yates.

YATES = “CORRECCIÓN DE CONTINUIDAD”: Una distribución continua está siendo utilizada para representar una distribución discreta.

2

)1)(1(

1 1

2

2 ~ 5.0

JI

I

i

J

j ij

ijij

e

en

Page 13: Mónica López Ratón BIOSTATECH, Advice, Training ...

13

Contrastes de independencia y homogeneidad

Test de razón de verosimilitudes

• Alternativa al test Ji-cuadrado, basada en la teoría de la máxima verosimilitud.

• Compara la probabilidad de los datos observados con la probabilidad de los datos esperados bajo la hipótesis de independencia.

• Validez de la prueba:

Puede no ser apropiado si el tamaño muestral es pequeño, dado que la distribución del estadístico es aproximada.

2

1

2 ~ln2 n

ij

ij

ijn

enG

Page 14: Mónica López Ratón BIOSTATECH, Advice, Training ...

14

Contrastes de independencia y homogeneidad

• ¿Y si NO se cumplen las hipótesis de VALIDEZ del test Ji-cuadrado?

Test exacto de Fisher

• Para tablas 2x2, existe la prueba exacta de Fisher que calcula la probabilidad exacta de obtener los resultados observados si las dos variables son independientes y los totales marginales son fijos.

TESTS

EXACTOS

!!!!!

!!!!

22211211

2..21..1

1.

21

.2

11

.1

nnnnn

nnnn

n

n

n

n

n

n

p

Page 15: Mónica López Ratón BIOSTATECH, Advice, Training ...

15

Aplicación a datos reales

Asociación exposición-enfermedad

• Estudio transversal: 400 mujeres con edades entre 50-

54 años.

• ¿Existe ASOCIACIÓN entre osteoporosis

y antecedentes de dieta pobre en calcio?

Page 16: Mónica López Ratón BIOSTATECH, Advice, Training ...

16

Aplicación a datos reales

• Respuesta a la pregunta:

• Prueba de asociación: Ji-cuadrado de Pearson

Prevalencia de osteoporosis

en expuestos

Prevalencia de osteoporosis

en no expuestos

120

581 p

280

222 p

48,3%

7,9%

Page 17: Mónica López Ratón BIOSTATECH, Advice, Training ...

17

Aplicación a datos reales

• Contraste:

• Si H0 es cierta, la proporción de mujeres con

osteoporosis NO depende de los antecedentes de dieta

pobre en calcio y su estimación sería:

80/400 = 0,2 = 20%

Page 18: Mónica López Ratón BIOSTATECH, Advice, Training ...

18

Aplicación a datos reales

• Las frecuencias esperadas si H0 es cierta :

24 = 120 x 0,2

96 = 120 - 24

24 96

56 224

Total

Expuestos

No Expuestos

Total 80 320

120

280

400

56 = 280 x 0,2

224 = 280 - 56

Osteoporosis

Sí No

Page 19: Mónica López Ratón BIOSTATECH, Advice, Training ...

19

Aplicación a datos reales

= 86,01

p < 0,001

2

El valor p de la prueba es la probabilidad

de que esa discrepancia se deba sólo

al azar.

mide la “discrepancia” entre los

datos observados y los datos esperados.

2

p es pequeño (p < 0.05)

Hay evidencia de que la discrepancia

no se debe sólo al azar.

Hay ASOCIACIÓN entre

osteoporosis y dieta

pobre en calcio

Page 20: Mónica López Ratón BIOSTATECH, Advice, Training ...

20

Aplicación a datos reales

• Validez de la prueba:

– Celdas con frecuencia esperada <5: 0 (0%)

– Celdas con frecuencia esperada <1: 0

Otras pruebas ALTERNATIVAS:

Test Ji-cuadrado con corrección

por continuidad de Yates

Test exacto de Fisher

Test de Razón de verosimilitudes

= 83,50

p = 0,000< 0,001

p = 0,000< 0,001

G2 = 79,95

p = 0,000< 0,001

2

c

Page 21: Mónica López Ratón BIOSTATECH, Advice, Training ...

21

Contrastes de independencia y homogeneidad

• Variación del contraste de independencia: Cuando los totales fila son fijados por el diseño muestral:

con

• Los tests estadísticos de HOMOGENEIDAD son los mismos que los tests de INDEPENDENCIA.

Contrastes de homogeneidad

ji,pneH jiij ,: ..0

nnne jiij /..(Modelo de homogeneidad)

Page 22: Mónica López Ratón BIOSTATECH, Advice, Training ...

22

Contrastes para muestras relacionadas

• Estas pruebas comparan las distribuciones de dos variables relacionadas (no independientes).

• Se suelen utilizar en una situación de medidas repetidas para detectar cambios en las respuestas causados por la intervención experimental en los diseños del tipo antes-después.

Contrastes para muestras relacionadas

Page 23: Mónica López Ratón BIOSTATECH, Advice, Training ...

23

Contrastes para muestras relacionadas

Test de McNemar (2 proporciones relacionadas)

• Principalmente dos situaciones:

1. En los mismos sujetos:

2. Una sola medida a pares de sujetos igualados en algún criterio de interés

Medición variable A

(dicotómica)

Medición variable A

(dicotómica)

t (unidades de tiempo) después/ Aplicación tratamiento Antes Después

Estudios de casos y controles

EMPAREJADOS

Page 24: Mónica López Ratón BIOSTATECH, Advice, Training ...

24

Contrastes para muestras relacionadas

A ausente A presente

A presente

a b

A ausente

c d

Antes

Después

2

1

2

2 ~ da

daMcNemar

Con corrección por continuidad:

2

1

2

2 ~1||

da

daMcNemar

(bajo H0)

Page 25: Mónica López Ratón BIOSTATECH, Advice, Training ...

25

Aplicación a datos reales

• Objetivo: Estudiar el efecto del síntoma de despersonalización en el pronóstico de pacientes depresivos.

• Se seleccionaron 23 pacientes con depresión endógena diagnosticados como despersonalizados.

• Se aparearon con otros 23 no despersonalizados (de forma que coincidan en sexo, edad, …).

Page 26: Mónica López Ratón BIOSTATECH, Advice, Training ...

26

Aplicación a datos reales

• Se acepta la hipótesis nula H0

84.328.1

25

25 2

1,05.0

2

2

McNemar

NO HAY EVIDENCIA de que el síntoma influya en el pronóstico.

Despersonalizados

No

recuperados

Recuperados

No desper- Recuperados 5 14

sonalizados No

recuperados 2 2

Page 27: Mónica López Ratón BIOSTATECH, Advice, Training ...

27

Contrastes para muestras relacionadas

Test de Cochran y Mantel-Haenszel (combinación de tablas 2 x 2)

• Contrastan la hipótesis de independencia condicional: independencia entre factor y respuesta cuando se introduce una tercera variable control.

• Estrategia: ESTRATIFICAR por esa variable control.

2

13

2.1..2.1

2

2

2

2 ~/

k

kkkk

k

k

k

k

k

n

k

k

k

k

Cochrannnnnn

enen

k

2

12

2

2 ~)1(

5.0

nn

enk

k

k

k

MH

Frecuencias observadas

en el estrato k

Test de Cochran

Test de Mantel-Haenszel

Frecuencias esperadas

en el estrato k

Page 28: Mónica López Ratón BIOSTATECH, Advice, Training ...

28

Aplicación a datos reales: Estudio de casos y controles

• Asociación positiva entre consumo de café y cáncer de páncreas

Al considerar un tercer factor: el tabaco NO relación entre café y cáncer de páncreas.

= 0,000

p = 1,000

2

McNemarNO ASOCIACIÓN entre

consumo de café y cáncer de

páncreas una vez controlado

el efecto del tabaco

FACTOR DE

CONFUSIÓN

Page 29: Mónica López Ratón BIOSTATECH, Advice, Training ...

29

4. Software

Page 30: Mónica López Ratón BIOSTATECH, Advice, Training ...

30

4. Software

• 1. EN SPSS:

Analizar / Estadísticos descriptivos / Tablas de contingencia

Contrastes de independencia/asociación

Page 31: Mónica López Ratón BIOSTATECH, Advice, Training ...

31

4. Software

Page 32: Mónica López Ratón BIOSTATECH, Advice, Training ...

32

4. Software

Analizar / Pruebas no paramétricas / 2 muestras relacionadas

Contrastes para muestras relacionadas

Page 33: Mónica López Ratón BIOSTATECH, Advice, Training ...

33

4. Software

Si se controla por una tercera variable (ESTRATIFICACIÓN)

Analizar / Estadísticos descriptivos / Tablas de contingencia

Si se controla por una tercera variable (ESTRATIFICACIÓN)

En Capa metemos la

variable control

Page 34: Mónica López Ratón BIOSTATECH, Advice, Training ...

34

4. Software

• 2. EN EPIDAT:

Métodos / Tablas de contingencia

Page 35: Mónica López Ratón BIOSTATECH, Advice, Training ...

35

4. Software

Test Ji-cuadrado de asociación, con y sin corrección Test exacto de Fisher Para datos emparejados: Prueba de McNemar

Test de homogeneidad (entre los diferentes estratos) Test de asociación de Mantel-Haenszel

Test de homogeneidad (entre los diferentes estratos) Test de tendencia lineal

Test de tendencia lineal

Test Ji-cuadrado de Pearson Test de razón de verosimilitudes Test Ji-cuadrado con corrección de Yates (tablas 2x2) Test exacto de Fisher (tablas 2x2)

Page 36: Mónica López Ratón BIOSTATECH, Advice, Training ...

36

4. Software

Por ejemplo en Tablas 2 x 2

Estratificadas

Page 37: Mónica López Ratón BIOSTATECH, Advice, Training ...

37

4. Software

• 3. EN R:

Contrastes de independencia/asociación

Test Ji-cuadrado con

corrección de Yates

Test Ji-cuadrado

sin corrección

Tabla 2 x 2

Page 38: Mónica López Ratón BIOSTATECH, Advice, Training ...

38

4. Software

Test de Fisher

Page 39: Mónica López Ratón BIOSTATECH, Advice, Training ...

39

4. Software

Contrastes para muestras relacionadas

Test de McNemar

Page 40: Mónica López Ratón BIOSTATECH, Advice, Training ...

40

4. Software

Test de Mantel-Haenszel

Page 41: Mónica López Ratón BIOSTATECH, Advice, Training ...

41

4. Software

Otra opción: mediante el R Commander (sin necesidad de programación)

Page 42: Mónica López Ratón BIOSTATECH, Advice, Training ...

42

5. Referencias/Bibliografía

Page 43: Mónica López Ratón BIOSTATECH, Advice, Training ...

43

• Everitt BS. The analysis of contingency tables. London: Chapman and Hall, 1977.

• Haberman SJ. Analysis of qualitative data. 1: Introductory topics. New York: Academic Press, 1978.

• Haberman SJ. Analysis of qualitative data. 2: New developments. New York: Academic Press, 1979.

• Ato M, López JJ. Análisis estadístico para datos categóricos. Madrid: Síntesis, 1996.

5. Referencias bibliográficas