Download - Grupos de enfermedades espaciales la detección y la inferencia

1

Herramientas Tecnológicas_VIRTUAL EDUCA

Referencia documental

Spatial disease clusters: detection and inference, recuperado el 24 de abril de 2015 de:

http://www.satscan.org/papers/k-sm1995.pdf

Traducción realizada por Lourdes Karen Torres Torres para Herramientas

Tecnológicas. VIRTUAL EDUCA

Grupos de enfermedades espaciales: la detección y la inferencia

RESUMEN

Les presentamos un nuevo método de detección and inference for spatial clusters of a disease.

Para evitar procedimientos ad hoc para la prueba de la agrupación, tenemos una hipótesis

alternativa claramente definida y nuestras pruebas estadísticas se basan en la razón de

verosimilitud.

La prueba propuesta puede detectar grupos de cualquier tamaño, que se encuentra en

cualquier lugar de la región de estudio. No se limita a los grupos que se ajustan a predefinidas

fronteras administrativas o políticas.

La prueba se puede utilizar para datos espacialmente agregados, así como cuando las

coordenadas geográficas exactas son conocidas para cada individuo. Se ilustra el método en

un conjunto de datos que describen la aparición de leucemia en el norte de Nueva York.

INTRODUCCIÓN

Las estadísticas de la agrupación de la enfermedad son de interés del epidemiólogo y se ha

estudiado durante muchas décadas.

Tales estudios son útiles para detectar y monitorizar potenciales peligros para la salud pública.

Una revisión de varios métodos existentes para detectar la agrupación espacial de la

enfermedad aparecen en Marshall y Hills y Alexander. Para desarrollos más recientes ver

Jacquez.

El epidemiólogo está típicamente interesado en grupos de casos de enfermedad sólo después

de haber ajustado las variaciones espaciales en la densidad de la propia población de

referencia.

Por lo tanto, en un mapa que representa los casos como un patrón de punto espacial, un

clúster de enfermedad aparente en un área en particular podría ser engañosa porque puede

explicarse simplemente por una agrupación de la propia población en esa zona.

En este trabajo presentamos un método que detecta la localización de posibles grupos de

enfermedades en una población con densidad espacial no homogénea, y utiliza

simultáneamente métodos de inferencia para la prueba de significancia.

http://www.satscan.org/papers/k-sm1995.pdf

2


Upton y Fingleton han señalado dos principales enfoques que se utilizan para el análisis de

patrones de puntos espaciales en general. Ambos han sido aplicados a la agrupación

enfermedad. Un método utiliza una estadística de prueba basado en la medición de distancias

entre los casos de la enfermedad, mientras que los demás se basan en el estudio de la

variabilidad de los recuentos de casos en ciertos subgrupos de la región de estudio, a menudo

llamados cuadrantes.

El primer enfoque define ampliamente los llamados métodos de distancia, de los cuales

Whittemore et al es un ejemplo. Los métodos que se basan en el último enfoque se llaman

métodos-cuadrantes, un ejemplo de lo que aparece en Choynowski.

Para el practicante que tiene la intención de utilizar un método en particular sea basado en el

cuadrante o basado en la distancia, es importante saber exactamente lo que el método puede

detectar, en parte porque el término agrupación tiene varias interpretaciones diferentes.

La mayor parte de la prueba propuesta hasta ahora ha sido probada para el agrupamiento en

general, estos no tienen la capacidad de detectar la ubicación en la agrupación producida en

los datos.

Ejemplos aparecen en Moran. Whittemore et al. Cuzick y Edwards, y Diggle y Chetwynd.

Estos son útiles en aplicaciones donde la ubicación en racimos no es de interés, como por

ejemplo, en una investigación donde puede ser o no una enfermedad infecciosa.

En otras situaciones uno está interesado en la localización de grupos, así como en responder

a las preguntas relativas a su significado. Entonces usaríamos lo que Besag y Newell refieren

como prueba para la detección de grupos.

Dos métodos principalmente descriptivos de este tipo son los de Openshaq et al. Y Besag y

Newell. Ambos métodos gráficamente identifican posibles grupos utilizando una multitud de

círculos superpuestos como cuadrantes. Openshaw et al buscó en los recuentos de casos en

los círculos de tamaño variable e identificó grupos potenciales entre estos mediante la

realización de una significación independiente, debido a que los grupos identificados de esta

manera se correlacionan mediante la realización de una prueba de significación

independiente para cada círculo individualmente. Este método no se presta fácilmente a una

sola prueba unificada de importancia, debido a que los grupos identificados de esta manera

se correlacionan y un procedimiento de Bonferroni para compensar múltiples pruebas sería

bastante conservadora.

La prueba de Besag y Newell utiliza círculos superpuestos para identificar grupos de una

manera ligeramente diferente. Además, se combina con una prueba para la agrupación global

y por lo tanto parece tener una base estadística más aceptable.

Turnbull et al. ha utilizado círculos superpuestos para construir una prueba que no sólo

detecta las agrupaciones sino que también aborda correctamente el problema de múltiples

ensayos, aunque sólo para los círculos con un tamaño de la población pre-determinado. La

prueba que hemos desarrollado en este trabajo se generaliza la prueba de Turnbull et al.

3


Para otro tipo de aplicación usaríamos lo que Besag y Newell llaman una prueba enfocada. Se

puede utilizar este tipo de pruebas cuando la región de estudio contiene algunos riesgos

putativos para la salud, como una planta de carbón, y sospechamos decir, un racimo de cáncer

de pulmón a su alrededor. Ejemplos aparecen en Stone, Schulman, et al., Diggle, y Waller et

al. En la discusión en la Sección 5, mencionamos brevemente cómo adaptar nuestro método

para hacer una prueba enfocada.

En la sección 2, se describen los métodos de Opershaw et al y Turnbull et al, ya que se

relacionan estrechamente con nuestro método. La sección 3 contiene una declaración precisa

de las hipótesis nula y alternativa y una descripción de la prueba de razón de verosimilitud

propuesto para nuestro método. La prueba que proponemos aborda varios problemas

importantes. En particular:

1. Nos dirigimos directamente al problema de la inferencia para los grupos detectados.

2. No restringimos a la búsqueda de grupos de un tamaño predefinido.

3. La prueba se basa en el cociente de probabilidad en lugar de una estadística ad hoc de

prueba.

4. Definimos claramente una hipótesis alternativa para que el usuario de la prueba pueda

decidir si la prueba es adecuada para el tipo particular de problema de detección de grupos

en cuestión.

5. El método nos da una estadística de prueba única que hace que sea innecesario realizar una

prueba separada para cada una de las posibles ubicaciones de grupos o cada posible tamaño

del grupo.

6. El ensayo aplica para datos agregados, así como los datos no agregados.

En la sección 4 se ilustra el método en un conjunto de datos que describe la incidencia de

leucemia entre los residentes del norte de Nueva York. Terminamos con una discusión en la

Sección 5.

2. PRUEBA PARA LA DETECCIÓN DE GRUPOS

Un ejemplo temprano de una prueba basada en cuadrante para la detección de grupos de

enfermedades es la prueba propuesta por Cloynoswki que aplicó a los datos sobre la

distribución de los tumores cerebrales en la provincia de Rzeszow en Polonia. Como

cuadrantes que simplemente toma los 17 condados diferentes dentro de la región de estudio.

Se prueba cada cuadrante individualmente para determinar si el número de casos en que es

significativamente alto, en algún nivel alfa. Prueba cada cuadrantes separado introduce el

problema de múltiples pruebas, pero se puede ajustar esto mediante el uso de un

procedimiento de tipo Bonferroni que no sería demasiado conservador. Un problema más

grave es nuestra incapacidad para detectar grupos a menos que sus límites coinciden, al

menos a grandes rasgos con las fronteras de los países.

4


Para superar la limitación anterior, Openshaw et al. desarroló un método gráfico llamado la

máquina de análisis geográfico (GAM) que utiliza múltiples círculos superpuestos de tamaño

variable como cuadrantes.

Uno establece una retícula regular de multa de I puntos para cubrir la región de estudio. La

distancia entre puntos de la red adyacentes se toma por ser bastante pequeña. Entonces, uno

genera zonas circulares, centradas en cada punto i de celosía, (i = 1,2, ..., I), y con un radio R

constante que es típicamente de 5 a 10 veces el espaciado reticular. Por lo tanto, existe una

considerable superposición entre círculos adyacentes. Para cada zona circular, con el centro i

y radio R, el método requiere la determinación de un valor crítico .... Esto se toma para ser el

percentil 99-8th de la distribución de la variable aleatoria. C ..., el número de casos en la zona

circular bajo la hipótesis de los casos que se distribuyen perfectamente al azar entre la

población. Se consideran círculos donde El número de caso observado ... excede el valor crítico

... para tener una significativamente alta incidencia de la enfermedad y luego se dibujan estos

círculos significativos en el mapa. El procedimiento se repite en tres de los cuatro valores

diferentes de R.

La técnica utilizada es por lo tanto idéntica a la de Choynoswski excepto que los cuadrados se

superponen y son mucho más numerosas. En conjunto datos similares a los que consideramos

en este trabajo, no es descabellado tener 100.000 o más círculos. Entonces, a pesar de que ya

no tenemos que restringir la búsqueda a las agrupaciones que pasan a coincidir con algunos

límites administrativos, como en el método Choynowski`s, ahora cualquier tipo de

procedimiento para ajustar múltiples pruebas es inútil debido al gran número de pruebas

dependientes realizadas. Este método proporciona una descripción muy útil del conjunto de

datos con los que se pueden identificar varios grupos posibles.

Basado en Openshaw et al. Turnbull et al, han desarrollado una prueba llamada la

permutación del procedimiento de evaluación de grupos (CEPP), que identifica directamente

la agrupación responsable de causar el rechazo de la hipótesis nula. Los cuadrantes utilizados

en este método son una vez más zonas circulares superpuestas. El centro de los círculos en los

centroides geográficos de las células K en la que uno ha agregado los datos.

Cada círculo, sin embargo, está construido de manera que tenga el mismo tamaño de la

población P, en lugar del mismo radio. Aquí, es útil pensar en P como el radio de la población

de las zonas. Bajo la hipótesis nula de que los casos se distribuyen al azar entre los individuos

de la población, las variables aleatorias C, K = 1,2, ... K, que representan el caso que toman en

cuenta las diversas zonas circulares tienen distribuciones de probabilidad idénticos, pero no

son independientes. CEPP recoge la zona con la tasa más elevada de incidencia, o

equivalentemente, la zona con el mayor número de casos M = max (Ck = 1,2, ... K) y luego se

pone a prueba la significación mediante el uso de la simulación de Monte Carlo para tomar

muestras de la distribución nula de M. Así CEPP utiliza el M estadística para probar contra una

sola hipótesis alternativa compuesta mientras que GAM usaría cada uno. C por separado para

múltiples pruebas de hipótesis. Sin embargo, una vez que P es fija, la hipótesis alternativa es

que hay un grupo entre esas zonas circulares de P personas que el método genera. Dado que

no hay elección universal de P para todos los conjuntos de datos, Turnsbull y otros, sugieren

que se debe llevar a cabo su procedimiento en diferentes valores representativos de P. Esta

5


re-presenta múltiples pruebas de hipótesis, y, ya que la prueba está altamente correlacionada

un ajuste de Bonferroni tipo es muy conservador a menos que el número de diferentes valores

utilizados para P sea muy pequeño.

Las observaciones anteriores ilustran el papel crucial desempeñado por la elección de las

zonas en la definición de la hipótesis alternativa, que aparece muy a menudo imprecisa como

simplemente lo contrario de aleatoriedad espacial completa. Además, los métodos descritos

anteriormente están limitados por las dificultades asociadas con múltiples pruebas. Estos son

la falta de una prueba estadística única más la incapacidad consiguiente para evaluar

cuantitativamente la importancia global de los resultados.

En la siguiente sección, le damos una definición precisa de nuestro modelo que utiliza una

hipótesis alternativa compuesta en una sola prueba de hipótesis. El modelo se basa en las

ideas contenidas en Openshaw et al. y Turnbull et al. A continuación, presentamos una prueba

basada en la razón de verosimilitud.

3. UNA PRUEBA DE RAZÓN DE VEROSIMILITUD

Considerando la región de estudio se dividió en sub-divisiones geográficas denominadas

células. Para cada celula, tenemos las coordenadas de su centroide geográfica o de la

población, el número de personas y el número de casos de la enfermedad. Los centroides de

células forman lo que se refiere a Cressie como una retícula irregular.

Si los datos no se agregan a todos, entonces cada célula contiene precisamente una individual.

Hacemos hincapié en que no requerimos ninguna suposición sobre la población en riesgo y

sea C el número total de casos. A lo largo del análisis condicionamos sobre el número total de

casos en el conjunto de datos y por lo tanto tratamos C como conocer constante.

Podemos clasificar en términos generales el método de este documento como un método

cuadrante. Al igual que en dos de los métodos descritos en la sección 2, generamos una serie

de zonas circulares que utilizamos como cuadrantes. Para construir los círculos, tenemos otro

entramado de centros círculo I, esta celosía podría ser regular como en Openshaw et al. o

idéntica a la red celular regular como en Turnbull et al. A diferencia de los métodos anteriores,

para cada punto de centro dejamos que el radio de los círculos varía continuamente desde

cero hacia arriba. Cada uno de los infinitos círculos así construido definen una zona.

La zona definida por un círculo formado por todos los individuos de esas células cuyos

centroides se encuentran dentro del círculo y cada zona está identificada por estos individuos.

Por lo tanto, aunque el número de círculos es infinito, el número de zonas será finito. Para los

datos agregados de las zonas son perfectamente circulares, es decir, los individuos ubicados

dentro de una zona están ubicados exactamente dentro del círculo que los define.

Con los datos agregados en los distritos censales, por ejemplo, una zona puede tener límites

irregulares que dependen del tamaño y forma de los varios distritos censales contiguos que

incluye. Las personas fuera del círculo que las define, sino que se sitúan dentro de las células

cuyos centroides se encuentran dentro del círculo, se incluyen en la zona. Del mismo modo,

6


las personas que se encuentran dentro del círculo, pero se sitúan dentro de las células cuyos

centroides están fuera del círculo, se excluyen. En cualquier método de cuadrante, la hipótesis

alternativa se define implícitamente por la manera particular en que uno construye las zonas

de cuadrantes. Esto no significa que el método sólo puede manejar la alternativa exacta

definida. Más bien, se da una indicación de los tipos de alternativas para los que la prueba

tiene bien o mal el poder.

Con un radio aumentando, los círculos eventualmente incluyen a toda la región de estudio.

Cuando un círculo es tan grande como para incluir a casi la totalidad de la zona de estudio no

es apropiado hablar de un grupo en esa zona, incluso si la tasa de incidencia es

considerablemente mayor que en el exterior de la misma. En todo caso, podríamos verlo como

tipo de grupo negativo en esas pocas áreas que todavía están fuera del círculo. No deseamos

incorporar estas agrupaciones negativas en la alternativa y por lo tanto necesitamos un límite

superior en el radio de los círculos para ser considerado. Una regla de oro que propugnamos

es del 50 por ciento de la población total. Es importante señalar que la elección debe hacerse

a priori y no por ensayo y error.

Denotemos por Z, el conjunto de todas las zonas circulares generadas en la forma descrita

anteriormente. Deje que el (z, p, q) sea un punto en el espacio de parámetros donde p, q, ...,

z es un vector tridimensional que consiste en la coordenada central y radio de un círculo. Lo

haremos indistintamente usaremos z para denotar al propio vector y a la zona que describe.

En nuestro modelo z no es exactamente una zona circular, de tal manera que para todos los

individuos dentro de la zona, la probabilidad de ser un caso es p, mientras que para todas las

personas fuera de la zona, esta probabilidad es q. La hipótesis alternativa es H ...... La hipótesis

nula es ....... Este último significa completa aleatoriedad espacial con cada individuo quienes

tienen la misma probabilidad de ser un caso.

Sea n, indicar el número de individuos en la zona z, Cz la variable aleatoria que denota el

número de casos en la zona z y c, el valor observado de C, en el conjunto de datos. Para derivar

la prueba de razón verosimilitud que primero expresamos la función de verosimilitud, que es

Desde la zona circular tienen diferentes tamaños de población que no podemos simplemente

tomar de nuestra estadística de prueba como el número máximo de casos entre todas las

zonas. No es significativa, ya sea, para tomar el máximo de las tasas de incidencia entre todos

los círculos desde las varianzas de estas cantidades no son iguales. De hecho, en muchos casos,

este último nos llevaría a elegir la zona con el menor número de individuos de entre aquellas

zonas que tienen al menos un caso. En lugar de ello, utilizamos la probabilidad estadística de

prueba de razón. La razón de verosimilitud es

7


El denominador en la ecuación (2) se reduce a

Lo depende sólo del número total de casos, no en su distribución espacial, y es una constante

desde que hemos condicionado a la C. Podemos encontrar el valor del numerador en dos

pasos. En primer lugar, para una z zona fija, maximizamos sobre toda posible ...... Que ...

Como el grupo más probable, elegimos la zona ..., para los que se maximiza la cantidad

definida por la ecuación (5). Formalmente, elegimos z para que ------------- Esto significa que z

es la estimación de máxima verosimilitud de z. identificar z es un paso necesario para la prueba

de razón de verosimilitud, pero también tiene una finalidad en sí misma si tenemos un interés

en los aspectos descriptivos del problema. Si dejamos que L (z) denota variable aleatoria

obtenida mediante la sustitución de c, con C, en la ecuación (5), a continuación, la

combinación de ecuaciones (3) y (5), podemos escribir la estadística de prueba como

La distribución depende de la distribución de la población no homogénea subyacente, y, en

general, no tiene forma analítica simple. Si la población total es muy pequeña, entonces es

posible encontrar la distribución exacta enumerando cada uno de los resultados posibles, es

decir, todas las posibles cesiones de los casos a los individuos de la población, y luego calcular

el valor de la estadística de prueba para cada resultado. Para grandes conjuntos de fecha, sin

embargo, esto es prácticamente imposible, por lo que utilizamos el método de Monte Carlo

para tomar muestras de la distribución exacta de . Tenga en cuenta que podemos hacer esto

fácilmente ya que hemos condicionado a que el número total de casos de C. La idea de las

pruebas de significación basadas en la distribución de la aleatorización de un estadístico de

prueba se debe a Fisher. El uso del método de Monte Carlo para el muestreo de la distribución

de la asignación al azar para llevar a cabo una prueba de hipótesis fue sugerido por Dwass. Se

aplicó primero a los patrones espaciales de punto por Besag y Diggle.

4. UNA APLICACIÓN

8


El conjunto de datos que se analizaron vienen del norte del estado de Nueva York, que abarca

los condados de Broome, Cayuga, Chenango, Cortland, Madison, Onondaga, Tioga y Tompkins.

Hemos elegido este conjunto de datos, ya que previamente se han analizado en la literatura

por Turnbull et al, utilizando su propio método, así como los de Whittemore et al. y Openshaw

et al, Los mismos datos también han sido analizados por Waller et al. y Waller y Turnbull en el

contexto de prueba enfocado.

Los datos consisten de 592 casos de leucemia como se representa en la Figura 1. Puesto que

no hay información sobre la ubicación exacta de los individuos y de los casos, en lugar de haber

utilizado los centroides de 790 secciones censales y grupos de bloques del censo. Por lo tanto

se trata de datos de la pizca de agregados en 790 células. Los datos sobre los recuentos de

población y centroides celulares se basan en los EE.UU. Censo 1980. La población total de la

zona es 1057673. Su distribución aparece en la Figura 2. Se obtuvieron datos sobre los casos

de leucemia del Registro de Cáncer del Estado de Nueva York y abarcan el período 1978-1982.

Existe cierta incertidumbre en cuanto al número de casos en cada área del censo. Por

alrededor de 10 por ciento de los casos, la ubicación es conocida sólo en dos o tres células

vecinas. Estos casos fueron divididos entre los grupos a los que puedan formar parte en

proporción a la población en cada grupo. Esto tenderá a sesgo de la conclusión de distancia

de la agrupación, pero Tunrbull et al. han señalado que esto hizo poca diferencia a sus

resultados. Para los aspectos puramente ilustrativos de nuestra metodología de esta

incertidumbre es irrelevante, pero debido a la manera en que se resolvió, algunos de los

recuentos de casos tienen valores no enteros.

Para el conjunto de las zonas Z de la que nuestra hipótesis alternativa depende, utilizamos

círculos superpuestos con puntos centrales en los centroides de las secciones censales 790.

Esto sigue Turnbull et al. Los radios de los círculos varían continuamente de cero, en cuyo caso

se incluye sólo una célula, hasta un límite superior, de tal manera que en la mayoría incluimos

20 por ciento de la población total. Esto nos da un número infinitivo de los círculos, pero, ya

que la población se concentra en 790 puntos de la red, tenemos un total de aproximadamente

02X790 = 124, 820 zonas distintas.

Nuestro estudio de Monte Carlo consistía en 999 repeticiones cada una de las cuales implica

la elección de 592 individuos al azar de 1.057.673 personas y el etiquetado de estos como los

casos. Para cada repetición, se calcula el valor de la estadística de prueba que se define en la

ecuación (6). Habíamos pedido la colección de valores de 1000 procedentes de 999 réplicas y

de los propios datos con el valor de rango más alto asignado 1. Esto significa que se obtiene

un significativa resultado en el nivel del 5 por ciento si el valor observado de la información es

uno de los 50 más altos de estos 1.000 valores.

El valor observado de la estadística de prueba para los datos es = 472.976. La más probable

agrupación es la zona = A, se muestra en la Figura 3. El rango del valor observado en el

simulado nulo distribución es 5 de 1000. Por lo tanto, tenemos un resultado significativo (=

0,50) y podemos atribuirlo a la presencia de un grupo en la zona A. Noten que mientras el

número de casos en la zona A es 95,3,

9


el

valor de la estadística de prueba no puede ser nunca inferior a su valor observado de

472.976 incluso si la distribución de los casos fuera de la zona A cambia. Esto significa que el

grupo en la zona A, por sí mismo, asegura el rechazo de H.

Es importante darse cuenta de que, a pesar de que la zona A es el grupo más posible, es

probable que no coincida exactamente con el grupo real. En cualquier aplicación la

probabilidad de que haya muchas zonas casi idénticas al grupo es casi tan alta como L (z) el

valor de L (z). Esto es así porque un cambio en los límites de una zona a fin de incluir sólo unas

pocas más personas, por ejemplo, no afecta en gran medida el valor de L (z). Se debe utilizar

el grupo más probable como una estimación de la posición y el radio de la agrupación de

10


bienes de la misma manera que uno podría utilizar una estimación de máxima verosimilitud

de un parámetro desconocido en un problema de hipótesis paramétricos.

No es de interés para reportar todas las zonas con valores casi iguales de L (z) La Tabla I

enumera el grupo más probable, A, junto con otros cuatro grupos que no se solapan. Para

cada una de las zonas de BD no hay otra zona de solapamiento más probable que sea un

clúster. Como es evidente, no todas estas zonas tienen altos valores de clasificación de L (z).

La segunda zona, B, tiene un rango de 27 del 1000. Si no hubiera habido otro grupo más

probable, entonces habríamos juzgado B significativa (). Sin embargo,

nos haría, entonces nos haría evaluar el valor de L (z) para el segundo grupo donde es más

probable que no se solapen, en el conjunto de datos con referencia a la distribución de los

valores L (z) que provienen de los grupos más posibles, en el Monte Carlo se replican. Es decir,

si utilizamos la prueba para grupos secundarios es más bien conservadora. Quizás Podríamos

hacer nuestra evaluación con referencia a los grupos secundarios en las repeticiones pero ésta

aún sería insatisfactoria, por no tener en cuenta el tamaño del grupo principal en los datos. La

11


cuestión de los grupos secundarios es un problema interesante y merece un tratamiento más

completo.

Turnbull et al, han aplicado varios métodos, incluyendo los suyos, en el mismo conjunto de

datos. La tabla II ofrece un resumen comparativo de sus resultados con los resultados del

método de la razón de verosimilitud. A pesar de la magnitud del problema y el gran número

de réplicas de Monte Carlo utilizadas, nuestra implementación del método de la razón de

verosimilitud requiere sólo 2 horas de tiempo de computación en un PC IBM (PS / 2 Modelo

90, XP486).

5. DISCUSIÓN

En este trabajo hemos dado un marco general para la detección de grupos de enfermedades

espaciales y su evaluación utilizando una prueba de razón de verosimilitud. Fue inspirado por

la introducción de la superposición de zonas circulares como cuadrantes por Openshaw et al

y la solución por Turnbull et al para zonas circulares con un tamaño de la población fija. Hemos

12


hecho hincapié en la relación entre el modo de construcción de las zonas y la hipótesis

alternativa. Aunque hemos descrito y aplicado el método para zonas circulares de tamaño

variable, se puede modificar el método de la razón de verosimilitud de una hipótesis

alternativa que permita zonas de diferentes formas también. La prueba de razón de

verosimilitud tiene en cuenta una densidad de población no homogénea. También se puede

modificar para ajustar las tasas de incidencia específicas por edad. Esto sería necesario si el

riesgo de la enfermedad aumenta con la edad, por ejemplo. Estas modificaciones se describen

en el próximo trabajo. Concluimos con las siguientes observaciones:

1.- Cuando se compara la potencia de la prueba de razón de verosimilitud con la

del método de Turnbull et al., Uno, excepto que (i) el último tiene mayor potencia

si el tamaño real del grupo está cerca

de la población de radio elegido en ese método, y (ii) la prueba de razón de

verosimilitud tiene mayor poder para tamaños de grupos algo menores o

mayores de este radio de población. Un estudio de energía muy simple

presentado en la Tabla III confirma. Situado en una plaza, se seleccionaron al azar

los lugares de 100 células. Asignamos a cada célula a una población de 100 para

hacer un total de 10.000 personas. Colocamos otra plaza con el tamaño

13


poblacional variable; En el centro para constituir el verdadero grupo. Entonces

Asignamos aleatoriamente a 1.000 casos entre la población de tal manera que

los individuos dentro de la verdadero grupo tuvieran un riesgo relativo que era

rr veces más alto que los que están fuera. Hemos establecido el tamaño del

círculo (radio población) en 1000 con el método de Turnbull et al., Y se utilizó un

límite superior de 5000 para nuestra prueba. Para obtener las estimaciones de

potencia, tomamos 49 999 réplicas de la distribución nula y 5000 de cada una de

las alternativas. Tenga en cuenta que ambos métodos funcionan bien a pesar de

que el grupo real no es circular.

2.- Existe una larga tradición en la epidemiología de la enfermedad en los atlas

de publicación, con tasas de incidencia representados con diferentes colores en

un mapa. Si uno siempre complementa una enfermedad atlas con una prueba de

inferencia para la detección de grupos, entonces los funcionarios de salud

pública mejor podrían priorizar las regiones dentro de las cuales llevar a cabo

investigaciones exhaustivas, con minimización del tiempo necesario para

detectar anormalidades genuinos. Una vez que un sistema de este tipo está en

su lugar, se podría quizás tener un procedimiento secuencial para la

monitorización continua.

3.- El propósito de la nueva prueba para la detección de grupos, que hemos

presentado aquí, no se limita a la generación de los estudios etiológicos. En

muchos conjuntos de datos no nos encontramos ninguna agrupación

significativa, pero esto todavía puede ser un hallazgo muy valioso. Como

Rothman y muchos otros han señalado, vastos recursos se gastan en la

investigación de todas las alarmas posibles, a menudo en vano, ya que muchos

de ellos se explican plausiblemente como fluctuaciones aleatorias en las tasas de

incidencia.

No implica que las agrupaciones que resultan no significativas con nuestro

método nunca deban someterse a investigación, pero podría reducir las

controversias que a menudo ocurren con la información sobre las agrupaciones

potenciales. Se podría moverse entonces rápidamente recursos a otras tareas

más importantes.

4.- Queremos expresar una palabra de precaución. La significación observada

que resulta de un grupo particular depende del tamaño de la zona en estudio y

no es significativo para atribuir importancia a un grupo sin hacer referencia a la

región de estudio.

5.- Hemos mencionado en la Sección 3 que los puntos centrales de las zonas

scirculares no tienen por qué coincidir con las ubicaciones de las células. Si

tuviéramos que elegir un único punto central que coincida con la fuente de un

posible peligro para la salud, tales como una planta de carbón o vertedero,

entonces tendríamos una prueba enfocada. En este caso todas las zonas tienen

14


el mismo centro, mientras que el radio podría variar continuamente. Tal prueba

enfocada compara con méritos métodos existentes más investigación.