Tema 5

LecciLeccióón 5. Modelos de distribucin 5. Modelos de distribucióón potencial de especiesn potencial de especies

1. Elaboración de modelos de distribución de especies.a. Planteamiento.

El modelado del nicho ambiental se basa en el principio de que la distribución estimada de una especie debe coincidir con la distribución conocida o deducida a partir de las condiciones ambientales dónde ha sido observada. El procedimiento consiste en usar algoritmos computerizados para generar mapas predictivos sobre la distribución potencial de especies en el espacio geográfico a partir de las distribuciones (conocidas o deducidas) de la especies en el espacio ambiental.

Los modelos de distribución de especies tienen un gran interés aplicado pues permiten evaluar cuantitativamente la posibilidad de que una población de plantas o animales ocupe un determinado lugar. La capacidad de predicción de estos modelos los ha convertido en una herramienta clave en temas relacionados con la gestión ambiental cuyos objetivos son variados:

Diseño de reservas naturales.

Restauración de poblaciones.

Predicción de invasiones biológicas.

Evaluación de impacto del cambio climático sobre la distribución geográfica de las especies.

1. Elaboración de modelos de distribución.b. Fuentes de información.

Su elaboración requiere modelos de abstracción tipo campo que representen la distribución espacial de las variables ambientales (capas) y un conjunto de puntos georeferenciados que indiquen donde está presente la especie.

Datos sobre presencia de las especies

Elaboración de modelos de distribución

Modelos sobre variables

ambientales

1. Elaboración de modelos de distribución.c. Incertidumbre asociada al proceso de modelado.

El grado de certidumbre de que tales modelos reflejan la verdadera distribución de una especie en el espacio geográfico dependerá de varios factores:

La naturaleza, la complejidad y exactitud de los modelos usados.

La calidad de las capas de datos ambientales disponibles

La disponibilidad de datos sobre la distribución de la especie que deben ser suficientes y confiables como datos de entrada del modelo.

También hay que tener en cuenta la influencia de otros factores del nicho como barreras para la dispersión, la historia geológica o la competición entre especie, que pueden impedir la ocupación actual de los nichos potenciales identificados por el modelo.


Evaluación de los

modelos

-

Curva ROC

Test Jackknife

Datos sobre presencia de las especies


Modelos sobre variables

ambientales

Distribución potencial de

especies

Cambio climático

Gestión y planificación

ambiental

Evaluación de los

modelos

-

1. Elaboración de modelos de distribución.b. Estrategia general de análisis.

2. Tipos de algoritmos empleados en el proceso de modelización.

Existen diferentes tipos de modelos en función de sus planteamientos teóricos y el tipo de datos que utilizan:

A project within theEuropean Commission5th EuratomFramework ProgrammeContract FIKW-CT-2000-00024s

Modelos basados en la envoltura ambiental de las especies Biodiversity and Conservation 2, 667-680 (1993)

DOMAIN: a flexible modelling procedure for mapping potential distributions of plants and

animals

G. CARPENTER, A.N. GILLISON, J. WINTER

Modelos basados en la métrica de Gower

Modelos basados en técnicas de regresión Modelos basados en la Entropía máxima (MAXENT)

DATOS DE PRESENCIA DATOS DE PRESENCIA

DATOS DE PRESENCIA Y PSEUDO-AUSENCIADATOS DE PRESENCIA Y AUSENCIA

2. Tipos de algoritmos empleados en el proceso de modelización..a. Modelos basados en la envoltura ambiental de las especies (BIOCLIM).

Estima la envoltura de la especie dentro del rango de variación de cada variable ambiental y se identifican los sitios que están ubicados dentro del híper-espacio ambiental ocupado por una especie.

En este modelo, cualquier celdilla puede ser clasificada como:

Apropriada: si todas las variables ambientales asociadas se sitúan dentro de la envoltura calculada.

Marginal: si una o más variables ambientales asociadas se sitúan fuera de la envoltura calculada, pero permanecen dentro de los límites máximo y mínimo.

Inadecuado: si una o más variables ambientales asociadas se sitúan fuera de los límites máximo y mínimo de la envoltura.

Especie95%100%

Para cada variable ambiental en particular, el algoritmo calcula la media y la desviación típica (asumiendo una distribución normal) asociada al conjunto de puntos donde está presente la especie (ocurrencia).

Cada variable tiene su propia envoltura representada por el intervalo de confianza de la media para una probabilidad del 95% o del 99% .

Además de la envoltura, cada variable ambiental tiene límites máximos y mínimos adicionales tomados de los valores máximos y mínimos relativos al conjunto de puntos de ocurrencia. Área estudio

2. Tipos de algoritmos empleados en el proceso de modelización.b. Modelos basados en la métrica de Gower (DOMAIN).

Se calcula una matiz de distancias punto a punto para asignar valores de similitud a cada punto del espacio geográfico en base su la proximidad en el espacio ambiental a los puntos de ocurrencia de la especie.

La métrica de Gower provee unos medios apropiados para cuantificar la similitud entre dos sitios. La distancia (d) entre un punto candidato (A) y un punto de ocurrrencia (B) en un espacio Euclideo con pdimensiones se define como:

la similitud entre ambos puntos (RAB), sería el complementario de la distancia:

Área estudio

Especie:S = 0.95S = 0.93

p

k k

kkAB rango

BAp

d1

1

ABAB dR 1

AT

m

jTA j

RS max1

RAB está restringido entre los valores 0 y 1 para puntos dentro de los rangos usados en la primera ecuación. De esta forma, para el punto candidato (A) se obtiene un conjunto de “m“ valores de similitud correspondientes a los puntos de ocurrencia. Se define STA, como la similitud máxima entre el punto candidato A y el conjunto de puntos de ocurrencia de la especie T como:

Los valores de STA generados por el algoritmo se representan en el mapa de una forma continua. Hay que tener en cuenta que estos valores no se interpretan como probabilidades, sino como grados de similitud.

2. Tipos de algoritmos empleados en el proceso de modelización.b. Modelos basados en la similitud (DOMAIN).

2. Tipos de algoritmos empleados en el proceso de modelización.c. Modelos basados en la Entropía máxima (MAXENT).

Maxent es uno método cuyo propósito general es caracterizar distribuciones de probabilidad cuyainformación está incompleta. Se basa en el principio de que la distribución estimada de una especie debe coincidir con la distribución conocida o deducida a partir de las condiciones ambientales dónde ha sido observada, evitando hacer cualquier suposición que no sea soportada por los datos.

El enfoque consiste en encontrar la distribución de probabilidad de entropía máxima, que es la más cercana a la distribución uniforme, condicionada por las restricciones impuestas por la información disponible sobre la distribución observada de la especie y las condiciones ambientales del área de estudio.

El método de Maxent no requiere datos de ausencia de la especie para elaborar el modelo; en vez de ello, usa los datos ambientales proporcionados por el área de estudio al completo como datos de pseudo-ausencia. Puede utilizar variables tanto continuas como categóricas y el producto es un pronóstico continuo que varía de 0 a 100 y se interpreta como un grado relativo de adecuación (en qué medida un lugar es adecuado para que la especie esté presente).

Maxent ha demostrado funcionar bien en comparación con otros métodos alternativos como BIOCLIM y DOMAINE, que tan sólo consideran datos de presencia de la especie, resultando difícil evaluar la significación de los resultados que se obtienen mediante test estadísticos.

3. Validación de la capacidad predictiva del modelo.a. Planteamiento.

La puesta en práctica del modelo tendrá poco interés si previamente no hemos validado la exactitud de sus pronósticos. La validación nos permite determinar la conveniencia de un modelo para una aplicación específica, así como, comparar diferentes métodos de modelado.

Este apartado aborda diferentes pasos para evaluar la capacidad predictiva de un modelo:

Obtención de un conjunto de datos de prueba

Elaboración de una matriz de confusión (o de contingencia)

Aplicación de Test estadísticos sobre la matriz de confusión

Selección de umbrales de presencia

Valoración independiente del umbral

3. Validación de la capacidad predictiva del modelo.b. Obtención de un conjunto de datos de prueba.

Para evaluar el rendimiento del modelo es necesario disponer de datos contra los que poder comparar los pronósticos del modelo. A este conjunto de datos lo referimos como datos de prueba o de evaluación para distinguirlos de los datos de entrenamiento o calibración que se han usado para desarrollar el modelo.

Idealmente, los datos de prueba deberían obtenerse por separado de los datos de entrenamiento del modelo. Sin embargo, en la práctica muchas veces no es posible poder obtener los datos de prueba independientemente y es por lo que generalmente se dividen los datos disponibles en un conjunto de datos de entrenamiento y un conjunto de datos de prueba.

Pueden utilizarse diferentes estrategias para dividir los datos. La más simple y común consiste en agrupar los datos aleatoriamente en dos conjuntos con una proporción de datos arbitraria que depende del número total de puntos con datos disponibles, aunque por lo general se usa el 70% de los datos para el conjunto de datos de entrenamiento y el 30% para el conjunto de datos de prueba.

3. Validación de la capacidad predictiva del modelo.c. Elaboración de una matriz de confusión (o de contingencia).

Si se usan los resultados obtenidos por el modelo para pronosticar un conjunto de datos de prueba, el rendimiento predictivo puede ser resumido en una matriz de confusión. Para ello es necesario que los pronósticos del modelo sean binarios, o sea, que sólo indiquen las zonas apropiadas e inadecuadas para la presencia de la especie (1 / 0) y para ello es necesario seleccionar previamente un umbral de presencia.

La matriz de confusión recoge las frecuencias de cada uno de los cuatro tipos posibles de pronóstico y nos indica el error que ha cometido el modelo en su predicción.

Los falsos positivos (b) provocan una sobre-predicción y se denominan ERROR POR COMISIÓN.

Los falsos negativos (c) provocan una infra-predicción y se denominan ERROR POR OMISIÓN.

El ERROR DE COMISIÓN puede ser real o aparente, ya que un “falso positivo” puede significar o una sobre-predicción del modelo o una predicción de nicho potencial de la especie

El ERROR DE OMISIÓN: es mucho más importante y peor, pues NO predice lugares de presencia que pueden ser de importancia crucial para la supervivencia de la población.

DATOS DE PRUEBA

DA

TOS

DE

ENTR

ENA

MIE

NTO

Especie presente

Especie ausente

+ -Especie predicha +

Verdadero positivo

(a )

Falso positivo

(b )Especie

no predicha

-Falso

negativo (c )

Verdadero negativo

(d )

3. Validación de la capacidad predictiva del modelo.d. Aplicación de Test estadísticos sobre la matriz de confusión.

Las frecuencias de la matriz de confusión constituyen la base para una gran variedad de pruebas estadísticas diferentes que pueden ser usadas para evaluar el rendimiento del modelo.

El estadístico Kappa (k), estima de la exactitud del modelo y tiene en cuenta la proporción de predicciones correctas que cabría esperar aleatoriamente. Se calcula como:

El estadístico Kappa usa todos los valores de la matriz de confusión y requiere tanto datos de presencia como de ausencia. Sin embargo, los datos de ausencia a menudo no están disponibles y resulta inapropiado usarlos cuando se trata de calcular la distribución potencial (debido a que el ambiente podría ser apropiado aunque la especie esté ausente).

En nuestro ejemplo, el valor de Kappa sería: 0,62

3. Validación de la capacidad predictiva del modelo.e. Aplicación de Test estadísticos sobre la matriz de confusión.

Cuándo solamente se usan datos de presencia, se puede calcular la proporción de ocurrencias observadas correctamente predichas:

a / (a+c)

Este estadístico se denomina Sensibilidad o "Fracción de verdaderos positivos". Por otra parte, podemos calcular:

c / (a+c)

Este estadístico se denomina Tasa de omisión o "Fracción de falsos positivos".La suma de ambas medidas es igual a la unidad.

La significación de los resultados obtenidos con estos estadísticos puede ser estimada mediante un test binomial exacto de una cola o, para tamaños de muestra grandes, con un test de ji-cuadrado.

Otro estadístico derivado de la matriz de confusión es la proporción de ausencias observadas que son correctamente predichas, calculada como: d / (b + d).

Este estadístico se denomina Especificidad o “Fracción de verdaderos negativos”. Normalmente, esta medida no se usa como test estadístico por sí mismo, sin embargo, adquiere una gran importancia en la selección del umbral de presencias y en el análisis de las curvas ROC.

3. Validación de la capacidad predictiva del modelo.f. Selección de umbrales de presencia.

Existen diferentes métodos para seleccionar el umbral de presencia de las especies:

Valor fijado: se fija un valor arbitrario, por ejemplo una probabilidad = 0.5 (datos de presencia)

Valor predicho más bajo: el valor predicho más bajo correspondiente a un registro de ocurrencia observada (datos de presencia)

Sensibilidad fijada: el umbral en el cual se alcanza una sensibilidad fijada arbitrariamente. Por ejemplo, un valor de 0.95 significa que el 95% de las localidades observadas estarían incluidas en la predicción (datos de presencia)

Igualdad de sensibilidad-especificidad: el umbral en el que la sensibilidad y la especificidad se igualan (datos de presencia-ausencia)

Maximización de Kappa: el umbral en el que el estadístico Kappa es máximo (datos de presencia-ausencia)

3. Validación de la capacidad predictiva del modelo.g. Valoración independiente del umbral.

Cuando la salida del modelo es continua, la valoración de la predicción utilizando la estadística derivada de la matriz de confusión será sensible al método utilizado para elegir el umbral para crear una predicción binaria.

Además, si las predicciones son binarias, la evaluación del modelo no tiene en cuenta toda la información que da el modelo. Por ello, normalmente es útil derivar un test estadístico que de una sola medida de evaluación del poder predictivo a través de todo el rango de posibles umbrales.

Esto se consigue con un estadístico llamado AUC: El área bajo la curva ROC (Receiver OperatingCharacteristic).

La curva ROC se obtiene al enfrentar la sensibilidad frente a “1-Especificidad” a los largo de todos los posibles umbrales.

Se utilizan la sensibilidad y la especificidad porque estas dos medidas tienen en cuenta los cuatro elementos de la matriz de confusión.

Por conveniencia se calcula “1-Especificidad” para que la sensibilidad y la especificidad varíen en la misma dirección cuando se ajusta el umbral.

FRA

CC

IÓN

DE

VER

DA

DER

OS

POSI

TIV

OS

FRACCIÓN DE FALSOS POSITIVOS

3. Validación de la capacidad predictiva del modelo.g. Valoración independiente del umbral.

Un modelo que prediga perfectamente la distribución de una especie generará una curva ROC que siga el eje izquierdo hasta lo alto del gráfico, mientras que un modelo que prediga “no mejor que al azar” generará una curva ROC que siga la línea 1:1 (diagonal).

Tema 5

Documents

Transcript of Tema 5