Modelos de distribución de especies aplicados a estudios de flora amenazada:
Prácticas
Blas Benito de [email protected]
Unidad de Conservación Vegetal
Departamento de Botánica
Universidad de Granada
Esquema de trabajo general
SECCIÓN 1El entorno de trabajo
Programas necesarios
Herramientas principales
GRASS
OpenModeller
Herramientas de apoyo
Octave
Calc
Notepad++
Google Earth
SECCIÓN 2Preparación de las
variables ambientales
Esquema de trabajo
Conceptos importantes en GRASS
BASE DE DATOS
Directorio de trabajo
LOCATION
Área geográfica y sistema de referencia
MAPSET
Conjunto de mapas
MASK
Área de cálculo
REGION
Resolución y límites geográficos
Creación de la base de datos de GRASS (2.1.1)
ALMERIA_latlong
latitud-longitud
datum WGS84
EPSG code = 4326
ALMERIA_utm
UTM
datum WGS84
EPSG code = 32630
opción 5: Usen in Spain (except Northwest)
BASE DE DATOS
C:/CURSO_MODELOS/GEODATOS/GRASSDB
El interfaz de GRASS
Preparación de la región de trabajo (2.1.3)
Objetivos:
Definir un área y una resolución de trabajo
Tareas
Establecer resolución
Descargar e importar a GRASS un archivo vectorial con los límites provinciales de Almería
Definir la extensión de la región de trabajo según los límites geográficos de la provincia de Almería
Preparación del modelo de elevaciones (2.2)
Objetivos:
Obtener un modelo de elevaciones de alta resolución de la región de trabajo
Tareas:
Descargar el modelo de elevaciones (2.2.1)
Importarlo a la base de datos de GRASS (2.2.2)
Visualizarlo en la ventana de mapas de GRASS
Creación de una máscara (2.3)
Variables topográficas I (2.4.1)
Variables topográficas II (2.4.2 - 2.4.5)
Teledetección (Landsat)
Interfaz de descarga de imágenes de del programa Image 2000
Bandas Landsat
Importación y procesamiento de las bandas Landsat (2.5.1)
Objetivos:
Preparar un conjunto de imágenes satélite
Tareas:
Descomprimir los paquetes con las capas
Importarlas a GRASS
Unir las parejas de imágenes
Borrar los mapas sobrantes
NDVI (2.5.2)
Precipitación (2.6.1)
Estaciones pluviométricas y precipitación del mes más húmedo
Temperatura (2.6.2)
Correlación espacial (2.7)
Las variables correlacionadas aportan información redundante a los modelos de distribución
Es necesario analizar la correlación entre variables y establecer un umbral de correlación máxima.
Seleccionar variables de interpretación más intuitiva.
Análisis de Componentes Principales (2.8)
Técnica de reducción del número de variables correlacionadas.
Transforma las variables en componentes.
Es difícil interpretar biológicamente la importancia de los componentes.
Habitualmente aplicado a imágenes satélite.
Cambio en la resolución de variables
Lo hacemos para ahorrar tiempo, o cuando trabajamos sobre áreas muy extensas, para reducir el número de celdas de las capas.
Disminuir la resolución de las variables implica una pérdida de potencia de los modelos de distribución.
Las relaciones entre los valores de las variables y la idoneidad del hábitat se distorsionan.
Algoritmos de interpolación para cambios en la resolución
Problema de no coincidencia de valores
Valor real de pendiente = 5º
Valor real de temperatura = 16.1ºC
Cambiando resoluciones (2.9.2)
Objetivo:
Obtener una versión de baja resolución (1000m) de cada una de las variables generadas
Tareas:
Cambiar la resolución de trabajo a la deseada: de 0:00:03 a 0:00:30
Remuestrear los mapas a la nueva resolución
Exportación de las variables ambientales (2.10)
Objetivo:
Preparar las variables en un formato que OpenModeller pueda leer
Tareas:
Exportar una sola variable para aprender cómo se hace
Ejecutar un guión para automatizar la exportación de todas las variables
Clasificación de las variables ambientales
Índice topográfico de humedad
Orientación
Pendiente (EO)
Posición topográfica
Radiación solar (invierno y verano)
Temperatura media anual
Precipitación (máxima y mínima mensual)
Componentes Landsat
Gradientes de recursosrecursos y energía de consumo directo
Gradientes directosimportancia fisiológica
Gradientes indirectossin importancia fisiológica, pero correlacionados con combinaciones de los anteriores
Variables ambientales
Importancia biológica
Principio de la relativa constancia de ubicación
Las especies tienden a compensar diferencias regionales en las condiciones climáticas cambiando su situación topográfica para seleccionar micronichos idóneos (Walter y Walter 1953)
Consecuencia: Un modelo calibrado solo con gradientes indirectos no puede aplicarse a otro área geográfica sin errores significativos, porque la misma posición topográfica en ambas áreas corresponde a distintas combinaciones de gradientes de recursos o directos.
SECCIÓN 3Preparación de los
registros de presencia
Origen y calidad de los datos de presencia
Origen de los registros de presencia:
GPS (muestreo sistemático y cita casual)
Polígonos o puntos sobre ortoimagen
Marcas a mano sobre mapa
Cuadrículas UTM (1x1, 10x10)
Topónimos
Tamaño de muestra y densidad
Tamaño de muestra mínimo: en torno a 10 registros; depende de lo coherente que sea la señal ecológica que aporte.Tamaño de muestra óptimo: > 30Densidad de los registros equilibrada
Preparación de registros de presencia para OpenModeller (3.5)
Objetivos:
Generar un fichero de presencias de una especie amenazada a partir de registros de GPS, para calibrar modelos con OpenModeller
Tareas:
Preparar los datos en una hoja de cálculo según el formato requerido
Partir aleatoriamente los datos en dos grupos, uno para calibrado (60% de puntos) y otro para evaluación (40% de puntos)
SECCIÓN 4Modelos de distribución
con OpenModeller
OpenModeller
Interfaz gráfico de OpenModeller
Preparación de las variables (4.1)
Objetivo:
Preparar conjuntos de variables para calibrar modelos en OpenModeller
Tareas:
Preparar conjunto de variables de 1000m
Preparar conjunto de variables de 90m
Ejecución de un experimento de prueba (4.2)
Objetivo:
Generar modelos de baja resolución con OpenModeller
Tareas:
Preparar el experimento con los datos requeridos en el tutorial
Ejecutar el experimento y observar los modelos resultantes
Bioclim
Envuelta bioclimática cuadrangular
Óptima
[m-c*s, m+c*s]m = mediac = % desviacións = desviación
Subóptima
[max, min]
Climate Space Model
Basado en el Análisis de Componentes Principales
La información disponible acerca de su funcionamiento es limitada y confusa
Envelope Score
Similar a Bioclim
Envueltas bioclimáticas cuadrangulares definidas según los valores máximo y mínimo de las presencias (envuelta subóptima de Bioclim)
P = nº de variables que cumplen el criterio / nº total de variables
Environmental Distance (I)
Métricas de distancia ecológica (similaridad)
tiene en cuenta la correlación entre variables. Cuanto mayor es la correlación, más se aproxima a la Euclídea
Environmental Distance (II)
GARP (I)
Genetic Algorithm for Rule set Prediction
Inteligencia artificial basada en algoritmos genéticos: concepto de selección natural
Reglas
atómica
rango
regresión logística
envuelta bioclimática
envuelta bioclimática inversa
Proceso iterativo no determinista (mutación estocástica)
GARP (II)
GARP (III)
Support Vector Machines (I)
Inteligencia artificial
Clasificación en espacios n-dimensionales
Separación de conjuntos mediante hiperplanos
Criterio de selección según distancia al hiperplano
Support Vector Machines (II)
Consideraciones sobre los resultados
Conclusiones previas
multiplicidad de algoritmos y resultados
modelos binarios y continuos
áreas de presencia muy extensas
Cuestiones...
¿cuál es el mejor algoritmo?
¿qué representan los modelos continuos?
¿son mejores los modelos continuos, o los binarios?
¿Mas conclusiones previas y cuestiones?
SECCIÓN 5Evaluación de modelos de
distribución
Empezando por lo más simple
Sensibilidad: proporción de aciertos
Error de omisión (falso negativo): presencia clasificada como ausencia
Error de comisión y sobreajuste
Modelos a) y b) tienen igual sensibilidad, pero:
a) sobreestima presencia potencial: error de comisión
b) muestra sobreajuste sobre localidades de presencia
Caso práctico pág. 44: Calculo de sensibilidad en modelos binarios
Preparar experimento con los modelos Bioclim, y GARP (ambas “single run”)
Examina visualmente los resultados: ¿puedes valorar la sensibilidad de los modelos?
OpenModeller llama accuracy a la sensibilidad, y la mide en porcentaje de aciertos.
Celdas aptas: porcentaje del territorio de presencia potencial
modelo sensibilidad omisión celdas aptas (%)
BIOCLIM 1 0 27.32
GARP desktop 0.98 0.02 46.23
GARP openmodeller 0.88 0.12 19.82
NOTA: al finalizar este caso práctico, poner en ejecución los modelos continuos de alta resolución para siguientes apartados
Complicándolo un poco más: Partición aleatoria de datos de presencia
División al azar del conjunto de presencias en dos grupos: calibrado y evaluación.
SENSIBILIDAD = 1 SENSIBILIDAD = 0
Caso práctico pág. 45: Evaluación mediante partición aleatoria de datosTareas:
Importación de modelos a GRASS
Transformación de los valores de los modelos
Importación de los puntos de evaluación a GRASS
Consulta de los valores de los puntos de evaluación sobre los tres modelos
Cálculo de la sensibilidad en Calc
modelo aciertos sensibilidad(evaluación)
sensibilidad(calibrado)
celdas aptas (%)
BIOCLIM 63 0.84 1 23.66
GARP desktop 70 0.93 0.99 38.94
GARP openmodeller 62 0.83 0.86 13.40
Registros de ausencia y matriz de confusión (I)
¿Cómo se identifica el error de comisión?: una posibilidad, los registros de ausencia.
Un ejemplo: tres modelos calibrados con los mismos datos de presencia y ausencia.
Al incluir ausencias aparece un nuevo tipo de error: clasificar como presencia un registro de ausencia (error de comisión).
Registros de ausencia y matriz de confusión (II)
Los aciertos y errores se tabulan en una matriz de confusión:
Datos reales (registros de presencia
y ausencia)
presencia ausencia
Datos simulados (modelo de distribución)
presencia A B
ausencia C D
A: presencias correctamente clasificadas
D: ausencias correctamente clasificadas
B: ausencias erróneamente clasificadas
C: presencias erróneamente clasificadas
N: A + B + C + D
Registros de ausencia y matriz de confusión (III)
Medidas de evaluación derivadas de la matriz de confusión:
Sensibilidad = (A / (A + C))
Especificidad = (D / (B + D))
Kappa:
[(A + D) - (((A + C) (A + B) + (B + D) (C + D)) / N)]
[N – (((A + C) (A + B) + (B + D) (C + D)) / N)]K =
Registros de ausencia y matriz de confusión (IV)
modelo sensibilidad especificidad kappa
a 1 0 0
b 0 1 0
c 0.6 0.8 0.4
Caso práctico pág. 51: Evaluación mediante partición aleatoria de datos y
registros de ausenciaTareas:
Importar registros de ausencia a GRASS
Crear archivo vectorial a partir de las ausencias
Consultar los valores de las presencias y las ausencias sobre los modelos
Calcular las medidas de evaluación de los modelos
Puntos aleatorios como sustitutos de las ausencias (I)
Las ausencias pueden ser reales, aparentes, temporales, y se basan en un criterio subjetivo. Este criterio condiciona los valores de la matriz de confusión.
Los puntos aleatorios pueden sustituir a las ausencias sin desventajas conceptuales ni subjetivas. Pero también presentan problemas:
grupo aleatorios sensibilidad especificidad kappa
A 0.6 0 -0.4
B 0.6 1 0.6
Puntos aleatorios como sustitutos de las ausencias (II)
Una solución consiste en generar multitud de puntos aleatorios y calcular los índices de evaluación muchas veces utilizando cada vez distintos grupos de puntos aleatorios.
Caso práctico pág. 55: Evaluación mediante partición aleatoria de datos y
puntos aleatorios
Tareas
Generar puntos aleatorios
Consultar los valores de los puntos aleatorios sobre los modelos
Preparar los datos para introducirlos en Octave
Calcular índices de evaluación utilizando el programa KAPPA.m en Octave
Evaluación de modelos continuos: La curva ROC (I)
NOTA: 1-especificidad = fracción de falsos positivos (error de comisión)
Evaluación de modelos continuos: La curva ROC (II)
La representación gráfica de los pares sensibilidad vs. 1-especificidad proporciona una curva ROC.
El área bajo la curva (AUC) indica la probabilidad de que el modelo, ante una pareja de puntos de presencia y ausencia seleccionadas al azar, clasifique la presencia con un valor de idoneidad mayor que el de la ausencia.
AUC = 0.74
Caso práctico pág. 63: Cálculo de la curva ROC
Tareas:
Preparar archivos vectoriales de presencias y aleatorios
Importar los modelos continuos de alta resolución a GRASS
Consultar los valores de las presencias y los puntos aleatorios sobre los modelos
Preparar los datos para introducirlos en Octave
Calcular AUC con el programa AUC.m en Octave
SECCIÓN 6Transformación de
modelos continuos en binarios
Transformación de modelos continuos en binarios
Algunas aplicaciones de modelos de distribución funcionan mejor con modelos binarios (reservas de flora, cartografías...)
Es necesario establecer un criterio: se selecciona un valor de idoneidad del modelo, por encima del cual se considera el área apta para la presencia de la planta.
Este criterio será distinto según la aplicación a la que está destinada el modelo.
Dos criterios sencillos pero muy efectivos:
valor medio de los registros de evaluación
valor medio menos desviación estándar de los registros de evaluación
Diferencias entre los criterios
criterio b) reduce omisión un 15%, pero incrementa el área apta un 861%
Caso práctico pág. 69: Transformación de un modelo continuo en binario
Tareas:
Recodificar los valores del modelo continuo con mejor AUC según los valores obtenidos en el fichero de resultados RESULTADOS_AUC.txt
SECCIÓN 7Aplicaciones prácticas de
los modelos de distribución
Cartografía de poblaciones (7.1)
Objetivos:
Calcular superficie potencial de Linaria nigricans
Obtener cartografía a escala de reconocimiento
Obtener cartografía a escala de detalle
Comparación del resultado con una cartografía real
Tareas
Medir área potencial del modelo binario
Vectorizar modelo binario para obtener cartografía a escala de detalle
Eliminar ruido del modelo binario para obtener cartografía a escala de reconocimiento
Comparación visual del resultado con datos reales
Cartografía de poblaciones
Algunas consideraciones:
Los resultados tienen una buena relación coste-beneficio
El área de presencia potencial es mayor que el área de presencia real
Cuanto mayor es la resolución, mejor será el resultado
Búsqueda de nuevas poblaciones (7.2)
Objetivos:
Obtener un mapa de presencia potencial para localizar poblaciones desconocidas de una planta amenazada
Tareas:
Generar un mapa de distancias a las poblaciones conocidas
Importar todos los modelos continuos a GRASS
Transformarlos en binarios según un criterio relajado
Ensamblar los modelos mediante suma
Aplicación del criterio de distancia
Visualización del resultado
Búsqueda de nuevas poblaciones
Una estrategia para mejorar el modelo es realimentarlo con los resultados de la búsqueda
El ensamblado de modelos se considera una técnica predictiva robusta
Ensamblado de biodiversidad para asistir en el diseño de reservas de flora (7.3)
Objetivos:
Obtener un mapa de biodiversidad útil como base para diseñar una red de reservas de flora
Tareas:
Preparar 225 modelos de especies
Preparar y ejecutar un guión de GRASS para procesado masivo de modelos
Comparar la biodiversidad real con la biodiversidad aparente
Ensamblado de biodiversidad para asistir en el diseño de reservas de flora
Los datos de presencia real (a) ofrecen una imagen incompleta
El modelo de biodiversidad potencial (b) probablemente es más acorde a la realidad.
El modelo de idoneidad (c) ofrece una visual interesante de la distribución potencial de la biodiversidad
Los modelos no hacen milagros: si los datos de partida están muy sesgados, el resultado también lo estará
Evaluación del impacto del cambio climático en la distribución de las
especies (7.4)
Evaluación del impacto del cambio climático en la distribución de las
especiesLos escenarios climáticos regionalizados pueden combinarse con modelos de distribución para predecir la distribución potencial futura de las especies
La Fundación para la Investigación del Clima (FIC) y la Agencia Estatal de Meteorología (AEMET) han preparado escenarios regionalizados para estudios de impacto del cambio del clima en España.
Es importante entender la cascada de incertidumbres que afecta a estas proyecciones
Evaluación del impacto del cambio climático en la distribución de las
especies Objetivos:
Generar y analizar modelos de alta resolución de distribución actual y futura (2055-2070) de una especie utilizando un escenario de cambio climático regionalizado (CGCM2-A2)
Tareas:
Elaborar un modelo de distribución actual y proyectarlo a las condiciones futuras
Mapear las distribuciones potenciales actual y futura
Encontrar los frentes de avance y retroceso de las poblaciones
Evaluación del impacto del cambio climático en la distribución de las
especies
Los resultados deben interpretarse con cautela
El diferencial de idoneidad es útil para localizar los frentes de avance y retroceso de poblaciones (monitoreo, actuaciones para conservación...)
Es importante hacer proyecciones con distintos escenarios y modelos de distribución (ensamblado)
Ensamblado de modelos para proyecciones de distribución en
escenarios de cambio climático (7.5)Objetivos:
Utilizar un ensamblado de modelos de distribución actual y futura de una especie vegetal para evaluar cambios potenciales en su distribución
Tareas:
Generar modelos de distribución actual y futura de una especie utilizando distintos algoritmos de modelado y variables de baja resolución
Importar a GRASS y transformar los modelos continuos en binarios para ensamblarlos
Medir las áreas de ocupación actual y futura, y componer un mapa que presente visualmente la información
Ejercicios propuestos
Cartografía de poblaciones de alta resolución de una especie amenazada, midiendo área potencial y preparando una visualización de los resultados sobre una imagen Landsat
Búsqueda de nuevas poblaciones a partir de los resultados del ejercicio anterior
Exploración libre de las ideas y conceptos que has aprendido: inventa y experimenta para buscar métodos de análisis y aplicaciones de los modelos que puedan ser útiles en tu trabajo
Top Related