CURSO DE MODELOS DE DISTRIBUCIÓN (presentación)

Post on 13-Jun-2015

843 views 0 download

description

Curso de modelos de distribución impartido en Valencia en 2008. Para conseguir el material necesario contactar con el autor. Esta es la presentación que mostré para acompañar las explicaciones del curso.

Transcript of CURSO DE MODELOS DE DISTRIBUCIÓN (presentación)

Modelos de distribución de especies aplicados a estudios de flora amenazada:

Prácticas

Blas Benito de Pandoblasbp@ugr.es

Unidad de Conservación Vegetal

Departamento de Botánica

Universidad de Granada

Esquema de trabajo general

SECCIÓN 1El entorno de trabajo

Programas necesarios

Herramientas principales

GRASS

OpenModeller

Herramientas de apoyo

Octave

Calc

Notepad++

Google Earth

SECCIÓN 2Preparación de las

variables ambientales

Esquema de trabajo

Conceptos importantes en GRASS

BASE DE DATOS

Directorio de trabajo

LOCATION

Área geográfica y sistema de referencia

MAPSET

Conjunto de mapas

MASK

Área de cálculo

REGION

Resolución y límites geográficos

Creación de la base de datos de GRASS (2.1.1)

ALMERIA_latlong

latitud-longitud

datum WGS84

EPSG code = 4326

ALMERIA_utm

UTM

datum WGS84

EPSG code = 32630

opción 5: Usen in Spain (except Northwest)

BASE DE DATOS

C:/CURSO_MODELOS/GEODATOS/GRASSDB

El interfaz de GRASS

Preparación de la región de trabajo (2.1.3)

Objetivos:

Definir un área y una resolución de trabajo

Tareas

Establecer resolución

Descargar e importar a GRASS un archivo vectorial con los límites provinciales de Almería

Definir la extensión de la región de trabajo según los límites geográficos de la provincia de Almería

Preparación del modelo de elevaciones (2.2)

Objetivos:

Obtener un modelo de elevaciones de alta resolución de la región de trabajo

Tareas:

Descargar el modelo de elevaciones (2.2.1)

Importarlo a la base de datos de GRASS (2.2.2)

Visualizarlo en la ventana de mapas de GRASS

Creación de una máscara (2.3)

Variables topográficas I (2.4.1)

Variables topográficas II (2.4.2 - 2.4.5)

Teledetección (Landsat)

Interfaz de descarga de imágenes de del programa Image 2000

Bandas Landsat

Importación y procesamiento de las bandas Landsat (2.5.1)

Objetivos:

Preparar un conjunto de imágenes satélite

Tareas:

Descomprimir los paquetes con las capas

Importarlas a GRASS

Unir las parejas de imágenes

Borrar los mapas sobrantes

NDVI (2.5.2)

Precipitación (2.6.1)

Estaciones pluviométricas y precipitación del mes más húmedo

Temperatura (2.6.2)

Correlación espacial (2.7)

Las variables correlacionadas aportan información redundante a los modelos de distribución

Es necesario analizar la correlación entre variables y establecer un umbral de correlación máxima.

Seleccionar variables de interpretación más intuitiva.

Análisis de Componentes Principales (2.8)

Técnica de reducción del número de variables correlacionadas.

Transforma las variables en componentes.

Es difícil interpretar biológicamente la importancia de los componentes.

Habitualmente aplicado a imágenes satélite.

Cambio en la resolución de variables

Lo hacemos para ahorrar tiempo, o cuando trabajamos sobre áreas muy extensas, para reducir el número de celdas de las capas.

Disminuir la resolución de las variables implica una pérdida de potencia de los modelos de distribución.

Las relaciones entre los valores de las variables y la idoneidad del hábitat se distorsionan.

Algoritmos de interpolación para cambios en la resolución

Problema de no coincidencia de valores

Valor real de pendiente = 5º

Valor real de temperatura = 16.1ºC

Cambiando resoluciones (2.9.2)

Objetivo:

Obtener una versión de baja resolución (1000m) de cada una de las variables generadas

Tareas:

Cambiar la resolución de trabajo a la deseada: de 0:00:03 a 0:00:30

Remuestrear los mapas a la nueva resolución

Exportación de las variables ambientales (2.10)

Objetivo:

Preparar las variables en un formato que OpenModeller pueda leer

Tareas:

Exportar una sola variable para aprender cómo se hace

Ejecutar un guión para automatizar la exportación de todas las variables

Clasificación de las variables ambientales

Índice topográfico de humedad

Orientación

Pendiente (EO)

Posición topográfica

Radiación solar (invierno y verano)

Temperatura media anual

Precipitación (máxima y mínima mensual)

Componentes Landsat

Gradientes de recursosrecursos y energía de consumo directo

Gradientes directosimportancia fisiológica

Gradientes indirectossin importancia fisiológica, pero correlacionados con combinaciones de los anteriores

Variables ambientales

Importancia biológica

Principio de la relativa constancia de ubicación

Las especies tienden a compensar diferencias regionales en las condiciones climáticas cambiando su situación topográfica para seleccionar micronichos idóneos (Walter y Walter 1953)

Consecuencia: Un modelo calibrado solo con gradientes indirectos no puede aplicarse a otro área geográfica sin errores significativos, porque la misma posición topográfica en ambas áreas corresponde a distintas combinaciones de gradientes de recursos o directos.

SECCIÓN 3Preparación de los

registros de presencia

Origen y calidad de los datos de presencia

Origen de los registros de presencia:

GPS (muestreo sistemático y cita casual)

Polígonos o puntos sobre ortoimagen

Marcas a mano sobre mapa

Cuadrículas UTM (1x1, 10x10)

Topónimos

Tamaño de muestra y densidad

Tamaño de muestra mínimo: en torno a 10 registros; depende de lo coherente que sea la señal ecológica que aporte.Tamaño de muestra óptimo: > 30Densidad de los registros equilibrada

Preparación de registros de presencia para OpenModeller (3.5)

Objetivos:

Generar un fichero de presencias de una especie amenazada a partir de registros de GPS, para calibrar modelos con OpenModeller

Tareas:

Preparar los datos en una hoja de cálculo según el formato requerido

Partir aleatoriamente los datos en dos grupos, uno para calibrado (60% de puntos) y otro para evaluación (40% de puntos)

SECCIÓN 4Modelos de distribución

con OpenModeller

OpenModeller

Interfaz gráfico de OpenModeller

Preparación de las variables (4.1)

Objetivo:

Preparar conjuntos de variables para calibrar modelos en OpenModeller

Tareas:

Preparar conjunto de variables de 1000m

Preparar conjunto de variables de 90m

Ejecución de un experimento de prueba (4.2)

Objetivo:

Generar modelos de baja resolución con OpenModeller

Tareas:

Preparar el experimento con los datos requeridos en el tutorial

Ejecutar el experimento y observar los modelos resultantes

Bioclim

Envuelta bioclimática cuadrangular

Óptima

[m-c*s, m+c*s]m = mediac = % desviacións = desviación

Subóptima

[max, min]

Climate Space Model

Basado en el Análisis de Componentes Principales

La información disponible acerca de su funcionamiento es limitada y confusa

Envelope Score

Similar a Bioclim

Envueltas bioclimáticas cuadrangulares definidas según los valores máximo y mínimo de las presencias (envuelta subóptima de Bioclim)

P = nº de variables que cumplen el criterio / nº total de variables

Environmental Distance (I)

Métricas de distancia ecológica (similaridad)

tiene en cuenta la correlación entre variables. Cuanto mayor es la correlación, más se aproxima a la Euclídea

Environmental Distance (II)

GARP (I)

Genetic Algorithm for Rule set Prediction

Inteligencia artificial basada en algoritmos genéticos: concepto de selección natural

Reglas

atómica

rango

regresión logística

envuelta bioclimática

envuelta bioclimática inversa

Proceso iterativo no determinista (mutación estocástica)

GARP (II)

GARP (III)

Support Vector Machines (I)

Inteligencia artificial

Clasificación en espacios n-dimensionales

Separación de conjuntos mediante hiperplanos

Criterio de selección según distancia al hiperplano

Support Vector Machines (II)

Consideraciones sobre los resultados

Conclusiones previas

multiplicidad de algoritmos y resultados

modelos binarios y continuos

áreas de presencia muy extensas

Cuestiones...

¿cuál es el mejor algoritmo?

¿qué representan los modelos continuos?

¿son mejores los modelos continuos, o los binarios?

¿Mas conclusiones previas y cuestiones?

SECCIÓN 5Evaluación de modelos de

distribución

Empezando por lo más simple

Sensibilidad: proporción de aciertos

Error de omisión (falso negativo): presencia clasificada como ausencia

Error de comisión y sobreajuste

Modelos a) y b) tienen igual sensibilidad, pero:

a) sobreestima presencia potencial: error de comisión

b) muestra sobreajuste sobre localidades de presencia

Caso práctico pág. 44: Calculo de sensibilidad en modelos binarios

Preparar experimento con los modelos Bioclim, y GARP (ambas “single run”)

Examina visualmente los resultados: ¿puedes valorar la sensibilidad de los modelos?

OpenModeller llama accuracy a la sensibilidad, y la mide en porcentaje de aciertos.

Celdas aptas: porcentaje del territorio de presencia potencial

modelo sensibilidad omisión celdas aptas (%)

BIOCLIM 1 0 27.32

GARP desktop 0.98 0.02 46.23

GARP openmodeller 0.88 0.12 19.82

NOTA: al finalizar este caso práctico, poner en ejecución los modelos continuos de alta resolución para siguientes apartados

Complicándolo un poco más: Partición aleatoria de datos de presencia

División al azar del conjunto de presencias en dos grupos: calibrado y evaluación.

SENSIBILIDAD = 1 SENSIBILIDAD = 0

Caso práctico pág. 45: Evaluación mediante partición aleatoria de datosTareas:

Importación de modelos a GRASS

Transformación de los valores de los modelos

Importación de los puntos de evaluación a GRASS

Consulta de los valores de los puntos de evaluación sobre los tres modelos

Cálculo de la sensibilidad en Calc

modelo aciertos sensibilidad(evaluación)

sensibilidad(calibrado)

celdas aptas (%)

BIOCLIM 63 0.84 1 23.66

GARP desktop 70 0.93 0.99 38.94

GARP openmodeller 62 0.83 0.86 13.40

Registros de ausencia y matriz de confusión (I)

¿Cómo se identifica el error de comisión?: una posibilidad, los registros de ausencia.

Un ejemplo: tres modelos calibrados con los mismos datos de presencia y ausencia.

Al incluir ausencias aparece un nuevo tipo de error: clasificar como presencia un registro de ausencia (error de comisión).

Registros de ausencia y matriz de confusión (II)

Los aciertos y errores se tabulan en una matriz de confusión:

Datos reales (registros de presencia

y ausencia)

presencia ausencia

Datos simulados (modelo de distribución)

presencia A B

ausencia C D

A: presencias correctamente clasificadas

D: ausencias correctamente clasificadas

B: ausencias erróneamente clasificadas

C: presencias erróneamente clasificadas

N: A + B + C + D

Registros de ausencia y matriz de confusión (III)

Medidas de evaluación derivadas de la matriz de confusión:

Sensibilidad = (A / (A + C))

Especificidad = (D / (B + D))

Kappa:

[(A + D) - (((A + C) (A + B) + (B + D) (C + D)) / N)]

[N – (((A + C) (A + B) + (B + D) (C + D)) / N)]K =

Registros de ausencia y matriz de confusión (IV)

modelo sensibilidad especificidad kappa

a 1 0 0

b 0 1 0

c 0.6 0.8 0.4

Caso práctico pág. 51: Evaluación mediante partición aleatoria de datos y

registros de ausenciaTareas:

Importar registros de ausencia a GRASS

Crear archivo vectorial a partir de las ausencias

Consultar los valores de las presencias y las ausencias sobre los modelos

Calcular las medidas de evaluación de los modelos

Puntos aleatorios como sustitutos de las ausencias (I)

Las ausencias pueden ser reales, aparentes, temporales, y se basan en un criterio subjetivo. Este criterio condiciona los valores de la matriz de confusión.

Los puntos aleatorios pueden sustituir a las ausencias sin desventajas conceptuales ni subjetivas. Pero también presentan problemas:

grupo aleatorios sensibilidad especificidad kappa

A 0.6 0 -0.4

B 0.6 1 0.6

Puntos aleatorios como sustitutos de las ausencias (II)

Una solución consiste en generar multitud de puntos aleatorios y calcular los índices de evaluación muchas veces utilizando cada vez distintos grupos de puntos aleatorios.

Caso práctico pág. 55: Evaluación mediante partición aleatoria de datos y

puntos aleatorios

Tareas

Generar puntos aleatorios

Consultar los valores de los puntos aleatorios sobre los modelos

Preparar los datos para introducirlos en Octave

Calcular índices de evaluación utilizando el programa KAPPA.m en Octave

Evaluación de modelos continuos: La curva ROC (I)

NOTA: 1-especificidad = fracción de falsos positivos (error de comisión)

Evaluación de modelos continuos: La curva ROC (II)

La representación gráfica de los pares sensibilidad vs. 1-especificidad proporciona una curva ROC.

El área bajo la curva (AUC) indica la probabilidad de que el modelo, ante una pareja de puntos de presencia y ausencia seleccionadas al azar, clasifique la presencia con un valor de idoneidad mayor que el de la ausencia.

AUC = 0.74

Caso práctico pág. 63: Cálculo de la curva ROC

Tareas:

Preparar archivos vectoriales de presencias y aleatorios

Importar los modelos continuos de alta resolución a GRASS

Consultar los valores de las presencias y los puntos aleatorios sobre los modelos

Preparar los datos para introducirlos en Octave

Calcular AUC con el programa AUC.m en Octave

SECCIÓN 6Transformación de

modelos continuos en binarios

Transformación de modelos continuos en binarios

Algunas aplicaciones de modelos de distribución funcionan mejor con modelos binarios (reservas de flora, cartografías...)

Es necesario establecer un criterio: se selecciona un valor de idoneidad del modelo, por encima del cual se considera el área apta para la presencia de la planta.

Este criterio será distinto según la aplicación a la que está destinada el modelo.

Dos criterios sencillos pero muy efectivos:

valor medio de los registros de evaluación

valor medio menos desviación estándar de los registros de evaluación

Diferencias entre los criterios

criterio b) reduce omisión un 15%, pero incrementa el área apta un 861%

Caso práctico pág. 69: Transformación de un modelo continuo en binario

Tareas:

Recodificar los valores del modelo continuo con mejor AUC según los valores obtenidos en el fichero de resultados RESULTADOS_AUC.txt

SECCIÓN 7Aplicaciones prácticas de

los modelos de distribución

Cartografía de poblaciones (7.1)

Objetivos:

Calcular superficie potencial de Linaria nigricans

Obtener cartografía a escala de reconocimiento

Obtener cartografía a escala de detalle

Comparación del resultado con una cartografía real

Tareas

Medir área potencial del modelo binario

Vectorizar modelo binario para obtener cartografía a escala de detalle

Eliminar ruido del modelo binario para obtener cartografía a escala de reconocimiento

Comparación visual del resultado con datos reales

Cartografía de poblaciones

Algunas consideraciones:

Los resultados tienen una buena relación coste-beneficio

El área de presencia potencial es mayor que el área de presencia real

Cuanto mayor es la resolución, mejor será el resultado

Búsqueda de nuevas poblaciones (7.2)

Objetivos:

Obtener un mapa de presencia potencial para localizar poblaciones desconocidas de una planta amenazada

Tareas:

Generar un mapa de distancias a las poblaciones conocidas

Importar todos los modelos continuos a GRASS

Transformarlos en binarios según un criterio relajado

Ensamblar los modelos mediante suma

Aplicación del criterio de distancia

Visualización del resultado

Búsqueda de nuevas poblaciones

Una estrategia para mejorar el modelo es realimentarlo con los resultados de la búsqueda

El ensamblado de modelos se considera una técnica predictiva robusta

Ensamblado de biodiversidad para asistir en el diseño de reservas de flora (7.3)

Objetivos:

Obtener un mapa de biodiversidad útil como base para diseñar una red de reservas de flora

Tareas:

Preparar 225 modelos de especies

Preparar y ejecutar un guión de GRASS para procesado masivo de modelos

Comparar la biodiversidad real con la biodiversidad aparente

Ensamblado de biodiversidad para asistir en el diseño de reservas de flora

Los datos de presencia real (a) ofrecen una imagen incompleta

El modelo de biodiversidad potencial (b) probablemente es más acorde a la realidad.

El modelo de idoneidad (c) ofrece una visual interesante de la distribución potencial de la biodiversidad

Los modelos no hacen milagros: si los datos de partida están muy sesgados, el resultado también lo estará

Evaluación del impacto del cambio climático en la distribución de las

especies (7.4)

Evaluación del impacto del cambio climático en la distribución de las

especiesLos escenarios climáticos regionalizados pueden combinarse con modelos de distribución para predecir la distribución potencial futura de las especies

La Fundación para la Investigación del Clima (FIC) y la Agencia Estatal de Meteorología (AEMET) han preparado escenarios regionalizados para estudios de impacto del cambio del clima en España.

Es importante entender la cascada de incertidumbres que afecta a estas proyecciones

Evaluación del impacto del cambio climático en la distribución de las

especies Objetivos:

Generar y analizar modelos de alta resolución de distribución actual y futura (2055-2070) de una especie utilizando un escenario de cambio climático regionalizado (CGCM2-A2)

Tareas:

Elaborar un modelo de distribución actual y proyectarlo a las condiciones futuras

Mapear las distribuciones potenciales actual y futura

Encontrar los frentes de avance y retroceso de las poblaciones

Evaluación del impacto del cambio climático en la distribución de las

especies

Los resultados deben interpretarse con cautela

El diferencial de idoneidad es útil para localizar los frentes de avance y retroceso de poblaciones (monitoreo, actuaciones para conservación...)

Es importante hacer proyecciones con distintos escenarios y modelos de distribución (ensamblado)

Ensamblado de modelos para proyecciones de distribución en

escenarios de cambio climático (7.5)Objetivos:

Utilizar un ensamblado de modelos de distribución actual y futura de una especie vegetal para evaluar cambios potenciales en su distribución

Tareas:

Generar modelos de distribución actual y futura de una especie utilizando distintos algoritmos de modelado y variables de baja resolución

Importar a GRASS y transformar los modelos continuos en binarios para ensamblarlos

Medir las áreas de ocupación actual y futura, y componer un mapa que presente visualmente la información

Ejercicios propuestos

Cartografía de poblaciones de alta resolución de una especie amenazada, midiendo área potencial y preparando una visualización de los resultados sobre una imagen Landsat

Búsqueda de nuevas poblaciones a partir de los resultados del ejercicio anterior

Exploración libre de las ideas y conceptos que has aprendido: inventa y experimenta para buscar métodos de análisis y aplicaciones de los modelos que puedan ser útiles en tu trabajo