Validación y validación cruzada
-
Upload
david-najar -
Category
Science
-
view
175 -
download
1
Transcript of Validación y validación cruzada
![Page 1: Validación y validación cruzada](https://reader036.fdocuments.ec/reader036/viewer/2022073013/58ee948c1a28aba4428b464d/html5/thumbnails/1.jpg)
VALIDACIÓN CRUZADA
Validación, validación cruzada y estadísticos de error en los procesos de
interpolación espacial de información climática: selección del método de
interpolación-modelización espacial más adecuado para la variable a cartografiar a
partir del análisis del error.
Validación cruzada y validación
Cuando se predicen valores de lugares no muestrales, disponemos
de dos herramientas para comprobar la validez del modelo que
estamos utilizando. Son la validación cruzada y la validación.
Ambas nos permiten tomar una decisión sobre el modelo que
proporciona las mejores predicciones y nos ayudan a seleccionar
la mejor cartografía que se ajusta a la realidad.
A) La validación cruzada (cross validation) utiliza todos los
datos muestrales para estimar el modelo de
autocorrelación.
¿CÓMO?
Cada vez quita un dato muestral y lo predice MEDIANTE EL MODELO
ESPECIFICADO con el resto de la muestra, después compara el
valor predicho de ese punto con el valor observado. Este
procedimiento se repite con cada uno de los puntos muestrales y
al final la validación cruzada compara los valores observados
con los calculados (predichos).
B) La validación, por el contrario, divide la muestra en dos
partes aleatoriamente. Una parte la utiliza como clase
para testar (test dataset), y la otra (training dataset)
la utiliza para calcular la tendencia y la autocorrelación
que se van a utilizar en la predicción.
Para poder llevar a cabo esta labor, con el Analista
Geoestadístico (Geostatistical Analyst) de ArcGIS y utilizando
las herramientas de crear subclases (create subset), se divide
la muestra en dos grupos de partida (training y test datasets).
Para comparar las predicciones con los valores reales el
Analista Geoestadístico proporciona diferentes gráficos y un
sumario de estadísticos que son los mismos para ambos métodos.
C) Validación de cartografía
Los pasos a seguir para validar la cartografía son los
siguientes:
1.- Se dividen los datos en dos subconjuntos: training y test.
El % suele oscilar entre un 75-80 % para los datos training y
entre un 20-25 % para los test
![Page 2: Validación y validación cruzada](https://reader036.fdocuments.ec/reader036/viewer/2022073013/58ee948c1a28aba4428b464d/html5/thumbnails/2.jpg)
Los datos del subconjunto training se emplean en los distintos
métodos de interpolación (Inverso de la distancia, Funciones
radiales básicas, Método mixto, Regresión por pasos, Kriging,
Cokriging, etc..). Cada uno de ellos genera una cartografía
diferente con unos valores predichos.
2.- Realizada la operación de interpolación se transfiere el
resultado a una capa raster, mediante un SIG, para cada método
empleado.
3.- Concretamente, en ArcGIS, con la herramienta Extract Multi
Values to Points se transfieren los resultados de los distintos
métodos de interpolación a las coordenadas de los puntos que se
han denominado test y que no se han utilizado en ninguno de los
métodos.
4.- La tabla de atributos resultante del paso anterior es
exportada a una hoja de cálculo para hallar el error cuadrático
medio (Root Mean Square Error (RMSE)) de cada uno de los métodos
de interpolación. El RMSE valora la bondad de ajuste de los
valores predichos frente a los valores observados.
𝑅𝑀𝑆𝐸 = √∑ (𝑃𝑖 − 𝑂𝑖)2𝑛
𝑖=1
𝑛
5.- Para el cálculo de RMSE restamos a los valores predichos por
los modelos en el mismo punto geográfico los valores de los
datos observados. (PREDICHOS-OBSERVADOS)
Esta diferencia se eleva al cuadrado para cada punto y se
realiza el promedio de todos los valores obtenidos.
Posteriormente se realiza la raíz cuadrada del promedio de cada
método y se obtendrá un valor de RMSE para cada método.
6.- Una vez obtenido el RMSE individual de cada método se
seleccionará la cartografía correspondiente al método que menor
valor haya resultado. Cuanto más pequeño sea el valor de RMSE
mejores serán las predicciones del método.
Además del RMSE hay otros estadísticos de error que ayudan a la
decisión en la elección de la cartografía de los distintos
métodos de interpolación:
i) Media de los errores (Mean prediction errors) y media
estandarizada (Mean standarized prediction errors)
𝑀𝑒𝑑𝑖𝑎 𝑑𝑒 𝑙𝑜𝑠 𝑒𝑟𝑟𝑜𝑟𝑒𝑠 = ∑(𝑃𝑖−𝑂𝑖 )
𝑛
𝑛𝑖=1 Es el promedio de la
diferencia entre los valores predichos y los observados. Si
el valor es cercano a 0 habrá una mejor predicción
![Page 3: Validación y validación cruzada](https://reader036.fdocuments.ec/reader036/viewer/2022073013/58ee948c1a28aba4428b464d/html5/thumbnails/3.jpg)
𝑀𝑒𝑑𝑖𝑎 𝑒𝑠𝑡𝑎𝑛𝑑𝑎𝑟𝑖𝑧𝑎𝑑𝑎 𝑑𝑒 𝑙𝑜𝑠 𝑒𝑟𝑟𝑜𝑟𝑒𝑠 = ∑(𝑃𝑖−𝑂𝑖)/𝛿𝑖
𝑛
𝑛𝑖 =1 Si el
valor es cercano a 0 habrá una mejor predicción. Se utiliza
como mejoría del anterior estadístico para evitar la
influencia de la escala de los datos
ii) Se puede valorar la variabilidad de las predicciones.
Para ello, si el error típico medio de la predicción
(Average estándar error) está próximo al error
cuadrático medio, la variabilidad de la predicción se
calcula correctamente.
𝐸𝑟𝑟𝑜𝑟 𝑡í𝑝𝑖𝑐𝑜 𝑚𝑒𝑑𝑖𝑜 = √∑ 𝜕𝑖
2𝑛𝑖=1
𝑛
Es decir: si error típico medio > RMSE entonces se sobrestima la
variabilidad
Si el error típico medio < RMSE entonces se infraestima
la variabilidad
También se puede verificar la variabilidad a través del error
cuadrático medio estandarizado (root mean square standardized
error)(RMSSE)
𝑅𝑀𝑆𝑆𝐸 =√
∑ [(𝑃𝑖 − 𝑂𝑖
)𝛿𝑖
]𝑛𝑖=1
2
𝑛
Si RMSSE aprox. 1 los errores de la predicción son válidos
Si RMSSE > 1 entonces se está infraestimando la variabilidad de las
predicciones
Si RMSSE < 1 entonces se está sobreestimando la variabilidad de las
predicciones