Estimating SWE in North America and Exploring the Generalization Error Using XGBoost and Random Forest

Røsvik, Eirik Storrud

Master thesis

Åpne

EirikSRO_Thesis.pdf (3.849Mb)

År

2022

Sammendrag

Estimering av snøens vannekvivalente dybde har lenge vært et mål. Snøsmelting er en viktig kilde til ferskvann for mange regioner i kalde klimaer og utnyttes som en verdifull ressurs innen jordbruk, kraftproduksjon og som drikkevann. Målinger av snøens vannekvivalent er kostbare og ressurskrevende, noe som har skapt et behov for metoder for å estimere dem. I denne artikkelen presenteres fem forskjellige metoder for å gjøre dette. Data hentet fra USA og Canada, bestående av 314105 målepunkter, danner grunnlaget for modellene. I tillegg har variabler blitt hentet fra ERA5-Land og prosessert. En block bootstrap metode har blitt anvendt for å undersøke generaliseringsfeilene i modellene. XGBoost og random forest er to nye metoder som har blitt undersøkt. I tillegg har en multilayer perceptron modell, foreslått av Ntokas et al. (2021), og to regresjonsmodeller foreslått av Jonas et al. (2009) og Sturm et al. (2010) blitt konstruert. Regresjonsmodellene presterte dårligst, mens en R2 score på over 0.98 ble oppnådd for de øvrige modellene. En høy generaliseringsfeil tyder likevel på at disse resultatene stammer fra overtrente modeller, da den høye nøyaktigheten ikke kunne bli reprodusert for nye regioner. Ved å anvende lokale målinger for å validere modellene ble generaliseringsfeilen redusert og modellene viste bedre resultater. XGBoost modellen hadde de beste resultatene med en R2 score på 0.93, mens både random forest og multilayer perceptron modellen hadde en R2 score på over 0.89 Random forest modellen utpreget seg ved å ha den laveste generaliseringsfeilen når den ble anvendt på et usett område. Bruk av kun regionale målepunkter viste seg å gi de beste resultatene ved bruk av XGB modellen, på tross av et mye mindre treningsdatasett. Det er blitt vist at reanalysert meteorologiske data bidrar til bedre modeller. For den beste XGBoost modellen anvendt til å estimere vannekvivalent i en nytt område, sto ERA5-Land deriverte variabler for 10% av modellens nøyaktighetsøkning. Forskjellige metoder har blitt foreslått ut i fra datagrunnlaget i området. Dersom ingen data eksisterer er random forest den modellen som presterte best, ettersom den hadde lavest generaliseringsfeil. Dersom noe data eksisterer kan den brukes til å validere XGBoost modellen for å oppnå bedre resultater. Der hvor tilstrekkelig data eksisterer ble det funnet at en XGBoost modell trent på disse punktene vil gi de beste resultatene. En score på 0.94 ble oppnådd ved denne metoden i Alaska.