Hide metadata

dc.contributor.authorRøsvik, Eirik Storrud
dc.date.accessioned2022-08-22T22:00:03Z
dc.date.available2022-08-22T22:00:03Z
dc.date.issued2022
dc.identifier.citationRøsvik, Eirik Storrud. Estimating SWE in North America and Exploring the Generalization Error Using XGBoost and Random Forest. Master thesis, University of Oslo, 2022
dc.identifier.urihttp://hdl.handle.net/10852/95373
dc.description.abstractEstimering av snøens vannekvivalente dybde har lenge vært et mål. Snøsmelting er en viktig kilde til ferskvann for mange regioner i kalde klimaer og utnyttes som en verdifull ressurs innen jordbruk, kraftproduksjon og som drikkevann. Målinger av snøens vannekvivalent er kostbare og ressurskrevende, noe som har skapt et behov for metoder for å estimere dem. I denne artikkelen presenteres fem forskjellige metoder for å gjøre dette. Data hentet fra USA og Canada, bestående av 314105 målepunkter, danner grunnlaget for modellene. I tillegg har variabler blitt hentet fra ERA5-Land og prosessert. En block bootstrap metode har blitt anvendt for å undersøke generaliseringsfeilene i modellene. XGBoost og random forest er to nye metoder som har blitt undersøkt. I tillegg har en multilayer perceptron modell, foreslått av Ntokas et al. (2021), og to regresjonsmodeller foreslått av Jonas et al. (2009) og Sturm et al. (2010) blitt konstruert. Regresjonsmodellene presterte dårligst, mens en R2 score på over 0.98 ble oppnådd for de øvrige modellene. En høy generaliseringsfeil tyder likevel på at disse resultatene stammer fra overtrente modeller, da den høye nøyaktigheten ikke kunne bli reprodusert for nye regioner. Ved å anvende lokale målinger for å validere modellene ble generaliseringsfeilen redusert og modellene viste bedre resultater. XGBoost modellen hadde de beste resultatene med en R2 score på 0.93, mens både random forest og multilayer perceptron modellen hadde en R2 score på over 0.89 Random forest modellen utpreget seg ved å ha den laveste generaliseringsfeilen når den ble anvendt på et usett område. Bruk av kun regionale målepunkter viste seg å gi de beste resultatene ved bruk av XGB modellen, på tross av et mye mindre treningsdatasett. Det er blitt vist at reanalysert meteorologiske data bidrar til bedre modeller. For den beste XGBoost modellen anvendt til å estimere vannekvivalent i en nytt område, sto ERA5-Land deriverte variabler for 10% av modellens nøyaktighetsøkning. Forskjellige metoder har blitt foreslått ut i fra datagrunnlaget i området. Dersom ingen data eksisterer er random forest den modellen som presterte best, ettersom den hadde lavest generaliseringsfeil. Dersom noe data eksisterer kan den brukes til å validere XGBoost modellen for å oppnå bedre resultater. Der hvor tilstrekkelig data eksisterer ble det funnet at en XGBoost modell trent på disse punktene vil gi de beste resultatene. En score på 0.94 ble oppnådd ved denne metoden i Alaska.eng
dc.language.isoeng
dc.subjectSWE
dc.subjectXGBoost
dc.subjectBlock Bootstrap
dc.subjectMachine Learning
dc.subjectRandom Forest
dc.subjectGeneralization Error
dc.subjectOverfitting
dc.titleEstimating SWE in North America and Exploring the Generalization Error Using XGBoost and Random Foresteng
dc.title.alternativeEstimering av Snøens Vannekvivalent i Nord-Amerika med Undersøkelse av Generaliseringsfeil med XGBoost og Random Forestnob
dc.typeMaster thesis
dc.date.updated2022-08-22T22:00:03Z
dc.creator.authorRøsvik, Eirik Storrud
dc.identifier.urnURN:NBN:no-97963
dc.type.documentMasteroppgave
dc.identifier.fulltextFulltext https://www.duo.uio.no/bitstream/handle/10852/95373/14/EirikSRO_Thesis.pdf


Files in this item

Appears in the following Collection

Hide metadata