焦思佳,吳田軍,董世英,王長鵬
(長安大學(xué) 理學(xué)院,陜西 西安 710064)
20世紀60年代,以衛(wèi)星定位系統(tǒng)、地理信息系統(tǒng)和遙感為支撐的空間信息技術(shù)逐漸發(fā)展起來,大量帶有空間位置的數(shù)據(jù)被采集、處理并應(yīng)用[1-2].相比于其他數(shù)據(jù),空間數(shù)據(jù)因其時空相關(guān)性的特性,難以使用變量獨立性假設(shè)的經(jīng)典統(tǒng)計學(xué)方法,這使得幾何空間中的牛頓推測等方法并不適用.1970年,Toblert[3]提出“地理學(xué)第一定律”,為空間數(shù)據(jù)的分析和應(yīng)用提供了理論基礎(chǔ).在該領(lǐng)域,將離散點的測量數(shù)據(jù)轉(zhuǎn)化為連續(xù)數(shù)據(jù)表面的空間推測是最為重要研究問題之一.經(jīng)過幾十年的持續(xù)發(fā)展,空間推測算法不斷完善,并逐漸被應(yīng)用到土壤水質(zhì)、海洋環(huán)境、地質(zhì)勘探、空氣質(zhì)量等諸多領(lǐng)域.但隨著生產(chǎn)力的進步,社會以及經(jīng)濟生活對地理空間信息的精細性、時效性需求進一步凸顯,這也倒逼各領(lǐng)域?qū)臻g推測算法提出更高的要求.因此,進一步發(fā)展空間推測模型,提升專題制圖水平,具有重要現(xiàn)實意義.
目前,典型的空間推測方法大致可分為以下四類:(1)以反距離加權(quán)(Inverse Distance Weighted, IDW)為代表的確定性推測方法.IDW[4]是一種以距離作為權(quán)重的滑動平均加權(quán)推測方法,伴隨著實際問題數(shù)據(jù)集的復(fù)雜性,基本的IDW滿足不了空間推測需求,因此,在之后的研究中其經(jīng)過不斷改進發(fā)展,例如,王可偉等[5]在IDW中引入圓形窗口與夾角權(quán)因子,有效地提高建模的效率與精度.(2)以克里金(Kriging)為代表的地統(tǒng)計推測方法.克里金方法是1951年南非地質(zhì)學(xué)家克里金(Krige)首次提出,后經(jīng)法國著名數(shù)學(xué)家Matheron發(fā)展深化[6].由于克里金將空間相關(guān)性考慮在內(nèi)以及使用克里金標(biāo)準偏差量化推測誤差這一優(yōu)點,成為主流方法,隨后也有一定的擴展,例如泛克里金(Universal Kriging, UK)[7]、具有外部漂移的克里金(Kriging with External Drift, KED)[8].劉婕[9]運用UK推測北京市六城區(qū)預(yù)估點的PM2.5,并驗證統(tǒng)計值通過F檢驗及t檢驗.鄔春明等[10]提出基于線性動態(tài)變化因子結(jié)合柯西變異粒子群算法對變異函數(shù)的擬合模型參數(shù)進行最優(yōu)化估計,同時在適應(yīng)度函數(shù)中引入克里金地理權(quán)重來增強變量的空間相關(guān)性,有效地提高推測精度并改善變異函數(shù)擬合曲線誤差過大的問題.(3)以回歸克里金(Regression Kriging, RK)代表的組合方法.Mohanasundaram等[11]運用RK推測預(yù)估點的地下水位,證明推測結(jié)果優(yōu)于其他克里金方法.當(dāng)然,機器學(xué)習(xí)(Machine Learning, ML)的不斷發(fā)展同時促進RF與克里金組合,例如,Li等[12]將RF、廣義線性模型與地統(tǒng)計方法組合,證明這些組合方法比傳統(tǒng)模型精度更高.(4)以ML為代表的推測方法.2001年,Breiman[13]提出RF,并且說明RF適用于回歸問題,同年,Rigol等[14]首次提出在運用神經(jīng)網(wǎng)絡(luò)(Neural Network, NN)推測時,將回歸趨勢與空間關(guān)聯(lián)性一同考慮.2011年,Li等[15]提出將RF應(yīng)用到環(huán)境變量的空間推測中,并與普通克里金(Ordinary Kriging, OK)、IDW組合,表明提出方法的有效性以及對輸入變量的敏感性.WU等[16]提出基于地理圖斑的RF空間推測方法,相較于傳統(tǒng)的基于規(guī)則網(wǎng)格的方法,該方法在推測精度方面有一定的提高.盡管ML在空間推測方面非常成功,但在直接使用該類技術(shù)時大多沒有考慮到觀測值是具有地理空間自相關(guān)的.因此,在之后的研究中,經(jīng)度、緯度等地理背景相關(guān)的推測因子被引入到模型構(gòu)建中.Behrens等[17]提出將地理空間自相關(guān)的歐式距離與ML組合,并證明比RK、地理加權(quán)回歸(Geographically Weighted Regression, GWR)等方法更具優(yōu)勢.Hengl等[18]在2018年提出“Random Forest for spatial prediction (RFsp)”模型,其以預(yù)估點到樣本點的緩沖距離作為推測因子,證明其相較于線性地統(tǒng)計建模與克里金等傳統(tǒng)方法,提高了推測精度.2020年,Sekulic等[19]提出“Random Forest Spatial Interpolation (RFSI)”模型,其將鄰近點的觀測值以及到預(yù)估點的距離作為推測因子引入模型中,并驗證RFSI的推測結(jié)果優(yōu)于克里金以及RFsp.
RFsp、RFSI分別以預(yù)估點與所有樣本點的緩沖距離、鄰近點的觀測值與其到預(yù)估點的距離作為推測因子來彌補RF在空間推測方面的不足,但RFSI對于距離的應(yīng)用仍存在潛在問題,且模型中運用的鄰近點被考慮在同一等級水平中,這并未充分體現(xiàn)地理學(xué)第一定律的空間相關(guān)性原則.有鑒于此,針對RFSI的上述不足,本文提出基于位置距離的反距離加權(quán)隨機森林(Random Forest with Inverse Distance Weighted based on location distance, RFIdw)模型,主要針對樣本點的觀測值與到預(yù)估點的距離實施反距離加權(quán)策略,將距離因素的遠近考慮在內(nèi),離預(yù)估點越近的樣本點將賦予更高的權(quán)重.另外,由于反距離加權(quán)組合之后,建模過程中的推測因子減少,隨機森林的mtry等參數(shù)設(shè)置將會在更小的范圍,從而減少模型擬合時間.本文通過Spatial Interpolation Comparison 97 (SIC97)數(shù)據(jù)對RFIdw與RK、RFsp、RFSI加以比較,驗證RFIdw在空間推測方面的有效性.
降水量由于受地區(qū)、海拔等各種因素影響,往往呈現(xiàn)出復(fù)雜的空間分布趨勢,因此,在空間推測研究方面被廣泛應(yīng)用.本文通過SIC97數(shù)據(jù)集所對應(yīng)的研究區(qū)以及包含的具體數(shù)值加以介紹,更好地闡明RFIdw模型的應(yīng)對問題.
本文選取瑞士作為研究區(qū)域如圖1所示,該區(qū)域地處歐洲中南部,位于北緯45°49′~47°48′,東經(jīng)5°57′~10°29′之間,國土面積約為4.1萬km2,地域雖小,但各地氣候差異很大.阿爾卑斯山由東向西伸展,形成了瑞士氣候的分界線,以北地區(qū)受溫和潮濕的西歐海洋性氣候和冬季寒冷夏季溫?zé)岬臇|歐大陸性氣候的交替影響,變化較大;以南地區(qū)則屬地中海氣候,全年氣候宜人.全國年降水量在 1 000~2 000 mm 之間,3/4地區(qū)平均年降水量超過 1 000 mm.該區(qū)域的降水深受地形的影響,高山峻嶺處降水量遠遠超過中部高原一些地區(qū)及河谷地帶.
圖1 瑞士DEM與站點圖Fig.1 Station locations in Swiss on top of DEM of study area
本文數(shù)據(jù)集包括了站點觀測的降水量數(shù)據(jù)集、DEM、CHELSA(Climatologies at high resolution for the earth’s land surface areas)降水量數(shù)據(jù)等,具體說明如下.
1) 降水量數(shù)據(jù).研究采用的降水量數(shù)據(jù)是1997年4月在環(huán)境研究所(Joint Research Centre, EC, Ispra)放射性環(huán)境監(jiān)測機構(gòu)下組織的一項活動中所收集,該數(shù)據(jù)集包括1986年5月8日測量的100次降水量以及估計的367個站點降水量,單位為 0.1 mm[20].具體信息如表1所示.
2) DEM數(shù)據(jù).研究采用的DEM數(shù)據(jù)是從https://www.usgs.gov/獲取,空間分辨率為 1 km,具體信息如圖1所示.
3) CHELSA降水量數(shù)據(jù).由于向上的氣流加劇山頂斜坡位置的云和降水形成,而局部環(huán)流系統(tǒng)沿山谷軸線的下沉分支導(dǎo)致云溶解相應(yīng)地降低谷底的降水量這種特殊的地形降水效應(yīng),阿爾卑斯山山頂可能會有較高的降水量.CHELSA降水量數(shù)據(jù)則是對其降水效應(yīng)進行近似,并將其運用到ERA-Interim氣候再分析降尺度模型中輸出的結(jié)果[21].
目前,空間推測技術(shù)的發(fā)展主要分為兩個階段,前一階段主要是克里金等傳統(tǒng)方法的發(fā)展,但其理論性高,有諸多假設(shè)條件,并且由于數(shù)據(jù)集的復(fù)雜性,很難滿足.因此,后一階段二十一世紀初興起的ML彌補了傳統(tǒng)方法的部分缺點,引發(fā)了空間推測方法的進一步提升,并被廣泛應(yīng)用到各領(lǐng)域.而本文就是在RFSI模型的基礎(chǔ)上加以改進,提出RFIdw模型.
2.1.1 RFSI方法與模型
由于RF中忽略了樣本點之間的空間自相關(guān)性,可能會導(dǎo)致推測結(jié)果不準確,為彌補這項不足,構(gòu)建了RFSI模型,其是在RF的基礎(chǔ)上引入鄰近點的觀測值以及到預(yù)估點的水平位置距離,公式表達式如下:
(1)
式中:covj(s0)(j=1,…,m)為預(yù)估點s0類似海拔、溫度、NDVI等的推測因子,z(si)為第i個鄰近點si的觀測值,dloci(i=1,…,n)是第i個鄰近點si與預(yù)估點s0之間的水平位置距離.RFSI將鄰近點的信息考慮在內(nèi),相比RF、RFsp更加接近空間推測原理.
2.1.2 RFIdw方法與模型
RFSI采用鄰近點的觀測值以及到預(yù)估點的水平位置距離反映推測位置的信息,但是由于模型構(gòu)建的最終目的是實現(xiàn)降水量的精準推測,而在RFSI模型訓(xùn)練的過程中,當(dāng)鄰近點到預(yù)估點的距離小于或者大于一定范圍時,推測的過程以相同的方式進行,這將導(dǎo)致推測結(jié)果出現(xiàn)偏差.因此,為減小距離對模型訓(xùn)練過程中的影響以及充分體現(xiàn)地理學(xué)第一定律,本文在RFSI的基礎(chǔ)上加以改進提出RFIdw模型,其大致可以分為反距離加權(quán)和模型構(gòu)建兩部分,核心思想是針對RFSI中選取的鄰近點的觀測值以及到預(yù)估點的距離反距離加權(quán),其組合值與原有的環(huán)境推測因子構(gòu)建形成RFIdw模型.模型的表達式為:
(2)
(3)
對于ωi(s0),其表達式為:
(4)
(5)
式中:(xi,yi)為第i個鄰近點si的位置,(x0,y0)為預(yù)估點s0的位置,l為反距離的指數(shù).結(jié)合SIC97降水量數(shù)據(jù),本文基于RFIdw模型執(zhí)行空間推測過程的算法偽代碼如表2所示.
為驗證RFIdw模型推測結(jié)果的效性以及準確性,選取RK、RFsp、RFSI三種方法與其進行比較,并利用平均絕對值誤差(Mean Absolute Error, MAE)、均方根誤差(Root Mean Square Error, RMSE)、判定系數(shù)(Coefficient of Determination,R2)、一致相關(guān)系數(shù)(Concordance Correlation Coefficient, CCC)這四個評價標(biāo)準加以比較,公式如下:
(6)
(7)
(8)
(9)
表2 基于RFIdw模型的空間推測算法偽代碼
基于RK、RFsp、RFSI以及RFIdw模型的空間推測結(jié)果以及不確定性如圖2、圖3所示,其中(d)為RFIdw的推測結(jié)果圖與不確定性圖.由圖2(d)推測結(jié)果可知,降水量呈由西南角到東北角帶狀分布趨勢,其中,瑞士西部區(qū)域降水量較多,中部區(qū)域降水量較少.由圖3(d)的不確定性結(jié)果可知,絕大部分區(qū)域推測標(biāo)準差保持在較小的水平,較大的區(qū)域主要在瑞士的東部區(qū)域,結(jié)合圖1的DEM數(shù)據(jù)可知,瑞士的東南部區(qū)域海拔比其他區(qū)域高,導(dǎo)致站點數(shù)據(jù)稀缺,以致空間推測方法難以在這一區(qū)域捕捉到有效信息,如需更準確地掌握該區(qū)域的降水量情況,還需要進一步獲取樣本點的信息.
圖2 RK (a)、RFsp (b)、RFSI (c)、RFIdw (d)瑞士降水量推測圖Fig.2 RK (a),RFsp (b),RFSI (c),RFIdw (d) spatial prediction results of Swiss rainfall
圖3 RK(a)、RFsp(b)、RFSI(c)、RFIdw(d)瑞士降水量推測標(biāo)準差圖Fig.3 RK(a),RFsp(b),RFSI(c),RFIdw(d) Swiss rainfall prediction standard error
結(jié)合RK、RFsp、RFSI空間推測以及不確定性圖與RFIdw相比較,降水量的推測結(jié)果總體趨勢大致相同,但在局部個別區(qū)域中差異明顯,主要集中在瑞士阿爾卑斯山以南海拔較高的區(qū)域,相比于RFsp、RFSI,RFIdw推測結(jié)果更加精確.在不確定性方面,本文以標(biāo)準差為評價指標(biāo),其中,RK標(biāo)準差的表達式為:
(10)
式中:C0、C1是變異函數(shù)的參數(shù),c0是預(yù)估點與樣本點之間的協(xié)方差向量,q是推測因子的n×(p+1)維矩陣,C是樣本點之間n×n維的協(xié)方差矩陣,q0是預(yù)估點s0處的p+1維推測因子向量,對于RFsp、RFSI、RFIdw的標(biāo)準差則為:
(11)
相對RFsp、RFSI、RFIdw三種方法的標(biāo)準差圖,RK標(biāo)準差相對較小,但是其標(biāo)準差呈現(xiàn)均勻分布的趨勢,對不確定信息的衡量包含的信息相對較少,即特殊點(預(yù)估點周圍樣本點相對較少)的標(biāo)準差無法更加標(biāo)準地度量.基于RF的三種空間推測方法RFIdw、 RFsp、RFSI在推測標(biāo)準差方面不同之處主要集中在瑞士偏東南的區(qū)域中,RFsp的標(biāo)準差基本保持在150相對較高的水平,RFSI雖然減小部分區(qū)域的標(biāo)準差,但仍有小部分區(qū)域保持在較高水平,相對于RFsp、RFSI,RFIdw的誤差對于東南的區(qū)域明顯降低.結(jié)合四種空間推測方法的推測結(jié)果與不確定信息來看,RFIdw推測結(jié)果保持著較高的精度,并且在不確定性方面,RFIdw與RFsp、RFSI相比,標(biāo)準差更小,與RK相比,不確定性更加具有信息性,因此,RFIdw對于空間推測的結(jié)果更加合理.
本文提出的RFIdw模型與RK、RFsp、RFSI交叉驗證結(jié)果如表3所示.對比發(fā)現(xiàn),在推測精度方面,RK最大,RFsp最?。辉谕茰y標(biāo)準差方面,則相反.此外,從圖4觀測值與推測值的相關(guān)圖可得知,相較于RFIdw,RFsp、RFSI是相對分散的,同時證實了表3中RFsp、RFSI方法較高的RMSE,較低的R2、CCC.
表3 基于五折交叉驗證四種推測方法的精確度
(a) RK相關(guān)圖 (b) RFsp相關(guān)圖 (c) RFSI相關(guān)圖 (d) RFIdw相關(guān)圖圖4 RK (a)、RFsp (b)、RFSI (c)、RFIdw (d)基于觀測值與推測值的相關(guān)圖Fig.4 RK (a),RFsp (b),RFSI (c),RFIdw (d) correlation plots based on observations and predictions
進一步分析,由于RK是克里金與多元線性回歸的組合,其具有克里金平穩(wěn)性、殘差服從正態(tài)分布等假設(shè)條件,雖然在SIC79數(shù)據(jù)推測結(jié)果方面,其表現(xiàn)出更高的推測精度,但是,在復(fù)雜的實際問題中,這些理想化條件往往很難滿足,以致于結(jié)果可能會出現(xiàn)偏差;RFsp雖然將空間位置關(guān)系考慮在內(nèi),但緩沖距離計算的過程往往緩慢,并且在本次實驗中,并沒有很高的推測精度;RFSI將樣本點之間的空間自相關(guān)性考慮在內(nèi),但是模型訓(xùn)練過程中距離的應(yīng)用可能導(dǎo)致推測結(jié)果的偏差.因此,相較于RK、RFsp、RFSI,RFIdw在空間推測方面不失為一種好的選擇.
為獲得精確的空間推測結(jié)果,本文發(fā)展了一種基于水平位置距離的反距離加權(quán)隨機森林RFIdw模型,不僅考慮了鄰近點的觀測值以及到預(yù)估點的距離,并對每個鄰近點賦以權(quán)重,從而更好地體現(xiàn)了地理學(xué)第一定律的思想.為了驗證RFIdw在空間推測準確性與不確定性等方面,本文通過SIC97數(shù)據(jù)進行了對比實驗,將RFIdw與RK、RFsp、RFSI這三種空間推測模型加以比較,從推測制圖效果、不確定性以及交叉驗證精度分析,RFIdw相較于RK,減少了例如克里金模擬變異函數(shù)等的過程;相較于RFsp,減少計算緩沖距離的過程,提高模型訓(xùn)練的速度;相較于RFSI,有效地解決模型訓(xùn)練過程中應(yīng)用距離的問題,并且得出RFIdw在推測結(jié)果方面優(yōu)于RFsp、RFSI這兩種方法,在不確定性表達方面更加具有信息性.
雖然本文中的RFIdw模型在空間推測方面有一定的有效性與準確性,但仍存在問題亟待解決:首先,針對本文的推測結(jié)果,RFIdw的結(jié)果稍遜于RK,可能由于在RFIdw模型中考慮的只是簡單的反距離加權(quán),因此,未來應(yīng)該對權(quán)重設(shè)計開展更加深入的研究,例如引入鄰近點之間的距離以及對權(quán)重指數(shù)的復(fù)雜化[22],使權(quán)重更加合理化;其次,本文對距離的刻畫只是兩點之間的水平位置距離,沒有考慮到海拔等距離的因素,導(dǎo)致可能兩點之間雖然幾何空間中距離相近,但在地理空間中兩點并不相似,以致選取的鄰近點可能有失偏頗,今后可以考慮地理空間中的測地距離[23];最后,對RFIdw模型的評價方面,目前只考慮了推測結(jié)果及其不確定性,今后還可考慮其他方面的因子,以便更加全面地衡量模型性能.