趙 麗
哈爾濱師范大學(xué),黑龍江哈爾濱 150025
地表溫度(LST)是全球氣候系統(tǒng)中的一個(gè)重要參數(shù),是地表和大氣之間能量和水交換等過程的重要參數(shù)之一,也是驅(qū)動(dòng)土壤熱狀態(tài)的主要因子。準(zhǔn)確了解地表溫度有助于在全球和區(qū)域?qū)用嬖u(píng)估(模型中的)地表—大氣交換過程,并且當(dāng)其與植被、土壤水分等物理特性相結(jié)合時(shí),可提供有價(jià)值的地表狀態(tài)度量。地表溫度目前被廣泛應(yīng)用于全球氣候變暖研究、城市熱島(城市熱環(huán)境)效應(yīng)評(píng)估、地表蒸散量計(jì)算和干旱監(jiān)測等領(lǐng)域。然而,受衛(wèi)星遙感成像技術(shù)發(fā)展水平的制約,現(xiàn)有的LST數(shù)據(jù)產(chǎn)品在時(shí)間分辨率和空間分辨率上存在著矛盾。因此,通過使用單一衛(wèi)星產(chǎn)品無法獲取兼具高時(shí)間、高空間分辨率的LST數(shù)據(jù)[1]。過境周期為16 d的Landsat衛(wèi)星遙感影像數(shù)據(jù)有著比較高的空間分辨率,空間分辨率為1 000 m的MODIS/LST影像數(shù)據(jù)卻可以每天獲取4次。因而熱紅外遙感應(yīng)用研究中的首要問題是提升高時(shí)間分辨率LST影像數(shù)據(jù)的空間分辨率,為此,對低空間分辨率的LST數(shù)據(jù)進(jìn)行降尺度研究以提高數(shù)據(jù)質(zhì)量是當(dāng)前研究中的常規(guī)方法。
其中以建立地表溫度與回歸因子之間的統(tǒng)計(jì)關(guān)系,并假定地表溫度與回歸因子之間關(guān)系存在“尺度不變性”的統(tǒng)計(jì)回歸方法,和通過低空間分辨率高時(shí)間分辨率圖像與高空間分辨率低時(shí)間分辨率圖像有效融合以得出高空間高時(shí)間分辨率數(shù)據(jù)的圖像時(shí)空融合方法[2]。國內(nèi)外學(xué)者對地表溫度降尺度的研究方法眾多,這些方法也是在前人研究基礎(chǔ)上逐步優(yōu)化改進(jìn)而得到的。其中,較為被大家熟知的算法有Breiman[3]于2001年提出的隨機(jī)森林算法,它是以決策樹算法為基礎(chǔ)而改進(jìn)的一種機(jī)器學(xué)習(xí)模型,建立LST與驅(qū)動(dòng)因子間的非線性回歸關(guān)系。2003年,Kustas等[4]提 出 了DisTrad算 法,利用植被指數(shù)與輻射地表溫度之間的關(guān)系估計(jì)地表溫度亞像素變化。Agam等[5]在2007年提出了TsHAPR算法,證實(shí)了植被覆蓋與地表溫度之間的線性關(guān)系。
選取黑龍江省作為研究區(qū),以提高M(jìn)ODIS/LST產(chǎn)品的空間分辨率為研究目的,并選取NDVI、地表覆蓋、地表反射率及高程數(shù)據(jù),通過隨機(jī)森林算法構(gòu)建地表溫度降尺度模型。對選取的地表溫度進(jìn)行回歸預(yù)測,通過均方根誤差評(píng)價(jià)隨機(jī)森林模型對地表溫度降尺度的效果,以期為東北地區(qū)地表溫度研究提供參考。
黑龍江省是中國最東北部的省份,南北長約1 120 km,東西寬約930 km,轄區(qū)面積47.3萬km2。位置介于43°26′N~53°33′N,121°11′E~135°05′E。地勢呈西北部、北部和東南部高,東北部、西南部低,中部山區(qū)多,東部次之,西、北部較少,氣候?yàn)闇貛Т箨懶约撅L(fēng)氣候。
黑龍江地貌特征為“五山一水一草三分田”。地勢呈西北部、北部和東南部高,東北部、西南部低,由山地、臺(tái)地、平原和水面構(gòu)成;地跨黑龍江、烏蘇里江、松花江、綏芬河四大水系,屬寒溫帶與溫帶大陸性季風(fēng)氣候。黑龍江省位于東北亞區(qū)域腹地,是亞洲與太平洋地區(qū)陸路通往俄羅斯和歐洲大陸的重要通道,是中國沿邊開放的重要窗口。黑龍江省是我國重要的商品糧基地,農(nóng)用耕地1 187.1萬hm2,占農(nóng)用地的30%。黑龍江省也是我國最大的林業(yè)省份之一,其中分布在大小興安嶺的天然林是黑龍江省森林資源的主體(圖1)。
圖1 黑龍江省2020年的土地覆蓋分類
遙感圖像選取對應(yīng)區(qū)域的2020年MODIS LST地表溫度產(chǎn)品、植被指數(shù)NDVI產(chǎn)品、地表覆蓋產(chǎn)品、地表反射率產(chǎn)品以及高程數(shù)據(jù),MODIS數(shù)據(jù)如表1所示。其中,MODIS數(shù)據(jù)需要使用MODIS數(shù)據(jù)預(yù)處理工具M(jìn)RT(MODIS reprojection tool)對產(chǎn)品進(jìn)行提取、重投影,根據(jù)研究的需要對處理后的數(shù)據(jù)進(jìn)行裁剪處理。高程數(shù)據(jù)經(jīng)投影轉(zhuǎn)換后進(jìn)行裁剪、重采樣后提取坡度坡向數(shù)據(jù)。其中,MODIS 數(shù)據(jù)的預(yù)處理需要在MODIS的專門處理工具M(jìn)RT(MODIS Reprojection Tool)中進(jìn)行?;贛ODIS原始數(shù)據(jù)進(jìn)行拼接、重投影,并將數(shù)據(jù)的坐標(biāo)系轉(zhuǎn)換為WGS_84坐標(biāo)系,同時(shí)提取所需要的波段(表1)。其 中,MOD11A2數(shù) 據(jù) 提 取LST_白 天_1km、LST_夜 間_1km波 段,MOD13Q1數(shù)據(jù)提取16_days_NDVI波段,MOD09Q1數(shù)據(jù)提取sur_refl_b02波段,MCD12Q1數(shù) 據(jù) 提 取LC_Type1波段,并且將數(shù)據(jù)的格式由HDF格式更改為GEOTIFF格式。隨后利用黑龍江省邊界矢量圖在ArcGIS軟件中對研究區(qū)進(jìn)行裁剪。DEM數(shù)據(jù)通過ArcGIS軟件進(jìn)行合并、投影轉(zhuǎn)換后,再利用黑龍江省邊界矢量圖進(jìn)行裁剪和重采樣,并通過軟件中的工具計(jì)算出坡度坡向。從CRU TS數(shù)據(jù)官網(wǎng)(https://crudata.uea.ac.uk/cru/data/hrg/)下載溫度數(shù)據(jù)用于降尺度后的誤差驗(yàn)證。
表1 MODIS數(shù)據(jù)產(chǎn)品
隨機(jī)森林算法是一種非線性統(tǒng)計(jì)集成算法,由多科分類與回歸決策樹CART組合構(gòu)成。是一種基于決策樹算法改進(jìn)的高級(jí)算法,它的基本單元是決策樹,可用于回歸分析和分類。隨機(jī)森林模型是由Breiman于2001年提出的一個(gè)機(jī)器學(xué)習(xí)模型,一個(gè)樹型分類器,是通過集成學(xué)習(xí)的思想將多棵樹集成的一種算法,它的本質(zhì)屬于機(jī)器學(xué)習(xí)中的集成學(xué)習(xí),是將多棵決策樹進(jìn)行集成的算法,在變量數(shù)量遠(yuǎn)大于觀察數(shù)量的環(huán)境中體現(xiàn)出了優(yōu)越的性能。
隨機(jī)森林主要體現(xiàn)在2個(gè)方面:一是隨機(jī)選取訓(xùn)練集,隨機(jī)森林隨機(jī)且有放回地從訓(xùn)練集中抽取樣本作為每棵樹的訓(xùn)練集,保證了每棵決策樹有不同的訓(xùn)練集;二是隨機(jī)選取特征變量,避免某個(gè)特征變量與結(jié)果之間具有強(qiáng)相關(guān)性,因?yàn)樘卣髯兞咳勘贿x取會(huì)導(dǎo)致所有決策樹的相似性加強(qiáng)。隨機(jī)森林模型的構(gòu)建從每一棵CART決策樹的根節(jié)點(diǎn)開始,持續(xù)輸入特征變量進(jìn)行測試,被正確分類后構(gòu)建葉節(jié)點(diǎn),將其分類到對應(yīng)的葉節(jié)點(diǎn);它的構(gòu)建是對大量隨機(jī)、不相關(guān)的決策樹進(jìn)行平均,用于分類或回歸的目的[6],最后的結(jié)果是由多棵樹共同決定的。此外,它的通用性足以應(yīng)用于大規(guī)模問題,適應(yīng)各種臨時(shí)學(xué)習(xí)任務(wù)。
構(gòu)建隨機(jī)森林模型,首先要從原始數(shù)據(jù)集中隨機(jī)抽取多個(gè)樣本生成訓(xùn)練集,在此基礎(chǔ)上生成決策樹,從而構(gòu)成隨機(jī)森林(圖2)。假設(shè)RF模型中共有M個(gè)風(fēng)險(xiǎn)指標(biāo),隨機(jī)抽取m個(gè)(m≤M)作為節(jié)點(diǎn)指標(biāo),選取基尼最小值當(dāng)作分支標(biāo)準(zhǔn),依照決策樹的預(yù)測結(jié)果,以投票方式?jīng)Q定新樣本的類別[7]。每次抽樣未被抽中的數(shù)據(jù)構(gòu)成了袋外數(shù)據(jù)(Out of bag,OOB),利用袋外數(shù)據(jù)估計(jì)內(nèi)部誤差,稱之為袋外誤差(Error of out of bag,EOOB),公式如下:
圖2 隨機(jī)森林模型的建立過程
式(1)中:n為OOB樣本個(gè)數(shù):為根據(jù)給定樣本Xi基于RF模型的輸出數(shù)據(jù);Yi為觀測數(shù)據(jù)。
此外,該模型通過對算法中OOB誤差的估計(jì)評(píng)價(jià)特征變量的重要性。先計(jì)算每個(gè)決策樹的袋外誤差,然后在對風(fēng)險(xiǎn)指標(biāo)的數(shù)據(jù)隨機(jī)中加入噪聲并計(jì)算袋外誤差,風(fēng)險(xiǎn)指標(biāo)的重要性公式如下:
式(2)中改變指標(biāo)i造成的袋外誤差EOOB2越大,表明變量i越重要。
為了檢驗(yàn)隨機(jī)森林模型的降尺度效果是否可行,將黑龍江省的氣溫?cái)?shù)據(jù)作為真實(shí)的LST數(shù)據(jù),選取均方根誤差(Root Mean Square Error,RMSE)檢驗(yàn)指標(biāo)。RMSE用以衡量觀測值與真實(shí)值之間的偏離程度,RMSE值越小,則擬合精度越高,即
式(3)中:n為參與評(píng)價(jià)的像元數(shù)目;Toi為第i個(gè)像元的真實(shí)LST;Tei為第i個(gè)像元對應(yīng)的降尺度算法模擬的LST。
通過隨機(jī)森林算法對黑龍江省地表溫度進(jìn)行降尺度,以MOD11A2數(shù)據(jù)作為因變量,植被指數(shù)、地表覆蓋、地表反射率和高程數(shù)據(jù)作為解釋變量,建立隨機(jī)森林降尺度模型,對地表溫度進(jìn)行回歸預(yù)測,并評(píng)價(jià)隨機(jī)森林算法在地表溫度降尺度中的表現(xiàn)。降尺度效果較好(圖3),紋理清晰,降尺度后地表溫度的均方根誤差(RMSE)為2.13 K,誤差在可接受范圍內(nèi)。
圖3 黑龍江的省原始LST與降尺度結(jié)果對比
利用黑龍江省MO11A2/LST遙感圖像數(shù)據(jù),通過建立隨機(jī)森林模型對1 000 m分辨率的LST數(shù)據(jù)進(jìn)行降尺度,得到250 m分辨率的LST數(shù)據(jù),效果較好,證明了以黑龍江省為研究區(qū),使用隨機(jī)森林對MODIS/LST數(shù)據(jù)進(jìn)行降尺度處理的可行性。但不同土地覆蓋類型區(qū)域的降尺度效果存在差異,在植被覆蓋區(qū)、水域和城鎮(zhèn)地區(qū)降尺度的精度也存在著細(xì)微的差別,在今后的研究中有待進(jìn)一步討論。