朱繼文,席志龍,陳景玨
(1.黑龍江工程學(xué)院 測繪工程學(xué)院,哈爾濱 150050;2.成都理工大學(xué) 地球科學(xué)學(xué)院,成都 610059)
淡水資源是人類最寶貴的資源之一,據(jù)統(tǒng)計,全球有湖泊數(shù)量3.04億個,面積為420萬km2,蓄水面積33.7萬km2,總計453.7萬km2,占地球陸地面積3%以上[1],淡水湖泊占陸地面積較少,因此,研究水體分布對水資源調(diào)查具有重要意義。合成孔徑雷達(dá)(Synthetic Aperture Radar,SAR)能穿透云層,可以獲取處于惡劣天氣情況下的影像,應(yīng)用SAR圖像進行水體提取逐漸受到眾多學(xué)者青睞[2]。
SAR衛(wèi)星的側(cè)視成像方式使得影像上存在山體陰影,并且SAR影像還存在相干斑噪聲[3],這對于獲取精確的水體信息造成了極大的困難。監(jiān)督分類和非監(jiān)督分類是水體提取的常用方法,當(dāng)前研究較多的是監(jiān)督分類法[4],主要有最大似然、神經(jīng)網(wǎng)絡(luò)和支持向量機(Support Vector Machine,SVM)等。當(dāng)分類器的輸入特征只有雷達(dá)強度影像時,斑點噪聲和山體陰影易被分類成水體,沒有正確被預(yù)測和分類,出現(xiàn)了誤提取現(xiàn)象,從而影響到水體提取的總體精度。1973年Haralick等[5]提出灰度共生矩陣(Gray-Level Co-occurrence Matrix,GLCM),基于GLCM可以間接地計算出圖像的14個紋理特征。利用SAR圖像的紋理特征可以增加模型的特征空間,極大地提高了模型訓(xùn)練和預(yù)測精度。然而,特征的增加不會使得模型精度不斷提高,過多的特征很可能會使分類模型精度下降,同時浪費計算機算力,適當(dāng)?shù)奶卣鲾?shù)量更有利于分類模型訓(xùn)練和預(yù)測。陳媛媛等[6]在構(gòu)建SVM分類器時,加入了熵、角二階矩、差異性和同質(zhì)性4種紋理特征作為模型因子參與訓(xùn)練,提取了南京市水體初始分布圖,并采用數(shù)字高程模型(Digital Elevation Model,DEM)模擬地形信息消除山體陰影,其結(jié)果表明:紋理特征有效地減少了奇次散射以及淹水期水田與城市水體的混淆。史旭等[7]獲取了汶川地震期間堰塞湖區(qū)域SAR影像,使用平均值、對比度和差異性3種紋理特征用于構(gòu)建最大似然分類器,并用DEM進行仿真以消除大部分山體陰影。鄧瀅等[8]使用同質(zhì)性紋理特征與Freemen-Durden三分量特征,以像元為單位進行眾數(shù)投票提取水體信息,其研究表明:同質(zhì)性的加入使得各項精度指標(biāo)都有所提升,提高了小型水體的檢測率。
文中綜合上述紋理特征對最后分類結(jié)果的作用,在14個紋理特征中選取5個,分別是對比度、差異性、熵、同質(zhì)性和角二階矩。選擇隨機森林作為提取水體的分類器,用DEM、5種紋理特征和強度圖作為模型的特征空間輸入到隨機森林中,在像素級別上進行預(yù)測,對水體信息提取進行探究。
武穴市是湖北省黃岡市管轄的一個縣級市,地處長江中游北岸,擁有長江十大深水良港之一的武穴港。武穴北依大別山,南臨長江,地形包括低山區(qū)、丘陵崗地和沿江平原,地勢西北高而東南低。其地理范圍在29°49′28″N~30°13′10″N和115°22′03″E~115°49′45″E之間。2020年6月至8月,我國多地暴雨黃色預(yù)警,長江干流先后也發(fā)布了5次編號洪水,為此,以2020年7月20日的Sentinel-1A雷達(dá)影像為基本底圖,使用隨機森林模型,提取了武穴市的水體信息圖。
歐洲太空局于2014年發(fā)射了Sentinel-1A衛(wèi)星,采用C波段對地球進行觀測,是“哥白尼計劃”發(fā)射的第一顆環(huán)境監(jiān)測衛(wèi)星。其設(shè)計軌道高度約693,重訪周期為12 d。該衛(wèi)星搭載的傳感器共有4種成像模式,分別為超寬幅模式(EW)、條帶模式(SM)、波模式(WV)和寬幅模式(IW)。文中實驗數(shù)據(jù)為Sentinel-1A雷達(dá)影像,獲取了2020年7月20日覆蓋武穴市Sentinel-1A寬幅模式VH極化影像,所使用的影像數(shù)據(jù)經(jīng)過多視、濾波、地理編碼和輻射校正處理。多視和濾波能夠有效抑制相干斑噪聲[3,9],在對數(shù)據(jù)進行處理時使用了5∶1的多視比和3×3窗口Frost濾波[10]。地理編碼和輻射校正利用研究區(qū)的DEM將雷達(dá)坐標(biāo)下的影像轉(zhuǎn)為地理坐標(biāo)系,同時消除由地形起伏引起的輻射畸變[11]。研究區(qū)域原始影像經(jīng)過處理得到地理編碼后的強度圖如圖1所示。
圖1 強度影像
GLCM是通過研究圖像灰度的空間相關(guān)特性來描述圖像的紋理特征。GLCM通常在0°、45°、90°和135°共4個方向進行計算,GLCM內(nèi)的元素可由式(1)得出[12]。
p(i,j,δ,θ)={(x,y),(x+dx,y+dy)∈
N×N|f(x,y)=i,f(x+dx,y+dy)=j}.
(1)
假設(shè)圖像大小為N×N,式(1)中(x,y)為參考點;(x+dx,y+dy)為偏移點;i為參考點灰度值;j為偏移點像素。
基于GLCM可以計算對比度(Con)、差異性(Dis)、熵(Ent)、同質(zhì)性(Hom)和角二階矩(Asm)5種紋理特征,計算公式見式(2)~式(6)。
(2)
(3)
(4)
(5)
(6)
文中使用SAR強度影像作為基本底圖計算出GLCM,再由GLCM計算5種紋理特征。將紋理特征、原始強度影像和武穴市DEM作為因子參與水體提取模型的構(gòu)建,因子大致情況如表1所示。
表1 構(gòu)建隨機森林模型因子
圖2顯示了武穴市5種紋理特征的因子以及DEM因子。
圖2 紋理特征及DEM
圖2(a)可以看到城市區(qū)域和山頂區(qū)域Con值較大,與水體顏色差異明顯,陸地顏色與水體和城市活動區(qū)也有明顯的差異,而水體較陸地顏色更深。圖2(b)中水體、地表和城市區(qū)三者之間有明顯的區(qū)分,水體輪廓也完整清晰。圖2(c)和圖2(e)兩因子紋理特征相似,雖然水體與非水體差異明顯,但部分水體的紋理特征與陸地?zé)o異。圖2(d)中水體與陸地具有一定的辨識度,但在真實水體區(qū)域離散分布著與陸地相似的紋理特征。圖2(f)中水體分布在海拔較低的區(qū)域,而山體陰影所在的海拔區(qū)域高于水體。
隨機森林(Random Forest,RF)模型[13]是一種常用的機器學(xué)習(xí)方法。它是以決策樹(Decision Tree,DT)為弱學(xué)習(xí)器組合而成的集成模型,可以進行分類和回歸任務(wù)。文中構(gòu)建的隨機森林模型使用了100顆CART決策樹組成森林[14],應(yīng)用Bootstrap方法隨機抽取100個樣本,將其構(gòu)建100顆決策樹,對每顆DT的結(jié)果采取一定的投票規(guī)則進行集成[15]。
文中以像素為單位,創(chuàng)建包含31 856個像素點的樣本區(qū)域,提取表1中出現(xiàn)的7個因子值作為構(gòu)建模型所需的樣本。在進行模型訓(xùn)練之前,對樣本數(shù)據(jù)隨機打亂,把打亂后的數(shù)據(jù)分為訓(xùn)練集和測試集,比例為7∶3。將最終訓(xùn)練好的模型在測試集上進行測試,其目的是防止模型在訓(xùn)練集上有突出的表現(xiàn),但是在測試集上沒有很好的泛化能力會出現(xiàn)過擬合現(xiàn)象。通過判斷測試集上預(yù)測的效果來調(diào)整模型的參數(shù),使得訓(xùn)練出的模型沒有過擬合現(xiàn)象,同時兼?zhèn)浜芎玫姆夯芰Α?/p>
在使用機器學(xué)習(xí)方法對遙感影像進行分類后,常用總體精度(Overall Accuracy, OA)、用戶者精度(User’s Accuracy, UP)、生產(chǎn)者精度(Producer’s Accuracy, PP)和Kappa系數(shù)等來評價提取結(jié)果的精度[16-18]。上述精度評價方法可以通過混淆矩陣計算得出,見式(7)~式(11)。混淆矩陣如表2所示。
表2 水體混淆矩陣
在混淆矩陣中,TP為將水體預(yù)測成水體的個數(shù);FP為將水體預(yù)測為非水體的個數(shù);FN為將非水體預(yù)測成水體的個數(shù);TN為將非水體預(yù)測為非水體的個數(shù),也將TP、FN、FP和TN稱為真陽性、假陰性、假陽性和真陰性。
(7)
(8)
(9)
(10)
(11)
式(11)中:n為總樣本數(shù);s為在總樣本中被正確分類的個數(shù);a1和b1分別為預(yù)測結(jié)果中水體的樣本數(shù);a0和b0分別為預(yù)測結(jié)果中非水體樣本數(shù)。
使用K最鄰近算法(K-Nearest Neighbor,KNN)、邏輯回歸模型(Logistic Regression,LR)以及只有強度圖構(gòu)建的RF模型(Power RF,PRF)進行水體提取,并與所構(gòu)建的隨機森林模型進行比較。圖3~圖6分別為KNN、LR、PRF和RF的水體提取結(jié)果。將4種模型提取水體的結(jié)果與原始強度圖(見圖1)比較,可以觀察到4種模型提取水體的輪廓清晰,但是對于陸地表面即非水體區(qū)域,KNN、LR和PRF提取結(jié)果有明顯的雜散點分布,而所構(gòu)建的RF模型提取結(jié)果中雜散點分布較不明顯。為了更好地討論4種模型在預(yù)測結(jié)果上的泛化能力,截取了圖3~圖6中兩個矩形區(qū)域進行放大。一個矩形在非水體區(qū)域即陸地上進行截取,另一個矩形在水體區(qū)域進行截取。
圖3 KNN提取結(jié)果
圖4 LR提取結(jié)果
圖5 PRF提取結(jié)果
圖6 RF提取結(jié)果
如圖7所示,強度圖一列為兩個矩形在水體區(qū)域和陸地區(qū)域原始強度圖上的影像,將4種模型的提取結(jié)果與之進行比較。在水體區(qū)域上,可以觀察到KNN、LR、無紋理特征和DEM的RF在水體區(qū)域存在誤分現(xiàn)象,錯誤地將水體誤分為非水體。其中,KNN誤分最多,LR、無紋理和DEM的RF誤分現(xiàn)象相近,而RF表現(xiàn)最好,沒有觀察到誤分現(xiàn)象,提取的水體表面完整。從所截取陸地表面的強度影像可以看出,其存在部分水體和容易造成誤分現(xiàn)象的道路。這4種模型中只有構(gòu)建的RF模型不存在多余的雜散點,且存在陰影的道路也沒被誤分為水體,其他3種模型存在的雜散點較多,陰影道路也被誤分為水體,但微小水體輪廓完整度要比RF提取結(jié)果好。對存在山體陰影區(qū)域進行檢驗時,此方法將絕大部分山體陰影都進行了正確分類,只有小部分山體陰影出現(xiàn)了誤分現(xiàn)象。雖然沒有完全地將山體陰影正確分類,但是其他3種模型表現(xiàn)更差,大部分山體陰影被識別為偽水體。
圖7 截取結(jié)果
構(gòu)建隨機森林模型的7個因子,在模型中所占權(quán)重如圖8所示。由圖8不難看出,因子Pow、DEM、Con和Dis是RF模型提取水體時主要的判斷因子,所占權(quán)重分別為32.6%、22.1%、19.4%和18.1%,這4個因子權(quán)重和為92.2%。其余3個因子所占權(quán)重僅為7.8%,Hom因子為6.0%,Ent因子為1.0%,Asm因子為0.8%,三者被認(rèn)為是最不重要的因子。將因子權(quán)重的結(jié)果與原始強度影像(見圖1)和因子圖(見圖2)對比,Pow因子被認(rèn)為是第一重要因子可能的原因是其作為紋理特征的底圖,由于水體反射特性使其能夠很好地分辨出水體與非水體之間的差別;水體易留存于低洼處,所以水體往往比周圍的地表要低,因此,DEM因子被認(rèn)為是第二重要因子;Con和Dis是第三和第四重要因子,重要程度相差不大,從圖2(a)和圖2(b)可知,兩個因子紋理特征分布相似,在水體與非水體之間有很好的辨識度;觀察圖2(d),水體和非水體有很好的辨識度,但是在水體區(qū)域和非水體區(qū)域,其平滑度差于因子Con和Dis;Ent和Asm兩因子圖相近,并且在部分水體區(qū)域和非水體區(qū)域其值也相近,被認(rèn)為是最不重要的因子之一。
圖8 因子權(quán)重
表3所示顯示了KNN、LR、PRF和RF提取水體的精度。從表3可知,所構(gòu)建的RF模型在水體提取上要優(yōu)于其余3種算法。其提取水體的總體精度和Kappa系數(shù)達(dá)到99.73%和0.996 6,水體和非水體的用戶者精度和生產(chǎn)者精度一致,達(dá)到99.51%和99.81%。
表3 提取水體精度
利用Sentinel-1A數(shù)據(jù)對暴雨后的武穴市進行了水體提取。以SAR強度圖為底圖提取5個紋理特征信息,與DEM和強度圖一起參與了隨機森林模型的構(gòu)建,由此得到以下結(jié)論:
1)RF模型相較于KNN、LR和PRF模型不管是在水體上還是非水體區(qū)域,都沒有明顯的雜散點分布,要優(yōu)于其余3種模型,有效地減少了城市區(qū)建筑陰影和道路及斑點噪聲造成的誤分現(xiàn)象。同時由于RF模型是由多個因子共同參與決策,山體陰影區(qū)域造成的誤分也得到了極大地改善。
2)對提取的7個因子權(quán)重進行分析,原始強度圖在RF模型中占有最大的權(quán)重,達(dá)到32.6%;DEM、Con和Dis權(quán)重占比為22.1%、19.4%和18.1%;其他3個因子占比不足8%,因此,Pow、DEM、Con和Dis是RF模型提取水體時的關(guān)鍵因子。在精度方面,RF模型的各個指標(biāo)都優(yōu)于其余3種模型。