許正森,管海燕,彭代鋒,于永濤,雷相達(dá),趙好好
1.南京信息工程大學(xué) 遙感與測(cè)繪工程學(xué)院,南京 210044;2.淮陰工學(xué)院 計(jì)算機(jī)與軟件學(xué)院,淮安 223003
建筑物作為一種重要基礎(chǔ)設(shè)施,其信息在土地利用、城市規(guī)劃以及國防安全等方面都發(fā)揮著重要作用。及時(shí)、準(zhǔn)確地更新建筑物數(shù)據(jù)庫可為各種規(guī)劃決策和評(píng)估提供指導(dǎo),具有非常廣闊的應(yīng)用前景。隨著光學(xué)遙感技術(shù)的發(fā)展,高分辨率遙感影像已成為快速更新建筑物數(shù)據(jù)庫的重要數(shù)據(jù)來源之一。但是,由于建筑物材質(zhì)多樣、拓?fù)浣Y(jié)構(gòu)復(fù)雜、陰影覆蓋以及高分辨率遙感影像同物異譜、異物同譜等問題,建筑物的自動(dòng)、精確提取仍存在較大挑戰(zhàn)。
目前,高分辨率遙感影像建筑物提取策略大致分為兩種:建筑物邊緣輪廓提取以及建筑物區(qū)域分割。前者主要進(jìn)行建筑物區(qū)域邊界線勾勒;后者則逐像素標(biāo)記建筑物區(qū)域。早期建筑物提取方法通?;趫D像的隱式特征或者形態(tài)學(xué)特征,利用傳統(tǒng)機(jī)器學(xué)習(xí)算法或者先驗(yàn)知識(shí)設(shè)置閾值(林祥國和張繼賢,2017;游永發(fā)等,2019;胡榮明 等,2014)。例如,Zhang 等(2016)提出一種由粗到細(xì)的建筑物提取步驟,首先利用形態(tài)學(xué)特征(建筑物指數(shù))實(shí)現(xiàn)建筑區(qū)域粗提取,再通過形態(tài)學(xué)空間模式分析精確提取建筑物。Bi 等(2019)通過構(gòu)建多尺度濾波指數(shù)來抑制噪聲,提高建筑物提取精度。Xu 等(2018)首先將一組由RGB-D 信息提取的特征整合到高階條件隨機(jī)場(chǎng)框架中,然后通過迭代優(yōu)化策略實(shí)現(xiàn)建筑屋頂檢測(cè)。Hao等(2019)根據(jù)影像中建筑物顏色和方向,提取并整合建筑物邊緣以及區(qū)域特征信息進(jìn)而識(shí)別建筑物。Wang 等(2020)通過提取建筑物光譜、形狀、紋理以及多時(shí)相指數(shù)等多特征,構(gòu)建多特征長(zhǎng)短期記憶網(wǎng)絡(luò)進(jìn)行建筑物提取。Konstantinidi等(2017)根據(jù)建筑物的方向梯度直方圖以及局部二元模式構(gòu)建特征描述算子,并采用支持向量機(jī)將影像分類為建筑物與非建筑物。除此之外,位移陰影算法(Gao 等,2018)、多邊形匹配技術(shù)(Qin 等,2018)以及多源數(shù)據(jù)融合方法(Chen等,2020)等也常用于建筑物提取研究。
然而,基于圖像特征的傳統(tǒng)建筑物提取方法受人為先驗(yàn)知識(shí)以及傳統(tǒng)機(jī)器學(xué)習(xí)分類器性能的限制,無法獲得高精度且泛化性能好的模型。而深度學(xué)習(xí)模型通過迭代訓(xùn)練學(xué)習(xí)圖像的深度特征,無需較多的先驗(yàn)知識(shí),故該技術(shù)在遙感圖像建筑物提取領(lǐng)域應(yīng)用廣泛,并已取得較好效果(季順平和魏世清,2019;崔衛(wèi)紅 等,2019;范榮雙等,2019;陳凱強(qiáng) 等,2020;Shi 等,2019,2020;Li 等,2020;Chen 等,2021)。如Mnih(2013)提出結(jié)合深度卷積神經(jīng)網(wǎng)絡(luò)DCNN(Deep Convolutional Neural Network)和條件隨機(jī)場(chǎng)(CRFs)的遙感影像目標(biāo)地物的自動(dòng)提取模型。Shao 等(2020)提出一個(gè)由預(yù)測(cè)模塊和殘差改進(jìn)模塊組成的全卷積網(wǎng)絡(luò)FCN(Fully Convolutional Network)提取建筑物。井然等(2020)采用FCN模型提取建筑物的高階特征,進(jìn)行建筑物自動(dòng)提取。王振慶等(2021)提出了一種端到端的全卷積神經(jīng)網(wǎng)絡(luò)IEU-Net,并結(jié)合其設(shè)計(jì)的IELoss 損失函數(shù),通過忽略邊緣預(yù)測(cè)策略進(jìn)行建筑物提取。但是,上述FCN 模型會(huì)忽略像素間上下文關(guān)系,進(jìn)而影響建筑物提取的可靠性。所以一些學(xué)者嘗試將注意力機(jī)制引入神經(jīng)網(wǎng)絡(luò)模型中。注意力機(jī)制的基本思想是在運(yùn)算過程中通過計(jì)算特征間的相關(guān)關(guān)系得到不同特征通道或者空間位置權(quán)重參數(shù),從而使模型關(guān)注重要、顯著信息,忽略無關(guān)信息。通過注意力機(jī)制模塊學(xué)習(xí)上下文信息,模型可以獲得更大的感受野,減少對(duì)外部信息的依賴,從而更容易捕獲數(shù)據(jù)或特征的內(nèi)部相關(guān)性。如Pan 等(2019)基于空間和通道注意力,提出基于生成對(duì)抗網(wǎng)絡(luò)GAN (Generative Adversarial Network)的建筑物分割模型;Guo 等(2020)通過將注意力模塊嵌入U(xiǎn)-Net模型抑制背景噪聲對(duì)建筑物提取的影響;Wang(2020)等將Non-local 注意力機(jī)制引入編碼—解碼網(wǎng)絡(luò)中,進(jìn)行長(zhǎng)距離依賴建模,提升模型對(duì)抗背景噪聲能力。
雖然注意力機(jī)制可以解決部分長(zhǎng)距離依賴建模問題,但是由于傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)僅通過逐層卷積和池化操作實(shí)現(xiàn)局部連接和參數(shù)共享,存在無法有效對(duì)局部與整體特征以及簡(jiǎn)單和復(fù)雜對(duì)象之間的位置關(guān)系建模等問題(Zhu 等,2021)。相較于傳統(tǒng)CNN,膠囊網(wǎng)絡(luò)可以更有效處理對(duì)象局部到全局關(guān)系,并以視角不變表示增強(qiáng)同變性。此外,膠囊網(wǎng)絡(luò)由于采用向量神經(jīng)元這種表示形式,可以通過交疊處理(overlapping handing),更好解決對(duì)象重疊造成的場(chǎng)景擁擠問題,并且其在處理物體的姿態(tài)(位置、大小、方向)、變形、反照率、色調(diào)、紋理等方面也更有優(yōu)勢(shì)(Sabour 等,2017)。因此,膠囊網(wǎng)絡(luò)可以通過更少的參數(shù)和訓(xùn)練數(shù)據(jù)取得較好的檢測(cè)與分類性能。
因此,本文提出一個(gè)基于膠囊注意力的編碼—解碼網(wǎng)絡(luò),實(shí)現(xiàn)端到端像素級(jí)建筑物自動(dòng)提取。通過利用膠囊網(wǎng)絡(luò)同變性強(qiáng)的特點(diǎn),實(shí)現(xiàn)高階語義特征的有效表達(dá),從而解決高分辨率遙感影像中同物異譜、異物同譜和空間異質(zhì)性強(qiáng)問題。此外,本模型將通道和空間注意力模塊整合到膠囊網(wǎng)絡(luò)中,使模型更關(guān)注顯著性強(qiáng)、信息量大的特征通道和空間位置,進(jìn)一步增強(qiáng)膠囊網(wǎng)絡(luò)特征提取能力,從而實(shí)現(xiàn)陰影和非建筑物不透水層等易受干擾區(qū)域的高精度建筑物自動(dòng)提取。
膠囊是一種包含多個(gè)神經(jīng)元的載體,每個(gè)膠囊神經(jīng)元表示圖像中特定實(shí)體的各種屬性。膠囊網(wǎng)絡(luò)與普通標(biāo)量人工神經(jīng)元SN(Scalar Neuron)網(wǎng)絡(luò)的主要區(qū)別在于其使用矢量膠囊神經(jīng)元VN(Vector Neuron)。矢量膠囊神經(jīng)元中矢量的長(zhǎng)度和方向分別代表某個(gè)類別在圖像某個(gè)位置存在的概率與類別的一些實(shí)例化參數(shù),例如姿態(tài)(位置、大小、方向)、變形、速度、色相和紋理等(Sabour等,2017)。因此,膠囊網(wǎng)絡(luò)不僅能檢測(cè)某個(gè)類別的特征,也可以學(xué)習(xí)并識(shí)別特征的變化。具體而言,假設(shè)在膠囊網(wǎng)絡(luò)中,第l層1 個(gè)膠囊,可表示為第(l-1)層膠囊網(wǎng)絡(luò)神經(jīng)元預(yù)測(cè)與加權(quán)動(dòng)態(tài)整合,計(jì)算公式為
式中,aij為權(quán)重系數(shù);Uij為第(l-1)層膠囊神經(jīng)元與其權(quán)值矩陣的加權(quán)和,其計(jì)算表達(dá)式為
式中,ui為第(l-1)層膠囊神經(jīng)元;Wij是特征映射函數(shù)的變換矩陣。
與標(biāo)量神經(jīng)網(wǎng)絡(luò)中權(quán)重系數(shù)通過反向傳播確定方法不同,膠囊神經(jīng)網(wǎng)絡(luò)的耦合系數(shù)主要通過動(dòng)態(tài)路由迭代確定(Sabour等,2017)。具體而言,通過第(l-1)層膠囊神經(jīng)元對(duì)第l層膠囊的“個(gè)體”預(yù)測(cè)以及第(l-1)層所有神經(jīng)元對(duì)第l層膠囊的“共識(shí)”預(yù)測(cè)。通過這種迭代路由機(jī)制確定耦合系數(shù),從而實(shí)現(xiàn)根據(jù)上一層膠囊的方向和長(zhǎng)度激活下一層膠囊,最終實(shí)現(xiàn)穩(wěn)定且高效的深度膠囊網(wǎng)絡(luò)構(gòu)建(Rajasegaran等,2019)。
由于膠囊輸出矢量的長(zhǎng)度代表某一個(gè)種類模式存在的概率,因此,膠囊網(wǎng)絡(luò)通過設(shè)計(jì)“squashing”非線性激活函數(shù)將膠囊神經(jīng)元矢量長(zhǎng)度壓縮到[0,1]區(qū)間。該函數(shù)定義為
通過式(3),長(zhǎng)膠囊矢量長(zhǎng)度壓縮接近1,表述某一類別存在概率高;短膠囊矢量壓縮接近0,表征某一類別存在概率較小。
網(wǎng)絡(luò)訓(xùn)練過程中,通常使用目標(biāo)函數(shù)衡量網(wǎng)絡(luò)預(yù)測(cè)值與真實(shí)樣本標(biāo)記之間誤差。然而,由于膠囊網(wǎng)絡(luò)允許多類別同時(shí)存在,其目標(biāo)函數(shù)不能直接使用傳統(tǒng)交叉熵?fù)p失函數(shù),故而采用間隔損失函數(shù)(Yu和Tao,2019),其定義為
式中,k為分類類別數(shù);Tk為分類指示函數(shù)(k類存在為1,不存在為0);m+為上界,懲罰假陽性預(yù)測(cè),即預(yù)測(cè)k類存在但真實(shí)不存在;m-為下界,懲罰假陰性預(yù)測(cè),即預(yù)測(cè)k類不存在但真實(shí)存在;λ為比例系數(shù),調(diào)整兩者比重。
(1)網(wǎng)絡(luò)整體結(jié)構(gòu)。為充分利用膠囊網(wǎng)絡(luò)同變性強(qiáng)的特點(diǎn)和注意力機(jī)制增強(qiáng)特征表示的優(yōu)越性,本文將二者結(jié)合提出雙注意力膠囊編碼—解碼網(wǎng)絡(luò)模型DA-CapsNet。如圖1 所示,DACapsNet 主要包括編碼器、解碼器,以及跨層連接3 部分。其中,編碼器用于提取多尺度建筑物膠囊特征;解碼器則結(jié)合編碼器提取的多層次特征逐漸恢復(fù)特征圖分辨率,最終生成高質(zhì)量建筑物特征圖;跨層連接對(duì)編碼—解碼器相應(yīng)尺度特征圖連接,增強(qiáng)其特征表示能力。
圖1 DA-CapsNet網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Architecture of the dual-attention capsule encoder-decoder network
DA-CapsNet網(wǎng)絡(luò)結(jié)構(gòu)具體如下所述:
1)編碼部分:首先使用2 個(gè)常規(guī)卷積塊提取待檢測(cè)建筑物圖像(其大小為N=H×W,H和W分別為圖像高和寬)低級(jí)特征。該卷積塊包含1 個(gè)3×3 卷積,輸出通道數(shù)為256 的卷積層和修改線性單元ReLU(Rectified Linear Unit)激活函數(shù)。隨后,將256 維特征圖輸入初級(jí)膠囊卷積層轉(zhuǎn)換為64 個(gè)16 維膠囊矢量。之后,通過5 組不同尺度/空間分辨率的膠囊卷積組,獲得不同尺度的膠囊特征。在每組膠囊卷積組末端采用卷積核大小為2×2的最大池化層進(jìn)行0.5 倍下采樣,逐漸降低建筑物特征空間分辨率。理論上,每個(gè)膠囊卷積組最深層輸出最具代表性、最顯著的特征。因而,本文選擇每個(gè)膠囊卷積組最深層特征圖進(jìn)行特征融合與增強(qiáng)。
2)解碼部分:如圖1 所示,解碼器與編碼器結(jié)構(gòu)幾乎對(duì)稱:同樣由5組卷積膠囊組構(gòu)成,并通過每組末端的膠囊反卷積層進(jìn)行2倍上采樣,逐步恢復(fù)建筑物特征圖分辨率。為增強(qiáng)特征魯棒性,通過跨層連接將解碼器中上采樣后的特征圖與對(duì)應(yīng)編碼器中的特征圖結(jié)合,充分使用編碼器中的空間信息和細(xì)節(jié)特征。
(2)膠囊空間和通道注意力模塊。由于卷積操作僅能抽象出建筑物圖像的局部特征,而忽略像素間相互關(guān)系,從而導(dǎo)致對(duì)象類間不一致并極大影響建筑物提取的可靠性。注意力機(jī)制可以學(xué)習(xí)上下文信息并對(duì)長(zhǎng)距離依賴建模,獲得更大的感受野,從而更容易獲取圖像或特征的內(nèi)部關(guān)聯(lián)性。
通道注意力機(jī)制將特征圖中每個(gè)通道都視作特征探測(cè)器,從而估算輸入數(shù)據(jù)中不同特征通道的重要性(Woo 等,2018;Zeiler 和Fergus,2014)。因此,根據(jù)Hu等(2018)的模型,本文提出了基于膠囊的通道特征注意CFA(Channel Feature Attention)模塊,并將其連接在編碼器中每組膠囊網(wǎng)絡(luò)最深膠囊層之后,進(jìn)行特征增強(qiáng)和校正。CFA 模塊構(gòu)架如圖2所示:
圖2 通道特征注意力(CFA)模塊Fig.2 Architecture of the channel feature attention(CFA)module
1)CFA 首先使用1×1 卷積,將建筑物膠囊特征圖轉(zhuǎn)換為三維特征圖A∈RH×W×64編碼概率特征,其中H和W為輸入特征圖的高和寬;
2)特征圖A逐通道全局平均池化為A∈R1×1×64,構(gòu)建通道描述符,統(tǒng)計(jì)通道特征信息;
3)在通道描述符后加入2 層全連接層,解算特征通道間的依賴關(guān)系。每層全連接層后分別連接ReLU 和Sigmoid激活函數(shù)。通過第2個(gè)全連接層輸出特征圖編碼特征重要性,構(gòu)建通道注意力描述符C∈R1×1×64。
4)通道注意力描述符C類似權(quán)重系數(shù),通過將其與輸入特征進(jìn)行矩陣相乘運(yùn)算,對(duì)輸入特征圖的特征進(jìn)行校正,增強(qiáng)重要特征信息,抑制不重要或者無用特征。
在解碼器中,為增強(qiáng)建筑物特征空間上下文信息,本文在解碼器末端膠囊卷積組中嵌入基于膠囊的空間注意力SFA(Spatial Feature Attention)模塊進(jìn)一步校正和增強(qiáng)建筑物特征。SFA模塊結(jié)構(gòu)如圖3所示:
圖3 空間特征注意力(SFA)模塊Fig.3 Architecture of the spatial feature attention(SFA)module
1)SFA 首先使用2 個(gè)1×1 膠囊卷積將輸入特征圖轉(zhuǎn)換成2 個(gè)三維膠囊特征圖,B∈RH×W×64和D∈RH×W×64。由于SFA 模塊僅置于解碼器末端膠囊卷積組中,所以該模塊輸出特征圖的大小與輸入待檢測(cè)影像相同;
2)將特征圖B和D變形,分別生成2 個(gè)特征矩陣,E∈RN×64和G∈R64×N,其中N=H×W;
3)特征矩陣E和G相乘后,通過softmax 激活函數(shù)構(gòu)建空間注意力矩陣S∈RN×N;
4)最后,將輸入特征圖轉(zhuǎn)換為膠囊特征矩陣T∈RN×64×16與空間注意力矩陣S相乘,之后變形獲得建筑物特征增強(qiáng)圖。從而,SFA模塊輸出特征中所有像素都是其余像素特征與原始特征的加權(quán)和,可獲得全局上下文視角并選擇性整合語義信息。
(1) 谷歌建筑物數(shù)據(jù)集(Google Buildings Dataset)。谷歌建筑物數(shù)據(jù)集中的高分辨率遙感影像數(shù)據(jù)下載自BIGEMAP 軟件(http://www.bigemap.com[2021-09-06])。該數(shù)據(jù)集包含2658000 張全球不同拓?fù)浣Y(jié)構(gòu)、紋理和狀況的建筑物影像。每張圖像大小為800 像素×800 像素,空間分辨率約為0.3 m,并逐像素標(biāo)注為建筑物與非建筑物。本文隨機(jī)抽取數(shù)據(jù)集中60%、5%和35%的圖像組成訓(xùn)練、評(píng)估和測(cè)試集。
(2)武漢大學(xué)建筑物數(shù)據(jù)集(WHU Building Dataset)。此外,本文采用開源的武漢大學(xué)建筑物數(shù)據(jù)集(http://study.rsgis.whu.edu.cn/pages/download/[2021-09-06];Ji等,2019)擴(kuò)充樣本量,對(duì)提出的模型進(jìn)行訓(xùn)練、驗(yàn)證與測(cè)試。武漢大學(xué)建筑物檢測(cè)數(shù)據(jù)集是一個(gè)由多源遙感影像組成的大型數(shù)據(jù)集,主要包括航空遙感和衛(wèi)星遙感影像,每張影像的大小均為512 像素×512 像素。其中,航空影像共8189 張,空間分辨率約0.075 m,覆蓋地面面積約450 km2;衛(wèi)星影像(Satellite Dataset Ⅱ(East Asia))共17388 張,空間分辨率約2.7 m,覆蓋地面面積約550 km2,逐像素標(biāo)注為建筑物和非建筑物。同樣,隨機(jī)抽取數(shù)據(jù)集中60%影像作為訓(xùn)練集、5%影像作為評(píng)估集,其余35%影像作為測(cè)試集評(píng)估模型表現(xiàn)。
(3) 馬薩諸塞建筑物數(shù)據(jù)(Massachusetts Building d Dataset)。本文同樣采用馬薩諸塞建筑物數(shù)據(jù)集(Mnih,2013)(https://www.cs.toronto.edu/~vmnih/data/[2021-09-06])進(jìn)行模型的訓(xùn)練和測(cè)試,進(jìn)一步展現(xiàn)DA-CapsNet 模型的魯棒性。該數(shù)據(jù)集涵蓋美國波士頓地區(qū)城市和郊區(qū)中,如寫字樓、個(gè)人住宅和車庫等多種規(guī)模建筑物。數(shù)據(jù)集包含151 張大小為1500 像素×1500 像素,分辨率為1.0 m 的高分辨率遙感影像,覆蓋地面面積約為340 km2。經(jīng)過隨機(jī)裁剪,得到圖像大小為500 像素×500 像素的影像數(shù)據(jù)集。隨機(jī)選取其中3000、200和1200張影像加入訓(xùn)練、評(píng)估和測(cè)試集。
本文采用配置10 塊Titan RTX 16GB GPU 和1 顆16 核CPU,運(yùn)行內(nèi)存為64 GB 的云計(jì)算平臺(tái)進(jìn)行模型構(gòu)建。使用Pytorch 架構(gòu),采用端到端后向傳播和隨機(jī)梯度下降方法訓(xùn)練。訓(xùn)練前,將DACapsNet 所有層通過標(biāo)準(zhǔn)差為0.01 的高斯分布隨機(jī)初始化。每個(gè)批次每個(gè)GPU 包含2 張影像并迭代訓(xùn)練1000次。訓(xùn)練中,前800次和后200次迭代學(xué)習(xí)率分別設(shè)置為0.001 和0.0001。同時(shí),還采用批歸一化策略避免網(wǎng)絡(luò)的過度學(xué)習(xí)。
此外,為進(jìn)一步減輕模型過擬合,本文通過數(shù)據(jù)增強(qiáng)嘗試涵蓋不同朝向和照明條件下的建筑物。具體操作為,水平翻轉(zhuǎn)訓(xùn)練影像后,對(duì)2張影像以30°為間隔分別順時(shí)針旋轉(zhuǎn)3 次。之后,對(duì)生成的8張影像增減亮度。
本文選取精度(P)、召回率(R)和F1-score(F1)對(duì)建筑物提取結(jié)果進(jìn)行定量評(píng)估(式(5))。
式中,TP、FP和FN分別為真陽性、假陽性和假陰性預(yù)測(cè)像元數(shù)。精度表示所有預(yù)測(cè)為陽性樣本中真陽性樣本所占比例;召回率表示正確預(yù)測(cè)出的陽性樣本比例;F1-score為召回率和精度調(diào)和值。
為證明DA-CapsNet 在建筑物提取任務(wù)中的可行性和魯棒性,將其與U-Net(Ronneberger 等,2015)、FCN(Shelhamer 等,2017)、DeepLab v3+(Chen 等,2018)、GAN-SCA (Pan 等,2019)、CNN(Li 等,2020)、BRRNET(Shao 等,2020)、AMU-Net (Guo 等,2020)、CapFPN (Yu 等,2021)、ENRU-Net(Wang 等,2020)和Mask RCNN(Chen 等,2021)模型的建筑物模型提取結(jié)果進(jìn)行定量比較。為公平比較,對(duì)上述模型使用相同的訓(xùn)練集和測(cè)試集訓(xùn)練與驗(yàn)證,整體結(jié)果如表1所示。
表1 不同方法建筑物提取表現(xiàn)Table 1 Performance of different network on three datasets /%
(1) 谷歌建筑物數(shù)據(jù)集(Google Buildings Dataset)。利用谷歌建筑物數(shù)據(jù)集提取建筑物的挑戰(zhàn)主要體現(xiàn)在以下幾個(gè)方面:1)建筑物顏色和紋理差異大;2)建筑物拓?fù)浣Y(jié)構(gòu)和尺寸變化非常大,空間分布各異;3)建筑物周圍環(huán)境復(fù)雜;4)建筑物被周圍物體或陰影遮蓋。這要求建筑物提取模型具有足夠的魯棒性,能準(zhǔn)確識(shí)別、定位、分割和提取建筑物。圖4展示了本文算法部分建筑物提取結(jié)果。圖4 中第1 行為原始影像數(shù)據(jù),第2 行為建筑物真值標(biāo)簽數(shù)據(jù),第3行疊加顯示標(biāo)簽數(shù)據(jù)與本文模型建筑物提取結(jié)果,其中紅色表示正確提取出的建筑物區(qū)域,藍(lán)色表示未被提取出的建筑物區(qū)域,綠色表示錯(cuò)誤提取為建筑物的背景區(qū)域??梢钥闯?,本文提出的DA-CapsNet 整體表現(xiàn)較好,能夠從復(fù)雜環(huán)境下高精度識(shí)別不同拓?fù)浣Y(jié)構(gòu)、空間分布、顏色和尺寸的建筑物。這主要因?yàn)槟z囊編碼—解碼網(wǎng)絡(luò)結(jié)構(gòu)能提取并融合多尺度高階膠囊特征;同時(shí),CFA 模塊增強(qiáng)了建筑物特征通道重要性以及SFA 模塊進(jìn)一步關(guān)注建筑物空間特征。然而,有些建筑物被周圍如樹之類高大物體遮擋甚至完全覆蓋,很難實(shí)現(xiàn)整體建筑物提取。此外,一些如水泥路面之類地物由于紋理特征和周圍建筑物十分相似而被錯(cuò)誤識(shí)別為建筑物。為了進(jìn)一步展示本文算法建筑物提取性能,圖5展示了不同網(wǎng)絡(luò)模型的局部建筑物提取結(jié)果的視覺對(duì)比判讀。由圖5(c)可以看出,盡管本文模型提取受樹冠遮擋而完全不可見的建筑物部分存在一定困難,但是可以完整提取受樹冠陰影嚴(yán)重遮擋的建筑物。而如圖5(e)、(h)、(i)和(k)所示,BRRNET、Mask R-CNN、ENRU-Net 和FCN模型預(yù)測(cè)結(jié)果右上方受較強(qiáng)陰影遮蔽的建筑物完全未被提取出。其余效果較好模型也僅可提取出受陰影遮蔽較輕微的建筑區(qū)域。此外,由于地面不透水層和建筑屋頂在可見光波段光譜相似性,如圖5(g)、(i)、(k)、(m)所示,GAN-SCA、ENRU-Net 以及FCN 和DeepLab v3+等對(duì)比模型將非建筑不透水層誤分類為建筑物而造成假陽性預(yù)測(cè)較多。綜合對(duì)比圖5 可知,使用膠囊網(wǎng)絡(luò)的CapFPN 網(wǎng)絡(luò)及本網(wǎng)絡(luò)對(duì)不透水層及建筑物區(qū)分能力和抗陰影能力更強(qiáng),表明膠囊網(wǎng)絡(luò)向量參數(shù)對(duì)建模實(shí)體內(nèi)在特征屬性編碼能力強(qiáng)且可以更適用于擁擠場(chǎng)景。但如圖5(j)下方建筑物所示,與本文模型通過構(gòu)建編碼—解碼網(wǎng)絡(luò)結(jié)構(gòu)以及通道和空間注意力增強(qiáng)和校正特征相比,CapFPN 僅通過膠囊網(wǎng)絡(luò)編碼特征,對(duì)抗陰影干擾能力仍較差。
圖4 DA-CapsNet谷歌建筑物數(shù)據(jù)集提取結(jié)果Fig.4 Illustration of a subset of building extraction results on Google building dataset
圖5 谷歌建筑物數(shù)據(jù)集不同建筑物提取模型細(xì)節(jié)結(jié)果展示Fig.5 Illustration of a close view of building extraction results by comparative methods on Google building dataset
定量比較如表1 所示,DA-CapsNet 在復(fù)雜的谷歌建筑物數(shù)據(jù)集中提取表現(xiàn)較好,其精度、召回率和F-score 分別為0.9316、0.9225 和0.9270。對(duì)比方法中,CNN、AMU-Net 和GAN-SCA 等3 種方法提取表現(xiàn)相對(duì)較好。DA-CapsNet 與CNN 相比較總體精度高2.87%;與AMU-Net 相比較總體精度高3.11%;與GAN-SCA 相比較總體精度高
2.98%。上述對(duì)比結(jié)果顯示,深度膠囊編碼—解碼網(wǎng)絡(luò)通過集成CFA 和SFA 模塊得到的DA-CapsNet在谷歌建筑物數(shù)據(jù)集整體表現(xiàn)好于其他模型。其性能優(yōu)勢(shì)的主要原因?yàn)椋菏紫龋噍^于基于標(biāo)量神經(jīng)元構(gòu)造的傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)模型,膠囊網(wǎng)絡(luò)將向量化表示的膠囊神經(jīng)元作為其基本元素。膠囊神經(jīng)元能夠同時(shí)通過其長(zhǎng)度來編碼某一特征存在的概率,并且通過其向量參數(shù)來編碼特征的內(nèi)在屬性以及不同特征實(shí)例的信息。因此,抽象出來的特征層次更高,表達(dá)能力更強(qiáng)。此外,膠囊網(wǎng)絡(luò)可以通過重疊處理,更有效解決擁擠場(chǎng)景中的對(duì)象提取。其次,通過膠囊表示構(gòu)造通道與空間注意力機(jī)制,提升有用通道的貢獻(xiàn)度,同時(shí)突顯前景區(qū)域的特征,能夠進(jìn)一步提升輸出特征的質(zhì)量以及魯棒性。從而,高質(zhì)量表達(dá)特征,提升建筑物提取性能。
通過上述(定性)和定量分析可知,膠囊網(wǎng)絡(luò)相較于傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)同變性更強(qiáng),能有效解決高分辨率遙感影像中同物異譜、異物同譜和空間異質(zhì)性強(qiáng)的問題。同時(shí),模型中的通道空間注意力模塊可以進(jìn)一步增強(qiáng)和校正膠囊網(wǎng)絡(luò)提取特征能力,使模型更關(guān)注有意義的特征通道和空間位置,從而在受陰影和非建筑物不透水層干擾區(qū)域?qū)崿F(xiàn)高精度建筑物自動(dòng)提取。
(2)武漢大學(xué)建筑物數(shù)據(jù)集(WHU Building Dataset)。為進(jìn)一步驗(yàn)證DA-CapsNet 模型的優(yōu)越性和穩(wěn)定性,在武漢大學(xué)建筑物數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn)。如表1所示,所對(duì)比方法大部分都能獲得較好表現(xiàn),檢測(cè)精度均大于83%,而本文方法的精度、召回率和F1-score 分別為93.75%、94.28%和94.01%,均好于其余模型。相較于CapFPN,本文在膠囊網(wǎng)絡(luò)模型基礎(chǔ)上,加入通道和空間注意力機(jī)制校正通道特征和空間特征,提升特征表達(dá)能力,使建筑物提取精度相較CapFPN提升5.08%。
如圖6所示,對(duì)武漢大學(xué)數(shù)據(jù)集中被樹木遮蓋或者出現(xiàn)建筑物紋理與非建筑不透水層紋理相似的影像進(jìn)行定性分析,對(duì)比不同模型的建筑物提取效果。圖中第1 行為原始影像數(shù)據(jù),第2 行為標(biāo)簽數(shù)據(jù),第3行所示為本文提取建筑物結(jié)果與標(biāo)簽數(shù)據(jù)疊加顯示。第1列影像中很多獨(dú)棟建筑物被樹木完全遮蔽,從而造成一定假陰性預(yù)測(cè)。第2列和第3列數(shù)據(jù)由于建筑物紋理特性與道路及其附著物之間高度相似,產(chǎn)生一定假陽性預(yù)測(cè)。盡管這種完全遮蔽和紋理高度相似對(duì)目前算法都造成了一定的影響,但是,如圖7 所示,相對(duì)于其他算法,本文算法檢測(cè)效果更優(yōu)。從圖7 中可以看出,BRRNET、AMU-UNet、GAN-SCA 以及U-Net模型存在較多假陽性預(yù)測(cè),如將背景白色汽車誤檢測(cè)為與其紋理相似的建筑物。DA-CapsNet 相比于CNN、MaskR-CNN、ENRU-Net 等算法,能夠克服陰影造成的假陰性預(yù)測(cè),實(shí)現(xiàn)較為完整的建筑物提取。
圖6 DA-CapsNet武漢大學(xué)建筑物數(shù)據(jù)集提取結(jié)果Fig.6 Illustration of a subset of building extraction results on WHU building dataset
圖7 武漢建筑物數(shù)據(jù)集不同模型建筑物提取細(xì)節(jié)展示Fig.7 Illustration of a close view of building extraction results by comparative methods on WHU building dataset
(3)馬薩諸塞建筑物數(shù)據(jù)集(Massachusetts Building Dataset)馬薩諸塞建筑物數(shù)據(jù)集的特點(diǎn)是樣本量少且建筑物結(jié)構(gòu)形狀、反射色調(diào)和紋理更為復(fù)雜。因此,相較于前2個(gè)數(shù)據(jù)集,雖然本文算法在馬薩諸塞建筑物數(shù)據(jù)集上提取結(jié)果的精度、召回率和F1-score 分別降低3%、2%和3.5%左右,但仍接近90%,且明顯優(yōu)于對(duì)比模型。圖8所示為其中部分樣本檢測(cè)結(jié)果對(duì)比。如圖8 第1、2 列所示,當(dāng)建筑目標(biāo)較小且受樹冠部分遮蔽、反射率與其自身陰影相似時(shí),DA-CapsNet 憑借大感受野實(shí)現(xiàn)建筑和陰影區(qū)分,從而相較于其余對(duì)比模型能準(zhǔn)確提取較為完整的建筑物區(qū)域。此外,如圖8第3、4 列所示,本文提出模型同樣可以有效提取不同視角和陰影變化下多種尺度和形態(tài)的建筑物。
圖8 DA-CapsNet馬薩諸塞建筑物數(shù)據(jù)集提取結(jié)果Fig.8 Illustration of a subset of building extraction results on Massachusetts building dataset
CFA 和SFA 模塊分別通過通道注意力機(jī)制和空間注意力機(jī)制增強(qiáng)特征通道和空間位置重要性,從而提升特征表達(dá)能力。本節(jié)通過消融實(shí)驗(yàn)分別驗(yàn)證CFA 和SFA 模塊對(duì)DA-CapsNet 模型性能影響,結(jié)果如表1所示。
(1)SFA 模塊性能分析。從DA-CapsNet 中移除SFA 模塊,并將修改后的網(wǎng)絡(luò)模型命名為CapsNet-CFA。由此,僅使用通道注意力機(jī)制強(qiáng)調(diào)通道特征重要性,以期提升顯著性通道貢獻(xiàn)度并降低無用通道的特征干擾。公平起見,采用相同的訓(xùn)練、評(píng)估和測(cè)試集訓(xùn)練CapsNet-CFA 并驗(yàn)證其性能。CapsNet-CFA 在3 個(gè)數(shù)據(jù)集上的定量分析結(jié)果如表1 所示。其中,CapsNet-CFA 相較于DACapsNet 在谷歌數(shù)據(jù)集上精度、召回率和F1-score均下降約1.4%,表明模型假陽性和假陰性預(yù)測(cè)均增加。而CapsNet-CFA 在武漢大學(xué)建筑物數(shù)據(jù)集預(yù)測(cè)結(jié)果評(píng)價(jià)中,精度較召回率下降更顯著,表明SFA 模塊可以有效抑制高空間分辨率遙感影像的強(qiáng)空間異質(zhì)性并增強(qiáng)不同類別間可分性。同樣,在馬薩諸塞建筑物數(shù)據(jù)上,CapsNet-CFA 在提取精度、召回率和F1-score 分別下降約2.04%,1.25%和1.65%。由此可見,SFA 模塊可以有效突顯前景區(qū)域的特征、覆蓋更多待提取地物區(qū)域,從而提升建筑物檢測(cè)表現(xiàn)。
(2)CFA 模塊性能分析。將CFA 模塊從DACapsNet 網(wǎng)絡(luò)模型移除,并將修改后的模型命名為CapsNet-SFA。該模塊只通過空間注意力機(jī)制對(duì)特征顯著性進(jìn)行調(diào)整,以期突顯前景區(qū)域特征,同時(shí)弱化背景區(qū)域特征。同樣,采用相同的訓(xùn)練集、評(píng)估集和測(cè)試集對(duì)CapsNet-SFA 進(jìn)行訓(xùn)練和驗(yàn)證。CapsNet-SFA 在3 個(gè)數(shù)據(jù)集上的表現(xiàn)和消融前后差異如表1 所示。由表1 可知,與DA-CapsNet 相比,由于僅使用空間注意力模塊,CapsNet-SFA 在3 個(gè)數(shù)據(jù)集上建筑物提取性能均顯著下降,F(xiàn)1-socre分別下降2.57%、1.47%和2.07%。表明膠囊網(wǎng)絡(luò)輸出的特征圖中存在干擾特征通道,通過引入CFA模塊,模型可以關(guān)注特征圖中的顯著特征并抑制干擾特征,從而有效提升模型表現(xiàn)。同時(shí)值得注意的是,即使消融空間或通道注意力模塊得到的DA-CapsNet-CFASFA 模型在精度、召回率和F1-score 等評(píng)價(jià)指標(biāo)上相較其余對(duì)比模型仍有優(yōu)勢(shì),表明膠囊網(wǎng)絡(luò)相較于傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)在從空間異質(zhì)性強(qiáng)且存在大量陰影干擾的高空間分辨率遙感影像中提取建筑物具有優(yōu)越性。
通過以上消融實(shí)驗(yàn)可以發(fā)現(xiàn),本文提出的CFA 和SFA 模塊對(duì)網(wǎng)絡(luò)特征的表達(dá)能力和提取性能提升都至關(guān)重要。結(jié)合CFA 和SFA 模塊分別對(duì)通道特征和空間特征進(jìn)行增強(qiáng)和校正,能有效提升模型建筑提取性能。
針對(duì)高分辨率遙感影像建筑物提取挑戰(zhàn),本文提出耦合通道和空間雙注意力機(jī)制的編碼—解碼膠囊網(wǎng)絡(luò)DA-CapsNet,實(shí)現(xiàn)高分辨率遙感影像建筑物高精度提取。首先,DA-CapsNet 區(qū)別于傳統(tǒng)標(biāo)量卷積神經(jīng)網(wǎng)絡(luò),利用膠囊神經(jīng)元的長(zhǎng)度編碼某一特征存在的概率,并且通過其向量參數(shù)編碼特征的內(nèi)在屬性以及不同特征實(shí)例的信息。從而通過構(gòu)建編碼—解碼結(jié)構(gòu)膠囊網(wǎng)絡(luò),在不同尺度下學(xué)習(xí)高度抽象和高區(qū)分度的深度特征,增強(qiáng)模型同變性而更好地區(qū)分建筑物與背景;其次,本文利用注意力機(jī)制在上下文信息獲取中的優(yōu)勢(shì),分別設(shè)計(jì)通道和特征注意力機(jī)制模塊進(jìn)行特征增強(qiáng)和校正,提升特征表達(dá)能力和模型魯棒性,實(shí)現(xiàn)建筑物提取性能提升。對(duì)比實(shí)驗(yàn)和消融實(shí)驗(yàn)證明,本文提出模型能有效解決高分辨率遙感影像建筑物提取中同物異譜、異物同譜和空間異質(zhì)性強(qiáng)以及建筑物受等陰影遮蓋和不透水層相似光譜特征干擾等問題。
但是,由于高分辨率光學(xué)遙感影像光譜波段較少、光譜分辨率低、無法穿透樹冠等遮擋物且受光照影響大等,之后研究可以從以下方面展開:(1)使用多光譜光學(xué)遙感數(shù)據(jù),如增加熱紅外波段區(qū)分樹木和建筑物;(2)結(jié)合激光雷達(dá)點(diǎn)云數(shù)據(jù)或者其他攝影測(cè)量點(diǎn)云數(shù)據(jù)區(qū)分建筑與道路及其附著物。