劉 艷,劉全德,3+
(1.大連大學(xué) 信息工程學(xué)院,遼寧 大連 116622;2.大連大學(xué) 大連市環(huán)境感知與智能控制重點實驗室,遼寧 大連 116622;3.山東港口科技集團日照有限公司,山東 日照 276800)
近年來,隨著城市化進程的不斷加快,高分辨率遙感影像建筑物提取在城市規(guī)劃、人口估算和智慧城市三維重建等方面越來越重要。作為像素級分割問題,特征提取是關(guān)鍵,常用方法有兩大類[1]:一是人工提取特征,二是基于深度學(xué)習(xí)自動提取特征。人工提取方法只利用目標淺層特征,未涉及復(fù)雜建筑物深層的多尺度特征,提取精度低[2]。Alshehhi等[3]用卷積神經(jīng)網(wǎng)絡(luò)圖像塊分類方法自動學(xué)習(xí)和提取道路及建筑物特征,分割中塊狀區(qū)域會產(chǎn)生模糊鋸齒狀邊緣[4],全連接層使批處理過程存在大量冗余計算,占用內(nèi)存大。Sun等[5]采用全卷積神經(jīng)網(wǎng)絡(luò)FCN語義分割架構(gòu),用卷積層代替網(wǎng)絡(luò)中的全連接層,減少冗余計算,用反卷積進行語義分割,消除圖像塊分割中塊狀區(qū)域帶來的鋸齒狀邊緣,但空間信息損失嚴重,對圖像細節(jié)不敏感。Ronneberger等[6]提出一種U-Net架構(gòu),在FCN基礎(chǔ)上增加跳躍連接拼接深層和淺層圖像特征,解決網(wǎng)絡(luò)信息損失嚴重問題,但僅關(guān)注恢復(fù)特征圖的分辨率,忽略了深層次特征獲取和不同層次特征之間的語義鴻溝問題。Zhou等[7]優(yōu)化原U-Net網(wǎng)絡(luò)結(jié)構(gòu),設(shè)計嵌套密集跳躍連接,構(gòu)建新U-Net++網(wǎng)絡(luò),減小深層和淺層特征之間語義鴻溝,但無法精確提取深層特征。Chaurasia等[8]為提取深層次特征,在傳統(tǒng)U-Net中引入ResNet18連接編碼器與解碼器,構(gòu)建了實時輕量級網(wǎng)絡(luò)LinkNet,但忽略了圖像多尺度信息。Zhou等[9]提出D-LinkNet模型,在LinkNet基礎(chǔ)上加入并聯(lián)空洞卷積層,執(zhí)行道路提取任務(wù),在不損失分辨率的同時增大感受野,提高挖掘全局上下文信息能力,但易錯誤分割且分割連續(xù)性差。大量研究表明[10],上述編碼-解碼器網(wǎng)絡(luò)在遙感圖像分割中對小建筑物分割效果并不理想,未考慮建筑物集群間的邊界粘連問題。
本文基于U-Net網(wǎng)絡(luò)提出融合注意力機制與多尺度特征增強的語義分割模型FAME-Net。優(yōu)化編碼器網(wǎng)絡(luò),融合其通道和空間維度注意力機制,提高對小型建筑物特征提取能力;在網(wǎng)絡(luò)中增設(shè)錨點特征增強C-ASPP模塊;解碼階段進行多尺度特征融合,引入平均損失函數(shù),有效利用多尺度特征。在Inria遙感影像數(shù)據(jù)集上驗證本方案的有效性和實用性。
傳統(tǒng)U-Net模型網(wǎng)絡(luò)較淺,無法提取深層次特征;上采樣和下采樣操作中存在信息丟失問題;不具備小目標和集群邊界粘連分割能力。因此,本文構(gòu)建一個端到端的語義分割網(wǎng)絡(luò)模型FAME-Net。結(jié)合恒等映射殘差網(wǎng)絡(luò),優(yōu)化傳統(tǒng)U-Net網(wǎng)絡(luò)結(jié)構(gòu),在編碼器中用殘差網(wǎng)絡(luò)取代編碼器原有網(wǎng)絡(luò)結(jié)構(gòu),解決遙感影像細節(jié)空間深層次特征的提取問題,保證模型不退化,同時在殘差網(wǎng)絡(luò)中融合了通道和空間注意力機制,使模型專注于學(xué)習(xí)建筑物特征,有效抑制無關(guān)信息干擾,改善中小型建筑物分割精度。增設(shè)中間層—空間金字塔池化層C-ASPP,重新整定空洞卷積擴張率,平衡模型對大小目標的敏感度;引入拉普拉斯算子,優(yōu)化卷積核錨點權(quán)重系數(shù),提高建筑物邊緣輪廓的描述能力。在解碼器中添加特征融合機制,通過設(shè)計平均損失函數(shù),提高不同尺度的特征信息利用率。本方案FAME-Net模型由編碼器、中間層、解碼器三部分組成,如圖1所示。
圖1 FAME-Net特征增強網(wǎng)絡(luò)結(jié)構(gòu)
編碼器特征提取能力對圖像分割的結(jié)果影響很大。卷積神經(jīng)網(wǎng)絡(luò)越深所提取的特征越抽象,語義信息越多,傳統(tǒng)U-Net網(wǎng)絡(luò)分割方法網(wǎng)絡(luò)層數(shù)較少,無法有效提取遙感圖像深層次特征,圖像細節(jié)描述能力不足,增加編碼器網(wǎng)絡(luò)層數(shù)則會出現(xiàn)梯度消失和梯度爆炸模型退化問題[11]。
為此,本文在編碼器中用恒等映射殘差網(wǎng)絡(luò)獲取深層次特征,同時規(guī)避模型退化問題??紤]殘差網(wǎng)絡(luò)全連接層帶來的參數(shù)冗余,本文設(shè)計了一個不含全連接層的ResNet33殘差網(wǎng)絡(luò),如圖2所示。
圖2 ResNet33殘差網(wǎng)絡(luò)
增加殘差網(wǎng)絡(luò)深度能提升特征表達能力,但獲取的深層次特征缺乏語義信息,會對建筑物分割造成干擾,不能從根本上解決小目標分割和邊界粘連問題。為此,本文引入注意力機制捕獲全局關(guān)鍵語義信息,加大建筑物區(qū)域權(quán)重,提高模型對建筑物的分割能力。常用的擠壓和激勵(squeeze-and-excitation)SE通道注意力[12]模塊缺乏空間位置信息,降維操作對小目標分割效果不佳[13]。受卷積塊注意力模塊CBAM(convolutional block attention module)[14]和高效通道注意力ECA(efficient channel attention)[13]模塊的啟發(fā),本文在編碼器中對通道注意力機制和空間注意力機制進行級聯(lián)融合,設(shè)計了如圖3所示的融合注意力機制(fusion attention mechanism,F(xiàn)AM),其中,σ代表Sigmoid激活函數(shù),W,H,C分別代表特征圖的寬、高和通道數(shù)。
圖3 融合注意力機制
為獲取不同通道信息,捕獲信息的跨通道交互,提高小型建筑物的提取能力,本文在通道注意力機制SE基礎(chǔ)上,提出一個改進的通道注意力機制CAM,如圖3所示。首先,用不降維方法取代降維方法,對特征圖U進行通道級全局平均池化GAP(global average pooling),獲取不同通道信息,實現(xiàn)擠壓操作;其次,取消全連接層,使用卷積核大小為kyw的快速一維卷積捕獲跨通道局部交互信息,用Sigmoid激活函獲取通道權(quán)值,得到高效通道依賴關(guān)系,減少參數(shù)量,降低模型計算復(fù)雜度,kyw由通道附近參與注意力預(yù)測的通道數(shù)C自適應(yīng)確定,式(1)中的 |.|odd表示最近奇數(shù),β=2,b=1。最后,將通道權(quán)值與輸入特征圖點乘,進行權(quán)重分配,得到不同重要程度的通道特征圖,提升網(wǎng)絡(luò)對主要特征的敏感度,抑制無用特征的干擾空間注意力模塊SAM先經(jīng)過全局最大池化GMP(global maximum pooling)[15]獲取當前空間感受野下的細節(jié)信息,經(jīng)1×1卷積,Sigmoid激活函數(shù)獲取空間維度的加權(quán)特征圖。為有效獲得通道下精確的空間位置特征信息,將CAM與SAM進行級聯(lián),加大建筑物區(qū)域權(quán)重,增強目標區(qū)域有效特征。
(1)
融合注意力機制的輸入輸出尺寸與每層殘差網(wǎng)絡(luò)的輸入輸出保持一致,為獲取每一層目標區(qū)域特征,如圖4所示,將融合注意力機制添加至每層殘差單元后,保證有效獲取建筑物關(guān)鍵位置有效特征,屏蔽樹木、道路等環(huán)境因素干擾。
圖4 融合注意力的殘差網(wǎng)絡(luò)結(jié)構(gòu)ResNet33
在遙感圖像特征提取過程中,編碼器網(wǎng)絡(luò)為增大感受野,圖像尺寸每經(jīng)過一次池化層的下采樣操作被縮小到1/4,使得3/4的像素信息被丟失,這些像素信息在上采樣時無法重建,導(dǎo)致特征提取效率下降,影響建筑物分割的準確性。為此,本文在編碼器和解碼器之間引入了空洞空間金字塔池化層ASPP,在減少分辨率損失的基礎(chǔ)上,增大感受野獲得多尺度的信息。
在卷積神經(jīng)網(wǎng)絡(luò)中,卷積核尺寸和擴張率決定了感受野的大小[16],如式(2)所示,式中RF為感受野大小,r為擴張率,kkd為空洞卷積核大小
RF=kkd+(kkd-1)(r-1)
(2)
不同尺度感受野對比如圖5所示,大小感受野對不同尺度的目標識別能力是不一樣的,圖5(b)、圖5(c)中,小感受野提取大建筑物會導(dǎo)致采樣信息丟失,大感受野提取小建筑物會引入不必要的周圍環(huán)境干擾信息,如樹木、道路,合適的感受野能保證建筑物的分割準確度。
圖5 不同尺度感受野對比
由式(2)知,空洞空間金字塔ASPP中擴張率為1,6,12,18的卷積核的感受野分別是1×1,13×13,25×25和37×37,其中25×25和37×37感受野較大,導(dǎo)致遠距離卷積得到的信息無相關(guān)性[17],對小目標敏感度降低,不利于遙感圖像中微小物體的分割。ASPP中3×3卷積核的擴張率全為偶數(shù)且有公約數(shù)6,仍會導(dǎo)致像素之間信息不連續(xù),存在一些空洞,使一些像素被遺漏,從而產(chǎn)生局部信息丟失[18]。
為平衡模型對大小目標的敏感度,本文借鑒混合空洞卷積(HDC)[18]的思想,優(yōu)化擴張率過程中引入式(3)所示的約束條件,將擴張率設(shè)計為鋸齒狀結(jié)構(gòu),滿足大目標小目標的分割要求。式(3)中,ri是第i層的擴張率,Mi是第i層的最大擴張率
Mi=max[Mi+1-2ri,Mi+1-2(Mi+1-ri),ri]
(3)
為規(guī)避棋盤效應(yīng),減少信息丟失,根據(jù)遙感圖像特征圖尺寸和感受野需求,本文使用奇偶混合擴張率法對卷積核進行擴張,鑒于HDC要求疊加卷積的擴張率不能有大于1的公因數(shù),采用式(3)重新整定ASPP擴張率為1,2,5,9,覆蓋了圖像上的每個像素點,避免信息丟失,擴張率整定后卷積核的感受野分別減小為1×1,5×5,11×11,19×19,解決了小目標的提取問題,有效平衡了模型對大小目標的敏感度。
ASPP采用的是4個并行不同擴張率的空洞卷積,即使用多個感受野提取圖像特征,隨著擴張率的增大,非零采樣點占比快速下降,卷積核錨點位置信息權(quán)重被弱化,影響模型對遙感圖像建筑物邊緣輪廓的描述能力。
在高斯權(quán)重的基礎(chǔ)上,引入感受野大小,得如式(4)所示的卷積核錨點位置權(quán)重PW計算式,其中, (x,y) 為卷積核的坐標位置,PSD為該坐標位置的標準差。由式(4)知,擴張率2,5,9卷積核錨點位置權(quán)重分別為0.064、0.013、0.004,顯然擴張率為9的卷積核對邊緣輪廓的描述能力被嚴重弱化
(4)
為此,本文設(shè)計的錨點特征增強的C-ASPP結(jié)構(gòu)如圖6所示,僅針對最大擴張率的卷積核錨點進行特征增強,圖6(a)中在擴張率為9的卷積核中引入了拉普拉斯算子[19],進行錨點權(quán)重系數(shù)優(yōu)化,構(gòu)建錨點特征增強的空間金字塔池化C-ASPP模塊。為增強特征圖中心區(qū)域的權(quán)重信息,如圖6(b)所示,用拉普拉斯邊緣檢測算子G替換卷積核錨點及其4鄰域的值,將錨點及其4鄰域作為有效點一同提取特征,在拉普拉斯邊緣檢測算子構(gòu)成的3×3卷積中,利用局部空間特征信息提取新的錨點邊緣特征信息權(quán)重IW,卷積過程如式(5)所示,卷積輸出結(jié)果作為錨點的特征信息
圖6 錨點特征增強的C-ASPP結(jié)構(gòu)
X*G=IW
(5)
淺層特征和深層特征在空間和語義表達能力方面有著不同的優(yōu)勢,淺層特征雖然感受野較小,但包含了豐富的空間結(jié)構(gòu)信息,適合處理小目標;深層結(jié)構(gòu)雖然感受野較大,適合大目標分割,但空間幾何特征細節(jié)缺乏,不適合小目標的處理。為提升FAME-Net小目標分割性能,如圖1所示,本文在解碼器中使用融合層策略設(shè)計一個多尺度特征融合模塊,將淺層特征和深層特征進行融合。為求取N層特征圖的多尺度損失,設(shè)計了如下平均損失函數(shù)LFinal
(6)
由圖1可知,N=5,式中復(fù)合損失函數(shù)LBCE-Dice由二值交叉熵損失函數(shù)LBCE和Dice系數(shù)損失函數(shù)LDice表述,λ用于平衡兩個損失函數(shù),λ值由損失函數(shù)超參數(shù)權(quán)重實驗獲取,在此取為0.1
LBCE-Dice=λLDice+LBCE
(7)
LBCE由式(8)計算,其中P表示預(yù)測值,GT表示真實值,w和h分別代表圖像的寬度和高度,gtij和pij代表真實值和預(yù)測值的每個像素點
(8)
LBCE對類別不平衡圖像中正樣本像素類別特征學(xué)習(xí)困難且易陷入局部最優(yōu),導(dǎo)致訓(xùn)練出的模型魯棒性不佳[20],為此,本文引入LDice[21]用于提高模型魯棒性,其定義如下
(9)
為規(guī)避U-Net解碼器使用雙線性插值逐層上采樣造成的信息丟失問題,特征融合中將不同層次的特征圖進行16倍、8倍、4倍、2倍的上采樣直接還原成原有特征圖尺寸。利用通道維度Concat方法將不同尺度特征進行拼接,充分利用多尺度的特征信息。
為驗證所提方案對小型建筑物多尺度遙感圖像的分割性能,基于Inria遙感影像公開數(shù)據(jù)集[22],將本文所提模型與U-Net、Link-Net、D-LinkNet和U-Net++在模型精度、小型建筑物識別和邊界粘連分割等方面進行對比實驗,驗證所提方法有效性。
2.2.1 實驗平臺
為驗證本文所提算法的優(yōu)越性,建立對比實驗,本文所有實驗的軟硬件環(huán)境配置均保持一致,見表1。
表1 實驗環(huán)境配置
2.2.2 實驗設(shè)計
本文模型訓(xùn)練采取交叉驗證的方法,每次訓(xùn)練隨機選擇驗證集批量數(shù)據(jù)計算損失和精度,并優(yōu)化模型的訓(xùn)練。由于GPU顯存限制,每個batch由亂序的4張圖片組成,Batchsize設(shè)置為4。
訓(xùn)練時,一個批次包含4幅512×512×3的RGB圖片,模型預(yù)測輸出與輸入圖片標簽進行比較,計算訓(xùn)練損失,評估訓(xùn)練網(wǎng)絡(luò)擬合能力。為使網(wǎng)絡(luò)快速收斂,自適應(yīng)調(diào)節(jié)學(xué)習(xí)率,使用帶動量的Adam算法[23]作為優(yōu)化器,初始學(xué)習(xí)率設(shè)為0.0001,動量為0.9。所有訓(xùn)練數(shù)據(jù)在每一輪迭代結(jié)束后用驗證集數(shù)據(jù)再次對模型擬合能力進行評估,保存最佳權(quán)重參數(shù),迭代1000次。
預(yù)測階段,利用評價指標在Inria遙感影像數(shù)據(jù)集上對最佳權(quán)重模型進行性能測試與分析。在相同的實驗條件下,分別對U-Net、Link-Net、D-LinkNet、U-Net++和本文所提的FAME-Net模型在迭代性能、模型精度和圖像分割性能進行預(yù)測分析。
2.2.3 評價指標
為量化評價遙感圖像建筑物分割性能,本文分別采用式(10)、式(11)所示的平均交并比(mean intersection over union,mIoU)和F1分數(shù)(F1 score)作為評價指標,F(xiàn)1分數(shù)是計算精確率和召回率的調(diào)和均值,mIoU和F1的取值均介于[0,1],mIoU越接近1分割結(jié)果越精確,F(xiàn)1分數(shù)越接近1模型魯棒性越高。實驗中,正確判斷為建筑物的樣本記為TP,錯誤判斷建筑物的樣本記為FP;正確判斷背景的樣本記為TN,錯誤判斷背景的樣本記為FN
(10)
(11)
2.3.1 迭代性能與模型精度分析
經(jīng)過1000次迭代,U-Net、Link-Net、D-LinkNet、U-Net++和本文所提FAME-Net模型損失和精度對比如圖7和圖8所示。橫坐標Epoch表示迭代次數(shù),圖7縱坐標表示損失值,圖8縱坐標為平均交并比。訓(xùn)練損失和驗證損失分別衡量模型在訓(xùn)練集和測試集上的擬合能力,損失值越小表示預(yù)測結(jié)果和真實結(jié)果越逼近,模型的擬合度越好。由圖7(a)可以看出,經(jīng)過迭代200次U-Net、Link-Net、D-LinkNet、U-Net++網(wǎng)絡(luò)趨于收斂,上述網(wǎng)絡(luò)前期擬合速度較快,迭代300次左右5個網(wǎng)絡(luò)均收斂,F(xiàn)AME-Net損失值小于0.01,明顯小于其它模型,且無過擬合現(xiàn)象。由圖7(b)看出,受GPU顯存限制,實驗中Batchsize取值偏小,導(dǎo)致驗證損失曲線震蕩較劇烈,但與訓(xùn)練損失基本一致,模型整體訓(xùn)練較好。
圖7 不同模型損失對比
圖8 平均交并比
由圖7可知,所有測試模型在迭代300時基本收斂,由圖8和表2可以看出,訓(xùn)練模型收斂時,在平均交并比方面,U-Net、Link-Net、D-LinkNet和U-Net++分別為75.16%、78.32%、81.63%、81.98%,本文FAME-Net模型為84.10%,均高于其它網(wǎng)絡(luò)模型,比U-Net高出近9%;在F1分數(shù)方面,U-Net為80.62%,Link-Net 為84.96%,D-LinkNet為86.98%,U-Net++為87.62%。本文FAME-Net模型為89.02%,比D-LinkNet和U-Net++網(wǎng)絡(luò)高出近3%。綜上表明,F(xiàn)AME-Net模型在遙感圖像建筑物提取任務(wù)中具有較好的分割精度,同時擁有更加平衡的精確度和召回率,模型魯棒性高。
表2 各個模型的評價指標
2.3.2 小型建筑物識別結(jié)果分析
為驗證FAME-Net對小型建筑物目標提取和建筑物集群邊界粘連分割性能,本文隨機選擇了6幅包含小型建筑集群區(qū)域的數(shù)據(jù)集進行測試,該區(qū)域建筑物排列錯綜復(fù)雜,形狀、大小、屋頂顏色都各不相同。圖9和圖10分別展示了對比方法和本文所提方法在Inria遙感影像數(shù)據(jù)集上對建筑物的分割結(jié)果。圖中黑色代表背景,白色代表建筑物,其中圖(a)為RGB三通道的遙感圖像,圖(b)為建筑物真實標簽,圖(c)~圖(g)分別為U-Net、Link-Net、D-LinkNet、U-Net++和FAME-Net模型分割結(jié)果。
注:□為標記的小型建筑物分割情況圖9 小型建筑物提取結(jié)果
注:○為標記的建筑物集群粘連分割情況圖10 建筑物集群邊界粘連分割結(jié)果
由圖9實驗結(jié)果可知,圖9(c)和圖9(d)在分割與地面和植被顏色無差別的建筑物時均存在漏分、錯分現(xiàn)象,主要原因在于池化操作導(dǎo)致的信息丟失較多;圖9(e)和圖9(f)由于分別引入空洞卷積和新設(shè)計跳躍連接,增大了全局感受野,對不同尺寸建筑物信息比較敏感,一定程度上彌補了丟失的細節(jié)信息,相比于圖9(c)~圖9(d)的誤分問題明顯減少;圖9(g)對不同尺寸的建筑物分割效果均優(yōu)于圖9(c)~圖9(f),主要原因在于C-ASPP模塊重新調(diào)整的擴張率和多尺度特征融合結(jié)構(gòu)對不同尺度的目標具有很好的適應(yīng)性,增強了不同尺度特征之間的關(guān)聯(lián)性,使模型對不同尺寸建筑物提取性能明顯提升。從圖9(c)~圖9(g)方框處對比可知,U-Net、Link-Net和D-LinkNet模型,對像素較小的建筑物提取能力均較差,第一行和第二行的小建筑物未識別出來,第三行將距離過近的小建筑物識別為一個整體,F(xiàn)AME-Net模型與其它3種模型相比,對小型建筑物的識別較為準確,分割準確率明顯提升,并未出現(xiàn)整個建筑物的漏分割,僅存在小部分建筑物由于遮擋過重導(dǎo)致預(yù)測不完整情形,原因在于FAME-Net的不降維級聯(lián)融合注意力機制既能抑制道路、樹木、車輛等無關(guān)信息的干擾,又能準確獲取小型建筑物關(guān)鍵的空間信息。
2.3.3 建筑物集群邊界粘連分割結(jié)果分析
建筑物集群的邊緣分割結(jié)果如圖10所示,圖10(c)~圖10(f)圓圈處由于樹木、道路等外物的干擾,且相鄰建筑物距離過近,訓(xùn)練中難以準確提取其邊緣特征,存在較為明顯的邊界不連續(xù)和粘連問題,圖10(g)相同位置處的建筑物邊界分割存在著明顯的改善,克服了復(fù)雜背景影響,有效地保留了建筑物邊界信息,建筑物輪廓清晰、完整,未出現(xiàn)較為明顯的誤預(yù)測,主要原因在于本文設(shè)計的錨點增強空間金字塔池化C-ASPP模塊,引入拉普拉斯算子,將錨點及其4鄰域作為有效點一同提取特征,在級聯(lián)融合注意力機制屏蔽無關(guān)信息干擾情況下,對建筑物邊緣輪廓特征進行增強。
針對目前遙感影像分割存在邊界不清楚、小目標分割難等問題,本文提出一種FAME-Net語義分割模型。在編碼階段使用ResNet33作為主干網(wǎng)絡(luò)并在空間和通道上融合注意力機制,提高了模型對小型建筑物能力。編碼器和解碼器中間設(shè)計了中心空間金字塔層C-ASPP,重新整定擴張率,平衡了模型對大小目標的敏感度;引入拉普拉斯算子,增強了模型對建筑物邊緣的學(xué)習(xí)能力。在解碼階段對多尺度信息進行融合,設(shè)計特征融合的平均損失函數(shù),有效利用了多尺度特征。在Inria遙感影像數(shù)據(jù)集上與主流模型進行了對比實驗,結(jié)果表明,本文提出的FAME-Net模型能有效解決遙感圖像建筑物小目標分割和邊界粘連分割問題,模型迭代性能良好,分割準確率高。