趙學(xué)軍,包壯壯,吳華興,董玉浩,李智偉
(1.空軍工程大學(xué)基礎(chǔ)部,陜西 西安 710051;2.空軍工程大學(xué)管理工程與無(wú)人機(jī)工程學(xué)院,陜西 西安 710051)
隨著對(duì)地觀測(cè)技術(shù)的發(fā)展,人類獲取遙感數(shù)據(jù)的途徑和方式也越來(lái)越多,遙感數(shù)據(jù)表現(xiàn)出多源、多尺度、結(jié)構(gòu)復(fù)雜、格式多樣、體量大等特點(diǎn)[1-3]?;谶b感數(shù)據(jù)提取道路信息具有高效率、低成本的優(yōu)勢(shì),而如何從海量的遙感數(shù)據(jù)中及時(shí)提取有效信息,是世界各國(guó)普遍研究的熱點(diǎn)。目前,對(duì)于遙感圖像的道路提取方法主要有基于像元、面向?qū)ο蠛蜕疃葘W(xué)習(xí)[4-6]。
深度學(xué)習(xí)由Hiton[7]等人于2006年提出,由于現(xiàn)代計(jì)算機(jī)計(jì)算力的大幅發(fā)展,自2012年AlexNet[8]出現(xiàn)以來(lái),在計(jì)算機(jī)視覺(jué)領(lǐng)域占據(jù)了主導(dǎo)地位。基于深度學(xué)習(xí)的方法通過(guò)卷積網(wǎng)絡(luò)自動(dòng)提取和學(xué)習(xí)道路的特征從而獲得語(yǔ)義信息以分割道路,具有較高的精確度和魯棒性。Long[9]等人提出的全卷積神經(jīng)網(wǎng)絡(luò)(fully convolutional networks,F(xiàn)CN)將端到端的卷積神經(jīng)網(wǎng)絡(luò)運(yùn)用于像素級(jí)的圖像分割中,使用反卷積層進(jìn)行上采樣,運(yùn)用跳躍架構(gòu)融合深層的粗糙的語(yǔ)義信息和淺層的精細(xì)的表面信息。此后基于FCN又出現(xiàn)了許多的改進(jìn)網(wǎng)絡(luò),主要分為兩種優(yōu)化設(shè)計(jì):以U-net[10],Refine-Net[11],F(xiàn)C-DenseNets[12]等為代表的U型網(wǎng)絡(luò)(充分利用深淺層的語(yǔ)義信息)和以PSPNet[13],DeepLap系列[14]等的膨脹卷積方法(增強(qiáng)單個(gè)卷積的效率)。上述方法在遙感圖像數(shù)據(jù)集上提取道路時(shí)對(duì)物體細(xì)節(jié)分割效果不佳[14],對(duì)雙向車道、立交橋等處不能完好分辨。本文針對(duì)此問(wèn)題提出了基于條件隨機(jī)場(chǎng)和U型網(wǎng)絡(luò)的遙感圖像道路提取方法。
卷積神經(jīng)網(wǎng)絡(luò)經(jīng)過(guò)卷積與下采樣層,逐層提取特征,最終通過(guò)若干個(gè)全連接層完整分類識(shí)別。這種網(wǎng)絡(luò)結(jié)構(gòu)完全拋棄圖像的空間結(jié)構(gòu)特征,不能知道目標(biāo)的位置、大小、形態(tài)等信息,即丟失了圖像語(yǔ)義。下面介紹本文中運(yùn)用于圖像語(yǔ)義分割的三種深度學(xué)習(xí)方法。
1.1.1反卷積
反卷積(conv transpose),等價(jià)于狹義的上采樣,是卷積的逆過(guò)程。用于將經(jīng)過(guò)下采樣信息提取后,分辨率降低、尺寸變小的特征圖像擴(kuò)大為和原圖等大的分割圖,如圖1所示。
圖1 反卷積Fig.1 Conv transpose
1.1.2跳躍連接
Long等人在文獻(xiàn)[9]中指出若將全卷積后的結(jié)果直接上采樣得到的將是非常粗糙的信息,所以將某些中間卷積結(jié)果直接與上采樣的信息融合,建立低層與高層信息之間的“捷徑”,使用跳躍連接將淺的、具有空間特征的數(shù)據(jù)賦予經(jīng)過(guò)多層信息蒸餾后的圖像,通過(guò)向網(wǎng)絡(luò)高層提供低層特征來(lái)輔助重構(gòu)圖像。在網(wǎng)絡(luò)結(jié)構(gòu)上,形成了跳躍式的連接(skip connect),如圖2所示。
圖2 跳躍連接Fig.2 Skip connect
1.1.3空洞卷積
Chen等人[14]提出空洞卷積(atrous convolution),發(fā)現(xiàn)當(dāng)卷積核為3×3,采樣率r=12時(shí),模型與CRF結(jié)合后效果最優(yōu)。假設(shè)卷積核大小用k表示,空洞卷積的感受野可如下表示:
F=[(r-1)(k+1)+k]2
(1)
由式(1)得:感受野從3×3擴(kuò)大為47×47,其中填充的就是所謂的“空洞”,如圖3所示,這些空洞不參與卷積運(yùn)算,但可以提高卷積層的感受野。所以空洞卷積沒(méi)有增加計(jì)算量,且簡(jiǎn)單直接地控制了卷積神經(jīng)網(wǎng)絡(luò)的空間分辨率,從而實(shí)現(xiàn)了更多的特征提取。
圖3 不同感受野對(duì)比Fig.3 Comparision of different accept field
U-Net是從FCN發(fā)展而來(lái),同樣省略了全連接層,使用跳躍連接融合信息,因其優(yōu)美的網(wǎng)絡(luò)結(jié)構(gòu)和在小樣本數(shù)據(jù)集上的優(yōu)異表現(xiàn)而廣受好評(píng)[15]。原始U-Net 包含18個(gè)3×3的卷積層,1個(gè)1×1的卷積層,4個(gè)2×2的下采樣層,4個(gè)2×2的上采樣層,使用 ReLU 作為激活函數(shù),如圖4所示。
池化操作會(huì)損失圖像中的高頻成分,產(chǎn)生鈍化模糊的圖像塊,并丟失位置信息。為了恢復(fù)原始圖像結(jié)構(gòu)特征,U-Net使用了 4 次跳躍連接方式(圖4中灰色箭頭)來(lái)連接低層與高層的特征信息。使用較淺層的空間信息來(lái)解決像素定位問(wèn)題,經(jīng)過(guò)多次卷積后的較深特征用來(lái)解決像素分類問(wèn)題。
圖4 原始U型網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 Original structure of U-net
高分辨率遙感圖像語(yǔ)義分割需要處理非常豐富的細(xì)節(jié)特征,我們改造了原始 U-Net,實(shí)現(xiàn)了更精確的像素級(jí)標(biāo)注效果。
條件隨機(jī)場(chǎng)(conditional random field,CRF)模型作為一種判別式模型,被廣泛用于圖像分類和標(biāo)記任務(wù)[16]。CRF是給定一組輸入隨機(jī)變量條件下另一組輸出隨機(jī)變量的條件概率分布模型,由CRF可以在給定觀測(cè)場(chǎng)的條件下,對(duì)標(biāo)記場(chǎng)的后驗(yàn)概率直接建模。若輸入由一系列隨機(jī)變量X={x1,x2,…,xN}組成,表示給定的遙感圖像,Xi為像素i的向量; 隨機(jī)場(chǎng)Y由一系列隨機(jī)變量Y={y1,y2,…,yN}組成,表示對(duì)應(yīng)的觀測(cè)值,Yi為像素i的標(biāo)簽,其取值范圍為L(zhǎng)={l1,l2,…,lN}。那么,crf(Y|X)可以通過(guò)Gibbs分布給出概率函數(shù):
(2)
式(2)中,c為像素組成的概率無(wú)向圖G上的最大團(tuán)。Z是規(guī)范化因子:
(3)
式(3)中,函數(shù)Ψc(Yc)稱為勢(shì)函數(shù),通常定義為指數(shù)函數(shù):
Ψc(Yc)=exp{-E(Yc)}
(4)
因此,分類問(wèn)題的目標(biāo)在于找到一個(gè)標(biāo)簽y*,使得后驗(yàn)概率P(Y|X) 最大,Gibbs 能量E(Yc) 最小。本文在全圖的條件下定義Gibbs能量函數(shù)為:
(5)
式(5)中,Ψu(xi)為一元能量分量,本例中即前段深度卷積網(wǎng)絡(luò)的分割圖像。
Ψp(xi,xj)為成對(duì)能量分量,依賴于圖像的平滑參數(shù),描述像素點(diǎn)之間的關(guān)系,鼓勵(lì)類似標(biāo)簽分配給具有類似屬性的像素,反之相差較大的像素分配不同的標(biāo)簽,而這個(gè)“距離”由顏色值和實(shí)際相對(duì)距離定義。
針對(duì)二維圖像的特點(diǎn),每個(gè)像素都具有類別標(biāo)簽(xi),還有對(duì)應(yīng)的觀測(cè)值(yi),這樣以每個(gè)像素點(diǎn)作為節(jié)點(diǎn),像素與像素間的關(guān)系作為邊,即構(gòu)成了一個(gè)條件隨機(jī)場(chǎng)。
神經(jīng)網(wǎng)絡(luò)的工作就是為復(fù)雜的、高度折疊的信息流形找到簡(jiǎn)潔的表示。在語(yǔ)義分割領(lǐng)域,F(xiàn)CN等使用反卷積和跳躍連接實(shí)現(xiàn)了一種端到端的網(wǎng)絡(luò)結(jié)構(gòu),以保證輸出圖像應(yīng)與輸入圖像有相同的尺度大小,賦予圖像中每個(gè)像素一個(gè)種類標(biāo)簽。DeepLap系列則使用空洞卷積,在不增加參數(shù)量的前提下,提高對(duì)圖像空間特征的提取。
針對(duì)本文任務(wù)前景與背景差異巨大的特點(diǎn),選用在Kaggle圖像分類及語(yǔ)義分割競(jìng)賽中廣泛運(yùn)用的U-net網(wǎng)絡(luò)作為前端信息提取,在后端選用條件隨機(jī)場(chǎng)對(duì)圖像進(jìn)行精細(xì)化調(diào)整。
在原始U-Net中,卷積層深度從64逐層增加至1 024,本文網(wǎng)絡(luò)把過(guò)濾器的深度統(tǒng)一設(shè)置為64。這是因?yàn)閷?shí)驗(yàn)采用的數(shù)據(jù)集僅包含道路信息,其特征組合數(shù)遠(yuǎn)少于CIFAR-10、Pascal VOC 等數(shù)據(jù)集中樣本的特征組合數(shù),如果參照原始 U-Net中的過(guò)濾器深度,網(wǎng)絡(luò)不易收斂,分割準(zhǔn)確率較低。
出于以下三個(gè)方面的原因:1) Massachusetts roads datasets中類別數(shù)和待識(shí)別特征數(shù)較少,正樣本平均比例不足5%,如圖5所示;2) 池化操作中丟失的信息可以通過(guò)“反卷積”和“跳躍連接”重新獲取,另外在遙感圖像中,不需要去理解和識(shí)別高層次 3D 物體的概念,在較高網(wǎng)絡(luò)層中增加過(guò)濾器的數(shù)量,并不影響模型的實(shí)際預(yù)測(cè)性能;3) 原始網(wǎng)絡(luò)結(jié)構(gòu)設(shè)置對(duì)硬件設(shè)備較高,不便于向邊緣設(shè)備移植,我們?cè)O(shè)計(jì)統(tǒng)一的過(guò)濾器數(shù)量為64實(shí)質(zhì)上是一種降低時(shí)間和空間復(fù)雜度的考慮。
圖5 原始彩色圖像與其掩膜Fig.5 Original RBG image and its mask
考慮語(yǔ)義圖像分割的任務(wù)的特性,給定圖像的每個(gè)像素i都必須歸入一個(gè)對(duì)象類c∈C。而傳統(tǒng)基于深度網(wǎng)絡(luò)的分割方法大多依賴于邏輯回歸或者是優(yōu)化cross_entropy loss,針對(duì)本文前景背景差異化大的特點(diǎn),引入Lovasz-softmax[17]。
CE loss如下:
(6)
(7)
式(6)中的loss產(chǎn)生邏輯損失并引起平滑優(yōu)化。這樣,驗(yàn)證集上的交叉熵?fù)p失的度量通常不能很好地指示分割質(zhì)量。一種更好的性能指標(biāo)是Jaccard指數(shù),通常用于評(píng)估分割任務(wù),也稱為IoU。給定ground truth標(biāo)簽向量y*和預(yù)測(cè)標(biāo)簽向量y~,那么類別c的Jaccard指數(shù)定義如下:
(8)
它給出了ground truth掩膜和被評(píng)估掩膜之間的并集的交的比率為[0,1],在此約定0/0=1。相應(yīng)的在經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化中采用的損失函數(shù)為:
ΔJC(y*,y~)=1-JC(y*,y~)
(9)
對(duì)于多標(biāo)簽數(shù)據(jù)集,Jaccard指數(shù)通常是通過(guò)跨類別平均,從而得出平均IoU。
在上述基礎(chǔ)上,可以針對(duì)Jaccard指數(shù),優(yōu)化經(jīng)過(guò)區(qū)別訓(xùn)練的細(xì)分系統(tǒng)的性能。通過(guò)Jaccard指數(shù)測(cè)量得到的預(yù)測(cè)分割掩膜,以及基于子模塊集函數(shù)的Lovasz擴(kuò)展的Jaccard損失的分段線性替代方案,性能得到了較大的改善。
為了在連續(xù)優(yōu)化框架中優(yōu)化Jaccard指數(shù),考慮到這種離散損失的平滑擴(kuò)展。擴(kuò)展基于集合函數(shù)的子模分析,其中集合函數(shù)從一組錯(cuò)誤預(yù)測(cè)映射到一組實(shí)數(shù),見式(7)。
對(duì)于預(yù)測(cè)輸出y~和ground truth真值y*,我們將類別c的一組錯(cuò)誤預(yù)測(cè)像素定義為:
MC(y*,y~)={y*=c,y~≠c}∪
{y*≠c,y~=c}
(10)
對(duì)于固定的背景真值y*,Jaccard損失在式(5)中根據(jù)一組錯(cuò)誤預(yù)測(cè)可以重寫為:
ΔJC:MC∈{0,1}P
(11)
Jaccard loss滿足子模函數(shù)的性質(zhì),所以可以對(duì)其進(jìn)行Lovasz extension將原子模函數(shù)的輸出值作為基進(jìn)行插值。計(jì)算這些差值的基就是在ground truth中取一部分作為預(yù)測(cè)結(jié)果,以此來(lái)提高訓(xùn)練效果。
本實(shí)驗(yàn)在Ubuntu 18.04系統(tǒng)下,采用基于Tensorflow v1.13的Keras v2.2.4作為計(jì)算架構(gòu),計(jì)算機(jī)硬件配置為NVIDIA GTX 1080TI(11G),32 GB RAM。數(shù)據(jù)集為美國(guó)馬塞諸薩州部分地區(qū)高分辨率遙感圖像[18],包括像素均為1 500×1 500的原始三通道衛(wèi)星圖片和單通道掩膜圖像,每像素點(diǎn)表示實(shí)際地面1 m2范圍,掩膜圖片由OpenStreetMap提供的數(shù)據(jù)生成,驗(yàn)證集和測(cè)試集的目標(biāo)圖片都進(jìn)行過(guò)手工標(biāo)記以提高準(zhǔn)確率。
訓(xùn)練集1 108張圖片,驗(yàn)證集14張圖片, 測(cè)試集49張圖片。在訓(xùn)練過(guò)程中,為提取更多特征信息,將每張圖片分割為3×3的小圖片,像素為500×500。
訓(xùn)練超參數(shù)如下:resize圖片大小為256×256,設(shè)置batch大小為16,優(yōu)化器使用AdamOptimizer,初始學(xué)習(xí)率設(shè)置為10-4。
在語(yǔ)義分割及信息檢索、自然語(yǔ)言處理等任務(wù)中,主要用到準(zhǔn)確率(precision,P)、召回率(re-call,R)、F-Score和交并比(intersection-over-union,IoU)四種評(píng)價(jià)指標(biāo)。
表1 真值表
由表1得,precision和recall分別如下:
(12)
precision和recall在有些時(shí)候是矛盾的,所以將兩者加權(quán)平均,引入F-Score:
(13)
特別的,當(dāng)a=1時(shí),為F1-Score。
交并比是輸出的候選框與原標(biāo)記框的交疊率,如圖6所示。
(14)
圖6 交并比(白色為人工標(biāo)定框,黑色為模型預(yù)測(cè)框)Fig.6 IoU(white is manual, black is model predicted)
將本文方法與文獻(xiàn)[19]中的結(jié)果對(duì)比,在3.1節(jié)四種評(píng)價(jià)指標(biāo)下分別比較Unet、RSRCNN[20]、ELU-SegNet-R[21]、DCED[19]和本文方法的結(jié)果及運(yùn)行時(shí)間結(jié)果對(duì)比見表2。
表2 不同方法的結(jié)果對(duì)比
實(shí)驗(yàn)證明,在本文方法模型參數(shù)量只有1 MB,相較其他模型減少數(shù)十倍的基礎(chǔ)下,準(zhǔn)確率并沒(méi)有大幅下降,且在速度上存在優(yōu)勢(shì),可運(yùn)用于無(wú)人機(jī)、移動(dòng)機(jī)器人、智能手機(jī)等小型化終端設(shè)備。
表3中,是我們開展消融實(shí)驗(yàn)的結(jié)果,可以看到空洞卷積、Lovasz loss以及CRF的介入均是在增加一定運(yùn)算量的基礎(chǔ)上提高了預(yù)測(cè)精度,但最后的運(yùn)行速度也要比原始的U-net網(wǎng)絡(luò)快一個(gè)數(shù)量級(jí)。
表3 消融實(shí)驗(yàn)
可視化對(duì)比結(jié)果如圖7所示。在圖7(a)、(d)中(Unet網(wǎng)絡(luò)濾波器數(shù)目為64個(gè)),由于加入空洞卷積而出現(xiàn)不同程度的白塊,且提取精度下降,所以引入Lovasz-Softmax損失函數(shù)進(jìn)行微調(diào)以提高網(wǎng)絡(luò)分割準(zhǔn)確率。對(duì)于增大感受野而導(dǎo)致的背景對(duì)分割目標(biāo)的侵蝕而產(chǎn)生的白塊,在網(wǎng)絡(luò)輸出后端增加CRF層,進(jìn)一步聯(lián)系上下文語(yǔ)義信息。相較于對(duì)照方法,本文方法分辨率高,較好地保存了道路的結(jié)構(gòu)信息,在出現(xiàn)樹木、房屋陰影遮擋處依然能準(zhǔn)確提取道路。在立交橋的道路交叉口及并行多車道處表現(xiàn)出更精確的分割效果。在圖7(b)中,原始遙感圖像中的道路末端的停車場(chǎng),其他方法均未正確識(shí)別或是直接忽略,但本文方法均有效分割。
對(duì)于不同場(chǎng)景的提取效果,本文方法也優(yōu)于其他方法,并且能體現(xiàn)道路的粗細(xì)程度,可以為后續(xù)工作提供更多的有效信息。而通過(guò)本文引入的空洞卷積和針對(duì)道路特點(diǎn)改變過(guò)濾器個(gè)數(shù),模型參數(shù)只有約1 MB,相較于其他方法是巨大優(yōu)勢(shì),使得模型可以被運(yùn)用于移動(dòng)平臺(tái)等邊緣設(shè)備。
圖7 可視化對(duì)比Fig.7 Visual comparison
本文提出了基于條件隨機(jī)場(chǎng)和U型網(wǎng)絡(luò)的遙感圖像道路提取方法。該方法首先針對(duì)遙感圖像中道路局部細(xì)節(jié)特征豐富、語(yǔ)義特征簡(jiǎn)單的特性,調(diào)整了濾波器個(gè)數(shù),并使用空洞卷積增大感受野,提高了網(wǎng)絡(luò)特征提取能力。其次,針對(duì)道路目標(biāo)在遙感圖像中占比小,易被背景侵蝕的特性,選擇Lovasz-Softmax損失函數(shù),并在后端引入條件隨機(jī)場(chǎng),進(jìn)一步利用了全局上下文信息的聯(lián)系,優(yōu)化了分割結(jié)果。實(shí)驗(yàn)結(jié)果表明,本方法在召回率、精度和F1-score達(dá)到82.8%,80.9%,81.8%的同時(shí),交并比及運(yùn)行速度為85%和10FPS,基本滿足視頻分割的要求,可運(yùn)用于邊緣設(shè)備。