崔衛(wèi)紅,熊寶玉,張麗瑤
武漢大學(xué)遙感信息工程學(xué)院,湖北 武漢 430079
高空間分辨率(簡稱高分)遙感影像建筑物提取在城市規(guī)劃、變化檢測、災(zāi)害救援等多方面具有重要應(yīng)用價(jià)值。特征選擇與特征表達(dá)是建筑物提取的重要基礎(chǔ)。根據(jù)特征選取方式的不同將建筑物提取方法歸納為兩類:一類是基于人工設(shè)計(jì)特征的,另一類是基于深度神經(jīng)網(wǎng)絡(luò)自主學(xué)習(xí)特征的。
根據(jù)建筑物所特有的光譜、紋理、結(jié)構(gòu)、上下文等特性,很多學(xué)者設(shè)計(jì)出了具有針對性的建筑物提取方法。文獻(xiàn)[1]結(jié)合結(jié)構(gòu)、上下文、光譜信息3種不同類型的特征對建筑物進(jìn)行提取。文獻(xiàn)[2]基于灰度共生矩陣提出PanTex指數(shù)來提取建筑物。文獻(xiàn)[3]基于Harris角點(diǎn)[4]、GMSR[5]、Gabor濾波和FAST特征點(diǎn)檢測4種特征提出一種決策融合的建筑物提取方法。文獻(xiàn)[6]結(jié)合雙邊濾波和EDLines線檢測[7]探測出建筑物的邊界線,然后基于線連接和閉合輪廓搜索得到完整的建筑物輪廓。文獻(xiàn)[8]提出了一種結(jié)合方向梯度直方圖和光譜與紋理特征的航空影像建筑物提取方法。另外,還有學(xué)者依據(jù)數(shù)學(xué)形態(tài)學(xué)提出相應(yīng)的空間計(jì)算方法來提取建筑物,如形態(tài)學(xué)建筑物指數(shù)(MBI)[9]、增強(qiáng)的形態(tài)學(xué)建筑物指數(shù)(EMBI)[10]、面向?qū)ο笮螒B(tài)學(xué)建筑物指數(shù)(OBMBI)[11]等。然而,人工設(shè)計(jì)特征的方法需要花費(fèi)大量的精力來選擇合適的建筑物特征。盡管這些方法在少量樣本圖像上表現(xiàn)出良好的性能,但尚未被證明可用于大型的建筑物數(shù)據(jù)集中。
近幾年,由多層卷積濾波核組成的卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)受到廣泛的關(guān)注。CNN具有自動(dòng)提取圖像相關(guān)特征的能力,并被應(yīng)用到數(shù)字識別、自然圖像分類、圖像分割等多個(gè)方面。目前,利用CNN從高分遙感影像中提取建筑物也取得了一定成果。文獻(xiàn)[12]提出了一種基于塊的卷積神經(jīng)網(wǎng)絡(luò)建筑物提取方法,以大圖塊輸入小圖塊輸出的方式學(xué)習(xí)空間上下文特征,對航空影像進(jìn)行建筑物提取,并在Massachusetts建筑物數(shù)據(jù)集上表現(xiàn)出良好的性能。但基于塊狀的方法提取得到的建筑物中會(huì)產(chǎn)生塊狀不連續(xù)的現(xiàn)象。針對該問題,文獻(xiàn)[13]提出了一種多通道預(yù)測方法,同時(shí)預(yù)測道路、建筑物和背景(除建筑物和道路的其他地物)3種類別,以降低預(yù)測結(jié)果中塊狀不連續(xù)的情況。文獻(xiàn)[14]用全卷積神經(jīng)網(wǎng)絡(luò)(fully convolutional neural network,FCN)[15]進(jìn)行建筑物提取。用FCN提取建筑物的方法消除了由于塊狀邊界引起的不連續(xù)性;其次,由于去掉了文獻(xiàn)[12]提出的網(wǎng)絡(luò)中的全連接層,減少了參數(shù)的數(shù)量。同時(shí),由于全卷積操作的GPU執(zhí)行速度快,縮短了執(zhí)行時(shí)間。但FCN反卷積上采樣結(jié)果比較模糊和平滑。上述網(wǎng)絡(luò)均為單輸入卷積神經(jīng)網(wǎng)絡(luò),也有學(xué)者提出雙輸入深度神經(jīng)網(wǎng)絡(luò)模型提取建筑物。如文獻(xiàn)[16]將包含完整建筑物的256×256像素的大窗口影像輸入到Alexnet[17]網(wǎng)絡(luò)提取建筑物的全局特征,將僅包含建筑物局部的64×64像素的小窗口影像輸入到VGG[18]網(wǎng)絡(luò)中提取局部特征,結(jié)合全局和局部特征對1 m分辨率的Massachusetts數(shù)據(jù)集進(jìn)行建筑物提取。Massachusetts數(shù)據(jù)集中多數(shù)建筑物為小建筑物,占20×20~30×30像素,而較大建筑物長占150~250像素,寬占70~150像素左右。當(dāng)影像分辨率更高,影像中建筑物所占的像素?cái)?shù)更多,文獻(xiàn)[16]提出的雙輸入網(wǎng)絡(luò)方法需要增大網(wǎng)絡(luò)中大窗口甚至小窗口的大小,這樣會(huì)造成數(shù)據(jù)量增大。受計(jì)算機(jī)硬件的限制,當(dāng)網(wǎng)絡(luò)的輸入過大時(shí),會(huì)出現(xiàn)內(nèi)存不足的現(xiàn)象,網(wǎng)絡(luò)無法訓(xùn)練。當(dāng)僅將小窗口影像輸入到VGG16網(wǎng)絡(luò)提取大建筑物時(shí),結(jié)果存在空洞。針對這種現(xiàn)象,本文在VGG16的基礎(chǔ)上提出了一種多尺度全卷積深度網(wǎng)絡(luò),使得當(dāng)輸入影像的窗口不能很好地覆蓋原建筑物時(shí),大型建筑物也能被完整地提取。由此,本文中的大型建筑物是指建筑物所占像素?cái)?shù)超過輸入影像窗口大小的建筑物。
目前,多尺度卷積神經(jīng)網(wǎng)絡(luò)一般分為兩種。一種是基于多尺度特征圖的卷積神經(jīng)網(wǎng)絡(luò)模型,如目標(biāo)檢測任務(wù)中的SSD網(wǎng)絡(luò)[19],通過使用多個(gè)特征圖,同時(shí)進(jìn)行位置回歸和分類,以解決高層特征圖上小物體信息少而造成檢測效果不佳的問題。在語義分割任務(wù)中PSPNet[20]將基于ResNet[21]網(wǎng)絡(luò)提取的特征圖,通過一個(gè)金字塔池化模塊獲得多個(gè)尺度的特征圖,然后將多尺度特征圖上采樣并串聯(lián),從而獲得圖像的局部和全局特征。DeepLab-v2[22]提出了空洞空間金字塔池化(atrous spatial pyramid pooling,ASPP),用不同空洞率的空洞卷積層并行來獲得多尺度信息。另一種是基于多尺度影像的卷積神經(jīng)網(wǎng)絡(luò)模型。這類模型通常將不同尺度的影像分別輸入到相同的網(wǎng)絡(luò)模型,得到不同尺度影像的特征,并將其融合獲得多尺度特征。不同學(xué)者獲得多尺度影像的方式有所不同,如文獻(xiàn)[23]將原始影像進(jìn)行拉普拉斯金字塔變換,而文獻(xiàn)[24—25]直接將原始影像進(jìn)行不同尺度的縮放。但是這種基于多尺度影像的模型受GPU內(nèi)存的限制,不能很好地適應(yīng)更大更深的網(wǎng)絡(luò)*。
本文提出了一種基于多尺度影像的全卷積神經(jīng)網(wǎng)絡(luò),首先將原始影像依次進(jìn)行1/4、1/16、1/64、1/256等4個(gè)等級的下采樣,得到不同分辨率的影像,并分層級地進(jìn)行建筑物多尺度特征提取和特征融合。為了減少網(wǎng)絡(luò)參數(shù),本文用上采樣層取代全連接層。由于FCN中簡單的反卷積上采樣過程所得建筑物提取結(jié)果不夠精細(xì),因此本文采用SegNet[26]網(wǎng)絡(luò)中的上采樣方法。
經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)由卷積層、池化層和全連接層組成。卷積神經(jīng)網(wǎng)絡(luò)通過“卷積層+池化層”得到特征圖,然后將得到的特征圖轉(zhuǎn)換成一維向量輸入到全連接層,最后一層全連接層通常被傳到Sigmoid激活函數(shù)或Softmax激活函數(shù)中,用于二分類或多分類任務(wù)。VGG網(wǎng)絡(luò)由文獻(xiàn)[18]提出,是用于ImageNet數(shù)據(jù)集[27]分類的一種卷積神經(jīng)網(wǎng)絡(luò)。該網(wǎng)絡(luò)取得了ILSVRC(ImageNet Large Scale Visual Recognition Challenge)比賽2014年分類項(xiàng)目的第2名。為此,本文將該網(wǎng)絡(luò)的樣本標(biāo)記模式進(jìn)行調(diào)整用于建筑物提取,并針對其在大型建筑物提取存在空洞的問題對該網(wǎng)絡(luò)模型進(jìn)行改進(jìn)。在ImageNet數(shù)據(jù)集分類中,輸入VGG16網(wǎng)絡(luò)的樣本標(biāo)記用One-hot編碼表示,即以向量p=[0,0,…,1,…,0,0](第i個(gè)元素值為1,其余元素值為0)表示對應(yīng)輸入圖片所屬的類別為第i類;向量p的維度為1000,代表ImageNet數(shù)據(jù)集中的1000個(gè)類別。而本文用VGG16網(wǎng)絡(luò)提取建筑物的數(shù)據(jù)標(biāo)記為二值向量q=[0,1,…,0,1,1,0…,0,0],向量q中每個(gè)元素值取0(表示非建筑物)或1(表示建筑物),表示對應(yīng)輸入影像上的像素是否為建筑物;向量q的維度與VGG16建筑物提取網(wǎng)絡(luò)的輸出影像大小保持一致。下面介紹建筑物提取的VGG16網(wǎng)絡(luò)結(jié)構(gòu)。
VGG16建筑物提取網(wǎng)絡(luò)由13個(gè)卷積層、5個(gè)池化層、3個(gè)全連接層組成。網(wǎng)絡(luò)的輸入為wi×wi的影像,輸出為w0×w0的影像,輸入影像與輸出影像的中心位置相同,輸出影像中的每個(gè)像素代表其對應(yīng)位置的輸入像素屬于建筑物的概率,取值在0~1之間。為了提供建筑物的上下文信息,設(shè)置wi>w0。VGG16特征提取結(jié)構(gòu)(去掉全連接層)如表1所示,其中,“[3×3 conv (N) ]×m”表示由N個(gè)3×3卷積核構(gòu)成的m個(gè)卷積層,這種相同參數(shù)的卷積層構(gòu)成一個(gè)block;“pool/2”表示核大小為2×2的池化層。而后網(wǎng)絡(luò)連接3個(gè)全連接層,輸出神經(jīng)元個(gè)數(shù)依次為4096、4096、w0×w0(最后一個(gè)全連接層神經(jīng)元個(gè)數(shù)與輸出影像大小保持一致)。
表1 VGG16建筑物提取網(wǎng)絡(luò)特征提取結(jié)構(gòu)
Tab.1 Feature extraction structure in VGG16 for buildings extraction
網(wǎng)絡(luò)層名網(wǎng)絡(luò)層結(jié)構(gòu)輸出特征圖與輸入影像大小之比block 1[3×3 conv (64)]×2pool 1pool/21/4block 2[3×3 conv (128)]×2pool 2pool/21/16block 3[3×3 conv (256)]×3pool 3pool/21/64block 4[3×3 conv (512)]×3pool 4pool/21/256block 5[3×3 conv (512)]×3pool 5pool/21/1024
影像中大型建筑物的結(jié)構(gòu)特征和上下文特征往往難以在較小的影像塊中反映出來,因此輸入CNN的影像塊應(yīng)盡可能大。輸入CNN的影像越大,待訓(xùn)練的參數(shù)越多,受計(jì)算機(jī)硬件的限制,輸入影像不能無限制的增大。針對輸入影像中難以包含大型建筑物全局特征的問題,本文在VGG16的基礎(chǔ)上引入金字塔結(jié)構(gòu)。由于全連接層參數(shù)過多,將其用具有編碼器-解碼器結(jié)構(gòu)的全卷積神經(jīng)網(wǎng)絡(luò)取代,構(gòu)建一種新的網(wǎng)絡(luò)。
本文采用最大池化的方式將輸入影像依次進(jìn)行1/4、1/16、1/64、1/256的下采樣,得到4種低分辨率的影像,分別記為scale1—scale4。在現(xiàn)有基于多尺度影像的卷積神經(jīng)網(wǎng)絡(luò)中,通常使用相同的網(wǎng)絡(luò)結(jié)構(gòu)處理不同尺度的影像,進(jìn)而得到多尺度特征圖,這種方式導(dǎo)致計(jì)算量增加。為此,本文以VGG16為基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu),稱其為網(wǎng)絡(luò)主干。網(wǎng)絡(luò)主干對原始影像進(jìn)行卷積和池化操作后得到大尺度特征圖,如圖1中虛線框部分。網(wǎng)絡(luò)主干pooll(l=1,2,3,4)層的輸出與scalel影像大小相同,將pooll層的輸出和scalel影像分別輸入到blockl+1網(wǎng)絡(luò)模塊中,得到兩個(gè)尺度影像的特征。這樣每次僅對兩個(gè)尺度的特征圖進(jìn)行融合,既可以得到多尺度的特征,又可以避免同一網(wǎng)絡(luò)結(jié)構(gòu)重復(fù)多次的計(jì)算。所得到的兩個(gè)尺度特征圖維度和大小相同,可以直接將其在相應(yīng)維度上進(jìn)行相加,共同輸入到后續(xù)的網(wǎng)絡(luò)模塊中。
SegNet和FCN是兩種經(jīng)典的全卷積網(wǎng)絡(luò)。編碼過程圖像不斷縮小,解碼過程圖像不斷上采樣放大。文獻(xiàn)[26]通過試驗(yàn)表明,SegNet中的上采樣比FCN中所使用的反卷積上采樣在語義分割中表現(xiàn)出更好的性能。SegNet在上采樣過程中引入池化索引功能,使得在內(nèi)存使用上SegNet比FCN更為有效。另一方面,F(xiàn)CN為了精細(xì)試驗(yàn)結(jié)果,上采樣過程中將反卷積結(jié)果與編碼過程得到的特征圖結(jié)合,訓(xùn)練比較繁瑣。因此本文使用SegNet網(wǎng)絡(luò)中的上采樣層來替代VGG16中的全連接層。
通過試驗(yàn)對比發(fā)現(xiàn),當(dāng)經(jīng)過3次上采樣時(shí)建筑物提取精度最高,因此本文并未將圖像上采樣到原始輸入圖像的大小。
本文所提出的網(wǎng)絡(luò)完整結(jié)構(gòu)如圖1所示,記為VGG16_Pymaid_Upsample,簡稱VPU。圖中“紅色”圖層表示“卷積層+激活函數(shù)ReLU”、“黃色”圖層表示“池化層”、“綠色”圖層表示Segnet上采樣層。不同的圖層大小表示該層輸入影像(或特征圖)的相對大小,輸入影像對應(yīng)的預(yù)測輸出標(biāo)記為最右邊紅框內(nèi)的影像。
圖1 VPU網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 VPU neural network architecture
2.2.1 最大池化下采樣
在CNN中,有最大池化和平均池化兩種圖像下采樣方式。本文對比以上兩種下采樣方法以及圖像處理中的3種采樣方法(最鄰近法、雙線性內(nèi)插法、三次卷積內(nèi)插法)的區(qū)別。將圖2所示的576×576像素的影像分別采用以上5種采樣方法依次進(jìn)行1/4、1/16、1/64、1/256下采樣處理。
圖2 576×576 像素的原始影像Fig.2 The original image with 576×576 pixels
圖3(a)—(e)依次表示1/4倍最大池化、平均池化、最鄰近法、雙向性內(nèi)插法和三次卷積內(nèi)插法下采樣的結(jié)果。1/4倍下采樣時(shí),從目視上難以判別不同方法下采樣后影像的變化,因此用灰度直方圖對下采樣結(jié)果進(jìn)行分析。圖4(a)—(e)分別對應(yīng)圖3(a)—(e)下采樣后圖像紅綠藍(lán)三波段的灰度直方圖。從圖中可以看出,最大池化和最鄰近法下采樣結(jié)果中尖銳處較多,而平均池化、雙線性內(nèi)插法及三次卷積內(nèi)插法下采樣結(jié)果中相對比較平滑。
進(jìn)一步,當(dāng)下采樣級數(shù)更大時(shí)(圖5(a)為以上5種下采樣方式1/64倍下采樣結(jié)果,圖5(b)為5種下采樣方式1/256倍下采樣結(jié)果),最大池化后的結(jié)果相對于其他幾種方法的結(jié)果邊界處信息更明顯;最鄰近法下采樣后結(jié)果中顯示出明顯的椒鹽噪聲;而平均池化、雙線性內(nèi)插法和三次卷積內(nèi)插法去除了圖像中尖銳的變化,得到均勻平滑的圖像,建筑物的邊界處被模糊,細(xì)節(jié)被削弱。綜合考慮,本文采用邊界信息更豐富的最大池化下采樣方法來得到多尺度影像。
圖3 1/4倍下采樣的5種結(jié)果Fig.3 The 5 results of downsampling to quarter of the original image
圖4 5種下采樣結(jié)果的灰度直方圖Fig.4 Gray histogram of the 5 downsampling methods
圖5 1/64倍與1/256倍級數(shù)下采樣結(jié)果比較Fig.5 Comparison of 1/64 and 1/256 times downsampling
2.2.2 多尺度特征融合
為了顯示多尺度特征融合的效果,將圖2所示的576×576像素的影像輸入到VPU網(wǎng)絡(luò)(3次上采樣)中,并將不同尺度影像所得特征圖及融合后的特征圖進(jìn)行可視化分析。
觀察可視化的結(jié)果,可以發(fā)現(xiàn)scale 1—scale 3影像所得到的特征圖與網(wǎng)絡(luò)主干特征圖融合起到了特征加強(qiáng)的作用。將pooll層輸出特征圖和scalel影像輸入到blockl+1網(wǎng)絡(luò)模塊后提取的特征圖分別記為FM_pooll、FM_scalel;將特征圖FM_pooll和特征圖FM_scalel對應(yīng)維度相加融合后所得特征圖記為FM_addl。以sacle3影像特征圖及特征融合的結(jié)果為例,如圖6(a)—(c)所示,分別表示FM_pool3、FM_scale3、FM_add3中前36維特征圖的可視化結(jié)果。觀察圖6(a)和圖6(b)中白色虛線框標(biāo)示的特征圖,在大尺度的高層特征圖中建筑物的邊緣輪廓信息已經(jīng)模糊,而在小尺度的低層特征圖中建筑物邊界細(xì)節(jié)信息更多。這使得多尺度特征結(jié)合后所得到的特征圖信息更豐富,使得建筑物邊界提取更精準(zhǔn)。
而scale 4影像所得到的特征圖與網(wǎng)絡(luò)主干特征融合后的效果與之前幾個(gè)尺度融合的效果存在差異。如圖6(d)—(f)所示,分別表示FM_pool 4、FM_scale 4、FM_add 4中前64維特征圖的可視化結(jié)果。從圖中可以看出,特征圖融合后的結(jié)果FM_add4與網(wǎng)絡(luò)主干所得到的特征圖FM_pool4可視化結(jié)果相近。這表明scale 4影像所得特征圖對最終結(jié)果影響較小,網(wǎng)絡(luò)訓(xùn)練過程中會(huì)對不同尺度來源的特征圖進(jìn)行權(quán)重分配。scale 4影像所保留的建筑物信息抽象,對建筑物提取的作用相對較小,這時(shí)網(wǎng)絡(luò)訓(xùn)練過程中對其分配的權(quán)重較小。
圖6 特征圖可視化Fig.6 Feature map visualization
本文選擇中國上海市嘉定區(qū)和美國Massachusetts兩個(gè)地區(qū)的數(shù)據(jù)集來驗(yàn)證改進(jìn)網(wǎng)絡(luò)的有效性,國內(nèi)和國外建筑物在結(jié)構(gòu)和復(fù)雜度方面差異很大。上海市嘉定區(qū)影像中建筑物以住宅小區(qū)、別墅區(qū)、廠房3種類型的建筑物為主。住宅小區(qū)中建筑物長占40~60像素,寬占10~30像素;別墅區(qū)建筑物一般占25×25~40×40像素;廠房所占像素大于100×100,較大的廠房可達(dá)500×400像素左右,為大型建筑物。Massachusetts數(shù)據(jù)集中建筑物以別墅區(qū)和商業(yè)中心為主,其中別墅區(qū)建筑物約占20×20~30×30像素,而商業(yè)中心中多數(shù)建筑物長占150~250像素,寬占70~150像素左右,為大型建筑物。
本文用放寬的查全率-查準(zhǔn)率曲線(relaxed precision-recall curve)[12]進(jìn)行精度評價(jià)。預(yù)測結(jié)果的二值圖中1代表建筑物,0代表非建筑物。記N1為預(yù)測值為1的像素個(gè)數(shù),N2為真實(shí)值為1的像素個(gè)數(shù),Nr_p為預(yù)測值為1且周圍3個(gè)像素范圍內(nèi)存在真實(shí)值為1的像素個(gè)數(shù),Nr_r為真實(shí)值為1且周圍3像素范圍內(nèi)存在預(yù)測值為1的像素個(gè)數(shù)。放寬的查全率(RP)和放寬的查準(zhǔn)率(RR)的計(jì)算公式如下
(1)
最終選擇放寬的查全率-查準(zhǔn)率曲線上查全率和查準(zhǔn)率相差最小的平衡點(diǎn)為精度評價(jià)指標(biāo),記為bp,并取bp值為平衡點(diǎn)處的RR。
本文選用收斂較快的交叉熵?fù)p失函數(shù)[28](如式(2)所示)L來定量評價(jià)訓(xùn)練樣本集中的真實(shí)值y(i)和預(yù)測值y′(i)(i=1,…,n;n為訓(xùn)練樣本的個(gè)數(shù))之間的差異,并使用小批量隨機(jī)梯度下降(mini-batch stochastic gradient descent,mini-batch SGD)的方法來最優(yōu)化損失函數(shù)
(2)
在訓(xùn)練網(wǎng)絡(luò)學(xué)習(xí)參數(shù)的過程中,不同網(wǎng)絡(luò)的超參數(shù)設(shè)置相同:初始學(xué)習(xí)率λ=0.005,學(xué)習(xí)率衰減頻率τ=104,學(xué)習(xí)率衰減率μ=0.1,動(dòng)量值m=0.9,權(quán)重衰減值w=0.000 5。
上海市嘉定區(qū)試驗(yàn)數(shù)據(jù)為0.5 m分辨率的天地圖影像,由RGB 3個(gè)波段組成。試驗(yàn)區(qū)影像大小為18 000×18 000像素,選擇試驗(yàn)區(qū)7/9的數(shù)據(jù)作為訓(xùn)練樣本集,1/9作為交叉驗(yàn)證集,1/9作為測試樣本(6000×6000像素),選擇其中5990×5990像素的區(qū)域進(jìn)行精度評價(jià)。
參考文獻(xiàn)[16]所提出的建筑物提取方法,當(dāng)使用Massachusetts建筑物數(shù)據(jù)集時(shí),對應(yīng)的VGG16網(wǎng)絡(luò)分支中的輸入影像大小為64×64像素(簡稱64×64,以下影像大小的描述均使用簡稱),輸出影像大小為16×16。對于64×64的檢測窗口而言,Massachusetts數(shù)據(jù)集中別墅區(qū)建筑物為小建筑物,而商業(yè)中心建筑物為大型建筑物。同時(shí)64×64的檢測窗口約是最大的小型建筑物的2倍,這樣有利于獲得小型建筑物的上下文語義信息。針對本文嘉定區(qū)影像數(shù)據(jù),當(dāng)檢測窗口為64×64時(shí),對于長寬為40~60像素的住宅小區(qū),64×64的檢測窗口不足以反映其上下文信息。如圖7(c)所示,當(dāng)影像輸入為64×64時(shí),VGG16網(wǎng)絡(luò)存在對大型建筑物提取不完整的現(xiàn)象。因此嘉定區(qū)建筑物檢測時(shí),檢測窗口設(shè)定為128×128(約是最大的小型建筑物的2倍)。如圖7(d)—(e),對比VGG16和VPU(2次上采樣)兩種方法在128×128的網(wǎng)絡(luò)輸入時(shí)對大型建筑物提取的結(jié)果,可以看出本文提出的方法對大型建筑物的空洞現(xiàn)象有一定程度的改進(jìn)。
圖7 預(yù)測結(jié)果Fig.7 The prediction results
為了說明本文輸入窗口大小選擇的有效性,將本文方法以128×128的影像輸入時(shí)的結(jié)果與VGG16網(wǎng)絡(luò)在128×128和64×64兩種不同輸入影像大小時(shí)的結(jié)果進(jìn)行精度比較,以嘉定區(qū)測試集中的5990×5990區(qū)域進(jìn)行試驗(yàn),結(jié)果如表2所示。
表2 建筑物提取精度
當(dāng)VGG16網(wǎng)絡(luò)的輸入影像窗口大小為128×128時(shí),預(yù)測精度高于64×64大小的影像輸入,表明適當(dāng)增加上下文信息時(shí),可以提高建筑物的提取精度。本文提出的方法相較于VGG16精度有所提高。
圖8為用不同的上采樣次數(shù)的網(wǎng)絡(luò)對576×576大小的影像進(jìn)行預(yù)測的結(jié)果,其中,圖8(a)和(b)分別表示576×576的原始影像和對應(yīng)的標(biāo)記。通過目視解譯,當(dāng)2次上采樣時(shí),影像中大型建筑物仍存在少許空洞;當(dāng)5次上采樣時(shí),試驗(yàn)結(jié)果中拼接處會(huì)存在明顯的拼接縫隙。分析其原因,當(dāng)5次上采樣時(shí),預(yù)測和訓(xùn)練的輸入和輸出圖像大小均為128×128,使得邊界處缺少上下文語義信息,從而導(dǎo)致試驗(yàn)結(jié)果中存在明顯的拼接縫。而3次上采樣和4次上采樣的目視效果相對較好。
圖8 不同上采樣次數(shù)的網(wǎng)絡(luò)建筑物提取結(jié)果Fig.8 The results of buildings extraction with different times of upsampling
同時(shí),本文通過定量的方法分析了整景嘉定區(qū)測試樣本的試驗(yàn)結(jié)果,并用表格和放寬的PR曲線圖兩種形式表示不同上采樣次數(shù)所對應(yīng)的建筑物提取精度。如表3和圖9(a)所示,從中都可以看出,當(dāng)3次上采樣即網(wǎng)絡(luò)輸出影像大小為32×32時(shí),建筑物提取精度最高。因此最終的VPU網(wǎng)絡(luò)選擇3次上采樣。
表3 建筑物提取精度
嘉定區(qū)建筑物最終提取的二值圖如圖10(c)所示,提取精度為0.970 9。
Massachusetts建筑物數(shù)據(jù)集由文獻(xiàn)[12]提供,共有151張1500×1500的1 m分辨率的航空影像,其中137張影像訓(xùn)練樣本、4張交叉驗(yàn)證樣本、10張測試樣本。由于文獻(xiàn)[12—13,16]均在Massachusetts建筑物數(shù)據(jù)集上進(jìn)行各自的網(wǎng)絡(luò)測試,因此將以上幾種方法建筑物提取結(jié)果與本文方法進(jìn)行對比試驗(yàn),結(jié)果如表4所示。文獻(xiàn)[12—13]提出的單輸入網(wǎng)絡(luò)中輸入影像大小為64×64,因此本文網(wǎng)絡(luò)所選用的影像輸入大小也為64×64,經(jīng)過3次上采樣后網(wǎng)絡(luò)的輸出為16×16。
圖9 建筑物提取精度Fig.9 The accuracy of buildings extraction
圖10 嘉定區(qū)建筑物提取結(jié)果Fig.10 The results of buildings extraction on the Jiading dataset
表4 建筑物提取的bp值
從表4可以看出,本文方法的精度高于其他幾種方法,最終建筑物提取精度為0.966 6,對應(yīng)的放寬的PR曲線如圖9(b)所示。圖11展示了一組本文方法對Massachusetts地區(qū)建筑物的提取結(jié)果,其中圖11(a)為原始影像,(b)為對應(yīng)的建筑物標(biāo)記,(c)為建筑物提取結(jié)果,結(jié)果中小建筑物和大建筑物均可以被很好地提取出來。
圖11 Massachusetts數(shù)據(jù)集建筑物提取結(jié)果Fig.11 The results of buildings extraction on Massachusetts dataset
本文所用的試驗(yàn)區(qū)中大型建筑物有兩種,Massachusetts數(shù)據(jù)集中的大型商業(yè)中心和嘉定試驗(yàn)區(qū)的廠房。其中大型商業(yè)中心建筑物大小相近,而廠房的大小跨度相對較大(100×100~500×500之間大小不等)。本文以一個(gè)商業(yè)中心建筑物和3個(gè)不同大小的廠房樣本圖像為例,對比原始VGG16網(wǎng)絡(luò)與最終的VPU(3次上采樣)網(wǎng)絡(luò)提取的效果。針對Massachusetts數(shù)據(jù)集中大型商業(yè)中心建筑物,兩個(gè)網(wǎng)絡(luò)輸入的影像大小均為64×64。
針對上海市嘉定區(qū)試驗(yàn),兩個(gè)網(wǎng)絡(luò)輸入的影像大小均為128×128,3個(gè)樣本圖像的大小依次為516×357、244×211和337×386。圖12和圖13中每一行圖像從左到右依次表示原始樣本圖像、樣本標(biāo)記、VGG16網(wǎng)絡(luò)建筑物提取結(jié)果、VPU網(wǎng)絡(luò)建筑物提取結(jié)果。從圖中可以看出,本文所提出的VPU網(wǎng)絡(luò)可以改善VGG16網(wǎng)絡(luò)對于大型建筑物提取時(shí)存在的空洞現(xiàn)象。
圖12 商業(yè)中心建筑物提取時(shí)空洞現(xiàn)象的改進(jìn)Fig.12 Improvement of the hole phenomenon for the business center
本文針對VGG16網(wǎng)絡(luò)對高分影像中大型建筑物提取結(jié)果不完整的問題,提出了一種基于多尺度影像的全卷積神經(jīng)網(wǎng)絡(luò)模型。該方法有效地利用了建筑物不同尺度下的特征。通過對上海市嘉定區(qū)和Massachusetts遙感影像進(jìn)行建筑物提取,驗(yàn)證了本文方法的有效性。
試驗(yàn)結(jié)果表明:①相比于平均池化、最鄰近法、雙線性內(nèi)插法和三次卷積內(nèi)插法下采樣,最大池化下采樣得到的多尺度影像中可以保留建筑物的邊界信息,更有利于建筑物的提?。虎诙喑叨忍卣鞯木C合可以更清楚地展現(xiàn)目標(biāo)特征;③當(dāng)卷積神經(jīng)網(wǎng)絡(luò)的輸入影像大小不同時(shí),形成的上下文背景信息不同,豐富的上下文結(jié)構(gòu)有利于對建筑物的提取;④本文方法不僅對建筑物類型較少、結(jié)構(gòu)簡單的Massachusetts地區(qū)建筑物可以很好地提取,而且對建筑物種類繁多、結(jié)構(gòu)復(fù)雜的上海市建筑物有很好的提取效果。
本文的兩組試驗(yàn)數(shù)據(jù)中,同一組數(shù)據(jù)的訓(xùn)練樣本集和測試樣本集的影像波段數(shù)、空間分辨率和時(shí)相等均相同。而實(shí)際應(yīng)用中,用于建筑物提取的高分辨影像可能是不同成像傳感器、不同時(shí)間、不同光照條件下獲得的不同空間分辨率影像,如何設(shè)計(jì)適用于不同來源數(shù)據(jù)的建筑物提取網(wǎng)絡(luò)模型是值得進(jìn)一步研究的問題。這樣既避免了網(wǎng)絡(luò)在不同數(shù)據(jù)源上重復(fù)訓(xùn)練,同時(shí)增加了網(wǎng)絡(luò)模型在工程應(yīng)用中的普適性。
圖13 廠房提取時(shí)空洞現(xiàn)象的改進(jìn)Fig.13 Improvement of the hole phenomenon for the workshops