張 軍,解 鵬,張 敏,閆文杰,石陸魁+
(1.河北工業(yè)大學(xué) 人工智能與數(shù)據(jù)科學(xué)學(xué)院,天津 300401;2.河北省科學(xué)技術(shù)廳 河北省大數(shù)據(jù)計(jì)算重點(diǎn)實(shí)驗(yàn)室,天津 300401)
近年來(lái),大量高空間分辨率遙感圖像被應(yīng)用于土地利用調(diào)查。然而,高分圖像地物組成豐富多樣,空間格局復(fù)雜多變,現(xiàn)有分類(lèi)方法仍無(wú)法滿足土地利用調(diào)查精確性要求。土地利用分類(lèi)成為一個(gè)極具挑戰(zhàn)性的課題。相對(duì)于傳統(tǒng)的基于底層[1,2]、中層[3-5]特征方法,卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNNs)所提取的高層語(yǔ)義特征更具表達(dá)性,在土地利用分類(lèi)中有突出表現(xiàn)[6,7]。大多數(shù)研究成果[8-10]采用CNNs全連接(FC)層的輸出作為圖像的最終表達(dá)。然而,Liu等[11]和Yue-Hei Ng等[12]證明了不同卷積層之間存在大量的互補(bǔ)信息。因此融合多層特征圖譜對(duì)于提高分類(lèi)精度具有重要意義。然而直接連接多個(gè)卷積層特征,不僅會(huì)導(dǎo)致卷積神經(jīng)網(wǎng)絡(luò)的參數(shù)規(guī)模過(guò)大,融合方法也缺乏靈活性[13]。
為克服上述問(wèn)題,本文在遷移學(xué)習(xí)思想的基礎(chǔ)上提出了一種基于多尺度特征融合的土地利用分類(lèi)算法,簡(jiǎn)稱(chēng)為T(mén)L-MFF(transfer learning and multi-scale feature fusion)。多尺度特征融合部分采取多尺度池化方式提取每幅圖像不同卷積層的不同尺度特征,并對(duì)提取的特征進(jìn)行自適應(yīng)融合,進(jìn)而獲得更準(zhǔn)確的特征表示。遷移部分首先利用預(yù)訓(xùn)練網(wǎng)絡(luò)提取的深度特征對(duì)多尺度特征融合部分和全連接層進(jìn)行預(yù)訓(xùn)練,最后對(duì)整個(gè)模型進(jìn)行微調(diào),從而得到最終完整的CNNs。本文在UCMerced_LandUse(UCM)和WHU-RS19(WHU19)兩個(gè)公開(kāi)的遙感數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),驗(yàn)證了本文提出的算法的精度優(yōu)于現(xiàn)有較好的算法的精度。
由于計(jì)算資源和遙感場(chǎng)景小樣本數(shù)據(jù)的限制,大型卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過(guò)程容易導(dǎo)致過(guò)擬合。一種簡(jiǎn)單可行的解決方法是利用基于ImageNet[14]的預(yù)訓(xùn)練CNNs提取圖像特征進(jìn)行場(chǎng)景分類(lèi)。在ImageNet上預(yù)訓(xùn)練的CNNs模型具有較強(qiáng)的泛化能力,且光學(xué)遙感圖像與通用光學(xué)圖像具有很強(qiáng)的低層相似性,所以在ImageNet數(shù)據(jù)集上訓(xùn)練的CNNs對(duì)于UCM和WHU19數(shù)據(jù)集的分類(lèi)具有重要的意義。在圖像識(shí)別領(lǐng)域,已有包括AlexNet[15]、CaffeNet[16]、GoogleNet[17]和VGGNet[18]在內(nèi)的一些成功的CNNs架構(gòu)。所有這些在ImageNet[14]上訓(xùn)練的CNNs模型都可以下載并經(jīng)常作為遷移學(xué)習(xí)[19]使用。為適應(yīng)遙感數(shù)據(jù)集,本文在遷移效果較好的AlexNet基礎(chǔ)上進(jìn)行改進(jìn),在第五層卷積層后添加第六層卷積層,conv6層卷積核大小設(shè)為3×3,步長(zhǎng)為1×1,隱藏單元為256。對(duì)conv1和conv6進(jìn)行多尺度特征自適應(yīng)融合,將融合后的特征表達(dá)輸入到全連接層中。出于對(duì)分類(lèi)精度和計(jì)算時(shí)間的考慮,將全連接層設(shè)置為三層FC1、FC2、FC3,每層的隱藏單元分別為1024、512和C,其中C為數(shù)據(jù)集的類(lèi)別數(shù)。其它參數(shù)設(shè)置、激活函數(shù)與優(yōu)化器的選取等均與AlexNet保持一致。完整的TL-MFF模型如圖1所示。
圖1 TL-MFF模型
由于傳感器的高度變化使得場(chǎng)景包含的地物對(duì)象尺度變化明顯(圖2),嚴(yán)重限制了分類(lèi)精度的進(jìn)一步提升。金字塔池化[20](SPP)在提取多尺度特征時(shí)能保留局部空間塊的空間位置信息,并且對(duì)物體形變具有魯棒性[20]。金字塔池化的結(jié)構(gòu)如圖3所示。將卷積層輸出任意大小的特征(n維)輸入到金字塔池化,分別用多個(gè)不同分辨率的池化層池化后連接起來(lái),生成固定大小的特征向量(圖3中生成的特征向量大小為14×n)。本文采用多層金字塔池化結(jié)構(gòu)對(duì)多個(gè)卷積層特征進(jìn)行多尺度信息提取,在充分利用不同卷積層有效信息的基礎(chǔ)上,保留了局部不同尺度空間塊的空間信息。既針對(duì)性地解決了場(chǎng)景圖像地物尺度不一的問(wèn)題,又對(duì)多個(gè)卷積層高維特征進(jìn)行了有效降維,大大減小了網(wǎng)絡(luò)參數(shù)規(guī)模。
圖2 飛機(jī)和儲(chǔ)罐場(chǎng)景中物體的尺度變化
圖3 金字塔池化結(jié)構(gòu)
多尺度特征融合部分的方法如圖4所示,這里省略其它卷積層與全連接層。對(duì)卷積層conv1和conv6進(jìn)行融合,先將這兩層輸出的特征向量進(jìn)行金字塔池化,將輸出的一維特征分別用SF1和SF2表示,然后兩個(gè)特征分別乘以λ1和λ2,再將它們連接起來(lái)構(gòu)成最終的特征融合向量輸入到全連接層FC。融合系數(shù)λ1和λ2可以看作兩個(gè)去除偏置的神經(jīng)元的權(quán)重,SF1和SF2作為輸入,經(jīng)過(guò)正向傳播和反向傳播不斷更新λ1和λ2,使融合系數(shù)可從數(shù)據(jù)中自動(dòng)學(xué)習(xí)得到,系數(shù)調(diào)節(jié)變得更加靈活,對(duì)卷積神經(jīng)網(wǎng)絡(luò)的適應(yīng)性更強(qiáng)。
圖4 多尺度特征融合結(jié)構(gòu)
訓(xùn)練TL-MFF模型分為兩個(gè)步驟:預(yù)訓(xùn)練和調(diào)整。
步驟1 預(yù)訓(xùn)練。固定預(yù)訓(xùn)練AlexNet模型前五層卷積層權(quán)重,輸入高分遙感圖像對(duì)多尺度特征融合部分和全連接部分進(jìn)行充分的預(yù)訓(xùn)練,保存權(quán)重。
步驟2 調(diào)整。對(duì)訓(xùn)練集做數(shù)據(jù)增強(qiáng)(增強(qiáng)方法是將原圖像分別旋轉(zhuǎn)90度,180度,270度,將訓(xùn)練集擴(kuò)大至原來(lái)的4倍),加載步驟1中保存的權(quán)重,將增強(qiáng)后的訓(xùn)練集輸入到網(wǎng)絡(luò)中,利用隨機(jī)梯度下降法對(duì)整個(gè)網(wǎng)絡(luò)進(jìn)行微調(diào),得到最終完整的TL-MFF卷積神經(jīng)網(wǎng)絡(luò)。
為了測(cè)試TL-MFF模型的土地利用分類(lèi)性能,本文采用UCM數(shù)據(jù)集和WHU19數(shù)據(jù)集分別測(cè)試該算法,同時(shí)和較好的土地利用分類(lèi)算法MS-CLBP[5],MS-CLBP-FV[5],SICNN[6],GBRCN[7],CaffeNet+FV[8]等進(jìn)行比較。
UCM是從大型航空正射影像中人工采集的,包含21個(gè)不同的土地類(lèi)別,每類(lèi)由100張大小為256×256像素的圖片組成,每一張圖片的空間分辨率為1英尺。WHU19數(shù)據(jù)集來(lái)源于Google Earth,它是一種全新的公開(kāi)數(shù)據(jù)集,由950張大小為600×600像素的圖片組成,均勻分布在19個(gè)場(chǎng)景類(lèi)中。圖5和圖6為UCM與WHU19的一些示例圖像。對(duì)于UCM數(shù)據(jù),每類(lèi)數(shù)據(jù)隨機(jī)選取80%作為訓(xùn)練樣本,其余作為測(cè)試樣本;對(duì)于WHU19數(shù)據(jù)集,每類(lèi)選取60%作為訓(xùn)練樣本,其余作為測(cè)試樣本??紤]到AlexNet對(duì)輸入圖像的預(yù)定義尺寸要求,本文使用雙三次插值法將所有圖片的像素大小縮小為227×227。
圖5 UCM數(shù)據(jù)集
圖6 WHU19數(shù)據(jù)集
在實(shí)驗(yàn)中,兩層金字塔池化層的池化網(wǎng)格均設(shè)置為1×1、2×2、3×3,λ1和λ6分別初始化為0.5和1。訓(xùn)練與微調(diào)過(guò)程中,學(xué)習(xí)率設(shè)為0.001,Dropout率設(shè)為0.5,優(yōu)化器選擇隨機(jī)梯度下降法,訓(xùn)練批次UCM數(shù)據(jù)集設(shè)為70,WHU19數(shù)據(jù)集設(shè)為95,訓(xùn)練迭代次數(shù)為300,微調(diào)次數(shù)為300。實(shí)驗(yàn)所用的硬件是兩個(gè)型號(hào)為NVIDIA Tesla P40的GPU,處理器型號(hào)為Intel Xeon E5-2680 v4 (2.4 GHz),軟件環(huán)境為Ubuntu Server 16.04.1 LTS 64位操作系統(tǒng)、Tensorflow框架。
實(shí)驗(yàn)包括兩個(gè)部分:特征融合實(shí)驗(yàn);TL-MFF與現(xiàn)有方法對(duì)比實(shí)驗(yàn)。
為了驗(yàn)證融合系數(shù)λ1和λ2的有效性,本文做了有無(wú)融合系數(shù)的對(duì)比實(shí)驗(yàn),對(duì)比實(shí)驗(yàn)使用UCM數(shù)據(jù)集,特征融合層為conv1與conv6,其它參數(shù)保持不變。在無(wú)融合系數(shù)的實(shí)驗(yàn)中,將conv1與conv6生成的多尺度特征SF1與SF6直接連接起來(lái)。在有融合系數(shù)的實(shí)驗(yàn)中,SF1和SF6分別乘上自適應(yīng)系數(shù)λ1和λ6。實(shí)驗(yàn)發(fā)現(xiàn),如果沒(méi)有融合系數(shù),訓(xùn)練精度僅為12.80%,測(cè)試精度為17.38%,幾乎無(wú)法進(jìn)行分類(lèi),原因在于SF1特征數(shù)值分布范圍大,SF6特征數(shù)值分布范圍小,將兩個(gè)直接連接,過(guò)大或者過(guò)小的特征值會(huì)影響分類(lèi)效果。有融合系數(shù)的實(shí)驗(yàn),訓(xùn)練精度與測(cè)試精度分別為99.81%和96.67%。實(shí)驗(yàn)結(jié)果表明,自適應(yīng)融合系數(shù)可以消除不同卷積層特征的分布差異,能使其更好的融合分類(lèi),提高分類(lèi)精度。
為了驗(yàn)證多層特征融合的優(yōu)勢(shì)以及最優(yōu)的融合方式,本文做了c6、c1_c6、c2_c6、c3_c6、c4_c6及c5_c6的實(shí)驗(yàn),每種方法實(shí)驗(yàn)5次,取平均值作為最終結(jié)果,見(jiàn)表1。其中“c*”為第*卷積層的多尺度特征,“_”表示連接(例如,c6代表單層多尺度池化,c1_c6代表第一層卷積的多尺度特征與第六層卷積的多尺度特征融合方法)。從表1中可以看出,單層的多尺度池化c6的精度低于多層特征融合的方法,在多層特征融合的方法中(c1_c6、c2_c6、c3_c6、c4_c6 和c5_c6),各方法精度差距較小,考慮到連接后特征維度的大小,TL-MFF模型中的特征融合方式使用c1_c6。多層特征融合方法相對(duì)于單層多尺度池化方法的優(yōu)勢(shì)也可從圖7的混淆矩陣看出,圖7(a)為單層多尺度池化方法,圖7(b)為c1_c6多層特征融合方法。在圖7(a)中建筑、密集型住宅和儲(chǔ)罐的分類(lèi)誤差較大,在圖7(b)中這些場(chǎng)景分類(lèi)效果得到明顯提升。圖8為 c1_c6 實(shí)驗(yàn)(即TL-MFF實(shí)驗(yàn))的訓(xùn)練過(guò)程。從圖8中可以看出,在調(diào)整過(guò)程中迭代200次后訓(xùn)練精度和測(cè)試精度達(dá)到收斂。
為進(jìn)一步測(cè)試所提方法的有效性,與已有方法進(jìn)行比較,這些方法在UCM數(shù)據(jù)和WHU19數(shù)據(jù)集上的平均精度見(jiàn)表2。從表2中可以看出,在UCM數(shù)據(jù)集上,TL-MFF方法的準(zhǔn)確率(96.67%)高于MS-CLBP[5]、MS-CLBP-FV[5]、SICNN[6],GBRCN[7]、CaffeNet+FV[8]這些方法;對(duì)于WHU19數(shù)據(jù)集,TL-MFF方法比MS-CLBP[5]、MS-CLBP-FV[5]、CaffeNet+FV[8]獲得了更高的準(zhǔn)確率(95.47%)。
表1 不同卷積層的融合結(jié)果
圖7 UCM數(shù)據(jù)集混淆矩陣
圖8 TL-MFF訓(xùn)練過(guò)程
方法UCM精度WHU19精度MS-CLBP[5]90.6%±1.493.4%±1.1MS-CLBP-FV[5]93.0%±1.294.32%±1.2GBRCN[7]94.53-SICNN[6]96.00-CaffeNet+FV[8]95.71±0.6993.68±0.93TL-MFF96.6795.47
為了提取更準(zhǔn)確、更全面的特征描述以及減小過(guò)擬合風(fēng)險(xiǎn),本文提出了一種基于多尺度特征融合的土地利用分類(lèi)算法。多層多尺度特征融合充分利用了單個(gè)卷積層不同尺度的特征信息以及不同卷積層之間的互補(bǔ)信息。在兩個(gè)公開(kāi)數(shù)據(jù)集上,通過(guò)實(shí)驗(yàn)驗(yàn)證了自適應(yīng)融合系數(shù)能使不同卷積層的特征更好的融合分類(lèi),并且驗(yàn)證了多層特征融合提取的特征描述比單層提取的特征描述更準(zhǔn)確,實(shí)驗(yàn)結(jié)果表明本文方法的精度優(yōu)于現(xiàn)有較好的土地利用分類(lèi)方法的精度。
然而,本文方法仍有不足之處,例如,對(duì)UCM數(shù)據(jù)集內(nèi)密集型住宅和中等密集型住宅的分類(lèi)不太理想,原因在于這兩個(gè)場(chǎng)景類(lèi)別僅僅是結(jié)構(gòu)密度存在微小差距,類(lèi)間距極小,未來(lái)工作將通過(guò)減小深度特征類(lèi)內(nèi)距離,增大類(lèi)間距離來(lái)進(jìn)一步提高土地利用分類(lèi)算法的性能。