黃如金,聶運(yùn)菊
(東華理工大學(xué)測(cè)繪工程學(xué)院,330013,南昌)
隨著計(jì)算機(jī)技術(shù)和空間技術(shù)的不斷進(jìn)步,使得遙感學(xué)科充分發(fā)揮自身優(yōu)勢(shì)釋放出巨大的商業(yè)價(jià)值和科研價(jià)值,國(guó)家政府部門(mén)在發(fā)展規(guī)劃中也把地理信息產(chǎn)業(yè)列為工作的重點(diǎn)之一,包括擴(kuò)大遙感技術(shù)及遙感數(shù)據(jù)應(yīng)用領(lǐng)域,以及鼓勵(lì)社會(huì)資本進(jìn)入遙感應(yīng)用產(chǎn)業(yè)等[1]。同時(shí),我國(guó)城市化進(jìn)程大量人口涌入城市,據(jù)國(guó)家統(tǒng)計(jì)局?jǐn)?shù)據(jù)顯示2018年我國(guó)城鎮(zhèn)人口占總?cè)丝诒戎剡_(dá)到59.58%,這距離發(fā)達(dá)國(guó)家平均水平的75%還有15個(gè)百分點(diǎn)意味著未來(lái)我國(guó)還會(huì)有大約2.15億人進(jìn)入城市,隨之形成龐大的人口密集建筑區(qū)將帶來(lái)相當(dāng)嚴(yán)峻的社會(huì)問(wèn)題。
傳統(tǒng)的遙感信息獲取主要利用航拍相片或者中、低分辨率衛(wèi)星影像,常用的方法有目視判讀以及基于像元的計(jì)算機(jī)分類(lèi)法[2]。其分類(lèi)技術(shù)通常運(yùn)用的是一種基于像元的分類(lèi),無(wú)論是監(jiān)督分類(lèi)還是非監(jiān)督分類(lèi)僅僅是基于像元級(jí)別的處理,更加適用于獲取中、低分辨率遙感影像的信息。高分遙感影像的發(fā)展這種分類(lèi)方法已經(jīng)不能滿足分類(lèi)的精度需求和影像信息的提取,面向?qū)ο蟮姆诸?lèi)方法不再是針對(duì)單個(gè)像元,而是針對(duì)影像對(duì)象[3]。卷積神經(jīng)網(wǎng)絡(luò)(CNN)的應(yīng)用使得這一問(wèn)題有了很好的解決[4],Krizhevsky等提出了8層的Alex Net模型,大幅提高了圖像分類(lèi)的準(zhǔn)確度[5];Simonyan等提出了16層的VGG-16模型和19層的VGG-19模型分類(lèi)準(zhǔn)確度進(jìn)一步提升[6];Res Net模型的提出解決了網(wǎng)絡(luò)退化的問(wèn)題;劉嘉政提出基于Inception_v3模型的遷移學(xué)習(xí)并對(duì)結(jié)構(gòu)進(jìn)行微調(diào)適應(yīng)花卉識(shí)別[7-8]。在遙感影像分類(lèi)領(lǐng)域,由韓軍偉構(gòu)建包含45類(lèi)場(chǎng)景的遙感場(chǎng)景分類(lèi)數(shù)據(jù)集NWPU-RESISC45,并使用多種模型對(duì)數(shù)據(jù)集進(jìn)行分類(lèi)實(shí)驗(yàn),其準(zhǔn)確率遠(yuǎn)高于傳統(tǒng)方法。但用于城市人口密集建筑的分類(lèi)識(shí)別研究還未有深入研究,本文通過(guò)將NWPU-RESISC45數(shù)據(jù)集與手動(dòng)裁剪獲取樣本相結(jié)合的方法得到實(shí)驗(yàn)樣本數(shù)據(jù)集并對(duì)樣本數(shù)據(jù)進(jìn)行數(shù)據(jù)增廣,分別利用Alex Net、VGG-19、Res Net 3種網(wǎng)絡(luò)對(duì)城市人口密集建筑進(jìn)行遷移學(xué)習(xí)的分類(lèi)識(shí)別研究,為未來(lái)城市地質(zhì)遙感城市地物分類(lèi)提供借鑒意義。
卷積神經(jīng)網(wǎng)絡(luò)(CNN)是深度學(xué)習(xí)算法領(lǐng)域中在當(dāng)前生產(chǎn)中應(yīng)用最廣泛、最成功的算法模型之一,它是一種基于反向傳播的模型[9]主要包括一維卷積神經(jīng)網(wǎng)絡(luò)、二維卷積神經(jīng)網(wǎng)絡(luò)以及三維卷積神經(jīng)網(wǎng)絡(luò)。在遙感領(lǐng)域主要利用的是二維卷積,即應(yīng)用于圖像類(lèi)文本的識(shí)別,而遙感影像本身也是圖像恰好符合卷積神經(jīng)網(wǎng)絡(luò)特征對(duì)象提取的優(yōu)點(diǎn)。卷積神經(jīng)網(wǎng)絡(luò)通常情況下是由卷積層、池化層、激活函數(shù)和全連接層等組成,核心部分操作分卷積操作和池化操作,整體結(jié)構(gòu)如圖1所示。
圖1 卷積神經(jīng)經(jīng)網(wǎng)絡(luò)架構(gòu)
從整體架構(gòu)上來(lái)看,卷積神經(jīng)網(wǎng)絡(luò)就是一個(gè)從輸入層讀取圖片信息然后經(jīng)過(guò)一系列運(yùn)算到達(dá)輸出層得到輸出結(jié)果的過(guò)程,在這個(gè)過(guò)程中,通過(guò)每一層結(jié)構(gòu)參數(shù)的計(jì)算逐步將信息傳遞到下一層,不斷地進(jìn)行卷積和池化操作得到具體的抽象信息,將這些信息映射到隱層特征空間實(shí)現(xiàn)對(duì)目標(biāo)圖像進(jìn)行特征提取,經(jīng)過(guò)全連接層和分類(lèi)函數(shù)進(jìn)行分類(lèi)。當(dāng)前,深度學(xué)習(xí)技術(shù)迅猛發(fā)展涌現(xiàn)出了如Alex Net、Res Net、VGG-19等較為經(jīng)典且分類(lèi)效果較好的網(wǎng)絡(luò)模型。Alex Net[10]相較與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)方法的主要?jiǎng)?chuàng)新優(yōu)化在于利用Re Lu激活函數(shù)[11]和Drop Out方法來(lái)抑制過(guò)擬合。Re Lu激活函數(shù)取代Sigmoid非線性激活函數(shù),通過(guò)Re Lu激活函數(shù)可有效改善梯度消失及收斂波動(dòng),Re Lu只需一個(gè)閾值即可得到激活值且其為非飽和線性函數(shù);引入多種權(quán)值組合的Drop Out方法控制過(guò)擬合。通過(guò)Drop Out方法,網(wǎng)絡(luò)每輸入一組新數(shù)據(jù),都會(huì)激活一組不同的隱層神經(jīng)元,從而每次訓(xùn)練的時(shí)候相當(dāng)于使用一個(gè)全新的網(wǎng)絡(luò),而網(wǎng)絡(luò)的所有激活狀態(tài)始終共享權(quán)值,從而顯著降低了神經(jīng)元間復(fù)雜的互適應(yīng)關(guān)系,從而實(shí)現(xiàn)對(duì)過(guò)擬合的抑制。VGG-19模型是對(duì)Alex Net模型的一種改進(jìn)。與Alex Net相比,VGG系列模型的特點(diǎn)體現(xiàn)在2個(gè)方面:1)所有的卷積層都使用非常小的感受野(3×3和1×1);2)模型擁有多個(gè)卷積層,在模型深度上遠(yuǎn)遠(yuǎn)超過(guò)Alex Net。Res Net[12]通過(guò)Residual殘差模塊解決隨著網(wǎng)絡(luò)深度的加深網(wǎng)絡(luò)帶來(lái)的退化問(wèn)題。Residual block通過(guò)shortcut connection實(shí)現(xiàn),利用shortcut將block的輸入和輸出進(jìn)行一個(gè)element-wise的加疊,極大提高模型的訓(xùn)練速度并獲得比較好的訓(xùn)練效果,同時(shí),隨著模型的層數(shù)不斷加深引入批歸一化層使得網(wǎng)絡(luò)更容易訓(xùn)練,3種方法各有特點(diǎn)在不同程度上都對(duì)卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展研究有著重大意義。同時(shí),在許多實(shí)際實(shí)驗(yàn)過(guò)程中會(huì)出現(xiàn)數(shù)據(jù)量不足、訓(xùn)練效果不佳的情況,這就需要對(duì)數(shù)據(jù)進(jìn)行數(shù)據(jù)增廣[13]。本文分別利用鏡像(flip)、旋轉(zhuǎn)(rotation)、縮放(scale)、裁剪(crop)、圖像亮度、飽和度對(duì)比變化實(shí)現(xiàn)數(shù)據(jù)的增廣。
1)鏡像變換公式:
式中:ω為圖像寬度,(x1,y1)為變換后的圖像坐標(biāo),(x0,y0)為變化前坐標(biāo)。
2)旋轉(zhuǎn)變換公式:
式中(x1,y1)為變換后的圖像坐標(biāo),(x0,y0)為變化前坐標(biāo)。
3)其余幾種變換方法多有類(lèi)似之處,都可以通過(guò)一定方法獲得隨機(jī)對(duì)圖像進(jìn)行縮放、裁剪、圖像亮度、圖像飽和度調(diào)整。
本文的實(shí)驗(yàn)分析共分為(Alex Net、VGG-19、Res Net)3組實(shí)驗(yàn),選用NWPU-RESISC45與人工手動(dòng)制作樣本相結(jié)合的方式制作成新的貼近本次實(shí)驗(yàn)的樣本數(shù)據(jù)集。實(shí)驗(yàn)選定總體分類(lèi)精度(Overall Accuracy)、精確率(Precision)、混淆矩陣3個(gè)指標(biāo)作為實(shí)驗(yàn)結(jié)果的評(píng)價(jià)指標(biāo),其中,總體精度是為了在分類(lèi)過(guò)程中被正確分類(lèi)的像元數(shù);精確率是為了顯示實(shí)際正樣本的概率;混淆矩陣就是簡(jiǎn)單明了地展示分類(lèi)對(duì)錯(cuò)觀測(cè)值個(gè)數(shù)的標(biāo)準(zhǔn)格式。
試驗(yàn)訓(xùn)練的樣本數(shù)據(jù)主要有2個(gè)部分,一部分通過(guò)網(wǎng)絡(luò)獲取的完整訓(xùn)練樣本,經(jīng)過(guò)具體訓(xùn)練條件篩選后使用;另一部分通過(guò)原始影像人工裁剪獲得實(shí)驗(yàn)樣本,分為居民區(qū)、高層商業(yè)建筑、體育場(chǎng)、工業(yè)區(qū)4類(lèi),每一類(lèi)分有700張共2 800張,圖片尺寸為256×256,如圖2所示,同時(shí)對(duì)數(shù)據(jù)進(jìn)行數(shù)據(jù)增廣后的結(jié)果如圖3所示。
圖2 影像數(shù)據(jù)實(shí)例
圖3 數(shù)據(jù)增廣效果圖
2.2.1 Alex Net結(jié)構(gòu) Alex Net結(jié)構(gòu)實(shí)驗(yàn)結(jié)果如圖4所示,圖4上圖為測(cè)試精度與訓(xùn)練代數(shù)的變化圖。測(cè)試集精度隨著訓(xùn)練代數(shù)的增加測(cè)試精度逐漸提高,由于載入了預(yù)訓(xùn)練的Alex Net的模型參數(shù),所以訓(xùn)練精度提升得很快。在第3代時(shí)效果有了較大的變化,從3~44代測(cè)試精度呈現(xiàn)不斷提高到底趨勢(shì),但中間測(cè)試精度還在不斷的震蕩,在第50代時(shí)測(cè)試精度趨于緩和,此時(shí)模型訓(xùn)練達(dá)到目標(biāo)精度。圖4下圖為測(cè)試集的損失函數(shù)隨著訓(xùn)練代數(shù)的變化圖。在第3代開(kāi)始損失函數(shù)的值有了明顯變化,從第3代開(kāi)始損失函數(shù)緩慢下降其中略有回升、震蕩,在第50代開(kāi)始損失函數(shù)逐步趨于平緩,在50代之后降到了目標(biāo)之下。
圖4 Alex Net精度曲線(上)與損失曲線(下)
圖5 Alex Net混淆矩陣
如圖5為Alex Net的混淆矩陣,可以看出其對(duì)于高層商業(yè)建筑和工業(yè)區(qū)以及居民區(qū)和工業(yè)區(qū)的分類(lèi)錯(cuò)誤率較大,其主要原因是由于工業(yè)區(qū)和居民區(qū)都是建筑密集區(qū)域,而居民區(qū)和工業(yè)區(qū)不僅都是建筑密集區(qū)域且其建筑形態(tài)較為相似。因此,Alex Net網(wǎng)絡(luò)區(qū)分居民區(qū)和工業(yè)區(qū)的準(zhǔn)確率比區(qū)分體育館和高層商業(yè)建筑區(qū)的準(zhǔn)確率要低。
2.2.2 VGG-19結(jié)構(gòu) VGG-19結(jié)構(gòu)實(shí)驗(yàn)結(jié)果如圖6所示,圖6上圖為測(cè)試精度與訓(xùn)練代數(shù)的變化圖。測(cè)試集精度隨著訓(xùn)練代數(shù)的增加,測(cè)試精度逐漸提高,由于載入了預(yù)訓(xùn)練的VGG-19的模型參數(shù),所以訓(xùn)練精度提升得很快,第3代時(shí)由于模型拋棄了一些不必要的特征,精度出現(xiàn)了急速下墜,經(jīng)過(guò)3~40代的持續(xù)上升、震蕩在第40代之后達(dá)到了較好的效果,測(cè)試精度仍有震蕩,在第63代時(shí)測(cè)試精度最高并達(dá)到目標(biāo)精度。圖6下圖為測(cè)試集的損失函數(shù)隨著訓(xùn)練代數(shù)的變化圖。如圖,訓(xùn)練開(kāi)始損失函數(shù)下降,在第3代急速上升,造成這一結(jié)果的主要原因是模型拋棄了之前學(xué)習(xí)到的一些特征,從第3代開(kāi)始損失函數(shù)逐步下降,在第45代開(kāi)始損失函數(shù)降到了目標(biāo)之下并趨于平緩。
圖6 VGG-19精度曲線(上)與損失曲線(下)
圖7為4類(lèi)的混淆矩陣,從圖6可以看出VGG-19的分類(lèi)精度較好,基本能夠?qū)崿F(xiàn)對(duì)密度建筑的準(zhǔn)確分類(lèi)。但從圖7中仍能發(fā)現(xiàn)在面對(duì)工業(yè)區(qū)和居民區(qū)這些人口密度大、建筑規(guī)模不一、形態(tài)混亂的建筑分類(lèi)識(shí)別的準(zhǔn)確度仍有提升空間。
2.2.3 Res Net結(jié)構(gòu) Res Net結(jié)構(gòu)實(shí)驗(yàn)結(jié)果如圖8所示,圖8上圖為測(cè)試精度與訓(xùn)練代數(shù)的變化圖。隨著訓(xùn)練代數(shù)的增加測(cè)試精度逐漸提高,通過(guò)載入預(yù)訓(xùn)練的Res Net模型參數(shù),所以訓(xùn)練精度提升得很快,在第1~40代之間精度波動(dòng)較大,40代之后就達(dá)到了較好的效果,但測(cè)試精度還在不斷地震蕩整體趨于平緩,在第53代時(shí)測(cè)試精度達(dá)到最高并穩(wěn)定平緩,此時(shí)模型訓(xùn)練達(dá)到目標(biāo)精度。圖8下圖為測(cè)試集的損失函數(shù)隨著訓(xùn)練代數(shù)的變化圖。損失函數(shù)的值在初始階段就有了明顯下降,之后損失函數(shù)不斷下降,中間在第9代有明顯回升,之后不斷震蕩總體下降呈穩(wěn)定趨勢(shì),在第40代開(kāi)始損失函數(shù)基本達(dá)到目標(biāo),但仍有波動(dòng),53代之后損失函數(shù)降到了0.05之下并趨于平緩。
圖7 VGG-19混淆矩陣
圖8 Res Net精度曲線(上)與損失曲線(下)
圖9為Res Net混淆矩陣可以看出對(duì)于居民區(qū)以及工業(yè)區(qū)的分辨精度較低,較多次將居民區(qū)以及工業(yè)區(qū)混淆。居民區(qū)和工業(yè)區(qū)都為建筑密集區(qū),它們的紋理、顏色等特征都有較大的相似性,這種相似性對(duì)圖片的分類(lèi)精度有較大的干擾。體育館由于其有明顯的特征,其辨識(shí)度較高。綜上可以知道,Res Net對(duì)于特征明顯的地物有較好的識(shí)別度,但是對(duì)于像居民區(qū)以及工業(yè)區(qū)之類(lèi)的相似性較高的地物識(shí)別精度會(huì)下降。
圖9 Res Net混淆矩陣
本文對(duì)3種網(wǎng)絡(luò)結(jié)構(gòu)在總體精度、精確率、優(yōu)點(diǎn)3個(gè)維度進(jìn)行對(duì)比分析,如表1所示。Alex Net通過(guò)激活函數(shù)將精度提高到90.5%;Res Net引入殘差網(wǎng)絡(luò)精度為91.16%;VGG-19對(duì)VGG網(wǎng)絡(luò)進(jìn)行卷積層數(shù)增加精度為93.5%。從精確率可以看到在4種分類(lèi)中,都對(duì)高層商業(yè)建筑、體育館這些特征信息明確相對(duì)城市存在個(gè)數(shù)較少的建筑分類(lèi)效果較好,對(duì)居民區(qū)、工業(yè)區(qū)這些整體特征信息明顯但局部模糊的建筑分類(lèi)效果不佳更容易將兩者混淆,這些都對(duì)以后的研究提供了方向。
表1 3種方法評(píng)價(jià)指標(biāo)對(duì)比表
通過(guò)對(duì)比實(shí)驗(yàn)驗(yàn)證了卷積神經(jīng)網(wǎng)絡(luò)在遙感影像分類(lèi)識(shí)別的過(guò)程中的應(yīng)用價(jià)值,面對(duì)大量復(fù)雜繁瑣的分類(lèi)工作不僅提升了效率,同時(shí)在精度上有了很大的保證。遷移學(xué)習(xí)在機(jī)器學(xué)習(xí)的基礎(chǔ)上省去了前期訓(xùn)練模型的大量時(shí)間,降低了機(jī)器學(xué)習(xí)的使用成本。
通過(guò)3種卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的實(shí)驗(yàn)分析,明確了卷積神經(jīng)網(wǎng)絡(luò)在影像分類(lèi)識(shí)別領(lǐng)域的價(jià)值。深入其中不難發(fā)現(xiàn)VGG-19雖然處理當(dāng)前問(wèn)題精度較高但單純的增加卷積層數(shù)在達(dá)到一定數(shù)值時(shí)必然會(huì)導(dǎo)致參數(shù)的數(shù)量過(guò)多;故在未來(lái)將引入Res Net殘差塊以解決梯度消失問(wèn)題,讓網(wǎng)絡(luò)能構(gòu)建得更深,使用VGG-19的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)卷積神經(jīng)網(wǎng)絡(luò)模塊,以提升分類(lèi)精度。