魏錦山, 陳爭光*, 焦 峰
1. 黑龍江八一農(nóng)墾大學信息與電氣工程學院, 黑龍江 大慶 163319 2. 黑龍江八一農(nóng)墾大學農(nóng)學院, 黑龍江 大慶 163319
土地覆蓋(land cover)指自然區(qū)域和人工建筑覆蓋的地表諸要素的綜合體, 是聯(lián)系并影響人與自然生態(tài)的基本變量[1]。 準確識別土地覆蓋類型, 對于土地資源的合理利用和保護、 精準農(nóng)業(yè)的發(fā)展有著重要意義。 過去人們常采用目視解譯法[2]、 統(tǒng)計分析法[3]、 聚類分析法[4]進行土地覆蓋分類, 該方法費時費力。 學者采用機器學習方法進行基于遙感影像的土地分類, 取得了一定成果[5-8]。 但是由于遙感影像分辨率的不同以及地表覆蓋物的變化, 導致基于遙感影像的土地覆蓋分類結(jié)果存在一定的誤差[9]。
不同類型土地其地表覆蓋物不同, 土壤母質(zhì)也存在差異。 土地覆蓋類型和母質(zhì)對土壤有機碳含量等土壤理化值有一定影響[10]。 土壤近紅外光譜是土壤理化特性和內(nèi)在結(jié)構(gòu)的綜合反映[11]。 可以通過土壤的光譜信息快速、 簡單、 無損、 低成本地進行土地分類。 由于光譜數(shù)據(jù)的高維特性, 基于光譜的分類問題一般是先尋找特征波段或進行降維處理, 然后再建模[12], 基于全譜建模的研究相對較少[13]。 以特征波段或者數(shù)據(jù)降維為基礎(chǔ)的建模方法雖能提高模型的分類準確率, 但模型的優(yōu)劣在一定程度上依賴所使用的波段選擇方法和數(shù)據(jù)降維方法。 另外, 基于小區(qū)域、 小樣本數(shù)據(jù)集所建立的機器學習分類模型對大數(shù)據(jù)的分析效果較差[14]。 由于其數(shù)據(jù)量過少, 模型適用范圍受限, 會導致模型魯棒性不強、 泛化能力差等問題[15]。 隨著深層卷積神經(jīng)網(wǎng)絡的發(fā)展, 基于端到端的無需降維的深度學習模型逐漸得到人們的重視。 Long[16]等通過端到端訓練構(gòu)建了全卷積網(wǎng)絡進行土地識別。 實驗證明全卷積網(wǎng)絡提高了平均分類準確率, 同時提高了計算效率。 Li[13]等在青島市土地覆蓋分類的研究中, 以土壤近紅外光譜作為輸入, 對比卷積神經(jīng)網(wǎng)絡(convolutional neural network, CNN)和SVM網(wǎng)絡性能差異, 建立了端到端定量分析模型, 無需波長選擇, 簡單易用, 取得了良好效果。 實驗證明, 數(shù)據(jù)量大時, CNN模型性能優(yōu)于SVM模型。 CNN的測試集分類準確率達到了87%。
卷積神經(jīng)網(wǎng)絡作為深度學習典型的代表算法之一[17], 適合處理大范圍內(nèi)采集的龐大數(shù)據(jù)集, 對土壤近紅外光譜的內(nèi)部特征信息進行自動提取, 基于大數(shù)據(jù)能夠建立一種普適性高、 準確率高的土地覆蓋分類模型。 因此, 探究利用大數(shù)據(jù)集土壤樣本結(jié)合深度學習相關(guān)算法進行土地覆蓋分類模型的建模研究對于推動精準農(nóng)業(yè)、 土地覆蓋制圖、 土地利用和調(diào)查等具有重要意義。 近幾年深度學習算法的發(fā)展, 為土地覆蓋分類提供了支持, 但多數(shù)研究僅是簡單建?;蜻M行不同模型對比, 而對模型進行改進的研究較少。 如何改進深度學習模型, 提升分類準確率仍是研究重點和難點。 因此, 本工作以歐盟統(tǒng)計局調(diào)查收集的土壤近紅外光譜樣本數(shù)據(jù)集為研究對象, 分別采用9種單一卷積核的卷積神經(jīng)網(wǎng)絡、 3種改進的多卷積核融合的Fusion-CNN網(wǎng)絡建立土地覆蓋近紅外光譜分類模型, 比較模型分類效果的差異, 旨在建立一種高效準確的基于不同卷積尺度融合的土地覆蓋近紅外光譜分類模型。
實驗采用歐盟統(tǒng)計局開展的土地利用/土地覆蓋地區(qū)框架調(diào)查數(shù)據(jù)(Land Use/Land Cover Area Frame Survey, LUCAS), 該數(shù)據(jù)包含覆蓋歐盟23國土壤樣本的近紅外光譜數(shù)據(jù)及土壤物理化學性質(zhì)檢測結(jié)果。 LUCAS調(diào)查土地覆蓋分類系統(tǒng)包含人工土地、 耕地、 林地、 灌叢、 草地、 裸地、 水體和濕地8個土地覆蓋類別。 從LUCAS數(shù)據(jù)集中選取包括耕地、 林地、 草地在內(nèi)共計6921個具代表性的土壤樣本(含1 496個耕地樣本、 2 202個林地樣本、 3 223個草地樣本)。 將土壤樣本按照6∶2∶2的比例隨機劃分為訓練集、 驗證集和測試集, 土壤樣本的劃分詳細信息如表1所示。
表1 LUCAS土壤樣本集劃分Table 1 Division of LUCAS soil sample set
短時傅里葉變換(short-time Fourier transform, STFT)是一種常用的時頻分析方法。 STFT將窗函數(shù)和源信號相乘后進行一維傅里葉變換, 并通過窗口滑動得到一系列傅里葉變換結(jié)果[18], 結(jié)果按序排列便得到二維圖像。 STFT的窗口長度決定頻譜圖的時間分辨率和頻率分辨率。 本實驗將土壤近紅外光譜數(shù)據(jù)作為輸入源信號, 設(shè)置窗函數(shù)為海寧函數(shù), 窗口長度分別設(shè)置為64, 100, 128, 窗口重疊數(shù)分別為32, 50, 64, 采樣頻率為1, 對光譜進行STFT。 變換結(jié)果如圖1所示。
圖1 (a)近紅外光譜曲線; (b)短時傅里葉變換時頻圖Fig.1 (a) Near infrared spectral curve; (b) Short-time Fourier transformed time-frequency diagram
卷積神經(jīng)網(wǎng)絡(CNN)是一種包含卷積計算且具有一定深度結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡[19], CNN模型主要由輸入層、 卷積層(convolutional layer)、 池化層(pooling layers)、 全連接層(fully connected layer)以及輸出層構(gòu)成。
(1)
(2)
(3)
全連接層將當前層的每一個神經(jīng)元與卷積池化后輸出的所有神經(jīng)元相連, 產(chǎn)生全局語義信息[17], 并通過Softmax函數(shù)進行分類。
調(diào)整卷積核尺寸, 感受野大小也會改變, 會影響捕獲的局部語義信息, 進而影響模型分類性能[21]。 為了對模型的分類性能進行比較并得到性能更優(yōu)的模型, 分別建立3×3, 5×5和7×7三種卷積核的CNN模型, 探究不同卷積核大小對不同土地覆蓋類型分類精度的影響。 其中CNN_3×3模型結(jié)構(gòu)如圖2(a)所示。 CNN模型主要由輸入層、 3個卷積層、 3個批標準化(batch normalization, BN)層、 3個池化層、 Flatten層、 全連接層、 Dropout層、 輸出層組成。 為防止模型過擬合, 采用早停法(early stopping)對模型進行訓練。 遵循相同的參數(shù)設(shè)置, 只改動卷積尺寸為5×5和7×7, 再建立CNN_5×5和CNN_7×7模型。
由于近紅外光譜數(shù)據(jù)特征信息提取的合適尺度是未知的, 使用單一的卷積核可能會造成特征信息的提取不完整。 因此嘗試采用不同尺寸卷積核融合的Fusion-CNN網(wǎng)絡進行特征提取, 視覺信息在不同尺度上進行處理聚合, 下一層卷積可以從不同尺度提取特征, 進一步提升分類精度。 另外, 傳統(tǒng)CNN模型為提高分類精度, 增加了網(wǎng)絡模型的深度(層數(shù))和寬度(每層的卷積核數(shù)量), 導致模型參數(shù)增多, 增加了計算量。 應用卷積融合結(jié)構(gòu), 可以做到在拓寬網(wǎng)絡寬度的同時減少計算量, 提高計算資源的利用率。
本研究采用了不同卷積尺度(7×7, 5×5, 3×3, 1×1)融合的Fusion-CNN模型進行土壤近紅外光譜分類。 如圖2(b)所示, 整個網(wǎng)絡的搭建主要由輸入層、 3層卷積融合模塊(Fusion)、 3個池化層、 Flatten層、 全連接層、 輸出層組成。
圖2 (a)單一卷積核尺寸CNN模型結(jié)構(gòu)圖; (b)Fusion-CNN模型結(jié)構(gòu)圖Fig.2 (a) Structure diagram of CNN model with single convolution kernel size; (b) Structure diagram of Fusion-CNN model
光譜數(shù)據(jù)輸入之后, 進行7×7, 5×5, 3×3卷積之前, 先進行1×1卷積[圖2(b)Fusion模塊中的1, 2, 3分支], 減少數(shù)據(jù)量, 降低卷積運算的參數(shù)量。 為增強網(wǎng)絡對不同特征尺寸的適應性, 提高模型的分類性能, 對輸入數(shù)據(jù)進行2×2的最大池化(max pooling), 使輸入圖像的尺寸變?yōu)樵瓉淼囊话隱圖2(b)Fusion模塊中第4條分支]。 隨后分別進行7×7, 5×5, 3×3, 1×1的卷積以及單獨的1×1卷積[圖2(b)Fusion模塊分支5], 在卷積層與激活函數(shù)之間引入批量歸一化(batch normalization, BN)層, 規(guī)范數(shù)據(jù)的輸入, 使下一層輸入滿足均值為0、 方差為1的分布, 提高學習效率。 為了避免梯度消失和神經(jīng)元飽和, 將所有卷積層的激活函數(shù)都設(shè)置為非線性激活函數(shù)ReLU, 最后進行5層卷積輸出的通道合并。 整個網(wǎng)絡的搭建由3層Fusion模塊串聯(lián)組成, 用以提取不同層次的抽象特征, 每層Fusion模塊之后都要進行尺寸為2×2, 步長為2的最大池化, 降低參數(shù)量。 全連接層的神經(jīng)元個數(shù)為256個, 激活函數(shù)采用ReLU。 然后通過Dropout層丟棄20%的神經(jīng)元連接。 輸出層的激活函數(shù)為Softmax, 神經(jīng)元個數(shù)為3個, 輸出3種不同的土地覆蓋類型的可能性。
利用三種尺寸的STFT變換結(jié)果訓練四種類型的CNN模型(3種單一尺寸的卷積核(3×3, 5×5, 7×7)和1種多卷積核融合的Fusion-CNN), 模型在驗證集和測試集上的分類結(jié)果如表2所示。 其中CNN_3×3_64表示STFT窗口長度為64且卷積尺寸為3×3的CNN模型, Fusion-CNN_64表示STFT窗口長度為64的Fusion-CNN模型。
表2 模型的分類準確率Table 2 The classification accuracy of the model
三種單一尺寸卷積核CNN模型和Fusion-CNN模型的混淆圖如圖3所示, 其中C代表耕地, W代表林地, G代表草地, 主對角線的元素代表正確預測的樣本數(shù)。 由圖3可知, 3個Fusion-CNN模型對于林地的正確預測樣本數(shù)均比9個CNN模型高, 其對于耕地、 草地的預測效果普遍比CNN模型要好; 從總樣本預測情況來看, Fusion-CNN_100預測正確1168個(主對角線元素之和), 分類準確率最高, 分類性能最優(yōu)。
圖3 CNN模型和Fusion-CNN模型分類結(jié)果的混淆圖Fig.3 Confusion diagrams of classification results of CNN model and Fusion-CNN model(a): CNN_3×3_64; (b): CNN_5×5_64; (c): CNN_7×7_64; (d): CNN_3×3_100; (e): CNN_5×5_100; (f): CNN_7×7_100; (g): CNN_3×3_128; (h): CNN_5×5_128; (i): CNN_7×7_128; (j): Fusion-CNN_64; (k): Fusion-CNN_100; (l): Fusion-CNN_128
如表2所示, 相同STFT窗口長度下, 隨著卷積核尺寸的增大, CNN模型總體分類準確率降低。 當STFT窗口長度為100時, CNN_3×3_100模型的準確率最高, 為78.76%。 在相同卷積深度情況下, 較小的卷積核有利于提高模型的整體性能[22]。 相同STFT窗口長度的CNN模型中, 對于耕地, 3×3卷積尺寸的CNN模型分類效果最佳; 對于林地, 5×5卷積尺寸的CNN模型分類效果最佳; 對于草地, 7×7卷積尺寸的CNN模型分類效果最佳。 說明不同卷積尺寸的卷積核, 對于不同類型的土地的適應性不同。 3個Fusion-CNN模型對于耕地、 林地和草地的分類準確率普遍比CNN模型高。 Fusion-CNN模型是CNN_3×3, CNN_5×5, CNN_7×7的集成, 因此在三種類型的土地分類效果上集單一卷積網(wǎng)絡的優(yōu)勢, 對三種土地覆蓋類型的分類準確率均有提高。 Wu[23]等在進行手寫字符識別的應用研究中, 改進CNN模型, 根據(jù)圖像區(qū)域的不同信息匹配不同尺寸的卷積核, 更好地提取圖像特征, 實驗證明其分類準確率更高, 與本文結(jié)論一致。
STFT窗口長度決定頻譜圖的時間、 頻率分辨率。 窗口長度越長, 截取的信號越多, 傅里葉變換后頻率分辨率越高, 時間分辨率越低。 因此, STFT窗口長度的選擇會對分類結(jié)果有一定的影響。
如表2, 無論是單卷積核的CNN模型還是多卷積核的Fusion-CNN模型, STFT窗口長度為100、 重疊長度為50的模型總體分類準確率均最高。 三種STFT窗口長度的Fusion-CNN模型的總體分類準確率比單一卷積核尺寸的CNN模型的分類準確率均有一定的提升。 李慶旭等[24]在研究早期鴨胚雌雄信息檢測時, 通過一維鴨胚光譜數(shù)據(jù)矩陣與其轉(zhuǎn)置矩陣相乘, 將一維光譜轉(zhuǎn)為二維矩陣, 通過二維卷積神經(jīng)網(wǎng)絡實現(xiàn)345個鴨胚的雌雄辨識, 取得了良好的分類效果, 證實了二維卷積的有效性。 Padarian等[25]在進行土壤相關(guān)理化指標的回歸預測中, 將一維土壤光譜數(shù)據(jù)通過STFT轉(zhuǎn)換為二維頻譜圖, 模型的均方根誤差降低了10%以上。 由此可見, 將一維的近紅外光譜數(shù)據(jù)向二維空間變換能顯著提高模型的性能。
表2中12個模型驗證集分類準確率隨迭代次數(shù)的變化曲線見圖4。 其中Epoch為迭代次數(shù), Accuracy為準確率。
圖4 驗證集數(shù)據(jù)的分類準確率曲線(a): CNN_64; (b): CNN_100; (c): CNN_128; (d): Fusion-CNNFig.4 Classification accuracy curves of validation set data(a): CNN_64; (b): CNN_100; (c): CNN_128; (d): Fusion-CNN
9個CNN分類模型的驗證集準確率前期不斷提高, 但準確率最高點均在78%左右, 低于80%[圖4(a,b,c)]。 早停法檢測其準確率不再提升, 繼續(xù)訓練將有過擬合風險, 于是自動停止訓練。 相比CNN單一卷積尺寸, 3個Fusion-CNN卷積融合模型驗證集分類準確率不斷提升, 無明顯過擬合現(xiàn)象[圖4(d)], 且模型的分類準確率最高點均超過80%, 高于9種單一卷積核的CNN分類模型, 其中最優(yōu)模型是Fusion-CNN_100, 驗證集達到了83.96%(表2)。 在參數(shù)設(shè)置相同的情況下, 訓練過程中單一卷積核CNN模型的分類準確率曲線波動較大, 穩(wěn)定性差。 相比之下, Fusion-CNN卷積融合模型的分類準確率曲線波動小, 訓練過程中, 準確率穩(wěn)定上升, 說明多尺寸卷積核融合技術(shù)能集成單一卷積核的優(yōu)勢, 顯著提高模型性能[26]。
ROC曲線(Receiver Operating Characteristic curve)常用來評價一個分類模型的性能優(yōu)劣。 ROC曲線采用不同的判斷標準(預測閾值不同), 以假陽性率FPR(False Positive Rate)為橫坐標, 真陽性率TPR(True Positive Rate)為縱坐標繪圖得到。 TPR和FPR的計算公式如式(4)
(4)
式(4)中, TP為將正例預測為正的樣本數(shù), FN為將正例預測為負的樣本數(shù); FP為將負例預測為正的樣本數(shù), TN為將負例預測為負的樣本數(shù)。
通過ROC曲線和AUC(Area Under Curve)值來評價分類模型的性能優(yōu)劣, 可忽略閾值選擇對模型的影響, 減少類別不平衡的影響。 ROC曲線越接近圖形的左上角, 模型的分類性能越好, 圖形左上角坐標點(0, 1)處代表最佳分類器。 ROC曲線與坐標軸圍成的面積AUC是評測分類模型的主要性能指標之一, 其面積越大越好, 達到1是最佳分類模型。
通過不斷調(diào)整模型預測的閾值, 得到不同的FPR值和TPR值。 依次連接這些坐標點即可得到ROC曲線。 繪制的CNN模型和Fusion-CNN模型的ROC曲線以及相應的AUC值如圖5所示。
圖5 CNN模型和Fusion-CNN模型的ROC曲線以及AUC值(a): 耕地; (b): 林地; (c): 草地; (d): 總體Fig.5 ROC curves and AUC values of CNN model and Fusion-CNN model(a): Cultivated land; (b): Wood land; (c): Grass land; (d): Total
根據(jù)圖5可知, 所有模型的ROC曲線都位于y=x直線的上方, 因此, 所有模型的分類性能都優(yōu)于隨機猜測策略的分類結(jié)果。 單卷積核的CNN模型中, 小尺寸的卷積核模型CNN_3×3_64的ROC曲線更靠近左上角的(0, 1)坐標點, 模型AUC值更高, 證明小卷積尺寸的CNN模型分類性能更優(yōu)。 相比CNN, 多卷積核融合的Fusion-CNN模型的ROC曲線更接近左上角的(0, 1)坐標點。 Fusion-CNN模型的AUC值均高于CNN模型的AUC值, 其中圖5(b)林地ROC曲線中的Fusion-CNN_100模型的AUC值達到了0.98, 模型對林地的分類效果非常接近最佳分類模型。 從圖5(d)總體AUC值來看, Fusion-CNN_100模型的AUC值最高, 達到了0.96, 模型分類性能最優(yōu)。
對土壤近紅外光譜做預處理, 采用短時傅里葉變換方法, 得到不同窗口尺寸的傅里葉變換結(jié)果, 實現(xiàn)將一維光譜曲線轉(zhuǎn)換為二維圖像。 每種窗口長度下, 均采用三種單一卷積核尺寸(CNN_3×3, CNN_5×5, CNN_7×7)的卷積神經(jīng)網(wǎng)絡以及Fusion-CNN卷積融合網(wǎng)絡建模, 共建立12種二維卷積分類模型, 從多個角度比較了不同模型分類效果的差異。 實驗證明: (1)單一卷積尺寸的卷積神經(jīng)網(wǎng)絡分類模型的分類準確率隨卷積核尺寸的增大而降低。 某一個單一尺寸卷積核模型對某一類土地類型的分類效果良好。 (2)基于多卷積尺度融合的Fusion-CNN網(wǎng)絡分類模型能有效且穩(wěn)定地對3種不同類型的土地進行分類, 對于各種類型土地的分類準確率均有了不同程度地提高, 得到更高的總體分類準確率84.39%。 Fusion-CNN模型克服了傳統(tǒng)CNN對于合適的卷積核尺寸選擇周期長、 調(diào)參步驟繁瑣的缺點, 能簡化和加快建模過程, 為土地覆蓋類型的快速分類問題提供了一種新的參考思路。