摘 要:隨著計(jì)算機(jī)運(yùn)算能力的提升以及深度學(xué)習(xí)技術(shù)的發(fā)展,無(wú)須人工參與的深度學(xué)習(xí)方法已成為遙感影像分類的主流方法。因此,提出一種基于深度學(xué)習(xí)并嵌入注意力機(jī)制和融合多尺度特征的神經(jīng)網(wǎng)絡(luò)對(duì)遙感影像進(jìn)行場(chǎng)景分類。該模型使用遷移學(xué)習(xí)減少訓(xùn)練樣本不足帶來(lái)的負(fù)面影響;在網(wǎng)絡(luò)中嵌入注意機(jī)制、融合多尺度特征來(lái)提高對(duì)小尺寸地物目標(biāo)分類的能力,并驗(yàn)證了模型的有效性。通過(guò)實(shí)驗(yàn)分析得出所提模型對(duì)遙感影像場(chǎng)景分類是可行且有效的。
關(guān)鍵詞:注意機(jī)制;遙感影像;場(chǎng)景分類;多尺度融合
中圖分類號(hào):TP751;TP183 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2024)08-0138-05
0 引 言
遙感影像分類是遙感應(yīng)用中最關(guān)鍵的技術(shù)之一,遙感應(yīng)用的發(fā)展受限于很多因素,其中之一就是遙感影像分類精度。遙感影像空間分辨率大、蘊(yùn)含信息豐富、空間結(jié)構(gòu)復(fù)雜、特征分布不一致等問(wèn)題都是導(dǎo)致遙感影像分類任務(wù)存在挑戰(zhàn)的原因。此外,要想獲取帶標(biāo)簽的遙感影像數(shù)據(jù),需要經(jīng)驗(yàn)豐富的專業(yè)人士來(lái)手工進(jìn)行標(biāo)注,該方式耗時(shí)且成本高。如果訓(xùn)練一個(gè)模型能夠只使用少量的訓(xùn)練數(shù)據(jù),并且分類效果能夠有所保證,那么該模型可以顯著提高遙感影像分類的效率。傳統(tǒng)的遙感影像分類方法所使用的特征是人工設(shè)計(jì)的,特征質(zhì)量無(wú)法保證,導(dǎo)致最終分類效果通常是欠佳的[1]。而計(jì)算機(jī)運(yùn)算能力的提升和深度學(xué)習(xí)技術(shù)的發(fā)展,使無(wú)須人工參與的深度學(xué)習(xí)方法成為遙感影像分類的主流方法。因此,本文使用深度學(xué)習(xí)技術(shù)來(lái)對(duì)天水市花牛蘋果樹樣本遙感影像場(chǎng)景分類模型進(jìn)行進(jìn)一步研究。
1 問(wèn)題描述和模型介紹
遙感影像場(chǎng)景分類是指為每張遙感影像都分配一個(gè)地物類型標(biāo)簽,有著十分廣泛的實(shí)際應(yīng)用。常規(guī)的遙感影像分類框架通常是先對(duì)遙感影像進(jìn)行裁剪、旋轉(zhuǎn)、歸一化等預(yù)處理操作,接著使用特征提取器進(jìn)行特征提取,然后對(duì)提取出來(lái)的特征進(jìn)行選擇,之后是將選擇出來(lái)的特征輸入到分類器進(jìn)行分類,從而得到最終的分類結(jié)果[2,3]。
而在深度學(xué)習(xí)中,卷積神經(jīng)網(wǎng)絡(luò)在已經(jīng)有了較為廣泛的應(yīng)用,具體到遙感影像場(chǎng)景分類的應(yīng)用中,現(xiàn)有的先進(jìn)方式也是基于深度學(xué)習(xí)的。要想使基于深度學(xué)習(xí)的遙感影像場(chǎng)景分類模型分類精度良好,前提條件是需要有良好的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和大量的可訓(xùn)練樣本。但在實(shí)際情況中,獲取大量有標(biāo)簽的樣本訓(xùn)練一個(gè)全新的網(wǎng)絡(luò)是很困難的,而且在這個(gè)過(guò)程中,還會(huì)涉及參數(shù)的調(diào)優(yōu)等操作[4,5]。此外,神經(jīng)網(wǎng)絡(luò)向著結(jié)構(gòu)加深的方向發(fā)展,這使得神經(jīng)網(wǎng)絡(luò)需要訓(xùn)練的參數(shù)變多、調(diào)優(yōu)的工作量加大。當(dāng)訓(xùn)練樣本不足或數(shù)據(jù)集質(zhì)量低下時(shí),會(huì)導(dǎo)致模型出現(xiàn)過(guò)擬合的情況。而遷移學(xué)習(xí)方法首先會(huì)使用大規(guī)模的數(shù)據(jù)集上來(lái)預(yù)訓(xùn)練得到一個(gè)模型,這個(gè)模型就是源域的模型;接著將該源域的模型遷移到目標(biāo)域,并對(duì)模型進(jìn)行微調(diào),從而使得在目標(biāo)域的分類任務(wù)上能具有良好的分類效果。使用遷移學(xué)習(xí)能夠一定程度上解決訓(xùn)練樣本不足導(dǎo)致的種種問(wèn)題,因此將遷移學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)相結(jié)合也是當(dāng)前的熱點(diǎn)研究方向[6-8]。
此外因?yàn)檫b感影像成像空間分辨率很大,而且不同的地物類型表現(xiàn)在圖片中前景圖片尺寸會(huì)出現(xiàn)一定的差異,如低密度的住宅區(qū)中會(huì)出現(xiàn)一定的綠植,綠植面積和住宅面積相差不大,會(huì)出現(xiàn)誤分類的情況。因此,遙感影像場(chǎng)景分類模型中融合多尺度特征是一種提升小尺寸地物目標(biāo)分類能力的合理手段[9,10]?;诖耍疚奶岢鲆环N基于遷移學(xué)習(xí)和多尺度特征融合的注意力網(wǎng)絡(luò)模型用于遙感影像的場(chǎng)景分類,模型框架如圖1所示。該模型首先使用遷移學(xué)習(xí)技術(shù),用源域訓(xùn)練集預(yù)訓(xùn)練得到一個(gè)基模型,遷移基模型的特征提取器作為遙感影像分類模型的特征提取器,來(lái)減少訓(xùn)練樣本不足的負(fù)面影響。此外,該模型在Block-5之后添加通道注意力機(jī)制來(lái)提高模型的泛化能力;使用了多尺度特征將VGG16模型中的Block-3輸出的特征圖、Block-4輸出的特征圖、Block-5經(jīng)過(guò)通道注意力機(jī)制后輸出的特征圖進(jìn)行融合來(lái)提高不同尺度目標(biāo)物體識(shí)別能力。
2 實(shí)驗(yàn)設(shè)計(jì)
2.1 數(shù)據(jù)介紹
本實(shí)驗(yàn)在Intel(R) Core(TM) CPU 、Ubuntu 16操作系統(tǒng)、NVDIA顯卡、16 GB RAM環(huán)境下進(jìn)行,使用Python語(yǔ)言、TensorFlow深度學(xué)習(xí)框架。實(shí)驗(yàn)數(shù)據(jù)采用天水市2010—2020中Landsat地表反射率影像數(shù)據(jù),并獲取了SRTM高程數(shù)據(jù)。
2.2 評(píng)價(jià)指標(biāo)
為了驗(yàn)證所提方法的有效性,通過(guò)綜合精度(Overall Accuracy, OA)、平均精度(Average Accuracy, AA)兩個(gè)常用指標(biāo)來(lái)衡量該方法的有效性。所有的實(shí)驗(yàn)結(jié)果指標(biāo)對(duì)應(yīng)的值取的都是各指標(biāo)在10次實(shí)驗(yàn)后對(duì)其求平均的結(jié)果。
2.3 實(shí)驗(yàn)設(shè)計(jì)
為了證明提出方法的有效性和普適性,本文設(shè)計(jì)了以下實(shí)驗(yàn):
1)為了證明遷移學(xué)習(xí)的有效性,進(jìn)行凍結(jié)不同層次網(wǎng)絡(luò)的對(duì)比實(shí)驗(yàn)。
2)為了證明注意力機(jī)制的有效性,進(jìn)行使用注意力機(jī)制和不使用注意力機(jī)制的實(shí)驗(yàn)。
3)為了驗(yàn)證基于遷移學(xué)習(xí)、注意力機(jī)制和多尺度特征融合在各網(wǎng)絡(luò)上的有效性,進(jìn)行只使用各網(wǎng)絡(luò)和在各網(wǎng)絡(luò)上嵌入注意力機(jī)制并進(jìn)行多尺度特征融合的對(duì)比實(shí)驗(yàn)。
3 結(jié)果分析
3.1 遷移學(xué)習(xí)有效性分析
在遙感影像場(chǎng)景分類任務(wù)上,針對(duì)遷移有效性的實(shí)驗(yàn)結(jié)果如表1所示。該組實(shí)驗(yàn)中,訓(xùn)練集和測(cè)試集的比例為20%和80%,使用的特征提取器為VGG16網(wǎng)絡(luò)訓(xùn)練得到的特征提取器。表中凍結(jié)模塊所在列表示VGG16網(wǎng)絡(luò)的特征提取器中被凍結(jié)的模塊;OA所在列表示的是綜合精度。根據(jù)表1實(shí)驗(yàn)結(jié)果可以看出,當(dāng)特征提取器的所有層凍結(jié)之后,分類效果是最好的;而對(duì)特征提取器進(jìn)行微調(diào)時(shí),不論是設(shè)置哪些層可訓(xùn)練,其分類精度都斷崖式下降。推測(cè)出現(xiàn)這種情況的原因是參與模型訓(xùn)練的數(shù)據(jù)相對(duì)于VGG16網(wǎng)絡(luò)過(guò)少導(dǎo)致的。總之,實(shí)驗(yàn)結(jié)果還是證明了遷移學(xué)習(xí)的有效性,在實(shí)際應(yīng)用中使用數(shù)據(jù)量豐富的源域數(shù)據(jù)集預(yù)訓(xùn)練得到的特征提取器來(lái)減少模型訓(xùn)練時(shí)間,提高效率。
由表1結(jié)果可以分析出,VGG16網(wǎng)絡(luò)中,對(duì)特征提取器中的所有Block進(jìn)行凍結(jié)表現(xiàn)最佳;對(duì)部分Block不進(jìn)行凍結(jié),讓它們參與訓(xùn)練,模型的表現(xiàn)會(huì)很糟糕。因此后續(xù)的實(shí)驗(yàn)中,將VGG16中用于特征提取的5個(gè)Block全部?jī)鼋Y(jié)不參與訓(xùn)練。
3.2 注意力機(jī)制有效性分析
注意力機(jī)制有效性的實(shí)驗(yàn)驗(yàn)證結(jié)果如表2所示,該實(shí)驗(yàn)中訓(xùn)練集和測(cè)試集比例分別為20%和80%。首行表示使用的網(wǎng)絡(luò)類型,其中VGG16表示的是使用VGG16網(wǎng)絡(luò)且未使用注意力機(jī)制,VGG16_SE表示的是使用VGG16網(wǎng)絡(luò)且使用了注意力機(jī)制;VGG19表示的是使用VGG19網(wǎng)絡(luò)且未使用注意力機(jī)制,VGG19_SE表示的是使用VGG19網(wǎng)絡(luò)且使用了注意力機(jī)制;Inception表示的是使用Inception網(wǎng)絡(luò)且未使用注意力機(jī)制,Inception_SE表示的是使用InceptionV3網(wǎng)絡(luò)且使用了注意力機(jī)制。在VGG16、VGG19和InceptionV3網(wǎng)絡(luò)上分別不添加注意力機(jī)制和添加了注意力機(jī)制的實(shí)驗(yàn)結(jié)果表明,在VGG16網(wǎng)絡(luò)中嵌入注意力機(jī)制是有效的。
凍結(jié)使用ImageNet訓(xùn)練得到的用于特征提取的所有Block,不使用注意力機(jī)制,只對(duì)分類器進(jìn)行訓(xùn)練的實(shí)驗(yàn)結(jié)果如圖2所示,其中圖2(a)為綜合精度隨著Epoch的變化曲線圖,圖2(b)為損失隨著Epoch的變化曲線圖。
不使用注意力機(jī)制,凍結(jié)使用ImageNet預(yù)訓(xùn)練得到的特征提取器中的Block-1、Block-2和Block-3,只訓(xùn)練特征提取器中的Block-4和分類器,其實(shí)驗(yàn)結(jié)果如圖3所示,其中圖3(a)為綜合精度隨著Epoch的變化曲線圖,圖3(b)為損失隨著Epoch的變化曲線圖。
使用注意力機(jī)制,凍結(jié)使用ImageNet訓(xùn)練得到的特征提取器,訓(xùn)練通道注意力機(jī)制部分(SENet)和分類器,其精度和損失圖如圖4所示。從圖中可以看出注意力機(jī)制的加入對(duì)精度和損失的影響非常大,加入注意力機(jī)制后精度明顯提高,損失也逐漸降低。
根據(jù)以上所示的實(shí)驗(yàn)結(jié)果,可以得知使用的不論是VGG16、VGG19還是InceptionV3網(wǎng)絡(luò),在添加了注意力機(jī)制后模型的分類精度有所提升,損失會(huì)下降。此外,根據(jù)這些實(shí)驗(yàn)結(jié)果,可以得知選取遷移學(xué)習(xí)的源域模型結(jié)構(gòu)也很重要,針對(duì)遙感影像場(chǎng)景分類,遷移VGG16和VGG19的特征提取器都較為有效,而InceptionV3的特征提取器表現(xiàn)差一些。
3.3 多尺度特征融合模型有效性分析
為了驗(yàn)證提出方法的有效性,進(jìn)行了只使用遷移學(xué)習(xí)和使用遷移學(xué)習(xí)+注意力機(jī)制+多尺度特征融合的對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表3所示。表3是在數(shù)據(jù)集上進(jìn)行的VGG16和VGG16_fs_SE對(duì)比實(shí)驗(yàn)結(jié)果。
當(dāng)僅使用特征融合機(jī)制,凍結(jié)使用ImageNet訓(xùn)練得到的用于特征提取的所有Block,訓(xùn)練分類器時(shí),其精度和損失圖如圖5所示。
表3的結(jié)果表明在VGG16網(wǎng)絡(luò)上嵌入注意力機(jī)制、融合多尺度特征后,OA和AA都會(huì)有所提升。此外從圖5中也可以看出特征融合機(jī)制對(duì)精度有所提高,對(duì)損失有明顯的降低。以上這些指標(biāo)都表明了網(wǎng)絡(luò)中嵌入注意力機(jī)制、融合多尺度特征后模型的分類表現(xiàn)會(huì)更佳。
4 結(jié) 論
本文主要針對(duì)遙感影像場(chǎng)景分類而提出基于遷移學(xué)習(xí)和多尺度特征融合的注意力網(wǎng)絡(luò)模型。首先對(duì)遙感影像場(chǎng)景分類存在的問(wèn)題和本文建立的模型進(jìn)行描述。接著設(shè)計(jì)對(duì)比實(shí)驗(yàn)驗(yàn)證了模型的有效性,得出以下結(jié)論:
1)VGG16網(wǎng)絡(luò)中,對(duì)特征提取器中的所有Block進(jìn)行凍結(jié)時(shí)表現(xiàn)最佳;對(duì)部分Block不進(jìn)行凍結(jié)而讓它們參與訓(xùn)練,模型的表現(xiàn)會(huì)很糟糕。
2)使用的不論是VGG16、VGG19還是InceptionV3網(wǎng)絡(luò),在添加了注意力機(jī)制后模型的分類精度都有所提升,損失會(huì)下降。針對(duì)遙感影像場(chǎng)景分類,遷移VGG16和VGG19的特征提取器都較為有效,而InceptionV3的特征提取器表現(xiàn)相對(duì)差一些。
3)GG16網(wǎng)絡(luò)上嵌入注意力機(jī)制、融合多尺度特征后OA和AA都會(huì)有所提升。特征融合機(jī)制對(duì)精度的有所提高,對(duì)損失有明顯的降低。表明了網(wǎng)絡(luò)中嵌入注意力機(jī)制、融合多尺度特征后模型的分類表現(xiàn)會(huì)更佳。
參考文獻(xiàn):
[1] 張康,黑保琴,李盛陽(yáng),等.基于CNN模型的遙感圖像復(fù)雜場(chǎng)景分類 [J].國(guó)土資源遙感,2018,30(4):49-55.
[2] 羅暢,王潔,王世強(qiáng),等.基于泛化深度遷移特征的高分遙感場(chǎng)景分類 [J].系統(tǒng)工程與電子技術(shù),2018,40(3):682-691.
[3] 孟慶祥,吳玄.基于深度卷積神經(jīng)網(wǎng)絡(luò)的高分辨率遙感影像場(chǎng)景分類 [J].測(cè)繪通報(bào),2019(7):17-22.
[4] ROY S K,KRISHNA G,DUBEY S R,et al. HybridSN: Exploring 3-D–2-D CNN Feature Hierarchy for Hyperspectral Image Classification [J].IEEE Geoscience and Remote Sensing Letters,2020,17(2):277-281.
[5] FANG L Y,LIU G Y,LI S T,et al. Hyperspectral Image Classification With Squeeze Multibias Network [J].IEEE Transactions on Geoscience and Remote Sensing,2019,57(3):1291-1301.
[6] KANG X D,ZHUO B B,DUAN P H L. Dual-Path Network-Based Hyperspectral Image Classification [J].IEEE Geoscience and Remote Sensing Letters,2019,16(3):447-451.
[7] ZHOU P C,HAN J W,CHENG G,et al. Learning Compact and Discriminative Stacked Autoencoder for Hyperspectral Image Classification [J].IEEE Transactions on Geoscience and Remote Sensing,2019,57(7):4823-4833.
[8] 胡麗,單銳,王芳,等.基于雙通道空洞卷積神經(jīng)網(wǎng)絡(luò)的高光譜圖像分類 [J].激光與光電子學(xué)進(jìn)展,2020,57(12):356-362.
[9] 王振慶,周藝,王世新,等.IEU-Net高分辨率遙感影像房屋建筑物提取 [J].遙感學(xué)報(bào),2021,25(11):2245-2254.
[10] 胡立栓.高光譜遙感影像光譜降維與空譜聯(lián)合分類方法研究 [D].北京:中國(guó)地質(zhì)大學(xué)(北京),2018.
作者簡(jiǎn)介:李靖霞(1984—),女,漢族,甘肅靜寧人,講師,碩士,主要研究方向:生態(tài)學(xué)、林業(yè)遙感;通訊作者:李文瑾(1984—),女,漢族,甘肅天水人,講師,碩士,主要研究方向:林業(yè)、森林生態(tài)旅游。
收稿日期:2023-08-27
基金項(xiàng)目:甘肅省教育廳高校教師創(chuàng)新基金資助項(xiàng)目(2023A-245);甘肅省教育廳高校教師創(chuàng)新基金資助項(xiàng)目(2023B-321);2023年甘肅林業(yè)職業(yè)技術(shù)學(xué)院院列科研項(xiàng)目(GSLY2023-13B);2023年甘肅林業(yè)職業(yè)技術(shù)學(xué)院院列科研項(xiàng)目(GSLY2023-09A)
DOI:10.19850/j.cnki.2096-4706.2024.08.030
Research on Remote Sensing Image Scene Classification Method Based on
Transfer Learning and Multi-scale Fusion
LI Jingxia, LI Wenjin
(Gansu Forestry Polytechnic, Tianshui 741020, China)
Abstract: With the improvement of computer computing power and the development of Deep Learning technology, Deep Learning methods that do not require human intervention have become the mainstream method for remote sensing image classification. Therefore, this paper proposes a neural network based on Deep Learning, embedding Attention Mechanism and blending multi-scale features for scene classification of remote sensing images. This model uses Transfer Learning to reduce the negative impact from insufficient training samples. It embeds Attention Mechanisms and blends multi-scale features in the network to improve the ability to classify small-sized terrain targets, and verifying the effectiveness of the model. Through experimental analysis, it is concluded that the proposed model is feasible and effective for remote sensing image scene classification.
Keywords: Attention Mechanism; remote sensing image; scene classification; multi-scale fusion