摘要:【目的】為提取林區(qū)主要地物分布信息,基于注意力機(jī)制和DeepLabV3+語義分割網(wǎng)絡(luò)提出一種面向無人機(jī)林區(qū)圖像的地物分割方法Tree-DeepLab?!痉椒ā扛鶕?jù)不同的林區(qū)地物類型對(duì)圖像進(jìn)行標(biāo)注,標(biāo)注類型分為法國梧桐(Platanus orientalis)、銀杏(Ginkgo biloba)、楊樹(Populus sp.)、草地、道路和裸地6類,以獲取語義分割數(shù)據(jù)集。對(duì)語義分割網(wǎng)絡(luò)進(jìn)行改進(jìn):①將帶有分組注意力機(jī)制的ResNeSt101網(wǎng)絡(luò)作為DeepLabV3+語義分割網(wǎng)絡(luò)的主干網(wǎng)絡(luò);②將空洞空間卷積池化金字塔模塊的連接方式設(shè)置成串并行相結(jié)合形式,同時(shí)改變空洞卷積的擴(kuò)張率組合;③解碼器增加淺層特征融合分支;④解碼器增加空間注意力模塊;⑤解碼器增加高效通道注意力模塊。【結(jié)果】在自制數(shù)據(jù)集基礎(chǔ)上進(jìn)行訓(xùn)練和測(cè)試,試驗(yàn)結(jié)果表明:Tree-DeepLab語義分割模型的平均像素精度和平均交并比分別為97.04%和85.01%,較原始DeepLabV3+分別提升4.03和14.07個(gè)百分點(diǎn),且優(yōu)于U-Net和PSPNet語義分割網(wǎng)絡(luò)?!窘Y(jié)論】Tree-DeepLab語義分割網(wǎng)絡(luò)能夠有效分割無人機(jī)航拍林區(qū)圖像,以獲取林區(qū)主要地物類型的分布信息。
關(guān)鍵詞:無人機(jī);地物分割;林區(qū)圖像;DeepLabV3+;注意力機(jī)制;ResNeSt
中圖分類號(hào):S758;TP391"""" 文獻(xiàn)標(biāo)志碼:A開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
文章編號(hào):1000-2006(2024)04-0093-11
UAV forestry land-cover image segmentation method based on attention mechanism and improved DeepLabV3+
ZHAO Yugang1, LIU Wenping1*, ZHOU Yan1, CHEN Riqiang1, ZONG Shixiang2, LUO Youqing2
(1. School of Information, Beijing Forestry University, Engineering Research Center for Forestry-oriented Intelligent Information Processing of National Forestry and Grassland Administration, Beijing" 100083, China;2. School of Forestry, Beijing Forestry University, Beijing 100083, China)
Abstract: 【Objective】 This study proposes the feature segmentation method Tree-DeepLab for unmanned aerial vehicle (UAV) forest images, based on an attention mechanism and the DeepLabV3+ semantic segmentation network, to extract the main feature distribution information in forest areas. 【Method】 First, the forest images were annotated according to feature types from six categories (Platanus orientalis, Ginkgo biloba, Populus sp., grassland, road, and bare ground) to obtain the semantic segmentation datasets. Second, the following improvements were made to the semantic segmentation network: (1) the Xception network, the backbone of the DeepLabV3+ semantic segmentation network, was replaced by ResNeSt101 with a split attention mechanism; (2) the atrous convolutions of different dilation rates in the atrous spatial pyramid pooling were connected using a combination of serial and parallel forms, while the combination of the atrous convolution dilation rates was simultaneously changed; (3) a shallow feature fusion branch was added to the decoder; (4) spatial attention modules were added to the decoder; and (5) efficient channel attention modules were added to the decoder. 【Result】 Training and testing were performed based on an in-house dataset. The experimental results revealed that the Tree-DeepLab semantic segmentation model had mean pixel accuracy (mPA) and mean intersection over union (mIoU) values of 97.04% and 85.01%, respectively, exceeding those of the original DeepLabV3+ by 4.03 and 14.07 percentage points, respectively, and outperforming U-Net and PSPNet. 【Conclusion】 The study demonstrates that the Tree-DeepLab semantic segmentation model can effectively segment UAV aerial photography images of forest areas to obtain the distribution information of the main feature types in forest areas.
Keywords:unmanned aerial vehicle(UAV); land-cover image segmentation; forestry images; DeepLabV3+; attention mechanism; ResNeSt
精準(zhǔn)掌握林區(qū)中主要地物的分布信息,對(duì)林業(yè)政策調(diào)整、編制系統(tǒng)的林業(yè)經(jīng)營計(jì)劃十分重要[1]。無人機(jī)是獲取高分辨率遙感圖像的重要方式之一[2],通過低空飛行,可以快速便捷地采集林區(qū)圖像。相較于衛(wèi)星圖像[3],無人機(jī)航拍圖像的分辨率更高,時(shí)效性更好,且不易受天氣環(huán)境影響[4]。通過分割無人機(jī)高分辨林區(qū)圖像中的不同地物,獲取林區(qū)中主要地物類型的分布信息,是林業(yè)研究的重點(diǎn)內(nèi)容之一[5-8]。
隨著圖像分析和無人機(jī)航拍技術(shù)的進(jìn)步與成熟,無人機(jī)林區(qū)圖像分割算法也在不斷發(fā)展。張?jiān)龅萚9]通過HSV顏色空間分割無人機(jī)航拍森林圖像中的火災(zāi)區(qū)域,并使用支持向量機(jī)方法識(shí)別無人機(jī)航拍森林圖像中的火災(zāi)區(qū)域,實(shí)現(xiàn)森林火災(zāi)監(jiān)測(cè);劉文萍等[10]利用二型模糊聚類方法分割出無人機(jī)林區(qū)圖像中的樹木樹冠,用于樹木胸徑估值;Martins等[11]利用SLIC超像素分割方法分割無人機(jī)林區(qū)圖像中的樹木和其他區(qū)域,以獲取林區(qū)樹木分布信息。但這些傳統(tǒng)的圖像分割方法都需要人工選取特征參數(shù),分割過程較為復(fù)雜。近年來,基于深度學(xué)習(xí)的自動(dòng)化圖像語義分割方法發(fā)展迅速。Long等[12]提出的全卷積神經(jīng)網(wǎng)絡(luò)(fully convolutional networks,F(xiàn)CN)將圖像分類網(wǎng)絡(luò)中的全連接層去掉,同時(shí)將分類網(wǎng)絡(luò)作為編碼器的主干網(wǎng)絡(luò),再通過解碼器對(duì)主干網(wǎng)絡(luò)輸出的具有豐富語義信息的特征圖進(jìn)行解碼,實(shí)現(xiàn)了圖像的像素級(jí)分類。隨后基于編碼器、解碼器結(jié)構(gòu)的各種深度學(xué)習(xí)語義分割網(wǎng)絡(luò)迅速發(fā)展,U-Net[13]、金字塔場(chǎng)景解析網(wǎng)絡(luò)[14](pyramid scene parsing network,PSPNet)、RefineNet[15]、DeepLab系列網(wǎng)絡(luò)[16-19]等都實(shí)現(xiàn)了圖像的精準(zhǔn)化語義分割,使無人機(jī)林區(qū)圖像分割算法又有了新的研究思路[20-21]。其中,DeepLabV3+網(wǎng)絡(luò)的空洞空間卷積池化金字塔(atrous spatial pyramid pooling,ASPP)模塊可以捕獲圖像中不同尺度特征,解碼器的設(shè)計(jì)可用于恢復(fù)分割對(duì)象的邊界信息,精準(zhǔn)分割各類目標(biāo)邊緣[22],有利于復(fù)雜圖像分割。
近年來,注意力機(jī)制被廣泛應(yīng)用于圖像分析領(lǐng)域。注意力機(jī)制主要包含空間注意力機(jī)制和通道注意力機(jī)制。SE-Net[23]、Cbam[24]、ECA-Net[25]、ResNeSt[26]等網(wǎng)絡(luò)都分別利用了空間注意力機(jī)制或通道注意力機(jī)制的思想搭建模型,使模型更易提取圖像中的關(guān)鍵特征以提高模型準(zhǔn)確率。鑒于DeepLabV3+網(wǎng)絡(luò)對(duì)復(fù)雜圖像分割能力較強(qiáng)以及加入注意力機(jī)制的模型可提高對(duì)關(guān)鍵特征的利用率,本研究選擇DeepLabV3+語義分割網(wǎng)絡(luò)作為基礎(chǔ)模型,并加入注意力機(jī)制。但由于無人機(jī)航拍林區(qū)圖像中不同樹種之間的特征差異較小,不同類別之間邊緣結(jié)構(gòu)復(fù)雜,直接應(yīng)用DeepLabV3+模型,得到的分割精度較低。為精確掌握林區(qū)中的主要地物分布信息,提出一種適用于復(fù)雜無人機(jī)林區(qū)圖像的地物分割方法——Tree-DeepLab。通過對(duì)DeepLabV3+網(wǎng)絡(luò)中的編碼器和解碼器進(jìn)行改進(jìn)并加入空間注意力模塊(spatial attention,SA)和高效通道注意力模塊(efficient channel attention,ECA),以適應(yīng)無人機(jī)林區(qū)圖像中的不同地物特征,通過大量試驗(yàn)得到最好的語義分割模型,并與常用的語義分割模型U-Net、PSPNet網(wǎng)絡(luò)進(jìn)行比較,驗(yàn)證改進(jìn)模型的優(yōu)劣性。
1 材料與方法
1.1 研究區(qū)概況與數(shù)據(jù)獲取
研究區(qū)(118°10′57″E,34°38′10″N)位于山東省臨沂市郯城縣,是人工種植林區(qū),主要種植樹種為楊樹(Populus sp.)、銀杏(Ginkgo biloba)、法國梧桐(Platanus" orientalis)等,試驗(yàn)區(qū)中還有草地(grassland)、裸地(bare ground)、道路(road)等多種地物類型。不同樹種間特征差異較小且邊緣結(jié)構(gòu)復(fù)雜,道路和裸地的特征接近,易被混淆,草地、道路和裸地區(qū)域占地面積較小。
利用大疆悟Inspire 1四旋翼無人機(jī)采集試驗(yàn)數(shù)據(jù)。無人機(jī)最大飛行高度為500 m,搭載可拆式ZENMUSE X3云臺(tái),相機(jī)型號(hào)為DJI FC350,有效像素為1 240萬像素,圖片分辨率為4 000×2 250像素,存儲(chǔ)格式為jpeg和png。為防止強(qiáng)光照引起大面積陰影,圖像采集時(shí)間為上午6:00—8:00,飛行高度為100 m。
1.2 數(shù)據(jù)集建立
原始圖像類型為jpg類型,分辨率為4 000×2 250像素,直接使用原始圖像參與模型訓(xùn)練會(huì)造成顯存溢出。因此,將原始圖像剪裁成512×512像素,裁剪圖像間無重疊,裁剪后圖像共1 566幅。訓(xùn)練集和測(cè)試集劃分比例為7∶3,圖像數(shù)量分別為1 096和470幅。利用LabelMe標(biāo)注工具對(duì)剪裁后jpg圖像進(jìn)行像素級(jí)標(biāo)注,標(biāo)注完成后生成相應(yīng)json文件,然后,使用批處理轉(zhuǎn)換方法將生成的json文件轉(zhuǎn)換為png類型標(biāo)注圖像,標(biāo)注圖像中相同分割類型被標(biāo)注為同種顏色。圖像標(biāo)注采取人工目視的方式進(jìn)行數(shù)據(jù)集圖像初標(biāo)注,并對(duì)標(biāo)注結(jié)果進(jìn)行檢查及標(biāo)注校正,確保標(biāo)注的準(zhǔn)確性和一致性。根據(jù)林區(qū)地面實(shí)際情況,將數(shù)據(jù)劃分為楊樹、法國梧桐、銀杏、草地、道路及裸地6種類型,部分標(biāo)注結(jié)果如圖1所示。由圖1可以看出,不同地物類型之間特征差異較小,顏色類似,邊緣結(jié)構(gòu)復(fù)雜。
1.3 DeepLabV3+語義分割方法
DeepLabV3+由編碼器和解碼器組成,具體結(jié)構(gòu)如圖2所示。編碼器首先將輸入圖像送入主干網(wǎng)絡(luò)進(jìn)行特征提取,然后將輸出特征圖送入空洞空間卷積池化金字塔模塊進(jìn)行加強(qiáng)特征提取。解碼器對(duì)編碼器輸出特征圖首先進(jìn)行4倍上采樣,然后與主干網(wǎng)絡(luò)Block1輸出特征圖進(jìn)行拼接,以增強(qiáng)特征圖空間信息,最后,將拼接特征圖進(jìn)行3×3卷積和4倍上采樣,得到最終分割結(jié)果。
1.4 Tree-DeepLab語義分割方法
針對(duì)復(fù)雜無人機(jī)林區(qū)圖像特點(diǎn),對(duì)DeepLabV3+網(wǎng)絡(luò)做了一系列改進(jìn),改進(jìn)后的Tree-DeepLab網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。首先,為增強(qiáng)編碼器特征提取能力,改進(jìn)網(wǎng)絡(luò)將原始編碼器的主干網(wǎng)絡(luò)——Xception網(wǎng)絡(luò)替換為帶有分組注意力機(jī)制的ResNeSt101網(wǎng)絡(luò)。其次,為實(shí)現(xiàn)對(duì)輸入特征圖的密集采樣,改進(jìn)網(wǎng)絡(luò)以串行和并行相結(jié)合的形式連接ASPP模塊中不同擴(kuò)張率的空洞卷積,并改變空洞卷積的擴(kuò)張率組合。然后,為提升解碼器的解碼能力,增強(qiáng)分割結(jié)果空間分布的連續(xù)性,解碼器增加淺層特征融合分支。為過濾復(fù)雜背景信息對(duì)分割結(jié)果的影響,解碼器增加空間注意力模塊。最后,為提高模型對(duì)特征圖中關(guān)鍵通道的利用率,提升分割精度,解碼器增加高效通道注意力模塊。
1.4.1 主干網(wǎng)絡(luò)改進(jìn)
原始DeepLabV3+網(wǎng)絡(luò)的主干網(wǎng)絡(luò)是Xception[27],使用了類似ResNet[28]的殘差連接結(jié)構(gòu)。由于Xception的網(wǎng)絡(luò)層數(shù)較少,所以語義特征提取能力較差。而無人機(jī)林區(qū)圖像中不同地物類型間特征差異較小,Xception不能準(zhǔn)確提取復(fù)雜無人機(jī)林區(qū)圖像中的地物特征。
ResNeSt網(wǎng)絡(luò)殘差塊單元如圖4所示。在通道方向,ResNeSt網(wǎng)絡(luò)將輸入特征圖在通道方向劃分成K×S個(gè)小組,然后賦予每組不同的權(quán)重,權(quán)重會(huì)隨著訓(xùn)練輪次的迭代而更新,以突出不同組的重要程度,即分組注意力機(jī)制。將K個(gè)單元的輸出在通道方向進(jìn)行拼接,得到最終的輸出特征圖,第K個(gè)單元的輸出VK計(jì)算公式為:
VK=∑Sm=1aKi(F)US(K-1)+i。(1)
式中:F為第m小組輸入特征圖且F∈RH×W×(CK/S),R為實(shí)數(shù)集,H為特征圖高度,W為特征圖寬度,C為特征圖通道數(shù),aKm(F)為第m小組注意力權(quán)重,US(K-1)+m為第m小組輸出特征圖。
與Xception網(wǎng)絡(luò)相比,ResNeSt網(wǎng)絡(luò)層數(shù)更多,且具有分組注意力機(jī)制,特征提取能力更強(qiáng),可有效降低無人機(jī)林區(qū)圖像中不同地物類型間特征差異較小和邊緣結(jié)構(gòu)復(fù)雜對(duì)分割結(jié)果的影響。因此將Tree-DeepLabV3+的主干網(wǎng)絡(luò)替換為ResNeSt。
1.4.2 空洞空間卷積池化金字塔模塊改進(jìn)
改進(jìn)后的SP-ASPP模塊如圖5所示。
數(shù)據(jù)集中道路、裸地和草地像素?cái)?shù)量較少,且經(jīng)過主干網(wǎng)絡(luò)特征提取后,輸出特征圖尺寸變?yōu)檩斎胩卣鲌D的1/16,造成傳入ASPP模塊中的道路、裸地和草地像素較為稀疏。為降低像素稀疏對(duì)分割結(jié)果的影響,本研究對(duì)原始ASPP模塊進(jìn)行改進(jìn),將ASPP模塊中不同擴(kuò)張率的空洞卷積使用串行(serial)與并行(parallel)相結(jié)合的形式進(jìn)行連接。
不同擴(kuò)張率的空洞卷積串行連接,可實(shí)現(xiàn)對(duì)輸入特征圖的密集采樣[29]。密集采樣可提高ASPP模塊對(duì)輸入特征圖的像素采樣量。同時(shí),將SP-ASPP模塊中的空洞卷積擴(kuò)張率組合變?yōu)椋?,6,9,12),對(duì)輸入特征圖進(jìn)行更加密集的采樣。因此,改進(jìn)后的SP-ASPP模塊可密集采樣輸入特征圖,解決圖像中道路、裸地和草地像素較少的問題,降低像素稀疏對(duì)分割結(jié)果的影響。
1.4.3 增加淺層特征融合分支
改進(jìn)解碼器結(jié)構(gòu)如圖6所示,紫色箭頭為淺層特征融合分支,黑色箭頭為原始解碼器解碼流程。
DeepLabV3+解碼器主要對(duì)編碼器深層特征圖進(jìn)行解碼,以得到最終分割結(jié)果。然而,編碼器中的深層特征圖空間信息匱乏,淺層特征圖富含更多的空間信息。因數(shù)據(jù)集中不同地物類型間邊緣結(jié)構(gòu)較復(fù)雜,為使模型在數(shù)據(jù)集上的分割結(jié)果更加連續(xù),在解碼器中增加淺層特征融合分支。ASPP模塊輸出特征圖首先與Block3輸出特征圖拼接,然后采用雙線性插值方法進(jìn)行2倍上采樣。其次,上采樣得到的特征圖與Block2輸出特征圖拼接,再采用雙線性插值方法進(jìn)行2倍上采樣。最終,將淺層特征融合分支輸出特征圖,經(jīng)過4倍上采樣的ASPP模塊輸出特征圖以及Block1輸出特征圖拼接,再經(jīng)過3×3卷積和雙線性插值2倍上采樣,得到最終分割結(jié)果。
1.4.4 增加空間注意力模塊
空間注意力模塊如圖7所示,輸入特征圖分別沿通道方向進(jìn)行全局平均池化和全局最大池化,將所得特征圖經(jīng)過拼接、卷積、Sigmoid函數(shù)激活后,得到尺寸為H×W×1的特征圖,該特征圖中各單元含有不同權(quán)重。將所得特征圖和輸入特征圖相乘,得到輸出特征圖。空間注意力MS(F)計(jì)算公式為:
MS(F)=σ[f7×7[IConcat(IAvgPool(F),IMaxPool(F))]]。(2)
式中:σ()為Sigmoid激活函數(shù),F(xiàn)為輸入特征圖且F∈RH×W×C,f 7×7為7×7卷積,IAvgPool為平均池化操作,IMaxPool為最大池化操作,IConcat為特征圖拼接操作。
加入SA模塊會(huì)使模型對(duì)圖像中關(guān)鍵特征利用率更高,降低無用背景信息對(duì)分割結(jié)果的影響。因無人機(jī)林區(qū)圖像中不同地物類型之間特征接近,邊緣結(jié)構(gòu)復(fù)雜,為使分割結(jié)果更加準(zhǔn)確,在Tree-DeepLab解碼器中加入SA模塊,如圖3所示。Block1輸出的特征圖首先傳入空間注意力模塊,再經(jīng)過1×1卷積進(jìn)行通道降維。
1.4.5 增加高效通道注意力模塊
高效通道注意力模塊如圖8所示。
輸入特征圖經(jīng)過全局平均池化,尺寸為C×1×1,所得特征圖經(jīng)過卷積核大小為k的1維卷積以及Sigmoid函數(shù)后,得到尺寸為C×1×1的輸出特征圖,該特征圖各單元含有不同的權(quán)重。將所得特征圖和輸入特征圖相乘,得到輸出特征圖。卷積核大小k的計(jì)算公式為:
k=log2Cγ+bγodd(3)
式中:C為特征圖通道數(shù);γ和b都為超參數(shù),本研究分別設(shè)置為2和1;odd為奇數(shù)性質(zhì),用于篩選出絕對(duì)值為奇數(shù)的變量。
因Tree-DeepLab模型含有大量通道拼接過程,所以,在Tree-DeepLab中加入ECA模塊,以提高模型對(duì)關(guān)鍵通道的利用率。如圖3所示,一共加入2個(gè)ECA模塊。首先,ASPP模塊輸出的特征圖,經(jīng)過ECA模塊,再進(jìn)行1×1卷積;其次,在淺層特征融合分支中,ASPP模塊輸出特征圖和Block3模塊輸出特征圖在拼接、上采樣后,經(jīng)過ECA模塊,再和主干網(wǎng)絡(luò)Block2輸出特征圖拼接。
1.5 試驗(yàn)環(huán)境與評(píng)價(jià)指標(biāo)
試驗(yàn)在Ubuntu18.04操作系統(tǒng)、NVIDIA GEFORCE GTX1080Ti(11G)顯卡下進(jìn)行,深度學(xué)習(xí)框架為Pytorch,對(duì)訓(xùn)練數(shù)據(jù)以隨機(jī)剪裁的方式進(jìn)行數(shù)據(jù)增廣。隨機(jī)剪裁尺寸為480×480像素,試驗(yàn)訓(xùn)練參數(shù)批處理大小為4,迭代次數(shù)為32 880,優(yōu)化器為隨機(jī)梯度下降,初始學(xué)習(xí)率為0.001,動(dòng)量為0.9,權(quán)重衰減率為0.000 04。
使用平均像素精度(mPA,式中記為ImPA)和平均交并比(mIoU,式中記為ImIoU)作為評(píng)價(jià)指標(biāo)對(duì)分割結(jié)果進(jìn)行定量評(píng)價(jià)。mPA和mIoU的計(jì)算公式分別為:
ImPA=∑ci=0Pii∑ci=1∑cj=0(Pij+Pii)×100%;(4)
ImIoU=1c+1∑ci=0Pii∑cj=0Pij+∑cj=0Pji-Pii×100%。(5)
式中:c為數(shù)據(jù)集中分割類別數(shù),i為正類別、j為負(fù)類別,Pii為將像素i預(yù)測(cè)為像素i,Pij為將像素i預(yù)測(cè)為像素j,Pji為將像素j預(yù)測(cè)為像素i。
2 結(jié)果與分析
2.1 不同ASPP模塊試驗(yàn)結(jié)果分析
將原始DeepLabV3+的ASPP模塊、Tree-DeepLab的SP-ASPP模塊和同樣具有密集采樣原理的DenseASPP[29]模塊(以下簡(jiǎn)稱D-ASPP)做多組試驗(yàn),并在測(cè)試數(shù)據(jù)集上測(cè)試,試驗(yàn)結(jié)果如表1所示。
試驗(yàn)結(jié)果表明:將ASPP模塊設(shè)置成密集連接的形式以及適當(dāng)降低ASPP模塊擴(kuò)張率可有效提升模型分割精度。但與SP-ASPP模塊相比,D-ASPP模塊參數(shù)量較高,且加入D-ASPP模塊的模型訓(xùn)練時(shí)間遠(yuǎn)大于加入SP-ASPP模塊。模型5和模型3相比,ASPP模塊擴(kuò)張率組合相同,模型5的模型參數(shù)量比模型3低1.49 MB,訓(xùn)練時(shí)間少81 min,測(cè)試時(shí)間少1.04 s,但mPA提升0.21,mIoU提升1.17個(gè)百分點(diǎn)。因此,Tree-DeepLab模型將ASPP設(shè)置為SP-ASPP連接形式,并使用(3,6,9,12)擴(kuò)張率組合。
2.2 DeepLabV3+改進(jìn)試驗(yàn)結(jié)果分析
針對(duì)DeepLabV3+的編碼器和解碼器做多組改進(jìn),并在測(cè)試數(shù)據(jù)集上測(cè)試,試驗(yàn)結(jié)果如表2所示。
試驗(yàn)結(jié)果表明:將原始DeepLabV3+網(wǎng)絡(luò)的編碼器主干網(wǎng)絡(luò)Xception網(wǎng)絡(luò)替換為ResNet101網(wǎng)絡(luò)得到模型2,模型層數(shù)加深,特征提取能力增強(qiáng),平均像素精度(mPA)提升2.26個(gè)百分點(diǎn),平均交并比(mIoU)提升4.58個(gè)百分點(diǎn)。將模型2的編碼器主干網(wǎng)絡(luò)替換為具有分組注意力機(jī)制的ResNeSt101網(wǎng)絡(luò)得到模型3,模型特征提取能力進(jìn)一步增強(qiáng),mPA提升0.55個(gè)百分點(diǎn),mIoU提升2.72個(gè)百分點(diǎn)。在模型3的解碼器中添加淺層特征融合分支得到模型4,模型解碼能力提升,mPA提升0.96個(gè)百分點(diǎn),mIoU提升3.89個(gè)百分點(diǎn)。同時(shí),將模型4的ASPP設(shè)置成SP-ASPP連接形式得到模型6,模型可對(duì)輸入特征圖進(jìn)行密集采樣,mPA提升0.16個(gè)百分點(diǎn),mIoU提升1.83個(gè)百分點(diǎn)。在模型6中加入空間注意力機(jī)制(SA)和高效通道注意力機(jī)制(ECA)得到模型9,改進(jìn)模型可自適應(yīng)提取輸入特征圖的特征,提高關(guān)鍵特征利用率,mPA提升0.10個(gè)百分點(diǎn),mIoU提升1.05個(gè)百分點(diǎn)。總之,當(dāng)把原始DeepLabV3+模型的主干網(wǎng)絡(luò)Xception替換為ResNeSt101,ASPP結(jié)構(gòu)更改為SP-ASPP結(jié)構(gòu),解碼器加入淺層特征融合分支和SA、ECA注意力模塊后,得到的Tree-DeepLab,相較于原始DeepLabV3+,其訓(xùn)練時(shí)間僅增加16 min,測(cè)試時(shí)間僅增加2.36 s,但mPA提升4.03個(gè)百分點(diǎn),mIoU提升14.07個(gè)百分點(diǎn)。
2.3 不同語義分割模型試驗(yàn)結(jié)果分析
為驗(yàn)證本次算法的有效性,將DeepLabV3+、U-Net、PSPNet語義分割模型和Tree-DeepLab語義分割模型同時(shí)在數(shù)據(jù)集上進(jìn)行訓(xùn)練和測(cè)試,并對(duì)分割結(jié)果進(jìn)行比較,各模型試驗(yàn)訓(xùn)練參數(shù)保持一致,試驗(yàn)結(jié)果如表3所示。
試驗(yàn)結(jié)果表明:U-Net、PSPNet和DeepLabV3+網(wǎng)絡(luò)的mPA均低于95%,mIoU均低于80%。其中,由最能體現(xiàn)語義分割精度的mIoU指標(biāo)可知,U-Net網(wǎng)絡(luò)表現(xiàn)最差,mIoU僅為67.50%,且草地和裸地的分割效果較差。相較于其他3種語義分割模型,改進(jìn)的Tree-DeepLab模型表現(xiàn)最好,訓(xùn)練時(shí)間和測(cè)試時(shí)間遠(yuǎn)低于PSPNet,并且與U-Net、DeepLabV3+接近,但mPA和mIoU都有大幅度提升,mPA達(dá)到97.04%,mIoU達(dá)到85.01%,且3種不同的樹種(楊樹、銀杏、法國梧桐)類型的mIoU均高于90%。
2.4 分割結(jié)果分析
U-Net、PSPNet、DeepLabV3+和Tree-DeepLab語義分割模型的部分分割結(jié)果如圖9所示。在U-Net網(wǎng)絡(luò)的分割結(jié)果中,不同類別的分割準(zhǔn)確度較低,分割邊界不清晰,尤其對(duì)裸地和草地的分割效果很差,這可能與U-Net的網(wǎng)絡(luò)結(jié)構(gòu)有關(guān)。U-Net網(wǎng)絡(luò)編碼器各層的輸出結(jié)果直接連接到同層的解碼器,模型不能充分利用深淺層語義信息,使模型語義分割精度較低。PSPNet網(wǎng)絡(luò)的分割效果是可以被接受的,但該模型分割結(jié)果中的道路不連續(xù),易與周圍區(qū)域像素混淆。PSPNet的金字塔池化模塊雖可捕獲圖像中的多尺度信息,但易丟失圖像的細(xì)節(jié)信息。DeepLabV3+網(wǎng)絡(luò)的分割結(jié)果中,部分分割類別間存在毛邊現(xiàn)象。草地、銀杏區(qū)域分割效果較差,因兩者顏色特征接近,故錯(cuò)分率較高。DeepLabV3+網(wǎng)絡(luò)對(duì)像素稀疏的道路區(qū)域分割效果較差,說明該網(wǎng)絡(luò)的編碼器特征提取能力較差,易丟失圖像中的細(xì)節(jié)信息。Tree-DeepLab網(wǎng)絡(luò)分割效果最好,能精準(zhǔn)分割圖像中容易錯(cuò)分的道路、草地和裸地,并能準(zhǔn)確分割圖像中的楊樹、銀杏和法國梧桐區(qū)域,分割結(jié)果邊界連續(xù),誤分、錯(cuò)分較少。
3 討 論
無人機(jī)林區(qū)圖像存在不同樹種間特征接近、邊緣結(jié)構(gòu)復(fù)雜以及部分地物類型像素較稀疏等問題,給無人機(jī)林區(qū)圖像分割研究帶來一定挑戰(zhàn)。李丹等[30]研究的基于FCM和分水嶺的無人機(jī)林區(qū)圖像分割方法,雖可精準(zhǔn)分割圖像中的樟子松(Pinus sylvestris var. mongolica)樹冠,但分割效果和特征參數(shù)的選取相關(guān),模型自適應(yīng)能力較差。劉旭光等[31]研究的基于多尺度分割的方法,雖可有效分割無人機(jī)林區(qū)圖像中的植被區(qū)域,但研究中設(shè)置的分割類別較少,與實(shí)際的林區(qū)植被類別數(shù)量差異過大,使分割結(jié)果具有一定的局限性。為此,本研究自制了無人機(jī)林區(qū)圖像數(shù)據(jù)集,該數(shù)據(jù)集包含了法國梧桐、銀杏、楊樹3種不同的樹種以及草地、道路和裸地3類典型的非林木地物類型,使試驗(yàn)結(jié)果具有更好的通用性。在此數(shù)據(jù)集基礎(chǔ)上,本研究提出了無人機(jī)林區(qū)圖像地物分割模型Tree-DeepLab,該模型以DeepLabV3+為基礎(chǔ),針對(duì)無人機(jī)林區(qū)圖像特點(diǎn)進(jìn)行了優(yōu)化,并在自制數(shù)據(jù)集上進(jìn)行多次訓(xùn)練,以提高模型的自適應(yīng)能力。
首先,為增強(qiáng)模型特征提取能力,本研究將DeepLabV3+模型主干網(wǎng)絡(luò)替換為具有分組注意力機(jī)制的ResNeSt101,并且在模型中添加空間注意力模塊和高效通道注意力模塊,以解決無人機(jī)林區(qū)圖像中不同樹種間特征較接近的問題。其次,為使分割結(jié)果空間分布更加連續(xù),本研究在DeepLabV3+模型中添加淺層特征融合分支,以解決無人機(jī)林區(qū)圖像中不同地物間邊緣結(jié)構(gòu)復(fù)雜的問題。最后,為實(shí)現(xiàn)對(duì)輸入特征圖的密集采樣,本研究將DeepLabV3+網(wǎng)絡(luò)中的原始空洞空間卷積池化金字塔模塊中不同擴(kuò)張率的空洞卷積設(shè)計(jì)成串并行相結(jié)合的連接形式,同時(shí)降低空洞卷積擴(kuò)張率,以解決無人機(jī)林區(qū)圖像中部分地物類型像素較稀疏的問題。
但值得注意的是,不同季節(jié)的無人機(jī)林區(qū)圖像特征存在一定差異性,比如秋冬季節(jié)林區(qū)樹木葉子、草地顏色會(huì)變成黃色,部分樹木存在落葉現(xiàn)象。此時(shí),再使用Tree-DeepLab分割無人機(jī)林區(qū)圖像,分割效果可能較差。因此,后續(xù)將采集更多季節(jié)的無人機(jī)林區(qū)圖像,以豐富本研究數(shù)據(jù)集,提升Tree-DeepLab模型泛化能力。同時(shí),后續(xù)將在模型大小、分割速度和分割精度等方面繼續(xù)優(yōu)化,使模型更輕量化的同時(shí)擁有更好的分割性能。
4 結(jié) 論
1)針對(duì)無人機(jī)林區(qū)圖像特點(diǎn),本研究對(duì)DeepLabV3+做了一系列試驗(yàn)和改進(jìn),包括更換主干網(wǎng)絡(luò)、增加注意力模塊、添加淺層特征融合分支和更改空洞空間卷積池化金字塔模塊結(jié)構(gòu),得到無人機(jī)林區(qū)圖像地物分割模型Tree-DeepLab。
2)本研究構(gòu)建的Tree-DeepLab模型對(duì)草地、道路、裸地、楊樹、銀杏和法國梧桐的語義分割準(zhǔn)確率均有明顯提升,平均像素精度達(dá)到97.04%,平均交并比達(dá)到85.01%。相較于原始DeepLabV3+模型,Tree-DeepLab模型訓(xùn)練時(shí)間和測(cè)試時(shí)間僅小幅度增加,但平均像素精度提高4.03個(gè)百分點(diǎn),平均交并比提高14.07個(gè)百分點(diǎn),并優(yōu)于經(jīng)典語義分割模型U-Net和PSPNet,能夠?qū)崿F(xiàn)復(fù)雜無人機(jī)林區(qū)圖像的精準(zhǔn)分割。
參考文獻(xiàn)(reference):
[1]王靜, 高建中. 林地地塊特征對(duì)農(nóng)戶林業(yè)生產(chǎn)效率的影響[J]. 林業(yè)經(jīng)濟(jì)問題, 2021, 41(6): 577-582. WANG J, GAO J Z. The effects of the characteristics of forest land parcels on farmers’ forestry production efficiency[J]. News For Econ, 2021, 41(6): 577-582. DOI: 10.16832/j.cnki.1005-9709.20210072.
[2]DALPONTE M, RKA H O, GOBAKKEN T, et al. Tree species classification in boreal forests with hyperspectral data[J]. IEEE Trans Geosci Remote Sens, 2013, 51(5): 2632-2645. DOI: 10.1109/TGRS.2012.2216272.
[3]BLANCO S R, HERAS D B, ARGELLO F. Texture extraction techniques for the classification of vegetation species in hyperspectral imagery: bag of words approach based on superpixels[J]. Remote Sens, 2020, 12(16): 2633. DOI: 10.3390/rs12162633.
[4]THANH NOI P, KAPPAS M. Comparison of random forest, k-nearest neighbor, and support vector machine classifiers for land cover classification using sentinel-2 imagery[J]. Sensors, 2017, 18(1): 18. DOI: 10.3390/s18010018.
[5]YUAN Y, HU X Y. Random forest and objected-based classification for forest pest extraction from UAV aerial imagery[J]. Int Arch Photogramm Remote Sens Spatial Inf Sci, 2016, XLI-B1: 1093-1098. DOI: 10.5194/isprs-archives-xli-b1-1093-2016.
[6]趙慶展, 江萍, 王學(xué)文, 等. 基于無人機(jī)高光譜遙感影像的防護(hù)林樹種分類[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào), 2021, 52(11): 190-199. ZHAO Q Z, JIANG P, WANG X W, et al. Classification of protection forest tree species based on UAV hyperspectral data[J]. Trans Chin Soc Agric Mach, 2021, 52(11): 190-199. DOI: 10.6041/j.issn.1000-1298.2021.11.020.
[7]戴鵬欽, 丁麗霞, 劉麗娟, 等. 基于FCN的無人機(jī)可見光影像樹種分類[J]. 激光與光電子學(xué)進(jìn)展, 2020, 57(10): 36-45. DAI P Q, DING L X, LIU L J, et al. Tree species identification based on FCN using the visible images obtained from an unmanned aerial vehicle[J]. Laser Optoelectron Prog, 2020, 57(10): 36-45. DOI: 10.3788/LOP57.101001.
[8]張軍國, 馮文釗, 胡春鶴, 等. 無人機(jī)航拍林業(yè)蟲害圖像分割復(fù)合梯度分水嶺算法[J]. 農(nóng)業(yè)工程學(xué)報(bào), 2017, 33(14): 93-99. ZHANG J G, FENG W Z, HU C H, et al. Image segmentation method for forestry unmanned aerial vehicle pest monitoring based on composite gradient watershed algorithm[J]. Trans Chin Soc Agric Eng, 2017, 33(14): 93-99. DOI: 10.11975/j.issn.1002-6819.2017.14.013.
[9]張?jiān)觯?王兵, 伍小潔, 等. 無人機(jī)森林火災(zāi)監(jiān)測(cè)中火情檢測(cè)方法研究[J]. 遙感信息, 2015, 30(1): 107-110, 124. ZHANG Z, WANG B, WU X J, et al. An algorithm of forest fire detection based on UAV remote sensing[J]. Remote Sens Inf, 2015, 30(1): 107-110, 124. DOI: 10.3969/j.issn.1000-3177.2015.01.018.
[10]劉文萍, 仲亭玉, 宋以寧. 基于無人機(jī)圖像分析的樹木胸徑預(yù)測(cè)[J]. 農(nóng)業(yè)工程學(xué)報(bào), 2017, 33(21): 99-104. LIU W P, ZHONG T Y, SONG Y N. Prediction of trees diameter at breast height based on unmanned aerial vehicle image analysis[J]. Trans Chin Soc Agric Eng, 2017, 33(21): 99-104. DOI: 10.11975/j.issn.1002-6819.2017.21.012.
[11]MARTINS J, JUNIOR J M, MENEZES G, et al. Image segmentation and classification with SLIC superpixel and convolutional neural network in forest context[C]//IGARSS 2019-2019 IEEE International Geoscience and Remote Sensing Symposium. Yokohama, Japan: IEEE, 2019: 6543-6546. DOI: 10.1109/IGARSS.2019.8898969.
[12]LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston, MA, USA: IEEE, 2015: 3431-3440. DOI: 10.1109/CVPR.2015.7298965.
[13]RONNEBERGER O, FISCHER P, BROX T. U-net: Convolutional networks for biomedical image segmentation[C]//International Conference on Medical Image Computing and Computer-Assisted Intervention. Cham: Springer, 2015: 234-241. DOI: 10.1007/978-3-319-24574-4_28.
[14]ZHAO H S, SHI J P, QI X J, et al. Pyramid scene parsing network[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, HI, USA: IEEE, 2017: 6230-6239. DOI: 10.1109/CVPR.2017.660.
[15]LIN G S, MILAN A, SHEN C H, et al. RefineNet: multi-path refinement networks for high-resolution semantic segmentation[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, HI, USA: IEEE, 2017: 5168-5177. DOI: 10.1109/CVPR.2017.549.
[16]CHEN L C, PAPANDREOU G, KOKKINOS I, et al. Semantic image segmentation with deep convolutional nets and fully connected CRFs[DB/OL]. (2014-09-14)[2022-05-25]. https:// arXiv.org/abs/1412.7062. DOI: 10.48550/arXiv.1412.7062.
[17]CHEN L C, PAPANDREOU G, KOKKINOS I, et al. DeepLab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs[J]. IEEE Trans Pattern Anal Mach Intell, 2018, 40(4): 834-848. DOI: 10.1109/TPAMI.2017.2699184.
[18]CHEN L C, PAPANDREOU G, SCHROFF F, et al. Rethinking atrous convolution for semantic image segmentation[DB/OL]. (2017-07-19)[2022-05-05]. https://arXiv.org/abs/1706.05587. DOI: 10.48550/arXiv.1706.05587.
[19]CHEN L C, ZHU Y K, PAPANDREOU G, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation[C]//European Conference on Computer Vision. Cham: Springer, 2018: 833-851. DOI: 10.1007/978-3-030-01234-2_49.
[20]韓蕊, 慕濤陽, 趙偉, 等. 基于無人機(jī)多光譜影像的柑橘樹冠分割方法研究[J]. 林業(yè)工程學(xué)報(bào), 2021, 6(5): 147-153. HAN R, MU T Y, ZHAO W, et al. Research on citrus canopy segmentation method based on UAV multispectral image[J]. Journal of Forestry Engineering, 2021, 6(5): 147-153. DOI: 10.13360/j.issn.2096-1359.202011021.
[21]劉文定, 田洪寶, 謝將劍, 等. 基于全卷積神經(jīng)網(wǎng)絡(luò)的林區(qū)航拍圖像蟲害區(qū)域識(shí)別方法[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào), 2019, 50(3): 179-185. LIU W D, TIAN H B, XIE J J, et al. Identification methods for forest pest areas of UAV aerial photography based on fully convolutional networks[J]. Trans Chin Soc Agric Mach, 2019, 50(3): 179-185. DOI: 10.6041/j.issn.1000-1298.2019.03.019.
[22]徐輝, 祝玉華, 甄彤, 等. 深度神經(jīng)網(wǎng)絡(luò)圖像語義分割方法綜述[J]. 計(jì)算機(jī)科學(xué)與探索, 2021, 15(1): 47-59. XU H, ZHU Y H, ZHEN T, et al. Survey of image semantic segmentation methods based on deep neural network[J]. J Front Comput Sci Technol, 2021, 15(1): 47-59. DOI: 10.3778/j.issn.1673-9418.2004039.
[23]HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA: IEEE, 2018: 7132-7141. DOI: 10.1109/CVPR.2018.00745.
[24]WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module[M]//Computer Vision-ECCV 2018. Cham: Springer International Publishing, 2018: 3-19. DOI: 10.1007/978-3-030-01234-2_1.
[25]WANG Q L, WU B G, ZHU P F, et al. ECA-net: efficient channel attention for deep convolutional neural networks[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, WA, USA: IEEE, 2020: 11531-11539. DOI: 10.1109/CVPR42600.2020.01155.
[26]ZHANG H, WU C R, ZHANG Z Y, et al. ResNeSt: split-attention networks[C]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). New Orleans, LA, USA: IEEE, 2022: 2735-2745. DOI: 10.1109/CVPRW56347.2022.00309.
[27]CHOLLET F. Xception: deep learning with depthwise separable convolutions[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, HI, USA: IEEE, 2017: 1800-1807. DOI: 10.1109/CVPR.2017.195.
[28]HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, NV, USA: IEEE, 2016: 770-778. DOI: 10.1109/CVPR.2016.90.
[29]YANG M K, YU K, ZHANG C, et al. DenseASPP for semantic segmentation in street scenes[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA: IEEE, 2018: 3684-3692. DOI: 10.1109/CVPR.2018.00388.
[30]李丹, 張俊杰, 趙夢(mèng)溪. 基于FCM和分水嶺算法的無人機(jī)影像中林分因子提取[J]. 林業(yè)科學(xué), 2019, 55(5): 180-187. LI D, ZHANG J J, ZHAO M X. Extraction of stand factors in UAV image based on FCM and watershed algorithm[J]. Sci Silvae Sin, 2019, 55(5): 180-187. DOI: 10.11707/j.1001-7488.20190520.
[31]劉旭光, 肖嘯, 蘭玉彬, 等. 應(yīng)用可見光遙感影像的林區(qū)植被分割方法[J]. 東北林業(yè)大學(xué)學(xué)報(bào), 2023, 51(4): 62-67. LIU X G, XIAO X, LAN Y B, et al. Forest vegetation segmentation method with UAV visible light remote sensing images[J]. Journal of Northeast Foresrty University, 2023, 51(4): 62-67. DOI: 10.13759/j.cnki.dlxb.2023.04.008.
(責(zé)任編輯 李燕文)
收稿日期Received:2022-09-24""" 修回日期Accepted:2022-11-01
基金項(xiàng)目:國家林業(yè)和草原局重大應(yīng)急科技項(xiàng)目(ZD202001);國家重點(diǎn)研發(fā)計(jì)劃(2021YFD1400900)。
第一作者:趙玉剛(15621377528@163.com)。
*通信作者:劉文萍(wendyl@vip.163.com),教授。
引文格式:趙玉剛,劉文萍,周焱,等.
基于注意力機(jī)制和改進(jìn)DeepLabV3+的無人機(jī)林區(qū)圖像地物分割方法[J]. 南京林業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版),2024,48(4):93-103.
ZHAO Y G, LIU W P, ZHOU Y, et al.
UAV forestry land-cover image segmentation method based on attention mechanism and improved DeepLabV3+[J]. Journal of Nanjing Forestry University (Natural Sciences Edition),2024,48(4):93-103.
DOI:10.12302/j.issn.1000-2006.202209055.