劉尚旺,張楊楊,蔡同波,唐秀芳,王長庚
基于改進(jìn)PSPnet的無人機(jī)農(nóng)田場景語義分割
劉尚旺1,3,張楊楊1,2,3,蔡同波1,3,唐秀芳1,3,王長庚1,3
(1.河南師范大學(xué) 計算機(jī)與信息工程學(xué)院,河南 新鄉(xiāng) 453007;2.中國農(nóng)業(yè)科學(xué)院 農(nóng)田灌溉研究所,河南 新鄉(xiāng) 453002;3.“智慧商務(wù)與物聯(lián)網(wǎng)技術(shù)”河南省工程實驗室,河南 新鄉(xiāng) 453007)
【】改進(jìn)PSPnet語義分割模型在無人機(jī)農(nóng)田場景下的性能。對PSPnet語義分割模型進(jìn)行3方面改進(jìn):①通過不同維度特征級聯(lián),在強(qiáng)化場景解析的基礎(chǔ)上保留更多圖像細(xì)節(jié)特征。②利用深度可分離卷積模塊構(gòu)建輕量級語義分割模型,使其更加高效。③改進(jìn)激活函數(shù),提升模型分割效果。所建模型的平均像素準(zhǔn)確率和平均交并比分別為89.48%和82.38%,比改進(jìn)前的模型提高了18.12%和18.93%,且分割結(jié)果優(yōu)于Unet和DeeplabV3+等模型。改進(jìn)后的模型能夠有效進(jìn)行無人機(jī)遙感農(nóng)田場景語義分割。
PSPnet;語義分割;特征級聯(lián);深度可分離卷積;激活函數(shù)
【研究意義】隨著智慧農(nóng)業(yè)和信息化技術(shù)的快速發(fā)展,全面、高效獲取和解讀農(nóng)田數(shù)據(jù)變得越來越迫切。無人機(jī)技術(shù)作為獲取遙感信息的一種方式,具有高靈活、高效率、低成本等特點(diǎn);可以為作物分類、農(nóng)業(yè)產(chǎn)量預(yù)估、糧食安全檢測、農(nóng)業(yè)用水規(guī)劃等應(yīng)用領(lǐng)域的研究提供有力的支持。
【研究進(jìn)展】目前以機(jī)器學(xué)習(xí)為代表的人工智能方法在無人機(jī)農(nóng)田場景中得到了廣泛應(yīng)用。有學(xué)者利用無人機(jī)遙感圖像,結(jié)合以支持向量機(jī)為代表的傳統(tǒng)機(jī)器學(xué)習(xí)方法獲得了農(nóng)田植被和土地利用情況[1-3]。然而,傳統(tǒng)機(jī)器學(xué)習(xí)方法往往需要人工參與設(shè)計,在處理海量數(shù)據(jù)和多分類問題上存在費(fèi)時費(fèi)力和無法保證精度的局限性[4]。除傳統(tǒng)的機(jī)器學(xué)習(xí)之外,深度學(xué)習(xí)作為人工智能領(lǐng)域的重要方法已經(jīng)進(jìn)一步推動了多個研究領(lǐng)域的發(fā)展。其中,深度語義分割能夠?qū)D像中的每個像素進(jìn)行分類,最終輸出圖像中不同對象的語義分割結(jié)果,在農(nóng)田場景中也得到了廣泛的應(yīng)用。楊麗麗等[5]改進(jìn)Unet實現(xiàn)了農(nóng)田道路的高精度識別;Yang等[6]探索了Segnet和FCN等深度學(xué)習(xí)模型在無人機(jī)農(nóng)田場景下地膜覆蓋制圖方面的應(yīng)用;楊蜀秦等[7]改進(jìn)DeeplebV3+網(wǎng)絡(luò),結(jié)合多光譜遙感影像對作物進(jìn)行分類;李云伍等[8]利用空洞卷積神經(jīng)網(wǎng)絡(luò),構(gòu)建了田間道路的語義分割模型;易詩等[9]提出了一種紅外實時雙邊語義分割網(wǎng)絡(luò),利用紅外圖像實現(xiàn)了夜間農(nóng)田場景的實時語義分割。
Long等[10]于2014年提出了全卷積網(wǎng)絡(luò)(Fully Convolutional Networks,F(xiàn)CN),首次將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于圖像分割領(lǐng)域,實現(xiàn)圖像端到端的語義分割。隨后基于對FCN語義分割模型的改進(jìn),Ronneberger等[11]實現(xiàn)了基于Encoder-Decoder(編碼器-解碼器)結(jié)構(gòu)的Unet語義分割模型,通過對不同維度的特征進(jìn)行融合,提升了分割精度;Chen等[12]提出的DeeplabV3+,通過擴(kuò)展卷積在不降低空間維度的前提下增大了卷積操作的感受野,改善了分割效果。Zhao等[13]提出的PSPnet,通過添加金字塔池化模塊對不同區(qū)域的語境進(jìn)行聚合,加強(qiáng)了對圖像的場景解析,提高了圖像分割的質(zhì)量。【切入點(diǎn)】基于深度學(xué)習(xí)的語義分割方法通常會經(jīng)過下采樣(特征提?。┖蜕喜蓸樱ɑ謴?fù)尺寸)2個過程[10-13]。下采樣過程中,主干特征提取器會從低維到高維依次進(jìn)行特征提取,低維特征通常包含圖像中的一些細(xì)節(jié)信息,如位置、邊緣、角度等圖像細(xì)節(jié)特征;高維特征往往包含圖像的語義特征[14]。語義分割往往使用語義更加豐富的高維特征進(jìn)行分割,但是無人機(jī)農(nóng)田場景下獲得的圖像細(xì)節(jié)特征非常豐富,僅利用高維特征進(jìn)行分割會因為丟失圖像部分細(xì)節(jié),造成分割邊緣粗糙的情況。另外,利用無人機(jī)采集的圖像往往分辨率較高,現(xiàn)有的特征提取器常使用傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取,其參數(shù)量龐大[15],高分辨率圖像運(yùn)算速度慢,分割效率低下。
【擬解決的關(guān)鍵問題】為此,針對PSPnet模型,本文構(gòu)造多維度特征融合的金字塔池化結(jié)構(gòu);利用MobileNet作為主干特征提取器使模型輕量化;使用Swish激活函數(shù)保留圖像的負(fù)值特征。從而,構(gòu)建更加精準(zhǔn)高效的無人機(jī)農(nóng)田場景語義分割模型。
與衛(wèi)星遙感數(shù)據(jù)相比無人機(jī)更接近地面,獲得的圖像數(shù)據(jù)像素高且細(xì)節(jié)特征豐富,有利于精細(xì)地識別地物特征,但是由于其復(fù)雜的前景和背景,也給無人機(jī)圖像數(shù)據(jù)的語義分割帶來了挑戰(zhàn)。以圖1所示的無人機(jī)農(nóng)田場景為例,背景方面不同種類的對象如垃圾、地膜、裸土等被歸為背景,前景方面擁有不同顏色和紋理特征的植物被分為同一類別。要實現(xiàn)無人機(jī)農(nóng)田場景下的精準(zhǔn)語義分割,一方面要考慮如何保證更多的細(xì)節(jié)特征,另一方面還要考慮如何在高分辨率的前提下提高分割效率。
鑒于無人機(jī)農(nóng)田場景下獲得的數(shù)據(jù)具有像素高和細(xì)節(jié)特征多的特點(diǎn),想要獲得較佳的分割效果,分割模型需要同時兼顧單一特征層的深度解析和不同維度特征的利用。Unet模型[11]采用了Encoder-Decoder結(jié)構(gòu),其中Encoder進(jìn)行了4次下采樣得到5個特征層,圖像大小縮小16倍,Decoder進(jìn)行了4次上采樣將特征層恢復(fù)至原圖大小,每次上采樣前對相同大小不同維度的特征層級聯(lián),使不同維度的特征進(jìn)行融合,最大程度的利用了圖像不同維度的特征;PSPnet模型[12]采用了金字塔池化模塊,對語義信息豐富的高維特征層進(jìn)行了深度解析,使該特征層的全局和局部聯(lián)系共同作用于最終的預(yù)測,可以提高圖像的分割質(zhì)量,但是對于細(xì)節(jié)特征豐富的無人機(jī)農(nóng)田場景圖像而言,在解析過程中只對高維特征進(jìn)行解析難免會丟失圖像中的細(xì)節(jié),造成分割邊緣模糊。為了獲得更適合無人機(jī)農(nóng)田場景的語義分割模型,本文借鑒Unet多維度特征級聯(lián)的方式,并結(jié)合深度可分離卷積,以及Swish激活函數(shù)等方法,對PSPnet模型進(jìn)行改進(jìn);其整體框架圖,如圖2所示。
圖2 改進(jìn)PSPnet語義分割模型結(jié)構(gòu)圖
從圖2可以看出,本文模型的主要流程是:首先,經(jīng)過以深度可分離卷積為基礎(chǔ)的MobileNet進(jìn)行特征提取,生成從不同維度的特征層;然后,對不同維度的特征層進(jìn)行場景解析和級聯(lián),最后,經(jīng)過Swish激活函數(shù)傳入softmax分類器進(jìn)行像素分類,最終生成分割圖像。具體來講,本文對PSPnet進(jìn)行了3方面改進(jìn):①在利用金字塔池化模塊(PPM1)對特征層進(jìn)行深度解析的基礎(chǔ)上,借鑒Unet模型不同維度特征級聯(lián)的操作,對主干特征提取網(wǎng)絡(luò)提取到的低維特征進(jìn)行級聯(lián),構(gòu)建多維度融合的金字塔池化結(jié)構(gòu),在充分利用特征層全局上下文信息的基礎(chǔ)上最大限度地保留圖像中的細(xì)節(jié)特征,從而提高分割準(zhǔn)確率;②為減少模型參數(shù)量,使用以深度可分離卷積為基本組件的MobileNet為主干特征提取網(wǎng)絡(luò)構(gòu)建主干特征提取器,使模型輕量化,提高整個模型的分割效率;③為保留圖像的負(fù)值特征,將Relu激活函數(shù)替換為Swish激活函數(shù),從而提升分割效果。
1.2.1 多維度特征融合的金字塔池化結(jié)構(gòu)
本文借鑒Unet多維度特征級聯(lián)的方式,在PSPnet模型的金字塔池化模塊(簡稱PPM,Pyramid pooling module)基礎(chǔ)上,提出了多維度特征融合的金字塔池化結(jié)構(gòu),利用多尺度池化操作保留更加全面的全局上下文信息的同時保留更多維度的圖像特征。其中PPM將傳統(tǒng)的池化操作分解為1×1、2×2、3×3、6×6共4個池化層,4個池化層分別將輸入的特征圖池化到目標(biāo)尺寸;然后,通過上采樣操作將不同的池化結(jié)果恢復(fù)到輸入大小,并將恢復(fù)到統(tǒng)一大小的特征層進(jìn)行級聯(lián);最后,將級聯(lián)后得到的特征層用于分割操作。多維度特征融合的金字塔池化結(jié)構(gòu)的關(guān)鍵是需要進(jìn)行多次金字塔池化(如圖2中的PPM1和PPM2),保證更多維度的特征能夠進(jìn)行深度解析。具體操作是首先將圖片傳入主干特征提取器得到F1、F2、F3、F4、F5共5個特征層,其次將包含語義信息最豐富的高維特征F5傳入PPM1得到F6,將F6與F4進(jìn)行級聯(lián)并經(jīng)過1×1卷積調(diào)整維度得到F7,然后將得到的F7傳入PPM2,得到最終的特征層用于分割操作。為便于理解,圖2中只顯示增加了一個維度上的特征融合,在實際應(yīng)用中可以根據(jù)實際需要進(jìn)行更多維度上的特征融合。
1.2.2 利用深度可分離卷積神經(jīng)網(wǎng)絡(luò)構(gòu)造輕量化模型
傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)通過卷積和池化等操作依次的產(chǎn)生從低到高不同維度的特征層,而其強(qiáng)大的特征提取能力是依靠網(wǎng)絡(luò)層數(shù)的不斷增加,這樣會導(dǎo)致模型參數(shù)量劇增,計算復(fù)雜度高。Howard等[15]提出的MobileNet網(wǎng)絡(luò),采用了深度可分離卷積代替?zhèn)鹘y(tǒng)卷積,在保持模型性能的同時大大減少了權(quán)重參數(shù),提高了運(yùn)算效率。在MobileNet網(wǎng)絡(luò)中,深度可分離卷積是基本組件,同時加入了batchnorm歸一化操作來提升網(wǎng)絡(luò)收斂速度,并使用Relu激活函數(shù)強(qiáng)化網(wǎng)絡(luò)訓(xùn)練。深度可分離卷積具體操作和MobileNet的網(wǎng)絡(luò)結(jié)構(gòu),如圖3所示。
圖3 “深度可分離卷積”和“MobileNet”網(wǎng)絡(luò)結(jié)構(gòu)
式中:表示卷積核的長度;和分別表示圖像的高和寬;in和out分別表示輸入圖像和輸出圖像的維度;和d分別表示普通卷積參數(shù)量和深度可分離卷積參數(shù)量。
與普通卷積不同,深度可分離卷積將普通的卷積過程分為了2個步驟,即深度卷積和逐點(diǎn)卷積。其中深度卷積使用不同的卷積和對輸入圖像的每個通道進(jìn)行卷積操作,而逐點(diǎn)卷積采用1×1的卷積核對輸入圖像進(jìn)行卷積操作。經(jīng)式(3)計算可得普通卷積參數(shù)量是深度可分離卷積參數(shù)量的通道數(shù)倍數(shù)。本文使用以深度可分離卷積為基礎(chǔ)的MobileNetV1網(wǎng)絡(luò)構(gòu)建主干特征提取器來改進(jìn)模型,旨在達(dá)到輕量化模型的效果,提高模型的運(yùn)算效率。
1.2.3 激活函數(shù)的改進(jìn)
在PSPnet模型中,無論是特征提取階段,還是模型中的其他階段均使用Relu作為激活函數(shù)。雖然Relu憑借其線性非飽和的形式,使得神經(jīng)網(wǎng)絡(luò)的訓(xùn)練速度加快,但Relu完全拋棄圖像中的負(fù)值特征,會使網(wǎng)絡(luò)學(xué)習(xí)能力偏低。不同于Relu,Swish激活函數(shù)[16]能夠提取負(fù)值特征信息,進(jìn)而保留更多的圖像特征。Relu函數(shù)和Swish函數(shù)結(jié)構(gòu),如圖4所示。
從圖4可以看出,Swish激活函數(shù)具有無上界有下界、平滑、非單調(diào)的性質(zhì)。其線性表示與Relu相似,具備Relu優(yōu)點(diǎn)的同時,能夠收集負(fù)值特征。因此本文使用Swish激活函數(shù)替換Relu激活函數(shù)的方式改進(jìn)模型,旨在訓(xùn)練出更加優(yōu)秀的分割模型,適用于前景和背景均比較復(fù)雜的無人機(jī)農(nóng)田場景圖像。
本文訓(xùn)練數(shù)據(jù)采用Aeroscapes數(shù)據(jù)集[17]。該數(shù)據(jù)集中的數(shù)據(jù)使用商業(yè)無人機(jī)從5~50 m高度范圍內(nèi)拍攝,包含3 269張720 p的真實圖像和語義標(biāo)簽,拍攝場景包括農(nóng)田、湖泊、橋梁等不同場景。其中的對象包含行人、自行車、汽車、無人機(jī)、動物、障礙物、船、建筑、植被、道路、天空等11個類別。本文利用該數(shù)據(jù)集的農(nóng)田場景圖像為研究對象(從數(shù)據(jù)集中篩選出農(nóng)田場景圖像623張),從中選取23張有代表性的圖像用于模型性能測試。剩余圖像做了以下數(shù)據(jù)增強(qiáng)操作:將原圖和標(biāo)注圖分別旋轉(zhuǎn):90度、180度、270度,將原圖和標(biāo)注圖沿垂直方向做鏡像操作。經(jīng)過數(shù)據(jù)增強(qiáng)后農(nóng)田場景圖像總數(shù)擴(kuò)增為2 400張,按照9∶1的比例將數(shù)據(jù)分為訓(xùn)練集和驗證集。
本文硬件環(huán)境為DELL7920工作站(包括2顆至強(qiáng)4210處理器,128 G內(nèi)存,1 T固態(tài)硬盤+4 T硬盤),搭載兩塊NVIDIA 1080ti顯卡(顯存22 G)。軟件環(huán)境:操作系統(tǒng)Ubuntu 20.04,采用tensorflow+keras深度學(xué)習(xí)框架。訓(xùn)練過程使用遷移學(xué)習(xí)的思想,下載相應(yīng)主干特征提取網(wǎng)絡(luò)MobileNet在ImageNet上的訓(xùn)練權(quán)重進(jìn)行特征提取。epoch為100次,學(xué)習(xí)率為0.000 1,batch_size為4。利用keras的回調(diào)函數(shù)ReduceLROnPlateau函數(shù)對訓(xùn)練過程中的學(xué)習(xí)率進(jìn)行優(yōu)化,并調(diào)用EarlyStopping函數(shù)對驗證集的損失函數(shù)進(jìn)行監(jiān)控,當(dāng)損失值不再減小時停止訓(xùn)練。
為驗證本文方法有效性,采用以下評價指標(biāo):平均像素準(zhǔn)確率(Mean Pixel Accuracy,)、平均交并比(Mean Intersection Over Union,)、訓(xùn)練時間等。具體表示如下:
1):表示圖像內(nèi)所有類的平均像素準(zhǔn)確率,計算如式(4)所示:
2):交并比(Intersection Over Union,)是指真實像素值和預(yù)測像素值2個集合的交集和并集之比。而平均交并比(Mean Intersection Over Union,表示圖像像素每個類的值累加后的平均值,計算如式(5)所示:
式中:表示像素的類別數(shù);p表示實際類別為、預(yù)測的類別也為的像素的數(shù)目;p表示實際類別為、預(yù)測的類別為的像素的數(shù)目;p表示實際類別為、預(yù)測的類別為的像素的數(shù)目。
3)訓(xùn)練時間:表示從訓(xùn)練開始到訓(xùn)練結(jié)束所用時間,可以評估模型運(yùn)行速度,以分鐘(min)為單位計算。
為了驗證模型有效性,在相同的訓(xùn)練參數(shù)下,將本文方法分別與Unet、DeeplabV3+、改進(jìn)前的PSPnet等傳統(tǒng)的語義分割模型分割結(jié)果進(jìn)行對比。實驗選擇對比的模型特點(diǎn)如下:Unet對不同維度特征級聯(lián),注重特征融合;DeeplabV3+采用擴(kuò)張卷積的方法擴(kuò)大卷積操作的感受野,注重場景解析;改進(jìn)前的PSPnet模型采用池化金字塔模塊作用于特征層,也是注重場景解析;本文的方法既注重不同維度的特征融合又注重場景解析,與其他3種方法對于農(nóng)田場景中常見的植物、道路、行人以及背景等對象的分割情況,如表1所示。
表1 不同模型下不同類別對象的平均交并比
由表1可知,本文方法對背景、植被、道路、行人等農(nóng)田場景中的常見對象分割,平均交并比達(dá)到了92.18%、96.34%、97.44%、70.87%,均優(yōu)于改進(jìn)前的PSPnet模型,并且均優(yōu)于Unet和DeeplabV3+模型的結(jié)果。所有模型在不同對象的分割結(jié)果上都呈現(xiàn)了“道路>植物>背景>行人”的趨勢,說明當(dāng)對象輪廓明顯或特征相對單一時分割比較容易,但是當(dāng)分割對象比較小或者比較復(fù)雜時分割相對困難。對于植物和道路等輪廓清晰、特征相對單一的對象,所有模型的都能夠達(dá)到90%以上,而本文方法更加有效,將其進(jìn)一步提升至96.34%和97.44%。對于背景(包括裸土、地膜、垃圾等)和行人(無人機(jī)農(nóng)田場景中的小對象),Unet、DeeplabV3+和改進(jìn)前的PSPnet的分割效果并不理想,而本文的構(gòu)建的多維度金字塔池化結(jié)構(gòu)融合了圖像多維度的特征,并對多維度特征融合后的結(jié)果進(jìn)行深度解析,將背景和行人的提升至92.18%和70.87%。說明對于復(fù)雜對象和小對象,本文構(gòu)建的多維度融合金字塔池化結(jié)構(gòu)的方法在分割過程中,能夠利用更多的細(xì)節(jié)特征,使分割更加精準(zhǔn)。
為了評價模型的整體性能,以下從平均像素準(zhǔn)確率()、平均交并比()和訓(xùn)練時間幾個方面對不同模型進(jìn)行評價。結(jié)果如表2所示。
表2 不同模型的評價參數(shù)
由表2可知,Unet、DeeplabV3+和PSPnet三者的比較中,Unet的分割效果較好,Unet在每次上采樣前對低維特征進(jìn)行級聯(lián),促進(jìn)了不同維度特征的融合,可以有效的收集無人機(jī)農(nóng)田場景中的各類小目標(biāo)和細(xì)節(jié)特征,但是訓(xùn)練時間較長;而DeeplabV3+和PSPnet二者均屬于注重場景解析的模型,在二者的比較中,PSPnet的分割效果較好,說明在無人機(jī)農(nóng)田場景下,金字塔池化模塊對圖像特征層解析更好;但是DeeplabV3+采用了以深度可分離卷積為基礎(chǔ)的Xception網(wǎng)絡(luò)作為主干特征提取器,訓(xùn)練時間比Unet和DeeplabV3+短,模型效率較高。本文的方法構(gòu)建了多特征融合的金字塔池化模塊,使模型既保證了對高維特征的深度解析,又實現(xiàn)了不同維度的特征融合,保留了更多的圖像細(xì)節(jié),在使用Relu激活函數(shù)時,分割結(jié)果比改進(jìn)前的PSPnet模型提高了10.04%和13.1%,并且均優(yōu)于Unet模型和DeeplabV3+模型。而且采用Swish激活函數(shù)后保留了更多的圖像特征,分割結(jié)果比使用Relu激活函數(shù)的模型進(jìn)一步提高了8.08%和5.83%。說明本文的方法對PSPnet的改進(jìn)是有效的。
在提升模型效率方面,本文使用以深度可分離卷積為基礎(chǔ)的MobileNetV1替代傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取,減少了模型的訓(xùn)練參數(shù),使模型輕量化,改進(jìn)后的模型訓(xùn)練時間減少49%。在模型收斂速度方面,本文方法的損失值變化趨勢如圖5所示,不同模型的損失值變化趨勢如圖6所示。而在不同模型損失變化對比中,為了使模型間的對比更具科學(xué)性,所有模型均使用交叉熵?fù)p失函數(shù),并且均不使用EarlyStopping函數(shù)使訓(xùn)練提前結(jié)束。
圖5 改進(jìn)PSPnet模型的損失值變化趨勢
圖6 不同模型的損失值變化趨勢對比
由圖5可知,在使用keras的EarlyStopping函數(shù)對驗證集進(jìn)行監(jiān)控,損失值不再減小則訓(xùn)練停止的情況下,改進(jìn)后的PSPnet模型經(jīng)過46輪訓(xùn)練即可達(dá)到收斂。綜合圖5、圖6可知,相對于其他3種方法,本文方法的損失值下降最快且最平穩(wěn),證明了本文方法更加高效。綜合表1、表2以及模型的損值失變化情況可知,本文無論分類別指標(biāo)還是整體指標(biāo)均優(yōu)于Unet、DeeplabV3+和改進(jìn)前的PSPnet,并且訓(xùn)練時間最短,效率最高,證明其更加適用于分辨率高且細(xì)節(jié)特征多的無人機(jī)農(nóng)田場景。
本文模型與其他模型在無人機(jī)農(nóng)田場景下的圖像分割視覺結(jié)果對比,如圖7所示?;诓煌呐臄z角度以及不同的拍攝距離,圖7選擇了6個不同的無人機(jī)農(nóng)田場景圖像進(jìn)行對比。
場景一場景二場景三場景四場景五場景六 原圖 標(biāo)記圖 Unet分割效果圖 DeeplabV3+分割效果圖 PSPnet分割效果圖 本文方法分割圖
在圖7所示的無人機(jī)農(nóng)田場景圖像中,既有輪廓較大的對象,如大片相連的植物、大面積的裸土等,又有輪廓較小的對象,如裸土中的細(xì)小植物等。由圖7可以看出,DeeplabV3+模型存在大對象分割不完整,小對象丟失的情況(如場景二中植物和裸地相間,未識別部分植物),并且在部分場景中存在過度分割(如場景五、場景六)。Unet模型能夠識別更多的圖像細(xì)節(jié)(如場景二中植物的行間裸土間隔較小,Unet的分割效果最好),但是對于大輪廓的裸土有邊緣丟失的現(xiàn)象(如場景五中部分植物未被正確分割)。PSPnet模型在大的輪廓下對不同對象間的分割效果更好,但是存在細(xì)節(jié)丟失(場景一至場景六中均存在小對象目標(biāo)丟失的情況)。相對而言,本文的方法在輪廓大的對象和輪廓小的對象分割方面都能夠達(dá)到最優(yōu)結(jié)果,分割結(jié)果更接近于標(biāo)注。
在無人機(jī)農(nóng)田場景中,由于圖像采集距離更接近地面,所以獲得的圖像往往分辨率較高。而且由于不同紋理、顏色等特征的對象可能被分為同一類,所以圖像的前景和背景都相對復(fù)雜。想要做到對無人機(jī)農(nóng)田場景的有效語義分割,必須同時考慮如何更多地利用圖像細(xì)節(jié)以及如何提高分割模型的效率,本文針對這2個問題對PSPnet語義分割模型進(jìn)行了改進(jìn),取得了一定的進(jìn)步,但是仍有相應(yīng)的不足。
本文借鑒了Unet模型不同維度間特征級聯(lián)的操作,構(gòu)建了多特征融合的金字塔池化模塊,在使用特征金字塔模塊對高維特征層進(jìn)行解析后對低維度的特征進(jìn)行級聯(lián),然后再次傳入特征金字塔模塊進(jìn)行場景解析。這個操作使模型既保留了圖像高維特征層中包含的語義特征,又保留了圖像低維特征層中的細(xì)節(jié)特征,同時又保證了對所有信息的充分解讀。
從不同模型間的對比結(jié)果看,Unet模型的分割效果優(yōu)于PSPnet模型和DeeplabV3+模型,說明特征融合在無人機(jī)農(nóng)田場景圖像的語義分割中成效明顯。而本文的方法正是利用了特征融合的方法改進(jìn)PSPnet模型,使改進(jìn)后的模型能夠進(jìn)行充分的場景解析的同時獲取更多的細(xì)節(jié)特征,另外在激活函數(shù)方面使用可以收集負(fù)值特征的Swish替換Relu,使模型能夠更多的收集圖像細(xì)節(jié)。由表1、表2可知,改進(jìn)后的模型在與改進(jìn)前的PSPnet、Unet和DeeplabV3+等模型的比較中取得了最好的結(jié)果。
不足之處有以下幾個方面:首先對于構(gòu)建的多維度特征融合的金字塔池化模塊,改進(jìn)的方向只是使用了特征融合,并未對PSPnet模型的場景解析模式進(jìn)行深層次的改進(jìn);在激活函數(shù)方面,考慮到要對圖像負(fù)值特征進(jìn)行收集,但是僅采用了單一的Swish函數(shù)進(jìn)行試驗,并未對更多的激活函數(shù)做出嘗試。針對這2項不足,在接下來的工作中會從改進(jìn)圖像場景解析模式的角度進(jìn)行更多嘗試,使模型更加精準(zhǔn)。
本文使用以深度可分離卷積為基礎(chǔ)的MobileNet對模型進(jìn)行輕量化改進(jìn),使模型參數(shù)量減少,以此來提高模型效率,另外使用EarlyStopping函數(shù)來節(jié)省模型訓(xùn)練時間。由表2、圖5可知,輕量化改進(jìn)后的模型訓(xùn)練時間只占改進(jìn)前的49%,在EarlyStopping函數(shù)的情況下模型經(jīng)過46輪訓(xùn)練即可收斂,模型效率大大提高。圖6中的試驗結(jié)果可知,相比于Unet、PSPnet和DeeplabV3+,本文的模型訓(xùn)練時間最短且收斂速度最快。不足之處是對于深度可分離卷積,本文僅使用了谷歌公司2017年提出的MobileNetV1來提高模型效率,而在深度可分離卷積的應(yīng)用發(fā)展方面,已經(jīng)擁有了MobileNetV2、MobileNetV3等不同版本的MobileNet,而本文并未做更多嘗試。
綜上,相比于文中提及的幾種深度學(xué)習(xí)語義分割模型,本文方法更加適合于無人機(jī)農(nóng)田場景下,但是依然有改進(jìn)的空間。下一步將針對上述問題開展更多對比試驗,嘗試改進(jìn)圖像場景解析模式,并拓展更多激活函數(shù)和深度可分離卷積用法,使模型更加精準(zhǔn)高效。
通過構(gòu)造多維度特征融合的金字塔池化結(jié)構(gòu),利用深度可分離卷積輕量化分割模型,修改激活函數(shù)等3方面改進(jìn)了PSPnet語義分割模型。將平均像素準(zhǔn)確率和平均交并比等指標(biāo)提高至89.48%和82.38%,訓(xùn)練時間縮短為改進(jìn)前的49%,且模型收斂速度最快。雖然本文的方法在分割準(zhǔn)確率和分割效率上取得了一些進(jìn)步,但是由于對比試驗較少,在網(wǎng)絡(luò)結(jié)構(gòu)、深度可分離卷積應(yīng)用以及激活函數(shù)應(yīng)用等方面,依然有改進(jìn)的空間。
[1] 韓文霆, 郭聰聰, 張立元, 等. 基于無人機(jī)遙感的灌區(qū)土地利用與覆被分類方法[J]. 農(nóng)業(yè)機(jī)械學(xué)報, 2016, 47(11): 270-277.
HAN Wenting, GUO Congcong, ZHANG Liyuan, et al. Classification method of land cover and irrigated farm land use based on UAV remote sensing in irrigation[J]. Transactions of the Chinese Society for Agricultural Machinery, 2016, 47(11): 270-277.
[2] 戴建國, 張國順, 郭鵬, 等. 基于無人機(jī)遙感可見光影像的北疆主要農(nóng)作物分類方法[J]. 農(nóng)業(yè)工程學(xué)報, 2018, 34(18): 122-129.
DAI Jianguo, ZHANG Guoshun, GUO Peng, et al. Classification method of main crops in northern Xinjiang based on UAV visible waveband images[J]. Transactions of the CSAE, 2018, 34(18): 122-129.
[3] WU M Q, YANG C H, SONG X Y, et al. Evaluation of orthomosics and digital surface models derived from aerial imagery for crop type mapping[J]. Remote Sensing, 2017, 9(3): 239.
[4] 劉丹, 劉學(xué)軍, 王美珍. 一種多尺度CNN的圖像語義分割算法[J]. 遙感信息, 2017, 32(1): 57-64.
LIU Dan, LIU Xuejun, WANG Meizhen. Semantic segmentation with multi-scale convolutional neural network[J]. Remote Sensing Information, 2017, 32(1): 57-64.
[5] 楊麗麗, 陳炎, 田偉澤, 等. 田間道路改進(jìn)UNet分割方法[J]. 農(nóng)業(yè)工程學(xué)報, 2021, 37(9): 185-191.
YANG Lili, CHEN Yan, TIAN Weize, et al. Field road segmentation method based on improved UNet[J]. Transactions of the Chinese Society of Agricultural Engineering, 2021, 37(9): 185-191.
[6] YANG Q C, LIU M, ZHANG Z T, et al. Mapping plastic mulched farmland for high resolution images of unmanned aerial vehicle using deep semantic segmentation[J]. Remote Sensing, 2019, 11(17): 2 008.
[7] 楊蜀秦, 宋志雙, 尹瀚平, 等. 基于深度語義分割的無人機(jī)多光譜遙感作物分類方法[J]. 農(nóng)業(yè)機(jī)械學(xué)報, 2021, 52(3): 185-192.
YANG Shuqin, SONG Zhishuang, YIN Hanping, et al. Crop classification method of UVA multispectral remote sensing based on deep semantic segmentation[J]. Transactions of the Chinese Society for Agricultural Machinery, 2021, 52(3): 185-192.
[8] 李云伍, 徐俊杰, 劉得雄, 等. 基于改進(jìn)空洞卷積神經(jīng)網(wǎng)絡(luò)的丘陵山區(qū)田間道路場景識別[J]. 農(nóng)業(yè)工程學(xué)報, 2019, 35(7): 150-159.
LI Yunwu, XU Junjie, LIU Dexiong, et al. Field road scene recognition in hilly regions based on improved dilated convolutional networks[J]. Transactions of the Chinese Society of Agricultural Engineering, 2019, 35(7): 150-159.
[9] 易詩, 李俊杰, 賈勇. 基于紅外熱成像的夜間農(nóng)田實時語義分割[J]. 農(nóng)業(yè)工程學(xué)報, 2020, 36(18): 174-180.
YI Shi, LI Junjie, JIA Yong. Real-time semantic segmentation of farmland at night using infrared thermal imaging[J]. Transactions of the Chinese Society of Agricultural Engineering, 2020, 36(18): 174-180.
[10] LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 39(4): 640-651.
[11] RONNEBERGER O, FISCHER P, BROX T. U-net: Convolutional networks for biomedical image segmentation[C]//Medical Image Computing and Computer-Assisted Intervention - MICCAI 2015, 2015: 234-241.
[12] CHEN L C, ZHU Y K, PAPANDREOU G, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation[C]// Computer Vision - ECCV 2018, 2018: 833-851.
[13] ZHAO H S, SHI J P, QI X J, et al. Pyramid Scene Parsing Network[J]. IEEE Computer Society, 2016: 6 230-6 239.
[14] LIN T Y, DOLLáR P, GIRSHICK R, et al. Feature pyramid networks for object detection [EB/OL]. 2016: arXiv: 1612.03144 [cs.CV]. https://arxiv.org/abs/1612.03144
[15] HOWARD A G, ZHU M L, CHEN B, et al. MobileNets: Efficient convolutional neural networks for mobile vision applications[EB/OL]. 2017.
[16] RAMACHANDRAN P, ZOPH B, LE Q V. Searching for activation functions[EB/OL]. 2017: arXiv: 1710.05941 [cs.NE]. https://arxiv.org/abs/1710.05941
[17] NIGAM I, HUANG C, RAMANAN D. Ensemble knowledge transfer for semantic segmentation[C]//IEEE Winter Conference on Applications of Computer Vision. IEEE, 2018.
An Improved PSPnet Model for Semantic Segmentation of UAV Farmland Images
LIU Shangwang1,3, ZHANG Yangyang1,2,3, CAI Tongbo1,3, TANG Xiufang1,3, WANG Changgeng1,3
(1. College of computer and information engineering, Henan Normal University, Xinxiang 453007, China;2. Farmland Irrigation Research Institute, Chinese Academy of Agricultural Sciences, Xinxiang 453002, China;3. Henan Engineering Laboratory of ‘Smart Business and Internet of Things Technology’, Xinxiang 453007, China)
【】Deep Learning is an important method in artificial intelligence but has limited applications in agriculture. This paper aims to fill this technology gap based on farmland images acquired using unmanned aerial vehicle (UAV) and the PSPnet segmentation method. 【】Different dimensional features in the UAV images were concatenated based on the principle of preserving as many detailed image features as possible via the enhanced scene analysis. A lightweight semantic segmentation model was built using the deep separable convolution module. Finally, the activation function was replaced to improve the segmentation effect of the model. 【】Experimental results show that the mean pixel accuracy and the mean intersection over the union of our proposed method are 89.48% and 82.36%, respectively, and their associated segmentation accuracy was improved by 18.12% and 18.93%, respectively. Overall, the segmentation of the proposed method was better than that of Unet and DeeplabV3+.【】The proposed method can effectively segment the farmland images acquired by UAV.
PSPnet; semantic segmentation; feature concatenate; deep separable convolution; activation function
1672 - 3317(2022)04 - 0101 - 08
TP753
A
10.13522/j.cnki.ggps.2021406
劉尚旺, 張楊楊, 蔡同波, 等. 基于改進(jìn)PSPnet的無人機(jī)農(nóng)田場景語義分割[J]. 灌溉排水學(xué)報, 2022, 41(4): 101-108.
LIU Shangwang, ZHANG Yangyang, CAI Tongbo, et al. An Improved PSPnet Model for Semantic Segmentation of UAV Farmland Images[J]. Journal of Irrigation and Drainage, 2022, 40(4): 101-108.
2021-08-26
河南省高等學(xué)校重點(diǎn)科研項目(21A520022)
劉尚旺,男。副教授,博士,主要研究方向為計算機(jī)視覺、圖像處理。E-mail: shwl08@126.com
責(zé)任編輯:趙宇龍