羅鑫 王艷艷 劉學(xué)淵 李加強(qiáng) 楊漢蛟 何超
摘要:為實(shí)現(xiàn)對林地澳洲堅(jiān)果的準(zhǔn)確檢測,以園林環(huán)境下的澳洲堅(jiān)果為研究對象,提出一種基于深度學(xué)習(xí)的檢測模型。在Faster R-CNN基礎(chǔ)上搭建檢測模型,對比VGG16、Resnet-50、Resnet-101等多種主干網(wǎng)絡(luò)的特征提取性能,在Resnet-50網(wǎng)絡(luò)的基礎(chǔ)上構(gòu)建特征金字塔網(wǎng)絡(luò)(Feature Pyramid Network, FPN)結(jié)構(gòu),并使用雙線性插值ROI Align替換原來的ROI Pooling池化,提高模型對小尺寸物體的檢測效果。結(jié)果表明,改進(jìn)的Faster R-CNN模型能有效檢測出復(fù)雜場景中的林地澳洲堅(jiān)果目標(biāo),其檢測精度達(dá)到98.89%,相比原始方法提高6.56 %,與SSD、YOLO v3等目標(biāo)檢測算法相比有明顯的精度優(yōu)勢。該研究充分表明該模型對園林下的澳洲堅(jiān)果有良好的檢測效果,且具有檢測精度高、魯棒性強(qiáng)的優(yōu)點(diǎn)。
關(guān)鍵詞:澳洲堅(jiān)果;目標(biāo)檢測;深度學(xué)習(xí);Faster R-CNN;特征金字塔網(wǎng)絡(luò)
中圖分類號:S776.01文獻(xiàn)標(biāo)識碼:A文章編號:1006-8023(2023)02-0113-08
Macadamia integrifolia Detection and Recognition in
Orchards Based on Deep Learning
LUO Xin1, WANG Yanyan1, LIU Xueyuan1, LI Jiaqiang1, YANG Hanjiao2, HE Chao1,2*
(1.School of Machinery and Transportation, Southwest Forestry University, Kunming 650224, China;
2.Dehong Vocational College, Dehong 678400, China)
Abstract:For accurate detection of Macadamia integrifolia in orchards, this paper proposed a deep learning-based detection model and took Macadamia integrifolia in the orchard as the research object. The detection model was built based on the Faster R-CNN algorithm, and the feature extraction performance of various backbone networks such as VGG16, Resnet-50 and Resnet-101 was compared. The Feature Pyramid Network (FPN) structure was constructed based on Resnet-50 and the original ROI Pooling was replaced by the ROI Align method, which effectively improved the detection performance of the model for small-sized objects. The results showed that the improved Faster R-CNN model could effectively detect the Macadamia integrifolia in complex scenes with a detection accuracy of 98.89%, an improvement of 6.56 % compared to the original method, and a significant accuracy advantage over other detection methods such as SSD and YOLO v3. It showed that the proposed model was good for detecting Macadamia integrifolia in orchards with high accuracy and strong robustness.
Keywords:Macadamia integrifolia; object detection; deep learning; Faster R-CNN; Feature Pyramid Network
收稿日期:2022-08-07
基金項(xiàng)目:國家自然科學(xué)基金項(xiàng)目(51968065);云南省教育廳科學(xué)研究基金項(xiàng)目(2022Y571);云南省高層次人才培養(yǎng)支持基金項(xiàng)目(YNWR-QNBJ-2018-066, YNQR-CYRC-2019-001)
第一作者簡介:羅鑫,碩士研究生。研究方向?yàn)榱止繕?biāo)檢測。E-mail:luox9707@163.com
*通信作者:何超,博士,教授。研究方向?yàn)闄C(jī)器視覺、新能源汽車。E-mail:hcsmile@163.com
引文格式:羅鑫,王艷艷,劉學(xué)淵,等.基于深度學(xué)習(xí)的林地澳洲堅(jiān)果檢測識別[J].森林工程,2023,39(2):113-120.
LUO X, WANG Y Y, LIU X Y, et al. Macadamia integrifolia detection and recognition in orchards based on deep learning[J]. Forest Engineering, 2023,39(2):113-120.
0引言
澳洲堅(jiān)果(Macadamia integrifolia)是經(jīng)濟(jì)價值較高的食用干果之一,在我國云南、廣西等地廣泛種植[1];截至2020年,云南澳洲堅(jiān)果種植面積超26.6萬hm2,種植面積位居世界第一[2]。及時、高效地采收是確保澳洲堅(jiān)果產(chǎn)品質(zhì)量的關(guān)鍵。澳洲堅(jiān)果成熟后自然掉落,需要迅速收集并烘干保存,以防產(chǎn)生霉變[3-4]?,F(xiàn)階段的澳洲堅(jiān)果采收仍然依賴于大量的人工,隨著種植面積不斷擴(kuò)大,人工采收的成本將越來越高,果農(nóng)也將面臨更高強(qiáng)度的采收勞動作業(yè)。
農(nóng)林機(jī)械和自動化技術(shù)是提高生產(chǎn)力和產(chǎn)品質(zhì)量的有效方法,可以有效緩解季節(jié)性的勞動力短缺,也是現(xiàn)代農(nóng)林業(yè)的發(fā)展趨勢[5]。目標(biāo)檢測技術(shù)作為實(shí)現(xiàn)自動化采收的關(guān)鍵技術(shù),主要分為基于特征算子的傳統(tǒng)圖像處理方法和基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的深度學(xué)習(xí)方法。園林環(huán)境中的光照條件、遮擋狀況和復(fù)雜背景等因素會嚴(yán)重影響檢測效果,這也是傳統(tǒng)圖像處理方法難以克服的問題[6]。近年來,隨著以卷積神經(jīng)網(wǎng)絡(luò)為主的深度學(xué)習(xí)方法的應(yīng)用,目標(biāo)檢測性能得到顯著提高[7-9]。
目前已有許多國內(nèi)外學(xué)者利用深度學(xué)習(xí)算法進(jìn)行農(nóng)林產(chǎn)物的目標(biāo)檢測研究。在目標(biāo)檢測領(lǐng)域常用的深度學(xué)習(xí)方法主要包括以YOLO算法為代表的一階段檢測算法和以Faster R-CNN算法為代表的兩階段檢測算法。Suo等 [10]利用YOLO v3、YOLO v4算法實(shí)現(xiàn)對獼猴桃的檢測識別,檢測精度分別為91.1%、91.9%,對單幅圖像的檢測耗時分別為21.7、25.5 ms,YOLOv4的檢測精度較高,但是對單幅圖像的檢測耗時明顯增加,二者的檢測性能較為接近。Zhang等 [11]采集了大量的大豆葉部病害圖像并建立大豆葉病害檢測數(shù)據(jù)集,使用Faster R-CNN算法實(shí)現(xiàn)了大豆葉部病害的檢測識別,對細(xì)菌性斑點(diǎn)病等常見葉部病害的平均檢測精度達(dá)到83.34%,但對于復(fù)雜場景下的葉部病害檢測效果不好。Parvathi等 [12]利用Faster R-CNN檢測椰果的成熟程度,對比多種深度學(xué)習(xí)檢測方法,F(xiàn)aster R-CNN達(dá)到89.4%的最高檢測精度,試驗(yàn)表明Faster R-CNN適用于椰果的成熟度檢測,對復(fù)雜背景下的小尺度個體也有較強(qiáng)的檢測能力。樊湘鵬等[13]以VGG16作為Faster R-CNN的主干網(wǎng)絡(luò),并在卷積層加入批歸一化處理對原算法進(jìn)行改進(jìn),實(shí)現(xiàn)了園林環(huán)境下的青皮核桃的檢測識別,檢測精度達(dá)到91.25%,但是沒有與其他算法進(jìn)行對比,缺乏客觀全面的性能分析。
基于深度學(xué)習(xí)的目標(biāo)檢測技術(shù)在農(nóng)林領(lǐng)域已有廣泛應(yīng)用,但是針對澳洲堅(jiān)果檢測識別的相關(guān)研究較少,也缺少用于澳洲堅(jiān)果檢測的圖像數(shù)據(jù)集。因此,本研究以云南德宏地區(qū)為主要研究區(qū)域,采集大量的林地澳洲堅(jiān)果圖像并制作目標(biāo)檢測數(shù)據(jù)集,基于深度學(xué)習(xí)方法搭建目標(biāo)檢測模型,實(shí)現(xiàn)了園林環(huán)境中的澳洲堅(jiān)果檢測,為堅(jiān)果自動化采收提供目標(biāo)檢測技術(shù)支持。
1材料與方法
1.1研究區(qū)域
本研究為實(shí)現(xiàn)澳洲堅(jiān)果的檢測識別,采集了云南部分地區(qū)的堅(jiān)果圖像,建立了澳洲堅(jiān)果目標(biāo)檢測圖像數(shù)據(jù)集。研究區(qū)域主要為云南德宏芒市地區(qū)(97°31′~ 98°43′E, 23°50′~25°20′N),是云南省澳洲堅(jiān)果主要種植區(qū)之一。澳洲堅(jiān)果在溫度為20~25 ℃、年降水量不少于1 000 mm和海拔800~1 200 m的地方生長,產(chǎn)量最高[14];德宏州境內(nèi)多數(shù)地區(qū)的海拔為800~1 300 m,年均氣溫18.4~20.3 ℃,年降水量1 436~1 709 mm,地形以山地為主,光照充足,是比較理想的澳洲堅(jiān)果種植地[15]。先后選取了帕底(海拔800 m,山地陡坡為主)、遮放(海拔880 m,山地緩坡為主)、三臺山(海拔1 200 m,山地緩坡為主)等地區(qū)的澳洲堅(jiān)果種植園進(jìn)行數(shù)據(jù)采集,區(qū)域內(nèi)的樹種主要包含O.C(Own Choice)、農(nóng)試344(Kau)、A16(Hidden Valley A16)等,樹齡為8~12年,是比較有代表性的澳洲堅(jiān)果種植區(qū)域。
1.2圖像數(shù)據(jù)集
圖像采集在2021年7—9月進(jìn)行,在自然光照條件下,選擇晴天、陰天和雨天等不同天氣狀況,于9:00—12:00、14:00—18:00進(jìn)行圖像采集。拍攝時,相機(jī)距離澳洲堅(jiān)果0.5~1.0 m,離地距離在1.0~1.5 m,相機(jī)與水平方向的夾角為45°~90°,在多個方向進(jìn)行拍攝采集,最終得到2 170幅圖像,圖像分辨率處理為768×576(保持寬高比4∶3不變),數(shù)據(jù)集樣本統(tǒng)計(jì)結(jié)果見表1,部分圖像如圖1所示。
1.3數(shù)據(jù)處理與數(shù)據(jù)增強(qiáng)
利用LabelImg圖像標(biāo)注軟件對數(shù)據(jù)集進(jìn)行標(biāo)注,按照PASCAL VOC2007格式儲存標(biāo)注信息,并按照8∶1∶1的比例將數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集和測試集。
卷積神經(jīng)網(wǎng)絡(luò)需要大量的圖像數(shù)據(jù)才能有效地提取出待檢測物的圖像特征[16]。使用數(shù)據(jù)增強(qiáng)方法能有效擴(kuò)充圖像數(shù)據(jù)集,避免過擬合問題,提高檢測模型的泛化能力[17],因此,本研究使用了幾何變換、顏色調(diào)整等數(shù)據(jù)增強(qiáng)方法對圖像數(shù)據(jù)進(jìn)行擴(kuò)充,圖像增強(qiáng)效果如圖2所示,擴(kuò)充后的數(shù)據(jù)集共包含17 360幅圖像。
1.4Faster R-CNN檢測算法及其改進(jìn)
Faster R-CNN[18]是一種典型的端到端的二階段目標(biāo)檢測方法,主要分為候選區(qū)域生成階段和目標(biāo)檢測階段。Faster R-CNN檢測模型結(jié)構(gòu)如圖3所示,輸入圖像經(jīng)過主干網(wǎng)絡(luò)提取特征信息并生成特征圖,候選區(qū)域生成網(wǎng)絡(luò)以特征圖作為輸入,使用一系列固定尺寸的先驗(yàn)框在特征圖上進(jìn)行區(qū)域搜索,初步判斷先驗(yàn)框內(nèi)是否存在目標(biāo)物并得到待檢測物的相對位置,對先驗(yàn)框進(jìn)行篩選得到若干候選框并將其映射回特征圖;候選框在特征圖上的對應(yīng)區(qū)域?yàn)楦信d趣區(qū)域(Region of Interests, ROIs),通過特征圖池化將感興趣區(qū)域ROIs縮放到統(tǒng)一尺寸并作為分類器的輸入,使用softmax分類函數(shù)判定區(qū)域內(nèi)物體的所屬類別,并使用邏輯回歸函數(shù)得出物體的準(zhǔn)確位置,最終得出檢測結(jié)果。
澳洲堅(jiān)果個體在圖像中的像素占比較小,這些小目標(biāo)個體的特征模糊,易導(dǎo)致漏檢;此外,園林地面環(huán)境較為復(fù)雜,有許多顏色、形狀與澳洲堅(jiān)果相近的干擾物,容易導(dǎo)致錯誤識別。為提高模型的檢測識別精度,本研究對原始Faster R-CNN模型進(jìn)行改進(jìn)。
1.4.1構(gòu)建特征金字塔網(wǎng)絡(luò)結(jié)構(gòu)
輸入圖像經(jīng)過主干網(wǎng)絡(luò)生成一系列的特征圖。深層特征圖有豐富的語義信息,但缺乏空間信息;淺層特征圖的空間信息豐富,但語義信息較為缺乏[19]。在原始Faster R-CNN模型中只使用深層特征圖進(jìn)行目標(biāo)檢測,導(dǎo)致模型對澳洲堅(jiān)果小目標(biāo)個體的檢測效果不佳。本研究在主干網(wǎng)絡(luò)上構(gòu)建特征金字塔網(wǎng)絡(luò)結(jié)構(gòu) [20],將底層特征圖和高層特征圖進(jìn)行特征融合以提高模型對小目標(biāo)個體的檢測能力。
FPN結(jié)構(gòu)主要分為3個部分,如圖4所示,左側(cè)的主干網(wǎng)絡(luò)部分用于提取不同尺度的特征圖(C1、C2、C3、C4、C5),中間的橫向連接部分主要用于統(tǒng)一特征圖的尺度,便于進(jìn)行特征圖拼接,右側(cè)的特征增強(qiáng)部分用于特征圖融合,生成新的特征圖(P2、P3、P4、P5、P6),作為后續(xù)的區(qū)域生成網(wǎng)絡(luò)和分類器的輸入;其中,conv1、conv2_x、…、conv5_x是主干網(wǎng)絡(luò)Resnet-50的子模塊,M2、M3、M4、M5是經(jīng)過特征拼接得到的特征圖,P2、P3、…、P6是提取得到的新特征圖,RPN_P2、RPN_P3、…、RPN_P6指的是與P2、P3、…、P6對應(yīng)的區(qū)域生成網(wǎng)絡(luò)。
1.4.2ROI Align池化
為了提高模型的檢測準(zhǔn)確度,本研究使用ROIAlign替換原來的ROIpooling方法。原Faster R-CNN算法在池化過程使用的ROIpooling函數(shù)包含了2次量化取整操作,這導(dǎo)致候選框位置發(fā)生偏差,會影響目標(biāo)物的定位精度,此外,量化取整導(dǎo)致浮點(diǎn)位置處的特征信息丟失,將影響檢測精度[21]。ROIAlign利用雙線性插值法進(jìn)行池化運(yùn)算,保留了浮點(diǎn)位置處的特征信息,避免了因量化取整而引起的候選框位置偏差,可以獲得更加準(zhǔn)確的目標(biāo)檢測效果。
2結(jié)果與分析
2.1試驗(yàn)環(huán)境及訓(xùn)練參數(shù)
本試驗(yàn)在ubuntu 18.04 LTS操作系統(tǒng)(64位)中運(yùn)行,處理器(CPU)為Intel Core i7-9700@3.40 GHz,運(yùn)行內(nèi)存為64 GB;顯卡(GPU)采用NVIDIA GeForce RTX 2080 SUPER,8 GB顯存;編程語言使用Python3.8,采用Pytorch1.10開源深度學(xué)習(xí)框架,使用Anaconda3進(jìn)行環(huán)境配置并安裝了CUDA11.1.0運(yùn)算構(gòu)架和cuDNN8.0.5.39深度學(xué)習(xí)加速庫。
使用基于VOC數(shù)據(jù)集的預(yù)訓(xùn)練權(quán)重進(jìn)行模型訓(xùn)練,利用預(yù)訓(xùn)練權(quán)重對網(wǎng)絡(luò)參數(shù)進(jìn)行初始化,再利用本研究構(gòu)建的澳洲堅(jiān)果數(shù)據(jù)集對檢測網(wǎng)絡(luò)進(jìn)行微調(diào)。使用帶有動量參數(shù)的隨機(jī)梯度下降法(SGD)對檢測模型進(jìn)行參數(shù)優(yōu)化,動量Momentum=0.9,初始學(xué)習(xí)率為lr=0.005,每3個epoch進(jìn)行一次學(xué)習(xí)率衰減,衰減倍率因子gamma=0.33,batch_size=4。
2.2模型評價指標(biāo)
為了評價模型對澳洲堅(jiān)果目標(biāo)的檢測識別效果,選取平均精度(Average Precision,AP,公式中用AP表示)作為模型檢測精度的評價指標(biāo),通常用于表示某一個檢測模型在特定數(shù)據(jù)集上的檢測精度;選取單幅圖像檢測耗時作為模型檢測速度的評價指標(biāo)。模型的平均精度AP與精準(zhǔn)度(Precision,公式中用Pre表示)、召回率(Recall,公式中用Re表示)有關(guān),召回率反映了檢測器對正樣本的覆蓋能力,精準(zhǔn)度反映檢測器預(yù)測正樣本的精準(zhǔn)度,計(jì)算公式如下。
Pre=TPTP+FP。(1)
Re=TPTP+FN。(2)
式中:TP為被正確地檢測為堅(jiān)果的正樣本的數(shù)量;FP為被錯誤地檢測為堅(jiān)果的正樣本的數(shù)量;FN為被正確地檢測為其他物體的負(fù)樣本的數(shù)量。
每個交并比(Intersection Over Union,IOU,公式中用Iou表示)閾值有對應(yīng)的精準(zhǔn)度和召回率,通過選取不同的Iou閾值,可繪制出模型的精準(zhǔn)度-召回率曲線(P-R曲線)。交并比Iou的計(jì)算公式為
IOU=A(Bpred∩Btruth)A(Bpred∪Btruth)。(3)
式中:A為面積函數(shù);Bpred為預(yù)測邊界框;Btruth為真實(shí)邊界框。
平均精度AP等于P-R曲線與橫縱坐標(biāo)軸之間圍成的面積大小,計(jì)算公式為
AP=∫10Pre·Red(Re)。(4)
2.3結(jié)果與分析
2.3.1主干網(wǎng)絡(luò)對模型性能的影響
不同的主干網(wǎng)絡(luò)對輸入圖像的處理方式不一致。本研究從數(shù)據(jù)集中選取1 200張圖片用于模型訓(xùn)練,目的是探究VGG16[22]、Resnet-50、Resnet-101[23]等不同主干網(wǎng)絡(luò)對檢測模型性能的影響,并作為改進(jìn)Faster R-CNN模型的試驗(yàn)依據(jù)。
主干網(wǎng)絡(luò)對Faster R-CNN模型的影響見表2,由表2可以看出,使用VGG16作為檢測模型的主干網(wǎng)絡(luò)時,其檢測精度與Resnet網(wǎng)絡(luò)相比無明顯優(yōu)勢,而使用VGG16網(wǎng)絡(luò)的檢測耗時比Resnet網(wǎng)絡(luò)高出近60%,這是因?yàn)閂GG16網(wǎng)絡(luò)中采用了大量的3×3卷積核并包含了3個全連接層,導(dǎo)致VGG網(wǎng)絡(luò)參數(shù)較多,圖像檢測的耗時較長。與Resnet-50相比,Resnet-101網(wǎng)絡(luò)的深度更深,模型參數(shù)較多,有更強(qiáng)的特征提取能力。然而,從表2的試驗(yàn)結(jié)果來看,兩者的檢測模型精度基本相同,但是Resnet-101的檢測耗時明顯增加。綜合來看,使用Resnet-50作為模型的主干網(wǎng)絡(luò)有較好的檢測性能。
使用不同主干網(wǎng)絡(luò)對同一圖片進(jìn)行檢測,檢測效果如圖5所示,VGG16網(wǎng)絡(luò)對環(huán)境中的干擾物體的區(qū)分辨別能力較弱,并存在明顯的錯誤識別現(xiàn)象。由圖5(a)可知,在第一行圖片中,VGG16網(wǎng)絡(luò)將地上的青色石塊錯誤檢測為堅(jiān)果;在第二行圖片中,VGG16網(wǎng)絡(luò)將右上角的落葉錯誤檢測為堅(jiān)果。而Resnet-50和Resnet-101的檢測效果較為接近,僅在檢測結(jié)果的置信度方面有細(xì)微差異。通過對比多種主干網(wǎng)絡(luò)對模型檢測精度和檢測時間的影響,并結(jié)合不同主干網(wǎng)絡(luò)對澳洲堅(jiān)果的實(shí)際檢測效果,本研究最終選擇Resnet50網(wǎng)絡(luò)作為改進(jìn)Faster R-CNN模型的主干網(wǎng)絡(luò)。
2.3.2不同改進(jìn)方式對模型性能的影響
為提高檢測模型對林地澳洲堅(jiān)果的檢測能力,本研究在原始Faster R-CNN基礎(chǔ)上進(jìn)行了改進(jìn)。在Resnet-50主干網(wǎng)絡(luò)基礎(chǔ)上構(gòu)建特征金字塔網(wǎng)絡(luò)結(jié)構(gòu),并將原來的ROI Pooling池化方式替換為采用雙線性插值的ROI Align。由圖6可知,2種改進(jìn)方式對檢測模型精度均有一定程度的提升。采用特征金字塔網(wǎng)絡(luò)結(jié)構(gòu)的檢測模型有較高的檢測精度,P-R曲線與坐標(biāo)軸圍成的面積最大;采用ROI Align池化的檢測模型P-R曲線在原始Faster R-CNN之上,表明換用ROI Align對模型的檢測精度也有一定提升。
不同改進(jìn)方式對模型性能的影響見表3,原Faster R-CNN的檢測精度為92.04%,構(gòu)建FPN結(jié)構(gòu)使檢測精度提高了2.8 %;采用ROI Align替換原有的池化方式使檢測精度提高了近1個百分點(diǎn)。在檢測速度方面,2種改進(jìn)方式均導(dǎo)致模型的檢測時間有所增加,但依然保持較快的檢測速度。通過實(shí)驗(yàn)對比可以看出,構(gòu)建FPN結(jié)構(gòu)和采用ROI Align池化有助于進(jìn)一步提高檢測模型的性能。
2.3.3改進(jìn)Faster R-CNN模型的檢測性能
對比了不用主干網(wǎng)絡(luò)和不同改進(jìn)方式對Faster R-CNN檢測性能的影響,確定了以Resnet-50為最佳主干網(wǎng)絡(luò),在Resnet-50的基礎(chǔ)上構(gòu)造特征金字塔網(wǎng)絡(luò)結(jié)構(gòu)并用ROI Align替換原來的池化方式。在數(shù)據(jù)增強(qiáng)圖像數(shù)據(jù)集上進(jìn)行改進(jìn)Faster R-CNN模型的訓(xùn)練,并與SSD[24]、YOLO v3[25]等檢測模型進(jìn)行性能對比。
交并比(IOU)代表預(yù)測結(jié)果與真實(shí)結(jié)果的重合度,在模型評估時選取的IOU數(shù)值越大對模型預(yù)測的準(zhǔn)確度要求越高。由表4分析得出,在不同IOU值條件下,改進(jìn)模型的檢測精度均高于原始Faster R-CNN、SSD和YOLO v3等方法。當(dāng)IOU=0.50時,改進(jìn)模型的檢測精度相對原始方法提升了6.85%,相對于SSD、YOLO v3等方法提高了8個百分點(diǎn),在檢測精度方面有明顯的優(yōu)勢。由表5可以看出,改進(jìn)Faster R-CNN模型對不同尺度物體的檢測精度明顯高于原始Faster R-CNN、SSD和YOLO v3等方法。相對于原始Faster R-CNN方法,改進(jìn)模型對小目標(biāo)物體(區(qū)域面積小于 322)的檢測精度提高了15個百分點(diǎn),對圖像中的中、小型物體有更強(qiáng)的檢測性能。
澳洲堅(jiān)果體積小并且沒有明顯的外觀特征,離鏡頭遠(yuǎn)的堅(jiān)果目標(biāo)的特征更加模糊,非常不利于檢測識別,通過改進(jìn)原始Faster R-CNN算法,提高了檢測模型在復(fù)雜園林環(huán)境下的堅(jiān)果檢測能力。園林環(huán)境中的澳洲堅(jiān)果檢測效果如圖7所示,從檢測結(jié)果來看,改進(jìn)后的Faster R-CNN模型對處在樹蔭、草地和落葉等復(fù)雜場景下的澳洲堅(jiān)果均保持較好的檢測效果,有良好的魯棒性,有效地實(shí)現(xiàn)了復(fù)雜園林場景下的澳洲堅(jiān)果物體檢測識別。
3結(jié)論
目標(biāo)檢測技術(shù)是實(shí)現(xiàn)澳洲堅(jiān)果自動化采收的關(guān)鍵技術(shù),本研究以德宏芒市帕底、遮放和三臺山等地區(qū)的澳洲堅(jiān)果園林為研究區(qū)域,對不同海拔地區(qū)的多個品種、樹齡的林地澳洲堅(jiān)果進(jìn)行圖像數(shù)據(jù)采集,構(gòu)建一個澳洲堅(jiān)果目標(biāo)檢測數(shù)據(jù)集,并基于Faster R-CNN算法搭建目標(biāo)檢測模型實(shí)現(xiàn)林地澳洲堅(jiān)果的檢測識別??紤]到澳洲堅(jiān)果個體尺寸較小、所處環(huán)境復(fù)雜等因素,對原始Faster R-CNN算法進(jìn)行了改進(jìn)。
1)為提高檢測模型對澳洲堅(jiān)果特征的提取能力,對比分析了VGG16、Resnet-50和Resnet-101等主干網(wǎng)絡(luò)對模型檢測性能的影響,并對比了不同主干網(wǎng)絡(luò)的實(shí)際檢測效果,選取Resnet-50作為改進(jìn)模型的主干網(wǎng)絡(luò)。
2)采用特征融合技術(shù),在Resnet-50主干網(wǎng)絡(luò)的基礎(chǔ)上構(gòu)建特征金字塔網(wǎng)絡(luò)結(jié)構(gòu),將不同層級的特征圖進(jìn)行特征融合,提高了模型對小目標(biāo)個體的檢測能力。改進(jìn)模型的檢測精度達(dá)到98.89%,與原始FasterR-CNN、SSD和YOLO v3等方法相比分別提高了6.85%、8.39%、8.28%,有明顯的精度優(yōu)勢。
3)采用ROI Align替換原來的ROI Pooling池化操作,保留了浮點(diǎn)位置處的特征信息,能獲取更準(zhǔn)確的目標(biāo)檢測結(jié)果。
試驗(yàn)結(jié)果表明,改進(jìn)Faster R-CNN模型的檢測精度及定位精度均有效提高。本研究所提方法有助于開發(fā)澳洲堅(jiān)果自動化采收裝備,為實(shí)現(xiàn)澳洲堅(jiān)果自動化采收提供目標(biāo)檢測技術(shù)。
【參考文獻(xiàn)】
[1]TU X H, WU B F, XIE Y, et al. A comprehensive study of raw and roasted macadamia nuts: Lipid profile, physicochemical, nutritional, and sensory properties[J]. Food Science & Nutrition, 2021, 9(3): 1688-1697.
[2]喬進(jìn)超,盧娜,黎思琦,等.云南澳洲堅(jiān)果產(chǎn)業(yè)可持續(xù)發(fā)展研究綜述[J].南方農(nóng)機(jī),2021,52(14):38-40,50.
QIAO J C, LU N, LI S Q, et al. Review on sustainable development of Macadamia nut industry in Yunnan[J]. China Southern Agricultural Machinery, 2021, 52(14): 38-40, 50.
[3]WALTON D A, WALLACE H M. The effect of mechanical dehuskers on the quality of macadamia kernels when dehusking macadamia fruit at differing harvest moisture contents[J]. Scientia Horticulturae, 2015, 182: 119-123.
[4]TRUEMAN S J. The reproductive biology of macadamia[J]. Scientia Horticulturae, 2013, 150: 354-359.
[5]MARINOUDI V, SORENSEN C G, PEARSON S, et al. Robotics and labour in agriculture: a context consideration[J]. Biosystems Engineering, 2019, 184: 111-121.
[6]SALEEM M H, POTGIETER J, ARIF K M. Automation in agriculture by machine and deep learning techniques: a review of recent developments[J]. Precision Agriculture, 2021, 22(6): 2053-2091.
[7]LECUN Y, BENGIO Y, HINTON G. Deep learning[J]. Nature, 2015, 521(7553): 436-444.
[8]XU Y Y, LI D W, XIE Q, et al. Automatic defect detection and segmentation of tunnel surface using modified Mask R-CNN[J]. Measurement, 2021, 178: 109316.
[9]陳欽柱,姚冬,黃松.基于卷積神經(jīng)網(wǎng)絡(luò)和優(yōu)化GoogleNet架構(gòu)的監(jiān)控視頻火災(zāi)探測[J].自動化技術(shù)與應(yīng)用,2021,40(9):124-129.
CHEN Q Z, YAO D, HUANG S. Fire detection of surveillance video based on convolutional neural network and optimized GoogleNet architecture[J]. Techniques of Automation and Applications, 2021, 40(9): 124-129.
[10]SUO R, GAO F F, ZHOU Z X, et al . Improved multi-classes kiwifruit detection in orchard to avoid collisions during robotic picking[J]. Computers and Electronics in Agriculture, 2021, 182: 106052.
[11] ZHANG K K, WU Q F, CHEN Y P. Detecting soybean leaf disease from synthetic image using multi-feature fusion faster R-CNN[J]. Computers and Electronics in Agriculture, 2021, 183: 106064.
[12]PARVATHI S, TAMIL SELVI S. Detection of maturity stages of coconuts in complex background using Faster R-CNN model[J]. Biosystems Engineering, 2021, 202: 119-132.
[13]樊湘鵬,許燕,周建平,等.基于改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)的在體青皮核桃檢測方法[J].農(nóng)業(yè)機(jī)械學(xué)報,2021,52(9):149-155,114.
FAN X P, XU Y, ZHOU J P, et al. Green walnut detection method based on improved convolutional neural network[J]. Transactions of the Chinese Society for Agricultural Machinery, 2021, 52(9): 149-155, 114.
[14]徐凡迪,白海東,樊紹光,等.澳洲堅(jiān)果繁育系統(tǒng)研究進(jìn)展[J].世界林業(yè)研究,2022,35(5):37-41.
XU F D, BAI H D, FAN S G, et al. Research advances in Macadamia breeding system[J]. World Forestry Research, 2022, 35(5): 37-41.
[15]蔡文良,馮巖晃,李富榮,等.德宏澳洲堅(jiān)果幼樹栽培技術(shù)[J].熱帶農(nóng)業(yè)科學(xué),2022,42(3):1-6.
CAI W L, FENG Y H, LI F R, et al. Cultivation of immature Macadamia trees in Dehong[J]. Chinese Journal of Tropical Agriculture, 2022, 42(3): 1-6.
[16]閆建偉,趙源,張樂偉,等.改進(jìn)Faster-RCNN自然環(huán)境下識別刺梨果實(shí)[J].農(nóng)業(yè)工程學(xué)報,2019,35(18):143-150.
YAN J W, ZHAO Y, ZHANG L W, et al. Recognition of Rosa roxbunghii in natural environment based on improved Faster-RCNN[J]. Transactions of the Chinese Society of Agricultural Engineering, 2019, 35(18): 143-150.
[17]孫哲,張春龍,葛魯鎮(zhèn),等.基于Faster R-CNN的田間西蘭花幼苗圖像檢測方法[J].農(nóng)業(yè)機(jī)械學(xué)報,2019,50(7):216-221.
SUN Z, ZHANG C L, GE L Z, et al. Image detection method for broccoli seedlings in field based on Faster R-CNN[J]. Transactions of the Chinese Society for Agricultural Machinery, 2019, 50(7): 216-221.
[18]REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.
[19]彭明霞,夏俊芳,彭輝.融合FPN的Faster R-CNN復(fù)雜背景下棉田雜草高效識別方法[J].農(nóng)業(yè)工程學(xué)報,2019,35(20):202-209.
PENG M X, XIA J F, PENG H. Efficient recognition of cotton and weed in field based on Faster R-CNN by integrating FPN[J]. Transactions of the Chinese Society of Agricultural Engineering, 2019, 35(20): 202-209.
[20] LIN T Y, DOLLAR P, GIRSHICK R, et al. Feature pyramid networks for object detection[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). July 21-26, 2017, Honolulu, HI, USA. IEEE, 2017: 936-944.
[21]HE K M, GKIOXARI G, DOLLAR P, et al. Mask R-CNN[C]//2017 IEEE International Conference on Computer Vision (ICCV). October 22-29, 2017, Venice, Italy. IEEE, 2017: 2980-2988.
[22]SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[EB/OL]. 2014: arXiv: 1409.1556. https://arxiv.org/abs/1409.1556.
[23]HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). June 27-30, 2016, Las Vegas, NV, USA. IEEE, 2016: 770-778.
[24]LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot MultiBox detector[M]//Computer Vision-ECCV 2016. Cham: Springer International Publishing, 2016: 21-37.
[25]REDMON J, FARHADI A. YOLOv3: an incremental improvement[EB/OL]. 2018: arXiv: 1804.02767. https://arxiv.org/abs/1804.02767