侯加林,房立發(fā),吳彥強,李玉華,席 芮
基于深度學習的生姜種芽快速識別及其朝向判定
侯加林1,2,房立發(fā)1,吳彥強1,2,李玉華1,2,席 芮1,2
(1. 山東農業(yè)大學機械與電子工程學院,泰安 271018;2. 山東省農業(yè)裝備智能化工程實驗室,泰安 271018)
針對目前生姜機械化播種難以實現(xiàn)“種芽朝向一致”農藝要求的問題,該研究提出了一種基于深度學習的生姜種芽快速識別及其朝向判定的方法。首先,構建生姜數(shù)據(jù)集。其次,搭建YOLO v3網(wǎng)絡進行種芽的識別,包括:使用Mosaic等在線數(shù)據(jù)增強方式,增加圖像的多樣性,解決小數(shù)據(jù)集訓練時泛化能力不足的問題;引入DIoU(Distance Intersection over Union)邊框回歸損失函數(shù)來提高種芽識別回歸效果;使用基于IoU的K-means聚類方法,經(jīng)線性尺度縮放得到9個符合種芽尺寸的先驗框,減少了先驗框帶來的誤差。最后進行壯芽的選取及其朝向的判定。測試集中的結果表明,該研究提出的生姜種芽識別網(wǎng)絡,平均精度和精準率、召回率的加權調和平均值1分別達到98.2%和94.9%,采用GPU硬件加速后對生姜種芽的檢測速度可達112幀/s,比原有YOLO v3網(wǎng)絡的平均精度和1值分別提升1.5%和4.4%,實現(xiàn)了生姜種芽的快速識別及其朝向的判定,為生姜自動化精確播種提供了技術保證。
圖像識別;算法;卷積神經(jīng)網(wǎng)絡;生姜種芽;DIoU邊框回歸損失函數(shù)
生姜屬于喜溫性作物,現(xiàn)廣泛分布于熱帶、亞熱帶及溫帶地區(qū),尤以亞洲、非洲及南美洲種植較為普遍[1],是中國重要的出口創(chuàng)匯蔬菜。播種是生姜栽培過程中重要的環(huán)節(jié),播種質量的好壞直接影響生姜的產(chǎn)量。根據(jù)農藝要求,為了確保生姜出苗一致以及滿足栽培過程中的遮光要求,播種時需要把姜種平放在種溝內,使種芽朝向保持一致[2]。若東西向溝,種芽一律向南;南北向溝,則種芽一律向西。目前,生姜播種主要依靠人工完成,其勞動強度大、工作效率低等諸多因素嚴重阻礙了生姜產(chǎn)業(yè)的發(fā)展。然而,當前國內外對于生姜的研究僅局限于生理特性[3]、病害防治[4]、藥效作用等,少有對生姜的機械化播種的相關研究,更是鮮有生姜種芽識別及朝向判別的研究。
近年來,深度學習技術[5-7]已成為特征表示的有效方法,并且在目標檢測領域取得顯著的突破。目標檢測算法主要分為兩類,一類是單階段算法,有著更快的檢測速度,典型的算法有:YOLO[8-13]、SSD[14]和Retina-Net[15]等。另一類是雙階段算法,首先產(chǎn)生候選區(qū)域,然后對候選區(qū)域分類和進行位置精修[16],典型的算法有:Faster R-CNN[17]、Mask R-CNN[18]等。席芮等[19]和李就好等[20]分別采用改進的Faster R-CNN算法實現(xiàn)馬鈴薯芽眼的快速識別和田間苦瓜葉部病害檢測,但模型檢測的實時性較差。薛月菊等[21]提出了基于密集連接的YOLO v2網(wǎng)絡,實現(xiàn)了未成熟芒果的高精度檢測。Xiong等[22]提出了一種基于YOLO v2的芒果圖像快速檢測方法,檢測精度達到96.1%。趙德安等[23]提出了YOLO v3神經(jīng)網(wǎng)絡來實現(xiàn)復雜環(huán)境下蘋果的識別。李尚平等[24]基于改進的YOLO v3網(wǎng)絡提高了對整根甘蔗的動態(tài)識別效率,平均精度達到90.4%。易詩等[25]基于Tiny-YOLO v3網(wǎng)絡,提出了一種增強型輕量級目標檢測網(wǎng)絡,實現(xiàn)對野雞的識別,平均精度達86.5%。Liang等[26]提出了一種基于YOLO v3在夜間環(huán)境下檢測荔枝果實和果梗的方法,在高亮度、正常亮度和低亮度下的平均精度分別為96.8%、99.6%和89.3%。以上研究的開展為YOLO v3網(wǎng)絡的在農業(yè)領域中的應用提供了參考依據(jù)。
生姜播種前需經(jīng)過藥物的浸泡處理,且播種過程中易受到光照的影響,導致姜芽的顏色特征很不穩(wěn)定,無法利用顏色空間對其識別;此外,對姜芽的特征進行提取,具有盲目性和不確定性,傳統(tǒng)的目標識別方法難以滿足姜芽快速識別的要求。本研究提出了基于深度學習的生姜種芽快速識別方法,通過使用Mosaic等數(shù)據(jù)增強方式、引入DIoU邊框回歸損失函數(shù)和使用基于IoU的K-means聚類方法,以實現(xiàn)生姜壯芽的快速選取及朝向的判定。本文采用了基于YOLO v3的種芽識別方法,以期為準確判定種芽朝向以及生姜播種機的自動化播種提供有益的參考。
圖像采集系統(tǒng)如圖1所示,主要用于模型訓練所需圖像的采集和加速種芽識別模型的訓練及調試,包括攝影棚、CMOS工業(yè)相機、計算機、補光燈、相機支架。相機型號為??低昅V-CE200-10GC,圖像保存為JPG格式,分辨率為5 472像素×3 672像素。在圖像采集過程中,為了獲取具有清晰生姜種芽的高品質圖像,在攝影棚內部兩側各設有一個傾斜的補光燈,用以提供均勻穩(wěn)定的光源。姜種圖像采集地點為山東省濰坊市安丘市生姜種植基地,品種為安丘娃娃姜。姜種的選取標準為:芽身粗壯,芽長0.5~2.0 cm,芽粗0.6~1.0 cm,只保留1個壯芽,少數(shù)根據(jù)情況保留2個壯芽。
試驗樣本為550個姜種,由于生姜兩面所包含的特征信息并不一致,因此各采集一幅圖像用于種芽識別,共1 100幅圖像。由于姜種的形狀極其不規(guī)則,為了使其一直處于圖像的中心位置,便于后期姜芽方位角的計算,在獲取生姜圖像后,需要進行預處理,其流程如圖2所示。首先對圖像進行對比度增強,其次將圖像灰度化后進行閾值的分割得到二值化圖像,再查找二值圖中的輪廓,使用形態(tài)學處理和對輪廓的面積進行比較,去除因雜質生成的孔洞,得到只包含姜種輪廓的二值圖,然后與彩色圖像執(zhí)行與運算,得到待分割圖像;對輪廓進行提取,計算輪廓的最小外接矩形,提取矩形區(qū)域內的圖像,最后,對圖像進行邊緣填充得到待處理圖像。
由于種芽和姜種的連接處有豐富的邊界特征信息,本文選擇對種芽及其連接處標注。圖像的標注采用LabelImg(v1.8.3),標注為xml標準格式并以PASCAL VOC[27]格式進行存儲,存儲信息包含:圖像的路徑、寬高尺寸、通道數(shù)以及種芽標注框的位置信息??紤]到標簽與圖像的對應關系,同時保證數(shù)據(jù)集均勻分布,按照80%和20%的比例將1 000幅圖像隨機用于訓練和驗證,100幅圖像用于測試,彼此之間無重復。同時,為進一步測試模型的識別能力,本文分別使用手機和工業(yè)相機在田間進行圖像的采集,各采集150幅圖像。為模擬光照不足的情況,使用工業(yè)相機進行拍攝時,使用較暗的補光燈進行補光,用于測試模型在光線昏暗的環(huán)境下的識別能力。
為解決生姜自動化種植的問題,本文采用圖3所示的技術路線,實現(xiàn)生姜圖像的采集、姜芽的識別以及生姜的種植。首先利用搭建的圖像采集系統(tǒng)完成姜種圖像的采集,并對圖像預處理以及數(shù)據(jù)集的劃分;其次,為實現(xiàn)生姜種芽快速、準確的識別,使用YOLO v3網(wǎng)絡進行姜芽的識別,其作為典型的單階段目標檢測算法在速度和精度方面都達到了很好的效果,針對YOLO v3網(wǎng)絡在生姜播種中存在的問題對原有的網(wǎng)絡做出改進,并通過數(shù)據(jù)分析,對提出的改進方法進行試驗驗證。為后期將模型移植到嵌入式設備,通過末端執(zhí)行設備對姜種進行抓取并調向,實現(xiàn)姜芽朝向一致的農藝要求做好前提準備。
YOLO v3是一種基于回歸理論的端到端的目標檢測算法。為了便于網(wǎng)絡訓練同時防止圖像縮放時失真,通過仿射變換將圖像的長邊以一定的倍數(shù)使用雙三次插值法壓縮至416像素,短邊按照相同的倍數(shù)縮放后,用灰色像素進行填充,使圖像的大小縮放至416像素×416像素。
YOLO v3網(wǎng)絡結構如圖4所示,訓練過程主要包括以下5個部分:1)使用Darknet-53主干網(wǎng)絡提取生姜圖像的特征圖;2)3個不同尺度的特征圖中每個網(wǎng)格單元均具有3個先驗框(anchor box),每個先驗框分別由邊框坐標、邊框置信度和對象類別數(shù)構成,解決了物體尺寸變化的問題[28]。3)為每個真實框(ground truth)選擇具有最高置信度和與真實框交并比大于設定閾值的預測框(prediction);4)使用獨立的邏輯回歸分類器(logistic)定位預測框并形成最終的邊界框;5)計算種芽預測框和真實框之間的損失值進行反向傳播以更新網(wǎng)絡參數(shù)。
在計算損失函數(shù)時,使用二元交叉熵代替均方誤差進行計算,YOLO v3網(wǎng)絡的損失函數(shù)如式(1)所示。
2.3.1 數(shù)據(jù)增強
為解決小數(shù)據(jù)集易出現(xiàn)過擬合或者泛化能力不足的問題,本文在訓練中采用在線數(shù)據(jù)增強技術對原始數(shù)據(jù)集進行增強,在獲取1個批次的圖像后,按照一定的概率隨機對這批圖像的色調、飽和度和明度進行增強,同時對圖像進行旋轉、平移、縮放和剪切變換操作,以提高模型的魯棒性和種芽識別的準確率,最后采用Mosaic數(shù)據(jù)增強方式。與傳統(tǒng)的CutMix[29]方式(隨機使用2張圖像進行拼接)不同的是,Mosaic利用4張圖像進行隨機裁剪后,拼接成一張圖像。訓練過程中,在不引入非信息像素的前提下,極大的豐富了物體檢測的背景,同時,在進行批歸一化(Batch Normalization)時,一次便可計算4張圖像。在線數(shù)據(jù)增強為圖像送入模型訓練之前執(zhí)行上述增強方式,并沒有增加圖像的數(shù)量,但可以通過增加迭代次數(shù)間接的豐富圖像的數(shù)據(jù)量。采用以上數(shù)據(jù)增強方式的結果,如圖5所示的4張圖像,每張圖像均由4張圖像按照一定的概率采用以上幾種增強方法后,經(jīng)隨機裁剪拼接而成。
2.3.2 基于DIoU的邊框回歸損失函數(shù)
IoU為目標預測框與真實框的交集和并集之比,反應了兩者之間的相關程度,該值越高,相關度越高,其計算公式如式(2)所示。呂石磊等[30]、Liu等[31]和Ma等[32]通過引入GIoU邊框回歸損失函數(shù)解決了IoU無法精確反應目標預測框與真實框的重合度問題,其計算公式如式(3)所示。
式中代表真實框,代表預測框,A代表真實框和預測框的最小外接矩形。
當真實框和預測框為包含關系時,|A-(GT∪DR)|趨近于0,GIoU幾乎退化為IoU。如圖6a所示,3種不同的包含形式具有相同的IoU值和GIoU值,但實際回歸效果并不相同。其中,左圖中兩個矩形框的中心點距離最大,回歸效果最差;中間圖的兩個矩形框中心點重合,回歸效果最好;右圖中兩個矩形框的回歸效果介于前兩圖之間。故IoU值和GIoU值并不能反映兩個矩形框為包含關系時的回歸程度。由于回歸框的位置直接決定了種芽的具體位置,本文通過引入DIoU[33]解決了GIoU存在的上述問題,其計算公式如式(4)所示。
一個好的邊框回歸損失函數(shù)不僅要考慮兩個矩形框的重疊面積,還要考慮其中心點之間的距離。因此DIoU在IoU的基礎上加入一個懲罰項,用于度量真實框和預測框中心點之間的距離,可直接最小化中心點的距離,收斂速度較快;如圖6b所示,對于真實框和預測框處于包含或者不相交關系的情況時,DIoU仍可以使預測框向真實框的中心點不斷靠近?;贒IoU的YOLO v3網(wǎng)絡的損失函數(shù)如式(5)所示。
式中coord和noobj是懲罰系數(shù)。和分別代表和的中心點;()代表和兩點之間的歐氏距離。
2.3.3 數(shù)據(jù)集標注框的聚類分析
盡管YOLO v3網(wǎng)絡本身可以通過訓練不斷調整邊界框,但訓練過程中大量的數(shù)據(jù)減緩了收斂速度,容易出現(xiàn)局部優(yōu)化問題。為此采用基于IoU的度量距離方式,以最小化標注框與聚類中心點距離為目標函數(shù),以標注后生姜的數(shù)據(jù)集為基礎,對標注框的寬度和高度進行多次聚類分析,得到了符合種芽尺寸的個聚類框??紤]計算過程的復雜度,選取212,得到與平均交并比之間的關系如圖7a所示,根據(jù)肘部法則同時考慮更高的召回率,選取9為聚類性能最好的點。如圖7b所示,K-means產(chǎn)生的聚類框尺寸比較集中,無法體現(xiàn)多尺度輸出的優(yōu)勢,因此采用一種線性尺度縮放的方式,將聚類框的寬高尺寸進行拉伸,其計算公式如式(6)~(9)所示。經(jīng)過線性拉伸后的寬高分別為:(13,10)、(40,25)、(29,25)、(22,26)、(45,37)、(38,41)、(66,51)、(47,60)、(85,73)。最終使用上述9個聚類框對YOLO v3網(wǎng)絡中的先驗框進行初始化,以便該網(wǎng)絡可以更好地識別種芽。
式中代表第個聚類框,∈{2,…,8};(W, H)代表拉伸前聚類框的寬高;(W′, H′)代表拉伸后聚類框的寬高;和為縮放系數(shù),取值為0.5和1.5。
通過種芽識別網(wǎng)絡實現(xiàn)種芽位置的預測之后,由于部分姜種存在多個種芽,為了便于選取壯芽,使用預測框面積作為壯芽選擇的依據(jù),僅保留一個具有較大面積的預測框。為了進行壯芽朝向的判定,以圖像的中心點(208, 208)為原點建立直角坐標系,如圖8所示。以原點的0°基線為軸,定義從軸正向起逆時針旋轉到A點(預測框的中心點)的角度為,則稱為該方向的方位角,計算公式如式(10)~(11)所示,的取值范圍是:0°≤<360°。當播種時為南北向溝時,為滿足生姜的遮光要求,在獲取姜芽的方位角后,使用末端執(zhí)行設備對姜種水平抓取并旋轉調向,保證姜芽朝向西側;為東西向溝時,保證姜芽朝向南側。如圖8所示,令軸朝向為北,當末端執(zhí)行設備完成生姜的抓取之后,旋轉角度為,旋轉方向為順時針,計算公式如(12)所示。
2.5.1 試驗平臺
訓練時使用的配置為:計算機運行內存為64G,搭載Intel Core I9-9900K CPU 3.6GHz主頻,配備Nvidia GTX 2080Ti GPU,并配置CUDA 10.1版本并行計算架構與CUDNN 7.6版本深度神經(jīng)網(wǎng)絡加速庫。試驗的運行環(huán)境為:Ubuntu 18.04系統(tǒng),Python 3.6.5版本,Pytorch[34]1.5.1版本,圖像形態(tài)學處理采用OpenCV 3.4.5視覺庫。
2.5.2 模型測試標準
為了分析模型的性能,試驗采用精準率(precision)和召回率(recall)作為評價指標。其定義如式(13)~(14)所示,F(xiàn)PS(每秒幀數(shù))用于評估模型的檢測速度。
式中為精準率,為召回率,為真實的正樣本數(shù)量,為虛假的正樣本數(shù)量,為虛假的負樣本數(shù)量。
種芽識別的目的是為選取壯芽及其判別朝向提供依據(jù),因此召回率顯得尤為重要,但是也應避免較高的誤檢率。1值(1 measure)作為精準率和召回率的加權調和平均值,可以用于權衡精準率和召回率,定義如式(15)所示。本文還使用了平均精度(Average Precision,AP)衡量模型在不同置信度閾值下的整體性能,定義如式(16)所示。
2.5.3 種芽識別網(wǎng)絡的訓練
本文使用種芽識別網(wǎng)絡進行訓練,優(yōu)化方法為隨機梯度下降法(Stochastic Gradient Descent, SGD),綜合考慮計算機性能以及模型的收斂速度,以16幅圖像為1個訓練批次,使用遷移學習[35-36]的方法進行訓練。超參數(shù)設置如下:動量因子(momentum)為0.95,權值衰減系數(shù)(decay)設為0.0005,初始學習率(learning rate)為0.01。學習率更新策略采用余弦退火衰減法[37],計算如下:
式中0代表初始學習率;T代表當前的輪數(shù)(epochs);T代表總輪數(shù);代表學習率衰減系數(shù)。
損失函數(shù)通過度量預測值和真實值之間的誤差來衡量模型預測結果的好壞。圖9為種芽識別網(wǎng)絡的損失值變化曲線,1個輪數(shù)即1個完整的數(shù)據(jù)集在種芽識別網(wǎng)絡中完成1次前向傳播和反向傳播。在訓練早期,訓練集的損失值高達13,經(jīng)過100個輪數(shù)的訓練后,損失值迅速下降至1.6。在到達500輪后,驗證集的損失值略微上升,表明該模型的訓練集開始出現(xiàn)過擬合現(xiàn)象。綜合考慮訓練精準率和模型的泛化能力,確定500輪時為模型訓練終止條件,從而避免因訓練次數(shù)過多導致模型的過度擬合。
2.5.4 種芽識別結果及方位角計算
由于姜芽較為脆弱,搬運過程可能會導致姜芽斷裂,因此選擇一些無芽生姜和姜芽斷裂的生姜驗證識別效果。識別結果如圖10a所示,左圖并未識別到姜芽;中間圖和右圖均檢測到姜芽。為了進一步測試種芽識別網(wǎng)絡對生姜種芽的識別能力,如圖10b所示,分別對實驗室采集(光線正常)、手機采集和田間采集(光線昏暗)的不同場景下生姜圖像進行識別。其檢測結果如圖10c所示,左圖選擇箭頭1處的種芽為壯芽,其中心點的坐標為(120, 244),經(jīng)公式(10)~(11)計算,方位角202°;中間圖僅有一個種芽,其中心點坐標為(140, 140),方位角135°;右圖選擇箭頭3處的種芽為壯芽,其中心點的坐標為(268, 125),方位角54°。
為了檢驗本文提出的種芽識別網(wǎng)絡的性能,首先,對不同超參數(shù)下的模型進行性能測試。然后以不同大小的數(shù)據(jù)集和是否使用遷移學習為變量,使用式(13)~(16)中的4個指標作為模型評價標準。同時對2.2節(jié)中提出的改進策略進行一一驗證,融合上述多種改進策略模型的平均精度和1值分別提升了1.5%和4.4%。最后對誤識別的種芽進行分析。
圖11a為種芽識別網(wǎng)絡在性能測試中使用不同IoU閾值的檢測結果。在一定范圍內IoU閾值直接影響模型的精準率,召回率并不受影響。IoU閾值越大,被檢測到的預測框與真實框的重疊率越高,被誤檢測的數(shù)量越高。當IoU閾值為0.6時,平均精度和1值分別達到98.2%和94.9%,說明該模型達到足夠的檢測精度,為壯芽的選取及其朝向的判定提供依據(jù)。圖11b為種芽識別網(wǎng)絡在性能測試中使用不同置信度閾值時檢測結果。隨著置信度閾值的增大,模型的精準率逐步增加,當置信度閾值大于0.5時,1值和平均精度開始迅速下降。本文為了獲得較高的平均精度和1值,取置信度閾值為0.001,平均精度和1值分別達到98.2%和94.9%,模型的預測結果最佳。
數(shù)據(jù)集在很大程度上決定了模型的檢測性能[38],為了分析數(shù)據(jù)集大小對種芽檢測精度的影響,設置了5種不同大小的數(shù)據(jù)集進行訓練。從原有數(shù)據(jù)集中隨機選取了100、300、500、700和1 000張生姜圖像,形成新的數(shù)據(jù)集。使用不同大小的數(shù)據(jù)集訓練出的模型檢測結果如表1所示。模型的性能隨著數(shù)據(jù)集大小的增加而提高。當圖像數(shù)量少于700時,1值和檢測速度隨著圖像數(shù)量的增加而迅速增加。當圖像數(shù)量超過700時,1值和檢測速度的提升速度會減緩并趨于穩(wěn)定。
本文使用在ImageNet數(shù)據(jù)集上預先訓練的Darknet-53的模型,以初始化其參數(shù),然后取前74層卷積權重作為預訓練模型,在生姜數(shù)據(jù)集上進行遷移學習和微調。同時采用從頭開始對所有的參數(shù)進行訓練的方式作為對照試驗。測試集上檢測結果如表2所示,相對于原始方法,精準率提升了2.1%,平均精度提升了1%,1值提升了0.7%,訓練時間減少0.147 h,采用遷移學習方法后模型的性能得到提高。
表2 不同訓練方法的檢測結果
為了驗證2.3.1節(jié)中幾種方法對模型性能的影響,采用控制變量的試驗方法,依次移除上述一種方法進行訓練,獲取模型在測試集上的精準率和1值。最后與融合多種數(shù)據(jù)增強方法的原有模型進行比較,結果如表3所示。
表3 移除不同數(shù)據(jù)增強方法后檢測結果對比
根據(jù)表3可以看出,采用Mosaic數(shù)據(jù)增強方法后,精準率上升9.0%,1值上升3.0%,明顯的改善了模型的檢測性能。圖像的色調、飽和度和剪切操作對于訓練模型性能的提高是有限的,移除上述兩種增強后的模型性能僅略低于原有的模型。圖像明度的增強有利于模型適應不同的亮度情況,移除明度增強后,比原有模型的檢測效果差。圖像的旋轉、平移和縮放變換對于模型的性能產(chǎn)生了負面影響,但考慮到數(shù)據(jù)增強對模型的泛化性有所提升,故保留旋轉、平移和縮放變換的數(shù)據(jù)增強手段。
使用YOLO v3為基礎網(wǎng)絡,原始方法為使用式(1)所示的回歸損失函數(shù)進行訓練,改進后的方法為使用式(5)所示的DIoU回歸損失函數(shù)進行訓練。兩種方法訓練時的損失曲線如圖12所示,兩種模型loss值的下降趨勢大致相同,在訓練的早期階段損失值迅速降低,這是因為在訓練初期,為了能夠跳出局部最優(yōu)解,使用較大的學習率進行計算,使得損失值迅速下降到較低的水平。在訓練的后期,較小的學習率有利于保證模型的穩(wěn)定性,損失值的變化趨于平穩(wěn)。其中,原始模型經(jīng)過500個輪數(shù)后,損失值趨于平穩(wěn),最終的損失值約為1.2,改進后的模型,經(jīng)過200個輪數(shù)的訓練,便達到較低的值,最終的損失值約為0.8,比原始模型的損失值低0.3。表明改進后的YOLO v3網(wǎng)絡在訓練過程中具有比原始的YOLO v3網(wǎng)絡更快的收斂速度和更好收斂效果,模型性能得到改善。
在測試集上的檢測結果如表4所示,改進后模型的平均精度和1值分別提升了0.9%和0.8%,種芽的識別性能得到提升。在添加數(shù)據(jù)增強后的檢測效果中,改進后的模型仍保持較高的平均精度和1值,分別為96.5%和87.0%,這表明改進的模型具有更強的抗噪能力和魯棒性。
表4 不同測試方法的檢測結果
注:N代表不使用數(shù)據(jù)增強,Y代表使用數(shù)據(jù)增強。
Note: N is for no data enhancement and Y is for data enhancement.
改進后的模型相比于原始模型,無論是訓練集還是驗證集損失值均有所下降,并且在測試集上取得更好的效果。
對不同場景下的生姜圖像進行識別,其檢測結果如圖13所示。圖13a為人工標記樣本(矩形框標出),圖13b為其識別結果,箭頭指出的是錯誤識別結果。其中箭頭1處和5處產(chǎn)生的原因是:催芽后長出的種芽十分脆弱,受到碰撞后易斷裂,被識別為正常種芽。箭頭2~4處產(chǎn)生錯誤的原因是:播種時,選取的姜種均為經(jīng)過催芽后的老姜(去年收獲的生姜),其在生長過程中,部分生姜在準備發(fā)芽時,只是產(chǎn)生了種芽形狀的突起,并未形成芽,導致被誤識別為種芽。
1)本文提出了一種基于YOLO v3的生姜種芽快速識別方法。通過構建生姜數(shù)據(jù)集、優(yōu)化數(shù)據(jù)增強手段、改進損失函數(shù)、進行聚類分析和修改網(wǎng)絡參數(shù),實現(xiàn)種芽的快速識別,為生姜自動化精確播種提供了技術保證。
2)對于存在多個種芽的姜種,僅保留具有較大面積預測框的種芽。通過建立直角坐標系,計算種芽的方位角,為確保生姜壯芽朝向一致提供參考依據(jù)。
3)當IoU閾值大于0.6時,平均精度和精準率、召回率的加權調和平均值1隨IoU閾值增大而減小。在選定IoU閾值后,平均精度和1值隨置信度閾值的增大而減小。試驗結果表明,在IoU閾值為0.6,置信度閾值為0.001時,模型的檢測指標最佳。
4)使用平均精度和1值作為模型性能評估標準,對提出的改進策略進行一一驗證,試驗結果表明,改進后的模型平均精度和1值分別達到了98.2%和94.9%,采用GPU硬件加速后的檢測速度達112幀/s,比原有YOLO v3網(wǎng)絡的平均精度和1值分別提升1.5%和4.4%。
[1]王磊,徐坤,李秀. 姜種質資源及育種研究現(xiàn)狀與展望[J].中國蔬菜,2013(16):1-6.
[2]史秀娟. 生姜高效生產(chǎn)新技術與新模式[M]. 北京:中國農業(yè)科學技術出版社,2018:33-34.
[3]魏世錦,羅貴清,劉林云,等. 蒸汽閃爆處理對生姜纖維吸附性能的影響[J]. 農業(yè)工程學報,2020,36(4):316-322.
Wei Shijin, Luo Guiqing, Liu Linyun, et al. Effect of steam explosion on adsorption properties of ginger fiber[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2020, 36(4): 316-322. (in Chinese with English abstract)
[4]蔣豐千,李旸,余大為,等. 基于Caffe的生姜病害識別系統(tǒng)研究與設計[J]. 中國農機化學報,2019,40(1):126-131.
Jiang Fengqian, Li Yang, Yu Dawei, et al. Design and experiment of tobacco leaf grade recognition system based on Caffe[J]. Journal of Chinese Agricultural Mechanization, 2019, 40(1): 126-131. (in Chinese with English abstract)
[5]劉軍,后士浩,張凱,等. 基于增強Tiny YOLOV3算法的車輛實時檢測與跟蹤[J]. 農業(yè)工程學報,2019,35(8):118-125.
Liu Jun, Hou Shihao, Zhang Kai, et al. Real-time vehicle detection and tracking based on enhanced Tiny YOLOV3 algorithm[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(8): 118-125. (in Chinese with English abstract)
[6]燕紅文,劉振宇,崔清亮,等. 基于特征金字塔注意力與深度卷積網(wǎng)絡的多目標生豬檢測[J]. 農業(yè)工程學報,2020,36(11):193-202.
Yan Hongwen, Liu Zhenyu, Cui Qingliang, et al. Multi-target detection based on feature pyramid attention and deep convolution network for pigs[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2020, 36(11): 193-202. (in Chinese with English abstract)
[7]Huang R, Gu J, Sun X, et al. A rapid recognition method for electronic components based on the improved YOLO-V3 network[J]. Electronics, 2019, 8: 825.
[8]Redmon J, Divvala S, Girshick R, et al. You only look once: Unified, real-time object detection[C]//Proceedings of the IEEE conference on computer vision and pattern recognition, the US. 2016: 779-788.
[9]Tian Y, Yang G, Wang Z, et al. Apple detection during di?erent growth stages in orchards using the improved YOLO-V3 model[J]. Computers and Electronics in Agriculture, 2019, 157: 416-426.
[10]Yang H, Chen L, Chen M, et al. Tender tea shoots recognition and positioning for picking robot using improved YOLO-V3 model[J]. IEEE Access, 2019, 7: 180998-181011.
[11]Jiang B , Wu Q, Yin X, et al. FLYOLOv3 deep learning for key parts of dairy cow body detection[J]. Computers and Electronics in Agriculture, 2019, 166:104982.
[12]劉小剛,范誠,李加念,等. 基于卷積神經(jīng)網(wǎng)絡的草莓識別方法[J]. 農業(yè)機械學報,2020,51(2):237-244.
Liu Xiaogang, Fan Cheng, Li Jianian, et al. Identification method of strawberry based on convolutional neural network[J].Transactions of the Chinese Society for Agricultural Machinery, 2020, 51(2): 237-244. (in Chinese with English abstract)
[13]熊俊濤,鄭鎮(zhèn)輝,梁嘉恩,等. 基于改進YOLO v3網(wǎng)絡的夜間環(huán)境柑橘識別方法[J].農業(yè)機械學報,2020,51(4):199-206.
Xiong Juntao, Zheng Zhenhui, Liang Jiaen, et al. Citrus detection method in night environment based on improved YOLO v3 network[J]. Transactions of the Chinese Society for Agricultural Machinery, 2020, 51(4): 199-206. (in Chinese with English abstract)
[14]Liu W, Anguelov D, Erhan D, et al. SSD: Single Shot MultiBox Detector[C]//European conference on computer vision. Cham: Springer, 2016: 21-37.
[15]Lin T, Goyal P, Girshick R, et al. Focal loss for dense object detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(2): 318-327.
[16]Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2014: 580-587.
[17]Ren S, He K, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J]// IEEE. Transactions on Pattern Analysis and Machine Intelligence, 2015, 39(6): 1137-1149.
[18]He K, Gkioxari G, Dollar P, et al. Mask R-CNN[J]. IEEE Transactions on Pattern Analysis&Machine Intelligence, 2017(99): 2961-2969.
[19]席芮,姜凱,張萬枝,等. 基于改進Faster R-CNN的馬鈴薯芽眼識別方法[J].農業(yè)機械學報,2020,51(4):216-223.
Xi Rui, Jiang Kai, Zhang Wanzhi, et al. Recognition method for potato buds based on improved Faster R-CNN[J]. Transactions of the Chinese Society for Agricultural Machinery, 2020, 51(4): 216-223. (in Chinese with English abstract)
[20]李就好,林樂堅,田凱,等. 改進Faster R-CNN的田間苦瓜葉部病害檢測[J].農業(yè)工程學報,2020,36(12):179-185.
Li Jiuhao, Lin Lejian, Tian Kai, et al. Detection of leaf diseases of balsam pear in the field based on improved Faster R-CNN[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2020, 36(12): 179-185. (in Chinese with English abstract)
[21]薛月菊,黃寧,涂淑琴,等. 未成熟芒果的改進YOLOv2識別方法[J]. 農業(yè)工程學報,2018,34(7):173-179.
Xue Yueju, Huang Ning, Tu Shuqin, et al. Immature mango detection based on improved YOLOv2[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2018, 34(7): 173-179. (in Chinese with English abstract)
[22]Xiong J, Liu Z, Chen S, et al. Visual detection of green mangoes by an unmanned aerial vehicle in orchards based on a deep learning method[J]. Biosystems Engineering, 2020, 194: 261-272.
[23]趙德安,吳任迪,劉曉洋,等. 基于YOLO深度卷積神經(jīng)網(wǎng)絡的復雜背景下機器人采摘蘋果定位[J]. 農業(yè)工程學報,2019,35(3):164-173.
Zhao Dean, Wu Rendi, Liu Xiaoyang, et al. Apple positioning based on YOLO deep convolutional neural network for picking robot in complex background[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(3): 164-173. (in Chinese with English abstract)
[24]李尚平,李向輝,張可,等. 改進YOLOv3網(wǎng)絡提高甘蔗莖節(jié)實時動態(tài)識別效率[J].農業(yè)工程學報,2019,35(23):185-191.
Li Shangping, Li Xianghui, Zhang Ke, et al. Increasing the real-time dynamic identification rate of sugarcane nodes by improved YOLOv3 network[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(23): 185-191. (in Chinese with English abstract)
[25]易詩,沈練,周思堯,等. 基于增強型Tiny-YOLOV3模型的野雞識別方法[J]. 農業(yè)工程學報,2020,36(13):141-147.
Yi Shi, Shen Lian, Zhou Siyao, et al. Recognition method of pheasant using enhanced Tiny-YOLOV3 model[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2020, 36(13): 141-147. (in Chinese with English abstract)
[26]Liang C , Xiong J, Zheng Z, et al. A visual detection method for nighttime litchi fruits and fruiting stems[J]. Computers and Electronics in Agriculture, 2020, 169: 101592.
[27]Everingham M, Eslami S M A, Gool L, et al. The PASCAL Visual Object Classes Challenge: A Retrospective[J]. International Journal of Computer Vision, 2015, 111(1): 98-136.
[28]Liu G, Nouaze J C, Touko Mbouembe P L, et al. A robust algorithm for tomato detection based on YOLOv3[J]. Sensors, 2020, 20(7): 2145.
[29]Yun S, Han D, Seong J O, et al. CutMix: Regularization strategy to train strong classifiers with localizable features[C]//Sourth Korea, IEEE, Proceedings of the IEEE International Conference on Computer Vision (ICCV), 2019: 6023-6032.
[30]呂石磊,盧思華,李震,等. 基于改進YOLOv3-LITE輕量級神經(jīng)網(wǎng)絡的柑橘識別方法[J]. 農業(yè)工程學報,2019,35(17):205-214.
Lü Shilei, Lu Sihua, Li Zhen, et al. Orange recognition method using improved YOLOv3-LITE lightweight neural network[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(17): 205-214. (in Chinese with English abstract)
[31]Liu J, Wang X. Early recognition of tomato gray leaf spot disease based on MobileNetv2-YOLOv3 model[J]. Plant Methods, 2020, 16(1): 83.
[32]Ma H, Liu Y, Ren Y, et al. Detection of collapsed buildings in post-earthquake remote sensing images based on the improved YOLOv3[J]. Remote Sensing, 2019, 12(1): 44.
[33]Zheng Z, Wang P, Liu W, et al. Distance-IoU Loss: Faster and better learning for bounding box regression[C]// Proceedings of the AAAI Conference on Artificial Intelligence (AAAI), 2020: 12993-13000.
[34]Zhang P, Zhong Y, Li X. SlimYOLOv3: Narrower, faster and better for real-time UAV applications[C]//Sourth Korea, IEEE, IEEE International Conference on Computer Vision Workshops (ICCV), 2019: 37-45.
[35]彭紅星,黃博,邵園園,等. 自然環(huán)境下多類水果采摘目標識別的通用改進SSD模型[J]. 農業(yè)工程學報,2018,34(16):155-162.
Peng Hongxing, Huang Bo, Shao Yuanyuan, et al. General improved SSD model for picking object recognition of multiple fruits in natural environment[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2018, 34(16): 155-162. (in Chinese with English abstract)
[36]張思雨,張秋菊,李可. 采用機器視覺與自適應卷積神經(jīng)網(wǎng)絡檢測花生仁品質[J]. 農業(yè)工程學報,2020,36(4):269-277.
Zhang Siyu, Zhang Qiuju , Li Ke. Detection of peanut kernel quality based on machine vision and adaptive convolution neural network[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2020, 36(4): 269-277. (in Chinese with English abstract)
[37]He T, Zhang Z, Zhang H, et al. Bag of Tricks for Image Classification with Convolutional Neural Networks[C]//The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019: 558-567.
[38]Cao S, Zhao D, Liu X, et al. Real-time robust detector for underwater live crabs based on deep learning[J]. Computers and Electronics in Agriculture, 2020, 172: 105339.
Rapid recognition and orientation determination of ginger shoots with deep learning
Hou Jialin1,2, Fang Lifa1, Wu Yanqiang1,2, Li Yuhua1,2, Xi Rui1,2
(1.,,271018,; 2,271018,)
Ginger is widely cultivated in temperate zone, tropical and subtropics. China is the largest ginger producer and exporter in the world. Sowing seeds can be the second step in the ginger production, after the soil preparation is ready. It is necessary to lay the ginger flat in the trench, and keep the shoots in the same direction when sowing, in order to ensure that the shoots can emerge in the same direction under the requirement of avoiding light in the production. All the shoots emerge towards the south in an east-west trench, whereas those towards the west in a north-south trench. Therefore, shoots recognition has become a type of key technology to ensure the same direction of shoots, and then realize automatic and accurate sowing. In this study, a feasible way was proposed to realize the rapid recognition and accurate determination of ginger shoots using deep learning. Firstly, the dataset of ginger images was established, including image acquisition, enhancement, and labeling. Secondly, in training a small sample dataset, the data was augmented using online data enhancement to increase the diversity of images, and address the lack of generalization capability. The Mosaic method was used to enrich the background of ginger shoots training without introducing non-informative pixels. Thirdly, the position of ginger shoots regression bounding box directly determined the specific position of shoots, thus DioU (Distance Intersection over Union) bounding box regression loss function was introduced instead of the traditional loss function of IOU, in order to improve the regression effect of regression bounding box. Fourthly, in order to improve the convergence rate of model, the K-means clustering using the IoU measurement was used to derive 9 anchor boxes after linear scaling, indicating more in line with the shoots size. In addition, the Darknet-53 model pre-trained on the ImageNet data set was used for transfer learning, aiming to reduce the training time of model. Finally, after the identification of shoots were completed using the YOLO v3 network, in order to facilitate the selection of the strongest shoot, the area of the prediction bounding box was used as the basis for selection, and only the prediction bounding box with a larger area was retained. A Cartesian coordinate system was established with the center of the image as the origin, and the orientation of shoots was discriminated by calculating the azimuth of the center of prediction bounding box. The average precision and1 were used to evaluate the performance of ginger shoots recognition model. In test, the IoU threshold and the confidence threshold were analyzed to obtain the best detection effect, while the improved strategies were verified one by one. After training and testing, the detection index was the best, when the IoU threshold was 0.6, and the confidence threshold was 0.001. The average precision and1 measure reached 98.2% and 94.9% in the shoot recognition model, respectively, where the detection speed was 112 frames/s for a single 416×416 pixels image on the GPU. Compared with the original YOLOv3, the average precision and1 measure increased by 1.5% and 4.4%, respectively. The recognition model of ginger shoots can be used to achieve significantly excellent recognition, providing a sound theoretical basis to realize automatic and precise ginger sowing.
image recognition; algorithm; convolutional neural networks; ginger shoots; DIoU bounding box regression loss function
侯加林,房立發(fā),吳彥強,等. 基于深度學習的生姜種芽快速識別及其朝向判定[J]. 農業(yè)工程學報,2021,37(1):213-222.doi:10.11975/j.issn.1002-6819.2021.01.026 http://www.tcsae.org
Hou Jialin, Fang Lifa, Wu Yanqiang, et al. Rapid recognition and orientation determination of ginger shoots with deep learning[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(1): 213-222. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2021.01.026 http://www.tcsae.org
2020-09-04
2020-10-27
國家特色蔬菜產(chǎn)業(yè)技術體系項目(CARS-24-D-01);山東省農業(yè)重大應用技術創(chuàng)新項目(SD2019NJ004)
侯加林,教授,博士生導師,主要從事智能農機裝備和農業(yè)信息化工程研究。Email:jlhou@sdau.edu.cn
10.11975/j.issn.1002-6819.2021.01.026
S24; TP183; TP301.6
A
1002-6819(2021)-01-0213-10