關(guān)鍵詞 蘋果; 夜間檢測; 圖像增強(qiáng); 遷移學(xué)習(xí); YOLOv8
中國是全球最大的蘋果生產(chǎn)國,2021 年產(chǎn)量達(dá)到4 597.34 萬t,占據(jù)全球總產(chǎn)量的54.7%[1-2]。在我國蘋果產(chǎn)業(yè)快速發(fā)展和人力資源短缺的背景下,果農(nóng)對智能農(nóng)業(yè)裝備的需求不斷增長[3-4]。視覺系統(tǒng)對蘋果采摘機(jī)器人具有重要意義[4],同時在蘋果的產(chǎn)量估算[5]、果實分揀[6]和表型分析[7]等任務(wù)中也起著關(guān)鍵作用。目前,大部分采摘機(jī)器人與監(jiān)控設(shè)備都是白天作業(yè),如能利用夜間進(jìn)行連續(xù)作業(yè),將提高全天工作效率,有力地推動蘋果產(chǎn)業(yè)的發(fā)展。
夜間環(huán)境下光線弱,采集的圖像存在暗淡、模糊和陰影等問題[8],同時枝葉枝干遮擋、果實密集重疊等情況又進(jìn)一步增加了識別難度,準(zhǔn)確識別夜間蘋果是有挑戰(zhàn)性的任務(wù)。近年來,一些研究者基于圖像處理的方法對夜間果實檢測進(jìn)行了探索。Font等[9]利用人工光源采集成熟葡萄的RGB 圖像,并通過檢測葡萄表面的球面反射峰值進(jìn)行葡萄計數(shù),該方法的平均計數(shù)誤差為14%;趙德安等[10]將R-G 色差分割法用于蘋果采摘機(jī)器人夜間檢測,該方法僅在良好照明條件下表現(xiàn)較佳,在不考慮果實的粘連和遮擋等因素的前提下,正確識別率為83.7%;戴家裕[11]使用明場漫射正面照明作為夜間補(bǔ)光方式,解決了蘋果表面陰影和反光的問題,并通過直方圖均衡化和gamma 矯正進(jìn)一步對圖像增強(qiáng),該方法能夠同時克服夜間環(huán)境和同色系蘋果的識別難點,對綠蘋果的識別成功率為87%。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,以YOLO[12]為代表的目標(biāo)檢測算法廣泛應(yīng)用于夜間果實檢測。熊俊濤等[13]借鑒DenseNet[14]的思想改進(jìn)YOLOv3,增強(qiáng)了模型在夜間復(fù)雜環(huán)境中檢測成熟柑橘的穩(wěn)健性,精確率達(dá)到97.67%,但該方法對暗光圖像識別效果欠佳,且容易將密集多目標(biāo)識別為一個目標(biāo)。孫寶霞等[15]設(shè)計了多光源結(jié)合的視覺系統(tǒng),并基于YOLOv4 對夜間自然環(huán)境下成熟柑橘進(jìn)行識別與表征缺陷檢測,準(zhǔn)確率為95.3%,該方法的有效性依賴于光源系統(tǒng)的設(shè)計。何斌等[16]利用YOLOv5 檢測夜間環(huán)境中的番茄,但由于番茄的綠果在夜間環(huán)境下的顏色容易與葉片、稈莖等混淆,且重疊果實的邊界區(qū)別較為困難,導(dǎo)致番茄的綠果和多果識別率低于紅果。
綜上所述,傳統(tǒng)圖像處理方法在夜間果實檢測任務(wù)中存在精度低、速度慢和通用性差等局限性,難以滿足實際作業(yè)要求,基于深度學(xué)習(xí)的方法具備更優(yōu)的性能,但也有不足之處,許多研究者沿用白天檢測環(huán)境的思路,忽視了夜間環(huán)境的特殊性,導(dǎo)致面對重疊、遮擋、綠果和光線過暗等情形時檢測效果欠佳,同時部分研究還過度依賴于外部輔助光源系統(tǒng)彌補(bǔ)圖像質(zhì)量的不足,此外也沒有利用遷移學(xué)習(xí)策略把日間數(shù)據(jù)納入到模型訓(xùn)練中。針對上述問題,本研究提出了一種融合圖像增強(qiáng)與遷移學(xué)習(xí)的YO?LOv8n 的夜間蘋果檢測方法,以期實現(xiàn)對夜間蘋果的準(zhǔn)確實時檢測,從而提升蘋果采摘機(jī)器人及相關(guān)機(jī)器視覺設(shè)備的全天工作效率。
1 材料與方法
1.1 數(shù)據(jù)集
本研究將MS COCO 的訓(xùn)練集[17]作為源域數(shù)據(jù),其中包含80 個類別的118 287 幅圖像,蘋果類別的實例個數(shù)有5 776 個。目標(biāo)域數(shù)據(jù)來自2019 年現(xiàn)代果園環(huán)境下蘋果圖像數(shù)據(jù)集(https://www.agrida?ta.cn/data.html#/datadetail?id=289878),該數(shù)據(jù)集由華盛頓州立大學(xué)農(nóng)業(yè)自動化和機(jī)器人實驗室創(chuàng)建,用于產(chǎn)量估算和機(jī)器人收割,其中含有夜間環(huán)境下人工照明的蘋果圖像273 幅。將拍攝過于模糊、遮擋十分嚴(yán)重等容易對神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練時產(chǎn)生誤導(dǎo)的蘋果圖像進(jìn)行裁剪,以提升數(shù)據(jù)質(zhì)量,確保模型可以學(xué)到代表性的特征。經(jīng)過處理后的數(shù)據(jù)集共1 092幅,包含無遮擋、枝葉枝干遮擋、果實重疊、單目標(biāo)和多目標(biāo)果實等多種情景。依據(jù)數(shù)據(jù)標(biāo)注原則,使用LabelImg 將圖像中蘋果實例的最小外接矩形標(biāo)注為真實框,得到包含蘋果實例的中心坐標(biāo)和寬高信息的xml 文件,并保存為PASCAL VOC 格式,標(biāo)注結(jié)果示例如圖1 所示。
將標(biāo)注后的數(shù)據(jù)集按7∶3 劃分,得到764 幅圖像的訓(xùn)練集和328 幅圖像的測試集。然后,在訓(xùn)練集上采用翻轉(zhuǎn)、適度的模糊和噪聲等數(shù)據(jù)增強(qiáng)技術(shù),以提升模型的適應(yīng)能力,增強(qiáng)結(jié)果示例如圖2 所示,經(jīng)過數(shù)據(jù)增強(qiáng)后的訓(xùn)練集共有1 528 幅圖像。
1.2 檢測方法
YOLOv8 是當(dāng)前主流的目標(biāo)檢測網(wǎng)絡(luò)之一,具備高效的訓(xùn)練和推理能力,能夠準(zhǔn)確快速地分類和定位果實目標(biāo),根據(jù)網(wǎng)絡(luò)深度和特征圖寬度的不同有n、s、m、l、x 5 個版本,以滿足不同應(yīng)用場景的需求。為保證相關(guān)機(jī)器視覺設(shè)備的工作效率,本研究采用復(fù)雜度較低的YOLOv8n 模型,并在此基礎(chǔ)上搭建適合夜間蘋果檢測的網(wǎng)絡(luò),通過零參考深度曲線估計(zero-reference deep curve estimation,Zero-DCE)[18]模塊增強(qiáng)夜間圖像,并利用SPD-Conv[19]提取細(xì)粒度特征,同時結(jié)合遷移學(xué)習(xí)(transfer learning)策略進(jìn)一步優(yōu)化模型性能。
1)Zero-DCE 增強(qiáng)夜間圖像。夜間采集的圖像整體偏暗,導(dǎo)致部分果實邊緣與背景的顏色差異微小,給機(jī)器視覺識別帶來較大困難,鑒于此,引入Ze?ro-DCE 增強(qiáng)夜間圖像,更清晰地展現(xiàn)蘋果的輪廓和細(xì)節(jié),以降低夜間圖像識別難度,從而為后續(xù)圖像處理任務(wù)提供基礎(chǔ),Zero-DCE 的框架如圖3 所示。
其中,Zero-DCE 以低光圖像作為輸入,利用DCE-Net 學(xué)習(xí)曲線參數(shù)圖,通過亮度增強(qiáng)曲線(lightenhancement curve)對輸入的夜間圖像進(jìn)行像素級調(diào)整,并經(jīng)過多次迭代優(yōu)化輸出最終的增強(qiáng)圖像,提亮曲線對應(yīng)的函數(shù)表達(dá)式為:
式(1)中,x 表示像素坐標(biāo),n 為迭代次數(shù),An是與輸入圖像尺寸相同的參數(shù)圖。為得到準(zhǔn)確的提亮曲線,Zero-DCE 利用DCE-Net 神經(jīng)網(wǎng)絡(luò)進(jìn)行擬合,DCE-Net 包含7 個卷積層和3 個對稱跳躍連接層,其中所有卷積層都采用步長為1 的常規(guī)3×3 卷積核,為保持相鄰像素間的聯(lián)系,卷積層之后未使用BN層,隱藏層激活函數(shù)為ReLU,為確保輸出范圍落在[-1,1]內(nèi),輸出層采用Tanh 激活函數(shù)。
2)SPD-Conv 提取細(xì)粒度特征。圖像增強(qiáng)方法可以有效降低夜間圖像的檢測難度,但由于圖像分辨率較低,復(fù)雜情況下的識別仍然較為困難,因此需要加強(qiáng)模型細(xì)粒度特征提取能力。卷積核的步長大小對特征提取的細(xì)致程度有重要影響,相較于步長為2 的卷積,步長為1 的卷積能夠使特征圖的每個像素點被采樣多次,并且奇數(shù)列和偶數(shù)列的采樣次數(shù)保持一致,這有助于模型提取到細(xì)粒度特征,步長為2 與步長為1 的卷積核采樣特點如圖4 所示?,F(xiàn)有的YOLOv8n 網(wǎng)絡(luò)使用步長為2 的卷積進(jìn)行下采樣和特征提取,這會造成判別特征的丟失。為解決這一問題,在YOLOv8n 中引入SPD-Conv,以使模型提取到更充分、更細(xì)致的判別特征,SPD-Conv 通過SPD(space to depth)保持下采樣過程中信息的完整性并配合步長為1 的卷積提取細(xì)粒度特征,其操作過程如圖5 所示。
圖5 中,設(shè)輸入圖像形狀為L×L×C1,SPD-Conv首先通過SPD 得到4 個形狀為L/2×L/2×C1 的子特征圖,其次將它們沿著通道維度拼接,獲得形狀為L/2×L/2×4C1 的特征圖,最后使用步長為1 的卷積核提取細(xì)粒度特征并調(diào)整輸出特征圖的通道數(shù)。
3)改進(jìn)后的網(wǎng)絡(luò)。改進(jìn)后網(wǎng)絡(luò)的結(jié)構(gòu)如圖6 所示,其中選擇了一些層次的特征圖進(jìn)行可視化展示。首先Input 通過Zero-DCE 對夜間蘋果圖像增強(qiáng),提升夜間圖像的清晰度和辨識度,降低夜間場景下蘋果的識別難度,為后續(xù)的圖像處理任務(wù)奠定基礎(chǔ);其次Backbone 使用融合SPD-Conv 的CBS、C2f 和SP?PF 等模塊對增強(qiáng)后的圖像進(jìn)行多層次的特征提取,淺層特征圖(14 層)包含豐富的紋理特征,提供較多的位置信息,而深層特征圖(20 層)主要包含語義特征,提供較多的類別信息;然后Neck 依次通過FPN、PAN 對Backbone 提取的不同層次的特征圖加以利用,將紋理特征與語義特征融合,從而產(chǎn)生更高質(zhì)量的綜合特征;最后通過解耦頭(doubled head)分別生成預(yù)測目標(biāo)的類別概率和位置坐標(biāo),包括3 個具有不同感受野的檢測分支,分別對應(yīng)25、28 和31 層的特征圖,用以檢測不同尺度的果實目標(biāo),并經(jīng)過非極大值抑制得到符合需求的檢測結(jié)果。
4)遷移學(xué)習(xí)訓(xùn)練策略。在復(fù)雜的夜間環(huán)境中,確保模型的通用性和穩(wěn)定性顯得至關(guān)重要,這需要大量的、多樣的訓(xùn)練數(shù)據(jù)作為支撐,然而實際場景中數(shù)據(jù)獲取比較困難,且人工標(biāo)注數(shù)據(jù)耗時費力,遷移學(xué)習(xí)可以將一個領(lǐng)域上的預(yù)訓(xùn)練模型復(fù)用在新領(lǐng)域中,從而降低數(shù)據(jù)獲取和標(biāo)注的成本。遷移學(xué)習(xí)的核心思路是借助源域中已有的標(biāo)注數(shù)據(jù),通過算法的開發(fā),最大化地利用這些知識,該過程需要尋找源域和目標(biāo)域之間的相似性,以便將源域的知識有效地遷移到目標(biāo)域中[20-21]。為提升遷移學(xué)習(xí)效果,本研究從源域和目標(biāo)域?qū)w移學(xué)習(xí)策略分別做了改進(jìn),本研究所提的遷移學(xué)習(xí)方法的過程如圖7 所示。
其中,針對源域,選取MS COCO 數(shù)據(jù)集作為源域數(shù)據(jù)集,與PASCAL VOC[22]等數(shù)據(jù)集不同,MSCOCO 擁有80 個類別的豐富數(shù)據(jù),將MS COCO 作為源域有助于目標(biāo)域模型習(xí)得底層的、普遍性的規(guī)則,同時蘋果屬于其中的一個類別,因此,源域數(shù)據(jù)中也涵蓋了大量的、各種環(huán)境下的日間蘋果圖像,這使得目標(biāo)域模型在源域模型上微調(diào)是容易泛化的。對于目標(biāo)域,則先將夜間蘋果圖像數(shù)據(jù)集送入Zero-DCE 增強(qiáng),以增加其與日間蘋果圖像的相似度,促進(jìn)正遷移的發(fā)生,進(jìn)而在源域模型上微調(diào)目標(biāo)域模型,從而充分利用源域模型中的知識。
1.3 評估指標(biāo)
本研究將平均精度均值(mean average preci?sion,mAP)作為算法質(zhì)量有效性的評估指標(biāo),mAP是基于精確率(percision,P)和召回率(recall,R)計算出來的,精確率P 表示預(yù)測的正確樣本占總預(yù)測樣本的比例,召回率R 表示預(yù)測的正確樣本占實際正確樣本的比例,mAP@0.5:0.95 則是模型在不同交并比(intersection over union,IoU)閾值(0.5 至0.95,步長為0.05)下的平均值。另外,將推理速度(單位為幀/s)作為算法實時性的評估指標(biāo)。
1.4 試驗環(huán)境與參數(shù)設(shè)置
模型訓(xùn)練硬件配置為Intel(R) Core(TM) i9-10900KF CPU @ 3.70 GHz,RAM 為64 GB,GPU 為NVIDIA GeForce RTX 3090 24 GB;軟件運行環(huán)境基于Windows 10(x64)操作系統(tǒng),采用Python 編程語言和Pytorch 深度學(xué)習(xí)框架,Python 3.9.18,Pytorch1.13.1,Torchvision 0.14.1,Torchaudio 0.13.1,Cuda11.7.0,Cudnn 8.4.0。
試驗采用隨機(jī)梯度下降法(stochastic gradientdescent,SGD)作為優(yōu)化器,初始學(xué)習(xí)率和最終學(xué)習(xí)率設(shè)為0.01,SGD 動量設(shè)為0.937,權(quán)值衰減參數(shù)設(shè)為0.000 5,批次大小設(shè)為16。運用warm up 訓(xùn)練策略,warm up 輪數(shù)設(shè)為3,總訓(xùn)練輪數(shù)設(shè)為100。
2 結(jié)果與分析
2.1 訓(xùn)練過程
YOLOv8n 基線模型和應(yīng)用本研究方法得到的改進(jìn)模型訓(xùn)練過程中在測試集上的mAP0.5:0.95 變化如圖8 所示。由圖8 可知,對于基線模型,訓(xùn)練初期的較大學(xué)習(xí)率使mAP@0.5:0.95 快速提升,但也導(dǎo)致了模型的震蕩,當(dāng)訓(xùn)練輪次達(dá)到20 左右時,mAP@0.5:0.95 增長速度明顯放緩,模型逐步達(dá)到飽和,并隨著學(xué)習(xí)率不斷減小,曲線逐漸趨于平穩(wěn)。相比之下,本研究所提方法采用了遷移學(xué)習(xí)策略,因此曲線起點更高、坡度更陡且漸近線更高,表明本研究方法初始性能更為出色、收斂速度更快且能達(dá)到更高的精度。此外,由于遷移學(xué)習(xí)允許使用較大的學(xué)習(xí)率訓(xùn)練,本研究方法從訓(xùn)練初期就表現(xiàn)出更好的穩(wěn)定性。
2.2 消融試驗
本部分重點就圖像增強(qiáng)和遷移學(xué)習(xí)的改進(jìn)方法進(jìn)行了消融試驗研究。其中,將YOLOv8n 作為基線模型,記為模型1(YOLOv8n);在模型1 中應(yīng)用SPDConv,得到模型2(YOLO-SPD);在模型1 中應(yīng)用Ze?ro-DCE,得到模型3(YOLO-Zero);在模型1 中應(yīng)用遷移學(xué)習(xí)策略,得到模型4(YOLO-TL);在模型1 中同時應(yīng)用Zero-DCE 和遷移學(xué)習(xí)策略,得到模型5(YOLO-Zero-TL);在模型5 中應(yīng)用SPD-Conv,得到模型6(YOLO-SPD-Zero-TL)。測試結(jié)果如表1所示。
由表1 可知,模型2 與模型1(YOLOv8)相比,mAP@0.5:0.95 提升0.7 百分點,這是因為SPDConv可以增強(qiáng)模型細(xì)粒度特征的提取能力,從而更準(zhǔn)確地識別低分辨率的果實目標(biāo);模型3 與模型1 相比,mAP@0.5:0.95 提升了0.9 百分點,說明Zero-CDE 提升了夜間圖像的清晰度和辨識度,降低蘋果對象的檢測難度;模型4 與模型1 相比,mAP@0.5:0.95 提升2.3 百分點,表明遷移學(xué)習(xí)增強(qiáng)了模型的穩(wěn)定性和通用性,提升了模型在復(fù)雜場景下的檢測能力;模型5 與模型1 相比,在mAP@0.5:0.95 表現(xiàn)上提升3.7 百分點,且提升幅度大于模型3 與模型4 增益的總和,這是因為經(jīng)Zero-DCE 處理的夜間蘋果圖像有效促進(jìn)了正遷移;模型6 與模型1 相比,mAP@0.5:0.95 提升4.3 百分點,說明SPD-Conv、Zero-CDE 和遷移學(xué)習(xí)等改進(jìn)是可以相互兼容的。此外,從各模型推理速度可以看出,遷移學(xué)習(xí)策略并未影響模型的推理速度,即使Zero-DCE 和SPD-Conv 在一定程度上降低了推理速度,但是在可接受范圍內(nèi),而將兩者結(jié)合使用卻能夠顯著提高模型的精度,這為夜間環(huán)境下的果實檢測提供了更有效的解決思路。
2.3 魯棒性試驗
為探究復(fù)雜場景下模型的檢測效果,從測試集中隨機(jī)挑選85 幅圖像分別輸入到基線模型和應(yīng)用本研究方法得到的改進(jìn)模型中進(jìn)行檢測,其中含有重疊、遮擋、綠果、光線過暗的蘋果實例個數(shù)分別為109、185、93 和76,結(jié)果如表2 所示。
由表2 可知,相較于基線模型,改進(jìn)后的模型在重疊情況下的正確識別率提升3.7 百分點,在遮擋情況下的正確識別率提升2.7 百分點,在綠果情況下的正確識別率提升4.3 個百分點,在光線過暗情況下的正確識別率提升5.2 百分點。對應(yīng)的檢測示例如圖9所示,其中正確檢測結(jié)果采用紅色矩形框標(biāo)記,漏檢、誤檢結(jié)果分別采用藍(lán)色和黃色橢圓框標(biāo)記(上側(cè)、下側(cè)圖像分別表示基線模型和本研究所提模型的推理結(jié)果)。
由以上結(jié)果可知,在面對重疊、遮擋、綠果和光線過暗等復(fù)雜情形時,基線模型更容易出現(xiàn)誤檢和漏檢,而本研究所提模型仍然保持較高的檢測精度,證明本研究所提模型在穩(wěn)定性和魯棒性上表現(xiàn)更好,能夠有效地降低夜間蘋果檢測的誤檢率和漏檢率。
3 討論
本研究提出了一種融合圖像增強(qiáng)與遷移學(xué)習(xí)的YOLOv8n 蘋果夜間檢測方法,該方法采用YO?LOv8n 模型,通過Zero-DCE 增強(qiáng)夜間圖像,并利用SPD-Conv 提取細(xì)粒度特征,同時結(jié)合遷移學(xué)習(xí)策略進(jìn)一步優(yōu)化模型性能。試驗結(jié)果表明,本研究所提方法的模型在夜間蘋果數(shù)據(jù)集上的精確率為97.0%,召回率為93.4%,平均精度均值mAP@0.5:0.95 為74.6%,推理速度為22 幀/s,可以滿足實時準(zhǔn)確檢測的需求。
蘋果夜間檢測具有一定的復(fù)雜性,盡管深度學(xué)習(xí)方法在夜間檢測中展現(xiàn)出一定優(yōu)勢,但仍有一些不足。熊俊濤等[13]和何斌等[16]檢測夜間果實時僅對YOLO 模型本身改進(jìn),盡管取得了一定優(yōu)化效果,但在密集、重疊、暗光或綠果等情景的果實識別率較低。相比之下,本研究在對YOLOv8n 模型改進(jìn)的基礎(chǔ)上,針對性地引入輸入端圖像增強(qiáng)方法和遷移學(xué)習(xí)訓(xùn)練策略,有效地提升了模型在夜間復(fù)雜場景下檢測蘋果的穩(wěn)定性。
此外,本研究采用的Zero-DCE 夜間圖像增強(qiáng)方法基于深度學(xué)習(xí)技術(shù),可以避免傳統(tǒng)圖像處理方法[11]導(dǎo)致的模型推理速度慢的問題,而遷移學(xué)習(xí)策略不增加模型的復(fù)雜度,因此本研究模型保持較高檢測精度的同時,也具備較好的實時性。
消融試驗顯示,結(jié)合圖像增強(qiáng)和遷移學(xué)習(xí)的方法的效果超過單獨應(yīng)用兩者效果的總和。另外,改進(jìn)后的模型展現(xiàn)出了較強(qiáng)的抗干擾能力,即使在重疊、遮擋、綠果和光線過暗等困難情形下,也能達(dá)到良好的識別效果。本研究所提方法為解決夜間果實檢測問題提供了一種新的研究思路和技術(shù)手段,可為后續(xù)的相關(guān)研究提供參考。