• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    果實(shí)目標(biāo)深度學(xué)習(xí)識別技術(shù)研究進(jìn)展

    2023-03-07 07:20:02宋懷波尚鈺瑩何東健
    關(guān)鍵詞:卷積深度利用

    宋懷波 尚鈺瑩 何東健

    (1.西北農(nóng)林科技大學(xué)機(jī)械與電子工程學(xué)院, 陜西楊凌 712100;2.農(nóng)業(yè)農(nóng)村部農(nóng)業(yè)物聯(lián)網(wǎng)重點(diǎn)實(shí)驗(yàn)室, 陜西楊凌 712100)

    0 引言

    隨著水果種植產(chǎn)業(yè)的迅速發(fā)展及勞動(dòng)力資源的日益緊缺,開發(fā)智能化、自動(dòng)化農(nóng)業(yè)智能裝備的需求在不斷增加,果實(shí)采摘機(jī)器人已成為農(nóng)業(yè)發(fā)展的重要方向[1]。利用機(jī)器人進(jìn)行采摘作業(yè)不僅可以提高采摘效率且降低了勞動(dòng)成本,有利于提高果農(nóng)的經(jīng)濟(jì)效益[2]。實(shí)現(xiàn)自然場景下果實(shí)的準(zhǔn)確識別與定位,可為果實(shí)采摘機(jī)器人的視覺系統(tǒng)提供關(guān)鍵的技術(shù)支持[3-4]。利用機(jī)器視覺技術(shù)對果實(shí)目標(biāo)進(jìn)行檢測,對于果實(shí)的生長監(jiān)測、產(chǎn)量預(yù)測[5-6]、果實(shí)分揀等任務(wù)也具有重要意義,是實(shí)施精準(zhǔn)農(nóng)業(yè)技術(shù)的重要步驟之一[7]。本文以果實(shí)采摘為例,對果實(shí)目標(biāo)識別技術(shù)研究成果進(jìn)行綜述。

    果實(shí)目標(biāo)識別方法主要包括基于手工設(shè)計(jì)特征的傳統(tǒng)識別方法和基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network, CNN)的深度學(xué)習(xí)方法兩種。傳統(tǒng)目標(biāo)檢測算法主要包括區(qū)域選擇、特征提取和分類3個(gè)步驟。傳統(tǒng)目標(biāo)檢測算法相對成熟,然而,在復(fù)雜的自然場景下,果實(shí)目標(biāo)檢測任務(wù)仍存在難點(diǎn):果實(shí)種類以及外觀形態(tài)具有多樣性;光照條件變化;復(fù)雜天氣情況;復(fù)雜背景影響等。這些問題使得手工設(shè)計(jì)特征的過程更加復(fù)雜[8-9],且傳統(tǒng)的目標(biāo)檢測算法存在檢測精度較低、檢測速度較慢、模型實(shí)時(shí)性較差、普適性不強(qiáng)等缺點(diǎn),應(yīng)用傳統(tǒng)目標(biāo)檢測算法進(jìn)行果實(shí)目標(biāo)檢測難以滿足果實(shí)采摘機(jī)器人的實(shí)際作業(yè)要求。基于深度學(xué)習(xí)的果實(shí)目標(biāo)檢測模型是一種端到端的檢測模型,可將目標(biāo)的特征提取、特征選擇和特征分類融合在同一模型中[10]。深度學(xué)習(xí)模型具有高度的層次結(jié)構(gòu)和強(qiáng)大的學(xué)習(xí)能力[11],在復(fù)雜視覺信息與目標(biāo)感知融合方面具有獨(dú)特優(yōu)勢[12]。

    雖然深度學(xué)習(xí)技術(shù)在果實(shí)目標(biāo)識別方面取得了很好的效果和進(jìn)展,然而距離實(shí)際作業(yè)應(yīng)用還有一定的距離。如圖1所示,本文對蘋果、番茄、柑橘等28種果實(shí)的相關(guān)識別研究成果進(jìn)行檢索(圖中沒有標(biāo)注數(shù)量的均為1),并以此為基礎(chǔ)總結(jié)歸納國內(nèi)外果實(shí)目標(biāo)識別的研究進(jìn)展、關(guān)鍵技術(shù),分析果實(shí)目標(biāo)識別任務(wù)存在的問題和面臨的挑戰(zhàn),并對未來發(fā)展趨勢進(jìn)行展望,以期為果實(shí)目標(biāo)識別任務(wù)的后續(xù)研究提供參考。

    圖1 引文中涉及到的果實(shí)種類及數(shù)量Fig.1 Species and quantity of fruit involved in citation

    1 傳統(tǒng)果實(shí)目標(biāo)識別方法

    傳統(tǒng)的果實(shí)目標(biāo)識別方法是基于顏色、幾何形狀、紋理等特征對果實(shí)目標(biāo)進(jìn)行分類、檢測和分割[13]?;陬伾卣鞯墓麑?shí)目標(biāo)識別方法主要通過選取合適的顏色模型,利用果實(shí)目標(biāo)與背景區(qū)域的像素顏色特征差異,將果實(shí)目標(biāo)與背景分開。利用YCbCr顏色模型對荔枝圖像進(jìn)行閾值分割,去除復(fù)雜背景,可實(shí)現(xiàn)荔枝果實(shí)與果梗的識別,綜合識別率為95.50%[14]?;跉w一化紅綠色差的蘋果分割方法可實(shí)現(xiàn)紅色蘋果與綠色背景的分割,然而當(dāng)果實(shí)目標(biāo)的顏色與背景顏色相似時(shí),僅利用簡單的顏色特征進(jìn)行果實(shí)目標(biāo)分割難以取得較好的效果[3]。以歸一化的g分量和HSV顏色空間中H、S分量為特征參數(shù)的支持向量機(jī)(Support vector machine, SVM)分類器和以超綠算子(2G-R-B)為特征的閾值分類器,設(shè)計(jì)一種用于近色背景中綠色蘋果目標(biāo)識別的混合分類器,該方法平均識別正確率為89.30%[15]。

    當(dāng)果實(shí)目標(biāo)與背景的顏色特征較為接近,或者光照條件對果實(shí)顏色的影響較大時(shí),相比于顏色特征,利用果實(shí)與背景之間的形狀和紋理特征的差異可以取得更好的分割效果。利用顏色、形狀和紋理特征可識別自然環(huán)境中的綠色柑橘,其正確率為75.30%[16]。基于邊緣曲率分析的重疊番茄識別方法對輕微遮擋的重疊番茄識別正確率為90.90%,對遮擋率在25%~50%之間的番茄目標(biāo)的識別正確率為76.90%[17]。利用檸檬、柑橘等水果近球形的形態(tài)特征,結(jié)合其深度圖像,實(shí)現(xiàn)對果實(shí)中心點(diǎn)的定位及果實(shí)圖像的分割,可解決光照和近景色所造成的識別精度較低的問題[18]。

    隨著傳統(tǒng)目標(biāo)檢測算法的不斷發(fā)展,手工設(shè)計(jì)特征的算法性能逐漸趨于飽和[19],然而,傳統(tǒng)目標(biāo)檢測算法仍存在以下局限性:在生成候選區(qū)域的過程易產(chǎn)生大量冗余區(qū)域;在復(fù)雜背景下,基于低級視覺線索設(shè)計(jì)的特征描述符較難提取具有代表性的語義信息[20]。所以,對于復(fù)雜場景下的果實(shí)目標(biāo)檢測,例如:背景較為復(fù)雜、目標(biāo)之間存在嚴(yán)重遮擋、光照不均等情況,傳統(tǒng)果實(shí)目標(biāo)檢測算法已不能滿足需求,且傳統(tǒng)目標(biāo)檢測算法在檢測速度和模型大小方面均難以滿足果實(shí)采摘機(jī)器人的要求,因此,基于傳統(tǒng)方法的果實(shí)目標(biāo)識別技術(shù)較難推廣到實(shí)際應(yīng)用領(lǐng)域。

    2 基于深度學(xué)習(xí)的果實(shí)目標(biāo)識別方法

    深度學(xué)習(xí)是一種具有多層次表征的學(xué)習(xí)方法[21],深度學(xué)習(xí)方法通過引入多層感知器結(jié)構(gòu),利用低級特征形成高級特征,用于最終的目標(biāo)檢測任務(wù)[1]。與傳統(tǒng)的目標(biāo)檢測算法相比,深度學(xué)習(xí)在圖像分類、目標(biāo)檢測和識別方面優(yōu)勢明顯。由于自然場景下的果實(shí)目標(biāo)具有空間分布隨機(jī)、存在重疊遮擋、形狀多樣等非結(jié)構(gòu)化特征,而深度卷積網(wǎng)絡(luò)可以自動(dòng)從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)特征。因此,深度學(xué)習(xí)方法可以在復(fù)雜的自然場景下表現(xiàn)出更加強(qiáng)大的果實(shí)目標(biāo)識別能力。根據(jù)檢測組件和目標(biāo)區(qū)域的識別結(jié)果,深度學(xué)習(xí)模型可以分為分類檢測模型和分割模型。如圖2a、2b所示,分類檢測模型包括圖像分類和目標(biāo)檢測,目標(biāo)檢測的輸出是目標(biāo)類別及其邊界框的區(qū)域,目標(biāo)檢測任務(wù)在完成圖像分類任務(wù)的同時(shí)利用邊界框反映目標(biāo)的位置信息。圖像分割是指根據(jù)圖像屬性與目標(biāo)圖像的一致性,對特征相對一致的目標(biāo)圖像進(jìn)行分割,使同一子區(qū)域的特征具有一定的相似性和差異性[22]。分割模型需要精確的像素級掩碼進(jìn)行目標(biāo)分割[12]。如圖2c、2d所示,分割模型主要包括語義分割和實(shí)例分割,語義分割為每個(gè)像素分配特定的類別標(biāo)簽,但并不區(qū)分同一類別的多個(gè)對象,實(shí)例分割為每個(gè)目標(biāo)分配單獨(dú)的分類像素級掩碼,可以區(qū)分同一類別的不同目標(biāo)。學(xué)者們對于果實(shí)目標(biāo)檢測和分割的研究大多是基于在目標(biāo)識別領(lǐng)域表現(xiàn)較好的網(wǎng)絡(luò)模型,根據(jù)不同果實(shí)目標(biāo)生長的自然環(huán)境以及果實(shí)目標(biāo)本身的特點(diǎn),對網(wǎng)絡(luò)模型的輸入端、骨干網(wǎng)絡(luò)等結(jié)構(gòu)進(jìn)行改進(jìn),或是引入注意力機(jī)制、遷移學(xué)習(xí)、特征融合、密集連接等操作,以實(shí)現(xiàn)提高目標(biāo)識別的效果,提高模型在復(fù)雜場景下的魯棒性,或是實(shí)現(xiàn)模型的輕量化等目標(biāo)。

    2.1 數(shù)據(jù)集制備方法

    圖3為基于深度學(xué)習(xí)的果實(shí)目標(biāo)識別及應(yīng)用的基本步驟。首先是采集數(shù)據(jù),通過對田間采集到的果實(shí)目標(biāo)圖像進(jìn)行處理分析,以實(shí)現(xiàn)不同場景下、不同品種、不同生長階段的果實(shí)目標(biāo)識別任務(wù)。接著針對不同目標(biāo)識別任務(wù)的特點(diǎn)進(jìn)行數(shù)據(jù)預(yù)處理(數(shù)據(jù)集制備),該過程既包括利用圖像增強(qiáng)技術(shù)進(jìn)行圖像的顏色、亮度、對比度等的調(diào)整,或?qū)D像進(jìn)行旋轉(zhuǎn)、翻轉(zhuǎn)、裁剪等操作,使輸入到網(wǎng)絡(luò)中的圖像更適合于特定的目標(biāo)識別任務(wù)或?qū)崿F(xiàn)數(shù)據(jù)集規(guī)模的擴(kuò)大,也包括對數(shù)據(jù)集進(jìn)行標(biāo)注,實(shí)現(xiàn)用于深度學(xué)習(xí)任務(wù)的標(biāo)簽文件制作。根據(jù)訓(xùn)練數(shù)據(jù)是否含有標(biāo)簽信息,可將訓(xùn)練過程分為監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)3類。

    圖3 果實(shí)目標(biāo)識別的基本步驟Fig.3 Basic steps of fruit target recognition

    基于深度學(xué)習(xí)的目標(biāo)識別任務(wù)需要一定規(guī)模的數(shù)據(jù)集進(jìn)行訓(xùn)練,目前基于深度學(xué)習(xí)的果實(shí)目標(biāo)檢測方法大多是基于監(jiān)督學(xué)習(xí),通過向網(wǎng)絡(luò)中輸入一定數(shù)量的圖像及其對應(yīng)的標(biāo)簽文件進(jìn)行模型訓(xùn)練,以提取目標(biāo)的特征,實(shí)現(xiàn)目標(biāo)識別任務(wù)。監(jiān)督學(xué)習(xí)是解決分類和回歸問題的常用方法[23]。對于田間果實(shí)目標(biāo)識別任務(wù),訓(xùn)練數(shù)據(jù)在一定程度上決定了目標(biāo)檢測任務(wù)的效果,其規(guī)模取決于果實(shí)圖像的視覺復(fù)雜度和深度學(xué)習(xí)模型的種類。由于果實(shí)生長的田間環(huán)境較為復(fù)雜多變,該環(huán)境下采集到的果實(shí)目標(biāo)可能存在遮擋、光照不均、果實(shí)目標(biāo)大小不一、顏色變化等情況,網(wǎng)絡(luò)的特征提取過程相對困難,因此需要較大規(guī)模的數(shù)據(jù)。對于網(wǎng)絡(luò)結(jié)構(gòu)較復(fù)雜、層數(shù)較深的網(wǎng)絡(luò),其精確度較高,然而也需要大量的訓(xùn)練數(shù)據(jù)[24],且對于不同品種果實(shí)的檢測任務(wù),都需制定合適的標(biāo)注策略。

    基于監(jiān)督學(xué)習(xí)的數(shù)據(jù)標(biāo)注過程耗時(shí)耗力,效率低下,且對某些特定的識別任務(wù),數(shù)據(jù)標(biāo)注過程需要相關(guān)專家提供指導(dǎo)。因此如何更有效地標(biāo)記數(shù)據(jù)并使用更少的樣本進(jìn)行有效學(xué)習(xí)是目前該領(lǐng)域的關(guān)鍵問題。利用中小型數(shù)據(jù)進(jìn)行半監(jiān)督學(xué)習(xí)以獲得高精度的結(jié)果,為此類研究提供了借鑒,半監(jiān)督學(xué)習(xí)的訓(xùn)練數(shù)據(jù)中僅部分圖像有對應(yīng)的標(biāo)簽,且?guī)?biāo)簽的數(shù)據(jù)所占比例較小,通過從帶標(biāo)簽的數(shù)據(jù)中提取到的局部特征進(jìn)行圖像分類[25]。

    無監(jiān)督學(xué)習(xí)可以完全脫離數(shù)據(jù)集標(biāo)注過程,模型僅利用圖像作為訓(xùn)練數(shù)據(jù),其通過學(xué)習(xí)數(shù)據(jù)的結(jié)構(gòu),并從數(shù)據(jù)中提取可區(qū)分的信息或特征,將輸入映射到特定輸出[26]。聚類是最基本的無監(jiān)督學(xué)習(xí)之一,其目標(biāo)是將數(shù)據(jù)分成相似數(shù)據(jù)點(diǎn)的聚類[27]。因此,無監(jiān)督學(xué)習(xí)在圖像分割領(lǐng)域應(yīng)用較多。盡管如此,監(jiān)督學(xué)習(xí)仍然是目前的主流方法,關(guān)于半監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)的研究相對較少。

    2.2 基于深度學(xué)習(xí)的果實(shí)目標(biāo)檢測方法

    目標(biāo)檢測任務(wù)可以分為目標(biāo)定位和目標(biāo)分類。隨著計(jì)算機(jī)算力的提升和數(shù)據(jù)規(guī)模的不斷擴(kuò)大,基于深度卷積神經(jīng)網(wǎng)絡(luò)(Deep convolutional neural network, DCNN)的目標(biāo)檢測技術(shù)逐漸得到發(fā)展。自AlexNet[28]應(yīng)用于圖像分類任務(wù)并贏得ILSVRC-2012比賽冠軍以來,諸多學(xué)者開始致力于DCNN的研究和應(yīng)用。圖4為基于深度學(xué)習(xí)的目標(biāo)檢測算法的發(fā)展歷程,圖中橙色箭頭表示無錨框目標(biāo)檢測算法?;谏疃葘W(xué)習(xí)的目標(biāo)檢測主要分為兩大類:兩階段檢測和單階段檢測。兩階段目標(biāo)檢測將目標(biāo)定位和目標(biāo)分類任務(wù)分離開,首先生成候選區(qū)域,再對區(qū)域進(jìn)行分類。其代表算法有R-CNN[29]、SPPNet[30]、Fast R-CNN[31]、Faster R-CNN[32]等。單階段目標(biāo)檢測省去了生成候選區(qū)域的過程,直接生成目標(biāo)的類概率和位置坐標(biāo),其過程比兩階段目標(biāo)檢測簡單。單階段目標(biāo)檢測的代表算法有SSD系列、YOLO系列等。

    圖4 基于深度學(xué)習(xí)的目標(biāo)檢測算法發(fā)展歷程Fig.4 Development of object detection algorithm based on deep learning

    2.2.1兩階段果實(shí)目標(biāo)檢測方法

    兩階段檢測方法又稱為基于候選區(qū)域的檢測方法。將傳統(tǒng)的機(jī)器學(xué)習(xí)方法與CNN相結(jié)合,提出一種基于R-CNN的檢測框架,通過選擇性搜索獲得盡可能多的候選區(qū)域,利用CNN代替人工提取區(qū)域的特征并使用SVM進(jìn)行分類。SPPNet引入自適應(yīng)大小的池化,其運(yùn)行速度比R-CNN更快。Fast R-CNN利用興趣池化區(qū)域(Region of interest Pooling, RoI Pooling)層代替空間金字塔池化(Spatial pyramid pooling, SPP)層,加快了模型的速度。由于SPPNet和Fast R-CNN生成的候選區(qū)域數(shù)量過多,導(dǎo)致了大量的計(jì)算消耗,因此其應(yīng)用場景受到了限制。一種區(qū)域生成網(wǎng)絡(luò)(Region proposal network, RPN)方法用于生成候選區(qū)域,其輸入為骨干網(wǎng)絡(luò)輸出的特征圖,輸出為一組矩形的候選區(qū)域,且每個(gè)區(qū)域均有一個(gè)目標(biāo)得分[33]。

    Faster R-CNN模型用RPN取代Fast R-CNN中的選擇性搜索,且通過網(wǎng)絡(luò)共享的方式生成候選區(qū)域,利用Softmax分類器完成訓(xùn)練和學(xué)習(xí)過程,其檢測性能有了大幅提高,被廣泛地應(yīng)用于目標(biāo)檢測任務(wù)。Faster R-CNN算法由特征提取器、RPN和Fast R-CNN模塊構(gòu)成。首先對輸入網(wǎng)絡(luò)中的圖像進(jìn)行特征提取,再將提取到的特征輸入RPN和Fast R-CNN,生成建議矩形框。如文獻(xiàn)[7,33],利用Faster R-CNN模型可實(shí)現(xiàn)自然場景下的柑橘果實(shí)和芒果花穗的檢測,然而其mAP均相對較低,檢測效果不理想。

    利用遷移學(xué)習(xí)的模型對Faster R-CNN的模型結(jié)構(gòu)進(jìn)行改進(jìn),可以提高模型的泛化性能和檢測精度。如文獻(xiàn)[34],利用遷移學(xué)習(xí)訓(xùn)練基于Faster R-CNN的柑橘目標(biāo)識別模型,可有效降低訓(xùn)練模型的平均損失,且模型平均準(zhǔn)確率較高。文獻(xiàn)[35]利用遷移學(xué)習(xí)微調(diào)的AlexNet網(wǎng)絡(luò)替換Faster R-CNN原始的特征提取層,可解決廣域復(fù)雜環(huán)境中的獼猴桃因枝葉遮擋或部分果實(shí)重疊遮擋所導(dǎo)致的識別精度較低的問題。

    為了提高檢測準(zhǔn)確率,降低目標(biāo)的漏檢率,同時(shí)提高模型在目標(biāo)存在遮擋、目標(biāo)形態(tài)和大小存在差異等復(fù)雜場景下的魯棒性,一些學(xué)者對Faster R-CNN算法進(jìn)行了改進(jìn)。基于數(shù)據(jù)平衡進(jìn)行數(shù)據(jù)擴(kuò)增,可解決Faster R-CNN模型檢測不同成熟度冬棗的樣本數(shù)量相差懸殊導(dǎo)致的識別率較低的問題[36]。利用預(yù)訓(xùn)練的VGG16網(wǎng)絡(luò)替換Faster R-CNN原始的特征提取層,并改進(jìn)RPN的結(jié)構(gòu),可提高模型對在體青皮核桃和蘋果果實(shí)的檢測精度的漏檢率[37-38]。將興趣區(qū)域校準(zhǔn)引入Faster R-CNN框架,可提高Faster R-CNN模型對不同形態(tài)刺梨的檢測精度[39]。融合RGB圖像和深度信息,并融合全局和局部信息,可提高Faster R-CNN對小目標(biāo)百香果的檢測效果[40]。

    用于目標(biāo)檢測的基于區(qū)域的全卷積網(wǎng)絡(luò)(Region-based fully convolutional networks, R-FCN),由共享的全卷積網(wǎng)絡(luò)構(gòu)成,可實(shí)現(xiàn)整個(gè)圖像上的共享計(jì)算,有效減少了參數(shù)冗余,并引入位置敏感分?jǐn)?shù)圖解決了圖像分類中的平移不變性與目標(biāo)檢測中的平移可變性間的矛盾,該模型具有較快的訓(xùn)練和檢測速度[41]。利用ResNet-44替換R-FCN的原始特征提取網(wǎng)絡(luò),可有效識別重疊、枝葉遮擋、模糊及表面有陰影的蘋果目標(biāo),并簡化網(wǎng)絡(luò)結(jié)構(gòu)[42]。兩階段果實(shí)目標(biāo)檢測算法的相關(guān)研究成果如表1所示。

    表1 基于兩階段算法的果實(shí)目標(biāo)識別研究成果Tab.1 Research on fruit target recognition based on two-stage algorithm

    2.2.2單階段果實(shí)目標(biāo)檢測方法

    雖然兩階段目標(biāo)檢測算法的檢測精度較高,但其參數(shù)數(shù)量和計(jì)算量較大,檢測速度較慢,難以完成實(shí)時(shí)檢測任務(wù),影響了采摘機(jī)器人的工作效率。

    表2列出了基于單階段目標(biāo)檢測算法的果實(shí)目標(biāo)識別研究成果。單階段目標(biāo)檢測算法又稱為基于回歸的檢測方法。LIU等[17]提出了一種利用單個(gè)深度網(wǎng)絡(luò)進(jìn)行目標(biāo)檢測的SSD模型,其核心是利用小型卷積濾波器進(jìn)行多尺度特征映射,生成并預(yù)測固定的默認(rèn)邊界框的類別得分和偏移量。由于SSD模型實(shí)現(xiàn)了端對端的訓(xùn)練,其具有易于訓(xùn)練和集成的優(yōu)點(diǎn),與兩階段檢測方法相比,SSD基本實(shí)現(xiàn)了檢測速度與精度的相對平衡,因此被廣泛地應(yīng)用于果實(shí)目標(biāo)檢測任務(wù)。利用ResNet-101模型替換SSD的原始主干網(wǎng)絡(luò),可實(shí)現(xiàn)蘋果、荔枝等4種水果的識別,且該模型的檢測精度高于原始SSD模型[43]。SSD模型采用特征金字塔來檢測不同尺度的目標(biāo),然而由淺層網(wǎng)絡(luò)生成的小目標(biāo)特征缺乏足夠的語義信息,導(dǎo)致其對小目標(biāo)的檢測性能較差。FSSD[78]是一種增加了特征融合的SSD模型,該模型在傳統(tǒng)SSD的基礎(chǔ)上增加一個(gè)輕量級、高效的特征融合模塊,對不同比例的特征圖進(jìn)行融合,以提升對小目標(biāo)的檢測性能?;诟倪M(jìn)的輕量化FSSD模型可實(shí)現(xiàn)靈武長棗的檢測,該方法可為靈武長棗的智能化采摘提供一定的技術(shù)支持[44]?;诙嘀靥卣髟鰪?qiáng)與特征融合的MFEFF-SSD模型可實(shí)現(xiàn)無人機(jī)拍攝圖像中小目標(biāo)荔枝的檢測,然而該方法存在誤檢和漏檢的情況[45]?;诟倪M(jìn)FSSD的柚子目標(biāo)檢測模型可有效改善綠葉被誤檢為膨大期柚子果實(shí)的情況[46]。

    表2 基于單階段算法的果實(shí)目標(biāo)識別研究成果Tab.2 Research on fruit target recognition based on one-stage algorithm

    續(xù)表2

    YOLO(You only look once)是REDMON等[79]在2015年提出的一種目標(biāo)檢測算法,它是深度學(xué)習(xí)時(shí)期的第一個(gè)單階段目標(biāo)檢測算法。YOLO將目標(biāo)檢測任務(wù)看作單一的回歸問題,僅用單個(gè)網(wǎng)絡(luò)便可實(shí)現(xiàn)多個(gè)邊界框的位置和類別預(yù)測。YOLO檢測速度快,對背景的誤檢率較低,且泛化性能較好,然而,YOLO算法存在以下局限性:YOLO的每個(gè)網(wǎng)格只能有兩個(gè)預(yù)測框并預(yù)測一個(gè)類別,因此其對小目標(biāo)的檢測性能較差;YOLO從大量的訓(xùn)練數(shù)據(jù)中提取目標(biāo)的特征,若測試數(shù)據(jù)中目標(biāo)的長寬比與訓(xùn)練數(shù)據(jù)有較大不同,則網(wǎng)絡(luò)檢測效果欠佳;損失函數(shù)無差別地處理大小邊界框的誤差,大邊界框的誤差和小邊界框的誤差對交并比(Intersection over union, IoU)的影響差異較大。

    YOLOv2[80]在YOLO的基礎(chǔ)上對損失函數(shù)、骨干網(wǎng)絡(luò)等進(jìn)行改進(jìn),同時(shí)引入了錨點(diǎn)框、批量歸一化、高分辨率分類器等結(jié)構(gòu),YOLOv2在檢測速度、準(zhǔn)確率等方面均有較大提升?;赮OLOv2可實(shí)現(xiàn)綠色芒果的檢測,在圖像中包含的芒果數(shù)量較多或者光線較暗的情況下,其檢測效果不理想[47]。對于存在遮擋或重疊的目標(biāo),YOLOv2的檢測效果有待提高。采用帶密集連接的Tiny-yolo-dense作為YOLOv2的主干網(wǎng)絡(luò),可提高YOLOv2芒果檢測模型在重疊遮擋場景下的性能,然而該方法需要復(fù)雜的前景區(qū)域標(biāo)注過程[48]。

    YOLOv3[81]引入了特征金字塔網(wǎng)絡(luò)(Feature pyramid network, FPN)[82]和ResNet[83]結(jié)構(gòu),同時(shí)采用DarkNet53作為骨干網(wǎng)絡(luò),增加了多尺度預(yù)測結(jié)構(gòu),使網(wǎng)絡(luò)的檢測精度得到了提升。利用YOLOv3可實(shí)現(xiàn)復(fù)雜環(huán)境中草莓和荔枝的檢測,然而該方法的效果受到光照強(qiáng)度的影響。由于果實(shí)生長的自然環(huán)境較為復(fù)雜,枝葉和果實(shí)間的遮擋、復(fù)雜的光照情況等為果實(shí)目標(biāo)的準(zhǔn)確檢測帶來困難,針對復(fù)雜場景中的果實(shí)目標(biāo)檢測以及小目標(biāo)果實(shí)的檢測,YOLOv3的檢測性能尚需提高,對YOLOv3模型進(jìn)行改進(jìn)可以提高模型在復(fù)雜環(huán)境下的識別效果。利用YOLOv3-SE網(wǎng)絡(luò)模型可實(shí)現(xiàn)枝葉遮擋、果實(shí)密集重疊等復(fù)雜場景下的冬棗識別[51]。為實(shí)現(xiàn)柑橘采摘機(jī)器人的識別定位,在YOLOv3模型中增加最大池化層可增強(qiáng)模型對采摘場景的理解,提高柑橘目標(biāo)識別的準(zhǔn)確率[52]。如文獻(xiàn)[53-56],利用DenseNet、CSPNet和SPP模塊等對YOLOv3的骨干網(wǎng)絡(luò)進(jìn)行改進(jìn),可提高其在夜間環(huán)境、遮擋目標(biāo)和小目標(biāo)等復(fù)雜場景下的檢測性能。由于DarkNet53的網(wǎng)絡(luò)層數(shù)過多,導(dǎo)致網(wǎng)絡(luò)的運(yùn)算量較大,檢測速度較慢,對于一些場景較為簡單的果實(shí)目標(biāo)檢測任務(wù),可以通過簡化網(wǎng)絡(luò)層數(shù)以減小模型復(fù)雜度并提高檢測速度。如文獻(xiàn)[57-58],通過精簡YOLOv3的骨干網(wǎng)絡(luò),可簡化目標(biāo)檢測的特征圖尺度,實(shí)現(xiàn)模型的輕量化,且模型在檢測速度和準(zhǔn)確率方面均有顯著提高。

    YOLOv4的輸入端引入了Mosaic數(shù)據(jù)增強(qiáng)操作,其骨干網(wǎng)絡(luò)在DarkNet53的基礎(chǔ)上融合了CSPNet,采用SPP和FPN+路徑聚合網(wǎng)絡(luò)(Path aggregation network, PAN)作為瓶頸結(jié)構(gòu),并采用CIoU_loss作為預(yù)測端的損失函數(shù)[84],與YOLOv3相比,其檢測速度和準(zhǔn)確率都有了較大提升。利用YOLOv4可實(shí)現(xiàn)自然場景下蘋果、油桃、黃杏、李子及香蕉串檢測[59-60]。為提高YOLOv4網(wǎng)絡(luò)在復(fù)雜場景下的果實(shí)識別效果,一些學(xué)者將顏色空間模型、殘差神經(jīng)網(wǎng)絡(luò)、遞歸特征金字塔和視覺注意機(jī)制等與YOLOv4網(wǎng)絡(luò)相結(jié)合,在一定程度上提高了模型的檢測性能?;赮OLOv4+HSV的成熟番茄識別方法可解決遮擋和光照不均引起的番茄目標(biāo)誤識別的問題[61]。一種融合殘差神經(jīng)網(wǎng)絡(luò)和YOLOv4的番茄檢測方法可解決自然環(huán)境中光照變化、背景干擾和葉片遮擋等因素對番茄采摘機(jī)器人的檢測精度的影響[62]。一種基于特征遞歸融合YOLOv4網(wǎng)絡(luò)的FR-YOLOv4檢測模型可實(shí)現(xiàn)自然場景下密集分布的小目標(biāo)春見柑橘的檢測和計(jì)數(shù)[63]。如文獻(xiàn)[64-66],將SE模塊、CBAM視覺注意機(jī)制等與YOLOv4模型相結(jié)合,可實(shí)現(xiàn)低質(zhì)量蘋果幼果、不同顏色和品種的蘋果果實(shí)檢測。

    YOLOv4-Tiny對YOLOv4的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行了精簡,YOLOv4-Tiny采用CSPDarkNet53-Tiny作為骨干網(wǎng)絡(luò),并將YOLOv4中的Mish激活函數(shù)修改為Leaky_ReLU激活函數(shù)。YOLOv4-Tiny模型的參數(shù)量更少,網(wǎng)絡(luò)結(jié)構(gòu)更簡單,且檢測速度更快[67]。利用CBAM視覺注意機(jī)制對YOLOv4-Tiny模型進(jìn)行改進(jìn),可實(shí)現(xiàn)復(fù)雜環(huán)境下番茄和藍(lán)莓果實(shí)的快速識別,并有效解決遮擋、逆光和小目標(biāo)識別準(zhǔn)確率低的問題[67-68]。通過減少YOLOv4-Tiny草莓檢測模型的骨干網(wǎng)絡(luò)中CSPNet模塊的數(shù)量和精簡CSPNet的網(wǎng)絡(luò)結(jié)構(gòu),可進(jìn)一步簡化模型,提高模型的檢測速度[69]。另一種簡化YOLOv4模型的方法是進(jìn)行通道剪枝,其本質(zhì)是通過識別網(wǎng)絡(luò)的通道來消除不重要的通道及其相關(guān)的輸入和輸出關(guān)系[85],簡化后的模型可以減少需要存儲(chǔ)的參數(shù)數(shù)量,并且具有較低的硬件要求,使其更易于部署在嵌入式設(shè)備和移動(dòng)終端等小型計(jì)算平臺(tái)上[86]。利用通道剪枝的YOLOv4可實(shí)現(xiàn)自然場景下的蘋果花朵實(shí)時(shí)準(zhǔn)確檢測,剪枝后模型的檢測精度基本不變,但模型的參數(shù)量和尺寸得到大幅壓縮,且檢測速度有較高的提升[70]。

    YOLOv5的輸入端引入了自適應(yīng)錨框計(jì)算,以適應(yīng)不同尺寸的目標(biāo),YOLOv5的骨干網(wǎng)絡(luò)中引入了切片操作,并將CSPNet同時(shí)應(yīng)用于骨干網(wǎng)絡(luò)和瓶頸網(wǎng)絡(luò),YOLOv5的輸出端采用了GIoU_loss損失函數(shù)。YOLOv5包含5種體系結(jié)構(gòu),分別為YOLOv5-nano、YOLOv5s、YOLOv5m、YOLOv5l和YOLOv5x,其主要區(qū)別在于特征提取模塊和卷積核在網(wǎng)絡(luò)特定位置的數(shù)量不同。與YOLOv4相比,YOLOv5的檢測速度和精度都有較大的性能提升。如文獻(xiàn)[71-73],利用YOLOv5s目標(biāo)檢測模型可以實(shí)現(xiàn)自然場景下的柑橘、蘋果花朵、油茶果的準(zhǔn)確快速檢測,模型具有較好的魯棒性,且模型的尺寸較小,適用于模型遷移。通過優(yōu)化YOLOv5的損失函數(shù),可有效提高模型對于遮擋番茄目標(biāo)的識別準(zhǔn)確率[74]。對YOLOv5模型的骨干網(wǎng)絡(luò)進(jìn)行簡化或引入視覺注意機(jī)制模型,可在一定程度上減小模型的尺寸并提高其目標(biāo)識別的效果。利用Transformer模塊對YOLOv5的骨干網(wǎng)絡(luò)進(jìn)行改進(jìn),并利用BiPFN改進(jìn)其Neck結(jié)構(gòu),可提高櫻桃果實(shí)的識別準(zhǔn)確率[75]。利用Bottleneck模塊對YOLOv5m的骨干網(wǎng)絡(luò)進(jìn)行改進(jìn),并引入SE視覺注意機(jī)制模塊,可提高模型對蘋果目標(biāo)的檢測速度和精度[76]。

    2.2.3無錨框目標(biāo)檢測算法

    自從RPN提出以來,基于錨框的目標(biāo)檢測算法已經(jīng)成為目標(biāo)檢測模型的主流,且取得了較好的檢測效果。然而,基于錨框的檢測器存在以下的缺點(diǎn)和局限性:為實(shí)現(xiàn)高召回率,基于錨框的檢測器需要設(shè)計(jì)各種尺度和形狀的錨框,以覆蓋圖像中不同尺度和形狀的物體,這些冗余的錨框在訓(xùn)練時(shí)大多會(huì)被標(biāo)記為負(fù)樣本,導(dǎo)致訓(xùn)練中的正負(fù)樣本不均衡;錨框的尺寸、長寬比、數(shù)量等參數(shù)設(shè)置決定了檢測器的性能,因此錨框的設(shè)計(jì)過程較為復(fù)雜,且訓(xùn)練結(jié)果可能受到人為經(jīng)驗(yàn)的影響;大量的錨框會(huì)增加整個(gè)檢測過程的計(jì)算成本。

    為了克服基于錨框的檢測器的缺點(diǎn),基于無錨框檢測器的目標(biāo)檢測算法逐漸興起,無錨框檢測器不需預(yù)先設(shè)定錨框,直接對圖像進(jìn)行目標(biāo)檢測。YOLOv1是目標(biāo)檢測領(lǐng)域最早的無錨框模型,它將目標(biāo)檢測視為一個(gè)空間分離的邊界框和相關(guān)概率回歸問題,可直接從圖像中預(yù)測邊界框的位置和分類概率。該方法運(yùn)算速度較快,但其召回率較低,且檢測精度不理想。如圖5所示,無錨框檢測可大致分為兩類:基于錨點(diǎn)檢測和基于關(guān)鍵點(diǎn)檢測[87]。錨點(diǎn)檢測器通過將真實(shí)框編碼為錨點(diǎn),錨點(diǎn)是特征圖上的像素點(diǎn),其位置與特征相關(guān)聯(lián),其代表算法有CenterNet[88]、FCOS[89]、FoveaBox[90]等。關(guān)鍵點(diǎn)檢測器通過預(yù)測包圍盒中的幾個(gè)關(guān)鍵點(diǎn)的位置,如角點(diǎn)、中心或極值點(diǎn),將關(guān)鍵點(diǎn)解碼到預(yù)測框中,其代表算法有CornerNet[91]、ExtremeNet[92]等。

    圖5 無錨框檢測器分類Fig.5 Classification of anchor-free detector

    表3列出了無錨框目標(biāo)檢測算法的果實(shí)目標(biāo)識別研究成果。對FCOS的骨干網(wǎng)絡(luò)和損失函數(shù)進(jìn)行改進(jìn)實(shí)現(xiàn)自然場景下的蘋果果實(shí)檢測,可在提高檢測性能的同時(shí)降低正負(fù)樣本比例失衡帶來的誤差[93]。利用殘差特征金字塔網(wǎng)絡(luò)對FCOS的骨干網(wǎng)絡(luò)進(jìn)行改進(jìn),可實(shí)現(xiàn)光照變化和陰影重疊條件下的綠色蘋果識別[94]。改進(jìn)FoveaBox模型的骨干網(wǎng)絡(luò)和特征提取網(wǎng)絡(luò)可以提高模型對不同規(guī)模的綠色蘋果的召回率[95]。利用Tiny Hourglass-24網(wǎng)絡(luò)對CenterNet的骨干網(wǎng)絡(luò)進(jìn)行改進(jìn)可實(shí)現(xiàn)密集場景下的多蘋果目標(biāo)的快速識別,然而該方法對于重度遮擋和果實(shí)表面亮度較高的情景存在個(gè)別目標(biāo)漏檢的情況[96]。利用改進(jìn)的MobileNetv3作為CenterNet模型的骨干網(wǎng)絡(luò)實(shí)現(xiàn)蘋果目標(biāo)的識別,可以在保證檢測精度的前提下減小模型的尺寸并提高其檢測速度[97]。

    表3 基于無錨框算法的果實(shí)目標(biāo)識別研究成果Tab.3 Research on fruit target recognition based on anchor-free algorithm

    YOLOX[101]是YOLO的無錨框版本,其沿用了YOLOv4的特征提取網(wǎng)絡(luò)CSPDarknet和YOLOv5的Mosaic增強(qiáng)技術(shù),并創(chuàng)新了解耦檢測頭、無錨框和SimOTA標(biāo)簽分配策略[102],YOLOX模型的設(shè)計(jì)簡單,且性能更具優(yōu)勢。利用YOLOX可實(shí)現(xiàn)冬棗的高精度檢測和計(jì)數(shù)[98]。通過改進(jìn)YOLOX-S的激活函數(shù)和損失函數(shù),并轉(zhuǎn)移淺層特征,可實(shí)現(xiàn)小目標(biāo)獼猴桃的檢測,該方法在減小了模型參數(shù)量的同時(shí)提高了模型的檢測精度[99]。利用加入CBAM的輕量級網(wǎng)絡(luò)ShuffleNetv2對YOLOX-Tiny的骨干網(wǎng)絡(luò)進(jìn)行改進(jìn),可實(shí)現(xiàn)對蘋果果實(shí)的高精度和實(shí)時(shí)性檢測[100]。

    2.3 基于深度學(xué)習(xí)的果實(shí)目標(biāo)分割方法

    2.3.1基于深度學(xué)習(xí)的語義分割模型

    語義分割是將圖像的每個(gè)像素分配給預(yù)定義類別集合中的相應(yīng)類別標(biāo)簽的任務(wù),其目的是對圖像中的每一個(gè)像素點(diǎn)進(jìn)行分類。用于目標(biāo)識別的CNN網(wǎng)絡(luò)通常由卷積層、池化層和全連接層組成。然而,全連接層會(huì)損失目標(biāo)的位置信息,因此CNN無法完成目標(biāo)的分割任務(wù)。全卷積網(wǎng)絡(luò)(Full convolutional networks, FCN)[103]是基于深度學(xué)習(xí)的語義分割模型的重要成果,通過將CNN網(wǎng)絡(luò)中的全連接層替換為卷積層,得到全部由卷積層構(gòu)成的FCN,與CNN相比,F(xiàn)CN可同時(shí)保留目標(biāo)的位置信息和語義信息,可在像素層次上進(jìn)行分類,完成目標(biāo)分割任務(wù)。

    RONNEBERGER等[104]提出的U-Net網(wǎng)絡(luò)被廣泛地應(yīng)用于語義分割任務(wù),U-Net包括編碼器和解碼器結(jié)構(gòu),編碼器網(wǎng)絡(luò)利用池化層進(jìn)行下采樣操作,其作用是進(jìn)行特征提取,解碼器網(wǎng)絡(luò)利用反卷積進(jìn)行上采樣操作,編碼器部分與解碼器部分近似對稱,整體網(wǎng)絡(luò)呈“U”形結(jié)構(gòu)。在上采樣的過程中,利用跳躍連接操作可以將該級的特征圖與編碼器結(jié)構(gòu)中其對應(yīng)位置的特征圖進(jìn)行融合,使得解碼器能夠獲取更多高分辨率特征,有利于提高分割精度。利用U-Net可實(shí)現(xiàn)蘋果目標(biāo)的分割,結(jié)果表明,當(dāng)果實(shí)可以通過顏色區(qū)分時(shí),傳統(tǒng)分割算法的效果優(yōu)于U-Net,當(dāng)測試集數(shù)據(jù)與訓(xùn)練集相似時(shí),U-Net的分割效果較好[105]。

    CHEN等[106]結(jié)合深度卷積網(wǎng)絡(luò)和概率圖模型(DenseCRFs),提出了DeepLab語義分割模型,DeepLab以VGG-16為基礎(chǔ)網(wǎng)絡(luò)進(jìn)行改進(jìn),首先將VGG-16的全連接層替換為卷積層,并移除原網(wǎng)絡(luò)的最后兩個(gè)池化層,使用空洞卷積進(jìn)行上采樣,在擴(kuò)大了感受野的同時(shí)減小了參數(shù)量。DeepLabv2[107]對DeepLab進(jìn)行了改進(jìn),DeepLabv2以ResNet101模型作為基礎(chǔ)網(wǎng)絡(luò),并引入帶有空洞卷積的空間金字塔結(jié)構(gòu)(Atrous spatial pyramid pooling, ASPP),在多個(gè)尺度上進(jìn)行圖像分割,可以處理不同尺度的目標(biāo),與DeepLab相比,DeepLabv2的分割精度有所提升。SUN等[108]利用DeepLab-ResNet實(shí)現(xiàn)了蘋果花、梨花和桃花的目標(biāo)分割,該模型的平均F1值為80.90%。DeepLabv3[109]分別利用ResNet101和Xception作為骨干網(wǎng)絡(luò),并將深度可分離卷積應(yīng)用于ASPP結(jié)構(gòu),在保持性能的同時(shí)有效降低了模型的計(jì)算復(fù)雜度。利用ResNet和DenseNet結(jié)構(gòu)對DeepLabv3的骨干網(wǎng)絡(luò)進(jìn)行改進(jìn),可實(shí)現(xiàn)荔枝花朵的分割[110]。KANG等[111]提出了一種用于蘋果語義分割的DasNet網(wǎng)絡(luò),該模型嘗試分別利用ResNet-50、ResNet-101和輕量化網(wǎng)絡(luò)LW-net0作為骨干網(wǎng)絡(luò),利用門控特征金字塔網(wǎng)絡(luò)進(jìn)行多級特征的融合,并采用ASPP增強(qiáng)目標(biāo)的多尺度特征提取。結(jié)果表明,以ResNet-101為骨干網(wǎng)絡(luò)的DasNet模型在語義分割和目標(biāo)檢測任務(wù)中表現(xiàn)最好,其檢測蘋果目標(biāo)的F1值為83.20%,其分割蘋果目標(biāo)的F1值為87.60%。

    2.3.2基于深度學(xué)習(xí)的實(shí)例分割模型

    實(shí)例分割是將語義標(biāo)簽和實(shí)例標(biāo)簽分配給所有像素,以分割對象實(shí)例,實(shí)例分割可以提供比語義分割更詳細(xì)的圖像信息,例如檢測對象的位置和數(shù)量。 其中Mask-R CNN為果實(shí)目標(biāo)實(shí)例分割中最具代表性的算法。表4列出了利用基于深度學(xué)習(xí)的實(shí)例分割算法進(jìn)行果實(shí)目標(biāo)識別的研究成果。

    表4 基于深度學(xué)習(xí)的實(shí)例分割算法的果實(shí)目標(biāo)識別研究成果Tab.4 Research on fruit target recognition based on deep learning instance segmentation algorithm

    HE等[122]提出了一種用于實(shí)例分割的Mask R-CNN網(wǎng)絡(luò),該網(wǎng)絡(luò)通過在Faster R-CNN中添加一個(gè)用于預(yù)測目標(biāo)掩碼的并行分支實(shí)現(xiàn)。在非結(jié)構(gòu)化環(huán)境中,Mask R-CNN不僅能準(zhǔn)確識別目標(biāo)類別并用邊界框標(biāo)出目標(biāo)區(qū)域,還能在像素級別上從背景中提取目標(biāo)區(qū)域。Mask R-CNN由3個(gè)階段組成,首先利用ResNet骨干網(wǎng)絡(luò)從輸入圖像中提取特征圖;其次,特征圖被輸入到RPN用以生成候選區(qū)域;最后,這些候選區(qū)域被映射到原始圖像中像素點(diǎn)對應(yīng)的位置,以在共享特征映射中提取相應(yīng)的目標(biāo)特征,然后分別輸出到全連接層和FCN,用于目標(biāo)分類和實(shí)例分割。

    如文獻(xiàn)[112-115],基于Mask R-CNN可實(shí)現(xiàn)草莓果實(shí)、蘋果果實(shí)、葡萄串和柑橘類果實(shí)的目標(biāo)分割,且該方法在復(fù)雜場景下具有較好的魯棒性。對于部分農(nóng)業(yè)場景中數(shù)據(jù)量不足的問題,如文獻(xiàn)[116],利用遷移學(xué)習(xí)預(yù)訓(xùn)練的Mask R-CNN模型可提高對自然場景下番茄果實(shí)的分割精度。如文獻(xiàn)[117-118],利用ResNet、DenseNet等網(wǎng)絡(luò)對Mask R-CNN的原始骨干網(wǎng)絡(luò)進(jìn)行改進(jìn),可實(shí)現(xiàn)重疊、遮擋等情況下蘋果目標(biāo)的精確分割。通過融合RGB圖像、深度圖像、紅外圖像等多源信息,對圖像的顏色、形狀空間位置等特征進(jìn)行深度挖掘,可提高M(jìn)ask R-CNN分割目標(biāo)的準(zhǔn)確率和魯棒性。如文獻(xiàn)[119-120],融合深度圖像或紅外圖像等多源信息作為Mask R-CNN的輸入,可提高模型對番茄果實(shí)的定位精度并提高模型的魯棒性。

    基于DasNet語義分割模型,在其FPN結(jié)構(gòu)中添加實(shí)例分割的分支,開發(fā)一種用于進(jìn)行蘋果果實(shí)實(shí)例分割的DasNet-v2網(wǎng)絡(luò)[121],該模型在田間實(shí)地測試中表現(xiàn)出優(yōu)良的性能。

    2.4 基于輕量化模型的果實(shí)目標(biāo)識別方法

    自然場景下的果實(shí)目標(biāo)識別任務(wù)存在遮擋、光照不均等一系列挑戰(zhàn)。為提高果實(shí)目標(biāo)識別任務(wù)的精度,基于深度學(xué)習(xí)的果實(shí)目標(biāo)識別網(wǎng)絡(luò)在不斷加深,以適應(yīng)越來越復(fù)雜的目標(biāo)檢測任務(wù)。然而,隨著網(wǎng)絡(luò)深度的加深,模型的參數(shù)量和計(jì)算復(fù)雜度也在不斷上升,模型大小和計(jì)算成本的爆炸性增長為模型在嵌入式設(shè)備上的部署帶來了新的挑戰(zhàn)[123-124]。目前,研究人員致力于研究輕量化的目標(biāo)檢測網(wǎng)絡(luò),以兼顧模型的移植部署、檢測速度和檢測精度,以期為果園采摘機(jī)器人的發(fā)展提供技術(shù)支持。

    依據(jù)網(wǎng)絡(luò)的結(jié)構(gòu)層次,可以將網(wǎng)絡(luò)的輕量化劃分為模型的輕量化設(shè)計(jì)和模型壓縮兩大類,圖6列出了常用輕量化模型和模型壓縮的方法。

    圖6 網(wǎng)絡(luò)輕量化的常用方法Fig.6 Common method of network lightweight

    模型壓縮是在原有模型的基礎(chǔ)上進(jìn)行修改,而輕量化模型則是在設(shè)計(jì)模型時(shí)就遵從輕量化的思想,例如采用深度可分離卷積、分組卷積等卷積方式,減少卷積的數(shù)量、增加網(wǎng)絡(luò)的并行度、減少網(wǎng)絡(luò)的碎片化程度等[125]。相比于模型壓縮,輕量化模型的設(shè)計(jì)能夠更大程度地減小模型的參數(shù)量和計(jì)算量,并提高模型的檢測速度,因此輕量化模型是未來目標(biāo)檢測算法用于嵌入式設(shè)備移植和移動(dòng)端的主要發(fā)展方向。如圖6所示,近年來表現(xiàn)優(yōu)秀的輕量化網(wǎng)絡(luò)主要有SqueezeNet[126]、MobileNet系列、ShuffleNet系列、GhostNet[125]等。表5列出了基于輕量化模型的果實(shí)目標(biāo)識別研究成果。

    表5 基于輕量化模型的果實(shí)目標(biāo)識別研究成果Tab.5 Research on fruit target recognition based on lightweight model

    IANDOLA等[126]提出的SqueezeNet是最早的輕量化模型設(shè)計(jì),SqueezeNet使用了新的網(wǎng)絡(luò)架構(gòu)“Fire模塊”,整個(gè)SqueezeNet網(wǎng)絡(luò)由若干“Fire模塊”的堆疊組成?!癋ire模塊”由壓縮層和擴(kuò)展層組成,其中壓縮層僅由1×1的卷積核組成,擴(kuò)展層由1×1和3×3的卷積核組成,F(xiàn)ire模塊的設(shè)計(jì)大大減少了模型的參數(shù)量和計(jì)算量,SqueezeNet的模型占用內(nèi)存為0.5 MB。

    HOWARD等[134]基于深度可分離卷積提出了MobileNet輕量化模型。該模型由深度可分離卷積與普通卷積模塊堆疊組成,深度可分離卷積是將普通卷積拆分為深度卷積和逐點(diǎn)卷積的操作,利用深度可分離卷積可大大降低網(wǎng)絡(luò)的計(jì)算量。以MobileNet模型分別替換YOLOv4和SSD的骨干網(wǎng)絡(luò),可實(shí)現(xiàn)龍眼果實(shí)的檢測,其中MobileNet-YOLOv4模型具有更好的泛化性能[127]。MobileNetv2[135]網(wǎng)絡(luò)中引入了線性瓶頸結(jié)構(gòu)和倒殘差結(jié)構(gòu),進(jìn)一步壓縮了模型占用內(nèi)存。利用MobileNetv2對YOLOv3檢測模型的骨干網(wǎng)絡(luò)進(jìn)行改進(jìn),可實(shí)現(xiàn)釀酒葡萄和柑橘的檢測,與原始YOLOv3模型相比,該方法可在保證檢測精度的情況下大幅提升檢測速度并壓縮模型的尺寸[128-129]。MobileNetv3[130]在MobileNetv2的倒殘差結(jié)構(gòu)的基礎(chǔ)上加入了SE注意力模塊和h-swish激活函數(shù),并精簡了卷積層的結(jié)構(gòu),同時(shí)引入了NAS模塊搜索和NetAdapt層搜索結(jié)構(gòu)進(jìn)行網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化,與MobileNetv2相比,其準(zhǔn)確率更高且減少了延遲。利用MobileNetv3模型可實(shí)現(xiàn)香蕉、檸檬、柑橘等水果的檢測,其檢測精確率和檢測速度均優(yōu)于Xception和DenseNet模型[130]。利用MobileNetv3對YOLOv4檢測模型的骨干網(wǎng)絡(luò)進(jìn)行改進(jìn),開發(fā)一種YOLOv4-MobileNetv3輕量化模型,可實(shí)現(xiàn)火龍果、密集圣女果和蘋果果實(shí)的準(zhǔn)確快速識別,該方法在檢測速度和模型尺寸方面具有顯著優(yōu)勢[131-133]。

    ZHANG等[137]提出了ShuffleNet輕量化模型,該模型提出了逐點(diǎn)組卷積和通道混洗操作,利用逐點(diǎn)組卷積降低模型的計(jì)算復(fù)雜度,并利用通道混洗操作解決組卷積造成的信息交互問題。對于一定的計(jì)算復(fù)雜度,ShuffleNet可以保證更多的特征映射信道,提高模型的性能。在此基礎(chǔ)上,ShuffleNetv2[138]模型引入了通道分裂(Channel split)操作,在保證模型準(zhǔn)確率的同時(shí)進(jìn)一步降低了模型復(fù)雜度,提升了模型運(yùn)行速度。

    HAN等[125]提出了GhostNet輕量化模型,其基礎(chǔ)模塊為“Ghost Module”,Ghost模塊可以通過生成“影子”特征圖來減少卷積操作,進(jìn)而減小模型的計(jì)算量,GhostNet的準(zhǔn)確率高于MobileNetv3,且其模型的計(jì)算復(fù)雜度小于MobileNetv3。且Ghost Module可用于替換許多經(jīng)典目標(biāo)檢測網(wǎng)絡(luò)中的普通卷積模塊,以減小模型的參數(shù)量和計(jì)算量,目前Ghost Module應(yīng)用于簡化果實(shí)目標(biāo)檢測模型的研究較少,該方法可為果實(shí)目標(biāo)檢測模型的輕量化提供新的研究思路。

    3 存在的挑戰(zhàn)和未來趨勢展望

    3.1 存在的挑戰(zhàn)

    基于深度學(xué)習(xí)的果實(shí)目標(biāo)識別研究取得了一定的研究成果,然而距離模型的實(shí)際應(yīng)用仍存在以下難點(diǎn):

    (1)大規(guī)模數(shù)據(jù)集的獲取存在一定困難。為提高模型的準(zhǔn)確率,果實(shí)目標(biāo)識別任務(wù)中要求采集的數(shù)據(jù)樣本數(shù)量足夠大,為提高并驗(yàn)證模型的魯棒性,數(shù)據(jù)集中的圖像還應(yīng)該包含有無遮擋、枝干葉片遮擋和不同果實(shí)目標(biāo)間的遮擋、不同的光照情況、圖像中包含單目標(biāo)和多目標(biāo)果實(shí)等情況。由于果實(shí)生長的自然環(huán)境復(fù)雜多變,存在許多人為不可控因素,且果實(shí)生長具有一定的周期性,必須在特定的時(shí)間段完成圖像采集任務(wù),因此大規(guī)模數(shù)據(jù)的采集是目前果實(shí)目標(biāo)識別任務(wù)的難點(diǎn)之一。

    (2)提高模型在復(fù)雜場景下的穩(wěn)定性、泛化性和魯棒性。由于采摘機(jī)器人作業(yè)的自然環(huán)境中存在各種復(fù)雜多變的情景,用于果實(shí)目標(biāo)檢測的模型需要兼具較高的穩(wěn)定性、泛化性和魯棒性,才能保證其穩(wěn)定的作業(yè)效果和較高的作業(yè)效率。因此,在保證識別準(zhǔn)確率的同時(shí)提高模型在復(fù)雜場景下的表現(xiàn)性能是目前目標(biāo)識別領(lǐng)域的難題。

    (3)提高模型的通用性。由于田間生長的果實(shí)目標(biāo)在不同的生長階段具有不同的顏色和大小,因此研發(fā)通用性較高的果實(shí)目標(biāo)識別模型有利于進(jìn)行果實(shí)的生長監(jiān)測和提高采摘機(jī)器人決策的準(zhǔn)確性。

    3.2 未來研究趨勢展望

    (1)由于數(shù)據(jù)采集和標(biāo)注任務(wù)需耗費(fèi)大量的時(shí)間和人力,且大規(guī)模的數(shù)據(jù)采集任務(wù)存在一定的困難,利用較少的樣本數(shù)據(jù)進(jìn)行模型訓(xùn)練并減小標(biāo)簽數(shù)據(jù)的數(shù)量,對于降低人工成本和提高檢測的靈活性非常重要[28]。而目前對于小規(guī)模數(shù)據(jù)集的模型、半監(jiān)督和無監(jiān)督模型用于果實(shí)目標(biāo)檢測的研究相對較少。因此,小規(guī)模數(shù)據(jù)模型和弱監(jiān)督模型將是未來果實(shí)目標(biāo)識別模型的發(fā)展方向。

    (2)針對輕量化模型設(shè)計(jì),部分學(xué)者已經(jīng)進(jìn)行相關(guān)研究并取得了一些進(jìn)展,在保證識別精度的前提下,用于嵌入式設(shè)備的模型不僅要求較小的模型尺寸,還應(yīng)該保證較快的檢測速度以實(shí)現(xiàn)實(shí)時(shí)檢測。因此,后續(xù)的研究應(yīng)著重于提高輕量化模型在算力有限的嵌入式設(shè)備上的檢測速度,開發(fā)可用于邊緣設(shè)備進(jìn)行實(shí)時(shí)準(zhǔn)確檢測果實(shí)目標(biāo)的模型。

    猜你喜歡
    卷積深度利用
    利用min{a,b}的積分表示解決一類絕對值不等式
    基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
    深度理解一元一次方程
    利用一半進(jìn)行移多補(bǔ)少
    從濾波器理解卷積
    電子制作(2019年11期)2019-07-04 00:34:38
    深度觀察
    深度觀察
    利用數(shù)的分解來思考
    Roommate is necessary when far away from home
    深度觀察
    临洮县| 依兰县| 泸西县| 琼结县| 咸阳市| 门头沟区| 德昌县| 长顺县| 响水县| 神池县| 连城县| 磐安县| 扎鲁特旗| 孙吴县| 健康| 海林市| 招远市| 边坝县| 甘肃省| 龙陵县| 周至县| 都昌县| 卢氏县| 汶川县| 瑞金市| 余江县| 金门县| 昌都县| 德惠市| 道孚县| 三穗县| 安仁县| 临猗县| 海淀区| 古交市| 繁昌县| 东阿县| 和静县| 巴彦淖尔市| 高雄市| 邵东县|