• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      改進(jìn)Mask R-CNN的真實(shí)環(huán)境下魚體語義分割

      2022-03-10 02:25:50黃佳芯鄧博奇劉洋成
      關(guān)鍵詞:魚體注意力語義

      郭 奕,黃佳芯,鄧博奇,劉洋成

      改進(jìn)Mask R-CNN的真實(shí)環(huán)境下魚體語義分割

      郭 奕,黃佳芯,鄧博奇,劉洋成

      (西華大學(xué)電氣與電子信息學(xué)院,成都 610000)

      魚體語義分割是實(shí)現(xiàn)魚體三維建模和語義點(diǎn)云、計(jì)算魚體生長信息的基礎(chǔ)。為了提高真實(shí)復(fù)雜環(huán)境下魚體語義分割精度,該研究提出了SA-Mask R-CNN模型,即融合SimAM注意力機(jī)制的Mask R-CNN。在殘差網(wǎng)絡(luò)的每一層引入注意力機(jī)制,利用能量函數(shù)為每一個(gè)神經(jīng)元分配三維權(quán)重,以加強(qiáng)對魚體關(guān)鍵特征的提??;使用二次遷移學(xué)習(xí)方法對模型進(jìn)行訓(xùn)練,即首先利用COCO數(shù)據(jù)集預(yù)訓(xùn)練模型在Open Images DatasetV6魚類圖像數(shù)據(jù)集完成第一次遷移學(xué)習(xí),然后在自建數(shù)據(jù)集上完成第二次遷移學(xué)習(xí),利用具有相似特征空間的2個(gè)數(shù)據(jù)集進(jìn)行遷移學(xué)習(xí),在一定程度上緩解了圖像質(zhì)量不佳的情況下魚體語義分割精度不高的問題。在具有真實(shí)養(yǎng)殖環(huán)境特點(diǎn)的自建數(shù)據(jù)集上進(jìn)行性能測試,結(jié)果表明,SA-Mask R-CNN網(wǎng)絡(luò)結(jié)合二次遷移學(xué)習(xí)方法的交并比達(dá)93.82%,綜合評價(jià)指標(biāo)達(dá)96.04%,分割效果優(yōu)于SegNet和U-Net++,較引入SENet和CBAM(Convolutional Block Attention Module, CBAM)注意力模塊的Mask R-CNN交并比分別提升了2.46和1.0個(gè)百分點(diǎn),綜合評價(jià)指標(biāo)分別提升了2.57和0.92個(gè)百分點(diǎn),模型參數(shù)量分別減小了4.7和5MB。研究結(jié)果可為魚體點(diǎn)云計(jì)算提供參考。

      深度學(xué)習(xí);語義分割;注意力機(jī)制;魚體分割;二次遷移學(xué)習(xí)

      0 引 言

      淡水魚養(yǎng)殖具有非常高的經(jīng)濟(jì)價(jià)值。在淡水魚養(yǎng)殖業(yè)管理中,準(zhǔn)確獲取魚態(tài)信息,有利于產(chǎn)業(yè)人員及時(shí)發(fā)現(xiàn)養(yǎng)殖過程中存在的問題并對飼養(yǎng)計(jì)劃做出合理調(diào)整。將魚捕撈出水面進(jìn)行人工測量的傳統(tǒng)方法,不僅量化困難,對操作人員要求較高,且可能對魚體造成不可逆的傷害,給產(chǎn)業(yè)帶來不必要的損失[1],因此亟需研究一種非接觸式魚體測量方法。近年來,點(diǎn)云技術(shù)的發(fā)展為魚類養(yǎng)殖測量技術(shù)提供了新思路,而點(diǎn)云計(jì)算結(jié)果的準(zhǔn)確性依賴于目標(biāo)的準(zhǔn)確分割。

      基于深度學(xué)習(xí)的語義分割模型[2-5]是近年來研究熱點(diǎn)。Garcia等[6]使用Mask R-CNN[7]網(wǎng)絡(luò)對魚體進(jìn)行自動語義分割,其IoU為84.5%。Yu等[8]使用Mask R-CNN對魚類形態(tài)進(jìn)行分割,并在純凈背景下和復(fù)雜背景下進(jìn)行對比,在復(fù)雜背景下的分割準(zhǔn)確性遠(yuǎn)低于純凈背景。劉斌等[9]對比FCN-8S和SegNet[10]對條斑鯊的身體組組成構(gòu)建進(jìn)行分割,在自建數(shù)據(jù)集上驗(yàn)證了SegNet語義分割準(zhǔn)確度更高。Laradji等[11]使用基于計(jì)數(shù)全卷積網(wǎng)絡(luò)進(jìn)行魚體語義分割,并在Deepfish上進(jìn)行驗(yàn)證,IoU為86.2%。Nezla等[12]和Thampi等[13]基于UNet網(wǎng)絡(luò)實(shí)現(xiàn)魚體的分割,通過設(shè)置不同閾值進(jìn)行分割對比。Yu等[14]在實(shí)現(xiàn)魚體尺寸精確測量的過程中使用了UNet網(wǎng)絡(luò)進(jìn)行魚體分割。王紅君等[15]采用SENet[16]優(yōu)化后的Deeplabv3+模型進(jìn)行語義分割,在白色背景的高質(zhì)量數(shù)據(jù)集下測試IoU達(dá)93%。但此方法計(jì)算權(quán)重算法多為人工設(shè)計(jì),計(jì)算量大,且只能計(jì)算空間或者通道的神經(jīng)元,無法建立三維權(quán)重。在其它領(lǐng)域,為了提高語義分割的精度,Sui等[17]在Mask R-CNN中引入CBAM[18]注意力機(jī)制檢測地震造成的建筑物外墻的損壞,CBAM分別估計(jì)一維和二維的特征權(quán)重再將其組合起來,但此方法分兩步,占用太多計(jì)算時(shí)間,且模型參數(shù)量大,不利于模型的移植和部署[19-20]。

      為此,本文提出一種融合SimAM(Simple, Parameter- Free Attention Module)[21]注意力機(jī)制的Mask R-CNN網(wǎng)絡(luò)(SA-Mask R-CNN),將SimAM注意力模塊融入骨干網(wǎng)絡(luò)中,在每一層殘差網(wǎng)絡(luò)中引入SimAM,利用能量函數(shù)為每一個(gè)神經(jīng)元分配權(quán)重,實(shí)現(xiàn)三維空間的權(quán)重分配,增強(qiáng)魚體關(guān)鍵特征的提取,緩解網(wǎng)絡(luò)特征融合路徑過長,在不斷池化與下采樣過程中的特征信息丟失問題,使低層特征信息被充分利用,從而減少分割錯(cuò)誤。其次使用二次遷移學(xué)習(xí)訓(xùn)練方法,使用Open Images Dataset V6[22]高清魚類圖像并加載COCO數(shù)據(jù)集[23]預(yù)訓(xùn)練權(quán)重,在改進(jìn)網(wǎng)絡(luò)上完成第一次遷移學(xué)習(xí)[24],以利于網(wǎng)絡(luò)在高質(zhì)量圖像中對魚體特征的提取與學(xué)習(xí),提升模型對魚體邊緣的表征能力;使用自建數(shù)據(jù)集并加載第一次遷移學(xué)習(xí)的權(quán)重在改進(jìn)網(wǎng)絡(luò)上完成第二次遷移學(xué)習(xí),解決圖像降質(zhì)導(dǎo)致的魚體語義分割效果不佳的問題,以實(shí)現(xiàn)在復(fù)雜環(huán)境下對魚體更加精細(xì)化的語義分割。

      1 數(shù)據(jù)集來源

      訓(xùn)練數(shù)據(jù)集包括2個(gè)部分,第一部分來自谷歌開源數(shù)據(jù)集Open Images Dataset V6(簡稱V6數(shù)據(jù)集)中的魚類圖像,圖像清晰度高、噪聲少、前景和背景區(qū)分度大等優(yōu)點(diǎn),包含活體魚體、烹飪魚體等。試驗(yàn)選用162張高清魚類圖像作為第一次遷移學(xué)習(xí)的原始數(shù)據(jù)集。第二部分為自建數(shù)據(jù)集,利用Stereolabs ZED雙目攝像機(jī)(ZED雙目攝像機(jī)能夠捕獲110°廣角視頻,深度分辨率最高441×1242(15幀/s),幀率最高1344×376(15幀/s))于2021年10月18日在四川省某露天養(yǎng)殖池內(nèi)采集的魚體圖像,拍攝圖像分辨率為3840×1080(像素),受光線和浮游生物等影響,圖像噪聲多,且前景和背景的色彩區(qū)分度小,魚體邊緣細(xì)節(jié)模糊,選用224張圖像作為第二次遷移學(xué)習(xí)的原始數(shù)據(jù)集。

      由于所采集的數(shù)據(jù)集規(guī)模有限,直接使用該數(shù)據(jù)集進(jìn)行訓(xùn)練會造成模型的過擬合。因此,為了提高模型泛化能力,利用數(shù)據(jù)增強(qiáng)的方法對數(shù)據(jù)集進(jìn)行有效擴(kuò)充[25-26]。分別對V6數(shù)據(jù)集和自建數(shù)據(jù)集進(jìn)行翻轉(zhuǎn)和旋轉(zhuǎn),同時(shí)為了在一定程度上改善自建數(shù)據(jù)集圖像顏色對比度不高的問題,再使用對比度增強(qiáng)和顏色增強(qiáng)方式對自建數(shù)據(jù)集進(jìn)行擴(kuò)充。通過數(shù)據(jù)增強(qiáng)將V6數(shù)據(jù)集擴(kuò)充至638張,自建數(shù)據(jù)擴(kuò)充至1344張,并按8∶2的比例將自建數(shù)據(jù)劃分為訓(xùn)練集和測試集。由于試驗(yàn)所用數(shù)據(jù)集并沒有為圖像分割做標(biāo)注,因此分別對增擴(kuò)后2個(gè)數(shù)據(jù)集中的每張圖像使用Labelme軟件[27]進(jìn)行掩膜標(biāo)注并設(shè)置對應(yīng)標(biāo)簽。

      擴(kuò)充后數(shù)據(jù)集示例如圖1所示,其中掩膜圖使用Labelme軟件標(biāo)注。按魚體在圖像中占比大小分為小尺度與大尺度,將邊界框面積與圖像面積之比在0.08%~0.58%之間的目標(biāo)定義為小尺度目標(biāo)[28],將自建數(shù)據(jù)集中每張圖像含魚量超過4條以上的情況定義為較多魚。V6數(shù)據(jù)集中小尺度魚量為76條,大尺度魚量為654條,數(shù)據(jù)集中多為單目標(biāo);自建數(shù)據(jù)集小尺度魚量為509條,大尺度魚量為1566條,數(shù)據(jù)集中每張圖像多含2條魚。由于V6數(shù)據(jù)集中大尺度和單目標(biāo)圖像居多,用于第一次遷移學(xué)習(xí)非常有助于網(wǎng)絡(luò)對魚體紋理特征的提取;自建數(shù)據(jù)集中小尺度魚體較多,用于第二次遷移學(xué)習(xí)有助于網(wǎng)絡(luò)對魚體輪廓的提取。根據(jù)數(shù)據(jù)集特征分析,V6和自建數(shù)據(jù)適合作為二次遷移學(xué)習(xí)訓(xùn)練數(shù)據(jù)集。

      2 魚體語義分割模型構(gòu)建

      2.1 Mask R-CNN模型

      Mask R-CNN是在Faster R-CNN[29]基礎(chǔ)上改進(jìn)的一種的算法,在目標(biāo)檢測的同時(shí)進(jìn)行語義分割。Mask R-CNN在每個(gè)感興趣區(qū)域RoI(Region of Interest)測掩膜的分支并應(yīng)用于每個(gè)RoI的全卷積網(wǎng)絡(luò)FCN(Fully Convolutional Network)[30],實(shí)現(xiàn)以像素到像素的方式預(yù)測掩膜。為了融合多尺度的特征,Mask R-CNN使用特征金字塔網(wǎng)絡(luò)獲取更深層次的特征信息。但低層次特征與高層次特征的融合路徑太長,導(dǎo)致了低層特征的位置信息不能被充分利用[31],影響語義分割的精度。

      圖1 數(shù)據(jù)集樣本及數(shù)據(jù)集特征

      2.2 SimAM注意力機(jī)制

      SimAM[21]是一種簡單、無參數(shù)的卷積神經(jīng)網(wǎng)絡(luò)注意力模塊,可用于特征提取后動態(tài)為特征分配加權(quán),使網(wǎng)絡(luò)更加關(guān)注有用信息。SimAM通過一種能量函數(shù)的封閉式解快速為每一個(gè)神經(jīng)元分配權(quán)重,并保持整個(gè)模塊的輕量性,能量函數(shù)如式(1)所示。

      將建立的三維模型導(dǎo)入comsol軟件中,進(jìn)行網(wǎng)格劃分,由下圖可以看出,網(wǎng)格劃分較好,進(jìn)行有限元計(jì)算可以得到較為精確的結(jié)果;輸入材料的基本參數(shù)及設(shè)定的外界條件,以天(d)作為計(jì)算單位,混凝土溫度測試時(shí)間為20d,步長為3d,利用comsol軟件,對在筏板基礎(chǔ)中選取的測點(diǎn)進(jìn)行模擬計(jì)算,與實(shí)測數(shù)據(jù)進(jìn)行對比分析。

      2.3 SA-Mask R-CNN模型構(gòu)建

      由于傳統(tǒng)Mask R-CNN網(wǎng)絡(luò)中存在低層特征與高層特征融合路徑過長且缺乏對重點(diǎn)信息的關(guān)注,導(dǎo)致低層信息不能被充分利用的問題,同時(shí)SimAM注意力機(jī)制具有在不引入額外參數(shù)量的情況下,突出魚體重點(diǎn)信息的優(yōu)勢。因此,本文將二者結(jié)合,提出一種融合SimAM注意力機(jī)制的Mask R-CNN魚體語義分割模型,具體結(jié)構(gòu)如圖2所示。在神經(jīng)學(xué)科中,信息豐富的神經(jīng)元通常表現(xiàn)出與周圍神經(jīng)元不同的放電模式,且激活神經(jīng)元通常會抑制周圍神經(jīng)元,即空間抑制,因此具有空間抑制效應(yīng)的神經(jīng)元應(yīng)當(dāng)擁有更高的重要性,賦予更高的權(quán)重。因此,在Mask R-CNN網(wǎng)絡(luò)特征提取階段引入SimAM注意力機(jī)制,利用能量函數(shù)分為每一個(gè)神經(jīng)元估算權(quán)重值,再利用神經(jīng)元不同的權(quán)重為圖像中魚體有關(guān)的像素點(diǎn)計(jì)算權(quán)重,獲取空間三維權(quán)重信息。SimAM注意力機(jī)制的引入可以增強(qiáng)低層特征重要信息在整個(gè)特征層次中的作用,緩解低層特征向高層特征融合過程中丟失信息的問題,提高骨干網(wǎng)絡(luò)的特征提取能力。另外,注意力機(jī)制的處理對象是全局三維整體信息,在實(shí)現(xiàn)特征提取和特征融合過程中速度更快。

      注:x為特征,H為輸入特征高度,W為輸特征寬度,C為輸入特征長度。

      在特征提取階段,本文使用ResNet101[32]網(wǎng)絡(luò)與FPN(Feature Pyramid Network)作為骨干網(wǎng)絡(luò)提取視覺特征。FPN通過高層特征上采樣和低層特征自頂向下的連接,且在每一層做出預(yù)測,解決物體檢測中的多尺度問題,提升小目標(biāo)檢測能力。圖3為融合注意力模塊的ResNet101+FPN。在特征提取階段,ResNet101根據(jù)輸入信息進(jìn)行卷積和池化,不同深度下輸出的特征圖分別記為C1、C2、C3、C4和C5[33]。為了更好地實(shí)現(xiàn)注意力機(jī)制,本文在C1、C2、C3、C4和C5層中引入SimAM注意力機(jī)制,將輸入圖像在C1層中通過步長為2的7×7的卷積核進(jìn)行特征提取和降維,再通過SimAM注意力機(jī)制自主學(xué)習(xí),為最底層的魚體語義信息賦予更高的權(quán)重,此時(shí)的特征信息主要為魚體的紋理細(xì)節(jié)。再將圖像送入C2層,經(jīng)過3×3最大池化后依次進(jìn)行1×1卷積核特征降維和3×3卷積核特征提取,最后使用1×1卷積核進(jìn)行特征升維,再通過SimAM注意力機(jī)制增強(qiáng)魚體特征信息的權(quán)重,經(jīng)過3次卷積后,將特征圖輸入C4層,依次進(jìn)行卷積,直至輸出C5層特征圖,此時(shí)特征圖包含魚體輪廓等高層語義信息,利用FPN實(shí)現(xiàn)低層高分辨特征與高層語義特征的融合。

      在不同深度的特征圖中為魚體像素信息賦予更高權(quán)重,可以提升ResNet101與FPN魚體關(guān)鍵特征的融合和表征能力。將具有空間區(qū)域信息的特征圖輸入卷積神經(jīng)網(wǎng)絡(luò)中,有利于網(wǎng)絡(luò)對魚體特征的學(xué)習(xí),提高分割精度。

      2.4 二次遷移學(xué)習(xí)

      遷移學(xué)習(xí)是將源領(lǐng)域知識遷移到目標(biāo)領(lǐng)域的一種訓(xùn)練方法。為了節(jié)省內(nèi)存提高模型訓(xùn)練速度,快速收斂并取得理想效果,本文采用遷移學(xué)習(xí)的訓(xùn)練方法;同時(shí)為了解決采集圖像的降質(zhì)問題,本文采用二次遷移學(xué)習(xí)的訓(xùn)練方法提升模型的穩(wěn)健性和魯棒性,如圖4所示為二次遷移學(xué)習(xí)流程。

      利用COCO數(shù)據(jù)集預(yù)訓(xùn)練模型,在V6數(shù)據(jù)集上完成第一次遷移學(xué)習(xí)。利用第一次遷移學(xué)習(xí)訓(xùn)練最優(yōu)模型結(jié)果,在自建數(shù)據(jù)集上完成第二次遷移學(xué)習(xí)。

      注:C1、C2、C3、C4、C5為不同深度下得到的特征圖;M2、M3、M4、M5為上采樣得到的特征圖;P2、P3、P4、P5、P6為不同深度特征圖融合之后得到的新特征圖。

      圖4 二次遷移學(xué)習(xí)流程圖

      在高質(zhì)量數(shù)據(jù)集上借助注意力機(jī)制完成第一次遷移學(xué)習(xí),有利于卷積網(wǎng)絡(luò)對魚體特征的提取,使網(wǎng)絡(luò)獲取更豐富的魚體語義信息。第二次遷移學(xué)習(xí)有利于網(wǎng)絡(luò)將第一次遷移學(xué)習(xí)結(jié)果遷移到復(fù)雜環(huán)境中,提升網(wǎng)絡(luò)分割的準(zhǔn)確性。兩次遷移學(xué)習(xí)將具有相似特征空間的數(shù)據(jù)集通過特征變換的方式相互遷移,減少源域與目標(biāo)域之間的差距,有利于網(wǎng)絡(luò)在圖像降質(zhì)情況下對魚體特征的學(xué)習(xí),改善復(fù)雜環(huán)境下語義分割效果不理想的問題。

      3 試驗(yàn)環(huán)境與設(shè)計(jì)

      3.1 試驗(yàn)環(huán)境

      模型的訓(xùn)練采用AMD Ryzen7 4800H的CPU、NVIDIA GeForce RTX 2060的GPU和運(yùn)行內(nèi)存為16GB的計(jì)算機(jī)。通過參數(shù)調(diào)整與比較,設(shè)置初始學(xué)習(xí)率為0.000 1,試驗(yàn)迭代50輪(Epochs)。使用CUDNN11.0為卷積神經(jīng)網(wǎng)絡(luò)提速,使用具有自適應(yīng)學(xué)習(xí)的優(yōu)化器Adam[34]替代傳統(tǒng)的隨機(jī)梯度下降(SGD)算法進(jìn)行模型的迭代過程,使用Tensorflow作為深度學(xué)習(xí)框架,Keras作為高階應(yīng)用程序接口,使用Labelme進(jìn)行圖像標(biāo)注。

      3.2 試驗(yàn)設(shè)計(jì)

      表1 試驗(yàn)設(shè)計(jì)

      SegNet是文獻(xiàn)[9]用于實(shí)現(xiàn)魚體分割的網(wǎng)絡(luò),具有僅儲存特征映射的最大池索引,解碼器網(wǎng)絡(luò)良好分割的效果。UNet++[35]是文獻(xiàn)[12-14]研究方法的改進(jìn),具有通過整合不同層次的特征,提升分割精度。試驗(yàn)采用這兩個(gè)網(wǎng)絡(luò)模型進(jìn)行比較,證明改進(jìn)網(wǎng)絡(luò)的有效性。

      SENet[16]采用特征重標(biāo)定策略,根據(jù)損失函數(shù)學(xué)習(xí)特征權(quán)重,在不額外引入空間維度的同時(shí)為每個(gè)特征通道賦予不同的重要程度。CBAM[18]是作用于前饋神經(jīng)網(wǎng)絡(luò)的注意力模塊,沿通道和空間兩個(gè)維度依次推斷注意力圖實(shí)現(xiàn)特征優(yōu)化。使用SENet和CBAM注意力模塊對Mask R-CNN進(jìn)行改進(jìn)是目前圖像處理領(lǐng)域的主流方法。試驗(yàn)通過引入不同的注意力模塊,驗(yàn)證本文引入SimAM注意力模塊的先進(jìn)性。

      3.3 試驗(yàn)評價(jià)指標(biāo)

      式中表示語義類別總數(shù),表示真實(shí)值,表示預(yù)測值,P表示將類別預(yù)測為類別的像素?cái)?shù)量。TP為正確分割的像素?cái)?shù),F(xiàn)P為誤分割的像素?cái)?shù),F(xiàn)N為漏分割的像素?cái)?shù)。

      4 試驗(yàn)結(jié)果分析

      將所有模型在本文所構(gòu)建的數(shù)據(jù)集上進(jìn)行訓(xùn)練,以比較不同模型對同一問題的處理性能,其訓(xùn)練損失函數(shù)如圖5所示。

      圖5 不同方法的訓(xùn)練損失

      其中Mask R-CNN1表示使用Mask R-CNN進(jìn)行一次遷移學(xué)習(xí);Mask R-CNN2表示進(jìn)行二次遷移學(xué)習(xí);SE1-Mask R-CNN表示使用SE-Mask R-CNN進(jìn)行一次遷移學(xué)習(xí);CBAM1-Mask R-CNN表示使用CBAB-Mask R-CNN進(jìn)行一次遷移學(xué)習(xí);SA1-Mask R-CNN表示使用SA-Mask R-CNN進(jìn)行一次遷移學(xué)習(xí),SA2-Mask R-CNN進(jìn)行二次遷移學(xué)習(xí)(下同)。對比不同模型訓(xùn)練50輪的損失值可知,CBAM1-Mask R-CNN的損失值下降速度最快,其次是SA2-Mask R-CNN,但在模型收斂后SA2-Mask R-CNN具有最小的損失值為0.086,即SA2-Mask R-CNN模型在訓(xùn)練集上的擬合程度最好。此外,使用同一網(wǎng)絡(luò)模型二次遷移學(xué)習(xí)的訓(xùn)練方法在模型收斂后都具有更低的損失值。

      為了驗(yàn)證本文改進(jìn)方法的有效性,在自建數(shù)據(jù)集的測試集上進(jìn)行驗(yàn)證,圖6為不同方法的分割結(jié)果。Mask R-CNN在一次遷移學(xué)習(xí)情況下對大尺度魚體的魚尾分割缺失、小尺度魚體分割遺漏的問題,經(jīng)過二次遷移學(xué)習(xí),缺失和遺漏得到一定程度的改善。SegNet在前景和背景區(qū)分度不明顯的情況下對小尺度分割效果不佳,魚體分割遺漏和缺失嚴(yán)重,網(wǎng)絡(luò)模型魯棒性和穩(wěn)健性較差。U-Net++對降質(zhì)圖像中的魚體分割同樣存在缺失和遺漏,尤其對于魚體細(xì)節(jié)部分的分割,表征能力較差。SE1-Mask R-CNN與CBAM1-Mask R-CNN模型的分割準(zhǔn)確性有所提升,但相較于SA-Mask R-CNN對于魚鰭和魚尾細(xì)節(jié)的分割效果還存在不足。通過局部放大圖對比SA1-Mask-R-CNN和SA2-Mask-R-CNN分割結(jié)果發(fā)現(xiàn),在噪聲較多情況下,SA2-Mask-R-CNN對魚尾、魚頭的分割處理更加精細(xì)和完整,這是因?yàn)樵诙芜w移學(xué)習(xí)訓(xùn)練過程中,利用注意力模塊在V6數(shù)據(jù)集上進(jìn)行第一遷移學(xué)習(xí)時(shí),網(wǎng)絡(luò)更好地學(xué)習(xí)了魚體細(xì)節(jié)紋理信息,因此在魚體分割過程中具有更好的表征能力。

      無論尺度大小,魚量多少,SA-Mask R-CNN并結(jié)合二次遷移學(xué)習(xí)的方法。在現(xiàn)實(shí)復(fù)雜環(huán)境下對魚體邊緣都具有更好的表征能力,也具有更強(qiáng)的魯棒性和泛化能力,有利于提升后續(xù)魚類點(diǎn)云計(jì)算的精確率,減少人工對水產(chǎn)品的捕撈測量,促進(jìn)魚類養(yǎng)殖產(chǎn)業(yè)智能化發(fā)展。

      使用測試集RGB數(shù)字圖像在訓(xùn)練好的深度學(xué)習(xí)模型上進(jìn)行語義分割,對比結(jié)果如表2所示。

      表2中Mask R-CNN1各項(xiàng)指標(biāo)都高于SegNet和U-Net++,其IoU分別提升了0.71和0.52個(gè)百分點(diǎn),精確率分別提升了1.12和0.53個(gè)百分點(diǎn),召回率分別提升了1.15和0.65個(gè)百分點(diǎn),F(xiàn)1分別提升了1.14和0.59個(gè)百分點(diǎn)。SA1-Mask R-CNN分割精度和其他幾個(gè)方法相比最高,較Mask R-CNN1的IoU提升了8.51個(gè)百分點(diǎn),精確率提升了8.8個(gè)百分點(diǎn),召回率提升了9.18個(gè)百分點(diǎn),綜合評價(jià)指標(biāo)提高了8.99個(gè)百分點(diǎn),魚體語義分割效果明顯提升。此外與王紅君等[15]在純白色背景下魚體分割平均交并比達(dá)93%相比,本文模型不僅實(shí)現(xiàn)了更高的分割精度,而且試驗(yàn)使用數(shù)據(jù)集為真養(yǎng)殖環(huán)境,更具有實(shí)際應(yīng)用價(jià)值。

      為了進(jìn)一步驗(yàn)證二次遷移學(xué)習(xí)的有效性,本文對比了不同訓(xùn)練方法的模型分割結(jié)果如表4所示。

      圖6 不同方法不同場景的分割結(jié)果

      表2 不同方法分割結(jié)果

      表3 引入不同注意力機(jī)制的分割結(jié)果對比

      表4 不同訓(xùn)練方法性能對比

      表4中SA2-Mask R-CNN模型預(yù)測結(jié)果的IoU達(dá)93.82%,精確率達(dá)96.98%,召回率達(dá)95.12%,F(xiàn)1達(dá)96.04%,較SA1-Mask R-CNN模型預(yù)測結(jié)果的IoU提升了0.67個(gè)百分點(diǎn),精確率提升了0.82個(gè)百分點(diǎn),召回率提升了0.27個(gè)百分點(diǎn),F(xiàn)1提升了0.54個(gè)百分點(diǎn)。試驗(yàn)結(jié)果證明,在噪聲較多的復(fù)雜真實(shí)環(huán)境下,利用具有相似特征空間的數(shù)據(jù)集進(jìn)行遷移學(xué)習(xí)有助于網(wǎng)絡(luò)更好地從高質(zhì)量數(shù)據(jù)集學(xué)習(xí)魚體特征并遷移到真實(shí)場景中來,可以提高網(wǎng)絡(luò)模型分割的準(zhǔn)確性,提升網(wǎng)絡(luò)的魯棒性和泛化能力。

      綜和分析表3和表4,SA2-Mask R-CNN模型較引入SENet和CBAM注意力模塊的Mask R-CNN交并比分別提升了2.46和1個(gè)百分點(diǎn),綜合評價(jià)指標(biāo)分別提升了2.57和0.92個(gè)百分點(diǎn)。

      5 結(jié) 論

      1)構(gòu)建的SA-Mask R-CNN魚體識別模型,以ResNet101、FPN和SimAM注意力機(jī)制作為主干網(wǎng)絡(luò),可以在受到噪聲影響的復(fù)雜環(huán)境下較為準(zhǔn)確的分割出魚體,并表征出魚體細(xì)節(jié)信息,為魚體的三維建模和語義點(diǎn)云提供更加精確的結(jié)果。

      2)與SENet、CBAM注意力模塊相比,SimAM對于魚體分割性能的提升更有效。引入SimAM注意力模塊后的模型在測試集上的IoU分別提升了1.79和0.33個(gè)百分點(diǎn),精確率分別提升了1.44和0.25個(gè)百分點(diǎn),召回率分別提升了2.59和0.51個(gè)百分點(diǎn),F(xiàn)1分別提升了2.03和0.38個(gè)百分點(diǎn)。分割結(jié)果可視化后的結(jié)果同樣證明,引入SimAM注意力模塊可以加強(qiáng)網(wǎng)絡(luò)對魚體特征的關(guān)注,提高了魚體分割的能力。另外,在提高語義分割精度的同時(shí),SA-Mask R-CNN模型參數(shù)量更小,更有助于模型的移植和部署。

      3)二次遷移學(xué)習(xí)訓(xùn)練方法在SA-Mask R-CNN網(wǎng)絡(luò)上較只使用一次遷移學(xué)習(xí)的IoU提升了0.67個(gè)百分點(diǎn),精確率提升了0.82個(gè)百分點(diǎn),召回率提升了0.27個(gè)百分點(diǎn),F(xiàn)1提升了0.54個(gè)百分點(diǎn),證明利用特征空間相似的數(shù)據(jù)集進(jìn)行二次遷移學(xué)習(xí)的訓(xùn)練方法在噪聲較多的復(fù)雜環(huán)境下有助于提升模型分割的準(zhǔn)確性和魯棒性。

      [1] 李艷君,黃康為,項(xiàng)基. 基于立體視覺的動態(tài)魚體尺寸測量[J]. 農(nóng)業(yè)工程學(xué)報(bào),2020,36(21):220-226.

      Li Yanjun, Huang Kangwei, Xiang Ji. Dynamic fish body size measurement based on stereo vision[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2020, 36(21): 220-226. (in Chinese with English abstract)

      [2] 陳進(jìn),韓夢娜,練毅,等. 基于U-Net模型的含雜水稻籽粒圖像分割[J]. 農(nóng)業(yè)工程學(xué)報(bào),2020,36(10):174-180.

      Chen Jin, Han Mengna, Lian Yi, et al. Image segmentation of heterogeneous rice grains based on U-Net model[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2020, 36(10): 174-180 (in Chinese with English abstract)

      [3] 任守綱,賈馥瑋,顧興健,等. 反卷積引導(dǎo)的番茄葉部病害識別及病斑分割模型[J]. 農(nóng)業(yè)工程學(xué)報(bào),2020,36(12):186-195.

      Ren Shougang, Jia Fuwei, Gu Xingjian, et al. Deconvolution-guided leaf disease identification and disease spot segmentation model of tomato[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2020, 36(12): 186-195. (in Chinese with English abstract)

      [4] Mo Y, Wu Y, Yang X, et al. Review the state-of-the-art technologies of semantic segmentation based on deep learning[J]. Neurocomputing, 2022, 493: 626-646.

      [5] Liu S, Li M, Li M, et al. Research of animals image semantic segmentation based on deep learning[J]. Concurrency and Computation: Practice and Experience, 2020, 32(1): e4892.

      [6] Garcia R, Prados R, Quintana J, et al. Automatic segmentation of fish using deep learning with application to fish size measurement[J]. ICES Journal of Marine Science, 2020, 77(4): 1354-1366.

      [7] He K, Gkioxari G, Dollár P, et al. Mask R-CNN[C]// Proceedings of the IEEE international conference on computer vision. Venice, Italy, 2017: 2961-2969.

      [8] Yu C, Fan X, Hu Z, et al. Segmentation and measurement scheme for fish morphological features based on Mask R-CNN[J]. Information Processing in Agriculture, 2020, 7(4): 523-534.5

      [9] 劉斌,王凱歌,李曉蒙,等. 基于語義部位分割的條紋斑竹鯊魚體運(yùn)動姿態(tài)解析[J]. 農(nóng)業(yè)工程學(xué)報(bào),2021,37(3):179-187.

      Liu Bin, Wang Kaige, Li Xiaomeng, et al. Analysis of striped bamboo shark body split-based separation of semantic parts[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(3): 179-187. (in Chinese with English abstract)

      [10] Badrinarayanan V, Kendall A, Cipolla R. Segnet: A deep convolutional encoder-decoder architecture for image segmentation[J]. IEEE transactions on pattern analysis and machine intelligence, 2017, 39(12): 2481-2495.

      [11] Laradji I H, Saleh A, Rodriguez P, et al. Weakly supervised underwater fish segmentation using affinity LCFCN[J]. Scientific reports, 2021, 11(1): 1-10.

      [12] Nezla N A, Haridas T P M, Supriya M H. Semantic segmentation of underwater images using unet architecture based deep convolutional encoder decoder model[C]// 2021 7th International Conference on Advanced Computing and Communication Systems (ICACCS). IEEE, Coimbatore, India, 2021: 28-33.

      [13] Thampi L, Thomas R, Kamal S, et al. Analysis of U-Net based image segmentation model on underwater images of different species of fishes[C]//2021 International Symposium on Ocean Technology (SYMPOL). IEEE, Kochi, India, 2021: 1-5.

      [14] Yu C, Liu Y, Hu Z, et al. Precise segmentation and measurement of inclined fish’s features based on U-net and fish morphological characteristics[J]. Applied Engineering in Agriculture, 2022, 38(1): 37-48.

      [15] 王紅君,季曉宇,趙輝,等. SENet優(yōu)化的Deeplabv3+淡水魚體語義分割[J]. 中國農(nóng)機(jī)化學(xué)報(bào),2021,42(2):158-163.

      Wang Hongjun, Ji Xiaoyu, Zhao Hui, et al. SENet optimized Deeplabv3+ freshwater fish body semantic segmentation[J]. Journal of Chinese Agricultural Mechanization, 2021, 42(2): 158-163. (in Chinese with English abstract).

      [16] Hu J, Shen L, Sun G. Squeeze-and-excitation networks[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA. 2018: 7132-7141.

      [17] Sui H, Huang L, Liu C. Detecting building fa?ade damage caused by Earthquake using CBAM-improved mask R-CNN[J]. Geomatics science of Wuhan University, 2020, 45(11): 1660-1668.

      [18] Woo S, Park J, Lee J Y, et al. Cbam: Convolutional block attention module[C]//Proceedings of the European Conference on Computer Vision (ECCV). Munich, Germany, 2018: 3-19.

      [19] Zhao Z, Chen K, Yamane S. CBAM-Unet++: Easier to find the target with the attention module “CBAM”[C]// 2021 IEEE 10th Global Conference on Consumer Electronics (GCCE). IEEE, Kyoto, Japan, 2021: 655-657.

      [20] Shu B, Mu J, Zhu Y. AMNet: Convolutional neural network embeded with attention mechanism for semantic segmentation[C]//Proceedings of the 2019 3rd High Performance Computing and Cluster Technologies Conference. Guangzhou China, 2019: 261-266.

      [21] Yang L, Zhang R Y, Li L, et al. SimAM: A simple, parameter-free attention module for convolutional neural networks[C]// International Conference on Machine Learning. PMLR, Seoul, South Korea, 2021: 11863-11874.

      [22] Kuznetsova A, Rom H, Alldrin N, et al. The open images dataset v4[J]. International Journal of Computer Vision, 2020, 128(7): 1956-1981.

      [23] Lin T Y, Maire M, Belongie S, et al. Microsoft coco: Common objects in context[C]//Proceedings of the European Conference on Computer Vision. Springer, Cham, Zurich, Switzerland, 2014: 740-755.

      [24] Pan S J, Yang Q. A survey on transfer learning[J]. IEEE Transactions on Knowledge and Data Engineering, 2009, 22: 1345-1359.

      [25] Shorten C, Khoshgoftaar T M. A survey on image data augmentation for deep learning[J]. Journal of Big Data, 2019, 6(1): 1-48.

      [26] Miko?ajczyk A, Grochowski M. Data augmentation for improving deep learning in image classification problem[C]// 2018 International Interdisciplinary PhD Workshop (IIPhDW). IEEE, Swinoujscie, Poland, 2018: 117-122.

      [27] Russell B C, Torralba A, Murphy K P, et al. LabelMe: A database and web-based tool for image annotation[J]. International Journal of Computer Vision, 2008, 77(1): 157-173.

      [28] Kampffmeyer M, Salberg A B, Jenssen R. Semantic segmentation of small objects and modeling of uncertainty in urban remote sensing images using deep convolutional neural networks[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. Las Vegas, USA, 2016: 1-9.

      [29] Ren S, He K, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J]. Advances in Neural Information Processing Systems, 2015, 28: 1137-1149.

      [30] Long J, Shelhamer E, Darrell T. Fully convolutional networks for semantic segmentation [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA, 2015: 3431-3440.

      [31] 袁山,湯浩,郭亞. 基于改進(jìn)Mask R-CNN模型的植物葉片分割方法[J].農(nóng)業(yè)工程學(xué)報(bào),2022,38(1):212-220.

      Yuan Shan, Tang Hao, Guo Ya. Plant leaf segmentation method based on improved Mask R-CNN model[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2022, 38(1): 212-220. (in Chinese with English abstract)

      [32] He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA, 2016: 770-778.

      [33] 周飛燕,金林鵬,董軍. 卷積神經(jīng)網(wǎng)絡(luò)研究綜述[J]. 計(jì)算機(jī)學(xué)報(bào),2017,40(6):1229-1251.

      Zhou Feyuan, Jin Linpeng, Dong Jun. Summary of convolution neural network research[J]. Chinese Journal of Computers, 2017, 40(6): 1229-1251. (in Chinese with English abstract)

      [34] Diederik P, Kingma, Jimmy B. A method for stochastic optimization[C]//The 3rd International Conference for Learning Representations, San Diego, 2015.

      [35] Zhou Z, Rahman Siddiquee M M, Tajbakhsh N, et al. Unet++: A nested u-net architecture for medical image segmentation[C]//Deep Learning in Medical Image Analysis and Multimodal Learning for Clinical Decision Support. Springer, Cham, 2018: 3-11.

      Semantic segmentation of the fish bodies in real environment using improved Mask-RCNN model

      Guo Yi, Huang Jiaxin, Deng Boqi, Liu Yangcheng

      (,,610000,)

      The semantic segmentation of fish bodies is the basis to realize the three-dimensional modeling and semantic point clouds, as well as the calculation of the growth information of fish. The accuracy of point cloud computing depends mainly on the precision of fish body segmentation. However, the long path of feature fusion in the traditional Mask R-CNN network can result in the low-level information containing the accurate location of the target failing to be fully used. In addition, the noise (such as light and water quality) can pose a great impact on the collected images in the real breeding environment, leading to quality degradation. The fish feature cannot be fully extracted for better edge segmentation using the traditional network. In this study, an improved Mask R-CNN model was proposed to combine the SimAM attention mechanism, in order to improve the precision of fish semantic segmentation in complex environments. Twice-transfer learning was also conducted during the training process. An attention mechanism was added at each layer of the residual network in the backbone network. The extracted features were dynamically assigned the weights, so that the improved network was utilized to focus on the information that related to the fish body, while maintaining the lightweight feature of the model. The first transfer learning was conducted to train the pre-trained model of COCO dataset on the Open Images DatasetV6 fish images, followed by the second transfer learning on the self-built dataset. Among them, the self-built dataset was the frame splitting of the captured video using a ZED binocular camera in the real culturing environment. The images in the self-built dataset shared the features of a lot of noise and complex backgrounds. There were similar feature spaces in the fish images from the self-built dataset and the Open Images Dataset V6. As such, the features with high clarity and less noise were conducive to the network learning the texture and detail information of the fish body. Twice-transfer learning was also used to alleviate the noise in the images from the two datasets with similar feature spaces. Experiments on the test set of the self-built dataset show that the IoU, F1, precision, and recall rates of the improved model were 93.82%, 96.04%, 96.98%, and 95.12%, respectively. A series of comparative experiments were conducted to verify the effectiveness of the improved model. The experimental results show that the segmentation performance of SA1-Mask R-CNN was better than that of SegNet and U-Net++. In contrast to the Mask R-CNN1, the IoU was improved by 8.51 percentage points, the precision was improved by 8.8 percentage points, the recall rate increased by 9.18 percentage points, and F1 was improved by 8.99 percentage points. Compared with the SE- and CBAM-Mask R-CNN, the IoU increased by 1.79 and 0.33 percentage points, the precision increased by 1.44 and 0.25 percentage points, the recall increased by 2.59 and 0.51 percentage points, F1 increased by 2.03 and 0.38 percentage points, respectively. Meanwhile, the number of model parameters decreased by 4.7 and 5 MB, respectively. Furthermore, two training methods were compared to verify the effectiveness of twice-transfer learning. It was found that the SA2-Mask R-CNN improved the IoU, precision, recall, and F1 by 0.67, 0.82, 0.27, and 0.54 percentage points, compared with SA1-Mask R-CNN. In summary, the improved model can be expected to improve the precision of fish semantic segmentation without increasing the number of model parameters, indicating the excellent deployment and porting of the model. At the same time, the precision of twice-transfer learning improved the semantic segmentation of fish bodies. The findings can provide a strong reference for the cloud computing of fish body points.

      deep learning; semantic segmentation; fish body segmentation; attention mechanism; twice-transfer learning

      10.11975/j.issn.1002-6819.2022.23.017

      TP391.4

      A

      1002-6819(2022)-23-0162-08

      郭奕,黃佳芯,鄧博奇. 改進(jìn)Mask R-CNN的真實(shí)環(huán)境下魚體語義分割[J]. 農(nóng)業(yè)工程學(xué)報(bào),2022,38(23):162-169.doi:10.11975/j.issn.1002-6819.2022.23.017 http://www.tcsae.org

      Guo Yi, Huang Jiaxin, Deng Boqi, et al. Semantic segmentation of the fish bodies in real environment using improved Mask-RCNN model[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2022, 38(23): 162-169. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2022.23.017 http://www.tcsae.org

      2022-08-20

      2022-11-25

      四川省重點(diǎn)實(shí)驗(yàn)室項(xiàng)目(SCITLAB-1021);國家自然科學(xué)基金面上項(xiàng)目(61973257);國家自然科學(xué)基金青年項(xiàng)目(61901394)

      郭奕,博士,副教授,研究方向?yàn)槎嗝襟w信息處理、數(shù)據(jù)挖掘及其應(yīng)用。Email:lpngy@vip.163.com

      猜你喜歡
      魚體注意力語義
      讓注意力“飛”回來
      軸流泵內(nèi)魚體的運(yùn)動行為與撞擊損傷分析
      淡水魚水平往復(fù)振動頭尾定向輸送方法
      淡水魚腹背定向裝置設(shè)計(jì)及試驗(yàn)
      語言與語義
      “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
      傳媒評論(2017年3期)2017-06-13 09:18:10
      A Beautiful Way Of Looking At Things
      “上”與“下”語義的不對稱性及其認(rèn)知闡釋
      認(rèn)知范疇模糊與語義模糊
      幾種魚體新鮮度快速檢測方法的研究進(jìn)展
      长子县| 中江县| 剑阁县| 浦北县| 定襄县| 盐津县| 光泽县| 营口市| 龙江县| 开远市| 遵义县| 林甸县| 杭锦后旗| 宝清县| 临洮县| 自贡市| 务川| 卓尼县| 开鲁县| 鄂温| 安新县| 维西| 左云县| 元阳县| 青海省| 延安市| 卓尼县| 湖州市| 莱芜市| 三台县| 皮山县| 佛山市| 百色市| 汕头市| 汝州市| 淮南市| 盐源县| 普宁市| 东兴市| 太原市| 嵊州市|