胡志偉,楊 華,婁甜田
·農(nóng)業(yè)信息與電氣技術(shù)·
采用雙重注意力特征金字塔網(wǎng)絡(luò)檢測(cè)群養(yǎng)生豬
胡志偉1,2,楊 華1※,婁甜田3
(1. 山西農(nóng)業(yè)大學(xué)信息科學(xué)與工程學(xué)院,太谷 030801;2. 山西大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院(大數(shù)據(jù)學(xué)院),太原 030006;3. 山西農(nóng)業(yè)大學(xué)農(nóng)業(yè)經(jīng)濟(jì)管理學(xué)院,太谷 030801)
為解決復(fù)雜環(huán)境下,豬只粘連和豬欄遮擋等因素給生豬個(gè)體多目標(biāo)實(shí)例檢測(cè)帶來(lái)的困難,該研究以群養(yǎng)豬圈場(chǎng)景下8欄(日齡20~105 d)共計(jì)45頭生豬為研究對(duì)象,以視頻為數(shù)據(jù)源,采用平視視角、鏡頭位置不固定的數(shù)據(jù)采集方式,共獲得標(biāo)注圖像3 834張,并將其劃分為訓(xùn)練集2 490張、驗(yàn)證集480張、測(cè)試集864張。引入一種融合通道注意力(Channel Attention Unit,CAU)與空間注意力(Position Attention Unit,PAU)的雙重注意力單元(Dual Attention Unit,DAU),并將DAU用于特征金字塔網(wǎng)絡(luò)(Feature Pyramid Network,F(xiàn)PN)結(jié)構(gòu)中,研究基于兩大骨干網(wǎng)絡(luò)ResNet50、ResNet101與4個(gè)任務(wù)網(wǎng)絡(luò)Mask R-CNN、Cascade Mask R-CNN、MS R-CNN及HTC(Hybrid Task Cascade)交叉結(jié)合模型對(duì)群養(yǎng)生豬實(shí)例檢測(cè)性能。結(jié)果表明:與CBAM、BAM、SCSE等注意力模塊相比,HTC-R101-DAU比HTC-R101-CBAM在IOU閾值為0.5、0.75、0.5~0.95(所有目標(biāo))、0.5~0.95(大目標(biāo))條件下的4種AP(Average Precision)指標(biāo)分別提升1.7%、1.7%、2.1%與1.8%;單獨(dú)加入CAU與PAU以分別探究通道與空間注意力單元對(duì)任務(wù)網(wǎng)絡(luò)檢測(cè)性能影響,試驗(yàn)結(jié)果表明,DAU與CAU及PAU相比性能更佳,且加入特定串聯(lián)數(shù)量的PAU效果優(yōu)于CAU;為獲取更為豐富的上下文信息,分別串聯(lián)1~4個(gè)PAU單元以構(gòu)建不同空間注意力模塊,試驗(yàn)結(jié)果表明,隨著串聯(lián)PAU單元數(shù)量的增加,相同任務(wù)網(wǎng)絡(luò)其預(yù)測(cè)AP指標(biāo)值先增加后減小。綜合分析,HTC-R101-DAU模型可更為精確、有效地對(duì)不同場(chǎng)景生豬進(jìn)行實(shí)例檢測(cè),可為后續(xù)生豬個(gè)體深度研究奠定基礎(chǔ)。
圖像處理;目標(biāo)檢測(cè);算法;特征金字塔;通道注意力;空間注意力
集約化飼養(yǎng)環(huán)境中,生豬養(yǎng)殖密度的不斷增加大大增加感染病患風(fēng)險(xiǎn),加大豬瘟防控難度。機(jī)器視覺(jué)技術(shù)能夠提供低成本、非接觸式監(jiān)測(cè)方法,對(duì)生豬個(gè)體進(jìn)行精準(zhǔn)快速檢測(cè)有助于構(gòu)建養(yǎng)殖可追溯系統(tǒng),并及時(shí)發(fā)現(xiàn)異常行為,降低疾病發(fā)生率[1-3]。但豬欄內(nèi)光線(xiàn)變化復(fù)雜、群養(yǎng)豬易擠踏堆疊,豬只粘連以及雜物遮擋等客觀(guān)因素給生豬個(gè)體檢測(cè)帶來(lái)較大困難,因而多干擾場(chǎng)景下快速且準(zhǔn)確地檢測(cè)出生豬目標(biāo)是亟需解決的關(guān)鍵問(wèn)題。
卷積神經(jīng)網(wǎng)絡(luò)CNN(Convolutional Neural Network)[4-5]作為特征提取器,已在小麥[6]、玉米[7]、葡萄[8]、牛[9-10]等目標(biāo)領(lǐng)域得到廣泛應(yīng)用。在生豬個(gè)體研究領(lǐng)域,其已在圖像分割[11-12]、目標(biāo)跟蹤[13]、行為識(shí)別[14-15]、姿態(tài)類(lèi)別識(shí)別[16]等方面得到廣泛研究。對(duì)于生豬個(gè)體檢測(cè),燕紅文等[17]基于特征金字塔注意力與YOLOV3[18]結(jié)合用于群養(yǎng)生豬檢測(cè);沈明霞等[19]提出基于YOLOV3的目標(biāo)檢測(cè)算法,用于對(duì)個(gè)體較小、易粘連的仔豬個(gè)體進(jìn)行識(shí)別;劉巖等[1]結(jié)合雙線(xiàn)性SVM與CNN進(jìn)行多目標(biāo)生豬檢測(cè);但上述基于CNN的檢測(cè)方法僅將生豬個(gè)體從養(yǎng)殖環(huán)境中分離出來(lái),不能檢測(cè)出一張圖片中同類(lèi)物體的不同個(gè)體,而實(shí)例級(jí)檢測(cè)可對(duì)同類(lèi)物體中的不同個(gè)體進(jìn)行有效區(qū)分,其更適用于諸如生豬目標(biāo)跟蹤、運(yùn)動(dòng)量統(tǒng)計(jì)等伴有身份性識(shí)別的下游檢測(cè)任務(wù),應(yīng)用前景更為廣泛。He等[20]提出的Mask R-CNN模型可對(duì)粘連生豬圖像進(jìn)行高精度實(shí)例分割與檢測(cè),且已在生豬實(shí)例分割任務(wù)上取得較多研究成果。Tu等[21]提出基于Mask Scoring R-CNN[22]的群養(yǎng)生豬實(shí)例分割;李丹等[23]基于Mask R-CNN構(gòu)建豬只爬跨行為實(shí)例分割模型,實(shí)現(xiàn)94.5%識(shí)別準(zhǔn)確率;高云等[24]在深度卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上建立PigNet網(wǎng)絡(luò),對(duì)群養(yǎng)生豬圖像進(jìn)行實(shí)例分割,實(shí)現(xiàn)對(duì)豬體的分辨和定位。但上述實(shí)例分割方法僅將Mask R-CNN應(yīng)用于生豬領(lǐng)域,而實(shí)例分割方法本身兼?zhèn)鋵?shí)例檢測(cè)的功能。為此,本文選用Mask R-CNN等實(shí)例分割方法探討其在生豬實(shí)例檢測(cè)任務(wù)上的適用性,而在生豬群養(yǎng)環(huán)境下,粘連生豬個(gè)體的豬鼻、豬蹄等細(xì)節(jié)部位信息存在獨(dú)特性,對(duì)生豬區(qū)別性部位特征進(jìn)行強(qiáng)化可更好地細(xì)化檢測(cè)邊界。注意力機(jī)制在篩選特征時(shí),能夠提升利于實(shí)例檢測(cè)的區(qū)域信息權(quán)重,抑制次要信息以提升模型效果,且已在多個(gè)領(lǐng)域取得不錯(cuò)效果,可用于生豬區(qū)別性部位信息強(qiáng)化。Tong等[25]將通道注意力思想用于DenseNet[26]中對(duì)遙感圖像場(chǎng)景分類(lèi);Yang等[27]提出雙重空間注意力對(duì)虹膜進(jìn)行識(shí)別;Huang等[28]提出交錯(cuò)空間注意力在減少計(jì)算量的同時(shí)提升語(yǔ)義分割精度。但上述基于注意力機(jī)制的研究?jī)H單獨(dú)使用通道或空間注意力信息,為能充分融合兩種注意力信息,CBAM(Convolutional Block Attention Module)[29]、BAM(Bottleneck Attention Module)[30]、SCSE(Spatial and Channel Squeeze & Excitation)[31]、DANet(Dual Attention Network)[32]等注意模塊對(duì)特征圖從通道和空間維度分別進(jìn)行建模,但上述同時(shí)融入兩種注意力思想的方法僅單純對(duì)特征提取網(wǎng)絡(luò)的最終輸出特征圖進(jìn)行注意力篩選,對(duì)于特征提取網(wǎng)絡(luò)中不同感受野大小的信息并未進(jìn)行對(duì)應(yīng)注意力提取,而感受野不同其所關(guān)注的區(qū)域大小不同,對(duì)其進(jìn)行不同注意力篩選將能有效改善多尺度大小目標(biāo)的檢測(cè)精度。基于此,本文將Fu等[32]提出的通道注意力與Huang等[28]提出的空間注意力融合嵌入特征金字塔網(wǎng)絡(luò)中,對(duì)群養(yǎng)環(huán)境下的生豬進(jìn)行實(shí)例檢測(cè)。
本研究通過(guò)融合通道與空間注意力構(gòu)建雙重注意力模塊,并將其引入特征金字塔網(wǎng)絡(luò)對(duì)深度分離、雜物遮擋、高度粘連等不同場(chǎng)景下的群養(yǎng)生豬個(gè)體進(jìn)行非接觸、低成本實(shí)例檢測(cè)。為驗(yàn)證引入雙重注意力模塊金字塔網(wǎng)絡(luò)的檢測(cè)性能,分別對(duì)比分析其在不同骨干網(wǎng)絡(luò)與任務(wù)網(wǎng)絡(luò)的應(yīng)用效果。同時(shí),通過(guò)對(duì)比試驗(yàn),確定最合適的空間注意力單元。本研究以期通過(guò)不同場(chǎng)景下的生豬個(gè)體實(shí)例級(jí)檢測(cè),為生豬行為分析奠定基礎(chǔ)。
試驗(yàn)數(shù)據(jù)分別采集于山西省汾陽(yáng)市冀村鎮(zhèn)東宋家莊村(2019年6月1日9:00-14:00,天氣晴,溫度23~29 ℃,光照強(qiáng)烈,室外環(huán)境)與山西農(nóng)業(yè)大學(xué)實(shí)驗(yàn)動(dòng)物管理中心(2019年10月13日10:30-12:00,天氣多云,溫度10~19 ℃,光照偏弱,室內(nèi)環(huán)境),選取大白、長(zhǎng)白及杜洛克混養(yǎng)品種豬作為拍攝對(duì)象以檢驗(yàn)?zāi)P蛯?duì)多品種生豬的實(shí)例檢測(cè)性能。2個(gè)豬場(chǎng)豬欄長(zhǎng)×寬×高分別為3.5 m×2.5 m×1 m和4 m×2.7 m×1 m,每欄生豬數(shù)量3~8只不等,每個(gè)豬場(chǎng)選取4欄共計(jì)8欄日齡20~105 d的群養(yǎng)生豬合計(jì)45頭作為試驗(yàn)對(duì)象,采用佳能700D防抖攝像頭拍攝,每欄選取2段時(shí)長(zhǎng)超過(guò)30 min的視頻以保證數(shù)據(jù)源的連貫性。
對(duì)生豬個(gè)體行為及目標(biāo)狀態(tài)的相關(guān)研究[11,14,23]多采用將攝像頭固定于豬欄頂端,拍攝俯視視頻的數(shù)據(jù)獲取方式。與此不同,本文采用平視視角、鏡頭位置不固定的方式進(jìn)行數(shù)據(jù)采集,可彌補(bǔ)俯視方式不足:1)獲取的圖像可有效捕捉富含生物學(xué)信息的生豬臉部、蹄部等關(guān)鍵部位;2)生豬與鏡頭間的距離易于調(diào)控,可獲取多條件變化數(shù)據(jù);3)平視視角與人類(lèi)觀(guān)察動(dòng)物的視角一致,所采集的數(shù)據(jù)更適配于移動(dòng)端應(yīng)用。以山西農(nóng)業(yè)大學(xué)實(shí)驗(yàn)動(dòng)物管理中心為例,其數(shù)據(jù)采集平臺(tái)如圖1所示。
群養(yǎng)生豬具有活動(dòng)軌跡可控性差、分散或粘連性強(qiáng)的特點(diǎn),為獲取距離鏡頭遠(yuǎn)近不同生豬個(gè)體,攝像機(jī)距離豬欄0~0.3 m不等。為獲取不同水平視角生豬圖像,攝像機(jī)三腳架距離地面的高度為0.5~1.3 m不等。
對(duì)采集的視頻進(jìn)行與劉坤等[3]一致的數(shù)據(jù)預(yù)處理過(guò)程,通過(guò)檢測(cè)框標(biāo)注、放縮操作、數(shù)據(jù)增強(qiáng)獲得最終實(shí)例檢測(cè)數(shù)據(jù)集,如圖2所示。
1)對(duì)視頻切割所獲取的圖像進(jìn)行像素填充,并采用LabelMe進(jìn)行實(shí)例檢測(cè)框標(biāo)注,同時(shí)考慮到Cascade Mask R-CNN、MS R-CNN以及HTC模型均利用分割信息作為輔助以增強(qiáng)內(nèi)容表征,同時(shí)對(duì)分割信息也進(jìn)行了標(biāo)注;
2)進(jìn)行放縮操作,將對(duì)步驟1)獲取的圖像分辨率由2 048×1 024降為512×256;
3)采用與劉坤等[3]一致的數(shù)據(jù)增強(qiáng)操作,最終共獲得標(biāo)注圖片3 834張,將其劃分為訓(xùn)練集、驗(yàn)證集與測(cè)試集,其中訓(xùn)練集大小為2 490張,驗(yàn)證集大小為480張,測(cè)試集大小為864張。
Mask R-CNN[20]由骨干網(wǎng)絡(luò)(backbone,如ResNet[4]系列網(wǎng)絡(luò))、特征金字塔網(wǎng)絡(luò)(Feature Pyramid Network,F(xiàn)PN)[34]、區(qū)域提交網(wǎng)絡(luò)(Region Proposal Network,RPN)[33]、ROIAlign[33]及功能性輸出5部分組成;Cascade Mask R-CNN[35]改進(jìn)自Mask R-CNN,其通過(guò)串聯(lián)多個(gè)不同的IOU(Intersection over Union)[36]閾值頭部網(wǎng)絡(luò)以不斷優(yōu)化分割細(xì)度;Mask Scoring R-CNN[22](簡(jiǎn)稱(chēng)MS R-CNN)改進(jìn)自Mask R-CNN,其通過(guò)引入MaskIOU[22]模塊提升對(duì)雜亂、遮擋等復(fù)雜條件下目標(biāo)位置預(yù)測(cè)精準(zhǔn)度;HTC[37]改進(jìn)自Cascade Mask R-CNN,其通過(guò)引入語(yǔ)義分割分支以增強(qiáng)空間內(nèi)容表征,提升預(yù)測(cè)邊框精確度。上述Mask R-CNN、Cascade Mask R-CNN、MS R-CNN與HTC方法在開(kāi)放領(lǐng)域常被用于實(shí)例分割,而在模型學(xué)習(xí)過(guò)程中,實(shí)例分割與實(shí)例檢測(cè)任務(wù)相輔相成,因此4種模型均可用于實(shí)例檢測(cè)領(lǐng)域。
卷積網(wǎng)絡(luò)在特征提取過(guò)程中,低階特征更關(guān)注位置信息,但其缺乏語(yǔ)義鑒別能力,而高階特征更利于語(yǔ)義區(qū)分,但位置判別能力不足。特征金字塔網(wǎng)絡(luò)(Feature Pyramid Network,F(xiàn)PN)[34]可用于解決高低階特征圖中語(yǔ)義與位置信息間的矛盾,實(shí)現(xiàn)對(duì)高低階不同尺度特征有效融合。傳統(tǒng)FPN由自底向上(Bottom-up)、自頂向下(Top-down)以及階段輸出(Stage-output)3個(gè)部件組成(如圖3所示)。對(duì)于每個(gè)Bottom-up部件塊,0.5×表示下采樣操作,該操作可將特征圖分辨率降為原來(lái)的一半;對(duì)于Top-down部件塊,2×表示上采樣操作,其可將特征圖大小擴(kuò)為原先的2倍,將上采樣結(jié)果與同級(jí)Bottom-up輸出按位相加可得到對(duì)應(yīng)層級(jí)輸出。
傳統(tǒng)FPN結(jié)構(gòu)中,對(duì)于同級(jí)Bottom-up與Top-down部件僅通過(guò)簡(jiǎn)單線(xiàn)性疊加方式進(jìn)行融合,這種操作未能整合特征圖間的非線(xiàn)性關(guān)系。而注意力機(jī)制可對(duì)特征圖內(nèi)部不同位置特征施以差異性權(quán)重值,有選擇性地激活任務(wù)相關(guān)區(qū)域,抑制次要信息以提升模型效果。為此,本文引入帶有雙重注意力單元(Dual Attention Unit,DAU)的FPN結(jié)構(gòu)模塊,其具體操作模塊如圖3所示。
DAU由非對(duì)稱(chēng)卷積塊(Asymmetric Convolution Block,ACB)與雙重注意力塊(Dual Attention Block,DAB)兩部分構(gòu)成。對(duì)于某層Top-down部件特征圖h(高階特征)與相同層Bottom-up部件特征圖l(低階特征),執(zhí)行下述操作得到該層FPN輸出:
1)對(duì)h與l特征圖按位相加得到輸出merge;
2)為充分將高低階特征間的非線(xiàn)性關(guān)系引入融合特征圖中,受Ding等[38]啟發(fā)構(gòu)建ACB模塊,對(duì)merge進(jìn)行3路大小分別為3×3、1×3與3×1的非對(duì)稱(chēng)卷積與Relu激活函數(shù)操作,該操作能在不引入任何超參數(shù)條件下改善特征圖對(duì)翻轉(zhuǎn)和旋轉(zhuǎn)的魯棒性。將上述處理結(jié)果定義為ACB作為后續(xù)模塊輸入。
3)特征圖中的每個(gè)通道映射可視為對(duì)某一特定類(lèi)別的響應(yīng),且不同語(yǔ)義響應(yīng)間彼此相互關(guān)聯(lián)。為充分利用通道映射間的依賴(lài)關(guān)系以增強(qiáng)通道間的特征映射,在FPN結(jié)構(gòu)中引入了Fu等[32]提出的通道注意力單元(Channel Attention Unit,CAU)以顯式建模通道間的依賴(lài)性,如圖3中CAU模塊所示。
4)為生成密集、逐像素的上下文信息,在FPN結(jié)構(gòu)中引入Huang等[28]提出的位置注意力單元(Position Attention Unit,PAU)對(duì)單特征圖中所有像素點(diǎn)進(jìn)行加權(quán)得到位置注意力圖,以引導(dǎo)原始特征圖進(jìn)行位置選擇生成包含密集上下文關(guān)聯(lián)的特征圖,如圖3中PAU模塊所示。
5)將通道與位置維度注意力信息作用于A(yíng)CB特征圖進(jìn)行重校準(zhǔn),并將CAU與PAU校準(zhǔn)疊加結(jié)果DAB與merge融合得到最終DAU模塊輸出DAU。
本文在FPN的Top-down與Bottom-up同層級(jí)部件塊信息融合過(guò)程中引入ACB非對(duì)稱(chēng)卷積信息與DAB注意力信息,通過(guò)兩次線(xiàn)性轉(zhuǎn)非線(xiàn)性操作的方式對(duì)高低階特征進(jìn)行深度融合,并利用FPN結(jié)構(gòu)自身優(yōu)勢(shì),在不同感受野大小特征圖上執(zhí)行對(duì)應(yīng)特征重校準(zhǔn),能夠深度利用高低階信息,進(jìn)一步提升檢測(cè)效果。
試驗(yàn)平臺(tái)配置為16 GB Tesla V100 GPU,采用mmdetection框架進(jìn)行代碼編寫(xiě)。考慮到顯存大小限制,將批大小設(shè)置為8,設(shè)置迭代輪數(shù)為50。采用SGD作為優(yōu)化器,初始優(yōu)化器學(xué)習(xí)率設(shè)置為0.02;設(shè)置正則化權(quán)值衰減系數(shù)weight_decay為0.0001,設(shè)置動(dòng)量因子momentum為0.9,以避免模型陷入局部最優(yōu)解或跳過(guò)最優(yōu)解;與mmdetection框架配置一致,對(duì)原始圖像3通道值進(jìn)行均值(123.675, 116.28, 103.53)、方差(58.395, 57.12, 57.375)的歸一化處理。對(duì)于Mask R-CNN 任務(wù)網(wǎng)絡(luò),設(shè)置IOU閾值為0.5、score閾值為0.5,對(duì)于Cascade Mask R-CNN任務(wù)網(wǎng)絡(luò),其3個(gè)級(jí)聯(lián)網(wǎng)絡(luò)IOU閾值分別設(shè)置為0.5、0.6與0.7、score閾值為0.5。采用COCO相關(guān)指標(biāo)進(jìn)行模型優(yōu)劣評(píng)價(jià)。
采用檢測(cè)精度AP(Average Precision)作為評(píng)價(jià)標(biāo)準(zhǔn)。AP表示精確率-召回率(Precision-Recall)曲線(xiàn)下方面積,其公式化表示如式(1)~(3)所示。因?yàn)檫x用不同的IOU閾值直接影響TP(True Positive)與FP(False Positive)值,而TP與FP值進(jìn)一步影響Precision與Recall大小,進(jìn)而給AP指標(biāo)值帶來(lái)波動(dòng),選用AP0.5(閾值為0.5),AP0.75(閾值為0.75),AP0.5~0.95(閾值以0.05為步長(zhǎng)在0.5與0.95間選取10個(gè)數(shù))3種AP指標(biāo)衡量不同條件下檢測(cè)性能。同時(shí)考慮到生豬個(gè)體占圖像比例大小差異性問(wèn)題,將生豬大小分為小目標(biāo)(生豬區(qū)域面積<322像素)、中等目標(biāo)(322像素<生豬區(qū)域面積<962像素)與大目標(biāo)(生豬區(qū)域面積>962像素),并在IOU閾值為0.5~0.95間計(jì)算大目標(biāo)條件下的AP指標(biāo)值,記為APL。
式中TP表示模型預(yù)測(cè)為生豬類(lèi)別框且真實(shí)標(biāo)記也為生豬框的樣本數(shù)量,F(xiàn)P表示模型預(yù)測(cè)為生豬框但真實(shí)標(biāo)注并非為生豬框的樣本數(shù),F(xiàn)N(False Negative)表示預(yù)測(cè)為雜質(zhì)背景但真實(shí)標(biāo)注為生豬框的樣本數(shù)量,d表示積分變量。
選用ResNet50[4]和ResNet101[4]作為特征提取器以探究不同骨干網(wǎng)絡(luò)性能影響狀況,在特征篩選過(guò)程中均引入FPN結(jié)構(gòu),并將結(jié)果作為Mask R-CNN、Cascade Mask R-CNN、MS R-CNN以及HTC任務(wù)網(wǎng)絡(luò)輸入;為探究不同注意力模塊對(duì)任務(wù)網(wǎng)絡(luò)檢測(cè)結(jié)果影響以尋找最適用于群養(yǎng)生豬實(shí)例檢測(cè)的注意力模塊,在FPN結(jié)構(gòu)中引入現(xiàn)有表現(xiàn)最優(yōu)且同時(shí)包含通道與空間注意力信息的CBAM[29]、BAM[30]以及SCSE[31]模塊與本文提出的DAU單元進(jìn)行相同試驗(yàn)條件下各AP指標(biāo)值對(duì)比,結(jié)果如表1所示。其中對(duì)于CBAM模塊分別使用CAM(Channel Attention Module)與SAM(Spatial Attention Module)子模塊替換圖3中的CAU與PAU單元;對(duì)于BAM模塊分別使用CAB(Channel Attention Branch)與SAB(Spatial Attention Branch)子模塊替換CAU和PAU單元;對(duì)于SCSE模塊分別使用cSE(Spatial Squeeze and Channel Excitation)和sSE(Channel Squeeze and Spatial Excitation)子模塊替換CAU和PAU單元。
表1 不同注意力模塊在不同任務(wù)網(wǎng)絡(luò)條件下的AP指標(biāo)值
注:R50與R101分別表示ResNet50與ResNet101骨干網(wǎng)絡(luò);NONE表示未添加任何注意力模塊;AP0.5,AP0.75,AP0.5~0.95分別表示3種IOU閾值條件下的AP指標(biāo);APL表示IOU值為0.5~0.95間大目標(biāo)下的AP指標(biāo)。下同。
Note: R50 and R101 represent the backbone network of ResNet50 and ResNet101 respectively; NONE means no attention module has been added; AP0.5, AP0.75, AP0.5~0.95respectively represent the AP index under three IOU threshold conditions, and APLrepresents the AP index under the large target with an IOU value of 0.5 to 0.95. The same below.
試驗(yàn)結(jié)果表明:
1)對(duì)于同一任務(wù)網(wǎng)絡(luò),在選用不同骨干網(wǎng)絡(luò)時(shí),其各個(gè)檢測(cè)AP指標(biāo)值大小不一。在未加入任何注意力模塊的任務(wù)網(wǎng)絡(luò)中,選用R50作為骨干網(wǎng)絡(luò)的檢測(cè)AP值優(yōu)于R101,與選用R101相比,選用R50的Mask R-CNN任務(wù)網(wǎng)絡(luò)上提升幅度最明顯,而在MS R-CNN上提升幅度最小。以Mask R-CNN為例,Mask R-CNN-R50-NONE(表示以Mask R-CNN為任務(wù)網(wǎng)絡(luò),R50為骨干網(wǎng)絡(luò)且不加入任何注意力模塊,下同)的AP0.5、AP0.75、AP0.5~0.95、APL指標(biāo)分別比Mask R-CNN-R101-NONE提升25.5%、10.4%、9.9%與10.2%;在加入注意力模塊后,除Mask R-CNN外,其余任務(wù)網(wǎng)絡(luò)在以R50與R101作為骨干網(wǎng)絡(luò)條件下,各檢測(cè)AP值較為接近,以HTC任務(wù)網(wǎng)絡(luò)為例,HTC-R101-SCSE(表示以HTC為任務(wù)網(wǎng)絡(luò),R101為骨干網(wǎng)絡(luò)且加入SCSE注意力模塊,下同)比HTC-R50-SCSE的AP0.5、APL指標(biāo)分別僅提升0.9%與0.2%,兩者的AP0.75、AP0.5~0.95指標(biāo)大小較為接近,說(shuō)明注意力模塊在特征提取過(guò)程中可大幅減小因骨干網(wǎng)絡(luò)選取不同所帶來(lái)的差異性,減小因骨干網(wǎng)絡(luò)選用不當(dāng)所帶來(lái)的性能損失。
2)對(duì)于同一骨干網(wǎng)絡(luò),在選用不同任務(wù)網(wǎng)絡(luò)時(shí),其各個(gè)檢測(cè)AP值預(yù)測(cè)結(jié)果差異較大。R50作為骨干網(wǎng)絡(luò)條件下,未加入任何注意力模塊時(shí),Cascade Mask R-CNN任務(wù)網(wǎng)絡(luò)的AP0.75、AP0.5~0.95、APL指標(biāo)取得最佳效果,而在加入各個(gè)注意力模塊后,HTC任務(wù)網(wǎng)路的AP0.75、AP0.5~0.95指標(biāo)均呈不同程度的提高,說(shuō)明注意力模塊的引入可在一定程度上重塑任務(wù)網(wǎng)絡(luò)的性能狀況,使得原本表現(xiàn)較差的任務(wù)網(wǎng)絡(luò)獲得不錯(cuò)的效果,降低因?yàn)槿蝿?wù)網(wǎng)絡(luò)選用不當(dāng)所造成的模型預(yù)測(cè)結(jié)果不佳風(fēng)險(xiǎn)。
3)對(duì)于相同骨干網(wǎng)絡(luò)與任務(wù)網(wǎng)絡(luò),加入不同的注意力模塊各個(gè)檢測(cè)AP值預(yù)測(cè)效果不一。與加入CBAM、BAM及SCSE注意力模塊相比,添加本文提出的DAU注意力單元的AP0.5、AP0.75、AP0.5~0.95、APL指標(biāo)均能取得最佳的效果。以HTC-R101為例,加入DAU單元后的AP0.5、AP0.75、AP0.5~0.95、APL指標(biāo)分別為0.933、0.853、0.763與0.788,與CBAM相比分別提升1.7%、1.7%、2.1%與1.8%,與加入BAM和SCSE模塊相比分別提升2.4%、2.2%、2.6%、2%和1.6、2.6%、2.8%、2.5%,說(shuō)明與其他注意力模塊相比,DAU單元更關(guān)注生豬個(gè)體區(qū)域,能剔除豬欄、豬糞、豬食等冗余信息,進(jìn)而改善檢測(cè)精度。
為探究通道與空間注意力單元對(duì)任務(wù)網(wǎng)絡(luò)檢測(cè)性能影響,分別在相同試驗(yàn)條件下對(duì)2.2.2與2.2.3節(jié)提出的通道注意力單元CAU、空間注意力單元PAU與雙重注意力單元DAU進(jìn)行對(duì)比試驗(yàn)。單一PAU單元可捕捉原始特征圖中垂直與水平方向的上下文信息,但這種信息較為稀疏,為獲取更為密集的像素級(jí)上下文信息,對(duì)PAU模塊進(jìn)行循環(huán)串聯(lián)操作可獲取更為密集的上下文信息,為獲取最合適的PAU單元串聯(lián)個(gè)數(shù),分別構(gòu)造1~4個(gè)串聯(lián)數(shù)量的PAU單元,并分別計(jì)算其AP指標(biāo)值,如表2所示。
試驗(yàn)結(jié)果表明:
1)雙重注意力DAU單元與通道注意力單元CAU和空間注意力單元PAU相比,能獲得更佳的AP指標(biāo)值。以MS R-CNN-R101為例,加入DAU單元(見(jiàn)表1)比加入CAU單元的AP0.5、AP0.75、AP0.5~0.95、APL指標(biāo)值分別提升0.8%、1.1%、1.1%與2%,比PAU單元中表現(xiàn)最優(yōu)的PAU-2 4種指標(biāo)值分別提升2%、0.5%、0.6%、1.7%。說(shuō)明同時(shí)融合通道與空間注意力信息的DAU對(duì)群養(yǎng)生豬個(gè)體目標(biāo)的定位更為精確,這是因?yàn)橥ǖ雷⒁饬蓮耐ǖ谰S度對(duì)特征圖進(jìn)行信息篩選,選擇性增大生豬區(qū)域部位通道權(quán)重,空間注意力能從特征圖位置粒度進(jìn)行權(quán)重分配,選擇性增大豬鼻、豬蹄等生豬區(qū)域部位激活值,兩者結(jié)合將通道與注意力信息相互補(bǔ)充,進(jìn)一步提升生豬檢測(cè)邊界準(zhǔn)確度。
注:PAU-1~PAU-4分別表示串聯(lián)1~4個(gè)PAU單元。
Note: PAU-1-PAU-4 mean 1-4 PAU units, respectively.
2)與通道注意力單元CAU相比,加入特定串聯(lián)數(shù)量的PAU注意力單元一般能取得較好的AP指標(biāo)值。以Cascade Mask R-CNN-R50為例,加入PAU-2比CAU的AP0.5、AP0.75、AP0.5~0.95、APL指標(biāo)值分別提升2.5%、1.8%、1.3%和2%。這是因?yàn)榕c通道注意力將特征圖中的每一特征點(diǎn)同等對(duì)待所不同的是,空間注意力對(duì)特征圖中的每一特征點(diǎn)均施以權(quán)重信息,區(qū)別性對(duì)待特征圖中的每一位置,強(qiáng)化利于生豬區(qū)域定位部分信息貢獻(xiàn)率,因而其獲得的邊界位置信息更為精細(xì)、更為精準(zhǔn)。
3)在加入骨干網(wǎng)絡(luò)時(shí),串聯(lián)不同數(shù)量的PAU單元,其任務(wù)網(wǎng)絡(luò)性能存在較大差異。隨著串聯(lián)PAU單元的數(shù)量增加,相同試驗(yàn)條件模型的AP指標(biāo)值基本呈現(xiàn)先增加后減小趨勢(shì),且加入PAU-2單元一般能取得最佳AP值。以PAU-2加入Cascade Mask R-CNN-R50模型為例,其AP0.5、AP0.75、AP0.5~0.95、APL指標(biāo)值分別達(dá)到0.928、0.839、0.742、0.767,比加入PAU-4單元在各個(gè)指標(biāo)上分別提升5.9%、10.6%、11.1%與11.1%,說(shuō)明并非加入串聯(lián)數(shù)目越多的PAU單元對(duì)生豬檢測(cè)越有效,加入串聯(lián)數(shù)目較少的PAU單元(如PAU-1)捕獲的空間注意力信息有限、甚至可能打亂已經(jīng)捕獲的有效語(yǔ)義信息,而加入數(shù)目較多的PAU單元(如PAU-4)不僅增大了模型計(jì)算量與顯存占有量,而且較多學(xué)習(xí)參數(shù)的存在使得模型極易出現(xiàn)過(guò)擬合,實(shí)際融合PAU模塊時(shí)以串聯(lián)2~3個(gè)為宜。
為進(jìn)一步研究任務(wù)網(wǎng)絡(luò)中分別加入通道注意力單元與不同串聯(lián)數(shù)目空間注意力單元在不同場(chǎng)景下魯棒性能,將測(cè)試集細(xì)分為深度分離、雜物遮擋、高度粘連3種場(chǎng)景,以性能最佳的HTC-R101網(wǎng)絡(luò)為例,其在加入CBAM、BAM、SCSE注意力模塊與CAU、PAU-2以及DAU單元后的各個(gè)模型實(shí)例檢測(cè)效果(不同顏色檢測(cè)框代表不同的生豬個(gè)體,且在檢測(cè)出生豬個(gè)體的同時(shí)進(jìn)行了生豬計(jì)數(shù))如圖4所示。
從圖4中可知,與不加入注意力模塊或單元相比,加入任意注意力信息后,不同場(chǎng)景檢測(cè)框準(zhǔn)確性均得到有效提升,不包含注意力單元的模型對(duì)于部分生豬個(gè)體并未能進(jìn)行檢測(cè)分離(如第一列中編號(hào)為③④的生豬個(gè)體);3種場(chǎng)景下,加入DAU單元的HTC-R101與加入CBAM、BAM、SCSE模塊相比均能取得最佳的實(shí)例檢測(cè)效果,即使在部分場(chǎng)景下,加入CBAM、BAM、SCSE模塊后能對(duì)生豬個(gè)體位置進(jìn)行定位,但包含DAU單元的HTC-R101取得最佳的檢測(cè)置信度;與加入CAU與PAU-2單元相比,加入DAU單元后其檢測(cè)邊緣框預(yù)測(cè)更為精準(zhǔn),這是因?yàn)镈AU單元充分將CAU與PAU捕獲的通道與空間注意力信息特征融合,從兩種維度層面強(qiáng)化模型對(duì)生豬個(gè)體部位特征的學(xué)習(xí);但對(duì)于遠(yuǎn)離鏡頭、頭部位置不明顯且豬舍光線(xiàn)較暗的場(chǎng)景生豬個(gè)體(如第一列中編號(hào)為①②的生豬個(gè)體),即使加入DAU單元,仍然無(wú)法對(duì)其進(jìn)行有效檢測(cè),這可能是因?yàn)槟P驮趯W(xué)習(xí)過(guò)程中將豬臉部位信息作為較為區(qū)分生豬個(gè)體的重要特征,在后續(xù)工作中需增加偏離鏡頭且豬體部位不全、光照條件更為復(fù)雜的樣本數(shù)據(jù)以使得模型能夠?qū)Ω唠y度場(chǎng)景的生豬個(gè)體進(jìn)行有效分離。
本文在特征金字塔網(wǎng)絡(luò)FPN(Feature Pyramid Network)中引入通道注意力單元、空間注意力單元與雙重注意力單元,研究不同骨干網(wǎng)絡(luò)對(duì)任務(wù)網(wǎng)絡(luò)、不同注意力模塊對(duì)任務(wù)網(wǎng)絡(luò)以及單獨(dú)通道單元和不同串聯(lián)數(shù)量空間注意力單元對(duì)任務(wù)網(wǎng)絡(luò)檢測(cè)性能影響,并對(duì)不同場(chǎng)景生豬檢測(cè)結(jié)果進(jìn)行分析,主要結(jié)論如下:
1)不同骨干網(wǎng)絡(luò)對(duì)任務(wù)網(wǎng)絡(luò)生豬檢測(cè)效果具有一定影響。在未加入任何注意力模塊的任務(wù)網(wǎng)絡(luò)中,R50(ResNet50)檢測(cè)AP(Average Precision)值優(yōu)于R101(ResNet101),但在加入任意注意力模塊后,2種骨干網(wǎng)絡(luò)各檢測(cè)AP值較為接近。
2)與加入CBAM、BAM及SCSE注意力模塊相比,HTC-R101-DAU比HTC-R101-CBAM的AP0.5、AP0.75、AP0.5~0.95、APL指標(biāo)分別提升1.7%、1.7%、2.1%與1.8%,說(shuō)明DAU在注意力信息提取上更為有效。
3)DAU單元與通道注意力單元CAU和空間注意力單元PAU相比,其能獲得更佳的AP指標(biāo)值,對(duì)于MS R-CNN-R101,加入DAU單元比CAU單元的AP0.5、AP0.75、AP0.5~0.95、APL指標(biāo)分別提升0.8%、1.1%、1.1%與2%,比PAU-2單元的4種指標(biāo)分別提升2%、0.5%、0.6%、1.7%,說(shuō)明同時(shí)融合兩種維度注意力信息可相互補(bǔ)充提升位置檢測(cè)準(zhǔn)確性。
4)隨著串聯(lián)PAU單元的數(shù)量增加,模型預(yù)測(cè)的AP指標(biāo)值基本呈現(xiàn)先增加后減小趨勢(shì),且在PAU-2單元上能取得最佳AP值。
5)加入DAU單元的HTC-R101與加入CBAM、BAM、SCSE、CAU、PAU-2單元后的各個(gè)模型相比,其檢測(cè)框位置更準(zhǔn)確,檢測(cè)置信度更高。
[1]劉巖,孫龍清,羅冰,等. 基于改進(jìn)CNN的多目標(biāo)生豬檢測(cè)算法[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào),2019,50(Supp.):283-289.
Liu Yan, Sun Longqing, Luo Bing, et al. Multi-target pigs detection algorithm based on improved CNN[J]. Transactions of the Chinese Society for Agricultural Machinery, 2019, 50(Supp.): 283-289. (in Chinese with English abstract)
[2] 李億楊,孫龍清,孫鑫鑫. 基于多特征融合的粒子濾波生豬采食行為跟蹤[J]. 農(nóng)業(yè)工程學(xué)報(bào),2017,33(增刊):246-252.
Li Yiyang, Sun Longqing, Sun Xinxin. Automatic tracking of pig feeding behavior based on particle filter with multi-feature fusion[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2017, 33(Supp.): 246-252. (in Chinese with English abstract)
[3]劉坤,楊懷卿,楊華,等. 基于循環(huán)殘差注意力的群養(yǎng)生豬實(shí)例分割[J]. 華南農(nóng)業(yè)大學(xué)學(xué)報(bào),2020,41(6):169-178.
Liu Kun, Yang Huaiqing, Yang Hua, et al. Instance segmentation of group-housed pigs based on recurrent residual attention[J]. Journal of South China Agricultural University, 2020, 41(6): 169-178. (in Chinese with English abstract)
[4] Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks[C]// Advances in Neural Information Processing Systems(NIPS). Cambridge, MA: MIT Press, 2012: 1097-1105.
[5]He K M, Zhang X Y, Ren S Q, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ: IEEE, 2016: 770-778.
[6]鮑文霞,孫慶,胡根生,等. 基于多路卷積神經(jīng)網(wǎng)絡(luò)的大田小麥赤霉病圖像識(shí)別[J]. 農(nóng)業(yè)工程學(xué)報(bào),2020,36(11):174-181.
Bao Wenxia, Sun Qing, Hu Gensheng, et al. Image recognition of field wheat scab based on multi-way convolutional neural network[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2020, 36(11): 174-181. (in Chinese with English abstract)
[7]許景輝,邵明燁,王一琛,等. 基于遷移學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)玉米病害圖像識(shí)別[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào),2020,51(2):230-236,253.
Xu Jinghui, Shao Mingye, Wang Yichen, et al. Recognition of corn leaf spot and rust based on transfer learning with convolutional neural network[J]. Transactions of the Chinese Society for Agricultural Machinery, 2020, 51(2): 230-236, 253. (in Chinese with English abstract)
[8]婁甜田,楊華,胡志偉. 基于深度卷積網(wǎng)絡(luò)的葡萄簇檢測(cè)與分割[J]. 山西農(nóng)業(yè)大學(xué)學(xué)報(bào):自然款科學(xué)版,2020,40(5):109-119.
Lou Tiantian, Yang Hua, Hu Zhiwei. Grape cluster detection and segmentation based on deep convolutional network[J]. Journal of Shanxi Agricultural University: Natural Science Editor, 2020, 40(5): 109-119. (in Chinese with English abstract)
[9]何東健,劉建敏,熊虹婷,等. 基于改進(jìn)YOLOv3模型的擠奶奶牛個(gè)體識(shí)別方法[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào),2020,51(4):250-260.
He Dongjian, Liu Jianmin, Xiong Hongting, et al. Individual identification of dairy cows based on improved YOLOv3[J]. Transactions of the Chinese Society for Agricultural Machinery, 2020, 51(4): 250-260. (in Chinese with English abstract)
[10]劉忠超,何東健. 基于卷積神經(jīng)網(wǎng)絡(luò)的奶牛發(fā)情行為識(shí)別方法[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào),2019,50(7):186-193.
Liu Zhongchao, He Dongjian. Recognition method of cow estrus behavior based on convolutional neural network[J]. Transactions of the Chinese Society for Agricultural Machinery, 2019, 50(7): 186-193. (in Chinese with English abstract)
[11]Yang A, Huang H, Zheng C, et al. High-accuracy image segmentation for lactating sows using a fully convolutional network[J]. Biosystems Engineering, 2018, 176: 36-47.
[12]胡志偉,楊華,婁甜田,等. 基于全卷積網(wǎng)絡(luò)的生豬輪廓提取[J]. 華南農(nóng)業(yè)大學(xué)學(xué)報(bào),2018,39(6):111-119.
Hu Zhiwei, Yang Hua, Lou Tiantian, et al. Extraction of pig contour based on fully convolutional networks[J]. Journal of South China Agriculture University, 2018, 39(6): 111-119. (in Chinese with English abstract)
[13]Zhang L, Gray H, Ye X, et al. Automatic individual pig detection and tracking in pig farms[J]. Sensors, 2019, 19(5): 1188-1208.
[14]薛月菊,楊曉帆,鄭嬋,等. 基于隱馬爾科夫模型的深度視頻哺乳母豬高危動(dòng)作識(shí)別[J]. 農(nóng)業(yè)工程學(xué)報(bào),2019,35(13):184-190.
Xue Yueju, Yang Xiaofan, Zheng Chan, et al. Lactating sow high-dangerous body movement recognition from depth videos based on hidden Markov model[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(13): 184-190. (in Chinese with English abstract)
[15]高云,陳斌,廖慧敏,等. 群養(yǎng)豬侵略性行為的深度學(xué)習(xí)識(shí)別方法[J]. 農(nóng)業(yè)工程學(xué)報(bào),2019,35(23):192-200.
Gao Yun, Chen Bin, Liao Huimin, et al. Recognition method for aggressive behavior of group pigs based on deep learning[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(23): 192-200. (in Chinese with English abstract)
[16]燕紅文,劉振宇,崔清亮,等. 基于改進(jìn)Tiny-YOLO模型的群養(yǎng)生豬臉部姿態(tài)檢測(cè)[J]. 農(nóng)業(yè)工程學(xué)報(bào),2019,35(18):169-179.
Yan Hongwen, Liu Zhenyu, Cui Qingliang, et al. Detection of facial gestures of group pigs based on improved Tiny-YOLO[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(18): 169-179. (in Chinese with English abstract)
[17]燕紅文,劉振宇,崔清亮,等. 基于特征金字塔注意力與深度卷積網(wǎng)絡(luò)的多目標(biāo)生豬檢測(cè)[J]. 農(nóng)業(yè)工程學(xué)報(bào),2020,36(11):193-202.
Yan Hongwen, Liu Zhenyu, Cui Qingliang, et al. Multi-target detection based on feature pyramid attention and deep convolution network for pigs[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2020, 36(11): 193-202. (in Chinese with English abstract)
[18]Redmon J, Farhadi A. YOLOV3: An incremental improvement[J/OL]. [2021-03-28].https://arxiv.org/abs/1804.02767.
[19]沈明霞,太猛,Cedric O,等. 基于深層卷積神經(jīng)網(wǎng)絡(luò)的初生仔豬目標(biāo)實(shí)時(shí)檢測(cè)方法[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào),2019,50(8):270-279.
Shen Mingxia, Tai Meng, Cedric O, et al. Real-time detection method of newborn piglets based on deep convolution neural network[J]. Transactions of the Chinese Society for Agricultural Machinery, 2019, 50(8): 270-279. (in Chinese with English abstract)
[20]He K, Gkioxari G, Dollár P, et al. Mask r-cnn[C]// Proceedings of the IEEE International Conference on Computer Vision (ICCV). Piscataway, NJ: IEEE, 2017: 2961-2969.
[21]Tu S, Liu H, Li J, et al. Instance segmentation based on Mask Scoring R-CNN for group-housed pigs[C]// International Conference on Computer Engineering and Application (ICCEA). Piscataway, NJ: IEEE, 2020: 458-462.
[22]Huang Z, Huang L, Gong Y, et al. Mask scoring r-cnn[C]// Proceedings of the IEEE conference on Computer Vision and Pattern Recognition(CVPR). Piscataway, NJ: IEEE, 2019: 6409 -6418.
[23]李丹,張凱鋒,李行健,等. 基于Mask R-CNN的豬只爬跨行為識(shí)別[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào),2019,50(S1):261-266,275.
Li Dan, Zhang Kaifeng, Li Xingjian, et al. Mounting behavior recognition for pigs based on mask R-CNN[J]. Transactions of the Chinese Society for Agricultural Machinery, 2019, 50(S1): 261-266, 275. (in Chinese with English abstract)
[24]高云,郭繼亮,黎煊,等. 基于深度學(xué)習(xí)的群豬圖像實(shí)例分割方法[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào),2019,50(4):179-187.
Gao Yun, Guo Jiliang, Li Xuan, et al. Instance-level segmentation method for group pig images based on deep learning[J]. Transactions of the Chinese Society for Agricultural Machinery, 2019, 50(4): 179-187. (in Chinese with English abstract)
[25]Tong W, Chen W, Han W, et al. Channel-attention-based DenseNet network for remote sensing image scene classification[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2020, 13: 4121-4132.
[26]Huang G, Liu Z, Van Der Maaten L, et al. Densely connected convolutional networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR). Piscataway, NJ: IEEE, 2017: 4700-4708.
[27]Yang K, Xu Z, Fei J. DualSANet: Dual spatial attention network for Iris recognition[C]//Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. Piscataway, NJ: IEEE, 2021: 889-897.
[28]Huang Z, Wang X, Huang L, et al. CCNet: Criss-Cross attention for semantic segmentation[C]//Proceedings of the IEEE Conference on International Conference on Computer Vision (ICCV). Piscataway, NJ: IEEE, 2019: 603-612.
[29]Woo S, Park J, Lee J, et al. CBAM: Convolutional block attention module[C]//Proceedings of the IEEE Conference on European Conference on Computer Vision (ECCV). Berlin, German: Springer, 2018: 3-19.
[30]Park J, Woo S, Lee J Y, et al. Bam: Bottleneck attention module[J/OL]. [2021-03-28]. https://arxiv.org/abs/1807.06514.
[31]Roy A G, Navab N, Wachinger C, et al. Concurrent spatial and channel squeeze & excitation in fully convolutional networks[C]//Medical Image Computing and Computer Assisted Intervention. Berlin, German: Springer, 2018: 421-429.
[32]Fu J, Liu J, Tian H, et al. Dual attention network for scene segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ: IEEE, 2019: 3146-3154.
[33]Ren S Q, He K M, Ross G. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2015, 39(6): 1137-1149.
[34]Lin T, Dollar P, Girshick R, et al. Feature pyramid networks for object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ: IEEE, 2017: 936-944.
[35]Cai Z, Vasconcelos N. Cascade R-CNN: Delving into high quality object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ: IEEE, 2018: 6154-6162.
[36]Rezatofighi H, Tsoi N, Gwak J Y, et al. Generalized intersection over union: A metric and a loss for bounding box regression[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR). Piscataway, NJ: IEEE, 2019: 658-666.
[37]Chen K, Ouyang W, Loy C C, et al. Hybrid task cascade for instance segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ: IEEE, 2019: 4974-4983.
[38]Ding X, Guo Y, Ding G, et al. ACNet: Strengthening the kernel skeletons for powerful CNN via asymmetric convolution blocks[C//Proceedings of the IEEE Conference on International Conference on Computer Vision(ICCV). Piscataway, NJ: IEEE, 2019: 1911-1920.
Instance detection of group breeding pigs using a pyramid network with dual attention feature
Hu Zhiwei1,2, Yang Hua1※, Lou Tiantian3
(1.,,030801,;2.(),,03006,; 3.,,030801,)
High breeding density has brought a great risk to the prevention and control of swine fever in intensive pig production. Accurate and rapid detection of individual live pigs can contribute to taking timely countermeasures for the minimum incidence of diseases. However, some factors including pig adhesion and sundries barrier have made difficulties in the detection of individual pigs with multiple targets. In this study, a dual -attention feature pyramid network was proposed to rapidly detect the group breeding pigs. A total of 45 live pigs aged 20 to 105 days in 8 pens were selected as the research object. A head-up angle of view was used to collect a total of 3 834 labeled images, where 2 490 images were set as the training set, 480 as the validation set, and 864 as the test set. Two types of attention units were introduced into the Feature Pyramid Network (FPN), which encoded the semantic interdependencies in the channel (named Channel Attention Unit (CAU)), and spatial (named Position Attention Unit (PAU)) dimensions, respectively. The reason was that an attention-based method increased the weight of regional information for better instance detection, while suppressed the secondary information for the better model. The CAU had selectively enhanced the interdependencies among the channels by integrating the associated features. Meanwhile, the PAU had selectively aggregated the features at each position through a weighted sum of features at all positions. A Dual Attention Unit (DAU) was proposed to flexibly integrate CAU features with PAU information. An asymmetric convolution block was introduced to improve the robustness of the model to flipping and rotation. Two backbone networks were selected as ResNet50 and ResNet101, whereas, four major task networks were the Mask R-CNN, Cascade Mask R-CNN, MS R-CNN, and HTC cross-combination model, in order to detect the performance of group breeding pigs. The results showed that the embedding DAU contributed to the most significant performance in different task networks with distinct backbone networks, compared with the Convolutional Block Attention Module (CBAM), Bottleneck Attention Module (BAM), and Spatial-Channel Squeeze & Excitation (SCSE). When the HTC-R101-DAU was under the Intersection over Union (IOU) thresholds of 0.5, 0.75, 0.5-0.95 (all targets), and 0.5-0.95 (large targets), four Average Precision (AP) indicators increased by 1.7%, 1.7%, 2.1%, and 1.8%, respectively. There was a certain impact of backbone networks on the pig detection in the same task network. The detection of R50 was better than that of R101 in the task network without any attention unit. The detection AP values of two backbone networks were relatively close after adding the attention unit. The CAU and PAU were separately added to explore the influence of channels and positions in attention units on the detection performance of task network. Experiments showed that the DAU was comparable to CAU and PAU for the better AP index, indicating that simultaneous fusion of two-dimensional attention complemented each other for a high accuracy of position detection. In addition, a specific number of PAU units generally achieved better AP index values, compared with CAU. A position-attention module was constructed with 1 to 4 PAU units that connected in series for high accuracy of pixel-level dense context. The predictive values appeared a trend of increasing initially and decreasing afterwards after different numbers of PAU were merged under the same experimental conditions. Therefore, the HTC-R101-DAU model can more accurately and effectively detect live pigs in different scenes. The finding can provide a sound reference for the follow-up production of intensive pigs.
image processing; object detection; algorithms; feature pyramid network; channel attention; position attention
胡志偉,楊華,婁甜田. 采用雙重注意力特征金字塔網(wǎng)絡(luò)檢測(cè)群養(yǎng)生豬[J]. 農(nóng)業(yè)工程學(xué)報(bào),2021,37(5):166-174.doi:10.11975/j.issn.1002-6819.2021.05.019 http://www.tcsae.org
Hu Zhiwei, Yang Hua, Lou Tiantian. Instance detection of group breeding pigs using a pyramid network with dual attention feature[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(5): 166-174. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2021.05.019 http://www.tcsae.org
2020-12-14
2021-02-14
國(guó)家自然科學(xué)基金(31671571);山西農(nóng)業(yè)大學(xué)青年科技創(chuàng)新基金(2019027)
胡志偉,博士生,研究方向?yàn)樾竽列畔⒒?。Email:zhiweihu@whu.edu.cn
楊華,博士,教授,研究方向?yàn)檗r(nóng)業(yè)信息化。Email:yanghua@sxau.edu.cn
10.11975/j.issn.1002-6819.2021.05.019
TP391
A
1002-6819(2021)-05-0166-09
農(nóng)業(yè)工程學(xué)報(bào)2021年5期