高 云,陳 斌,廖慧敏,雷明剛,黎 煊,李 靜,羅俊杰
群養(yǎng)豬侵略性行為的深度學(xué)習(xí)識(shí)別方法
高 云1,2,陳 斌1,廖慧敏1,雷明剛2,3,黎 煊1,2,李 靜1,羅俊杰1
(1. 華中農(nóng)業(yè)大學(xué)工學(xué)院,武漢 430070;2. 生豬健康養(yǎng)殖協(xié)同創(chuàng)新中心,武漢 430070;3. 華中農(nóng)業(yè)大學(xué)動(dòng)物科技學(xué)院動(dòng)物醫(yī)學(xué)院,武漢 430070)
為了解決因傳統(tǒng)機(jī)器視覺(jué)和圖像處理方法的局限性以及復(fù)雜的豬體姿態(tài)和豬舍環(huán)境導(dǎo)致對(duì)群養(yǎng)豬侵略性行為識(shí)別的有效性、準(zhǔn)確率較低的問(wèn)題,該文基于深度學(xué)習(xí)的方法,提出使用3D CONV的群養(yǎng)豬侵略性行為識(shí)別算法- 3DConvNet。分3個(gè)批次采集18頭9.6 kg左右的大白仔豬視頻圖像,選用第一批次中包含28 d內(nèi)各個(gè)時(shí)段的撕咬、撞擊、追逐、踩踏4大類,咬耳、咬尾、咬身、頭撞頭、頭撞身、追逐以及踩踏7小類侵略性行為以及吃食、飲水、休息等非侵略性行為共計(jì)740段(27 114幀)視頻作為訓(xùn)練集和驗(yàn)證集,訓(xùn)練集和驗(yàn)證集比例為3:1。結(jié)果表明,3D ConvNet網(wǎng)絡(luò)模型在訓(xùn)練集上的識(shí)別準(zhǔn)確度達(dá)96.78%,在驗(yàn)證集上識(shí)別準(zhǔn)確度達(dá)95.70%。該文算法模型對(duì)于不同訓(xùn)練集批次的豬只以及不良照明條件下依然能準(zhǔn)確識(shí)別侵略性行為,算法模型泛化性能良好。與C3D模型進(jìn)行對(duì)比,該文提出的網(wǎng)絡(luò)模型準(zhǔn)確率高出43.47個(gè)百分點(diǎn),單幀圖像處理時(shí)間為0.50 s,可滿足實(shí)時(shí)檢測(cè)的要求。研究結(jié)果可為豬場(chǎng)養(yǎng)殖環(huán)境中針對(duì)豬只侵略性行為檢測(cè)提供參考。
卷積神經(jīng)網(wǎng)絡(luò);機(jī)器視覺(jué);模型;行為識(shí)別;侵略性行為;深度學(xué)習(xí);群養(yǎng)豬
集約化的養(yǎng)豬中侵略性行為(包括打斗,追逐等)經(jīng)常在豬群中發(fā)生,侵略性的行為易對(duì)豬只身體造成傷害,在惡劣的豬舍環(huán)境中引起豬只感染,嚴(yán)重時(shí)導(dǎo)致死亡,對(duì)豬場(chǎng)造成損失[1-3]。侵略性行為的發(fā)生還會(huì)影響豬舍內(nèi)的食物配給,豬群體系中弱勢(shì)等級(jí)的豬只缺失食物和飲水進(jìn)給,導(dǎo)致豬只生長(zhǎng)緩慢,影響母豬繁殖力,造成嚴(yán)重的經(jīng)濟(jì)損失[4-7]。目前豬場(chǎng)對(duì)于豬只侵略性行為的監(jiān)測(cè)識(shí)別主要是依靠人工觀察記錄,這在集約化養(yǎng)殖的豬場(chǎng)內(nèi)會(huì)產(chǎn)生高昂的人工成本,且針對(duì)侵略性行為的觀察記錄會(huì)不可避免的造成大量的漏檢,也無(wú)法保證集約化的豬場(chǎng)內(nèi)對(duì)于侵略性行為監(jiān)測(cè)的實(shí)時(shí)性,準(zhǔn)確性和高效性。集約化環(huán)境下的群養(yǎng)豬侵略性行為的自動(dòng)檢測(cè)識(shí)別,是提高豬只福利及經(jīng)濟(jì)效益的重要基礎(chǔ)[8-11]。
目前,國(guó)內(nèi)外已有許多研究者針對(duì)豬只侵略性行為的檢測(cè)識(shí)別做了相應(yīng)的研究。Oczak等利用圖像處理技術(shù)和人工神經(jīng)網(wǎng)絡(luò)針對(duì)豬舍內(nèi)發(fā)生的高、中程度的侵略性行為的分類問(wèn)題進(jìn)行了研究,實(shí)現(xiàn)了高、中程度的侵略性行為的分類,但是需要對(duì)圖像兩幀的像素變化進(jìn)行計(jì)算提取特征,會(huì)產(chǎn)生大量的計(jì)算,無(wú)法對(duì)大批量數(shù)據(jù)的處理保持高效性[12]。Viazzi等提出的采用線性判別分析(linear discriminant analysis, LDA)對(duì)豬只運(yùn)動(dòng)歷史圖像中提取的特征進(jìn)行分類來(lái)識(shí)別侵略行為,該方法需要先獲取所有豬只的歷史運(yùn)動(dòng)圖像然后從中提取相關(guān)運(yùn)動(dòng)強(qiáng)度特征,同樣導(dǎo)致了當(dāng)樣本量很大時(shí)產(chǎn)生大量的計(jì)算代價(jià),且LDA對(duì)于樣本分類過(guò)分依賴均值信息,實(shí)際豬舍環(huán)境內(nèi)豬只會(huì)發(fā)生很多運(yùn)動(dòng)強(qiáng)度很小的侵略性行為,如咬尾、咬耳等,其泛化能力還有待驗(yàn)證[13]。Chen等使用層次聚類算法提取豬只的加速度特征,用于識(shí)別侵略性行為。豬只的加速度是侵略性行為的重要特征,但是在該方法中作者僅關(guān)注了視頻幀中最先開(kāi)始發(fā)生侵略性行為的豬只,丟棄了其余非侵略性的豬只,這導(dǎo)致其余豬只的信息被完全拋棄,而這部分信息是有可能發(fā)生侵略性行為的[14]。Jonguk等使用支持向量機(jī)(support vector machine,SVM)處理運(yùn)動(dòng)豬只速度有關(guān)的5個(gè)特征,實(shí)現(xiàn)了對(duì)侵略性行為發(fā)生與否的識(shí)別,雖然該研究實(shí)現(xiàn)了較高的識(shí)別準(zhǔn)確度,但是僅是針對(duì)追逐和敲擊兩種侵略性行為,且提取豬只速度的特征需進(jìn)行額外計(jì)算,也存在一定計(jì)算代價(jià)問(wèn)題,難以實(shí)現(xiàn)實(shí)時(shí)檢測(cè)[15]。以上學(xué)者關(guān)于豬只侵略性行為識(shí)別的研究都是基于圖像處理技術(shù)提取豬只圖像中的某一特征,再結(jié)合機(jī)器學(xué)習(xí)等手段對(duì)特征進(jìn)行處理。但在實(shí)際應(yīng)用中,傳統(tǒng)的圖像處理技術(shù)需要額外提取特征,存在效率低、工作量大的問(wèn)題。由于不同種類豬只個(gè)體差異性大,隨著豬只質(zhì)量的增長(zhǎng),豬只非剛性的軀體也會(huì)隨著發(fā)生變化,故提取的特征可能不具有普適性。此外由于豬舍內(nèi)豬體粘連、遮擋、不良照明條件以及豬只的侵略性行為復(fù)雜等原因,傳統(tǒng)的方法難以在集約化養(yǎng)殖的豬場(chǎng)內(nèi)做到對(duì)于豬只侵略性行為的實(shí)時(shí)、高效的檢測(cè)。
近幾年深度學(xué)習(xí)相比于傳統(tǒng)方法在圖像和視覺(jué)領(lǐng)域展現(xiàn)了其強(qiáng)大的優(yōu)越性,深度學(xué)習(xí)通過(guò)對(duì)低維特征到高維特征的提取學(xué)習(xí),能夠做到對(duì)絕大部分場(chǎng)景下各類任務(wù)進(jìn)行檢測(cè)識(shí)別[16-20]。正是在其他領(lǐng)域展現(xiàn)了其強(qiáng)大的學(xué)習(xí)泛化能力,深度學(xué)習(xí)也在豬只行為檢測(cè)方面得到了大量的應(yīng)用。Yang等基于Fast R-CNN檢測(cè)豬只進(jìn)食行為[21]。Yang等使用全卷積神經(jīng)網(wǎng)絡(luò)的方法分割母豬和仔豬,使用母豬幾何特征和仔豬的動(dòng)態(tài)計(jì)算乳房區(qū)域以及提取對(duì)應(yīng)的空間信息,再?gòu)囊曨l幀中提取運(yùn)動(dòng)強(qiáng)度和占領(lǐng)指數(shù)以識(shí)別母豬母性護(hù)理行為[22]。楊秋妹等使用卷積神經(jīng)網(wǎng)絡(luò)針對(duì)個(gè)體豬只飲水行為做出相應(yīng)的研究[23]。Zheng 等使用Faster R-CNN來(lái)對(duì)母豬的站立、躺臥等行為做出識(shí)別[24]。深度學(xué)習(xí)在豬只的簡(jiǎn)單行為上均展現(xiàn)了優(yōu)異的性能,但目前針對(duì)存在多頭豬只狀態(tài)交互的較高級(jí)的侵略性行為研究還比較少見(jiàn)[8]。
本文采用深度學(xué)習(xí)的方法,搭建3D卷積神經(jīng)網(wǎng)絡(luò)模型,并將其用于對(duì)群養(yǎng)豬中侵略性行為的識(shí)別,避免了傳統(tǒng)圖像處理方法中復(fù)雜、繁瑣的特征選擇、處理等問(wèn)題。通過(guò)對(duì)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,得到了一個(gè)端到端的,有效識(shí)別侵略性行為的模型,并通過(guò)對(duì)不同批次豬只、視頻長(zhǎng)短、不良照明條件的試驗(yàn),驗(yàn)證算法的泛化性與可行性。
豬只的侵略性行為涉及到群養(yǎng)豬中多頭豬只的狀態(tài)交互,是一個(gè)復(fù)雜,漸進(jìn)的行為。在發(fā)生侵略性行為的初期,豬只通過(guò)鼻子嗅聞、輕推等方式進(jìn)行初步試探,隨后侵略性行為逐漸加劇,往往伴隨著更激烈的擠壓,咬,撞擊等行為[2]。在侵略性行為最劇烈的時(shí)候,會(huì)出現(xiàn)咬耳朵,咬身體等現(xiàn)象。撕咬通常持續(xù)時(shí)間長(zhǎng),往往會(huì)造成皮膚損傷,創(chuàng)口等[1,6,22]。故在此項(xiàng)研究中定義的侵略性行為是撕咬、擠壓、撞擊、追逐,如表1所示。
表1 侵略性行為的定義
1.2.1試驗(yàn)條件
試驗(yàn)數(shù)據(jù)采集分別于2018年3月12日-4月9日,2018年4月19日-5月16日以及2018年6月9日-7月6日在湖北省武漢市華中農(nóng)業(yè)大學(xué)試驗(yàn)豬場(chǎng)內(nèi)進(jìn)行3個(gè)批次的數(shù)據(jù)采集。3個(gè)批次氨氣濃度分別為<3.80,15.18,37.95 mg/m3。其中<3.80 mg/m3組為模擬仔豬舍在通風(fēng)良好的條件下的氨氣濃度。因豬舍內(nèi)總有糞便,會(huì)產(chǎn)生一定的氨氣,因此將試驗(yàn)環(huán)境的氨氣控制到<3.80 mg/m3作為對(duì)照。試驗(yàn)對(duì)象為18頭9.6 kg左右的大白保育豬,豬只外觀顏色均勻。18頭豬養(yǎng)殖在課題組前期研究設(shè)計(jì)的環(huán)境多變量控制養(yǎng)殖箱中[25],養(yǎng)殖箱內(nèi)部空間長(zhǎng)、寬、高為2、1.5、2 m,底部糞槽深度設(shè)計(jì)為0.45 m,養(yǎng)殖箱內(nèi)部設(shè)有進(jìn)食槽、飲水槽。試驗(yàn)中溫度控制在27.0~27.4 ℃,相對(duì)濕度控制在50%~70%。為保證豬只正常生活習(xí)性,每天08:00與17:00喂食兩次,飼喂模式一致。箱內(nèi)采用自動(dòng)控制的LED燈照明,照明時(shí)間設(shè)定為07:00至18:00,其余時(shí)間LED燈關(guān)閉。
1.2.2 視頻采集
試驗(yàn)通過(guò)Kinect V2攝像頭采集RGB視頻,位于養(yǎng)殖箱的上部。鏡頭距養(yǎng)殖箱內(nèi)部地板高度約為1.8 m,采用頂視角度的方式,可以獲取整個(gè)養(yǎng)殖箱內(nèi)部6頭豬只的全部信息,不會(huì)出現(xiàn)漏拍豬只現(xiàn)象。攝像頭連接一臺(tái)便攜式筆記本電腦,將采集的養(yǎng)殖箱內(nèi)部6頭豬只的頂視角度彩色視頻存儲(chǔ)在SEAGATE移動(dòng)硬盤(pán)上,出于存儲(chǔ)成本的考慮,錄制視頻幀率為5幀/s,存儲(chǔ)像素為1 920×1 080,存儲(chǔ)為AVI格式。數(shù)據(jù)采集平臺(tái)及養(yǎng)殖箱如圖1所示。
圖1 數(shù)據(jù)采集平臺(tái)
1.2.3 視頻數(shù)據(jù)預(yù)處理與標(biāo)注
為了訓(xùn)練和評(píng)估侵略行為識(shí)別模型的性能,需要將獲取的數(shù)據(jù)進(jìn)行標(biāo)注。通過(guò)人工查閱采集的約900 h的視頻數(shù)據(jù),對(duì)視頻進(jìn)行處理,分為侵略性行為和非侵略性行為2種類別,視頻長(zhǎng)度取決于豬只侵略性行為持續(xù)的時(shí)間。根據(jù)前文中侵略性行為的定義,為區(qū)分侵略性行為與非侵略行為,僅將至少持續(xù)5幀的侵略行為進(jìn)行標(biāo)注。在一個(gè)侵略性行為發(fā)生之后的5 s內(nèi)若再有侵略性行為發(fā)生,則將其歸為同一次侵略性行為,即設(shè)置侵略性行為間隔為5 s。將錄制的視頻中存在掉幀現(xiàn)象的視頻段舍棄。最終定義侵略性行為視頻時(shí)長(zhǎng)最少為3 s。
通過(guò)在Python 3.6上編輯的程序代碼,對(duì)視頻進(jìn)行標(biāo)注。將標(biāo)注的數(shù)據(jù)集隨機(jī)劃分為訓(xùn)練集,驗(yàn)證集以及測(cè)試集,并獲取對(duì)應(yīng)的訓(xùn)練集、驗(yàn)證集以及測(cè)試集文檔目錄,網(wǎng)絡(luò)模型將會(huì)依賴這個(gè)目錄實(shí)現(xiàn)對(duì)數(shù)據(jù)集的讀取。
1.2.4 數(shù)據(jù)集介紹
根據(jù)表1中定義的侵略性行為,對(duì)視頻圖像進(jìn)行了剪輯分段處理。在群養(yǎng)豬侵略性行為發(fā)生過(guò)程中,常涉及到多種侵略性行為同時(shí)發(fā)生,或是一個(gè)行為結(jié)束后另一個(gè)行為的再次發(fā)生,故視頻中至少包含一種所定義的侵略性行為,經(jīng)過(guò)細(xì)致的分類后最終得到的3批數(shù)據(jù)中對(duì)應(yīng)的侵略性行為發(fā)生的次數(shù)統(tǒng)計(jì)如表2所示。
表2 各類侵略性行為統(tǒng)計(jì)
根據(jù)表2可以看出,在所有的行為類別中咬耳和咬身體行為出現(xiàn)的次數(shù)最多,在3期試驗(yàn)完成后均發(fā)現(xiàn)多數(shù)豬只的耳部和部分豬只身上都有傷口,無(wú)疑侵略性行為對(duì)豬只的健康和福利造成了嚴(yán)重的影響。
為了訓(xùn)練和評(píng)估所搭建的網(wǎng)絡(luò),將采集的第一批在2018年3月12日-4月9日,在37.95 mg/m3的氨氣濃度下采集的試驗(yàn)數(shù)據(jù)按照60%、20%、20%的比例作為網(wǎng)絡(luò)的訓(xùn)練集、驗(yàn)證集與測(cè)試集。后面兩批試驗(yàn)數(shù)據(jù)(2018年4月19日-5月16日,15.18 mg/m3;2018年6月9日-7月6日,<3.80 mg/m3)中選取一部分侵略性行為與非侵略性行為制作為測(cè)試集,數(shù)據(jù)集詳情如表3所示。
表3 數(shù)據(jù)集劃分
1.3.1 2D與3D CONV網(wǎng)絡(luò)模型
現(xiàn)有的采用深度學(xué)習(xí)方法針對(duì)豬群行為的研究,通常是使用常規(guī)的2D卷積核(2D CONV)搭建卷積神經(jīng)網(wǎng)絡(luò)。2D CONV是針對(duì)單張圖片進(jìn)行卷積操作,提取的是圖片的空間特征。針對(duì)豬只的分割,識(shí)別,行為檢測(cè)取得了很好的成果[21-24,26]。但是針對(duì)豬只的侵略性行為識(shí)別而言,僅通過(guò)單張圖片進(jìn)行識(shí)別并不準(zhǔn)確,侵略性行為是一個(gè)隨時(shí)間進(jìn)行的一個(gè)完整的行為,如果只在一幀圖像上得出結(jié)果對(duì)侵略性行為做出判斷,這樣將會(huì)丟失了侵略性行為在時(shí)間維度上的運(yùn)動(dòng)信息,導(dǎo)致很高的錯(cuò)誤識(shí)別率,難以做出有效的判斷。所以針對(duì)豬只侵略性行為的識(shí)別,需要結(jié)合時(shí)間和空間維度上的信息。
3D卷積核(3D CONV)是一種在2D CONV中加入了時(shí)間維度信息的卷積,如圖2所示是3D CONV對(duì)于視頻幀進(jìn)行卷積運(yùn)算時(shí)的操作,在對(duì)圖像中的特征進(jìn)行學(xué)習(xí)的卷積運(yùn)算過(guò)程中,3D CONV多了在時(shí)間維度上的運(yùn)算,其卷積核大小為。卷積核在對(duì)當(dāng)前幀圖像進(jìn)行卷積操作時(shí),還會(huì)在時(shí)間維度上對(duì)接下來(lái)- 1幀圖像進(jìn)行相應(yīng)的卷積操作,即提取了時(shí)間序列上幀圖像的信息。取決于網(wǎng)絡(luò)所定義的卷積核的尺寸。3D CONV使得卷積提取的特征融合了在時(shí)間維度上的附近時(shí)間域上的信息,保留了運(yùn)動(dòng)信息,為模型提取時(shí)間和空間上的特征奠定了基礎(chǔ)。3D CONV搭建的卷積神經(jīng)網(wǎng)絡(luò)依然具有2D CONV的局部連接,權(quán)值共享,多層次結(jié)構(gòu)等優(yōu)點(diǎn),這使得使用3D CONV的卷積神經(jīng)網(wǎng)絡(luò)具有很強(qiáng)大的學(xué)習(xí)能力[27]。
注:點(diǎn)、線均代表卷積運(yùn)算中的計(jì)算過(guò)程。
1.3.2 3D CONV侵略性行為識(shí)別網(wǎng)絡(luò)模型
本文在C3D[28]網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上,對(duì)C3D網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行重新構(gòu)建和優(yōu)化,通過(guò)比較不同網(wǎng)絡(luò)層數(shù)和卷積核大小對(duì)網(wǎng)絡(luò)模型準(zhǔn)確度的影響,確定最佳的識(shí)別群養(yǎng)豬侵略性行為的網(wǎng)絡(luò)參數(shù)和模型。
如圖3所示,最終提出的模型為3D CONVNet,在C3D的基礎(chǔ)上做了4項(xiàng)改進(jìn):
1)C3D網(wǎng)絡(luò)只有8層,對(duì)于卷積神經(jīng)網(wǎng)絡(luò)而言,網(wǎng)絡(luò)的層數(shù)越深所能提取到的特征越多,所學(xué)習(xí)到的特征也越來(lái)越抽象。針對(duì)本文的侵略性行為識(shí)別的任務(wù)而言,需要低級(jí)和高級(jí)抽象的特征相結(jié)合才能對(duì)任務(wù)做出準(zhǔn)確識(shí)別。所以在充分考慮計(jì)算代價(jià)和模型性能的情況下,將網(wǎng)絡(luò)層數(shù)加深到了19層。
2)3D CONV與2D CONV相比,在時(shí)間維度上多了一個(gè)深度為大小的卷積運(yùn)算,導(dǎo)致運(yùn)算量劇增,故需要大量數(shù)據(jù)進(jìn)行訓(xùn)練得到一個(gè)較優(yōu)的模型。在數(shù)據(jù)量不充足的情況下,網(wǎng)絡(luò)通常會(huì)遭受過(guò)擬合的風(fēng)險(xiǎn)。所以在網(wǎng)絡(luò)結(jié)構(gòu)中加入了Dropout[29],這不僅可以有效的防止過(guò)擬合,還顯著減少了計(jì)算代價(jià),可以更容易地去添加卷積層數(shù)以學(xué)習(xí)更有意義的特征,還增強(qiáng)了網(wǎng)絡(luò)的魯棒性。
3)在網(wǎng)絡(luò)結(jié)構(gòu)中添加了Batch Normalization(BN)層[30],這是為了保證各層的參數(shù)數(shù)據(jù)分布不會(huì)隨著卷積操作的進(jìn)行發(fā)生劇烈的變化,網(wǎng)絡(luò)在一個(gè)不變的數(shù)據(jù)分布范圍內(nèi)更容易學(xué)習(xí)到有用的特征。此外,可有效避免在深層卷積神經(jīng)網(wǎng)絡(luò)中可能出現(xiàn)的梯度消失問(wèn)題,還可提高網(wǎng)絡(luò)訓(xùn)練速度。
4)在網(wǎng)絡(luò)中采用了多尺度特征融合的方法,多尺度特征融合在最新的目標(biāo)檢測(cè)算法SSD和YOLO v3中都得到了應(yīng)用[31-33],SSD和YOLO v3都是目前在目標(biāo)檢測(cè)方面最先進(jìn)的算法。在網(wǎng)絡(luò)中融合不同尺度的特征是提高模型性能的重要手段,采用的特征融合讓模型充分利用到了各個(gè)階段所提取的時(shí)間和空間上的特征,在學(xué)習(xí)更抽象、更高級(jí)的特征時(shí),仍然結(jié)合了低層的信息。這有效利用了各層卷積核所提取特征的側(cè)重點(diǎn)不同的特性。多尺度特征融合的引入,讓網(wǎng)絡(luò)融合更多的低層信息,對(duì)于網(wǎng)絡(luò)模型待解決的涉及到低層與高層特征相關(guān)聯(lián)的識(shí)別任務(wù)而言,起到了關(guān)鍵作用。
如圖3a所示,所提出的侵略性行為識(shí)別網(wǎng)絡(luò)由前置特征提取網(wǎng)絡(luò),中間特征融合提取網(wǎng)絡(luò)以及最后的輸出網(wǎng)絡(luò)三部分組成。
前置特征提取網(wǎng)絡(luò)由3個(gè)卷積塊組成,前置特征提取網(wǎng)絡(luò)及卷積塊的構(gòu)成如圖3b所示。前置特征提取網(wǎng)絡(luò)在網(wǎng)絡(luò)進(jìn)行更進(jìn)一步的特征提取和特征融合之前,提取出一些有效的特征,減少有可能存在的噪聲,減少一些無(wú)效信息對(duì)于模型性能的影響。前置特征提取網(wǎng)絡(luò)第一個(gè)卷積塊卷積核大小為3×3×1,第二、三卷積塊大小均為3×3×3,卷積塊輸出通道數(shù)逐漸增多,分別為16,32,64。為了在進(jìn)行特征融合之前,保留更多的有效特征信息,所以在第一個(gè)卷積操作時(shí),并不對(duì)時(shí)間序列上的運(yùn)動(dòng)信息進(jìn)行采集,更多的利用當(dāng)前幀的信息,且采用的Max-pooling在前置特征提取網(wǎng)絡(luò)的步長(zhǎng)為(2,2,1),這會(huì)讓網(wǎng)絡(luò)更多的保留當(dāng)前所提取的特征圖信息,而不是和后序時(shí)序特征融合,讓網(wǎng)絡(luò)保留更多的當(dāng)前幀圖像的特征。卷積層后增加了Batch Normalization層、Relu激活層,以及Max-pooling層。
多尺度特征融合由特征融合提取網(wǎng)絡(luò)完成,如圖3c所示。在這個(gè)特征融合提取階段,主干網(wǎng)絡(luò)上設(shè)置了3個(gè)卷積階段,網(wǎng)絡(luò)仍然會(huì)繼續(xù)提取更深層次的特征。為了避免一些無(wú)效的特征被多次計(jì)算,導(dǎo)致計(jì)算代價(jià)的提高和網(wǎng)絡(luò)模型性能的下降,僅在一個(gè)卷積階段完成后再進(jìn)行特征融合。在每個(gè)卷積階段內(nèi)設(shè)置了5層卷積,卷積核的大小均為3×3×3,卷積通道數(shù)依次增長(zhǎng)到64,128,256,512,卷積步長(zhǎng)均為(1,1,1)。在跨越式的特征融合里,因?yàn)樘卣鞯耐ǖ罃?shù)并不相同,所以并不能直接進(jìn)行融合,在特征傳遞的連接中設(shè)置了尺寸為1×1×1的卷積核,以保證特征融合時(shí)的通道數(shù)一致。
輸出網(wǎng)絡(luò)如圖3d所示,在做最終的輸出預(yù)測(cè)之前,網(wǎng)絡(luò)對(duì)融合的特征進(jìn)行了一次卷積操作,卷積核大小為1×1×1,步長(zhǎng)為(1,1,1),并將網(wǎng)絡(luò)的通道數(shù)提升到1 024,這有利于網(wǎng)絡(luò)充分整合時(shí)間和空間上的信息。在連接到全連接層之前對(duì)特征圖進(jìn)行平均池化處理,然后經(jīng)全連接層后輸入到Softmax完成最終的類別預(yù)測(cè)和置信度計(jì)算。
網(wǎng)絡(luò)的任務(wù)是識(shí)別侵略性行為與非侵略性行為,屬于一個(gè)二分類問(wèn)題。網(wǎng)絡(luò)采用Adam梯度下降法的反向傳播更新優(yōu)化模型,網(wǎng)絡(luò)的損失函數(shù)采用categorical_crossentropy loss,如式(1)所示。
1.3.3 訓(xùn)練參數(shù)設(shè)置
網(wǎng)絡(luò)采用的激活函數(shù)均為整流線性單元(rectified linear unit, relu),采用的優(yōu)化算法為Adam梯度下降法,batch_size設(shè)定為32,momentum為0.9,設(shè)置迭代次數(shù)為20,基礎(chǔ)學(xué)習(xí)率為0.005,Dropout失活率為0.5,使用L2正則化函數(shù),正則化權(quán)重衰減系數(shù)weight_decay為0.005。
為了全面、合理的對(duì)網(wǎng)絡(luò)模型性能做出評(píng)價(jià),采用準(zhǔn)確率(Accuracy),查準(zhǔn)率(Precision),召回率(Recall)和F1值4個(gè)指標(biāo)來(lái)評(píng)估模型的性能,如式(2)~(5)所示。
式中TP是正確識(shí)別侵略性行為的個(gè)數(shù),TN是正確識(shí)別非侵略性行為的個(gè)數(shù),F(xiàn)P是將非侵略性行為識(shí)別位侵略性行為的個(gè)數(shù),F(xiàn)N是將侵略性行為識(shí)別為非侵略性行為的個(gè)數(shù)。
群養(yǎng)豬侵略性行為的識(shí)別檢測(cè)試驗(yàn)步驟如下。
1)從采集的數(shù)據(jù)中提取出包含侵略性行為的視頻片段,制作出訓(xùn)練集,驗(yàn)證集和測(cè)試集;2)搭建群養(yǎng)豬侵略性行為識(shí)別檢測(cè)網(wǎng)絡(luò);3)將制作好的訓(xùn)練集作為網(wǎng)絡(luò)的輸入進(jìn)行訓(xùn)練;4)使用驗(yàn)證集對(duì)網(wǎng)絡(luò)模型進(jìn)行測(cè)試,得到loss函數(shù)以及網(wǎng)絡(luò)識(shí)別準(zhǔn)確度;5)根據(jù)得到的網(wǎng)絡(luò)識(shí)別準(zhǔn)確度作為評(píng)價(jià)指標(biāo),調(diào)整網(wǎng)絡(luò)參數(shù),如學(xué)習(xí)率,Batch_size,weight_decay等;6)調(diào)整參數(shù)后再次訓(xùn)練網(wǎng)絡(luò),重復(fù)3)~5),直至Loss曲線收斂,訓(xùn)練集與驗(yàn)證集識(shí)別準(zhǔn)確度相近。
在試驗(yàn)平臺(tái)上,使用搭建的3D CONVNet對(duì)訓(xùn)練集數(shù)據(jù)集進(jìn)行20次迭代的訓(xùn)練,同時(shí)也采用驗(yàn)證集對(duì)網(wǎng)絡(luò)模型訓(xùn)練狀況做一個(gè)初步的評(píng)價(jià)。網(wǎng)絡(luò)在包含380個(gè)侵略性行為片段(14 074幀),360個(gè)非侵略性行為片段(13 040幀)的數(shù)據(jù)集上的訓(xùn)練集和驗(yàn)證集識(shí)別準(zhǔn)確度和模型loss曲線如圖4所示。
圖4 模型訓(xùn)練曲線
由圖4可以看出,網(wǎng)絡(luò)存在一個(gè)明顯的訓(xùn)練優(yōu)化過(guò)程,隨著迭代次數(shù)不斷增加,訓(xùn)練集和驗(yàn)證集的分類誤差Loss曲線逐漸降低,迭代至15次時(shí),Loss曲線趨近于收斂。模型在訓(xùn)練集上的準(zhǔn)確度達(dá)到了96.78%,在驗(yàn)證集上的準(zhǔn)確度也由剛最初的37%逐漸上漲至95.70%。從第10次迭代過(guò)后,訓(xùn)練集和驗(yàn)證集的準(zhǔn)確度的差距逐漸減小,最終兩者的準(zhǔn)確度差在一個(gè)良好范圍內(nèi),在迭代20次過(guò)后,Loss和識(shí)別準(zhǔn)確度基本不再變化。識(shí)別準(zhǔn)確度曲線以及Loss曲線展現(xiàn)了一個(gè)良好的深度學(xué)習(xí)模型的訓(xùn)練過(guò)程,模型逐漸學(xué)習(xí)到正確識(shí)別群養(yǎng)豬侵略性行為的特征,達(dá)到了一個(gè)較好的訓(xùn)練效果,且模型沒(méi)有陷入過(guò)擬合和局部最優(yōu)。
模型對(duì)群養(yǎng)豬侵略性行為有較好的識(shí)別性能。如圖5所示,是隨機(jī)抽取的模型對(duì)圖像幀中侵略性行為和非侵略性行為的識(shí)別效果,圖5a是豬只在進(jìn)食狀態(tài)中,系統(tǒng)判定為非侵略性行為(Nor),置信度為0.967;圖5b為發(fā)生進(jìn)食行為之外又發(fā)生撕咬行為,系統(tǒng)判定為侵略性行為(Attack),置信度為0.821。
對(duì)于追逐、撞擊、踩踏、咬身體等侵略性行為,模型均具有良好的表現(xiàn)。模型對(duì)于不同環(huán)境狀態(tài)下的侵略性行為識(shí)別有很好的魯棒性,如在群養(yǎng)的6頭豬只中,侵略性行為僅發(fā)生在2頭豬只中,其余4頭豬只處于吃食,飲水等非侵略性行為下,模型可準(zhǔn)確識(shí)別出侵略性行為的發(fā)生;在一次侵略性行為發(fā)生后的幾秒鐘之后,豬群中再次發(fā)生侵略性行為,模型也可準(zhǔn)確識(shí)別出侵略性行為;在涉及到多頭豬只的侵略性行為亦可準(zhǔn)確識(shí)別。此外,模型還可以對(duì)當(dāng)前行為做出判斷的同時(shí)給出一個(gè)置信度分?jǐn)?shù),這更有利于網(wǎng)絡(luò)模型對(duì)于識(shí)別是否為侵略性行為提供依據(jù)和可解釋性。
a. 模型對(duì)非侵略性行為的識(shí)別a. Model identification of non-aggressive behaviorb. 模型對(duì)侵略性行為的識(shí)別b. Model identification of aggressive behavior
為進(jìn)一步驗(yàn)證模型性能,需要在實(shí)際豬舍環(huán)境下檢測(cè)算法的有效性以及泛化性能。本節(jié)試驗(yàn)以相同養(yǎng)殖環(huán)境下不同豬只、不同視頻段時(shí)長(zhǎng)、不良照明條件等因素,對(duì)模型性能進(jìn)行試驗(yàn)評(píng)估。
2.2.1 不同批次豬只對(duì)模型性能的影響
在實(shí)際的群豬養(yǎng)殖環(huán)境中,不同批次的同類豬只雖總體上沒(méi)有明顯區(qū)別,但是不同豬只受到環(huán)境等外界因素影響仍存在一定差異,如形體,身體部位輪廓,行為習(xí)慣等。針對(duì)不同批次豬只,使用了測(cè)試集1、測(cè)試集2以及測(cè)試集3對(duì)模型做出評(píng)價(jià),表4是模型在3個(gè)測(cè)試集上的測(cè)試結(jié)果的混淆矩陣。
表4 模型在測(cè)試集上結(jié)果的混淆矩陣
從表3中統(tǒng)計(jì)出在全部測(cè)試集的1 066個(gè)視頻片段中,總共981段(侵略性+非侵略性)視頻被正確分類,85段(侵略性+非侵略性)視頻分類錯(cuò)誤。準(zhǔn)確率為92.03%,侵略性行為的查準(zhǔn)率指標(biāo)為94.86%,侵略性行為召回率指標(biāo)為89.57%,調(diào)和Recall與Precision的F1值為92.14%。測(cè)試集1在3個(gè)測(cè)試集中取得了最優(yōu)的表現(xiàn)性能,侵略性行為識(shí)別準(zhǔn)確度為94.29%。這是由于測(cè)試集1與訓(xùn)練集是來(lái)源于同一批次豬只,故模型對(duì)該批次豬只數(shù)據(jù)擬合得更好。測(cè)試集2、3與訓(xùn)練集雖是來(lái)源于不同批次的豬只,但是通過(guò)統(tǒng)計(jì)計(jì)算得到測(cè)試集2、3的準(zhǔn)確度指標(biāo)分別為89.44%,85.91%。這充分說(shuō)明了模型的泛化性能良好,在針對(duì)同一養(yǎng)殖環(huán)境下的不同豬只,該模型依舊可以以較高的準(zhǔn)確地識(shí)別侵略性行為的發(fā)生與否。
2.2.2 視頻長(zhǎng)短對(duì)模型性能的影響
因?yàn)榍致孕孕袨榘l(fā)生的動(dòng)因、種類以及豬只個(gè)數(shù)差異等原因,導(dǎo)致發(fā)生侵略性行為的時(shí)間長(zhǎng)短不一。為分析侵略性行為持續(xù)時(shí)長(zhǎng)對(duì)模型識(shí)別侵略性行為的性能的影響,將測(cè)試集2、測(cè)試集3中的侵略性行為視頻按時(shí)間段進(jìn)行分類,不同時(shí)間段的分布及分類測(cè)試結(jié)果如圖6所示。
圖6 不同侵略性行為持續(xù)時(shí)長(zhǎng)的測(cè)試結(jié)果
從圖6中統(tǒng)計(jì)計(jì)算得出,視頻段時(shí)長(zhǎng)主要分布在>4~7 s內(nèi)(220段)。這一時(shí)長(zhǎng)段的視頻在測(cè)試集總數(shù)中的占比達(dá)到了57.74%,且識(shí)別準(zhǔn)確度達(dá)到了89.55%,其中又以>4~5 s內(nèi)的視頻段量最多,占比達(dá)到了24.41%,識(shí)別準(zhǔn)確度達(dá)到了93.55%。3~4 s內(nèi)的視頻與>6~7 s內(nèi)的視頻占比基本一致,且識(shí)別準(zhǔn)確度均達(dá)到80 %以上。但是從6~7及7~8 s的視頻中,視頻段占比呈逐漸減小的趨勢(shì),識(shí)別準(zhǔn)確度也是基本逐漸降低的趨勢(shì),在7 s及以上的視頻段中僅取得了73.33%的識(shí)別準(zhǔn)確度。
對(duì)于視頻誤識(shí)別的原因,主要有三點(diǎn),一是在侵略性行為發(fā)生的過(guò)程中,受侵略豬只的身體部位特征被侵略性豬只所遮擋,如耳朵,尾部等部位,模型沒(méi)有檢測(cè)到受侵害部位,所以無(wú)法判斷是否發(fā)生侵略性行為;二是侵略性行為過(guò)于溫和,幀與幀之間基本無(wú)明顯變化,模型無(wú)法捕獲時(shí)間維度上的運(yùn)動(dòng)信息,做出了錯(cuò)誤的識(shí)別結(jié)果;三是對(duì)于較長(zhǎng)的視頻,3D CONVNet對(duì)視頻的逐幀處理時(shí)間過(guò)長(zhǎng),容易丟失時(shí)間維度上的運(yùn)動(dòng)信息,導(dǎo)致時(shí)間維度上的運(yùn)動(dòng)信息對(duì)模型進(jìn)行識(shí)別的作用有限,網(wǎng)絡(luò)過(guò)分依賴于空間維度上的信息,導(dǎo)致了對(duì)長(zhǎng)視頻的較高的誤識(shí)別率。
2.2.3 不良照明條件對(duì)模型性能的影響
試驗(yàn)中,根據(jù)豬只作息習(xí)慣提供照明的LED燈在07:00-18:00開(kāi)啟,其余時(shí)間僅通過(guò)養(yǎng)殖箱側(cè)壁窗口的自然光照明,但在實(shí)際的觀察中發(fā)現(xiàn)有部分侵略性行為發(fā)生在照明條件不佳的情況下。為了評(píng)估模型在不良照明條件下的侵略性行為識(shí)別的表現(xiàn),在測(cè)試集中將不良照明條件下的視頻段進(jìn)行篩選,將這批數(shù)據(jù)單獨(dú)進(jìn)行測(cè)試,最終得到的結(jié)果如表5所示。
表5 不良照明條件視頻識(shí)別結(jié)果
由表5可以看出,模型對(duì)于不良照明條件下侵略性行為識(shí)別準(zhǔn)確率依然達(dá)到了79.07%。在實(shí)際的豬只養(yǎng)殖過(guò)程中,不良照明現(xiàn)象是普遍存在的,而本文所提出的侵略性行為檢測(cè)模型,對(duì)于豬只侵略性行為識(shí)別依然可以在不良照明條件下取得較優(yōu)的結(jié)果,體現(xiàn)了模型對(duì)于光照條件的良好的適應(yīng)性,更能促進(jìn)模型在實(shí)際的集約化養(yǎng)殖豬場(chǎng)內(nèi)運(yùn)用。
本文提出的3D ConvNet特征融合提取網(wǎng)絡(luò)中卷積核大小為3×3×3,卷積塊內(nèi)部層數(shù)為5,該網(wǎng)絡(luò)參數(shù)設(shè)置是對(duì)特征融合提取網(wǎng)絡(luò)的不同網(wǎng)絡(luò)參數(shù)進(jìn)行試驗(yàn)驗(yàn)證的基礎(chǔ)上,確定的最優(yōu)的識(shí)別侵略性行為的網(wǎng)絡(luò)參數(shù)。通過(guò)對(duì)比試驗(yàn)發(fā)現(xiàn),當(dāng)卷積核大小為3×3×3,卷積塊內(nèi)部卷積層數(shù)為5時(shí),網(wǎng)絡(luò)取得了95.70%的識(shí)別準(zhǔn)確度。卷積核大小為3×3×1時(shí),識(shí)別準(zhǔn)確度僅為49.22%。卷積塊內(nèi)部卷積層數(shù)設(shè)置為9層時(shí),模型待訓(xùn)練參數(shù)增加至7 401×103,識(shí)別準(zhǔn)確度僅為63.67%。
將本文網(wǎng)絡(luò)模型與C3D模型以及其他基于C3D網(wǎng)絡(luò)的改進(jìn)模型的檢測(cè)識(shí)別效果進(jìn)行對(duì)比。采用的訓(xùn)練集與驗(yàn)證集均為前文所述的數(shù)據(jù)集。訓(xùn)練參數(shù)的設(shè)置均保持一致。4個(gè)網(wǎng)絡(luò)模型在驗(yàn)證集上檢測(cè)識(shí)別性能如表6所示。
C3D網(wǎng)絡(luò)模型在本文的數(shù)據(jù)的驗(yàn)證集上僅取得了52.23%的識(shí)別準(zhǔn)確度。在將C3D網(wǎng)絡(luò)的卷積層加深至19層后,得到C3D_1模型,識(shí)別準(zhǔn)確度僅提升至64.58%,在實(shí)際訓(xùn)練中C3D_1模型花費(fèi)了大量的訓(xùn)練時(shí)間。在C3D_1的基礎(chǔ)上,在網(wǎng)絡(luò)中增加了BN層得到C3D_2(BN)模型,在同樣的數(shù)據(jù)集上,C3D_2模型隨僅取得了少量的準(zhǔn)確度提升,達(dá)到65.63%,但是在實(shí)際訓(xùn)練中加入BN層加速了網(wǎng)絡(luò)收斂速度,網(wǎng)絡(luò)僅運(yùn)行了5個(gè)epoch后loss函數(shù)便趨近于收斂。3D ConvNet模型與C3D模型相比,在驗(yàn)證集上的準(zhǔn)確度上提升了43.47個(gè)百分點(diǎn),與同樣主干網(wǎng)絡(luò)結(jié)構(gòu)的C3D_2模型以及C3D_1模型相比,3D ConvNet在引入了多尺度特征融合過(guò)后,識(shí)別準(zhǔn)確度提高至95.70%,且實(shí)際訓(xùn)練模型至收斂的時(shí)間大大縮短。
表6 不同模型的性能比較
對(duì)照各算法的單幀圖像平均識(shí)別時(shí)間,3D ConvNet在C3D網(wǎng)絡(luò)的基礎(chǔ)上同時(shí)加深了網(wǎng)絡(luò)的寬度和深度后,由于Dropout以及Batch Normalization層的加入,使網(wǎng)絡(luò)模型待訓(xùn)練參數(shù)數(shù)量減小至1 741×103,單幀圖像平均識(shí)別時(shí)間是0.5 s,為所有對(duì)比網(wǎng)絡(luò)中最短,且比次短時(shí)間C3D模型的2.3 s減少了1.8 s,大大提升了識(shí)別效率。
針對(duì)本研究的豬只侵略性行為識(shí)別的目的,在集約化養(yǎng)殖豬場(chǎng)內(nèi),要對(duì)群養(yǎng)豬的侵略性行為做到實(shí)時(shí)監(jiān)測(cè),模型大小和單幀圖像的平均識(shí)別時(shí)間極其重要,模型過(guò)大不易加載和運(yùn)行,且在移動(dòng)端占用內(nèi)存嚴(yán)重,檢測(cè)識(shí)別時(shí)間過(guò)長(zhǎng),無(wú)法實(shí)現(xiàn)實(shí)時(shí)檢測(cè)。本文提出的網(wǎng)絡(luò)模型訓(xùn)練過(guò)后的大小僅為76.3 MB,在移動(dòng)端上的移植不會(huì)受到限制。且在CPU端(Intel(R)Core(TM)i5-7500)的單幀圖像檢測(cè)時(shí)間為0.50 s,基本滿足集約化群養(yǎng)豬侵略性行為實(shí)時(shí)檢測(cè)的要求。
本文基于深度學(xué)習(xí)研究了對(duì)群養(yǎng)豬侵略性行為進(jìn)行識(shí)別的網(wǎng)絡(luò)模型,該網(wǎng)絡(luò)模型在識(shí)別測(cè)試集的1 066個(gè)視頻片段中取得到較好的效果,具體結(jié)論如下:
1)基于C3D網(wǎng)絡(luò)提出了一種用于對(duì)群養(yǎng)豬侵略性行為進(jìn)行識(shí)別的3D ConvNet網(wǎng)絡(luò)模型,網(wǎng)絡(luò)結(jié)構(gòu)在寬度和深度兩個(gè)方面進(jìn)行改進(jìn)。在深度上加深卷積層的數(shù)量,并添加BN層和Dropout層;在寬度上,在網(wǎng)絡(luò)模型中設(shè)置多尺度特征融合,實(shí)現(xiàn)了對(duì)侵略性行為發(fā)生與否的判斷以及置信度的輸出。
2)3D ConvNet網(wǎng)絡(luò)模型在測(cè)試集上取得了92.03%的準(zhǔn)確率,在測(cè)試集的1 066個(gè)片段中,總共981段(侵略性+非侵略性)視頻被正確分類。侵略性行為的查準(zhǔn)率指標(biāo)為94.86%,侵略性行為召回率指標(biāo)為89.57%,調(diào)和Recall與Precision的F1值為92.14%。且在相同環(huán)境的不同批次豬只的測(cè)試集上以及在照明不良條件下表現(xiàn)出良好的泛化能力。
3)與C3D網(wǎng)絡(luò),C3D_1(19層)網(wǎng)絡(luò)和C3D_2(BN)網(wǎng)絡(luò)相對(duì)比,在相同訓(xùn)練集和驗(yàn)證集的條件下,3D ConvNet在驗(yàn)證集上的識(shí)別準(zhǔn)確率超過(guò)C3D網(wǎng)絡(luò),C3D_1(19層)和C3D_2(BN)網(wǎng)絡(luò),達(dá)到95.70%,在處理單幀圖像識(shí)別速度最快僅需0.5 s。網(wǎng)絡(luò)模型在高準(zhǔn)確度的同時(shí)提高了圖像檢測(cè)時(shí)間,具有良好的有效性和實(shí)時(shí)性。
結(jié)果說(shuō)明基于3D卷積核的群養(yǎng)豬侵略性行為識(shí)別網(wǎng)絡(luò)的模型是穩(wěn)定有效的。該算法為群養(yǎng)豬侵略性行為識(shí)別提供方法和思路,為后續(xù)針對(duì)集約化養(yǎng)殖環(huán)境下的豬只行為自動(dòng)監(jiān)測(cè)識(shí)別打下了基礎(chǔ)。
[1]Turner S P, Farnworth M J, White I M S, et al. The accumulation of skin lesions and their use as a predictor of individual aggressiveness in pigs[J]. Applied Animal Behaviour Science, 2006, 96(3/4): 245-259.
[2]Kongsted, Grete A . Stress and fear as possible mediators of reproduction problems in group housed sows: A review[J]. Acta Agriculturae Scandinavica, Section A-Animal Science, 2004, 54(2): 58-66.
[3]朱志謙. 工廠化養(yǎng)豬對(duì)豬行為及性能的影響與對(duì)策[J]. 畜牧與獸醫(yī),2007(12):40-41.
[4]Verdon M, Hansen C F, Rault J L, et al. Effects of group housing on sow welfare: A review[J]. Journal of Animal Science, 2015, 93(5): 1999.
[5]施正香,李保明,張曉穎,等. 集約化飼養(yǎng)環(huán)境下仔豬行為的研究[J]. 農(nóng)業(yè)工程學(xué)報(bào),2004,20(2):220-225.
Shi Zhengxiang, Li Baoming, Zhang Xiaoying, et al. Behaviour of weaning piglets under intensive farm environment[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2004, 20(2): 220-225. (in Chinese with English abstract)
[6]張振玲,Rachel S E Peden,Simon P Turner, 等.豬混群攻擊行為研究進(jìn)展[J]. 豬業(yè)科學(xué),2018,35(12):34-37.
[7]楊飛云,曾雅瓊,馮澤,等. 畜禽養(yǎng)殖環(huán)境調(diào)控與智能養(yǎng)殖裝備技術(shù)研究進(jìn)展[J]. 中國(guó)科學(xué)院院刊,2019,34(2):163-173.
[8]何東健,劉冬,趙凱旋. 精準(zhǔn)畜牧業(yè)中動(dòng)物信息智能感知與行為檢測(cè)研究進(jìn)展[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào),2016,47(5):231-244.
He Dongjian, Liu Dong, Zhao Kaixuan. Review of perceiving animal information and behavior in precision livestock farming[J]. Transactions of the Chinese Society for Agricultural Machinery, 2016, 47(5): 231-244. (in Chinese with English abstract)
[9]馬麗,紀(jì)濱,劉宏申,等. 單只豬輪廓圖的側(cè)視圖識(shí)別[J].農(nóng)業(yè)工程學(xué)報(bào),2013,29(10):168-174.
Ma Li, Ji Bin, Liu Hongshen, et al. Differentiating profile based on single pig contour[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2013, 29(10): 168-174. (in Chinese with English abstract)
[10]張萌,鐘南,劉瑩瑩. 基于生豬外形特征圖像的瘦肉率估測(cè)方法[J]. 農(nóng)業(yè)工程學(xué)報(bào),2017,33(12):308-314.
Zhang Meng, Zhong Nan, Liu Yingying. Estimation method of pig lean meat percentage based on image of pig shape characteristics[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2017, 33(12): 308-314. (in Chinese with English abstract)
[11]劉龍申,沈明霞,柏廣宇,等. 基于機(jī)器視覺(jué)的母豬分娩檢測(cè)方法研究[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào),2014,45(3):237-242.
Liu Longshen, Shen Mingxia, Bo Guangyu, et al. Sows parturition detection method based on machine vision[J]. Transactions of the Chinese Society for Agricultural Machinery, 2014, 45(3): 237-242. (in Chinese with English abstract)
[12]Oczak M, Viazzi S, Ismayilova G, et al. Classification of aggressive behaviour in pigs by activity index and multilayer feed forward neural network[J]. Biosystems Engineering, 2014, 119: 89-97.
[13]Viazzi S, Ismayilova G, Oczak M, et al. Image feature extraction for classification of aggressive interactions among pigs[J]. Computers and Electronics in Agriculture, 2014, 104: 57-62.
[14]Chen C, Zhu W, Ma C, et al. Image motion feature extraction for recognition of aggressive behaviors among group-housed pigs[J]. Computers and Electronics in Agriculture, 2017, 142: 380-387.
[15]Jonguk L, Long J, Daihee P, et al. Automatic recognition of aggressive behavior in pigs using a kinect depth sensor[J]. Sensors, 2016, 16(5): 631-641.
[16]孫鈺,周焱,袁明帥,等. 基于深度學(xué)習(xí)的森林蟲(chóng)害無(wú)人機(jī)實(shí)時(shí)監(jiān)測(cè)方法[J]. 農(nóng)業(yè)工程學(xué)報(bào),2018,34(21):74-81.
Sun Yu, Zhou Yan, Yuan Mingshuai, et al. UAV real-time monitoring for forest pest based on deep learning[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2018, 34(21): 74-81. (in Chinese with English abstract)
[17]Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[C]// International Conference on Neural Information Processing Systems. Curran Associates Inc. 2012: 1097-1105.
[18]Ren S, He K, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017, 39(6): 1137-1149.
[19]Zeiler M D, Fergus R. Visualizing and understanding convolutional networks[C]//European Conference on Computer Vision. Springer, Cham, 2014: 818-833.
[20]Zhang Z, Fidler S, Urtasun R. Instance-level segmentation for autonomous driving with deep densely connected MRFs[C]// Computer Vision & Pattern Recognition. 2016.
[21]Yang Qiumei, Xiao Deqin, Lin Sicong. Feeding behavior recognition for group-housed pigs with the Faster R-CNN[J]. Computers and Electronics in Agriculture, 2018, 144: 453-460.
[22]Yang Aqing, Huang Huasheng, Zheng Chan. High-accuracy image segmentation for lactating sows using a fully convolutionalnetwork[J]. Biosystems Engineering, 2018, 176:36-47.
[23]楊秋妹,肖德琴,張根興. 豬只飲水行為機(jī)器視覺(jué)自動(dòng)識(shí)別[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào),2018,49(6):232-238.
Yang Qiumei, Xiao Deqin, Zhang Genxin. Automatic pig drinking behavior recognition with machine vision[J]. Transactions of the Chinese Society for Agricultural Machinery, 2018, 49(6): 232-238. (in Chinese with English abstract)
[24]Zheng Chan, Zhu Xunmu, Yang Xiaofan. Automatic recognition of lactating sow postures from depth images by deep learning detector[J]. Computers and Electronics in Agriculture, 2018, 147: 51-63.
[25]高云,陳震撼,王瑜,等. 多環(huán)境參數(shù)控制的豬養(yǎng)殖箱設(shè)計(jì)及箱內(nèi)氣流場(chǎng)分析[J]. 農(nóng)業(yè)工程學(xué)報(bào),2019,35(2):203-212.
Gao Yun, Chen Zhenhan, Wang Yu, et al. Design for pig breeding chamber under multiple environment variable control and analysis of internal flow field[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(2): 203-212. (in Chinese with English abstract)
[26]高云,郭繼亮,黎煊,等. 基于深度學(xué)習(xí)的群豬圖像實(shí)例分割方法[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào),2019,50(4):179-187.
Gao Yun, Guo Jiliang, Li Xuan, et al. Instance-level segmentation method for group pig images based on deep learning[J]. Transactions of the Chinese Society for Agricultural Machinery, 2019, 50(4): 179-187. (in Chinese with English abstract)
[27]Ian Goodfellow, Yoshua Bengio, Aaron Courville. Deep Learning[M]. 北京:人民郵電出版社,2016.
[28]Tran D, Bourdev L, Fergus R, et al. Learning spatiotemporal features with 3D convolutional networks[C]//2015 IEEE International on Computer Vision and Pattern Recognition, 2015: 4694-4702.
[29]Srivastava N, Hinton G, Krizhevsky A, et al. Dropout: A simple way to prevent neural networks from overfitting[J]. Journal of Machine Learning Research, 2014, 15(1): 1929-1958.
[30]Ioffe S, Szegedy C. Batch normalization: Accelerating deep network training by reducing internal covariate shift[C]// International Conference on International Conference on Machine Learning. JMLR.org, 2015.
[31]Zhang Z, Zhang X, Peng C, et al. ExFuse: Enhancing feature fusion for semantic segmentation[C]// European Conference on Computer Vision. Springer, Cham, 2018.
[32]Liu W, Anguelov D, Erhan D, et al. SSD: Single shot MultiBox detector[C]// European Conference on Computer Vision. 2016.
[33]Joseph Redmon, Farhadi Ali. YOLOv3: An incremental improvement[EB/OL].[2018-04-08].https://arxiv.org/pdf/1804.02767.pdf.
Recognition method for aggressive behavior of group pigs based on deep learning
Gao Yun1,2, Chen Bin1, Liao Huimin1, Lei Minggang2,3, Li Xuan1,2, Li Jing1, Luo Junjie1
(1.430070,; 2.,430070,; 3.,,430070,)
Pigs like to fight with each other to form a hierarchy relationship in groups. Aggressive behaviors, mostly fighting, are frequently found in intensive pig raising facilities. Strong aggressive behaviors can cause other pigs lack of food and water, growing slowly, wounds, sick and even dead in serious situation. This considerably reduces health and welfare of pigs and further decreases economic benefits of pig industries. Monitoring and recognizing aggressive behaviors among pig group is the first step to manage the aggressive behaviors in group pigs effectively. Traditional human recording method is time-consuming and labor-intensive. This method can’t be used 24 hours a day, 7 days a week. Machine vision technique brings an automatic monitoring method to solve this problem. In this paper, we introduced a new method for aggressive behaviors monitoring based on deep learning. The experiments were held under controlled environments, which were achieved in an environment-controlled chamber designed previously. The details of the chamber were depicted in a published paper written by our research group. Nursery pigs were fed under three different concentration levels of NH3gas, which were <3.80, 15.18, 37.95 mg/m3, with a suitable temperature of around 27 ℃ and the comfortable humidity between 50%-70%. Each nursery group had six pigs and were weight around 9.6 kg. During each 28 days’ experiment of three concentration levels of NH3, videos were taken from the top of the chamber. An end-to-end network, named 3D CONVNet, was proposed for aggressive behavior recognition of group pigs in this paper, which based on a C3D network and built with 3D convolution kernels. The network structure of the 3D CONVNet was improved in both width and depth dimensions. The number of main convolutional layers was increased to 19, extra batch normalization and dropout layers were added to deepen the network. Furthermore, the multi-scale feature fusion method was introduced to widen the network. This improvement had bettered the performance of the algorithm considerably. To train the 3D CONVNet, 380 aggressive (14 074 frames) and 360 none-aggressive videos (13 040 frames) were chosen from experimental videos recording in experiments of two concertation levels. These videos were randomly divided into training set and validation set, and the ratio of each set is 3:1. Another 556 aggressive videos and 510 none-aggressive videos from the three experimental batches were chosen to build the testing set. There was no overlap among training set, validation set, and testing set. Results showed a total of 981 videos, including aggressive and non-aggressive behaviors, was correctly recognized from the whole 1066 testing videos. The precision of the 3D CONVNet was proved to be 92.03% on testing set. Among them, the precision, recall rate and F1-Score for aggressive behaviors were 94.86%, 89.57%, and 92.14%, respectively. The precision for different NH3concentration experimental levels were 94.29%, 89.44%, and 85.91%, respectively, which showed the generalization performance of the 3D CONVNet. With the similar heat environments, the 3D CONVNet also showed the good performances under different illumination condition. The comparison with C3D, C3D_1 (19 layers) and C3D_2 (BN) networks resulted in 95.7% on validation set, 43.47 percent point higher than the C3D network. The recognition on single image using the 3D CONVNet was only 0.5 s, which was much faster than the other three networks. Therefore, the 3D CONVNet was effective and robust in aggressive behavior recognition among group pigs. The algorithm provides a new method and technique for aggressive behavior auto-monitoring of group pigs and helps improve establishment of auto-monitoring system in pig farms and manage level of pig industry.
convolutional neural network; machine vision; models; behavior recognition; aggressive behavior; deep learning; group pigs
高 云,陳 斌,廖慧敏,雷明剛,黎 煊,李 靜,羅俊杰. 群養(yǎng)豬侵略性行為的深度學(xué)習(xí)識(shí)別方法[J]. 農(nóng)業(yè)工程學(xué)報(bào),2019,35(23):192-200.doi:10.11975/j.issn.1002-6819.2019.23.024 http://www.tcsae.org
Gao Yun, Chen Bin, Liao Huimin, Lei Minggang, Li Xuan, Li Jing, Luo Junjie. Recognition method for aggressive behavior of group pigs based on deep learning[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(23): 192-200. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2019.23.024 http://www.tcsae.org
2019-07-10
2019-10-29
“十三五”國(guó)家重點(diǎn)研發(fā)計(jì)劃項(xiàng)目(2016YFD0500506);中央高校自主創(chuàng)新基金(2662018JC003,2662018JC010,2662017JC028);現(xiàn)代農(nóng)業(yè)技術(shù)體系(CARS-35)
高 云,副教授,博士,主要從事農(nóng)業(yè)智能檢測(cè)與控制方面的研究。Email:angelclouder@mail.hzau.edu.cn
10.11975/j.issn.1002-6819.2019.23.024
TP391.41
A
1002-6819(2019)-23-0192-09
農(nóng)業(yè)工程學(xué)報(bào)2019年23期