• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      融合2D-3D卷積特征識別哺乳母豬姿態(tài)轉換

      2021-08-04 05:53:34薛月菊李詩梅甘海明李程鵬劉洪山
      農業(yè)工程學報 2021年9期
      關鍵詞:分支姿態(tài)時空

      薛月菊,李詩梅,鄭 嬋,甘海明,李程鵬,劉洪山※

      (1. 華南農業(yè)大學電子工程學院,廣州 510642;2. 華南農業(yè)大學數學與信息學院,廣州 510642)

      0 引言

      仔豬的存活率對豬場的生產力和養(yǎng)殖效益具有直接影響[1-2]。豬場飼養(yǎng)環(huán)境下,哺乳母豬姿態(tài)轉換所導致的踩壓仔豬,是引起仔豬死亡的主要原因之一。不同姿態(tài)轉換對仔豬的威脅不相同[3-4]。研究哺乳母豬姿態(tài)轉換行為的自動識別,一方面當發(fā)生姿態(tài)轉換時可做出預警,提高仔豬的存活率;另一方面可統(tǒng)計母豬姿態(tài)轉換的頻率、類型和持續(xù)時間,挑選母性良好的母豬作為育種豬,從遺傳育種角度降低斷奶前仔豬的死亡率[5]。

      目前,針對豬的姿態(tài)和姿態(tài)轉換識別已有相關的研究成果。如基于傳感器的母豬立姿、臥姿和爬跨姿態(tài)識別[6]和姿態(tài)轉換檢測[7]。但豬佩戴的傳感器易脫落、發(fā)生故障,且識別精度不高[7],而非接觸式的計算機視覺技術開始被用于識別母豬姿態(tài)和姿態(tài)轉換。如利用背景減法和支持向量機(Support Vector Machine,SVM)自動識別豬只姿態(tài)[8]、在深度圖像中獲得母豬身體各區(qū)域的深度來確定母豬姿態(tài)[9]、利用Faster R-CNN識別姿態(tài)[10],以及先利用Faster R-CNN識別姿態(tài)再利用隱馬爾科夫模型(Hidden Markov Model,HMM)識別母豬姿態(tài)轉換[11]。但由于母豬在姿態(tài)轉換過程中,身體高度變化幅度不盡相同,HMM未充分利用母豬形狀特征,導致高危動作漏檢和誤檢,且姿態(tài)轉換時間定位不夠精確[11]。

      卷積神經網絡(Convolutional Neural Networks,CNN)提供了一種端到端的學習模型。近幾年,國內外學者開始研究長段視頻的動作時空定位和分類,主流的方法包括:1)基于雙流網絡結構,如I3D+TCN[12]、Mask R-CNN+TCNN[13]和MOC-D[14]。但該類方法分別提取光流特征和RGB圖像特征,限制了時間特征和空間特征的交互,且需要提取光流特征,速度慢,計算量大,難以應用到實際場景中[15]。2)基于3D卷積網絡結構,如Segment-Tube[16]、非對稱3D-CNN[17]和3D CONVNet[18],這些研究表明3D卷積可在提取空間信息的基礎上提取時序信息[16,19]。然而,3D卷積雖能有效提取目標行為的時空特征,但相比于2D卷積,其計算成本高,速度慢,目標的空間定位不夠準確[15]??梢?,上述兩類方法動作時空定位精度尚待提高。此外,基于CNN模型識別動作需要標注大量訓練數據集。

      針對上述問題,本文受單階段時空動作檢測模型YOWO[15]啟發(fā),融合2D-3D卷積特征,提出了2D-3D卷積網絡(2D+3D-CNet,2D+3D Convolutional Network)的母豬姿態(tài)轉換識別方法。用改進的3D和2D卷積網絡提取并融合母豬姿態(tài)轉換的時空特征和空間特征,以期克服3D網絡計算成本高、目標空間定位不夠準確的問題;在YOWO基礎上增加姿態(tài)分類分支用于識別姿態(tài)類別,以期通過結合兩個分支的輸出結果,識別具體姿態(tài)轉換類別,來降低人工標注工作量。通過測試集驗證本文方法實現全天候的母豬姿態(tài)轉換高精度識別的可行性。

      1 試驗數據

      1.1 試驗數據采集

      本次試驗數據均采自廣東省佛山市某生豬養(yǎng)殖場,共采集5個批次,采集時間分別為2016年5月30日、2016年11月29日、2017年4月19日、2017年4月25日和2018年9月5日。按照數據先后采集時間,將5個批次的數據依次標記為D1、D2、D3、D4和D5,具體數據細節(jié)如表1所示。其中,D3為連續(xù)29 h視頻片段,D4涵蓋較多欄母豬數據。養(yǎng)殖場有若干間豬舍,每間豬舍約有40間豬欄,每間豬欄大小約為長3.8 m×寬2.0 m。每間豬欄中有1只母豬和8~12只仔豬,母豬品種為梅花豬,其體表帶有黑白花紋,仔豬大部分為純黑色,個別帶有花色。利用架設在豬欄正上方的Kinect 2.0攝像機,俯視向下以5幀/s的速度拍攝RGB-D視頻圖像,圖像分辨率為512×424像素。本次試驗數據為深度視頻圖像,為使拍攝視野盡可能覆蓋整個豬欄,將攝像機架設在豬欄中間區(qū)域,高度為2.1~2.3 m。

      表1 試驗數據集 Table 1 Datasets of experiment

      1.2 母豬姿態(tài)及姿態(tài)轉換定義

      將母豬身體姿態(tài)分為4類,分別為站立、坐立、趴臥和側臥[20],母豬姿態(tài)轉換分為8類[1,21]。不同的姿態(tài)轉換對仔豬威脅程度不盡相同,其中,母豬從站立轉換至臥姿,與側臥和趴臥之間的轉換對仔豬的威脅程度最大[21]。參考文獻[1,20-21],姿態(tài)及姿態(tài)轉換具體定義如表2。

      表2 哺乳母豬姿態(tài)及姿態(tài)轉換定義 Table 2 Definition of postures and posture changes of lactating sow

      1.3 數據集準備

      從D1、D4和D5中挑選姿態(tài)轉換片段139個(5 493幀),非轉換片段170個(4 940幀)作為動作識別訓練集。其中,姿態(tài)轉換ST、SI-L、L-ST、L-SI、ST-SI、SI-ST、VL和LL-VL片段的個數分別為30、18、16、25、8、16、13和13,并且每個姿態(tài)轉換片段前后包括母豬處于未轉換狀態(tài)10~100幀。將動作識別訓練集進行水平、垂直鏡像數據擴增,最終姿態(tài)轉換片段417個(16 479幀),非轉換片段510段(14 820幀);從動作識別訓練集的非轉換片段中隨機挑選側臥2 035幀、站立2 009幀、坐立1 977幀和趴臥2 021幀作為姿態(tài)分類訓練集。

      從D2和D3中挑選姿態(tài)轉換片段156個(6 624幀),非轉換片段160個(5 740幀)作為動作識別測試集,其中,姿態(tài)轉換片段前后包括母豬處于未轉換狀態(tài)10~100幀;從動作識別測試集的非轉換片段中隨機挑選側臥1 004幀、站立1 021幀、坐立1 005幀和趴臥1 032幀作為姿態(tài)分類測試集。從D2和D3中剔除鏡頭抖動的視頻段,其余片段作為整體方法測試集。

      對動作識別數據集進行人工標注,標注每一幀母豬空間坐標框信息、母豬是否處于姿態(tài)轉換,以及非轉換時的姿態(tài)類別。由于整體方法測試集幀級標注數據量過大,為節(jié)省人工,只標注視頻片段中轉換開始和結束時間,以及前后母豬所處姿態(tài)。

      2 姿態(tài)轉換識別算法

      2.1 2D+3D-CNet模型

      本文提出了融合2D-3D卷積特征的卷積網絡——2D+3D-CNet,將網絡輸出解耦成兩個分支:動作識別分支和姿態(tài)分類分支。針對2D網絡難以提取時序信息,3D網絡計算成本高、目標空間定位不夠準確等問題,引入注意力機制SE模塊和3D空洞卷積來提升3D卷積網絡姿態(tài)轉換的時空特征提取能力,用2D卷積提取母豬的空間特征,并將時空特征和空間特征進行特征融合,然后經過動作識別分支輸出母豬坐標框和轉換概率;為克服基于CNN的動作識別模型訓練需要人工標注大量數據集的困難,增加姿態(tài)分類分支,該分支用于識別轉換前后的姿態(tài)類別。通過結合兩個分支的輸出結果,識別具體姿態(tài)轉換類別。動作識別分支僅關注轉換的時空定位,而無需關注具體的轉換類別,即將原本的8類姿態(tài)轉換識別問題轉化為識別轉換與非轉換2類問題,無需對每個具體姿態(tài)轉換類別進行數據標注。假設一類姿態(tài)轉換需要40段視頻,8類姿態(tài)轉換則至少需要320段視頻,人工標注時,需要標注每一幀母豬的坐標框、姿態(tài)以及每次姿態(tài)轉換的起始時間和類別,工作量很大。因此,2D+3D-CNet網絡避免了直接識別具體8類姿態(tài)轉換需要大量數據集的困擾。

      2D+3D-CNet的網絡結構如圖1所示,主要包括時空特征提取模塊、空間特征提取模塊、特征融合模塊,以及動作識別分支和姿態(tài)分類分支。時空特征提取模塊作用是同時提取視頻圖像空間特征和高度、位置等變化運動特征,空間特征提取模塊作用是提取當前圖像外觀、位置等空間特征,經過特征融合模塊進行特征融合;動作識別分支輸出母豬坐標框信息和轉換概率。將母豬坐標框信息映射回空間特征基礎網絡特征圖(圖1虛線箭頭所示),截取母豬區(qū)域特征圖,輸入姿態(tài)分類分支,獲得母豬4類姿態(tài)概率。

      1)時空特征提取模塊。本文用3D ResNeXt-50提取連續(xù)16幀視頻圖像母豬運動時空特征。為擴大時域感受野,參考文獻[22],引入3D空洞卷積,將3D ResNeXt-50第一層殘差卷積替換成3D空洞卷積進行視頻圖像時空特征提取。同時,為了提升模型對通道特征的敏感性,將二維SE[23]模塊擴展至三維,插入3D ResNeXt-50殘差單元中。圖2為SE模塊插入到ResNeXt的殘差結構。SE模塊利用全局平均池化對所有特征進行壓縮,輸入全連接層進行降維,經過ReLU激活函數,而后輸入全連接層恢復原始維度,最后經過Sigmoid激活函數。經過SE模塊網絡將學到不同通道特征的權重系數,使網絡更加關注信息量大的通道特征,抑制不重要的通道特征。

      2)空間特征提取模塊。為獲得母豬空間精確位置信息,用性能較好的Darknet-53[24]作為空間特征提取模塊基礎網絡,進行當前圖像的母豬空間特征提取。

      3)特征融合模塊與動作識別分支。將時空特征與空間特征進行通道拼接,經過兩次卷積后輸入特征融合模塊進行特征融合,該模塊基于Gram矩陣[25]映射通道間的依賴關系,根據不同通道特征關系賦予不同權值,有效融合來自不同源的特征,提高識別結果。最后經過動作識別分支輸出母豬坐標信息和轉換概率。

      4)姿態(tài)分類分支。將動作識別分支輸出的母豬坐標框信息映射回Darknet-53基礎網絡特征圖,截取母豬區(qū)域特征圖。試驗表明,Darknet-53第13個卷積層的特征圖截取后的母豬區(qū)域特征圖分類精度最高。而后將母豬區(qū)域特征圖統(tǒng)一調整大小至128×14×14后,輸入姿態(tài)分類分支,進行母豬4類姿態(tài)分類。該分支包括5個卷積層和1個平均池化層。

      2.2 模型訓練參數

      本文試驗平臺為Ubuntu 16.04,在此基礎上搭建PyTorch深度學習框架,使用NVIDIA RTX 2080 Ti GPU訓練2D+3D-CNet模型。對比試驗在相同試驗平臺下實現。將動作識別訓練集進行中值濾波和直方圖均衡化處理后,利用隨機縮放和隨機空間裁剪數據增強技術,以增加模型訓練的精度和穩(wěn)定性。并利用多尺度訓練、動量和權重衰減策略優(yōu)化損失函數,利用隨機梯度下降法和反向傳播算法進行模型參數微調。Batch size設置為4,初始學習率設置為0.000 1,經過3×104、5×104、7×104和9×104次迭代后,學習率降低0.5倍,總共訓練迭代470 000次。

      2.3 模型輸出結果

      為了盡可能對母豬姿態(tài)轉換進行時間上的精確定位,采用滑動窗口長度為16幀、步長為1幀的形式將視頻幀輸入網絡,獲得幀級動作識別結果。為進一步優(yōu)化動作識別分支輸出結果,考慮前后兩幀檢測框的面積交并比,經過維特比算法[26]選擇最優(yōu)的框作為輸出,形成母豬空間定位管道,并輸出轉換概率序列。

      姿態(tài)分類分支輸出當前圖像母豬4類姿態(tài)概率,將每幀結果拼接起來再利用中值濾波進行過濾,最后得到4類姿態(tài)概率序列。

      2.4 時間定位優(yōu)化

      如何精確定位動作發(fā)生的開始和結束時間,一直是動作識別任務需要解決的問題,動作發(fā)生邊界的不確定往往也是造成動作識別精度偏低的一個重要原因[27]。直接利用動作識別分支輸出轉換概率進行動作時間定位,會出現定位不精確的問題。母豬處于姿態(tài)轉換過程中,其姿態(tài)為非4類標準姿態(tài),姿態(tài)分類分支輸出姿態(tài)分類概率呈現最大概率姿態(tài)類別變化、前后幀對應姿態(tài)類別概率變化的情況(如圖3)?;谠撎攸c,借鑒文獻[28]的思路,利用姿態(tài)轉換過程中母豬姿態(tài)變化對姿態(tài)轉換時間定位進行優(yōu)化。為表示姿態(tài)轉換發(fā)生的可能性,設計動作分數Ascore為

      式中PPC表示轉換概率,α表示權重系數,設置為0.5,w為滑動窗口長度,設為4幀,步長為1幀,iy表示第i幀類別j的姿態(tài)概率。Ascore同時考慮母豬時空運動信息和幀間姿態(tài)變化信息,結合二者對姿態(tài)轉換進行時間定位優(yōu)化。

      母豬姿態(tài)轉換時間定位如圖3所示。橫坐標表示時間,左縱坐標表示概率,右縱坐標表示動作分數。4條虛線分別表示4類姿態(tài)概率。結合轉換概率和4類姿態(tài)概率,計算動作分數,設置閾值T=0.2,對Ascore進行閾值切分得到動作起始時間t'start和t'end(如圖3),最后確定姿態(tài)轉換動作發(fā)生時間。

      在獲得母豬姿態(tài)轉換時間t'start與t'end后,結合t'start前1 s母豬所處姿態(tài)與t'end后1 s母豬所處姿態(tài),便可確定母豬具體姿態(tài)轉換類別。

      2.5 評價指標

      本文使用準確率(Accuracy)和混淆矩陣[29]分別評價2D+3D-CNet模型動作識別分支和姿態(tài)分類分支。當識別動作片段與人工標記片段時間交并比大于等于0.5(IoUt≥0.5),且動作類別一致時認為識別正確;當算法檢測框與人工標記框面積交并比大于等于0.7(IoU≥0.7),且姿態(tài)類別一致時認為姿態(tài)分類正確。準確率定義為

      其中,T PPC表示正確識別姿態(tài)轉換片段數,表示正確識別非姿態(tài)轉換動作片段數,表示總的片段數。

      使用精確率(Precision)和召回率(Recall)[30]評價整體方法姿態(tài)轉換識別結果。當識別動作片段與人工標記片段時間交并比大于等于0.5(IoUt≥0.5),且姿態(tài)轉換類別一致時認為識別正確。

      3 結果與分析

      3.1 2D+3D-CNet在測試集上的性能表現

      表3為2D+3D-CNet動作識別分支姿態(tài)轉換識別性能。IoUt≥0.5時,優(yōu)化后的動作時間定位姿態(tài)轉換識別準確率為96.52%,比未優(yōu)化的識別結果高出3.17個百分點。表4為2D+3D-CNet模型姿態(tài)分類混淆矩陣,姿態(tài)分類精度為98.78%,召回率為97.63%。

      表3 2D+3D-CNet動作識別分支識別性能 Table 3 Recognition performance of action recognition branch of 2D+3D-CNet

      表4 姿態(tài)分類混淆矩陣 Table 4 Confusion matrix of postures classification

      表5為整體算法識別母豬姿態(tài)轉換結果。整體方法測試集中母豬共發(fā)生姿態(tài)轉換156次,整體算法識別出姿態(tài)轉換片段146個,正確識別姿態(tài)轉換片段143個,精度為97.95%,召回率為91.67%。

      表5 姿態(tài)轉換識別結果 Table 5 Recognition result of posture changes

      其中,SI-ST識別召回率較低,原因是:母豬在從坐立轉換至站立時,由于動作簡短,與輸入視頻圖像相比,可提供的信息較少,3D卷積網絡提取的視頻圖像特征被無關信息所主導[31],造成漏檢;另外,動作持續(xù)時間較短被中值濾波濾掉造成漏檢。VL識別結果較低是由于母豬在轉換過程中,行動較為緩慢,時序動作信息不明顯,造成漏檢。母豬姿態(tài)分類錯誤也將造成誤檢。

      3.2 不同方法比較

      本文將2D+3D-CNet與YOWO、FRCNN-HMM和MOC-D做了姿態(tài)轉換識別對比試驗。其中,與YOWO的對比,是為了驗證本文方法改進的有效性;FRCNN-HMM是較早的基于計算機視覺的母豬姿態(tài)轉換算法[11];MOC-D是2020年在公開數據集上時空動作檢測性能較為優(yōu)越模型[14]。為了公平地比較,試驗中給YOWO和MOC-D增加了與2D+3D-CNet結構相同的姿態(tài)分類分支,即原來的YOWO和MOC-D僅用于識別姿態(tài)轉換和非姿態(tài)轉換,然后結合姿態(tài)分類分支的輸出實現姿態(tài)轉換具體類別的識別。表6為不同方法的結果對比。

      表6 不同方法結果比較 Table 6 Comparison of results of different methods

      2D+3D-CNet基礎網絡中加入了注意力機制SE模塊和3D空洞卷積,分別提高網絡提取特征能力和擴大網絡時域感受野,精度和召回率比YOWO分別高出5.06和3.65個百分點,但模型大小和速度差別不大。與FRCNN-HMM方法相比,雖然2D+3D-CNet模型較大,但處理步驟少,且精度、召回率和測試速度均有一定程度的提升。FRCNN-HMM中模型大小主要來自Faster R-CNN,但母豬姿態(tài)檢測耗時較多,降低了速度。MOC-D精度和召回率比2D+3D-CNet分別低了5.53和5.90個百分點,雖然MOC-D基于無錨點的2D卷積動作識別方法,模型小,速度快,但利用2D卷積操作來提取姿態(tài)轉換的時空特征,難以捕捉母豬運動過程中身體高度、動作幅度等變化的運動特征,其識別姿態(tài)轉換存在一定的局限性。

      為比較動作時間定位精度,不同IoUt閾值下,本文比較了2D+3D-CNet、YOWO、FRCNN-HMM和MOC-D姿態(tài)轉換識別的精度和召回率,如圖4所示。當 IoUt閾值增大時,2D+3D-CNet、YOWO、FRCNN-HMM和MOC-D精度曲線與召回率曲線均會下降,但本文2D+3D-CNet在不同IoUt閾值下精度和召回率均高于其他的3個方法。

      為進一步說明動作時間定位結果,本文可視化了2D+3D-CNet、YOWO、FRCNN-HMM和MOC-D在兩段時長為15 min視頻段上的測試結果,如圖5所示。從圖中可以看出,YOWO一般滯后于姿態(tài)轉換發(fā)生時間;由于對姿態(tài)轉換時空特征提取有限,FRCNN-HMM和MOC-D出現動作時間定位不準確或者姿態(tài)轉換漏檢的情況。另外,YOWO和MOC-D的母豬空間定位不準確會導致姿態(tài)分類錯誤。

      2D+3D-CNet動作時間定位精度高于YOWO、FRCNN-HMM和MOC-D的原因在于,本文動作時間定位不僅考慮母豬時空運動信息,也考慮母豬姿態(tài)變化信息。當前圖像測試結果考慮母豬時空運動信息;結合滑動窗口內母豬4類姿態(tài)概率變化情況,計算動作分數,用于姿態(tài)轉換時間定位。較YOWO、FRCNN-HMM和MOC-D,對姿態(tài)轉換的開始和結束更加敏感,較為全面覆蓋姿態(tài)轉換發(fā)生時間區(qū)域,時間定位更加精確。

      3.3 連續(xù)29 h視頻上的識別結果

      圖6為2D+3D-CNet在連續(xù)29 h視頻上的自動識別結果圖,共檢測出86次姿態(tài)轉換。從圖6中可以看出,母豬在白天姿態(tài)轉換頻率高于夜間姿態(tài)轉換頻率,并且不同姿態(tài)轉換發(fā)生次數相差較大。

      4 結 論

      本文提出了一種融合2D-3D卷積特征的哺乳母豬姿態(tài)轉換識別算法,結論如下:

      1)引入注意力機制SE模塊和3D空洞卷積,利用2D卷積和3D卷積分別提取母豬定位空間特征和姿態(tài)轉換時空特征,并進行特征融合,提高母豬空間定位和姿態(tài)轉換識別精度。增加姿態(tài)分類分支,通過先檢測有無發(fā)生姿態(tài)轉換,再結合姿態(tài)轉換前后姿態(tài)類別來識別姿態(tài)轉換具體類別,緩解了人工標注大量數據集的問題。

      2)2D+3D-CNet模型姿態(tài)轉換識別準確率為96.52%,姿態(tài)分類精度為98.78%,召回率為97.63%。整體方法姿態(tài)轉換識別精度97.95%,召回率為91.67%。該方法可適用于全天候母豬姿態(tài)轉換識別。

      3)與YOWO、FRCNN-HMM和MOC-D方法相比,2D+3D-CNet能夠較好地捕捉母豬姿態(tài)轉換的運動特征,其識別精度和召回率較高,但速度稍慢且模型較大,今后的模型設計中,可考慮輕量級網絡或更高效的卷積網絡進行研究。

      猜你喜歡
      分支姿態(tài)時空
      跨越時空的相遇
      鏡中的時空穿梭
      攀爬的姿態(tài)
      學生天地(2020年3期)2020-08-25 09:04:16
      巧分支與枝
      學生天地(2019年28期)2019-08-25 08:50:54
      玩一次時空大“穿越”
      全新一代宋的新姿態(tài)
      汽車觀察(2018年9期)2018-10-23 05:46:40
      跑與走的姿態(tài)
      中國自行車(2018年8期)2018-09-26 06:53:44
      一類擬齊次多項式中心的極限環(huán)分支
      時空之門
      生成分支q-矩陣的零流出性
      仁怀市| 武冈市| 岫岩| 沅江市| 犍为县| 天长市| 浙江省| 句容市| 乐业县| 江安县| 青龙| 青铜峡市| 周口市| 太保市| 阿鲁科尔沁旗| 伊宁县| 黔西县| 博野县| 株洲市| 图木舒克市| 惠水县| 马关县| 肥东县| 峨眉山市| 中牟县| 贵南县| 许昌县| 土默特右旗| 周口市| 南充市| 正宁县| 满洲里市| 镇江市| 淮南市| 同德县| 沂源县| 聂荣县| 衡山县| 新竹市| 瓦房店市| 垦利县|