方 鵬 郝宏運(yùn) 李騰飛 王紅英
(1.中國(guó)農(nóng)業(yè)大學(xué)工學(xué)院, 北京 100083; 2.北京城市學(xué)院北京3D打印研究院, 北京 100083)
人類對(duì)畜牧業(yè)產(chǎn)品的消費(fèi)需求逐年上升,同時(shí),畜牧業(yè)所需的生產(chǎn)資料(土地、水資源、勞動(dòng)力等)卻不斷萎縮[1],生產(chǎn)力與社會(huì)需求的矛盾日益凸顯。在這種情況下,精準(zhǔn)畜牧業(yè)[2-3]理念以其可持續(xù)、高效、低耗的特點(diǎn)應(yīng)運(yùn)而生。獲取動(dòng)物的個(gè)體行為、健康、福利信息對(duì)精準(zhǔn)畜牧業(yè)管理決策十分重要[4-5]。機(jī)器視覺(jué)技術(shù)廣泛應(yīng)用于動(dòng)物監(jiān)測(cè)中,而基于視覺(jué)的監(jiān)測(cè)技術(shù)的前提是實(shí)現(xiàn)對(duì)動(dòng)物圖像的提取和分割,只有對(duì)動(dòng)物輪廓信息進(jìn)行精準(zhǔn)分割,才能對(duì)動(dòng)物個(gè)體進(jìn)行生長(zhǎng)評(píng)估[6]、體況評(píng)價(jià)和行為分析[7-8](如發(fā)情行為、產(chǎn)前行為)等方面的研究。
機(jī)器視覺(jué)技術(shù)具有采集速度快、識(shí)別精度高的特點(diǎn),同時(shí)更具有無(wú)接觸、對(duì)動(dòng)物應(yīng)激小的優(yōu)勢(shì),在雞只體況監(jiān)測(cè)[9-12]、雞只行為識(shí)別[13-14]和雞只福利狀態(tài)監(jiān)測(cè)[15-16]等方面都有廣泛的應(yīng)用。相關(guān)研究在很大程度上依賴于圖像的分割,顯然,圖像分割的準(zhǔn)確性和精度對(duì)基于機(jī)器視覺(jué)的雞只監(jiān)測(cè)技術(shù)至關(guān)重要。然而,傳統(tǒng)的基于顏色空間[17]、幀差或者光流[18]的分割方法難以在復(fù)雜養(yǎng)殖環(huán)境中實(shí)現(xiàn)高精度、高魯棒性的圖像分割。
近年來(lái),具有很強(qiáng)特征學(xué)習(xí)能力的深度卷積神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺(jué)領(lǐng)域得到了廣泛應(yīng)用。通過(guò)大量經(jīng)過(guò)人工標(biāo)注的圖像數(shù)據(jù)的訓(xùn)練,神經(jīng)網(wǎng)絡(luò)可以充分提取攜帶豐富空間和語(yǔ)義信息的圖像特征,并將其用于圖像分割,其分割效果良好[19]。作為一種像素級(jí)識(shí)別分割目標(biāo)輪廓的目標(biāo)檢測(cè)算法,實(shí)例分割最早在2014年提出,并迅速得到發(fā)展,先后出現(xiàn)了DeepMask[19]、SharpMask[20]等實(shí)例分割算法,但均存在精度不高、模型泛化性不夠的缺點(diǎn)。文獻(xiàn)[21]提出的Mask R-CNN框架在模型泛化能力、分類精度和分割精度上均有優(yōu)異的表現(xiàn)。研究表明,通過(guò)深度卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)養(yǎng)殖環(huán)境下雞只輪廓的提取和分割是可行的。
為了實(shí)現(xiàn)疊層籠養(yǎng)環(huán)境下雞只圖像的高精度分割和輪廓提取,本文提出一種基于Mask R-CNN的雞只圖像分割和輪廓提取方法,先對(duì)原始圖像進(jìn)行增強(qiáng),以提高圖像品質(zhì),隨后進(jìn)行雞只圖像的分割和輪廓的提取。
以疊層籠養(yǎng)環(huán)境下的白羽肉雞為研究對(duì)象,進(jìn)行識(shí)別分割試驗(yàn)。于2019年7月9—11日在山東省煙臺(tái)市蓬萊區(qū)民和牧業(yè)股份有限公司肉雞養(yǎng)殖場(chǎng)采集了27~29日齡的肉雞圖像。試驗(yàn)雞舍為一棟全封閉的8層疊層籠養(yǎng)肉雞舍,舍內(nèi)平均光照強(qiáng)度為8 lx,共飼養(yǎng)羅斯308肉雞114 240只。
圖像采集所用設(shè)備主要包括:Sony XCG-240C型彩色數(shù)字相機(jī),分辨率為1 920像素×1 200像素,匹配焦距6 mm的Ricoh FL-CC0614A-2M型定焦鏡頭;立式三腳架,最大拍攝高度可達(dá)2.2 m。拍攝時(shí)相機(jī)參數(shù)設(shè)定為:采集幀率3 f/s,曝光時(shí)間80 ms。
將工業(yè)相機(jī)安裝在立式三角架上,固定相機(jī)的工作距離、拍攝高度和拍攝角度,在籠門(mén)前方位置對(duì)籠內(nèi)雞群進(jìn)行拍攝。將采集的視頻按幀提取成靜態(tài)圖像,人工挑選出800幅肉雞圖像建立樣本集。由于舍內(nèi)照度較低,采集的圖像亮度不夠,為便于后續(xù)的圖像標(biāo)注和圖像特征提取,先對(duì)采集的圖像進(jìn)行Retinex增強(qiáng)。同時(shí),為減少計(jì)算量,降低模型訓(xùn)練時(shí)間,將原圖像調(diào)整為448像素×256像素。隨后,在Labelme圖像標(biāo)注工具中用多邊形標(biāo)注出雞只的外輪廓,共標(biāo)注目標(biāo)11 034個(gè),制作成COCO(Common objects in context)格式的數(shù)據(jù)集。在樣本集中隨機(jī)選取70%(560幅)圖像作為訓(xùn)練集,用于模型的訓(xùn)練,選取20%(160幅)圖像作為驗(yàn)證集,用于訓(xùn)練參數(shù)的調(diào)優(yōu),選取10%(80幅)圖像作為測(cè)試集,用于評(píng)估最終模型的識(shí)別能力。采集的原圖及Retinex增強(qiáng)后的圖像如圖1所示。
Mask R-CNN作為一種實(shí)例分割算法,集成了目標(biāo)檢測(cè)和語(yǔ)義分割兩大功能,可以同時(shí)完成目標(biāo)分割、分類和檢測(cè)任務(wù),且在這3種任務(wù)上均有較優(yōu)的表現(xiàn),是一種綜合性能很優(yōu)異的實(shí)例分割方法。因此,本文選擇在Mask R-CNN模型框架下進(jìn)行雞只圖像實(shí)例分割模型的研究,其網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
整體上,Mask R-CNN網(wǎng)絡(luò)分為主干網(wǎng)絡(luò)、區(qū)域生成網(wǎng)絡(luò)(Region proposal networks, RPN)和頭部網(wǎng)絡(luò)。主干網(wǎng)絡(luò)主要進(jìn)行圖像特征的提取,區(qū)域生成網(wǎng)絡(luò)主要通過(guò)提取的圖像特征生成感興趣區(qū)域(ROI),而頭部網(wǎng)絡(luò)則在此基礎(chǔ)上完成之后的目標(biāo)分類、邊框回歸及掩膜預(yù)測(cè)生成工作。
針對(duì)本文待分割圖像的特點(diǎn),在現(xiàn)有Mask R-CNN網(wǎng)絡(luò)基礎(chǔ)上進(jìn)行了調(diào)整和優(yōu)化,構(gòu)建了一種雞只圖像分割和輪廓提取網(wǎng)絡(luò)。主要對(duì)主干網(wǎng)絡(luò)做出3點(diǎn)優(yōu)化:①調(diào)整卷積層結(jié)構(gòu)。②構(gòu)建基于注意力機(jī)制的卷積層。③引入可變形卷積。
目前,通用的Mask R-CNN網(wǎng)絡(luò)以深度殘差網(wǎng)絡(luò)[22](ResNet)和特征金字塔網(wǎng)絡(luò)(Feature pyramid networks, FPN)相結(jié)合的方式作為主干網(wǎng)絡(luò),負(fù)責(zé)輸入圖像的特征提取。ResNet網(wǎng)絡(luò)作為一種深層網(wǎng)絡(luò),可以有效解決常規(guī)網(wǎng)絡(luò)堆疊到一定深度時(shí)出現(xiàn)的梯度彌散問(wèn)題,通過(guò)深層次的網(wǎng)絡(luò)達(dá)到較好的特征提取效果,其基本結(jié)構(gòu)為殘差模塊(Residual block),通過(guò)模塊的堆疊,使網(wǎng)絡(luò)達(dá)到較大深度。
現(xiàn)有研究表明,淺層網(wǎng)絡(luò)的感受野較小,能夠捕獲更多的圖像細(xì)節(jié),提升檢測(cè)的精度;而深層網(wǎng)絡(luò)輸出的特征更加抽象,更加關(guān)注圖像的語(yǔ)義信息,有利于目標(biāo)的檢出[23]。本文研究對(duì)象為籠養(yǎng)狀態(tài)下的雞只,目標(biāo)單一,類別少,目標(biāo)檢出相對(duì)容易。因此對(duì)現(xiàn)有主干網(wǎng)絡(luò)卷積層數(shù)量和殘差學(xué)習(xí)模塊堆疊方式進(jìn)行調(diào)整,適當(dāng)削減卷積層的數(shù)量,增加淺層網(wǎng)絡(luò)深度,減小深層網(wǎng)絡(luò)深度,使網(wǎng)絡(luò)更加關(guān)注圖像的細(xì)節(jié)信息。網(wǎng)絡(luò)由原來(lái)的101層卷積層減少為41層,降低網(wǎng)絡(luò)計(jì)算量;同時(shí)網(wǎng)絡(luò)第3階段卷積層數(shù)量從12層增加為15層,第4階段卷積層數(shù)量從69層減少為9層,第5階段卷積層數(shù)量從9層減少為6層,降低圖像特征損耗。調(diào)整后的ResNet網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。圖中只包含卷積層和池化層,每個(gè)卷積層后還有批量正則化層和激活層未畫(huà)出;第1~5階段分別為ResNet網(wǎng)絡(luò)的5個(gè)階段;2x、4x為模塊重復(fù)次數(shù);Conv(64, 256,k=(1,1),s=1,p=0)中,k為卷積核尺寸,s為滑動(dòng)步長(zhǎng),p為填充像素?cái)?shù),256為卷積核通道數(shù),64為上一層卷積層輸出的通道數(shù),其余卷積層類似。主干網(wǎng)絡(luò)由殘差學(xué)習(xí)模塊堆疊而成,殘差學(xué)習(xí)模塊首端和末端為1×1卷積核,中間為3×3卷積核。在網(wǎng)絡(luò)每個(gè)階段的第1個(gè)殘差模塊,除了3個(gè)卷積層的串聯(lián),輸入和輸出之間還通過(guò)一個(gè)卷積層旁路相連,以增加輸入特征圖的通道數(shù),便于和輸出特征圖融合,而后面接的殘差學(xué)習(xí)模塊輸入和輸出特征圖的通道數(shù)一致,故可以不通過(guò)卷積層升高維度而直接進(jìn)行加操作。這種結(jié)構(gòu)可以有效降低特征損耗,提升模型訓(xùn)練效果。
FPN[23]網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。輸入圖像自下而上分別經(jīng)過(guò)ResNet網(wǎng)絡(luò)5個(gè)階段的處理,輸出5種不同尺度的特征圖(C1~C5)。輸出的特征圖分別通過(guò)一個(gè)1×1的卷積操作后與自上而下的上采樣操作生成的特征圖進(jìn)行融合,生成特征圖M5、M4、M3和M2,隨后經(jīng)過(guò)3×3的卷積操作消除上采樣的混疊效應(yīng),生成特征圖P5、P4、P3和P2,P5經(jīng)過(guò)一次下采樣操作生成P6,特征圖P2、P3、P4、P5和P6分別獨(dú)立地輸入到RPN網(wǎng)絡(luò),生成若干個(gè)感興趣區(qū)域(ROI)。FPN網(wǎng)絡(luò)將ResNet網(wǎng)絡(luò)每一階段輸出的特征圖融合,既利用了高層特征圖的強(qiáng)語(yǔ)義信息,又利用了低層特征圖的強(qiáng)空間位置信息,大大提升了主干網(wǎng)絡(luò)的特征提取能力。
注意力機(jī)制最早由MNIH等[24]提出并引入圖像分類領(lǐng)域,隨后在機(jī)器學(xué)習(xí)領(lǐng)域迅速發(fā)展,眾多應(yīng)用于不同領(lǐng)域的注意力模型相繼提出。注意力機(jī)制模仿人類視覺(jué)系統(tǒng)的處理機(jī)制,人類在進(jìn)行視覺(jué)信息處理時(shí)會(huì)自動(dòng)過(guò)濾不重要的信息,而把更多注意力資源用于需要重點(diǎn)關(guān)注的目標(biāo)區(qū)域,大大提高了視覺(jué)信息處理效率與準(zhǔn)確性。而當(dāng)注意力機(jī)制引入基于神經(jīng)網(wǎng)絡(luò)的圖像處理領(lǐng)域時(shí),其本質(zhì)是一種資源的重新分配機(jī)制,即對(duì)不同重要程度的信息賦予不同的權(quán)重,大大提高神經(jīng)網(wǎng)絡(luò)效率,用很小的計(jì)算量換取網(wǎng)絡(luò)性能的顯著提升。
為提升雞只輪廓實(shí)例分割模型網(wǎng)絡(luò)性能,本文在ResNet網(wǎng)絡(luò)中引入注意力機(jī)制。在原有網(wǎng)絡(luò)結(jié)構(gòu)中添加1個(gè)通道注意力模塊和1個(gè)空間注意力模塊[25]。
通道注意力模塊結(jié)構(gòu)如圖5a所示,輸入的特征圖經(jīng)過(guò)1個(gè)全局最大池化層和平均池化層后,分別得到1個(gè)通道描述,隨后這2個(gè)通道描述送入1個(gè)2層的神經(jīng)網(wǎng)絡(luò),得到2個(gè)特征向量,2個(gè)特征向量通過(guò)逐元素累加的方式合并成1個(gè),通過(guò)1個(gè)激活函數(shù)輸出通道權(quán)重系數(shù),權(quán)重系數(shù)與輸入特征相乘即得到新的特征圖??臻g注意力模塊結(jié)構(gòu)如圖5b所示。
本文在ResNet網(wǎng)絡(luò)的每一個(gè)殘差模塊中串聯(lián)插入1個(gè)通道注意力模塊和1個(gè)空間注意力模塊。卷積運(yùn)算通過(guò)將跨通道和空間信息融合在一起來(lái)提取信息特征,既考慮了不同通道像素的重要性,又考慮了同一通道不同位置像素的重要性。其在ResNet網(wǎng)絡(luò)殘差學(xué)習(xí)模塊的位置如圖6所示。每個(gè)殘差學(xué)習(xí)模塊中,在第2個(gè)1×1卷積層之后串聯(lián)接入1個(gè)通道注意力模塊和1個(gè)空間注意力模塊。
在圖像檢測(cè)任務(wù)(目標(biāo)檢測(cè)、實(shí)例分割)中,通常需要網(wǎng)絡(luò)對(duì)同一目標(biāo)的不同姿態(tài),如位置的偏移、角度的旋轉(zhuǎn)及尺度的變化都具有相同的識(shí)別能力。然而,受限于卷積操作本身的固定性,卷積神經(jīng)網(wǎng)絡(luò)并不具有尺度不變性和旋轉(zhuǎn)不變性,基本沒(méi)有對(duì)目標(biāo)幾何形變的適應(yīng)能力[26]。實(shí)際中,神經(jīng)網(wǎng)絡(luò)對(duì)目標(biāo)變化的適應(yīng)能力幾乎完全來(lái)自于數(shù)據(jù)本身的多樣性?,F(xiàn)有研究表明,標(biāo)準(zhǔn)卷積中的規(guī)則格點(diǎn)采樣是導(dǎo)致網(wǎng)絡(luò)難以適應(yīng)幾何形變的主要原因,為此DAI等[27]提出了一種可變形卷積網(wǎng)絡(luò),用可變形卷積取代神經(jīng)網(wǎng)絡(luò)中的標(biāo)準(zhǔn)卷積,眾多研究表明,該方法在目標(biāo)檢測(cè)領(lǐng)域表現(xiàn)優(yōu)異[28-30]。
標(biāo)準(zhǔn)的卷積操作具有非常固定的幾何結(jié)構(gòu),很難與目標(biāo)復(fù)雜的外形相匹配。而可變形卷積擁有可變化、不規(guī)則的形狀,感受野靈活多變,可以很好適應(yīng)不同尺寸、外形的目標(biāo)。在標(biāo)準(zhǔn)的二維卷積過(guò)程中,對(duì)于輸出特征圖中的每一個(gè)位置P0,其特征值y(P0)計(jì)算式為
(1)
式中w(Pn)——該采樣位置的卷積核權(quán)重
x(P0+Pn)——采樣位置的輸入特征值
Pn——感受野區(qū)域中的所有采樣位置
R——感受野區(qū)域
教師在開(kāi)展中長(zhǎng)跑運(yùn)動(dòng)時(shí),單一的以訓(xùn)練為主,沒(méi)有合適的方式方法,無(wú)法引導(dǎo)學(xué)生去擺脫抵觸情緒,所以學(xué)生的畏難心理日益嚴(yán)重,對(duì)中長(zhǎng)跑運(yùn)動(dòng)的興趣也直線下降。
而在可變形卷積中
(2)
式中x(P0+Pn+ΔPn)——采樣偏移位置的輸入特征值
ΔPn——采樣點(diǎn)位置的偏移量
可見(jiàn),可變形卷積就是在傳統(tǒng)的卷積操作上加入了一個(gè)采樣點(diǎn)位置的偏移量,使卷積變形為不規(guī)則卷積,從而擁有更大、更靈活的感受野。
為分割出圖像中雞只的輪廓像素,本文在ResNet網(wǎng)絡(luò)中加入可變形卷積層,通過(guò)引入偏移量,增大感受野,同時(shí)使感受野可以適應(yīng)不同尺寸、形狀的雞只輪廓,達(dá)到更好的分割效果。將ResNet網(wǎng)絡(luò)的第3、4、5階段的3×3卷積調(diào)整為可變形卷積,而第2階段保留為標(biāo)準(zhǔn)卷積層,以減小引入可變形卷積帶來(lái)的網(wǎng)絡(luò)參數(shù)量的增加對(duì)網(wǎng)絡(luò)負(fù)荷的影響。
試驗(yàn)在Ubuntu 18.04系統(tǒng)下進(jìn)行,試驗(yàn)所用機(jī)器配置:處理器為Intel(R) Core(TM) i7-9700K,主頻3.6 GHz,內(nèi)存16 GB,顯卡為NVIDIA GeForce RTX 2080(16 GB),使用GPU加速計(jì)算,采用Python作為編程語(yǔ)言,選擇Pytorch框架來(lái)實(shí)現(xiàn)網(wǎng)絡(luò)模型的搭建、訓(xùn)練和調(diào)試。訓(xùn)練集為560幅圖像,驗(yàn)證集為160幅圖像,測(cè)試集為80幅圖像。
使用Torchvision視覺(jué)庫(kù)中的ResNet預(yù)訓(xùn)練模型作為初始輸入權(quán)重,采用隨機(jī)梯度下降法對(duì)雞只輪廓分割網(wǎng)絡(luò)進(jìn)行訓(xùn)練。設(shè)置學(xué)習(xí)率為0.001,采用熱身策略,初始學(xué)習(xí)率為0.000 18,采用線性增加策略,訓(xùn)練5個(gè)epochs后增加到0.001;動(dòng)量為0.9,權(quán)值衰減系數(shù)為0.000 1,訓(xùn)練迭代100個(gè)epochs,每5個(gè)epochs保存一個(gè)權(quán)重,取精度最高的模型為最終模型。
采用不同的主干網(wǎng)絡(luò)進(jìn)行雞只輪廓分割試驗(yàn):①現(xiàn)有的ResNet 101網(wǎng)絡(luò)。②調(diào)整現(xiàn)有網(wǎng)絡(luò)卷積層結(jié)構(gòu)后得到的ResNet 41網(wǎng)絡(luò)。③ResNet 41網(wǎng)絡(luò)中添加注意力機(jī)制(簡(jiǎn)稱為ResNet 41+cbam)。④ResNet 41網(wǎng)絡(luò)中添加注意力機(jī)制并將部分卷積層替換成可變形卷積(簡(jiǎn)稱為ResNet 41+cbam+dcn)。⑤ResNet 50網(wǎng)絡(luò)中添加注意力機(jī)制和可變形卷積層(簡(jiǎn)稱為ResNet 50+cbam+dcn)。
模型對(duì)雞只圖像的分割結(jié)果如圖7所示。由圖7可知,分割模型可較準(zhǔn)確地將雞只輪廓之間的粘連區(qū)域分割開(kāi),可實(shí)現(xiàn)籠養(yǎng)雞只輪廓的提取分割。
以準(zhǔn)確率A(Accuracy)、召回率R(Recall)和精確率P(Precision)、平均檢測(cè)時(shí)間t作為評(píng)價(jià)指標(biāo),衡量分割模型的性能。
不同模型的性能如表1所示。由表1可知,將主干網(wǎng)絡(luò)卷積層數(shù)從101層減小為41層,模型各指標(biāo)未有顯著降低,說(shuō)明原有的101層卷積網(wǎng)絡(luò)對(duì)本文研究的雞只輪廓分割提取任務(wù)有較大冗余,降低其卷積層數(shù)不影響模型性能,但可以大幅降低運(yùn)算量,其單幅圖像檢測(cè)時(shí)間從0.32 s減小為0.18 s,降低了44%。在ResNet 41網(wǎng)絡(luò)的基礎(chǔ)上引入注意力機(jī)制,模型各指標(biāo)性能有較大提升,其精確率和準(zhǔn)確率分別從77.01%、82.34%大幅提升至85.49%、88.35%,召回率略有下降,而檢測(cè)時(shí)間卻沒(méi)有顯著增加,注意力機(jī)制的引入使模型用很小的資源開(kāi)銷換取了較大的性能提升。在引入注意力機(jī)制的基礎(chǔ)上,將部分3×3卷積層調(diào)整為可變形卷積層,模型性能較優(yōu)化前有一定程度的提升,精確率和準(zhǔn)確率分別從85.49%、88.35%提升到88.60%、90.37%,與現(xiàn)有的Mask R-CNN網(wǎng)絡(luò)相比,其精確率和準(zhǔn)確率分別提高了10.37、5.89個(gè)百分點(diǎn)。但同時(shí),可變形卷積的引入增加了模型的參數(shù)量,其檢測(cè)時(shí)間從0.24 s增至0.41 s,對(duì)模型的實(shí)時(shí)性有所影響。在ResNet 50 網(wǎng)絡(luò)中引入注意力機(jī)制并添加可變形卷積層,模型在驗(yàn)證集上的精確率和準(zhǔn)確率分別為87.23%、89.80%,均略低于在ResNet 41網(wǎng)絡(luò)中引入注意力機(jī)制及添加可變形卷積層的模型性能,說(shuō)明本文設(shè)計(jì)的41層網(wǎng)絡(luò)結(jié)構(gòu)有利于提升分割網(wǎng)絡(luò)的性能。
表1 不同網(wǎng)絡(luò)性能對(duì)比Tab.1 Performance comparison of different networks
3.2.2不同模型損失曲線分析
對(duì)上述5個(gè)網(wǎng)絡(luò)訓(xùn)練過(guò)程中的損失函數(shù)變化進(jìn)行分析。損失函數(shù)衡量的是模型訓(xùn)練過(guò)程中預(yù)測(cè)值和真實(shí)值之間的差異變化。在基于Mask R-CNN網(wǎng)絡(luò)的雞只輪廓實(shí)例分割模型的訓(xùn)練中,損失函數(shù)L主要由分類損失、檢測(cè)損失和分割損失3部分組成,定義式[21,31]為
L=Lcls+Lbbox+Lmask
(3)
式中Lcls——模型的分類損失
Lbbox——檢測(cè)損失(邊框回歸損失)
Lmask——分割損失
分類損失Lcls計(jì)算式為
(4)
式中Ncls——類別數(shù)量
pi——目標(biāo)被預(yù)測(cè)為正樣本的概率
檢測(cè)損失Lbbox計(jì)算式為
(5)
其中
(6)
Nreg——特征圖的像素值
ti——預(yù)測(cè)邊框的坐標(biāo)向量
分割損失Lmask計(jì)算式為
Lmask=Sigmoid(Ck)
(7)
式中Ck——第k類目標(biāo)
網(wǎng)絡(luò)對(duì)于每一個(gè)ROI都有k×m2維度的輸出,k為類別數(shù),共輸出k個(gè)分辨率為m×m的二值掩膜。對(duì)于第k類目標(biāo)(Ck),Lmask定義為對(duì)掩膜中的每一個(gè)像素執(zhí)行Sigmoid函數(shù)得到的平均二值交叉熵?fù)p失。
圖8為以ResNet 41為主干網(wǎng)絡(luò)的雞只輪廓分割模型訓(xùn)練過(guò)程中檢測(cè)損失、分類損失、分割損失和總損失的變化。各損失均在訓(xùn)練開(kāi)始的很短時(shí)間內(nèi)下降到較低值,隨后隨著迭代步數(shù)的增加緩慢下降,訓(xùn)練過(guò)程中各損失曲線波動(dòng)較小,模型收斂較好,說(shuō)明各超參數(shù)配置較為合理。當(dāng)?shù)綌?shù)達(dá)到10 000次(100個(gè)epochs)左右時(shí),各損失均趨于穩(wěn)定,不再持續(xù)下降。
圖9為不同網(wǎng)絡(luò)的總損失隨迭代步數(shù)的變化情況。5個(gè)網(wǎng)絡(luò)的總損失均隨著網(wǎng)絡(luò)的迭代逐步下降,最終趨于穩(wěn)定,模型收斂。ResNet 101和ResNet 41網(wǎng)絡(luò)的損失曲線在訓(xùn)練后期基本重合,最終訓(xùn)練損失分別為0.85和0.87左右,一定程度上說(shuō)明2個(gè)模型具有相似的性能表現(xiàn)。而ResNet 41+cbam網(wǎng)絡(luò)和ResNet 41+cbam+dcn網(wǎng)絡(luò)最終訓(xùn)練損失分別穩(wěn)定在0.63和0.31左右,較優(yōu)化之前的網(wǎng)絡(luò)有較明顯的下降,將部分卷積層替換成可變形卷積后,模型性能有一定提升。ResNet 50+cbam+dcn的網(wǎng)絡(luò)最終訓(xùn)練損失在0.43左右,略高于ResNet 41+cbam+dcn網(wǎng)絡(luò),ResNet 41+cbam+dcn網(wǎng)絡(luò)在所有試驗(yàn)網(wǎng)絡(luò)中性能最優(yōu)。
3.2.3不同模型輸出特征可視化分析
為更好地解釋本文采用的優(yōu)化方式對(duì)模型性能的提升,利用GRAD-CAM[32]對(duì)不同網(wǎng)絡(luò)進(jìn)行可視化分析,通過(guò)梯度來(lái)衡量卷積層中空間位置的重要性,分別輸出不同網(wǎng)絡(luò)、不同階段輸出特征的類激活熱力圖(Class activation heat map),可以清楚地顯示網(wǎng)絡(luò)在進(jìn)行預(yù)測(cè)時(shí)重點(diǎn)關(guān)注的圖像區(qū)域。本文將5種網(wǎng)絡(luò)第2階段和第5階段的特征可視化結(jié)果進(jìn)行了比較,結(jié)果如圖10所示。圖中紅色區(qū)域的范圍越大,說(shuō)明網(wǎng)絡(luò)提取的特征更多地覆蓋到了需要識(shí)別的目標(biāo)上。由圖可知,ResNet 101網(wǎng)絡(luò)和ResNet 41網(wǎng)絡(luò)均只有少部分特征覆蓋到了雞只輪廓上,而ResNet 41+cbam網(wǎng)絡(luò)、ResNet 41+cbam+dcn及ResNet 50+cbam+dcn網(wǎng)絡(luò)提取的特征更好地覆蓋了目標(biāo)對(duì)象區(qū)域,說(shuō)明在網(wǎng)絡(luò)中引入注意力機(jī)制確實(shí)加強(qiáng)了網(wǎng)絡(luò)對(duì)重點(diǎn)信息的關(guān)注程度,提升了網(wǎng)絡(luò)性能。而可變形卷積使網(wǎng)絡(luò)具有更大、更靈活的感受野,提升了網(wǎng)絡(luò)對(duì)不同尺寸、不同外形目標(biāo)的適應(yīng)能力,提升了網(wǎng)絡(luò)對(duì)雞只輪廓的分割能力。對(duì)比ResNet 41+cbam+dcn網(wǎng)絡(luò)和ResNet 50+cbam+dcn網(wǎng)絡(luò)的可視化結(jié)果,可以發(fā)現(xiàn)ResNet 41+cbam+dcn網(wǎng)絡(luò)特征提取效果略好。從第2階段和第5階段的特征圖可以看出,隨著網(wǎng)絡(luò)的加深,網(wǎng)絡(luò)提取的特征越來(lái)越多地覆蓋到了雞只輪廓上,同時(shí)網(wǎng)絡(luò)也過(guò)濾掉了一些不屬于雞只輪廓的特征,提升了模型的檢測(cè)精度。模型輸出特征的可視化分析結(jié)果與上文中模型性能指標(biāo)和訓(xùn)練損失分析結(jié)果一致,進(jìn)一步說(shuō)明本文對(duì)網(wǎng)絡(luò)進(jìn)行的優(yōu)化是有效的。
(1)以疊層籠養(yǎng)下的肉雞為研究對(duì)象,將Mask R-CNN網(wǎng)絡(luò)引入雞只輪廓的分割提取中,構(gòu)建了一種雞只圖像分割和輪廓提取網(wǎng)絡(luò)。該網(wǎng)絡(luò)以基于注意力機(jī)制、可變形卷積的41層深度殘差網(wǎng)絡(luò)和特征金字塔網(wǎng)絡(luò)相融合的方式作為主干網(wǎng)絡(luò),可以實(shí)現(xiàn)籠養(yǎng)狀態(tài)下肉雞圖像的分割和輪廓提取。
(2)優(yōu)化后的模型在驗(yàn)證集的精確率、準(zhǔn)確率和召回率分別為88.60%、90.37%和77.48%,與現(xiàn)有的Mask R-CNN網(wǎng)絡(luò)相比,其精確率和準(zhǔn)確率分別提高了10.37、5.89個(gè)百分點(diǎn),而單幅圖像的檢測(cè)時(shí)間僅增加了0.09 s,說(shuō)明注意力機(jī)制和可變形卷積的引入有效提高了網(wǎng)絡(luò)的綜合性能。
(3)特征圖可視化分析表明,網(wǎng)絡(luò)中引入注意力機(jī)制和可變形卷積后,網(wǎng)絡(luò)提取的特征更多地覆蓋到雞只輪廓上,提高了檢測(cè)精度。本文算法模型對(duì)籠養(yǎng)狀態(tài)下的雞群分割效果較好,能準(zhǔn)確分割提取雞只個(gè)體輪廓。