葉 盛,高陳強(qiáng),錢志華,陳欣悅,楊 烽,趙 悅
(1.重慶郵電大學(xué) 通信與信息工程學(xué)院,重慶 400065; 2.信號(hào)與信息處理重慶市重點(diǎn)實(shí)驗(yàn)室,重慶 400065)
隨著教室監(jiān)控?cái)z像頭的普及,以及人工智能技術(shù)在教學(xué)實(shí)踐中的廣泛應(yīng)用,教室監(jiān)控場(chǎng)景下的人體姿態(tài)檢測(cè)研究逐漸受到關(guān)注[1-2]。采用計(jì)算機(jī)視覺(jué)技術(shù)獲取學(xué)生在課堂上的姿態(tài)信息,可以為教學(xué)質(zhì)量評(píng)估提供重要且客觀的評(píng)價(jià)依據(jù)。
作為計(jì)算機(jī)視覺(jué)的一個(gè)重要研究熱點(diǎn),人體姿態(tài)檢測(cè)與估計(jì)有著較為廣泛的研究[1,3-6]?,F(xiàn)有的人體姿態(tài)檢測(cè)與估計(jì)方法大多基于人體關(guān)鍵點(diǎn)信息,采用自頂向下(top-down)的方法[5-6]或者自底向上(bottom-up)的方法[7-8]估計(jì)人體姿態(tài)。然而,對(duì)于教室場(chǎng)景而言,人群十分密集,前后排遮擋以及下半身遮擋普遍較為嚴(yán)重;同時(shí),由于監(jiān)控?cái)z像頭成像距離的不同,教室前后目標(biāo)分辨率差異較大,后排通常為小目標(biāo)。對(duì)于這樣的場(chǎng)景,基于人體關(guān)鍵點(diǎn)的姿態(tài)估計(jì)方法的可靠性往往較低。為此,文獻(xiàn)[1]提出了基于目標(biāo)檢測(cè)框架的人體姿態(tài)檢測(cè)方法。相對(duì)而言,該方法更適合處理教室場(chǎng)景下的人體姿態(tài)檢測(cè)任務(wù)。本文繼續(xù)沿著這一思路,把人體姿態(tài)檢測(cè)變成一個(gè)目標(biāo)檢測(cè)子任務(wù)。
近年來(lái),基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks, CNN)的目標(biāo)檢測(cè)器在目標(biāo)檢測(cè)領(lǐng)域研究中占據(jù)主導(dǎo)地位?,F(xiàn)有的主流方法可分為基于區(qū)域建議的兩階段方法[9-11]和基于回歸的單階段方法[12-13]兩類。兩階段的網(wǎng)絡(luò)在第一階段產(chǎn)生大量只有前景和背景的候選建議框(proposal),在第二階段根據(jù)深度特征對(duì)每個(gè)候選建議框進(jìn)行進(jìn)一步分類和回歸。單階段的網(wǎng)絡(luò)通常對(duì)輸入圖像進(jìn)行多尺度的密集采樣,并通過(guò)先驗(yàn)框匹配定位目標(biāo)。相比于兩階段網(wǎng)絡(luò),單階段網(wǎng)絡(luò)通常在精度和速度上能得到更好的平衡。因此,為了滿足成百上千間教室的人體姿態(tài)檢測(cè)需求,本文基于單階段的目標(biāo)檢測(cè)網(wǎng)絡(luò)開(kāi)展研究。
為了使速度與精度得到平衡,一些優(yōu)秀的單階段目標(biāo)檢測(cè)方法[12-14]被提出。在這些方法中,單發(fā)多邊框檢測(cè)器(single shot multibox detector, SSD)[14]因其性能優(yōu)良、速度快而受到青睞。文獻(xiàn)[15]提出一種簡(jiǎn)潔卻性能高效的分類網(wǎng)絡(luò)VGG,標(biāo)準(zhǔn)的SSD框架使用具有16個(gè)權(quán)重層的VGG網(wǎng)絡(luò)(以下簡(jiǎn)稱VGG16)作為主干網(wǎng)絡(luò),并在末尾添加了一系列額外的層用作特征預(yù)測(cè)。SSD采用特征金字塔結(jié)構(gòu)進(jìn)行檢測(cè),每個(gè)預(yù)測(cè)層用于預(yù)測(cè)不同尺度的目標(biāo),淺層特征用于檢測(cè)小目標(biāo),深層特征用于檢測(cè)大目標(biāo),在目標(biāo)檢測(cè)任務(wù)上表現(xiàn)出較好的性能。盡管如此,其精度仍然落后于兩階段的目標(biāo)檢測(cè)網(wǎng)絡(luò)。
為了進(jìn)一步提高精度,基于SSD網(wǎng)絡(luò)的一系列優(yōu)秀的方法被提出。文獻(xiàn)[16]結(jié)合多尺度特征感受野以增強(qiáng)特征的上下文信息;文獻(xiàn)[17]通過(guò)引入語(yǔ)義分割分支和全局激活模塊增強(qiáng)網(wǎng)絡(luò)的語(yǔ)義信息;文獻(xiàn)[18]引入特征融合模塊以豐富級(jí)聯(lián)特征的尺度信息;文獻(xiàn)[19]設(shè)計(jì)額外的類似特征金字塔網(wǎng)絡(luò)(feature pyramid networks, FPN)[20]的結(jié)構(gòu)以豐富網(wǎng)絡(luò)的尺度信息;文獻(xiàn)[21]則提出一種級(jí)聯(lián)的預(yù)測(cè)方法對(duì)錨點(diǎn)進(jìn)行由粗到細(xì)的分類和回歸,通過(guò)犧牲時(shí)間復(fù)雜度以獲取較高的檢測(cè)精度;文獻(xiàn)[22]充分利用了多尺度特征的上下文信息,并通過(guò)級(jí)聯(lián)的特征細(xì)化方法提高了網(wǎng)絡(luò)性能。還有一些其他具有代表性的工作,如文獻(xiàn)[23]提出焦點(diǎn)損失(focal loss)以解決單階段目標(biāo)檢測(cè)網(wǎng)絡(luò)中前景與背景不均衡問(wèn)題;文獻(xiàn)[24]則采用不基于錨點(diǎn)(anchor-free)的思想在單階段目標(biāo)檢測(cè)任務(wù)中取得了較好性能。
盡管現(xiàn)有的目標(biāo)檢測(cè)網(wǎng)絡(luò)在PASCAL VOC[25]和MS COCO[26]等公共數(shù)據(jù)集上表現(xiàn)出較好檢測(cè)性能,但教室場(chǎng)景中的人體目標(biāo)普遍比較密集,且尺度變化較大,網(wǎng)絡(luò)感受野的合理選擇成為影響姿態(tài)檢測(cè)的重要因素,因此,將這些方法直接用于教室姿態(tài)檢測(cè)任務(wù)中仍難以保持高性能和魯棒性。文獻(xiàn)[1]基于Faster R-CNN[9]采用合并的感興趣區(qū)域池化層(merged region of interest pooling)結(jié)構(gòu),并將局部特征保留損失(locality preserving loss)和目標(biāo)檢測(cè)的分類損失與回歸損失結(jié)合。該方法在教室人體姿態(tài)檢測(cè)任務(wù)上取得了較好的效果。然而,該方法采用兩階段的目標(biāo)檢測(cè)框架,對(duì)于單幀圖像的處理速度較慢,因此,難以高效率地服務(wù)于成百上千間教室監(jiān)控?cái)z像頭。
基于以上研究背景,本文提出一種基于自適應(yīng)感受野的教室人體姿態(tài)實(shí)時(shí)檢測(cè)網(wǎng)絡(luò),引入具有自適應(yīng)感受野的卷積模塊與SSD網(wǎng)絡(luò)進(jìn)行結(jié)合;通過(guò)梯度下降自適應(yīng)地調(diào)整網(wǎng)絡(luò)的感受野,有效處理教室人體目標(biāo)尺度變化大的問(wèn)題。實(shí)驗(yàn)結(jié)果表明,本文方法在速度和精度上均優(yōu)于現(xiàn)有教室人體姿態(tài)檢測(cè)算法。在教室人體姿態(tài)檢測(cè)任務(wù)上,相較于現(xiàn)有單階段目標(biāo)檢測(cè)方法,本文所提出的方法也具有明顯優(yōu)勢(shì)。
本文基于SSD網(wǎng)絡(luò)結(jié)構(gòu),以VGG16為骨干網(wǎng)絡(luò),保持級(jí)聯(lián)特征金字塔結(jié)構(gòu)的檢測(cè)方式,具體網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。標(biāo)準(zhǔn)的卷積網(wǎng)絡(luò),每層網(wǎng)絡(luò)中神經(jīng)元感受野大小都是相同的,對(duì)于目標(biāo)尺度變化較大的教室場(chǎng)景,相同感受野并不利于不同成像距離的目標(biāo)的特征提取。啟發(fā)于文獻(xiàn)[27],本文在SSD網(wǎng)絡(luò)中引入自適應(yīng)感受野卷積模塊,并對(duì)標(biāo)準(zhǔn)的SSD網(wǎng)絡(luò)進(jìn)行了簡(jiǎn)化,將其6個(gè)特征輸出層(Conv4_3層、Conv7層、Conv8_2層、Conv9_2層、Conv10_2層和Conv11_2層)簡(jiǎn)化為4層(Conv4_3層、Conv7層、Conv8_2層和Conv9_2層);取消了VGG16預(yù)訓(xùn)練模型的Conv4_1層和Conv6層的預(yù)訓(xùn)練權(quán)重,并以自適應(yīng)感受野卷積模塊代替;對(duì)Conv4_3層和Conv7層也采用自適應(yīng)感受野卷積模塊。本文重新設(shè)計(jì)了先驗(yàn)框,先驗(yàn)框的尺寸最小值min_size∈{30,64,128,256},最大值max_size∈{64,128,256,315};特征輸出層上每個(gè)點(diǎn)設(shè)置的先驗(yàn)框個(gè)數(shù)分別為{6,6,6,4}。
圖1 本文方法的網(wǎng)絡(luò)框圖
感受野問(wèn)題一直是限制目標(biāo)檢測(cè)網(wǎng)絡(luò)效果的一個(gè)關(guān)鍵因素。盡管現(xiàn)有方法采用特征分裂聚合[16,22]或者采用空洞卷積[28]等方式能夠在一定程度上增大感受野,但網(wǎng)絡(luò)在學(xué)習(xí)的過(guò)程中并未能自適應(yīng)地學(xué)習(xí)特征的感受野。這導(dǎo)致網(wǎng)絡(luò)在前向傳播過(guò)程中,隨著深度加深,可能會(huì)丟失一些重要的細(xì)節(jié)信息與上下文信息。由于教室監(jiān)控場(chǎng)景成像普遍復(fù)雜,且遮擋嚴(yán)重,目標(biāo)本身缺乏細(xì)節(jié)信息,這十分不利于人體姿態(tài)檢測(cè)。本文采用非線性的方法融合來(lái)自不同感受野卷積核的特征,從而實(shí)現(xiàn)感受野的自適應(yīng)調(diào)整。本文采用的自適應(yīng)感受野卷積模塊見(jiàn)圖1,它包含特征分裂、特征融合、參數(shù)選擇、特征聚合等4個(gè)部分。
1)特征分裂。對(duì)于輸入特征X∈RW×H×Z,通過(guò)兩個(gè)動(dòng)態(tài)濾波器Gc1和Gc2將輸入特征分裂成上下兩個(gè)支路。其中Gc1和Gc2分別為核3×3、核5×5的分組卷積以及批歸一化(batch normalization, BN)和線性整流函數(shù)(rectified linear unit, ReLU)實(shí)現(xiàn)。表示為
K1=Gc1(X;Φ1)
(1)
K2=Gc2(X;Φ2)
(2)
(1)—(2)式中:K1和K2分別為上下兩個(gè)支路的特征;Φ1與Φ2為濾波器的參數(shù)。
2)特征融合。將上支路與下支路映射不同感受野的特征進(jìn)行像素級(jí)融合,融合后的特征為
(3)
將融合后的特征通過(guò)全局平均池化操作fgp(·)進(jìn)行編碼。對(duì)W×H維度進(jìn)行壓縮,以獲得每一個(gè)通道的全局信息sc。全局平均池化的具體操作為
(4)
進(jìn)一步,用一個(gè)全連接層得到每一個(gè)通道的比重。為了減輕計(jì)算量,將當(dāng)前通道數(shù)壓縮為d,得到每一個(gè)通道占的比重大小,用于引導(dǎo)兩條支路不同感受野的特征融合。表示為
z=Fc(s)=δ(B(s))
(5)
(5)式中:Fc表示全連接層;s為輸入特征;z為降維后的輸出特征;δ(·)表示ReLU函數(shù);B(·)表示批歸一化操作;壓縮后的特征z∈Rd×1。d的選擇準(zhǔn)則為
d=max(C/r,L)
(6)
(6)式中:r為壓縮通道的參數(shù),為了減少參數(shù)量,r在實(shí)驗(yàn)過(guò)程中設(shè)置為16;L為d的最小維度,在本文的實(shí)驗(yàn)過(guò)程中設(shè)置為32。
3)參數(shù)選擇。通過(guò)學(xué)習(xí)上下兩支路不同感受野特征的權(quán)重,達(dá)到網(wǎng)絡(luò)自適應(yīng)學(xué)習(xí)感受野的目的;采用通道間的軟注意力機(jī)制,自動(dòng)學(xué)習(xí)特征的空間尺度信息。本文在通道級(jí)別采用一個(gè)softmax函數(shù)作用于降維后的特征z,如(7)—(8)式所示。
(7)
(8)
(7)—(8)式中:Ac∈R1×d,Ac為向量A的第c行;ac表示向量a的第c個(gè)元素;Bc、bc同理。對(duì)于上下兩個(gè)分支的融合,易得
ac+bc=1
(9)
4)特征聚合。通過(guò)采用軟注意力機(jī)制學(xué)習(xí)到的權(quán)重,將上下兩個(gè)支路特征相融合,可得最終的自適應(yīng)感受野卷積模塊特征Y=[Y1,Y2,…,Yc],Yc∈RW×H,且Yc滿足
Yc=ac·K1c+bc·K2c
(10)
(10)式中,K1c和K2c分別表示特征向量K1和K2的第c行。在梯度下降的過(guò)程中,可通過(guò)softmax函數(shù)自動(dòng)調(diào)整上下支路不同感受野特征的融合權(quán)值,從而能夠通過(guò)神經(jīng)元自適應(yīng)學(xué)習(xí)不同大小感受野的特征。
在卷積過(guò)程中,為了減少計(jì)算量,本文將VGG16網(wǎng)絡(luò)中較淺的Conv4_1層以及Conv6層替換成自適應(yīng)感受野卷積模塊,使得網(wǎng)絡(luò)在淺層提取到更適用于密集目標(biāo)感受野的特征,并在淺層的特征預(yù)測(cè)層Conv4_3層以及Conv7層均采用自適應(yīng)感受野卷積模塊。由于深層的特征預(yù)測(cè)層Conv8_2層和Conv9_2層本身感受野較大,且負(fù)責(zé)較大尺度目標(biāo)的預(yù)測(cè),本文依然保持其原始的卷積操作。
與單階段目標(biāo)檢測(cè)網(wǎng)絡(luò)相同,本文采用分類損失和回歸損失進(jìn)行反向傳播,其損失函數(shù)表示為
(11)
(11)式中:N為先驗(yàn)框中的正樣本數(shù)量;x為相應(yīng)類別先驗(yàn)框和標(biāo)注框相匹配的指示器;c為類別置信度預(yù)測(cè)值;l為與先驗(yàn)框所對(duì)應(yīng)邊界框的位置預(yù)測(cè)值;而g是標(biāo)注框的位置參數(shù);α為權(quán)重系數(shù),在本文的實(shí)驗(yàn)過(guò)程中,α的值設(shè)置為1。
本文實(shí)驗(yàn)數(shù)據(jù)集為文獻(xiàn)[1]的教室數(shù)據(jù)集擴(kuò)充后得到的圖像數(shù)據(jù)集,所有圖像采集自真實(shí)教室場(chǎng)景下的監(jiān)控視頻數(shù)據(jù),如圖2所示。教室場(chǎng)景中的人體目標(biāo)普遍比較稠密,成像條件復(fù)雜且成像質(zhì)量較差;通常教室的攝像頭分布在前面或后面,具有一定傾斜角,目標(biāo)尺度變化較大。與文獻(xiàn)[1]相同,本文只考慮教學(xué)場(chǎng)景中3類較為核心的姿態(tài):坐、趴、站。根據(jù)目標(biāo)的分布特點(diǎn)以及成像質(zhì)量,本文將數(shù)據(jù)分為兩部分,其中2 420張圖像用于訓(xùn)練(坐態(tài)樣本33 221個(gè),站態(tài)樣本2 532個(gè),趴態(tài)樣本2 476個(gè)),2 181張圖像用于測(cè)試(坐態(tài)樣本229 761個(gè),站態(tài)樣本2 291個(gè),趴態(tài)樣本1 861個(gè))。在自然獲取的教室監(jiān)控場(chǎng)景數(shù)據(jù)中,人體姿態(tài)狀態(tài)普遍為坐態(tài),趴態(tài)和站態(tài)占比小,因此,采集的數(shù)據(jù)類別樣本較為不平衡。
圖2 教室監(jiān)控場(chǎng)景圖像數(shù)據(jù)集示例
本文采用PYSCAL VOC 2007的數(shù)據(jù)標(biāo)注格式,在訓(xùn)練和測(cè)試過(guò)程中,將與標(biāo)注框的交并比大于0.5的預(yù)測(cè)框判定為正樣本;采用PYSCAL VOC 2007的評(píng)價(jià)標(biāo)準(zhǔn),即平均精確度(average precision, AP)和多類平均精確度(mean average precision, mAP)作為評(píng)價(jià)指標(biāo)。對(duì)于目標(biāo)檢測(cè)模型的評(píng)估,通常用準(zhǔn)確率p與召回率r度量,其表達(dá)式如下
(12)
(13)
(12)—(13)式中:TP表示真正例,代表分類器檢測(cè)出類別正確的樣本數(shù);FP表示假正例,代表分類器將負(fù)樣本錯(cuò)分為正樣本的數(shù)量;FN表示假反例,代表分類器將正樣本錯(cuò)誤分為負(fù)樣本的數(shù)量。以p為縱坐標(biāo),r為橫坐標(biāo),可繪制p-r曲線用于觀察不同分類閾值下算法模型的準(zhǔn)確率和召回率。AP為p-r曲線與坐標(biāo)軸圍成的面積,其數(shù)學(xué)表達(dá)式如(14)式所示。AP越大,表示模型檢測(cè)性能越好。多類平均精確度mAP為所有類別的均值。
(14)
1)軟硬件環(huán)境?;赨buntu16.04平臺(tái),采用PyTorch 1.7深度學(xué)習(xí)開(kāi)源框架,結(jié)合Python 3.8編程語(yǔ)言;采用2塊24 GByte大小的GeForce RTX 3090顯卡并基于CUDA 11.0進(jìn)行計(jì)算。本文涉及的所有實(shí)驗(yàn)均在此環(huán)境下進(jìn)行。
2)具體參數(shù)設(shè)置。訓(xùn)練時(shí),加載預(yù)訓(xùn)練好的VGG16網(wǎng)絡(luò)模型參數(shù)作為骨干網(wǎng)絡(luò)預(yù)訓(xùn)練模型,網(wǎng)絡(luò)的輸入尺度固定為512×512,設(shè)置批量大小(batch size)為24,總的迭代次數(shù)為120 000次。對(duì)于前500次迭代,采用warmup策略將學(xué)習(xí)率逐漸從10-6增大到2×10-4,然后保持此學(xué)習(xí)率進(jìn)行梯度更新。在第80 000次和100 000次迭代,學(xué)習(xí)率減小為原來(lái)的1/10,設(shè)定權(quán)重衰減因子為0.000 5,動(dòng)量因子為0.9。
1)與現(xiàn)有教室姿態(tài)檢測(cè)算法對(duì)比。文獻(xiàn)[1]提出了目前較為先進(jìn)的基于目標(biāo)檢測(cè)思路解決教室人體姿態(tài)檢測(cè)難題的方法。該方法基于兩階段的Faster R-CNN檢測(cè)網(wǎng)絡(luò)進(jìn)行改進(jìn)。本文在文獻(xiàn)[1]提到的教室人體姿態(tài)數(shù)據(jù)集上進(jìn)行訓(xùn)練與評(píng)估,該數(shù)據(jù)集共包括1 955張訓(xùn)練圖像與1 955張測(cè)試圖像。本文方法與文獻(xiàn)[1]的結(jié)果對(duì)比如表1所示。從表1可以看出,本文方法在平均精確度上具有2.96%的優(yōu)勢(shì),在單幀圖像上的平均測(cè)試時(shí)間為0.029 s。本文作為單階段方法,相比文獻(xiàn)[1]基于兩階段的方法,在速度和精度方面均具有明顯優(yōu)勢(shì)。
表1 與文獻(xiàn)[1]方法對(duì)比實(shí)驗(yàn)結(jié)果
2)與其他目標(biāo)檢測(cè)方法對(duì)比。本文方法本質(zhì)上屬于目標(biāo)檢測(cè)?;谒捎玫慕淌冶O(jiān)控圖像數(shù)據(jù)集,將本文方法與現(xiàn)有權(quán)衡速度和精度的常用目標(biāo)檢測(cè)方法進(jìn)行比較,實(shí)驗(yàn)結(jié)果如表2所示。相比于單階段目標(biāo)檢測(cè)方法,本文方法比標(biāo)準(zhǔn)SSD網(wǎng)絡(luò)(輸入尺度為512×512)的mAP高3.12%。盡管本文采用了自適應(yīng)感受野卷積模塊,但是本文調(diào)整了標(biāo)準(zhǔn)SSD網(wǎng)絡(luò)的特征預(yù)測(cè)層,在單幀圖像的平均測(cè)試耗時(shí)上僅僅多0.007 s?;赩GG16骨干網(wǎng)絡(luò),通過(guò)分裂聚合以及空洞卷積以增大感受野的RFBNet[16],在教室監(jiān)控?cái)?shù)據(jù)集上僅僅獲得82.64%的mAP?;诙喑叨忍卣髟鰪?qiáng)實(shí)現(xiàn)的RFBNet-E網(wǎng)絡(luò),在本文的任務(wù)中的mAP為83.01%,本文方法總體上仍優(yōu)于RFBNet-E網(wǎng)絡(luò)。通過(guò)多尺度特征融合以獲取不同尺度感受野的FSSD[18]網(wǎng)絡(luò)的mAP達(dá)到83.57%,本文方法較之具有0.44%的優(yōu)勢(shì)。對(duì)于擁有更深骨干網(wǎng)絡(luò)ResNet101[29]的RefineDet[21],當(dāng)輸入尺度為512×512時(shí),RefineDet512最好的mAP為83.89%。RefineDet具有更復(fù)雜的特征融合步驟以及類似兩階段的檢測(cè)方式,對(duì)于單幀圖像的測(cè)試時(shí)間需要0.058 s,本文的方法在速度和精度上都具有優(yōu)勢(shì)。
表2 與其他目標(biāo)檢測(cè)方法實(shí)驗(yàn)結(jié)果對(duì)比
此外,本文的方法還優(yōu)于兩階段的Faster R-CNN[9]。當(dāng)輸入尺度為600×600,無(wú)論是采用VGG16還是ResNet101骨干網(wǎng)絡(luò),性能均較差,這主要是因?yàn)镕aster R-CNN僅僅利用了Conv5_3層做預(yù)測(cè)。對(duì)比基于ResNet-50-FPN的Mask R-CNN[10],本文方法盡管在精度上不如Mask R-CNN(其mAP為86.37%),但由于本文方法基于單階段目標(biāo)檢測(cè)網(wǎng)絡(luò),且沒(méi)有采用類似FPN的自下而上以及自上而下的結(jié)構(gòu),因而在mAP上卻能達(dá)到84.01%,并且?guī)缀跄苓_(dá)到實(shí)時(shí)的人體姿態(tài)檢測(cè)??偟膩?lái)說(shuō),本文方法在速度和精度上更有優(yōu)勢(shì)。
本文方法基于SSD網(wǎng)絡(luò)進(jìn)行改進(jìn),為了進(jìn)一步驗(yàn)證有效性,本文做了兩個(gè)實(shí)驗(yàn)進(jìn)行對(duì)比。
1)特征預(yù)測(cè)層選擇。如1.2節(jié)所述,標(biāo)準(zhǔn)SSD網(wǎng)絡(luò)具有6個(gè)特征預(yù)測(cè)層。本文的教室場(chǎng)景數(shù)據(jù)集目標(biāo)分布在大小上呈正態(tài)分布的趨勢(shì),4層特征預(yù)測(cè)層(Conv4_3, Conv7, Conv8_2, Conv9_2)從速度和精度上更適合于本文的任務(wù),因此,本文分別驗(yàn)證了包含6個(gè)特征預(yù)測(cè)層的SSD網(wǎng)絡(luò)以及簡(jiǎn)化為4層特征預(yù)測(cè)層的SSD網(wǎng)絡(luò),實(shí)驗(yàn)結(jié)果如表3所示。由表3可見(jiàn),4層特征預(yù)測(cè)層具有更好的平均精確度。
表3 消融實(shí)驗(yàn)結(jié)果
2)自適應(yīng)感受野卷積模塊的有效性。在4層特征預(yù)測(cè)層的SSD網(wǎng)絡(luò)基礎(chǔ)上,本文采用自適應(yīng)感受野卷積模塊替換原始的Conv4_1層、Conv4_3層、Conv6層以及Conv7層,其實(shí)驗(yàn)結(jié)果如表3所示。由表3可見(jiàn),具有自適應(yīng)感受野卷積模塊的SSD網(wǎng)絡(luò)比未采用自適應(yīng)感受野卷積模塊的SSD網(wǎng)絡(luò)在mAP上提升了1.76%。
消融實(shí)驗(yàn)結(jié)果表明,本文方法優(yōu)于標(biāo)準(zhǔn)SSD網(wǎng)絡(luò)。
圖3為SSD網(wǎng)絡(luò)(4層特征預(yù)測(cè)層)和本文方法在教室人體姿態(tài)檢測(cè)任務(wù)上的結(jié)果對(duì)比。圖3中,紅色框代表趴姿,綠色框代表坐姿,藍(lán)色框表示站姿。本文采用非極大值抑制算法(non-maximum suppression, NMS)過(guò)濾冗余框,可視化結(jié)果的NMS閾值均為0.35,且分類置信度閾值均為0.35。從圖3可以看出,無(wú)論是在稀疏場(chǎng)景還是稠密場(chǎng)景,本文方法對(duì)模糊目標(biāo)以及相似類別目標(biāo)的檢測(cè)與分類能力均優(yōu)于SSD網(wǎng)絡(luò)。這進(jìn)一步表明,本文自適應(yīng)感受野卷積模塊在尺度變化大、目標(biāo)稠密的教室人體姿態(tài)檢測(cè)任務(wù)中是有效的。合適的感受野對(duì)相似目標(biāo)的識(shí)別以及模糊目標(biāo)的識(shí)別具有較好促進(jìn)作用。
圖3 本文方法與SSD網(wǎng)絡(luò)可視化結(jié)果對(duì)比分析
本文提出了一種基于自適應(yīng)感受野的教室人體姿態(tài)實(shí)時(shí)檢測(cè)方法。不同于姿態(tài)估計(jì)方法,本文采用基于目標(biāo)檢測(cè)的方法實(shí)現(xiàn)教室場(chǎng)景下的人體姿態(tài)實(shí)時(shí)檢測(cè)。在SSD網(wǎng)絡(luò)的基礎(chǔ)上,本文首先進(jìn)行簡(jiǎn)化,選取了適合該任務(wù)的特征預(yù)測(cè)層,并將自適應(yīng)感受野卷積模塊與SSD網(wǎng)絡(luò)進(jìn)行結(jié)合,通過(guò)網(wǎng)絡(luò)反向傳播自動(dòng)學(xué)習(xí)適應(yīng)教室場(chǎng)景人體姿態(tài)特征的感受野,有效地增加了網(wǎng)絡(luò)對(duì)不同尺度目標(biāo)的檢測(cè)能力以及分類能力。本文方法幾乎沒(méi)有增加更多的單幀檢測(cè)時(shí)間,在精度和速度上得到了較好平衡。實(shí)驗(yàn)結(jié)果表明,本文方法優(yōu)于現(xiàn)有常用的教室人體姿態(tài)檢測(cè)方法以及其他單階段目標(biāo)檢測(cè)方法。