張寶峰 田 宇 朱均超 劉 娜
(天津理工大學(xué)天津市復(fù)雜系統(tǒng)控制理論及應(yīng)用重點(diǎn)實驗室光電器件與通信技術(shù)教育部工程研究中心 天津 300384)
污染場地中存在著大量的污染土和污染水,以及由這二者散發(fā)出的具有突發(fā)性、隱蔽性和高致死性的有毒氣體。因此在污染場地中,通過對施工人員進(jìn)行實時監(jiān)控及人體姿態(tài)估計來保證人員生命安全,是具有重要意義的。
近年來,人體姿態(tài)估計方法被大量提出并取得了卓有成效的進(jìn)展?;谏疃葘W(xué)習(xí)的多人姿態(tài)估計[1-5]主流框架有自頂向下的兩步法框架和自頂向上的基于部件的框架兩大類[6]。Cao等[7]提出CMU-Pose模型,利用人體關(guān)鍵點(diǎn)親合場推測出人體的全部骨架信息。Fang等[8]提出RMPE模型,利用對稱空間變換網(wǎng)絡(luò)進(jìn)一步校正人體檢測框,提高模型整體性能。單人姿態(tài)估計按照輸出表示可分為基于坐標(biāo)回歸、基于熱圖檢測和二者的混合模式三種。Deep Pose模型[9]采用多階段回歸思想,將圖像直接回歸到人體骨骼關(guān)鍵點(diǎn)的二維坐標(biāo)?;跓釄D檢測的模型用概率圖heatmap來表示關(guān)節(jié)點(diǎn)坐標(biāo)。例如堆疊沙漏網(wǎng)絡(luò)[10],通過heatmap學(xué)習(xí)各個關(guān)節(jié)點(diǎn)的位置特征,利用多尺度感受野機(jī)制了解各個關(guān)節(jié)點(diǎn)之間的結(jié)構(gòu)特征。
堆疊沙漏網(wǎng)絡(luò)雖然通過學(xué)習(xí)關(guān)節(jié)點(diǎn)之間的特征提高了各個關(guān)節(jié)點(diǎn)的關(guān)聯(lián)性,但傳統(tǒng)殘差模塊有效感受野較小,仍存在著復(fù)雜背景環(huán)境下不能準(zhǔn)確檢測關(guān)鍵點(diǎn),以及肢體遮擋情況下魯棒性較低等問題[11]。針對以上問題,本文提出一個基于感受野與注意力機(jī)制的人體姿態(tài)估計模型(RF-IA MPEN)。其中姿態(tài)估計網(wǎng)絡(luò)(RF-IA Hourglass Net)采用設(shè)計出的大感受野殘差模塊(Large receptive field residual module)與改進(jìn)型殘差注意力模塊(Improved residual attention module),以改進(jìn)堆疊沙漏網(wǎng)絡(luò)中的傳統(tǒng)殘差模塊[12-14]和原有的跳級連接結(jié)構(gòu)。RF-Residual模塊通過擴(kuò)大有效感受野面積,使模型更有效地利用圖像多尺度信息,進(jìn)而精準(zhǔn)定位局部人體部件和關(guān)節(jié),提高姿態(tài)估計的準(zhǔn)確性與魯棒性;IA-Residual模塊通過給人體區(qū)域添加掩膜,進(jìn)而有效地保留圖像中關(guān)鍵人體信息,過濾掉復(fù)雜的背景干擾。
RF-IA MPEN多人姿態(tài)估計模型基于自頂向下框架,其包括人體檢測網(wǎng)絡(luò)(Mask R-CNN[15])、對稱空間變換網(wǎng)絡(luò)(SSTN[16])、姿態(tài)估計網(wǎng)絡(luò)(RF-IA HN)、參數(shù)化姿態(tài)非最大值抑制網(wǎng)絡(luò)(Parametric Pose NMS)四部分。首先,將污染修復(fù)場地中拍攝到的視頻圖像作為輸入,傳輸?shù)組ask R-CNN網(wǎng)絡(luò)中對人體進(jìn)行目標(biāo)檢測,并輸出人體檢測框。然后利用SSTN網(wǎng)絡(luò)對人體檢測框進(jìn)行校正,提高其輸出精度。RF-IA HN網(wǎng)絡(luò)對校正后的單人人體檢測框進(jìn)行姿態(tài)估計,并利用PP-NMS網(wǎng)絡(luò)消除冗余姿態(tài)。最終輸出人體姿態(tài)估計結(jié)果。RF-IA MREN多人姿態(tài)估計模型整體結(jié)構(gòu)如圖1所示。
圖1 RF-IA MREN多人姿態(tài)估計模型結(jié)構(gòu)
姿態(tài)估計模型在沙漏網(wǎng)絡(luò)基礎(chǔ)上,對傳統(tǒng)殘差模塊與跳級連接結(jié)構(gòu)進(jìn)行了改進(jìn),改進(jìn)點(diǎn)為:采用設(shè)計出的大感野受殘差模塊(RF-Residual)和改進(jìn)型殘差注意力模塊(IA-Residual)。改進(jìn)沙漏子網(wǎng)絡(luò)如圖2所示,其由池化層、上采樣層、大感野受殘差模塊和改進(jìn)型殘差注意力模塊構(gòu)成。特征圖在經(jīng)過下采樣前,先通過上半路的改進(jìn)型殘差注意力模塊保留原尺度信息;然后特征圖經(jīng)過下半路的下采樣層降低分辨率后通過大感受野殘差模塊以獲得更大范圍內(nèi)的特征信息;特征圖在上采樣后與上一尺度信息融合,逐層進(jìn)行放大融合至輸入特征圖原尺度。
圖2 改進(jìn)沙漏子網(wǎng)絡(luò)示意圖
本文設(shè)計出RF-Residual模塊,其結(jié)構(gòu)如圖3所示,其中:M為卷積層輸入端神經(jīng)元數(shù)量;N為卷積層輸出端神經(jīng)元數(shù)量;K為Kernel。為解決傳統(tǒng)殘差模塊中恒等映射帶來的影響,分支(1)采用歸一層、RReLU激活層和1×1卷積,改進(jìn)原有的恒等映射分支。此種方法的優(yōu)點(diǎn)是:網(wǎng)絡(luò)可有效減小恒等映射產(chǎn)生的響應(yīng)方差,以達(dá)到提高網(wǎng)絡(luò)整體性能的目的。分支(3)為大感受野分支,包含兩個3×3卷積層,兩個卷積層前都設(shè)置了歸一化層和激活層。通過分支(3)的加入,輸出層感受野可被有效擴(kuò)大,進(jìn)而提升關(guān)節(jié)點(diǎn)之間的關(guān)聯(lián)性,提高檢測準(zhǔn)確性。
圖3 大感受野殘差模塊結(jié)構(gòu)
在卷積神經(jīng)網(wǎng)絡(luò)中,感受野是圖像上的一塊區(qū)域,其由輸出特征圖上的像素點(diǎn)映射而來。準(zhǔn)確定位人體骨骼關(guān)鍵點(diǎn)對有效感受野面積的大小有較高要求。感受野表達(dá)式為:
RFi=(RFi+1-1)×Si+Ki
(1)
式中:RFi為第i層卷積層的感受野;RFi+1為第i+1層上的感受野;Si為卷積的步長;Ki為當(dāng)前層卷積核大小。
本文設(shè)計的RF-Residual模塊表達(dá)式如下:
(2)
式中:pi和Pi+1分別為第i個殘差模塊的輸入和輸出;F、Q、W代表分支中卷積、歸一化、RReLU激活函數(shù)的作用。RF-Residual模塊共包含三個分支:
分支(1)為h(pi)。其包含一個1×1卷積層、歸一化層、激活層。輸出層感受野為1×1。
分支(1)和分支(2)保留了原始?xì)埐钅K的高分辨率信息,分支(3)擴(kuò)大了有效感受野。
本文設(shè)計出IA-Residual模塊,其結(jié)構(gòu)如圖4所示。IA-Residual模塊主要用于檢測圖像中較為模糊的人體姿態(tài)區(qū)域,通過給人體區(qū)域添加掩膜可以有效地過濾掉復(fù)雜的背景干擾。將掩膜之前以及掩膜之后的特征張量全部作為下一層的輸入,能夠在獲得較大感受野的同時更好地注意關(guān)鍵特征,進(jìn)而有效保留圖像中的局部信息,剔除掉復(fù)雜的背景干擾。IA-Residual模塊包含三個分支,分別為:1×1卷積分支、主干殘差分支、柔化掩膜分支。
圖4 改進(jìn)型殘差注意力模塊結(jié)構(gòu)
本文設(shè)計的IA-Residual模塊表達(dá)式如下:
(3)
IA-Residual模塊中,分支(1)為h(pi)。其包含一個1×1卷積,卷積前面添加了歸一化層和RReLU激活層。
注意力機(jī)制數(shù)學(xué)原理為:
(4)
式中:K、V表示鍵值對;q為查詢向量;s為注意力得分。注意力機(jī)制首先是生成總體特征:
δ=f(W?α+b)
(5)
式中:δ為總體信息特征;f為非線性激活函數(shù);?為卷積操作;W為權(quán)重;α為輸入;b為偏置。經(jīng)過柔化掩膜分支的激活函數(shù)可以得到人體區(qū)域的大致掩膜范圍:
(6)
柔化掩膜分支是一個嵌入式的微型堆疊沙漏網(wǎng)絡(luò)。其先通過多個最大池化層,經(jīng)過少量殘差單元后快速增加感受野。當(dāng)特征圖降到最低分辨率后,便能獲得整幅圖像的全局信息。隨后通過對稱的網(wǎng)絡(luò)結(jié)構(gòu)將特征放大回去,即在殘差單元后使用與最大池化數(shù)量一致的線性插值,保證獲得的掩膜區(qū)域還原為原圖像大小。柔化掩膜分支能夠集中注意力于圖像關(guān)鍵信息,有效地屏蔽掉復(fù)雜背景的干擾,提高整體網(wǎng)絡(luò)的準(zhǔn)確性與魯棒性。
本文通過多組對比實驗與消融實驗,對提出的多人姿態(tài)估計模型(RF-IA MPEN)的有效性及實用性進(jìn)行驗證。實驗環(huán)境如下:操作系統(tǒng)為Ubuntu 16.04,CPU環(huán)境為2×Intel Xeon Gold5120 CPU,GPU環(huán)境為8×32 GB V100 SXM2 NVLINK GPU。多人姿態(tài)估計模型將基于PyTorch深度學(xué)習(xí)框架,在MPII數(shù)據(jù)集[17]和MSCOCO數(shù)據(jù)集[18]中進(jìn)行驗證。
MPII Human Pose多人數(shù)據(jù)集通過輸出人體的頭、肩膀、肘、手腕、髖關(guān)節(jié)、膝蓋、腳踝這七個部位的識別準(zhǔn)確度來評估模型。數(shù)據(jù)集由3 844個訓(xùn)練組和1 758個測試組組成,測試組中存在遮擋重疊的人體樣本。本文使用單人數(shù)據(jù)集中的全部訓(xùn)練數(shù)據(jù)和90%的多人訓(xùn)練集來訓(xùn)練模型,剩下10%用以驗證。
MSCOCO數(shù)據(jù)集包含超過33萬幅圖片和150萬人體實例,訓(xùn)練集包含超過100萬個標(biāo)記的關(guān)鍵點(diǎn)。本文在MSCOCO Keypoints的訓(xùn)練集與驗證集的合并集上對模型進(jìn)行訓(xùn)練,用5 000幅圖像進(jìn)行驗證。
本文在相同的硬件環(huán)境下進(jìn)行了多組對比實驗,以更直觀地展示本文方法的性能。訓(xùn)練過程采用Adam優(yōu)化算法,初始學(xué)習(xí)率為1E- 3,降低學(xué)習(xí)率因子為0.1,沙漏子網(wǎng)絡(luò)個數(shù)為4。模型在MSCOCO2017 Test-dev數(shù)據(jù)集上的評估結(jié)果如表1所示(其中精度指標(biāo)AP右上角數(shù)字為IoU閾值)。
表1 MSCOCO2017 Test-dev數(shù)據(jù)集評估結(jié)果(%)
RF-IA MPEN模型在MSCOCO關(guān)鍵點(diǎn)測試集上取得了較好的結(jié)果,平均精度較Mask R-CNN模型提升了9.6百分點(diǎn),較RMPE模型提升了0.4百分點(diǎn)。同時,模型在處理一些背景遮擋、人群密集等情況時取得了較好效果。在MSCOCO數(shù)據(jù)集上的部分可視化結(jié)果展示在圖5中;在實際污染修復(fù)場地中的部分檢測結(jié)果展示在圖6中。
圖5 在MSCOCO數(shù)據(jù)集上的可視化結(jié)果
圖6 在實際污染修復(fù)場地中的可視化結(jié)果
本文設(shè)計了三組消融實驗,評估大感受野殘差模塊(RF-Residual)和改進(jìn)型殘差注意力模塊(IA-Residual)的有效性。首先測試了移除這兩個模塊的傳統(tǒng)堆疊沙漏網(wǎng)絡(luò)框架的效果;其次測試了分別移除其中一個模塊的改進(jìn)堆疊沙漏網(wǎng)絡(luò)框架的效果。消融實驗在MPII數(shù)據(jù)集上進(jìn)行驗證,實驗結(jié)果如表2所示。
表2 消融實驗結(jié)果對比(%)
表2中,“Ours,full”表示RF-Residual模塊與IA-Residual模塊均被采用;“w/o X”表示從模型中移除X模塊。
通過消融實驗結(jié)果可以看出:當(dāng)移除RF-Residual模塊,僅采用IA-Residual模塊取代沙漏網(wǎng)絡(luò)原有跳級連接結(jié)構(gòu)時,模型性能結(jié)果下降了0.4百分點(diǎn),相較傳統(tǒng)堆疊沙漏網(wǎng)絡(luò)模型結(jié)果提升了0.7百分點(diǎn)。實驗結(jié)果說明柔化掩膜分支有效屏蔽掉復(fù)雜背景的干擾,集中注意力于圖像關(guān)鍵信息,提高了檢測精度。當(dāng)移除IA-Residual模塊,僅采用RF-Residual模塊取代沙漏網(wǎng)絡(luò)傳統(tǒng)殘差模塊時,模型性能結(jié)果下降了0.6百分點(diǎn),相較傳統(tǒng)堆疊沙漏網(wǎng)絡(luò)模型結(jié)果提升了0.5百分點(diǎn)。說明RF-Residual模塊有效增大了有效感受野面積,進(jìn)而提高了局部人體部件和關(guān)節(jié)的檢測精度。實驗結(jié)果從兩個角度驗證了RF-Residual模塊和IA-Residual模塊的有效性。
本文建立了基于大感受野與注意力機(jī)制的多人姿態(tài)估計模型,通過擴(kuò)大有效感受野面積,提高人體關(guān)鍵點(diǎn)之間的關(guān)聯(lián)性,更加有效地利用了圖像中的多尺度信息;通過對人體區(qū)域添加掩模,在有效保留關(guān)鍵人體信息的同時,過濾掉復(fù)雜背景,提高整體網(wǎng)絡(luò)的準(zhǔn)確性與魯棒性。一定程度上解決了污染場地修復(fù)環(huán)境中背景復(fù)雜、人體遮擋、視點(diǎn)變化等突出問題。實驗表明,本文算法結(jié)果在MPII多人數(shù)據(jù)集上mAP檢測精度達(dá)到83.1%,在MSCOCO Test-dev數(shù)據(jù)集上平均精度較Mask R-CNN、RMPE模型分別提升了9.6百分點(diǎn)和0.4百分點(diǎn)。