任春賀,毛 琳,楊大偉
(大連民族大學(xué) 機(jī)電工程學(xué)院,遼寧 大連 116650)
2D人體姿態(tài)估計(jì)是指給定一張靜態(tài)的RGB圖像,準(zhǔn)確地識(shí)別和定位出圖像中的人體關(guān)鍵點(diǎn)(比如頭,左手,右腳等)的位置,以便通過(guò)連接相鄰關(guān)節(jié)可以恢復(fù)人體骨骼的姿態(tài)。在監(jiān)控視頻[1]場(chǎng)景中,常出現(xiàn)人體部分區(qū)域因姿態(tài)導(dǎo)致的關(guān)鍵點(diǎn)自遮擋或重疊的情況,從而導(dǎo)致在特征提取過(guò)程中被遮擋的部位丟失關(guān)鍵信息。由于無(wú)法準(zhǔn)確地提取包含人體所有關(guān)鍵點(diǎn)的圖像信息,這對(duì)人的動(dòng)作行為監(jiān)測(cè)帶來(lái)了困難,可能無(wú)法及時(shí)阻止某些意外情況發(fā)生。這凸顯了特征提取在解決人體姿態(tài)遮擋問(wèn)題方面的不足。
國(guó)內(nèi)外大量學(xué)者在提取特征方面采用兩種方法來(lái)解決上述問(wèn)題,一是添加有效的卷積器以增強(qiáng)特征表達(dá),二是設(shè)計(jì)合理的注意力機(jī)制以改善特征效果。為了充分利用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)[2]作為姿態(tài)估計(jì)的網(wǎng)絡(luò)模型,可以通過(guò)添加卷積模塊的方法對(duì)網(wǎng)絡(luò)進(jìn)行適當(dāng)改進(jìn)。Lin等人[3]提出了特征金字塔網(wǎng)絡(luò)(feature pyramid networks,FPN),該網(wǎng)絡(luò)雖能產(chǎn)生多尺度的特征表示,但因不同尺度特征之間沖突信息的存在,使得遮擋部位的關(guān)鍵點(diǎn)難以被檢測(cè),姿態(tài)估計(jì)精度不高;Szegedy等人[4]提出了多尺度融合網(wǎng)絡(luò),它能選擇多層特征進(jìn)行融合再進(jìn)行預(yù)測(cè),但由于有些尺度的特征語(yǔ)義信息缺乏豐富性,很難檢測(cè)出人體遮擋部位的關(guān)鍵點(diǎn);Dumoulin等人[5]提出了轉(zhuǎn)置卷積網(wǎng)絡(luò)。該網(wǎng)絡(luò)雖然只執(zhí)行了常規(guī)的卷積操作,但卻能恢復(fù)特征圖的空間分辨率。然而由于該卷積矩陣的稀疏性,會(huì)產(chǎn)生大量的冗余特征信息,難以檢測(cè)遮擋部位的關(guān)鍵點(diǎn);Newell等人[6]提出了堆疊沙漏網(wǎng)絡(luò)(stacked hourglass networks,SHN),利用沙漏模塊來(lái)處理和整合各個(gè)尺度的特征,但此模塊通過(guò)堆疊會(huì)使得部分特征信息丟失,導(dǎo)致人體遮擋部位的部分關(guān)鍵點(diǎn)難以被檢測(cè);Yang等人[7]提出了一種輕量化的金字塔殘差模塊(Pyramid Residual Module,PRM)來(lái)代替沙漏模塊來(lái)學(xué)習(xí)不同尺度上的特征,但隨著層數(shù)的增加,很容易丟失原始特征信息,使得難以定位檢測(cè)出被遮擋部位的人體關(guān)鍵點(diǎn);Sun等人[8]提出了一種高分辨率網(wǎng)絡(luò)HRNet,通過(guò)多尺度特征融合以獲得更好的語(yǔ)義特征。但越多地融合特征,就會(huì)產(chǎn)生越多的信息冗余,可能會(huì)誤導(dǎo)關(guān)鍵點(diǎn)定位和識(shí)別。另一種方法是通過(guò)在網(wǎng)絡(luò)中引入注意力機(jī)制的方式讓模型知道圖像中不同局部信息的重要性。Max等人[9]提出了空間變換網(wǎng)絡(luò)(Spatial Transformer Networks,STN),該網(wǎng)絡(luò)引入了一個(gè)可學(xué)習(xí)的空間維度轉(zhuǎn)換模塊,使模型具有空間不變性,但它僅考慮局部區(qū)域的空間變換;Hu等人[10]提出了通道注意力網(wǎng)絡(luò)SENet(Squeeze-and-Excitation Network),從通道維度上得到權(quán)重矩陣對(duì)特征進(jìn)行重構(gòu),但它僅考慮通道方面的依賴性,沒有充分利用空間信息,同時(shí)也忽略了使用最大池化操作進(jìn)一步細(xì)化特征;Wang等人[11]提出了殘差注意力網(wǎng)絡(luò)(Residual Attention Network),它是兼顧通道抽象特征和空間位置特征信息的混合注意力機(jī)制,但其參數(shù)量和計(jì)算量較大。
綜上,在人體姿態(tài)估計(jì)任務(wù)中,本文以深度殘差網(wǎng)絡(luò)ResNet-50作為特征提取主干網(wǎng)絡(luò),提出一種結(jié)合混合注意力機(jī)制的姿態(tài)估計(jì)特征增強(qiáng)網(wǎng)絡(luò)(Pose Estimation Attention Feature Enhancement Network,PEANet)。該網(wǎng)絡(luò)是將混合注意力模塊插入到ResNet-50主干網(wǎng)絡(luò)的每個(gè)Bottleneck Block層中,在減少網(wǎng)絡(luò)的部分復(fù)雜度和參數(shù)的同時(shí)提高了姿態(tài)估計(jì)的精確度,以解決人體姿態(tài)關(guān)鍵點(diǎn)自遮擋的問(wèn)題。
關(guān)鍵點(diǎn)自遮擋是指因人體姿態(tài)具有多變性,如可能呈現(xiàn)站立、行走、半蹲、正坐等姿態(tài),導(dǎo)致自身的一部分關(guān)鍵點(diǎn)遮擋住另一部分關(guān)鍵點(diǎn)。這種遮擋容易造成人體重要部位特征信息的缺失,導(dǎo)致人體關(guān)鍵點(diǎn)預(yù)測(cè)信息不完整,在姿態(tài)估計(jì)任務(wù)中出現(xiàn)關(guān)鍵點(diǎn)的漏檢,從而降低姿態(tài)估計(jì)性能。在現(xiàn)實(shí)生活中,若能提升因自遮擋現(xiàn)象而造成姿態(tài)估計(jì)不準(zhǔn)確的網(wǎng)絡(luò)性能,就能較準(zhǔn)確地識(shí)別出圖像或視頻中行人的動(dòng)作,在很大程度上及時(shí)阻止意外的發(fā)生。因此,針對(duì)此問(wèn)題進(jìn)行深入的研究具有重大意義。
由于原主干網(wǎng)絡(luò)只采用卷積模塊進(jìn)行特征提取操作,沒能對(duì)特定的特征進(jìn)行篩選,浪費(fèi)了大量的計(jì)算資源。因此,本文提出對(duì)主干網(wǎng)絡(luò)的每個(gè)Bottleneck Block層添加注意力,這樣既能執(zhí)行特征提取操作,又能根據(jù)需求篩選出具有有效信息的特征圖。
本文選擇注意力機(jī)制來(lái)解決關(guān)鍵點(diǎn)的自遮擋問(wèn)題。注意力機(jī)制可以對(duì)人體關(guān)鍵點(diǎn)的空間關(guān)系進(jìn)行建模,生成的注意力圖只依賴圖像特征,可以關(guān)注不同的目標(biāo)區(qū)域。通道注意力利用卷積模塊學(xué)習(xí)特征圖各中各個(gè)特征通道的重要程度,雖然不同的通道可獲取不同的特征圖,但由于自遮擋的存在,有的通道實(shí)際上生成的是具有無(wú)效信息的特征圖,此時(shí)可通過(guò)通道權(quán)重的比例調(diào)節(jié),重新分配特征圖在通道上對(duì)遮擋的分析能力,以舍棄具有干擾信息的特征圖;在空間上有時(shí)也會(huì)存在自遮擋的現(xiàn)象,此時(shí)可再利用空間注意力的特點(diǎn),使網(wǎng)絡(luò)更加關(guān)注圖像中起決定作用的區(qū)域而忽略無(wú)關(guān)緊要的區(qū)域,通過(guò)空間注意圖進(jìn)而確定那些被忽略的關(guān)鍵點(diǎn)。
以Poseur[12]為研究對(duì)象,經(jīng)過(guò)圖像處理后人體姿態(tài)關(guān)鍵點(diǎn)自遮擋的效果示意圖如圖1。其中,實(shí)心點(diǎn)代表人體部位的關(guān)鍵點(diǎn),用線條將關(guān)鍵點(diǎn)連接起來(lái)是為了描繪出人體姿態(tài),橢圓圈用于標(biāo)識(shí)預(yù)測(cè)錯(cuò)誤的位置,矩形框用于標(biāo)識(shí)預(yù)測(cè)正確的位置。圖1a~1c分別為原圖、錯(cuò)誤檢測(cè)圖和正確檢測(cè)圖。第一行圖片是男人在滑板上沖浪的姿態(tài),因半蹲姿態(tài)本身造成的自遮擋,導(dǎo)致其左膝蓋關(guān)鍵點(diǎn)識(shí)別錯(cuò)誤;第二行圖片是小男孩打棒球的姿態(tài),因屈膝姿態(tài)本身造成的自遮擋,導(dǎo)致右肘關(guān)鍵點(diǎn)識(shí)別錯(cuò)誤。
a)原圖 b)錯(cuò)誤檢測(cè)圖 c)正確檢測(cè)圖圖1 關(guān)鍵點(diǎn)自遮擋現(xiàn)象示意圖
關(guān)鍵點(diǎn)自遮擋也會(huì)對(duì)其他關(guān)鍵點(diǎn)的預(yù)測(cè)產(chǎn)生負(fù)面影響,本文引入的注意力機(jī)制可使生成圖像的細(xì)節(jié)更豐富,加強(qiáng)網(wǎng)絡(luò)對(duì)人體關(guān)鍵點(diǎn)的關(guān)注,進(jìn)而增強(qiáng)網(wǎng)絡(luò)對(duì)關(guān)鍵點(diǎn)自遮擋的處理能力。
注意力機(jī)制源于對(duì)人類視覺的研究,通常分為:通道注意力[10]和空間注意力[13]。它是通過(guò)權(quán)重參數(shù)分配來(lái)決定哪些是需要關(guān)注的重要特征信息,從而有效選擇信息。為了更好地增加人體姿態(tài)關(guān)鍵點(diǎn)信息的權(quán)重,注意力機(jī)制被引入到本文的網(wǎng)絡(luò)架構(gòu)中。
通道注意力機(jī)制可以在保留每個(gè)通道平均特征的同時(shí)突出其主要特征,忽略無(wú)用特征,使得網(wǎng)絡(luò)更加關(guān)注人體姿態(tài)的關(guān)鍵點(diǎn)位置。該注意力主要是將特征圖在空間維度上進(jìn)行壓縮,通過(guò)兩種池化得到不同的特征映射,最終經(jīng)過(guò)元素級(jí)運(yùn)算得到通道級(jí)特征。
通道注意力模塊(Channel Attention Module,CAM)如圖2。通道注意力機(jī)制可以表達(dá)為
圖2 通道注意力模塊結(jié)構(gòu)圖
FAvg1=AvgPool(F1) ,
(1)
FMax1=MaxPool(F1) ,
(2)
Mc=σ(MLP(FAvg1⊕FMax1)) ,
(3)
F2=Mc?F1。
(4)
其中,給定一個(gè)輸入特征F1。首先將輸入特征圖分別經(jīng)過(guò)平均池化和最大池化得到特征FAvg1、FMax1;然后將兩個(gè)不同的特征圖送入MLP得到不同的輸出特征;接著將兩個(gè)不同的輸出特征進(jìn)行元素級(jí)求和運(yùn)算;再經(jīng)過(guò)一個(gè)用σ表示的Sigmoid激活函數(shù),得到通道注意力權(quán)重系數(shù)Mc;最后將輸入特征F1與通道注意力權(quán)重系數(shù)Mc進(jìn)行元素級(jí)相乘運(yùn)算,得到輸出后的通道注意力特征F2。
空間注意力機(jī)制主要關(guān)注圖像中的人類區(qū)域,同時(shí)更加關(guān)注人類姿態(tài)的可見關(guān)鍵點(diǎn)位置。該注意力主要是將特征圖在通道維度上進(jìn)行壓縮,通過(guò)兩種池化將得到不同的特征映射先拼接再降維,最終經(jīng)過(guò)元素級(jí)運(yùn)算得到空間級(jí)特征。
空間注意力模塊(Spatial Attention Module,SAM)如圖3。空間注意力機(jī)制可以表達(dá)為
圖3 空間注意力模塊結(jié)構(gòu)圖
[FAvg2,FMax2]=AvgPool(F2)⊕MaxPool(F2),
(5)
Ms=σ(f3×3[FAvg2,FMax2]) ,
(6)
F3=Ms?F2。
(7)
其中,本模塊的輸入特征為通道注意力輸出的特征F2。首先將輸入特征圖分別經(jīng)過(guò)平均池化和最大池化得到特征FAvg2、FMax2;再將兩個(gè)特征圖在通道維度上進(jìn)行拼接操作;然后將其輸入到大小為3×3的卷積層f3×3中,對(duì)特征通道進(jìn)行降維操作;再經(jīng)過(guò)一個(gè)用σ表示的Sigmoid激活函數(shù),得到空間注意力權(quán)重系數(shù)Ms;最后將輸入特征F2與空間注意力權(quán)重系數(shù)Ms進(jìn)行元素級(jí)相乘操作,得到輸出增強(qiáng)后的空間注意力特征F3。
由于因人體姿態(tài)本身存在的關(guān)鍵點(diǎn)自遮擋現(xiàn)象,使得圖像丟失部分關(guān)鍵特征信息,本文采取將通道注意力和空間注意力結(jié)合的特征增強(qiáng)方法,集成到CNN中,以捕獲特征之間的通道和空間相關(guān)性,學(xué)習(xí)使用全局信息來(lái)選擇性地強(qiáng)調(diào)信息豐富的特征,并抑制無(wú)關(guān)特征,從而加強(qiáng)CNN生成的表示,進(jìn)而提高人體姿態(tài)估計(jì)網(wǎng)絡(luò)處理自遮擋問(wèn)題的性能。
為解決人體姿態(tài)自遮擋的問(wèn)題,本文引入輕量級(jí)的混合注意力機(jī)制CBAM模塊[14]作為特征增強(qiáng)方法,以實(shí)現(xiàn)雙重注意力的作用,進(jìn)一步增強(qiáng)特征提取網(wǎng)絡(luò)的表達(dá)能力。CBAM模塊將通道注意力模塊和空間注意力模塊以串行的方式插入到ResNet-50每個(gè)Bottleneck Block層,能夠滿足本文理論需求。構(gòu)造新殘差注意力網(wǎng)絡(luò)如圖4。
圖4 殘差注意力網(wǎng)絡(luò)結(jié)構(gòu)圖
將CBAM模塊放置在3×3卷積層之后,由于該卷積層擁有較少的通道,相應(yīng)地該模塊引入的參數(shù)量也減少了。通過(guò)這種改進(jìn),可以自適應(yīng)地提取重要特征的同時(shí)抑制或忽視不必要的特征,增強(qiáng)CNN的特征提取能力和對(duì)自遮擋任務(wù)的適應(yīng)能力。
PEANet網(wǎng)絡(luò)的基本思想是將殘差注意力網(wǎng)絡(luò)替代原始深度殘差網(wǎng)絡(luò)ResNet-50的每個(gè)Bottleneck Block層,作為新的主干網(wǎng)絡(luò)處理輸入圖像。連接層中殘差分支采用的卷積均增加了同時(shí)關(guān)注信道和空間關(guān)系的混合注意力機(jī)制模塊,相比于SENet只關(guān)注通道注意力機(jī)制,可以取得更好的結(jié)果。采用注意圖特征增強(qiáng)網(wǎng)絡(luò)加強(qiáng)對(duì)深度信息的預(yù)測(cè)。輸入圖像經(jīng)姿態(tài)估計(jì)主干網(wǎng)絡(luò)得到增強(qiáng)的輸出特征定義為
Y=H(X) 。
(8)
式中:X表示輸入特征量;H表示主干網(wǎng)絡(luò)中普通卷積和混合注意力操作;Y表示主干網(wǎng)絡(luò)輸出的增強(qiáng)特征圖。PEANet網(wǎng)絡(luò)結(jié)構(gòu)圖如圖5。
圖5 PEANet網(wǎng)絡(luò)結(jié)構(gòu)圖
PEANet的目的是在經(jīng)過(guò)圖像處理后的單人圖像中預(yù)測(cè)人體關(guān)鍵點(diǎn)坐標(biāo)。首先將結(jié)合通道注意力和空間注意力的混合注意力模塊與現(xiàn)有的主干網(wǎng)絡(luò)ResNet-50堆疊在一起,構(gòu)成新的注意圖特征增強(qiáng)網(wǎng)絡(luò)。通過(guò)在每一層的局部感受野內(nèi)融合空間和通道信息來(lái)構(gòu)建信息特征,提高整個(gè)特征層次的空間編碼質(zhì)量來(lái)加強(qiáng)CNN的表征能力,自適應(yīng)地重新校準(zhǔn)通道和空間特征響應(yīng),提取多級(jí)特征映射;然后將增強(qiáng)后的輸出特征送入全局平均池化(Global Average Pooling,GAP)層,可快速提取全局性的上下文信息,有利于減少大量參數(shù),防止過(guò)擬合;再經(jīng)過(guò)一個(gè)全連接(Fully-Connected,FC)層,通過(guò)主干網(wǎng)絡(luò)輸出獲得密集的特征映射預(yù)測(cè)粗糙的關(guān)鍵點(diǎn)坐標(biāo);最后送入Transformer的關(guān)鍵點(diǎn)編碼器和查詢解碼器網(wǎng)絡(luò)中,以獲得關(guān)鍵點(diǎn)的最終特征,每個(gè)特征被送入到線性層中,預(yù)測(cè)相應(yīng)的關(guān)鍵點(diǎn)坐標(biāo),得到最終的姿態(tài)估計(jì)結(jié)果。
注意圖特征增強(qiáng)網(wǎng)絡(luò)輸出的特征為Transformer網(wǎng)絡(luò)提供更好的輸入,有助于網(wǎng)絡(luò)間的信息傳遞,從而解決因人體姿態(tài)產(chǎn)生的自遮擋問(wèn)題,提高姿態(tài)估計(jì)網(wǎng)絡(luò)對(duì)人體關(guān)鍵點(diǎn)的定位能力。
本實(shí)驗(yàn)的硬件配置為一張NVIDIA GeForce RTX 2070 Super顯卡,在Ubuntu16.04操作系統(tǒng)中,使用Python編程語(yǔ)言,采用Pytorch 1.7.0版本的深度學(xué)習(xí)框架對(duì)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練和驗(yàn)證測(cè)試。采用COCO 2017公開數(shù)據(jù)集,其中針對(duì)人體姿態(tài)估計(jì)任務(wù)的每個(gè)人體目標(biāo)標(biāo)注17個(gè)關(guān)節(jié)點(diǎn)的信息。在仿真中使用COCO訓(xùn)練集中7 392張圖片進(jìn)行訓(xùn)練,使用COCO驗(yàn)證集中的1 250張圖片進(jìn)行驗(yàn)證和測(cè)試。在COCO數(shù)據(jù)集下,訓(xùn)練采用AdamW[15]優(yōu)化器,批尺寸設(shè)置為4,迭代次數(shù)為325次,設(shè)置初始學(xué)習(xí)率為1.25e -4,衰減權(quán)重為1.25e -5。
本文使用的是COCO 2017公開數(shù)據(jù)集,以關(guān)鍵點(diǎn)相似性(object keypoint similarity,OKS)[16]作為人體姿態(tài)估計(jì)的評(píng)價(jià)標(biāo)準(zhǔn),它是通過(guò)計(jì)算人體關(guān)鍵點(diǎn)的位置距離來(lái)檢測(cè)關(guān)鍵點(diǎn)的相似度。該指標(biāo)定義為
(9)
式中:p為真值人的ID;i為關(guān)鍵點(diǎn)的ID;dpi為每個(gè)人的真實(shí)關(guān)鍵點(diǎn)位置與預(yù)測(cè)關(guān)鍵點(diǎn)位置的歐氏距離;Sp為當(dāng)前真值人所占面積的平方根;σi為第i個(gè)關(guān)鍵點(diǎn)的歸一化因子;vpi為第p個(gè)人的第i個(gè)關(guān)鍵點(diǎn)是否可見;δ為克羅內(nèi)克函數(shù),滿足兩個(gè)自變量相等時(shí)取值為1,不滿足時(shí)取值為0。
采用人體關(guān)節(jié)點(diǎn)預(yù)測(cè)的平均精度(average precision,AP)(OKS=0.50,0.55,…,0.95時(shí)10個(gè)預(yù)測(cè)關(guān)鍵點(diǎn)精度的均值)作為主要評(píng)價(jià)指標(biāo),以平均召回率(average recall,AR)(OKS=0.50,0.55,…,0.95時(shí)10個(gè)預(yù)測(cè)關(guān)鍵點(diǎn)召回率的均值)作為輔助評(píng)價(jià)指標(biāo)。AP表示每個(gè)關(guān)鍵點(diǎn)在測(cè)試數(shù)據(jù)集上,檢測(cè)結(jié)果的平均精度。當(dāng)給定一個(gè)OKSp的閾值s時(shí),算法精度(AP@s)可定義為
(10)
式中:p為真值人的ID;δ為克羅內(nèi)克函數(shù);s為閾值;OKSp為式(9)中所求數(shù)值,通常在[0,1]的范圍內(nèi)。當(dāng)OKSp大于設(shè)定閾值s時(shí),表示預(yù)測(cè)的人體關(guān)鍵點(diǎn)正確,否則預(yù)測(cè)錯(cuò)誤。
采用COCO 2017數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn)仿真驗(yàn)證,處理模型的輸入圖像尺寸均為256×192,以便于與其他方法進(jìn)行對(duì)比。在相同的輸入圖像尺寸、迭代周期和學(xué)習(xí)率下,對(duì)比了PEANet與其他三種姿態(tài)估計(jì)網(wǎng)絡(luò)模型的實(shí)驗(yàn)結(jié)果。實(shí)驗(yàn)結(jié)果對(duì)比結(jié)果見表1。
表1 實(shí)驗(yàn)結(jié)果對(duì)比
通過(guò)在原網(wǎng)絡(luò)中插入CBAM模塊,可以使PEANet更加關(guān)注與人體姿態(tài)相關(guān)的特征。其中,通道注意力模塊可以自動(dòng)學(xué)習(xí)每個(gè)通道的重要性,使網(wǎng)絡(luò)更加關(guān)注對(duì)姿態(tài)估計(jì)有貢獻(xiàn)的通道,抑制對(duì)無(wú)關(guān)信息的響應(yīng);空間注意力模塊可以自適應(yīng)地調(diào)整網(wǎng)絡(luò)對(duì)不同空間位置的關(guān)注程度,使網(wǎng)絡(luò)更加關(guān)注對(duì)姿態(tài)估計(jì)有貢獻(xiàn)的區(qū)域,提高對(duì)關(guān)鍵點(diǎn)的定位精度。通過(guò)表1的仿真結(jié)果表明,本文提出網(wǎng)絡(luò)模型PEANet在主要評(píng)估指標(biāo)上相比于原網(wǎng)絡(luò)模型均有一定的提升,平均精度(AP)提升了0.8%,平均召回率(AR)提升了0.7%,均取得了較好的準(zhǔn)確度。因此,可以說(shuō)明本文在網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)中加入用于增強(qiáng)卷積神經(jīng)網(wǎng)絡(luò)性能的混合注意力機(jī)制的有效性,效果提升顯著。本文引用的模塊能夠自適應(yīng)地調(diào)整網(wǎng)絡(luò)對(duì)不同通道和空間位置的關(guān)注程度,使網(wǎng)絡(luò)更加適應(yīng)不同姿態(tài)的變化和復(fù)雜背景的干擾,有利于提升關(guān)鍵點(diǎn)自遮擋的姿態(tài)估計(jì)精度[17]。
為四種網(wǎng)絡(luò)模型在人體姿態(tài)估計(jì)實(shí)驗(yàn)中可視化的預(yù)測(cè)結(jié)果如圖6。為便于觀察姿態(tài)關(guān)鍵點(diǎn)的定位,本文已對(duì)輸入圖像進(jìn)行適當(dāng)?shù)膱D像處理。
a)原圖 b)ShuffleNetv2 c)MobileNetv2 d)Poseur e)PEANet圖6 在四種網(wǎng)絡(luò)模型下的可視化對(duì)比
其中圖6a為輸入原圖,圖6b~6e分別為SHN、HRTet、Poseur和PEANet模型下輸出的姿態(tài),這四種網(wǎng)絡(luò)模型均為同一數(shù)據(jù)集和同一輸入圖像尺寸下的測(cè)試結(jié)果。從圖6b和圖6c中可以明顯看出,這名棒球運(yùn)動(dòng)員在遮擋的右臂和右腿部位均存在關(guān)鍵點(diǎn)誤檢的現(xiàn)象(用方框表示)。同樣對(duì)比圖6d和圖6e的姿態(tài)可視化結(jié)果,也可以明顯地看出本文所提方法在人體關(guān)鍵點(diǎn)識(shí)別的準(zhǔn)確性上更優(yōu)于原方法。因此,相較于其他三種方法,當(dāng)2D人體圖像出現(xiàn)關(guān)鍵點(diǎn)自遮擋的現(xiàn)象時(shí),利用本文方法能夠較為準(zhǔn)確地檢測(cè)出關(guān)鍵點(diǎn)的位置,可以提高人體姿態(tài)識(shí)別的準(zhǔn)確性。
針對(duì)姿態(tài)估計(jì)網(wǎng)絡(luò)中因人體姿態(tài)本身導(dǎo)致關(guān)鍵點(diǎn)自遮擋問(wèn)題,提出注意圖特征增強(qiáng)網(wǎng)絡(luò)。在主干網(wǎng)絡(luò)的每個(gè)Bottleneck層添加混合注意力機(jī)制,既能通過(guò)通道注意模塊幫助網(wǎng)絡(luò)更好地捕捉到重要的特征通道,以增強(qiáng)遮擋目標(biāo)的特征表達(dá),又能通過(guò)空間注意模塊幫助網(wǎng)絡(luò)更好地對(duì)重要空間位置特征的關(guān)注,以助于遮擋部位的特征恢復(fù)和目標(biāo)定位,進(jìn)而能夠提取更加準(zhǔn)確的深度特征圖。與原網(wǎng)絡(luò)模型相比,本文所提網(wǎng)絡(luò)提高了姿態(tài)關(guān)鍵點(diǎn)定位的準(zhǔn)確性,對(duì)2D人體姿態(tài)關(guān)鍵點(diǎn)的檢測(cè)有顯著提升能力,能夠獲取到較好的姿態(tài)估計(jì)結(jié)果,適用于家庭監(jiān)護(hù)和天眼監(jiān)控等應(yīng)用場(chǎng)景。