岳程宇 閆勝業(yè)
摘 ?要:在神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)流行的今天,2D人體姿態(tài)估計作為其他計算機視覺任務(wù)的研究基礎(chǔ),它的檢測精度和速度對后續(xù)其他檢測等任務(wù)有著重大的影響,并且引起了學(xué)者們的廣泛關(guān)注。文章針對該方向的研究內(nèi)容進行了綜述,闡述了研究意義和應(yīng)用,對數(shù)據(jù)庫和評價指標進行介紹,接著結(jié)合代表作分析研究了姿態(tài)估計的傳統(tǒng)方法、深度學(xué)習(xí)方法,最后總結(jié)討論現(xiàn)階段研究的問題和趨勢。
關(guān)鍵詞:計算機視覺;姿態(tài)估計;人體關(guān)鍵點
中圖分類號:TP391.41 ? ? ?文獻標識碼:A 文章編號:2096-4706(2020)12-0090-03
Abstract:Under the popularity of neural network and deep learning,2D pose estimation,the precision and speed of it has a great influence on the next task,and it has attracted wide attention of scholars. For this research details,this paper expounds the meanings and applications,introduces the databases and the evaluation indexes,then analyses the conventional methods and deep learning methods. Finally,it summarizes and discusses the current research problems and trend.
Keywords:computer vision;pose estimation;key points of human body
0 ?引 ?言
2D人體姿態(tài)估計是計算機視覺研究中的一個重要分支,其研究結(jié)合了檢測、識別、跟蹤的相關(guān)方法。其主要目的是對人體骨骼的關(guān)鍵點進行準確快速定位識別,即給出一張RGB的圖像,定位圖中人體的關(guān)鍵點位置,并確定其隸屬的人體。
筆者在研究新型人體姿態(tài)估計網(wǎng)絡(luò)時,發(fā)現(xiàn)更進一步的研究需要對2D人體姿態(tài)估計的數(shù)據(jù)庫及其評價指標、傳統(tǒng)方法和主流方法進行綜合了解,并且要把握姿態(tài)估計現(xiàn)在的困難以及未來的發(fā)展。筆者通過查閱分析近些年來人體姿態(tài)估計的相關(guān)方法論文,從其研究的意義和應(yīng)用、數(shù)據(jù)庫及其評價指標、2D人體姿態(tài)估計的傳統(tǒng)方法和深度學(xué)習(xí)方法、現(xiàn)階段的問題與發(fā)展趨勢這4個角度分析進行了總結(jié)。
1 ?研究意義與應(yīng)用
2D人體姿態(tài)估計的研究是一些其他計算機視覺問題研究的基礎(chǔ)。它可以作為3D人體姿態(tài)估計研究的鋪墊,對于視頻動作識別來說可以作為前處理的來源,在重識別、視頻追蹤問題上,2D姿態(tài)估計都可以作為靜態(tài)圖像,并為動態(tài)處理提供有力的支持。
在現(xiàn)實應(yīng)用方面,人體姿態(tài)估計可以應(yīng)用于電影VR和AR技術(shù)、人體仿真模型的構(gòu)建、手機短視頻軟件的人體動作特效等;在安全領(lǐng)域中可以作為駕駛輔助對行人進行檢測和其未來動作進行識別、預(yù)測;在特殊重大場合下對密集人群危險動作的視頻監(jiān)控等
2 ?數(shù)據(jù)庫及評價標準
2D姿態(tài)估計的數(shù)據(jù)庫主要有MS COCO、MPII、FLIC。目前主流研究姿態(tài)估計的數(shù)據(jù)庫是COCO和MPII這兩個數(shù)據(jù)庫。
COCO數(shù)據(jù)集[1]是微軟于2014年為用于進行圖像分割檢測,圖片上下文關(guān)系研究而出資標注的。它是繼ImageNet競賽后計算機視覺領(lǐng)域最受關(guān)注和權(quán)威的比賽之一。COCO數(shù)據(jù)集包含了有20萬張圖片和25萬個帶有17個人體骨骼關(guān)鍵點標注實例。
COCO數(shù)據(jù)集的評價指標為OKS,其中KS是一個關(guān)鍵點真值與預(yù)測值的相似度,如式(1),P表示的真值中的每個人的ID,pi表示的是某人關(guān)鍵點的ID,Vpi=0表示這個關(guān)鍵點沒有標注,Vpi=1表示標注了但是圖像中不可見,Vpi=2表示標注了且圖像中可見, 表示的是這個人所占面積的大小的平方根,σi表示第i個骨骼的歸一化因子,dpi表示真值關(guān)鍵點與預(yù)測關(guān)鍵點之間的歐式距離,δ將關(guān)鍵點選出的函數(shù)。
MPII數(shù)據(jù)集是2014年發(fā)布的關(guān)于人體姿態(tài)估計的評估基準,它包括大約2.5萬張圖片,其中有超過4萬人的身體關(guān)鍵點有注釋,每個人體注釋了16個特征關(guān)鍵點。它的評價指標為PCK@0.5,是檢測正確關(guān)鍵點的百分比,若預(yù)測關(guān)節(jié)與真實關(guān)節(jié)之間的距離在特定閾值內(nèi),則檢測到的關(guān)節(jié)被認為是正確的,其閾值大小為頭骨長度的50%。
3 ?2D人體姿態(tài)估計研究方法
3.1 ?傳統(tǒng)方法
人體姿態(tài)估計的傳統(tǒng)研究的主流方式有兩種。第一類是直接通過一個全局特征,把人體姿態(tài)估計問題當成分類問題或回歸問題直接求解。
Randomized Trees for Human Pose Detection[2]中作者提出將人體姿態(tài)估計問題當作分類任務(wù)來做,他們的姿態(tài)估計算法中使用了層次樹和隨機森林的方法,隨機樹和隨機森林可以快速且高效地處理多分類的問題且具有一定的魯棒性。在特征提取方法中,作者使用了當時比較成功的HOG描述子進行特征提取,如圖1所示。
第二類是基于一個圖形結(jié)構(gòu)模型,其思想是,將對象表示成一堆“部件”的集合,而部件的組合是可以發(fā)生形變的。一個部件表示目標對象某部分圖形的模板。當部件通過像素位置和方向進行參數(shù)化后,其得到的結(jié)構(gòu)可以對與姿態(tài)估計非常相關(guān)的關(guān)鍵點進行建模。
在Pictorial Structures Revisited:People Detection and Articulated Pose Estimation[5]中,作者提出了功能強大且簡單的身體模型,可以精確有效地推斷身體部件的樹模型結(jié)構(gòu),同時研究了強大的關(guān)鍵點檢測器,適用于各種不同場景下對關(guān)鍵點的檢測。而且基于形狀上下文描述計算,使用了AdaBoost來訓(xùn)練分類器。
3.2 ?深度學(xué)習(xí)方法
在傳統(tǒng)方法中,特征的提取和圖結(jié)構(gòu)模型在姿態(tài)估計中都扮演了非常重要的角色。隨著神經(jīng)網(wǎng)絡(luò)的流行、深度學(xué)習(xí)的運用,它將特征提取、分類和空間位置建模都直接在一個“黑盒”中進行端到端的訓(xùn)練,這不僅方便研究人員設(shè)計與優(yōu)化,而且計算處理的數(shù)據(jù)越多,檢測的效果也越好。
2D人體姿態(tài)估計的深度學(xué)習(xí)方法大致可分為自上而下(Top-Down)和自底向上(Bottom-Up)這兩種。
3.2.1 ?Top-Down
這是一種自上而下的方法它是先通過目標檢測算法檢測人體的邊界框,再對圖片進行裁剪,將裁剪圖片進行單人姿態(tài)估計。
DeepPose:Human Pose Estimation via Deep Neural Networks[3]是第一篇將深度學(xué)習(xí)應(yīng)用在人體姿態(tài)估計問題的文獻。它把姿態(tài)估計設(shè)計成一個關(guān)鍵點回歸問題,并用神經(jīng)網(wǎng)絡(luò)來實現(xiàn)。首先輸入圖像,用一個7層的卷積神經(jīng)網(wǎng)絡(luò)和使用L2損失對模型進行回歸訓(xùn)練。它克服了之前只使用局部特征的缺陷,并使用了全局的特征網(wǎng)絡(luò),如圖2所示。
HRNet是2019年提出來的新的單人姿態(tài)估計研究的方法。HRNet是通過串聯(lián)多個由高分辨到低分辨的子網(wǎng)來建立的,每個子網(wǎng)構(gòu)成一個階段卷積序列且通過一個下采樣層將分辨率減半。網(wǎng)絡(luò)向右側(cè)方向,深度不斷加深;網(wǎng)絡(luò)向下方向,特征圖分辨率逐漸降低,高分辨率和低分辨率特征圖在中間有互相融合的過程,這樣提升了高分辨下的表示。
3.2.2 ?Bottom-Up
這是一種自下而上的方法,它是先檢測圖片中所有的關(guān)鍵點,然后再對關(guān)鍵點通過匹配算法進行人體匹配。
在DeepCut中,作者通過CNN提取關(guān)鍵點的候選區(qū)域,每一個候選區(qū)域?qū)?yīng)一個關(guān)鍵點,所有關(guān)鍵點組成一個密集連接圖,關(guān)鍵點之間的關(guān)聯(lián)性作為圖節(jié)點的權(quán)重,將其作為一個優(yōu)化問題。我們可以通過歸類得到有多少個人,并且通過圖論節(jié)點的聚類,進行非極大值抑制,將優(yōu)化問題表示為整數(shù)線性規(guī)劃求解。
在OpenPose[4]中作者將輸入圖片輸入到一個特征提取網(wǎng)絡(luò),提取特征圖后分別使用神經(jīng)網(wǎng)絡(luò)提取關(guān)鍵點置信圖和親和場,結(jié)構(gòu)如圖3所示。置信圖和親和向量場已知后,將關(guān)鍵點作為圖的頂點,將關(guān)鍵點之間的相關(guān)性PAF看為圖的邊權(quán),則將多人檢測問題轉(zhuǎn)化為二分圖匹配問題,并用匈牙利算法求得最優(yōu)匹配。關(guān)鍵點連線聚類問題可看成是各肢體之間獨立優(yōu)化配對,解決了肢體涉及的兩類關(guān)鍵點的連線聚類后,最后依據(jù)關(guān)鍵點相同銜接組成整個姿態(tài)。
4 ?現(xiàn)階段人體姿態(tài)估計研究問題趨勢
在擁擠場景下人體關(guān)鍵點檢測是目前十分具有挑戰(zhàn)的任務(wù),我們需要研究更多在不同場景、不同著裝、不同姿態(tài)、不同尺度下人的標注圖片。同時,這對姿態(tài)估計的檢測速度和精度都提出了非常高的要求。
在檢測任務(wù)中,網(wǎng)絡(luò)大部分都是需要巨大參數(shù)量和計算量的大網(wǎng)絡(luò),在計算機上容易實現(xiàn),但是轉(zhuǎn)入到嵌入式,移動端的網(wǎng)絡(luò)研究還是遠遠不夠的,現(xiàn)在學(xué)者們主要的關(guān)注點是在提高關(guān)鍵點的檢測精度,而在如何提高檢測效率這個問題還需要進一步研究。
目前2D人體關(guān)鍵點的研究,有從2D人體姿態(tài)估計+匹配的方法推斷3D結(jié)構(gòu),研究3D人體姿態(tài)估計問題,并有向更高維發(fā)展的趨勢。
單一的圖像理解已經(jīng)穩(wěn)步推進,但視頻理解的進展較為緩慢,在Mask R-CNN的預(yù)測基礎(chǔ)上,通過整合相鄰視頻幀的時間信息對CNN進行擴展預(yù)測視頻信息,將研究的重點從圖片向視頻的方向發(fā)展。
在檢測問題中要想提升性能,往往需要更多的資源和成本,所以要在保證精度不變的情況下提升網(wǎng)絡(luò)效率,構(gòu)建一個輕量級的網(wǎng)絡(luò)。我們可以采用知識蒸餾的原理,實現(xiàn)姿態(tài)估計快速和低成本部署。
5 ?結(jié) ?論
2D人體姿態(tài)估計從傳統(tǒng)方法進入了深度學(xué)習(xí)的時代,未來新的網(wǎng)絡(luò)結(jié)構(gòu)也不會是解決估計問題的核心,應(yīng)通過數(shù)據(jù)處理、增強,以及更多的機器學(xué)習(xí)和數(shù)學(xué)方面的知識,來共同研究這個問題。從工程方面產(chǎn)品落地角度思考,要研究更輕量、方便的模型進行應(yīng)用??傊?,2D人體姿態(tài)估計是當下一個具有很高熱度的計算機視覺研究領(lǐng)域,擁有非常廣闊的研究前景。
參考文獻:
[1] LIN T Y,MAIRE M,BELONGIE S,et al. Microsoft COCO:Common Objects in Context [C]// Conference proceedings ECCV 2014,Zurich,Switzerland:Springer,2014.
[2] ROGEZ G,RIHAN J,RAMALINGAM S,et al. Randomized trees for human pose detection [C]//2008 IEEE Conference on Computer Vision and Pattern Recognition,Anchorage,AK,USA:IEEE,2018.
[3] TOSHEV A,SZEGEDY C. DeepPose:Human Pose Estimation via Deep Neural Networks [J/OL]. arXiv:1312.4659 [cs.CV].(2014-08-20).https://arxiv.org/abs/1312.4659.
[4] CAO Z,SIMON T,WEI S E,et al. Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields [J/OL]. arXiv:1611.08050 [cs.CV].(2017-04-14). https://arxiv.org/abs/1611.08050.
作者簡介:岳程宇(1996.01—),男,漢族,江蘇南京人,碩士在讀,研究方向:模式識別;閆勝業(yè)(1978.06—),男,漢族,河南新鄉(xiāng)人,教授,博士研究生,工學(xué)博士,研究方向:視頻與圖像處理。