胡佳琪 王成軍 楊超宇
摘? 要:人體姿態(tài)估計作為計算機視覺熱門研究領域之一,文章首先分析2D人體姿態(tài)估計,提出增加深度信息的3D人體姿態(tài)估計。其次,對當前基于深度學習的3D人體姿態(tài)估計的研究成果進行闡述,針對單人人體姿態(tài)估計和多人人體姿態(tài)估計,從單目圖像、多目圖像兩個方向,提出不同模型在估計精度、姿態(tài)遮擋等難題方面的解決方案。最后,利用公共數(shù)據(jù)集對比分析各算法的性能指標并展望其未來發(fā)展趨勢。
關鍵詞:3D人體姿態(tài)估計;深度學習;關鍵點估計;估計精度
中圖分類號:TP391.4? 文獻標識碼:A? 文章編號:2096-4706(2023)04-0117-05
Research Review of 3D Human Pose Estimation Based on Deep Learning
HU Jiaqi1, WANG Chengjun2, YANG Chaoyu2
(1.School of Computer Science and Engineering, Anhui University of Science & Technology, Huainan? 232001, China;
2.School of Artificial Intelligence, Anhui University of Science & Technology, Huainan? 232001, China)
Abstract: Human pose estimation is one of the hot research fields of computer vision. Firstly, this paper analyzes 2D human pose estimation and proposes 3D human pose estimation with depth information. Secondly, the current research results of 3D human pose estimation based on deep learning are described. For single human pose estimation and multiple human pose estimation, from two directions of monocular image and monocular image, the solutions of different models in estimation accuracy, pose occlusion and other difficulties are proposed. Finally, the performance indicators of each algorithm are compared and analyzed using the common data set and its future development trend is prospected.
Keywords: 3D human pose estimation; deep learning; key point estimation; estimation accuracy
0? 引? 言
3D人體姿態(tài)估計作為計算機領域中一個特征識別任務,在計算機動畫影視制作、行為識別、姿態(tài)跟蹤、人體活動分析等領域都有著廣泛應用前景?;谏疃葘W習的3D人體姿態(tài)估計(3D Human Pose Estimation, 3D HPE)任務是在利用2D人體姿態(tài)估計定位并識別出人體關鍵點基礎上增加關鍵點之間深度信息,利用給定圖像或視頻獲取人體關節(jié)點或部位的3D位置。因此3D HPE所蘊含的信息更多,對姿態(tài)的描述更加精準,應用領域也更廣。但因人體姿態(tài)特性和精準標注3D Ground True(GT)數(shù)據(jù)的獲取難度較大,使3D姿態(tài)估計難度要遠高于2D姿態(tài)估計。
本文將從深度學習方向將人體姿態(tài)估計分為基于單目和基于多目兩大類進行概括,同時從單人姿態(tài)估計和多人姿態(tài)估計兩方面對基于單目圖像的方法進行介紹。論文將闡述現(xiàn)有深度學習的3D HPE方法所面臨的挑戰(zhàn);介紹不同方法研究進展、算法框架和性能,對主流算法使用的數(shù)據(jù)集及評價指標;最后對人體姿態(tài)估計的未來發(fā)展進行展望。
1? 問題與挑戰(zhàn)
在人體姿態(tài)估計研究領域發(fā)展過程中,傳統(tǒng)人體姿態(tài)估計方法通過人工設定的方向梯度直方圖[1](Histogram of Oriented Gradient, HOG)和尺度不變特征轉換(Scale-Invariant Feature Transform, SIFT)進行特征提取和壓縮特征空間維度的高層次信息來實現(xiàn)人體姿態(tài)估計。但傳統(tǒng)算法受制于圖像中的不同視角、遮擋和固有的幾何模糊性的影響,也因部件模型的結構單一,導致傳統(tǒng)方法適用范圍受限。
基于深度學習的人體姿態(tài)估計方法[2]主要是利用CNN對圖像或視頻幀的姿態(tài)特征進行提取,對表征學習能力更強且對姿態(tài)的估計精度更高。此方法不僅易于實現(xiàn),還可提取出特征魯棒性更強的卷積特征,獲得不同感受野下關節(jié)點特征,更準確獲得人體姿態(tài)結構模型。相對2D人體姿態(tài)估計,標準3D人體運動捕捉系統(tǒng)常配置在實驗室場景并需要標記多個攝像機的相機參數(shù),但這些設備價格昂貴且調試復雜,在自然場景中難以推廣應用;同時因環(huán)境受限還會導致運動受限,從而造成尺度和多樣性受限。
人體作為非剛性對象更易變形或產生微妙姿態(tài),并伴有遮擋情況發(fā)生,使深度信息不明確,極易降低3D估計精度?,F(xiàn)實世界應用模型需要對人體遮擋和低分辨率(人物只占圖像少部分)場景具有魯棒性,并進行實時處理。基于深度學習的3D人體姿態(tài)估計方法分類,如圖1所示。
2? 單目人體姿態(tài)估計
因單目圖像采集較易獲取且不受場景限制,基于單目圖像的人體姿態(tài)估計研究較多。根據(jù)是否依賴2D人體姿態(tài)估計器,單人場景下單目圖像3D人體姿態(tài)估計的方法可分為直接法、重建法兩類;多人場景下單目圖像3D人體姿態(tài)估計的方法可分為自頂向下和自底向上兩類方法。
2.1? 單人場景下單目3D HPE
2.1.1? 直接法
基于直接法的人體姿態(tài)估計也常被稱為基于直接回歸或端到端的人體姿態(tài)估計法,可直接將預測RGB圖像放入CNN網(wǎng)絡進行回歸特征提取,預測出3D關鍵點坐標,而不使用2D姿態(tài)作為中間表示。雖然直接法可更好地利用原始圖像中的信息,但直接從圖像空間進行回歸,計算成本較高,且對于未知運動姿態(tài)和相機位置的推廣具有局限性。近期研究中,Wandt[3]等人提出RepNet框架,利用GAN網(wǎng)絡通過生成器與判別器對已得出姿態(tài)交替訓練,實現(xiàn)對位置姿態(tài)估計;利用攝像機網(wǎng)絡得出相機參數(shù)實現(xiàn)對相機位置估計。但RGB圖像直接回歸到3D關鍵點坐標的映射,可能存在多個不同3D姿態(tài)的2D投影對應相同2D姿態(tài),這是使用直接法通過單目圖像進行姿態(tài)估計存在的不足。
2.1.2? 重建法
為了改進自然場景下模型的泛化能力,現(xiàn)有研究提出在2D姿態(tài)估計網(wǎng)絡基礎上,將3D姿態(tài)估計任務分解為兩個獨立的階段,在第一階段中使用2D姿態(tài)估計方法,利用外觀信息定位圖像中的2D人體關鍵點位置得到2D姿態(tài)標注;在第二階段,利用幾何信息將2D姿態(tài)提升至3D。故被稱為重建法或兩階段法。
利用重建法分階段處理可降低在數(shù)據(jù)采集過程中對圖像預測的偏差,但圖像以2D姿態(tài)作為中間表示通常是伴有噪聲。3D姿態(tài)估計器高度依賴2D姿態(tài)估計,3D姿態(tài)估計網(wǎng)絡的準確性也會受到2D姿態(tài)估計數(shù)據(jù)偏差的影響。在進化后的增強訓練數(shù)據(jù)集中,Li[4]等人提出了TAG-Net模型,由精確的2D聯(lián)合檢測器和新型2D-3D級聯(lián)網(wǎng)絡組成的深層架構,如圖2所示,在第一階段通過2D聯(lián)合檢測器對2D關鍵點估計;第二階段的2D-3D級聯(lián)網(wǎng)絡將2D關鍵點作為輸入,利用級聯(lián)殘差網(wǎng)絡得到3D關鍵點坐標并在姿態(tài)優(yōu)化網(wǎng)絡減少噪聲影響,實現(xiàn)無GT標注下利用先驗知識定義進化算子,預測3D人體骨架。合成骨架被投影至2D熱圖,并形成2D-3D對,以用于2D-3D網(wǎng)絡數(shù)據(jù)增強。
Xu[5]等人將人體運動遵循2D-3D對應關系和運動學定律引入到深度模型中,設計受透視投影約束的2D關鍵點優(yōu)化方案。利用透視投影對2D姿態(tài)細化并利用先驗知識,對含噪2D輸入實現(xiàn)運動學結構校正,排除不可靠關節(jié)點;同時,利用更可靠的部件完成3D軌跡重建。
人體骨骼的拓撲結構可以被視為圖結構,因此越來越多的實驗開始嘗試使用圖卷積網(wǎng)絡(GNN)實現(xiàn)由2D-3D姿態(tài)估計任務。圖模型通常使用樹結構來描述人體結構之間約束關系,通過圖推理的方式對3D人體姿態(tài)進行估計。圖模型結構一般將人體模型表示為一個無向圖,定義為G={V, E},其中頂點V={v1,…,vn}對n個人體姿態(tài)關鍵點,對于每一對相互連接的人體部位vi和vj都有邊(vi, vj)∈E。近期研究對于人體姿態(tài)估計關鍵點個數(shù)一般設為如圖3所示的16個關節(jié)點。
現(xiàn)有基于GCN方法已利用所有節(jié)點信息,但只在單尺度上處理特征,未充分利用模型深度信息所包含的中間特征和空間信息特征。多尺度和多層次的特征提取概念提出后,使模型擁有更強的表征提取能力。Xu[6]等人提出圖堆疊沙漏網(wǎng)絡,利用池化和反池化實現(xiàn)數(shù)據(jù)的下采樣和上采樣,不斷重復編碼圖沙漏網(wǎng)絡,融合多層次中間特征實現(xiàn)特征提取,實現(xiàn)高精度的2D-3D人體姿態(tài)估計。
2.2? 多人場景下單目3D HPE
隨著單人姿態(tài)估計模型估計精度的提升,近期研究重點已轉向多人場景下的3D姿態(tài)估計。多人場景下的單目3D人體姿態(tài)估計主要有自頂向下和自底向上兩種思路,兩種方法的對比如表1所示。
2.2.1? 自頂向下方法
自頂向下方法首先用目標檢測算法的檢測器檢測出完整人體姿態(tài)的邊界框,根據(jù)算法獲得人體邊界框中根關節(jié)點的絕對坐標,并由根坐標上計算其他關節(jié)相對坐標。其中Rogez等人[7]用分類器判別,回歸器進行細化后得到邊界框,將其分為k類位姿的集合。在擁擠場景下,此方法則預測候選框位置可能會包括他人部分肢體,無法準確定位關節(jié)點相對位置。
Benzine等人[8]研究后發(fā)現(xiàn),針對基于AlphaPose框架的錨框姿態(tài)預測網(wǎng)絡,可引入重疊感知錨框代替體積熱圖,以存儲完整的3D姿態(tài)。此方式可直接避免多人重疊造成的關節(jié)遮擋問題,且允許低分辨率輸出。同時提出自動優(yōu)化尺度和關節(jié)權重解決人體姿態(tài)分布不平衡帶來的問題。Li等人[9]提出新的評估基準衡量算法在擁擠場景下的性能,并提出了一種對每個關節(jié)和全局最大關節(jié)關聯(lián)執(zhí)行多峰預測的方法來解決擁擠人群中的姿態(tài)估計問題。也提出使用數(shù)據(jù)增強方式生成遮擋姿態(tài)的完整姿態(tài),明確檢測被遮擋的身體部位,并利用合成數(shù)據(jù)集對模型進行訓練。
2.2.2? 自底向上方法
自底向上方法首先在單目圖像中通過檢測器預測所有關節(jié)點的位置,再根據(jù)關鍵點相對關系將屬于同一人的關節(jié)點聯(lián)系起來,構成完整的人體姿態(tài)。相對自頂向下方法,該方法每次處理整張圖片,對擁擠場景處理效率較高,算法運行時間不受檢測場景中人體數(shù)量的影響,能更準確提取全局信息。當前自底向上的研究方法多為通過熱圖預測關節(jié)點位置,但輸入低分辨率圖像和對預測熱圖下采樣時將導致估計精度降低。若預測熱圖的精度較低,將無法區(qū)分關鍵點應屬于人群中的具體人體,會導致錯誤的3D姿態(tài)估計。Fabbri等人[10]提出在多人場景下使用體積熱圖自編碼器,通過降維壓縮原高分辨率的體積熱圖,只保存原始GT框有效信息,并引入量化誤差的低分辨率熱圖,實現(xiàn)網(wǎng)絡從粗粒度到細粒度的預測。
3? 多目人體姿態(tài)估計
將單目視圖下的3D人體姿態(tài)估計推廣至自然場景仍是一大挑戰(zhàn)。多目場景下交叉視圖存在歧義性,特別是當發(fā)生遮擋時,這類方法誤差更大。常采用3D圖結構模型(3DPS)來解決交叉視圖的關聯(lián)問題,用離散3D的2D關節(jié)恢復3D姿勢。3DPS的問題是巨大的狀態(tài)空間導致計算成本增加。在3DPS框架下引入時間一致性的交叉視圖跟蹤,輔助3D姿勢估計,可減少3DPS的狀態(tài)空間。近年來,研究者也采用通過預先定義的視圖一致性或時間一致性的3D人體姿態(tài)估計模型來表示姿態(tài)結構。
多視圖融合已成為解決遮擋、深度不明確等問題和實現(xiàn)重建3D姿態(tài)有效方法。Xie[11]等人將NativeFuse框架分解為通用融合模型和攝像機仿射變換MetaFuse模型,通過元學習風格算法學習融合模型,提高相機的適應能力,實現(xiàn)多角度視圖融合,提高多視圖融合的靈活性。Kocabas等人[12]提出自監(jiān)督直接單張圖像預測3D人體姿勢的EpipolarPose網(wǎng)絡架構。此架構利用極線幾何和對極幾何及2D姿勢標注創(chuàng)建的3D姿態(tài)監(jiān)督,并在訓練過程中通過多視圖自監(jiān)督對模型訓練,而在推理過程使用單視圖推理。Wandt[13]提出混合多個權值共享神經(jīng)網(wǎng)絡輸出的自監(jiān)督CanonPose訓練方法,利用多視圖一致性混合不同視圖,將2D數(shù)據(jù)分解為標準3D姿態(tài)和攝像機旋轉參數(shù),將其混合后重新投影至觀測數(shù)據(jù)。因該方法無需對多視圖數(shù)據(jù)進行2D或3D注釋,使此模型適應于包括帶有移動攝像機的許多自然場景。
上述方法都是利用多視圖對單人姿態(tài)進行重建,Chen[14]等人探索基于弱監(jiān)督的人體姿態(tài)估計方法,在3D利用交叉視圖跟蹤迭代多人3D姿態(tài)實現(xiàn)3D人體姿態(tài)估計。使用弱監(jiān)督方法,僅用2D注釋和簡單一致性約束,即可有效提取潛在空間中的姿態(tài)特征,為學習使用更少姿態(tài)標注和簡化網(wǎng)絡架構提供新思考方向。
4? 性能評估
基于深度學習的3D人體姿態(tài)估計模型研究通常要依賴數(shù)據(jù)集訓練,因為這些數(shù)據(jù)集具有大量帶有標注人體姿態(tài)信息。
Human3.6M[15]是目前具有完整標注的公共數(shù)據(jù)集之一,旨在捕捉多樣化運動和活動場景中的姿態(tài)數(shù)據(jù),該數(shù)據(jù)集創(chuàng)作者提出p#1、p#2和p#3作為數(shù)據(jù)集標準協(xié)議,如圖4(a)所示。為了解決場景單一性弊端,MPI-INF-3DHP[16]數(shù)據(jù)集對數(shù)據(jù)進行了增強處理,并提供3D GT注釋,如圖4(b)所示。CMU Panoptic[17]數(shù)據(jù)集采集環(huán)境為由多個六邊形構建的拱形實驗室環(huán)境,實驗中實驗人員參與了5種游戲,用于捕捉參與各種社交互動姿態(tài),如圖4(c)所示。
一般使用正確估計關節(jié)點百分比3D PCK、AUC(PCK圍成曲線下的面積)、正確部位百分比PCP、平均關節(jié)位置誤差MPJPE、P-MPJPE作為估計精度的評估指標,表2、3為各類模型在3DHP數(shù)據(jù)集及Human3.6M數(shù)據(jù)集中估計精度對比。
5? 結? 論
深度學習方法在3D人體姿態(tài)估計應用中已取得一些成果,但現(xiàn)有的3D人體姿態(tài)估計模型仍存在部分缺陷,未來人體姿態(tài)估計的發(fā)展趨勢在于:
(1)人體姿態(tài)估計將逐漸從對單人姿態(tài)重建過渡到對密集人群的姿態(tài)恢復與重建。在密集人群圖像中的個體姿態(tài)存在分辨率較低的問題,同時姿態(tài)之間相互遮擋也會影響對姿態(tài)重建結果。使用自上而下的方法對姿態(tài)進行重建,邊界框易出現(xiàn)重疊檢測和錯誤定位等情況,而重疊檢測會對同一人體姿態(tài)進行重構造成姿態(tài)冗余,錯誤定位將導致錯誤重構,無論哪種影響都會降低人體姿態(tài)估計模型的估計精度,迫切需要研究如何從復雜場景中恢復多人姿態(tài)。
(2)精簡人體姿態(tài)估計模型參數(shù),提升模型泛化能力。為提高估計精度,可采用基于2D人體姿態(tài)估計器,訓練出由2D至3D姿態(tài)進行映射的模型,或提取多階段特征并進行特征融合。多階段特征提取往往需在神經(jīng)網(wǎng)絡中設置多層或多模塊,卷積核數(shù)的增加導致模型參數(shù)劇增,模型復雜度的提高又限制了其在其他場景的泛化能力;同時,應用場景的改變將降低人體關鍵點檢測結果的估計精度。元學習和GAN網(wǎng)絡等深度學習模型的應用,為模型泛化能力的提高提供了新思路。
(3)通過數(shù)據(jù)增強技術提高人體姿態(tài)估計模型的泛化能力?,F(xiàn)有公共數(shù)據(jù)集提供了大量人體姿態(tài)數(shù)據(jù),因3D數(shù)據(jù)采集困難,大多數(shù)據(jù)采集于實驗室場景,無法提供人體可能產生的所有動作數(shù)據(jù)。數(shù)據(jù)缺失使模型難以在新場景下完成強特征提取,不具復雜姿態(tài)適應性。可通過多視圖一致性的方式為模型算法提供更多特征信息,或從姿態(tài)估計網(wǎng)絡中分離出關于相機參數(shù)網(wǎng)絡,在新場景下通過輕量級仿射變換學習到關于相機參數(shù)信息,提高模型泛化能力。
參考文獻:
[1] 陳艷,胡榮,李升健,等.基于組合特征和SVM的視頻中人體行為識別算法 [J].沈陽工業(yè)大學學報,2020,42(6):665-669.
[2] 張小娜,吳慶濤.基于深度學習的自頂向下人體姿態(tài)估計算法 [J].電子測量技術,2021,44(9):105-109.
[3] WANDT B,ROSENHAHN B. RepNet:Weakly Supervised Training of an Adversarial Reprojection Network for 3D Human Pose Estimation [C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).Long Beach:IEEE,2019:7774-7783.
[4] LI S C,KE L,PRATAMA K,et al. Cascaded Deep Monocular 3D Human Pose Estimation with Evolutionary Training Data [C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).Seattle:IEEE,2020:6172-6182.
[5] XU J W,YU Z B,NI B B,et al. Deep Kinematics Analysis for Monocular 3D Human Pose Estimation [C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).Seattle:IEEE,2020:896-905.
[6] XU T H,TAKANO W. Graph Stacked Hourglass Networks for 3D Human Pose Estimation [C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).Nashville:IEEE,2021:16100-16109.
[7] ROGEZ G,WEINZAEPFEL P,SCHMID C. LCR-Net++:Multi-person 2D and 3D Pose Detection in Natural Images [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2020,42(5):1146-1161.
[8] BENZINE A,CHABOT F,LUVISON B,et al. Pandanet: Anchor-based single-shot multi-person 3D pose estimation [C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).Seattle:IEEE,2020:6855-6864.
[9] LI J F,WANG C,ZHU H,et al. CrowdPose: Efficient Crowded Scenes Pose Estimation and A New Benchmark [C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).Long Beach:IEEE,2019:10855-10864.
[10] FABBRI M,LANZI F,CALDERARA S,et al. Compressed Volumetric Heatmaps for Multi-Person 3D Pose Estimation [C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).Seattle:IEEE,2020:7202-7211.
[11] XIE R C,WANG C Y,WANG Y Z. MetaFuse: A Pre-trained Fusion Model for Human Pose Estimation [C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).Seattle:IEEE,2020:13683-13692.
[12] KOCABAS M,KARAGOZ S,AKBAS E. Self-Supervised Learning of 3D Human Pose Using Multi-View Geometry [C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).Long Beach:IEEE,2019:1077-1086.
[13] WANDT B,RUDOLPH M,ZELL P,et al. CanonPose: Self-Supervised Monocular 3D Human Pose Estimation in the Wild [C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).Nashville:IEEE,2021:13289-13299.
[14] CHEN L,AI H Z,CHEN R,et al. Cross-view tracking for multi-human 3D pose estimation at over 100 fps [C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).Seattle:IEEE,2020:3276-3285.
[15] IONESCU C,PAPAVA D,OLARU V,et al. Ionescu Catalin et al. Human3.6M: Large Scale Datasets and Predictive Methods for 3D Human Sensing in Natural Environments [J].IEEE transactions on pattern analysis and machine intelligence,2014,36(7):1325-1339.
[16] MEHTA D,RHODIN H,CASAS D,et al. Monocular 3D Human Pose Estimation in the Wild Using Improved CNN Supervision [C]//2017 International Conference on 3D Vision (3DV).Qingdao:IEEE,2017:506-516.
[17] JOO H,SIMON T,LI X L,et al. Panoptic Studio: A Massively Multiview System for Social Interaction Capture [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2019,41(1):190-204.
作者簡介:胡佳琪(1997—),女,漢族,天津人,碩士研究生在讀,研究方向:計算機視覺;王成軍(1978—),男,漢族,江蘇漣水人,教授,博士,研究方向:計算機視視覺、智能機械與機器人等;楊超宇(1981—),男,漢族,安徽淮南人,教授,博士,研究方向:計算機視覺、大數(shù)據(jù)分析與挖掘等。
收稿日期:2022-10-17
基金項目:安徽省自然科學基金面上項目(2208085ME128)