史健 李毅
摘要:通過單目RGB攝像頭自動(dòng)估計(jì)人體三維姿態(tài)是一個(gè)重要的、具有挑戰(zhàn)性且仍未被解決問題,主流算法大多基于監(jiān)督學(xué)習(xí)的深度學(xué)習(xí)方法,但是這種方法的效果受訓(xùn)練數(shù)據(jù)質(zhì)量的影響很大,而標(biāo)定好的三維人體姿態(tài)數(shù)據(jù)集相對(duì)稀缺,阻礙了這一問題的進(jìn)一步的研究。在現(xiàn)有標(biāo)記數(shù)據(jù)有限的情況下,利用人體姿態(tài)信息在二維空間和三維空間上存在的內(nèi)在關(guān)系,提出了一種基于自監(jiān)督學(xué)習(xí)和監(jiān)督學(xué)習(xí)相結(jié)合的半監(jiān)督學(xué)習(xí)訓(xùn)練方式的三維人體姿態(tài)估計(jì)方法,并在Human3.6M數(shù)據(jù)集上用占數(shù)據(jù)總量不到40%的帶標(biāo)記數(shù)據(jù)的半監(jiān)督訓(xùn)練模型,達(dá)到了接近90%的監(jiān)督訓(xùn)練模型的測(cè)試效果,為數(shù)據(jù)缺乏問題提供解決思路。
關(guān)鍵詞:深度學(xué)習(xí);半監(jiān)督學(xué)習(xí);人體姿態(tài)估計(jì);自監(jiān)督學(xué)習(xí);空洞卷積
中圖分類號(hào):TP311? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2021)12-0016-02
1引言
人體姿態(tài)估計(jì)的任務(wù)是估計(jì)圖像或者視頻中人體各個(gè)關(guān)鍵骨骼點(diǎn)的空間位置,基于單目RGB攝像頭進(jìn)行人體姿態(tài)估計(jì)有著廣泛地應(yīng)用前景,例如動(dòng)畫制作、虛擬現(xiàn)實(shí)、增強(qiáng)現(xiàn)實(shí)、行為識(shí)別、人機(jī)互動(dòng)、安防監(jiān)控等,同時(shí)作為一個(gè)仍未被完全解決的學(xué)術(shù)問題,人體姿態(tài)估計(jì)也有著很高的研究價(jià)值。在過去的30年中,在圖像序列和視頻序列中自動(dòng)估計(jì)人體姿態(tài)信息始終是計(jì)算機(jī)視覺領(lǐng)域的熱門研究方向。
2 三維人體關(guān)鍵點(diǎn)估計(jì)的研究現(xiàn)狀
在深度學(xué)習(xí)取得重大突破之前,大部分三維人體姿態(tài)估計(jì)算法都是基于特征工程設(shè)計(jì)或者根據(jù)人體骨骼和關(guān)節(jié)活動(dòng)性建模,但由于需要大量手工標(biāo)注特征,同時(shí)泛化性較差,只能在部分場(chǎng)合得到一些應(yīng)用;而深度學(xué)習(xí)的出現(xiàn)為三維人體姿態(tài)估計(jì)提供了一種端到端、無須手工標(biāo)注特征的優(yōu)秀解決方案。
但受制于三維人體骨骼點(diǎn)信息采集復(fù)雜,設(shè)備昂貴,同時(shí)現(xiàn)有數(shù)據(jù)集都是在室內(nèi)專業(yè)條件下采集,對(duì)于室外場(chǎng)景處理效果不佳,為了解決這些問題,許多基于自監(jiān)督、半監(jiān)督和弱監(jiān)督的深度學(xué)習(xí)方法逐漸出現(xiàn),并取得了接近監(jiān)督學(xué)習(xí)的效果。
2.1深度學(xué)習(xí)算法
二維人體姿態(tài)估計(jì)已經(jīng)取得了非常多的優(yōu)秀成果,例如CPN、OpenPos等,許多三維人體姿態(tài)估計(jì)的工作都是基于這些效果很好的二維檢測(cè)器,或直接回歸骨骼點(diǎn)的深度信息,或在將二維坐標(biāo)根據(jù)一定的映射關(guān)系直接提升到三維坐標(biāo)。
2.2半監(jiān)督學(xué)習(xí)
半監(jiān)督學(xué)習(xí)主要在未標(biāo)記的數(shù)據(jù)中挖掘數(shù)據(jù)本身的特征,這種方法已經(jīng)在許多領(lǐng)域有了行之有效的實(shí)踐結(jié)果。一些工作將從二維姿態(tài)中學(xué)習(xí)到的特征按照一定關(guān)系轉(zhuǎn)換成三維姿態(tài)特征,例如使用多視角相機(jī)采集數(shù)據(jù),學(xué)習(xí)三維姿態(tài)的特征表達(dá),從而生成三維姿態(tài)信息,但是這種方法最大的問題是模型的泛化性比較一般,對(duì)于訓(xùn)練數(shù)據(jù)中的環(huán)境參數(shù)較為敏感,而且多角度數(shù)據(jù)訓(xùn)練較為復(fù)雜,不能應(yīng)用到無監(jiān)督環(huán)境。另一些工作利用對(duì)抗生成網(wǎng)絡(luò)可以區(qū)分真實(shí)數(shù)據(jù)和虛假數(shù)據(jù)的特性,將未標(biāo)記的二維和三維數(shù)據(jù)一起送入對(duì)抗生成網(wǎng)絡(luò),將三維姿態(tài)映射成為二維姿態(tài)后與送入的二維姿態(tài)數(shù)據(jù)進(jìn)行比對(duì),學(xué)習(xí)三維姿態(tài)的生成表達(dá)式,而這種問題同樣存在一定的局限性,模型只能學(xué)習(xí)到訓(xùn)練數(shù)據(jù)中所包含到的姿態(tài)信息的特征表達(dá),而對(duì)于未訓(xùn)練到的情況表現(xiàn)并不理想。
2.3本文工作
本文工作為了能更加有效地在時(shí)序維度進(jìn)行卷積提取幀間信息,對(duì)于人體各關(guān)鍵點(diǎn)的預(yù)測(cè)直接以坐標(biāo)形式進(jìn)行回歸;并用全卷積網(wǎng)絡(luò)代替循環(huán)神經(jīng)網(wǎng)絡(luò),即并行利用了時(shí)序序列信息,也通過舍棄部分池化層在卷積過程中保留了更多的圖像信息,同時(shí)還沒有降低網(wǎng)絡(luò)的感受野,放棄使用大量環(huán)境參數(shù)加上相機(jī)參數(shù)的模式,僅僅使用相機(jī)參數(shù)對(duì)二維進(jìn)行提升,減少了計(jì)算的復(fù)雜度。
3 基于半監(jiān)督學(xué)習(xí)的三維人體姿態(tài)估計(jì)
3.1網(wǎng)絡(luò)結(jié)構(gòu)
本文網(wǎng)絡(luò)結(jié)構(gòu)如圖1,首先采用魯棒性較好的Mask-RCNN網(wǎng)絡(luò)作為二維檢測(cè)器,選取人體17個(gè)骨骼點(diǎn)作為表示人體姿態(tài)的表示向量,直接回歸二維姿態(tài)各骨骼點(diǎn)的坐標(biāo),隨后選取當(dāng)前幀和當(dāng)前幀前后相隔兩幀的數(shù)據(jù)作為輸入送入下一級(jí)的時(shí)序模型。
本文采用空洞全卷積網(wǎng)絡(luò)代替以往用來進(jìn)行時(shí)序卷積的循環(huán)神經(jīng)網(wǎng)絡(luò),使得網(wǎng)絡(luò)可以并行地對(duì)姿態(tài)序列進(jìn)行卷積,更加快速和有效地提取幀間關(guān)聯(lián)信息,時(shí)序模型結(jié)構(gòu)如圖2,主要由四個(gè)相同的帶殘差結(jié)構(gòu)的模塊級(jí)聯(lián)而成,輸入為二維檢測(cè)器輸出的17個(gè)二維骨骼點(diǎn)坐標(biāo),經(jīng)過時(shí)域模塊卷積后將結(jié)果送入全連接層,根據(jù)相機(jī)參數(shù)將二維骨骼點(diǎn)提升至三維坐標(biāo),得到最終的17個(gè)三維骨骼點(diǎn)坐標(biāo)信息。
3.2半監(jiān)督學(xué)習(xí)
半監(jiān)督學(xué)習(xí)應(yīng)用在訓(xùn)練過程中,主要由兩部分,一部分是傳統(tǒng)的監(jiān)督學(xué)習(xí),將標(biāo)記好的數(shù)據(jù)送入網(wǎng)絡(luò),先通過二維檢測(cè)器得到各骨骼點(diǎn)的坐標(biāo),同時(shí)記錄下每個(gè)骨骼點(diǎn)的距離,也就是相應(yīng)的骨骼長度;之后將二維骨骼點(diǎn)數(shù)據(jù)送入后續(xù)時(shí)序卷積模塊預(yù)測(cè)各個(gè)骨骼點(diǎn)的三維坐標(biāo),與標(biāo)記數(shù)據(jù)進(jìn)行對(duì)比,計(jì)算損失函數(shù),形式為交叉熵,隨后通過反向傳播算法更新網(wǎng)絡(luò)權(quán)重,重復(fù)這一過程一定次數(shù)后,網(wǎng)絡(luò)可以近似學(xué)習(xí)到數(shù)據(jù)的分布規(guī)律,使得預(yù)測(cè)結(jié)果更加準(zhǔn)確。在每一個(gè)批次訓(xùn)練完成之后,對(duì)各個(gè)骨骼長度取平均值并記錄,保存等待自監(jiān)督學(xué)習(xí)時(shí)使用。
訓(xùn)練過程中的另一部分就是利用大量無標(biāo)簽數(shù)據(jù)的自監(jiān)督學(xué)習(xí)。自監(jiān)督學(xué)習(xí)過程成中,網(wǎng)絡(luò)讀入無標(biāo)記的數(shù)據(jù),預(yù)測(cè)得到二維和三維關(guān)鍵點(diǎn)信息,將三維坐標(biāo)結(jié)合監(jiān)督學(xué)習(xí)中獲得的骨骼長度,將骨骼長度作將三維坐標(biāo)重新映射回二維坐標(biāo)的軟限制,使得重新映射成二維的人體姿態(tài)中的各個(gè)骨骼長度與原圖像中更為接近,保證重映射過程的準(zhǔn)確性。最后將兩種二維坐標(biāo)的差距作為損失函數(shù),形式同樣為交叉熵,并根據(jù)損失函數(shù)更新網(wǎng)絡(luò)參數(shù)。實(shí)際訓(xùn)練中,監(jiān)督學(xué)習(xí)和自監(jiān)督學(xué)習(xí)根據(jù)標(biāo)記數(shù)據(jù)在所有訓(xùn)練數(shù)據(jù)中的比例交替進(jìn)行,監(jiān)督訓(xùn)練先行進(jìn)行。
4 實(shí)驗(yàn)
4.1 Human3.6M數(shù)據(jù)集
Human3.6M[3]數(shù)據(jù)集是由專業(yè)團(tuán)隊(duì)利用專門的動(dòng)捕設(shè)備在室內(nèi)采集制作的大型三維人體姿態(tài)數(shù)據(jù)集,一共包括11個(gè)對(duì)象的360萬幀圖像,并對(duì)其中7個(gè)對(duì)象的三維姿態(tài)進(jìn)行了標(biāo)注,每個(gè)對(duì)象都用4部同步相機(jī)記錄了15種不同的動(dòng)作。本文工作選取子集S1和S5作為監(jiān)督訓(xùn)練的數(shù)據(jù)集,分別以這兩個(gè)數(shù)據(jù)子集10%、30%、50%、70%和90%數(shù)據(jù)容量,與作為自監(jiān)督訓(xùn)練的無標(biāo)記數(shù)據(jù)的子集S6、S7和S8進(jìn)行了五次200批次的半監(jiān)督訓(xùn)練,每次訓(xùn)練都以0.001作為初始學(xué)習(xí)率,每個(gè)批次的學(xué)習(xí)率衰減系數(shù)為0.95,五次訓(xùn)練標(biāo)記數(shù)據(jù)占總訓(xùn)練數(shù)據(jù)的比重分別為6.6%、17.4%、26.0%、33.0%和38.8%。訓(xùn)練結(jié)束后在子集S9和S11上測(cè)試模型效果,實(shí)驗(yàn)結(jié)果如表1所示。
4.2 評(píng)價(jià)標(biāo)準(zhǔn)
實(shí)驗(yàn)以毫米級(jí)的平均關(guān)鍵點(diǎn)位置誤差(MPJPE)作為評(píng)價(jià)指標(biāo),該指標(biāo)為每個(gè)預(yù)測(cè)的關(guān)鍵點(diǎn)位置與真值的關(guān)鍵點(diǎn)位置的歐氏距離的平均值的總和,實(shí)現(xiàn)方式與主流工作保持一致。
4.3實(shí)驗(yàn)結(jié)果
從整體上來看,隨著標(biāo)記數(shù)據(jù)的不斷增加,半監(jiān)督學(xué)習(xí)的預(yù)測(cè)效果與監(jiān)督學(xué)習(xí)的預(yù)測(cè)效果明顯縮小,但測(cè)試效果的提升也在逐漸變?nèi)?,從表中可以發(fā)現(xiàn)70%組合90%組提升差距已經(jīng)明顯變小,在部分動(dòng)作中的效果甚至降低了;同時(shí)從表中可以發(fā)現(xiàn)是用少量的已標(biāo)記數(shù)據(jù)進(jìn)行半監(jiān)督訓(xùn)練就可以獲得非常接近監(jiān)督訓(xùn)練的性能,甚至在個(gè)別動(dòng)作的測(cè)試中半監(jiān)督學(xué)習(xí)的效果甚至優(yōu)于監(jiān)督學(xué)習(xí),說明使用大量的標(biāo)記數(shù)據(jù)雖然能有效提升性能,但是有可能帶來模型在部分情況下產(chǎn)生過擬合,這一問題可能會(huì)在模型實(shí)際應(yīng)用中到來不少的麻煩,而基于半監(jiān)督學(xué)習(xí)的訓(xùn)練方法在一定程度上減少了來自冗余數(shù)據(jù)的影響。
5 結(jié)語
本文的實(shí)驗(yàn)結(jié)果說明了即便缺少充分的三維標(biāo)記數(shù)據(jù),大量的無標(biāo)記數(shù)據(jù)本身存在巨大的價(jià)值,通過合適的方法對(duì)無標(biāo)記數(shù)據(jù)進(jìn)行挖掘,建立巧妙的半監(jiān)督學(xué)習(xí)模式來利用無標(biāo)記數(shù)據(jù),即便數(shù)據(jù)不充足也可以取得很好的訓(xùn)練效果。隨著深度學(xué)習(xí)領(lǐng)域的不斷細(xì)分,算法落地場(chǎng)景越來越具體,數(shù)據(jù)問題帶來的阻礙越來越大,利用少量數(shù)據(jù)進(jìn)行半監(jiān)督學(xué)習(xí)是最好的解決方案之一。
參考文獻(xiàn):
[1] Cao Z,Simon T,Wei S H,et al.Realtime multi-person 2D pose estimation using part affinity fields[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).July 21-26,2017,Honolulu,HI,USA.IEEE,2017:1302-1310.
[2] Rhodin H, Salzmann M, Fua P. Unsupervised geometry-aware representation for 3D human pose estimation[M]//Computer Vision – ECCV 2018.Cham:Springer International Publishing,2018:765-782.
[3] Tung H Y F,Harley A W, Seto W,et al. Adversarial inverse graphics networks:learning 2D-to-3D lifting and image-to-image translation from unpaired supervision[C]//2017 IEEE International Conference on Computer Vision (ICCV).October 22-29,2017,Venice,Italy.IEEE,2017:4364-4372.
[4] 鄧益儂,羅健欣,金鳳林.基于深度學(xué)習(xí)的人體姿態(tài)估計(jì)方法綜述[J].計(jì)算機(jī)工程與應(yīng)用,2019,55(19):22-42.
[5] 王偉楠,張榮,郭立君.結(jié)合稀疏表示和深度學(xué)習(xí)的視頻中3D人體姿態(tài)估計(jì)[J].中國圖象圖形學(xué)報(bào),2020,25(3):456-467.
【通聯(lián)編輯:聞翔軍】