• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于多視圖融合的3D人體姿態(tài)估計

      2023-01-05 05:59:28胡士卓周斌胡波
      關(guān)鍵詞:中心點高分辨率關(guān)鍵點

      胡士卓,周斌*,胡波

      (1中南民族大學 計算機科學學院,武漢 430074;2武漢市東信同邦信息技術(shù)有限公司,武漢 430074)

      3D人體姿態(tài)估計旨在定位場景中人體關(guān)鍵點的3D坐標位置,提供與人體相關(guān)的豐富的3D結(jié)構(gòu)信息,因其廣泛的應用而受到越來越多的關(guān)注,例如在動作識別[1-2]、人機交互[3-4]、AR/VR[5-6]、自動駕駛[7]、計算機動畫[8]等領域.

      從單目圖像的單一視圖重建3D人體姿態(tài)是一項非常重要的任務,它的完成受到自遮擋、其他對象遮擋、深度模糊和訓練數(shù)據(jù)不足的困擾.這是一個嚴重的不適定問題,因為不同的3D人體姿態(tài)可以投影得到相似的2D姿態(tài).此外,對于建立在2D關(guān)節(jié)上的方法,2D身體關(guān)節(jié)的微小定位誤差可能會導致3D空間中的姿態(tài)失真.上述問題可通過從多個視圖估計3D人體姿態(tài)來解決,因為一個視圖中的被遮擋部分可能在其他視圖中可見,為了從多個視圖重建3D姿態(tài),需要解決不同相機之間對應位置的關(guān)聯(lián)問題.

      近年來,通過多視圖匹配的3D人體姿態(tài)估計研究主要分為兩大類[9]:基于2D到3D的多階段方法和基于直接回歸的方法.基于2D到3D的方法如BRIDGEMAN[10]、DONG等[11]通過估計同一人在每個視圖中的2D關(guān)鍵點,然后將匹配的2D單視圖姿態(tài)提升到3D空間.CHEN等[12]將2D圖結(jié)構(gòu)模型[13]擴展到3D圖結(jié)構(gòu)模型以編碼身體關(guān)節(jié)位置之間的成對關(guān)系.BELAGIANNIS等[14]首先解決多人2D姿態(tài)檢測并在多個攝像機視圖中進行關(guān)聯(lián),再使用三角測量[15]恢復3D姿態(tài).這些方法在特定的場景下是有效的,但非常依賴2D檢測結(jié)果,2D姿態(tài)估計不準確會很大程度上影響3D姿態(tài)的重建質(zhì)量,特別是存在遮擋的情況.

      基于直接回歸的方法也稱為基于端到端的方法,由于深度神經(jīng)網(wǎng)絡可以擬合復雜的函數(shù),這一方法通常不需要其他算法輔助和中間數(shù)據(jù),因此可以直接基于回歸的網(wǎng)絡結(jié)構(gòu)預測3D姿態(tài)坐標.如TU等[16]提出的VoxelPose模型通過多視圖特征構(gòu)建離散化的3D特征體積,沒有獨立地估計每個視圖中的2D姿態(tài),而是直接將得到的2D heatmap投影到3D空間中,但在整個空間中搜索關(guān)鍵點的計算成本隨著空間的細致劃分呈幾何增加,同時還受到空間離散化引起的量化誤差影響.

      針對以上研究存在的問題,本文對VoxelPose模型進行改進,提出一種基于heatmap的多視圖融合網(wǎng)絡(Multi-View Fusion Network,MVFNet),該網(wǎng)絡在高分辨率網(wǎng)絡HRNet[17]的基礎上,引入反卷積模塊來生成更高分辨率且語義更加豐富的heatmap,并加入對極約束模型匹配融合不同視圖的人體中心點的heatmap信息.本文方法優(yōu)先獲取人體中心點的空間位置信息,并結(jié)合人體先驗性,既減少了其他人體關(guān)鍵點的推理搜索空間,又降低了3D人體姿態(tài)估計的誤差.

      1 3D人體姿態(tài)估計模型

      本文整體模型如圖1所示,主要分為兩個階段:第一階段采用MVFNet網(wǎng)絡生成heatmap(熱圖),并匹配融合2D視圖中不同視角下人體中心點的heatmap信息,該網(wǎng)絡包含人體關(guān)鍵點檢測和多視圖融合兩部分;第二階段投影所有的heatmap到3D空間,通過3D CNN網(wǎng)絡由粗到細地構(gòu)建3D特征體積來估計準確的3D人體姿態(tài).

      圖1 網(wǎng)絡結(jié)構(gòu)圖Fig.1 Network structure diagram

      1.1 MVFNet網(wǎng)絡

      1.1.1 獲取高分辨率heatmap

      為獲取高分辨率特征信息,HRNet之前的網(wǎng)絡采用將高分辨率特征圖下采樣到低分辨率,再恢復至高分辨率的方法來實現(xiàn)多尺度特征提取,如U-Net[18]、SegNet[19]、Hourglass[20]等.在這類網(wǎng)絡結(jié)構(gòu)中,高分辨率特征主要來源于兩個部分:第一是原本的高分辨率特征,由于只經(jīng)過了少量的卷積操作,只能提供低層次的語義表達;第二是下采樣再上采樣得到的高分辨率特征,然而重復進行上下采樣會損失大量有效的特征信息.HRNet通過并行多個高到低分辨率的分支,在始終保持高分辨率特征的同時逐步引入低分辨率卷積,并將不同分辨率的卷積并行連接進行信息交互,使得每一個高分辨率到低分辨率的特征都從其他并行子網(wǎng)絡中反復接收信息,達到獲取強語義信息和精準位置信息的目的.因此本文提出的MVFNet網(wǎng)絡以HRNet為基礎框架,加入反卷積模塊來獲得更高分辨率以及語義信息更加豐富的heatmap,如圖2所示.

      圖2 關(guān)鍵點檢測網(wǎng)絡結(jié)構(gòu)Fig.2 Keypoint detection network structure

      網(wǎng)絡分為4個階段,主體為4個并行的子網(wǎng)絡.以高分辨率子網(wǎng)為第一階段,逐步增加高分辨率到低分辨率的子網(wǎng),并將多分辨率子網(wǎng)并行連接.其中第一階段包含4個殘差單元,每個殘差單元都和ResNet-50[21]的相同,由一個通道數(shù)為64的bottleneck構(gòu)成;然后通過一個3×3,步長為2的卷積下采樣到第二階段.第二、三、四階段分別包含1、4、3個多分辨率塊,可使網(wǎng)絡保持一定的深度,充分提取特征信息,每個多分辨率塊有4個殘差單元,采用ResNet的BasicBlock,即兩個3×3卷積.

      在網(wǎng)絡末端將各階段不同分辨率的特征圖進行融合,融合后的特征圖作為反卷積模塊的輸入,先經(jīng)過卷積進行通道轉(zhuǎn)換,其結(jié)果再與輸入特征進行維度上的拼接,然后由一個卷積核為4×4的反卷積使特征圖的分辨率提升為原來的2倍,再通過4個殘差塊進一步提取特征信息,最后由1×1的卷積來預測heatmap.其更高的分辨率有助于獲得更豐富的關(guān)鍵點信息,進而實現(xiàn)準確的3D人體姿態(tài)估計.

      1.1.2 多視圖匹配融合

      多個視圖圖像之間存在對極幾何關(guān)系,描述的是兩幅視圖之間的內(nèi)在射影關(guān)系,與外部場景無關(guān),只依賴于相機內(nèi)參數(shù)和視圖之間的相對姿態(tài).充分利用對極幾何關(guān)系能夠幫助網(wǎng)絡獲取更多的位置信息,排除訓練過程中的無關(guān)噪聲,提高網(wǎng)絡預測的準確度.原理如圖3所示.

      圖3 對極幾何示意圖Fig.3 Epipolar geometry diagram

      O1、O2為兩個相機的光心,I1、I2為成像平面,e1、e2為相機光心在相對平面上的投影點,稱為極點.如果兩個相機由于角度問題不能拍攝到彼此,那么極點不會出現(xiàn)在成像平面上.被觀察點P在I1、I2上的投影點為P1、P2,由于深度信息未知,P可在射線O1P1上的任意位置,該射線上的不同點投射到右側(cè)圖像上形成的線L2稱為與點P1對應的極線,則P1在右側(cè)圖像的對應點P2必然在極線L2上.匹配點的相對位置受到圖像平面空間幾何關(guān)系的約束,這種約束關(guān)系可以用基礎矩陣來表達,根據(jù)文獻[22],對極約束公式為:

      其中F為基礎矩陣,計算公式如下:

      其中M1和M2是兩個相機內(nèi)部參數(shù)矩陣,E為本征矩陣,包含相機的外參平移矩陣和旋轉(zhuǎn)矩陣.因此為了充分利用視圖間的幾何約束關(guān)系,本文提出在MVFNet網(wǎng)絡中引入多視圖對極約束模型.取人體髖關(guān)節(jié)之間的關(guān)鍵點為中心點,選擇同一場景不同視角下的heatmap,并通過多視圖對極約束模型獲得中心點對應的極線,以此為每個視角的heatmap的中心點,與其所對應的其他視角的heatmap的極線進行特征融合,來糾正和增強當前視角的效果,獲得更豐富的語義信息.如圖4所示.

      圖4 多視圖對極約束模型Fig.4 Multi-view epipolar constraint model

      多視圖對極約束模型的輸入為高分辨率heatmap,由對極幾何約束關(guān)系求出各圖中心點對應的極線并進行采樣,得到對應點的集合.根據(jù)heatmap的特性,在相應的坐標處會生成高斯分布的概率區(qū)域,只有對應點附近有高的響應,其他地方皆接近于0,因此可用一個全連接層融合對極線上所有點的值,提高中心點檢測的準確性.最后使用L2 Loss比較最終融合的中心點坐標和標注的中心點坐標之間的差距來進行訓練約束.

      1.2 3DCNN網(wǎng)絡

      1.2.1 粗略定位人體位置

      通過逆圖像投影方法將得到的所有視圖的特征聚合成3D體素體積,初始化體素網(wǎng)格并包含攝像機觀察到的整個空間,同時利用相機校準數(shù)據(jù)使得每個體素中心都被投影到相機視圖中,再由3DCNN網(wǎng)絡以此為中心由粗到細地構(gòu)建特征體積來估計所有關(guān)鍵點的位置,網(wǎng)絡結(jié)構(gòu)如圖5所示.

      圖5 3DCNN網(wǎng)絡結(jié)構(gòu)Fig.5 3DCNNnetwork structure

      該網(wǎng)絡輸入的3D特征體積,是通過將所有相機視圖中的2D heatmap投影到共同的3D空間來構(gòu)建的,由于heatmap編碼了中心點的位置信息,因此得到的3D特征體積也帶有用于檢測3D姿態(tài)的豐富信息,根據(jù)人體先驗信息能減少其他關(guān)鍵點在3D空間中的搜索區(qū)域.綠色箭頭表示標準3D卷積層,黃色箭頭表示兩個3D卷積層的殘差塊.將3D空間離散為X×Y×Z的離散位置{Gx,y,z},每個位置都可以視為檢測人的一個anchor.為了減小量化誤差,調(diào)整X,Y,Z的值縮小相鄰anchor之間的距離.在公共數(shù)據(jù)集上,空間一般為8m×8m×2m,因此將X,Y,Z設置為80,80,20.

      融合攝像機視圖中每個anchor投影位置的2D heatmap的值,計算每個anchor的特征向量.設將視圖a中的2D heatmap表示為Ma∈RK×H×W,其中K是身體關(guān)鍵點的數(shù)量.對于每個anchor的位置Gx,y,z,其在視圖中的投影位置為,此處的heatmap值表示為然后計算anchor的特征向量作為所有攝像機視圖中的平均heatmap值,公式如下:

      其中V是攝像機的數(shù)量.可以看出Fx,y,z實際上編碼了K個關(guān)鍵點在Gx,y,z的可能性.然后用一個3D bounding box表示包含檢測到的人體關(guān)鍵點位置,bounding box的大小和方向在實驗中是固定的,因為3D空間中人的變化有限,所以這是一個合理的簡化.在特征體積F上滑動一個小型網(wǎng)絡,以anchor為中心的每個滑動窗口都映射到一個低維特征,該特征被反饋到全連接層以回歸置信度作為3D CNN網(wǎng)絡的輸出,表示人出現(xiàn)在該位置的可能性.根據(jù)anchor到GT位置的距離,計算每個anchor的GTheatmap值.即對于每一對GT和anchor,根據(jù)二者的距離計算高斯分數(shù),當距離增加時,高斯分數(shù)呈指數(shù)下降.如果場景中有N個人,一個anchor可能有多個分數(shù),經(jīng)過非極大值抑制(NMS)保留N個最大的,即代表N個有人的位置.

      1.2.2 構(gòu)建細粒度特征體積回歸人體姿態(tài)

      第一個3D CNN網(wǎng)絡無法準確估計所有關(guān)鍵點的3D位置,因此在第二個3D CNN網(wǎng)絡中構(gòu)建更細粒度的特征體積,大小設置為2000 mm×2000 mm×2000 mm,比8 m×8 m×2 m小得多但足以覆蓋人的任何姿勢,該體積被劃分為X0=Y0=Z0=64個離散網(wǎng)格,其網(wǎng)絡主體結(jié)構(gòu)與第一個3D CNN相同.基于構(gòu)造的特征體積,估計每個關(guān)鍵點K的3D heatmapHK,最后回歸準確的3D人體姿態(tài),HK∈RX0×Y0×Z0.根據(jù)公式(4)計算HK的質(zhì)心,即可得到各關(guān)鍵點的3D位置DK:

      將估計的關(guān)節(jié)位置與真實位置D*進行比較以訓練網(wǎng)絡,損失函數(shù)L1的公式為:

      2 實驗結(jié)果與分析

      2.1 實驗數(shù)據(jù)集

      本文采用3個公共數(shù)據(jù)集Campus、Shelf、CMUPanoptic進行實驗,其中Campus數(shù)據(jù)集通過3個攝像機捕獲了3個人在室外環(huán)境中的互動情況,共1.2萬張圖片.Shelf數(shù)據(jù)集由5個攝像機拍攝4個人拆卸貨架的活動,共1.6萬張圖片.CMU-Panoptic數(shù)據(jù)集是目前用于多人3D姿態(tài)估計的最大數(shù)據(jù)集,包含30多個高清攝像機拍攝的65個日常活動視頻序列和150萬個人體骨骼關(guān)節(jié)注釋,選取3、6、12、13、23視頻序列得到73萬張圖片.按照標準[23]把視頻序列中的160422_ultimatum1,160224_haggling1,160226_haggling1,161202_haggling1,160906_ian1,160906_ian2,160906_ian3,160906_band1,160906_band2,160906_band3作為訓練集;160906_pizza1,160422_haggling1,160906_ian5,160906_band4作為測試集.

      2.2 評價指標

      使用正確估計關(guān)節(jié)位置的百分比PCP3D(Percentageof Correct Part 3D)來評估Campus和Shelf數(shù)據(jù)集3D姿態(tài)的準確性,如果預測的關(guān)節(jié)位置和真實關(guān)節(jié)位置之間的距離小于肢體長度的一半,則認為檢測正確[14].對于CMU-Panoptic數(shù)據(jù)集,采用每個關(guān)節(jié)位置的誤差的平均值MPJPE(Mean Per Joint Positon Error)作為重要評價指標,以毫米為單位評估3D關(guān)節(jié)的定位精度,表示GT和預測關(guān)節(jié)位置之間的距離.對于每幀f和人體骨架S,MPJPE的計算公式如下:

      其中NS是骨架S中的關(guān)節(jié)數(shù),對于一組幀,誤差是所有幀的MPJPE的平均值;同時在MPJPE的閾值(從25 mm到150 mm,步長為25 mm)上取平均精度(Average Precision)和召回率(Recall)作為綜合評估3D人體中心檢測和人體姿態(tài)估計的性能指標.AP是由橫坐標Recall、縱坐標精確率(Precision)兩個維度圍成的PR曲線下面積,AP的值越大說明檢測模型的綜合性能越好.

      2.3 實驗結(jié)果及分析

      實驗基于Linux搭配Pytorch深度學習框架實現(xiàn),具體實驗環(huán)境如表1所示.

      表1 實驗環(huán)境配置單Tab.1 Experimental environment configuration sheet

      2.3.1 Shelf和Campus數(shù)據(jù)集的實驗結(jié)果分析

      在Shelf、Campus數(shù)據(jù)集訓練過程中,輸入圖像的尺寸設置為800×640,batch_size、縮放因子、最大迭代輪次、學習率的初始值、人體關(guān)鍵點數(shù)目分別設置為2,0.35,30,0.0001和17.采用Adam優(yōu)化器自動調(diào)整學習率,初始3D空間網(wǎng)格劃分為80×80×20,構(gòu)建細粒度特征體積時,空間網(wǎng)格劃分為64×64×64.實驗結(jié)果與VoxelPose進行比較,PCP3D數(shù)據(jù)如表2所示.

      表2 Shelf和Campus的PCP3D對比Tab.2 Comparison of PCP3Din Shelf and Campusdatasets /%

      對比兩個數(shù)據(jù)集的實驗結(jié)果可以看出,PCP3D在Shelf中的平均值提升了0.1%,在Campus的Actor1、Actor2均略有提升,說明綜合考慮2D人體中心點的多視圖匹配融合有助于提高3D人體姿態(tài)估計的準確率.由于這兩個數(shù)據(jù)集的GT姿態(tài)注釋不完整,因此沒有進行AP和Recall的對比.通過可視化的結(jié)果發(fā)現(xiàn):只要關(guān)鍵點在至少兩個視圖中可見,通??梢缘玫綔蚀_的人體姿態(tài)估計,可視化結(jié)果如圖6所示.

      由圖6可發(fā)現(xiàn)在Shelf數(shù)據(jù)集中,由于缺少一部分紅圈中人的GT注釋,所以存在無法檢測到該人關(guān)鍵點的情況,輸出的301幀中只有66幀正確檢測到關(guān)鍵點,但仍可以恢復其3D姿態(tài).Campus數(shù)據(jù)集的注釋比較準確,即使在3號相機中存在嚴重的遮擋的情況下,兩人幾乎重合,本文算法通過融合2D人體中心點的特征信息可更精準地定位其在3D空間中的位置,進而由3D CNN網(wǎng)絡構(gòu)建由粗到細的特征體積來估計其他關(guān)鍵點的位置,得到更加準確的人體姿態(tài),因而通過另外兩個相機檢測到Actor1和Actor2關(guān)鍵點的準確度有所提升.3D人體姿態(tài)估計結(jié)果如圖6右所示.

      圖6 Shelf(上)和Campus(下)數(shù)據(jù)集3D姿態(tài)估計Fig.6 Shelf(up)and Campus(down)datasets3Dposeestimation

      2.3.2 CMU-Panoptic數(shù)據(jù)集的實驗結(jié)果分析

      不同的數(shù)據(jù)集所采集的圖像參數(shù)和人體關(guān)鍵點注釋不同,因此設置輸入圖像的尺寸為960×512,epoch和人體關(guān)鍵點數(shù)目分別為10,15,其他超參數(shù)與前兩個數(shù)據(jù)集一致.本文模型的AP、Recall與VoxelPose的對比如表3所示.

      表3 CMU-Panoptic的評估指標對比Tab.3 Comparison of evaluation indicators in CMU-Panoptic dataset/%

      在AP25上相較于VoxelPose提升了4.6%,Recall提高了2.17%.重要指標MPJPE方面,VoxelPose為17.82 mm,本文算法為16.80 mm,降低了1.02 mm.說明在2D關(guān)鍵點檢測網(wǎng)絡中,生成的高分辨率heatmap帶有更豐富的特征信息,融合不同視圖的人體中心點heatmap能夠帶來準確的3D空間位置信息,并結(jié)合人體先驗性有效縮小了其他關(guān)鍵點的推理范圍,從而降低了誤差,實現(xiàn)了更高精度的3D人體姿態(tài)估計.可視化效果見圖7,在吃披薩和彈樂器的活動中,即使有人體和桌椅遮擋,仍然能檢測到腿部關(guān)鍵點,但對小孩的姿態(tài)估計存在一定的誤差,因為小孩關(guān)鍵點間距較小,且只有少量的GT注釋和樣本數(shù)據(jù),所以導致估計的效果不佳.綜合表2和表3的實驗數(shù)據(jù)可驗證在確定2D人體中心點位置的基礎上進行3D空間推理從而恢復人體姿態(tài)的方法是有效的,在不同程度上提高了檢測各個關(guān)鍵點的精確度,降低了每個關(guān)節(jié)位置的誤差的平均值.

      圖7 CMU-Panoptic數(shù)據(jù)集3D姿態(tài)估計Fig.7 CMU-Panoptic dataset 3D pose estimation

      3 結(jié)論

      本文針對自然環(huán)境下遮擋和檢測不準確等問題,提出了一種基于heatmap的多視圖融合網(wǎng)絡MVFNet來估計3D人體姿態(tài).網(wǎng)絡以HRNet為基礎加入反卷積模塊生成更高分辨率的heatmap,獲得更加豐富的語義信息;然后通過對極約束模型匹配融合中心點特征,可優(yōu)先確定中心點在3D空間中的位置,縮小其他關(guān)鍵點的推理范圍;再經(jīng)過3D CNN網(wǎng)絡構(gòu)建特征體積得到各關(guān)鍵點的空間位置;最后回歸出準確的3D人體姿態(tài).實驗結(jié)果表明:本文的改進模型相較于VoxelPose具有良好的性能和效果,有一定的工程應用價值.

      猜你喜歡
      中心點高分辨率關(guān)鍵點
      聚焦金屬關(guān)鍵點
      肉兔育肥抓好七個關(guān)鍵點
      高分辨率合成孔徑雷達圖像解譯系統(tǒng)
      雷達學報(2020年3期)2020-07-13 02:27:16
      Scratch 3.9更新了什么?
      電腦報(2020年12期)2020-06-30 19:56:42
      如何設置造型中心點?
      電腦報(2019年4期)2019-09-10 07:22:44
      漢字藝術(shù)結(jié)構(gòu)解析(二)中心點處筆畫應緊奏
      尋找視覺中心點
      大眾攝影(2015年9期)2015-09-06 17:05:41
      高分辨率對地觀測系統(tǒng)
      太空探索(2015年8期)2015-07-18 11:04:44
      基于Curvelet-Wavelet變換高分辨率遙感圖像降噪
      醫(yī)聯(lián)體要把握三個關(guān)鍵點
      乌苏市| 商河县| 许昌市| 酉阳| 连城县| 盐边县| 新龙县| 西和县| 长子县| 新巴尔虎左旗| 三门峡市| 荃湾区| 化德县| 太原市| 常州市| 石台县| 石城县| 汶上县| 湘潭县| 益阳市| 株洲市| 镇远县| 祥云县| 广元市| 五华县| 沾化县| 东台市| 建昌县| 英吉沙县| 宝鸡市| 营山县| 茶陵县| 高雄县| 湄潭县| 砀山县| 疏附县| 团风县| 左云县| 金湖县| 沂源县| 西和县|