• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于空洞轉(zhuǎn)置卷積神經(jīng)網(wǎng)絡(luò)的人體骨骼關(guān)鍵點(diǎn)檢測(cè)算法研究

      2022-05-23 08:18:06彭睿孜施惠尹
      智能物聯(lián)技術(shù) 2022年1期
      關(guān)鍵詞:關(guān)鍵點(diǎn)姿態(tài)卷積

      彭睿孜,施惠尹,柳 毅

      (杭州電子科技大學(xué),浙江 杭州 310018)

      0 引言

      人體姿態(tài)估計(jì)是利用傳感器(攝像頭)捕獲到的數(shù)據(jù)進(jìn)行人體姿態(tài)分析的一種技術(shù),可以輔助醫(yī)生定量分析患者的動(dòng)作數(shù)據(jù),在康復(fù)訓(xùn)練和身體恢復(fù)等醫(yī)學(xué)領(lǐng)域有著極高的應(yīng)用價(jià)值。早期的人體姿態(tài)估計(jì)方法利用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN) 提取人體骨骼關(guān)鍵點(diǎn)特征來(lái)表征姿態(tài)信息,以端到端的特征表示并將關(guān)鍵點(diǎn)的空間位置關(guān)系隱式建模。 該類方法輸入多為一張圖像,輸出為帶有空間信息的張量,該張量的通道數(shù)為人體關(guān)鍵點(diǎn)個(gè)數(shù)。2014 年,A.Jain 等首次成功地引入CNN 來(lái)解決單人姿態(tài)估計(jì)問(wèn)題[1]。 2016 年,卡內(nèi)基梅隆大學(xué)Yaser Sheikh 研究組提出經(jīng)典的Convolutional Pose Machine (CPM),利用端到端表示特征并對(duì)關(guān)鍵點(diǎn)的空間位置關(guān)系建模,CPM 利用熱力圖作為預(yù)測(cè)的關(guān)鍵點(diǎn)輸出結(jié)果,對(duì)2D 姿態(tài)估計(jì)有很強(qiáng)的表征能力[2]。同年,姿態(tài)估計(jì)領(lǐng)域迎來(lái)了MPII 數(shù)據(jù)集,MPII 把數(shù)據(jù)量級(jí)提升到W 級(jí)別。2016 年7 月,密歇根大學(xué)Deng Jia 研究組[3]提出Hourgalss,其網(wǎng)絡(luò)結(jié)構(gòu)較CPM 更加簡(jiǎn)單優(yōu)美,由重復(fù)堆疊的U 型沙漏結(jié)構(gòu)組成,在MPII 數(shù)據(jù)集上的表現(xiàn)有明顯提升。 2018 年,Yaser Sheikh 研究組提出基于卷積神經(jīng)網(wǎng)絡(luò)和監(jiān)督學(xué)習(xí)的OpenPose 來(lái)實(shí)現(xiàn)人體動(dòng)作、面部表情、手指運(yùn)動(dòng)等姿態(tài)估計(jì)。

      隨著姿態(tài)估計(jì)的研究不斷深入,基于3D 檢測(cè)的人體姿態(tài)估計(jì)方法被提出。 2017 年,Deva Ramanan 提出了3D Human Pose Matching, 先基于CPM 算法進(jìn)行2D 人體姿態(tài)估計(jì),然后基于k 近鄰算法匹配最優(yōu)數(shù)據(jù), 其3D 匹配方法利用人體3D骨架投射到2D 空間并與訓(xùn)練數(shù)據(jù)對(duì)比。 同年,Pavlakos G 等人提出了Coarse-to-Fine Volumetric Prediction, 該研究受到2D 姿態(tài)估計(jì)中的Stacked Hourglass 結(jié)構(gòu)啟發(fā), 將2D 姿態(tài)中的做法沿用到3D 中來(lái)。 Martinez J 等人[4]提出了A Simple Yet Effective Baseline, 直接使用基于Hourglass 的2D姿態(tài)并通過(guò)神經(jīng)網(wǎng)絡(luò)回歸3D 姿態(tài)。 該方法基于獲得的2D 骨架位置,后續(xù)接入兩個(gè)全連接層直接回歸3D 坐標(biāo)點(diǎn)。 但上述方法主要存在以下不足:首先,由于單張2D 圖像中缺乏空間縱深信息,往往僅在2D 人體姿態(tài)估計(jì)任務(wù)中表現(xiàn)良好, 在3D 人體姿態(tài)估計(jì)中則難以準(zhǔn)確估計(jì)深度信息; 其次,由于LSTM 存在梯度消失或者梯度爆炸問(wèn)題,難以在時(shí)間序列上有效捕捉長(zhǎng)期信息,不利于時(shí)序信息到空間縱深信息的隱式建模; 最后,RNN(Recurrent Neural Network)和LSTM(Long Short-Term Memory)不能在時(shí)間序列上進(jìn)行并行化加速,對(duì)圖形處理器(Graphics Processing Unit,GPU)親和性低于卷積運(yùn)算操作。

      因此,針對(duì)動(dòng)作識(shí)別、醫(yī)療輔助和運(yùn)動(dòng)分析等實(shí)際應(yīng)用場(chǎng)景,迫切需要設(shè)計(jì)一種既能有效地隱式建模視頻時(shí)序信息與人體姿態(tài)的縱深信息,又能在GPU 平臺(tái)上并行處理時(shí)序信息的人體姿態(tài)估計(jì)方法。本文研究基于空洞轉(zhuǎn)置卷積神經(jīng)網(wǎng)絡(luò)的骨骼關(guān)鍵點(diǎn)檢測(cè)方法,這個(gè)方法分為兩大核心模塊。第一,針對(duì)患者的2D 運(yùn)動(dòng)視頻數(shù)據(jù)輸入后進(jìn)行3D 空間重構(gòu),并將其關(guān)鍵點(diǎn)進(jìn)行逐幀標(biāo)注,提出了Dilated and Transpose Convolution Hourglass (DTCH)算法。其中Dilated Convolution(DC)用于解決在時(shí)間序列上姿態(tài)信息提取感受野較小等問(wèn)題; 而Transpose Convolution(TC)用于解決卷積過(guò)程中特征圖過(guò)小、分辨率低等問(wèn)題;再綜合DC 和TC,訓(xùn)練Hourglass型的神經(jīng)網(wǎng)絡(luò),加深網(wǎng)絡(luò)結(jié)構(gòu),提高模型非線性表現(xiàn)能力。 第二,針對(duì)患者康復(fù)運(yùn)動(dòng)數(shù)據(jù)處理后對(duì)其動(dòng)作的完成評(píng)價(jià)和改進(jìn)意見(jiàn)的需求, 提出DTW(Dynamic Time Warping)算法。 通過(guò)卡爾曼濾波算法[5]和動(dòng)態(tài)時(shí)間規(guī)整算法,解決患者康復(fù)運(yùn)動(dòng)姿態(tài)和標(biāo)注數(shù)據(jù)庫(kù)的視頻匹配時(shí)時(shí)間上的不統(tǒng)一,提高患者運(yùn)動(dòng)時(shí)姿態(tài)匹配的準(zhǔn)確性,并在得到匹配結(jié)果后分析患者骨骼關(guān)鍵點(diǎn)和標(biāo)準(zhǔn)動(dòng)作骨骼關(guān)鍵點(diǎn)的距離差距,輸出反饋結(jié)果。 如圖1 所示為本文算法總體框架。

      1 基于DTCH 的人體姿態(tài)估計(jì)方法

      DTCH 方法利用Dilated Convolution 空洞卷積操作,卷積算子作為特征提取器[6],下采樣提取時(shí)序信息,隨后利用轉(zhuǎn)置卷積上采樣去除時(shí)序信息的噪聲,在時(shí)間維度上充分提取長(zhǎng)程信息,以便得到穩(wěn)定的3D 姿態(tài)估計(jì)結(jié)果。如在圖2 的Hourglass 信息流結(jié)構(gòu)中,其中DC 代表Dilated Convolution。 該圖以時(shí)間維度上感受野為例,從時(shí)間維度上提取穩(wěn)定的特征信息后, 將2D 姿態(tài)的3D 姿態(tài)可行解限制到5 種,并進(jìn)一步利用時(shí)間信息提取特征,將解空間限制至1 種,即得到中間層的預(yù)測(cè)結(jié)果。

      隨后將初步的回歸結(jié)果送入Transpose Convolution(TC)層,由于前面得到的解空間為1 種,但是有較大誤差,因此各TC 層則是嘗試將之前的信息還原,以便提供更多的中間層監(jiān)督。 DTCH 網(wǎng)絡(luò)結(jié)構(gòu)如圖3 所示。 其中圖3 中所示的參數(shù)ks 代表kernel size 卷積核尺寸;d 代表dilation 卷積核的空洞率。圖中左邊淺灰色的層為Dilation Convolution,右邊深灰色的層為T(mén)ranspose Convolution, 各層在執(zhí)行卷積操作后還使用了BatchNorm 批標(biāo)準(zhǔn)化和Swish 激活函數(shù)。

      圖4 展示的是DTCH 方法的一個(gè)實(shí)例, 對(duì)于輸入的2D 姿態(tài)總共17 個(gè)關(guān)鍵點(diǎn), 將輸入看作是1D長(zhǎng)度為34 的關(guān)鍵點(diǎn)序列,即34=17×2。 在時(shí)間維度上堆疊后形成一張1×34×243 的特征圖,其特征圖通道數(shù)為1。 模型的輸入數(shù)據(jù)為Channel=2 (depth),Joints=17(height),Receptive field= 243 (width)。 將時(shí)序上各關(guān)鍵點(diǎn)視作一張2×17×243 的特征圖,DTCH 利用該特征圖預(yù)測(cè)3D 姿態(tài)的信息。經(jīng)過(guò)多個(gè)DTCH 方法計(jì)算后得到輸入2D 姿態(tài)序列在中間時(shí)刻的3D 姿態(tài)的信息。 DTCH 方法的偽代碼見(jiàn)表1。

      表1 DTCH 方法偽代碼Table 1 DTCH Method pseudocode

      2 基于DTW 算法的姿態(tài)校準(zhǔn)評(píng)價(jià)

      2.1 基于卡爾曼濾波算法的降噪處理

      通過(guò)DTCH 方法獲得時(shí)間序列的關(guān)鍵點(diǎn)檢測(cè)數(shù)據(jù)后,由于各種噪聲,這些數(shù)據(jù)不一定準(zhǔn)確[7]。 因此,本文采用卡爾曼濾波算法來(lái)進(jìn)行降噪,減少由于噪聲產(chǎn)生的關(guān)鍵點(diǎn)識(shí)別錯(cuò)誤, 從而實(shí)現(xiàn)穩(wěn)定跟蹤,保證后續(xù)動(dòng)作評(píng)價(jià)的準(zhǔn)確性。 卡爾曼濾波算法假設(shè)模型是一個(gè)由白噪聲所激發(fā)的線性、離散和有限維動(dòng)態(tài)(可以時(shí)變)系統(tǒng),它可以用遞歸的方法解決線性濾波問(wèn)題。 只需要當(dāng)前k 時(shí)刻的測(cè)量值(這里設(shè)定k 為離散時(shí)間值,例如k=1ms,2ms,…)數(shù)據(jù)和前一個(gè)采樣周期的估計(jì)值就能夠進(jìn)行狀態(tài)估計(jì),可以通過(guò)整合k-1 時(shí)刻的最優(yōu)估計(jì)值以及k 時(shí)刻的檢測(cè)值進(jìn)行動(dòng)態(tài)調(diào)整,以此來(lái)達(dá)到減少數(shù)據(jù)誤差的目的。 卡爾曼濾波算法的核心公式為:

      2.2 DTW 算法實(shí)現(xiàn)標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)與用戶上傳視頻動(dòng)作匹配

      在患者上肢康復(fù)運(yùn)動(dòng)完成后,通過(guò)技術(shù)手段自動(dòng)將提取的動(dòng)作數(shù)據(jù)與存儲(chǔ)在數(shù)據(jù)庫(kù)中的專家標(biāo)準(zhǔn)動(dòng)作數(shù)據(jù)進(jìn)行匹配。由于患者各部位肢體尺寸因人而異, 而且完成整套動(dòng)作的時(shí)間也很難保持一致,故直接采用傳統(tǒng)的歐氏距離模板匹配法很難實(shí)現(xiàn)動(dòng)作評(píng)價(jià)。 因此,本文采用能對(duì)兩個(gè)數(shù)據(jù)進(jìn)行拉伸和收縮以進(jìn)行最佳匹配的動(dòng)態(tài)時(shí)間規(guī)整(Dynamic Time Warping,DTW)算法進(jìn)行患者各部位肢體數(shù)據(jù)與標(biāo)準(zhǔn)動(dòng)作之間的匹配。 動(dòng)態(tài)時(shí)間規(guī)整DTW 算法的基本步驟為: 首先計(jì)算兩個(gè)序列各個(gè)點(diǎn)之間的距離矩陣M, 然后尋找一條從矩陣左上角到右下角的路徑,使得路徑上的元素和最小。

      如圖5 所示, 例如對(duì)于同一時(shí)間軸,standard代表標(biāo)準(zhǔn)答案的數(shù)據(jù)流特征,test1 代表用戶的肢體數(shù)據(jù)流,雖然時(shí)間上產(chǎn)生了偏移,但是其體現(xiàn)出的特征大體符合標(biāo)準(zhǔn)答案的要求;test2 代表一組完全隨機(jī)的肢體動(dòng)作特征。使用歐氏距離模板計(jì)算數(shù)據(jù),算出test1 與標(biāo)準(zhǔn)答案的偏差為4.98,test2 的偏差是3.37; 采用DTW 算法得出test1 的偏差為4.53,test2 的偏差為10.24, 這證明DTW 算法動(dòng)作識(shí)別匹配的有效性。 本技術(shù)將檢測(cè)到的患者17 個(gè)關(guān)鍵點(diǎn)的三維坐標(biāo)作為DTW 算法匹配的基礎(chǔ)數(shù)據(jù),通過(guò)對(duì)17 個(gè)骨骼關(guān)鍵點(diǎn)的DTW 距離值進(jìn)行累加,從而得到全身的DTW 距離值,用于后續(xù)的評(píng)價(jià)反饋。

      3 算法實(shí)驗(yàn)

      3.1 評(píng)分標(biāo)準(zhǔn)

      本文采用國(guó)際通用的Brunnstrom 運(yùn)動(dòng)功能評(píng)定和Fugl-Meyer 評(píng)分指標(biāo),利用DTW 距離值對(duì)患者肢體康復(fù)動(dòng)作的標(biāo)準(zhǔn)程度進(jìn)行評(píng)估打分,從而面向患者進(jìn)行信息反饋。 同時(shí),醫(yī)生可以基于該技術(shù)的評(píng)價(jià)分?jǐn)?shù)對(duì)患者的康復(fù)狀態(tài)進(jìn)行有效評(píng)估,從而對(duì)患者進(jìn)行下一階段更為合適的康復(fù)運(yùn)動(dòng)訓(xùn)練。

      Fugl-Meyer 評(píng)估(FMA)量表是評(píng)估中風(fēng)患者感覺(jué)運(yùn)動(dòng)障礙的指標(biāo),1975 年由Axel Fugl-Meyer及其同事提出,用于量化康復(fù)策略的療效,如表2所示為Fugl-Meyer 評(píng)估量表的部分內(nèi)容。 該評(píng)價(jià)指標(biāo)的出現(xiàn)推動(dòng)了康復(fù)治療領(lǐng)域的各種標(biāo)準(zhǔn)化評(píng)估方法, 在運(yùn)動(dòng)康復(fù)領(lǐng)域非常具有權(quán)威性。 而B(niǎo)runnstrom 運(yùn)動(dòng)功能評(píng)定標(biāo)準(zhǔn)由瑞典理療師Signe Brunnstrom 在1970 年提出, 用于評(píng)定患者的運(yùn)動(dòng)功能情況。

      表2 Fugl-Meyer 評(píng)估量表部分內(nèi)容Table 2 Part of Fugl-Meyer Assessment Scale

      本文將根據(jù)相應(yīng)關(guān)節(jié)連線的角度值和位置范圍值對(duì)患者的運(yùn)動(dòng)數(shù)據(jù)進(jìn)行實(shí)時(shí)評(píng)分。 數(shù)據(jù)采集方法中利用余弦公式計(jì)算相聯(lián)系的3 個(gè)關(guān)節(jié)點(diǎn)連線的夾角。 同時(shí),本技術(shù)內(nèi)置運(yùn)動(dòng)數(shù)據(jù)庫(kù),患者依照技術(shù)指示進(jìn)行康復(fù)訓(xùn)練, 根據(jù)醫(yī)師需求, 可選Brunnstrom標(biāo)準(zhǔn)或Fugl-Meyer 標(biāo)準(zhǔn)對(duì)患者動(dòng)作進(jìn)行評(píng)分。 表3展示的是本文準(zhǔn)備的部分動(dòng)作數(shù)據(jù)情況。

      表3 實(shí)驗(yàn)中部分動(dòng)作數(shù)據(jù)情況Table 3 Part of the action data in experiment project

      3.2 實(shí)驗(yàn)與分析

      動(dòng)作評(píng)估在捕捉數(shù)據(jù)集Human3.6M 上進(jìn)行。Human3.6M 包含11 個(gè)主題、360 萬(wàn)個(gè)視頻幀,其中7 個(gè)帶有3D 姿勢(shì)注釋。 每個(gè)受試者執(zhí)行15 個(gè)動(dòng)作,這些動(dòng)作使用四個(gè)同步攝像機(jī)以50 Hz 的頻率記錄下來(lái)。 在文獻(xiàn)[8~14]研究的基礎(chǔ)上,我們采用17 關(guān)節(jié)骨架,對(duì)五個(gè)主題(S1、S5、S6、S7 和S8)進(jìn)行訓(xùn)練,并在兩個(gè)主題(S9 和S11)進(jìn)行測(cè)試。 表4是以毫米為單位的平均每個(gè)關(guān)節(jié)位置誤差(Mean Per Joint Position Error,MPJPE), 它是預(yù)測(cè)關(guān)節(jié)位置和真實(shí)關(guān)節(jié)位置之間的平均歐氏距離。

      表4 本實(shí)驗(yàn)與相關(guān)工作的MPJPE 對(duì)比[16]Table 4 Compare of MPJPE on Human3.6M[16]

      上述實(shí)驗(yàn)有B=4 個(gè)塊和兩個(gè)評(píng)估協(xié)議的243個(gè)輸入幀的感受野。該模型的平均誤差低于兩種協(xié)議下的所有其他方法,并且不依賴于其他數(shù)據(jù)。

      如我們的模型優(yōu)于文獻(xiàn)[16]使用Ground-Truth Boxes 的最佳結(jié)果6 mm,相當(dāng)于減少11%的誤差。 在6 核12 線程8GB 的主機(jī)上對(duì)算法進(jìn)行檢驗(yàn),490 幀訓(xùn)練數(shù)據(jù)所需的推理時(shí)間為1′45′′,渲染時(shí)間為1′15′′,1097 幀數(shù)據(jù)推理用時(shí)為16′34′′,渲染用時(shí)為1′25′′,相較于同等參數(shù)量和計(jì)算量的模型更占優(yōu)勢(shì)。

      通過(guò)數(shù)據(jù)驗(yàn)證和比較, 證明本文中提出的DTHC 和DTW 方法的可行性以及優(yōu)勢(shì),可以為提高和完善人體骨骼姿勢(shì)估計(jì)的正確性研究提供參考。

      4 結(jié)語(yǔ)

      本文提出基于空洞轉(zhuǎn)置卷積的沙漏結(jié)構(gòu)模型骨骼關(guān)鍵點(diǎn)檢測(cè)方法(Dilatd and Transpose Convolution Hourglass,DTCH)。 利用Dilated Convolution下采樣操作卷積算子作為特征提取器獲得時(shí)間序列的關(guān)鍵點(diǎn)檢測(cè)數(shù)據(jù),采用卡爾曼濾波算法進(jìn)行降噪提高數(shù)據(jù)準(zhǔn)確性, 然后采用動(dòng)態(tài)時(shí)間規(guī)整(Dynamic Time Warping,DTW)算法對(duì)患者各部位肢體數(shù)據(jù)與評(píng)價(jià)指標(biāo)—國(guó)際通用的Brunnstrom 運(yùn)動(dòng)功能評(píng)定和Fugl-Meyer 評(píng)分指標(biāo)之間的匹配進(jìn)行評(píng)估、打分以及反饋。 實(shí)驗(yàn)表明,DTCH 方法既能有效地隱式建模視頻時(shí)序信息與人體姿態(tài)的縱深信息,又能在GPU 等運(yùn)算平臺(tái)上并行處理時(shí)序信息,可精確高效地實(shí)現(xiàn)3D 人體姿態(tài)估計(jì)。

      猜你喜歡
      關(guān)鍵點(diǎn)姿態(tài)卷積
      聚焦金屬關(guān)鍵點(diǎn)
      肉兔育肥抓好七個(gè)關(guān)鍵點(diǎn)
      基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
      攀爬的姿態(tài)
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      全新一代宋的新姿態(tài)
      跑與走的姿態(tài)
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      醫(yī)聯(lián)體要把握三個(gè)關(guān)鍵點(diǎn)
      一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識(shí)別方法
      犍为县| 莫力| 双流县| 朔州市| 甘洛县| 长阳| 武宁县| 师宗县| 迭部县| 沙雅县| 四川省| 连平县| 东阳市| 阿图什市| 青冈县| 遂平县| 盈江县| 太仆寺旗| 治县。| 敦化市| 民丰县| 丹江口市| 新建县| 汝南县| 临潭县| 宣威市| 澄江县| 凤翔县| 临颍县| 宜都市| 南宁市| 临邑县| 民县| 西和县| 长子县| 定西市| 余江县| 武平县| 镇雄县| 吴旗县| 忻城县|