• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于視頻時空特征提取分類的動作分析評估模型

      2024-09-20 00:00:00陳迪李焱芳畢衛(wèi)云李朗蒲珊珊
      現(xiàn)代電子技術(shù) 2024年8期
      關(guān)鍵詞:骨骼時空注意力

      摘" 要: 為拓展機器視覺技術(shù)在醫(yī)工結(jié)合場景下的應(yīng)用,文中基于改進的時空Transformer模型,提出一種動作規(guī)范識別模型。該模型由數(shù)據(jù)嵌入層、時空Transformer層、決策融合層組成。數(shù)據(jù)嵌入層利用Openpose模型從sRGB圖像中提取人體骨骼數(shù)據(jù),降低環(huán)境部署成本;時空Transformer層使用時空模塊和塊間模型對圖像數(shù)據(jù)特征進行訓(xùn)練和分類,提升原模型的分類精度;決策融合層實現(xiàn)對應(yīng)用場景的規(guī)范性判別。實驗測試結(jié)果表明:所提算法的TOP1和TOP5精度指標(biāo)在所有對比算法中均為最優(yōu);在以心肺復(fù)蘇術(shù)為例進行的實際應(yīng)用測試中,該算法的綜合性能較為理想,能夠滿足工程需要。

      關(guān)鍵詞: 計算機視覺; 時空Transformer模型; 骨骼模型; 決策融合; 動作識別; 多頭注意力機制

      中圖分類號: TN919?34; TP391" " " " " " " " " "文獻標(biāo)識碼: A" " " " " " " nbsp; " " " 文章編號: 1004?373X(2024)08?0160?05

      An action analysis and evaluation model based on video spatiotemporal feature

      extraction and classification

      CHEN Di1, LI Yanfang2, BI Weiyun2, LI Lang2, PU Shanshan2

      (1. School of Basic Medical Sciences, Air Force Medical University, Xi’an 710032, China; 2. The First Affiliated Hospital of AFMU, Xi’an 710032, China)

      Abstract: In order to expand the application of machine vision technology in medical and industrial integration scenarios, an action specification recognition model based on an improved spatiotemporal Transformer model is proposed. The model is composed of data embedding layer, spatiotemporal Transformer layer, and decision fusion layer. In the data embedding layer, the Openpose model is used to extract human bone data from sRGB images, so as to reduce environmental deployment costs. In the spatiotemporal Transformer layer, the spatiotemporal modules and inter block models are used to train and classify image data features, so as to improve the classification accuracy of the original model. The decision fusion layer is used to realize the normative discrimination for application scenarios. The experimental testing results show that the TOP1 and TOP5 accuracy indicators of the proposed algorithm are the best among all comparative algorithms. In practical application testing using cardiopulmonary resuscitation as an example, the comprehensive performance of the algorithm is relatively ideal and can meet engineering needs.

      Keywords: computer vision; spatiotemporal Transformer model; bone model; decision fusion; action recognition; multi head attention mechanism

      0" 引" 言

      隨著計算機視覺的發(fā)展,國內(nèi)外眾多學(xué)者使用深度學(xué)習(xí)的框架實現(xiàn)了人體的動作識別與預(yù)測,還能夠提取人體的骨架特征,但計算機視覺在醫(yī)師規(guī)培領(lǐng)域的應(yīng)用目前較少。由于臨床操作的實施與醫(yī)師的職業(yè)技能有著直接關(guān)系,若動作不規(guī)范,則會導(dǎo)致診療水平下降,甚至?xí)颊咴斐刹豢赡孓D(zhuǎn)的次生傷害。因此,對醫(yī)師操作過程中動作的規(guī)范性評價成為了研究熱點[1?3]。

      目前,臨床操作的培訓(xùn)以及動作規(guī)范判斷大多依靠具有反饋裝置的假人訓(xùn)練模型,這種方式成本較高、效率低、單次規(guī)培人數(shù)少,同時反饋裝置只能對醫(yī)師的動作力度進行評判,無法識別動作是否規(guī)范。在醫(yī)工結(jié)合的背景下,本文基于計算機視覺技術(shù),提出一種動作規(guī)范性識別模型,進而提升培訓(xùn)、操作的效率與質(zhì)量。

      1" 動作規(guī)范性識別算法

      1.1" 算法結(jié)構(gòu)設(shè)計

      本文的動作規(guī)范性識別算法結(jié)構(gòu)設(shè)計如圖1所示。該算法由數(shù)據(jù)嵌入層、時空Transformer層、決策融合層組成。視頻嵌入層主要負責(zé)從視頻中提取骨骼數(shù)據(jù),并處理數(shù)據(jù)格式;時空Transformer層負責(zé)對數(shù)據(jù)進行處理,同時還可以捕獲數(shù)據(jù)的時空相關(guān)性;最后進行決策層融合,得到動作識別判定結(jié)果。

      1.2" 骨骼數(shù)據(jù)嵌入提取模型

      常用的骨骼數(shù)據(jù)提取方法大多依賴于深度圖像,需要由專業(yè)的深度相機拍攝,環(huán)境部署成本較高。本次使用Openpose模型提取骨骼數(shù)據(jù)[4?6],其可以直接對sRGB圖像幀數(shù)據(jù)進行訓(xùn)練與識別,進而增強模型的適用性。

      Openpose模型由卷積姿態(tài)機和局部親和度組成。卷積姿態(tài)機是一種序列形式的全卷積網(wǎng)絡(luò),由多個Stage構(gòu)成,網(wǎng)絡(luò)的輸入數(shù)據(jù)為sRGB圖像序列。本文使用的卷積姿態(tài)機共有4個Stage,具體結(jié)構(gòu)如圖2所示。

      在訓(xùn)練過程中,每個階段結(jié)束之后均要將損失函數(shù)的輸出值作為中間值進行替換,從而避免梯度爆炸或梯度消失等問題。模型使用到的損失函數(shù)公式如下:

      [Losstotal =t=1Tp=1Pj∈Jbpt(j)-bp*(j)2] (1)

      式中:t為階段數(shù);p表示圖像中像素點的序號;j代表人體骨骼關(guān)節(jié)序號;b表示實時熱力圖分布。

      模型還使用了局部親和度對圖像像素點的親和度進行標(biāo)注與計算,進而將像素點的關(guān)鍵位置連接構(gòu)成帶有方向的向量,從而記錄人體骨骼運動的方向及位置信息。向量合成關(guān)系如圖3所示。

      圖3中,xj1,k和xj2,k為第k個人肢體的關(guān)節(jié)起始位置,p代表像素點,v、vt分別表示水平和垂直方向的肢體移動速度。設(shè)L為親和度,公式如下:

      [Lc,k(p)=v,p∈c0,p?c] (2)

      [v=xj1,k-xj2,kxj1,k-xj2,k2] (3)

      基于該親和度信息,可以自上而下地進行單人檢測,得到肢體的位置和方向信息,進而確定關(guān)節(jié)點之間的聯(lián)通區(qū)域。

      1.3" 基于編碼的骨骼數(shù)據(jù)嵌入模塊

      為了將骨骼數(shù)據(jù)送入時空Transformer模塊中進行分析,還需要對數(shù)據(jù)進行編碼并將其嵌入到模型中。本文使用的編碼方案如圖4所示。

      可將圖4中的骨骼數(shù)據(jù)看作張量,故得:

      [XC=[x1,x2,…,xT], xi∈Rn×V×C] (4)

      式中:n為幀數(shù);T為時空塊;V是關(guān)節(jié)個數(shù);C表示關(guān)節(jié)數(shù)據(jù)維度。公式(4)將數(shù)據(jù)XC分割為多個不重疊的時空塊數(shù)據(jù),同時通過特征映射層將高維特征嵌入到后續(xù)模型中。

      1.4" 動作特征提取模型

      Transformer模型[7?11]由編碼器和解碼器組成,最早被應(yīng)用于自然語言處理等領(lǐng)域。編碼器被用于提取輸入數(shù)據(jù)特征,同時還能夠提取同等維度的感知數(shù)據(jù)特征。Transformer模型的編碼器結(jié)構(gòu)如圖5所示。

      在圖5中,編碼器的單個子層由多層感知機和多頭注意力機制構(gòu)成,編碼器由多個子層結(jié)構(gòu)組成。同時,在連接部分加入了殘差網(wǎng)絡(luò)(Residual Network)和LN層,則第n個編碼器子層結(jié)構(gòu)的數(shù)據(jù)處理過程如下:

      [Z′n=MSALNZn-1+Zn-1] (5)

      [Zn=MLPLNZ′n+Z′n] (6)

      式中:[Zn-1]和[Zn]分別表示第n個子層的輸入與輸出特征。該特征具有相同的維度,通過殘差的連接方式也避免了網(wǎng)絡(luò)訓(xùn)練過程出現(xiàn)的過擬合。多頭注意力機制的結(jié)構(gòu)如圖6所示。

      多頭注意力機制[12?14]由查詢向量矩陣Q、鍵向量矩陣K以及值向量矩陣V組成,可由線性變換計算得到。多頭注意力機制的權(quán)重矩陣通常是通過點積得到的,公式如下:

      [Attention(Q,K,V)=SoftmaxQKTdV] (7)

      [MSA(Q,K,V)=Concat(Y1,Y2,…,YH)Wo] (8)

      [Yh=Attention(Qh,Kh,Vh)," h∈{1,2,…,H}] (9)

      本文基于Transformer結(jié)構(gòu),提出一種耦合時空因素的Transformer網(wǎng)絡(luò)算法,其結(jié)構(gòu)如圖7所示。

      所構(gòu)建的Transformer網(wǎng)絡(luò)算法由時空塊和塊間網(wǎng)絡(luò)組成,其中,時空塊網(wǎng)絡(luò)主要用來學(xué)習(xí)多個圖像幀之間的關(guān)節(jié)特征,網(wǎng)絡(luò)的輸入部分為處理過后的骨架數(shù)據(jù)。輸入部分嵌入模塊的具體結(jié)構(gòu)如圖8所示。

      在圖8中:輸入數(shù)據(jù)為張量Zin;LP表示線性投影算法,該算法的輸入為特征重塑后的張量;定義域設(shè)置為B×T1×V1×C1,其中B為塊大小,T1是時空塊數(shù)量,V1為圖像中的關(guān)節(jié)個數(shù),C1表示關(guān)節(jié)數(shù)據(jù)維度。

      塊間的Transformer是在時空塊基礎(chǔ)結(jié)構(gòu)上改進的,模型可以對高維度的數(shù)據(jù)進行有效處理,同時能夠在時間維度中對數(shù)據(jù)進行處理,并生成多個空間注意力圖。

      2" 實驗分析

      2.1" 實驗環(huán)境與數(shù)據(jù)集搭建

      首先預(yù)設(shè)實驗環(huán)境,本文算法以Pytorch為基礎(chǔ)深度學(xué)習(xí)框架,所使用的硬件配置如表1所示。

      使用兩個主流人體動作識別數(shù)據(jù)集作為模型訓(xùn)練數(shù)據(jù)集,分別為Kinetics?400和FineGYM[15?16]。Kinetics?400是從YouTuBe中采集的人體運動數(shù)據(jù)集,共有400個人體動作分類,樣本數(shù)量超過30萬條。FineGYM也為人體動作識別數(shù)據(jù)集,但是其為細粒度數(shù)據(jù)集,數(shù)據(jù)來源于體操比賽,共有100個細粒度分類,樣本總量約7萬條。文中構(gòu)建的實驗數(shù)據(jù)集分為訓(xùn)練集和驗證集,數(shù)量比例為8∶2,再將兩種數(shù)據(jù)集按照1∶1的比例隨機混合成本文所需數(shù)據(jù)集。

      2.2" 算法測試

      為驗證算法模型中每個部分對整體性能的貢獻,進行消融實驗。實驗使用5種模型,分別為基本Transformer(模型1)、時空Transformer(模型2)、嵌入層+

      Transformer(模型3)、嵌入層+時空Transformer(模型4)、本文模型嵌入層+時空Transformer+塊間Transformer(模型5)。模型使用TOP1和TOP5精度作為評價指標(biāo),實驗測試結(jié)果如表2所示。

      由表2的實驗結(jié)果可以看出:將原始模型的線性嵌入模塊改進為Openpose嵌入層后,TOP1精度對應(yīng)提升了5%,TOP5精度也有相應(yīng)提升,表明改進嵌入模塊是有效的策略,也說明了提取骨骼數(shù)據(jù)特征的重要性;而改進后的時空Transformer模型(模型2)相較原始模型TOP1精度提升了3.3%;本文模型TOP1精度最高,相較原始精度提升了7.6%,這充分說明了改進算法的有效性。

      為了對算法性能進行橫向評估,本文還使用多種常用算法模型進行精度比較,對比算法為GCN(Graph Convolutional Network)、2D?CNN(2D?Convolutional Neural Network)、HCN(HyperCube Network)、CNN?LSTM(Convolutional Neural Network?Long Short?Term Memory)以及TP?ViT。橫向?qū)Ρ葴y試的實驗結(jié)果如表3所示。

      由表3可以看出,本文算法在所有算法中的精度指標(biāo)最優(yōu),比TP?ViT算法的TOP1和TOP5精度分別高0.9%和3.7%,比CNN?LSTM算法的TOP1和TOP5精度分別高2.6%與10.6%。綜上可得,本文算法表現(xiàn)良好,具有較為理想的性能。

      心肺復(fù)蘇術(shù)(Cardio Pulmonary Resuscitation, CPR)是急救領(lǐng)域最基礎(chǔ)且常用的手段之一,本文以CPR動作規(guī)范性識別為例,進行了應(yīng)用場景下的實驗驗證,結(jié)果如圖9所示。圖9表明,模型可識別出sRGB圖像的骨架,并能對動作規(guī)范性進行識別,驗證了算法的工程實用價值。

      3" 結(jié)" 語

      本文充分利用Transformer模型訓(xùn)練效率和識別準(zhǔn)確率高的特點,提出了一種可用于醫(yī)學(xué)場景下的動作識別模型。該模型由數(shù)據(jù)嵌入層、時空Transformer層、決策融合層組成,可以從sRGB圖像中提取骨骼數(shù)據(jù),并對數(shù)據(jù)特征進行學(xué)習(xí),進而判斷動作的規(guī)范性。實驗測試證明,所提模型的綜合性能良好,TOP1和TOP5精度均優(yōu)于對比算法。

      注:本文通訊作者為李焱芳。

      參考文獻

      [1] 莫加良,韋燕運,盧偉光,等.根因分析法在急診心肺復(fù)蘇中的應(yīng)用效果及其對患者預(yù)后的影響[J].廣西醫(yī)科大學(xué)學(xué)報,2023,40(9):1597?1602.

      [2] 馮航測,田江濤,郝美林,等.基于SE?Stacking算法的心肺復(fù)蘇結(jié)果預(yù)測分析[J].國外電子測量技術(shù),2023,42(9):155?161.

      [3] 張友坤,陳偉,靳小靜,等.基于MW?REF算法的心肺復(fù)蘇影響因素分析[J].科學(xué)技術(shù)與工程,2023,23(22):9543?9549.

      [4] 蘇波,柴自強,王莉,等.基于姿態(tài)估計的八段錦序列動作識別與評估[J].電子科技,2022,35(12):84?90.

      [5] 張富凱,賀天成.結(jié)合輕量Openpose和注意力引導(dǎo)圖卷積的動作識別[J].計算機工程與應(yīng)用,2022,58(18):180?187.

      [6] 李一凡,袁龍健,王瑞.基于OpenPose改進的輕量化人體動作識別模型[J].電子測量技術(shù),2022,45(1):89?95.

      [7] 余子丞,凌捷.基于Transformer和多特征融合的DGA域名檢測方法[J].計算機工程與科學(xué),2023,45(8):1416?1423.

      [8] 鄧帆,曾淵,劉博文,等.基于Transformer時間特征聚合的步態(tài)識別模型[J].計算機應(yīng)用,2023,43(z1):15?18.

      [9] 徐麗燕,徐康,黃興挺,等.基于Transformer的時序數(shù)據(jù)異常檢測方法[J].計算機技術(shù)與發(fā)展,2023,33(3):152?160.

      [10] 黨曉方,蔡興雨.基于Transformer的機動目標(biāo)跟蹤技術(shù)[J].電子科技,2023,36(9):86?92.

      [11] 石躍祥,朱茂清.基于骨架動作識別的協(xié)作卷積Transformer網(wǎng)絡(luò)[J].電子與信息學(xué)報,2023,45(4):1485?1493.

      [12] 趙英伏,金福生,李榮華,等.自注意力超圖池化網(wǎng)絡(luò)[J].軟件學(xué)報,2023,34(10):4463?4476.

      [13] 常月,侯元波,譚奕舟,等.基于自注意力機制的多模態(tài)場景分類[J].復(fù)旦學(xué)報(自然科學(xué)版),2023,62(1):46?52.

      [14] 李垚,余南南,胡春艾,等.基于自注意力機制的腦血腫分割和出血量測量算法[J].數(shù)據(jù)采集與處理,2022,37(4):839?847.

      [15] 屈小春.基于Transformer的雙流動作識別方法研究[D].重慶:西南大學(xué),2023.

      [16] 蔡思佳.基于注意力機制的細粒度行為識別算法研究[D].南京:東南大學(xué),2022.

      作者簡介:陳" 迪(1980—),女,遼寧大連人,碩士,講師,研究方向為生物醫(yī)學(xué)可視化、教育技術(shù)。

      猜你喜歡
      骨骼時空注意力
      跨越時空的相遇
      讓注意力“飛”回來
      做家務(wù)的女性骨骼更強壯
      中老年保健(2021年5期)2021-12-02 15:48:21
      三減三健全民行動——健康骨骼
      中老年保健(2021年5期)2021-08-24 07:06:28
      鏡中的時空穿梭
      玩一次時空大“穿越”
      骨骼和肌肉
      小布老虎(2017年1期)2017-07-18 10:57:27
      “揚眼”APP:讓注意力“變現(xiàn)”
      傳媒評論(2017年3期)2017-06-13 09:18:10
      A Beautiful Way Of Looking At Things
      時空之門
      仪陇县| 沙坪坝区| 沾益县| 清丰县| 靖州| 吕梁市| 久治县| 石棉县| 弥渡县| 安宁市| 长宁县| 宜黄县| 邛崃市| 房山区| 宜黄县| 景东| 含山县| 东源县| 太谷县| 平果县| 班玛县| 余姚市| 平昌县| 榆树市| 蓬莱市| 托克托县| 奉新县| 汤阴县| 马尔康县| 宁强县| 廊坊市| 砀山县| 托克托县| 东乌珠穆沁旗| 桦甸市| 乌苏市| 怀来县| 南漳县| 南澳县| 依安县| 山东省|