• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于模糊神經(jīng)網(wǎng)絡和圖模型推理的動作識別

      2018-08-21 01:59:46趙一丹肖秦琨
      計算機技術(shù)與發(fā)展 2018年8期
      關(guān)鍵詞:關(guān)鍵幀語義神經(jīng)網(wǎng)絡

      趙一丹,肖秦琨,高 嵩

      (西安工業(yè)大學 電子信息工程學院,陜西 西安 710021)

      0 引 言

      近年來,人體動作識別研究已經(jīng)成為計算機視覺領域的核心問題。由于人體動作識別在空間上的復雜性和時間上的差異性,使其在識別研究領域并沒有統(tǒng)一有效的研究框架,所以人體動作識別仍然是一個非常具有挑戰(zhàn)性的課題。

      許多動作識別方法側(cè)重于設計有效的描述符呈現(xiàn)運動特征或提取運動特征,然后通過特征匹配的方法將待識別動作進行分類[1-2]。以往的動作識別主要包含兩類:特征表示和動作分類。根據(jù)文獻[3]了解到,特征表示始終是動作識別過程中的關(guān)鍵任務。一般而言,運動序列特征的表示通常分為全局特征表示和局部特征表示。全局特征呈現(xiàn)總圖像,但是,全局特征經(jīng)常受到遮擋、視點變化和噪聲的干擾?;谌值奶卣鞅硎景ɑ诠饬鞯某尸F(xiàn)[4]、基于剪影的描述符[5]、基于邊緣的特征表示[6]和運動歷史圖像(MHI)[7]等。局部特征描述子可以更有效地呈現(xiàn)動作視頻,尤其是處理噪聲圖像、部分遮擋等復雜的情況。

      有研究人員利用許多常規(guī)方法對人體動作進行分類[1-2,8-9]。比如,文獻[2]提出了一種SVM多類分類器,使用動態(tài)規(guī)劃將運動序列分段。在文獻[1]中,局部描述符被組合成用于動作識別的SVM。在文獻[8]中,使用K-最近鄰分類器來預測動作標簽。然而,這些常規(guī)的識別方法難以及時捕獲動態(tài)時空序列信息。

      除了常規(guī)的分類器方法,還有條件隨機場(CRF)[10]、隱馬爾可夫模型(HMM)[11]、動態(tài)貝葉斯網(wǎng)絡(DBN)[12]等基于圖模型的多序列標注模型是識別動作的有效工具,適用于建模和分析人類行為。在文獻[13]中,也提出利用線性圖序列模型來構(gòu)建語義和動作識別的非線性映射。

      在上述研究的基礎上,文中提出了一種復雜視頻序列語義識別的圖模型結(jié)構(gòu)?;谝韵氯c考慮這一問題:(1)為了減少動作視頻維度和識別時間,采用模糊c-均值(fuzzy c-means,F(xiàn)CM)聚類方法[14-16]獲得關(guān)鍵幀。所選擇的辨別功能比原始功能具有更好的性能。基于FCM,從原始動作視頻獲得更好的辨別功能。(2)為了提高魯棒性,考慮使用層次圖模型進行動作語義識別,基本識別級別是基于模糊神經(jīng)網(wǎng)絡的關(guān)鍵幀動作識別,較高的識別級別是基于概率圖模型將關(guān)鍵幀動作序列進行分類。(3)同時,還發(fā)現(xiàn)概率圖模型是挖掘隱藏狀態(tài)信息的有效途徑[17-19]。DBN是目前呈現(xiàn)隨機時間序列信號很有效的工具,因此,選擇模糊神經(jīng)網(wǎng)絡圖模型(FNNGM)來呈現(xiàn)人體動作?;趫D模型的信號處理可以完成三個任務:一是完全清楚地呈現(xiàn)動作;二是挖掘更多隱藏的語義信息;三是在此基礎上,將高級語義分析和圖模型結(jié)合起來,以獲得有效的動作表示。

      1 檢索算法

      1.1 算法概述

      所提出的算法在圖1中給出了圖解說明,該算法那分為系統(tǒng)學習和動作識別兩個階段。在系統(tǒng)學習階段,首先提取運動數(shù)據(jù)集中動作的幀圖像。其次,使用模糊c-均值聚類算法對幀圖像進行聚類獲取運動的關(guān)鍵幀。設計了一個模糊神經(jīng)網(wǎng)絡分類器來識別關(guān)鍵幀的運動姿態(tài),關(guān)鍵幀標記的姿態(tài)特征數(shù)據(jù)集被用作教師信號來訓練模糊神經(jīng)網(wǎng)絡。最后,使用模糊神經(jīng)網(wǎng)絡圖模型的概率圖模型對關(guān)鍵幀序列進行分類。文中設計的圖模型是基于隱馬爾可夫模型和模糊神經(jīng)網(wǎng)絡的組合。在動作識別階段,自動提取待識別動作的關(guān)鍵幀特征,然后使用FNNGM推理算法得到動作語義分類結(jié)果。

      圖1 算法流程

      1.2 系統(tǒng)學習

      通過系統(tǒng)學習來構(gòu)建和訓練FNNGM模型,從而進行人體運動序列動作識別。

      1.2.1 運動序列預處理

      首先,采用FCM通過聚類獲取關(guān)鍵幀[20-22]。假設獲取的一個動作其關(guān)鍵幀運動序列為{rfi}i=1,2,…,k,其中rfi表示第i個運動關(guān)鍵幀特征??梢允褂胹維四元數(shù)矢量rfj=(x1,x2,…,xn)來描述身體姿態(tài)。文中考慮在骨架中使用26個關(guān)節(jié)狀態(tài)信息來呈現(xiàn)身體姿態(tài),每個關(guān)節(jié)采用一個四元數(shù)描述符(1×4)進行描述,其中n=26×4=104。

      其次,基于所有動作關(guān)鍵幀訓練數(shù)據(jù)集。首先建立動作語義集S={S1,S2,…,Sω}。然后關(guān)鍵幀動作通過K-means進行姿態(tài)聚類以形成相似運動姿態(tài)集合G={G1,G2,…,Gq},其中q是聚類組的個數(shù)。

      1.2.2 使用FNN對關(guān)鍵幀進行識別

      一般而言,動作語義是由不同關(guān)鍵幀組合決定的,這意味著不同的身體姿態(tài)組合代表不同的動作語義。文中首先構(gòu)建一個T-S模糊神經(jīng)網(wǎng)絡模型,來識別由每個關(guān)鍵幀確定的身體姿態(tài)語義,此外,使用概率圖推理來分類動作序列語義。使用數(shù)據(jù)(rfi,Gj),i=1,2,…,n,j=1,2,…,p對FNN進行訓練,具體過程如下:

      T-S模糊系統(tǒng)具有較強的適應性能,并且能夠自我更新,所以可以自動地修改模糊子集的隸屬函數(shù)。T-S模糊系統(tǒng)的使用遵循“if-then”規(guī)則,規(guī)則如下:

      if

      then

      假定輸入rfi=(x1,x2,…,xn),則根據(jù)模糊規(guī)則可計算xj的模糊隸屬度為:

      (1)

      則rfi的模糊隸屬度計算公式為:

      (2)

      同時,輸出yi計算為:

      (3)

      T-S模糊神經(jīng)網(wǎng)絡分為四層,包括輸入層、模糊層、模糊規(guī)則層和輸出層。在輸入層中沒有計算操作,在模糊層使用式1計算模糊隸屬度,然后根據(jù)式2得到規(guī)則推理結(jié)果,最終通過式3計算輸出。FNN訓練包括以下三個步驟:

      (1)誤差計算。

      (4)

      其中,yd是期望輸出;yc是實際輸出;e是期望輸出與實際輸出之間的誤差。

      (2)系數(shù)修正。

      (5)

      (3)參數(shù)修正。

      (6)

      1.3 圖模型和推理

      1.3.1 圖模型構(gòu)建

      FNNGM模型如圖2所示。

      圖2 用于動作識別的FNNGM圖模型結(jié)構(gòu)

      該模型包括三層:最低層是測量信號層,從最低層輸入RF序列((rf1,rf2,…,rfk));中間層是運動姿勢層,在這一層呈現(xiàn)由FNN推斷的離散姿勢狀態(tài)信號((g1,g2,…,gk));最高層是動作語義層,根據(jù)中間層和最低層的信息,在該層中計算最終動作語義((s1,s2,…,sk))。

      (7)

      其中,S={S1,S2,…,Sw}和G={G1,G2,…,Gp}分別是動作語義集和相似姿態(tài)集合。

      基于S和G中的rfi數(shù)量,計算圖模型參數(shù)。首先,先驗概率的計算為:

      (8)

      其中,nrf∈Si為屬于語義Si的關(guān)鍵幀數(shù);nrf為訓練數(shù)據(jù)集中所有關(guān)鍵幀的數(shù)量。

      其次,估計語義交易可能性aij:

      (9)

      其中,nSj|Si表示訓練數(shù)據(jù)中從rft(rft∈Si)到rft+1(rft+1∈Sj)相鄰鏈接的數(shù)目;nS|Si表示訓練數(shù)據(jù)中從rft(rft∈Si)到rft+1(rft+1∈Sj,S所有可能的語義)的鄰接鏈路的數(shù)量。

      (10)

      其中,nGj|Si表示訓練數(shù)據(jù)中rft(rft∈Si∩Gj)的數(shù)目;nSi表示訓練數(shù)據(jù)中rft(rft∈Si)的數(shù)量。

      基于初始參數(shù)估計,進一步使用Baum-Welch算法優(yōu)化參數(shù),對數(shù)似然值對應于參數(shù)學習的全局收斂性能,當對數(shù)似然值變得穩(wěn)定時,意味著參數(shù)收斂到最優(yōu)值。

      1.3.2 圖模型推理

      基于所構(gòu)建的FNNGM圖模型結(jié)構(gòu)進行圖模型推理,對動作語義序列進行分類。將{rf1:k}作為一個測量的圖模型。系統(tǒng)狀態(tài)序列為S={s1:k}和G={g1:k},基于圖模型推理的動作識別描述如下:

      給定檢測量{rf1:k},以更新隱藏狀態(tài)信號S={s1:k}和g={h1:k}。首先,根據(jù)貝葉斯規(guī)則,計算P(s1):

      (11)

      將s0和P(s1|s0)設置為初始系統(tǒng)輸入,因此,根據(jù)式8、9、11可以得到P(s1)。

      接下來,預測C使用檢測量更新為:

      (12)

      同時,確保α的輸出結(jié)果在區(qū)間[0,1]中。此外,通過測量結(jié)果,濾波方程可以重新寫為:

      P(s1+t|g1:1+t,rf1:1+t)=

      P(s1+t|rf1+t,rf1:t)P(s1+t|g1+t,g1:t)=

      αP(rf1+t|s1+t,rf1:t)

      (13)

      基于濾波方程(式13),進一步得到最大可能狀態(tài)路徑:

      (14)

      最終獲得語義序列最大可能性狀態(tài)值。

      2 實 驗

      為了評估所提出的動作識別方法的性能[23],構(gòu)建了一個人體運動數(shù)據(jù)庫,包括360個不同的動作剪輯。動作剪輯大致分為20個動作語義組,這里選用四元數(shù)描述符[24]來呈現(xiàn)身體運動姿態(tài)。文中采用26個骨骼關(guān)節(jié)[25]呈現(xiàn)身體運動姿態(tài),因此得到104維(26×4=104)的四元數(shù)描述符。

      使用FNNGM模型來實現(xiàn)動作序列數(shù)據(jù)分類。利用兩個評價標準以評估提出方法的性能。幀精度計算如下:

      (15)

      由于運動數(shù)據(jù)集中的視頻被分割,每個視頻中只有一種動作[26]。每個預測序列中的類標簽通過多數(shù)表決計算。基于上述,視頻精度可以計算如下:

      (16)

      所有的比較方法可以分為兩類:(1)包含CRF的序列模型、條件隨機場(CRF)與單隱層神經(jīng)網(wǎng)絡(NNCRF)耦合的序列模型;(2)包含支持向量機(SVM)的非序列模型、單隱層神經(jīng)網(wǎng)絡的非序列模型。對基于幀的樣本進行非序列模型訓練。SVM模型是具有線性內(nèi)核的多類SVM模型。作為非線性模型,神經(jīng)網(wǎng)絡用一個隱層進行訓練。對于序列模型,選擇標準線性鏈CRF作為基線方法之一。選擇非線性鏈NNCRF作為非線性序列模型的基線。使用一個隱藏層,枚舉隱藏節(jié)點的數(shù)量。在線性鏈CRF和非線性NNCRF方法中都加入正則化術(shù)語,以避免在訓練過程中過度擬合。調(diào)整正則化參數(shù)[27],并通過交叉驗證調(diào)整正則化的參數(shù)。將提出的方法在兩種配置下進行測試。

      動作識別示例如圖3所示。其中,圖(a)是動作的“cartwheelLHandStart1Reps”插圖,圖(b)是HMM參數(shù)學習的對數(shù)似然-時間圖(loglik-time)?;谙闰炛R估計初始參數(shù),然后使用Baum-Welch算法優(yōu)化參數(shù),對數(shù)似然值對應于參數(shù)學習的全局收斂性能,當對數(shù)似然值變得穩(wěn)定時,意味著參數(shù)收斂到最優(yōu)值。圖(c)是HMM參數(shù)矩陣,參數(shù)為λ=(πS,AS,BG,Brf),因為Brf包含太多參數(shù),只將πS,AS和BG組合成一個大矩陣在(c)中顯示。其中,πS為1×20的矩陣,對應于20個動作語義;AS為20×20的矩陣;BG為20×25的矩陣,對應于20個動作語義中的25個待識別姿勢組。圖(d)是FNNGM的對數(shù)概率矩陣,對應于圖模型推理對數(shù)概率值,在運動數(shù)據(jù)集中,動作“cartwheelLHandStart1Reps”包含21個樣本,前50%樣本為訓練數(shù)據(jù),其余樣本為檢測數(shù)據(jù)。檢測數(shù)據(jù)的識別結(jié)果如圖(d)所示,矩陣中的每一行對應于動作樣本與不同F(xiàn)NNGM模型之間的匹配概率。在實驗中,由于動作“carwheelLHandStart1Reps”在數(shù)據(jù)集中被標注為數(shù)字#1動作語義組,從識別結(jié)果看出,第一列具有最高匹配概率值。

      同時,為了評估FNNGNM動作識別模型的識別性能,將其與基于構(gòu)建框架的其他方法進行比較,結(jié)果如表1所示。從中可以得出以下結(jié)果:線性序列模型(CRF)優(yōu)于線性支持向量機(SVM),表明結(jié)構(gòu)依賴對于動作識別很重要;(2)非線性模型比線性模型獲得了更好的性能;(3)通過將CRF與隱藏層相結(jié)合,NNCRF模型進一步提高了標準CRF的性能;(4)所有三個特征函數(shù)的組合比標準CRF特征函數(shù)組合有更好的性能。因此,可以得出結(jié)論,文中方法得到的識別結(jié)果精度最佳。

      圖3 FNNGM模型動作識別示例

      表1 與現(xiàn)有方法的比較結(jié)果 %

      3 結(jié)束語

      提出了一種新的基于圖模型和模糊神經(jīng)網(wǎng)的動作識別方法。構(gòu)建了一個新的基于圖模型的動作識別模型,該模型將模糊神經(jīng)網(wǎng)絡和概率圖模型推理有效地結(jié)合起來,并采用基于遞歸的方法識別視頻動作數(shù)據(jù)?;谪惾~斯規(guī)則、圖模型等理論,提出了基于概率的遞歸計算結(jié)構(gòu),以獲得較高的動作識別精度。通過與現(xiàn)有模型進行比較,驗證了該算法具有良好的精確性和有效性。

      猜你喜歡
      關(guān)鍵幀語義神經(jīng)網(wǎng)絡
      語言與語義
      神經(jīng)網(wǎng)絡抑制無線通信干擾探究
      電子制作(2019年19期)2019-11-23 08:42:00
      基于改進關(guān)鍵幀選擇的RGB-D SLAM算法
      “上”與“下”語義的不對稱性及其認知闡釋
      基于相關(guān)系數(shù)的道路監(jiān)控視頻關(guān)鍵幀提取算法
      基于神經(jīng)網(wǎng)絡的拉矯機控制模型建立
      重型機械(2016年1期)2016-03-01 03:42:04
      基于聚散熵及運動目標檢測的監(jiān)控視頻關(guān)鍵幀提取
      復數(shù)神經(jīng)網(wǎng)絡在基于WiFi的室內(nèi)LBS應用
      基于支持向量機回歸和RBF神經(jīng)網(wǎng)絡的PID整定
      認知范疇模糊與語義模糊
      肇州县| 五指山市| 阳山县| 尚志市| 德兴市| 上高县| 宁南县| 西乌珠穆沁旗| 舒兰市| 股票| 盐边县| 清徐县| 陕西省| 堆龙德庆县| 田林县| 彰化县| 岐山县| 乐东| 白沙| 富川| 南阳市| 壶关县| 洛隆县| 刚察县| 昌图县| 疏附县| 普定县| 巴中市| 呼伦贝尔市| 黄浦区| 五峰| 前郭尔| 安国市| 乡宁县| 商河县| 隆林| 林西县| 青田县| 丹江口市| 西平县| 泾川县|