• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于時空興趣點和概率潛動態(tài)條件隨機場模型的在線行為識別方法

      2018-08-28 08:52:56亮,何毅,梅雪,劉
      計算機應用 2018年6期
      關鍵詞:識別率時空標簽

      吳 亮,何 毅,梅 雪,劉 歡

      (南京工業(yè)大學電氣工程與控制科學學院,南京211816)

      (*通信作者電子郵箱heyi@163.com)

      0 引言

      近些年,人體動作行為識別作為計算機視覺領域的研究熱點越來越受到人們的廣泛關注[1]。身體各部位運動協(xié)調配合完成人體行為活動,這是帶有目的性的活動。在視頻中的人體行為可以看作是視頻時空體中的一種時間空間模式。人體行為具有高度的分層和組織結構,每個行為都可以分解為一定數(shù)量的子行為,而這些子行為又可以分解為更加基本的行為單元[2]。許多行為都包含大量的子動作,而這些子動作的組織結構一般情況下既有嚴格的階段又有松散的階段。成熟的條件隨機場(Conditional Random Field,CRF)模型[3-4]已經能夠將大量的輸入特征整合到模型中,但它還不能表達出序列的子結構。為了在序列標簽工作中對子結構更好地建模,針對分段序列,文獻[5]討論了隱含條件隨機場(Hidden Conditional Random Field,HCRF),但該模型脫機,并存在實時性的缺陷。針對未分段序列,文獻[6]提出了潛在動態(tài)條件 隨 機 場 (Latent-Dynamic ConditionalRandom Field,LDCRF),LDCRF模型雖然能夠很好地刻畫出行為動作內部的子結構,可以對行為動作內外建模,但是其沒有充分利用基元動作的子動作間的相關性,并且對行為轉換時的標記存在一些偏差[7-8]。本文對LDCRF模型進行改進,對其勢函數(shù)中的特征函數(shù)重新定義,使其能夠很好地顯示子行為的轉換,以改善LDCRF模型的不足得到概率潛動態(tài)條件隨機場(Probabilistic Latent-Dynamic Conditional Random Field,PLDCRF)。實驗中,PLDCRF模型對人體動作進行建模,分別與文獻[9]中的LDCRF和文獻[10]中的潛動態(tài)條件神經場模型(Latent-Dynamic Conditional Neural Field,LDCNF)比較取得了更佳的結果。

      1 行為檢測及特征提取算法

      1.1 視頻預處理及目標檢測

      將視頻序列中運動的目標從背景圖像中提煉出來是預處理和目標檢測的目的。本文采用自適應高斯混合模型的背景減除法[11],其優(yōu)點在于背景的自適應更新過程能夠使得算法對光線變化具有更強的適應能力,可以根據(jù)背景的復雜程度的高低對背景采用單高斯模型建?;蛘呋旌细咚菇5姆椒?,這就大大縮短背景建模的時間。

      1.2 行為特征提取

      對于人體運動行為特征的提取,本文使用一種時空興趣點(Space-Time Interest Point,STIP)特征[12]的方法。時空興趣點特征是在空間平面的X軸和Y軸的基礎上增加時間T軸,用其對視頻流進行描述,使得二維空間興趣點變?yōu)槿S時空興趣點,并使用Harris 3D角點檢測器尋找時空興趣點。這樣的興趣點要在空間和時間的維度上都具有明顯的變換。定義高斯導數(shù)為:

      對于時空圖像序列模型,其時空高斯核定義為:

      設時空二階矩陣為3×3矩陣,是第一順序的時空導數(shù)的平均,并用高斯函數(shù)進行加權,計算式為:

      通過搜索區(qū)域中具有顯著特征值λ1、λ2、λ3的μ,并計算μ的行列式det(μ)和μ的軌跡trace(μ)從而得到H矩陣:

      其中,k為經驗常數(shù),取值范圍為0.04 ~ 0.06。

      在得到所有的點的H矩陣后,找到H矩陣的正局部極大值點就是所要找的興趣點。通過對興趣點進行比較選擇,就可以得到非邊緣的前N個最大極值點。

      2 PLDCRF模型建模

      2.1 PLDCRF模型的建立

      PLDCRF是 LDCRF改進后的模型,如圖 1所示。PLDCRF模型整合隱含狀態(tài)變量,構建姿態(tài)序列子結構,選取姿態(tài)之間的動態(tài)特性,標記出未分割序列,同時正確地標記行為間轉換的過程,從而明顯改善了識別效果。

      圖1中,設觀察序列和標簽序列分布為X={x1,x2,…,xm} 和Y={y1,y2,…,ym},xj表示第j幀視頻的人體動作觀察序列,hj是xj相對應的隱藏狀態(tài),yj是xj的動作類標簽,行為視頻的觀察序列是給出的,目的為預測每幀動作的類標簽。定義條件概率模型為:

      其中θ是模型的參數(shù)。

      圖1 不同種模型概率圖Fig.1 Probability graphs of different models

      建模時,設定各個類標簽之間相關的隱藏狀態(tài)集不相互交叉,這樣就可以減少模型訓練和推理的復雜性。每個hj是類標簽yj的合適的隱藏狀態(tài)集Hyj中的一個成員,由于任意hjHyj,根據(jù)定義有 p(y|h,x,θ),模型可以表示為:

      其中分布函數(shù)Z保證了模型歸一化的概率,其定義如下:

      其中ψk定義如下:

      在圖1中,T表示為不同行為間的轉移概率函數(shù),S表示為同一行為的子動作間的轉移概率函數(shù)。式(8)中的fk(hj-1,hj,x,j) 為特征函數(shù),其表示為一個狀態(tài)函數(shù) sk(hj,x,j),或者一個轉移函數(shù) tk(hj-1,hj,x,j)。

      2.2 特征函數(shù)的選擇

      傳統(tǒng)的隨機場模型通常將轉移函數(shù)和狀態(tài)函數(shù)統(tǒng)一定義為特征函數(shù),特征函數(shù)的值通常為一個布爾值,要么取0,要么取1。不將轉移函數(shù)和狀態(tài)函數(shù)區(qū)分出來,這雖然可以減少模型的計算量,但也在一定程度上削弱了模型的能力。同時特征函數(shù)大多為一個布爾值,這樣難以有效地描述行為各動作間的相關程度,無法顯示動作和子動作間的轉換過程,從而無法很好地表示行為動作間的轉換。針對該問題,對LDCRF模型中的特征函數(shù)進行改變,構建了PLDCRF模型。

      特征函數(shù)定義為:

      其中,fj(hi-1,hi,x,i) 表示為狀態(tài)函數(shù) sk,或者轉移函數(shù) tj。在模型中,狀態(tài)函數(shù)表示為全部觀測序列與標簽序列在當前位置i上的特征,而轉移函數(shù)表示為全部觀測序列與相對應的標簽序列在前一個位置i-1與當前位置i的特征,其反映的是狀態(tài)的轉移。

      由于傳統(tǒng)的CRF模型在標記行為轉換時候會產生偏差,不能直接地表現(xiàn)出行為的轉換,并且不能很好地表達子動作結構的轉換,因此PLDCRF模型采用不同行為之間的轉移概率來對轉移函數(shù)tj進行定義。為了方便計算,假設同一行為的隱狀態(tài)相同,定義A=|aij|N為hi-1到hi的轉移概率矩陣,其中A的每一行的概率和為1。那么可以利用極大似然估計法來估計模型參數(shù),設樣本中時刻t處于狀態(tài)i,時刻t+1轉移到狀態(tài)j的頻數(shù)為Aij,則狀態(tài)轉移概率aij的估計是:

      定義轉移函數(shù)為:

      2.3 PLDCRF模型參數(shù)訓練與識別

      訓練集由 n 個標簽序列(xi,yi) 組成,其中 i=1,2,…,n。通過下面的目標函數(shù)學習參數(shù)θ*:

      根據(jù)以上定義,使用梯度法去求解參數(shù) θ*=arg max L(θ)最優(yōu)解,如式(14)所示。這里有兩種參數(shù),參數(shù)θs與狀態(tài)函數(shù)相關,參數(shù)θt與轉移函數(shù)相關。

      對于一個特定的訓練序列xi={x1,x2,…,xm}和 yi={y1,y2,…,ym},梯度函數(shù) ln p(Li|Xi,θ) 可以表示為:

      從而:

      利用有限記憶擬牛頓 弗萊徹 戈德法布 山諾(Limited-memory Broyden-Fletcher-Goldfarb-Shanno,LBFGS)優(yōu)化技術執(zhí)行梯度法,用動作序列標簽對模型進行訓練,進而得到模型的最優(yōu)參數(shù)。

      在人體行為識別過程中,給定一個測試序列x,估計出最有可能的標簽序列y*的最大化條件模型為:

      其中參數(shù)θ*是從訓練樣本集中學習得到的。

      根據(jù)假設,每個類標記有不重疊的隱狀態(tài)集,所以式(17)可改寫為:

      3 實驗與結果分析

      3.1 預處理及目標檢測驗證

      實際場景比實驗室條件復雜多變,且背景圖像很容易受到影子、光照等外界因素的干擾。采用1.1節(jié)的自適應高斯混合模型的背景減除法對標準數(shù)據(jù)庫中圖像和實際拍攝的圖像進行處理,如圖2所示。其中,圖2(a)、(b)分別為KTH數(shù)據(jù)庫行走行為的圖片和處理后的二值化人體輪廓圖片;圖2(c)、(d)為在室內光照情況下拍攝的行走圖片和處理后的效果。圖2(b)與圖2(d)進行對比,發(fā)現(xiàn)使用自適應高斯混合模型的背景減除法所處理的效果幾乎一致。

      圖2 KTH數(shù)據(jù)庫和實際的樣本對照Fig.2 Comparison of KTH database and actual samples

      3.2 特征提取驗證

      室內環(huán)境中拍攝的行為視頻如圖3所示,由觀測可發(fā)現(xiàn):行走過程中,腿部與手臂的動作較為明顯,容易被時空興趣點算法識別。

      圖3 室內環(huán)境中運動特征提取Fig.3 Motion feature extraction in indoor environment

      3.3 實驗驗證

      本實驗的動作數(shù)據(jù)出自Weizmann動作數(shù)據(jù)庫,該數(shù)據(jù)庫包括10種行為動作,如圖4所示,分別為彎腰、揮手跳、原地跳、雙腳跳、奔跑、側行、行走、單腳跳、單手揮動1、雙手揮動2。實驗中,提取每種行為的前60幀圖像有效數(shù)據(jù),30幀用于訓練,30幀用于測試。其中每15幀為一個完整的運動周期,即60幀有效數(shù)據(jù)為4個運動周期。用于訓練的30幀為前2個運動周期,用于測試的30幀為后2個運動周期。因而分別使用30幀圖片乘以10種動作,即300幀圖片進行訓練和測試,其中每幀圖片的特征向量維數(shù)為32,模型的隱狀態(tài)數(shù)為3。將這10種動作從0至9進行類標簽編號,通過LBFGS迭代方法迭代確定模型的相關系數(shù)。10個動作由8位測試者分別完成,進行8組實驗,最后取8組實驗數(shù)據(jù)均值作為最終的結果。通過與HCRF、LDCRF、LDCNF模型進行對比實驗來驗證PLDCRF的性能。

      圖4 10種行為動作Fig.4 10 kinds of behavior

      表1為10種行為的識別結果,圖5為這四種模型的最佳模型受試者工作特征(Receiver Operating Characteristic,ROC)曲線。從表1、圖5中可以看出:PLDCRF模型的識別率和準確度比HCRF、LDCRF、LDCNF模型要高,表明了 PLDCRF模型對人體行為動作有更強的分辨力;同時PLDCRF識別結果的波動性也比較小,表明PLDCRF模型具有較強的抗干擾能力和良好的識別穩(wěn)定性。即使在HCRF對bend的平均識別率只有70%時,PLDCRF仍然性能不錯,體現(xiàn)了PLDCRF模型結合行為動作在時 空信息建模的優(yōu)勢,表明了PLDCRF模型具有更好的魯棒性。在對彎腰、奔跑、行走、側行這四種常見的室內動作識別時,PLDCRF模型對這四種動作都能夠取得比較高的識別率,能夠滿足視頻監(jiān)控的需要。

      表1 10種行為動作識別率 %Tab.1 Recognition rates of 10 kinds of behavior %

      最后來檢驗各模型在不同窗口大小下的識別效果。分別使用CRF、HCRF、LDCRF、PLDCRF模型在不同窗口下對同一未分段動作序列進行識別,一共進行8次不同動作序列的識別,取8次實驗的均值作為最終的實驗結果,實驗結果如圖6所示。

      從圖6中可以看出:PLDCRF模型整體上的識別率遠比HCRF、LDCRF、LDCNF高,說明了 PLDCRF模型要比 HCRF、LDCRF、LDCNF識別能力更好;同時在相同窗口大小的情況下,PLDCRF的識別率也比HCRF、LDCRF、LDCNF要高,這主要是由于PLDCRF模型對行為內部和外部動作特征同時建模,并且能很好地描述基元動作的轉移,使其具有了良好的辨識能力。雖然在窗口大小為3到4的時候,PLDCRF模型的識別率有所下降,產生了一些波動,但這并不會影響到整個模型的識別效果,分析得出,識別率下降的原因可能是模型中的隱藏狀態(tài)屬性和長遠相關性帶來的冗余信息導致模型性能暫時下降。隨著窗口的增大,PLDCRF模型的平均識別率也隨之提高,并且模型消耗的資源和計算時間也隨之增大,所以在進行窗口尺寸選擇時要充分考慮,不能為了提高識別率而盲目增大窗口尺寸。在窗口尺寸很小的情況下,PLDCRF的識別性能也有著一定的優(yōu)勢,并且消耗的資源和計算時間也很少,這也為將本文模型應用到在線行為識別中提供了可能。

      圖5 不同模型的ROC曲線Fig.5 ROC curves of different models

      圖6 不同窗口下不同模型的識別率Fig.6 Recognition rate of different models under different windows

      4 結語

      針對在線行為連續(xù)序列的識別問題以及行為識別模型的穩(wěn)定性問題,本文提出了一種基于PLDCRF模型的人體行為識別方法,應用時空興趣點進行人體行為特征提取,使用PLDCRF對人體的活動狀態(tài)建模識別。通過將PLDCRF與HCRF、LDCRF、LDCNF關于未分段視頻序列的行為識別結果進行對比可以得出,PLDCRF無論是在行為建模、還是識別能力上都要優(yōu)于HCRF、LDCRF、LDCNF,并且具有一定的抗干擾性和穩(wěn)定性。接下來,可以考慮把PLDCRF模型擴展到標記和分割未分割視頻活動序列中,并對此進行深入研究。

      猜你喜歡
      識別率時空標簽
      跨越時空的相遇
      鏡中的時空穿梭
      基于類圖像處理與向量化的大數(shù)據(jù)腳本攻擊智能檢測
      計算機工程(2020年3期)2020-03-19 12:24:50
      基于真耳分析的助聽器配戴者言語可懂度指數(shù)與言語識別率的關系
      玩一次時空大“穿越”
      無懼標簽 Alfa Romeo Giulia 200HP
      車迷(2018年11期)2018-08-30 03:20:32
      提升高速公路MTC二次抓拍車牌識別率方案研究
      不害怕撕掉標簽的人,都活出了真正的漂亮
      海峽姐妹(2018年3期)2018-05-09 08:21:02
      高速公路機電日常維護中車牌識別率分析系統(tǒng)的應用
      標簽化傷害了誰
      柘荣县| 师宗县| 长子县| 左权县| 丰都县| 阳谷县| 孝昌县| 南宫市| 东阿县| 扶余县| 湘乡市| 青河县| 汕尾市| 台北市| 临江市| 十堰市| 文山县| 布尔津县| 沁源县| 祁阳县| 镇雄县| 庆城县| 西贡区| 无极县| 绥芬河市| 广饶县| 安阳市| 揭东县| 长寿区| 石首市| 信阳市| 武夷山市| 新龙县| 海丰县| 镇远县| 郯城县| 册亨县| 威海市| 锡林浩特市| 原平市| 怀安县|