歐陽寒,范 勇,高 琳,王宗祺
(西南科技大學 計算機科學與技術學院,四川 綿陽621010)
人體行為識別在視頻監(jiān)控、基于內容的視頻檢索、體育賽事分析、人機交互和虛擬現實技術等領域具有廣泛的應用價值,已經成為計算機視覺中的熱點研究領域。人體行為識別,通常被簡化成一個時變數據的分類問題,包括行為描述和行為分類識別兩大部分。
雖然廣泛的應用前景和潛在的經濟價值已促進人體行為分析的描述方法和識別算法的快速發(fā)展,但人體行為種類繁多、復雜多變,單獨采用某一形狀特征或者運動特征表征人體行為都存在不足,故出現了利用多種特征進行人體行為表征的方法。然而目前人體行為識別都是對選取的特征結合相應的識別方法一步得到識別結果,所以人體行為的多特征描述方法往往只是多種特征的直接合并,這種方法雖然能提高人體行為的識別率,但一方面會導致維數急劇增加,使得識別的速度大幅度地降低,進而需要進行降維處理;另一方面,特征融合會削弱單一特征的區(qū)分性能。由于識別結果由所有特征共同決定,故某一特征對特定幾種行為的區(qū)分能力,會因其他特征的相似性被削弱。
為了保留多特征的鑒別能力和區(qū)分能力,同時不增加特征維度。本文借鑒人們對事物識別和理解的一般分析過程 (即由粗到細、由主要特征到細節(jié)特征),在分析和總結以往行為識別方法、行為分層模型和具體研究的基礎上,提出了一種基于多特征的先劃分再識別的人體行為識別分層模型。
人體行為特征的選取和表征是人體行為理解和識別中至關重要的一步。為了利用多特征的鑒別能力和區(qū)分能力,同時避免因融合多特征導致的特征維數增加。本文提出了一種人體行為分層識別模型,第一層依據單一特征快速確定出行為的類別劃分,第二層則針對不同行為劃分選取不同特征 (組合)實現行為類型識別。這種分而治之的分層識別方法降低了行為特征的維數,在一定程度上解決了行為識別復雜度較高的問題,其次,通過分層搜索,可以根據不同行為類型劃分,自適應選擇最佳描述特征,進而提高識別的準確性。
考慮到不同的人執(zhí)行相同動作,其速度和組成動作的各個姿態(tài)可能存在差異性,而動作的發(fā)生區(qū)域大體是一致的。經過權衡計算復雜度和模型精確度,本文第一層選取描述了運動發(fā)生區(qū)域的運動能量圖像 (MEI)[1]作為特征,另外,由于存在因視角改變造成的位置和尺度變化或不同人之間自身的尺度差異,選取了具有平移和尺度不變性且對噪聲不敏感的歸一化R變換對MEI進行表征。第二層確定行為的具體所屬類別時,則選取了比運動全局特征MEI更能體現細節(jié)特征的關鍵姿態(tài)作為特征,利用寬比和高比特征以及星狀模型[2-3]進行行為表征,方法框架如圖1所示。
圖1 人體行為分層識別方法
運動能量圖像 (motion energy image,MEI)是動作序列中相鄰兩幀的累積差分圖像,標識了運動發(fā)生區(qū)域,其定義[1]如下
其中,D(x,y,t-i)是相鄰兩幀中坐標為 (x,y)的像素值的累計差分。設I(x,y,t)是t時刻的二值輪廓圖像中坐標為 (x,y)的像素值,D(x,y,t-i)的定義[1]如下
運動能量圖像保留了2D人體模型易獲取且對紋理變化不敏感的優(yōu)勢,同時,彌補了運動信息缺失導致誤識別的不足。
獲取底層特征后,需有一種充分有效的方法對其表征用以進行后續(xù)的行為訓練和分類識別。本文選擇了具有平移、尺度不變性的歸一化R變換——一種改進的Radon變換。
2.2.1 Radon變換
對離散的二值圖像進行Radon變換,其原理是將原始圖像通過線積分的形式變換到另外一對參數域內,投射成一個R矩陣。設I(x,y)是一個圖像,其Radon變換定義為
其中θ∈ [0,π],ρ∈ [-∞,∞],δ(·)是狄拉克delta沖激函數,定義如式 (4)
Radon變換雖然計算簡單且對噪聲不敏感,但會因圖像I(x,y)的尺度改變引起Radon變換幅度的線性變化和沿ρ方向的縮放變換,會因平移引起沿ρ方向的平移,如圖2第二行第一列所示。
對此,文獻 [4]提出了一種改進Radon變換——R變換,其定義為
R變換具備了平移不變性,對于尺度變化,僅能引起振幅變化,而不會導致形狀變化,如圖2第二行第二列所示。
圖2 Radon變換、R變換和歸一化R變換的不變性
2.2.2 歸一化R變換
為使特征同時具有平移不變性和尺度不變性,文獻[5]使用了基于Radon變換的多尺度不變特征[6],定義為
即使預先不進行位置和尺度規(guī)范化的圖像,其多尺度特征TR(θ|t)也具有平移不變性和尺度不變形,但尺度變換因子t的選取需要大量的實驗總結,而且圖像的起始點通常是未知的,這會導致特征TR(θ|t)的循環(huán)平移,以致于后續(xù)的匹配過程需要處理特征TR(θ|t)的平移,計算比較復雜。鑒于此,本文直接對具有平移不變性的R變換R(θ)進行歸一化處理如式 (7),使其同時具備尺度不變性
由Radon變換 (式 (3))和R變換 (式 (5))定義可以看出,歸一化特征RN(θ)是由積分操作得到,其計算簡單,且對噪聲、尺度和平移等操作引起的畸變具有良好的適應性,即提取的特征具有良好的魯棒性 (如圖2第二行第三列所示)。
基于歸一化R變換的分層人體行為識別算法分為行為訓練和行為識別兩部分,均由劃分大類和確定具體類別兩層構成 (見圖1),實現方案如圖3所示。訓練階段,依據MEI的歸一化R變換完成行為的第一層大類劃分,然后分別確定劃分出的各行為類別的描述和分類方法。識別階段,第一層利用歐式距離法確定行為的所屬劃分類別,第二層則依據該類別在訓練階段制定的行為描述和分類方法進行最終的行為識別。
圖3 算法流程
算法描述如下:
步驟1 對行為訓練集S= {S1,S2,S3,…,Sn}中的行為Si,逐幀提取其人體姿態(tài)二值輪廓,其中,行為Si= {K1,K2,K3,…,Km},Kj為組成行為 Si的各幀圖像;
步驟2 計算行為Si的運動能量圖像Ei;提取行為Si的關鍵姿態(tài)對 (Ki1,Ki2),Ki1為運動幅度最小的視頻幀,Ki2為運動幅度最大的視頻幀;
步驟3 計算運動能量圖像Ei的歸一化R變換曲線Ri;計算Ki2的星狀模型STi以及Ki1和Ki2的寬度比和高度比;
步驟4 若行為集S未處理完,則轉步驟1;否則,轉步驟5;
步驟5 利用K-Means對行為的歸一化R變換集R={R1,R2,R3,…,Rn}進行聚類,依據聚類中心集RN,對行為S進行大類劃分,得到的各劃分類為Ci;
步驟6 對各類Ci分別選取適合行為描述并確定相應的分類識別方法,對具體類別的識別進行分而治之;
步驟7 對于查詢行為Sq= {K1,K2,K3,…,Km},處理步驟同步驟1—步驟3;
步驟8 根據訓練得到的RN,利用歐式距離法確定查詢行為Sq的歸一化R變換曲線的類別Ci;
步驟9 將查詢行為Sq以Ci類別的描述方式進行表征;
步驟10 根據訓練階段確定的Ci類別的分類識別方法,確定查詢行為Sq的具體所屬類別。
本文采用留一交叉驗證法對Weizmann人體行為數據庫[7]中的10種行為進行實驗,每個動作均由9個人分別單獨完成,其中Lena分別演示了向左和向右兩種走、跑和單腳向前跳躍,共有93組數據。
訓練階段,首先計算所有行為MEI的歸一化R變換曲線,再利用K-Means對其進行聚類 (K值為6),依據聚類中心,將行為劃分為3大類,第一類包括bend、jack和pjump,第二類僅有wave1,剩下的6類則組成第三類。接著,分別確定第一類和第三類的行為描述和行為識別方法。第一類中三種行為有較明顯的差異,選用了算法Step2的關鍵姿態(tài)對 (Ki1,Ki2)的寬比和高比特征對其進行描述,并利用經驗閾值 (當Ki1和Ki2的寬度比小于1.55且高度比在區(qū)間 [1.85,1.2]中時,識別為行為pjump;寬度比在區(qū)間 [1.5,2.5]且高度比在區(qū)間 [0,0.75]中時,為行為Bend;寬度比在區(qū)間 [1.5,2.5]且高度比在區(qū)間[0,0.75]中時,為行為bend;寬度比大于2.5時,為行為jack)識別各行為;第三類中的walk、run、side和skip四種行為較相似,故選取的特征是區(qū)分性更強的人體星狀模型,最后利用模板匹配進行行為識別。識別階段首先確定查詢行為的所屬大類別,再根據相應類別的行為描述和行為識別方法確定行為的最終類型。
本文算法對所有行為直接計算其MEI,避免了因圖像尺度、位置歸一導致識別率降低。另一方面,歸一化R變換特征對噪聲和尺度、平移等變化具有良好的魯棒性,會將具有尺度和平移關系的MEI定義為同一類,否則劃分為另一類。強調的是運動的整個過程而非某一時刻的姿態(tài),故對關鍵姿態(tài)較相似的行為 (如站立不動和pjump,walk和run以及jack等)也能取得較高識別率;對關鍵姿態(tài)差異較大但MEI形狀具有尺度和平移關系的行為 (如bend和pjump),將劃分成同一類,提高了第二層利用關鍵姿態(tài)進行行為識別的準確率;但對于MEI形狀相似且關鍵姿態(tài)相似的行為 (如jump和run),會出現誤識別。圖4為本算法的識別結果,平均識別率達92.47%。與同樣采用留一交叉驗證法對Weizmann人體行為數據庫進行實驗的其他方法的識別率的比較,見表1。
表1 不同方法對Weizmann人體行為的識別率比較
圖4 本文算法對Weizmann行為識別的混淆矩陣
為了進一步驗證該分層模型簡單有效,采用留一交叉驗證法對ViHaSi[10]人體行為數據庫中的9種行為進行實驗,選取的是6號攝像頭拍攝的各行為側影輪廓。這9種行 為 是: 向 后 滑 倒 (collapse)、投 擲 (granade)、跑(run)、拳 擊 (punch)、懸 掛 (hangOnBar)、砸 碎 (heroSmash)、跳下去 (jumpFromObject)、跳過去 (jumpOver-Object)、被擊打后自旋跌 倒 (knockOutSpin),分別由Gaulix1、 Gaulix2、 Humanoid1、 Humanoid2、 Man3、Man4、MiaWom、Player、Wom1和Wom2十人單獨完成,共90組數據。訓練階段,依據對行為MEI的歸一化R變換的K-Means聚類結果,將行為劃分為6類,第一類包括granade、heroSmash、punch和run,其余行為各為一類。識別階段,首先計算查詢行為的MEI,利用歐式距離度量該MEI的歸一化R變換與各劃分類別的訓練中心的相似度,若與第一大類最相似,則需進行第二層識別,即使用人體星狀模型進行行為描述,利用模板匹配進行行為識別;否則,與之相似度最高的類別即為該行為的所屬類別。識別結果如圖5所示,平均識別率達96.67%。
圖5 本文算法對ViHaSi行為識別的混淆矩陣
本文提出基于歸一化R變換分層模型的人體行為識別。第一層依據MEI的歸一化R變換將行為劃分為多類,第二層對各類行為使用不同的行為描述和識別方法進行識別,實現分而治之。本文第二層分別使用標識了運動部位和運動幅度的關鍵姿態(tài)的星狀模型以及寬比和高比特征確定各類行為的識別結果。實驗結果表明,該行為識別分層模型簡單有效。
目前第二層各劃分類別的描述和識別方法是依賴經驗、人為確定的。根據組成各劃分類別的行為,自適應選擇相應的行為描述和識別方法,是下一階段的主要工作。
:
[1]Eweiwi A.Temporal key poses for human action recognition[C]//IEEE International Conference on Computer Vision Workshops. Barcelona:IEEE Computer Society, 2011:1310-1317.
[2]CHEN H S.Human action recognition using star skeleton[C]//Proceedings of the 4th ACM International Workshop on Video Surveillance and Sensor networks.ACM:Santa Barbara,California,USA.2006:171-178.
[3]CHUANG C H.Human action recognition using star templates and delaunay triangulation [C]//International Conference on Intelligent Information Hiding and Multimedia Signal Processing.Harbin:IEEE Computer Society,2008:179-182.
[4]YING W,Kaiqi H,Tieniu T.Human activity recognition based on R transform [C]//IEEE Conference on Computer Vision and Pattern Recognition.Minneapolis:IEEE Computer Society,2007:1-8.
[5]YIN Yong,ZHANG Jing,WANG Jiandong.Human activity recognition based on improved Radon transforms [J].Compute Engineering and Applications,2012.48 (11):196-200 (in Chinese).[印勇,張晶,王建東.人體行為識別的改進Radon變換方法 [J].計算機工程與應用,2012.48 (11):196-200.]
[6]LV Yuzeng.Affine invariant feature extraction and recognition of shapes [D].Changsha:National University of Defense Technology,2008 (in Chinese).[呂玉增,形狀仿射不變特征提取與識別研究 [D].長沙:國防科學技術大學,2008.]
[7]Cheema S.Action recognition by learning discriminative key poses [C]//IEEE International Conference on Computer Vision Workshops. Barcelona:IEEE Computer Society, 2011:1302-1309.
[8]Niebles J C,LI F F.A hierarchical model of shape and appearance for human action classification [C]//IEEE Conference on Computer Vision and Pattern Recognition.Minneapolis:IEEE Computer Society,2007:1-8.
[9]YAN C,QIANG W,Xiangjian H.Human action recognition by radon transform [C]//IEEE International Conference on Data Mining Workshops.Pisa:IEEE Computer Society,2008:862-868.
[10]Martinez Contreras F.Recognizing human actions using silhouettebased HMM [C]//IEEE International Conference on Advanced Video and Signal Based Surveillance.Genova:IEEE Computer Society,2009:43-48.