王劉濤,廖夢怡,王建璽,馬 飛
(1.平頂山學(xué)院 軟件學(xué)院,河南 平頂山 467000; 2.武漢大學(xué) 計(jì)算機(jī)學(xué)院,武漢 430072)
基于關(guān)鍵幀輪廓特征提取的人體動(dòng)作識(shí)別方法
王劉濤1,廖夢怡1,王建璽1,馬 飛2
(1.平頂山學(xué)院 軟件學(xué)院,河南 平頂山 467000; 2.武漢大學(xué) 計(jì)算機(jī)學(xué)院,武漢 430072)
為了在人體動(dòng)作識(shí)別中獲得更加準(zhǔn)確的前景分割和防止關(guān)鍵信息的幾何丟失,提出一種利用關(guān)鍵幀提取關(guān)鍵姿勢特征的人體動(dòng)作識(shí)別方法。由于背景建模和差分獲得的前景不準(zhǔn)確,利用基于紋理的灰度共生矩陣提取動(dòng)作輪廓,并對原圖像幀進(jìn)行分割;然后計(jì)算人體Blob的能量,選取最大信息內(nèi)容的幀作為關(guān)鍵幀,關(guān)鍵幀的獲取使得特征提取對時(shí)間的變化具有一定魯棒性;在特征分類識(shí)別階段,為了提高分類的準(zhǔn)確性,提出使用支持向量機(jī)-K最近鄰(support vector machine-k nearest neighbor, SVM-KNN)混合分類器完成分類。在Weizmann,KTH,Ballet和TUM 4個(gè)公開數(shù)據(jù)集上實(shí)驗(yàn)驗(yàn)證了該方法的有效性。相比于局部特征方法、全局特征方法和關(guān)鍵點(diǎn)方法等,該方法獲得了更高的識(shí)別率。此外,實(shí)驗(yàn)結(jié)果表明,該方法在KTH和Weizmann數(shù)據(jù)集上的早期識(shí)別效果優(yōu)于Ballet數(shù)據(jù)集。
人體動(dòng)作識(shí)別;前景分割;輪廓特征;灰度共生矩陣;關(guān)鍵幀
基于視覺的人體動(dòng)作識(shí)別[1](human action recognition, HAR)是在一個(gè)視頻序列中檢測和分析人體的行為/動(dòng)作,近些年,HAR已經(jīng)成為計(jì)算機(jī)視覺中一個(gè)重要的研究方向,HAR的應(yīng)用十分廣泛,如監(jiān)控[2]、輔助健康保健[3]、機(jī)器人和恐怖活動(dòng)預(yù)警[4],因此,這類研究具有很高的應(yīng)用價(jià)值和現(xiàn)實(shí)意義。
影響HAR方法性能的因素很多,如身體姿勢、執(zhí)行速率、光線條件、遮擋、視角和雜亂的背景。一個(gè)優(yōu)秀的HAR方法能夠?qū)@些因素的變化具有魯棒性,能高效識(shí)別。已經(jīng)有大量關(guān)于人體動(dòng)作和行為識(shí)別的研究成果,這些方法依賴于局部特征[5]、全局特征[6-7]、關(guān)鍵點(diǎn)[8]、時(shí)空特征[9]、文字包[10]等。
為了克服特征袋模型的時(shí)空位置關(guān)系缺點(diǎn),文獻(xiàn)[5]中提出了一種基于局部特征的局部時(shí)空編碼方法,引入了一個(gè)時(shí)間Gabor濾波器和一個(gè)空間高斯濾波器,雖然,這些基于局部特征的描述符對于噪聲、亮度的變化以及背景的運(yùn)動(dòng)具有一定魯棒性,但是,這些描述符對于復(fù)雜的動(dòng)作模型缺乏有效性[5]。
文獻(xiàn)[6-7]提出了一種依賴于人體輪廓序列的整體人體動(dòng)作識(shí)別方法。在基于輪廓點(diǎn)方法中,利用背景分割法提取出前景,然后從輪廓中提取出特征。如文獻(xiàn)[6]中提出了一種基于輪廓的方法,該方法利用快速傅里葉變換和邊緣小波描述子相結(jié)合,給出多段定向距離輪廓描述矩陣實(shí)現(xiàn)人體輪廓特征的提取。文獻(xiàn)[7]利用最優(yōu)化參數(shù),將人體輪廓作為基本實(shí)體進(jìn)行特征評估,利用進(jìn)化計(jì)算對最優(yōu)化參數(shù)進(jìn)行評估。由于基于人體輪廓方法[6-7]大多是利用背景建模和背景差分的方法進(jìn)行前景分割,而背景建模的不夠精確會(huì)使后續(xù)識(shí)別性能下降。
文獻(xiàn)[8]提出了基于流形學(xué)習(xí)的動(dòng)作識(shí)別方法,利用深度圖像的關(guān)鍵點(diǎn)識(shí)別深度圖像中的人體動(dòng)作,降維操作通過流形學(xué)習(xí)在訓(xùn)練集中完成,匹配過程通過改進(jìn)的Hausdorff距離對低維空間下測試序列和訓(xùn)練運(yùn)動(dòng)集的相似度進(jìn)行度量。
為了在達(dá)到識(shí)別率的同時(shí),降低傳感器節(jié)點(diǎn)的能耗,文獻(xiàn)[9]引入壓縮傳感和稀疏表示理論用于解決人體活動(dòng)監(jiān)測,其中,類動(dòng)作識(shí)別在傳感器節(jié)點(diǎn)利用隨機(jī)投影對傳感數(shù)據(jù)進(jìn)行壓縮,中心節(jié)點(diǎn)利用稀疏表示進(jìn)行分類與識(shí)別。
文獻(xiàn)[10]中提出了一種改進(jìn)版的文字包模型,即校正姿勢包,這種模型利用了全局和局部特征的優(yōu)勢,處理視覺文字表示包中丟失的幾何信息,一般情況下采用的方法是k-means聚類算法。但是,局部特征與全局特征的結(jié)合會(huì)導(dǎo)致描述符具有較高的維度[11],為了進(jìn)行有效的識(shí)別需要進(jìn)行維度消減。
現(xiàn)存的人體動(dòng)作識(shí)別一般存在以下問題:①一般情況下,利用背景建模和背景差分進(jìn)行前景分割,會(huì)使得獲取的前景不一定準(zhǔn)確,為此,本文中采用一種基于紋理的分割方法,從人體行為識(shí)別的內(nèi)容中提取出輪廓;②通過選取關(guān)鍵姿勢可以處理幾何信息丟失,為了對輪廓信息進(jìn)行描述,本文提出了一種比較簡單的方法,這種方法可以保持人體輪廓隨著時(shí)間改變產(chǎn)生的空間變化;③當(dāng)行為存在類間相似性和類內(nèi)非相似性時(shí)將會(huì)減弱分類器的性能,為此,提出混合分類模型。
本文基于人體輪廓,利用分割技術(shù)從視頻序列中提取人體動(dòng)作。分割輪廓需要進(jìn)行預(yù)處理以提高其質(zhì)量,使其滿足特征提取的要求。然后將不同輪廓圖像生成的特征設(shè)置成一種可表示的形式。此外,還采用了維度消減和分類。本文方法的流程圖如圖1所示。
圖1 本文方法的流程圖Fig.1 Flow chart of proposed method
1.1 利用紋理信息提取輪廓
背景差分的基本思路是構(gòu)建和更新背景的場景模型,如果前景目標(biāo)的像素與背景模型的差異超出了一定的限制,那么就可以檢測出前景目標(biāo)上的這些像素點(diǎn)。廣泛使用的背景模型有高斯混合模型(gaussian mixture model, GMM)和局部二值模式(local binary pattern, LBP)。
文獻(xiàn)[12]提出了對不同紋理進(jìn)行描述的方法,即灰度共生矩陣,文獻(xiàn)[12]肯定了紋理的灰度共生矩陣的描述參數(shù),這個(gè)矩陣可以在不同方向上對紋理的強(qiáng)度差異進(jìn)行描述,信息熵是一種重要的參數(shù),可對圖像中的紋理信息進(jìn)行描述,其表達(dá)式為
(1)
圖2 輪廓提取的流程圖Fig.2 Flow chart of contour extraction
分割后的圖像可能含有不同的白色輪廓,但是并非所有的白色輪廓都是人體的輪廓。通過對這些輪廓的尺寸進(jìn)行比較,可以找到面積最大的輪廓,如圖2所示,2個(gè)部分含有相同的紋理,但是人體部分具有較大的連續(xù)面積,因此選取面積較大的區(qū)域作為人體輪廓。
1.2 特征提取
特征提取是視頻序列分析的關(guān)鍵步驟,提取的特征必須具有魯棒性并且不會(huì)隨著檢測條件,身體姿勢等的變化而發(fā)生變化。
一般情況下,一些視頻幀中不含有任何目標(biāo)的內(nèi)容信息??紤]到人在“行走”,而相機(jī)是靜止的,人會(huì)在很短的時(shí)間內(nèi)從相機(jī)前方穿過,因此大多數(shù)時(shí)間內(nèi)視頻幀中不含有任何視角的“人體blob”內(nèi)容。為了選取含有最大內(nèi)容信息的視頻幀,需要提取出關(guān)鍵幀,并且利用這個(gè)關(guān)鍵幀進(jìn)行特征提取。圖3為從大量的視頻幀中提取出關(guān)鍵幀的過程。選取含有較高能量值的關(guān)鍵幀圖像進(jìn)行進(jìn)一步的處理,并根據(jù)最高能量幀圖像將這些關(guān)鍵幀保存在一個(gè)時(shí)間序列中,對關(guān)鍵幀的這種處理可以隨著時(shí)間發(fā)生的外形變化進(jìn)行維護(hù)。
為了從動(dòng)作序列的移動(dòng)區(qū)域獲得平穩(wěn)度量,首先減去相鄰幀,通過幀ni+1與幀ni相減得到一個(gè)中間幀ni+1/2去評估幀ni+1和幀ni的幀間差異。運(yùn)用拉普拉斯算法計(jì)算相鄰差異幀ni+1/2和幀ni-1/2之間的光流,這樣做的好處是初始的差分操作減少了背景雜波的影響,因而產(chǎn)生更加平穩(wěn)的評估。
圖3 選取關(guān)鍵姿勢幀的流程圖Fig.3 Flow chart of the key frame selected
M×N大小的縮放圖像含有的所有像素等于Γ,如圖4所示將所有的這些像素劃分為u×v大小的網(wǎng)格圖像。由于需要將這些圖像轉(zhuǎn)化為二值的形式,因此可以計(jì)算出單元中的白色像素,對于特殊的單元和網(wǎng)格將白色像素的個(gè)數(shù)作為一個(gè)特征。
圖4 利用關(guān)鍵幀構(gòu)建單元Fig.4 Construction unit by key frame
一個(gè)行為的分割視頻中含有有限數(shù)量的幀(R),用It(x,y)表示,其中,t表示幀的數(shù)量,即t∈{1,2,3,…,R},x和y表示圖像幀的維度。為了保持一致性,下一步需要將每個(gè)幀圖像縮放成尺寸M×N。
為了對動(dòng)作進(jìn)行有效的表示,選取具有較高能量幀圖像中的關(guān)鍵姿勢,在視頻序列中這些幀的能量高于其他幀。圖像幀能量的計(jì)算為
(2)
為了選取輪廓幀圖像中的關(guān)鍵姿勢,需要對一個(gè)確定數(shù)量的圖像幀進(jìn)行序列搜索操作以發(fā)現(xiàn)所有輪廓幀圖像(U1,U2,U3,…,UR)中具有最高能量值的幀。將具有最高能量值的圖像幀作為一個(gè)參考幀,選取與參考幀相比具有較大能量值的幀作為輪廓的k關(guān)鍵幀?,F(xiàn)在,將每一個(gè)關(guān)鍵幀劃分為單元圖像Ci(x,y),在單元圖像中每個(gè)單元的尺寸為u×v,因此,單元的總量為
(3)
(3)式中,Nc表示關(guān)鍵幀中單元總數(shù),表示為(C1,C2,C3,C4,…,CNc)。由于輪廓圖像是二值圖像,白色像素的總量計(jì)為
(4)
(4)式中,wi表示第i個(gè)單元中白色像素的個(gè)數(shù),一幀中每個(gè)單元的像素個(gè)數(shù)計(jì)數(shù)過程需要保持動(dòng)作的時(shí)間序列,具體表示為
(5)
(5)式中,fi表示第i幀中含有的白色像素個(gè)數(shù)。因此,一個(gè)動(dòng)作視頻序列的特征向量表示為
(6)
(6)式中,VT表示一個(gè)數(shù)據(jù)集中視頻的總個(gè)數(shù)。將(5)式帶入(6)式,特征向量為
(7)
類似的,數(shù)據(jù)庫中的所有類別的特征集含有VT個(gè),維度為Nf=Nc×k,連接后可以將維度表示為1×Nf。因此,最終特征集Fv的維度可以表示為VT×Nf。最后,為了進(jìn)行動(dòng)作識(shí)別,將特征向量和其標(biāo)簽交給分類器進(jìn)行處理。
1.3 分類模型
通常情況下,特征集數(shù)據(jù)具有相關(guān)性和非相關(guān)性數(shù)據(jù),為了提高分類性能,必須對特征集的維度進(jìn)行消減。主成分分析法(principal component analysis, PCA)是一種比較流行的降維方法,該方法通過最大化特征集的方差將特征集映射到一個(gè)低維空間,從而實(shí)現(xiàn)維度消減。
KNN(K nearest neighbor)分類器選取訓(xùn)練特征集中距離最近的K個(gè)樣本作為新的實(shí)例,距離最近的類別具有最高的投票權(quán),從而將距離最近的類別投影為測試實(shí)例。這種分類器最大的優(yōu)勢是其具有非參數(shù)特性,不需要任何的假設(shè)并且對于高維空間中的數(shù)據(jù)也能輕易分類。支持向量機(jī)(support vector machine, SVM)是一種基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則[13]的機(jī)器學(xué)習(xí)分類器。SVM分類器廣泛應(yīng)用于人體行為分類,最重要的數(shù)據(jù)位置由超平面確定。
為了提高識(shí)別精度,本文構(gòu)建了一種混合形式的“SVM-KNN”分類模型,這種混合模型利用了SVM和KNN模型的各自優(yōu)點(diǎn),圖5給出了本文的“SVM-KNN”分類模型。在這種模型中,開始利用SVM對輸入的特征集進(jìn)行分類,在這些特征集中,一些特征正確分類,另一些則錯(cuò)誤分類,錯(cuò)誤分類的特征集位于分類超平面附近,即為支撐向量。具體步驟描述如下(設(shè)T為測試集,Tsu為支持向量集,k為KNN的個(gè)數(shù),?表示空集)。
步驟1 利用SVM算法求出相應(yīng)支持向量,以及系數(shù)及常數(shù)b;
步驟2 如果T≠?,取x∈T;如果T=?,則停止;
步驟4 若|g(x)|>ε,則直接計(jì)算f(x)=sgn(g(x))作為分類器的輸出;若|g(x)|<ε,則帶入KNN分類器進(jìn)行分類。
步驟5T←T-{x},轉(zhuǎn)到步驟2。
圖5 SVM-NN混合分類模型流程圖Fig.5 Flow chart of SVM-NN hybrid classification model
這里將支持向量集Tsu中的每個(gè)支持向量作為分類器的代表點(diǎn)集合。利用KNN對這些支撐向量進(jìn)行分類,可以彌補(bǔ)SVM的不足。兩者結(jié)合提高了分類的準(zhǔn)確性。
為了對本文方法的有效性進(jìn)行評估,在4個(gè)公共基準(zhǔn)數(shù)據(jù)集Weizmann數(shù)據(jù)集[14]、KTH數(shù)據(jù)集[7]、Ballet數(shù)據(jù)集[15]和TUM數(shù)據(jù)集[17]上進(jìn)行實(shí)驗(yàn)。考慮了光線變化、遮擋、混亂背景和不規(guī)律運(yùn)動(dòng)等條件。為了對數(shù)據(jù)集的所有視頻進(jìn)行表示,采用31個(gè)尺寸為40×25的關(guān)鍵幀對動(dòng)作序列進(jìn)行表示,每個(gè)幀中含有40個(gè)單元,每個(gè)單元的尺寸為5×5。因此,一個(gè)輪廓的維度為31×40=1 240,連接之后輪廓特征向量表示為1×1 240。為了對動(dòng)作分類的輸出結(jié)果進(jìn)行評估,選取交叉驗(yàn)證方法對所有數(shù)據(jù)集進(jìn)行處理。
利用下面的(8)式計(jì)算平均識(shí)別精度(average recognition accuracy, ARA)。
(8)
(8)式中:TP,TN,F(xiàn)P和FN分別表示真陽性、真陰性、假陽性和假陰性。將這些分類器獲取的精度與當(dāng)前較先進(jìn)方法進(jìn)行了比較。比較的文獻(xiàn)有[5-10,16-17],這些方法中,文獻(xiàn)[5]是基于局部時(shí)空編碼方法,文獻(xiàn)[6-7,16-17]是基于提取輪廓的方法,文獻(xiàn)[16]利用adaboost提取關(guān)鍵幀,文獻(xiàn)[8]是基于流形學(xué)習(xí)理論,文獻(xiàn)[9]是基于壓縮傳感和稀疏理論,文獻(xiàn)[10]是基于文字包模型。
2.1 數(shù)據(jù)集
Weizmann數(shù)據(jù)集:含有90個(gè)視頻,幀率均為25幀/s,視頻幀的尺寸為144×180,9個(gè)人做出了10個(gè)不同的動(dòng)作,類別包括:行走、快跑、上頂跳躍、彎腰、單腿上跳、兩腿跳躍、單手揮舞和雙手揮舞。這是用于人體動(dòng)作識(shí)別評估的標(biāo)準(zhǔn)數(shù)據(jù)集,圖6給出了這個(gè)數(shù)據(jù)集的樣本幀。
圖6 Weizmann人體動(dòng)作數(shù)據(jù)集的樣本幀圖像Fig.6 Sample frame images on Weizmann data set of human action
KTH數(shù)據(jù)集:與Weizmann數(shù)據(jù)集相比,這個(gè)數(shù)據(jù)集更有挑戰(zhàn)性。集中含有6個(gè)基本動(dòng)作,即:“拍手”“揮手”“慢跑”“跳躍”“快跑”和“行走”。每個(gè)動(dòng)作有100個(gè)視頻,共含有4種不同的場景,如光線條件的變化、室內(nèi)和室外條件。所有這些視頻均用一個(gè)幀率為25幀/s的靜態(tài)相機(jī)在背景相同的情況下拍攝,并且對空間分辨率為160×120像素的圖像進(jìn)行下采樣。KTH數(shù)據(jù)集中視頻的拍攝條件不是很穩(wěn)定,因?yàn)榕臄z過程中相機(jī)存在大量的移動(dòng),在某些情況下光線條件也發(fā)生了變化。因此,輪廓的提取并不十分容易,圖7中給出了數(shù)據(jù)集的樣本圖像。
圖7 KTH數(shù)據(jù)集的樣本幀圖像Fig.7 Sample frame images on KTH data set
Ballet數(shù)據(jù)集:是一個(gè)復(fù)雜的人體動(dòng)作數(shù)據(jù)集,由3個(gè)演員的8種Ballet動(dòng)作構(gòu)成,動(dòng)作包括:“跳躍(hop, HP)”“跳起(jump, JP)”“由左至右伸開手臂(left-right hand outstretched, LRHO)”“腿擺動(dòng)(leg swing, LS)”“由右至左伸開手臂(right-left hand outstretched, RLHO)”“手伸開站立(stand hand outstretched, SHO)”“直立(straight stand, SS)”和“轉(zhuǎn)向(turn, TR)”。該數(shù)據(jù)集中存在高度的空間和時(shí)間尺度、速度和衣物的類內(nèi)差異性,圖8給出了這個(gè)數(shù)據(jù)集的一些樣本圖像。
圖8 Ballet數(shù)據(jù)集中表示8種動(dòng)作的圖像Fig.8 Eight kinds of actions represented on Ballet data set
TUM數(shù)據(jù)集:是由20個(gè)按表中設(shè)定的人物序列組成,并制成表。首先利用原始數(shù)據(jù)集提供的前景模板提取邊界框,并將其尺寸規(guī)范化為100×100×70。提取每一幀的多尺度金字塔運(yùn)動(dòng)特征。在關(guān)鍵幀的選取階段,在每個(gè)運(yùn)動(dòng)序列上選取前10個(gè)最具辨識(shí)度的幀,最后利用相應(yīng)的相關(guān)圖進(jìn)行測試訓(xùn)練。與文獻(xiàn)[16]相似,應(yīng)用2種不同的策略:使用一組序列{0-2,0-4,0-6,0-8,0-10,0-11,1-6 }作為測試集,而其他用于訓(xùn)練。運(yùn)用“站立”和“行走”劃分。圖9是使用TUM數(shù)據(jù)集中的2D特征和動(dòng)態(tài)捕捉信息。
圖9 學(xué)習(xí)和測試數(shù)據(jù)圖例Fig.9 Study and test data legends
2.2 分類結(jié)果
表1中給出了本文方法在4個(gè)不同數(shù)據(jù)集上采用4種不同分類模型獲得的分類結(jié)果,其中包括本文提出的“SVM-NN”模型。表1主要用于說明本文描述符的有效性以及提出的分類模型與已經(jīng)存在的分類模型相比的性能優(yōu)勢。
表1 數(shù)據(jù)集分類結(jié)果的識(shí)別精度
由表1可知,線性判別分析(linear discriminant analysis, LDA)方法獲取的識(shí)別精度低于其它種類的分類器,這是因?yàn)椤翱炫堋薄疤稹焙汀靶凶摺敝g存在很大的相似性,因此很難利用LDA模型對這些行為進(jìn)行區(qū)分。本文采用混合“SVM-KNN”分類模型獲取了最高點(diǎn)ARA,由于這個(gè)混合分類器結(jié)合了2種非線性分類器,適合處理類間的相似性以及類內(nèi)的判別性,因此提高了識(shí)別精度。
對于KTH數(shù)據(jù)集,由于其拍攝條件與Weizmann數(shù)據(jù)集相比變化因素過多,因此很難在這個(gè)數(shù)據(jù)集中提取出輪廓。在Weizmann數(shù)據(jù)集中利用簡單的幀差法可能會(huì)提取較好的輪廓信息,但是在KTH數(shù)據(jù)集中很難利用這種方法提取出正確的輪廓信息。實(shí)驗(yàn)中,KTH數(shù)據(jù)集上獲取的最高ARA為96.4%(見表1)。從表1可知,各種分類器對于KTH數(shù)據(jù)集的性能一直在提高。
對于Ballet數(shù)據(jù)集,SVM-KNN分類器獲取的最高ARA為94.5%,本文方法在Ballet和TUM數(shù)據(jù)集上獲取的精度低于在Weizmann數(shù)據(jù)集和KTH數(shù)據(jù)集上獲取的識(shí)別精度,這是由于Ballet和TUM中的運(yùn)動(dòng)模型更加復(fù)雜,需要在對演員做出的動(dòng)作進(jìn)行區(qū)分?!疤_”很容易與相關(guān)動(dòng)作“跳躍”混淆,因此引起了錯(cuò)誤分類。
2.3 識(shí)別精度的比較
通過平均分類誤差(mean classification error, MCE)對分類器的性能進(jìn)行比較,利用平均識(shí)別精度(mean recognition accuracy, MRA)計(jì)算平均分類誤差。LDA,KNN,SVM和SVM-KNN分類器的MCE分別為13.6,7.2,5.72和3.2。本文的分類器MCE最低。
表2和表3分別為本文方法與幾種動(dòng)作識(shí)別方法在Weizmann和KTH數(shù)據(jù)集上的比較結(jié)果。這些方法包括文獻(xiàn)[5-8,16-17]提出的方法。在這些方法比較較為公平,因?yàn)檫@些方法所采用的測試策略有:交叉驗(yàn)證留一法(leave one out, LOO)、交叉驗(yàn)證留一人法(leave one person out, LOPO)和交叉驗(yàn)證留一序列法(leave one sequence out, LOSO),這些策略之間非常類似,所采用的實(shí)驗(yàn)設(shè)置也與本文方法類似。如表2所示,本文方法在Weizmann數(shù)據(jù)集上獲取的ARA為100%。
本文方法之所以能夠獲得這么高的ARA,是因?yàn)檩喞崛≠|(zhì)量較高,對輪廓進(jìn)行了有效的表示,且分類時(shí)能夠處理行為間的類內(nèi)變化。類似的,從表3可以看出,本文方法在KTH數(shù)據(jù)集上的ARA為97.6%,高于其他方法。表4和表5分別給出了各方法在Ballet和TUM數(shù)據(jù)集上的結(jié)果比較,比較的文獻(xiàn)有[5,8-10,16-17],雖然Ballet和TUM數(shù)據(jù)集是一個(gè)非常復(fù)雜的數(shù)據(jù)集,但本文方法的ARA依然保持最高。
下面對實(shí)驗(yàn)數(shù)據(jù)進(jìn)行簡單總結(jié):
1)從表2-5中可以看出,本文方法對動(dòng)作的識(shí)別能力優(yōu)于其他方法,這體現(xiàn)在對輪廓信息的獲得,另外分類器的性能也起到了一定促進(jìn)作用;
2)本文方法在KTH和Ballet數(shù)據(jù)集上獲得了顯著的性能提高,因?yàn)檫@2個(gè)數(shù)據(jù)集含有苛刻的環(huán)境條件,并且在速度、時(shí)空尺度、放大、縮小和衣物等方面發(fā)生了顯著的類內(nèi)變化,這些因素直接與輸入數(shù)據(jù)相關(guān)。與KTH和Ballet數(shù)據(jù)集相比,Weizmann數(shù)據(jù)集上的輪廓提取過程相對簡單并且準(zhǔn)確,這是因?yàn)閃eizmann數(shù)據(jù)集的采集條件存在較少的變量,而TUM數(shù)據(jù)集與Ballet數(shù)據(jù)集的難度差不多。
3)隨著關(guān)鍵姿勢數(shù)量的增加,復(fù)雜性也相應(yīng)的增加,但是在識(shí)別精度上卻沒有發(fā)生顯著的增加。另一方面,隨著單元數(shù)量的增加,本文方法的有效性發(fā)生了輕微的增加,維度依然較高。
表4 各方法在Ballet數(shù)據(jù)集上的比較結(jié)果
表5 各方法在TUM數(shù)據(jù)集上的比較結(jié)果
2.4 早期識(shí)別效果
如果能在動(dòng)作沒有完全結(jié)束時(shí),就能準(zhǔn)確識(shí)別動(dòng)作類型,那將非常有益。而本文方法在動(dòng)作完成之前的識(shí)別比較有潛力,圖10所示為4個(gè)數(shù)據(jù)集上的識(shí)別率,動(dòng)作完成范圍從50%到100%。
圖10 各數(shù)據(jù)集上的識(shí)別結(jié)果Fig.10 Identification results on each data set
由于Ballet和TUM數(shù)據(jù)集動(dòng)作比較復(fù)雜,因此動(dòng)作全部完成的識(shí)別率與動(dòng)作完成50%時(shí),相比沒有明顯增加,其主要是因?yàn)樵摂?shù)據(jù)集大部分辨別信息分布在整個(gè)過程中,而不是前一半過程中,然而,KTH和Weizmann數(shù)據(jù)的動(dòng)作過程較短,動(dòng)作進(jìn)程達(dá)到50%時(shí),識(shí)別率已經(jīng)很高。對于瞬時(shí)動(dòng)作幾乎可以完全匹配,大大地提高了識(shí)別率。這說明了對于動(dòng)作較短的數(shù)據(jù)集,在動(dòng)作進(jìn)程達(dá)到50%時(shí),動(dòng)作的特征提取具有非常高的有效性。
本文提出了一種基于視覺的人體動(dòng)作識(shí)別,其主要思想是利用人體輪廓的關(guān)鍵姿勢進(jìn)行動(dòng)作識(shí)別。通過如下策略解決了環(huán)境條件變化引起的低識(shí)別率問題:①通過基于紋理的背景差分方法提取人體輪廓信息;②利用網(wǎng)格和單元的方法對人體輪廓進(jìn)行了簡單有效的表示;③提出了一種有效的混合分類模型“SVM-KNN”。4個(gè)公共數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明了本文方法對于光線變化、室內(nèi)/室外變化具有魯棒性。
盡管提出的方法獲得了較好的識(shí)別效果,但仍存在一些問題:①一個(gè)很重要的問題是視頻序列中僅存在一個(gè)人;②部分參數(shù)需要進(jìn)一步優(yōu)化,如關(guān)鍵姿勢、網(wǎng)格和單元的尺寸;③當(dāng)目標(biāo)發(fā)生遮擋時(shí),提出的方法識(shí)別效果欠佳。在以后的研究工作中,需要對這些參數(shù)進(jìn)一步的優(yōu)化處理,使得特征表示更加有效和準(zhǔn)確。此外,將提出類似的方法應(yīng)用于其他研究領(lǐng)域,如人體風(fēng)格識(shí)別、手勢識(shí)別和人臉識(shí)別等。
[1] AGGARWAL J K, RYOO M S. Human activity analysis: A review[J]. Acm Computing Surveys, 2011, 43(3): 194-218.
[2] 肖玲.無線體域網(wǎng)中人體動(dòng)作監(jiān)測與識(shí)別若干方法研究[D]. 湖南:湖南大學(xué), 2014. XIAO Ling. Research on several methods of human motion monitoring and recognition in wireless body area network[D]. Hunan: Hunan University, 2014.
[3] CHAARAOUI A A, CLIMENT P P, FLREZ R F. A review on vision techniques applied to Human Behaviour Analysis for Ambient-Assisted Living[J]. Expert Systems with Applications, 2012, 39(12): 10873-10888.
[4] 陳國興,劉作軍,陳玲玲,等.假肢穿戴者跌倒預(yù)警系統(tǒng)設(shè)計(jì)[J].華中科技大學(xué)學(xué)報(bào):自然科學(xué)版, 2015, 32(S1): 246-251. CHEN Guoxing, LIU Zuojun, CHEN Lingling, et al. Design of a stumble pre-warning system for lowerlimb amputees[J]. Journal of Huazhong University of Science and Technology: Nature Science Edition, 2015, 32(S1): 246-251.
[5] 王斌,劉煜,王煒,等.面向人體動(dòng)作識(shí)別的局部特征時(shí)空編碼方法[J].四川大學(xué)學(xué)報(bào):工程科學(xué)版, 2014, 37(2): 72-78. WANG Bin, LIU Yu, WANG Wei, et al. Local Feature Space Time Coding for Human Action Recognition[J]. Journal of Sichuan University: Engineering Science Edition, 2014, 37(2): 72-78.
[6] 胡石,梅雪.人體行為動(dòng)作的形狀輪廓特征提取及識(shí)別[J].計(jì)算機(jī)工程, 2012, 38(2): 198-200. HU Shi, MEI Xue. Shape contour feature extraction and recognition of human behavior motion[J]. Computer Engineering, 2012, 38(2): 198-200.
[8] 王鑫,沃波海,管秋,等.基于流形學(xué)習(xí)的人體動(dòng)作識(shí)別[J].中國圖象圖形學(xué)報(bào), 2014, 19(6): 125-130. WANG Xin, WO Bohai, GUAN Qiu, et al. Human action recognition based on manifold learning[J]. Journal of Image and Graphics, 2014, 19(6): 125-130.
[9] 肖玲,李仁發(fā),羅娟.體域網(wǎng)中一種基于壓縮感知的人體動(dòng)作識(shí)別方法[J].電子與信息學(xué)報(bào), 2013, 34(1): 119-125. XIAO Ling, LI Renfa, LUO Juan. Recognition of human activity based on compressed sensing in body sensor networks[J]. Journal of Electronics & Information Technology, 2013, 24(1): 119-125.
[10] WU D, SHAO L. Silhouette Analysis-Based Action Recognition Via Exploiting Human Poses[J]. IEEE Transactions on Circuits & Systems for Video Technology, 2013, 23(2): 236-243.
[11] 魏萊.基于關(guān)節(jié)點(diǎn)的人體動(dòng)作識(shí)別及姿態(tài)分析研究[D].北京:北京郵電大學(xué), 2014. WEI Lai. Research on human motion recognition and pose analysis based on joint point[D]. Beijing: Beijing University of Posts and Telecommunications, 2014.
[12] 白雪冰,王克奇,王輝.基于灰度共生矩陣的木材紋理分類方法的研究[J].哈爾濱工業(yè)大學(xué)學(xué)報(bào), 2005, 37(12):1667-1670. BAI Xuebing, WANG Keqi, WANG Hui. Research on the classification of wood texture based on Gray Level Co-occurrence Matrix[J]. Journal of Harbin Institute of Technology, 2005, 37(12): 1667-1670.
[13] 哈明虎,田景峰,張植明.基于復(fù)隨機(jī)樣本的結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則[J].計(jì)算機(jī)研究與發(fā)展, 2009, 46(11):1907-1916. HA Minghu, TIAN Jingfeng, ZHANG Zhiming. Structural risk minimization principle based on complex random samples[J]. Journal of Computer Research and Development, 2009, 46(11): 1907-1916.
[14] GOUDELIS G, KARPOUZIS K, KOLLIAS S. Exploring trace transform for robust human action recognition[J]. Pattern Recognition, 2013, 46(12): 3238-3248.
[15] FATHI A, MORI G. Action recognition by learning mid-level motion features.[C]// IEEE Computer Society Conference on Computer Vision and Pattern Recognition. IEEE Computer Society Conference on Computer Vision and Pattern Recognition.[S.l.]:IEEE Press 2008:1-8.
[16] 王劉濤,王建璽,魯書喜.基于Adaboost關(guān)鍵幀選擇的多尺度人體動(dòng)作識(shí)別方法[J].重慶郵電大學(xué)學(xué)報(bào):自然科學(xué)版, 2015, 27(4): 549-555. WANG Liutao, WANG Jianxi, LU Shuxi. Multi-scale human action recognition method based on Adaboost key-frame selecting[J]. Journal of Chongqing University of Posts and Telecommunications: Natural Science Edition, 2015, 27(4): 549-555.
[17] JI S, XU W, YANG M, et al. 3D convolutional neural networks for human action recognition[J]. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 2013, 35(1): 221-231.
(編輯:張 誠)
Human activity recognition based on contour feature extraction on key-frame
WANG Liutao1, LIAO Mengyi1, WANG Jianxi1, MA Fei2
(1. College of Software, Pingdingshan University, Pingdingshan 467000, P.R. China; 2. School of Computer Science, Wuhan University, Wuhan 430072, P.R. China)
In order to acquire more accurate of foreground segmentation and prevent the loss of critical geometry information in human action recognition, a human action recognition method based on extracting key-gesture features by key-frame is proposed. Concerning that foreground obtained from background modeling and background differential is not accurate, the action contour is extracted by using texture-based gray level co-occurrence matrix with segmentation on original image frame. Then, body energy Blob is calculated, and frame of maximum information content is selected as key-frame. Key-frame makes feature extraction robust to the change of time. The last is the stage of feature classification. support vector machine-K nearest neighbor (SVM-KNN) hybrid classifier is used so as to improve the classification accuracy. The effectiveness of the proposed method has been verified by experiments on the four public data sets Weizmann, KTH, Ballet and TUM. The recognition accuracy of the proposed method is higher than local feature method, global feature method, key-point method and etc. In addition, the experimental results show that early identification of data sets KTH and Weizmann is better than that of Ballet data set.
human activity recognition; foreground segmentation; contour feature; gray level co-occurrence matrix; key-frame
10.3979/j.issn.1673-825X.2017.01.015
2016-02-19
2016-09-25 通訊作者:王劉濤 wangltpds@126.com
國家自然科學(xué)基金項(xiàng)目(61503206);河南省科技廳科技發(fā)展計(jì)劃項(xiàng)目(142102210226)
Foundation Items:The National Natural Science Foundation of China(61503206); The Technology Development Plan Project of Henan Science and Technology Department(142102210226)
TP391
A
1673-825X(2017)01-0098-08
王劉濤(1981-),男,河南項(xiàng)城人,碩士,講師,研究領(lǐng)域?yàn)閳D像處理、模式識(shí)別等。E-mail:wangltpds@126.com。 廖夢怡(1983-),女,河南南陽人,碩士,講師,研究領(lǐng)域?yàn)閳D像處理、虛擬現(xiàn)實(shí)技術(shù)等。 王建璽(1981-),女,河南社旗人,碩士,講師,研究領(lǐng)域?yàn)閳D像處理、模式識(shí)別等。 馬 飛(1980-),男,山東魚臺(tái)人,博士生在讀,副教授,研究領(lǐng)域?yàn)閳D像處理、模式識(shí)別等。