王恩德,,3, ,3
(1.中國(guó)科學(xué)院沈陽(yáng)自動(dòng)化研究所,沈陽(yáng) 110016;2.中國(guó)科學(xué)院光電信息處理重點(diǎn)實(shí)驗(yàn)室,沈陽(yáng) 110016; 3.東北大學(xué) 信息科學(xué)與工程學(xué)院,沈陽(yáng) 110819)
雖然對(duì)靜態(tài)圖像的行為識(shí)別研究起步的較晚,但是卻有很多不錯(cuò)的研究成果出現(xiàn)。目前主要分3類研究方法:基于圖像整體的行為識(shí)別,基于人的姿勢(shì)的行為識(shí)別以及基于人和物體之間交互關(guān)系的方法。早期的靜態(tài)圖像的行為識(shí)別主要對(duì)整張圖像提取底層特征,如方向梯度直方圖(Histogram of Oriented Gradients,HOG)、通用搜索樹(shù)(Generalized Search Trees,GIST)等特征,然后將這些底層特征輸入到分類器中進(jìn)行分類,且目前圖像分類比較好的方法主要有特征詞袋(Bag of Words,BOF)和空間金字塔匹配(Spatial Pyramid Matching,SPM)[1-2]。
國(guó)內(nèi)關(guān)于人體行為分類的文獻(xiàn)比較少,不過(guò)大部分研究還是集中在提取底層特征、中層特征以及高層特征方面。除此之外,部分研究人員利用深度學(xué)習(xí)的方法[3]對(duì)人體行為進(jìn)行分類??梢詫?shí)現(xiàn)比較好的分類效果,不過(guò)如果卷積層太多的情況下,時(shí)間復(fù)雜度和計(jì)算復(fù)雜度會(huì)增加。
有些學(xué)者通過(guò)研究人和周圍物體的交互來(lái)實(shí)現(xiàn)不同行為的分類,實(shí)現(xiàn)了比較好的識(shí)別效果[4-5]。文獻(xiàn)[6]使計(jì)算機(jī)能夠區(qū)分出圖像中人是在演奏樂(lè)器還是只是拿著樂(lè)器。在解決這個(gè)問(wèn)題的過(guò)程中,作者認(rèn)為拿著樂(lè)器和演奏樂(lè)器,屬于不同的行為但是交互的物體卻是相同的,例如當(dāng)演奏小提琴的時(shí)候人和物體的交互位置主要集中在圖像的上部分區(qū)域(人的肩膀的位置),而在拿著小提琴的時(shí)候交互位置卻集中在下部分區(qū)域?;谶@種觀察結(jié)果,作者提出一種描述方法即Grouplet。
基于部分描述整體行為的思想,文獻(xiàn)[7]提出了一種新的部分軀干檢測(cè)算法,即Poselet。它的主要思想是,首先人為對(duì)圖像中每個(gè)人標(biāo)注其軀干中的關(guān)鍵點(diǎn)(例如雙眼、膝蓋等),然后將圖像切割成不同的小塊,得到整個(gè)訓(xùn)練集切出的小塊的集合。利用聚類得到的多個(gè)集合學(xué)習(xí)不同的塊檢測(cè)器,通過(guò)這些檢測(cè)器對(duì)不同的圖像進(jìn)行檢測(cè)找出是否具有相似結(jié)構(gòu)的塊。有學(xué)者通過(guò)分析動(dòng)作的語(yǔ)義特征和動(dòng)作屬性來(lái)尋找有鑒別力的區(qū)域,并且抑制鑒別能力不是很強(qiáng)的區(qū)域?qū)崿F(xiàn)人體動(dòng)作的識(shí)別[8-10],但這類方法中目標(biāo)區(qū)域及特征屬性的選取效果仍然不盡如人意。因此,本文提出一種融合局部約束線性編碼(Locality-constrained Linear Coding,LLC)和GIST特征的靜態(tài)人體行為分類方法。
本文所提出靜態(tài)人體行為分類算法使用了LLC編碼和池化的密集采樣尺度不變特征變換(Scale-invariant Feature Transform,SIFT)特征,并且融合了具有全局描述能力的描述子GIST特征,來(lái)共同描述圖像特征。GIST特征是場(chǎng)景圖像中隱含的相似空間結(jié)構(gòu)和形狀的結(jié)合體的全局特征。池化后的特征不僅具有空間信息描述能力,還加入了局部約束性,而GIST特征是對(duì)圖像整體的描述,融合這2種特征可以實(shí)現(xiàn)對(duì)圖像更準(zhǔn)確地描述。最后用核函數(shù)為直方圖交叉核函數(shù)的支持向量機(jī)(Support Vector Machine,SVM)進(jìn)行分類。本文算法行為識(shí)別的框圖如圖1所示。
圖1 行為識(shí)別框圖
首先對(duì)圖像進(jìn)行歸一化處理,把圖像歸一化成200×200尺寸大小的圖像。
對(duì)圖像進(jìn)行分塊處理,每個(gè)子圖的大小為16像素×16像素大小,每個(gè)子圖之間的步長(zhǎng)為8個(gè)像素,把每個(gè)子圖平均分成4×4的子區(qū)域,統(tǒng)計(jì)每個(gè)子區(qū)域8個(gè)方向的梯度方向直方圖,這樣每個(gè)子圖就可以提取一個(gè)128維的SIFT描述子,每張圖像就可以得到N×128的描述子。
GIST特征是場(chǎng)景圖像中隱含的相似空間結(jié)構(gòu)和形狀的結(jié)合體的全局特征,通過(guò)計(jì)算圖像的整體特征,來(lái)實(shí)現(xiàn)對(duì)圖像的全局描述。首先對(duì)圖像進(jìn)行網(wǎng)格化處理,平均分成4×4=16個(gè)圖像塊,然后構(gòu)造4個(gè)尺度8個(gè)方向共32個(gè)Gabor濾波器構(gòu)成濾波器組,用濾波器組的32個(gè)Gabor濾波器與每個(gè)圖像塊做卷積運(yùn)算,取每次濾波后圖像塊的均值作為該塊的描述,每個(gè)濾波器濾波后圖像得到16維的特征描述子,32個(gè)濾波器濾波后就得到32×16=512維的GIST特征向量。
最后對(duì)得到的GIST描述子進(jìn)行歸一化處理,GIST描述子可視化結(jié)果如圖2所示。
圖2 GIST特征
由于訓(xùn)練的圖像的描述子數(shù)目很大,運(yùn)用無(wú)監(jiān)督聚類算法K-means對(duì)所有圖像塊提取的所有描述子進(jìn)行聚類計(jì)算復(fù)雜度特別大,因此采用在線的方法生成密碼本。首先從訓(xùn)練圖像提取的稠密SIFT描述子中,隨機(jī)挑選M個(gè)描述子,作為密碼本初始類中心,然后每次加入一部分描述子,計(jì)算描述子與類中心的歐式距離,然后根據(jù)最鄰原則,把每個(gè)描述子分配給最近的類中心,然后重新計(jì)算類中心。不斷迭代,把前一次迭代得到的類中心作為新的類中心,重復(fù)上面的過(guò)程,對(duì)類中心進(jìn)行更新,直到相鄰兩次迭代產(chǎn)生的類中心不再變化,或者變化程度很小,停止迭代,把最后得到的類中心作為密碼本。本文中,取M=256,512,1 024進(jìn)行實(shí)驗(yàn)。
比較常見(jiàn)特征編碼方法有矢量量化編碼、稀疏編碼、局部約束線性編碼(LLC)。本文采用LLC的方法對(duì)提取的特征進(jìn)行編碼。
矢量量化的方法是在已經(jīng)訓(xùn)練好密碼本的情況下,根據(jù)最近鄰原則把描述子分配給最近的密碼本詞匯,然后計(jì)算每張圖像所有圖像塊的描述子分配給每個(gè)詞匯的概率,最終把每個(gè)詞匯出現(xiàn)的概率串聯(lián)成一個(gè)向量,作為該圖像的描述特征。這種方法通過(guò)計(jì)算描述子與每個(gè)詞匯的L2范數(shù),然后根據(jù)最近鄰原則把每個(gè)描述子分配給最近的一個(gè)詞匯,分配過(guò)程太嚴(yán)苛,相似的圖像塊可能分配給不同的詞匯,很容易造成誤分類。
稀疏編碼[11]的方法是在已經(jīng)獲得一組超完備基向量密碼本的情況下,利用L1范數(shù)約束計(jì)算每個(gè)描述子在這組超完備基向量下的權(quán)值,由于超完備基向量的基向量個(gè)數(shù)大于向量的維數(shù),因此每個(gè)描述子都可以用一組稀疏系數(shù)來(lái)表示,然后根據(jù)最大池化原則,選擇每個(gè)詞匯下的最大相關(guān)系數(shù),作為最后的特征描述。稀疏編碼與矢量量化相比,對(duì)于描述子的分配方式更平滑一些,但是由于超完備基向量太多,兩張相似的子圖很容易選擇不同的基底,也會(huì)造成誤分類。
局部約束線性編碼也借鑒了稀疏編碼的思想,但是相比于稀疏性,更加注重局部約束。LLC[12]的主要思想是根據(jù)K近鄰原則把每個(gè)描述子分配n個(gè)最近的密碼本詞匯(本文n取5),這樣每個(gè)描述子就可以用n個(gè)詞匯的線性組合來(lái)表示,線性組合系數(shù)就是描述子與n個(gè)詞匯的相關(guān)系數(shù)向量ci,計(jì)算過(guò)程見(jiàn)下面的公式。LLC既克服了矢量量化的量化過(guò)程太嚴(yán)苛的缺點(diǎn),又解決了稀疏編碼忽略局部約束的問(wèn)題,并且把每個(gè)描述子用詞匯的線性組合來(lái)表示,因而能夠?qū)崿F(xiàn)比較好的編碼,同時(shí)會(huì)提高運(yùn)算速度。LLC編碼如式(1)所示。
s.t.1Tci=1,?i
(1)
其中,[dist(xi,b1),dist(xi,b2),…,dist(xi,bi)]T,dist(xi,bi)是描述子向量xi與密碼本詞匯向量bi的歐式距離。σ是用來(lái)調(diào)節(jié)下降速度的權(quán)值,本文取值0.000 1,矩陣Ci是第i個(gè)描述子向量xi與密碼本詞匯的協(xié)方差矩陣。
通過(guò)LLC編碼和K近鄰原則,每個(gè)描述子可以選擇相關(guān)程度最大的n個(gè)詞匯作為基底,同時(shí)表示成n個(gè)詞匯的線性組合,相關(guān)系數(shù)就是上面優(yōu)化得到的向量ci,它是一個(gè)M維的向量,只有n個(gè)非零系數(shù),其余為0,既保證了稀疏性,又增加了特征選擇的局部約束。向量ci中值越大,與對(duì)應(yīng)詞匯的相關(guān)程度越大。對(duì)于從一幅圖像提取的所有描述子,找到與M個(gè)詞匯最相關(guān)的描述子,其相關(guān)系數(shù)就作為整幅圖像與M個(gè)詞匯的相關(guān)程度,從而通過(guò)最大池化實(shí)現(xiàn)了特征的選擇。
為了增加空間位置信息,利用空間金字塔匹配(SPM)的思想,對(duì)每張圖像分層分塊處理,把圖像分成3層,每層圖像的塊數(shù)為:提取每層每塊圖像的最大池化后的特征,把每層每塊圖像池化后的特征串聯(lián)起來(lái),得到特征維數(shù)(1+4+16)K=21K的描述子。本文選擇K=256,512,1 024進(jìn)行測(cè)試。
單一的特征對(duì)于圖像的描述能力太弱,所以本文提出了融合池化SIFT特征和GIST特征的方法對(duì)圖像進(jìn)行描述。分別用不同密碼本得到的池化特征與全局特征GIST特征(512維)直接串聯(lián)的方式,作為最后用來(lái)分類識(shí)別的特征。
對(duì)于分類器的選擇,本文采用核函數(shù)為線性核函數(shù)、徑向基函數(shù)(Radial Basis Function,RBF)和直方圖交叉核函數(shù)的SVM分類器進(jìn)行測(cè)試,通過(guò)在Willons action數(shù)據(jù)庫(kù)上測(cè)試可知,當(dāng)密碼本大小為512維的情況下,用直方圖交叉核函數(shù)的SVM分類器進(jìn)行分類,分類效果最好。本文采用臺(tái)灣大學(xué)林智仁教授開(kāi)發(fā)的SVM模式識(shí)別與回歸的軟件包LibSVM[13]來(lái)進(jìn)行測(cè)試。
使用直方圖交叉核函數(shù)來(lái)衡量不同描述子之間的距離,向量x和向量y的交叉核定義為:
χ2(x,y)=∑min(xi,yi)
(4)
在訓(xùn)練階段,對(duì)訓(xùn)練樣本的類別進(jìn)行標(biāo)注,然后把每類訓(xùn)練樣本融合特征后的特征向量分別用不同核函數(shù)的SVM分類器進(jìn)行訓(xùn)練,得到分類器模型。
在測(cè)試階段,對(duì)測(cè)試樣本的類別進(jìn)行標(biāo)注,把每張圖像融合后的特征向量和訓(xùn)練階段產(chǎn)生的分類器模型輸入到預(yù)測(cè)函數(shù)進(jìn)行測(cè)試,最后得到每張圖像的預(yù)測(cè)類別。
為了驗(yàn)證本文算法的效果,本文在2個(gè)數(shù)據(jù)庫(kù)上進(jìn)行測(cè)試。
實(shí)驗(yàn)中用了2種不同類型的數(shù)據(jù)庫(kù)用于動(dòng)作識(shí)別:StillWeb Images[14],Willowaction。具體如下:
1)StillWeb Images:包含1 200多張圖像,有6類不同的動(dòng)作,即Phoning、PlayingGuitar、RidingBike、RidingHorse、Running、Shooting。每類動(dòng)作任意挑選60張圖像用于實(shí)驗(yàn),其中,40張圖像作為訓(xùn)練樣本,20張圖像作為測(cè)試樣本。
2)Willow-action:包括900多張圖片,1 100多個(gè)標(biāo)注的動(dòng)作類型標(biāo)注,即PlayingComputer、Photographing、PlayingMusic、RidingBike、RidingHorse、running、walking。每類任意挑選70張圖像作為訓(xùn)練樣本,剩下其他的圖像作為測(cè)試樣本。由于每張圖像都已經(jīng)標(biāo)注好包含目標(biāo)區(qū)域的矩形框(bounding box),因此本文選擇使用矩形框內(nèi)的目標(biāo)圖像進(jìn)行測(cè)試。
本文實(shí)驗(yàn)環(huán)境為:PC配置為內(nèi)存4 GB的64位Windows7系統(tǒng),Matlab2013b下運(yùn)行。實(shí)驗(yàn)將數(shù)據(jù)進(jìn)行5次訓(xùn)練與測(cè)試,然后取5次結(jié)果的平均值作為測(cè)試結(jié)果[15]。
為了測(cè)試不同方法的分類效果,對(duì)2個(gè)數(shù)據(jù)庫(kù)在密碼本大小為256維和512維的情況下,用直方圖交叉核函數(shù)的SVM分類器進(jìn)行測(cè)試,StillWeb Images(簡(jiǎn)稱StillWeb)和Willions action(簡(jiǎn)稱Willions)2個(gè)數(shù)據(jù)庫(kù)的分類結(jié)果如表1所示。通過(guò)對(duì)比可以看出,LLC+GIST能夠取得比較好的分類效果。圖3給出了Willions action數(shù)據(jù)庫(kù)上不同特征在不同密碼本下實(shí)驗(yàn)結(jié)果的折線。
表1 不同特征正確率對(duì)比 %
圖3 不同特征分類結(jié)果
由圖3可知,大部分的特征隨著特征維度的增加,識(shí)別率逐漸增加,但是LLC+GIST特征在密碼本為512維時(shí)的識(shí)別率高于密碼本大小為1 024維的識(shí)別率,但是總體來(lái)看,相比于單一的特征,融合的特征的識(shí)別率高于單一的特征,由于LLC利用局部約束來(lái)選擇特征的優(yōu)勢(shì),使得LLC+GIST的識(shí)別率高于其他融合的特征。
為了比較不同核函數(shù)的SVM分類器對(duì)本文融合特征的分類效果,本文分別用線性核函數(shù)、RBF核函數(shù)和直方圖交叉核函數(shù),對(duì)不同密碼本下的融合特征進(jìn)行訓(xùn)練和測(cè)試。表2給出了密碼本大小分別為256、512和1 024維情況下的分類正確率,通過(guò)對(duì)比可以看出,基于直方圖交叉核函數(shù)的SVM分類器的分類效果明顯優(yōu)于其他核函數(shù),因此,本文選擇直方圖核函數(shù)的SVM分類器對(duì)融合性特征進(jìn)行分類。
表2 不同密碼本正確率對(duì)比 %
圖4給出了在密碼本大小為512維的情況下,用直方圖交叉核函數(shù)對(duì)提取的LLC+GIST特征進(jìn)行分類識(shí)別的混淆矩陣。
圖4 混淆矩陣
通過(guò)混淆矩陣可以看出,使用電腦、演奏樂(lè)器、騎車和走路這些動(dòng)作可以實(shí)現(xiàn)比較好的分類效果。跑步和走路有些情況下非常相似,很容易混淆。實(shí)驗(yàn)表明騎馬和照相場(chǎng)景的識(shí)別進(jìn)度不高,因?yàn)檫@2個(gè)動(dòng)作相對(duì)于其他動(dòng)作來(lái)說(shuō),變化因素更多,騎馬的環(huán)境更復(fù)雜,拿相機(jī)的姿勢(shì)以及相機(jī)的位置等差異太大,以后可以考慮對(duì)顯著(目標(biāo))區(qū)域的各個(gè)組成部分分別進(jìn)行特征提取及其各部分的位置關(guān)系進(jìn)行分析,并利用卷積神經(jīng)網(wǎng)絡(luò)對(duì)算法進(jìn)行改進(jìn)。
由表3可以看出,平均行為識(shí)別精度為58.57%,高于其他3種對(duì)比的算法?;贐OF的方法比方法B[16]的識(shí)別精度低,這是因?yàn)榛贐OF的方法只是把人體行為表示成不同詞匯的集合,忽略了人體行為的空間位置信息。方法B雖然加入了空間位置信息,但是對(duì)于特征的編碼采用矢量量化的方式,編碼過(guò)程太嚴(yán)格,容易造成誤分類。多核分類方法[17],雖然也是融合不同特征進(jìn)行識(shí)別,但是運(yùn)用傳統(tǒng)的SPM直方圖特征,缺乏稀疏性和局部約束。本文運(yùn)用了具有稀疏性和局部約束的LLC編碼方式,融合了具有全局描述能力的GIST特征,即基于LLC+GIST特征的方法,該方法不僅挑選出具有描述能力的圖像子圖,還增加了人體行為的空間位置信息,大大提高了圖像的描述能力,因而能夠?qū)崿F(xiàn)比較好的分類效果。
表3 不同算法下各類行為的正確率對(duì)比 %
本文提出一種融合局部約束線性編碼特征和GIST特征的靜態(tài)圖像人體行為識(shí)別方法??紤]人體行為的空間位置信息和局部約束,加入魯棒的全局描述特征GIST,使得對(duì)圖像的描述能力優(yōu)于單一的特征和加入空間位置信息的SPM特征和稀疏編碼空間金字塔匹配(Sparse Coding Spatial Pyramid Matching,ScSPM)特征,并且優(yōu)于GIST與SPM和ScSPM融合后的特征。在分類器的選擇上,相比于線性核和RBF核函數(shù)的SVM分類器,基于直方圖交叉核的SVM分類器能夠?qū)崿F(xiàn)更好的分類效果。然而,仍存在很多挑戰(zhàn),比如不同人做同一個(gè)動(dòng)作,由于體型、身高、姿勢(shì)等差異,對(duì)于最終的識(shí)別效果也會(huì)帶來(lái)影響,還有人體部分遮擋、光照變化、拍攝角度等問(wèn)題,這將是下一步的研究重點(diǎn)。