劉海華,程志君,諶先敢,高智勇
(中南民族大學生物醫(yī)學工程學院,武漢430074)
人體動作識別在智能視頻監(jiān)控系統(tǒng),高級人機交互以及基于內(nèi)容的視頻檢索等方面有著重要的應用前景[1],引起了研究人員的廣泛關(guān)注 .由于在運動特性、記錄條件、個體差異等方面的變化,人體動作識別是當前計算機視覺領域里最具挑戰(zhàn)性的識別問題之一.與此同時,在腦科學等領域里,了解人腦對動作的感知能力,可對計算機視覺中的識別問題提供較大的啟發(fā),因此模擬人腦的視覺系統(tǒng)構(gòu)建識別模型,一方面加深了我們對人類大腦機制的理解,另一方面為我們在計算機上實現(xiàn)識別模型提供了新的方法.
近來,將基于生物學的方法應用于真實世界中的目標識別已經(jīng)取得了成功[2],研究者們通過對靈長類動物的腦皮層中視覺通路工作機理的研究,逐漸建立起分層式的模式分類與識別模型的思想,眾多由生物視覺感知啟發(fā)的特征計算模型被相繼提出,例如T.Serre和M.Riesenhuber改進的HMAX模型,使得特征具有更高的選擇復雜性[3]以及 T.Serre,L.Wolf為解決特征的選擇性和不變形間的矛盾而提出的仿生識別模型[4].根據(jù)研究,人類視覺皮層由兩條通路組成:處理形狀信息的腹部通路和分析運動信息的背部通路.這兩條通路的的組織結(jié)構(gòu)很相似[5]:他們都是層次結(jié)構(gòu)的,經(jīng)過一系列的處理階段后,逐漸增加了神經(jīng)元的選擇性[6].同時,沿著這個層次結(jié)構(gòu),神經(jīng)元感受野(例如視野的一部分)經(jīng)過適當?shù)拇碳ず?,能從神?jīng)元引起一個反應.在組成主視覺皮層的兩條通路中,腹部通路的主要作用是感知物體的存在,而背部通路的主要作用是定位由即時的運動信息引起的刺激[7].早期的基于神經(jīng)生物學的動作處理模型模擬了視覺皮層中的背部通路,它成功的解釋了很多生理和心理數(shù)據(jù),但由于過于簡單以至于不能處理實際的視頻[8].
早期由Giese和Poggio提出的基于視覺皮層背部通路運動處理的神經(jīng)生物學模型[6],成功地解釋了許多生理和心理數(shù)據(jù),后來Jhuang等人擴展了這個簡單的神經(jīng)生物模型,提出了一種基于處理時空特征[9]的識別系統(tǒng),該系統(tǒng)是類似于視覺皮層中簡單細胞和復雜細胞依次交替的層次結(jié)構(gòu)的計算機識別模型.此模型通過從訓練樣本中提取出的特征描述符建立特征模板,使得計算機可以根據(jù)模型自動的識別新輸入的視頻中的動作類型.此系統(tǒng)由一組逐漸復雜的時空特征檢測單元組成,并最終得到與位置無關(guān)的時空特征[10].在Jhuang提出的動作識別模型中,系統(tǒng)對輸入的視頻序列進行了預處理:使用了Gaussian Mixture Model(GMM)背景相減技術(shù),然后截取了原視頻序列每幀圖像的一半(包含了運動目標)作為系統(tǒng)的輸入序列[10].這些預處理技術(shù)過于依賴手工,并不完全符合生物視覺系統(tǒng)的原理.另外,該模型的特征提取方法是在C1層上隨機選取大量不同尺寸的小塊作為模型的特征模板,這種隨機選擇,容易選到背景信息,因此Jhuang使用了特征選擇技術(shù),從隨機選取的大量特征小塊中重新篩選出部分權(quán)重大的小塊作為模型的特征小塊,以到達降維的目的.這些處理步驟增加了模型的復雜度和耗時.
Jhuang的模型解釋了視覺皮層中對運動信息敏感的背部通路部分,但是他提取運動的特征小塊過程是在隨機幀的隨機位置提取,這種特征描述法依賴于對輸入視頻的預處理,如背景剔除,陰影消除,形態(tài)濾波[11]及人體檢測和跟蹤[12]等,這些預處理過程一方面加大了系統(tǒng)的計算量,使得系統(tǒng)識別速度過慢,另一方面這些操作并沒有在真正意義上模仿生物視覺系統(tǒng),它是相當于提取待分析的目標后再送入視覺系統(tǒng),而不是神經(jīng)生物學中的對視覺場景中最相關(guān)區(qū)域進行選擇和處理的這一原理.
在現(xiàn)實場景中,人類具有高效的注意周圍事物的能力,當周圍環(huán)境中有大量的信息時,我們并不是被動的接受所有的信息,而是選擇視覺中的某些部分進行下一步分析.這種對輸入視覺的圖像中相關(guān)信息進行選擇的能力是人類視覺系統(tǒng)所具有的最重要的能力之一,確保視覺系統(tǒng)對輸入的信息進行優(yōu)化.相比通過視頻預處理和特征選擇這兩個步驟來獲取目標特征信息的Jhuang的生物模型,人類視覺系統(tǒng)注意特性顯然性能更強大,因此,本文引入視覺注意機制,獲取更準確的目標模板,可以減少識別過程對手工的依賴性,同時提高識別的準確性.
本文在已有的層次化動作識別模型上,加入了模仿人類視覺注意機制的處理過程,提出了結(jié)合運動視頻圖像的顯著區(qū)域來獲取運動的特征小塊的方法.此方法使我們的模型更加接近人類視覺的原理,降低了在背景上選取小塊的概率,使選取的小塊盡可能多地攜帶有效的運動信息,從而剔除了視頻圖像的預處理和特征選擇這些步驟,可以達到簡化原模型、改善識別率的目的.
視覺注意機制特指位于視覺系統(tǒng)頂層的觀察者所具有的對視覺場景中最相關(guān)區(qū)域進行選擇和處理的能力,視覺信息進行深入理解之前,對所搜集的信息進行選擇,這些選擇可以減少場景理解的復雜性.為解決隨機選取小塊時容易選擇到背景信息導致模型的計算量大這一問題,我們借鑒了人類視覺機制,在Jhuang提出的層次化計算機識別模型中引入了注意機制.我們使用了Itti提出的視覺模型,得到視頻圖像的顯著區(qū)域,再結(jié)合顯著區(qū)域,也就是運動目標所在的區(qū)域來限定選取特征小塊的區(qū)域,以此提高所選特征小塊的準確度.這種方法,能較大程度的避免在視頻圖像的背景信息上選擇特征小塊,從而可以省略模型對視頻圖像進行背景相減和截取的預處理以及對特征小塊進行多次刪選的操作.同時,只針對視頻圖像的顯著區(qū)域進行研究使我們的系統(tǒng)更進一步的模擬了人類視覺皮層,也提高了我們的動作識別系統(tǒng)的準確度.
我們模型的基本框架是基于逐漸復雜的層次結(jié)構(gòu)和不變的時空特征檢測單元,通過交替的模板匹配(增加所得特征的復雜性)和局部最大化操作(獲得對尺度,平移具有一定不變性的特征),系統(tǒng)獲得最終的特征表示.系統(tǒng)的結(jié)構(gòu)如圖1所示.
圖1 動作識別模型的結(jié)構(gòu)Fig.1 Sketch of the system
系統(tǒng)的輸入是一組經(jīng)灰度化處理后的視頻序列,我們用I來表示{Ii|i=1,2,…,nf}.系統(tǒng)的第一階段由一組對運動敏感的S1單元組成,它模仿了視覺皮層背部通路中的V1簡單細胞.在我們的動作識別模型中,我們使用由Simoncelli和Heeger提出的三維高斯濾波器[11]作為系統(tǒng)第一階段的時空濾波器.對每一個輸入的視頻,經(jīng)過時空濾波器Fl(Fl的推導
[11])濾波后,系統(tǒng)獲得一個初步的運動特征.對視頻中的每一幀Ii,每一個S1單元計算一層運動特征,由于我們使用了多方向多速度的S1單元,因此每一幀經(jīng)過S1單元后得到一個三維的S1幀,我們用S1i表示.S1i由公式(1)獲得.
在公式(1)中,[·]+表示半路修正操作[7].我們通過在時間和空間上取亮度的平均值來對濾波器的響應結(jié)果歸一化,并且用半路修正操作為積極的細胞響應建模.我們用了4個方向和2個速度的一共8個時空濾波器.相應的S1單元的感受野是9(像素)×9(像素).一個灰度視頻經(jīng)過S1單元后,輸出結(jié)果為一個每幀有多層(S1幀)的序列.圖2是KTH數(shù)據(jù)庫中person01的jogging動作視頻中的任選一幀后在4個不同方向,速度為每幀3個像素條件下的S1響應.
在S1的下一階段是C1階段,C1階段的操作是依方向進行的,對每一個S1幀的每一層進行局部最大值的匯聚操作.具體做法是將每一個S1幀的每一層劃分為c×c的格子,在每個格子中求最大值,這樣對S1幀的每一層都能得到一張減采樣過的最大值圖,我們采用的是c×c區(qū)域相互重疊一半的方法,最終得到具有不變性質(zhì)的C1響應.C1響應由公式(2)獲得.在此階段,我們的系統(tǒng)獲得了對局部空間形變的容忍能力,同時,最大值匯聚對雜亂的背景提供了魯棒性.
圖2 一幀的(0°,90°,180°,270°)4 個方向的 S 1 響應Fig.2 S1 response of one frame in four direction(0°,90°,180°,270°)
在C1階段,我們用大小為8×8且區(qū)域重疊一半的網(wǎng)格對S1幀進行局部最大化操作,既S1幀中每4×4區(qū)域的像素對應到一個C1元素值,因此得到的C1幀比S1幀小(每一個C1層是輸入的S1層1/4),但幀數(shù)和層次的數(shù)量仍然和S1幀保持一致.
1.3.1 獲得視頻圖像顯著區(qū)域的方法
在動作識別中,運動目標所在的區(qū)域被認為是視頻圖像的關(guān)鍵區(qū)域,也就是圖像的顯著區(qū)域.正確的找到視頻圖像的顯著區(qū)域有利于我們獲得更多有用的運動信息,有助于提高我們識別系統(tǒng)的效果.
在現(xiàn)存的較多視覺模型中,我們選取具有代表性的Itti視覺模型,它在提取圖像的特征階段,采用多個底層視覺特征,如顏色,亮度,方向等;這些特征通過高斯金字塔和Center-Surround算子形成各個特征的關(guān)注圖,然后將這些特征合成一幅顯著圖.所謂的顯著圖,就是一幅和原始圖像大小相同的二維圖像,其中的每個像素值表示原圖像對應點的顯著性大小.Itti顯著圖的原理是:(a)提取亮度I,顏色C和方向O的特征,具體實現(xiàn)的方法見公式(3)~(5);(b)用高斯濾波器對亮度,顏色和方向特征圖像進行濾波,得到九層的高斯金字塔;(c)“中心-周圍”差分和歸一化操作,獲取亮度,顏色和方向特征圖;(d)對特征圖進行跨尺度融合及歸一化后,合成視覺顯著圖[8].具體實現(xiàn)的方法見公式(6).
N(·)表示歸一化操作,它的作用是整體提升那些有部分強刺激峰值(醒目位置)的特征圖,而整體抑制那些包含大量可比峰值響應.圖3是從動作boxing,handwaving和walking的視頻中隨機選取幀獲得的顯著圖.
圖3 將原視頻圖像和顯著圖做與操作的結(jié)果Fig.3 Apply the saliencymap on the original video images
將視頻圖像中的運動目標提取出來的方法有很多,圖像分割是其中的一種,但對如圖3中的背景噪聲較大的圖像,用分割的方法不容易將運動對象準確的分割出來,而利用注意機制獲得圖像的顯著圖,再將原視頻圖像和與之相應的顯著圖二值化后做與操作后,能較準確的找到運動目標所在的區(qū)域,為隨后的在限定區(qū)域提取特征小塊做了較好的準備,同在隨機位置選取小塊相比,本方法減少了選到包含背景信息的特征小塊的概率,且在理論上更接近人類視覺機制的原理.
1.3.2 提取特征模板的方法
對每一個動作類型,我們在訓練集的C1幀中選取一定數(shù)量的不同尺寸的特征小塊,作為該類的動作原型來存儲.這些存儲的特征模板構(gòu)成了模型的中間級特征.為獲得這些特征模板,我們提出了結(jié)合顯著區(qū)域來提取特征小塊的方法.
C1幀是由輸入的灰度視頻序列經(jīng)過一次濾波和匯聚局部最大值操作后得到的,可以看作是原灰度視頻的特征的一個概括,既C1特征中包含有原視頻序列中的運動目標的特征,也包含背景的特征.C1幀和S1幀一樣,都是多層次的幀,為了在C1幀中提取到更加能表征視頻中運動信息的特征小塊,我們首先確定要提取小塊的C1幀,通過這個C1幀來找到與之對應的視頻序列中的某一幀,然后在這一幀圖像上運用Itti算法得到此幅圖像的顯著圖.由于視頻圖像的顯著圖的大小和C1幀圖像的大小不一致,我們對顯著圖的大小進行了調(diào)整,使它和C1幀圖像的大小一致.最后在C1幀上選取特征小塊時,我們先在顯著圖中值為“1”的區(qū)域(圖4中顯著圖的白色區(qū)域)隨機選一點,記錄此點的坐標,然后在C1幀的每一層上選取相同坐標的點的鄰域,鄰域的大小由小塊的尺寸決定,這就完成了一個小塊的提取.總的來說,我們利用原視頻圖像中的顯著區(qū)域,通過對應的坐標變換,限制在C1幀中提取小塊的區(qū)域,再在這個限定的區(qū)域里隨機選擇小塊,通過這個方法來獲得穩(wěn)定有效的特征小塊.提取小塊的過程如圖4所示.
圖4 結(jié)合顯著圖在C1的特定區(qū)域提取小塊Fig.4 Extract patches on C1 with saliencymap
在訓練集中,對每一類動作我們分別選取大小為n×n×L的特征模板.L是由S1單元濾波器的方向和速度決定的(濾波器有4個方向及2個速度,因此L=8).
在S2階段,我們再次使用濾波器對C1階段的輸出進行濾波,產(chǎn)生新一輪的響應圖.此時的濾波器不再是第一層用到的時空濾波器,而是將前面提取的特征小塊和C1幀做模板匹配操作,得到了對動作原型敏感的S2特征.具體方法見公式(7),我們使用的是稀疏的標準化點積操作.
公式(7)表示將第i個C1i幀和第p個特征小塊Pp進行匹配得到S2ip,C1xyi表示C1幀中以點(x,y)為中心的大小為s×s×L的小塊.在我們的層次化系統(tǒng)中,S2單元的作用是增加了特征的復雜度和選擇度.
C2階段,在每一個S2特征的所有位置上進行全局最大化操作.具體操作見公式(8).
在響應C2i(p)中,第p個元素對應著C1i與特征小塊Pp之間最好的匹配.通過這個最大值匯聚的操作后,C2特征增加了位置不變性.C2單元最后的結(jié)果是每一幀獲得一個向量表示.
分類器是我們識別系統(tǒng)的最后的一步,是將待分對象被劃歸為某一類而使用的數(shù)學模型.在分類的階段,本文使用的是支持向量機(SVM),每個視頻的C2特征向量被用來訓練和測試支持向量機.在訓練階段,每一幀都由它所屬的視頻被分配一個標簽.在測試階段,測試視頻的每一幀都獲得一個預測標簽,通過對這些預測標簽進行投票的方法,測試視頻得到一個表示它的動作類別的標簽.
KTH人類動作數(shù)據(jù)庫:KTH數(shù)據(jù)庫包含六類動作一共599個視頻,包括 boxing,hand waving,hand clapping,running,jogging,walking.這些動作由25 個動作目標分別在4個不同的環(huán)境下完成.這4個環(huán)境分別是目標在戶外(S1),伴隨著尺度變化的目標在戶外(S2),不同著裝的目標在戶外(S3),目標在有光線變化的戶內(nèi)(S4).在實驗中,我們對KTH數(shù)據(jù)庫的劃分是:在25個運動目標中,隨機選擇16個目標作為訓練集,剩下的9個目標為測試集.我們一共做了5次隨機劃分,最后由這5次隨機劃分的平均結(jié)果作為系統(tǒng)最終的識別率.
為與文獻[7]的方法做比較,本文在沒有對視頻圖像做預處理,沒有對所選特征小塊進行特征選擇的條件下,分別在KTH 4個不同環(huán)境中進行了實驗,表1給出了本文和文獻[7]作比較的結(jié)果,其中文獻[7]使用的特征小塊個數(shù)為在12000個隨機選取的小塊擇優(yōu)篩選的部分特征小塊,我們使用的特征小塊個數(shù)為2400.
表1 文獻[7]與本文的結(jié)果比較Tab.1 Compare the resultswith reference[7]
由于文獻[7]中是隨機選取特征小塊,導致許多特征小塊攜帶的信息是屬于背景的,于是文獻[7]首先選取大量的動作特征小塊,然后重復的使用特征選擇技術(shù)對所選小塊進行篩選,通過實驗驗證,這一過程較大的影響了系統(tǒng)的運行效率,相對于此,在表1的結(jié)果中,本文的方法直接在限定區(qū)域選取較少的特征小塊,不再進行特征選擇操作,在一定程度上簡化了模型,提高了系統(tǒng)的速度,同時不減少小塊所攜帶的相關(guān)信息,保證了模型的識別效果.
為驗證本文的方法能較好的避免在視頻圖像的背景上選取特征小塊,我們對選取不同個數(shù)的特征小塊分別進行了實驗.對每一類動作,每個尺寸的小塊的個數(shù)分別選 10,20,50,100,120 和 150,既六類動作分別一共選取了 240,480,1200,2400,2880 和3600個特征小塊(例如10×4(小塊的4個尺寸)×6(6類動作)=240).
另外,為進一步測試我們的方法,我們混合了KTH4個環(huán)境下的動作來作為一個整體的數(shù)據(jù)庫,既同一個目標在不同環(huán)境下的動作存放于同一目錄下.表2分別比較了獨立的4個環(huán)境和混合了4個環(huán)境的數(shù)據(jù)庫下,使用結(jié)合顯著區(qū)域提取特征小塊的方法,選擇不同個數(shù)的特征小塊的結(jié)果.需要注意的是,雖然系統(tǒng)最終的識別率是5次隨機劃分的平均值,但對于不同的實驗,我們比較的是相同的劃分情況下的結(jié)果,也就是做了5次隨機劃分之后,以后的實驗都按照這5次劃分的結(jié)果來計算.
表2 選取不同個數(shù)的特征小塊時系統(tǒng)的識別率Tab.2 Recognition rate of different patches number
圖5是對表2中選取小塊個數(shù)和系統(tǒng)識別率之間的關(guān)系分析所得的曲線圖,從圖5可見,當選取的小塊個數(shù)較少時,系統(tǒng)的識別率隨著選取特征小塊的個數(shù)的增加而增加,說明了只有選擇了足夠多的特征小塊,包含了足夠的動作特征信息,系統(tǒng)才能達到更好的識別率.同時我們可以看到,當選取的小塊個數(shù)較多時,系統(tǒng)的識別率逐漸趨于平穩(wěn),不再隨著特征小塊個數(shù)的增加而增加,表明了特征小塊所攜帶的信息達到了飽和.這說明,我們在限定的區(qū)域選取小塊個數(shù)越多,小塊的重復率越大,因此,對本方法來說,不需要為了達到更好的識別率而選取大量的特征小塊,這說明了在模型中引入了注意機制后,提高了系統(tǒng)對“視覺場景”分析的效率,更符合人眼對視覺場景的觀察過程.
由表2可知,在S1,S3和S4環(huán)境下使用結(jié)合顯著圖提取特征小塊的方法,系統(tǒng)的識別率能和文獻[7]中隨機選取小塊的方法達到一致或更好.但在S2環(huán)境下時,識別率反而有所下降,分析其原因是由于S2環(huán)境比其他環(huán)境復雜,背景噪聲大,在S2環(huán)境原視頻圖像中提取顯著區(qū)域時容易把背景區(qū)域當成圖像顯著區(qū)域的一部分,造成提取的特征小塊包含了一定的背景信息,影響了最終的識別率.
圖5 不同小塊個數(shù)的識別率Fig.5 Recognition rate of different patches number
本文在Jhuang的層次化動作識別模型的基礎上,對此模型進行了改進:引入了視覺注意機制,去掉了視頻圖像的預處理以及對所選的特征小塊進行特征選擇的操作,不再采用隨機選擇特征小塊的方法,而是結(jié)合視頻圖像的顯著圖限定了選取特征小塊的區(qū)域,使得所選的特征小塊盡可能多的包含其所屬動作類別的信息,在降低系統(tǒng)對手工的依賴的同時,也更準確模擬了人類視覺機制.這種特征描述法能在一定程度上降低我們動作識別模型的復雜度,減少系統(tǒng)對特征小塊的個數(shù)的需求.總的來說,我們?yōu)榻鉀Q仿生模型對手工的依賴性和計算量大的問題,借鑒了人類視覺系統(tǒng),在仿生模型中引入了注意機制,在提高系統(tǒng)的識別效率的同時,也使得識別模型更具有仿生意義.
實驗結(jié)果證明本文的方法能快速提取有效的特征小塊,使得我們的動作識別模型在選取的特征小塊個數(shù)較少時,依然能有較好的識別率,即提高了模型的運行速度,同時又改善了模型的識別率.但是,本文使用Itti視覺模型提取圖像顯著區(qū)域的方法只適用于背景較為簡單,運動目標較為突出的視頻圖像,當背景噪聲過大時,此算法容易將噪聲判斷為顯著區(qū)域,影響了顯著區(qū)域的準確性.因此,下一步工作我們將改進提取視頻圖像顯著圖的算法,使得在一定的噪聲干擾條件下,仍能準確的找到運動目標所在區(qū)域.
參考文獻
[1]Blake R,Shiffrar M.Perception of human motion[J].Annu Rev Psychol,2007,58:47-73.
[2]Ranzato M,Huang F,Boureau Y,et al.Unsupervised learning of invariant feature hierarchies,with application to object recognition[C]//CVPR.Computer Vision and Pattern Recognition.New York:CVPR,2007:1-8.
[3]Serre T,RiesenhuberM.Realisticmodeling of simple and complex cell tuning in the hmax model and implications for invariant object recognition in cortex[J].Computer Sciences,2004,7(3):29-48.
[4]Serre T,Wolf L,Poggio T.Object recognition with features inspired by visual cortex[J].IEEE Computer Vision and Pattern Recognition,2005,6(2):994-1000.
[5]Saito H.Brain Mechanisms of Perception and Memory[M].Oxford:Oxford Univ Press,1993:121-140.
[6]Giese M , Poggio T.Neuralmechanisms for the recognition of biologicalmovements and action[J].Nat Rev Neurosci,2003,12:31-49.
[7]Decety J,Grèzes J.Neural mechanisms subserving the perception of human actions[J].Trends in Cognitive Sciences,1999,3:29-51.
[8]Simoncelli EP and Heeger DJ.A model of neural responses in visual area MT[J].Vision Research,1998,38:743 –761.
[9]Blank M,Gorelick L,Shechtman E,et al.Actions as space-time shapes[J].IEEE Computer Vision,2005,10(2):1395-1402.
[10]Jhuang H,Serre T,Wolf L,et al.A biologically inspired system for action recognition[C]//ICCV.Computer Vision.Cambridge:ICCV,2007:1-8.
[11]楊躍東,郝愛民.基于動作圖的視角無關(guān)動作識別[J].軟件學報,2009,20(10):2679-2691.
[12]黃飛躍,徐光祐.視角無關(guān)的動作識別[J].軟件學報,2008,19(7):1623-1634.