王軍
(電子科技大學中山學院,廣東 中山 528402)
基于群體交互區(qū)域的群體行為識別
王軍
(電子科技大學中山學院,廣東中山528402)
為了解決由于人體對象數(shù)量過多引起的復雜性問題,提出了一種基于群體交互區(qū)域(GIZ)的群體行為識別方法.利用人際關(guān)系模型檢測群體交互區(qū)域;提出了吸引特征與排斥特征,用來描述群體行為;在此基礎(chǔ)上,采用CTM(Correlated Topic Models)模型進行群體行為識別.利用該方法在BEHAVE數(shù)據(jù)集上進行了訓練與測試,行為識別結(jié)果正確率在93%以上.
群體行為識別;群體交互區(qū)域;吸引與排斥特征
人體行為識別是計算機視覺的重要研究課題,有著廣闊的應用前景.人體行為識別可以分為以下3個方面:(1)個人行為識別[1],(2)交互行為識別[2],(3)群體行為識別[3-13].然而大多數(shù)以前的研究都集中于解決個人行為識別和交互行為識別問題,群體行為識別仍然是一個非常重要的問題,不僅由于技術(shù)上的困難,而且實際應用需求在日益增加.在本文,我們集中解決群體行為識別問題.群體行為一般都由多個個人行為構(gòu)成.比如“approaching”這個群體行為就是由多個“walking”這個個人行為構(gòu)成的.因此,為了識別群體行為,局部(個人)信息和整體(群體)信息都需要考慮.
群體行為識別方法可以分為兩大類:基于特征圖的方法和基于運動軌跡的方法.基于特征圖的方法[3,4]把一個行為描述為許多的時空的運動梯度特征以及它們的統(tǒng)計數(shù)字,而一個群體行為用一些顯著特征表示.然而,由于這種方法對于特征提取有很強的依賴性,易受情境的影響.基于軌跡方法[5-7]首先分析個人行為,然后通過分析個人軌跡之間關(guān)系來實現(xiàn)交互識別,該方法對于情境具有更好的魯棒性.文獻[2]利用格蘭杰因果關(guān)系[7]分析兩人之間的交互作用.然而,由于格蘭杰因果關(guān)系檢驗的局限性,主要用于雙人行為識別問題.為了處理更復雜的情境,文獻[5]利用局部軌跡信息分析自我、雙人、群體因果關(guān)系.然而,他們都假設一個場景中只有一個群體.因此,這些方法對于復雜的情境不具有一般性,如一個群體在參與一個行為,有其他的個人經(jīng)過.為了解決這個問題,文獻[9]和文獻[10]提出首先檢測每組群體行為,然后識別每一個群體行為.文獻[9]利用最小生成樹算法把群體分成幾個組,然后構(gòu)造一個網(wǎng)狀形以及提取一個直方圖特征.盡管文獻[9],[10]利用分組能夠識別群體行為,但是怎樣探測分組仍然是一個難題.
為了解決這些問題,提出了一種基于群體交互區(qū)域(GIZ)的群體行為識別方法.該方法首先利用人際空間關(guān)系模型進行群體交互區(qū)域檢測,然后在該群體交互區(qū)域提取吸引與排斥特征(ARF)、利用額外特征(AF)以及格蘭杰因果關(guān)系(GCT)特征,再利用k-mean算法得到群體行為的特征詞表示,最后,利用CTM建立群體行為模型識別.實驗結(jié)果表明該方法的有效性.
視頻圖像中通常含有多種行為:個體行為、群體行為,因此,為了識別群體交互行為,首先需要找出相應的群體行為區(qū)域.基于人際關(guān)系模型,每個人都有一定距離的內(nèi)部空間,傾向于和熟人維持一個近距離.當有陌生人靠近的時候,他會感到不舒服和尷尬.根據(jù)距離一個人的距離,可以將人際關(guān)系分為四種:親密的,私人的,社會的,公開的,對應的可能交互行為,如圖1所示.
設從第1個時間步長到第T個時間步長第i個人的運動軌跡如下:
圖1 基于空間關(guān)系學的人際關(guān)系區(qū)域
假設在一定的距離內(nèi)將會發(fā)生交互行為,則根據(jù)空間關(guān)系學的私人距離定義一個潛在的交互作用區(qū)(IPZ)來表示交互的可能性.整個過程分為四步,如圖2所示.
圖2 群體交互區(qū)域GIZ的檢測
(1)圍繞每一個人體對象畫一個潛在的交互作用區(qū)(圖2-a).
(2)在這些潛在的交互作用區(qū)之間計算重疊面積(圖2-b),重疊面積越大,群體行為發(fā)生的概率越高.并按式(2)計算重疊面積與覆蓋交互人體對象的總面積之比:
式中,Ω(xi)表示第i個人體對象的一個IPZ,Nc表示重疊IPZ區(qū)域內(nèi)的總?cè)藬?shù).
(3)若滿足式(3),則該潛在的交互作用區(qū)為群體交互區(qū)域(GIZ)(圖2c),并賦值該GIZ ID
式中,α是一個控制一組人體對象落入相同GIZ可能性的閾值.
(4)算出在GIZ每一對可能的交互特征 (圖2-d).
為了描述GIZ內(nèi)的交互行為,我們提出了一個新的特征——吸引和排斥特征(attraction and Repulsion Features,ARF).吸引特征描述人們相互靠近的趨勢,而排斥特征捕捉人們相互遠離的趨勢.這些特征和人體對象之間的相對距離的改變有密切聯(lián)系,如圖3所示.
圖3 吸引和排斥特征
設a和b分別表示時刻ta和tb兩個人體的相對距離,如果:
對于某個人體定義表示其一個軌跡信息的一個子集:
上式中,ξiT,k表示對象i的軌跡信息在k時間步長中的一個子集構(gòu)成的一個變量.于是,我們可以按式(6)計算對象i和j之間的相對距離,
I+(n)和I-(n)是指示函數(shù),當n大于0時返回1,反之亦然.再加上在k時間步期間平均速度的大小和方向vijT,k和?ijT,k,最后得到吸引與排斥特征的七維特征表示如下:
為了表示群體行為,我們首先積累提取在時間窗口大小為ω的特征.然后用k-mean算法通過特征聚類得到群體行為的特征詞表示.然后我們利用CTM建立群體行為模型識別.
CTM模型是由D.Blei等提出的[13],如圖4所示,其中θ為隨機變量,滿足對數(shù)正態(tài)分布(logistic normal distribution),∑和μ為參數(shù);z為隱含主題;w為詞;β為詞在各隱含主題的概率分布;矩形框表示其中的內(nèi)容進行重復,其右下角的值表示重復的次數(shù).
圖4 CTM模型
對于一個由詞描述的特征,CTM模型的生成過程如下:
(1)產(chǎn)生一個主題概率分布:
(2)對于第n個詞:
(a)產(chǎn)生一個主題分配zjn~Multi(θj)
(b)產(chǎn)生一個詞wjn~Multi(βzjn)
給定一個特征集,且特征集中的每一特征均采用詞描述,那么可以采用變分EM算法對特征在隱含主題的概率分布θ和詞在各隱含主題的概率分布參數(shù)β進行估計.對于一個新特征,利用訓練好的CTM模型,得到其主題的概率分布.
利用CTM模型可以有效地表示出特征在隱含主題上的概率分布,而且該模型還完全考慮到了特征隱含主題之間的關(guān)系,使主題描述更加接近現(xiàn)實.
本文在BEHAVE數(shù)據(jù)集[8]上進行實驗來說明所提出方法的性能.我們從兩方面來評估所提出的方法:(1)和已有的方法對比,表明我們所提方法對于群體行為識別的精確性.(2)特征的影響——所提出的特征到底能夠提升多少性能.
公共數(shù)據(jù)集BEHAVE數(shù)據(jù)集,幀頻為25,圖象分辨率為640*480.它由10個群體行為類組成,我們主要考慮Approach(A),Split(S),WalkTogether (W),RunTogether(R),F(xiàn)ighting(F),InGroup(I)等群體行為,每一類由2到5人完成.實驗中,利用MATLAB R2010a在臺式機上進行實驗.參數(shù)設置如下:一個IPZ內(nèi)人之間的距離為58像素,閾值TGIZ為0.1.對于特征提取,時間間隔k為13.對于群體行為表示,窗口大小ω為3幀.k-mean算法的簇大小為100.我們利用三倍交叉驗證法來評估我們的方法.
5.1不同方法的對比實驗
為了說明文中提出方法的優(yōu)越性,我們與文獻[9],[10],[12]的方法進行了對比實驗.文獻[9]的方法利用最小生成樹算法把群體分成幾個組,然后構(gòu)造一個網(wǎng)狀形以及提取一個直方圖特征;文獻[10]的方法把群體行為看成是由個體、雙人群體構(gòu)成的子群體行為組成;文獻[12]的方法利用mean shife聚類和模糊時間邏輯進行群體行為識別.實驗結(jié)果如表1所示結(jié)果表明文中方法具有更高的識別率.
表1 不同方法的實驗結(jié)果
5.2不同特征的對比實驗
我們評估所取特征對群體行為識別的影響.第一種特征也就是文中所采用的的特征,即ARF、GCT、AF的組合特征,共,24維;第二種特征維ARF17維.圖5為實驗結(jié)果的混淆矩陣,從圖可看出,吸引與排斥特性(ARF)大大提高群體行為識別的正確率.這是因為,吸引和排斥特征有效地描述了群體行為.
圖5 群體行為識別的混淆矩陣
5.3有無GIZ檢測對比
為了說明GIZ檢測的有效性,我們對有無GIZ檢測對比進行了對比實驗,圖6為實驗結(jié)果,從圖可以看出,利用了GIZ檢測方法的識別效果明顯優(yōu)于沒有使用該方法的.這是因為視頻圖像中往往含有個體行為和群體行為GIZ檢測能去掉圖像中的個體行為,從而提高群體行為識別率.
圖6 有無GIZ檢測對比
人體動作識別已經(jīng)成為計算機領(lǐng)域的一個重要研究方向,本文提出了一種基于群體交互區(qū)域(GIZ)的群體行為識別方法.主要工作和創(chuàng)新點:
(1)利用人際關(guān)系模型檢測群體交互區(qū);
(2)利用吸引與排斥特征、利用額外特征以及格蘭杰因果關(guān)系特征描述群體行為;
(3)采用CTM(Correlated Topic Models)模型進行群體行為識別.并利用該方法在BEHAVE數(shù)據(jù)集上進行實驗,識別結(jié)果正確率在93%以上.
〔1〕Tanaya,G,Rabab K W.Learning Sparse Representations for Human Action Recognition[J]. Pattern Analysis&Machine Intelligence IEEE Transactions on,2012,34(8):1576-1588.
〔2〕Zhou Y,Ni B,Yan S,et al.Recognizing pair-activitiesbycausalityanalysis.[J].Acm Transactions on Intelligent Systems&Technology,2011,2(1):389-396.
〔3〕Amer M R,Todorovic S.A chains model for localizingparticipantsofgroupactivitiesin videos[C]//IEEE International Conference on ComputerVision.IEEEComputerSociety,2011:786-793.
〔4〕Cheng Z.L,Qin,Q,Huang,S.J.group activity recognition by gaussian processes estimation.In Proceedings of IEEE International Conference onPatternRecognition,Istanbul,Turkey, 2010,pp.3228-3231.
〔5〕Ni B,Yan S,Kassim A.Recognizing human group activities with localized causalities.[C]// Proceedings/CVPR,IEEE Computer Society Conference on Computer Vision and Pattern Recognition.IEEE Computer Society Conference on Computer Vision and Pattern Recognition.2009:1470-1477.
〔6〕Sethi R J,Roy-Chowdhury A K.Individuals,groups,and crowds:Modelling complex,multi-objectbehaviourinphasespace.[C]// Computer Vision Workshops(ICCV Workshops),2011IEEEInternationalConference on.IEEE,2011:1502-1509.
〔7〕Granger C W J.Investigating Causal Relations byEconometricModelsandCross-Spectral Methods.[J].General Information,1969,37(37):424-38.
〔8〕BlunsdenS,F(xiàn)isherR.Thebehavevideo dataset:Ground truthed video for multi-person behavior classification[C]//In Proceddingsof TheBritishMachineVisionConference,Aberystwyth,UK,August 2010:1-12.
〔9〕Yin Y,Yang G,Xu J,et al.Small group human activity recognition[C]//Proceedings of International Conference on Image Processing. 2012:2709-2712.
〔10〕Zhang C,Yang X,Lin W,et al.Recognizing HumanGroupBehaviorswithMultigroup Causalities[C]//2012 IEEE/WIC/ACM International Conferences on Web Intelligence andIntelligentAgentTechnology.IEEE Computer Society,2012:44-48.
〔11〕Gaur U,Zhu Y,Song B,et al.A string of feature graphs model for recognition of complex activities in natural videos[C]//IEEE International Conference on Computer Vision. IEEE International Conference on Computer Vision.2011:2595-2602.
〔12〕Münch D,Michaelsen E,Arens M.Supporting Fuzzy Metric Temporal Logic Based Situation Recognition by Mean Shift Clustering [J].LectureNotesinComputerScience,2012,7526:233-236.
〔13〕Bei D M,Laferty J D.Correlated topic models[C].Advances in Neural Information ProcessingSystems18.Cambridge,MA:MIT Press,2006.
TP391
A
1673-260X(2016)04-0035-04
2015-12-29
國家自然科學基金項目(50808025)
王軍,講師,中南大學博士生,從事模式識別研究