劉 龍 孫 強 宋琦軍
?
面向目標檢測的多尺度運動注意力融合算法研究
劉 龍*①孫 強①宋琦軍②
①(西安理工大學(xué)自動化學(xué)院 西安 710048)②(北京郵電大學(xué)信息與通信工程學(xué)院 北京 100876)
運動目標檢測是視頻分析領(lǐng)域的關(guān)鍵技術(shù)之一,針對目前全局運動場景下目標檢測算法的局限性,該文提出一種多尺度運動注意力融合的目標檢測算法,為目標檢測問題提供了新思路。該算法通過時-空濾波去除運動矢量場噪聲,根據(jù)運動注意力形成機理定義運動注意力模型;為提高注意力計算的準確性,定義了目標像素塊的測度公式,采用D-S證據(jù)理論對多尺度空間運動注意力進行決策融合,最終獲取運動目標區(qū)域位置。多個不同高清視頻序列的測試結(jié)果表明,該文算法在全局運動場景中能準確對目標進行檢測定位,從而有效克服了現(xiàn)有算法的局限性。
目標檢測;運動注意力;融合;全局運動場景
運動目標檢測非常具有實用價值,它是視覺目標識別、目標行為理解、視頻內(nèi)容分析等技術(shù)的必要環(huán)節(jié),同時在社會和軍事領(lǐng)域有著廣泛的應(yīng)用,因此成為視頻處理領(lǐng)域研究的熱點問題之一。
運動目標檢測按照鏡頭靜止和運動兩種情況可分為局部運動場景檢測和全局運動場景檢測。局部運動場景的運動目標檢測方法有背景差分法和幀間差分法[1]等。對于全局運動場景,采用的主要方法是全局運動補償策略[2,3],全局運動估計的準確性要受目標大小和運動強度的影響,當目標所占圖像面積較大或運動較強烈時,場景內(nèi)運動信息受目標影響較大,使全局運動估算的準確性下降,大大限制了全局運動估計補償策略的目標檢測適用范圍。
2002年,文獻[4]提出了注意力區(qū)域的概念,并建立了視覺注意力模型,之后衍生出各種視覺注意力計算方法及應(yīng)用。文獻[5]提出了一個新的視覺計算模型,該模型為了檢測場景中的人造目標將自上而下和自下而上的機制結(jié)合起來,可以在自然場景中確定顯著對象的位置。文獻[6]提出的一個基于粒子濾波器的新穎的視覺注意力模型,具有獨立高級過程的精簡模型,是一個使自上而下的注意機制和自下而上的過程自然結(jié)合的單一模型。
目前,有少量研究涉及了采用運動注意力模型應(yīng)用于視頻檢索、目標檢測等問題。文獻[7]根據(jù)從MPEG碼流中解壓所得到的運動矢量場的運動矢量能量、空間相關(guān)性和時間相關(guān)性綜合定義了運動注意力模型,通過該模型可以得到運動顯著性區(qū)域,應(yīng)用于視頻檢索。文獻[8]將注意力分為靜態(tài)注意力和動態(tài)注意力兩種,靜態(tài)注意力主要由圖像的亮度、顏色等信息引起,動態(tài)注意力是在全局運動補償?shù)幕A(chǔ)上計算區(qū)域的變化像素的比例進行定義的,注意力模型最終由靜態(tài)注意力和動態(tài)注意力融合得到主要應(yīng)用于運動目標檢測。
上述有關(guān)運動注意力的研究工作還存在以下問題:(1)由于光流估算本身缺陷以及噪聲影響,運動估計不夠準確,造成注意力計算不準確;(2)在文獻[7]中,運動注意力模型構(gòu)建采用了熵的概念,從統(tǒng)計特性上反映運動反差,但未考慮到運動矢量局部時-空分布的反差,與注意力形成機理不符;(3)文獻[8]中的方法依然需要全局運動補償作為目標檢測的基礎(chǔ),受到全局運動補償缺陷的限制。
基于上述考慮,本文提出一種基于多尺度運動注意力融合算法,該方法避免了全局運動估計,克服了當前運動注意力計算方法的不足,為全局運動場景下的目標檢測問題提供了新思路。
在視頻場景中,根據(jù)運動反差構(gòu)建合理的運動注意力模型,從而有利于目標檢測。
在時間維度上,鄰域內(nèi)定義運動矢量差值描述時間注意力因子,定義的時間注意力因子為
運動注意力由時間注意力與空間注意力兩方面的融合構(gòu)成,定義運動注意力模型為時間和空間注意力因子的線性融合模型,其公式為
如式(6)所示,線性運算具備了簡潔和高效的模型構(gòu)成,但從時間和空間對注意力影響的角度看,其不足以合理反映出時間與空間注意力的影響對比的變化,時間和空間注意力在不同時刻對注意力的影響偏重是不同的,這取決于這兩方面運動反差大小的變化,因此在運動注意力模型中,應(yīng)加入對注意力的影響力變化的部分,這樣才能真正有效反映客觀變化,借鑒文獻[8]中的對靜態(tài)和動態(tài)注意力融合的模型定義時-空運動注意力融合,其公式為
鑒于視覺觀測對空間尺度的依賴性,本節(jié)討論在上述運動注意力計算的基礎(chǔ)上,通過D-S (Dempster-Shafer)證據(jù)理論對多個尺度空間的運動注意力進行融合,以此提高注意力計算的準確性,并最終獲取目標區(qū)域的方法。
根據(jù)上述分析,在圖像某個方向上的方向?qū)?shù)越接近于梯度值,則其估計結(jié)果越真實可靠,可信度越高,因此可采用方向?qū)?shù)衡量光流估算得到的運動矢量可信度。設(shè)圖像亮度分布的方向?qū)?shù)(directional derivative)為
由于視覺對觀測尺度具有依賴性,對多個尺度空間的運動注意力進行融合使注意力顯著圖逼近真實,突出鏡頭與目標之間形成的運動反差,為獲取目標區(qū)域創(chuàng)造條件。
3.2.1定義置信函數(shù) 采用D-S證據(jù)理論的辨識框架,將目標像素塊的測度值作為證據(jù)體,采用雙向指數(shù)函數(shù)來構(gòu)造概率信任函數(shù)(Bel)。
定義目標像素塊的測度函數(shù)為
目標像素塊的Bel函數(shù)需要服從的原則為:
圖1 運動矢量的信任度計算
根據(jù)上述原則,本文采用雙向指數(shù)函數(shù)來構(gòu)造目標像素塊的基本置信函數(shù),具體定義如下:
對上述的Bel函數(shù)進行歸一化處理,以滿足對mass函數(shù)的定義。
3.2.2決策融合 在空間維度上采用Haar小波基來構(gòu)造濾波器進行多分辨率分解,并在不同尺度低頻空間中進行運動估計,得到不同尺度下的運動矢量場,根據(jù)式(12)、式(13)和式(14)計算每個尺度的置信函數(shù)值。
表1 GMC-VA方法的參數(shù)配置
表2 MSMAF方法的參數(shù)配置
圖2空間多尺度運動注意力融合
從圖3所顯示的測試結(jié)果顯示GMC算法、GMC-VA算法在全局運動場景對運動目標的檢測結(jié)果都不如MSMAF算法效果好,MA算法對運動注意力的計算結(jié)果不能準確反映場景中的真實運動顯著性特征。在全局運動強烈,或背景復(fù)雜時,GMC算法很難有效保留目標剔除背景,但在鏡頭運動緩慢,目標劇烈運動時,GMC算法通過設(shè)定閾值可以取得一定的目標檢測效果;在同等條件下,GMA-VA算法融合了全局運動補償和靜態(tài)注意力,相對GMC算法有更好的效果,但是對于運動目標的檢測在有些情況下效果較差,不能準確定位目標區(qū)域;MA算法不能正確計算全局運動場景的運動顯著性,顯然不適于檢測運動目標。上述算法主要受到以下兩方面因素的影響:(1)全局運動估計不準確導(dǎo)致目標檢測效果不理想;(2)噪聲干擾和光流估算的導(dǎo)致錯誤的運動注意力計算不準確。實驗結(jié)果顯示,本文提出的MSMAF算法通過對運動注意力模型的合理定義以及空間多尺度的融合,能夠較準確地獲取全局運動場景中的運動目標區(qū)域,具有更好測試效果。另外,從表3中看出,在算法的運行效率方面,MSMAF算法具有比同類算法較少的時間損耗。
圖3實驗結(jié)果
表3計算時間對比(s/次)
序列平均每次消耗時間 GMCMAGMC-VAMSMAF 蜂鳥-1143.9685.68161.37123.46 蜂鳥-2150.8491.88160.91112.58 豹子140.1285.87168.78126.75 飛行器148.4985.36159.90118.27 馬160.7886.29157.60116.59 女孩139.9084.02156.77108.42 游船150.8083.88159.53109.87 斗牛士142.7386.41158.28112.40
本文針對目前全局運動場景下目標檢測算法的局限性,提出一種多尺度運動注意力融合的目標檢測算法,為目標檢測問題提供了有價值的新思路。本文算法根據(jù)運動注意力形成機理定義了運動注意力模型,并通過D-S證據(jù)理論融合多尺度空間運動注意力,最終獲取目標區(qū)域。本文算法不僅突破了傳統(tǒng)算法的局限,而且實驗結(jié)果顯示其在全局運動場景下對運動目標的檢測具有魯棒性高、適用范圍廣等優(yōu)勢。
[1] Stauffer C and Grimson W E L. Adaptive background mixture models for real-time tracking[C]. Proceedings IEEE Computer Society Conference on Computer Vision and Pattern Recognition, Fort Collins , America 1999, 2: 246-252.
[2] Qi Bin, Ghazal Mohammed, and Amer Aishy. Robust global motion estimation oriented to video object segmentation[J]., 2008, 17(6): 958-967.
[3] Chen Yue-meng. A joint approach to global motion estimation and motion segmentation from a coarsely sampled motion vector field[J]., 2011, 21(9): 1316-1328.
[4] Itti L and Koch C. Computational modeling of visual attention[J]., 2001, 2(3): 193-203.
[5] Fang Yu-ming, Lin Wei-si, Lau Chiew Tong,.. A visual attention model combining top-down and bottom-up mechanisms for salient object detection[C]. Proceedings IEEE International Conference on Acoustics, Speech and Signal Processing, Prague, Czech Republic, 2011: 1293-1296.
[6] Ozkei Motoyuki, Kashiwagi Yasuhiro, Inoue Mariko,.. Top-down visual attention control based on a particle filter for human-interactive robots[C]. Proceedings International Conference on Human System Interactions, Yokohama, Japan, 2011: 188-194.
[7] Ma Yu-Fei, Hua Xian-Sheng, and Lu Lie. A generic framework of user attention model and its application in video summarization[J]., 2005, 7(5): 907-919.
[8] Han Jun-wei. Object segmentation from consumer video: a unified framework based on visual attention[J]., 2009, 55(3): 1597-1605.
[9] Verri A and Pggio T. Motion field and optical flow: qualitative Properties[J]., 1989, 11(5): 490-498.
劉 龍: 男,1976年生,博士,副教授,研究方向為智能信息技術(shù)與嵌入式系統(tǒng).
孫 強: 男,1979年生,博士,副教授,研究方向為圖像處理.
宋琦軍: 男,1978年生,博士,教授,研究方向為通信信號處理.
Research on Multi-scale Motion Attention Fusion Algorithm for Video Target Detection
Liu Long①Sun Qiang①Song Qi-jun②
①(,’,’710048,)②(,,100876,)
The detection to target in motion is a key technology in video analysis. This paper proposes a target detection algorithm based on a multi-scale motion attention analysis, which provides a new method for motion target detection under a global motion scene. Firstly, the noise of motion vector field is removed by filter, and according to the mechanism of visual attention, spatial-temporal motion attention model is built; then the trust degree of motion vector is suggested on the basis of validity analysis of motion vector, and decision fusion of multi-scale motion attention is accomplished by D-S theory for detecting the region of motion target. The test results of different videos show that the algorithm is able to detect precisely targets under a global motion scene, thus effectively overcoming the limitations of the traditional algorithms.
Target detection; Motion attention; Fusion; Global motion scene
TP391
A
1009-5896(2014)05-1133-06
10.3724/SP.J.1146.2013.00477
劉龍 Liulong@xaut.edu.cn
2013-04-11收到,2014-01-10改回
國家自然科學(xué)基金(61001140),陜西省教育廳產(chǎn)業(yè)化培育項目(2012JC19)和西安市技術(shù)轉(zhuǎn)移促進工程重大項目(CX12166)資助課題