范新南,薛瑞陽,史朋飛,李 敏,倪建軍
(河海大學物聯(lián)網(wǎng)工程學院,江蘇 常州 213022)
運動目標檢測指的是將運動目標從圖像序列中提取出來,是計算機視覺處理領(lǐng)域的重要一步,在目標追蹤、視頻監(jiān)控、異常行為分析等領(lǐng)域有著廣泛的應用[1]。目前,常用的目標檢測算法有:基于差分的方法、基于光流場的方法以及基于多特征融合的方法。
基于差分的方法[2-4]主要是指背景差分法和幀間差分法,這一類方法通過觀察當前幀相對于背景模型或相鄰幀發(fā)生變化的像素點,從而檢測出運動目標。這一類方法計算速度快,對靜態(tài)背景下的運動目標檢測具有較好的檢測效果,但對光照變化與背景噪聲點十分敏感,而且它僅考慮了像素點在時間域上的變化,忽略了像素點的空間關(guān)系?;诠饬鲌鯷5-6]的方法是通過觀察各個像素點在相鄰幀中的空間位置變化,從而構(gòu)建出像素點的運動場。光流法不僅包含了運動目標信息,同時包含了關(guān)于運動場景的三維信息,但這種方法對光照變化非常敏感,而且引入平滑約束條件后的光流計算方法復雜度高,很難滿足運動目標檢測實時性的要求?;诙嗵卣魅诤系姆椒╗7-9]是通過提取圖像在時空域上的紋理、顏色、亮度等特征,使用特征匹配的方法實現(xiàn)運動目標檢測。這一類方法針對不同的動態(tài)背景的干擾使用不同的特征進行融合,可以獲得較好的檢測結(jié)果。
本文在基于非負矩陣分解(NMF)的背景恢復算法[10]的基礎(chǔ)上,提出一種改進的非負矩陣分解背景恢復算法;同時針對自然場景中樹葉晃動等干擾提出使用核密度估計(KDE)進行前景區(qū)域檢測的方法,在檢測出的前景區(qū)域中,通過分析背景模型與當前幀像素點的相似性實現(xiàn)前景目標的檢測。
非負矩陣分解[11]指的是在矩陣中所有元素均為非負數(shù)約束條件之下的矩陣分解方法。對于一個給定的非負矩陣V∈Rn×m,NMF算法可以找到2個非負矩陣W∈Rn×r和H∈Rr×m,使得下式成立:
V≈W×H
(1)
式(1)可以理解為:對于原始矩陣V,其列向量可以看作是對矩陣W中所有的列向量進行加權(quán)求和的結(jié)果,而所使用的權(quán)重系數(shù)就是矩陣H中對應列向量的元素。因此,矩陣W也稱為基矩陣,它表示原始數(shù)據(jù)中隱藏的基本結(jié)構(gòu)信息。
相對于主成分分析(PCA)、矢量量化(VQ)等矩陣分解方法,NMF可以保證分解結(jié)果的非負性。在進行圖像處理時,圖像矩陣中的負值數(shù)據(jù)往往沒有實際意義,僅僅是一種數(shù)學計算的結(jié)果,而非負元素則可以解釋為圖像灰度值的變化情況,更加符合實際情況。
NMF求解過程可以看作是一個優(yōu)化過程[12],根據(jù)公式(1)可以構(gòu)造出噪聲矩陣E:
E=V-W×H
(2)
NMF的求解問題就可以轉(zhuǎn)換為尋找非負矩陣W和H,使得‖E‖最小,若以歐氏距離作為代價函數(shù),該問題就轉(zhuǎn)化為求解下式:
(3)
考慮到非負的約束條件,在使用梯度下降法進行求解時,需要采用乘性迭代規(guī)則對目標矩陣W和H進行迭代,最終得到如下的迭代規(guī)則[13]:
(4)
從式(4)可以看出,由于采用了乘性迭代,所以只要初始化的W與H矩陣是非負的,就可以保證迭代結(jié)果的非負性。
正如1.1節(jié)中所提到的,一個原始數(shù)據(jù)矩陣經(jīng)過非負矩陣分解后得到的基矩陣表示的是原始矩陣的基本結(jié)構(gòu)信息。而在連續(xù)的圖像序列中,背景區(qū)域基本保持不變,每一幀圖像都可以看作是由背景圖像疊加前景對象得到的,因此背景圖像可以看作是一個圖像序列的基本結(jié)構(gòu)信息?;谏鲜隼碚?,可以通過非負矩陣分解的方法從連續(xù)的圖像序列中恢復出背景圖像。
在進行背景恢復時,通常將第i幀原始圖像轉(zhuǎn)換成為列向量vi,由連續(xù)m幀構(gòu)成的m個列向量組成原始矩陣V=[v1,v2,…,vm],對V進行非負矩陣分解后得到的基矩陣W就是背景模型[10]??梢钥闯?,原始矩陣中包含的背景越純凈,恢復出來的背景模型越精確。但在實際情況中,由于有運動目標的信息與噪聲點的影響,雖然可以恢復出大致的背景圖像,但是會包含各種各樣的干擾點,這對后續(xù)的精確提取會造成很大的影響,因此提出了對原始數(shù)據(jù)矩陣進行“異常數(shù)據(jù)”修正的處理。這里所定義的“異常數(shù)據(jù)”是指對相同位置的像素點灰度值進行統(tǒng)計后的離群點,滿足下式:
gabnormal={g|g?(μ-kσ,μ+kσ)}
(5)
其中g(shù)abnormal為離群點集合,即“異常數(shù)據(jù)”,g為同一位置上所有像素點的灰度值集合,μ為g的均值,σ為其標準差,k為任意正整數(shù)。式(5)認為一組統(tǒng)計值中與均值偏差超過k倍的標準差的數(shù)據(jù)即為離群點。在連續(xù)圖像序列中,背景點通常分布在統(tǒng)計均值附近,而前景點則遠離均值成為離群點。對于檢測出來的離群點,可以使用g的眾數(shù)代替原始值進行修正。
在進行背景恢復時,對于由圖像序列組成的原始矩陣V,對其每一行的數(shù)據(jù)按照上述過程進行“異常數(shù)據(jù)”的判定與修正,得到修正后的矩陣V′,然后使用NMF算法進行對V′進行分解,得到基矩陣W,對W進行重構(gòu),使其與原始圖像大小一致,即可恢復出較為精準的背景圖像。
對修正前后的背景恢復算法進行對比,結(jié)果如圖1所示,主要對比區(qū)域為圖中矩形框區(qū)域。圖1(a)為CDNET數(shù)據(jù)集中highway測試視頻中的第421幀,圖1(b)為使用NMF進行背景恢復得到的結(jié)果,圖1(c)為修正后的背景恢復結(jié)果。圖1(d)上下2幅圖片分別為圖1(b)與圖1(c)中矩形的區(qū)域,可以看出,修正前的背景恢復圖像有明顯的“條狀”殘留,而修正的NMF恢復出來的背景更加純凈。按照下式可以計算恢復出的背景與原始背景間的均方誤差,可作為評價背景恢復效果的一個指標:
(6)
其中M與N代表圖像的分辨率,bij代表恢復出的背景中像素點(i,j)的灰度值,rij代表真實背景中像素點(i,j)的灰度值。通過計算得到圖1(b)與真實背景之間的均方誤差為321.3351,圖1(c)與真實背景之間的均方誤差為44.8123,這進一步說明了修正后的背景恢復更接近真實背景。
(a) 原始圖像 (b) NMF恢復結(jié)果
(c) 修正NMF恢復結(jié)果 (d) 區(qū)域?qū)Ρ葓D1 背景恢復結(jié)果
將背景恢復出來以后,可以通過計算背景與當前幀像素點之間的相似性來實現(xiàn)前景的提取,但由于樹葉晃動等干擾的存在,逐點判斷會產(chǎn)生較大誤差,而且會將大部分計算資源浪費在一些明顯具有背景特征的區(qū)域。如果先將運動區(qū)域提取出來,然后在這些區(qū)域進行精確提取,就可以避免上述問題的發(fā)生。
通過觀察運動目標與動態(tài)背景在空間的變化,可以發(fā)現(xiàn),在連續(xù)的圖像幀內(nèi),運動目標的空間位置會不斷變化,而動態(tài)背景,諸如樹葉擾動等干擾,其空間位置雖然會發(fā)生變化,但只發(fā)生在一個固定范圍的區(qū)域內(nèi),在這一區(qū)域內(nèi),像素點的總體特征不會發(fā)生較大的變化,這一特性可以用圖像塊內(nèi)像素點的統(tǒng)計特征的變化來表示。在一個固定大小為m×n的圖像塊內(nèi),如果有運動目標經(jīng)過,則該圖像塊的整體特征會發(fā)生較大的變化,否則不會有太大的變化,該變化過程可用核密度估計(KDE)的方法進行估計。這里使用高斯核作為KDE的核函數(shù)[14],其表達式為:
(7)
其中xt代表第t幀m×n大小的圖像塊內(nèi)所有像素的灰度統(tǒng)計特征,本文取塊內(nèi)像素的灰度均值,N代表連續(xù)圖像幀的幀數(shù),xi為第i幀圖像塊信息,σi代表核寬,使用相鄰幀間樣本的絕對差中位數(shù)計算[14]。式(7)利用t時刻前后相鄰N幀圖像塊的灰度均值作為采樣樣本,計算觀察到的第t幀各圖像塊灰度均值為xt的概率,KDE充分利用了圖像塊的歷史幀信息,通過對比其歷史幀信息與當前幀的信息,判斷其屬于前景的可能性。式(7)得到的值越小,代表該圖像塊屬于前景的可能性越小,反之代表其屬于前景的可能性越大。
前景區(qū)域提取的實驗結(jié)果如圖2所示,圖2為對圖1(a)進行前景區(qū)域提取的結(jié)果。圖2(a)為對圖像按照式(7)計算得到的結(jié)果,分塊大小為10×10,圖2(a)中各小方塊亮度大小代表該圖像塊屬于前景的概率的大小。由于進行了分塊,因此圖2(a)的分辨率是原始圖片的1/(10×10),實驗為了方便觀察,將圖2(a)進行了手動放大。對于圖2(a)中每個可能為前景的圖像塊,將其對應的原始圖像中的區(qū)域標記為前景區(qū)域,即可得到圖2(b)的前景區(qū)域提取結(jié)果。
(a) KDE結(jié)果圖 (b) 前景區(qū)域提取結(jié)果圖2 前景區(qū)域提取
這一方法通過對圖像分塊,使用塊內(nèi)像素灰度均值作為各個圖像塊的特征,弱化了動態(tài)背景像素點變化對檢測結(jié)果的影響,提取出了運動目標所在的大致區(qū)域。在后續(xù)步驟中,只需要在前景區(qū)域進行前景像素點的提取即可。
在進行前景像素點的精確提取時,只需要分析前景區(qū)域中待檢測幀的像素點與背景相應位置像素點的相似性即可。考慮到單個像素點包含的信息較少,無法實現(xiàn)較為準確的相似性分析,因此采用一個向量作為待檢測像素點的特征進行相似性分析[15]。以待檢測幀t為例,像素點(i,j)的特征可以使用由點(i,j)及其鄰域中的像素點組成的向量[ti-k,j-k,…,ti,j,…,ti+k,j+k]T表示,其中ti,j表示第t幀像素點(i,j)的灰度值。上式認為在進行前景像素點的判斷時,每個像素點與其鄰域中的像素點是相互影響的,充分利用了像素點在空間上的聯(lián)系,使得檢測結(jié)果更加精準。對于背景相同位置的像素點,使用同樣的思想構(gòu)造向量,并按照下式計算2個向量之間的相似性:
(8)
其中D代表像素點(i,j)的k鄰域,Tij表示第t幀像素點(i,j)的向量,Bij表示相應的背景向量。對于公式(8)計算得到的值,如果大于指定閾值Th,則認為當前像素點是前景像素點,否則認為是背景像素點,閾值的選取與當前幀所有像素點的相似性相關(guān)。通過計算圖2(b)的前景區(qū)域與圖1(c)恢復出的背景之間的相似性,可以得到如圖3所示的統(tǒng)計結(jié)果。
圖3 相似性統(tǒng)計直方圖
圖3橫坐標為前景區(qū)域中所有像素點與相應的背景像素點之間的相似性,縱坐標為相應的統(tǒng)計頻數(shù)。從圖中可以看出,相似性較低的點(即前景點)較多,而相似性比較高的點(即背景點)則較少,這是因為計算區(qū)域是提取出來的前景區(qū)域,該區(qū)域中前景占較大比例。上文提到的閾值Th選取直方圖中頻數(shù)變化趨于平緩的“轉(zhuǎn)折點”,如圖3中橫坐標為25左右的點。經(jīng)過反復實驗驗證,閾值符合下式:
(9)
其中α為0.05~0.1之間的任意實數(shù),F(xiàn)為前景區(qū)域。式(9)說明前景像素提取的閾值可以選取為當前幀所有像素點相似性最大值的α倍。
為了驗證算法的有效性,本文使用3段測試視頻進行了前景提取實驗,同時與GMM算法和滑動窗NMF算法[10]進行了對比,實驗所使用的測試數(shù)據(jù)集為Intelligent_Room(IR),CDNET中的highway和pedestrians。實驗中使用連續(xù)的40幀圖像,式(5)中“異常點”判定時k取1,前景區(qū)域提取階段的圖像分塊大小取10×10,前景像素點提取階段向量的構(gòu)造選取像素點的8鄰域構(gòu)造向量。
實驗結(jié)果如圖4所示,圖4中第一行與第二行主要考察室外前景檢測,第一行的highway數(shù)據(jù)集中有樹葉擾動,第二行測試數(shù)據(jù)集pedestrians中行人由陰影區(qū)進入光照區(qū),并且部分背景區(qū)域有微弱的光照變化。第三行考察室內(nèi)的前景檢測,在測試集IR中,運動目標處于室內(nèi),且光照發(fā)生了變化。
(a) 原始幀 (b) GMM檢測結(jié)果 (c) 滑動窗NMF檢測結(jié)果 (d) 本文方法圖4 實驗結(jié)果對比
從圖4的結(jié)果中可以看出GMM算法的檢測結(jié)果有精準的目標輪廓,但運動目標內(nèi)部會出現(xiàn)大量的“空洞”,并且GMM模型對噪聲的抑制能力有限,在highway數(shù)據(jù)集中,由于出現(xiàn)較為強烈的背景擾動,GMM檢測出來的結(jié)果包含了大量的背景噪聲干擾點。而文獻[10]中提出的NMF與幀差法結(jié)合的提取算法則強烈依賴于背景恢復的精確程度,由于原始NMF恢復出的背景包含前景殘留,因此導致檢測結(jié)果會有明顯的“拖影”現(xiàn)象,當運動目標運動速度較慢時,這種現(xiàn)象會更加明顯,如pedestrians數(shù)據(jù)集的提取結(jié)果,而且由于采用了幀差法,所以如果光照發(fā)生變化,就會導致出現(xiàn)圖4中IR數(shù)據(jù)集提取結(jié)果中的大面積誤檢現(xiàn)象。同時,由于GMM算法、NMF結(jié)合幀差法這2種算法均是基于像素點的逐點檢測方法,因此在前2個數(shù)據(jù)集中,背景的擾動會導致檢測結(jié)果出現(xiàn)大量的干擾點。而本文中所提到的方法由于對NMF背景恢復算法進行了修正,恢復出來的背景更加精準,同時先對前景區(qū)域進行了提取,因此提取到的運動目標更加完整,同時背景干擾點也更少。為了進一步說明本文算法的有效性,此處使用前景識別率(Re)、精確度(Pre)和綜合測度(F-measure)這3個指標對IR數(shù)據(jù)集的測試結(jié)果進行分析,指標計算公式如下[16]:
(10)
(11)
(12)
其中TP與TN分別為正確檢測的前景與背景像素點數(shù),F(xiàn)P為誤判為前景的像素點數(shù),F(xiàn)N為誤判為背景的像素點數(shù)。結(jié)果如表1所示,可以看出,本文中的算法在各個指標上均有良好的表現(xiàn),優(yōu)于GMM與滑動窗口NMF算法。
表1 算法性能對比
算法指標GMM滑動窗NMF本文算法Re0.25280.57940.7758Pre0.72570.26300.9441F0.37500.36180.8517
本文提出了一種運動目標檢測算法。首先使用改進的NMF背景恢復算法對背景進行恢復,然后通過KDE估計出運動目標區(qū)域,最后使用相似性分析判斷像素點是否屬于前景。實驗結(jié)果表明,改進的NMF背景恢復算法可以較為有效地恢復出背景,基于KDE的前景區(qū)域提取可以有效抑制空間位置變化不大的背景干擾,本文提出的算法適應大部分自然場景的運動目標檢測。但該算法在進行前景區(qū)域提取時依賴于分塊大小,因此,在后續(xù)的研究中,將主要研究如何確定合適的分塊大小,或者根據(jù)圖像內(nèi)容實現(xiàn)自適應的分塊。
參考文獻:
[1] 馬超,沈微,董景峰. 復雜背景中一種特定運動目標檢測與跟蹤方法[J]. 計算機工程, 2015,41(5):219-223.
[2] Yoshinaga S, Shimada A, Nagahara H, et al. Object detection based on spatiotemporal background models[J]. Computer Vision and Image Understanding, 2014,122:84-91.
[3] Liu Wei, Yu Hongfei, Yuan Huai, et al. Effective background modelling and subtraction approach for moving object detection[J]. IET Computer Vision, 2015,9(1):13-24.
[4] 吳劍舞,翁玲瑜,童懷. 一種基于改進ViBe的運動目標檢測方法[J]. 計算機與現(xiàn)代化, 2015(7):50-54.
[5] Hariyono J, Hoang V D, Jo K H. Moving object localization using optical flow for pedestrian detection from a moving vehicle[J]. The Scientific World Journal, 2014-07-10, doi: 10.1155/2014/196415.
[6] 高軍軍,王創(chuàng)新. 基于時空結(jié)構(gòu)張量的高速公路視頻車輛檢測[J]. 計算機與現(xiàn)代化, 2011(2):5-7.
[7] 王順飛,閆鈞華,王志剛. 改進的基于局部聯(lián)合特征的運動目標檢測方法[J]. 儀器儀表學報, 2015,36(10):2241-2248.
[8] 秦利斌,劉純平,王朝暉,等. 一種改進的時空線索的視頻顯著目標檢測方法[J]. 計算機工程與應用, 2015,51(16):161-165.
[9] Wang Xin, Ning Chen, Xu Lizhong. Spatiotemporal saliency model for small moving object detection in infrared videos[J]. Infrared Physics & Technology, 2015,69:111-117.
[10] 祝加祥,胡鵬程,何璇,等. 基于滑動窗非負矩陣分解的運動目標檢測方法[J]. 計算機技術(shù)與發(fā)展, 2017,27(1):20-24.
[11] Yang Shangming, Yi Zhang, Ye Mao, et al. Convergence analysis of graph regularized non-negative matrix factorization[J]. IEEE Transactions on Knowledge and Data Engineering, 2014,26(9):2151-2165.
[12] Lee D D, Seung H S. Algorithms for non-negative matrix factorization[C]// Proceedings of the 13th International Conference on Neural Information Processing Systems. 2000:535-541.
[13] 毛翊君,趙知勁,尚俊娜. 不同學習速率下NMF盲源分離算法[J]. Hans Journal of Wireless Communications, 2015,5(5):91-97.
[14] Elgammal A, Harwood D, Davis L. Non-parametric model for background subtraction[C]// Proceedings of the 2000 European Conference on Computer Vision. 2000:751-767.
[15] Subudhi B N, Ghosh S, Ghosh A. Change detection for moving object segmentation with robust background construction under Wronskian framework[J]. Machine Vision and Applications, 2013,24(4):795-809.
[16] Zhang Erhu, Li Y C, Duan J H. Moving object detection based on confidence factor and CSLBP features[J]. Journal of Photographic Science, 2016,64(5):253-261.