王 旭,劉 毅,李國燕
(天津城建大學 計算機與信息工程學院,天津 300384)
E-mail :wangx_0@sian.com
隨著計算機圖像處理技術的快速發(fā)展,運動目標跟蹤算法研究已經成為國內外學者研究的熱點[1,2].并在軍事國防、安防監(jiān)控、人機交互等領域都有著廣泛應用[3].
目前較為主流的目標跟蹤算法一般包括機器學習類[4,5]算法和基于傳統圖像處理類算法[6]等,深度學習運動目標跟蹤算法在檢測準確率上占有較大優(yōu)勢.Danelljan等[7]提出C-COT算法,為了應對不同卷積層分辨率不同的問題,進行連續(xù)空間域插值轉換操作,在訓練之前通過頻域隱式插值將特征圖插值到連續(xù)空域,方便集成多分辨率特征圖,從而保持定位的高精度,但由于神經網絡訓練較為復雜,計算效率低,因此檢測實時性較差.
傳統基于相關濾波方法的運動目標跟蹤具有速度快、精確度高等特點,非常適合嵌入到中小型設備中進行計算.Henriques等[8]提出的KCF算法通過使用方向梯度直方圖并結合核函數進行加速,在速度和精度上較傳統相關濾波方法均有所提高.
但基于相關濾波方法的運動目標跟蹤算法仍面臨一些問題.如當運動目標發(fā)生較大形變時難以對其尺度進行有效估計,或運動中出現短暫遮擋、干擾等情況時,算法容易丟失當前跟蹤目標.
本文提出采用改進后的灰度方向直方圖fHOG特征結合顏色特征對目標進行特征融合采樣,提高模型表達能力;針對遮擋丟失等問題,提出通過運動方向場結合區(qū)域響應程度對目標狀態(tài)進行評估,調整模型更新機制并在運動慣性下對短暫消失后的目標嘗試找回;最后引入自適應尺度因子對目標尺度進行分析,提高算法適應能力.
在運動目標跟蹤算法研究中,一般通過對給定的樣本進行特征學習來構建一個相關濾波器h,在檢測過程中將待測區(qū)域中的候選信號f與濾波器h進行卷積運算:
g=f*h
(1)
得到候選區(qū)域的相關響應g,由于濾波器h是由給定目標的特征學習得到,因此被跟蹤的目標位置區(qū)域得到響應輸出g應服從二維高斯分布.
通過循環(huán)位移策略對被跟蹤目標選取進行密集采樣,訓練出相關濾波器h將具有更好性能.且采樣過程可以根據循環(huán)矩陣原理變換到信號的頻域進行快速計算,通過離散傅里葉變換進行對角化:
(2)
核函數方法是一種強大的計算以及優(yōu)化策略,它從理論上提供了一個從線性到非線性的連接以及對于高維空間中向量內積運算可以被轉化到低維空間中進行計算.
相關濾波算法中常用高斯核函數:
(3)
在相關濾波算法(KCF)中,利用當前目標位置的特征信息構建相關濾波器h,由循環(huán)位移策略得到大量樣本xi,并通過脊回歸方法建立目標函數:
f(xi)=wTφ(xi)
(4)
(5)
式中φ(xi)為樣本xi的高維非線性變換,w為分類器的相關參數,yi為樣本標簽,λ為目標損失函數中的正則化懲罰項參數.通過最小二乘法對上式進行優(yōu)化,導數為0時w的約束條件為:
w=(XHX+λI)-1XHy
(6)
式中X為樣本x特征所構造的循環(huán)矩陣,將上述相關公式進行帶入后得:
(7)
(8)
引入核函數策略后,由于w是可以通過φ(xi)的線型組合來表示,給定濾波器系數為α,則w可表示為:
(9)
將目標函數中的w進行替換后,優(yōu)化問題即轉換為對濾波器系數α的求解,此時引入核函數策略,利用核函數
K(x,x′)=<φ(x),φ(x′)>
(10)
來處理高維空間中向量點積運算,大幅降低計算復雜度.此時對α的求解轉換為
α=(K+λI)-1y
(11)
式中α為w的參數矩陣,K為核矩陣,且由于循環(huán)矩陣的性質得
(12)
(13)
(14)
式中σ為核函數參數,*表示為復頻域共軛,F-1表示離散傅里葉逆變換.
當分類器訓練完成后,將新一幀圖像的區(qū)域特征z作為輸入來描述其對應的相關響應,并進行離散傅里葉變換后可以得到:
(15)
在計算過程中,對待測區(qū)域的相關濾波響應值進行分析,得到響應最大區(qū)域即為被跟蹤目標的新位置.
目前目標跟蹤算法中使用的主要特征包括:灰度特征、顏色特征、紋理特征以及形狀特征等.這些特征從不同角度對圖像的一些信息進行量化與描述,產生特征算子的表達能力各有側重.
傳統相關濾波算法多采用圖像的方向梯度直方圖(HOG)特征,雖然這種特征能較好應對圖像對于光照和顏色的變化,具有一定魯棒性,但是當目標發(fā)生形變時該特征的表達能力有所下降,難以保證算法性能.
本文考慮采用fHOG特征和顏色特征的圖像特征融合策略,增強對被跟蹤區(qū)域的信息表達能力.
fHOG特征在基于HOG特征原理的基礎上去除了其Block策略并加入梯度方向敏感性分析,并通過相應行列累加對特征維度進行優(yōu)化.具體步驟如下:
1)圖像預處理時采用Gamma校正等方法對輸入圖像進行顏色空間中的歸一化操作并進行去噪聲處理,以減少無關因素造成干擾.
2)計算像素點梯度值,圖像中像素點的水平和豎直梯度可以通過梯度算子卷積進行求解,水平方向使用[-1,0,1]的梯度算子,豎直方向為[-1,0,1]T的梯度算子,得到兩個方向上的梯度分量可表示為
Gx(x,y)=H(x+1,y)-H(x-1,y)
(16)
Gy(x,y)=H(x,y+1)-H(x,y-1)
(17)
通過水平和豎直方向上的梯度分量求得像素點的梯度值大小和方向為
(18)
(19)
式中G(x,y)為像素點的梯度值大小,α(x,y)為像素點的梯度方向.
3)梯度特征映射構建直方圖,HOG特征采用無符號映射策略,在得到直方圖后將多個單元Cell合并為一個計算塊Block,并對Block進行歸一化截斷處理.在fHOG特征提取過程中,去除了將多個Cell合成Block的操作.fHOG特征提取方法中的31維特征可以理解為有符號18維方向梯度特征與無符號9維方向梯度特征結合圖像單元Cell與其所在鄰域單元的梯度能量分析.
fHOG特征能較好表達圖像區(qū)域的紋理信息,但是由于其對物體形變能力的適應性較低,本文考慮引入圖像的顏色特征進行特征融合,在被跟蹤目標發(fā)生一定變化時仍能保證收集其有效信息進行追蹤.
對于在顏色特征提取方法,不同顏色空間中的描述方法不同.與RGB顏色空間和HSV顏色空間的描述方法類似,CN顏色空間對常用顏色進行了差異化的分類,可以認為是將RGB顏色空間映射為一個具有11個通道的圖像顏色空間模型中.CN顏色空間的通道一般分為:紅、黃、藍、綠、橙、粉、紫、棕、黑、白、灰.這種操作雖然能使圖像的顏色表達更加豐富,但是對計算量的要求較高,且大多數圖像在顏色空間中的各通道中一般成極不均勻分布,因此對這種顏色特征數據進行PCA降維后,得到2或3個主要成分仍然保證圖像顏色信息的完整性.本文采用對CN顏色特征進行主成分分析后降低至2維度的特征方法進行特征提取.
在目標跟蹤過程中,由于視頻序列場景中可能出現一些環(huán)境變化或目標遮擋變形等情況.傳統相關濾波跟蹤算法運行過程中,受到上述干擾時,圖像特征的相關響應水平降低,此時計算當前序列中目標位置不可靠風險較大.因此本文提出采用一種結合響應閾值判別與方向場的策略對存在丟失風險的目標嘗試找回.
算法模型進行更新時,傳統相關濾波算法一般采用線性差值的方法對濾波器各參數進行更新
(20)
(21)
式中η為算法的更新速率,i為當前序列索引.由于目標遮擋等情況的發(fā)生,一旦相關響應程度較低即當前目標位置不確定性較大、跟蹤處于高風險狀態(tài)時,此時仍對相關區(qū)域進行更新會造成遮擋物信息對被跟蹤目標的特征模型與濾波器參數造成一定污染,使跟蹤選框產生漂移,造成在遮擋結束時容易丟失被跟蹤的目標.
此處引入被跟蹤目標的響應因子,通過分析當前區(qū)域進行相關響應后的響應圖譜,對當前目標跟蹤狀態(tài)進行估計.一般情況下,選定區(qū)域越靠近真實跟蹤目標時,跟蹤精度較高,此時相關響應峰值比較尖銳.如果出現響應結果成平滑的多峰分布或波動較為明顯時,目標位置的跟蹤可信度較低.本文通過最大響應與峰值能量結合的方式對跟蹤目標的狀態(tài)進行分析,構建描述被跟蹤目標的丟失可能性大小的目標響應因子.
(22)
式中Pi為第i幀序列中目標區(qū)域的響應因子,max(f(xi))為相關濾波響應圖譜中的峰值,μi和σi分別表示響應均值與標準差.
當響應因子大于給定閾值時,此時目標的跟蹤狀態(tài)較好,應對外觀模型進行相應更新.響應因子小于給定閾值時應暫停對外觀模型的更新以免將干擾因素更新到模型中去.
(23)
式中ηi為第i幀視頻序列更新率,δ為給定更新速率,T為響應閾值.
在一般情況下,當運動目標發(fā)生遮擋時,其運動的方向和趨勢在相鄰幀中的變化幅度相對較小.本文考慮為跟蹤目標引入能描述其運動方向和趨勢的方向場參數,并通過目標未發(fā)生遮擋或嚴重形變時的位置信息對其方向場直方圖進行更新,方便目標找回.
Di={d1,d2,…,d8}
(24)
式中Di為被跟蹤目標在第i幀時的方向場,d1,d2,…,d8為該目標當前時刻各方向的運動趨勢,原理參考前文fHOG特征直方圖映射時對像素梯度的計算,方向場采用相關響應滿足閾值條件下的相鄰序列圖像中目標位置的差分計算運動方向與趨勢大小并構建方向特征.
方向場策略通過對目標位置坐標變化的分析和計算,估算被跟蹤目標的運動方向與運動趨勢.當目標跟蹤過程中響應因子高于閾值時,則在調整模型更新速率的同時,對最近一幀正常跟蹤目標位置通過方向場信息進行延伸,并對其鄰域范圍進行有側重的采樣工作,使被跟蹤目標遭遇嚴重形變、遮擋等情況后也能在干擾結束后嘗試將其找回.
在傳統相關濾波跟蹤算法中,采樣選框的大小是固定不變的,即在視頻序列的跟蹤過程中,算法一直采用同樣尺寸的選框對圖像特征進行提取.固定選區(qū)策略的局限性在于一旦被跟蹤目標發(fā)生尺度變化,算法準確性將受到很大影響.如果目標的尺度減小,則選框中收集到的特征信息混入了周邊負樣本區(qū)域的噪聲,影響相關濾波器參數的更新;如果目標的尺度增大,則當前選框所收集到的特征信息不足以描述被跟蹤目標的全部特性,此時超出選框的正樣本特征信息會被劃分為負樣本信息并對濾波器參數進行更新,造成跟蹤過程極不穩(wěn)定.
本文通過先對被跟蹤目標的丟失概率進行分析,在被跟蹤目標的特征信息與濾波器響應后,被跟蹤目標響應因子較高時,其位置可靠性較高,此時對選區(qū)進行自適應尺度估計,防止目標發(fā)生較大形變或被遮擋對目標的跟蹤尺度造成影響.
本文采用等差步長的方法定義尺度范圍,第i幀序列的尺度變化因子為:
scalesi=1+am,m=-N,-N+1,…,0,1,…,N-1,N
(25)
式中a為變化步長,取值在0到1之間,當m<0時,scalesi<1此時算法對選定區(qū)域按照比例進行縮減并重新采樣;當m>0時,scalesi>1此時算法對選定區(qū)域按照比例進行放大.當目標沒有處于形變和遮擋狀態(tài)時,按照步長對縮放后的區(qū)域重新采樣,并與相關濾波器進行響應,計算出取得最大響時的尺度因子scalesi并對目標選區(qū)尺度做出相應調整.
為了更好對比算法性能,本研究采用OTB-50上的數據集進行仿真[9],實驗環(huán)境為CPU為Intel Core i5,內存為8G,操作系統為WIN7旗艦版,算法仿真通過MATLAB程序實現.本文通過定性與定量兩個方面對算法性能進行測試,在對傳統KCF算法進行仿真和優(yōu)化改進的同時也選取了其他比較具有代表性的目標跟蹤算法進行對比.選擇的對比算法有跟蹤學習檢測算法Tracking-Learning-Detection(TLD)[10]、壓縮跟蹤算法(CT)[11]、以及相關濾波CSK算法[12].
在仿真實驗中,本文通過不同灰度的選框標識出各算法當前序列所跟蹤到的目標位置,其中用0灰度選框區(qū)域表示CSK算法結果、64灰度選框區(qū)域表示CT算法結果、128灰度選框區(qū)域表示TLD算法結果、192灰度選框表示相關濾波算法KCF結果、255灰度選框區(qū)域表示經過本文優(yōu)化改進后的相關濾波算法(在后文圖中用Ours表示)結果.
圖1為在視頻序列basketball中的部分跟蹤結果.該序列環(huán)境變化比較復雜,背景與跟蹤目標的顏色或紋理特征比較接近,且視頻序列涉及光照變化、目標遮擋和目標旋轉形變等多種因素影響.當環(huán)境紋理較為復雜時,TLD算法作為一種通過分析光流變化對目標進行識別跟蹤的算法,在復雜條件下光流信息和相應特征的復雜程度較高,且目標運動過程中出現形變遮擋等情況,迭代特征信息易受到環(huán)境干擾,導致跟蹤誤差較大,出現目標丟失等情況.CSK算法雖然是一種基于相關濾波的方法,但是由于只采用單一的灰度特征,因此圖像的顏色信息不能被更好收集,跟蹤中也會出現目標丟失情況.CT算法通過對特征進行壓縮提高計算速度,但在檢測過程中會犧牲一定精度.KCF方法在目標發(fā)生尺度變化或形變后會出現一些偏差,尤其在目標與相似事物發(fā)生短暫遮擋交叉等情況時,由于在前一幀目標位置附近進行特征篩選,導致交叉重疊的類似事物容易被誤檢為跟蹤目標,并可能影響后期整體跟蹤性能.本文算法能更有效的對目標進行跟蹤.在目標發(fā)生小范圍形變、旋轉或尺度變化時,由于融合特征對目標信息的表達更加豐富,提高算法在復雜環(huán)境下的分類能力.當目標與相似事物發(fā)生交叉重疊時,如283幀中的重疊位置,各傳統算法在檢測中發(fā)生不同程度位置偏移,本文算法結合融合特征來分析運動方向場特性,對目標的運動趨勢進行估計,防止跟蹤窗口發(fā)生偏移影響迭代,且判別過程中加入了尺度自適應分析,提高目標特征可靠性,便于更準確對目標位置進行判斷.
圖1 視頻序列basketball中各算法結果
圖2為跟蹤目標在運動過程中出現被遮擋情況的視頻序列jogging中部分檢測結果.目標被完全遮擋前各算法均能較為準確判斷目標位置,在目標被全部遮擋的情況下,此時對目標模型更新的特征可靠性較低,由于部分算法應對特征選框中信息發(fā)生突變時,缺乏對目標特征信息可靠性的分析和判別,只選擇接受特征信息并進行更新和迭代,因此CT、CSK、KCF算法中均出現遮擋在結束后丟失跟蹤目標的現象,并導致了跟蹤目標發(fā)生了改變.序列第71幀中目標被遮擋,各算法跟蹤區(qū)域信息發(fā)生較大變化,此時發(fā)生目標丟失的可能性較大.由于本文算法的目標找回策略,在跟蹤目標特征發(fā)生較大變化時,算法對當前位置的特征信息可靠性進行分析,自適應判別能否對跟蹤選區(qū)中的信息進行更新,防止突發(fā)遮擋等情況對跟蹤目標的特征造成污染,且根據目標當前運動方向信息對目標位置進行分析,便于在短暫遮擋結束后對跟蹤目標進行找回,防止目標丟失.
對于旋轉和尺度變化,圖3為視頻序列dudek和carscale中的部分結果,其中dudek視頻中涉及目標與鏡頭均有較快速移動和目標形變等更為復雜的因素.當目標發(fā)生尺度變化時,由于CT、CSK和KCF算法均沒有自適應的尺度變換機制,導致固定區(qū)域內的信息全部更新到目標特征集合中.如果跟蹤目標尺度減小,則大量背景特征信息保存到該選區(qū)中,并被誤判為目標特征進行更新.如果目標尺度增加,則固定選區(qū)不能完整收集跟蹤目標的全部特征信息,造成數據缺失,導致跟蹤的準確性較低.本文算法通過尺度自適應分析調整跟蹤選框大小,在確認跟蹤位置可靠程度較高時對選框尺度進行自適應調整,方便收集跟蹤目標的全部信息,并結合融合后的特征進行分析迭代,使得檢測結果更加準確.
圖2 視頻序列jogging中各算法結果
圖3 視頻序列dudek和carscale中各算法結果
由圖3中序列carscale部分結果可知,視頻中存在目標遮擋、目標快速移動、鏡頭快速移動以及尺度變化等多種因素,場景較為復雜,如序列第167幀中出現的遮擋物對各算法均產生不同程度影響.由于目標的移動速度和尺度變化速率較快,且受到樹木等環(huán)境因素的影響,目標本身的顏色紋理等特征變化較劇烈,跟蹤位置可靠性較差,各算法在跟蹤過程中均出現了一定誤差,其中CT、TLD和CSK出現目標丟失現象,KCF算法雖然能判斷跟蹤目標但是由于固定尺度和比較單一的特征分析方式,使得算法能夠提取和分析的信息有限,且噪聲影響比較嚴重,因此結果存在一定偏差.本文算法特征融合后信息表達能力較強,有一定抗干擾能力,且在位置可靠性較差時結合目標運動方向進行綜合分析,提高復雜背景下的檢測能力,為防止特征信息溢出,本文算法對尺度變化速率設置了一定閾值,雖然對檢測結果造成了一定影響,相比其他對比算法本文算法檢測結果在車身中間位置且有效區(qū)域重合度最高.相比各傳統算法,本文算法跟蹤效果較好.
為了使結果更加全面,本文通過算法精度和算法成功率對各算法性能進行評估.精度(precision plot)主要指預測位置中心點與測試數據集中標注的中心位置間的歐式距離,以像素為單位進行計算,通過目標跟蹤時被跟蹤目標左上角的坐標數據和選框大小計算得出.成功率(success plot)指跟蹤目標位置數據與所在測試數據集上位置標注數據的重合程度.在測試結果中,SRE模式為在視頻初始化時對目標位置進行一定偏移,即測試初始化時存在一定偏差情況下的目標跟蹤性能,通過進行12次測試(8個方向4個尺度)檢測被測算法的魯棒性.TRE模式在視頻序列時間軸上找到20個點作為起始點進行測試,通過不同起始位置對目標進行跟蹤,最后通過反復試驗得出算法跟蹤精度和成功率.如圖4-圖7所示.
通過本文算法與其他各算法的比較可得,本文算法在跟蹤成功率和跟蹤精度上性能相對較好.由于本文算法采用融合特征進行分析,并結合可靠性判別機制和結合方向場的找回策略,使得算法應對復雜場景或容易發(fā)生結果漂移情況時能較準確的定位目標位置,跟蹤成功率和精度曲線的線下面積相對其他算法均為最大.通過數據分析并平均化計算后,相比較傳統相關濾波算法KCF,本文算法在檢測成功率和跟蹤精度上分別提高了18.49%和9.54%,相比TLD算法在檢測成功率和跟蹤精度上分別提高了45.31%和33.16%.在計算效率上,由于改進算法引入多特征融合、丟失目標找回策略以及尺度自適應分析,算法在計算速度較傳統KCF算法有所下降,但和TLD算法相當,仍具有一定實時性.
圖4 TRE模式下各算法的跟蹤成功率
Fig.4 Success plots of TRE
圖5 TRE模式下各算法的跟蹤精度
Fig.5 Precision plots of TRE
圖6 SRE模式下各算法的跟蹤成功率
Fig.6 Success plots of SRE
圖7 SRE模式下各算法的跟蹤精度
Fig.7 Precision plots of SRE
表1 算法實時性性能表
改進算法通過將改進方向梯度直方圖與顏色特征進行特征融合,并結合方向場和響應因子構建目標丟失找回策略,最后加入自適應尺度分析對跟蹤選框大小進行自適應更新,從而提升算法精確性.通過實驗與各常用跟蹤算法進行對比,結果表明本文算法雖然計算量增加導致實時處理能力有所下降,但在目標跟蹤精度和成功率上分別較傳統KCF算法提高了18.49%和9.54%,具有較好綜合性能和實用價值.