王國剛, 劉一博, 吳 艷
(山西大學 物理電子工程學院, 山西 太原 030006)
視覺跟蹤是估計圖像序列中目標的運動軌跡, 在視頻監(jiān)控、 智能交通檢測、 醫(yī)學圖像分析、 行為識別等領(lǐng)域得到了廣泛應用. 然而, 視覺跟蹤在實際應用中仍面臨諸多挑戰(zhàn), 如遮擋、 光照變化、 目標姿態(tài)變化、 尺度變化、 低分辨率、 面內(nèi)旋轉(zhuǎn)等[1-2]. 早期經(jīng)典跟蹤算法很難處理這些難題, 無法滿足工業(yè)需求. 隨著技術(shù)的發(fā)展, 出現(xiàn)了以跟蹤學習檢測(Tracking-Learning-Detection, TLD)[3]、 自適應結(jié)構(gòu)局部稀疏外觀模型(Visual Tracking Via Adaptive Structural Local Sparse Appearance Model, ASLA)[4]和結(jié)構(gòu)化輸出(Structured output tracking with kernels, Struck)[5]為代表的諸多跟蹤算法, 在跟蹤性能方面超越了經(jīng)典算法.
近年來, 對視覺跟蹤算法的研究主要體現(xiàn)在深度學習和相關(guān)濾波兩個方面. 基于深度學習的視覺跟蹤算法, 利用神經(jīng)網(wǎng)絡(luò)提取目標特征, 在大規(guī)模數(shù)據(jù)集上訓練跟蹤模型, 能夠?qū)崿F(xiàn)精準跟蹤. 但該類算法計算復雜, 無法實現(xiàn)實時跟蹤. 因此, 兼?zhèn)涓檶崟r性和精度的相關(guān)濾波算法倍受青睞[6-16].
2010年, Bolme等[17]首次將相關(guān)濾波的概念引入跟蹤領(lǐng)域, 提出最小輸出平方誤差總和(Minimum Output Sum of Square Error, MOSSE)算法. MOSSE算法的核心思想是求圖像中二維信號間的相似性. Henriques等[18]在MOSSE算法的基礎(chǔ)上引入循環(huán)矩陣, 使用核技巧將低維不可分的底層樣本信息映射為高維線性可分的特征信息, 提出利用循環(huán)結(jié)構(gòu)的核相關(guān)濾波(Exploiting the Circulant Structure of tracking-by-detection with Kernels, CSK)算法. 相較于MOSSE算法, CSK算法性能提升顯著. 2015年, Henriques等[19]又引入多通道特征, 使用方向梯度直方圖(Histogram of Oriented Gradient, HOG)特征代替CSK算法中的灰度特征, 提出核相關(guān)濾波(Kernelized Correlation Filters, KCF)算法. 由于上述算法在跟蹤過程中僅使用單一特征訓練濾波器, 所以, 當目標發(fā)生劇烈形變時將導致跟蹤性能變差. Lan等[20]提出了聯(lián)合稀疏表示和魯棒特征層融合的多線索視覺跟蹤(Joint Sparse Representation and Robust Feature-Level Fusion for Multi-Cue Visual Tracking, RJSRFFT)算法, 其融合多種特征, 并去除融合特征中的不可靠特征信息, 提高了跟蹤準確性. 盡管RJSRFFT算法采用多特征融合, 增強了對目標的表征能力, 但目標尺度固定, 未考慮分辨率特性對特征提取的影響, 導致跟蹤性能不佳.
文獻[19]提出的KCF算法在跟蹤性能和速度上取得非常大的突破, 成為近幾年最經(jīng)典的相關(guān)濾波跟蹤算法. 但KCF算法在跟蹤過程中僅使用單一特征訓練位置濾波器, 無法處理目標尺度變化, 未對不同分辨率視頻做相應預處理.
針對KCF算法存在的缺陷, 提出了一種多分辨率、 融合多種特征信息和自適應調(diào)整跟蹤框的相關(guān)濾波跟蹤(Adaptive Correlation Filtering Tracking Algorithm Based on Multi-resolution and Multi-feature Fusion, MRMF)算法. 該算法融合顏色屬性(Color Name, CN)、 HOG和Gray特征訓練位置濾波器, 并利用主成分分析(Principal Component Analysis, PCA)技術(shù)對融合特征降維; 計算尺度濾波器與尺度金字塔的響應得分, 自適應確定跟蹤框的最佳尺寸; 采用多分辨率多分段預處理策略, 對不同分辨率視頻跟蹤目標進行尺寸縮放. 仿真實驗表明, MRMF算法的跟蹤準確性和魯棒性均優(yōu)于以KCF為代表的其它8種主流算法.
類似地, 可推廣到二維情況.
令
X=
其中,A為n階方陣;X和A分別為循環(huán)矩陣和正樣本;PiA(PT)j為負樣本,i,j∈{0,1,…,n-1},i,j不同時為0;P0為n階單位陣.
(1)
MRMF算法使用循環(huán)矩陣產(chǎn)生的正負樣本訓練位置濾波器.
1.2.1 線性回歸
假設(shè)樣例(xi,yi)服從線性嶺回歸模型f(z)=wTz, 訓練位置濾波器可建模為如下約束最優(yōu)化問題.
(2)
式中:λ為防止過擬合正則化參數(shù).
問題(2)的閉式解為
w=(XHX+λI)-1XHy,
(3)
式中:X,I和y分別為樣本陣、 單位陣和回歸目標yi構(gòu)成的列向量.
若X為循環(huán)矩陣, 式(3)可簡化為
(4)
1.2.2 非線性回歸
(5)
式中:α=(α1,α2,…,αn)T.X和α分別為樣本矩陣和對偶空間的解.
問題(5)的閉式解為
α=(K+λI)-1y,
(6)
式中:K=(φ(xi)T·φ(xj))=(k(xi,xj)),K和y分別為核矩陣和回歸目標列向量.
(7)
式中:λ為全λ的列向量.
經(jīng)訓練獲得位置濾波器后, 在當前幀, 正樣本選為前一幀得到的預測區(qū)域. 正樣本循環(huán)移位得到測試樣本集Z, 當前幀的目標位置為位置濾波器與測試樣本集最大響應值點.
設(shè)核矩陣為Kz, 可表示為Kz=(φ(xi)T·φ(zj)), 其中φ(z)為非線性函數(shù).
設(shè)位置濾波器與測試樣本的響應值為f(z), 可表示為
f(z)=(Kz)Tα,
(8)
式中:α為位置濾波器的模型參數(shù);z為測試樣本,z∈Z.
若Kz為循環(huán)矩陣, 式(8)可簡化為
(9)
視覺跟蹤系統(tǒng)提取目標跟蹤框的特征信息來表征目標. 跟蹤框越大或分辨率越高, 所包含目標的特征信息越多, 反之亦然.
MRMF算法采取了多分辨率多分段預處理策略. 具體說來, 包含像素不小于100×100的跟蹤框稱為高分辨率跟蹤框; 包含像素不大于35×35的跟蹤框稱為低分辨率跟蹤框; 其余情況的跟蹤框稱為標準分辨率跟蹤框.
對于標準分辨率跟蹤框, 跟蹤目標大小保持不變, 設(shè)置padding為1.5.
對于高分辨率跟蹤框, 利用式(10)和式(11)將跟蹤目標縮放為原來的0.5倍, 縮小特征提取區(qū)域, 設(shè)置padding為1.2, 減少冗余信息, 降低復雜度, 保證實時性.
(10)
W(x)=
(11)
式中:k=-0.5.
對于低分辨率跟蹤框, 通過雙立方插值將跟蹤目標縮放為原來的2倍, 擴大特征提取區(qū)域, 設(shè)置padding為2, 獲取目標更多特征信息, 增強對目標的表征能力, 提高跟蹤性能.
視覺特征是對目標信息的有效描述. 不同的視覺特征包含不同的特征信息, 根據(jù)實際應用場景融合多種特征, 可有效提升視覺跟蹤算法的性能.
HOG是方向梯度直方圖表征的目標局部特征, 能有效描述目標的輪廓和形狀信息, 具有較好的光照不變性和幾何不變性. 在目標區(qū)域較大、 目標形變劇烈或運動模糊的場景, 僅采用HOG特征的算法會出現(xiàn)跟蹤漂移現(xiàn)象. 文獻[21]提出的CN特征, 是一種對目標形變不敏感的全局特征, 在一定程度上能克服跟蹤漂移現(xiàn)象. 根據(jù)不同特征之間的互補性, 本文采用核相關(guān)函數(shù)多通道聚合方法將HOG, CN和Gray特征進行融合, 以提高算法對目標的表征能力. 核相關(guān)函數(shù)采用高斯核
(12)
設(shè)矩陣R,G,B為檢測區(qū)域的3個通道.R通道可表示為
其中
i∈{1,2,…,m/4},j∈{1,2,…,n/4}.
令
R″為檢測區(qū)域R通道縮放后的通道矩陣.類似可得,G″和B″分別為檢測區(qū)域G,B通道縮放后的通道矩陣.
于是可得索引向量為
α=(1, 1, …, 1)T+g2[f2(R″)]+32*
g2[f2(G″)]+32*32·g2[f2(B″)].
設(shè)α=(index1,index2,…,indexmn)T, 可得CN特征為
其中,CN0為Google訓練的32 768×10的顏色矩陣.
灰度特征為
Ggray=
(13)
式中:I為全1矩陣.
特征融合如圖 1 所示. 其中, HOG為36維統(tǒng)計特征, 每一維均需FFT運算, 為提高效率, 用PCA壓縮特征信息得到31維FHOG特征, 最終得到42維融合特征.
圖1 HOG-Gray-CN融合特征Fig.1 HOG-Gray-CN fusion feature
在核相關(guān)濾波算法中, 跟蹤框尺度無法適應目標大小變化, 導致提取特征不充分或存在冗余, 影響跟蹤性能. 針對此問題, 訓練一維尺度濾波器, 計算尺度濾波器與尺度金字塔的響應得分, 自適應確定跟蹤框的最佳尺寸.
2.3.1 訓練尺度濾波器
設(shè)f為目標樣本,fl為f的第l個特征通道,l∈{1, …,d}.訓練尺度濾波器hl可建模為如下線性最小二乘問題
(14)
其中, ★和g分別表示循環(huán)相關(guān)和正態(tài)響應輸出.
問題(14)的頻域解為
(15)
(16)
(17)
式中:η為學習率.
2.3.2 尺度框檢測
設(shè)目標所在檢測區(qū)域大小為M×N, 根據(jù)式(18) 獲取S個以目標為中心的不同大小的尺度框(S=33).
{Jn|size(Jn)=anM×anN,
(18)
式中:a=1.02, 表示尺度因子;Jn為第n個尺度框.
經(jīng)訓練獲得尺度濾波器后, 在當前幀, 由式(18) 得到測試樣本集Zt, 利用式(19)計算第t幀測試樣本集Zt與濾波器Ht-1的得分yt.
(19)
當前幀目標的最佳尺度框為最大得分(yt)max對應的尺度框.
MRMF算法的整體流程如圖 2 所示. MRMF算法在跟蹤過程中, 對不同分辨率視頻跟蹤目標進行尺寸縮放, 調(diào)整特征提取區(qū)域; 提取并融合HOG, CN和Gray特征, 提高對目標的表征能力; 構(gòu)建尺度金字塔, 使用尺度濾波器自適應確定跟蹤框的最佳尺寸.
圖2 MRMF算法流程圖Fig.2 The flow diagram of MRMF algorithm
在PC機上采用Matlab2018b進行實驗仿真. PC機配置為: Intel(R) Core(TM) i7-4710MQ CPU @ 2.5GHz處理器, 8 GB內(nèi)存.
位置濾波器參數(shù)設(shè)置為: 特征帶寬σ=0.5, 正則化系數(shù)λ1=10-4, 學習率η1=0.01.尺度濾波器參數(shù)設(shè)置為: 尺度因子a=1.02, 被檢測的尺度框個數(shù)S=33, 正則化系數(shù)λ2=10-2, 學習率η2=0.025.
本實驗將文獻[22]中的一次通過評估模式(One Pass Evaluation, OPE)下的精確度和成功率、 跟蹤速度、 時間魯棒性(Temporal Robustness Evaluation, TRE)和空間魯棒性(Spatial Robustness Evaluation, SRE)作為算法的評價指標. 成功率和精確度的閾值分別設(shè)置為0.5和20 pixel.
實驗采用包含低分辨率、 遮擋、 形變、 尺度變化、 快速運動、 光照變化、 面內(nèi)旋轉(zhuǎn)等屬性的OTB2015公開數(shù)據(jù)集[22]進行測試.
為有效評估所提算法性能, 將MRMF算法與8種主流跟蹤算法TLD[3], ASLA[4], Struck[5], CSK[10], Discriminative scale space tracking(DSST)[11], KCF[19], Distribution fields for tracking(DFT)[23], Real-time compressive tracking(CT)[24]進行比較, 跟蹤結(jié)果如表 1 所示, OPE曲線圖如圖 3 所示.
由表 1 和圖 3 可以看出, MRMF算法在OTB2015數(shù)據(jù)集上的精確度和成功率分別為 0.742 和 0.611, 相較于KCF算法分別提高了6.3% 和10.3%, 且跟蹤準確性均優(yōu)于其它算法.
如表 1 所示, MRMF算法的跟蹤速度為38.16 FPS, 滿足實時性要求.
表 1 9種算法在OTB2015數(shù)據(jù)集上的跟蹤結(jié)果Tab.1 The tracking results of nine algorithms on theOTB2015 dataset
跟蹤系統(tǒng)在起始幀變化、 第一幀標記的真實框發(fā)生移動或縮放的情況下, 可能會導致其跟蹤性能變好或變差. 因此, 本實驗在OPE基礎(chǔ)上引入時間魯棒性和空間魯棒性對本文算法進行更全面評估, 實驗結(jié)果如表 2、 表 3 所示.
由表 2 和表 3 可以看出, MRMF算法在OTB2015數(shù)據(jù)集上SRE的成功率為0.485, 精確度為0.710, 與KCF算法相比, 分別提升了9.0%和10.4%; TRE的成功率為0.558, 精確度為0.765, 與KCF算法相比, 分別提升了6.3%和6.1%. 由表 2 和表 3 還可以看出, MRMF算法的空間魯棒性和時間魯棒性均優(yōu)于其它對比算法.
表 2 9種算法在OTB2015數(shù)據(jù)集上的空間魯棒性Tab.2 SRE of nine algorithms on the OTB2015 dataset
表 3 9種算法在OTB2015數(shù)據(jù)集上的時間魯棒性Tab.3 TRE of nine algorithmson the OTB2015 dataset
在起始幀變化、 第一幀標記的真實框發(fā)生移動或縮放的情況下, 因為MRMF算法采用了多分辨率多分段預處理策略和尺度自適應更新模型, 跟蹤系統(tǒng)能夠及時調(diào)整跟蹤框, 準確提取目標特征, 避免了跟蹤漂移. 所以本文算法的跟蹤精度和魯棒性均優(yōu)于其它8種跟蹤算法.
為了驗證MRMF算法多分辨率多分段預處理(Multiple Resolution, MR)策略在低分辨率視頻上的有效性, 將KCF算法和僅使用了MR策略的KCF算法(Multiple Resolution-Kernelized Correlation Filters, MR-KCF)在OTB2015數(shù)據(jù)集9組低分辨率視頻上進行對比實驗, 結(jié)果如圖 4 所示.
(a) 精確度曲線圖
(b) 成功率曲線圖圖4 低分辨率視頻OPE精確度和成功率曲線圖Fig.4 Precision plots and success plots of OPE for LR video
由圖 4 可以看出, MR-KCF算法的OPE精確度和成功率分別為0.700和0.288, 相比于KCF算法分別提高了4.3%和13.8%. 這說明了MRMF算法多分辨率多分段預處理策略對跟蹤算法性能提升的重要性.
選取6組視頻對本文算法的跟蹤性能進行定性分析. 所選視頻包含形變、 遮擋、 低分辨率、 快速運動、 尺度變化和背景復雜等多種不同屬性. 實驗結(jié)果如圖 5 所示.
在視頻Dog1中, 跟蹤面臨的主要挑戰(zhàn)是尺度變化. 從第539幀到第1 257幀, 目標向前、 向后移動, 發(fā)生了較大尺度變化, MRMF算法和DSST算法可以一直將目標完整地包含在跟蹤框內(nèi), 而其余算法跟蹤效果不佳, 如圖5(a)所示.
目標尺度發(fā)生改變時, 本文算法優(yōu)于KCF算法, 是因為它利用了尺度自適應策略確定了當前幀目標的最佳尺度.
圖5 9種算法在6個視頻上的跟蹤結(jié)果Fig.5 Tracking results of 6 videos of 9 algorithms
在視頻Jogging-1中, 跟蹤面臨的主要挑戰(zhàn)是遮擋. 運動目標在第70幀受到遮擋, 并在第89幀再次出現(xiàn), 僅有MRMF算法和使用了重檢測策略的TLD算法能一直跟蹤到目標, 而以KCF為代表的其余算法均發(fā)生了跟蹤漂移, 且在之后的視頻幀中完全跟丟目標, 如圖5(b)所示. 在目標被遮擋的情況下, 本文算法優(yōu)于KCF算法, 是因為它融合了CN特征.
在視頻Surfer中, 跟蹤面臨的主要挑戰(zhàn)是低分辨率. 第39幀, MRMF算法能夠準確跟蹤目標, CSK、 DFT、 ASLA和CT算法均丟失了跟蹤目標. 從第116幀到第143幀, 目標在低分辨率視頻中持續(xù)運動, Struck、 KCF和DSST算法也相繼發(fā)生了跟蹤漂移或跟蹤失敗現(xiàn)象, 僅有MRMF算法和TLD算法能夠穩(wěn)定跟蹤目標, 如圖5(c)所示. 在低分辨率情況下, 本文算法優(yōu)于KCF算法, 是因為它采用了多分辨率多分段預處理策略.
在視頻Basketball中, 跟蹤面臨的主要挑戰(zhàn)是背景雜亂、 光照變化、 遮擋以及形變. 第61幀, 目標轉(zhuǎn)身奔跑, 發(fā)生形變, 除MRMF算法外, 其余算法均出現(xiàn)一定程度的跟蹤漂移. 從第283幀到第608幀, 背景雜亂, 目標受到遮擋且發(fā)生光照變化, 本文算法能夠準確跟蹤目標, 而其余算法跟蹤失敗, 如圖5(d)所示.
在視頻Bird2中, 跟蹤面臨的主要挑戰(zhàn)是遮擋、 變形、 快速運動和平面內(nèi)旋轉(zhuǎn). 第11幀, 目標周圍存在干擾物, 目標被部分遮擋, 除MRMF算法外, 對比算法在一定程度上均出現(xiàn)了跟蹤漂移現(xiàn)象. 從第56幀到第93幀, 目標快速運動、 形狀改變、 發(fā)生平面內(nèi)旋轉(zhuǎn), MRMF算法的跟蹤效果仍優(yōu)于其余算法, 如圖5(e)所示.
在視頻Bolt中, 跟蹤面臨的主要挑戰(zhàn)是遮擋、 變形、 平面內(nèi)旋轉(zhuǎn)和平面外旋轉(zhuǎn). 第33幀, DFT算法發(fā)生了跟蹤漂移現(xiàn)象, 其余對比算法跟蹤失敗, 從第221幀到第315幀, 對比算法均丟失了跟蹤目標, 而MRMF算法從第33幀到第315幀, 始終可以跟蹤到目標, 如圖5(f)所示.
由圖5(d)~圖5(f)可以看出, MRMF算法在復雜跟蹤環(huán)境下的跟蹤效果均優(yōu)于其余算法, 這說明了本文算法具有更好的魯棒性和跟蹤準確性.
針對核相關(guān)濾波算法特征單一、 尺度固定、 未處理低分辨率視頻的缺陷, 提出了MRMF算法. 該算法融合了HOG, CN和Gray特征, 增強了對目標的表征能力, 并利用PCA降維降低了算法復雜度; 計算尺度濾波器與尺度金字塔的響應得分, 自適應確定跟蹤框的最佳尺寸, 優(yōu)化了跟蹤效果; 使用多分辨率多分段預處理策略, 對不同分辨率視頻的跟蹤目標進行尺寸縮放, 提高了在低分辨率視頻上的跟蹤準確性. 實驗結(jié)果表明, MRMF算法的跟蹤精度和魯棒性均優(yōu)于其它8種主流算法. 在OTB2015數(shù)據(jù)集上的OPE精確度和成功率分別比KCF算法提高了 6.3% 和 10.3%; 且跟蹤速度達到了38.16 FPS, 滿足實時性要求.