秦 莉,劉 輝,尚振宏
(昆明理工大學 信息工程與自動化學院,昆明 650500)
E-mail:shangzhenhong@126.com
在計算機視覺領域中,目標跟蹤主要包括視頻監(jiān)控[1]、軍事目標定位[2]等領域.雖然近年來已經取得了不小的進步,但對于目標存在形態(tài)變化及背景雜波等多種復雜情況,完成精確的目標跟蹤,仍是一個極大的挑戰(zhàn)[1].
近年來因為相關濾波目標跟蹤中判別式[3,4]算法具有良好的實時性和跟蹤效果而迅速發(fā)展.Bolme等[5]在目標跟蹤中應用相關濾波算法,利用提取目標的灰度特征來完成目標跟蹤.Henriques等[6]針對相關濾波中樣本數(shù)量不足的問題,通過中心圖像塊進行循環(huán)移位來增加樣本數(shù)量.但由于該算法提取的特征為單通道灰度特征,所以當目標遇到背景遮擋及尺度變化等復雜情況時,容易出現(xiàn)跟蹤漂移的情況.為了進一步提升算法的跟蹤效果,Henriques 等針對CSK中的特征部分進行了改進,在相關濾波的基礎上提出了KCF算法[7](Kernel Correlation Filter),引入多通道和方向梯度直方圖(Histogram of Oriented Gradient,HOG)特征,將原來線性空間中的嶺回歸映射到非線性空間,利用循環(huán)矩陣和快速傅里葉變換,運算速度和跟蹤精度都有提升.Possegger等[8]基于統(tǒng)計顏色特征方法(顏色直方圖)提出了DAT(Defense of Color-based model-free Tracking)算法,在跟蹤的過程中預先探測出與目標相似的干擾區(qū)域,然后與正確的目標區(qū)域加權表示.但由于該算法統(tǒng)計的是顏色直方圖,對目標顏色變化效果較好,對目標快速運動效果一般.
由于單個特征(如HOG特征和顏色特征等)具有局限性,之后很多算法在這些基礎特征上進行了有效的融合.Li等[9]在KCF之后提出融合多種特征的SAMF(Scale Adaptive Kernel Correlation Filter)算法,該算法基于KCF,第一次把HOG特征和CN(Color Names)特征[10]進行結合使用,使跟蹤精度進一步提升.Bertinetto等[11]通過加權融合HOG特征響應圖和顏色直方圖特征響應圖,根據(jù)得到最終響應圖來估計出目標位置.這兩個特征融合的算法實驗結果證明,與提取目標單一特征的算法實驗結果對比,多特征融合的算法精度更高.
隨著卷積神經網(wǎng)絡(Convolutional Neural Network,CNN)在分類識別等領域取得了較大的突破,CNN也被應用到目標跟蹤領域中.Ma等[12]把KCF里的HOG特征替換為卷積特征,利用預訓練好的卷積神經網(wǎng)絡模型分層提取卷積特征并進行線性加權融合,利用最后的響應圖來確定目標位置,相比于提取目標HOG傳統(tǒng)特征的KCF,效果有了較大提升.Qi等[13]對多層卷積特征采用自適應學習權重策略,跟蹤精度有所提高,但實時性一般.DeepSRDCF[14]將SRDCF[15]中的HOG特征替換為CNN中單層卷積層的深度特征(卷積網(wǎng)絡的激活值),比起使用傳統(tǒng)特征的SRDCF相比,效果有了極大提升.
除了對特征的改進和融合外,也有不少算法通過其他輔助方面進行創(chuàng)新,如上下文背景信息、模型更新、尺度估計等,從而進一步提升跟蹤算法的魯棒性.為了有效利用背景信息,Lukezic等[16]通過背景感知和對目標區(qū)域自適應加權求和,實時性一般.為了有效利用上下文信息,文獻[17]在提取傳統(tǒng)特征的同時也提取了目標的上下文信息,利用上下文信息輔助定位,使濾波器對目標產生高響應,對上下文信息產生零響應,實驗結果表明,該算法對外觀變化劇烈(長寬比改變或部分遮擋)及背景雜波效果較好,但由于采用的是傳統(tǒng)的HOG和顏色直方圖特征,導致其在背景復雜,目標運動模糊等情況下效果一般.針對濾波器本身,文獻[14]提出的SRDCF基于DCF[7],加入空域正則化,懲罰邊界區(qū)域的濾波器系數(shù),雖然精度比起DCF有所提高,但算法速度較慢.Danelljan等[18]通過兩個相關濾波器解決目標尺度變化問題,先用位置濾波器對位置進行預測,之后在預測的位置上使用尺度濾波器預測目標最佳尺度,該算法進一步提高了算法的跟蹤效果.Li等[9]通過七個尺度分別對候選區(qū)域做響應值計算,最大處即為目標最佳處.Bai等[19]利用卷積特征加權融合得到響應圖后,利用尺度金字塔估計下一幀的尺度,以克服目標發(fā)生尺寸改變時導致的跟蹤失敗.由于目標模型在背景干擾下容易發(fā)生漂移等情況,Zhao等[20]將峰值旁瓣比(Peak-to-Sidelobe Ratio,PSR)用作檢測指標,解決了目標在背景遮擋情況下的模板更新難題,對跟蹤的精度有很大的提升.
當目標存在運動模糊和背景干擾等問題時,基于相關濾波的單一特征難以完成目標追蹤.為了進一步提高跟蹤準確性,融合了多種傳統(tǒng)特征和卷積特征及上下文信息.針對尺度變化問題,本文采用尺度池估計算法使算法的精度有進一步的提升.
本文在相關濾波算法基礎上融合多種特征,相關濾波目標跟蹤算法簡述如下.
設當前提取圖像塊特征x,通過循環(huán)移位得到矩陣Χ.記相關濾波器為w,可利用以下最小化目標函數(shù)求解:
(1)
式(1)中,y表示期望輸出,λ表示正則化參數(shù).通過傅里葉變換求得w為:
(2)
(3)
(4)
對下一幀提取的新圖像塊特征z,相關輸出響應:
(5)
目標在跟蹤時,存在外觀變化等情況.針對外觀模型變化,本文利用雙線性插值方法更新:
αt=(1-γ)αt-1+γαt
(6)
其中,α為濾波器系數(shù),t為當前幀的序列號,γ為學習率.
本文算法將傳統(tǒng)特征、卷積特征和上下文信息融入相關濾波算法中來實現(xiàn)目標跟蹤.本文多特征融合流程圖如圖1所示.
圖1 多特征融合流程圖
將目標顏色直方圖特征的響應圖和目標及上下文信息的HOG特征響應圖采用固定系數(shù)加權融合,再自適應融合卷積特征獲得最終的響應圖進行目標位置估計,最后通過尺度池估算目標尺度,最大值對應的尺度作為最佳尺度,算法細節(jié)描述如下.
3.1.1 傳統(tǒng)特征
傳統(tǒng)特征主要包括HOG特征和顏色特征.HOG特征是對目標在光照發(fā)生改變時有良好的適應性.然而,當目標出現(xiàn)變形及背景遮擋時,很容易出現(xiàn)跟蹤失敗情形.和HOG特征不同,顏色特征是基于像素點的全局特征,對形變效果較好,但難以適應光照變化.為此,本文結合這兩個特征來實現(xiàn)目標跟蹤,可以有效補充其缺點,提高目標跟蹤算法的有效性.
3.1.2 上下文信息特征
為了有效利用背景信息,文獻[17]在式(1)的基礎上增加了上下文背景信息進行輔助定位,通過在上一幀的響應圖中目標樣本x上下左右采樣n個上下文信息得到xi循環(huán)移位得到Χi.上下文信息樣本作為負樣本來訓練分類器,使在目標樣本處響應值較大,在上下文信息處響應值接近為零.加入上下文信息后目標函數(shù)的嶺回歸為:
(7)
式(7)中λ1為正則化參數(shù)使負樣本趨近零.通過式(7)中的負樣本和目標樣本的循環(huán)矩陣進行合并得到:
(8)
式(8)中Β表示分塊循環(huán)矩陣,通過在傅域中離散傅里變換(DFT)矩陣對角化得到以下公式:
(9)
式中fp與標準嶺回歸一樣,濾波器w和式(2)求解過程一樣,利用傅里葉快速求解為:
(10)
在非線性嶺回歸的情況下,求解過程和式(4)相同,同樣利用循環(huán)矩陣的性質,α閉式解為:
(11)
其中向量dij(i,j∈{1,2,…,n} )分別為:
(12)
對下一幀目標樣本z,相關輸出響應:
(13)
3.1.3 卷積特征
最近,由于深度學習方法廣泛應用,深度特征已被運用在跟蹤領域中.
文獻[12]通過VGG-19提取的卷積特征實現(xiàn)跟蹤,跟蹤精度得到進一步提升.從圖2可以看出,低層卷積含有更多位置信息,深層卷積含有更多語義信息.用VGG-19提取conv3-4,conv4-4,conv5-4這三層的特征,每一層對應的濾波器為wi(i=1,2,3),相關濾波器的求解和下一幀預測位置見上述章節(jié)1.
由于高層卷積特征語義信息豐富,低層卷積特征對遮擋、形變比較敏感,所以高層卷積應該給予較高的融合權重,低層卷積應該給予較低的融合權重,加權融合三層卷積特征得到最終響應圖fconv,即:
(14)
其中,βl表示每層對應的融合權重,fl為每層各自的響應.
由于不同特征具有不同的表現(xiàn)特點,因此采用分層融合多種特征.首先,本文具體參照文獻[17]的融合方法,將目標及上下文信息HOG特征響應圖和目標顏色直方圖特征響應圖采用固定權重融合,融合公式為:
ftrad=r*fhog+(1-r)*fcolor
(15)
式中,r為固定權重.由于文獻[17]里提取的特征屬于傳統(tǒng)特征,和卷積特征相比判別能力不強.為了提高跟蹤精度,克服模板更新過程中出現(xiàn)的的漂移情況,本文對傳統(tǒng)特征響應圖ftrad和卷積特征響應圖fconv采用自適應加權融合,響應最大處即為最終目標位置flast,在本文中,自適應融合權重使用相鄰圖像幀的特征響應圖峰值旁瓣比(PSR)差值,最終融合的公式由式(16)計算:
flast=kconvfconv+ktradftrad
(16)
圖2 三層卷積層各自的特征表示
各自的自適應權重由式(17)計算:
(17)
其中,Cconv表示傳統(tǒng)特征 PSR,Ctrad表示卷積特征PSR,計算公式為:
(18)
式中,t為當前幀的序列號,μ為均值,δ為方差.
權重kt的更新策略為:
kt=(1-ηk)kt-1+ηkkt
(19)
其中,ηk為權重更新系數(shù).
本文算法流程如下:
位置預測:
Step 1.根據(jù)目標的初始狀態(tài)采樣圖像樣本塊,根據(jù)式(4)訓練目標顏色直方圖濾波器和卷積特征濾波器,根據(jù)式(11)訓練目標及上下文信息HOG特征濾波器.
Step 2.根據(jù)式(5)獲得目標顏色直方圖特征響應圖,根據(jù)(13)式獲得目標及上下文信息HOG特征相關濾波響應值,根據(jù)式(14)獲得目標卷積特征相關濾波響應圖.
Step 3.先由式(15)計算傳統(tǒng)特征融合響應圖,再根據(jù)式(16)計算出最后的傳統(tǒng)特征與卷積特征自適應融合響應圖并對當前幀進行位置預測.
尺度估計:
Step 4.由式(5)獲得最大尺度響應值,估計當前幀的最佳尺度,使用式(6)更新尺度濾波器.
模型更新:
Step 5.根據(jù)式(6)訓練和更新多個濾波器模型.
Step 6.由式(18)式(19)更新自適應特征的融合權重.
本文在Intel Corei7-7800X 3.50GHz CPU,GTX Titan X GPU,內存為16GB的臺式電腦上完成,軟件為Matlab R2017b,卷積特征基于MatConvNet[21].參數(shù)具體設置為:上下文信息個數(shù)n為4,正則化系數(shù)λ為10-4,控制上下文信息λ1為0.5,相關濾波器學習率γ為0.01,HOG特征權重r是0.7,其他傳統(tǒng)特征的系數(shù)與STAPLE_CA算法設置相同,卷積特征的選取系數(shù)設置和CF2算法相同,自適應融合權重Kconv和ktrad初始值為0.5,尺度樣本個數(shù)S為33個,尺度因子α為1.02,權重學習率ηk為0.1,尺度估計方法和DSST算法參數(shù)相同.
本文選取OTB-50[22,23]標準數(shù)據(jù)集進行評估,共有51個視頻序列,每個視頻序列都有不同的運動特點.實驗結果采用距離精度曲線圖(Distance Precision Plot)和成功率曲線圖(Success Plot)作為評價標準[24].
本文算法與圖3中的9種主流算法在OTB-50中進行了定量對比實驗.選取這9種算法算法的原因:1、由于本文算法是在STAPLE-CA基礎上融入CF2卷積特征,首先與這兩種原算法(STAPLE-CA、CF2)對比;2、本文算法利用上下文信息輔助定位,所以和利用背景信息的的算法csrdcf[16]進行對比和對濾波器進行改進的SRDCF進行對比;3、本文算法在傳統(tǒng)特征上融合了卷積特征,所以和一些近年來基于卷積特征的主流算法進行對比:HDT、ACFN[25]、DeepSRDCF,CNN-SVM[26];4、本文算法采用了尺度池訓練尺度濾波器,所以選取了對尺度特征進行改進的SAMF進行對比.
對比實驗結果如圖3所示.
圖3可以看出本文算法Ours在OTB-50中平均DP為89.3%,平均OP為81.2%,均優(yōu)于其他算法.
本文提出的算法與使用傳統(tǒng)特征及上下文信息的原算法STAPLE-CA相比,平均DP提高了6.1%,平均OP提高了4.7%;與只使用卷積特征的CF2相比,平均DP雖然只提高了0.2%,但平均OP提高了7.2%;與用卷積特征代替HOG特征的DeepSRDCF相比,平均OP雖提高了1.8%,但平均DP提高了4.4%,實驗證明了傳統(tǒng)手工特征與卷積特征兩種特征的融合比只使用卷積特征和傳統(tǒng)特征效果要好.文中引入目標上下文信息,目標上下文信息被視為硬性負樣本幫助輔助定位,比起針對引入空間正則化懲罰項的SRDCF,平均DP提高了5.5%,平均OP提高了3.1%;比起利用背景感知的csrdcf相比,平均DP提高了9.3%,平均OP提高了5.9%;與融合灰度特征,HOG特征及CN特征和對尺度進行改進的SAMF相比,平均DP提高了10.8%,平均OP提高了8.0%,說明了與卷積特征的融合在復雜情況下能夠提升跟蹤效果;與圖中其他的使用卷積特征的主流算法相比,本文在平均DP和平均OP方面優(yōu)于其他算法.
圖3 OTB-50中10種算法實驗對比結果
圖3說明本文算法無論是與使用傳統(tǒng)特征、卷積特征、背景信息還是對尺度池進行改進的算法,在距離精度和重疊精度方面效果均優(yōu)于其他算法,本文在傳統(tǒng)特征的基礎上引入上下文信息硬性負樣本進行輔助定位,提取傳統(tǒng)特征的同時自適應融合了卷積特征,并用尺度池解決目標尺度變化問題,實驗證明了本算法的有效性,使目標跟蹤的效果有了進一步的提升.
為了進一步說明本文算法在復雜環(huán)境下的跟蹤性能,本文分析了在不同挑戰(zhàn)因子下的實驗結果,定性對比分析本文算法的跟蹤性能.表1和表2分別為不同的算法在不同的挑戰(zhàn)因子下的平均DP和平均OP,挑戰(zhàn)因子包括背景干擾(Background Clutters,BC)、運動模糊(Motion Blur,MB)、非剛性形變(Deformation,DEF)、光照變化(Illumination Variation,IV)、平面內旋轉(In-Plane Rotation,IPR)、遮擋(Occlusion,OCC)、平面外旋轉(Out-of-Plane Rotation,OPR)和尺度變化(Scale Variation,SV)8種挑戰(zhàn)因子.從表1可以看出,本文算法Ours平均DP在MB,IPR、 OPR、OCC、SV中第一,說明了多種特征融合的的有效性.針對目標發(fā)生非剛性形變時,本文算法平均DP稍稍遜色于ACFN和HDT,因ACFN著重通過增大空間分辨率而增強了邊緣區(qū)域的精度效果,所以當目標發(fā)生非剛性形變時效果較好;由于本文算法本文因為提取的特征包含顏色特征,易受光照變化的影響,所以當目標出現(xiàn)光照變化時,效果稍稍弱于只使用卷積特征的HDT和CF2.
表1 不同算法在不同挑戰(zhàn)因素下的距離精度值
Table 1 Distance precision of different algorithms on different challenges
OursCF2HDTCNN-SVMACFNDeepSRDCFSTAPLE_CASRDCFcsrdcfSAMFBC0.883 0.8850.8710.7890.7830.7930.7890.8030.7330.676MB0.8450.844 0.8400.7450.7090.7930.8710.7890.7990.564DEF0.8830.8810.884 0.8580.9020.8120.8710.8550.8350.810IV0.8420.844 0.8450.7800.7930.7600.8010.7610.7100.682IPR0.8710.8680.869 0.8360.8140.8050.8060.7660.7420.714OCC0.8800.877 0.8740.7700.8560.8480.7960.8440.8060.839OPR0.8720.8690.871 0.8320.8700.8440.8240.8180.7850.767SV0.8840.880 0.8660.8270.8130.8140.8050.7780.7250.723
說明:表中用單橫線標注的為排名第1,用波浪線標注的為排名第2
表2 不同算法在不同挑戰(zhàn)因素下的成功率
Table 2 Success rate of different algorithms on different challenges
OursCF2HDTCNN-SVMACFNDeepSRDCFSTAPLE_CASRDCFcsrdcfSAMFBC0.8210.786 0.7690.7570.6800.7200.7430.7150.6800.655MB0.780 0.7490.7480.7130.6360.7950.7000.7620.7710.561DEF0.8520.7630.7650.7940.7750.7710.8190.8050.821 0.804IV0.7590.6650.6620.6620.6780.7110.727 0.7010.6740.641IPR0.7540.7180.7150.7050.6840.736 0.7240.7090.6710.653OCC0.8170.7380.7390.6870.7260.793 0.7380.7900.7750.782OPR0.7770.7190.7160.7140.7330.774 0.7360.7400.7180.699SV0.7420.6040.5870.5850.7470.7820.6920.7120.6500.634
說明:表中用單橫線標注的為排名第1,用波浪線標注的為排名第2
從表2可以看出,本文算法Ours平均OP在BC、DEF、IV、IPR、OCC、OPR和SV中第一,說明了Ours在多種復雜環(huán)境下的有效性.在尺度變化方面,平均OP稍稍弱于DeepSRDCF和ACFN,由于DeepSRDCF使用了空間正則化和深度特征,對目標發(fā)生尺度變化時效果較好.
圖4(a)和圖4(b)顯示了目標在三種挑戰(zhàn)因子下的平均DP和平均OP,三種挑戰(zhàn)因子包含:IPR、OCC、OPR.圖4(a)和圖4(b)表明了Ours無論在平均DP還是平均OP都比其他算法高.針對這三種挑戰(zhàn)因子,圖4(a)中平均DP分別達到了0.871,0.880,0.872,圖4(b)中平均OP分別達到了0.754,0.817,0.777,說明了本文融合多種特征能夠較好處理目標發(fā)生旋轉和翻轉等復雜情況,證明了該算法的有效性和魯棒性.
圖4 10種算法在三種挑戰(zhàn)因子下的距離精度圖(a)和成功率圖(b)
針對單一特征難以實現(xiàn)目標的精準跟蹤,本文提出了一個融合傳統(tǒng)特征、卷積特征及上下文信息的目標跟蹤算法.首先將目標及上下文信息的HOG特征響應圖和目標顏色直方圖特征響應圖采用固定權重融合,然后自適應權重融合卷積特征以更好適應目標變化,并采用尺度池方法解決目標尺寸變化.本文算法在OTB-50公開測試集中進行測試,實驗證明,無論與融合HOG特征、上下文信息和顏色直方圖特征的算法相比,還是與只使用卷積特征的算法相比,平均距離精度和平均重疊精度都有一定的提高;與其他利用上下文信息、傳統(tǒng)特征融合、對尺度進行改進的算法相比,性能也優(yōu)于其他算法,本文證明了本文算法多特征融合的有效性.定性的實驗結果證明,與其他使用卷積特征的主流算法對比,性能也優(yōu)于其他算法.但由于本文算法提取的特征較多,在實時性方面存在不足,速度較慢,針對此問題,下一步打算針對卷積特征的通道冗余進行改進從而提高目標跟蹤效果的實時性.