朱凌云
(中興通訊股份有限公司 有線研究院, 江蘇 南京 210012)
視覺跟蹤是計(jì)算機(jī)視覺領(lǐng)域中經(jīng)典的研究課題有著廣泛的應(yīng)用.視覺跟蹤是通過檢測或者告知第一幀圖像中目標(biāo)的初始位置,在整個(gè)視覺序列中估計(jì)目標(biāo)的軌跡,從而對目標(biāo)進(jìn)行定位的算法.近年來,視覺跟蹤取得了較大的突破,但跟蹤過程中目標(biāo)可能發(fā)生劇烈形變、光照、被其他物體部分或完全遮擋、背景干擾等復(fù)雜情況,因此視覺跟蹤仍面臨嚴(yán)峻的挑戰(zhàn).
Bolme等人首次將相關(guān)濾波方法應(yīng)用到視覺跟蹤中,利用單通道特征求解最小二乘快速學(xué)習(xí)到相關(guān)濾波器,相關(guān)濾波器(Correlation Filter,CF)已被廣泛認(rèn)可為解決視覺跟蹤問題的一種穩(wěn)定且有效的方法[1].Heriques等人利用圖像的循環(huán)結(jié)構(gòu)[2],提出了一種核化的相關(guān)濾波方法,解決了訓(xùn)練樣本缺乏問題,同時(shí)在計(jì)算速率上達(dá)到了很好的實(shí)時(shí)性.在前景周圍循環(huán)移動(dòng)采樣策略,在頻率域中學(xué)習(xí)到CF跟蹤器,會(huì)產(chǎn)生很高的計(jì)算代價(jià).這些移動(dòng)的圖像塊通過頻率域相關(guān)循環(huán)特性立即生成,作為訓(xùn)練濾波器的負(fù)樣本.Galoogahi 等人提出所有的移動(dòng)圖像塊都會(huì)產(chǎn)生邊界效應(yīng),從而影響CF跟蹤器對跟蹤性能[3].很多學(xué)者們陸續(xù)提出利用多通道特征或者多特征融合的跟蹤方法提高跟蹤效果,比如HOG特征和多顏色屬性特征.Liu等人提出基于部分的跟蹤技術(shù)以降低對部分遮擋的敏感度,并更好地保留目標(biāo)結(jié)構(gòu)[4].為了解決跟蹤過程中目標(biāo)形變問題,Danelljan提出了一種自適應(yīng)多尺度的DSST跟蹤方法[5].Mueller等人提出了Context-Aware Correlation Filter(CACF)框架.該框架是一種基于上下文信息的跟蹤方法[6-7],從而提高跟蹤效果.Galoogahi等人提出了Background-Aware Correlation Filter(BACF)框架[3],該框架對跟蹤性能可以媲美許多經(jīng)典的CF跟蹤器.但BACF框架沒有對復(fù)雜背景環(huán)境信息進(jìn)行區(qū)別處理,即BACF框架同等地對待每個(gè)背景圖像塊,認(rèn)為整個(gè)背景區(qū)域在跟蹤算法中的貢獻(xiàn)一致,忽視了背景區(qū)域在目標(biāo)跟蹤中的重要性.在實(shí)際視覺序列中,背景區(qū)域普遍包含十分復(fù)雜的信息,有目的地對不同的區(qū)域進(jìn)行細(xì)化,有利于提高跟蹤器的魯棒性.
為了充分發(fā)揮背景信息的作用,本文利用動(dòng)態(tài)分區(qū)的思想,根據(jù)背景中不同區(qū)域與跟蹤目標(biāo)運(yùn)動(dòng)相似度大小,對不同區(qū)域賦予不同的權(quán)值,提出基于加權(quán)背景感知框架的相關(guān)濾波(Weighted Background-Aware Correlation Filter,WBACF)視覺跟蹤算法,WBACF跟蹤流程如圖1所示.通過加權(quán)背景信息,WBACF框架跟蹤器可以獲得很好的跟蹤結(jié)果.
圖1 WBACF跟蹤流程圖
本文的主要工作如下:
1) 提出了基于加權(quán)背景感知的視覺跟蹤框架,可以有效利用背景信息,進(jìn)一步提高CF視覺跟蹤器的性能;
2) 在主流數(shù)據(jù)集上的測試結(jié)果表明提出的加權(quán)背景感知框架是可行的, 并對WBACF框架做了全面的評估,驗(yàn)證該框架的跟蹤效果,如圖2所示.
圖2 WBACF跟蹤效果圖
在空間域中,通過最小化公式(1),學(xué)習(xí)得到多通道CF,
(1)
其中xk∈RD表示向量圖像的第k個(gè)通道,hk∈RD表示需學(xué)習(xí)的相關(guān)濾波器,K表示特征通道的數(shù)目,y∈RD表示預(yù)期的相關(guān)響應(yīng),λ表示正則化常數(shù),*表示空間相關(guān)運(yùn)算.在空間域中,式(1)還可以用嶺回歸的目標(biāo)函數(shù)表達(dá),
(2)
其中y(j)表示y的第j個(gè)元素,[△τj]表示圓形移動(dòng)運(yùn)算.式(2)主要通過圓形移動(dòng)運(yùn)算從D-1個(gè)前景圖像塊中學(xué)習(xí)得到相關(guān)濾波器,這種方法能夠很完美地學(xué)習(xí)前景目標(biāo),但是容易出現(xiàn)過擬合、限制濾波器的性能等問題.然而,跟蹤目標(biāo)的出現(xiàn)都伴隨著復(fù)雜的背景環(huán)境,這些背景信息可以被用作負(fù)樣本訓(xùn)練.根據(jù)背景中的不同圖像區(qū)域的重要性不同,賦予不同的權(quán)值,提出基于加權(quán)背景感知框架的相關(guān)濾波視覺跟蹤算法,能夠得到魯棒性更好的跟蹤效果.
通常把整幅圖像分為2類區(qū)域,前景區(qū)域和背景區(qū)域. 前景區(qū)域比較單一,是只包含目標(biāo)物體的區(qū)域;根據(jù)運(yùn)動(dòng)相似度劃分,背景區(qū)域又細(xì)分為支撐區(qū)域、無關(guān)區(qū)域及干擾區(qū)域[8].支撐區(qū)域是與跟蹤對象的運(yùn)動(dòng)方向基本一致或相同的圖像區(qū)域;無關(guān)區(qū)域是始終靜止不動(dòng)的區(qū)域;干擾區(qū)域是與目標(biāo)運(yùn)動(dòng)方向偏差較大,以及有遮擋的圖像區(qū)域.
如圖3圖像區(qū)域劃分示意圖所示,將圖像劃分成A、B、C、D、E、F、G、H不同區(qū)域.可以看出B,D和E區(qū)域?yàn)橹螀^(qū)域,C、H區(qū)域是無關(guān)區(qū)域,F(xiàn)和G區(qū)域?yàn)楦蓴_區(qū)域.可知各圖像區(qū)域的形狀并不固定,區(qū)域之間沒有顯著的空間界限.在跟蹤過程中,由于每幀圖像的背景區(qū)域是動(dòng)態(tài)變化的,因此各區(qū)域的劃分亦是隨時(shí)間動(dòng)態(tài)變化的.在視頻序列中,跟蹤目標(biāo)的位置是隨時(shí)間變化而變化的,例如上一幀的目標(biāo)區(qū)域可能變成無關(guān)區(qū)域,當(dāng)前幀的無關(guān)區(qū)域也可能變?yōu)橹螀^(qū)域,甚至轉(zhuǎn)變成目標(biāo)區(qū)域.通過計(jì)算不同區(qū)域內(nèi)的像素與目標(biāo)之間運(yùn)動(dòng)相似度,構(gòu)建一個(gè)權(quán)值矩陣,與目標(biāo)運(yùn)動(dòng)相似度越高的區(qū)域, 其像素獲得權(quán)值就越高,反之就越低.
圖3 圖像區(qū)域劃分示意圖
復(fù)雜的背景環(huán)境對跟蹤算法的跟蹤性能有較大影響,例如,在背景變化太快且混亂時(shí),背景信息對目標(biāo)跟蹤成功與否十分重要.如BACF框架所示,通過最小化式(3)學(xué)習(xí)多通道背景感知CF跟蹤器:
(3)
其中P是從信號(hào)xk裁剪出D個(gè)元素形成D×T二元矩陣,xk∈RD,y∈RD,hk∈RD,T?D,T為x的長度.對于跟蹤算法x,y,h分別為空間內(nèi)的訓(xùn)練樣本,y是以興趣目標(biāo)為中心峰值的相關(guān)輸出,h是空間尺寸遠(yuǎn)小于訓(xùn)練樣本的相關(guān)濾波器.Pxk[△τj]將循環(huán)移位運(yùn)算應(yīng)用于裁剪運(yùn)算之后的訓(xùn)練樣本上,從整幀圖像中找出大小為D的所有可能的圖像塊.相關(guān)輸出為峰值對應(yīng)是跟蹤目標(biāo)(正樣本)裁剪圖像塊,相關(guān)輸出為零對應(yīng)是背景內(nèi)容(負(fù)樣本)裁剪圖像塊.
為了提高計(jì)算效率,通常在頻率域中學(xué)習(xí)CF,WBACF框架即可表示為:
(4)
在背景感知框架中,式(4)中給出數(shù)據(jù)矩陣P,即裁剪得到的背景圖像塊.加權(quán)背景感知針對BACF框架易忽略不同區(qū)域背景信息的重要性問題,綜合考慮背景環(huán)境中不同區(qū)域?qū)Ω櫮繕?biāo)的貢獻(xiàn)權(quán)值,形成WBACF框架.因此,含有背景感知的圖像塊被定義為:
B=WP
(5)
其中B為加權(quán)背景感知所有可能的圖像塊,W為背景感知信息對應(yīng)的權(quán)值矩陣.
圖4 計(jì)算權(quán)值矩陣流程圖
根據(jù)背景區(qū)域的運(yùn)動(dòng)方向與目標(biāo)中心的運(yùn)動(dòng)方向之間的相似度大小,影響背景區(qū)域?qū)Ω櫮繕?biāo)的定位,相似度越高的背景區(qū)域,包含的有用信息越多,即應(yīng)賦予較高權(quán)值,相似度越低的背景區(qū)域,包含的有用信息越少,即應(yīng)賦予較低權(quán)值,對于相似度為零的背景區(qū)域,其權(quán)值應(yīng)為零.通過每個(gè)背景區(qū)域的權(quán)值形成一個(gè)背景感知權(quán)值矩陣.為了獲得跟蹤的實(shí)時(shí)性,采用Lucas-Kanade稀疏光流算法計(jì)算離散點(diǎn)的權(quán)重,再通過插值獲得背景感知的權(quán)值矩陣.
為了提高跟蹤算法對復(fù)雜背景下姿態(tài)、尺度、光照、遮擋等問題的魯棒性,跟蹤模型及權(quán)值矩陣自適應(yīng)更新策略如下:
Xad=(1-η1)Xt-1+η1Xt
(6)
Wad=(1-η2)Wt-1+η2Wt
(7)
其中η1,η2是分別是模型、權(quán)值矩陣的學(xué)習(xí)率.
本節(jié)對WBACF跟蹤框架進(jìn)行評估,在公共測試集OTB-50和OTB-100(部分)上進(jìn)行實(shí)驗(yàn).在相同實(shí)驗(yàn)設(shè)置下,比較WBACF跟蹤框架和BACF跟蹤框架的性能.
根據(jù)傳統(tǒng)CF參數(shù)設(shè)置,本文采用4×4大小的31通道HOG特征,正則化參數(shù)λ設(shè)置為0.001,尺度數(shù)目為5,尺度變化率為1.01,模型和權(quán)值矩陣的學(xué)習(xí)率分別為0.0125,0.3.本文實(shí)驗(yàn)代碼是在BACF算法的基礎(chǔ)上改寫而成,因此在保證算法實(shí)時(shí)性的同時(shí),能夠有效提高算法跟蹤性能.
3.2.1 定性評價(jià)
圖5 12個(gè)視頻序列展示W(wǎng)BACF框架的跟蹤效果
本節(jié)從OTB-100數(shù)據(jù)集中挑選出12個(gè)視頻序列展示W(wǎng)BACF框架的跟蹤效果.12個(gè)視頻序列分別是BlurBody,BlurFace,Bolt,Boy,CarScale,Dog1,David,Singer1,F(xiàn)aceOcc1,Walking2,Woman,Lemming.如圖5所示,給出12個(gè)視頻序列上的跟蹤結(jié)果,定性地分析WBACF算法在不同情況下的跟蹤效果.12個(gè)視頻序列分別包括運(yùn)動(dòng)模糊、快速移動(dòng)、尺度變化、光照變化、目標(biāo)遮擋、復(fù)雜背景等場景變化問題,WBACF算法都能夠展示較好地跟蹤效果.下面從不同場景變化角度來分析WBACF算法的跟蹤效果.
1) 運(yùn)動(dòng)模糊: 圖5(a)、(b)兩行可以看出視頻序列中跟蹤目標(biāo)人物都發(fā)生移動(dòng)且圖像模糊不清,如圖5(a)中的215幀和316幀,圖5(b)中106幀和316幀,相比其他跟蹤算法,WBACF跟蹤算法能夠快速地跟蹤上目標(biāo),并且表現(xiàn)出更好的準(zhǔn)確度.
2) 快速移動(dòng):圖5(c)、(d)兩行視頻序列Bolt,Boy都是快速移動(dòng)的跟蹤目標(biāo),跟蹤目標(biāo)在快速移動(dòng)的過程中發(fā)生姿態(tài)形變,如視頻序列Bolt中的58幀和100幀,視頻序列Boy中的106幀和228幀,男孩在扭轉(zhuǎn)的過程中,身體特征發(fā)生較大變化,WBACF算法能夠準(zhǔn)確地跟蹤目標(biāo).
3) 尺度變化: 如圖5(e)所示,在視頻序列CarScale中,汽車由遠(yuǎn)向近行駛的過程中,汽車的外觀大小不斷變大,WBACF展示了其他算法都更加準(zhǔn)確的跟蹤效果.如圖5(f)所示,在視頻序列Dog1中,玩具狗在攝像頭前不斷晃動(dòng),外觀大小也不斷發(fā)生變化,同樣WBACF給出了更加準(zhǔn)確的跟蹤效果.
4) 光照變化: 如圖5(g) David視頻序列所示,跟蹤目標(biāo)從黑暗的地方走到有燈光的區(qū)域,如303幀、434幀和595幀可以看出發(fā)生不同程度的光照變化,并伴隨著一定的姿態(tài)變化,如圖5(h) Singer1視頻序列所示,光照變化較大,在這種非常具有挑戰(zhàn)性的情況下,WBACF也能取得很好的跟蹤效果.
5) 目標(biāo)遮擋:如圖5(i) FaceOcc1視頻序列中33幀、120幀、237幀、452幀,圖5(j) Walking2視頻序列中189幀和195幀,都發(fā)生不同程度的遮擋,在這種場景下,WBACF并未發(fā)生漂移,并能展示出很好的跟蹤效果.
6) 復(fù)雜背景: 如圖5(k)(l) Woman,Lemming視頻序列所示,跟蹤目標(biāo)在移動(dòng)過程中,背景復(fù)雜而又多變,在圖5(k)第8幀和246幀中,背景顏色分別和跟蹤目標(biāo)的上衣和褲子顏色接近,WBACF能夠?qū)崿F(xiàn)準(zhǔn)確的跟蹤效果,說明WBACF對于背景感知信息具有較強(qiáng)的辨別能力.
3.2.2 定量評價(jià)
本節(jié)使用精度和成功率兩種測評方法對跟蹤算法進(jìn)行性能測評.中心位置誤差(Center Location Error,CLE)是指跟蹤目標(biāo)中心位置與實(shí)際中心位置的平均歐氏距離,通常使用精度圖(Precision Plot)表示.邊界框重合率(Bounding Box Overlap)指跟蹤目標(biāo)的邊界框和實(shí)際物體邊界框的交集,通常用成功率圖(Success Plot)來表示.這兩種性能評估方法被稱作一次性評估(One-Pass Evaluation,OPE).如圖6所示,WBACF在OTB-50數(shù)據(jù)集上的跟蹤結(jié)果,如圖6(a)跟蹤精度圖所示,相比與BACF的跟蹤精度結(jié)果,WBACF框架的跟蹤精度明顯提高,如圖6(b)跟蹤成功率圖所示,與BACF跟蹤成功率相比,WBACF的跟蹤成功效果稍稍有些落后,但是并不影響其整體性能,相比于其他幾個(gè)跟蹤算法,WBACF有很多優(yōu)勢.
圖6 WBACF在OTB-50數(shù)據(jù)集上平均總體性能
圖7 WBACF在OTB-50數(shù)據(jù)集上6個(gè)屬性平均性能
如圖7所示,給出WBACF在OTB-50數(shù)據(jù)集上6個(gè)屬性平均性能,提出的WBACF在OTB-50數(shù)據(jù)集上提高了基準(zhǔn)BACF的跟蹤性能,并在運(yùn)動(dòng)模糊(圖7(a))、快速移動(dòng)(圖7(b))、尺度變化(圖7(c))、光照變化(圖7(d))、目標(biāo)遮擋(圖7(e))、復(fù)雜背景(圖7(f))等6個(gè)屬性情境中,跟蹤效果具有明顯的提高.如圖7(a)圖像模糊跟蹤效果所示,WBACF相比BACF提高了0.109,如圖7(b)快速移動(dòng)跟蹤效果所示,WBACF相比BACF提高了0.069,如圖7(c)尺度變化跟蹤效果所示,WBACF相比BACF提高了0.117,如圖7(d)光照變化跟蹤效果所示,WBACF相比BACF提高了0.062,如圖7(e)目標(biāo)遮擋跟蹤效果所示,WBACF相比BACF提高了0.09,如圖7(f)復(fù)雜背景跟蹤效果所示,WBACF相比BACF提高了0.039.這也證實(shí)加權(quán)背景感知信息,能夠有效地處理背景感知信息.
提出一種基于加權(quán)背景感知框架的相關(guān)濾波視覺跟蹤算法.該算法根據(jù)背景中不同區(qū)域與跟蹤目標(biāo)運(yùn)動(dòng)相似度的大小,賦予背景區(qū)域不同的權(quán)值,計(jì)算權(quán)值矩陣,從而訓(xùn)練出合適的相關(guān)濾波器,可以充分利用背景感知信息,實(shí)現(xiàn)良好的跟蹤效果.通過在基準(zhǔn)測試集OTB-50和OTB-100(部分)上進(jìn)行實(shí)驗(yàn),結(jié)果表明WBACF可以明顯提高相關(guān)濾波器的魯棒性,其跟蹤速度與BACF框架相當(dāng),跟蹤精度和成功率較后者有所提高.對于OTB-50數(shù)據(jù)集中運(yùn)動(dòng)模糊、快速移動(dòng)、尺度變化、光照變化、目標(biāo)遮擋、復(fù)雜背景等幾類場景能實(shí)現(xiàn)較好的跟蹤效果.