張百戩 王嘉豐
(西安電子科技大學(xué)計算機(jī)學(xué)院 西安 710071)
視覺跟蹤技術(shù),是對視頻序列中的運動目標(biāo)逐幀進(jìn)行描述、檢測、特征提取、識別,跟蹤,以此獲得感興趣的運動目標(biāo)(例如車輛、行人等)的運動狀態(tài)(位置、速度、加速度等),以及運動軌跡參數(shù),經(jīng)過分析和處理,實現(xiàn)對運動目標(biāo)的行為理解。
基于區(qū)域檢測的跟蹤算法成為目前視覺跟蹤領(lǐng)域的一個熱點方向。核心是用學(xué)習(xí)所得到的外觀模型對圖像中每一幀的位置和區(qū)域進(jìn)行判別,找出目標(biāo)的可能位置。目標(biāo)模板的選擇對算法性能有著重要的影響。例如,顏色直方圖是目前應(yīng)用廣泛的目標(biāo)模型,這種方法雖然簡單,但丟失了像素的位置信息,使其易受遮擋、光照變化的影響。
Sevilla-lara等首次提出了分布場的概念,引起廣泛關(guān)注。分布場是一類特征描述符的一般化,并不能對目標(biāo)的特征做出完整描述,因此所能達(dá)到的性能有限。
本文中,以分布場目標(biāo)跟蹤算法為研究對象,克服了原始分布場的局部搜索和實時性差的局限,將單一特征與SURF特征相融合來提高分布場跟蹤算法的魯棒性,并加入TLD算法的失敗檢測機(jī)制以提高跟蹤效率,最后通過實驗對融合方法的有效性進(jìn)行驗證。
分布場是一個概率分布數(shù)組。如果特征空間表示圖像的灰度值,那么每個位置字段(像素位置)會有一個概率分布在0~255的值。DF是表示為一個矩陣d(2+N)維度,分別表示圖像的寬度和高度。在分布場內(nèi)DF分解圖像I可以定義為
當(dāng)i和j是索引圖像的行和列的值時,k是像素的可能索引值。因此每一個k值對應(yīng)一個層。在這一點上,分布場表示包含相同的信息作為原始表示。
為了更好地使用分布場進(jìn)行目標(biāo)跟蹤,對分布場進(jìn)行一定的平滑處理可引入一定的不確定性從而減少噪聲的干擾。平滑分布場dfs可以定義為
h(x ,y)表示二維高斯核函數(shù),*為卷積運算。
可以進(jìn)一步把平滑dfss與空間平滑分布場的關(guān)系表達(dá)為
hz表示一維高斯核函數(shù)的特征維度。
比較不同圖像的分布場可以使用任意距離函數(shù)來完成。為了度量兩個分布場的相似性,我們用L1范數(shù)表示兩個數(shù)組d1和d2之間的距離:
兩個分布場的距離越小,相似性越高。
作為一種特征描述符,分布場僅能刻畫目標(biāo)像素值在灰度空間上的分布特性,分布場與SURF特征融合的方法,其中面臨的問題有:分布場的相似性通過L1范數(shù)表達(dá),而其數(shù)值并不具有概率意義,不能作為當(dāng)前結(jié)果的置信值。與其他特征進(jìn)行融合時,不能使用傳統(tǒng)的置信度判決或加權(quán)平均方法。
3.1.1 SURF特征
積分圖像是圖像與高斯二階微分模板的濾波,可以轉(zhuǎn)化為對積分圖像的加減運算。在圖像中任意一點(i,j),從原圖像左上角到點(i,j)相應(yīng)的對角線區(qū)域灰度值的總和,表示這一點(i,j)的積分圖像值ii(i , j) ,即
式中,p(r,c)表示圖像中點 (r,c)的灰度值,ii(i,j)可以用下面兩式迭代計算得到。
因其在精度和計算時間上的良好性能,我們使用基于Hessian的矩陣。在圖像中給定一個點x=(x,y),在點 x的 σ 規(guī)模的Hessian矩陣 H(x,σ)可以定義為
高斯尺度空間分析是最佳的。使用近似二階高斯導(dǎo)數(shù),可以使用積分圖像的快速評價。其性能相當(dāng)于一個使用離散化和剪裁的高斯。
圖1 高斯二階微分簡化表示
首先選用模板的大小為9×9,并把這一模板作為選定的最小值來對σ=1.2的高斯二階微分濾波器進(jìn)行濾波和斑點檢測。我們使用Dxx、Dxy和Dyy表示模板與圖像之間進(jìn)行卷積的結(jié)果??梢院喕玫叫辛惺?。
可以使用以上公式近似得到某一點的響應(yīng)值。在圖像中遍歷所有的像素點,可得到在這一尺度下的響應(yīng)圖像。尺度空間通常被實現(xiàn)為圖像金字塔。將尺度空間進(jìn)行分組劃分。一個組代表逐漸增大的濾波模板,并對圖像進(jìn)行濾波的響應(yīng)計算。在這一過程中,每一組由固定的層組成。層與層之間的變化由響應(yīng)長度k決定相應(yīng)的規(guī)模。在這基礎(chǔ)上將尺寸增量翻倍就可以得到下一組濾波器的尺寸。
圖2 尺度空間
為了保持不變的旋轉(zhuǎn),確定一個可重復(fù)的方向感興趣點。特征矢量生成的第一步是構(gòu)造一個正方形興趣點,并沿著上節(jié)產(chǎn)生的特征點方向。
dx和dy總結(jié)各個區(qū)域,形成整點的第一個的特征向量。為了帶來的強度變化極性信息,可以提取響應(yīng)的絕對值之和。因此,對基本強度V的思維描述表示為
圖3 構(gòu)造surf特征特征點描述算子
3.1.2 系統(tǒng)實現(xiàn)
D=∑(ln-ln')設(shè)i為目標(biāo)中的一個點,它的原始分布場可表示為 Di=(l1,l2,l3,…,ln),與此同時,提取該點的SURF特征,表示為 Si=(k1,k2,k3,…,kn),設(shè)點i包含分布場信息與SURF特征的表示為Hi,那么 f(h)=f(d)+f(s)。設(shè)ln′為待選區(qū)域點i的分布場,則對于點i分布場相似性D=∑(ln-ln'),設(shè)kn′為待選區(qū)域點i的SURF特征向量,那么對于點i的相似度可表示為S=kn-kn′。為了提高匹配的精度,在分布場表示的基礎(chǔ)上,對于目標(biāo)點增加了SURF特征的表示,那么對于點i的相似度我們可以表示為ΔH=ΔD+ΔS,ΔD表示點的灰度引起的差異,ΔS表示點的結(jié)構(gòu)引起的差異,當(dāng)Hi為最小時,認(rèn)為目標(biāo)點與待選區(qū)域重合。
這種將SURF特征融合與分布場的跟蹤算法的實現(xiàn)過程如下:
1)選擇目標(biāo)點并構(gòu)造包含點的信息的函數(shù)Hi=Di+Si,那么基于分布場初始模板可以定義為,含有SURF的初始模板定義為sm1;
2)提取待檢測點的SURF特征 sm′,用E=edge(I)表示目標(biāo)中包含結(jié)構(gòu)信息的點的集合,初始化兩級平滑尺度下的目標(biāo)模型=(df(E)+df(I))*hδs(i)*hδf,i=1,2 ;
3)從第二幀開始對視頻的每一幀,以上一幀目標(biāo)位置為中心,以30像素為搜索半徑確定待選區(qū)域If;
在分布場跟蹤算法中,沒有相應(yīng)的跟蹤失敗檢測機(jī)制,致使跟蹤的效率不是很高,引入TLD算法的失敗檢測機(jī)制,以改進(jìn)分布場跟蹤算法。對于整個視頻序列,可以把它當(dāng)做是一個動態(tài)的隨機(jī)系統(tǒng),而目標(biāo)的位置信息和大小就是系統(tǒng)的狀態(tài),算法過程如下:
第一步初始化邊界框。把目標(biāo)的狀態(tài)用邊界框FB來表示,當(dāng)確定跟蹤目標(biāo)的邊界框后,我們以FBi表示跟蹤目標(biāo)的邊界框,在TBi內(nèi)用網(wǎng)格取樣,均勻的選取N個像素點 x1,x2,x3,…,xn,N的值根據(jù)實際情況進(jìn)行選取,如果初始目標(biāo)框太小,最終計算的置信度會不準(zhǔn)確。
第二步跟蹤失敗檢測。對于已選擇的像素點,利用金字塔LK光流法跟蹤,得到像素點y1,y2,y3,…,yn,再用金字塔LK光流法跟蹤上一幀中的像素點 f1,f2,f3,…,fn,計算像素點的跟蹤前向和后向的誤差FB_error[i]。在模板匹配中,用歸一化相關(guān)系數(shù)匹配法(NNC),計算xi和 yi中像素點的相關(guān)系數(shù)simi。取相關(guān)系數(shù)的中值S1,找出 yi中相關(guān)系數(shù)大于中值系數(shù)的點 y1,y2,y3,…,ym,取向后跟蹤的誤差中值 S2,找FB_error[i]≤ M2的點p1,p2,p3,…,pm,1<m<n 。
第三步預(yù)測跟蹤目標(biāo)位置。當(dāng)跟蹤到的像素點個數(shù)大于1時,說明跟蹤成功。接下來用跟蹤到的像素點 p1,p2,p3,…,pm與上一幀中對應(yīng)的像素點 x1,x2,x3,…,xm,求它們之間像素點的位移,并求出位移中各像素點位移的中值,根據(jù)中值預(yù)測跟蹤目標(biāo)框的位置和大小,得到FBi+1。如果得到的像素點的個數(shù)小于1,那么說明跟蹤不成功,或者預(yù)測到的目標(biāo)框位置超出了圖像范圍,這種情況下,重復(fù)進(jìn)行第一步。
第四步計算當(dāng)前跟蹤目標(biāo)框的置信度。把跟蹤目標(biāo)框FBi+1縮放成15×15像素的圖像塊,計算圖像塊的均值和方差,將其轉(zhuǎn)化為均值0的圖像塊。根據(jù)轉(zhuǎn)變后的圖像塊,計算出跟蹤目標(biāo)框和在線模型的置信度,如果大于某一值,則說明跟蹤有效。
計 算 機(jī) 硬 件 配 置 為 Intel(R)Core(TM)i7-4770 CPU,主頻3.40GHz,內(nèi)存容量為8.00G,操作系統(tǒng)為Windows 8.164位操作系統(tǒng),編程環(huán)境為Matlab2014a。筆者提出基于分布場特征融合重檢測跟蹤算法(Robust Feature Confusion Distribution Field Tracking,REFIT)。
在本文的測試中,使用吳毅等提供的跟蹤評測數(shù)據(jù)集。6個視頻序列分別為David,Car4,Bolt,Dog1,Walking2,Sylvester。測試的算法有CT、TLD、STRUCK、MIL、DFT、OAB(如表1)。用于測試的算法參數(shù)設(shè)置與提供代碼中保持一致。
對于本文中REFIT算法,在試驗中對參數(shù)進(jìn)行如下設(shè)置:分布場的層數(shù)b=16,混合參數(shù)λ=0.95,一維平滑高斯核函數(shù)的寬度分別為[8,16],方差為[4,9],二維平滑的高斯核函數(shù)的寬度為6,方差為0.625。
本文提出算法通過給出的視頻序列進(jìn)行了測試,并與其他比較成熟的跟蹤算法進(jìn)行了性能比較。測試的算法有CT、TLD、STRUCK、MIL、DFT、OAB。這幾種跟蹤算法的簡要介紹如表1所示。
在這項工作中,本文使用中心差和成功率進(jìn)行定量分析。此外,同時也評估了跟蹤算法的魯棒性。
4.1.1 中心差
一種廣泛使用的評價指標(biāo)對跟蹤精度的中心位置誤差,可以表示為跟蹤目標(biāo)的中心位置和手動標(biāo)記的矩形框之間的平均歐氏距離。
上式中x表示跟蹤算法初始人工標(biāo)定的目標(biāo)矩形框的中心點的坐標(biāo),^x表示跟蹤算法得到的目標(biāo)矩形框的中心點坐標(biāo)。中心差從直觀的角度反映了跟蹤算法對目標(biāo)跟蹤的結(jié)果偏移正確結(jié)果的誤差。
4.1.2 成功率
另一個衡量標(biāo)準(zhǔn)是成功率。它是跟蹤結(jié)果中的目標(biāo)矩形框與開始時人工標(biāo)定矩形框的交集的面積與并集面積的比值,可以表示為
公式中r是初始人工標(biāo)定矩形框,^r是算法得到的矩形框。公式中交集與并集的面積可以如圖4所示。圖中使用相同的面積表示了跟蹤前后的矩形框,在跟蹤算法中,可以通過上面的覆蓋率公式計算得出目標(biāo)位置和大小與初始人工標(biāo)定的矩形框的覆蓋率的值,將這一數(shù)值與0.5作比較,判斷是否跟蹤成功,而后計算成功的跟蹤的幀數(shù)占視頻總幀數(shù)的百分比。
跟蹤算法在每一視頻序列中測試的中心誤差如圖4和5所示。7個跟蹤算法在10個視頻測試序列中的平均中心誤差如表2所示,各算法的跟蹤成功率如表3所示。
圖4 不同跟蹤算法的跟蹤結(jié)果
表2 不同跟蹤算法的中心差(單位:像素)
表3 不同跟蹤算法的成功率(單位:百分比)
可以看出,本文提出的基于分布場的特征融合重檢測算法在中心差上,在大部分測試視頻上明顯低于基于分布場的跟蹤算法。在成功率上,也在大部分測試視頻上高于基于分布場的跟蹤算法??傮w來說,從定量分析上來看,本文提出的算法優(yōu)于基于分布場的跟蹤算法。
4.3.1 姿勢和光照變化
對于David室內(nèi)的序列如圖5所示,當(dāng)人走出黑暗的會議室時,由于光照和姿態(tài)的變化而逐漸改變。TLD,CT,DFT和REFIT算法在這個序列上表現(xiàn)良好。TLD方法效果很好,因為它使用了一個探測器,用Haar特征進(jìn)行跟蹤。在Sylvester序列中,對象進(jìn)行大的姿態(tài)和光照變化。TLD,STRUCK,CT,MIL,REFIT和DFT算法對該序列進(jìn)行較低的跟蹤誤差,比其他方法執(zhí)行好。
圖5 不同跟蹤算法的跟蹤結(jié)果中心差
在Car4測試序列中,也包含了光照和尺度的變化。REFIT算法在這一序列上表現(xiàn)良好。OAB和MIL算法在跟蹤執(zhí)行到汽車進(jìn)入到橋的陰影后,因為受到光照變化的影響,跟蹤目標(biāo)丟失。Struck算法雖然可以完成整個跟蹤過程,但僅僅提供了位置信息,無法自適應(yīng)完成目標(biāo)跟蹤。TLD算法可以自適應(yīng)的跟蹤目標(biāo)的大小,但在跟蹤過程中,它的跟蹤尺度不能隨目標(biāo)變化而發(fā)生變化。
4.3.2 遮擋和姿態(tài)變化
在Walking視頻序列中,包含了遮擋、尺度變化和目標(biāo)像素低的特點。MIL和CT算法在跟蹤過程中由于目標(biāo)遮擋而發(fā)生失敗,轉(zhuǎn)而跟蹤另外的目標(biāo),原始跟蹤目標(biāo)丟失。在目標(biāo)遮擋后,TLD算法也停止了對目標(biāo)的繼續(xù)跟蹤。OAB和Struck算法基本不受遮擋的影響。DFT和REFIT算法在目標(biāo)被遮擋的情況下,效果也不是很好。
4.3.3 旋轉(zhuǎn)和快速運動
在Dog1視頻序列中,目標(biāo)發(fā)生了劇烈運動和比較大的尺度變化。用于測試的算法都能完成對目標(biāo)的跟蹤,但是這些算法都不能給出目標(biāo)的大小信息。從中心差的角度來看,這幾種跟蹤算法表現(xiàn)差距不大。但在成功率上,本文提出的算法有很大的優(yōu)勢。在Bolt視頻序列中,同樣包含高速運動的目標(biāo),但是尺度和光照始終變化不大。各種算法的跟蹤效果明顯有著很大的差異。大部分跟蹤算法跟蹤丟失,跟蹤成功率很低。由于目標(biāo)的快速運動,視頻開始時,跟蹤算法就已丟失目標(biāo),可見大部分跟蹤算法在處理快速運動的目標(biāo)時還有局限。
用論文提出的基于分布場特征融合重檢測算法(REFIT)與CT、TLD、STRUCK、MIL、DFT、OAB算法在10個視頻序列上進(jìn)行測試,這10個視頻序列包括:David,Car4,Bolt,Dog1,Walking2,Sylvester。這7種跟蹤算法利用這些視頻序列測試的跟蹤結(jié)果如圖4和5所示。
跟蹤算法在每一視頻序列中測試的中心誤差如圖4和圖5所示。7個跟蹤算法在10個視頻測試序列中的平均中心誤差如表2所示,各算法的跟蹤成功率如表3所示。
本文從兩個方面提出了對于基于分布場目標(biāo)跟蹤算法的改進(jìn),分別是特征融合和重檢測,從實驗的結(jié)果來看,這些改進(jìn)對于跟蹤效果在某些方面有了明顯的提高,本文引入了TLD算法的失敗檢測機(jī)制。在這一這過程中使用了LK光流法來實現(xiàn)。但是光流法必須滿足三個約束條件,相對來說,這些條件對于某些視頻序列要求比較嚴(yán)格,因此容易發(fā)生跟蹤失誤。例如對于目標(biāo)過大的運動目標(biāo)和運動速度過快的目標(biāo)都不適用此算法。為了更好解決這一不足,在今后的研究中,可以考慮引入金字塔光流法。
[1]Cannons K.A Review of Visual Tracking[J].Dept.comput.sci.eng,2008.
[2]Kalal Z,Matas J,Mikolajczyk K.P-N learning:Bootstrap?ping binary classifiers by structural constraints[J].2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition,2010,238(6):49-56.
[3]Lin R S,Yang M H,Levinson S E.Object tracking using
[4]Ji H.Real time robust L1 tracker using accelerated proxi?mal gradient approach[C]//IEEE Conference on Comput?er Vision and Pattern Recognition.IEEE Computer Soci?ety,2012:1830-1837.
[5]C.Bao,Y.Wu,H.Ling,and H.Ji,“Real time robust l1 tracker using accelerated proximal gr-adient approach,”in Proceedings of IEEE Conference on Computer Vision and Pattern Recognition,pp.1830-1837,2012.
[6]Viola P,Jones M.Rapid Object Detection using a Boosted Cascade of Simple Features[J].Proc Cvpr,2001,1:511.
[7]Wu Y,Lim J,Yang M H.Online Object Tracking:A Benchmark[J].2013,9(4):2411-2418.
[8]Hare S,Saffari A,Torr P H S.Struck:Structured output tracking with kernels[C]//International Conference on Computer Vision.IEEE Trans Pattern Anal Mach Intell,2011:263-270.
[9]Paragios N,Deriche R.Geodesic active contours and level sets for the detection and tracking of moving objects[J].IEEE Transactions on Pattern Analysis&Machine Intelli?gence,2000,22(3):266-280.
[10]Comaniciu D,Ramesh V,Meer P.Real-time tracking of non-rigid objects using mean shift[C]//Computer Vi?sion and Pattern Recognition,2000.Proceedings.IEEE Conference on.IEEE,2000:2142.
[11]Nguyen H T,Worring M,Rein V D B.Occlusion robust adaptive template tracking[J].Proc.of International Conf.on Computer Vision,2003,1:678-683.
[12]Matthews L,Ishikawa T,Baker S.The template update problem[J].IEEE Transactions on Pattern Analysis&Machine Intelligence,2004,26(6):810-815.
[13]Jepson A D,F(xiàn)leet D J,Elmaraghi T F.Robust Online Appearance Models for Visual Tracking[C]//Computer Vision and Pattern Recognition,2001.CVPR 2001.Pro?ceedings of the 2001 IEEE Computer Society Conference on.IEEE,2001:1296-1311.