白 揚(yáng),曹麗娟,胡媛媛,楊 云,2+
(1.云南大學(xué) 國(guó)家示范性軟件學(xué)院,云南 昆明 650504;2.云南大學(xué) 昆明市數(shù)據(jù)科學(xué)與智能計(jì)算重點(diǎn)實(shí)驗(yàn)室,云南 昆明 650504)
目前,主流的目標(biāo)跟蹤算法有兩大框架:基于相關(guān)濾波的跟蹤算法,在速度上有絕對(duì)的優(yōu)勢(shì),但往往選用一些單一的、低層的手工特征,不能夠應(yīng)對(duì)復(fù)雜場(chǎng)景的任務(wù),魯棒性很差;而基于卷積神經(jīng)網(wǎng)絡(luò)的跟蹤算法,雖然有很高的精度和魯棒性,但是龐大的網(wǎng)絡(luò)限制了速度的實(shí)時(shí)性。另外,采用無(wú)差別地更新模版,一旦出現(xiàn)光照變化、形變、遮擋、出視野等等影響因素,將學(xué)習(xí)到大量的背景信息。
這些算法多數(shù)屬于是短期跟蹤(short-term tracking),主要是在跟蹤目標(biāo)的精度上下文章,在丟失目標(biāo)之后很難夠重新找回,魯棒性較差,這其實(shí)并不能夠很好地應(yīng)用在現(xiàn)實(shí)場(chǎng)景中。要做到能夠良好應(yīng)用到現(xiàn)實(shí)場(chǎng)景中,還是要把切入點(diǎn)放在長(zhǎng)期跟蹤(long-term tracking)上,提升算法魯棒性和速度。因此提出一種特征補(bǔ)償?shù)哪P?,?guī)避兩種框架的缺陷,充分發(fā)揮各自的優(yōu)勢(shì),盡可能地向?qū)嶋H應(yīng)用靠攏。通過實(shí)例驗(yàn)證其有效性,并同一些先進(jìn)的算法進(jìn)行對(duì)比。
單目標(biāo)跟蹤,是在視頻的第一幀中對(duì)跟蹤目標(biāo)的位置和尺寸用矩形框進(jìn)行人工標(biāo)注,然后在視頻的后續(xù)幀中,同樣用矩形框緊跟住這個(gè)人工標(biāo)注的物體。與之相似目標(biāo)檢測(cè),是在靜態(tài)圖像或者動(dòng)態(tài)視頻中整幀范圍內(nèi)進(jìn)行掃描和搜尋目標(biāo),概括得講,目標(biāo)檢測(cè)關(guān)注的是定位和分類。而目標(biāo)跟蹤,關(guān)注的是如何實(shí)時(shí)地鎖定某人或物體,它并不在意自己跟蹤的是什么。目標(biāo)跟蹤的一個(gè)核心的問題是,在一個(gè)不斷改變的視頻場(chǎng)景(例如:遮擋、出視野、形變、光照變化、尺度變化、背景相似等)中,如何精確又高效地檢測(cè)并且定位到目標(biāo)[1]。跟蹤算法主要分為生成式方法和判別式方法兩大類別。生成式方法運(yùn)用生成模型描述目標(biāo)的表觀特征,之后通過搜索候選目標(biāo)來(lái)最小化重構(gòu)誤差,找到和模型最匹配的區(qū)域。生成式方法中最核心的問題是目標(biāo)的表征方法,比較有代表性的算法有稀疏表征(sparse representation),密度估計(jì)(density estimation)和增量子空間學(xué)習(xí)(incremental subspace learning)等。生成式方法著眼于對(duì)目標(biāo)本身的刻畫,忽略背景信息,早期的研究工作,通過經(jīng)典的數(shù)學(xué)模型難以準(zhǔn)確的把握目標(biāo)的動(dòng)態(tài)表征信息,因此,在目標(biāo)自身變化劇烈或者被遮擋時(shí)容易產(chǎn)生漂移。相反,判別式方法的目的是建立一個(gè)能夠從背景中辨別出目標(biāo)的分類器模型。這一類型的算法通常是基于多示例學(xué)習(xí)(multiple instance)、P-N learning、online boosting、結(jié)構(gòu)化輸出支持向量機(jī)(structured output SVM)、集成學(xué)習(xí)[2-5]等。判別式方法的分類器模型學(xué)習(xí)過程中用到了背景信息,這樣分類器能專注區(qū)分前景和背景,因此,判別式方法的跟蹤算法普遍優(yōu)于生成式方法,也逐漸成為這一領(lǐng)域的主流。
信號(hào)處理中,有一個(gè)概念——相關(guān)性,用來(lái)描述兩個(gè)因素之間的聯(lián)系。Bolme等將相關(guān)濾波應(yīng)用在跟蹤領(lǐng)域,提出了一種最小輸出平方和誤差(MOSSE)的快速相關(guān)濾波跟蹤算法。作者將時(shí)域的相關(guān)操作進(jìn)行傅里葉變換后,轉(zhuǎn)換為頻域的乘積操作,大大地提升了計(jì)算速度。由于相關(guān)濾波在目標(biāo)跟蹤領(lǐng)域的計(jì)算效率和良好的表現(xiàn),近年來(lái),備受關(guān)注,出現(xiàn)了大量基于相關(guān)濾波的跟蹤算法。Hen-riques 等出了CSK算法,采用了循環(huán)移位的方法進(jìn)行密集采樣,并利用核函數(shù)將低維線性不可分的模型映射到高維空間,以此來(lái)提高相關(guān)濾波器的性能。KCF[6]在原作CSK的基礎(chǔ)上進(jìn)行了改進(jìn),將原始單通道灰度特征替換擴(kuò)展為多通道的方向梯度直方圖(histogram of oriented gra-dients,HOG)特征,依靠快速傅立葉變換和fHOG,在擴(kuò)展特征通道的同時(shí),速度上依然存在優(yōu)勢(shì)。CN[7]則是用多通道顏色特征Color Name去擴(kuò)張CSK,將RGB的3通道圖像映射為11個(gè)顏色通道。SAMF[8]將HOG特征和CN特征結(jié)合,并加入尺度縮放。DSST[9]則是將目標(biāo)的平移和尺度縮放,看作兩個(gè)獨(dú)立的任務(wù),分別建立平移相關(guān)濾波器和尺度相關(guān)濾波器。雖然這些算法都有較快的速度,并且一部分特定的視頻場(chǎng)景中有較好的表現(xiàn),但是單一的、低級(jí)的特征,在應(yīng)對(duì)一些復(fù)雜的視頻場(chǎng)景時(shí),仍然存在較大的缺陷。
深度學(xué)習(xí)之所以能夠在Imagenet[10]大放異彩,是因?yàn)橛泻A康臄?shù)據(jù)供網(wǎng)絡(luò)學(xué)習(xí)。但是在跟蹤問題里,訓(xùn)練數(shù)據(jù)缺失,僅僅將第一幀的圖像作為訓(xùn)練的樣本是遠(yuǎn)遠(yuǎn)不夠的?,F(xiàn)有的很多訓(xùn)練好的網(wǎng)絡(luò)主要針對(duì)的任務(wù)是目標(biāo)檢測(cè)、分類、分割等,網(wǎng)絡(luò)結(jié)構(gòu)一般都很大,因?yàn)樗鼈円殖龊芏囝悇e的目標(biāo)。而在跟蹤問題中,一個(gè)網(wǎng)絡(luò)只需要分兩類:目標(biāo)和背景,并不需要這么大的網(wǎng)絡(luò),這樣只會(huì)增加計(jì)算負(fù)擔(dān),影響實(shí)時(shí)性。端到端網(wǎng)絡(luò)結(jié)構(gòu)的跟蹤算法MDNet[11],利用視頻跟蹤的數(shù)據(jù)對(duì)分類模型VGG-M network[12]網(wǎng)絡(luò)結(jié)構(gòu)的權(quán)重進(jìn)行微調(diào)(fine-tuning)。它們?cè)谒酶櫮繕?biāo)中,雖然類別不同,但是其之間存在著共性,是能夠通過網(wǎng)絡(luò)學(xué)習(xí)到的。從策略上擴(kuò)充了網(wǎng)絡(luò)的訓(xùn)練數(shù)據(jù)。另一類基于孿生網(wǎng)絡(luò)結(jié)構(gòu)(siamese network)的跟蹤算法[13-17],只需要卷積層分別提取出模版幀和當(dāng)前幀的高層語(yǔ)義特征,再進(jìn)行相關(guān)操作。雖然孿生網(wǎng)絡(luò)的跟蹤算法,在精度和魯棒性方面都具有出色的表現(xiàn),但是龐大的網(wǎng)絡(luò)結(jié)構(gòu),依然限制了速度的發(fā)揮空間。
針對(duì)上述問題,提出了一種特征補(bǔ)償?shù)母櫵惴?。該算法引入一個(gè)簡(jiǎn)單的邏輯回歸分類器,作為切換特征的標(biāo)志。將顏色直方圖、方向梯度直方圖兩種特征結(jié)合的相關(guān)濾波跟蹤器應(yīng)用在簡(jiǎn)單的視頻場(chǎng)景中,以保證較高的速度。一旦分類器判斷前者不再可靠,便切換擁有高層卷積語(yǔ)義特征的孿生網(wǎng)絡(luò)結(jié)構(gòu)的跟蹤器,以保證跟蹤精度和魯棒性。并根據(jù)分類器的得分,有選擇的對(duì)相關(guān)濾波的跟蹤器的模版進(jìn)行更新,減少累計(jì)誤差的影響,避免模版被污染造成目標(biāo)的丟失,進(jìn)一步提高模型的魯棒性。
由于本算法考慮的是應(yīng)用更廣泛的單目標(biāo)跟蹤任務(wù)的情景,也就是需要在目標(biāo)跟蹤任務(wù)開始之前,用人工標(biāo)注的方式以矩形框選出所要跟蹤的目標(biāo),并裁剪出候選區(qū)域帶有背景信息的目標(biāo)子圖像,然后模型才會(huì)根據(jù)所選目標(biāo)及其背景所具備的特性,進(jìn)行區(qū)分,完成后續(xù)跟蹤任務(wù)。因此,在這樣情景下,無(wú)論是基于何種特征,模型都會(huì)通過視頻第一幀選出的目標(biāo)框內(nèi)的圖像,按照模型各自的策略生成一個(gè)初始的特征模版用以匹配后續(xù)幀圖像的候選區(qū)域,從而預(yù)測(cè)出目標(biāo)的位置和大小。
圖1 前景掩膜與背景掩膜
ρ(A)=N(A)/|A|
(1)
(2)
(3)
圖2 后驗(yàn)像素直方圖與響應(yīng)
在線跟蹤的過程中,視頻中的場(chǎng)景隨時(shí)都在發(fā)生或微妙或劇烈的變化,對(duì)于顏色直方圖特征而言,光照變化、運(yùn)動(dòng)模糊等干擾因素的影響尤其嚴(yán)重。因此為了較好的適應(yīng)視頻場(chǎng)景中存在的這些變化,在每次完成一幀的跟蹤任務(wù)的同時(shí),需要對(duì)直方圖模版的權(quán)重βt進(jìn)行更新,也就是對(duì)前景和背景的像素比例ρ更新
ρt(O)=(1-ηhist)ρt-1(O)+ηhistρ′t(O)
ρt(B)=(1-ηhist)ρt-1(B)+ηhistρ′t(B)
(4)
其中,ρ′t表示當(dāng)前幀,通過式(1)計(jì)算得到的像素比例;ρt-1表示前一幀的像素比例;ηhist是一個(gè)值固定的學(xué)習(xí)權(quán)重。從式(4)不難看出,學(xué)習(xí)權(quán)重越大,越能學(xué)習(xí)到更多當(dāng)前幀的信息,適應(yīng)顏色表征變化劇烈的場(chǎng)景。但是,權(quán)重越大模版也越容易學(xué)習(xí)到背景信息,加快誤差的累積,通過分析直方圖特征在光照變化(如圖3上半部分所示)、背景顏色相似(如圖3下半部分所示)這兩類場(chǎng)景中的表現(xiàn)可以看出,僅僅對(duì)直方圖特征的模版更新,已經(jīng)遠(yuǎn)不能滿足此類場(chǎng)景跟蹤任務(wù)的需求。
圖3 光照變化與背景顏色相似下的響應(yīng)
(5)
圖4 方向梯度直方圖與響應(yīng)
(6)
在頻域中用*表示共軛,⊙表示元素乘法。
fhog(x;h)=∑u∈Th[u]Tφx[u]
(7)
視頻中場(chǎng)景存在各種各樣的變化,方向梯度直方圖同樣也會(huì)因?yàn)槟繕?biāo)發(fā)生變化,而造成干擾,尤其物體形變?cè)斐傻挠绊戄^大。顯然,由起始幀構(gòu)建一個(gè)固定的模版,來(lái)完成有所幀的跟蹤任務(wù)并不是一種有效的方式。因此,為了能適應(yīng)這種變化,提高模型的魯棒性,需要在完成每一幀跟蹤任務(wù)的同時(shí),對(duì)模版進(jìn)行更新
(8)
圖5 目標(biāo)形變的響應(yīng)
顏色直方圖特征在場(chǎng)景中存在光照變化、畫面模糊等干擾因素的時(shí)候,對(duì)模型的影響較大,而方向梯度直方圖特征在目標(biāo)有形變、快速運(yùn)動(dòng)等干擾因素的時(shí)候,對(duì)模型的影響較大。所以將兩種特征融合,可以在一定程度上減少這些因素的干擾,提高跟蹤模型精度和魯棒性,使其在跟蹤任務(wù)中,能夠預(yù)測(cè)出目標(biāo)更為準(zhǔn)確的位置和大小,且并不容易丟失目標(biāo)。這里用一個(gè)線性函數(shù)融合兩種特征的響應(yīng)
f(x)=γhistfhist(x)+γhogfhog(x)
(9)
其中,γhist和γhog是兩個(gè)固定的權(quán)重,fhist和fhog分別從式(7)、式(3)中計(jì)算得到。最后融合得到響應(yīng)的f(x),其最大值所對(duì)應(yīng)的點(diǎn)的坐標(biāo)即為目標(biāo)的中心坐標(biāo)。
雖然將兩種特征進(jìn)行融合之后,能夠在大部分場(chǎng)景中表現(xiàn)出良好的效果,但是,由于累計(jì)誤差的存在,隨著跟蹤任務(wù)的推進(jìn),容易漂移,丟失目標(biāo)。另外,對(duì)于一部分如背景相似、遮擋、出視野等較為復(fù)雜的視頻場(chǎng)景,仍然有較大的性能提升的空間。因此,可以加入其它更魯棒、效果更好的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的跟蹤器來(lái)提高模型的性能??紤]到神經(jīng)網(wǎng)絡(luò)運(yùn)行速度較慢,目前一般的硬件設(shè)備不能滿足實(shí)時(shí)性的要求,一種有效權(quán)衡的方法就是在前兩種特征融合的模型不能很好完成當(dāng)前幀的跟蹤任務(wù)時(shí),切換神經(jīng)網(wǎng)絡(luò)的跟蹤器,才能最大限度發(fā)揮模型的性能。然而,應(yīng)對(duì)這樣的需求最關(guān)鍵,也是最難的點(diǎn)就是讓特征融合模型知道什么時(shí)候需要切換神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的跟蹤器。通過分析f、fhist、fhog這3個(gè)響應(yīng)值在不同場(chǎng)景下的變化情況可以得出結(jié)論,在目標(biāo)發(fā)生較大形變或者有遮擋等情況下,f、fhog均出現(xiàn)較大波動(dòng),因此可以通過這兩個(gè)值訓(xùn)練一個(gè)分類器作為切換跟蹤器的標(biāo)識(shí)。
為了保證在引入分類器同時(shí)不會(huì)對(duì)核心算法的速度造成太大影響,選用一個(gè)簡(jiǎn)單快速的邏輯回歸分類器
(10)
2.4.1 數(shù)據(jù)預(yù)處理
在這里,為了完成式(10)分類器的訓(xùn)練工作,選擇OBT2015[1]目標(biāo)跟蹤數(shù)據(jù)集和ILSVRC(large scale visual recognition challenge)目標(biāo)檢測(cè)數(shù)據(jù)集的部分視頻序列作為生成訓(xùn)練數(shù)據(jù)的原始樣本。將這批視頻序列經(jīng)過特征融合的模型,輸出供分類器訓(xùn)練測(cè)試的數(shù)據(jù)集并保存。這是一個(gè)二分類任務(wù),令數(shù)據(jù)集的輸入X=[max(fhog),max(f)], 類標(biāo)y為0或1的整數(shù),0表示模型的跟蹤框已經(jīng)偏離了目標(biāo),1表示沒有偏離目標(biāo)。但是僅僅這樣得到的數(shù)據(jù)集,存在不平衡、標(biāo)注不準(zhǔn)確的問題。
數(shù)據(jù)不平衡:模型中存在模版在線更新的機(jī)制,雖然能這對(duì)算法的魯棒性有一定的提升,但也是累計(jì)誤差的根源,一旦發(fā)生漂移,將很難再次找回目標(biāo),這也就會(huì)在生成數(shù)據(jù)集的過程中,產(chǎn)生大量的負(fù)樣本(偏離目標(biāo))。這些負(fù)樣本不但影響了數(shù)據(jù)的平衡性,甚至有一部分學(xué)習(xí)了大量背景信息的噪點(diǎn)。這樣的數(shù)據(jù)訓(xùn)練得到的分類器,分類精度將大大降低。使用兩種方式生成數(shù)據(jù)以減小影響:
(1)視頻序列均有人工標(biāo)注信息(ground truth),在生成數(shù)據(jù)的時(shí)候,借此控制模版更新的條件。當(dāng)預(yù)測(cè)目標(biāo)偏移真實(shí)目標(biāo)的時(shí)候,停止更新模版,避免學(xué)習(xí)到背景信息,降低誤差,減少噪點(diǎn)。
(2)不做預(yù)測(cè),每一幀都完全使用ground truth,生成的樣本全為正樣本(未偏離目標(biāo))。
標(biāo)注不準(zhǔn)確:物體遮擋、出視野這兩種場(chǎng)景比較特殊,即便是預(yù)測(cè)結(jié)果和ground truth偏差不大,但是,模型同樣會(huì)學(xué)習(xí)到背景信息,響應(yīng)值同樣會(huì)出現(xiàn)很大的波動(dòng)。因此,在這樣的情況下,對(duì)此二類場(chǎng)景,不管目標(biāo)偏離與否,類標(biāo)y都應(yīng)重新標(biāo)注為0,以此提升數(shù)據(jù)的可靠性。
2.4.2 神經(jīng)網(wǎng)絡(luò)跟蹤器
這里選擇的神經(jīng)網(wǎng)絡(luò)跟蹤器是DaSiamRPN[19],它結(jié)合了目標(biāo)檢測(cè)的思想和結(jié)構(gòu)區(qū)域建議網(wǎng)絡(luò)[20](region proposal networks,RPN)。傳統(tǒng)孿生網(wǎng)絡(luò)結(jié)構(gòu)的跟蹤算法采用寬高等比例尺度縮放,這種方式在寬高比例發(fā)生劇烈變化時(shí),精度會(huì)大大下降,并且對(duì)于有在線更新策略的模型,將學(xué)習(xí)到更多的背景信息,加快誤差累積。而RPN網(wǎng)絡(luò)能更加準(zhǔn)確地?cái)M合目標(biāo)形變之后的尺寸,提高了跟蹤的精度和魯棒性,同時(shí)沒有了多尺度檢測(cè),速度有顯著提升。
前面提到過,在線跟蹤的階段需要用式(4)、式(8)分別對(duì)顏色直方圖模版和方向梯度直方圖模版進(jìn)行更新,來(lái)適應(yīng)視頻中場(chǎng)景的變化。同樣地,在切換DaSiamRPN跟蹤器完成當(dāng)前幀的跟蹤任務(wù)之后,仍然需要用這兩個(gè)公式進(jìn)行更新操作。但是因?yàn)镈aSiamRPN也存在跟蹤失敗的情況,所以只在當(dāng)前幀預(yù)測(cè)出的目標(biāo)置信度較高才對(duì)模版更新,避免學(xué)習(xí)到錯(cuò)誤的信息。至此,才進(jìn)行下一幀的跟蹤任務(wù),直至完成所有視頻幀。至于DaSiamRPN的模版,因?yàn)榻?jīng)過其卷積層得到的特征已經(jīng)足夠優(yōu)秀,如果在這一部分仍沿用在線更新模版的策略,不僅大大降低算法的速度,甚至可能因?yàn)榍懊嫣卣魅诤系哪P皖A(yù)測(cè)得到一個(gè)錯(cuò)誤的結(jié)果,使得DaSiamRPN的模版受到污染,降低整個(gè)算法的魯棒性。
至此,介紹完所有模型分支,就可以構(gòu)建如圖6所示的算法結(jié)構(gòu)。起始幀分別建立顏色直方圖、方向梯度直方圖、DaSiamRPN跟蹤器三者的模版,跟蹤的預(yù)測(cè)階段,分別提取顏色直方圖特征和方向梯度直方圖特征與其對(duì)應(yīng)的模版進(jìn)行匹配,得到兩個(gè)響應(yīng)圖,進(jìn)行加權(quán)求和后得到融合的響應(yīng)圖。分類器判斷響應(yīng)值是否可靠,如果可靠,則預(yù)測(cè)得到目標(biāo),并選擇高置信度響應(yīng)值對(duì)應(yīng)的幀,將顏色直方圖和方向梯度直方圖的模版更新;如果不可靠,切換DaSiamRPN跟蹤器,預(yù)測(cè)得到目標(biāo),同樣選擇高置信度響應(yīng)值對(duì)應(yīng)的幀,將顏色直方圖和方向梯度直方圖的模版更新。期間,DaSiamRPN的模版不做任何更新操作。
為了評(píng)估本算法的性能,選擇VOT(visual object tracking)競(jìng)賽的評(píng)價(jià)方法、數(shù)據(jù)集、評(píng)價(jià)系統(tǒng)進(jìn)行本次實(shí)驗(yàn),所有結(jié)果均由官方提供的工具包得到,以保證公平的比較。其中包括VOT2016[21]、VOT2017[22]兩個(gè)數(shù)據(jù)集,每個(gè)數(shù)據(jù)集都包含60個(gè)視頻序列,涉及了遮擋、光照變化、目標(biāo)移動(dòng)、尺度變化、相機(jī)移動(dòng)、出視野等屬性,在一個(gè)視頻序列中可能出現(xiàn)多種上述屬性,這樣可以對(duì)模型進(jìn)行更精準(zhǔn)的評(píng)價(jià)。算法用Python實(shí)現(xiàn)并使用了PyTorch庫(kù),運(yùn)行在Intel Core i7-6700,8G RAM,NVIDIA GeForce GT 730的主機(jī)上,基準(zhǔn)數(shù)據(jù)集速度可以達(dá)到30FPS。
圖6 算法的結(jié)構(gòu)
VOT中有兩套評(píng)價(jià)標(biāo)準(zhǔn),Baseline和Unsupervised。下面分別就這兩個(gè)標(biāo)準(zhǔn)的實(shí)驗(yàn)結(jié)果進(jìn)行分析:
(1)Baseline
VOT官方考慮到大部分跟蹤算法不能完全預(yù)測(cè)出視頻序列中所有幀的目標(biāo),甚至在一開始便丟失目標(biāo),導(dǎo)致最終評(píng)價(jià)系統(tǒng)只利用了序列中很少的一部分,造成浪費(fèi)。因此,為了能精確的對(duì)算法測(cè)評(píng),盡可能利用所有視頻序列,加入了重置機(jī)制。當(dāng)檢測(cè)到敗時(shí)(預(yù)測(cè)目標(biāo)和ground truth的重疊率為0),系統(tǒng)將會(huì)在5幀后對(duì)算法重新初始化。算法的性能指標(biāo)分別用正確率(accuracy,A)、魯棒性(robustness,R)和平均重疊率(expected average overlap,EAO)來(lái)衡量。
使用最新版本的VOT toolkit來(lái)評(píng)估算法性能,并由官方提供的基準(zhǔn)數(shù)據(jù)中,選擇7個(gè)表現(xiàn)比較突出的跟蹤算法和該算法(FCtracker)進(jìn)行比較,得到表1中,各個(gè)算法在VOT2016、VOT2017兩個(gè)數(shù)據(jù)集對(duì)應(yīng)的正確率、魯棒性、平均重疊率等指標(biāo)的分?jǐn)?shù)。
表1 基準(zhǔn)數(shù)據(jù)集上的性能
主流的排名體系中,多以平均重疊率的分值作為算法的最終排名。如圖7所示,可以清晰地看出各個(gè)算法的性能排名(越靠近右上角,性能越好)。在VOT2016中,該算法以0.3288的平均重疊率排名第二,位于ECO之后。正確率排在第一位,為0.5688,相比第二的ECO算法提升了6.6%;魯棒性排在第二位,為18.5103,雖然低于ECO,但是仍比第三的Staple的提升了22%。而VOT2017中,以0.2624的平均重疊率排在第三。正確率依舊第一,為0.5317,相比平均重疊率第一的DeepCSRDCF算法提升了將近10%;魯棒性同樣遠(yuǎn)高于排名靠后的算法。從表中可以看出,雖然該算法,在兩個(gè)數(shù)據(jù)集中的排名稍有落后,但是在評(píng)分前三的3個(gè)算法中速度最快,是ECO算法的10倍,是DeepCSRDCF算法的8倍。
圖7 VOT2016和VOT2017的平均重疊率排名
(2)Unsupervised
這種評(píng)價(jià)標(biāo)準(zhǔn)雖然不是主流,但是因?yàn)闆]有重置機(jī)制,所以能夠更加客觀更加真實(shí)地反映現(xiàn)實(shí)場(chǎng)景中跟蹤情況。它的性能指標(biāo)只有曲線下面積(area under curve,AUC)一項(xiàng),見表2。
以上可以看出,該算法在VOT2016基準(zhǔn)數(shù)據(jù)中以0.4944的AUC評(píng)分位列第一,比排在第二的ECO算法提升了4.1%;VOT2017中,同樣以0.4187的AUC的評(píng)分排在第一,比ECO提升了5.1%。且在排名前三的算法中,速度最快。可以通過圖8的曲線直觀地看出,不同重疊率的閾值下,正確率的變化情況。
表2 無(wú)監(jiān)督的性能比較
圖8 不同閾值下無(wú)監(jiān)督重疊率曲線
分類器的數(shù)據(jù)集中存在不平衡,正樣本少的問題,手工調(diào)整,明顯不是最佳的處理方式。針對(duì)不平衡數(shù)據(jù)的半監(jiān)督學(xué)習(xí)算法[23-25],在復(fù)雜數(shù)據(jù)集中可獲得較好的學(xué)習(xí)效果,在未來(lái)的工作中,可以考慮采用此類高級(jí)機(jī)器學(xué)習(xí)算法來(lái)輔助和完善模型的訓(xùn)練。
提出了一種基于特征補(bǔ)償?shù)哪P?,詳?xì)介紹了設(shè)計(jì)思路和模型的構(gòu)建過程。簡(jiǎn)單的場(chǎng)景使用簡(jiǎn)單快速的特征,復(fù)雜場(chǎng)景使用魯棒的特征,以此,來(lái)權(quán)衡相關(guān)濾波結(jié)構(gòu)的跟蹤算法長(zhǎng)時(shí)間跟蹤容易丟失目標(biāo),神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的跟蹤算法速度慢耗費(fèi)資源的問題,向?qū)嶋H應(yīng)用靠攏。在基準(zhǔn)數(shù)據(jù)上有突出的表現(xiàn),尤其是貼近現(xiàn)實(shí)場(chǎng)景的無(wú)監(jiān)督這種評(píng)測(cè)標(biāo)準(zhǔn)。但是,仍存在一些簡(jiǎn)單的情景誤判,使用復(fù)雜的特征,且速度還有很大的提升空間。