梁浩東
摘要:目前針對端到端可訓(xùn)練計(jì)算機(jī)視覺系統(tǒng)的努力對視覺跟蹤的任務(wù)提出了重大挑戰(zhàn)。為了端到端的訓(xùn)練,因此需要將目標(biāo)模型的在線學(xué)習(xí)嵌入到跟蹤架構(gòu)本身中。由于這些困難,流行的孿生范例只是預(yù)測目標(biāo)特征模板。然而,由于無法整合背景信息,這種模型具有有限的辨別力。我們的架構(gòu)源于判別性學(xué)習(xí)損失,通過設(shè)計(jì)專門的優(yōu)化過程,只需幾次迭代即可預(yù)測強(qiáng)大的模型。
關(guān)鍵詞:判別模型;目標(biāo)跟蹤研究
中圖分類號:TP391.1文獻(xiàn)標(biāo)識碼:A文章編號:1672-9129(2020)14-0018-01
1引言
目前大多數(shù)方法通過構(gòu)建目標(biāo)模型來解決跟蹤問題,能夠區(qū)分目標(biāo)和背景外觀。由于目標(biāo)特定信息僅在測試時(shí)可用,因此無法在離線訓(xùn)練階段學(xué)習(xí)目標(biāo)模型,例如物體檢測。相反,必須通過利用在測試時(shí)給出的目標(biāo)信息在推理階段本身構(gòu)建目標(biāo)模型。在追求端到端學(xué)習(xí)解決方案時(shí),視覺跟蹤問題的這種非常規(guī)性質(zhì)帶來了重大挑戰(zhàn)。
上述問題成功地通過孿生學(xué)習(xí)范式得到解決。這些方法首先學(xué)習(xí)特征嵌入,其中兩個(gè)圖像區(qū)域之間的相似性通過簡單的互相關(guān)來計(jì)算。然后通過找到與目標(biāo)模板最相似的圖像區(qū)域來執(zhí)行跟蹤。在此設(shè)置中,目標(biāo)模型僅對應(yīng)于從目標(biāo)區(qū)域提取的模板特征。因此,可以使用成對的注釋圖像輕松地對端到端訓(xùn)練跟蹤器。本文方法集成了一個(gè)模塊,該模塊可以有效地初始化目標(biāo)模型。此外,通過學(xué)習(xí)判別損失本身,將極大的靈活性引入了最終架構(gòu)。
近年來,隨著各種方法的發(fā)展,通用對象跟蹤經(jīng)歷了驚人的進(jìn)步。最近,基于Siamese網(wǎng)絡(luò)的方法由于其端到端的訓(xùn)練能力和高效率而備受關(guān)注。該名稱源于部署Siamese網(wǎng)絡(luò)架構(gòu)以學(xué)習(xí)相似性度量離線。
2方法
在這項(xiàng)工作中,我們開發(fā)了一種用于視覺跟蹤的判別模型預(yù)測架構(gòu)。與Siamese跟蹤器一樣,我們的方法受益于端到端訓(xùn)練。但是,與Siamese不同,我們的架構(gòu)可以充分利用背景信息,并提供用新數(shù)據(jù)更新目標(biāo)模型的自然而強(qiáng)大的方法。我們的模型預(yù)測網(wǎng)絡(luò)源于兩個(gè)主要原則:(i)能夠?qū)W習(xí)可靠目標(biāo)模型的判別損失函數(shù);(ii)確??焖偈諗康膹?qiáng)大優(yōu)化策略。通過如此精心的設(shè)計(jì),我們的架構(gòu)僅需幾次迭代即可預(yù)測目標(biāo)模型,而不會損害其判別能力。
與最近的最新技術(shù)相似,我們的網(wǎng)絡(luò)由兩個(gè)分支組成:用于將目標(biāo)與背景區(qū)分開的目標(biāo)分類分支,以及用于預(yù)測準(zhǔn)確目標(biāo)框的邊界框估計(jì)分支。兩個(gè)分支都從公共骨干網(wǎng)輸入深層功能。目標(biāo)分類分支包含一個(gè)卷積塊,提取卷積器在其上進(jìn)行操作的特征。給定一組訓(xùn)練樣本和相應(yīng)的目標(biāo)框,模型預(yù)測器將生成目標(biāo)分類器的權(quán)重。然后將這些權(quán)重應(yīng)用于從測試幀中提取的特征,以計(jì)算目標(biāo)置信度得分。對于邊界框估計(jì)分支,我們利用最近引入的基于重疊最大化的體系結(jié)構(gòu)。它預(yù)測目標(biāo)和一組建議框之間的聯(lián)合交叉(IoU)重疊。整個(gè)跟蹤網(wǎng)絡(luò),包括目標(biāo)分類,邊界框估計(jì)和骨干模塊,都在跟蹤數(shù)據(jù)集中進(jìn)行了離線學(xué)習(xí)。
2.1判別性學(xué)習(xí)損失。從基于最小二乘回歸的跟蹤問題中汲取了靈感,該問題的研究工作在最近幾年取得了巨大的成功。但是,在這項(xiàng)工作中,我們概括了應(yīng)用于多個(gè)方向跟蹤的常規(guī)最小二乘損失,使最終的跟蹤網(wǎng)絡(luò)可以從數(shù)據(jù)中學(xué)習(xí)最佳損失。然而,簡單地在概括損失中求差將迫使模型對所有負(fù)樣本回歸校準(zhǔn)的置信度得分,通常為零。這需要大量的模型能力,需要學(xué)習(xí)將重點(diǎn)放在負(fù)面數(shù)據(jù)樣本上,而不是獲得最佳的判別能力。
為了減輕后一種數(shù)據(jù)不平衡的問題,我們使用空間權(quán)重函數(shù)vc。下標(biāo)c表示對目標(biāo)中心位置的依賴性。為了解決第一個(gè)問題,我們按照支持向量機(jī)的原理修改了損失,我們在r中采用了類似鉸鏈的損失,將背景區(qū)域中的分?jǐn)?shù)作為max(0,s)。因此,該模型可以自由地為背景中的簡單樣本預(yù)測較大的負(fù)值,而不會增加損失。另一方面,對于目標(biāo)區(qū)域,發(fā)現(xiàn)添加類似的鉸鏈損耗max(0,1-s)是不利的。盡管是矛盾的,但這種行為可以歸因于目標(biāo)和背景類別之間的基本不對稱,部分原因是數(shù)值上的不平衡。而且,在跟蹤情況下,例如,精確校準(zhǔn)的目標(biāo)置信度確實(shí)是有利的。因此,我們希望在目標(biāo)鄰域中使用標(biāo)準(zhǔn)最小二乘回歸的特性。
2.2初始濾波器。為了進(jìn)一步減少所需的優(yōu)化遞歸次數(shù),引入了一個(gè)經(jīng)過訓(xùn)練以預(yù)測初始模型估計(jì)f(0)的小型網(wǎng)絡(luò)模塊。我們的初始化程序網(wǎng)絡(luò)由一個(gè)卷積層和一個(gè)精確的ROI池組成。后者從目標(biāo)區(qū)域中提取特征并將其合并到與目標(biāo)模型f相同的大小。然后將合并的特征圖對Strain中的所有樣本求平均,以獲得初始模型f(0)。在暹羅方法中,使用圖像對來訓(xùn)練網(wǎng)絡(luò),其中一個(gè)圖像用于預(yù)測目標(biāo)模板,另一個(gè)用于評估跟蹤器。此模型預(yù)測網(wǎng)絡(luò)D從序列中輸入一組包含多個(gè)數(shù)據(jù)樣本的Strain。
2.3在線跟蹤。給定帶有注釋的第一幀,采用數(shù)據(jù)增強(qiáng)策略來構(gòu)建包含15個(gè)樣本的初始集合Strain。然后使用我們的判別模型預(yù)測架構(gòu)f =D(Strain)獲得目標(biāo)模型。對于第一幀,在初始化模塊之后采用10個(gè)最陡峭的下降遞歸。只要有足夠的置信度來預(yù)測目標(biāo),此方法就可以通過向Strain添加新的訓(xùn)練樣本來輕松更新目標(biāo)模型。通過丟棄最初的樣本來確保最大內(nèi)存容量為50。在跟蹤過程中,通過每20幀執(zhí)行兩次優(yōu)化器遞歸,或在檢測到干擾波峰時(shí)執(zhí)行一次遞歸來細(xì)化目標(biāo)模型f。
3實(shí)驗(yàn)驗(yàn)證
在這里,通過一次次地添加判別性學(xué)習(xí)體系結(jié)構(gòu)的關(guān)鍵方面的影響來分析它們的影響。也就是說,類似于當(dāng)前的最新判別方法,我們不會對主干進(jìn)行微調(diào)。本方法沒有學(xué)習(xí)判別損失,而是在優(yōu)化器模塊中采用了回歸誤差。
我們在包含280個(gè)視頻的測試集上評估此方法。
4總結(jié)
本文提出了一種判別跟蹤方法,該方法以端到端的方式脫機(jī)訓(xùn)練。此方法是通過應(yīng)用迭代優(yōu)化程序從判別性學(xué)習(xí)損失中得出的。通過采用基于最速下降的優(yōu)化器和有效的模型初始化器,我們的方法僅需幾個(gè)優(yōu)化步驟就可以預(yù)測強(qiáng)大的判別模型。此外,此方法通過最小化看不見的測試幀上的預(yù)測誤差來學(xué)習(xí)離線訓(xùn)練期間的判別損失。
參考文獻(xiàn):
[1]黃齊.背景變化的多運(yùn)動目標(biāo)實(shí)時(shí)在線跟蹤方法研究[D].電子科技大學(xué),2020.
[2]劉倩,侯建華,牟海軍,趙巍,笪邦友.聯(lián)合生成與判別模型的目標(biāo)檢測與跟蹤[J].中國圖象圖形學(xué)報(bào),2013,18(10):1293-1301.