柳恩涵,張 銳,趙 碩,王 茹
(1.哈爾濱理工大學(xué) 自動(dòng)化學(xué)院,哈爾濱 150080; 2.哈爾濱工程大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,哈爾濱 150001)
紅外視頻與普通彩色視頻相比易受周圍環(huán)境的影響,目標(biāo)的外觀常有較大的變化幅度,主要表現(xiàn)為輪廓變化和灰度分布變化,導(dǎo)致跟蹤困難[1-3].目前,紅外行人跟蹤廣泛應(yīng)用的是三維中值濾波、圖像差分法、卡爾曼濾波、粒子濾波和mean-shift等方法[4].這些方法往往只能針對圖像的某些特征對目標(biāo)進(jìn)行識別,由于特征種類的限制,跟蹤的效果往往僅在幾種屬性上有較強(qiáng)效果但不夠全面.
深度學(xué)習(xí)方法具有強(qiáng)大的特征建模能力,近年它在完成目標(biāo)跟蹤任務(wù)的準(zhǔn)確度上表現(xiàn)出了突出優(yōu)勢.目前主要有兩類方法.第一類是將卷積特征與相關(guān)濾波器結(jié)合.例如,Danelljan等提出了C-COT[5]算法,通過在連續(xù)的分辨率序列中學(xué)習(xí), 創(chuàng)建時(shí)域連續(xù)的的相關(guān)濾波器, 可以將不同分辨率的特征圖作為濾波器的輸入, 使得傳統(tǒng)特征和深度特征能夠深度結(jié)合.在下一年Danelljan等又提出了C-COT的改進(jìn)算法ECO[6],通過構(gòu)造一組更小的濾波器, 有效地利用矩陣分解操作, 降低了模型的大小,防止過高的維度導(dǎo)致的效率低下和過擬合問題.這一類方法的缺點(diǎn)是跟蹤速度較慢,在跟蹤數(shù)據(jù)集上訓(xùn)練易造成過擬合.第二類是使用孿生網(wǎng)絡(luò)的方法.例如,文獻(xiàn)[7]提出了SINT算法,SINT可以說是第一個(gè)將孿生網(wǎng)絡(luò)應(yīng)用到跟蹤領(lǐng)域的通過相似學(xué)習(xí)解決跟蹤問題.Bertinetto等又通過改進(jìn)SINT算法提出了一種新的、經(jīng)過端到端訓(xùn)練的、全卷積的孿生網(wǎng)絡(luò)的跟蹤算法SiamFC[8],它也是通過使用相似度學(xué)習(xí)的方法來解決追蹤任意目標(biāo)的問題.SiamRPN[9]是由Li等提出的基于SiamFC改進(jìn)來的算法,引入了Faster RCNN[10]中的RPN模塊,讓網(wǎng)絡(luò)可以回歸位置、形狀,省掉多尺度測試,提高算法性能.第二類方法極大地增強(qiáng)了跟蹤速度,使待搜索圖像大小不受限制,并且避免了在跟蹤數(shù)據(jù)集上訓(xùn)練造成的過擬合.但此類方法的跟蹤模版始終為上一幀的被跟蹤目標(biāo),對被跟蹤幀的目標(biāo)特征沒有預(yù)判,在處理目標(biāo)形狀快速變化的跟蹤任務(wù)時(shí)仍有欠缺.
本文設(shè)計(jì)了VPSiamRPN目標(biāo)跟蹤網(wǎng)絡(luò).將SiamRPN網(wǎng)絡(luò)應(yīng)用到紅外目標(biāo)跟蹤任務(wù)中,根據(jù)紅外成像的特點(diǎn),將視頻預(yù)測加入到網(wǎng)絡(luò)中,增強(qiáng)網(wǎng)絡(luò)對目標(biāo)快速形變的適應(yīng)能力,采用Pred Net[11]網(wǎng)絡(luò)對當(dāng)前幀目標(biāo)外觀進(jìn)行預(yù)測,用預(yù)測出的目標(biāo)作為模版在被檢測幀中進(jìn)行搜索,完成目標(biāo)跟蹤任務(wù).
SiamRPN將跟蹤問題抽象成單樣本檢測問題.SiamRPN結(jié)合了跟蹤中的孿生網(wǎng)絡(luò)和檢測中的區(qū)域推薦網(wǎng)絡(luò):孿生網(wǎng)絡(luò)實(shí)現(xiàn)對跟蹤目標(biāo)的適應(yīng),讓算法可以利用被跟蹤目標(biāo)的信息,完成檢測器的初始化;區(qū)域推薦網(wǎng)絡(luò)讓算法可以對目標(biāo)位置進(jìn)行更精準(zhǔn)地預(yù)測.經(jīng)過兩者的結(jié)合,SiamRPN可以進(jìn)行端到端的訓(xùn)練.SiamRPN結(jié)構(gòu)如圖1所示.
圖1 SiamRPN網(wǎng)絡(luò)結(jié)構(gòu)[9]
孿生神經(jīng)網(wǎng)絡(luò)可計(jì)算兩個(gè)輸入的相似度,同時(shí)將跟蹤模版圖像和被檢測幀圖像由上下兩個(gè)支路輸入,兩個(gè)支路由一個(gè)卷積網(wǎng)絡(luò)實(shí)現(xiàn),它們共享權(quán)值,此網(wǎng)絡(luò)必須為全卷積網(wǎng)絡(luò),以滿足平移不變性,該網(wǎng)絡(luò)的作用是分別提取模板幀和檢測幀的圖像特征.RPN網(wǎng)絡(luò)由兩部分組成,一是分類分支,用于區(qū)分目標(biāo)和背景,另一個(gè)是回歸分支,它將候選區(qū)域進(jìn)行微調(diào).網(wǎng)絡(luò)的卷積基部分本文采用resnet50[12]結(jié)構(gòu).
網(wǎng)絡(luò)訓(xùn)練采用COCO、YOUTUBEBB、DET、VID數(shù)據(jù)集進(jìn)行訓(xùn)練.
1)損失函數(shù):cross-entropy loss用于分類,smooth L1用于回歸;
2)訓(xùn)練方法:隨機(jī)梯度下降;
3)數(shù)據(jù)增強(qiáng): 包括affine transformation(仿射變換)在內(nèi)的數(shù)據(jù)增強(qiáng);
4)正負(fù)樣本選擇策略:設(shè)置高低兩個(gè)閾值,大于0.6的為正樣本,小于0.3的為負(fù)樣本,一個(gè)pair中有64個(gè)樣本,其中正樣本最多16個(gè).
2)Al:輸入卷積層,對于第一層,為目標(biāo)圖像;對于更高層,為前一層預(yù)測誤差E的卷積+Relu.
3)Rl:卷積LSTM層.
圖2 PredNet網(wǎng)絡(luò)結(jié)構(gòu)[10]
本文設(shè)計(jì)了一種基于視頻預(yù)測的紅外行人跟蹤網(wǎng)絡(luò)(Video Prediction with Siamese Region Proposal Network,VPSiamRPN),將用于視頻預(yù)測的PredNet網(wǎng)絡(luò)添加到SiamRPN網(wǎng)絡(luò)的模版和與模版圖像所對應(yīng)的卷積網(wǎng)絡(luò)之間.PredNet采用四層網(wǎng)絡(luò),通過5幀目標(biāo)圖像預(yù)測下一幀目標(biāo)外觀,為使被預(yù)測包含部分視頻之初的目標(biāo)特征,設(shè)計(jì)一個(gè)可以存儲5幀圖像的序列X,前3幀固定為被跟蹤視頻的第1~3幀圖像中的目標(biāo),后兩幀將跟蹤得到的目標(biāo)圖像做為模版依次存入序列中,序列始終按照時(shí)間順序存儲最新的兩幀目標(biāo)圖像.跟蹤過程最初的前5幀應(yīng)用SiamRPN網(wǎng)絡(luò)進(jìn)行跟蹤,從第6幀開始預(yù)測,將X中的數(shù)據(jù)輸入PredNet網(wǎng)絡(luò),預(yù)測和生成下一幀的目標(biāo),將生成的目標(biāo)圖像作為SiamRPN網(wǎng)絡(luò)的模板,在被檢測幀中,根據(jù)模版搜索目標(biāo)并輸出.由于SiamRPN網(wǎng)絡(luò)在跟蹤時(shí)將上一幀目標(biāo)圖像做為模版,這就造成一旦某一幀的跟蹤發(fā)生偏差,下一幀的模版就會隨之出現(xiàn)偏差.如果偏差過大,下一幀目標(biāo)就會丟失,并再也無法找回目標(biāo).為防止由預(yù)測誤差造成的目標(biāo)丟失,10幀中的后兩幀將第1幀的目標(biāo)做為模版通過SiamRPN網(wǎng)絡(luò)進(jìn)行跟蹤,不經(jīng)過預(yù)測網(wǎng)絡(luò).
由于孿生網(wǎng)絡(luò)計(jì)算相似度要求兩支路所表達(dá)的特征必須源自一種網(wǎng)絡(luò)結(jié)構(gòu),所以PredNet網(wǎng)絡(luò)依據(jù)前幾幀的目標(biāo)信息預(yù)測出待測目標(biāo)信息,并以輸出的目標(biāo)圖像為媒介,將網(wǎng)絡(luò)所預(yù)測的特征信息轉(zhuǎn)換為resnet50網(wǎng)絡(luò)所表達(dá)的特征信息,將得到的特征輸入RPN網(wǎng)絡(luò)進(jìn)行跟蹤.圖3為本文描述的網(wǎng)絡(luò)和SiamRPN網(wǎng)絡(luò)的跟蹤效果截圖,其中綠色框?yàn)楸桓櫮繕?biāo)的ground truth,紅色框?yàn)镾iamRPN網(wǎng)絡(luò)的跟蹤效果,藍(lán)色框?yàn)楸疚脑O(shè)計(jì)網(wǎng)絡(luò)的跟蹤效果.圖4為VPSiamRPN網(wǎng)絡(luò)的結(jié)構(gòu).
非預(yù)測的網(wǎng)絡(luò)跟蹤過程為:將被檢測幀重塑為255×255×3并輸入卷積網(wǎng)絡(luò)作為被檢測幀.由于Prednet網(wǎng)絡(luò)只能輸出長寬為偶數(shù)的圖像,所以首先將第1幀目標(biāo)圖像重塑為128×128×3,將重塑后的圖像存放在序列X中,再將圖像重塑為127×127×3作為模版幀輸入卷積網(wǎng)絡(luò),將得到的兩組特征輸入RPN網(wǎng)絡(luò)完成跟蹤.根據(jù)目標(biāo)位置信息對被檢測幀進(jìn)行裁剪,將裁剪后得到的目標(biāo)圖像重塑為128×128×3存入序列X中替換掉第1幀并將序列X按圖像存入的順序重新排序.
預(yù)測的網(wǎng)絡(luò)跟蹤過程為:PredNet網(wǎng)絡(luò)通過存儲在序列X中的8幀圖像預(yù)測出當(dāng)前幀的目標(biāo)圖像,輸出的圖像經(jīng)重塑后大小為127×127×3作為模版幀.模板幀和被檢測幀經(jīng)過相同的卷積結(jié)構(gòu)分別得到6×6×256,22×22×256的特征,模版幀所產(chǎn)生的特征通過3×3的卷積核分別產(chǎn)生了4×4×(2k×256)和4×4×(4k×256)的特征,k值為RPN網(wǎng)絡(luò)所需的矩形框數(shù).通過得到的兩組特征輸入RPN網(wǎng)絡(luò)得到目標(biāo)位置信息.根據(jù)目標(biāo)位置信息對被檢測幀進(jìn)行裁剪,將裁剪后得到的目標(biāo)圖像重塑為128×128×3存入序列X中替換掉第1幀并將序列X按圖像存入的順序重新排序.
圖3 本文描述的網(wǎng)絡(luò)和SiamRPN網(wǎng)絡(luò)的跟蹤效果
圖4 VPSiamRPN網(wǎng)絡(luò)結(jié)構(gòu)
本實(shí)驗(yàn)軟件運(yùn)行環(huán)境為Ubuntu18.04,平臺為Python3.7+PyTorch0.4.1開源機(jī)器學(xué)習(xí)框架,硬件配置為:Intel i7-8700k 3.7 GHz CPU,64 GB RAM, single GPU NVIDIA GTX 2 080 Ti.
本研究設(shè)計(jì)的網(wǎng)絡(luò)采用非端到端的訓(xùn)練方法,將PredNet網(wǎng)絡(luò)和SiamRPN網(wǎng)絡(luò)分開訓(xùn)練,PredNet網(wǎng)絡(luò):從OBT50、OBT100、VOT2013、 VOT2014、VOT2015、VOT2016和VOT2018數(shù)據(jù)集中選取129個(gè)紅外行人視頻,將每個(gè)被標(biāo)注的視頻序列中的每幀圖像依據(jù)標(biāo)注進(jìn)行裁剪得到一個(gè)只有目標(biāo)沒有背景的圖像序列做為預(yù)測網(wǎng)絡(luò)的訓(xùn)練集.SiamRPN網(wǎng)絡(luò):采用經(jīng)商湯開源的SiamRPN網(wǎng)絡(luò)卷積基采用resnet50版本的權(quán)重文件.
通過改變預(yù)測網(wǎng)絡(luò)層數(shù)、預(yù)測過程所需的被選目標(biāo)圖像及圖像幀數(shù)、預(yù)測網(wǎng)絡(luò)參與跟蹤的頻率,設(shè)計(jì)了九組對比試驗(yàn),以找出性能最佳的網(wǎng)絡(luò)結(jié)構(gòu),具體設(shè)置如表1所示.
表1 9種網(wǎng)絡(luò)具體結(jié)構(gòu)
采用PTB-TIR數(shù)據(jù)集[14]對本研究的9種網(wǎng)絡(luò)與SiamRPN網(wǎng)絡(luò)進(jìn)行對比評估,測試網(wǎng)絡(luò)性能.該數(shù)據(jù)集包含60組紅外行人視頻序列,根據(jù)每個(gè)序列所包含的特性組合出了9種屬性(熱交叉、強(qiáng)度變化、遮擋、尺寸變化、背景雜波、低分辨率、快速運(yùn)動(dòng)、運(yùn)動(dòng)模糊和脫離視野)的數(shù)據(jù)集,評估通過OTB數(shù)據(jù)集[15]的評價(jià)標(biāo)準(zhǔn)計(jì)算本研究設(shè)計(jì)的網(wǎng)絡(luò)和SiamRPN網(wǎng)絡(luò)的跟蹤成功率和跟蹤精度,對網(wǎng)絡(luò)性能進(jìn)行評價(jià).
1)整體數(shù)據(jù)集.在整體數(shù)據(jù)集上,45fb網(wǎng)絡(luò)(PredNet中采用4層網(wǎng)絡(luò),通過5幀目標(biāo)圖像預(yù)測當(dāng)前幀目標(biāo),其中前3幀固定為視頻的第1~3幀中的目標(biāo),每8幀的下2幀不預(yù)測)在跟蹤成功率和跟蹤精度上都表現(xiàn)出了較大優(yōu)勢,得分為0.426和0.571,SiamRPN網(wǎng)絡(luò)的得分為0.419和0.557.
2)熱交叉.熱交叉屬性指視頻中具有相似強(qiáng)度的兩個(gè)目標(biāo)相互交叉.在此屬性中45fb網(wǎng)絡(luò)的跟蹤成功率的得分為0.407,跟蹤精度的得分為0.610;SiamRPN網(wǎng)絡(luò)跟蹤成功率的得分為0.398,跟蹤精度的得分為0.581.在這種屬性上相對于SiamRPN網(wǎng)絡(luò)表現(xiàn)出了較明顯的優(yōu)勢.48fb網(wǎng)絡(luò)在此屬性跟蹤成功率略高于SiamRPN網(wǎng)絡(luò),得分為0.403.此項(xiàng)結(jié)果表明本文網(wǎng)絡(luò)對具有熱交叉屬性的紅外視頻在跟蹤性能上有提高.
3)強(qiáng)度變化.強(qiáng)度變化屬性指由于目標(biāo)的溫度變化,目標(biāo)區(qū)域的強(qiáng)度發(fā)生了變化.在此屬性中45fb網(wǎng)絡(luò)的成功率的得分為0.374,SiamRPN網(wǎng)絡(luò)的得分為0.350;45fb網(wǎng)絡(luò)跟蹤精度的得分為0.328,SiamRPN網(wǎng)絡(luò)的得分為0.334.網(wǎng)絡(luò)在此屬性中跟蹤成功率略高于SiamRPN網(wǎng)絡(luò).在此屬性中38fq網(wǎng)絡(luò)在成功率和跟蹤精度上都表現(xiàn)出了較大優(yōu)勢,得分為0.551和0.509.此項(xiàng)結(jié)果表明本文網(wǎng)絡(luò)對具有強(qiáng)度變化屬性的紅外視頻在跟蹤成功率上有所提高.
4)遮擋.遮擋屬性指目標(biāo)被部分或完全遮擋.在此屬性中45fb網(wǎng)絡(luò)在跟蹤成功率和跟蹤精度上都表現(xiàn)出了較大優(yōu)勢,得分為0.380和0.496,SiamRPN網(wǎng)絡(luò)的得分為0.370和0.486.此項(xiàng)結(jié)果表明本文網(wǎng)絡(luò)對具有遮擋屬性的紅外視頻在跟蹤成功率上有所提高.
5)尺寸變化.尺寸變化屬性指第1幀和當(dāng)前幀中,目標(biāo)大小的比率超出范圍[1/2,2].在此屬性中45fb網(wǎng)絡(luò)在跟蹤成功率上高于SiamRPN網(wǎng)絡(luò),45fb網(wǎng)絡(luò)得分為0.408,SiamRPN網(wǎng)絡(luò)的得分為0.404;在跟蹤精度上略低,45fb網(wǎng)絡(luò)得分為0.508,SiamRPN網(wǎng)絡(luò)的得分為0.516.此項(xiàng)結(jié)果表明本文網(wǎng)絡(luò)對具有尺寸變化屬性的紅外視頻在跟蹤成功率上有所提高.
6)背景雜波.背景雜波屬性指目標(biāo)附近的背景具有相似的紋理或強(qiáng)度.在此屬性中45fb網(wǎng)絡(luò)的成功率得分為0.411,48fb網(wǎng)絡(luò)的成功率得分為0.409;45fb網(wǎng)絡(luò)的跟蹤精度得分為0.548,48fb網(wǎng)絡(luò)的跟蹤精度得分為0.551;SiamRPN網(wǎng)絡(luò)的得分分別為0.398和0.534,本文網(wǎng)絡(luò)在成功率和跟蹤精度上對SiamRPN網(wǎng)絡(luò)都表現(xiàn)出了較大優(yōu)勢.結(jié)果表明本文網(wǎng)絡(luò)對具有熱交叉屬性的紅外視頻在跟蹤性能上有提高.
7)低分辨率.低分辨率屬性指目標(biāo)小于600像素.在此屬性中45fb網(wǎng)絡(luò)在跟蹤成功率上的得分比SiamRPN網(wǎng)絡(luò)低0.016,但在跟蹤精度上高0.033.
8)快速運(yùn)動(dòng).快速運(yùn)動(dòng)屬性指目標(biāo)在相鄰幀中的移動(dòng)距離大于20像素.在此屬性中45fb網(wǎng)絡(luò)在跟蹤成功率上的得分比SiamRPN網(wǎng)絡(luò)低了0.014,跟蹤精度上高0.049.
9)運(yùn)動(dòng)模糊.運(yùn)動(dòng)模糊屬性指目標(biāo)區(qū)域由于目標(biāo)或攝像機(jī)運(yùn)動(dòng)而變得模糊.在此屬性中45fb網(wǎng)絡(luò)在跟蹤成功率上和SiamRPN網(wǎng)絡(luò)取得了相同的得分0.456,跟蹤精度上低了0.001;48fb網(wǎng)絡(luò)在跟蹤精度上的得分比SiamRPN網(wǎng)絡(luò)高了0.008.
10)脫離視野.脫離視野屬性指目標(biāo)部分不在圖像區(qū)域內(nèi).在此屬性中45fb網(wǎng)絡(luò)在跟蹤成功率和跟蹤精度上都強(qiáng)于SiamRPN網(wǎng)絡(luò).在此屬性中45fb網(wǎng)絡(luò)的跟蹤成功率的得分為0.456,SiamRPN網(wǎng)絡(luò)的得分為0.453;跟蹤精度的得分為0.497,SiamRPN網(wǎng)絡(luò)的得分為0.466.在兩種屬性上相對于其他網(wǎng)絡(luò)(包括SiamRPN網(wǎng)絡(luò))都表現(xiàn)出了較明顯的優(yōu)勢.此項(xiàng)結(jié)果表明本文網(wǎng)絡(luò)對具有脫離視野屬性的紅外視頻在跟蹤性能上有提高.
表2和表3分別列出了10種網(wǎng)絡(luò)在各個(gè)屬性上的成功率和精度.
表2 10種網(wǎng)絡(luò)在各個(gè)屬性上的跟蹤成功率
表3 10種網(wǎng)絡(luò)在各個(gè)屬性上的跟蹤精度
根據(jù)跟蹤結(jié)果可以看出45fb網(wǎng)絡(luò)在熱交叉、強(qiáng)度變化、遮擋、尺寸變化、背景雜波、脫離視野和總體數(shù)據(jù)集上相對于SiamRPN網(wǎng)絡(luò)在跟蹤成功率上有很大提高;在熱交叉、遮擋、背景雜波、低分辨率、脫離視野和總體數(shù)據(jù)集上相對于SiamRPN網(wǎng)絡(luò)在重疊率上表現(xiàn)出了明顯提升,綜合性能具有突出優(yōu)勢,表明該方法有效、可行,圖5為45fb網(wǎng)絡(luò)和SiamRPN在PTB-TIR數(shù)據(jù)集上的跟蹤成功率和跟蹤精度的對比.此外,38fb網(wǎng)絡(luò)在熱交叉屬性上的成功率和重疊率都表現(xiàn)出了極大優(yōu)勢,表明此網(wǎng)絡(luò)非常適合跟蹤帶有熱交叉屬性的視頻.
圖5 45fb網(wǎng)絡(luò)和SiamRPN在PTB-TIR數(shù)據(jù)集上的跟蹤成功率和跟蹤精度
1)針對紅外行人目標(biāo)的跟蹤問題,提出了使用視頻預(yù)測網(wǎng)絡(luò)對跟蹤模板進(jìn)行更新, 該方法能夠提高跟蹤模板與被跟蹤目標(biāo)的相似度,增強(qiáng)網(wǎng)絡(luò)對紅外行人目標(biāo)外觀輪廓和灰度分布變化所導(dǎo)致跟蹤困難的問題的處理能力,有利于目標(biāo)跟蹤中的模型匹配.
2)通過改變預(yù)測網(wǎng)絡(luò)層數(shù)、預(yù)測過程所需的被選目標(biāo)圖像及圖像幀數(shù)、預(yù)測網(wǎng)絡(luò)參與跟蹤的頻率,設(shè)計(jì)了9組對比試驗(yàn).在PTB-TIR數(shù)據(jù)集上,與SiamRPN網(wǎng)絡(luò)客觀定量對比和評估,實(shí)驗(yàn)結(jié)果表明,45fb網(wǎng)絡(luò)對紅外目標(biāo)的識別在熱交叉、強(qiáng)度變化、遮擋和尺寸變化等多種屬性上的跟蹤成功率和重疊率均較SiamRPN網(wǎng)絡(luò)有較大提高,顯示出對紅外行人跟蹤的良好性能,在這一領(lǐng)域?qū)⒂袕V闊的應(yīng)用前景.