王 玲,王家沛,王 鵬,孫爽滋
長(zhǎng)春理工大學(xué) 計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,長(zhǎng)春130022
近年來(lái),目標(biāo)跟蹤逐漸成為計(jì)算機(jī)視覺領(lǐng)域的熱點(diǎn)課題,它被廣泛地應(yīng)用在視頻監(jiān)控、自動(dòng)駕駛、人機(jī)交互和醫(yī)學(xué)診療等眾多領(lǐng)域。目前,目標(biāo)跟蹤面臨諸多挑戰(zhàn),比如跟蹤目標(biāo)的尺度變化、跟蹤漂移以及背景雜亂等。因此,設(shè)計(jì)一個(gè)準(zhǔn)確率和穩(wěn)健性較高的算法成為目標(biāo)跟蹤研究的重點(diǎn)。
主流的跟蹤算法分為相關(guān)濾波類算法和深度學(xué)習(xí)類算法。在相關(guān)濾波算法中,KCF(Kernelized Correlation Filter)[1]使用循環(huán)矩陣擴(kuò)大樣本容量,提高分類器的準(zhǔn)確性。成悅等[2]提出使用加權(quán)方法融合多種特征,增強(qiáng)算法的魯棒性。在深度學(xué)習(xí)算法中,Bertinetto等[3]提出基于相似度匹配的目標(biāo)跟蹤算法SiamFC(Fully-Convolutional Siamese Networks)。SiamFC 使用離線訓(xùn)練的網(wǎng)絡(luò)模型,通過(guò)比較輸入圖像和模板圖像的相似度大小來(lái)得到跟蹤結(jié)果。以SiamFC為基礎(chǔ),Representation Learning for Correlation Filter(CFNet)[4]將相關(guān)濾波器作為一個(gè)網(wǎng)絡(luò)層嵌入到孿生網(wǎng)絡(luò)中,加強(qiáng)對(duì)深度特征的學(xué)習(xí)。在SiamFC中,模板圖像由簡(jiǎn)單裁剪得到,背景也被當(dāng)作正樣本來(lái)和檢測(cè)圖像匹配。這可能會(huì)導(dǎo)致:(1)當(dāng)模板圖像中背景與前景外觀較為相似的時(shí)候,背景可能獲得更大的相似度評(píng)分從而導(dǎo)致跟蹤漂移。(2)在目標(biāo)運(yùn)動(dòng)過(guò)程中背景發(fā)生多次變化時(shí),算法可能會(huì)跟蹤到與模板中背景相似的目標(biāo)上。此外,SiamFC 使用最深層的卷積特征,缺乏對(duì)目標(biāo)底層顏色及紋理信息的學(xué)習(xí)。
最近,注意力思想被融合到目標(biāo)跟蹤中,用來(lái)提高算法的準(zhǔn)確率。其中,CSR-DCF(Discriminative Correlation Filter with Channel and Spatial Reliability)[5]使用空間置信圖和似然概率判斷檢測(cè)區(qū)域中的正樣本圖像,降低背景系數(shù)的權(quán)重。LSART(Learning Spatial-Aware Regressions)[6]將空域正則化卷積核加入到神經(jīng)網(wǎng)絡(luò)中,使網(wǎng)絡(luò)聚焦于特定區(qū)域。ACFN(Attentional Correlation Filter Network)[7]使用長(zhǎng)短期神經(jīng)網(wǎng)絡(luò),選取最優(yōu)濾波器來(lái)適應(yīng)目標(biāo)的外觀變化。在以上算法中,注意力機(jī)制作為單獨(dú)學(xué)習(xí)的部分,需要較大的計(jì)算量,因而跟蹤速度都比較慢。
針對(duì)以上問(wèn)題,本文提出一種融合注意力機(jī)制的孿生網(wǎng)絡(luò)目標(biāo)跟蹤算法。具體貢獻(xiàn)如下:(1)在孿生網(wǎng)絡(luò)的模板分支中融合空間注意力和通道注意力,抑制背景信息,增強(qiáng)卷積網(wǎng)絡(luò)對(duì)正樣本的辨別力;(2)使用離線訓(xùn)練并融合注意力機(jī)制的VggNet-19(Very Deep Convolutionnal Networks)[8]網(wǎng)絡(luò)提取目標(biāo)的深層特征和淺層特征,進(jìn)行自適應(yīng)融合,增強(qiáng)算法魯棒性;(3)注意力機(jī)制通過(guò)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)得到,不需要單獨(dú)訓(xùn)練,并且可以主動(dòng)適應(yīng)不同的圖像。
算法的整體框架如圖1 所示。搭建兩支共享權(quán)值的卷積神經(jīng)網(wǎng)絡(luò),組成孿生網(wǎng)絡(luò)。使用VggNet-19網(wǎng)絡(luò)提取圖像的深層特征和淺層特征。深層特征提取Conv5_1,淺層特征提取Conv1_2。在孿生網(wǎng)絡(luò)的模板分支,融合通道注意力與空間注意力機(jī)制(Channel And Spatial Attention,CASA)。模板分支與搜索分支中的深層與淺層特征分別進(jìn)行自適應(yīng)融合,并通過(guò)互相關(guān)進(jìn)行相似度匹配。
本文使用的全卷積孿生網(wǎng)絡(luò)由兩支共享權(quán)重的卷積神經(jīng)網(wǎng)絡(luò)組成,使用離線訓(xùn)練的VggNet-19網(wǎng)絡(luò)提取目標(biāo)的特征,去掉網(wǎng)絡(luò)中計(jì)算量較大的全連接層,使用相似度函數(shù)來(lái)計(jì)算結(jié)果,公式如下:
其中,Z代表模板圖像,X代表搜索圖像,X的面積大于Z,包括了更多的空間上下文信息。ψ表示卷積函數(shù),*表示互相關(guān),b1 是偏置項(xiàng),b1 ∈?,? 是實(shí)數(shù)域。首先對(duì)Z和X進(jìn)行卷積操作,然后通過(guò)密集滑動(dòng)窗口的移動(dòng),使ψ(X)和ψ(Z)做互相關(guān),每一次互相關(guān)都會(huì)得到一個(gè)相似度得分,并映射到標(biāo)量得分圖D中,互相關(guān)值最大的位置即為目標(biāo)。訓(xùn)練時(shí),使用logistic 損失函數(shù)計(jì)算真實(shí)值與預(yù)測(cè)值之間的誤差:
其中,s表示模板圖像在搜索圖像上進(jìn)行一次互相關(guān)操作時(shí)得到的相似度得分,y∈{-1,+1} 代表目標(biāo)的正負(fù)樣本值標(biāo)簽。對(duì)于Z和X在匹配中產(chǎn)生的所有誤差,使用下面的損失函數(shù)進(jìn)行計(jì)算:
其中,s[i]表示第i個(gè)滑動(dòng)窗口映射在D中的得分,y[i]表示第i個(gè)滑動(dòng)窗口的真實(shí)值。最后使用隨機(jī)梯度下降法SGD(Stochasic Gradient Descent)進(jìn)行多次迭代,得出卷積神經(jīng)網(wǎng)絡(luò)的最優(yōu)參數(shù)θ:
本文算法的注意力機(jī)制包括通道注意力和空間注意力。對(duì)于通道注意力,先對(duì)圖像壓縮然后激勵(lì),由網(wǎng)絡(luò)學(xué)習(xí)各通道的重要程度,進(jìn)而對(duì)各個(gè)通道的特征進(jìn)行重新標(biāo)定,增強(qiáng)模板圖像中的前景特征同時(shí)抑制背景特征。對(duì)于空間注意力,使用兩次不同的池化來(lái)加強(qiáng)局部特征。算法首先融合通道注意力,然后融合空間注意力。注意力機(jī)制的整體流程如圖2所示。
設(shè)輸入圖像為Z,經(jīng)過(guò)一次卷積變換后的得到圖像為M。Z∈?W×H×C,M∈?W'×H'×C'。變換過(guò)程如公式(5)所示:其中,為二維的空間卷積核,?代表卷積操作。mc即為M在單通道下的圖像。對(duì)于長(zhǎng)為W,寬為H,通道數(shù)為C的圖像M,為獲得它全局信息,使用公式(6)進(jìn)行平均池化。具體來(lái)說(shuō),就是通過(guò)圖像的二維空間維數(shù)W×H對(duì)M進(jìn)行壓縮從而生成一個(gè)像素統(tǒng)計(jì)點(diǎn)p,p∈?C:
圖1 算法框架圖
圖2 注意力機(jī)制流程圖
之后,對(duì)p進(jìn)行激勵(lì)來(lái)獲取各通道間相關(guān)性。激勵(lì)操作如公式(7)所示:
式中,σ1中代表激活函數(shù)Relu,σ2代表激活函數(shù)Sigmoid,。最后,經(jīng)過(guò)重新標(biāo)定后輸出圖像:
其中,Z'=[z1',z2',…,zc']是重新標(biāo)定特征后的多通道圖像。G表示卷積后的圖像mc和標(biāo)量sc的乘積函數(shù),Mc'表示重新標(biāo)定通道權(quán)重后圖像的卷積特征圖。
空間注意力通過(guò)學(xué)習(xí)空間信息獲得模板圖像中的正樣本區(qū)域。在上文得到的圖像Z'中,使用一個(gè)7×7的卷積核,對(duì)圖像進(jìn)行全局平均池化(AvgP)和最大池化(MaxP)以增加局部特征信息。Fs(Z')是最終生成的特征圖。如公式(10)所示:
本文使用的深層特征由VggNet-19網(wǎng)絡(luò)提取,相比AlexNet[9]網(wǎng)絡(luò)提取的深層特征,層次更深,對(duì)目標(biāo)的語(yǔ)義和屬性具有更好的表征能力。但是完全使用深層特征會(huì)導(dǎo)致對(duì)淺層紋理特征和位置特征的學(xué)習(xí)不足,無(wú)法分辨屬性相同但是表觀差異較大的目標(biāo)。為了兼顧算法的準(zhǔn)確率與實(shí)時(shí)性,本文提取深層特征conv5_1和淺層特征conv1_2。
在孿生網(wǎng)絡(luò)的模板分支,對(duì)提取到的分層特征,采用雙線性插值的方法擴(kuò)大高層分辨率較小的特征圖,最終使深層和淺層的特征圖具有相同的尺寸,實(shí)現(xiàn)融合。雙線性插值的計(jì)算公式如下所示:
其中,pj表示原特征圖,pi'表示插值后的特征圖,wij為插值系數(shù)。
表1展示了孿生神經(jīng)網(wǎng)絡(luò)的模板分支中加入CASA機(jī)制后的網(wǎng)絡(luò)結(jié)構(gòu)和各層對(duì)應(yīng)的參數(shù)。
本文算法使用Python 語(yǔ)言在TensorFlow 框架下進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)環(huán)境如表2所示。
表1 網(wǎng)絡(luò)結(jié)構(gòu)和各層對(duì)應(yīng)的參數(shù)
表2 實(shí)驗(yàn)環(huán)境
訓(xùn)練時(shí),深度學(xué)習(xí)的衰減率為10-2~10-5,訓(xùn)練過(guò)程分為50個(gè)階段,每個(gè)階段訓(xùn)練5 000對(duì)樣本,進(jìn)行8次迭代。為應(yīng)對(duì)目標(biāo)的尺度變化,匹配時(shí)對(duì)模板圖像進(jìn)行三個(gè)尺度的縮放,縮放的比例為1.025{-1,0,1}。
本文使用ILSVRC 2015-VID[10]數(shù)據(jù)集作為訓(xùn)練集,它包含了30多種目標(biāo)和4 000多個(gè)視頻片段,并且標(biāo)注的幀數(shù)超過(guò)100萬(wàn)個(gè)。使用OTB2015[11]和VOT2018[12]數(shù)據(jù)集作為驗(yàn)證集。OTB2015有100個(gè)視頻序列,VOT2018數(shù)據(jù)集則包括了具有多種挑戰(zhàn)的60個(gè)視頻序列。
2.3.1 OTB評(píng)價(jià)標(biāo)準(zhǔn)
OTB 數(shù)據(jù)集評(píng)測(cè)工具使用準(zhǔn)確率(Precision plot)和成功率(Success plot)對(duì)算法進(jìn)行評(píng)估。其中,準(zhǔn)確率的評(píng)判標(biāo)準(zhǔn)是中心位置誤差ρ小于閾值T1的幀數(shù)在所有跟蹤幀數(shù)中所占的比例,如公式(12)所示:
實(shí)驗(yàn)中,將T1設(shè)定為20 個(gè)像素點(diǎn)。中心位置誤差ρ的計(jì)算方法如下所示:
其中,x1、y1表示真實(shí)的位置坐標(biāo),x2、y2表示預(yù)測(cè)的位置坐標(biāo)。
成功率為算法預(yù)測(cè)的跟蹤區(qū)域和目標(biāo)真實(shí)區(qū)域的交并比IoU(Intersection-over-Union)大于閾值T2的幀數(shù)占所有跟蹤幀數(shù)的比例。計(jì)算如公式(14)所示:
實(shí)驗(yàn)中,設(shè)置T2為0.5。IoU的計(jì)算公式如下所示:
其中,area(A)表示預(yù)測(cè)的跟蹤區(qū)域,area(G)表示目標(biāo)真實(shí)區(qū)域。
鋼渣作為混凝土骨料利用可以提高混凝土強(qiáng)度和耐久性,用鋼渣配制C30混凝土,結(jié)果表明混凝土的抗壓和抗折強(qiáng)度均明顯提高[33],也有研究表明標(biāo)準(zhǔn)養(yǎng)護(hù)下鋼渣對(duì)混凝土抗壓強(qiáng)度影響小,而高溫養(yǎng)護(hù)下可提高混凝土抗壓強(qiáng)度[34]。對(duì)碎石混凝土和全鋼渣集料混凝土的抗氯離子滲透性能研究表明全鋼渣混凝土具有更好的耐久性,但鋼渣粗骨料混凝土的體積穩(wěn)定性不良是一個(gè)顯著的劣勢(shì)。
2.3.2 VOT評(píng)價(jià)標(biāo)準(zhǔn)
VOT數(shù)據(jù)集使用Accuracy和EAO(Expected Average Overlap)對(duì)跟蹤算法進(jìn)行評(píng)測(cè)。其中,精確率(Accuracy)是指跟蹤器在單個(gè)跟蹤序列下,跟蹤框和目標(biāo)真實(shí)區(qū)域的平均交并比。在VOT 評(píng)測(cè)中,當(dāng)重疊率為0 時(shí),認(rèn)為跟蹤失敗,會(huì)對(duì)目標(biāo)進(jìn)行重新跟蹤。EAO 是將跟蹤成功的視頻拆分出來(lái),計(jì)算幾個(gè)短期序列上重疊曲線值的平均值。
2.4.1 定量分析
為證明注意力機(jī)制和分層特征融合的有效性,本文首先使用OTB2015 數(shù)據(jù)集進(jìn)行了3 組對(duì)比實(shí)驗(yàn)。分別是使用最深層特征的onlyDeep、使用分層特征融合的ML-Deep 和使用融合注意力機(jī)制后的最終算法proposed,結(jié)果如圖3 所示??梢钥闯鯩L-Deep 比onlyDeep高了0.048,而proposed比ML-Deep高了0.012,是最優(yōu)。
圖3 多特征對(duì)比結(jié)果
此外,本文算法與使用淺層特征的相關(guān)濾波算法KCF、BACF(Background-Aware Correlation Filters)[13]和ECO-HC[14]、融合深度特征的相關(guān)濾波算法Deep-SRDCF[15]以及使用孿生神經(jīng)網(wǎng)絡(luò)的算法SiamFC 和CFNet 在OTB2015 中進(jìn)行了對(duì)比實(shí)驗(yàn)。各算法的特性如表3所示。
表3 算法特性
從圖4 可以看出,本文算法的準(zhǔn)確率達(dá)到了0.850,和目前比較好的DeepSRDCF算法的結(jié)果基本相同。成功率為0.816,比DeepSRDCF算法提高了0.044。
圖4 OTB2015數(shù)據(jù)集中的實(shí)驗(yàn)結(jié)果
2.4.2 定性分析
表4 各視頻序列的場(chǎng)景屬性
(1)尺度變化
序列car4 中,汽車在行駛過(guò)程中,尺度逐漸變小。沒有針對(duì)尺度進(jìn)行優(yōu)化的KCF無(wú)法適應(yīng)目標(biāo)的不同尺度,而包括本文算法在內(nèi)的其他跟蹤模型可以較好地適應(yīng)汽車的尺度變化。
圖5 各跟蹤算法在OTB2015數(shù)據(jù)集上的定性結(jié)果
(2)運(yùn)動(dòng)模糊與背景雜亂
序列matrix 中,目標(biāo)與背景顏色相似,且分辨率較低。目標(biāo)的運(yùn)動(dòng)軌跡變化較大且在運(yùn)動(dòng)過(guò)程中逐漸模糊。KCF算法幾乎無(wú)法跟蹤目標(biāo),DeepSRDCF和SiamFC漂移到了目標(biāo)的局部,只有融合了注意力機(jī)制的本文算法能夠很好地跟蹤到原始目標(biāo)。
(3)平面旋轉(zhuǎn)
序列motorRolling 中摩托車在運(yùn)動(dòng)中出現(xiàn)多次旋轉(zhuǎn)。本文算法融合高層屬性特征,能夠很好應(yīng)對(duì)目標(biāo)旋轉(zhuǎn)。在第76幀時(shí),SiamFC、CFNet和本文算法可以跟蹤到目標(biāo)。而145幀時(shí)只有本文算法能夠跟蹤到目標(biāo)。
(4)光照影響
以序列singer2為例,視頻中燈光顏色多變,畫面由淺變深。在12 幀時(shí),所有算法都很好地跟蹤到了目標(biāo)。之后,隨著目標(biāo)的移動(dòng),大部分的算法開始漂移到與目標(biāo)相似的背景中。在第268幀時(shí),只有本文算法能夠準(zhǔn)確地跟蹤到物體。
本文算法還在VOT2018數(shù)據(jù)集中與包括融合注意力思想的算法在內(nèi)的多種目標(biāo)跟蹤算法進(jìn)行了對(duì)比。實(shí)驗(yàn)結(jié)果如表5所示。
和SiamFC相比,本文算法的精確率提高了0.022 6,EAO提高了0.064 7。由于使用了層次較深的VggNet-19網(wǎng)絡(luò)提取目標(biāo)特征,并融合注意力機(jī)制,速度略有下降,但是與表中其他算法相比,本文算法具有較高的綜合性能。
表5 在VOT2018數(shù)據(jù)集中算法評(píng)價(jià)指標(biāo)比較結(jié)果
本文提出一種融合注意力機(jī)制的目標(biāo)跟蹤算法。在SiamFC 的基礎(chǔ)上,使用VggNet-19 網(wǎng)絡(luò)作為骨干網(wǎng)絡(luò)提取目標(biāo)的深層和淺層特征,并進(jìn)行分層融合,使網(wǎng)絡(luò)能夠同時(shí)學(xué)習(xí)到目標(biāo)底層的紋理特征和高層的屬性特征。在孿生網(wǎng)絡(luò)的模板分支融入空間注意力和通道注意力機(jī)制,提高網(wǎng)絡(luò)對(duì)模板圖像中正樣本的辨別力。跟蹤過(guò)程中,為保證跟蹤速度和避免跟蹤漂移,目標(biāo)模板不再更新。實(shí)驗(yàn)證明,相比SiamFC算法,本文算法具有更高的精確度和更強(qiáng)的魯棒性。但是,由于模板不更新,算法不能學(xué)習(xí)目標(biāo)在運(yùn)動(dòng)中產(chǎn)生的形變,對(duì)于形變程度較大的目標(biāo)不能很好地跟蹤;同時(shí),算法的實(shí)時(shí)性也略低于SiamFC算法。未來(lái)的研究方向是在孿生網(wǎng)絡(luò)中設(shè)計(jì)穩(wěn)健的模板更新機(jī)制,并優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),提高跟蹤速度。