基于多層特征增強(qiáng)的實時視覺跟蹤

2020-11-30 05:48:06費大勝宋慧慧張開華

計算機(jī)應(yīng)用 2020年11期

費大勝，宋慧慧，張開華

（1.江蘇省大數(shù)據(jù)分析技術(shù)重點實驗室（南京信息工程大學(xué)），南京 210044；2.江蘇省大氣環(huán)境與裝備技術(shù)協(xié)同創(chuàng)新中心（南京信息工程大學(xué)），南京 210044）

（?通信作者songhuihui@nuist.edu.cn）

0 引言

目標(biāo)跟蹤一直是計算機(jī)視覺中的一個熱點問題，在導(dǎo)彈定位、視頻監(jiān)控和無人機(jī)偵察等眾多領(lǐng)域有著豐富的應(yīng)用，但是在跟蹤過程中仍然存在許多挑戰(zhàn)，包括光照變化、角度旋轉(zhuǎn)、比例變化、目標(biāo)變形、遮擋和攝像機(jī)運(yùn)動等因素，這些問題仍然在不斷促進(jìn)著目標(biāo)跟蹤領(lǐng)域的蓬勃發(fā)展。

目標(biāo)跟蹤算法主要分為基于相關(guān)濾波的跟蹤算法和基于孿生網(wǎng)絡(luò)的跟蹤算法兩大類?；谙嚓P(guān)濾波的跟蹤算法通過循環(huán)矩陣將目標(biāo)函數(shù)從頻域內(nèi)轉(zhuǎn)到傅里葉域求解獲得濾波器的閉式解，實現(xiàn)許多高速且簡易的跟蹤器［1-3］。隨著卷積神經(jīng)網(wǎng)絡(luò)的崛起，基于孿生網(wǎng)絡(luò)的目標(biāo)跟蹤算法［4-5］充分發(fā)揮了卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network，CNN）的作用，將跟蹤當(dāng)作一個匹配任務(wù)，把第一幀目標(biāo)當(dāng)作模板匹配其他幀，得到目標(biāo)區(qū)域。基于此任務(wù)，之后工作也對全卷積孿生網(wǎng)絡(luò)（Fully-Convolutional Siamese visual tracking network，SiamFC）［5］不斷改進(jìn)。動態(tài)孿生網(wǎng)絡(luò)（Dynamic Siamese network，DSiam）［6］使用一個動態(tài)模板和一個快速轉(zhuǎn)變模塊更新孿生跟蹤模型。高性能的孿生候選區(qū)域網(wǎng)絡(luò)（Siamese with Region Proposal Network，SiamRPN）［7］將目標(biāo)檢測中的候選特征網(wǎng)絡(luò)Faster RCNN［8］引入到視覺跟蹤任務(wù)中，解決了SiamFC 多尺度測試消耗計算時間和出框方式過于粗糙的問題。干擾感知孿生網(wǎng)絡(luò)（Distractor-aware Siamese network，DaSiam）［9］更進(jìn)一步提出了一種干擾-感知的孿生網(wǎng)絡(luò)用于更精確的長時跟蹤。語義外觀雙分支孿生網(wǎng)絡(luò)（Semantic and Appearance Siamese network，SA-Siam）［10］在原有的兩分支上多加了兩個分支分別為語義分支和外觀分支來增加模型的表征能力。

盡管現(xiàn)在的孿生網(wǎng)絡(luò)跟蹤算法在精度和性能上都取得了較大的突破，但是仍有兩個問題需要解決：首先，DASiam［4］只是簡單地將原始的特征提取網(wǎng)絡(luò)換成了VGG（Visual Geometry Group）［11］網(wǎng)絡(luò)，這在一定程度上抽象了目標(biāo)的表示而忽略了目標(biāo)的外觀紋理特性，當(dāng)遇到具有相似語義信息的背景時，目標(biāo)通常會發(fā)生漂移；其次，大多數(shù)基于孿生網(wǎng)絡(luò)的目標(biāo)跟蹤算法忽略了高層語義特征對于目標(biāo)在視頻序列中定位的長期依賴性，這限制了目標(biāo)在遇到相似語義特征干擾時的長期定位能力。

為解決這兩個問題，本文提出一種多層特征增強(qiáng)的孿生網(wǎng)絡(luò)跟蹤算法。本文在SiamFC 基礎(chǔ)上，通過數(shù)據(jù)增強(qiáng)技術(shù)將淺層特征和高層特征相融合，增強(qiáng)模型魯棒性。為進(jìn)一步增強(qiáng)網(wǎng)絡(luò)模型長時定位能力，提出一種像素感知的全局上下文注意力機(jī)制模塊（Pixel-aware global Contextual Attention Module，PCAM），最后為驗證該算法各模塊的有效性，在三個具有挑戰(zhàn)性的目標(biāo)跟蹤視頻庫中做了大量實驗，與一些經(jīng)典跟蹤算法進(jìn)行比較，得到了很有說服力的結(jié)果。

1 多層特征增強(qiáng)的跟蹤算法

本文提出一種輕量級多層特征增強(qiáng)的跟蹤網(wǎng)絡(luò)（Multilevel Feature Enhanced Siamese network for tracking，MFESiam），如圖1 所示。首先本文發(fā)現(xiàn)非語義背景和相似干擾物失衡是提升網(wǎng)絡(luò)性能的主要障礙，所以本文通過一種數(shù)據(jù)增強(qiáng)策略來增強(qiáng)淺層的特征；此外本文提出一種像素感知的全局上下文注意力機(jī)制模塊來增強(qiáng)高層模板特征的感知定位能力，最后將提取到的模板特征和搜索特征進(jìn)行卷積得到下一幀目標(biāo)位置。

圖1 所提算法原理Fig.1 Principle of the proposed algorithm

1.1 基于全卷積孿生網(wǎng)絡(luò)目標(biāo)跟蹤

近年來目標(biāo)跟蹤孿生網(wǎng)絡(luò)算法都是基于全卷積孿生網(wǎng)絡(luò)跟蹤算法［5］改進(jìn)，它是目標(biāo)跟蹤領(lǐng)域的開創(chuàng)性工作。原始孿生網(wǎng)絡(luò)有兩個輸入分支：模板分支Z 和搜索分支X，其中Z ∈RW×H×3，X ∈RW×H×3，Z和X分別被裁剪成255×255×3和127×127×3 的圖像對輸入網(wǎng)絡(luò)，在搜索圖像的初始幀上采取16 個搜索框隨機(jī)滑動。經(jīng)過一個全卷積無填充的AlexNet［12］提取圖像特征。Z 和X 在共享權(quán)重的AlexNet 中最后輸出分別為22×22×256和6×6×256，最后經(jīng)過卷積的相關(guān)操作得到一個17×17×1的得分圖。得分圖中得分最高的一個點即是下一幀預(yù)測點的中心位置。SiamFC 設(shè)置了三種固定的尺度｛0.974 5，1，1.037 5｝，通過雙線性插值從而得到下一幀預(yù)測的跟蹤框。整個網(wǎng)絡(luò)通過一個離線訓(xùn)練的匹配函數(shù)F（Z，X）獲得最終得分圖的預(yù)測分?jǐn)?shù)，網(wǎng)絡(luò)的預(yù)測函數(shù)公式如下：

其中：Z 和X 分別為模板和搜索分支輸入，φ 為網(wǎng)絡(luò)特征的嵌入函數(shù)，“*”表示相關(guān)運(yùn)算，b為網(wǎng)絡(luò)的偏置項。整個網(wǎng)絡(luò)采用二分類的邏輯損失函數(shù)，具體表達(dá)式（2）如下：

其中：v 表示單個模板-搜索匹配對的真實得分，y ∈{+1，-1}代表這個匹配對的真實標(biāo)簽值，從而計算出一個模板和多個搜索區(qū)域匹配的相似性。

1.2 多層特征增強(qiáng)網(wǎng)絡(luò)框架

本文方法不同于之前的孿生網(wǎng)絡(luò)只有兩支輸入分支：模板分支Z 和搜索分支X，如圖1 所示，MFESiam 增加了兩個輸入分支：噪聲模板分支Znoise和噪聲搜索分支Xnoise。首先，本文的噪聲模板分支和噪聲搜索分支是通過整個訓(xùn)練數(shù)據(jù)集在輸入若干個模板和搜索匹配對時以5%的概率隨機(jī)選取一個匹配對；然后，在這個匹配對中隨機(jī)合成5%的像素值為0 的噪聲點和95%的像素值為255的噪聲點；最后，將經(jīng)過數(shù)據(jù)增強(qiáng)的兩個分支：Znoise和Xnoise分別作為孿生網(wǎng)絡(luò)另外兩個并行的輸入分支，通過第一個卷積層和第一個最大池化層提取特征后分別與原始模板分支和搜索分支相融合，來模擬一些對目標(biāo)跟蹤具有挑戰(zhàn)性的因素。將噪聲模板分支和噪聲搜索分支在第一個最大池化層之后融合是因為在最大池化層之后，特征圖通常會在一定程度上失去一些位置信息，所以在第一個最大池化層之后加入一些合成的椒鹽噪聲來增強(qiáng)算法的魯棒性，并且最大池化層由于對局部形變的不變性，所以它對局部的變化是具有魯棒性的。因此，融合后的淺層特征已經(jīng)被增強(qiáng)，并且當(dāng)目標(biāo)在經(jīng)歷一些復(fù)雜場景挑戰(zhàn)例如快速運(yùn)動、遮擋以及相似物干擾等時不會輕易丟失目標(biāo)。從圖2可視化的2D和3D特征中可以看出，在未采用本文數(shù)據(jù)增強(qiáng)方式下的熱力圖中會出現(xiàn)因相似語義信息干擾而導(dǎo)致跟蹤發(fā)生漂移的情況，而在經(jīng)過了數(shù)據(jù)增強(qiáng)后的融合特征則在一定程度上抑制了因為相似物體干擾而漂移的情況，使得跟蹤器能更為魯棒地對特定目標(biāo)進(jìn)行跟蹤。此外，本文還對無填充的全卷積AlexNet網(wǎng)絡(luò)進(jìn)行了改進(jìn)，具體參數(shù)如表1，將原始的大尺寸卷積換成了多個小尺寸卷積，并且增加網(wǎng)絡(luò)層的維度，這樣加大網(wǎng)絡(luò)的深度和維度來學(xué)習(xí)到更為魯棒的特征表示。

表1 多層特征增強(qiáng)孿生網(wǎng)絡(luò)參數(shù)Tab.1 Multi-level feature enhanced Siamese network parameters

圖2 數(shù)據(jù)增強(qiáng)前后特征可視化圖Fig.2 Visualization of features before and after data enhancement

在淺層特征融合的過程中，本文采用了一種新的正則化方式來訓(xùn)練網(wǎng)絡(luò)，本文在每個訓(xùn)練過程中設(shè)置了5%的比率在模板圖片（Z）上裁剪出一個30×30的隨機(jī)掩碼，掩碼的像素值設(shè)置為0。通過這種方式來隨機(jī)生成一些被遮擋的目標(biāo)從而提升目標(biāo)在運(yùn)動中遭遇遮擋時的魯棒性，不僅讓模型在遇到遮擋的情況下表現(xiàn)得更好，而且使得訓(xùn)練出的模型能更敏感地去考慮環(huán)境的變化。

1.3 像素感知的全局上下文注意力機(jī)制

鑒于本文提出的MFESiam 對于目標(biāo)定位是一個典型的匹配模型，模板圖片Z 的高層語義特征對模型的目標(biāo)外觀就顯得尤為重要。為了進(jìn)一步捕獲目標(biāo)與背景區(qū)域的長時依賴關(guān)系，使得跟蹤器在經(jīng)歷明顯的目標(biāo)位移下還能有優(yōu)異的定位能力，本文設(shè)計一個PCAM 模塊來增強(qiáng)高層語義特征從而加強(qiáng)模板分支的目標(biāo)定位能力。圖3 顯示了PCAM 的結(jié)構(gòu)，A ∈RW×H×C作為輸入的卷積特征圖，H、W 分別代表了特征圖的長和寬，C 代表了通道的維數(shù)，B 作為輸出擁有和A 一樣的結(jié)構(gòu)。

圖3 像素感知的全局上下文注意力機(jī)制Fig.3 Pixel-aware global contextual attention module

PCAM 由一個全局上下文模塊和一個轉(zhuǎn)換模塊組成。本文的全局上下文模塊是由非局部（Non-local）模塊［13］化簡而來，不僅極大地降低了原有的計算復(fù)雜度，而且可以從全局特征圖的時間域和空間域內(nèi)捕獲目標(biāo)可能存在的位置。首先在模板分支最后一個卷積層Conv6 后增加一個全局上下文模塊，將作為整個特征圖的輸入像素。Np為特征圖像素點位置的數(shù)目。整個全局上下文模塊采用一個1×1卷積Wk將H×W×C 的特征維度轉(zhuǎn)換成一個H×W×1 的特征圖，然后在特征圖的每個像素點xj上，通過一個行和列雙向的Softmax捕獲整個全局上下文的像素感知信息。最后，本文使用一個改良的SENet（Squeeze-and-Excitation Network）［14］改變?nèi)痔卣鲌D的維度到C維并且通過自主學(xué)習(xí)來獲得每個特征通道的重要性。這個轉(zhuǎn)變模塊在圖中由一個1×1 卷積Wv1、一個歸一化層LayerNorm（LN）、一個ReLU（Rectified Linear Unit）激活函數(shù)和一個1×1 卷積Wv2構(gòu)成。對特征通道的相關(guān)性進(jìn)行建模使得激活相應(yīng)目標(biāo)對指定通道的響應(yīng)。設(shè)置默認(rèn)的比率r=8，將轉(zhuǎn)換模塊的參數(shù)量減少到原始SENet 參數(shù)量的1/4，r 指通道的壓縮率，C/r 指隱藏特征表示維度。本文在ReLU 激活層之前增加LayerNorm 來減少優(yōu)化轉(zhuǎn)換模塊帶來的計算復(fù)雜度。是全局上下文池化信息，然后將原始輸出X 與帶權(quán)重的特征矩陣δ(?)=Wv2ReLU(LN(Wv1(?)))相加構(gòu)成一個殘差網(wǎng)絡(luò)來提高目標(biāo)特征的感知能力。像素感知的全局上下文注意力（PCAM）模塊的具體細(xì)節(jié)可以用如式（3）表示：

本文的PCAM 由以下三部分組成：1）全局上下文池化為上下文本建模；2）轉(zhuǎn)換模塊捕獲通道相關(guān)性；3）用于特征融合的廣播機(jī)制相加。

1.4 網(wǎng)絡(luò)訓(xùn)練細(xì)節(jié)

本文隨機(jī)從GOT-10K［15］和VID2015［16］數(shù)據(jù)集里提取模板和搜索圖片離線訓(xùn)練網(wǎng)絡(luò)結(jié)構(gòu)，采用隨機(jī)梯度下降（Stochastic Gradient Descent，SGD）算法隨機(jī)初始化目標(biāo)函數(shù)，采用二分類交叉熵?fù)p失對整個網(wǎng)絡(luò)進(jìn)行訓(xùn)練，訓(xùn)練50 個周期。學(xué)習(xí)率從10-2幾何式衰減到10-5。從圖4 中可以看出整個訓(xùn)練過程損失是最終收斂的，但是最優(yōu)值不一定是在最后一個周期內(nèi)，從而證明本文算法的穩(wěn)定性。本文的算法是通過PyTorch1.0.1 來實現(xiàn)，硬件由一臺配置為英特爾i7-8700k CPU 和一塊GTX2080 Ti 顯卡支持加速。采用基準(zhǔn)SiamFC 的方式，用三種固定的尺度｛0.974 5，1，1.037 5｝來估計目標(biāo)尺度。此外，尺度的變化通過線性插值的方式來更新，如式（4）所示，更新因子（scale_lr）設(shè)為0.59。x0為中間尺度1，x1為懲罰后的尺度，從而通過線性插值的方式更新尺度信息。

圖4 網(wǎng)絡(luò)訓(xùn)練損失曲線Fig.4 Network training loss curve

2 實驗結(jié)果分析

為驗證本文算法有效性，在三個本領(lǐng)域公認(rèn)非常具有挑戰(zhàn)性的目標(biāo)跟蹤視頻庫OTB2015［17］、VOT2018［18］和GOT-10K［15］上進(jìn)行實驗，并與多個經(jīng)典算法進(jìn)行比較，大量實驗顯示了本文算法具有比較有競爭力的表現(xiàn)。

2.1 在OTB2015上的評估

OTB2015［17］是目標(biāo)跟蹤領(lǐng)域用于評價算法優(yōu)異程度的視頻跟蹤庫，它由100 個人工標(biāo)注的跟蹤視頻組成。不同的數(shù)據(jù)集具有不同屬性，這些屬性可代表當(dāng)前目標(biāo)跟蹤領(lǐng)域的常見難點，例如光照變化、尺度變化、遮擋和形變等。OTB2015主要使用兩個標(biāo)準(zhǔn)評價指標(biāo)：精確率和成功率。精確率表示為預(yù)測目標(biāo)位置的中心點到真實位置的中心點距離小于給定閾值的視頻幀數(shù)所占總幀數(shù)的百分比。成功率則表示跟蹤框與標(biāo)注框的重疊率得分，即為超過某個閾值的幀個數(shù)占視頻總幀數(shù)的百分比。首先定義重疊率得分（Overlap Score，OS），跟蹤算法得到的定位框（記為a）與真實標(biāo)簽給出的框（記為b），重疊率定義如式（5）所示：

其中|a ∩b|表示定位框和真實標(biāo)簽給出的框相交共有區(qū)域的像素數(shù)目。當(dāng)某一幀OS大于設(shè)定閾值時，則該幀被視為成功，總體成功的幀占所有幀的百分比即為成功率。跟蹤算法估計的目標(biāo)位置中心與目標(biāo)實際標(biāo)簽的中心點，這兩者的距離小于給定閾值視頻幀的百分比即為精確率。首先我們在OTB2015 上可視化了目標(biāo)運(yùn)動軌跡，如圖5，本文利用視頻幀中每幀目標(biāo)框上下左右的坐標(biāo)點計算出中心坐標(biāo)（圖中圓點）可視化顯示每幀運(yùn)動目標(biāo)軌跡。

圖5 目標(biāo)運(yùn)動軌跡Fig.5 Target trajectory

這里將本文算法與六種經(jīng)典算法進(jìn)行比較：候選區(qū)域?qū)\生跟蹤器（Siamese Region Proposal Network，SiamRPN）［7］、空間正則判別相關(guān)濾波器（Spatially Regularized Discriminative Correlation Filter，SRDCF）［19］、核化相關(guān)濾波器（Kernelized Correlation Filter，KCF）［1］、全卷積孿生網(wǎng)絡(luò)（Fully-Convolutional Siamese network，SiamFC）［5］、判別尺度空間跟蹤器（Discriminative Scale Space Tracker，DSST）［20］和表征學(xué)習(xí)相關(guān)濾波跟蹤器（Representation Learning for Correlation Filter，CFNet）［21］。表2顯示本文MFESiam 在精確率和成功率上都取得最好效果，成功率達(dá)到64.5%的得分，精確率達(dá)到85.5%，分別優(yōu)于2018 年VOT 冠軍SiamRPN 0.8 個百分點和0.4 個百分點，且本文的MFESiam 算法在成功率和精確率上分別在基線SiamFC 上提升了6.3 個百分點和8.4 個百分點。優(yōu)異的結(jié)果證明本文所提算法在跟蹤中面對一些具有挑戰(zhàn)性的因素如快速運(yùn)動、目標(biāo)遮擋、相似物干擾等困難情況下是魯棒的。

表2 OTB2015上算法成功率和精確率的對比Tab.2 Comparison of algorithms on success rate and accuracy on OTB2015

圖6 是本文算法MFESiam 與基線SiamFC 算法在OTB2015上可視化對比。從三個比較有代表性的視頻序列中可看出本文算法在快速運(yùn)動、目標(biāo)遮擋和相似語義干擾情況下，目標(biāo)都有優(yōu)異的跟蹤表現(xiàn)。從視頻序列（a）可看出，在模板分支的高層特征后添加PCAM 模塊提高了目標(biāo)的長時感知定位能力，在同樣的情況下本文基線SiamFC 在第337 幀之后已經(jīng)丟失了目標(biāo)，而添加了PCAM 模塊后讓目標(biāo)在經(jīng)歷快速運(yùn)動時也能精確跟蹤。而從序列（b）中可以看出采用了隨機(jī)裁剪的新型正則化訓(xùn)練方式，跟蹤器能自發(fā)地去思考環(huán)境的變化，從而在遭遇遮擋的情況下也能不丟失目標(biāo)。從序列（c）中可以看出通過數(shù)據(jù)增強(qiáng)的技術(shù)來加強(qiáng)淺層目標(biāo)的紋理特性，使得跟蹤器在遇到相似語義信息背景干擾時目標(biāo)不會輕易發(fā)生漂移。

圖6 OTB2015上各算法可視化對比Fig.6 Visualization comparison of different algorithms on OTB2015

對于模板分支的高層特征，本文采用一個像素感知的全局上下文注意力機(jī)制模塊來提升目標(biāo)的感知力。像素點特征對目標(biāo)的遮擋和快速運(yùn)動都具有比較強(qiáng)的魯棒性，并且每幀圖像的搜索區(qū)域不受目標(biāo)初始模板大小的限制。從圖7 仿真實驗可看出，本文通過全局上下文模塊捕捉全圖像素特征，通過轉(zhuǎn)換模塊激活對應(yīng)于特定目標(biāo)的響應(yīng)通道，可篩選出較為理想的目標(biāo)像素點，最后根據(jù)強(qiáng)分類器對前景背景像素點進(jìn)行分類，輸出目標(biāo)位置。

圖7 目標(biāo)像素點實驗仿真圖Fig.7 Experimental simulation of target pixels

2.2 在VOT2018上的評估

VOT2018 一共有60 個經(jīng)過精細(xì)標(biāo)注的短時跟蹤視頻集，且評價指標(biāo)更為精細(xì)。VOT2018 與OTB2015 的最大差異是OTB2015 由隨機(jī)幀開始，而VOT2018 是給定第一幀初始化，每次跟蹤失敗時，5 幀之后重新初始化。VOT2018 在跟蹤序列上目標(biāo)的變化更為復(fù)雜，跟蹤難度更高。VOT 的評價指標(biāo)主要是期望平均重疊率（Expected Average Overlap，EAO），由精度（Accuracy，A）和魯棒性（Robustness，R）組成。如圖8 所示，在VOT2018 數(shù)據(jù)庫中本文的算法與其他八個算法在基線上進(jìn)行比較，其EAO 指標(biāo)排名第一達(dá)到了0.256，超越本文基線SiamFC 6.8 個百分點，表明本文所提算法在跟蹤難度較大的小目標(biāo)上也有非常良好的競爭力。

圖8 VOT2018上的期望平均重疊率排名Fig.8 Expected average overlapping rate ranking on VOT2018

2.3 在GOT-10K上的評估

GOT-10K 包含訓(xùn)練集和測試集兩部分，而且為了訓(xùn)練出的模型能有更強(qiáng)的泛化能力，訓(xùn)練集和測試集之間不存在交集。它包含了1 000 個目標(biāo)跟蹤視頻，包含150 萬個手工標(biāo)注的邊界框。GOT-10K挑戰(zhàn)集有兩個內(nèi)部的評價指標(biāo)，包括：在所有幀中跟蹤結(jié)果和真實標(biāo)簽平均重合率（Average Overlap，AO）和在一個給定閾值下成功跟蹤的視頻幀所占的比率（Success Rate，SR）。數(shù)據(jù)集大部分是戶外拍攝的物體，包含許多尺度變化劇烈的跟蹤目標(biāo)。從表3 可以看出本文的算法在AO 的指標(biāo)下超越了基線SiamFC 4.1 個百分點，在SR0.50上超越基線SiamFC 4.7 個百分點，這也證明本文算法在大尺度變化跟蹤序列上有著優(yōu)異的定位與跟蹤能力。

表3 GOT-10K挑戰(zhàn)的指標(biāo)排名Tab.3 Indicator ranking on GOT-10K

2.4 消融實驗

本文也在OTB2015 上進(jìn)行消融實驗來驗證本算法各個模塊的有效性，如表4所示。

表4 OTB2015上的消融實驗Tab.4 Ablation experiment on OTB2015

首先，本算法在移除了PCAM 后成功率下降了1.3 個百分點，這證明PCAM 模塊可以提升模板分支高層語義特征的感知定位，從而加強(qiáng)對于目標(biāo)的長時定位能力；然后，從本算法中移除隨機(jī)裁剪（Random Cutout，RC）的訓(xùn)練方式，算法成功率下降了0.9 個百分點，由此可見采用這種新型正則化的訓(xùn)練方式來模擬目標(biāo)在遭遇遮擋的情形，可以讓模型能夠更自發(fā)地去思考目標(biāo)周圍所發(fā)生的變化，以達(dá)到更好的跟蹤效果；最后，本文移除了淺層特征融合模塊（Low Level Fusion，LLF），算法成功率下降了3.4個百分點，性能大幅度地降低證明了淺層特征融合模塊對于加強(qiáng)淺層的紋理特征，從而提高目標(biāo)在跟蹤相似語義信息干擾是有效的。相較于原始基線SiamFC 成功率為58.2%，MFESiam 取得了最好的成功率為64.5%，這也充分證明本算法各模塊的有效性。

3 結(jié)語

本文提出一個實時跟蹤方法，通過設(shè)計一個有效的淺層特征增強(qiáng)模塊和一個用于模板分支高層語義特征增強(qiáng)的PCAM 模塊。淺層特征增強(qiáng)模塊使用一個簡易且高效的數(shù)據(jù)增強(qiáng)策略來加強(qiáng)網(wǎng)絡(luò)的魯棒性；而PCAM 模塊則是一個雙向像素感知的全局上下文注意力模塊，旨在于提升高層語義特征的感知定位能力。整個網(wǎng)絡(luò)通過離線訓(xùn)練，在測試時不需要花費時間用于模型的在線更新。在OTB2015、VOT2018 和GOT-10K上充足的實驗表明本文所提算法在精度和速度上所取得了優(yōu)越性能，并且其實時性能以滿足實際的工業(yè)需求。但是本文方法在目標(biāo)旋轉(zhuǎn)角度過大、光照變化明顯等因素出現(xiàn)時，跟蹤結(jié)果仍不理想，接下來將對目標(biāo)旋轉(zhuǎn)角度過大和光照變化明顯等情況進(jìn)行下一步的研究。