周雙雙,宋慧慧,張開華,樊佳慶
(1.南京信息工程大學(xué) 自動化學(xué)院,南京 210044; 2.江蘇省大數(shù)據(jù)分析技術(shù)重點(diǎn)實驗室,南京 210044)
視覺跟蹤是計算機(jī)視覺中的基本問題,被廣泛應(yīng)用于人體運(yùn)動分析、視頻監(jiān)控、自動駕駛等領(lǐng)域。雖然目前已有許多方法[1-3]被提出用于解決視覺跟蹤問題,但由于形變、遮擋、快速運(yùn)動等因素的影響,穩(wěn)健的視覺跟蹤系統(tǒng)仍然難以實現(xiàn)。
近年來,相關(guān)濾波器被廣泛應(yīng)用于視覺跟蹤。文獻(xiàn)[4]將自適應(yīng)相關(guān)濾波器應(yīng)用于目標(biāo)跟蹤,利用單通道灰色特征使算法實時速度超過600幀/s。文獻(xiàn)[5]提出一種基于雙步相關(guān)濾波的目標(biāo)跟蹤算法,在提高目標(biāo)跟蹤精度的同時保證了跟蹤速度,該算法具有較強(qiáng)的魯棒性,同時能解決目標(biāo)遮擋時目標(biāo)模板被污染的問題。文獻(xiàn)[6]提出一種利用最大間隔相關(guān)濾波的目標(biāo)跟蹤算法,通過最大分類間隔增強(qiáng)相關(guān)濾波器的判別性,將相似背景作為負(fù)樣本對模型進(jìn)行更新來提高跟蹤的魯棒性。文獻(xiàn)[7]提出一種基于低秩重檢測的多特征時空上下文跟蹤方法,利用有效的矩陣分解方式對歷史跟蹤信息進(jìn)行低秩表達(dá),并將其引入在線重檢測器,解決了跟蹤失敗后的重定位問題。文獻(xiàn)[8]設(shè)計核化相關(guān)濾波器(Kernelized Correlation Filter,KCF),通過將多通道的HOG特征代替灰度特征,并添加余弦窗口抑制邊界效應(yīng)。文獻(xiàn)[9]通過增加一個尺度的回歸實現(xiàn)了精確的尺度估計。文獻(xiàn)[10]在濾波器上結(jié)合空間正則化,使學(xué)習(xí)的濾波器權(quán)重集中在目標(biāo)對象的中心部分以解決邊界效應(yīng),但是速度只有4幀/s,很難應(yīng)用到實際場景中。
目前,已有較多研究結(jié)合了相關(guān)濾波和深度特征。文獻(xiàn)[11]在文獻(xiàn)[10]基礎(chǔ)上利用CNN深度特征,但其利用相關(guān)濾波將特征提取與跟蹤器訓(xùn)練等隔離開,無法從端到端訓(xùn)練中受益。文獻(xiàn)[12]采用全局顏色直方圖特征和局部HOG特征實現(xiàn)了判別相關(guān)濾波器(Discriminant Correlation Filter,DCF)跟蹤的融合特征。文獻(xiàn)[13]利用圖像分塊逐一檢測的方法設(shè)計重新檢測模塊,避免出現(xiàn)跟蹤漂移現(xiàn)象,但分塊檢測使運(yùn)算時間成本增加。文獻(xiàn)[14]通過稀疏的模型更新策略減少了更新的參數(shù),但速度上表現(xiàn)一般。文獻(xiàn)[15]利用大規(guī)模數(shù)據(jù)集離線訓(xùn)練設(shè)計前后幀特征相似性匹配的深度卷積網(wǎng)絡(luò),雖然速度上能達(dá)到實時,但精度表現(xiàn)一般。盡管目前基于相關(guān)濾波器的跟蹤器有很多改進(jìn)方法,也在精度和速度上得到提升,但面對遮擋和運(yùn)動模糊等情況,仍未有較好的解決方案。
文獻(xiàn)[16]提出的可判別相關(guān)濾波器網(wǎng)絡(luò)(Discriminant Correlation Filter Network,DCFNet)雖然通過添加余弦窗有所改進(jìn),但仍受到邊界效應(yīng)的影響,并且其在遮擋和運(yùn)動模糊情況下目標(biāo)容易發(fā)生域漂移。針對上述問題,本文采用多注意力機(jī)制自適應(yīng)選擇重要目標(biāo)特征信息進(jìn)行學(xué)習(xí),設(shè)計RACFNet網(wǎng)絡(luò)結(jié)構(gòu)。通過由編碼器和解碼器組成的EDNet網(wǎng)絡(luò)獲取高級語義信息,并將其融合到原始低級特征中,以彌補(bǔ)單一低級特征表達(dá)力的不足。同時,根據(jù)解碼器作用的域獨(dú)立重構(gòu)約束,利用編碼器中學(xué)習(xí)到的高級語義特征魯棒處理目標(biāo)漂移情況。
與傳統(tǒng)DCF方法不同,本文分析DCF封閉解的求解方案,挖掘網(wǎng)絡(luò)以端到端方式學(xué)習(xí)最適合DCF跟蹤的特征,而無需手工干擾。將DCF視為文獻(xiàn)[15]在孿生網(wǎng)絡(luò)中添加的特殊相關(guān)濾波器層,提出RACFNet網(wǎng)絡(luò)的體系結(jié)構(gòu),其整體框架如圖1所示,其中包含卷積層、編碼器和解碼器結(jié)構(gòu)層。在離線訓(xùn)練過程中,卷積層、編碼器和解碼器構(gòu)成特定的特征提取器ψ,相關(guān)濾波器層則通過將網(wǎng)絡(luò)輸出定義為目標(biāo)位置的概率圖來有效地完成在線學(xué)習(xí)和跟蹤。由于相關(guān)濾波器層的推導(dǎo)仍然在傅里葉頻域中進(jìn)行,因此保留DCF的效率特性。
圖1 RACFNet網(wǎng)絡(luò)框架
本文設(shè)計一個基于增強(qiáng)語義與多注意力機(jī)制學(xué)習(xí)的深度相關(guān)跟蹤算法,其特征提取框架如圖2所示,其不同于圖3所示的EDNet結(jié)構(gòu)只含卷積Conv1和Conv2的淺層特征,本文加入編碼器和解碼器結(jié)構(gòu)提取高級語義特征,結(jié)合淺層特征得到融合特征F。圖4所示為通道注意力機(jī)制結(jié)構(gòu)。F跳躍連接通道注意力機(jī)制構(gòu)成的通道殘差注意力機(jī)制,輸出特征為F1,表示在不同的通道位置上進(jìn)行加權(quán)。圖5所示為空間注意力機(jī)制結(jié)構(gòu),其中,F1跳躍連接空間注意力機(jī)制構(gòu)成的空間殘差注意力機(jī)制,是對通道注意力學(xué)習(xí)的補(bǔ)充,提高了對空間上下文信息的有效利用。此外,淺層特征中包含Conv1和Conv2卷積層,采用96個3×3×3濾波器,并且在濾波器后使用縮放指數(shù)線性單元(Scaled Exponential Linear Unit,SELU),該激活函數(shù)對網(wǎng)絡(luò)具有自歸一化功能。最后采用32個96×3×3濾波器,在濾波器后使用局部響應(yīng)歸一化函數(shù)(Local Response Normalization,LRN)對局部神經(jīng)元的活動創(chuàng)建競爭機(jī)制,使響應(yīng)比較大的值變得相對更大,并抑制其他反饋較小的神經(jīng)元,增強(qiáng)模型泛化能力。
圖2 特征提取器ψ結(jié)構(gòu)
圖3 EDNet網(wǎng)絡(luò)結(jié)構(gòu)
圖4 通道注意力機(jī)制結(jié)構(gòu)
圖5 空間注意力機(jī)制結(jié)構(gòu)
(1)
在式(1)中,wl是相關(guān)濾波器參數(shù)w的通道l層,表示循環(huán)相關(guān),正則項λ≥0,目的是優(yōu)化如式(2)所示。
(2)
在檢測進(jìn)程中,需要裁剪搜索的圖像塊在新的幀中特征ψ(z),通過搜索相關(guān)響應(yīng)圖m最大值來估計轉(zhuǎn)換,如式(3)所示。
(3)
在離線訓(xùn)練的大規(guī)模數(shù)據(jù)集上,本文方法保留了DCF性能的優(yōu)越性,離線訓(xùn)練為在線DCF跟蹤提供了特定功能特征提取器。
在線模型的更新中,在線跟蹤將更新濾波器參數(shù)w,優(yōu)化式(1)問題以增量模式表示,如式(4)所示。
(4)
其中,參數(shù)μt≥0,表示對樣本xt的影響。由式(2)中的封閉解形式可以拓展到時間序列,如式(5)所示。
(5)
高級語義特征由編碼器和解碼器結(jié)構(gòu)提取得到,命名為EDNet,該結(jié)構(gòu)中存在池化層,這樣會丟失圖像信息和降低圖像分辨率且是不可逆的操作,結(jié)構(gòu)中的上采樣可以彌補(bǔ)一些圖像的信息,但是補(bǔ)充的信息不夠完全,因此,還需要與分辨率高的圖像相互連接,在圖像卷積的同時增加填充使輸入輸出尺寸相同,隨著卷積次數(shù)的增多,提取的特征也更加有效,而比普通的編碼器和解碼器的特殊之處,采用上采樣并且直接復(fù)制淺層信息的方法,無需裁剪,獨(dú)特的通道層的設(shè)計使前后層信息融合從而彌補(bǔ)單一特征的不足,使特征表現(xiàn)得更魯棒。
EDNet網(wǎng)絡(luò)框架屬于輕量級網(wǎng)絡(luò),如圖3所示,其中左半分支輸入原圖經(jīng)過6次卷積(3×3)、2次池化層(5×5)下采樣,原圖125×125×3經(jīng)過前半分支操作后變?yōu)?×5×64,通過后半分支采用4次卷積、2次反卷積上采樣,后半分支設(shè)計將前半分支特征圖和對稱的后半分支上采樣的特征圖級聯(lián),然后直接128通道經(jīng)過卷積(3×3)將通道降到32,減少信息的冗余,使高級語義特征更加顯著,最后經(jīng)過上采樣和卷積的操作使圖像恢復(fù)到輸入圖像的大小。EDNet網(wǎng)絡(luò)關(guān)注更多的高層信息,并還原原圖的底層空間結(jié)構(gòu)信息,進(jìn)一步增強(qiáng)了淺層特征的語義信息,這種增強(qiáng)語義信息的方法有助于目標(biāo)跟蹤的特征穩(wěn)健性表達(dá)。
(6)
本文通過使用最大池化和平均池化操作得到特征圖的空間信息,其體現(xiàn)信息突出的部分,是對通道注意力圖的補(bǔ)充??臻g注意力機(jī)制沿通道軸應(yīng)用最大池化和平均池化操作,并將它們相連接以生成有效的特征表達(dá)。
MZ1(F1)=F1?σ(f3×3([MaxPool(F1);
AvgPool(F1)]))
(7)
其中,σ表示為Sigmoid函數(shù),f3×3表示為一個卷積核尺寸大小為3×3的卷積操作。F1跳躍連接MZ1(F1)形成空間殘差注意力機(jī)制。
本文設(shè)計是在DCFNet的基礎(chǔ)上引入高級語義特征和淺層特征的有效結(jié)合,算法主要分為3個階段:
1)訓(xùn)練階段:輸入樣本,在當(dāng)前的幀中確定搜索區(qū)域;初始化特征提取器參數(shù),構(gòu)造均方誤差損失,通過梯度下降學(xué)習(xí)特征提取器的參數(shù),將搜索區(qū)域通過提取器提取特征;計算特征的自相關(guān)性,通過嶺回歸學(xué)習(xí)到濾波器模板。
2)檢測階段:新的一幀根據(jù)上一幀的目標(biāo)位置確定搜索區(qū)域,通過特征提取器提取特征,計算搜索區(qū)域特征;將其特征與濾波器模板相關(guān)操作,輸出響應(yīng)值中最大值就是目標(biāo)的最新位置。
3)模型更新階段:每幀都對目標(biāo)濾波器模板學(xué)習(xí)更新。
實驗平臺是Ubuntu16.04系統(tǒng)下PyTorch0.4.0,所有實驗都在配置為Inter Core i7-8700k 3.70 GHz CPU、GTX1080Ti GPU的計算機(jī)上完成的。本文使用文獻(xiàn)[18]數(shù)據(jù)集裁剪出尺寸為125×125像素的546 315個視頻幀作為離線訓(xùn)練數(shù)據(jù),采用動量為0.9的隨機(jī)梯度下降最優(yōu)化網(wǎng)絡(luò)并設(shè)置離線學(xué)習(xí)率l為10-5,權(quán)重衰減γ為5×10-5,訓(xùn)練周期約為20個周期且每次小批量訓(xùn)練樣本數(shù)為16。對于相關(guān)濾波層超參數(shù),采用固定在線學(xué)習(xí)率μt為0.008,正則化λ為10-4,插值因子為0.01,最后為了解決尺度變換問題,在搜索圖像上采用5個不同的尺度縮放因子s,{ds|d=1.031,s=-2,-1,0,1,2}去搜索圖像,其中d是尺度步長。
在OTB-2013[19]和OTB-2015[20]公共標(biāo)準(zhǔn)數(shù)據(jù)集上進(jìn)行實驗評估,并以距離精確度(Distance Precision,DP)、成功率(Success Rate,SR)和中心位置誤差(Center Location Error,CLE)作為評估標(biāo)準(zhǔn)。
1)精確度:跟蹤目標(biāo)框的中心坐標(biāo)和真實值的中心坐標(biāo)的歐式距離小于一定閾值(實驗中設(shè)置為20)的幀數(shù)占全部幀數(shù)的比例。
2)成功率:跟蹤目標(biāo)的邊界框和標(biāo)準(zhǔn)目標(biāo)邊界框的重疊率超過一定閾值(實驗中設(shè)置為0.5)的幀數(shù)占視頻總幀數(shù)的比例。成功率越高,跟蹤效果越好,計算公式為(Sg∩Sp)/(Sg∪Sp),其中,Sg、Sp分別為真實和預(yù)測的目標(biāo)框面積。
數(shù)據(jù)集圖片中均包含光照變化、平面外旋轉(zhuǎn)、尺度變化、遮擋、形變、運(yùn)動模糊、快速運(yùn)動、平面內(nèi)旋轉(zhuǎn)、超出視野、背景混亂、低分辨率等因素的干擾。視覺跟蹤遵循OTB規(guī)則,并根據(jù)成功率結(jié)果進(jìn)行評估。
在OTB2013的公共數(shù)據(jù)集上進(jìn)行評測,將本文的跟蹤器RACFNet與3個先進(jìn)的跟蹤器DeepSRDCF[11]、SiamFC3S[15]、DCFNet[16]進(jìn)行一次通過型(One Pass Evaluation,OPE)成功率對比,實驗結(jié)果如圖6所示??梢钥闯?本文算法的成功率為67.3%,排名第一,DCFNet跟蹤器成功率值為62.2%,本文算法提高了5.1個百分點(diǎn),在本測試集上本文算法跟蹤速度達(dá)到92.7幀/s,可見加入的高級語義特征、通道殘差注意力機(jī)制和空間殘差注意力機(jī)制使跟蹤效果得到顯著提高。
圖6 在OTB2013數(shù)據(jù)集上的成功率對比
分別選取100個OTB2015標(biāo)準(zhǔn)數(shù)據(jù)集,將本文方法與DCFNet、CREST[21]和SiamFC3S 3個跟蹤器進(jìn)行成功率對比,實驗結(jié)果如圖7所示。可以看出,本文算法在測試視頻上魯棒性能最好,平均成功率為64.2%,其次是CREST,成功率為62.3%。本文算法在高級語義特征中加入了通道和空間殘差注意力,針對特征通道信息分布和空間特征的分布分別進(jìn)行加權(quán),表達(dá)出重要信息特征,較基準(zhǔn)DCFNet跟蹤成功率58%提高了6.2個百分點(diǎn),在OTB2015數(shù)據(jù)集上跟蹤速度達(dá)到92幀/s,表現(xiàn)得更魯棒。
圖7 在OTB2015數(shù)據(jù)集上的成功率對比
基于OTB2015數(shù)據(jù)集上,使用不同視頻對本文RACFNet跟蹤器進(jìn)行性能評測。表1顯示了不同算法的目標(biāo)跟蹤結(jié)果,可以看出,本文算法在7組測試視頻上精確度、成功率、中心位置誤差整體表現(xiàn)最佳,本文算法成功率平均值為89.7%,相對基準(zhǔn)DCFNet的成功率平均值76.2%,提高了13.5個百分點(diǎn),中心位置誤差平均值減少了26.66,跟蹤目標(biāo)準(zhǔn)確性提升。
表1 針對不同視頻的目標(biāo)跟蹤性能對比
表2顯示了不同算法在不同干擾因素下的目標(biāo)跟蹤結(jié)果??梢钥闯?,在精確率和成功率方面,本文算法在5種算法中綜合表現(xiàn)最好,除了運(yùn)動模糊和低分辨率情況下成功率值排名第二,其他成功率值均排名第一。而在運(yùn)動模糊方面,從精確率的比較可以看出,本文算法比基準(zhǔn)DCFNet算法提高了16.5個百分點(diǎn)。從上述實驗結(jié)果可以看出,本文算法通過加入高級語義特征和通道與空間殘差注意力機(jī)制,在面對不同干擾環(huán)境時較其他算法魯棒性更強(qiáng)。
表2 不同干擾下的目標(biāo)跟蹤結(jié)果對比
表3列出不同算法在部分視頻跟蹤速度結(jié)果,本文算法RACFNet在7組視頻中表現(xiàn)得最好,以SUV視頻為例,本文算法設(shè)計的端到端輕量級相關(guān)濾波網(wǎng)絡(luò)結(jié)構(gòu),算法運(yùn)行時間少,平均速度達(dá)到97.2幀/s,SiamFC3S采用離線訓(xùn)練相似匹配的網(wǎng)絡(luò),計算量低,平均速度為86.2幀/s,以上算法均能達(dá)到實時,具有實際場景的遷移應(yīng)用價值,但SiamFC3S精度表現(xiàn)一般,SRDCF[10]通過空間正則化來抑制邊界效應(yīng)的影響。這樣增加了參數(shù)量,平均速度為3.2幀/s,DeepSRDCF[11]在SRDCF的基礎(chǔ)上采用了深度的特征,這樣特征提取也損耗時間,跟蹤平均速度為0.2幀/s,不能滿足實時性,難以應(yīng)用于實際場景。
表3 針對不同視頻的跟蹤速度對比
本文在DCFNet的基礎(chǔ)上設(shè)計RACFNet網(wǎng)絡(luò)結(jié)構(gòu)。由EDNet網(wǎng)絡(luò)得到高級語義信息并作為原低級信息的補(bǔ)充,分別利用通道和空間殘差注意力機(jī)制自適應(yīng)選擇重要目標(biāo)進(jìn)行特征學(xué)習(xí),從而減小邊界效應(yīng)的影響,去除冗余的特征信息。在DCFNet中采用低級特征同時結(jié)合高級語義信息,體現(xiàn)出目標(biāo)的高層和底層空間信息,并且使淺層特征的語義信息得到增強(qiáng)。實驗結(jié)果表明,RACFNet的OPE成功率較DCFNet提高6.2個百分點(diǎn),在滿足跟蹤高精度要求的同時,平均速度達(dá)到92幀/s,符合實時性要求。下一步將優(yōu)化本文設(shè)計,提高其在目標(biāo)形變和超出視野干擾下的跟蹤性能。