劉芳,孫亞楠
北京工業(yè)大學(xué) 信息學(xué)部,北京 100124
近年來,無人機(jī)被廣泛應(yīng)用于軍事偵察、物資派送、公安巡檢和智能安防等領(lǐng)域。目標(biāo)跟蹤是無人機(jī)應(yīng)用的關(guān)鍵技術(shù)之一,基于機(jī)器視覺的目標(biāo)跟蹤技術(shù)已成為一項(xiàng)重要的研究課題。由于無人機(jī)拍攝視角較高、飛行姿態(tài)不斷發(fā)生變化,導(dǎo)致目標(biāo)在視頻圖像中的占比較小并且容易發(fā)生形變、遮擋等復(fù)雜情況,影響跟蹤算法的性能。一般來說,目標(biāo)在圖像中的面積占比小于1%則稱之為小目標(biāo),小目標(biāo)一直是影響跟蹤質(zhì)量的重難點(diǎn)之一,原因如下:① 小目標(biāo)的像素點(diǎn)數(shù)較少,因而可利用的有效特征很少,大大增加了小目標(biāo)跟蹤定位的難度;② 小目標(biāo)在圖像中的比例較小,容易受到背景信息的干擾,導(dǎo)致難以提取到其關(guān)鍵特征信息。因此,如何有效提取小目標(biāo)特征是實(shí)現(xiàn)高性能無人機(jī)目標(biāo)跟蹤算法的關(guān)鍵之一。
隨著深度學(xué)習(xí)的快速發(fā)展,國內(nèi)外眾多研究學(xué)者將深度學(xué)習(xí)技術(shù)應(yīng)用在計(jì)算機(jī)視覺領(lǐng)域。其中,深度卷積神經(jīng)網(wǎng)絡(luò)因具有強(qiáng)大的目標(biāo)特征提取能力,能夠高質(zhì)量地完成目標(biāo)檢測和目標(biāo)跟蹤等任務(wù)而被廣泛研究并使用。Wang和Yeung將深度卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到目標(biāo)跟蹤領(lǐng)域,提出了DLT(Deep Learning Tracker)跟蹤算法。Wang等通過分析深度網(wǎng)絡(luò)模型不同特征層的輸出特點(diǎn),設(shè)計(jì)了新的網(wǎng)絡(luò)模型提取目標(biāo)特征。Hong等提出的CNN-SVM(Convolutional Neural Network-Support Vector Machine)跟蹤算法,在CNN隱含層的頂端添加一個(gè)在線的支持向量機(jī)(SVM)來學(xué)習(xí)目標(biāo)的外觀特征。Bertinetto等提出了孿生網(wǎng)絡(luò)結(jié)構(gòu)思想并設(shè)計(jì)了一個(gè)完全卷積的Siamese網(wǎng)絡(luò)來訓(xùn)練跟蹤器。Valmadre等在SiamFC框架中引入相關(guān)濾波層進(jìn)行在線跟蹤。Li等受目標(biāo)檢測區(qū)域建議網(wǎng)絡(luò)的啟發(fā),對(duì)深度網(wǎng)絡(luò)輸出的特征進(jìn)行區(qū)域建議提取,提升了跟蹤精度。秦莉等通過融合目標(biāo)卷積特征和上下文信息的方向梯度直方圖特征,優(yōu)化目標(biāo)跟蹤性能。陳富健和謝維信提出了引入遮擋機(jī)制的SiamVGG目標(biāo)跟蹤算法,通過對(duì)網(wǎng)絡(luò)輸出置信圖的峰值和連通域的變化分析,設(shè)置相應(yīng)的跟蹤策略以提升跟蹤精度。李敏和吳莎提出一種基于預(yù)訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò),在粒子濾波框架下將深度特征和手工特征相結(jié)合的目標(biāo)跟蹤算法。Xu等認(rèn)為先驗(yàn)信息(跟蹤目標(biāo)尺度、長寬比)會(huì)阻礙跟蹤模型泛化能力,提出了一種不依賴先驗(yàn)知識(shí)的跟蹤框架SiameseFC++。
上述基于深度學(xué)習(xí)的目標(biāo)跟蹤算法,整體上提升了目標(biāo)跟蹤性能,但對(duì)小目標(biāo)的跟蹤效果不夠理想。要提高深度網(wǎng)絡(luò)對(duì)小目標(biāo)的處理能力,首先要提高深度網(wǎng)絡(luò)的特征表達(dá)能力。在卷積神經(jīng)網(wǎng)絡(luò)中,特征圖感受野是一個(gè)至關(guān)重要的概念,Luo等研究了CNN的感受野尺度問題,提出了有效感受野的概念,表明特征圖感受野會(huì)直接影響到整個(gè)網(wǎng)絡(luò)模型的辨別能力和魯棒性。Szegedy等通過設(shè)計(jì)具有不同大小卷積核的多分支卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),克服了特征感受野尺度問題對(duì)模型性能的影響。文獻(xiàn)[15]根據(jù)物體的尺度和形狀自適應(yīng)地調(diào)整感受野的空間分布。Liu和Huang通過模擬人類視覺感受野提出了一種RFB(Receptive Field Block)感受野增強(qiáng)結(jié)構(gòu),有效提高了網(wǎng)絡(luò)模型的表達(dá)能力。
綜上所述,提出了一種基于自適應(yīng)融合網(wǎng)絡(luò)的無人機(jī)目標(biāo)跟蹤算法。首先,針對(duì)小目標(biāo)在視頻序列中特征難以提取且易受復(fù)雜背景干擾等問題,結(jié)合RFB的感受野增強(qiáng)特性和殘差網(wǎng)絡(luò)(Residual Network,ResNet)結(jié)構(gòu)的梯度優(yōu)化特點(diǎn),構(gòu)建了感受野增強(qiáng)殘差網(wǎng)絡(luò)模型 (Receptive Field-Residual Network,RF-ResNet),該模型在殘差網(wǎng)絡(luò)結(jié)構(gòu)中引入RFB模塊,能夠增強(qiáng)特征圖的有效感受野區(qū)域,提高目標(biāo)特征的表達(dá)能力;其次,提出了一種多尺度自適應(yīng)融合網(wǎng)絡(luò),將RF-ResNet提取的淺層特征和深層特征輸入到RFB模塊,然后由深層特征至淺層特征逐層進(jìn)行維度連接操作獲得3個(gè)尺度的目標(biāo)特征,并將其輸入到自適應(yīng)加權(quán)融合模塊中,從而獲得包含深層語義信息和淺層細(xì)節(jié)信息的融合特征;最后,將融合特征輸入到相關(guān)濾波系統(tǒng)中計(jì)算出響應(yīng)圖的最大置信分?jǐn)?shù),確定跟蹤目標(biāo)位置。本文算法在UAV123數(shù)據(jù)集上進(jìn)行了仿真實(shí)驗(yàn),結(jié)果表明,該算法在跟蹤成功率和精確率方面都達(dá)到了較高水平,能夠有效提升無人機(jī)小目標(biāo)跟蹤算法性能。
針對(duì)無人機(jī)視頻目標(biāo)跟蹤過程中,目標(biāo)所占比例較小且易受復(fù)雜背景信息干擾等問題,提出一種基于自適應(yīng)融合網(wǎng)絡(luò)的無人機(jī)目標(biāo)跟蹤算法,該算法主要由目標(biāo)特征提取和目標(biāo)定位2部分組成。特征提取網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,該網(wǎng)絡(luò)模型主要包含4個(gè)卷積模塊和1個(gè)自適應(yīng)加權(quán)融合模塊,其中Conv1、Conv2和Conv3卷積模塊均含有1個(gè)3×3卷積層和2個(gè)殘差模塊,Conv4卷積模塊含有1個(gè)3×3卷積層和1個(gè)RFB模塊,C2~C4、F1~F2表示特征圖。利用RF-ResNet模型提取目標(biāo)多尺度特征并進(jìn)行自適應(yīng)加權(quán)融合,獲得表達(dá)能力更強(qiáng)的目標(biāo)特征。在目標(biāo)定位部分,利用初始幀目標(biāo)樣本特征構(gòu)建濾波系統(tǒng),然后將后續(xù)幀中的目標(biāo)特征輸入到相關(guān)濾波系統(tǒng)中,計(jì)算出響應(yīng)圖的最大置信分?jǐn)?shù),從而確定跟蹤目標(biāo)位置。
圖1 特征提取網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.1 Structure of feature extraction network
感受野是卷積神經(jīng)網(wǎng)絡(luò)每一層特征圖上的像素點(diǎn)映射在輸入圖片中的區(qū)域大小。在整個(gè)特征圖中起主要作用的是有效感受野區(qū)域,有效感受野只占理論感受野中心區(qū)域的一部分,且呈現(xiàn)高斯分布特點(diǎn),即中心像素的響應(yīng)值最大,離中心越遠(yuǎn)像素的響應(yīng)值強(qiáng)度越弱。因此,增強(qiáng)有效感受野區(qū)域?qū)?huì)大大提升特征的表達(dá)能力?;诖?,RFB對(duì)特征感受野區(qū)域特點(diǎn)進(jìn)行分析,利用多分支卷積層和空洞卷積增強(qiáng)特征圖的有效感受野,提高網(wǎng)絡(luò)的特征表達(dá)能力,結(jié)構(gòu)如圖2所示。
1) 多分支卷積層。采用不同大小卷積核構(gòu)成的多層網(wǎng)絡(luò),其特征提取能力要優(yōu)于使用相同卷積核的網(wǎng)絡(luò)結(jié)構(gòu)。因此,RFB網(wǎng)絡(luò)設(shè)計(jì)了一種含有3個(gè)分支的網(wǎng)絡(luò)結(jié)構(gòu),如圖2所示,每個(gè)分支分別采用 1×1標(biāo)準(zhǔn)卷積、擴(kuò)張系數(shù)rate為1的3×3空洞卷積,1×1標(biāo)準(zhǔn)卷積、3×3標(biāo)準(zhǔn)卷積、擴(kuò)張系數(shù)為3的5×5空洞卷積和1×1標(biāo)準(zhǔn)卷積、5×5標(biāo)準(zhǔn)卷積、擴(kuò)張系數(shù)為5的3×3空洞卷積。此外,RFB網(wǎng)絡(luò)還采用了ResNet中的直連(shortcut) 結(jié)構(gòu),使得梯度能夠很好地傳遞到淺層,減輕深層網(wǎng)絡(luò)的訓(xùn)練負(fù)擔(dān)。
圖2 RFB網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Structure of RFB network
2) 空洞卷積(Dilated Convolution)。空洞卷積在標(biāo)準(zhǔn)卷積層中加入了一個(gè)新的參數(shù)—擴(kuò)張率(Dilation Rate),該參數(shù)決定了卷積核在處理數(shù)據(jù)時(shí)各像素之間的距離,能夠?qū)⒕矸e核擴(kuò)張到規(guī)定的尺度,并將原卷積核中未被占用的像素區(qū)域填充為0,因而能夠在不增加額外運(yùn)算量的同時(shí),增大特征圖的感受野。如圖2所示,在每一個(gè)分支的1×1標(biāo)準(zhǔn)卷積之后都添加一個(gè)不同擴(kuò)張率的空洞卷積層。
一般情況下,卷積神經(jīng)網(wǎng)絡(luò)層數(shù)越深,獲取的語義特征越豐富,表達(dá)能力越強(qiáng)。但是單純的網(wǎng)絡(luò)層數(shù)堆疊有時(shí)并不能提高網(wǎng)絡(luò)的識(shí)別能力,往往會(huì)大幅增加網(wǎng)絡(luò)模型的復(fù)雜度和計(jì)算量,甚至導(dǎo)致訓(xùn)練難度增大、網(wǎng)絡(luò)梯度難以優(yōu)化,出現(xiàn)梯度消失或爆炸等問題。He等深入地研究了網(wǎng)絡(luò)模型難以優(yōu)化的問題,總結(jié)出初始化網(wǎng)絡(luò)參數(shù)和正則化輸出特征這一訓(xùn)練深度網(wǎng)絡(luò)模型的關(guān)鍵方法,并針對(duì)梯度消失或爆炸導(dǎo)致的網(wǎng)絡(luò)模型退化問題,提出了ResNet 殘差網(wǎng)絡(luò)結(jié)構(gòu),通過shortcut連接方式有效的減少了網(wǎng)絡(luò)梯度傳播時(shí)經(jīng)過的層數(shù),使得損失值發(fā)生爆炸和消失的問題得到緩解,加快網(wǎng)絡(luò)模型訓(xùn)練速度,提升網(wǎng)絡(luò)模型表達(dá)能力。因此,結(jié)合RFB的感受野增強(qiáng)特性和ResNet的梯度優(yōu)化特點(diǎn),構(gòu)建了RF-ResNet網(wǎng)絡(luò)用于提取跟蹤目標(biāo)的圖像特征,該網(wǎng)絡(luò)模型結(jié)構(gòu)參數(shù)如表1所示,其中Kernel表示卷積核尺寸,Size表示輸出特征尺寸,Channels表示輸出特征的維度。
表1 RF-ResNet網(wǎng)絡(luò)參數(shù)Table 1 RF-ResNet network parameters
卷積操作利用卷積核與輸入圖像進(jìn)行卷積運(yùn)算獲得目標(biāo)特征圖,如圖3(a)所示,一個(gè)4×4的輸入特征,用3×3的卷積核做填充維度(padding)為0,步長(strides)為1的卷積操作,最終得到2×2的特征圖。轉(zhuǎn)置卷積(Transposed Convolution)也稱作反卷積(Deconvolution),是一種常見的上采樣方法,可以簡單理解為標(biāo)準(zhǔn)卷積的反向運(yùn)算,如圖3(b)所示,以2×2的特征圖作為輸入,用3×3的卷積核做padding為2,strides為1的轉(zhuǎn)置卷積操作,得到4×4的特征圖。卷積神經(jīng)網(wǎng)絡(luò)提取的深層特征圖含有豐富的語義信息,但缺少淺層網(wǎng)絡(luò)中的細(xì)節(jié)特征,因此,通過轉(zhuǎn)置卷積運(yùn)算可以將低維局部特征映射成高維向量,獲得大尺寸的特征圖,以便與淺層網(wǎng)絡(luò)輸出的特征圖進(jìn)行融合,增強(qiáng)目標(biāo)的特征表達(dá)能力。
卷積運(yùn)算是將卷積核以滑動(dòng)窗口的方式在輸入特征的對(duì)應(yīng)元素上依次相乘,然后將所有相乘結(jié)果求和得到最終的輸出結(jié)果。若以矩陣乘法表述卷積運(yùn)算,、和分別代表輸入矩陣、輸出矩陣和卷積核,則卷積運(yùn)算可表示為
=*
(1)
根據(jù)轉(zhuǎn)置卷積原理,其表達(dá)式為
=*
(2)
式中:T表示轉(zhuǎn)置運(yùn)算。通過對(duì)輸入矩陣進(jìn)行轉(zhuǎn)置卷積運(yùn)算,得到預(yù)期的原始特征矩陣。
圖3 卷積與轉(zhuǎn)置卷積示意圖Fig.3 Diagrams of convolution and transposed convolution
特征提取網(wǎng)絡(luò)不同卷積層的特征圖所包含的特征信息不同,淺層特征圖主要包含圖像的細(xì)節(jié)特征,如紋理、邊緣信息等,并且其感受野尺度較小,適用于小目標(biāo)的跟蹤定位;深層特征圖包含豐富的語義信息,對(duì)目標(biāo)屬性的判別能力較強(qiáng),但其感受野尺度較大,局部像素之間的關(guān)聯(lián)性較弱,更適合定位較大尺度的目標(biāo)。因此,設(shè)計(jì)了如圖1所示的多尺度自適應(yīng)融合網(wǎng)絡(luò),將深層特征與淺層特征相融合得到同時(shí)包含細(xì)節(jié)信息和語義信息的目標(biāo)特征,大大提高了目標(biāo)定位精度。具體而言,首先將Conv4層輸出的特征圖C4進(jìn)行轉(zhuǎn)置卷積運(yùn)算,使其與前一層特征圖C3的空間尺寸一致;然后將特征圖C3輸入到RFB模塊增強(qiáng)其感受野,并按照通道維度與特征圖C4轉(zhuǎn)置卷積后的結(jié)果進(jìn)行矩陣求和操作,得到融合特征圖F1;同理,得到與特征圖C2相同尺度的融合特征圖F2;最后,考慮到C4、F1和F2這3種特征圖的感受野尺度大小及所包含特征信息的差異性,設(shè)計(jì)了自適應(yīng)加權(quán)融合模塊,可得到表達(dá)能力較強(qiáng)的目標(biāo)特征。
圖4為自適應(yīng)加權(quán)融合模塊,首先利用SE(Squeeze-and-Excitation)通道注意力機(jī)制,讓網(wǎng)絡(luò)模型自適應(yīng)地學(xué)習(xí)特征圖中每個(gè)通道的重要性,并通過提高重要通道的權(quán)重,增強(qiáng)有效特征,抑制無效特征,提升每個(gè)特征圖的表達(dá)能力。具體來講,通過全局平均池化層(Global Pooling)將特征圖的每個(gè)二維通道變成一個(gè)實(shí)數(shù),該實(shí)數(shù)表示對(duì)應(yīng)特征通道響應(yīng)的全局分布,然后經(jīng)過2個(gè)1×1卷積層建立通道間的相關(guān)性,并由Sigmoid激活層獲得每個(gè)特征通道的歸一化權(quán)重,最后的Scale操作將歸一化后的權(quán)重加權(quán)到特征的每個(gè)通道上,實(shí)現(xiàn)重要通道的提升;最后,將3個(gè)特征圖調(diào)整為相同尺度并分別設(shè)置權(quán)重系數(shù),讓網(wǎng)絡(luò)學(xué)習(xí)每個(gè)特征圖對(duì)跟蹤任務(wù)的貢獻(xiàn)程度,通過自適應(yīng)地調(diào)節(jié)權(quán)重系數(shù)將3個(gè)特征進(jìn)行加權(quán)融合,從而最大化利用每個(gè)特征圖的關(guān)鍵信息。融合公式為
圖4 自適應(yīng)加權(quán)融合模塊Fig.4 Adaptive weighted fusion module
(3)
式中:( )為轉(zhuǎn)置卷積函數(shù);( )表示特征通道增強(qiáng)操作;、和分別為各特征圖的權(quán)重系數(shù),且++=1。
近年來,眾多研究學(xué)者聯(lián)合利用CNN和相關(guān)濾波算法完成目標(biāo)跟蹤任務(wù),取得了非常優(yōu)異的跟蹤效果。本文以改進(jìn)的判別相關(guān)濾波為基準(zhǔn),構(gòu)建相關(guān)濾波系統(tǒng),對(duì)提取的目標(biāo)圖像特征進(jìn)行分析,確定跟蹤目標(biāo)位置。
將RF-ResNet網(wǎng)絡(luò)提取的目標(biāo)圖像特征記為={,,…,},其含有個(gè)維度。首先,將特征通過插值處理映射到連續(xù)空間域,公式如下所示:
(4)
式中:()()表示特征轉(zhuǎn)換到連續(xù)空間域的特征;表示特征圖第個(gè)通道的空間特征個(gè)數(shù);[]被視為一個(gè)離散空間變量;表示離散空間的間隔,∈[0,);表示插值函數(shù)。
利用連續(xù)空間域的特征,通過計(jì)算獲得濾波器模型預(yù)測結(jié)果,計(jì)算方式為
(5)
式中:={,,…,},表示第個(gè)維度特征的濾波器;表示特征維度數(shù)量,*表示卷積運(yùn)算。
學(xué)習(xí)相關(guān)濾波器的損失函數(shù)為
(6)
式中:表示樣本數(shù)量;將樣本對(duì)應(yīng)的期望結(jié)果設(shè)為周期性重復(fù)的高斯函數(shù),|| ||表示L2范數(shù),損失誤差由L2范數(shù)計(jì)算得到,表示樣本的權(quán)重,同時(shí)引入一個(gè)正則化懲罰參數(shù)來緩解周期性假設(shè)的缺陷。
然而,并非所有維度的特征都對(duì)跟蹤結(jié)果起到貢獻(xiàn)作用。如果特征圖有個(gè)維度就設(shè)置個(gè)濾波器,那么一部分濾波器的貢獻(xiàn)度可能很小,不僅嚴(yán)重影響運(yùn)算速度,還會(huì)使跟蹤性能受到冗余信息的干擾。因此,只選擇貢獻(xiàn)度較高的個(gè)濾波器進(jìn)行線性組合,進(jìn)行濾波器模型預(yù)測即可,計(jì)算公式如下所示:
*{}
(7)
式中:是一個(gè)×維度的矩陣,相當(dāng)于線性降維算子,,表示對(duì)進(jìn)行濾波的學(xué)習(xí)系數(shù),則相應(yīng)的損失函數(shù)為
(8)
本文算法流程如圖5所示,主要步驟如下:
構(gòu)建特征提取網(wǎng)絡(luò):結(jié)合RFB和ResNet結(jié)構(gòu)特點(diǎn),以及無人機(jī)視頻圖像的特點(diǎn),構(gòu)建RF-ResNet網(wǎng)絡(luò)模型提取目標(biāo)特征。
構(gòu)建多尺度特征自適應(yīng)融合網(wǎng)絡(luò):將提取的Conv2、Conv3和Conv4層特征進(jìn)行自適應(yīng)融合,得到融合目標(biāo)特征圖,并利用指定數(shù)據(jù)集訓(xùn)練目標(biāo)跟蹤算法。
目標(biāo)定位:將融合的目標(biāo)特征輸入到相關(guān)濾波器,計(jì)算響應(yīng)圖并將其峰值作為當(dāng)前幀跟蹤目標(biāo)的位置。
模板更新:每隔5幀對(duì)跟蹤目標(biāo)模板進(jìn)行更新,以適應(yīng)跟蹤目標(biāo)的各種變化。
圖5 算法流程圖Fig.5 Flowchart of algorithm
本文使用COCO2017數(shù)據(jù)集作為訓(xùn)練集,在Inter corei7 8th CPU,NVIDIA GEFORCE GTX 1080Ti GPU的計(jì)算機(jī)平臺(tái)上訓(xùn)練目標(biāo)跟蹤算法。
COCO2017數(shù)據(jù)集拍攝場景豐富,目標(biāo)種類多,被廣泛應(yīng)用于目標(biāo)檢測及目標(biāo)跟蹤訓(xùn)練任務(wù)中。本文對(duì)COCO2017數(shù)據(jù)集進(jìn)行裁剪處理,制作出40 000多個(gè)跟蹤目標(biāo)序列,包含多類拍攝場景,并且標(biāo)注目標(biāo)尺度分布范圍大,有利于訓(xùn)練出魯棒性更強(qiáng)的網(wǎng)絡(luò)模型。
UAV123數(shù)據(jù)集由無人機(jī)飛行拍攝的視頻組成,共包含123個(gè)子視頻序列,圖像幀數(shù)超過110k幀,拍攝的目標(biāo)包括行人、汽車、輪船、自行車等多類物體,由于拍攝的視點(diǎn)較高,大多數(shù)跟蹤目標(biāo)屬于小目標(biāo),并且無人機(jī)飛行姿態(tài)不斷變化,拍攝角度也存在較大差異,從而導(dǎo)致目標(biāo)姿態(tài)、形狀及尺度頻繁發(fā)生變化,因此UAV123數(shù)據(jù)集有很大的挑戰(zhàn)難度。
為直觀地驗(yàn)證本文算法對(duì)小目標(biāo)跟蹤的有效性,從UAV123數(shù)據(jù)集和VisDrone2018數(shù)據(jù)集中選取了4個(gè)典型小目標(biāo)視頻序列進(jìn)行仿真實(shí)驗(yàn),這些小目標(biāo)視頻也存在其他挑戰(zhàn),詳細(xì)信息如表2所示。
表2 4個(gè)小目標(biāo)視頻序列Table 2 Video sequence of 4 small targets
2.2.1 多尺度特征融合對(duì)比實(shí)驗(yàn)
為驗(yàn)證多尺度特征自適應(yīng)融合方法的有效性,在UAV123數(shù)據(jù)集上做了以下對(duì)比實(shí)驗(yàn)。第1組利用Conv2,Conv3 和Conv4進(jìn)行自適應(yīng)特征融合后的目標(biāo)特征進(jìn)行跟蹤;第2組是利用傳統(tǒng)的維度連接融合方法,將Conv2,Conv3 和Conv4進(jìn)行多尺度融合后的特征完成目標(biāo)跟蹤任務(wù);第3組則直接利用RF-ResNet網(wǎng)絡(luò)輸出的特征進(jìn)行目標(biāo)跟蹤。采用跟蹤成功率和跟蹤精確率對(duì)跟蹤性能進(jìn)行評(píng)價(jià),實(shí)驗(yàn)結(jié)果如圖6所示,本文提出的自適應(yīng)融合方法的跟蹤精確率達(dá)到了0.702,分別比維度連接融合方法和無融合特征進(jìn)行目標(biāo)跟蹤的精確率提高了1.3%和4.5%;跟蹤成功率達(dá)到了0.475,分別比其他2種方法提高了5.4%和9.3%。實(shí)驗(yàn)證明本文提出的多尺度特征自適應(yīng)融合方法能夠高效地融合深層網(wǎng)絡(luò)語義特征和淺層網(wǎng)絡(luò)的細(xì)節(jié)特征,大大地提高融合效率,增強(qiáng)特征的表達(dá)能力,有效提升目標(biāo)跟蹤性能。
圖6 特征融合跟蹤性能Fig.6 Feature fusion tracking performance
2.2.2 跟蹤算法性能分析
為了直觀驗(yàn)證本文算法的有效性,將其與SiamRPN、ECO、SiamCAR、SiamBAN和DaSiamRPN這5種跟蹤算法在表2所示的無人機(jī)跟蹤視頻序列上進(jìn)行仿真實(shí)驗(yàn),結(jié)果如圖7 所示。
圖7 視頻仿真結(jié)果圖Fig.7 Partial results of video simulation
1) Car2序列。無人機(jī)在高空拍攝行駛的汽車,并跟隨汽車飛行,因而目標(biāo)在序列中呈現(xiàn)小目標(biāo)和視角變化的特點(diǎn)。在前118幀序列中,小車在緩慢的拐彎,4種算法都能比較準(zhǔn)確地跟蹤上目標(biāo);在第200幀,小車拐過彎道開始加速行駛,同時(shí)無人機(jī)為了能夠捕捉到小車,也開始調(diào)整飛行速度,此時(shí)ECO算法定位框發(fā)生了較大誤差,在第373幀,DaSiamRPN算法跟蹤框已漂移到其他物體,而本文算法能夠保持穩(wěn)定精準(zhǔn)的跟蹤狀態(tài)。
2) Group1序列。3個(gè)相似的人員并排行走,同時(shí)無人機(jī)在不斷改變拍攝角度,造成了小目標(biāo)和相似性目標(biāo)影響的復(fù)雜情況。由于目標(biāo)尺度小,而且其周圍又有極其相似的物體,很考驗(yàn)跟蹤算法對(duì)目標(biāo)特征的辨別能力。在第721幀,相似目標(biāo)和跟蹤目標(biāo)接近時(shí),ECO、SiamCAR和DaSiamRPN跟蹤結(jié)果開始發(fā)生偏移;在第863幀,SiamCAR、SiamRPN和DaSiamRPN算法錯(cuò)誤地跟蹤上相似目標(biāo);SiamBAN算法跟蹤比較穩(wěn)定,并且本文算法通過融合深層網(wǎng)絡(luò)的語義信息,對(duì)小目標(biāo)的辨別能力更強(qiáng),因而能夠一直穩(wěn)定的跟蹤目標(biāo)。
3) Wakeboard6-1序列。無人機(jī)高空飛行拍攝海面上的沖浪者,由于無人機(jī)不斷調(diào)整飛行軌跡和姿態(tài),因而跟蹤目標(biāo)寬高比頻繁發(fā)生變化,為跟蹤帶來了很大難度。在前438幀,4種算法都能成功地跟蹤上目標(biāo);而在484幀,無人機(jī)調(diào)整了相機(jī)視角,跟蹤目標(biāo)的位置及尺度都發(fā)生了較大變化,SiamCAR、SiamRPN和DaSiamRPN算法發(fā)生嚴(yán)重的跟蹤漂移,丟失跟蹤目標(biāo);在后續(xù)幀中,如582幀,SiamCAR和SiamRPN算法始終無法定位到目標(biāo),而ECO和DaSiamRPN算法雖能成功跟蹤,但是跟蹤框的尺度誤差較大;可以看出,SiamBAN和本文算法對(duì)小目標(biāo)的跟蹤性能更穩(wěn)定。
4) Car序列。自行拍攝的擁擠街道場景中行駛的汽車,不僅汽車目標(biāo)尺度小,還有復(fù)雜的背景以及相似的目標(biāo)影響,具有很大的跟蹤難度。從跟蹤效果上可以看到在前100幀視頻序列中,4種算法都能成功地跟蹤上目標(biāo),但是隨著目標(biāo)移動(dòng),復(fù)雜背景以及相似目標(biāo)向跟蹤目標(biāo)靠近,SiamCAR、SiamRPN、DaSiamRPN和ECO算法的跟蹤結(jié)果發(fā)生漂移,SiamBAN算法跟蹤效果比較穩(wěn)定,同時(shí),本文算法能夠有效提取目標(biāo)特征并且有效適應(yīng)復(fù)雜背景及相似目標(biāo)的影響,跟蹤效果較為理想。
為了進(jìn)一步定量分析本文算法在上述4個(gè)視頻序列的跟蹤性能,采用位置誤差閾值為20個(gè)像素時(shí)的跟蹤精確率和交并比覆蓋閾值為0.5時(shí)的跟蹤成功率,實(shí)驗(yàn)結(jié)果如表3所示,相比其他5個(gè)算法,本文算法在跟蹤精確率和成功率方面均達(dá)到了較高水平,分別為0.752和0.536。
表3 算法跟蹤性能Table 3 Algorithm tracking performance
為了進(jìn)一步客觀地評(píng)估本文算法的跟蹤性能,將其與CCOT、ECO-HC、ECO、SiamBAN、DaSiamRPN、SiamRPN、UPDT、SRDCF、MEEM、MUSTER和SAMF共11個(gè)跟蹤算法在整個(gè)UAV123數(shù)據(jù)集以及UAV123數(shù)據(jù)集中46個(gè)具有代表性的小目標(biāo)視頻序列上進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果如圖8、圖9所示。在46個(gè)代表性小目標(biāo)視頻序列中,本文算法取得了較高的跟蹤性能,跟蹤成功率達(dá)到0.475,跟蹤精確率達(dá)到0.702,充分證明了本文算法較其他算法對(duì)小目標(biāo)跟蹤的有效性。在UAV123數(shù)據(jù)集上,本文算法的跟蹤成功率為0.613,跟蹤精確率為0.805,驗(yàn)證了本文算法在跟蹤準(zhǔn)確性和穩(wěn)定性方面具有優(yōu)異的整體性能。本文算法在所有對(duì)比算法中,跟蹤指標(biāo)僅略低于SiamBAN算法,該算法得益于anchor free策略,避免了繁瑣的超參數(shù)調(diào)節(jié),使得算法能夠在6大數(shù)據(jù)集上進(jìn)行高效訓(xùn)練,優(yōu)化了跟蹤性能。下一步工作也將從網(wǎng)絡(luò)整體訓(xùn)練優(yōu)化方面進(jìn)行改進(jìn)。
圖8 UAV123數(shù)據(jù)集中46個(gè)代表性小目標(biāo)視頻序列跟蹤性能Fig.8 Video sequence tracking performance of 46 representative small targets in UAV123 dataset
圖9 UAV123數(shù)據(jù)集整體跟蹤性能Fig.9 Overall tracking performance of the UAV123 dataset
本文提出了一種基于自適應(yīng)融合網(wǎng)絡(luò)的無人機(jī)目標(biāo)跟蹤算法,主要貢獻(xiàn)如下:
1) 結(jié)合RFB的感受野增強(qiáng)特性和殘差網(wǎng)絡(luò)結(jié)構(gòu)的梯度優(yōu)化特點(diǎn),構(gòu)建了感受野增強(qiáng)殘差網(wǎng)絡(luò)模型RF-ResNet,能夠有效提取目標(biāo)特征并增強(qiáng)特征的有效感受野。
2) 提出了一種多尺度自適應(yīng)融合網(wǎng)絡(luò),通過將RF-ResNet提取的淺層和深層特征輸入到RFB模塊和自適應(yīng)加權(quán)融合模塊,獲得了含有深層語義信息和淺層細(xì)節(jié)信息的融合特征,提高了目標(biāo)特征的表達(dá)能力,降低了小目標(biāo)在視頻序列中易受復(fù)雜背景的影響及其特征難以提取等問題。