• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于注意力機制和特征金字塔的孿生卷積神經(jīng)網(wǎng)絡(luò)目標(biāo)跟蹤算法

    2023-03-15 08:47:04卞月樓陸振宇葛泉波白延中
    計算機應(yīng)用與軟件 2023年2期
    關(guān)鍵詞:網(wǎng)絡(luò)結(jié)構(gòu)金字塔卷積

    卞月樓 陸振宇 葛泉波 鄭 成 白延中

    1(南京信息工程大學(xué)電子與信息工程學(xué)院 江蘇 南京 210044) 2(南京信息工程大學(xué)人工智能學(xué)院 江蘇 南京 210044) 3(同濟(jì)大學(xué)電子與信息工程學(xué)院 上海 200092)

    0 引 言

    目標(biāo)跟蹤是當(dāng)下計算機視覺領(lǐng)域中的重要研究課題之一,它在諸如視頻監(jiān)控、自動駕駛、人機交互、防空預(yù)警等領(lǐng)域具有廣泛的應(yīng)用。目前,盡管目標(biāo)跟蹤已經(jīng)取得了很多研究成果,但在一些復(fù)雜多變的場景中,由于受到目標(biāo)部分遮擋、幾何變形、快速運動、尺度變換等因素的影響,現(xiàn)有的算法跟蹤目標(biāo)的精度和魯棒性不佳,因此,目標(biāo)跟蹤仍然是一個非常具有挑戰(zhàn)性的任務(wù)。

    相關(guān)濾波一直是目標(biāo)追蹤領(lǐng)域的主流方法。文獻(xiàn)[1]首次提出了最小化輸出平方誤差和濾波(MOSSE)算法,較大地提高了算法跟蹤速度。此后,一些基于核相關(guān)濾波改進(jìn)的目標(biāo)跟蹤算法也隨之產(chǎn)生[2-3]。在解決目標(biāo)尺度變化問題上,文獻(xiàn)[4]提出了區(qū)分尺度空間(DSST)算法,通過訓(xùn)練一個三維濾波器,對位置、尺度進(jìn)行更新,實現(xiàn)了對目標(biāo)尺度自適應(yīng)跟蹤并在文獻(xiàn)[5-8]中進(jìn)行了改進(jìn)。在處理目標(biāo)特征方面,文獻(xiàn)[9]將3維的RGB特征映射到11維的顏色名(CN),使得濾波器具有處理豐富的顏色特征的能力。隨后,文獻(xiàn)[10]利用多特征融合的方法,提出了尺度自適應(yīng)多特征跟蹤器(SAMF),將CN和HOG特征進(jìn)行特征融合,取得了較好的跟蹤效果。

    近年來,卷積神經(jīng)網(wǎng)絡(luò)發(fā)展十分迅速,憑借著強大的提取特征能力,在目標(biāo)跟蹤領(lǐng)域取得了很大成功。文獻(xiàn)[11]首次訓(xùn)練了一個用于目標(biāo)跟蹤的多域通用模型,實現(xiàn)了端到端的跟蹤。但是模型采用在線學(xué)習(xí)的方式,難以達(dá)到實時的要求?;诖?,文獻(xiàn)[12-13]都提出了采用離線學(xué)習(xí)的方式,運用孿生網(wǎng)絡(luò)結(jié)構(gòu),大大提高了跟蹤速度。隨后,出現(xiàn)了很多基于文獻(xiàn)[13]中全卷積孿生網(wǎng)絡(luò)(SiameseFC)模型的改進(jìn)算法,開辟了深度學(xué)習(xí)模型的新領(lǐng)域。SenseTime團(tuán)隊將Faster R-CNN的核心區(qū)域生成網(wǎng)絡(luò)(RPN)用于SiameseFC,提出了SiamRPN[14],在精度和速度上,都達(dá)到了不錯的效果。同年,SenseTime還提出了DaSiamRPN[15]模型,使算法更好地利用數(shù)據(jù)訓(xùn)練,并在模型跟蹤失敗的時候,模型采取一種“局部-全局”增大搜索框的策略去重新跟蹤目標(biāo),可以很好地應(yīng)對長時跟蹤的問題。文獻(xiàn)[16-17]都針對先前算法采用AlexNet這樣的淺層主干網(wǎng)絡(luò)進(jìn)行分析,各自提出了使用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取的方法,提高了算法性能。此外,文獻(xiàn)[18-21]通過將深度學(xué)習(xí)和相關(guān)濾波相結(jié)合的方式,也獲得了比較有競爭力的性能。

    盡管當(dāng)下基于深度學(xué)習(xí)的目標(biāo)跟蹤算法憑借著卷積神經(jīng)網(wǎng)絡(luò)強大的特征學(xué)習(xí)和表征能力取得了不錯的性能,但當(dāng)跟蹤目標(biāo)所在場景復(fù)雜時,跟蹤效果卻一般。一方面一些挑戰(zhàn)場景下,單純使用深度網(wǎng)絡(luò)提取特征還不足以得到更好的特征;另一方面深度網(wǎng)絡(luò)導(dǎo)致提取到的特征感受野太大,更加關(guān)注目標(biāo)的語義信息而缺少了物體的位置、紋理等底層信息。最后深度網(wǎng)絡(luò)參數(shù)更大,需要更多計算資源,往往會導(dǎo)致跟蹤速度降低。從本質(zhì)而言,采用深度神經(jīng)網(wǎng)絡(luò)當(dāng)作孿生網(wǎng)絡(luò)的主干網(wǎng)絡(luò)來提取特征,是用網(wǎng)絡(luò)運行速度換取跟蹤準(zhǔn)確率的方式。然而,在實際應(yīng)用中,考慮算法的性能時往往是綜合各方面因素的,實時性也是不可忽視的問題。一個真正優(yōu)秀的跟蹤算法應(yīng)同時具備較高的跟蹤精度和滿足實時應(yīng)用要求。

    為了克服以上問題,本文提出一種結(jié)合注意力機制和特征金字塔的全卷積孿生網(wǎng)絡(luò)目標(biāo)跟蹤算法。注意力機制讓跟蹤器更專注于目標(biāo)本身并抑制其余的無用背景信息,進(jìn)而提高特征的表征能力。特征金字塔模型可以有效解決深度神經(jīng)網(wǎng)絡(luò)帶來的感受野過大、小目標(biāo)難以跟蹤的問題。這些改進(jìn)能夠提高網(wǎng)絡(luò)性能的同時,也不會帶來巨大的資源開銷。最后,針對在跟蹤目標(biāo)訓(xùn)練過程中正負(fù)樣本不平衡、簡單和困難樣本問題,通過改進(jìn)損失函數(shù)來優(yōu)化網(wǎng)絡(luò)訓(xùn)練。

    綜上所述,本文的主要貢獻(xiàn)如下:

    (1) 對網(wǎng)絡(luò)進(jìn)行改進(jìn)并在一些卷積層間加入通道注意力機制,對卷積特征的各個通道賦予相應(yīng)的權(quán)值,提高最終卷積特征的判別力。

    (2) 在網(wǎng)絡(luò)中加入特征金字塔網(wǎng)絡(luò)(FPN)[22]結(jié)構(gòu),通過融合高低卷積層特征,使得提取到的特征具有更強的表觀信息和語義信息。

    (3) 針對網(wǎng)絡(luò)訓(xùn)練過程中出現(xiàn)的正負(fù)樣本不平衡、簡單和困難樣本問題,通過使用焦點損失(Focal Loss)[23]函數(shù)來進(jìn)一步提高跟蹤精度。

    1 孿生神經(jīng)網(wǎng)絡(luò)的目標(biāo)跟蹤算法

    1.1 孿生神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

    孿生神經(jīng)網(wǎng)絡(luò)[24]是由兩個或更多的神經(jīng)網(wǎng)絡(luò)分支構(gòu)成的網(wǎng)絡(luò)結(jié)構(gòu),并且每個子網(wǎng)共享權(quán)重,信息通過各自的子網(wǎng)絡(luò)后,通過距離計算得出它們的相似性,從而可以在少量的樣本情況下精準(zhǔn)分類。孿生神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,其中:Z為模板圖像;X為候選圖像。經(jīng)過該結(jié)構(gòu)后可得相似度函數(shù)為:

    圖1 孿生神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

    fW(Z,X)=φW(Z)*φW(X)+b1

    (1)

    式中:φ為共享權(quán)重W的卷積操作;*代表卷積相關(guān)性操作;b1為偏移量。式(1)為二維的置信得分圖,用來表示兩個特征之間相似度,只要找到置信得分圖中響應(yīng)值最大的區(qū)域,并乘以相應(yīng)的步長,通過計算就可以得到候選圖像中的目標(biāo)位置。

    1.2 基于深度神經(jīng)網(wǎng)絡(luò)的孿生網(wǎng)絡(luò)目標(biāo)跟蹤算法

    在深度學(xué)習(xí)領(lǐng)域中,目標(biāo)跟蹤算法大多是基于孿生網(wǎng)絡(luò)結(jié)構(gòu)實現(xiàn)的。盡管當(dāng)下已經(jīng)取得了不錯的效果,然而諸如SiameseFC、SiamRPN等算法,無一例外都是采用類似AlexNet這樣的淺層神經(jīng)網(wǎng)絡(luò)充當(dāng)特征提取器。目標(biāo)跟蹤實質(zhì)是一個驗證的過程,淺層網(wǎng)絡(luò)效果不錯,同時跟蹤需要實時進(jìn)行,增加網(wǎng)絡(luò)層數(shù)會增加計算負(fù)擔(dān),影響實時性。但是,隨著深度學(xué)習(xí)的火熱發(fā)展,通過簡單地加深網(wǎng)絡(luò)層數(shù)、優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),利用深度卷積神經(jīng)網(wǎng)絡(luò)強大的提取特征能力,許多領(lǐng)域的算法性能都得到較大的提升。因此,在目標(biāo)跟蹤領(lǐng)域網(wǎng)絡(luò)深度化也應(yīng)當(dāng)是大勢所趨。然而經(jīng)過實驗發(fā)現(xiàn),在不考慮跟蹤效率情況下,將深層基準(zhǔn)網(wǎng)絡(luò)ResNet[25]、Inception[26]應(yīng)用到孿生網(wǎng)絡(luò)結(jié)構(gòu)中時,網(wǎng)絡(luò)并沒有像在其他視覺任務(wù)上表現(xiàn)得那么優(yōu)秀。一方面深度網(wǎng)絡(luò)導(dǎo)致提取到的特征感受野太大,更加關(guān)注目標(biāo)的語義信息而缺少了物體的位置、紋理等底層信息;另一方面使用深度網(wǎng)絡(luò)會存在很多的padding操作,會導(dǎo)致跟蹤出現(xiàn)漂移現(xiàn)象;最后,一些網(wǎng)絡(luò)的步長選擇過大會導(dǎo)致小目標(biāo)定位困難。所以,單單使用深度神經(jīng)網(wǎng)絡(luò)作為特征提取器并不能很好地提高算法精度。

    為了提高跟蹤器的判別能力,利用深度神經(jīng)網(wǎng)絡(luò)的特征提取能力,SiamDW[18]提出了新的殘差網(wǎng)絡(luò)結(jié)構(gòu),通過利用裁剪內(nèi)部殘差(Cropping-Inside Residual,CIR)單元,很大程度地減弱padding操作產(chǎn)生的偏差影響,在網(wǎng)絡(luò)加深的同時也取得了較好的性能。但是,SiamDW在一些復(fù)雜場景判別能力不強,模型發(fā)生漂移,導(dǎo)致跟蹤失敗。本文基于此對算法進(jìn)行改進(jìn),通過引入特征金字塔和通道注意力機制修改網(wǎng)絡(luò)結(jié)構(gòu),并在訓(xùn)練中選取更加合適的損失函數(shù),實驗證明,該方法能夠有效地減小跟蹤器的跟蹤誤差。

    2 算法設(shè)計

    2.1 網(wǎng)絡(luò)結(jié)構(gòu)

    本文所提出的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,以SiamDW網(wǎng)絡(luò)為基礎(chǔ)進(jìn)行改進(jìn),加入了特征金字塔和空間注意力機制,并針對目標(biāo)跟蹤中正負(fù)樣本失衡的問題,在訓(xùn)練中通過使用Focal Loss損失函數(shù)進(jìn)行優(yōu)化。

    圖2 網(wǎng)絡(luò)總體結(jié)構(gòu)

    具體而言,在模型構(gòu)建時,SiamDW選用的CIResNet-22作為原始主干網(wǎng)絡(luò)并將其分為四個卷積階段。我們首先在后兩個卷積階段所得的特征后加入收縮激勵(Squeeze-and-Excitation,SE)模塊[27],該模塊能夠充分利用特征圖的通道信息,使得模型更加關(guān)注信息量大的通道特征,從而提高整個特征圖的表達(dá)能力。隨后,在第二和第三個卷積階段后面加入最大池化操作,提高卷積的感受野。將各卷積階段得到的特征圖進(jìn)行維度操作,并對高層特征進(jìn)行上采樣,使之與其上一層具有相同的尺寸,并將這兩層網(wǎng)絡(luò)特征進(jìn)行融合。反復(fù)以上操作至最底層網(wǎng)絡(luò),就可以構(gòu)造出特征金字塔。最后得到的特征融合了多層特征信息,不但具有高層的語義信息,還可以提供準(zhǔn)確的位置、紋理等底層信息,增強了模型判別力的同時也提高了小目標(biāo)物體跟蹤的精度。

    2.2 注意力機制

    注意力機制是指從大量的信息中有選擇性地關(guān)注重要的一部分,從而獲取需要目標(biāo)的特征,而不關(guān)注無關(guān)信息的技術(shù)。目前,注意力機制已經(jīng)在各種深度學(xué)習(xí)領(lǐng)域都有應(yīng)用,諸如計算機視覺、自然語言處理和語音識別等,也誕生了很多高效的算法[28-30]。SiamDW網(wǎng)絡(luò)中的各層卷積操作,通過空間上的特征融合來增大感受野,提高特征的表征能力。而對于通道維度的特征,卷積并沒有關(guān)注各個通道之間的關(guān)系,而是對所有通道進(jìn)行直接融合。因此,本文在SiamDW網(wǎng)絡(luò)中加入SE模塊,這使得最終得到的特征不僅考慮了空間信息,而且還利用學(xué)習(xí)到的各通道之間的相關(guān)性來增強提取特征的效果。此外,加入SE模塊并沒有改變原有特征的空間維度,網(wǎng)絡(luò)性能卻有一定的提升。該模塊結(jié)構(gòu)如圖3所示。

    圖3 通道注意力

    模塊中特征圖的輸入、輸出維度均為H×W×C,F(xiàn)C為全連接網(wǎng)絡(luò),ReLU和Sigmoid為兩種不同的激活函數(shù),?為哈達(dá)瑪積。H×W×C的特征圖經(jīng)過全局池化操作,將各個通道的特征轉(zhuǎn)變成一個實數(shù)z,第c個通道的特征圖對應(yīng)的實數(shù)z為:

    (2)

    式中:uc(i,j)為輸入特征圖的第c個通道位置為(i,j)的圖像像素值;Fsq為全局池化。隨后將獲取的通道信息經(jīng)過全連接層、ReLU激活函數(shù)和全連接層操作。再利用Sigmoid激活函數(shù)進(jìn)行處理,得到權(quán)重賦值:

    s=σ2(W2σ1(W1z))

    (3)

    式中:z為式(2)操作的結(jié)果;W1和W2為第一層和第二層卷積權(quán)重;σ1和σ2為ReLU和Sigmoid激活函數(shù)。最后將輸出的權(quán)重以加權(quán)的方式在原始特征圖上進(jìn)行重新標(biāo)定,將每個通道特征圖和對應(yīng)權(quán)重值求哈達(dá)瑪積,最終得到通過通道注意力機制的特征。

    2.3 特征金字塔

    網(wǎng)絡(luò)提取的特征的好壞是影響跟蹤器效果好壞的關(guān)鍵因素,在提取到通過通道注意力機制的特征后,本文使用特征金字塔模型對高低層卷積進(jìn)行特征融合,從而獲得更加豐富的特征信息。文中所使用的原始SiamDW的主干網(wǎng)絡(luò)CIResNet-22由22個卷積層組成,并利用最高層的輸出作為主干網(wǎng)絡(luò)最終提取的特征,然而當(dāng)跟蹤目標(biāo)是小目標(biāo)時,該特征由于感受野過大就難以捕獲目標(biāo)的空間細(xì)節(jié)信息,最終導(dǎo)致模板漂移或者錯誤跟蹤。在卷積神經(jīng)網(wǎng)絡(luò)中的所有的特征層中,淺層特征分辨率較高,具有更多的目標(biāo)表觀信息和空間特征。當(dāng)隨著網(wǎng)絡(luò)加深以及感受野的擴(kuò)大,深層特征則具有更多的目標(biāo)語義信息。因此,通過特征金字塔網(wǎng)絡(luò)將網(wǎng)絡(luò)的高低層特征進(jìn)行一定方式的融合,可以使得融合后的特征同時具有目標(biāo)不錯的表觀信息和語義信息。

    在原始的CIResNet-22中,作者根據(jù)目標(biāo)跟蹤的特點構(gòu)建的卷積后三個階段特征圖的維度并沒有變化,保證了一個合理的網(wǎng)絡(luò)步長。本文為了進(jìn)一步提高卷積特征的表征能力,在卷積的第三和第四階段加入最大池化,提高感受野的同時便于后續(xù)金字塔的構(gòu)建。圖4為本文中的特征金字塔網(wǎng)絡(luò)結(jié)構(gòu)。首先對提取到的三個階段卷積特征進(jìn)行降維操作,即使用1×1的卷積使不同維度的輸出特征圖具有相同的通道數(shù)。其次自上而下地進(jìn)行特征融合,由于上層特征圖尺度比較小,通過對其進(jìn)行上采樣再與下一層的特征圖進(jìn)行對應(yīng)元素相加,得到融合高低層特征的卷積特征。最終在得到的三個特征圖上分別進(jìn)行預(yù)測。在本文構(gòu)建的網(wǎng)絡(luò)結(jié)構(gòu)中,實驗表明融合后下層特征具有更好的表征能力,跟蹤器的性能也更加優(yōu)異。

    圖4 特征金字塔模型

    2.4 損失函數(shù)

    由于物體的尺度變化,在跟蹤過程中網(wǎng)絡(luò)需要對搜索區(qū)域大小進(jìn)行尺度放縮來確定目標(biāo)大小,提高跟蹤性能。然而,生成大量的候選框中正負(fù)樣本數(shù)存在著不平衡,負(fù)樣本數(shù)遠(yuǎn)遠(yuǎn)大于正樣本數(shù),這也導(dǎo)致了網(wǎng)絡(luò)訓(xùn)練困難進(jìn)而影響著模型的精度。為了解決這一問題,本文將目標(biāo)檢測中的Focal Loss函數(shù)應(yīng)用到跟蹤領(lǐng)域。Focal Loss函數(shù)是基于傳統(tǒng)交叉熵(CE)的改進(jìn)函數(shù),可以一定程度克服訓(xùn)練正負(fù)樣本不平衡,使模型更加關(guān)注難分類的樣本。傳統(tǒng)的CE公式如下:

    CE(p,y)=CE(pt)=-log(pt)

    (4)

    FL(p,y)=FL(pt)=-(1-pt)γlog(pt)

    (5)

    式中:(1-pt)γ(γ≥0)為調(diào)制系數(shù),當(dāng)γ=0時,F(xiàn)oca Loss即為傳統(tǒng)交叉熵函數(shù)。針對訓(xùn)練時正負(fù)樣本不平衡的問題,F(xiàn)ocal Loss又引入平衡因子αt,得到最終得Focal Loss函數(shù)為:

    FL(p,y)=FL(pt)=-αt(1-pt)γlog(pt)

    (6)

    3 實驗結(jié)果與分析

    3.1 實驗環(huán)境和設(shè)置

    本文算法在Ubuntu16.04系統(tǒng)下PyTorch 0.3.1框架上實現(xiàn),并使用GPU進(jìn)行加速。實驗平臺中,CPU配置為:Inter core i5-8600k,計算機內(nèi)存為16 GB。GPU配置為:NVIDIA GTX 1080Ti,顯存大小為12 GB。

    在訓(xùn)練階段,我們使用GOT-10K數(shù)據(jù)集對網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練,該數(shù)據(jù)集總共包含了10 000個視頻圖像序列,563個不同目標(biāo)種類,87種常見的運動模式,具有更加豐富的現(xiàn)實場景。我們設(shè)置初始學(xué)習(xí)率為0.001,隨著網(wǎng)絡(luò)訓(xùn)練次數(shù)的增加,學(xué)習(xí)率會逐漸遞減,最終降為0.000 000 1。此外,還設(shè)置α=0.25和γ=2來克服訓(xùn)練時候正負(fù)樣本不平衡的問題。在測試階段,用目標(biāo)跟蹤基準(zhǔn)數(shù)據(jù)集OTB100對訓(xùn)練好的網(wǎng)絡(luò)進(jìn)行魯棒性和準(zhǔn)確性的檢驗。

    3.2 OTB基準(zhǔn)

    (1) 評估標(biāo)準(zhǔn)。為了有效地評估本文算法的性能,本文利用OTB100數(shù)據(jù)集進(jìn)行測試,采用中心位置誤差(CLE)和重疊率(OP)作為基本度量方式,并使用精確度(Precision)和成功率(Success Rate)作為指標(biāo)對算法性能進(jìn)行評估。精確度衡量的是目標(biāo)預(yù)測中心位置和標(biāo)注目標(biāo)中心位置的像素差值小于設(shè)定閾值的幀數(shù)占所有幀數(shù)的比例。公式為:

    (7)

    (8)

    (9)

    式中:N表示視頻序列的幀數(shù);f表示某一幀是否跟蹤成功;d表示設(shè)定閾值;(xp,yp)和(xg,yg)表示預(yù)測框和標(biāo)注框的中心位置坐標(biāo)。成功率則計算預(yù)測框和標(biāo)注框的重疊率(Overlap Rate)大于設(shè)定閾值的幀數(shù)占所有幀數(shù)的比例。公式為:

    (10)

    (11)

    (12)

    式中:g表示某一幀是否跟蹤成功;d表示設(shè)定閾值;k表示重疊率;rp和rg表示預(yù)測區(qū)域和標(biāo)注區(qū)域。

    (2) 消融實驗。為了驗證不同模塊對實驗最終結(jié)果的影響,本文在OTB100數(shù)據(jù)集上進(jìn)行大量對比實驗,使用精確度和成功率作為指標(biāo)對算法性能進(jìn)行評估。在CIResNet-22主干網(wǎng)絡(luò)中組合加入空間注意力機制、特征金字塔和Focal Loss損失函數(shù)構(gòu)建新的網(wǎng)絡(luò)。如表1所示,當(dāng)僅加入其中一個模塊時,修改原網(wǎng)絡(luò)損失函數(shù)為Focal Loss取得了最好的結(jié)果,比原本的精確度和成功率分別提高了0.035和0.015;當(dāng)同時使用空間注意力機制和特征金字塔構(gòu)建網(wǎng)絡(luò),并修改原損失函數(shù)為Focal Loss時,算法取得了最高的精確度和成功率,比原本算法分別提高了0.052和0.030,因此,我們將該情況下的最終精度用于和以下主流算法實驗對比來驗證本文算法的有效性。

    表1 OTB100數(shù)據(jù)集上各模塊實驗結(jié)果

    續(xù)表1

    (3) 實驗對比。將本文算法與主流的9種目標(biāo)跟蹤算法(fDSST[5]、Staple[31]、SiamFC[13]、CFNet[32]、SRDCF[33]、SiamDW[18]、DeepSRDCF[34]、SiamRPN[14]、GradNet[35])在OTB100數(shù)據(jù)集進(jìn)行一次性通過評估(One-Pass Evaluation,OPE)比較。圖5和圖6展示了所有算法在不同閾值下精確度和成功率的曲線。其中,將成功率曲線的曲線下面積(Area Under Curve,AUC)用于跟蹤算法的排名。表2顯示了各個算法的對比結(jié)果??梢钥闯?,本文算法在OTB100數(shù)據(jù)集上,精確度和成功率均在所有比較算法中排名第一,算法精確度和成功率比第二GradNet提高了0.019和0.018。結(jié)果表明本文改進(jìn)的跟蹤算法取得了比較有競爭力的效果。

    圖5 10種算法在OTB100數(shù)據(jù)集上的成功率曲線

    圖6 10種算法在OTB100數(shù)據(jù)集上的精確度曲線

    表2 10種算法在OTB100數(shù)據(jù)集上實驗結(jié)果

    為了更好地說明本文算法對目標(biāo)跟蹤中常見問題的有效性,我們對OTB100數(shù)據(jù)集的11個標(biāo)注屬性目標(biāo)進(jìn)行獨立實驗。11種屬性分別是背景干擾(Background Clutter,BC)、非剛性形變( Deformation,DF)、快速移動(Fast Motion, FM)、平面內(nèi)旋轉(zhuǎn)(In-plane Rotation,IR)、超出視野(Out-of-view,OV)、光照變化(Illumination Variation,IV)、低分辨率(Low Resolution,LR)、運動模糊(Motion Blur,MB)、遮擋(Occlusion,OC)、尺度變化(Scale Variation,SV)和平面外旋轉(zhuǎn)(Out-of-plane Rotation,OR)。表3和表4分別為本文算法和4種表現(xiàn)較好的對比算法在11種挑戰(zhàn)屬性下的成功率和精確度實驗結(jié)果??梢钥闯?,本文算法在背景干擾、非剛性變化、平面內(nèi)旋轉(zhuǎn)、光照變化、平面外旋轉(zhuǎn)和尺度變化這6種屬性中均取得了最好的效果。

    表3 OTB100數(shù)據(jù)集上11種屬性的成功率

    表4 OTB100數(shù)據(jù)集上11種屬性的精確度

    3.3 VOT基準(zhǔn)

    與OTB基準(zhǔn)一樣,VOT基準(zhǔn)也是視覺跟蹤領(lǐng)域使用較廣泛的數(shù)據(jù)集。本文選用VOT2015數(shù)據(jù)集對算法進(jìn)行實驗對比驗證。VOT2015包含了60個視頻圖像序列。在評價指標(biāo)方面,我們選取3個常用的VOT基準(zhǔn)評價指標(biāo)來評價跟蹤器的性能,分別是準(zhǔn)確率(Accuracy,A)、魯棒性(Robustness,R)和常用來對跟蹤器進(jìn)行排名的評價指標(biāo)平均重疊期望(Expected Average Overlap,EAO)。其中,跟蹤器準(zhǔn)確率和平均重疊期望得分越高代表著算法表現(xiàn)更好,而魯棒性得分越低則反映跟蹤器跟蹤性能更優(yōu)秀。

    在VOT2015基準(zhǔn)下,本文選用DSST[5]、SAMF[10]、SRDCF[33]、DeepSRDCF[34]、SiamFC[13]和SiamDW[18]六種主流算法和本文算法進(jìn)行比較。從表5中可見,本文算法魯棒性為1.08,在7個算法中排名第三,但準(zhǔn)確率和平均重疊期望都取得了最好的效果。在準(zhǔn)確率中,本文算法比第二名算法SiamDW提高了0.01。在平均重疊期望中,本文算法和DeepSRDCF取得了同樣的結(jié)果,比DSST提高了0.15,但DeepSRDCF只有不到1幀/秒的跟蹤速度遠(yuǎn)遠(yuǎn)達(dá)不到實時性,而本文算法取得的65幀/秒達(dá)到了實時的跟蹤速度。此外,圖7展示了各算法在VOT2015數(shù)據(jù)集上平均數(shù)學(xué)期望的排名。

    表5 7種算法在VOT2015數(shù)據(jù)集上實驗結(jié)果

    圖7 VOT2015數(shù)據(jù)集上的平均重疊期望

    4 結(jié) 語

    本文在深度學(xué)習(xí)目標(biāo)跟蹤算法的框架下,針對深度卷積網(wǎng)絡(luò)在復(fù)雜場景的不足,提出一種結(jié)合注意力機制和特征金字塔的目標(biāo)跟蹤算法。通過對網(wǎng)絡(luò)的重新構(gòu)建,將通道注意力機制和特征金字塔模型融入孿生卷積神經(jīng)網(wǎng)絡(luò)并在訓(xùn)練中利用Focal Loss函數(shù)解決樣本訓(xùn)練的問題。實驗表明,本文算法能夠較好地解決一些復(fù)雜場景難以跟蹤的問題,有效地提高了目標(biāo)跟蹤的成功率。但同時實驗也發(fā)現(xiàn),引入特征金字塔模型來提高特征表征能力會增加計算量,降低了算法跟蹤的速度。因此,如何改進(jìn)本文算法的跟蹤速度,將是下一步研究的工作重點。

    猜你喜歡
    網(wǎng)絡(luò)結(jié)構(gòu)金字塔卷積
    “金字塔”
    A Study of the Pit-Aided Construction of Egyptian Pyramids
    基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
    從濾波器理解卷積
    電子制作(2019年11期)2019-07-04 00:34:38
    海上有座“金字塔”
    基于傅里葉域卷積表示的目標(biāo)跟蹤算法
    神秘金字塔
    童話世界(2017年11期)2017-05-17 05:28:25
    基于互信息的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)
    知識網(wǎng)絡(luò)結(jié)構(gòu)維對于創(chuàng)新績效的作用機制——遠(yuǎn)程創(chuàng)新搜尋的中介作用
    滬港通下A+ H股票網(wǎng)絡(luò)結(jié)構(gòu)演化的實證分析
    华坪县| 天峨县| 宁武县| 安康市| 东至县| 本溪| 吕梁市| 天镇县| 周至县| 武宣县| 内黄县| 桃江县| 平江县| 邵阳市| 吉林省| 海宁市| 富宁县| 虞城县| 巴彦淖尔市| 湘潭县| 门头沟区| 巴楚县| 德钦县| 绥阳县| 扎赉特旗| 梁平县| 定襄县| 盘山县| 定兴县| 葫芦岛市| 乌兰浩特市| 吴川市| 云林县| 邯郸市| 沈丘县| 嘉禾县| 达拉特旗| 德庆县| 德州市| 芦溪县| 河曲县|