李 科,蔡堅勇,2,3,4,張明偉,盧依宏,曾遠強
1(福建師范大學(xué) 光電與信息工程學(xué)院,福州 350007)
2(福建師范大學(xué) 醫(yī)學(xué)光電科學(xué)與技術(shù)教育部重點實驗室,福州 350007)
3(福建師范大學(xué) 福建省光子技術(shù)重點實驗室,福州 350007)
4(福建師范大學(xué) 福建省光電傳感應(yīng)用工程技術(shù)研究中心,福州 350007)
近些年,由于深度學(xué)習的火熱,在視頻中的運動目標追蹤中出現(xiàn)了很多新方法.就追蹤任務(wù)而言,可分為MOT (Multiple Object Tracking)和VOT (Visual Object Tracking)[1–3].MOT主要是同時追蹤多個目標,對抗干擾能力要求不高,VOT則是在干擾條件下持續(xù)追蹤單個目標.基于監(jiān)督學(xué)習算法的主流目標追蹤方法的可分為,生成法和判別法兩種.兩種方法都是通過數(shù)據(jù)集訓(xùn)練模型,達到預(yù)測結(jié)果的目的.不同的是生成法先求出聯(lián)合概率p(x,y),再通過p(y|x)=p(x,y)/p(x)得到條件概率;判別法則是直接學(xué)習條件概率.兩種方法得到的條件概率均可轉(zhuǎn)換為目標框中的像素得分.然而對于追蹤任務(wù)而言判別法效果優(yōu)于生成法[4],判別法開山之作SiamFC的出現(xiàn),使得追蹤任務(wù)取得很大的進展,但是它仍然無法處理多重干擾數(shù)據(jù)集.本文提出的DPPSiamFC神經(jīng)網(wǎng)絡(luò) (Detial-Preserving Pooling Fully-Convolutional Siamese networks)是對SiamFC網(wǎng)絡(luò)的改進,可在旋轉(zhuǎn)、快速移動、變形、遮擋和相似性干擾等數(shù)據(jù)集上取得更好的效果.本文采用的驗證數(shù)據(jù)集是VOT2017 (包含的種類有bag、ball、basketball、birds等40多種類)[5–8].
圖1中SiamFC由對稱的兩個神經(jīng)網(wǎng)絡(luò)架構(gòu)組成,Z代表標注的圖片,X為候選圖片.在X上計算候選區(qū)域和預(yù)測區(qū)域重疊面積的得分,從而計算出預(yù)測精確度,φ通常是若干卷積層和池化層(經(jīng)典Alexnet采用5層卷積層),網(wǎng)絡(luò)通過φ函數(shù)得到128個通道的特征圖,并將兩個特征圖通過深度卷積進行融合定位視頻中目標位置.
圖1 SiamFC網(wǎng)絡(luò)基礎(chǔ)架構(gòu)
由于CNN網(wǎng)絡(luò)在目標檢測領(lǐng)域取得良好的效果,能有效記憶目標的特征,所以CNN網(wǎng)絡(luò)也被引入追蹤網(wǎng)絡(luò)算法中[9].SiamFC網(wǎng)絡(luò)在VOT2016 (Visual Object Tracking)競賽中獲得良好的比賽成績,相較KCF(Kernelized correlation filter)有較大的提升,SiamFC在ILSVRC2015數(shù)據(jù)集上進行訓(xùn)練,訓(xùn)練兩條分支的網(wǎng)絡(luò)參數(shù)權(quán)重ω和偏置b[5,7,8,10–16].在得到穩(wěn)定的網(wǎng)絡(luò)模型后,可進行在線追蹤的任務(wù).進行追蹤任務(wù)時,SiamFC只需要讀入初始標定的目標,即可持續(xù)在未標定視頻中連續(xù)追蹤特定目標,給出預(yù)測的目標位置框,并計算與GroundTruth集合的重疊面積,從而得到預(yù)測精確度.
圖1中兩個孿生的φ在實際網(wǎng)絡(luò)中可用5層卷積神經(jīng)網(wǎng)絡(luò)代替,其中Conv1和Conv2卷積層之后有Pool1和Pool2池化層.兩個池化層目的是減少網(wǎng)絡(luò)參數(shù)的個數(shù),但同時也會失去目標的一些細節(jié)特征.上述情況在VOT2017數(shù)據(jù)集上表現(xiàn)尤為明顯[17,18].因而對于追蹤方法來說,一定的細節(jié)保留是必要的.DPP池化層能保留目標物的一些細節(jié)特征,對于追蹤方法中的一些細節(jié)判別和尋找提供一定的幫助.因而我們在每層網(wǎng)絡(luò)都引入DPP池化層同時又在Conv1和Conv3層之后添加到融合層的殘差網(wǎng)絡(luò).本文的殘差網(wǎng)絡(luò)解決網(wǎng)絡(luò)深度增加引起的梯度消失問題,DPP池化層主要解決特征提取時的細節(jié)丟失問題[9].
DPP-SiamFC網(wǎng)絡(luò)不僅在SiamFC網(wǎng)絡(luò)上每層引入DPP池化層,還引入Conv1和Conv3的池化層之后到融合層的殘差網(wǎng)絡(luò).殘差網(wǎng)絡(luò)能很大程度將輸入的特征引入輸出,而并不帶來很多網(wǎng)絡(luò)開銷.在網(wǎng)絡(luò)達到一定深度以后能很好幫助前饋網(wǎng)絡(luò),同時降低錯誤率.SiamFC的Conv1–Conv5層是類似于AlexNet的神經(jīng)網(wǎng)絡(luò).定義f(x)為 輸入值,g(f(x))為輸入經(jīng)過CNN網(wǎng)絡(luò)卷積池化的函數(shù),則加入殘差網(wǎng)絡(luò)進行融合的表達式如式(1)所示:
式(1)所示的殘差網(wǎng)絡(luò)將一部分輸入特征直接引入網(wǎng)絡(luò)輸出,使得網(wǎng)絡(luò)的梯度下降的更快,α和 β為調(diào)節(jié)參數(shù).
DPP細節(jié)保留池化是應(yīng)用于目標檢測的CNN網(wǎng)絡(luò)Conv卷積層之后的池化層,目的是改善原來CNN檢測網(wǎng)絡(luò)的池化層對目標細節(jié)特征的丟失.目標檢測比較常用的Avg-Pooling和Max-Pooling分別利用池化區(qū)域的平均值和最大值來代替原來的像素點,而在目標追蹤領(lǐng)域常用的是Max-Pooling.隨著網(wǎng)絡(luò)層數(shù)以及數(shù)據(jù)集難度的增加,Max-Pooling和Avg-Pooling丟失目標特征的弊端將逐漸展現(xiàn)出來.DPP池化的結(jié)構(gòu)如圖2,主要完成線性減少特征圖I的數(shù)據(jù)量.處理流程是將原始特征圖I進行線性縮減尺度,將得到的結(jié)果與原始特征進行比較(方法是引入逆雙邊權(quán)重),判斷出特征丟失程度.輸入特征圖I經(jīng)過激勵函數(shù)得到的輸出O特征公式(2):
圖2 DPP池化層邏輯結(jié)構(gòu)示意圖
式(2)計算的是輸入相鄰點I[q]q∈?p的空間加權(quán)平均值,作為池化的輸出結(jié)果.其中I[q]為輸入DPP池化層的圖片特征圖,O[p]為輸出池化層的圖片特征圖,α,λ為神經(jīng)網(wǎng)絡(luò)回報參數(shù),是根據(jù)不同數(shù)據(jù)集訓(xùn)練得到的,該逆雙邊權(quán)重公式(為了解決下采樣之后特征損失)如式(3):
在網(wǎng)絡(luò)反饋學(xué)習中,通過優(yōu)化 log(α)和 l og(λ)確保參數(shù)非負,對于α參數(shù)是為了確保輸入的特征不被網(wǎng)絡(luò)訓(xùn)練完全清除,保存細節(jié)特征,并最后作用于輸出結(jié)果.λ為調(diào)節(jié)獎勵函數(shù)形狀的參數(shù).對于I[q]>[p]時采用非對稱的作為獎勵函數(shù).反之采用對稱的作為網(wǎng)絡(luò)的獎勵函數(shù)(ε是修正因數(shù),減少x的浮動帶來的影響,使函數(shù)圖像從0開始).
本文為了實現(xiàn)視頻中目標相似性干擾、旋轉(zhuǎn)、快速移動、遮擋和變形等問題處理能力.對SiamFC網(wǎng)絡(luò)進行改進,改進之后的網(wǎng)絡(luò)結(jié)構(gòu)如圖3,融合網(wǎng)絡(luò)(Concatenation)是3條分支的加權(quán)平均值,再通過深度卷積層對特征進行融合.
圖3 DPP-SiamFC網(wǎng)絡(luò)架構(gòu)
Conv和Conv_1是對稱的卷積層,它們卷積核大小,通道數(shù)和步長并不相同,相同的是兩個卷積層使用的卷積核的個數(shù).這使得輸出特征圖的個數(shù)一致.DPP池化層的結(jié)構(gòu)如圖2所示,目的是更好的保留目標細節(jié)特征.
Fully-Convolution是將兩個分支的結(jié)果進行卷積處理,生產(chǎn)下一幀的目標位置,從而得到最終的特征輸出.
DPP-SiamFC網(wǎng)絡(luò)各層參數(shù)并不相同,其中DPP層提供?P,,ε三 個參數(shù).其中?P通常取3×3相同如,ε=0.1,則網(wǎng)絡(luò)的各層參數(shù)如表1所示.
表1 DPP-SiamFC網(wǎng)絡(luò)各層參數(shù)
我們將DPP-SiamFC網(wǎng)絡(luò)于ILSVRC2015數(shù)據(jù)集上進行訓(xùn)練,實現(xiàn)對每個分類特征的離線訓(xùn)練.在線追蹤于VOT2017追蹤數(shù)據(jù)集,觀察在各個分類追蹤的效果[19–21].
實驗展示DPP-SiamFC在VOT2017各個分類效果,尤其在含有復(fù)雜背景,有眾多干擾物、遮擋、快速移動、和目標變形的數(shù)據(jù)集.
圖4展示了DPP-SiamFC在有很多干擾物且存在部分遮擋條件下追蹤單個目標物的效果,整個視頻的標定區(qū)域和預(yù)測區(qū)域重疊面積比平均約為79.1%,高于80%預(yù)測精度的視頻幀約占總數(shù)的83%.
圖5是DPP-SiamFC在目標快速移動任務(wù)中效果.該數(shù)據(jù)集是摩托車比賽,途中有樹木的遮擋.
圖4 groundtruth(藍色)、DPP-SiamFC(紅色)、KCF(相關(guān)濾波算法黃色)和SiamFC(綠色)在相似物干擾數(shù)據(jù)集的效果
圖6是目標形變,和背景復(fù)雜的夜間街道數(shù)據(jù)集中DPP-SiamFC追蹤效果.追蹤效果較為良好,能實現(xiàn)對目標持續(xù)追蹤的目的.
如圖7所示SiamFC很難追蹤快速上升并旋轉(zhuǎn)的特技摩托.而DPP-SiamFC能很好的將目標捕捉,達到旋轉(zhuǎn)物體追蹤的效果.
通過圖8中SiamFC、DPP-SiamFC和KCF算法預(yù)測區(qū)域和groundtruth標定的重疊面積比(IOU)在60個追蹤數(shù)據(jù)集上的平均精確度(例如:圖8中KCF'表示KCF算法在60個數(shù)據(jù)集上的精度平均值)78%,87%,70%(如表2)可以看出,改進之后的DPPSiamFC神經(jīng)網(wǎng)絡(luò)在大多數(shù)數(shù)據(jù)集上效果優(yōu)于SiamFC和KCF網(wǎng)絡(luò),本文在SiamFC網(wǎng)絡(luò)中引入DPP池化層和殘差網(wǎng)絡(luò)能很好保留數(shù)據(jù)集上的細節(jié)特征,提升在追蹤任務(wù)中的準確度,但在綜合的任務(wù)數(shù)據(jù)集中穩(wěn)定性還需提高.
圖7 groundtruth(藍色)、DPP-SiamFC(紅色)、KCF(相關(guān)濾波算法黃色)和SiamFC(綠色)在摩托車特技比賽中的對比
圖8 SiamFC、DPP-SiamFC和KCF的IOU比較
實驗結(jié)果證明,通過在SiamFC孿生網(wǎng)絡(luò)上引入DPP池化層和殘差網(wǎng)絡(luò),有利于網(wǎng)絡(luò)細節(jié)特征的保留,在VOT2017追蹤數(shù)據(jù)集中DPP-SiamFC有更高精確度,同時在背景復(fù)雜、物體變形、快速移動、遮擋等數(shù)據(jù)集中目標追蹤有一定改善.但是在多重任務(wù)追蹤集的效果還有待提高.今后我們的工作將致力于網(wǎng)絡(luò)與數(shù)據(jù)集之間的對抗性研究.
表2 SiamFC、DPP-SiamFC和KCF精度比較 (單位:%)