張騰飛,周書仁,彭 建
(長沙理工大學 a.綜合交通運輸大數(shù)據(jù)智能處理湖南省重點實驗室; b.計算機與通信工程學院,長沙 410114)
目標跟蹤是計算機視覺和模式識別領域的研究熱點之一,得到了廣泛關注與應用。在智能交通系統(tǒng)中,相機與無人機的自動跟蹤拍攝、人機智能交互系統(tǒng)都需要應用目標跟蹤方法。雖然近年來目標跟蹤方法取得了快速的發(fā)展,但是物體被遮擋、目標發(fā)生嚴重形變、目標運動速度過快、光照尺度變化和背景干擾等因素導致的目標跟蹤系統(tǒng)魯棒性低和實時性差等問題依然存在[1]。
現(xiàn)有目標跟蹤方法可以分為生成模型方法和判別模型方法兩類[2]。生成模型方法在當前幀對目標區(qū)域進行建模,運用生成模型描述目標區(qū)域的表觀特征,在后續(xù)幀中進行目標預測,從而尋找到與目標最為相似的區(qū)域。該類方法的典型代表有卡爾曼濾波[3]、粒子濾波[4]和Mean-Shift算法[5]等。判別模型方法通過訓練分類器來區(qū)分背景和目標,這種方法也被稱作檢測跟蹤模型。判別模型由于旨在區(qū)分一幀中的目標和背景,因此,其具有更強的魯棒性,得到了廣泛應用。經(jīng)典的判別模型方法有CT[6]和TLD[7]等算法。文獻[8]通過多次連續(xù)蒙特卡羅采樣得到最優(yōu)目標區(qū)域,利用子塊遮擋比例自適應調(diào)節(jié)學習速率,從而解決了時空上下文跟蹤易漂移和遮擋敏感的問題。目前,多數(shù)基于深度學習的方法均在判別式框架的范疇內(nèi)。文獻[9]提出了全卷積的孿生網(wǎng)絡SiamFC。SiamFC的優(yōu)點在于將跟蹤任務轉化為檢測匹配的過程,通過比較目標幀和模板幀圖片的相似度,計算出相似度最大的位置,從而得到目標在模板幀中的位置。CFNet[10]通過為低級別的CNN引入相關濾波,將相關濾波看作CNN網(wǎng)絡中的一層,以提高跟蹤速度并保證跟蹤精度。文獻[11]提出的SINT結合光流信息,取得了更好的跟蹤性能,然而,其引入光流信息導致了跟蹤速度緩慢,不能達到實時的要求。文獻[12]提出的SA-Siam雙孿生網(wǎng)絡,在SiamFC的基礎上加入了語義分支,其能夠提高跟蹤精度但降低了跟蹤的速度。
為進一步提高跟蹤速度,本文提出一種基于雙孿生網(wǎng)絡的自適應選擇跟蹤方法ASTS。系統(tǒng)自動判斷目標幀信息,在簡單幀中只運用外觀信息進行判斷,復雜幀權重確定則結合語義信息和外觀信息。在OTB2013/50/100[13]和VOT2017數(shù)據(jù)集上進行實驗,以驗證該方法的跟蹤性能與魯棒性。
全卷積孿生網(wǎng)絡的提出在跟蹤領域具有重大意義。孿生網(wǎng)絡在訓練集ImageNet2015上進行離線訓練,得到相似度匹配函數(shù),在跟蹤過程中,通過模板相似度比較得到相似度最大的位置。具體地,以第1幀為模板圖像,用以在后續(xù)255×255的搜索圖像中匹配定位127×127的模板圖像z。通過離線訓練出的相似度函數(shù)將模板圖像z與搜索圖像x中相同大小的候選區(qū)域進行比較。經(jīng)過卷積得到最后的得分圖,其中,目標區(qū)域會得到高分,非目標區(qū)域會得到低分。相似度函數(shù)為:
Fl(z,x)=φl(z)*φl(x)+v
(1)
ASTS方法的總系統(tǒng)框圖如圖1所示。ASTS由外觀信息與語義信息2個分支組成。系統(tǒng)網(wǎng)絡的輸入是視頻第1幀經(jīng)人工標記的目標真實位置和當前幀裁剪出的目標搜索區(qū)域。其中,z和zg分別表示目標和目標周圍環(huán)境,x表示搜索區(qū)域。x和zg尺寸相同,都為Wg×Hg,z的尺寸為Wt×Ht×3,其中,Wt 圖1 基于雙孿生網(wǎng)絡的自適應選擇跟蹤系統(tǒng) 系統(tǒng)外觀分支的輸入為目標區(qū)域z和搜索區(qū)域x。系統(tǒng)外觀分支并非一個簡單的孿生網(wǎng)絡,而是加入了深度Q學習網(wǎng)絡[14]。和EAST不同的是,外觀分支P中最后2層卷積層covn4和covn5沒有Q網(wǎng)絡則不會提前停止,原因是covn4和covn5層屬于深層的網(wǎng)絡信息,語義分支會較好地處理,因此,網(wǎng)絡不會在最后2層提前停止。 在外觀分支P中執(zhí)行提前停止的過程被認為是一個馬爾可夫決策過程(Markov Decision Process,MDP)。本文通過深度強化學習訓練一個有效的決策網(wǎng)絡(Agent)[15]。通過訓練決策網(wǎng)絡能夠?qū)W習動作(Action)和判斷狀態(tài)(State),得到提前停止標準從而提前停止網(wǎng)絡。決策網(wǎng)絡可以跨過特征層進行一系列的操作,比如判斷將何時執(zhí)行停止或者進入下一層,以及如何有效地對邊界框進行變形。 在強化學習過程中,馬爾可夫決策過程分為一組動作A、一組狀態(tài)S和獎勵函數(shù)R。在第n(n<4)層,決策網(wǎng)絡檢查當前狀態(tài)Sn,然后決定動作An是停止并輸出還是對邊界框進行移動變形以進入下一層,同時獲得正面或負面的反饋獎勵并反映當前框?qū)δ繕说母采w程度,以及動作停止前所執(zhí)行的步驟。 1)動作:動作集A通過驗證設置為6個不同的縮放動作和一個停止動作,如圖2所示。縮放動作包括整體縮小和整體放大2個全局動作變換以及4個改變寬高的局部動作變換。每個邊界框由坐標b=[x1,x2,y1,y2]表示,每次轉換動作都會通過式(2)對邊界框進行離散變換。 圖2 馬爾可夫決策中的動作說明 αw=α*(x2-x1) αh=α*(y2-y1) (2) 通過對x坐標(y坐標)加上或者減去αw(αh)來進行變換,與文獻[15]相同,本文取α=0.2。 2)狀態(tài):狀態(tài)是當前層的得分圖和歷史層得分圖的平均值Fn和采取動作的歷史向量hn組成的二元組,這種結構將會使系統(tǒng)更加魯棒。歷史向量跟蹤hn包含了3次歷史動作,每個動作又是7維的矢量,則h∈R21。 3)獎勵:獎勵函數(shù)R在采取特定動作后,該機制定位物體的提升為正反饋。所設定的提升標準通過計算預測的目標矩形框與手動標記的目標矩形框的交叉聯(lián)合(Intersection-over-Union,IoU)來衡量。IoU定義為: (3) 其中,b為預測的目標框面積,Rg為目標實際所在的位置。獎勵函數(shù)通過一個狀態(tài)到另一個狀態(tài)的IoU差別來估計,即當決策網(wǎng)絡執(zhí)行動作A、狀態(tài)從Sn轉到Sn+1時,每個狀態(tài)S都有一個相關的矩形框b,則獎勵函數(shù)為: R(Sn,Sn+1)=sign(IoU(bn+1,Rg)-IoU(bn,Rg)) (4) 從式(4)可以看出,若IoU變大,則獎勵為正(+1);反之,獎勵就為負(-1)。式(4)適用于所有轉換矩形框的動作,通過這種方式獎勵正向的變化,直到?jīng)]有更好的動作來使定位更精確或者到達卷積層第3層。停止動作擁有異于其他動作的獎勵函數(shù)。根據(jù)文獻[14]可得: (5) 最后,本文應用文獻[14]的深度Q強化學習網(wǎng)絡來學習行動值函數(shù)。 系統(tǒng)語義分支的輸入為目標周圍環(huán)境zg和搜索區(qū)域x,本文直接使用在圖像分類任務中已經(jīng)訓練好的AlexNet[16]作為語義分支,在訓練和測試期間確定所有參數(shù)。網(wǎng)絡中用conv4和conv5最后2個卷積層的特征作為輸出,并在特征提取后插入一個1×1的卷積層進行特征融合,這樣做的目的是使語義分支網(wǎng)絡能夠更好地進行相關操作,并且提高跟蹤精度。外觀分支G的輸出表示為: Fg(zg,x)=corr(f(φg(zg)),f(φg(x))) (6) 其中,corr(·,·)表示相關操作,f(·)表示特征融合,φ(·)表示級聯(lián)的多層特征。 訓練期間2個網(wǎng)絡完全單獨分開訓練,互不干擾,跟蹤時才對2個網(wǎng)絡進行選擇性疊加。跟蹤期間,在一串連續(xù)的跟蹤序列中,幀與幀之間存在大量的相似幀,相比目標幀,這些幀圖片的目標形變較小、周圍環(huán)境語義信息變換不明顯。這些幀只利用外觀分支較淺層的特征信息跟蹤器就能很好地對目標進行跟蹤,這時如果完全考慮2個分支,則會使跟蹤速度減慢,因此,針對變換不明顯語義信息的簡單幀,語義分支完全可以忽略。同時在較淺層的網(wǎng)絡中,空間的分辨率較高,但特征的語義信息較少,隨著網(wǎng)絡的加深,從深層網(wǎng)絡中提取到的特征語義信息會比較豐富,但是會導致空間的分辨率降低,不利于目標定位與跟蹤。因此,在外觀分支上淺層的信息能夠更好地跟蹤目標,定位出目標所在位置。 在外觀分支中,讓網(wǎng)絡通過訓練好的深度強化學習Q網(wǎng)絡來選擇合適的停止層,既能夠增加跟蹤器的跟蹤速度,又能很好地利用淺層網(wǎng)絡空間分辨率高的特性定位出目標,提高跟蹤性能。在變化較大的復雜幀中,外觀分支不會提前停止,能夠提取到目標更豐富的特征信息,得到的特征與語義分支提取到的特征進行疊加能夠更準確地定位出目標的位置,使跟蹤器在速度與性能之間得到平衡。當外觀網(wǎng)絡提前停止時,則外觀分支對整體網(wǎng)絡作反饋,語義分支的占比為0,完全由外觀分支輸出;當外觀網(wǎng)絡沒有提前停止時,將上述2個網(wǎng)絡得到的相關系數(shù)得分圖按一定比例進行疊加,即: (7) 其中,τ代表外觀分支對整體網(wǎng)絡的反饋,λ是平衡2個分支重要性的加權參數(shù),其可以通過實驗來取值,F(zg,x)表示被跟蹤的目標位置。 本文在MatConvNet庫[17]上進行仿真,實驗環(huán)境為Ubuntu 4.8.2 系統(tǒng),Intel(R) Xeon(R) CPU E5-2670 v3 @ 2.3 GHz四核處理器,配備有NVIDIA GeForce GTX TITAN X GPU,在OTB50、OTB100、OTB2013和VOT2017基準上分別進行實驗。 采用2015年版Imagenet大規(guī)模視頻識別挑戰(zhàn)(ILSVRC)[18]的視頻數(shù)據(jù)集進行訓練,該數(shù)據(jù)集包含約4 500個視頻,接近一百萬個注釋幀。具體地,在訓練過程中,隨機地從數(shù)據(jù)集同一個視頻中選取兩幀,對其中一幀裁剪出以z為中心的zg,從另一幀中裁剪出以人工標注目標為中心的x。目標圖像z大小為127×127×3,對大小為255×255×3像素的搜索區(qū)域圖像x進行搜索,并且外觀分支網(wǎng)絡的zg與x具有相同的大小,最終的輸出都為17×17維。學習率設定為10-4。經(jīng)過實驗得出,當外觀網(wǎng)絡沒有提前停止,即返回值τ為1時,當λ為0.36時系統(tǒng)性能最佳。 OTB包含OTB50、OTB100、OTB2013 3個數(shù)據(jù)集[13]。OTB數(shù)據(jù)集中的序列分為遮擋、比例變化、快速運動和平面內(nèi)旋轉等11個不同的注釋屬性,OTB一般有2個評估標準,分別是成功率和精確度。對于每一幀,計算跟蹤矩形框與人工標注的目標框邊界的IoU以及它們中心位置的距離,采用跟蹤成功率與精確度來評估跟蹤器。 本文在OTB50、OTB100、OTB2013 3個基準數(shù)據(jù)集上對SiamFC[9]、CFNet[10]、SINT[19]、Staple[20]、EAST[21]及本文系統(tǒng)6個跟蹤器進行評估,結果如表1所示,最好的結果用加粗表示。從表1可以看出,在OTB2013基準下,ASTS具有最佳的性能,其AUC(Area-Under-Curve)達到了0.657,超出孿生網(wǎng)絡SiamFC跟蹤器0.050。雖然SINT的AUC也達到了0.655,但是SINT并非一個實時的跟蹤器,其跟蹤速度只有4.0 FPS。在OTB50基準下,EAST跟蹤器雖然達到了高速的148 FPS,ASTS的AUC也只比其高出0.001,但在OTB2013和OTB100中,ASTS跟蹤器的AUC分別高出EAST約0.019和0.013。OTB100是OTB50的擴充,因此,其更具有挑戰(zhàn)性。本文ASTS跟蹤器在OTB100基準中AUC依然保持在0.644,比OTB50基準中更高。而在OTB2013中表現(xiàn)良好的SINT跟蹤器,在更多的測試中其AUC不夠穩(wěn)定。 表1 OTB基準下的評估結果 VOT測試基準擁有多個不同的版本,最新的版本有VOT2015[22]、VOT2016[23]和VOT2107[24]。VOT2015和VOT2016擁有相同的序列,但是VOT2016中的人工標注標簽比VOT2015更加準確。由于VOT2016中的部分標簽已經(jīng)能夠被多數(shù)跟蹤器準確跟蹤,因此VOT2017將VOT2016中的10個序列替換為新的序列,但依然保持總體序列屬性分布不變。本文應用VOT2017作為評測基準。VOT基準主要的評測指標為平均重疊期望(Expected Average Overlap,EAO)、準確率(Accuracy,A)、魯棒性(Robustness,R)。一個性能良好的跟蹤器應該有較高的準確率和平均重疊期望分數(shù),但魯棒性較低。 在VOT2017基準下對ECOhc[25]、Staple[20]、SiamFC[9]、SA-Siam[12]和ASTS進行比較,結果如表2所示,其中量化展示了5個跟蹤器的平均重疊期望、準確率、魯棒性和跟蹤速度。從表2可以看出,ASTS的平均重疊期望為0.227,略低于ECOhc,但ASTS具有速度優(yōu)勢,準確率達到0.527,高于ECOhc跟蹤器。在準確率方面,ASTS跟蹤器表現(xiàn)最優(yōu)異,高于SA-Siam約0.02。在跟蹤速度方面,ASTS最高達到了97.0 FPS。在魯棒性方面,ASTS表現(xiàn)不如ECOhc,同樣是因為ECOhc在速度方面做出了巨大犧牲,但本文方法的魯棒性均優(yōu)于其他跟蹤器。 表2 VOT2017基準下的評估結果 圖3所示為均值漂移算法[5]、SiamFC、CT、Staple和ASTS的跟蹤實驗結果,可以看出,除本文ASTS方法外,其他方法都發(fā)生了不同程度的漂移現(xiàn)象。 圖3 5種跟蹤器的跟蹤結果比較 本文提出一種基于雙孿生網(wǎng)絡的自適應選擇跟蹤方法ASTS。2個孿生網(wǎng)絡分別負責語義信息和外觀信息,在外觀分支上加入自動停止操作,當在簡單幀時自動停止網(wǎng)絡向前傳播,此時不再與語義信息相結合從而提高跟蹤速度,在復雜幀時,孿生網(wǎng)絡的速度優(yōu)勢使得ASTS方法同樣取得了較高的跟蹤速度。實驗結果驗證了ASTS方法的高效性與高準確率。下一步將探究更好的注意力機制,并將深度特征與HOG特征進行融合,以提高本文方法的跟蹤性能。2.1 系統(tǒng)外觀分支
2.2 系統(tǒng)語義分支
2.3 雙孿生自適應網(wǎng)絡
3 實驗結果與分析
3.1 OTB基準實驗
3.2 VOT基準實驗
4 結束語