周海赟,項學(xué)智,王馨遙,任文凱
(1.南京森林警察學(xué)院 治安學(xué)院,南京 210023;2.哈爾濱工程大學(xué) 信息與通信工程學(xué)院,哈爾濱 150001)
多目標(biāo)跟蹤是指在視頻中持續(xù)對目標(biāo)進(jìn)行準(zhǔn)確定位,在場景發(fā)生變化時仍能維持目標(biāo)身份信息不變,最后輸出目標(biāo)完整運(yùn)動軌跡的技術(shù)。在復(fù)雜場景中,跟蹤目標(biāo)數(shù)目不定、目標(biāo)之間存在頻繁的遮擋以及交互、目標(biāo)之間包含相似的外觀特性等因素都會給多目標(biāo)跟蹤的實現(xiàn)帶來挑戰(zhàn)。由于行人是非剛體目標(biāo),且現(xiàn)有數(shù)據(jù)集中包含大量行人的視頻,因此當(dāng)前多目標(biāo)跟蹤中行人跟蹤的算法占多數(shù)[1]。行人多目標(biāo)跟蹤主要分為離線跟蹤與在線跟蹤。在線跟蹤只能使用當(dāng)前幀及之前的信息來進(jìn)行跟蹤,而離線跟蹤對每一幀的預(yù)測都可以使用整個視頻幀的信息,因此離線跟蹤可以看成是一個全局優(yōu)化的問題,常見解決方法是基于圖論的方式,將多目標(biāo)跟蹤建模為網(wǎng)絡(luò)最大流問題[2]或距離最小成本問題[3]。由于離線跟蹤的全局優(yōu)化方式增加了對算力的要求,且離線跟蹤不能應(yīng)用于對跟蹤實時性有要求的場景,因此本文主要研究行人多目標(biāo)在線跟蹤。
傳統(tǒng)多目標(biāo)跟蹤網(wǎng)絡(luò)主要通過濾波算法來預(yù)測目標(biāo)在下一幀的位置進(jìn)行目標(biāo)跟蹤,卡爾曼濾波器利用連續(xù)幀中相同目標(biāo)的速度及協(xié)方差相關(guān)性最大原理進(jìn)行目標(biāo)狀態(tài)的預(yù)測與更新[4]。使用核相關(guān)算法訓(xùn)練相關(guān)濾波器,并通過計算目標(biāo)相關(guān)性獲得置信圖來預(yù)測跟蹤結(jié)果[5]。當(dāng)前多目標(biāo)跟蹤網(wǎng)絡(luò)主要采用基于檢測的跟蹤方法,即先對視頻中每一幀的目標(biāo)進(jìn)行目標(biāo)檢測,之后利用各種數(shù)據(jù)關(guān)聯(lián)算法將檢測結(jié)果與跟蹤軌跡進(jìn)行匹配,從而進(jìn)行軌跡更新。
近年來,越來越多的研究人員致力于基于深度學(xué)習(xí)的多目標(biāo)跟蹤網(wǎng)絡(luò)的研究。BEWLEY 等[6]提出Sort 網(wǎng)絡(luò),檢測部分采用Faster R-CNN 網(wǎng)絡(luò),利用卡爾曼濾波預(yù)測結(jié)果與檢測結(jié)果之間的交并比(Intersection over Union,IoU)進(jìn)行匈牙利匹配來完成數(shù)據(jù)關(guān)聯(lián)。由于Sort 僅使用IoU 進(jìn)行數(shù)據(jù)關(guān)聯(lián),導(dǎo)致在人流較密集的場景下會產(chǎn)生大量的身份切換。因 此,WOJKE 等[7]提 出Deepsort,在Sort 網(wǎng) 絡(luò)IoU 匹配的基礎(chǔ)上增加級聯(lián)匹配,并使用一個行人重識別(Person Re-identification,ReID)網(wǎng)絡(luò)提取目標(biāo)的外觀特征輔助數(shù)據(jù)關(guān)聯(lián),有效解決身份切換問題。BAE 等[8]也利用預(yù)訓(xùn)練的ReID 網(wǎng)絡(luò)提取可區(qū)分的行人特征,并將軌跡分為可靠軌跡與不可靠軌跡,再與檢測結(jié)果進(jìn)行分級關(guān)聯(lián)。上述這些研究僅根據(jù)檢測結(jié)果進(jìn)行軌跡更新,受檢測器性能的影響很大,當(dāng)出現(xiàn)不可靠的檢測時,跟蹤性能也會下降。因此,CHEN 等[9]將檢測框與跟蹤的預(yù)測框同時作為軌跡更新的候選框,設(shè)計一種評分函數(shù)統(tǒng)一衡量所有的候選框,再利用空間信息和ReID 特征進(jìn)行數(shù)據(jù)關(guān)聯(lián)。盡管這些基于檢測進(jìn)行跟蹤的網(wǎng)絡(luò)取得了良好的效果,但這些網(wǎng)絡(luò)的檢測部分與跟蹤部分是完全獨立的,這直接增加了跟蹤的復(fù)雜性,不利于滿足實時性的要求。為解決該問題,BERGMANN 等[10]提出Tracktor++,利用檢測器的邊界框回歸思想直接預(yù)測目標(biāo)在下一幀中的位置,完成檢測與跟蹤的聯(lián)合,并融入運(yùn)動模型與ReID 網(wǎng)絡(luò),以減少幀間身份切換。ZHOU 等[11]在CenterNet 檢測器的基礎(chǔ)上輸出當(dāng)前幀中目標(biāo)的尺寸、目標(biāo)中心點的熱力圖及相較于上一幀的偏移量,依靠貪婪匹配實現(xiàn)數(shù)據(jù)關(guān)聯(lián)。WANG 等[12]提出JDE 網(wǎng)絡(luò),將ReID 網(wǎng)絡(luò)與檢測網(wǎng)絡(luò)整合到一個網(wǎng)絡(luò)中,使網(wǎng)絡(luò)同時輸出檢測結(jié)果和相應(yīng)的外觀嵌入,再根據(jù)目標(biāo)的外觀信息與運(yùn)動信息進(jìn)行數(shù)據(jù)關(guān)聯(lián)。ZHAN 等[13]提出FairMOT 網(wǎng)絡(luò),網(wǎng)絡(luò)中包含檢測與ReID 兩個同質(zhì)分支,使用編解碼架構(gòu)提取網(wǎng)絡(luò)的多層融合特征,提高網(wǎng)絡(luò)對物體尺度變換的適應(yīng)能力。盡管上述方法進(jìn)一步改善了目標(biāo)跟蹤的性能,但上述方法不使用端到端的網(wǎng)絡(luò),文獻(xiàn)[10-11]在一個網(wǎng)絡(luò)中聯(lián)合學(xué)習(xí)檢測與跟蹤,文獻(xiàn)[12-13]將檢測與ReID 網(wǎng)絡(luò)集成到一起,這些方法中的數(shù)據(jù)關(guān)聯(lián)過程仍被視為后處理部分,是一種部分端到端的網(wǎng)絡(luò),仍然無法做到全局優(yōu)化,需要復(fù)雜的數(shù)據(jù)關(guān)聯(lián)機(jī)制來處理不同模塊的特征,不利于滿足在線跟蹤的實時性要求。
本文基于鏈?zhǔn)浇Y(jié)構(gòu)[14]提出一種多特征融合的端到端鏈?zhǔn)叫腥硕嗄繕?biāo)跟蹤網(wǎng)絡(luò),利用鏈?zhǔn)教匦越档蛿?shù)據(jù)關(guān)聯(lián)的復(fù)雜性。在鏈?zhǔn)浇Y(jié)構(gòu)中引入雙向金字塔,在傳統(tǒng)特征金字塔的基礎(chǔ)上增加一條聚合路徑以獲得更深入的融合特征。為適應(yīng)目標(biāo)形狀和尺度的改變,在雙向金字塔中采用具有采樣特征加權(quán)的改進(jìn)可變形卷積。使用聯(lián)合注意力提高目標(biāo)框的準(zhǔn)確性,重點突出2 幀圖片中屬于同一目標(biāo)的區(qū)域[14]。最后,設(shè)計多任務(wù)學(xué)習(xí)損失函數(shù),優(yōu)化成對目標(biāo)邊界框回歸的準(zhǔn)確性,提升整體跟蹤的性能。
本文基于鏈?zhǔn)骄W(wǎng)絡(luò)結(jié)構(gòu)提出多特征融合的跟蹤網(wǎng)絡(luò),將目標(biāo)檢測、特征提取和數(shù)據(jù)關(guān)聯(lián)融入到一個統(tǒng)一的框架中。與其他網(wǎng)絡(luò)不同,常見的在線多目標(biāo)跟蹤逐幀進(jìn)行檢測與數(shù)據(jù)關(guān)聯(lián),網(wǎng)絡(luò)的輸入僅為單個幀,本文將相鄰的兩幀組成鏈節(jié)點作為網(wǎng)絡(luò)的輸入,完成鏈?zhǔn)礁?,鏈?zhǔn)礁櫟恼w流程如圖1 所示。給定一個共有N幀的圖像序列,F(xiàn)t表示第t幀的圖像,每一個鏈節(jié)點由相鄰兩幀圖像組成,第1 個鏈節(jié)點為(F1,F2),第N個節(jié)點為(FN,FN+1),由于圖像序列最多只有N幀,將FN+1用FN表示,即將第N個節(jié)點改寫為(FN,FN)。將節(jié)點(Ft-1,Ft)輸入到網(wǎng)絡(luò)中,網(wǎng)絡(luò)會輸出2 幀中屬于相同目標(biāo)的成對邊界框,其中nt-1表示相同目標(biāo)對的數(shù)量,分別表示節(jié)點內(nèi)Ft-1與Ft中相同目標(biāo)的兩個邊界框。同理,下一個節(jié)點經(jīng)過網(wǎng)絡(luò)的輸出表示相鄰節(jié)點的公共幀中相同目標(biāo)的邊界框,本質(zhì)上它們來自同一幀圖像,理論上僅存在微小的差異,故不需要復(fù)雜的數(shù)據(jù)關(guān)聯(lián)機(jī)制。計算之間的幀間交并比以獲取親和力矩陣,從而鏈接2 個相鄰的節(jié)點。應(yīng)用匈牙利算法完成中相同目標(biāo)檢測框的最優(yōu)匹配任務(wù),對于成功匹配上的邊界框?qū)?yīng)用所在的軌跡進(jìn)行更新。針對目標(biāo)消失的情況,若目標(biāo)出現(xiàn)在Ft-1幀而在Ft幀消失,節(jié)點(Ft-1,Ft)與(Ft,Ft+1)均不會檢測到該目標(biāo),因此可以認(rèn)為該目標(biāo)在Ft-1幀甚至是Ft-2幀就已消失,避免誤檢噪聲引起的跟蹤器的漂移現(xiàn)象。針對目標(biāo)可能連續(xù)幾幀消失在可視范圍內(nèi)導(dǎo)致檢測失敗的情況,保留消失目標(biāo)的軌跡和身份σ?guī)?,在這期間利用物體的勻速運(yùn)動模型進(jìn)行運(yùn)動估計,持續(xù)預(yù)測目標(biāo)位置并與當(dāng)前檢測結(jié)果不斷進(jìn)行匹配,嘗試把丟失的目標(biāo)重新鏈接至軌跡中,保證在強(qiáng)遮擋情況下目標(biāo)仍可以被有效跟蹤,減少身份切換的現(xiàn)象發(fā)生。若在σ?guī)笕詻]有匹配成功,則認(rèn)為該目標(biāo)離開了場景,此時將該目標(biāo)的相關(guān)軌跡以及身份信息刪除。
圖1 鏈?zhǔn)礁櫟恼w流程Fig.1 Overall process of chain tracking
針對場景中新目標(biāo)出現(xiàn)的問題,在進(jìn)行IoU 匹配時,將未匹配上的檢測框認(rèn)為是新出現(xiàn)的目標(biāo),對其分配新的身份并且初始化新的軌跡。若目標(biāo)不在Ft-1幀而出現(xiàn)在Ft幀,節(jié)點(Ft-1,Ft)旨在輸出相同目標(biāo)的邊界框?qū)Γ虼瞬粫R別該目標(biāo),但如果該目標(biāo)穩(wěn)定出現(xiàn)在場景中,該目標(biāo)在節(jié)點(Ft,Ft+1)的輸出就會被檢測到,并獲得初始化的新軌跡和身份標(biāo)識。模型利用IoU 匹配進(jìn)行數(shù)據(jù)關(guān)聯(lián),同時運(yùn)動估計保證了長軌跡的生成,增加模型應(yīng)對遮擋的魯棒性。
為獲得每個節(jié)點中的邊界框?qū)ΓW(wǎng)絡(luò)利用了目標(biāo)檢測中的邊界框回歸思想,直接回歸出兩幀圖像中相同目標(biāo)的邊界框?qū)?,網(wǎng)絡(luò)的整體架構(gòu)如圖2 所示。
圖2 網(wǎng)絡(luò)整體架構(gòu)Fig.2 Overall architecture of network
由圖2 可知,網(wǎng)絡(luò)采用孿生網(wǎng)絡(luò)結(jié)構(gòu)將連續(xù)兩幀圖像共同輸入至網(wǎng)絡(luò)中,分別利用Resnet50 作為骨干網(wǎng)提取深層語義特征,并利用多特征融合的雙向金字塔結(jié)構(gòu)輸出多尺度的特征表示。多特征融合的特征金字塔結(jié)構(gòu)如圖3 所示。為獲得兩幀圖像中相同目標(biāo)的位置,首先將骨干網(wǎng)絡(luò)生成的相鄰幀多尺度特征圖進(jìn)行拼接,然后送入預(yù)測網(wǎng)絡(luò)中,以直接回歸出邊界框?qū)?。預(yù)測網(wǎng)絡(luò)由3 個分支組成,包括目標(biāo)分類分支、身份驗證分支以及邊界框?qū)貧w分支。目標(biāo)分類分支針對每個檢測框預(yù)測前景區(qū)域置信度分?jǐn)?shù),以判斷該區(qū)域中是目標(biāo)還是背景。身份驗證分支用于判斷成對的檢測框中是否包含同一個目標(biāo)。若包含同一個目標(biāo),邊界框回歸分支同時預(yù)測兩個邊界框中該目標(biāo)的坐標(biāo)。
圖3 多特征融合的金字塔網(wǎng)絡(luò)Fig.3 Feature pyramid network with multi-feature fusion
為促進(jìn)邊界框回歸過程可以集中于兩幀圖像中的相同目標(biāo),并且避免被無關(guān)信息干擾,預(yù)測網(wǎng)絡(luò)中使用聯(lián)合注意力模塊,使回歸過程更加關(guān)注組合特征中的有效信息區(qū)域[14],身份驗證分支和目標(biāo)分類分支的預(yù)測置信度圖均被用作注意力圖,將注意力圖與組合特征相乘后再輸入到邊界框?qū)貧w分支,來自2 個分支的注意力起互補(bǔ)作用。利用預(yù)測網(wǎng)絡(luò)結(jié)構(gòu)中3 個分支的特性構(gòu)造聯(lián)合注意力模塊,充分利用分類分支與身份驗證分支的信息。相比只用于單個分支的常規(guī)注意力,聯(lián)合注意力可以共同利用2 個分支的結(jié)果作用于回歸過程。在執(zhí)行邊界框回歸前,其他2 個分支的結(jié)果聯(lián)合作用于回歸分支,2 個分支的結(jié)果可以通過損失函數(shù)的設(shè)計來調(diào)節(jié)回歸過程,其中分類分支的注意力圖促進(jìn)回歸過程更加關(guān)注包含有效信息的前景區(qū)域,身份驗證分支的注意力圖使網(wǎng)絡(luò)集中于相同目標(biāo)檢測框?qū)Φ幕貧w,能充分利用2 個分支的有效信息并且更好地監(jiān)督回歸過程,在一定程度上促進(jìn)了網(wǎng)絡(luò)中相同目標(biāo)邊界框回歸的準(zhǔn)確性。
網(wǎng)絡(luò)中將相鄰兩幀圖片組成一個節(jié)點作為輸入,網(wǎng)絡(luò)回歸出兩幀圖片中相同目標(biāo)的邊界框?qū)Γ煌?jié)點之間由于存在公共幀,因此差異較小,故使用簡單的IoU 匹配完成節(jié)點之間的關(guān)聯(lián),使用基礎(chǔ)的匈牙利算法就可以完成檢測框之間的最優(yōu)匹配,從而完成幀間數(shù)據(jù)關(guān)聯(lián)過程。數(shù)據(jù)關(guān)聯(lián)的簡化有利于提高跟蹤的速度,滿足實時性的要求。根據(jù)網(wǎng)絡(luò)的輸出特性設(shè)計軌跡管理機(jī)制,若節(jié)點間的公共幀成功匹配,則更新軌跡狀態(tài);若匹配失敗則進(jìn)入軌跡丟失狀態(tài),保存當(dāng)前運(yùn)動軌跡以及身份,同時使用運(yùn)動估計嘗試重新關(guān)聯(lián)軌跡與目標(biāo)。網(wǎng)絡(luò)節(jié)點間的鏈?zhǔn)教匦越档土苏`檢的影響,也降低了關(guān)聯(lián)機(jī)制的復(fù)雜度,實現(xiàn)了端到端的跟蹤過程。
行人目標(biāo)在視頻幀中處于移動狀態(tài),目標(biāo)尺度變化很大,如果利用檢測器的回歸思想直接回歸出圖像對的邊界框,就需要充分利用目標(biāo)的語義信息保證回歸的邊界框坐標(biāo)準(zhǔn)確,同時增加小目標(biāo)識別的準(zhǔn)確性。常見的目標(biāo)檢測網(wǎng)絡(luò)如Faster R-CNN 僅利用了骨干網(wǎng)提取的頂層特征來進(jìn)行目標(biāo)的識別與定位,圖像中小目標(biāo)在下采樣過程中包含的有用信息會進(jìn)一步減少甚至消失,這種方法不利于對小目標(biāo)進(jìn)行預(yù)測[15]。SSD 網(wǎng)絡(luò)使用了多尺度特征融合的方法,從骨干網(wǎng)的不同層中提取不同尺度的特征進(jìn)行融合,但這仍沒有充分融合低層的語義信息[16]。因此,提出在骨干網(wǎng)后接入特征金字塔網(wǎng)絡(luò)(Feature Pyramid Networks,F(xiàn)PN)[17],骨干網(wǎng)采用ResNet50 完成自底向上前向傳播的過程,將特征圖尺寸不變的層歸為一個階段。提取每個階段最后一層的輸出來完成特征融合,同時加入自頂向下的過程,來自頂層的特征圖經(jīng)過上采樣與骨干網(wǎng)提取的相同尺寸的特征圖橫向連接并進(jìn)行特征融合,以同樣的方式逐層進(jìn)行特征融合獲得多尺度的特征圖,充分融合高層與低層的語義信息,進(jìn)而適應(yīng)目標(biāo)的尺度變化。
本文為提高網(wǎng)絡(luò)對目標(biāo)尺度的適應(yīng)能力,在鏈?zhǔn)礁櫨W(wǎng)絡(luò)架構(gòu)的基礎(chǔ)上引入多特征融合的雙向金字塔網(wǎng)絡(luò),借鑒了PANet[18]的思想,在特征金字塔FPN 自頂向下的聚合路徑后增加一條自底向上的特征聚合路徑,形成多特征融合的特征金字塔結(jié)構(gòu),更加充分地利用網(wǎng)絡(luò)的淺層信息,有利于獲得目標(biāo)的更多位置信息。同時,為適應(yīng)目標(biāo)的形狀變化特性,將原金字塔結(jié)構(gòu)中的傳統(tǒng)卷積替換為采樣特征加權(quán)的改進(jìn)可變形卷積(Deformable ConvNets v2,DCN v2),DCN v2 的具體結(jié)構(gòu)見1.3 節(jié)。利用多特征融合的特征金字塔可同時適應(yīng)目標(biāo)的尺寸與形狀變化特性。
傳統(tǒng)卷積方式使用尺寸固定的卷積核,對輸入特征圖采用規(guī)則采樣,一般采樣方式以矩形結(jié)構(gòu)為主,提取的特征也是矩形框內(nèi)的特征。然而,視頻序列中行人目標(biāo)在不停移動,不同幀中目標(biāo)的形狀以及尺度變化很大,傳統(tǒng)卷積方式對這種幾何變換的適應(yīng)性較差,導(dǎo)致特征提取不完整,引入背景噪聲也容易影響最后的結(jié)果。為適應(yīng)不同目標(biāo)形狀和尺度的改變,在雙向金字塔網(wǎng)絡(luò)中引入DCN v2 卷積,DCN v2 卷積實現(xiàn)過程如圖4 所示。
圖4 DCN v2 卷積的實現(xiàn)過程Fig.4 Implementation process of DCN v2 convolution
在生成多尺度特征圖的過程中將傳統(tǒng)卷積替換為改進(jìn)可變形卷積,根據(jù)當(dāng)前目標(biāo)的形狀和尺寸自適應(yīng)地調(diào)整采樣點的位置,從而更加準(zhǔn)確地提取目標(biāo)特征??勺冃尉矸e的主要思想是在標(biāo)準(zhǔn)卷積的規(guī)則網(wǎng)格采樣位置添加2D 偏移量,偏移量的計算通過另一個標(biāo)準(zhǔn)卷積過程實現(xiàn),故偏移量可以在訓(xùn)練過程中一起被學(xué)習(xí),卷積核的大小和位置則可以根據(jù)學(xué)習(xí)到的偏移量進(jìn)行動態(tài)調(diào)整,達(dá)到根據(jù)目標(biāo)形狀與尺度自適應(yīng)調(diào)整的目的[19]。
可變形卷積在實現(xiàn)的過程中并非根據(jù)偏移量直接改變卷積核,而是通過對卷積前圖片的像素值進(jìn)行重新整合后再進(jìn)行一般卷積操作,達(dá)到卷積核擴(kuò)張的效果。可變形卷積的實現(xiàn)需要利用普通卷積中共N個采樣點提取特征圖,通過額外的卷積層從特征圖中進(jìn)行偏移量的學(xué)習(xí),偏移量具有和輸入特征圖相同的空間分辨率,且為2D 分量,每個采樣位置疊加1 個偏移量,分別包含x與y兩個坐標(biāo)方向的偏移,故將輸出通道數(shù)設(shè)置為2N,表示N個采樣點的2D 偏移,偏移量隨著網(wǎng)絡(luò)訓(xùn)練過程一起被學(xué)習(xí)。偏移量的變化以局部、自適應(yīng)的方式取決于輸入特征圖中目標(biāo)的形變,將獲得的偏移量疊加到原來的特征圖上獲得加入偏移后的坐標(biāo)位置,通過雙線性插值的方式計算坐標(biāo)位置對應(yīng)的像素值。當(dāng)獲得所有像素值后便得到一個新的圖像,將這個新圖像作為輸入,并進(jìn)行常規(guī)的卷積操作??勺冃尉矸e的使用對目標(biāo)的形變等更具適應(yīng)性,但偏移量的疊加傾向于使采樣點聚集在目標(biāo)對象周圍,對物體的覆蓋不精確,且會引入無關(guān)的背景信息造成干擾。為每一個采樣點增加權(quán)重系數(shù),通過給每一個偏移后的采樣位置賦予權(quán)重來區(qū)分當(dāng)前采樣位置是否包含有效信息。采樣權(quán)重取值在[0,1]之間,采樣權(quán)重與偏移量一樣,都是通過對輸入特征圖采用卷積運(yùn)算來獲得,即采樣權(quán)重也是可學(xué)習(xí)參數(shù),可以根據(jù)采樣位置的變化在訓(xùn)練中學(xué)習(xí)得到。對輸入特征圖進(jìn)行卷積操作,輸出通道數(shù)由2N增加為3N,其中前2N個通道仍表示N個采樣點的2D 偏移量,剩余的N個通道被進(jìn)一步送入Sigmoid 層以獲得采樣權(quán)重,將偏移量與采樣權(quán)重的初始值分別設(shè)置為0 和0.5,并在網(wǎng)絡(luò)訓(xùn)練過程中不斷被優(yōu)化。如果疊加了偏移后的采樣區(qū)域沒有目標(biāo)信息,則通過學(xué)習(xí)使權(quán)重降低,從而使網(wǎng)絡(luò)可以更加集中于目標(biāo)區(qū)域[20]。
其中:參數(shù)λ可以控制簡單樣本的梯度變化,當(dāng)λ較小時可以使簡單樣本產(chǎn)生較大的梯度,以平衡簡單樣本與困難樣本的梯度貢獻(xiàn);參數(shù)η用于調(diào)整回歸誤差的上限;參數(shù)b保證了在x=1 時,損失函數(shù)有相同的值。3 個參數(shù)共同作用以滿足約束條件,使得當(dāng)偏移差接近于0 時,梯度迅速下降,接近于1 時梯度緩慢上升,解決SmoothL1 Loss 在偏移差為1 時的突變問題,使網(wǎng)絡(luò)訓(xùn)練可以更平衡。
由Lb(x)可得回歸分支成對檢測框的回歸損失Lreg的表示式如式(6)所示:
在獲得目標(biāo)分類分支、身份確認(rèn)分支與邊界框回歸3 個分支的損失函數(shù)后,以一定權(quán)重對3 個分支損失函數(shù)進(jìn)行加權(quán),獲得網(wǎng)絡(luò)總的損失函數(shù)Ltotal,其表達(dá)式如式(7)所示:
其中:參數(shù)m與n分別表示分類損失與身份確認(rèn)損失在Ltotal的權(quán)重。
本文所設(shè)計的網(wǎng)絡(luò)在MOT17 數(shù)據(jù)集上進(jìn)行訓(xùn)練與測試。MOT17 數(shù)據(jù)集發(fā)布于MOTChallenge上,相較于之前版本的視頻序列有更高的行人密度,共包括1 342 個身份標(biāo)識及292 733 個目標(biāo)框,總計11 235 幀。MOT17 數(shù)據(jù)集包含14 個視頻序列,既有靜態(tài)攝像機(jī)場景也有動態(tài)攝像機(jī)場景,還包含不同的光照場景,例如晚間人群密集的商業(yè)街、光線昏暗的公園、明亮的商場中運(yùn)動攝像機(jī)的跟拍、街道上模擬自動駕駛場景等。本文將MOT17 數(shù)據(jù)集中7 個視頻序列用于訓(xùn)練,其余7 個用于測試。
本文使用多目標(biāo)跟蹤中最常用的CLEAR Metric[23]與IDF1[24]指標(biāo)來評估模型的性能,其中CLEAR Metrics 主要包括多目標(biāo)跟蹤準(zhǔn)確度(Multiple-Object Tracking Accuracy,MOTA)、多目標(biāo)跟蹤精度(Multiple-Object Tracking Precision,MOTP)、主要跟蹤軌跡(Mostly Tracked Trajectories,MT)、主要丟失目標(biāo)軌跡(Mostly Lost Trajectories,ML)、身份切換總數(shù)(Identity Switches,IDS)、跟蹤速度等指標(biāo)。
1)MOTA 是融合了誤檢、漏檢與身份切換3 種因素的綜合性指標(biāo),衡量模型在檢測目標(biāo)和關(guān)聯(lián)軌跡時的整體性能,體現(xiàn)多目標(biāo)跟蹤的準(zhǔn)確度;
2)MOTP 為目標(biāo)檢測框與真值框在所有幀之間的平均度量距離,衡量多目標(biāo)跟蹤的精度,主要是檢測器的定位精度;
3)MT 指標(biāo)衡量了目標(biāo)存在期間與真值軌跡匹配高于80%的預(yù)測軌跡數(shù)目占軌跡總數(shù)目的比例;
4)ML 指標(biāo)衡量目標(biāo)存在期間與真值軌跡匹配低于20%的預(yù)測軌跡占總軌跡數(shù)的比例,MT 與ML兩個指標(biāo)均不考慮目標(biāo)是否發(fā)生身份切換,僅衡量目標(biāo)跟蹤的完整性;
5)IDS 衡量整個跟蹤過程身份切換的數(shù)目,衡量跟蹤算法的穩(wěn)定性;
6)跟蹤速度指標(biāo)用幀率(Frame Per Seconds,F(xiàn)PS)來衡量,F(xiàn)PS 數(shù)值越大,跟蹤速度越快;
7)IDF1 指標(biāo)衡量軌跡中身份標(biāo)識的準(zhǔn)確性。
以上指標(biāo)中,MOTA 為最受關(guān)注的指標(biāo),體現(xiàn)了跟蹤整體的性能。
在網(wǎng)絡(luò)訓(xùn)練過程中為防止過擬合,一般會利用4 種方法進(jìn)行數(shù)據(jù)增強(qiáng):以0.5 的概率隨機(jī)對圖像進(jìn)行亮度調(diào)整;色彩與飽和度調(diào)整;水平翻轉(zhuǎn);以[0.3,0.8]的尺度范圍對圖像進(jìn)行隨機(jī)裁剪。將模型在MOT17 訓(xùn)練集上訓(xùn)練時的批量大小設(shè)置為8,采用標(biāo)準(zhǔn)的Adam 優(yōu)化器對網(wǎng)絡(luò)訓(xùn)練100 輪,初始的學(xué)習(xí)率設(shè)為5×10-5,在網(wǎng)絡(luò)訓(xùn)練過程中連續(xù)3 輪損失不下降則衰減學(xué)習(xí)率,學(xué)習(xí)率衰減因子為0.1。為平衡訓(xùn)練過程中的回歸損失與分類損失,將損失函數(shù)Ltotal中的參數(shù)m與參數(shù)n均設(shè)置為1.4,目標(biāo)分類損失Lcls與身份驗證損失Lid中參數(shù)α與參數(shù)γ分別設(shè)置為0.25 與2.0,回歸損失Lreg中參數(shù)λ與參數(shù)η分別設(shè)置為0.5 與1.5。在錨框與真值框匹配階段將IoU 匹配閾值Tmax設(shè)置為0.5,在節(jié)點鏈接階段,根據(jù)IoU 匹配的鏈接閾值設(shè)置為0.4,消失的目標(biāo)保留其身份與軌跡σ?guī)颂帵以O(shè)置為10。
本文設(shè)計消融實驗探究模型中各模塊對整體性能的影響,實驗結(jié)果如表1 所示。
表1 消融實驗結(jié)果Table 1 Ablation experiment results
由表1 可以看出,由于基礎(chǔ)鏈?zhǔn)浇Y(jié)構(gòu)中不包含多特征融合以及多任務(wù)損失模塊,在加入多特征融合的特征金字塔結(jié)構(gòu)之后,MOTA 指標(biāo)從66.6 提升到了68.4,MOTP 指標(biāo)也提升了1.3,MT 指標(biāo)、IDF1指標(biāo)均得到大幅提升,但ML 指標(biāo)與IDS 指標(biāo)均有不同程度的下降。改進(jìn)后的特征金字塔網(wǎng)絡(luò)增加了一條從下到上的特征融合路徑,將其與可變形卷積融合,使其在特征提取階段獲得適應(yīng)多目標(biāo)形變與多尺度變化的融合特征。充分利用淺層語義信息提取更多的目標(biāo)位置信息,可以根據(jù)目標(biāo)的變化動態(tài)調(diào)整感受野,使網(wǎng)絡(luò)更能適應(yīng)目標(biāo)的形變。由于實驗所用數(shù)據(jù)集人流密度較大且處于動態(tài)變化,因此網(wǎng)絡(luò)可以在目標(biāo)發(fā)生形變時自適應(yīng)地提取動態(tài)變化的特征,增強(qiáng)對目標(biāo)形變的適應(yīng)能力以及對小目標(biāo)的檢測能力,進(jìn)而提升MOTA、MOTP、MT 和ML 等指標(biāo)。此外,檢測到的回歸框能夠進(jìn)一步保證節(jié)點鏈接的準(zhǔn)確性,因此相同目標(biāo)的數(shù)據(jù)關(guān)聯(lián)過程更準(zhǔn)確,能夠減少身份切換現(xiàn)象的發(fā)生,進(jìn)一步優(yōu)化了IDF1與IDS 指標(biāo)。本文網(wǎng)絡(luò)引入BalancedL1 Loss 替換傳統(tǒng)的SmoothL1 Loss 損失函數(shù),并進(jìn)一步調(diào)整了損失函數(shù)的權(quán)重。雖然MT、ML 指標(biāo)有一定波動,但是其他指標(biāo)均有不同程度的提升,MOTA 指標(biāo)獲得了1.2 的增益、MOTP、IDF1 指標(biāo)分別提高了1.5、2.4,這表明在網(wǎng)絡(luò)訓(xùn)練過程中平衡簡單樣本與困難樣本的梯度影響更有利于網(wǎng)絡(luò)回歸任務(wù)的均衡學(xué)習(xí),提高了回歸邊界框?qū)Φ臏?zhǔn)確性,進(jìn)一步改善了跟蹤過程的準(zhǔn)確度與精度。
多目標(biāo)跟蹤網(wǎng)絡(luò)受檢測器的影響很大,為了公平地評價多目標(biāo)跟蹤網(wǎng)絡(luò)的性能,將網(wǎng)絡(luò)分為Private 與Public 兩種。Public 方法使用數(shù)據(jù)集中提供的固定檢測器完成整個跟蹤模型的搭建,Private 方法可以使用任意檢測器。由于Private 方法可以使用任何一個性能更好的檢測器,因此同等條件下的Private方法比Public方法效果更好。MOT17數(shù)據(jù)集中的公共檢測器為DPM、SDP 與Faster R-CNN3 種檢測器,而本文網(wǎng)絡(luò)結(jié)構(gòu)中檢測部分利用了RetinaNet 結(jié)構(gòu),屬于Private 方法。為公平比較,本文僅將所設(shè)計網(wǎng)絡(luò)與其他使用Private 方法的網(wǎng)絡(luò)比較,結(jié)果如表2 所示,表中加粗?jǐn)?shù)字為該組數(shù)據(jù)的最大值。
表2 不同網(wǎng)絡(luò)在MOT17 數(shù)據(jù)集下的實驗結(jié)果Table 2 Experiment results of different networks under MOT17 date set
由表2 可知,基于本文網(wǎng)絡(luò)的方法具有較高的MOTA 值以及MOTP 值。分析原因可能是使用基于可變形卷積的多特征融合網(wǎng)絡(luò)增強(qiáng)了模型特征提取能力,提高了模型對行人目標(biāo)尺度以及形變的適應(yīng)能力,進(jìn)而提高了整體跟蹤的精度與準(zhǔn)確度。由表2還可知,本文網(wǎng)絡(luò)的MT 指標(biāo)、ML 指標(biāo)與IDS 指標(biāo)相較于其他網(wǎng)絡(luò)效果略有降低,但是具有最高的幀率。這是因為本文網(wǎng)絡(luò)在鏈?zhǔn)礁檿r節(jié)點之間僅使用IoU 進(jìn)行匹配,利用節(jié)點之間公共幀的相似性進(jìn)行數(shù)據(jù)關(guān)聯(lián),省去了復(fù)雜的數(shù)據(jù)關(guān)聯(lián)算法,因此大幅提高了跟蹤算法整體的速度。但是本文網(wǎng)絡(luò)僅使用IoU 關(guān)聯(lián),與其他復(fù)雜的關(guān)聯(lián)算法進(jìn)行對比,關(guān)聯(lián)的準(zhǔn)確率與精度有所下降,影響跟蹤過程的完整性,或者容易出現(xiàn)身份切換的現(xiàn)象,這表現(xiàn)在MT 指標(biāo)、ML 指標(biāo)與IDS 指標(biāo)值的降低。測試結(jié)果中,本文網(wǎng)絡(luò)的幀率最高,MOTA 指標(biāo)相較于其他網(wǎng)絡(luò)略有降低。這是因為數(shù)據(jù)關(guān)聯(lián)階段使用的IoU 匹配屬于簡單的基礎(chǔ)匹配方法,在一定程度上影響了匹配的準(zhǔn)確性,從而降低了跟蹤精度。在通常情況下采用更復(fù)雜的匹配方式替換IoU 匹配可以提高跟蹤精度,但數(shù)據(jù)關(guān)聯(lián)需要對輸入的視頻幀進(jìn)行逐幀匹配,數(shù)據(jù)關(guān)聯(lián)算法的復(fù)雜性增加后,整個視頻幀的跟蹤速度就會大幅降低。從跟蹤速度與精度權(quán)衡的角度考慮,本文選取了復(fù)雜性較低的基礎(chǔ)IoU 匹配方法。為了降低簡單匹配方式帶來的影響,本文還采用了鏈?zhǔn)浇Y(jié)構(gòu),利用節(jié)點之間的公共幀保證匹配雙方具有強(qiáng)相似性,降低對復(fù)雜匹配方式的依賴性。此外,本文利用多特征融合結(jié)構(gòu)與多任務(wù)損失提高邊界框回歸的精確性,進(jìn)一步保證匹配過程的準(zhǔn)確性。實驗結(jié)果表明,所設(shè)計網(wǎng)絡(luò)實現(xiàn)了速度與精度的權(quán)衡。
本文選取了測試集中2 個不同場景下連續(xù)3 幀的跟蹤結(jié)果進(jìn)一步展示多目標(biāo)跟蹤算法的實際效果。圖5 所示為本文網(wǎng)絡(luò)在MOT17-03 數(shù)據(jù)集下的可視化跟蹤結(jié)果示例(彩色效果見《計算機(jī)工程》官網(wǎng)HTML 版本),此場景為靜止的攝像機(jī)場景,地處晚間的商業(yè)街,光線較昏暗且人流密集度較大,具有一定的跟蹤難度。圖6 為本文網(wǎng)絡(luò)在MOT17-12 數(shù)據(jù)集下的跟蹤結(jié)果示例(彩色效果見《計算機(jī)工程》官網(wǎng)HTML 版本),此場景為運(yùn)動攝像機(jī)視角下的場景。由圖5 可知,MOT17-03 數(shù)據(jù)集下大部分的目標(biāo)都可以被成功檢測且在跟蹤過程中保持身份不變,在人流密集處也能有效地被檢測到,但是在嚴(yán)重遮擋環(huán)境下存在發(fā)生身份切換的可能性,例如圖6 中第1 幀圖像身份標(biāo)識593 的目標(biāo)在第2 幀中未被檢測到,在第3 幀身份標(biāo)識切換成了594,即在嚴(yán)重遮擋情況下出現(xiàn)了漏檢、誤檢以及身身份切換的現(xiàn)象。在圖6 中身份標(biāo)識為140 的目標(biāo)在第1 幀沒有被檢測到,在后2 幀才被正確地識別與跟蹤。由于運(yùn)動攝像機(jī)下相機(jī)與行人均處于運(yùn)動狀態(tài),目標(biāo)的形狀與位置信息在通常情況下具有一定的模糊性,所以會發(fā)生誤檢以及漏檢的現(xiàn)象,除了140 號小目標(biāo)之外其余目標(biāo)都被成功跟蹤,這進(jìn)一步說明了檢測結(jié)果對整體跟蹤性能的影響。實驗結(jié)果表明,本文設(shè)計的網(wǎng)絡(luò)可以較好地應(yīng)對場景中的動態(tài)變化,在人流較高、光照改變、運(yùn)動攝像機(jī)等復(fù)雜場景下仍具有一定的魯棒性。
圖5 本文網(wǎng)絡(luò)在MOT17-03 數(shù)據(jù)集下的可視化跟蹤結(jié)果示例Fig.5 Visual tracking results example of network in this paper under MOT17-03 date set
圖6 本文網(wǎng)絡(luò)在MOT17-12 數(shù)據(jù)集下的可視化跟蹤結(jié)果示例Fig.6 Visual tracking results example of network in this paper under MOT17-12 date set
本文設(shè)計一種多特征融合的端到端鏈?zhǔn)蕉嗄繕?biāo)跟蹤網(wǎng)絡(luò),將目標(biāo)檢測、外觀特征提取與數(shù)據(jù)關(guān)聯(lián)集成到一個框架中,并將多特征融合的雙向金字塔網(wǎng)絡(luò)引入框架中,在特征金字塔結(jié)構(gòu)中融入具有采樣加權(quán)的改進(jìn)可變形卷積,進(jìn)一步增加對目標(biāo)形變的適應(yīng)能力。本文網(wǎng)絡(luò)可以根據(jù)目標(biāo)的變化動態(tài)調(diào)整感受野,從而提升模型特征提取能力,從整體上改善跟蹤的性能。引入focalloss 與BalancedL1 Loss 兩種損失函數(shù)進(jìn)行多任務(wù)學(xué)習(xí),進(jìn)一步解決回歸任務(wù)中正負(fù)樣本不平衡、簡單樣本與困難樣本梯度貢獻(xiàn)差距大的問題,實現(xiàn)網(wǎng)絡(luò)的均衡學(xué)習(xí),提升跟蹤的精度與準(zhǔn)確度。實驗結(jié)果表明,本文網(wǎng)絡(luò)實現(xiàn)了速度與精度的權(quán)衡,具有較高的應(yīng)用價值。但本文網(wǎng)絡(luò)在數(shù)據(jù)關(guān)聯(lián)階段僅使用了IoU 匹配,雖然簡單的數(shù)據(jù)關(guān)聯(lián)算法可以提高整體的跟蹤速度,但是會影響關(guān)聯(lián)的準(zhǔn)確性,導(dǎo)致身份切換的現(xiàn)象發(fā)生。下一步將使用級聯(lián)匹配、圖卷積等方法對數(shù)據(jù)關(guān)聯(lián)階段進(jìn)行優(yōu)化,設(shè)計更合理的關(guān)聯(lián)方法,并嘗試將該網(wǎng)絡(luò)應(yīng)用于其他特定場景中。