樂應(yīng)英,徐丹,賀康建,張浩
1. 云南大學(xué)信息學(xué)院,昆明 650091; 2. 玉溪師范學(xué)院數(shù)學(xué)與信息技術(shù)學(xué)院,玉溪 653100
多目標(biāo)跟蹤(multiple object tracking,MOT)是智能監(jiān)管任務(wù)的關(guān)鍵核心技術(shù),廣泛應(yīng)用在視頻監(jiān)控、國(guó)防軍事、智慧城市和智能交通管理等領(lǐng)域,是計(jì)算機(jī)視覺領(lǐng)域的重要研究?jī)?nèi)容之一(劉沛鑫,2020)。MOT致力于在連續(xù)圖像序列中定位到每一幀中所有待跟蹤的目標(biāo),并且盡量避免每個(gè)目標(biāo)的ID(identity information)標(biāo)識(shí)在整個(gè)跟蹤流程中發(fā)生切換(李沐雨,2020)。
隨著Faster R-CNN(region based convolutional neural network)(Ren等,2017),YOLO(you only look once)(Redmon等,2016)及SSD(single shot multiBox detector)(Liu等,2016)等經(jīng)典目標(biāo)檢測(cè)算法檢測(cè)性能的顯著提高,大多數(shù)MOT算法都選擇采用基于檢測(cè)的跟蹤(tracking by detection, TBD)方法作為主要跟蹤方案(劉沛鑫,2020)?;谧顑?yōu)貪心算法(Pirsiavash等,2011)、基于K最短路徑優(yōu)化(Berclaz等,2011)、基于分層網(wǎng)絡(luò)流(王雪琴 等,2017)和基于最大權(quán)值獨(dú)立集(Brendel等,2011)的TBD多目標(biāo)跟蹤算法也相繼提出。
根據(jù)攝像機(jī)拍攝角度的高低,TBD存在高視點(diǎn)和低視點(diǎn)兩種跟蹤場(chǎng)景,本文重點(diǎn)研究低視點(diǎn)下的MOT問題。低視點(diǎn)場(chǎng)景的遮擋問題一直是影響跟蹤性能的重要原因,如圖1所示。在完全遮擋場(chǎng)景,目標(biāo)因?yàn)闀簳r(shí)消失,導(dǎo)致跟蹤失敗。目標(biāo)部分遮擋導(dǎo)致目標(biāo)的視覺信息受到污染,提取的目標(biāo)特征不完整,會(huì)導(dǎo)致跟蹤漂移。因此,在低視點(diǎn)跟蹤中,解決好遮擋問題是提升跟蹤算法性能的重要舉措。
圖1 遮擋造成的跟蹤漂移現(xiàn)象
為了解決遮擋問題,本文提出低視點(diǎn)跟蹤場(chǎng)景下遮擋自動(dòng)感知的多目標(biāo)跟蹤算法。在MOT16低視點(diǎn)跟蹤場(chǎng)景視頻上進(jìn)行實(shí)驗(yàn),與STAM(spatial-temporal attention mechanism)(Chu等,2017)、ATAF(aggregate tracklet appearance features)(Chen等,2019)、STRN(spatial-temporal relation networks)(Xu等,2019)、BLSTM_MTP_O(bilinear LSTM with multi-track pooling)(Kim等,2021)和IADMR(instance-aware tracker and dynamic model refreshment)(Chu等,2019)等典型算法進(jìn)行對(duì)比實(shí)驗(yàn)。視頻包括部分遮擋、短時(shí)全遮擋和長(zhǎng)時(shí)全遮擋等特殊跟蹤場(chǎng)景。實(shí)驗(yàn)結(jié)果表明,本文提出算法的跟蹤性能得到提升,大多數(shù)評(píng)價(jià)指標(biāo)優(yōu)于對(duì)比算法。
本文主要貢獻(xiàn)如下:1)根據(jù)每一幀圖像的遮擋狀態(tài),提出自適應(yīng)抗遮擋特征,利用全局遮擋信息動(dòng)態(tài)調(diào)整關(guān)聯(lián)特征結(jié)構(gòu),增強(qiáng)特征對(duì)遮擋的感知調(diào)整能力。2)在新目標(biāo)判斷上,采用級(jí)聯(lián)篩查機(jī)制,防止遮擋帶來的目標(biāo)特征劇烈變化而認(rèn)定為“虛新入目標(biāo)”的錯(cuò)誤跟蹤現(xiàn)象。3)提出自適應(yīng)干擾模板更新機(jī)制,根據(jù)所有目標(biāo)的局部遮擋系數(shù),對(duì)不同遮擋狀態(tài)的歷史目標(biāo)模板給予不同權(quán)重,根據(jù)權(quán)重進(jìn)行自適應(yīng)模板更新,減少了嚴(yán)重遮擋目標(biāo)更新時(shí)對(duì)模板庫(kù)的干擾。
基于數(shù)據(jù)關(guān)聯(lián)的MOT算法首先在每一幀圖像中實(shí)現(xiàn)目標(biāo)檢測(cè),然后將跨幀圖像中的目標(biāo)檢測(cè)結(jié)果關(guān)聯(lián)起來,最終獲取目標(biāo)的運(yùn)動(dòng)軌跡。該算法可分解為4個(gè)步驟,如圖2所示。
圖2 基于數(shù)據(jù)關(guān)聯(lián)的多目標(biāo)跟蹤基本框架圖
離線的TBD方法利用未來幀處理跟蹤問題,將數(shù)據(jù)關(guān)聯(lián)問題看做全局最佳化問題,專注于設(shè)計(jì)各種優(yōu)化算法,例如網(wǎng)絡(luò)流(Zhang等,2008)、連續(xù)能量最小化(Milan等,2014)和最大權(quán)獨(dú)立集(Brendel等,2011)、k部圖(Roshan等,2012)、子圖多割(Dehghan等,2015)等。然而離線方法不適用于實(shí)時(shí)、隨機(jī)跟蹤環(huán)境,例如自動(dòng)駕駛。而在線的TBD方法在軌跡生成上不能使用未來幀,大多采用概率推理或優(yōu)化算法,例如匈牙利算法(Bae和Yoon,2014)。TBD存在的問題是對(duì)目標(biāo)檢測(cè)結(jié)果有嚴(yán)重依賴性,在實(shí)時(shí)在線跟蹤場(chǎng)景下,對(duì)噪聲檢測(cè)更加敏感。
低視點(diǎn)指視頻拍攝角度相對(duì)較低,拍攝距離相對(duì)較近,導(dǎo)致目標(biāo)較大、較密集,且目標(biāo)走動(dòng)過程中尺度變化大,伴有頻繁遮擋。低視點(diǎn)拍攝視頻的MOT問題,尤其是低視點(diǎn)下的遮擋問題會(huì)導(dǎo)致“跟蹤漂移”和“虛新入目標(biāo)”現(xiàn)象,是多目標(biāo)跟蹤中需要重點(diǎn)研究的問題。對(duì)此,人們提出了許多處理遮擋的方法。例如,基于人體部分檢測(cè)和跟蹤的算法(Izadinia等,2012)、基于遮擋可感知的檢測(cè)器的算法(Tang等,2014)、基于在線判別外觀學(xué)習(xí)的分層關(guān)聯(lián)算法(方嵐和于鳳芹,2020)以及專門針對(duì)部分遮擋的多行人檢測(cè)跟蹤算法(Shu等,2012)等。這些算法旨在利用更好的檢測(cè)器處理局部遮擋,但是因?yàn)楝F(xiàn)實(shí)跟蹤場(chǎng)景的多變性和復(fù)雜性,使用最先進(jìn)的檢測(cè)器也有一定程度的虛檢、漏檢和不精確檢測(cè)問題。Sort(Bewley等,2016)算法用運(yùn)動(dòng)特征作為目標(biāo)特征,在目標(biāo)數(shù)目不多、間距大的情況下跟蹤效果不錯(cuò),但是在目標(biāo)密度高、遮擋頻度大的情況下跟蹤性能下降,ID發(fā)生頻繁切換。在Sort基礎(chǔ)上,Deep sort(Wojke等,2017)引入深度特征來解決這兩個(gè)問題,降低了遮擋下的ID切換率,取得了很大進(jìn)展。但是在目標(biāo)嚴(yán)重遮擋時(shí),遮擋部分融入了別的目標(biāo)信息,Deep sort提取的目標(biāo)特征的準(zhǔn)確性下降。STAM(Chu等,2017)為了排除目標(biāo)遮擋部分的干擾,盡量利用遮擋狀態(tài)下目標(biāo)剩余的信息,提出目標(biāo)遮擋可視圖和時(shí)空注意力機(jī)制來關(guān)注目標(biāo)未遮擋部分的信息進(jìn)行數(shù)據(jù)關(guān)聯(lián),在一定程度上提升了遮擋下的特征提取能力,但是可視圖的計(jì)算增加了計(jì)算復(fù)雜度,同時(shí)在STAM中算法為每個(gè)目標(biāo)建立跟蹤器,實(shí)時(shí)性有待提高。
本文在低視點(diǎn)跟蹤場(chǎng)景下做了大量實(shí)驗(yàn),得到了以下兩個(gè)發(fā)現(xiàn):1)目標(biāo)相對(duì)密集、遮擋嚴(yán)重時(shí),目標(biāo)框之間存在大量重疊,導(dǎo)致運(yùn)動(dòng)特征失效,此時(shí)由深度網(wǎng)絡(luò)提取的特征相較于運(yùn)動(dòng)特征更加可靠。2)遮擋較輕時(shí),目標(biāo)相互距離可區(qū)分,運(yùn)動(dòng)特征魯棒性較高,而外觀特征偶爾會(huì)發(fā)生特征漂移。
因此,本文提出自適應(yīng)抗遮擋特征,增強(qiáng)特征對(duì)遮擋目標(biāo)的可區(qū)分度,采用級(jí)聯(lián)篩查機(jī)制準(zhǔn)確區(qū)分新目標(biāo)和暫時(shí)消失目標(biāo),提出自適應(yīng)去干擾模板更新機(jī)制,進(jìn)一步提高模板庫(kù)的干凈度和算法對(duì)遮擋的適用性。
算法涉及的主要參數(shù)如表1所示。n1是從開始幀到當(dāng)前幀已經(jīng)成功檢測(cè)跟蹤到的目標(biāo)數(shù)量,n2為當(dāng)前幀中所有檢測(cè)到的目標(biāo)數(shù)目,f為當(dāng)前幀編號(hào)。i∈{1,2,…,n1},j∈{1,2,…,n2},t∈{1,2,…,f}。
表1 算法涉及的主要參數(shù)
在基于數(shù)據(jù)關(guān)聯(lián)的多跟蹤方法中,關(guān)鍵在于檢測(cè)目標(biāo)之間關(guān)聯(lián)特征的度量。目標(biāo)特征的可區(qū)分性對(duì)提高跟蹤性能起著重要作用。為了更好地闡述自適應(yīng)抗遮擋特征,首先對(duì)3大經(jīng)常使用特征的優(yōu)缺點(diǎn)及其適用場(chǎng)合進(jìn)行分析。1)運(yùn)動(dòng)特征包括目標(biāo)的位置、方向和速度等信息。當(dāng)攝像機(jī)無運(yùn)動(dòng)或運(yùn)動(dòng)量較小且目標(biāo)稀疏時(shí),通過運(yùn)動(dòng)特征計(jì)算IoU(intersection over union)可以得到準(zhǔn)確高效的目標(biāo)關(guān)聯(lián)。但是目標(biāo)密集時(shí),目標(biāo)的位置和運(yùn)動(dòng)會(huì)相互影響,導(dǎo)致特征辨別力下降。2)神經(jīng)網(wǎng)絡(luò)提取的外觀特征可以顯著提高特征辨別力和魯棒性。然而,當(dāng)目標(biāo)的磨損和形狀相似時(shí),特征區(qū)分度也會(huì)降低。3)運(yùn)動(dòng)特征和外觀特征的固定組合可以有效利用兩者的優(yōu)點(diǎn),在復(fù)雜場(chǎng)景獲得更好的跟蹤魯棒性。然而,大多數(shù)特征組合方法遵循固定組合方式,并沒有考慮遮擋。
通過以上分析,可以發(fā)現(xiàn)融合特征比單一特征更容易區(qū)分,融合特征的組合方式仍然值得進(jìn)一步研究。本文仍然使用融合特征的思想,但與之前的工作不同,本文將遮擋考慮在內(nèi),使特征結(jié)構(gòu)可以根據(jù)目標(biāo)遮擋狀態(tài)進(jìn)行自適應(yīng)調(diào)整。接著,進(jìn)一步分析不同特征在不同遮擋程度的有效性,并得到兩個(gè)發(fā)現(xiàn):1)當(dāng)目標(biāo)分布稀疏且沒有遮擋時(shí),只有基于IoU匹配的運(yùn)動(dòng)特征才能獲得足夠的目標(biāo)區(qū)分度;2)在存在遮擋的情況下,重疊目標(biāo)的IoU值較大,運(yùn)動(dòng)特征沒有區(qū)分度。盡管如此,深度網(wǎng)絡(luò)提取的外觀特征仍具有一定的魯棒性,在目標(biāo)關(guān)聯(lián)中起著決定性作用。
基于以上分析,本文提出一種基于全局遮擋系數(shù)的自適應(yīng)抗遮擋特征。全局遮擋狀態(tài)用于動(dòng)態(tài)調(diào)整關(guān)聯(lián)特征的結(jié)構(gòu),增強(qiáng)對(duì)遮擋的感知和調(diào)整能力。自適應(yīng)抗遮擋特征的獲取需要經(jīng)歷目標(biāo)外觀特征獲取、目標(biāo)運(yùn)動(dòng)特征獲取、全局遮擋系數(shù)計(jì)算和自適應(yīng)抗遮擋特征計(jì)算等4個(gè)步驟。
2.1.1 獲取目標(biāo)外觀特征
首先基于ResNet50(He等,2016)使用孿生網(wǎng)絡(luò)S1獲取所有當(dāng)前幀目標(biāo)的外觀特征s1j,然后計(jì)算當(dāng)前幀目標(biāo)特征和所有模板庫(kù)的歷史外觀特征的歐氏距離Si,j。具體為
(1)
(2)
式中,n3為ID號(hào)為i的目標(biāo)被成功跟蹤到的幀數(shù)。
2.1.2 獲取目標(biāo)運(yùn)動(dòng)特征
計(jì)算當(dāng)前幀目標(biāo)和上一幀目標(biāo)的IoU重疊面積,并將其作為運(yùn)動(dòng)特征。獲取到的運(yùn)動(dòng)特征保存在矩陣D里,具體為
(3)
D′i,j=1-Di,j
(4)
2.1.3 計(jì)算全局遮擋系數(shù)
根據(jù)當(dāng)前幀目標(biāo)框的相互覆蓋程度,計(jì)算全局遮擋系數(shù),具體為
(5)
(6)
圖3 全局遮擋系數(shù)示例
2.1.4 獲取自適應(yīng)抗遮擋特征
在上述兩個(gè)特征中,外觀特征值越大,差異性越大;運(yùn)動(dòng)特征值越大,差異性越小。對(duì)兩個(gè)特征聯(lián)合使用時(shí),首先需要對(duì)運(yùn)動(dòng)特征進(jìn)行歸一化,如式(4)所示。接著通過全局遮擋系數(shù)?對(duì)當(dāng)前幀的特征結(jié)構(gòu)進(jìn)行自適應(yīng)調(diào)整,具體為
(7)
通過?自適應(yīng)調(diào)整后得到的自適應(yīng)抗遮擋特征存到矩陣judge。矩陣judge將作為后續(xù)數(shù)據(jù)關(guān)聯(lián)的輸入矩陣,是數(shù)據(jù)關(guān)聯(lián)的唯一依據(jù)。當(dāng)?值變大時(shí),目標(biāo)幀的遮擋狀態(tài)加重,算法自動(dòng)調(diào)整特征結(jié)構(gòu),加大外觀特征比重,減少運(yùn)動(dòng)特征比重,當(dāng)?值變小時(shí),目標(biāo)幀的遮擋狀態(tài)得到緩解,目標(biāo)之間的重疊減少,算法自動(dòng)調(diào)整特征結(jié)構(gòu),減少外觀特征比重,加大運(yùn)動(dòng)特征比重。
在多目標(biāo)跟蹤中,新目標(biāo)的界定尤其重要。跟蹤場(chǎng)景復(fù)雜多變、目標(biāo)姿態(tài)和尺度頻繁變化以及密集場(chǎng)景的頻繁遮擋都會(huì)導(dǎo)致目標(biāo)不能成功關(guān)聯(lián)。如果將這些因?yàn)樘厥庠蚋檨G失的目標(biāo)界定為新目標(biāo),則會(huì)發(fā)生ID切換和軌跡斷裂,會(huì)直接影響跟蹤算法的性能。對(duì)此,本文提出級(jí)聯(lián)篩查機(jī)制,減少了特殊情況下的“虛新入目標(biāo)”,如圖4所示。
圖4 新目標(biāo)級(jí)聯(lián)篩查機(jī)制
第1級(jí)篩查在數(shù)據(jù)關(guān)聯(lián)時(shí)進(jìn)行,自適應(yīng)抗遮擋特征(結(jié)合了運(yùn)動(dòng)特征和高層外觀特征)在一定程度上降低了“虛新入目標(biāo)”的數(shù)量,使大部分場(chǎng)景中的目標(biāo)都能成功跟蹤到。關(guān)聯(lián)失敗的目標(biāo)可能含有真正新入場(chǎng)景的目標(biāo)和少量“虛新入目標(biāo)”,需要再次篩查。第2級(jí)篩查利用低層外觀特征,采用一個(gè)4層的網(wǎng)絡(luò)S2提取未成功關(guān)聯(lián)的目標(biāo)特征和模板特征進(jìn)行距離比對(duì)。距離小于閾值d的,認(rèn)為是已經(jīng)存在的目標(biāo),無需新建目標(biāo)軌跡;否則,新建并初始化目標(biāo)和軌跡數(shù)據(jù),在后續(xù)幀中進(jìn)行正常跟蹤。經(jīng)過多次試驗(yàn),本文算法設(shè)置d=0.5,此時(shí)算法跟蹤性能最好。
目標(biāo)發(fā)生遮擋時(shí),無論是部分遮擋,還是全遮擋,由于目標(biāo)是采用矩形框區(qū)域來表示的,都會(huì)或多或少混入別的目標(biāo)信息。此時(shí),如果將成功關(guān)聯(lián)的目標(biāo)一視同仁地進(jìn)行更新,這些遮擋的目標(biāo)將會(huì)給模板庫(kù)帶入噪聲,導(dǎo)致后續(xù)的關(guān)聯(lián)錯(cuò)誤。以長(zhǎng)時(shí)全遮擋為例,將遮擋過程分為5個(gè)階段:遮擋前(B0)、部分遮擋1(PO1)、完全遮擋(FO)、部分遮擋2(PO2)、無遮擋(NO)。通過分析遮擋過程,得到兩個(gè)發(fā)現(xiàn)。1)發(fā)生全遮擋前的目標(biāo)處于PO1狀態(tài),這時(shí)目標(biāo)存在部分遮擋,混入了其他目標(biāo)信息,可靠性降低。重新出現(xiàn)的目標(biāo)處于PO2狀態(tài),有很大一部分是遮擋的,此時(shí)目標(biāo)特征混入了其他目標(biāo)信息,背景發(fā)生很大變化,如圖5所示。2)在低視點(diǎn)跟蹤場(chǎng)景下,每一幀都存在大量遮擋,并且大多數(shù)目標(biāo)在視頻序列上遮擋的時(shí)間超過70%,即使成功跟蹤到這些目標(biāo),它們的更新給模板庫(kù)帶來的影響也不容小覷。
圖5 全遮擋的5個(gè)階段
基于以上兩點(diǎn)事實(shí),發(fā)現(xiàn)直接將帶遮擋目標(biāo)更新入模板庫(kù)會(huì)給模板庫(kù)引入大量干擾噪聲。因此提出基于局部遮擋狀態(tài)的自適應(yīng)模板更新機(jī)制。根據(jù)所有目標(biāo)的遮擋狀態(tài)(可通過計(jì)算目標(biāo)的局部遮擋系數(shù)得到),對(duì)不同遮擋狀態(tài)的歷史目標(biāo)模板給予不同權(quán)重,并且根據(jù)權(quán)重進(jìn)行自適應(yīng)模板更新?;诰植空趽跸禂?shù)的自適應(yīng)去干擾模板更新機(jī)制包括局部遮擋系數(shù)計(jì)算、模板更新權(quán)重計(jì)算和自適應(yīng)模板更新3個(gè)步驟。
2.3.1 局部遮擋系數(shù)計(jì)算
根據(jù)當(dāng)前幀中檢測(cè)到的目標(biāo)框信息計(jì)算每個(gè)目標(biāo)的局部遮擋系數(shù)。具體為
(8)
2.3.2 計(jì)算模板更新權(quán)重
圖6 更新權(quán)重示例
(9)
2.3.3 自適應(yīng)模板更新
權(quán)重值越大的目標(biāo),遮擋越嚴(yán)重,干擾信息較多,不應(yīng)該更新到模板庫(kù)中;權(quán)重值小的目標(biāo),遮擋程度弱,可以更新到目標(biāo)模板庫(kù)中。因此對(duì)模板進(jìn)行更新時(shí),閾值設(shè)定很有必要。權(quán)重值小于閾值W的成功關(guān)聯(lián)目標(biāo),可以添加到對(duì)應(yīng)模板庫(kù)中;大于閾值W的關(guān)聯(lián)目標(biāo)不做更新。即
(10)
實(shí)驗(yàn)表明,W的最優(yōu)值為0.6。實(shí)驗(yàn)結(jié)果如圖7所示。
圖7 W的最優(yōu)取值
通過更新權(quán)重,算法能夠根據(jù)目標(biāo)的局部遮擋狀態(tài)自適應(yīng)選擇可靠性高的關(guān)聯(lián)目標(biāo)進(jìn)行模板更新,防止干擾信息較多的關(guān)聯(lián)目標(biāo)的更新,降低了遮擋嚴(yán)重目標(biāo)對(duì)模板庫(kù)的影響。圖8是MOT16-09中1號(hào)目標(biāo)經(jīng)過自適應(yīng)抗噪聲模板更新后得到的模板庫(kù)示例(110—180幀),剔除了嚴(yán)重遮擋目標(biāo)對(duì)模板庫(kù)的影響。
圖8 自適應(yīng)去干擾模板更新后得到的模板庫(kù)
2.4.1 網(wǎng)絡(luò)結(jié)構(gòu)及訓(xùn)練方法
1)孿生網(wǎng)絡(luò)。孿生網(wǎng)絡(luò)由兩個(gè)子網(wǎng)絡(luò)組成,可以通過大量圖像對(duì)信息學(xué)習(xí)到兩個(gè)可比較的事物之間的相似性(李沐雨,2020)。在TBD跟蹤中,算法需要對(duì)跨幀之間的檢測(cè)目標(biāo)進(jìn)行大量相似性比對(duì),孿生網(wǎng)絡(luò)非常適用于這樣的相似性度量任務(wù),如圖9所示。
圖9 用孿生網(wǎng)絡(luò)進(jìn)行相似性度量的示例
2)網(wǎng)絡(luò)結(jié)構(gòu)。算法涉及兩個(gè)孿生網(wǎng)絡(luò)S1和S2。S1提取目標(biāo)的高層特征,在ResNet50(He等,2016)結(jié)構(gòu)的基礎(chǔ)上添加FC(fully convolution)層,將輸出特征變?yōu)? × 5的向量,用于目標(biāo)外觀特征提取,如圖10所示。S2提取目標(biāo)的低層特征,輸出1 × 5的向量來表示目標(biāo)特征,用于新目標(biāo)級(jí)聯(lián)篩查,如圖11所示。
圖10 S1的網(wǎng)絡(luò)結(jié)構(gòu)
圖11 S2的網(wǎng)絡(luò)結(jié)構(gòu)
3)低維度特征。本文使用小維度的輸出特征平衡不同信息的特征長(zhǎng)度。眾所周知,運(yùn)動(dòng)和位置特征通常很短。如果將其與長(zhǎng)外觀特征結(jié)合,就很難充分利用位置和運(yùn)動(dòng)特征。本文認(rèn)為位置和運(yùn)動(dòng)信息同等重要,應(yīng)該通過減少外觀特征的維度來強(qiáng)調(diào)它們。同時(shí),低維度的輸出特征可以降低后續(xù)數(shù)據(jù)關(guān)聯(lián)過程的復(fù)雜性,使程序運(yùn)行更快。
4)網(wǎng)絡(luò)訓(xùn)練。孿生網(wǎng)絡(luò)S1和S2均在ReID行人重識(shí)別數(shù)據(jù)集I-LIDS-VID(UK government benchmark datasets for automated surveillance)上訓(xùn)練,如圖12所示。S1和S2網(wǎng)絡(luò)能夠快速收斂,學(xué)習(xí)到了行人在不同場(chǎng)景下的相似性,在光照、視點(diǎn)、背景和遮擋等復(fù)雜場(chǎng)景下仍然能獲得可區(qū)分的目標(biāo)特征。
圖12 S1和S2的訓(xùn)練過程
訓(xùn)練時(shí),S1和S2的損失函數(shù)采用對(duì)比損失,具體為
(11)
式中,d和y分別代表待比較的兩個(gè)特征之間的歐氏距離和匹配程度。y= 1和y= 0分別表示樣本相似和不相似兩種狀態(tài)。m是設(shè)定閾值。當(dāng)樣本對(duì)相似時(shí),如果d變大,損失函數(shù)促使模型增大損失值;同理,當(dāng)樣本對(duì)不相似時(shí),如果d變小,模型增大損失值。
2.4.2 數(shù)據(jù)關(guān)聯(lián)方法
多目標(biāo)跟蹤的數(shù)據(jù)關(guān)聯(lián)大多采用匈牙利算法(Bae和Yoon,2014)。匈牙利算法可以求得二部圖的最大匹配。完美匹配一定是最大匹配,而最大匹配不一定是完美匹配。尤其是在多目標(biāo)跟蹤場(chǎng)景中,關(guān)聯(lián)的準(zhǔn)確度比關(guān)聯(lián)的數(shù)目更為重要,因此本文采用最小貪心掃描法對(duì)抗遮擋特征矩陣judge進(jìn)行數(shù)據(jù)關(guān)聯(lián),以提高關(guān)聯(lián)準(zhǔn)確度。
抗遮擋特征矩陣judge行表示目標(biāo)模板(軌跡)數(shù),用n1表示;列表示當(dāng)前幀中的目標(biāo)數(shù),用n2表示。最小貪心掃描法具體步驟如下:
1)選擇掃描基準(zhǔn)。若n1 2)順序掃描每一列,找到每一列中最小值的行標(biāo),將此行標(biāo)和對(duì)應(yīng)列標(biāo)的組合添加到成功關(guān)聯(lián)集合R。 3)在步驟2)得到的關(guān)聯(lián)集合R中,若有相同列標(biāo)對(duì)應(yīng)多個(gè)行標(biāo),即同一個(gè)當(dāng)前目標(biāo)關(guān)聯(lián)了多條軌跡,則選取特征值最小的關(guān)聯(lián)保留,其余的從R中刪除。 2.4.3 短時(shí)遮擋中的預(yù)測(cè) 在短時(shí)遮擋或目標(biāo)漏檢時(shí),目標(biāo)在幀間的運(yùn)動(dòng)距離很小,運(yùn)動(dòng)模型可以預(yù)測(cè)目標(biāo)的下一幀位置,方便進(jìn)行搜索和定位。本文采用線性恒速模型來近似每個(gè)物體的幀間位移。每個(gè)目標(biāo)的狀態(tài)建模為 X=[u,v,r,h,x′,y′,r′,h′] (12) 式中,u和v分別表示目標(biāo)中心點(diǎn)的橫、縱坐標(biāo),r和h是目標(biāo)矩形框的縱橫比和高度,x′、y′、r′、h′是前4個(gè)變量的變化速度。r在運(yùn)動(dòng)模型中是恒定的。當(dāng)檢測(cè)目標(biāo)和目標(biāo)模板成功關(guān)聯(lián)時(shí),使用檢測(cè)框信息更新對(duì)應(yīng)目標(biāo)的軌跡狀態(tài)。若關(guān)聯(lián)失敗,則利用式(12)中目標(biāo)的歷史狀態(tài)信息得到預(yù)測(cè)目標(biāo)的新位置和大小,進(jìn)而獲取預(yù)測(cè)目標(biāo)的特征和目標(biāo)模板特征進(jìn)行相似性度量。若距離值小于閾值P,則認(rèn)為找到目標(biāo),更新軌跡信息。經(jīng)多輪實(shí)驗(yàn),本文選取0.8作為P的最佳值。 本文提出的低視點(diǎn)下遮擋和尺度多變自適應(yīng)感知的多目標(biāo)跟蹤算法整體框架如圖13所示。算法的具體步驟如下: 圖13 算法流程圖 1)初始化。第1幀時(shí),建立目標(biāo)模板庫(kù)和初始軌跡數(shù)據(jù)。 2)目標(biāo)檢測(cè)。用YOLOv3(Redmon和Farhadi,2018)算法對(duì)當(dāng)前幀實(shí)現(xiàn)目標(biāo)檢測(cè),得到所有目標(biāo)的位置信息。 3)自適應(yīng)抗遮擋特征獲取。首先獲取所有目標(biāo)的外觀特征和運(yùn)動(dòng)特征,接著計(jì)算全局遮擋系數(shù),最后計(jì)算自適應(yīng)抗遮擋特征,保存在judge矩陣中。 4)數(shù)據(jù)關(guān)聯(lián)。將特征矩陣judge作為輸入,采用最小貪心掃描法實(shí)現(xiàn)數(shù)據(jù)關(guān)聯(lián)。 5)自適應(yīng)去干擾模板更新。對(duì)于成功關(guān)聯(lián)的目標(biāo),采用自適應(yīng)去干擾模板更新方法實(shí)現(xiàn)模板庫(kù)的更新。首先計(jì)算局部遮擋系數(shù),接著計(jì)算模板更新權(quán)重,最后根據(jù)模板更新權(quán)重,自適應(yīng)進(jìn)行模板庫(kù)更新。處理完后,轉(zhuǎn)步驟2)。 6)當(dāng)未成功關(guān)聯(lián)時(shí),分兩種情況進(jìn)行處理。如果是未關(guān)聯(lián)的當(dāng)前幀目標(biāo),啟動(dòng)新目標(biāo)級(jí)聯(lián)篩查機(jī)制;如果是未成功關(guān)聯(lián)的目標(biāo)軌跡,對(duì)該軌跡對(duì)應(yīng)的目標(biāo)根據(jù)上一幀位置進(jìn)行短時(shí)遮擋預(yù)測(cè)。 7)轉(zhuǎn)步驟2),進(jìn)行下一幀處理。 為了檢驗(yàn)提出算法的魯棒性,選取MOT16(multi-object tracking)(Dendorfer等,2021)數(shù)據(jù)集中低視點(diǎn)拍攝的視頻(存在頻繁遮擋的跟蹤場(chǎng)景)進(jìn)行針對(duì)性實(shí)驗(yàn)。選取的視頻為測(cè)試集中的MOT16-01、06、12和訓(xùn)練集中的MOT16-05、09、11。 采用MOT16數(shù)據(jù)集的標(biāo)準(zhǔn)評(píng)價(jià)指標(biāo)FP(false positives)、FN(false negatives)、MOTP(multiple object tracking precision)、ML(mostly lost tracklets)、IDF1(ID F1 score)、IDSW(ID switches)、MOTA(multiple object tracking accuracy)、MT(mostly tracked tracklets)、Frag(fragments)和Rcll(recall)衡量算法的跟蹤性能。在所有評(píng)價(jià)指標(biāo)中,多目標(biāo)跟蹤準(zhǔn)確度(MOTA)一直是評(píng)價(jià)多目標(biāo)跟蹤算法最重要的指標(biāo),如果不存在跟蹤錯(cuò)誤,則MOTA得分為1。 在低視點(diǎn)跟蹤場(chǎng)景下,本文算法對(duì)遮擋具有自動(dòng)感知的能力,可以根據(jù)全局遮擋系數(shù)動(dòng)態(tài)調(diào)整目標(biāo)特征結(jié)構(gòu)進(jìn)行數(shù)據(jù)關(guān)聯(lián),也可以根據(jù)局部遮擋系數(shù)對(duì)模板庫(kù)進(jìn)行自適應(yīng)去干擾更新,多項(xiàng)跟蹤指標(biāo)得到提升。為全面驗(yàn)證本文算法的性能,在MOT16低視點(diǎn)場(chǎng)景下與近年一些算法的跟蹤性能進(jìn)行對(duì)比,并對(duì)級(jí)聯(lián)篩查機(jī)制在新入目標(biāo)判定上的準(zhǔn)確度和有效性進(jìn)行實(shí)驗(yàn),同時(shí)進(jìn)行了兩組消融實(shí)驗(yàn),驗(yàn)證自適應(yīng)抗遮擋特征和自適應(yīng)去干擾模板更新機(jī)制在跟蹤性能中的作用。 3.2.1 MOT16低視點(diǎn)場(chǎng)景下的跟蹤性能結(jié)果對(duì)比 表2為本文算法在MOT16低視點(diǎn)拍攝視頻上的總體跟蹤性能。表3—表5為本文算法與STAM、ATAF、STRN、BLSTM_MTP_O和IADMR等典型算法在測(cè)試集MOT16-01、06、12上的跟蹤性能對(duì)比。表3中,本文算法的MOTP、FN和MT指標(biāo)值是6個(gè)算法中最好的,真實(shí)標(biāo)注軌跡被成功跟蹤的數(shù)目以及漏警數(shù)都比較理想,MOTA和Rcll僅次于ATAF。表4中,本文算法的MOTA、MOTP、FN、Rcll和MT指標(biāo)值是6個(gè)算法中最好的。表5中,本文算法的MOTA、MOTP、FN、Rcll和ML指標(biāo)值是6個(gè)算法中最好的。從這些指標(biāo)可以發(fā)現(xiàn),本文算法中提出的自適應(yīng)抗遮擋特征的區(qū)分度得到了一定提升,對(duì)遮擋頻繁復(fù)雜場(chǎng)景具有一定的適應(yīng)能力。 表2 本文算法在MOT16低視點(diǎn)視頻上的跟蹤性能 表3 不同方法在MOT16-01測(cè)試集上的實(shí)驗(yàn)結(jié)果對(duì)比 表4 不同方法在MOT16-06測(cè)試集上的實(shí)驗(yàn)結(jié)果對(duì)比 表5 不同方法在MOT16-12測(cè)試集上的實(shí)驗(yàn)結(jié)果對(duì)比 3.2.2 新目標(biāo)判定準(zhǔn)確度 級(jí)聯(lián)篩查機(jī)制的主要目的在于減少由遮擋帶來的目標(biāo)特征劇烈變化而認(rèn)定為“虛新入目標(biāo)”的錯(cuò)誤跟蹤現(xiàn)象。目前的多目標(biāo)跟蹤工作中鮮有此項(xiàng)工作,沒有可以參考借鑒的評(píng)價(jià)指標(biāo)。為了驗(yàn)證級(jí)聯(lián)篩查機(jī)制的有效性,本文提出目標(biāo)正確率作為評(píng)價(jià)指標(biāo)。該指標(biāo)用算法運(yùn)行后得到的總目標(biāo)數(shù)與實(shí)際目標(biāo)數(shù)真值的比值來表示,可在一定程度上度量算法在新入目標(biāo)判定上的有效性和準(zhǔn)確度。表6為本文算法的級(jí)聯(lián)篩查機(jī)制的目標(biāo)正確率。 表6 新目標(biāo)判定準(zhǔn)確度 從表6可知,本文算法的級(jí)聯(lián)篩查機(jī)制在MOT16-2、4、5、11號(hào)視頻上的目標(biāo)數(shù)準(zhǔn)確度高,能夠在一定程度上抑制遮擋帶來的“虛新入目標(biāo)”現(xiàn)象,在MOT16-9、10、13號(hào)視頻上的目標(biāo)準(zhǔn)確度仍然有待提高。 3.2.3 消融實(shí)驗(yàn) 自適應(yīng)抗遮擋特征和去干擾模板更新方法的目的在于增強(qiáng)數(shù)據(jù)關(guān)聯(lián)時(shí)所用特征對(duì)遮擋的感知和調(diào)整能力,以及減少歷史模板庫(kù)中帶遮擋模板對(duì)多跟蹤性能的影響,最終提高算法對(duì)遮擋的應(yīng)變和調(diào)節(jié)能力。為了驗(yàn)證上述兩項(xiàng)主要工作的有效性,在訓(xùn)練集MOT16-05、09、11上進(jìn)行了兩組消融實(shí)驗(yàn)。 1)自適應(yīng)抗遮擋特征消融實(shí)驗(yàn)。首先對(duì)外觀特征、運(yùn)動(dòng)特征、固定比例融合特征(0.5 × 外觀特征 + 0.5 × 運(yùn)動(dòng)特征)和本文提出的自適應(yīng)抗遮擋特征(外觀特征 + 運(yùn)動(dòng)特征 + ?自適應(yīng)調(diào)節(jié))的有效性進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果如表7所示??梢钥闯?,僅使用外觀特征或運(yùn)動(dòng)特征,MOTA值分別為49.4%和37.6%。通過固定比例融合特征,準(zhǔn)確率明顯更高,MOTA值為49.3%。通過式(7)計(jì)算得到的自適應(yīng)抗遮擋特征,MOTA達(dá)到51.2%。本文提出的抗遮擋特征在MOTA指標(biāo)上,相比混合特征、外觀特征和運(yùn)動(dòng)特征分別提升了1.9%、1.8% 和13.6%。值得注意的是,使用抗遮擋特征后,Rcll、FN、MT和ML等指標(biāo)也得到了改進(jìn)。這些實(shí)驗(yàn)數(shù)據(jù)對(duì)比證明了本文提出的自適應(yīng)抗遮擋功能的有效性。 表7 自適應(yīng)抗遮擋特征消融實(shí)驗(yàn) 2)自適應(yīng)去干擾模板更新方法消融實(shí)驗(yàn)。不同更新策略在提高跟蹤精度方面的效果如表8所示。這部分的消融實(shí)驗(yàn)都是在自適應(yīng)抗遮擋特征的基礎(chǔ)上完成的。實(shí)驗(yàn)對(duì)3種更新方法,即常規(guī)更新(不考慮目標(biāo)遮擋狀態(tài))、帶權(quán)重更新(常規(guī)更新+權(quán)重更新)和自適應(yīng)去干擾更新(常規(guī)更新+權(quán)重更新+自適應(yīng)去干擾)的效果進(jìn)行了對(duì)比。使用不考慮目標(biāo)遮擋狀態(tài)的常規(guī)更新策略,MOT為33.5%。使用式(8)的基于局部遮擋系數(shù)的帶權(quán)更新策略,MOTA為40.5%。使用式(9)的自適應(yīng)去干擾更新策略,準(zhǔn)確率明顯更高,MOTA為51.2%。 表8 自適應(yīng)去干擾模板更新消融實(shí)驗(yàn) 通過使用本文算法提出的自適應(yīng)去干擾更新策略,相比帶權(quán)更新策略和常規(guī)更新策略,MOTA分別提升了10.7%和17.7%。值得注意的是,本文提出的更新策略中,ID的切換次數(shù)顯著減少,從244降到119,表明提出的去干擾更新策略可以提高模板庫(kù)的清潔度和數(shù)據(jù)關(guān)聯(lián)的準(zhǔn)確性。Rcll、FN、MT、ML 和 Frag 等其他指標(biāo)也有明顯改善,進(jìn)一步證明了本文更新策略的有效性。 為驗(yàn)證本文算法在低視點(diǎn)頻繁遮擋和尺度多變場(chǎng)景下的跟蹤能力,對(duì)算法在部分遮擋、短時(shí)全遮擋和長(zhǎng)時(shí)全遮擋下的跟蹤結(jié)果進(jìn)行定性分析。 3.3.1 部分遮擋下的跟蹤結(jié)果 本文算法在部分遮擋下的跟蹤效果如圖14所示??梢钥闯觯?行的1、28號(hào)目標(biāo)、第2行的70號(hào)目標(biāo)、第3行的19、39號(hào)目標(biāo)在視頻序列上均發(fā)生了部分遮擋,遺失了部分目標(biāo)信息,目標(biāo)特征受到干擾,但本文算法中的自適應(yīng)抗遮擋機(jī)制能夠根據(jù)視頻幀的遮擋狀態(tài),動(dòng)態(tài)調(diào)整目標(biāo)特征的結(jié)構(gòu),使算法能夠更有效地利用剩余目標(biāo)信息,實(shí)現(xiàn)連續(xù)、準(zhǔn)確的定位和數(shù)據(jù)關(guān)聯(lián)。同時(shí),算法中的自適應(yīng)去干擾模板更新方法能夠去除這些半遮擋目標(biāo)對(duì)模板庫(kù)的影響,保持了模板庫(kù)的純凈。 圖14 部分遮擋下的跟蹤結(jié)果 3.3.2 短時(shí)全遮擋下的跟蹤結(jié)果 圖15是本文算法在短時(shí)全遮擋場(chǎng)景下的跟蹤效果。第1行的11號(hào)目標(biāo),因?yàn)檐囕v經(jīng)過,發(fā)生了25幀的短時(shí)全遮擋,在65幀再次出現(xiàn)時(shí),被本文算法成功跟蹤到。第2行的215號(hào)目標(biāo)在1 094幀時(shí)被208號(hào)目標(biāo)遮擋,發(fā)生了16幀的短時(shí)全遮擋,在1 110幀重新進(jìn)入時(shí)被算法成功跟蹤到。第3行的4號(hào)目標(biāo),被1號(hào)目標(biāo)遮擋,發(fā)生了21幀的短時(shí)全遮擋,在第53幀重新進(jìn)入監(jiān)控場(chǎng)景時(shí)被本文算法成功跟蹤到。這些不錯(cuò)的跟蹤結(jié)果得益于本文提出的自適應(yīng)抗遮擋特征,使目標(biāo)特征更加高效、有區(qū)分度。 圖15 短時(shí)全遮擋下的跟蹤結(jié)果 3.3.3 長(zhǎng)時(shí)全遮擋下的跟蹤結(jié)果 圖16為本文算法在長(zhǎng)時(shí)全遮擋下的跟蹤結(jié)果。第1行的1號(hào)目標(biāo)在111幀后被5、6號(hào)目標(biāo)完全遮擋,直到155幀時(shí)才重新出現(xiàn),其間共消失了44幀,本文提出的自適應(yīng)抗遮擋特征,仍然能夠準(zhǔn)確定位、跟蹤到了該目標(biāo)。第2行的8號(hào)目標(biāo)在92幀后被2號(hào)目標(biāo)完全遮擋,直到172幀時(shí)才再次出現(xiàn),其間消失了長(zhǎng)達(dá)80幀,同時(shí)該目標(biāo)還伴有尺度的不斷變化,但本文算法憑借魯棒的自適應(yīng)抗遮擋特征,重新找回了該長(zhǎng)時(shí)全遮擋目標(biāo),實(shí)現(xiàn)了準(zhǔn)確跟蹤,保持了軌跡的一致性。同時(shí),在全遮擋發(fā)生時(shí),本文提出的自適應(yīng)去干擾模板更新機(jī)制,避免了大量目標(biāo)在遮擋前和遮擋后出現(xiàn)的半遮擋狀態(tài)給模板庫(kù)帶來的影響,保證了模板庫(kù)的干凈、準(zhǔn)確。 圖16 長(zhǎng)時(shí)全遮擋下的跟蹤結(jié)果 本文針對(duì)低視點(diǎn)跟蹤下的遮擋問題,提出遮擋自適應(yīng)感知的多目標(biāo)跟蹤算法。首先根據(jù)每幀圖像的全局遮擋狀態(tài),采用自適應(yīng)抗遮擋特征,增強(qiáng)關(guān)聯(lián)特征對(duì)遮擋的感知和調(diào)整能力。同時(shí),采用級(jí)聯(lián)篩查機(jī)制,減少由遮擋引起目標(biāo)特征劇烈變化而認(rèn)定為“虛新入目標(biāo)”的錯(cuò)誤跟蹤現(xiàn)象。最后,根據(jù)目標(biāo)的局部遮擋狀態(tài),提出自適應(yīng)去干擾模板更新機(jī)制,降低了存在遮擋的模板對(duì)跟蹤性能的影響,進(jìn)一步提高了算法對(duì)遮擋的應(yīng)變和適應(yīng)能力。實(shí)驗(yàn)結(jié)果表明,本文提出的算法在低視點(diǎn)跟蹤場(chǎng)景下,跟蹤性能得到提升,大多數(shù)評(píng)價(jià)指標(biāo)優(yōu)于STAM、ATAF、STRN、BLSTM_MTP_O和IADMR等典型算法,對(duì)遮擋具有一定抵御作用。但是,本文算法沒有專門針對(duì)攝像機(jī)剛性運(yùn)動(dòng)的運(yùn)動(dòng)估計(jì)機(jī)制,當(dāng)攝像機(jī)快速運(yùn)動(dòng)時(shí),目標(biāo)運(yùn)動(dòng)特征可靠性降低,導(dǎo)致跟蹤性能下降。同時(shí),本文算法是基于數(shù)據(jù)關(guān)聯(lián)的跟蹤算法,對(duì)目標(biāo)檢測(cè)算法過度依賴,在目標(biāo)漏檢或誤檢時(shí),軌跡出現(xiàn)斷裂或交叉,這是該算法的兩個(gè)瓶頸。在今后工作中,將重點(diǎn)解決以上提到的兩個(gè)問題,進(jìn)一步提高跟蹤算法對(duì)實(shí)際跟蹤場(chǎng)景的適應(yīng)能力。2.5 算法流程
3 實(shí)驗(yàn)結(jié)果及分析
3.1 數(shù)據(jù)集及評(píng)價(jià)標(biāo)準(zhǔn)
3.2 定量分析
3.3 定性分析
4 結(jié) 論