李志華,于 楊
(河北工程大學(xué) 信息與電氣工程學(xué)院,河北 邯鄲 075000)
目標(biāo)跟蹤是計(jì)算機(jī)視覺(jué)領(lǐng)域研究的熱點(diǎn)之一,可在給定第一幀圖像目標(biāo)處于初始狀態(tài)的情況下,估計(jì)后續(xù)圖像序列每一幀的目標(biāo)位置[1]。目標(biāo)跟蹤算法可分為單目標(biāo)跟蹤(Single Object Tracking, SOT)與多目標(biāo)跟蹤(Multiple Object Tracking or Multiple Target Tracking, MOT or MTT)。對(duì)單目標(biāo)跟蹤而言,其主要任務(wù)為跟蹤視頻畫(huà)面中的單個(gè)目標(biāo),研究中心通常為設(shè)計(jì)高效的運(yùn)動(dòng)與外觀模型,解決諸如尺度變化、光照變化等問(wèn)題。對(duì)于多目標(biāo)跟蹤,其主要任務(wù)為同時(shí)跟蹤視頻畫(huà)面中的多個(gè)目標(biāo),為目標(biāo)分配ID并維持其ID的長(zhǎng)久有效性,得到目標(biāo)的運(yùn)動(dòng)軌跡[2]。需解決的問(wèn)題包括頻繁遮擋、軌跡初始化和終止、相似的外觀、多目標(biāo)間的相互影響等[3]。
多目標(biāo)跟蹤的主要應(yīng)用場(chǎng)景多為交通流監(jiān)控[4]、自動(dòng)駕駛[5]和虛擬現(xiàn)實(shí)[6]等,在以上場(chǎng)景中,多目標(biāo)跟蹤算法的主要任務(wù)是對(duì)眾多目標(biāo)同時(shí)進(jìn)行跟蹤,并為每個(gè)目標(biāo)分配并維持一個(gè)相應(yīng)的ID,記錄軌跡,這是僅用目標(biāo)檢測(cè)算法或單目標(biāo)跟蹤算法無(wú)法做到的。多目標(biāo)跟蹤算法根據(jù)初始化方法的不同可分為Detection-Based Tracking(DBT)和Detection-Free Tracking(DFT),前者為基于檢測(cè)的跟蹤,即優(yōu)先目標(biāo)檢測(cè),再將檢測(cè)結(jié)果與已存在的軌跡進(jìn)行匹配鏈接。后者則需要在第一幀手動(dòng)標(biāo)記定量目標(biāo),在后續(xù)幀定位物體。DFT的跟蹤模式僅能跟蹤已標(biāo)記目標(biāo),而DBT的跟蹤模式可以自動(dòng)發(fā)現(xiàn)新的目標(biāo),移除已消失的目標(biāo),更適應(yīng)如今多目標(biāo)跟蹤算法的應(yīng)用場(chǎng)景。傳統(tǒng)的基于檢測(cè)的多目標(biāo)跟蹤算法,如2008年提出的Nevatia算法[7],該算法將MOT問(wèn)題轉(zhuǎn)化為3層逐步細(xì)化的數(shù)據(jù)關(guān)聯(lián)問(wèn)題:最底層通過(guò)樣本和樣本的關(guān)聯(lián)實(shí)現(xiàn)簡(jiǎn)單的目標(biāo)檢測(cè);中間層使用最大化后驗(yàn)概率方法實(shí)現(xiàn)軌跡初步拼接;最高層使用EM算法優(yōu)化中間層檢測(cè)結(jié)果得到多目標(biāo)跟蹤軌跡。該算法基于底層目標(biāo)檢測(cè),利用層次遞進(jìn)的思想解決多目標(biāo)跟蹤問(wèn)題,但檢測(cè)器較為簡(jiǎn)單,且場(chǎng)景預(yù)設(shè)為單出入口,局限性較大。同時(shí)算法內(nèi)部需設(shè)定的參數(shù)過(guò)多,如EM算法方差、最大時(shí)間差等,實(shí)現(xiàn)同等效果較為困難。近年來(lái),隨著深度學(xué)習(xí)的快速進(jìn)步,目標(biāo)檢測(cè)算法的精度不斷提升[8-9],基于檢測(cè)的多目標(biāo)跟蹤算法得到了長(zhǎng)足的發(fā)展[10]。2016年BEWLEY等人提出的SORT算法[11]憑借其出色的跟蹤性能獲得了極大關(guān)注,標(biāo)志著利用深度學(xué)習(xí)目標(biāo)檢測(cè)器的多目標(biāo)跟蹤方法逐漸崛起。
基于檢測(cè)的多目標(biāo)跟蹤可以分為在線跟蹤(Online)與離線跟蹤(Offline)。在線多目標(biāo)跟蹤是一種逐幀漸進(jìn)的跟蹤方式,與人眼實(shí)時(shí)跟蹤目標(biāo)過(guò)程類(lèi)似,首先要對(duì)每個(gè)運(yùn)動(dòng)目標(biāo)進(jìn)行識(shí)別確認(rèn)(目標(biāo)檢測(cè)),然后對(duì)其下一步的行動(dòng)進(jìn)行預(yù)測(cè)(軌跡預(yù)測(cè)),最終根據(jù)目標(biāo)的運(yùn)動(dòng)方向(運(yùn)動(dòng)模型)、外觀形體(外觀模型)等特征與之前的軌跡進(jìn)行關(guān)聯(lián)(數(shù)據(jù)關(guān)聯(lián)匹配)。可以看出,在線多目標(biāo)跟蹤僅僅是將這一幀的信息與先前的信息或軌跡關(guān)聯(lián),且必須具備實(shí)時(shí)性,即運(yùn)行速度可以達(dá)到視頻正常的播放速度(通常算法速度達(dá)到20 FPS即可算作實(shí)時(shí)算法)。離線多目標(biāo)跟蹤的輸入是一段完整的視頻,并已獲得了目標(biāo)檢測(cè)結(jié)果。與在線多目標(biāo)跟蹤算法逐幀漸進(jìn)方式不同的是,離線多目標(biāo)跟蹤可獲取全局信息后再進(jìn)行匹配關(guān)聯(lián)??衫斫鉃閷⒛繕?biāo)檢測(cè)算法的結(jié)果看作一個(gè)集合,將軌跡看作集合的一種劃分,多目標(biāo)跟蹤的任務(wù)可化為子集優(yōu)化的任務(wù)。前者的優(yōu)點(diǎn)在于可實(shí)時(shí)輸出,但其易受目標(biāo)遮擋和檢測(cè)器漏檢、誤檢的影響。后者的輸出從理論上獲得了全局最優(yōu)的結(jié)果,但實(shí)時(shí)性較差。
如今受限于多目標(biāo)跟蹤算法應(yīng)用場(chǎng)景,在線多目標(biāo)跟蹤算法更受學(xué)者們的關(guān)注。本文介紹的算法性能參數(shù)均來(lái)自MOT16官方數(shù)據(jù),如MOTA、IDF1、IDs、FPS。MOT16是2016年提出的多目標(biāo)跟蹤MOT Challenge系列的衡量多目標(biāo)檢測(cè)跟蹤方法標(biāo)準(zhǔn)的數(shù)據(jù)集,由于目標(biāo)檢測(cè)算法的精度對(duì)跟蹤效果影響較大,所以該數(shù)據(jù)集共有2個(gè)性能排行,分別為使用公開(kāi)檢測(cè)器在MOT16上的性能指標(biāo),與使用私人檢測(cè)器在MOT16上的性能指標(biāo)。
2016年 提 出 的SORT(Simple Online and Realtime Tracking, SORT)算法是一種在線實(shí)時(shí)多目標(biāo)跟蹤算法,雖然其框架較為簡(jiǎn)單,但在算法提出的當(dāng)年,其新穎的想法與出色的性能便引起了業(yè)界的廣泛關(guān)注。SORT算法主要由目標(biāo)檢測(cè)模塊與數(shù)據(jù)關(guān)聯(lián)模塊組成。目標(biāo)檢測(cè)模塊的主要任務(wù)是對(duì)輸入的視頻進(jìn)行特定類(lèi)別的目標(biāo)檢測(cè)(如運(yùn)動(dòng)目標(biāo)或人、車(chē)輛等)。數(shù)據(jù)關(guān)聯(lián)模塊主要采用卡爾曼濾波算法與匈牙利算法,主要任務(wù)是判定不同幀中所檢測(cè)目標(biāo)是否為同一對(duì)象。
SORT算法使用Faster R-CNN[15]進(jìn)行目標(biāo)檢測(cè),并為每一個(gè)檢測(cè)結(jié)果的狀態(tài)進(jìn)行建模。該檢測(cè)算法選用VOC數(shù)據(jù)集上的預(yù)訓(xùn)練模型,只關(guān)注置信度大于0.5的行人目標(biāo),實(shí)驗(yàn)結(jié)果表明,檢測(cè)質(zhì)量的提升可使跟蹤性能提高18.9%。在數(shù)據(jù)關(guān)聯(lián)方面,SORT算法將檢測(cè)目標(biāo)的狀態(tài)模型輸入卡爾曼濾波器[12]中進(jìn)行預(yù)測(cè)與更新,濾波器依據(jù)當(dāng)前目標(biāo)檢測(cè)算法所得的檢測(cè)位置與上一幀濾波器輸出的目標(biāo)預(yù)測(cè)位置計(jì)算當(dāng)前最佳位置,實(shí)現(xiàn)“去噪”[13]。SORT算法將檢測(cè)框和跟蹤框的IOU作為匈牙利算法cost矩陣(損失矩陣)的輸入[14],得到檢測(cè)框和跟蹤框的匹配結(jié)果后,判斷檢測(cè)結(jié)果與軌跡是否匹配成功。該算法復(fù)雜度低,框架結(jié)構(gòu)簡(jiǎn)單,運(yùn)行速度快,雖然數(shù)據(jù)關(guān)聯(lián)方面模型較為簡(jiǎn)單,易受遮擋,但為后續(xù)許多優(yōu)秀算法的提出做了鋪墊。SORT算法框架如圖1所示。
圖1 SORT算法框架
2017年提出的DeepSORT[16]算法是針對(duì)SORT算法的一次改進(jìn)。在數(shù)據(jù)關(guān)聯(lián)方面引入外觀模型的參考,從而提高關(guān)聯(lián)的魯棒性。SORT算法對(duì)于遮擋、姿態(tài)變換未做處理,導(dǎo)致IDs較高。DeepSORT算法融合了運(yùn)動(dòng)模型與外觀模型,并為2種模型分配了不同權(quán)重,綜合計(jì)算目標(biāo)與軌跡的匹配程度[17]。運(yùn)動(dòng)模型:以檢測(cè)框間的馬氏距離為參考,即通過(guò)計(jì)算檢測(cè)位置和平均跟蹤位置間的標(biāo)準(zhǔn)差對(duì)狀態(tài)測(cè)量的不確定性進(jìn)行考慮。外觀模型:利用預(yù)先設(shè)計(jì)的CNN網(wǎng)絡(luò)提取1個(gè)描述目標(biāo)邊界框(bbox)內(nèi)物體外觀的128維向量,利用不同bbox間特征向量的最小余弦值作為參考,并將這一向量融入損失矩陣的構(gòu)造,使匈牙利算法的匹配結(jié)果更可靠。經(jīng)驗(yàn)證,相對(duì)SORT算法而言,DeepSORT算法在MOT16數(shù)據(jù)集私人檢測(cè)器的性能表現(xiàn)上,MOTA值提升幅度不大,但I(xiàn)Dswitch頻率降低了45%,速度接近實(shí)時(shí)要求(20 FPS)。
MOTDT[17]算法整體框架和DeepSORT相似。SORT算法及DeepSORT算法進(jìn)行軌跡匹配時(shí),從檢測(cè)和跟蹤的輸出中收集候選項(xiàng)作為集合,輸入到匹配機(jī)制,導(dǎo)致候選集合中存在冗余候選項(xiàng)。針對(duì)該問(wèn)題,MOTDT算法通過(guò)融合對(duì)象分類(lèi)器和跟蹤器置信度制定了統(tǒng)一的軌跡評(píng)分機(jī)制,將產(chǎn)生的檢測(cè)框和預(yù)測(cè)框的標(biāo)準(zhǔn)置信度作為非最大抑制(NMS)輸入,從而獲得無(wú)冗余候選項(xiàng)。引入軌跡評(píng)分機(jī)制,對(duì)NMS的每一個(gè)輸入進(jìn)行評(píng)分,利用卡爾曼濾波預(yù)測(cè)彌補(bǔ)漏檢。
數(shù)據(jù)關(guān)聯(lián)方面,MOTDT算法為改善擁擠場(chǎng)景中的類(lèi)別遮擋問(wèn)題,融合外觀表示和空間信息,將現(xiàn)有軌道與所選候選項(xiàng)分層關(guān)聯(lián)。外觀表示與DeepSORT算法相似,通過(guò)深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練行人重識(shí)別(Re-ID)數(shù)據(jù)集解決當(dāng)目標(biāo)重新出現(xiàn)時(shí)的檢測(cè)問(wèn)題,即使用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)得到對(duì)象外觀信息,提取相應(yīng)特征向量,再利用獲得的特征間距離確定相似性。行人重識(shí)別(Re-ID)指在局部位置失去跟蹤目標(biāo),也可在目標(biāo)再次出現(xiàn)時(shí)將目標(biāo)與之前的軌跡關(guān)聯(lián)。以往行人重識(shí)別的難點(diǎn)在于長(zhǎng)距離跟蹤情況下,相似度高的行人仍有可能不是同一目標(biāo)。經(jīng)驗(yàn)證,在IDF1和IDs方面,Re-ID特征優(yōu)于傳統(tǒng)的手工特征。同樣,通過(guò)從對(duì)應(yīng)的數(shù)據(jù)集中學(xué)習(xí)外觀表示,例如車(chē)輛重新識(shí)別,可以輕松將提出的跟蹤框架轉(zhuǎn)移到其他類(lèi)別[18]。分層關(guān)聯(lián)主要體現(xiàn)在優(yōu)先將候選集和候選項(xiàng)基于空間信息和外觀信息與現(xiàn)有軌跡進(jìn)行關(guān)聯(lián)匹配,余下的候選項(xiàng)和未關(guān)聯(lián)的軌跡再基于IOU進(jìn)行匹配。該算法在MOTA2016數(shù)據(jù)集上的結(jié)果見(jiàn)表1所列(各算法數(shù)據(jù)均使用公開(kāi)檢測(cè)器)。
表1 MOTDT算法與其他算法在數(shù)據(jù)集上運(yùn)行結(jié)果對(duì)比
實(shí)驗(yàn)結(jié)果表明,跟蹤器速度可以達(dá)到實(shí)時(shí)要求,并且在大多數(shù)指標(biāo)上都優(yōu)于同年現(xiàn)有的在線跟蹤器,尤其對(duì)IDF1而言,同比其他算法有了顯著提升。采用深度學(xué)習(xí)的Re-ID特征作為外觀模型參考,增強(qiáng)了識(shí)別能力,且該算法的計(jì)算復(fù)雜度低,運(yùn)行速度可達(dá)20.6 FPS。
當(dāng)前的主流多目標(biāo)跟蹤系統(tǒng)通常是基于檢測(cè)的跟蹤方式。系統(tǒng)中存在檢測(cè)模型與嵌入模型(Embedding model),如DeepSORT算法中提出的Re-ID,2個(gè)模型分開(kāi)且獨(dú)立,簡(jiǎn)稱(chēng)為SDE。2019年提出的JED算法認(rèn)為這種運(yùn)行方式降低了效率,于是提出了一種新的MOT系統(tǒng),將檢測(cè)模型和嵌入模型整合為一個(gè)模型,即JDE模型[19]。
JDE算法基于YOLOv3[20]和MOTDT開(kāi)發(fā),網(wǎng)絡(luò)部分占比較大,需在特征圖中提取一個(gè)嵌入向量。為提高時(shí)間效率,JDE算法在單個(gè)網(wǎng)絡(luò)中同時(shí)進(jìn)行檢測(cè)分支與身份嵌入分支的運(yùn)算。檢測(cè)分支與標(biāo)準(zhǔn)的RPN相似,RPN即候選區(qū)域網(wǎng)絡(luò),直接作用在特征圖上,用來(lái)生成候選區(qū)域。主要改進(jìn)點(diǎn)為根據(jù)目標(biāo)數(shù)量、比例和縱橫比設(shè)計(jì)檢測(cè)框,使其能夠適應(yīng)目標(biāo),同時(shí)精確前景、背景分配使用的雙重閾值。嵌入模型方面,因相同ID的樣本接近,而不同ID的樣本相距很遠(yuǎn),所以采用類(lèi)似交叉熵的triplet loss[21]進(jìn)行樣本分配。為平衡損失權(quán)重,JDE算法采用自動(dòng)學(xué)習(xí)損失權(quán)重方案[22],通過(guò)學(xué)習(xí)一組輔助參數(shù)自動(dòng)對(duì)非均勻損失加權(quán)。JDE算法在MOT16數(shù)據(jù)集私人檢測(cè)器的性能表現(xiàn)較SDE方法提升不大,但速度方面提升明顯,尤其在擁擠或復(fù)雜場(chǎng)景,JDE算法的速度優(yōu)勢(shì)突出。以典型SDE的DeepSORT算法為例,JDE算法在MOTA指標(biāo)上較DeepSORT算法高3%,運(yùn)行速度達(dá)18.8 FPS,接近實(shí)時(shí)速度,圖像分辨率達(dá)1 088×608。
One-shot MOT的核心思想是在單個(gè)網(wǎng)絡(luò)中同時(shí)實(shí)現(xiàn)目標(biāo)檢測(cè)和身份嵌入,通過(guò)共享大部分計(jì)算來(lái)減少推理時(shí)間,典型的算法如JDE算法與MOTS[23]算法。但One-shot MOT的跟蹤精度通常低于SDE MOT的跟蹤精度,2個(gè)模塊結(jié)合后,精度降低的同時(shí)會(huì)導(dǎo)致IDs上升。
針對(duì)這一問(wèn)題,2020年Y. Zhang等人提出了一種基于One-shot MOT的Fair[24]算法。該算法提出One-shot MOT系統(tǒng)是基于檢測(cè)框的,但這種方式通常存在一個(gè)問(wèn)題,即同一目標(biāo)可能同時(shí)存在多個(gè)檢測(cè)框,會(huì)影響跟蹤結(jié)果。在Fair算法中,作者采用anchor-free的方式降低檢測(cè)框?qū)e-ID的影響,通過(guò)在高分辨率的feature map上估計(jì)對(duì)象中心,使Re-ID特征能夠更好地與對(duì)象中心對(duì)齊。在Re-ID特征維度方面,改用多尺度融合方式提高跟蹤魯棒性。該算法提出目標(biāo)檢測(cè)分支與身份嵌入分支并行運(yùn)算來(lái)完成目標(biāo)檢測(cè)和Re-ID任務(wù)的集成。實(shí)驗(yàn)數(shù)據(jù)表明,與同作為One-shot MOT系統(tǒng)的JDE算法相比,F(xiàn)air算法的MOTA值與速度有顯著提升,同時(shí)IDs較高的問(wèn)題也得以抑制,完全可滿足實(shí)時(shí)性要求。
在線多目標(biāo)跟蹤算法輸入為視頻幀,算法運(yùn)行方式為逐幀進(jìn)行,僅利用上一幀與當(dāng)前幀的信息進(jìn)行檢測(cè)、預(yù)測(cè)、關(guān)聯(lián),實(shí)現(xiàn)跟蹤任務(wù)。本文主要介紹的在線算法有目前工業(yè)界應(yīng)用較為廣泛的SORT、DeepSORT算法,基于這2種算法框架改進(jìn)MOTDT、JDE算法,以及2020年提出的Fair算法。表2為以上在線多目標(biāo)跟蹤算法使用私人檢測(cè)器在MOT16數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。
表2 在線多目標(biāo)跟蹤算法性能對(duì)比
POI算法[25]是一種離線多目標(biāo)跟蹤算法,結(jié)合了目標(biāo)檢測(cè)和基于深度學(xué)習(xí)的外觀特征?;舅悸罚涸诿恳粠妮斎肷?,用檢測(cè)算法檢測(cè)行人的位置,然后利用行人檢測(cè)框的外觀特征進(jìn)行前后幀行人框的匹配,從而實(shí)現(xiàn)對(duì)行人的跟蹤。
該算法使用Faster R-CNN作為目標(biāo)檢測(cè)算法,選用隨機(jī)采樣動(dòng)態(tài)尺度的多尺度訓(xùn)練策略,此外采用skip pooling和multi-region策略聯(lián)合不同尺度和水平層次的特征。經(jīng)驗(yàn)證,采用該策略可有效降低FN+FP的值(即準(zhǔn)確率的分母)。嵌入模型訓(xùn)練方面,同時(shí)使用softmax loss和triplet loss。2種損失函數(shù)的設(shè)定是為了更加清晰地區(qū)分目標(biāo)間的表觀特征。相似度的判斷以特征間的余弦距離為參考,相關(guān)為1,無(wú)關(guān)為0。POI算法中的離線跟蹤器是基于H2T[26]算法改進(jìn)的,雖然該算法提出時(shí)間較早,但其在MOT16數(shù)據(jù)集上的性能表現(xiàn)依舊良好,MOTA值可達(dá)66.1。
IOU算法[27]是一種離線多目標(biāo)追蹤算法。該算法指出,隨著目標(biāo)檢測(cè)算法精度的不斷提高,當(dāng)檢測(cè)精度與視頻幀率較高時(shí),可以結(jié)合簡(jiǎn)單的目標(biāo)檢測(cè)算法與IOU,再通過(guò)設(shè)定閾值來(lái)判斷前景與背景即可完成目標(biāo)跟蹤任務(wù)。即在高幀率(25 FPS)、高精度的目標(biāo)檢測(cè)算法情況下,結(jié)合檢測(cè)與時(shí)間步長(zhǎng)間的空間重疊完成跟蹤。該算法優(yōu)缺點(diǎn)明顯,但由于未引入任何幀間信息、運(yùn)動(dòng)模型、外觀模型,漏檢和錯(cuò)檢問(wèn)題難以解決,若出現(xiàn)頻繁遮擋、目標(biāo)形變的情況,會(huì)導(dǎo)致ID頻繁切換,且極其依賴(lài)目標(biāo)檢測(cè)算法的性能。但該算法的優(yōu)點(diǎn)是框架簡(jiǎn)單、速度快,若設(shè)定在某些環(huán)境簡(jiǎn)單的情況下,效果明顯。該算法在MOT16數(shù)據(jù)集上速度約3 000 FPS,且該策略對(duì)于結(jié)合檢測(cè)和分割有一定啟發(fā),如果能找到高速的追蹤方法,將檢測(cè)和追蹤進(jìn)行結(jié)合效果更佳。
LMP[28]算法的提出雖距今已有一段時(shí)間,但在MOT16數(shù)據(jù)集上表現(xiàn)仍出色。該算法主要針對(duì)遮擋影響及行人重識(shí)別展開(kāi)。LMP算法提出一種新結(jié)構(gòu),結(jié)合深度網(wǎng)絡(luò)中提取的整體表示特征和從最先進(jìn)的姿態(tài)估計(jì)模型中抽取的身體姿態(tài)進(jìn)行判斷,從而提高準(zhǔn)確率。主要?jiǎng)?chuàng)新點(diǎn)在于:數(shù)據(jù)關(guān)聯(lián)方面,LMP算法是在最小代價(jià)多分割問(wèn)題(MP)基礎(chǔ)上改進(jìn)的,將數(shù)據(jù)的關(guān)聯(lián)匹配看作一種基于圖的分解、聚類(lèi)問(wèn)題。通過(guò)設(shè)置一個(gè)基于邊的目標(biāo)函數(shù)來(lái)選擇能最大化相同目標(biāo)和不同目標(biāo)概率的分量對(duì),從而完成行人重識(shí)別的任務(wù)并改善遮擋影響,有效降低IDs。經(jīng)實(shí)驗(yàn)驗(yàn)證,LMP算法在2016數(shù)據(jù)集私人檢測(cè)器上性能名列前茅,MOTA可達(dá)71.0。
在實(shí)際應(yīng)用系統(tǒng)中,短期線索跟蹤的特點(diǎn)是基于附近幀進(jìn)行預(yù)測(cè)、更新,只包含當(dāng)前幀的信息,易受遮擋和相似目標(biāo)影響,但表現(xiàn)效果較好。與之相對(duì)的,長(zhǎng)期線索則包含軌跡的運(yùn)動(dòng)外觀等特征,能應(yīng)對(duì)一定遮擋和相似目標(biāo)的影響,但表現(xiàn)力不及短期線索。2019年提出的基于多線索的多目標(biāo)跟蹤算法[29]融合了長(zhǎng)期線索與短期線索的優(yōu)點(diǎn),并在一個(gè)網(wǎng)絡(luò)結(jié)構(gòu)中突出兩者的優(yōu)點(diǎn)以應(yīng)對(duì)MOT場(chǎng)景中的復(fù)雜情況。
該系統(tǒng)創(chuàng)新點(diǎn)在于分別設(shè)立SOT網(wǎng)絡(luò)與Re-ID網(wǎng)絡(luò)來(lái)承載短期線索與長(zhǎng)期線索。設(shè)定切換感知分類(lèi)器(SAC)以提升匹配效率,該分類(lèi)器可利用目標(biāo)的短期和長(zhǎng)期線索、檢測(cè)結(jié)果和切換器來(lái)預(yù)測(cè)檢測(cè)結(jié)果是否與目標(biāo)匹配。SOT網(wǎng)絡(luò)的搭建基于單目標(biāo)跟蹤器SiamRPN,使用私有行人數(shù)據(jù)調(diào)整網(wǎng)絡(luò),根據(jù)匹配情況計(jì)算跟蹤質(zhì)量,該網(wǎng)絡(luò)具備部分發(fā)現(xiàn)和識(shí)別功能,以彌補(bǔ)其他組件產(chǎn)生的紕漏。該算法在MOT16數(shù)據(jù)集上無(wú)論采用公開(kāi)檢測(cè)器還是私人檢測(cè)器,結(jié)果都比較理想,采用私人檢測(cè)器時(shí)MOTA值可達(dá)71.2。
不同于在線多目標(biāo)跟蹤算法的逐幀關(guān)聯(lián)策略,離線多目標(biāo)跟蹤算法輸入通常為整段視頻,在全局搜索最佳匹配,所以相較于在線方式,離線多目標(biāo)跟蹤在跟蹤準(zhǔn)確度方面具有優(yōu)勢(shì)。通常,在MOT數(shù)據(jù)集的性能排名中,名列前茅的多為離線方法。表3為本文所闡述離線算法在MOT16數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,檢測(cè)器均為私人檢測(cè)器。
表3 離線多目標(biāo)跟蹤算法性能對(duì)比
基于檢測(cè)的多目標(biāo)跟蹤是通過(guò)目標(biāo)檢測(cè)算法獲取一個(gè)目標(biāo)集合,然后將集合內(nèi)的目標(biāo)進(jìn)行數(shù)據(jù)關(guān)聯(lián),從而判定不同幀中多個(gè)目標(biāo)是否為同一對(duì)象來(lái)進(jìn)行跟蹤。影響多目標(biāo)跟蹤算法優(yōu)劣的最大因素是數(shù)據(jù)關(guān)聯(lián)。無(wú)論在線模式還是離線模式,提高數(shù)據(jù)關(guān)聯(lián)的效率都可有效提升跟蹤準(zhǔn)確度。運(yùn)動(dòng)模型、外觀模型等可看作是輔助解決關(guān)聯(lián)問(wèn)題的元件。
基于當(dāng)前目標(biāo)檢測(cè)算法在多目標(biāo)跟蹤算法中的應(yīng)用,未來(lái)向以下幾個(gè)方向傾斜:
(1)性能更加優(yōu)越的目標(biāo)檢測(cè)算法:當(dāng)前大多數(shù)優(yōu)秀的多目標(biāo)跟蹤算法都是基于檢測(cè)的多目標(biāo)追蹤,如本文提出的IOU算法,若未來(lái)出現(xiàn)了性能更優(yōu)越的檢測(cè)算法,則多目標(biāo)跟蹤任務(wù)完全可以轉(zhuǎn)化為目標(biāo)檢測(cè)任務(wù)與分割任務(wù)。
(2)更有效的特征:MOT系統(tǒng)中所需提取的特征通??梢苑譃閮深?lèi),一類(lèi)是傳統(tǒng)方法,通過(guò)手工設(shè)計(jì)法提取特征,比較有代表性的是KLT[30]算法;另一類(lèi)是深度學(xué)習(xí)出現(xiàn)后,基于CNN進(jìn)行特征提取,本文敘述的Re-ID模塊均基于深度學(xué)習(xí)的特征提取。對(duì)MOT系統(tǒng)而言,良好的特征會(huì)凸顯不同目標(biāo)匹配時(shí)的差異,簡(jiǎn)化數(shù)據(jù)關(guān)聯(lián),降低設(shè)定參數(shù)的難度,還可以進(jìn)一步融合多種特征,提高跟蹤質(zhì)量。
(3)場(chǎng)景適應(yīng)性:利用深度強(qiáng)化學(xué)習(xí)來(lái)學(xué)習(xí)跟蹤場(chǎng)景的適應(yīng)性,例如高峰時(shí)期的地鐵車(chē)站、商場(chǎng)等,大多數(shù)目標(biāo)體積較小或被大面積遮擋,因此難以跟蹤。場(chǎng)景理解的分析結(jié)果可以提供上下文信息和場(chǎng)景結(jié)構(gòu),如果將其更好地融入MOT算法中,將有助于解決跟蹤問(wèn)題。
(4)用深度學(xué)習(xí)指導(dǎo)關(guān)聯(lián)問(wèn)題:基于檢測(cè)的多目標(biāo)跟蹤算法與Re-ID模塊利用深度學(xué)習(xí)方法提取有效特征,而最核心的數(shù)據(jù)關(guān)聯(lián)模塊目前需要進(jìn)行更多的研究才可以判斷深度學(xué)習(xí)在數(shù)據(jù)關(guān)聯(lián)方面是否有效。
現(xiàn)如今,利用深度學(xué)習(xí)解決數(shù)據(jù)關(guān)聯(lián)的方法通常是端到端方式[31],即數(shù)據(jù)關(guān)聯(lián)的流程并不進(jìn)行人為的子問(wèn)題劃分,而是完全交給深度學(xué)習(xí)模型學(xué)習(xí)從原始數(shù)據(jù)到期望輸出的映射。在MOT系統(tǒng)中表現(xiàn)為向端到端網(wǎng)絡(luò)中輸入2張圖片,查看輸出是否匹配,特征提取等步驟完全由網(wǎng)絡(luò)完成。
總而言之,性能出色的目標(biāo)檢測(cè)算法會(huì)優(yōu)化目標(biāo)樣本集,有效的特征會(huì)簡(jiǎn)化關(guān)聯(lián)問(wèn)題與調(diào)參問(wèn)題,跟蹤場(chǎng)景的適應(yīng)性算法可以適應(yīng)多種環(huán)境變化,而單獨(dú)的數(shù)據(jù)關(guān)聯(lián)階段是否也可以采用深度學(xué)習(xí)的方法則需要進(jìn)一步探討。目前,針對(duì)在線基于檢測(cè)的多目標(biāo)跟蹤算法,進(jìn)步的難點(diǎn)在于如何在保證運(yùn)算速度的同時(shí)提升精度。無(wú)論是利用多任務(wù)學(xué)習(xí)的Oneshot MOT,還是檢測(cè)與嵌入模塊分開(kāi)運(yùn)行的SDE MOT,都具備明顯的優(yōu)點(diǎn)與不足,而作為2種MOT系統(tǒng)的交叉任務(wù),Re-ID模塊必定是未來(lái)發(fā)展的重中之重。
本文系統(tǒng)介紹了基于檢測(cè)的多目標(biāo)跟蹤算法的研究進(jìn)展,主要分析了基于檢測(cè)的在線多目標(biāo)跟蹤算法與離線多目標(biāo)跟蹤算法存在的問(wèn)題和現(xiàn)有改進(jìn)方案?;跈z測(cè)的多目標(biāo)跟蹤算法在生活中發(fā)揮著日益重要的作用,但也會(huì)不斷遇到新的困難與挑戰(zhàn)?;跈z測(cè)的多目標(biāo)跟蹤算法依舊會(huì)是當(dāng)下以及今后計(jì)算機(jī)視覺(jué)領(lǐng)域的熱點(diǎn)研究課題。