免錨檢測的行人多目標跟蹤算法

2022-05-19 13:28:26單兆晨黃丹丹耿振野

計算機工程與應用 2022年10期

單兆晨，黃丹丹，耿振野，劉智，2

1.長春理工大學電子信息工程學院，長春 130022 2.空間光電技術(shù)國家地方聯(lián)合工程研究中心，長春 130022

多目標跟蹤（multiple object tracking，MOT）是計算機視覺領域的重要研究課題之一。根據(jù)圖像幀處理模式的不同，多目標跟蹤分為在線和離線跟蹤兩種方式，其中在線跟蹤方法具有更好的實時性和應用價值，成為目前研究的主要方向[1-2]。然而，由于在線跟蹤無法參考后續(xù)圖像幀信息來獲得當前幀跟蹤的最優(yōu)解，跟蹤目標被遮擋后重新識別會出現(xiàn)嚴重的目標丟失以及軌跡跟蹤異常問題，導致跟蹤準確性出現(xiàn)瓶頸。如何提升跟蹤算法的抗遮擋能力同時兼顧在線跟蹤的實時性，成為當前多目標跟蹤研究的難題。

近年來，諸多學者在多目標跟蹤問題上采用的是基于檢測（tracking-by-detection）的策略。Bewley等[3]提出了一種簡單且實時的多目標跟蹤（simple online and realtime tracking，SORT）算法，引入線性速度模型對目標進行軌跡預測，度量檢測框和跟蹤框的交并比（intersectionover-union，IOU）距離，最后通過匈牙利算法完成數(shù)據(jù)關聯(lián)，算法對多目標的跟蹤速度較快，但是相似性度量方法單一，跟蹤結(jié)果中目標ID的變換次數(shù)多，跟蹤準確性差。Wojke等[4]針對SORT存在的缺陷提出了DeepSort算法，引入離線訓練的行人重識別（person re-identification，ReID）模型[5]來提取深度表觀特征，跟蹤魯棒性顯著提升，但串聯(lián)兩個深度學習模型使得計算量急劇增加，算法的實時性較差。

當前一階段和兩階段的檢測器均采用基于錨框的方法，從預設錨點框回歸目標檢測框，在檢測時針對遮擋目標會出現(xiàn)錨框鋪設重疊的問題[6-7]。此外，當對象移速較快時，將ReID特征直接嵌入基于錨框的檢測方法會產(chǎn)生錨框偏移，使得表觀特征提取產(chǎn)生較大偏差，從而導致跟蹤失敗。

為了提升跟蹤性能并解決錨框檢測不適合ReID特征提取的問題，本文的主要工作有三方面：（1）設計免錨目標檢測模型，并在模型中嵌入ReID表觀特征輸出，構(gòu)建了特征共享的一段式網(wǎng)絡，解決了使用深度表觀特征需要額外串聯(lián)網(wǎng)絡從而導致實時性差的問題。（2）針對行人密集跟蹤場景中因遮擋導致身份頻繁切換的問題，提出通過加權(quán)多特征融合的方法構(gòu)造相似性度量矩陣用于檢測與跟蹤的數(shù)據(jù)關聯(lián)，采用更全面的度量函數(shù)提升算法跟蹤魯棒性。（3）提出軌跡狀態(tài)更新算法，確保跟蹤穩(wěn)定的軌跡優(yōu)先更新的前提下，同時提升存活期內(nèi)消失軌跡的關聯(lián)準確性。

1 跟蹤算法整體框架

本文的多目標跟蹤算法采用在線跟蹤的圖像幀處理方式，按照功能劃分可將算法視為兩階段的結(jié)構(gòu)。其一是負責目標檢測定位以及對象ReID表觀特征提取的檢測模塊，網(wǎng)絡并行輸出目標定位信息和對應的表觀特征。定位的同時將行人目標進行編號，用以區(qū)分跟蹤目標和辨識新出現(xiàn)對象。其二是負責目標軌跡預測與數(shù)據(jù)關聯(lián)的模塊，首先利用卡爾曼濾波建立線性運動模型預測目標軌跡，然后加權(quán)融合HSV顏色直方圖、深度表觀特征和運動特征建立代價函數(shù)用于度量檢測與軌跡的相似性，最后在數(shù)據(jù)關聯(lián)階段對軌跡狀態(tài)做迭代更新。具體框架如圖1所示。

圖1 算法框架結(jié)構(gòu)Fig.1 Algorithm framework structure

2 免錨框模型

2.1 免錨網(wǎng)絡架構(gòu)設計

基于免錨的檢測模型專注于物體關鍵點的出現(xiàn)位置，本文采用的是預測目標中心點的方法，通過回歸原圖像中心點在熱力圖上的高斯核映射來檢測和定位行人目標?；跓崃D形式提取目標中心點的方法需要網(wǎng)絡輸出的特征圖具有較大空間分辨率，目的是為了映射時中心點不會出現(xiàn)較大尺度偏移，同時保證在特征圖上進行逐像素的預測。通過對比分析，本文改進Stacked Hourglass Networks[8-10]中基于全卷積的架構(gòu)搭建主干網(wǎng)絡進行特征提取。改進的網(wǎng)絡中利用多層特征聚合的方式融合淺層和深層特征。相較于特征金字塔網(wǎng)絡（feature pyramid networks，F(xiàn)PN）增加了語義特征聚合能力。FPN中僅在分辨率和尺度方向進行特征融合，只能夠聚合空間信息。本文網(wǎng)絡統(tǒng)一了語義和空間的信息融合，模型能更好地捕獲目標內(nèi)容和位置。如圖2所示，橙色方框內(nèi)部采用密集樹連接的方式在通道方向?qū)崿F(xiàn)淺層和深層特征融合，以學習跨越更多特征層的豐富組合，此結(jié)構(gòu)能提高模型的語義特征聚合能力。紅色箭頭代表鄰近尺度特征層的連接，從淺到深逐步加強空間聚合上的表現(xiàn)。

圖2 免錨檢測模型整體結(jié)構(gòu)Fig.2 Whole structure of anchor-free detection model

網(wǎng)絡輸入采用512×512分辨率圖像。設I∈R512×512×3為輸入圖像，其中R代表網(wǎng)絡下采樣尺度，為了輸出高分辨率的特征圖設置R為4。圖像經(jīng)卷積和殘差網(wǎng)絡下采樣預處理后輸入主干網(wǎng)絡。主干網(wǎng)絡結(jié)構(gòu)的實現(xiàn)是一個遞歸調(diào)用的過程，當R＞1時遞歸調(diào)用本身，遞歸結(jié)構(gòu)如圖3所示。

圖3 主干網(wǎng)絡結(jié)構(gòu)Fig.3 Backbone network structure

2.2 模型輸出及損失函數(shù)設計

模型輸出端有兩個分支，如圖4所示。檢測端輸出三個預測頭，分別為中心點熱力圖（heatmap）、中心點偏移（center offset）和檢測框?qū)捀撸╞ox size），ReID端輸出一個預測頭，即對象的深度表觀特征。

圖4 模型輸出端Fig.4 Model output terminal

2.2.1 Heatmap分支

預測中心點的熱力圖，即Y∈[0,1]128×128×C,C代表中心點類型數(shù)目，根據(jù)不同數(shù)據(jù)集類型適當調(diào)整。將標簽轉(zhuǎn)化為熱力圖形式以便計算損失，設中心點標注為P=(x1,x2)，經(jīng)下采樣計算得低分辨率坐標P d=(x1/4,x2/4)，通過高斯核函數(shù)（1）將標注的中心點分散至熱力圖Y∈[0,1]128×128×C上：

式中，σ是目標尺度自適應標準差。如果產(chǎn)生相同類別高斯分布重合的情況，則選取重疊分布最大值。

本文網(wǎng)絡結(jié)構(gòu)類似于一階段的檢測方法，存在正負樣本和難易樣本比例失衡的問題。因此在交叉熵損失函數(shù)基礎上進行改進，增加參數(shù)用于平衡失衡樣本，通過降低大量簡單負樣本在訓練中所占權(quán)重，增強困難樣本挖掘能力。損失函數(shù)定義為像素級邏輯回歸焦點損失形式：

式中，參數(shù)β用于減少負樣本權(quán)重占比，參數(shù)α用于控制易分類樣本權(quán)重，N為圖像中心點個數(shù)，是熱圖估計。

2.2.2 Center offset和Box size分支

為提高中心點定位精度，訓練引入center offset，即對于目標檢測框?qū)捀叩幕貧w則引入box size，即損失函數(shù)采用L1損失：

式中，C、B分別為中心點坐標與框?qū)捀叩恼鎸嵵禐閷木W(wǎng)絡預測值。

2.2.3 ReID分支

ReID端是為了提取出可以區(qū)分類內(nèi)對象不同身份的表觀特征。通過在主干網(wǎng)絡尾部應用卷積提取128維的表觀特征圖R?e∈R128×128×128，則對象在點(x,y)處對應的特征向量為R?e∈R128。由于是基于預測中心點提取出的表觀特征，相比于基于錨框檢測提取表觀特征的JDE[11]方法，一是降低了目標被多個錨框覆蓋所導致的網(wǎng)絡模糊性，二是減小了錨框與目標中心沒有重合而導致的特征提取偏差。本文將其視為分類任務，在訓練集中具有相同身份的目標看作同一類別，定義其損失函數(shù)為：

式中，L(k)為第k個目標身份的期望概率分布，p(k)為第k個目標身份的實際概率分布。

3 軌跡跟蹤預測

對于當前幀中由免錨檢測器輸出的所有目標，需要估計下一幀的運動狀態(tài)。多數(shù)情況下，行人的運動軌跡在2D視頻圖像中呈現(xiàn)線性狀態(tài)，非線性程度較低，因此可以采用恒速模型對目標運動建模，無需進行非線性擴展。

本文基于卡爾曼濾波算法融合數(shù)學模型預測框和檢測框找到最優(yōu)估計，完成對檢測目標的預測與更新。目標的狀態(tài)變量矩陣定義為x=(x,y,w,h,v x,v y,v w,v h)，其中x、y代表目標中心點坐標，v x、v y是與之相對應的在圖像坐標系上運動速度分量，w、h代表目標檢測框的寬度和高度，用vw、v h表示在圖像中相應的變化率。設t時刻為目標的卡爾曼濾波初始狀態(tài)，需要將其各個速度分量均初始化為0，即t時刻由檢測模型定位出的目標a的狀態(tài)變量為x(a)t=(xt,y t,wt,h t,0,0,0,0),t+1時刻的觀測值表示為z(a)t+1=(xt+1,yt+1,wt+1,ht+1)，則該目標的先驗狀態(tài)估計與觀測方程可用如下兩個公式表示：

式（5）為目標運動狀態(tài)預測方程，式中F為狀態(tài)轉(zhuǎn)移矩陣，表示如何從t時刻狀態(tài)x t推測出t+1時刻狀態(tài)x t+1,v是系統(tǒng)過程噪聲；式（6）中H為觀測矩陣，z為觀測值，w為觀測噪聲，u、w是獨立噪聲序列，服從正態(tài)分布。

在后驗估計中需對狀態(tài)進行更新，式（7）為預測不確定性傳遞方程：

最后更新誤差協(xié)方差矩陣P用于下一次迭代。

4 關聯(lián)特征度量與設計

多目標跟蹤要保證檢測對象與跟蹤對象完成最佳匹配，需針對目標進行完整的特征描述。多目標跟蹤場景下因目標受遮擋導致跟蹤間斷，進而產(chǎn)生目標身份切換率高的問題，鑒于單一的運動特征度量無法應對遮擋后重識別任務，有必要在此基礎上融合其他相關特征用于關聯(lián)度量。HSV顏色特征作為行人目標最直觀的外觀描述，具有穩(wěn)定性好，對目標尺度、方向不敏感等特點，因此本文對目標提取256維的HSV顏色直方圖特征用于表示色彩信息。對于一些相似目標很難用顏色度量差異性，考慮到經(jīng)訓練的ReID模型可以對目標的表觀抽取出具有區(qū)分度的深度信息，相似目標能夠在深度語義特征層面表現(xiàn)出差異，且特征受環(huán)境光影響較小，具有較高的魯棒性，因此本文在檢測模型中并行加入ReID分支，輸出檢測目標的128維特征向量用于表示深度表觀信息。

綜上分析，本文充分考慮目標的運動信息、色彩信息和ReID深度表觀信息，融合多種特征用于檢測與跟蹤軌跡的相似度估計。

4.1 HSV顏色特征度量

HSV對應色調(diào)（H）、飽和度（S）、亮度（V），是根據(jù)圖像顏色的直觀特征所構(gòu)建的一種顏色空間，相較于RGB顏色描述，更能反映目標的真實顏色信息。本文利用HSV顏色特征直方圖來描述檢測與跟蹤軌跡的色彩信息。顏色特征用fcolor描述，代表的是256維的直方圖特征向量，采用卡方距離度量顏色相似性：

式中，fcolor(i)、fcolor(j)分別代表目標i和軌跡j的顏色特征。

4.2 表觀特征度量

ReID應用源自于跨攝像頭跟蹤領域，目的在于確認不同位置的攝像頭在不同時刻拍攝到的目標是否為同一人。具體可描述為存在給定身份的目標圖像序列Q={Q1,Q2,…,Qn}，根據(jù)ReID模型提取的表觀特征，度量在不同攝像頭場景下檢索出的圖像幀G={G1,G2,…,G n}與Q的相似性，進行目標的重識別確認。

針對跟蹤軌跡的每個特征，計算它們與當前幀N個檢測對象表觀特征之間的余弦距離，再取最小值作為該軌跡與檢測結(jié)果之間的計算值，得出余弦代價矩陣：

4.3 加權(quán)多特征融合

對于M個跟蹤軌跡與N個檢測結(jié)果，多特征融合的相似性度量具體實現(xiàn)過程為：

首先基于表觀特征計算出余弦代價矩陣costcos(M×N)，進行運動信息約束，即位置度量，采用馬氏距離評估卡爾曼濾波預測狀態(tài)和檢測狀態(tài)的匹配程度：

再將余弦代價矩陣中不滿足卡方距離、馬氏距離以及余弦距離閾值條件的設置為無窮大，用于增大差異性；最后得出融合HSV、表觀和運動特征的代價矩陣costmerge(M×N)，采用KM二分圖匹配算法進行軌跡與檢測數(shù)據(jù)關聯(lián)。

由于行人多目標跟蹤應用場景復雜且目標各異，為了增強算法的多場景適應能力，多特征融合需根據(jù)具體場景分析特征重要性再做具體適配。因此本文采用加權(quán)距離代價函數(shù)評估特征相似性：

式中，λ為超參數(shù)，用于調(diào)整相應度量距離的權(quán)重配比(λ1+λ2+λ3=1)，針對不同多目標跟蹤場景做適當調(diào)整。

具體的加權(quán)思路為：針對公共區(qū)域監(jiān)控場景，行人較多且人群中個體作為同類對象軌跡會交錯穿插，遮擋又重現(xiàn)，增加度量矩陣中表觀特征以及顏色特征的權(quán)重有利于分化目標，顯著降低目標身份丟失概率；而對于自動駕駛以及無人機等相機存在多維度運動的場景，目標的運動軌跡不確定性較高，會造成觀測目標馬氏距離無法匹配的情況，此時需要降低運動特征度量權(quán)重，以免因相對運動造成相似度估計誤差。

經(jīng)多次實驗對比分析，得出幾種常見跟蹤場景中最優(yōu)權(quán)重配比如表1所示。

表1 特征權(quán)重最優(yōu)配比Table 1 Optimal proportion of feature weights

5 跟蹤狀態(tài)更新

經(jīng)KM二分圖匹配算法計算后，軌跡會產(chǎn)生兩種狀態(tài)：未確認狀態(tài)和確認狀態(tài)。其中確認狀態(tài)包括未匹配軌跡和匹配軌跡。對于檢測只有兩種狀態(tài)：已匹配的檢測和未匹配的檢測。其中未匹配的檢測目標會被初始化為未確認狀態(tài)軌跡。

為了降低匹配偶然性，防止與檢測器誤檢關聯(lián)，本文設定匹配門限值Hi ts=2幀（幀數(shù)過大會影響實時性），即經(jīng)過KM算法完成連續(xù)兩幀匹配才允許轉(zhuǎn)化為確認軌跡。

由于目標被遮擋或檢測器漏檢等原因，處于確認狀態(tài)的軌跡會出現(xiàn)未匹配軌跡。針對這種情況，本文對確認狀態(tài)軌跡設置存活期Age和連續(xù)丟失幀數(shù)計數(shù)Count。其中Age=100（值過大會緩存過多的垃圾軌跡）表示連續(xù)丟失幀數(shù)上限，當0≤Count≤Age時，軌跡有效。在匹配過程中，進行Count+1次迭代關聯(lián)，優(yōu)先對丟失幀數(shù)少的軌跡進行匹配，同時保證在存活期內(nèi)丟失軌跡的有效性。經(jīng)此處理后，本文算法可以重新找回被遮擋的目標，顯著降低被遮擋后重新識別發(fā)生身份變換的次數(shù)。

更新算法的具體實現(xiàn)過程如下：

（1）設定連續(xù)丟失幀數(shù)變量Count=0，存活期常量Age=100。

（2）t時刻由免錨檢測器輸出n個檢測目標并編號為d∈{0,1,…,n},d中包含未匹配的檢測目標和前一幀已匹配的檢測目標。

（3）t時刻由卡爾曼濾波預測m條軌跡并編號為k∈{0,1,…,m}，每一條軌跡都有一個Count變量記錄軌跡連續(xù)丟失幀數(shù)，k中包含Count小于Age次未匹配的軌跡和已匹配的軌跡。

（4）將d與k利用加權(quán)多特征融合算法進行相似性度量，輸出的代價矩陣cost(M×N)利用KM算法進行Count+1次迭代匹配關聯(lián)。此過程從Count=0的軌跡開始迭代至Count最大值，即優(yōu)先對穩(wěn)定跟蹤的軌跡進行關聯(lián)。

（5）經(jīng)迭代關聯(lián)后未匹配的軌跡Count值加1，匹配的軌跡Count置為0，未匹配的檢測目標初始化為未確認軌跡，Count大于Age的軌跡刪除。

至此完成一幀中所有軌跡的狀態(tài)更新，算法迭代過程如圖5所示。

圖5 跟蹤狀態(tài)的迭代更新過程Fig.5 Iterative update process of tracking status

6 實驗結(jié)果與分析

6.1 實驗細節(jié)

實驗所使用的硬件平臺為配置Intel i7-9700k處理器，16 GB內(nèi)存，搭載GTX 2080ti GPU的深度學習工作站，操作系統(tǒng)為Ubuntu 18.04.1，采用TensorFlow2.0實現(xiàn)深度學習模型訓練與測試。

本文算法為聯(lián)合檢測與跟蹤的深度神經(jīng)網(wǎng)絡模型，不僅要輸出檢測目標的定位信息，還要提取出相應對象的ReID表觀特征，屬于多任務網(wǎng)絡模型架構(gòu)，因此實驗中采用階段式訓練方法，組合多個數(shù)據(jù)集針對兩種不同的任務需求訓練模型。首先，在COCO2017數(shù)據(jù)集上進行檢測任務的預訓練，用于初始化主干網(wǎng)絡模型參數(shù)；然后，將預訓練模型在INRIA[12]行人檢測數(shù)據(jù)集上進行微調(diào)，數(shù)據(jù)集提供靜態(tài)行人標注信息；最后，利用PKU-Reid[13]、PRW[14]和CUHK03[15]數(shù)據(jù)集的行人身份標注訓練模型的ReID特征提取分支，三個數(shù)據(jù)集提供了涵蓋各種復雜場景下的多攝像頭行人監(jiān)控數(shù)據(jù)。模型采用Adam優(yōu)化器訓練50個epoch，batch size設置為8，初始學習率設置為1E-4，在第40個epoch更改學習率為1E-6。

6.2 模型檢測性能評估

在目標檢測領域，國際上通常采用平均精確率（average precision，AP）作為評價指標評估模型的檢測性能。本文在COCO測試集上進行檢測性能的評估，具體評價指標含義由表2給出。選取當前目標檢測主流算法進行對比實驗，結(jié)果如表3所示，最優(yōu)結(jié)果由粗體標出。

表2 檢測評價指標及其含義Table 2 Test evaluation index and its meaning

表3 不同檢測算法在COCO測試集上的測試結(jié)果Table 3 Test results of different detection algorithms on COCO dataset

從表3結(jié)果可以看出，本文算法在檢測速度和精度方面明顯優(yōu)于其他算法。主要是因為采用免錨機制的網(wǎng)絡結(jié)構(gòu)在大尺度特征圖上進行中心點預測，無需錨點框和非極大值抑制等復雜操作。而基于錨框的兩階段檢測算法Faster RCNN由于網(wǎng)絡中存在階段性的篩選結(jié)構(gòu)，區(qū)域候選網(wǎng)絡（region proposal network，RPN），導致推斷耗時較長，檢測速度只有9 frame/s，不能滿足實時檢測需求。相較于兩階段的檢測方法，基于錨框單階段的YOLO3和RetinaNet設計更加注重實時性。特別是RetinaNet利用Focal Loss有效控制了正負樣本差距，使得檢測精度顯著提升。但單階段和兩階段的檢測算法由于錨框的限制，無法進行像素級預測，基于錨框檢測器針對小目標漏檢率較高，導致APS較低?？偟膩碚f，本文算法采用全卷積方式輸出的特征圖分辨率高，可以兼顧大小目標，對不同像素面積的目標均有較高的檢測精度。

6.3 多目標跟蹤測試

本文采用MOT Challenge[19]標準對多目標跟蹤性能進行評估，在MOT17多目標跟蹤數(shù)據(jù)集上對算法性能進行綜合測試。

MOT17測試集中共有7個標注序列，如圖6所示，序列2、4、9為相機固定的街道行人場景，其中序列2環(huán)境光較陰暗，序列5、10、11、13為相機移動場景，視場內(nèi)的對象與相機存在相對運動。

圖6 MOT17場景示例Fig.6 Sample scenario for MOT17

為了充分評估本文算法的有效性，分別對7個序列進行跟蹤測試，跟蹤評價指標及含義由表4給出，跟蹤結(jié)果如表5所示。

表4 多目標跟蹤評價指標及含義Table 4 Multi-object tracking evaluation index and its meaning

表5 本文算法在MOT17數(shù)據(jù)集上的跟蹤結(jié)果Table 5 Tracking results of algorithm in this paper on MOT17 dataset

從表5結(jié)果中可以看出，本文算法的綜合性能較高，具有較高的準確率。視頻序列場景復雜度不同，跟蹤性能也會有所差異。由于序列2場景光線較弱，檢測器存在漏檢，MOTA指標最低（MOTA=50.9%）且有最高的身份切換次數(shù)（IDS=124）。而序列4相機固定且場景內(nèi)目標運動穩(wěn)定，MOTA值最高達到78.2%。特別是在序列13中存在遠景目標，目標較小，使得表觀特征描述有限，當遠景目標出現(xiàn)遮擋時跟蹤效果會降低，造成跟蹤準確率降低。

為了進一步衡量本文算法的有效性，將本文提出的算法與近年比較優(yōu)秀的多目標跟蹤算法在MOT17上進行性能對比測試，結(jié)果如表6所示。

表6 不同跟蹤算法在MOT17數(shù)據(jù)集上的跟蹤結(jié)果Table 6 Tracking results of different tracking algorithms on MOT17 dataset

從表6中可知，SORT算法跟蹤速度最快，但該算法僅采用IOU距離作為數(shù)據(jù)關聯(lián)階段的度量標準，沒有對遮擋問題進行針對性處理，使得跟蹤準確性極差。Deep-Sort算法串聯(lián)了ReID表觀特征提取模型，使用了更可靠的度量標準，MOTA值得到明顯提升，但檢測和ReID兩個深度學習模型嚴重拖慢了跟蹤速率，F(xiàn)PS僅為8.1 frame/s。JDE算法合并了YOLOv3檢測模型和表觀模型，跟蹤速度相對于DeepSort提升了約10 frame/s，但受到錨框限制，對快速移動目標提取的表觀特征無法對齊造成錯誤匹配，跟蹤準確性不如DeepSort。綜合對比來看，本文基于免錨中心點檢測的多目標跟蹤算法充分考慮了運動特征、顏色特征和表觀特征，對不同跟蹤場景采用合適的特征融合配比，在MOT17上的綜合性能評價指標超過近年來經(jīng)典算法，并且兼顧了跟蹤的實時性與準確性。

對本文算法在不同場景的魯棒性進行驗證，將跟蹤結(jié)果可視化分析。圖7、圖8所示分別為本文算法和SORT算法在MOT2015-AVG-TownCentre序列上的部分跟蹤結(jié)果，該視頻數(shù)據(jù)為行人監(jiān)控視角，行人交叉遮擋嚴重，本文在此場景采用式（14）的融合特征配比為3∶3∶4。

如圖7、圖8對比所示，在第57幀存在兩個相向而行的目標（圖7（a）中編號14和12，圖8（a）中編號6和25），在第73幀發(fā)生重疊遮擋，在經(jīng)過17幀的遮擋后兩對象分離。在第90幀可以看出，SORT算法未能在跟蹤對象丟失后完成重識別，造成25號關聯(lián)錯誤，并將原跟蹤對象6號錯誤設為新軌跡58號。而本文算法針對此遮擋場景有較好的處理效果，對象被遮擋后重現(xiàn)能夠正確關聯(lián)并更新軌跡，具有可靠的跟蹤效果。

圖7 本文算法在AVG-TownCentre上的跟蹤結(jié)果Fig.7 Tracking results of algorithm in this paper on AVG-TownCentre

圖8 SORT算法在AVG-TownCentre上的跟蹤結(jié)果Fig.8 Tracking results of SORT algorithm on AVG-TownCentre

進一步在MOT17-10序列存在相機移動場景上測試跟蹤性能，本文算法和JDE算法測試結(jié)果分別由圖9和圖10給出，本文在此場景采用式（14）的融合特征配比為4∶4∶2。

圖9 本文算法在MOT17-10上的跟蹤結(jié)果Fig.9 Tracking results of algorithm in this paper on MOT17-10

通過圖9和圖10的對比可以看出，此場景下JDE算法無法對頻繁遮擋的目標連續(xù)跟蹤。圖10（a）第1幀對象2，在跟蹤過程中經(jīng)歷了3次身份切換，跟蹤魯棒性較差。而本文的加權(quán)特征融合的處理方法能夠較好地應對相機和對象存在相對移動的情形，圖9（a）第1幀對象2在639幀的跟蹤過程中同樣經(jīng)歷3次遮擋，依然能夠穩(wěn)定維持其身份編號，實現(xiàn)長時間穩(wěn)定跟蹤。

圖10 JDE算法在MOT17-10上的跟蹤結(jié)果Fig.10 Tracking results of JDE algorithm on MOT17-10

7 結(jié)束語

本文采用免錨框的方法設計了基于中心點熱圖的檢測模型，并行輸出行人目標定位信息與ReID特征，構(gòu)建了聯(lián)合檢測與跟蹤的一段式網(wǎng)絡，較好地解決了錨框?qū)е碌腞eID特征偏移的問題。針對遮擋問題提出了多特征融合的關聯(lián)度量方法和軌跡更新算法，有效解決了行人目標被長時間遮擋出現(xiàn)軌跡丟失的情況。同時為了應對不同跟蹤場景對特征進行加權(quán)處理，提升了算法的魯棒性和多場景適應能力。實驗結(jié)果表明，本文的多目標跟蹤算法在不同測試集上跟蹤精度較高，且具有實時推斷能力。