鄭舟軒 王勇 王瑛
摘要:多目標跟蹤領(lǐng)域以基于檢測的跟蹤方法為主,CenterTrack算法提出了以目標中心點為檢測對象,每幀輸出基于目標中心點生成的熱圖以輔助下一幀的檢測和跟蹤的方法。此方法在保證幀率的前提下有效提升了多目標跟蹤準確率,但由于其缺乏對目標重識別的關(guān)注,當目標遭遇到遮擋或噪聲影響從檢測結(jié)果中丟失時無法將隨后重新出現(xiàn)的同一目標識別為原目標,導(dǎo)致ID切換較頻繁。該文在CenterTrack算法模型中加入近期丟失跟蹤鏈隊列和重識別模塊以改善其在重識別方面的表現(xiàn)。輸入商場監(jiān)控錄像并取得跟蹤結(jié)果后,根據(jù)行人目標移動與停駐時間分配權(quán)值生成商場熱點圖,幫助經(jīng)營者提升銷售能力。
關(guān)鍵詞: 計算機視覺; 多目標跟蹤; CenterTrack算法; 目標重識別; 商場熱點圖; MOTA(多目標跟蹤準確率)
中圖分類號:TP391? ? ? 文獻標識碼:A
文章編號:1009-3044(2021)36-0106-03
開放科學(xué)(資源服務(wù))標識碼(OSID):
Shopping Mall Heat Map Generation Method Based on Multi-object Tracking
ZHENG Zhou-xuan, WANG Yong, WANG Ying
(School of Computer Science and Technology, Guangdong University of Technology, Guangzhou 510006, China)
Abstract:The field of multi-object tracking is based on tracking-by-detection methods. The CenterTrack algorithm proposes a method that uses the center of the object as the detection target, and outputs a heat map generated based on the center of the target for each frame to assist the detection and tracking of the next frame. This method effectively improves multi-object tracking accuracy under the premise of ensuring the frame rate. However, due to its lack of attention to target re-identification, when the target encounters occlusion or the influence of noise, thus lost from the detection result, it cannot reappear as the same object. The object is not recognized as the original object, which leads to frequent ID switching. This paper adds a recently lost tracks queue and re-identification module to the CenterTrack to improve its performance in re-identification. After the input of the shopping mall surveillance video data and obtaining the tracking results, the shopping mall heat map is generated according to the weights of pedestrian target movement and staying time to help shop owners improve sales.
Key words:computer vision;? multi-object tracking;? CenterTrack algorithm;? target re-identification;? shopping mall heat map;? MOTA(Multi-Object Tracking accuracy)
有店鋪零售業(yè)指的是消費者購買行為主要在一個相對固定,能夠進行商品陳列、展示和銷售的場所或設(shè)施中進行的零售業(yè)務(wù)[1]。隨著網(wǎng)絡(luò)零售業(yè)為首的無店鋪零售業(yè)的迅速發(fā)展,有店鋪零售業(yè)受到了前所未有的沖擊,尤其過去兩年受新型冠狀病毒肺炎疫情等事件影響,在中國零售業(yè)整體增速持續(xù)減緩的背景下,有店鋪零售業(yè)的發(fā)展更是連續(xù)受挫。盡管有店鋪零售業(yè)的“退潮”似乎在所難免,許多零售業(yè)經(jīng)營者并未輕易放棄,而是積極尋求改變。
在許多高出貨量或者高客單價的零售店鋪經(jīng)營工作中,經(jīng)營者常常通過觀看店鋪的監(jiān)控錄像,記錄并統(tǒng)計各個貨架、陳列臺前停駐的消費者數(shù)量,以了解店鋪內(nèi)各貨架、陳列臺的熱門程度,并根據(jù)這些信息調(diào)整貨架擺放、商品陳列策略,改善經(jīng)營狀況最終得到更高的經(jīng)濟效益。
多目標跟蹤(Multi-Object Tracking, MOT)指的是使用計算機視覺技術(shù),通過處理輸入的視頻獲得視頻流中的多個目標以及它們的外觀特征、每幀的位置等信息,并最終得到所有目標的運動軌跡[2]。隨著深度學(xué)習(xí)的發(fā)展和深入應(yīng)用,多目標跟蹤領(lǐng)域的研究進步迅速,Zhou等提出的CenterTrack在MOT17數(shù)據(jù)集上進行的實驗達到了在22FPS的幀率下,67.8%的多目標跟蹤準確率(Multi-Object Tracking Accuracy),截至原文發(fā)表時為該公開數(shù)據(jù)集最佳成績。多目標跟蹤的迅速發(fā)展讓一些零售業(yè)經(jīng)營者看到了一個能夠幫助他們改善經(jīng)營狀況的契機:用計算機視覺技術(shù)代替上述手動進行的熱門貨架和陳列臺的記錄、統(tǒng)計工作,通過對店鋪的監(jiān)控錄像進行處理,以消費者為目標進行多目標跟蹤任務(wù),自動統(tǒng)計消費者在各個貨架、陳列臺前的逗留時間,并據(jù)此自動生成相應(yīng)的商場熱點圖。
1 研究現(xiàn)狀
1.1 傳統(tǒng)方法
在多目標跟蹤領(lǐng)域,研究者們進行過相當豐富的相關(guān)工作,主要的跟蹤方法包括檢測跟蹤方法,聯(lián)合檢測跟蹤方法以及與運動預(yù)測相結(jié)合的方法。
首先是檢測跟蹤方法(Tracking-by-detection),這些方法往往由兩個部分組成,第一個部分是一個或者多個現(xiàn)成的檢測器,用來對視頻流中的每一幀進行目標檢測,從而得到視頻流中每一幀的多個目標邊界框;第二個部分是一個關(guān)聯(lián)算法,通過逐幀關(guān)聯(lián)的方式,將每一幀中檢測到的目標進行前后關(guān)聯(lián),從而生成跟蹤路徑。SORT[3]算法就是這樣的設(shè)計思路,用卡爾曼濾波器作為目標檢測器,用匈牙利算法作為關(guān)聯(lián)算法進行幀間目標關(guān)聯(lián)。
DeepSORT[4]算法改進了SORT算法的關(guān)聯(lián)算法部分,將目標外觀特征加入了關(guān)聯(lián)的代價計算中。后續(xù)按此思路提出算法大多數(shù)也將關(guān)注點集中在改進這個關(guān)聯(lián)算法上。Tang等[5]提出的LMP算法利用人體姿態(tài)特征加強了目標重識別的成功率。Xu等[6]提出了STRN算法,其改進的關(guān)聯(lián)算法強調(diào)利用空間定位將多個線索融合。這一類方法有兩個共同的缺點,第一個是關(guān)聯(lián)算法要么是放棄了目標的外觀特征,要么需要復(fù)雜的特征提取器來對外觀特征進行提取再進行關(guān)聯(lián),第二個是將檢測和跟蹤分離了,本質(zhì)上是把跟蹤任務(wù)拆解成了檢測任務(wù)和關(guān)聯(lián)任務(wù),使得解決方案不具備整體性。
其次是聯(lián)合檢測跟蹤方法(Joint detection and tracking),這類方法是多目標跟蹤領(lǐng)域的一個新趨勢,它的改進就是將檢測和跟蹤結(jié)合起來,把檢測器改進為跟蹤器,從而同時處理檢測任務(wù)和跟蹤任務(wù)。Feichtenhofer等[7]提出的ConvNet就是將當前幀和前一幀一起輸入一個孿生網(wǎng)絡(luò),并預(yù)測每個目標的幀間偏移。IODT[8]將前一幀的跟蹤結(jié)果作為約束加入當前幀的檢測中,強化檢測與跟蹤的相關(guān)性。Bergmann等[9]提出的Tracktor則是將前一幀的跟蹤結(jié)果直接作為當前幀的候選區(qū)域,確定前一幀的目標在當前幀是否仍存在于畫面中,該目標的邊界框只需要在前一幀的邊界框的基礎(chǔ)上進行小幅的偏移和尺寸調(diào)整即可,然后再對剩余的部分進行檢測,確定是否有新的目標進入畫面。Kang等[10]將整段視頻流作為整體進行輸入,以便將跟蹤的目標作為一個管道進行檢測。Zhu等[11]提出了一個導(dǎo)向特征聚合以加速幀間聯(lián)合檢測跟蹤的方法。
另外還有與運動預(yù)測結(jié)合的方法,早期一些方法使用卡爾曼濾波對目標的運動速度進行建模;Held等[12]對單目標跟蹤進行幀間偏移計算;Xiao等[13]利用光流估計網(wǎng)絡(luò)對人體姿態(tài)進行跟蹤。這些方法都在每一幀提供對每個目標的運動方向和幅度的預(yù)測。
1.2 CenterTrack算法
上述提到的聯(lián)合檢測跟蹤方法中,最新的一種方法是在2020年8月的ECCV上Zhou等提出的CenterTrack[14],它相對于其他同類的方法的優(yōu)點在于:其他聯(lián)合檢測跟蹤方法都采用了FasterRCNN框架[15]作為目標檢測框架,這就存在一個必要的前提,同一個目標在幀間的邊界框需要較大的重合,這個前提對于移動速度較快的目標,或者是對于低幀率的輸入效果比較差。而CenterTrack算法使用的是由同一個團隊之前提出的另一個目標檢測框架CenterNet,其輸入除了連續(xù)的兩幀以外,還有一個包含若干個點的熱圖,從前一幀的跟蹤結(jié)果中提取出來。在本課題中以該算法為基礎(chǔ)進行改進也看重此優(yōu)點,這個優(yōu)點的主要意義是降低模型的工作時間,因為現(xiàn)實中監(jiān)控錄像的視頻長度往往是以小時計算的,如果整段視頻都進行輸入,即使是實時的跟蹤算法也需要耗費大量的工作時間才能生成跟蹤結(jié)果,而如果將視頻按幀率進行降采樣,就可以用更小的輸入取得相近的結(jié)果。
CenterTrack采用了聯(lián)合檢測跟蹤方法,同時拋棄了此類方法常用的FasterRCNN框架,加入了一個基于前一幀跟蹤結(jié)果的熱圖作為輸入,以基于目標中心點的方式進行檢測和跟蹤。但是這個方法存在一個比較明顯的問題,其檢測和跟蹤都是基于連續(xù)幀間關(guān)聯(lián)的,因此一旦目標在一個較長的時間內(nèi)未被跟蹤到,它再次被檢測到時會被定義為一個新的目標,造成較高的IDSW(Identity Switch),這對于商場熱點圖生成任務(wù)來說是相當不利的,因此需要IDSW盡可能的低?;谶@個目的,引入LMP算法對CenterTrack進行改進。
2 改進CenterTrack
CenterTrack算法在對每一幀視頻畫面進行處理時,能夠充分利用前一幀的處理結(jié)果,優(yōu)先在熱圖區(qū)域內(nèi)進行目標檢測和幀間目標關(guān)聯(lián),因此具有較好的準確率和實時性,但同樣因為其過于強調(diào)跟蹤目標在相鄰幀間的連續(xù)性,對于一些目標在視頻流中遭遇遮擋或者噪聲干擾時丟失又在一段時間后重新出現(xiàn)的情況,無法與之前的同一目標完成關(guān)聯(lián),從而產(chǎn)生較高的IDSW(Identity Switch),降低了準確率。
對于這一缺陷,可以通過在模型中維護一個近期丟失跟蹤鏈RLT(Recently Lost Tracks)隊列,當前一幀出現(xiàn)過的目標在當前幀消失時,將該目標加入RLT隊列。之后在檢測到新目標進入畫面后,對比新目標與RLT隊列中各個已丟失目標的外觀特征相似度,對于相似度高于一個預(yù)先設(shè)定的閾值的目標標注為可能的已丟失目標的重識別,用聚類方法判斷前后目標能否擬合到同一條軌跡上,擬合成功即將新目標判定為已丟失目標的重識別,并將原目標移出RLT隊列。
3 實驗
3.1 實驗環(huán)境
本文實驗基于PyTorch深度學(xué)習(xí)框架,版本為1.0;運行實驗的操作系統(tǒng)為Ubuntu 20.04,硬件方面為內(nèi)存:16.0GB,CPU:Intel i7-9700F @ 3.00GHz,顯卡:RTX2060S。
3.2 實驗數(shù)據(jù)
采用多目標跟蹤領(lǐng)域的權(quán)威公開數(shù)據(jù)集MOT17[16]進行實驗,由于該數(shù)據(jù)集中包含各種不同角度以及針對各類不同目標的視頻數(shù)據(jù),為了保證實驗足夠具有針對性,僅選取最接近商場監(jiān)控視角且跟蹤目標為行人的部分視頻數(shù)據(jù)進行實驗。
3.3 實驗結(jié)果
對于多目標跟蹤任務(wù)而言,最常用的評價標準是MOTA(Multi-object Tracking Accuracy)[17],其計算公式為:
[ MOTA = 1-t(FPt+FNt+IDSWt)tGTt]
其中FP(False Positive)表示基準中不存在而跟蹤結(jié)果中存在的目標個數(shù),F(xiàn)N(False Negative)表示未被成功跟蹤的目標個數(shù),IDSW表示盡管被成功跟蹤,但被識別為新目標,賦予了與之前的視頻幀不同的ID的目標個數(shù),GT表示基準目標個數(shù),下標t表示視頻幀的序號,最終結(jié)果以綜合整個視頻序列的所有以上參數(shù)共同決定,MOTA值越大表示跟蹤結(jié)果越好。另外,為了體現(xiàn)新方法的有效性可以單獨統(tǒng)計ID切換(IDSW, ID Switching)并進行比較。
由于RLT的加入與CenterTrack模型的訓(xùn)練是獨立的,因此僅需分別使用原生CenterTrack模型與加入RLT的改進CenterTrack模型進行測試即可。
實驗結(jié)果表明加入RLT的改進算法能夠提升多目標跟蹤準確率,特別是能降低IDSW。由于加入了重識別模塊,運行的實時性會輕微下降。
3.4 商場熱點圖生成
在取得了目標跟蹤的結(jié)果后,根據(jù)同一個目標在一段時間內(nèi)的位置分布判斷該目標是否處于移動狀態(tài),設(shè)置兩個閾值來限制目標在一段時間內(nèi)的每兩個相鄰幀間的位移以及整段時間內(nèi)位置分布的方差,取目標滿足限制條件的時間段,給其所在的位置添加權(quán)值,在畫面中畫出熱點圖。
以上畫面截取監(jiān)控錄像的一幀作為背景進行繪制,以紅色為中心的熱區(qū)為行人逗留時間較長,逗留行人數(shù)較多的區(qū)域。注意畫面中部分熱點區(qū)域沒有人出現(xiàn),是因為熱門區(qū)域是基于整個視頻序列而非當前幀。
4 總結(jié)
本文提出一種基于CenterTrack目標跟蹤模型,加入近期丟失跟蹤鏈RLT以彌補原模型不易實現(xiàn)目標重識別的缺陷。重識別算法為目標特征相似度度量以及軌跡聚類相結(jié)合,能有效降低ID切換(IDSW)并提升多目標跟蹤準確率(MOTA)。獲取跟蹤結(jié)果后判斷每個目標在每一幀是否處于移動狀態(tài)并分配權(quán)重,生成商場熱點圖,能夠表示出監(jiān)控錄像中消費者駐足停留時間較長的位置,為經(jīng)營者提供決策支持。后續(xù)工作應(yīng)當進一步提升重識別算法的準確率以及優(yōu)化熱點圖生成算法。
參考文獻:
[1] 中華人民共和國國家質(zhì)量監(jiān)督檢驗檢疫總局,中國國家標準化管理委員會.零售業(yè)態(tài)分類:GB/T 18106—2004[S].北京:中國標準出版社,2004.
[2] Luo W H,Xing J L,Milan A,et al.Multiple object tracking:a literature review[J].Artificial Intelligence,2021,293:103448.
[3] Bewley A,Ge Z Y,Ott L,et al.Simple online and realtime tracking[C]//2016 IEEE International Conference on Image Processing (ICIP).September 25-28,2016,Phoenix,AZ,USA.IEEE,2016:3464-3468.
[4] Wojke N,Bewley A,Paulus D.Simple online and realtime tracking with a deep association metric[J].2017 IEEE International Conference on Image Processing (ICIP),2017:3645-3649.
[5] Tang S Y,Andriluka M,Andres B,et al.Multiple people tracking by lifted multicut and person Re-identification[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).July 21-26,2017,Honolulu,HI,USA.IEEE,2017:3701-3710.
[6] Xu J R,Cao Y,Zhang Z,et al.Spatial-temporal relation networks for multi-object tracking[C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV).October 27 - November 2,2019,Seoul,Korea (South).IEEE,2019:3987-3997.
[7] Feichtenhofer C,Pinz A,Zisserman A.Detect to track and track to detect[C]//2017 IEEE International Conference on Computer Vision (ICCV).October 22-29,2017,Venice,Italy.IEEE,2017:3057-3065.
[8] Zhang Z,Cheng D Z,Zhu X Z,et al.Integrated object detection and tracking with tracklet-conditioned detection[EB/OL].2018
[9] Bergmann P,Meinhardt T,Leal-Taixé L.Tracking without bells and whistles[C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV).October 27 - November 2,2019,Seoul,Korea (South).IEEE,2019:941-951.
[10] Kang K,Li H S,Xiao T,et al.Object detection in videos with tubelet proposal networks[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).July 21-26,2017,Honolulu,HI,USA.IEEE,2017:889-897.
[11] Zhu X Z,Wang Y J,Dai J F,et al.Flow-guided feature aggregation for video object detection[C]//2017 IEEE International Conference on Computer Vision (ICCV).October 22-29,2017,Venice,Italy.IEEE,2017:408-417.
[12] Held D,Thrun S,Savarese S.Learning to track at 100 FPS with deep regression networks[M]//Computer Vision – ECCV 2016.Cham:Springer International Publishing,2016:749-765.
[13] Xiao B,Wu H P,Wei Y C.Simple baselines for human pose estimation and tracking[M]//Computer Vision – ECCV 2018.Cham:Springer International Publishing,2018:472-487.
[14] Zhou X.Tracking objects as points[R].European Conference on Computer Vision(ECCV), 2020.
[15] Ren S Q,He K M,Girshick R,et al.Faster R-CNN:towards real-time object detection with region proposal networks[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(6):1137-1149.
[16] Milan A,Leal-Taixe L,Reid I,et al.MOT16:a benchmark for multi-object tracking[EB/OL].[2021-06-20]https://arxiv.org/abs/1603.00831
[17] Yu Z H,MacBeth S,Modi K,et al.Tracking the trackers[C]//Proceedings of the 25th International Conference on World Wide Web.Montréal Québec Canada.Republic and Canton of Geneva,Switzerland:International World Wide Web Conferences Steering Committee,2016.
【通聯(lián)編輯:唐一東】