王彩霞 林壽英
(福建農(nóng)林大學機電工程學院,福建 福州 350000)
近年來,人工智能子領域的計算機視覺技術得到了較大的發(fā)展,而目標跟蹤是其他高層任務,如動作識別、人群行為分析的基礎。隨著深度學習技術的迅速發(fā)展,多目標跟蹤(Multiple Object Tracking,MOT)算法也能夠充分挖掘并處理給定視頻中的信息,由此得到的深度網(wǎng)絡跟蹤模型更加輕量、表達能力更好且魯棒性強。在大數(shù)據(jù)時代背景下,各種基于深度學習的目標跟蹤算法不斷涌現(xiàn),在多個領域的現(xiàn)實場景中被廣泛應用,其發(fā)展前景廣闊,具體研究及應用方式眾多。
(1)智能視頻監(jiān)控:多目標跟蹤在視頻監(jiān)控領域中的應用最為廣泛,可對視頻內(nèi)感興趣的目標進行自動識別、跟蹤及更高層任務,其目標主要為行人,通過對給定視頻或圖片序列進行分析和理解,減少人為干預,最終自動提取所需要的關鍵信息[1]。智能視頻監(jiān)控具有效率高、產(chǎn)業(yè)價值大、應用前景廣等特點。
(2)基于視頻的非接觸人機交互:是指通過攝像頭或設備采集的視頻實現(xiàn)用戶與計算機之間的“交流”,可以對人的行為、聲音、眼神等高級語義信息進行分析,進而完成目標跟蹤[2-3]。
(3)智能交通:智能交通可對車輛進行識別與跟蹤,自動獲取車輛的流量、速度及道路的擁堵狀況等信息;無人駕駛系統(tǒng)中,可利用攝像頭或其他信息采集設備對周圍環(huán)境和運動物體進行跟蹤,在獲取信息后進行更高語義任務[4]。
(4)智能養(yǎng)殖:對行人進行檢測跟蹤的同時,對動物進行檢測跟蹤,從而獲取動物的運動信息,并分析出養(yǎng)殖物的健康狀態(tài),保障其健康生長,以提高經(jīng)濟效益,該技術在奶牛養(yǎng)殖、海洋動物、蜜蜂養(yǎng)殖等的檢測跟蹤上都有應用[5-7]。
目前根據(jù)初始化方式不同,多目標跟蹤算法可分為基于檢測跟蹤(detection-based tracking,DBT)和基于初始框跟蹤(detection-tree tracking,DFT),前者是在實現(xiàn)跟蹤前,先對給定圖像或視頻內(nèi)的目標進行檢測得到信息,跟蹤過程中再將后續(xù)的信息鏈接到已有軌跡中;后者則是通過人工標定第一幀的目標,邊檢測邊跟蹤,需要人為干預。
多目標跟蹤由目標檢測器(Detection)、追蹤器(Tracking)和目標學習與分類(Learning or Classification)等部件構成,其發(fā)展過程中,主要在目標檢測器和追蹤器對不同圖像特征進行更新并對目標分類與關聯(lián)階段的不同方法進行更新,以達到快速和準確的目的[8]。目前研究的網(wǎng)絡體系結構包括卷積神經(jīng)網(wǎng)絡(CNN)、孿生神經(jīng)網(wǎng)絡(SNN)、自動編碼器(AE)、生成對抗網(wǎng)絡(GAN)和自定義神經(jīng)網(wǎng)絡,基于深度學習目標跟蹤算法發(fā)展時間線如圖1所示。
圖1 基于深度學習目標跟蹤算法發(fā)展線
為了提供一個可以公平測量和比較多目標跟蹤算法性能的方法,多目標跟蹤已經(jīng)確立了一套評估標準,具體指標包括CLEAR MOT、ID度量、多數(shù)跟蹤正確軌跡(mostly tracked trajectories,MT)、多數(shù)跟蹤失敗軌跡(mostly lost trajectories,ML)。其中,CLEAR MOT指標是由歐洲CHIL項目、美國ACE項目與技術研究院(NIST)舉辦的研究會所提出的?;?個基礎的評估指標提出了多目標跟蹤準確度(multiple object Tracking accuracy,MOTA)和多目標跟蹤精度(multiple object tracking precision,MOTP)。假陽性(false positive,F(xiàn)P)是指給定視頻中誤檢測的目標數(shù)量。假陰性(false negative,F(xiàn)N)是指給定視頻中未檢出的真實目標數(shù)量。IDSW是指給定視頻中同一目標發(fā)生ID切換的次數(shù)。
基于3個基礎評價指標提出的MOTA與MOTP,其數(shù)學表達式分別如式(1)和式(2)所示。其中,MOTA越高,表示一個跟蹤綜合性能越好,上限為1,下限負無窮。
其中,GT是給定視頻中真實框的數(shù)量;ct和dt,j分別表示幀t中匹配成功的檢測框數(shù)量和預測框與真實框的重疊。MOTA評價跟蹤算法的準確度,MOTP更關注檢測質量,很少考慮跟蹤信息。此外,多目標跟蹤的評價指標還包括IDF1(正確識別檢測與真實框和計算檢測框之比)、Recall(正確檢測框/真實框)、Frag(軌跡碎片化次數(shù))等。
多目標跟蹤是一種計算機視覺任務,通過分析視頻,以識別和跟蹤屬于一個或多個類別的對象,且無須任何關于目標外觀和數(shù)量的先驗知識。不同于對象檢測算法,其輸出是由坐標、高度和寬度標識的矩形邊界框的集合。MOT算法還將目標標識與每個框相關聯(lián)(稱為“檢測”),以區(qū)分類內(nèi)對象。近年來基于深度學習的多目標跟蹤主流算法包括檢測跟蹤分離的DBT算法和聯(lián)合檢測與跟蹤的JDT算法,各時間點代表性算法如圖2所示。
圖2 各時間點代表性算法
DBT算法分為檢測與跟蹤兩個子模塊,其性能更依賴于檢測器的質量,DBT框架多目標跟蹤流程圖如圖3所示。
圖3 DBT框架多目標跟蹤流程圖
隨著深度卷積神經(jīng)網(wǎng)絡的不斷完善,檢測跟蹤模型中的檢測算法得到了飛速發(fā)展。檢測算法通過分析每個輸入幀,使用邊界框識別目標類的對象。檢測過程中會出現(xiàn)錯過檢測(missed detection)與錯誤檢測(false detection),其中錯過檢測受環(huán)境和目標自身的遮擋影響,一般受環(huán)境影響更大,若提高目標檢測的效率,則可以有效地提升跟蹤器的性能。一個或多個特征提取算法分析檢測,提取外觀、運動或者交互特征,是進行多目標跟蹤任務的關鍵之一。深度特征是通過神經(jīng)網(wǎng)絡進行大量訓練學習提取出來的特征,利用深度特征的跟蹤方法效果較好。特征提取階段中的特征和運動預測將用于計算成對檢測與軌跡之間的相似性或距離分數(shù),而數(shù)據(jù)關聯(lián)則是將判斷相似階段產(chǎn)生的結果用于識別同目標的檢測匹配,設計合理的融合表觀特征和運動特征的代價矩陣,從而簡單地進行相鄰幀的匹配[9]。
傳統(tǒng)跟蹤方法中檢測與跟蹤是分開進行的,在建立跟蹤聯(lián)系過程中僅聯(lián)合高層數(shù),會丟失圖像外觀信息,需要一個計算量較大的特征提取器。而聯(lián)合檢測跟蹤[10](joint detection and tracking,JDT)是在基于監(jiān)測跟蹤的基礎上對部分功能模塊進行一定程度的統(tǒng)合,在降低算法復雜性的同時增加功能模塊之間的耦合度,作用在于①聯(lián)合目標的檢測與關聯(lián)共同學習,將跟蹤融入目標檢測過程中,將前幀的跟蹤結果作為輸入,更有利于處理遮擋與中斷情況;②利用深度特征強化多目標跟蹤,深度特征代替?zhèn)鹘y(tǒng)手工特征;③融合單目標跟蹤算法。
為了實現(xiàn)算法的簡化并提高跟蹤性能,自2019年以來FairMOT 聯(lián)合檢測跟蹤算法逐步出現(xiàn),BERGMANN等[11]人提出 Tracktor++算法,利用檢測網(wǎng)絡中的RPN網(wǎng)絡進行數(shù)據(jù)關聯(lián),從而實現(xiàn)檢測與跟蹤的融合。融合檢測過程中深度特征、表觀特征及運動特征實現(xiàn)特征融合復用,JDE模型實現(xiàn)了與REID特征融合,但特征融合復用難度較大,有待進一步研究。李沐雨等[12]提出雙通道與延遲處理模型,借鑒單目標跟蹤(SOT)領域實現(xiàn)多目標跟蹤,基于單目標跟蹤增強的多目標跟蹤也是采用先檢測后跟蹤的策略,如何有效地利用單目標跟蹤還需要進一步研究。
通過MOTChallenge數(shù)據(jù)集對目前基于深度學習的多目標跟蹤算法進行分析,探究其算法性能?;诠睲OT2016 數(shù)據(jù)集采用CLEAR MOT評價指標進行分析,根據(jù)上文可知,MOTA和MOTP與性能成正比(越大越好),F(xiàn)N、FP、IDSW與性能成反比(越小越好),分析結果如表1所示。
表1 基于CLEAR MOT評價指標的多目標跟蹤算法比較
從表1的算法可知,DBT模式算法在算法速度上有待提高,而JDT模式在算法準確度與速度均衡上有進步,但隨著目標增多,算法速度會降低,未來平衡準確度與速度是多目標跟蹤發(fā)展方向。
對近年來基于深度學習的多目標跟蹤算法進行整理和分析,并結合公開數(shù)據(jù)集對不同算法進行驗證,可以看出,基于檢測跟蹤作為目前主流多目標跟蹤算法,在跟蹤準確度與速度上均有較大的提升空間,在實際應用中,存在訓練數(shù)據(jù)集、實時性、長期跟蹤目標遮擋消失與遮擋等問題,在復雜環(huán)境下,跟蹤精度、魯棒性與實時性上仍有很大的困難。未來可結合遷移學習、強化學習等方法,進一步發(fā)展基于深度學習的多目標跟蹤模型。