遞歸神經(jīng)網(wǎng)絡多目標跟蹤技術(shù)

2017-11-20 09:12:32段龍云辛婷婷

電腦知識與技術(shù) 2017年26期

段龍云+辛婷婷

摘要：多目標跟蹤是計算機視覺領域的熱點問題之一。多目標跟蹤技術(shù)通過對特定目標特征的分析，獲取目標在視頻序列中的位置與區(qū)域變化，為后續(xù)數(shù)據(jù)分析、模式識別等應用提供便利。深度學習在視覺領域表現(xiàn)出了強大的能力，而基于典型的卷積神經(jīng)網(wǎng)絡（CNN）在視頻跟蹤領域因為卷積神經(jīng)網(wǎng)絡是基于空間深度的神經(jīng)網(wǎng)絡，對于處理具有時序信息的視頻多目標跟蹤困難重重，近年，因為遞歸神經(jīng)網(wǎng)絡（RNN）尤其是帶有門結(jié)構(gòu)的長段時間記憶網(wǎng)絡（LSTM）在時序任務上顯示出了突出的性能。不少研究者開始探索如何應用RNN來解決現(xiàn)有跟蹤任務中存在的問題。該文介紹了RNN目標跟蹤技術(shù)的研究背景，該領域的主要研究內(nèi)容及最新研究進展，分析了近期提出幾種較為著名的RNN目標跟蹤算法，總結(jié)其優(yōu)缺點并展望RNN目標跟蹤技術(shù)未來的發(fā)展。

關(guān)鍵詞：多目標跟蹤；遞歸神經(jīng)網(wǎng)絡；計算機視覺；RNN目標跟蹤算法

中圖分類號：TP37 文獻標識碼：A 文章編號：1009-3044（2017）26-0176-02

視頻序列中，感興趣目標運動軌跡及所占區(qū)域是非常重要的視覺信息，對于行為識別、三維重建、軍事偵察、醫(yī)療輔助[1]等方面的計算機視覺應用而言，視頻目標跟蹤是必不可少的步驟。而在無約束環(huán)境中跟蹤多個目標是非常具有挑戰(zhàn)性的。即使經(jīng)過幾十年的研究，仍然遠遠沒有達到準確的定位。其任務是定位視頻序列中的所有感興趣目標，并隨時保持目標的定位。傳統(tǒng)多目標跟蹤算法主要有兩個框架：一是先檢測后將檢測數(shù)據(jù)聯(lián)合[2]；二是基于模板學習訓練與檢測跟蹤[3]。

隨著深度學習的興起，近年來因為RNN尤其是帶有門結(jié)構(gòu)的LSTM等在時序任務上顯示出了突出的性能。不少研究者開始探索如何應用RNN來解決現(xiàn)有跟蹤任務中存在的問題。本文將著重介紹兩種利用深度學習中典型的遞歸神經(jīng)網(wǎng)絡在多目標跟蹤領域的探索性方法。它們分別是基于傳統(tǒng)多目標跟蹤算法的第一類框架和第二類框架。

第一類框架下的遞歸神經(jīng)網(wǎng)絡多目標跟蹤，稱為遞歸神經(jīng)網(wǎng)絡數(shù)據(jù)聯(lián)合多目標跟蹤，例如文獻[4]的方法，對于一個面臨離散和連續(xù)變量，輸入和輸出未知基數(shù)以及視頻序列的長度可變。在這方面的一個有趣的工作是Ondrúska和Posner（2016）最近的工作，它將深層的神經(jīng)網(wǎng)絡引入狀態(tài)估計任務。通過第一類框架下的遞歸神經(jīng)網(wǎng)絡多目標跟蹤，實現(xiàn)了現(xiàn)實情況下的多個目標的在線端到端模型學習的跟蹤。

第二類框架下的遞歸神經(jīng)網(wǎng)絡多目標跟蹤，稱為遞歸神經(jīng)網(wǎng)絡相關(guān)性檢測多目標跟蹤[5]（RTT）。為了發(fā)現(xiàn)可靠的組件，RTT采用多方向循環(huán)神經(jīng)網(wǎng)絡（RNNs）對四個不同角度的所有部分進行空間編碼。多向RNN為強大的跟蹤對象提供了以下優(yōu)點：一是循環(huán)遞歸模型可以學習各部分之間的長距離上下文相關(guān)性，并進一步產(chǎn)生與零件相關(guān)的更準確的檢測置信圖；二是從多個方向編碼可以顯著減輕在各個方向發(fā)生的遮擋的負面影響；三是目標的生成表示在某種程度上是平移不變的，因為空間網(wǎng)絡在局部部分上循環(huán)執(zhí)行；四是與具有復雜結(jié)構(gòu)的圖形模型相比，多向RNN非常簡單和容易實現(xiàn)。

1 遞歸神經(jīng)網(wǎng)絡（RNN）與長段時間記憶網(wǎng)絡（LSTM）

1.1 遞歸神經(jīng)網(wǎng)絡（RNN）

RNN可以指代兩種神經(jīng)網(wǎng)絡，遞歸神經(jīng)網(wǎng)絡以及循環(huán)神經(jīng)網(wǎng)絡，遞歸神經(jīng)網(wǎng)絡是為了解決日常現(xiàn)象中一些遞歸結(jié)構(gòu)的存在而特別設計的網(wǎng)絡，比如在圖像處理中一個表示房子的圖片中可以分為若干塊小的零件圖片，如窗戶、門，但是這些代表窗戶的圖片也可能是飛機甚至是房子的一部分；比如在自然語言處理中出現(xiàn)的名詞帶的從句中又出現(xiàn)名詞的情況。因此，遞歸神經(jīng)網(wǎng)絡是一種對網(wǎng)絡結(jié)構(gòu)的重復，重復的網(wǎng)絡權(quán)值構(gòu)成一個樹狀結(jié)構(gòu)。而循環(huán)神經(jīng)網(wǎng)絡則更偏重于時序上的處理，因此是一個鏈式的連接。如圖1所示。

如圖1，在a的基礎上加上b在時序上循環(huán)結(jié)構(gòu)構(gòu)成循環(huán)神經(jīng)網(wǎng)絡。

現(xiàn)在我們常說的遞歸神經(jīng)結(jié)構(gòu)網(wǎng)絡RNN也就是上圖中的循環(huán)神經(jīng)結(jié)構(gòu)，其主要應用是圖片分割與注釋，在自然語言處理中也有應用。但如果上文間隔過遠，就有可能出現(xiàn)難以聯(lián)想的情況。例如：“我在法國成長……此處省略100個字……我的法語說得很流利?！敝幸枚温渥钋懊娴摹胺▏睂Χ温渥詈蟮摹胺ㄕZ”進行預測，因為提示信息“法國”距離“法語”間隔過遠，RNN處理起來就比較困難。所以有人提出利用長段時間記憶網(wǎng)絡（LSTM）來解決這個問題。

1.2 長段時間記憶網(wǎng)絡（LSTM）

LSTM的改進結(jié)構(gòu)如圖2中c中與RNN的不同主要是存在控制存儲狀態(tài)的結(jié)構(gòu)，其結(jié)構(gòu)構(gòu)成與作用為：先將這個重復結(jié)構(gòu)叫做一個單元，把該單元的一次計算作為一拍，那么這個單元存在三組重要的變量：單元輸入、單元輸出以及單元狀態(tài)，從直觀來說，LSTM的作用是：

1）根據(jù)上一拍單元的輸出ht-1以及本拍的輸入xt，計算出需要單元狀態(tài)中需要遺忘的元素，這種控制是通過門（Gate， σ）實現(xiàn)的；

2）根據(jù)上一拍輸出ht-1與本拍輸入xt選擇需要在單元狀態(tài)中新記憶的狀態(tài)；

3）根據(jù)單元狀態(tài)和本拍輸入，輸出ht。

通過這樣的操作，該單元就將需要記憶的信息通過單元狀態(tài)的形式記錄下來并且在神經(jīng)元中進行傳遞，而每一次計算，神經(jīng)元都可以根據(jù)當前的輸入對單元狀態(tài)進行修改。

2 遞歸神經(jīng)網(wǎng)絡數(shù)據(jù)聯(lián)合多目標跟蹤

深度學習在多目標跟蹤方面主要的方法如下：一是受貝葉斯濾波思想的啟發(fā)，給出一種RNN網(wǎng)絡，能夠執(zhí)行多目標的跟蹤任務，這些任務包括預測，數(shù)據(jù)關(guān)聯(lián)，狀態(tài)更新以及用圖3結(jié)構(gòu)來判斷目標的出現(xiàn)和消失。用RNN進行數(shù)據(jù)聯(lián)合多目標跟蹤方法的優(yōu)點：非模型，無需學習一些先驗知識（目標動力學、雜波分布）。因此，它可以捕獲線性（卡爾曼濾波器），非線性（比較粒子濾波器）和高階依賴性；二是可以從數(shù)據(jù)中完全學到這樣的一個模型：該模型是為包含目標的出現(xiàn)和消失的數(shù)據(jù)關(guān)聯(lián)的組合問題而誕生的。利用RNN可以用來預測具有固定大小的輸入和輸出向量的序列，也可以推測具有不確定基數(shù)的無序集合；三是提出一種從生成模型中采樣以產(chǎn)生任意數(shù)量的方法；四是在模擬和實際數(shù)據(jù)上采用定性和定量的方式，都可以得到很好的結(jié)果。如圖3，遞歸神經(jīng)網(wǎng)絡數(shù)據(jù)聯(lián)合多目標跟蹤方法框架把問題分成兩個模塊：1）狀態(tài)預測和更新以及跟蹤管理；2）數(shù)據(jù)聯(lián)合。endprint

3 遞歸神經(jīng)網(wǎng)絡相關(guān)性檢測多目標跟蹤（RTT）

RNN的框架與過程：

第二類框架下的RNN目標跟蹤方法主要是利用多方向遞歸神經(jīng)網(wǎng)絡來建模和挖掘?qū)φw跟蹤有用的可靠目標部分，實際上是二維平面上的RNN建模，最終解決預測誤差累積和傳播導致的跟蹤漂移問題。其本身也是對基于部分的跟蹤方法和相關(guān)濾波方法的改進和探索。

（1）首先對每一幀的候選區(qū)域進行網(wǎng)狀分塊，對每個分塊提取HOG特征，最終相連獲得基于塊的特征：[X∈Rh×w×d]；（2）得到分塊特征以后，RTT利用前5幀訓練多方向RNN來學習分塊之間大范圍的空間關(guān)聯(lián)。通過在4個方向上的前向推進，RNN計算出每個分塊的置信度，最終每個塊的預測值組成了整個候選區(qū)域的置信圖。受益于RNN的循環(huán)結(jié)構(gòu)，每個分塊的輸出值都受到其他關(guān)聯(lián)分塊的影響，相比于僅僅考慮當前塊的準確度更高，避免單個方向上遮擋等的影響，增加可靠目標部分在整體置信圖中的影響。（3）由RNN得出置信圖之后，RTT執(zhí)行了另外一個過程。即訓練相關(guān)濾波器來獲得最終的跟蹤結(jié)果。值得注意的是，在訓練過程中RNN的置信圖對不同塊的濾波器做了加權(quán)，達到抑制背景中的相似物體，增強可靠部分的效果。（4） RTT提出了一個判斷當前跟蹤物體是否被遮擋的策略，用其判斷是否更新。即計算目標區(qū)域的置信度和，并與歷史置信度和的移動平均數(shù)做一個對比，低于一定比例，則認為受到遮擋，停止模型更新，防止引入噪聲。

4 結(jié)論

視頻目標跟蹤技術(shù)是計算機視覺領域內(nèi)研究的熱點問題，由于目標運動軌跡及目標區(qū)域提供了重要的信息，因此視頻目標跟蹤技術(shù)是非常有研究價值的。對于第一類框架下的RNN多目標跟蹤其通過設置神經(jīng)網(wǎng)絡，解決了在傳統(tǒng)多目標跟蹤過程中數(shù)據(jù)關(guān)聯(lián)和軌跡估計的難點問題。對于第二類框架下的RNN多目標跟蹤方法，RTT受制于參數(shù)數(shù)目的影響，只選用了參數(shù)較少的普通RNN結(jié)構(gòu)。

總的來說，基于RNN的目標跟蹤算法還有很大提升空間。此外，目前已有的深度學習目標跟蹤方法還很難滿足實時性的要求，如何設計網(wǎng)絡和跟蹤流程達到速度和效果的提升，還有很大的研究空間。

參考文獻：

[1] Gu J， Ding X， Wang S， et al. Full body tracking-based human action recognition[C]. International Conference on Pattern Recognition. IEEE， 2009.

[2] Adam A， Rivlin E， Shimshoni I. Robust Fragments-based Tracking using the Integral Histogram[C] Computer Vision and Pattern Recognition， 2006 IEEE Computer Society Conference on. IEEE， 2006.

[3] Kwon J， Lee K M. Tracking of a non-rigid object via patch-based dynamic appearance modeling and adaptive Basin Hopping Monte Carlo sampling[C].Computer Vision and Pattern Recognition， 2009. CVPR 2009. IEEE Conference on. IEEE， 2009.

[4] Milan A， Rezatofighi S H， Dick A， et al. Online Multi-Target Tracking Using Recurrent Neural Networks[J]. AAAI，2016，10.

[5] Ondruska P， Posner I. Deep Tracking： Seeing Beyond Seeing Using Recurrent Neural Networks[J]. RSS Workshop on Limits and Potentials of Deep Learning in Robotics，2016，5.endprint