張新強(qiáng),駱 輝,周國順
(大連東軟信息學(xué)院 智能與電子工程學(xué)院,大連 116023)
機(jī)器人技術(shù)涉及眾多領(lǐng)域的研究,目標(biāo)跟蹤不僅是機(jī)器人技術(shù)研究領(lǐng)域熱點(diǎn)之一,也是實(shí)現(xiàn)移動(dòng)機(jī)器人智能化的基礎(chǔ).視覺目標(biāo)跟蹤是一個(gè)非常有挑戰(zhàn)性的任務(wù),因?yàn)樘幚砗脤?shí)際中各種復(fù)雜多變的場景是很困難的,特征選擇是影響目標(biāo)跟蹤精度的重要因素[1].卷積神經(jīng)網(wǎng)絡(luò)通過對(duì)輸入數(shù)據(jù)進(jìn)行多層神經(jīng)網(wǎng)絡(luò)的映射,從而得到有效的分層特征抽象表達(dá)[2],解決傳統(tǒng)目標(biāo)跟蹤方法人工設(shè)計(jì)特征的難題,增強(qiáng)機(jī)器人對(duì)環(huán)境的理解和建模,實(shí)現(xiàn)移動(dòng)機(jī)器人在各種場景中對(duì)目標(biāo)的實(shí)時(shí)檢測與跟蹤[3-5].
本文利用深度學(xué)習(xí)框架,訓(xùn)練對(duì)目標(biāo)形變、視角、輕微遮擋及光照變化具有魯棒性的跟蹤模型,并根據(jù)實(shí)際應(yīng)用要求進(jìn)行調(diào)整,使其對(duì)特定類型的目標(biāo)跟蹤更加準(zhǔn)確[6-8],實(shí)現(xiàn)移動(dòng)機(jī)器人在各種場景下有效地檢測并跟蹤目標(biāo),從而使其能高效協(xié)助其他機(jī)器人、自動(dòng)化設(shè)備及相關(guān)人員完成對(duì)應(yīng)復(fù)雜場景下的任務(wù).
傳統(tǒng)的機(jī)器人系統(tǒng)開發(fā)通常著重于整體功能的設(shè)計(jì),使機(jī)器人系統(tǒng)之間每個(gè)模塊的耦合能力很強(qiáng),難以相互分離,極大地影響代碼的可復(fù)用性和可移植性及實(shí)際開發(fā)中部署的效率.
隨著機(jī)器人對(duì)代碼重用和模塊化的要求越來越高,使得很好地適應(yīng)其要求的開源機(jī)器人操作系統(tǒng)ROS嶄露頭角,其由多個(gè)各自獨(dú)立的節(jié)點(diǎn)組成,并且各個(gè)節(jié)點(diǎn)之間可以通過發(fā)布/訂閱消息模型進(jìn)行通信.
ROS 支持多種編譯語言協(xié)作實(shí)現(xiàn)功能,使用標(biāo)準(zhǔn)的TCP/IP 協(xié)議實(shí)現(xiàn)了系統(tǒng)內(nèi)部各個(gè)節(jié)點(diǎn)之間的通信,接口可以將第三方組件認(rèn)為是其操作系統(tǒng)的一部分,這些功能可滿足大部分研發(fā)人員的需求.如今ROS 的應(yīng)用范圍已涵蓋機(jī)械臂抓取、導(dǎo)航機(jī)器人、人形機(jī)器人、移動(dòng)機(jī)器人底盤、無人機(jī)器船、無人飛行器等高新技術(shù)領(lǐng)域[9,10].
TurtleBot 是一個(gè)基于ROS 機(jī)器人操作系統(tǒng)的低成本開源移動(dòng)機(jī)器人,可在復(fù)雜環(huán)境下實(shí)現(xiàn)許多功能,充分地滿足大多數(shù)科研工作的研發(fā)需要.
Kinect 視覺深度傳感器將特定圖案的光投射到物體表面,然后用相機(jī)接收物體表面反射的結(jié)構(gòu)光圖案的變形,從而測量物體與物體之間的距離.Kinect 能夠同時(shí)提供彩色信息和深度信息,因此非常適用于移動(dòng)機(jī)器人跟蹤目標(biāo),且可以避免單一信息不足帶來的困擾[11].
傳統(tǒng)的目標(biāo)跟蹤針對(duì)不同的樣本通過人工設(shè)計(jì)獲取樣本的特征,不僅需要專業(yè)的知識(shí)字段,而且實(shí)際應(yīng)用中因?yàn)槠涮卣魅狈Ψ夯?效果并不令人滿意.因此傳統(tǒng)的目標(biāo)跟蹤算法實(shí)現(xiàn)的目標(biāo)跟蹤準(zhǔn)確度無法滿足移動(dòng)機(jī)器人工程化應(yīng)用的需求.
卷積神經(jīng)網(wǎng)絡(luò)是近年發(fā)展起來,并在計(jì)算機(jī)視覺領(lǐng)域廣泛應(yīng)用并已取得豐碩成果的高效識(shí)別方法,其能夠?qū)W習(xí)到原始輸入圖像的不同層次的特征抽象,對(duì)各種計(jì)算機(jī)視覺任務(wù)具有優(yōu)良的學(xué)習(xí)能力和泛化能力,為實(shí)現(xiàn)移動(dòng)機(jī)器人目標(biāo)跟蹤的功能奠定基礎(chǔ).
如圖1 所示,卷積神經(jīng)網(wǎng)絡(luò)是一種前饋神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),其主體通常是由卷積層和池化層組成的模塊級(jí)聯(lián)構(gòu)成,然后通過全連接層或者分類器,對(duì)提取到的特征向量進(jìn)行分類,輸出分類結(jié)果.其采用局部感知和參數(shù)共享的技術(shù)手段,降低卷積神經(jīng)網(wǎng)絡(luò)中參數(shù)的規(guī)模,從而獲得針對(duì)不同檢測任務(wù)有更強(qiáng)魯棒性的網(wǎng)絡(luò)模型[1,12-14].
伴隨著近年深度學(xué)習(xí)技術(shù)的快速發(fā)展,許多大學(xué)和科研機(jī)構(gòu)都推出了深度學(xué)習(xí)開發(fā)框架,推動(dòng)了深度學(xué)習(xí)工程化應(yīng)用的進(jìn)程,極大地增強(qiáng)深度學(xué)習(xí)工作的可復(fù)用性及實(shí)際從事深度學(xué)習(xí)的研究人員在開發(fā)中部署的效率.與Torch7、Theano 和Pylearn2 等框架相比,Caffe 具有以下獨(dú)特的優(yōu)勢:
(1)Caffe 內(nèi)置Python 和Matlab 兩種外部接口,方便對(duì)實(shí)驗(yàn)數(shù)據(jù)的后續(xù)分析.
(2)Caffe 有多個(gè)基本數(shù)據(jù)集的培訓(xùn)配置文檔,包括快速培訓(xùn)模型和完整培訓(xùn)模型.
(3)Caffe 采用GPU 并行技術(shù),增強(qiáng)代碼的執(zhí)行效率,大大地縮短模型的訓(xùn)練時(shí)間.
(4)Caffe 基于盡可能多的模塊化原則,這使得擴(kuò)展新的數(shù)據(jù)格式、網(wǎng)絡(luò)層和丟失功能變得很容易.
使用能從數(shù)據(jù)中學(xué)習(xí)深層本質(zhì)特征的卷積神經(jīng)網(wǎng)絡(luò),利用Caffe 深度學(xué)習(xí)框架對(duì)模型進(jìn)行大規(guī)模數(shù)據(jù)訓(xùn)練,從而獲得大量具有代表性的功能信息,以實(shí)現(xiàn)移動(dòng)機(jī)器人目標(biāo)跟蹤的功能[15].
眾多研究人員往往嘗試使用神經(jīng)網(wǎng)絡(luò)以在線訓(xùn)練的方式進(jìn)行跟蹤,然而,神經(jīng)網(wǎng)絡(luò)訓(xùn)練是一個(gè)緩慢的過程,導(dǎo)致跟蹤速度非常慢,其中性能最好的跟蹤器在GPU 上以100 FPS 的速度運(yùn)行[8].因此,這些使用在線訓(xùn)練方式的跟蹤器不適用于需要以實(shí)時(shí)速度進(jìn)行目標(biāo)跟蹤的移動(dòng)機(jī)器人上.
GOTURN(Generic Object Tracking Using Regression Networks)是基于回歸網(wǎng)絡(luò)的通用對(duì)象跟蹤算法,其能通過大量數(shù)據(jù)進(jìn)行離線訓(xùn)練,并采用單次回歸到目標(biāo)對(duì)象位置的方法,成為第一個(gè)能夠以100 FPS 的速度跟蹤目標(biāo)的深度學(xué)習(xí)跟蹤算法,對(duì)未見過的類別樣例進(jìn)行魯棒性地跟蹤,對(duì)特定類別樣例的跟蹤效果更好.
GOTURN 的網(wǎng)絡(luò)結(jié)構(gòu)是將跟蹤目標(biāo)區(qū)域與搜索區(qū)域作為輸入,同時(shí)輸入至兩個(gè)卷積神經(jīng)網(wǎng)絡(luò)中,再經(jīng)過全連接層返回目標(biāo)的位置,如圖2 所示.因其兩個(gè)卷積層配置和參數(shù)是相同的,故也稱為孿生神經(jīng)網(wǎng)絡(luò).
圖2 運(yùn)動(dòng)目標(biāo)誤判效果
GOTURN 網(wǎng)路的卷積層是由Caffe Net 的前五層卷積層及池化層依次排列組成,其輸出被連接成完整的向量輸入到3 個(gè)有4096 個(gè)節(jié)點(diǎn)并完全連接的全連接層中,最后連接到擁有4 個(gè)節(jié)點(diǎn)的輸出層輸出矩形返回目標(biāo)的運(yùn)動(dòng)位置,表示目標(biāo)左上角和右下角的坐標(biāo).
如圖3 所示,假設(shè)在坐標(biāo)系t-1 中,目標(biāo)被標(biāo)記為中心位置C(cx,cy),w為矩形框的寬度,h為矩形框的高度.然后在t時(shí)刻,取以C(cx,cy)為中心的圖像塊對(duì)坐標(biāo)系t當(dāng)前幀的要跟蹤的目標(biāo)進(jìn)行標(biāo)定.剪裁出來的框大小為k1×w,k1×h,k1決定接受多少背景信息.
圖3 GOTURN 輸入輸出網(wǎng)絡(luò)
為了知道目標(biāo)在當(dāng)前幀中的位置,跟蹤首先基于上一幀的位置,找到待搜尋目標(biāo)的區(qū)域,并確定目標(biāo)在當(dāng)前幀的近似位置.網(wǎng)絡(luò)的目的就是要回歸目標(biāo)在當(dāng)前搜索區(qū)域中的位置,在幀中選擇跟蹤器的搜索框,確定搜索字段后,留下搜索字段對(duì)應(yīng)的圖像塊.
具體來說,從幀圖像中截取的搜索字段P以C'(cx,cy)為中心,即C作為目標(biāo)的平均位置.假設(shè)C'=C,和前一幀框出來的區(qū)域是一樣的,搜索區(qū)域的大小為k×w,k2×h,w和h為上一幀目標(biāo)標(biāo)記矩形框的寬度和高度,k2為目標(biāo)搜索半徑.事實(shí)上,讓k1=k2=2.只要目標(biāo)沒有被遮擋或移動(dòng)得太快,通常就會(huì)在搜索字段中找到并定位目標(biāo).對(duì)于快速移動(dòng)的目標(biāo),k1,k2就需要增大.
本文設(shè)計(jì)的目標(biāo)跟蹤模型在ILSVRC Challenge[16]及VOT Challenge[17]數(shù)據(jù)集上進(jìn)行訓(xùn)練和評(píng)估,如圖4和圖5 所示,它由美國斯坦福大學(xué)的李飛飛等所創(chuàng)立,包含近1400 萬的圖像幀.視頻的每一幀都注釋有遮擋、光照變化、運(yùn)動(dòng)、大小變化、機(jī)位移動(dòng)等變化形式.本文改進(jìn)目標(biāo)跟蹤算法的訓(xùn)練集由ILSVRC2017訓(xùn)練集、驗(yàn)證集和ALOV 訓(xùn)練集組成,改進(jìn)檢測模型的測試集在VOT2014 測試集上進(jìn)行評(píng)估.
圖4 VOT challenge 數(shù)據(jù)集
深度卷積神經(jīng)網(wǎng)絡(luò)需要海量的有標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練,從而使得訓(xùn)練出的模型能從訓(xùn)練圖像數(shù)據(jù)集中獲得較好的特征表達(dá).當(dāng)數(shù)據(jù)集數(shù)據(jù)不足時(shí),深度卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練出的模型往往表現(xiàn)不佳.對(duì)于訓(xùn)練樣本,現(xiàn)有的帶有真實(shí)標(biāo)簽的數(shù)據(jù)集包含的視頻序列較少,為了使深度學(xué)習(xí)訓(xùn)練出的模型針對(duì)不同的任務(wù)有更強(qiáng)的泛化能力,需要使用更大的數(shù)據(jù)集進(jìn)行訓(xùn)練.目前,改善這個(gè)問題的方法是數(shù)據(jù)集增強(qiáng),即對(duì)已有數(shù)據(jù)進(jìn)行處理,創(chuàng)建新數(shù)據(jù)對(duì)訓(xùn)練集進(jìn)行擴(kuò)充.
圖5 ILSVRC challenge 數(shù)據(jù)集
創(chuàng)建新數(shù)據(jù)的方法是將輸入數(shù)據(jù)進(jìn)行隨機(jī)平移或旋轉(zhuǎn)等操作擴(kuò)充數(shù)據(jù)集,并且對(duì)標(biāo)定的真實(shí)數(shù)據(jù)保持相同的變換.假設(shè)(cx,cy)和分別為變換前后的目標(biāo)中心點(diǎn)坐標(biāo),通過預(yù)測其下一步移動(dòng)位置來生成樣本,如式(1),式(2):
其中,橫縱向的位移量Δx和Δy服從Laplace 分布,其概率分布如式(3):
其中,μ為位置參數(shù),b為尺度參數(shù),其函數(shù)形式類似于雙指數(shù)分布,如圖6 所示.
圖6 橫縱向的位移量Δx 和Δy 服從Laplace 分布
μ決定函數(shù)中心位置,而b越小函數(shù)越陡,且中間區(qū)域面積越大,因此目標(biāo)中心位置主要是小范圍的變動(dòng).通過交叉驗(yàn)證,該實(shí)驗(yàn)最終選取的分布參數(shù)如式(4):
利用以上方法,對(duì)訓(xùn)練集中的圖像隨機(jī)切塊,然后將樣本做小批的梯度下降處理,以此保證跟蹤窗口必須至少包含目標(biāo)的一半,并通過約束來防止目標(biāo)窗口過度拉伸和變形.通過這個(gè)方法實(shí)現(xiàn)對(duì)訓(xùn)練樣本的擴(kuò)充,大大改善模型的泛化能力.
GOTURN 算法離線訓(xùn)練網(wǎng)絡(luò)的過程如圖7 所示,將耗時(shí)的計(jì)算過程離線進(jìn)行,使跟蹤時(shí)不需要進(jìn)行在線更新,是算法速度足夠快的一個(gè)重要原因.由于能夠獲取到測試數(shù)據(jù)中任意時(shí)刻的信息,因此可以在測試數(shù)據(jù)上同時(shí)行前向和后向搜索以進(jìn)行全局的優(yōu)化.
圖7 GOTURN 離線訓(xùn)練和目標(biāo)跟蹤測試
為了更直觀地認(rèn)識(shí)GOTURN 算法的跟蹤結(jié)果,用視頻序列對(duì)算法進(jìn)行了測試.每個(gè)序列的屬性如表1所示.
表1 測試視頻序列分析
GOTURN 算法的視頻序列跟蹤結(jié)果如圖8 所示.通過實(shí)驗(yàn)數(shù)據(jù)分析,GOTURN 算法具有良好的跟蹤能力,能在簡單的場景中實(shí)現(xiàn)目標(biāo)跟蹤,對(duì)尺度變化、變形等具有較強(qiáng)的魯棒性.在跟蹤目標(biāo)有類似的目時(shí)GOTURN 算法可能會(huì)導(dǎo)致跟蹤目標(biāo)丟失而跟蹤其他對(duì)象.分析原因發(fā)現(xiàn)GOTURN 算法使用的數(shù)據(jù)集是一個(gè)分類數(shù)據(jù)集,其離線訓(xùn)練的跟蹤模型更適合數(shù)據(jù)集中存在的類別的目標(biāo),對(duì)于不存在的類別其識(shí)別能力較差.因此可以利用離線海量數(shù)據(jù)集,根據(jù)某一場景,訓(xùn)練專門跟蹤某一類別的跟蹤器,以充分利用GOTURN算法的優(yōu)勢.分別更換數(shù)據(jù)集、損失函數(shù),對(duì)GOTURN 的跟蹤結(jié)果進(jìn)行嚴(yán)謹(jǐn)?shù)膶?shí)驗(yàn),如圖9 所示,隨著訓(xùn)練視頻的增加,GOTURN 算法的泛化性能越好.因此,如果通過標(biāo)記更多的視頻來增加訓(xùn)練集的大小,則可以獲得進(jìn)一步的收益.
圖8 GOTURN 算法的視頻序列跟蹤結(jié)果
圖9 泛化性能實(shí)驗(yàn)
通過對(duì)大量標(biāo)記圖像的訓(xùn)練,跟蹤器可以跟蹤各種不同類型的物體;通過對(duì)視頻和圖像的訓(xùn)練,跟蹤器學(xué)會(huì)在不同的條件下跟蹤各種對(duì)象類型.跟蹤器對(duì)背景運(yùn)動(dòng)、平面外旋轉(zhuǎn)、變形、光照變化和輕微遮擋保持不變,達(dá)到最大的性能.
本文系統(tǒng)采用Ubuntu14.04 操作系統(tǒng)、ROS 系統(tǒng)(版本為Indigo)、CPU 為Intel(R)Core(TM)i7-4720HQ CPU @ 2.60 GHz、內(nèi)存為16 GB,在Caffe 深度學(xué)習(xí)框架的開發(fā)環(huán)境下編碼設(shè)計(jì)實(shí)現(xiàn)的.使用Caffe 深度學(xué)習(xí)框架實(shí)現(xiàn)目標(biāo)檢測與跟蹤系統(tǒng),并將其應(yīng)用到移動(dòng)機(jī)器人上,從而高效協(xié)助其他相關(guān)機(jī)器人、自動(dòng)化設(shè)備及人員等完成對(duì)應(yīng)復(fù)雜場景下的任務(wù).
系統(tǒng)由各個(gè)功能程序的節(jié)點(diǎn)組成,使用ROS 系統(tǒng)中的主題方式來實(shí)現(xiàn)各個(gè)程序之間的互相通信.程序主要部分是獲取視覺信息節(jié)點(diǎn)、跟蹤節(jié)點(diǎn)、移動(dòng)機(jī)器人目標(biāo)跟蹤運(yùn)行程序,傳輸圖像在ROS 中同樣是以消息格式進(jìn)行,節(jié)點(diǎn)之間的通信狀態(tài)如圖10 所示.
對(duì)于目標(biāo)跟隨來說,一個(gè)關(guān)鍵的問題是當(dāng)被跟隨目標(biāo)經(jīng)過遮擋后再次出現(xiàn)在攝像頭畫面時(shí),跟隨系統(tǒng)能再次檢測到它,并保持對(duì)該目標(biāo)跟蹤.傳統(tǒng)的跟隨算法在運(yùn)行時(shí),目標(biāo)容易受到外界環(huán)境,如光照或者目標(biāo)形變等外界因素影響,導(dǎo)致跟隨失敗.
利用具備深度感知能力的Kinect 傳感器獲取跟蹤目標(biāo)的視覺信息,并且以O(shè)penCV 的CvBridge 庫為橋梁,將目標(biāo)的視覺信息轉(zhuǎn)換為ROS 機(jī)器人操作系統(tǒng)可以使用的數(shù)據(jù)格式,使得GOTURN 算法離線訓(xùn)練出的目標(biāo)跟蹤模型,可應(yīng)用于TurtleBot 移動(dòng)機(jī)器人上,通過CvBridge 庫傳遞視覺信息的結(jié)構(gòu)如圖11所示.
目標(biāo)跟蹤程序通過獲取目標(biāo)視覺信息模塊、測距模塊、目標(biāo)跟蹤模塊3 種相互配合,獲取目標(biāo)視覺信息模塊與測距模塊交互進(jìn)行,獲取目標(biāo)視覺信息模塊通過CvBridge 將Kinect 傳感器獲得的目標(biāo)視覺信息由ROS 數(shù)據(jù)格式轉(zhuǎn)換為GOTURN 可用的數(shù)據(jù)格式,目標(biāo)跟蹤模塊使跟蹤目標(biāo)被出現(xiàn)在畫面中時(shí),會(huì)被程序檢測到并對(duì)其進(jìn)行跟隨,測距模塊保證了該目標(biāo)被系統(tǒng)鎖定并始終保持對(duì)該目標(biāo)的跟隨并使跟隨效果不易受到外界環(huán)境影響.
跟蹤目標(biāo)時(shí),機(jī)器人記錄目標(biāo)物體的坐標(biāo),利用GOTURN 算法標(biāo)定的跟蹤目標(biāo)矩形框回歸輸出的目標(biāo)左上角和右下角的坐標(biāo),使用控制基于ROS 的TurtleBot 機(jī)器人移動(dòng)的geometry_msgs/Twist 消息,將圖像劃分為9 個(gè)區(qū)域,根據(jù)目標(biāo)所在的區(qū)域調(diào)整機(jī)器人的位置和搜索區(qū)域,具體圖像分區(qū)情況如圖12 所示,由此控制移動(dòng)機(jī)器人的移動(dòng).
圖10 目標(biāo)跟蹤運(yùn)行程序的節(jié)點(diǎn)通信狀態(tài)圖
圖11 ROS 中使用CvBridge 傳遞視覺信息
圖12 目標(biāo)跟蹤時(shí)機(jī)器人的運(yùn)動(dòng)控制圖像分區(qū)圖
打開終端,對(duì)程序包內(nèi)的所有文件進(jìn)行編譯,當(dāng)終端窗口顯示程序編譯已完成百分之百,并發(fā)現(xiàn)所有文件無異常,程序正常運(yùn)行.執(zhí)行系統(tǒng)功能操作,啟動(dòng)跟蹤結(jié)點(diǎn),跟蹤節(jié)點(diǎn)根據(jù)上一幀的位置,找到待搜尋目標(biāo)的區(qū)域,并確定目標(biāo)在當(dāng)前幀的近似位置,根據(jù)搜索半徑在當(dāng)前幀的待搜索區(qū)域找到并定位目標(biāo),如圖13所示.
圖13 TurtleBot 跟蹤目標(biāo)
根據(jù)實(shí)際應(yīng)用對(duì)目標(biāo)跟蹤模型進(jìn)行調(diào)整,使模型對(duì)特定類型的目標(biāo)跟蹤更加準(zhǔn)確,實(shí)現(xiàn)移動(dòng)機(jī)器人在各種場景下有效地檢測并跟蹤目標(biāo),跟蹤實(shí)驗(yàn)效果如圖14 所示.
圖14 TurtleBot 跟蹤目標(biāo)
該系統(tǒng)中機(jī)器人信號(hào)實(shí)時(shí)傳輸,設(shè)備簡潔易于操作,ROS 系統(tǒng)下每個(gè)文件程序之間作為節(jié)點(diǎn)相互協(xié)作,各模塊功能可靠.
利用深度學(xué)習(xí)框架,訓(xùn)練對(duì)目標(biāo)視角、形變及光照等變化具有魯棒性的跟蹤模型,并根據(jù)實(shí)際應(yīng)用進(jìn)行調(diào)整,使其對(duì)特定類型的目標(biāo)跟蹤更加準(zhǔn)確,可以實(shí)現(xiàn)移動(dòng)機(jī)器人多種場景下有效地檢測并跟蹤目標(biāo).
實(shí)驗(yàn)結(jié)果及性能分析證明,GOTURN 目標(biāo)跟蹤算法是實(shí)時(shí)性和精度要求都很高的目標(biāo)跟蹤算法,其離線訓(xùn)練和單次回歸目標(biāo)位置的方式使其能夠以100 FPS 以上的速度跟蹤目標(biāo),使基于深度學(xué)習(xí)的目標(biāo)跟蹤應(yīng)用在移動(dòng)機(jī)器人上成為可能,并滿足移動(dòng)機(jī)器人目標(biāo)跟蹤的實(shí)時(shí)性及魯棒性,這是我們選擇使用GOTURN 目標(biāo)跟蹤算法的重要原因.
GOTURN 算法具有良好的跟蹤能力,對(duì)尺度變化、形變、光照變化、平面外旋轉(zhuǎn)和輕微遮擋等具有較強(qiáng)的魯棒性,但在有類似跟蹤目標(biāo)時(shí)GOTURN 算法可能會(huì)導(dǎo)致目標(biāo)丟失而跟蹤其他對(duì)象,而在線更新機(jī)制能可以很好地適應(yīng)目標(biāo)自身和周圍背景的變化,同時(shí)也能區(qū)分同一類別的不同目標(biāo).因此,將離線訓(xùn)練和在線更新機(jī)制有機(jī)結(jié)合起來能彌補(bǔ)兩者直接的劣勢,同時(shí)又能發(fā)展各自的優(yōu)勢.
GOTURN 算法使用的數(shù)據(jù)集是一個(gè)分類數(shù)據(jù)集,其離線訓(xùn)練的跟蹤模型更適合數(shù)據(jù)集中存在的類別的目標(biāo),因此可以利用離線海量數(shù)據(jù)集,根據(jù)某一場景,訓(xùn)練專門跟蹤某一類別的跟蹤器,以充分利用GOTURN 算法的優(yōu)勢.GOTURN 目標(biāo)跟蹤算法離線訓(xùn)練和單次回歸目標(biāo)位置的方式使基于深度學(xué)習(xí)的目標(biāo)跟蹤應(yīng)用在移動(dòng)機(jī)器人上成為可能,并滿足移動(dòng)機(jī)器人目標(biāo)跟蹤的實(shí)時(shí)性及魯棒性,從而使其能高效協(xié)助其他相關(guān)機(jī)器人、自動(dòng)化設(shè)備及人員等完成對(duì)應(yīng)復(fù)雜場景下的任務(wù),在軍事和民用領(lǐng)域都具備十分寬泛的應(yīng)用價(jià)值.