郭星辰,張 葆,宋 策
(1.中國(guó)科學(xué)院 長(zhǎng)春光學(xué)精密機(jī)械與物理研究所 中國(guó)科學(xué)院航空光學(xué)成像與測(cè)量重點(diǎn)實(shí)驗(yàn)室,吉林 長(zhǎng)春130033;2.中國(guó)科學(xué)院大學(xué),北京100049)
目標(biāo)跟蹤作為計(jì)算機(jī)視覺(jué)技術(shù)的分支,廣泛應(yīng)用于視頻檢索、智能監(jiān)控、人機(jī)交互、火控制導(dǎo)等領(lǐng)域。根據(jù)已知目標(biāo)的先驗(yàn)知識(shí),對(duì)模板進(jìn)行評(píng)估、分類(lèi)、標(biāo)識(shí),獲取視頻序列中目標(biāo)狀態(tài)(如位置、速度等),實(shí)現(xiàn)目標(biāo)跟蹤。雖然國(guó)內(nèi)外學(xué)者對(duì)跟蹤技術(shù)進(jìn)行多年研究,編寫(xiě)出許多著名算法(如MIL[1],Mean-shift[2],TLD[3]等),但是由于在空對(duì)地跟蹤過(guò)程中,目標(biāo)尺度、旋轉(zhuǎn)、融合等問(wèn)題引起跟蹤模板退化,導(dǎo)致跟蹤效果不理想,難以滿(mǎn)足實(shí)際工程的需要[4]。
SVM 是20 世紀(jì)90 年代Vapnik 和Cortes 提出的用于模式識(shí)別的方法[5]。它是建立在統(tǒng)計(jì)學(xué)習(xí)理論的VC 維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理基礎(chǔ)上的,通過(guò)對(duì)原問(wèn)題二次規(guī)劃求取全局最優(yōu)解,解決機(jī)器學(xué)習(xí)問(wèn)題,可利用小樣本對(duì)目標(biāo)學(xué)習(xí),訓(xùn)練分類(lèi)器,屬半監(jiān)督學(xué)習(xí)。隨著目標(biāo)表示方法增多,采用多種表示方法可得到高精度跟蹤效果使得在跟蹤中數(shù)據(jù)維數(shù)增大,導(dǎo)致實(shí)時(shí)性下降,SVM 在處理高維數(shù)據(jù)中表現(xiàn)出獨(dú)特的優(yōu)勢(shì)[6]。針對(duì)小樣本數(shù)據(jù),SVM 分類(lèi)器[7]對(duì)樣本的學(xué)習(xí)能力能夠解決跟蹤中目標(biāo)丟失、融合等問(wèn)題?;谏鲜龇治觯疚囊牖赟VM 分類(lèi)跟蹤算法,利用灰度直方圖和哈爾特征提取目標(biāo)特征,采用線性、高斯等核函數(shù)對(duì)視頻評(píng)估,實(shí)現(xiàn)目標(biāo)精準(zhǔn)跟蹤。
n 維實(shí)數(shù)集X 表示輸入空間,m 維實(shí)數(shù)集Y 表示輸出空間,Z=X×Y 表示樣本空間,F(xiàn) 表示目標(biāo)函數(shù)集合。機(jī)器學(xué)習(xí)的目的是在集合F 中找到一個(gè)函數(shù)f*(x,α*)逼近滿(mǎn)足樣本空間Z 中的位置概率分布F。則目標(biāo)函數(shù)的實(shí)際風(fēng)險(xiǎn)式中,L(y,f(x,α))為一個(gè)給定模式x 的真實(shí)值和計(jì)算值f(x,α)之間的損失函數(shù)。
與用經(jīng)驗(yàn)風(fēng)險(xiǎn)Remp(f)逼近真實(shí)風(fēng)險(xiǎn)的經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化原理不同,結(jié)構(gòu)風(fēng)險(xiǎn)最小化(Structural Risk Minimization,SRM)原理引入置信風(fēng)險(xiǎn)ε(l,δ,h)
根據(jù)文獻(xiàn)[5],ε(l,δ,h)可表示為
當(dāng)VC 維h 增加時(shí),系統(tǒng)對(duì)于目標(biāo)細(xì)節(jié)掌握的先驗(yàn)知識(shí)越多,其識(shí)別能力越強(qiáng),能夠在從背景中精確的鎖定目標(biāo),因此經(jīng)驗(yàn)風(fēng)險(xiǎn)Remp(f)隨著h 的增加而減小;然而,從式(3)可見(jiàn),算法的置信風(fēng)險(xiǎn)ε 與VC 維h 成正比,這是因?yàn)閔 的增加會(huì)導(dǎo)致系統(tǒng)對(duì)背景噪聲過(guò)于敏感,背景中一個(gè)細(xì)小干擾都會(huì)對(duì)目標(biāo)識(shí)別結(jié)果造成很大的影響。SRM 原理將真實(shí)風(fēng)險(xiǎn)在經(jīng)驗(yàn)風(fēng)險(xiǎn)與置信風(fēng)險(xiǎn)之間(分類(lèi)模型復(fù)雜度與學(xué)習(xí)能力)尋求了一個(gè)折中,三者關(guān)系如圖1 所示,在滿(mǎn)足跟蹤精度的前提下,提高跟蹤過(guò)程實(shí)時(shí)性。
圖1 分類(lèi)模型與學(xué)習(xí)能力關(guān)系
支持向量分類(lèi)器[8](Support Vector Classification,SVC)基本設(shè)計(jì)思想為,利用核函數(shù)對(duì)現(xiàn)實(shí)問(wèn)題二次規(guī)劃為凸優(yōu)化問(wèn)題,將尺度空間中線性可分與線性不可分?jǐn)?shù)據(jù)均映射為特征空間中線性可分?jǐn)?shù)據(jù),利用最大間隔分類(lèi)器(即支持向量分類(lèi)器)對(duì)數(shù)據(jù)學(xué)習(xí)、分類(lèi)。
經(jīng)二次優(yōu)化后,求解決策函數(shù)的問(wèn)題轉(zhuǎn)化為求解優(yōu)化問(wèn)題
式中:ω 為權(quán)重向量,b 為偏置,二者共同決定分類(lèi)超平面;l為樣本總數(shù)。位于ω,b 所確定的分類(lèi)超平面上或在超平面附近的輸入向量x*被稱(chēng)為支持向量[9],即為圖像中區(qū)分于背景的目標(biāo)特征。
選擇支持向量機(jī)的優(yōu)勢(shì)在于它能夠?qū)⒊叨瓤臻g中線性不可分?jǐn)?shù)據(jù)通過(guò)非線性映射函數(shù)映射為高維特征空間中線性可分?jǐn)?shù)據(jù),繼而在特征空間中選取分類(lèi)超平面。為了得到非線性映射,支持向量機(jī)引入核函數(shù)概念,根據(jù)Mercer 定理避免了在高維特征空間中進(jìn)行內(nèi)積運(yùn)算問(wèn)題,進(jìn)一步提升運(yùn)算速度。
Mercer 定理:如果函數(shù)K 是Rn×Rn→R 上的映射(即兩個(gè)n 維向量映射到實(shí)數(shù)域)。那么K 是一個(gè)有效函數(shù)(也成Mercer 核函數(shù)),當(dāng)且僅當(dāng)對(duì)于訓(xùn)練樣本{x1,x2,…,xl},其相應(yīng)的核函數(shù)是對(duì)稱(chēng)半正定的[10]。
本次實(shí)驗(yàn)采用的核函數(shù)下面分別介紹。
線性核函數(shù)是各類(lèi)核函數(shù)中形式最簡(jiǎn)單的,僅僅為兩個(gè)向量的內(nèi)積。采用線性核函數(shù)算法等價(jià)于不采用核函數(shù),故該核函數(shù)針對(duì)于尺度空間中線性可分的數(shù)據(jù)。
高斯核函數(shù)也稱(chēng)徑向基核函數(shù)(Randial Basis Function Kernel,RBF),二者的主要差別是高斯函數(shù)每一個(gè)基函數(shù)中心對(duì)應(yīng)一個(gè)支持變量,輸出權(quán)值由算法自主決定。函數(shù)中變量十分重要,選取過(guò)大會(huì)導(dǎo)致函數(shù)趨向于線性核函數(shù),高維特征空間將失去其非線性特性;選取過(guò)小會(huì)導(dǎo)致函數(shù)對(duì)決策邊緣噪聲敏感,影響目標(biāo)跟蹤準(zhǔn)確度。
選取不同核函數(shù)將構(gòu)成不同的支持向量機(jī),并且對(duì)不同實(shí)驗(yàn)數(shù)據(jù)效果亦不相同[11]。線性核函數(shù)和高斯核函數(shù)應(yīng)用較為廣泛,針對(duì)線性可分?jǐn)?shù)據(jù),各類(lèi)核函數(shù)分類(lèi)效果大同小異,然而線性核函數(shù)計(jì)算量大大小于其他核函數(shù),可減少算法運(yùn)行時(shí)間,有利于提高算法實(shí)時(shí)性。高斯核函數(shù)適用范圍廣,不論低維、高維、大小樣本等情況,高斯核函數(shù)均適用。
直方圖是多種空間域處理技術(shù)的基礎(chǔ)。直方圖能有效用于圖像增強(qiáng),其固有信息在其他圖像處理應(yīng)用(如圖像壓縮與分割)中也非常有用。直方圖在軟件中易于計(jì)算,也適用于商業(yè)硬件設(shè)備,因此它是實(shí)時(shí)圖像處理的一個(gè)流行工具。
本實(shí)驗(yàn)將灰度直方圖作為目標(biāo)表示,主要是考慮到其計(jì)算簡(jiǎn)易性,減小算法復(fù)雜度?;叶戎狈綀D包含了目標(biāo)的亮度信息,為了進(jìn)一步突出其易于計(jì)算的特點(diǎn),本算法并未直接對(duì)波門(mén)中目標(biāo)像素進(jìn)行直方圖提取,而是先對(duì)波門(mén)信息進(jìn)行灰度降級(jí),如此大大縮減了像素灰度數(shù)量與存儲(chǔ)空間,進(jìn)而將目標(biāo)進(jìn)行一定數(shù)量的等分,將圖像分塊后再進(jìn)行直方圖處理,在減少像素?cái)?shù)量的同時(shí),不會(huì)丟失目標(biāo)特有的亮度信息。
哈爾(Haar-like)特征是計(jì)算機(jī)視覺(jué)領(lǐng)域常用的一種特征算子。最初由Papageorigiou 等人用于人臉描述[13-14],分為4 類(lèi)共15 個(gè)算子,其中對(duì)角線特征1 個(gè),中心特征(點(diǎn)特征)2個(gè),邊緣特征4 個(gè),線特征8 個(gè)。特征算子表示為黑白相間的矩形,其特征值定義為黑色區(qū)域的像素與白色區(qū)域像素的差值,在相減過(guò)程中,保證二者的像素?cái)?shù)相同。矩形特征的位置、大小根據(jù)實(shí)驗(yàn)需要進(jìn)行調(diào)整。
矩形特征的靈活性(矩形大小、位置、像素權(quán)值)可為分類(lèi)器提供大量目標(biāo)特征,積分圖為哈爾特征提供快速算法,可在較短時(shí)間內(nèi)完成對(duì)大量矩形特征計(jì)算,可滿(mǎn)足目標(biāo)跟蹤準(zhǔn)確性和實(shí)時(shí)性的要求[15]。故采用哈爾特征對(duì)目標(biāo)進(jìn)行表示,在提取目標(biāo)固有特征同時(shí),能夠在跟蹤過(guò)程中目標(biāo)發(fā)生變化后提取并保存新特征,從而保證在跟蹤波門(mén)中長(zhǎng)時(shí)間鎖定目標(biāo)。本次實(shí)驗(yàn)選取水平方向、垂直方向的邊緣特征和線特征,1 個(gè)對(duì)角線特征,1 個(gè)中心特征共6 個(gè)特征對(duì)目標(biāo)進(jìn)行表示,如圖2 所示。
圖2 目標(biāo)表示的哈爾特征
本文主要針對(duì)機(jī)載環(huán)境對(duì)地面目標(biāo)跟蹤的測(cè)試視頻,對(duì)基于SVC 跟蹤算法進(jìn)行試驗(yàn)驗(yàn)證。測(cè)試視頻為卡內(nèi)基梅隆大學(xué)數(shù)據(jù)庫(kù)中用于測(cè)試空對(duì)地目標(biāo)跟蹤的視頻egtest02,幀頻25 f/s,幀圖大小為640 pixel×480 pixel。實(shí)驗(yàn)設(shè)備為Intel CoreTM雙核CPU,主頻2.53 GHz,內(nèi)存4.00 Gbyte。實(shí)驗(yàn)軟件為Visual Studio 2010 和opencv2.4.8。跟蹤算法主要采用哈爾特征對(duì)目標(biāo)表示,核函數(shù)選取σ=0.2 的高斯核函數(shù)。
SVC 中的樣本從視頻第一幀中選取,由于樣本數(shù)量較小,為了保證跟蹤精度,樣本中目標(biāo)充滿(mǎn)整個(gè)波門(mén),目標(biāo)樣本在隨后跟蹤過(guò)程中不斷擴(kuò)充。支持向量上限為75,減少計(jì)算量提高算法實(shí)時(shí)性。目標(biāo)搜索區(qū)域?yàn)榘霃?0 pixel 圓形,算法對(duì)以上一幀中最佳匹配點(diǎn)為圓心的圓內(nèi)區(qū)域進(jìn)行步長(zhǎng)為2 的遍歷,利用SVC 對(duì)樣本集分類(lèi),求得本幀中的支持向量,鎖定目標(biāo)位置并將新的支持向量添加進(jìn)學(xué)習(xí)器中,如圖3 所示。
圖3 基于SVC 空對(duì)地算法示意圖
其中,目標(biāo)特征評(píng)價(jià)函數(shù)為
式中:x 為搜索區(qū)域模板;x*為目標(biāo)模板;yout表示搜索區(qū)域與目標(biāo)模板相似度,其值越大表示搜索區(qū)域是跟蹤目標(biāo)的可能性越大。
跟蹤目標(biāo)為機(jī)場(chǎng)背景下勻速行駛的汽車(chē),如圖4 所示。綠色邊框?yàn)楦櫜ㄩT(mén),波門(mén)中為目標(biāo)車(chē)輛,其余車(chē)輛為干擾車(chē)輛。在整個(gè)視頻中,第260 ~548 幀相機(jī)焦距增大,目標(biāo)車(chē)輛減速、轉(zhuǎn)彎,車(chē)輛尺度、輪廓發(fā)生大幅度變化;車(chē)輛轉(zhuǎn)彎后在第549 ~716 幀與三輛車(chē)進(jìn)行會(huì)車(chē),第三輛車(chē)與目標(biāo)車(chē)輛車(chē)型相同;會(huì)車(chē)完成后車(chē)輛轉(zhuǎn)彎,在952 ~1 231 幀航拍相機(jī)在x 方向劇烈晃動(dòng),x 方向最大速度為15 pixel/s,最大加速度為5.17 pixel/s2。
圖4 機(jī)場(chǎng)背景下的目標(biāo)車(chē)輛
跟蹤過(guò)程中,航拍相機(jī)在第260 幀焦距縮短,目標(biāo)車(chē)輛明顯減速,跟蹤波門(mén)中目標(biāo)比例減小,如圖5b 所示。目標(biāo)車(chē)輛在第402 ~531 幀完成約100°轉(zhuǎn)彎,角速度為1.45 rad/s,第400 ~424 幀遇到強(qiáng)光干擾,如圖5c 所示。第530 幀完成轉(zhuǎn)彎,學(xué)習(xí)器保存目標(biāo)車(chē)輛轉(zhuǎn)彎過(guò)長(zhǎng)中17 個(gè)姿態(tài),支持向量增加到48 個(gè)。整個(gè)過(guò)程中目標(biāo)車(chē)輛鎖在跟蹤波門(mén)內(nèi),并未發(fā)生任何波門(mén)抖動(dòng)、假跟蹤現(xiàn)象。
圖5 目標(biāo)車(chē)輛尺度、旋轉(zhuǎn)跟蹤結(jié)果
車(chē)輛完成第一次轉(zhuǎn)彎進(jìn)行會(huì)車(chē)實(shí)驗(yàn),六輛車(chē)共三種車(chē)型,每種車(chē)型顏色不同。為減少算法復(fù)雜度,實(shí)驗(yàn)處理對(duì)象均被轉(zhuǎn)化為灰度圖像,削弱算法對(duì)車(chē)輛顏色的分辨能力。在通過(guò)前兩輛不同車(chē)型的車(chē)輛時(shí),波門(mén)可鎖定目標(biāo),未出現(xiàn)假跟蹤現(xiàn)象,其中相似車(chē)輛像素占波門(mén)最大達(dá)到12.7%,如圖6d 所示,但在第677 ~681 幀波門(mén)鎖定同款相向行駛車(chē)輛,如圖6f 所示。在完成回車(chē)后,目標(biāo)與相似車(chē)輛分離,分類(lèi)器根據(jù)學(xué)習(xí)器中在之前跟蹤過(guò)程中對(duì)目標(biāo)積攢的先驗(yàn)知識(shí),重新鎖定目標(biāo)車(chē)輛。
圖6 會(huì)車(chē)融合跟蹤結(jié)果
整個(gè)會(huì)車(chē)過(guò)程中,目標(biāo)車(chē)輛分別于三輛相向車(chē)輛融合,干擾車(chē)輛部分進(jìn)入跟蹤波門(mén),但是沒(méi)有影響整體跟蹤效果,會(huì)車(chē)階段跟蹤精確度達(dá)到98.4%。
目標(biāo)完成第二次轉(zhuǎn)彎,即第990 幀之后,航拍相機(jī)在x 方向產(chǎn)生劇烈抖動(dòng),并且焦距調(diào)小,目標(biāo)所占波門(mén)比例減小,其像素比例為變換前的1/3,如圖7 所示,最大速度達(dá)到15 piexl/s。整個(gè)過(guò)程中目標(biāo)被波門(mén)牢牢鎖住,跟蹤精度達(dá)到100%。
經(jīng)仿真實(shí)驗(yàn)驗(yàn)證,算法在跟蹤過(guò)程中對(duì)目標(biāo)學(xué)習(xí)后,可對(duì)尺度3 倍變換、角速度1.45 rad/s、融合12.7%波門(mén)的目標(biāo)實(shí)現(xiàn)高度準(zhǔn)確性和穩(wěn)定性跟蹤,并且排除最大速度為15 piexl/s相機(jī)抖動(dòng)的不穩(wěn)定因素,魯棒性較強(qiáng),因此,基于SVC 跟蹤算法精度滿(mǎn)足實(shí)際工程應(yīng)用。
圖7 航拍相機(jī)劇烈抖動(dòng)跟蹤結(jié)果
算法復(fù)雜度與目標(biāo)模板和支持向量數(shù)量成正比,實(shí)驗(yàn)中視頻后期隨學(xué)習(xí)器模板數(shù)量增多實(shí)時(shí)性略有下降,為降低目標(biāo)尺度發(fā)生較大變換時(shí)學(xué)習(xí)器增加目標(biāo)模板的數(shù)量,算法后期將修改對(duì)視頻波門(mén)尺寸,增大目標(biāo)所占波門(mén)比例,減少學(xué)習(xí)器模板數(shù)量,減小算法復(fù)雜度,提高實(shí)時(shí)性。
[1]BABENKO B,YANG M H,BELONGIE S.Visual tracking with online multiple instance learning[C]//Proc. CVPR 2009. Anchorage,Alaska:IEEE Press,2009:983-990.
[2]王夢(mèng)斐,王沛,馬燕,等. 基于卡爾曼和圖像信息量的MeanShift改進(jìn)跟蹤算法[J].電視技術(shù),2015,39(5):41-44.
[3]KALAL Z,MATAS J,MIKOLAJCZYK K. Pn learning:Bootstrapping binary classifiers by structural constraints[C]//Proc. CVPR 2010.San Francisco:IEEE Press,2010:49-56.
[4]宋策,張葆,尹傳歷,等. 基于粒子濾波的空-地目標(biāo)跟蹤算法[J].光電子·激光,2013,24(10):2017-2023.
[5]VAPNIK V. The nature of statistical learning theory[M]. New York:Springer,1995.
[6]李俊,陳善學(xué),馮銀波. 無(wú)人工樣本的SVM 遙感圖像分類(lèi)方法[J].電視技術(shù),2013,37(23):27-30.
[7]文學(xué)志,方巍,鄭鈺輝. 一種基于類(lèi)Haar 特征和改進(jìn)AdaBoost分類(lèi)器的車(chē)輛識(shí)別算法[J]. 電子學(xué)報(bào),2011,39(5):1121-1126.
[8]侯明,張新新,范麗亞.四類(lèi)基于支持向量機(jī)的多類(lèi)分類(lèi)器的性能比較[J]. 聊城大學(xué)學(xué)報(bào):自然科學(xué)版,2014,27(3):54-60.
[9]王文劍,門(mén)昌騫.支持向量機(jī)建模及應(yīng)用[M]. 北京:科學(xué)出版社,2014.
[10]CRISTIANINI N,SHAWE-TAYLOR J. 支持向量機(jī)導(dǎo)論[M].李國(guó)正,王猛,曾華軍,譯.北京:電子工業(yè)出版社,2004.
[11]宋暉,薛云,張良均. 基于SVM 分類(lèi)問(wèn)題的核函數(shù)選擇仿真研究[J].計(jì)算機(jī)與現(xiàn)代化,2014(8):133-136.
[12]魯凱翔,田鵬輝,隋立春.利用二維灰度直方圖跟蹤紅外運(yùn)動(dòng)目標(biāo)[J]. 測(cè)繪通報(bào),2014(3):29-31.
[13]陳勇飛,劉新明. 基于膚色和類(lèi)Harr 特征的人臉圖像的人眼檢測(cè)[J]. 計(jì)算機(jī)工程與應(yīng)用,2009,44(33):174-176.
[14]李盛文,鮑蘇蘇. 基于PCA+AdaBoost 算法的人臉識(shí)別技術(shù)[J]. 計(jì)算機(jī)工程與應(yīng)用,2010,46(4):170-173.
[15]HARE S,SAFFARI A,TORR P H S. Struck:structured output tracking with kernels[C]//Proc. ICCV 2011. Barcelona,Spain:IEEE Press,2011:263-270.