毛以芳
(成都工業(yè)職業(yè)技術(shù)學院信息工程學院,四川成都 610218)
隨著AI的不斷發(fā)展,目標檢測和跟蹤受到了越來越多的研究和發(fā)展[1-3]?;谙∈璞硎镜哪繕烁櫡椒ㄊ艿綇V泛的關(guān)注,稀疏表示模型[4-5]的核心思想是在字典中將信號表示為基元線性組合,而且很少的基元即可表示信號,其權(quán)重向量稱為線性組合稀疏系數(shù)。
目前基于稀疏表示模型的目標跟蹤方法中,大部分基于單一特征進行跟蹤,基于單一特征的目標跟蹤無法對視頻圖像進行全面的描述,諸如光照變化、噪聲干擾、形態(tài)變化等復(fù)雜環(huán)境下的魯棒性較低。本文在稀疏表示模型的粒子濾波框架下,分別構(gòu)造視頻所在的目標子空間和背景子空間,通過兩個子空間的組合以構(gòu)造和更新字典模板,提高目標跟蹤應(yīng)對場景變化的適應(yīng)能力,減小目標跟蹤的漂移。該方法考慮了目標的全局和局部空間信息,進一步提升了目標跟蹤的魯棒性。
在稀疏表示模型的框架下,綜合考慮目標子空間和背景子空間模型,采用粒子濾波方法選取候選樣本,并融合圖像的灰度和HOG特征,提出一種目標跟蹤算法,算法流程圖如圖1所示。
圖1 目標跟蹤算法流程Fig.1 Diagram of object tracking
步驟2:將字典模板和N個粒子產(chǎn)生的候選樣本進行重疊分塊,提取每個分塊的像素灰度值和HOG特征。設(shè)產(chǎn)生的候選樣本數(shù)為p,由粒子的運動模型生成候選樣本,即基于粒子的運動模型產(chǎn)生,其中xt-1,xt分別表示t-1和t時刻目標的狀態(tài)向量,,其中表示目標在第t幀x,y方向上的坐標,分別表示目標在第t幀時的旋轉(zhuǎn)角度、變化尺度、寬高比、傾斜角。N(·)表示正態(tài)分布,ψ表示對角協(xié)方差矩陣。
步驟3:用字典模板中所有塊對p個候選樣本中的每一塊進行多特征聯(lián)合彈性結(jié)構(gòu)稀疏表示,運用塊正交匹配追蹤方法(BOMP)[4]求解彈性結(jié)構(gòu)稀疏表示問題,得到粒子的稀疏表示系數(shù)w。
步驟5:重復(fù)步驟3和4,直到p個候選樣本全部處理完為止。
步驟6:應(yīng)用MAP(maximum a posterior)計算當前目標的狀態(tài)和跟蹤結(jié)果yt。具體過程為:,其中表示觀測模型,表示運動模型
步驟7:從第6個視頻幀開始,每隔5個幀更新字典模板D,即D=[D+,D-,I],其中D+=[D+[1],D+[2],…D+[p]]表示目標子空間集,p表示目標子空間的個數(shù)。D-=[D-[1],D-[2],…D-[q]]表示背景子空間集,q表示背景子空間的個數(shù)。I表示單位矩陣。因此,粒子的稀疏表示系數(shù)w可表示為:。其中w+,w-分別表示由目標子空間和背景子空間集分解的稀疏系數(shù)。
步驟8:根據(jù)更新的字典模板D,返回步驟2,重復(fù)步驟2至7,直到所有的視頻序列全部處理完為止。
在目標跟蹤過程中,字典模板D每隔5個視頻幀更新一次,字典模板由目標子空間和背景子空間組合而成。構(gòu)造和更新的具體方法如下所示。
1.3.1 目標子空間
步驟1:輸入M個樣本序列 {y1,y2, ???,yM},設(shè)置目標子空間的維度為d,數(shù)量為S。
步驟2:對每d個視頻幀,采用方法[4]構(gòu)建d維子空間Ω,Ω=(U,Λ,n)。其中U,Λ,n分別表示特征向量、特征值和子空間總的樣本數(shù)量。
1.3.2 背景子空間
步驟2:對每d個視頻幀,采用方法[4]構(gòu)建d維新的子空間Ω,,h= 1,2,???,H。其中U,Λ,n 分別表示特征向量、特征值和子空間總的樣本數(shù)量。
步驟3:如果背景子空間對應(yīng)的字典模板D-為空,將d維子空間Ω,,h= 1,2,???,H賦值給背景子空間對應(yīng)的字典模板D-,即= 1,2,???,H。如果背景子空間對應(yīng)的字典模板D-不為空,在H個背景子空間中,計算背景子空間所在字典模板之間的最大相似度,最后將最為相似的背景子空間進行合并,形成總的背景子空間,具體過程為:
其中相似度的計算過程與1.3.1相同。
為了測試跟蹤算法的性能,以文獻[4]中所提供測試集中的視頻序列為測試對象,l1稀疏表示方法[1]、MIL(Multiple Instance Learning)方法[2]和文獻[3]提出的FSSR(Flexible Structured Sparse Representation)跟蹤方法進行比較。實驗環(huán)境為普通計算機、Intel CoreTM i5處理器、主頻3.3GHz、內(nèi)存8G,操作系統(tǒng)為64位Windows 7,軟件平臺為MATLAB2012b。
跟蹤采樣粒子數(shù)為600,目標狀態(tài)轉(zhuǎn)移矩陣為[8,8,0.01,0,0,0]。采用粒子濾波方法采樣600個目標的候選區(qū)域,對每個候選區(qū)域進行歸一化處理,大小為32×32,在歸一化的目標區(qū)域中重疊地采樣144個8×8的局部圖像塊,其中步長為2個像素。由于HOG特征是一種用來進行目標檢測的特征描述子,對平移、尺度變化具有較好的不變性。所以文中利用圖像的灰度特征和HOG特征信息的融合對目標進行稀疏表示,正則化因子λ值為0.01。在字典模板的構(gòu)造和更新中,目標子空間和背景子空間的個數(shù)分別為12和4,維度為5。最后在性能比較方面,每種目標跟蹤方法在測試序列上都運行了10次并取平均值作為最終的比較結(jié)果。
實驗分別對Animal、Board、Bird2和Bolt四組視頻序列中的目標進行跟蹤測試,跟蹤誤差采用中心點誤差和重疊率來度量,中心點誤差能反映目標跟蹤方法的穩(wěn)定性,一般情況下,如果在一個視頻序列中中心點平均誤差不超過20個像素則認為跟蹤成功。重疊率考慮了跟蹤框的位置、姿態(tài)、面積、旋轉(zhuǎn)等多個因素,可以反映跟蹤性能的魯棒性。
表1和表2分別給出了本算法與其他跟蹤算法的性能比較,均是測試前50個視頻幀取平均值后的結(jié)果。從表1和表2可以看出,相比l1稀疏算法[1],MIL[2]和文獻[3]提出的結(jié)構(gòu)稀疏表示算法三種跟蹤方法具有更好的性能,表明提出的跟蹤算法具有較強的穩(wěn)定性和魯棒性。
表1 平均重疊率(%)Tab.1 Mean of overlap rate error
表2 平均中心點誤差(單位:像素)Tab.2 Mean of center location error (unit: pixel)
基于稀疏表示模型和粒子濾波理論,利用視頻圖像的灰度特征和HOG特征,研究了一種基于特征融合的稀疏表示目標跟蹤算法。該算法將灰度特征和HOG特征進行提取,并融于彈性結(jié)構(gòu)稀疏表示模型,建立了多特征的稀疏表示跟蹤模型。然后對字典模板進行更新,同時分別對目標子空間和背景子空間進行了建模,以形成新的字典模板用于目標跟蹤。最后對提出的算法進行了實驗,并對比其他跟蹤算法。結(jié)果表明本文的目標跟蹤算法可較好地減輕目標跟蹤的漂移問題,具有較強的穩(wěn)定性和魯棒性。