王學(xué)軍,趙琳琳,王 爽
(吉林大學(xué)通信工程學(xué)院,長春130012)
視頻對象分割是MPEG-4基于內(nèi)容的編碼系統(tǒng)中的關(guān)鍵技術(shù)之一[1],這種分割技術(shù)被廣泛應(yīng)用于基于內(nèi)容的檢索、對象識別、對象跟蹤、視頻電話、視頻監(jiān)控和電視特技制作等領(lǐng)域。
時空聯(lián)合的視頻對象分割技術(shù)是比較常用的分割算法[2-3],此種分割方法對于背景簡單目標(biāo)單一的視頻序列取得了較好的分割效果,但對于背景復(fù)雜的視頻序列,其分割精度卻不高。高斯混合模型算法[4]、貝葉斯概率統(tǒng)計方法[5]和特征聚類算法[6]等也是視頻對象提取常用的算法。這些算法的分割結(jié)果比較精確,但計算復(fù)雜度高,計算量較大,無法滿足實時性的要求。
支持向量機(Support Vector Machine,SVM)是近年來發(fā)展起來的一種通用機器學(xué)習(xí)新方法。該方法是基于結(jié)構(gòu)風(fēng)險最小化原則,能較好地解決小樣本、非線性、維數(shù)災(zāi)難和局部極小等問題。因此在手寫體字符識別、人臉檢測、文本及語音分類方面得到了廣泛的關(guān)注。Zhang等[7]利用SVM實現(xiàn)了視頻對象提取,該方法魯棒性強,對攝像機的變化和光照變化均不敏感,但此方法無法實現(xiàn)自動分割,它需要人為地選取輸入訓(xùn)練樣本,并且分割的視頻對象邊緣也不夠準(zhǔn)確。
本文采用了主動學(xué)習(xí)(Active Learning)的思想,將SVM和主動學(xué)習(xí)結(jié)合起來,對傳統(tǒng)的支持向量機進行了改進,實現(xiàn)了準(zhǔn)確提取視頻對象的目的。
SVM是基于結(jié)構(gòu)風(fēng)險最小化原理的統(tǒng)計學(xué)習(xí)理論,它是一種有堅實理論基礎(chǔ)的新穎的小樣本學(xué)習(xí)方法。SVM的基本思想可用圖1所示的二維情況說明。圖1中,三角形和圓形代表兩類樣本,H為分類線,H1,H2分別為過各類中離分類線最近的樣本,它們是平行于分類線的直線,它們之間的距離叫做分類間隔。最優(yōu)分類線需要滿足以下兩點:1)分類線能將兩類正確分開;2)分類間隔最大。
圖1 SVM原理圖Fig.1 The optimal classification plane
設(shè)一個線性可分的樣本集合為S=((x1,y1),…,(xk,yk)),x∈Rd,y∈{+1,-1}是類別標(biāo)號,k為樣本數(shù),d為輸入維數(shù),d維空間中線性判別函數(shù)的一般形式為:
該超平面可以描述為:
對其進行歸一化,使樣本滿足:
這樣,分類間隔為2/‖w‖,使其最大化等價于最小化‖w‖??梢姡诰€性可分情況下,求最優(yōu)超平面問題轉(zhuǎn)化為求解二次型規(guī)劃的問題。即:
此優(yōu)化問題的解可由拉格朗日泛函的鞍點給出,經(jīng)推導(dǎo),結(jié)合Karush-Kuhn-Tucker條件,得泛函為:
式中:α為拉格朗日乘子。對于線性不可分情況,將輸入向量向高維特征空間進行非線性映射,引入內(nèi)積核K(x,z),它在核K(x,z)隱式定義的特征空間中是線性可分的。則上面的問題轉(zhuǎn)化為:
此時d維空間中線性判別函數(shù)轉(zhuǎn)化為:
針對SVM需要有監(jiān)督學(xué)習(xí)的局限性,本文提出一種無監(jiān)督學(xué)習(xí)的SVM自動分割算法。利用自適應(yīng)變化檢測的方法提取訓(xùn)練樣本,并且利用主動學(xué)習(xí)的思想,對傳統(tǒng)的SVM加以改善,提高視頻對象提取的精度和速度。
變化檢測的基本思想是根據(jù)兩幀圖像中的亮度、顏色或紋理變化檢測并分割視頻對象,常用的變化檢測算法有幀差法與背景減法。
本文采用幀差法,并根據(jù)幀差直方圖選取幀差閾值,提取初始視頻對象。算法步驟如下所示:
(1)輸入視頻幀,計算幀差,并歸一化。
(2)統(tǒng)計各級幀差像素數(shù)目,建立幀差直方圖,幀差間隔為0.1。
(3)設(shè)定變量,n=0,i=0,計算n=n+M[d =1-0.1×i],其中M[d]表示幀差為d的像素數(shù)目。
(4)判斷n是否大于500:若是,設(shè)定閾值為該幀差值;若否,重復(fù)步驟(3)。
(5)輸入幀差圖像,若d(x,y)≥dth,則該像素點(x,y)標(biāo)記為前景,作為訓(xùn)練樣本;否則,標(biāo)記為背景。被標(biāo)記為前景的像素點將作為樣本用于SVM訓(xùn)練。
訓(xùn)練樣本標(biāo)記完成后,本文選取光流場矢量、幀差值、灰度值和梯度值作為輸入矢量,這些物理量都有相應(yīng)的求解算法,這里不累述。但在計算輸入矢量前,先對幀圖像采用高斯濾波減少噪聲的影響。
主動學(xué)習(xí)[8]的主要思想是每次選擇一些最有信息量的樣本進行反饋,它改變了傳統(tǒng)的從已知樣本集中被動學(xué)習(xí)的方法。對于最有信息量的樣本的選取,不同的算法定義不同,有的認(rèn)為最不確信的樣本具有最大的信息量,而另外一些可能認(rèn)為能最大化減小錯誤率的樣本具有最大的信息量。
視頻對象提取是一個典型的二類分類問題。實際中,只要把幀圖像中的前景分割出來即可,即建立關(guān)于前景的判別標(biāo)準(zhǔn),符合此標(biāo)準(zhǔn)的像素點判斷為前景,否則為背景。而傳統(tǒng)的SVM進行樣本訓(xùn)練時,選取的樣本通常有正類也有負(fù)類。這種學(xué)習(xí)方式要求正類和負(fù)類的樣本數(shù)目接近,否則分界面會有所偏差。這樣學(xué)習(xí)一方面需要控制正負(fù)樣本數(shù)量;另一方面要同時學(xué)習(xí)正類分界面和負(fù)類分界面,計算量較大。本文根據(jù)主動學(xué)習(xí)的思想優(yōu)化SVM,使其只學(xué)習(xí)正類樣本,構(gòu)造精確的正類分界面,從而將前景和背景有效地分離。
本文認(rèn)為能最大化減小錯誤率的樣本具有最大的信息量,因此選取前景像素點作為SVM的訓(xùn)練樣本,訓(xùn)練后的SVM在分類時只判斷哪些是正類。本文選取3.1中標(biāo)記為前景的樣本。因為對前景選取條件很嚴(yán)格,所以這些前景像素點標(biāo)記的準(zhǔn)確度很高,只要嚴(yán)格的訓(xùn)練SVM就可以得到準(zhǔn)確的前景判別標(biāo)準(zhǔn):
如果,f(x)≥+1,則該像素點為前景點;否則,為背景點。其中f(x)為線性判別函數(shù),表達式如式(7)所示。
本文SVM選取多項式核函數(shù)(p=15)作為核函數(shù)。圖2顯示了Akiyo序列第15幀改進后的SVM和傳統(tǒng)的SVM的分類結(jié)果,白色表示前景,黑色表示背景,灰色表示不確定區(qū)域。其中圖2 (b)表示傳統(tǒng)的SVM的分類結(jié)果,圖2(c)表示改進后的SVM的分類結(jié)果。從圖2可以看出,改進后的SVM消除了不確定區(qū)域,分類效果也比傳統(tǒng)的SVM理想。
圖2 SVM分類結(jié)果對比圖Fig.2 The com parison figure of SVM classification
此外,本文還選取MPEG-4標(biāo)準(zhǔn)測試序列中的Mother and daughter序列和Car-phone序列進行實驗仿真。圖3顯示了Mother and daughter序列第0、46、130幀的對象分割結(jié)果,及Car-phone序列第4、133、241幀的對象分割結(jié)果。圖3(b)、(e)分別是Mother and daughter序列和Car-phone序列SVM分類結(jié)果,經(jīng)過SVM分類后,幀圖像被初步分割為前景和背景,但仍有少量的噪聲和蟲洞存在,在后處理過程中本文采用了窗口聚類和形態(tài)學(xué)開閉操作進行濾波和蟲洞填充,得到最終的視頻對象,如圖3(c)、(f)所示。實驗結(jié)果表明,對于不同的視頻序列和同一序列的不同幀,本算法提取的視頻對象邊界準(zhǔn)確,分割精度高,即使對噪聲較多的視頻序列,本算法的分割結(jié)果也十分滿意。
圖3 實驗結(jié)果圖Fig.3 The experiment results
在MPEG-4核心實驗中,Wollbom等[9]提出了一種存在參考對象模板的評價方法,它的定義為:
視頻分割算法評價的另一方面是時間一致性(Temporal Coherency)。其定義如下:
COST(European Cooperation in Science and Technology)公開了視頻對象分割的分析模型(Analysis Model,AM)。本文提出的算法與COST AM的分割結(jié)果(以Akiyo序列為例)進行實驗比較,對比結(jié)果如圖4所示。可見,本算法的空間準(zhǔn)確度比COST211 AM提高約0.05,而時間一致性比COST211 AM提高0.04左右。
圖4 算法結(jié)果評價Fig.4 The evaluation of segmentation results
本文提出了一種基于主動學(xué)習(xí)的SVM視頻對象提取方法。將SVM和主動學(xué)習(xí)結(jié)合起來,實現(xiàn)了更加準(zhǔn)確提取視頻對象的目的。實驗結(jié)果表明,本文方法能克服一般SVM方法的缺點,使視頻對象的邊緣更加準(zhǔn)確,同時減小了計算量。
[1]Zhu S P,Xia X,Zhang Q G.A novel spatial-temporal video object segmentation algorithm[C]//IEEE International Conference on Industrial Technology(ICIT),2008:1-5.
[2]Luciano S,Jacob S.Video segmentation based onmotion coherence of particles in a video sequence[J].IEEETransactions on Image Processing,2010,19(4):1036-1049.
[3]Guo L H.A fast and automatic video object segmentation technique[C]//IEEE International Conference on Communications,Circuits and Systems,2008:714-717.
[4]Liu Z,Gu JD,Shen LQ.Efficient video object segmentation based on gaussianmixturemodel and markov random field[C]//IEEE International Conference on Signal Processing(ICSP),2008:1006-1009.
[5]Zheng H R,Liu Z,Wang X F.Research on the video segmentation method with integrated multi-features based on GMM [C]//International Conference on Computational Intelligence for Modeling Control&Automation(CIMCA),2008:260-264.
[6]Hu S Y,Li J S,Li X H.Video object segmentation based on multi-feature clustering[C]//IEEE World Congress on Intelligent Control and Automation(WCICA),2008:5946-5949.
[7]Zhang JM,Chen CH.Moving object detection and segmentation in dynamic video backgrounds[C]//2007 IEEE Conference on Technologies for Homeland Security,2007:64-69.
[8]Gosselin P H,Cord M.Active learning methods for interactive image retrieval[J].IEEE Transactions on Image Processing,2008,17(7):1200-1211.
[9]Wbllbom M,Meeh R.Refined procedure for object segmentation algorithms[R].Doc ISO/IEC JTCI/SC29/ WG11 M3448,1998.