李雪君,張開華,宋慧慧
(江蘇省大數(shù)據(jù)分析技術(shù)重點實驗室(南京信息工程大學), 南京 210044)
融合時空多特征表示的無監(jiān)督視頻分割算法
李雪君,張開華*,宋慧慧
(江蘇省大數(shù)據(jù)分析技術(shù)重點實驗室(南京信息工程大學), 南京 210044)
針對視頻分割的難點在于分割目標的無規(guī)則運動、快速變換的背景、目標外觀的任意變化與形變等, 提出了一種基于時空多特征表示的無監(jiān)督視頻分割算法,通過融合像素級、超像素級以及顯著性三類特征設計由細粒度到粗粒度的穩(wěn)健特征表示。首先,采用超像素分割對視頻序列進行處理以提高運算效率,并設計圖割算法進行快速求解;其次,利用光流法對相鄰幀信息進行匹配,并通過K-D樹算法實現(xiàn)最近鄰搜索以引入各超像素的非局部時空顏色特征,從而增強分割的魯棒性;然后,對采用超像素計算得到的分割結(jié)果,設計混合高斯模型進行完善;最后,引入圖像的顯著性特征,協(xié)同超像素分割與混合高斯模型的分割結(jié)果,設計投票獲得更加準確的視頻分割結(jié)果。實驗結(jié)果表明,所提算法是一種穩(wěn)健且有效的分割算法,其結(jié)果優(yōu)于當前大部分無監(jiān)督視頻分割算法及部分半監(jiān)督視頻分割算法。
超像素分割;K-D樹;混合高斯模型;圖割算法;光流法
視頻分割也稱運動分割,是指按一定的度量標準把圖像序列分割成多個時空一致的區(qū)域,從而從視頻序列中分離出有意義的目標。圖像與視頻的分割作為圖像處理中非常重要的低層處理技術(shù)是圖像分析的基礎,為高層應用提供重要的數(shù)據(jù)形式,例如:車輛識別、牌照識別、醫(yī)學影像分析、人臉識別、目標檢測跟蹤和識別等。在所有這些應用中,分割通常是為了進一步對圖像視頻進行分析識別,其準確性直接影響后續(xù)任務的有效性。由于視頻數(shù)據(jù)量大且存在較多的冗余信息, 同時視頻內(nèi)容復雜多變且有噪聲及光照的變化等因素的干擾,容易造成目標分割的失敗,導致目前存在的目標分割算法的準確率普遍不高, 因此,研究并實現(xiàn)一種準確的目標分割算法具有十分重要的意義。
視頻分割不同于圖像分割的最主要之處在于運動信息的引入。根據(jù)是否需要人工參與指導,視頻分割可以分為無監(jiān)督視頻分割[1-2]和半監(jiān)督視頻分割[3-5]。根據(jù)所利用信息的不同,可以分為基于時間信息的視頻分割[6-8]、基于空間信息的視頻分割[9]以及聯(lián)合時空信息的視頻分割[10-11]等。本文提出一種基于融合多特征表觀模型的無監(jiān)督視頻分割算法,分割過程中無需用戶提供圖像的先驗信息,僅利用視頻序列的顏色、位置等低層物理特性以及運動特征進行信息處理,自動地將目標與背景分割開來。分割過程中設計多層次圖模型,利用超像素分割降低計算復雜度,并進一步設計高斯混合模型并融合顯著性特征對分割結(jié)果進行細化。從實驗結(jié)果來看,這種分割算法有良好的穩(wěn)健性,其分割準確度高于大部分有代表性的視頻目標分割算法。
本文所提算法的具體實現(xiàn)流程如圖1所示。在具體算法實施之前,首先需要對輸入的視頻序列作預處理以降低計算復雜度,并初始化圖模型的輸入信息。
圖1 算法流程Fig. 1 Flow chart of the proposed method
光流法[12]通常被用于視頻分割,它與運動檢測以及運動估計緊密相關(guān),利用圖像序列中像素在時間域上的變化以及相鄰幀之間的相關(guān)性來尋找上一幀跟當前幀之間存在的對應關(guān)系,從而計算出相鄰幀之間物體的運動信息。由于目標位置、大小及運動方向的不確定性,光流法很難得到一個準確的目標位置;特別是對于快速運動的目標,光流法所得到的計算結(jié)果往往會有著較大的偏差。然而對于無監(jiān)督視頻分割,由于用戶沒有提供任何有效的先驗信息,為了取得充分的初始化輸入信息,利用光流法來判斷運動目標的大致位置依然是當前最有效的方法之一。因此本文采取光流結(jié)合內(nèi)外映射圖[2]的方法獲取分割目標的初始化位置。
為了降低運算復雜度,對于輸入的視頻序列,對所有幀首先利用Turbopixel算法[13]進行超像素分割。超像素是指由圖像中具有相似的顏色、紋理、亮度等屬性的相鄰像素點構(gòu)成的集合。超像素分割是計算機視覺領(lǐng)域常用的預處理手段,即利用像素之間的相似性對圖像的各像素點進行聚類,可以有效降低圖像數(shù)據(jù)的維度,進而降低圖像處理的復雜度。
綜合光流得出的大致運動目標范圍和超像素分割結(jié)果,對分割得到的每個超像素進行初始化賦值:對于判定為前景范圍的超像素,將其標記值賦為1,同樣,對于判定為背景范圍的超像素,其標記值賦為0,于是,可以得到初始化的前景與背景超像素的輸入信息作為圖模型的初始化輸入。雖然利用光流法估計的超像素前后景標記可能存在較大的誤差,但是可以保證運動目標基本涵蓋于所判定的前景范圍之中。在接下來的算法中,各超像素的特征值信息提取將作進一步優(yōu)化。
對輸入的視頻序列,本文提出的分割算法主要分為3個部分:超像素等級的視頻分割、像素等級的視頻分割和利用顯著性特征對分割結(jié)果進行完善。
超像素分割部分著重研究了聯(lián)合時空信息的特征值的選取。首先利用光流判斷出運動目標的大致位置,初始化每個超像素的前后景標記,對于每個超像素,分別選取其顏色特征和位置特征,構(gòu)成描述該超像素的特征向量。顏色特征的選取上,采用了RGB(Red, Green, Blue)和HSV(Hue, Saturation, Value)兩種顏色特征量,并對其進行非局部特征值重構(gòu),利用K-D樹搜索獲取目標超像素所在幀之前多幀內(nèi)的多個最近鄰超像素,并按比例重構(gòu)目標超像素的特征向量值,以此提高特征量的魯棒性。利用重構(gòu)后的特征值表示各超像素,并以此建立圖模型,利用圖割算法[14]獲得超像素等級的分割結(jié)果。
像素等級的分割部分主要運用已有的超像素分割結(jié)果作為輸入,訓練混合高斯模型的各個參數(shù),并利用訓練完成的混合高斯模型重新對輸入視頻圖像進行分割,得到新的像素等級的目標分割結(jié)果,利用像素點分割較為細致的特點彌補超像素分割邊界粗糙的不足。
顯著性特征的引入使得超像素分割的結(jié)果和像素點分割的結(jié)果聯(lián)合使用提供了可能。利用顯著性特征映射圖得到一個魯棒的分割結(jié)果,再通過投票的方式選取最終的分割結(jié)果,三選二的方案有效去除了像素點分割所產(chǎn)生的噪點,且運算效率極高。
近年來,不少學者對視頻分割算法作出了一些全局性的優(yōu)化改進,不少方案也考慮了非局部圖像信息,即將非鄰接區(qū)域的超像素特征納入考慮范圍,但大部分方案僅僅考慮了空間上的全局信息,而沒有將時間的全局性信息也作為優(yōu)化條件[15]。本算法所提出的超像素特征值選取方案同時考慮了時間、空間的全局性信息,利用長期的信息傳遞對所提取的特征值進行處理,以提高分割的魯棒性。
對輸入視頻序列中的第t幀,選取該幀之前的F幀(t≤5時,F(xiàn)=t-1;t>5時,F(xiàn)=5)及當前幀內(nèi)的所有超像素構(gòu)成數(shù)據(jù)集S,每個超像素表示為一個8維特征向量,分別為顏色特征量R、G、B、H、S、V和位置特征量x、y。對于該幀中的第n個超像素,利用K-D樹算法[16],在數(shù)據(jù)集S內(nèi)進行最近鄰搜索,尋找出與該超像素最近似的F個超像素,并利用搜尋得到的最近鄰超像素對遠距離范圍的超像素特征進行優(yōu)化,以增強原來超像素特征的魯棒性。
(1)
權(quán)重ωi與搜索得到的最近鄰超像素與目標超像素的顏色特征值的相似度相關(guān),定義為:
(2)
其中Δd表示兩顏色特征向量之間的歐幾里得距離。
聯(lián)合時空超像素特征選取的過程中,每一幀中的每個超像素都將作為目標超像素在該幀之前的F幀內(nèi)作K-D樹搜索,即計算該超像素特征值與之前F幀內(nèi)所有超像素的歐氏距離,并找出其中距離最近的F個最近鄰超像素,其算法復雜度為O(n2)。
圖割算法近年來在圖像分割領(lǐng)域得到了廣泛的應用,它是一種基于能量最小化求解最優(yōu)分割結(jié)果的交互式算法,其結(jié)果通常為全局最優(yōu)解。因此在得到各超像素點的優(yōu)化顏色特征向量之后,本文選擇對視頻序列建立一個圖模型,并利用圖割算法進行求解。
圖割算法的能量函數(shù)由一元勢函數(shù)和互勢函數(shù)兩部分組成:
(3)
互勢函數(shù)V由時間平滑項和空間平滑項構(gòu)成,其中時間平滑項定義為:
(4)
空間平滑項定義為:
(5)
互勢函數(shù)中,用于表示各超像素顏色特征值的特征向量均為聯(lián)合時空信息更新后的顏色特征值,位置特征則用各超像素的中心點坐標表示。由于代表示各超像素的顏色特征值較一般情況來說維度更高(六維),且利用了多幀的信息進行重構(gòu),因而以其代表各超像素進行計算有效提升了算法的魯棒性,降低了噪點對分割的影響。
在第2章中,本文利用超像素對輸入視頻序列進行了建模,并利用圖割算法求得了目標分割的結(jié)果。超像素有效降低了運算復雜度,但同時也注意到,僅僅利用超像素進行視頻目標分割仍然存在一些問題,特別是在分割目標的邊緣部分,超像素塊使目標邊界的選取產(chǎn)生了較大的誤差。
為了進一步提升分割的準確度,考慮引入混合高斯模型對分割結(jié)果進行像素級別的優(yōu)化。本算法將第3章中所得的超像素級的分割結(jié)果作為先驗條件輸入模型,并對輸入圖像的顏色和位置特征分別建立混合高斯模型。對于輸入圖像的顏色特征,利用每個像素點的RGB顏色值構(gòu)建特征向量,并使用10個分量的高斯混合模型對整體圖片進行建模。而對于位置特征,則利用每個像素點的坐標位置以及已有的先驗輸入信息分別對前景和背景部分進行建模,其中前景部分選取一個高斯分量,背景部分選取4個高斯分量。最后利用期望最大化算法對模型進行求解,得到每個像素點分別屬于前景和背景的概率值。選取其中屬于前景概率遠大于背景的像素點,即可得到一個新的像素點級別的分割結(jié)果。
利用混合高斯模型求得的分割結(jié)果如圖2(b)所示。不難發(fā)現(xiàn),利用混合高斯模型對目標進行分割,可以有效改善目標邊緣的分割性能。但是由于混合高斯模型完全基于像素點進行運算,分割結(jié)果也不可避免地產(chǎn)生了較多的噪點,因此還需進一步對其進行完善。
圖2 對SegTrack中g(shù)irl第20幀利用投票方式 獲得的最終分割結(jié)果的過程Fig. 2 Process of obtaining final segmentation results by voting for the 20th frame of video girl in SegTrack set
顯著區(qū)域是圖像中最能引起用戶興趣,并且最能表現(xiàn)圖像內(nèi)容的區(qū)域。圖像顯著性特征提取是一種模仿人類的視覺觀察過程來提取人眼感興趣區(qū)域的技術(shù),即通過圖像的某些底層特征近似地判斷圖像中顯著區(qū)域的過程。此處本文選用文獻[17]的顯著性檢測算法,得出每幀圖片的顯著性計算結(jié)果,如圖2(c)所示。
在之前的算法中,已經(jīng)分別得到了基于超像素的分割結(jié)果、基于混合高斯模型的分割結(jié)果和基于顯著性特征的分割結(jié)果,即對于每個像素點,都已有了前景/背景的判別結(jié)果。最后,本算法將三者結(jié)合,并利用投票的方式融合得到最終的分割結(jié)果,其中,混合高斯模型的分割結(jié)果可以完善超像素分割結(jié)果的邊緣,而利用顯著性特征的分割結(jié)果又能夠消除混合高斯模型產(chǎn)生的噪點,從而達到了優(yōu)勢互補的目的。
為了驗證本文提出的視頻分割算法分割的有效性,在SegTrack測試集上對該算法作出評測。SegTrack測試集是一個常用的用于視頻目標分割評測的數(shù)據(jù)集。該數(shù)據(jù)集由6個極具挑戰(zhàn)性的視頻序列(birdfall、cheetah、girl、monkey、parachute、penguin)組成,因penguin針對多目標,本文算法無法使用; 每個視頻序列包含21~71幀不等的圖片,涵蓋了模糊、遮擋、無規(guī)則形變、快速運動的目標與復雜背景等多種易對分割結(jié)果產(chǎn)生不利影響的情形; 與此同時,該數(shù)據(jù)集也為其中的每一幀圖片提供了準確的人工標注的分割目標結(jié)果,便于與算法分割結(jié)果比較。
圖3分別展示了本文所提算法在測試集序列g(shù)irl、cheetah、monkey和parachute中得到的分割結(jié)果。
圖3 本文算法算法對girl,cheetah,monkey,parachute序列的分割結(jié)果Fig. 3 Segmentation results obtained by the proposed algorithm to girl,cheetah,monkey,parachute
由圖3可以看出,SegTrack數(shù)據(jù)集所包含的輸入視頻序列,其分辨率普遍較低。在girl序列中,目標小女孩的手部、腳部以及視頻背景均出現(xiàn)了明顯的模糊情況,這極大地增加了分割的難度。而在cheetah數(shù)據(jù)集中,所需分割的運動目標與背景色調(diào)基本一致,且相對整個視頻畫面來說目標所占比例極小,這會導致大部分分割算法特別是沒有提供人工標注的無監(jiān)督視頻分割算法無法判定目標位置,或在分割過程中丟失目標。monkey序列中目標運動速度極快,且有著大幅度且無規(guī)律的復雜形變。parachute序列則需要應對光線條件差背景復雜等情況。
由所給出的分割結(jié)果可以看出,本文所提出的分割算法在大部分情況下取得了不錯的分割效果(所展示結(jié)果為第一幀到最后一幀等間隔選取的6張圖片的分割結(jié)果),尤其是在目標邊緣位置上,由于像素等級分割結(jié)果的引入,彌補了超像素分割邊界粗糙的不足,使邊緣的分割結(jié)果更接近于實際值;由monkey序列可以明顯看出,雖然形變復雜且無規(guī)律,本文的分割結(jié)果基本完全擬合了目標邊緣,分割過程中部分遺漏的目標部分也能在后續(xù)幀的分割運算中及時完善,達到較理想的分割結(jié)果。
另一個表現(xiàn)較突出的序列cheetah從另一個方面展現(xiàn)了本算法的優(yōu)勢。從圖中不難看出,在初始幾幀中,本方法的分割結(jié)果并不準確,由于目標與背景極其相似,且沒有初始信息的輸入,視頻初始的幾幀分割遺漏了大部分目標范圍;但在接下來的分割過程中,本算法分割效果不斷優(yōu)化,在視頻的后半部分中,分割結(jié)果基本完整覆蓋了運動目標的全部范圍。這是因為雖然沒有初始值的輸入,在后續(xù)分割過程中本算法不斷引入非局部特征信息,隨著信息量的增加,分割的效果也在不斷提升。這也顯示了本文所提出的無監(jiān)督分割方案與其他監(jiān)督學習方案相比的優(yōu)勢,監(jiān)督學習分割在第一幀往往會提供人工標注的分割結(jié)果作為初始化信息,這往往使其在最初的分割過程中取得極佳的分割結(jié)果,但隨著幀數(shù)的增加,初始輸入信息逐步弱化,分割的結(jié)果也往往隨時間的增加而變差。
為了進一步評測本文所提算法的有效性,對該算法進行量化評測,并與當下主要的一些分割算法作出對比。對于視頻分割算法的評測,針對不同的數(shù)據(jù)集,通常采用的評測指標主要分為兩類:平均誤分割的像素點數(shù)(pixel errors)和重疊率(Intersection Over Union, IOU)。對于視頻分辨率較高的數(shù)據(jù)集,每一幀圖像所包含的像素點較多,較小的偏差都會導致極大的像素誤差產(chǎn)生,因此使用平均誤分割的像素點數(shù)來評測該類數(shù)據(jù)集往往會得到極大的數(shù)據(jù)值,無法有效判斷實際的分割效果,因而對于這類數(shù)據(jù)集,通常選取重疊率作為評測指標。相反,對于分辨率較低的數(shù)據(jù)集,由于像素點數(shù)較少,對于近似但不同的分割結(jié)果,其重疊率在數(shù)值上將極為接近,同樣無法有效評測,此時選用平均誤分割的像素點數(shù)則會更加直觀且準確地反映出分割的效果。
對于SegTrack數(shù)據(jù)集,該數(shù)據(jù)集內(nèi)的所含的視頻分辨率普遍較低,同時該數(shù)據(jù)庫也為其中所含視頻的每一幀均提供了一個像素點等級的準確人工標注目標范圍,因而本文中選取每個序列的平均每幀誤分割的像素點個數(shù)(average pixel errors per frame)來直觀地評測所提出的分割算法有效性。表1顯示了本文的分割評測結(jié)果以及當前一些有效的視頻目標分割算法的分割評測結(jié)果(包括監(jiān)督學習算法和無監(jiān)督學習算法)。
其中,對比的文獻[3,18-20]均為監(jiān)督學習算法。監(jiān)督學習算法在第一幀提供了準確的人工標注目標范圍作為初始化輸入,并利用所提供的目標范圍結(jié)合光流推算出下一幀的目標大致位置,并利用所給的前后景位置、顏色等特征信息對圖片進行建模,從而求得準確的分割結(jié)果。與單純利用光流等運動特征進行目標位置判斷的無監(jiān)督分割方案相比,監(jiān)督分割的方法往往能取得更好的分割結(jié)果。但是,實際運用中,監(jiān)督分割算法初始化標注的準確度往往會對分割結(jié)果產(chǎn)生較大的影響,同時,對每一個輸入視頻的首幀進行標注處理也較為麻煩,與完全無需人工標注處理的無監(jiān)督分割算法相比,監(jiān)督分割算法的實用性較差。
表1 幾種算法在SegTrack數(shù)據(jù)集上的分割評測結(jié)果Tab. 1 Segmentation results of several algorithms on SegTrack dataset
注:加粗為所有方案中最好的分割結(jié)果,下劃線為排名第二的分割結(jié)果。
從實驗結(jié)果來看,本文所提出視頻分割算法的效果優(yōu)于大部分無監(jiān)督學習算法,在沒有首幀標注的情況下取得了與監(jiān)督學習算法近似的分割結(jié)果(值得注意的是,監(jiān)督分割算法由于首幀給定,在視頻的初始幾幀中往往能取得極好的分割結(jié)果)。尤其是cheetah和monkey序列,雖然輸入視頻列的分割目標有著嚴重的模糊和形變,背景環(huán)境也較為復雜,本文所提算法依舊取得了較好的分割結(jié)果,其中cheetah序列在所有視頻目標算法中取得了最好的成績。與無監(jiān)督視頻分割算法相比,本文算法在分割結(jié)果上有著明顯的優(yōu)勢。與文獻[22]算法相比,本文算法在有視頻序列上均有著更優(yōu)的評測結(jié)果,與文獻[2,15]算法相比,5個視頻序列中有4個取得了更好的成績,與文獻[1]算法相比在3個視頻序列上表現(xiàn)更好。
本文提出了一種基于融合多特征表示的無監(jiān)督視頻分割算法,該算法利用超像素降低運算復雜度,利用非局部時空信息優(yōu)化超像素特征值,并利用優(yōu)化的特征信息對圖像進行分割;隨后利用已有的分割結(jié)果建立混合高斯模型,將利用超像素分割得到的視頻分割結(jié)果邊緣細化,最后引入顯著性特征,并利用投票的方式篩選出最終的分割結(jié)果。由實驗結(jié)果可知,該無監(jiān)督視頻分割算法是一種穩(wěn)健的分割算法,在目標模糊、部分遮擋和目標快速運動的情況下是極其有效的。
References)
[1] YONG J L, KIM J, GRAUMAN K. Key-segments for video object segmentation[C]// Proceedings of the 2011 International Conference on Computer Vision. Washington, DC: IEEE Computer Society, 2011:1995-2002.
[2] PAPAZOGLOU A, FERRARI V. Fast object segmentation in unconstrained video[C]// Proceedings of the 2013 IEEE International Conference on Computer Vision. Washington, DC: IEEE Computer Society, 2013:1777-1784.
[3] WEN L, DU D, LEI Z, et al. JOTS: joint online tracking and segmentation[C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2015:2226-2234.
[4] BROX T, MALIK J. Object segmentation by long term analysis of point trajectories[C]// Proceedings of the 11th European Conference on Computer Vision. Berlin: Springer-Verlag, 2010: 282-295.
[5] NAGARAGA N S, SCHMIDT F R, BROX T. Video segmentation with just a few strokes[C]// Proceedings of the 2015 IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE, 2015:3235-3243.
[6] 于躍龍, 盧煥章. 基于背景構(gòu)造的視頻對象分割技術(shù)[J]. 計算機工程與科學, 2006, 28(1): 36-38.(YU Y L, LU H Z. Video object segmentation technology based on background construction[J]. Computer Engineering and Science, 2006, 28(1):36-38.)
[7] CULIBRK D, MARQUES O, SOCEK D, et al. Neural network approach to background modeling for video object segmentation[J]. IEEE Transactions on Neural Networks, 2007, 18(6):1614-1627.
[8] 紀騰飛,王世剛,周茜,等. 基于動靜背景下的視頻對象自適應提取算法[J].吉林大學學報(信息科學版), 2007, 25(1):73-77.( JI T F, WANG S G, ZHOU Q, et al. Adaptive algorithm of video object segmentation under moving and static background[J]. Journal of Jilin University (Information Science Edition), 2007, 25(1):73-77.)
[9] 馬麗紅, 張宇, 鄧健平. 基于形態(tài)開閉濾波二值標記和紋理特征合并的分水嶺算法[J]. 中國圖象圖形學報, 2003, 8(1):80-86.(MA L H, ZHANG Y, DENG J P. A target segmentation algorithm based on opening closing binary marker on watersheds and texture merging[J]. Journal of Image and Graphics, 2003, 8(1):80-86.)
[10] CHOI J G, LEE S W, KIM S D. Spatio-temporal video segmentation using a joint similarity measure[J]. IEEE Transactions on Circuits and Systems for Video Technology, 1997, 7(2): 279-286.
[11] 黃波, 楊勇, 王橋,等. 一種基于時空聯(lián)合的視頻分割算法[J]. 電子學報, 2001, 29(11):1491-1494.(HUANG B, YANG Y,WANG Q, et al. Video segmentation based on spatio-temporal information[J]. Acta Electronica Sinica, 2001, 29(11):1491-1494.)
[12] 維基百科. 光流法[EB/OL].[2017- 05- 01].http://zh.wikipedia.org/wiki/%E5%85%89%E6%B5%81%E6%B3%95.(Wikipedia. Optical Flow Method[EB/OL].[2017- 05- 01].http://zh.wikipedia.org/wiki/%E5%85%89%E6%B5%81%E6%B3%95.
[13] LEVINSHTEIN A, STERE A, KUTULAKOS K N, et al. TurboPixels: fast superpixels using geometric flows[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009, 31(12):2290-2297.
[14] BOYKOV Y, VEKSLER O, ZABIH R. Fast approximate energy minimization via graph cuts[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2001, 23(11): 1222-1239.
[15] LI F, KIM T, HUMAYUN A, et al. Video segmentation by tracking many figure-ground segments[C]// Proceedings of the 2014 IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE, 2014:2192-2199.
[16] VEDALDI A, FULKERSON B. Vlfeat: an open and portable library of computer vision algorithms[C]// Proceedings of the 18th ACM International Conference on Multimedia. New York: ACM, 2010:1469-1472.
[17] GOFERMAN S, ZELINKMANOR L, TAL A. Context-aware saliency detection[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2012, 34(10):1915-1926.
[18] TSAI D, FLAGG M, NAKAZAWA A, et al. Motion coherent tracking using multi-label MRF optimization[J]. International Journal of Computer Vision, 2012, 100(2): 190-202.
[19] CAIZ, WEN L, LEI Z, et al. Robust deformable and occluded object tracking with dynamic graph[J]. IEEE Transactions on Image Processing, 2014, 23(12): 5497.
[20] JAIN S D, GRAUMAN K. Supervoxel-consistent foreground propagation in video[C]// Proceedings of the 13th European Conference on Computer Vision. Berlin: Springer, 2014:656-671.
[21] OCHS P, BROX T. Higher order motion models and spectral clustering[C]// Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2012:614-621.
This work is partially supported by the National Natural Science Foundation of China (61402233, 41501377), the Natural Science Foundation of Jiangsu Province (BK20151529,BK20150906).
LIXuejun, born in 1993, M. S. candidate. Her research interests include video segmentation.
ZHANGKaihua, born in 1983, Ph. D., professor. His research interests include object tracking, level set based image segmentation.
SONGHuihui, born in 1986, Ph. D., professor. Her research interests include remote sensing image processing.
Unsupervisedvideosegmentationbyfusingmultiplespatio-temporalfeaturerepresentations
LI Xuejun, ZHANG Kaihua*, SONG Huihui
(JiangsuKeyLaboratoryofBigDataAnalysisTechnology(NanjingUniversityofInformationScienceandTechnology),NanjingJiangsu210044,China)
Due to random movement of the segmented target, rapid change of background, arbitrary variation and shape deformation of object appearance, in this paper, a new unsupervised video segmentation algorithm based on multiple spatial-temporal feature representations was presented. By combination of salient features and other features obtained from pixels and superpixels, a coarse-to-fine-grained robust feature representation was designed to represent each frame in a video sequence. Firstly, a set of superpixels was generated to represent foreground and background in order to improve computational efficiency and get segmentation results by graph-cut algorithm. Then, the optical flow method was used to propagate information between adjacent frames, and the appearance of each superpixel was updated by its non-local sptatial-temporal features generated by nearest neighbor searching method with efficient K-Dimensional tree (K-D tree) algorithm, so as to improve robustness of segmentation. After that, for segmentation results generated in superpixel-level, a new Gaussian mixture model based on pixels was constructed to achieve pixel-level refinement. Finally, the significant feature of image was introduced, as well as segmentation results generated by graph-cut and Gaussian mixture model, to obtain more accurate segmentation results by voting scheme. The experimental results show that the proposed algorithm is a robust and effective segmentation algorithm, which is superior to most unsupervised video segmentation algorithms and some semi-supervised video segmentation algorithms.
superpixel segmentation; K-Dimensional tree (K-D tree); Gaussian Mixture Model (GMM); graph-cut algorithm; optical flow method
2017- 05- 16;
2017- 05- 31。
國家自然科學基金資助項目(61402233, 41501377);江蘇省自然科學基金資助項目(BK20151529,BK20150906)。
李雪君(1993—),女,江蘇南京人,碩士研究生,主要研究方向:視頻分割; 張開華(1983—),男,山東日照人,教授,博士,CCF會員,主要研究方向:目標跟蹤、水平集圖像分割; 宋慧慧(1986—),女,山東聊城人,教授,博士,主要研究方向:遙感影像處理。
1001- 9081(2017)11- 3134- 05
10.11772/j.issn.1001- 9081.2017.11.3134
(*通信作者電子郵箱zhkhua@gmail.com)
TP312
A