丁飛飛,楊文元
(1.福建省粒計算及其應(yīng)用重點實驗室(閩南師范大學),福建 漳州 363000;2.數(shù)據(jù)科學與智能應(yīng)用福建省高等學校重點實驗室,福建 漳州 363000)(*通信作者電子郵箱yangwy@mnnu.edu.cn)
視頻目標分割是把前景物體從視頻背景中分離出來[1],是計算機視覺研究中的一個重要內(nèi)容,在視頻檢索編輯、目標跟蹤、安防監(jiān)控、智能交通等領(lǐng)域有著廣泛的運用[2]。另一方面,視頻目標分割也是其他計算機視覺如目標識別、跟蹤、分類以及更高層次的語義分割理解等研究內(nèi)容的基礎(chǔ)。因此,對視頻目標有效且高精度分割的研究就顯得尤為重要。
由于應(yīng)用的場景以及選取的分割目標不同,對視頻目標分割并不存在標準化的評價方法[3]。根據(jù)分割任務(wù),有基于運動信息的關(guān)鍵點軌跡跟蹤[4]和基于聚類的無監(jiān)督方法[1],也有基于光流對幀間標注信息傳播的半監(jiān)督方法[5],以及基于交互式分割的監(jiān)督方法[6-7]。無監(jiān)督的方法由用戶自動輸入視頻,無需手工標記以及任何先驗性信息就可自動處理大量的視頻,并且它和應(yīng)用更相關(guān)。半監(jiān)督的方法則需要用戶在某些幀間標注[8],然后向后續(xù)的幀傳播這些標注信息,相對來說有更高的分割精度。而監(jiān)督的方法更適合于特定的場景,且能夠取得最高的分割精度,但計算的時間代價往往比較高。此外,這些視頻分割方法多基于分析運動和外觀信息并且假設(shè)運動的一致性。
然而,在處理視頻目標分割過程中,由于不知道有關(guān)物體表觀、尺度、位置等任何信息,再加上大多數(shù)視頻目標多為無規(guī)則運動,目標外觀隨時發(fā)生變化,實際的應(yīng)用環(huán)境也多為復雜的場景,這使得視頻分割任務(wù)充滿挑戰(zhàn)[9]。目前有不少學者都在研究目標跟蹤分割過程中的遮擋和形變等問題,他們通過構(gòu)建圖模型,并融合顏色信息、位置信息、時空圖信息,從而實現(xiàn)對目標的有效跟蹤分割,在處理目標形變、遮擋、快速運動和背景干擾等問題時具有較高的穩(wěn)定性和魯棒性。
在上述背景下,為了能夠有效且更高精度地分割視頻運動目標,本文提出一種信息熵約束下的視頻分割方法。由于基于圖論的視頻分割方法遵循預定的目標模型并且可以把目標分割任務(wù)看成是像素標記的優(yōu)化問題[10],而信息熵又能夠度量樣本純度,因此:本文方法首先通過光流來模糊估計運動邊界并根據(jù)文獻[11]方法得到第一階段的分割結(jié)果;然后綜合分析外觀信息建立外觀高斯模型,在模型中引入信息熵約束,使得模型能夠?qū)碗s場景更加魯棒;其次,信息熵最小化與整個能量函數(shù)模型最小化具有一致的目標,能夠使前景和背景估計更加精確;最后通過最小化能量模型來獲得相鄰頂點精確的標簽分配,從而得到有效以及更加精確的目標分割效果。
基于圖論的分割算法在圖像分割領(lǐng)域得到了廣泛的應(yīng)用,它是一種基于能量最小化求解最優(yōu)分割結(jié)果的交互式算法,其結(jié)果通常為全局最優(yōu)解[10]。近年來,有許多學者把圖論的分割算法運用到視頻運動目標的分割,這些基于圖論的視頻分割方法都遵循相似的目標模型。
2001年,文獻[12]中首先提出了能量優(yōu)化算法Graph cut,算法中定義包含區(qū)域項和邊界項的能量函數(shù),通過最小化能量函數(shù)來實現(xiàn)前景背景分割;為了利用顏色信息和邊界信息,2004年文獻[13]中在Graph cut算法基礎(chǔ)上提出Grab cut算法,通過少量的用戶交互,不斷地進行分割估計和模型參數(shù)學習,最終實現(xiàn)了較好的分割;2011年文獻[4]中對顏色信息和邊界信息進行精細化分析,通過結(jié)合運動信息和靜態(tài)圖像特征信息找出所有幀可能的目標區(qū)域,然后對這些可能區(qū)域評分排序,從而產(chǎn)生一系列關(guān)鍵視頻段,同時在這些關(guān)鍵視頻段中構(gòu)建顏色外觀和先驗位置模型,最終通過能量函數(shù)最小化實現(xiàn)全自動的分割;2012年文獻[8]中把超像素引入到視頻目標分割,提出概率運動擴散傳播標注信息的方法,通過對超像素增加標簽一致性約束,在能量函數(shù)上增加由時間平滑項和空間平滑項兩部分組成的互勢函數(shù),然后最小化能量函數(shù)來得到較高的分割精度;為更加魯棒地處理快速運動、遮擋變形等視頻分割挑戰(zhàn),2013年文獻[11]中通過積分交叉算法得到視頻目標內(nèi)部像素點,同時在目標內(nèi)部像素點構(gòu)成的內(nèi)外圖中學習顏色外觀和先驗位置模型參數(shù),最終實現(xiàn)全自動地視頻目標分割;2017年,文獻[9]在文獻[11]的基礎(chǔ)上,利用元胞自動機的思想對超像素水平的先驗前景圖細化,然后在細化的先驗前景圖上學習顏色外觀和先驗位置模型參數(shù),最終最小化能量函數(shù)得到更高的分割精度。本文在上述文獻的基礎(chǔ)上,從信息熵的角度對先驗前景圖細化,并同文獻[8]一樣把超像素引入到視頻目標分割,然后綜合分析時空信息、位置信息和細化的外觀信息,通過Grab cut迭代分割得到更加精確的分割結(jié)果。
本文方法和大多數(shù)無監(jiān)督方法一樣,并不需要假設(shè)運動的一致性,只要前景物體與周圍存在顯著的運動差異,就可以通過計算光流來模糊估計運動物體的邊界。本文方法包括兩個階段:1)計算光流得到前景目標的模糊運動邊界;2)在目標模型中引入信息熵約束項來獲得更加精確的前景背景像素標記。在第一個階段,本文方法基于經(jīng)典光流法[15]和文獻[11]算法得到運動目標的內(nèi)部像素點,從而得到前景運動目標的運動邊界。在這個階段,由于目標物體快速移動以及受遮擋等因素的影響,使得光流估計并不準確,無法得到精確的分割結(jié)果。第二個階段,基于簡單線性疊加聚類(Simple Linear Iterative Clustering, SLIC)算法[16]獲得均勻的運動和表現(xiàn)后以超像素作為基本分割單元,然后基于圖論分割的模型,構(gòu)建類似文獻[21]和文獻[22]的能量函數(shù)。在構(gòu)建外觀高斯模型過程中引入信息熵約束,使得模型能夠?qū)碗s場景更加魯棒;其次最小化信息熵與整個能量模型最小化具有一致的目標,通過最小化信息熵能夠更加精確地評估像素點標記是背景還是前景。
(1)
(2)
(3)
式(3)表明像素p(i,j)與周圍存在不同運動方向和速度,若變化差異大,那它很可能是運動邊界。圖1(a)~(c)顯示了第一階段通過計算光流得到運動邊界的過程。
通常情況下,由文獻[15]計算光流得到的運動邊界并不完全覆蓋整個物體,為此,需要利用文獻[11]算法,結(jié)合點在多邊形內(nèi)部原理得到運動目標內(nèi)部精確的像素點。具體做法為:針對給定的視頻幀,首先讓目標區(qū)域內(nèi)的每個像素點每間隔45°向8個方向引出射線,計算每條射線與運動邊界的交點數(shù)目,若交點數(shù)目為奇數(shù),則判斷該點在運動邊界內(nèi)部,否則判斷該點在運動邊界外部;然后統(tǒng)計每個像素點引出的射線與運動邊界交點偶數(shù)和奇數(shù)的數(shù)目,通過投票來決定該像素點是否是運動目標內(nèi)部的像素點,若像素點引出的射線奇數(shù)交點數(shù)目多于偶數(shù)交點數(shù)目,那就認為該像素點為內(nèi)部像素點;最后對所有視頻幀都運用上述算法,得到內(nèi)部像素點圖如圖1(d)所示。
在定義能量函數(shù)過程中,先把視頻序列看成是超像素水平的時空圖(G),圖的頂點s對應(yīng)超像素點,圖的邊對應(yīng)超像素的鄰接關(guān)系,其包含時間上和空間上的鄰接關(guān)系,兩頂點之間邊的權(quán)重對應(yīng)超像素點分割時的代價,ωij定義[9]為:
(4)
其中:δ2設(shè)置為0.1;fi和fj分別對應(yīng)CIB LAB顏色空間上相鄰超像素點的平均值。
圖1 兩個階段的分割過程Fig. 1 Two stages of segmentation process
根據(jù)第一階段得到的分割結(jié)果和前面定義的時空圖,利用超像素作為基本分割單元。為評估每一個超像素標記的準確性,定義如下能量函數(shù):
E(L)=ΓA+l1ΓP+l2ΓS+l3ΓT+l4ΓD
(5)
其中:ΓA為外觀模型項,是對超像素屬于前景或背景的一種概率估計;第二項ΓP是為精確標記前景目標位置而建立的位置模型項;ΓS和ΓT分別是在時空圖邊集上定義的空間平滑項和時間平滑項,讓分割在時空上變得更加平滑;ΓD是本文方法為獲得更加精細的外觀模型而定義的信息熵約束項;l1~l4分別為各項的權(quán)重系數(shù),設(shè)置l1=1.5,l2=2 000,l3=1 000。
(6)
其中:λ1設(shè)置為0.000 1;第一個參數(shù)項exp()表示超像素在時間上的權(quán)重;第二個參數(shù)項表示超像素點通過內(nèi)部像素點計算出的屬于前景的比例。估計完前景和背景模型后,外觀模型項ΓA為超像素取相應(yīng)標記時的負對數(shù),可表示為:
(7)
外觀模型融合了整個視頻序列的信息,因此它能夠比單單使用光流得到更精確的分割。然而當前景和背景顏色相似時,對超像素標記的準確性就會下降,則運動目標分割容易受到干擾,而內(nèi)部像素點能夠近似表明前景目標的位置。式(5)中ΓP項就是通過累加所有內(nèi)部像素點而建立的位置模型項,得到的位置模型如圖1(g)所示。根據(jù)運動信息,算法通過幀間內(nèi)部像素點的傳播來得到更精確的位置先驗,定義位置更新公式[9]為:
(8)
(9)
(10)
式(5)中:ΓS和ΓT分別為空間平滑項和時間平滑項,ΓS是定義在同一幀中空間上相鄰超像素的邊對應(yīng)的權(quán)重,ΓT是定義在相鄰兩幀中通過光流連接的相鄰超像素的邊對應(yīng)的權(quán)重,根據(jù)文獻[11]定義ΓS和ΓT:
(11)
(12)
式(5)中最后一項ΓD為分析外觀信息建立外觀高斯模型時引入的信息熵約束項,得到的更精細外觀模型如圖1(f)所示。熵是度量樣本集合純度最常用的一種指標,信息熵越小,樣本純度越高;信息熵越大,對樣本判斷的不確定性就會變大[14]。根據(jù)熵的定義,類似地定義ΓD:
(13)
時空圖上定義的能量函數(shù)融合了位置信息、時空圖信息以及更精細的外觀信息,通過對各模型項求解可確定時空圖上各邊初始分割時的代價,然后利用GrabCut算法[13]進行迭代估計得到所有超像素點精確的標記,從而完成對視頻目標精確分割,分割結(jié)果如圖1(h)所示。
為了驗證本文方法在復雜環(huán)境場景下能夠有效地分割運動目標并且具有較高的魯棒性,在DAVIS數(shù)據(jù)集上(480p)[3]做了定性定量分析實驗。DAVIS數(shù)據(jù)集[3]包含了50個高分辨率的視頻序列以及手工標注的標準分割,涵蓋了一系列復雜環(huán)境場景和視頻分割挑戰(zhàn)。實驗時選取4個具有代表性的視頻序列(480p):Video1(blackswan)背景中的水時刻發(fā)生變化;Video2(hike)前景背景顏色相似,光照條件也發(fā)生變化;Video3(bmx-bumps)視頻目標快速運動;Video4(breakdance-flare)前景目標動作特征復雜,外觀發(fā)生變化。實驗結(jié)果如圖2所示。實驗環(huán)境為:Intel i7-3770 @ 3.40 GHz,8 GB內(nèi)存,Windows 7環(huán)境下使用Matlab 2014a實現(xiàn)。
為了定量評價本文方法的分割結(jié)果與DAVIS數(shù)據(jù)集[3]提供的標準之間的相似性,采用歸一化相關(guān)系數(shù)(Normalized Cross-correlation, NC)來度量分割效果。根據(jù)文獻[20],度量公式定義為:
(14)
其中:G為數(shù)據(jù)集提供的標準,G′為本文算法的分割結(jié)果,它們的大小均為P×Q。NC取值為0~1,其值越接近1,表示G與G′之間越相似,其評價結(jié)果如表1所示。
表1 在DAVIS數(shù)據(jù)集上的定量分析結(jié)果Tab. 1 Quantitative evaluation video segmentation results on DAVIS dataset
從圖2可以看出,本文法在一些復雜場景下能夠取得比較高的分割精度,表1中的數(shù)據(jù)也顯示了本文方法與標準之間的相似度比較高。如在目標發(fā)生快速運動(Video3)以及外觀產(chǎn)生變化(Video4)時都能對目標進行有效的分割,這與表1中Video3和Video4的數(shù)據(jù)也吻合;而在其他視頻序列,如在Video1背景(水)發(fā)生快速變換和Video2光照條件發(fā)生變化時,本文方法能得到更加精確的分割結(jié)果。圖示四個視頻序列多幀的分割結(jié)果也表明本文方法具有比較高的穩(wěn)定性和魯棒性。
文獻[4]和文獻[23]都定義了能量函數(shù)模型,然而文獻[4]的能量函數(shù)模型中并未考慮時空圖信息,文獻[23]在能量函數(shù)中增加了先驗顯著性檢測,在一些數(shù)據(jù)集中能夠取得比較好的效果,但并未對外觀模型信息作精細化分析。為了進一步驗證算法的分割精度和魯棒性,本文結(jié)合文獻[4]和文獻[23]給出的實驗結(jié)果,在標準數(shù)據(jù)集SegTrack[17]上做了定性定量對比實驗。SegTrack[17]標準數(shù)據(jù)集包含6個不同的視頻序列并涵蓋了多種不同的場景,能夠較為全面地衡量算法在不同場景下的分割能力。和大多無監(jiān)督方法一樣,實驗中選取前5個視頻序列,實驗結(jié)果如圖3所示。從圖3可以明顯看出:本文方法在一些幀中能夠取得比較高的分割精度,如在快速運動的目標(Cheetah)中;文獻[4]有不同程度丟失目標的情況,而文獻[23]在前景目標(Monkey)動作特征復雜的情況下,分割效果不佳。在其他視頻序列,如Girl,雖然本文方法在腳的一部分有丟失,但在其他身體部位的分割卻非常精確。
為了更加客觀地評價本文方法的有效性,根據(jù)文獻[3]所述的兩類主要視頻分割評測標準:區(qū)域相似度和輪廓精確度,進行了定量分析實驗。直觀上區(qū)域相似度度量標注錯誤像素的數(shù)量,而輪廓精確度度量分割邊界的準確率。由于SegTrack數(shù)據(jù)集[17]內(nèi)的視頻序列分辨率較低,因此選取每個視頻序列的平均每幀錯誤分割的像素點個數(shù)來量化[18]評測本文方法。實驗對比結(jié)果如表2所示,計算公式[19]如下:
error=XOR(F,GT)/N
(15)
其中:F為算法分割的結(jié)果;GT為數(shù)據(jù)集中提供的標準分割結(jié)果;N為視頻序列幀的數(shù)量。
計算方式如下:根據(jù)文獻[4,23]給出的分割結(jié)果以及SegTrack數(shù)據(jù)集[17]給出的標準,利用式(15)進行求解。由于文獻[23]給出的結(jié)果是灰度圖像,因此先對圖像作二值化預處理,這和文獻[23]給出的實驗結(jié)果略有不同。
從表2可以看出,本文方法在處理快速運動的目標(Cheetah)和前景目標(Monkey)動作特征復雜的場景下都有不錯的表現(xiàn),這和圖3定性分析的結(jié)果吻合。在其他視頻序列,如Girl,本文方法雖然錯誤分割的像素點個數(shù)相對比較多,但從圖3也能看出,除了腳的一部分發(fā)生丟失,在其他部位的分割效果都比較好。針對Girl視頻序列錯誤分割的像素點個數(shù)相對比較多的情況,其產(chǎn)生原因可能是由于目標外觀發(fā)生變化,劃分超像素時產(chǎn)生過分割。
圖2 本文方法在DAVIS數(shù)據(jù)集視頻序列的分割結(jié)果Fig. 2 Segmentation results obtained by the proposed method to video sequences from dataset DAVIS
圖3 本文方法與其他方法在SegTrack數(shù)據(jù)集上的定性比較結(jié)果Fig. 3 Qualitative comparison of the proposed method with other methods on dataset SegTrack
表2 在SegTrack數(shù)據(jù)集[17]上定量比較結(jié)果Tab. 2 Quantitative results and comparison with other methods on dataset SegTrack[17]
本文提出信息熵約束下的圖論視頻分割方法,綜合分析了運動信息、外觀信息、位置信息、時空圖信息。首先把目標分割任務(wù)看成是像素標記的優(yōu)化問題,在分析外觀信息時引入信息熵約束項,從而增強目標模型對背景噪聲和復雜環(huán)境的魯棒性;然后通過最小化能量模型來獲得更精確的分割效果。實驗結(jié)果也測試了本文方法的有效性和魯棒性,然而在目標外觀發(fā)生變化或遮擋的情況下,相對于對比算法,本文方法分割精度并不是很高。后續(xù)工作將著重分析該視頻場景以及進一步考慮在劃分超像素時如何避免過分割的問題。