張琳 陸耀 盧麗華 周天飛 史青宣
視頻物體分割[1-3]是計(jì)算機(jī)視覺領(lǐng)域中的重要研究方向,與其他任務(wù)諸如行為分析[4]、視頻內(nèi)插[5]等有緊密聯(lián)系.當(dāng)輸入一個(gè)視頻時(shí),視頻分割算法針對(duì)視頻中的每一幀圖像計(jì)算出一幅分割掩膜,該掩膜可提取圖像中具有顯著運(yùn)動(dòng)特征的前景.由于前景物體的外表變形、遮擋和背景雜亂等困難,視頻物體分割是一個(gè)具有挑戰(zhàn)性的問題.而分割過程中無需先驗(yàn)信息及人工干預(yù)的無監(jiān)督視頻物體分割更為困難.
為解決無監(jiān)督視頻分割問題,本文提出了一種改進(jìn)的雙流視頻物體分割網(wǎng)絡(luò),并利用該網(wǎng)絡(luò)產(chǎn)生初步的分割結(jié)果.作為視頻分析中常用的網(wǎng)絡(luò)結(jié)構(gòu)[6-8],雙流網(wǎng)絡(luò)可以并行分析視頻中的時(shí)域-空域信息.本文提出具有相同分支結(jié)構(gòu)的雙流分割網(wǎng)絡(luò),同時(shí)對(duì)表觀及運(yùn)動(dòng)做出分割,并通過融合得到分割結(jié)果.
為使高層的特征指導(dǎo)低層特征提取更具判別力的特征,本方法提出在網(wǎng)絡(luò)中加入注意力模塊[9-12].該注意力模塊用于主干(Backbone)網(wǎng)絡(luò)的相鄰特征層之間,可將高層特征轉(zhuǎn)化為與低層特征具有相同維度的注意力張量(Tensor),強(qiáng)化高層特征所指定的更具語義信息的特征維度,同時(shí)弱化與目標(biāo)不相關(guān)的特征,使低層特征具有更強(qiáng)的判別力,實(shí)現(xiàn)高層語義特征對(duì)低層特征的監(jiān)督.實(shí)驗(yàn)表明,加入注意力模塊后網(wǎng)絡(luò)的收斂速度更快,且網(wǎng)絡(luò)的分割效果得到提高.
經(jīng)過分割后,視頻中有些圖像的分割結(jié)果較準(zhǔn)確,有些圖像則較差.為了對(duì)初始分割做優(yōu)化,文獻(xiàn)[13]將交互圖像分割中的優(yōu)化方法[3]用于視頻物體分割任務(wù)中.基于初始分割結(jié)果,此類方法針對(duì)每個(gè)視頻前景物體的表觀特征建立基于圖模型(Graph)的能量函數(shù)并優(yōu)化.然而圖模型方法無法準(zhǔn)確建模表觀變化大的運(yùn)動(dòng)物體.
本文提出利用初始結(jié)果作為先驗(yàn)對(duì)表觀分支網(wǎng)絡(luò)進(jìn)行權(quán)值微調(diào)的方法.利用閾值對(duì)初始結(jié)果進(jìn)行挑選,選擇其中的可靠像素作為信息監(jiān)督網(wǎng)絡(luò)訓(xùn)練過程,可以使得表觀網(wǎng)絡(luò)識(shí)得視頻前景物體,同時(shí)避免被不可靠像素所誤導(dǎo).
本文的主要貢獻(xiàn)可歸納如下:1)提出了一種視頻物體分割方法,首先利用雙流卷積網(wǎng)絡(luò)對(duì)視頻分割,得到初步的分割結(jié)果;進(jìn)而利用初步結(jié)果對(duì)分割網(wǎng)絡(luò)的表觀分支做權(quán)值微調(diào),使其適應(yīng)該視頻中的前景物體;再次使用新權(quán)值下的分割網(wǎng)絡(luò)對(duì)視頻做分割,得到最終結(jié)果.通用數(shù)據(jù)集DAVIS 上的實(shí)驗(yàn)顯示該方法具有很好的分割能力,能夠準(zhǔn)確的對(duì)視頻中的運(yùn)動(dòng)物體進(jìn)行分割.2)提出了一個(gè)簡(jiǎn)單卻有效的卷積注意力模塊,該模塊可以用于分割網(wǎng)絡(luò)中并提高卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network,CNN)的表現(xiàn)能力.3)提出了利用初步分割結(jié)果作為先驗(yàn)信息對(duì)網(wǎng)絡(luò)進(jìn)行微調(diào)的方法,該方法可以使分割網(wǎng)絡(luò)學(xué)習(xí)到視頻中前景物體的表觀特征,提高分割效果.
為解決視頻物體分割問題,很多有效算法被提出.根據(jù)分割算法中提取特征所使用的方法,可將其分類為:1)基于非深度特征(Non-deep learning)的分割算法[14-22];2)基于深度(Deep learning)特征的分割算法[23-32].此外,根據(jù)人與算法的交互程度,兩類算法均具有3 種子類別:1)無監(jiān)督(Unsupervised)分割算法:沒有任何先驗(yàn)信息,全自動(dòng)的分割算法.2)半監(jiān)督(Semi-supervised)分割算法:需要由人指定分割區(qū)域,通常以視頻中第1 幀圖像的真值給出.3)全監(jiān)督(Supervised)分割算法:需要人與算法的多次交互,以修正長時(shí)間分割中的誤差.
非深度學(xué)習(xí)分割方法使用人工定義的描述子,通過對(duì)整個(gè)視頻上的運(yùn)動(dòng)特征[19-20]、表觀特征[14,18]或二者的結(jié)合[15,17]綜合分析產(chǎn)生分割預(yù)測(cè).作為無監(jiān)督分割方法,FST (Fast object segmentation in unconstrained video)[21]通過分析運(yùn)動(dòng)特征得到具有顯著相對(duì)運(yùn)動(dòng)的前景區(qū)域.更進(jìn)一步,文獻(xiàn)[20]提出綜合分析運(yùn)動(dòng)邊緣、表觀邊緣與超像素,得到時(shí)空邊緣概率圖像,利用測(cè)地距離對(duì)其優(yōu)化得到更好的分割預(yù)測(cè).文獻(xiàn)[17]是基于提議(Proposal)的分割方法.該方法首先調(diào)用文獻(xiàn)[22]的方法產(chǎn)生許多粗糙候選物體提議,并使用支持向量機(jī)(Support vector machine,SVM)篩選出更為可靠的提議集合,且進(jìn)一步使用條件隨機(jī)場(chǎng) (Conditional random field,CRF)進(jìn)行了優(yōu)化.VOSA (Video object segmentation aggregation)[18]是一種集成方法,該方法首先利用已有的方法對(duì)每一幀圖像得到一組分割結(jié)果,由于不同的方法具有不同的優(yōu)勢(shì)和劣勢(shì),每一組分割結(jié)果中都包含較好的和較差的結(jié)果.然后利用所定義的能量函數(shù)來優(yōu)化不同分割結(jié)果在最終結(jié)果中的權(quán)重,最終得到最優(yōu)結(jié)果.半監(jiān)督分割方法利用跟蹤[15]或傳播[14]方式將已知的真值傳遞到整個(gè)視頻中.如文獻(xiàn)[15]將跟蹤與分割置于同一框架下,將分割任務(wù)定義為對(duì)于物體部件的跟蹤.OFL(Video segmentations via object flow)[14]則是基于圖的分割方法,在每幅圖像內(nèi)建立圖,同時(shí)在圖像間建立更高層次的圖,并在圖上建立能量函數(shù),通過優(yōu)化能量函數(shù)得到視頻分割結(jié)果.
得益于近年發(fā)展快速的卷積神經(jīng)網(wǎng)絡(luò)技術(shù),很多基于卷積神經(jīng)網(wǎng)絡(luò)的分割方法[23-32]相繼提出,并且超越了大部分傳統(tǒng)方法的效果.無監(jiān)督分割網(wǎng)絡(luò)需考慮物體的表觀特征和運(yùn)動(dòng)特征,因此文獻(xiàn)[24-25]提出利用雙流網(wǎng)絡(luò)來進(jìn)行視頻分割.兩支網(wǎng)絡(luò)的輸入分別為視頻圖像和由光流編碼出的RGB 圖像,以此來進(jìn)行表觀特征的提取和運(yùn)動(dòng)特征的提取.光流分支的加入可以對(duì)運(yùn)動(dòng)進(jìn)行分析,優(yōu)化最終的結(jié)果.文獻(xiàn)[26]則是在相鄰圖像的表觀網(wǎng)絡(luò)頂部加入卷積長短期記憶(Long short-term menory,LSTM)模塊,以此編碼時(shí)域信息,從提取到的表觀特征中尋求運(yùn)動(dòng)顯著的區(qū)域選擇為前景.半監(jiān)督視頻分割方法[23,27-28]則是利用先驗(yàn)信息(通常是第1 幀圖像的真值)使其在整列視頻上擴(kuò)展,得到所有圖像的分割預(yù)測(cè).算法MSK (MaskTrack:Learning video object segmentation from static images)[23]是在輸入光流圖像和表觀分支之外,額外輸入了當(dāng)前圖像的前一幀 (T -1 幀)的分割結(jié)果.利用上一幀的結(jié)果對(duì)下一幀進(jìn)行約束,并提高下一幀的分割準(zhǔn)確度.算法OSVOS (One-shot video object segmentation and optical flow)[27]在測(cè)試集中利用第1 幀的真值微調(diào)(Finetune)母網(wǎng)絡(luò)的權(quán)重,使得網(wǎng)絡(luò)對(duì)于該視頻中的運(yùn)動(dòng)物體敏感,從而得到準(zhǔn)確的視頻分割結(jié)果.此外,文獻(xiàn)[28]提出基于孿生網(wǎng)絡(luò) (Siamese network)的快速分割方法,該網(wǎng)絡(luò)將視頻的第1 幀圖像與其真值一起作為參考圖像成為孿生網(wǎng)絡(luò)中一支的輸入,同時(shí)將當(dāng)前圖像與前一幀圖像的掩膜作為另一支的輸入,實(shí)現(xiàn)參考圖像對(duì)目標(biāo)的分割引導(dǎo).
注意力在人類的感知系統(tǒng)中具有很重要的地位[33-35].人類使用視覺感知外界時(shí)不會(huì)將所有的注意力同時(shí)平均分配在視野中的所有位置,而是將注意力集中于顯著的區(qū)域,同時(shí)弱化非顯著區(qū)域的細(xì)節(jié),以更好地構(gòu)建圖像來理解圖像的含義.
近年來有很多與注意力相關(guān)的研究,試圖將注意力過程應(yīng)用于卷積神經(jīng)網(wǎng)絡(luò)中來提高網(wǎng)絡(luò)表現(xiàn)力.文獻(xiàn)[36]提出了采用殘差連接的注意力模塊,同時(shí)提出增加更多的注意力模塊可以顯著提升網(wǎng)絡(luò)的性能的同時(shí)降低計(jì)算量.文獻(xiàn)[36]同時(shí)探討了空間注意力(Spatial attention)和通道注意力(Channel attention)及其聯(lián)合方式對(duì)于分類效果的影響,并用實(shí)驗(yàn)證明混合聯(lián)合方式效果最好.文獻(xiàn)[37-38]利用通道注意力模塊來選擇更具有分辨能力的特征,使得網(wǎng)絡(luò)中更有判別力的特征得到加強(qiáng),并提高圖像分割效果.
本方法實(shí)現(xiàn)視頻物體分割需要3 個(gè)階段,如圖1所示.在圖1 中,左側(cè)為雙流分割網(wǎng)絡(luò)示意圖,右側(cè)為全局信息優(yōu)化策略,偽訓(xùn)練集指利用初次分割結(jié)果所構(gòu)建的集合.首先將圖像和對(duì)應(yīng)的光流圖像輸入雙流卷積分割網(wǎng)絡(luò)得到初步分割結(jié)果;進(jìn)而利用本文所提出的全局信息優(yōu)化方法,將上一步得到的分割結(jié)果作為先驗(yàn)信息,監(jiān)督雙流網(wǎng)絡(luò)中表觀分支的微調(diào),經(jīng)過訓(xùn)練后,該網(wǎng)絡(luò)可學(xué)習(xí)到視頻中前景物體的表觀特征;最后使用新權(quán)值下的雙流網(wǎng)絡(luò)處理輸入視頻,可得到最終的分割結(jié)果.
圖1 基于注意力的視頻物體分割方法框架圖Fig.1 The framework of proposed video object segmentation method with attention mechanism
本節(jié)詳細(xì)解釋雙流卷積分割網(wǎng)絡(luò)的結(jié)構(gòu)及其中的卷積注意力模塊,下一節(jié)將介紹利用先驗(yàn)信息實(shí)現(xiàn)全局信息優(yōu)化的訓(xùn)練策略.
給定一個(gè)高層特征Fh∈RCh×H×W作為輸入,其相鄰的低層特征可表示為Fl∈RCl×2H×2W,本文的卷積注意力模塊可利用高層特征Fh推理得到通道注意力張量M∈RCl×1×1,其網(wǎng)絡(luò)結(jié)構(gòu)如圖2所展示.完整的注意力推理過程可表示為
每個(gè)維度上的注意力值沿著空間的維度擴(kuò)展,使注意力強(qiáng)度可與低層特征相乘.
圖2 中Feature 代表低層特征,而Side-prep層代表由高層特征通過卷積后得到的特征層.來自最高層的特征直接通過一次核為 3×3 的卷積操作得到特征維度為16 的Side-prep 層.而中間層特征,首先接受來自上層的注意力加強(qiáng)之后再卷積得到Side-prep 層(結(jié)構(gòu)如圖3 所示).Side-prep 層可降低高層特征的維度,且使其得到更強(qiáng)的深度語義信息提煉.
圖2 卷積注意力模塊的結(jié)構(gòu)Fig.2 The architecture of the convolutional attention module
該Side-prep 特征首先經(jīng)過雙線性插值操作將其尺寸放大到與低層特征具有相同大小,使其可與低層特征融合.二者以連接方式融合后的特征經(jīng)由一次核大小為 1×1 卷積操作之后,進(jìn)行全局池化.后續(xù)通過激活函數(shù)層,與再一次核大小為 1×1 卷積操作,最終通過一個(gè)Sigmoid 層得到值為0 到1之間的注意力張量.
在圖像分割網(wǎng)絡(luò)中,經(jīng)過多次卷積操作最終將輸出一個(gè)概率圖像,該圖定義了圖像中的每個(gè)位置的像素成為每個(gè)類別的概率[37].如式 (2)所示,位于最終的概率圖中的分?jǐn)?shù)是所有特征圖中所有通道特征的和.
在式 (2)中,x代表網(wǎng)絡(luò)中的特征,w代表卷積核,k∈1,2,···,K代表特征通道的個(gè)數(shù),D1,D2分別代表像素在兩個(gè)維度的位置.
如式 (3)所示,θ代表預(yù)測(cè)概率,y表示網(wǎng)絡(luò)的輸出.最終預(yù)測(cè)到的像素標(biāo)簽是具有最大概率的類別標(biāo)簽.
如式 (1)所示,原來的低層特征Fl在注意力張量的影響下改變了它原有的特征通道的權(quán)重,由高層特征所指定的有意義的區(qū)域通道被加強(qiáng),同時(shí)其余通道的權(quán)重則被削弱,實(shí)現(xiàn)了高層特征對(duì)低層特征的監(jiān)督.
本文的特征提取網(wǎng)絡(luò)采用了OSVOS 網(wǎng)絡(luò)結(jié)構(gòu).OSVOS 是半監(jiān)督視頻分割方法,將其特征網(wǎng)絡(luò)在數(shù)據(jù)集DAVIS 的訓(xùn)練集中進(jìn)行母網(wǎng)絡(luò)訓(xùn)練.在測(cè)試中,首先利用測(cè)試視頻第1 幀圖像的真值對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行微調(diào),使網(wǎng)絡(luò)對(duì)該視頻中的前景物體敏感,進(jìn)而用于視頻中其他圖像的分割.
本文采用其母網(wǎng)絡(luò)結(jié)構(gòu)為基礎(chǔ),且在測(cè)試集中并不對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行微調(diào).本文所使用特征提取網(wǎng)絡(luò)如圖3 所示.可以看到本文的主干網(wǎng)絡(luò)具有5 個(gè)階段,從低層到高層分別具有{2,2,3,3,3}個(gè)卷積層,在本網(wǎng)絡(luò)中不特別指出的卷積層所使用的均是大小為 3×3 的卷積核.在階段內(nèi)相鄰卷積層間皆具有激活函數(shù)層,每個(gè)階段之間具有池化層.隨著卷積層的層數(shù)變多,網(wǎng)絡(luò)可以提取到更高層的語義信息,而低層的特征具有豐富的細(xì)節(jié)信息.
本網(wǎng)絡(luò)同時(shí)提取第2~5 階段的特征并用于分割,如圖3 所示.高層特征通過注意力層后轉(zhuǎn)化為注意力張量,與相鄰低層特征相乘后通過 3×3 卷積成為Side-prep 層.來自高層的Side-prep 特征通過注意力模塊產(chǎn)生了新的注意力圖,該注意力張量作用于相鄰的低層特征,實(shí)現(xiàn)了高層特征對(duì)低層特征的監(jiān)督,其結(jié)構(gòu)如圖2.
圖3 表觀的特征提取網(wǎng)絡(luò)Fig.3 The framework of appearance feature extractor network
針對(duì)視頻中的運(yùn)動(dòng)分割問題,只有在視頻圖像序列中連續(xù)出現(xiàn)并且產(chǎn)生運(yùn)動(dòng)的物體才是前景物體.以城市街景為例,停在路邊的車從表觀分析屬于有意義的物體,然而由于它在視頻中沒有發(fā)生運(yùn)動(dòng),則運(yùn)動(dòng)物體分割任務(wù)把該物體識(shí)別為背景.因此只具有表觀意義特征不能篩選其中的運(yùn)動(dòng)物體,此時(shí)本文加入了運(yùn)動(dòng)特征分支網(wǎng)絡(luò)對(duì)視頻序列中的運(yùn)動(dòng)進(jìn)行分析.
運(yùn)動(dòng)特征網(wǎng)絡(luò)的輸入為利用相鄰圖像計(jì)算得到的光流圖像,且與上段所述的表觀網(wǎng)絡(luò)具有相同的網(wǎng)絡(luò)結(jié)構(gòu).運(yùn)動(dòng)分割網(wǎng)絡(luò)可以大致提取光流圖像中產(chǎn)生運(yùn)動(dòng)突出的部分,并將運(yùn)動(dòng)顯著部分以前景表示,而運(yùn)動(dòng)不顯著的部分作為背景.經(jīng)過表觀和運(yùn)動(dòng)兩支網(wǎng)絡(luò)的獨(dú)立分割將得到兩幅分割圖像,最終本文通過將兩幅分割圖像相加的方式將其融合并得到最后的分割結(jié)果.
在視頻序列中,前景物體的姿態(tài)變化、視角變化、遮擋及出現(xiàn)等均會(huì)引起前景物體外表形態(tài)的變化.因此在同一視頻中某些圖像的分割效果較好,某些圖像的分割效果較差.眾所周知,盡管視頻中的物體的表觀產(chǎn)生了一定的變化,而其RGB 的特征是具有一定規(guī)律的,因此本節(jié)提議利用前述步驟所計(jì)算得到的前景概率圖(分割結(jié)果)作為先驗(yàn)信息,對(duì)分割結(jié)果進(jìn)行優(yōu)化.
對(duì)分割結(jié)果的全局優(yōu)化需要利用初步分割結(jié)果作為先驗(yàn),其目的是綜合視頻時(shí)域中的全局信息,調(diào)整表觀網(wǎng)絡(luò)使得前景物體更顯著.經(jīng)過雙流分割網(wǎng)絡(luò)的處理,視頻中的每幅圖像都得到一幅前景概率圖.定義X=(xj,j=1,···,|X|)作為圖像中的所有像素,定義Y=(yj,j=1,···,|X|),yj∈{0,1}代表所有像素的真值標(biāo)簽,Pr(yj=1|X;W,w(m))表示經(jīng)過初次分割后每個(gè)像素作為前景像素的概率.
定義閾值α及β,Pr(yj=1|X;W,w(m))>α的像素定義為可相信的前景像素(yj=1),Pr(yj=1|X;W,w(m))<β的像素定義為可相信的背景像素(yj=0.而β≤Pr(yj=1|X;W,w(m))≤α被定義為需要忽視的像素(yj=ignored).此時(shí)測(cè)試集圖像及其處理后的分割結(jié)果構(gòu)成偽訓(xùn)練集,可以用于分割網(wǎng)絡(luò)的微調(diào).
采用比較極端的閾值是由于初步的分割結(jié)果中有很多誤分割像素,例如真值為前景的像素被分割為背景像素或反之.使用錯(cuò)誤的標(biāo)簽對(duì)網(wǎng)絡(luò)進(jìn)行微調(diào)會(huì)使得網(wǎng)絡(luò)產(chǎn)生混亂,因此 “不可靠像素” (前景概率β≤Pr(yj=1|X;W,w(m))≤α的像素)需要定義為需要忽略的像素(Ignored label).這些像素在訓(xùn)練過程中將不對(duì)誤差的梯度回傳產(chǎn)生任何影響.圖4 顯示了在初步前景概率圖中前景像素、背景像素和忽略像素的定義.圖4 中被淺灰色掩膜所確定的區(qū)域內(nèi)像素為正樣本,被深灰色區(qū)域確定的區(qū)域內(nèi)像素為被忽略的樣本,其余未被標(biāo)注的像素為負(fù)樣本.
圖4 先驗(yàn)圖像中的樣本選擇Fig.4 Our training examples selection
由于初步分割結(jié)果并不一定可靠,因此不能使用該結(jié)果單獨(dú)對(duì)表觀網(wǎng)絡(luò)進(jìn)行訓(xùn)練.此外,由于本文在選取圖像中正樣本時(shí)僅考慮其前景概率,并不考慮空間連續(xù)性,因此會(huì)引起分割結(jié)果中產(chǎn)生空洞,前景掩膜難以產(chǎn)生流暢的邊緣.本文選擇將該先驗(yàn)作為訓(xùn)練集的補(bǔ)充數(shù)據(jù),混合后進(jìn)行訓(xùn)練.這種方法保證了該先驗(yàn)數(shù)據(jù)可以被網(wǎng)絡(luò)習(xí)得,同時(shí)訓(xùn)練集中的大量可靠數(shù)據(jù)可以降低不可靠數(shù)據(jù)對(duì)網(wǎng)絡(luò)權(quán)值的影響.
利用初次分割結(jié)果對(duì)表觀網(wǎng)絡(luò)進(jìn)行微調(diào)之后,使用本文所提出的雙流分割網(wǎng)絡(luò)對(duì)視頻進(jìn)行再次分割,得到最終的分割結(jié)果.
本文利用像素級(jí)別的二分類交叉熵(cross-entroy-loss)為損失函數(shù)對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練.該損失函數(shù)定義為
其中,L表示預(yù)測(cè)與真值間的損失,W表示網(wǎng)絡(luò)中所包含的所有需要學(xué)習(xí)的參數(shù),X=(xj,j=1,···,|X|)表示輸入圖像中的所有像素,Y=(yj,j=1,···,|X|),yj∈{0,1}表示某次訓(xùn)練中的真值,β=|Y-|/(|Y+|+|Y-|)是用于權(quán)衡正樣本像素和負(fù)樣本像素的參數(shù).
計(jì)算Sigmoid 函數(shù)θ(·)在圖像每個(gè)像素j上的激勵(lì)值即為
本文網(wǎng)絡(luò)的基礎(chǔ)CNN 網(wǎng)絡(luò)是預(yù)先在ImageNet上針對(duì)圖像分類進(jìn)行訓(xùn)練得到的權(quán)值,此網(wǎng)絡(luò)是不能直接用于分割的.因此首先將此網(wǎng)絡(luò)在DAVIS數(shù)據(jù)集的訓(xùn)練集中進(jìn)行二分類分割訓(xùn)練.本文的表觀網(wǎng)絡(luò)以訓(xùn)練集中的圖像作為輸入,并配合數(shù)據(jù)集中的標(biāo)注做為真值.當(dāng)訓(xùn)練運(yùn)動(dòng)網(wǎng)絡(luò)時(shí),首先利用已有的算法(FlowNet[39])計(jì)算視頻光流,之后將光流圖像作為運(yùn)動(dòng)網(wǎng)絡(luò)的輸入.
使用隨機(jī)梯度下降(Stochastic gradient descent,SGD)方法,配合動(dòng)量(Momentum)為0.9,我們將網(wǎng)絡(luò)進(jìn)行了160 次迭代訓(xùn)練(Epoch).其中所使用的數(shù)據(jù)通過翻轉(zhuǎn)和縮放進(jìn)行數(shù)據(jù)擴(kuò)充.網(wǎng)絡(luò)中的學(xué)習(xí)率為10-8,并且隨著訓(xùn)練過程逐步減小.兩個(gè)分支網(wǎng)絡(luò)具有相同的訓(xùn)練過程,結(jié)果由分支網(wǎng)絡(luò)的分割結(jié)果通過融合得到.
初次分割結(jié)果之后,需要表觀網(wǎng)絡(luò)進(jìn)行微調(diào).在本文中閾值常數(shù)定義為α=0.95,β=10-8,利用此兩個(gè)閾值為初次得到的概率圖中的每個(gè)像素給定標(biāo)簽,使其成為正樣本或負(fù)樣本或被忽略像素.調(diào)整數(shù)據(jù)后加入原始訓(xùn)練數(shù)據(jù)中,在與前一階段中使用相同超參數(shù)的情況下,我們將網(wǎng)絡(luò)進(jìn)行了5 次迭代訓(xùn)練.
本算法在DAVIS[40]數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)來驗(yàn)證方法性能.DAVIS 是2016 年提出的視頻分割數(shù)據(jù)集,每個(gè)視頻中的圖像序列均為480 p 高清分辨率,并具有精確的像素級(jí)別標(biāo)簽.該數(shù)據(jù)集共包含50個(gè)視頻,其中30 個(gè)視頻構(gòu)成訓(xùn)練集,20 個(gè)視頻構(gòu)成測(cè)試集.涵蓋遮擋、背景混亂、高速運(yùn)動(dòng)等造成的運(yùn)動(dòng)物體難以分割的視頻.
本文采用DAVIS 數(shù)據(jù)集定義的3 種方式作為定量評(píng)價(jià)標(biāo)準(zhǔn):區(qū)域相似度J、輪廓準(zhǔn)確度F和時(shí)域穩(wěn)定性T.與交并比 (Intersection over union,IoU)相似,J度量算法得到的分割結(jié)果與真值在區(qū)域上的匹配度.定義M為算法分割結(jié)果,G為對(duì)應(yīng)的真值,則J可以表示為F定義為其中Pc和Rc分別代表利用M和G的輪廓點(diǎn)計(jì)算出的精確度(Precision)和召回率(Recall).時(shí)域穩(wěn)定性T用于評(píng)價(jià)算法是否會(huì)在視頻中不同幀產(chǎn)生不穩(wěn)定的分割結(jié)果,該評(píng)價(jià)標(biāo)準(zhǔn)是在相鄰視頻幀之間采用動(dòng)態(tài)時(shí)間彎曲(Dynamic time warping)計(jì)算得到的.
本文提出了一種新的用于引導(dǎo)低層特征訓(xùn)練的注意力模塊,為了驗(yàn)證該模塊的有效性,本文設(shè)置了對(duì)比實(shí)驗(yàn),將本文中的表觀網(wǎng)絡(luò)、運(yùn)動(dòng)分割網(wǎng)絡(luò)和不加入注意力模塊的OSVOS 母網(wǎng)絡(luò)以及普通的全卷積神經(jīng)網(wǎng)絡(luò) (Fully convolutional network,FCN)網(wǎng)絡(luò)分別對(duì)DAVIS 數(shù)據(jù)集進(jìn)行分割實(shí)驗(yàn),得到表1 的實(shí)驗(yàn)結(jié)果.
表1 有效性對(duì)比實(shí)驗(yàn)Table 1 Ablation experiments results
表1 中,ours_m 表示本文中所提出的運(yùn)動(dòng)分割網(wǎng)絡(luò),ours_a 表示文中所使用的表觀分割網(wǎng)絡(luò).該網(wǎng)絡(luò)是在OSVOS 母網(wǎng)絡(luò)的基礎(chǔ)上,在相鄰階段的特征層間加入注意力模塊形成.Baseline 即為本文所使用的OSVOS 母網(wǎng)絡(luò).FCN 與二者具有相似的特征結(jié)構(gòu)不同的跳躍連接方式.
對(duì)比實(shí)驗(yàn)表明,以光流圖像為輸入的運(yùn)動(dòng)分割網(wǎng)絡(luò)具有最好的分割效果(0.595),比另外三種基于圖像的分割效果都要好,這是由于視頻圖像序列內(nèi)容復(fù)雜,通常圖像中不僅包含運(yùn)動(dòng)前景物體,還包含其他非前景物體的顯著物體,因此僅僅根據(jù)表觀特征難以確定運(yùn)動(dòng)顯著的前景物體.而運(yùn)動(dòng)分割網(wǎng)絡(luò)以光流圖像為輸入,可以提取出運(yùn)動(dòng)顯著的區(qū)域,且光流圖像的質(zhì)量極大影響運(yùn)動(dòng)分割的效果.
ours_a和OSVOS 母網(wǎng)絡(luò)的分割結(jié)果顯示,加入注意力模塊后表觀特征網(wǎng)絡(luò)的分割能力明顯提高(+10.2%).本網(wǎng)絡(luò)(0.552)的平均區(qū)域相似度J比經(jīng)典的FCN (0.519)提高了(+6.4%).該實(shí)驗(yàn)顯示,注意力模塊對(duì)于提高分割的準(zhǔn)確率非常有效.
本節(jié)展示了本算法與現(xiàn)有算法在數(shù)據(jù)集DAVIS上的定量比較結(jié)果.參與比較的是本算法(ours)與去除全局優(yōu)化后的本文網(wǎng)絡(luò)ours_n,fseg[8],fst[21],msg[41],lmp[42],tis[43],nlc[44],和cvos[45].表2 中的數(shù)據(jù),大部分由數(shù)據(jù)集DAVIS 的公開網(wǎng)站中所提供.對(duì)于沒有提供數(shù)值結(jié)果的方法,本文使用原作者所提供的分割結(jié)果計(jì)算得到.
表2 顯示了本算法與其他算法結(jié)果的比較.其中粗體字?jǐn)?shù)值代表在該評(píng)價(jià)標(biāo)準(zhǔn)下該算法在所有算法中是效果最好的算法.
表2 定量實(shí)驗(yàn)結(jié)果Table 2 Quantitative experiments results
在最重要的平均區(qū)域相似度J上,本算法得到的分?jǐn)?shù)為0.713,比同為雙流視頻分割的fseg (0.707)的評(píng)分提高了0.85%;比另一種深度學(xué)習(xí)方法lmp(0.700)提高了1.86%.
在輪廓準(zhǔn)確度F中,本算法的評(píng)分(0.684)也比較好.比第2 名的lmp (0.659)高0.025 分,比第3 名的fseg (0.653)高0.031 分.表2的F區(qū)域顯示,本算法在輪廓處的準(zhǔn)確度很高,同時(shí)召回率也比較高.說明本算法得到的預(yù)測(cè)分割可以比較準(zhǔn)確地尋得視頻中運(yùn)動(dòng)物體的輪廓.
全局優(yōu)化后的結(jié)果ours 與未經(jīng)優(yōu)化的網(wǎng)絡(luò)分割結(jié)果ous_n 相比,平均區(qū)域相似度得到了一定程度的提高(0.003),然而召回率略有下降(-0.011).這是由于使用初次分割的結(jié)果作為先驗(yàn)知識(shí)網(wǎng)絡(luò)進(jìn)行微調(diào)時(shí),僅考慮了像素的前景概率,沒有考慮空間上相鄰像素之間的關(guān)系,因此會(huì)造成所學(xué)習(xí)到的網(wǎng)絡(luò)對(duì)前景區(qū)域內(nèi)像素相鄰關(guān)系的判斷減弱.
表2 顯示本網(wǎng)絡(luò)的時(shí)域穩(wěn)定性較差,這是由于本算法利用光流信息分析視頻間的運(yùn)動(dòng)信息,而光流具有不穩(wěn)定性,快速運(yùn)動(dòng)、慢速運(yùn)動(dòng)、背景和相機(jī)的相對(duì)運(yùn)動(dòng)等都會(huì)導(dǎo)致光流圖像的誤差增大,最終引起運(yùn)動(dòng)分割的效果變差.由于光流具有短時(shí)特征,其影響只會(huì)在視頻中某些圖像中出現(xiàn),造成時(shí)域不穩(wěn)定.
圖5 展示了本文算法與幾種算法的定性結(jié)果對(duì)比.所有圖像均來自DAVIS 數(shù)據(jù)集.圖5 中第1 列表示輸入圖像,第2 列是本算法的分割結(jié)果,第3~8 列是對(duì)比方法在輸入圖像上的分割結(jié)果.第1行和第2 行的分割對(duì)象比較清晰,本算法可以很好地分割得到前景物體,且不含有影子等噪聲.第3~6 行的前景皆具有豐富的細(xì)節(jié),而本文算法都很好地分割到了完整的前景物體,且具有比較完整的輪廓.第7 行和第9 行是由前景背景高度相似造成的分割困難,本算法正確提取了物體區(qū)域并完整將其分割.第8 行中騎自行車的人被復(fù)雜的樹枝遮擋,本文算法可以找到其中運(yùn)動(dòng)的人,并且較為細(xì)致地在人和樹枝密集交錯(cuò)的部分分割出人的區(qū)域.
圖5 定性比較結(jié)果Fig.5 Qualitative results comparison
本文提出了一種新的視頻物體分割方法.該方法包含雙流視頻分割網(wǎng)絡(luò)和一種全局信息優(yōu)化方法.首先利用雙流分割網(wǎng)絡(luò)處理輸入視頻,可得到初步的分割結(jié)果,進(jìn)而利用這些分割掩膜作為監(jiān)督信息,對(duì)分割網(wǎng)絡(luò)中的表觀分支進(jìn)行微調(diào),繼而利用新的權(quán)值對(duì)視頻進(jìn)行分割,得到最終結(jié)果.本文提出了一種新的注意力模塊,該模塊可以利用多層神經(jīng)網(wǎng)絡(luò)中的高層特征對(duì)低層特征實(shí)現(xiàn)注意力區(qū)域引導(dǎo),提高圖像分割的準(zhǔn)確度.同時(shí)提出了利用全局信息對(duì)原始網(wǎng)絡(luò)進(jìn)行微調(diào)的方法,該方法可以比較好地綜合視頻中所有圖像的表觀特征,針對(duì)運(yùn)動(dòng)前景物體調(diào)整表觀分割網(wǎng)絡(luò),并提高分割準(zhǔn)確度.在未來的研究工作中,我們將在全局優(yōu)化過程中考慮樣本空間中像素之間的位置關(guān)系,減輕全局優(yōu)化中召回率下降的問題.