季傳俊,陳亞當(dāng)*,車洵
1. 南京信息工程大學(xué)計(jì)算機(jī)學(xué)院、軟件學(xué)院、網(wǎng)絡(luò)空間安全學(xué)院,南京 210044; 2. 數(shù)字取證教育部工程研究中心,南京 210044; 3. 南京眾智維信息科技有限公司,南京 210006
視頻目標(biāo)分割(video object segmentation,VOS)是計(jì)算機(jī)視覺(jué)中的一項(xiàng)重要任務(wù),目的是將視頻序列中的前景目標(biāo)對(duì)象從背景中分離出來(lái),廣泛應(yīng)用于視頻檢測(cè)、視頻分割、機(jī)器人和自動(dòng)駕駛等領(lǐng)域。本文工作主要關(guān)注半監(jiān)督VOS任務(wù),即將視頻序列第1幀中目標(biāo)掩碼標(biāo)注作為參考信息,然后分割出視頻后續(xù)幀中感興趣的目標(biāo)對(duì)象。雖然提供了第1幀的目標(biāo)掩碼,但由于目標(biāo)物體在運(yùn)動(dòng)過(guò)程中可能產(chǎn)生失真、遮擋和相似物體的干擾,半監(jiān)督VOS仍然具有挑戰(zhàn)性。
由于深度卷積神經(jīng)網(wǎng)絡(luò)(deep convolution neural networks,DCNNs)在圖像分割(Li等,2018)、視覺(jué)跟蹤(Zhang和Peng,2019)和目標(biāo)檢測(cè)(Shen等,2020;郝騰龍和李熙瑩,2021)等方面的優(yōu)異性能,目前大多數(shù)高精度的半監(jiān)督VOS方法都依賴在線微調(diào)DCNNs來(lái)學(xué)習(xí)目標(biāo)物體的外觀。雖然這些方法具有較高的預(yù)測(cè)精度和對(duì)遮擋的魯棒性,但在線微調(diào)過(guò)程需要大量時(shí)間和計(jì)算成本,故其分割速度較慢,在很大程度上限制了其在實(shí)際場(chǎng)景的應(yīng)用。為了解決上述依賴在線微調(diào)的方法的問(wèn)題,最近的研究集中在設(shè)計(jì)無(wú)需微調(diào)的網(wǎng)絡(luò)模型,旨在避免在線學(xué)習(xí)并獲得更快的運(yùn)行速度。基于掩碼傳播的方法主要依賴前一幀的預(yù)測(cè)結(jié)果來(lái)推斷當(dāng)前幀,雖然這些方法簡(jiǎn)單、快速、分割精度好,但對(duì)遮擋、變形和傳播過(guò)程中的快速運(yùn)動(dòng)都很敏感,并且可能會(huì)出現(xiàn)誤差累積。另外一種方法采用基于匹配的網(wǎng)絡(luò)模型來(lái)完成分割任務(wù),該方法通過(guò)在學(xué)習(xí)的度量空間中將參考幀與目標(biāo)幀進(jìn)行像素級(jí)匹配來(lái)預(yù)測(cè)分割結(jié)果。這些方法需要大量數(shù)據(jù)訓(xùn)練網(wǎng)絡(luò),因此通常依賴大型圖像數(shù)據(jù)集進(jìn)行復(fù)雜的預(yù)訓(xùn)練,在一定程度上限制了實(shí)用性。上述方法的優(yōu)缺點(diǎn)顯而易見(jiàn),基于在線學(xué)習(xí)的方法以犧牲速度為代價(jià)獲得精確的分割結(jié)果,需要幾秒鐘的時(shí)間來(lái)分割每幀。相反,簡(jiǎn)單的基于匹配或傳播的方法速度更快,但分割精度欠佳。綜上所述,現(xiàn)有的大多數(shù)方法無(wú)法同時(shí)滿足VOS任務(wù)的精度和速度要求,而二者在實(shí)際應(yīng)用中都是必不可少的。對(duì)于半監(jiān)督VOS任務(wù),仍然需要更有效的方法來(lái)達(dá)到更好的速度與精度權(quán)衡。
基于以上考慮,本文提出一種結(jié)合視覺(jué)詞和自注意力機(jī)制的視頻目標(biāo)分割算法。通過(guò)在嵌入空間中用固定數(shù)量的視覺(jué)詞表示感興趣的對(duì)象,即使當(dāng)目標(biāo)對(duì)象受到遮擋、變形或視點(diǎn)變化等影響,但某些局部外觀仍會(huì)保持一致,因此視覺(jué)詞的使用可以實(shí)現(xiàn)更魯棒的匹配。并且將自注意力機(jī)制用于單詞匹配生成的相似圖可以捕獲全局依賴關(guān)系。為了解決目標(biāo)對(duì)象在運(yùn)動(dòng)過(guò)程中的外觀變化和視覺(jué)詞失配問(wèn)題,提出了一種在線更新和全局校正機(jī)制以進(jìn)一步提高準(zhǔn)確率。由于沒(méi)有任何關(guān)于視覺(jué)詞對(duì)應(yīng)物體的真實(shí)信息,因此在整個(gè)訓(xùn)練過(guò)程中采用元訓(xùn)練思想確保訓(xùn)練目標(biāo)與推理過(guò)程一致。為了驗(yàn)證本文方法的有效性,在視頻目標(biāo)分割數(shù)據(jù)集DAVIS 2016(densely annotated video segmentation)和DAVIS 2017上進(jìn)行了測(cè)試,本文方法取得了有競(jìng)爭(zhēng)力的結(jié)果,區(qū)域相似度與輪廓精度之間的平均值J&F-mean(Jaccard and F-score mean)分別為83.2%和72.3%,在沒(méi)有耗時(shí)的微調(diào)、光流或預(yù)處理/后處理情況下,精度與基于在線學(xué)習(xí)的方法相當(dāng),但速度快了若干個(gè)量級(jí)。
基于在線學(xué)習(xí)的方法通常使用給定的視頻第1幀的目標(biāo)掩膜微調(diào)一個(gè)通用的語(yǔ)義分割網(wǎng)絡(luò),以指導(dǎo)網(wǎng)絡(luò)識(shí)別其余視頻幀中目標(biāo)對(duì)象的外觀(Caelles等,2017)。這類方法使用在線適應(yīng)(Voigtlaender等,2017)、實(shí)例分割信息(Maninis等,2019)、數(shù)據(jù)增強(qiáng)技術(shù)(Khoreva等,2019)或多種技術(shù)的集成(Luiten 等,2018)。許多方法表明在線學(xué)習(xí)的過(guò)程可以提高其模型的性能(Li和Chang,2018;Wang等,2019;Meinhardt和Leal-Taixé,2020)。盡管這些方法可以獲得高質(zhì)量的分割結(jié)果,并對(duì)遮擋有著很好的魯棒性,但在測(cè)試階段需要對(duì)每個(gè)視頻進(jìn)行在線學(xué)習(xí),因此有著很高的計(jì)算成本且速度較慢,這在很大程度上限制了它們的實(shí)用性。
基于掩碼傳播的方法為了獲得更好的分割性能,額外使用了先前幀的信息。Perazzi等人(2017)提出了Masktrack算法,將圖像與前一幀的分割掩碼結(jié)合作為輸入來(lái)處理VOS。該策略也應(yīng)用于其他VOS方法中。Oh等人(2018)提出RGMP(reference-guided mask propagation)算法,試圖將第1幀、前1幀和當(dāng)前幀的特征進(jìn)行堆疊,并通過(guò)孿生網(wǎng)絡(luò)傳播來(lái)完成分割任務(wù)。Yang等人(2018)提出OSMN(object segmentation via network modulation)算法,引入了一個(gè)調(diào)制器,利用視覺(jué)和空間引導(dǎo)操縱分割網(wǎng)絡(luò)的中間層。湯潤(rùn)發(fā)等人(2019)在OSMN基礎(chǔ)上引入特征注意金字塔模塊,以應(yīng)對(duì)不同尺寸的目標(biāo)分割。在許多方法中,光流(Dosovitskiy等,2015;Ilg等,2017)也用來(lái)指導(dǎo)傳播過(guò)程,但是它無(wú)法將非剛性對(duì)象與背景的靜止部分區(qū)分開(kāi)。雖然這些策略都是有效的,但仍然受到漂移問(wèn)題的困擾,因此無(wú)法獲得理想的預(yù)測(cè)精度。
近年基于匹配的方法由于性能優(yōu)異受到了學(xué)者關(guān)注。這類方法首先在參考幀與目標(biāo)幀之間進(jìn)行像素級(jí)匹配,然后直接從匹配結(jié)果中分割目標(biāo)幀的每個(gè)像素。Chen等人(2018)提出了PML(blazingly fast video object segmentation with pixel-wise metric learning)算法,通過(guò)在像素空間中對(duì)目標(biāo)幀與參考幀中的像素執(zhí)行最近鄰匹配來(lái)完成預(yù)測(cè)。Hu等人(2018)提出一種軟匹配機(jī)制,使用全局匹配策略生成前景和背景相似度圖,并通過(guò)對(duì)相似度圖應(yīng)用softmax函數(shù)生成最終預(yù)測(cè)。Wang等人(2019)使用全局匹配和一個(gè)排序注意模組,根據(jù)重要性對(duì)特征圖進(jìn)行排序和選擇。然而,由于外觀的變化和時(shí)間信息的缺乏,它們?nèi)匀淮嬖阱e(cuò)誤匹配問(wèn)題。為了解決此問(wèn)題,Voigtlaender等人(2019)提出了FEELVOS(fast end-to-end embedding learning for video object segmentation)算法,通過(guò)使用全局和局部匹配實(shí)現(xiàn)更穩(wěn)定的像素級(jí)匹配。Yang等人(2020)則提出通過(guò)協(xié)調(diào)前景和背景的綜合匹配來(lái)提高匹配效果。這些方法表明使用更多匹配有利于獲得更高的分割精度。
因此,一些最新方法嘗試將視頻中的每個(gè)幀都用于分割任務(wù)。Oh等人(2019)使用一個(gè)記憶網(wǎng)絡(luò)存儲(chǔ)歷史幀的信息,并在目標(biāo)幀與記憶間執(zhí)行像素級(jí)匹配。Li等人(2020)提出了GC(fast video object segmentation using the global context module)算法,通過(guò)設(shè)計(jì)一個(gè)全局上下文模塊,以減少在記憶中執(zhí)行像素級(jí)匹配所帶來(lái)的時(shí)間復(fù)雜性。Seong等人(2020)通過(guò)引入高斯核減少誤匹配的像素。Lu等人(2020)采用情景記憶網(wǎng)絡(luò)以節(jié)點(diǎn)的形式存儲(chǔ)幀,并通過(guò)邊緣捕獲跨幀的相關(guān)性。Liang等人(2020)提出自適應(yīng)特征庫(kù)更新方案、新的置信損失和細(xì)粒度分割模塊以提高分割精度和效率。雖然這些方法通過(guò)充分利用歷史幀的信息取得了最先進(jìn)的性能,但一個(gè)共同的缺點(diǎn)是需要大量數(shù)據(jù)訓(xùn)練網(wǎng)絡(luò)模型。因此,它們通常依賴大規(guī)模圖像數(shù)據(jù)集進(jìn)行復(fù)雜的預(yù)訓(xùn)練,而這并不適合大多數(shù)實(shí)際應(yīng)用。
自注意力機(jī)制最初是由有關(guān)機(jī)器翻譯的研究(Vaswani等,2017)提出的,旨在將每個(gè)位置的上下文計(jì)算為所有位置的加權(quán)總和。由于其在獲取上下文依賴關(guān)系方面的優(yōu)越性,因此適用于計(jì)算機(jī)視覺(jué)中的各種圖像和視頻任務(wù)。在語(yǔ)義分割方面,F(xiàn)u等人(2019)提出了位置注意模塊和通道注意模塊,自適應(yīng)地將局部特征與其全局依賴性相結(jié)合。Zhang等人(2019)提出以自我注意的方式匯總空間位置上的共現(xiàn)情境及其共現(xiàn)概率。Huang等人(2019)將交叉注意模塊應(yīng)用于每個(gè)像素,以獲取其交叉路徑上所有像素的上下文信息。郝曉宇等人(2020)提出將雙注意力機(jī)制用于圖像分割,以提高分割精度。本文方法對(duì)由單詞匹配生成的相似圖應(yīng)用自注意力機(jī)制,從而捕獲全局依賴關(guān)系。
元學(xué)習(xí)(meta learning)又稱學(xué)會(huì)學(xué)習(xí)(learning to learn),是深度學(xué)習(xí)中的一種學(xué)習(xí)方法,可以替代使用大型通用數(shù)據(jù)集(Deng等,2009)對(duì)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練,然后使用特定問(wèn)題數(shù)據(jù)集進(jìn)行微調(diào)。元學(xué)習(xí)旨在通過(guò)訓(xùn)練具有一定可塑性的網(wǎng)絡(luò)替代在線學(xué)習(xí)階段,以快速適應(yīng)新任務(wù)。在新任務(wù)樣本很少的情況下,元學(xué)習(xí)可以幫助機(jī)器進(jìn)行快速學(xué)習(xí)。
由于半監(jiān)督VOS任務(wù)本身可以看做是使用少量樣本進(jìn)行學(xué)習(xí)的問(wèn)題,因此可以使用元學(xué)習(xí)(Finn等,2017;Bertinetto等,2019;Lee等,2019)的技術(shù)解決。Liu等人(2020)使用參考實(shí)例,通過(guò)封閉式嶺回歸預(yù)測(cè)分割網(wǎng)絡(luò)的最后一層。目前,元學(xué)習(xí)的技術(shù)已在視覺(jué)跟蹤領(lǐng)域得到廣泛應(yīng)用。Park和Berg(2018)提出Meta-tracker算法,對(duì)當(dāng)前目標(biāo)進(jìn)行基于梯度的自適應(yīng)。Choi等人(2019)提出結(jié)合基于孿生架構(gòu)的匹配網(wǎng)絡(luò)來(lái)學(xué)習(xí)目標(biāo)的特征空間。Bhat等人(2019)提出一種基于優(yōu)化的元學(xué)習(xí)策略,使目標(biāo)模型直接輸出分類得分。與之前的方法相反,本文采用元學(xué)習(xí)的方法從視頻參考幀的目標(biāo)掩碼中自適應(yīng)地生成視覺(jué)詞。
由于視頻中往往會(huì)出現(xiàn)目標(biāo)形狀不規(guī)則、幀間運(yùn)動(dòng)存在干擾信息和運(yùn)動(dòng)速度過(guò)快等情況,而已有的視頻目標(biāo)分割算法很難處理好這些問(wèn)題。因此,本文提出了一種融合視覺(jué)詞和自注意力機(jī)制的視頻目標(biāo)分割算法,整體網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,輸入圖像尺寸為480×854像素。
圖1 網(wǎng)絡(luò)總體結(jié)構(gòu)Fig.1 An overview of network architecture
對(duì)于參考幀,將其圖像輸入基于ResNet-101(He等,2016)的DeepLabV3+(去除了輸出層)的編碼器中,以提取分辨率為原圖像1/8的像素特征。然后將提取的像素特征輸入由若干個(gè)3×3卷積核構(gòu)成的嵌入空間中,并將其結(jié)果上采樣至原始尺寸。之后結(jié)合參考幀標(biāo)注的目標(biāo)掩碼信息,通過(guò)聚類算法對(duì)嵌入空間中的像素特征進(jìn)行聚類分簇,從而形成用于表示目標(biāo)對(duì)象的視覺(jué)詞。
對(duì)于目標(biāo)幀,首先將目標(biāo)幀的圖像通過(guò)編碼器并輸進(jìn)嵌入空間中。隨后利用由參考幀生成的視覺(jué)詞,通過(guò)單詞匹配操作,以固定數(shù)量的視覺(jué)詞表示嵌入空間中的像素并獲得多個(gè)相似圖。然后對(duì)生成的相似圖應(yīng)用自注意力機(jī)制以捕獲全局依賴關(guān)系,并取通道方向上的最大值作為預(yù)測(cè)結(jié)果。最后,為了解決目標(biāo)對(duì)象的外觀變化和視覺(jué)詞失配的問(wèn)題,通過(guò)在線更新和全局校正機(jī)制進(jìn)一步提高分割精度。
元學(xué)習(xí)通常定義為從大量任務(wù)中學(xué)習(xí)一種通用的學(xué)習(xí)算法,該算法可以很好地適應(yīng)不同的任務(wù),因此在測(cè)試階段能夠更好地處理新任務(wù)。元學(xué)習(xí)中的訓(xùn)練和推理過(guò)程分別稱為元訓(xùn)練和元測(cè)試。
在半監(jiān)督VOS任務(wù)中,分割網(wǎng)絡(luò)從視頻參考幀(支持集)的目標(biāo)掩碼中學(xué)習(xí),進(jìn)而分割和跟蹤視頻其余幀(查詢集)中的同一目標(biāo)對(duì)象。為了使訓(xùn)練得到的分割網(wǎng)絡(luò)能夠更好地適應(yīng)新任務(wù),本工作從元訓(xùn)練集中采樣生成各種訓(xùn)練任務(wù),每個(gè)訓(xùn)練任務(wù)都由支持集和查詢集構(gòu)成,如圖2所示。通過(guò)在這些任務(wù)上訓(xùn)練學(xué)習(xí),其訓(xùn)練目標(biāo)為
(1)
式中,ω*表示處理特定任務(wù)的網(wǎng)絡(luò)模型參數(shù),ω表示處理各種任務(wù)的網(wǎng)絡(luò)模型參數(shù),Tn表示第n個(gè)訓(xùn)練任務(wù),p(T)表示元訓(xùn)練數(shù)據(jù)集,LTn表示訓(xùn)練Tn任務(wù)的模型損失。
圖2 視頻目標(biāo)分割的元學(xué)習(xí)問(wèn)題Fig.2 Meta-learning problem of video object segmentation
首先將參考幀通過(guò)深度神經(jīng)網(wǎng)絡(luò)f(ω)進(jìn)行特征提取,并將提取的特征輸入嵌入空間來(lái)計(jì)算每個(gè)像素xi的嵌入特征fω(xi)。然后采用聚類算法為每個(gè)對(duì)象類中的所有像素計(jì)算一組視覺(jué)詞。令Rc為參考幀中類標(biāo)簽為c的像素集合。每個(gè)集合Rc被劃分為K個(gè)簇Rc1,…,RcK,且以μck為各自的聚類質(zhì)心。計(jì)算為
(2)
(3)
式中,i為參考幀中像素的位置索引,K表示聚類生成的單詞數(shù)量。此時(shí),可以用一組視覺(jué)詞Mc={μc1,…,μck}來(lái)表示參考幀在嵌入空間中的分布。
對(duì)于單詞匹配操作,為每個(gè)目標(biāo)對(duì)象構(gòu)造視覺(jué)詞后就可以使用相似度函數(shù)來(lái)計(jì)算將像素xj與來(lái)自第c個(gè)對(duì)象類別的第k個(gè)視覺(jué)詞的相似度得分。最后,計(jì)算目標(biāo)幀上所有像素與每個(gè)視覺(jué)詞的相似度得分,從而得到具有K個(gè)通道的相似圖。單詞匹配得分的計(jì)算為
s(ck|xj)=cos(fω(xj),μck)
(4)
式中,j表示參考幀中像素的位置索引。
自注意力是一種有效的計(jì)算機(jī)視覺(jué)技術(shù),具有捕獲全局依賴關(guān)系的能力,在最新的語(yǔ)義分割方法中有著廣泛應(yīng)用。本工作對(duì)單詞匹配操作生成的相似度圖應(yīng)用自注意力。首先將相似度圖劃分為前景圖和背景圖,然后對(duì)每一組圖使用空間和通道注意力捕獲空間和通道維度上的全局依賴關(guān)系,如圖3所示。
圖3 自注意力機(jī)制架構(gòu)Fig.3 The structure of self-attention
2.4.1 空間注意力模塊
空間注意力模塊在局部特征上建立豐富的上下文關(guān)系,計(jì)算方式如圖4所示。首先,對(duì)相似度圖A進(jìn)行重塑形并轉(zhuǎn)置得到B,尺寸變?yōu)镹×C,其中N的大小為H×W。然后,對(duì)相似度圖A進(jìn)行重塑形得到Q,將B與Q相乘,再通過(guò)softmax函數(shù)得到S,此時(shí)S的尺寸為N×N。隨后,將A進(jìn)行尺寸變化,得到D。這時(shí)D的尺寸為C×N。之后與S相乘得到空間注意圖E,再乘以系數(shù)α,之后將維度變換為C×H×W,其中α的初始化為0,并在訓(xùn)練過(guò)程中不斷學(xué)習(xí)。最后,E與A相加得到F,F(xiàn)即為空間注意力模塊的輸出。
圖4 空間注意力架構(gòu)Fig.4 The structure of spatial attention
2.4.2 通道注意力模塊
通道注意力模塊用于建立不同通道之間的相互依賴關(guān)系,計(jì)算方式如圖5所示。首先對(duì)特征圖A分別進(jìn)行重塑形、重塑形、重塑形和轉(zhuǎn)置,得到B、Q和D,其中B和Q的尺寸為C×N,D是尺寸為N×C的特征圖,然后在Q和D之間進(jìn)行逐像素相乘并且通過(guò)softmax得到X,X的大小為C×C。將B與X相乘得到通道注意圖E,再將其與系數(shù)β相乘后,重塑形為C×H×W,其中β初始化為0,并通過(guò)訓(xùn)練學(xué)習(xí)。最后E與A相加得到F,F(xiàn)為通道注意力模塊的輸出。
圖5 通道注意力架構(gòu)Fig.5 The structure of channel attention
此外,為了確保在線更新機(jī)制中用來(lái)更新視覺(jué)詞的預(yù)測(cè)掩膜可靠,對(duì)預(yù)測(cè)掩碼應(yīng)用了一個(gè)簡(jiǎn)單的異常值去除過(guò)程。具體而言,給定一個(gè)具有相同預(yù)測(cè)標(biāo)注的區(qū)域,只有當(dāng)該預(yù)測(cè)區(qū)域與前一幀預(yù)測(cè)的對(duì)象掩膜相交時(shí)才接受該預(yù)測(cè)。如果沒(méi)有交集,則放棄該預(yù)測(cè)掩膜并根據(jù)先前的結(jié)果直接對(duì)其進(jìn)行預(yù)測(cè)。
DAVIS 2016是廣泛用于單目標(biāo)視頻對(duì)象分割任務(wù)的一個(gè)基準(zhǔn)數(shù)據(jù)集,包含50個(gè)全高清視頻,所有幀都有密集的像素級(jí)準(zhǔn)確度的目標(biāo)掩膜注釋。其中30個(gè)視頻用于訓(xùn)練,20個(gè)視頻用于驗(yàn)證,每個(gè)視頻中只有1個(gè)目標(biāo)對(duì)象有掩膜注釋。DAVIS 2017數(shù)據(jù)集是DAVIS 2016的多目標(biāo)對(duì)象擴(kuò)展,共有150個(gè)高清視頻,每個(gè)視頻包括1個(gè)或多個(gè)目標(biāo)對(duì)象。
為了評(píng)估本文方法的性能,將區(qū)域相似度J(Jaccard)、輪廓精度F(F-score)以及二者的平均值J&F-mean(Jaccard and F-score mean)作為評(píng)價(jià)指標(biāo)。區(qū)域相似度主要用來(lái)衡量基于區(qū)域的分割相似度,定義為預(yù)測(cè)的分割掩膜與真實(shí)的分割結(jié)果之間的交并比。輪廓精度用于衡量邊界分割的準(zhǔn)確率,定義為輪廓準(zhǔn)確率和召回率的調(diào)和平均數(shù)。此外,采用算法每秒處理的視頻幀數(shù)作為額外的評(píng)價(jià)指標(biāo),用來(lái)衡量算法的運(yùn)行速度。
本文的網(wǎng)絡(luò)模型采用基于ResNet-101(He等,2016)的Deeplab-v2架構(gòu)作為編碼器,提取步幅為8的像素特征。將像素特征輸入由128個(gè)3×3卷積核構(gòu)成的嵌入層中,用來(lái)提取像素的嵌入特征。為了提高效率,采用雙線性插值對(duì)嵌入特征進(jìn)行上采樣,以達(dá)到原始圖像大小。隨后結(jié)合參考幀標(biāo)注的掩膜信息,通過(guò)聚類算法對(duì)嵌入空間中的像素特征進(jìn)行聚類分簇以構(gòu)成視覺(jué)詞。前景部分用50個(gè)視覺(jué)詞表示,而背景通常包含更多變化,用4倍于前景即200個(gè)視覺(jué)詞表示。在線更新機(jī)制為每5幀更新一次視覺(jué)字典。
訓(xùn)練過(guò)程中,首先使用ResNet-101的權(quán)重初始化網(wǎng)絡(luò)模型,使用Adam優(yōu)化器進(jìn)行優(yōu)化,動(dòng)量默認(rèn)設(shè)置為β1=0.9、β2=0.999,并使用交叉熵作為損失函數(shù)。使用已在COCO(common objects in context)數(shù)據(jù)集上訓(xùn)練的公共Deeplab-v2模型初始化網(wǎng)絡(luò)的編碼器,并將編碼器的權(quán)重固定,使其不參與訓(xùn)練。隨后根據(jù)元訓(xùn)練方法對(duì)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,即首先在訓(xùn)練數(shù)據(jù)集中隨機(jī)抽取一個(gè)視頻,將視頻第1幀的像素視為支持集,然后從視頻其余幀中隨機(jī)選擇3幀作為查詢集,以此構(gòu)建整個(gè)訓(xùn)練過(guò)程。由于在線更新與訓(xùn)練無(wú)關(guān),所以在訓(xùn)練過(guò)程中沒(méi)有模擬。在訓(xùn)練過(guò)程中,先用學(xué)習(xí)率為10-3在半分辨率圖像上訓(xùn)練50 000次。然后,對(duì)完整的網(wǎng)絡(luò)即包括編碼器使用10-4學(xué)習(xí)率在全分辨率圖像上訓(xùn)練10 000次。最后,以學(xué)習(xí)率為10-5進(jìn)行另一輪訓(xùn)練,訓(xùn)練20 000次。
為驗(yàn)證模型性能,在單目標(biāo)對(duì)象數(shù)據(jù)集DAVIS 2016上與其他方法進(jìn)行實(shí)驗(yàn)對(duì)比,評(píng)估結(jié)果如表1所示??梢钥闯?,基于在線微調(diào)的方法PReMVOS(proposal-generation,refinement and merging for video object segmentation)與e-OSVOS(make one-shot video object segmentation efficient again)獲得了較高的準(zhǔn)確率。但考慮到在測(cè)試階段需要大量時(shí)間進(jìn)行微調(diào),其計(jì)算成本巨大且運(yùn)行速度非常慢,因此這個(gè)準(zhǔn)確率相對(duì)較低。在無(wú)需微調(diào)的方法中,本文方法獲得了優(yōu)異的性能,甚至實(shí)現(xiàn)了與基于在線微調(diào)方法相當(dāng)?shù)木?,但速度快了若干個(gè)量級(jí)。準(zhǔn)確度較高的STM(video object segmentation using space-time memory networks)、CFBI(collaborative video object segmentation by foreground-background integration)和KMN(kernelized memory network for video object segmentation)等算法,雖然綜合性能優(yōu)于本文方法,但是這些方法嚴(yán)重依賴使用大規(guī)模圖像數(shù)據(jù)集進(jìn)行復(fù)雜的預(yù)訓(xùn)練,而本文性能是在有限數(shù)據(jù)上訓(xùn)練獲得的,無(wú)需依賴使用大規(guī)模數(shù)據(jù)。
表1 不同方法在DAVIS 2016數(shù)據(jù)集(驗(yàn)證集)的評(píng)估結(jié)果Table 1 Evaluation results of different methods on DAVIS 2016 dataset (validation set)
為進(jìn)一步展現(xiàn)本文模型性能,在場(chǎng)景更為復(fù)雜的DAVIS 2017數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),評(píng)估結(jié)果如表2所示??梢钥闯觯m然RGMP算法在DAVIS 2016數(shù)據(jù)集上獲得了與本文方法相當(dāng)?shù)男阅?,但在DAVIS 2017數(shù)據(jù)集上只獲得了66.8%的J&F-mean得分,且速度只有3.3幀/s,而本文方法的J&F-mean達(dá)到了72.3%,且速度幾乎不變。相比STM與CFBI算法,雖然精度優(yōu)于本文方法,但本文方法的速度更快,而原本在DAVIS 2016數(shù)據(jù)集上它們相當(dāng)。這是因?yàn)樗鼈儶?dú)立地處理每個(gè)對(duì)象實(shí)例,最后將每個(gè)對(duì)象結(jié)果組合在一起,因此在目標(biāo)對(duì)象更多的DAVIS 2017數(shù)據(jù)集上速度較慢。而本文方法可以一次性分割出多個(gè)目標(biāo)。由此可以推斷,隨著目標(biāo)對(duì)象數(shù)量的增多,它們的速度會(huì)隨之下降。圖6展示了本文方法的部分結(jié)果。
表2 不同方法在DAVIS 2017數(shù)據(jù)集(驗(yàn)證集)的評(píng)估結(jié)果Table 2 Evaluation results of different methods on DAVIS 2017 dataset (validation set)
圖6 本文方法在DAVIS 2017數(shù)據(jù)集上的分割結(jié)果Fig.6 Segmentation results of our method on DAVIS 2017 dataset((a) parkour; (b) libby; (c) kite-surf; (d) horse jump-high; (e) moto cross-jump; (f) bike-packing)
此外,為了更好地展現(xiàn)算法的性能,將本文方法與其他方法在DAVIS 2017驗(yàn)證集上的一些結(jié)果進(jìn)行了可視化。為了驗(yàn)證本文方法區(qū)分相似目標(biāo)的能力,選取了背景中存在相似物體干擾的視頻,如圖7所示(圖中右上角的序號(hào)表示視頻幀的序數(shù))??梢钥闯觯啾萊GMP算法,本文方法可以較好地分割出感興趣的目標(biāo),背景中相似的物體并沒(méi)有產(chǎn)生過(guò)多影響。而RGMP算法不僅分割出了目標(biāo)對(duì)象,而且將背景中相似的物體分割了出來(lái)。
圖7 本文方法與其他方法的可視化結(jié)果對(duì)比Fig.7 Comparison of the visualization results of our method with other methods((a) original images; (b) ground-truth; (c) RGMP; (d) STM; (e) CFBI; (f) ours)
圖8展現(xiàn)了本文方法適應(yīng)視頻目標(biāo)運(yùn)動(dòng)過(guò)快及發(fā)生尺度變化的能力??梢钥闯?,本文方法能夠很好地應(yīng)對(duì)快速運(yùn)動(dòng)且發(fā)生尺度變化的目標(biāo)。效果最好的是STM和CFBI算法,它們需要依賴大量的圖像數(shù)據(jù)或合成數(shù)據(jù)進(jìn)行訓(xùn)練才可達(dá)到此效果。而本文方法性能是在有限數(shù)據(jù)訓(xùn)練下得到的。此外,對(duì)于多目標(biāo)的視頻,STM與CFBI等算法需要單獨(dú)分割出每個(gè)對(duì)象并合成,而本文方法只需一次推理就可分割出所有對(duì)象,因此本文方法在速度上要快得多。
圖8 本文方法與其他方法在視頻目標(biāo)運(yùn)動(dòng)過(guò)快及發(fā)生尺度變化時(shí)的結(jié)果對(duì)比Fig.8 Comparison of the results of our method with other methods when the video target moves too fast and changes in scale((a) original images; (b) ground-truth; (c) RGMP; (d) STM; (e) CFBI; (f) ours)
為了研究算法中不同模塊選擇對(duì)整體性能的影響,在DAVIS 2016數(shù)據(jù)集上對(duì)本文算法關(guān)鍵部件進(jìn)行消融分析,結(jié)果如表3所示。其中,實(shí)驗(yàn)1是不使用任何額外輔助機(jī)制的模型,J&F-mean得分為73.4%。實(shí)驗(yàn)2是只使用自注意力機(jī)制進(jìn)行預(yù)測(cè)的模型,此時(shí)J&F-mean得分增加了1.8%。實(shí)驗(yàn)3是同時(shí)使用自注意力機(jī)制和在線更新機(jī)制,此時(shí)的J&F-mean提高了4.6%。實(shí)驗(yàn)4是最終模型,同時(shí)使用自注意力機(jī)制、在線更新機(jī)制和全局校正機(jī)制,額外使用全局校正機(jī)制使模型的J&F-mean得分提高了3.4%。
表3 每個(gè)部件的消融實(shí)驗(yàn)Table 3 Ablation study for each component /%
圖9 視覺(jué)詞數(shù)量對(duì)準(zhǔn)確率的影響Fig.9 The effect of the number of visual words on accuracy
圖10 視覺(jué)詞數(shù)量對(duì)速度的影響Fig.10 The effect of the number of visual words on speed
圖11展示了視覺(jué)詞數(shù)量K對(duì)分割結(jié)果的影響。從圖11給出的定性結(jié)果可以看出,增加視覺(jué)詞的數(shù)量K可以改善目標(biāo)對(duì)象的表示,從而改善分割結(jié)果,這是因?yàn)樵黾右曈X(jué)詞的數(shù)量可以更好地捕捉物體內(nèi)部的差異。
對(duì)于在線更新機(jī)制,更新的時(shí)機(jī)選擇也會(huì)對(duì)模型性能產(chǎn)生影響,本文通過(guò)實(shí)驗(yàn)評(píng)估了字典更新頻率δ對(duì)準(zhǔn)確率的影響,結(jié)果如圖12所示。較小的間隔意味著更頻繁的更新,這增加了系統(tǒng)更平滑地適應(yīng)動(dòng)態(tài)場(chǎng)景和異常值的能力。然而,過(guò)小的值(如δ=1)也會(huì)增加出現(xiàn)噪聲的概率,對(duì)預(yù)測(cè)性能產(chǎn)生不利影響。因此,采用合適的更新頻率至關(guān)重要。根據(jù)實(shí)驗(yàn),設(shè)定δ=5,即每5幀更新一次視覺(jué)字典,此時(shí)算法的綜合性能最好。值得注意的是,提出的在線更新機(jī)制具有較小的計(jì)算成本,并且在線更新機(jī)制僅更新現(xiàn)有的視覺(jué)詞,因此幾乎沒(méi)有增加任何開(kāi)銷。
圖11 視覺(jué)詞數(shù)量K對(duì)分割結(jié)果的影響Fig.11 The effect of the number of visual words on segmentation results ((a) K = 50; (b) K = 250; (c) K = 400)
圖12 字典更新頻率對(duì)準(zhǔn)確率的影響Fig.12 The effect of update frequency
本文方法對(duì)挑戰(zhàn)性的場(chǎng)景具有魯棒性,包括目標(biāo)對(duì)象的外觀變化、各種相機(jī)運(yùn)動(dòng)、快速運(yùn)動(dòng)以及遮擋。圖13展示了本文算法在DAVIS 2017驗(yàn)證集上的一些定性結(jié)果??梢钥闯?,即使在困難的情況下,如彎道漂移(第1行)、直線漂移(第2行)、摩托車越野賽(第4行)中的外觀大規(guī)模變化且運(yùn)動(dòng)速度較快、“利比”序列(第3行)的遮擋以及跑酷(第5行)中大的動(dòng)作變化,本文算法都能夠準(zhǔn)確地分割物體。
圖13 DAVIS 2017驗(yàn)證集上的一些定性結(jié)果Fig.13 Some results on the DAVIS 2017 validation sets
本文利用視頻第1幀標(biāo)注的對(duì)象掩膜信息,在無(wú)監(jiān)督情況下構(gòu)建用于表示感興趣目標(biāo)對(duì)像的視覺(jué)詞,提出一種融合視覺(jué)詞和自注意力機(jī)制的視頻目標(biāo)分割算法。為了應(yīng)對(duì)訓(xùn)練數(shù)據(jù)集不足情況,使用了一種新穎的學(xué)習(xí)方法——元學(xué)習(xí)。元學(xué)習(xí)通常定義為從大量任務(wù)中學(xué)習(xí)一種通用的學(xué)習(xí)算法,可以很好地適應(yīng)不同的任務(wù),因此在測(cè)試階段能夠更好地適應(yīng)新任務(wù)。并且受注意力機(jī)制的啟發(fā),通過(guò)應(yīng)用自注意力捕獲多個(gè)相似圖中的全局依賴關(guān)系。此外,為了更好地處理目標(biāo)對(duì)象在運(yùn)動(dòng)過(guò)程中的外觀變化和視覺(jué)詞失配問(wèn)題,提出了在線更新和全局校正機(jī)制,進(jìn)一步提高了準(zhǔn)確率。本文方法在復(fù)雜場(chǎng)景下獲得了較好結(jié)果,特別是在處理運(yùn)動(dòng)中發(fā)生形變和速度過(guò)快的問(wèn)題上達(dá)到了很好的效果。但本文方法的分割精度和速度還無(wú)法滿足實(shí)際場(chǎng)景的應(yīng)用需求。針對(duì)該問(wèn)題,下一步工作擬加入之前所有幀信息對(duì)目標(biāo)幀進(jìn)行預(yù)測(cè),并解決其帶來(lái)的計(jì)算成本與內(nèi)存占用問(wèn)題,以進(jìn)一步提高預(yù)測(cè)精度和運(yùn)行速度。