• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于自適應(yīng)模板更新與多特征融合的視頻目標(biāo)分割算法

    2021-12-07 07:10:46汪水源侯志強李富成馬素剛
    光電工程 2021年10期
    關(guān)鍵詞:掩碼主干模板

    汪水源,侯志強*,王 囡,李富成,蒲 磊,馬素剛

    基于自適應(yīng)模板更新與多特征融合的視頻目標(biāo)分割算法

    汪水源1,2,侯志強1,2*,王 囡1,2,李富成1,2,蒲 磊3,馬素剛1,2

    1西安郵電大學(xué)計算機學(xué)院,陜西 西安 710121;2西安郵電大學(xué)陜西省網(wǎng)絡(luò)數(shù)據(jù)分析與智能處理重點實驗室,陜西 西安 710121;3火箭軍工程大學(xué)作戰(zhàn)保障學(xué)院,陜西 西安 710025

    針對SiamMask不能很好地適應(yīng)目標(biāo)外觀變化,特征信息利用不足導(dǎo)致生成掩碼較為粗糙等問題,本文提出一種基于自適應(yīng)模板更新與多特征融合的視頻目標(biāo)分割算法。首先,算法利用每一幀的分割結(jié)果對模板進(jìn)行自適應(yīng)更新;其次,使用混合池化模塊對主干網(wǎng)絡(luò)第四階段提取的特征進(jìn)行增強,將增強后的特征與粗略掩碼進(jìn)行融合;最后,使用特征融合模塊對粗略掩碼進(jìn)行逐階段細(xì)化,該模塊能夠?qū)ζ唇雍蟮奶卣鬟M(jìn)行有效的加權(quán)組合。實驗結(jié)果表明,與SiamMask相比,本文算法性能有明顯提升。在DAVIS2016數(shù)據(jù)集上,本文算法的區(qū)域相似度和輪廓相似度分別為0.727和0.696,比基準(zhǔn)算法提升了1.0%和1.8%,速度達(dá)到40.2 f/s;在DAVIS2017數(shù)據(jù)集上,本文算法的區(qū)域相似度和輪廓相似度分別為0.567和0.615,比基準(zhǔn)算法提升了2.4%和3.0%,速度達(dá)到42.6 f/s。

    視頻目標(biāo)分割;模板更新;特征融合;掩碼細(xì)化

    1 引 言

    近年來,視頻目標(biāo)分割(video object segmentation,VOS)在視頻監(jiān)控、自動駕駛和智能機器人等領(lǐng)域具有廣泛的應(yīng)用,受到了越來越多研究人員的關(guān)注。

    按照人工參與程度的不同,可以將視頻目標(biāo)分割分為交互式視頻目標(biāo)分割、無監(jiān)督視頻目標(biāo)分割和半監(jiān)督視頻目標(biāo)分割。交互式VOS根據(jù)用戶的迭代輸入來分割感興趣目標(biāo),它主要用于獲取高精度的分割結(jié)果[1]。無監(jiān)督VOS旨在使用顯著特征、獨立運動或已知類別標(biāo)簽自動估計目標(biāo)掩碼[2],它不需要用戶給出任何輸入,通常用來自動分割視頻中最關(guān)鍵、最顯著的目標(biāo)。半監(jiān)督VOS是視頻目標(biāo)分割領(lǐng)域中最受關(guān)注的任務(wù),也是本文的研究方向。半監(jiān)督VOS給出了視頻第一幀中目標(biāo)的真實掩碼,它的目的是在剩余幀中自動分割出目標(biāo)掩碼,然而,在整個視頻序列中,待分割目標(biāo)可能會經(jīng)歷較大的外觀變化、遮擋和快速運動等情況,因此,想要在視頻序列中魯棒地分割出目標(biāo)是一項極具挑戰(zhàn)性的任務(wù)。

    早期的半監(jiān)督視頻目標(biāo)分割相關(guān)工作以O(shè)SVOS[3],MaskTrack[4]等算法為代表。OSVOS利用視頻首幀掩碼獨立地處理視頻的每一幀,雖然有效地解決了遮擋問題,但它忽略了視頻中隱含的時序信息。MaskTrack使用光流將分割掩碼從當(dāng)前幀傳播到下一幀。OnAVOS[5]通過在線自適應(yīng)機制擴展了第一幀微調(diào)。PReMVOS[6]通過使用廣泛的微調(diào)和合并算法組合了包括光流網(wǎng)絡(luò)在內(nèi)的四個不同的神經(jīng)網(wǎng)絡(luò)。盡管這些方法取得了不錯的分割效果,但它們所采用的在線微調(diào)技術(shù)嚴(yán)重影響了分割速度。DyeNet[7]將模板匹配引入到重識別網(wǎng)絡(luò)中,并拋棄了在線微調(diào),但利用光流和循環(huán)神經(jīng)網(wǎng)絡(luò)使其訓(xùn)練復(fù)雜且計算量大。之后的一些工作旨在避免微調(diào)和使用光流,從而實現(xiàn)更快的分割速度。FAVOS[8]提出了一種基于部分區(qū)域的跟蹤方法來跟蹤目標(biāo)對象的局部區(qū)域。PML[9]使用最近鄰分類器學(xué)習(xí)像素方式的嵌入。VideoMatch[10]使用軟匹配層,將當(dāng)前幀的像素映射到學(xué)習(xí)嵌入空間中的第一幀。以上方法僅使用視頻的前一幀或第一幀掩碼作為當(dāng)前幀的參考,利用前一幀掩碼可以更好地處理外觀的變化,但同時會犧牲對遮擋和誤差漂移的魯棒性,而利用第一幀掩碼與此相反。

    后續(xù)工作更注重前一幀和第一幀相結(jié)合。FEELVOS[11]擴展了MaskTrack,它采用語義像素級嵌入以及全局和局部匹配機制將目標(biāo)信息從視頻的第一幀和前一幀傳輸?shù)疆?dāng)前幀。與微調(diào)方法相比,F(xiàn)EELVOS實現(xiàn)了更快的運行速度,但容易產(chǎn)生累積誤差。AGAME[12]提出了一種概率生成模型來預(yù)測目標(biāo)和背景的特征分布。OSMN[13]使用兩個網(wǎng)絡(luò)分別提取第一幀和前一幀的實例級信息,從而對當(dāng)前幀進(jìn)行分割預(yù)測。RGMP[14]采用在多個階段中訓(xùn)練的編碼器-解碼器孿生網(wǎng)絡(luò)架構(gòu)來捕捉搜索圖像和模板圖像之間的局部相似性。STMVOS[15]利用存儲網(wǎng)絡(luò)從當(dāng)前幀之前的包括第一幀和上一幀在內(nèi)的更多幀中存儲和讀取信息,其性能優(yōu)于之前所有的方法,但是,STMVOS的訓(xùn)練過程較為繁瑣,對硬件需求較高。

    SiamMask[16]通過在SiamRPN[17]的基礎(chǔ)上增加Mask分支,形成了一種多分支的孿生網(wǎng)絡(luò)框架。在視頻目標(biāo)分割領(lǐng)域,SiamMask在DAVIS2016[18]和DAVIS2017[19]數(shù)據(jù)集上取得具有競爭性分割精度的同時,速度比同時期的方法快了近一個數(shù)量級。對比經(jīng)典的OSVOS,SiamMask快了兩個數(shù)量級,使得視頻目標(biāo)分割可以得到實際應(yīng)用。但是,由于缺少模板更新,在復(fù)雜視頻中,SiamMask容易出現(xiàn)跟蹤漂移現(xiàn)象;此外,在掩碼生成過程中,SiamMask所使用的特征信

    息損失較多,融合過程較為粗糙,沒有采用主干網(wǎng)絡(luò)全階段的特征圖對掩碼進(jìn)行細(xì)化。為了解決以上問題,本文提出一種基于自適應(yīng)模板更新與多特征融合的視頻目標(biāo)分割算法。首先,所提算法使用自適應(yīng)更新策略對模板進(jìn)行處理,該策略可以利用每一幀的分割結(jié)果對模板進(jìn)行更新;其次,為了使用更多的特征信息對掩碼進(jìn)行細(xì)化,本文算法使用混合池化模塊對主干網(wǎng)絡(luò)第四階段提取的特征進(jìn)行增強,將增強后的特征與粗略掩碼進(jìn)行融合;最后,為了生成更為精細(xì)的掩碼,本文算法使用特征融合模塊將主干網(wǎng)絡(luò)各個階段具有更豐富空間信息的中間特征參與到掩碼細(xì)化過程中。實驗結(jié)果表明,本文算法顯著改善了基準(zhǔn)算法因遮擋、相似背景干擾等原因?qū)е碌母櫰片F(xiàn)象,在DAVIS2016和DAVIS2017數(shù)據(jù)集上的性能得到明顯提升,運行速度滿足實時性要求。

    2 本文算法

    本文提出一種基于自適應(yīng)模板更新與多特征融合的視頻目標(biāo)分割算法。算法在SiamMask[6]基礎(chǔ)上,利用自適應(yīng)更新策略對模板進(jìn)行處理,使用混合池化模塊對主干網(wǎng)絡(luò)第四階段提取的特征進(jìn)行增強,并采用特征融合模塊對粗略掩碼進(jìn)行逐階段細(xì)化。

    2.1 SiamMask算法簡介

    SiamMask包括提取特征的ResNet-50主干網(wǎng)絡(luò)、RPN分支和掩碼生成模塊(mask generation module)三個部分,算法整體框架如圖1所示。算法首先需要人工在視頻的第一幀(模板幀)中選定待跟蹤目標(biāo);接著,將選定目標(biāo)與視頻當(dāng)前幀(搜索幀)同時輸入主干網(wǎng)絡(luò),分別得到目標(biāo)模板和提取到的當(dāng)前幀的特征圖,對二者進(jìn)行互相關(guān)得到響應(yīng)圖;隨后,根據(jù)RPN分支的指導(dǎo)在響應(yīng)圖的對應(yīng)位置選取部分區(qū)域,并上采樣得到粗略的初始掩碼;最后,利用主干網(wǎng)絡(luò)所提取的當(dāng)前幀每階段的特征圖,對粗略掩碼進(jìn)行逐階段的逐點相加并上采樣,得到精細(xì)掩碼,以此精細(xì)掩碼作為對應(yīng)視頻每一幀的最終分割結(jié)果。

    2.2 模板更新模塊

    基于孿生網(wǎng)絡(luò)的視頻目標(biāo)分割和視覺目標(biāo)跟蹤算法大多使用視頻第一幀中已標(biāo)記的目標(biāo)作為模板,在后續(xù)幀的搜索區(qū)域中與該模板進(jìn)行匹配,從而得到目標(biāo)在該幀對應(yīng)的位置。雖然保持目標(biāo)模板不變可以提升算法對遮擋和誤差漂移的魯棒性,但在整個視頻中,目標(biāo)的外觀和姿態(tài)通常改變很大,如不更新模板,跟蹤過程會受到目標(biāo)漂移的影響,進(jìn)而導(dǎo)致跟蹤失敗且無法恢復(fù)。

    受UpdateNet[20]的啟發(fā),本文在SiamMask中引入模板更新模塊(template update module),該模塊采用自適應(yīng)更新策略對模板進(jìn)行在線更新,該策略可用以下的表達(dá)式表示:

    2.3 混合池化模塊

    由于SiamMask只使用ResNet-50的前四個階段作為主干網(wǎng)絡(luò),且末層提取特征僅下采樣到原圖尺寸的1/8,這就導(dǎo)致深層特征既沒有足夠的感受野,又缺少豐富的上下文信息。此外,在掩碼生成模塊中,SiamMask只使用了主干網(wǎng)絡(luò)前三個階段的特征圖對掩碼進(jìn)行細(xì)化,這使掩碼又進(jìn)一步損失了多尺度的語義信息。為了解決這些問題,綜合速度與性能的考慮,本文算法在保持原始算法主干網(wǎng)絡(luò)結(jié)構(gòu)不變的基礎(chǔ)上,繼續(xù)使用第四階段的特征對掩碼進(jìn)行細(xì)化。前人工作已經(jīng)證明,金字塔池化模塊[21]是增強場景解析網(wǎng)絡(luò)的有效方法,它可以有效地捕捉長程上下文信息。受SPNet[22]的啟發(fā),本文算法引入混合池化模塊(mixed pooling module,MPM)對主干網(wǎng)絡(luò)第四階段的特征進(jìn)行增強,該模塊可以同時收集特征圖的長程和短程依賴關(guān)系,增強特征圖的感受野。

    圖1 SiamMask算法整體框架

    本文所使用的混合池化模塊(MPM)如圖3所示。設(shè)輸入特征圖形狀為′′,其中,,分別代表特征圖的高度,寬度和通道數(shù)。為了降低計算復(fù)雜度,MPM首先將特征圖通道數(shù)調(diào)整為原來的1/4;隨后,將調(diào)整后的特征圖同時送入上下四個并行分支。其中,Pool_、Pool_分別對特征圖的水平和垂直方向進(jìn)行條狀池化,得到′1和1′的特征圖;接著,將兩個特征圖同時擴張至′后進(jìn)行相加,得到具有充足遠(yuǎn)程上下文信息的融合特征圖。Pool_S5和Pool_S3首先對調(diào)整后的特征圖進(jìn)行不同比例的池化,分別得到尺寸為原特征圖1/5和1/3的兩個特征圖;然后,對這兩個輸出進(jìn)行上采樣并與原始尺寸的特征圖相加,得到具備充足短程上下文信息的融合特征圖。最后,將兩個融合特征圖按通道拼接并調(diào)整,得到最終融合特征圖。

    圖2 模板更新模塊與模板更新流程

    圖3 混合池化模塊(MPM)

    2.4 多尺度掩碼細(xì)化與特征融合模塊

    在粗略掩碼細(xì)化過程中,SiamMask首先將主干網(wǎng)絡(luò)前三階段所提取的中間特征通道數(shù)調(diào)整為原來的1/16,隨后再分別與粗略掩碼逐點相加并上采樣。整個過程沒有充分利用淺層網(wǎng)絡(luò)的特征信息,這會導(dǎo)致掩碼丟失更多的空間與語義信息。因此,除繼續(xù)使用第四階段的特征外,本文只將淺層網(wǎng)絡(luò)所提取的特征通道數(shù)調(diào)整為原來的1/4。受BiseNet[23]的啟發(fā),本文算法使用特征融合模塊(feature fusion module,F(xiàn)FM)將調(diào)整后的每一階段特征與粗略掩碼進(jìn)行通道拼接。如圖4所示,此特征融合模塊可以對融合特征重新加權(quán)組合,自適應(yīng)地選擇需要關(guān)注的通道信息。

    圖4 特征融合模塊(FFM)

    圖5 本文算法整體框架

    2.5 算法整體框架

    如圖5所示,本文算法在SiamMask的基礎(chǔ)上增加了模板更新模塊(template update module),改進(jìn)了掩碼生成模塊(mask generation module),主干網(wǎng)絡(luò)和RPN分支的設(shè)置皆與原文保持一致。本文算法依然需要人工在視頻的第一幀中選定待跟蹤目標(biāo),不同于SiamMask,與當(dāng)前幀特征進(jìn)行互相關(guān)的不再是從第一幀中所提取的目標(biāo)模板,而是經(jīng)過模板更新模塊逐幀更新的特定模板;采用與SiamMask相同的方式獲取粗略掩碼后,本文算法使用改進(jìn)后的掩碼生成模塊對粗略掩碼進(jìn)行處理,從而得到視頻每一幀的精細(xì)分割結(jié)果。

    3 實驗結(jié)果

    為驗證所提算法的有效性,本文采用DAVIS2016和DAVIS2017數(shù)據(jù)集對其進(jìn)行評估。

    DAVIS2016和DAVIS2017是當(dāng)前視頻目標(biāo)分割界常用的測試數(shù)據(jù)集,DAVIS2016包含50個高質(zhì)量視頻,其中30個用于訓(xùn)練,20個用于評估,每個視頻序列只注釋一個目標(biāo)。DAVIS2017是對DAVIS2016的擴展,包括60個用于訓(xùn)練的視頻序列和30個用于評估的視頻序列,它涵蓋了視頻目標(biāo)分割任務(wù)中常見的多種挑戰(zhàn)場景,如遮擋、運動模糊和外觀變化,每個視頻序列平均包含2.03個對象,單個視頻序列最多包含5個要跟蹤的對象。

    本文的實驗環(huán)境如下:操作系統(tǒng)為64 位的 Ubuntu 16.04,PyTorch版本為0.4.1,16 G內(nèi)存,GPU為1塊NVIDIA 1080Ti。

    3.1 網(wǎng)絡(luò)訓(xùn)練細(xì)節(jié)

    本文算法采用兩階段方法完成整個網(wǎng)絡(luò)的訓(xùn)練,其中,掩碼生成模塊僅在第二階段進(jìn)行訓(xùn)練。在第一階段,網(wǎng)絡(luò)首先加載在ImageNet-1k上預(yù)訓(xùn)練的ResNet-50權(quán)重模型;隨后,使用隨機梯度下降優(yōu)化算法,在Youtube-VOS、COCO、ImageNet-DET和 ImageNet-VID數(shù)據(jù)集上對網(wǎng)絡(luò)進(jìn)行訓(xùn)練,epoch設(shè)置為50。前五個epoch使用預(yù)熱策略,學(xué)習(xí)率從1′10-3逐漸增長到5′10-3,后45個epoch使用對數(shù)下降策略,學(xué)習(xí)率從5′10-3逐漸降低到2.5′10-3。第二階段僅使用帶有掩碼標(biāo)注的Youtube-VOS和COCO數(shù)據(jù)集進(jìn)行訓(xùn)練,epoch設(shè)置為20,整個第二階段采用對數(shù)下降策略,學(xué)習(xí)率從1′10-2逐漸下降到2.5′10-3。

    3.2 定性分析

    圖6給出了本文算法與原始算法在DAVIS2016和DAVIS2017上的分割效果圖,其中,前兩列為DAVIS2016上的定性實驗結(jié)果,第三和第四列為在多目標(biāo)的DAVIS2017上的定性實驗結(jié)果。

    在第一列圖中,原始算法在目標(biāo)出現(xiàn)遮擋現(xiàn)象時,跟蹤結(jié)果發(fā)生漂移,而本文算法可以較好地克服此種情景。

    在第二列圖中,在目標(biāo)發(fā)生較大形變并伴有相似物干擾時,原始算法的分割效果并不理想,而本文算法則實現(xiàn)了對相似干擾背景的剔除,在目標(biāo)形變的情況下依然可以給出較好的分割掩碼。

    圖6 定性實驗結(jié)果

    第三列圖中,當(dāng)兩個不同類別的目標(biāo)同時出現(xiàn)快速運動時,原始算法出現(xiàn)了誤判現(xiàn)象(誤把摩托車尾部認(rèn)為是騎摩托的人),而本文算法仍可以分別對兩個目標(biāo)給出較好的分割結(jié)果。

    第四列圖中出現(xiàn)了多個同類別的目標(biāo)(五條金魚),它們在圖片中分布緊密并伴有目標(biāo)之間的粘連和遮擋,其中,右上角的金魚在該幀還出現(xiàn)了較大的形變。在面對此種極具挑戰(zhàn)性的場景時,原始算法出現(xiàn)了明顯的相似目標(biāo)誤判(左上角金魚和中間兩條粘連的金魚)和目標(biāo)的漏檢(右上角金魚),目標(biāo)的掩碼輪廓也比較粗糙。本文算法則精準(zhǔn)地分割出全部目標(biāo),掩碼質(zhì)量也明顯優(yōu)于原算法。

    3.3 定量分析

    DAVIS系列數(shù)據(jù)集的評價指標(biāo)主要有Jaccard index(J)和F-Measure(F)。Jaccard index是評價分割質(zhì)量的常用指標(biāo),它被計算為預(yù)測掩碼和掩碼真值的交并比(IOU),用來衡量二者之間的區(qū)域相似度。F-Measure基于準(zhǔn)確率和召回率進(jìn)行計算,它衡量的是預(yù)測掩碼與掩碼真值之間的輪廓相似度。

    表1給出了本文算法和其他五種對比算法(VPN[24]、BVS[25]、PLM[26]、MuG-W[2]、SiamMask[16])在DAVIS2016上的性能指標(biāo),從中可以看出,本文算法的區(qū)域相似度(J)為0.727,輪廓相似度(F)為0.696,超越了所有的對比算法。相比于SiamMask,J和F分別提升1.0%和1.8%的同時,速度滿足實時性要求,達(dá)到40.2 f/s。

    表2給出了本文算法和其他五種對比算法(OSVOS[3]、FAVOS[8]、OSMN[13]、MuG-W[2]、SiamMask[16])在DAVIS2017上的性能指標(biāo),從中可以看出,本文算法的區(qū)域相似度(J)為0.567,優(yōu)于其他五種對比算法,比原算法提升了2.4%,輪廓相似度(F)為0.615,比原算法提升了3.0%,雖然略低于OSVOS和FAVOS,但本文算法的速度比它們快了一個甚至是兩個數(shù)量級,達(dá)到42.6 f/s,依然滿足實時性要求。SiamMask_R為按SiamMask開源代碼進(jìn)行復(fù)現(xiàn)的測試結(jié)果,由于硬件設(shè)備存在差異及測試參數(shù)的影響,本文在DAVIS2016上的復(fù)現(xiàn)結(jié)果略低于SiamMask,DAVIS2017上的復(fù)現(xiàn)結(jié)果與SiamMask相同,本文所有工作皆在此復(fù)現(xiàn)基礎(chǔ)上進(jìn)行。

    表1 DAVIS2016驗證集上不同算法之間的性能對比

    表2 DAVIS2017驗證集上不同算法之間的性能對比

    3.4 消融實驗

    為了驗證所提模塊的有效性,本文算法采用DAVIS2017數(shù)據(jù)集進(jìn)行消融實驗。如表3所示,MPM表示是否使用混合池化模塊處理過后的主干網(wǎng)絡(luò)第四階段特征進(jìn)行掩碼細(xì)化;FFM表示在逐階段掩碼細(xì)化過程中,是否采用特征融合模塊;Update表示是否使用模板更新模塊。結(jié)果表明,使用多尺度特征可以給粗略掩碼提供更多的語義信息,一定程度上提升了分割精度。利用數(shù)量更為豐富的通道信息,以通道拼接并自適應(yīng)選擇的特征融合方式代替逐點相加,使得掩碼細(xì)化過程更為合理,進(jìn)一步優(yōu)化了分割效果。Update模塊則利用了視頻中潛在的時序信息,對每一幀的分割做出更加準(zhǔn)確的指導(dǎo),再次將本文算法的分割精度提升到新的高度。

    表3 本文算法在DAVIS2017上的消融實驗

    4 結(jié) 論

    本文提出了一種基于自適應(yīng)模板更新與多特征融合的視頻目標(biāo)分割算法。首先,算法利用每一幀的分割結(jié)果對模板進(jìn)行自適應(yīng)更新;其次,在掩碼生成過程中,使用特征信息更為豐富的中間特征和更為合理的融合過程對掩碼進(jìn)行細(xì)化。與SiamMask相比,所提算法性能得到明顯提升的同時,速度達(dá)到實時。但是,本文算法需要對每一個數(shù)據(jù)集分別進(jìn)行參數(shù)調(diào)試,過程較為繁瑣,這也是Siamese系列算法難以復(fù)現(xiàn)的原因之一。它們需要使用先驗知識和多個后處理來輔助跟蹤和分割結(jié)果的選擇,后處理過程會引入對應(yīng)的超參數(shù),而Siamese系列算法對超參數(shù)的選擇非常敏感,如果沒有合適的超參數(shù),算法性能會受到比較大的影響。最近的一些工作將Transformer的思想融入到跟蹤算法中[27],單個參數(shù)即可適用于所有數(shù)據(jù)集,顯著降低了后處理操作對算法性能的影響。因此,本文后續(xù)工作將考慮對此進(jìn)行探索,以進(jìn)一步優(yōu)化視頻目標(biāo)分割算法的后處理過程。

    [1] Miao J X, Wei Y C, Yang Y. Memory aggregation networks for efficient interactive video object segmentation[C]//, 2020: 10366–10375.

    [2] Lu X K, Wang W G, Shen J B,. Learning video object segmentation from unlabeled videos[C]//, 2020: 8957–8967.

    [3] Caelles S, Maninis K K, Pont-Tuset J,. One-shot video object segmentation[C]//, 2017: 5320–5329.

    [4] Perazzi F, Khoreva A, Benenson R,. Learning video object segmentation from static images[C]//, 2017: 3491–3500.

    [5] Voigtlaender P, Leibe B. Online adaptation of convolutional neural networks for video object segmentation[Z]. arXiv: 1706.09364, 2017.

    [6] Luiten J, Voigtlaender P, Leibe B. PReMVOS: proposal-generation, refinement and merging for video object segmentation[C]//, 2018: 565–580.

    [7] Li X X, Loy C C. Video object segmentation with joint re-identification and attention-aware mask propagation[C]//, 2018: 93–110.

    [8] Cheng J C, Tsai Y H, Hung W C,. Fast and accurate online video object segmentation via tracking parts[C]//, 2018: 7415–7424.

    [9] Chen Y H, Pont-Tuset J, Montes A,. Blazingly fast video object segmentation with pixel-wise metric learning[C]//, 2018: 1189–1198.

    [10] Hu Y T, Huang J B, Schwing A G. VideoMatch: matching based video object segmentation[C]//, 2018: 56–73.

    [11] Voigtlaender P, Chai Y N, Schroff F,. FEELVOS: fast end-to-end embedding learning for video object segmentation[C]//, 2019: 9473–9482.

    [12] Johnander J, Danelljan M, Brissman E,. A generative appearance model for end-to-end video object segmentation[C]//, 2019: 8945–8954.

    [13] Yang L J, Wang Y R, Xiong X H,. Efficient video object segmentation via network modulation[C]//, 2018: 6499–6507.

    [14] Oh S W, Lee J Y, Sunkavalli K,. Fast video object segmentation by reference-guided mask propagation[C]//, 2018: 7376–7385.

    [15] Oh S W, Lee J Y, Xu N,. Video object segmentation using space-time memory networks[C]//, 2019: 9225–9234.

    [16] Wang Q, Zhang L, Bertinetto L,. Fast online object tracking and segmentation: a unifying approach[C]//, 2019: 1328–1338.

    [17] Li B, Yan J J, Wu W,. High performance visual tracking with Siamese region proposal network[C]//, 2018: 8971–8980.

    [18] Perazzi F, Pont-Tuset J, McWilliams B,. A benchmark dataset and evaluation methodology for video object segmentation[C]//, 2016: 724–732.

    [19] Pont-Tuset J, Perazzi F, Caelles S,. The 2017 DAVIS challenge on video object segmentation[Z]. arXiv: 1704.00675, 2018.

    [20] Zhang L C, Gonzalez-Garcia A, Van De Weijer J,. Learning the model update for Siamese trackers[C]//, 2019: 4009–4018.

    [21] Zhao H S, Shi J P, Qi X J,. Pyramid scene parsing network[C]//, 2017: 6230–6239.

    [22] Hou Q B, Zhang L, Cheng M M,. Strip pooling: rethinking spatial pooling for scene parsing[C]//, 2020: 4002–4011.

    [23] Yu C Q, Wang J B, Peng C,. BiSeNet: bilateral segmentation network for real-time semantic segmentation[C]//, 2018: 334–349.

    [24] Jampani V, Gadde R, Gehler P V. Video propagation networks[C]//, 2017: 3154–3164.

    [25] M?rki N, Perazzi F, Wang O,. Bilateral space video segmentation[C]//, 2016: 743–751.

    [26] Yoon J S, Rameau F, Kim J,. Pixel-level matching for video object segmentation using convolutional neural networks[C]//, 2017: 2186–2195.

    [27] Chen X, Yan B, Zhu J W,. Transformer tracking[Z]. arXiv: 2103.15436, 2021.

    Video object segmentation algorithm based on adaptive template updating and multi-feature fusion

    Wang Shuiyuan1,2, Hou Zhiqiang1,2*, Wang Nan1,2, Li Fucheng1,2, Pu Lei3, Ma Sugang1,2

    1Institute of Computer, Xi’an University of Posts and Telecommunications, Xi’an, Shaanxi 710121, China;2Shaanxi Key Laboratory of Network Data Analysis and Intelligent Processing, Xi’an University of Posts and Telecommunications, Xi’an, Shaanxi 710121, China;3Rocket Force University of Engineering, Operational Support School, Xi’an, Shaanxi 710025, China

    Experimental results

    Overview:In recent years, video object segmentation (VOS) has been widely used in video surveillance, autopilot, intelligent robot, and other fields, and it has attracted more and more researchers' attention. According to the degree of human participation, video object segmentation can be divided into interactive video object segmentation, unsupervised video object segmentation, and semi-supervised video object segmentation. Semi-supervised VOS is the most concerned task in the field of video object segmentation, and it is also the research direction of this paper. Semi-supervised VOS gives the real mask of the target in the first frame of the video, and its purpose is to segment the target mask automatically in the remaining frames. However, in the whole video sequence, the target to be segmented may experience great appearance changes, occlusion, and fast movement, so it is a very challenging task to segment the target robust in the video sequence.

    SiamMask forms is a multi-branch twin network framework by adding Mask branches to SiamRPN. In the field of video object segmentation, SiamMask achieves competitive segmentation accuracy on DAVIS2016 and DAVIS2017data-sets. At the same time, the speed is nearly an order of magnitude faster than the method in the same period. Compared with the classical OSVOS, SiamMask is two orders of magnitude faster, so the video object segmentation can be applied in practice. However, due to the lack of template update, SiamMask is prone to tracking drift in complex videos. In addition, in the process of mask generation, SiamMask uses a lot of feature information loss, the fusion process is relatively rough, and does not use the feature map of the whole stage of the backbone network to refine the mask. In order to solve the above problems, this paper proposes a video object segmentation algorithm based on the adaptive template update and the multi-feature fusion. First of all, the proposed algorithm uses an adaptive update strategy to process the template, which can update the template using the segmentation results of each frame. Secondly, in order to use more feature information to refine the mask, this algorithm uses the hybrid pooling module to enhance the features extracted in the fourth stage of the backbone network, and fuses the enhanced features with the rough mask. Finally, in order to generate a more fine mask, this algorithm uses the feature fusion module to participate in the mask thinning process of intermediate features with richer spatial information in each stage of the backbone network. The experimental results show that the proposed algorithm significantly improves the tracking drift caused by occlusion and similar background interference, the performances on DAVIS2016 and DAVIS2017 data-sets are significantly improved, and the running speed meets the real-time requirements.

    Wang S Y, Hou Z Q, Wang N,Video object segmentation algorithm based on adaptive template updating and multi-feature fusion[J]., 2021, 48(10): 210193; DOI:10.12086/oee.2021.210193

    Video object segmentation algorithm based on adaptive template updating and multi-feature fusion

    Wang Shuiyuan1,2, Hou Zhiqiang1,2*, Wang Nan1,2, Li Fucheng1,2, Pu Lei3, Ma Sugang1,2

    1Institute of Computer, Xi’an University of Posts and Telecommunications, Xi’an, Shaanxi 710121, China;2Shaanxi Key Laboratory of Network Data Analysis and Intelligent Processing, Xi’an University of Posts and Telecommunications, Xi’an, Shaanxi 710121, China;3Rocket Force University of Engineering, Operational Support School, Xi’an, Shaanxi 710025, China

    In order to solve the problem that SiamMask cannot adapt to the change of target appearance and the lack of use of feature information leads to rough mask generation, this paper proposes a video object segmentation algorithm based on the adaptive template update and the multi-feature fusion. First of all, the algorithm adaptively updates the template using the segmentation results of each frame; secondly, the hybrid pooling module is used to enhance the features extracted in the fourth stage of the backbone network, and the enhanced features are fused with the rough mask; finally, the feature fusion module is used to refine the rough mask stage by stage, which can effectively combine the spliced features. Experimental results show that, compared with SiamMask, the performance of the proposed algorithm is significantly improved. On the DAVIS2016 data-set, the region similarity and contour similarity of this algorithm are 0.727 and 0.696, respectively, which is 1.0% and 1.8% higher than that of the benchmark algorithm, and the speed reaches 40.2 f/s. On the DAVIS2017 data-set, the region similarity and contour similarity of this algorithm are 0.567 and 0.615, respectively, which is 2.4% and 3.0% higher than that of the benchmark algorithm, and the speed reaches 42.6 f/s.

    video object segmentation; template update; feature fusion; mask thinning

    National Natural Science Foundation of China (62072370)

    10.12086/oee.2021.210193

    TP391

    A

    2021-06-06;

    2021-09-09基金項目:國家自然科學(xué)基金資助項目(62072370)

    汪水源(1996-),男,碩士研究生,主要從事計算機視覺、視頻目標(biāo)分割的研究。E-mail:wsy_wang1@163.com

    侯志強(1973-),男,博士,教授,博士生導(dǎo)師,主要從事圖像處理、計算機視覺和信息融合的研究。E-mail:hzq@xupt.edu.cn

    * E-mail: hzq@xupt.edu.cn

    汪水源,侯志強,王囡,等. 基于自適應(yīng)模板更新與多特征融合的視頻目標(biāo)分割算法[J]. 光電工程,2021,48(10): 210193

    Wang S Y, Hou Z Q, Wang N, et al. Video object segmentation algorithm based on adaptive template updating and multi-feature fusion[J]. Opto-Electron Eng, 2021, 48(10): 210193

    版權(quán)所有?2021中國科學(xué)院光電技術(shù)研究所

    猜你喜歡
    掩碼主干模板
    全球首條1.2T超高速下一代互聯(lián)網(wǎng)主干通路
    軍事文摘(2024年2期)2024-01-10 01:58:34
    鋁模板在高層建筑施工中的應(yīng)用
    鋁模板在高層建筑施工中的應(yīng)用
    抓主干,簡化簡單句
    二代支架時代數(shù)據(jù)中糖尿病對無保護(hù)左主干患者不同血運重建術(shù)預(yù)后的影響
    高齡無保護(hù)左主干病變患者血運重建術(shù)的長期預(yù)后
    低面積復(fù)雜度AES低熵掩碼方案的研究
    基于布爾異或掩碼轉(zhuǎn)算術(shù)加法掩碼的安全設(shè)計*
    鋁模板在高層建筑施工中的應(yīng)用
    城市綜改 可推廣的模板較少
    盘山县| 景宁| 麦盖提县| 松溪县| 乌拉特后旗| 合川市| 高州市| 甘德县| 读书| 昂仁县| 曲麻莱县| 高台县| 阳城县| 博客| 华安县| 岳阳县| 南靖县| 曲麻莱县| 集安市| 淅川县| 兴海县| 绵阳市| 资阳市| 健康| 郑州市| 辛集市| 广汉市| 孝义市| 辽宁省| 习水县| 华池县| 岳普湖县| 海安县| 台中县| 诸城市| 方城县| 北宁市| 杭锦旗| 阳城县| 长兴县| 凤庆县|