• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于深度殘差網(wǎng)絡(luò)的雙階段視頻顯著性檢測

      2019-08-14 10:02:30段向歡李建偉
      計算機(jī)應(yīng)用與軟件 2019年8期
      關(guān)鍵詞:殘差顯著性階段

      張 亮 段向歡 李建偉

      1(廣州民航職業(yè)技術(shù)學(xué)院航空港管理學(xué)院 廣東 廣州 510403)2(河北工業(yè)大學(xué)人工智能與數(shù)據(jù)科學(xué)學(xué)院 天津 300401)

      0 引 言

      顯著性檢測一直是計算機(jī)視覺領(lǐng)域火熱的研究方向,它在邊緣提取[1]、目標(biāo)跟蹤[2]等諸多領(lǐng)域有著非常重要的應(yīng)用價值。隨著圖像顯著性研究不斷取得突破性的成果[3-4],處理大量視頻數(shù)據(jù)的要求不斷涌現(xiàn),越來越多的研究人員加入到了視頻顯著性檢測的研究行列。

      視頻顯著性檢測通過設(shè)計算法讓計算機(jī)模擬人眼自動提取視頻序列中人類感興趣的區(qū)域。它常作為視頻處理的預(yù)處理操作,能有效提升任務(wù)的處理效率。相比圖像顯著性檢測,視頻顯著性目標(biāo)檢測不僅要考慮空間特征,還需考慮時間特征或者運(yùn)動特征,所以更具挑戰(zhàn)性。隨著深度學(xué)習(xí)理論在圖像領(lǐng)域中的不斷應(yīng)用,深度神經(jīng)網(wǎng)絡(luò)在視頻顯著性檢測中的潛力也愈發(fā)凸顯。在背景復(fù)雜或者運(yùn)動信息多樣的情況下,已知的視頻顯著性檢測算法仍然沒有實現(xiàn)高準(zhǔn)確率、高運(yùn)行效率和高魯棒性等問題。如何更好地提高顯著目標(biāo)檢測性能以及減少幀間損失等仍是一個研究熱點。以往的方法常常分為兩個階段:分別處理視頻的空間特征(或運(yùn)動特征)與時序特征。再通過加權(quán)函數(shù)融合兩個階段得到的顯著圖或者利用能量函數(shù)進(jìn)一步優(yōu)化兩個階段得到的結(jié)果[5-6]。為了加深神經(jīng)網(wǎng)絡(luò)模型的層數(shù)、挖掘更深層次的特征,同時避免常見的梯度消失、梯度爆炸和網(wǎng)絡(luò)退化等問題,本文融合周期性學(xué)習(xí)率[7],提出一種以深度殘差網(wǎng)絡(luò)[8]和U-net[9]為基本結(jié)構(gòu)的雙階段視頻顯著性檢測方法。不同于以往方法需要通過先驗手動提取空間、時序維度的特征,該方法分為兩個訓(xùn)練階段,利用深度學(xué)習(xí)模型自動挖掘各個維度深層特征的優(yōu)勢。第一階段初步獲取樣本的時空特征;第二個階段通過融合連續(xù)三幀視頻序列信息進(jìn)一步加強(qiáng)模型學(xué)習(xí)到的時序特征,以此來提高視頻顯著性檢測的效果。

      1 算法設(shè)計

      1.1 融合周期性學(xué)習(xí)率

      模型調(diào)優(yōu)是訓(xùn)練深度學(xué)習(xí)模型的重要一環(huán),超參數(shù)的設(shè)置和優(yōu)化起著關(guān)鍵性的作用。學(xué)習(xí)率就是非常重要的超參數(shù)之一,它決定著每一次損失函數(shù)的梯度更新程度,其選取是否恰當(dāng)將直接影響訓(xùn)練模型的進(jìn)度和最終效果。訓(xùn)練模型的權(quán)重如下:

      式中:θ表示模型的權(quán)重;θi表示其中某個權(quán)重;J為代價函數(shù);α為學(xué)習(xí)率的值。如采用固定的學(xué)習(xí)率,很難依據(jù)先驗知識確定最佳初始值。

      文獻(xiàn)[7]提出周期性學(xué)習(xí)率的概念,讓學(xué)習(xí)率在最大邊界和最小邊界內(nèi)循環(huán)變化而不是單一地按著一定規(guī)則衰減。周期性學(xué)習(xí)率可以有不同的模式,常見的有三角形循環(huán)規(guī)則、周期性減半規(guī)則和周期性指數(shù)級衰減策略,它們的基本策略在于每個周期結(jié)束后,學(xué)習(xí)率的最大值不變或按著半數(shù)、指數(shù)級進(jìn)行衰減。本文在融合周期性學(xué)習(xí)率時,選用的模式是周期性減半規(guī)則,如圖1所示,每個新的周期,最大學(xué)習(xí)率會是上個周期的半數(shù)值。步長采用周期的一半,學(xué)習(xí)率的上下邊界采用的默認(rèn)值為0.001和0.006。

      圖1 學(xué)習(xí)率周期性減半規(guī)則示意圖

      1.2 構(gòu)建基于深度殘差網(wǎng)絡(luò)和U-net的基本結(jié)構(gòu)

      深度殘差網(wǎng)絡(luò)通過添加經(jīng)典的捷徑連接(shortcut connections),解決了網(wǎng)絡(luò)層數(shù)加深時常會遇到的梯度爆炸、梯度消失、網(wǎng)絡(luò)退化等問題。殘差網(wǎng)絡(luò)經(jīng)過不斷地改進(jìn)和發(fā)展,已有多個變體,其中常用的是ResNet-50、ResNet-101、ResNet-152等,名稱中的數(shù)字代表神經(jīng)網(wǎng)絡(luò)的深度。為了加深網(wǎng)絡(luò)層數(shù),學(xué)習(xí)更深層次的對象特征,本文提出融合深度殘差網(wǎng)絡(luò)和U-net作為基本結(jié)構(gòu)進(jìn)行雙階段的視頻顯著性檢測方法。為了減少計算量,本文選用ResNet-50,其基本結(jié)構(gòu)由殘差模塊堆疊而成,殘差模塊包含卷積層、批標(biāo)準(zhǔn)化層、激活層等。此外,為使殘差模塊更加有效堆疊,每個殘差模塊后面都添加了非線性的激活函數(shù)。

      U-net采用編碼-解碼結(jié)構(gòu),并且網(wǎng)絡(luò)模型左右嚴(yán)格對稱,呈“U”形。本文將殘差網(wǎng)絡(luò)和U-net相融合,即把ResNet-50網(wǎng)絡(luò)模型作為U-net的編碼端,負(fù)責(zé)對圖像或者視頻幀進(jìn)行上下文特征信息的學(xué)習(xí)。同時,為了更好地與后面的網(wǎng)絡(luò)進(jìn)行銜接,對ResNet-50尾部結(jié)構(gòu)進(jìn)行了調(diào)整,并增加了兩個殘差模塊。得益于更深層的壓縮路徑,U-net新的編碼器可以提取更多維度的信息和更高級的特征,更好地區(qū)分目標(biāo)圖像中的顯著性信息和冗余信息,為后續(xù)解碼工作奠定良好基礎(chǔ)。為了按照下采樣的節(jié)奏來逐步將特征圖恢復(fù)至原始輸入圖片的大小,針對編碼器進(jìn)行的五次壓縮操作,新的U-net解碼端在相對應(yīng)的層次也進(jìn)行了五次上采樣工作,最后輸出的檢測圖即為最終結(jié)果。新的網(wǎng)絡(luò)模型是一個端到端的結(jié)構(gòu),一定程度上可以認(rèn)為解碼器和編碼器的結(jié)構(gòu)呈鏡面對稱,最大的不同是跳躍連接帶來的差異。整個網(wǎng)絡(luò)結(jié)構(gòu)一共包含了四個跳躍連接,除去第一次下采樣和最后一次升采樣,跳躍連接將對應(yīng)的下采樣和升采樣區(qū)域聯(lián)系起來。通過高層特征和底層特征的結(jié)合,減少了壓縮路徑下采樣過程中重要特征信息的丟失,為檢測結(jié)果增加了更多細(xì)節(jié)信息。

      1.3 雙階段視頻顯著性檢測

      前面提到的殘差網(wǎng)絡(luò)ResNet-50和U-net的結(jié)構(gòu),可記作BaseNet。利用該結(jié)構(gòu)訓(xùn)練圖像或者視頻序列,得到的模型能夠?qū)W習(xí)到不錯的空間特征和時序特征。但是,為了進(jìn)一步增強(qiáng)模型對視頻序列時序特征的學(xué)習(xí)能力,減少檢測結(jié)果中視頻幀間的特征損失,本文又提出了基于BaseNet的雙階段視頻顯著性檢測方法。整體模型的結(jié)構(gòu)如圖2所示,其中殘差塊指的是殘差網(wǎng)絡(luò)中的基本殘差單元,ResNet-50-v1是對ResNet-50網(wǎng)絡(luò)的末尾層進(jìn)行調(diào)整得到的,ResNet-50-v2是為了構(gòu)成類似U-net的整體結(jié)構(gòu)對ResNet-50網(wǎng)絡(luò)進(jìn)行了修改,ResNet-50-v3則因為修改了輸入端的結(jié)構(gòu)而與ResNet-50-v1稍有不同。

      圖2 基于殘差網(wǎng)絡(luò)的雙階段訓(xùn)練模型結(jié)構(gòu)圖

      該方法共分為兩個階段:第一階段采用BaseNet網(wǎng)絡(luò)模型,采用圖像數(shù)據(jù)集和視頻數(shù)據(jù)集訓(xùn)練模型,以期提升模型捕獲時空特征的能力;第二階段將第一階段通過訓(xùn)練達(dá)到收斂的模型鎖定,即它的模型權(quán)重不再被訓(xùn)練和改變,稱為BaseModel,然后對BaseNet的輸入端進(jìn)行調(diào)整和改變,新網(wǎng)絡(luò)模型將接收的連續(xù)三幀視頻序列和BaseModel對于第二幀預(yù)測的顯著圖作為輸入進(jìn)行訓(xùn)練,直到模型收斂為止。每個連續(xù)的三幀視頻序列中,第二幀是求解目標(biāo),它所對應(yīng)的前后幀以及BaseModel模型預(yù)測的顯著圖都是參考信息,以此更好地指導(dǎo)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練。整個方法可以通過下式抽象表示:

      Y=F2(It-1,It,It+1,F1(It;θ1);θ2)

      (2)

      式中:Y表示整個模型的輸出結(jié)果,即所需要的對應(yīng)的最終顯著圖;I表示視頻幀或者靜態(tài)圖像,t表示視頻序列在時間維度上的刻度;F1表示第一階段訓(xùn)練好的模型,即BaseModel,θ1表示模型的權(quán)重或者參數(shù);It-1、It、It+1分別表示連續(xù)的三幀視頻序列;F1(It;θ1)為第二幀視頻序列在模型BaseModel下得到的顯著圖;F2表示第二個階段訓(xùn)練好的模型;θ2表示該模型訓(xùn)練好的參數(shù)和權(quán)重。

      對于雙階段模型的初始化、超參數(shù)設(shè)計以及損失函數(shù)等訓(xùn)練細(xì)節(jié)會在2.1節(jié)進(jìn)行描述。通過引入周期性學(xué)習(xí)率、融合殘差網(wǎng)絡(luò)和U-net網(wǎng)絡(luò)以及構(gòu)造雙階段網(wǎng)絡(luò)結(jié)構(gòu),既使模型得到更好的訓(xùn)練,也進(jìn)一步提高模型對視頻時序特征的學(xué)習(xí)能力,得到的最終模型在對視頻序列檢測時,檢測結(jié)果各幀中的顯著目標(biāo)均能更為完整、清晰和準(zhǔn)確。

      2 實驗及結(jié)果分析

      2.1 實驗設(shè)置

      本文采用深度學(xué)習(xí)框架Keras來進(jìn)行測試和實驗。在訓(xùn)練模型的第一階段,使用DUT-OMRON[10]、ECSSD[11]、HKU-IS[12]和MSRA10K[4]等圖像數(shù)據(jù)集以及UVSD[5]、Gygo-dataset[13]和DAVIS[14](僅訓(xùn)練集)等視頻數(shù)據(jù)集訓(xùn)練模型。這些數(shù)據(jù)集是顯著性檢測領(lǐng)域比較知名和權(quán)威的數(shù)據(jù)集,一方面對應(yīng)的真實值標(biāo)注比較可靠,前人的工作也經(jīng)常用到這些數(shù)據(jù)集;另一方面這些數(shù)據(jù)集包含了不同的場景和目標(biāo)類別,用它們一起訓(xùn)練進(jìn)一步提升模型的泛化能力。在訓(xùn)練階段,將這些數(shù)據(jù)匯合并打亂重排,訓(xùn)練集、驗證集都是按著4∶1的比例隨機(jī)劃分,保證驗證集樣本有著豐富的類型,每輪的訓(xùn)練都是根據(jù)驗證集樣本的表現(xiàn)調(diào)整模型參數(shù)。這樣通過多輪的訓(xùn)練,提升模型對于不同場景和目標(biāo)的適應(yīng)性。在實驗中對于模型的編碼端,采用ImageNet數(shù)據(jù)集上訓(xùn)練好的ResNet-50預(yù)訓(xùn)練模型進(jìn)行遷移學(xué)習(xí),采用均方誤差(MSE)作為該階段的損失函數(shù)。類似地,在訓(xùn)練模型的第二階段,使用第一階段的3個視頻數(shù)據(jù)集作為訓(xùn)練集,進(jìn)一步增強(qiáng)模型對于訓(xùn)練集時序特征的學(xué)習(xí)。由于兩個階段輸入通道和訓(xùn)練模型不一致,所以從零開始訓(xùn)練調(diào)整后的網(wǎng)絡(luò)模型,并采用平均絕對誤差(MAE)作為懲罰函數(shù)來訓(xùn)練模型。模型的輸入圖片可以是任意大小,批量大小為32,訓(xùn)練輪數(shù)設(shè)置為200。在測試階段,為了更好地評估提出的方法,使用的是SegTrackV2[15]和DAVIS(測試集部分)等常用的、具有挑戰(zhàn)性的數(shù)據(jù)集。

      2.2 方法對比

      為了更全面地評估文本所提方法,從定性和定量兩個方面將其和目前主流方法在相同測試集上進(jìn)行了對比。對比的方法包括:基于超像素級圖和時空傳播的顯著性(SGSP)[5]、融合顯著區(qū)域特征的顯著性(DRFI)[3]、基于梯度流域計算的顯著性(GAFL)[6]、基于測地距離的視頻顯著性(SAGE)[16]。其中,第二個方法是用于圖像顯著性檢測的,其他的方法都是針對視頻顯著性檢測的。在DAVIS測試數(shù)據(jù)集和SegTrackV2數(shù)據(jù)集上的視覺效果對比分別如圖3和圖4所示。

      圖3 DAVIS數(shù)據(jù)集上的視覺效果對比

      圖4 SegTrackV2數(shù)據(jù)集上的視覺效果對比

      圖中每一行表示幾種方法對于同一視頻幀的檢測結(jié)果。圖中前兩列表示原始視頻幀(Input)及對應(yīng)的真實值(GT),自第一行起,每三行取自同一視頻序列,每個數(shù)據(jù)集隨機(jī)選取了三個視頻樣本。通過分析圖3和圖4可知,DRFI方法由于沒有考慮時序信息,所以處理的結(jié)果會附帶很多顯著目標(biāo)周圍的背景,造成顯著目標(biāo)在結(jié)果中不易辨識,目標(biāo)的邊緣也不易識別。在某些情況下,該方法會造成目標(biāo)不完整,在多目標(biāo)視頻中很難把握全部目標(biāo)信息。其他用于視頻的方法融合了空間和時序信息,故均可以更好地處理幀間信息,顯著目標(biāo)周圍的背景也處理得較為徹底。但SGSP方法由于過度依賴運(yùn)動特征,對于幀間運(yùn)動不是很明顯的視頻往往效果不是很理想,得到的結(jié)果中顯著目標(biāo)周圍往往附帶一些冗余的像素,很難確定顯著目標(biāo)的邊緣,有些場景背景抑制能力不高,如圖3中第四、五行和圖4中第一行和最后一行。GAFL和SAGE兩種方法都基于超像素和光流法,主要依賴視頻幀的邊緣特征和運(yùn)動特征,其結(jié)果相對清晰,但光流的計算比較耗時,檢測結(jié)果也需要進(jìn)一步改善。相比而言,本文方法通過深度模型自動挖掘各層次的關(guān)鍵特征,獲得的結(jié)果保留了顯著目標(biāo)的準(zhǔn)確信息,目標(biāo)背景處理更徹底,各幀的預(yù)測結(jié)果顯著目標(biāo)都更完整,更接近人工標(biāo)注的真實值。

      在定量角度,采用常見的評價標(biāo)準(zhǔn)F-measure和MAE(平均絕對誤差)對以上方法進(jìn)行客觀評價。F-measure(Fm)代表查準(zhǔn)率(Pm)和查全率(R)的統(tǒng)計加權(quán)調(diào)和平均值,可表示為:

      基于前人工作的推薦,這里設(shè)置β為0.3,以此來突出查準(zhǔn)率的重要性。

      各個方法在公開數(shù)據(jù)集DAVIS和SegTrackV2上的F-measure值如表1所示。

      表1 兩個公開數(shù)據(jù)集上F-measure值的對比

      MAE(M)表示待評估模型預(yù)測出的顯著概率圖P與對應(yīng)的真實值G之間的逐像素平均差異。它的公式表示為:

      式中:h和w分別代表輸入視頻幀的高度和寬度。所有方法在DAVIS測試集和SegTrackV2數(shù)據(jù)集上的MAE的值如表2所示。

      表2 兩個公開數(shù)據(jù)集上MAE值的對比

      由表1、表2可知,本文所提方法的MAE(值越小效果越好)和F-measure(值越大效果越好)兩個評價指標(biāo)均優(yōu)于對比的其他方法,充分說明了該方法的優(yōu)越性和有效性。

      2.3 必要性分析

      為了更好地突出所提方法中一些設(shè)計思想和細(xì)節(jié)的必要性,我們通過實驗進(jìn)行了對比分析。對于雙階段訓(xùn)練的必要性,對比實驗的結(jié)果如表3和表4所示。

      表3 單雙階段的MAE值對比

      表4 單雙階段的F-measure值對比

      通過對比數(shù)據(jù)可知,雙階段得到的模型在兩個測試集上的MAE、F-measure的值都得到了進(jìn)一步的提升,突出了雙階段訓(xùn)練的必要性。此外,通過觀察表1和表4、表2和表3,可以發(fā)現(xiàn)本文單階段得到的模型在公開測試集上的MAE、F-measure值都超過了對比的四個模型??梢娺@些模型利用先驗知識手動提取相關(guān)特征普遍容易造成獲取特征不足的問題,對比數(shù)據(jù)也再次證明通過深度學(xué)習(xí)模型自動獲取各個維度特征會得到更好的結(jié)果。綜合考慮檢測效果提升幅度、計算量成本、整體模型復(fù)雜度以及避免模型對于訓(xùn)練數(shù)據(jù)過擬合,本文采用了雙階段的訓(xùn)練。

      2.4 運(yùn)行時間分析

      針對運(yùn)行效率的問題,本文分別從DAVIS測試集和SegTrackV2數(shù)據(jù)集隨機(jī)選擇出一個視頻序列,各個方法處理這兩個視頻的效率對比如表5所示。其中:Cows來自DAVIS數(shù)據(jù)集;Frog來自SegTrackV2數(shù)據(jù)集。實驗的計算資源包括Intel(R) Core(TM) i5-7300HQ CPU(4核),計算機(jī)內(nèi)存8 GB。

      表5 各個方法處理同一視頻的平均速率對比

      從表5中數(shù)據(jù)可知,本文方法不需要超像素分割、平滑濾波等預(yù)處理以及光流計算,在處理視頻時省去了很大的時間開銷,具有很高的運(yùn)行效率,相比其他的方法有數(shù)量級的提升。

      3 結(jié) 語

      本文提出一種基于深度殘差網(wǎng)絡(luò)的雙階段視頻顯著性檢測方法。該方法一方面通過融合周期性學(xué)習(xí)率,使得學(xué)習(xí)率周期性變化,保證了模型在訓(xùn)練過程中能夠使用最優(yōu)或者接近最優(yōu)的學(xué)習(xí)率,實現(xiàn)更好、更快的收斂。另一方面,通過融合殘差網(wǎng)絡(luò)和U-net,實現(xiàn)了網(wǎng)絡(luò)模型更深的層次,進(jìn)一步豐富了模型提取的不同維度和深度的特征。此外,該方法又提出了雙階段的訓(xùn)練結(jié)構(gòu),通過結(jié)合前后幀的信息以及第一階段得到的顯著圖,進(jìn)一步增強(qiáng)模型對于視頻序列時序特征的學(xué)習(xí)能力。實驗結(jié)果表明,本文所提方法在定量和定性的評價標(biāo)準(zhǔn)上都比主流的幾個方法更具優(yōu)勢。如何進(jìn)一步簡化模型、降低訓(xùn)練成本以及實現(xiàn)無監(jiān)督訓(xùn)練模式等,是未來工作中值得進(jìn)一步研究的內(nèi)容。

      猜你喜歡
      殘差顯著性階段
      基于雙向GRU與殘差擬合的車輛跟馳建模
      關(guān)于基礎(chǔ)教育階段實驗教學(xué)的幾點看法
      基于殘差學(xué)習(xí)的自適應(yīng)無人機(jī)目標(biāo)跟蹤算法
      在學(xué)前教育階段,提前搶跑,只能跑得快一時,卻跑不快一生。
      莫愁(2019年36期)2019-11-13 20:26:16
      基于遞歸殘差網(wǎng)絡(luò)的圖像超分辨率重建
      基于顯著性權(quán)重融合的圖像拼接算法
      電子制作(2019年24期)2019-02-23 13:22:26
      基于視覺顯著性的視頻差錯掩蓋算法
      一種基于顯著性邊緣的運(yùn)動模糊圖像復(fù)原方法
      論商標(biāo)固有顯著性的認(rèn)定
      平穩(wěn)自相關(guān)過程的殘差累積和控制圖
      河南科技(2015年8期)2015-03-11 16:23:52
      珲春市| 文登市| 临泽县| 新邵县| 怀宁县| 汽车| 柳江县| 祁门县| 都兰县| 乌苏市| 镇远县| 阜康市| 盐津县| 明星| 溧阳市| 徐闻县| 台南县| 汝阳县| 綦江县| 舟山市| 尼勒克县| 卫辉市| 清河县| 夏津县| 宿州市| 铜川市| 南充市| 武宁县| 和顺县| 易门县| 屏东县| 石楼县| 洪雅县| 顺平县| 古田县| 奎屯市| 房山区| 遂宁市| 延边| 迁安市| 繁昌县|