• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      輕量級注意力約束對齊網(wǎng)絡(luò)的視頻超分重建

      2022-10-21 02:55:10靳雨桐宋慧慧劉青山
      中國圖象圖形學(xué)報 2022年10期
      關(guān)鍵詞:極軸約束注意力

      靳雨桐,宋慧慧,劉青山

      南京信息工程大學(xué),江蘇省大氣環(huán)境與裝備技術(shù)協(xié)同創(chuàng)新中心,江蘇省大數(shù)據(jù)分析技術(shù)重點實驗室,南京 210044

      0 引 言

      視頻超分辨率(video super-resolution,VSR)重建的目標(biāo)是從LR(low-resolution)幀(參考幀)和其對應(yīng)的多個相鄰幀中恢復(fù)出逼真的HR(high-resolution)幀。視頻超分重建應(yīng)用十分廣泛,例如視頻監(jiān)控、高清電視和視頻后期制作等。Dai等人(2017)提出了可變形的卷積網(wǎng)絡(luò)(deformable convolutional networks,DCNs),突破了卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNNs)中感受野采用固定幾何結(jié)構(gòu)的局限性。DCNs能夠從目標(biāo)任務(wù)中學(xué)習(xí)偏移量來增加空間采樣位置,從而學(xué)習(xí)出自適應(yīng)的感受野。隨后,Zhu等人(2018)提出了DCNs的進階版本DCNs v2,通過增強建模能力和更強的訓(xùn)練,提高其專注于相關(guān)圖像區(qū)域的能力。隨著DCNs的發(fā)展,其在視頻超分重建領(lǐng)域取得重大突破。例如,Tian等人(2020)提出的TDAN(temporally-deformable alignment network)首次將DCNs應(yīng)用到視頻超分領(lǐng)域。TDAN網(wǎng)絡(luò)無需計算光流,能夠在特征層面自適應(yīng)地對齊相鄰幀。

      傳統(tǒng)的VSR算法通過考慮相鄰LR幀之間的亞像素運動,將多個LR幀作為輸入得到HR幀。Liu和Sun(2014)引入了貝葉斯方法,在重建原始的高分辨率幀的同時,估計底層運動、模糊核和噪聲。Farsiu等人(2004)提出了一種基于雙邊先驗知識來處理不同的數(shù)據(jù)和噪聲模型。但是,由于這些方法是將輸入的視頻幀當(dāng)做單幅圖像進行重建,并沒有考慮幀與幀之間的時序關(guān)系,極有可能無法處理連續(xù)幀??紤]到VSR的特性,對LR參考幀和相鄰LR幀之間的時序關(guān)系進行建模對于提高重建性能至關(guān)重要。Tao等人(2017)提出了亞像素運動補償(sub-pixel motion compensation,SPMC)層,并分析了該層在視頻超分中的實用性,通過有效融合SPMC層與多幀信息來重建圖像細節(jié)。Haris等人(2019)用反向投影網(wǎng)絡(luò)(recurrent back-projection network,RBPN)從連續(xù)視頻幀中整合時空上下文信息來精準(zhǔn)對齊LR參考幀和相鄰的LR幀。Wang等人(2019a)設(shè)計了一個帶有可變形卷積的視頻恢復(fù)框架(video restoration framework with enhanced deformable convolutions,EDVR),在特征級別上自適應(yīng)地對齊參考幀和每個相鄰幀,設(shè)計一個金字塔、級聯(lián)和可變形(pyramid, cascading and deformable,PCD)對齊模塊處理大尺度運動。以上方法盡管在重建性能方面獲得大幅提升,但是還存在一些難題有待解決,其中,最主要的問題是特征對齊操作沒有考慮幀間的長距離信息。若只采用擴大感受野的方式來獲取長距離信息會導(dǎo)致GPU顯存占用率高、網(wǎng)絡(luò)模型過大的問題。如何設(shè)計一個參數(shù)量少的網(wǎng)絡(luò)來捕獲長距離信息成為一個亟待解決的問題。

      為了解決上述問題,本文提出了一種基于輕量級注意力約束對齊網(wǎng)絡(luò)的VSR方法,可在一定的先驗條件約束下執(zhí)行幀與幀之間的特征級別對齊操作,從而捕獲長距離信息、減少計算力,且準(zhǔn)確重建HR幀。具體地,受自注意力機制(Vaswani等,2017;Wang等,2018a)啟發(fā),本文網(wǎng)絡(luò)將極軸約束與注意力機制結(jié)合,開發(fā)出一種輕量級注意力機制用來探索全局對應(yīng)關(guān)系。對于參考幀中的每個像素,輕量級注意力機制會關(guān)注沿極軸方向的所有差異信息,并且學(xué)會聚焦于最相似的特征。實驗結(jié)果表明,這種輕量級的注意力約束對齊網(wǎng)絡(luò)的模型參數(shù)遠小于對比方法,并在多個數(shù)據(jù)集上取得了優(yōu)異性能。

      本文的主要貢獻總結(jié)如下:

      1)提出一種輕量級注意力約束對齊網(wǎng)絡(luò),用于探索相鄰幀與參考幀之間沿極軸方向的全局對應(yīng)關(guān)系;

      2)設(shè)計了一個多階段的動態(tài)融合網(wǎng)絡(luò),用來融合前向神經(jīng)網(wǎng)絡(luò)中參考幀的時域?qū)R特征和原始LR幀在不同階段的空間特征;

      3)通過共享特征抽取層有效提取多層次信息,且在不增加參數(shù)量的情況下捕獲視頻幀中的多尺度信息;

      4)本文算法在多個標(biāo)準(zhǔn)數(shù)據(jù)集上達到領(lǐng)先水平,并在相同的峰值信噪比(peak signal to noise ratio, PSNR)指標(biāo)下,本文模型參數(shù)遠小于對比方法。

      1 注意力約束對齊網(wǎng)絡(luò)

      圖1 本文網(wǎng)絡(luò)結(jié)構(gòu)圖

      本文的主要創(chuàng)新點在于所設(shè)計的注意力約束對齊子網(wǎng)絡(luò)(ACAS)與動態(tài)融合分支(DFB)。注意力約束對齊子網(wǎng)絡(luò)(ACAS)能夠在極軸約束的條件下通過探索長距離信息捕獲參考幀與相鄰幀的全局對應(yīng)關(guān)系,而動態(tài)融合分支(DFB)則能夠動態(tài)地對時空特征進行融合。

      1.1 注意力約束對齊子網(wǎng)絡(luò)(ACAS)

      受Wang等人(2019b)提出的視差注意力立體圖像超分網(wǎng)絡(luò)(parallax-attention stereo super resolution network,PASSRnet)和Wang等人(2022)提出的平行注意力機制(parallax-attention mechanism,PAM)的啟發(fā),本文提出了注意力約束塊(attention constraint block,ACB)來捕獲相鄰幀與參考幀之間的全局對應(yīng)關(guān)系,用于生成合理的可變性卷積的偏移量。區(qū)別于self-attention(Vaswani等,2017)機制通過在特征圖的橫縱軸兩個維度上變換來捕獲全局對應(yīng)關(guān)系,本文設(shè)計的注意力約束塊通過極軸約束,只需要用一個維度的計算復(fù)雜度就可以捕獲全局對應(yīng)關(guān)系。

      首先,特征抽取模塊抽取到的特征為

      (1)

      圖2 注意力約束塊(ACB)

      (2)

      (3)

      為了獲取可靠和一致的對應(yīng)關(guān)系,本文引入了一致性來規(guī)范注意力約束對齊子網(wǎng)絡(luò)(ACAS)。給定從一對圖像M、N中提取的特征表示,其中M表示相鄰幀,N表示參考幀,ACB生成兩個注意力圖LM→N和LN→M。理想情況下,如果ACB捕獲了準(zhǔn)確的對應(yīng)關(guān)系,則可以得到以下一致性

      M=LN→M?N

      N=LM→N?M

      (4)

      式中,?表示矩陣乘,LN(M)→M(N)表示N(M)→M(N)的注意力圖。另外,由于視頻中不可避免地會出現(xiàn)遮擋現(xiàn)象,損害了一致性。為此,本文基于LM→N進行遮擋檢測,生成有效掩碼VN,并且只對有效區(qū)域進行一致性正則化。在圖2中,通常在注意力圖中(如LN→M)為與遮擋區(qū)域相對應(yīng)的垂直遮擋區(qū)域分配較小的權(quán)重。這是因為參考幀中的被遮擋像素與相鄰幀的對應(yīng)關(guān)系很少,因此,有效掩碼VN∈RH×W×1計算公式為

      (5)

      式中,τ為閾值(本文設(shè)置為0.2)。

      傳統(tǒng)的注意力塊(Wang等,2018a)通過對H和W兩個維度的變換來探索全局對應(yīng)關(guān)系,不僅帶來了巨大的參數(shù)量,而且GPU占用率高,不易訓(xùn)練。本文將極軸約束與注意力塊相結(jié)合捕獲極軸上的全局匹配關(guān)系,表4中的實驗結(jié)果證明本文提出的極軸約束的注意力塊能夠帶來很好的增益。而且它還大大降低了模型訓(xùn)練時的GPU內(nèi)存占用,網(wǎng)絡(luò)模型訓(xùn)練速度得到提升,最重要的是本文所設(shè)計的極軸約束對齊網(wǎng)絡(luò)的參數(shù)量也比傳統(tǒng)的注意力機制少。

      1.2 動態(tài)融合分支(DFB)

      簡單的融合只發(fā)生在初始層,隨著網(wǎng)絡(luò)層數(shù)增加,來自相鄰幀的互補時間信息將逐漸減弱(Kappeler等,2016;Liao等,2015)。受多階段融合策略的啟發(fā)(沈明玉 等,2019),本文提出一種動態(tài)融合方法解決上述問題,如圖1底部分支所示。本文采用Song等人(2021)提出的調(diào)制特征融合模塊中的一個子塊拼接組成動態(tài)融合分支,并且參考Wang等人(2018b)提出的SFTGAN(generative adversarial networks based on spatial feature transformation)網(wǎng)絡(luò)確定本文的動態(tài)融合分支由16個共享權(quán)重的動態(tài)融合塊組成。每個動態(tài)融合塊如圖1中淡橙色區(qū)域所示。它將式(3)中的時間對齊特征ψ作為共享條件來調(diào)制其輸入?yún)⒖紟奶卣饔成銯t??臻g特征變換層(spatial feature transform,SFT)(Wang等,2018b;Song等,2021)結(jié)構(gòu)見圖1,SFT仿射變換為

      fSFT(Ft|ψ)=γ⊙Ft+β

      (6)

      (7)

      式中,fDFB(·)表示動態(tài)融合操作。

      2 實驗設(shè)置和結(jié)果分析

      2.1 實驗設(shè)置

      2.2 結(jié)果分析

      本文網(wǎng)絡(luò)與Bicubic、RCAN(residual channel attention networks)(Zhang等,2018)和DBPN(deep back-projection networks)(Haris等,2018)、光流殘差(吳昊 等,2021)、VESPCN(real-time video super-resolution with spatio-temporal networks and motion compensation)(Caballero等,2017)、B_123+T(Liu等,2017)、SPMC(subpixel motion compensation networks)(Tao等,2017)、TOFlow(task-oriented flow networks)(Xue等,2019)、FRVSR(frame-recurrent video super-resolution)(Sajjadi等,2018)、DUF(Jo等,2018)、深度特征匹配(程松盛和潘金山,2021)、RBPN(Haris 等,2019)、EDVR(Wang等,2022)進行比較。

      表1顯示了不同方法在4倍Vid4驗證集的定量比較,包括PSNR和結(jié)構(gòu)相似性(structural similarity, SSIM)(Wang等,2004)結(jié)果。Vid4是一個廣泛使用的基準(zhǔn)數(shù)據(jù)集,它包含4個視頻序列:Calendar、City、Foliage和Walk,這些視頻序列中包含有限的運動且高分辨率幀中存在偽影。由表1可以看出,本文網(wǎng)絡(luò)的PSNR比EDVR_M方法高0.33 dB以上,約提升1.2%,且可以媲美RBPN網(wǎng)絡(luò)。表2為REDS4數(shù)據(jù)集上所有方法的比較結(jié)果。REDS4是在NTIRE19挑戰(zhàn)賽上發(fā)布的新的高質(zhì)量數(shù)據(jù)集,由4個視頻組成,分別為000、011、015、020,這些視頻中包含更大更復(fù)雜的運動。由表2可以看出,本文方法獲得最高的PSNR且比EDVR_M高出0.49 dB,約提升1.6%,PSNR和SSIM均與RBPN相當(dāng),更重要的是表3中顯示的本文網(wǎng)絡(luò)參數(shù)量遠遠小于RBPN。上述分析有力地證明本文方法可以通過探索長距離信息來捕獲多幀之間的冗余特征,從而靈活地解決各種運動問題。

      表1 不同方法在4倍Vid4驗證集上的定量比較(PSNR/SSIM)

      表2 不同方法在4倍REDS4測試集的評估結(jié)果(PSNR/SSIM)

      圖3(a)演示了Vid4數(shù)據(jù)集中兩個場景的可視化結(jié)果。從放大區(qū)域可以看出,本文網(wǎng)絡(luò)重建出更精細、更可靠的細節(jié)。在Calendar視頻的幀示例中,恢復(fù)出最清晰的數(shù)字31。在City視頻的幀示例中,本文方法與RBPN均能對密集的大樓紋理外觀進行重建。圖3(b)展示了REDS4數(shù)據(jù)集上的可視化結(jié)果,可以看出本文方法能夠較清晰地區(qū)分出窗戶部分的細節(jié),RBPN雖然也能較為清晰地重建出這些細節(jié)特征,但其網(wǎng)絡(luò)結(jié)構(gòu)較本文網(wǎng)絡(luò)而言更為復(fù)雜。由表3可知,本文網(wǎng)絡(luò)參數(shù)量僅為其二分之一。以上分析充分證明本文框架能夠在大大減少計算量的情況下大幅提升視覺質(zhì)量。

      圖3 可視化結(jié)果

      2.3 模型大小的比較

      表3顯示了本文方法與DBPN、RCAN、EDVR_M、DUF、RBPN的參數(shù)對比情況。DBPN和RCAN是目前兩種最好的SISR方法,但它們都有較大的模型尺寸,參數(shù)量達1 000多萬。表3表明RBPN參數(shù)量在VSR方法中是最多的。結(jié)合表2中的平均值來看,在PSNR值相當(dāng)?shù)那闆r下,模型Ours的參數(shù)量比RBPN少了近50%。在參數(shù)量相當(dāng)?shù)那闆r下,模型Ours的PSNR值遠遠高于DUF。而模型Ours_S的參數(shù)量雖然略高于EDVR_M,但是PSNR提高了0.21 dB(見表1)。這證明本文網(wǎng)絡(luò)在參數(shù)量小的情況下取得了優(yōu)異的性能,實現(xiàn)了輕量級的網(wǎng)絡(luò)設(shè)計。

      表3 不同方法的模型參數(shù)比較

      2.4 消融實驗

      本文對注意力約束對齊模塊和動態(tài)融合模塊進行驗證。消融實驗結(jié)果在Vid4數(shù)據(jù)集上測得。首先,將ACB移除并替換為簡單的卷積操作,稱之為Baseline。表4表明在Baseline獲得最低的PSNR值,在Baseline中加入一層ACB,模型ACB-1的PSNR指標(biāo)提高到23.92 dB,增益為1.81 dB。而將ACB級聯(lián)3層加入Baseline中,模型ACB-3的PSNR指標(biāo)達到25.13 dB,比ACB-1提高了1.21 dB。這解釋了3層注意力約束對齊模塊能夠很好地捕獲大運動,即能夠比ACB-1更好地捕獲遠距離對應(yīng)關(guān)系。另外,為了驗證動態(tài)融合模塊的有效性,在ACB-3模型后面接入16層動態(tài)融合塊,模型DF的PSNR指標(biāo)達到26.28 dB,增益為1.35 dB,這證明在特征融合過程的每個階段逐步增強參考幀的特征,可以實現(xiàn)更準(zhǔn)確的重建結(jié)果。

      表4 消融實驗

      3 結(jié) 論

      本文提出了一種輕量級注意力約束對齊網(wǎng)絡(luò)的視頻超分重建算法,在大量減少模型參數(shù)量的同時又能高效且準(zhǔn)確地進行超分重建,文中對比實驗證明了其有效性和優(yōu)越性。本文的創(chuàng)新點總結(jié)如下:1)通過一個共享權(quán)重的特征提取器提取輸入幀中豐富的多層次信息。2)在極軸約束的前提條件下,設(shè)計一個輕量的注意力對齊塊使網(wǎng)絡(luò)能夠關(guān)注特征圖水平軸上所有特征中最相似的特征,實現(xiàn)精準(zhǔn)對齊。針對存在大運動的視頻,設(shè)計一個級聯(lián)3層注意力約束塊的網(wǎng)絡(luò)捕獲遠距離信息以生成規(guī)范的偏移量,將其與相鄰幀送入可變形卷積中實現(xiàn)精準(zhǔn)對齊。3)用16層共享權(quán)重的動態(tài)融合塊組成的動態(tài)融合分支充分融合相鄰幀的時間對齊特征和原始LR幀在不同階段的空間特征。最后上采樣重建出高分辨率視頻幀。實驗表明,本文方法在兩個基準(zhǔn)測試數(shù)據(jù)集上超過了先進的視頻超分算法,能夠提升視頻幀的超分辨率細節(jié)特征,并且大大減少了參數(shù)量。

      然而,由于現(xiàn)有的視頻超分算法的數(shù)據(jù)集有限,大部分模型旨在找到現(xiàn)有數(shù)據(jù)集的特性以此獲得較好的結(jié)果,而在真實場景中往往存在多種不確定情況,比如未知的噪聲、模糊等,如何應(yīng)對這些未知情況關(guān)乎著超分算法能否落地,因此本文將進一步研究真實場景的超分,針對真實情況中的模糊噪聲疊加的問題設(shè)計解決方案,繼續(xù)改善算法性能。

      猜你喜歡
      極軸約束注意力
      讓注意力“飛”回來
      “碳中和”約束下的路徑選擇
      約束離散KP方程族的完全Virasoro對稱
      “揚眼”APP:讓注意力“變現(xiàn)”
      傳媒評論(2017年3期)2017-06-13 09:18:10
      A Beautiful Way Of Looking At Things
      適當(dāng)放手能讓孩子更好地自我約束
      人生十六七(2015年6期)2015-02-28 13:08:38
      軍事文摘·科學(xué)少年(2015年2期)2015-01-26 14:43:32
      深空天體攝影的硬件操作技巧
      —— 對極軸(下)
      天文愛好者(2014年1期)2014-10-11 00:42:20
      不等式約束下AXA*=B的Hermite最小二乘解
      赤道式天文望遠鏡極軸調(diào)整分析及觀測結(jié)果
      县级市| 兴和县| 白山市| 石家庄市| 陈巴尔虎旗| 兴和县| 和田市| 大竹县| 阳信县| 济宁市| 林芝县| 鄢陵县| 新巴尔虎左旗| 察哈| 宁明县| 大英县| 金溪县| 涞水县| 石渠县| 利川市| 乌兰察布市| 寻甸| 焦作市| 宜兰县| 龙游县| 麻阳| 太仓市| 双牌县| 水富县| 宁强县| 兰州市| 托克逊县| 土默特左旗| 桐乡市| 新田县| 咸阳市| 临江市| 洪洞县| 吴江市| 五大连池市| 班玛县|