陳勛豪,楊 瑩,黃俊茹,孫玉寶
(南京信息工程大學(xué)江蘇省大數(shù)據(jù)分析技術(shù)重點實驗室,江蘇 南京 210044)
視頻快照壓縮成像系統(tǒng)(Video Snapshot Compressive Imaging, VSCI)是一種高效的視頻成像方法[1],依據(jù)壓縮感知理論[2-5],在一次曝光時間過程中,將視頻中的多幀畫面投影至單個二維快照測量中,進而實現(xiàn)高速成像。VSCI系統(tǒng)在采樣資源受限以及高速成像等領(lǐng)域中具有重要的應(yīng)用前景[6-10]。如圖1所示,VSCI系統(tǒng)對于幀序列的調(diào)制頻率高于探測器的捕獲頻率,實現(xiàn)了壓縮測量。在重建階段,運用重建算法從探測器中捕獲的單一測量中可以恢復(fù)出若干高速幀。
圖1 視頻壓縮成像方式示意圖
VSCI系統(tǒng)依據(jù)壓縮感知理論,設(shè)計有自身的測量方式,即編碼孔徑壓縮時空成像(CACTI)[8]。CACTI系統(tǒng)的視頻測量過程在邏輯上主要分為編碼和集成2個階段。在編碼階段,首先對原始的視頻信號進行編碼孔徑模式調(diào)制。編碼孔徑是一個隨機二進制掩碼,其中掩碼為0時表示讓入射光通過,掩碼為1時則阻擋入射光的進入。在曝光時間內(nèi),二進制掩碼隨著時間的變化進行線性移位,因此視頻流中的每一幀都會被移動的編碼孔徑所調(diào)制。在集成階段,經(jīng)調(diào)制后的視頻幀到達探測器,最終得到單幀的測量圖像,即快照測量。
CACTI系統(tǒng)的測量過程在數(shù)學(xué)上可以表示為一個離散的線性系統(tǒng)。將X∈RNx×Ny×Nt視為一個離散的時空數(shù)據(jù)立方體,Nt、Nx、Ny分別表示時間幀數(shù)和空間維度的分辨率。A∈RNx×Ny×Nt表示編碼通道數(shù)為Nt的編碼矩陣。則探測器最終捕獲的快照測量Y∈RNx×Ny可由式(1)表示:
(1)
式(1)中nij表示空間位置(i,j)處的噪聲,快照測量Yij是Nt個通道中空間位置為(i,j)處被編碼像素的加和,1/Nt在本文中被定為壓縮比。通過將X矢量化為x∈RNx×NyNt×1,快照測量Y矢量化為y∈RNxNy×1,則整個CACTI測量過程可以由式(2)表示:
y=Φx+η
(2)
式(2)中Φ∈RNxNy×NxNyNt表示測量矩陣,η∈RNxNy表示矢量化的噪聲。具體來說,Φ中有Nt個子矩陣,即Φ=[Φ1,Φ2,…,ΦNt],每個子矩陣Φi都是一個對角陣,矢量化的掩碼(A11i,…,ANxNyi)為其對角線元素。根據(jù)式(2)的CACTI測量方程,可通過成像矩陣Φ的轉(zhuǎn)置來獲取原始信號x的近似重建:
x0=ΦTy
(3)
其中,x0可作為深度重建網(wǎng)絡(luò)的初始輸入。
VSCI重建即從二維快照測量中重建原始視頻的過程,其核心在于設(shè)計高效的重建算法。目前成熟的算法大多建立在正則化理論的基礎(chǔ)上,利用原始視頻的先驗結(jié)構(gòu)信息進行重建,通過迭代優(yōu)化后得到最終結(jié)果。依據(jù)上述規(guī)律,GAP-TV[11]采用總變分最小化的思想,并采用廣義交替投影法對問題進行求解。GMM-TP[12]依據(jù)高斯混合模型對時空視頻補丁塊進行稀疏表示,并通過期望最大值算法從訓(xùn)練集中反演出模型中的隱變量。與GMM-TP不同,MMLE-MFA[13]則是從給定的快照測量出發(fā),通過最大似然估計反演出模型中的參數(shù)。然而,由于對總變分以及高斯混合模型獨立分布的嚴格假設(shè),基于正則化理論的模型對于場景復(fù)雜與含有物體運動的視頻,重構(gòu)出的結(jié)果往往難以取得較好效果。并且,由于需要大量的迭代,基于正則化的模型重建視頻需要耗費大量時間,無法達到重建實時性的需求。以上種種弊限制了視頻SCI系統(tǒng)的實際應(yīng)用。
深度學(xué)習(xí)[14]是一個新興的研究領(lǐng)域,它已在多種機器學(xué)習(xí)和計算機視覺任務(wù)(如圖像識別、物體檢測)中表現(xiàn)出極為先進的性能。大量學(xué)者開始將深度學(xué)習(xí)引入到視頻快照壓縮重建領(lǐng)域,以數(shù)據(jù)驅(qū)動的思路學(xué)習(xí)從快照測量到原始視頻的單一映射,如文獻[15]中的作者提出一種基于全連接神經(jīng)網(wǎng)絡(luò)的重建方式,用全連接層學(xué)習(xí)像素間的關(guān)聯(lián)性。視頻信號區(qū)別于一般信號的最大特征是其存在大量的空間、時間相關(guān)性。如何有效地利用時空相關(guān)性是實現(xiàn)高質(zhì)量的視頻快照壓縮感知重建的關(guān)鍵。然而,現(xiàn)有的深度網(wǎng)絡(luò)往往都忽視了這一重要特征,基于此,本文設(shè)計一個多尺度融合重構(gòu)網(wǎng)絡(luò),可有效利用視頻幀間的時空相關(guān)性,從而實現(xiàn)高質(zhì)量且快速的視頻快照壓縮重建。
本文提出的視頻快照壓縮感知重建的多尺度融合重構(gòu)網(wǎng)絡(luò)MSF-Net的結(jié)構(gòu)如圖2所示,MSF-Net共有6層,橫向?qū)?yīng)相同尺度的特征,縱向特征尺度由大到小依次遞減。最高層輸入的特征尺度為1×8×256×256,分別對應(yīng)卷積核通道數(shù)、視頻幀數(shù)以及空間分辨率大小。為了得到小尺度的特征,本文使用卷積核大小為4×4×4、步長為2×2×2的三維卷積對最高層的尺度特征進行下采樣,在下采樣的過程中特征的通道數(shù)變?yōu)樯弦粚拥?倍。當(dāng)進行2次下采樣操作之后,由于視頻時間維度已被壓縮至1維,則使用卷積核大小為1×4×4、步長為1×2×2的三維卷積對視頻特征中的空間維度進行特征提取,此時卷積核通道數(shù)不再發(fā)生變化。重復(fù)以上操作,直至底層視頻特征尺度為128×1×8×8。橫向中尺度大小相同的特征矩陣由偽三維卷積殘差模塊對其進行深度抽象。經(jīng)過特征的深度提取后,縱向相鄰尺度的特征通過上下采樣進行融合,上采樣方式為三維反卷積,融合方式為按特征通道數(shù)進行拼接,即concat操作。網(wǎng)絡(luò)的最后,最底層的特征通過三維反卷積不斷擴大尺度并與相同大小尺度的特征進行融合,直至尺度與輸入網(wǎng)絡(luò)的基礎(chǔ)重建相同。
圖2 MSF-Net網(wǎng)絡(luò)框架圖
三維卷積[16]是二維卷積[17]的擴展,二維卷積僅僅在H、W維度上對特征進行提取,而三維卷積則同時在L、W、H維度上同時提取特征,因此可有效地捕獲這3個維度的相關(guān)性。三維卷積計算公式如下:
(4)
f(x)=max(0.01x,x)
(5)
對于下采樣過后的特征,為了進一步挖掘當(dāng)前尺度下的特征,受ResNet[18]的啟發(fā),本文使用偽三維卷積殘差模塊[19]加深網(wǎng)絡(luò)以避免弱特征的丟失,在不額外引入?yún)?shù)的情況下提取更佳的深層抽象特征。殘差單元的數(shù)學(xué)形式由下式表示:
xt+1=F(xt)+xt
(6)
式(6)中xt與xt+1分別表示第t+1個殘差塊的輸入與輸出,F(xiàn)(xt)則表示非線性映射。本文使用的偽三維卷積殘差模塊如圖3所示。圖3(a)為原始殘差模塊,圖3(b)為前2層中使用的偽三維殘差塊,圖3(c)則在后4層中使用。
圖3 不同殘差模塊對比圖
設(shè)有m個訓(xùn)練樣本對(Xi,Yi),其中Xi表示原始的視頻片段,Yi表示經(jīng)CACTI測量得到的快照測量。本文提出的多尺度融合重構(gòu)網(wǎng)絡(luò)在式(7)定義的損失函數(shù)中進行特征的學(xué)習(xí):
s.t.Si=F(ω,X′i),i=1,…,m
X′i=ΦTYi
(7)
其中,ω表示網(wǎng)絡(luò)模型中待優(yōu)化的參數(shù),Si表示第i個訓(xùn)練樣本的重構(gòu)輸出,X′i表示Yi的基礎(chǔ)重建,F(xiàn)則表示由輸入Yi到預(yù)測Si的反映射,Vec表示矢量化操作??偟膿p失函數(shù)由3項組成,即重建保真、測量保真以及總變分正則化[20]。λ與γ是對這3個項進行加權(quán)的超參數(shù)。重建保真項要求重建后的視頻盡可能地接近原始信號,衡量兩者之間的差異使用L1損失函數(shù)。測量保真項同樣使用L1損失約束重構(gòu)信號的測量與原始信號測量之間差異。總變分正則化項[21]則是對視頻幀內(nèi)平滑度的約束,通過這一正則化可以減少視頻幀內(nèi)的噪點并增強網(wǎng)絡(luò)應(yīng)對噪聲時的魯棒性。
算法的整體流程如算法1所示。訓(xùn)練階段:通過CACTI測量方式獲取訓(xùn)練集視頻的快照測量,然后對快照測量進行基礎(chǔ)重建并將基礎(chǔ)重建送入網(wǎng)絡(luò)進行多次的迭代訓(xùn)練,直至網(wǎng)絡(luò)收斂,保存此時網(wǎng)絡(luò)中的參數(shù)。測試階段:計算測試集中的快照測量的基礎(chǔ)重建,加載已經(jīng)訓(xùn)練好的網(wǎng)絡(luò)參數(shù),將基礎(chǔ)重建輸入網(wǎng)絡(luò),網(wǎng)絡(luò)的輸出即為重建結(jié)果。
算法1 多尺度融合的壓縮快照重建
訓(xùn)練階段:
輸入:學(xué)習(xí)率α,最小批次大小m,最大迭代次數(shù)tmax,正則化參數(shù)λ,γ和測量矩陣Φ
1:初始化網(wǎng)絡(luò)參數(shù)和迭代次數(shù)
2:whilet 3:選取m個訓(xùn)練視頻{X1,…,Xm},計算對應(yīng)的快照測量 Yi=ΦXi+η,i=1,2,…,m 4:計算快照測量Yi的基礎(chǔ)重建X′i,X′i=ΦTYi 5:使用Adam方法更新網(wǎng)絡(luò)中的參數(shù)ω 6:gω←?ω(‖F(xiàn)(ω,X′i)-Xi‖1+λTV(F(ω,X′i))+γ‖(Yi)Vec-Φ(F(ω,X′i)Vec‖1) ωt←ωt-1-α·Adam(ω,gω) 7:增加迭代次數(shù)t=t+1 8:end while 輸出:訓(xùn)練好的網(wǎng)絡(luò)參數(shù)ω 測試階段: 輸入:輸入測試集中的快照測量{Y′1,…,Y′i} 1:計算快照測量Yi的基礎(chǔ)重建X′i,X′i=ΦTYi 2:加載訓(xùn)練好的網(wǎng)絡(luò)參數(shù)ω 3:Si=F(ω,X′i) 輸出:重建視頻Si 為了分析MSF-Net對于快照測量的重建性能以及各模塊的有效性,本文設(shè)計一系列實驗對重建結(jié)果進行定量分析,具體安排如下:3.1節(jié)簡介實驗用的訓(xùn)練集及測試集;3.2節(jié)介紹評價重建質(zhì)量的指標(biāo);3.3節(jié)通過對比實驗討論網(wǎng)絡(luò)參數(shù)對于重建的影響;3.4節(jié)設(shè)計消融實驗對多尺度融合的效果進行探討;3.5節(jié)將MSF-Net的重建結(jié)果與基于傳統(tǒng)迭代的GAP-TV[11]、GMM-TP[12]、MMLE-MFA[13]算法,基于深度學(xué)習(xí)的U-Net[21]、PnP-FFDNet[22]算法的重建結(jié)果進行定量比較;3.6節(jié)展示各算法重建出的結(jié)果;3.7節(jié)對各算法的重建性能進行比較;3.8節(jié)則比較各算法的重建時間。 本文訓(xùn)練用的數(shù)據(jù)集選擇Kinetic-400數(shù)據(jù)集[23],該數(shù)據(jù)集是一個大規(guī)模視頻數(shù)據(jù)集,包含了650000個視頻片段,其內(nèi)容包括400多種人類運動類別,每個片段均截取自不同的Youtube視頻。本文從該數(shù)據(jù)集中隨機選取2000個視頻片段用作訓(xùn)練樣本,被選出的視頻分辨率被調(diào)整至256×256,并統(tǒng)一由彩色視頻轉(zhuǎn)換至灰視頻。用于實驗的測量矩陣來自文獻[24],該測量矩陣中的隨機掩碼是從參數(shù)為0.5的伯努利分布中隨機生成的。 測試集樣本同樣來自文獻[24]所使用的通用測試集。該測試集包含5組視頻,分別被命名為Kobe(32幀)、Aerial(32幀)、Crash(32幀)、Runner(40幀)和Traffic(48幀)。該測試集中壓縮比為1/8,即每8幀對應(yīng)一個壓縮測量幀。 為了評價視頻快照壓縮感知視頻重構(gòu)后的質(zhì)量,本文引入2種評價指標(biāo):PSNR(Peak Signal-to-Noise Ratio)峰值信噪比和SSIM(Structural Similarity)結(jié)構(gòu)相似性。2個指標(biāo)數(shù)值越大,代表重建結(jié)果越好。 如圖2所示,MSF-Net共有6層,相同尺度下卷積核的通道數(shù)相同。前2次下采樣時,卷積核通道數(shù)變?yōu)樵瓉淼?倍。后3次下采樣時,其通道數(shù)不再發(fā)生變化。為了驗證卷積核通道數(shù)對于重建性能的影響,本文設(shè)計了對比實驗進行定量分析。表1與表2分別展示了最高尺度下不同卷積核通道數(shù)對于重建性能的影響。 表1 卷積核通道數(shù)對PSNR性能影響 單位:dB 表2 卷積核通道數(shù)對SSIM性能影響 從表中數(shù)據(jù)不難得出結(jié)論,隨著卷積核通道數(shù)的增加,網(wǎng)絡(luò)的重建性能逐步提升。這是由于卷積核通道數(shù)與特征圖維度直接相關(guān),通道數(shù)過少會導(dǎo)致特征圖維度較低。網(wǎng)絡(luò)難以從低維的特征中學(xué)習(xí)到有用的信息,導(dǎo)致模型擬合能力不足使得最終重建出的視頻質(zhì)量較低。 為了驗證偽三維卷積殘差模塊的使用是否有利于原始視頻的重建,本文通過消融實驗對其有效性進行驗證。 表3與表4分別展示了使用與未使用偽三維殘差模塊對于重建結(jié)構(gòu)的影響。不難看出,使用該模塊的網(wǎng)絡(luò)比未使用該模塊的網(wǎng)絡(luò)PSNR值提高了0.4 dB,SSIM提高了0.01。偽三維卷積殘差塊對不同尺度的特征進行深度挖掘,并保證了在梯度回傳的過程中不會因為下采樣操作而導(dǎo)致梯度彌散,使得網(wǎng)絡(luò)難以訓(xùn)練,最終影響重建結(jié)果。實驗數(shù)據(jù)證明該模塊有利于重構(gòu)原始視頻。 表3 殘差模塊使用與否對PSNR性能影響 單位:dB 表4 殘差模塊使用與否對SSIM性能影響 對于重建任務(wù),大多數(shù)方法都是高分辨率到低分辨率網(wǎng)絡(luò)(high-to-low network),通過下采樣降低分辨率,再通過上采樣提升分辨率,最終獲得高分辨的特征。U-Net[21]、SegNet[25]本質(zhì)上都是這種串聯(lián)結(jié)構(gòu)。然而這種結(jié)構(gòu)對于重建任務(wù)并不是好的選擇,高分辨率自身的特征往往被忽視。本文提出的MSF-Net與上述的串聯(lián)結(jié)構(gòu)不同,多尺度的特征進行并行提取并相互交融,以達到最好的重建效果。為了驗證多尺度并行提取特征的有效性,本文設(shè)計如下對比試驗:使用具有3層不同尺度(2次下采樣)與6層不同尺度(5次下采樣)的網(wǎng)絡(luò)模型對快照測量進行重構(gòu),實驗結(jié)果如表5、表6所示。 表5 不同尺度下網(wǎng)絡(luò)重建結(jié)果PSNR性能比較 單位:dB 表6 不同尺度下網(wǎng)絡(luò)重建結(jié)果SSIM性能比較 從數(shù)據(jù)中可看出擁有5層尺度的網(wǎng)絡(luò)擁有更好的重建性能。卷積網(wǎng)絡(luò)通過逐層抽象的方式對目標(biāo)的特征進行提取,對于高層網(wǎng)絡(luò),卷積的感受野較大,對于語義信息表征能力強,但對于幾何信息表征能力差。底層網(wǎng)絡(luò)的感受野小,幾何細節(jié)表征能力強。通過不斷融合底層提取的細節(jié)特征,網(wǎng)絡(luò)重構(gòu)視頻中細節(jié)的能力也隨之增強。隨著下采樣次數(shù)的增加,細節(jié)特征提取得更充分,使得網(wǎng)絡(luò)性能不斷提升。 為了驗證本文提出模型的先進性,本文將多尺度融合重構(gòu)網(wǎng)絡(luò)與GAP-TV[11]、GMM-TP[12]、MMLE-MFA[13]、U-Net[21]、PnP-FFDNet[22]在上文提及的通用測試集上進行對比。壓縮比統(tǒng)一設(shè)置為1/8。實驗結(jié)果由表7、表8展示。 表7 不同算法重建結(jié)果PSNR性能比較 單位:dB 表8 不同算法重建結(jié)果SSIM性能比較 從表7、表8中可以看出,與傳統(tǒng)基于迭代的算法相比,基于深度學(xué)習(xí)的方法取得了更高的指標(biāo)。雖然U-Net網(wǎng)絡(luò)在PSNR值上略遜于傳統(tǒng)算法,但在SSIM上則處于領(lǐng)先。這是由于傳統(tǒng)算法對于稀疏結(jié)構(gòu)先驗的限制過于嚴格,這種嚴格的稀疏先驗不足以反映真實視頻中的位置關(guān)系,導(dǎo)致了在結(jié)構(gòu)相似性這一指標(biāo)上傳統(tǒng)算法均落后于深度算法。與使用串行連接將多個尺度特征進行級聯(lián)的U-Net相比,使用多尺度并行連接的MSF-Net取得了更好的指標(biāo),這體現(xiàn)出使用多尺度對特征進行提取,并在前饋學(xué)習(xí)中不斷融合特征這一網(wǎng)絡(luò)設(shè)計的優(yōu)勢。 圖4~圖8展示了對于通用測試集各算法重建出的結(jié)果。圖中還展示了部分圖像塊的放大視圖以便直觀地展示各算法對于圖像中細節(jié)、紋理的重建質(zhì)量。對比各圖,GAP-TV的重建圖像可以恢復(fù)出主體的輪廓,但缺乏小尺度的結(jié)構(gòu)與紋理細節(jié)。GMM-TP與MMLE-MFA的重建圖像在物體輪廓處容易產(chǎn)生偽影。這是由于基于高斯混合模型的算法并未充分考慮視頻幀間的時空關(guān)聯(lián)性。PnP-FFDNet采用FFDNet作為深度圖像去噪器,并將其嵌入迭代的優(yōu)化框架中。依靠迭代優(yōu)化,該網(wǎng)絡(luò)平滑了視頻幀內(nèi)的噪聲,使得重建出的圖像更清晰,但這種平滑也導(dǎo)致了圖像紋理、細節(jié)的丟失。U-Net和本文提出的方法重建出的圖像具有較好的細節(jié),但由于深度卷積網(wǎng)絡(luò)學(xué)習(xí)的是像素點之間的單一映射,這導(dǎo)致網(wǎng)絡(luò)中出現(xiàn)了較多噪聲,圖像不夠清晰。 圖4 Aerial重建結(jié)果展示 圖5 Crash重建結(jié)果 圖6 Traffic重建結(jié)果展示 圖7 Runner重建結(jié)果展示 圖8 Kobe重建結(jié)果展示 圖9展示了不同方法重建出的Crash單幀內(nèi)的PSNR與SSIM值。從圖中發(fā)現(xiàn),GMM-TP、MMLE-MFA和GAP-TV算法重建出的視頻序列,存在序列中間位置幀的PSNR值高于序列前端與后端的PSNR值的現(xiàn)象。相比之下,PnP-FFDNet重建出的PSNR曲線與本文提出算法重建出的曲線則相對平坦。除了CACTI成像機制的影響外,對這一現(xiàn)象的直觀解釋便是本文提出的算法與PnP-FFDNet可以更好地表征視頻序列中的時空關(guān)聯(lián)性,保證重建視頻序列的連續(xù)性。 圖9 Crash視頻逐幀圖像的值 時間復(fù)雜度是評估重建算法的一個重要方面。表9顯示了不同算法重建出通用測試集中5個視頻所消耗的平均時間。表中同時還列出了幀速率(fps)。本文提出的算法運行在GPU上,而剩余方法運行在CPU上。除去本文所提出的算法與U-Net外,其余算法均基于迭代優(yōu)化,此類算法的運行時間與每次迭代的復(fù)雜度直接相關(guān)。而本文提出的算法不需要迭代計算,僅需將快照測量輸入到已訓(xùn)練好的網(wǎng)絡(luò)中進行前饋計算。正如表中所展示的,本文提出的算法重建時間只需要3.41 s,重建時的幀速率可達10.94 fps,實現(xiàn)了近乎實時的重建。 表9 不同算法重建時間對比 本文針對視頻快照壓縮成像系統(tǒng)中的信號重構(gòu)問題,提出了一種基于深度學(xué)習(xí)的多尺度融合網(wǎng)絡(luò)(MSF-Net),該網(wǎng)絡(luò)使用三維卷積充分提取視頻信號中時空特征,通過多尺度融合的思想使得視頻所包含的細節(jié)最大化。通過消融實驗,證明了偽三維卷積殘差模塊以及多尺度融合方法的有效性。對比實驗表明本文方法能夠同時提升快照視頻重建質(zhì)量與重建速度。3 實驗結(jié)果與分析
3.1 數(shù)據(jù)集
3.2 評價指標(biāo)
3.3 網(wǎng)絡(luò)參數(shù)對于重建影響
3.4 偽三維卷積殘差模塊有效性實驗
3.5 多尺度有效性實驗
3.6 對比實驗
3.7 重建結(jié)果展示
3.8 重建性能分析
3.9 重建時間分析
4 結(jié)束語