胡 銳,趙佰亭,賈曉芬
(安徽理工大學 電氣與信息工程學院,安徽 淮南232001)
單幅圖像的超分辨率重建,是一種從低分辨率圖像恢復出高分辨率圖像的技術。目前高分辨率圖像廣泛應用在遙感測繪、醫(yī)學圖像、視頻監(jiān)控和圖像生成等領域中[1-3]。受當前技術發(fā)展限制以及成本考慮,利用軟件處理方法來獲得更高分辨率圖像,已經(jīng)成為圖像處理領域研究的熱點。
對于傳統(tǒng)的插值[4]和重建[5]方法,通常存在著重建效果差,邊緣模糊等問題。隨著科技的發(fā)展,人們開始將目光放在深度學習技術上。DONG等[6]首次將深度學習引入到圖像重建領域中,提出一種卷積神經(jīng)網(wǎng)絡的方法(super-resol ution convol utional neural net wor k,SRCNN),通過構(gòu)建3個卷積層實現(xiàn)圖像重建。SHI等[7]提出一種亞像素卷積的方法(efficient sub-pixel convol utional neural net wor k,ESPCN),不需要對低分辨率圖像預處理,直接作為網(wǎng)絡的輸入進行特征提取,在最后一層對特征圖進行排列實現(xiàn)上采樣操作,減少低分辨率圖像上下文信息的破壞,使得特征信息盡可能的得以保留。對于卷積網(wǎng)絡來說,越深的網(wǎng)絡,其處理能力也就越好,而在圖像處理中,深度網(wǎng)絡也能夠更充分提取圖像中特征信息,使得處理效果得到提升,但是在運用中發(fā)現(xiàn),網(wǎng)絡層數(shù)增加會導致梯度彌散問題。KI M等[8]結(jié)合殘差網(wǎng)絡[9],提出一種深度卷積網(wǎng)絡的方法(ver y deep net wor k f or super-resol ution,VDSR),通過特征圖的累加來解決這一問題。ZHANG等[10]提出了一種殘差密集連接網(wǎng)絡的方法(residual dense net wor k,RDN),通過多個殘差密集塊的相互連接融合,能夠更有效的提取特征信息,提高重建質(zhì)量。ZHAO等[11]構(gòu)建了一種級聯(lián)通道分割網(wǎng)絡的方法(channel splitting net wor k,CSN),將特征信息在子網(wǎng)絡中分散處理,來減輕深度網(wǎng)絡的學習負擔,提高訓練效果。當前,在圖像重建領域,基于學習的方法成為了研究的重點。
以上方法取得了一定的重建效果,但是均存在著感受野小、收斂速度慢以及信息丟失等問題,且所有的網(wǎng)絡結(jié)構(gòu)均是通過單一尺度的卷積核來提取特征信息,這里提出了一種雙路多尺度殘差網(wǎng)絡(binar y channels multi-scale residual net wor k,BMRN)的圖像超分辨率重建方法。將低分辨率圖像直接作為網(wǎng)絡的輸入進行特征提取,減少網(wǎng)絡參數(shù)量,降低訓練難度,采用雙路并行的多尺度殘差卷積子網(wǎng)絡對底層特征進行提取,得到高頻信息,通過將亞像素卷積對特征圖進行排列,最終得到重建圖像,實現(xiàn)圖像的超分辨率重建。
在理論上,神經(jīng)網(wǎng)絡的深度越深,所能夠提取的信息也就越充分,對于后續(xù)的處理也就越有利。但是在實際中發(fā)現(xiàn),簡單增加網(wǎng)絡深度,會導致網(wǎng)絡出現(xiàn)梯度彌散問題。雖然正則化層能夠避免這一問題,但是又會導致網(wǎng)絡退化問題出現(xiàn)。為此,HE等[9]提出了殘差網(wǎng)絡,用來維持網(wǎng)絡穩(wěn)定,增強信息的有效提取。公式為
式(1)中:?X1為殘差輸入,?X2為殘差輸出,W1為權(quán)值,b1為偏置量表示殘差過程學習映射。其結(jié)構(gòu)如圖1所示。
圖1 殘差結(jié)構(gòu)圖Fig.1 Residual str uct ure
對于圖像的超分辨率重建來說,通過對LR圖像中的細節(jié)特征提取利用,構(gòu)建由LR圖像到HR圖像之間端對端的關系映射,最終實現(xiàn)高分辨率圖像的重建。通常圖像重建的效果與卷積核大小及網(wǎng)絡深度有關,而對于每個圖像特征都有著自己最佳的卷積尺度,在這種尺度上,圖像的特征是最明顯的。這里提出一種雙路多尺度殘差網(wǎng)絡的單幅圖像超分辨率重建方法。網(wǎng)絡包含3個部分:特征提取、非線性映射和上采樣與重建。網(wǎng)絡中的特征提取部分是用于提取輸入LR圖像底層特征,非線性映射部分用于學習高頻特征,最后的上采樣與重建部分實現(xiàn)最終的重建。整個網(wǎng)絡的結(jié)構(gòu)如圖2所示。
圖2 雙路多尺度殘差卷積網(wǎng)絡結(jié)構(gòu)Fig.2 Str ucture of binar y channels multiscale residual net wor k
為了更充分的提取低分辨率圖像中的特征信息,這里采用兩個串聯(lián)的卷積層,卷積核的尺寸大小均為3×3。相較于大尺度卷積來說,利用兩個串聯(lián)的小尺度卷積,能夠降低訓練難度,獲得更多的特征參數(shù),便于后續(xù)的重建操作。
式(2)中X為輸入的低分辨率圖像,H3×3(·)是用3×3像素卷積核處理的關系映射,則F1=H3×3(F0)。
TANG等[12]和ZHAO等[11]通過構(gòu)建獨立子網(wǎng)絡來增強網(wǎng)絡性能。如圖3所示,在非線性映射階段,通過雙路并行的串聯(lián)MRN子網(wǎng)絡構(gòu)成,上下兩支路之間彼此對稱相似,為了避免單一尺度多導致的特征提取不充分的弊端,這里對兩條支路分別采取尺寸大小為3×3像素和5×5像素的卷積核來實現(xiàn)。后續(xù)通過融合操作將兩支路特征數(shù)據(jù)融合,利用1×1卷積層降維,并將網(wǎng)絡的輸入?yún)?shù)引入,建立起殘差模塊,避免數(shù)據(jù)膨脹和網(wǎng)絡衰退。
假設整個非線性映射網(wǎng)絡被表示為N M(·),則該模塊的輸出為N M(X0)。這里以上支路為例,假設在上支路中有n個MRN1,并且X0=F1是第1個的輸入,那么第i個MRN1輸出有
其中(·)對應著上支路中第i個MRN1的過程。因此,對于最后輸出的MRN1值有
對于下支路MRN2同理。
圖3 MRN1獨立子網(wǎng)絡結(jié)構(gòu)Fig.3 MRN1 independent net wor k str uct ure
圖3為上支路MRN1獨立子網(wǎng)絡結(jié)構(gòu),其中每條支路包含j個串聯(lián)的殘差結(jié)構(gòu)(j=1,2,…,m)。從上一個MRN1模塊的輸出作為第i個MRN1中第1階段的輸入。這里設為第i個MRN1中第j階段映射的輸入,其中的i=0,1,2,…,n和j=0,1,2,…,m,則第1階段的輸入為。對于MRN1中單個殘差結(jié)構(gòu)的運算則有
公式(5)中max(,)為激活函數(shù)運算,[…]表示“concat”連接。
在MRN1結(jié)構(gòu)中,最終生成的特征映射會通過一層卷積結(jié)構(gòu),然后將局部殘差學習(Local Residual Lear ning,LRL)引入,達到改善信息流的作用。表達式有
公式(6)中,H1×1(·)是在MRN1結(jié)束部分的1×1卷積運算,用來改變數(shù)據(jù)維度,殘差特征來自MRN1模塊的輸入,不受其它特征的影響。下支路MRN2同理。
為了獲得重建圖像,還需要進行上采樣重建操作。分別將非線性映射部分中上下支路每個獨立子網(wǎng)絡的輸出結(jié)果全部連接成一個張量,得到特征數(shù)據(jù)和,然后疊加融合得到X M,最終將輸入到上采樣重建階段進行重建操作。其中的X M有
這一部分利用亞像素卷積實現(xiàn)上采樣操作,對于非線性映射模塊的輸出X M,先后通過1×1和3×3的卷積來處理,降低參數(shù)量,便于計算。后續(xù)將特征提取階段的F1引入,構(gòu)建全局殘差模塊穩(wěn)定模型,最終得到待恢復的融合特征數(shù)據(jù)X R。
為了得到最終的重建圖像,需要對所獲得的特征數(shù)據(jù)X R進行亞像素卷積上采樣,實現(xiàn)圖像尺寸的提升,然后經(jīng)過3×3卷積處理,調(diào)整參數(shù)量,最終獲得重建的高分辨率圖像Y。公式有
其中P S(·)為對應的亞像素卷積上采樣函數(shù),為待重建圖像。
實驗采用的硬件平臺中CPU為Intel(R)Core(T M)i7-7700,GPU為NVIDIA GTX 1060,實驗環(huán)境為pyt hon 3.7,深度學習框架為Tensor Flow 1.10。采用了在SRCNN中所使用91張圖片作為訓練數(shù)據(jù)集,為了達到更好的重建效果,還使用了BSD訓練集中的200張圖片,共291張圖片作為訓練數(shù)據(jù)集。為了避免過擬合,使用旋轉(zhuǎn)、翻轉(zhuǎn)的方法,使得訓練集擴充4倍[13]。為了較為準確的評判模型的優(yōu)劣,這里采用當前主流的Set5、Set14、BSD100和Ur ban100作為測試集來分析研究[14]。
在網(wǎng)絡訓練過程中,首先對訓練集圖片進行預處理,裁剪為若干個原始高清圖像塊,其中步長16,分辨率為32×32。接著隨機選取64個作為一個bat h,進行插值下采樣來縮放3倍,然后輸入到網(wǎng)絡中訓練。為了加快訓練速度,減少訓練復雜度,將獨立子網(wǎng)絡的數(shù)目設置為5個,每個子網(wǎng)絡中的殘差單元數(shù)目設置為3個,卷積層設置為64通道。
網(wǎng)絡模型是基于LR圖像到HR圖像之間的關系映射決定的,通過使得重建圖像與高清圖像之間損失最小化實現(xiàn)模型的建立。這里使用l1損失來進行模型的訓練。
其中:Θ為整個模型訓練集,Pbmrn(·)為網(wǎng)絡的映射函數(shù),x(i)為輸入LR圖像,y(i)為對應HR圖像。
3.2.1 實驗評價標準
對于重建圖像的客觀評價,當前常用峰值信噪比(peak signal to noise ratio,PSNR)[15]和結(jié)構(gòu)相似性(str uctural si milarity,SSI M)[16]來判定。
在這一部分,提出了一個訪問控制機制,對用戶發(fā)布到在線社交應用上的消息進行處理。隱私策略和請求訪問消息的用戶等級由消息發(fā)布者自己定義。用戶對自己社交應用中好友的分類類似于基于角色訪問控制中角色的分類,不同類型的好友對發(fā)布的消息有不同的訪問權(quán)限。
PSNR是用來描述隨機噪聲對重建圖像所造成的失真情況。計算公式為
其中,L為最大的灰度等級;VMSE為均方誤差。計算得出的VPSNR值越大,表示重建后圖像的質(zhì)量越高。
SSI M是用來衡量兩幅圖像之間的結(jié)構(gòu)相似度,從對比度、結(jié)構(gòu)特征和亮度上對圖像的質(zhì)量進行考慮。計算公式為
其中μx和μy分別為x和y的平均值,而σx和σy分別為x和y的方差,σxy為x和y的協(xié)方差。計算得出的SSI M值越大,表明圖像越相似,重建的效果就越好。
3.2.2 實驗結(jié)果對比與分析
為了驗證BMRN方法的優(yōu)勢,這里將BMRN與Bicubic[4]、SRCNN[6]和VDSR[8]方法進行重建效果的比較。
表1為各方法在Set5數(shù)據(jù)集中進行單幅圖像重建測試的PSNR值,表2為各方法在Set5、Set14、BSD100和Ur ban100共4個測試集上進行的3種放大倍數(shù)的平均PSNR和SSI M值,表中優(yōu)者均用黑體表示。從表1中可以發(fā)現(xiàn),針對Set5測試集的5幅圖像重建比較,相較于Bicubic、SRCNN和VDSR方法,BMRN方法的PSNR數(shù)值表現(xiàn)均為最高,平均值分別提高了4.05、1.05和0.18 d B;從表2中可以發(fā)現(xiàn),BMRN在不同數(shù)據(jù)集的重建測試中,多數(shù)獲得了最高的PSNR和SSI M測試結(jié)果,VDSR為次優(yōu)結(jié)果。在×2、×3和×4三個尺度下,BMRN的PSNR值分別比VDSR提高了0.11、0.02和0.07 d B。與數(shù)據(jù)集Set5、Ur ban100和BSD100相比,BMRN在數(shù)據(jù)集Set14上獲得了最高的PSNR增加。比如,在×2尺度下,BMRN的PSNR值分別比Bicubic、SRCNN和VDSR提高了3.09、0.88和0.30 d B。綜上,在客觀評價指標中,BMRN方法表現(xiàn)最好。
表1 不同重建方法在Set5測試集上重建效果的PSNR(d B)對比Table 1 PSNR(d B)co mparison of different reconstruction methods on set5 test set
表2 不同重建方法在4個測試集上的PSNR(d B)/SSI M比較Table 2 Co mparison of PSNR(DB)/SSI M of different reconstr uction met hods on f our test sets
為了更加直觀的比較BMRN方法的優(yōu)勢,這里將BMRN與Bicubic、SRCNN和VDSR方法進行主觀視覺效果的比較。在Set5、Set14、BSD100和Urban100測試集中共選出4幅圖像作為測試圖像,分別輸入到各方法模型中來實現(xiàn)×3尺度下的重建操作,最終的重建效果如圖4所示。
從圖4中可以看出,相較于其它方法,BMRN重建的圖像在PSNR和SSI M評測指標上均為最高,從重建圖像的細節(jié)上看,BMRN和VDSR方法相較于Bicubic和SRCNN方法來說,得到的圖像更為清晰,邊緣細節(jié)以及輪廓特征更為明顯,但是BMRN方法的視覺效果最好,銳度得到了一定的增強。綜上,在主觀評價比較中,BMRN方法表現(xiàn)的最好。
圖4 BMRN方法與其它方法的重建效果對比Fig.4 Co mparison of reconstr uction effect bet ween BMRN met hod and other met hods
由于SRCNN卷積層數(shù)較少,并不能有效提取圖像中的特征信息,而VDSR雖然增加網(wǎng)絡的深度,但是僅利用單一尺度卷積來處理,對圖像中的高頻信息提取能力較差。本研究所設計的BMRN采用不同尺度的分支結(jié)構(gòu),更有效的提取圖像中的細節(jié)特征,并且利用密集殘差連接來保證信息的有效性,能夠在增加網(wǎng)絡深度的同時穩(wěn)定模型梯度,避免信息丟失,較大程度的保留特征信息,最終使得重建圖像獲得較好的質(zhì)量效果。從以上實驗中可以得出,BMRN方法所重建的圖像,在客觀評價指標以及主觀視覺效果上均優(yōu)于Bicubic、SRCNN和VDSR方法。
這里提出一種雙路多尺度殘差網(wǎng)絡(BMRN)的圖像超分辨率重建算法。該方法主要是由多個獨立子網(wǎng)絡構(gòu)成的雙路并行特征提取模塊來實現(xiàn),兩支路彼此相似,采用不同尺度卷積核來互補單一尺度帶來的信息提取不充分問題,通過殘差連接實現(xiàn)網(wǎng)絡的穩(wěn)定,避免梯度彌散現(xiàn)象,最后利用亞像素卷積模塊來實現(xiàn)圖像的上采樣操作,最大程度的保留原始低分辨率圖像的特征信息。在對不同數(shù)據(jù)集進行不同比例倍數(shù)的重建測試中,BMRN方法的平均PSNR和SSI M值比傳統(tǒng)Bicubic、SRCNN和VDSR方法有所提升,重建所得到的圖像在主觀評價指標上也有著明顯優(yōu)勢。實驗結(jié)果表明:BMRN方法能夠?qū)崿F(xiàn)單幅圖像的超分辨率重建,較好的恢復出圖像輪廓特征和細節(jié)信息,具有一定的應用價值。