結合非對稱卷積與復合感受野結構的圖像降噪方法

2021-08-24 08:37:20蔡光程

軟件導刊 2021年8期

程龍，蔡光程

（昆明理工大學理學院，云南昆明 650500）

0 引言

圖像是人們獲取信息的主要途徑之一。然而，由于外部環(huán)境的不穩(wěn)定性，在獲取、壓縮與傳輸過程中，圖片難免受到噪聲干擾，從而導致質量降低。含噪圖像給人們帶來糟糕的視覺體驗，不利于計算機分析、理解圖像，給圖像分割、對象識別、基于內(nèi)容的圖像檢索、邊緣提取等后續(xù)圖像處理工作帶來不便。因此，降噪是圖像處理技術中的首要步驟。在空間域上，降噪方法從傳統(tǒng)的維納濾波發(fā)展到全變分模型、非局部均值降噪、馬爾可夫隨機場模型降噪等方法［1-5］；在頻率域上，通過小波變換、離散余弦變換、K-L變換（Karhunen-Loeve Transform）壓縮或賦零噪聲變換域系數(shù)可達到降噪目的。研究者們提出了多種算法，在保留圖像邊緣的同時，取得了較好的降噪效果，其中表現(xiàn)較為突出的是由Dabov 等［6］于2007 年提出的圖像塊匹配3D 濾波方法（Block-Matching and 3D Filtering，BM3D）。其結合了變換域中小波萎縮法與空間域中非局部均值降噪算法的優(yōu)點，充分利用圖像塊之間的自相似性進行圖像復原。BM3D 無論在客觀評價指標峰值信噪比，還是主觀肉眼感受上，均有較為理想的降噪結果。然而，對于高強度噪聲，圖像中可利用的信息非常少，降噪變得比較困難。

目前，卷積神經(jīng)網(wǎng)絡（Convolution Neural Network，CNN）被應用于圖像降噪中。基于CNN 的圖像降噪技術避免了現(xiàn)有降噪模型在測試階段需要復雜優(yōu)化方法以及手動設置參數(shù)的弊端［7］。CNN 由神經(jīng)網(wǎng)絡發(fā)展而來，其特有的稀疏連接與權值共享特性使得網(wǎng)絡所需參數(shù)量劇減，使神經(jīng)網(wǎng)絡方法用于圖像處理成為現(xiàn)實。1987 年，Zhou 等［8］開創(chuàng)性地將神經(jīng)網(wǎng)絡應用于圖像降噪中，但該方法的巨額參數(shù)量使得計算成本較高。1993 年，細胞神經(jīng)網(wǎng)絡使用帶模板的節(jié)點獲得平滑函數(shù)，在降噪計算速度上得到提升，但需要人工設置模板參數(shù)，且不能靈活添加新的插件單元，限制了其實際應用［9］。2016 年，Zhang 等［10］提出前饋降噪卷積神經(jīng)網(wǎng)絡（Feed-forward Denoising Convolutional Neural Networks，DnCNNs），該網(wǎng)絡由VGG16 發(fā)展而來，使原本用于圖像識別與分類的模型適用于圖像降噪工作。該模型吸收了殘差學習思想，建立的網(wǎng)絡并不直接學習含噪圖像到干凈圖像的端到端映射，而是先得到噪聲圖像，繼而通過跳躍連接，從含噪圖像中分離出所需潛在干凈圖像，同時結合批量規(guī)范化操作，在GPU 加速計算下能快速獲得較好降噪效果。

以上研究在尋求一種性能優(yōu)越的降噪算法方面進行了探索。為進一步改善圖像降噪技術，本文在非對稱卷積與多尺度結構［11-12］的啟發(fā)下，進行用于圖像降噪的卷積網(wǎng)絡架構研究。結合二者優(yōu)勢，本文改進了DnCNN 降噪模型，提出一種新型降噪CNN，稱為非對稱復合感受野卷積網(wǎng)絡（Asymmetric Complex Receptive Field Convolution Net?work，ACCNet）。

1 ACCNet 降噪模型

采用加入高斯噪聲的方法進行測試，相比于其他人工噪聲，高斯噪聲下進行的仿真更接近于真實噪聲。加入高斯噪聲的圖像v(x,y)可以表示為：

式中，u(x,y)為未被污染的原始圖像，n(x,y)為所加高斯噪聲。由于受梯度消失、網(wǎng)絡退化與復雜度問題影響，架構設計中的一個重要問題是為模型設置合適的深度。網(wǎng)絡中大多數(shù)卷積核采用文獻［10］中使用的3×3 卷積，在非對稱復合感受野卷積塊（后文用ACCB 表示）中對輸入數(shù)據(jù)做并行處理，各路分別使用64 個64 通道數(shù)的3×3、5×5、7×7、9×9 卷積操作，并采用Relu 激活形成對尺度結構。為減少參數(shù)量并提升模型精度，正方形卷積核使用3×1、5×1、7×1、9×1 與1×9 的非對稱卷積核替代，其中9×1 與1×9 卷積核的串聯(lián)在感受野上等同于4 層3×3的卷積核，因此ACCB 的感受野大小可由2d+1 計算得到。將網(wǎng)絡深度設置為18，得到一個感受野大小為37×37 的網(wǎng)絡。原始輸入跳躍連接到最后一個卷積層作為殘差結構，這種殘差映射出的降噪圖像比直接映射更容易優(yōu)化。

深度學習中的CNN 非常適宜于圖像降噪，網(wǎng)絡層中的卷積核通過數(shù)據(jù)學習到合適的濾波器參數(shù)，激活函數(shù)賦予了模型非線性表達能力。與多層感知器相比，CNN 的稀疏連接與權值共享極大減少了模型訓練參數(shù)量，從而使基于深度學習的圖像處理工作在工程上得以實現(xiàn)［13］。本文在較短時間和較低空間復雜度的要求下，架構結合非對稱卷積與復合感受野結構的圖像降噪網(wǎng)絡。模型第1 層為64個尺度為3 的正方形卷積核，用于初步平滑圖像和擴展特征圖，第2 層為ACCB，第3-14 層每層均為3×3 卷積操作、批量規(guī)范化（Batch Normalization，BN）、修正線性單元（Rec?tified Linear Unit，ReLU）的交替連接，第15 層將特征圖降維到單通道，最后通過跳躍連接從含噪圖像中提取干凈圖像。實驗結果表明，本文模型在標準測試圖像集Set12 中的降噪性能優(yōu)于目前許多優(yōu)秀的降噪方法［5-7，10］。

1.1 ACCB 結構

以往CNN 通常使用尺度為3、5、7 的正方形卷積核，且為了提高模型解容量，卷積層堆疊得越來越多，給計算機帶來了極大負擔。目前，研究者們正在尋找一種不增加額外卷積層而提高網(wǎng)絡性能的方法，例如SENet 通過注意力機制重新標定特征圖通道的權值，從而抑制無用特征，增強對結果有積極影響的特征［14］。如圖1 所示，本文設計的非對稱卷積塊同樣不需要考慮網(wǎng)絡整體結構，直接采用非對稱的n×1 或1×n的卷積核替換其中n×n的正方形卷積核，減少了模型需要訓練的參數(shù)量，并且結合Inception 網(wǎng)絡中的多尺度卷積提取特征，將單一輸入在不同感受野上進行加權與激活，最終堆疊成為通道數(shù)增加的四維張量作為整個結構塊輸出。這樣不僅能提取到圖像局部特征，還能提取到較為整體的特征，并且在參數(shù)學習過程中決定了不同感受野上特征的使用。

Fig.1 Diagram of ACCB structure圖1 ACCB 結構示意圖

1.2 深度神經(jīng)網(wǎng)絡中的兩個問題

深度網(wǎng)絡存在的兩個問題值得注意：一是神經(jīng)元飽和問題，另一個是梯度消失與爆炸問題。

那么，網(wǎng)絡逐層前向傳播用矩陣的形式可表示為：

利用式（4）從輸入層逐層計算網(wǎng)絡激活值。若網(wǎng)絡共有n層，損失函數(shù)為網(wǎng)絡輸出與期望輸出之間的距離，因此損失函數(shù)可表達為網(wǎng)絡輸出的函數(shù)單個數(shù)據(jù)的損失記為Lh(x,y)nj(w,b)，其中w和b分別為所有需要訓練的權值和偏置。n個樣本的整體損失可定義為：

1.2.1 神經(jīng)元飽和問題

將式（7）擴展為矩陣形式，則有：

則該神經(jīng)元誤差將趨近于零，即有：

激活函數(shù)梯度過小，導致神經(jīng)元無法進行有效的參數(shù)更新，神經(jīng)元在還未找到解決問題的最優(yōu)參數(shù)時便停止了學習，激活函數(shù)的飽和導致了神經(jīng)元飽和問題。

1.2.2 梯度消失與梯度爆炸問題

根據(jù)鏈式法則，得到式（11），通過式（11）、式（12）、式（13）可求得神經(jīng)元誤差反向傳播方程式（14）。表示為：

式（15）表明可以通過第l+1 層的神經(jīng)元誤差δl+1計算第l層的誤差δl。結合式（6）與式（14），可以計算網(wǎng)絡中任意一層神經(jīng)元的誤差。考察損失函數(shù)對權值的改變率對偏置可以同樣方式說明。假設每個網(wǎng)絡層只有一個神經(jīng)元，根據(jù)鏈式法則有：

1.3 激活函數(shù)選擇

在原始感知機中，隱藏層只進行線性操作，這樣由卷積層堆疊的深度網(wǎng)絡輸出相當于輸入的線性組合，網(wǎng)絡的逼近能力有限，相當于僅采用濾波器處理含噪圖像。加入激活函數(shù)后，網(wǎng)絡的非線性能力提升，深層網(wǎng)絡幾乎可以逼近任意函數(shù)。早期配置的激活函數(shù)為Sigmoid 函數(shù)、雙曲正切函數(shù)，其網(wǎng)絡學習更新參數(shù)的梯度區(qū)間過窄，容易使神經(jīng)元達到飽和，且整體梯度偏小。近年來，受到視覺皮層信號處理的啟發(fā)，修正線性單元（Rectified Linear Unit，ReLU）被提出并成為最有效的激活函數(shù)之一，可表示為式（17）。其在眾多激活函數(shù)中脫穎而出主要基于以下三點：①其只用判斷輸入實值是否大于零，而不需要像前文提及的激活函數(shù)那樣計算指數(shù)項，因此運算速度極快；②其在正區(qū)間上的導數(shù)始終為1，避免了梯度消失與飽和問題；③當輸入值為負值時，激活值為零，即該神經(jīng)元不激活。該模型中的神經(jīng)元根據(jù)輸入的不同選擇性地被激活，非完全激活的模型引入了稀疏性［15］。稀疏性的引入一方面強化了模型的泛化能力，另一方面減少了一些多余特征。本文還嘗試了許多ReLU 的改進版本，如增加光滑性的Swish［16］，其表達式為式（18）；可到達嚴格梯度下降無法取得的最優(yōu)值的帶噪聲的ReLU，表達式為式（19）；加速梯度移動的非飽和ReLU，例如Prelu［17］，其表達式為式（20）。為了在工程上快速實現(xiàn)，最終選擇Relu 作為網(wǎng)絡結構中的激活函數(shù)。圖2 給出了ReLU 與Swish 激活函數(shù)的示意圖。

Fig.2 ReLU and Swish activation functions圖2 ReLU 與Swish 激活函數(shù)

1.4 批量規(guī)范化

內(nèi)部協(xié)變量轉移（Internal Covariate Shift，ICS）現(xiàn)象影響了模型的非線性表達能力，因此引入批量規(guī)范化（Batch Normalization，BN）進行抑制。該方法將小批次數(shù)據(jù)標定為擬正態(tài)分布，并通過具有學習性的重構參數(shù)γ和β恢復學習到的特征。加入BN 后，優(yōu)化器不必再小心調(diào)節(jié)學習率和初始化參數(shù)，在很多情況下，也不再需要正則項［18］。本文在設計網(wǎng)絡架構時將BN 層加入到卷積層與激活層之間，在下一層卷積運算前進行BN 處理，更有利于保留訓練圖像中的先驗信息，使不具備稀疏分布特征的映射規(guī)范化后，每一層的輸入輸出分布更加穩(wěn)定?？蓪N 的規(guī)范化操作表示為以下公式：

式中，i為數(shù)據(jù)中每個樣本的序號，t(x,y)i為每個BN 層的輸入圖像數(shù)據(jù)分別為輸入圖像矩陣對應點的均值與方差。為防止分母為零，引入極小量ε，γ和β在反向傳播中得到更新。

1.5 跳躍連接

深度CNN 通過神經(jīng)層的堆疊將圖像的低級與高級特征串聯(lián)起來。深層網(wǎng)絡提取的抽象特征更具備語義信息，增大了假設空間，故而越深的網(wǎng)絡往往表現(xiàn)出越優(yōu)的性能，但是深層網(wǎng)絡帶來的梯度消失與爆炸問題妨礙了模型的收斂及更優(yōu)性能的體現(xiàn)。如果直接使用正則化層解決這個問題，深度網(wǎng)絡在訓練過程中很容易出現(xiàn)損失值先減小后反彈的現(xiàn)象，即出現(xiàn)退化問題［19］。因此，本文將淺層特征通過跳躍連接與深層特征融合，以改善深度網(wǎng)絡參數(shù)難以優(yōu)化這一問題。殘差結構如圖3 所示，用數(shù)學式可表示為：

Fig.3 Residual structure圖3 殘差結構

式中，v(x,y)經(jīng)過k個卷積層與激活層映射為負的預測噪聲圖像與之和即為殘差塊的輸出。

1.6 網(wǎng)絡整體架構

結合非對稱多尺度卷積的降噪CNN 模型整體結構如圖4 所示。

Fig.4 ACCNet overall architecture圖4 ACCNet 整體架構

（1）第1 層為卷積操作，意在對輸入圖像進行初步濾波處理，平滑了明顯的噪聲點。

（2）第2 層為ACCB，其內(nèi)部為5 個不同尺度的卷積操作和Relu 激活，然后經(jīng)過Concat 連接，輸出為一個有256 個通道的特征圖，使第1 層輸出的64 通道特征圖變換為特征更豐富的256通道特征圖，同時增加了不同感受野上的輸出。

（3）第3 層為Conv+BN+ReLU，該層對上一層256 通道的張量進行特征融合，回歸到64 通道的特征圖。

（4）第4-14 層的每層均為Conv+BN+ReLU 的組合，通過卷積操作與ReLU 激活的交替堆疊，組成了復雜的非線性模型，以便學習到良好的降噪映射。

（5）第15 層為卷積層，其輸出與模型的輸入進行跳躍連接，形成殘差結構，從噪聲圖像中抽離干凈圖像作為模型最終降噪結果。

上述模型除了ACCB 中使用了非對稱多尺度卷積核，以及第1、3 和15 層分別使用了64 個單通道、64 個256 通道以及1 個64 通道3×3 的卷積核外，其余卷積層均為64 個64 通道3×3 的卷積核。

1.7 網(wǎng)絡訓練優(yōu)化算法

選取隨機梯度下降法（Stochastic Gradient Descent，SGD）與自適應矩估計法（Adaptive Moment Estimation，Ad?am）優(yōu)化網(wǎng)絡。SGD 是經(jīng)典有效的優(yōu)化算法，但選擇合適的學習率較為不易。Adam 優(yōu)化器是一種基于適應性低階矩估計的對隨機目標函數(shù)執(zhí)行一階梯度優(yōu)化的算法，其結合了AdaGrad 優(yōu)化器與RMSProp 優(yōu)化器的優(yōu)勢，使得模型收斂速度更快、對內(nèi)存要求更低，也不需要困難地調(diào)節(jié)超參數(shù)［20-21］。在初步架構模型階段，先使用Adam 優(yōu)化器快速確認最優(yōu)模型的大致結構，然后使用SGD 訓練確定模型的最優(yōu)權值和最優(yōu)偏置值。本文建立的損失函數(shù)為均方誤差，符合峰值信噪比的計算思想，其中損失函數(shù)可表示為：

式中，n為每個小批次設置的訓練樣本數(shù)量，i為小批次樣本中每個圖像數(shù)據(jù)的序號，J(v(x,y)i;w,b)表示模型輸出，u(x,y)i為相應標記的干凈圖像。

將每個批次樣本數(shù)量n設置為128，計算樣本的整體損失，然后使用梯度下降法優(yōu)化參數(shù)，其中權重更新可表示為：

式中，l為當前降噪網(wǎng)絡的層數(shù)編號，i為權值的迭代次數(shù)，α為學習率。設置初始學習率為0.01，經(jīng)過100 個Epoch指數(shù)后下降到0.000 01。

2 實驗結果與分析

2.1 訓練集與環(huán)境

參照文獻［10］，使用CBSD400 訓練降噪模型，其包含400 張尺寸為180×180 的灰度圖像。通過數(shù)據(jù)增強將400張圖像旋轉剪裁成128×2 109 張分辨率為40×40 的子圖像。為了訓練模型并測試其降噪性能，對圖像加入均值為零，標準差分別為15、25 和50 的高斯噪聲，以便訓練出能夠應對不同噪聲水平下降噪任務的參數(shù)。

模型的訓練與測試在Keras 深度學習框架下由GPU 加速實現(xiàn)。該框架以TensorFlow 與Theano 為后端，能夠在不失靈活性的前提下快速實現(xiàn)。計算硬件配置為Intel（R）Xeon（R）CPU X5670 @ 2.93GHz，NVIDIA GeForce GTX 1070 8G，RAM 為16G，系統(tǒng)驅動為Windows 10 64 位下的cuda9、cudnn7。超參數(shù)Batch Size 設置為128，訓練100 個Epoch，每個Epoch 訓練2 109 個Batch 樣本數(shù)據(jù)。

2.2 ACCB 結構對模型性能的影響

為探究ACCB 與其他常見結構降噪性能的差異，將ACCB 替換到不同尺度正方形卷積核中進行對比實驗。如圖5 所示，共進行3 組實驗，分別為ACCNet、尺度為7 和9 的正方形卷積核替換ACCB 結構的網(wǎng)絡模型，測試降噪圖像與干凈圖像的峰值信噪比。結果表明，ACCB 結構優(yōu)于對稱的大尺度卷積核。

Fig.5 Comparison of ACCB and symmetric convolution圖5 ACCB 與對稱卷積對比

不同的非對稱多尺度結構對模型降噪性能有一定影響。為找到適合本文架構的非對稱多尺度結構，以下考察幾種不同的非對稱多尺度塊。如圖6 所示，從左到右依次記為ACCB、B、C、D，其中B 使用了尺度為3、5、7 和9 的對稱卷積核進行并行處理，C 為非對稱卷積核替換B 的正方形卷積核，D 為橫向與縱向的非對稱卷積串聯(lián)替換B 的正方形卷積核。如圖7 所示，平衡了感受野大小與參數(shù)量的ACCB 使得模型具有良好的降噪能力，在客觀評價標準PSNR 上表現(xiàn)最佳。

Fig.6 Several different asymmetrical multiscale structures（ACCB，B，C，D from left to right）圖6 幾種不同的非對稱多尺度結構（從左到右依次為ACCB、B、C、D）

Fig.7 Comparison of different ACCB performance圖7 不同ACCB 性能對比

2.3 RL 和BN 對模型性能的影響

如圖8 所示，通過對比殘差學習RL、批量規(guī)范化BN 與ACCB+BN+RL 的降噪網(wǎng)絡可知，ACCB 與殘差學習RL、批量規(guī)范化BN 有著相輔相成的作用，三者的聯(lián)合作用使得降噪網(wǎng)絡能快速收斂且降噪表現(xiàn)最佳。

Fig.8 The impact of RL and BN on model performance圖8 RL 和BN 對模型性能的影響

2.4 與其他模型比較

為進一步體現(xiàn)ACCNet 的有效性，采用常用測試集Set12，在噪聲強度分別為15、25、50dB 的情況下將其與幾種算法進行標準峰值信噪比的比較。從表1 可以看出，ACCNet 在強弱噪聲下均能很好地對含噪圖像進行降噪。與經(jīng)典算法BM3D 相比，ACCNet 在3 種噪聲強度下的峰值信噪比均值分別高出了0.736、0.675、0.698dB。與最新的深度前饋降噪網(wǎng)絡DnCNN 相比，ACCNet 的峰值信噪比均值也分別提高了0.249、0.208、0.242dB，并且對大部分圖像均有較好的降噪效果。圖9 給出了干凈圖像、含噪圖像與噪聲水平為25dB 的圖像經(jīng)過ACCNet 模型降噪后的拼接圖像。從視覺感受上來說，原始圖像與降噪圖像相差無幾，該模型在降噪的同時較好地保留了圖像的邊緣細節(jié)，沒有過多模糊。

Table 1 Comparison of PSNR results of different algorithms under three noise cevels表1 3 種噪聲水平下不同算法峰值信噪比的比較結果單位：dB

Fig.9 Noise reduction effect at 25dB level of ACCNet圖9 噪聲水平25dB 時ACCNet 的降噪效果

3 結語

研究結果表明，圖像噪聲在復合感受野結構中能良好地被抽離出來，非對稱卷積在降低網(wǎng)絡復雜度的同時也不會影響降噪網(wǎng)絡的精度。ACCNet 對圖像邊緣細節(jié)具有良好的識別能力，可以預測該網(wǎng)絡模型也適用于圖像識別、邊緣檢測、圖像分類、圖像去模糊等任務。ACCNet 的網(wǎng)絡復雜度與DnCNNs 網(wǎng)絡相當，但在峰值信噪比均值上優(yōu)于DnCNNs。不足之處在于，ACCNet 對個別圖像的降噪效果不佳，即泛化能力有待提高。在后續(xù)研究中，將會采用更大的訓練集，并展開對特定含噪圖像的降噪研究，以便在一定條件下對降噪效果不佳的圖像進行修正，解決ACCNet泛化能力不強的問題。