趙長樂,何利力
(浙江理工大學(xué) 信息學(xué)院,杭州 310018)
服裝圖像[1]在采集的過程中,受環(huán)境、設(shè)備、人為因素的影響不可避免地會引入噪聲,導(dǎo)致圖像質(zhì)量降低,從而影響人眼的觀感,對服裝圖像進一步地處理也會受到一定影響。圖像去噪[2]希望使用圖像自身的信息來去除圖像噪聲,同時不影響圖像本身的細節(jié),以獲取與原始圖像更加接近的去噪圖像。由于服裝圖像紋理的復(fù)雜性和多樣性,對其進行去噪時需要更加注重細節(jié)的完整性,因此有必要對服裝圖像進行高質(zhì)量的去噪處理。
空間域圖像去噪算法[3]對圖像中每個像素點的灰度值加以處理,以濾波的方式進行;均值濾波使用線性平滑技術(shù),用鄰域窗口中全體像素的平均值代替原有的像素值;中值濾波使用非線性平滑技術(shù),將每一像素點的值設(shè)置為該點鄰域窗口內(nèi)的所有像素點的中值;高斯濾波則根據(jù)鄰域間像素距離大小的高斯加權(quán)來分配權(quán)重,以鄰域像素值的加權(quán)和代替原有像素值。
變換域圖像去噪算法將圖像經(jīng)過某種變換由空間域轉(zhuǎn)換到變換域,在變換域內(nèi)根據(jù)噪聲分布特征,設(shè)定相應(yīng)的抑制模型對噪聲進行消除,然后通過逆變換復(fù)原圖像。代表性的方法有小波變換[4]、復(fù)小波變換[5]、輪廓波變換[6]等。雖然此類算法能夠較好地去除圖像噪聲,且對圖像信息損傷較低,但不能很好地對紋理和噪聲進行區(qū)分,導(dǎo)致圖像出現(xiàn)階梯效應(yīng)。
現(xiàn)階段有很多將空間域去噪和變換域去噪相結(jié)合的算法。如,袁明月等[7]將中值濾波算法與小波變換相結(jié)合,利用高斯噪聲來模擬圖像中含有的噪聲,通過對經(jīng)過中值濾波預(yù)處理后的圖像進行二級小波變換,對于高頻子帶,通過逐點計算灰色關(guān)聯(lián)度,并將其與經(jīng)典小波閾值進行對比,來實現(xiàn)各高頻子帶的濾波,通過小波逆變換得到去噪后的圖像。深度學(xué)習(xí)在圖像去噪領(lǐng)域同樣也取得了良好的進展。李傳朋等[8]使用卷積子網(wǎng)和反卷積子網(wǎng)構(gòu)建了一種對稱式網(wǎng)絡(luò)結(jié)構(gòu),將噪聲圖像作為神經(jīng)網(wǎng)絡(luò)的輸入,原始圖像作為輸出,經(jīng)過數(shù)據(jù)集的訓(xùn)練,使得卷積子網(wǎng)學(xué)習(xí)圖像特征,反卷積子網(wǎng)可根據(jù)學(xué)習(xí)到的特征恢復(fù)原始圖像,并結(jié)合修正線性單元獲取更多的紋理細節(jié)?;贑NN 的圖像去噪技術(shù)使用手工構(gòu)造的噪聲圖像數(shù)據(jù)集進行訓(xùn)練,在加性高斯白噪聲圖像上表現(xiàn)突出,但在真實噪聲圖像上表現(xiàn)不佳。
本文結(jié)合圖像灰度共生矩陣[9]中的ASM 能量,通過深度學(xué)習(xí)方法對圖像進行降噪。根據(jù)Ulyanov等[10]所提出的思想,圖像的先驗特征可以由網(wǎng)絡(luò)結(jié)構(gòu)表示(結(jié)構(gòu)圖像先驗),而非網(wǎng)絡(luò)中的參數(shù)(參數(shù)圖像先驗)。對于一個圖像生成的卷積神經(jīng)網(wǎng)絡(luò),以隨機向量作為輸入,完整圖像作為目標輸出,通過對網(wǎng)絡(luò)進行訓(xùn)練,可生成目標輸出圖像。目標圖像的ASM能量越低,生成所需要的迭代次數(shù)越多,對于同樣的網(wǎng)絡(luò)結(jié)構(gòu),要生成噪聲圖像比生成自然圖像需要更多的迭代次數(shù)。根據(jù)這一特性,將噪聲服裝圖像作為目標輸出,在網(wǎng)絡(luò)迭代至ASM能量極大值處停止訓(xùn)練,此時的網(wǎng)絡(luò)輸出即為去噪后的服裝圖像。
灰度共生矩陣是1973 年由Haralick等人提出的一種通過研究圖像灰度的空間相關(guān)特性,來描述圖像紋理的常用方法。由于紋理是由灰度分布在空間位置上反復(fù)出現(xiàn)而形成的,因而在圖像空間中相隔某距離的2 像素之間會存在一定的灰度關(guān)系,即圖像中灰度的空間相關(guān)特性。
灰度直方圖是對圖像上單個像素具有某個灰度進行統(tǒng)計的結(jié)果,而灰度共生矩陣是對圖像上保持某距離的2 像素分別具有某灰度的狀況進行統(tǒng)計得到的。例如:取大小為N×N的圖像中任意一點(x,y)及偏離其的另一點(x+a,y+b),設(shè)該點對的灰度值為(g1,g2)。令點(x,y)在整個畫面上移動,則會得到各種(g1,g2)值;設(shè)灰度值的級數(shù)為k,則(g1,g2)的組合共有k2種。對于整個畫面,統(tǒng)計出每一種(g1,g2)值出現(xiàn)的次數(shù),并將這些值排列成一個k × k的方陣P(g1,g2),再對該方陣進行歸一化,最終得到的k × k大小的方陣稱為灰度共生矩陣,記作G(g1,g2)。距離差分值(a,b)取不同的數(shù)值組合,可以得到不同情況下的聯(lián)合概率矩陣,取值要根據(jù)紋理周期分布的特性來選擇,對于較細的紋理,選取小的差分值。由于服裝圖像的紋理較為精細,因此本文選取(1,0)作為差分值,此時像素對是水平的,即0 度掃描。這樣,兩個像素灰度級同時發(fā)生的概率,就將(x,y)的空間坐標轉(zhuǎn)化為“灰度對”(g1,g2)的描述,然后對計算得到的概率進行如下歸一化,就得到了灰度共生矩陣。
從直覺上來說,如果圖像是由具有相似灰度值的像素塊構(gòu)成,則灰度共生矩陣的對角元素會有比較大的值;如果圖像像素灰度值在局部有變化,那么偏離對角線的元素會有比較大的值。于是產(chǎn)生了一些由灰度共生矩陣所衍生出的標量,用以表征灰度共生矩陣的特征,ASM 能量作為這些標量中的一種,通過灰度共生矩陣中每個矩陣元素的平方和來表示:
若灰度共生矩陣中的值集中在某一塊(如接近純色的圖像),則ASM有較大值;若G中的值分布較均勻(如噪聲嚴重的圖像),則ASM有較小的值。通過ASM值的大小可以反映圖像灰度分布的均勻程度和紋理的粗細程度。
通常的深度學(xué)習(xí)理論認為,圖像的先驗分布從大量的數(shù)據(jù)集中獲得,圖像生成網(wǎng)絡(luò)從數(shù)據(jù)集中訓(xùn)練得到的網(wǎng)絡(luò)參數(shù)代表圖像的先驗信息。但是,將一切信息來源歸結(jié)于對數(shù)據(jù)集的訓(xùn)練可能產(chǎn)生災(zāi)難性的后果。如,Zhang等人[11]所述,在圖像分類任務(wù)中,若對圖像進行隨機標注,訓(xùn)練集同樣可以擬合得很好,但是訓(xùn)練集以外的圖像網(wǎng)絡(luò)則無法識別;Dario等[12]所述,對于在訓(xùn)練集中未出現(xiàn)的特征,網(wǎng)絡(luò)無法正確識別;Ulyanov等[10]認為,圖像的先驗信息可以由網(wǎng)絡(luò)結(jié)構(gòu)所表征,并不需要通過訓(xùn)練從大量的數(shù)據(jù)集獲得先驗信息。對于圖像生成問題,可以直接將未訓(xùn)練的網(wǎng)絡(luò)作用于圖像。若網(wǎng)絡(luò)足夠優(yōu)越,圖像的所有紋理、結(jié)構(gòu)等細節(jié)特征都能被網(wǎng)絡(luò)結(jié)構(gòu)表示,網(wǎng)絡(luò)的參數(shù)僅僅決定這些特征的強弱。
一個圖像生成網(wǎng)絡(luò)可以用函數(shù)x=fθ(z)表示,該函數(shù)將向量z映射到圖像x。其中,θ代表網(wǎng)絡(luò)中需要學(xué)習(xí)的參數(shù),映射f可視為網(wǎng)絡(luò)結(jié)構(gòu),可包含如卷積、池化、非線性激活等一系列操作,該方法可以從隨機分布中生成真實圖像。對于圖像生成問題,初始并不知道所要生成的圖像本身,需要通過已知的、有缺陷的圖像x0,使函數(shù)得到x滿足真實圖像的分布。圖像生成任務(wù)可以用公式表示為:
其中,E(x;x0)為與任務(wù)相關(guān)的數(shù)據(jù)項;x為生成圖像;x0為有缺陷的圖像;R(x)為正則項。對于以參數(shù)圖像先驗為理論基礎(chǔ)的圖像生成任務(wù),正則項的選擇是一個難點,通常表示數(shù)據(jù)集中圖像的方差。而對于以結(jié)構(gòu)圖像先驗為理論基礎(chǔ)的圖像生成任務(wù),由于沒有用于訓(xùn)練的數(shù)據(jù)集,所以可將正則項隱含在網(wǎng)絡(luò)結(jié)構(gòu)中,公式可轉(zhuǎn)化為:
此時,對于所有網(wǎng)絡(luò)能生成的圖像R(x)=0,對于其它不能生成的圖像R(x)=∞。
對于一個足夠好的網(wǎng)絡(luò)結(jié)構(gòu)而言,若將其作為圖像的先驗特征應(yīng)可以擬合所有的圖像,包括隨機噪聲所形成的圖像,此時的網(wǎng)絡(luò)結(jié)構(gòu)對生成的圖像不作任何限制。盡管理論上可以從網(wǎng)絡(luò)中生成任意的圖像,但是圖像的類型決定了該圖像的生成速度。圖2 顯示了將純色圖像、自然服裝圖像、含噪聲的服裝圖像、高斯噪聲圖像分別作為目標生成圖像時,網(wǎng)絡(luò)的迭代次數(shù)與MSE 之間的關(guān)系;圖1 顯示了這4幅圖像的示意圖,以及各圖像對應(yīng)的ASM 能量值。由此可以看到,ASM 能量值越高的圖像,使用相同網(wǎng)絡(luò)生成,所需要的迭代次數(shù)越少。
圖1 不同圖像對應(yīng)的ASM 能量值Fig.1 The ASM energy values corresponding to different images
圖2 不同目標圖像的迭代曲線Fig.2 Iteration curves of different target images
為了將結(jié)構(gòu)圖像先驗理論應(yīng)用于圖像去噪,設(shè)定圖像去噪的數(shù)據(jù)項為:
式中,x0表示含噪聲的圖像,x表示網(wǎng)絡(luò)生成的圖像。此時,圖像去噪的目標函數(shù)轉(zhuǎn)化為:
以含噪聲的圖像作為目標輸出,希望能在網(wǎng)絡(luò)訓(xùn)練的過程中找到合適的參數(shù)θ*,使得網(wǎng)絡(luò)輸出去噪后的圖像。圖5 截取了以含噪聲的服裝圖像作為目標輸出進行訓(xùn)練,迭代次數(shù)處于100、500、1 000、4 000、10 000時所生成的圖像??梢钥吹?,生成的圖像由最開始的混亂噪聲,到含有部分特征的圖像,再到自然圖像,最后生成被噪聲污染的圖像。圖3 顯示了使用含噪聲服裝圖像為目標圖像進行訓(xùn)練時,所生成圖像與自然服裝圖像的峰值信噪比(PSNR)隨迭代次數(shù)的變化曲線,圖4 顯示了生成圖像的ASM 能量與迭代次數(shù)的關(guān)系曲線。所生成圖像的ASM 能量值先增大后減小,在迭代次數(shù)為4 000附近,ASM 能量處于極大值,兩者的PSNR 同樣在迭代次數(shù)4 000時處于極大值附近,此時對應(yīng)的生成圖像最接近自然服裝圖像。
圖3 PSNR 與迭代次數(shù)關(guān)系曲線Fig.3 Relation curve between PSNR and iteration number
圖4 ASM 與迭代次數(shù)關(guān)系曲線Fig.4 Relation curve between ASM and iteration number
圖5 不同迭代次數(shù)對應(yīng)的生成圖像Fig.5 Generated images corresponding to different iterations
實驗結(jié)果表明,在圖像生成網(wǎng)絡(luò)訓(xùn)練的過程中,圖像中的低頻特征會先于高頻特征擬合。以含噪聲圖像為目標圖像進行訓(xùn)練時,圖像中的噪聲屬于高頻特征,在迭代后期才會出現(xiàn)。對應(yīng)到ASM能量而言,網(wǎng)絡(luò)在迭代的過程中會先生成一個ASM能量值較高的圖像,該圖像與自然服裝圖像相近,隨著迭代過程的繼續(xù)進行,生成圖像的ASM能量值會緩慢降低。如果對一個圖像生成網(wǎng)絡(luò)能找到合適的迭代次數(shù),就能生成一幅去噪效果良好的圖像。圖3 曲線中PSNR的極大值點與圖4 曲線中ASM的極大值點對應(yīng)的迭代次數(shù)接近。在訓(xùn)練過程中當ASM能量處于極大值時對迭代進行截斷,取此時的生成圖像為去噪圖像。
為驗證本文算法的優(yōu)良性能,從網(wǎng)上選擇不同類型的9 張服裝圖像進行實驗。所有圖像均裁剪至512×512 大小,如圖6(a)所示。實驗選用了被高斯噪聲污染的原始圖像作為要修復(fù)的目標圖像。對原始服裝圖像添加噪聲強度σ=25 的高斯噪聲后,圖像的局部如圖6(b)所示。
圖6 實驗使用服裝圖像示意圖Fig.6 Schematic diagram of clothing used in experiment
實驗使用UNet 網(wǎng)絡(luò)結(jié)構(gòu),包含可訓(xùn)練參數(shù)的網(wǎng)絡(luò)層共有10 層。網(wǎng)絡(luò)中,下采樣通過步長為2 的跨步卷積實現(xiàn),每次下采樣特征圖尺寸減小為之前的一半,上采樣通過最鄰近差值算法實現(xiàn),每次上采樣特征圖尺寸增加一倍。所有的卷積核均使用3×3大小。網(wǎng)絡(luò)示意如圖7 所示。
圖7 網(wǎng)絡(luò)結(jié)構(gòu)示意圖Fig.7 Schematic diagram of network structure
實驗選用大小為512×512×4,方差σ=0.1 的高斯噪聲作為網(wǎng)絡(luò)的輸入,輸出大小為512×512×3 的圖像,噪聲服裝圖像與輸出圖像的MSE作為網(wǎng)絡(luò)的損失函數(shù)。網(wǎng)絡(luò)選用Adam 優(yōu)化算法,學(xué)習(xí)率固定為0.01。算法設(shè)定的停止條件為:當前100 次迭代的平均ASM 能量小于前100 次迭代的平均ASM 能量時,停止迭代。對生成的圖像使用指數(shù)滑動平均提升去噪效果,指數(shù)滑動平均的權(quán)重參數(shù)選用0.99,共使用2 次指數(shù)滑動平均對輸出圖像進行優(yōu)化。
基于本文算法的所有實驗均在Colab 平臺上進行,實驗使用的GPU為K80,深度學(xué)習(xí)框架選用pytorch。
為了驗證本文去噪算法的有效性,將圖7 中的服裝圖像分別使用guided、NL-means(NLM)、CBM3D 與本文提出的去噪算法進行比較,使用PSNR衡量各算法的去噪效果。各算法對9 張測試圖像進行去噪的結(jié)果見表1,去噪后圖像的局部特征對比如圖8 所示。
圖8 不同算法去噪效果圖Fig.8 Denoising effect diagram of different algorithms
從表1 的結(jié)果中可以看到,本文方法相比guided 和NLM 算法去噪效果更好,略差于CMB3D算法。但CMB3D 算法為非盲去噪,需要估計圖片中噪聲的強度,若估計出的噪聲強度與實際噪聲強度有偏差,則非盲去噪效果會受到較大影響。本文方法為盲去噪,對任意噪聲強度均采用統(tǒng)一去噪算法,真實圖片的噪聲分布未知,盲去噪算法更具有一般性。
表1 不同算法去噪PSNR 比較Tab.1 Comparison of PSNRdenoising with different algorithms
本文提出了一種基于結(jié)構(gòu)圖像先驗與ASM 能量的深度學(xué)習(xí)服裝圖像去噪方法。根據(jù)結(jié)構(gòu)圖像先驗理論,卷積神經(jīng)網(wǎng)絡(luò)在生成圖像時,圖像中復(fù)雜的特征具有更大的阻抗,相較于圖像中簡單的特征在迭代后期才會生成。本文通過實驗驗證了圖像中特征的復(fù)雜度與圖像的ASM 能量之間具有正相關(guān)性。通過這一特性,可以根據(jù)網(wǎng)絡(luò)生成圖像的ASM 能量大小給定截止條件,即當生成圖像的ASM 能量處于極大值時網(wǎng)絡(luò)停止迭代,此時的輸出圖像即為去噪圖像。實驗結(jié)果表明,與guided、NLM 圖像去噪算法相比,本文方法有更好的去噪效果,與CBM3D 圖像去噪算法相比,本文方法有更好的實用性。本文方法相比傳統(tǒng)圖像去噪方法的不足之處在于需要大量的訓(xùn)練時間,未來工作將致力于設(shè)計性能更好的網(wǎng)絡(luò)結(jié)構(gòu),以提高圖片去噪效率與去噪效果。