基于生成式對抗網(wǎng)絡(luò)的太赫茲圖像增強(qiáng)

2021-04-29 06:27:42張鵬程何明霞張洪楨張欣欣

紅外技術(shù) 2021年4期

張鵬程，何明霞，陳碩，張洪楨，張欣欣

（1.天津大學(xué) 測試計量技術(shù)及儀器國家重點(diǎn)實(shí)驗(yàn)室，天津 300072；2.天津大學(xué) 天津大學(xué)精密儀器與光電子工程學(xué)院，天津 300072）

0 引言

太赫茲成像是一種利用太赫茲波作為信號源的成像技術(shù)[1-2]，與X 射線相比，太赫茲波對生物體沒有電離輻射，所以非常適用于安檢、無損檢測等非接觸式成像應(yīng)用。由于成像過程中激光器功率的波動以及其他因素的影響，如今的太赫茲成像系統(tǒng)得到的圖像分辨率、對比度都比較低。通過改進(jìn)硬件設(shè)備來提高成像質(zhì)量成本比較高昂，而利用圖像處理技術(shù)來提高成像質(zhì)量已經(jīng)成為一種高效實(shí)用的方法[3]。

目前，太赫茲圖像的降噪增強(qiáng)算法還停留在傳統(tǒng)算法階段，如經(jīng)常使用的小波變換、非局部均值濾波[4]、雙邊濾波[5]等算法。這些傳統(tǒng)算法雖有一定的效果，但缺點(diǎn)也比較明顯。如經(jīng)小波變換處理后的圖像灰度級會偏離原始圖像的灰度級，會造成邊界模糊和噪聲放大；雙邊濾波僅考慮了圖像的局部信息，處理后的圖像整體效果欠佳；非局部均值濾波雖考慮了圖像的整體信息，但不能根據(jù)具體情況自適應(yīng)調(diào)節(jié)濾波參數(shù)。

隨著深度學(xué)習(xí)領(lǐng)域的快速發(fā)展，利用神經(jīng)網(wǎng)絡(luò)進(jìn)行圖像處理已經(jīng)成為了研究熱點(diǎn)。Dong 等人于2014年提出了一個基于卷積神經(jīng)網(wǎng)絡(luò)的圖像超分辨率框架 SRCNN（super-resolution convolutional neural network），該框架通過學(xué)習(xí)低分辨率圖像到高分辨率圖像之間的映射關(guān)系，可有效提高圖像的分辨率[6]。Christian Ledig 等人通過優(yōu)化損失函數(shù)于2017年提出了超分辨率生成式對抗網(wǎng)絡(luò)框架SRGAN （super-resolution generative adversarial network），該框架采用了小卷積核和較深的網(wǎng)絡(luò)結(jié)構(gòu)，使生成圖像的分辨率達(dá)到更高水平[7]。

由于神經(jīng)網(wǎng)絡(luò)需要大量圖像進(jìn)行訓(xùn)練，對于太赫茲圖像來說，由于成像速度和儀器的限制，太赫茲圖像數(shù)據(jù)量相對不足[8]，因此上述神經(jīng)網(wǎng)絡(luò)框架更多地應(yīng)用在可見光圖像上，利用神經(jīng)網(wǎng)絡(luò)處理太赫茲圖像卻鮮有報道。本文提出了一種利用SRGAN網(wǎng)絡(luò)對THz圖像進(jìn)行增強(qiáng)的算法，根據(jù)太赫茲圖像對比度低、模糊不清的特點(diǎn)，建立偽THz圖像庫，使其具備真實(shí)THz圖像的特點(diǎn)。通過訓(xùn)練，得到模糊圖像到清晰圖像的映射關(guān)系，并將其應(yīng)用在真實(shí)THz圖像上，這為太赫茲圖像的增強(qiáng)處理提供了新思路。

1 相關(guān)理論介紹

1.1 生成對抗網(wǎng)絡(luò)基本原理

生成對抗網(wǎng)絡(luò) GAN（generative adversarial network）的核心思想源于博弈論中的納什均衡，其由兩部分組成：生成器G（Generator）和判別器D（Discriminator）。生成器的目的是盡量使生成的數(shù)據(jù)符合真實(shí)數(shù)據(jù)分布，判別器的作用是判斷輸入數(shù)據(jù)是來自于真實(shí)數(shù)據(jù)還是生成器的數(shù)據(jù)。生成器和判別器不斷迭代優(yōu)化自己的生成能力和判別能力，直到二者達(dá)到一個納什平衡。GAN的計算流程如圖1所示。

在圖1中，我們用可微分函數(shù)G和D分別表示生成器和判別器。假設(shè)真實(shí)數(shù)據(jù)分布為Pdata，隨機(jī)噪聲z通過生成器生成盡量符合分布Pdata的樣本G(z)。對于判別器而言，當(dāng)輸入數(shù)據(jù)來自于真實(shí)數(shù)據(jù)時，輸出為1；當(dāng)輸入數(shù)據(jù)來自于G(z)時，輸出為0。判別器D的目標(biāo)是對輸入數(shù)據(jù)做出正確判斷，生成器G的目標(biāo)是使自己生成的數(shù)據(jù)無限趨近于真實(shí)數(shù)據(jù)分布，D和G相互對抗并迭代優(yōu)化使得二者性能不斷提升，最終當(dāng)D的判別能力達(dá)到一定程度，且無法準(zhǔn)確判斷數(shù)據(jù)來源時，認(rèn)為生成器G已經(jīng)學(xué)到了真實(shí)的數(shù)據(jù)分布。

1.2 GAN訓(xùn)練機(jī)制

GAN的目標(biāo)函數(shù)描述如下：

式中：E(.)表示期望值的計算；Pdata(x)表示真實(shí)數(shù)據(jù)分布；x為真實(shí)樣本；D(x)表示x被D判斷為真實(shí)樣本的概率；Pz(z)代表先驗(yàn)分布，z為采樣于該分布的噪聲；G(z)表示噪聲z通過G后生成的樣本；D(G(z))表示生成樣本被D 判斷為真實(shí)樣本的概率。在GAN中，生成器的目的是使生成樣本盡可能的接近真實(shí)樣本，即D(G(z))越趨近于1越好，此時V(D,G)會變?。慌袆e器的目的是準(zhǔn)確分辨出生成樣本和真實(shí)樣本，即D(x)趨近于1，而D(G(z))趨近于0，此時V(D,G)會增大。

在GAN的訓(xùn)練過程中，我們需要訓(xùn)練判別器D，使其判斷數(shù)據(jù)來源的準(zhǔn)確率達(dá)到最大；同時，需要訓(xùn)練生成器G使lg(1－D(G(z)))最小。整個訓(xùn)練過程可以采用交替優(yōu)化的方法：先固定生成器G，訓(xùn)練判別器D，使D的判別準(zhǔn)確率達(dá)到最大；然后固定判別器D，訓(xùn)練生成器G，使D的判別準(zhǔn)確率達(dá)到最小，當(dāng)且僅當(dāng)Pdata＝Pg（由G生成的數(shù)據(jù)分布）時可得到全局最優(yōu)解。實(shí)際訓(xùn)練時，一般對判別器的參數(shù)更新k次再對生成器的參數(shù)更新一次。

圖1 GAN流程圖Fig.1 Flow chart of GAN

2 本文方法

2.1 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

本文使用了SRGAN 網(wǎng)絡(luò)結(jié)構(gòu)，在該網(wǎng)絡(luò)中采用了較深的網(wǎng)絡(luò)結(jié)構(gòu)和小卷積核，使圖像的重建效果達(dá)到較高的水平。在以往的研究中，該框架更多的應(yīng)用于可見光圖像的超分辨率重建，我們將其應(yīng)用在太赫茲圖像中，也得到了不錯的效果。其網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。

圖2 SRGAN網(wǎng)絡(luò)框架結(jié)構(gòu)Fig.2 Framework of SRGAN

為了解決深層神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過程中梯度爆炸等問題，在生成器網(wǎng)絡(luò)中引入了殘差模塊[9-10]。輸入圖像經(jīng)過卷積層和激活函數(shù)后，進(jìn)入殘差模塊中。圖中每一個殘差模塊都采用了兩層卷積層，每層有64個卷積核，每個卷積核大小為3×3，卷積層之后利用BN層（Batch Normalization）和激活函數(shù)對輸出進(jìn)行處理。在生成器最后，采用了兩個經(jīng)過訓(xùn)練的子像素卷積層來提高輸入圖像的分辨率[11]。

為了區(qū)分真實(shí)圖像和生成圖像，本文訓(xùn)練了一個判別網(wǎng)絡(luò)，體系結(jié)構(gòu)如圖2(b)所示。該網(wǎng)絡(luò)參考了Radford 等人總結(jié)的神經(jīng)網(wǎng)絡(luò)構(gòu)建建議[12]，并使用了LeakyReLu 作為激活函數(shù)。該判別網(wǎng)絡(luò)包含8個卷積層，每個卷積層使用的卷積核尺寸均為3×3。和VGG 網(wǎng)絡(luò)中一樣[13]，卷積核數(shù)量不斷增加，直到從64 增加到512個。每當(dāng)卷積核數(shù)量增加一倍時，都使用跨步卷積來降低圖像分辨率。在得到512個特征圖之后，通過兩個全連接層和一個最終的S 型激活函數(shù)，獲得樣本分類的概率。

2.2 損失函數(shù)定義

損失函數(shù)的定義對于網(wǎng)絡(luò)性能至關(guān)重要，該神經(jīng)網(wǎng)絡(luò)的損失函數(shù)主要由兩部分組成：內(nèi)容損失和對抗性損失[14]。其數(shù)學(xué)表達(dá)式如下：

式中：L1表示內(nèi)容損失；L2表示對抗性損失。

對于內(nèi)容損失來說，目前大多數(shù)方法通過計算圖像的均方誤差得到，這樣重建圖像具有較高的PSNR，但缺點(diǎn)是圖像高頻信息缺失嚴(yán)重，整體過于平滑，視覺體驗(yàn)一般。SRGAN 采用了與視覺體驗(yàn)更吻合的內(nèi)容損失函數(shù)[15]，表達(dá)式如下：

式中：Gθ(ILR)表示生成圖像；IHR表示真實(shí)圖像；Wi,j和Hi,j代表各個特征圖的尺寸。

為了使判別網(wǎng)絡(luò)適用于風(fēng)格不同的圖像，除了內(nèi)容損失以外，還引入了對抗性損失。對抗性損失L2是基于判別器D在所有訓(xùn)練樣本上的概率定義的：

式中：Dθ(Gθ(ILR))表示重建圖像Gθ(ILR)是真實(shí)圖像的概率[16]。

3 實(shí)驗(yàn)過程及結(jié)果分析

3.1 數(shù)據(jù)集準(zhǔn)備

由于受到太赫茲儀器設(shè)備和成像速度的限制，截止到目前并沒有足量的數(shù)據(jù)實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練。本文利用圖像處理技術(shù)創(chuàng)建了一個圖像集，使其具備THz圖像分辨率低、對比度低的特點(diǎn)。我們利用手機(jī)拍攝了25 張高清樣品照片，通過翻轉(zhuǎn)、縮放、裁剪以及不同角度的旋轉(zhuǎn)將數(shù)據(jù)擴(kuò)增40倍，這1000 張圖片構(gòu)成了標(biāo)簽圖像集。

為了生成對應(yīng)的訓(xùn)練集，且使訓(xùn)練集具備真實(shí)太赫茲圖像對比度低等特點(diǎn)，對標(biāo)簽圖像進(jìn)行了如下處理生成訓(xùn)練集圖像：

1）對數(shù)變換，太赫茲圖像一般亮度較暗，對比度較低，通過對標(biāo)簽圖像進(jìn)行對數(shù)變換，使其亮度更接近真實(shí)太赫茲圖像；

2）高通濾波，太赫茲圖像一般含有高頻噪聲，對太赫茲圖像進(jìn)行高通濾波，將提取出來的噪聲疊加到標(biāo)簽圖像上，使其具備太赫茲圖像的噪聲特點(diǎn)；

3）模糊處理，由于掃描成像過程中設(shè)備的移動和抖動，太赫茲圖像會帶有模糊，因此需要在標(biāo)簽圖像上加上運(yùn)動模糊和高斯模糊。

經(jīng)過以上處理，生成的訓(xùn)練圖像示例如圖3(a)所示，該圖像對比度和分辨率較低，這與THz圖像的基本特點(diǎn)吻合。但值得注意的是，由于不同的成像系統(tǒng)各有特點(diǎn)，生成的圖像也有差別，為了提高本算法的普適性，本文并未對THz圖像和生成訓(xùn)練圖像的相似性進(jìn)行定量評估。圖3(b)為標(biāo)簽圖像示例，本文采用監(jiān)督學(xué)習(xí)的方式，學(xué)習(xí)訓(xùn)練圖像到標(biāo)簽圖像的映射關(guān)系。

圖3 圖像數(shù)據(jù)集示例Fig.3 Image dataset example

3.2 訓(xùn)練細(xì)節(jié)及參數(shù)配置

本文神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程基于64位Windows 10 操作系統(tǒng)，使用Python 語言和Tensor flow 深度學(xué)習(xí)框架，在Google Colab 云計算平臺進(jìn)行訓(xùn)練，該平臺配置了NVIDIA Tesla K80 GPU 加速運(yùn)算。首先，訓(xùn)練基于MSE的SRResnet 網(wǎng)絡(luò)，學(xué)習(xí)率設(shè)置為10－3，迭代次數(shù)為5×104次。然后在訓(xùn)練SRGAN時，將訓(xùn)練好的SRResnet 網(wǎng)絡(luò)參數(shù)作為SRGAN 網(wǎng)絡(luò)的初始化參數(shù)，以避免訓(xùn)練過程中出現(xiàn)不必要的局部最優(yōu)解，學(xué)習(xí)率設(shè)置為10－3，迭代次數(shù)同樣為5×104次。訓(xùn)練過程中，對生成器和判別器網(wǎng)絡(luò)進(jìn)行交替更新，參考Goodfellow 等人的工作[16]，使用的k值為1。

3.3 實(shí)驗(yàn)結(jié)果及比較

以上整個訓(xùn)練過程持續(xù)了20 h，并利用Tensor board 監(jiān)測了圖像PSNR值和網(wǎng)絡(luò)損失函數(shù)變化曲線，如圖4所示。

從圖4可以看出，隨著訓(xùn)練次數(shù)的增加，在宏觀上，圖像的PSNR值呈現(xiàn)出逐漸變大的趨勢，這說明在訓(xùn)練過程中，生成器生成的圖像質(zhì)量逐漸提高；網(wǎng)絡(luò)的損失函數(shù)隨著訓(xùn)練次數(shù)的增加呈現(xiàn)出遞減的趨勢，說明該網(wǎng)絡(luò)結(jié)構(gòu)及參數(shù)配置較好，網(wǎng)絡(luò)收斂效果顯著。

為了更直觀地突出本文算法的有效性，我們將訓(xùn)練好的網(wǎng)絡(luò)應(yīng)用在真實(shí)的太赫茲圖像上，并與傳統(tǒng)算法處理結(jié)果進(jìn)行比較，效果如圖5所示。本文的實(shí)驗(yàn)對象是一枚經(jīng)過太赫茲反射成像的硬幣，在成像過程中，由于激光器功率波動和儀器設(shè)備的振動，原始圖像存在一定的噪聲和模糊，且對比度較低。經(jīng)傳統(tǒng)算法處理后的圖像，可以濾除部分噪聲，但圖像視覺體驗(yàn)依舊模糊，且對比度提升不明顯，圖像細(xì)節(jié)也沒有得到有效改善。而經(jīng)本文算法處理后的圖像，濾波效果顯著，對比度明顯提高，且圖像清晰度得到改善，具有更豐富的局部細(xì)節(jié)。

為了客觀評價本文算法的效果，本文以原始圖像為參考圖像，計算了圖5中各個圖像的峰值信噪比（peak signal to noise ratio，PSNR），并利用中心像素與周圍四近鄰像素的灰度值計算了各個圖像的對比度，結(jié)果如表1所示。對于PSNR 來說，由于本文算法在圖像細(xì)節(jié)上改變更多，且計算時以原始圖像作為參考圖像，再加上本文損失函數(shù)定義并未以均方誤差為基礎(chǔ)，所以PSNR 會偏低。根據(jù)以往經(jīng)驗(yàn)，PSNR 有時與人眼視覺體驗(yàn)并不相符，所以低PSNR 并不影響視覺效果。從對比度角度來說，本文算法與傳統(tǒng)算法相比，對于提高圖像對比度效果非常顯著，該結(jié)果在圖5中也有直觀體現(xiàn)，這剛好符合本實(shí)驗(yàn)室項(xiàng)目的實(shí)際需求。

圖4 訓(xùn)練過程中曲線變化Fig.4 Variation curves change during training

圖5 不同算法實(shí)驗(yàn)結(jié)果比較Fig.5 Comparison of experimental results of different algorithms

表1 不同方法PSNR、對比度計算結(jié)果Table1 PSNR and contrast calculation results by different methods

4 結(jié)論

本文基于前人提出的GAN 原理，利用自己建立的圖像庫，成功訓(xùn)練了SRGAN 網(wǎng)絡(luò)，并將其應(yīng)用于太赫茲圖像增強(qiáng)處理上。通過進(jìn)行對照實(shí)驗(yàn)，將本文算法與幾種傳統(tǒng)算法相比，實(shí)驗(yàn)結(jié)果表明，本文算法在解決太赫茲圖像數(shù)據(jù)量不足的基礎(chǔ)上，可以顯著提高太赫茲圖像的對比度，且處理后的圖像細(xì)節(jié)更加豐富，圖像質(zhì)量及視覺體驗(yàn)比傳統(tǒng)算法更加優(yōu)越。為了提高算法的普適性，本文對THz圖像和生成的訓(xùn)練圖像之間的相似性只做了定性評價，這也是今后工作有待改進(jìn)的地方。

基于深度學(xué)習(xí)的圖像處理算法雖起步較晚，但與傳統(tǒng)算法相比優(yōu)點(diǎn)突出，能彌補(bǔ)傳統(tǒng)算法的很多不足，隨著人工智能技術(shù)的發(fā)展，該領(lǐng)域也將進(jìn)一步成為研究熱點(diǎn)。