賀玉華,楊明明
(四川大學計算機學院,成都610065)
光學相干斷層掃描(Optical Coherence Tomography,OCT)[1]是一種極有潛力的生物醫(yī)學光學成像技術,由于其具有無接觸、掃描速度快和超高分辨率的特點而被廣泛應用于眼科。然而,OCT 圖像中含有大量的散斑噪聲,散斑噪聲會掩蓋細微并且很重要的圖像特征,最終影響臨床診斷。因此,去除OCT 圖像中的斑點噪聲對于提高圖像質量和臨床診斷來說有很重要的意義。
近年來,為了有效地去除SD-OCT 中的斑點噪聲,基于塊匹配[2-4]、稀疏字典學習[5]、偏微分方程[6],以及基于其他理論的多種算法相繼被提出。Buades 等人[2]提出的非局部均值濾波算法(Non-Local Means,NLM)應用在自然圖像上去噪并取得了很好的效果,但對OCT圖像去噪來說并不適用,因此,研究者提出了很多改進的非局部均值算法[3],但這些方法往往會使圖像變模糊。在非局部均值算法的基礎上,Chong 等人[4]提出了塊匹配三維過濾(Block-Matching and 3D filtering,BM3D)算法,其原理是對匹配的相似塊進行協(xié)同過濾來進行去噪,但在抑制噪聲的同時可能會引起圖像邊緣的失真。Esmaeili 等人[5]提出了一種改進的基于KSVD 的字典學習算法,其原理是學習含噪圖像數(shù)據(jù)和不含噪圖像數(shù)據(jù)之間的字典,并通過不斷更新字典使得去噪圖像逼近不含噪的圖像,但該算法對字典太過依賴。Puvanathasan 等人[6]提出了一種基于偏微分方程的各向異性擴散方法,該方法雖然能夠在去除噪聲的同時保留圖像細節(jié)甚至增強邊緣,但其結果往往過于平滑。這些算法在OCT 去噪上都存在一些缺點:過度模糊或平滑圖像,噪聲的去除不夠徹底或者在去噪結果中引入了偽影??傊?,這些算法在去噪和保留原圖細節(jié)之間很難達到平衡狀態(tài)。
目前,深度學習已經在多種成像應用中取得了巨大成就,從低級任務到高級任務,例如圖像去噪[7-8],去模糊[9]和超分[10]到分割[11],檢測和識別。它模仿了人類處理信息的方式,并通過分層網絡框架從像素數(shù)據(jù)中提取高級特征[12]。Wei 等人[13]首次將聚類的卷積神經網絡應用于OCT 圖像去噪。Song 等人[14]提出了一種基于ResNet 的方法,可以在提高信噪比的同時保留細節(jié)特征。Ma 等人[15]提出了一種基于wasserstein 生成對抗網絡(wGAN)的方法。
由于條件生成對抗網絡(cGAN)[16]在圖像生成和風格遷移等圖像任務上有著良好表現(xiàn),我們覺得也可以將圖像去噪問題視為圖像到圖像的轉換問題,并提出了一種基于條件生成對抗網絡(cGAN)的改進方法來實現(xiàn)這一目標。用有噪聲的圖像和無噪聲的圖像對進行訓練,并在生成器和鑒別器的相互競爭下,來實現(xiàn)去噪的目的。
生成對抗網絡(Generative Adversarial Network,GAN)的原理是:生成器負責學習從輸入到真實數(shù)據(jù)的映射,生成與之相似的數(shù)據(jù);而判別器負責對生成數(shù)據(jù)進行判斷,判斷其屬于還是不屬于真實數(shù)據(jù);判別器再將其判斷結果反饋給生成器,進而激勵生成器生成更加相似的數(shù)據(jù),在這個過程中判別器也需要不斷提高自己的判別能力。總之,生成對抗網絡的原理是生成器和判別器通過相互競爭,最終到達一種平衡狀態(tài)。但是對于無條件的生成網絡來說,生成數(shù)據(jù)的模式無法被控制,為了解決這一問題,條件生成對抗網絡(con?ditional Generative Adversarial Network,cGAN)應運而生,其原理是向生成器和判別器中加入約束信息來指導數(shù)據(jù)生成過程,使得生成器生成的數(shù)據(jù)是我們所期望的數(shù)據(jù)而不是為了欺騙判別器而得到的數(shù)據(jù)。
cGAN 通過輸入圖像x和隨機向量z學到目標圖像y,即G:{x,z}→y,然后將生成的圖像和目標圖像分別輸入到判別器進行打分。對于生成器來說,希望生成更加真實的樣本可以騙過判別器,而對判別器來說,希望能夠盡可能地區(qū)分真實樣本和生成樣本,即判別器對真實樣本的打分盡可能高,而生成樣本打分盡可能低。對抗損失函數(shù)表達式如下:
其中,x 是輸入的含噪聲的圖像,y 是與x 對應的不含噪聲的圖像,z 是隨機向量。
為了使生成的圖像與目標域圖像盡可能相似,我們可以將生成圖像和目標圖像之間的L1 或L2 距離加入到損失函數(shù)中。由于L2 距離會使圖像模糊,我們采用L1 距離來衡量真實的不含噪聲圖像和生成的去噪圖像之間的差異。其目標函數(shù)如下:
本文使用的生成器基于文獻[17]提出的網絡架構,該網絡結構在醫(yī)學CT 圖像去噪中展示了很好的性能,該網絡是基于Encoder-Decoder 的網絡結構,在此基礎上,增加了三個快捷連接,將卷積層的特征圖和對應的反卷積層的特征圖相加,其結果作為下一個反卷積層的輸入,其目的是使該網絡可以保留更多的圖像特征。生成器的網絡結構共包含14 層,卷積層和反卷積層各七層,每一層之后都使用了ReLU 激活層。所有卷積層和反卷積層的卷積核大小均為3×3,步長均為1。除了輸入和輸出,中間層的特征圖個數(shù)均為64。該生成模型的輸入輸出均為單通道OCT 圖像,可以接受任意大小的圖片輸入。
判別器采用PatchGAN 結構[18],其作用是判斷輸入圖像的真假。其網絡結構一共有七層,其中奇數(shù)卷積層的步長為1,其余為2,所有卷積核大小都是4×4。根據(jù)從第一卷積層到最后一個卷積層的順序,其特征圖個數(shù)分別是64、64、128、128、256、256 和1。除了第一個和最后一個卷積層,每個卷積層后都使用了批處理歸一化(BN)層和斜率為0.2 的Leaky ReLU 激活層。由于將BN 層用于所有層會導致生成圖像結果振蕩和模型不穩(wěn)定,所以第一個卷積層后只使用leaky ReLU激活層。
本文采用的OCT 數(shù)據(jù)集來自文獻[18],其中包括28 對分辨率為450×900(高×寬)的合成圖像,該圖像對是通過從28 位受試者的28 只正?;虍惓Q劬χ胁东@的高分辨率圖像進行二次采樣而生成的。更具體地說,在每個圖像對中,含噪聲的圖像是由OCT 設備(Biopitgen)直接采集的(B-scan),無噪聲的圖像是通過配準和平均在同一位置獲得的多個B-scan 圖像而得到的,也就是說無噪聲的圖像是由在同一位置采集的多張含噪聲圖像經過配準和平均所得。
在實驗中,我們丟棄了兩對非常差的圖像,并使用剩余的26 對圖像進行實驗,其中隨機選擇了十對圖像用于訓練模型,其余的用于測試。由于訓練模型需要大量的數(shù)據(jù),因此我們將這十對圖像進行滑動剪裁,每隔8 個像素點裁剪一張分辨率為64×64 的圖像,最后數(shù)據(jù)量大約為一萬多張。
在實驗中,軟件環(huán)境操作系統(tǒng)為Windows 10,深度學習軟件框架為TensorFlow 1.14,GPU 為NVIDIA GTX 1080,內存為8 Gb。在訓練時,我們的生成器和判別器都使用了Adam 算法進行優(yōu)化,學習率為0.0002。加權參數(shù)a的值設為10。
本實驗分別采用K-SVD 模型、BM3D 模型、wGAN模型和本文模型在測試集上進行測試。為了客觀說明本文模型的性能,對于BM3D 和K-SVD 模型,其參數(shù)按照取的最優(yōu)降噪效果去設定,對于其他模型,其參數(shù)與提出該方法的參考文獻中的參數(shù)保持一致。所有型的降噪結果如圖1 所示。由實驗結果可見,本文模型對OCT 圖像的降噪效果在視覺上整體優(yōu)于其他模型。為了更清晰地展示各模型的降噪結果,圖1 對局部細節(jié)進行了放大??梢钥闯觯汢M3D 和K-SVD 模型處理過的圖像在視網膜層內部和邊界處存在條形偽影,視覺效果較差,其中,K-SVD 模型并未完全去除噪聲,BM3D 引入了塊狀偽影。wGAN 模型有效去除了斑點噪聲,增強了圖像的對比度,但是存在明顯的邊緣模糊和細節(jié)丟失的現(xiàn)象。采用本文模型去噪后的圖像,保留了更多的邊緣信息和細節(jié)信息,得到的結果與校準無噪聲的OCT 圖像更加接近,并且具有更加理想的視覺效果。
為了更加客觀地進行去噪效果對比,本文采用了三個評價指標,分別是峰值信噪比(Peak Signal-To-Noise Ratio,PSNR)、結構相似性(Structural Similarity Index,SSIM)和邊緣保持系數(shù)(Edge Preservation Index,EPI)。表1 所示為五種模型在測試集上得到的三種評價指標的對比??梢钥闯?,本文模型的去噪結果在PSNR 和SSIM 這兩個指標均值上優(yōu)于其他四種模型,這與圖1 所示的視覺效果對比圖基本上是吻合的,說明本文模型降噪效果最優(yōu),且是最接近其對應的無噪聲的OCT 圖像。指標EPI 計算的是去噪圖像與含噪圖像之間的邊緣信息保存能力,K-SVD 模型在該指標上取得了最大值,其原因是它的去噪結果中仍然含有噪聲,而本文模型取得了最小值,其原因是它的結果中不含噪聲。
表1 四種模型在測試集上去噪結果的評價指標
圖1 四種模型在測試集上的結果
其中前兩行為不同模型的測試結果,第三行中的圖對藍色區(qū)域進行放大,第四行中的圖對紅色區(qū)域進行放大
本文提出了一種基于條件生成網絡(cGAN)的圖像去噪方法,通過學習有噪圖像到無噪圖像的映射來實現(xiàn)去噪過程。實驗結果表明,本文提出的方法是最接近無噪圖像的,對于指標PSNR 和SSIM,均優(yōu)于其他對比方法。但我們的結果中仍然存在少量的噪聲,通過改善模型賴去除這些噪聲將會是我們今后的研究方向。