張建波 楊 璐 劉佳琦 張 禎
1(天津理工大學天津市先進機電系統(tǒng)設計與智能控制重點實驗室 天津 300384)
2(機電工程國家級實驗教學示范中心(天津理工大學) 天津 300384)
3(天津醫(yī)科大學總醫(yī)院重癥醫(yī)學科 天津 300052)
醫(yī)學影像作為臨床醫(yī)學中發(fā)展最迅速的學科之一,從最初的X-ray到CT、MRI、CR等,醫(yī)學影像設備及技術(shù)在不斷地更新?lián)Q代。由于我國醫(yī)療資源分布不均衡,多數(shù)基層醫(yī)院及鄉(xiāng)鎮(zhèn)醫(yī)院只具備X-ray影像設備,通常情況下均使用X-ray來完成日常體檢以及各種肺部疾病的前期檢查。但是在X-ray圖像采集過程中,受到成像設備以及成像參數(shù)(輻射量)的影響,獲取的圖像分辨率往往有限。通過更新硬件設備來提升圖像分辨率不僅成本高、難度大,而且實用性不強。而超分辨率重建技術(shù)可以有效提升圖像質(zhì)量,使醫(yī)生能夠更清晰地觀察到相關(guān)病灶的細節(jié)信息,為相應的診斷及診療方案的制定提供便利。
超分辨率重建技術(shù)[1-3]旨在通過一幅或者多幅低分辨率的圖像恢復出高分辨率圖像[4-6],在醫(yī)學影像、視頻復原、軍事偵察等多個領(lǐng)域已得到了廣泛的應用?,F(xiàn)有超分辨率方法主要分為基于插值[7]、基于重建[8]和基于學習[9]的方法。最常見的基于插值的超分辨率重建方法包括雙線性插值和雙三次線性插值,但經(jīng)過插值獲得的超分辨率圖像往往過于平滑,容易在邊緣處理上因丟失高頻信息而出現(xiàn)細節(jié)模糊以及鋸齒問題?;谥亟ǖ姆椒ㄍǔ@枚鄮瑘D像及先驗知識約束解空間進而完成圖像的超分辨率重建,相對于插值方法的重建效果有一定改善,但是對配準算法和先驗知識依賴性過高。通過學習高低分辨率圖像之間非線性映射關(guān)系完成圖像重建是目前主流的基于學習的重建方法,常見方法有Yang等[10]提出的稀疏編碼方法、Chang等[11]提出的鄰域嵌入法、Timofte等[12]提出的鄰域回歸法(ANR)等。Dong等[13]首次利用卷積構(gòu)造出包含特征提取、非線性映射、重建模塊的卷積神經(jīng)網(wǎng)絡SRCNN實現(xiàn)高效的圖像的超分辨率重建,其計算復雜度低,且能夠在保證高質(zhì)量圖像的同時完成圖像快速重建。自SRCNN提出后,基于CNN的圖像超分辨率算法逐漸成為主流圖像重建方法。隨著神經(jīng)網(wǎng)絡的不斷深入研究,學者們陸續(xù)提出了FSRCNN[14]、VDSR[15]、D-DBPN[16]等超分辨率重建算法,并在自然圖像超分辨率重建上取得了較好的效果。
雖然深度學習與超分辨率的結(jié)合在自然圖像上獲得了良好的重建效果[17],但是在語義簡單且結(jié)構(gòu)較為固定的肺部X-ray醫(yī)學圖像重建上仍存在特征提取時大量高頻信息的丟失導致的重建圖像邊緣不清晰以及細節(jié)模糊等問題。針對上述問題,提出一種基于多級殘差通道注意力的X-ray圖像超分辨率重建方法。主要貢獻歸納如下:
(1) 提出一種超分辨率重建方法MRAN(Multistage Residual Attention Network)。以殘差神經(jīng)網(wǎng)絡為基礎框架,去除原殘差塊中批歸一化層并嵌入通道注意力機制,構(gòu)造模型基本塊,自適應地校正各信道的特征響應,強化肺部器官圖像的紋理細節(jié)特征;利用多級殘差學習逐步簡化信息流,加速網(wǎng)絡訓練;設計多尺度融合模塊進行特征提取,進而獲取圖像更加完整的結(jié)構(gòu)信息;使用Bicubic生成圖像與亞像素卷積圖像融合,彌補信息提取時造成的特征損失,完成最終圖像的超分辨率重建。
(2) 將提出的MRAN應用于肺部X-ray圖像的超分辨率重建,實驗結(jié)果表明,該方法取得了更高的PSNR和SSIM值,并且重建出的肺部圖像邊緣清晰、紋理豐富,更接近真實圖像。
隨著CNN的不斷發(fā)展,學者們發(fā)現(xiàn)網(wǎng)絡層次是影響網(wǎng)絡性能的重要因素之一,網(wǎng)絡的深度越深,模型的性能就會越好。因此學者們對于網(wǎng)絡的設計更趨向于不斷加深網(wǎng)絡層次,以獲取更高的評價指標值。這不僅加大了網(wǎng)絡計算量和內(nèi)存開銷,還帶來了梯度消失以及模型退化等問題。針對上述問題,He等[18]提出了ResNet模型,并且在模型中提出了殘差學習的思想,通過添加跳躍連接(Skip Connection)的方式,保證信息實現(xiàn)更好的回傳,加快網(wǎng)絡的收斂速度。殘差學習結(jié)構(gòu)如圖1所示。
圖1 殘差學習結(jié)構(gòu)
殘差學習將原先學習恒等映射φ(x)=x的任務轉(zhuǎn)化為學習輸入與輸出之間的殘差F(x)。相對于擬合恒等變化關(guān)系,擬合殘差更加容易,這可以使學習任務變得更加輕松。在網(wǎng)絡的反向傳播中,通過添加跳躍連接使得各網(wǎng)絡層之間梯度信息能夠更好地傳遞,有效地緩解了梯度消失和網(wǎng)絡退化問題。本文將進一步改進原始殘差塊,以殘差學習方式簡化學習過程,并以多級嵌套方式逐步添加跳躍連接,進一步簡化信息流,加速網(wǎng)絡的收斂速度。
近年來,由于注意力機制在建模全局依賴關(guān)系[19]以及降低無關(guān)圖像域特征信息[20]方面表現(xiàn)出的良好性能,被廣泛用于深度神經(jīng)網(wǎng)絡之中。通道注意力機制通過使用不同的激勵權(quán)重對各個通道進行激勵,使網(wǎng)絡更加關(guān)注于高頻信道特征,達到加速網(wǎng)絡收斂和提升網(wǎng)絡性能的目的。Hu等[21]提出的SENet表明在神經(jīng)網(wǎng)絡中,不同通道的卷積核所提取到的特征圖是不同的,其對于超分辨率重建中恢復高頻細節(jié)信息的重要程度也是不一樣的。若在網(wǎng)絡中同等處理各信道特征,會導致網(wǎng)絡在處理高低頻信息時缺乏靈活性,難以充分利用上下文信息進行有效的特征學習。
如圖2所示,通道注意力機制主要由擠壓、激勵、注意力三部分組成。該模塊首先對輸入圖像進行全局平均池化,完成各通道像素值的壓縮,獲取逐通道統(tǒng)計z∈RC,然后通過兩個卷積層學習各個通道的激勵權(quán)重,最后將激勵權(quán)重與各通道像素進行Hadamard乘積實現(xiàn)對不同特征通道的調(diào)節(jié),得到最終輸出。具體實現(xiàn)如下:
圖2 通道注意力機制
(1)
S=σ(W2δ(W1z))
(2)
Uc=Sc×Uc
(3)
式中:zc為z的第c個元素;Hsq表示特征壓縮操作;uc(i,j)為特征圖的第c個通道(i,j)位置的像素值;σ和δ分別表示Sigmoid和ReLU激活函數(shù);W1和W2分別為激勵權(quán)重。網(wǎng)絡通過通道注意機制自適應的校正各個信道的特征響應,強化高頻信息通道,利于超分辨率圖像邊緣細節(jié)的重建。對于肺部X-ray圖像而言,其紋理細節(jié)特征對疾病的分類診斷尤為重要,因此本文將通道注意力機制嵌入到殘差塊中構(gòu)成網(wǎng)絡基本塊,在保證強化高頻信道特征的同時,加速網(wǎng)絡收斂,進一步提高網(wǎng)絡的性能。
本文設計的X-ray圖像超分辨率重建網(wǎng)絡MRAN主要由三部分構(gòu)成:特征提取模塊、基于特征融合的通道注意力信息提取模塊、重建模塊。網(wǎng)絡的整體架構(gòu)如圖3所示。
圖3 MRAN網(wǎng)絡整體結(jié)構(gòu)
特征提取模塊用于從ILR中提取特征,該模塊由雙層3×3卷積構(gòu)成,特征維度均為64。ILR為原始輸入,由IHR經(jīng)圖像退化得到,特征F-1、F0的提取過程通過式(4)-式(5)實現(xiàn)。
F-1=Hconv(ILR)=σ(W-1×ILR+B-1)
(4)
F0=Hconv(F-1)=σ(W0×F-1+B0)
(5)
式中:W表示權(quán)重矩陣;B表示偏置項;σ表示非線性ReLU激活函數(shù)。相較于SRResnet以及EDSR等模型使用單層卷積完成特征提取,雙層卷積提取的特征更加精細,能較好地抑制卷積層在進行特征提取時特征的丟失問題。
信息提取模塊將對特征提取模塊傳入的特征圖進行深度特征提取和殘差信息學習,該模塊由多尺度特征融合模塊和多級殘差注意力基本塊構(gòu)成,FLF的提取過程由式(6)實現(xiàn)。
FLF=HDF(F0)
(6)
式中:F0為特征提取塊提取到的特征;HDF為信息提取操作。經(jīng)過信息提取模塊進行信息充分提取后,獲取的信息FLF經(jīng)過全局殘差學習得到特征FGF,FGF將用于最終高分辨率圖像的重建。
2.2.1多尺度特征融合模塊
在深層提取圖像特征的過程中,各種特征信息往往是不同尺度的,但目前多數(shù)網(wǎng)絡都是用單一卷積核來實現(xiàn)特征提取,這往往會導致信息提取過程中結(jié)構(gòu)信息的缺失。本文對Inception結(jié)構(gòu)[22]進行改進,使用不同大小的卷積核通過并行路徑完成特征提取后進行特征融合,以此來獲取圖像更加完整的結(jié)構(gòu)信息。本文設計的多尺度特征融合模塊如圖4所示。
圖4 多尺度信息融合模塊
在多尺度信息融合模塊中,對于上層輸出的特征,通過三種不同的卷積路線進行特征提取,其中以兩個3×3卷積核替代5×5卷積核,在保證感受野相同的前提下,減少模型參數(shù)量。各卷積路線的輸出特征維數(shù)分別為32、48、32,然后使用concat層進行特征信息融合。concat層按通道維度對各卷積路線的輸出特征進行疊加,例如上述三條卷積路線共包含112個卷積層,則經(jīng)過concat層后的輸出可由式(7)獲得。
(7)
式中:W表示權(quán)重矩陣;B表示偏置項;σ表示非線性ReLU激活函數(shù),經(jīng)過拼接后輸出的特征圖通道維數(shù)變?yōu)?12維。最后,在保持concat層所有特征的前提下,使用1×1卷積核完成特征降維,從而縮減多尺度特征圖的數(shù)量,進一步減少網(wǎng)絡的參數(shù)數(shù)量。
2.2.2基于殘差注意力機制的基本塊
基礎塊是網(wǎng)絡架構(gòu)中的基本組成單元,也是圖像超分辨率重建任務中重要的非線性特征映射模塊,它直接影響圖像的重建效果。本文以殘差網(wǎng)絡為基礎實現(xiàn)網(wǎng)絡架構(gòu)搭建,刪減原殘差塊中影響高頻信息表達的批歸一化層,嵌入利于高頻信息提取的注意力機制模塊,完成模型基本塊RCAB(Residual Channel Attention Block)的構(gòu)建。模型基本塊RCAB如圖5所示。
圖5 基本塊RCAB
RCAB基本塊中將上層輸入使用兩個連續(xù)的3×3卷積核進行特征信息提取后,輸入到通道注意力模塊中,對各個通道進行不同的權(quán)重激勵,獲取特征Fd,LF?;A塊通過通道注意力機制使網(wǎng)絡強化高頻信道特征,有利于圖像細節(jié)的重建。使用殘差結(jié)構(gòu)完成實現(xiàn)Fd,LF與Fd-1的連接以獲取輸出Fd,進一步改善信息流,提升了網(wǎng)絡表達能力。Fd獲取過程由式(8)實現(xiàn)。
Fd=Fd-1+Fd,LF
(8)
如圖3中虛線框所示,將6個RCAB基本塊以多級嵌套方式進行殘差連接,構(gòu)成一個中級殘差注意力模塊。每個RCAB基本塊的輸出都將作為后續(xù)基本塊的輸入,并且后續(xù)RCAB基本塊通過多級殘差連接實現(xiàn)圖像特征的復用,在每個中級殘差注意力模塊末端添加卷積層,進一步實現(xiàn)各級特征融合后的特征整合。網(wǎng)絡中共設置了10個中級模塊,每個中級塊的輸出將通過跳躍連接進行有效前傳,使得所有塊的輸出都得到充分利用。
考慮到輸入圖像與輸出圖像具有較高的相似性,引入全局殘差學習來解決網(wǎng)絡難以收斂問題。各個中級模塊的輸出特征最終融合后使用卷積層進行特征整合,并與全局特征進行殘差學習,減少網(wǎng)絡冗余,進而獲得用于最終重建的特征FGF。
重建模塊利用網(wǎng)絡學習到的各層次特征,重建生成最終的高分辨率圖像ISR。首先,使用Upsampler模塊實現(xiàn)低分辨率到高分辨率的非線性映射,完成高分辨率圖像Frec1的獲取。本文的Upsampler模塊是由亞像素卷積和3×3卷積層構(gòu)成,通過從低分辨率到高分辨率的非線性映射實現(xiàn)圖像超分辨率的重建。網(wǎng)絡在進行特征學習時不可避免地存在一定程度上的特征損失。為彌補該損失,本文采用雙三次線性插值方法對原始圖片進行插值,生成高分辨率圖像Frec2。最后,將所獲得的兩幅圖片進行像素加法,獲得最終的輸出ISR。
在MRAN模型訓練中,優(yōu)化網(wǎng)絡的損失函數(shù)是整個網(wǎng)絡模型的調(diào)度中心。本文采用均方誤差(MSE)作為衡量模型輸出的ISR與真實圖像IHR之間差異的損失函數(shù)[23],如式(9)所示。
(9)
式中:L(θ)代表均方誤差損失;F(Yi;θ)和Xi分別代表重建后的高分辨率圖像ISR和原始高分辨率圖像IHR;n代表訓練樣本總數(shù)目。在網(wǎng)絡訓練中,通過不斷計算ISR和IHR之間差異,持續(xù)更新各層網(wǎng)絡參數(shù)θ=(W1,W2,…,B1,B2,B3,…),最終獲取最佳的網(wǎng)絡參數(shù)模型。
本文使用Ubuntu系統(tǒng),并在該系統(tǒng)下利用PyTorch框架進行模型搭建。服務器配置為NVIDA RTX 2080 Ti×2,軟件配置為Cuda 9.2。在網(wǎng)絡訓練中,設置batch_size為8,初始學習率為1E-4,采用Adam算法[24]作為模型優(yōu)化算法,設置每200個epoch時將學習率減半,保證模型在逐步迭代中達到最優(yōu)。
使用兩種不同的數(shù)據(jù)集進行實驗仿真。第一種是美國蒙哥馬利縣公開的Montgomery County X-ray Set數(shù)據(jù)集,從中選取120幅紋理豐富、清晰度高的X-ray圖像作為訓練集的HR圖像,使用圖像退化獲取LR-HR圖像對用于網(wǎng)絡訓練,將剩余的18幅圖像作為測試集,用于模型重建效果的測試。第二種是由NIH發(fā)布的Chest X-ray14數(shù)據(jù)集,包含十四種常見肺部疾病的X-ray圖像,共計112 120幅。從中隨機選取520幅圖像,并以不同分辨率的圖像對各個模型的重建效果進行測試,以此來充分驗證模型的魯棒性與泛化能力。
在模型訓練中,為防止因訓練數(shù)據(jù)集圖像較少可能帶來的模型過擬合問題,采用三種方法對訓練集進行數(shù)據(jù)增強:(1) 圖像旋轉(zhuǎn),旋轉(zhuǎn)角度為90°、270°;(2) 圖像翻轉(zhuǎn),將圖像進行上下翻轉(zhuǎn)和左右翻轉(zhuǎn);(3) 圖片縮放,縮放比例為0.9、0.7。
本文采用峰值信噪比(PSNR)和結(jié)構(gòu)相似度(SSIM)作為量化指標,來客觀衡量各圖像超分辨率方法的重建性能。其中,PSNR是一種最常見的基于像素間誤差靈敏度的圖像客觀評價指標[25]。而SSIM將失真建模為亮度、對比度、結(jié)構(gòu)的組合,進而客觀衡量ISR和IHR的相似度。本文采用這兩種指標(式(11)-式(12))在YCbCr顏色空間的Y通道上評估模型重建圖像的質(zhì)量。
(10)
(11)
(12)
式中:MSE代表均方誤差;H和W分別代表圖像的高和寬;μ和σ分別代表兩幅圖像的均值與方差。PSNR與SSIM可以客觀反映出重建圖像相對于原始圖像的失真程度,其數(shù)值越大,表明失真越小。通過計算各個模型在同一測試集上的平均評價指標值,可以客觀地衡量各網(wǎng)絡模型的超分辨率重建性能。
為更好地評估網(wǎng)絡性能,在同一臺服務器上使用×2的拉伸倍數(shù),將本文設計的MRAN網(wǎng)絡與Bicubic、SRCNN、VDSR、LapSRN四種超分辨率重建方法進行比較。SRCNN具有三層卷積層網(wǎng)絡結(jié)構(gòu),以雙三次線性插值圖像作為網(wǎng)絡輸入;VDSR在結(jié)合殘差學習思想基礎上,將網(wǎng)絡層次增加至20層;LapSRN模型在網(wǎng)絡中融入了拉普拉斯金字塔模型的思想,以搭建的24層網(wǎng)絡實現(xiàn)圖像的超分辨率重建。在對比實驗的實現(xiàn)過程中,使用MATLAB interp2函數(shù)實現(xiàn)Bicubic方法,其余對比模型均根據(jù)相關(guān)作者的開源代碼實現(xiàn)。
本文提出的MRAN模型相對于SRCNN以及VDSR等算法具有更深的網(wǎng)絡層次,模型的復雜度更高。在少量增加模型參數(shù)的同時,使得模型性能得到較大的改善。MRAN模型可以實現(xiàn)端到端的模型訓練,完成圖像的快速重建,完全滿足醫(yī)學圖像超分辨率重建對速度的要求。圖6展示了網(wǎng)絡訓練過程中各模型的量化指標增長曲線,MRAN模型在逐步迭代訓練過程中,能夠在最短的時間內(nèi)實現(xiàn)模型收斂,并且獲得了更高的PSNR量化指標值。
圖6 各模型的PSNR值隨迭代次數(shù)增長曲線
表1展示了各模型在不同測試數(shù)據(jù)集上的平均量化指標值??梢钥闯?傳統(tǒng)方法Bicubic重建出的超分辨率圖像的評價指標值最低,而其余對比模型較于Bicubic都有了不同程度的提高。值得注意的是,本文提出的MRAN模型在PSNR和SSIM兩個量化指標上,均超過了幾種對比的超分辨率模型。充分說明,MRAN模型性能相較于其他模型有了一定的提升。
表1 不同測試集上各模型的平均量化指標值
為更加直觀地說明各模型的超分辨率重建效果,使用各個模型對Montgomery County X-ray Set數(shù)據(jù)集中同一圖像進行超分辨率重建,重建效果如圖7所示。可以看出,圖7(b)的重建效果最為模糊,而圖7(c)雖然在一定程度上提升了模型的清晰度,但是邊緣輪廓仍然不清晰,對于圖像細節(jié)的重建效果不佳。圖7(d)和圖7(e)分別為VDSR和LapSRN兩種算法重建出的高分辨率圖像,其整體重建效果較為清晰,在邊緣細節(jié)上也展現(xiàn)了良好的連續(xù)性,但是可能出現(xiàn)棋盤格子偽影現(xiàn)象。圖像的超分辨率重建效果不佳,很大程度上是由于圖像重建過程中對高頻信息利用不足導致的。本文提出的MRAN算法模型能有效地提取LR空間中更多的有用特征,增強網(wǎng)絡對高頻信道的關(guān)注度,進而實現(xiàn)更好的重建效果。圖7(f)是MRAN模型重建出的高分辨率圖像,優(yōu)于其他網(wǎng)絡的重建圖像,具有清晰的邊緣和紋理細節(jié),更加逼近真實的高分辨率圖像。
圖8和圖9展示了各個模型在Chest X-ray14測試集上的重建效果。可以看出,本文提出的MRAN模型在不同像素的圖像上獲得了與Montgomery County X-ray Set測試集相近的重建效果。并且,重建效果均優(yōu)于其他模型,更加接近真實的高分辨率圖像,充分證明MRAN模型具有較高的魯棒性和泛化能力。
(a) Original (b) Bicubic (c) SRCNN
(a) Original (b) Bicubic (c) SRCNN
本文提出一種基于多級殘差注意力的X-ray圖像超分辨率算法模型MRAN。通過使用注意力機制來改進原始殘差塊,構(gòu)建模型基本塊RCAB,在優(yōu)化模型收斂的同時,使網(wǎng)絡更加關(guān)注充滿邊緣細節(jié)的高頻信道特征,進一步提升網(wǎng)絡對于圖像邊緣細節(jié)的重建效果;使用多尺度特征融合模塊,將不同卷積核提取的多尺度特征進行融合,更好地實現(xiàn)圖像結(jié)構(gòu)信息的完整提取;以多級嵌套方式進行殘差學習,并使用卷積層對各基本塊輸出進行特征調(diào)和,加速網(wǎng)絡收斂,進一步提升網(wǎng)絡性能;將亞像素卷積圖像和Bicubic生成圖像進行融合,彌補特征提取過程中的特征損失,最終完成圖像的超分辨率重建。實驗證明,本文設計的模型在PSNR和SSIM上都有較大程度的提升,且重建出的圖像細節(jié)更加清晰豐富,能夠更好地幫助醫(yī)生發(fā)現(xiàn)病變部位,從而提升診斷準確率。在未來的工作中,將針對圖像的多尺度超分辨率重建進行研究。