, ,
(School of Communication and Information Engineering, Nanjing University of Posts and Telecommunications, Nanjing 210003, China)
圖1 肺結(jié)節(jié)檢測(cè)流程圖
肺癌是世界范圍內(nèi)患病率及死亡率最高的惡性腫瘤之一。早期肺癌主要表現(xiàn)為肺結(jié)節(jié),臨床無特異性癥狀,確診時(shí)多已為中晚期,準(zhǔn)確檢測(cè)肺結(jié)節(jié)是提高肺癌患者生存率的關(guān)鍵。MSCT的廣泛應(yīng)用提高了肺結(jié)節(jié)的檢出率,但閱讀大量CT圖像增加了放射科醫(yī)師的負(fù)擔(dān),并存在檢測(cè)效率低和受醫(yī)師主觀影響的缺點(diǎn)。
目前,計(jì)算機(jī)輔助診斷(computer-aided diagnosis, CAD)系統(tǒng)已逐漸用于檢測(cè)肺結(jié)節(jié)[1-2]。Messay等[3]通過多層灰度閾值、形態(tài)學(xué)開運(yùn)算處理,結(jié)合基于規(guī)則分析CT圖像的ROI,采用幾何學(xué)、亮度和梯度等多個(gè)特征參數(shù)表達(dá)肺結(jié)節(jié)的特征,從而實(shí)現(xiàn)檢測(cè)肺結(jié)節(jié)。孫申申等[4]利用自適應(yīng)非線性濾波器增強(qiáng)CT圖像的對(duì)比度,再以設(shè)定閾值的方法去除血管影響,最后采用專用的點(diǎn)增強(qiáng)濾波器提取結(jié)節(jié)。張婧等[5]提出結(jié)合規(guī)則和支持向量機(jī)(support vector machine, SVM)的方法來識(shí)別肺結(jié)節(jié),該方法首先計(jì)算候選ROI的形態(tài)特征,利用基于規(guī)則的方法去除非結(jié)節(jié)部分,以剩余ROI作為樣本,將人工提取的特征輸入SVM進(jìn)行分類,從而得到肺結(jié)節(jié)的檢測(cè)結(jié)果。上述傳統(tǒng)CAD系統(tǒng)盡管取得了一些實(shí)用性效果,但仍存在明顯缺陷:均基于對(duì)肺結(jié)節(jié)的一些簡(jiǎn)單的描述來提取特征,而結(jié)節(jié)的形狀、大小和結(jié)構(gòu)常較復(fù)雜,這些簡(jiǎn)單描述并不能很好地捕獲、判別其特征,從而導(dǎo)致檢測(cè)結(jié)果較差。
近年來,深度學(xué)習(xí)[6-8]廣泛應(yīng)用于眾多領(lǐng)域,在圖像識(shí)別和圖像分類領(lǐng)域也取得了很好的效果。作為第一個(gè)真正成功訓(xùn)練多層網(wǎng)絡(luò)結(jié)構(gòu)的深度學(xué)習(xí)算法,卷積神經(jīng)網(wǎng)絡(luò)可自動(dòng)提取圖像的大量特征,通過局部連接、權(quán)值共享等方法,可避免傳統(tǒng)網(wǎng)絡(luò)參數(shù)量巨大和模型訓(xùn)練耗時(shí)等問題,且泛化能力強(qiáng),可廣泛應(yīng)用于圖像識(shí)別領(lǐng)域。
本研究提出基于卷積神經(jīng)網(wǎng)絡(luò)的肺結(jié)節(jié)檢測(cè)方法,以獲得更加穩(wěn)健可靠的模型,適用于大型醫(yī)院的CAD系統(tǒng),有利于減輕放射科醫(yī)師負(fù)擔(dān),明顯提高檢測(cè)結(jié)節(jié)的正確率并降低假陽(yáng)性率。
檢測(cè)肺結(jié)節(jié)主要分為兩個(gè)步驟:①采用自動(dòng)解剖識(shí)別(automatic anatomy recognition, AAR)方法分割肺部CT源圖像,獲得肺部實(shí)質(zhì)圖像,以更好地提取結(jié)節(jié)特征;②將分割后的肺部圖像輸入卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行檢測(cè),定位并勾畫結(jié)節(jié)。流程圖見圖1。
1.1 AAR 本研究使用的AAR方法基于模糊建模思想[9]和迭代相對(duì)模糊連接度(iterative relative fuzzy connectedness, IRFC)算法[10],主要包括5個(gè)步驟:①收集圖像數(shù)據(jù),用于構(gòu)建和測(cè)試檢測(cè)模型;②精確定義胸腔中的每個(gè)器官,并根據(jù)定義提取肺部輪廓;③建立分層模糊解剖模型;④利用分層模型識(shí)別和定位胸腔器官;⑤根據(jù)層級(jí)結(jié)構(gòu)提取肺部輪廓。
AAR方法見圖2,圖中的3個(gè)模塊分別對(duì)應(yīng)模糊建模、對(duì)象識(shí)別和輪廓提取。在模糊建??蚣苤袨樾厍恢械拿總€(gè)對(duì)象構(gòu)建模糊模型,將這些模型集成到胸腔的層級(jí)結(jié)構(gòu)中,輸出模糊解剖模型:
FAM(B,G)=(H,M,ρ,λ,η)
(1)
式(1)中,G表示目標(biāo)群體,B表示胸腔,H是B中器官的層級(jí)結(jié)構(gòu),表示為樹結(jié)構(gòu);M是模糊模型的集合,每個(gè)對(duì)象對(duì)應(yīng)1個(gè)模型;ρ表示層級(jí)結(jié)構(gòu)H中父節(jié)點(diǎn)與子節(jié)點(diǎn)的關(guān)系;λ是1組尺度縮放范圍,表示每個(gè)對(duì)象Ol的大小變化,Ol表示B中的器官;η表示其他的測(cè)量參數(shù)。模糊解剖模型用于識(shí)別對(duì)象,識(shí)別后輸出的是經(jīng)過調(diào)整后的模糊模型FMT(Ol),測(cè)試圖像時(shí)使得FMT(Ol)與對(duì)象Ol相匹配。將模糊模型FMT(Ol)與原圖像作為輪廓提取的輸入,并使用基于迭代模糊連接度算法提取肺部輪廓,從而實(shí)現(xiàn)肺部分割。分割效果見圖3。
1.2 基于卷積神經(jīng)網(wǎng)絡(luò)檢測(cè)肺結(jié)節(jié) 將分割后的CT圖像作為卷積神經(jīng)網(wǎng)絡(luò)的輸入進(jìn)行特征提取,使用基于區(qū)域的全卷積網(wǎng)絡(luò)(region-based fully convolutional network, R-FCN)作為檢測(cè)肺結(jié)節(jié)的模型。與Faster-RCNN (region-based convolutional neural network)[11]類似,R-FCN也采用區(qū)域建議網(wǎng)絡(luò)(region proposal network, RPN)提取ROI,且RPN本身也是一種全卷積網(wǎng)絡(luò)(fully convolutional network, FCN)[12],但Faster-RCNN在ROI提取后便失去了平移變換特征。為提取目標(biāo)的平移變換特征,F(xiàn)aster-RCNN使用更深的網(wǎng)絡(luò),這樣便犧牲了網(wǎng)絡(luò)訓(xùn)練和測(cè)試的效率。為將平移變換特性融入網(wǎng)絡(luò)結(jié)構(gòu)中,R-FCN創(chuàng)建了位置敏感特征圖(position-sensitive score map)來編碼位置信息,以提取與檢測(cè)目標(biāo)相關(guān)的空間位置特征,并與RPN共享卷積特征。在創(chuàng)建位置敏感特征圖后,附加了位置敏感池化層(position-sensitive ROI pooling layer),用以統(tǒng)計(jì)得分特征圖的信息,且池化層后不再有卷積層。R-FCN模型與FCN模型類似,整個(gè)模型是端對(duì)端(end-to-end)的學(xué)習(xí),所有要學(xué)習(xí)的層在網(wǎng)絡(luò)中均為卷積層且參數(shù)共享,模型結(jié)構(gòu)見圖4。
圖2 AAR方法模式示意圖
R-FCN提取特征的主干網(wǎng)絡(luò)基于101層的殘差網(wǎng)絡(luò)(ResNet-101)[13]。ResNet-101有100個(gè)帶均值池化操作的卷積層和1 000維的全連接層。R-FCN去除均值池化操作及全連接層,只使用卷積層來提取特征,并在修改后的網(wǎng)絡(luò)最后增加了一個(gè)隨機(jī)初始化的1 024維1×1的卷積層以降低維度;隨后使用k2(C+1)個(gè)通道的卷積層來生成位置敏感特征圖。
為提高每個(gè)ROI對(duì)位置的敏感度,獲得更多的位置信息,R-FCN通過網(wǎng)格線將每個(gè)ROI平均劃分成k×k個(gè)網(wǎng)格,將每個(gè)網(wǎng)格按位置映射到對(duì)應(yīng)的位置敏感特征圖上。例如大小為w×h的ROI區(qū)域,每個(gè)網(wǎng)格的大小為w/k×w/k,主干網(wǎng)絡(luò)最后一個(gè)卷積層可輸出k2個(gè)ROI對(duì)應(yīng)不同位置的位置敏感特征圖,因此有k2(C+1)個(gè)通道的輸出層,C+1為目標(biāo)類別個(gè)數(shù)加1個(gè)背景類別。將映射后輸出的部分位置敏感特征圖輸入位置敏感池化層。對(duì)于C類物體第i行第j列的網(wǎng)格,位置敏感池化層的計(jì)算公式為:
圖3 CT圖像分割效果圖 A.分割前圖片; B.分割后圖片
圖4 R-FCN結(jié)構(gòu)示意圖
(2)
式(2)中,rc(i,j)為C類第(i,j)個(gè)網(wǎng)格經(jīng)過位敏池化層后的平均得分;zi,j,c為k2(C+1)個(gè)位置敏感特征圖中的一個(gè)輸出;(x0,y0)為ROI左上角的坐標(biāo);n為每個(gè)網(wǎng)格內(nèi)所有像素的個(gè)數(shù);Θ為網(wǎng)絡(luò)中可學(xué)習(xí)的參數(shù)。得到k2個(gè)位置得分后可對(duì)1個(gè)映射的ROI進(jìn)行投票。如檢測(cè)物體分為C類,通過平均得分對(duì)ROI區(qū)域進(jìn)行投票就會(huì)產(chǎn)生C+1維的向量,C類物體得分公式為:
rc(Θ)=∑i,jrc(i,j|Θ)
(3)
而后計(jì)算每個(gè)類別目標(biāo)的softmax響應(yīng)并用于計(jì)算分類的損失函數(shù),softmax響應(yīng)公式為:
(4)
同樣,采用相似的方法定位邊界框回歸(bounding box regression)。在k2(C+1)維卷積層后,添加一個(gè)4k2維的卷積層用于邊界框回歸。每個(gè)ROI產(chǎn)生的4k2維向量經(jīng)過均值池化后被降維成一個(gè)4維向量t=(tx,ty,tw,th),此4維向量用來參數(shù)化1個(gè)邊框。
對(duì)整個(gè)網(wǎng)絡(luò)進(jìn)行端對(duì)端的訓(xùn)練,由于卷積參數(shù)共享,故整個(gè)模型的訓(xùn)練速度較快。本文的損失函數(shù)(loss function)由兩部分組成:交叉熵?fù)p失(cross-entropy loss)和邊界回歸損失(box regression loss):
L(s,tx,y,w,h)=Lcls(sc*)+λ[c*>0]Lreg(t,t*)
(5)
式(5)中,c*是ROI的真實(shí)標(biāo)定值(c*=0為背景);Lcls(sc*)=-log(sc*)為用于分類的交叉熵?fù)p失函數(shù);Lreg(t,t*)為邊界損失函數(shù);t*表示ROI的真實(shí)邊框;權(quán)重參數(shù)λ初始化為1。當(dāng)ROI與真實(shí)邊框的交并比(intersection-over-union, IOU)值>0.5,即認(rèn)定為正樣本,否則認(rèn)為是負(fù)樣本。訓(xùn)練時(shí),采用OHEM(online hard example mining)[14]的方法提高訓(xùn)練的速度,通過反向傳播算法[15]對(duì)每層的參數(shù)進(jìn)行更新和微調(diào)。
本實(shí)驗(yàn)采用天池醫(yī)療AI大賽提供的數(shù)據(jù),均為肺部CT圖像數(shù)據(jù)(mhd格式),共2 000幅CT圖像,每幅CT圖像均包含肺結(jié)節(jié),但其位置、形狀不固定,層厚<2 mm,像素大小為512×512,按2∶1的比例作為網(wǎng)絡(luò)的訓(xùn)練集和驗(yàn)證集。為保證訓(xùn)練的準(zhǔn)確性,本研究使用寬泛策略對(duì)超參數(shù)進(jìn)行選擇。初始化的超參數(shù)訓(xùn)練準(zhǔn)確率已達(dá)90%,最終實(shí)驗(yàn)采用的批梯度大小(mini-batch size)為20,學(xué)習(xí)率為0.00 01,損失函數(shù)權(quán)重參數(shù)λ設(shè)為10,迭代次數(shù)為20 000。
本研究網(wǎng)絡(luò)在caffe框架下進(jìn)行訓(xùn)練,處理器為Intel(R) Core(TM) i3_7100 CPU@ 3.90GHz*4,內(nèi)存為8 GB,GPU顯卡為1 080 Ti。在此配置環(huán)境下,網(wǎng)絡(luò)訓(xùn)練時(shí)長(zhǎng)約為8 h,每張CT圖像測(cè)試的速度約為0.32 ms。
本研究采用準(zhǔn)確率、敏感度、特異度和假陽(yáng)性率4個(gè)指標(biāo)評(píng)估R-FCN模型對(duì)肺結(jié)節(jié)的檢測(cè)性能,并與基于Faster-RCNN+ResNet-101[13]和SSD(Singles Shot Multibox Detector)[16]的模型比較,三者使用相同的損失函數(shù),且使用同一分割后的數(shù)據(jù)集。測(cè)試樣本包含10例良性病變和10例惡性病變,共500幅CT圖像,其中300幅圖像包含肺結(jié)節(jié),200幅圖像無肺結(jié)節(jié)。惡性病變定義為結(jié)節(jié)邊緣不規(guī)則或有針尖毛刺,生長(zhǎng)速度呈指數(shù)增長(zhǎng)等特點(diǎn);良性病變定義為結(jié)節(jié)邊緣相對(duì)光滑,無毛刺,且生長(zhǎng)速度較慢。測(cè)試結(jié)果見表1、圖5。
表1 3種模型檢測(cè)肺結(jié)節(jié)結(jié)果(%)
Faster-RCNN+ResNet-101、SSD和本研究R-FCN模型對(duì)單張圖像的測(cè)試時(shí)間分別為0.36 s、0.57 s和0.32 s。SSD模型同樣在區(qū)域建議框(region proposal)生成后消除了后續(xù)的特征重新采樣,其測(cè)試速度與R-FCN接近,但準(zhǔn)確率、敏感度、特異度和假陽(yáng)性率均低于R-FCN模型。
本研究結(jié)果顯示,F(xiàn)aster-RCNN+ResNet-101和R-FCN兩種方法檢測(cè)結(jié)節(jié)的準(zhǔn)確率、敏感度、特異度和假陽(yáng)性率相似,R-FCN略高于Faster-RCNN+ResNet-101;R-FCN對(duì)肺結(jié)節(jié)的定位較Faster-RCNN更準(zhǔn)確,且病變位置更接近檢測(cè)框中心(圖5A、5B)。由于前置網(wǎng)絡(luò)的特征提取層相同,兩種方法的檢測(cè)效果相似,但R-FCN使用的位置敏感特征圖較原有的ROI子網(wǎng)(ROI-wise subnetwork)提取位置特征更準(zhǔn)確、精度更高,且卷積層共享,故檢測(cè)速度更快。相比于R-FCN和Faster-RCNN+ResNet-101,SSD模型的效果遠(yuǎn)達(dá)不到CAD系統(tǒng)的要求,對(duì)于特征不明顯的結(jié)節(jié),如磨玻璃結(jié)節(jié)或結(jié)節(jié)體積較小時(shí),SSD難以檢出,漏檢率較高(圖5C)。
圖5 肺結(jié)節(jié)檢測(cè)效果圖,每幅效果圖包含4張經(jīng)過肺部分割后圖像,左上圖為位于肺部中間部位的特征明顯的肺結(jié)節(jié),右上圖為位于肺部邊緣的特征明顯的肺結(jié)節(jié),左下圖為特征不明顯的磨玻璃密度肺結(jié)節(jié),右下圖為特征不明顯的體積較小的肺結(jié)節(jié) A.R-FCN模型; B.Faster-RCNN+ResNet-101模型; C.SSD模型
本研究采用AAR算法對(duì)肺部CT圖像進(jìn)行分割,實(shí)現(xiàn)了肺部實(shí)質(zhì)的完整切割,不影響對(duì)肺部邊緣結(jié)節(jié)的檢測(cè)?;诰矸e神經(jīng)網(wǎng)絡(luò)的結(jié)節(jié)檢測(cè)方法能夠表達(dá)更多的結(jié)節(jié)特征,魯棒性優(yōu)于傳統(tǒng)檢測(cè)方法。R-FCN的位置敏感特征圖替代了原有的ROI子網(wǎng),提高了模型的檢測(cè)速度、精度和整體性能。本研究中R-FCN方法改進(jìn)的方向?yàn)槭占嚓P(guān)于結(jié)節(jié)的信息,將非圖像相關(guān)的信息融入卷積神經(jīng)網(wǎng)絡(luò)中;采用三維卷積提高檢測(cè)準(zhǔn)確率,減少對(duì)小結(jié)節(jié)的漏診,以期達(dá)到或接近人工檢測(cè)水平。
[參考文獻(xiàn)]
[1] 滕雅琴,賈文霄,王云玲,等.計(jì)算機(jī)輔助檢測(cè)系統(tǒng)在CT篩查肺結(jié)節(jié)中的應(yīng)用研究.中國(guó)CT和MRI雜志,2016,14(5):33-35.
[2] Nie SD, Zheng B, Wen L. Design of computer-aided detection and classification of lung nodules using CT images. Journal of System Simulation, 2007,19(5):935-944.
[3] Messay T, Hardie RC,Rogers SK. A new computationally efficient CAD system for pulmonary nodule detection in CT imagery. Med Image Anal, 2010,14(3):390-406.
[4] 孫申申,范立南,任會(huì)之.基于圓點(diǎn)濾波器的毛玻璃型肺結(jié)節(jié)檢測(cè).計(jì)算機(jī)工程,2010,36(23):7-8.
[5] 張婧,李彬,田聯(lián)房,等.結(jié)合規(guī)則和SVM方法的肺結(jié)節(jié)識(shí)別.華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2011,39(2):125-129.
[6] 孫志軍,薛磊,許陽(yáng)明,等.深度學(xué)習(xí)研究綜述.計(jì)算機(jī)應(yīng)用研究,2012,29(8):2806-2810.
[7] LeCun Y, Bengio Y, Hinton G. Deep learning. Nature, 2015,521(7553):436-444.
[8] Krizhevsky A, Sutskever I, Hinton GE. ImageNet classification with deep convolutional neural networks. Lake Tahoe, 26th Annual International Conference on Neural Information Processing Systems, 2012:1097-1105.
[9] Udupa JK, Odhner D, Zhao L, et al. Body-wide hierarchical fuzzy modeling, recognition, and delineation of anatomy in medical images. Med Image Anal, 2014,18(5):752-771.
[10] Ciesielski KC, Udupa JK, Saha PK, et al. Iterative relative fuzzy connectedness for multiple objects with multiple seeds. Comput Vis Image Underst, 2007,107(3):160-182.
[11] Ren S, He K, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks. IEEE Trans Pattern Anal Mach Intell, 2017,39(6):1137-1149.
[12] Shelhamer E, Long J, Darrell T. Fully convolutional networks for semantic segmentation. IEEE Trans Pattern Anal Mach Intell, 2017,39(4):640-651.
[13] He K, Zhang X, Ren S, et al. Deep residual learning for image recognition//IEEE Computer Society. Proceedings of the IEEE computer society conference on computer vision and pattern recognition. Los Alamitors: IEEE Computer Society Press, 2016:770-778.
[14] Shrivastava A, Gupta A, Girshick R. Training region-based object detectors with online hard example mining//IEEE Computer Society. Proceedings of the IEEE computer society conference on computer vision and pattern recognition. Los Alamitors: IEEE Computer Society Press, 2016:761-769.
[15] Hecht-Nielsen R. Theory of the backpropagation neural network//Harry Wechsler. Neural networks for perception (Vol.2). Orlando: Harcourt Brace & Co., 1992:65-93.
[16] Liu W, Anguelov D, Erhan D, et al. SSD: Single shot multibox detector//Bastian Leibe. European conference on computer vision. Cham: Springer, 2016:21-37.
中國(guó)醫(yī)學(xué)影像技術(shù)2018年6期