楊靖祎,謝 洋,周曉葉,陳隆鑫,底 濤
(1.河北醫(yī)科大學(xué)第二醫(yī)院 信息中心,河北 石家莊 050051;2.河北醫(yī)科大學(xué)第二醫(yī)院 數(shù)據(jù)中心,河北 石家莊 050051)
世界衛(wèi)生組織/國家癌癥研究署(WHO/IARC)于2020年發(fā)布了最新版的全球腫瘤報(bào)告《2020全球癌癥報(bào)告》,報(bào)告顯示肺癌是中國乃至全球發(fā)病率和死亡率最高的惡性腫瘤之一。肺癌的早期臨床表現(xiàn)主要為孤立性肺結(jié)節(jié),而結(jié)節(jié)的早發(fā)現(xiàn)、早診斷、早治療可提高肺癌患者的生存質(zhì)量,延長患者的生存期。肺結(jié)節(jié)的傳統(tǒng)檢測方法主要是通過影像科醫(yī)生閱讀CT圖像,尋找可疑的結(jié)節(jié)病灶。但是一組CT圖像有上百張切片,這種人工的檢測方法不僅工作量巨大,而且嚴(yán)重依賴于醫(yī)生水平。因此眾多計(jì)算機(jī)科學(xué)家設(shè)計(jì)了計(jì)算機(jī)輔助檢測系統(tǒng)(computer aided diagnosis, CAD),用于幫助影像科醫(yī)生尋找可疑肺結(jié)節(jié)。
傳統(tǒng)的CAD系統(tǒng)普遍遵循兩階段:候選結(jié)節(jié)檢測和假陽性篩查。假陽性篩查是結(jié)節(jié)檢測的關(guān)鍵部分。早期的學(xué)者通過外觀和形態(tài)學(xué)特征檢測候選結(jié)節(jié),性能并不理想。隨后的研究中增加了梯度和紋理等特征以提高性能。Torres使用前饋神經(jīng)網(wǎng)絡(luò)對候選結(jié)節(jié)進(jìn)行檢測,平均每個掃描假陽性個數(shù)為8.0,敏感性為80.0%。Pulagam從候選結(jié)節(jié)中提取二維和三維特征并利用SVM算法進(jìn)行假陽性篩查,該算法在測試集上敏感度為94.3%,每次掃描假陽性個數(shù)僅為2.6。但是,這些以先驗(yàn)知識為基礎(chǔ),對圖像特征進(jìn)行分析的CAD系統(tǒng),整體算法流程繁瑣,有一定的局限性。
近些年,隨著計(jì)算機(jī)運(yùn)算能力的顯著提升以及深度學(xué)習(xí)技術(shù)的迅速發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)在醫(yī)學(xué)圖像識別領(lǐng)域取得了極大的成功。卷積神經(jīng)網(wǎng)絡(luò)以圖像特征的識別和分類訓(xùn)練模型,并利用準(zhǔn)確率等評價標(biāo)準(zhǔn)來反向指導(dǎo)特征的提取,從而實(shí)現(xiàn)端到端的映射學(xué)習(xí)。Liu等通過提取肺實(shí)質(zhì)區(qū)域、獲取候選結(jié)節(jié)、特征的提取和訓(xùn)練以及結(jié)節(jié)分類作為基本流程進(jìn)行結(jié)節(jié)檢測。Dobrenkii等以殘差網(wǎng)絡(luò)為基礎(chǔ)設(shè)計(jì)了一種三維卷積神經(jīng)網(wǎng)絡(luò),直接對3維候選結(jié)節(jié)樣本進(jìn)行檢測。高慧明等提出一種基于多尺度卷積神經(jīng)網(wǎng)絡(luò)的肺結(jié)節(jié)假陽性篩查方法,將每個候選結(jié)節(jié)輸入到不同尺度的網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,融合三個模型的輸出結(jié)果獲取最終的分類。尤堃等提出了一種基于殘差網(wǎng)絡(luò)的肺結(jié)節(jié)假陽性篩查模型,通過使用單連接路徑重復(fù)利用特征并重組特征的方法進(jìn)行假陽性篩查。劉一鳴等設(shè)計(jì)了一個161層的深度神經(jīng)網(wǎng)絡(luò),對經(jīng)過精細(xì)預(yù)處理的2D結(jié)節(jié)圖像進(jìn)行訓(xùn)練,取得了92.3%的準(zhǔn)確率。上述方法利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行肺結(jié)節(jié)檢測識別,其模型性能遠(yuǎn)強(qiáng)于傳統(tǒng)的檢測方法。
但是,CT本質(zhì)上是三維體積,并且是各向異性的。而基于2D的結(jié)節(jié)檢測模型需要對原始數(shù)據(jù)進(jìn)行切片采樣,未能考慮到結(jié)節(jié)的三維空間特征,導(dǎo)致假陽性率依舊很高,性能提升較為困難。盡管三維醫(yī)學(xué)圖像在臨床實(shí)踐中已經(jīng)相當(dāng)普遍,但是三維卷積神經(jīng)網(wǎng)絡(luò)參數(shù)量極大,并受顯存大小的制約,導(dǎo)致3D CNN在肺結(jié)節(jié)檢測的應(yīng)用研究依舊處于初級階段,研究成果較少。針對上述情況,該文以密集神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)設(shè)計(jì)了TDN-CNN網(wǎng)絡(luò)模型,在以結(jié)節(jié)為中心的64*64*64的3D區(qū)域上訓(xùn)練網(wǎng)絡(luò)。與2D模型相比,該模型雖然參數(shù)量顯著增加,但是充分利用了結(jié)節(jié)的三維空間特征,提升了特征的表達(dá)能力。
C
*H
*W
,C
代表圖像的顏色通道數(shù),RGB圖像的通道數(shù)C
為3,單通道圖像C
為1。卷積層在2維圖像上進(jìn)行卷積,卷積核的大小為C
*K
*K
,輸出的特征圖也是二維的。CNN的強(qiáng)大之處在于它的多層網(wǎng)絡(luò)結(jié)構(gòu)可以自動學(xué)習(xí)圖像特征。但是,2D CNN沒有考慮到圖像之間時間維度上物體的運(yùn)動信息,未能充分利用三維立體數(shù)據(jù)的空間信息。CT圖像的切片是身體部位的橫截面圖像,通常為單通道圖像。有些學(xué)者將CT的切片在Z維度上進(jìn)行拼接組合代替顏色通道,以適應(yīng)立體數(shù)據(jù)作為2D網(wǎng)絡(luò)的輸入。例如,周芳芳設(shè)計(jì)了基于2.5D級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)模型用于CT圖像的臟器分割。但是,這種基于2D CNN的解決方案仍無法充分利用圖像的三維空間信息,尤其是對于CT圖像,忽視了人體器官的空間結(jié)構(gòu)。而如果使用3D卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取,該問題便迎刃而解。3D卷積神經(jīng)網(wǎng)絡(luò)中,輸入的立體圖像為C
*D
*H
*W
,卷積核大小為C
*D
*K
*K
,即卷積核在輸入圖像的三維空間維度上進(jìn)行滑窗操作。其中,D
為輸入圖像的個數(shù)或視頻的幀數(shù),即為卷積核的第三維度,因此輸出依然是三維圖像,如圖1所示。圖1 3D CNN
L
層為例,其公式如式(1)所示。X
為第L
層的輸出特征圖,函數(shù)H
由Batch Norm、ReLU和3*3卷積組成。第L
層的輸入[X
,X
,…,X
-1]由第0層至第L
-1層網(wǎng)絡(luò)的輸出在通道維度上進(jìn)行拼接組成,如果K
為輸入層的維度,則第L
層的維度為K
+K
*(L
-1),其中K
為超參數(shù)-增長率。稠密塊強(qiáng)化了特征的傳遞,但是由于其在通道維度上進(jìn)行拼接,導(dǎo)致每個稠密塊輸出特征圖的channel顯著增大,網(wǎng)絡(luò)參數(shù)冗余。因此,在每個稠密塊之間添加1*1的卷積作為傳遞層,旨在控制特征圖數(shù)量、降低參數(shù)冗余。X
=H
([X
,X
,…,X
-1])(1)
K
,卷積層產(chǎn)生2K
個特征映射,其余所有層產(chǎn)生4K
個特征映射。池化層采用3*3*3的最大池化操作(Max Pooling 3*3*3),步長為2。經(jīng)過預(yù)處理的3D結(jié)節(jié)樣本經(jīng)過卷積層和池化層后,得到16*16*16的特征圖,再依次通過稠密塊和傳遞層,最后利用全連接層輸出結(jié)節(jié)的預(yù)測概率值。稠密塊由若干個包含Batch Norm、ReLU激活函數(shù)、1*1*1卷積、Batch Norm、ReLU、3*3*3卷積和dropout的組合操作組成,其中稠密塊DB_1如圖3所示。每兩個稠密塊中間是傳遞層,由Batch Norm、ReLU、1*1*1卷積和2*2*2的平均池化組成。模型的全連接層使用sigmoid激活函數(shù),參數(shù)設(shè)置細(xì)節(jié)如表1所示。圖2 網(wǎng)絡(luò)結(jié)構(gòu)
圖3 稠密塊DB_1結(jié)構(gòu)
表1 模型參數(shù)設(shè)置
根據(jù)胸部CT影像的特點(diǎn),以3D密集神經(jīng)網(wǎng)絡(luò)為基礎(chǔ),構(gòu)建了肺結(jié)節(jié)假陽性篩查模型:TDN-CNN,算法整體流程如圖4所示。
圖4 算法流程
算法主要包括4個步驟:
(1)提取肺實(shí)質(zhì)。對LIDC數(shù)據(jù)集,選取候選數(shù)據(jù),使用U-net模型提取肺實(shí)質(zhì)并進(jìn)行圖像的重采樣與數(shù)據(jù)的歸一化;
(2)提取3D肺結(jié)節(jié)VOI(volume of interest)樣本。以結(jié)節(jié)區(qū)域?yàn)橹行?,截?4*64*64的三維肺結(jié)節(jié)圖像作為正樣本數(shù)據(jù),劃分?jǐn)?shù)據(jù)集,并對正樣本進(jìn)行數(shù)據(jù)增廣;
(3)構(gòu)建網(wǎng)絡(luò)模型,進(jìn)行模型訓(xùn)練、參數(shù)的調(diào)整;
(4)對訓(xùn)練好的模型在測試集上進(jìn)行測試,并根據(jù)評價指標(biāo)對模型進(jìn)行評估。
該文使用公開的數(shù)據(jù)集LIDC,選取層厚小于等于2.5 mm的共888組CT圖像;選取3位及以上專家共同標(biāo)注的直徑大于等于3 mm的結(jié)節(jié)共計(jì)1 186個。
肺結(jié)節(jié)只存在于肺實(shí)質(zhì)中,其特征復(fù)雜,與周圍的血管和胸腔等組織關(guān)聯(lián)緊密。模型訓(xùn)練前需要對圖像進(jìn)行預(yù)處理,旨在縮小算法的問題空間,減少無關(guān)信息對模型的干擾。傳統(tǒng)的閾值法提取肺實(shí)質(zhì),流程復(fù)雜繁瑣,需要結(jié)合形態(tài)學(xué)方法修補(bǔ)邊界凹陷。2015年提出的U-net網(wǎng)絡(luò),已被成功應(yīng)用于醫(yī)學(xué)圖像分割領(lǐng)域,即使在很少的訓(xùn)練樣本量中也能夠進(jìn)行精確的分割。因此,該文使用U-net網(wǎng)絡(luò)對CT圖像進(jìn)行肺區(qū)的分割,提取肺實(shí)質(zhì)。
U-net網(wǎng)絡(luò)是一個全卷積神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)由下采樣和上采樣兩個部分組成。下采樣部分利用卷積和池化對輸入數(shù)據(jù)進(jìn)行降維和特征提取,上采樣部分對淺層特征進(jìn)行升維和特征放大。上采樣得到的特征圖通過concat與下采樣部分對應(yīng)層進(jìn)行特征融合。數(shù)據(jù)集一張CT切片大小為512*512,一組CT有上百張切片。而且,在CT切片中,肺實(shí)質(zhì)占整體圖像的面積將近50%。因此,該文將2D U-net網(wǎng)絡(luò)簡化為3次下采樣、3次上采樣,對每張CT切片進(jìn)行肺實(shí)質(zhì)提取,模型如圖5所示。
圖5 2D U-net網(wǎng)絡(luò):肺實(shí)質(zhì)提取模型
由于不同醫(yī)療機(jī)構(gòu)使用的CT設(shè)備,導(dǎo)致不同醫(yī)療機(jī)構(gòu)的CT影像采樣間距存在不同的情況。LIDC數(shù)據(jù)集的圖像來自不同醫(yī)療機(jī)構(gòu),其采樣間距在0.6 mm到5.0 mm之間。CT影像反映的是人體組織在三維空間的信息,而三維模型的訓(xùn)練會受到空間信息特征的影響,所以三個方向的采樣間距需要統(tǒng)一,以消除空間信息的不一致對模型性能的制約。該文對經(jīng)過U-net分割后的肺實(shí)質(zhì)圖像在X
、Y
和Z
三個方向進(jìn)行重采樣。不同CT設(shè)備的采樣間距不同、像素間隔不同,這些信息可以從DICOM文件中獲取。像素間隔是一個向量,可以用[x
,y
,z
]分別表示X
、Y
、Z
三個方向的像素間隔,通常情況下X
和Y
方向的像素間隔相同,Z
方向與X
和Y
方向的像素間隔可能不同。假設(shè)原始圖像的大小為[deep,height,width],重采樣為[1,1,1] mm的像素間隔,則重采樣后圖像的大小就為[deep*z
/1,height*y
/1,width*x
/1]。由此可見,圖像的重采樣就是將原始圖像按照[x
,y
,z
]的比例進(jìn)行各個方向的縮放,得到大小為[deep*z
/1,height*y
/1,width*x
/1]的圖像的過程。不同的CT設(shè)備的容度不同,導(dǎo)致不同設(shè)備采集的CT圖像的最大值和最小值有較大差距。CT值的大小取決于物質(zhì)的密度。骨骼密度最高,它的CT值為+1 000 HU;空氣的密度最低,它的CT值為-1 000 HU。即人體的CT值范圍在-1 000 ~ +1 000 HU之間,而肺結(jié)節(jié)的CT值范圍是(-1 000,400)。因此,將閾值設(shè)置為-1 000和400,對重采樣后的肺實(shí)質(zhì)圖像歸一化到(0,1),以便于神經(jīng)網(wǎng)絡(luò)從中抽取有效的圖像特征。
深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練往往需要大量的數(shù)據(jù),研究學(xué)者提出了多種數(shù)據(jù)增廣方法,如平移、旋轉(zhuǎn)、添加噪聲和翻轉(zhuǎn)等。因此,該文對訓(xùn)練集中的每個3D結(jié)節(jié)樣本,在上、下、左、右四個方向,以1為步長、[1, 5]為像素范圍進(jìn)行平移。再對每個樣本,從三個正交維度(冠狀、矢狀和軸位置)進(jìn)行翻轉(zhuǎn)。驗(yàn)證集和測試集不做數(shù)據(jù)增廣,隨機(jī)截取等量的無肺結(jié)節(jié)的樣本作為負(fù)樣本集,分別放入訓(xùn)練集、驗(yàn)證集和測試集中。
(2)
該文使用FROC(free-response ROC,F(xiàn)ROC)曲線評估模型性能。該曲線的橫坐標(biāo)為平均每個CT中的假陽性樣本數(shù)量(false positive per scan,F(xiàn)PPS),縱坐標(biāo)為敏感性。競爭性指標(biāo)(competition performance metric,CPM)為FROC中FPPS在[0.125, 0.25, 0.5, 1, 2, 4和8]下的平均敏感度,其反映模型的綜合查全能力,值越高模型性能越優(yōu)。
深度學(xué)習(xí)中,參數(shù)的設(shè)置直接決定了模型的性能表現(xiàn)。該文使用網(wǎng)格搜索調(diào)整模型的增長率K
和隨機(jī)失活dropout,以探究不同超參數(shù)設(shè)置下對模型性能的影響。不同參數(shù)下,模型性能表現(xiàn)如表2所示。當(dāng)模型的增長率K
為12,dropout為0.2時,性能達(dá)到最優(yōu),其訓(xùn)練過程如圖6所示。訓(xùn)練集上,F(xiàn)PPS=2時敏感度達(dá)到88.9%,模型的CPM為0.84,F(xiàn)ROC曲線如圖7所示。表2 不同參數(shù)的模型性能對比
圖6 模型訓(xùn)練損失
圖7 FROC曲線
該文亦設(shè)計(jì)了具有相同結(jié)構(gòu)的2D模型作為對比實(shí)驗(yàn),并與文獻(xiàn)[8-10]中的方法進(jìn)行了比較,如表3所示,所有模型均使用LIDC數(shù)據(jù)集。
表3 不同模型肺結(jié)節(jié)假陽性篩查CPM指標(biāo)對比
Dobrenkii等設(shè)計(jì)了三維ResNet模型,將CT圖像的體素間距重采樣為(0.9,0.7,0.7) mm后截取結(jié)節(jié)的VOI。文中方法將CT圖像的體素間距重采樣為(1.0, 1.0, 1.0) mm,在FROC中的7個代表性點(diǎn)的敏感度均高于Dobrenkii設(shè)計(jì)的模型。尤堃等設(shè)計(jì)了單連接路徑 3D CNN模型,并融合了密集連接的思想,CPM值為0.747。雖然顯著低于文中模型,但該模型的參數(shù)量為199 661,與文中模型參數(shù)量相比在計(jì)算量上有其自身優(yōu)勢。高慧明等設(shè)計(jì)了3個尺度不同的3D CNN模型,每個模型的CPM介于0.730到0.773之間。但是,采用AdaBoost加權(quán)投票機(jī)制融合3個模型的輸出結(jié)果,其CPM達(dá)到0.827。雖然該方法的CPM得分接近文中模型,但是數(shù)據(jù)預(yù)處理繁瑣,需對同一個結(jié)節(jié)樣本提取3種不同尺度,模型訓(xùn)練復(fù)雜。并且,已有學(xué)者證明,對于多尺度網(wǎng)絡(luò)模型將全局池化層的輸出在通道維度上進(jìn)行拼接再連接至分類層性能表現(xiàn)優(yōu)于加權(quán)投票機(jī)制。2D模型雖然與3D模型具有相同的網(wǎng)絡(luò)結(jié)構(gòu),但是其忽略了結(jié)節(jié)的3維空間特征,CPM得分顯著低于3D模型。
該文提出了一種基于3D密集神經(jīng)網(wǎng)絡(luò)的降低肺結(jié)節(jié)假陽性率的方法,用于從大量候選結(jié)節(jié)中篩查真實(shí)結(jié)節(jié)。實(shí)驗(yàn)結(jié)果表明,該方法能夠有效解決肺結(jié)節(jié)檢測系統(tǒng)中候選結(jié)節(jié)篩查階段假陽性率較高的問題。與2D模型相比,該方法雖然增加了參數(shù)量,但是模型充分利用了結(jié)節(jié)的三維空間特征,提升了模型特征的表達(dá)能力。自Transformer架構(gòu)問世以來,其不僅成為自然語言處理領(lǐng)域的主流模型,也為計(jì)算機(jī)視覺領(lǐng)域帶來了巨大的革新,在圖像的分類、檢測和分割上都取得了不錯的效果。因此,在未來的研究工作中,將考慮引用Transformer進(jìn)行結(jié)節(jié)的檢測工作。