張 娜,張永壽,李 翔,叢金玉,李徐周,魏本征
(1 山東中醫(yī)藥大學(xué) 智能與信息工程學(xué)院,山東 濟南 250355;2 解放軍第960醫(yī)院醫(yī)學(xué) 工程科,山東 濟南 250031;3 山東中醫(yī)藥大學(xué) 醫(yī)學(xué)人工智能研究中心,山東 青島 266112;4 山東中醫(yī)藥大學(xué) 第一臨床醫(yī)學(xué)院,山東 濟南 250355;5 山東中醫(yī)藥大學(xué) 青島中醫(yī)藥科學(xué)院,山東 青島 266112;6 山東青年政治學(xué)院 信息工程學(xué)院,山東 濟南 250103)
膀胱癌是起源于膀胱尿路上皮的一種惡性腫瘤,其發(fā)生率位居我國泌尿系統(tǒng)腫瘤的第1位[1]。據(jù)統(tǒng)計,男性患該病的可能性約是女性的4倍。我國男性膀胱癌患者的發(fā)生率位于惡性腫瘤第7位,并且呈逐年增長的趨勢[2-4]。
臨床中,膀胱癌的診斷以膀胱鏡檢查為主,但該方法屬于有創(chuàng)檢查,且存在對微小腫瘤不敏感、無法確定腫瘤對膀胱壁的入侵情況等缺點[5-6]。MRI因其在組織對比度和軟組織分辨率上的優(yōu)越性,已成為膀胱癌輔助診斷的主要工具之一[7-9]。但在膀胱癌MRI圖像中,存在腫瘤區(qū)域相對較小、邊界不清晰、腫瘤分布不連續(xù)等問題(如圖1所示),給腫瘤區(qū)域分割工作增加了難度。因此,開發(fā)快速且精準的膀胱癌MRI圖像分割算法輔助臨床診斷,成為一個熱點問題。
圖1 膀胱癌分割中的挑戰(zhàn)
近年來,膀胱癌圖像分割算法已經(jīng)取得了一些進展。一些學(xué)者采用耦合方向水平集、形態(tài)學(xué)特征等傳統(tǒng)方法對膀胱癌進行分割,但分割精度仍有待提升。此外,部分學(xué)者對U-Net算法進行改進來分割膀胱癌圖像,改進方式包括在編碼層增加空洞卷積或深度可分離卷積等,分割效果顯著。雖然這些方法在分割精度方面有所提高,但是在改進過程中引入了額外的模塊,導(dǎo)致算法的參數(shù)量龐大,運算復(fù)雜。
為了解決膀胱癌MRI圖像的分割問題,以及彌補現(xiàn)有分割算法中存在的性能與計算成本差距,本文設(shè)計了一種新穎的多尺度特征融合的輕量化膀胱癌分割算法(pyramidal convolution lightweight network, PylNet),實現(xiàn)了膀胱癌的快速分割。相較于FCN8s、SegNet等算法,本文算法的Dice系數(shù)(Dice similariy coefficient, DSC)可達88.40%,有一定的提高。更重要的是,本文提出的PylNet算法參數(shù)量相比其他常用模型的參數(shù)量更小,是FCN8s模型的1/13,更適用于臨床應(yīng)用與研究。并且,本文在算法的編碼部分設(shè)計了一種新穎的金字塔卷積塊,能夠提取出圖像的多尺度特征信息,解決了不同形狀和大小的腫瘤區(qū)域細節(jié)信息丟失的問題,更有利于微小腫瘤區(qū)域的提取。同時,本文優(yōu)化了算法的解碼結(jié)構(gòu),在解碼過程中未引入復(fù)雜的上采樣卷積操作,設(shè)計的多尺度特征融合模塊提升了解碼效率,并有效地降低了參數(shù)量。
近年來,為了提高膀胱癌的診斷水平和效率,許多專家學(xué)者致力于膀胱腫瘤圖像的分割工作?,F(xiàn)有的膀胱癌圖像分割方法可以劃分為傳統(tǒng)方法和深度學(xué)習(xí)方法。
在傳統(tǒng)方法方面,Xiao等利用模糊C均值和水平集的方法分割膀胱壁,然后計算其厚度,得到腫瘤的位置[10]。Zheng等聯(lián)合耦合方向水平集、形態(tài)學(xué)特征提取等方法獲得膀胱的內(nèi)外壁以及疑似腫瘤區(qū)域,提取紋理、灰度、位置特征,選擇最優(yōu)特征進行訓(xùn)練,最后對測試集中的樣本準確提取腫瘤區(qū)域并使用DSC指標對分割結(jié)果進行定量評價[11]。Zhang等通過解決閉合圖上的最小割問題來分割膀胱壁,優(yōu)化針對單個表面和定義表面光滑度和相互作用的幾何約束的成本函數(shù)獲得結(jié)果[12]。
在深度學(xué)習(xí)方面,Ma等開發(fā)出一種基于U-Net的深度學(xué)習(xí)模型,對CT泌尿系造影中的膀胱分割,并把不同條件的數(shù)據(jù)輸入到模型中,比較結(jié)果[13]。Dolz等在U-Net的基礎(chǔ)上用空洞卷積替代每個卷積塊,且將底部網(wǎng)絡(luò)更換成殘差塊[14]。Liu等設(shè)計出一種新穎的全卷積神經(jīng)網(wǎng)絡(luò)來解決膀胱癌分割問題,網(wǎng)絡(luò)結(jié)構(gòu)由具有金字塔形編碼器和解碼器的骨干以及空洞空間金字塔池組成,以捕獲上下文信息[15]。Cha等開發(fā)了一種膀胱癌CT圖像分割方法,用治療前的CT圖像訓(xùn)練深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),使用留一法交叉驗證進行腫瘤邊界檢測,并與3D手動分割結(jié)果進行對比[16]。韓文忠等提出一種基于U-Net改進的全卷積網(wǎng)絡(luò),將卷積層替換為殘差塊進行下采樣,且引入空洞卷積獲得特征;同時,對圖像加入噪聲、調(diào)節(jié)亮度等來進行數(shù)據(jù)擴增[17]。
雖然以上研究在膀胱癌圖像分割方面均取得了不同程度的進展,但是圖像的細節(jié)信息沒有很好地被利用,且模型的參數(shù)量龐大,計算過程較為復(fù)雜,分割過程較緩慢。因此,本文設(shè)計一種PylNet算法,極大地減少算法模型的參數(shù)量和復(fù)雜度,提高分割的速度和精度。
本文設(shè)計的PylNet算法框架如圖2所示,由編碼階段的多尺度特征提取模塊和解碼階段的多尺度特征融合模塊兩個部分構(gòu)成。對于輸入的膀胱癌圖像,首先利用多尺度特征提取模塊完成膀胱癌圖像的特征提?。黄浯卧诙喑叨忍卣魅诤夏K中對每個卷積塊生成的特征圖進行降維,并使用雙線性插值將不同卷積塊生成的圖像插值到相同尺寸大?。蛔詈髮⒉逯岛蟮膱D像進行融合,得到最終的分割結(jié)果。
圖2 本文算法結(jié)構(gòu)框架圖
在目標區(qū)域形狀不同的圖像分類或分割任務(wù)中,若使用單一尺寸的卷積核,可能造成部分細節(jié)信息遺漏,最終導(dǎo)致算法性能欠佳。2021年,Li等提出了一種PyConvU-Net網(wǎng)絡(luò)結(jié)構(gòu),加入了新穎的金字塔卷積(pyramidal convolution, Pyconv)[18]。金字塔卷積的每一層均包含不同大小和深度的卷積核,每一層內(nèi)部還進行了分組卷積,可在不增加參數(shù)量和模型復(fù)雜度的前提下,提取多尺度信息,并且在圖像分類以及分割任務(wù)上都具有很好的性能。
受以上思路的啟發(fā),本文算法設(shè)計的多尺度特征提取模塊包括5個卷積塊和4個池化層。卷積塊主要用于多尺度特征提取,池化層可對生成的特征圖進行降維。如圖3所示,每個卷積塊由前后2組卷積操作構(gòu)成,每組卷積操作均包含卷積層、批正則化層和非線性激活函數(shù)。由于卷積塊中未包含任何池化函數(shù),因此輸出的特征圖尺寸和輸入保持一致。
圖3 卷積塊結(jié)構(gòu)示意圖
在第l層卷積塊中,給定輸入圖像或特征圖xl-1∈RH×W×Cin,前一組卷積操作主要采用3×3的卷積核提取xl-1的特征信息,經(jīng)過卷積等操作后輸出xl’∈RH×W×C’。上述過程可表示為
(1)
由圖3可知,本文設(shè)計的金字塔卷積由3個不同尺寸的卷積核構(gòu)成,每個卷積核都會輸出相同尺寸但通道數(shù)不同的特征圖,最后將生成的特征圖在通道維度進行級聯(lián)拼接。上述過程可表示為
(2)
F=(Fk1+Fk2+Fk3)。
(3)
得到金字塔卷積輸出的級聯(lián)特征圖后,對其使用批正則化和Relu非線性激活函數(shù)進行處理。最終,第l層卷積塊的輸出結(jié)果為
xl=Relu(Norm(F))。
(4)
式中:xl∈RH×W×Cout,且本文算法設(shè)置Cout=C″,即后一組卷積操作中的特征圖尺寸和通道數(shù)在卷積前后均相同。
此外,在常規(guī)卷積操作中,卷積的參數(shù)量為
Np=K2×Cin×Cout。
(5)
式中:K2代表卷積核尺寸相乘;Cin和Cout分別代表特征圖的輸入和輸出通道。在金字塔卷積中,因引入不同尺度的卷積核,因此卷積參數(shù)量為
(6)
本文將輸出的特征圖輸入池化層進行降維,然后以相同的過程執(zhí)行后續(xù)的卷積塊,5個卷積塊分別輸出32、64、128、256和512通道的特征圖。與僅使用一種卷積核相比,該方式生成的特征圖包含的語義特征豐富,更有利于后續(xù)的解碼過程。
在多尺度特征提取模塊中,每個卷積塊均提取了不同尺度的語義信息。在多尺度特征融合模塊中,針對第l層卷積塊生成的特征圖xl,本文首先使用1×1的卷積將特征圖壓縮為1通道:
(7)
獲取通道為1的特征圖后,本文使用雙線性插值方法將F1×1插值至輸入圖片尺寸,即在解碼階段無需復(fù)雜的2倍卷積上采樣操作,直接將不同尺度的特征圖標準化至相同尺寸。假設(shè)特征圖F1×1中的某一像素點f(x,y),先找到像素點f附近的4個像素點,分別為Q11(x1,y1)、Q12(x1,y2)、Q21(x2,y1)、Q22(x2,y2),則像素點f(x,y)值可按如下方式估算:
(8)
(9)
(10)
(11)
f(x,y)=A+B+C+D。
(12)
本文數(shù)據(jù)集來源于山東中醫(yī)藥大學(xué)附屬醫(yī)院,包括86名患者共1 320張膀胱癌MRI圖像。采用磁共振儀(GE Discovery MR 750 3.0T)對所有患者進行檢查,每次掃描80~124個切片,每個切片的大小為512×512像素,像素分辨率為0.5 mm×0.5 mm。另外,切片的厚度為1 mm,切片之間的間隔也為1 mm。三維掃描的采集時間范圍為160.456~165.135 s。重復(fù)和回聲時間分別為2 500 ms和135 ms。圖像尺寸統(tǒng)一為512×512,每張圖像由3位經(jīng)驗豐富的臨床醫(yī)生標記出腫瘤區(qū)域。為測試所提算法的魯棒性和泛化性能,本文使用五折交叉驗證方法對數(shù)據(jù)集進行劃分。
本文算法采用PyTorch 1.4深度學(xué)習(xí)框架[19]編寫。算法在Intel 6246 CPU、NVIDIA Tesla V100 32 GiB GPU上進行訓(xùn)練和測試。使用隨機梯度下降(stochastic gradient descent,SGD)作為優(yōu)化器,初始算法學(xué)習(xí)率設(shè)置為0.1,隨著訓(xùn)練次數(shù)增加,學(xué)習(xí)率逐漸降低。采用二進制交叉熵(binary cross entropy,BCE)函數(shù)作為損失函數(shù),公式如下:
A=PGT(a,b),
(13)
B=PPRD(a,b),
(14)
LBCE=-∑(a,b)[AlogB+(1-A)·
log(1-B)]。
(15)
式中:(a,b)表示某一像素點;PGT(a,b)為真實標簽的概率;PPRD(a,b)為預(yù)測標簽的概率。
本文用DSC(式中簡記為DSC)、交并比(intersection over union,IOU,式中簡記為IoU)、參數(shù)量、推理時間以及模型計算力(floating point operations,F(xiàn)LOPs)5個評價指標來對膀胱癌區(qū)域分割效果做出評測。
(16)
(17)
式中:TP表示正樣本被正確地判斷為正樣本的數(shù)目,F(xiàn)P表示負樣本被錯誤地判斷為正樣本的數(shù)目;FN表示正樣本被錯誤地判斷為負樣本的數(shù)目[20]。
模型推理時間(Time)指模型完成分割任務(wù)所耗費的平均時間,與模型的分割速度成正比。FLOPs為計算量,用來衡量模型的復(fù)雜度,且與復(fù)雜度成正比。
3.3.1 不同算法的性能比較
為了驗證所提PylNet算法的性能,將其與不同的算法模型進行對比,實驗結(jié)果如表1所示。其中,U-Net網(wǎng)絡(luò)包含了批正則化層,且進行了補零操作,使其輸出尺寸為512×512。BiSeNet[21]是一種包含空間細節(jié)分支和分類語義分支的雙邊分割網(wǎng)絡(luò),可實現(xiàn)高精度和高效率的語義分割。由實驗結(jié)果可知,本文算法在DSC指標和IOU指標上均取得了最好的效果,IOU指標較FCN8s提高26.86%,且模型的復(fù)雜度低,推理時間較小。
表1 不同算法的性能比較
本文對上述算法的參數(shù)量進行了統(tǒng)計,統(tǒng)計結(jié)果如圖4所示。從圖中可得,PylNet算法的參數(shù)量較具有復(fù)雜卷積上采樣的U-Net降低了24.93×106。主要原因是PylNet算法優(yōu)化了網(wǎng)絡(luò)的解碼結(jié)構(gòu),提高了解碼效率,且受益于設(shè)計的多尺度特征提取模塊,使得PylNet算法未引入復(fù)雜的卷積上采樣操作,在IOU等指標上取得了比U-Net更優(yōu)的結(jié)果。
圖4 不同算法的參數(shù)量比較
3.3.2 消融實驗
本文通過消融實驗進一步驗證所提卷積塊的有效性。實驗結(jié)果如圖5所示,其中Pyconv代表網(wǎng)絡(luò)下采樣過程中,每層卷積塊包含所設(shè)計的金字塔卷積。本文同時使用常規(guī)的3×3卷積代替金字塔卷積以實現(xiàn)無金字塔卷積的效果。由實驗結(jié)果可得,加入金字塔卷積后,算法的分割性能得到了一定程度的提升,說明本文設(shè)計的金字塔卷積以及卷積塊可有效提取多尺度的語義信息,有利于不同形狀和大小的膀胱癌病灶區(qū)域分割。
圖5 金字塔卷積性能測試結(jié)果圖
為進一步探究金字塔卷積中卷積核的大小和通道比例對算法性能的影響,本文對不同大小以及數(shù)量的卷積核進行實驗對比,實驗結(jié)果如表2所示。
表2 不同卷積核性能測試結(jié)果統(tǒng)計表
實驗發(fā)現(xiàn),當卷積核為3、5、7,通道比例為1/2、1/4、1/4時,算法的性能最佳。此時,每層卷積塊中融合的特征圖以3×3卷積生成的為主,說明在當前的膀胱癌分割任務(wù)中,腫瘤的區(qū)域較小,使用較小的感受野,即小尺寸的卷積核可以更好地提取圖像底層的像素級特征。
從測試集中任意選取2張圖像,不同算法的分割結(jié)果對比如圖6所示。從圖中可得,針對小目標腫瘤邊界的分割,PylNet算法分割效果優(yōu)于其他算法模型。
圖6 分割結(jié)果圖
綜上所述,本文設(shè)計的PylNet算法模型與U-Net、FCN8s、DeepLabV3+等常用分割模型相比,分割精度有了一定的提升,算法的分割效率較高,且參數(shù)量更少,為臨床應(yīng)用與研究提供了一定的幫助。
本文設(shè)計了一種PylNet算法模型,將膀胱癌圖像輸入模型,提取并融合其多尺度特征以實現(xiàn)腫瘤區(qū)域的分割。模型參數(shù)量為9.60×106,是FCN8s的1/13。相比同類模型,PylNet模型大程度地減少了計算量和模型復(fù)雜度,實現(xiàn)了對膀胱癌區(qū)域的快速分割,提高了膀胱癌的診治效率。研究結(jié)果表明,本文設(shè)計的PylNet算法有較好的分割性能,為臨床醫(yī)生診斷膀胱癌并確定患者的治療方案提供了有價值的參考。因本文采用的數(shù)據(jù)集較小,今后還需要采集更多數(shù)據(jù)進一步驗證模型。此外,本文算法在保證精度的情況下,實現(xiàn)了輕量級分割,對準確度的提升較小,在今后的研究中仍需進行改進以提升膀胱癌區(qū)域分割效果。