吉 彬,任建君,鄭秀娟,譚 聰,吉 蓉,趙 宇,劉 凱
(1.四川大學(xué) 電氣工程學(xué)院 自動化系,成都 610065; 2.四川大學(xué)華西醫(yī)院 耳鼻咽喉-頭頸外科,成都 610041; 3.成都醫(yī)學(xué)院第一附屬醫(yī)院 耳鼻咽喉頭頸外科,成都 610500; 4.西安醫(yī)學(xué)院 臨床醫(yī)學(xué)院,西安 710021)
喉白斑是喉黏膜上由慢性喉炎、微量元素缺乏等非特殊感染引起的白色病灶[1],呈斑塊或斑片狀[2],因為其多出現(xiàn)于聲帶黏膜,所以也稱為聲帶白斑。喉白斑屬于癌前組織病變[3],給患者帶來極大健康隱患,因此,準(zhǔn)確檢測出白斑病灶對于防止該病惡化與及時治療至關(guān)重要。
對喉白斑進(jìn)行分類是當(dāng)前研究人員工作的重點。文獻(xiàn)[4]將640位臨床病患的喉白斑按照外觀分為光滑平坦、光滑肥厚和粗糙3種,并利用治療方案與結(jié)果進(jìn)行統(tǒng)計學(xué)分析。文獻(xiàn)[5]根據(jù)形態(tài)學(xué)外觀將喉白斑分為平坦、光滑、隆起和粗糙等類型,將分類結(jié)果與最終病理等級進(jìn)行比較。文獻(xiàn)[6]根據(jù)顏色、質(zhì)地、大小、充血程度、厚度和對稱性等形態(tài)特征對喉白班進(jìn)行分類并打分。目前,研究人員對喉白斑的研究主要是按照臨床觀察結(jié)果和統(tǒng)計學(xué)方法對其分類,對喉鏡圖像中喉白斑病灶進(jìn)行檢測與分割的研究較少。由于喉白斑病灶的精確分割能為病變治療和癌變預(yù)防提供指導(dǎo)和依據(jù),因此其十分重要。目前,喉白斑病灶的準(zhǔn)確分割存在白斑邊界模糊難以準(zhǔn)確勾畫、喉部粘膜表面平滑濕潤反光易被誤診為白斑等問題。
如果大量的喉鏡圖像全部采用人工檢視,則會增加醫(yī)生工作量,使用基于機(jī)器學(xué)習(xí)和圖像處理技術(shù)的計算機(jī)輔助診斷可避免該問題。深度學(xué)習(xí)是目前醫(yī)療圖像分割主要采用的方法,其中,神經(jīng)網(wǎng)絡(luò)算法應(yīng)用最廣泛。醫(yī)療圖像分割方法根據(jù)訓(xùn)練方式不同主要分為滑動窗卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)、全卷積神經(jīng)網(wǎng)絡(luò)(Full Convolutional Neural Network,FCN)和遷移學(xué)習(xí)等方法。其中,滑動窗CNN方法利用圖像的像素塊訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò),并用滑動窗的方式進(jìn)行測試。該方法已成功用于大腦白質(zhì)分割[7],但是會消耗大量內(nèi)存且計算時間冗長。文獻(xiàn)[8]采用端到端的FCN方法大幅提高了訓(xùn)練時間和效率。在此基礎(chǔ)上,文獻(xiàn)[9]提出U-Net模型,由于其結(jié)構(gòu)簡單適用于小數(shù)據(jù)集,因此在皮膚病分割[10]、肺結(jié)節(jié)檢測[11]、肝臟分割[12]及海馬體分割[13]等醫(yī)學(xué)圖像分析領(lǐng)域得到廣泛應(yīng)用。基于U-Net在語義分割任務(wù)中的有效性能,研究人員提出許多由U-Net改進(jìn)的變體,如M-Net[14-15]、U-Net++[16-17]等。遷移學(xué)習(xí)法廣泛用于乳腺超聲波圖像的疾病診斷[18]。該方法使用非醫(yī)療圖像預(yù)訓(xùn)練模型,以克服醫(yī)療圖像數(shù)據(jù)量小的問題。上述神經(jīng)網(wǎng)絡(luò)框架分別針對不同醫(yī)療圖像分割任務(wù)而提出,對喉鏡圖像中喉白斑病灶分割有良好的借鑒和啟發(fā)意義。
本文針對喉鏡圖像中喉白斑邊界模糊等問題,提出一種采用多尺度循環(huán)卷積神經(jīng)網(wǎng)絡(luò)的喉白斑病灶分割方法,對U-Net進(jìn)行改進(jìn),以多尺度卷積和遞歸卷積層代替編碼和解碼單元卷積層構(gòu)造新U型結(jié)構(gòu),并對多尺度輸出層求均值得到最終輸出結(jié)果。
改進(jìn)的U-Net(MRU-Net)結(jié)構(gòu)由U型網(wǎng)絡(luò)、多尺度輸入和輸出等部分構(gòu)成,融合了U-Net[9]、M-Net[14-15]和遞歸卷積層(Recurrent Convolution Layer,RCL)[19]的特點,其整體結(jié)構(gòu)如圖1所示。
U型網(wǎng)絡(luò)是MRU-Net的主體結(jié)構(gòu),其在經(jīng)典的U-Net[9]基礎(chǔ)上進(jìn)行改進(jìn),具有編碼和解碼單元,在編碼路徑使用2×2最大池化進(jìn)行下采樣,在解碼單元使用轉(zhuǎn)置卷積進(jìn)行上采樣。每次卷積后使用relu函數(shù)激活,并利用裁剪和復(fù)制操作將特征圖從編碼單元傳遞到解碼單元以傳遞漸層特征。
為獲得較好分割模型,主要采用增加深度(層數(shù))和寬度(神經(jīng)元數(shù))的方法。在U-Net基礎(chǔ)上利用卷積核替換增加網(wǎng)絡(luò)寬度,在編碼單元中使用與inception v3類似的多尺度卷積[20]替換尺度單一的3×3卷積。多尺度卷積由1×1、3×3、5×5和7×7 4種不同尺寸的卷積核構(gòu)成,其結(jié)構(gòu)如圖2所示。不同尺寸的卷積核可使網(wǎng)絡(luò)具有不同大小的感受野,并通過拼接實現(xiàn)特征融合。
圖2 多尺度卷積結(jié)構(gòu)Fig.2 Multi-scale convolution structure
在多尺度卷積中,由于直接使用5×5和7×7的卷積核會帶來巨大計算量,因此使用2個連續(xù)3×3卷積層代替1個5×5卷積核,從而在保持一樣感受野的同時減少參數(shù)。此外,使用7×1和1×7卷積層代替1個7×7卷積核,以減少參數(shù)并增加1層非線性擴(kuò)展模型的表達(dá)能力[20]。每種卷積核數(shù)量設(shè)置為輸入特征數(shù)量的一半,即n/2,在增加不同感受野特征的同時不會導(dǎo)致參數(shù)激增,最終融合輸出特征數(shù)為2n。
對于解碼單元,由于文獻(xiàn)[19]提出RCL模塊具有精細(xì)分割的優(yōu)點,因此本文用其替換原卷積塊。改進(jìn)后RCL結(jié)構(gòu)如圖3所示。其中,RCL由多個內(nèi)部連接的卷積層組成,時間步數(shù)為3,隨著時間延長和層數(shù)增加,RCL具有更大感受野。在改進(jìn)后的RCL中:前饋連接和循環(huán)卷積次數(shù)t=3處的循環(huán)連接使用1×1卷積核,以減少特征映射維數(shù);中間2層用3×3濾波器的卷積進(jìn)行循環(huán)連接。為減少參數(shù)的數(shù)量,僅將RCL中最后1個卷積層的卷積核數(shù)量與網(wǎng)絡(luò)原始值保持一致,設(shè)置為n,其他卷積層卷積核數(shù)量均設(shè)置為原始值的一半,即n/2,且每個卷積層都合并進(jìn)行前饋連接和循環(huán)連接。
圖3 RCL結(jié)構(gòu)Fig.3 RCL structure
經(jīng)典的U-Net只有單一的輸入和輸出,MRU-Net采用了多尺度輸入和輸出。在輸入層,MRU-Net利用輸入數(shù)據(jù)構(gòu)建圖像金字塔。在使用輸入數(shù)據(jù)作為直接輸入的同時,通過平均池化進(jìn)行下采樣,然后進(jìn)行1次3×3卷積操作,x最終將不同尺度特征分別與上層輸出特征融合后輸入到對應(yīng)的編碼單元。MRU-Net使用不同尺寸圖像作為對應(yīng)編碼層的輸入,使得特征層次更豐富,通過平均池化構(gòu)建圖像金字塔,使用最大池保留了大量圖像背景信息,并從編碼單元中得到更多紋理信息。
文獻(xiàn)[15]針對視杯和視盤分割提出M-Net,其中采用側(cè)邊輸出層構(gòu)成多尺度輸出層?;诖?在U-Net解碼單元每層上進(jìn)行采樣后做輸出,再將各輸出層融合的均值作為最終輸出。該結(jié)構(gòu)能將側(cè)邊輸出損失反向傳播到解碼器路徑的網(wǎng)絡(luò)層,在幫助前一層訓(xùn)練的同時緩解梯度消失問題,同時,由于側(cè)輸出層能監(jiān)督每個尺度的輸出,因此得到更好分割結(jié)果。此外,該結(jié)構(gòu)能加快訓(xùn)練速度,其實際分割效果優(yōu)于單一輸出結(jié)構(gòu)。側(cè)邊輸出層的目標(biāo)函數(shù)為:
(1)
Dloss[21]和Eloss是常用的分類損失函數(shù),對Dloss和Eloss求和可得到損失函數(shù)Ls,計算公式如下:
(2)
(3)
Ls=Eloss+Dloss
(4)
其中,gi為分割金標(biāo)準(zhǔn),pi為預(yù)測概率,ε為平滑因子,令ε=0.9。
基于華西醫(yī)院耳鼻咽喉疾病分類數(shù)據(jù)集建立喉白斑病灶分割數(shù)據(jù)集。喉白斑病灶分割數(shù)據(jù)集包含正常、聲帶結(jié)節(jié)、息肉、白斑和惡性腫瘤等5種喉部疾病類型,共計數(shù)千張分辨率為524×480的圖像。從該數(shù)據(jù)集中選取649張圖像,經(jīng)多名耳鼻喉專家進(jìn)行白斑病灶區(qū)域標(biāo)記與分析后,得到平均白斑邊界圖像作為分割金標(biāo)準(zhǔn)。在649張圖像中,隨機(jī)選取450張、100張和99張圖像分別作為訓(xùn)練集、驗證集和測試集。
由于MRU-Net對圖像對比度較強(qiáng)的邊界更容易準(zhǔn)確分割,因此通過對比度受限的自適應(yīng)直方圖均衡化技術(shù)增強(qiáng)圖像對比度[22]。將增強(qiáng)后的圖像和原圖像進(jìn)行融合,最終合成六通道圖像作為神經(jīng)網(wǎng)絡(luò)的輸入圖像。
為評估MRU-Net模型分割結(jié)果的性能,采用精確率(Precision,PR)、召回率(Recall,RE)、F1值、Jaccard相似度(Jaccard Similarity,JS)和平均交并比(Mean Intersection over Union,MIoU)作為評價指標(biāo)。其中,F1值為召回率和精確率的算術(shù)平均數(shù)與幾何平均數(shù)的商,其綜合反映了兩指標(biāo)的特性,Jaccard相似度是病變區(qū)域預(yù)測結(jié)果和金標(biāo)準(zhǔn)之間相似程度,平均交并比代表病變及背景區(qū)域預(yù)測結(jié)果和金標(biāo)準(zhǔn)之間相似性的均值。上述指標(biāo)計算公式如下:
(5)
(6)
(7)
(8)
(9)
其中:TP為真正例,即被模型預(yù)測為正的正樣本;TN為真負(fù)例,即被模型預(yù)測為負(fù)的負(fù)樣本;FP為假正例,即被模型預(yù)測為正的負(fù)樣本;FN為假負(fù)例,即被模型預(yù)測為負(fù)的正樣本;K+1為包含背景和非病變區(qū)域的總類別數(shù)。
MRU-Net模型的訓(xùn)練、驗證及測試均在Windows 10系統(tǒng)中進(jìn)行。硬件配置為Intel?i7-5930k CPU和8 GB顯存的 Nvidia GeForce GTX 1080顯卡。軟件環(huán)境為Python 3.5、CUDA 9.0、cuDNN 7.0.5、Tensorflow 1.5.0和Keras 2.0.2。相同實驗環(huán)境下在喉白斑病灶分割數(shù)據(jù)集上對FCN8[8]、U-Net[9]、M-Net[15]和MRU-Net模型進(jìn)行訓(xùn)練與測試,記錄每種模型的最佳分割結(jié)果并對比分析。
除了將傳統(tǒng)模型及改進(jìn)模型用于喉白斑病灶分割外,還設(shè)置一組消融實驗:將U-Net編碼單元的卷積替換為多尺度卷積Um-Net,在Um-Net基礎(chǔ)上將U-Net解碼單元卷積替換為RCL模塊Umr-Net,在Umr-Net基礎(chǔ)上加入多尺度輸入模塊Uimr-Net。
采用不同模型得到喉白斑病灶分割結(jié)果的對比情況如表1所示??梢钥闯?MRU-Net參數(shù)量雖然相較U-Net有所增加,但是和M-Net相比,MRU-Net結(jié)構(gòu)增加而參數(shù)量卻略有減少,其原因為多尺度卷積和RCL模塊參數(shù)設(shè)置為輸入的1/2,同時多尺度輸出使得MRU-Net具有較好收斂能力;和其他模型相比,MRU-Net在F1值、Jaccard相似度和平均交并比上均取得最佳結(jié)果。
表1 采用不同模型得到的喉白斑病灶分割結(jié)果對比Table 1 Comparison of segmentation results of laryngealleukoplakia by different models
MRU-Net整體性能強(qiáng)于其他模型,主要是因為多尺度輸入和輸出以及RCL等模塊的作用。圖像金字塔提供了不同層次輸入特征,多尺度卷積使模型具有多尺度感受野,讓模型在訓(xùn)練過程中學(xué)習(xí)到不同層次特征和多級語義信息,同時RCL使網(wǎng)絡(luò)具有更精細(xì)的分割能力。表1中消融實驗組的分割結(jié)果也反映了各模塊的效果。
采用上述模型得到不同樣例中喉白斑病灶分割結(jié)果以及消融實驗的分割結(jié)果對比情況分別如圖4、圖5所示。其中,白色區(qū)域為得到的喉白斑病灶區(qū)域,前2列分別為原始圖像與金標(biāo)準(zhǔn),其他各列從左到右依次為FCN8、U-Net、M-Net和MRU-Net模型的分割結(jié)果??梢钥闯?樣例1和樣例2中不同模型的分割結(jié)果近似;樣例3~樣例5中MRU-Net的分割效果最好;樣例6和樣例7中,MRU-Net、FCN8和U-Net均存在過分割情況,MRU-Net過分割較不明顯,M-Net未出現(xiàn)過分割情況,能較準(zhǔn)確地分割病灶;FCN8的分割結(jié)果輪廓精細(xì)度較差,U-Net出現(xiàn)漏分割情況,M-Net易產(chǎn)生小噪點??傮w而言,MRU-Net的分割結(jié)果輪廓比其他模型更精確。其原因是多尺度卷積、RCL、多尺度輸入和輸出的應(yīng)用使MRU-Net模型獲得更豐富的語義信息,從而得到的圖像分割結(jié)果更準(zhǔn)確。圖4、圖5與表1的結(jié)果基本一致。
圖4 不同樣例中喉白斑病灶分割結(jié)果對比Fig.4 Comparison of segmentation results of laryngealleukoplakia in different samples
圖5 采用消融實驗對不同樣例中喉白斑病灶分割結(jié)果對比Fig.5 Comparison of the segmentation results of laryngealleukoplakia in different samples by ablation experiment
本文設(shè)計一種改進(jìn)U-Net結(jié)構(gòu)進(jìn)行喉白斑病灶分割。使用已有的喉鏡疾病分類數(shù)據(jù)集構(gòu)建喉白斑病灶分割數(shù)據(jù)集,利用多尺度卷積和遞歸卷積層優(yōu)化U-Net,從而對喉白斑病灶進(jìn)行準(zhǔn)確檢測和分割。實驗結(jié)果表明,與U-Net、M-Net等傳統(tǒng)網(wǎng)絡(luò)相比,該網(wǎng)絡(luò)得到的喉白斑病灶輪廓精度更高。下一步考慮將多種喉部疾病分類與喉白斑病灶分割進(jìn)行融合,實現(xiàn)喉部疾病的全自動綜合診斷。