周依蓮
(復(fù)旦大學(xué)附屬中山醫(yī)院,上海 200032)
肺癌是最常診斷的癌癥,是75歲或以上男性癌癥死亡的主要原因。非小細(xì)胞肺癌(NSCLC)可大致分為三類,包括肺腺癌、鱗狀細(xì)胞癌和大細(xì)胞肺癌,占全球新肺癌診斷的85%以上。由于存在各種治療方式,肺癌的早期診斷和準(zhǔn)確分類是臨床治療的最重要的程序之一[1-3]。
特征選擇在典型的基于醫(yī)學(xué)圖像的計(jì)算機(jī)輔助設(shè)計(jì)(CAD)系統(tǒng)中起著至關(guān)重要的作用,該系統(tǒng)包括圖像預(yù)處理、感興趣區(qū)域(ROI)的分割、特征提取、特征選擇和分類。特征選擇的主要目的是識(shí)別與組織學(xué)發(fā)現(xiàn)相關(guān)的診斷相關(guān)的醫(yī)學(xué)圖像特征,因?yàn)榇蠖鄶?shù)實(shí)質(zhì)性肺癌診斷基于組織學(xué)標(biāo)準(zhǔn)。值得注意的是,特征選擇已被廣泛接受為各種應(yīng)用中的預(yù)處理技術(shù),包括數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和分類[4]。
盡管之前已經(jīng)提出了許多措施,但它們的可用性仍然是一個(gè)挑戰(zhàn),因?yàn)樗鼈兛赡苋匀痪哂姓`導(dǎo)性。例如,通過(guò)使用分類器錯(cuò)誤率測(cè)量,可以保證高精度的分類,同時(shí)一些特征與應(yīng)用無(wú)關(guān)。考慮到這一點(diǎn),我們提出了一種錯(cuò)誤發(fā)現(xiàn)率(FDR)控制的特征選擇方法,旨在降低特征的不相關(guān)性以及提高CT圖像中肺癌分類的準(zhǔn)確性。FDR用于約束特征選擇過(guò)程中不相關(guān)特征的數(shù)量。通過(guò)將FDR控制在較低水平,我們的方法的性能是通用的、靈活的,并且獨(dú)立于設(shè)計(jì),應(yīng)用中的特征數(shù)量和未知回歸系數(shù)的值。
為了評(píng)估所提出的特征選擇技術(shù)的性能,引入SVM以在肺癌CT數(shù)據(jù)集中對(duì)NSCLC進(jìn)行分類。我們進(jìn)行了最先進(jìn)的特征選擇策略,分類方法之間的對(duì)比實(shí)驗(yàn),并且我們的方法在不同的FDR設(shè)置下相互比較。此外,在評(píng)估過(guò)程中包括接收器操作特性曲線(ROC)和相應(yīng)的曲線下面積(AUC),實(shí)驗(yàn)結(jié)果表明最佳平均AUC為(0.86±0.02)。
1.1. 材料 (1)CT圖像數(shù)據(jù)集:圖像數(shù)據(jù)集由來(lái)自中國(guó)山東省千佛山醫(yī)院的CT掃描圖像組成。使用SonolineSienna?和7.5 MHz線性陣列B模式40 mm探頭換能器捕獲每個(gè)圖像,并保存為醫(yī)學(xué)數(shù)字成像和通信格式。CT圖像的切片厚度設(shè)定為4.75 mm,像素尺寸為0.33 mm/px,圖像分辨率為1.5 px。該數(shù)據(jù)集包含696個(gè)CT圖像,其中374個(gè)良性和322個(gè)惡性病例通過(guò)活組織檢查進(jìn)行病理學(xué)確定。兩組的平均年齡和標(biāo)準(zhǔn)差分別為(50.8±6.3)和(48.6±7.1)。(2)預(yù)處理:為了提高圖像的質(zhì)量,在隨后的圖像處理之前手動(dòng)分割每個(gè)CT圖像的ROI。兩位放射科醫(yī)師在醫(yī)院進(jìn)行了肺野分割和腫瘤識(shí)別。此外,通過(guò)使用區(qū)域生長(zhǎng)方法對(duì)腫瘤進(jìn)行分割,隨機(jī)這兩位放射科醫(yī)師中的一位設(shè)置相應(yīng)的種子點(diǎn)。(3)功能:在實(shí)驗(yàn)中僅使用CT圖像中的紋理特征和形態(tài)特征。值得注意的是,所提出的特征選擇方法可以適用于幾乎所有類型的圖像特征。因此,我們將深入研究所提出方法在下一研究中各種特征的應(yīng)用。具體而言,根據(jù)不同的圖像比例從每個(gè)預(yù)處理的CT圖像中手動(dòng)提取26個(gè)形態(tài)特征和1465個(gè)紋理特征。由于本文中包含了許多功能,因此我們未提及所有這些功能的詳細(xì)信息。
表1 采用不同平均值和特征的AUC方法
1.2 方法 提出了一個(gè)兩階段框架來(lái)實(shí)現(xiàn)特征選擇和圖像分類。在第一階段中,可以通過(guò)在特定FDR級(jí)別下使用基于基于仿冒濾波器的特征選擇策略來(lái)提供最佳特征子集。在下一步中,利用SVM對(duì)肺癌CT圖像進(jìn)行分類。
通過(guò)利用具有十倍留一交叉驗(yàn)證策略的SVM分類器來(lái)評(píng)估CT圖像中的特征子集與肺癌之間的關(guān)系。為了評(píng)估FDR機(jī)制的性能,通過(guò)將FDR控制在0.03、0.05和0.10而產(chǎn)生的潛在特征子組獲得最佳特征子集。此外,我們?cè)谧钕冗M(jìn)的方法和提出的CT圖像肺癌分類方法之間進(jìn)行了比較實(shí)驗(yàn)。AUC被作為實(shí)驗(yàn)中的主要測(cè)量指標(biāo)。相對(duì)于隨機(jī)猜測(cè)(AUC=0.5)評(píng)估AUC的統(tǒng)計(jì)學(xué)顯著性。
通常,對(duì)于較小的FDR(平均值),所有類型特征的分類性能較高。例如,F(xiàn)DR為0.03(AUCavg:0.86,AUCstd:0.01,P<0.05)的擬議方法的性能優(yōu)于FDR0.05(AUCavg:0.82,AUCstd:0.02,P>0.05)和FDR 0.10(AUCavg:0.81,AUCstd:0.03,P>0.05)(表1所示)(AUCavg:0.89,AUCstd:0.01,P<0.05),比FDR設(shè)定為0.1的紋理特征要好得多(AUCavg:0.74,AUCstd:0.05,P>0.05)同時(shí),組合特征可以產(chǎn)生(AUCavg:0.86,AUCstd:0.01,P<0.05)比單一類型的特征更好的結(jié)果,包括形態(tài)特征(AUCavg:0.84,AUCstd:0.02,P>0.05)和紋理特征(AUCavg:0.78,AUCstd:0.05,P>0.05)。為了比較最先進(jìn)的特征選擇方法和我們的特征選擇方法之間的性能,我們選擇了以下基于特征選擇的分類方法和基于非特征選擇的分類技術(shù)基于不同的組合CT圖像中的圖像特征,并將它們的AUC值與我們的方法進(jìn)行比較。值得注意的是,基于特征選擇的方法旨在選擇最佳特征,而非特征選擇技術(shù)則側(cè)重于檢測(cè)和分類程序。
已經(jīng)提出了各種基于特征選擇的技術(shù)來(lái)實(shí)現(xiàn)CT圖像中良性和惡性肺病變之間的區(qū)分。然而,這些方法中的大多數(shù)都集中在分類的準(zhǔn)確性上,并且可能忽略了特征與歧視之間的相關(guān)性。因此,我們提出了一種新穎的特征選擇技術(shù),該技術(shù)不僅可以優(yōu)化計(jì)算特征子集,還可以約束不相關(guān)特征的FDR。所提出的方法適用于CT圖像特征的不同組合,包括紋理、形態(tài)以及紋理和形態(tài)特征的組合。首先,所提出的特征選擇機(jī)制顯著提高了圖像分類的準(zhǔn)確性。通過(guò)比較實(shí)驗(yàn),我們還發(fā)現(xiàn),以最低的FDR值可以獲得所提方法的最佳性能,這表明通過(guò)消除不相關(guān)的特征,較低的FDR將更有利于增強(qiáng)辨別性能。其次,可以將不同類型圖像特征的組合視為提高歧視有效性的另一種方式。此外,當(dāng)前使用的特征可能不足以完全表示CT圖像的特征。第三,控制FDR值和適當(dāng)類型的圖像特征可以共同優(yōu)化CT圖像中肺癌的分類性能。最重要的是,所有觀察結(jié)果表明,具有小FDR的組合特征可能能夠捕獲CT圖像中的內(nèi)部結(jié)構(gòu)。
除了在幾乎所有機(jī)器視覺任務(wù)中都表現(xiàn)出色的深度學(xué)習(xí)之外,基于手工制作的基于特征的方法在機(jī)器視覺領(lǐng)域也發(fā)揮了重要作用,盡管它們可能不像最近的深度學(xué)習(xí)那樣受歡迎。要注意的是,所提出的方法用于選擇醫(yī)學(xué)圖像中手工制作的特征的最佳子組,而基于深度學(xué)習(xí)的方法被設(shè)計(jì)為自動(dòng)提取特征[5]。
近年來(lái),深度傾斜通常會(huì)受到小樣本問(wèn)題的影響。在我們的案例中,我們沒(méi)有足夠的肺癌圖像。因此,相反,我們選擇了特征選擇機(jī)制,已經(jīng)證明通過(guò)如上所述的許多相關(guān)研究是有效的。
為了解決先前提出的特征選擇技術(shù)中存在的問(wèn)題,我們提出了用于肺CT圖像中的NSCLC辨別的FDR約束特征選擇算法。所提出的方法可以用于構(gòu)建臨床上可接受的肺癌CAD系統(tǒng),因?yàn)樗梢援a(chǎn)生相對(duì)于組織學(xué)結(jié)果的最合適的特征并且提高良性和惡性肺病變的分類準(zhǔn)確性。此外,特征選擇流程中的FDR控制機(jī)制也應(yīng)該對(duì)其他類型的CAD系統(tǒng)有用,包括乳腺癌、腦腫瘤和阿爾茨海默病。然而,所提出的方法的性能仍然缺乏足夠的樣品。因此,我們將繼續(xù)研究更大的醫(yī)學(xué)圖像數(shù)據(jù)集對(duì)所提出技術(shù)的有效性以及基于FDR約束的特征識(shí)別策略在其他醫(yī)學(xué)圖像分析任務(wù)中的應(yīng)用,包括多光譜眼圖像和自然圖像處理。