張瑞平,陳亞正,陳 揚(yáng),王志震,羅延安,江 波*
(1.天津醫(yī)科大學(xué)腫瘤醫(yī)院,國(guó)家惡性腫瘤臨床醫(yī)學(xué)研究中心,天津市惡性腫瘤臨床醫(yī)學(xué)研究中心,天津300060;2.四川大學(xué)華西第二醫(yī)院腫瘤放化療科,成都610041;3.南開(kāi)大學(xué)物理學(xué)院,天津300050)
肺癌是中國(guó)乃至全球癌癥相關(guān)死亡的主要病因,雖然新技術(shù)不斷應(yīng)用,但其總生存率仍不容樂(lè)觀[1]。由于受肺癌影響的人數(shù)眾多,在可能治愈的早期階段提高診斷水平將對(duì)人類(lèi)健康產(chǎn)生重大影響,尤其是對(duì)于肺部病變的早期篩查,這是進(jìn)行適當(dāng)臨床管理的前提,可以避免過(guò)度治療和醫(yī)療資源的浪費(fèi)。因此,肺癌的早期診斷已經(jīng)成為臨床醫(yī)生關(guān)注的難點(diǎn)和焦點(diǎn)[2-3]。近年來(lái),基于CT 影像的組學(xué)特征作為一種定量診斷方法已引起高度關(guān)注,同時(shí)為CT 影像的精準(zhǔn)診斷帶來(lái)了潛在的希望[4-5]。組學(xué)特征是通過(guò)高通量、非侵入的方式從已有的醫(yī)學(xué)圖像中提取病變組織的信息,并將這些信息轉(zhuǎn)化為高維數(shù)據(jù)[6],能在在體情況下反映整個(gè)病變組織的空間異質(zhì)性。使用統(tǒng)計(jì)學(xué)方法篩選有價(jià)值的特征,利用機(jī)器學(xué)習(xí)方法創(chuàng)建模型,可深入解析臨床信息,指導(dǎo)臨床實(shí)踐。張利文等[7]從公開(kāi)數(shù)據(jù)中收集916 例肺癌患者的CT 影像,共篩選出20 個(gè)有診斷價(jià)值的組學(xué)特征,并采用支持向量機(jī)(support vector machine,SVM)創(chuàng)建肺部腫瘤良惡性質(zhì)的診斷模型,在訓(xùn)練集和測(cè)試集中,模型的準(zhǔn)確度分別為82.4%和77.7%[8]。組學(xué)特征在鑒別肺癌病理亞型方面存在潛在能力,有研究報(bào)道[9],采用邏輯回歸模型,基于影像組學(xué)特征對(duì)周?chē)头蜗侔┖枉[癌進(jìn)行區(qū)分,以7∶3 比例將樣本量分為訓(xùn)練集和測(cè)試集,其診斷性能指標(biāo)AUC 值為0.879。Choi 等[10]研究表明,基于放射組學(xué),以8∶2 比例將樣本量分為訓(xùn)練集和測(cè)試集,利用支持向量機(jī)方法對(duì)肺部結(jié)節(jié)的性質(zhì)進(jìn)行診斷,其準(zhǔn)確率可達(dá)84.6%。組學(xué)特征在鑒別肺結(jié)節(jié)良惡性方面也存在潛在能力,研究發(fā)現(xiàn)[11],組學(xué)特征中的共生矩陣特征在鑒別肺結(jié)節(jié)性質(zhì)方面具有良好的性能。蘭欣等[12]以綜述的形式探討機(jī)器學(xué)習(xí)在醫(yī)療領(lǐng)域中的應(yīng)用現(xiàn)狀,其中支持向量機(jī)使用的頻率最高,其基本思想是在高維空間中尋找一個(gè)最優(yōu)超平面二分類(lèi)分割問(wèn)題,在處理復(fù)雜的數(shù)據(jù)集中具有一定的優(yōu)勢(shì)。
基于此,本研究充分挖掘單中心、回顧性的有限樣本,基于多組別的組學(xué)特征,使用五折交叉驗(yàn)證,利用3 種經(jīng)典機(jī)器學(xué)習(xí)方法(邏輯回歸、隨機(jī)森林和支持向量機(jī)),構(gòu)建區(qū)分肺部病變良惡性的診斷模型,并分析比較3 種模型的診斷性能,選出最優(yōu)模型,旨在快速識(shí)別和創(chuàng)建簡(jiǎn)單而有效的穩(wěn)健診斷模型。
回顧性分析2014 年1 月至2016 年1 月在我院行增強(qiáng)CT 掃描的肺部病變患者的資料。納入標(biāo)準(zhǔn):活檢或術(shù)后有明確的組織病理報(bào)告。排除標(biāo)準(zhǔn):病變組織中含有鈣化、空腔、氣泡和支氣管肺泡性肺炎;病變組織的三維體積≤1 cm3;病變組織侵襲至胸壁、縱隔或心包。同時(shí)收集患者的基本資料,包括性別、年齡、吸煙狀況、活檢病理報(bào)告或術(shù)后病理報(bào)告以及CT 圖像。
整理納入本研究的135 例患者的CT 影像資料,圖像層厚為3.75 mm(120 kVp,100 mA),體素為0.98 mm×0.98 mm×3.27 mm。將圖像數(shù)據(jù)以DICOM標(biāo)準(zhǔn)格式傳輸至專(zhuān)業(yè)放射組學(xué)平臺(tái)(Radcloud,Version 2.1.1.2),同時(shí)匿名化處理圖像中患者的個(gè)人信息。
由2 位高年資醫(yī)學(xué)影像醫(yī)師勾畫(huà)ROI,即病變部位,應(yīng)避開(kāi)鄰近病變組織的血管、胸壁和縱隔組織[13]。對(duì)于邊界模糊的ROI,先利用治療計(jì)劃系統(tǒng)的自動(dòng)分隔方法對(duì)ROI 進(jìn)行初步描繪,然后進(jìn)行手動(dòng)修改,以最大限度地避免操作者間的差異性和較低的重復(fù)性。
為了在提取組學(xué)特征之前消除醫(yī)學(xué)圖像的差異和各向異性,本研究首先對(duì)CT 圖像進(jìn)行標(biāo)準(zhǔn)化處理,并重新采樣為1 mm×1 mm×1 mm。共提取1 029 個(gè)組學(xué)特征,分為一階強(qiáng)度特征(first-order features)、形狀特征(shape features)和紋理特征(texture features)。其中,紋理特征包括灰度共生矩陣(gray level cooccurrence matrix,GLCM)、灰度運(yùn)行長(zhǎng)度矩陣(gray level run length matrix,GLRLM)和灰度尺寸區(qū)域矩陣(gray level size zone matrix,GLSZM)3 個(gè)亞組別。所有組學(xué)特征的定義及公式可參考https://pyradiomics.readthedocs.io/。
為了構(gòu)建穩(wěn)定且重復(fù)性好的診斷模型,同時(shí)考慮有限的樣本量,本研究采用交叉驗(yàn)證法進(jìn)行組學(xué)特征篩選、模型訓(xùn)練和模型驗(yàn)證。首先,使用五折交叉驗(yàn)證將樣本隨機(jī)分為5 個(gè)相等大小的子集,其中1 個(gè)子集用作測(cè)試集,其余4 個(gè)子集作為訓(xùn)練集,分別重復(fù)5 次以確保5 個(gè)子集的每1 個(gè)子集僅1 次作為測(cè)試集。訓(xùn)練集和測(cè)試集均經(jīng)過(guò)特征標(biāo)準(zhǔn)化、特征選擇和模型構(gòu)建3 個(gè)過(guò)程,具體過(guò)程如下。
1.4.1 特征標(biāo)準(zhǔn)化
放射組學(xué)特征進(jìn)行篩選之前,首先對(duì)所有特征值進(jìn)行標(biāo)準(zhǔn)化處理,即每個(gè)組學(xué)特征減去其均值,然后除以標(biāo)準(zhǔn)差。具體公式如下:
式中,i為第i個(gè)特征;j為第j個(gè)患者;Xij'為標(biāo)準(zhǔn)化后的特征;Xij為初始特征;μi和σi分別為初始特征的平均值和標(biāo)準(zhǔn)差。
1.4.2 特征選擇
在篩選組學(xué)特征過(guò)程中,首先采用最小絕對(duì)收縮和選擇(least absolute shrinkage and selection operator,LASSO)方法[14]選擇有診斷價(jià)值的特征。LASSO 方法在處理高維度和冗余的特征時(shí)表現(xiàn)出色,能夠在保留特征本質(zhì)的同時(shí)縮減特征數(shù)量。在該方法中,最優(yōu)正則化系數(shù)是通過(guò)在訓(xùn)練集上進(jìn)行十折交叉驗(yàn)證和最小均方差確定的。最終的組學(xué)特征則為L(zhǎng)ASSO 方法中非零系數(shù)所對(duì)應(yīng)的特征。為了避免過(guò)擬合現(xiàn)象,本研究采用正向選擇方法對(duì)組學(xué)特征進(jìn)行進(jìn)一步的篩選。從無(wú)特征開(kāi)始,根據(jù)LASSO 模型中特征系數(shù)的絕對(duì)值從大到小的順序,逐步添加特征。當(dāng)模型的預(yù)測(cè)結(jié)果穩(wěn)定后,停止添加特征,以達(dá)到特征篩選的目的。
1.4.3 模型創(chuàng)建
基于選擇的組學(xué)特征,分別使用邏輯回歸、隨機(jī)森林和支持向量機(jī)3 種經(jīng)典的機(jī)器學(xué)習(xí)方法構(gòu)建肺部病變良惡性的診斷模型。該模型的創(chuàng)建過(guò)程是在Anaconda 平臺(tái)上(https://www.anaconda.com/)利用scikit-learn 程序包(https://scikit-learn.org/)完成,在模型訓(xùn)練中使用的超參數(shù)如果無(wú)特殊說(shuō)明均為程序的默認(rèn)值。
采用AUC 值、準(zhǔn)確率、敏感度和特異度指標(biāo)評(píng)估模型的診斷能力。預(yù)測(cè)良惡性的臨界值由Youden 指數(shù)的最大值確定[15],該值對(duì)應(yīng)ROC 曲線(xiàn)上距離對(duì)角線(xiàn)最遠(yuǎn)的曲線(xiàn)。同時(shí),本研究還使用Delong-test 檢驗(yàn)方法[16]對(duì)基于邏輯回歸、隨機(jī)森林和支持向量機(jī)創(chuàng)建的模型進(jìn)行比較和分析。對(duì)于患者臨床信息統(tǒng)計(jì),連續(xù)變量(例如年齡)用平均值±標(biāo)準(zhǔn)差表示,類(lèi)別變量(病理類(lèi)型、性別和吸煙狀態(tài))用百分比表示。雙尾P值小于0.05 認(rèn)為差異具有顯著統(tǒng)計(jì)學(xué)意義。
共135 例肺部疾病患者納入本項(xiàng)研究,平均年齡為(58±11)歲,年齡范圍為17~85 歲,其中87 例男性(64%)、48 例女性(36%),40%患者診斷為良性病變,60%患者診斷為惡性病變。本研究中良性病變54例,其中肉芽腫性病變23 例(17.0%)、炎性假瘤29例(21.5%)、血管瘤1 例(0.7%)、纖維細(xì)胞瘤1 例(0.7%);惡性病變81 例,鱗狀細(xì)胞癌22 例(16.3%)、腺樣細(xì)胞癌48 例(35.6%)、大細(xì)胞癌7 例(5.2%)、鱗狀和腺樣細(xì)胞癌混合癌2 例(1.5%)、彌漫性大B淋巴瘤1 例(0.7%)、胸腺瘤1 例(0.7%)。
五折交叉驗(yàn)證中,按照出現(xiàn)的頻率計(jì)數(shù),確保頻率數(shù)至少為1,共篩選出10 個(gè)具有潛在診斷價(jià)值的組學(xué)特征。形狀特征“SurfaceVolumeRatio”每次交叉驗(yàn)證均出現(xiàn),頻率計(jì)數(shù)為5,強(qiáng)度特征“RootMean-Squarel”頻率計(jì)數(shù)為3,其余的8 個(gè)組學(xué)特征頻率計(jì)數(shù)均為1。10 個(gè)組學(xué)特征的頻率計(jì)數(shù)統(tǒng)計(jì)結(jié)果如圖1 所示。
圖1 五折交叉驗(yàn)證中組學(xué)特征的頻率圖
在構(gòu)建診斷模型時(shí),采用了邏輯回歸、隨機(jī)森林和支持向量機(jī)3 種方法。在不同分組中,這些模型的平均AUC 值分別為0.747、0.771 和0.820,平均準(zhǔn)確率分別為0.688、0.696 和0.740,平均敏感度分別為0.690、0.691 和0.740,平均特異度分別為0.685、0.704 和0.740。同時(shí),在合并五折交叉驗(yàn)證后,各分組的AUC 值分別為0.740、0.762 和0.790。
表1 詳細(xì)列出了3 種診斷模型的評(píng)價(jià)結(jié)果,圖2 展示了3 種診斷模型以及各分組合并后的診斷結(jié)果。通過(guò)統(tǒng)計(jì)分析,發(fā)現(xiàn)3 種診斷模型在診斷能力上差異無(wú)統(tǒng)計(jì)學(xué)意義(P>0.05)。
表1 3 種模型診斷性能對(duì)比
圖2 3 種機(jī)器學(xué)習(xí)方法創(chuàng)建的診斷模型比較
本研究采用隨機(jī)森林、邏輯回歸、支持向量機(jī)3種臨床常用方法,根據(jù)在交叉驗(yàn)證中出現(xiàn)的頻率計(jì)數(shù)選擇有潛在診斷價(jià)值的組學(xué)特征,從而構(gòu)建診斷模型用以區(qū)分肺部病變的良惡性。結(jié)果表明,該模型對(duì)肺部病變的良惡性具有一定的預(yù)測(cè)能力。本研究方法具有一定的優(yōu)勢(shì):(1)提取多種組別的組學(xué)特征,包括強(qiáng)度特征、形狀特征和紋理特征;(2)Berenguer等[17]在回顧性研究中發(fā)現(xiàn),組學(xué)特征易受各種干擾因素影響,尤其紋理特征表現(xiàn)出較大的不穩(wěn)定性,為了盡可能避免出現(xiàn)不穩(wěn)定的特征,本研究分兩步篩選組學(xué)特征,以防將冗余特征和不穩(wěn)定特征納入模型中,導(dǎo)致模型的不確定性;(3)對(duì)于單中心的回顧性研究,一般情況下,小樣本量居多,為了最大化挖掘有限的數(shù)據(jù),同時(shí)確保研究結(jié)果的重復(fù)性和穩(wěn)定性,使用五折交叉驗(yàn)證等量分割成子集,循環(huán)使每1個(gè)子集充當(dāng)1 次測(cè)試集。
3 種模型診斷能力雖不存在統(tǒng)計(jì)學(xué)上的顯著性差異,但根據(jù)評(píng)估指標(biāo),從高到低的排序?yàn)橹С窒蛄繖C(jī)、隨機(jī)森林、邏輯回歸,支持向量機(jī)方法的性能稍加突出(見(jiàn)表2,如圖2 所示)。這種現(xiàn)象的出現(xiàn)可能與支持向量機(jī)本身的特點(diǎn)有關(guān)。支持向量機(jī)是一種有效的監(jiān)督式機(jī)器學(xué)習(xí)方法,特別適用于有限樣本量和高維空間的情況。為了避免過(guò)擬合,支持向量機(jī)使用多個(gè)訓(xùn)練樣本,并基于特定的核函數(shù)和懲罰參數(shù)構(gòu)建決策函數(shù)。與此相關(guān)的研究結(jié)果與蘭欣等[12]的研究所得出的統(tǒng)計(jì)分析結(jié)果一致。在臨床實(shí)踐中,支持向量機(jī)方法被廣泛應(yīng)用;隨機(jī)森林方法是一個(gè)集成分類(lèi)器,基于產(chǎn)生的多個(gè)決策樹(shù)進(jìn)行整合預(yù)測(cè),樣本量越多預(yù)測(cè)結(jié)果越準(zhǔn)確[3];邏輯回歸方法具有簡(jiǎn)單和可操作性強(qiáng)的特點(diǎn),雖然能廣泛地應(yīng)用于臨床研究,但如果處理小樣本容易出現(xiàn)過(guò)擬合現(xiàn)象。
有研究利用支持向量機(jī)構(gòu)建一種區(qū)分肺部病變良惡性的診斷模型,從中提取60 個(gè)組學(xué)特征,并采用最小冗余最大相關(guān)方法篩選特征,最終選擇了20個(gè)有預(yù)測(cè)價(jià)值的組學(xué)特征,該診斷模型顯示出較好的性能,其在訓(xùn)練集和測(cè)試集上的陽(yáng)性預(yù)測(cè)率分別為82.5%和87.6%[8],陰性預(yù)測(cè)率分別為82.2%和65.9%。該研究在進(jìn)行特征篩選時(shí)無(wú)形中納入了冗余特征,使得測(cè)試集的陰性預(yù)測(cè)率遠(yuǎn)低于訓(xùn)練集。Petkovska等[11]研究顯示組學(xué)特征中的共生矩陣特征在診斷能力方面優(yōu)于其他類(lèi)型的特征。共生矩陣特征能夠分析組織內(nèi)部像素與像素之間的距離和方向特性,對(duì)于結(jié)節(jié)而言,通常其空間位置和形狀特征不太明顯。類(lèi)似地,Choi 等[10]對(duì)72 例肺部結(jié)節(jié)良惡性的研究發(fā)現(xiàn),在103 個(gè)組學(xué)特征中,僅紋理特征和強(qiáng)度特征存在顯著的統(tǒng)計(jì)學(xué)意義(P均<0.001)。該研究基于這2類(lèi)特征,采用支持向量機(jī)方法構(gòu)建了診斷模型,結(jié)果表明該模型具有較高的診斷能力(AUC 值為0.89,準(zhǔn)確率為84.6%)。然而,本研究發(fā)現(xiàn),與其他10 個(gè)組學(xué)特征相比,形狀特征“SurfaceVolumeRatio”最有價(jià)值。這種情況可能是因?yàn)閷?duì)于小尺寸的結(jié)節(jié),形狀特征在其上的表達(dá)可能不夠明顯,但在早期階段,肺部病變體積在臨床上相對(duì)于結(jié)節(jié)尺寸更具意義。此外,本研究還發(fā)現(xiàn),采用3 種方法構(gòu)建的模型中,支持向量機(jī)模型的平均AUC 值(0.820±0.053)與文獻(xiàn)[8,10]中的研究結(jié)果相似,進(jìn)一步證實(shí)在3 種經(jīng)典機(jī)器學(xué)習(xí)方法中,支持向量機(jī)具有一定的優(yōu)勢(shì)。因此,根據(jù)目前的研究結(jié)果,在區(qū)分肺部結(jié)節(jié)良惡性時(shí),能夠解析組織內(nèi)部結(jié)構(gòu)的紋理特征顯示出顯著的標(biāo)志性,而區(qū)分肺部病變良惡性時(shí),形狀特征起到主導(dǎo)作用。這些發(fā)現(xiàn)為臨床實(shí)踐提供了有價(jià)值的指導(dǎo)。
本研究為一項(xiàng)回顧性研究,包括了不同病理類(lèi)型的良性和惡性患者。然而,樣本量相對(duì)較小,數(shù)據(jù)分布不均勻。雖然本研究提供了大量的CT 圖像,但設(shè)備設(shè)置參數(shù)不僅在不同機(jī)構(gòu)之間存在差異,還在同一機(jī)構(gòu)的不同患者之間存在變化。在從CT 圖像中提取放射組學(xué)特征時(shí),需要考慮特征的可靠性、重復(fù)性,以及掃描參數(shù)和層厚等成像參數(shù)對(duì)預(yù)測(cè)結(jié)果的影響。為減少特征的不確定性和不穩(wěn)定性,本研究采用了五折交叉驗(yàn)證,進(jìn)行了圖像預(yù)處理,包括歸一化和自動(dòng)分割病變區(qū)域。未來(lái),為了更好地將研究成果泛化應(yīng)用于臨床實(shí)踐,需要在圖像采集、重建設(shè)置、分割方法以及組學(xué)特征分析等方面進(jìn)一步標(biāo)準(zhǔn)化。此外,還需更加關(guān)注肺部病變不同病理類(lèi)型的數(shù)據(jù)平衡問(wèn)題,以提高模型的可靠性和普適性。