蔡俊輝,段紹峰,袁 虎,呂 燕,吳雅蔚,許 晴,葉 靖*
(1.大連醫(yī)科大學(xué)研究生院,遼寧 大連 116044;2.蘇北人民醫(yī)院放射科,江蘇 揚(yáng)州 225000;3.GE醫(yī)療,上海 210000)
隨著高分辨率CT的廣泛應(yīng)用和胸部低劑量CT篩查的普及,肺磨玻璃結(jié)節(jié)(ground-glass nodule, GGN)的檢出率日益提高[1]。根據(jù)其是否存在實(shí)性成分,GGN又可分為純磨玻璃結(jié)節(jié)(pure ground-glass nodule, pGGN)和部分實(shí)性GGN。持續(xù)存在的pGGN大多是浸潤(rùn)前病變[包括不典型腺瘤樣增生和原位腺癌(adenocarcinoma in situ, AIS)]或微浸潤(rùn)性腺癌(minimally invasive adenocarcinoma, MIA)[2],但部分浸潤(rùn)性腺癌(invasive adenocarcinoma, IAC)CT亦可表現(xiàn)為pGGN,肉眼很難與MIA、AIS區(qū)分。文獻(xiàn)[3]報(bào)道ⅠA期IAC患者5年無(wú)病生存率為74.6%,而AIS和MIA手術(shù)完全切除后患者5年無(wú)病生存率為100%。術(shù)前區(qū)別浸潤(rùn)性腺癌與非浸潤(rùn)性腺癌不僅可減輕患者心理負(fù)擔(dān),傾向IAC時(shí),還可盡早干預(yù)并改善預(yù)后。影像組學(xué)用于輔助診斷疾病、評(píng)估療效及預(yù)后,可幫助臨床決策[4]。本研究觀察采用機(jī)器學(xué)習(xí)方法鑒別表現(xiàn)為pGGN的IAC與非IAC的可行性。
1.1 一般資料 收集2016年9月—2018年12月蘇北人民醫(yī)院經(jīng)手術(shù)病理證實(shí)為肺腺癌的患者。納入標(biāo)準(zhǔn)為:①術(shù)前接受CT平掃檢查,肺窗(窗寬1 500 HU、窗位-600 HU)發(fā)現(xiàn)pGGN,縱隔窗(窗寬 400 HU、窗位30 HU)其內(nèi)無(wú)鈣化及實(shí)性成分;②圖像質(zhì)量好,無(wú)運(yùn)動(dòng)及呼吸偽影,與縱隔或胸膜無(wú)粘連;③擁有完整薄層重建圖像,5 mm 1.2 儀器與方法 采用GE Light Speed VCT及GE Discovery CT 750HD進(jìn)行圖像采集。囑患者仰臥,從肺尖掃描至后肋膈角。掃描參數(shù):管電壓 120 kV,自適應(yīng)管電流,螺距 0.984∶1,旋轉(zhuǎn)時(shí)間0.6 s,F(xiàn)OV 400 mm×400 mm,層厚及層間距均為5 mm,重建層厚1.25 mm。由1名具有5年胸部影像學(xué)診斷經(jīng)驗(yàn)的醫(yī)師在不知曉病理結(jié)果的情況下使用ITK-SNAP 3.8.0軟件沿病灶邊緣盡量避開(kāi)周?chē)笱芘c支氣管手動(dòng)逐層勾畫(huà)ROI;再由1名從事胸部診斷20年以上的主任醫(yī)師確認(rèn)分割結(jié)果(圖1~3)。最終軟件自動(dòng)生成整個(gè)病灶的三維容積感興趣區(qū)(volume of interest, VOI),以NiFTI格式將其導(dǎo)出并保存。 圖2 患者女,42歲,左肺下葉MIA A.薄層肺窗; B.薄層縱隔窗; C.手動(dòng)勾畫(huà)的ROI(藍(lán)色區(qū)域) (箭示要勾畫(huà)區(qū)域) 圖3 患者女,37歲,右肺下葉IAC A.薄層肺窗; B.薄層縱隔窗; C.手動(dòng)勾畫(huà)的ROI(黃色區(qū)域) (箭示要勾畫(huà)區(qū)域) 1.3 數(shù)據(jù)預(yù)處理與特征提取 先將原始圖像(DICOM格式)及VOI(NiFTI格式)分別導(dǎo)入GE A.K.(Artificial Intelligent Kit)軟件進(jìn)行圖像預(yù)處理,包含重采樣(resample)、降噪(denoising)和亮度標(biāo)準(zhǔn)化(intensity standardization);隨后將預(yù)處理后圖像重新導(dǎo)入A.K.軟件,軟件自動(dòng)獲取包括直方圖特征(histogram features)、形態(tài)學(xué)特征(form factor features)、灰度共生矩陣特征(GLCM features)及基于灰度共生矩陣的Haralick特征、游程矩陣特征(RLM features)和灰度連通區(qū)域矩陣特征(GLSAZM features),共396個(gè)特征參數(shù)。 1.4 特征篩選與統(tǒng)計(jì)學(xué)分析 由A.K.軟件內(nèi)置R語(yǔ)言算法自動(dòng)完成特征篩選。數(shù)據(jù)處理步驟:①以單因素方差分析檢驗(yàn)單一變量或指標(biāo)在不同分類(lèi)及不同集合之間差異是否有統(tǒng)計(jì)學(xué)意義,對(duì)連續(xù)變量使用Mann-WhitneyU檢驗(yàn)或t檢驗(yàn),篩選后剩余275個(gè)特征;②以Spearman相關(guān)性分析進(jìn)行特征去冗余,剔除自相關(guān)性系數(shù)大于0.9(∣r∣>0.9)者,剩余89個(gè)特征;③以Lasso回歸模型通過(guò)交叉驗(yàn)證法進(jìn)行特征降維,選出最具鑒別意義的19個(gè)特征。根據(jù)樣本和特征之間的層級(jí)關(guān)聯(lián)性繪制特征熱力圖,圖中小方塊深淺顏色對(duì)應(yīng)每個(gè)特征下每個(gè)樣本的z分?jǐn)?shù)(z-score),其定義為: 其中,xI,J是第I個(gè)樣本的第J個(gè)特征。xJ和σJ是第J個(gè)特征關(guān)于所有樣本的均值和標(biāo)準(zhǔn)差。 以此19個(gè)特征參數(shù)構(gòu)建隨機(jī)森林(random forest, RF)、支持向量機(jī)(support vector machine, SVM)和邏輯回歸(logistic regression, LR)3種機(jī)器學(xué)習(xí)模型。采用十折交叉驗(yàn)證法選擇最優(yōu)模型參數(shù),確定最優(yōu)模型,測(cè)試組內(nèi)數(shù)據(jù),得到各模型的準(zhǔn)確率(accuracy);繪制ROC曲線,評(píng)價(jià)3種模型鑒別IAC與非IAC的效能。P<0.05為差異有統(tǒng)計(jì)學(xué)意義。 2.1 特征參數(shù) 經(jīng)過(guò)特征提取和特征篩選,最終得到19個(gè)特征參數(shù)(表1),其權(quán)重見(jiàn)圖4,灰度共生矩陣特征中的慣性矩(inertia)所占權(quán)重最大。特征熱力圖(圖5)顯示相同特征對(duì)于IAC與非IAC有較好的區(qū)分度。 圖4 不同組學(xué)特征在機(jī)器學(xué)習(xí)模型中所占權(quán)重示意圖 橫軸柱體的長(zhǎng)度代表特征所占權(quán)重,縱軸對(duì)應(yīng)不同組學(xué)特征 圖5 特征熱力圖 橫軸代表不同樣本,淺綠色和深綠色分別表示IAC與非IAC,縱軸不同顏色分別代表19個(gè)組學(xué)特征,圖中每個(gè)小方塊代表不同樣本對(duì)應(yīng)的不同特征,顏色越深表示z分?jǐn)?shù)越高 表1 用于構(gòu)建機(jī)器學(xué)習(xí)模型的19個(gè)影像組學(xué)特征 2.2 診斷效能 3種機(jī)器學(xué)習(xí)模型組內(nèi)測(cè)試所得的準(zhǔn)確率、AUC、敏感度及特異度見(jiàn)表2,ROC曲線見(jiàn)圖6。各模型之間AUC差異具有統(tǒng)計(jì)學(xué)意義(P均<0.05)。 表2 3種機(jī)器學(xué)習(xí)模型的性能比較 圖6 3種機(jī)器學(xué)習(xí)模型組內(nèi)測(cè)試ROC曲線圖 不同于部分實(shí)性結(jié)節(jié),pGGN被認(rèn)為是惰性生長(zhǎng),需要進(jìn)行長(zhǎng)周期隨訪。受CT掃描層厚及部分容積效應(yīng)的影響,IAC即使存在>5 mm間質(zhì)浸潤(rùn),薄層CT仍可表現(xiàn)為pGGN[2],難以與非IAC區(qū)分。既往研究[5-6]認(rèn)為影像組學(xué)特征對(duì)表現(xiàn)為pGGN的肺腺癌的侵襲性有較高診斷價(jià)值,但國(guó)內(nèi)外有關(guān)影像組學(xué)研究中,鮮有基于影像組學(xué)特征構(gòu)建機(jī)器學(xué)習(xí)模型鑒別表現(xiàn)為肺pGGN 的IAC與非IAC的報(bào)道。本研究將MIA與AIS歸為非IAC,且未納入不典型腺瘤樣增生,分組更具臨床意義[2-3]。范麗等[7-8]采用相同分組方法,但其研究對(duì)象中包含部分實(shí)性GGN。2017版Fleischner結(jié)節(jié)處理指南[9]指出,偶發(fā)部分實(shí)性GGN較pGGN更傾向于IAC,需要密切隨訪;臨床工作中,考慮患者心理壓力,對(duì)此類(lèi)結(jié)節(jié)多在短期隨訪無(wú)變化后便進(jìn)行手術(shù)治療。對(duì)于偶發(fā)pGGN患者,醫(yī)師往往建議長(zhǎng)期隨訪觀察,患者心理也可耐受,故pGGN中盡早發(fā)現(xiàn)IAC更具臨床價(jià)值。 自2012年LAMBIN等[10]提出影像組學(xué)概念以來(lái),作為精準(zhǔn)醫(yī)療中的一種輔助決策工具,影像組學(xué)已被證實(shí)可用于診斷腫瘤、評(píng)估預(yù)后、評(píng)價(jià)療效及監(jiān)測(cè)復(fù)發(fā)[4]。影像組學(xué)研究的最終目的是利用影像組學(xué)標(biāo)簽構(gòu)建模型,對(duì)病灶分類(lèi)和預(yù)測(cè)。基于影像組學(xué)特征構(gòu)建的機(jī)器學(xué)習(xí)模型簡(jiǎn)單易行,是有效實(shí)用的分類(lèi)工具[11],其用于腫瘤分級(jí)與分型的可行性已獲證實(shí)。李小虎等[12]對(duì)34例腎透明細(xì)胞癌患者進(jìn)行CT容積紋理分析,構(gòu)建RF鑒別低級(jí)別和高級(jí)別腎透明細(xì)胞癌,AUC為0.88,敏感度和特異度分別為0.79和0.82,證實(shí)基于CT紋理特征的機(jī)器學(xué)習(xí)模型可用于評(píng)估腎透明細(xì)胞癌的惡性度。林斌等[13]發(fā)現(xiàn)SVM構(gòu)建的預(yù)測(cè)模型可鑒別肺黏膜相關(guān)淋巴組織淋巴瘤與肺IAC。李智慧等[14]分析高分辨率T2WI,構(gòu)建影像組學(xué)模型,驗(yàn)證了RF、決策樹(shù)、K近鄰及LR 4種機(jī)器學(xué)習(xí)模型對(duì)直腸良惡性病變具有一定鑒別診斷價(jià)值,準(zhǔn)確率分別為84.61%、69.23%、84.61%和82.05%。 本研究基于影像組學(xué)特征構(gòu)建SVM、RF、LR 3種機(jī)器學(xué)習(xí)模型,對(duì)于鑒別IAC與非IAC均表現(xiàn)出很好的分類(lèi)性能,其中SVM模型最優(yōu),主要得益于SVM對(duì)于小樣本數(shù)據(jù)具有更優(yōu)秀的分類(lèi)性能[15]。在用于構(gòu)建機(jī)器學(xué)習(xí)模型的19個(gè)影像組學(xué)特征中,灰度共生矩陣特征占主要權(quán)重(10/19),其中慣性矩(inertia)特征是鑒別IAC與非IAC的最重要的特征。慣性矩反映圖像的清晰度和紋理溝槽的深度,對(duì)比度與紋理凹槽深度呈正比,凹槽越深,產(chǎn)生的清晰度越高,反之則對(duì)比度越小、圖像越模糊。IAC和非IAC病理機(jī)制不同,前者存在較多浸潤(rùn)成分,使部分肺泡塌陷、肺泡間隔增厚[2],與腫瘤中未受累肺泡組織形成不同深度的紋理溝槽;而非IAC腫瘤細(xì)胞多是貼壁式生長(zhǎng)[1],密度較淡且均勻,對(duì)比度可能不高。影像組學(xué)可發(fā)揮其獨(dú)特的優(yōu)勢(shì),在高通量數(shù)據(jù)中發(fā)現(xiàn)肉眼無(wú)法分辨的規(guī)律。 本研究以2臺(tái)不同CT機(jī)采集圖像,并對(duì)原始圖像和ROI進(jìn)行重采樣、降噪和亮度標(biāo)準(zhǔn)化3步預(yù)處理后提取特征,減小了個(gè)體化差異及采集誤差,保證了數(shù)據(jù)的可靠性。本研究的主要不足之處在于樣本量較少,采用十折交叉驗(yàn)證獲得最優(yōu)模型后,只能重復(fù)使用組內(nèi)數(shù)據(jù)測(cè)試模型的性能。后續(xù)將通過(guò)多中心研究增加病例數(shù),對(duì)模型進(jìn)行組外驗(yàn)證,以增加結(jié)果的可信度。另外,本研究中勾畫(huà)ROI難以避免主觀性和隨機(jī)性,計(jì)劃引入計(jì)算機(jī)半自動(dòng)勾畫(huà)聯(lián)合人工校準(zhǔn),以確保實(shí)驗(yàn)的可重復(fù)性,減少不必要的人力消耗。 綜上所述,基于影像組學(xué)特征構(gòu)建的機(jī)器學(xué)習(xí)模型可有效鑒別表現(xiàn)為肺pGGN 的IAC與非IAC,在不明顯增多假陽(yáng)性的前提下檢出IAC,術(shù)前輔助醫(yī)師進(jìn)行臨床決策。2 結(jié)果
3 討論