王昭玨 趙靜 王孟昭
孤立性肺結節(jié)(solitary pulmonary nodule,SPN)是指肺內單發(fā)的、被含氣肺組織完全包圍、界限相對清楚、直徑≤3 cm、影像不透明的病變,不伴有肺不張、肺門增大、胸腔積液等表現(xiàn)。近年來,隨著電子計算機斷層掃描(computed tomography,CT)的日益增多和普及,孤立性肺結節(jié)發(fā)病率明顯上升。肺結節(jié)診治過程中,對結節(jié)良惡性的判斷至關重要。多種因素已被證實和肺結節(jié)惡性有關,包括患者年齡、性別、結節(jié)的影像學征象、腫瘤標志物等。而在臨床工作中,結節(jié)良惡性主要依據(jù)醫(yī)生的經驗判斷。為此,一些學者基于臨床數(shù)據(jù),開發(fā)了眾多肺結節(jié)惡性概率預測模型。目前,肺結節(jié)惡性概率預測模型多采用多因素Logistic回歸方法構建,是一種應用于臨床醫(yī)學領域的統(tǒng)計學及經典機器學習的方法。
理想的肺結節(jié)惡性概率預測模型,在應用于目標患者群時,應具有較高的預測準確性,通過預測給患者帶來獲益,指導醫(yī)生臨床工作,并可推廣到更廣泛群體。模型的預測準確性可通過受試者工作特征曲線(receiver operating characteristic curve,ROC curve)的曲線下面積(area under curve,AUC)衡量,較高的AUC表示該模型具有較高的區(qū)分能力。模型預測的病例數(shù)量和觀察到的病例數(shù)量的比值,越接近1.0,準確度越高,低于和高于1.0的值分別表示低估和高估惡性腫瘤風險。決策曲線分析法(decision curve analysis)權衡了準確判斷帶來的獲益和錯誤判斷帶來的風險,給出模型在不同風險閾概率的臨床獲益,近年來也逐漸應用于模型評價。臨床醫(yī)生可對結節(jié)惡性概率進行分級評估,計算相應ROC曲線下面積及繪制決策曲線,以此將臨床醫(yī)生判斷與模型判斷比較。由于群體特征差異,肺結節(jié)惡性概率模型在廣泛應用時,可能不如在開發(fā)模型的人群中準確率高,因此,模型需要進行外部驗證,且最好是在大樣本、多中心、多樣化的肺結節(jié)患者群體中驗證。
目前,關于肺結節(jié)惡性預測模型的研究非常多,且以國外研究居多。本文擬綜述國內外常用的肺結節(jié)良惡性預測模型,尤其是關注在中國患者群體中建立或驗證的肺結節(jié)惡性預測模型及臨床應用價值,并對未來發(fā)展進行展望。
2.1 國外經典模型 梅奧模型(Mayo model)[1]是第一個用于評估結節(jié)惡性概率的預測模型,由梅奧醫(yī)學中心的Swensen等[1]在1997年基于多因素Logistic回歸分析方法建立。Swensen等[1]回顧性納入了1984年1月1日‐1986年5月1日胸片發(fā)現(xiàn)4 mm‐30 mm孤立性肺結節(jié)的629例患者,排除了5年內有惡性腫瘤史、既往肺部腫瘤史、惡性表現(xiàn)的患者。納入分析的因素包括:①病史特征:年齡、性別、吸煙史、戒煙時間、胸外惡性腫瘤史、石棉暴露史、彌漫性間質性肺病史以及阻塞性肺疾病史;②發(fā)現(xiàn)結節(jié)后的初次肺部CT特征:位置、直徑、空洞、支氣管充氣征、邊緣光滑、胸膜牽拉征、不符合良性表現(xiàn)的鈣化、衛(wèi)星病灶、背景中無其他鈣化結節(jié)、肺部肉芽腫結節(jié)、淋巴結增大、淋巴結鈣化數(shù)量及大小、胸腔積液。經多因素Logistic回歸分析得6個預測因子,Mayo模型方程為:惡性概率為P=ex/(1+ex),x=‐6.827,2 +[0.039,1×年齡(年)]+(0.791,7×吸煙史)+(1.338,8×惡性腫瘤史)+[0.127,4×直徑(mm)]+(1.040,7×毛刺)+(0.783,8×上葉),在學習集及驗證集的AUC分別為0.833和0.801。Mayo模型的學習集和驗證集均來自于同一個良性比例較高的患者群體(65%為良性,23%為惡性,12%無法確定),且以發(fā)現(xiàn)結節(jié)時初次CT為影像學基礎。綜上兩點,Mayo模型適用于較為廣泛的偶發(fā)肺結節(jié)患者在診斷時的惡性概率風險評估。該模型主要缺點是對于部分結節(jié)良惡性的診斷不夠明確,導致模型準確性欠可靠。由于該研究為前瞻性研究,具有有限的隨訪時間,而肺部惡性結節(jié),尤其是肺腺癌早期或其癌前病變,可能具有長達近十年的惰性時期,因此部分惡性結節(jié)診斷不明,甚至可能被診斷為良性結節(jié),此缺點為肺結節(jié)模型前瞻性研究的固有缺陷。Herder等[2]在2005年對Mayo模型進行改進,采用相同研究方法,加入了正電子發(fā)射計算機斷層顯像(positron emission tomography computed tomography,PET‐CT)中結節(jié)攝取作為一個預測因素,建立了Herder模型。Herder模型在腫瘤患病率為57%肺結節(jié)患者隊列中AUC值為0.88,明顯優(yōu)于Mayo模型。
Brock模型(Brock model),也被稱作PanCan模型、McWilliams模型[3],是由McWilliams等[3]在2013年使用泛加拿大早期肺癌檢測研究(Pan‐Canadian Early Detection of Lung Cancer Study)患者數(shù)據(jù)建立,亦采用多因素Logistic回歸分析方法。研究者排除了無吸煙史、既往腫瘤史、年齡<50歲或年齡>75歲患者,共有1,871例(7,008個結節(jié))納入,惡性率為1.4%,結節(jié)直徑為(4.3±3.7)mm。所有患者有病理結果為診斷標準,整理其病史和基線低劑量CT,建立Brock模型方程:x=‐ 6.614,4 +(0.646,7×性別)‐[5.553,7×直徑(mm)]+(0.930,9×毛刺)+(0.600,9×上葉)。研究者在英屬哥倫比亞癌癥機構(British Columbia Cancer Agency)進行了外部驗證,驗證集亦是一個低惡性率(42/5,021=0.8%)、平均直徑小于(3.7±2.5)mm的群體。Brock模型在其學習集及驗證集的AUC均非常高,分別為0.942和0.970。Brock模型特點有:①所有患者均有吸煙史,年齡在50歲‐75歲之間,無既往腫瘤史,此類群體為肺癌高危人群,為在常規(guī)體檢中通過CT進行肺癌篩查的典型群體;②總惡性概率低(<2%),肺結節(jié)平均直徑?。?0.5 cm),亦接近體檢發(fā)現(xiàn)肺結節(jié)的患者群體特征;③Brock模型是目前唯一基于基線低劑量CT開發(fā)的模型,低劑量CT是體檢肺癌篩查使用的常規(guī)檢查。綜上,Brock模型非常適用于體檢發(fā)現(xiàn)肺部結節(jié)患者在診斷時的惡性概率評估。Brock模型亦具有較高的可靠性。從研究過程而言,所有患者均為病理確診,診斷明確,無由于診斷錯誤或診斷不明帶來的偏差。從外部驗證而言,Brock模型的外部驗證在來自于另一國家完全獨立的驗證集進行,Brock模型在驗證集中的優(yōu)秀表現(xiàn)表明該模型受到區(qū)域的影響很小,具有在廣泛地區(qū)準確預測的潛力。
較為經典的國外模型還有退伍軍人模型(VA model)[4],由Gould等[4]在2007年使用美國退伍軍人事務部(Department of Veterans Affairs,VA)的數(shù)據(jù)以相同統(tǒng)計學方法建立。VA模型以X線作為影像學檢查,98%為男性,惡性患病率為54%。模型預測因子包括吸煙史、年齡、結節(jié)直徑、戒煙時間,AUC值為0.78。VA模型以X線而非CT作為影像學基礎,不能反映結節(jié)形態(tài)細節(jié),因此準確性較低。此外,VA模型在女性中應用受限。由于胸部CT已廣泛應用于肺結節(jié)的診斷和評估,肺結節(jié)在女性患者中發(fā)病亦普遍,VA模型在目前臨床中意義不大。
2.2 國內經典模型 最早開發(fā)的模型為PKUPH模型[5],也是目前最受接受及廣泛驗證的模型。李運等[5]納入了北京大學人民醫(yī)院371例經手術切除的孤立性肺結節(jié)患者作為學習集,惡性率為53.1%,建立多因素Logistic回歸數(shù)學模型:P=ex/(1+ex),x=‐4.496+(0.070×年齡)+(0.676×腫瘤最大徑) +(0.736×毛刺征)+(1.267×腫瘤家族史)‐(1.615×鈣化)‐(1.408×邊界清楚)。該模型在一納入67例患者的獨立驗證集中AUC值為0.888±0.054。該研究為首個在國內進行的,同時考慮了病史及影像學資料,數(shù)據(jù)較完備的肺結節(jié)模型研究,適用于中國患者。然而,研究者未報道建模過程使用的是術前末次CT還是診斷時首個CT,難以確定模型適用時機。
國內另一早期建立的經典模型為PUMC模型[6],由Dong等在2013年建立,亦采用相同方法。該模型的學習集為中國醫(yī)學科學院腫瘤醫(yī)院1,679例手術切除的孤立性肺結節(jié)患者,惡性率為77.2%,該模型包含多項預測因素:年齡、癌胚抗原(carcinoembryonic antigen,CEA)、細胞角蛋白19片段抗原(cytokeratin 19 fragment antigen 21‐1,CYFRA21‐1)、吸煙史、腫瘤家族史、結節(jié)直徑、結節(jié)邊界清晰、衛(wèi)星灶、分葉征、鈣化、毛刺征,模型在學習集和來自同一中心的驗證集中的AUC值為0.935和0.917。PUMC模型主要特點在于:①除病史資料、胸部CT表現(xiàn)外,還納入了5項肺癌相關腫瘤標志物[CEA、神經元特異性烯醇化酶(neuron‐specific enolase,NSE)、CYFRA21‐1、糖類抗原125(carbohydrate antigen 125,CA125)、鱗狀細胞癌抗原(squamous cell carcinoma antigen,SCC‐Ag)]作為分析因素;②患者在術前30 d內進a行胸部CT和血清學檢查;③患者惡性率遠遠高于其他模型。因此,與Brock模型主要用于在篩查群體中區(qū)分惡性結節(jié)相反,PUMC模型適用于惡性可能性較高、已經完善腫瘤標志物檢查、面臨手術決策的患者,將良性結節(jié)患者從其中區(qū)別出來。
2.3 經典模型的外部驗證 以上模型在國內患者群體中均進行過外部驗證[7‐19],其中Mayo模型、VA模型、Brock模型、PKUPH模型是國內肺結節(jié)惡性概率預測模型驗證研究中最感興趣的模型。表1總結了一些外部驗證研究。這些外部驗證均在惡性概率較高(48.8%‐86.5%)的患者群體中進行[7‐19],多數(shù)研究中患者有基于手術切除或活檢、細針穿刺活檢或細胞學病理診斷的結果。目前,國內北方地區(qū)的研究少于南方地區(qū),最多的研究集中在沿海區(qū)域。
表1 Mayo模型、VA模型、Brock模型和PKUPH模型在國內的外部驗證研究Tab 1 External verification of Mayo model,VA model,Brock model and PKUPH model in China
在這些研究中,各個模型對于肺結節(jié)良惡性的診斷效能均低于在開發(fā)隊列中的效能。Mayo 模型、VA模型、Brock模型和PKUPH模型的AUC面積分別為0.597‐0.789[7‐19]、0.600‐0.728[7‐17]、0.430‐0.878[7‐11]和0.521‐ 0.833[7‐12,15,16,18,19],均低于它們在開發(fā)隊列中的AUC值(0.88,0.78,0.94,0.89)[1,3‐5]。
各模型間比較,PKUPH模型和Mayo模型診斷效能較好。Brock模型僅在一項研究中AUC高于其余所有模型[9],其表現(xiàn)不佳可能是由于Brock模型更適用于惡性腫瘤患病率低的群體。VA模型準確性低,主要原因在于以X線作為影像學檢查、基于男性為主開發(fā)。令人驚訝的是,盡管PKUPH模型建立在惡性率相近的國內患者數(shù)據(jù)基礎上,Mayo模型建立時的患者群體和國內患者群體差異較大,PKUPH模型和Mayo模型在國內患者的外部驗證中,結果并無明顯差異[7‐12,15,16,18,19]。PUMC模型外部驗證極少。原因可能在于PUMC模型納入了肺癌相關腫瘤標志物CEA、CYFRA 21‐1作為預測因素,普適性受限。
國內研究者基于國內患者隊列開發(fā)肺結節(jié)惡性概率預測模型始于2010年左右。自2010年來,不同中心均在自己的患者隊列中開發(fā)了幾十個模型[11,16,17,20‐30],覆蓋我國北部、西北、東南、西南等地域。除了肺部CT外,腫瘤標志物和PET‐CT等檢查更多地被納入研究。大多數(shù)研究仍為回顧性、單中心、應用Logistic回歸方法建立模型,分析患者臨床資料、影像學表現(xiàn)(胸部CT為主),部分研究納入PET‐CT和血清學檢查。在這些模型中,除個別研究有一個外部驗證外,均無外部驗證研究支持。
國內有一個跨地區(qū)的多中心的肺結節(jié)惡性概率模型研究[31]。由Yang等[31]在2018年開發(fā),該研究納入來自北京、河南、南京、上海、重慶5個中心的共715例孤立性肺結節(jié)患者。Yang等[31]亦使用Logistic回歸方法,使用393例患者作為訓練集,建立了包含患者的臨床數(shù)據(jù)、肺部CT表現(xiàn)、腫瘤標志物的模型,其預測因素為:年齡、吸煙史、結節(jié)直徑、毛刺征、性別、胃泌素釋放肽前體(Progastrin‐releasing peptide,ProGRP)、SCC‐Ag、CYFRA21‐1、CEA。由于此項研究跨越國內多個地區(qū),該模型具有應用于全國各地區(qū)患者的潛力。然而,雖然模型在訓練集中表現(xiàn)出良好的診斷效能(AUC=0.915,1),在驗證集中,模型的診斷能力十分有限(AUC=0.583,6)。因此,該模型實際能否在全國應用,仍需要更多外部驗證結果。另一方面,可惜的是,在這個國內多中心的患者隊列中,并未進行其他模型的驗證。
眾多以Logistic回歸方法建立的預測模型所納入的獨立預測因素有許多不同。2019年,張凱等[32]對于基于國內人群的肺癌惡性概率預測模型進行了一項meta分析,共回顧了2010年‐2018年的18項研究,結果顯示,人口學特征4個變量(年齡、家族史、既往腫瘤史、吸煙史)、影像學特征8個變量(毛刺癥、結節(jié)直徑、分葉、毛玻璃樣、邊界模糊、胸膜凹陷征、短毛刺、最大標準攝取值(Maximum standardized uptake value,SUVmax)、血清學1個變量(CYFRA21‐1)為導致SPN惡性的危險因素,影像學特征2個變量(鈣化、邊界清楚)為SPN惡性的保護因素。但該meta的文獻檢索策略欠完善,可能存在漏檢。盡管如此,該研究結果中出現(xiàn)了多個人口學變量和影像學變量,這些變量出現(xiàn)在部分模型中,但在另一些模型中未出現(xiàn)。這說明這些變量對于肺部結節(jié)惡性程度預測事實上的貢獻無巨大差異,而不同肺結節(jié)惡性預測模型的不同結果主要來自于樣本來源相關偏倚。因此,以更少的變量構建準確的、普適的肺結節(jié)惡性概率預測模型可能存在較大困難。
將預測模型和臨床醫(yī)生判斷的準確程度加以比較是衡量模型實用性的另一角度。國內有一項研究[33]比較了放射科醫(yī)生和Mayo模型、Brock模型、退伍軍人模型診斷肺結節(jié)效能。研究納入了277例患者,惡性率為74.7%,以病理學結果或隨訪兩年有無變化作為良惡性診斷依據(jù)。放射科醫(yī)生將結節(jié)風險評估為5個等級:良性、可能良性、不確定、可能惡性、高度懷疑惡性。放射科醫(yī)生、Mayo模型、Brock模型的ROC曲線下面積無顯著差異,但退伍軍人模型顯著低于三者。決策曲線分析顯示放射科醫(yī)生評估比三個模型均帶來更高的獲益。國外此類研究稍多[34‐36],但預測模型的表現(xiàn)均不優(yōu)于臨床醫(yī)生。
目前,國內外不同肺結節(jié)診治指南均在其臨床路徑中提到惡性概率模型[37‐42]。指南和共識提供肺結節(jié)診治的臨床路徑,首先應用少量危險因素(如年齡、吸煙史、結節(jié)直徑、是否是實性結節(jié))將患者進行風險分層,并對每一分層提出相應的、具有可操作性的臨床管理路徑(如:3個月后隨訪、6個月后隨訪、年度隨訪、活檢明確診斷、手術治療等)。與之不同,惡性概率模型選擇更多的危險因素、以定量方式評估該結節(jié)的惡性概率,進一步指導臨床醫(yī)生對每個個案做出臨床決策。
通過肺結節(jié)診治路徑的危險分層后,仍有部分患者的臨床決策在惡性風險和有創(chuàng)操作風險的衡量之間難以取舍。對于此類患者,指南或共識推薦臨床醫(yī)生可使用肺結節(jié)惡性概率預測模型為臨床決策提供參考。結合目前預測模型的外部驗證情況,指南還強調模型選擇問題和臨床醫(yī)生判斷的價值。
美國胸科醫(yī)師協(xié)會(A merican College of Chest Physicians,ACCP)2013年肺結節(jié)診治指南[37],提到包括梅奧模型、VA模型等多個模型,但表明模型整體準確率并不高于??漆t(yī)生,建議依據(jù)目標人群特點、易用性及外部驗證程度選擇模型,但未推薦具體選擇哪個模型。同時,由于模型與臨床醫(yī)生判斷間相關性較差,指南指出模型可能能為臨床醫(yī)生提供獨特的信息。
美國國家綜合癌癥網絡(National Comprehensive Cancer Network,NCCN)2021年更新的肺結節(jié)篩查指南中[38],惡性概率預測模型僅僅作為多學科團隊對于中高風險結節(jié)評估的一部分,最終由多學科團隊共同決定患者是繼續(xù)進行3個月或6個月的影像學隨訪還是進行活檢或手術治療。這些患者包括:部分首發(fā)≥8 mm的實性結節(jié)、部分首發(fā)且實性成分≥6 mm的部分實性結節(jié)、隨訪無增大的≥15 mm的實性結節(jié)、隨訪有變化的≥8 mm的部分實性結節(jié)。指南同時強調多學科團隊的重要性,強調模型不能取代多學科團隊的作用。
亞洲肺結節(jié)診治共識[39]中,臨床醫(yī)生對結節(jié)惡性風險的判斷會影響直徑>8 mm實性結節(jié)的處理方式。共識指出,歐美模型并不一定能適用于亞太地區(qū)。專家組建議,無論是否使用模型,臨床醫(yī)生應當決定后續(xù)策略。
我國肺結節(jié)診治專家共識(2018版)[40]也強調模型的適用性問題。比如,亞太地區(qū)為結核高發(fā)地區(qū),而結核亦好發(fā)于上葉,因此肺結節(jié)位于上葉作為一個預測因素并不適合亞太地區(qū)使用。該共識亦未推薦具體模型,并建議依據(jù)目標人群特點、易用性及驗證程度選擇模型。然而,根據(jù)本文總結,實際上在國內經過一般性檢查(即病史采集和CT檢查)的患者中,并無經過驗證仍較理想的模型可供選擇。肺癌篩查與管理中國專家共識[41]中提到Yang等在2018年經多中心研究建立的模型,適用于中國高風險人群。然而,該模型本身尚未經過更多的外部驗證。
Fleischner學會作為放射科學會[42],其肺結節(jié)指南中并未提到臨床惡性概率預測模型。
應用人工智能進行肺結節(jié)惡性預測研究近幾十年來均在持續(xù)進行。人工智能主要基于兩種策略完成結節(jié)分類,一是經典機器學習技術,二是深度學習。深度學習整合了肺結節(jié)特征提取和分類兩個步驟,直接從CT影像得出良惡性分類結論,為頭到頭的黑箱學習形式。目前,深度學習表現(xiàn)優(yōu)于機器學習,不少研究顯示出優(yōu)良的準確率[43,44]。卷積神經網絡(convolutional neural network,CNN)是深度學習中用來預測惡性肺結節(jié)的主要類型。
關于人工智能在肺結節(jié)良惡性判斷上的應用,有以下幾方面不足。
首先,機器學習的目標是良惡性二分類,除了采用Logistic回歸方法等特定算法以外,均只給出良惡性分類結果,不能給出惡性概率。Logistic回歸方法作為統(tǒng)計學及經典機器學習方法,可在經典機器學習策略中應用,但此策略在建模方法上無本質變化,難以帶來模型準確性的突破性提高。目前表現(xiàn)更加突出的深度學習方法只能得出分類結果。
其次,迄今為止,無論是基于經典機器學習策略或是深度學習,絕大多數(shù)研究僅僅提取了影像學特征作為預測因子,而未考慮病史和血清學資料。國內有一此類研究[45],但亦僅僅給出分類結果。該研究使用了包括Logistic回歸在內的5種傳統(tǒng)深度學習方法[Logistic回歸(Logisticregression,LR)、人工神經網絡(artificial neural network,ANN)、k‐鄰近算法(k‐nearest neighbor,KNN)、支持向量機(support vector machines,SVM)、隨機森林(random forest,RF)],以388例患者的病史信息、CT表現(xiàn)和血清腫瘤標志物為基本資料,構建了5種惡性概率預測模型。這5種模型在驗證集中的曲線下面積均高于Mayo模型,其中SVM模型和LR模型表現(xiàn)較好。
最后,機器學習提取的影像學特征不同于傳統(tǒng)臨床影像學征象。傳統(tǒng)影像學征象可從病理學角度理解,因此能夠在實際和其他良性結節(jié)鑒別時有鑒別診斷意義,所以可通過較小樣本量的學習獲得較可靠診斷模型。人工智能圖像識別的影像學特征尚無明確病理意義,當相應模型應用于未能被訓練集大量覆蓋的良性結節(jié)病例時,誤判可能較大。
基于人工智能進行肺結節(jié)惡性概率預測,可從以下幾方面設想:①影像學特征選擇:尋找適合于人工智能的影像學特征,可以訓練人工智能識別傳統(tǒng)影像學征象,或從目前人工智能常用的影像學特征中篩選可理解的特征;②將影像學特征與其他臨床信息共同納入模型開發(fā);③應用其他概率模型。
肺結節(jié)惡性概率預測模型,旨在幫助臨床對于肺結節(jié)患者權衡隨訪或有創(chuàng)檢查的獲益,指導肺結節(jié)診治。綜上,無論是初診肺結節(jié)患者還是肺結節(jié)術前患者,目前國內尚無經過可靠外部驗證、可應用于國內各地區(qū)、預測準確性良好的模型。仍有大量研究值得進一步深入,包括:①尚無惡性程度更低的肺結節(jié)患者中模型的建立和驗證研究,如體檢人群,在此類群體中,Brock模型的驗證仍值得期待;②尚無理想的覆蓋國內多地域的多中心研究,包括模型的建立和驗證;③模型和臨床醫(yī)生預測能力的探索仍需進行,尤其是與基層醫(yī)療中心執(zhí)業(yè)醫(yī)師、全科醫(yī)師等對比研究十分重要,這將明確此類模型在指導廣泛基層醫(yī)療、而非肺結節(jié)中心醫(yī)療的意義;④現(xiàn)有基于Logistic統(tǒng)計回歸方法開發(fā)的模型,前景并不樂觀,基于人工智能、應用其他方法的模型值得嘗試。