魯曉騰,龔敬,聶生東
上海理工大學(xué)醫(yī)學(xué)影像工程研究所,上海200082
在過去50年,肺癌是全球范圍內(nèi)發(fā)病率和死亡率增長(zhǎng)最快的惡性腫瘤,穩(wěn)居我國惡性腫瘤之首。其中,非小細(xì)胞肺癌(Non-Small Cell Lung Cancer,NSCLC)占肺癌患病總?cè)藬?shù)的80%~85%[1]。作為最常見的肺癌組織學(xué)類型之一,肺腺癌占NSCLC總數(shù)的50%以上[2]。隨著科技的進(jìn)步和醫(yī)療的發(fā)展,肺腺癌患者的存活狀況得到了一定的改善。但肺腺癌起病較為隱匿,當(dāng)下面臨的仍然是5年生存率在15%左右這一嚴(yán)峻事實(shí)[3]。因此,對(duì)肺腺癌的預(yù)后因素進(jìn)行研究對(duì)于改善患者的生存狀況有重要意義。
針對(duì)肺腺癌預(yù)后因素的研究,已經(jīng)存在一些相關(guān)工作。Grove等[4]發(fā)現(xiàn)凸度和熵率兩個(gè)因素是肺腺癌的獨(dú)立預(yù)后因素。Hawkins等[5]提取一系列圖像的三維特征來分析探究肺腺癌的獨(dú)立預(yù)后因素,并使用決策樹方法建立分類器對(duì)結(jié)果進(jìn)行檢驗(yàn)。Balagurunathan等[6]對(duì)多種二維和三維特征進(jìn)行提取分析,發(fā)現(xiàn)游程長(zhǎng)度灰度級(jí)不均勻度有較好的預(yù)后能力。楊為貴等[7]回顧性研究了109例肺腺癌患者的臨床資料,采用Kaplan-Meier法和多因素回歸分析法對(duì)臨床因素進(jìn)行生存分析。結(jié)果顯示,腫瘤大小、TNM分期等因素是肺腺癌的獨(dú)立預(yù)后因素。廉政君等[8]回顧性分析了201例晚期非小細(xì)胞肺癌患者的臨床資料。結(jié)果發(fā)現(xiàn):患者吸煙情況以及治療方案選擇是影響患者生存的獨(dú)立預(yù)后因素。
從目前的研究成果來看,肺腺癌預(yù)后方面的研究普遍存在兩個(gè)問題。其一是提取的預(yù)選因素沒有完全包括直方圖統(tǒng)計(jì)特征、形狀特征以及紋理特征3類極具代表性的圖像特征。例如文獻(xiàn)[4]中只提取了部分形狀特征和部分紋理特征;文獻(xiàn)[5]只提取了部分三維形狀特征和部分紋理特征。其二是對(duì)于生存分析獲得的獨(dú)立預(yù)后因素沒有通過實(shí)驗(yàn)加以驗(yàn)證。例如文獻(xiàn)[7-8]只進(jìn)行了預(yù)后因素的篩選,并沒有對(duì)結(jié)果進(jìn)行實(shí)驗(yàn)驗(yàn)證。
針對(duì)目前研究存在的不足,本文設(shè)計(jì)了新的預(yù)后研究方法,基于多類特征對(duì)肺腺癌的預(yù)后因素進(jìn)行分析探究;同時(shí),設(shè)計(jì)分類器檢測(cè)獨(dú)立預(yù)后因素的預(yù)后能力。進(jìn)而完善目前研究中存在的不足,獲得更好的預(yù)后效果。
本研究所用數(shù)據(jù)來自于TCIA(The Cancer Imaging Archive)公共訪問中的Lung CT-Diagnosis數(shù)據(jù)庫[9]。該數(shù)據(jù)庫中共有61組肺腺癌患者的CT序列圖像,每組序列平均包含75幅圖像,每一幅圖像的大小為512像素×512像素,圖像層厚在2.5~6.0 mm之間。實(shí)驗(yàn)平臺(tái)為64位Windows 10操作系統(tǒng),i7-4770-3.4 GHz處理器,8 GB內(nèi)存;使用的軟件是Matlab 2015a和SPSS 22.0。
首先,進(jìn)行肺實(shí)質(zhì)和腫瘤區(qū)域的提取。接著,完成圖像部分的特征提取。然后,使用SPSS軟件繪制生存曲線圖以及單因素分析和多因素分析。最后,使用支持向量機(jī)(Support Vector Machine,SVM)建立分類器對(duì)獨(dú)立預(yù)后因素的預(yù)后能力進(jìn)行驗(yàn)證。實(shí)驗(yàn)方法流程如圖1所示。
圖1 方法流程圖Fig.1 Flow chart of experimental method
1.2.1 預(yù)處理為了便于感興趣區(qū)域(Region of Interest,ROI)的提取,需先將肺實(shí)質(zhì)部分提取。本文采用Ostu閾值法與數(shù)學(xué)形態(tài)學(xué)相結(jié)合的方法對(duì)肺實(shí)質(zhì)進(jìn)行提取。提取肺實(shí)質(zhì)后,為避免分割方法對(duì)預(yù)后造成影響,本文采用穩(wěn)定性較高的區(qū)域生長(zhǎng)法和基于邊緣檢測(cè)的方法對(duì)ROI進(jìn)行分割。
1.2.2 特征提取直方圖統(tǒng)計(jì)特征是根據(jù)ROI的灰度分布直方圖求取出的一系列特征。有研究稱:直方圖統(tǒng)計(jì)特征可以在肺結(jié)節(jié)良惡性診斷方面作為重要的依據(jù)[10];且與肺腺癌預(yù)后有緊密的聯(lián)系。這說明該類特征有極大可能性與肺腺癌預(yù)后相關(guān)。形狀特征是一類較為直觀且容易理解的圖像特征。臨床醫(yī)學(xué)上,許多醫(yī)生就是根據(jù)腫瘤的分葉征、毛刺征等形狀特征對(duì)腫瘤的良惡性以及患者生存信息進(jìn)行判斷。紋理特征包含了物體表面的性質(zhì)和結(jié)構(gòu),還在一定程度上反映了物質(zhì)與周圍環(huán)境的關(guān)系[11]。幾年來,很多研究表明:紋理特征與肺癌的腫瘤分期、轉(zhuǎn)移、存活情況相關(guān)[12-14]。所以,本文提取了灰度共生矩陣(Gray Level Co-occurrence Matrix,GLCM)紋理特征作為備選特征。以上特征的提取方法在以往文獻(xiàn)中有所介紹,本文不再贅述。本實(shí)驗(yàn)提取各類特征共計(jì)30種,具體特征如表1所示。
表1 實(shí)驗(yàn)中提取的特征Tab.1 Features extracted in experiment
1.2.3 生存分析生存分析是一種將終點(diǎn)事件和此事件發(fā)生所經(jīng)歷的時(shí)間結(jié)合分析的一種統(tǒng)計(jì)分析方法。本文主要使用如下3種方法進(jìn)行生存分析:
(1)生命表分析。生命表法分析是通過計(jì)算落入時(shí)間區(qū)間[tk-1,tk]內(nèi)的失效和刪失的觀察個(gè)數(shù)來估計(jì)該區(qū)間上的死亡概率,然后用該區(qū)間及其之前各區(qū)間上的生存概率之積來估計(jì)假設(shè)生存率[15]。
(2)Kaplan-Meier分析。Kaplan-Meier分析法又稱乘積極限法,是在1985年由Kaplan和Meier提出的。它根據(jù)每一個(gè)事件發(fā)生時(shí)間點(diǎn)的條件概率的估計(jì)和事件相應(yīng)的概率等信息來估計(jì)每一個(gè)時(shí)間點(diǎn)的生存率[16]。
(3)COX回歸分析。COX回歸分析是一種存在刪失數(shù)據(jù)情況下擬合時(shí)間—時(shí)間模型的一種方法[17]。COX回歸分析需要建立生存時(shí)間隨危險(xiǎn)因素變化的回歸模型,進(jìn)而確定對(duì)生存時(shí)間有影響的獨(dú)立預(yù)后因素。
在對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行分析后,本文使用生命表法繪制生存曲線圖,使用Kaplan-Meier法對(duì)圖像特征進(jìn)行單因素分析,使用COX回歸分析法對(duì)預(yù)后因素進(jìn)行多因素分析。
1.2.4 建立分類模型SVM是一種基于統(tǒng)計(jì)學(xué)習(xí)理論的機(jī)器學(xué)習(xí)方法。相較于其他機(jī)器學(xué)習(xí)方法,SVM有如下優(yōu)勢(shì):首先,由有限的訓(xùn)練集樣本得到的小誤差仍可以保證對(duì)獨(dú)立測(cè)試集保持小的誤差;其次,支持向量算法是一種凸優(yōu)化算法,局部最優(yōu)解一定是全局最優(yōu)解;另外,SVM是一種結(jié)構(gòu)風(fēng)險(xiǎn)最小化算法,泛化能力較強(qiáng)。因此,本文使用SVM建立分類器對(duì)肺腺癌的獨(dú)立預(yù)后因素的預(yù)后能力進(jìn)行檢驗(yàn)。
為充分利用有限數(shù)據(jù),本文使用留一交叉驗(yàn)證法對(duì)數(shù)據(jù)進(jìn)行處理。這種方法計(jì)算相對(duì)繁瑣,但數(shù)據(jù)利用率更高,得到的結(jié)論也更準(zhǔn)確,更適合小樣本數(shù)據(jù)的分類檢測(cè)。
本次試驗(yàn),參與隨訪的患者一共有61例。到隨訪日期截止時(shí),仍有38例存活?;颊卟蛔?年的存活率是60.7%,3年存活率為39.3%,5年存活率為1.6%。在SPSS軟件中,使用生命表分析方法,將患者的生存時(shí)間,存活狀態(tài)作為輸入變量,可以生成患者的生存曲線圖,如圖2所示。
圖2 生存曲線圖Fig.2 Survival curve
求取各組特征數(shù)據(jù)的中位數(shù)作為其cut-off值,然后將患者的生存時(shí)間、存活狀態(tài)以及特征數(shù)據(jù)依次輸入到Kaplan-Meier分析模型中進(jìn)行單因素分析。為避免ROI的分割方法對(duì)結(jié)果造成影響,本文對(duì)兩種分割方法的分割結(jié)果及二者平均后的數(shù)據(jù)分別進(jìn)行了單因素分析。
對(duì)區(qū)域生長(zhǎng)法的ROI分割結(jié)果進(jìn)行單因素分析發(fā)現(xiàn):灰度均值、徑向方差、邊緣粗糙度、GLCM非相似性和GLCM熵與患者的生存顯著相關(guān)(P<0.05)。具體數(shù)據(jù)見表2。
對(duì)邊緣檢測(cè)法的ROI分割結(jié)果進(jìn)行單因素分析發(fā)現(xiàn):徑向方差、邊緣粗糙度、GLCM角二階矩、GLCM差熵、GLCM非相似性、GLCM熵和GLCM逆差矩與患者的生存顯著相關(guān)(P<0.05)。具體數(shù)據(jù)見表3。
對(duì)兩種分割方法結(jié)果的平均數(shù)據(jù)進(jìn)行單因素分析發(fā)現(xiàn):徑向方差、邊緣粗糙度、GLCM差熵、GLCM非相似性、GLCM熵與患者的生存顯著相關(guān)(P<0.05)。具體數(shù)據(jù)見表4。
從表2、表3和表4中可以發(fā)現(xiàn),3種情況下徑向方差、邊緣粗糙度、GLCM熵和GLCM非相似性與患者的生存情況顯著相關(guān),故將這4種特征作為多因素分析的輸入?yún)f(xié)變量。
將患者的生存時(shí)間、現(xiàn)階段存活狀態(tài)以及備選的協(xié)變量按照“向前:LR”的方式輸入回歸模型,經(jīng)COX模型多因素分析發(fā)現(xiàn):只有“徑向方差”這一影像特征與肺腺癌預(yù)后有顯著性關(guān)系,即“徑向方差”是肺腺癌的獨(dú)立預(yù)后因素。具體數(shù)據(jù)見表5。
表2 區(qū)域生長(zhǎng)法分割結(jié)果的單因素分析Tab.2 Univariate analysis of region of interest(ROI)based on region growing method
表3 基于邊緣檢測(cè)法分割結(jié)果的單因素分析Tab.3 Univariate analysis of ROI based on edge detection method
表4 平均數(shù)據(jù)的單因素分析Tab.4 Univariate analysis of average data
本文涉及的肺腺癌患者的中位生存時(shí)間是29個(gè)月,故將現(xiàn)有數(shù)據(jù)分為存活時(shí)間>29個(gè)月和≤29個(gè)月兩類。通過留一交叉檢驗(yàn)的方法進(jìn)行分類實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表6所示。
本研究設(shè)計(jì)實(shí)驗(yàn)對(duì)61位肺腺癌患者進(jìn)行預(yù)后因素的分析研究。從圖2可以看出,隨著存活時(shí)間的增加,患者的累積存活率急劇下降,這說明患者的預(yù)后質(zhì)量亟待提高。綜合觀察表2、表3和表4可以發(fā)現(xiàn):徑向方差、邊緣粗糙度、GLCM非相似性、GLCM熵對(duì)患者的累積生存率的影響有統(tǒng)計(jì)學(xué)意義(P<0.05)。從表5可以發(fā)現(xiàn)兩種分割方法的數(shù)據(jù)以及平均后數(shù)據(jù)的分析結(jié)果都表明徑向方差是肺腺癌的獨(dú)立預(yù)后因素。分類器的分類結(jié)果顯示,徑向方差特征對(duì)患者生存時(shí)間的分類準(zhǔn)確率較高,利用該獨(dú)立預(yù)后因素可以對(duì)患者的生存時(shí)間進(jìn)行較準(zhǔn)確的預(yù)后。
在單因素分析實(shí)驗(yàn)中,GLCM非相似性與患者預(yù)后的顯著性關(guān)系較為明顯,但是在COX模型的多因素分析中,唯有徑向方差是肺腺癌預(yù)后的獨(dú)立預(yù)后因素。經(jīng)分析后,導(dǎo)致這種現(xiàn)象發(fā)生的原因可能是不同輸入?yún)f(xié)變量相互影響,不足以產(chǎn)生足夠強(qiáng)的相關(guān)性。在分類器預(yù)后能力檢測(cè)中,本文的實(shí)驗(yàn)結(jié)果與國外相關(guān)研究的77.5%準(zhǔn)確率[5]相比還有一定差距,但受限于數(shù)據(jù)總量,用于訓(xùn)練分類器的樣本量較少,也是導(dǎo)致分類準(zhǔn)確率較國外研究偏低的一個(gè)重要因素。
表5 COX回歸模型多因素分析Tab.5 Multivariate analysis based on COX regression model
表6 分類實(shí)驗(yàn)結(jié)果(%)Tab.6 Classification results(%)
相較于某些國外研究,本文提取了更為全面的圖像特征,增加了實(shí)驗(yàn)結(jié)果驗(yàn)證步驟。而在國內(nèi)期刊范圍內(nèi),幾乎沒有文獻(xiàn)表明已經(jīng)開始了以CT圖像特征作為肺腺癌預(yù)后因素的相關(guān)研究。若能夠獲取更多可用的圖像數(shù)據(jù)和隨訪數(shù)據(jù),必將篩選出更加準(zhǔn)確的預(yù)后因素,進(jìn)而可以對(duì)肺腺癌進(jìn)行更加精準(zhǔn)的預(yù)后。
本文提取肺腺癌患者CT圖像的圖像特征,使用Kaplan-Meier方法和COX回歸方法對(duì)特征數(shù)據(jù)進(jìn)行生存分析并使用SVM對(duì)結(jié)果進(jìn)行驗(yàn)證發(fā)現(xiàn)徑向方差這一影像學(xué)特征是肺腺癌的獨(dú)立預(yù)后因素。本研究為肺腺癌預(yù)后風(fēng)險(xiǎn)評(píng)估系統(tǒng)的建立提供了一定的支持。