高 云,楊勝利,何 蓉,何興平,彭明堯,代 軍,朱江紅,胡 軍,蘇 敏,龐 潔
(四川省攀枝花市中心醫(yī)院,四川 攀枝花 617067)
鼻咽癌是我國南方常見的惡性腫瘤之一,惡性程度高,局部生長快,遠處轉移率高。放射治療(以下簡稱放療)是治療鼻咽癌的首選方法,目前該技術有了顯著進步,但患者5年生存率仍徘徊在60%左右。如果能比較準確地預測不同患者的預后,也就為臨床決策的個體化提供了可能,從而實現(xiàn)臨床決策的科學化,并進一步提高鼻咽癌的控制率及患者的生存率。涉及鼻咽癌患者5年生存狀態(tài)的指標多種多樣,產生的大量數據和海量信息已遠遠超出了人的分析和處理能力。采用何種手段對海量信息進行分析、綜合,發(fā)現(xiàn)數據間潛在的關系,最終形成可供臨床使用的決策知識已成當務之急,數據挖掘技術應運而生[1-2]。人工神經網絡(artificial neural network,ANN)和支持向量機(support vector machine,SVM)是數據挖掘中廣泛采用于建立預測模型的方法[3]。本研究旨在利用ANN和SVM建立預測模型來判斷患者5年后的生存狀態(tài),并對兩種模型的預測效能進行評估,探索鼻咽癌預后研究的新方法。
初選2005年1月至2007年12月我院診治的鼻咽癌患者155例。入組標準:經鼻咽鏡活檢病理證實為鼻咽癌;初診患者;接受放療;研究所需各項臨床資料齊全;從治療結束隨訪滿5年。共130例患者入組。其中男97例,女33例,男∶女=3∶1;年齡31~75歲,中位數56歲;隨訪截止時間2007年12月17日,至隨訪終止時共有46例死亡,死亡率為35.38%。將入組患者按照入院時間順序和4∶1的比例分為兩組,一組作為訓練樣本,用于篩選變量及建立預測模型,計104例;一組作為驗證樣本,用于評價模型效果,計26例。
放療方案:所有患者均接受放療,以60Co或直線加速器6~8 MV的X線為主,輔以深部X線,鼻咽劑量66~76 Gy,6~8周完成;頸部劑量 50~70 Gy,5~7周完成;每次2 Gy,每天1次,每周5 d照射。
化療方案:130例患者中有29例未接受化療,其余101例接受化療的患者中61例接受同步放化療(放化療同時進行),40例接受序貫放化療(放療結束后再化療)。均采用PF方案,順鉑(DDP,注射劑,規(guī)格為每支30 mg,江蘇豪森藥業(yè)股份有限公司)30 mg/m2,靜脈滴注,第1~3天給藥;氟尿嘧啶(5-Fu,注射劑,規(guī)格為每支0.25 g,天津金耀氨基酸有限公司)500~750 mg/m2,靜脈滴注,第1~5天給藥;21 d為1個周期,總共4~6個周期。
觀察指標包括性別、年齡、T分期、N分期、M分期、92福州分期、卡氏生活質量評分(KPS評分)、家族史、病理分化類型、有無顱底骨質破壞、有無顱神經損傷、有無咽旁間隙侵犯、頸部最大淋巴結直徑、頸部淋巴結數目、頸部淋巴結活動度、確診到放療時間、完成放療時間、放療是否連續(xù)、放療前血紅蛋白(Hb)含量、放療末Hb含量、鼻咽放療劑量、頸部放療劑量、鼻咽療效、頸部淋巴結療效、放化療聯(lián)合方式、化療周期數、EB病毒VCA-IgA滴度、血清LDH水平以及治療后5年生存狀態(tài)共29項。以治療后第5年末的生存狀態(tài)作為因變量,而以其余的28項觀察指標作為自變量。
首先對訓練樣本的上述觀察指標進行單因素分析,篩選出組間差異有統(tǒng)計學意義的指標,作為建模變量。采用SPSS 2.0版統(tǒng)計軟件,對計量資料進行正態(tài)性分析,采用獨立樣本t檢驗;對計數或等級資料使用 χ2檢驗,如果出現(xiàn)行×列表資料中有格子的理論頻數(T)<1或1≤T<5的格子數超過格子總數的20%,則使用Fisher精確概率法。
ANN是醫(yī)學領域中廣泛用于建立預測模型的方法,是在現(xiàn)代神經生物學研究成果的基礎上發(fā)展起來的一種模擬人腦信息處理機制的信息分析處理系統(tǒng)[4]。本研究利用軟件MATLAB R2012a 中的神經網絡工具箱(neural network toolbox 7.0.3)來進行ANN預測模型的建模、訓練和仿真。采用前饋型反向傳播神經網絡(BP網絡),網絡結構為3層,包括輸入層、隱含層和輸出層。輸入層神經元為單因素分析確定的有統(tǒng)計學差異的觀察指標,輸出層神經元為5年生存狀態(tài)(生或死),隱含層神經元數目由經驗公式及多次試驗確定。經驗公式為其中ni為輸入層神經元數目,n0為輸出層神經元數目,a為常數,且1<a<10。
SVM由Vapnik在20世紀90年代中期提出,是一種廣泛用于模式識別和分類問題的一種監(jiān)督式機器學習技術。支持向量機的基本思想是將樣本數據映射到一個更高維的空間,然后在這樣的樣本空間或特征空間里建立一個最大間隔超平面,使得超平面與不同類樣本集之間的距離最大,這個距離叫做間隔(margin),邊緣上的點叫做支持向量(support vector,見圖1),從而達到將樣本進行分類的目的[5]。與ANN相比,SVM具有很強的泛化能力、訓練速度較快、能獲得全局最優(yōu)解等優(yōu)點。本研究采用臺灣大學林智仁開發(fā)設計的被全球廣泛應用的SVM工具箱(libsvm 3.14)來進行SVM模型的訓練、建模和預測工作。預測鼻咽癌患者5年生存狀態(tài)的問題本質上是一個分類問題,SVM方法采用C-支持向量分類機(C-SVC),建模的核函數采用徑向基核函數(RBF):K(u,v)=exp(-r|u-v|^2),并采用交叉驗證(CV)來選擇CSVC的懲罰參數C以及RBF的參數γ的最佳取值。交叉驗證采用K-折交叉驗證(K-fold CV),由于本研究樣本規(guī)模不大,K取值為4。
圖1 SVM原理—間隔及支持向量
年齡、頸部最大淋巴結直徑等10項計量資料指標經正態(tài)性檢驗,結果均符合正態(tài)分布,采用獨立樣本t檢驗,組間差異有統(tǒng)計學意義的為年齡、確診到放療時間(P<0.05)。對性別、T分期等18項計數或等級資料指標采用 χ2檢驗及Fisher精確概率法,組間差異有統(tǒng)計學意義的為T分期、N分期、M分期、92福州分期、KPS評分、有無顱底骨質破壞、有無顱神經損傷、有無咽旁間隙侵犯、鼻咽療效、頸部淋巴結療效(P<0.05)。單因素分析篩選出此12項指標作為建模變量。
ANN預測模型輸入層神經元為12個(即單因素分析篩選出的組間差異有統(tǒng)計學意義的12項指標),隱含層神經元由經驗公式及多次試驗確定為5個,輸出層神經元為1個(即患者5年生存狀態(tài)),最終確定神經網絡的結構。經過網絡迭代計算至MSE<0.001時,達到精度要求并保存模型參數,建立ANN預測模型。將驗證樣本代入確立的ANN預測模型求得其預測值并評估其效能(表1)。ANN模型預測患者5年生存狀態(tài)的準確率、敏感度、特異度及 Youden 指數分別為 88.5% ,87.5% ,90.0% 和0.78,ROC 曲線下面積為 0.897(圖 2)。
表1 5年生存狀態(tài)預測模型效果評價
圖2 5年生存狀態(tài)預測模型ROC曲線
SVM預測模型輸入變量為12個(即單因素分析篩選出的組間差異有統(tǒng)計學意義的12項指標),輸出變量為1個(即患者5年生存狀態(tài)),經4-fold交叉驗證,確定參數C以及r的最佳取值為C=32、r=10.5561,最終建立 SVM預測模型。將驗證樣本代入確立的SVM預測模型求得其預測值并評估其效能(表1)。SVM模型預測患者5年生存狀態(tài)的準確率、敏感度、特異度及Youden 指數分別為 96.2% ,93.8% ,100% 和 0.94,ROC 曲線下面積為0.969(圖2),優(yōu)于ANN模型。
本研究建立預測模型所使用的ANN及SVM均是機器學習和數據挖掘中的常用技術,已在醫(yī)學領域獲得了廣泛應用[6-9]。
ANN是近年來迅速發(fā)展起來的一門集神經科學、計算機科學、信息科學、工程科學為一體的邊緣交叉學科,具有獨特的信息存儲方式、良好的容錯性、大規(guī)模的并行處理方式以及強大的自組織、自學習和自適應能力。中山大學腫瘤防治中心的華貽軍等[10]報道,利用ANN預測鼻咽癌患者5年生存狀態(tài)的準確率、敏感度、特異度及 Youden 指數分別為 86.3% ,80% ,89.47% 和 0.664 3,與本研究所建立的ANN模型相比,準確率和特異度類似,但敏感性稍差,可能與建模指標選擇有關。
SVM是從Vapnik的統(tǒng)計學習理論發(fā)展而來的,主要針對小樣本數據進行學習、分類和預測的一種方法。與ANN相比,SVM具有以下主要的優(yōu)點:傳統(tǒng)的統(tǒng)計模式識別方法只有在樣本趨向無窮大時,其性能才有理論的保證,而SVM是專門針對有限樣本情況的,從而能在小樣本條件下建立較好的預測模型;SVM算法最終將轉化成為一個二次型尋優(yōu)問題,從理論上說,得到的將是全局最優(yōu)點,解決了在神經網絡方法中無法避免的局部極值問題;SVM算法將實際問題通過非線性變換轉換到高維的特征空間(Feature Space),在高維空間中構造線性判別函數來實現(xiàn)原空間中的非線性判別函數,通過結構風險最小化原則,極大地增強了模型的推廣能力,從而能解決神經網絡不能解決的過度學習問題。本研究結果表明,與ANN模型相比,SVM模型能更好地整合各種影響患者5年生存狀態(tài)的信息,所建立的預測模型也具有更高的準確率、敏感度及特異度,也就是說SVM模型具有更好的預測能力,能為臨床決策提供更有力的支撐。
綜上所述,采用SVM預測模型能較好地判斷鼻咽癌患者5年后的生存狀態(tài),為個體化地預測患者的預后提供了一種新方法,其效能優(yōu)于ANN預測模型。
[1]Nada Lavracea.Data mining and visualization for decision support and modeling of public health - care resources[J].Journal of Biomedical Informatics,2007,40:438 - 447.
[2]Riccardo Bella zziea.Predictive data mining in clinical medicine:Current issues and guidelines[J].International Journal of Medical Informatics,2008,77:81 -97.
[3]Kim SY,Moon SK.Preoperative prediction of advanced prostatic cancer using clinical decision support systems:accuracy comparison between support vector machine and artificial neural network[J].Korean J Radiol,2011,12(5):588-594.
[4]陳新平,張陽德.臨床醫(yī)學中的神經網絡技術[J].中國現(xiàn)代醫(yī)學雜志,2003,13(9):46 -50.
[5]Yu W,Liu T,Valdez R,et al.Application of support vector machine modeling for prediction of common diseases:the case of diabetes and pre-diabetes[J].BMC Med Inform Decis Mak,2010,10:16.
[6]王之龍,高 云,張曉鵬,等.人工神經網絡模型基于胃癌生物學行為的MSCT影像信息判斷淋巴結轉移[J].中國醫(yī)學影像技術,2011,27(6):1 218-1 222.
[7]Zhang XP,Wang ZL,Tang L,et al.Support vector machine model for diagnosis of lymph node metastasis in gastric cancer with multidetector computed tomography:a preliminary study[J].BMC Cancer,2011,11:10.
[8]Kim W,Kim KS,Lee JE,et al.Development of novel breast cancer recurrence prediction model using support vector machine[J].J Breast Cancer,2012,15(2):230 -238.
[9]Furey TS,Cristianini N,Duffy N,et al.Support vector machine classification and validation of cancer tissue samples using microarray expression data[J].Bioinformatics,2000,16(10):906 - 914.
[10]華貽軍,洪明晃,郭 靈,等.應用人工神經網絡方法預測鼻咽癌患者5年生存狀態(tài)[J].腫瘤學雜志,2006,12(4):300-304.