張 睿 王覓也 李 楠 楊曉妍 師慶科 黃 勇
(四川大學華西醫(yī)院 成都 610041)
?
?醫(yī)學信息研究?
數(shù)據(jù)挖掘技術及其在臨床惡性腫瘤診療中的應用*
張 睿 王覓也 李 楠 楊曉妍 師慶科 黃 勇
(四川大學華西醫(yī)院 成都 610041)
介紹數(shù)據(jù)挖掘相關技術,包括特征選擇、離群值檢測模型、聚類模型、關聯(lián)規(guī)則模型、分類模型、集成學習算法等方面,對數(shù)據(jù)挖掘在臨床惡性腫瘤診斷、預后及管理中的應用進行具體闡述。
數(shù)據(jù)挖掘技術;惡性腫瘤;診斷及預后研究
腫瘤是一種嚴重危害人類健康和生命質量的疾病,其發(fā)病率和死亡率近年來逐年上升、居高不下。腫瘤早期無特異性臨床癥狀,一般不會引起患者重視,且臨床缺乏對于高危人群的有效早期診斷方法,因而當患者有典型臨床表現(xiàn)再就診時,大多已屬于晚期,因此探討及發(fā)展早期發(fā)現(xiàn)、早期診斷的有效方法,對于改善腫瘤患者的治療和預后、患者的健康及生命質量都有著重要的意義。數(shù)據(jù)挖掘的重點是發(fā)現(xiàn)知識,辨別冗余及無用信息并將其刪除,強調以自動化的方式在海量數(shù)據(jù)中搜索潛在有用的模式[1];而針對醫(yī)療衛(wèi)生領域的知識發(fā)現(xiàn)是一個復雜而艱巨的工程。但不可否認,數(shù)據(jù)挖掘在醫(yī)療領域特別是在醫(yī)學研究與臨床實踐中已獲得較好的效果[2],越來越多的臨床診療數(shù)據(jù)以信息化方式保存及數(shù)據(jù)挖掘軟件的應用普及,也使得臨床數(shù)據(jù)挖掘較過去更容易與簡便[3]。本文將對數(shù)據(jù)挖掘相關技術及其在惡性腫瘤診療中的應用進行綜述。
2.1 特征選擇
惡性腫瘤基于基因水平的數(shù)據(jù)集往往具有極高的數(shù)據(jù)維度(維度可理解為需要研究的因素,或特征屬性),應用特征選擇能在不失去數(shù)據(jù)原有價值的基礎上,有效地去除與研究目的無關及冗余的特征屬性,以提高數(shù)據(jù)挖掘的效率,改善預測精度,主要分篩選器(Filter)及封裝器(Wrapper)兩類方法。Filter類方法計算效率較高,其僅依據(jù)數(shù)據(jù)集內在性質來快速評價每個特征對分類的預測能力;而Wrapper類方法則需結合后續(xù)具體機器學習算法對特征子集進行評價,存在較大的計算開銷以及對機器學習算法的依賴,因此在生物醫(yī)學領域中,其研究關注度弱于Filter類方法[4]。特征選擇方法常用于數(shù)據(jù)挖掘前的特征子集選擇。Gandhi等[5]在面對乳腺癌數(shù)據(jù)庫中眾多屬性信息時,應用特征選擇方法構建特征子集以降低巨大的計算開銷,特征子集也獲得了較原始數(shù)據(jù)集準確率更高的模糊規(guī)則。因為便于處理高維數(shù)據(jù),特征選擇方法在惡性腫瘤基因領域的應用尤為普遍,Lee等[6]在處理卵巢癌的數(shù)萬個基因數(shù)據(jù)時,在不降低卵巢癌分類精度前提下獲得了較優(yōu)的特征子集,其不僅去除了大量的無關基因,生成易理解的分類規(guī)則,而且可顯著提高卵巢癌的分類精度。多項研究證實,特征選擇算法結合決策樹算法可極大地提升醫(yī)學診斷的準確性[7-8]。
2.2 離群值檢測模型
離群值檢測可發(fā)現(xiàn)異常值、噪聲或有用的信息,例如異常檢測提供了一類能夠在大型數(shù)據(jù)集中識別稀有事件的技術[9]。離群值可能由錯誤數(shù)據(jù)引起,但同時也可能導致新的見解產(chǎn)生[10]。Wu等[11]通過異常檢測將異于正常表達水平的基因樣本進行標識,發(fā)現(xiàn)某些癌基因只在一小部分樣本中激活。所以離群值不應被簡單認為就是噪聲數(shù)據(jù)而被剔除,而應核實、分析后妥善處理。
2.3 聚類模型
聚類分析在惡性腫瘤中多用于疾病危險因素的探索研究或觀察性學習,其一般在應用其他數(shù)據(jù)挖掘方法之前進行,以提高算法準確性,因此在統(tǒng)計、生物醫(yī)學以及機器學習領域中有較高的應用需求,其算法的選擇有賴于數(shù)據(jù)集類型及特定的應用目的。Chen等[12]應用聚類方法對前列腺癌的預后因素進行分析,在對腫瘤患者基因數(shù)據(jù)聚類后,應用卡方檢驗計算各個聚類與最終臨床預后結果的關聯(lián)程度,獲得與預后高度相關的基因。
2.4 關聯(lián)規(guī)則模型
在醫(yī)學領域,關聯(lián)規(guī)則用來發(fā)現(xiàn)數(shù)據(jù)間隱含的關聯(lián)關系[13]。Agrawal等[14]對美國腫瘤研究所的SEER數(shù)據(jù)庫中肺癌患者數(shù)據(jù)進行關聯(lián)規(guī)則挖掘,生成了數(shù)百條關聯(lián)規(guī)則,其中大部分規(guī)則符合目前醫(yī)學認知。隨后基于領域知識對大部分已知的關聯(lián)規(guī)則手工刪除后,發(fā)現(xiàn)了一些影響肺癌患者遠期生存率的新穎見解。關聯(lián)規(guī)則還被用于癌基因的尋找中,Lopez等[15]利用模糊關聯(lián)規(guī)則得到部分疑似與乳腺癌發(fā)病有關的基因。
2.5 分類模型
該算法是有監(jiān)督學習算法,通常用于惡性腫瘤的診斷及預后分析。分類模型較多,而綜合多種方法的集成算法也在不斷涌現(xiàn),如Fan等[16]提出的一種基于案例的數(shù)據(jù)聚類方法結合模糊決策樹的混合模型,以完成針對乳腺癌的分類。決策樹作為在惡性腫瘤中應用最多的分類模型,其不僅有較快的訓練速度,并且可產(chǎn)生顯式分類規(guī)則,在臨床研究中廣泛使用。部分文獻[17-18]認為決策樹模型是最優(yōu)、最實用的預測模型。目前文獻已經(jīng)報道數(shù)百種決策樹模型,而分類回歸樹(CART)也被部分學者認為是最適合醫(yī)學數(shù)據(jù)挖掘的分類模型[19]。
2.6 集成學習算法
該算法是一類有效提高分類準確率的方法,其核心是應用多種分類器后,投票決定最終的分類。幾乎所有分類算法均可采用多分類器集成(Bagging)方法進行集成式學習。Liu等[20]運用集成的C5決策樹算法對乳腺癌生存率進行預測。Kaewchinporn等[21]將決策樹、集成學習算法以及聚類方法綜合應用,在多個醫(yī)學數(shù)據(jù)集上取得較好的效果。
3.1 在惡性腫瘤診斷中的應用
對惡性腫瘤數(shù)據(jù)集進行數(shù)據(jù)挖掘,可預測個體是否罹患惡性腫瘤,為其早期診斷及預警提供指導[22]。既往決策樹方法在惡性腫瘤診斷中的應用較多,但其在眾多數(shù)據(jù)挖掘方法中分類精度卻并非最優(yōu)。就分類精度而言,部分文獻認為神經(jīng)網(wǎng)絡及支持向量機算法在眾多機器學習算法中效果突出。Abdelaal等[23]研究比較了支持向量機與決策樹在DDSM數(shù)據(jù)集中應用乳房腫塊影像特點及年齡來預測是否罹患乳腺癌,最終支持向量機獲得了最大化ROC面積。Sawarkar等[24]在Wisconsin乳腺癌數(shù)據(jù)集中應用支持向量機與神經(jīng)網(wǎng)絡算法對乳腺癌進行預測,結果顯示在預測精度上兩種方法均優(yōu)于臨床醫(yī)生,高達97%的準確率可以幫助患者免受活檢痛苦。Sarvestani等[25]比較了一系列神經(jīng)網(wǎng)絡算法的能力,其中包括了多層感知器(Multilayer Perceptron, MLP)、自組織映射算法、徑向基函數(shù)(Radia Basis Function, RBF)及概率神經(jīng)網(wǎng)絡,以用來比較對Wisconsin乳腺癌數(shù)據(jù)集及Shiraz Namazi醫(yī)院乳腺癌數(shù)據(jù)集的診斷分類效果,結果顯示概率神經(jīng)網(wǎng)絡分類精度最優(yōu)。Padmavati等[26]同樣對Wisconsin乳腺癌數(shù)據(jù)集進行乳腺癌預測,其單獨應用RBF與MLP對比Logistic回歸。結果顯示,兩種神經(jīng)網(wǎng)絡模型在構建時雖比Logistic回歸花費更多的時間,但其敏感度及特異度均優(yōu)于Logistic回歸。綜上,針對惡性腫瘤診斷的數(shù)據(jù)挖掘研究中,決策樹方法能輸出顯式的分類規(guī)則,因此在臨床研究中應用較多;而神經(jīng)網(wǎng)絡及支持向量機等算法卻擁有更高的分類精度。因此,臨床研究中算法的選擇應通過研究目的、預試驗效果、是否需要輸出易理解的顯式規(guī)則等綜合考慮。
3.2 在惡性腫瘤預后中的應用
臨床醫(yī)生需評估多種治療方案的優(yōu)劣及預估患者的預后。預后分析主要是生存時間分析,因為截尾數(shù)據(jù)的存在,腫瘤預后的預測相對腫瘤診斷來說更為困難。因為只有一小部分患者能觀察到腫瘤的復發(fā),對于這類不知道何時、是否復發(fā)的截尾數(shù)據(jù),隨訪只能得到最后一次的隨訪結果,定義這種情況為“無病生存期”。對此,Pantel[27]總結數(shù)據(jù)挖掘在腫瘤預后預測中的3個研究熱點:(1)預測腫瘤生存率(危險因素評估)。(2)預測腫瘤的復發(fā)。(3)預測腫瘤的生存概率。腫瘤預后的預測也可分成兩類問題進行處理:一類是尚未復發(fā)的患者(截尾數(shù)據(jù)),另一類是某個時點已復發(fā)的患者[28]。腫瘤預后研究多選擇臨床可獲取的數(shù)據(jù)進行分析,但加入基因數(shù)據(jù)的聯(lián)合研究也越來越多,Gevaert[29]選擇將臨床數(shù)據(jù)與基因微陣列數(shù)據(jù)共同用于乳腺癌預后的預測,通過貝葉斯網(wǎng)絡模型自動進行特征選擇,識別出這些相關因素與乳腺癌的相關程度。在腫瘤預后研究中,決策樹是應用最多的算法之一。Delen等[30]就乳腺癌的生存率進行了研究,使用神經(jīng)網(wǎng)絡、決策樹以及Logistic回歸模型建立了基于20萬份乳腺癌樣本數(shù)據(jù)的預測模型,通過特征選擇篩選出72個特征以構建預測模型,決策樹C5.0獲得最優(yōu)精度。實際應用中發(fā)現(xiàn),如能將多種機器學習模型聯(lián)合應用,充分利用各模型的優(yōu)點,可提高腫瘤預后的預測精度。Khan等[31]在SEER數(shù)據(jù)集上基于模糊集-決策樹方法建立了一種混合模型,以嘗試不同的決策樹規(guī)則與不同模糊集的組合情況,發(fā)現(xiàn)混合的模糊決策樹較單個算法具有更好的魯棒性及平衡性。Choi等[32]比較了神經(jīng)網(wǎng)絡、貝葉斯網(wǎng)絡模型以及包含二者的混合模型,利用SEER數(shù)據(jù)集中9個臨床認可的數(shù)據(jù)變量以預測乳腺癌的預后,最終神經(jīng)網(wǎng)絡與混合模型的正確率均較高。
3.3 在惡性腫瘤疾病管理中的應用
疾病管理是一種對慢性疾病進行綜合干預的模式,通過運用標準化的臨床指南、循證實踐以及強調對病人的教育來預防病情惡化,達到提升臨床預后的目的[33],而數(shù)據(jù)挖掘可協(xié)助評價疾病管理的效果。Labib等[34]對埃及兒童急性淋巴細胞白血病管理項目的數(shù)據(jù)進行了挖掘研究,通過Clementine數(shù)據(jù)挖掘工具展現(xiàn)了人群地理、年齡分布,揭示了可能的疾病相關危險因素,形成有指導意義的公共衛(wèi)生決策。Kang等[35]對醫(yī)院電子病歷信息進行抽取后構建臨床數(shù)據(jù)倉庫,完成對乳腺癌患者為期5年的疾病管理。其后對臨床數(shù)據(jù)倉庫中不同乳腺癌術式的術后存活率進行了數(shù)據(jù)挖掘研究,客觀地對疾病管理效果做出了合理評價。
來自醫(yī)學及信息科學的學者從多角度、多領域將數(shù)據(jù)挖掘相關技術引入到惡性腫瘤的研究中,取得了令人鼓舞的成果,這些工作為惡性腫瘤數(shù)據(jù)的進一步研究奠定了良好基礎,也預示了醫(yī)學與信息科學進行學科交叉、相互結合的美好前景。然而基于臨床信息系統(tǒng),應用數(shù)據(jù)挖掘后真正能持續(xù)性輔助臨床決策的系統(tǒng)目前報道仍較少。這一方面是由于學科間的交叉、整合不夠,另一方面是臨床專業(yè)有其固有的復雜性。但可預見,隨著醫(yī)院信息化建設的進一步深入以及學科間的相互滲透,數(shù)據(jù)挖掘在臨床中的應用會越來越多,最終進一步推動惡性腫瘤的深入研究。
1 Mishra D. Predictive Data Mining: promising future and applications[J]. Int J of Computer and Communication Technology, 2010, 2 (1):20-28.
2 Iavindrasana J, Cohen G, Depeursinge A, et al. Clinical Data Mining: a review.[J]. Yearb Med Inform, 2009, (4):121-133.
3 Roddick J, Fule P, Graco W. Exploratory Medical Knowledge Discovery: experiences and issues [J]. ACM SIGKDD Explorations Newsletter, 2003, 5(1): 94-99.
4 Saeys Y, Inza I, Larraaga P. A Review of Feature Selection Techniques in Bioinformatics [J]. Bioinformatics, 2007, 23(19): 2507-2517.
5 Gandhi K, Karnan M, Kannan S. Classification Rule Construction Using Particle Swarm Optimization Algorithm for Breast Cancer Data Sets[C]. Bangalore: Signal Acquisition and Processing,2010: 233-237.
6 Lee Z J. An Improved Algorithm with Gene Selection and Decision Rules for Ovarian Cancer [J]. Advances in Computer Science and Its Applications, 2012, 1(1): 26-31.
7 Deisy C, Subbulakshmi B, Baskar S, et al. Efficient Dimensionality Reduction Approaches for Feature Selection[C]. Siva Kasi: Conference on Computational Intelligence and Multimedia Applications, 2007: 121-127.
8 Karegowda A, Manjunath A, Jayaram M. Feature Subset Selection Problem Using Wrapper Approach in Supervised Learning [J]. International Journal of Computer Applications, 2010, 1(7): 13-17.
9 Chandola V, Banerjee A, Kumar V, et al. Anomaly Detection: a survey [J]. ACM Computing Surveys, 2009, 41(3): 75-79.
10 Jacob S, Ramani R. Mining of Classification Patterns in Clinical Data Through Data Mining Algorithms[C]. Proceedings of the International Conference on Advances in Computing, ACM, 2012: 997-1003.
11 Wu B. Cancer Outlier Differential Gene Expression Detection [J]. Biostatistics, 2007, 8(3): 566-575.
12 Chen X, Xu S, Wang Y, et al. Identification of Biomarkers for Prostate Cancer Prognosis Using a Novel Two-Step Cluster Analysis[J]. Lecture Notes in Computer Science, 2011,(7036):63-74.
13 牟冬梅, 馮超, 王萍. 數(shù)據(jù)挖掘方法在醫(yī)學領域的應用及SWOT分析[J]. 醫(yī)學信息學雜志,2015,36 (1):53-57.
14 Agrawal A, Choudhary A. Association Rule Mining Based HotSpot Analysis on SEER Lung Cancer Data [J]. International Journal of Knowledge Discovery in Bioinformatics, 2011, 2(2): 34-54.
15 Lopez F J, Cuadros M, Cano C, et al. Biomedical Application of Fuzzy Association Rules for Identifying Breast Cancer Biomarkers [J]. Medical & Biological Engineering & Computing, 2012, 50(9): 981-990.
16 Fan C, Chang P, Lin J, et al. A Hybrid Model Combining Case-based Reasoning and Fuzzy Decision Tree for Medical Data Classification [J]. Applied Soft Computing, 2011, 11(1): 632-644.
17 Aruna S, Rajagopalan S P, Nandakishore L V. An Empirical Comparison of Supervised learning algorithms in Disease Detection [J]. International Journal of Information Technology Convergence and Services, 2011, 1(4):81-92.
18 李懷慶. 決策樹算法在醫(yī)院數(shù)據(jù)挖掘中的應用探索[J].醫(yī)學信息學雜志,2009,30 (8):11-13.
19 Lavanya D, Usha R. Performance Evaluation of Decision Tree Classifiers on Medical Datasets [J]. International Journal of Computer Applications, 2011, 26(4): 1-4.
20 Liu Y, Wang C, Zhang L. Decision Tree Based Predictive Models for Breast Cancer Survivability on Imbalanced Data [C].Beijing: Bioinformatics & Biomedical Engineering .International Conference on ICBBE, 2009:1-4.
21 Kaewchinporn C, Vongsuchoto N, Srisawat A. A Combination of Decision Tree Learning and Clustering for Data Classification[C].Nakhon Pathom: Computer Science and Software Engineering, 2011 Eighth International Joint Conference on IEEE, 2011: 363-367.
22 武會蘋, 李莉. 基于CBR的原發(fā)性心臟惡性腫瘤診斷系統(tǒng)設計[J]. 醫(yī)學信息學雜志,2011,32 (1):41-43.
23 Abdelaal M, Sena H, Farouq M, et al. Using Data Mining for Assessing Diagnosis of Breast Cancer[C].Wisla: Computer Science and Information Technology (IMCSIT), Proceedings of the 2010 International Multiconference on IEEE, 2010: 11-17.
24 Sawarkar S, Ghatol A, Pande A. Neural Network Aided Breast Cancer Detection and Diagnosis Using Support Vector Machine[C]. Cevtat: Proceedings of the 7th WSEAS International Conference on Neural Networks, Cavtat, Croatia. 2006:158-163.
25 Sarvestani A, Safavi A, Parandeh N, et al. Predicting Breast Cancer Survivability Using Data Mining Techniques [J]. Lap Lambert Academic Publishing, 2010, (2): 227-231.
26 Padmavati J. A Comparative Study on Breast Cancer Prediction Using RBF and MLP [J]. International Journal of Scientific & Engineering Research, 2011, 2(1): 1-5.
27 Pantel P. Breast Cancer Diagnosis and Prognosis [D]. Winnipeg University of Manitoba, 1998.
28 Chi C, Street W, Wolberg W. Application of Artificial Neural Network-based Survival Analysis on two Breast Cancer Datasets[C]. Palo Alto:AMIA Annual Symposium Proceedings, 2007: 130-134.
29 Gevaert O, De Smet F, Timmerman D, et al. Predicting the Prognosis of Breast Cancer by Integrating Clinical and Microarray Data with Bayesian Networks [J]. Bioinformatics, 2006, 22(14): 184-190.
30 Delen D, Walker G, Kadam A. Predicting Breast Cancer Survivability: a comparison of three data mining methods [J]. Artificial Intelligence in Medicine, 2005, 34(2): 113-128.
31 Khan M, Choi J, Shin H, et al. Predicting Breast Cancer Survivability Using Fuzzy Decision Trees for Personalized Healthcare[C]. Vancouver: Engineering in Medicine and Biology Society. 30th Annual International Conference of the IEEE. 2008: 5148-5151.
32 Choi J, Han T, Park R, et al. A Hybrid Bayesian Network Model for Predicting Breast Cancer Prognosis [J]. Healthcare Informatics Research, 2009, (1):49-57
33 Krumholz H, Currie P, Riegel B, et al. A Taxonomy for Disease Management: a scientific statement from the American heart association disease management taxonomy writing group [J]. Circulation, 2006, 114(13):1432-1445.
34 Labib N, Malek M. Data Mining for Cancer Management in Egypt Case Study: childhood acute lymphoblastic leukemia [J]. Transactions on Engineering, Computing & Technology, 2005, (8): 309-314.
35 Kang E, Han S, Kim S, et al. Five-years of Breast Cancer Management in A New Hospital: analysis using clinical data warehouse [J]. Journal of Breast Cancer, 2010, 13(1): 96-103.
Data Mining Technology and Its Application in the Diagnosis and Treatment of Clinical Malignant Tumors
ZHANGRui,WANGMi-ye,LINan,YANGXiao-yan,SHIQing-ke,HUANGYong,
WestChinaHospitalofSichuanUniversity,Chengdu610041,China
The paper introduces technologies related to data mining, including the feature selection, outlier detection model, clustering model, association rule model, classification model, ensemble learning algorithm, etc. It makes detailed explanation of the application of data mining in the diagnosis, prognosis and management of clinical malignant tumors.
Data mining technology; Malignant tumor; Research of diagnosis and prognosis
2015-05-06
張睿,博士研究生,發(fā)表論文3篇;通訊作者:王覓也。
863國家科技計劃項目“數(shù)字化醫(yī)療區(qū)域協(xié)同應用示范”(項目編號:2012AA02A615)。
R-056
A 〔DOI〕10.3969/j.issn.1673-6036.2015.10.011