辛瑞昊 王甜甜 李英瑞 馮欣
摘? 要:癌癥是一種嚴(yán)重威脅人類健康和生命的疾病。文章以TCGA公開數(shù)據(jù)庫中的乳腺癌數(shù)據(jù)作為研究樣本,基于機(jī)器學(xué)習(xí)中T-test檢驗(yàn)和卡方檢驗(yàn)方法對(duì)乳腺癌數(shù)據(jù)進(jìn)行特征篩選和特征提取,保留有效的特征信息,剔除冗余信息。采用5種分類器對(duì)乳腺癌的分類進(jìn)行研究,篩選出排在前10位的乳腺癌生物標(biāo)志物進(jìn)行深入研究,實(shí)驗(yàn)結(jié)果有助于探索遺傳信息和自然因素在乳腺癌致病機(jī)理中的角色,并為預(yù)后評(píng)估的精準(zhǔn)醫(yī)療提供科學(xué)依據(jù)。
關(guān)鍵詞:乳腺癌;特征篩選;特征提取
中圖分類號(hào):TP391.4? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):2096-4706(2021)22-0095-03
Abstract: Cancer is a disease that seriously threatens human health and life. Taking breast cancer data in TCGA open database as the research sample, the T-test test and chi-square test method in machine learning are used to perform feature selection and feature extraction for breast cancer data, retaining effective feature information and eliminating redundant information. Five classifiers are used to study the classification of breast cancer, screening the top 10 breast cancer biomarkers for further study. The experimental results will help to explore the role of genetic information and natural factors in the pathogenesis of breast cancer, and provide scientific evidence for precision medical treatment on prognosis evaluation.
Keywords: breast cancer; feature selection; feature extraction
0? 引? 言
近些年,各種癌癥發(fā)病率持續(xù)上升(如乳腺癌、肺癌等),嚴(yán)重威脅著人們的身體健康和生命安全。隨著我國(guó)人口老齡化進(jìn)程的不斷加快,各種傳染病的不斷突發(fā),居民不健康生活方式和不利環(huán)境因素的累加,致使癌癥已經(jīng)演變?yōu)閲?yán)重威脅中國(guó)人群健康的公共健康問題之一。
世界衛(wèi)生組織研究表明,2020年全球乳腺癌發(fā)病率達(dá)到226萬例,肺癌為220萬例,乳腺癌發(fā)病率已經(jīng)逐漸超過肺癌,變?yōu)槿虻谝淮蟀┌Y。除此之外,我國(guó)癌癥新發(fā)人數(shù)超過美國(guó),成為癌癥新發(fā)人數(shù)最多的國(guó)家[1],相關(guān)數(shù)據(jù)如圖1、圖2所示。
大數(shù)據(jù)在醫(yī)療健康領(lǐng)域發(fā)揮著重要作用,信息化時(shí)代的到來使得醫(yī)學(xué)數(shù)據(jù)的收集更為方便,醫(yī)療大數(shù)據(jù)的研究和應(yīng)用成為信息化時(shí)代醫(yī)學(xué)研究的關(guān)鍵因素。為了給患者提供更好的治療方案和預(yù)后效果,多種形式的醫(yī)療信息系統(tǒng)已經(jīng)在國(guó)內(nèi)醫(yī)療機(jī)構(gòu)中被大量采用。利用數(shù)據(jù)分析技術(shù)對(duì)這些醫(yī)學(xué)數(shù)據(jù)進(jìn)行分析,可以幫助醫(yī)生更加便捷高效地掌握病人的身體狀況,有效提升乳腺癌的預(yù)后效果。
本文研究了基于機(jī)器學(xué)習(xí)的乳腺癌分類標(biāo)志物檢測(cè)方法,將基因的轉(zhuǎn)錄特征與統(tǒng)計(jì)學(xué)方法相結(jié)合,利用特征選擇方法對(duì)乳腺癌早晚期特征基因進(jìn)行篩選分類。首先,采用T檢驗(yàn)(T-test)進(jìn)行基因篩選,將P_value<0.05作為特征篩選條件;然后,采用卡方檢驗(yàn)(Chi-square Test)對(duì)T檢驗(yàn)結(jié)果進(jìn)行特征選擇;最后,在卡方檢驗(yàn)后特征選擇結(jié)果基礎(chǔ)上,分別采用Logistic Regression(LR)、GaussianNB、DecisionTreeClassifier、K-Nearest Neighbors(KNN)和Support Vector Machine(SVM)五種機(jī)器學(xué)習(xí)分類器進(jìn)行乳腺癌分類研究,并分析其重要分期標(biāo)志物。
1? 數(shù)據(jù)來源
研究所采用的乳腺癌患者病例數(shù)據(jù)來自TCGA公開數(shù)據(jù)庫。TCGA的全稱為癌癥基因組圖譜(The cancer genome atlas),它是由美國(guó)國(guó)家癌癥研究所(NCI)聯(lián)合美國(guó)國(guó)家人類基因組研究所(NHGRI)進(jìn)行的研究項(xiàng)目,癌癥基因組圖譜收錄了人類多種癌癥類型(包括亞型在內(nèi)的腫瘤)的臨床數(shù)據(jù)以及基因組變異,例如mRNA表達(dá)、miRNA表達(dá)、甲基化等數(shù)據(jù),給癌癥研究人員提供了豐富的數(shù)據(jù)資源[2]。
本文實(shí)驗(yàn)數(shù)據(jù)采用的是TCGA乳腺癌轉(zhuǎn)錄組組學(xué)數(shù)據(jù),其中樣本數(shù)572例,包含早期癌癥樣本數(shù)436例以及晚期癌癥樣本數(shù)136例,樣本特征數(shù)共有17 814個(gè)。
2? 數(shù)據(jù)特征選擇和篩選
實(shí)驗(yàn)選用的樣本數(shù)據(jù)有限,使用全部特征來設(shè)計(jì)分類器則會(huì)浪費(fèi)大量計(jì)算資源且分類器的分類性能不佳。任何一個(gè)特定的機(jī)器學(xué)習(xí)算法都無法做到精準(zhǔn)剔除所有無效特征,因此需要從所有特征中篩選出有利于機(jī)器學(xué)習(xí)算法的相關(guān)特征。利用部分高表達(dá)性的特征構(gòu)建模型可以大大縮減機(jī)器學(xué)習(xí)算法的運(yùn)行時(shí)間,節(jié)省計(jì)算資源,而且模型的可解釋性也會(huì)更高。特征選擇算法可以從原始特征中自動(dòng)篩選出對(duì)模型表達(dá)最為重要的特征,使得篩選后的特征子集盡可能小。在這個(gè)過程中,原始特征數(shù)據(jù)集與篩選后的特征子集之間存在一種包含的關(guān)系,原始特征空間沒有改變,分類精度也沒有顯著降低,同時(shí)類分布以及特征子集還具有強(qiáng)魯棒性和高適應(yīng)性等特點(diǎn)。
實(shí)驗(yàn)中所采用的特征選擇方法為Filter(過濾式)特征選擇方法,其大致思想是先對(duì)數(shù)據(jù)集進(jìn)行特征篩選,之后再訓(xùn)練學(xué)習(xí)器。特征選擇過程中利用機(jī)器學(xué)習(xí)T-test檢驗(yàn)和卡方檢驗(yàn)集成的檢驗(yàn)算法對(duì)乳腺癌數(shù)據(jù)特征進(jìn)行特征篩選和特征提取。特征選擇過程與后續(xù)學(xué)習(xí)器無關(guān),這相當(dāng)于先對(duì)初始特征進(jìn)行“過濾”,再用過濾后的特征訓(xùn)練模型[3],保留有效的特征信息,剔除冗余信息,為后續(xù)癌癥分期預(yù)測(cè)提供數(shù)據(jù)資源。
2.1? T-test檢驗(yàn)
T檢驗(yàn)用于對(duì)兩個(gè)總體均值差的檢驗(yàn),因?yàn)楫?dāng)F分布在自由度趨向于無窮大的區(qū)間時(shí),近似于正態(tài)分布,所以T檢驗(yàn)通常用于兩個(gè)正態(tài)分布均值差的檢驗(yàn)。其在特征選擇的過程中通過計(jì)算檢驗(yàn)統(tǒng)計(jì)量值,比較特征之間統(tǒng)計(jì)量的大小,并進(jìn)行降序排列,選取統(tǒng)計(jì)值較高的特征,去除差別不大的特征。實(shí)驗(yàn)中經(jīng)過T檢驗(yàn)篩選后,特征數(shù)由17 814個(gè)減少為2 549個(gè)。
2.2? 卡方檢驗(yàn)
卡方檢驗(yàn),也就是x2檢驗(yàn),是一種用途廣泛的計(jì)數(shù)資料的假設(shè)檢驗(yàn)方法。它通常用來驗(yàn)證兩個(gè)總體的某個(gè)比率之間是否存在顯著性差異[4],比較兩個(gè)或兩個(gè)以上樣本率(構(gòu)成比)以及進(jìn)行兩個(gè)分類變量的關(guān)聯(lián)性分析。其根本思想在于比較理論頻數(shù)和實(shí)際頻數(shù)的相似程度或者是擬合優(yōu)度問題。實(shí)驗(yàn)中利用卡方檢驗(yàn)選擇并保留T檢驗(yàn)結(jié)果中前1%的樣本特征,因此最終篩選出來的特征數(shù)由2 549個(gè)減少為26個(gè)。
卡方檢驗(yàn)公式為:
其中,A為觀察值,E為理論值,k為觀察值的個(gè)數(shù)。
3? 乳腺癌分期預(yù)測(cè)
癌癥分期是臨床診斷的重要指標(biāo)之一,不同分期(stage)癌癥的預(yù)后效果存在著顯著差異,臨床醫(yī)生往往通過預(yù)后來判斷癌癥治療的效果[5]。如果可以檢測(cè)出癌癥分期的精準(zhǔn)標(biāo)志物,有助于在臨床中確診癌癥發(fā)展階段、評(píng)估預(yù)后結(jié)果以及理解癌癥發(fā)生發(fā)展機(jī)理,由此提出實(shí)現(xiàn)乳腺癌分期識(shí)別的最佳方案。本文設(shè)置五種分類器用于乳腺癌分期預(yù)測(cè),診斷為早期(I或II期)的乳腺癌患者通常具有較好的預(yù)后,而晚期(III或IV期)乳腺癌患者的死亡率較高[6]??梢酝ㄟ^工具欄按鍵選擇切換分類器,系統(tǒng)可以根據(jù)分類器預(yù)測(cè)結(jié)果,顯示最佳分類準(zhǔn)確率。如圖3所示為五種分類器下五倍交叉驗(yàn)證的乳腺癌分期預(yù)測(cè)準(zhǔn)確率。經(jīng)過T-test檢驗(yàn)與卡方檢驗(yàn)進(jìn)行特征篩選之后,在五種分類器中對(duì)特征樣本進(jìn)行訓(xùn)練,并且將特征樣本放入獨(dú)立驗(yàn)證集中進(jìn)行驗(yàn)證。從圖3中可以看出,在五種分類器中使用決策樹分類器驗(yàn)證的準(zhǔn)確率能夠達(dá)到100%,這是因?yàn)闆Q策樹分類器通常是采用遞歸的方法來選擇最優(yōu)特征,然后依據(jù)該特征對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行分割。這一過程中各個(gè)子數(shù)據(jù)集都有一個(gè)最好的分類過程,為特征空間的劃分提供依據(jù),同時(shí)也進(jìn)一步支撐決策樹的構(gòu)建。
4? 致癌基因特征排序
在癌癥分期預(yù)測(cè)過程中采用決策樹模型的準(zhǔn)確率可以達(dá)到100%,但是對(duì)轉(zhuǎn)錄組學(xué)中影響因子的作用還不夠直觀,本文列出了通過卡方檢驗(yàn)排序的前十個(gè)特征,致癌基因特征排序是根據(jù)值的大小對(duì)處理過的特征數(shù)據(jù)進(jìn)行特征排序,致癌基因特征降序排序如表1所示。將前十個(gè)最優(yōu)特征的均值結(jié)果進(jìn)行可視化展示,如圖4所示為通過卡方檢驗(yàn)排序的前十個(gè)特征均值,通過樣本分析可以看出,前十個(gè)特征的樣本分布具有非常明顯的差異性,各個(gè)特征之間的樣本均值有著不同的數(shù)值,這對(duì)模型的學(xué)習(xí)具有很大的幫助(尤其是對(duì)于癌癥患者的早晚期劃分),特征的差異性越大愈能讓模型學(xué)習(xí)到獨(dú)有的信息。從可視化圖中可以清晰直觀地看出影響乳腺癌分期準(zhǔn)確率排名前十的特征(具有明顯的乳腺癌分期生物標(biāo)志物),進(jìn)而可以更有效精確地對(duì)個(gè)體的預(yù)后風(fēng)險(xiǎn)進(jìn)行預(yù)測(cè)[7],并且為控制乳腺癌患病風(fēng)險(xiǎn)以及臨床個(gè)性化治療方案的制定提供了參考。
5? 結(jié)? 論
本文采用基于機(jī)器學(xué)習(xí)算法研究了乳腺癌癌癥分期問題,采用T-test檢驗(yàn)和卡方檢驗(yàn)的方法進(jìn)行特征篩選和排序,之后使用五種分類器進(jìn)行分類,實(shí)現(xiàn)了決策樹算法模型準(zhǔn)確率達(dá)到100%的分類效果,篩選出排名前10位的乳腺癌致癌生物標(biāo)志物。研究結(jié)果有助于從新的角度探索人類醫(yī)學(xué)疾病診斷方法和計(jì)算機(jī)科學(xué)臨床應(yīng)用機(jī)制。檢測(cè)癌癥分期的精準(zhǔn)標(biāo)志物,分析遺傳信息和自然因素對(duì)癌癥發(fā)生和發(fā)展的影響,有助于臨床確診癌癥發(fā)展階段、評(píng)估預(yù)后結(jié)果以及理解癌癥發(fā)生發(fā)展機(jī)理,為癌癥診斷以及實(shí)現(xiàn)精準(zhǔn)醫(yī)療提供科學(xué)依據(jù)。
參考文獻(xiàn):
[1] 劉青,張英,周馨,等.2009—2018年北京地區(qū)單中心乳腺癌臨床流行病學(xué)及病理特征回顧性分析 [J].腫瘤,2020,40(6):431-439.
[2] TSAI C J,RIAZ N,GOMEZ S. Big Data in Cancer Research: Real-World Resources for Precision Oncology to Improve Cancer Care Delivery [J].2019,29(4):306-310.
[3] 楊劍鋒,喬佩蕊,李永梅,等.機(jī)器學(xué)習(xí)分類問題及算法研究綜述 [J].統(tǒng)計(jì)與決策,2019,35(6):36-40.
[4] 朱軍,胡文波.貝葉斯機(jī)器學(xué)習(xí)前沿進(jìn)展綜述 [J].計(jì)算機(jī)研究與發(fā)展,2015,52(1):16-26.
[5] 孟小琴,屠俊標(biāo),魏萍萍.乳腺癌相關(guān)血清腫瘤標(biāo)志物的臨床研究進(jìn)展 [J].癌癥進(jìn)展,2021,19(4):334-338.
[6] 陳冬靈.基于Qt和Wi-Fi的室內(nèi)環(huán)境監(jiān)測(cè)系統(tǒng)設(shè)計(jì) [J].信息技術(shù)與信息化,2019(11):22-25.
[7] 李佳圓,郝宇,吳雪瑤.基于多組學(xué)數(shù)據(jù)的流行病學(xué)研究策略及其在乳腺癌研究中的應(yīng)用 [J].中國(guó)普外基礎(chǔ)與臨床雜志,2020,27(11):1344-1347.
作者簡(jiǎn)介:辛瑞昊(1989—),男,漢族,吉林梅河口人,講師,工學(xué)博士,研究方向:先進(jìn)控制理論及應(yīng)用、大數(shù)據(jù)分析等;王甜甜(1997—),女,漢族,陜西咸陽人,碩士研究生在讀,研究方向:大數(shù)據(jù)分析與挖掘;李瑞英(1998—),男,漢族,陜西西安人,碩士研究生在讀,研究方向:大數(shù)據(jù)分析與挖掘;通訊作者:馮欣(1989—),女,滿族,吉林吉林人,講師,博士,研究方向:大數(shù)據(jù)分析與挖掘。