許艷華
摘要:針對急性白血病、小圓藍(lán)色細(xì)胞腫瘤難以用傳統(tǒng)診斷方法做出快速判斷的問題,提出基于Logistic并使用ReliefF作為特征提取算法的腫瘤識別方法。對急性白血病數(shù)據(jù)集,提取出排序前2的特征并用Logistic分類器進(jìn)行分類,得到97.06%的預(yù)測準(zhǔn)確率。對小圓藍(lán)色細(xì)胞腫瘤數(shù)據(jù)集,提取出排序前17的特征再用分類器進(jìn)行分類,得到了100%的預(yù)測準(zhǔn)確率。
關(guān)鍵詞:Logistic;ReliefF;AML-ALL;SRBCT
1概述
在我國,惡性腫瘤的世標(biāo)發(fā)病率、死亡率、死亡發(fā)病比均高于世界平均水平,已成為嚴(yán)重威脅中國居民健康和社會(huì)發(fā)展的重要公共衛(wèi)生問題。根據(jù)近幾十年分子生物學(xué)的研究結(jié)果表明,腫瘤的發(fā)生發(fā)展是多基因、多步驟、多階段的復(fù)雜過程。目前普遍采用的傳統(tǒng)病理學(xué)的診斷方法采用細(xì)胞形態(tài)學(xué)對腫瘤進(jìn)行診斷,過程簡便易行,卻帶有很大程度上的主觀性,個(gè)人誤差難以排除。而后基因芯片等高通量技術(shù)的發(fā)展彌補(bǔ)了這一嚴(yán)重的局限性。
利用基因芯片技術(shù),可以一次性同時(shí)檢測成千上萬個(gè)基因的表達(dá)值,生成包含成千上萬個(gè)基因表達(dá)值的基因表達(dá)譜,應(yīng)用于對腫瘤的分類、基因的功能研究、觀察藥物對腫瘤細(xì)胞基因表達(dá)譜的影響等各方面,在癌癥的診斷和治療中起著重要作用。但基因表達(dá)數(shù)據(jù)通常具有數(shù)據(jù)量大、維數(shù)高、樣本小、非線性的特點(diǎn),給后期的數(shù)據(jù)處理帶來巨大挑戰(zhàn),每個(gè)樣本均包含了所有的基因表達(dá)值,卻只有少數(shù)基因與腫瘤分類相關(guān)。因此,在數(shù)據(jù)處理過程中,需要有效的挑選出少量的特征基因,消除噪聲及冗余基因,以此來降低樣本維數(shù),提高分類器性能。
本文使用經(jīng)典的過濾式評估算法ReliefF對數(shù)據(jù)進(jìn)行特征選擇,結(jié)合Logistic分類器對Golub等收集的急性白血病基因表達(dá)普和Khan等收集的SRBCT基因表達(dá)譜進(jìn)行相關(guān)實(shí)驗(yàn)研究,以較少的特征維數(shù)獲得較好的分類結(jié)果。
2材料與方法
2.1數(shù)據(jù)集
2.1.1ALL-AML數(shù)據(jù)集
Leukemia白血病是造血系統(tǒng)的一種惡性腫瘤,表現(xiàn)為骨髓、淋巴結(jié)等造血系統(tǒng)中一種或多種血細(xì)胞成分發(fā)生惡性腫瘤,并浸入體內(nèi)各臟器組織,導(dǎo)致正常造血細(xì)胞受抑制,產(chǎn)生各種癥狀。在臨床上,根據(jù)白血病細(xì)胞的形態(tài)及組織化學(xué)染色表現(xiàn),可將此病分為急性淋巴細(xì)胞性白血?。ˋcute Lvmphoblastie Leukemia,ALLl以及急性髓細(xì)胞性白血?。ˋcute Myeloid Leukemia,AML)兩大類。
本文采用的第一組數(shù)據(jù)集來自Golub等收集的急性白血病ALL-AML數(shù)據(jù)集。該數(shù)據(jù)集包含72個(gè)樣本,每個(gè)樣本包含7129條探針或基因的表達(dá)值,共由兩種不同種類的白血病樣本組成:47個(gè)急性淋巴白血病ALL樣本和28個(gè)急性骨髓白血病AML樣本。數(shù)據(jù)詳情見表1。
2.1.2SRBCT數(shù)據(jù)集
小圓藍(lán)細(xì)胞瘤(SRBCT)是一種惡性腫瘤,多發(fā)于兒童,具有四種亞型,分別是:尤因肉瘤fEwing%sarcoma,EWS),伯基特淋巴瘤(Burkitt%lymphoma,BL),成神經(jīng)細(xì)胞瘤(Neuroblastoma,NB)和橫紋肌肉瘤(Rhabdomyosarcoma,RMS)。這四種亞型在顯微鏡下這些腫瘤細(xì)胞模樣非常相似,治療方案各不相同,目前尚未找到能精確區(qū)分這四種亞型的單一生物學(xué)或化學(xué)診斷方法。