馬 超
【統(tǒng)計(jì)應(yīng)用研究】
基于多基因組合選擇模型的結(jié)腸癌特征基因選取
馬 超
(南京大學(xué)公共衛(wèi)生管理與醫(yī)療保障政策研究中心,江蘇南京210093)
通過(guò)基因的Bhattacharyya距離指標(biāo)過(guò)濾掉大部分無(wú)關(guān)基因,然后探索性的提出了一種建立多基因組合選擇模型的統(tǒng)計(jì)方法。從候選特征基因中選取了8個(gè)可能的結(jié)腸癌特征基因集合,判別分析的結(jié)果證明了該方法的可行性。
基因表達(dá)譜;生物信息學(xué);多基因組合選擇模型;結(jié)腸癌
DNA微陣列(DNA microarray),也叫基因芯片,是最近數(shù)年發(fā)展起來(lái)的一種能快速高效檢測(cè)基因表達(dá)水平、DNA片段序列的新技術(shù)。這樣生物學(xué)家通過(guò)并行檢測(cè)成千上萬(wàn)個(gè)基因的表達(dá)數(shù)據(jù),在基因組水平上比較正常和疾病下基因表達(dá)的差異,找出決定樣本類別的一組基因“標(biāo)簽”,即“信息基因”(informative genes),這是正確識(shí)別腫瘤類型、給出可靠診斷以及簡(jiǎn)化實(shí)驗(yàn)分析的關(guān)鍵所在,同時(shí)也為抗癌藥物的研制提供了捷徑。對(duì)腫瘤基因表達(dá)譜進(jìn)行有效分析,挖掘和發(fā)現(xiàn)其中蘊(yùn)含的知識(shí),是當(dāng)前生物信息學(xué)研究的重點(diǎn)課題[1-5]。
通常基因數(shù)目很大,在判斷腫瘤基因標(biāo)簽的過(guò)程中,需要剔除掉大量“無(wú)關(guān)基因”,從而大大縮小需要搜索的致癌基因范圍。Golub等以“信噪比”(Signal to noise ratio)作為衡量基因?qū)颖痉诸愗暙I(xiàn)大小的指標(biāo),運(yùn)用加權(quán)投票的方法對(duì)亞型進(jìn)行識(shí)別,僅根據(jù)72個(gè)樣本,就從7 129個(gè)基因中選出了50個(gè)可能與亞型分類相關(guān)的信息基因,富有創(chuàng)造性[1]。Guyon等人則利用支持向量機(jī)的方法,再?gòu)闹羞x出了8個(gè)可能的信息基因[6]。Alon等人利用層次聚類法對(duì)結(jié)腸癌樣本數(shù)據(jù)進(jìn)行了分析研究,選出含有2 000個(gè)特征基因的數(shù)據(jù)集合[7]。在Alon的研究基礎(chǔ)上,Zhang等人通過(guò)遞歸分割樹(shù)的方法,歸納出2個(gè)特征基因集合[8];李霞等人使用集成決策的方法,得到3個(gè)特征基因集合[9]。李穎新等人則采用了模糊識(shí)別方法進(jìn)行分析[10];劉全金等人采用了浮動(dòng)順序搜索算法,并以RBF支持向量機(jī)作為分類器[11];何愛(ài)香采用了遺傳算法和CFS算法選擇基因子集[12]。
上述方法均具有一定的參考價(jià)值,且鑒別出的基因也具有較高的準(zhǔn)確率,但是方法相對(duì)復(fù)雜。本文基于前人的研究,在支持向量機(jī)的方法上做了一些改進(jìn),創(chuàng)新性的提出了多基因組合選擇模型,提取出了相關(guān)信息基因,并且該方法的正確率高達(dá)95%。
本文的實(shí)驗(yàn)數(shù)據(jù)來(lái)自Alon公布的結(jié)腸癌基因表達(dá)譜數(shù)據(jù)集,包含40個(gè)結(jié)腸癌組織樣本和22個(gè)正常組織樣本,每個(gè)樣本包含2 000個(gè)基因的表達(dá)數(shù)據(jù)。該數(shù)據(jù)集維數(shù)為2 000,遠(yuǎn)大于樣本數(shù)62。因此,首先有必要對(duì)數(shù)據(jù)進(jìn)行過(guò)濾,剔除大量無(wú)關(guān)基因,縮小需要搜索的致癌基因范圍。
本文采用Bhattacharyya距離來(lái)衡量基因含有樣本分類信息的多少。以兩樣本為例,Bhattacharyya距離體現(xiàn)了屬性在兩個(gè)不同樣本中分布的差異。具體形式見(jiàn)式(1):
其中B是基因的Bhattacharyya距離。由式(1)可知,Bhattacharyya距離由兩部分構(gòu)成:第一項(xiàng)表示基因在兩個(gè)類別中分布均值的差異對(duì)樣本分類的貢獻(xiàn);第二項(xiàng)表示兩個(gè)類別中分布方差的不同對(duì)分類的貢獻(xiàn)。依據(jù)該距離公式,只要分布的方差出現(xiàn)大的差異,仍然可以獲得較大的距離值。從模式分類的角度看,基因的Bhattacharyya距離越大,利用該基因的信息,樣本的可分性就越好。根據(jù)式(1),計(jì)算了每個(gè)基因的Bhattacharyya距離,并做出了基因的Bhattacharyya距離分布的直方圖,見(jiàn)圖1。
依據(jù)基因所含樣本類別信息的多少,將基因分為“信息基因”和“無(wú)關(guān)基因”兩類。設(shè)SI為信息基因集合,Sn為無(wú)關(guān)基因集合,則“信息基因”與“無(wú)關(guān)基因”可定義如式(2):
圖1 基因的Bhattacharyya距離分布的直方圖
其中g(shù)為基因,B(g)為基因g的Bhattacharyya距離,q為指定的Bhattacharyya距離的閾值。
由圖1可知,94%的基因的Bhattacharyya距離小于0.1。故取閾值為0.1。這些基因在兩個(gè)類別中的分布,無(wú)論其均值還是方差均無(wú)明顯差異,可以作為無(wú)關(guān)基因剔除。
腫瘤基因表達(dá)譜中基因Bhattacharyya距離的詳細(xì)分布情況見(jiàn)表1。依據(jù)表1和式(2)對(duì)信息基因和無(wú)關(guān)基因的定義知:取閾值q=0.1,card(SI)=115,即在2 000個(gè)基因中,有115個(gè)基因?yàn)樾畔⒒?;card(Sn)=1 885,即有1 885個(gè)基因?yàn)闊o(wú)關(guān)基因。SI中115個(gè)基因均在不同程度上包含了樣本的分類信息,是進(jìn)一步分析的基礎(chǔ)。
表1 基因的Bhattacharyya距離分布情況表
癌癥的發(fā)病不僅跟單個(gè)基因有關(guān),更多情況下與多條基因的綜合作用有關(guān)。因此,我們將在上文剔除無(wú)關(guān)基因的基礎(chǔ)上建立多基因組合選擇模型,以識(shí)別其中的信息基因,即確定基因標(biāo)簽。具體步驟如下:
(一)分類因素指標(biāo)的確定
仍采用Bhattacharyya距離公式,當(dāng)基因個(gè)數(shù)大于等于2時(shí),多維Bhattacharyya距離公式如下:
其中J(Fi)表示含有i個(gè)基因的特征子集Fi的Bhattacharyya距離。μ1、μ2為特征子集Fi中的基因在正常人和癌癥患者中分布的均值向量,∑1和∑2為相應(yīng)的協(xié)方差矩陣。
(二)兩個(gè)基本基因的查找
利用MATLAB程序求出這115條基因中的maxJ(F2),并確定相應(yīng)的基因號(hào),程序如下:
經(jīng)過(guò)C2115次計(jì)算,得到結(jié)果為:maxJ(F2)=1.443 4,相應(yīng)的基因集合為F2-max={1 325,1 967}。
(三)最優(yōu)特征子集中的基因個(gè)數(shù)k*的確定
定義:y(k)=maxJ(Fk),則y(k)為一遞增函數(shù),令Δy(k)=y(tǒng)(k+1)-y(k),理論上,當(dāng)Δy(k*)→0時(shí),則k*為所確定的最優(yōu)基因個(gè)數(shù)。
執(zhí)行過(guò)程及算法如下:
先固定步驟2中兩個(gè)基本的基因,再順序搜索逐一添加剩余基因數(shù)至k*,算法為:
1.SI=SI-Fi-max(i=2,…,115)
2.搜索g∈SI,使F(i+1)-max={Fi-max,g}的評(píng)價(jià)值J(F(i+1)-max)最大。
經(jīng)過(guò)(113+112+…+98)=1 688次計(jì)算,結(jié)果見(jiàn)表2:
從表2可以看到多維Bhattacharyya距離的最大值maxJ(Fi)關(guān)于基因數(shù)i成遞增趨勢(shì)。
但是,如圖2所示,多維巴氏距離最大值的遞增趨勢(shì)隨著i的增加有所減緩。考慮到癌癥的發(fā)病往往是跟少數(shù)基因有關(guān),因此k*一方面不會(huì)很大,另一方面由圖2的特征,我們?nèi)∽顑?yōu)特征子集中的基因個(gè)數(shù)k*=18。
圖2 多維巴氏距離最大值圖
表2 Fi-maxJ1(Fi)表
(四)基因標(biāo)簽的初步確定
為了初步確定基因標(biāo)簽,我們先設(shè)定標(biāo)簽中的基因數(shù),然后從表2所示的全部18個(gè)基因中尋找不同基因數(shù)所對(duì)應(yīng)的基因標(biāo)簽。程序如下:
function f=ppp(x,y);
y=[1 325,1 967,1 750,1 671,1 381,698,
1 843,1 473,1 549,822,1 892,1 411,
1 668,245,1 221,1 770,1 511,1 346];
k=nchoosek(y,18);
for i=1:size(k,1);
a=x(k(i,:),:);
u1=mean(a(:,2:23)');%u1為行向量
u2=mean(a(:,24:end)');
v1=cov(a(:,2:23)');
v2=cov(a(:,24:end)');
bb=0.125*(u2-u1)*inv(v1/2+v2/2)*(u2-u1)'+0.5*log((det(v1/2+v2/2))/sqrt(det(v1)/det(v2)));
b(i,:)=[k(i,:),bb];
end
f=b;
表3 Ui-maxJ2(Ui)表
從表3的后兩列數(shù)據(jù)可知,由于循環(huán)時(shí)每一步均在18個(gè)基因中全局查找,因此
根據(jù)表3的結(jié)果,統(tǒng)計(jì)每個(gè)基因所出現(xiàn)的頻數(shù),見(jiàn)表4:
表4 信息基因頻數(shù)表
根據(jù)頻數(shù)表,我們初步認(rèn)定基因標(biāo)簽中應(yīng)含有如下6條基因,見(jiàn)表5:
表5 基因標(biāo)簽表
(五)基因標(biāo)簽的最終確定
以上述6條基因?yàn)榛A(chǔ),然后從表4剩余的基因中逐一添加,并從SI的那115條基因中任意挑選s條基因加入。求解最大Bhattacharyya距離值maxJ3(Hi),經(jīng)過(guò)多次試算,并結(jié)合表1中Δy(k)的值及圖2,發(fā)現(xiàn)S的合理取值為2。程序如下:
function f=ppp6(x,y);%固定6條
a=setdiff(y(:,1),[1325 1671 1750 1843 698 1967])';
k(:,1:2)=nchoosek(a,2);
k(:,3)=1325;
k(:,4)=1671;
k(:,5)=1750;
k(:,6)=1843;
k(:,7)=698;
k(:,8)=1967;
for i=1:size(k,1);
a=x(k(i,:),:);
u1=mean(a(:,2:23)');%u1為行向量
u2=mean(a(:,24:end)');
v1=cov(a(:,2:23)');
v2=cov(a(:,24:end)');
bb=0.125*(u2-u1)*inv(v1/2+v2/2)*(u2-u1)'+0.5*log((det(v1/2+v2/2))/sqrt(det(v1)/det(v2)));
b(i,:)=[k(i,:),bb];
end
f=b;
經(jīng)過(guò)C2109次計(jì)算,結(jié)果表明,當(dāng)基因標(biāo)簽中的基因個(gè)數(shù)為8時(shí),max J3(Hi)=max J2(Ui)=4.562 6。類似上面的做法,繼續(xù)從表4中選取累計(jì)頻數(shù)最大的7條基因,再?gòu)娜炙阉?個(gè)基因,搜到的9個(gè)基因與表3中的顯示完全一樣,經(jīng)過(guò)驗(yàn)證,當(dāng)i≥8時(shí),max J3(Hi)=max J2(Ui),且相應(yīng)的特征基因子集也完全相同,由此證明,表5的選取是合理的,所以最終的基因標(biāo)簽見(jiàn)表6。
在此結(jié)果上,本研究通過(guò)fisher判別分析對(duì)結(jié)果進(jìn)行評(píng)價(jià),將62個(gè)樣本中42個(gè)分為訓(xùn)練集,另外20個(gè)作為測(cè)試集,每個(gè)樣本包含上述8個(gè)基因的基因表達(dá)水平。測(cè)試集中20個(gè)樣本僅有1個(gè)錯(cuò)判了,正確率高達(dá)95%??傮w來(lái)看上述多基因組合選擇模型的效果很不錯(cuò)。
表6 最終基因標(biāo)簽表
本文在前人研究的基礎(chǔ)上,對(duì)支持向量機(jī)的方法做了一些改進(jìn),從統(tǒng)計(jì)學(xué)角度創(chuàng)新性的提出了一種提取信息基因的新方法——多基因組合選擇模型,并鑒別出了8個(gè)信息基因,該方法的正確率高達(dá)95%。與傳統(tǒng)方法相比,不僅提高了診斷的正確性,而且降低了診斷方法的復(fù)雜性。這種新的方法經(jīng)過(guò)逐步調(diào)試及改進(jìn),將會(huì)成為很多傳統(tǒng)方法的一個(gè)重要補(bǔ)充,并能起到驗(yàn)證的作用,對(duì)于癌癥的臨床診斷以及生物醫(yī)學(xué)研究提供一定的參考作用。
[1] Golub R R,Slonim D K,Tamayo P.Molecular Classification of Cancer:Class Discovery and Class Prediction by Gene Expression Monitoring[J].Science,1999,289(15).
[2] Khan J,Wei J S,Ringner M.Classification and Diagnostic Prediction of Cancers Using Gene Expression Profiling and Artificial Neural Net Works[J].Nature Medicine,2001,7(6).
[3] Furey T S,Cristianini N,Duffy N,et al.Support Vector Machine Classification and Validation of Cancer Tissue Samples Using Microarray Expression Data[J].Bioinformatics,2000,16(10).
[4] Ramaswamy S,Golub T R.DNA Microarrays in Clinical Oncology[J].Journal of Clinical Oncology,2002,20(7).
[5] Wang Y,Makedon F,F(xiàn)ord J C.Hykgene:A Hybrid Approach for Selecting Marker Genes for Phenotype Classification Using Microarray Gene Expression Data[J].Bioinformatics,2005,21(8).
[6] Guyon I,Weston J,Barnhill S,et al.Gene Selection for Cancer Classification Using Support Vector Machines[J].Machine Learning,2000,46(13).
[7] Alon U,Barkai N,Notterman D A.Broad Patterns of Gene Expression Revealed by Clustering Analysis of Tumor and Normal Colon Tissues Probed by Oligonucleotide Arrays[J].Proc Natl Acad Sci Usa,1999,96(7).
[8] Zhang H,Yu C Y,Singer B.Recursive Partioning for Tumor Classification with Gene Expression Microarray Data[J].Proc Natl Acad Sci Usa,2001,98(12).
[9] 李霞,饒紹奇,張?zhí)镂模畱?yīng)用DNA芯片數(shù)據(jù)挖掘復(fù)雜疾病相關(guān)基因的集成決策方法[J].中國(guó)科學(xué)C輯:生命科學(xué),2004,34(2).
[10]李穎新,劉全金,阮曉鋼.急性白血病的基因表達(dá)譜分析與亞型分類特征的鑒別[J].中國(guó)生物醫(yī)學(xué)工程學(xué)報(bào),2005(24).
[11]劉全金,李穎新,阮曉鋼.基于基因表達(dá)譜的結(jié)腸癌特征基因選取[J].昆明理工大學(xué)學(xué)報(bào),2006,36(1).
[12]何愛(ài)香.基于遺傳算法的結(jié)腸癌基因選擇與樣本分類[J].計(jì)算機(jī)工程與應(yīng)用,2007,48(18).
Informative Genes Selection of Colon Cancer Based on Polygenic Combination Selection Model
MA Chao
(Center for Health Management and Care Security Policy Research,Nanjing University,Nanjing 210093,China)
To select informative genes of colon cancer by analysis of gene expression.Most irrelevant gene filtration by the gene distance method of Bhattacharyya,then putting forward a statistical method of establishing polygenic combination selection model.The study selects 8possible informative genes sets of colon cancer from the candidate informative genes.The results of discriminant analysis show the feasibility of this approach,and play a certain reference arriving role to clinical diagnosis of cancer and research in biomedical sciences.
DNA microarray;Bioinformatics;polygenic combination selection model;colon cancer
book=78,ebook=27
Q16∶TP181
A
1007-3116(2012)06-0078-05
(責(zé)任編輯:馬 慧)
2011-11-25
馬 超,男,江蘇省南京人,博士生,研究方向:衛(wèi)生經(jīng)濟(jì)與醫(yī)療管理。