李 蓉,任喜梅,鐘春曉,王錦麗
(華東交通大學(xué)理工學(xué)院,江西 南昌 330100)
癌癥由多階段的多基因共同參與而生成、發(fā)展,并與基因變化有著緊密聯(lián)系,癌癥的發(fā)生、促進、發(fā)展以及轉(zhuǎn)移,大部分都跟原癌基因[1]活化、抑癌基因[2]失活等基因突變密切相關(guān)。具有挖掘隱含生物學(xué)信息功能的微陣列數(shù)據(jù),可以依據(jù)基因間的性能模塊中已知基因預(yù)測未知基因,但因其維數(shù)較高,存在較少數(shù)量與癌癥相關(guān)的基因。高維隨機矩陣理論(Random Matrix Theory,RMT)通過對比隨機的高維、多維序列屬性特征,發(fā)現(xiàn)實際數(shù)據(jù)與隨機因素之間的偏離程度,提取數(shù)據(jù)內(nèi)的總體相關(guān)行為特征。
為此,本文將高維隨機矩陣與癌癥基因融合,提出一種癌癥基因網(wǎng)絡(luò)識別方法,將系數(shù)矩陣右邊增加一列,擴增隨機矩陣,提升隨機矩陣特征擬合度;通過規(guī)范化、中心化以及標(biāo)準化隨機矩陣,提升矩陣適用性能;以互信息作為度量標(biāo)準,依據(jù)各隨機矩陣奇異值矢量與初始特征奇異值矢量的差值,優(yōu)化特征選擇;利用癌癥基因表達矩陣特征根的最近鄰間隔分布與高斯正態(tài)分布、泊松分布的標(biāo)準誤差比值計算,增加有效信息的保留數(shù)量,增強噪聲濾除性能。
將維度較高的隨機變量作為矩陣組成元素,即可構(gòu)成高維隨機矩陣,依據(jù)隨機矩陣理論含義,設(shè)定某一高維隨機矩陣為M,表達式如下所示
(1)
(2)
式中,隨機矩陣M的極大、極小特征值分別用λmax和λmin來表示,相應(yīng)表達式如下所示
(3)
(4)
綜上所述,利用隨機矩陣M與相關(guān)矩陣C具有的屬性特征,劃分矩陣C為符合隨機矩陣M部分與差異部分,即隨機噪聲U與真實信息V,通過優(yōu)化相關(guān)矩陣C,即可去除其中所含噪聲。
基因表達網(wǎng)絡(luò)[3]受實驗條件影響,一般會存在一些隨機因素:當(dāng)實驗時間與樣本條件發(fā)生變化時,基因表達水平也將隨之改變;若實驗樣本有限,則有可能產(chǎn)生測量噪音。而此類隨機因素生成的虛假信息,會對真實信息造成干擾,影響識別結(jié)果的可靠性與準確性,因此,應(yīng)在初始階段去除可能產(chǎn)生的隨機因素。
已知矩陣D是一個初始的數(shù)據(jù)矩陣,由特征集合F={f1,f2,…,ft}與類集合S={s1,s2,…,sk}架構(gòu)而成,其中,t、k分別表示特征個數(shù)與類別數(shù)量,高維隨機矩陣M的構(gòu)建公式如下所示
(5)
下列矩陣即為所得矩陣M的表達式
(6)
若上式中的k值較小,則無法理想地滿足隨機矩陣特征,所以,應(yīng)在系數(shù)矩陣右邊增加一列,擴增[4]隨機矩陣M,復(fù)制m次后,得到下列表達式
M=[M,m(M)]
(7)
式中的m可通過下列計算公式完成求解,令初始的行列比值不發(fā)生改變
(8)
為確保該隨機矩陣M并非一種特例,可以代表大多數(shù)的普遍情況,采用下列式(9)與(10),規(guī)范化、中心化以及標(biāo)準化隨機矩陣M,得到不失一般性的隨機矩陣Md
(9)
(10)
利用得到的隨機矩陣Md,推導(dǎo)出t×t的特征相關(guān)矩陣C表達式,如下所示
(11)
再通過下列奇異值分解[5]式,完成相關(guān)矩陣C的奇異值分解
C=UΛV
(12)
Cnew=UΛnewV
(13)
任意兩特征與初始類別的關(guān)聯(lián)程度,用Unew中含有的各項元素Kij來描述,各特征與新類別的關(guān)聯(lián)程度,用Vnew中含有的各項元素Eij來描述。通過對去噪的相關(guān)矩陣進行特征選擇,可去除冗余以及與類別不存在關(guān)聯(lián)性的特征。因為去噪后留存了j-1個奇異值,且選取特征數(shù)量與奇異值剩余個數(shù)相同,所以,特征選擇個數(shù)是j-1,各特征的重要程度計算公式如下所示
(14)
式中,第i個特征的重要程度為F(i),集合是F={f1,f2,…,fi},按照從大到小的順序降序排列F(i)后,得到重要程度最高的前j-1個特征,完成特征選取。
采用隨機矩陣進一步優(yōu)化選擇的n個特征,各特征均是一個隨機變量,利用隨機特征矩陣與初始特征矩陣奇異值矢量的相關(guān)系數(shù),描述特征與隨機變量的關(guān)聯(lián)度,相關(guān)系數(shù)越大,關(guān)聯(lián)度越高,所以,應(yīng)留存較小的相關(guān)系數(shù)特征。
已知特征集合F={f1,f2,…,fn},類別數(shù)量為k個,計算初始特征矩陣M的奇異值過程中,以互信息[6]作為度量標(biāo)準,采用式(5)和(6)架構(gòu)互信息矩陣D,再依據(jù)式(9)~(12),逐步實施規(guī)范化、標(biāo)準化、相關(guān)矩陣運算以及奇異值分解等操作,最終得到矩陣M的奇異值矢量e,該矢量的組成部分為n個奇異值,其中所含元素表示為εk;在求取隨機特征矩陣奇異值矢量階段,將隨機變量用各個特征表示,構(gòu)建數(shù)量為n的隨機矩陣(M1,M2,…,Mn)。按照初始特征矩陣奇異值矢量計算流程,解得各隨機矩陣Mi(1≤i≤n)奇異值矢量ei,其中所含各元素用εik表示。關(guān)于各隨機矩陣奇異值矢量ei與初始特征奇異值矢量e的差di,可利用下列計算公式解得,通過取整差值di,并保留di≠0情況下的fi,實現(xiàn)特征選擇優(yōu)化
(15)
利用隨機矩陣理論與下列皮爾森相關(guān)系數(shù)[7]公式,轉(zhuǎn)換癌癥基因微陣列數(shù)據(jù)為相關(guān)基因矩陣,使矩陣中含有全部基因之間的關(guān)聯(lián)程度:
(16)
假設(shè)高維隨機矩陣理論的降噪?yún)?shù)是q,取值范圍為(0,1),將參數(shù)q值慢慢增大,去除較小的相關(guān)系數(shù),求解對應(yīng)于各降噪?yún)?shù)q的特征根NNSD(Nearest-neighbour Spacing Distribution,最近鄰間隔分布)。在不斷增大參數(shù)q值、去除相關(guān)矩陣的較小相關(guān)系數(shù)過程中,相關(guān)矩陣特征根最近鄰間隔分布形式由高斯正態(tài)分布過渡至泊松分布[8]。
通過標(biāo)準誤差方法,可以準確、科學(xué)地確定癌癥基因特征根分布形式過渡至泊松體系的轉(zhuǎn)變點對應(yīng)q值,所以,設(shè)定癌癥基因表達矩陣特征根的最近鄰間隔分布與高斯正態(tài)分布的標(biāo)準誤差為SDGOE(q),與泊松分布的標(biāo)準誤差為SDpoisson(q),利用下列兩項標(biāo)準誤差界定公式,計算分布形式過渡的臨界點與降噪?yún)?shù)
(17)
(18)
式中,第i點對應(yīng)特征根的最近鄰間隔分布是p(i),該點對應(yīng)高斯正態(tài)分布與泊松分布特征根的最近鄰間隔分布分別用PGOE(i)、Ppoisson(i)表示。
如果兩個標(biāo)準誤差值相同,特征根的最近鄰間隔分布體系元素相互效用較強,相關(guān)程度較大,相似性較高,多數(shù)為真實相關(guān)信息,極少數(shù)為隨機信息;如果標(biāo)準誤差比值較大,分布體系則更趨近于泊松分布,偏離高斯正態(tài)分布,在留存有效信息的同時,充分濾除噪聲。因此,降噪點即為最大標(biāo)準誤差比值的對應(yīng)點。將降噪?yún)?shù)q從0逐漸增大至1,去除癌癥相關(guān)矩陣含有的隨機噪聲,才能得到真實的癌癥基因網(wǎng)絡(luò)。
依據(jù)癌癥基因初始數(shù)據(jù)與不同實驗條件的所有基因表達水平,采用cluster tree view軟件構(gòu)建描述基因相互效用的層次樹形圖,該圖在聚合有相關(guān)性基因的同時,展現(xiàn)出層次結(jié)構(gòu)的連接形式?;诿鞔_的降噪點,選取出與其它基因相關(guān)系數(shù)不小于降噪?yún)?shù)q的基因,構(gòu)建新的癌癥基因表達矩陣,并聚類分析經(jīng)過噪聲濾除的癌癥基因。
假設(shè)新建癌癥基因表達矩陣的留存基因數(shù)量為361,且新矩陣的基因內(nèi)涵蓋其中的所有信息,則該癌癥基因網(wǎng)絡(luò)樹形圖如圖1所示。
圖1 癌癥基因網(wǎng)絡(luò)樹形圖
樹形圖1中,基因之間的相關(guān)性用連線表示,相關(guān)程度的強弱用樹枝長度表示;連線與相關(guān)程度成反比。
實驗環(huán)節(jié)以肝癌[9]為例,從http:∥ genome-www.stanford.edu hcc supplement.shtml.斯坦福微陣列數(shù)據(jù)庫中,挑選肝癌基因微陣列初始數(shù)據(jù),得到的研究數(shù)據(jù)為基于82個HCC(Hepatocellular Carcinoma,肝細胞性肝癌)樣本1648個肝癌基因的微陣列數(shù)據(jù),樣本基因信息如表1所示。
表1 肝癌基因數(shù)據(jù)統(tǒng)計表
從0到1逐漸增大高維隨機矩陣理論的降噪?yún)?shù)q,圖2所示為參數(shù)q取不同數(shù)值時,肝癌基因特征根的最近鄰間隔分布情況,圖中泊松分布用虛線表示,高斯正態(tài)分布用實線表示,最近鄰間隔分布用點線表示。
圖2 不同參數(shù)值的最近鄰間隔分布變化
通過圖2的曲線走勢可以看出,參數(shù)q在數(shù)值到達0.64后(見圖2(c)),基因特征根最近鄰間隔分布變化趨勢開始趨于泊松分布,經(jīng)過標(biāo)準誤差值運算,發(fā)現(xiàn)參數(shù)q在取值是0.67時(見圖2(d)),標(biāo)準誤差比值為極大值,因此,1648×82肝癌微陣列數(shù)據(jù)的降噪點參數(shù)取值為0.67。
去噪后保留820個肝癌基因,并得到820×82的微陣列數(shù)據(jù),利用Cluster 3.0軟件層次聚類肝癌基因,采用斯皮爾曼相關(guān)系數(shù)度量基因之間的相似性,通過cluster tree view軟件呈現(xiàn)的肝癌基因樹形圖,如圖3所示。
圖3 基因樹形圖
圖3的基因表達譜中,基因表達量上調(diào)用紅色表示,下調(diào)則用綠色表示。當(dāng)基因被劃分為一類時,相同肝癌樣本的表達量上、下調(diào)一致。經(jīng)分析得到的團簇分別是增殖簇、B淋巴細胞簇、細胞周期調(diào)控簇、基質(zhì)細胞簇以及脂類酒精代謝簇,如圖4所示。
圖4 肝癌基因團簇分類示意圖
以關(guān)聯(lián)程度較強的B淋巴細胞簇為例,分析肝癌基因團簇,圖5所示為B淋巴細胞簇的基因樹形圖。從B淋巴細胞團簇中分別識別出B淋巴細胞的增長因子WNT4與編碼mRNA前剪接調(diào)控因子SLU7兩個基因。在團簇內(nèi)層,兩基因緊密連通,該基因與B淋巴細胞免疫過程相關(guān),說明淋巴細胞正浸潤肝組織。
圖5 B淋巴細胞簇基因及其層次樹圖
為了驗證本文方法識別的有效性,采用基因網(wǎng)絡(luò)模塊劃分方法[10],得到圖6所示的肝癌基因處理結(jié)果。
圖6 基因網(wǎng)絡(luò)模塊劃分方法下肝癌基因模塊圖
經(jīng)過對比圖5和圖6可以看出,基因網(wǎng)絡(luò)模塊劃分方法識別出的肝癌基因中,只有1個基因在本文方法構(gòu)建的樹形圖分支上與對應(yīng)的主分支有所偏離,其它相同模塊的基因均與本文樹形圖所屬分支一致,說明本文方法能夠識別出基因的真實模塊,且相似度較高。
癌癥作為一種復(fù)雜性疾病,對人類健康存在嚴重威脅,只有及時查出癌癥發(fā)生的相關(guān)基因,發(fā)現(xiàn)互相關(guān)聯(lián),才能防止癌癥惡化,因此,本文針對癌癥基因的微陣列數(shù)據(jù),以高維隨機矩陣為數(shù)據(jù)預(yù)處理策略,提出一種癌癥基因網(wǎng)絡(luò)識別方法,并制定出今后的研究探索方向:在過渡至泊松分布的過程中,最近鄰間隔分布體系仍有可能存在噪聲干擾,需設(shè)計出一個更加優(yōu)化的降噪點判定方法,使噪聲能夠去除完全;為便于基因的后續(xù)調(diào)控,需量化模塊之間的連接大小與調(diào)控關(guān)系,并進一步研究基因之間相互調(diào)控的形式與力度,以及基因間相互影響程度。該方法對癌癥的生成檢測、惡化控制與治療,有著重要的現(xiàn)實意義。