趙萬(wàn)通 韓延波 張浩男
摘要:本文主要從生物特征基因的提取出發(fā),進(jìn)而展開(kāi)對(duì)特征基因數(shù)據(jù)的統(tǒng)計(jì)學(xué)分析、聚類以及到最終的特征基因表達(dá)差異分析,得出結(jié)論。本文研究?jī)?nèi)容的意義在于能夠通過(guò)比較同種樣本在不同時(shí)期或不同形態(tài)下的基因表達(dá)差異來(lái)得到對(duì)我們?nèi)祟愖陨碛幸娴?、?duì)科學(xué)領(lǐng)域研究有價(jià)值的基因信息,從而更好的給生物技術(shù)領(lǐng)域提供數(shù)據(jù)支持。
關(guān)鍵詞:生物信息;特征基因;統(tǒng)計(jì)學(xué)分析;數(shù)據(jù)挖掘
提及特征基因數(shù)據(jù),就不得不說(shuō)起生物信息學(xué),人類在該領(lǐng)域進(jìn)行的挖掘、剖析等操作依舊是將計(jì)算機(jī)作為關(guān)鍵的方式及工具,其探究活動(dòng)以蛋白質(zhì)學(xué)與基因組學(xué)為主。具體來(lái)說(shuō),它是在分子層面,通過(guò)應(yīng)用數(shù)學(xué)、計(jì)算機(jī)科學(xué)及統(tǒng)計(jì)分析中衍生出的一系列方法,將切入點(diǎn)選擇為基因組DNA分子序列,在將蛋白質(zhì)編碼信息數(shù)據(jù)獲悉之后對(duì)其展開(kāi)結(jié)構(gòu)模擬與預(yù)估,并以此為據(jù)來(lái)針對(duì)特定蛋白質(zhì)功能展開(kāi)藥物開(kāi)發(fā)的一類學(xué)科。因而,以內(nèi)容為基準(zhǔn),可對(duì)生物信息學(xué)做出如下闡述:新興算法和統(tǒng)計(jì)學(xué)研究;數(shù)據(jù)集的轉(zhuǎn)化和分析;開(kāi)發(fā)針對(duì)數(shù)據(jù)管理的新工具。而本文所做的工作,則是簡(jiǎn)要說(shuō)明生物特征基因數(shù)據(jù)分析的過(guò)程,包括從最初的樣本數(shù)據(jù)預(yù)處理到后期的統(tǒng)計(jì)聚類分析等。
一、國(guó)內(nèi)外研究現(xiàn)狀
在科技持續(xù)精進(jìn)的大背景下,基因組計(jì)劃的發(fā)展也表現(xiàn)得頗為迅猛,但是相應(yīng)的數(shù)據(jù)量也在日益增長(zhǎng),所以我們必須通過(guò)生物信息領(lǐng)域的一些相關(guān)方法來(lái)對(duì)這些數(shù)據(jù)進(jìn)行收集、整理和分析,然后這些信息才能變成有用的知識(shí)和信息。即只有借助生物學(xué)手段對(duì)此類信息加以處理之后才可以對(duì)基因組產(chǎn)生無(wú)誤的理解與認(rèn)識(shí)。
(一)國(guó)外研究現(xiàn)狀
在生物信息學(xué)發(fā)展方面,國(guó)外給予了極高的關(guān)注,諸多的專業(yè)研究組織及企業(yè)接二連三的創(chuàng)立,相應(yīng)的科技企業(yè)以及制藥工業(yè)內(nèi)部的相應(yīng)部門(mén)也愈來(lái)愈多。1993年,歐洲生物信息學(xué)研究所EBI開(kāi)始籌備創(chuàng)建。1995年,日本也建立了信息生物學(xué)中心CIB。現(xiàn)如今,大部分核酸及蛋白質(zhì)數(shù)據(jù)庫(kù)都是源自于上述三個(gè)國(guó)家。而現(xiàn)階段全球最大的分子生物信息研究、研發(fā)及服務(wù)組織European Molecular Biology Network是由歐洲國(guó)家所創(chuàng)建,其借助計(jì)算機(jī)網(wǎng)絡(luò)達(dá)成了德、法、英等多國(guó)相應(yīng)資源的共同分享。與此同時(shí),這些國(guó)家又各自創(chuàng)設(shè)了自有的相應(yīng)機(jī)構(gòu)及數(shù)據(jù)庫(kù),并且都有自己的核心分析技術(shù),為自己國(guó)家在該領(lǐng)域內(nèi)的發(fā)展提供支持,其中一部分也會(huì)向全球公開(kāi)供應(yīng)。
(二)國(guó)內(nèi)研究現(xiàn)狀
近年來(lái),我們國(guó)家關(guān)于生物信息學(xué)的研究也取得了不少的進(jìn)步,先后建成了北京大學(xué)生物信息學(xué)中心、中國(guó)科學(xué)院上海生命科學(xué)院生物信息中心等,一些高等院校也已將該學(xué)科作為一門(mén)專業(yè)進(jìn)行開(kāi)設(shè)。2002年,國(guó)家自然科學(xué)基金委在生物物理學(xué)、生物化學(xué)以及生物醫(yī)學(xué)工程學(xué)科的基礎(chǔ)上創(chuàng)建了生物信息學(xué)項(xiàng)目,國(guó)家 863計(jì)劃也特意創(chuàng)設(shè)了與其相關(guān)的技術(shù)主題,以國(guó)家需求為內(nèi)驅(qū)力,促使該學(xué)科長(zhǎng)足發(fā)展。不過(guò),由于研究開(kāi)展的時(shí)間較晚加之其他的多個(gè)緣由,導(dǎo)致我們國(guó)家在該領(lǐng)域的發(fā)展與發(fā)達(dá)國(guó)家相比還很落后。由此可見(jiàn),我國(guó)對(duì)生物信息學(xué)領(lǐng)域的深入研究刻不容緩。
二、特征基因數(shù)據(jù)的預(yù)處理
(一)生物數(shù)據(jù)特點(diǎn)
細(xì)胞在特定條件中的全基因組數(shù)據(jù)都可借助生物微陣列實(shí)驗(yàn)而獲取,數(shù)百數(shù)千個(gè)基因在細(xì)胞中的絕對(duì)或者相對(duì)豐度都涵蓋在其內(nèi),而條件不一樣下的相應(yīng)數(shù)據(jù)即可構(gòu)成一個(gè)A×B的數(shù)據(jù)矩陣M,通常狀況下A>>B,各個(gè)基因HYPERLINK"http://www.bio1000.com/reseach/gene/"\t"http://www.bio1000.com/experiment/fenzi/_blank"在某種條件下的表達(dá)水準(zhǔn)都可借助其中相應(yīng)的元素加以代表,而基因在B個(gè)條件下的表達(dá)則由行向量所代表,某條件下各個(gè)基因的表達(dá)則由水平列向量所代表。
(二)數(shù)據(jù)處理方法
在對(duì)特征基因數(shù)據(jù)HYPERLINK"http://www.bio1000.com/zhuanti/product/201308/444070.html"\t"http://www.bio1000.com/experiment/fenzi/_blank"進(jìn)行整理、剖析和數(shù)據(jù)挖掘前,經(jīng)常要按照實(shí)際情況對(duì)其進(jìn)行數(shù)據(jù)預(yù)處理,包括對(duì)數(shù)據(jù)遺失的修補(bǔ)、對(duì)殘缺數(shù)據(jù)的移除以及對(duì)相似數(shù)據(jù)的捏合等處理方法,按照分析的具體目的而展開(kāi)過(guò)濾,同時(shí)依據(jù)分析方式來(lái)選取相應(yīng)的數(shù)據(jù)轉(zhuǎn)換手段。但是在現(xiàn)實(shí)之中,時(shí)空特異性是生物細(xì)胞中的基因表達(dá)的一個(gè)特別之處,在某一條件下可以真正表達(dá)的基因所占據(jù)的比例極小。所以,DNA微陣列實(shí)驗(yàn)所獲取的數(shù)據(jù)矩陣?yán)锍霈F(xiàn)的絕大多數(shù)基因表達(dá)譜曲線都較為平緩,即基因表達(dá)水平變化很小。生物學(xué)研究者對(duì)于此類基因通常不會(huì)過(guò)多關(guān)注,然而它們的出現(xiàn)卻會(huì)導(dǎo)致數(shù)據(jù)剖析活動(dòng)變得更加繁雜,并且有礙于結(jié)果的客觀性,所以對(duì)這些數(shù)據(jù)進(jìn)行過(guò)濾是非常有必要的?;虮磉_(dá)HYPERLINK"http://www.bio1000.com/zt/gene/jiyin.html"\t"http://www.bio1000.com/experiment/fenzi/_blank"譜數(shù)據(jù)在完成此處理之后,以及在聚類分析等操作開(kāi)始之前,通常還需完成數(shù)據(jù)的轉(zhuǎn)換,也就是將其形式加以改變,使其更適于挖掘。由此看來(lái),數(shù)據(jù)的轉(zhuǎn)換處理離不開(kāi)數(shù)據(jù)的標(biāo)準(zhǔn)化。數(shù)據(jù)的標(biāo)準(zhǔn)化即為把全部數(shù)據(jù)轉(zhuǎn)換至相同的一個(gè)范疇之中,從而使對(duì)比及運(yùn)算都變得較為簡(jiǎn)單,然而在標(biāo)準(zhǔn)差與0較為相近的時(shí)候便會(huì)出現(xiàn)極大的噪聲,恰是因?yàn)槿绱怂圆艜?huì)必須完成上述的過(guò)濾處理。在標(biāo)準(zhǔn)化結(jié)束之后,各個(gè)基因表達(dá)譜的平均值都為0,標(biāo)準(zhǔn)差為1。
三、數(shù)據(jù)的統(tǒng)計(jì)學(xué)分析
(一)數(shù)據(jù)的統(tǒng)計(jì)
在大部分現(xiàn)代生物學(xué)當(dāng)中,統(tǒng)計(jì)分析是重中之重,是前者的根基。諸多的生物學(xué)假說(shuō)都是借助繁雜的統(tǒng)計(jì)學(xué)模型擬合而成的。當(dāng)前,統(tǒng)計(jì)學(xué)軟件的功能已經(jīng)十分強(qiáng)大,而且使用便捷,任何人都可以借助其完成模型,數(shù)據(jù)的處理是此方面的關(guān)鍵。在該領(lǐng)域信息分析期間,統(tǒng)計(jì)分析的運(yùn)用從開(kāi)始到結(jié)束都是不可或缺的。數(shù)據(jù)的統(tǒng)計(jì)主要是通過(guò)對(duì)樣本進(jìn)行相關(guān)性分析以及顯著性檢驗(yàn)來(lái)判斷表達(dá)出不同性狀的基因之間的相關(guān)性,以便于更好的對(duì)其進(jìn)行聚類和比較分析。
斯皮爾曼相關(guān)性分析:可在多個(gè)范疇之內(nèi)加以運(yùn)用,其等級(jí)相關(guān)對(duì)數(shù)據(jù)條件的要求的嚴(yán)苛度并不及積差相關(guān)系數(shù),僅需兩個(gè)變量的觀測(cè)值是匹配的等級(jí)評(píng)定信息,或者是通過(guò)持續(xù)變量觀測(cè)資料轉(zhuǎn)變而獲取的等級(jí)信息,都可借助斯皮爾曼等級(jí)相關(guān)展開(kāi)探究,而對(duì)兩個(gè)變量的整體排列狀態(tài)等都不存在限制。
肯德?tīng)栂嚓P(guān)性分析:肯德?tīng)栂嚓P(guān)系數(shù)是用以對(duì)兩個(gè)隨機(jī)變量相關(guān)性的統(tǒng)計(jì)值進(jìn)行測(cè)量。一個(gè)肯德?tīng)枡z驗(yàn)即可被視作一個(gè)無(wú)參數(shù)假設(shè)驗(yàn)證HYPERLINK"http://www.so.com/s?q=%E5%81%87%E8%AE%BE%E6%A3%80%E9%AA%8C&ie=utf8&src=se_lighten_f"\t"http://blog.sina.com.cn/s/_blank",其借助運(yùn)算而獲取的相關(guān)系數(shù)來(lái)對(duì)兩個(gè)隨機(jī)變量的統(tǒng)計(jì)依賴性加以驗(yàn)證。此系數(shù)的數(shù)值為1~1,一旦τ=1,則代表兩個(gè)隨機(jī)變量的等級(jí)相關(guān)性完全相同;一旦τ=1時(shí),則結(jié)果相反;一旦τ=0,則代表二者間具有單一性。
我們主要通過(guò)這兩種系數(shù)來(lái)進(jìn)行相關(guān)性分析,從而能夠根據(jù)得到的相關(guān)性情況更好的對(duì)數(shù)據(jù)進(jìn)行聚類。
(二)數(shù)據(jù)的聚類
聚類分析是統(tǒng)計(jì)學(xué)中極為關(guān)鍵的方法,應(yīng)用面較為廣闊。上文中首先運(yùn)用統(tǒng)計(jì)學(xué)中的相關(guān)性分析檢驗(yàn)如斯皮爾曼相關(guān)系數(shù)、肯德?tīng)栂嚓P(guān)系數(shù)等對(duì)樣本數(shù)據(jù)進(jìn)行相關(guān)性檢驗(yàn),目的是以此來(lái)判斷表達(dá)出不同性狀基因之間的相關(guān)性,以便于更好的進(jìn)行聚類。所以,下面將介紹兩種常用的聚類方法,主要用來(lái)對(duì)樣本數(shù)據(jù)進(jìn)行聚類分析。
Kmeans聚類:指定聚類,也就是指定變量至某一個(gè)類,必須使其與這個(gè)類中心的間距比其至其它相應(yīng)中心小。它是一種迭代聚類方法,它要求最接近某一類中心距離的那些變量歸為這一類,而再借助每個(gè)類中的平均將該類中心值加以代替,所以才會(huì)如此命名。這可以由一個(gè)交替最小化算法優(yōu)化過(guò)程中給出,因此我們可以獲得最優(yōu)的中心值。算法輸入:初始隨機(jī)選擇一個(gè)基因作為中心值,對(duì)剩余的每個(gè)基因比較到每個(gè)中心的距離的大小,將其賦給距離最小的那一類,然后重新計(jì)算該類的中心值。算法輸出:不斷重復(fù)上述算法,直至符合方差最低標(biāo)準(zhǔn)的聚類。
模糊聚類:此類分析是關(guān)系到事物相互間的模糊邊界的時(shí)候依據(jù)相關(guān)條件展開(kāi)對(duì)事物的類別劃分的數(shù)學(xué)方法。在數(shù)理統(tǒng)計(jì)HYPERLINK"https://baike.baidu.com/item/%E6%95%B0%E7%90%86%E7%BB%9F%E8%AE%A1/408183"\t"https://baike.baidu.com/item/%E6%A8%A1%E7%B3%8A%E8%81%9A%E7%B1%BB%E5%88%86%E6%9E%90/_blank"活動(dòng)當(dāng)中,經(jīng)常用到聚類分析HYPERLINK"https://baike.baidu.com/item/%E8%81%9A%E7%B1%BB%E5%88%86%E6%9E%90"\t"https://baike.baidu.com/item/%E6%A8%A1%E7%B3%8A%E8%81%9A%E7%B1%BB%E5%88%86%E6%9E%90/_blank",它是一種多元剖析的方式,借助數(shù)學(xué)手段對(duì)樣本的關(guān)聯(lián)性加以定量明確,從而使分出的類別具有較強(qiáng)的客觀性。事物之間的界限,有些是確切的,有些則是模糊的。譬如天氣的陰、晴邊界即為模糊?;具^(guò)程為:變量或者樣本之間的相似系數(shù)HYPERLINK"https://baike.baidu.com/item/%E7%9B%B8%E4%BC%BC%E7%B3%BB%E6%95%B0"\t"https://baike.baidu.com/item/%E6%A8%A1%E7%B3%8A%E8%81%9A%E7%B1%BB%E5%88%86%E6%9E%90/_blank"展開(kāi)運(yùn)算,創(chuàng)設(shè)模糊相似矩陣HYPERLINK"https://baike.baidu.com/item/%E7%9B%B8%E4%BC%BC%E7%9F%A9%E9%98%B5/10369874"\t"https://baike.baidu.com/item/%E6%A8%A1%E7%B3%8A%E8%81%9A%E7%B1%BB%E5%88%86%E6%9E%90/_blank";借助模糊運(yùn)算來(lái)合成優(yōu)化相似矩陣,以獲取模糊等價(jià)矩陣HYPERLINK"https://baike.baidu.com/item/%E7%AD%89%E4%BB%B7%E7%9F%A9%E9%98%B5"\t"https://baike.baidu.com/item/%E6%A8%A1%E7%B3%8A%E8%81%9A%E7%B1%BB%E5%88%86%E6%9E%90/_blank";最后依照各種的截取水準(zhǔn)λ對(duì)獲取的上述矩陣加以截取類別劃分。
通過(guò)以上幾種方法對(duì)所研究樣本數(shù)據(jù)進(jìn)行聚類分析,并得到相應(yīng)的分析圖形與表格,最后通過(guò)分組對(duì)比獲取的結(jié)果可將特征基因在各類樣本數(shù)據(jù)中的表達(dá)區(qū)別展現(xiàn)出來(lái)。
四、總結(jié)
本文針對(duì)現(xiàn)代生物信息學(xué)中的統(tǒng)計(jì)學(xué)分析方法進(jìn)行了簡(jiǎn)單的闡述,伴隨前者的高速發(fā)展,特定功能基因篩選己經(jīng)成為了該領(lǐng)域研究的一個(gè)重要方向,從海量數(shù)據(jù)中篩選出對(duì)生物遺傳性狀和生命活動(dòng)有指導(dǎo)意義的信息已變成當(dāng)前該領(lǐng)域的全新探索方向。在此過(guò)程中,統(tǒng)計(jì)學(xué)在生物信息分析活動(dòng)中得到了大量的運(yùn)用。同時(shí)也進(jìn)行了數(shù)據(jù)處理方法分析,對(duì)待研究的樣本數(shù)據(jù)做預(yù)處理和統(tǒng)計(jì)分析,包括從相關(guān)性分析到聚類分析等。文章的實(shí)施目的在于能夠從以上分析的基礎(chǔ)上提取出一些對(duì)科學(xué)研究有價(jià)值的數(shù)據(jù),以便于更好促進(jìn)對(duì)生物信息領(lǐng)域的理解,也能更好的為人類基因組學(xué)提供數(shù)據(jù)支持。
雖然目前針對(duì)特征基因數(shù)據(jù)可以用多種分析方法來(lái)分析,但是實(shí)際操作中難免會(huì)遇到一些客觀因素帶來(lái)的問(wèn)題,比如:基因有其復(fù)雜性,故在對(duì)樣本進(jìn)行分析過(guò)程中,可能會(huì)造成一定的誤差;相關(guān)性分析的方法都有其使用條件,因而不能涵蓋所有類型的數(shù)據(jù);當(dāng)前對(duì)基因數(shù)據(jù)的研究還只是停留在初級(jí)階段,所使用的手段還很有局限性。所以,對(duì)于之后要進(jìn)行的工作以及對(duì)最終結(jié)果的論證還需要相關(guān)技術(shù)人員做進(jìn)一步的基因蛋白數(shù)據(jù)庫(kù)比對(duì)研究。
參考文獻(xiàn):
[1]郭樂(lè)樂(lè).統(tǒng)計(jì)聚類在生物信息分析中的應(yīng)用[D].蘭州大學(xué)碩士論文,2014.
[2]肖文莉.圖形表示在生物信息學(xué)中的研究及應(yīng)用[D].燕山大學(xué)碩士論文,2016.
[3]趙屹,谷瑞升,杜生明.生物信息學(xué)研究現(xiàn)狀及發(fā)展趨勢(shì)[J].醫(yī)學(xué)信息學(xué)雜志,2012,(5).
作者簡(jiǎn)介:[JP2]趙萬(wàn)通(1994),男,遼寧海城人,大連海洋大學(xué)理學(xué)院在讀研究生,研究方向?yàn)樯镄畔⑻幚?;張浩男?994),男,遼寧大連人,大連海洋大學(xué)理學(xué)院在讀研究生,研究方向?yàn)樯镄畔⑻幚?。[JP]
*通訊作者:韓延波(1977),男,遼寧營(yíng)口人,大連海洋大學(xué)合作發(fā)展辦公室主任,碩士,助理研究員,研究方向?yàn)榻逃芾怼?/p>