• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      小腦基因表達數(shù)據(jù)的模糊多尺度聚類分析*

      2011-02-03 03:50:34唐世星張吉強張彥琦
      中國衛(wèi)生統(tǒng)計 2011年3期
      關(guān)鍵詞:歸類生物學尺度

      陳 軍 潘 艷 唐世星 張吉強 劉 嶺 張彥琦 易 東△

      小腦基因表達數(shù)據(jù)的模糊多尺度聚類分析*

      陳 軍1潘 艷2唐世星3張吉強4劉 嶺1張彥琦1易 東1△

      目的為了更好地建立符合生物學意義的基因歸類,為一些未知基因的功能提出解釋提供參考。方法首先對小腦組織隨機抽取100組預處理后的基因表達數(shù)據(jù),對每個由7個時間點所成的基因表達信號做多尺度分析,其次在各個尺度下運用改進的FCM算法設(shè)計了一個歸類閥值,并利用模糊聚類Xie-Beni指數(shù)得到了最優(yōu)聚類數(shù)并實現(xiàn)各個尺度下小腦組織基因的聚類,并把每一層對應的聚類結(jié)果輸出到文本文件,最后找出各層聚類結(jié)果完全一致的基因進行歸類并進行生物學解釋。結(jié)果 得到的小腦組織基因最優(yōu)聚類數(shù)為3類,通過分類結(jié)果對照發(fā)現(xiàn),各類中的大多數(shù)基因生物學意義接近。結(jié)論 運用多尺度分析并結(jié)合FCM算法應用于基因聚類是有效的,結(jié)果具有一定生物學意義,能對生物學基因聚類及基因功能解釋具有一定指導作用。

      多尺度分析 FCM算法 Xie-Beni指數(shù) 聚類 基因

      *:國家自然科學基金(No.30872184)

      1.第三軍醫(yī)大學衛(wèi)生統(tǒng)計學教研室(400038)

      2.重慶師范大學生命科學學院(401331)

      3.承德石油高等專科學校數(shù)理系(067000)

      4.第三軍醫(yī)大學神經(jīng)生物學教研室(400038)

      △通訊作者:易東,E-mail:yd_house@hotmail.com

      聚類分析是大規(guī)?;虮磉_譜目前使用最廣泛的統(tǒng)計技術(shù),主要任務是將具有相似表達模式的基因進行歸類,從而發(fā)現(xiàn)特征相似或生物功能相似的一組基因,使人們更深入地認識諸多生物現(xiàn)象的本質(zhì),如基因功能、發(fā)育、癌癥和藥理等。聚類分析也是探索未知基因功能的重要工具,且是后續(xù)研究的基礎(chǔ)。其中模糊C均值(FCM)聚類算法是目前對基因分類比較好的一種方法〔1,2〕。

      目前幾乎所有的聚類方法都屬于硬聚類,即每個樣本最后歸類時都屬于非此即彼,類與類之間沒有交集。但從生物學角度看,對其進行非此即彼的嚴格劃分并不符合生物學自然規(guī)律,某些基因可能屬于多個類別,參與多個生物過程或生物過程中的調(diào)控,因此針對于這個問題我們需找到一些更符合生物學特點的歸類方法。本文在此基礎(chǔ)上提出了一種新的聚類思路,將FCM聚類算法進行了改進并引入了小波多尺度分析思想,將其應用于胎兒小腦基因表達數(shù)據(jù)的聚類分析,來實現(xiàn)這一目標。其綜合思路是將基因表達信號分解成多個尺度成分(或?qū)?,從宏觀到微觀進行綜合分析,若探討某兩個基因是否可以聚為一類可以從這兩個基因的表達信號的各個尺度下的一個變化趨勢進行綜合考慮,也就是從宏觀到微觀的變化趨勢進行一個綜合考慮,如果這兩個基因在各個尺度下的變化趨勢一致,我們完全有理由認為它們可以聚為一類,這樣就更有效地分離出有相近生物學功能或調(diào)控的基因;而利用FCM聚類算法確定的最終隸屬度矩陣確定一個閥值我們可以實現(xiàn)在每一個尺度成分下基因聚類的軟劃分,即某個基因可以同時歸屬于幾個類別,這樣更加符合生物學特點。

      多尺度分析作為數(shù)據(jù)處理和現(xiàn)象分析的一種重要統(tǒng)計方法,國內(nèi)外學者對此做了比較系統(tǒng)的理論研究〔3-5〕。由于其數(shù)據(jù)處理和現(xiàn)象分析全面,其應用前景十分廣闊。而各種聚類方法一般需要預先給定聚類數(shù),這對于在大多數(shù)情況下聚類數(shù)是未知的基因表達數(shù)據(jù)很不適用,因此本文還對FCM聚類算法使用Xie-Beni指數(shù)作為聚類結(jié)果的評價指標〔6〕,使用Matlab軟件進行了仿真得到最優(yōu)聚類數(shù),并對結(jié)果進行了生物學解釋。

      多尺度模型及FCM聚類算法

      1.多尺度分析

      多尺度分析源于傅里葉變換,但其理論研究和實際應用領(lǐng)域已經(jīng)遠遠超過傅里葉變換。在理論方面,該方法主要是建立在小波多分辨率分析及Mallat分解及重構(gòu)算法之上的;在應用方面,多尺度分析必須要選擇好小波函數(shù),確定分解及重構(gòu)層數(shù)〔7〕?,F(xiàn)在,多尺度分析的應用領(lǐng)域非常廣泛,對于具有多層尺度特性的具體問題,都可以嘗試建立多尺度分析,此時,是建立了一個小波分析的多尺度模型,即是建立了一個從宏觀到微觀的空間幾何模型。廣義上說,多尺度模型包含了空間尺度、時間尺度及語義尺度等〔8〕。

      對于一列信號,記為s,對其進行小波多尺度分析,即指對信號進行多個尺度的分解與重構(gòu),從不同的尺度分析其信號的方法。下面以對s進行三層多尺度分析來說明其原理。如圖1所示,對于信號s,通過小波變換分解為a1和d1,a1稱為近似系數(shù),或者從頻率上稱為低頻部分;d1稱為細節(jié)系數(shù),從頻率上稱為高頻部分。a1中含有原始信號s的有用成分較多,能夠起到有效的近似替代原始信號s的作用,而d1則代表了噪聲。在第一層上,我們有s=a1+d1。要是需要做更細的劃分,我們可以將低頻部分d1再次分解為a2和d2,同理可以再將第二層的低頻部分a2再次分解為a3和d3。以此類推,如果進行更多尺度的分解,則有ak=ak+1+dk+1。

      圖1 三層多尺度分解示意圖

      若要將信號完全重構(gòu),則有

      在實際應用中,我們一般根據(jù)需要先確定分解和重構(gòu)的層數(shù)。如果去掉某些高頻部分,則可達到降噪的目的。當原始信號的噪聲不是很強時,我們可以只去掉很少一部分的噪聲信息,這樣可以保留更多的原始信號。

      2.FCM聚類算法

      (1)FCM聚類算法的優(yōu)點

      ①從生物學角度看,某些基因可能與多個類別高度相關(guān),對其進行非此即彼的嚴劃分不符合自然規(guī)律。

      ②由于生物樣本對象和實驗因素的影響,在微陣列數(shù)據(jù)中存在大量噪音數(shù)據(jù),而模糊聚類具有很強的噪音魯棒性,能夠在一定程度上減少噪音數(shù)據(jù)帶來的影響。已有文獻以FCM法為例詳細論證了模糊聚類的噪音魯棒性。

      鑒于以上兩個方面的原因,我們認為模糊聚類更適合于對基因表達數(shù)據(jù)進行分析。

      (2)改進的FCM聚類模型

      FCM聚類算法,即模糊ISODATA,是用隸屬度確定每個數(shù)據(jù)點屬于某個聚類的程度的一種聚類算法。FCM算法是一種柔性的模糊劃分,其思想是使得被劃分到同一簇的對象之間相似度最大,而不同簇之間的相似度最小。FCM算法的目標函數(shù)的一般形式為:

      (3)Xie-Beni指數(shù)

      模糊聚類的最主要不足在于無論所給的聚類數(shù)如何,它總能將樣本集進行分類,因此大多數(shù)聚類算法需要事先確定樣本集的分類數(shù)。關(guān)于樣本集的最優(yōu)分類數(shù)問題屬于聚類有效性問題,文獻〔10〕指出Xie-Beni指數(shù)是一種具有較好效果的模糊聚類有效性指標,其計算公式如下:

      并且當聚類數(shù)c取得對應最優(yōu)類數(shù)c*時,V值最小。文獻〔11〕指出加權(quán)指數(shù)m的取值不僅與給定樣本集的結(jié)構(gòu)有關(guān),而且與樣本的模糊劃分有關(guān),此處我們?nèi)〖訖?quán)指數(shù)m=2。即Xie-Beni指數(shù)公式為:

      根據(jù)(3)式確定最優(yōu)聚類數(shù)c*的步驟如下:①給定c的范圍是[2,]〔12〕;②計算當時每個整數(shù)c對應的V值;③選取最小V值對應的c值,即為最優(yōu)聚類數(shù)c*。

      多尺度聚類模型及實例分析

      1.多尺度聚類模型

      對小腦組織的一組基因芯片數(shù)據(jù),設(shè)基因芯片微陣列實驗中,對小腦組織按照時間順序進行了T次試驗,每次試驗所生成的芯片有N個基因,則可以得到N×T的基因表達矩陣。該模型的具體實施步驟為:

      (1)對原始基因表達矩陣進行預處理;

      (2)對每個基因在各個時間點所組成的信號作多尺度分解,記尺度數(shù)為K;

      (3)將每個基因的第一尺度信號(記為aK)還原為基因表達數(shù)據(jù),組成小腦組織N個基因在第一尺度的表達矩陣B1(N×T);同理,第m個尺度上的信號aK+dK+…+dK-m+1還原后組成N×T維的矩陣Bm(N×T),由此我們得到了還原后的K個尺度的基因表達矩陣;

      (5)基因歸類:矩陣C的任意兩行組成的向量表示任意兩基因在m個尺度下的聚類結(jié)果。如果兩向量相等即此時對應的二基因的聚類結(jié)果在各個尺度下完全一致,此時,我們認為可將此二基因歸為一類,依次類推。

      若基因A與基因B歸為一類,基因B與基因C歸為一類,但根據(jù)歸類準則基因A與基因C不能歸為一類,則此時基因B就同時歸屬于兩類;而如果根據(jù)歸類準則基因A與基因C也歸為一類,那么此時基因A、B、C同時歸屬于一類。這樣某些基因最后可能會同時歸屬于某幾個類即最后的分類屬于軟劃分,這樣是符合生物學意義的。

      因為最后歸類時為一個取交集的思想,因此最后可能有某些基因不在任何分類中,會有缺失信息,因此多尺度聚類屬于一個優(yōu)化聚類。

      (6)結(jié)合生物信息學相關(guān)知識對歸類結(jié)果進行解釋及評估。模型的具體實施步驟見圖2。

      圖2 多尺度聚類模型示意圖

      2.實例分析

      (1)數(shù)據(jù)預處理

      一般我們認為ratio'>2或者ratio'<0.5的基因是表達有顯著變化的基因。一般情況下,當數(shù)值大于2時,我們認為基因上調(diào);當數(shù)值小于0.5時下調(diào)。本文使用如下方法對原始基因表達數(shù)據(jù)xij按照如下步驟進行預處理:①在原始數(shù)據(jù)中去挑選出滿足0<xij<0.5或者xij>2的數(shù)據(jù);②對挑選出的數(shù)據(jù)取以2為底的對數(shù)。通過對原始10080組數(shù)據(jù)進行預處理,最終得到了1068組有顯著變化的基因表達數(shù)據(jù),我們隨機抽取其中100組連續(xù)有效數(shù)據(jù)作為實驗(在不引起混淆的情況下,下文把這100組基因表達數(shù)據(jù)簡稱為基因數(shù)據(jù))。

      (2)多尺度分析結(jié)合FCM算法對小腦基因的聚類分析

      本文首先對小腦基因進行多尺度分解及重構(gòu),小波基函數(shù)選擇為Db5,尺度選為3層,第一尺度重構(gòu)信號為a3,第二尺度重構(gòu)信號為a3+d3,第三尺度重構(gòu)信號為a3+d3+d2,此時得到的各尺度信號既可以有效表現(xiàn)出原始信號的大致概貌,又對峰值有很好的體現(xiàn),且各尺度信號之間的一致性也表現(xiàn)的比較好。下使用上述多尺度聚類模型對各個尺度重構(gòu)的基因表達數(shù)據(jù)進行模糊聚類分析,使用Matlab軟件的模糊邏輯工具箱提供的函數(shù),對于每個聚類數(shù)c(由Xie-Beni指數(shù)的求解步驟可知,c的取值范圍在2~10之間)進行迭代,編寫程序〔10〕進行模糊聚類,得出不同尺度不同的c值對應的Xie-Beni指數(shù)以及對應的聚類隸屬度矩陣U=(uij)c×N。由此最后我們可以得出各尺度最優(yōu)的聚類數(shù)均為c*=3,因此我們將這100個基因分為3類。在聚類過程中,3個尺度的方差分析結(jié)果均有P<0.01,說明聚為3類能顯著地將這100個7個時間點變量區(qū)分開。

      最后若某兩個基因在各尺度下的分類結(jié)果完全一致,則最終歸入到同一類,依此下去統(tǒng)計出最終的分類結(jié)果(見表1所示,這里我們只錄入基因的實驗標號)。

      聚類結(jié)果分析及生物學解釋

      1.聚類結(jié)果的分類結(jié)果分析

      從本文所得結(jié)果可以看出,將這100個基因分為3類是最優(yōu)的聚類結(jié)果,類與類之間存在重復基因,如第43號基因同時歸入第二類及第三類,45號基因同時歸入第一類及第三類,這可能與某些基因的功能比較繁雜,參與生物學調(diào)控的方面比較多有關(guān)系,由文獻〔13,14〕可知第43號基因KH-type splicing regulatary protein(KSRP)是一個參與了細胞發(fā)育中的多個過程的多領(lǐng)域RNA粘合蛋白質(zhì),而第45號基因myosin IC在細胞生長發(fā)育過程中參與了多個生物過程調(diào)控,與它們屬于多分類相吻合;而這3類的基因的位置相對比較接近,即每個類中的基因成團分布在某幾個塊上。我們認為,在基因芯片的數(shù)據(jù)處理上,由聚類結(jié)果在基因芯片上的位置進行推測,在基因芯片制作的過程中,基因位置的選擇或許有一定的規(guī)律,可能會將功能相似的基因放在一個塊上,而且,位置越接近的基因?qū)嶒灄l件越相近,其相互影響越大,從而在基因表達上有一定的同趨性。所以,從分類結(jié)果來看,我們認為是比較合理的。

      表1 最終分類結(jié)果

      2.聚類的生物學解釋

      數(shù)學模型推測出的分類結(jié)果是否合理,最好的方法是以實驗方法去驗證,而對于基因分類的結(jié)果好壞,最好的方法就是從生物學的角度進行解釋,看所得結(jié)果是否符合生物學意義,類間的基因是否同質(zhì),這里的同質(zhì)是指類間的基因是否在生物過程、細胞組成、分子功能這些方面有相似的地方。由于本課題研究的是胎兒發(fā)育過程中的小腦組織基因的調(diào)控規(guī)律,因此我們著重選擇生物過程、發(fā)育過程、代謝過程、細胞構(gòu)成、生物過程中的調(diào)控等項目,同時我們在基因類中只考慮具有調(diào)控功能的基因,并將類中所屬的基因映射到Gene Bank(http://www.ncbi.nlm.nih.gov/IEB/Research/Acembly)中查詢其詳細功能,代表性結(jié)論如下:

      第一 類:例 如 No.22(as paraginyl-tRNA synthetase)、No.27(protein tyrosine phosphatase,receptort)、No.42(Lutheran blood group(Aubergerb antigen))、No.45(myosin IC)、No.58(phosphatidylinositol(4,5)bisphosphate)這5個基因都在細胞生長發(fā)育的過程起到了一定調(diào)控作用。如No.22(asparaginyl-tRNA synthetase)是一種Ⅱ型合成酶,它對細胞的生長發(fā)育起到明顯的促進作用,在生物過程中起正調(diào)控作用;文獻〔14〕顯示No.45(myosin IC)與細胞生物合成及基因表達的轉(zhuǎn)錄過程有一定關(guān)聯(lián)。

      第二類:例如No.13(CLIP-associating protein 2)、No.19(single-stranded DNA binding proteinB)、No.33(guanine nucleotide binding protein)、No.43(KH-type splicing regulatary protein(KSRP))、No.53(hypothetical protein FLJ22638)這5個基因均屬于組蛋白家族。

      第三類:例如No.2(thyroid hormone receptor interactor 7)、No.3(transcription elongation factor B(SIII))、No.43(KH-type splicing regulatary protein(KSRP))、No.45(myosin IC)、No.67(polymyositis/scleroderma autoantigen 1)、No.89(chondroitin sulfate proteoglycan 6)這5個基因都參與了mRNA轉(zhuǎn)錄的過程,而其中No.43(KH-type splicing regulatary protein(KSRP))還屬于組蛋白家族,因此也屬于第二類;而No.45(myosin IC)還參與了生物過程調(diào)控,因此也屬于第一類。

      展望與建議

      從聚類結(jié)果的分類結(jié)果及生物學意義分析來看,分類結(jié)果比較合理,符合FCM算法Xie-Beni指數(shù)最小以達到最優(yōu)聚類,而分類結(jié)果的生物學解釋也基本合理。結(jié)果表明該算法具有較高的準確性和穩(wěn)定性,是一種有效的基因表達數(shù)據(jù)聚類方法,可以為進一步分析基因的生物學功能提供一個參考。

      該模型的不足在于:(1)模糊隸屬度的確定沒有一個明確的準則以及結(jié)果的生物學解釋還不夠全面充實,我們從Gene Bank數(shù)據(jù)庫只能查詢某些基因的功能,不能查出基因之間的一些關(guān)系,因此結(jié)果的生物學驗證不夠充實和具體;(2)多尺度聚類為一個優(yōu)化聚類,但是可能不能完全將所有個體歸類,比如本例最終的聚類結(jié)果中少了1號及4號樣本。如何能更加全面地考慮所有樣本的信息是模型仍需改進的地方;(3)尺度數(shù)及小波基函數(shù)的確定尚沒有統(tǒng)一理論指導,仍處于探索性階段,做大量實驗以及查閱大量文獻做對比來驗證優(yōu)劣,如何找到一個適用的判別法則是我們今后工作的努力方向。

      1.Futschik ME,Kasabov NK.Fuzzy clustering of gene expression data.IEEE Trans on Fuzzy System,2002(1):414-419.

      2.岳峰,孫亮,王寬全,等.基因表達數(shù)據(jù)的聚類分析研究進展.自動化學報,2008,34(2):113-120.

      3.文成林.多尺度動態(tài)建模理論及其應用.北京:科學出版社,2008:1-9.

      4.潘泉,張磊,崔培玲,等.動態(tài)多尺度系統(tǒng)估計理論與應用.北京:科學出版社,2007:1-6.

      5.Willsky AS.Multiresolution Markov models for signal and image processing.Proceedings of the IEEE,2002,90(8):1396-1458.

      6.普運偉,金煒東,朱明,等.核空間中的Xie-Beni指標及其性能.控制與決策,2007(7):830-835.

      7.樊啟斌.小波分析及其應用.武漢:武漢大學出版社,2007:64-66,194-196.

      8.李霖,吳凡.空間數(shù)據(jù)多尺度表達模型及其可視化.北京:科學出版社,2005:35-38.

      9.劉青,鄧慶山.基于有效性測度的基因表達數(shù)據(jù)的模糊聚類分析.計算機工程與科學,2005,27(9):74-76.

      10.Xie XL,Beni GA.A validity measure for fuzzy clustering algorithm.IEEE Trans on Pattern Anal Machine Intel,1991(8):841-846.

      11.宮改云,高新波,伍忠東.FCM聚類算法中模糊加權(quán)指數(shù)m的優(yōu)選方法.模糊系統(tǒng)與數(shù)學,2005(1):143-148.

      12.于劍,程乾生.模糊聚類方法中的最佳聚類數(shù)的搜索范圍.中國科學(E 輯),2002(2):274-280.

      13.Hall MP,Huang S,Black DL.Differentiation-induced colocalization of the KH-type splicing regulatory protein with poly pyrimidine tract binding protein and the c-src pre-mRNA.Molecular biology of the cell,2004,15(2):774-786.

      14.Ivan CB,Edward DK.Localization of myosin IC and myosin II in Acanthamoeba castellaniiby indirect immunofluorescence and immunogold electron microscopy.The journal of cell biology,1990,111(5):1895-1904.

      Fuzzy Multiscale Clustering Analysis of Cerebella Gene Ex- pression Data

      ChenJun,PanYan,TangShixing,etal.Depart-mentofMedicalStatistics,ThirdMilitaryMedicalUniversity(400038),Chongqing

      ObjectiveIn order to establish genetic classification in according with biological significance,and give reference to interpret some unknown gene’s function.MethodsFirst of all we did a multiscale analysis toward cerebella gene expression signal,subsequently we used an improved FCM clustering algorithm and design a classification threshold in various scales,then we used fuzzy clustering Xie-Beni index to achieve the optimal number of clusters and accomplish the clustering of cerebella genes of various scales,and each of class corresponding gene labelwas exported to txtfile,finally we found out the genes which were classified exactly the same in every layer and were conducted their biological explanations.ResultsThe optimal number of clusters of cerebella genes was 3 categories,and we according to the classification results comparison,we found thatmajority of genes in various types had close biological significance.ConclusionIt is effective to gene clustering where usemultiscale analysis combine FCM algorithm,the result has certain biological significance,it can give guidance in biological gene clustering and explaining gene function.

      Multiscale analysis;FCM algorithm;Xie-Beni index;Clustering;Gene

      猜你喜歡
      歸類生物學尺度
      電表“對”與“錯”歸類巧掌握
      谷稗的生物學特性和栽培技術(shù)
      財產(chǎn)的五大尺度和五重應對
      初中生物學糾錯本的建立與使用
      初中生物學糾錯本的建立與使用
      Happiness through honorable actions
      分式方程應用題歸類解說
      宇宙的尺度
      太空探索(2016年5期)2016-07-12 15:17:55
      PEDF抗腫瘤的生物學作用
      9
      广昌县| 公主岭市| 交城县| 穆棱市| 德保县| 凭祥市| 万州区| 河源市| 马山县| 六枝特区| 绥江县| 启东市| 长沙市| 河南省| 镇江市| 怀来县| 饶阳县| 澄迈县| 肃北| 浮梁县| 伊春市| 阳江市| 漳浦县| 扎赉特旗| 专栏| 田阳县| 高台县| 苍山县| 磴口县| 盈江县| 吉安市| 循化| 上犹县| 紫金县| 色达县| 安徽省| 子长县| 铁岭县| 涪陵区| 衡山县| 鄯善县|