• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      結(jié)合主題特征和互作用網(wǎng)絡(luò)拓?fù)涮匦缘年P(guān)鍵蛋白質(zhì)識別

      2016-09-08 10:32:04邵明玉
      計算機(jī)應(yīng)用與軟件 2016年8期
      關(guān)鍵詞:網(wǎng)絡(luò)拓?fù)?/a>精確度關(guān)鍵

      崔 鑫 邵明玉

      (復(fù)旦大學(xué)計算機(jī)科學(xué)技術(shù)學(xué)院 上海 200433)

      ?

      結(jié)合主題特征和互作用網(wǎng)絡(luò)拓?fù)涮匦缘年P(guān)鍵蛋白質(zhì)識別

      崔鑫邵明玉

      (復(fù)旦大學(xué)計算機(jī)科學(xué)技術(shù)學(xué)院上海 200433)

      關(guān)鍵蛋白質(zhì)是生物體內(nèi)維持生存和繁殖所必須的蛋白質(zhì)。關(guān)鍵蛋白質(zhì)的識別和預(yù)測不僅對我們理解維持生物生存的最小需求有重要意義,也在藥物設(shè)計、藥物靶標(biāo)發(fā)現(xiàn)等領(lǐng)域有重要作用。已有的關(guān)鍵蛋白質(zhì)識別算法大多基于蛋白質(zhì)互作用網(wǎng)絡(luò)中的拓?fù)涮匦?,在識別算法中引入了一個新的特征,即考慮到關(guān)鍵蛋白質(zhì)序列本身的主題分布特征。通過將LDA模型與基于蛋白質(zhì)互作用網(wǎng)絡(luò)拓?fù)涮卣鞯腃PPK算法相結(jié)合,提出了新的識別算法: 結(jié)合主題模型和蛋白質(zhì)互作用網(wǎng)絡(luò)拓?fù)涮匦缘年P(guān)鍵蛋白質(zhì)識別。該識別算法在酵母蛋白質(zhì)數(shù)據(jù)集上測試,并與現(xiàn)有的若干關(guān)鍵蛋白質(zhì)識別算法進(jìn)行比較。實(shí)驗表明,通過引入LDA模型以及新的特征來對原有的CPPK預(yù)測算法進(jìn)行改進(jìn),達(dá)到了比之前更好的識別效果。

      主題模型中心性測度蛋白質(zhì)互作用網(wǎng)絡(luò)關(guān)鍵蛋白質(zhì)

      0 引 言

      蛋白質(zhì)在每個有機(jī)生命體中擔(dān)當(dāng)著重要的角色,其中關(guān)鍵基因及其產(chǎn)物關(guān)鍵蛋白質(zhì)對于有機(jī)體的存活及功能調(diào)控更是必不可少的。以往研究表明[1,2],缺少一個關(guān)鍵蛋白質(zhì)就可能導(dǎo)致生命體的死亡或不育。Winzeler[1]等將關(guān)鍵蛋白質(zhì)定義為通過基因剔除式突變將其移除后造成有關(guān)蛋白質(zhì)復(fù)合物功能喪失。也正是由于關(guān)鍵蛋白質(zhì)的這種不可或缺性,它逐漸成為新型抗生素藥物的靶標(biāo)。

      研究人員在過去通過許多實(shí)驗的方式尋找關(guān)鍵蛋白質(zhì),包括單基因敲除[3]、RNA推斷[4]以及條件基因敲除[5]等。而利用生物實(shí)驗的方法對關(guān)鍵蛋白質(zhì)識別往往面臨著價格昂貴及時間耗費(fèi)的問題,實(shí)驗人員不同的實(shí)驗條件也影響著對關(guān)鍵蛋白質(zhì)的識別。隨著高通量技術(shù)的發(fā)展,蛋白質(zhì)測序技術(shù)的提升,可獲得的蛋白質(zhì)相互作用數(shù)據(jù)和蛋白質(zhì)序列數(shù)據(jù)日益豐富,研究者們將注意力轉(zhuǎn)向通過計算的方式發(fā)現(xiàn)和預(yù)測關(guān)鍵蛋白質(zhì)。在預(yù)測關(guān)鍵蛋白質(zhì)的算法中,最重要的是尋找能充分表示關(guān)鍵蛋白質(zhì)的特征。目前,通過計算的方式預(yù)測關(guān)鍵蛋白質(zhì)的方法主要基于兩類特征信息:蛋白質(zhì)序列信息和蛋白質(zhì)相互作用網(wǎng)拓?fù)浣Y(jié)構(gòu)[6]。蛋白質(zhì)序列信息主要從進(jìn)化的保守性、基因表達(dá)、蛋白質(zhì)功能和調(diào)控方面描述了單個蛋白質(zhì)的必要性,是個體蛋白質(zhì)功能信息的最直接的描述。而細(xì)胞中每個蛋白質(zhì)不是孤立存在,是通過與其他蛋白質(zhì)一起相互作用組成復(fù)合物來行使其功能,所以蛋白質(zhì)相互作用網(wǎng)絡(luò)從某種程度上反映了單個蛋白質(zhì)與其他蛋白質(zhì)的復(fù)雜關(guān)系,進(jìn)而表明個體蛋白質(zhì)在復(fù)合物中的重要作用。

      LDA模型[7]是近年來在文本挖掘領(lǐng)域中出現(xiàn)的一種概率模型,因為模型的概率統(tǒng)計基礎(chǔ)可以對數(shù)據(jù)單元隱含關(guān)系進(jìn)行挖掘,使其應(yīng)用在生物概念標(biāo)注[8]、基因表達(dá)模式識別[9]和蛋白質(zhì)-蛋白質(zhì)相互作用關(guān)系預(yù)測[10,11]等問題中,成為了生物數(shù)據(jù)領(lǐng)域中對信息挖掘和提取的有效統(tǒng)計方法之一。然而,目前還沒有研究工作將主題信息引入關(guān)鍵蛋白質(zhì)預(yù)測算法中。這里通過引入蛋白質(zhì)序列的主題分布信息提出了新的關(guān)鍵蛋白質(zhì)預(yù)測算法,TMNT(Topic model and network topology based method)。TMNT算法在現(xiàn)有的關(guān)鍵蛋白質(zhì)預(yù)測方法(基于蛋白質(zhì)相互作用網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的中心性測度)中引入蛋白質(zhì)序列信息,利用LDA模型對蛋白質(zhì)序列建模,定義了新的未知蛋白質(zhì)與關(guān)鍵蛋白質(zhì)間的加權(quán)相似度計算方法,從而在未知蛋白質(zhì)數(shù)據(jù)中預(yù)測潛在關(guān)鍵蛋白質(zhì)。預(yù)測算法在酵母蛋白質(zhì)序列和相互作用網(wǎng)絡(luò)數(shù)據(jù)集上進(jìn)行測試,并與現(xiàn)有的若干關(guān)鍵蛋白質(zhì)序列算法進(jìn)行比較。實(shí)驗表明:在ROC評測標(biāo)準(zhǔn)中,結(jié)合了蛋白質(zhì)序列特征和網(wǎng)絡(luò)拓?fù)湫畔⒌念A(yù)測算法優(yōu)于只采用網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的關(guān)鍵蛋白質(zhì)預(yù)測算法,通過引入蛋白質(zhì)序列的主題分布信息,新的關(guān)鍵蛋白質(zhì)識別方法比原CPPK算法的識別精確度有所提高。引入主題信息的識別方法為關(guān)鍵蛋白質(zhì)識別研究提供了新的途徑。

      1 計算模型及預(yù)測算法

      1.1主題模型

      主題模型是文本挖掘中的一種概率模型。以潛在狄利克雷分配LDA[7]模型為代表,演變出一系列概率主題模型,這些模型被推廣應(yīng)用于圖像處理、情感分析、生物數(shù)據(jù)挖掘等信息處理領(lǐng)域。在本文中,利用LDA模型對蛋白質(zhì)序列進(jìn)行特征提取,將原來的生物序列映射到蛋白質(zhì)功能模塊空間(主題空間)。

      圖1 LDA圖模型表示

      LDA是一種層次貝葉斯模型,可以用概率圖表示為圖1所示。其中圓圈表示隨機(jī)變量:空心圓圈表示不可被觀測的變量,實(shí)心圓圈表示可以被觀測到的變量,箭頭表示變量之間的依賴關(guān)系,即條件概率中的變量依賴關(guān)系,矩形表示內(nèi)部結(jié)構(gòu)的重復(fù),矩形右下角的角標(biāo)表示重復(fù)的次數(shù)。在蛋白質(zhì)序列數(shù)據(jù)中,每條序列被重新編碼分割成氨基酸片段,這些片段被預(yù)處理映射到73(343)空間維度上。這樣,每個蛋白質(zhì)序列被表示為氨基酸片段,而這些片段來自于一個343維度的空間。在重新編碼后的氨基酸片段上對LDA模型變量重新定義為:M為蛋白質(zhì)數(shù)據(jù)集中包含蛋白質(zhì)序列的個數(shù),N為一條蛋白質(zhì)序列中氨基酸片段的個數(shù),T為預(yù)先定義的蛋白質(zhì)功能調(diào)控模塊的個數(shù),w為某個已知(可觀測)的氨基酸片段,z為當(dāng)前氨基酸片段所屬的功能調(diào)控模塊,φ為特定功能模塊下氨基酸片段的多項分布,θ為一條蛋白質(zhì)序列在功能模塊中的概率分布,α和β是貝葉斯模型的先驗超參數(shù)。

      基于LDA模型,我們假設(shè)一條蛋白質(zhì)序列的生成過程如下:

      1. 根據(jù)Dirichlet先驗分布Dir(α)得到一條蛋白質(zhì)序列d的功能模塊(主題)分布θ。

      2. 對于蛋白質(zhì)序列d中的每個氨基酸片段w的產(chǎn)生:

      a) 根據(jù)多項分布Mul(z|θ)采樣一個功能模塊(主題)z。

      b) 根據(jù)功能模塊z和功能模塊下φ的多項分布Mul(w|z,φ)采樣一個氨基酸片段w。

      其中,θ表示了蛋白質(zhì)序列到功能模塊的分布,φ表示了在功能模塊下氨基酸片段的多項分布。通過引入這個概率生成模型,為我們帶來了兩個好處:1)實(shí)現(xiàn)了蛋白質(zhì)序列的低維表示(從原來的序列空間映射到功能模塊空間);2)抽取了蛋白質(zhì)序列集上以氨基酸片段為單位的功能模塊的挖掘,即主題空間。

      給定超參數(shù)α和β后,θ、z和w的聯(lián)合分布為:

      (1)

      對連續(xù)變量θ和離散變量z分別積分求和,得到蛋白質(zhì)序列向量w的邊緣分布:

      (2)

      在這個概率圖模型中,求解問題是一個非常復(fù)雜的最優(yōu)化問題,這里我們用Gibbs采樣的方法近似迭代求解[12]。Gibbs采樣的基本思想是:給定一個多維變量的分布,相比于對于聯(lián)合分布積分,從條件分布中采樣更簡單。假設(shè)要從一個聯(lián)合分布概率p(x0,x1, …,xn)中獲得K個樣本X={x0,x1, …,xn}的兩個步驟為:

      1. 隨機(jī)初始化每個變量獲得X(0);

      在基于LDA模型的Gibbs采樣求解中,從公式(1)中變量的聯(lián)合分布,可以推導(dǎo)出適合Gibbs采樣的氨基酸片段w和功能模塊(主題)T的全條件分布:

      (3)

      1.2網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)

      在蛋白質(zhì)相互作用網(wǎng)絡(luò)(簡稱蛋白質(zhì)網(wǎng)絡(luò))中,結(jié)構(gòu)與功能的相關(guān)性表現(xiàn)為蛋白質(zhì)在生物功能上的重要性和其在對應(yīng)節(jié)點(diǎn)所處拓?fù)湮恢弥g的密切聯(lián)系。Jeong[13]等在酵母蛋白質(zhì)網(wǎng)絡(luò)中發(fā)現(xiàn),節(jié)點(diǎn)度數(shù)小于5的蛋白質(zhì)集合中有21%是關(guān)鍵蛋白質(zhì),當(dāng)度數(shù)大于15時,集合中包含關(guān)鍵蛋白質(zhì)的比例上升為62%。這個研究結(jié)果表明,在蛋白質(zhì)網(wǎng)絡(luò)中擁有較多相鄰節(jié)點(diǎn)的蛋白質(zhì)的缺失更易于影響整個網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu),進(jìn)而對生命體產(chǎn)生致死或無法繁衍的效應(yīng),而這一效應(yīng)也符合對關(guān)鍵蛋白質(zhì)的定義。

      本文采用邊聚類系數(shù)ECC(Edge Clustering Coefficient)[14]來計算蛋白質(zhì)網(wǎng)絡(luò)中兩個節(jié)點(diǎn)的相關(guān)性。蛋白質(zhì)網(wǎng)絡(luò)可以被看作一個無向圖G=(V,E),其中V表示蛋白質(zhì)節(jié)點(diǎn)的集合,E表示蛋白質(zhì)之間相互作用邊的集合。對于連接節(jié)點(diǎn)u和v邊E,希望知道同時與u和v鄰接的點(diǎn)的個數(shù):

      (4)

      其中zu,v表示在網(wǎng)絡(luò)中包含邊E的三角形個數(shù),du和dv分別表示節(jié)點(diǎn)u和v的度數(shù)。這樣min(du-1,dv-1)表示可能包含邊E的三角形的最大個數(shù)。ECC值重新定義了加入了鄰接點(diǎn)信息后連接一條邊上兩個節(jié)點(diǎn)之間的距離,即邊在網(wǎng)絡(luò)中的重要性。ECC值高的邊更傾向于屬于網(wǎng)絡(luò)中小模塊結(jié)構(gòu),因此這個衡量方法在一些大規(guī)模復(fù)雜生物網(wǎng)絡(luò)中起到了聚類效應(yīng)[15,16]。Hart等[17]研究了蛋白質(zhì)網(wǎng)絡(luò)小模塊結(jié)構(gòu)及其對生命體的重要性,他們發(fā)現(xiàn)這些小模塊相比于蛋白質(zhì)個體,對生命體起到更關(guān)鍵的作用。同時,關(guān)鍵蛋白質(zhì)也傾向與聚集在特定的蛋白質(zhì)絡(luò)合物中(蛋白質(zhì)模塊)。

      1.3預(yù)測算法

      根據(jù)以上兩個核心算法思想,將關(guān)鍵蛋白質(zhì)預(yù)測算法的流程概括為圖2所示。其中相似度計算是衡量算法模型最關(guān)鍵的步驟,這里,利用加權(quán)的蛋白質(zhì)序列信息和蛋白質(zhì)網(wǎng)絡(luò)信息量化蛋白質(zhì)之間的相似程度,蛋白質(zhì)u和蛋白質(zhì)v的相似度sim(u,v)定義為:

      sim(u,v)=λ×ECC(u,v)+(1-λ)×

      (1-DKL(u,v))

      (5)

      圖2 關(guān)鍵蛋白質(zhì)預(yù)測流程圖

      其中ECC(u,v)為蛋白質(zhì)u和v在蛋白質(zhì)互作用網(wǎng)絡(luò)中的邊聚類系數(shù);DKL(u,v)為蛋白質(zhì)u和蛋白質(zhì)v在序列特征上的相對熵(又稱為KL距離,Kullback-Leibler divergence),衡量了蛋白質(zhì)序列主題分布的差異,這里采用了正規(guī)化后的KL距離;λ為調(diào)節(jié)蛋白質(zhì)序列特征和PPI拓?fù)涮匦员戎氐膮?shù),即取值在[0, 1]區(qū)間的權(quán)重系數(shù)。ECC(u,v)值越高,表示連接兩個節(jié)點(diǎn)的邊在網(wǎng)絡(luò)的小模塊結(jié)構(gòu)中越傾向于中心地位。1-DKL(u,v)越大,表示蛋白質(zhì)序列u和v的主題分布之間的KL距離越近,差異程度越小。因此,sim(u,v)值越大,蛋白質(zhì)u和蛋白質(zhì)v的重要程度越相似。每次選取與關(guān)鍵蛋白質(zhì)集合p最相似的蛋白質(zhì)為預(yù)測的關(guān)鍵蛋白質(zhì),并把預(yù)測的關(guān)鍵蛋白質(zhì)加入到已知關(guān)鍵蛋白質(zhì)集合:

      (6)

      p=p∪{u|max{p(u),u∈Np}}

      (7)

      其中Np為關(guān)鍵蛋白質(zhì)集合p在蛋白質(zhì)網(wǎng)絡(luò)中所有鄰居節(jié)點(diǎn)集合。算法的初始階段,關(guān)鍵蛋白質(zhì)集合p用均勻分布隨機(jī)采樣的方式從已知關(guān)鍵蛋白質(zhì)集合中生成。

      2 實(shí)驗與結(jié)果分析

      本文利用酵母的蛋白質(zhì)序列數(shù)據(jù)和蛋白質(zhì)相互作用網(wǎng)絡(luò)來預(yù)測關(guān)鍵蛋白質(zhì),并對預(yù)測結(jié)果做出分析和評價。

      2.1數(shù)據(jù)集及預(yù)處理

      酵母的蛋白質(zhì)數(shù)據(jù)集具有可靠性高,數(shù)據(jù)完備的特點(diǎn),因此實(shí)驗以酵母蛋白質(zhì)數(shù)據(jù)集作為研究對象。其中,酵母蛋白質(zhì)序列數(shù)據(jù)來自于S. cerevisiae strain S288C[18]。酵母蛋白質(zhì)相互作用網(wǎng)絡(luò)采用兩個高可信數(shù)據(jù)庫:DIP數(shù)據(jù)庫[19]和BioGRID數(shù)據(jù)庫[20]。

      酵母序列數(shù)據(jù)包含6713條蛋白質(zhì)序列。酵母蛋白質(zhì)相互作用數(shù)據(jù)集在預(yù)處理過程中首先移除物種間相互作用,只保留物理相互作用。蛋白質(zhì)相互作用數(shù)據(jù)集中,DIP數(shù)據(jù)庫下載的蛋白質(zhì)網(wǎng)絡(luò)共包含4860個節(jié)點(diǎn)和22 138條相互作用邊,BioGRID數(shù)據(jù)庫下載的BIOGRID蛋白質(zhì)網(wǎng)絡(luò)包括5877個節(jié)點(diǎn)和84 686條相互作用邊。關(guān)鍵蛋白質(zhì)數(shù)據(jù)是通過整合以下四個數(shù)據(jù)庫:MIPS[24]、SGD[25]、DEG[26]和SGDP[27]的數(shù)據(jù)而來,包含1274個關(guān)鍵蛋白質(zhì)。

      對于蛋白質(zhì)序列的預(yù)處理過程,首先根據(jù)氨基酸的偶極子和側(cè)鏈的體積特性,將20種基本氨基酸分成7類[10]。如表1所示,對于特殊氨基酸,例如X、B和U,分到第6類中。

      表1 氨基酸分類

      例如,一條蛋白質(zhì)序列P的氨基酸殘基片段為:

      P=MVLTIYPD…

      這里,每個字母表示氨基酸殘基的字母符號。根據(jù)表1的分類規(guī)則,原始氨基酸殘基替換為類別標(biāo)簽后為:

      P=C3C1C2C3C2C3C2C6…

      再將替換后的序列以長度為3的滑動窗口切割。這樣,我們就得到了73(73=343)的片段空間,并且原始的每條蛋白質(zhì)序列被分成若干片段組合。

      2.2評價方法

      為了評價算法在酵母數(shù)據(jù)集中的關(guān)鍵蛋白質(zhì)預(yù)測性能,引入主題信息的關(guān)鍵蛋白質(zhì)預(yù)測算法與2014年Min Li[21]等人提出的利用蛋白質(zhì)網(wǎng)絡(luò)中心性拓?fù)湫再|(zhì)預(yù)測關(guān)鍵蛋白質(zhì)的CPPK算法、新的中心性測度方法NC(New Centrality Measure)[14]及基于局部平均連接度的方法LAC(Local Average Connectivity based method)[22]進(jìn)行橫向比較。同時,對不同數(shù)目的功能模塊(主題)以及不同的相似度權(quán)重λ的選取對預(yù)測算法結(jié)果的影響進(jìn)行縱向分析比較。

      本文采用文獻(xiàn)[21]定義的預(yù)測算法精確度:

      (8)

      這里,預(yù)測方法Mi對預(yù)測結(jié)果集C的精確度為:預(yù)測結(jié)果集與真實(shí)集合Ve的交集在預(yù)測結(jié)果集中所占的比例。

      同時,本文使用ROC(Receive Operating Characteristic)曲線和ROC曲線下的面積AUC值(Area Under Curve)兩個指標(biāo)來綜合衡量預(yù)測算法。 在ROC曲線中,縱坐標(biāo)為敏感度(Sensitivity)或真陽性率TPR(True Positive Rate),橫坐標(biāo)為特異性(Specificity)或真陰性率TNR(True Negative Rate):

      在二分類模型中,TP表示真陽性,F(xiàn)P表示偽陽性,TN表示真陰性,F(xiàn)N表示偽陰性。ROC和AUC常被用來評價一個二值分類器的優(yōu)劣,在ROC曲線中,計算不同的權(quán)重下預(yù)測結(jié)果的真陽性在假陽性中的比重。因此ROC曲線越靠近坐標(biāo)系左上角,預(yù)測算法越好,同理AUC的值越大,預(yù)測算法準(zhǔn)確率越高。

      2.3實(shí)驗結(jié)果分析

      在酵母蛋白質(zhì)序列數(shù)據(jù)集中一共包含6713條序列,其中1256條關(guān)鍵蛋白質(zhì),5457條其他蛋白質(zhì)(包括非關(guān)鍵蛋白質(zhì)和未知類型蛋白質(zhì))??梢钥闯觯鎸?shí)數(shù)據(jù)集中正樣本(關(guān)鍵蛋白質(zhì))和負(fù)樣本(其他蛋白質(zhì))比例不平衡。

      在蛋白質(zhì)序列數(shù)據(jù)集和PPI網(wǎng)絡(luò)數(shù)據(jù)集上計算了主題數(shù)從20到100,步長為20,相似權(quán)重λ從0到1,步長為0.1的設(shè)定下,由100個已知的初始關(guān)鍵蛋白質(zhì)從數(shù)據(jù)集中預(yù)測100個新的關(guān)鍵蛋白質(zhì)的精確度,如表2所示為算法在DIP網(wǎng)絡(luò)上的精確度。其中,當(dāng)主題數(shù)目為20,λ為0.2時,預(yù)測算法的精確度最高,達(dá)到82%。算法在λ等于0.1和0.2時,預(yù)測精確度最高,平均分別為:71.8%和72.5%。并且根據(jù)精確度曲線走向可以看出,算法在不同主題數(shù)目和權(quán)重向量λ下,精確度保持平穩(wěn)的趨勢,雖然最低的精確度只有59.0%,但是由于數(shù)據(jù)集的不平衡(隨機(jī)方法預(yù)測關(guān)鍵蛋白質(zhì)的準(zhǔn)確度為18.7%),在最差的預(yù)測結(jié)果下算法仍然可以選出一半的關(guān)鍵蛋白質(zhì)。表3為算法在BIOGRID網(wǎng)絡(luò)上的精確度。其中,當(dāng)主題數(shù)目為40,λ為0.3時,預(yù)測算法的精確度最高達(dá)到73.5%。在BIOGRID網(wǎng)絡(luò)上的整體精確度比DIP網(wǎng)絡(luò)要差一些,分析原因可能是由于BIOGRID網(wǎng)絡(luò)規(guī)模更大。由于預(yù)測使用的100個已知關(guān)鍵蛋白質(zhì)和預(yù)測出的100個潛在關(guān)鍵蛋白質(zhì)較網(wǎng)絡(luò)5877個節(jié)點(diǎn)的數(shù)據(jù)規(guī)模差距很大,并且5877個蛋白質(zhì)中最多只有1256條關(guān)鍵蛋白質(zhì)。樣本的不平衡性及預(yù)測數(shù)據(jù)整體的不均衡性,使得預(yù)測算法受網(wǎng)絡(luò)規(guī)模影響,網(wǎng)絡(luò)規(guī)模越大,預(yù)測算法準(zhǔn)確率可能越低。

      表2 DIP網(wǎng)絡(luò)不同權(quán)重和主題數(shù)目下的預(yù)測精確度

      表3 BIOGRID網(wǎng)絡(luò)不同權(quán)重和主題數(shù)目下的預(yù)測精確度

      其次,由于在計算相似度時加權(quán)結(jié)合了序列信息和網(wǎng)絡(luò)拓?fù)湫畔?,因此橫向比較了單獨(dú)使用序列信息(λ為0時,只采用主題模型信息)和單獨(dú)使用網(wǎng)絡(luò)拓?fù)湫畔?λ為1時,只采用CPPK網(wǎng)絡(luò)中心度信息)時的預(yù)測精度。如圖3所示,表示DIP網(wǎng)絡(luò)上主題模型與網(wǎng)絡(luò)拓?fù)涞膶Ρ葓D,圖4表示BIOGRID網(wǎng)絡(luò)上主題模型與網(wǎng)絡(luò)拓?fù)涞膶Ρ葓D,其中橫坐標(biāo)為主題個數(shù),縱坐標(biāo)為預(yù)測精確度。不難看出,只利用蛋白質(zhì)序列主題信息對關(guān)鍵蛋白質(zhì)預(yù)測優(yōu)于單純使用CPPK算法的關(guān)鍵蛋白質(zhì)預(yù)測算法。這里,在每組對比實(shí)驗中,使用相同的初始化已知關(guān)鍵蛋白質(zhì)種子集合,例如,在主題數(shù)目為10的Topic Model與CPPK算法初始化使用相同的已知關(guān)鍵蛋白質(zhì)集合。對于不同組的實(shí)驗中(主題數(shù)目不同的實(shí)驗中),由于隨機(jī)產(chǎn)生初始化已知關(guān)鍵蛋白質(zhì),所以不同組實(shí)驗的初始化已知關(guān)鍵蛋白質(zhì)集合不同。

      圖3 DIP網(wǎng)絡(luò)主題模型信息與網(wǎng)絡(luò)拓?fù)湫畔㈩A(yù)測精確度

      圖4 BIOGRID網(wǎng)絡(luò)主題模型與網(wǎng)絡(luò)拓?fù)湫畔㈩A(yù)測精確度

      表4列舉總結(jié)了在DIP網(wǎng)絡(luò)中每個主題數(shù)目下最高的預(yù)測精確度及其對應(yīng)的λ。根據(jù)表4的統(tǒng)計,我們發(fā)現(xiàn)在DIP網(wǎng)絡(luò)中相似權(quán)重λ在不同主題下對精確度的影響基本穩(wěn)定在[0.1,0.3]。表5列舉了在BIOGRID網(wǎng)絡(luò)中相似權(quán)重λ在不同主題下對精確度的影響基本穩(wěn)定在[0.0, 0.3]區(qū)間內(nèi)。由兩個網(wǎng)絡(luò)的統(tǒng)計結(jié)果看來,蛋白質(zhì)的序列結(jié)構(gòu)和網(wǎng)絡(luò)拓?fù)湫畔⒌慕Y(jié)合對關(guān)鍵蛋白質(zhì)的預(yù)測精確度具有穩(wěn)定比例。

      表4 DIP不同主題下最高預(yù)測精確度

      表5 BIOGRID網(wǎng)絡(luò)不同主題下最高預(yù)測精確度

      本文將引入主題信息的改進(jìn)的CPPK關(guān)鍵蛋白質(zhì)預(yù)測算法:基于主題模型和網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的關(guān)鍵蛋白質(zhì)預(yù)測算TMNT與原有的CPPK預(yù)測算法進(jìn)行了比較。圖5為兩種算法在DIP蛋白質(zhì)網(wǎng)絡(luò)數(shù)據(jù)與蛋白質(zhì)序列數(shù)據(jù)集上的精確度比較結(jié)果,圖6為兩個算法在BIOGRID蛋白質(zhì)網(wǎng)絡(luò)數(shù)據(jù)與蛋白質(zhì)序列數(shù)據(jù)集上的精確度比較結(jié)果,其中TMNT算法的精確度選擇每個主題下λ為0.2對應(yīng)的精確度。

      圖5 DIP網(wǎng)絡(luò)TMNP和CPPK算法預(yù)測精確度比較

      圖6 BIOGRID網(wǎng)絡(luò)TMNP和CPPK算法預(yù)測精確度比較

      為了驗證關(guān)鍵蛋白質(zhì)序列在主題分布上具有一定的相似性,這里,我們只利用序列主題信息來計算兩個蛋白質(zhì)之間的相似度(即式(5)中ECC的權(quán)重系數(shù)λ設(shè)為0)。我們選取了與初始關(guān)鍵蛋白質(zhì)集合主題分布最相似的5個潛在關(guān)鍵蛋白質(zhì):YGR116W、YNR016C、YHR165、YLR106C、YOR116。并把這5個預(yù)測關(guān)鍵蛋白質(zhì)在BIOGRID蛋白質(zhì)相互作用網(wǎng)絡(luò)中可視化出來,如圖7所示。在BIOGRID網(wǎng)絡(luò)中,抽取出包含這5個節(jié)點(diǎn)的所有邊構(gòu)成子圖。抽取的子圖中包含了273個節(jié)點(diǎn)和310條相互作用邊。可以看出,子圖中這5個節(jié)點(diǎn)的度數(shù)較其他節(jié)點(diǎn)高,具有明顯的中心性傾向。因此,利用主題信息預(yù)測的關(guān)鍵蛋白質(zhì)在對應(yīng)物種的PPI網(wǎng)絡(luò)中體現(xiàn)出了重要的生物調(diào)控意義。

      圖7 利用主題信息預(yù)測關(guān)鍵蛋白質(zhì)在gcc-BIOGRID網(wǎng)絡(luò)中的可視化

      最后,如圖8所示,利用ROC曲線及其對應(yīng)的AUC值綜合測量了基于主題模型和網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的關(guān)鍵蛋白質(zhì)預(yù)測算TMNT算法。并將其和2014年提出的CPPK[21]關(guān)鍵蛋白質(zhì)預(yù)測算法,以及其他兩種常用的關(guān)鍵蛋白質(zhì)預(yù)測算法:基于局部平均連接度的方法LAC和網(wǎng)絡(luò)中心度方法NC進(jìn)行綜合比較。圖8中比較了利用隨機(jī)選取的100個初始關(guān)鍵蛋白質(zhì)預(yù)測100個潛在關(guān)鍵蛋白質(zhì)在酵母蛋白質(zhì)數(shù)據(jù)上的預(yù)測結(jié)果。其中TMNP的AUC值為0.682,高于CPPK,NC和LAC的AUC值。TMNP的ROC曲線與其他三個識別算法的ROC曲線相比,也更加靠近坐標(biāo)系左上角。由此可見,TMNP算法的綜合性能優(yōu)于CPPK,NC和LAC關(guān)鍵蛋白質(zhì)識別算法,達(dá)到了比之前更好的識別效果。

      圖8 算法ROC曲線及AUC值

      3 結(jié) 語

      本文提出在已有的基于蛋白質(zhì)相互作用網(wǎng)對關(guān)鍵蛋白質(zhì)預(yù)測的算法上加入蛋白質(zhì)序列信息,用主題模型學(xué)習(xí)出蛋白質(zhì)序列的主題向量對原始蛋白質(zhì)序列進(jìn)行了基于氨基酸功能信息的特征提取,結(jié)合蛋白質(zhì)相互作用網(wǎng)的拓?fù)浣Y(jié)構(gòu)對關(guān)鍵蛋白質(zhì)進(jìn)行相似度計算,從而預(yù)測出潛在關(guān)鍵蛋白質(zhì)。

      該方法利用現(xiàn)有的統(tǒng)計學(xué)習(xí)理論和數(shù)據(jù)挖掘方法,從生物體的蛋白質(zhì)信息中預(yù)測發(fā)現(xiàn)關(guān)鍵蛋白質(zhì)從計算角度上解決了通過生物實(shí)驗尋找關(guān)鍵蛋白質(zhì)所需要的昂貴代價,并且為研究者們提供了新的生物信息探索途徑。

      本文序列信息的特征向量距離利用相對熵計算,而在機(jī)器學(xué)習(xí)領(lǐng)域,對特征向量的相似度計算方式有多種。在以后的工作中,可以嘗試結(jié)合序列向量特征比較其他的向量距離計算方法,從而選擇最優(yōu)的距離計算方式。除此之外,由于每個主題是氨基酸片段的多為分布,可以選取在每個主題下出現(xiàn)概率較大的部分氨基酸片段,分析它們在功能模塊調(diào)控中的關(guān)系,從而“翻譯”每個主題的生物意義,即每個主題可能對應(yīng)的蛋白質(zhì)功能調(diào)控模塊。

      [1] Winzeler E A, Shoemaker D D, Astromoff A, et al. Functional characterization of the S. cerevisiae genome by gene deletion and parallel analysis[J]. Science, 1999, 285(5429): 901-906.

      [2] Kamath R S, Fraser A G, Dong Y, et al. Systematic functional analysis of the Caenorhabditis elegans genome using RNAi[J]. Nature, 2003, 421(6920): 231-237.

      [3] Giaever G, Chu A M, Ni L, et al. Functional profiling of the Saccharomyces cerevisiae genome[J]. Nature, 2002, 418(6896): 387-391.

      [4] Cullen L M, Arndt G M. Genome-wide screening for gene function using RNAi in mammalian cells[J]. Immunology and Cell Biology, 2005, 83(3): 217-223.

      [5] Roemer T, Jiang B, Davison J, et al. Large-scale essential gene identification in candida albicans and applications to antifungal drug discovery[J]. Molecular Microbiology, 2003, 50(1): 167-181.

      [6] Wang J, Peng W, Wu F X. Computational approaches to predicting essential proteins: a survey[J]. PROTEOMICS-Clinical Applications, 2013, 7(1-2): 181-192.

      [7] Blei D M, Ng A Y, Jordan M I. Latent dirichlet allocation[J]. The Journal of Machine Learning Research, 2003, 3: 993-1022.

      [8] Wang H, Ding Y, Tang J, et al. Finding complex biological relationships in recent PubMed articles using Bio-LDA[J]. PLoS One, 2011, 6(3): e17243.

      [9] Zhang J, Liu B, He J, et al. Inferring functional miRNA-mRNA regulatory modules in epithelial-mesenchymal transition with a probabilistic topic model[J]. Computers in Biology and Medicine, 2012, 42(4): 428-437.

      [10] Pan X Y, Zhang Y N, Shen H B. Large-Scale Prediction of Human Protein—Protein Interactions from Amino Acid Sequence Based on Latent Topic Features[J]. Journal of Proteome Research, 2010, 9(10): 4992-5001.

      [11] Tatsuya Asou, Koji Eguchi. Predicting protein-protein relationships from literature using latent topics[J]. Genome Inform, 2009,23(1):3-12.

      [12] Griffiths T L, Steyvers M. Finding scientific topics[J]. Proceedings of the National Academy of Sciences, 2004, 101(1): 5228-5235.

      [13] Jeong H, Mason S P, Barabási A L, et al. Lethality and centrality in protein networks[J]. Nature, 2001, 411(6833): 41-42.

      [14] Wang J, Li M, Wang H, et al. Identification of essential proteins based on edge clustering coefficient[J]. IEEE/ACM Transactions on Computational Biology and Bioinformatics, 2012, 9(4): 1070-1080.

      [15] Hao D, Ren C, Li C. Revisiting the variation of clustering coefficient of biological networks suggests new modular structure[J]. BMC Systems Biology, 2012, 6(1): 34.

      [16] Li M, Zhang H, Wang J, et al. A new essential protein discovery method based on the integration of protein-protein interaction and gene expression data[J]. BMC Systems Biology, 2012, 6(1): 15.

      [17] Hart G T, Lee I, Marcotte E M. A high-accuracy consensus map of yeast protein complexes reveals modular nature of gene essentiality[J]. BMC Bioinformatics, 2007, 8(1): 236.

      [18] Engel S R, Dietrich F S, Fisk D G, et al. The reference genome sequence of saccharomyces cerevisiae: then and now[J]. G3: Genes, Genomes, Genetics, 2014, 4(3): 389-398.

      [19] Xenarios I, Rice D W, Salwinski L, et al. DIP: the database of interacting proteins[J]. Nucleic Acids Research, 2000, 28(1): 289-291.

      [20] Stark C, Breitkreutz B J, Chatr-Aryamontri A, et al. The BioGRID interaction database: 2011 update[J]. Nucleic Acids Research, 2011, 39(1): 698-704.

      [21] Li M, Zheng R, Zhang H, et al. Effective identification of essential proteins based on priori knowledge, network topology and gene expressions[J]. Methods, 2014, 67(3): 325-333.

      [22] Li M, Wang J, Chen X, et al. A local average connectivity-based method for identifying essential proteins from the network level[J]. Computational Biology and Chemistry, 2011, 35(3): 143-150.

      [23] Deshwar A G, Morris Q. PLIDA: cross-platform gene expression normalization using perturbed topic models[J]. Bioinformatics, 2014, 30(7):956-961.

      [24] Mewes H W, Frishman D, Mayer K F X, et al. MIPS: analysis and annotation of proteins from whole genomes in 2005[J]. Nucleic Acids Research, 2006, 34(1):169-172.

      [25] Cherry J M, Adler C, Ball C, et al. SGD: Saccharomyces genome database[J]. Nucleic Acids Research, 1998, 26(1):73-79.

      [26] Zhang R, Lin Y. DEG 5.0: a database of essential genes in both prokaryotes and eukaryotes[J]. Nucleic Acids Research, 2009, 37(1):455-458.

      [27] Saccharomyces Genome Deletion Project[OL]. http://www-sequence.stanford. edu/group/.

      IDENTIFYING ESSENTIAL PROTEINS BY INTEGRATING TOPIC FEATURES AND INTERACTION NETWORKS TOPOLOGICAL FEATURES

      Cui XinShao Mingyu

      (SchoolofComputerScience,FudanUniversity,Shanghai200433,China)

      Essential proteins are those proteins that are indispensable to the viability and reproduction of an organism. Identification and prediction of essential proteins has great significance for us to understand the minimal protein sets required for organism life, besides it also plays important role in the fields of drug design and drug target discovery. Most existing essential proteins identification algorithms are based on the topological features of protein-protein interaction networks. This work introduces a new feature into the identification algorithm proposed, which considers the topic distribution feature of essential proteins’ sequences themselves. By introducing LDA model into CPPK algorithm, which is based on topological features of protein-protein interaction networks, we proposed a new essential protein identification method: the essential proteins identification integrating topic model and protein-protein interaction networks topological features. This new algorithm was tested on Saccharomyces protein dataset, and was compared with some state-of-art essential proteins identification algorithms. Experimental result showed that by introducing LDA model and new features to improve original CPPK prediction algorithm, better identification performance than previous algorithm was achieved.

      Topic modelCentrality measureProtein-protein interaction networkEssential protein

      2015-04-20。崔鑫,碩士生,主研領(lǐng)域:數(shù)據(jù)挖掘,生物信息學(xué)。邵明玉,博士生。

      TP3

      A

      10.3969/j.issn.1000-386x.2016.08.063

      猜你喜歡
      網(wǎng)絡(luò)拓?fù)?/a>精確度關(guān)鍵
      基于通聯(lián)關(guān)系的通信網(wǎng)絡(luò)拓?fù)浒l(fā)現(xiàn)方法
      高考考好是關(guān)鍵
      研究核心素養(yǎng)呈現(xiàn)特征提高復(fù)習(xí)教學(xué)精確度
      “硬核”定位系統(tǒng)入駐兗礦集團(tuán),精確度以厘米計算
      電子制作(2018年23期)2018-12-26 01:01:16
      勞斯萊斯古斯特與魅影網(wǎng)絡(luò)拓?fù)鋱D
      電測與儀表(2016年5期)2016-04-22 01:13:46
      獲勝關(guān)鍵
      NBA特刊(2014年7期)2014-04-29 00:44:03
      生意無大小,關(guān)鍵是怎么做?
      中國商人(2013年1期)2013-12-04 08:52:52
      近似數(shù)1.8和1.80相同嗎
      阿拉善右旗| 商城县| 台山市| 大名县| 明溪县| 安陆市| 邮箱| 石楼县| 巢湖市| 石泉县| 玛沁县| 贺兰县| 平谷区| 玉屏| 合作市| 伊宁县| 绥德县| 白银市| 抚宁县| 荃湾区| 雅江县| 万载县| 淳安县| 新绛县| 吕梁市| 任丘市| 麻栗坡县| 开封市| 徐汇区| 阿鲁科尔沁旗| 梁河县| 黔西| 名山县| 建瓯市| 香港 | 新乡县| 壤塘县| 东港市| 华坪县| 和龙市| 应城市|