• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于圖嵌入與拓?fù)浣Y(jié)構(gòu)信息的蛋白質(zhì)復(fù)合物識(shí)別算法*

      2021-06-25 09:46:10徐周波劉華東
      關(guān)鍵詞:子圖精準(zhǔn)度復(fù)合物

      徐周波,李 萍,劉華東,李 珍

      (桂林電子科技大學(xué)廣西可信軟件重點(diǎn)實(shí)驗(yàn)室,廣西 桂林 541004)

      1 引言

      蛋白質(zhì)復(fù)合物作為大分子組裝體,在細(xì)胞穩(wěn)態(tài)、生長(zhǎng)和增殖所必需的多種生化活動(dòng)中發(fā)揮著重要作用[1]。蛋白質(zhì)復(fù)合物是生化體制和細(xì)胞結(jié)構(gòu)的研究基礎(chǔ),因此,蛋白質(zhì)復(fù)合物的識(shí)別成為近年來(lái)的研究熱點(diǎn)。

      目前蛋白質(zhì)復(fù)合物識(shí)別技術(shù)主要分為2類:(1)基于實(shí)驗(yàn)的蛋白質(zhì)復(fù)合物識(shí)別技術(shù);(2) 基于計(jì)算方法的蛋白質(zhì)復(fù)合物識(shí)別技術(shù)?;趯?shí)驗(yàn)的蛋白質(zhì)復(fù)合物識(shí)別技術(shù)主要根據(jù)實(shí)驗(yàn)結(jié)果識(shí)別蛋白質(zhì)復(fù)合物,如免疫共沉淀[2,3]和雙雜交系統(tǒng)[4,5],但其通常耗時(shí)較長(zhǎng)且需高水平的專業(yè)知識(shí)作為基礎(chǔ)。為克服基于實(shí)驗(yàn)的蛋白質(zhì)復(fù)合物識(shí)別技術(shù)的缺點(diǎn),研究者們提出了多種基于計(jì)算方法的蛋白質(zhì)復(fù)合物識(shí)別技術(shù)?;谟?jì)算方法的蛋白質(zhì)復(fù)合物識(shí)別技術(shù)的基本思想是從蛋白質(zhì)相互作用PPI(Protein-Protein Interaction) 網(wǎng)絡(luò)中識(shí)別呈現(xiàn)蛋白質(zhì)復(fù)合物某些典型特性的簇。因此,PPI網(wǎng)絡(luò)通常建模為圖的形式,其中圖的節(jié)點(diǎn)表示蛋白質(zhì),邊表示蛋白質(zhì)間的相互作用。蛋白質(zhì)復(fù)合物的識(shí)別問題可以歸結(jié)為一個(gè)傳統(tǒng)的圖聚類問題,由此產(chǎn)生的子圖聚類被視為感興趣的蛋白質(zhì)復(fù)合物。Nepusz等[6]提出了聚類算法ClusterONE用于從PPI網(wǎng)絡(luò)中發(fā)現(xiàn)重疊蛋白質(zhì)復(fù)合物。ClusterONE可有效識(shí)別重疊蛋白質(zhì)復(fù)合物,并采用最大匹配率MMR(Maximum Matching Rate)來(lái)評(píng)估算法的復(fù)雜度,該算法精準(zhǔn)度和敏感度較低。Liu等[7]提出了一種基于最大團(tuán)的聚類算法CMC (Clustering-based on Maximal Cliques),利用最大團(tuán)簇從加權(quán)PPI網(wǎng)絡(luò)中發(fā)現(xiàn)復(fù)合群。CMC使用迭代評(píng)分的方法為蛋白質(zhì)對(duì)分配權(quán)重,可以改善其他蛋白質(zhì)復(fù)合物預(yù)測(cè)方法的性能,減少隨機(jī)噪聲的影響。CMC算法提高了識(shí)別蛋白質(zhì)復(fù)合物的精準(zhǔn)度,但對(duì)小規(guī)模復(fù)合物檢測(cè)能力較差,且敏感度較低。Wang等[8]提出了一種快速分層聚類算法HC-PIN。HC-PIN對(duì)假陽(yáng)性具有魯棒性,并且可以發(fā)現(xiàn)低密度的功能模塊。HC-PIN算法雖然也提高了識(shí)別蛋白質(zhì)復(fù)合物的精準(zhǔn)度,但其同樣存在敏感度低的問題。Wu等[9]提出的COACH算法考慮到蛋白質(zhì)復(fù)合物的拓?fù)浣Y(jié)構(gòu),先檢測(cè)出核心蛋白質(zhì),然后將附屬蛋白質(zhì)連接到核心蛋白質(zhì)上。該算法考慮到了蛋白質(zhì)結(jié)構(gòu)上的特點(diǎn),一定程度上提高了預(yù)測(cè)的準(zhǔn)確性。Zhao等[10]用不確定圖模型建模PPI網(wǎng)絡(luò),提出了一種基于不確定圖模型的蛋白質(zhì)復(fù)合物算法DCU (Detecting Complex based on Uncertain graph model),改善了COACH算法,進(jìn)一步提高了預(yù)測(cè)的準(zhǔn)確性。

      由于非監(jiān)督學(xué)習(xí)算法的隨機(jī)特性會(huì)在一定程度上影響算法識(shí)別結(jié)果,因此近年來(lái)監(jiān)督學(xué)習(xí)算法也逐漸被用于蛋白質(zhì)復(fù)合物的識(shí)別。這類算法通過提取樣本特征克服非監(jiān)督的隨機(jī)性,并將特征放入分類器中訓(xùn)練,最終得出具有一定準(zhǔn)確性的分類器。其分類效果的好壞主要依賴于提取的特征能否較好地反映出蛋白質(zhì)復(fù)合物的真實(shí)特性。然而,監(jiān)督學(xué)習(xí)算法的特征通常都是人為構(gòu)造的,其準(zhǔn)確性和完整性有待考量。

      針對(duì)傳統(tǒng)算法存在敏感度和F-measure低以及現(xiàn)有監(jiān)督學(xué)習(xí)算法中特征構(gòu)造不完備等不足,近年來(lái)許多利用圖嵌入進(jìn)行蛋白質(zhì)復(fù)合物識(shí)別的方法應(yīng)運(yùn)而生。圖嵌入的方法將圖轉(zhuǎn)換為向量的形式進(jìn)行處理,并且同時(shí)保留了圖的局部和全局信息,使得蛋白質(zhì)復(fù)合物的識(shí)別更加容易和準(zhǔn)確。Xu等[11]提出了一種基于從GO知識(shí)庫(kù)中學(xué)習(xí)蛋白質(zhì)復(fù)合物向量的復(fù)合物識(shí)別算法GANE。該算法利用AANE[12]模型來(lái)學(xué)習(xí)復(fù)合物的向量表示,基于此向量構(gòu)造加權(quán)鄰接矩陣并利用團(tuán)挖掘的算法來(lái)進(jìn)行復(fù)合物的識(shí)別。Yao等[13]首先將蛋白質(zhì)以功能不同的標(biāo)準(zhǔn)分組,利用node2vec[14]方法將蛋白質(zhì)轉(zhuǎn)換為向量表示,構(gòu)造相似度矩陣,并利用聚類算法來(lái)進(jìn)行蛋白質(zhì)復(fù)合物的識(shí)別。本文提出的graph2vec-SVM與復(fù)合物拓?fù)浣Y(jié)構(gòu)信息相結(jié)合的搜索方法,利用graph2vec[15]將圖轉(zhuǎn)換為向量并結(jié)合SVM分類器來(lái)進(jìn)行蛋白質(zhì)復(fù)合物的識(shí)別,不僅克服了非監(jiān)督學(xué)習(xí)算法的隨機(jī)性,還解決了監(jiān)督學(xué)習(xí)構(gòu)造特征不完備等問題,有效彌補(bǔ)了傳統(tǒng)算法和監(jiān)督學(xué)習(xí)算法的不足。同時(shí),相較于文獻(xiàn)[14]利用node2vec將復(fù)合物中每個(gè)節(jié)點(diǎn)轉(zhuǎn)換為向量表示,graph2vec將整個(gè)圖轉(zhuǎn)換為向量表示的做法更加便于計(jì)算。通過實(shí)驗(yàn)分析,該算法有較好的敏感度,在準(zhǔn)確度和F-measure方面也顯示出良好的性能。

      2 相關(guān)知識(shí)介紹

      2.1 graph2vec

      PPI網(wǎng)絡(luò)通常建模為圖數(shù)據(jù)模型,圖的節(jié)點(diǎn)表示蛋白質(zhì),邊表示蛋白質(zhì)間的相互作用。圖數(shù)據(jù)模型是一個(gè)4元組G=(V,E,W,Lv),其中,V是節(jié)點(diǎn)集;E是邊集;W:E→[0,1]是權(quán)重分配函數(shù),它給每條邊賦予一個(gè)權(quán)重;Lv是節(jié)點(diǎn)標(biāo)簽分配函數(shù),它從標(biāo)簽集中選擇標(biāo)簽分配給節(jié)點(diǎn)。本文以節(jié)點(diǎn)度作為圖的標(biāo)簽,將PPI網(wǎng)絡(luò)建模為圖數(shù)據(jù)模型后利用graph2vec將圖轉(zhuǎn)換為向量。

      graph2vec是由Narayanan等[15]提出的一種圖嵌入(將圖轉(zhuǎn)換為向量)算法,該算法基于word2vec[16]和doc2vec[17]的思想,將整個(gè)圖作為文檔,圖的根子圖作為文檔中的詞,通過訓(xùn)練淺層神經(jīng)網(wǎng)絡(luò)后最終得到整個(gè)圖的向量。其中,根子圖為圖的子樹模式,且子樹中允許出現(xiàn)相同的節(jié)點(diǎn)。例如,圖G(圖1a)的最大步長(zhǎng)為2的根子圖如圖1b所示。

      Figure 1 2-rooted subgraph

      graph2vec采用skipgram模型來(lái)學(xué)習(xí)圖的向量表示,如圖2所示。給定一個(gè)文檔集G={G1,G2,…,Gn}以及從文檔Gq∈G(1≤q≤n)中采樣的詞SG(Gq)={sg1,sg2,…,sgm},skipgram模型通過最大化式(1) 的似然函數(shù)得到文檔的向量表示。

      (1)

      Figure 2 skipgram model

      目前現(xiàn)有識(shí)別算法通常先將蛋白質(zhì)復(fù)合物建模為圖數(shù)據(jù)結(jié)構(gòu),再對(duì)其進(jìn)行特征提取,如圖的密度、節(jié)點(diǎn)個(gè)數(shù)和節(jié)點(diǎn)度統(tǒng)計(jì)等,并結(jié)合機(jī)器學(xué)習(xí)分類器進(jìn)行蛋白質(zhì)復(fù)合物的識(shí)別。由于這些特征是人為構(gòu)造的,其構(gòu)造特征的準(zhǔn)確性有待考量。graph2vec利用圖本身的特性(每個(gè)節(jié)點(diǎn)的根子圖),通過skipgram模型訓(xùn)練后得到的圖的向量表示能夠較準(zhǔn)確地保留原圖的信息,且能夠方便地利用機(jī)器學(xué)習(xí)分類器進(jìn)行后續(xù)的蛋白質(zhì)復(fù)合物識(shí)別。

      2.2 支持向量機(jī)

      支持向量機(jī)SVM(Support Vector Machine)是由Vapnik[18]提出的一種監(jiān)督學(xué)習(xí)二分類器。它的基本思想是擬合出一個(gè)最大化間隔的劃分超平面,使其能夠具有準(zhǔn)確的分類性能。

      SVM的劃分超平面可用如式(2)所示的線性方程描述:

      wTx+b=0

      (2)

      其中,x為分類樣本矩陣;w為法向量,決定了超平面的方向;b為位移量,決定了超平面與原點(diǎn)的距離。分類樣本標(biāo)簽yi為-1或+1,當(dāng)分類樣本xi能夠被正確分類時(shí),其滿足式(3):

      (3)

      其中,i表示分類樣本xi在分類樣本矩陣x中的索引,其取值為[0,M],M為分類樣本的總數(shù)。式(3)等價(jià)于:

      yi(wTxi+b)≥1

      (4)

      滿足yi(wTxi+b)=1的樣本稱為支持向量。2個(gè)異類支持向量到劃分超平面的距離之和稱為間隔,即:

      (5)

      最大化間隔γ即最小化w,求解

      s.t.yi(wTxi+b)≥1,i=1,2,…,M

      (6)

      求解出參數(shù)w和b后可得到最大化間隔超平面。

      式(6)可用拉格朗日乘子法轉(zhuǎn)換為對(duì)偶問題 ( Dual Problem )的求解,其最后的求解式變?yōu)椋?/p>

      (7)

      3 基于圖嵌入與拓?fù)浣Y(jié)構(gòu)信息的蛋白質(zhì)復(fù)合物識(shí)別算法

      3.1 graph2vec-SVM算法

      graph2vec-SVM算法將標(biāo)準(zhǔn)庫(kù)中的蛋白質(zhì)復(fù)合物以及隨機(jī)生成圖(非蛋白質(zhì)復(fù)合物)用graph2vec技術(shù)提取出每個(gè)節(jié)點(diǎn)的根子圖后,以式 (1) 作為目標(biāo)函數(shù),利用skipgram模型將圖轉(zhuǎn)換為向量,轉(zhuǎn)換后的向量即為SVM分類器的訓(xùn)練樣本集,然后開始訓(xùn)練SVM分類器。其主要過程如算法1所示。

      算法1graph2vec-SVM

      輸入:G={G1,G2,…,Gn},k,N,D,ep,l。

      輸出:model。

      1.T={};

      2.foreachGq∈G

      3. randomly generateNsubgraphs fromGqwith the same size asGq,regard them as negative samples and insert them intoT;

      4.T=T∪G;

      5.vectors=graph2vec(T,k,D,ep,l)

      6.model=SVM(vectors,labels);

      returnmodel

      算法1中,G為蛋白質(zhì)復(fù)合物的集合,k為根子圖的最大步長(zhǎng),N為對(duì)每個(gè)蛋白質(zhì)復(fù)合物生成隨機(jī)子圖的個(gè)數(shù),D為向量的維度,ep為graph2vec算法的迭代次數(shù),l為學(xué)習(xí)率。算法1第1~4行根據(jù)每個(gè)蛋白質(zhì)復(fù)合物隨機(jī)生成N個(gè)子圖作為負(fù)樣本,并將正負(fù)樣本加入訓(xùn)練集合T中。第5行將訓(xùn)練集T用graph2vec轉(zhuǎn)換為向量,第6行將向量和標(biāo)簽放入SVM分類器中,開始訓(xùn)練分類器。其中l(wèi)abels為樣本的標(biāo)簽,正樣本的標(biāo)簽為+1,負(fù)樣本的標(biāo)簽為-1。

      以圖1a為例,設(shè)最大步長(zhǎng)k為1,則由算法1對(duì)圖G提取每個(gè)節(jié)點(diǎn)的根子圖后,訓(xùn)練skipgram模型,最終得到圖G的向量表示V(G),如圖3所示。

      Figure 3 Steps of graph2vec

      3.2 構(gòu)造候選蛋白質(zhì)復(fù)合物

      蛋白質(zhì)復(fù)合物被認(rèn)為是PPI網(wǎng)絡(luò)中的稠密子圖,如何從PPI網(wǎng)絡(luò)中劃分出稠密子圖是蛋白質(zhì)復(fù)合物識(shí)別的關(guān)鍵。本文利用模塊度Q來(lái)衡量一個(gè)子圖c的稠密程度。子圖c的模塊度Q的定義如式(8)所示:

      (8)

      其中,Vc為子圖c中的節(jié)點(diǎn)集,Ec為子圖c中的邊集。weightin(c)=∑v,u∈VcP(u,v)u,v為子圖c中的節(jié)點(diǎn),P(u,v)為邊e=(u,v)的權(quán)重,e∈Ec。weightout(c)=∑v∈Vc,u?VcP(u,v),u為子圖c中的節(jié)點(diǎn),v不為子圖c中的節(jié)點(diǎn),P(u,v)為邊e=(u,v)的權(quán)重,e?Ec。δ為模塊校正參數(shù),可用于代表所預(yù)測(cè)復(fù)合物中暫未發(fā)現(xiàn)的蛋白質(zhì),同時(shí)也可用于消除噪聲。Vapnik[18]通過實(shí)驗(yàn)分析,δ取值為PPI網(wǎng)絡(luò)平均度的一半時(shí)效果最佳。由式(8) 計(jì)算得到子圖c的模塊度,若簇邊界內(nèi)的邊權(quán)值總和大于其邊界外的邊權(quán)值總和,即:

      則稱子圖c為稠密子圖。

      由于蛋白質(zhì)復(fù)合物是稠密子圖,在PPI網(wǎng)絡(luò)中從度較大的節(jié)點(diǎn)開始搜索候選蛋白質(zhì)復(fù)合物,將會(huì)更快搜索到稠密子圖,因此本文首先考慮選取節(jié)點(diǎn)度大于平均度的節(jié)點(diǎn)作為種子節(jié)點(diǎn)。由種子節(jié)點(diǎn)開始,向外擴(kuò)散搜索構(gòu)造子圖,并計(jì)算該子圖的模塊度,直至其模塊度達(dá)到最大,將其加入候選集中。獲取蛋白質(zhì)復(fù)合物候選集合candidate_set的具體過程如算法2所示。獲取候選集合后,將候選集合中的蛋白質(zhì)復(fù)合物轉(zhuǎn)換為向量即可用graph2vec-SVM模型進(jìn)行識(shí)別分類。

      算法2getcandidate_set

      輸入:PPI networkG=(V,E,W,Lv)。

      輸出:candidate_set。

      1.fornodev∈V/*獲取種子節(jié)點(diǎn)集合,種子節(jié)點(diǎn)為度大于平均度的節(jié)點(diǎn)*/

      2.ifdegree ofvmore than average degree ofG,insertvinto the set seed/*由種子節(jié)點(diǎn)開始構(gòu)造候選蛋白質(zhì)復(fù)合物*/

      3.fors∈seed

      4.c={s};Q(c)=0;

      5.Nv(s)//computing the neighbors ofs

      6.foreachnoden∈Nv(s)

      7.c′=c∪{n};

      8. computeQ(c′);//計(jì)算子圖模塊度

      9.ifQ(c′) ≥Q(c)

      10.c=c′;

      11. insertcintocandidate_set;

      12.returncandidate_set

      算法2在執(zhí)行過程中可能會(huì)因?yàn)閺?fù)合物高度重合而造成冗余。本文將候選蛋白質(zhì)復(fù)合物間重合度大于0.7[19]的復(fù)合物認(rèn)為是重合的,重合度計(jì)算方法如式(9)所示(即重合度為復(fù)合物A和復(fù)合物B共有節(jié)點(diǎn)個(gè)數(shù)與復(fù)合物A節(jié)點(diǎn)個(gè)數(shù)和復(fù)合物B節(jié)點(diǎn)個(gè)數(shù)乘積的比值),并剔除模塊度小的復(fù)合物。

      OS(A,B)=|A∩B|2/(|A|×|B|)

      (9)

      去重算法過程如算法3所示。

      算法3get finalcandidate_set

      輸入:candidate_set。

      1.forc∈candidate_set

      2.ifSize(c) < 2//丟棄規(guī)模小于2的子圖

      3. removecfromcandidate_set;

      4.forA∈candidate_set

      5.forB∈candidate_set

      //計(jì)算蛋白質(zhì)復(fù)合物間的重合度

      6.ifOS(A,B) > 0.7

      //保留模塊度大的蛋白質(zhì)復(fù)合物

      7.ifQ(A) ≥Q(B)

      8. removeBfromcandidate_set

      9.elseremoveAfromcandidate_set

      3.3 蛋白質(zhì)復(fù)合物的識(shí)別

      3.1節(jié)利用標(biāo)準(zhǔn)庫(kù)中的復(fù)合物和隨機(jī)生成子圖訓(xùn)練graph2vec-SVM算法并得到具有識(shí)別復(fù)合物功能的分類器;3.2節(jié)利用式(8) 定義的模塊度搜索稠密子圖,去重后得到待識(shí)別的候選蛋白質(zhì)復(fù)合物集合;本節(jié)利用3.1節(jié)中訓(xùn)練好的graph2vec-SVM算法識(shí)別3.2節(jié)中去重后得到的候選蛋白質(zhì)復(fù)合物。與算法1相似,在進(jìn)行蛋白質(zhì)復(fù)合物的識(shí)別前,需先利用graph2vec將其轉(zhuǎn)換為向量,具體過程如算法4所示。

      算法4Predict protein complex

      輸入:candidate_set,k,D,ep,l。

      輸出:predictions。

      //用graph2vec將每個(gè)候選蛋白質(zhì)復(fù)合物轉(zhuǎn)換為向量

      1.c∈candidate_set

      2.vectors=graph2vec(candidate_set,k,D,ep,l);

      3.model=graph2vec-SVM(G,k,D,ep,l);

      //對(duì)候選蛋白質(zhì)復(fù)合物進(jìn)行識(shí)別

      4.Predictions=model.predict(vectors);

      5.returnpredictions

      4 實(shí)驗(yàn)結(jié)果及分析

      本文將graph2vec-SVM蛋白質(zhì)復(fù)合物識(shí)別算法與目前較為經(jīng)典的4種算法,包括ClusterOne、CMC、HC-PIN和COACH在酵母菌相互作用網(wǎng)絡(luò)DIP(Database of Interacting Proteins)[20]上進(jìn)行比較。蛋白質(zhì)復(fù)合物標(biāo)準(zhǔn)庫(kù)采用CYC2008[21]和 MIPS[22]標(biāo)準(zhǔn)庫(kù)。2個(gè)標(biāo)準(zhǔn)庫(kù)分別由408個(gè)復(fù)合物和428個(gè)復(fù)合物組成。

      4.1 評(píng)價(jià)指標(biāo)

      本文將所識(shí)別的蛋白質(zhì)復(fù)合物與標(biāo)準(zhǔn)庫(kù)中的蛋白質(zhì)復(fù)合物進(jìn)行比較以保證蛋白質(zhì)復(fù)合物識(shí)別的質(zhì)量。識(shí)別質(zhì)量的評(píng)價(jià)指標(biāo)主要有精準(zhǔn)度(Precision)、敏感度(Sensitivity)和F-measure。 精準(zhǔn)度為識(shí)別的復(fù)合物中真實(shí)復(fù)合物的數(shù)量與識(shí)別的復(fù)合物總數(shù)量的比值;敏感度為識(shí)別的復(fù)合物中真實(shí)復(fù)合物的數(shù)量與總真實(shí)復(fù)合物數(shù)量的比值;F-measure是精準(zhǔn)度和敏感度的調(diào)和平均值,其計(jì)算方法如式(10)所示:

      (10)

      Precision=TP/(TP+FP)

      (11)

      Sensitivity=TP/(FN+TP)

      (12)

      其中,TP為所識(shí)別復(fù)合物中與標(biāo)準(zhǔn)庫(kù)中復(fù)合物相匹配的復(fù)合物數(shù)量,其匹配程度通過式(9)計(jì)算,OS>R的識(shí)別復(fù)合物被認(rèn)為是真正的蛋白質(zhì)復(fù)合物,R為匹配程度的閾值,其值通常設(shè)置為0.2[23]。TN為識(shí)別結(jié)果中真實(shí)非蛋白質(zhì)復(fù)合物的數(shù)量,F(xiàn)N為真實(shí)蛋白質(zhì)復(fù)合物被識(shí)別為假蛋白質(zhì)復(fù)合物的數(shù)量。

      4.2 graph2vec參數(shù)設(shè)置

      本文使用標(biāo)準(zhǔn)庫(kù)中節(jié)點(diǎn)數(shù)大于2的蛋白質(zhì)復(fù)合物作為正樣本,負(fù)樣本為隨機(jī)生成的子圖。利用graph2vec將正樣本和負(fù)樣本轉(zhuǎn)換為向量,參數(shù)的設(shè)置如表1所示,轉(zhuǎn)換后的向量即為分類器的訓(xùn)練集。

      Table 1 Setting of graph2vec parameter

      表1中,batch_size為一次訓(xùn)練所選取的樣本數(shù);epochs為訓(xùn)練樣本被整體訓(xùn)練的次數(shù);max_k為根子圖的最大步長(zhǎng);embedding_size為圖轉(zhuǎn)換為向量的維數(shù),若embedding_size太小會(huì)導(dǎo)致圖的信息丟失,從而造成識(shí)別算法不能很好地識(shí)別出蛋白質(zhì)復(fù)合物,若其太大又會(huì)包含冗余的信息,從而影響蛋白質(zhì)復(fù)合物的識(shí)別。實(shí)驗(yàn)過程中發(fā)現(xiàn),當(dāng)embedding_size=512時(shí)其能夠較好地表示圖的信息。num_negsamples為噪聲樣本的數(shù)量,learning_rate為學(xué)習(xí)率,最終得到的向量為V(G)=(v1,v2,…,vδ)。

      4.3 對(duì)比模型的選取

      本文在DIP數(shù)據(jù)集上采用3種機(jī)器學(xué)習(xí)分類器(LR、SVM和XGBoost)進(jìn)行蛋白質(zhì)復(fù)合物的識(shí)別,蛋白質(zhì)復(fù)合物標(biāo)準(zhǔn)庫(kù)為MIPS,其結(jié)果分別如圖4和表2所示。

      Figure 4 Performance of three classifiers on DIP dataset

      Table 2 Identify results of three classifiers on MIPS standard library

      由圖4可知,LR、SVM和XGBoost在3項(xiàng)指標(biāo)中都有較好的結(jié)果,但從表2可看出,LR和XGBoost正確識(shí)別蛋白質(zhì)復(fù)合物數(shù)量較高,但正確識(shí)別非蛋白質(zhì)復(fù)合物的數(shù)量極低,而SVM的綜合表現(xiàn)相對(duì)較好,所以本文最終選取SVM分類器進(jìn)行蛋白質(zhì)復(fù)合物的識(shí)別。

      4.4 與非監(jiān)督學(xué)習(xí)算法的對(duì)比

      graph2vec-SVM與4種非監(jiān)督學(xué)習(xí)算法(CMC、COACH、HC-PIN和ClusterOne)在DIP數(shù)據(jù)集上精準(zhǔn)度、敏感度和F-measure的表現(xiàn)如圖5所示,其中蛋白質(zhì)復(fù)合物的標(biāo)準(zhǔn)庫(kù)采用的是CYC2008。從圖5可以看出,graph2vec-SVM在3項(xiàng)指標(biāo)中都取得了良好的效果,在該數(shù)據(jù)集上的精準(zhǔn)度(0.42)有待提高,敏感度(0.66)和F-measure(0.51)均好于其他算法的。

      Figure 5 Performance of each algorithm on DIP dataset

      為進(jìn)一步分析實(shí)驗(yàn)結(jié)果,將CYC2008標(biāo)準(zhǔn)庫(kù)替換為MIPS標(biāo)準(zhǔn)庫(kù)后,結(jié)果如表3所示。從表3可以看出,graph2vec-SVM識(shí)別算法在所有對(duì)比算法中識(shí)別出正確蛋白質(zhì)復(fù)合物的數(shù)量最多,且其F-measure也最高,正確識(shí)別非蛋白質(zhì)復(fù)合物的數(shù)量比COACH算法次之,但綜合來(lái)說(shuō)graph2vec-SVM識(shí)別算法相較于對(duì)比算法表現(xiàn)較好。

      Table 3 Comparison of algorithms on MIPS standard library

      4.5 與監(jiān)督學(xué)習(xí)算法的對(duì)比

      本節(jié)將graph2vec-SVM識(shí)別算法與3種監(jiān)督學(xué)習(xí)算法(SCI-BN,SCI-SVM和RM)在DIP數(shù)據(jù)集上進(jìn)行對(duì)比。4種算法均采用MIPS標(biāo)準(zhǔn)庫(kù)中的蛋白質(zhì)復(fù)合物作為正樣本進(jìn)行模型訓(xùn)練。3種監(jiān)督學(xué)習(xí)算法參數(shù)均參照文獻(xiàn)[23-25]設(shè)置。實(shí)驗(yàn)對(duì)比結(jié)果如表4所示,從表4中可以看出,graph2vec-SVM在DIP數(shù)據(jù)集上Precision、Sensitivity和F-measure的表現(xiàn)相對(duì)其他3種算法都較好。

      Table 4 Comparison with supervised algorithms on MIPS standard library

      5 結(jié)束語(yǔ)

      本文針對(duì)非監(jiān)督學(xué)習(xí)識(shí)別算法的隨機(jī)特性會(huì)影響復(fù)合物的識(shí)別準(zhǔn)確性,以及監(jiān)督學(xué)習(xí)識(shí)別算法的人為構(gòu)造特征不完備等缺陷,提出了graph2vec-SVM蛋白質(zhì)復(fù)合物識(shí)別算法。該算法利用grah2vec將圖的信息轉(zhuǎn)換為向量,并進(jìn)一步采用SVM分類器進(jìn)行蛋白質(zhì)復(fù)合物的識(shí)別,實(shí)驗(yàn)結(jié)果表明,該算法與目前流行的監(jiān)督學(xué)習(xí)算法與傳統(tǒng)非監(jiān)督學(xué)習(xí)算法在敏感度和F-measure上都取得了較好的效果,但由于在生成隨機(jī)子圖時(shí)存在離散點(diǎn)而導(dǎo)致精準(zhǔn)度不高,未來(lái)在完善識(shí)別算法時(shí)我們將著手克服離散點(diǎn)來(lái)嘗試提高精準(zhǔn)度。

      猜你喜歡
      子圖精準(zhǔn)度復(fù)合物
      BH66F5355 增強(qiáng)型24-bit A/D MCU
      傳感器世界(2023年5期)2023-08-03 10:38:18
      BeXY、MgXY(X、Y=F、Cl、Br)與ClF3和ClOF3形成復(fù)合物的理論研究
      讓黨建活動(dòng)更加有“味”——禮泉縣增強(qiáng)“兩新”黨建精準(zhǔn)度
      臨界完全圖Ramsey數(shù)
      柚皮素磷脂復(fù)合物的制備和表征
      中成藥(2018年7期)2018-08-04 06:04:18
      黃芩苷-小檗堿復(fù)合物的形成規(guī)律
      中成藥(2018年3期)2018-05-07 13:34:18
      論提高不動(dòng)產(chǎn)產(chǎn)權(quán)保護(hù)精準(zhǔn)度的若干問題
      基于頻繁子圖挖掘的數(shù)據(jù)服務(wù)Mashup推薦
      機(jī)械加工過程中的機(jī)械振動(dòng)分析
      不含2K1+K2和C4作為導(dǎo)出子圖的圖的色數(shù)
      滕州市| 曲靖市| 巴马| 行唐县| 芮城县| 阳山县| 九龙县| 肇东市| 汉源县| 江达县| 大安市| 湘潭县| 福海县| 梅河口市| 仁化县| 西盟| 涞水县| 南平市| 塔河县| 象山县| 封开县| 中山市| 昌黎县| 安国市| 英山县| 濮阳县| 界首市| 萍乡市| 平湖市| 姚安县| 千阳县| 龙里县| 德州市| 长兴县| 怀柔区| 高台县| 和政县| 临高县| 仙居县| 通辽市| 商城县|