徐周波,李 萍,劉華東,李 珍
(桂林電子科技大學(xué)廣西可信軟件重點(diǎn)實(shí)驗(yàn)室,廣西 桂林 541004)
蛋白質(zhì)復(fù)合物作為大分子組裝體,在細(xì)胞穩(wěn)態(tài)、生長(zhǎng)和增殖所必需的多種生化活動(dòng)中發(fā)揮著重要作用[1]。蛋白質(zhì)復(fù)合物是生化體制和細(xì)胞結(jié)構(gòu)的研究基礎(chǔ),因此,蛋白質(zhì)復(fù)合物的識(shí)別成為近年來(lái)的研究熱點(diǎn)。
目前蛋白質(zhì)復(fù)合物識(shí)別技術(shù)主要分為2類:(1)基于實(shí)驗(yàn)的蛋白質(zhì)復(fù)合物識(shí)別技術(shù);(2) 基于計(jì)算方法的蛋白質(zhì)復(fù)合物識(shí)別技術(shù)?;趯?shí)驗(yàn)的蛋白質(zhì)復(fù)合物識(shí)別技術(shù)主要根據(jù)實(shí)驗(yàn)結(jié)果識(shí)別蛋白質(zhì)復(fù)合物,如免疫共沉淀[2,3]和雙雜交系統(tǒng)[4,5],但其通常耗時(shí)較長(zhǎng)且需高水平的專業(yè)知識(shí)作為基礎(chǔ)。為克服基于實(shí)驗(yàn)的蛋白質(zhì)復(fù)合物識(shí)別技術(shù)的缺點(diǎn),研究者們提出了多種基于計(jì)算方法的蛋白質(zhì)復(fù)合物識(shí)別技術(shù)?;谟?jì)算方法的蛋白質(zhì)復(fù)合物識(shí)別技術(shù)的基本思想是從蛋白質(zhì)相互作用PPI(Protein-Protein Interaction) 網(wǎng)絡(luò)中識(shí)別呈現(xiàn)蛋白質(zhì)復(fù)合物某些典型特性的簇。因此,PPI網(wǎng)絡(luò)通常建模為圖的形式,其中圖的節(jié)點(diǎn)表示蛋白質(zhì),邊表示蛋白質(zhì)間的相互作用。蛋白質(zhì)復(fù)合物的識(shí)別問題可以歸結(jié)為一個(gè)傳統(tǒng)的圖聚類問題,由此產(chǎn)生的子圖聚類被視為感興趣的蛋白質(zhì)復(fù)合物。Nepusz等[6]提出了聚類算法ClusterONE用于從PPI網(wǎng)絡(luò)中發(fā)現(xiàn)重疊蛋白質(zhì)復(fù)合物。ClusterONE可有效識(shí)別重疊蛋白質(zhì)復(fù)合物,并采用最大匹配率MMR(Maximum Matching Rate)來(lái)評(píng)估算法的復(fù)雜度,該算法精準(zhǔn)度和敏感度較低。Liu等[7]提出了一種基于最大團(tuán)的聚類算法CMC (Clustering-based on Maximal Cliques),利用最大團(tuán)簇從加權(quán)PPI網(wǎng)絡(luò)中發(fā)現(xiàn)復(fù)合群。CMC使用迭代評(píng)分的方法為蛋白質(zhì)對(duì)分配權(quán)重,可以改善其他蛋白質(zhì)復(fù)合物預(yù)測(cè)方法的性能,減少隨機(jī)噪聲的影響。CMC算法提高了識(shí)別蛋白質(zhì)復(fù)合物的精準(zhǔn)度,但對(duì)小規(guī)模復(fù)合物檢測(cè)能力較差,且敏感度較低。Wang等[8]提出了一種快速分層聚類算法HC-PIN。HC-PIN對(duì)假陽(yáng)性具有魯棒性,并且可以發(fā)現(xiàn)低密度的功能模塊。HC-PIN算法雖然也提高了識(shí)別蛋白質(zhì)復(fù)合物的精準(zhǔn)度,但其同樣存在敏感度低的問題。Wu等[9]提出的COACH算法考慮到蛋白質(zhì)復(fù)合物的拓?fù)浣Y(jié)構(gòu),先檢測(cè)出核心蛋白質(zhì),然后將附屬蛋白質(zhì)連接到核心蛋白質(zhì)上。該算法考慮到了蛋白質(zhì)結(jié)構(gòu)上的特點(diǎn),一定程度上提高了預(yù)測(cè)的準(zhǔn)確性。Zhao等[10]用不確定圖模型建模PPI網(wǎng)絡(luò),提出了一種基于不確定圖模型的蛋白質(zhì)復(fù)合物算法DCU (Detecting Complex based on Uncertain graph model),改善了COACH算法,進(jìn)一步提高了預(yù)測(cè)的準(zhǔn)確性。
由于非監(jiān)督學(xué)習(xí)算法的隨機(jī)特性會(huì)在一定程度上影響算法識(shí)別結(jié)果,因此近年來(lái)監(jiān)督學(xué)習(xí)算法也逐漸被用于蛋白質(zhì)復(fù)合物的識(shí)別。這類算法通過提取樣本特征克服非監(jiān)督的隨機(jī)性,并將特征放入分類器中訓(xùn)練,最終得出具有一定準(zhǔn)確性的分類器。其分類效果的好壞主要依賴于提取的特征能否較好地反映出蛋白質(zhì)復(fù)合物的真實(shí)特性。然而,監(jiān)督學(xué)習(xí)算法的特征通常都是人為構(gòu)造的,其準(zhǔn)確性和完整性有待考量。
針對(duì)傳統(tǒng)算法存在敏感度和F-measure低以及現(xiàn)有監(jiān)督學(xué)習(xí)算法中特征構(gòu)造不完備等不足,近年來(lái)許多利用圖嵌入進(jìn)行蛋白質(zhì)復(fù)合物識(shí)別的方法應(yīng)運(yùn)而生。圖嵌入的方法將圖轉(zhuǎn)換為向量的形式進(jìn)行處理,并且同時(shí)保留了圖的局部和全局信息,使得蛋白質(zhì)復(fù)合物的識(shí)別更加容易和準(zhǔn)確。Xu等[11]提出了一種基于從GO知識(shí)庫(kù)中學(xué)習(xí)蛋白質(zhì)復(fù)合物向量的復(fù)合物識(shí)別算法GANE。該算法利用AANE[12]模型來(lái)學(xué)習(xí)復(fù)合物的向量表示,基于此向量構(gòu)造加權(quán)鄰接矩陣并利用團(tuán)挖掘的算法來(lái)進(jìn)行復(fù)合物的識(shí)別。Yao等[13]首先將蛋白質(zhì)以功能不同的標(biāo)準(zhǔn)分組,利用node2vec[14]方法將蛋白質(zhì)轉(zhuǎn)換為向量表示,構(gòu)造相似度矩陣,并利用聚類算法來(lái)進(jìn)行蛋白質(zhì)復(fù)合物的識(shí)別。本文提出的graph2vec-SVM與復(fù)合物拓?fù)浣Y(jié)構(gòu)信息相結(jié)合的搜索方法,利用graph2vec[15]將圖轉(zhuǎn)換為向量并結(jié)合SVM分類器來(lái)進(jìn)行蛋白質(zhì)復(fù)合物的識(shí)別,不僅克服了非監(jiān)督學(xué)習(xí)算法的隨機(jī)性,還解決了監(jiān)督學(xué)習(xí)構(gòu)造特征不完備等問題,有效彌補(bǔ)了傳統(tǒng)算法和監(jiān)督學(xué)習(xí)算法的不足。同時(shí),相較于文獻(xiàn)[14]利用node2vec將復(fù)合物中每個(gè)節(jié)點(diǎn)轉(zhuǎn)換為向量表示,graph2vec將整個(gè)圖轉(zhuǎn)換為向量表示的做法更加便于計(jì)算。通過實(shí)驗(yàn)分析,該算法有較好的敏感度,在準(zhǔn)確度和F-measure方面也顯示出良好的性能。
PPI網(wǎng)絡(luò)通常建模為圖數(shù)據(jù)模型,圖的節(jié)點(diǎn)表示蛋白質(zhì),邊表示蛋白質(zhì)間的相互作用。圖數(shù)據(jù)模型是一個(gè)4元組G=(V,E,W,Lv),其中,V是節(jié)點(diǎn)集;E是邊集;W:E→[0,1]是權(quán)重分配函數(shù),它給每條邊賦予一個(gè)權(quán)重;Lv是節(jié)點(diǎn)標(biāo)簽分配函數(shù),它從標(biāo)簽集中選擇標(biāo)簽分配給節(jié)點(diǎn)。本文以節(jié)點(diǎn)度作為圖的標(biāo)簽,將PPI網(wǎng)絡(luò)建模為圖數(shù)據(jù)模型后利用graph2vec將圖轉(zhuǎn)換為向量。
graph2vec是由Narayanan等[15]提出的一種圖嵌入(將圖轉(zhuǎn)換為向量)算法,該算法基于word2vec[16]和doc2vec[17]的思想,將整個(gè)圖作為文檔,圖的根子圖作為文檔中的詞,通過訓(xùn)練淺層神經(jīng)網(wǎng)絡(luò)后最終得到整個(gè)圖的向量。其中,根子圖為圖的子樹模式,且子樹中允許出現(xiàn)相同的節(jié)點(diǎn)。例如,圖G(圖1a)的最大步長(zhǎng)為2的根子圖如圖1b所示。
Figure 1 2-rooted subgraph
graph2vec采用skipgram模型來(lái)學(xué)習(xí)圖的向量表示,如圖2所示。給定一個(gè)文檔集G={G1,G2,…,Gn}以及從文檔Gq∈G(1≤q≤n)中采樣的詞SG(Gq)={sg1,sg2,…,sgm},skipgram模型通過最大化式(1) 的似然函數(shù)得到文檔的向量表示。
(1)
Figure 2 skipgram model
目前現(xiàn)有識(shí)別算法通常先將蛋白質(zhì)復(fù)合物建模為圖數(shù)據(jù)結(jié)構(gòu),再對(duì)其進(jìn)行特征提取,如圖的密度、節(jié)點(diǎn)個(gè)數(shù)和節(jié)點(diǎn)度統(tǒng)計(jì)等,并結(jié)合機(jī)器學(xué)習(xí)分類器進(jìn)行蛋白質(zhì)復(fù)合物的識(shí)別。由于這些特征是人為構(gòu)造的,其構(gòu)造特征的準(zhǔn)確性有待考量。graph2vec利用圖本身的特性(每個(gè)節(jié)點(diǎn)的根子圖),通過skipgram模型訓(xùn)練后得到的圖的向量表示能夠較準(zhǔn)確地保留原圖的信息,且能夠方便地利用機(jī)器學(xué)習(xí)分類器進(jìn)行后續(xù)的蛋白質(zhì)復(fù)合物識(shí)別。
支持向量機(jī)SVM(Support Vector Machine)是由Vapnik[18]提出的一種監(jiān)督學(xué)習(xí)二分類器。它的基本思想是擬合出一個(gè)最大化間隔的劃分超平面,使其能夠具有準(zhǔn)確的分類性能。
SVM的劃分超平面可用如式(2)所示的線性方程描述:
wTx+b=0
(2)
其中,x為分類樣本矩陣;w為法向量,決定了超平面的方向;b為位移量,決定了超平面與原點(diǎn)的距離。分類樣本標(biāo)簽yi為-1或+1,當(dāng)分類樣本xi能夠被正確分類時(shí),其滿足式(3):
(3)
其中,i表示分類樣本xi在分類樣本矩陣x中的索引,其取值為[0,M],M為分類樣本的總數(shù)。式(3)等價(jià)于:
yi(wTxi+b)≥1
(4)
滿足yi(wTxi+b)=1的樣本稱為支持向量。2個(gè)異類支持向量到劃分超平面的距離之和稱為間隔,即:
(5)
最大化間隔γ即最小化w,求解
s.t.yi(wTxi+b)≥1,i=1,2,…,M
(6)
求解出參數(shù)w和b后可得到最大化間隔超平面。
式(6)可用拉格朗日乘子法轉(zhuǎn)換為對(duì)偶問題 ( Dual Problem )的求解,其最后的求解式變?yōu)椋?/p>
(7)
graph2vec-SVM算法將標(biāo)準(zhǔn)庫(kù)中的蛋白質(zhì)復(fù)合物以及隨機(jī)生成圖(非蛋白質(zhì)復(fù)合物)用graph2vec技術(shù)提取出每個(gè)節(jié)點(diǎn)的根子圖后,以式 (1) 作為目標(biāo)函數(shù),利用skipgram模型將圖轉(zhuǎn)換為向量,轉(zhuǎn)換后的向量即為SVM分類器的訓(xùn)練樣本集,然后開始訓(xùn)練SVM分類器。其主要過程如算法1所示。
算法1graph2vec-SVM
輸入:G={G1,G2,…,Gn},k,N,D,ep,l。
輸出:model。
1.T={};
2.foreachGq∈G
3. randomly generateNsubgraphs fromGqwith the same size asGq,regard them as negative samples and insert them intoT;
4.T=T∪G;
5.vectors=graph2vec(T,k,D,ep,l)
6.model=SVM(vectors,labels);
returnmodel
算法1中,G為蛋白質(zhì)復(fù)合物的集合,k為根子圖的最大步長(zhǎng),N為對(duì)每個(gè)蛋白質(zhì)復(fù)合物生成隨機(jī)子圖的個(gè)數(shù),D為向量的維度,ep為graph2vec算法的迭代次數(shù),l為學(xué)習(xí)率。算法1第1~4行根據(jù)每個(gè)蛋白質(zhì)復(fù)合物隨機(jī)生成N個(gè)子圖作為負(fù)樣本,并將正負(fù)樣本加入訓(xùn)練集合T中。第5行將訓(xùn)練集T用graph2vec轉(zhuǎn)換為向量,第6行將向量和標(biāo)簽放入SVM分類器中,開始訓(xùn)練分類器。其中l(wèi)abels為樣本的標(biāo)簽,正樣本的標(biāo)簽為+1,負(fù)樣本的標(biāo)簽為-1。
以圖1a為例,設(shè)最大步長(zhǎng)k為1,則由算法1對(duì)圖G提取每個(gè)節(jié)點(diǎn)的根子圖后,訓(xùn)練skipgram模型,最終得到圖G的向量表示V(G),如圖3所示。
Figure 3 Steps of graph2vec
蛋白質(zhì)復(fù)合物被認(rèn)為是PPI網(wǎng)絡(luò)中的稠密子圖,如何從PPI網(wǎng)絡(luò)中劃分出稠密子圖是蛋白質(zhì)復(fù)合物識(shí)別的關(guān)鍵。本文利用模塊度Q來(lái)衡量一個(gè)子圖c的稠密程度。子圖c的模塊度Q的定義如式(8)所示:
(8)
其中,Vc為子圖c中的節(jié)點(diǎn)集,Ec為子圖c中的邊集。weightin(c)=∑v,u∈VcP(u,v)u,v為子圖c中的節(jié)點(diǎn),P(u,v)為邊e=(u,v)的權(quán)重,e∈Ec。weightout(c)=∑v∈Vc,u?VcP(u,v),u為子圖c中的節(jié)點(diǎn),v不為子圖c中的節(jié)點(diǎn),P(u,v)為邊e=(u,v)的權(quán)重,e?Ec。δ為模塊校正參數(shù),可用于代表所預(yù)測(cè)復(fù)合物中暫未發(fā)現(xiàn)的蛋白質(zhì),同時(shí)也可用于消除噪聲。Vapnik[18]通過實(shí)驗(yàn)分析,δ取值為PPI網(wǎng)絡(luò)平均度的一半時(shí)效果最佳。由式(8) 計(jì)算得到子圖c的模塊度,若簇邊界內(nèi)的邊權(quán)值總和大于其邊界外的邊權(quán)值總和,即:
則稱子圖c為稠密子圖。
由于蛋白質(zhì)復(fù)合物是稠密子圖,在PPI網(wǎng)絡(luò)中從度較大的節(jié)點(diǎn)開始搜索候選蛋白質(zhì)復(fù)合物,將會(huì)更快搜索到稠密子圖,因此本文首先考慮選取節(jié)點(diǎn)度大于平均度的節(jié)點(diǎn)作為種子節(jié)點(diǎn)。由種子節(jié)點(diǎn)開始,向外擴(kuò)散搜索構(gòu)造子圖,并計(jì)算該子圖的模塊度,直至其模塊度達(dá)到最大,將其加入候選集中。獲取蛋白質(zhì)復(fù)合物候選集合candidate_set的具體過程如算法2所示。獲取候選集合后,將候選集合中的蛋白質(zhì)復(fù)合物轉(zhuǎn)換為向量即可用graph2vec-SVM模型進(jìn)行識(shí)別分類。
算法2getcandidate_set
輸入:PPI networkG=(V,E,W,Lv)。
輸出:candidate_set。
1.fornodev∈V/*獲取種子節(jié)點(diǎn)集合,種子節(jié)點(diǎn)為度大于平均度的節(jié)點(diǎn)*/
2.ifdegree ofvmore than average degree ofG,insertvinto the set seed/*由種子節(jié)點(diǎn)開始構(gòu)造候選蛋白質(zhì)復(fù)合物*/
3.fors∈seed
4.c={s};Q(c)=0;
5.Nv(s)//computing the neighbors ofs
6.foreachnoden∈Nv(s)
7.c′=c∪{n};
8. computeQ(c′);//計(jì)算子圖模塊度
9.ifQ(c′) ≥Q(c)
10.c=c′;
11. insertcintocandidate_set;
12.returncandidate_set
算法2在執(zhí)行過程中可能會(huì)因?yàn)閺?fù)合物高度重合而造成冗余。本文將候選蛋白質(zhì)復(fù)合物間重合度大于0.7[19]的復(fù)合物認(rèn)為是重合的,重合度計(jì)算方法如式(9)所示(即重合度為復(fù)合物A和復(fù)合物B共有節(jié)點(diǎn)個(gè)數(shù)與復(fù)合物A節(jié)點(diǎn)個(gè)數(shù)和復(fù)合物B節(jié)點(diǎn)個(gè)數(shù)乘積的比值),并剔除模塊度小的復(fù)合物。
OS(A,B)=|A∩B|2/(|A|×|B|)
(9)
去重算法過程如算法3所示。
算法3get finalcandidate_set
輸入:candidate_set。
1.forc∈candidate_set
2.ifSize(c) < 2//丟棄規(guī)模小于2的子圖
3. removecfromcandidate_set;
4.forA∈candidate_set
5.forB∈candidate_set
//計(jì)算蛋白質(zhì)復(fù)合物間的重合度
6.ifOS(A,B) > 0.7
//保留模塊度大的蛋白質(zhì)復(fù)合物
7.ifQ(A) ≥Q(B)
8. removeBfromcandidate_set
9.elseremoveAfromcandidate_set
3.1節(jié)利用標(biāo)準(zhǔn)庫(kù)中的復(fù)合物和隨機(jī)生成子圖訓(xùn)練graph2vec-SVM算法并得到具有識(shí)別復(fù)合物功能的分類器;3.2節(jié)利用式(8) 定義的模塊度搜索稠密子圖,去重后得到待識(shí)別的候選蛋白質(zhì)復(fù)合物集合;本節(jié)利用3.1節(jié)中訓(xùn)練好的graph2vec-SVM算法識(shí)別3.2節(jié)中去重后得到的候選蛋白質(zhì)復(fù)合物。與算法1相似,在進(jìn)行蛋白質(zhì)復(fù)合物的識(shí)別前,需先利用graph2vec將其轉(zhuǎn)換為向量,具體過程如算法4所示。
算法4Predict protein complex
輸入:candidate_set,k,D,ep,l。
輸出:predictions。
//用graph2vec將每個(gè)候選蛋白質(zhì)復(fù)合物轉(zhuǎn)換為向量
1.c∈candidate_set
2.vectors=graph2vec(candidate_set,k,D,ep,l);
3.model=graph2vec-SVM(G,k,D,ep,l);
//對(duì)候選蛋白質(zhì)復(fù)合物進(jìn)行識(shí)別
4.Predictions=model.predict(vectors);
5.returnpredictions
本文將graph2vec-SVM蛋白質(zhì)復(fù)合物識(shí)別算法與目前較為經(jīng)典的4種算法,包括ClusterOne、CMC、HC-PIN和COACH在酵母菌相互作用網(wǎng)絡(luò)DIP(Database of Interacting Proteins)[20]上進(jìn)行比較。蛋白質(zhì)復(fù)合物標(biāo)準(zhǔn)庫(kù)采用CYC2008[21]和 MIPS[22]標(biāo)準(zhǔn)庫(kù)。2個(gè)標(biāo)準(zhǔn)庫(kù)分別由408個(gè)復(fù)合物和428個(gè)復(fù)合物組成。
本文將所識(shí)別的蛋白質(zhì)復(fù)合物與標(biāo)準(zhǔn)庫(kù)中的蛋白質(zhì)復(fù)合物進(jìn)行比較以保證蛋白質(zhì)復(fù)合物識(shí)別的質(zhì)量。識(shí)別質(zhì)量的評(píng)價(jià)指標(biāo)主要有精準(zhǔn)度(Precision)、敏感度(Sensitivity)和F-measure。 精準(zhǔn)度為識(shí)別的復(fù)合物中真實(shí)復(fù)合物的數(shù)量與識(shí)別的復(fù)合物總數(shù)量的比值;敏感度為識(shí)別的復(fù)合物中真實(shí)復(fù)合物的數(shù)量與總真實(shí)復(fù)合物數(shù)量的比值;F-measure是精準(zhǔn)度和敏感度的調(diào)和平均值,其計(jì)算方法如式(10)所示:
(10)
Precision=TP/(TP+FP)
(11)
Sensitivity=TP/(FN+TP)
(12)
其中,TP為所識(shí)別復(fù)合物中與標(biāo)準(zhǔn)庫(kù)中復(fù)合物相匹配的復(fù)合物數(shù)量,其匹配程度通過式(9)計(jì)算,OS>R的識(shí)別復(fù)合物被認(rèn)為是真正的蛋白質(zhì)復(fù)合物,R為匹配程度的閾值,其值通常設(shè)置為0.2[23]。TN為識(shí)別結(jié)果中真實(shí)非蛋白質(zhì)復(fù)合物的數(shù)量,F(xiàn)N為真實(shí)蛋白質(zhì)復(fù)合物被識(shí)別為假蛋白質(zhì)復(fù)合物的數(shù)量。
本文使用標(biāo)準(zhǔn)庫(kù)中節(jié)點(diǎn)數(shù)大于2的蛋白質(zhì)復(fù)合物作為正樣本,負(fù)樣本為隨機(jī)生成的子圖。利用graph2vec將正樣本和負(fù)樣本轉(zhuǎn)換為向量,參數(shù)的設(shè)置如表1所示,轉(zhuǎn)換后的向量即為分類器的訓(xùn)練集。
Table 1 Setting of graph2vec parameter
表1中,batch_size為一次訓(xùn)練所選取的樣本數(shù);epochs為訓(xùn)練樣本被整體訓(xùn)練的次數(shù);max_k為根子圖的最大步長(zhǎng);embedding_size為圖轉(zhuǎn)換為向量的維數(shù),若embedding_size太小會(huì)導(dǎo)致圖的信息丟失,從而造成識(shí)別算法不能很好地識(shí)別出蛋白質(zhì)復(fù)合物,若其太大又會(huì)包含冗余的信息,從而影響蛋白質(zhì)復(fù)合物的識(shí)別。實(shí)驗(yàn)過程中發(fā)現(xiàn),當(dāng)embedding_size=512時(shí)其能夠較好地表示圖的信息。num_negsamples為噪聲樣本的數(shù)量,learning_rate為學(xué)習(xí)率,最終得到的向量為V(G)=(v1,v2,…,vδ)。
本文在DIP數(shù)據(jù)集上采用3種機(jī)器學(xué)習(xí)分類器(LR、SVM和XGBoost)進(jìn)行蛋白質(zhì)復(fù)合物的識(shí)別,蛋白質(zhì)復(fù)合物標(biāo)準(zhǔn)庫(kù)為MIPS,其結(jié)果分別如圖4和表2所示。
Figure 4 Performance of three classifiers on DIP dataset
Table 2 Identify results of three classifiers on MIPS standard library
由圖4可知,LR、SVM和XGBoost在3項(xiàng)指標(biāo)中都有較好的結(jié)果,但從表2可看出,LR和XGBoost正確識(shí)別蛋白質(zhì)復(fù)合物數(shù)量較高,但正確識(shí)別非蛋白質(zhì)復(fù)合物的數(shù)量極低,而SVM的綜合表現(xiàn)相對(duì)較好,所以本文最終選取SVM分類器進(jìn)行蛋白質(zhì)復(fù)合物的識(shí)別。
graph2vec-SVM與4種非監(jiān)督學(xué)習(xí)算法(CMC、COACH、HC-PIN和ClusterOne)在DIP數(shù)據(jù)集上精準(zhǔn)度、敏感度和F-measure的表現(xiàn)如圖5所示,其中蛋白質(zhì)復(fù)合物的標(biāo)準(zhǔn)庫(kù)采用的是CYC2008。從圖5可以看出,graph2vec-SVM在3項(xiàng)指標(biāo)中都取得了良好的效果,在該數(shù)據(jù)集上的精準(zhǔn)度(0.42)有待提高,敏感度(0.66)和F-measure(0.51)均好于其他算法的。
Figure 5 Performance of each algorithm on DIP dataset
為進(jìn)一步分析實(shí)驗(yàn)結(jié)果,將CYC2008標(biāo)準(zhǔn)庫(kù)替換為MIPS標(biāo)準(zhǔn)庫(kù)后,結(jié)果如表3所示。從表3可以看出,graph2vec-SVM識(shí)別算法在所有對(duì)比算法中識(shí)別出正確蛋白質(zhì)復(fù)合物的數(shù)量最多,且其F-measure也最高,正確識(shí)別非蛋白質(zhì)復(fù)合物的數(shù)量比COACH算法次之,但綜合來(lái)說(shuō)graph2vec-SVM識(shí)別算法相較于對(duì)比算法表現(xiàn)較好。
Table 3 Comparison of algorithms on MIPS standard library
本節(jié)將graph2vec-SVM識(shí)別算法與3種監(jiān)督學(xué)習(xí)算法(SCI-BN,SCI-SVM和RM)在DIP數(shù)據(jù)集上進(jìn)行對(duì)比。4種算法均采用MIPS標(biāo)準(zhǔn)庫(kù)中的蛋白質(zhì)復(fù)合物作為正樣本進(jìn)行模型訓(xùn)練。3種監(jiān)督學(xué)習(xí)算法參數(shù)均參照文獻(xiàn)[23-25]設(shè)置。實(shí)驗(yàn)對(duì)比結(jié)果如表4所示,從表4中可以看出,graph2vec-SVM在DIP數(shù)據(jù)集上Precision、Sensitivity和F-measure的表現(xiàn)相對(duì)其他3種算法都較好。
Table 4 Comparison with supervised algorithms on MIPS standard library
本文針對(duì)非監(jiān)督學(xué)習(xí)識(shí)別算法的隨機(jī)特性會(huì)影響復(fù)合物的識(shí)別準(zhǔn)確性,以及監(jiān)督學(xué)習(xí)識(shí)別算法的人為構(gòu)造特征不完備等缺陷,提出了graph2vec-SVM蛋白質(zhì)復(fù)合物識(shí)別算法。該算法利用grah2vec將圖的信息轉(zhuǎn)換為向量,并進(jìn)一步采用SVM分類器進(jìn)行蛋白質(zhì)復(fù)合物的識(shí)別,實(shí)驗(yàn)結(jié)果表明,該算法與目前流行的監(jiān)督學(xué)習(xí)算法與傳統(tǒng)非監(jiān)督學(xué)習(xí)算法在敏感度和F-measure上都取得了較好的效果,但由于在生成隨機(jī)子圖時(shí)存在離散點(diǎn)而導(dǎo)致精準(zhǔn)度不高,未來(lái)在完善識(shí)別算法時(shí)我們將著手克服離散點(diǎn)來(lái)嘗試提高精準(zhǔn)度。