基于圖嵌入與拓?fù)浣Y(jié)構(gòu)信息的蛋白質(zhì)復(fù)合物識(shí)別算法*

2021-06-25 09:46:10徐周波劉華東

計(jì)算機(jī)工程與科學(xué) 2021年6期

徐周波，李萍，劉華東，李珍

(桂林電子科技大學(xué)廣西可信軟件重點(diǎn)實(shí)驗(yàn)室，廣西桂林 541004)

1 引言

蛋白質(zhì)復(fù)合物作為大分子組裝體，在細(xì)胞穩(wěn)態(tài)、生長(zhǎng)和增殖所必需的多種生化活動(dòng)中發(fā)揮著重要作用[1]。蛋白質(zhì)復(fù)合物是生化體制和細(xì)胞結(jié)構(gòu)的研究基礎(chǔ)，因此，蛋白質(zhì)復(fù)合物的識(shí)別成為近年來(lái)的研究熱點(diǎn)。

目前蛋白質(zhì)復(fù)合物識(shí)別技術(shù)主要分為2類:(1)基于實(shí)驗(yàn)的蛋白質(zhì)復(fù)合物識(shí)別技術(shù)；(2) 基于計(jì)算方法的蛋白質(zhì)復(fù)合物識(shí)別技術(shù)?；趯?shí)驗(yàn)的蛋白質(zhì)復(fù)合物識(shí)別技術(shù)主要根據(jù)實(shí)驗(yàn)結(jié)果識(shí)別蛋白質(zhì)復(fù)合物，如免疫共沉淀[2,3]和雙雜交系統(tǒng)[4,5]，但其通常耗時(shí)較長(zhǎng)且需高水平的專業(yè)知識(shí)作為基礎(chǔ)。為克服基于實(shí)驗(yàn)的蛋白質(zhì)復(fù)合物識(shí)別技術(shù)的缺點(diǎn)，研究者們提出了多種基于計(jì)算方法的蛋白質(zhì)復(fù)合物識(shí)別技術(shù)?；谟?jì)算方法的蛋白質(zhì)復(fù)合物識(shí)別技術(shù)的基本思想是從蛋白質(zhì)相互作用PPI(Protein-Protein Interaction) 網(wǎng)絡(luò)中識(shí)別呈現(xiàn)蛋白質(zhì)復(fù)合物某些典型特性的簇。因此，PPI網(wǎng)絡(luò)通常建模為圖的形式，其中圖的節(jié)點(diǎn)表示蛋白質(zhì)，邊表示蛋白質(zhì)間的相互作用。蛋白質(zhì)復(fù)合物的識(shí)別問題可以歸結(jié)為一個(gè)傳統(tǒng)的圖聚類問題，由此產(chǎn)生的子圖聚類被視為感興趣的蛋白質(zhì)復(fù)合物。Nepusz等[6]提出了聚類算法ClusterONE用于從PPI網(wǎng)絡(luò)中發(fā)現(xiàn)重疊蛋白質(zhì)復(fù)合物。ClusterONE可有效識(shí)別重疊蛋白質(zhì)復(fù)合物，并采用最大匹配率MMR(Maximum Matching Rate)來(lái)評(píng)估算法的復(fù)雜度，該算法精準(zhǔn)度和敏感度較低。Liu等[7]提出了一種基于最大團(tuán)的聚類算法CMC (Clustering-based on Maximal Cliques)，利用最大團(tuán)簇從加權(quán)PPI網(wǎng)絡(luò)中發(fā)現(xiàn)復(fù)合群。CMC使用迭代評(píng)分的方法為蛋白質(zhì)對(duì)分配權(quán)重，可以改善其他蛋白質(zhì)復(fù)合物預(yù)測(cè)方法的性能，減少隨機(jī)噪聲的影響。CMC算法提高了識(shí)別蛋白質(zhì)復(fù)合物的精準(zhǔn)度，但對(duì)小規(guī)模復(fù)合物檢測(cè)能力較差，且敏感度較低。Wang等[8]提出了一種快速分層聚類算法HC-PIN。HC-PIN對(duì)假陽(yáng)性具有魯棒性，并且可以發(fā)現(xiàn)低密度的功能模塊。HC-PIN算法雖然也提高了識(shí)別蛋白質(zhì)復(fù)合物的精準(zhǔn)度，但其同樣存在敏感度低的問題。Wu等[9]提出的COACH算法考慮到蛋白質(zhì)復(fù)合物的拓?fù)浣Y(jié)構(gòu)，先檢測(cè)出核心蛋白質(zhì)，然后將附屬蛋白質(zhì)連接到核心蛋白質(zhì)上。該算法考慮到了蛋白質(zhì)結(jié)構(gòu)上的特點(diǎn)，一定程度上提高了預(yù)測(cè)的準(zhǔn)確性。Zhao等[10]用不確定圖模型建模PPI網(wǎng)絡(luò)，提出了一種基于不確定圖模型的蛋白質(zhì)復(fù)合物算法DCU (Detecting Complex based on Uncertain graph model)，改善了COACH算法，進(jìn)一步提高了預(yù)測(cè)的準(zhǔn)確性。

由于非監(jiān)督學(xué)習(xí)算法的隨機(jī)特性會(huì)在一定程度上影響算法識(shí)別結(jié)果，因此近年來(lái)監(jiān)督學(xué)習(xí)算法也逐漸被用于蛋白質(zhì)復(fù)合物的識(shí)別。這類算法通過提取樣本特征克服非監(jiān)督的隨機(jī)性，并將特征放入分類器中訓(xùn)練，最終得出具有一定準(zhǔn)確性的分類器。其分類效果的好壞主要依賴于提取的特征能否較好地反映出蛋白質(zhì)復(fù)合物的真實(shí)特性。然而，監(jiān)督學(xué)習(xí)算法的特征通常都是人為構(gòu)造的，其準(zhǔn)確性和完整性有待考量。

針對(duì)傳統(tǒng)算法存在敏感度和F-measure低以及現(xiàn)有監(jiān)督學(xué)習(xí)算法中特征構(gòu)造不完備等不足，近年來(lái)許多利用圖嵌入進(jìn)行蛋白質(zhì)復(fù)合物識(shí)別的方法應(yīng)運(yùn)而生。圖嵌入的方法將圖轉(zhuǎn)換為向量的形式進(jìn)行處理，并且同時(shí)保留了圖的局部和全局信息，使得蛋白質(zhì)復(fù)合物的識(shí)別更加容易和準(zhǔn)確。Xu等[11]提出了一種基于從GO知識(shí)庫(kù)中學(xué)習(xí)蛋白質(zhì)復(fù)合物向量的復(fù)合物識(shí)別算法GANE。該算法利用AANE[12]模型來(lái)學(xué)習(xí)復(fù)合物的向量表示，基于此向量構(gòu)造加權(quán)鄰接矩陣并利用團(tuán)挖掘的算法來(lái)進(jìn)行復(fù)合物的識(shí)別。Yao等[13]首先將蛋白質(zhì)以功能不同的標(biāo)準(zhǔn)分組，利用node2vec[14]方法將蛋白質(zhì)轉(zhuǎn)換為向量表示，構(gòu)造相似度矩陣，并利用聚類算法來(lái)進(jìn)行蛋白質(zhì)復(fù)合物的識(shí)別。本文提出的graph2vec-SVM與復(fù)合物拓?fù)浣Y(jié)構(gòu)信息相結(jié)合的搜索方法，利用graph2vec[15]將圖轉(zhuǎn)換為向量并結(jié)合SVM分類器來(lái)進(jìn)行蛋白質(zhì)復(fù)合物的識(shí)別，不僅克服了非監(jiān)督學(xué)習(xí)算法的隨機(jī)性，還解決了監(jiān)督學(xué)習(xí)構(gòu)造特征不完備等問題，有效彌補(bǔ)了傳統(tǒng)算法和監(jiān)督學(xué)習(xí)算法的不足。同時(shí)，相較于文獻(xiàn)[14]利用node2vec將復(fù)合物中每個(gè)節(jié)點(diǎn)轉(zhuǎn)換為向量表示，graph2vec將整個(gè)圖轉(zhuǎn)換為向量表示的做法更加便于計(jì)算。通過實(shí)驗(yàn)分析，該算法有較好的敏感度，在準(zhǔn)確度和F-measure方面也顯示出良好的性能。

2 相關(guān)知識(shí)介紹

2.1 graph2vec

PPI網(wǎng)絡(luò)通常建模為圖數(shù)據(jù)模型，圖的節(jié)點(diǎn)表示蛋白質(zhì)，邊表示蛋白質(zhì)間的相互作用。圖數(shù)據(jù)模型是一個(gè)4元組G=(V,E,W,Lv),其中,V是節(jié)點(diǎn)集;E是邊集;W:E→[0,1]是權(quán)重分配函數(shù)，它給每條邊賦予一個(gè)權(quán)重;Lv是節(jié)點(diǎn)標(biāo)簽分配函數(shù)，它從標(biāo)簽集中選擇標(biāo)簽分配給節(jié)點(diǎn)。本文以節(jié)點(diǎn)度作為圖的標(biāo)簽，將PPI網(wǎng)絡(luò)建模為圖數(shù)據(jù)模型后利用graph2vec將圖轉(zhuǎn)換為向量。

graph2vec是由Narayanan等[15]提出的一種圖嵌入(將圖轉(zhuǎn)換為向量)算法，該算法基于word2vec[16]和doc2vec[17]的思想，將整個(gè)圖作為文檔，圖的根子圖作為文檔中的詞，通過訓(xùn)練淺層神經(jīng)網(wǎng)絡(luò)后最終得到整個(gè)圖的向量。其中，根子圖為圖的子樹模式，且子樹中允許出現(xiàn)相同的節(jié)點(diǎn)。例如，圖G(圖1a)的最大步長(zhǎng)為2的根子圖如圖1b所示。

Figure 1 2-rooted subgraph

graph2vec采用skipgram模型來(lái)學(xué)習(xí)圖的向量表示，如圖2所示。給定一個(gè)文檔集G={G1,G2,…,Gn}以及從文檔Gq∈G(1≤q≤n)中采樣的詞SG(Gq)={sg1,sg2,…,sgm},skipgram模型通過最大化式(1) 的似然函數(shù)得到文檔的向量表示。

(1)

Figure 2 skipgram model

目前現(xiàn)有識(shí)別算法通常先將蛋白質(zhì)復(fù)合物建模為圖數(shù)據(jù)結(jié)構(gòu)，再對(duì)其進(jìn)行特征提取，如圖的密度、節(jié)點(diǎn)個(gè)數(shù)和節(jié)點(diǎn)度統(tǒng)計(jì)等，并結(jié)合機(jī)器學(xué)習(xí)分類器進(jìn)行蛋白質(zhì)復(fù)合物的識(shí)別。由于這些特征是人為構(gòu)造的，其構(gòu)造特征的準(zhǔn)確性有待考量。graph2vec利用圖本身的特性(每個(gè)節(jié)點(diǎn)的根子圖)，通過skipgram模型訓(xùn)練后得到的圖的向量表示能夠較準(zhǔn)確地保留原圖的信息，且能夠方便地利用機(jī)器學(xué)習(xí)分類器進(jìn)行后續(xù)的蛋白質(zhì)復(fù)合物識(shí)別。

2.2 支持向量機(jī)

支持向量機(jī)SVM(Support Vector Machine)是由Vapnik[18]提出的一種監(jiān)督學(xué)習(xí)二分類器。它的基本思想是擬合出一個(gè)最大化間隔的劃分超平面，使其能夠具有準(zhǔn)確的分類性能。

SVM的劃分超平面可用如式(2)所示的線性方程描述：

wTx+b=0

(2)

其中,x為分類樣本矩陣；w為法向量，決定了超平面的方向；b為位移量，決定了超平面與原點(diǎn)的距離。分類樣本標(biāo)簽yi為-1或+1,當(dāng)分類樣本xi能夠被正確分類時(shí)，其滿足式(3)：

(3)

其中,i表示分類樣本xi在分類樣本矩陣x中的索引，其取值為[0,M]，M為分類樣本的總數(shù)。式(3)等價(jià)于:

yi(wTxi+b)≥1

(4)

滿足yi(wTxi+b)=1的樣本稱為支持向量。2個(gè)異類支持向量到劃分超平面的距離之和稱為間隔，即：

(5)

最大化間隔γ即最小化w,求解

s.t.yi(wTxi+b)≥1,i=1,2,…,M

(6)

求解出參數(shù)w和b后可得到最大化間隔超平面。

式(6)可用拉格朗日乘子法轉(zhuǎn)換為對(duì)偶問題 ( Dual Problem )的求解,其最后的求解式變?yōu)椋?/p>

(7)

3 基于圖嵌入與拓?fù)浣Y(jié)構(gòu)信息的蛋白質(zhì)復(fù)合物識(shí)別算法

3.1 graph2vec-SVM算法

graph2vec-SVM算法將標(biāo)準(zhǔn)庫(kù)中的蛋白質(zhì)復(fù)合物以及隨機(jī)生成圖(非蛋白質(zhì)復(fù)合物)用graph2vec技術(shù)提取出每個(gè)節(jié)點(diǎn)的根子圖后，以式 (1) 作為目標(biāo)函數(shù)，利用skipgram模型將圖轉(zhuǎn)換為向量，轉(zhuǎn)換后的向量即為SVM分類器的訓(xùn)練樣本集，然后開始訓(xùn)練SVM分類器。其主要過程如算法1所示。

算法1graph2vec-SVM

輸入：G={G1,G2,…,Gn},k,N,D,ep,l。

輸出：model。

1.T={};

2.foreachGq∈G

3. randomly generateNsubgraphs fromGqwith the same size asGq,regard them as negative samples and insert them intoT;

4.T=T∪G;

5.vectors=graph2vec(T,k,D,ep,l)

6.model=SVM(vectors,labels);

returnmodel

算法1中，G為蛋白質(zhì)復(fù)合物的集合，k為根子圖的最大步長(zhǎng)，N為對(duì)每個(gè)蛋白質(zhì)復(fù)合物生成隨機(jī)子圖的個(gè)數(shù)，D為向量的維度,ep為graph2vec算法的迭代次數(shù),l為學(xué)習(xí)率。算法1第1～4行根據(jù)每個(gè)蛋白質(zhì)復(fù)合物隨機(jī)生成N個(gè)子圖作為負(fù)樣本，并將正負(fù)樣本加入訓(xùn)練集合T中。第5行將訓(xùn)練集T用graph2vec轉(zhuǎn)換為向量，第6行將向量和標(biāo)簽放入SVM分類器中，開始訓(xùn)練分類器。其中l(wèi)abels為樣本的標(biāo)簽，正樣本的標(biāo)簽為+1，負(fù)樣本的標(biāo)簽為-1。

以圖1a為例，設(shè)最大步長(zhǎng)k為1，則由算法1對(duì)圖G提取每個(gè)節(jié)點(diǎn)的根子圖后，訓(xùn)練skipgram模型，最終得到圖G的向量表示V(G)，如圖3所示。

Figure 3 Steps of graph2vec

3.2 構(gòu)造候選蛋白質(zhì)復(fù)合物

蛋白質(zhì)復(fù)合物被認(rèn)為是PPI網(wǎng)絡(luò)中的稠密子圖，如何從PPI網(wǎng)絡(luò)中劃分出稠密子圖是蛋白質(zhì)復(fù)合物識(shí)別的關(guān)鍵。本文利用模塊度Q來(lái)衡量一個(gè)子圖c的稠密程度。子圖c的模塊度Q的定義如式(8)所示：

(8)

其中，Vc為子圖c中的節(jié)點(diǎn)集，Ec為子圖c中的邊集。weightin(c)=∑v,u∈VcP(u,v)u，v為子圖c中的節(jié)點(diǎn)，P(u,v)為邊e=(u,v)的權(quán)重，e∈Ec。weightout(c)=∑v∈Vc,u?VcP(u,v),u為子圖c中的節(jié)點(diǎn)，v不為子圖c中的節(jié)點(diǎn)，P(u,v)為邊e=(u,v)的權(quán)重，e?Ec。δ為模塊校正參數(shù)，可用于代表所預(yù)測(cè)復(fù)合物中暫未發(fā)現(xiàn)的蛋白質(zhì)，同時(shí)也可用于消除噪聲。Vapnik[18]通過實(shí)驗(yàn)分析，δ取值為PPI網(wǎng)絡(luò)平均度的一半時(shí)效果最佳。由式(8) 計(jì)算得到子圖c的模塊度，若簇邊界內(nèi)的邊權(quán)值總和大于其邊界外的邊權(quán)值總和，即：

則稱子圖c為稠密子圖。

由于蛋白質(zhì)復(fù)合物是稠密子圖，在PPI網(wǎng)絡(luò)中從度較大的節(jié)點(diǎn)開始搜索候選蛋白質(zhì)復(fù)合物，將會(huì)更快搜索到稠密子圖，因此本文首先考慮選取節(jié)點(diǎn)度大于平均度的節(jié)點(diǎn)作為種子節(jié)點(diǎn)。由種子節(jié)點(diǎn)開始，向外擴(kuò)散搜索構(gòu)造子圖，并計(jì)算該子圖的模塊度，直至其模塊度達(dá)到最大，將其加入候選集中。獲取蛋白質(zhì)復(fù)合物候選集合candidate_set的具體過程如算法2所示。獲取候選集合后，將候選集合中的蛋白質(zhì)復(fù)合物轉(zhuǎn)換為向量即可用graph2vec-SVM模型進(jìn)行識(shí)別分類。

算法2getcandidate_set

輸入：PPI networkG=(V,E,W,Lv)。

輸出：candidate_set。

1.fornodev∈V/*獲取種子節(jié)點(diǎn)集合，種子節(jié)點(diǎn)為度大于平均度的節(jié)點(diǎn)*/

2.ifdegree ofvmore than average degree ofG,insertvinto the set seed/*由種子節(jié)點(diǎn)開始構(gòu)造候選蛋白質(zhì)復(fù)合物*/

3.fors∈seed

4.c={s};Q(c)=0;

5.Nv(s)//computing the neighbors ofs

6.foreachnoden∈Nv(s)

7.c′=c∪{n};

8. computeQ(c′);//計(jì)算子圖模塊度

9.ifQ(c′) ≥Q(c)

10.c=c′;

11. insertcintocandidate_set;

12.returncandidate_set

算法2在執(zhí)行過程中可能會(huì)因?yàn)閺?fù)合物高度重合而造成冗余。本文將候選蛋白質(zhì)復(fù)合物間重合度大于0.7[19]的復(fù)合物認(rèn)為是重合的，重合度計(jì)算方法如式(9)所示(即重合度為復(fù)合物A和復(fù)合物B共有節(jié)點(diǎn)個(gè)數(shù)與復(fù)合物A節(jié)點(diǎn)個(gè)數(shù)和復(fù)合物B節(jié)點(diǎn)個(gè)數(shù)乘積的比值)，并剔除模塊度小的復(fù)合物。

OS(A,B)=|A∩B|2/(|A|×|B|)

(9)

去重算法過程如算法3所示。

算法3get finalcandidate_set

輸入：candidate_set。

1.forc∈candidate_set

2.ifSize(c) < 2//丟棄規(guī)模小于2的子圖

3. removecfromcandidate_set;

4.forA∈candidate_set

5.forB∈candidate_set

//計(jì)算蛋白質(zhì)復(fù)合物間的重合度

6.ifOS(A,B) > 0.7

//保留模塊度大的蛋白質(zhì)復(fù)合物

7.ifQ(A) ≥Q(B)

8. removeBfromcandidate_set

9.elseremoveAfromcandidate_set

3.3 蛋白質(zhì)復(fù)合物的識(shí)別

3.1節(jié)利用標(biāo)準(zhǔn)庫(kù)中的復(fù)合物和隨機(jī)生成子圖訓(xùn)練graph2vec-SVM算法并得到具有識(shí)別復(fù)合物功能的分類器；3.2節(jié)利用式(8) 定義的模塊度搜索稠密子圖，去重后得到待識(shí)別的候選蛋白質(zhì)復(fù)合物集合；本節(jié)利用3.1節(jié)中訓(xùn)練好的graph2vec-SVM算法識(shí)別3.2節(jié)中去重后得到的候選蛋白質(zhì)復(fù)合物。與算法1相似，在進(jìn)行蛋白質(zhì)復(fù)合物的識(shí)別前，需先利用graph2vec將其轉(zhuǎn)換為向量，具體過程如算法4所示。

算法4Predict protein complex

輸入：candidate_set,k,D,ep,l。

輸出：predictions。

//用graph2vec將每個(gè)候選蛋白質(zhì)復(fù)合物轉(zhuǎn)換為向量

1.c∈candidate_set

2.vectors=graph2vec(candidate_set,k,D,ep,l);

3.model=graph2vec-SVM(G,k,D,ep,l);

//對(duì)候選蛋白質(zhì)復(fù)合物進(jìn)行識(shí)別

4.Predictions=model.predict(vectors);

5.returnpredictions

4 實(shí)驗(yàn)結(jié)果及分析

本文將graph2vec-SVM蛋白質(zhì)復(fù)合物識(shí)別算法與目前較為經(jīng)典的4種算法，包括ClusterOne、CMC、HC-PIN和COACH在酵母菌相互作用網(wǎng)絡(luò)DIP(Database of Interacting Proteins)[20]上進(jìn)行比較。蛋白質(zhì)復(fù)合物標(biāo)準(zhǔn)庫(kù)采用CYC2008[21]和 MIPS[22]標(biāo)準(zhǔn)庫(kù)。2個(gè)標(biāo)準(zhǔn)庫(kù)分別由408個(gè)復(fù)合物和428個(gè)復(fù)合物組成。

4.1 評(píng)價(jià)指標(biāo)

本文將所識(shí)別的蛋白質(zhì)復(fù)合物與標(biāo)準(zhǔn)庫(kù)中的蛋白質(zhì)復(fù)合物進(jìn)行比較以保證蛋白質(zhì)復(fù)合物識(shí)別的質(zhì)量。識(shí)別質(zhì)量的評(píng)價(jià)指標(biāo)主要有精準(zhǔn)度(Precision)、敏感度(Sensitivity)和F-measure。精準(zhǔn)度為識(shí)別的復(fù)合物中真實(shí)復(fù)合物的數(shù)量與識(shí)別的復(fù)合物總數(shù)量的比值；敏感度為識(shí)別的復(fù)合物中真實(shí)復(fù)合物的數(shù)量與總真實(shí)復(fù)合物數(shù)量的比值；F-measure是精準(zhǔn)度和敏感度的調(diào)和平均值，其計(jì)算方法如式(10)所示：

(10)

Precision=TP/(TP+FP)

(11)

Sensitivity=TP/(FN+TP)

(12)

其中，TP為所識(shí)別復(fù)合物中與標(biāo)準(zhǔn)庫(kù)中復(fù)合物相匹配的復(fù)合物數(shù)量，其匹配程度通過式(9)計(jì)算，OS>R的識(shí)別復(fù)合物被認(rèn)為是真正的蛋白質(zhì)復(fù)合物，R為匹配程度的閾值，其值通常設(shè)置為0.2[23]。TN為識(shí)別結(jié)果中真實(shí)非蛋白質(zhì)復(fù)合物的數(shù)量，F(xiàn)N為真實(shí)蛋白質(zhì)復(fù)合物被識(shí)別為假蛋白質(zhì)復(fù)合物的數(shù)量。

4.2 graph2vec參數(shù)設(shè)置

本文使用標(biāo)準(zhǔn)庫(kù)中節(jié)點(diǎn)數(shù)大于2的蛋白質(zhì)復(fù)合物作為正樣本，負(fù)樣本為隨機(jī)生成的子圖。利用graph2vec將正樣本和負(fù)樣本轉(zhuǎn)換為向量，參數(shù)的設(shè)置如表1所示，轉(zhuǎn)換后的向量即為分類器的訓(xùn)練集。

Table 1 Setting of graph2vec parameter

表1中，batch_size為一次訓(xùn)練所選取的樣本數(shù);epochs為訓(xùn)練樣本被整體訓(xùn)練的次數(shù);max_k為根子圖的最大步長(zhǎng);embedding_size為圖轉(zhuǎn)換為向量的維數(shù)，若embedding_size太小會(huì)導(dǎo)致圖的信息丟失，從而造成識(shí)別算法不能很好地識(shí)別出蛋白質(zhì)復(fù)合物，若其太大又會(huì)包含冗余的信息，從而影響蛋白質(zhì)復(fù)合物的識(shí)別。實(shí)驗(yàn)過程中發(fā)現(xiàn)，當(dāng)embedding_size=512時(shí)其能夠較好地表示圖的信息。num_negsamples為噪聲樣本的數(shù)量，learning_rate為學(xué)習(xí)率,最終得到的向量為V(G)=(v1,v2,…,vδ)。

4.3 對(duì)比模型的選取

本文在DIP數(shù)據(jù)集上采用3種機(jī)器學(xué)習(xí)分類器(LR、SVM和XGBoost)進(jìn)行蛋白質(zhì)復(fù)合物的識(shí)別，蛋白質(zhì)復(fù)合物標(biāo)準(zhǔn)庫(kù)為MIPS，其結(jié)果分別如圖4和表2所示。

Figure 4 Performance of three classifiers on DIP dataset

Table 2 Identify results of three classifiers on MIPS standard library

由圖4可知,LR、SVM和XGBoost在3項(xiàng)指標(biāo)中都有較好的結(jié)果，但從表2可看出，LR和XGBoost正確識(shí)別蛋白質(zhì)復(fù)合物數(shù)量較高，但正確識(shí)別非蛋白質(zhì)復(fù)合物的數(shù)量極低，而SVM的綜合表現(xiàn)相對(duì)較好，所以本文最終選取SVM分類器進(jìn)行蛋白質(zhì)復(fù)合物的識(shí)別。

4.4 與非監(jiān)督學(xué)習(xí)算法的對(duì)比

graph2vec-SVM與4種非監(jiān)督學(xué)習(xí)算法(CMC、COACH、HC-PIN和ClusterOne)在DIP數(shù)據(jù)集上精準(zhǔn)度、敏感度和F-measure的表現(xiàn)如圖5所示，其中蛋白質(zhì)復(fù)合物的標(biāo)準(zhǔn)庫(kù)采用的是CYC2008。從圖5可以看出，graph2vec-SVM在3項(xiàng)指標(biāo)中都取得了良好的效果，在該數(shù)據(jù)集上的精準(zhǔn)度(0.42)有待提高，敏感度(0.66)和F-measure(0.51)均好于其他算法的。

Figure 5 Performance of each algorithm on DIP dataset

為進(jìn)一步分析實(shí)驗(yàn)結(jié)果，將CYC2008標(biāo)準(zhǔn)庫(kù)替換為MIPS標(biāo)準(zhǔn)庫(kù)后，結(jié)果如表3所示。從表3可以看出，graph2vec-SVM識(shí)別算法在所有對(duì)比算法中識(shí)別出正確蛋白質(zhì)復(fù)合物的數(shù)量最多，且其F-measure也最高，正確識(shí)別非蛋白質(zhì)復(fù)合物的數(shù)量比COACH算法次之，但綜合來(lái)說(shuō)graph2vec-SVM識(shí)別算法相較于對(duì)比算法表現(xiàn)較好。

Table 3 Comparison of algorithms on MIPS standard library

4.5 與監(jiān)督學(xué)習(xí)算法的對(duì)比

本節(jié)將graph2vec-SVM識(shí)別算法與3種監(jiān)督學(xué)習(xí)算法(SCI-BN,SCI-SVM和RM)在DIP數(shù)據(jù)集上進(jìn)行對(duì)比。4種算法均采用MIPS標(biāo)準(zhǔn)庫(kù)中的蛋白質(zhì)復(fù)合物作為正樣本進(jìn)行模型訓(xùn)練。3種監(jiān)督學(xué)習(xí)算法參數(shù)均參照文獻(xiàn)[23-25]設(shè)置。實(shí)驗(yàn)對(duì)比結(jié)果如表4所示，從表4中可以看出,graph2vec-SVM在DIP數(shù)據(jù)集上Precision、Sensitivity和F-measure的表現(xiàn)相對(duì)其他3種算法都較好。

Table 4 Comparison with supervised algorithms on MIPS standard library

5 結(jié)束語(yǔ)

本文針對(duì)非監(jiān)督學(xué)習(xí)識(shí)別算法的隨機(jī)特性會(huì)影響復(fù)合物的識(shí)別準(zhǔn)確性，以及監(jiān)督學(xué)習(xí)識(shí)別算法的人為構(gòu)造特征不完備等缺陷，提出了graph2vec-SVM蛋白質(zhì)復(fù)合物識(shí)別算法。該算法利用grah2vec將圖的信息轉(zhuǎn)換為向量，并進(jìn)一步采用SVM分類器進(jìn)行蛋白質(zhì)復(fù)合物的識(shí)別，實(shí)驗(yàn)結(jié)果表明，該算法與目前流行的監(jiān)督學(xué)習(xí)算法與傳統(tǒng)非監(jiān)督學(xué)習(xí)算法在敏感度和F-measure上都取得了較好的效果，但由于在生成隨機(jī)子圖時(shí)存在離散點(diǎn)而導(dǎo)致精準(zhǔn)度不高，未來(lái)在完善識(shí)別算法時(shí)我們將著手克服離散點(diǎn)來(lái)嘗試提高精準(zhǔn)度。