蔡松成,牛 耘
(南京航空航天大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,江蘇 南京 211106)
隨著人們對文本中分子途徑和分子交互關(guān)系等信息需求的不斷增加,蛋白質(zhì)交互作用關(guān)系(protein-protein interaction,PPI)的自動抽取在分子生物學(xué)領(lǐng)域變得越來越重要。PPI是指細(xì)胞內(nèi)兩個蛋白質(zhì)之間的交互作用,這種交互作用環(huán)環(huán)相扣,深刻影響著整個細(xì)胞生理作用的調(diào)節(jié)。起初生物醫(yī)學(xué)領(lǐng)域的專家手工地從醫(yī)學(xué)文獻(xiàn)中收集這些信息錄入統(tǒng)一格式的數(shù)據(jù)庫中,如HPRD[1]、IntAc[2]、MINT[3]和BIND[4]等。然而隨著生物醫(yī)學(xué)文獻(xiàn)的急劇增加,新的蛋白質(zhì)之間的關(guān)系也在產(chǎn)生。手工錄入蛋白質(zhì)之間的交互信息顯然遠(yuǎn)不能滿足實際需要,因此自動地從醫(yī)學(xué)文獻(xiàn)中抽取PPI已經(jīng)成為一項重要的研究內(nèi)容。
在此背景下,基于自然語言處理的PPI自動識別技術(shù)正在快速發(fā)展并已取得了很大的進(jìn)展。目前PPI識別是采用有監(jiān)督的機器學(xué)習(xí)方法,以單句為依據(jù)來識別句子之間的交互關(guān)系,需要大量人工標(biāo)注的數(shù)據(jù),代價高昂,所以將遠(yuǎn)監(jiān)督的思想運用到PPI識別上,解決了訓(xùn)練數(shù)據(jù)不足的問題。但是由于遠(yuǎn)監(jiān)督思想的缺陷,引入了大量噪音,影響現(xiàn)階段PPI識別的精度。針對這個問題,采用一種基于最大期望算法的多實例多標(biāo)記學(xué)習(xí)(multi-instance multi-label,MIML)方法來進(jìn)行蛋白質(zhì)交互關(guān)系的識別,有效消除了簽名檔中噪音對交互關(guān)系識別的影響。
目前,用于從生物醫(yī)學(xué)文獻(xiàn)中抽取PPI的技術(shù)主要包括:基于同現(xiàn)的方法[5]、基于規(guī)則的方法和基于機器學(xué)習(xí)[6-8]的方法?;谕F(xiàn)的方法通過統(tǒng)計兩個蛋白質(zhì)在句子中的共現(xiàn)頻率來判斷是否存在交互關(guān)系,識別結(jié)果召回率高但精確度低;基于規(guī)則的方法可以取得較高的精確度但是召回率較低,而且通過手動建立規(guī)則的方法需要大量的人力物力,且制定的規(guī)則只適用于某些特定領(lǐng)域的數(shù)據(jù),無法普遍應(yīng)用。
隨著機器學(xué)習(xí)的流行,研究者們越來越多地采用基于機器學(xué)習(xí)的方法進(jìn)行PPI的識別?;跈C器學(xué)習(xí)的方法主要包括兩大類:基于特征的方法和基于核函數(shù)的方法。基于特征的方法從標(biāo)注有交互關(guān)系的句子中抽取重要特征,包括詞匯特征、語法特征和語義特征,建立模型來判斷蛋白質(zhì)之間的交互關(guān)系[9-10]?;诤撕瘮?shù)的方法首先深入研究句子結(jié)構(gòu),通過設(shè)計核函數(shù)進(jìn)一步利用句子結(jié)構(gòu)表示(如字符串序列、句法依賴或句法分析)上的隱含特征,然后使用支持核函數(shù)的分類器進(jìn)行PPI關(guān)系的識別。Haussler D[11]提出了針對離散結(jié)構(gòu)的卷積核;Lodhi H等[12]將特征空間特定長度詞語子序列的內(nèi)積作為函數(shù)的計算方式,提出了字符串核;Bunescu R C等[13]提出了最短依賴路徑核,將句子以樹的形式表示,用兩個實體之間的最短路徑表示實體之間的關(guān)系。然而目前利用機器學(xué)習(xí)方法來進(jìn)行PPI關(guān)系識別一般都是以句子為單位,分析一句話中出現(xiàn)的任意一對蛋白質(zhì)對之間是否存在交互關(guān)系。這種方式能夠在句子級別上提供蛋白質(zhì)對交互關(guān)系的描述和證據(jù),但是也存在一定的局限性。這種方式所需的訓(xùn)練集要求對每一個句子中出現(xiàn)的每一對蛋白質(zhì)是否存在交互關(guān)系進(jìn)行標(biāo)注,當(dāng)訓(xùn)練語料不足時,PPI關(guān)系識別的效果會大打折扣。但人工標(biāo)注大規(guī)模文本需要耗費大量的人力物力。
針對這些不足,文中試圖采用遠(yuǎn)監(jiān)督思想來進(jìn)行PPI關(guān)系的抽取。遠(yuǎn)監(jiān)督方法已經(jīng)用于關(guān)系識別領(lǐng)域,遠(yuǎn)監(jiān)督思想假設(shè)如果兩個實體之間存在某種關(guān)系,那么包含這兩個實體的所有句子都在一定程度上表達(dá)了這種關(guān)系?;谏鲜黾僭O(shè),遠(yuǎn)監(jiān)督通過將知識庫中的實體和訓(xùn)練語料文本中的實體進(jìn)行匹配,產(chǎn)生大量帶標(biāo)注的訓(xùn)練數(shù)據(jù),避免了人工標(biāo)注數(shù)據(jù)的繁重勞動。對于PPI關(guān)系識別,同樣存在標(biāo)注數(shù)據(jù)不足的問題,所以可以將遠(yuǎn)監(jiān)督[14-15]方法運用到PPI關(guān)系抽取上。
但是基于遠(yuǎn)監(jiān)督方法的PPI識別也存在一個問題。對于有交互關(guān)系的蛋白質(zhì)對事實上并非其簽名檔中的所有句子都表達(dá)了該蛋白質(zhì)對的交互關(guān)系,其中很多句子是不表達(dá)交互關(guān)系的,從而這部分?jǐn)?shù)據(jù)成為了訓(xùn)練過程中的噪音,最終會影響蛋白質(zhì)對交互關(guān)系的識別結(jié)果。
針對遠(yuǎn)監(jiān)督的PPI抽取方法存在的問題,文中采用一種基于最大期望算法的多實例多標(biāo)記的學(xué)習(xí)方法。多實例多標(biāo)記是一種新型的關(guān)系抽取的學(xué)習(xí)框架[16],在該框架中,每個對象由多個實例描述,同時對象可以擁有多個類別標(biāo)記,這個框架尤其適用于多義性的對象。多實例多標(biāo)記學(xué)習(xí)框架已被成功應(yīng)用于圖像文本分類[17]、視頻標(biāo)注[18]、基因圖像識別[19]等任務(wù)中,既充分利用了蛋白質(zhì)對簽名檔的信息,同時又改善了利用遠(yuǎn)監(jiān)督思想來標(biāo)記簽名檔中的句子帶來的噪音問題。在此基礎(chǔ)上又對特征加以改進(jìn),有效消除了其他蛋白質(zhì)對目標(biāo)蛋白質(zhì)對交互關(guān)系識別的影響。
基于最大期望算法的多實例多標(biāo)記學(xué)習(xí)方法,是在基于遠(yuǎn)監(jiān)督方法的基礎(chǔ)上,從大規(guī)模生物醫(yī)學(xué)文獻(xiàn)中搜索得到的蛋白質(zhì)對簽名檔中提取特征,構(gòu)建向量空間模型(vector space model,VSM)。在此基礎(chǔ)上引入隱變量,將蛋白質(zhì)對的簽名檔和標(biāo)簽構(gòu)建為多實例多標(biāo)記的學(xué)習(xí)框架,利用最大期望算法迭代地消除噪音。最終采用監(jiān)督學(xué)習(xí)的方法來預(yù)測未知蛋白質(zhì)對的交互關(guān)系。
PubMed數(shù)據(jù)庫作為建立PPI網(wǎng)絡(luò)重要的數(shù)據(jù)來源,收錄了超過一千八百萬篇生物醫(yī)學(xué)文獻(xiàn)摘要。從PubMed數(shù)據(jù)中獲取蛋白質(zhì)對簽名檔的過程包括:
(1)調(diào)用PubMed數(shù)據(jù)庫提供的接口,搜索包含目標(biāo)蛋白質(zhì)對的摘要。
(2)使用伊利諾州大學(xué)Urbana-Champaign分校認(rèn)知計算研究組開發(fā)的句子識別工具來識別摘要集合中的句子,保留包含目標(biāo)蛋白質(zhì)對的句子作為簽名檔的內(nèi)容。
最終每一個目標(biāo)蛋白質(zhì)對都會有一個包含多個句子的集合與之對應(yīng),這個句子集合即為蛋白質(zhì)對的簽名檔,接下來將簽名檔作為蛋白質(zhì)對交互關(guān)系的特征來源進(jìn)行處理。
實驗中使用到了兩個邏輯回歸分類器來進(jìn)行PPI關(guān)系的識別。一個是對蛋白質(zhì)對簽名檔中的句子進(jìn)行交互關(guān)系判斷的句子級分類器,另一個是對蛋白質(zhì)對進(jìn)行分類的頂層分類器。兩個分類器的主要差別在于特征的表示上,句子級分類器利用提取得到的句子的語言學(xué)特征進(jìn)行分類,而頂層分類器通過當(dāng)前簽名檔中句子的分類結(jié)果形成特征進(jìn)行分類。句子級分類器特征的形成主要是選取訓(xùn)練集中所有句子中重要的單詞特征作為向量的每一維。具體處理過程為:首先對句子進(jìn)行分詞,去除無意義的標(biāo)點符號以及停用詞;然后選取句子中出現(xiàn)在兩個目標(biāo)蛋白質(zhì)之間的單詞,以及第一個目標(biāo)蛋白質(zhì)左邊2個單詞和第二個目標(biāo)蛋白質(zhì)右邊2個單詞;最終將這些單詞作為句子中蛋白質(zhì)對的上下文特征來構(gòu)建向量空間模型。若在句子的上下文特征中出現(xiàn)了某個特征詞,則在向量中對應(yīng)于出現(xiàn)特征詞的某一維用1記錄,否則用0記錄。
對于頂層分類器中蛋白質(zhì)對的實際交互關(guān)系,采取簽名檔中判斷為有交互關(guān)系的句子數(shù)占簽名檔中所有句子的比例作為特征構(gòu)建一維向量。
在該模型中,對于訓(xùn)練集中的每一個蛋白質(zhì)對,都有已知的唯一標(biāo)記,即有無交互關(guān)系,但對于簽名檔中的每一個句子并不知道其真實的標(biāo)記。所以,引入一個隱變量z來代表句子的標(biāo)記。z=non-interactive表示在該句中目標(biāo)蛋白質(zhì)對之間沒有交互關(guān)系;z=interactive表示目標(biāo)蛋白質(zhì)對之間存在交互關(guān)系。對于PPI關(guān)系抽取中的關(guān)系是互補的,兩個蛋白質(zhì)之間的關(guān)系就分為有交互和無交互兩種。在該模型中,如圖1所示,由兩層構(gòu)成,包含一個對蛋白質(zhì)對簽名檔中的句子進(jìn)行分類的句子級二元分類器(z分類器)和一個對蛋白質(zhì)對進(jìn)行分類的頂層二元分類器(y分類器)。
圖1 多實例多標(biāo)記學(xué)習(xí)框架
圖中,n表示蛋白質(zhì)對的數(shù)目;Mi表示第i對蛋白質(zhì)對簽名檔的數(shù)目;x表示輸入的一個句子;wz表示z分類器的權(quán)重向量;wy表示y分類器的權(quán)重向量。
2.3.1 訓(xùn) 練
由于蛋白質(zhì)對簽名檔中的句子標(biāo)記是未知的,而最大期望算法是估計隱變量的有效方法,所以文中采用最大期望算法來訓(xùn)練多實例多標(biāo)記的學(xué)習(xí)框架。最大期望算法主要由M步和E步構(gòu)成,M步訓(xùn)練句子級分類器(z分類器)和頂層分類器(y分類器),E步根據(jù)得到的兩個分類器來更新句子的標(biāo)記,經(jīng)過多次迭代使句子的標(biāo)記更加接近于真實的標(biāo)記。
在以下的公式中,向量zi代表第i個蛋白質(zhì)對所有句子的標(biāo)記構(gòu)成的一個向量;yi用來表示第i個蛋白質(zhì)對的標(biāo)記,用公式表示為:
(1)
其中,Pi為關(guān)系正例,表示第i對蛋白質(zhì)對具有的關(guān)系;Ni是關(guān)系負(fù)例,表示第i對蛋白質(zhì)對不具有的關(guān)系。
文中使用最大期望算法來最大化極大似然函數(shù)的下界,也就是說最大化數(shù)據(jù)庫中每個蛋白質(zhì)對的聯(lián)合概率,得到:
(2)
E-step:在此步驟,對于每個蛋白質(zhì)對的簽名檔,給定蛋白質(zhì)對的標(biāo)記集合,以及目前模型學(xué)習(xí)得到的z分類器和y分類器的權(quán)重向量,推斷出蛋白質(zhì)對句子級別的分類結(jié)果。
(3)
通過近似化,將向量z進(jìn)行拆分,分開考慮每個句子的分類結(jié)果。對于每個蛋白質(zhì)對i=1,2,…,n中的每個句子m∈Mi,計算:
(4)
M-step:此步驟利用E-step得到的句子分類結(jié)果zi通過最大化似然函數(shù)的下界,得到對應(yīng)的wz和wy。實際上就是通過學(xué)習(xí)來更新句子級和蛋白質(zhì)對級權(quán)重參數(shù),具體公式如下:
(5)
(6)
2.3.2 預(yù) 測
(1)對于一個給定的蛋白質(zhì)對,首先預(yù)測其簽名檔中句子的分類結(jié)果。
(7)
(2)利用頂層分類器來決定該蛋白質(zhì)對是否具有交互關(guān)系。
(8)
2.3.3 實 現(xiàn)
初始化:由于最大期望算法并不是全局最優(yōu)算法,因此初始值的設(shè)置對最后的結(jié)果有著重要的影響。在該模型中,初始值為簽名檔中句子的類別分布zi。利用原始的簽名檔數(shù)據(jù)來訓(xùn)練一個分類器,然后通過此分類器對簽名檔中的句子進(jìn)行分類,將分類結(jié)果作為初始值zi。
通過對目標(biāo)蛋白質(zhì)對簽名檔數(shù)據(jù)的觀察,發(fā)現(xiàn)在包含目標(biāo)蛋白質(zhì)對的同一個句子的描述中往往還存在其他蛋白質(zhì),這些蛋白質(zhì)可能會對目標(biāo)蛋白質(zhì)交互關(guān)系的判斷造成影響?;谶@個原因,需要對句子級分類器原始的特征加以改進(jìn)。
文中利用一個生物醫(yī)學(xué)文本命名實體識別工具ABNER來識別句子中其他蛋白質(zhì)的名稱。ABNER在NLPBA和BioCreative語料庫上進(jìn)行訓(xùn)練,在兩個語料庫上識別的F值分別達(dá)到了72.6%和69.9%。
通過觀察蛋白質(zhì)對的簽名檔,可以發(fā)現(xiàn)描述交互作用的句子中經(jīng)常會出現(xiàn)bind、interact、activate、inhibit、down-regulate等表示蛋白質(zhì)交互作用的單詞。這些單詞通常被認(rèn)為是識別蛋白質(zhì)交互關(guān)系的關(guān)鍵詞。關(guān)鍵詞對于蛋白質(zhì)交互關(guān)系識別尤為重要,已經(jīng)作為線索運用到基于模式匹配的PPI抽取方法中。文中選擇關(guān)鍵詞作為一維特征對原有特征加以改進(jìn),采用的關(guān)鍵詞集合利用了Joshua M.Temkin[20]提出的關(guān)鍵詞列表。
觀察以下描述蛋白質(zhì)交互關(guān)系的句子:
#arnt# mRNA appeared to be slightly but significantly down-regulated by
用##標(biāo)注出來的是兩個目標(biāo)蛋白質(zhì),而用
在保留2.1節(jié)所有特征的基礎(chǔ)上,又新增了5個特征來對句子級分類器進(jìn)行改進(jìn)。首先對簽名檔中的每一個句子,抽取出第一個蛋白質(zhì)左邊的7個單詞和第二個蛋白質(zhì)右邊的7個單詞以及兩個蛋白質(zhì)中間的所有單詞。然后將第一個蛋白質(zhì)左邊和第二個蛋白質(zhì)右邊是否有關(guān)鍵字和其他蛋白質(zhì)的名稱以及目標(biāo)蛋白質(zhì)中間有沒有其他蛋白質(zhì)作為5維特征添加到原有特征中,權(quán)重采用二值權(quán)重,若有則置為1,否則置為0。增加了這5維特征后,以第一個蛋白質(zhì)左邊的兩個特征為例,若出現(xiàn)了關(guān)鍵詞和其他蛋白質(zhì),則很有可能表示的是其他蛋白質(zhì)和第一個目標(biāo)蛋白質(zhì)之間的交互關(guān)系。
采用的訓(xùn)練數(shù)據(jù)來自于現(xiàn)有的PPI數(shù)據(jù)庫,無需額外的人工標(biāo)注。將有交互關(guān)系的蛋白質(zhì)對視為正樣例,無交互的視為負(fù)樣例。實驗中有交互關(guān)系的蛋白質(zhì)對是直接從HPRD數(shù)據(jù)庫中查詢獲取,并且只保留被PubMed數(shù)據(jù)庫中一篇以上摘要包含的那些蛋白質(zhì)對。而對于無交互關(guān)系的蛋白質(zhì)對,采用生物醫(yī)學(xué)領(lǐng)域常用方法,將蛋白質(zhì)隨機組合成蛋白質(zhì)對,去除已被HPRD數(shù)據(jù)庫包含的蛋白質(zhì)對以及未被PubMed數(shù)據(jù)庫記載的蛋白質(zhì)對。以兩個待考察的蛋白質(zhì)為查詢條件,通過PubMed數(shù)據(jù)庫的應(yīng)用程序接口查詢目標(biāo)蛋白質(zhì)對的文獻(xiàn)摘要,然后對摘要文本集合進(jìn)行處理,找出包含目標(biāo)蛋白質(zhì)對的句子,形成簽名檔。最終總共得到有交互關(guān)系和無交互關(guān)系的蛋白質(zhì)對分別為576對和578對,合計1 154對。
實驗采用的結(jié)果性能評價指標(biāo)是當(dāng)前PPI抽取系統(tǒng)主要使用的三個指標(biāo):精確度(precision=TP/(TP+FP))、召回率(recall=TP/(TP+FN))和F值(F-Score=2P×R/(P+R))。為了避免簡單應(yīng)用模型而產(chǎn)生過擬合問題,利用五折交叉驗證來評估模型的性能。將原始數(shù)據(jù)按照蛋白質(zhì)對平均劃分為5折,將每個子集數(shù)據(jù)分別做一次驗證集,其余的4組子集數(shù)據(jù)作為訓(xùn)練集,這樣會得到5個模型,用這5個模型最終驗證集的平均性能作為評價整個方法性能的指標(biāo)。
為了比較使用原始特征和改進(jìn)后特征的實驗結(jié)果,以第一折數(shù)據(jù)為例,取最大期望算法迭代的前六次(迭代6次以后實驗結(jié)果基本趨向局部最優(yōu)解),結(jié)果如表1、表2所示。
表1 采用原始特征的識別結(jié)果
表2 采用改進(jìn)特征的識別結(jié)果
從這兩張表可以發(fā)現(xiàn),隨著迭代次數(shù)的增加,采用改進(jìn)以后的特征在精確度、召回率和F值上都有明顯提高。最終結(jié)果是要把五折數(shù)據(jù)識別的平均結(jié)果作為該模型PPI識別的性能,如表3所示。
表3 五折交叉驗證識別結(jié)果比較
從上述識別結(jié)果發(fā)現(xiàn),對特征加以改進(jìn)后,識別的準(zhǔn)確率雖然稍有下降,但是召回率提高了3.6%,整體F值提高1%。說明改進(jìn)后,算法考慮了其他蛋白質(zhì)對目標(biāo)蛋白質(zhì)識別的影響,使模型取得了更好的性能。
由于基于遠(yuǎn)監(jiān)督的PPI抽取方法存在大量噪音問題,文中采用基于最大期望算法的多實例多標(biāo)記學(xué)習(xí)框架,同時在此基礎(chǔ)上對特征加以改進(jìn),消除了簽名檔中其他蛋白質(zhì)對目標(biāo)蛋白質(zhì)對交互關(guān)系判斷的影響。實驗結(jié)果表明,該方法取得了更高的識別精度。
下一步將利用蛋白質(zhì)對簽名檔中包含的豐富信息對句子級分類器得到的結(jié)果進(jìn)行改進(jìn),使句子級的分類更加準(zhǔn)確,從而能進(jìn)一步提高PPI識別的效果。