基于最大期望算法的蛋白質(zhì)交互關(guān)系識別

2018-08-21 01:59:44蔡松成

計算機技術(shù)與發(fā)展 2018年8期

蔡松成，牛耘

(南京航空航天大學(xué) 計算機科學(xué)與技術(shù)學(xué)院，江蘇南京 211106)

0 引言

隨著人們對文本中分子途徑和分子交互關(guān)系等信息需求的不斷增加，蛋白質(zhì)交互作用關(guān)系(protein-protein interaction，PPI)的自動抽取在分子生物學(xué)領(lǐng)域變得越來越重要。PPI是指細(xì)胞內(nèi)兩個蛋白質(zhì)之間的交互作用，這種交互作用環(huán)環(huán)相扣，深刻影響著整個細(xì)胞生理作用的調(diào)節(jié)。起初生物醫(yī)學(xué)領(lǐng)域的專家手工地從醫(yī)學(xué)文獻(xiàn)中收集這些信息錄入統(tǒng)一格式的數(shù)據(jù)庫中，如HPRD[1]、IntAc[2]、MINT[3]和BIND[4]等。然而隨著生物醫(yī)學(xué)文獻(xiàn)的急劇增加，新的蛋白質(zhì)之間的關(guān)系也在產(chǎn)生。手工錄入蛋白質(zhì)之間的交互信息顯然遠(yuǎn)不能滿足實際需要，因此自動地從醫(yī)學(xué)文獻(xiàn)中抽取PPI已經(jīng)成為一項重要的研究內(nèi)容。

在此背景下，基于自然語言處理的PPI自動識別技術(shù)正在快速發(fā)展并已取得了很大的進(jìn)展。目前PPI識別是采用有監(jiān)督的機器學(xué)習(xí)方法，以單句為依據(jù)來識別句子之間的交互關(guān)系，需要大量人工標(biāo)注的數(shù)據(jù)，代價高昂，所以將遠(yuǎn)監(jiān)督的思想運用到PPI識別上，解決了訓(xùn)練數(shù)據(jù)不足的問題。但是由于遠(yuǎn)監(jiān)督思想的缺陷，引入了大量噪音，影響現(xiàn)階段PPI識別的精度。針對這個問題，采用一種基于最大期望算法的多實例多標(biāo)記學(xué)習(xí)(multi-instance multi-label，MIML)方法來進(jìn)行蛋白質(zhì)交互關(guān)系的識別，有效消除了簽名檔中噪音對交互關(guān)系識別的影響。

1 相關(guān)工作

目前，用于從生物醫(yī)學(xué)文獻(xiàn)中抽取PPI的技術(shù)主要包括：基于同現(xiàn)的方法[5]、基于規(guī)則的方法和基于機器學(xué)習(xí)[6-8]的方法?；谕F(xiàn)的方法通過統(tǒng)計兩個蛋白質(zhì)在句子中的共現(xiàn)頻率來判斷是否存在交互關(guān)系，識別結(jié)果召回率高但精確度低；基于規(guī)則的方法可以取得較高的精確度但是召回率較低，而且通過手動建立規(guī)則的方法需要大量的人力物力，且制定的規(guī)則只適用于某些特定領(lǐng)域的數(shù)據(jù)，無法普遍應(yīng)用。

隨著機器學(xué)習(xí)的流行，研究者們越來越多地采用基于機器學(xué)習(xí)的方法進(jìn)行PPI的識別?；跈C器學(xué)習(xí)的方法主要包括兩大類：基于特征的方法和基于核函數(shù)的方法。基于特征的方法從標(biāo)注有交互關(guān)系的句子中抽取重要特征，包括詞匯特征、語法特征和語義特征，建立模型來判斷蛋白質(zhì)之間的交互關(guān)系[9-10]?；诤撕瘮?shù)的方法首先深入研究句子結(jié)構(gòu)，通過設(shè)計核函數(shù)進(jìn)一步利用句子結(jié)構(gòu)表示(如字符串序列、句法依賴或句法分析)上的隱含特征，然后使用支持核函數(shù)的分類器進(jìn)行PPI關(guān)系的識別。Haussler D[11]提出了針對離散結(jié)構(gòu)的卷積核；Lodhi H等[12]將特征空間特定長度詞語子序列的內(nèi)積作為函數(shù)的計算方式，提出了字符串核；Bunescu R C等[13]提出了最短依賴路徑核，將句子以樹的形式表示，用兩個實體之間的最短路徑表示實體之間的關(guān)系。然而目前利用機器學(xué)習(xí)方法來進(jìn)行PPI關(guān)系識別一般都是以句子為單位，分析一句話中出現(xiàn)的任意一對蛋白質(zhì)對之間是否存在交互關(guān)系。這種方式能夠在句子級別上提供蛋白質(zhì)對交互關(guān)系的描述和證據(jù)，但是也存在一定的局限性。這種方式所需的訓(xùn)練集要求對每一個句子中出現(xiàn)的每一對蛋白質(zhì)是否存在交互關(guān)系進(jìn)行標(biāo)注，當(dāng)訓(xùn)練語料不足時，PPI關(guān)系識別的效果會大打折扣。但人工標(biāo)注大規(guī)模文本需要耗費大量的人力物力。

針對這些不足，文中試圖采用遠(yuǎn)監(jiān)督思想來進(jìn)行PPI關(guān)系的抽取。遠(yuǎn)監(jiān)督方法已經(jīng)用于關(guān)系識別領(lǐng)域，遠(yuǎn)監(jiān)督思想假設(shè)如果兩個實體之間存在某種關(guān)系，那么包含這兩個實體的所有句子都在一定程度上表達(dá)了這種關(guān)系?；谏鲜黾僭O(shè)，遠(yuǎn)監(jiān)督通過將知識庫中的實體和訓(xùn)練語料文本中的實體進(jìn)行匹配，產(chǎn)生大量帶標(biāo)注的訓(xùn)練數(shù)據(jù)，避免了人工標(biāo)注數(shù)據(jù)的繁重勞動。對于PPI關(guān)系識別，同樣存在標(biāo)注數(shù)據(jù)不足的問題，所以可以將遠(yuǎn)監(jiān)督[14-15]方法運用到PPI關(guān)系抽取上。

但是基于遠(yuǎn)監(jiān)督方法的PPI識別也存在一個問題。對于有交互關(guān)系的蛋白質(zhì)對事實上并非其簽名檔中的所有句子都表達(dá)了該蛋白質(zhì)對的交互關(guān)系，其中很多句子是不表達(dá)交互關(guān)系的，從而這部分?jǐn)?shù)據(jù)成為了訓(xùn)練過程中的噪音，最終會影響蛋白質(zhì)對交互關(guān)系的識別結(jié)果。

針對遠(yuǎn)監(jiān)督的PPI抽取方法存在的問題，文中采用一種基于最大期望算法的多實例多標(biāo)記的學(xué)習(xí)方法。多實例多標(biāo)記是一種新型的關(guān)系抽取的學(xué)習(xí)框架[16]，在該框架中，每個對象由多個實例描述，同時對象可以擁有多個類別標(biāo)記，這個框架尤其適用于多義性的對象。多實例多標(biāo)記學(xué)習(xí)框架已被成功應(yīng)用于圖像文本分類[17]、視頻標(biāo)注[18]、基因圖像識別[19]等任務(wù)中，既充分利用了蛋白質(zhì)對簽名檔的信息，同時又改善了利用遠(yuǎn)監(jiān)督思想來標(biāo)記簽名檔中的句子帶來的噪音問題。在此基礎(chǔ)上又對特征加以改進(jìn)，有效消除了其他蛋白質(zhì)對目標(biāo)蛋白質(zhì)對交互關(guān)系識別的影響。

2 基于最大期望算法的PPI識別

基于最大期望算法的多實例多標(biāo)記學(xué)習(xí)方法，是在基于遠(yuǎn)監(jiān)督方法的基礎(chǔ)上，從大規(guī)模生物醫(yī)學(xué)文獻(xiàn)中搜索得到的蛋白質(zhì)對簽名檔中提取特征，構(gòu)建向量空間模型(vector space model，VSM)。在此基礎(chǔ)上引入隱變量，將蛋白質(zhì)對的簽名檔和標(biāo)簽構(gòu)建為多實例多標(biāo)記的學(xué)習(xí)框架，利用最大期望算法迭代地消除噪音。最終采用監(jiān)督學(xué)習(xí)的方法來預(yù)測未知蛋白質(zhì)對的交互關(guān)系。

2.1 關(guān)系提取

PubMed數(shù)據(jù)庫作為建立PPI網(wǎng)絡(luò)重要的數(shù)據(jù)來源，收錄了超過一千八百萬篇生物醫(yī)學(xué)文獻(xiàn)摘要。從PubMed數(shù)據(jù)中獲取蛋白質(zhì)對簽名檔的過程包括：

(1)調(diào)用PubMed數(shù)據(jù)庫提供的接口，搜索包含目標(biāo)蛋白質(zhì)對的摘要。

(2)使用伊利諾州大學(xué)Urbana-Champaign分校認(rèn)知計算研究組開發(fā)的句子識別工具來識別摘要集合中的句子，保留包含目標(biāo)蛋白質(zhì)對的句子作為簽名檔的內(nèi)容。

最終每一個目標(biāo)蛋白質(zhì)對都會有一個包含多個句子的集合與之對應(yīng)，這個句子集合即為蛋白質(zhì)對的簽名檔，接下來將簽名檔作為蛋白質(zhì)對交互關(guān)系的特征來源進(jìn)行處理。

2.2 特征表示

實驗中使用到了兩個邏輯回歸分類器來進(jìn)行PPI關(guān)系的識別。一個是對蛋白質(zhì)對簽名檔中的句子進(jìn)行交互關(guān)系判斷的句子級分類器，另一個是對蛋白質(zhì)對進(jìn)行分類的頂層分類器。兩個分類器的主要差別在于特征的表示上，句子級分類器利用提取得到的句子的語言學(xué)特征進(jìn)行分類，而頂層分類器通過當(dāng)前簽名檔中句子的分類結(jié)果形成特征進(jìn)行分類。句子級分類器特征的形成主要是選取訓(xùn)練集中所有句子中重要的單詞特征作為向量的每一維。具體處理過程為：首先對句子進(jìn)行分詞，去除無意義的標(biāo)點符號以及停用詞；然后選取句子中出現(xiàn)在兩個目標(biāo)蛋白質(zhì)之間的單詞，以及第一個目標(biāo)蛋白質(zhì)左邊2個單詞和第二個目標(biāo)蛋白質(zhì)右邊2個單詞；最終將這些單詞作為句子中蛋白質(zhì)對的上下文特征來構(gòu)建向量空間模型。若在句子的上下文特征中出現(xiàn)了某個特征詞，則在向量中對應(yīng)于出現(xiàn)特征詞的某一維用1記錄，否則用0記錄。

對于頂層分類器中蛋白質(zhì)對的實際交互關(guān)系，采取簽名檔中判斷為有交互關(guān)系的句子數(shù)占簽名檔中所有句子的比例作為特征構(gòu)建一維向量。

2.3 多實例多標(biāo)記學(xué)習(xí)模型

在該模型中，對于訓(xùn)練集中的每一個蛋白質(zhì)對，都有已知的唯一標(biāo)記，即有無交互關(guān)系，但對于簽名檔中的每一個句子并不知道其真實的標(biāo)記。所以，引入一個隱變量z來代表句子的標(biāo)記。z=non-interactive表示在該句中目標(biāo)蛋白質(zhì)對之間沒有交互關(guān)系；z=interactive表示目標(biāo)蛋白質(zhì)對之間存在交互關(guān)系。對于PPI關(guān)系抽取中的關(guān)系是互補的，兩個蛋白質(zhì)之間的關(guān)系就分為有交互和無交互兩種。在該模型中，如圖1所示，由兩層構(gòu)成，包含一個對蛋白質(zhì)對簽名檔中的句子進(jìn)行分類的句子級二元分類器(z分類器)和一個對蛋白質(zhì)對進(jìn)行分類的頂層二元分類器(y分類器)。

圖1 多實例多標(biāo)記學(xué)習(xí)框架

圖中，n表示蛋白質(zhì)對的數(shù)目；Mi表示第i對蛋白質(zhì)對簽名檔的數(shù)目；x表示輸入的一個句子；wz表示z分類器的權(quán)重向量；wy表示y分類器的權(quán)重向量。

2.3.1 訓(xùn) 練

由于蛋白質(zhì)對簽名檔中的句子標(biāo)記是未知的，而最大期望算法是估計隱變量的有效方法，所以文中采用最大期望算法來訓(xùn)練多實例多標(biāo)記的學(xué)習(xí)框架。最大期望算法主要由M步和E步構(gòu)成，M步訓(xùn)練句子級分類器(z分類器)和頂層分類器(y分類器)，E步根據(jù)得到的兩個分類器來更新句子的標(biāo)記，經(jīng)過多次迭代使句子的標(biāo)記更加接近于真實的標(biāo)記。

在以下的公式中，向量zi代表第i個蛋白質(zhì)對所有句子的標(biāo)記構(gòu)成的一個向量；yi用來表示第i個蛋白質(zhì)對的標(biāo)記，用公式表示為：

(1)

其中，Pi為關(guān)系正例，表示第i對蛋白質(zhì)對具有的關(guān)系；Ni是關(guān)系負(fù)例，表示第i對蛋白質(zhì)對不具有的關(guān)系。

文中使用最大期望算法來最大化極大似然函數(shù)的下界，也就是說最大化數(shù)據(jù)庫中每個蛋白質(zhì)對的聯(lián)合概率，得到：

(2)

E-step:在此步驟，對于每個蛋白質(zhì)對的簽名檔，給定蛋白質(zhì)對的標(biāo)記集合，以及目前模型學(xué)習(xí)得到的z分類器和y分類器的權(quán)重向量，推斷出蛋白質(zhì)對句子級別的分類結(jié)果。

(3)

通過近似化，將向量z進(jìn)行拆分，分開考慮每個句子的分類結(jié)果。對于每個蛋白質(zhì)對i=1,2,…,n中的每個句子m∈Mi，計算：

(4)

M-step:此步驟利用E-step得到的句子分類結(jié)果zi通過最大化似然函數(shù)的下界，得到對應(yīng)的wz和wy。實際上就是通過學(xué)習(xí)來更新句子級和蛋白質(zhì)對級權(quán)重參數(shù)，具體公式如下：

(5)

(6)

2.3.2 預(yù) 測

(1)對于一個給定的蛋白質(zhì)對，首先預(yù)測其簽名檔中句子的分類結(jié)果。

(7)

(2)利用頂層分類器來決定該蛋白質(zhì)對是否具有交互關(guān)系。

(8)

2.3.3 實現(xiàn)

初始化：由于最大期望算法并不是全局最優(yōu)算法，因此初始值的設(shè)置對最后的結(jié)果有著重要的影響。在該模型中，初始值為簽名檔中句子的類別分布zi。利用原始的簽名檔數(shù)據(jù)來訓(xùn)練一個分類器，然后通過此分類器對簽名檔中的句子進(jìn)行分類，將分類結(jié)果作為初始值zi。

2.4 特征改進(jìn)

通過對目標(biāo)蛋白質(zhì)對簽名檔數(shù)據(jù)的觀察，發(fā)現(xiàn)在包含目標(biāo)蛋白質(zhì)對的同一個句子的描述中往往還存在其他蛋白質(zhì)，這些蛋白質(zhì)可能會對目標(biāo)蛋白質(zhì)交互關(guān)系的判斷造成影響?；谶@個原因，需要對句子級分類器原始的特征加以改進(jìn)。

文中利用一個生物醫(yī)學(xué)文本命名實體識別工具ABNER來識別句子中其他蛋白質(zhì)的名稱。ABNER在NLPBA和BioCreative語料庫上進(jìn)行訓(xùn)練，在兩個語料庫上識別的F值分別達(dá)到了72.6%和69.9%。

通過觀察蛋白質(zhì)對的簽名檔，可以發(fā)現(xiàn)描述交互作用的句子中經(jīng)常會出現(xiàn)bind、interact、activate、inhibit、down-regulate等表示蛋白質(zhì)交互作用的單詞。這些單詞通常被認(rèn)為是識別蛋白質(zhì)交互關(guān)系的關(guān)鍵詞。關(guān)鍵詞對于蛋白質(zhì)交互關(guān)系識別尤為重要，已經(jīng)作為線索運用到基于模式匹配的PPI抽取方法中。文中選擇關(guān)鍵詞作為一維特征對原有特征加以改進(jìn)，采用的關(guān)鍵詞集合利用了Joshua M.Temkin[20]提出的關(guān)鍵詞列表。

觀察以下描述蛋白質(zhì)交互關(guān)系的句子：

#arnt# mRNA appeared to be slightly but significantly down-regulated by BaP as well as by flavonoids while expression of #aip# was not or only slightly modulated.

用##標(biāo)注出來的是兩個目標(biāo)蛋白質(zhì)，而用標(biāo)注的是利用ABNER工具識別出來的其他蛋白質(zhì)，蛋白質(zhì)全部由黑體顯示。在這個句子中，有一個關(guān)鍵詞“down-regulated”的出現(xiàn)，很有可能說明目標(biāo)蛋白質(zhì)對(arnt,aip)之間存在交互關(guān)系，但由于在目標(biāo)蛋白質(zhì)之間出現(xiàn)了一個其他蛋白質(zhì)Bap，這個關(guān)鍵詞事實上表達(dá)出來的是其他蛋白質(zhì)Bap和目標(biāo)蛋白質(zhì)arnt之間的交互關(guān)系，所以有必要將包含目標(biāo)蛋白質(zhì)對的同一個句子中的其他蛋白質(zhì)識別出來。

在保留2.1節(jié)所有特征的基礎(chǔ)上，又新增了5個特征來對句子級分類器進(jìn)行改進(jìn)。首先對簽名檔中的每一個句子，抽取出第一個蛋白質(zhì)左邊的7個單詞和第二個蛋白質(zhì)右邊的7個單詞以及兩個蛋白質(zhì)中間的所有單詞。然后將第一個蛋白質(zhì)左邊和第二個蛋白質(zhì)右邊是否有關(guān)鍵字和其他蛋白質(zhì)的名稱以及目標(biāo)蛋白質(zhì)中間有沒有其他蛋白質(zhì)作為5維特征添加到原有特征中，權(quán)重采用二值權(quán)重，若有則置為1，否則置為0。增加了這5維特征后，以第一個蛋白質(zhì)左邊的兩個特征為例，若出現(xiàn)了關(guān)鍵詞和其他蛋白質(zhì)，則很有可能表示的是其他蛋白質(zhì)和第一個目標(biāo)蛋白質(zhì)之間的交互關(guān)系。

3 實驗

3.1 實驗數(shù)據(jù)及設(shè)置

采用的訓(xùn)練數(shù)據(jù)來自于現(xiàn)有的PPI數(shù)據(jù)庫，無需額外的人工標(biāo)注。將有交互關(guān)系的蛋白質(zhì)對視為正樣例，無交互的視為負(fù)樣例。實驗中有交互關(guān)系的蛋白質(zhì)對是直接從HPRD數(shù)據(jù)庫中查詢獲取，并且只保留被PubMed數(shù)據(jù)庫中一篇以上摘要包含的那些蛋白質(zhì)對。而對于無交互關(guān)系的蛋白質(zhì)對，采用生物醫(yī)學(xué)領(lǐng)域常用方法，將蛋白質(zhì)隨機組合成蛋白質(zhì)對，去除已被HPRD數(shù)據(jù)庫包含的蛋白質(zhì)對以及未被PubMed數(shù)據(jù)庫記載的蛋白質(zhì)對。以兩個待考察的蛋白質(zhì)為查詢條件，通過PubMed數(shù)據(jù)庫的應(yīng)用程序接口查詢目標(biāo)蛋白質(zhì)對的文獻(xiàn)摘要，然后對摘要文本集合進(jìn)行處理，找出包含目標(biāo)蛋白質(zhì)對的句子，形成簽名檔。最終總共得到有交互關(guān)系和無交互關(guān)系的蛋白質(zhì)對分別為576對和578對，合計1 154對。

實驗采用的結(jié)果性能評價指標(biāo)是當(dāng)前PPI抽取系統(tǒng)主要使用的三個指標(biāo)：精確度(precision=TP/(TP+FP))、召回率(recall=TP/(TP+FN))和F值(F-Score=2P×R/(P+R))。為了避免簡單應(yīng)用模型而產(chǎn)生過擬合問題，利用五折交叉驗證來評估模型的性能。將原始數(shù)據(jù)按照蛋白質(zhì)對平均劃分為5折，將每個子集數(shù)據(jù)分別做一次驗證集，其余的4組子集數(shù)據(jù)作為訓(xùn)練集，這樣會得到5個模型，用這5個模型最終驗證集的平均性能作為評價整個方法性能的指標(biāo)。

3.2 實驗結(jié)果及分析

為了比較使用原始特征和改進(jìn)后特征的實驗結(jié)果，以第一折數(shù)據(jù)為例，取最大期望算法迭代的前六次(迭代6次以后實驗結(jié)果基本趨向局部最優(yōu)解)，結(jié)果如表1、表2所示。

表1 采用原始特征的識別結(jié)果

表2 采用改進(jìn)特征的識別結(jié)果

從這兩張表可以發(fā)現(xiàn)，隨著迭代次數(shù)的增加，采用改進(jìn)以后的特征在精確度、召回率和F值上都有明顯提高。最終結(jié)果是要把五折數(shù)據(jù)識別的平均結(jié)果作為該模型PPI識別的性能，如表3所示。

表3 五折交叉驗證識別結(jié)果比較

從上述識別結(jié)果發(fā)現(xiàn)，對特征加以改進(jìn)后，識別的準(zhǔn)確率雖然稍有下降，但是召回率提高了3.6%，整體F值提高1%。說明改進(jìn)后，算法考慮了其他蛋白質(zhì)對目標(biāo)蛋白質(zhì)識別的影響，使模型取得了更好的性能。

4 結(jié)束語

由于基于遠(yuǎn)監(jiān)督的PPI抽取方法存在大量噪音問題，文中采用基于最大期望算法的多實例多標(biāo)記學(xué)習(xí)框架，同時在此基礎(chǔ)上對特征加以改進(jìn)，消除了簽名檔中其他蛋白質(zhì)對目標(biāo)蛋白質(zhì)對交互關(guān)系判斷的影響。實驗結(jié)果表明，該方法取得了更高的識別精度。

下一步將利用蛋白質(zhì)對簽名檔中包含的豐富信息對句子級分類器得到的結(jié)果進(jìn)行改進(jìn)，使句子級的分類更加準(zhǔn)確，從而能進(jìn)一步提高PPI識別的效果。