• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于最大期望算法的蛋白質(zhì)交互關(guān)系識別

      2018-08-21 01:59:44蔡松成
      計算機技術(shù)與發(fā)展 2018年8期
      關(guān)鍵詞:簽名檔分類器蛋白質(zhì)

      蔡松成,牛 耘

      (南京航空航天大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,江蘇 南京 211106)

      0 引 言

      隨著人們對文本中分子途徑和分子交互關(guān)系等信息需求的不斷增加,蛋白質(zhì)交互作用關(guān)系(protein-protein interaction,PPI)的自動抽取在分子生物學(xué)領(lǐng)域變得越來越重要。PPI是指細(xì)胞內(nèi)兩個蛋白質(zhì)之間的交互作用,這種交互作用環(huán)環(huán)相扣,深刻影響著整個細(xì)胞生理作用的調(diào)節(jié)。起初生物醫(yī)學(xué)領(lǐng)域的專家手工地從醫(yī)學(xué)文獻(xiàn)中收集這些信息錄入統(tǒng)一格式的數(shù)據(jù)庫中,如HPRD[1]、IntAc[2]、MINT[3]和BIND[4]等。然而隨著生物醫(yī)學(xué)文獻(xiàn)的急劇增加,新的蛋白質(zhì)之間的關(guān)系也在產(chǎn)生。手工錄入蛋白質(zhì)之間的交互信息顯然遠(yuǎn)不能滿足實際需要,因此自動地從醫(yī)學(xué)文獻(xiàn)中抽取PPI已經(jīng)成為一項重要的研究內(nèi)容。

      在此背景下,基于自然語言處理的PPI自動識別技術(shù)正在快速發(fā)展并已取得了很大的進(jìn)展。目前PPI識別是采用有監(jiān)督的機器學(xué)習(xí)方法,以單句為依據(jù)來識別句子之間的交互關(guān)系,需要大量人工標(biāo)注的數(shù)據(jù),代價高昂,所以將遠(yuǎn)監(jiān)督的思想運用到PPI識別上,解決了訓(xùn)練數(shù)據(jù)不足的問題。但是由于遠(yuǎn)監(jiān)督思想的缺陷,引入了大量噪音,影響現(xiàn)階段PPI識別的精度。針對這個問題,采用一種基于最大期望算法的多實例多標(biāo)記學(xué)習(xí)(multi-instance multi-label,MIML)方法來進(jìn)行蛋白質(zhì)交互關(guān)系的識別,有效消除了簽名檔中噪音對交互關(guān)系識別的影響。

      1 相關(guān)工作

      目前,用于從生物醫(yī)學(xué)文獻(xiàn)中抽取PPI的技術(shù)主要包括:基于同現(xiàn)的方法[5]、基于規(guī)則的方法和基于機器學(xué)習(xí)[6-8]的方法?;谕F(xiàn)的方法通過統(tǒng)計兩個蛋白質(zhì)在句子中的共現(xiàn)頻率來判斷是否存在交互關(guān)系,識別結(jié)果召回率高但精確度低;基于規(guī)則的方法可以取得較高的精確度但是召回率較低,而且通過手動建立規(guī)則的方法需要大量的人力物力,且制定的規(guī)則只適用于某些特定領(lǐng)域的數(shù)據(jù),無法普遍應(yīng)用。

      隨著機器學(xué)習(xí)的流行,研究者們越來越多地采用基于機器學(xué)習(xí)的方法進(jìn)行PPI的識別?;跈C器學(xué)習(xí)的方法主要包括兩大類:基于特征的方法和基于核函數(shù)的方法。基于特征的方法從標(biāo)注有交互關(guān)系的句子中抽取重要特征,包括詞匯特征、語法特征和語義特征,建立模型來判斷蛋白質(zhì)之間的交互關(guān)系[9-10]?;诤撕瘮?shù)的方法首先深入研究句子結(jié)構(gòu),通過設(shè)計核函數(shù)進(jìn)一步利用句子結(jié)構(gòu)表示(如字符串序列、句法依賴或句法分析)上的隱含特征,然后使用支持核函數(shù)的分類器進(jìn)行PPI關(guān)系的識別。Haussler D[11]提出了針對離散結(jié)構(gòu)的卷積核;Lodhi H等[12]將特征空間特定長度詞語子序列的內(nèi)積作為函數(shù)的計算方式,提出了字符串核;Bunescu R C等[13]提出了最短依賴路徑核,將句子以樹的形式表示,用兩個實體之間的最短路徑表示實體之間的關(guān)系。然而目前利用機器學(xué)習(xí)方法來進(jìn)行PPI關(guān)系識別一般都是以句子為單位,分析一句話中出現(xiàn)的任意一對蛋白質(zhì)對之間是否存在交互關(guān)系。這種方式能夠在句子級別上提供蛋白質(zhì)對交互關(guān)系的描述和證據(jù),但是也存在一定的局限性。這種方式所需的訓(xùn)練集要求對每一個句子中出現(xiàn)的每一對蛋白質(zhì)是否存在交互關(guān)系進(jìn)行標(biāo)注,當(dāng)訓(xùn)練語料不足時,PPI關(guān)系識別的效果會大打折扣。但人工標(biāo)注大規(guī)模文本需要耗費大量的人力物力。

      針對這些不足,文中試圖采用遠(yuǎn)監(jiān)督思想來進(jìn)行PPI關(guān)系的抽取。遠(yuǎn)監(jiān)督方法已經(jīng)用于關(guān)系識別領(lǐng)域,遠(yuǎn)監(jiān)督思想假設(shè)如果兩個實體之間存在某種關(guān)系,那么包含這兩個實體的所有句子都在一定程度上表達(dá)了這種關(guān)系?;谏鲜黾僭O(shè),遠(yuǎn)監(jiān)督通過將知識庫中的實體和訓(xùn)練語料文本中的實體進(jìn)行匹配,產(chǎn)生大量帶標(biāo)注的訓(xùn)練數(shù)據(jù),避免了人工標(biāo)注數(shù)據(jù)的繁重勞動。對于PPI關(guān)系識別,同樣存在標(biāo)注數(shù)據(jù)不足的問題,所以可以將遠(yuǎn)監(jiān)督[14-15]方法運用到PPI關(guān)系抽取上。

      但是基于遠(yuǎn)監(jiān)督方法的PPI識別也存在一個問題。對于有交互關(guān)系的蛋白質(zhì)對事實上并非其簽名檔中的所有句子都表達(dá)了該蛋白質(zhì)對的交互關(guān)系,其中很多句子是不表達(dá)交互關(guān)系的,從而這部分?jǐn)?shù)據(jù)成為了訓(xùn)練過程中的噪音,最終會影響蛋白質(zhì)對交互關(guān)系的識別結(jié)果。

      針對遠(yuǎn)監(jiān)督的PPI抽取方法存在的問題,文中采用一種基于最大期望算法的多實例多標(biāo)記的學(xué)習(xí)方法。多實例多標(biāo)記是一種新型的關(guān)系抽取的學(xué)習(xí)框架[16],在該框架中,每個對象由多個實例描述,同時對象可以擁有多個類別標(biāo)記,這個框架尤其適用于多義性的對象。多實例多標(biāo)記學(xué)習(xí)框架已被成功應(yīng)用于圖像文本分類[17]、視頻標(biāo)注[18]、基因圖像識別[19]等任務(wù)中,既充分利用了蛋白質(zhì)對簽名檔的信息,同時又改善了利用遠(yuǎn)監(jiān)督思想來標(biāo)記簽名檔中的句子帶來的噪音問題。在此基礎(chǔ)上又對特征加以改進(jìn),有效消除了其他蛋白質(zhì)對目標(biāo)蛋白質(zhì)對交互關(guān)系識別的影響。

      2 基于最大期望算法的PPI識別

      基于最大期望算法的多實例多標(biāo)記學(xué)習(xí)方法,是在基于遠(yuǎn)監(jiān)督方法的基礎(chǔ)上,從大規(guī)模生物醫(yī)學(xué)文獻(xiàn)中搜索得到的蛋白質(zhì)對簽名檔中提取特征,構(gòu)建向量空間模型(vector space model,VSM)。在此基礎(chǔ)上引入隱變量,將蛋白質(zhì)對的簽名檔和標(biāo)簽構(gòu)建為多實例多標(biāo)記的學(xué)習(xí)框架,利用最大期望算法迭代地消除噪音。最終采用監(jiān)督學(xué)習(xí)的方法來預(yù)測未知蛋白質(zhì)對的交互關(guān)系。

      2.1 關(guān)系提取

      PubMed數(shù)據(jù)庫作為建立PPI網(wǎng)絡(luò)重要的數(shù)據(jù)來源,收錄了超過一千八百萬篇生物醫(yī)學(xué)文獻(xiàn)摘要。從PubMed數(shù)據(jù)中獲取蛋白質(zhì)對簽名檔的過程包括:

      (1)調(diào)用PubMed數(shù)據(jù)庫提供的接口,搜索包含目標(biāo)蛋白質(zhì)對的摘要。

      (2)使用伊利諾州大學(xué)Urbana-Champaign分校認(rèn)知計算研究組開發(fā)的句子識別工具來識別摘要集合中的句子,保留包含目標(biāo)蛋白質(zhì)對的句子作為簽名檔的內(nèi)容。

      最終每一個目標(biāo)蛋白質(zhì)對都會有一個包含多個句子的集合與之對應(yīng),這個句子集合即為蛋白質(zhì)對的簽名檔,接下來將簽名檔作為蛋白質(zhì)對交互關(guān)系的特征來源進(jìn)行處理。

      2.2 特征表示

      實驗中使用到了兩個邏輯回歸分類器來進(jìn)行PPI關(guān)系的識別。一個是對蛋白質(zhì)對簽名檔中的句子進(jìn)行交互關(guān)系判斷的句子級分類器,另一個是對蛋白質(zhì)對進(jìn)行分類的頂層分類器。兩個分類器的主要差別在于特征的表示上,句子級分類器利用提取得到的句子的語言學(xué)特征進(jìn)行分類,而頂層分類器通過當(dāng)前簽名檔中句子的分類結(jié)果形成特征進(jìn)行分類。句子級分類器特征的形成主要是選取訓(xùn)練集中所有句子中重要的單詞特征作為向量的每一維。具體處理過程為:首先對句子進(jìn)行分詞,去除無意義的標(biāo)點符號以及停用詞;然后選取句子中出現(xiàn)在兩個目標(biāo)蛋白質(zhì)之間的單詞,以及第一個目標(biāo)蛋白質(zhì)左邊2個單詞和第二個目標(biāo)蛋白質(zhì)右邊2個單詞;最終將這些單詞作為句子中蛋白質(zhì)對的上下文特征來構(gòu)建向量空間模型。若在句子的上下文特征中出現(xiàn)了某個特征詞,則在向量中對應(yīng)于出現(xiàn)特征詞的某一維用1記錄,否則用0記錄。

      對于頂層分類器中蛋白質(zhì)對的實際交互關(guān)系,采取簽名檔中判斷為有交互關(guān)系的句子數(shù)占簽名檔中所有句子的比例作為特征構(gòu)建一維向量。

      2.3 多實例多標(biāo)記學(xué)習(xí)模型

      在該模型中,對于訓(xùn)練集中的每一個蛋白質(zhì)對,都有已知的唯一標(biāo)記,即有無交互關(guān)系,但對于簽名檔中的每一個句子并不知道其真實的標(biāo)記。所以,引入一個隱變量z來代表句子的標(biāo)記。z=non-interactive表示在該句中目標(biāo)蛋白質(zhì)對之間沒有交互關(guān)系;z=interactive表示目標(biāo)蛋白質(zhì)對之間存在交互關(guān)系。對于PPI關(guān)系抽取中的關(guān)系是互補的,兩個蛋白質(zhì)之間的關(guān)系就分為有交互和無交互兩種。在該模型中,如圖1所示,由兩層構(gòu)成,包含一個對蛋白質(zhì)對簽名檔中的句子進(jìn)行分類的句子級二元分類器(z分類器)和一個對蛋白質(zhì)對進(jìn)行分類的頂層二元分類器(y分類器)。

      圖1 多實例多標(biāo)記學(xué)習(xí)框架

      圖中,n表示蛋白質(zhì)對的數(shù)目;Mi表示第i對蛋白質(zhì)對簽名檔的數(shù)目;x表示輸入的一個句子;wz表示z分類器的權(quán)重向量;wy表示y分類器的權(quán)重向量。

      2.3.1 訓(xùn) 練

      由于蛋白質(zhì)對簽名檔中的句子標(biāo)記是未知的,而最大期望算法是估計隱變量的有效方法,所以文中采用最大期望算法來訓(xùn)練多實例多標(biāo)記的學(xué)習(xí)框架。最大期望算法主要由M步和E步構(gòu)成,M步訓(xùn)練句子級分類器(z分類器)和頂層分類器(y分類器),E步根據(jù)得到的兩個分類器來更新句子的標(biāo)記,經(jīng)過多次迭代使句子的標(biāo)記更加接近于真實的標(biāo)記。

      在以下的公式中,向量zi代表第i個蛋白質(zhì)對所有句子的標(biāo)記構(gòu)成的一個向量;yi用來表示第i個蛋白質(zhì)對的標(biāo)記,用公式表示為:

      (1)

      其中,Pi為關(guān)系正例,表示第i對蛋白質(zhì)對具有的關(guān)系;Ni是關(guān)系負(fù)例,表示第i對蛋白質(zhì)對不具有的關(guān)系。

      文中使用最大期望算法來最大化極大似然函數(shù)的下界,也就是說最大化數(shù)據(jù)庫中每個蛋白質(zhì)對的聯(lián)合概率,得到:

      (2)

      E-step:在此步驟,對于每個蛋白質(zhì)對的簽名檔,給定蛋白質(zhì)對的標(biāo)記集合,以及目前模型學(xué)習(xí)得到的z分類器和y分類器的權(quán)重向量,推斷出蛋白質(zhì)對句子級別的分類結(jié)果。

      (3)

      通過近似化,將向量z進(jìn)行拆分,分開考慮每個句子的分類結(jié)果。對于每個蛋白質(zhì)對i=1,2,…,n中的每個句子m∈Mi,計算:

      (4)

      M-step:此步驟利用E-step得到的句子分類結(jié)果zi通過最大化似然函數(shù)的下界,得到對應(yīng)的wz和wy。實際上就是通過學(xué)習(xí)來更新句子級和蛋白質(zhì)對級權(quán)重參數(shù),具體公式如下:

      (5)

      (6)

      2.3.2 預(yù) 測

      (1)對于一個給定的蛋白質(zhì)對,首先預(yù)測其簽名檔中句子的分類結(jié)果。

      (7)

      (2)利用頂層分類器來決定該蛋白質(zhì)對是否具有交互關(guān)系。

      (8)

      2.3.3 實 現(xiàn)

      初始化:由于最大期望算法并不是全局最優(yōu)算法,因此初始值的設(shè)置對最后的結(jié)果有著重要的影響。在該模型中,初始值為簽名檔中句子的類別分布zi。利用原始的簽名檔數(shù)據(jù)來訓(xùn)練一個分類器,然后通過此分類器對簽名檔中的句子進(jìn)行分類,將分類結(jié)果作為初始值zi。

      2.4 特征改進(jìn)

      通過對目標(biāo)蛋白質(zhì)對簽名檔數(shù)據(jù)的觀察,發(fā)現(xiàn)在包含目標(biāo)蛋白質(zhì)對的同一個句子的描述中往往還存在其他蛋白質(zhì),這些蛋白質(zhì)可能會對目標(biāo)蛋白質(zhì)交互關(guān)系的判斷造成影響?;谶@個原因,需要對句子級分類器原始的特征加以改進(jìn)。

      文中利用一個生物醫(yī)學(xué)文本命名實體識別工具ABNER來識別句子中其他蛋白質(zhì)的名稱。ABNER在NLPBA和BioCreative語料庫上進(jìn)行訓(xùn)練,在兩個語料庫上識別的F值分別達(dá)到了72.6%和69.9%。

      通過觀察蛋白質(zhì)對的簽名檔,可以發(fā)現(xiàn)描述交互作用的句子中經(jīng)常會出現(xiàn)bind、interact、activate、inhibit、down-regulate等表示蛋白質(zhì)交互作用的單詞。這些單詞通常被認(rèn)為是識別蛋白質(zhì)交互關(guān)系的關(guān)鍵詞。關(guān)鍵詞對于蛋白質(zhì)交互關(guān)系識別尤為重要,已經(jīng)作為線索運用到基于模式匹配的PPI抽取方法中。文中選擇關(guān)鍵詞作為一維特征對原有特征加以改進(jìn),采用的關(guān)鍵詞集合利用了Joshua M.Temkin[20]提出的關(guān)鍵詞列表。

      觀察以下描述蛋白質(zhì)交互關(guān)系的句子:

      #arnt# mRNA appeared to be slightly but significantly down-regulated by BaP as well as by flavonoids while expression of #aip# was not or only slightly modulated.

      用##標(biāo)注出來的是兩個目標(biāo)蛋白質(zhì),而用標(biāo)注的是利用ABNER工具識別出來的其他蛋白質(zhì),蛋白質(zhì)全部由黑體顯示。在這個句子中,有一個關(guān)鍵詞“down-regulated”的出現(xiàn),很有可能說明目標(biāo)蛋白質(zhì)對(arnt,aip)之間存在交互關(guān)系,但由于在目標(biāo)蛋白質(zhì)之間出現(xiàn)了一個其他蛋白質(zhì)Bap,這個關(guān)鍵詞事實上表達(dá)出來的是其他蛋白質(zhì)Bap和目標(biāo)蛋白質(zhì)arnt之間的交互關(guān)系,所以有必要將包含目標(biāo)蛋白質(zhì)對的同一個句子中的其他蛋白質(zhì)識別出來。

      在保留2.1節(jié)所有特征的基礎(chǔ)上,又新增了5個特征來對句子級分類器進(jìn)行改進(jìn)。首先對簽名檔中的每一個句子,抽取出第一個蛋白質(zhì)左邊的7個單詞和第二個蛋白質(zhì)右邊的7個單詞以及兩個蛋白質(zhì)中間的所有單詞。然后將第一個蛋白質(zhì)左邊和第二個蛋白質(zhì)右邊是否有關(guān)鍵字和其他蛋白質(zhì)的名稱以及目標(biāo)蛋白質(zhì)中間有沒有其他蛋白質(zhì)作為5維特征添加到原有特征中,權(quán)重采用二值權(quán)重,若有則置為1,否則置為0。增加了這5維特征后,以第一個蛋白質(zhì)左邊的兩個特征為例,若出現(xiàn)了關(guān)鍵詞和其他蛋白質(zhì),則很有可能表示的是其他蛋白質(zhì)和第一個目標(biāo)蛋白質(zhì)之間的交互關(guān)系。

      3 實 驗

      3.1 實驗數(shù)據(jù)及設(shè)置

      采用的訓(xùn)練數(shù)據(jù)來自于現(xiàn)有的PPI數(shù)據(jù)庫,無需額外的人工標(biāo)注。將有交互關(guān)系的蛋白質(zhì)對視為正樣例,無交互的視為負(fù)樣例。實驗中有交互關(guān)系的蛋白質(zhì)對是直接從HPRD數(shù)據(jù)庫中查詢獲取,并且只保留被PubMed數(shù)據(jù)庫中一篇以上摘要包含的那些蛋白質(zhì)對。而對于無交互關(guān)系的蛋白質(zhì)對,采用生物醫(yī)學(xué)領(lǐng)域常用方法,將蛋白質(zhì)隨機組合成蛋白質(zhì)對,去除已被HPRD數(shù)據(jù)庫包含的蛋白質(zhì)對以及未被PubMed數(shù)據(jù)庫記載的蛋白質(zhì)對。以兩個待考察的蛋白質(zhì)為查詢條件,通過PubMed數(shù)據(jù)庫的應(yīng)用程序接口查詢目標(biāo)蛋白質(zhì)對的文獻(xiàn)摘要,然后對摘要文本集合進(jìn)行處理,找出包含目標(biāo)蛋白質(zhì)對的句子,形成簽名檔。最終總共得到有交互關(guān)系和無交互關(guān)系的蛋白質(zhì)對分別為576對和578對,合計1 154對。

      實驗采用的結(jié)果性能評價指標(biāo)是當(dāng)前PPI抽取系統(tǒng)主要使用的三個指標(biāo):精確度(precision=TP/(TP+FP))、召回率(recall=TP/(TP+FN))和F值(F-Score=2P×R/(P+R))。為了避免簡單應(yīng)用模型而產(chǎn)生過擬合問題,利用五折交叉驗證來評估模型的性能。將原始數(shù)據(jù)按照蛋白質(zhì)對平均劃分為5折,將每個子集數(shù)據(jù)分別做一次驗證集,其余的4組子集數(shù)據(jù)作為訓(xùn)練集,這樣會得到5個模型,用這5個模型最終驗證集的平均性能作為評價整個方法性能的指標(biāo)。

      3.2 實驗結(jié)果及分析

      為了比較使用原始特征和改進(jìn)后特征的實驗結(jié)果,以第一折數(shù)據(jù)為例,取最大期望算法迭代的前六次(迭代6次以后實驗結(jié)果基本趨向局部最優(yōu)解),結(jié)果如表1、表2所示。

      表1 采用原始特征的識別結(jié)果

      表2 采用改進(jìn)特征的識別結(jié)果

      從這兩張表可以發(fā)現(xiàn),隨著迭代次數(shù)的增加,采用改進(jìn)以后的特征在精確度、召回率和F值上都有明顯提高。最終結(jié)果是要把五折數(shù)據(jù)識別的平均結(jié)果作為該模型PPI識別的性能,如表3所示。

      表3 五折交叉驗證識別結(jié)果比較

      從上述識別結(jié)果發(fā)現(xiàn),對特征加以改進(jìn)后,識別的準(zhǔn)確率雖然稍有下降,但是召回率提高了3.6%,整體F值提高1%。說明改進(jìn)后,算法考慮了其他蛋白質(zhì)對目標(biāo)蛋白質(zhì)識別的影響,使模型取得了更好的性能。

      4 結(jié)束語

      由于基于遠(yuǎn)監(jiān)督的PPI抽取方法存在大量噪音問題,文中采用基于最大期望算法的多實例多標(biāo)記學(xué)習(xí)框架,同時在此基礎(chǔ)上對特征加以改進(jìn),消除了簽名檔中其他蛋白質(zhì)對目標(biāo)蛋白質(zhì)對交互關(guān)系判斷的影響。實驗結(jié)果表明,該方法取得了更高的識別精度。

      下一步將利用蛋白質(zhì)對簽名檔中包含的豐富信息對句子級分類器得到的結(jié)果進(jìn)行改進(jìn),使句子級的分類更加準(zhǔn)確,從而能進(jìn)一步提高PPI識別的效果。

      猜你喜歡
      簽名檔分類器蛋白質(zhì)
      蛋白質(zhì)自由
      肝博士(2022年3期)2022-06-30 02:48:48
      人工智能與蛋白質(zhì)結(jié)構(gòu)
      海外星云(2021年9期)2021-10-14 07:26:10
      無敵簽名檔
      BP-GA光照分類器在車道線識別中的應(yīng)用
      電子測試(2018年1期)2018-04-18 11:52:35
      簽名檔
      簽名檔
      蛋白質(zhì)計算問題歸納
      加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
      結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
      基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識別
      拉孜县| 黔东| 通许县| 西和县| 巴彦淖尔市| 昆山市| 福鼎市| 宁明县| 泊头市| 泰州市| 龙口市| 内黄县| 嵊泗县| 望奎县| 子洲县| 阳东县| 周至县| 嘉祥县| 澄江县| 横山县| 墨脱县| 攀枝花市| 昆明市| 文登市| 和龙市| 宣武区| 邢台市| 获嘉县| 九江县| 合江县| 社会| 晋城| 嘉善县| 汤原县| 陇南市| 万源市| 蚌埠市| 石柱| 开封市| 双鸭山市| 定兴县|