李麗雙,蔣振超,萬 佳,黃德根
(大連理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,遼寧 大連 116023)
利用詞表示和深層神經(jīng)網(wǎng)絡(luò)抽取蛋白質(zhì)關(guān)系
李麗雙,蔣振超,萬 佳,黃德根
(大連理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,遼寧 大連 116023)
蛋白質(zhì)關(guān)系抽取是生物醫(yī)學(xué)信息抽取領(lǐng)域的重要分支。目前研究中,基于特征和核函數(shù)方法的蛋白質(zhì)關(guān)系抽取已被充分研究,并且達(dá)到了很高的F-值,通過改進(jìn)特征和核函數(shù)進(jìn)一步優(yōu)化實(shí)例表示變得十分困難。該文結(jié)合詞表示和深層神經(jīng)網(wǎng)絡(luò),提出了一種實(shí)例表示模型。該模型能夠充分利用詞表示的語義表示能力和深層神經(jīng)網(wǎng)絡(luò)的表示優(yōu)化能力;同時(shí)引入主成分分析和特征選擇進(jìn)行特征優(yōu)化,并且通過比較多種傳統(tǒng)的分類器,尋找適合蛋白質(zhì)關(guān)系抽取的分類器。該方法在AIMed語料、BioInfer語料和HPRD50語料上的F-值分別取得了70.5%、82.2%和80.0%,在蛋白質(zhì)關(guān)系抽取任務(wù)上達(dá)到了目前最好的抽取水平。
蛋白質(zhì)關(guān)系抽取;詞表示;深層神經(jīng)網(wǎng)絡(luò)
蛋白質(zhì)是基因表達(dá)的產(chǎn)物,承擔(dān)了大部分的生命活動(dòng)。研究蛋白質(zhì)相互作用關(guān)系,對(duì)于探究生物進(jìn)程存在的分子體制、分析機(jī)體細(xì)胞的生命活動(dòng)具有重要的基礎(chǔ)研究意義,進(jìn)而用以分析疾病的起因,提出針對(duì)性的預(yù)防和治療手段。因此如何高效而又準(zhǔn)確地從生物醫(yī)學(xué)文本中自動(dòng)抽取蛋白質(zhì)關(guān)系(Protein-Protein Interaction,PPI)成為生物醫(yī)學(xué)領(lǐng)域文本挖掘的主要任務(wù)之一,具有重要的研究意義。
目前,蛋白質(zhì)關(guān)系抽取方法主要包括基于規(guī)則的方法和基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法?;谝?guī)則的方法是利用模式匹配思想,根據(jù)已知信息預(yù)先制定好詳盡的規(guī)則,然后進(jìn)行規(guī)則匹配。Yakushiji[1]等人利用解析器生成的謂詞參數(shù)結(jié)構(gòu),提出了自動(dòng)構(gòu)建特定應(yīng)用抽取規(guī)則的方法。Fundel[2]等人開發(fā)了從自由文本中進(jìn)行關(guān)系抽取的RelEx,其主要思想是利用自然語言預(yù)處理產(chǎn)生依存解析樹,并結(jié)合規(guī)則進(jìn)行關(guān)系抽取?;谝?guī)則的方法可以取得較高的準(zhǔn)確率,但是規(guī)則的泛化能力較差,并且規(guī)則的定義需要大量的人力物力。
基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法是目前蛋白質(zhì)關(guān)系抽取的主流方法,其中特征向量和核函數(shù)的方法近年來得到了廣泛的應(yīng)用,即利用大量的特征并構(gòu)建各種核函數(shù)表示關(guān)系實(shí)例。Miwa[3]等人提出了豐富特征向量,融入了詞袋、最短路徑和圖特征,并應(yīng)用加入語料權(quán)重的SVM來進(jìn)行多語料的PPI抽取。Tikk[4]等人詳細(xì)分析了13個(gè)在PPI上使用的核函數(shù)之間的差別和共同特征,得出使用相同輸入表示的核函數(shù)抽取出的蛋白質(zhì)關(guān)系類似,而不同的核函數(shù)的組合則能帶來性能的提升,并且指出容易抽取錯(cuò)誤的蛋白質(zhì)關(guān)系有極少的共同特征,繼續(xù)在PPI抽取上使用基于核函數(shù)的方法難以有大的突破。因此,本文將從詞表示和深層神經(jīng)網(wǎng)絡(luò)入手,不采用大量的人工特征及復(fù)雜的核函數(shù),完成蛋白質(zhì)關(guān)系抽取。
詞表示能夠捕捉詞語語義信息,已經(jīng)作為額外特征或者直接作為輸入在許多文本挖掘任務(wù)中得到了廣泛應(yīng)用,且已被證實(shí)對(duì)系統(tǒng)性能具有一定提升作用;而深層神經(jīng)網(wǎng)絡(luò)算法能夠?qū)υ紨?shù)據(jù)逐層進(jìn)行表示優(yōu)化,使得數(shù)據(jù)表示對(duì)分類更有利,從而提升系統(tǒng)性能。但這些技術(shù)在PPI抽取中尚未得到充分開發(fā)利用。Li[5]等在組合核函數(shù)中用到了詞表示、布朗聚類等詞表示技術(shù),Zhao[6]等運(yùn)用了堆疊自動(dòng)編碼器的深度學(xué)習(xí)模型,實(shí)驗(yàn)表明這些技術(shù)能很好地應(yīng)用于PPI,由此可見,詞表示和深度學(xué)習(xí)方法在蛋白質(zhì)關(guān)系抽取方面還有廣闊的研究空間,有望提升蛋白質(zhì)關(guān)系抽取的性能。
雖然使用特征和核函數(shù)的系統(tǒng)在蛋白質(zhì)關(guān)系抽取任務(wù)上的性能得到了有效提升,然而,上述系統(tǒng)都沒有考慮對(duì)特征集合進(jìn)行優(yōu)化。很多研究表明特征優(yōu)化能夠更好地選取特征,從而提升數(shù)據(jù)表示質(zhì)量。例如,Landeghem[7]等運(yùn)用了基于信息增益的特征選擇方法,Li[8]等運(yùn)用了半監(jiān)督的特征耦合泛化(Feature Coupling Generalization,F(xiàn)CG)框架對(duì)特征集合進(jìn)行優(yōu)化,等等。此外,現(xiàn)有的PPI系統(tǒng)大多都采用SVM機(jī)器學(xué)習(xí)算法,其優(yōu)勢(shì)在過去的PPI研究中得到了證實(shí),但任何一種機(jī)器學(xué)習(xí)算法都具有特定的優(yōu)勢(shì)和劣勢(shì),除了SVM之外,其他機(jī)器學(xué)習(xí)算法也應(yīng)該得到驗(yàn)證。
本文提出了一種蛋白質(zhì)關(guān)系抽取的實(shí)例表示模型,該模型首先提取骨架特征,利用詞表示的語義表示能力,通過向量組合得到實(shí)例表示,然后,采用特征優(yōu)化策略對(duì)輸入向量進(jìn)行優(yōu)化,最后,通過實(shí)驗(yàn)尋找合適的分類器完成分類。此模型在蛋白質(zhì)關(guān)系抽取任務(wù)上達(dá)到了目前最好的抽取水平。
2.1 蛋白質(zhì)關(guān)系抽取模型
圖1為PPI抽取模型示意圖,主要由三部分構(gòu)成:實(shí)例表示、特征優(yōu)化和分類器。在實(shí)例表示部分,選取蛋白質(zhì)關(guān)系實(shí)例的骨架特征(簡單的詞特征),通過查表將特征轉(zhuǎn)換為詞向量,經(jīng)過向量組合和拼接后得到蛋白質(zhì)關(guān)系的輸入向量;隨后,采用PCA或者特征選擇對(duì)輸入進(jìn)行優(yōu)化;最后,選取合適的機(jī)器學(xué)習(xí)算法作為分類器。
圖1 蛋白質(zhì)關(guān)系抽取模型
2.2 實(shí)例表示
實(shí)例表示的目的在于將蛋白質(zhì)關(guān)系實(shí)例表示為空間向量。傳統(tǒng)的做法是利用人工定制的特征集合抽取特征,然后采用獨(dú)熱編碼等方式將特征向量轉(zhuǎn)換為空間向量,或通過設(shè)計(jì)核函數(shù)的方式計(jì)算實(shí)例之間的內(nèi)積。而本文僅僅利用骨架特征[9]和其對(duì)應(yīng)的詞表示將蛋白質(zhì)關(guān)系實(shí)例表示為空間向量。本文使用的實(shí)例表示方法分為四步。
第一步,提取骨架特征。傳統(tǒng)的特征往往經(jīng)過加工,而骨架特征只包含基礎(chǔ)的詞語特征,以經(jīng)過切詞之后的文本“N-SH2and SH3+N-SH2interact only with IR beta.”為例,骨架特征包括:
a.蛋白質(zhì)詞語特征。本例中目標(biāo)蛋白質(zhì)對(duì)為“SH3+N-SH2”和“IR beta”,蛋白質(zhì)詞語特征分別為[SH3,+,N,-,SH2]和[IR,beta]。
b.蛋白質(zhì)周圍詞特征。選取到目標(biāo)蛋白質(zhì)對(duì)距離小于r的詞作為周圍詞特征。在本例中當(dāng)r=1時(shí),周圍詞特征分別是[and,interact]和[with,.]。
c.蛋白質(zhì)中間詞特征。蛋白質(zhì)之間的詞往往預(yù)示著蛋白質(zhì)對(duì)之間是否存在關(guān)系,如在該例句中,[interact,only,with]預(yù)示了兩個(gè)蛋白質(zhì)之間存在交互關(guān)系。
d.句中所有詞特征。在例句中,所有詞特征為[N,-,SH2,and,SH3,+,N,-,SH2,interact,only,with,IR,beta,.]。
第二步,查表,即在抽取出骨架特征之后,利用詞表示將詞語轉(zhuǎn)換為向量。詞表示由Skip-gram、CBOW、GloVe和ELB[10]等模型訓(xùn)練得到。由于骨架特征均是詞語特征,因此,骨架特征經(jīng)過查表后均可轉(zhuǎn)換為詞表示。
第三步,向量組合。在骨架特征中,除了周圍詞特征由r固定長度之外,其他特征長度均是不定的,因此需要對(duì)除周圍詞特征之外的骨架特征進(jìn)行統(tǒng)一。以中間詞特征為例,經(jīng)過查表之后[interact,only,with]分別對(duì)應(yīng)詞向量C(interact),C(only),和C(with)。采用四種常見的向量組合方法,分別取C(interact),C(only)和C(with)每一維度取值的和、平均值、最大值和最小值,得到四個(gè)組合向量,其維度與詞向量維度一致。除了取平均之外,每種組合方式的分布與原始詞向量的分布不同,因此四種向量組合方式在信息表示上不會(huì)產(chǎn)生冗余。
第四步,向量拼接。經(jīng)過向量組合后拼接所有特征對(duì)應(yīng)的向量,得到最終的輸入向量。
經(jīng)過骨架特征提取、查表、向量組合和拼接等步驟之后,關(guān)系實(shí)例就轉(zhuǎn)換成了空間中的向量。至此便完成了關(guān)系實(shí)例的初步表示,接下來將對(duì)該表示進(jìn)行優(yōu)化。
2.3 特征優(yōu)化
本文在特征優(yōu)化階段使用了主成分分析(Principal component analysis(PCA))和特征選擇,這兩種方法是運(yùn)用最廣泛的兩類特征優(yōu)化方法。PCA是一種分析、簡化數(shù)據(jù)集的技術(shù),在降低維度的同時(shí)保持?jǐn)?shù)據(jù)集中對(duì)方差貢獻(xiàn)最大的特征。
特征選擇是指從特征集合中選取一個(gè)子集的過程,本文采用的特征選擇方法有L1邏輯回歸、L2邏輯回歸、SVM和隨機(jī)森林四種基于模型的特征選擇方法。
L1邏輯回歸和L2邏輯回歸是在邏輯回歸的損失函數(shù)中分別加入L1正則化項(xiàng)和L2正則化項(xiàng),通過對(duì)正則項(xiàng)的引入減少模型的過擬合?;贚1邏輯回歸的特征選擇提供了較好的解釋性,但在關(guān)聯(lián)特征存在的情況下穩(wěn)定性較差,而L2邏輯回歸剛好相反,對(duì)關(guān)聯(lián)特征的評(píng)價(jià)具有較好的穩(wěn)定性,但特征之間得分往往較為接近,導(dǎo)致特征的區(qū)分度相對(duì)較弱。SVM算法思想是使距離分類超平面最近的樣本與分類超平面的距離盡可能遠(yuǎn),即間隔最大化原則,其符合結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則。SVM在許多自然語言處理任務(wù)中的表現(xiàn)非常出色,因此,SVM作為分類器和特征選擇工具都具有十分重要的研究價(jià)值。隨機(jī)森林是在決策樹算法基礎(chǔ)上應(yīng)用自舉匯聚法(bootstrap aggregating)得到的。使用隨機(jī)森林進(jìn)行特征選擇時(shí),采用構(gòu)建決策樹過程中特征的信息增益作為特征的得分。與邏輯回歸和SVM的模型參數(shù)不同,這種方式從信息論的角度來衡量特征的重要度,對(duì)前幾種特征選擇方法形成了較好的補(bǔ)充。
2.4 分類器
本文總共采用六種分類器:樸素貝葉斯、L1邏輯回歸、L2邏輯回歸、支持向量機(jī)、隨機(jī)森林和多層感知機(jī)。樸素貝葉斯分類器是在假設(shè)特征之間獨(dú)立的條件下運(yùn)用貝葉斯定理的分類器,對(duì)于給出的待分類項(xiàng),求解在此項(xiàng)出現(xiàn)的條件下各個(gè)類別出現(xiàn)的概率,將概率最大的類別確定為此項(xiàng)的類別;邏輯回歸分類器是一種常見的廣義線性分類器,在邏輯回歸的損失函數(shù)中分別引入L1、L2正則項(xiàng)即可得到L1邏輯回歸和L2邏輯回歸分類器;支持向量機(jī)是一種基于最大間隔思想的分類器,目前在蛋白質(zhì)關(guān)系抽取中應(yīng)用最為廣泛;隨機(jī)森林是在決策樹基礎(chǔ)上進(jìn)行擴(kuò)展的方法,能夠處理高維度的數(shù)據(jù),適合做分類問題;多層感知機(jī)是一種前向結(jié)構(gòu)的人工神經(jīng)網(wǎng)絡(luò),映射一組輸入向量到一組輸出向量。可以被看作是一個(gè)有向圖,由多個(gè)節(jié)點(diǎn)層所組成,每一層都全連接到下一層。除了輸入節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)都是一個(gè)帶有非線性激活函數(shù)的神經(jīng)元。神經(jīng)網(wǎng)絡(luò)包含神經(jīng)元的一個(gè)或多個(gè)隱層,并且隱層的節(jié)點(diǎn)使神經(jīng)網(wǎng)絡(luò)從輸入模式中不斷獲取有意義的特性,從而學(xué)會(huì)處理高度非線性的復(fù)雜任務(wù)。
3.1 語料及評(píng)價(jià)方法
本文在五個(gè)公共開放的蛋白質(zhì)關(guān)系抽取任務(wù)上進(jìn)行了實(shí)驗(yàn)。該任務(wù)包含五個(gè)公共的語料:AIMed[11]、BioInfer[12]、HPRD50[2]、IEPA[13]和LLL[14]。蛋白質(zhì)關(guān)系抽取的性能通過十倍交叉驗(yàn)證的方式進(jìn)行評(píng)價(jià)。目前主流的十倍交叉驗(yàn)證方法分為文檔級(jí)和實(shí)例級(jí)兩種方式,而文檔級(jí)的十倍交叉驗(yàn)證極易受到如何切分的影響,這一點(diǎn)在AIMed語料上尤為明顯,在五個(gè)語料中,AIMed語料實(shí)例數(shù)與文檔數(shù)的比例是最大的,在這種情況下,當(dāng)采用文檔級(jí)切分時(shí),AIMed語料上取得的F值很容易受到切分方式的影響。因此,本文采用句子級(jí)十倍交叉驗(yàn)證計(jì)算F值的方式對(duì)模型進(jìn)行評(píng)價(jià)。
3.2 實(shí)驗(yàn)結(jié)果及分析3.2.1 詞表示和分類器對(duì)系統(tǒng)的影響
首先,利用獨(dú)熱編碼完成實(shí)例表示,即圖1查表步驟中采用的向量是獨(dú)熱向量,并采用SVM分類器在五個(gè)蛋白質(zhì)關(guān)系抽取語料上進(jìn)行實(shí)驗(yàn),以此作為基線系統(tǒng)。其次,利用四種詞表示方法和六種分類器的組合進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表1所示。
表1 詞表示和分類器對(duì)系統(tǒng)的影響
從表1的對(duì)比實(shí)驗(yàn)中可以分析得出如下結(jié)論。
首先,詞表示比獨(dú)熱編碼的數(shù)據(jù)表示方法更有優(yōu)勢(shì)。在所有五個(gè)語料上,同樣采用SVM作為分類器,ELB、Skip-gram和CBOW均比獨(dú)熱編碼取得了更高的F值,這驗(yàn)證了詞表示方法能夠捕捉詞語語義信息的能力,證實(shí)了通過引入詞表示可以有效提高系統(tǒng)性能。同時(shí),實(shí)驗(yàn)中所有詞向量的訓(xùn)練語料是從MEDLINE中挑選的與蛋白質(zhì)相關(guān)的50 000篇文獻(xiàn),窗口大小均為5,詞向量維度均是400。從表1中可以看出,ELB在三個(gè)語料上取得了較好的效果,而在HPRD50和LLL上,Skip-gram和GloVe分別取得了最好的效果。
第二,分類器對(duì)模型具有很大影響。盡管可以從理論上分析每一種分類器各自的優(yōu)缺點(diǎn)和適用場景,但從表1中可以看出,在六種分類器中,L2邏輯回歸、支持向量機(jī)和多層感知機(jī)在PPIE任務(wù)上是效果相對(duì)較好的。盡管L1邏輯回歸和L2邏輯回歸區(qū)別僅僅在于正則項(xiàng)的不同,最終取得的F值也有較為明顯的差距。另一方面,雖然現(xiàn)有大多數(shù)PPIE方法基于支持向量機(jī),但L2邏輯回歸、多層感知機(jī)也達(dá)到了與支持向量機(jī)相當(dāng)甚至更好的水平,因此,針對(duì)具體語料選擇合適的分類器具有極為現(xiàn)實(shí)的意義。
第三,不同語料上的最優(yōu)模型不同。當(dāng)固定分類器時(shí),詞表示在不同語料上的性能是不同的,如采用隨機(jī)森林分類器時(shí),五個(gè)語料上的最優(yōu)詞表示模型分別是:CBOW、Skip-gram、ELB、ELB和GloVE;而當(dāng)固定詞表示時(shí),不同分類器的性能也不同??紤]到AIMed和BioInfer規(guī)模比其他語料大很多,本文著重考慮這兩個(gè)語料上的表現(xiàn)。由表1可見,ELB和多層感知機(jī)的組合在AIMed、BioInfer、和IEPA上取得了最高的F值,在LLL上也取得了較高的F值,綜合表現(xiàn)較好。
3.2.2 神經(jīng)網(wǎng)絡(luò)隱層對(duì)系統(tǒng)的影響
多層感知機(jī)相對(duì)其他分類器具有更多可調(diào)參數(shù),并且在三個(gè)語料上取得了最高的F值,因此多層感知機(jī)具有進(jìn)一步挖掘的空間。然而,如何選擇參數(shù)是一項(xiàng)極具挑戰(zhàn)的任務(wù)。Bengio在Reddit機(jī)器學(xué)習(xí)版塊的“Ask Me AnyThing”問答活動(dòng)中指出,隱含層的數(shù)量應(yīng)該是1到3,每一層的隱含單元數(shù)目應(yīng)該是50到5 000,給出了隱層參數(shù)的大概參數(shù)范圍,但針對(duì)PPIE這個(gè)具體的問題,仍然需要通過實(shí)驗(yàn)來尋找更好的隱層參數(shù)。除了隱層參數(shù)不同之外,在本文出現(xiàn)的所有神經(jīng)網(wǎng)絡(luò)中,激活函數(shù)均采用relu,優(yōu)化方式均為adam,均加入L2正則項(xiàng),表2列出了在多層感知機(jī)上進(jìn)一步實(shí)驗(yàn)結(jié)果。
通過表2可以得出如下結(jié)論:
表2 多層感知機(jī)隱層參數(shù)對(duì)系統(tǒng)的影響
續(xù)表
首先,隱層有可能有助于提升系統(tǒng)性能,也有可能起到相反的作用。以AIMed語料和Skip-gram詞表示模型為例,當(dāng)沒有隱層時(shí)F值為55.7%,當(dāng)采用一個(gè)、四個(gè)、五個(gè)隱層時(shí),能取得更高的F值,而當(dāng)采用兩個(gè)、三個(gè)隱層時(shí),F(xiàn)值反而會(huì)下降。整個(gè)神經(jīng)網(wǎng)絡(luò)可視作對(duì)數(shù)據(jù)的非線性變換,通過改變隱層數(shù)可以改變神經(jīng)網(wǎng)絡(luò)的非線性變換效果,但能否對(duì)系統(tǒng)帶來提升是難以通過理論分析預(yù)知的,需要通過實(shí)驗(yàn)才能驗(yàn)證。
其次,隱層的個(gè)數(shù)為1時(shí)系統(tǒng)性能較好。盡管深度學(xué)習(xí)的初衷是通過逐層的抽象和優(yōu)化來得到更好的表示,但從實(shí)際的實(shí)驗(yàn)效果上來看,有時(shí)候更多的隱層效果未必更好,例如,ELB+[1000]的F值要好過ELB+[5000,1000]、ELB+[1000,50],ELB+[1000,500,50]、ELB+[1000,500,200,50]和[1000,500,200,100,50]。盡管從[1000,50]到[1000,500,200,50],F(xiàn)值呈遞增的趨勢(shì),但[1000,500,200,100,50]的F值比[1000,500,200,50]又有所下降。因此,隱層個(gè)數(shù)具體取多少最好,很難一概而論,需要通過實(shí)驗(yàn)驗(yàn)證才能得出結(jié)論,而在PPIE的實(shí)驗(yàn)上發(fā)現(xiàn),當(dāng)隱層為1時(shí)多層感知機(jī)在五個(gè)語料上取得了較好的表現(xiàn)。
第三,隱層節(jié)點(diǎn)數(shù)對(duì)性能有一定影響。例如,ELB+[1000]在五個(gè)PPIE語料上分別取得了70.5%、82.2%、60.9%、73.8%和78.2%的F值,比ELB+[100]分別高出了2.5、2.2、-5.7、-0.4、-3.3個(gè) 百分點(diǎn),因此,在不同的語料上,最優(yōu)隱層節(jié)點(diǎn)個(gè)數(shù)是不同的。即便采用同樣的預(yù)處理、特征選取、向量組合方法,同樣的隱層節(jié)點(diǎn)個(gè)數(shù)對(duì)不同的語料會(huì)產(chǎn)生不同的影響,在其原因可能在于語料的分布不同。
第四,隱層個(gè)數(shù)比隱層節(jié)點(diǎn)數(shù)的影響可能更大。從表2的實(shí)驗(yàn)結(jié)果看出,在五個(gè)語料上性能最好的神經(jīng)網(wǎng)絡(luò)均只含一個(gè)隱層,而不論節(jié)點(diǎn)數(shù)為100還是1 000,都取得了比兩個(gè)及以上隱層更好的效果,因此,隱層個(gè)數(shù)對(duì)系統(tǒng)的影響可能更大。
3.2.3 PCA、特征選擇表示優(yōu)化能力對(duì)比
在傳統(tǒng)的機(jī)器學(xué)習(xí)方法中,PCA和特征選擇均屬于特征優(yōu)化的方法,因此,本文通過在樸素貝葉斯、L1邏輯回歸、L2邏輯回歸、隨機(jī)森林、支持向量機(jī)和多層感知機(jī)之前,引入特征優(yōu)化模塊,以對(duì)比PCA和特征選擇的特征優(yōu)化能力。
表3對(duì)比了特征優(yōu)化對(duì)系統(tǒng)性能的影響,選用的詞向量由ELB模型訓(xùn)練得到,從中可以得出如下結(jié)論:
首先,神經(jīng)網(wǎng)絡(luò)的表示能力在AIMed和BioInfer兩個(gè)語料上最為明顯。PCA、四種特征選擇方法與六種分類器共計(jì)30種組合,在這兩個(gè)語料上的F值都沒有超過單隱層多層感知機(jī),這說明了神經(jīng)網(wǎng)絡(luò)的表示優(yōu)化能力在某些語料上可以與傳統(tǒng)的基于PCA和特征選擇相抗衡。
其次,在HPRD50、IEPA和LLL這三個(gè)較小的語料上,PCA和特征選擇能對(duì)多層感知機(jī)起到增強(qiáng)作用。例如,在單隱層的基礎(chǔ)上引入PCA后,在這三個(gè)語料上的F值均有進(jìn)一步提升,分別從60.9%、73.8%和78.2%提升到了79.7%、75.5%和82.0%,其他特征選擇算法也起到了一定的提升作用。
第三,PCA和特征選擇有時(shí)候會(huì)對(duì)性能起提升作用,但有時(shí)候也會(huì)起相反的作用。這樣的證據(jù)很容易從表3中找到,例如加入PCA的L2邏輯回歸,在AIMed上從66.9提升到了67.2,但在LLL上從83.7下降到了83.4。
表3 特征優(yōu)化對(duì)系統(tǒng)的影響
續(xù)表
3.2.4 與其他方法的比較
表4對(duì)比了本文與其他實(shí)例級(jí)十倍交叉驗(yàn)證PPIE方法的性能。從中分析發(fā)現(xiàn):
表4 本文四種方法與其他方法的結(jié)果對(duì)比
首先,表4列出的大多數(shù)方法僅在AIMed語料上進(jìn)行了驗(yàn)證,可以看出,本文的方法70.5%的F值是所有方法中最高的,從而證實(shí)了通過發(fā)揮詞向量的語義表示能力和神經(jīng)網(wǎng)絡(luò)的表示優(yōu)化能力,可以取得比傳統(tǒng)的基于特征、核函數(shù)方法更好的效果。
其次,在表4中,Li等[5]通過融合Skip-gram詞表示、布朗聚類和樹核構(gòu)建組合核SVM分類器,已經(jīng)在五個(gè)PPIE語料上取得了很好的效果,比其他過去的方法具有更高的F值。本文所采用的基于多層感知機(jī)的方法在AIMed和BioInfer這兩個(gè)相對(duì)較大的語料上比Li等[5]的方法有所提升,分別提高了0.8和8.2個(gè)百分點(diǎn),當(dāng)采用支持向量機(jī)作特征優(yōu)化、以L2邏輯回歸為分類器時(shí),在HPRD50語料上也取得了較好的結(jié)果,但在IEPA和LLL這兩個(gè)語料上的性能稍低Li等[5]的方法。這可能是因?yàn)樯窠?jīng)網(wǎng)絡(luò)的表示優(yōu)化能力受到語料規(guī)模的影響,在規(guī)模較大的語料上經(jīng)過充分訓(xùn)練后才能取得較好的效果,而樹核、布朗聚類和詞表示的組合核函數(shù)屬于人工表示,不依賴于訓(xùn)練數(shù)據(jù)規(guī)模,因此在小語料上Li等[5]的方法具有更好的表現(xiàn)。
本文針對(duì)蛋白質(zhì)間關(guān)系抽取問題,提出了一種實(shí)例表示模型,并對(duì)該模型進(jìn)行了驗(yàn)證,充分考慮了四種詞表示模型(Skip-gram、CBOW、GloVe和BLE)、PCA、四種特征選擇算法(L1邏輯回歸、L2邏輯回歸、隨機(jī)森林和支持向量機(jī))和六種分類器(樸素貝葉斯、L1邏輯回歸、L2邏輯回歸、隨機(jī)森林、支持向量機(jī)和多層感知機(jī))在不同組合下的性能,從中得出的主要結(jié)論包括:
(1) 通過實(shí)驗(yàn)驗(yàn)證了借助詞表示和深層神經(jīng)網(wǎng)絡(luò)的表達(dá)能力可以取得比傳統(tǒng)的基于特征或核函數(shù)的方法更好的效果。盡管本文針對(duì)詞表示和多層感知機(jī)做了較為充分的實(shí)驗(yàn),但詞表示和深度學(xué)習(xí)仍有廣闊的研究空間,例如卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)等深度學(xué)習(xí)框架已經(jīng)在相關(guān)領(lǐng)域取得了一定成就,因此,本文為將來更廣泛的基于深度學(xué)習(xí)和詞表示的關(guān)系抽取研究提供了可行性依據(jù)。
(2) 深層神經(jīng)網(wǎng)絡(luò)對(duì)隱層較為敏感。當(dāng)隱層設(shè)置得當(dāng)時(shí),神經(jīng)網(wǎng)絡(luò)比其他機(jī)器學(xué)習(xí)具有較為明顯的優(yōu)勢(shì);但當(dāng)隱層設(shè)置不合理時(shí),反而會(huì)導(dǎo)致性能的急劇下降。在蛋白質(zhì)關(guān)系抽取任務(wù)上,隱層的層數(shù)并非越多越好,更多的層數(shù)不意味著更好的性能;但相比隱層節(jié)點(diǎn)個(gè)數(shù),隱層個(gè)數(shù)的選擇相對(duì)更為重要。
(3) 特征優(yōu)化對(duì)PPI抽取性能不總是起提升作用,有時(shí)候可能會(huì)起相反的作用,并且神經(jīng)網(wǎng)絡(luò)的表示優(yōu)化能力在某些語料上可以與傳統(tǒng)的基于PCA和特征選擇相抗衡。
(4) 針對(duì)不同的語料,其最佳模型是不同的,應(yīng)當(dāng)針對(duì)具體的語料來設(shè)計(jì)和定制模型。即便同樣是蛋白質(zhì)關(guān)系抽取任務(wù),很難找到能夠同時(shí)提升五個(gè)語料的抽取性能的模型。
本文提出并驗(yàn)證了實(shí)例表示模型,在蛋白質(zhì)關(guān)系抽取任務(wù)上取得了較好的效果。正如上文第四點(diǎn)所述,想要找到一款泛化性很強(qiáng)的模型,能同時(shí)運(yùn)用于多個(gè)語料或任務(wù)是非常困難的,針對(duì)具體任務(wù)設(shè)計(jì)模型以提升抽取性能是較為現(xiàn)實(shí)的途徑。
[1] Yakushiji A,Miyao Y,Tateisi Y,et al.Biomedical information extraction with predicate-argument structure patterns[C]//Proceedings of the first International Symposium on Semantic Mining in Biomedicine.2005:60-69.
[2] Fundel K,Küffner R,Zimmer R.RelEx—Relation extraction using dependency parse trees[J].Bioinformatics,2007,23(3):365-371.
[4] Tikk D,Solt I,Thomas P,et al.A detailed error analysis of 13 kernel methods for protein-protein interaction extraction[J].BMC bioinformatics,2013,14(1):1-20.
[5] Li L,Guo R,Jiang Z,et al.Improving Kernel-based protein-protein interaction extraction by unsupervised word representation[C]//Proceeding of 2014 IEEE International Conference on Bioinformatics and Biomedicine.2014:379-384.
[6] Zhao Z,Yang Z,Luo L,et al.Deep neural network based protein-protein interaction extraction from biomedical literature[C]//Proceeding of 2015 IEEE International Conference on Bioinformatics and Biomedicine.2015:1156-1156.
[7] Van Landeghem S,Saeys Y,De Baets B,et al.Extracting protein-protein interactions from text using rich feature vectors and feature selection[C]//Proceeding of 3rd International symposium on Semantic Mining in Biomedicine.Turku Centre for Computer Sciences,2008:77-84.
[8] Li Y,Lin H,Yang Z.Applying feature coupling generalization for protein-protein interaction extraction[C]//Proceeding of 2009 IEEE International Conference on Bioinformatics and Biomedicine.2009:396-400.
[9] Li L,Jiang Z,Huang D.A general instance representation architecture for protein-protein interaction extraction[C]//Proceedings of 2014 IEEE International Conference on Bioinformatics and Biomedicine.2014:497-500.
[10] Jiang Z,Li L,Huang D,et al.Training word embeddings for deep learning in biomedical text mining tasks[C]//Proceeding of 2015 IEEE International Conference on Bioinformatics and Biomedicine.2015:625-628.
[11] Bunescu R,Ge R,Kate R J,et al.Comparative experiments on learning information extractors for proteins and their interactions[J].Artificial intelligence in medicine,2005,33(2):139-155.
[12] Pyysalo S,Ginter F,Heimonen J,et al.BioInfer:a corpus for information extraction in the biomedical domain[J].BMC bioinformatics,2007,8(1):50.
[13] Ding J,Berleant D,Nettleton D,et al.Mining MEDLINE:abstracts,sentences,or phrases[C]//Proceedings of the pacific symposium on biocomputing.2002:326-337.
[14] Nédellec C.Learning language in logic-genic interaction extraction challenge[C]//Proceedings of the 4th Learning Language in Logic Workshop.2005:1-7.
[15] Giuliano C,Lavelli A,Romano L.Exploiting shallow linguistic information for relation extraction from biomedical literature[C]//Proceedings of the 11th Conference of the European Chapter of the Association for Computational Linguistics.2006:401-408.
[16] Mitsumori T,Murata M,Fukuda Y,et al.Extracting protein-protein interaction information from biomedical text with SVM[J].IEICE Transactions on Information and Systems,2006,89(8):2464-2466.
[17] Erkan G,Ozgur A,Radev D R.Extracting interacting protein pairs and evidence sentences by using dependency parsing and machine learning techniques[C]//Proceedings of the Second BioCreative Challenge Workshop.2007:2-8.
[18] Katrenko S,Adriaans P.Learning relations from biomedical corpora using dependency trees[C]//Proceedings of the Knowledge Discovery and Emergent Complexity in Bioinformatics first International Workshop.2006:61-80.
[20] Fayruzov T,De Cock M,Cornelis C,et al.DEEPER:a full parsing based approach to protein relation extraction[C]//Proceedings of the European Conference on Evolutionary Computation,Machine Learning and Data Mining in Bioinformatics.2008:36-47.
[21] Yu H,Qian L,Zhou G,et al.Extracting protein-protein interaction from biomedical text using additional shallow parsing information[C]//Proceedings of 2009 IEEE International Conference on Bioinformatics and Biomedicine.2009:1-5.
[22] 李麗雙,劉洋,黃德根.基于組合核的蛋白質(zhì)交互關(guān)系抽取[J].中文信息學(xué)報(bào),2013,27(1):86-93.
[23] Li L,Zhang P,Zheng T,et al.Integrating semantic information into multiple kernels for protein-protein interaction extraction from biomedical literatures[J].PloS one,2014,9(3):28-47.
Extracting Protein-Protein Interactions with Word Representation and Deep Neural Network
LI Lishuang,JIANG Zhenchao,WAN Jia,HUANG Degen
(School of Computer Science and Technology,Dalian University of Technology,Dalian,Liaoning 116023,China)
Protein-Protein Interaction extraction (PPIE) is a significant topic in biomedical text mining.Most of the current researches on PPI are based on kernels and features.To further boost the performance,this paper presents an improved instance representation model integrating word representation and deep neural network.Meanwhile,the model incorporates feature selection,PCA and different kinds of classifiers,and finds the best combinations for PPI extraction.Experimental results show that the method is significantly better than other state-of-art methods on three public PPI corpora:AIMed,BioInfer,HPRD50,achieving the F-scores of 70.5%,82.2% and 80.0%,respectively.
protein-protein interaction extraction; word representation; deep neural network
李麗雙(1967—),通信作者,教授,博士生導(dǎo)師,主要研究領(lǐng)域?yàn)樽匀徽Z言處理、信息抽取與機(jī)器翻譯。E-mail:lils@dlut.edu.cn蔣振超(1988—),博士研究生,主要研究領(lǐng)域?yàn)樽匀徽Z言處理。E-mail:jzc_nlp@163.com萬佳(1992—),碩士研究生,主要研究領(lǐng)域?yàn)樽匀徽Z言處理。E-mail:1725799902@qq.com
1003-0077(2017)01-0031-10
2016-09-15 定稿日期:2016-10-20
國家自然科學(xué)基金(61672126,61173101,61173100)
TP391
A