楊 霞, 韓春燕, 琚生根
(1.四川大學(xué)計(jì)算機(jī)學(xué)院, 成都 610065; 2.四川民族學(xué)院理工學(xué)院, 康定 626001)
藥物-藥物相互作用(Drug-Drug Interaction,DDI)關(guān)系抽取是生物醫(yī)學(xué)關(guān)系抽取中最典型的任務(wù)之一,旨在從生物醫(yī)學(xué)文獻(xiàn)中提取兩種或多種藥物實(shí)體之間的相互作用關(guān)系.在臨床應(yīng)用中,當(dāng)多種藥物同時(shí)服用時(shí)可能會(huì)發(fā)生藥物相互作用,這種作用可能在增加或減少藥物效果的同時(shí),讓服用者產(chǎn)生不良反應(yīng),醫(yī)務(wù)人員往往花費(fèi)大量時(shí)間審查DDI的相關(guān)知識(shí)信息.然而,隨著生物醫(yī)學(xué)文獻(xiàn)數(shù)量的增加,手動(dòng)收集DDI信息既費(fèi)時(shí)又昂貴.因此,如何有效地從這些醫(yī)學(xué)文獻(xiàn)中自動(dòng)提取結(jié)構(gòu)化信息已成為研究人員亟待解決的問題.
近年來(lái),隨著DDIExtraction 2011[1]和DDIExtraction 2013[2]藥物抽取任務(wù)的發(fā)布,各種DDI提取方法被提出來(lái),大致可以分為以下3類:基于模式匹配的方法、基于特征的機(jī)器學(xué)習(xí)方法和基于深度學(xué)習(xí)的方法.基于模式匹配的方法是這一領(lǐng)域的傳統(tǒng)方法, 利用特定類型的模式和匹配規(guī)則來(lái)識(shí)別生物醫(yī)學(xué)實(shí)體之間的語(yǔ)義關(guān)系.通常不需要標(biāo)記數(shù)據(jù),但需要生物醫(yī)學(xué)專家來(lái)制定和設(shè)計(jì)模式形式或手動(dòng)編碼規(guī)則.由于預(yù)先定義的模式或規(guī)則通常不能適應(yīng)自由文本中的語(yǔ)法變化導(dǎo)致召回率較低.因此,產(chǎn)生了機(jī)器學(xué)習(xí)的方法,基于機(jī)器學(xué)習(xí)的關(guān)系抽取采用特征表示或內(nèi)核設(shè)計(jì)方法,通常會(huì)利用句子中多種多樣的特征,并將其饋入支持向量機(jī)[3]等分類器中.與過去基于模式匹配的方法相比,基于特征的機(jī)器學(xué)習(xí)方法取得了較大的成功,并且具有更好的可移植性.但是它仍舊需要人工定義特征,比如詞性、句法、語(yǔ)法等.由于獲取這些特征需要利用外部自然語(yǔ)言處理(Natrual Language Processing,NLP)工具,而這些工具并非為特定領(lǐng)域量身定做,因此會(huì)存在錯(cuò)誤傳播從而影響性能.得益于深度學(xué)習(xí)的興起,基于神經(jīng)網(wǎng)絡(luò)的自動(dòng)特征表示模型在DDI提取任務(wù)中取得了較大的成功,這些模型能夠在沒有大量手工特征工程的情況下,自動(dòng)從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)相關(guān)表示和特征,而無(wú)需專家仔細(xì)設(shè)計(jì)模式、特征和內(nèi)核功能.例如,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network ,CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN).然而,這些神經(jīng)網(wǎng)絡(luò)模型僅從給定的句子中提取語(yǔ)義特征,性能往往不能優(yōu)于基于特征和內(nèi)核方法的模型.因此研究人員利用外部資源和背景知識(shí)來(lái)豐富語(yǔ)義特征,提升任務(wù)性能.這些方法都極大地促進(jìn)了DDI的抽取,但仍然存在幾個(gè)缺陷.首先,使用背景知識(shí)的模型可能過于局限于某些語(yǔ)料庫(kù),因?yàn)楸尘爸R(shí)往往以不同的形式出現(xiàn),有時(shí)候甚至找不到合適的知識(shí).其次,為了預(yù)測(cè)句子中藥物實(shí)體對(duì)之間的相互作用關(guān)系,大多數(shù)方法除了利用句子中詞匯信息外,還需要大量額外的特征,比如詞性特征、句子的依賴特征以及語(yǔ)法樹特征,而這些特征的提取依賴于NLP工具,因此可能會(huì)因?yàn)樵馐苠e(cuò)誤傳播和積累而導(dǎo)致實(shí)驗(yàn)性能下降.
受到VGCN-BERT[4]和預(yù)訓(xùn)練的生物醫(yī)學(xué)語(yǔ)言模型(Biomedical Bidirectional Encoder Representations from Transformers,BioBERT)[5]的啟發(fā),針對(duì)上述存在的問題,本文提出了基于預(yù)訓(xùn)練生物醫(yī)學(xué)語(yǔ)言模型的詞匯圖卷積神經(jīng)網(wǎng)絡(luò)關(guān)系抽取模型(Relational BioBERT Vocabulary Graph Convolutional Network,RBio-VGCN),該模型通過BioBERT自動(dòng)獲得句子和實(shí)體嵌入特征,基于數(shù)據(jù)集中詞語(yǔ)共現(xiàn)頻率構(gòu)建的詞匯圖,將句子嵌入與詞匯圖進(jìn)行圖卷積(Graph Convolutional NetWork, GCN)[6]操作獲得與句子相關(guān)的全局語(yǔ)義特征,通過BioBERT模型各個(gè)層中的自注意力機(jī)制將句子嵌入信息與全局語(yǔ)義相關(guān)信息充分交互,捕獲與輸入句子相關(guān)的信息并且忽略掉不相關(guān)的信息,得到與關(guān)系抽取任務(wù)相關(guān)的特征表示,最后與藥物目標(biāo)實(shí)體對(duì)特征進(jìn)行拼接用于DDI關(guān)系抽取.在獲得較好的性能同時(shí)避免了使用外部資源和第三方NLP工具,使得該模型具有較好的泛化能力.
本文的主要貢獻(xiàn)可歸納如下:(1) 首次在DDI數(shù)據(jù)集上構(gòu)建詞匯圖,并將BioBERT獲得的句子上下文信息使用圖卷積神經(jīng)網(wǎng)絡(luò)獲得與句子相關(guān)的全局特征,而不需要使用外部自然語(yǔ)言處理工具,避免錯(cuò)誤傳播與積累,最后使用多層自注意力機(jī)制,最大化獲取與DDI任務(wù)相關(guān)的特征表示;(2) 通過在句子中嵌入目標(biāo)藥物實(shí)體對(duì)信息,為DDI關(guān)系抽取提供豐富的特征信息,而先前大多數(shù)工作都將其進(jìn)行盲化處理;(3) 模型在數(shù)據(jù)集DDIExtraction 2013上獲得了最優(yōu)結(jié)果,驗(yàn)證了該模型的有效性.
目前在藥物相互作用關(guān)系抽取領(lǐng)域應(yīng)用的方法主要分為:基于模式匹配、基于核函數(shù)和基于深度學(xué)習(xí)的方法.其中,基于深度學(xué)習(xí)的方法由于可以自動(dòng)地捕獲輸入句子的特征,實(shí)現(xiàn)藥物相互關(guān)系自動(dòng)抽取,已成為現(xiàn)在的研究熱點(diǎn).基于模式匹配和基于核函數(shù)的方法需要使用大量事先定義的特征,如詞性、語(yǔ)義、藥物名等特征來(lái)完成對(duì)藥物關(guān)系的抽取.Tomas等[7]使用基于多數(shù)投票機(jī)制的核函數(shù)方法.Zheng 等[8]使用基于等價(jià)類和綜合上下文信息的圖內(nèi)核.一般來(lái)說,這些基于特征和內(nèi)核的方法都嚴(yán)重依賴于設(shè)計(jì)精良的特征或核函數(shù).
隨著深度學(xué)習(xí)的發(fā)展,Liu等[9]提出了基于句子依賴解析的卷積神經(jīng)網(wǎng)絡(luò)模型,由于CNN模型忽略了句法信息以及句子中單詞之間的長(zhǎng)距離依賴關(guān)系,該模型利用依存解析樹來(lái)捕獲這些信息,其中邊表示兩個(gè)單詞之間的句法依賴.Zhao等[10]提出了一種語(yǔ)法卷積神經(jīng)網(wǎng)絡(luò),它結(jié)合了基于語(yǔ)法嵌入的特征和傳統(tǒng)特征,以獲得更好的表示.為了識(shí)別句法信息,他們使用解析器生成謂詞-自變量結(jié)構(gòu)中的最短路徑序列,而非傳統(tǒng)的線性單詞序列.劉寧寧等[11]提出了基于膠囊網(wǎng)絡(luò)的藥物關(guān)系抽取方法,該方法首先根據(jù)原語(yǔ)句解析出兩個(gè)藥物之間的最短依存路徑,利用雙向長(zhǎng)短期記憶網(wǎng)絡(luò)分別獲取原語(yǔ)句和最短依存路徑的低層語(yǔ)義表示,結(jié)合膠囊網(wǎng)絡(luò)進(jìn)行藥物相互抽取.得益于圖神經(jīng)網(wǎng)絡(luò)的發(fā)展,GCN已經(jīng)被成功應(yīng)用于在任意圖結(jié)構(gòu)上,包括知識(shí)圖譜、社交網(wǎng)絡(luò)、依賴圖等.Park等[12]提出了圖卷積網(wǎng)絡(luò)注意力模型,采用基于注意力的修剪策略獲得輸入句子的上下文信息和句子的結(jié)構(gòu)信息.但是以上模型使用額外工具解析句子依賴構(gòu)建圖結(jié)構(gòu),使得該模型可能會(huì)遭受錯(cuò)誤傳播和積累,并且都忽略了藥物目標(biāo)實(shí)體對(duì)特征信息進(jìn)而將其盲化處理.
基于注意力機(jī)制的模型被廣泛應(yīng)用于自然語(yǔ)言處理,其中預(yù)訓(xùn)練語(yǔ)言模型BERT[13]由于其多層雙向Transformer[14]結(jié)構(gòu),利用多層多頭注意力機(jī)制將句子的上下文信息從前向和后向集成到單詞向量中.BioBERT是第一個(gè)在生物醫(yī)學(xué)領(lǐng)域語(yǔ)料庫(kù)上經(jīng)過預(yù)訓(xùn)練的語(yǔ)言表示模型,該模型使用BERT的權(quán)重作初始化參數(shù),然后在生物醫(yī)學(xué)領(lǐng)域的語(yǔ)料庫(kù)PubMed摘要和PubMed Central全文本上進(jìn)行訓(xùn)練.Nguyen等[15]基于Relation BERT[16]模型,使用BioBERT獲得句子上下文信息,在藥物相互作用數(shù)據(jù)集上取得了良好的性能.但是該模型中將目標(biāo)藥物實(shí)體對(duì)盲化,并未使用目標(biāo)實(shí)體對(duì)特征信息用于關(guān)系抽取.Zhu 等[17]使用BioBERT獲得句子的嵌入,并且利用藥物實(shí)體特征信息,但同時(shí)也從知識(shí)庫(kù)中引入大量藥物解釋知識(shí),用以解釋說明數(shù)據(jù)集中藥物特征信息.由于需要引入特定的背景知識(shí),降低了模型的泛化能力.
以上方法都嚴(yán)重依賴于語(yǔ)言特征和領(lǐng)域背景知識(shí),這可能會(huì)給模型帶來(lái)額外的錯(cuò)誤以及影響模型的泛化能力.并且目標(biāo)實(shí)體在句子中的位置信息與目標(biāo)實(shí)體的上下文語(yǔ)義信息,對(duì)于關(guān)系抽取具有促進(jìn)作用,而先前大多數(shù)工作都在數(shù)據(jù)預(yù)處理階段將藥物實(shí)體盲化.因此,本文提出的RBio-VGCN模型通過在DDI數(shù)據(jù)集上構(gòu)建詞匯圖神經(jīng)網(wǎng)絡(luò),使得句子獲得額外信息特征的同時(shí)避免引入大量背景知識(shí),同時(shí)利用數(shù)據(jù)集中的詞匯構(gòu)建圖,避免使用第三方NLP工具解析句子依賴.
DDI關(guān)系抽取是根據(jù)生物醫(yī)學(xué)文獻(xiàn)中的句子對(duì)兩個(gè)藥物實(shí)體之間的相互作用類型進(jìn)行分類.本文使用藥物-藥物相互作用公共數(shù)據(jù)集DDIExtraction 2013進(jìn)行實(shí)驗(yàn),藥物-藥物相互作用關(guān)系抽取實(shí)例如圖1所示.
圖1 藥物-藥物相互作用關(guān)系抽取示例Fig.1 Examples of drug-drug interaction extraction
對(duì)于句子中給定的藥物實(shí)體標(biāo)記:e1=“calcium” 和e2=“EMCYT”本文的目標(biāo)是自動(dòng)識(shí)別出句子中藥物實(shí)體e1和藥物e2所表達(dá)的關(guān)系Mechanism.
圖2 RBio-VGCN模型結(jié)構(gòu)Fig.2 Structure of Rbio-VGCN model
本文根據(jù)原數(shù)據(jù)中的藥物實(shí)體,生成相互作用的藥物實(shí)體對(duì).針對(duì)目標(biāo)藥物實(shí)體對(duì)不盲化,對(duì)句子中的非目標(biāo)實(shí)體對(duì)的藥物實(shí)體使用“GRUG0”進(jìn)行盲化.由于本文使用的數(shù)據(jù)集中已經(jīng)標(biāo)記好了藥物實(shí)體,因此不再需要進(jìn)行命名實(shí)體識(shí)別.假設(shè)原語(yǔ)句s為:“Dexamethasone at 10(-10)M or retinyl acetate at about 3X 10(-9)M inhibits proliferation stimulated by EGF.”,其中 “Dexamethasone”,“ retinyl ”以及“EGF”表示藥物實(shí)體,該句中共有三個(gè)藥物實(shí)體,經(jīng)過藥物實(shí)體兩兩組合之后,可以得到三組藥物對(duì)句子,在對(duì)每個(gè)句子中的目標(biāo)實(shí)體對(duì)進(jìn)行特殊符號(hào)標(biāo)記后,會(huì)產(chǎn)生三個(gè)輸入語(yǔ)句.如表1所示.
(1)
表1 輸入語(yǔ)句處理
對(duì)于句子中的目標(biāo)實(shí)體嵌入,本文將組成該目標(biāo)實(shí)體的詞的嵌入表示進(jìn)行平均化,然后將平均后的結(jié)果作為該目標(biāo)實(shí)體的嵌入表示,目標(biāo)實(shí)體e1和e2嵌入公式分別如式(2)和式(3)所示.
(2)
(3)
其中,i、j分別表示實(shí)體e1中第i和第j個(gè)詞語(yǔ);m、n分別表示實(shí)體e2中第m和第n個(gè)詞語(yǔ).
當(dāng)嵌入層獲得輸入句子中詞語(yǔ)的嵌入之后,在詞匯圖上進(jìn)行卷積操作生成與句子相關(guān)的全局圖嵌入,在此過程中,只有與輸入句子相關(guān)的特征信息才會(huì)被抽取并且嵌入,再將句子嵌入和全局相關(guān)特征嵌入拼接(1),對(duì)拼接后的特征表示信息使用BioBERT中的多層自注意力機(jī)制,讓句子嵌入和句子全局圖嵌入特征進(jìn)行充分交互(2),使得原始句子融入詞匯中全局特征信息表示(3),過程如圖3所示.
圖3 句子嵌入與詞匯圖交互過程
3.5.1 構(gòu)建詞匯圖 本文使用標(biāo)準(zhǔn)點(diǎn)互信息(Normalized Point-wise Mutual Information,NPMI)構(gòu)建詞匯圖,因?yàn)檫@個(gè)指標(biāo)可以很好的衡量?jī)蓚€(gè)詞語(yǔ)之間的相關(guān)性,如式(4).
(4)
其中,i和j是詞語(yǔ);p(i)和p(j)表示的是兩個(gè)單詞出現(xiàn)的頻率;p(i,j)表示詞語(yǔ)i和詞語(yǔ)j在同一條句子中出現(xiàn)的概率.NPMI的值的范圍是[-1,1],正數(shù)表示單詞之間的語(yǔ)義相關(guān)性很高,而負(fù)數(shù)則表示很少或根本不相關(guān).在本文提出的方法中,如果兩個(gè)單詞之間的NPMI大于閾值,則在這兩個(gè)單詞之間建立一條邊.本文實(shí)驗(yàn)表明,當(dāng)閾值在0到0.2之間時(shí)性能達(dá)到最優(yōu).
3.5.2 詞匯圖卷積神經(jīng)網(wǎng)絡(luò) GCN由Kipf等[6]提出,是一個(gè)直接在圖上進(jìn)行卷積操作的神經(jīng)網(wǎng)絡(luò),通過鄰居節(jié)點(diǎn)的屬性推導(dǎo)當(dāng)前節(jié)點(diǎn)的嵌入特征,從而在一定程度上集成該數(shù)據(jù)域的全局上下文信息.給定一個(gè)單層的GCN,卷積的過程如式(5)所示.
(5)
本文的目標(biāo)是使用與任務(wù)相關(guān)的詞語(yǔ)進(jìn)行DDI關(guān)系抽取,而不是使用語(yǔ)料庫(kù)中的整個(gè)句子,因此,本文提出的圖形是基于詞語(yǔ)構(gòu)建的.假設(shè)給定由x個(gè)單詞組成的輸入句子,可以用式(6)來(lái)表示單層圖卷積的過程.
(6)
(7)
那么相應(yīng)的一個(gè)帶有激活函數(shù)的多層詞匯圖卷積網(wǎng)絡(luò)可以表示為
(8)
3.5.3 多層自注意力機(jī)制 在獲得了與輸入句子相關(guān)的全局詞匯特征后,通過自注意力機(jī)制可以將原始句子的特征與全局詞匯特征進(jìn)行充分交互,在保留當(dāng)前句子的上下文信息時(shí)融入與關(guān)系抽取相關(guān)的背景知識(shí)信息.
通過給定一個(gè)和任務(wù)相關(guān)的查詢向量Q,計(jì)算與K的注意力分?jǐn)?shù)并附加在V上,從而計(jì)算注意力分?jǐn)?shù),使用注意力分?jǐn)?shù),每個(gè)詞語(yǔ)可以獲得一個(gè)矢量表示來(lái)編碼上下文信息.注意力分?jǐn)?shù)計(jì)算公式如下:
(9)
本文將輸入句子的原始嵌入和詞語(yǔ)圖神經(jīng)網(wǎng)絡(luò)相關(guān)的嵌入和一同輸入BioBERT中,不僅獲得了詞語(yǔ)在句子中的序列信息,還獲得了從VGCN中捕獲到的背景知識(shí).通過自注意力機(jī)制,將句子的局部信息和詞匯圖神經(jīng)網(wǎng)絡(luò)的全局信息進(jìn)行充分交互,得到與任務(wù)相關(guān)的最終特征表示.
(10)
其中,Whg中g(shù)是超參數(shù),為詞語(yǔ)圖神經(jīng)網(wǎng)絡(luò)的輸出維度;m是一個(gè)訓(xùn)練批次的大??;e是詞語(yǔ)的嵌入維度;v是訓(xùn)練集中詞匯的數(shù)量.
在嵌入層分別獲得標(biāo)記后句子的表示輸出Femb、目標(biāo)實(shí)體e1和目標(biāo)實(shí)體e2的表示輸出后,本文對(duì)這三個(gè)輸出表示進(jìn)行拼接,得到最終的句子表示Hf.其中,權(quán)重矩陣w1的維度為Rn×3d,b1為偏置向量.如式(11)所示.
Hf=W1[concat(Femb,e1,e2)]+b1
(11)
輸出層的作用將句子與目標(biāo)實(shí)體全連接后的表示信息進(jìn)行歸一化,輸出概率最大的標(biāo)簽.輸出層利用Softmax函數(shù)實(shí)現(xiàn)歸一化,使得所有關(guān)系類別的總概率和為1,如式(12)和式(13)所示.
(12)
(13)
本文采用交叉熵?fù)p失函數(shù)進(jìn)行訓(xùn)練,交叉熵計(jì)算得分,該得分可以得出所有類別的實(shí)際概率分布與預(yù)測(cè)概率分布之間的差異.
(14)
其中,n表示訓(xùn)練數(shù)據(jù)集D=({s1,y1},…,{sn,yn})中數(shù)據(jù)大??;yi表示第i條句子si的真實(shí)類別標(biāo)簽;log(yi|si)表示第i條句子si被模型預(yù)測(cè)為真實(shí)標(biāo)簽yi的概率.
本文使用的藥物-藥物相互作用關(guān)系抽取數(shù)據(jù)集DDIExtraction2013如表2所示.由730篇DrugBank中的醫(yī)學(xué)文本和MEDLINE中的175篇摘要組成.該數(shù)據(jù)集分成兩部分:訓(xùn)練集由572篇DrugBank中的醫(yī)學(xué)文本和MEDLINE中的142篇摘要組成;測(cè)試集由158篇DrugBank中的醫(yī)學(xué)文本和MEDLINE中的33篇摘要組成.該數(shù)據(jù)集中所有的藥物實(shí)體都進(jìn)行了標(biāo)注,共有以下5種藥物-藥物相互作用關(guān)系類型.1) Mechanism:描述兩種藥物實(shí)體的藥代動(dòng)力學(xué)機(jī)制;2) Effect:明確地指出了兩種藥物相互作用的結(jié)果;3) Advise:描述了兩種藥物同時(shí)使用時(shí)的建議;4) Int:說明兩種藥物存在一定的關(guān)系,但未定義具體的關(guān)系類型;5) Negative:說明兩個(gè)藥物之間不存在相互作用.
表2 DDIExtraction 2013數(shù)據(jù)集信息統(tǒng)計(jì)
現(xiàn)有的DDI提取模型采用召回率R(Recall)、精確率P(Precision)、F1值(F1-score)三個(gè)指標(biāo)進(jìn)行評(píng)估.
本文實(shí)驗(yàn)條件為1個(gè)RTX3090-24G,使用PyTorch框架(https://github.com/pytorch/pytorch),預(yù)訓(xùn)練語(yǔ)言模型采用基于醫(yī)學(xué)數(shù)據(jù)集上進(jìn)行訓(xùn)練的BioBERT,該模型包含12層的Transformer.本文模型使用的參數(shù)取值如表3所示.
表3 參數(shù)取值
本文模型在DDIExtraction2013數(shù)據(jù)集上的訓(xùn)練過程如圖4所示,圖4是模型的F1值曲線圖.從圖中可以看出,模型訓(xùn)練的前段部分F1值提升較快,后續(xù)不斷的波動(dòng)尋找局部最優(yōu)值,最后逐漸趨近平穩(wěn).
圖4 F1值曲線圖Fig.4 F1 value graph
本文設(shè)計(jì)了消融實(shí)驗(yàn),以便于更好的分析不同模塊對(duì)DDI抽取的影響力.如表4所示,分別驗(yàn)證了詞匯圖卷積神經(jīng)網(wǎng)絡(luò)(VGCN)和嵌入目標(biāo)藥物實(shí)體特征(RBio-BERT + Entity)對(duì)實(shí)驗(yàn)結(jié)果的影響.
由表4消融實(shí)驗(yàn)可知,當(dāng)僅使用預(yù)訓(xùn)練的BioBERT模型而不加入任何實(shí)體信息和詞匯圖神經(jīng)網(wǎng)絡(luò)時(shí),模型并不能很好的識(shí)別DDI關(guān)系.在加入目標(biāo)實(shí)體信息后,模型的效果提高了1.55%,說明目標(biāo)實(shí)體信息有利于關(guān)系抽取實(shí)驗(yàn)性能.而在加入原始BioBERT模型上加入詞匯圖神經(jīng)網(wǎng)絡(luò)捕獲句子全局特征之后,實(shí)驗(yàn)性能提升了1.15%,說明與句子相關(guān)的全局信息可以提升關(guān)系抽取準(zhǔn)確率.
表4 消融實(shí)驗(yàn)
該消融實(shí)驗(yàn)的結(jié)果說明本文提出的模型可以充分結(jié)合預(yù)訓(xùn)練生物醫(yī)學(xué)語(yǔ)言模型、詞匯圖神經(jīng)網(wǎng)絡(luò)、目標(biāo)藥物實(shí)體信息三者的優(yōu)勢(shì),從而更好地提升整個(gè)模型的抽取效果.
為了更好地驗(yàn)證本文模型的有效性,本小節(jié)將RBio-VGCN模型的性能與該數(shù)據(jù)集的其他模型[11,15,17-22]進(jìn)行了比較.表5展示了在數(shù)據(jù)集DDIExtraction 2013上不同模型的實(shí)驗(yàn)結(jié)果.從表5中可以看到本文模型在測(cè)試集上的結(jié)果分別為:F1為83.25%,P為82.49%,R為84.02%,并且每種DDI類型的F1值也是優(yōu)于先前的工作.在比較了現(xiàn)有最新模型之后,本文提出模型的F1值比現(xiàn)有最好模型[17]高出2.35%.
表5 基線模型實(shí)驗(yàn)結(jié)果比較
模型在加入目標(biāo)藥物實(shí)體和詞匯圖神經(jīng)網(wǎng)絡(luò)之后的精確率、召回率和F1值如圖5所示.從圖中可以得出,在加入該信息之后,實(shí)驗(yàn)性能提升了2.9%,這充分說明了藥物實(shí)體對(duì)于信息DDI分類是有促進(jìn)作用的.而對(duì)于本文構(gòu)建的詞匯圖,在通過圖卷積神經(jīng)網(wǎng)絡(luò)更新節(jié)點(diǎn)特征獲得與句子相關(guān)的特征信息后,充分利用自注意力機(jī)制獲得與DDI分類相關(guān)的特征,使得分類準(zhǔn)確率得到了提升,也充分論證了全局信息對(duì)于實(shí)驗(yàn)性能提升是有促進(jìn)作用的.
圖5 藥物實(shí)體和詞匯圖對(duì)實(shí)驗(yàn)性能的影響
圖6是本文模型的混淆矩陣,圖中顏色越深表示所占的比例越大.為了突出模型對(duì)藥物關(guān)系類別的錯(cuò)誤分類,本文將每一種DDI類別的數(shù)量進(jìn)行歸一化處理.從圖6可以看出,該模型分類錯(cuò)誤主要有兩種: 1) 類別為Int的這一類關(guān)系經(jīng)常被錯(cuò)誤分類為Effect類; 2) 四種正例關(guān)系類別(Effect,Mechanism,Advise,Int)經(jīng)常被錯(cuò)誤地分類到負(fù)例這一類別中.
第一種類型的錯(cuò)誤分類和先前的一些工作非常類似[23].我們認(rèn)為原因在于Int類型的數(shù)量太少,訓(xùn)練集中僅有96條實(shí)例,并且本文觀察到數(shù)據(jù)集中類型為Int和Effect的實(shí)例具有相似的語(yǔ)義,導(dǎo)致模型不能很好地分類這兩種類別.而第二種類型的錯(cuò)誤,我們認(rèn)為主要的原因是由數(shù)據(jù)集中導(dǎo)致的,其中數(shù)據(jù)集中負(fù)例類別數(shù)量為28 509,而正例數(shù)量?jī)H有4999條,這不可避免地使得數(shù)量少的類別被錯(cuò)誤地分類到數(shù)量大的實(shí)例中.
圖6 本文模型的混淆矩陣Fig.6 Confusion matrix of model
本文提出了RBio-VGCN模型用于DDI關(guān)系抽取.該模型充分利用了BioBERT動(dòng)態(tài)捕獲輸入句子和目標(biāo)藥物實(shí)體的上下文信息,同時(shí)基于數(shù)據(jù)集構(gòu)建詞匯圖,與輸入句子進(jìn)行圖卷積操作獲得與句子相關(guān)的全局特征信息,并使用自注意力機(jī)制最大化獲取與關(guān)系抽取任務(wù)相關(guān)的特征信息,摒棄不相關(guān)的特征信息.實(shí)驗(yàn)結(jié)果表明,本文模型在DDIExtraction 2013 關(guān)系抽取任務(wù)中取得了很好的效果.在未來(lái)的工作中,我們會(huì)針對(duì)數(shù)據(jù)集中負(fù)例較多的數(shù)據(jù)不平衡現(xiàn)象,考慮數(shù)據(jù)增強(qiáng)等方案來(lái)平衡數(shù)據(jù),使模型的實(shí)驗(yàn)性能提高.