豐小麗,張英俊,謝斌紅,趙紅燕
(太原科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,太原 030024)
信息抽取旨在從大規(guī)模半結(jié)構(gòu)化或非結(jié)構(gòu)化的自然文本中抽取結(jié)構(gòu)化數(shù)據(jù).實(shí)體關(guān)系抽取作為該領(lǐng)域重要的一部分,其目的是抽取出各實(shí)體之間的語義關(guān)系.準(zhǔn)確的關(guān)系分類有利于精確的句子解釋和文本的語義理解,從而更有效地進(jìn)行自然語言處理(Natural Language Processing,NLP)任務(wù).此外,關(guān)系抽取在問答系統(tǒng)、機(jī)器翻譯和信息檢索等方面有著重要的應(yīng)用價(jià)值和現(xiàn)實(shí)意義.
目前實(shí)體關(guān)系抽取任務(wù)均是在給定句子實(shí)體的情況下,在單句內(nèi)和限定關(guān)系的集合中進(jìn)行實(shí)體關(guān)系抽取.在該場(chǎng)景下,深度學(xué)習(xí)方法應(yīng)用較為廣泛,而且效果較好.與傳統(tǒng)方法相比,深度學(xué)習(xí)方法能夠捕獲句子更深層次的語義信息.Socher 等[1]在實(shí)體關(guān)系抽取任務(wù)中使用循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,RNN),將句子的句法結(jié)構(gòu)考慮在內(nèi),但卻忽略了單詞之間的位置信息;Zhang 等[2]使用RNN 進(jìn)行實(shí)體關(guān)系抽取時(shí)雖然引入了位置信息,但梯度消失問題使其很難解決遠(yuǎn)距離依賴問題;Zeng 等[3]在基于位置信息的基礎(chǔ)上使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN),雖然CNN 可以利用多個(gè)n-gram 特征,使提取的特征更豐富,但由于卷積核通常不會(huì)太大,因此也不能很好地學(xué)習(xí)到句子中的遠(yuǎn)程語義信息.Miwa和Bansal[4]在句子序列上使用基于句法樹的長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)來獲取句子序列的上下文信息,克服了RNN 梯度消失的問題,解決了長(zhǎng)距離依賴的問題.然而,這些模型都只是在某一方面表現(xiàn)更好,而且其性能不是很穩(wěn)定[5],不能有效的解決關(guān)系抽取中的噪聲數(shù)據(jù)和錯(cuò)誤標(biāo)注的數(shù)據(jù).
針對(duì)上述問題,本文提出一種新的集成(ensemble)神經(jīng)網(wǎng)絡(luò)模型.該模型主要使用兩個(gè)不同的單一模型(也稱為弱分類器)?雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(Bi-directional LSTM,Bi-LSTM)和CNN,然后將其集成到使用多層感知機(jī)(MultiLayer Perceptron,MLP)的綜合模型中.在綜合模型中利用Bi-LSTM 解決句子長(zhǎng)距離依賴問題的優(yōu)勢(shì),利用CNN 解決并行計(jì)算問題和充分提取特征信息的優(yōu)勢(shì),利用MLP 高度并行性和良好容錯(cuò)性與自適應(yīng)性的優(yōu)勢(shì),自動(dòng)的學(xué)習(xí)出實(shí)體對(duì)的語義關(guān)系.Rokach 等[6]證明使用某些策略將多個(gè)模型結(jié)合起來,可以有效地提升機(jī)器學(xué)習(xí)的性能.
常用集成學(xué)習(xí)方法的權(quán)重分配策略主要有簡(jiǎn)單平均法和加權(quán)平均法,雖然這兩種方法較為簡(jiǎn)單,但其不能擬合非線性數(shù)據(jù),而神經(jīng)網(wǎng)絡(luò)具有良好的自學(xué)習(xí)和充分逼近復(fù)雜的非線性關(guān)系的能力.因此,本文使用人工神經(jīng)網(wǎng)絡(luò)進(jìn)行權(quán)重分配;此外,決策樹與隨機(jī)森林等方法,雖然有一定的效果,但其缺點(diǎn)是容易產(chǎn)生過擬合,而對(duì)于神經(jīng)網(wǎng)絡(luò)則可通過參數(shù)正則化、Dropout 以及選擇合適的網(wǎng)絡(luò)結(jié)構(gòu)等方式來防止該現(xiàn)象的發(fā)生.
實(shí)體關(guān)系抽取作為NLP 一項(xiàng)基礎(chǔ)且重要的任務(wù),受到了廣泛的關(guān)注和研究.早期,基于規(guī)則[7]的關(guān)系抽取方法主要依賴領(lǐng)域?qū)<覙?gòu)建大規(guī)模的模式匹配規(guī)則,費(fèi)時(shí)費(fèi)力,且領(lǐng)域自適應(yīng)性較差,因此發(fā)展受到限制;基于特征[8]的方法,通過提取文本中的重要特征表征實(shí)體之間的關(guān)系,如依存句法樹[9]等,但該方法依賴于NLP 工具的準(zhǔn)確性,因此,可能會(huì)導(dǎo)致錯(cuò)誤傳播等問題;基于核函數(shù)的方法,主要通過核函數(shù)來計(jì)算不同關(guān)系實(shí)例之間的相似度,且核函數(shù)的設(shè)計(jì)需要大量人員進(jìn)行研究,因此其不適用于大規(guī)模語料的關(guān)系抽取任務(wù).
目前,基于神經(jīng)網(wǎng)絡(luò)的方法應(yīng)用較為廣泛.常用的主要包括基于CNN和RNN 兩種網(wǎng)絡(luò)模型.
基于卷積神經(jīng)網(wǎng)絡(luò)的方法主要有:Chen 等[10]提出基于強(qiáng)化學(xué)習(xí)的句級(jí)標(biāo)簽去噪模型,并利用PCNN(Piecewise Convolutional Neural Network)作為句子編碼器來進(jìn)行遠(yuǎn)程監(jiān)督關(guān)系抽取;曹春萍等[11]使用ATTCNN與BSRU(簡(jiǎn)單循環(huán)神經(jīng)網(wǎng)絡(luò))結(jié)合,解決了生物醫(yī)學(xué)中化學(xué)物質(zhì)與疾病的關(guān)系;Lin 等[12]利用CNN 結(jié)合注意力機(jī)制進(jìn)行遠(yuǎn)程監(jiān)督關(guān)系抽取,緩解標(biāo)注語料較少的問題;Liu 等[13]利用正確標(biāo)注的實(shí)體對(duì)的語義信息,提出一種實(shí)體對(duì)級(jí)的去噪方法,該方法可以在訓(xùn)練過程中動(dòng)態(tài)的糾正錯(cuò)誤標(biāo)簽;Qin 等[14]則是將生成對(duì)抗網(wǎng)絡(luò)和CNN 進(jìn)行結(jié)合來緩解遠(yuǎn)程監(jiān)督關(guān)系抽取中的噪聲問題;劉偉等[15]使用語法樹與CNN 構(gòu)建的Tree-base CNN,解決CNN 對(duì)語法信息編碼不足的問題.基于循環(huán)神經(jīng)網(wǎng)絡(luò)的方法主要有:Gupta 等[16]通過循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)最短和增強(qiáng)的依賴路徑進(jìn)行建模,以提取句子內(nèi)部和跨句子邊界的關(guān)系;李衛(wèi)疆等[17]使用Bi-LSTM 解決單詞之間的依賴關(guān)系,而且將位置信息、詞匯、句法和語義信息相融合,再使用自注意力機(jī)制重點(diǎn)學(xué)習(xí)序列內(nèi)部的特征信息;Phi 等[18]使用兩層雙向門控循環(huán)單元(Bi-directional Gated Recurrent Unit,BGRU)提取句子上下文信息,同時(shí)添加了分段注意力機(jī)制,以突出每個(gè)片段對(duì)句子的重要性.
卷積神經(jīng)網(wǎng)絡(luò)與循環(huán)神經(jīng)網(wǎng)絡(luò)在實(shí)體關(guān)系抽取任務(wù)中表現(xiàn)各異:卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)勢(shì)在于其關(guān)注關(guān)系實(shí)例的局部信息,缺點(diǎn)是忽視了序列的全局信息;循環(huán)神經(jīng)網(wǎng)絡(luò)則相反,可較好地捕獲序列的整體特征,但對(duì)局部特征的抽取較為欠缺.因此,就學(xué)習(xí)層面上二者互為補(bǔ)充.所以本文使用集成學(xué)習(xí)的思想,充分利用二者的優(yōu)勢(shì),將兩者集成為一個(gè)綜合模型,該模型不僅具有卷積神經(jīng)網(wǎng)絡(luò)關(guān)注局部信息的特征,而且具有循環(huán)神經(jīng)網(wǎng)絡(luò)關(guān)注全局信息的優(yōu)勢(shì),同時(shí)還可以利用MLP 進(jìn)行權(quán)重分配.
另外,集成學(xué)習(xí)是一種著名的機(jī)器學(xué)習(xí)范例,Peng等[19]利用集成學(xué)習(xí)方法進(jìn)行化學(xué)蛋白質(zhì)的關(guān)系抽取;Yang 等[5]在進(jìn)行遠(yuǎn)程監(jiān)督關(guān)系抽取時(shí),提出了一種集合神經(jīng)網(wǎng)絡(luò)模型的自適應(yīng)增強(qiáng)LSTM 模型;Li 等[20]也表明集成學(xué)習(xí)技術(shù)可以成功的應(yīng)用于遷移學(xué)習(xí)任務(wù).同樣,本文所提方法也是一種通用的方法,該方法在其他類似任務(wù)中同樣適用.
本文提出的綜合模型結(jié)構(gòu)如圖1所示,該模型主要由以下5 個(gè)部分組成.
圖1 綜合模型結(jié)構(gòu)圖
(1) 輸入層:將原始語料中有格式錯(cuò)誤、內(nèi)容或邏輯錯(cuò)誤等的數(shù)據(jù)進(jìn)行清洗,保留清洗后的特征數(shù)據(jù);
(2) 詞嵌入層:將(1)中清洗后句子中的每個(gè)單詞映射成低維稠密向量,并與單詞位置向量拼接后作為弱分類器的輸入;
(3) 弱分類器層:將(2)中詞向量與位置向量拼接后的向量輸入到弱分類器Bi-LSTM和CNN 中,分別進(jìn)行特征提取與分類,保存其輸出結(jié)果;
(4) 強(qiáng)分類器層:將(3) 中弱分類器輸出結(jié)果Output_BiLSTM和Output_CNN 拼接起來,輸入到強(qiáng)分類器MLP 中,以得到句子的高維語義信息;
(5) 輸出層:利用Softmax 函數(shù)進(jìn)行實(shí)體關(guān)系進(jìn)行分類.
使用詞向量表示的目的是將輸入的每個(gè)句子轉(zhuǎn)換成向量的形式,方便計(jì)算機(jī)對(duì)其進(jìn)行讀取.為了充分利用單詞在句子中的語義信息,本文將每個(gè)輸入的單詞轉(zhuǎn)換成詞嵌入和位置嵌入的結(jié)合.
(1) 詞向量
詞嵌入(Word Embeddings,WE)目的是把單詞轉(zhuǎn)換成低維密集向量,以捕獲單詞的句法和語法特性.假設(shè)一個(gè)由n個(gè)詞組成的句子S={w1,w2,···,wn},可以通過詞嵌入矩陣M∈Rd?V,將每個(gè)詞wi映射為實(shí)值向量ei,其中,V表示詞表大小,d表示詞向量維度,因此,句子的詞向量可表示為Sw=(e1,e2,···,en)∈Rd?n.
(2) 位置向量
位置嵌入(Position Embedding,PE)[3]用于表征句子中某個(gè)單詞與兩個(gè)實(shí)體e1、e2的相對(duì)位置.如句子:The<e1>deficits</e1>are caused by<e2>people</e2>save too much of their money.單詞caused 相對(duì)于e1(deficits)的距離為2,相對(duì)于e2(people)的距離為–2.即若實(shí)體的位置為0,則實(shí)體左側(cè)單詞相對(duì)于該實(shí)體的1,2,···將計(jì)算出來的相對(duì)距離經(jīng)過位置嵌入矩陣M′∈Rc?|L|轉(zhuǎn)換為實(shí)值向量pi,其中,c是位置向量維度,L是句子中任何一個(gè)單詞相對(duì)于兩個(gè)實(shí)體的最大距離;由于每個(gè)句子有兩個(gè)標(biāo)記實(shí)體,所以每個(gè)詞對(duì)應(yīng)兩個(gè)位置向量,因此,第i個(gè)單詞的位置向量表示如式(1).
其中p1i、p2i是第i個(gè)單詞相對(duì)于e1、e2的位置向量表示.因此,句子的位置向量表示為Sp=(p1,p2,···,pn)∈R2c?n.
最后將詞向量和位置向量拼接起來,得到最終的句子向量表示U=Sw⊕Sp∈Rn(d+2c).
為了得到句子的高維語義信息,并捕獲序列的全局特征,本文使用Bi-LSTM 模型對(duì)輸入的句子序列進(jìn)行特征提取,其結(jié)構(gòu)如圖2所示.由于Bi-LSTM 可以從序列的前向和后向同時(shí)進(jìn)行語義捕捉,因此其可以充分利用輸入序列的上下文信息來提取特征信息.圖2中詞嵌入層是單詞的詞向量和位置向量拼接后的特征向量U=(u1,u2,···,un),其中,ui=ei+pi,ui∈Rd+2c.Bi-LSTM 模型隱藏層的計(jì)算方式如式(3)和式(4).
圖2 Bi-LSTM 弱分類器模型結(jié)構(gòu)圖
其中,ut為t時(shí)刻的輸入向量,為前向的隱藏狀態(tài),為后向的隱藏狀態(tài),表示前一時(shí)刻的隱藏狀態(tài),表示下一時(shí)刻的隱藏狀態(tài).所以,t時(shí)刻的隱藏狀態(tài)為前向和后向隱藏狀態(tài)的拼接,其表示方式如式(5).
因此最終隱藏層輸出可表示H=(h1,h2,···,hn).
由于實(shí)體關(guān)系抽取任務(wù)屬于多分類問題y∈{1,···,m},m表示關(guān)系類別個(gè)數(shù),因此經(jīng)過Softmax 分類器,得到每個(gè)關(guān)系類別的預(yù)測(cè)概率:
CNN 可以解決實(shí)體關(guān)系抽取任務(wù)中并行計(jì)算的問題,同時(shí)增加網(wǎng)絡(luò)層數(shù)可以解決長(zhǎng)距離依賴的問題,但隨著層數(shù)的增加,模型的參數(shù)就會(huì)增多,從而導(dǎo)致訓(xùn)練時(shí)間過長(zhǎng).所以本文選用2 層卷積層和2 層全連接層進(jìn)行關(guān)系抽取,既保證并行性又防止訓(xùn)練時(shí)間過長(zhǎng),還可以提取到更有效的特征.此外,為了防止由原始數(shù)據(jù)中句子長(zhǎng)度不同而引起的輸入矩陣維度不同的問題,本文將數(shù)據(jù)集中的每條句子做padding 操作,將其padding到句子的最大長(zhǎng)度Max_len,同時(shí)為了保證輸出層和輸入層維度的統(tǒng)一,使用SAME 做本次padding 操作.本文使用的CNN 網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示.
圖3 CNN 弱分類器網(wǎng)絡(luò)結(jié)構(gòu)圖
在該模型中,輸入到卷積層的是U=(u1,u2,···,un),若滑動(dòng)窗口大小為k,當(dāng)窗口在U上滑動(dòng)時(shí),向量ui,ui+1,···,ui+k?1落到第j個(gè)窗口的向量表示如式(7):
若卷積核為W∈Rn(d+2c),c為卷積核的寬度,則向量Qj經(jīng)過卷積層與池化層輸出的特征信息可使用式(8)和式(9)計(jì)算.
其中,⊙是卷積操作,b是偏置,f是非線性激活函數(shù),s是卷積核的數(shù)目.最后經(jīng)過全連接層與Softmax 分類器得到關(guān)系預(yù)測(cè)概率,其計(jì)算方式如式(11)和式(12).
集成學(xué)習(xí)是將一系列相對(duì)較弱的模型以某種恰當(dāng)?shù)姆绞浇M合起來,得到比使用單個(gè)模型更魯棒的強(qiáng)模型.本文使用MLP 進(jìn)行模型集成,其網(wǎng)絡(luò)模型結(jié)構(gòu)如圖4所示.在該模型中,輸入主要包括兩個(gè)部分:Output_BiLSTM、Output_CNN.其中,Output_BiLSTM是Bi-LSTM 弱分類器計(jì)算的關(guān)系類別預(yù)測(cè)概率,取其最大值max()作為關(guān)系類別標(biāo)簽,經(jīng)過獨(dú)熱編碼的形式將其轉(zhuǎn)換為m維的關(guān)系矩陣;Output_CNN 的表示方法與Output_BiLSTM 同理.因此,綜合模型的輸入可表示為式(13):
圖4 使用MLP 進(jìn)行集成時(shí)的網(wǎng)絡(luò)結(jié)構(gòu)圖
實(shí)驗(yàn)過程中若MLP 選擇較少的網(wǎng)絡(luò)層數(shù),則其特征提取的效果較差,隨著網(wǎng)絡(luò)層數(shù)的不斷增加,模型復(fù)雜度增加,雖然其提取的效果有所提高,但網(wǎng)絡(luò)參數(shù)也會(huì)不斷增多,因此會(huì)導(dǎo)致模型訓(xùn)練效率低下的結(jié)果.所以本次實(shí)驗(yàn)選擇3 層隱藏層的MLP 進(jìn)行特征提取,在提高訓(xùn)練效率的同時(shí),保證實(shí)體關(guān)系抽取的性能.使用MLP 進(jìn)行信息傳播可以使用式(14)和式(15)進(jìn)行計(jì)算:
其中,z(l)表示l層神經(jīng)元的凈輸入,a(l)表示l層神經(jīng)元的輸出,fl(·) 表示神經(jīng)元的激活函數(shù),W(l)表示l?1層到l層的權(quán)重矩陣,b(l)表示l?1到l層的偏置.最后利用Softmax分類器,得到最終每個(gè)關(guān)系類別的預(yù)測(cè)概率
為了評(píng)估綜合模型在實(shí)體關(guān)系抽取任務(wù)中的有效性,本文使用實(shí)體關(guān)系抽取公開數(shù)據(jù)集SemEval 2010 Task 8 進(jìn)行驗(yàn)證.在該數(shù)據(jù)集中,總共包含10 717 個(gè)標(biāo)記樣本,其中用于訓(xùn)練的樣本數(shù)量有8000 個(gè),用于測(cè)試的樣本數(shù)量有2717 個(gè).但為了產(chǎn)生多樣性大的弱學(xué)習(xí)器,本文首先選擇兩個(gè)不同的弱學(xué)習(xí)器進(jìn)行集成學(xué)習(xí),其次使用數(shù)據(jù)樣本對(duì)其進(jìn)行擾動(dòng),即隨機(jī)選取原樣本的80%作為訓(xùn)練數(shù)據(jù),剩下的20%作為測(cè)試數(shù)據(jù),因此,訓(xùn)練樣本數(shù)為8573,測(cè)試樣本數(shù)為2144.該樣本總共包含9 種具體的關(guān)系類型和一種“other”類別的關(guān)系.其具體關(guān)系類型如表1所示.
表1 關(guān)系類型
通常情況下,實(shí)體關(guān)系抽取任務(wù)的評(píng)價(jià)指標(biāo)主要包括準(zhǔn)確率(precision)、召回率(recall)以及F1 值.對(duì)于每種關(guān)系類型,主要有以下4 種判斷:TP(True Position)、FP(False Position)、TN(True Negative)和FN(False Negative),它們分別表示將正類預(yù)測(cè)為正類、將負(fù)類預(yù)測(cè)為正類、將正類預(yù)測(cè)為負(fù)類和將負(fù)類預(yù)測(cè)為負(fù)類.所以這3 種評(píng)價(jià)指標(biāo)的計(jì)算方式如式(16)–式(18).
上面的計(jì)算公式是針對(duì)單個(gè)關(guān)系類別進(jìn)行的評(píng)估,為了在本文使用的數(shù)據(jù)集中進(jìn)行驗(yàn)證,使用每種關(guān)系類型的宏平均(macro average)驗(yàn)證本文的實(shí)驗(yàn)結(jié)果,即對(duì)每一種關(guān)系類別得到的概率求和后取平均.若其關(guān)系類別的個(gè)數(shù)用m表示,則具體的計(jì)算方式如式(19)–式(21).
本實(shí)驗(yàn)中使用的相關(guān)參數(shù)設(shè)置主要根據(jù)經(jīng)驗(yàn)設(shè)定,如詞嵌入使用預(yù)訓(xùn)練好的Glove300 維向量等;還有一部分根據(jù)實(shí)驗(yàn)的效果進(jìn)行參數(shù)調(diào)整,如模型訓(xùn)練的batch_size 設(shè)定等,其具體的實(shí)驗(yàn)參數(shù)設(shè)置如表2所示.
表2 實(shí)驗(yàn)參數(shù)設(shè)置
為了驗(yàn)證本文提出的綜合模型對(duì)實(shí)體關(guān)系抽取性能的影響,主要進(jìn)行以下對(duì)比實(shí)驗(yàn):
(1) 驗(yàn)證綜合模型與單一模型對(duì)實(shí)驗(yàn)效果的影響
綜合模型與兩個(gè)單一模型對(duì)實(shí)驗(yàn)結(jié)果的影響如表3所示.該結(jié)果表明,綜合模型Ensemble 相較于單一模型Bi-LSTM 在F1 值上提高了21.97%,相較于單一模型CNN 在F1 值上提高了28.92%.該結(jié)果充分說明綜合模型可以利用弱分類器的優(yōu)勢(shì),得到比使用單個(gè)弱分類器進(jìn)行實(shí)體關(guān)系抽取時(shí)更好的結(jié)果.
表3 綜合模型與單個(gè)模型的實(shí)驗(yàn)對(duì)比
(2) 綜合模型與主流模型的對(duì)比
為了驗(yàn)證綜合模型在實(shí)體關(guān)系抽取任務(wù)中的有效性,將本文提出的模型與時(shí)下主流的5 組模型進(jìn)行對(duì)比,具體結(jié)果如表4所示,其中WV、PF、PI、POS 分別表示詞向量、位置向量、位置信息和詞性特征.
表4 綜合模型與目前主流模型的對(duì)比
BRNN:該方法是Zhang 等[2]在2015年使用雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(BRNN)進(jìn)行實(shí)驗(yàn),論文將句子中每個(gè)單詞的位置信息考慮在內(nèi),經(jīng)過實(shí)驗(yàn)得到的F1 值為82.5%.本文使用的模型相較于該模型提高了5.2%.
BRCNN:該方法是Cai 等[21]在2016年將CNN與RNN 結(jié)合起來連接前向和后向SDP (Shortest Dependency Path,最短依存路徑),同時(shí)使用構(gòu)建細(xì)粒度的Softmax 來提高分類效果,其F1 達(dá)到86.3%.本文使用的模型相較于該模型提高了1.4%.
BiLSTM-ATT:該方法是Zhou 等[22]在2016年,在考慮詞嵌入和位置嵌入的基礎(chǔ)上,將Bi-LSTM與注意力機(jī)制結(jié)合進(jìn)行相關(guān)實(shí)驗(yàn),其F1 值得到84.0%.本文提出的模型相較于該模型提高了3.7%.
RCNN-ATT:該方法是Zhang 等[23]在2018年使用CNN、RNN和Attention 進(jìn)行實(shí)驗(yàn),在考慮詞向量和位置向量的同時(shí),另外加入單詞的詞性特征信息,其F1 值達(dá)到83.7%.本文使用的模型相比于該模型提高了4.0%.
Hybrid BiLSTM-Siamese:該方法是Cui 等[24]在2019年使用Siamese 模型的同時(shí),將兩個(gè)詞語層的BiLSTM 結(jié)合在一起,其F1 值達(dá)到81.80%.本文使用的模型相比于該模型提高了5.9%.
本文提出了一種將兩個(gè)單一模型Bi-LSTM和CNN集成到MLP 的綜合模型的方法來提高實(shí)體關(guān)系抽取性能.該模型不僅可以充分利用兩個(gè)單一模型的優(yōu)勢(shì),而且還可以再利用MLP 的自學(xué)習(xí)能力來提高關(guān)系分類的性能.與使用相同數(shù)據(jù)集中的其他模型相比,本文使用的方法有較高的準(zhǔn)確性.
另外,注意力機(jī)制可以考慮更多的句子上下文信息,可以更充分的捕獲到句子的特征信息,所以下一步計(jì)劃在本文的模型中添加注意力機(jī)制來提高實(shí)體關(guān)系抽取模型的性能.同時(shí)也可以考慮加入一些單詞的特征信息,如詞性標(biāo)注、語義角色特征和依存關(guān)系等.