劉娜娜,程 婧,閔可銳,康 昱,王 新,周揚(yáng)帆
(1.復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,上海,201203;2.上海智能電子與系統(tǒng)研究院,上海,201203;3.上海秘塔網(wǎng)絡(luò)科技有限公司,上海,200135;4.微軟亞洲研究院,北京,100080)
關(guān)系抽取是信息抽取的關(guān)鍵內(nèi)容之一,是自然語言處理的重要研究?jī)?nèi)容,也是知識(shí)圖譜構(gòu)建的關(guān)鍵技術(shù)。在關(guān)系抽取任務(wù)中,如果兩個(gè)實(shí)體距離較遠(yuǎn),中間有很多詞匯干擾,則會(huì)嚴(yán)重干擾關(guān)系抽取的精度。比如,“周恩來(1898 年3 月5 日—1976 年1 月8 日),原籍浙江紹興,1898 年3 月5 日生于江蘇淮安?!保谶@個(gè)句子中,“周恩來”和“淮安”之間有較多詞匯干擾,往往會(huì)影響現(xiàn)有的序列模型的效果。如果能獲取這個(gè)句子的短語成分表示,則能在結(jié)構(gòu)上去除這些干擾。用短語成分分析確定各成分之間的關(guān)系,學(xué)界普遍認(rèn)為[1-2]這種結(jié)構(gòu)化的表示能夠幫助關(guān)系抽取任務(wù)。目前的關(guān)系抽取多是直接以詞語、詞性、實(shí)體及實(shí)體間的距離等作為特征向量[3-4],采取端到端的模型,輸出最終關(guān)系分類的結(jié)果,以往也曾經(jīng)融合短語成分特征[2,5-8],但在深度學(xué)習(xí)任務(wù)上沒有明顯效果。這主要有兩方面的原因:(1)以往在關(guān)系抽取任務(wù)上適用短語成分特征,短語成分分析的性能是很大的一個(gè)阻礙因素。由于標(biāo)注數(shù)據(jù)的獲取較為困難,目前已知的中文短語成分分析的研究工作能達(dá)到的最高精度在86%~91%(F1-score)[9-10],然而一旦在開放領(lǐng)域,精度會(huì)嚴(yán)重下跌,甚至超過10 個(gè)百分點(diǎn)。這個(gè)精度下生成的短語成分結(jié)構(gòu)樹本身有錯(cuò)誤,繼而在關(guān)系抽取任務(wù)上造成錯(cuò)誤傳播。(2)以往短語成分分析和關(guān)系抽取任務(wù)的融合主要有兩種方式。首先,這兩種方式均是根據(jù)短語成分分析模型得到完整樹結(jié)構(gòu)后再做處理。對(duì)于之后的處理,一種是根據(jù)完整樹結(jié)構(gòu)得到一些離散化特征,結(jié)合抽取的詞法特征等一起放入機(jī)器學(xué)習(xí)模型中[2,5,6],顯然這種離散的方式割裂了短語成分解析樹各成分之間的關(guān)聯(lián);另一種是根據(jù)得到的短語成分解析樹直接構(gòu)建樹結(jié)構(gòu)模型[7-8],這種方式雖然充分利用了樹結(jié)構(gòu)的特性,但也加大了短語成分分析帶來的錯(cuò)誤影響,同時(shí)模型也更復(fù)雜。
針對(duì)上述所說的兩個(gè)問題,本文提出了一種基于短語成分表示的中文關(guān)系抽取方法。對(duì)于第1 個(gè)問題,本文采用短語成分分析模型[11],簡(jiǎn)稱為mparser(A minimal span-based neural constituency parser,一個(gè)最小化的基于跨度的神經(jīng)句法分析器),并在更大數(shù)據(jù)集上進(jìn)行訓(xùn)練。針對(duì)第2 個(gè)問題,本文提出了一種新的短語成分和關(guān)系抽取的融合方式。就像ELMo[12]用輸入整句的一個(gè)編碼函數(shù)來表示句子,使用上述mparser 編碼輸出作為整個(gè)句子的短語成分表示(Constituency parsing to vector, Cons2vec),再把這個(gè)短語成分表示遷移到關(guān)系抽取中,與詞語、實(shí)體距離表示拼接到一起表示整個(gè)句子,之后再將這個(gè)向量表示注入分段卷積神經(jīng)網(wǎng)絡(luò)和注意力網(wǎng)絡(luò)(A sentence-level attention-based piecewise convolutional neural network (CNN)for distant supervised relation extraction, PCNN_ATT)[4,13],這樣得到的短語成分表示能更完整地學(xué)習(xí)到句子的結(jié)構(gòu)表示,減少解碼過程中為優(yōu)化損失函數(shù)而造成的信息偏離。
目前國(guó)內(nèi)外關(guān)于關(guān)系抽取的研究以英文為主,主流的研究方法包括有監(jiān)督關(guān)系分類[2,5,14]、無監(jiān)督關(guān)系發(fā)現(xiàn)[15-16]、基于知識(shí)庫(kù)的遠(yuǎn)程監(jiān)督關(guān)系抽取[4,6,14,17-21]和實(shí)體關(guān)系聯(lián)合抽取方法[22-23]等。有監(jiān)督方法最簡(jiǎn)單易用,精度也最高,但是其訓(xùn)練數(shù)據(jù)需要大量精準(zhǔn)的有標(biāo)簽數(shù)據(jù),具有很大的局限性,因此越來越多的學(xué)者關(guān)注遠(yuǎn)程監(jiān)督關(guān)系抽取的研究及改進(jìn)。使用遠(yuǎn)程監(jiān)督方法能夠快速構(gòu)造海量的關(guān)系數(shù)據(jù)集,但是其中不可避免地存在大量的噪音,因此國(guó)內(nèi)外許多學(xué)者主要研究工作就是圍繞如何去噪進(jìn)行,比如使用多實(shí)例學(xué)習(xí)[17-18]、注意力機(jī)制[4]、多語言學(xué)習(xí)[13]、強(qiáng)化學(xué)習(xí)[19-20]以及對(duì)抗式學(xué)習(xí)[21]等多種方式相結(jié)合。中文關(guān)系抽取由于缺乏有效的數(shù)據(jù)集,研究相對(duì)較少。而文獻(xiàn)[13]提供了一個(gè)遠(yuǎn)程監(jiān)督的中英文對(duì)照關(guān)系抽取數(shù)據(jù)集,同時(shí)為中文關(guān)系抽取提供了一個(gè)新的基準(zhǔn)線。
短語成分分析作為自然語言處理的基礎(chǔ)研究領(lǐng)域,對(duì)下游自然語言處理任務(wù)尤其是信息抽取領(lǐng)域能夠提供結(jié)構(gòu)信息上的支撐。近幾年神經(jīng)網(wǎng)絡(luò)的深入發(fā)展,也給短語成分分析帶來了很多改進(jìn)。其中許多分析方法都采用編碼-解碼結(jié)構(gòu),編碼器讀取輸入的句子表示,得到整合后的向量,再經(jīng)過解碼器構(gòu)建出一個(gè)有標(biāo)簽的解析樹[9,11,24]。這些工作的不同之處在于編碼器和解碼器使用多樣的模型來表示,比如編碼器使用循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent neural network,RNN),長(zhǎng)短期記憶網(wǎng)絡(luò)(Long short term memory,LSTM)以及雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(Bidirectional LSTM,BiLSTM),甚至自注意力(Self-attention)機(jī)制來表示。國(guó)內(nèi)外關(guān)于短語成分分析的研究工作也是以英文為主,偶有少量工作有中文的對(duì)比實(shí)驗(yàn),比如騰訊AI 實(shí)驗(yàn)室提出的完全序列到序列模型(Sequence to sequence,seq2seq)的短語成分分析模型,就在中文關(guān)系抽取數(shù)據(jù)集上做了驗(yàn)證。就目前調(diào)研到的工作來看,在短語成分分析數(shù)據(jù)集上效果最好的單模型工作是mparser[11],后面有提升效果的工作則是在使用BERT 外部預(yù)訓(xùn)練模型后才有稍明顯的改進(jìn)[9]。因此,為了得到短語成分表示,本文遵循的是文獻(xiàn)[11]的mparser 模型。
短語成分應(yīng)用到關(guān)系抽取中主要有兩種方式:(1)根據(jù)得到的短語成分解析樹,按照某種規(guī)則生成離散的句法解析特征,與詞法特征一起作為短語成分分析模型的特征向量輸入。這種方式多用于傳統(tǒng)機(jī)器學(xué)習(xí)方法,比如邏輯回歸分類器、支持向量機(jī)分類器或最大熵[2,6]等。在數(shù)據(jù)量很小且對(duì)時(shí)間性能要求較高的場(chǎng)景下,這種方法很常用。但它的缺點(diǎn)也很明顯,除了引言中所說原因造成精度不夠外,還需要大量的特征抽取工作。(2)根據(jù)短語成分解析樹,直接構(gòu)建樹結(jié)構(gòu)模型,最流行的是tree-LSTM 結(jié)構(gòu)[7-8]。短語成分解析樹的每個(gè)節(jié)點(diǎn)都是一個(gè)LSTM 單元,每個(gè)單元仍然有3 個(gè)門結(jié)構(gòu),只是每個(gè)門結(jié)構(gòu)計(jì)算時(shí)是由所有子節(jié)點(diǎn)集成計(jì)算共同表示當(dāng)前節(jié)點(diǎn),遞歸地實(shí)現(xiàn)樹結(jié)構(gòu)。如果一個(gè)節(jié)點(diǎn)的子節(jié)點(diǎn)是葉子節(jié)點(diǎn),那它的輸入就是葉子節(jié)點(diǎn)向量表示,再通過一次線性計(jì)算和激活函數(shù)得到當(dāng)前節(jié)點(diǎn)的表示。如果該節(jié)點(diǎn)的子節(jié)點(diǎn)都是非葉子節(jié)點(diǎn),那它的輸入就是所有非葉子節(jié)點(diǎn)的隱藏狀態(tài)表示。
盡管人們普遍認(rèn)為樹結(jié)構(gòu)模型對(duì)于像短語成分分析這樣樹結(jié)構(gòu)的表達(dá)非常合理,并且對(duì)于下游關(guān)系抽取等任務(wù)的結(jié)構(gòu)信息學(xué)習(xí)和去除冗余也非常有意義,但文獻(xiàn)[25]也通過多組實(shí)驗(yàn)側(cè)面表明,序列模型能發(fā)現(xiàn)隱藏的樹結(jié)構(gòu)。本文的工作就是使用短語成分分析模型中充分學(xué)習(xí)到結(jié)構(gòu)信息的序列表示,將其應(yīng)用到關(guān)系抽取中,在不影響原模型學(xué)習(xí)到的特征的前提下,加強(qiáng)對(duì)結(jié)構(gòu)信息的學(xué)習(xí),從而提升關(guān)系抽取的效果。
本節(jié)主要介紹本文工作涉及到的短語成分分析模型(mparser)和關(guān)系抽取模型(PCNN-ATT)。
本文遵循的是文獻(xiàn)[11]的mparser 模型,它使用編碼-解碼模型。如圖1 所示,這個(gè)模型使用的編碼器可分解為兩部分描述。第1 部分是輸入詞語和詞性后,通過BiLSTM 得到句子的雙向表示。具體地,編碼器的輸入是詞語表示序列(w1,w2,w3,…,wt)和詞性標(biāo)注序列(p1,p2,p3,…,pt)拼接而成(x1,x2,x3,…,xt),即有
式 中:第1 個(gè) 和 最 后1 個(gè) 是START 和STOP 標(biāo) 簽,表 示 句子的開始和結(jié)束,i表示序列的第i個(gè)位置。輸入的向量表示xi經(jīng)過BiLSTM 得到前向表示fi和后向表示bi。
第2 部分是根據(jù)序列的雙向表示,得到跨度表示span(i,j),即從位置i到j(luò)這一范圍的表示,可理解為獲得句子從i到j(luò)的可能的短語成分標(biāo)簽。具體地,式(2,3)描述了跨度表示的具體實(shí)現(xiàn),即有
圖1 mparser 模型整體網(wǎng)絡(luò)結(jié)構(gòu)說明Fig.1 Network structure of the mparser model
該工作使用兩種解碼器,即基于動(dòng)態(tài)規(guī)劃的傳統(tǒng)圖解析算法和基于貪心思想的自頂向下解析算法。本文使用易于理解且時(shí)間復(fù)雜度更低的自頂向下解析算法作解碼器。該算法的整體思想是,對(duì)給定的序列范圍指派一個(gè)標(biāo)簽,然后選定一個(gè)切分點(diǎn),將該范圍切分成左右兩個(gè)子序列,重復(fù)此過程直到序列不能再被切分。選擇一種代價(jià)最小的切分方法和標(biāo)注方法,構(gòu)造出最終的短語成分解析樹。由于僅使用解碼器訓(xùn)練短語成分分析模型,這里不做詳細(xì)介紹。
PCNN-ATT[4]是目前已知遠(yuǎn)程監(jiān)督中文關(guān)系抽取數(shù)據(jù)集上效果最好的模型,也是基準(zhǔn)模型,所以使用此模型作為本文工作的基礎(chǔ)模型。圖2 是該模型的網(wǎng)絡(luò)結(jié)構(gòu),總的來說,就是輸入一組句子和對(duì)應(yīng)的一對(duì)實(shí)體,最終輸出它們關(guān)系的概率表示,仍然分為兩部分描述。第1 部分是句子編碼部分,給定一個(gè)句子s,經(jīng)過一個(gè)卷積網(wǎng)絡(luò)和分段的池化層后,再經(jīng)過一個(gè)非線性層,得到句子的分布式表示r′。第2 部分是句子級(jí)別的注意力機(jī)制,前文得到的一組句子的表示r′對(duì)應(yīng)學(xué)習(xí)到一個(gè)注意力權(quán)重α,最終關(guān)系r=∑ar',詳細(xì)的注意力計(jì)算模型和損失函數(shù)參見文獻(xiàn)[3]。
圖2 PCNN-ATT 模型的網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Network structure of the PCNN-ATT model
本節(jié)首先提出一種句子結(jié)構(gòu)信息的表示方式:短語成分表示,然后采取一種新的短語成分結(jié)構(gòu)和關(guān)系抽取的融合方式,將短語成分表示嵌入到關(guān)系抽取中,從而改進(jìn)中文關(guān)系抽取的效果。圖3 是短語成分表示和關(guān)系抽取融合的整體結(jié)構(gòu)示意圖。輸入是經(jīng)過分詞和詞性標(biāo)注的詞語序列,一方面,它經(jīng)過改進(jìn)后的短語成分分析模型,得到短語成分表示。另一方面,根據(jù)輸入序列得到對(duì)應(yīng)的詞向量表示和詞語相對(duì)位置向量表示。然后將得到的短語成分表示和詞向量、詞語位置向量拼接到一起,經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)和注意力機(jī)制,最終得到更精準(zhǔn)的關(guān)系分類結(jié)果。
圖3 短語成分表示和關(guān)系抽取融合結(jié)構(gòu)的示意圖Fig.3 Combined structure of constituency vector representation and relation extraction
為了獲得泛化能力更強(qiáng)的短語成分分析模型,本文在更大的數(shù)據(jù)集上對(duì)模型mparser 進(jìn)行訓(xùn)練。然后將模型的BiLSTM 雙向隱狀態(tài)輸出作為短語成分表示,這樣做能充分學(xué)習(xí)到句子結(jié)構(gòu)信息。本文調(diào)研并選擇了單系統(tǒng)最優(yōu)的短語成分分析模型mparser[11],該工作初始用于英文短語成分分析,模型使用編碼-解碼結(jié)構(gòu),首先使用BiLSTM 學(xué)習(xí)句子的表示,然后使用基于貪心思想的自頂向下解析算法,得到最優(yōu)的樹結(jié)構(gòu)來表示短語成分解析樹。經(jīng)過算法調(diào)優(yōu)和實(shí)驗(yàn)驗(yàn)證,發(fā)現(xiàn)其在中文短語成分分析上有更好的表現(xiàn),優(yōu)于目前已知工作的效果。之后,將其在更大的數(shù)據(jù)集上進(jìn)行適配訓(xùn)練,最終得到預(yù)測(cè)能力更強(qiáng)的中文短語成分分析模型(c7parser)。
為了充分表示句子結(jié)構(gòu)信息,從而改進(jìn)關(guān)系抽取的效果,使用該模型的BiLSTM 雙向輸出來表示句子結(jié)構(gòu),稱之為短語成分表示。就像ELMo[12]用輸入整句的一個(gè)編碼函數(shù)來表示句子,本文也用這樣的方式表示句子的結(jié)構(gòu)信息。輸入一個(gè)句子s,得到s'∈R(dc×2)×|s|,其中dc是每個(gè)前向LSTM 單元或后向LSTM 單元的隱狀態(tài)輸出維度,|s|是句子的長(zhǎng)度。
獲取到短語成分表示后,將其和詞語分布式表示、詞語位置表示一起,作為關(guān)系抽取的特征輸入到關(guān)系抽取模型PCNN-ATT 中。PCNN-ATT[3]是目前中文關(guān)系抽取數(shù)據(jù)集mnre[13]上的最好模型,因此選擇這個(gè)模型作為本文訓(xùn)練的模型。PCNN-ATT 基于多實(shí)例學(xué)習(xí)和句子級(jí)別的注意力機(jī)制。輸入一組句子和一對(duì)實(shí)體,先映射得到詞語分布式表示和詞語位置表示,然后經(jīng)過分段卷積神經(jīng)網(wǎng)絡(luò)和注意力層網(wǎng)絡(luò),最后得到關(guān)系分類結(jié)果。
詞語分布式表示 詞向量表示已經(jīng)為大家熟知,成為自然語言處理任務(wù)的標(biāo)配。具體使用的是谷歌提供的預(yù)訓(xùn)練詞向量矩陣V∈R(da×|V|),給定一個(gè)句子s,由t個(gè)詞語組成(w1,w2,w3,…,wt),每個(gè)詞語從前述詞向量矩陣中找到該詞語的分布式表示w∈R(da),da為詞向量的維度。
詞語位置表示 關(guān)系抽取任務(wù)中,常將句子中每個(gè)詞語到兩個(gè)實(shí)體的相對(duì)位置單獨(dú)表示,用以幫助CNN 辨別該詞語距離兩個(gè)實(shí)體有多遠(yuǎn)。對(duì)于前述句子s,每個(gè)詞語的位置向量表示p∈R(db×2),db為位置表示的維度。
為了盡可能減少對(duì)模型的依賴,同時(shí)不影響短語成分表示的效果,將短語成分表示的每個(gè)timestep的隱狀態(tài)直接與詞語表示、詞語位置表示拼接到一起。這樣詞語w的最終低維向量表示為w∈R(d=da+db×2+dc×2)。
本節(jié)主要通過實(shí)驗(yàn)數(shù)據(jù)驗(yàn)證本文的主要工作:(1)通過將合適的短語成分分析模型適配到中文短語成分分析任務(wù)上,中文短語成分分析的效果得到提升,F(xiàn)1-score 達(dá)到89.47%;(2)本文提出的基于短語成分表示的中文關(guān)系抽取方法,在中文關(guān)系抽取數(shù)據(jù)集mnre 上效果有明顯改進(jìn)。由于這2 個(gè)工作在2 個(gè)數(shù)據(jù)集上進(jìn)行訓(xùn)練,本節(jié)實(shí)驗(yàn)描述也分為兩部分。
對(duì)于短語成分分析,本文使用的是CTB5 和CTB7 數(shù)據(jù)集,用來訓(xùn)練不同性能的短語成分分析模型。這2 個(gè)數(shù)據(jù)集分別來自Penn Chinese Treebank (CTB)版本5(CTB5)[26-27]和版本7(CTB7)[28],在CTB5 上,使用標(biāo)準(zhǔn)的數(shù)據(jù)切分方式[10]。對(duì)于CTB7,為了更好地學(xué)習(xí)和測(cè)驗(yàn)預(yù)測(cè)能力,采用類似CTB5的切分方式。為了顯示訓(xùn)練出的2 個(gè)模型的擴(kuò)展能力,本文使用了完全相同的測(cè)試集。遵照一般標(biāo)準(zhǔn)[10],測(cè)試集的分詞仍然使用數(shù)據(jù)集提供的標(biāo)準(zhǔn)分詞,詞性標(biāo)注使用stanford 詞性標(biāo)注器標(biāo)注的結(jié)果。表1 中給出了2 個(gè)數(shù)據(jù)集的統(tǒng)計(jì)信息。
表2 是短語成分分析模型的效果對(duì)比,其中c5parser 是使用CTB5 數(shù)據(jù)集訓(xùn)練得到的模型,括號(hào)中的89.47%是測(cè)試集為348 句樣本與其他文獻(xiàn)保持一致的情況下最終的F1-score 值。84.04%是使用擴(kuò)展測(cè)試集CTB7 數(shù)據(jù)得到的結(jié)果。c7parser 是本文使用CTB7 數(shù)據(jù)集訓(xùn)練得到的模型,86.49%則是使用CTB7 測(cè)試集的F1-score 值。從表中結(jié)果可以看到,使用mparser 在CTB5 數(shù)據(jù)集上訓(xùn)練得到的模型效果已經(jīng)是目前工作中最好的,F(xiàn)1-score 達(dá)到89.47%。但是當(dāng)將CTB7 的測(cè)試集作為開放領(lǐng)域的更廣泛測(cè)試集來驗(yàn)證該模型的預(yù)測(cè)能力時(shí),模型的F1降到了84.04%,下降了5%左右。在CTB7 數(shù)據(jù)集上訓(xùn)練該模型得到c7parser。同樣的測(cè)試集下,F(xiàn)1-score 達(dá)到86.49%,因?yàn)橛?xùn)練數(shù)據(jù)集的數(shù)據(jù)分布更廣泛,訓(xùn)練得到的模型預(yù)測(cè)能力也更強(qiáng)。表3 是短語成分分析模型使用的超參數(shù)。
表1 短語成分分析模型訓(xùn)練數(shù)據(jù)集Table 1 Dataset used by constituency parser
表2 短語成分分析模型的效果Table 2 Performance of the constituency parser
表3 短語成分分析模型的超參數(shù)Table 3 Hyper-parameters of the constituency parser
本文使用的中文關(guān)系抽取數(shù)據(jù)集來自清華大學(xué)林衍凱等[13]公開的中英文雙語關(guān)系抽取數(shù)據(jù)集,這是目前最大的中文關(guān)系抽取數(shù)據(jù)集。這個(gè)數(shù)據(jù)集中,中文實(shí)例是中文百度百科對(duì)齊wikidata生成的,英文實(shí)例是英文wikipedia 對(duì)齊wikidata生成的。數(shù)據(jù)集中wikidata 的關(guān)系事實(shí)分成3 部分,分別用來作為訓(xùn)練集、驗(yàn)證集和測(cè)試集,包括NA(兩個(gè)實(shí)體之間沒有關(guān)系)在內(nèi),總共有176 種關(guān)系,100 多萬條語句。表4 是其中中文數(shù)據(jù)集的統(tǒng)計(jì)信息。遵循PCNN_ATT[3]的工作,本文也使用PR 曲線作為評(píng)估指標(biāo)。PR 曲線就是以查準(zhǔn)率Precision和查全率Recall 為軸,取不同閾值畫的一條曲線。曲線下的面積稱為PR-auc,auc 越大,或者曲線越接近右上角(查準(zhǔn)率和查全率均為1),模型就越好。
圖4 是中文關(guān)系抽取模型的對(duì)比效果。圖中藍(lán)線表示本文提出的基于短語成分表示的中文關(guān)系抽取模型的PR 曲線(Cons7zh),橙線表示基準(zhǔn)模型PCNN-ATT 的PR 曲線,可以看到Cons7zh 的PR 曲線更靠近右上角,且?guī)缀跬耆采wPCNN-ATT 的PR 曲線,驗(yàn)證了本文將短語成分表示嵌入到關(guān)系抽取確實(shí)有提升效果。
表4 關(guān)系抽取模型訓(xùn)練數(shù)據(jù)集描述Table 4 Dataset used by relation extraction
最后本文通過樣例直觀地說明短語成分表示對(duì)關(guān)系抽取的影響。表5 列舉了測(cè)試集中的3 個(gè)實(shí)例,最后2 列是本文模型和PCNN-ATT[3]分別預(yù)測(cè)的關(guān)系。可以看出,3 個(gè)句子都是長(zhǎng)句,且2 個(gè)實(shí)體間的距離較遠(yuǎn),中間有較多干擾。其中第1 句和第3 句,PCNN-ATT 將這種情況的關(guān)系預(yù)測(cè)為NA,即實(shí)體間沒有關(guān)系,而本文的模型則預(yù)測(cè)正確。對(duì)于第2 句,原文將其預(yù)測(cè)為“主權(quán)國(guó)”關(guān)系,而實(shí)際上是“國(guó)籍國(guó)”。因此,從直觀上也可以發(fā)現(xiàn),短語成分表示的引入,不僅能有效去除長(zhǎng)句中中間詞匯的干擾,還能幫助區(qū)分更細(xì)粒度的關(guān)系。
圖4 關(guān)系抽取性能比較Fig.4 Performance comparison of relation extraction models
表5 關(guān)系抽取的一些示例Table 5 Some cases of relation extraction
本文主要針對(duì)短語成分分析技術(shù)應(yīng)用于關(guān)系抽取,以提升關(guān)系抽取效果這一問題,分析了現(xiàn)有方法存在的缺陷,針對(duì)性地提出了改進(jìn)方法——基于短語成分表示的中文關(guān)系抽取方法,實(shí)驗(yàn)結(jié)果表明該方法確實(shí)提升了中文關(guān)系抽取的效果。本文針對(duì)中文關(guān)系抽取任務(wù)做出的改進(jìn)是比較通用的方法,適用于有監(jiān)督或者遠(yuǎn)程監(jiān)督方法,采用的公開數(shù)據(jù)集也是遠(yuǎn)程監(jiān)督數(shù)據(jù)集,但是本文方法還有待進(jìn)一步優(yōu)化。首先,由于加入了短語成分表示的提取過程,一旦數(shù)據(jù)量比較大,算法的整體執(zhí)行時(shí)間就會(huì)增加;其次,加入了短語成分表示之后,也許可以通過優(yōu)化目標(biāo)函數(shù)等方式進(jìn)一步提升訓(xùn)練效果。除此之外,短語成分分析應(yīng)用于關(guān)系抽取還有很多值得探討的地方,這些都是本文繼續(xù)關(guān)注的方向。