• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于上下文語義增強(qiáng)的實體關(guān)系聯(lián)合抽取

      2023-05-24 03:18:38雷景生剌凱俊楊勝英
      計算機(jī)應(yīng)用 2023年5期
      關(guān)鍵詞:實體語義樣本

      雷景生,剌凱俊,楊勝英*,吳 怡

      (1.浙江科技學(xué)院 信息與電子工程學(xué)院,杭州 310023;2.浙江省腫瘤醫(yī)院,杭州 310022)

      0 引言

      實體與關(guān)系抽?。≧elation Extraction,RE)是自然語言處理(Natural Language Processing,NLP)領(lǐng)域的核心任務(wù),用于從非結(jié)構(gòu)化文本中自動提取實體及其關(guān)系。該任務(wù)的結(jié)果在知識圖譜的構(gòu)建、問答系統(tǒng)和機(jī)器翻譯等各種高級自然語言處理應(yīng)用中發(fā)揮著至關(guān)重要的作用。

      有監(jiān)督的實體和關(guān)系抽取傳統(tǒng)上采用流水線或聯(lián)合學(xué)習(xí)方法[1]。流水線方法將抽取任務(wù)看作兩個串行子任務(wù):命名實體識別(Named Entity Recognition,NER)和關(guān)系分類。關(guān)系分類子任務(wù)對識別出的實體進(jìn)行配對并分類。由于相關(guān)實體數(shù)量較少,流水線模型在配對階段通常會生成大量的不相關(guān)實體對。此外,該方法還存在錯誤傳播,同時對兩個子任務(wù)的關(guān)聯(lián)性關(guān)注不足等問題。為了解決這些問題,研究者們對聯(lián)合學(xué)習(xí)進(jìn)行了大量研究,取得了較好的效果。

      聯(lián)合學(xué)習(xí)是指通過一個聯(lián)合模型提取實體并對關(guān)系進(jìn)行分類,能夠有效緩解級聯(lián)錯誤,提高信息的利用率。聯(lián)合提取任務(wù)通常通過基于序列標(biāo)注的方法解決[2]。最近,基于span 的方法由于其良好的性能而受到了廣泛的研究[3]。該方法首先將文本分割成文本span 作為候選實體,然后形成span 對作為候選關(guān)系元組,最后,對實體span 和span 對進(jìn)行聯(lián)合分類。例如,在圖1 中,“Boston University”“Boston”等是文本span;〈“Boston University”,“Boston”〉和〈“Michael D.Papagiannis”,“Boston University”〉是span 對;同時“Boston University”被分類為Org(Organization 的縮寫);〈“Michael D.Papagiannis”,“Boston University”〉被分類為Work_For。

      圖1 span示例Fig.1 Examples of span

      現(xiàn)有的聯(lián)合實體和關(guān)系抽取方法的研究主要集中于兩個子任務(wù)之間的交互,但存在對上下文的關(guān)注度不足的問題,且過度依賴ELMo(Embeddings from Language Models)[4]、BERT(Bidirectional Encoder Representation from Transformers)[5]等預(yù)訓(xùn)練語言模型的編碼能力,導(dǎo)致其文本廣度語義不足。如Eberts 等[3]直接使用BERT 中[CLS]的信息以及采用簡單的最大池化將文本信息融入實體和關(guān)系表示中。這樣無法很好地關(guān)注到上下文中的潛在信息,而這些信息對分類的準(zhǔn)確性有著重要影響。

      為了解決這一問題,本文提出了一個基于上下文語義增強(qiáng)的實體關(guān)系聯(lián)合抽?。↗oint Entity and Relation extraction based on Contextual semantic Enhancement,JERCE)模型,通過增強(qiáng)上下文的語義表示提高兩個子任務(wù)的準(zhǔn)確性。本文將同樣的句子和上下文重復(fù)傳遞給預(yù)訓(xùn)練的編碼器,通過應(yīng)用標(biāo)準(zhǔn)隨機(jī)掩碼丟棄,可以得到語義相近且表示不同的嵌入,將它們作為正樣本對;將同一訓(xùn)練批次的其他句子和實體間上下文作為負(fù)樣本對。然后將上述樣本輸入對比學(xué)習(xí)模塊,以獲取增強(qiáng)后的文本語義表示。這種方法的優(yōu)點是不需要通過復(fù)雜的操作就可以更好地捕獲上下文中的關(guān)鍵信息,從而得到實體間關(guān)系的更準(zhǔn)確的嵌入表示。在此基礎(chǔ)上,還引入了一種加權(quán)損失函數(shù)來平衡訓(xùn)練過程中兩個任務(wù)的損失,以此來獲取整體性能更好的模型。在3 個基準(zhǔn)數(shù)據(jù)集上的大量實驗表明,本文模型相較于現(xiàn)有模型有著更好的表現(xiàn)。

      1 相關(guān)工作

      1.1 聯(lián)合實體和關(guān)系抽取

      聯(lián)合實體和關(guān)系抽取的目的是同時從非結(jié)構(gòu)化文本中檢測實體以及實體之間的語義關(guān)系。它已被證明是有效的,因為它可以緩解錯誤傳播,并有效利用命名實體識別(NER)和關(guān)系抽?。≧E)之間的相互關(guān)系[6]。許多研究通過級聯(lián)方法解決聯(lián)合問題,它們先執(zhí)行NER,然后執(zhí)行RE。Gupta等[7]將聯(lián)合實體和關(guān)系抽取作為一個表格填充問題,其中表格的每個單元對應(yīng)句子的一個詞對,同時使用雙向循環(huán)神經(jīng)網(wǎng)絡(luò)來標(biāo)記每個詞對。Zhao 等[8]提出了一種特定于實體相對位置表示的模型,充分利用實體和上下文標(biāo)記之間的距離信息,解決了實體特征模糊和局部信息不完整的問題。Sui等[9]將聯(lián)合實體和關(guān)系抽取作為一個直接集預(yù)測問題,可以一次性預(yù)測所有三元組。Eberts 等[3]通過強(qiáng)負(fù)采樣、跨度過濾和局部上下文表示,搜索輸入句子中的所有跨度。Shen等[10]提出一個觸發(fā)器感知記憶流框架(Trigger-sense Memory Flow framework,TriMF),通過多級記憶流注意模塊,增強(qiáng)NER 和RE 任務(wù)之間的雙向交互。

      1.2 對比學(xué)習(xí)

      對比學(xué)習(xí)的目的是在將不同樣本的嵌入推開的同時,將相同樣本的增強(qiáng)版本嵌入到彼此之間。該方法最早由Mikolov 等[11]引入自然語言處理,他們提出了一種基于對比學(xué)習(xí)的框架,使用共現(xiàn)詞作為語義相似點,并通過負(fù)采樣來學(xué)習(xí)單詞嵌入。負(fù)采樣算法利用邏輯回歸將單詞與噪聲分布區(qū)分開,有助于簡化訓(xùn)練方法。該框架以一種計算效率較高的方式明顯地提高了單詞和短語的表示質(zhì)量。Saunshi等[12]提出了對比學(xué)習(xí)的理論框架,在使用學(xué)習(xí)到的表示進(jìn)行分類任務(wù)時表現(xiàn)良好。該框架從未標(biāo)記數(shù)據(jù)中學(xué)習(xí)有用的特征表示,并引入潛在類來形式化語義相似度的概念。

      近年來,對比學(xué)習(xí)在一些自然語言處理任務(wù)中表現(xiàn)優(yōu)異。Fang 等[13]提出了一種使用句子級對比學(xué)習(xí)的預(yù)訓(xùn)練語言表示模型 CERT(Contrastive self-supervised Encoder Representations from Transformers),以促進(jìn)語言理解任務(wù)。CONPONO(CONtrastive Position and Ordering with Negatives Objective)模型[14]研究了篇章連貫性和文本中細(xì)粒度的句子排序,盡管與BERT-base 模型的參數(shù)數(shù)量相同,但性能更優(yōu)。

      2 本文模型JERCE

      本文模型JERCE 使用BERT[5]進(jìn)行編碼,如圖2 所示:將句子重復(fù)輸入BERT,利用BERT 隨機(jī)地丟棄掩碼,獲得正樣本對,以便進(jìn)行對比學(xué)習(xí)。在此基礎(chǔ)上,計算得到增強(qiáng)的span 表示,并進(jìn)行分類、過濾。然后用得到的實體集合組成關(guān)系空間,預(yù)測關(guān)系元組,計算關(guān)系表示并進(jìn)行分類、過濾。

      圖2 JERCE的模型架構(gòu)Fig.2 Model architecture of JERCE

      2.1 BERT預(yù)訓(xùn)練語言模型

      BERT 模型基于Transformer 編碼器結(jié)構(gòu),能夠?qū)W習(xí)到上下文的相關(guān)信息,解決了Word2Vec 和GloVe 等分布式詞向量表示無法有效獲取高維度特征的缺點。

      BERT 的網(wǎng)絡(luò)結(jié)構(gòu)如圖3 所示,它的模型架構(gòu)是一個多層雙向的Transformer 編碼器。BERT 利用大規(guī)模無標(biāo)注語料進(jìn)行訓(xùn)練,獲得文本包含豐富語義信息的表示,并在下游任務(wù)對預(yù)訓(xùn)練模型進(jìn)行微調(diào)。它包含兩個核心任務(wù),即掩碼語言模型(Masked Language Model,MLM)任務(wù)和下一句預(yù)測(Next Sentence Prediction,NSP)任務(wù)。MLM 使模型能夠捕捉到辨別性的上下文特征,NSP 任務(wù)使理解句子對之間的關(guān)系成為可能。

      圖3 BERT模型Fig.3 BERT model

      本文采用BERT 作為文本編碼器,得到的輸出表示為:

      其中:S={s1,s2,…,sn}表示文本輸入;H={h1,h2,…,hn},H∈Rd表示每個token 被BERT 編碼后得到的token 嵌入,n為token 個數(shù),d為BERT 隱藏狀態(tài)的維度。

      2.2 基于對比學(xué)習(xí)的文本語義增強(qiáng)表示

      本文的目標(biāo)是通過潛在空間的對比損失,使正樣本對輸入的一致性最大化,即正樣本對語義向量的空間距離更近,負(fù)樣本對語義向量的空間距離更遠(yuǎn),從而學(xué)習(xí)到更準(zhǔn)確的文本表示。

      JERCE 使用預(yù)訓(xùn)練的語言模型BERT 對輸入句子進(jìn)行編碼,然后使用對比學(xué)習(xí)目標(biāo)對所有參數(shù)進(jìn)行調(diào)整。

      該任務(wù)的關(guān)鍵之一是在不破壞關(guān)鍵語義的前提下獲取句子的正樣本對,本文將同樣的句子和上下文重復(fù)傳遞給預(yù)訓(xùn)練的編碼器以實現(xiàn)這一目的。這是因為在BERT 的標(biāo)準(zhǔn)訓(xùn)練中,在全連接層和注意力層上有丟棄掩碼。即

      其中:z是隨機(jī)的丟棄掩碼表示輸入xi的隱藏層輸出;θ為函數(shù)f的參數(shù)。本文將相同的token 序列重復(fù)輸入到編碼器,得到具有不同丟棄掩碼的嵌入,對于一個最小批次的N個句子或?qū)嶓w間上下文,同批次其余句子的對應(yīng)內(nèi)容作為負(fù)樣本,本模塊的訓(xùn)練目標(biāo)便成為:

      其中:z是Transformers 中的標(biāo)準(zhǔn)丟棄掩碼;T是溫度超參數(shù),它會將模型的重點聚焦到距離正例較近的負(fù)例,并作出相應(yīng)的懲罰。

      這可以視為一種最低程度的數(shù)據(jù)增強(qiáng),正樣本對采用了完全相同的句子,它們的嵌入只是在進(jìn)行隨機(jī)掩碼丟棄的過程中有所不同。

      圖4 展示了本文的對比學(xué)習(xí)模塊的框架。給定一個句子w={w1,w2,…,wn},利用兩次隨機(jī)掩碼丟棄獲得兩個語義相近的嵌入視圖和接著加入了一個特征映射g(·)進(jìn)一步提取特征,g(·)是一個2 層的多層感知機(jī)(Multi-Layer Perceptron,MLP)。從第一個嵌入視圖得到了一個映射→h',同時從 第二個 嵌入視 圖得到了 另一個映射→h″。

      圖4 對比學(xué)習(xí)模塊的框架Fig.4 Framework of contrastive learning module

      對比學(xué)習(xí)方法通過比較訓(xùn)練數(shù)據(jù)中的不同樣本來學(xué)習(xí)表示。在訓(xùn)練過程中,通過使正對具有相似表征,使負(fù)對具有不同表征來學(xué)習(xí)文本語義。

      2.3 span分類

      由于span 的文本內(nèi)容相對較少,可用信息有限,為此本文將工作的重心放在它的上下文表示部分。

      如圖2 所示,用于分類的span 表示由三部分組成:span文本信息、基于span 寬度的嵌入表示以及句子級上下文表示。本文用ti表示文本經(jīng)過編碼后得到的token 嵌入,將句子的嵌入序列表示為t0,t1,…,tN。span 嵌入序列定義如下:

      span 自身的文本信息根據(jù)函數(shù)f融合得到,此處f采用最大池化處理,表示為:

      對于特定長度的span,模型學(xué)習(xí)一個專用的矩陣以查找特定跨度的嵌入,它包含不同跨度[1;2;3;4;5-7;8-15;…]的span 的嵌入表示。這些嵌入通過反向傳播學(xué)習(xí)。對于長度為k的span,其跨度嵌入為lk。

      通過2.2 節(jié)的方法得到增強(qiáng)的句子級上下文表示,記為sc,并將它融入span 的表示中,以此來增強(qiáng)對上下文的信息捕獲能力。所得到的分類實體span 的最終表示如下:

      Zs最后被送入Softmax 分類器,該分類器在每個實體類別上產(chǎn)生一個后驗:

      其中:Ws為權(quán)重參數(shù);bs為偏移量。

      通過查看得分最高的類,span 分類器估計每個span 屬于哪個類,得到構(gòu)成實體的span 的集合,記為ε。然后對{ε×ε}衍生的關(guān)系元組進(jìn)行關(guān)系分類。

      2.4 關(guān)系分類

      關(guān)系集合用? 表示。關(guān)系分類器處理從{ε×ε}提取得到候選實體對即:并估計它是否存在? 中存在的關(guān)系。

      如圖2 所示,用于分類的關(guān)系表示由兩部分組成,包括被識別的實體對和增強(qiáng)的實體間上下文表示。

      對于候選實體對s1和s2,位于它們之間的上下文在很大程度上蘊(yùn)含了彼此之間的關(guān)系,為此利用對比學(xué)習(xí)對這部分文本進(jìn)行語義提取。Ec表示s1和s2之間的增強(qiáng)局部上下文嵌入表示,s1和s2對應(yīng)的實體表示為κs1和κs2,則最后的關(guān)系分類表示為:

      將Zr送入Softmax 分類器,得到:

      2.5 加權(quán)損失

      本文模型包括多個子任務(wù)。在過去的工作中,為了將不同任務(wù)的損失進(jìn)行聯(lián)合優(yōu)化,需要手動調(diào)節(jié)子任務(wù)的權(quán)重。在這個過程中,通常采取的損失函數(shù)是簡單地將每個單獨任務(wù)的損失進(jìn)行加權(quán)線性求和,如下:

      然而,模型最后的學(xué)習(xí)效果對于權(quán)重非常敏感,同時手動調(diào)節(jié)這些權(quán)重也是非常費時費力的工作。為此,需要找到一種更為方便的方法來學(xué)習(xí)最優(yōu)權(quán)值。Cipolla 等[15]使用同方差不確定性來平衡單任務(wù)損失,同方差不確定性對相同任務(wù)的不同輸入示例保持恒定的量。

      模型的優(yōu)化過程是為了使高斯似然目標(biāo)最大化,以解釋同方差不確定性,特別是要對模型權(quán)值w和噪聲參數(shù)σs、σr進(jìn)行優(yōu)化。σs、σr為模型的觀測噪聲參數(shù),即所謂的同方差不確定性項,它們可以捕獲在輸出中有多少噪聲。為此引入以下聯(lián)合損失函數(shù):

      通過最小化噪聲參數(shù)σs和σr的損失,可以較好地平衡訓(xùn)練過程中單個任務(wù)的損失??梢园l(fā)現(xiàn)增大噪聲參數(shù)σs和σr會降低對應(yīng)任務(wù)的權(quán)值,因此當(dāng)任務(wù)的同方差不確定性較高時,該任務(wù)對網(wǎng)絡(luò)權(quán)值更新的影響較小。通過這種方法,可以避免手工調(diào)優(yōu)權(quán)重過程中耗時且繁瑣的步驟。

      3 實驗與結(jié)果分析

      3.1 實驗數(shù)據(jù)

      本文實驗采用了以下3 個數(shù)據(jù)集:ACE05(Automatic Content Extraction,2005)[16]、CoNLL04(Conference on Natural Language Learning,2004)[17]和ADE(Adverse Drug Effect)[18]。

      ACE05 由語言數(shù)據(jù)聯(lián)盟(Linguistic Data Consortium,LDC)開發(fā),包括新聞專線、廣播新聞、廣播談話、網(wǎng)絡(luò)日志、論壇討論和電話談話。預(yù)定義了7 個粗粒度實體類型和6 個粗粒度關(guān)系類型。本文遵循Li 等[19]的數(shù)據(jù)分割、預(yù)處理和任務(wù)設(shè)置。

      CoNLL04 由來自華爾街日報和美聯(lián)社等媒體的新聞文章的句子組成,數(shù)據(jù)集定義了4 種實體類型(person、organization、location 和other)和5 種關(guān)系類型(kill、work for、organization based in、live in 和located in)。為了與之前的工作進(jìn)行比較,本文的實驗遵循Gupta[7]和Eberts 等[3]的設(shè)置和數(shù)據(jù)分割。

      ADE 是一個生物醫(yī)學(xué)領(lǐng)域的數(shù)據(jù)集,旨在從醫(yī)學(xué)文本中提取藥物相關(guān)的不良反應(yīng)。數(shù)據(jù)集提供了10 折訓(xùn)練和測試分割。它包括兩種預(yù)定義的實體類型(Adverse-Effect 和Drug)和單一的關(guān)系類型(Adverse-Effect)。

      3.2 評價指標(biāo)

      本文的模型性能評價指標(biāo)包括精度P(Precision)、召回率R(Recall)和F1 值F1。具體公式表示如下:

      其中:TP是真正例數(shù);FP是假正例數(shù);FN是假反例數(shù);F1 值用來對精度和召回率進(jìn)行整體評價。

      3.3 實驗參數(shù)設(shè)置

      實驗使用BERTbase(cased)作為句子的編碼器;訓(xùn)練模型的batch size 為16,采用正態(tài)分布隨機(jī)數(shù)(μ=0,σ=0.02)初始化分類器的權(quán)重;使用Adam 優(yōu)化器,線性預(yù)熱和學(xué)習(xí)率衰減,衰減指數(shù)為0.98,峰值學(xué)習(xí)率為5 × 10-5,丟棄率為0.2,寬度嵌入維數(shù)為25,epoch 數(shù)為30,關(guān)系濾波閾值α=0.4。

      3.4 基線模型

      將JERCE 同以下模型進(jìn)行對比,這些模型在對應(yīng)的數(shù)據(jù)集上有著不錯的表現(xiàn)。

      Relation-Metric[20]:該模型是多任務(wù)學(xué)習(xí)方案中基于序列標(biāo)記的模型,它利用表結(jié)構(gòu)、基于重復(fù)應(yīng)用的2D 卷積和指標(biāo)特征來池化局部依賴,在ADE 和CoNLL04 上有很好的性能。

      MTQA(Multi-Turn Question Answering)[21]:該模型使用多回合問題回答機(jī)制,將實體和關(guān)系的提取轉(zhuǎn)化為從情境中識別答案跨度的任務(wù)。該模型通過問題查詢對需要識別的實體和關(guān)系的重要信息進(jìn)行編碼,并通過多步推理構(gòu)建實體依賴關(guān)系,得到了數(shù)據(jù)集RESUME。

      SpERT(Span-based Entity and Relation Transformer)[3]:該模型引入預(yù)訓(xùn)練的BERT 模型作為聯(lián)合實體識別和關(guān)系提取的核心。

      ERIGAT(Entity-Relations via Improved Graph Attention networks)[22]:該模型 將圖注 意力網(wǎng) 絡(luò)(Graph Attention Networks,GAT)引入實體關(guān)系聯(lián)合提取域,有效地提取了多跳節(jié)點信息;同時采用對抗性訓(xùn)練,通過添加微小擾動來生成對抗性樣本進(jìn)行訓(xùn)練,增強(qiáng)了模型的魯棒性。

      eRPR MHS(entity-specific Relative Position Representation based Multi-Head Selection)[8]:該模型提出了一個特定于實體的相對位置表示,允許模型充分利用實體和上下文標(biāo)記之間的距離信息;同時引入了一種全局關(guān)系分類增強(qiáng)對局部上下文特征的學(xué)習(xí)。

      MRC4ERE++(Machine Reading Comprehension based framework for joint Entity-Relation Extraction)[23]:該模型引入了一種基于MTQA 的多樣性問答機(jī)制,兩種答案選擇策略旨在整合不同的答案。此外,MRC4ERE++建議預(yù)測潛在關(guān)系的子集以過濾掉不相關(guān)的關(guān)系,從而有效地生成問題。

      TriMF[10]:該模型構(gòu)建了一個記憶模塊來記憶實體識別和關(guān)系提取任務(wù)中學(xué)習(xí)到的類別表征,并在此基礎(chǔ)上設(shè)計了多級記憶流注意機(jī)制,增強(qiáng)了實體識別和關(guān)系提取之間的雙向互動。該模型在沒有任何人工注釋的情況下,可以通過觸發(fā)傳感器模塊增強(qiáng)句子中的關(guān)系觸發(fā)信息,從而提高模型的性能,使模型預(yù)測具有更好的解釋性。

      3.5 實驗結(jié)果分析

      3.5.1 模型對比實驗分析

      表1 中展示了本文的模型JERCE 在CoNLL04、ADE 和ACE05 數(shù)據(jù)集的主要結(jié)果。相較于基線模型,JERCE 在三個數(shù)據(jù)集上均有更好的表現(xiàn)。

      表1 不同的模型在CoNLL04、ADE和ACE05上的實驗結(jié)果 單位:%Tab.1 Experimental results of different models on CoNLL04,ADE and ACE05 unit:%

      在CoNLL04 上,相較于最新的模型,JERCE 的實體識別F1值分別提升了1.81(MRC4ERE++)和1.04(TriMF)個百分點,關(guān)系抽取F1值則分別提升了1.19(TriMF)和1.13(ERIGAT)個百分點。

      在ADE 上,相較于SpERT 和TriMF,JERCE 在實體識別性能上的提升有限,對比TriMF 提升了0.13 個百分點,但在關(guān)系抽取任務(wù)中有著較好的表現(xiàn),F(xiàn)1值分別提升了1.26(SpERT)和1.14(TriMF)個百分點。同ERIGAT 相比,JERCE的實體識別任務(wù)更有優(yōu)勢,F(xiàn)1值提升了1.01 個百分點,但關(guān)系抽取提升有限。其中ERIGAT 采用了GAT,雖然可以有效提取多跳節(jié)點關(guān)系信息,但也使模型更復(fù)雜。整體而言,本文的模型要優(yōu)于ERIGAT。

      在ACE05 上,相較于在該數(shù)據(jù)集上有著優(yōu)異表現(xiàn)的TriMF 和MRC4ERE++,關(guān)系抽取的提升有限,較TriMF 提升了0.44 個百分點,但JERCE 的實體識別性能提升顯著,F(xiàn)1值分別提升了2.12(TriMF)和2.69(MRC4ERE++)個百分點。主要原因是TriMF 的觸發(fā)器傳感器機(jī)制更側(cè)重于關(guān)系抽取任務(wù),MRC4ERE++則采用問答機(jī)制的策略,對關(guān)系的預(yù)測的貢獻(xiàn)更大;相比較而言,JERCE 通過上下文信息的增強(qiáng),進(jìn)一步放大了關(guān)鍵信息對實體識別的作用,同時改善了關(guān)系抽取任務(wù),綜合性能更好。

      結(jié)合數(shù)據(jù)集的類型及模型的性能,相較于醫(yī)學(xué)領(lǐng)域的數(shù)據(jù)集(ADE),本文的模型更適用于開放領(lǐng)域數(shù)據(jù)集(CoNLL04、ACE05)的聯(lián)合實體和關(guān)系抽取任務(wù)。這是由于上下文的信息增強(qiáng)對于藥物實體和副作用等專有名詞的識別和分類作用有限。與上述模型相比,JERCE 通過對比學(xué)習(xí),可以在較少語義信息的情況下實現(xiàn)更高的性能,表明JERCE 對實體和關(guān)系信息的提取能力較強(qiáng)??傊?,相對比較模型,JERCE 能更有效地處理實體和關(guān)系信息。

      3.5.2 消融實驗分析

      本文在ACE05 測試集上進(jìn)行消融實驗以分析不同模塊的性能。

      表2 展示了語義增強(qiáng)對實體識別和關(guān)系抽取聯(lián)合任務(wù)的影響,其中:-ContextEnhanced 表示通過最大池化獲取實體間上下文的表示;-SentenceEnhanced 表示直接采用BERT 模型中的[CLS]作為句子文本的語義表示;both 是通過執(zhí)行以上兩種消融而得到的模型。通過表2 的結(jié)果可以觀察到,通過對比學(xué)習(xí)對實體間上下文以及句子的語義進(jìn)行增強(qiáng)有助于提升實體關(guān)系聯(lián)合抽取的效果;同時可以發(fā)現(xiàn)實體間上下文對關(guān)系抽取的影響較大,這是因為關(guān)系的大部分信息都體現(xiàn)在兩個實體之間的內(nèi)容中。

      表2 語義增強(qiáng)消融實驗的F1值 單位:%Tab.2 F1 values in semantic enhancement ablation experiments unit:%

      表3 展示了通過計算加權(quán)損失進(jìn)行優(yōu)化的影響。本文模型結(jié)合同方差不確定性,引入了聯(lián)合損失函數(shù)Ljoint來加權(quán)平衡實體識別和關(guān)系抽取兩個任務(wù)的損失,-Ljoint表示在計算聯(lián)合損失函數(shù)時不進(jìn)行加權(quán),而將兩個任務(wù)的損失進(jìn)行線性相加,即L=Ls+Lr。結(jié)果表明,通過動態(tài)加權(quán)兩個子任務(wù)的損失,可以在一定程度上提升模型的性能。

      表3 加權(quán)損失對模型F1值的影響 單位:%Tab.3 Influence of weighted loss on model F1 value unit:%

      對比學(xué)習(xí)中的樣本來自同一批次的其他句子,批量大小的值直接影響對比學(xué)習(xí)的樣本數(shù)。如圖5 所示,當(dāng)批量小于16 時,對比學(xué)習(xí)中的負(fù)樣本的數(shù)量對于模型的訓(xùn)練結(jié)果有著重要的作用;但該值大于16 時,效果并不明顯。這是由于隨著批量的增大,正負(fù)樣本更為均衡,但同時過大的批量值也會在一定程度上損失模型精度。因此,本文模型將批量值設(shè)置為16,以保證模型性能的最優(yōu)。

      圖5 批量大小對實體和關(guān)系抽取性能的影響Fig.5 Influence of batch size on entity and relation extraction performance

      3.6 誤差分析

      本文模型JERCE 在實體識別和關(guān)系抽取方面獲得了良好的結(jié)果,但通過對預(yù)測結(jié)果進(jìn)行分析,發(fā)現(xiàn)了一些本文模型在實體識別和關(guān)系抽取中尚無法解決的錯誤,在此對這些錯誤進(jìn)行總結(jié)分析,以便為后續(xù)的研究提供思路。表4 包含了在測試數(shù)據(jù)集中發(fā)現(xiàn)的3 種常見錯誤情況的示例。

      表4 常見錯誤示例Tab.4 Common error examples

      1)邊界模糊:在實體識別過程中,存在無法準(zhǔn)確獲取實體邊界的問題。例如表4 中“Harry Potter”為正確實體,但由于“Mr.”同人物實體的聯(lián)系較為緊密,特征相似度較高,容易被一起識別。

      2)邏輯錯誤:在關(guān)系預(yù)測中,同種類型的不同實體容易混淆。例如表4 中“David”和“Jack”均為人物實體,“David”和“Black Sea Fleet”之間的關(guān)系被預(yù)測為“Work_For”。但實際上并非“David”,而是“Jack”。這個問題在形式上是正確的,但在句中的邏輯是錯誤的。

      3)邏輯缺失:在關(guān)系預(yù)測中,有些關(guān)系并未在句中明確表示,但可以根據(jù)上下文的邏輯推斷得到。例如表4 中,Linda 代表公司發(fā)言,可以推斷得出“Linda”是“Becton”公司的產(chǎn)品處理經(jīng)理;但這在文中并未提及,因此該關(guān)系沒有被預(yù)測。

      4 結(jié)語

      本文提出了一種對比訓(xùn)練的方法來增強(qiáng)上下文表示的聯(lián)合實體和關(guān)系抽取模型JERCE。通過利用BERT 中隨機(jī)掩碼丟棄的特性,獲得了對模型的訓(xùn)練更有益的正樣本對,在增強(qiáng)文本語義的過程中取得了良好的效果。同時,本文引入同方差不確定性來對兩個子任務(wù)的損失進(jìn)行動態(tài)加權(quán),提升了整體模型的表現(xiàn)。實驗結(jié)果表明,相較于現(xiàn)有的模型,JERCE 在CoNLL04、ADE 和ACE05 數(shù)據(jù)集上均取得了更好的結(jié)果。但本文的模型也存在一些局限性,正如誤差分析中所指出的,對實體邊界的清晰度不夠,同時在語義邏輯方面還有所欠缺,未來可能的工作是嘗試優(yōu)化邊界標(biāo)注策略,同時結(jié)合外部知識庫增強(qiáng)語義理解來提升模型性能。

      猜你喜歡
      實體語義樣本
      用樣本估計總體復(fù)習(xí)點撥
      語言與語義
      前海自貿(mào)區(qū):金融服務(wù)實體
      中國外匯(2019年18期)2019-11-25 01:41:54
      推動醫(yī)改的“直銷樣本”
      實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
      兩會進(jìn)行時:緊扣實體經(jīng)濟(jì)“釘釘子”
      振興實體經(jīng)濟(jì)地方如何“釘釘子”
      隨機(jī)微分方程的樣本Lyapunov二次型估計
      “上”與“下”語義的不對稱性及其認(rèn)知闡釋
      村企共贏的樣本
      云南省| 万宁市| 聊城市| 江都市| 永寿县| 克什克腾旗| 丰台区| 甘泉县| 儋州市| 武宣县| 呼伦贝尔市| 灵宝市| 巨野县| 灌阳县| 建水县| 漳平市| 阜宁县| 石棉县| 连山| 尼木县| 乐昌市| 鹤山市| 石门县| 江山市| 定襄县| 方正县| 珠海市| 磐石市| 天柱县| 洛宁县| 阿克| 堆龙德庆县| 安岳县| 三都| 涪陵区| 潜江市| 玉溪市| 贵溪市| 措美县| 定西市| 进贤县|