• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于漢字上下文信息增強詞典知識融入的中文命名實體識別

      2024-08-23 00:00:00趙振宇朱靜靜張宇馨劉夢珠陳黎琚生根
      四川大學學報(自然科學版) 2024年4期

      摘 要: 由于中文語言缺少顯式的分隔符,使得中文命名實體識別任務面臨缺少詞語邊界信息的難題. 為了解決這一問題,現(xiàn)有的主流模型通過引入詞典來利用詞語邊界信息. 然而,詞典中的詞語信息只是根據(jù)字詞之間的匹配關系融入漢字表示中,忽視了句子信息對于詞語選擇的影響,與句子語義信息無關的詞語不可避免地引入到模型中,使模型感知錯誤的詞語邊界信息. 為了減少無關詞語對于實體識別結果的影響,本文提出了一種新的中文命名實體識別方法ELKI,通過帶有句子語義信息的漢字上下文表示來增強詞典知識的融入,從而改善模型感知詞語邊界的精度. 具體地,本文設計了一種新型的交叉注意力網(wǎng)絡從詞典中挖掘與語義信息相關的詞語信息. 同時,本文構造了一種門控融合網(wǎng)絡來動態(tài)地將詞典知識融入到漢字的上下文表示中. 在Resume、MSRA 和OntoNotes 三個基準數(shù)據(jù)集上的實驗結果表明本文方法優(yōu)于其它的基線模型.

      關鍵詞: 中文命名實體識別; 交叉注意力網(wǎng)絡; 門控融合網(wǎng)絡; 信息抽取

      中圖分類號: TP391 文獻標志碼: A DOI: 10. 19907/j. 0490-6756. 2024. 042001

      1 引言

      命名實體識別(Named Entity Recognition,NER)是自然語言處理(Natural Language Processing,NLP)領域的一項基本任務,旨在定位句子中的實體并將這些實體劃分為預定義的類別(如人名、地名和組織等). NER 是信息抽?。↖nformationExtraction, IE)任務的第一階段,在信息檢索、智能問答以及其他NLP 下游任務中扮演了重要角色. 隨著深度學習技術的快速發(fā)展,現(xiàn)有的主流模型借助于神經網(wǎng)絡模型的強大學習能力,極大提升了NER 系統(tǒng)的性能.

      對于中文NER 任務,由于句子中的詞語之間沒有任何的分隔符并且也沒有顯式的形態(tài)學標記,這使得中文NER 面臨缺少詞語邊界信息的難題. 針對這一問題,傳統(tǒng)的方法是先對句子進行分詞操作,再使用基于詞語的序列標注方法來預測每個詞語的實體類型[1,2]. 然而,基于詞語的方法有時會對準確識別實體產生負面作用. 具體地,分詞算法不可避免地會產生錯誤分詞,從而在后續(xù)實體標注中進行錯誤傳播,造成NER 系統(tǒng)輸出錯誤的實體結果. 為了解決分詞算法帶來的錯誤傳播問題,一些學者開始探索在基于漢字的方法中引入詞典知識來避免分詞算法產生的錯誤. 然而,目前主流模型都是根據(jù)漢字與詞語之間的匹配關系來采取不同的策略將詞語信息整合到漢字表示中,但是同一漢字能夠存在于多個潛在詞語中,其中就會有與句子語義信息無關的詞語,也被稱為“歧義”詞語. 如圖1 所示,與漢字“市”相關的潛在詞語包括“ 成都市”和“ 市長”,而根據(jù)句子的語義信息,詞語“成都市”應該被識別為地點實體,所以詞語“ 市長”就是與句子語義信息無關的詞語,從而會對漢字“市”的標簽識別產生消極影響. 如何解決好“歧義”詞語的問題也是中文NER 模型面臨的一大重要挑戰(zhàn).

      準確識別句子中實體的關鍵因素是增強屬于同一實體的漢字之間的聯(lián)系,漢字之間的局部范圍內的聯(lián)系能夠幫助NER 模型更好地從詞典中學習與句子語義信息相關的詞語信息,即漢字級的上下文信息對于提升NER 系統(tǒng)具有顯著的影響.為了使模型能夠利用漢字級的上下文信息來更好地學習詞典知識,我們借鑒了Xue 等[3]提出的多孔機制注意力方法,提出了一種基于漢字上下文信息增強詞典知識融入(Enhancing Lexicon KnowledgeIntegration Utilizing Character Context Information,ELKI)的新型中文NER 模型,命名為ELKI. 我們首先設計一種關系感知的字詞交叉注意力網(wǎng)絡,將漢字的上下文表示作為查詢向量,借助字詞關系信息來增強模型學習語義相關詞語和排除語義無關詞語的能力. 之后,我們構造了門控網(wǎng)絡來動態(tài)調整每個漢字本身的上下文信息和與其所關聯(lián)的詞語知識信息的融合權重,從而能夠隱式地利用漢字之間的關聯(lián)信息.

      2 相關工作

      將詞典知識整合到基于漢字模型的策略已經引起了眾多研究者的興趣,現(xiàn)有的主流方法可以被分為:基于注意力機制的方法、基于圖的方法和基于序列的方法3 類.

      2. 1 基于注意力機制的方法

      基于注意力機制的方法旨在設計一種新型的注意力網(wǎng)絡來從詞字格中學習詞語信息. Xue 等[3]提出了一種多孔機制的格感知自注意力方法,利用相鄰的漢字之間的局部依賴關系增強NER 系統(tǒng)的性能. Li 等[4]提出了FLAT 模型,在自注意力網(wǎng)絡中加入了4 種相對位置編碼來獲取詞字格中的各節(jié)點信息. 琚生根等[5]提出了關聯(lián)記憶網(wǎng)絡方法,利用注意力機制將訓練集中相關句子的標簽信息融入句子的漢字表示中. 基于注意力機制的方法直接利用詞字格來學習詞語信息,節(jié)省了字詞匹配處理所消耗的時間,并且根據(jù)注意力網(wǎng)絡的特性,這種方式能夠加快模型的訓練速度. 但是,這一方法未能對漢字的潛在詞語進行區(qū)分,可能導致模型學習錯誤的實體信息.

      2. 2 基于圖的方法

      基于圖的模型是采用圖神經網(wǎng)絡(Graph NeuralNetwork, GNN)來提高模型的性能. Ding 等[6]提出了多重連圖模型,將輸入序列和詞典信息一起建模,并使用門控圖神經網(wǎng)絡(Gated GraphNeural Network, GGNN)來學習圖中的節(jié)點信息. Gui 等[7]根據(jù)中文詞典構造了有向的詞字圖,之后采用聚合和更新操作使每個結點融合更多信息. Sui 等[8]提出了協(xié)作圖網(wǎng)絡(CollaborativeGraph Network, CGN),通過融合4 種不同詞字圖的圖注意力網(wǎng)絡得分來整合潛在的詞語信息. 這些方法先將詞字格結構轉換為圖結構,之后再利用不同的圖神經網(wǎng)絡方法學習詞典知識. 然而,中文語言的序列特性對于NER 的結果非常重要,基于圖的結構忽視了這一特性.

      2. 3 基于序列的方法

      基于序列的方法通過整合詞典知識來增強漢字的表示能力,之后再利用漢字級的序列標注方法預測每個漢字的實體標簽. Zhang 等[9]提出了基于格的LSTM 模型,在傳統(tǒng)的漢字級的LSTM 中添加額外的記憶單元來將詞語信息融入到構成當前詞語的最后1 個漢字表示中. Gui 等[10]提出了帶有反思機制的多層卷積神經網(wǎng)絡(ConvolutionalNeural Network, CNN)架構模型,通過反饋高層的特征來調整與漢字相關的各詞語信息之間的權重. Hu 等[11]在整合一階詞匯知識的基礎上進一步引入了相鄰漢字的相關詞語信息,即將二階詞匯知識引入到漢字級的模型中,從而使?jié)h字能夠學習到更多的詞語信息. Ma 等[12]提出了SoftLexicon模型,根據(jù)“BMES”字詞關系模式將每個漢字相關的詞語劃分為4 個集合,將融合后的詞語集合連接到漢字表示中. Hu 等[13]將與漢字相關的詞語信息劃分為2 種類型,并使用不同的融合策略來將詞語信息連接到漢字表示中. Zhang 等[14]提出了LSFCNER,利用靜態(tài)和動態(tài)2 種權重來融合4 種詞語集合的信息,并利用語法信息來增強模型對于句子的理解能力. 胥小波等[15]提出了融合句法和多粒度語義信息的多特征NER 模型,在模型表示層引入詞典特征和句型特征,利用ON-LSTM 來增強漢字的表示能力. 盡管基于序列的方法需要對句子中的漢字以及潛在詞語花費額外時間作預處理,但是這種方法可以有效地利用句子的序列特性來提高模型輸出結果的準確性.

      3 模型

      本文旨在利用漢字的上下文信息和詞典知識來獲得更好的NER 性能. 漢字級上下文信息有助于學習算法更好地挖掘語義相關的詞語信息,并在小范圍內準確定位實體信息. 詞典知識則包含了豐富的潛在詞語信息,能夠使模型感知詞語邊界信息. 本文提出的ELKI 模型可以分為3 個模塊(包含輸入表示層、整合層和解碼層),模型的整體架構如圖2 所示. 在輸入表示層,我們通過3 個嵌入查找表對句子生成的所有輸入數(shù)據(jù)進行編碼.在整合層,我們設計了新型交叉注意力網(wǎng)絡來獲取每個漢字對應的詞典知識表示,并構建了門控網(wǎng)絡來融合每個漢字的詞典知識及其上下文信息表示. 在解碼層中,我們使用雙向門控循環(huán)單元(Bidirectional Gate Recurrent Unit, BiGRU)和條件隨機場(Conditional Random Field, CRF)來預測每個漢字的實體標簽.

      3. 1 輸入表示層

      我們首先根據(jù)嵌入查找表將輸入句子生成的所有漢字、詞語和漢字-詞語關系映射為稠密向量,然后將漢字向量輸入到BiGRU 中,以獲得其上下文表示. 我們將輸入句子表示為s,其可以表示為1組漢字構成的序列s = (c1,c2,…,cn ),其中ci 表示句子中的第i 個漢字. 每個漢字都由1 個稠密向量表示:

      xci= ec (ci ), (1)

      其中,e c 表示漢字嵌入查找表.

      句子中的潛在詞語可以表示為{w1,w2,…,wm },其中每個詞語wk 是通過查詢詞典D 獲得的. 每個詞語也可以表示為輸入句子s 的子序列. 例如,第k 個詞語的首部漢字為ci,尾部漢字為cj,則可以使用1 組連續(xù)的漢字序列{ cki,…,ckj} 來表示wk. 每個詞語也使用1 個稠密向量表示.

      xwk= ew (wk ), (2)

      其中,ew 表示詞語嵌入查找表.

      漢字-詞語關系表由R ∈R n × m 表示,關系表中的每個元素都是根據(jù)漢字和詞語之間的組成或鄰接關系來確定. 表1 列出了關系表中各元素的詳細信息.

      我們給出的例子如圖3 所示,漢字“市”與其他3 個詞語“市”、“成都市”和“市長”存在組成關系,因此根據(jù)漢字“市”在這3 個詞語中的位置,其關系值分別被設置為“S”、“E”和“B”. 此外,漢字“ 市”與另外2 個詞語“成都”和“長蘭路”存在鄰接關系,則關系值分為設置為“R”和“L”. 之后,關系表中的每個元素ri,j 也同樣被轉換為稠密向量.

      xri,j = er (ri,j ), (3)

      其中,er 是字詞關系嵌入查找表.

      接下來,我們使用BiGRU 獲取漢字的上下文表示. 漢字ci 在前向GRU 和后向GRU 的隱狀態(tài)分別表示為:

      其中,h→ci- 1 和h←ci+ 1 分別是當前位置的前1 個位置的隱狀態(tài)和后1 個位置的隱狀態(tài). 之后,每個漢字的上下文表示xctxi 被表示為前向隱狀態(tài)和后向隱狀態(tài)的連接xctxi =[ h→ci;h←ci].

      3. 2 整合層

      漢字的上下文信息隱式地包含了漢字在原始語句中的關聯(lián)度,這一信息對于命名實體識別系統(tǒng)學習詞典知識和定位實體大有幫助. 算法1 描述了ELKI 模型整合層的詳細處理流程.

      3. 2. 1 交叉注意力網(wǎng)絡

      交叉注意力網(wǎng)絡以漢字的上下文表示、詞語表示以及字詞關系表示作為輸入數(shù)據(jù),漢字的詞典融合表示作為輸出數(shù)據(jù).這一模塊的主要目的是使每個漢字通過其上下文表示信息自適應地從潛在詞語中學習詞典知識.每個漢字的詞典表示xli的計算方式為

      xli= Concatenate ( xl1i ,xl2i ,…,xlHi ) (9)

      其中,Qi 是第i 個漢字的查詢向量,Kj 和Vj 分別是第j 個詞語的鍵向量和值向量. Ri,j 是第i 個漢字和第j 個詞語之間的關系表示. 如果漢字與詞語之間的關系值為“N”,即漢字與詞語不存在組成或鄰接關系,那么交叉注意力網(wǎng)絡會掩蓋字詞間的注意力分數(shù). Wq,Wk,Wr ∈ Rdmodel × d_head 為可訓練的參數(shù),I 為單位矩陣,d_head 是多頭注意力網(wǎng)絡中每個頭的維度大小且dmodel = H × d_head. Q hi 是查詢向量Qi 的第h 頭的表示,K hj ,V hj 和Rhi,j也分別是多頭注意力網(wǎng)絡中各部分的第h 頭表示.

      3. 2. 2 門控融合網(wǎng)絡

      融合更多的詞典知識能夠使模型更好地感知詞語邊界信息,而融合更多的上下文信息能夠使非實體漢字減少與其他漢字的關聯(lián)程度. 基于此,我們設計了門控網(wǎng)絡為漢字的上下文表示和詞典表示分配不同的融合權重.每個漢字經過門控網(wǎng)絡融合后的結果xfi 表示為

      αi = σ (W gates xs + W gatel xli+ bgate ) (10)

      xfi = αi xctxi + (1 - αi ) xli(11)

      其中xs =1nΣi = 1n xctxi 表示句子的語義信息. σ 是sigmoid 函數(shù),α 是由門控網(wǎng)絡計算得到的融合權重. W gates ,W gatel 和bgate 均為可訓練的參數(shù).

      3. 2. 3 輸出網(wǎng)絡

      在整合層的輸出部分,我們使用單層全連接神經網(wǎng)絡來處理門控網(wǎng)絡的輸出數(shù)據(jù). 每個漢字在整合層模塊的輸出xoi可以表示為

      xoi = LayerNorm (max (0,Wo xfi + bo ) ) (12)

      Wo 和bo 均為線性變換中可訓練的參數(shù).

      3. 3 解碼層

      解碼層將整合層的輸出經過BiGRU 處理后輸入CRF 中預測每個漢字的實體標簽. 由前向和后向GRU 的隱狀態(tài)連接后的表示{ hoi=[ hoi;hoi] }ni= 1作為輸入序列的標簽特征. 之后,使用CRF 模型處理這些標簽特征. 對于輸入序列s,其標簽序列y = { y1,y2,…,yn } 的概率輸出可以表示為

      其中,y'表示所有潛在的標簽序列;W CRFyi' 表示與yi相關的參數(shù)矩陣;bCRF ( yi- 1,yi ) 是標簽yi - 1 到標簽yi 的轉移得分. 在預測實體標簽時,本文使用維特比(Viterbi)算法來尋找輸入序列s 的具有最高條件概率的標簽序列y?.

      y? = argmaxyP ( y|s) (14)

      4 實驗

      4. 1 數(shù)據(jù)集和評價指標

      本文提出的ELKI 模型在Resume[9]、MSRA[16]和OntoNotes 3 個中文命名實體識別基準數(shù)據(jù)集進行實驗. Resume 數(shù)據(jù)集由從新浪財經獲取的大量中國股市高管的簡歷信息構成,共含有8 種命名實體類型. MSRA 數(shù)據(jù)集的內容來源于新聞領域,共包含4 種類型的命名實體. OntoNotes 數(shù)據(jù)集是由康奈爾大學、賓夕法尼亞大學和《紐約時報》合作創(chuàng)建和維護的大型語義注釋數(shù)據(jù)集,主要來自新聞領域. 3 個數(shù)據(jù)集的詳細統(tǒng)計數(shù)據(jù)如表2 所示. 本次實驗采用的評價指標分別是準確率(Precision,P)、召回率(Recall, R)和F1 值(F1-score, F1).

      4. 2 實驗設置

      ELKI 模型的實驗環(huán)境詳情和各模塊的實驗參數(shù)設置分別如表3 和表4 所示.對于嵌入信息,漢字和詞語的預訓練嵌入向量與Zhang 等[9]一致,字詞間的關系嵌入向量通過隨機初始化的方式獲取.

      4. 3 基線模型

      本文選擇以下模型作為基線模型:(1) Lattice-LSTM[9]:該模型設計了一種基于詞字格結構的LSTM 網(wǎng)絡,通過為詞語的尾部漢字添加額外的詞語單元將詞典信息整合到漢字表示中;(2) LRCNN[10]:該模型是一種多層卷積神經網(wǎng)絡架構模型,通過反饋高層的特征精煉詞語的權重;(3) LGN[7]:該模型使用圖神經網(wǎng)絡方法來整合詞語信息;(4) PLTE[3]:該模型提出了一種格感知的注意力網(wǎng)絡編碼器來捕獲詞字格中節(jié)點間的依賴信息;(5) SoftLexicon[12]:該模型根據(jù)字詞之間的匹配關系將與漢字相關的詞語分為4 個集合,采用不同的權重來融合4 種詞語集合的信息;(6) HLEA[13]:該模型將與漢字相關的詞語劃分為2 類,選擇不同的融合權重來整合這2 類詞語信息;(7) LSFCNER[14]:該模型是融合了詞匯信息和句法信息的漢字級中文命名實體識別模型;(8) BERT[17]:該模型是一種預訓練的語言表示模型,成功地使11 個NLP 任務取得了極大的提升.

      4. 4 實驗結果

      表5 描述了本文提出的ELKI 模型與其他基線模型的對比結果. 從表5 可以得出ELKI 優(yōu)于其他的基線模型. 具體來說,ELKI 與PLTE 相比,F(xiàn)1值在3 個數(shù)據(jù)集上分別提升了0. 44%、0. 61% 和1. 33%. 對于其他的基于序列的模型,在Resume數(shù)據(jù)集,ELKI 與SoftLexicon、HLEA 和LSFCNER相比分別提升了0. 35%、0. 22% 和0. 26%;在MSRA 數(shù)據(jù)集,ELKI 也分別提升了0. 21%、0. 28% 和0. 52%;對于OntoNotes 數(shù)據(jù)集,ELKI相對于SoftLexicon 和PLTE 分別提升了0. 29%和1. 33%. 表5 的結果表明,ELKI 模型獲得了較高的性能提升,ELKI 學習詞典知識具體極大優(yōu)勢.

      為了進一步驗證ELKI 結合高級預訓練模型的性能表現(xiàn),本文選取了一些結合BERT 的基線模型進行實驗對比,得到的實驗結果由表6 所描述. 在本次實驗中,本文將BERT 模型最后一層輸出的漢字隱狀態(tài)整合到ELKI 模型的解碼層中,與ELKI 整合層的輸出做連接后在經由解碼層處理.從表6 的數(shù)據(jù)可以推斷出,對于MSRA 數(shù)據(jù)集,ELKI(BERT)在實驗中取得的F1 值與PLTE(BERT)和SoftLexicon(BERT)相比分別提升了1. 26% 和0. 37%;對于Resume 數(shù)據(jù)集,ELKI(BERT)分別提升了0. 14% 和0. 28%;對于OntoNotes數(shù)據(jù)集,ELKI(BERT)相比于PLTE(BERT)提升了0. 84%,但比SoftLexicon(BERT)低了1. 37%. 產生這一結果的原因是OntoNotes數(shù)據(jù)集中有多個長句,為了讓機器進行處理,我們必須對這些句子進行分段,這導致BERT 無法完全感知句子的完整語義信息,從而影響ELKI 的性能.

      4. 5 實驗分析

      4. 5. 1 消融實驗分析

      為了進一步驗證ELKI 引入的字詞關系表示和門控融合模塊的性能表現(xiàn),本文進行消融實驗來進行闡述. 具體地,兩組消融實驗的設置如下:

      (1) -w/o char-word relation:這組消融實驗的目的是驗證字詞關系表示的有效性,基于此,本組消融實驗中不會將字詞關系表加入交叉注意力網(wǎng)絡中;

      (2) -w/o gate fusion:這組消融實驗是用于驗證門控融合模塊對模型性能的提升,因此,本組實驗刪除該模塊而采用連接操作xfi =[ xctxi ;xli].

      消融實驗結果如表7 所示. 從表7 結果可以得出:(1) 模型性能的下降充分證明了兩個模塊的有效性;(2) 在消融實驗(1)中獲得的F1 值分別比ELKI 低0. 4%、0. 55% 和1. 33%,這驗證了字詞間的關系可以幫助模型更好地捕捉詞典信息;(3) 在消融實驗(2)中獲得的F1 值分別比ELKI 低0. 89%、0. 09% 和0. 35%,這表明門控融合模塊能夠有效地利用漢字之間的相關性.

      綜上,字詞關系表示為挖掘漢字的詞典知識提供了很大的幫助,使得漢字能夠更好地感知語義相關的詞語信息;門控融合網(wǎng)絡可以動態(tài)控制漢字上下文信息和詞典知識信息的融合權重,使NER 模型能夠更好地區(qū)分不同的實體.

      4. 5. 2 注意力分析

      圖4 描述了由交叉注意力網(wǎng)絡計算得到的注意力得分熱力圖,從數(shù)據(jù)中可以分析出句子中的每個漢字能夠依據(jù)字詞關系表為合適的詞語分配更高的分數(shù). 這進一步驗證了ELKI 所提出的交叉注意力網(wǎng)絡模塊能夠極大地提升模型整合詞典知識的能力,并且在這種方式下漢字的上下文信息也能夠很好地幫助每個漢字挖掘詞語信息.

      為了進一步探索模型超參數(shù)中注意力頭數(shù)對于模型性能的影響,本文繼續(xù)設置了如下實驗:將注意力頭數(shù)分別取值為4、8 和16 用于對比,詳細的實驗結果呈現(xiàn)于圖5. 由此可以推斷出當注意力頭數(shù)為8 時,交叉注意力網(wǎng)絡能夠更有效地利用漢字的上下文信息從詞典知識中挖掘有用的詞語信息.

      4. 5. 3 字詞關系模式分析

      在本文提出的ELKI模型的交叉注意力網(wǎng)絡模塊中漢字與詞語之間采用“BMESRL”關系模式進行匹配,通過引入新的字詞關系“R”和“L”來降低“歧義”詞語對于模型性能的消極影響. 為了驗證在傳統(tǒng)的“BMES”關系模式的基礎上增加的2 種新型字詞關系對與模型性能的提升,本文根據(jù)不同的關系模式設置了一組對比實驗,具體結果由表8 所示. ELKI 所采用的“BMESRL”關系模式的優(yōu)勢在于能夠消除“歧義”詞語對于模型學習詞典知識的影響. 如圖3 所示,詞語“市長”是漢字“市”的相關詞語并且它們之間的關系值根據(jù)字詞之間的匹配原則設置為“B”. 然而,漢字“ 市”應該屬于實體詞語“ 成都市”且應與詞語“ 市長”無任何信息關聯(lián),所以漢字“ 市”與詞語“市長”之間的關系值“B”會對實體預測產生消極的影響. 當采用“BMESRL”關系模式時,另一個詞語“長蘭路”是漢字“市”的右鄰接且包含漢字“長”,因此可以將它們之間的關系值設置為“L”,這樣便能夠降低“ 歧義”詞語帶來的干擾. 表8 的數(shù)據(jù)也充分顯示了“BMESRL”可以使模型擁有更好的性能表現(xiàn).

      5 結論

      本文提出了一種新的中文命名實體識別模型ELKI,該模型旨在利用漢字的上下文信息和中文詞典信息提高命名實體識別系統(tǒng)的性能. ELKI 引入了2 個重要的模塊交叉注意力網(wǎng)絡和門控融合網(wǎng)絡,用于增強漢字的表示能力. 在Resume、MSRA 和OntoNotes 等3 個中文命名實體識別基準數(shù)據(jù)集上的實驗結果進一步證明了ELKI 在中文命名實體識別任務有巨大優(yōu)勢并且也能夠很容易與BERT 等其他自然語言處理的預訓練模型相結合來獲得更強大的性能表現(xiàn).

      參考文獻:

      [1] Zhang S, Qin Y, Wen J,et al. Word segmentationand named entity recognition for sighan bakeoff3[C]//Proceedings of the Fifth SIGHAN Workshopon Chinese Language Processing. Sydney:Associationfor Computational Linguistics, 2006.

      [2] He J, Wang H. Chinese named entity recognition andword segmentation based on character[ C]//Proceedingsof the Sixth SIGHAN Workshop on Chinese Language Processing.[S. l.]:Association for ComputationalLinguistics, 2008.

      [3] Xue M, Yu B, Liu T, et al. Porous lattice transformerencoder for chinese ner [C]//Proceedings ofthe 28th International Conference on ComputationalLinguistics. Barcelona: International Committee onComputational Linguistics, 2020.

      [4] Li X, Yan H, Qiu X, et al. Flat: Chinese ner usingflat-lattice transformer [C]//Proceedings of the 58thAnnual Meeting of the Association for ComputationalLinguistics. Online:Association for ComputationalLinguistics, 2020.

      [5] Ju S, Li T, Sun J. Chinese fine-grained named entityrecognition based on associated memory networks[ J]. Journal of Software, 2021, 32: 2545.[琚生根,李天寧,孫界平. 基于關聯(lián)記憶網(wǎng)絡的中文細粒度命名實體識別[J]. 軟件學報, 2021, 32:2545.]

      [6] Ding R, Xie P, Zhang X, et al. A neural multidigraphmodel for chinese ner with gazetteers [C]//Proceedings of the 57th Annual Meeting of the Associationfor Computational Linguistics. Florence: Associationfor Computational Linguistics, 2019.

      [7] Gui T, Zou Y, Zhang Q, et al. A lexicon-basedgraph neural network for chinese ner [C]//Proceedingsof the 2019 Conference on Empirical Methods inNatural Language Processing and the 9th InternationalJoint Conference on Natural Language Processing(EMNLP-IJCNLP). Hong Kong:Associationfor Computational Linguistics, 2019.

      [8] Sui D, Chen Y, Liu K, et al. Leverage lexicalknowledge for chinese named entity recognition viacollaborative graph network [C]//Proceedings of the2019 Conference on Empirical Methods in NaturalLanguage Processing and the 9th International JointConference on Natural Language Processing(EMNLP-IJCNLP). Hong Kong:Association forComputational Linguistics, 2019.

      [9] Zhang Y, Yang J. Chinese ner using lattice lstm[ C]//Proceedings of the 56th Annual Meeting of the Associationfor Computational Linguistics. Melbourne:Associationfor Computational Linguistics, 2018.

      [10] Gui T, Ma R, Zhang Q, et al. Cnn-based chinesener with lexicon rethinking [C]//Proceedings of theTwenty-Eighth International Joint Conference on ArtificialIntelligence. Macao: International Joint Conferenceon Artificial Intelligence, 2019.

      [11] Hu D, Wei L. Slk-cner: Exploiting second-orderlexicon knowledge for chinese ner[ C]//The 32nd InternationalConference on Software Engineering andKnowledge Engineering. KSIR Virtual ConferenceCenter: KSI Research Inc, 2020.

      [12] Ma R, Peng M, Zhang Q, et al. Simplify the usageof lexicon in Chinese ner [C]//Proceedings of the58th Annual Meeting of the Association for ComputationalLinguistics. Online: Association for ComputationalLinguistics, 2020.

      [13] Hu J, Ouyang Y, Li C, et al. Hierarchical lexiconembedding architecture for chinese named entity recognition[C]//Artificial Neural Networks and MachineLearning-ICANN 2021-30th International Conferenceon Artificial Neural Networks. Bratislava:Springer, 2021.

      [14] Zhang M, Li B, Liu Q, et al. Chinese named entityrecognition fusing lexical and syntactic information[C]//The 6th International Conference on Innovationin Artificial Intelligence. Guangzhou: Associationfor Computing Machinery, 2022.

      [15] Xu X, Wang T, Kang R, et al. Multi-feature chinesenamed entity recognition [J]. Journal of Sichuan University(Nature Science Edition), 2022, 59: 022003.[胥小波, 王濤, 康睿, 等. 多特征中文命名實體識別[J].四川大學學報(自然科學版), 2022, 59: 022003.]

      [16] Levow G A. The third international chinese languageprocessing bakeoff: Word segmentation and namedentity recognition [C]//Proceedings of the FifthSIGHAN Workshop on Chinese Language Processing.Sydney: Association for Computational Linguistics,2006.

      [17] Devlin J, Chang M W, Lee K, et al. Bert: Pretrainingof deep bidirectional transformers for language understanding[C]//Proceedings of the 2019 Conferenceof the North American Chapter of the Associationfor Computational Linguistics: Human LanguageTechnologies. Minneapolis:Association forComputational Linguistics, 2019.

      (責任編輯: 伍少梅)

      基金項目: 國家自然科學基金重點項目(62137001); 四川省重點研發(fā)項目(2023YFG0265)

      长寿区| 天津市| 九寨沟县| 东平县| 嫩江县| 郑州市| 襄樊市| 龙胜| 句容市| 北京市| 汤原县| 大荔县| 烟台市| 永寿县| 财经| 青浦区| 许昌市| 北票市| 炉霍县| 石渠县| 石嘴山市| 皮山县| 连州市| 民和| 惠东县| 大渡口区| 景谷| 鄂伦春自治旗| 专栏| 健康| 龙里县| 上高县| 绥棱县| 泰和县| 阿坝| 全州县| 邓州市| 桂林市| 宜兰县| 磐石市| 长海县|