• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      融合多種嵌入表示的中文命名實(shí)體識別

      2022-06-25 01:59:42鄭肇謙龐海婷
      關(guān)鍵詞:標(biāo)簽語義向量

      彭 雪, 趙 輝, 鄭肇謙, 龐海婷

      (長春工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,吉林 長春 130012)

      0 引 言

      近年來,自然語言處理(Natural Language Processing,NLP)技術(shù)蓬勃發(fā)展,而NER作為其重要分支,也發(fā)展正盛。NER是NLP領(lǐng)域的一項(xiàng)基礎(chǔ)性關(guān)鍵技術(shù),目的是從文本中識別出具有特定意義或指代性強(qiáng)的實(shí)體,通常包括人名、地名、組織機(jī)構(gòu)名、日期、時間、貨幣和百分比等,其識別結(jié)果直接影響到關(guān)系抽取、問答系統(tǒng)、機(jī)器翻譯等下游NLP任務(wù)的性能。

      NER通常被看作序列標(biāo)注任務(wù)。近年來,隨著各種詞嵌入方法、預(yù)訓(xùn)練語言模型的出現(xiàn)和以神經(jīng)網(wǎng)絡(luò)為核心的深度學(xué)習(xí)在各個領(lǐng)域快速發(fā)展,利用深度學(xué)習(xí)方法解決序列標(biāo)注問題,尤其是NER問題成為一種趨勢。

      由于漢字結(jié)構(gòu)繁雜,文本中詞與詞之間沒有明顯的邊界,存在一字多音且在不同語境下表達(dá)的意思也不相同的現(xiàn)象,現(xiàn)有的NER方法通?;谧只蛟~進(jìn)行建模,沒有考慮句子的全局語義信息,利用預(yù)訓(xùn)練語言模型獲得嵌入表示,雖然一定程度上增強(qiáng)了語義特征,但是沒有充分利用到漢字本身的字音、字形特征,所以NER效果不理想。針對上述問題,文中基于深度學(xué)習(xí)方法,在融合字、句級語義特征的基礎(chǔ)上,充分結(jié)合漢字的字音、字形特征,提出融合多種嵌入表示的中文命名實(shí)體識別(Chinese Named Entity Recognition Fusing Multiple Embedding Representations,F(xiàn)MER-CNER)模型。主要貢獻(xiàn)如下:

      1)為了得到更適用于中文的嵌入表示,文中將百度自研的ERNIE預(yù)訓(xùn)練語言模型訓(xùn)練得到的字嵌入和句子嵌入進(jìn)行拼接、融合得到字句融合嵌入表示,從而達(dá)到同時融合字級和句子級語義特征的目的。

      2)為了充分利用漢字本身的特征來增強(qiáng)語義表示,文中在字句融合嵌入的基礎(chǔ)上充分結(jié)合了漢字的五筆、四角碼和拼音特征信息,從而達(dá)到融合漢字的字音、字形特征的目的。

      3)為了減小拼接后向量的維數(shù),融合并獲取對識別來說更重要的特征,文中在輸入表示層中添加向量融合層。每次向量拼接后用全連接層融合各自的特征,減小矩陣維度,然后送入BiLSTM網(wǎng)絡(luò)提取特征,最后,利用多頭注意力機(jī)制進(jìn)一步聚焦局部關(guān)鍵信息,減小無關(guān)、冗余特征的影響。

      1 相關(guān)工作

      早期NER大都使用基于規(guī)則和詞典的方法,后來統(tǒng)計(jì)機(jī)器學(xué)習(xí)興起,開始被用于解決NER問題。其中,CRF是最受NER研究者青睞的機(jī)器學(xué)習(xí)模型。

      近些年,基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)得到快速發(fā)展,對NER的研究也轉(zhuǎn)向了深度學(xué)習(xí)。常用于NER的神經(jīng)網(wǎng)絡(luò)包括卷積神經(jīng)網(wǎng)絡(luò)[1]、循環(huán)神經(jīng)網(wǎng)絡(luò)等及其變體。目前,NER領(lǐng)域最常用的是將深度學(xué)習(xí)與機(jī)器學(xué)習(xí)相結(jié)合的方法,Huang Z等[2]將以word embedding為輸入的BiLSTM-CRF模型用于解決序列標(biāo)注問題。也有研究者把多個神經(jīng)網(wǎng)絡(luò)同時應(yīng)用于NER任務(wù),Ma X等[3]提出BiLSTM-CNNs-CRF模型。張晗等[4]將生成式對抗網(wǎng)絡(luò)與BiLSTM-Attention-CRF模型相結(jié)合用于信息安全領(lǐng)域的實(shí)體識別。

      在以往的中文NER任務(wù)中,研究者大都采用基于詞嵌入的方法,但由于中文文本沒有明顯的詞邊界且極易產(chǎn)生分詞錯誤,會對實(shí)體識別結(jié)果產(chǎn)生很大影響,所以,不少研究者采用基于字嵌入的方法,Liu Z X等[5]證明了字嵌入比詞嵌入更適用于中文NER任務(wù)。但是,基于字符的方法又不能利用詞級信息,于是有研究者通過在基于字嵌入的模型中引入詞典信息來提高識別效果。Zhang Y等[6]提出Lattice-LSTM模型,通過加入詞典信息將鏈?zhǔn)浇Y(jié)構(gòu)轉(zhuǎn)換成圖結(jié)構(gòu),避免了由于分詞錯誤造成的識別誤差。除了引入詞典信息之外,研究者還通過引入額外特征來豐富模型的語義表示。趙浩新等[7]直接利用中文筆畫序列生成字向量來增強(qiáng)漢字的特征表示。Xu C W等[8]在字、詞嵌入的基礎(chǔ)上融入了漢字的部首特征,提升了NER的效果,并驗(yàn)證了部首信息的有效性。

      預(yù)訓(xùn)練語言模型的出現(xiàn)大大提升了NER的性能。Word2Vec[9]和Glove[10]將單詞表示為向量且相似的單詞有相似的向量表示。ELMo[11]、GPT[12]則能夠獲得上下文相關(guān)的詞向量。谷歌在2018年發(fā)布了BERT[13],是目前最常用的預(yù)訓(xùn)練語言模型之一。很多研究者在獲取BERT的隱藏層表征后經(jīng)過微調(diào)用于自己模型。王子牛等[14]利用BERT獲取上下文抽象特征提出BERT-BiLSTM-CRF模型。但是BERT在預(yù)訓(xùn)練時僅對單個字進(jìn)行掩碼,分割了語義表示,沒有充分學(xué)習(xí)到中文的語義特征。百度基于BERT進(jìn)行改進(jìn)發(fā)布了ERNIE預(yù)訓(xùn)練語言模型,能夠建模海量文本中的語義關(guān)系,增強(qiáng)下游模型的語義理解能力。朱海東等[15]將百度ERNIE應(yīng)用于中文情感分類領(lǐng)域,顯著提升了模型性能。

      中文中普遍存在一字多音不同義和一音多字不同義的現(xiàn)象,而拼音刻畫了漢字的字音特征,能夠增強(qiáng)對語義的理解。漢字結(jié)構(gòu)繁雜,通常具有相同組成結(jié)構(gòu)的漢字表達(dá)的意思也相近,這對醫(yī)學(xué)等專業(yè)領(lǐng)域的實(shí)體識別尤為重要。五筆和四角碼依據(jù)筆畫或字形特征對漢字進(jìn)行編碼,具有相似筆畫結(jié)構(gòu)的漢字其編碼也相似,比如“胳”“膊”兩個字都有“月”且都與人體相關(guān),所以對應(yīng)的五筆碼“etk”和“egef”也有相同的部分;“桂”“林”都有“木”又都與樹相關(guān),所以對應(yīng)的四角碼“44914”和“44990” 也相似。由此可見,融入字音、字形特征對增強(qiáng)中文語義表示是有意義的。

      綜上所述,以往的NER方法僅對文本中的字或詞進(jìn)行建模,忽略了句子包含的全局語義特征和漢字本身的字音、字形特征;傳統(tǒng)預(yù)訓(xùn)練語言模型對中文語義特征的提取能力不足,對漢字潛在的字形特征表示不充分。為解決上述問題,文中利用具有更強(qiáng)中文語義特征表示能力的百度ERNIE預(yù)訓(xùn)練語言模型得到字句嵌入表示,再融入字音、字形特征得到融合嵌入表示;把它送入BiLSTM-CRF模型中進(jìn)行特征提取和標(biāo)簽解碼得到最優(yōu)標(biāo)簽序列。在MSRA數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),結(jié)果表明,提出的方法提升了中文NER結(jié)果。

      2 FMER-CNER模型

      2.1 模型概述

      文中提出的FMER-CNER模型以當(dāng)前主流的BiLSTM-CRF模型為基礎(chǔ),融合了字句級別的語義特征以及包括拼音、五筆和四角碼在內(nèi)的字音、字形特征,以增強(qiáng)模型對漢字潛在特征的表示能力,從而達(dá)到提升NER效果的目的。

      模型整體結(jié)構(gòu)如圖1所示。

      圖1 模型整體結(jié)構(gòu)

      由圖1可以看出,自下而上分為輸入表示層、BiLSTM特征提取層和CRF標(biāo)簽解碼層。

      對于文本序列X,首先在輸入表示層得到包含字句級特征和字音、字形特征的融合嵌入T;然后在BiLSTM特征提取層把T作為輸入,通過BiLSTM神經(jīng)網(wǎng)絡(luò)前向和后向訓(xùn)練進(jìn)行特征提取,得到輸出嵌入H經(jīng)過全連接層分類和降維后得到包含上下文信息的全局隱含特征G;最后把特征矩陣G送入CRF標(biāo)簽解碼層學(xué)習(xí)標(biāo)簽間的約束關(guān)系,解碼得到最優(yōu)的標(biāo)簽序列,完成NER任務(wù)。

      2.2 輸入表示層

      輸入表示層的目的是對輸入文本進(jìn)行編碼,表示成機(jī)器能讀懂的向量形式。文中在輸入表示層融合了字、句、拼音、五筆和四角碼五種嵌入表示。

      輸入表示層結(jié)構(gòu)如圖2所示。

      圖2 輸入表示層結(jié)構(gòu)

      輸入文本序列X=(x1,x2,…,xi,…,xn)是一個有n個字的句子,xi表示句子中第i個字。對兩兩拼接的矩陣進(jìn)行融合和降維,通過向量融合層完成,最終得到融合嵌入T=(t1,t2,…,ti,…,tn)是一個維度為n×768的矩陣,它是整個輸入表示層的輸出,同時也是BiLSTM特征提取層的輸入。

      2.2.1 向量融合層

      為了更好地將兩兩拼接的矩陣進(jìn)行融合和降維,文中設(shè)計(jì)了向量融合層。將兩個矩陣拼接后,通過全連接層融合特征并減小矩陣維度,然后送入BiLSTM提取全局特征,但這些特征并不都對識別有作用,所以再用能刻畫句子中每個信息重要性的多頭注意力機(jī)制(Multi-head Attention Mechanism)來聚焦局部關(guān)鍵信息,使得到的融合嵌入集成了全局特征和局部特征。

      注意力機(jī)制[16]類似于人的認(rèn)知機(jī)制,能夠從眾多信息中選擇出對當(dāng)前任務(wù)目標(biāo)更重要的信息,為其賦予更大的權(quán)值,然后對這些信息投入更多的注意力,減少對非重要信息的關(guān)注。多頭注意力機(jī)制能夠讓模型關(guān)注到不同位置、不同表示空間的信息,可抽象表示為

      (1)

      式中:Q——查詢矩陣;

      K——鍵矩陣;

      V——值矩陣。

      首先做一次線性映射,將維度為d的Q,K,V映射到Q∈Rm×dk,K∈Rm×dk,V∈Rm×dv,然后計(jì)算出權(quán)重。

      (2)

      式中:headi——單頭注意力單元,頭數(shù)為12;

      Q,K,V——訓(xùn)練好的權(quán)重參數(shù)。

      MultiHead(Q,K,V)=

      Concat(head1,head2,…,headn)WO,

      (3)

      式中:WO——線性變化參數(shù)。

      多次并行進(jìn)行以上操作,式(3)將所有結(jié)果拼接起來,得到一個融合所有注意力頭信息的矩陣。

      2.2.2 字句嵌入

      利用ERNIE[17]預(yù)訓(xùn)練語言模型,將包含n個字的輸入文本序列X經(jīng)過預(yù)訓(xùn)練分別得到一個n×768維的字嵌入矩陣和一個768維的句子向量,將n個這樣的句子向量組合成一個n×768維的句子矩陣,與字嵌入矩陣進(jìn)行拼接,再經(jīng)過向量融合層進(jìn)行融合和降維,得到維度為n×768的字句融合嵌入K,以增強(qiáng)模型在字和句子層面的語義表示。

      2.2.3 ERNIE預(yù)訓(xùn)練語言型

      ERNIE是百度自研的基于知識增強(qiáng)的預(yù)訓(xùn)練語言模型,通過對大規(guī)模語料中的詞、實(shí)體和實(shí)體間關(guān)系等先驗(yàn)知識進(jìn)行建模,讓模型學(xué)習(xí)到海量文本中所蘊(yùn)含的潛在語義關(guān)系,以增強(qiáng)語義表示能力。ERNIE將多層雙向Transformer的Encoder作為編碼器,每一層都由一個Encoder單元構(gòu)成,共6層。Encoder單元結(jié)構(gòu)如圖3所示。

      圖3 Encoder單元結(jié)構(gòu)

      輸入Embedding與對應(yīng)的位置信息相加作為Encoder的輸入,首先經(jīng)過Multi-head Attention學(xué)習(xí)詞與詞之間的相關(guān)性;接著進(jìn)入Add & Norm層,Add用殘差的方式對不同的輸出相加,Norm用Layer Normalization對Embedding做歸一化;然后進(jìn)行Feed Forward的前向計(jì)算;最后再接一層Add & Norm防止梯度消失。

      2.2.4 拼音、五筆、四角碼的融合

      將輸入文本序列X分別轉(zhuǎn)化成拼音、五筆和四角碼序列,然后進(jìn)行向量化,得到維度均為n×768的拼音嵌入L、五筆嵌入M和四角碼嵌入Q,接下來進(jìn)行矩陣融合。

      把字句融合嵌入K與拼音嵌入L進(jìn)行拼接,在向量融合層進(jìn)行融合和降維之后得到融合嵌入T1。同理,T1與五筆嵌入M進(jìn)行融合降維得到融合嵌入T2,然后T2再與四角碼嵌入Q進(jìn)行融合降維得到最終的融合嵌入表示T。

      2.3 特征提取和標(biāo)簽解碼

      “神經(jīng)網(wǎng)絡(luò)+條件隨機(jī)場”是目前NER任務(wù)的常用方法,文中使用“BiLSTM-CRF”組合模型,充分發(fā)揮了各模型的優(yōu)勢。將BiLSTM作為特征提取器,用于提取上下文中蘊(yùn)含的全局語義特征,然后經(jīng)過全連接層得到每個字到每個類別標(biāo)簽的得分,最后送入CRF中學(xué)習(xí)標(biāo)簽之間的約束關(guān)系,解碼得到最優(yōu)的標(biāo)簽序列。BiLSTM-CRF模型結(jié)構(gòu)如圖4所示。

      圖4 BiLSTM-CRF模型結(jié)構(gòu)

      T=(t1,t2,…,ti,…,tn)是輸入表示層得到的融合矩陣,ti表示序列中每個字的融合嵌入,經(jīng)過BiLSTM-CRF模型后輸出的是每個字的類別標(biāo)簽。

      2.3.1 BiLSTM特征提取層

      對輸入表示層得到的融合嵌入表示T進(jìn)行特征提取,通過雙向的長短時記憶網(wǎng)絡(luò)(Bidirectional Long and Short Term Memory,BiLSTM)完成。長短時記憶網(wǎng)絡(luò)(Long and Short Term Memory,LSTM)是一種特殊的RNN,獨(dú)特之處在于引入了門控機(jī)制,可以有選擇地保存上文信息,并且能夠有效利用長距離信息,實(shí)現(xiàn)長期記憶,克服了RNN的梯度消失和長期依賴等問題。

      LSTM單元結(jié)構(gòu)如圖5所示。

      圖5 LSTM單元結(jié)構(gòu)

      每個LSTM單元都包含細(xì)胞狀態(tài)(Cell State)和遺忘門、輸入門、輸出門三個不同的門結(jié)構(gòu)。其計(jì)算過程可抽象表示為:

      ft=σ(Wf·[ht-1,xt]+bf),

      (4)

      it=σ(Wi·[ht-1,xt]+bi),

      (5)

      (6)

      (7)

      ot=σ(Wo·[ht-1,xt]+bo),

      (8)

      ht=ot·tanh(Ct),

      (9)

      BiLSTM網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示。

      圖6 BiLSTM網(wǎng)絡(luò)結(jié)構(gòu)

      接下來,輸出嵌入H經(jīng)過全連接層分類、降維后得到特征矩陣

      G=(g1,g2,…,gi,…,gn)∈Rn×d,

      它是BiLSTM特征提取層的輸出,隨后送入CRF層進(jìn)行標(biāo)簽解碼。其中,H的維度是n×768,G的維度是n×d,n是輸入序列的最大長度,d是標(biāo)簽種類數(shù),文中是7。

      2.3.2 CRF標(biāo)簽解碼層

      條件隨機(jī)場(Conditional Random Fields,CRF)是一種概率無向圖模型,常用于序列標(biāo)注任務(wù),尤其是NER任務(wù)。它能夠考慮到序列的全局信息,學(xué)習(xí)到標(biāo)簽之間的約束關(guān)系,再根據(jù)約束規(guī)則選擇最優(yōu)標(biāo)簽序列。

      文中使用線性鏈CRF:對于任意輸入文本序列

      X=(x1,x2,…,xi,…,xn),

      若在給定X的條件下,輸出的預(yù)測標(biāo)簽序列

      Y=(y1,y2,…,yi,…,yn)

      的條件概率P(Y|X)構(gòu)成CRF,即滿足馬爾科夫性

      P(yi|X,y1,…,yi-1,yi+1,…,yn)=

      P(yi|X,yi-1,yi+1),

      (10)

      則稱P(Y|X)為線性鏈CRF。

      BiLSTM特征提取層的輸出矩陣G,其矩陣元素Gi,j表示句子中第i個字第j個標(biāo)簽的得分;CRF的轉(zhuǎn)移矩陣為A,矩陣元素Ai,j代表標(biāo)簽i轉(zhuǎn)移到標(biāo)簽j的得分。則在給定輸入序列X的條件下,輸出的預(yù)測標(biāo)簽序列Y的總得分為

      (11)

      式中:y0——輸出序列開始標(biāo)簽;

      yn+1——輸出序列結(jié)束標(biāo)簽。

      因此A是維度為(k+2)的方陣。產(chǎn)生預(yù)測標(biāo)簽序列Y的概率分布為

      (12)

      兩邊同時取對數(shù),得到正確預(yù)測序列的對數(shù)似然函數(shù),

      (13)

      YX——所有可能的標(biāo)注序列。

      訓(xùn)練時最大化似然函數(shù),解碼后,得分最高的輸出序列為

      (14)

      預(yù)測時,用Viterbi動態(tài)規(guī)劃算法求解出最優(yōu)標(biāo)簽序列。

      3 實(shí)驗(yàn)與分析

      3.1 數(shù)據(jù)集及標(biāo)簽標(biāo)注規(guī)則

      3.1.1 數(shù)據(jù)集

      實(shí)驗(yàn)所用的MSRA數(shù)據(jù)集是由微軟亞洲研究院發(fā)布的專門用于NER任務(wù)的中文數(shù)據(jù)集。其中訓(xùn)練集有46 364條語句,測試集有4 365條語句,共計(jì)5萬余條,包含人名、地名和組織機(jī)構(gòu)名三種實(shí)體類型。

      數(shù)據(jù)集中各類實(shí)體統(tǒng)計(jì)見表1。

      表1 各類實(shí)體統(tǒng)計(jì)表

      3.1.2 標(biāo)簽標(biāo)注規(guī)則

      文中數(shù)據(jù)集采用BIO標(biāo)記法,B表示實(shí)體最開始部分,I表示實(shí)體內(nèi)部,O表示不是實(shí)體;PER、LOC和ORG分別代表人名、地名和組織機(jī)構(gòu)名。所以,三種實(shí)體類型共有6種標(biāo)簽,加上O標(biāo)簽,總共有7種標(biāo)簽。

      具體標(biāo)簽種類見表2。

      表2 標(biāo)簽種類表

      3.2 實(shí)驗(yàn)參數(shù)設(shè)置

      實(shí)驗(yàn)環(huán)境見表3。

      表3 實(shí)驗(yàn)環(huán)境表

      模型訓(xùn)練時,使用Adam優(yōu)化算法加快收斂速度,通過Dropout防止過擬合。

      具體模型參數(shù)設(shè)置見表4。

      表4 模型參數(shù)表

      3.3 評價指標(biāo)

      模型采用準(zhǔn)確率P、召回率R和F1值作為評價指標(biāo),對模型性能進(jìn)行全面評估。各指標(biāo)計(jì)算公式如下:

      (15)

      (16)

      (17)

      式中:TP——正確識別出的命名實(shí)體數(shù)量;

      FP——識別錯誤的命名實(shí)體數(shù)量;

      FN——未識別出的命名實(shí)體數(shù)量;

      F1——綜合了準(zhǔn)確率和召回率,體現(xiàn)出模型的均衡性。

      3.4 實(shí)驗(yàn)結(jié)果及分析

      為驗(yàn)證FMER-CNER模型的有效性和優(yōu)越性,文中進(jìn)行了四組實(shí)驗(yàn)。

      3.4.1 模型效果驗(yàn)證

      為探究模型對每類實(shí)體的識別效果,實(shí)驗(yàn)中取得最大F1值時,各類實(shí)體的準(zhǔn)確率P、召回率R和F1值見表5。

      表5 各類實(shí)體識別結(jié)果 %

      由此可見,模型對人名的識別效果相對較好,F(xiàn)1值最高,準(zhǔn)確率也達(dá)到97.08%;對組織機(jī)構(gòu)名的識別效果最差,準(zhǔn)確率、召回率和F1值均最低。分析原因,可能是中文人名相對較短且結(jié)構(gòu)明確,一般為2到3個字,少數(shù)為4個字以上,由“姓+名”的格式組成,所以相對容易識別;而組織機(jī)構(gòu)名一般字?jǐn)?shù)較多且結(jié)構(gòu)相對復(fù)雜,大部分還與地名嵌套出現(xiàn),所以識別起來相對困難。

      3.4.2 融合嵌入表示的有效性驗(yàn)證

      在其他條件保持不變的情況下,僅改變輸入表示層的嵌入表示進(jìn)行對比實(shí)驗(yàn),見表6。

      表6 模型對比結(jié)果 %

      由實(shí)驗(yàn)結(jié)果可知,文中提出的FMER-CNER模型F1值最高,達(dá)到了96.06%,綜合效果最好,說明同時融合字、句、拼音、五筆和四角碼這些特征是有意義的,增強(qiáng)了語義表示,提升了命名實(shí)體識別效果。

      3.4.3 預(yù)訓(xùn)練模型的優(yōu)越性驗(yàn)證

      在NER任務(wù)中,由眾多前人的工作可知,BiLSTM-CRF組合模型的效果要明顯優(yōu)于BiLSTM、CRF這樣單一模型的效果,而加入了預(yù)訓(xùn)練模型后的識別效果更優(yōu)。所以,為驗(yàn)證百度ERNIE預(yù)訓(xùn)練模型的優(yōu)越性,文中在其他條件保持不變的情況下,僅把百度ERNIE換成BERT的兩個改進(jìn)模型ALBERT和RoBERTa進(jìn)行對比實(shí)驗(yàn),結(jié)果見表7。

      表7 ALBERT,RoBERTa與ERNIE實(shí)驗(yàn)對比 %

      由表7可以看出,加入百度ERNIE的BiLSTM-CRF模型F1值達(dá)到95.34%,識別效果明顯優(yōu)于加ALBERT和RoBERTa的模型。而同時獲取ERNIE的字、句嵌入模型F1值達(dá)到95.66%,高于只獲取ERNIE字嵌入的模型0.32個百分點(diǎn)。充分說明在中文NER方面,百度ERNIE對中文語義的理解能力要好于ALBERT和RoBERTa,驗(yàn)證了其優(yōu)越性,也說明同時獲取ERNIE的字、句嵌入是有意義的,豐富了模型句子級別的語義表示。

      3.4.4 模型對比實(shí)驗(yàn)

      為驗(yàn)證本模型的優(yōu)越性,與同樣使用MSRA數(shù)據(jù)集的其他模型進(jìn)行對比,結(jié)果見表8。

      表8 與其他模型的對比結(jié)果 %

      1)CAN-NER[18]模型雖然用具有局部注意力的CNN對字詞信息進(jìn)行編碼,用具有全局注意力的BiGRU-CRF捕獲全局特征和預(yù)測最終標(biāo)簽,但它沒有關(guān)注到漢字的字音、字形特征,F(xiàn)1值只有92.97%。

      2)Lattice-LSTM-CRF[6]模型在基于字符模型的基礎(chǔ)上,利用注意力機(jī)制融合詞典信息,將LSTM的線性結(jié)構(gòu)轉(zhuǎn)化成圖結(jié)構(gòu),F(xiàn)1值達(dá)到93.18%。

      3)LR-CNN[19]模型是一種含有Rethinking機(jī)制的多層CNN網(wǎng)絡(luò),在不同層融合字詞向量,實(shí)現(xiàn)了并行化;添加反饋層反饋高級特征來細(xì)化word embedding的權(quán)重,解決了Lattice-LSTM模型存在的詞典沖突問題。模型的F1值達(dá)到93.71%,較Lattice-LSTM模型提高0.53個百分點(diǎn)。

      4)BERT-BiLSTM-CRF[20]模型利用BERT預(yù)訓(xùn)練生成詞向量,相比前面模型的F1值有所提升,達(dá)到94.65%,說明預(yù)訓(xùn)練模型在詞表示方面具有優(yōu)勢,語義理解能力更強(qiáng)。

      5)BSTTC[21]模型利用BERT預(yù)訓(xùn)練生成動態(tài)字向量,然后用星型Transformer-TextCNN聯(lián)合模型提取特征,最后經(jīng)過CRF解碼得到最終標(biāo)簽序列,模型F1值達(dá)到95.69%。

      6)文中FMER-CNER模型既考慮了預(yù)訓(xùn)練模型在語義理解方面的優(yōu)勢,又考慮了句子的全局特征和漢字本身的字音、字形特點(diǎn),準(zhǔn)確率和F1值均優(yōu)于前面的模型,證明了模型在中文NER任務(wù)中的有效性和優(yōu)越性。

      4 結(jié) 語

      針對以往的中文NER模型只對字或詞進(jìn)行建模,很少關(guān)注句子的全局信息和漢字本身特有的字音、字形信息,以及預(yù)訓(xùn)練模型對中文語義表示不足等問題,提出了融合多種嵌入表示的中文NER模型FMER-CNER。在利用百度ERNIE預(yù)訓(xùn)練語言模型對字和句子進(jìn)行建模,得到字句嵌入表示的基礎(chǔ)上,充分考慮漢字本身的字音、字形特征,將拼音、五筆和四角碼作為額外特征融入字句嵌入表示中,以增強(qiáng)模型的語義表示能力。在MSRA數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)驗(yàn)證,F(xiàn)1值達(dá)到96.06%,超越了文中其他對比實(shí)驗(yàn)結(jié)果,證明了模型的有效性和優(yōu)越性。未來,將會在現(xiàn)有工作的基礎(chǔ)上繼續(xù)進(jìn)行探索優(yōu)化,嘗試解決復(fù)雜命名實(shí)體嵌套和領(lǐng)域命名實(shí)體遷移等問題。

      猜你喜歡
      標(biāo)簽語義向量
      向量的分解
      聚焦“向量與三角”創(chuàng)新題
      語言與語義
      無懼標(biāo)簽 Alfa Romeo Giulia 200HP
      車迷(2018年11期)2018-08-30 03:20:32
      不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
      海峽姐妹(2018年3期)2018-05-09 08:21:02
      “上”與“下”語義的不對稱性及其認(rèn)知闡釋
      標(biāo)簽化傷害了誰
      向量垂直在解析幾何中的應(yīng)用
      向量五種“變身” 玩轉(zhuǎn)圓錐曲線
      基于多進(jìn)制查詢樹的多標(biāo)簽識別方法
      灵台县| 沁水县| 含山县| 平顶山市| 凤山县| 文成县| 南城县| 秭归县| 金塔县| 伽师县| 晋中市| 拜城县| 称多县| 东城区| 包头市| 邯郸县| 红桥区| 旅游| 澳门| 隆回县| 铜鼓县| 松江区| 海安县| 沙田区| 开远市| 梅河口市| 桃园市| 龙川县| 隆回县| 息烽县| 孝感市| 赤水市| 竹北市| 米林县| 郓城县| 扬州市| 甘南县| 乌海市| 天峻县| 双柏县| 温州市|