• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于改進的Transformer編碼器的中文命名實體識別

    2021-11-10 13:10:12鄭洪浩于洪濤李邵梅
    網(wǎng)絡與信息安全學報 2021年5期
    關鍵詞:集上編碼器命名

    鄭洪浩,于洪濤,李邵梅

    基于改進的Transformer編碼器的中文命名實體識別

    鄭洪浩,于洪濤,李邵梅

    (信息工程大學,河南 鄭州 450002)

    為了提高中文命名實體識別的效果,提出了基于XLNET-Transformer_P-CRF模型的方法,該方法使用了Transformer_P編碼器,改進了傳統(tǒng)Transformer編碼器不能獲取相對位置信息的缺點。實驗結果表明,XLNET-Transformer_P-CRF模型在MSRA、OntoNotes4.0、Resume、微博數(shù)據(jù)集4類數(shù)據(jù)集上分別達到95.11%、80.54%、96.70%、71.46%的1值,均高于中文命名實體識別的主流模型。

    中文命名實體識別;Transformer編碼器;相對位置信息

    1 引言

    命名實體識別(NER, named entity recognition)最早是在1995年11月的MUC-6會議中提出的信息抽取子任務,主要是識別文本中的Entity Name(人名、地名、機構名),Temporal Expressions(日期、時間、持續(xù)時間)和Number Expressions(貨幣、度量衡、百分比表達式)[1]。當前,命名實體識別成為自然語言處理任務的重要組成部分,在智能問答[2]、機器翻譯[3]、信息檢索[4]等復雜的自然語言處理領域發(fā)揮著重要的作用。命名實體識別的基本原理是通過序列標注方法,在對每個字進行標注的基礎上,預測實體的邊界和類型。早期的命名實體識別主要使用基于規(guī)則和字典的方法,該方法效率較低、靈活性差,且往往需要大量的領域知識。

    隨著深度學習技術的發(fā)展及其在自然語言處理領域的廣泛應用,基于深度學習的命名實體識別逐漸成為主流。深度學習技術可以直接將原始文本通過多步的特征抽取、轉換和組合得到一種特征表示,并進一步輸入預測函數(shù)得到實體識別結果[5]。深度學習不需要手工特征提取這一耗時費力的工作,且端到端的學習模式避免了錯誤傳播。

    基于深度學習的命名實體識別模型通??梢苑譃榍度雽印⒕幋a層和輸出層三部分,其中,嵌入層旨在將字詞級別的特征轉化為特征向量,編碼層旨在獲取文本上下文特征,輸出層旨在獲取序列之間的規(guī)則特征并對編碼層輸出的特征向量進行分類[6]。目前,基于深度學習的主流研究是圍繞這三層的功能實現(xiàn)展開的,各個模型的異同也主要體現(xiàn)在這三層的結構上。

    對于編碼層,基于RNN結構的編碼器因其在處理序列類時間流數(shù)據(jù)上的優(yōu)勢被廣泛使用[7-10],但其在結構上存在串行計算、梯度消失(爆炸)[11]和單向建模的問題,這些問題限制了基于RNN結構的編碼器在命名實體識別任務上的效果。Transformer編碼器[12]可以有效地解決基于RNN結構的編碼器存在的3個問題,具體解決方案如下。①Transformer編碼器不同于基于RNN結構的編碼器的串行計算結構,采用了并行計算結構以充分利用計算機的并行計算資源。②Transformer編碼器采用自注意力機制,在結構上消除了梯度消失和梯度爆炸的問題,可以獲取長文本的依賴信息。③Transformer編碼器不同于基于RNN結構的編碼器的雙向拼接,可以實現(xiàn)雙向參數(shù)的統(tǒng)一更新,不會割裂上下文關系。然而,Guo等[13]的研究表明Transformer編碼器直接應用到命名實體識別領域并不會得到有效提升。

    本文對Transformer編碼器在命名實體識別任務上效果較差的現(xiàn)象進行了分析,并提出了具體的改進。Transformer編碼器的功能實現(xiàn)主要源于自注意力機制,自注意力機制是無法從結構上獲取相對位置信息的[14-15],其中相對位置信息主要指字之間的距離和方向信息。然而,相對位置信息在命名實體識別任務中起到了重要的作用,如在句子“華納兄弟創(chuàng)立了華納兄弟公司”中,地點實體通常在“創(chuàng)立了”之后,人名實體通常在“創(chuàng)立了”之前??梢?,字之間的相對位置信息在命名實體識別任務中極為重要。針對該問題,本文對Transformer編碼器嵌入相對位置信息,即通過對注意力機制的擴展,將輸入結構建模成一個含有方向性信息的結構。實驗結果顯示,嵌入相對位置信息的改進有效提升了Transformer模型在命名實體識別任務上的效果,改進后的Transformer編碼器命名為Transformer_P。

    此外,本文對嵌入層模型進行了研究與實驗。傳統(tǒng)的深度學習模型采用Word2vec等模型[16]生成靜態(tài)字向量,靜態(tài)字向量雖然可以攜帶字的簡單語義信息,但是無法表征字的多義性,如在句子“陸軍上校重新校對了作戰(zhàn)方案”中,靜態(tài)字向量對于“?!币蛔侄家怨潭ǖ南蛄縼肀硎荆欢?,前后兩個“?!弊值恼Z義信息截然不同,前者代指一種軍銜,后者代指一種動作,這類一字多義的問題影響了命名實體識別的效果。針對該問題,楊飄等[17]提出了一種用BERT預訓練模型[18]生成的動態(tài)字向量替換靜態(tài)量的方法,實驗表明基于動態(tài)字向量的方法有更好的表現(xiàn)。然而,以下兩個問題會限制BERT的使用效果。一是忽視了訓練時被掩蓋(Mask)掉的符號(token)之間的相關關系;二是訓練時使用掩蓋策略,而實際應用中沒有,造成訓練與實際應用不一致的問題。2019年,Yang等[19]提出XLNET模型,該預訓練語言模型利用自回歸語言模型的天然優(yōu)勢,避免了BERT模型訓練應用不一致和無法獲取token之間相關關系的問題。鑒于此,本文將XLNET模型引入嵌入層以表征字的多義性。綜上所述,為了提升中文命名實體識別的效果,本文改進了傳統(tǒng)Transformer編碼器不能獲取相對位置的缺陷,并提出了基于XLNET-Transformer_P-CRF模型的中文命名實體識別方法。

    2 相關工作

    Transformer是Vaswani等[12]提出的一種利用自注意力機制的編碼器,其編碼層由兩個子層構成,自注意力層和全連接層。與基于RNN結構的編碼器相比,Transformer在結構上并不能直接獲取絕對位置信息和相對位置信息[12,18]。為避免該問題,Vaswani等[12]設計了由不同頻率的正弦編碼組成的位置向量,并采用位置向量與字向量相加的方式嵌入位置信息。本節(jié)對傳統(tǒng)Transformer編碼器的核心模塊自注意力層和位置向量分別進行了介紹。

    2.1 自注意力層

    2.2 位置向量

    對于既不使用卷積也不使用遞歸結構的Transformer來說,在結構上是無法直接獲取位置信息的[20]。Vaswani等[12]的解決方案是使用頻率不同的正弦編碼構建位置向量。

    3 XLNET-Transformer_P-CRF模型

    針對已有方法的不足,本文提出了基于XLNET-Transformer_P-CRF模型的中文命名實體識別方法。如圖1所示,首先文本輸入嵌入層,利用XLNET預訓練模型得到動態(tài)字向量;然后在編碼層,Transformer_P編碼器對XLNET輸出的向量進行編碼,通過嵌入相對位置信息,最大化獲取上下文語義信息;最后,通過輸出層的CRF模型獲取標簽之間的規(guī)則特征,并輸出概率最大的標簽序列。

    圖1 XLNET-Transformer_P-CRF模型

    Figure1 Model of XLNET-Transformer_P-CRF

    與傳統(tǒng)的命名實體識別方法相比,基于XLNET-Transformer_P-CRF模型的方法主要改進在于:將改進后的Transformer_P編碼器替換基于RNN結構的編碼器,解決了基于RNN結構的編碼器存在的串行計算、梯度消失(爆炸)和單向建模的問題。此外,引入了XLNET預訓練模型,該模型是在大規(guī)模無監(jiān)督語料上訓練所得,可以通過上下文計算動態(tài)字向量以表征字的多義性。

    3.1 嵌入層——XLNET

    XLNET是一種可以獲得雙向上下文信息的自回歸語言模型。傳統(tǒng)的自回歸模型采用單向預測,無法獲取雙向信息。XLNET使用排列語言模型來獲取雙向的上下文信息,同時維持自回歸模型原有的單向形式。對于長度為的文本,只有!種不同的排列方式,如果能考慮到所有排列順序的文本,就變相地獲取了雙向上下文信息,其損失函數(shù)的具體公式如下。

    此外,該模型引入了雙流自注意力機制和循環(huán)機制。前者為排列語言模型分離了位置信息與內(nèi)容信息。后者整合了Transformer-XL[14]到預訓練模型中,并將Transformer-XL 中的兩項重要技術(相對位置編碼范式和分割循環(huán)機制)融合進XLNET,使XLNET在處理長文本時具有更強大的優(yōu)勢。

    XLNET預訓練模型與其他的預訓練模型相比,可以充分利用字兩邊的信息,更好地表征字的多義性。

    3.2 編碼層——Transformer_P

    本節(jié)對傳統(tǒng)Transformer編碼器的位置嵌入方式進行分析,并針對其不能獲取相對位置信息的缺陷做出了具體改進。

    本文假設距離過長的相對位置信息對于命名實體的識別來說并不會起到信息增益的效果,反而會帶來噪聲。本文將相對位置的最大距離設置為。

    3.3 輸出層——CRF

    本文模型中的輸出層采用主流的CRF,通過標簽之間的依賴關系獲得全局最優(yōu)標簽序列[23]。CRF的步驟如下。

    4 實驗和結果分析

    4.1 訓練方法

    在訓練中,實驗采用反向傳播算法更新全部參數(shù)(包括對XLNET模型的微調(diào))。同時,實驗采用了隨機梯度下降和動量聯(lián)合的方法優(yōu)化損失函數(shù),其中,學習率更新采用三角法[24]。

    對于嵌入層,實驗選取了哈爾濱工業(yè)大學訊飛聯(lián)合實驗室在5.4 B詞數(shù)的百科、新聞、問答類數(shù)據(jù)上訓練而成的XLNET模型,該模型共包含24層、768個隱層、12頭注意力,2.09×108個參數(shù)。

    4.2 數(shù)據(jù)

    (1)數(shù)據(jù)集

    實驗共選取了4個來源多樣的中文數(shù)據(jù)集,其中,MSRA、OntoNotes4.0主要來源于新聞行業(yè),Resume數(shù)據(jù)集來自簡歷摘要,微博數(shù)據(jù)集主要來自社交媒體。

    ①MSRA數(shù)據(jù)集[25]是微軟公開的數(shù)據(jù)集,包含人名、機構名、地名3類實體。

    ②OntoNotes4.0[26]是一個多語言的大型數(shù)據(jù)集,本文實驗只選取了其中的中文數(shù)據(jù)部分。

    ③Resume數(shù)據(jù)集[27]是中文簡歷數(shù)據(jù)集,包含國家、教育機構、地點、人名、組織名、職業(yè)、民族、職務等8類實體。

    ④微博數(shù)據(jù)集[28]是社交媒體類數(shù)據(jù)集,共包含地緣政治、人名、地名和組織名4類實體。

    數(shù)據(jù)集詳細信息如表1所示。

    (2)標注規(guī)則

    實驗采用BMES標注規(guī)則,其中“B”表示一個實體的開始位置,“M”表示一個實體的中間位置,“E”表示一個實體的末尾位置,“S”表示一個單獨的實體。

    4.3 對比實驗

    實驗一 Transformer_P編碼器有效性驗證

    為了驗證Transformer_P編碼器在中文命名實體識別任務上的有效性,本部分在4類數(shù)據(jù)集上進行了Transformer_P編碼器與其他編碼器的對比實驗,采用的指標為1值。為控制實驗變量,嵌入層統(tǒng)一使用Word2vec模型,輸出層統(tǒng)一使用CRF模型。

    如表2所示,在MSRA、OntoNotes4.0、Resume和微博4類數(shù)據(jù)集上,基于Transformer編碼器的模型取得的1值均不如基于RNN結構編碼器的模型。在加入了相對位置信息之后,基于Transformer_P編碼器的模型在4類數(shù)據(jù)集上的1值有明顯提升,分別高于基于傳統(tǒng)Transformer編碼器的模型的1值2.68%、5.81%、1.57%、5.82%。基于Transformer編碼器的模型除在微博數(shù)據(jù)集上達到次好的1值以外,在MSRA、Onto Notes4、Resume三類數(shù)據(jù)集上達到了最高的1值。Transformer_P編碼器在微博數(shù)據(jù)集上未達到最高1值的原因主要是:微博數(shù)據(jù)集中數(shù)據(jù)較少,致使Transformer_P編碼器的參數(shù)無法全部收斂,限制了效果。

    表1 中文命名實體識別數(shù)據(jù)集詳細信息

    表2 Transformer_P編碼器與其他編碼器的F1值對比結果

    綜上所述,Transformer_P編碼器被證明是有效的,對傳統(tǒng)Transformer編碼器進行嵌入相對位置信息的改進后,可以更有效地獲取上下文信息。

    實驗二 XLNET-Transformer_P-CRF模型的有效性驗證

    為驗證本文所提模型XLNET-Transformer_P- CRF的有效性,實驗在4類數(shù)據(jù)集上進行了本文所提模型與主流模型的對比實驗,采用的指標為召回率、精確率和1值,其中,Max指獲取最佳效果時,相對位置的最大距離。

    如表3所示,在MSRA數(shù)據(jù)集上,Chen等[29]、Zhang等[30]和Zhou等[31]做了大量的特征工程,是該數(shù)據(jù)集上表現(xiàn)較好的統(tǒng)計模型。Dong等[32]使用BILSTM-CRF模型和字符特征進行實體識別,相對于詞級特征的實體識別,效果顯著提升。Zhang等[27]、Sui等[33]和Li等[34]使用了字詞融合的方式提升中文命名實體識別的效果。通過比較,本文模型在MSRA數(shù)據(jù)集上達到了最好的效果,1值高于次好的模型0.76%。

    表3 MSRA數(shù)據(jù)集上的各指標對比結果

    如表4所示,在OntoNotes4.0數(shù)據(jù)集上,實驗將本文模型和基于該數(shù)據(jù)集效果最佳的中文命名實體識別模型進行比較。Wang等[35]采用一種有效利用雙語數(shù)據(jù)半監(jiān)督學習的方法,在該數(shù)據(jù)集上獲得了74.32%1值的效果。Che等[36]采用將不同語言的約束信息提高中文命名實體識別的效果,相對于基線效果,1值提升了近5%。Yang等[37]在文獻[36]的基礎上,豐富了輸入特征,提升了命名實體識別的效果。Zhang等[27]、Sui等[33]和Li等[34]使用了字詞融合的方式提升中文命名實體識別的效果。通過比較,本文模型在OntoNotes4.0數(shù)據(jù)集上達到了最好的效果,1值高于次好的模型4.84%。

    表4 OntoNotes4.0數(shù)據(jù)集上的各指標對比結果

    如表5所示,在Resume數(shù)據(jù)集上,Zhang等[27]將詞典信息與字向量通過LSTM網(wǎng)絡相融合,在訓練中統(tǒng)一更新權重,有效解決了字詞融合的問題。在此基礎上,Liu等[38]利用了4種不同的策略來將單詞信息編碼為固定大小的矢量,使其可以分批訓練并適應各種應用場景。Gui等[39]提出對圖節(jié)點進行分類,從而實現(xiàn)序列標注。Li等[34]使用了Transformer的自注意機制使字符能夠直接與潛在的單詞交互,實現(xiàn)更好的字詞融合效果。通過比較,本文模型在Resume數(shù)據(jù)集上達到了最好的效果,1值高于次好的模型1.77%。

    表5 Resume數(shù)據(jù)集上的各指標對比結果

    如表6所示,在微博數(shù)據(jù)集中,Peng等[28]、He等[40]、Zhang等[27]3種效果較佳的命名實體識別模型分別利用了豐富輸入特征、多領域特征和半監(jiān)督方法獲得數(shù)據(jù)、字詞融合特征的方法。Sui等[33]提出一種字符級的協(xié)作圖神經(jīng)網(wǎng)絡,全方位獲得詞語信息。Li等[34]將所有字符與自匹配詞直接交互,利用了潛在的單詞信息。通過比較,本文模型在微博數(shù)據(jù)集上達到了最好的效果,1值高于次好的模型8.04%。

    表6 微博數(shù)據(jù)集上的各指標對比結果

    從表3~表6可以看出,與現(xiàn)有的方法相比,本文提出的基于XLNET-Transformer_P-CRF模型的方法更具有競爭力,在4類數(shù)據(jù)集上都達到了最好的效果。因此,該方法被證明是十分有效的。Transformer_P編碼器采用自注意力機制,與同樣基于自注意力機制的預訓練語言模型XLNET相結合,可以更為顯著地提高中文命名實體識別的效果。

    5 結束語

    本文提出了基于XLNET-Transformer_P-CRF深度學習模型方法。與傳統(tǒng)的方法相比,本文創(chuàng)新點體現(xiàn)在對Transformer編碼器進行改進,克服了Transformer編碼器不能獲得相對位置關系的缺陷。實驗表明,本文方法具有有效性,在4類數(shù)據(jù)集上都達到了最好的效果。

    根據(jù)實驗發(fā)現(xiàn),Transformer_P編碼器參數(shù)量大、對數(shù)據(jù)的依賴性強,在小數(shù)據(jù)集中效果一般。因此,后續(xù)需要研究如何在保證模型效果的前提下,減少模型的參數(shù)。

    [1] GRISHMAN R, SUNDHEIM B. Message understanding conference-6: a brief history[C]//International Conference on Computational Linguistics, 1996: 466-471.

    [2] PIZZATO L A, MOLLA D, PARIS C. Pseudo relevance feedback using named entities for question answering[C]//Proceedings of the 2006 Australian Language Technology Workshop (ALTW-2006). 2006: 89-90.

    [3] BABYCH B, HARTLEY A. Improving machine translation quality with automatic named entity recognition[C]//Proceedings of the 7th International EAMT Workshop on MT and other Language Technology Tools, Improving MT Through other Language Technology Tools: Resources and Tools for Building MT, Association for Computational Linguistics. 2003: 1-8.

    [4] MANDL T, WOMSER-HACKER C. The effect of named entities on effectiveness in cross-language information retrieval evaluation[C]//Proceedings of the 2005 ACM Symposium on Applied Computing. 2005: 1059-1064.

    [5] 邱錫鵬. 神經(jīng)網(wǎng)絡與深度學習[M]. 北京: 機械工業(yè)出版社,2020.

    QIU X P, Neural networks and deep learning[M]. Beijing: China Machine Press, 2020.

    [6] LI J, SUN A, HAN J, et al. A survey on deep learning for named entity recognition[J]. IEEE Transactions on Knowledge and Data Engineering, 2020: 1.

    [7] HAMMERTON J. Named entity recognition with long short-term memory[C]//North American Chapter of the Association for Computational Linguistics. 2003: 172-175.

    [8] HUANG Z, XU W, YU K, et al. Bidirectional LSTM-CRF models for sequence tagging[J]. arXiv: Computation and Language, 2015.

    [9] MA X, HOVY E. End-to-end sequence labeling via bi-directional LSTM-CNNs-CRF[J]. arXiv: Learning, 2016.

    [10] CHIU J P, NICHOLS E. Named entity recognition with bidirectional LSTM-CNNs[J]. Transactions of the Association for Computational Linguistics, 2016, 4(1): 357-370.

    [11] BENGIO Y, SIMARD P Y, FRASCONI P, et al. Learning long-term dependencies with gradient descent is difficult[J]. IEEE Transactions on Neural Networks, 1994, 5(2): 157-166.

    [12] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]//Neural Information Processing Systems. 2017: 5998-6008.

    [13] GUO Q P , QIU X P, LIU P F, et al. Star transformer[C]//NAACL. 2019: 1315-1325.

    [14] DAI Z, YANG Z, YANG Y, et al. Transformer-XL: attentive language models beyond a fixed-length context[J]. arXiv: Learning, 2019.

    [15] HUANG A, VASWANI A, USZKOREIT J, et al. Music transformer: generating music with long-term structure[C]//International Conference on Learning Representations, 2019.

    [16] MIKOLOV T, CHEN K, CORRADO G S, et al. Efficient estimation of word representations in vector space[C]//International Conference on Learning Representations. 2013.

    [17] 楊飄, 董文永. 基于BERT嵌入的中文命名實體識別方法[J]. 計算機工程, 2020, 46(04): 40-45, 52.

    YANG P, DONG W Y. Chinese NER based on BERT embedding[J]. Computer Engineering, 2020, 46(4): 40-45, 52.

    [18] DEVLIN J, CHANG M, LEE K, et al. BERT: pre-training of deep bidirectional transformers for language understanding[J]. arXiv: Computation and Language, 2018.

    [19] YANG Z, DAI Z, YANG Y, et al. XLNet: generalized autoregressive pretraining for language understanding[J]. arXiv: Computation and Language, 2019.

    [20] PARIKH A P, TACKSTROM O, DAS D, et al. A decomposable attention model for natural language inference[C]//Empirical Methods in Natural Language Processing. 2016: 2249-2255.

    [21] YAN H, DENG B, LI X, et al. TENER: adapting transformer encoder for named entity recognition[J]. arXiv: Computation and Language, 2019.

    [22] SHAW P, USZKOREIT J, VASWANI A, et al. SELF-attention with relative position representations[C]//North American Chapter of the Association for Computational Linguistics. 2018: 464-468.

    [23] LAFFERTY J, MCCALLUM A, PEREIRA F, et al. Conditional random fields: probabilistic models for segmenting and Labeling Sequence Data[C]//International Conference on Machine Learning. 2001: 282-289.

    [24] SMITH L N. Cyclical learning rates for training neural networks[C]//Workshop on Applications of Computer Vision, 2017: 464-472.

    [25] LEVOW G. The third international chinese language processing Bakeoff: word segmentation and named entity recognition[C]// Meeting of the Association for Computational Linguistics. 2006: 108-117.

    [26] Ralph Weischedel. Ontonotes release 4.0 LDC2011T03[S]. 2011.

    [27] ZHANG Y, YANG J. Chinese NER using lattice LSTM[C]//Meeting of the Association for Computational Linguistics. 2018: 1554-1564.

    [28] PENG N, DREDZE M. Named entity recognition for chinese social media with jointly trained embeddings[C]//Empirical Methods in Natural Language Processing. 2015: 548-554.

    [29] CHEN A, PENG F, SHAN R, et al. Chinese named entity recognition with conditional probabilistic models[C]//Meeting of the Association for Computational Linguistics. 2006: 173-176.

    [30] ZHANG S, QIN Y, WEN J, et al. Word segmentation and named entity recognition for SIGHAN Bakeoff3[C]//Meeting of the Association for Computational Linguistics. 2006: 158-161.

    [31] ZHOU J S, QU W G, ZHANG F. Chinese named entity recognition via joint identification and categorization[J]. Chinese Journal of Electronics, 2013, 22(2): 225-230.

    [32] DONG C H, ZHANG J J, ZONG C Q. Character based LSTM-CRF with radical-level features for Chinese named entity recognition[C]//International Conference on Computer Processing of Oriental Languages. 2016: 239-250.

    [33] SUI D, CHEN Y, LIU K, et al. Leverage lexical knowledge for chinese named entity recognition via collaborative graph network[C]//International Joint Conference on Natural Language Processing. 2019: 3828-3838.

    [34] QIU X P, LI X N, YAN H. Flat chinese ner using flat-lattice transformer[C]//Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. 2020: 6836-6842.

    [35] WANG M, CHE W, MANNING C D, et al. Effective bilingual constraints for semi-supervised learning of named entity recognizers[C]//National Conference on Artificial Intelligence. 2013: 919-925.

    [36] CHE W, WANG M, MANNING C D, et al. Named entity recognition with bilingual constraints[C]//North American Chapter of the Association for Computational Linguistics. 2013: 52-62.

    [37] YANG J, ZHANG Y, DONG F, et al. Neural word segmentation with rich pretraining[C]//Meeting of the Association for Computational Linguistics. 2017: 839-849.

    [38] LIU W, XU T, XU Q, et al. An encoding strategy based word-character LSTM for chinese NER[C]//North American Chapter of the Association for Computational Linguistics. 2019: 2379-2389.

    [39] GUI T, ZOU Y, ZHANG Q, et al. A lexicon-based graph neural network for chinese NER[C]//International Joint Conference on Natural Language Processing. 2019: 1040-1050.

    [40] HE H, SUN X. A unified model for cross-domain and semi-supervised named entity recognition in chinese social media[C]//National Conference on Artificial Intelligence. 2017: 3216-3222.

    Chinese NER based on improved Transformer encoder

    ZHENG Honghao, YU Hongtao, LI Shaomei

    Information Engineering University, Zhengzhou 450002, China

    In order to improve the effect of chinese named entity recognition, a method based on the XLNET-Transformer_P-CRF model was proposed, which used the Transformer_Pencoder, improved the shortcomings of the traditional Transformer encoder that couldn’t obtain relative position information. Experiments show that the XLNET-Transformer_P-CRF model achieves 95.11%, 80.54%, 96.70%, and 71.46%1 values on the four types of data sets: MSRA, OntoNotes4.0, Resume, and Weibo, which are all higher than other mainstream chinese NER model.

    Chinese named entity recognition, Transformer encoder, relative position information

    TP391

    A

    10.11959/j.issn.2096?109x.2021041

    2020?08?13;

    2020?12?25

    鄭洪浩,1140820290@qq.com

    國家自然基金青年基金(62002384),國家重點研發(fā)計劃(2016QY03D0502),鄭州市協(xié)同創(chuàng)新重大專項(162/32410218)

    The National Natural Science Foundation of China (62002384), The National Key R&D Program of China (2016QY03D0502), Major Collaborative Innovation Projects of Zhengzhou (162/32410218)

    鄭洪浩, 于洪濤, 李邵梅. 基于改進的Transformer編碼器的中文命名實體識別[J]. 網(wǎng)絡與信息安全學報, 2021, 7(5): 105-112.

    ZHENG H H, YU H T, LI S M. Chinese NER based on improved Transformer encoder[J]. Chinese Journal of Network and Information Security, 2021, 7(5): 105-112.

    鄭洪浩(1992? ),男,山東濟寧人,信息工程大學碩士生,主要研究方向為命名實體識別、關系抽取。

    于洪濤(1970? ),男,遼寧丹東人,博士,信息工程大學研究員,主要研究方向為大數(shù)據(jù)與人工智能。

    李邵梅(1982? ),女,湖北鐘祥人,博士,信息工程大學副研究員,主要研究方向為計算機視覺。

    猜你喜歡
    集上編碼器命名
    命名——助力有機化學的學習
    Cookie-Cutter集上的Gibbs測度
    鏈完備偏序集上廣義向量均衡問題解映射的保序性
    基于FPGA的同步機軸角編碼器
    有一種男人以“暖”命名
    東方女性(2018年3期)2018-04-16 15:30:02
    為一條河命名——在白河源
    散文詩(2017年17期)2018-01-31 02:34:08
    復扇形指標集上的分布混沌
    基于PRBS檢測的8B/IOB編碼器設計
    JESD204B接口協(xié)議中的8B10B編碼器設計
    電子器件(2015年5期)2015-12-29 08:42:24
    多總線式光電編碼器的設計與應用
    宁晋县| 西畴县| 宜兰市| 平昌县| 荆门市| 临湘市| 西城区| 湘乡市| 理塘县| 榆林市| 弥渡县| 阜平县| 韩城市| 四子王旗| 保山市| 肥西县| 彭泽县| 枣阳市| 景东| 肃南| 乌拉特中旗| 徐水县| 灵璧县| 自贡市| 淳安县| 和顺县| 突泉县| 贵州省| 皋兰县| 綦江县| 徐州市| 登封市| 荔浦县| 德保县| 思茅市| 中卫市| 高阳县| 宁强县| 宜城市| 和政县| 灵川县|