• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于深度學習的命名實體識別研究

    2022-07-07 08:19:48冀振燕孔德焱桑艷娟
    計算機集成制造系統(tǒng) 2022年6期
    關鍵詞:字符實體標簽

    冀振燕,孔德焱,劉 偉,董 為,桑艷娟

    (1.北京交通大學 軟件學院,北京 100044; 2.中國科學院 軟件研究所,北京 100190; 3.中科藍智(武漢)科技有限公司,湖北 武漢 430079)

    0 引言

    隨著先進制造業(yè)領域的高速發(fā)展,制造業(yè)復雜產(chǎn)品的全流程數(shù)據(jù)呈指數(shù)級增長,如何在海量的制造全流程數(shù)據(jù)中挖掘出有價值的信息成為制造業(yè)領域的一個熱點研究問題,而命名實體識別(Named Entity Recognition, NER)[1]技術是先進制造業(yè)領域文本挖掘的關鍵環(huán)節(jié)。先進制造業(yè)領域中可以很容易獲取語料,然而由于從業(yè)人員在技術背景、專業(yè)知識、工作經(jīng)驗等方面各不相同,對同一實體對象的描述以及同一業(yè)務活動的理解、描述不盡相同。目前在工程建設方面已經(jīng)積累了大量的寶貴經(jīng)驗、知識素材和知識原料,而且這些知識原料還在不斷更新和迭代,特別是隨著一些領域的迅速發(fā)展,會出現(xiàn)海量非標準化表達的新詞和熱詞,使得知識的應用效果大打折扣,無法有效支撐專業(yè)人員進行有效的知識搜索與應用。因此,如何有效地發(fā)現(xiàn)新實體,如何在有限的帶標簽數(shù)據(jù)的情況下實現(xiàn)高準確率、高覆蓋率的NER,如何有效解決知識原料產(chǎn)生者與使用者之間對同一實體理解與描述的偏差,在先進制造業(yè)領域仍然是亟待解決的問題。

    NER是信息抽取、知識圖譜構建等領域的核心環(huán)節(jié),旨在從復雜的結構化、非結構化和半結構化數(shù)據(jù)中抽取特定類型的實體,如人名、地名、組織機構名等,并對這些具有特定意義的實體進行歸類。命名實體[1]這一術語首次在第六屆信息理解會議(Message Understanding Conference 6, MUC-6)上被提出,用于識別文本中的組織名稱、人員名稱和地理位置,以及貨幣、時間和百分比表達式。自MUC-6以來,人們對NER的興趣日益濃厚,各種國際評測會議(如CoNLL03,ACET,REC Entity Track)都對該主題進行了大量研究。

    在NER中應用的技術主要有基于規(guī)則的方法、基于統(tǒng)計學習的方法和基于深度學習的方法3類?;谝?guī)則的NER方法需要領域?qū)<腋鶕?jù)語義和語法規(guī)則等構造出實體識別規(guī)則模板,規(guī)則可以基于特定領域的詞典[2-10]和語法—詞匯模式設計[11],但是由領域?qū)<叶x,因此面對復雜且不規(guī)則的文本,不同構造規(guī)則之間會產(chǎn)生沖突,領域之間很難進行復用?;诮y(tǒng)計學習的方法是在大數(shù)據(jù)的基礎上將統(tǒng)計學習方法應用到機器學習中,并通過人工精心挑選和設計的特征來表示每個訓練示例,從而識別出隱藏在數(shù)據(jù)中的相似模式。特征提取在有監(jiān)督的NER系統(tǒng)中至關重要,良好的人工特征可以有效提高NER效果。基于特征的機器學習算法已廣泛用于NER,包括隱馬爾科夫模型(Hidden Markov Model, HMM)[12]、最大熵(Maximum Entropy, ME)模型[13]、支持向量機(Support Vector Machine, SVM)[14-15]、決策樹(Decision Tree, DT)[16]和條件隨機場(Conditional Random Fields, CRF)[17-24]。

    基于深度學習的NER方法[25]是以端到端的方式從原始輸入中自動發(fā)現(xiàn)隱藏特征,不依賴人工構造的特征?,F(xiàn)有基于深度學習的NER方法的相關綜述主要分析總結了基于卷積神經(jīng)網(wǎng)絡(Convolutional Neural Networks, CNN)、循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network, RNN)及其變體的NER方法,未體現(xiàn)基于其他深度神經(jīng)網(wǎng)絡的NER方法,本文通過分析最新的高引用文獻,對基于CNN、RNN、預訓練語言模型、Transformer、圖神經(jīng)網(wǎng)絡(Graph Neural Networks, GNN)以及其他聯(lián)合抽取框架的NER方法進行了全面總結分析,并從分布式輸入表示、上下文編碼和標簽解碼器3個步驟進行闡述。

    1 基于深度神經(jīng)網(wǎng)絡的命名實體識別方法

    深度神經(jīng)網(wǎng)絡[25]可以通過非線性變換從數(shù)據(jù)中自動發(fā)現(xiàn)隱藏特征,其因不依賴人工構造的特征而節(jié)省了成本。目前,基于深度學習的方法已成為NER領域的主流,主要分為分布式輸入表示、上下文編碼和標簽解碼器3個步驟[26]。分布式輸入表示旨在自動學習文本,獲得單詞的語義和句法特征,為上下文編碼器提供低維實值密集向量輸入;文本上下文編碼采用CNN,RNN,Transformer,GNN等提取上下文依賴關系;標簽解碼器是對上下文編碼輸出的向量進一步解碼,從而獲取最佳標簽序列,常見的標簽解碼器有CRF、RNN、指針網(wǎng)絡等?;谏疃壬窠?jīng)網(wǎng)絡的NER基本框架如圖1所示。

    1.1 分布式輸入表示

    分布式輸入表示代表低維實值密集向量中的單詞,其中每個維度表示一個潛在特征。分布式輸入表示從文本中自動學習,捕獲單詞的語義和句法屬性。主流的分布式輸入表示分為詞級別向量表示、字符級別向量表示以及融合兩種方式和詞典信息的混合向量表示。

    1.1.1 詞級別表示

    有監(jiān)督的NER模型訓練需要大量人工標記數(shù)據(jù),數(shù)據(jù)標注成本較高,可通過無監(jiān)督算法預訓練大量未標記數(shù)據(jù),學習到單詞表示來提高小型領域數(shù)據(jù)集上的有監(jiān)督NER模型的訓練效率。常見的詞向量表示模型有Skip-gram模型[27]、連續(xù)詞袋模型(Continuous Bag of Words, CBOW)[27]、Word2Vec[28]、Glove[29]、fastText[30]。

    這些預訓練詞向量嵌入方法十分有效。LAMPLE等[31]提出的NER的神經(jīng)體系結構采用skip-n-gram[32]預訓練的詞向量初始化查找表,與隨機初始化詞嵌入相比效果提升顯著;MALIK[33]采用CBOW模型訓練烏爾都語單詞向量用于烏爾都語NER和分類,顯著提升了識別和分類效果;KANWAL等[34]分別采用Word2Vec,Glove,fastText 3種方式生成烏爾都語詞向量,實驗表明Word2Vec的表現(xiàn)優(yōu)于fastText和Glove;CETOLI等[35]提出的基于圖卷積網(wǎng)絡的NER方法,將Glove詞向量、詞性標簽POS(part-of-speech tagging)、文本形態(tài)信息嵌入特征向量,避免出現(xiàn)僅用詞嵌入無法有效處理詞匯表外單詞的情況;RONRAN等[36]研究了Glove,fastText詞向量嵌入對提高NER性能的影響,實驗表明,在CoNLL2003數(shù)據(jù)集上采用Glove詞向量嵌入方式對實體識別性能的提升效果更佳。另外,fastText[37],Word2Vec[38]也廣泛用于領域NER任務。

    1.1.2 字符級別表示

    對比詞級別的向量表示,字符級別的向量表示可推斷詞表外的單詞表示,有效解決詞匯量限制問題,并可提供單詞形態(tài)信息,如前綴、后綴、時態(tài)等,還可提高模型訓練速度。缺點在于缺少詞級別語義信息和邊界信息,如字符“吉”和詞“吉他”,顯然詞“吉他”可為模型提供更好的先驗知識,另外變長的輸入序列會降低計算速度。

    目前,字符級別表示提取的模型主要有基于CNN的模型(如圖2)和基于RNN的模型(如圖3)兩類。KIM等[39]提出字符級CNN模型,利用子詞信息消除對形態(tài)標記或人工特征的需要,并可生成新單詞;MA等[40]提出的雙向LSTM-CNNs-CRF模型和RONRAN等[36]提出的基于單詞和字符特征的兩層雙向LSTM-CRF模型,采用CNN卷積層對分類后的字符特征編碼,然后采用最大池化層獲得單詞特征表示。研究表明,CNN可從單詞字符中有效提取形態(tài)信息(如單詞前綴或后綴),并將其編碼成向量表示。

    為了更好地捕獲上下文信息,LAMPLE等[31]和SUI等[41]通過雙向長短期記憶(Long Short-Term Memory, LSTM)網(wǎng)絡連接從左到右和從右到左的LSTM隱式狀態(tài),獲得上下文表示;REI等[42]采用門控機制將字符級表示與詞嵌入結合,動態(tài)確定使用嵌入向量中的信息量;TRAN等[43]提出具有堆疊殘差LSTM和可訓練偏置解碼的NER模型,通過詞級和字符級RNN提取詞特征。

    1.1.3 混合表示

    字符級NER方法的準確率不但高于單詞級NER方法,而且還有很大提升空間。因此,很多學者對字符特征向量表示進行改進,添加單詞信息特征、字典信息特征、部首特征、詞匯相似性等附加特征,以增強文本中命名實體間的相關性,提高模型效率(如圖4)。

    ZHANG等[44]提出Lattice LSTM方法,首次將詞典和詞向量信息引入字符級LSTM模型,有效提升了識別性能,但是存在信息損失、可遷移性差和不能并行化的問題;GUI等[45]提出LR-CNN模型,采用CNN替代RNN解決不能并行計算的問題,同時采用rethinking機制增加feedback layer調(diào)整詞匯信息權值,并引入注意力機制以更好融入詞匯信息,提高了模型效率;MA等[46]提出一種將詞匯信息融入字符向量表示的簡潔有效方法,與其他引入詞匯信息方法相比性能更好、推理速度更快,且便于遷移到其他序列標注框架。

    LIU等[47]提出一種單詞字符LSTM模型,將單詞信息附加到其相關字符上,獲取單詞邊界信息并減輕分詞錯誤的影響。由于一個字符可能對應多個詞,設計4種編碼策略將不同的詞嵌入映射到一個固定長度向量中用于批量訓練。為了獲取更多詞匯語義和邊界特征,HU等[48]提出一個基于二階詞典知識(Second-order Lexicon Knowledge,SLK)的模型,基于全局語境挖掘更多的可識別詞匯信息,通過注意力機制融合詞匯知識緩解詞邊界沖突問題。TANG等[49]提出一種單詞—字符圖卷積網(wǎng)絡來充分利用隱藏在中文NER外部詞典中的單詞信息,將雙向單詞—字符有向無環(huán)圖作為模型輸入,提高了訓練速度。SETI等[50]提出一種基于圖卷積網(wǎng)絡的體育領域NER方法,其中兩層圖卷積網(wǎng)絡用于提取文本中命名實體的字符特征和內(nèi)部結構信息,輸入特征表示層將字符信息與單詞向量信息結合,有效挖掘了體育文本的深層抽象特征和全局語義信息。

    漢字是象形文字,不同字符中的相同語言成分通常具有相同的含義。MENG等[51]提出基于漢字表示的字形向量Glyce,將漢字視為圖像,采用CNN提取字符語義,并將字形嵌入向量表示與BERT(bidirectional encoder representation from transformers)嵌入向量表示融合在一起,作為中文NER的輸入表示。融合后的輸入表示賦予了模型字形信息和大規(guī)模預訓練信息。類似地,LEE等[52]集成了從部首、字符到單詞級別不同粒度的多個嵌入,以擴展字符表示;AKBIK等[53]提出一種上下文字符串嵌入方法,利用預訓練的字符級語言模型提取每個單詞的開頭和結尾字符位置的隱藏狀態(tài),以在句子上下文中嵌入任何字符串。然而,由于沒有上下文的少見字符串難以有意義地嵌入,AKBIK等[54]進一步提出可以動態(tài)聚合每個唯一字符串的上下文嵌入方法,即Pooled Contextualized Embeddings,有效解決了該問題。

    1.2 上下文編碼

    目前,NER上下文編碼器有CNN、RNN、預訓練語言模型、Transformer和圖神經(jīng)網(wǎng)絡。

    1.2.1 卷積神經(jīng)網(wǎng)絡

    基于CNN的NER模型可自動提取單詞上下文的局部特征,并行計算效率高,然而存在難以處理長距離依賴問題,以及優(yōu)先考慮文本局部特征導致大量信息丟失的問題。因此,很多學者對CNN結構進行改進,以捕獲更多的上下文信息。ZHAO等[55]將NER轉(zhuǎn)換為簡單的詞級別多分類任務,提出一種基于多標簽卷積神經(jīng)網(wǎng)絡(Multiple label Convolutional Neural Network, MCNN)的疾病NER方法;STRUBELL等[56]提出基于迭代空洞卷積的、快速準確的實體識別方法,以損失部分信息為代價擴大卷積核的感受野,使模型捕獲更多上下文信息,同時提高了計算效率。

    針對CNN難以捕獲序列中長距離上下文信息的問題,CHEN等[57]提出一個基于CNN的門控關系網(wǎng)絡(Gated Relation Network, GRN),與CNN相比具有更強大的捕獲全局上下文信息的能力,而且可在整個句子中執(zhí)行并行計算;YAN等[58]應用門控機制構建了一個基于Resnet和擴張殘差網(wǎng)絡(Dilated Residual Networks, DRN)的混合堆疊深度神經(jīng)塊,以更寬的視野捕捉更多局部特征。

    1.2.2 循環(huán)神經(jīng)網(wǎng)絡

    基于RNN的模型在序列數(shù)據(jù)建模方面表現(xiàn)出色,特別是雙向RNN可有效利用特定時間范圍內(nèi)的信息。因為采用線性序列結構編碼導致無法進行并行計算,大量非實體詞信息參與實體識別過程也阻礙了重要實體特征信息的獲取,所以很多學者通過改進RNN變體[59](LSTM/GRU(gated recurrent unit))的結構或添加注意力機制[60]來緩解上述問題。PEI等[61]在雙向LSTM-CRF框架中添加注意力機制,以增強文本中關鍵特征的權重;RONRAN等[36]提出兩層雙向LSTM-CRF模型,在不使用任何詞典的情況下,在綜合評價指標F值(F-measure)上取得了91.10%的成績。類似地,SETI等[50]采用雙向LSTM作為上下文編碼層,采用自注意力機制模型捕獲文本的全局語義信息,減少層與層之間語義信息傳遞的累積誤差,增強文本中命名實體之間的相關性;DENG等[62]提出一種基于自注意的雙向門控遞歸單元(BiGRU)和膠囊網(wǎng)絡(CapsNet),在不依賴外部字典信息的情況下具有更好的性能;ALSAARAN等[63]提出一種基于BERT-BGRU的阿拉伯NER方法,該方法在ANERCorp數(shù)據(jù)集和合并的ANERCorp和AQMAR數(shù)據(jù)集上表現(xiàn)最優(yōu)。

    1.2.3 神經(jīng)語言模型

    前述深度學習方法依賴大量的標注數(shù)據(jù)訓練,成本高且易出現(xiàn)人為錯誤,而神經(jīng)語言模型采用無監(jiān)督學習進行預訓練,有效解決了標注數(shù)據(jù)缺乏的問題。

    PARVEZ等[64]構建了一個基于LSTM-base的語言模型,通過將其分解為兩個實體類型模型和實體復合模型來學習候選詞的概率分布;PETERS等[65]提出一種語言模型增強序列標記器,采用預訓練的神經(jīng)語言模型擴充序列標簽模型中的標記表示,并嵌入CRF-biLSTM模型;LIU等[66]提出基于知識增強的語言模型(Knowledge-Augmented Language Model, KALM),利用知識庫中可用信息和門控機制增強傳統(tǒng)語言模型,通過模型中隱藏的實體類型信息,以完全無監(jiān)督的方式識別命名實體。

    1.2.4 Transformer

    預訓練語言模型適用于NER,如BERT[67]及其變體RoBERTa[68],ALBERT[69],T5[70],是基于雙向Transformer架構的大規(guī)模神經(jīng)網(wǎng)絡,其以無監(jiān)督方式采用開放數(shù)據(jù)集進行訓練。SUN等[71]提出一個大規(guī)模預處理的中文自然語言處理模型ChineseBERT,該模型利用漢字的字形和拼音信息來增強文本的語義信息,從表面字符形式中捕捉上下文語義并消除漢語復音字符歧義;ZHU等[72]將詞典信息融合到中文BERT中,提出一種Lex-BERT模型,采用特殊標記識別句子中單詞的邊界,修改后的句子將由BERT直接編碼。

    LI等[73]提出以BERT為主干的統(tǒng)一的機器閱讀理解(Machine Reading Comprehension, MRC)NER框架,通過微調(diào)模型即可處理重疊或嵌套的實體;LIANG等[74]提出BERT輔助的遠程監(jiān)督開放域NER方法,首次利用預訓練的語言模型(ELMo[75],BERT[67],XLnet[76])實現(xiàn)遠程監(jiān)督的開放域NER;XUE等[77]提出一個NER特有的從粗到細實體知識增強(Coarse-to-Fine Entity knowledge Enhanced, CoFEE)的預訓練框架,將從粗到細自動挖掘的實體知識注入BERT預訓練模型。該框架分為3個階段,即通過實體跨度識別任務預熱模型、利用基于地名錄的遠程監(jiān)督策略訓練模型提取粗粒度實體類型、通過聚類挖掘細粒度的命名實體知識。LI等[78]引入一個平面點陣Transformer(Flat-Lattice-Transformer, FLAT)來融合中文NER的詞匯信息,將點陣結構轉(zhuǎn)換成一組跨度,引入特定位置的編碼,避免了詞匯信息損失并提高了性能。

    1.2.5 圖神經(jīng)網(wǎng)絡

    基于圖神經(jīng)網(wǎng)絡的NER模型適合處理圖結構數(shù)據(jù),如文檔間的結構信息、層次分類和依賴樹。

    GUI等[79]提出具有全局語義的基于詞典的圖神經(jīng)網(wǎng)絡(Lexicon-based Graph Neural network, LGN),其將詞典知識與相關字符連接來捕獲局部特征,用全局中繼節(jié)點捕獲全局句子語義和長距離依賴,可有效解決中文詞歧義問題;CETOLI等[35]提出基于圖卷積網(wǎng)絡的NER方法,采用雙向圖卷積網(wǎng)絡(Graph Convolutional Network, GCN)提升雙向LSTM的性能;TANG等[49]提出單詞—字符GCN,采用交叉GCN塊同時處理兩個方向的單詞—字符有向無環(huán)圖,并結合自注意力網(wǎng)絡排除圖中的瑣碎信息,其操作可在所有節(jié)點上并行。針對中文NER缺乏實體邊界分隔空間的問題,LEE等[52]提出基于多嵌入增強多圖神經(jīng)網(wǎng)絡的NER方法,通過集成不同粒度的多個嵌入來擴展字符表示,并將其輸入到多個門控圖序列神經(jīng)網(wǎng)絡(Gated Graph Sequence Neural Networks, GGSNN)來識別命名實體。如圖5所示為多嵌入增強多圖神經(jīng)網(wǎng)絡架構,模型核心為自適應GGSNN,GGSNN通過使用帶有GRU的神經(jīng)網(wǎng)絡生成有意義的輸出或?qū)W習節(jié)點表示,其更擅長捕獲中文NER任務的局部文本特征。

    SUI等[41]提出一種基于字符的協(xié)作圖網(wǎng)絡,如圖6所示,圖層中有3個單詞字符交互圖:①包含圖(C-graph),對字符和自匹配詞匯之間的聯(lián)系進行建模;②轉(zhuǎn)換圖(T-graph),在字符和最近上下文匹配詞之間建立直接連接;③格子圖(L-graph),通過多跳隱式捕獲自匹配詞匯和最近上下文詞匯的部分信息。該網(wǎng)絡在大部分中文NER數(shù)據(jù)集上具有最佳性能。LUO等[80]提出一種二分平圖網(wǎng)絡(Bipartite FlatGraph network,BiFlaG)模型用于嵌套NER。

    1.3 標簽解碼器

    標簽解碼器處于NER模型的最后階段。目前,標簽解碼器架構可分為二元分類器Softmax、CRF、遞歸神經(jīng)網(wǎng)絡、指針網(wǎng)絡(pointer network)和膠囊網(wǎng)絡(capsule network)。

    1.3.1 二元分類器Softmax

    早期的NER模型[39,81]多采用多層感知機(Multi-Layer Perceptron, MLP)+Softmax作為標簽解碼器。XIA等[82]提出一個多粒度命名實體模型,用兩層全連接神經(jīng)網(wǎng)絡將候選實體分為預定義的類別;LI等[73]采用兩個Softmax,一個預測每個標記是否為起始索引,另一個標記每個令牌是否為結束索引,為給定上下文和特定查詢輸出多個開始索引和多個結束索引,緩解實體重疊問題。

    1.3.2 條件隨機場

    CRF是一個以觀察序列為條件的全局隨機場,已廣泛用于基于特征的監(jiān)督學習。目前,大部分基于深度學習的NER模型均選擇CRF層作為標簽解碼器,從訓練數(shù)據(jù)集中學習約束,以確保最終預測的實體標簽序列有效。目前,已有很多工作選擇CRF層作為標簽解碼器應用在雙向LSTM層之后47]、CNN層之后[58]以及GCN層之后[35,49-50]。

    1.3.3 指針網(wǎng)絡

    指針網(wǎng)絡是VINYALS等[83]提出的用于學習輸出序列條件概率的神經(jīng)網(wǎng)絡模型,其中元素是與輸入序列中的位置相對應的離散標記。指針網(wǎng)絡將注意力作為指針,選擇輸入序列元素作為輸出,解決可變大小的輸出詞典問題。ZHAI等[84]采用指針網(wǎng)絡作為標簽解碼器,在分割和標記方面均取得較好的效果。

    1.3.4 膠囊網(wǎng)絡

    膠囊網(wǎng)絡是SABOUR等[85]首次提出的一種具有更強解釋性的新網(wǎng)絡,不同于CNN模型中的標量值,其輸入輸出均為向量形式的神經(jīng)元,神經(jīng)元中的每個值表示一個屬性,如姿態(tài)、形變、顏色等;ZHAO等[86]提出用于文本分類的CapsNet,提高了分類性能。在NER領域中,DENG等[62]用CapsNet作為標簽解碼器,膠囊表示實體標簽,膠囊向量的模長度表示實體標簽預測概率,膠囊向量的方向表示實體屬性。因為膠囊網(wǎng)絡用膠囊向量表示代替標量表示,所以具有更強的實體信息表達能力。

    2 其他應用深度學習的命名實體識別方法

    前面概述了基于深度神經(jīng)網(wǎng)絡架構的NER方法,本章將簡述基于其他深度學習技術的NER方法。

    深度神經(jīng)網(wǎng)絡模型無需人工特征,但需要大規(guī)模標記數(shù)據(jù)集進行訓練,人工標注成本較高。領域自適應是解決該問題最有效的途徑,其用來自相關源領域的豐富標記數(shù)據(jù)增強基于目標領域模型的泛化能力。LEE等[87]在實體抽取中引入遷移學習,將預訓練好的實體抽取模型遷移到其他場景,效果良好;ALSAARAN等[63]通過微調(diào)預訓練的BERT模型識別和分類阿拉伯命名實體,有效提高了模型訓練效率;YANG等[88]提出多任務跨語言的聯(lián)合訓練模型,在任務和語言間共享網(wǎng)絡架構和模型參數(shù),提高了模型性能;JIA等[89]研究了用于多任務學習的多細胞合成LSTM結構,用單獨的細胞狀態(tài)對每個實體類型進行建模,借助實體類型單元,可以在實體類型級別進行跨領域知識轉(zhuǎn)移。然而,基于遷移學習的方法仍存在局限性:①當源域和目標域文本特征分布差別過大時,通過遷移學習進行微調(diào)可能導致過擬合;②特定領域的信息通常被忽略。因此,HAO等[90]提出一個半監(jiān)督的可遷移NER框架,將領域不變的潛在變量和領域特定的潛在變量分開,其在跨域和跨語言的NER表現(xiàn)最佳。

    LAI等[91]提出基于圖注意力網(wǎng)絡的實體關系聯(lián)合抽取模型(joint Entity-Relations Extraction via Improved Graph Attention networks,ERIGAT),可有效提取多跳節(jié)點信息;CARBONELL等[92]提出利用圖神經(jīng)網(wǎng)絡實現(xiàn)半結構化文檔中的NER和關系預測的方法,可從半結構化文檔中提取結構化信息;LUO等[93]提出無監(jiān)督的神經(jīng)網(wǎng)絡識別模型,其僅從預訓練的單詞嵌入中獲取信息,并結合基于強化學習的實例選擇器區(qū)分陽性句子和有噪聲句子,然后對粗粒度標注進行細化,實驗表明在不使用標注詞典或語料庫的情況下性能顯著。針對NER的過擬合問題,WANG等[94]提出一種用于NER的對抗訓練LSTM-CNN方法。

    MUIS等[95]提出可處理重疊和不連續(xù)實體的超圖模型,WANG等[96]用LSTM擴展了超圖模型,XIANG等[97]提出一種基于遷移的非連續(xù)神經(jīng)模型,這些NER模型可有效排除重疊或不連續(xù)實體;LI等[98]提出基于跨度的聯(lián)合模型,以端到端的方式識別重疊和不連續(xù)的實體,人工干預少且可并行計算;ZHANG等[99]提出統(tǒng)一的多模態(tài)圖融合方法(Unified Multi-modal Graph Fusion, UMGF),可以為NER捕獲多模態(tài)語義單元之間的各種語義關系。

    3 基于深度學習的命名實體識別方法對比

    目前,NER模型的研究主要側(cè)重于輸入表示和文本上下文編碼模型的設計與改進,標簽解碼器主要采用CRF,其在捕獲標簽轉(zhuǎn)換依賴關系方面非常強大。

    分布式輸入表示是影響NER性能的首要環(huán)節(jié),其可混合多種特征,包括字特征、詞特征、詞性特征、句法特征、位置特征、部首信息特征、拼音特征、領域字典等信息,也可將外部知識庫作為字符特征信息的補充。領域詞匯增強可顯著提高NER性能,然而構建領域詞典的經(jīng)濟成本高,而且整合外部詞典會對端到端學習產(chǎn)生不利影響,降低了模型的泛化性。

    表1總結了各種輸入表示的特點,并對比了其優(yōu)缺點?;旌隙嗵卣鞯妮斎氡硎拘阅苊黠@優(yōu)于基于單詞或基于字符級別的輸入表示,其中詞向量嵌入、基于CNN字符嵌入和上下文嵌入均為比較常用的方法,用GCN、圖注意力網(wǎng)絡(Graph Attention network, GAT)、BERT等挖掘文本深層次的抽象特征是目前研究的熱點。

    表1 分布式輸入表示對比

    表2總結了文本上下文編碼模型,從捕獲長距離依賴、局部上下文信息、并行性、信息損失程度、可遷移性等方面對模型進行了對比。根據(jù)每個上下文編碼模型的結構及其相關文獻表明,基于CNN,GNN等相關的NER模型在捕獲局部上下文信息、并行性等能力方面顯著優(yōu)于基于RNN和Transformer的相關模型,在捕獲局部上下文信息和并行性方面評級為高。然而,因為RNN采用線性序列結構編碼,使其在捕獲長距離依賴方面表現(xiàn)出色,很難并行化,所以在捕獲長距離依賴方面評級為高,在并行性方面評級為低。Transformer架構的堆疊自注意力模塊可有效捕獲全局上下文信息,評級為高。上下文編碼模型均有一定信息損失,ID-CNN[56]是以損失部分信息為代價擴大卷積核的感受野,Lattice LSTM[44]為了引進詞典構建的模型也會損失大量信息,在信息損失程度方面評級為高。相比之下,基于圖神經(jīng)網(wǎng)絡的NER模型、FLAT[78]、Simplify the Usage of Lexicon[47]最大程度避免了詞匯信息損失,評級為低。在準確度方面,上下文編碼模型在CoNLL03數(shù)據(jù)集中的F值超過92%,在MSRA數(shù)據(jù)集中的F值超過94%,評級為高,其他評級為一般。

    表2 上下文編碼

    文本上下文編碼采用深度學習網(wǎng)絡捕獲上下文依賴關系,用于上下文編碼的深度學習模型各有優(yōu)缺點,適用于不同場景。對于實時性要求高的場景,CNN改進模型和BERT模型均可實現(xiàn)并行計算,但BERT模型復雜度較高,在計算速度和推理速度方面低于CNN模型,最新的FLAT模型在推斷速度和詞匯信息損失方面表現(xiàn)優(yōu)異。微調(diào)預訓練模型雖然適用于領域樣本匱乏的小樣本學習場景,但是在一些領域的性能并不好,因為預訓練的語料庫具有強命名規(guī)律、高提及覆蓋率和充足的上下文多樣性,會破壞模型的泛化能力。近期研究雖然通過遷移學習、多任務聯(lián)合學習、半監(jiān)督學習、強化學習、對抗訓練、多模態(tài)等方法來緩解領域樣本匱乏問題,但是仍然面臨巨大挑戰(zhàn)。領域中實體嵌套多的場景適用BiFlaG、超圖模型和基于跨度的聯(lián)合模型。

    4 結束語

    NER對于在海量工業(yè)制造全流程數(shù)據(jù)中挖掘出有價值的信息意義重大,本文綜述了傳統(tǒng)NER方法和基于深度學習的NER方法,對近年主流的基于深度學習的NER技術從分布式輸入表示、上下文編碼、標簽解碼器3個方面進行了闡述和分析,并對比了分布式輸入方法和上下文編碼模型的性能和優(yōu)缺點。未來NER領域仍需應對大規(guī)模高質(zhì)量標注數(shù)據(jù)缺乏、跨域NER、嵌套實體抽取、新實體的有效識別、NER的高準確率和高覆蓋率等挑戰(zhàn),如何面向多模態(tài)數(shù)據(jù)進行多模態(tài)實體識別將成為領域研究的熱點。

    猜你喜歡
    字符實體標簽
    尋找更強的字符映射管理器
    字符代表幾
    前海自貿(mào)區(qū):金融服務實體
    中國外匯(2019年18期)2019-11-25 01:41:54
    一種USB接口字符液晶控制器設計
    電子制作(2019年19期)2019-11-23 08:41:50
    消失的殖民村莊和神秘字符
    無懼標簽 Alfa Romeo Giulia 200HP
    車迷(2018年11期)2018-08-30 03:20:32
    不害怕撕掉標簽的人,都活出了真正的漂亮
    海峽姐妹(2018年3期)2018-05-09 08:21:02
    實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
    哲學評論(2017年1期)2017-07-31 18:04:00
    兩會進行時:緊扣實體經(jīng)濟“釘釘子”
    振興實體經(jīng)濟地方如何“釘釘子”
    台中市| 德安县| 福清市| 板桥市| 西充县| 涿鹿县| 营山县| 茶陵县| 晴隆县| 淮阳县| 富顺县| 桐乡市| 大名县| 桐庐县| 临朐县| 博爱县| 南宁市| 定西市| 杨浦区| 平乐县| 广河县| 香河县| 象州县| 晋中市| 通州区| 张掖市| 延吉市| 江口县| 迁安市| 灯塔市| 唐河县| 嘉鱼县| 合山市| 论坛| 铜梁县| 息烽县| 江达县| 安宁市| 礼泉县| 江津市| 兴仁县|