基于知識庫實(shí)體增強(qiáng)BERT模型的中文命名實(shí)體識別

2022-09-25 08:42:14胡燕劉夢赤張龑

計(jì)算機(jī)應(yīng)用 2022年9期

胡婕，胡燕，劉夢赤，張龑

（1.湖北大學(xué)計(jì)算機(jī)與信息工程學(xué)院，武漢 430062；2.華南師范大學(xué)計(jì)算機(jī)學(xué)院，廣州 510631）

0 引言

命名實(shí)體識別（Named Entity Recognition，NER）在自然語言處理（Natural Language Processing，NLP）的許多下游任務(wù)如知識庫構(gòu)建［1］、信息檢索［2］以及問答系統(tǒng)［3］中扮演著重要角色。NER 任務(wù)主要方法有3 種：基于規(guī)則、基于傳統(tǒng)機(jī)器學(xué)習(xí)和基于深度學(xué)習(xí)的方法。其中基于深度學(xué)習(xí)的方法與基于規(guī)則和基于統(tǒng)計(jì)學(xué)的方法相比無需人工設(shè)置特征，神經(jīng)網(wǎng)絡(luò)可以自動(dòng)從數(shù)據(jù)中學(xué)習(xí)特征，被廣泛地應(yīng)用于命名實(shí)體識別的任務(wù)中［4-6］。

NER 任務(wù)實(shí)質(zhì)上是序列標(biāo)注問題［7］。中文命名實(shí)體識別任務(wù)與英文有所不同，英文句子中有天然的邊界，而中文句子沒有，這給中文命名實(shí)體識別帶來了更多挑戰(zhàn)。中文NER 任務(wù)在進(jìn)行單詞序列標(biāo)注之前，一般要先進(jìn)行分詞然后再將詞級別的序列標(biāo)注模型應(yīng)用于所分割的句子，命名實(shí)體邊界也就是詞的邊界；然而，分詞不可避免地會出現(xiàn)單詞的錯(cuò)誤劃分從而造成實(shí)體邊界的錯(cuò)誤識別。為了解決分詞錯(cuò)誤對命名實(shí)體識別任務(wù)的影響，Li 等［8］認(rèn)為基于字符的方法沒有中文分詞錯(cuò)誤，比基于詞的方法更適用于中文NER 任務(wù)；然而，基于字符的NER 任務(wù)并不能充分利用詞和詞的序列信息。為了解決這個(gè)問題，Zhang 等［9］提出了格結(jié)構(gòu)的長短期記憶網(wǎng)絡(luò)（Lattice Long Short-Term Memory network，Lattice-LSTM）模型，將詞典納入基于字符的模型。此外，當(dāng)字符與詞典中的多個(gè)單詞匹配時(shí)，保留所有與字符匹配的單詞，而不是啟發(fā)式地為字符選擇一個(gè)單詞，讓后續(xù)的NER 模型來確定應(yīng)用哪個(gè)單詞。通過使用Lattice-LSTM 來表示句子中的詞匯，將潛在的單詞信息整合到基于字符的LSTMCRF（Long Short-Term Memory network-Conditional Random Field）中，但是Lattice-LSTM 的模型架構(gòu)相當(dāng)復(fù)雜。為了引入詞典信息，Lattice-LSTM 在輸入序列中不相鄰的字符之間添加了多個(gè)額外的邊，顯著降低了其訓(xùn)練和推理速度，而且很難將網(wǎng)格模型的結(jié)構(gòu)應(yīng)用到其他神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，只適合于某些特定的任務(wù)，不具通用性。于是Ma 等［10］提出更簡單的方法來實(shí)現(xiàn)Lattice-LSTM 的思想，將每個(gè)字符的所有匹配單詞合并到基于字符的NER 模型中，在字符中表示編碼詞典信息，并設(shè)計(jì)編碼方案以盡可能多地保留詞典匹配結(jié)果。這種方法不需要復(fù)雜的模型結(jié)構(gòu)，更容易實(shí)現(xiàn)，并且可以通過調(diào)整字符表示層快速適應(yīng)任何合適的神經(jīng)NER 模型。然而由于網(wǎng)格結(jié)構(gòu)的復(fù)雜性和動(dòng)態(tài)性，現(xiàn)有基于網(wǎng)格的模型很難充分利用圖形處理器進(jìn)行并行計(jì)算，因而推理的速度通常較慢。因此，Li 等［11］提出了平面點(diǎn)陣變換器，核心是將點(diǎn)陣結(jié)構(gòu)轉(zhuǎn)換成一組跨度，并引入特定的位置編碼，在性能和效率上優(yōu)于其他基于詞典的模型；Xue 等［12］和Gui 等［13-14］利用詞匯特征，外部詞匯級信息增強(qiáng)了NER 訓(xùn)練。

然而，上述方法都是有監(jiān)督的模型，當(dāng)處理有較少標(biāo)記數(shù)據(jù)的數(shù)據(jù)集時(shí)，小數(shù)據(jù)無法反映出語言間的復(fù)雜關(guān)系，同樣也很容易讓復(fù)雜的深度網(wǎng)絡(luò)模型過擬合，很難獲得很好的訓(xùn)練網(wǎng)絡(luò)，因此預(yù)先訓(xùn)練的半監(jiān)督語言模型就顯得尤為重要。Devlin 等［15］提出的BERT（Bidirectional Encoder Representations from Transformers）模型就是一個(gè)預(yù)訓(xùn)練半監(jiān)督模型，可以在與最終任務(wù)無關(guān)的大數(shù)據(jù)集上訓(xùn)練出語言的表示，然后將學(xué)到的知識表示用到任務(wù)相關(guān)的語言表示上。Sun 等［16］提出了ERNIE（Enhanced Language Representation with Informative Entities）模型，它通過知識整合來增強(qiáng)BERT。ERNIE 通過屏蔽完整實(shí)體來訓(xùn)練，而不像BERT 那樣屏蔽單個(gè)字詞標(biāo)記。ERNIE 預(yù)訓(xùn)練的實(shí)體級掩碼技巧可以看作是一種通過錯(cuò)誤反向傳播來集成實(shí)體信息的隱式方法。由于命名實(shí)體識別中的實(shí)體可能出現(xiàn)二義性，即相同的詞在不同的領(lǐng)域有不同的語義，因此包含領(lǐng)域的實(shí)體詞典對于該任務(wù)是有用的?？紤]到這一點(diǎn)，Jia 等［17］提出了將詞典嵌入到針對中文NER 的預(yù)先訓(xùn)練最小均方誤差模型中，提出了一種半監(jiān)督實(shí)體增強(qiáng)的最小均方誤差預(yù)訓(xùn)練模型Entity Enhanced BERT Pre-training。具體來說，首先使用新詞發(fā)現(xiàn)方法從原始文本以及相關(guān)文檔中提取實(shí)體詞典；然后使用Char-Entity-Self-Attention 機(jī)制替換原始的自我注意力機(jī)制將實(shí)體信息嵌入到BERT 中，也就是使用字符和實(shí)體表示組合來增強(qiáng)自我關(guān)注。該機(jī)制可以更好地捕捉字符和文檔特定實(shí)體的上下文相似性，并將字符隱藏狀態(tài)與每一層中的實(shí)體嵌入顯示結(jié)合；但是提取實(shí)體詞典的方式較為復(fù)雜而且獲取的實(shí)體詞數(shù)量和使用范圍有限。如今，開放域和領(lǐng)域知識庫構(gòu)建越來越完善，可免費(fèi)獲得的知識庫也越來越多，因此本文提出了在詞典中加入知識庫信息的方法來擴(kuò)展詞典中的實(shí)體信息，使詞典中的詞使用更具廣泛性。具體來說，首先在中文通用百科知識圖譜CN-DBpedia［18］中下載其提供的mention2entity 文檔，該文檔中包含了110 多萬條數(shù)據(jù)，這些數(shù)據(jù)中包含了大量的實(shí)體，使用Jieba 分詞對數(shù)據(jù)進(jìn)行分詞處理，留下帶有名詞標(biāo)簽的詞，使得詞典中的實(shí)體詞更豐富、應(yīng)用領(lǐng)域更廣泛；而且由于各個(gè)領(lǐng)域的實(shí)體詞典可以從其領(lǐng)域知識庫中獲得，可以減少前期詞典創(chuàng)建的工作量。隨后將詞典中的實(shí)體嵌入到BERT 預(yù)訓(xùn)模型中進(jìn)行預(yù)訓(xùn)練，然后在NER 微調(diào)任務(wù)中將訓(xùn)練得到的詞向量輸入到BiLSTM 中提取特征，最后通過CRF 層從訓(xùn)練數(shù)據(jù)中獲得約束性規(guī)則，為最后預(yù)測的標(biāo)簽添加約束來保證預(yù)測標(biāo)簽的合法性，生成最優(yōu)序列結(jié)果。實(shí)驗(yàn)結(jié)果表明本文模型在CLUENER 2020 數(shù)據(jù)集［19］上的F1 值達(dá)到了78.15%，在MSRA 數(shù)據(jù)集［20］上的F1的值達(dá)到了88.11%，相比上述Entity Enhanced BERT Pretraining 模型以及其他三個(gè)基線模型BERT+BiLSTM（Bidirectional Long Short-Term Memory）、ERNIE 和BiLSTM+CRF都有所提升，從而驗(yàn)證了加入知識庫之后的詞典結(jié)構(gòu)在中文NER 語言模型預(yù)訓(xùn)練中整合實(shí)體信息的有效性，以及在實(shí)體識別的微調(diào)任務(wù)中加入CRF 層預(yù)測標(biāo)簽的有效性。

1 本文方法

本文的命名實(shí)體識別方法主要分為3 個(gè)部分：首先從中文通用百科知識庫CN-DBPedia 中抽取實(shí)體來構(gòu)建實(shí)體詞典；然后將詞典中的實(shí)體嵌入到BERT 中進(jìn)行預(yù)訓(xùn)練，將訓(xùn)練得到的詞向量輸入到BiLSTM 提取特征；最后經(jīng)過條件隨機(jī)場修正后輸出。

1.1 詞典的構(gòu)建

為了獲得特定文檔的實(shí)體信息，將其嵌入到BERT 預(yù)訓(xùn)練語言模型中，Jia 等［17］采用Bouma［21］所提出的無監(jiān)督方法在原始文檔中自動(dòng)發(fā)現(xiàn)候選實(shí)體，分別計(jì)算連續(xù)字符之間的交互信息值和左、右熵度量值，然后將這3 個(gè)值相加作為可能實(shí)體的有效評分。

本文在此基礎(chǔ)上加入開放域知識庫中所提供的實(shí)體來對原有的詞典進(jìn)行擴(kuò)充，將實(shí)體詞典擴(kuò)充成一個(gè)大小為6 086 KB 的實(shí)體詞典。本文使用的知識庫是由復(fù)旦大學(xué)知識工場實(shí)驗(yàn)室研發(fā)并維護(hù)的大規(guī)模通用百科知識圖譜知識庫CN-DBpedia，其數(shù)據(jù)來源于中文百科類網(wǎng)站如百度百科、互動(dòng)百科、中文維基百科等的純文本頁面中提取的信息，經(jīng)過過濾、融合、推斷等處理后，最終形成的高質(zhì)量結(jié)構(gòu)化數(shù)據(jù)。本文使用CN-DBPedia 所提供mention2entity 文檔中的數(shù)據(jù)，其包含110 多萬條信息，包含了大量的實(shí)體，所包含的領(lǐng)域非常廣泛，獲取的途徑也很方便。本文的具體做法，從OpenKG.CN 網(wǎng)站下載mention2entity 中的文本后對數(shù)據(jù)進(jìn)行清洗，清洗的過程是用可以標(biāo)注詞性的Jieba 分詞工具對文本進(jìn)行全模式分詞，將標(biāo)注為名詞詞性的詞挑選出來，去掉重復(fù)的詞語，將剩余的詞加入詞典中作為候選實(shí)體。

1.2 嵌入詞典實(shí)體信息的BERT預(yù)訓(xùn)練

嵌入實(shí)體信息的BERT 預(yù)訓(xùn)練模型結(jié)構(gòu)如圖1 所示，與基于中文BERT［15］的Transformer 模型中Encoder 結(jié)構(gòu)類似，為了利用提取的實(shí)體，即將實(shí)體信息嵌入到模型中，將Transformer 擴(kuò)展為Char-Entity-Transformer，如圖2所示它是由一個(gè)多頭的Char-Entity-Self-Attention 塊堆棧組成。

圖1 嵌入實(shí)體信息的BERT預(yù)訓(xùn)練模型結(jié)構(gòu)Fig.1 Structure of BERT model embedding entity information

圖2 Char-Entity-Self-Attention模型結(jié)構(gòu)Fig.2 Structure of Char-Entity-Self-Attention model

首先將字符與提取的實(shí)體進(jìn)行匹配，給定字符序列c={c1，c2，…，cT}和提取的實(shí)體字典Entity，使用最大實(shí)體匹配算法得到對應(yīng)的實(shí)體標(biāo)記序列e={e1，e2，…，eT}。用包含該字符詞典中最長實(shí)體的索引來標(biāo)記每個(gè)字符，并將沒有實(shí)體匹配的字符標(biāo)記為O。

在模型的輸入階段，給定一個(gè)字符序列c={c1，c2，…，cT}，輸入層中的第t個(gè)字符的表示是字符、文本和位置嵌入的總和，表示為：

其中：Ec、Es、Ep分別表示字符的字嵌入查找表、文本嵌入查找表和位置查找表，因?yàn)闆]有用到下一句預(yù)測任務(wù)的輸入句子順序，所以將文本索引s設(shè)置為常數(shù)0。

接下來將給定字符序列和前面所得到的實(shí)體標(biāo)記序列一起輸入到如圖2 所示的多頭Char-Entity-Self-Attention 模型，將漢字的隱含維數(shù)和新詞實(shí)體的隱含維數(shù)分別表示為Hc和He，L是層數(shù)，A是自注意力頭的個(gè)數(shù)。對于給定l-1 層字符的隱藏序列的Key 矩陣和Value 矩陣與BERT 的多頭注意力有所不同，它用實(shí)體的隱藏字符和實(shí)體嵌入組合來生成Key 和Value 矩陣，表示為：

1.3 NER任務(wù)

本文NER 任務(wù)模型框架如圖3 所示。

圖3 NER任務(wù)模型框架Fig.3 Model framework of NER task

將文本信息轉(zhuǎn)化為計(jì)算機(jī)可以識別的數(shù)據(jù)形式是任務(wù)的第一步。目前常用的詞嵌入模型主要是BERT 預(yù)訓(xùn)練語言模型，它通過雙向Transformer 編碼器生成字向量，但是實(shí)體識別的任務(wù)是識別人名、地名等實(shí)體信息，BERT 模型無法利用現(xiàn)有的實(shí)體信息。本文使用如1.2 節(jié)所述的嵌入實(shí)體信息的BERT 預(yù)訓(xùn)練模型，其Char-Entity-Self-Attention 機(jī)制可以很好地捕捉字符和文檔特定實(shí)體的上下文相似性，并顯式地將字符隱藏狀態(tài)與每一層實(shí)體嵌入結(jié)合，再將擴(kuò)展后的模型對數(shù)據(jù)集信息進(jìn)行編碼。將嵌入詞典實(shí)體預(yù)訓(xùn)練BERT模型的最后一層輸出輸入到BiLSTM 中進(jìn)行訓(xùn)練，進(jìn)一步提取文本特征。通過BiLSTM 對序列的上下文信息進(jìn)行學(xué)習(xí)，為每個(gè)標(biāo)簽打分，BiLSTM 的輸出為字符的每一個(gè)標(biāo)簽分值，輸出結(jié)果如圖4 所示。

圖4 BiLSTM 輸出標(biāo)簽Fig.4 BiLSTM output label

BiLSTM 通過挑選每個(gè)標(biāo)簽分值最高的作為該字符的標(biāo)簽，并選取最大分值作為每個(gè)字符最終的輸出標(biāo)簽。如圖4所示，模型所生成的標(biāo)簽為I-Organization I-Person 和B-Person I-Person，但是顯然I-Organization 之后不可能出現(xiàn)I-Person，即：標(biāo)簽序列“I-Organization I-Person”是錯(cuò)誤的。這種取最大值的方法雖然可以得到正確的標(biāo)簽序列B-Person I-Person，但是并不能保證每次的預(yù)測都是正確的，因此模型不能僅以BiLSTM 的輸出結(jié)果作為最終的預(yù)測標(biāo)簽，需要在預(yù)測標(biāo)簽與標(biāo)簽之間引入約束條件來保證生成標(biāo)簽的合法性，因此本文將BiLSTM 的輸出結(jié)果輸入到CRF 層。CRF 層可以為最后預(yù)測標(biāo)簽添加約束關(guān)系來保證預(yù)測標(biāo)簽的合理性。

給定輸入序列X={x1，x2，…，xn}，假設(shè)訓(xùn)練得到對應(yīng)輸出標(biāo)簽序列Y={y1，y2，…，yn}，其中n代表NER 標(biāo)簽的數(shù)量，則標(biāo)簽序列的得分可表示為：

其中：Z為轉(zhuǎn)移矩陣為標(biāo)簽從yi轉(zhuǎn)移到y(tǒng)i+1的分值；為輸入序列第i+1 個(gè)字對應(yīng)標(biāo)簽yi+1的分值。對標(biāo)簽序列y的概率進(jìn)行計(jì)算，可表示為：

其中YX為所有可能的標(biāo)簽序列集合，最終輸出序列的標(biāo)簽為概率最大的標(biāo)簽集合。

2 實(shí)驗(yàn)結(jié)果與分析

2.1 數(shù)據(jù)集與評價(jià)指標(biāo)

2.1.1 數(shù)據(jù)集

為了驗(yàn)證本文模型的有效性，在兩個(gè)公開使用的數(shù)據(jù)集CLUENER 2020 和MSRA 上做了對比實(shí)驗(yàn)。

CLUENER 2020 數(shù)據(jù)集［19］是一個(gè)細(xì)粒度的中文NER 數(shù)據(jù)集，包含10 種不同的實(shí)體類別，分別是組織（organization）、人名（name）、地址（address）、公司（company）、政府（government）、書籍（book）、游戲（game）、電影（movie）、職位（position）和景點(diǎn)（scene），并對常見類別進(jìn)行了細(xì)粒度的劃分，如將“組織”細(xì)分為“政府”和“公司”等；同時(shí)存在同一實(shí)體在不同語境下屬于不同類別的情況，如Twins 的字面意思是雙胞胎，但是在娛樂新聞的背景下，它指的是Twins 組合。本文從CLUENER 2020 數(shù)據(jù)集中隨機(jī)抽取5 200、600 和748個(gè)句子分別作為訓(xùn)練集、評估集和測試集，并將抽取的句子劃分為4 個(gè)新聞?lì)I(lǐng)域：GAM（游戲）、ENT（娛樂）、LOT（彩票）和FIN（金融）。

MSRA［20］是中文NER 的通用數(shù)據(jù)集。它包括三種類型的實(shí)體，分別是PER（人名）、LOC（地名）和ORG（組織名）。本文使用標(biāo)記集｛B，I，E，O｝進(jìn)行標(biāo)記。

數(shù)據(jù)集的詳細(xì)信息如表1 所示。

表1 數(shù)據(jù)集描述Tab.1 Description of datasets

2.1.2 評估標(biāo)準(zhǔn)

本文采用準(zhǔn)確率（Precision，P）、召回率（Recall，R）和F1的值作為評價(jià)指標(biāo)，這三種評價(jià)指標(biāo)越高，代表模型性能越好。評價(jià)指標(biāo)的計(jì)算公式如下：

2.2 實(shí)驗(yàn)環(huán)境

本文所有的實(shí)驗(yàn)均在Python3.6，pytorch1.7，GTX 5000平臺上運(yùn)行。

2.3 實(shí)驗(yàn)設(shè)置

本文模型使用BERT 構(gòu)建，層數(shù)L=12，自注意頭數(shù)A=12，字符的隱藏大小Hc=768，實(shí)體的隱藏大小He=64，其他超參數(shù)的設(shè)置如表2 所示。

表2 本文模型參數(shù)Tab.2 Parameters of the proposed model

2.4 實(shí)驗(yàn)結(jié)果與分析

1）本模型與基線模型實(shí)驗(yàn)對比。

本文對比的基線模型是Entity Enhanced BERT Pretraining［17］。它首先在與數(shù)據(jù)集相關(guān)的文檔中獲取詞，將其作為候選實(shí)體放入實(shí)體詞典中；然后將實(shí)體詞典信息嵌入到BERT 的預(yù)訓(xùn)練中，并將預(yù)訓(xùn)練模型用于NER 任務(wù)中進(jìn)行實(shí)體的分類輸出。它在前期詞典的獲取過程中使用的方法并不能識別所提取詞是否是真正的實(shí)體，導(dǎo)致詞典中真正的命名實(shí)體比例降低，而加入了無關(guān)實(shí)體的詞進(jìn)行預(yù)訓(xùn)練會降低模型的性能。本文詞典的提取方法是使用開放域知識庫CN-DBpedia，其包含大量的實(shí)體三元組，用于提高抽取的候選實(shí)體中真正實(shí)體的比例。此外，基線模型在NER 任務(wù)中沒有利用CRF 層來對生成的標(biāo)簽進(jìn)行約束。

為了驗(yàn)證本文模型的有效性，在同一實(shí)驗(yàn)環(huán)境下，設(shè)計(jì)了兩組實(shí)驗(yàn)與基線模型Entity Enhanced BERT Pre-training［17］在測試集上進(jìn)行對比，在CLUENER 2020 數(shù)據(jù)集和MSRA 數(shù)據(jù)集上F1 值的對比如表3 所示。

表3 測試集上模型F1值的對比單位：%Tab.3 Comparison of F1 scores of models on test sets unit：%

從表3 可知，與基線模型Entity Enhanced BERT Pretraining 相比，本文加入開放域知識庫的實(shí)體增強(qiáng)BERT 模型OpenKG+Entity Enhanced BERT Pre-training 在上述兩個(gè)數(shù)據(jù)集上F1 值都有一定的提升。從CLUENER 2020 數(shù)據(jù)集的所有類別（All）F1 的值可以看出，加入知識庫之后的模型F1 值提升了0.92 個(gè)百分點(diǎn)，在MSRA 數(shù)據(jù)集上F1 值提升了0.58個(gè)百分點(diǎn)，這是因?yàn)楸疚倪x取的開放域知識庫中mention2 entity 文檔包含110 多萬條信息，包含了各個(gè)領(lǐng)域的大量實(shí)體，本文從中提取了3 000 多條候選詞加入對應(yīng)新聞?lì)I(lǐng)域詞典中。F1 值的提升可以驗(yàn)證加入開放域知識庫的有效性。在此基礎(chǔ)上，本文使用OpenKG+Entity Enhanced BERT Pretraining+CRF 模型在NER 微調(diào)中加入CRF 層來修正標(biāo)簽，從表中CLUENER 2020 數(shù)據(jù)集所有領(lǐng)域（All）的F1 可以看出，相比只加入開放域知識庫的模型OpenKG+Entity Enhanced BERT Pre-training 的F1 值提升了0.71 個(gè)百分點(diǎn)，在MSRA 數(shù)據(jù)集上F1 值提升了0.52 個(gè)百分點(diǎn)。相比基線Entity Enhanced BERT Pre-training 模型，在CLUENER 2020 數(shù)據(jù)集上F1 值提升了1.63 個(gè)百分點(diǎn)，在MRSA 數(shù)據(jù)集F1 值提升了1.10個(gè)百分點(diǎn)，驗(yàn)證了NER 微調(diào)加入CRF 解碼層的有效性。

Entity Enhanced BERT Pre-training 模型與本文的兩組模型在CLUENER 2020 數(shù)據(jù)集的所有領(lǐng)域（All）和MSRA 數(shù)據(jù)集的測試集上準(zhǔn)確率、召回率和F1 值的對比如表4 所示。

表4 測試集上的模型各評標(biāo)指標(biāo)對比單位：%Tab.4 Comparison of evaluation indexes of models on test sets unit：%

從表4 中可以看出，在CLUENER 2020 和MSRA 這兩個(gè)公開的數(shù)據(jù)集上，本文模型在準(zhǔn)確率、召回率和F1 值上均有提升，驗(yàn)證了本文模型綜合效果更佳。

2）與相關(guān)工作對比。

為了進(jìn)一步驗(yàn)證本文模型的有效性，本文還對三組中文NER 方法在CLUENER 2020 數(shù)據(jù)集和MSRA 數(shù)據(jù)集上進(jìn)行了比較。這三組模型分別為：BERT+BiLSTM、ERNIE［22］和BiLSTM+CRF模型。其中，ERNIE是百度公司基于BERT 模型進(jìn)一步優(yōu)化得到的模型，它在中文NLP 任務(wù)上獲得了最佳效果，其主要是在掩碼（mask）機(jī)制上做了改進(jìn)，在預(yù)訓(xùn)練階段不僅采取字掩碼機(jī)制，而且增加了外部知識進(jìn)一步采取全詞掩碼和實(shí)體掩碼的三級掩碼機(jī)制。

三組模型與本文模型在CLUENER 2020 數(shù)據(jù)集的所有領(lǐng)域和MSRA 數(shù)據(jù)集F1 值對比如表5 所示。

表5 相關(guān)模型F1值的對比單位：%Tab.5 Comparison of F1 scores of related models unit：%

從表5 可以看出，相比直接對預(yù)先訓(xùn)練的中文BERT 生成字向量與利用BiLSTM 方法解碼的模型，本文模型在CLUENER 2020 數(shù)據(jù)集上的F1 值提升了3.93 個(gè)百分點(diǎn)，在MSRA 數(shù)據(jù)集上的F1 值提升了5.35 個(gè)百分點(diǎn)，這是因?yàn)镃har-Entity-Transformer 結(jié)構(gòu)能夠有效地利用實(shí)體詞典信息，并且考慮到不同實(shí)體在不同語境下可能有不同的語義的情況，利用CRF 解碼層為最后預(yù)測的標(biāo)簽添加約束關(guān)系來保證預(yù)測標(biāo)簽的合法性，從而提高了F1 的值。與ERNIE 相比，盡管ERNIE 使用更多來自網(wǎng)絡(luò)資源的原始文本和實(shí)體信息進(jìn)行預(yù)訓(xùn)練，但是在CLUENER 2020 數(shù)據(jù)集上F1 值仍提升了2.42 個(gè)百分點(diǎn)，并且在MSRA 數(shù)據(jù)集上F1 的值提升了4.63個(gè)百分點(diǎn)，這表明了通過字符-實(shí)體轉(zhuǎn)換結(jié)構(gòu)集成實(shí)體信息的顯式方法比實(shí)體級掩蔽方法對中文NER 更有效。與BiLSTM+CRF 模型相比，在CLUENER 2020 數(shù)據(jù)集上F1 的值提升了6.79 個(gè)百分點(diǎn)，在MSRA 數(shù)據(jù)集上F1 的值提升了7.55 個(gè)百分點(diǎn)，這是因?yàn)榍度朐~典實(shí)體的BERT 預(yù)訓(xùn)練模型能夠?qū)?shí)體集成到具有字符實(shí)體轉(zhuǎn)換器的結(jié)構(gòu)中，從而改善實(shí)體識別的效果。從各模型F1 值可以看出，本文模型的整體識別效果得到了明顯提升。

3 結(jié)語

針對實(shí)體增強(qiáng)預(yù)訓(xùn)練模型的詞典獲得方法較為復(fù)雜而且獲取的實(shí)體詞數(shù)量和使用范圍有限的問題，本文充分利用了開放域知識庫資源，使得詞典的獲得更加便利，能夠包含更多相關(guān)領(lǐng)域的候選詞，從而提升了模型的效果。在NER任務(wù)中，由于只依賴BiLSTM 對標(biāo)簽打分的輸出會導(dǎo)致出現(xiàn)大量不合法標(biāo)簽，本文通過加入CRF 層的解碼得到最優(yōu)序列，提高了實(shí)體提取的結(jié)果。實(shí)驗(yàn)結(jié)果表明，利用加入知識庫的預(yù)訓(xùn)練模型以及在NER 任務(wù)中加入CRF 解碼層的模型獲得了更高的F1 值，從而驗(yàn)證了本文模型的有效性。未來的工作重點(diǎn)是簡化模型，以提升模型的訓(xùn)練速度。