陳柱輝,劉 新,張明鍵,張達(dá)為
1(湘潭大學(xué) 計算機(jī)學(xué)院·網(wǎng)絡(luò)空間安全學(xué)院,湘潭 411105)
2(湖南警察學(xué)院 信息技術(shù)系,長沙 410138)
簡要案情是指警務(wù)人員在接到被害人或者目擊者報案時,使用警務(wù)信息系統(tǒng)生成的簡短并蘊(yùn)含重要信息的文本序列,并便于警務(wù)人員管理和存儲的警務(wù)記錄.簡要案情中的案發(fā)地點(diǎn)、涉案人員、涉案財產(chǎn)和涉案事件關(guān)鍵詞等實(shí)體是整個案件的核心信息,通過這幾類實(shí)體,警務(wù)人員可以迅速判斷出案件的嚴(yán)重程度以及犯罪的類型.因此,對簡要案情文本的深度挖掘是掌握案件始末和分析案情的有效手段之一.結(jié)合自然語言處理相關(guān)技術(shù),圍繞簡要案情等警務(wù)文本的相關(guān)研究,可為智慧警務(wù)、案情問答等場景提供有效的支持與應(yīng)用.
命名實(shí)體識別(named entity recognition,NER)是信息抽取和信息檢索中一項重要的任務(wù),其目的是識別出文本中表示命名實(shí)體的成分,并對其進(jìn)行分類,也是信息提取過程中的關(guān)鍵技術(shù),旨在從非結(jié)構(gòu)化文本中抽取各類所需實(shí)體,為語料庫的建設(shè)和知識圖譜的搭建提供了技術(shù)支持[1,2].通識領(lǐng)域憑借其大量標(biāo)注數(shù)據(jù)集,吸引眾多研究人員爭相投入其中,通識領(lǐng)域的命名實(shí)體識別技術(shù)因此迎來迅速的發(fā)展,然而,受限于警務(wù)領(lǐng)域的簡要案情文本的開放,在簡要案情命名實(shí)體識別上的研究呈一片空白.因此,本文先對小規(guī)模簡要案情文本進(jìn)行合理標(biāo)注,提取的實(shí)體包括案發(fā)地點(diǎn)、涉案人員、涉案財產(chǎn)和涉案事件關(guān)鍵詞4 個類別,為了提高簡要案情文本中復(fù)雜的專業(yè)名詞的識別率,本文對字符向量生成的方法進(jìn)行了改進(jìn),提出RCBiLSTM-CRF 神經(jīng)網(wǎng)絡(luò)模型,通過Roberta 預(yù)訓(xùn)練模型增強(qiáng)訓(xùn)練語料的語義表示并根據(jù)上下文特征動態(tài)生成字向量,通過設(shè)計合理的卷積神經(jīng)網(wǎng)絡(luò)對字向量的局部重要特征進(jìn)行提煉,解決了通過預(yù)訓(xùn)練模型帶來的字符向量冗長的問題,通過減少模型的參數(shù)量進(jìn)而增加了模型整體參數(shù)收斂的速度,在一定程度上彌補(bǔ)了標(biāo)注數(shù)據(jù)集稀缺的缺陷.本文在湖南省省公安機(jī)關(guān)提供的簡要案情數(shù)據(jù)集上做了大量的對比實(shí)驗(yàn),本文提出的網(wǎng)絡(luò)框架取得了比較理想的實(shí)體識別效果.
本文組織結(jié)構(gòu):第2 節(jié)介紹相關(guān)工作,包括對通識領(lǐng)域命名實(shí)體識別和特定領(lǐng)域命名實(shí)體識別的詳細(xì)闡述;第3 節(jié)主要介紹本文設(shè)計的卷積神經(jīng)網(wǎng)絡(luò),還對Roberta 預(yù)訓(xùn)練模型,BiLSTM 層和CRF 層進(jìn)行詳細(xì)的介紹;第4 節(jié)對實(shí)驗(yàn)數(shù)據(jù)集、模型參數(shù)設(shè)置、模型評估標(biāo)準(zhǔn)和實(shí)驗(yàn)結(jié)果與分析進(jìn)行介紹;第5 節(jié)為結(jié)束語.
近年來,深度學(xué)習(xí)技術(shù)在命名實(shí)體識別上的應(yīng)用成為新的浪潮.深度學(xué)習(xí)方法為科研理論的驗(yàn)證提供了一種新的解決思路,最典型的深度學(xué)習(xí)模型為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),卷積神經(jīng)網(wǎng)絡(luò)(CNN)的系列架構(gòu)[3,4],本文將對通識領(lǐng)域命名實(shí)體識別跟特定領(lǐng)域命名實(shí)體識別的研究成果進(jìn)行介紹.
Huang 等人[5]提出了BiLSTM-CRF 模型,憑借巧妙設(shè)計的雙向LSTM 結(jié)構(gòu),BiLSTM-CRF 模型可以有效地使用過去和未來的輸入特性,該模型通過CRF 層可以使用句子級標(biāo)記信息.BiLSTM-CRF 模型可以在POS、分塊和NER 數(shù)據(jù)集上產(chǎn)生最先進(jìn)(或接近)的準(zhǔn)確性,并且具有較強(qiáng)的魯棒性,對詞嵌入的依賴性更小,可以實(shí)現(xiàn)準(zhǔn)確的標(biāo)注精度,而不需要借助于word的嵌入.
Zhang 等人[6]提出了Lattice LSTM 模型,該模型對輸入字符序列以及所有與詞典匹配的潛在單詞進(jìn)行編碼,與基于字符的方法相比,Lattice LSTM 明確地利用了單詞和單詞序列信息,與基于詞的方法相比,Lattice LSTM 不存在切分錯誤.Lattice LSTM 模型使用門控循環(huán)單元從一個句子中選擇最相關(guān)的字符和單詞,以獲得更好的實(shí)體識別結(jié)果.Lattice 方法完全獨(dú)立于分詞,但由于可以在上下文中自由選擇詞典單詞來消除歧義,因此在使用單詞信息方面更加有效,在MSRA數(shù)據(jù)集中取得了93.18%的F1 值.
Gui 等人[7]提出了LR-CNN 模型,采取CNN 對字符特征進(jìn)行編碼,感受野大小為2 提取bi-gram 特征,堆疊多層獲得multi-gram 信息,同時采取注意力機(jī)制融入詞匯信息(word embed)以解決Lattice LSTM 模型[6]存在不能充分利用GPU 進(jìn)行并行化的問題,LR-CNN最終相比于Lattice LSTM 快3.21 倍;LR-CNN 采取rethinking 機(jī)制增加feedback layer 來調(diào)整詞匯信息的權(quán)值以解決Lattice LSTM 模型存在無法有效處理詞匯信息沖突的問題.
Li 等人[8]提出了FLAT 模型,該模型將其lattice 結(jié)構(gòu)轉(zhuǎn)換成由跨度(spans)組成的平面結(jié)構(gòu),每個span 相當(dāng)于一個字或者一個詞在其原始lattice中的位置,得益于Transformer和position encoding,FLAT 可以充分利用lattice 信息,具有出色的并行化能力.FLAT 解決了在中文NER中,lattice 模型因?yàn)槠鋸?fù)雜度和動態(tài)性問題,導(dǎo)致其無法很好的利用GPU,限制了其運(yùn)行速度的問題.在數(shù)據(jù)集(OntoNotes、MSRA、Resume和Weibo)上,FLAT 在性能和效率方面均取得了很理想的效果.
在社交領(lǐng)域,李源等人[9]為解決基于詞粒度信息或者外部知識的中文命名實(shí)體識別方法存在中文分詞(CWS)和溢出詞(OOV)的問題,提出一種基于字符的使用位置編碼和多種注意力的對抗學(xué)習(xí)模型,聯(lián)合使用位置編碼和多頭注意力能夠更好地捕獲字序間的依賴關(guān)系,而使用空間注意力的判別器則能改善對外部知識的提取效果,該模型分別在Weibo2015 數(shù)據(jù)集和Weibo2017 數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果中的F1 值分別為56.79%和60.62%.
在軍事領(lǐng)域,李健龍等人[10]為了減少傳統(tǒng)的命名實(shí)體識別需要人工制定特征的大量工作,通過無監(jiān)督訓(xùn)練獲得軍事領(lǐng)域語料的分布式向量表示,采用雙向LSTM 模型解決軍事領(lǐng)域命名實(shí)體的識別問題,并且通過添加字詞結(jié)合的輸入向量和注意力機(jī)制對雙向LSTM 網(wǎng)絡(luò)模型進(jìn)行擴(kuò)展和改進(jìn),進(jìn)而提高軍事領(lǐng)域命名實(shí)體識別,提出的方法在軍事領(lǐng)域數(shù)據(jù)集上的F1 值達(dá)到了87.38%.
在軍用軟件測試領(lǐng)域,韓鑫鑫等人[11]針對字詞聯(lián)合實(shí)體識別方法準(zhǔn)確率不高的問題,進(jìn)行字符級特征提取方法的改進(jìn),提出了CWA-BiLSTM-CRF 識別框架,該框架包含兩部分:第一部分構(gòu)建預(yù)訓(xùn)練的字詞融合字典,將字詞一起輸入給雙向長短期記憶網(wǎng)絡(luò)進(jìn)行訓(xùn)練,并加入注意力機(jī)制衡量詞內(nèi)各字對特征的語義貢獻(xiàn),提取出字符級特征;第二部分將字符級特征與詞向量等特征進(jìn)行拼接,輸入給雙向長短期記憶網(wǎng)絡(luò)進(jìn)行訓(xùn)練,再通過條件隨機(jī)場解決標(biāo)簽結(jié)果序列不合理的問題,識別出文中的實(shí)體,所提出的框架在軍用軟件測試數(shù)據(jù)集上的F1 值達(dá)到了88.93%.
在醫(yī)療領(lǐng)域,寧尚明等人[12]針對電子病歷實(shí)體的高密度分布以及實(shí)體間關(guān)系的交叉互聯(lián)問題,提出一種基于多通道自注意力機(jī)制的“recurrent+transformer”神經(jīng)網(wǎng)絡(luò)架構(gòu),提升對電子病歷專有文本特點(diǎn)的學(xué)習(xí)能力,同時顯著降低模型整體復(fù)雜度,并且在該網(wǎng)絡(luò)架構(gòu)下提出帶權(quán)學(xué)習(xí)的交叉熵?fù)p失函數(shù)以及基于權(quán)重的位置嵌入的輔助訓(xùn)練方法,該框架相繼在2010 i2b2/VA及SemEval 2013 DDI 醫(yī)學(xué)語料中進(jìn)行驗(yàn)證,相較于傳統(tǒng)自注意力機(jī)制,多通道自注意力機(jī)制的引入在模型整體F1 指標(biāo)中最高實(shí)現(xiàn)10.67%的性能提升,在細(xì)粒度單項對比實(shí)驗(yàn)中,引入類別權(quán)重的損失函數(shù)在小類別樣本中的F1 值最高提升近23.55%.
本文針對簡要案情文本存在實(shí)體稠密分布、實(shí)體間相互嵌套以及實(shí)體簡稱的問題,對字符向量的生成方法進(jìn)行了改進(jìn),提出了RC-BiLSTM-CRF 網(wǎng)絡(luò)框架.RC-BiLSTM-CRF 整體算法框架如圖1所示,主要分為輸入模塊、字符向量生成模塊和輸出模塊,先對待標(biāo)注文本進(jìn)行數(shù)據(jù)清洗,用正則方法將待標(biāo)注的文本的噪聲信息過濾掉,有利于本文所提模型提取出重要特征信息;將清洗后的數(shù)據(jù)輸入到字符向量生成模塊,字符向量生成模塊中首先通過Roberta 預(yù)訓(xùn)練模型將文本生成字符向量,經(jīng)過本文合理設(shè)計的卷積層能夠提取字符向量中的局部關(guān)鍵特征,并能將冗長的字符向量進(jìn)行濃縮,緊隨的激活層能夠有效提高卷積層的特征學(xué)習(xí)能力和提升網(wǎng)絡(luò)的性能;經(jīng)過字符向量生成模塊后,將字符向量輸入到BiLSTM 層,BiLSTM 層對字符序列進(jìn)行上下文特征以及字符間依賴性學(xué)習(xí),通過Dropout 層隨機(jī)刪掉網(wǎng)絡(luò)中一定比例的隱藏神經(jīng)元,可以有效緩解模型過擬合情況,TimeDistributed 層將所有字符的向量維度進(jìn)行約束,使得字符向量的維度等于實(shí)體標(biāo)簽數(shù),最后通過CRF 層得到輸入文本的標(biāo)注序列.
圖1 本文提出的整體算法框架
本文提出的RC-BiLSTM-CRF 模型的整體結(jié)構(gòu)如圖2所示,網(wǎng)絡(luò)結(jié)構(gòu)包括一個Roberta 預(yù)訓(xùn)練層,一個CNN 層和BiLSTM-CRF 模型.下面將對RC-BiLSTMCRF 網(wǎng)絡(luò)結(jié)構(gòu)的各個部分進(jìn)行詳細(xì)闡述.
圖2 模型整體結(jié)構(gòu)
預(yù)訓(xùn)練模型本質(zhì)上運(yùn)用了遷移學(xué)習(xí)[13]的思想,利用大規(guī)模訓(xùn)練語料為預(yù)訓(xùn)練模型的參數(shù)進(jìn)行訓(xùn)練,然后將訓(xùn)練好的模型應(yīng)用到下游任務(wù),避免了深度學(xué)習(xí)模型重新訓(xùn)練參數(shù)和減少了對標(biāo)注數(shù)據(jù)的需求,縮短了字、詞向量訓(xùn)練的耗時.Roberta 預(yù)訓(xùn)練模型是BERT (bidirectional encoder representations from transformers)預(yù)訓(xùn)練模型的改進(jìn)模型,Liu 等人對BERT 預(yù)訓(xùn)練模型進(jìn)行精細(xì)調(diào)參和調(diào)整訓(xùn)練集,訓(xùn)練得到的Roberta 模型在性能上相較于BERT 模型提升顯著[14–16].Roberta 預(yù)訓(xùn)練模型充分考慮字符級、詞語級、句字級和句間的關(guān)系特征,增強(qiáng)了字向量的語義表示,把這些學(xué)習(xí)到的語義知識通過遷移學(xué)習(xí)應(yīng)用到數(shù)據(jù)規(guī)模和
標(biāo)注量較少的簡要案情的命名實(shí)體識別具體任務(wù)上,能使模型更好的挖掘簡要案情文本的特征信息.
將字符序列chars=(char1,char2,…,charn),輸入到Roberta 預(yù)訓(xùn)練模型中,Roberta 預(yù)訓(xùn)練模型通過在其他大規(guī)模語料上訓(xùn)練好的參數(shù)將chars中所有的字符生成向量,即char=(embedding1,embedding2,…,embedingm).相較于構(gòu)建word2id 詞典,通過id 匹配id2vec 詞典的方法,預(yù)訓(xùn)練模型可以縮短字符向量的維度,有效解決文本特征稀疏問題,學(xué)習(xí)上下文信息來表征字詞的多義性.
卷積神經(jīng)網(wǎng)絡(luò)在本文所提出的字符向量生成方法中起著關(guān)鍵性作用,卷積神經(jīng)網(wǎng)絡(luò)層可以為Roberta 預(yù)訓(xùn)練模型生成的字符向量進(jìn)一步提煉,去除冗長字向量中的噪聲,提取出簡短并蘊(yùn)含局部重要特征信息的字符向量.卷積操作的計算公式如下所示:
其中,* 表示卷積計算,Xlj表示第l層的第j個字符特征向量,Xlj-1表示第l-1 層的第j個字符特征向量,Kilj表示用來連接第l層的第i個字符特征向量和第j個字符特征向量的卷積核,Blj表示第l層的第j個字符特征向量的偏置量[17].
由于從Roberta 預(yù)訓(xùn)練模型中生成的字符向量是一維向量,于是本文使用一維卷積層對字符向量進(jìn)行細(xì)粒度特征捕捉操作.為了合理選擇卷積層的濾波器的數(shù)量,本文選取了10–40 個濾波器進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)參數(shù)中epochs 均為50,batch_size 均為16,卷積核大小均為3,實(shí)驗(yàn)結(jié)果如圖3所示.
如圖3所示,使用28 個濾波器的卷積層在本模型中的效果是最好的,所以本文針對簡要案情命名實(shí)體識別設(shè)計了包含28 個濾波器,卷積核大小為3的卷積層.由于池化層是一個下采樣的過程,在減小特征向量長度的同時,會使得部分案情實(shí)體特征信息丟失,從而降低下一步BiLSTM 進(jìn)行上下文特征提取的性能,收斂速度變得緩慢,從而影響模型最終的實(shí)體標(biāo)注的準(zhǔn)確率,因此在本文的網(wǎng)絡(luò)結(jié)構(gòu)中取消了池化層的使用.經(jīng)Roberta 預(yù)訓(xùn)練模型處理得到每個字符向量的維度為3072 維,通過綜合考慮設(shè)計的包含28 個濾波器,卷積核大小為3的卷積層,對字符向量的特征進(jìn)行提取,使得字符向量序列從100×3072 降維到100×28 維,解決了預(yù)訓(xùn)練模型帶來的字符向量冗長的問題,框架參數(shù)量的減少促使模型整體參數(shù)收斂的速率提高了9.46%,同時F1 值提高了1.73%.
圖3 濾波器實(shí)驗(yàn)對比
BiLSTM-CRF 模型拉開了命名實(shí)體識別深度學(xué)習(xí)時代的序幕,使得命名實(shí)體識別模型更加簡潔高效,魯棒性更強(qiáng).本文針對簡要案情本文構(gòu)建基于BiLSTMCRF的實(shí)體識別模型,模型分為2 部分,接下來進(jìn)行詳細(xì)介紹.
3.3.1 BiLSTM 層
將已標(biāo)注訓(xùn)練文本輸入到上文提及的字符向量生成方法中,生成字符向量.將字符向量輸入到BiLSTM層中.BiLSTM 包含了前向和后向的長短期記憶(LSTM),通過BiLSTM 可以更好地學(xué)習(xí)上下文信息以及捕捉雙向的語義依賴,彌補(bǔ)了LSTM 不能向前編碼信息的能力.在LSTM中,有兩個狀態(tài)向量C和h,其中C作為LSTM的內(nèi)部狀態(tài)向量,可以理解為LSTM的內(nèi)存狀態(tài)向量Memory,而h表示LSTM的輸出向量.相對于基礎(chǔ)的RNN 來說,LSTM 把內(nèi)部Memory和輸出分開為兩個變量,同時利用3 個門控:輸入門(imput gate)、遺忘門(forget gate)和輸出門(output gate)來控制內(nèi)部信息的流動,公式如式(2)–式(7)所示:
其中,W、b分別表示LSTM的隱藏層權(quán)重矩陣和偏置向量,ft,it,ot分別表示時間戳t的遺忘門、輸入門和輸出門,σ是Sigmoid 激活函數(shù),t anh是tanh 激活函數(shù),ht和Ct分 別表示時間戳t的輸出和細(xì)胞單元狀態(tài).正向LSTM的輸出值為反向LSTM的輸出值為BiLSTM 則是將正向LSTM跟反向LSTM 所得的向量進(jìn)行拼接,即
3.3.2 CRF 輸出層
CRF 在整個模型中起著至關(guān)重要的作用,因?yàn)榻?jīng)過BiLSTM 層處理,得到的字符向量是字符對應(yīng)的所有標(biāo)簽的概率,最終輸出的結(jié)果是每個字符對應(yīng)的最大概率值的標(biāo)簽,這樣會導(dǎo)致輸出的標(biāo)簽序列可能不符合命名實(shí)體識別規(guī)范.CRF的維特比算法在解碼時候擁有較高的效率,通過CRF 層的約束,讓輸出標(biāo)簽序列符合實(shí)體規(guī)則.標(biāo)簽序列的最終標(biāo)注由Emission-Score (發(fā)射狀態(tài)矩陣)跟TransitionScore (轉(zhuǎn)移分?jǐn)?shù))決定.當(dāng)輸入序列,標(biāo)注序列,公式如式(8)和式(9)所示:
x=(x1,x2,···,xn)y=(y1,y2,···,yn)
其中,EmissionS core表示BiLSTM 輸出標(biāo)簽的分?jǐn)?shù),TransitionS core表示標(biāo)簽之間轉(zhuǎn)移的分?jǐn)?shù),eSi表示當(dāng)前標(biāo)簽序列分?jǐn)?shù),是所有標(biāo)簽序列的分?jǐn)?shù)的總計,最大P(y|x) 值對應(yīng)的y為序列x的正確標(biāo)注序列.
本文所使用的數(shù)據(jù)集來自湖南省省公安機(jī)關(guān)的簡要案情數(shù)據(jù)集(JW_data),數(shù)據(jù)的格式為tsv,本文先用正則方法將待清洗的數(shù)據(jù)集的噪聲信息過濾掉,有利于本文模型提取出重要特征信息,清洗后的數(shù)據(jù)集中訓(xùn)練集占60%,測試集占20%,驗(yàn)證集占20%.數(shù)據(jù)統(tǒng)計信息如表1所示.
表1 數(shù)據(jù)實(shí)體統(tǒng)計
清洗后的簡要案情數(shù)據(jù)集在標(biāo)注平臺doccano 進(jìn)行人工標(biāo)注,將案發(fā)地點(diǎn)、涉案人員、涉案財產(chǎn)和涉案事件關(guān)鍵詞4 類實(shí)體作為本實(shí)驗(yàn)的標(biāo)注實(shí)體,對簡要案情數(shù)據(jù)集采用BIO 標(biāo)注方式,B (Begin)對應(yīng)字符序列中實(shí)體的起始位置,I (Intermediate)對應(yīng)字符序列中實(shí)體的中間位置或者結(jié)束位置,O (Other)對應(yīng)字符序列中非實(shí)體的字符,案發(fā)地點(diǎn)的標(biāo)簽包括(B-LOC,ILOC),涉案人員的標(biāo)簽包括(B-PER,I-PER),涉案財產(chǎn)的標(biāo)簽包括(B-Property,I-Property),涉案事件關(guān)鍵詞的標(biāo)簽包括(B-Event,I-Event),非實(shí)體字符的標(biāo)簽為(O).實(shí)體統(tǒng)計如表2所示.
表2 數(shù)據(jù)實(shí)體標(biāo)簽統(tǒng)計
本文選擇Roberta 預(yù)訓(xùn)練模型生成簡要案情數(shù)據(jù)集的字符向量,字符序列長度設(shè)置為100,所生成的字符向量維度設(shè)定為3072,所以輸出字符向量序列的維度為100×3072.本文實(shí)驗(yàn)使用的Batch_size 設(shè)定為16,epochs 設(shè)定為50,學(xué)習(xí)率為0.001.卷積神經(jīng)網(wǎng)絡(luò)中卷積層的過濾器數(shù)量為28,kernel_size為3,padding為“same”,激活函數(shù)為ReLU 函數(shù),卷積層的權(quán)重初始化方法為“glorot_uniform”,偏移初始化方法為“zeros”,輸出的字符序列維度為100×28;雙向長短期記憶的units 設(shè)定為128,故輸出的字符序列維度為100×256,dropout為0.4.
本文采用準(zhǔn)確率(precision),召回率(recall),F1 值作為模型的評價標(biāo)準(zhǔn),對簡要案情數(shù)據(jù)的實(shí)體識別結(jié)果進(jìn)行全方面的評價.精確度、召回率和F1 值的公式如式(10)和式(12)所示:
其中,T p表示實(shí)際為正被預(yù)測為正的實(shí)體數(shù)量,Fp表示實(shí)際為負(fù)但被預(yù)測為正的實(shí)體數(shù)量,Fn表示實(shí)際為正但被預(yù)測為負(fù)的實(shí)體的數(shù)量.
本文采用BiGRU、BiBRU-CRF、BiLSTM、BiLSTMCRF 及CNN-LSTM 作為基線模型與本文所提的模型進(jìn)行對比,各模型的基本信息如下:
(1)BiGRU:采用BiGRU 提取特征并通過全連接層直接對字符向量序列進(jìn)行標(biāo)注的模型.
(2)BiBRU-CRF:采用BiGRU 提取特征并結(jié)合CRF 對輸入字符向量序列進(jìn)行標(biāo)注的模型.
(3)BiLSTM:采用BiLSTM 提取上下文特征并通過全連接層直接對字符向量序列進(jìn)行標(biāo)注的模型.
(4)BiLSTM-CRF:采用BiLSTM 提取上下文特征并結(jié)合CRF 對輸入字符向量序列進(jìn)行標(biāo)注的模型.
(5)CNN-LSTM:采用本文設(shè)計的卷積神經(jīng)網(wǎng)絡(luò)對字符
向量的局部特征進(jìn)行捕捉,再通過LSTM 層對字符向量序列的正向特征進(jìn)行學(xué)習(xí),最后通過全連接層直接對字符向量序列進(jìn)行標(biāo)注的模型.
為驗(yàn)證本文所提模型加入Roberta 預(yù)訓(xùn)練模型的必要性,本文對所提出的模型和基線模型進(jìn)行了驗(yàn)證,性能對比如表3所示.
從表3的結(jié)果可以看出以上6 種模型通過加入Roberta 預(yù)訓(xùn)練模型訓(xùn)練數(shù)據(jù)集的字符向量,準(zhǔn)確率、召回率和F1 值都能大幅度提升,Roberta 預(yù)訓(xùn)練模型通過在大規(guī)模訓(xùn)練語料訓(xùn)練模型參數(shù),一定程度上減少了對本文實(shí)驗(yàn)標(biāo)注數(shù)據(jù)的依賴性,避免了本文實(shí)驗(yàn)數(shù)據(jù)較少導(dǎo)致模型效果不理想的情況.以上6 種模型,相較于未加入Roberta 預(yù)訓(xùn)練模型的框架,準(zhǔn)確率提高了5.94%~10.75%,召回率提高了5.56%~9.36%,F1 值提高了5.78%~10.12%,由此可見在本文所提的模型中加入Roberta 預(yù)訓(xùn)練模型是必要的.
表3 對比實(shí)驗(yàn)結(jié)果(%)
通過表3,可知基于本文的簡要案情數(shù)據(jù),加入Roberta 預(yù)訓(xùn)練模型可以全方面提升模型的性能,于是本文將R-BiGRU、R-BiBRU-CRF、R-BiLSTM、RBiLSTM-CRF和R-CNN-LSTM 這5 種模型相互之間進(jìn)行性能對比,模型性能對比如表4所示.
表4 模型性能對比(%)
由表4所示,在加入Roberta 預(yù)訓(xùn)練模型后,以上5 種模型在簡要案情文本上的準(zhǔn)確率、召回率和F1值上都表現(xiàn)出了不錯的性能,其中R-BiLSTM-CRF 模型的precision 值為85.38%和F1 值為86.29%,相對于其它4 種模型來說有較大的領(lǐng)先優(yōu)勢.
為了驗(yàn)證本文設(shè)計的卷積神經(jīng)網(wǎng)絡(luò)能大幅度提升模型的效率跟模型的性能,將CNN-BiLSTM-CRF 模型與BiLSTM-CRF 進(jìn)行實(shí)驗(yàn)對比,RC-BiLSTM-CRF 與加入Roberta 預(yù)訓(xùn)練模型的BiLSTM-CRF 模型(RBiLSTM-CRF 模型)進(jìn)行實(shí)驗(yàn)對比,多方面的實(shí)驗(yàn)對比結(jié)果如表5所示.
由表5可知,CNN-BiLSTM-CRF 模型相較于BiLSTM-CRF 模型,準(zhǔn)確率提高了1.39%,F1 值提高了0.42%,以及耗時減少了7.10%.RC-BiLSTM-CRF模型相較于R-BiLSTM-CRF 模型,準(zhǔn)確率提高了1.85%,召回率提高了1.58%,F1 值提高了1.73%,以及耗時減少了9.46%.由此可見,本文所提出的卷積神經(jīng)網(wǎng)絡(luò)能大幅度提升模型的效率跟模型的性能.
表5 多方面對比實(shí)驗(yàn)
綜合表3–表5所述,本文針對簡要案情的實(shí)體識別方法,與基線模型的對比之下,在準(zhǔn)確率、召回率和F1值均表現(xiàn)出了突出的性能優(yōu)勢.得益于本文合理設(shè)計的卷積神經(jīng)網(wǎng)絡(luò),使得本文所提出的RC-BiLSTMCRF 模型相較于R-BiLSTM-CRF 模型,在大幅度提高模型識別性能的同時,還降低了訓(xùn)練模型所耗費(fèi)的時間.
本文主要研究了面向簡要案情的命名實(shí)體識別任務(wù),考慮到目前尚無針對該領(lǐng)域命名實(shí)體識別的研究,本文首次嘗試對該方向進(jìn)行了學(xué)習(xí)和探討,構(gòu)建了用于命名實(shí)體識別的簡要案情文本的標(biāo)注數(shù)據(jù)集,并在前人研究的基礎(chǔ)之上提出了一種改進(jìn)的識別框架(RCBiLSTM-CRF),通過改進(jìn)的字符向量生成方法對簡要案情數(shù)據(jù)的字符進(jìn)行了有效的表示,生成字符向量,通過該方法中合理設(shè)計的卷積神經(jīng)網(wǎng)絡(luò)層對字符向量的局部細(xì)粒度特征進(jìn)行提取,降低了字符向量維度,解決了預(yù)訓(xùn)練模型帶來的字符向量冗長的問題,框架參數(shù)量的減少促使模型整體參數(shù)收斂的速率大幅度提高,為彌補(bǔ)一維卷積層在字符序列上下文特征和依賴關(guān)系提取的缺陷,在模型中引入BiLSTM 層,最后利用CRF 層對文本序列標(biāo)簽進(jìn)行約束輸出.本文提出的RC-BiLSTM-CRF 網(wǎng)絡(luò)框架,相對于未加入本文設(shè)計的卷積神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)框架,在準(zhǔn)確度、召回率和F1 值上分別提高了1.85%、1.58%和1.73%,總耗時減少了9.46%,與其它4 種模型相比較,在準(zhǔn)確率、召回率和F1 值3 個評價標(biāo)準(zhǔn)上均取得了最好的效果.由于本實(shí)驗(yàn)是在標(biāo)注量少的簡要案情數(shù)據(jù)集上進(jìn)行的,在接下來的工作中,可拓展簡要案情的數(shù)據(jù)規(guī)模,使得模型的魯棒性更好.