樊 昊,陳俊杰,高 靜,劉曉玲
(1. 內(nèi)蒙古農(nóng)業(yè)大學(xué)計算機(jī)與信息工程學(xué)院,內(nèi)蒙古 呼和浩特 010000;2. 內(nèi)蒙古自治區(qū)農(nóng)牧業(yè)大數(shù)據(jù)研究與應(yīng)用重點(diǎn)實驗室,內(nèi)蒙古 呼和浩特 010000)
隨著我國經(jīng)濟(jì)的飛速發(fā)展以及人民日益增長的美好生活需要,世界各領(lǐng)域都趨于自動化與信息化。在紀(jì)檢監(jiān)察領(lǐng)域工作中有事件數(shù)據(jù)量較大、事件中蘊(yùn)含實體較多、事件涉及范圍較廣等特點(diǎn),特別是紀(jì)檢監(jiān)察體制改革以來各類案件數(shù)量攀升,統(tǒng)計分析耗時耗力,導(dǎo)致辦案復(fù)雜度不斷升高,實時性和有效性的保證成為了一大難關(guān)。針對這一現(xiàn)存問題,紀(jì)檢監(jiān)察領(lǐng)域?qū)崿F(xiàn)信息自動化成為了國家法制體系邁入信息時代的必然趨勢,紀(jì)檢監(jiān)察領(lǐng)域的信息自動化可為國家反腐敗提供了便利條件,可減輕有關(guān)人員的工作負(fù)擔(dān),提高紀(jì)檢監(jiān)察工作的效率和質(zhì)量。
命名實體識別(Named Entity Recognition,NER)是自然語言處理(Natural language processin g, NLP)中的一項基本任務(wù)[1],起初在 MUC-6(Message Understan ding Conference)會議上被正式提出,在機(jī)器翻譯、問答系統(tǒng)等方面具有重要意義[2]。其主要工作是從一段特定文本中識別出特定類型的實體(如人名,組織名,地名,時間等)。為了解決命名實體識別的問題,從基于規(guī)則和詞典的方法[3]、到基于統(tǒng)計的方法,再到基于深度學(xué)習(xí)的方法[4],國內(nèi)外已有大量的研究和深入的探討。
基于規(guī)則和字典的方法多采用人工方式,依據(jù)數(shù)據(jù)集特征,制定規(guī)則或者詞典。包括統(tǒng)計信息,標(biāo)點(diǎn)符號等性能。如Rau 等學(xué)者[5]用人工制定的規(guī)則與啟發(fā)式想法相結(jié)合,實現(xiàn)了自動抽取公司名稱類型的命名實體。
基于統(tǒng)計的方法對特征選擇有很高的要求。需要從文本中選擇影響任務(wù)的各種特征,并將這些特征添加到特征向量中[6]。目前常用的統(tǒng)計模型包括隱馬爾可夫模型(Hidden Markov Mode,HMM)[7,8],支持向量機(jī)(Support Vector Ma-chine,SVM)[7],最大熵模型(Maxm-ium Entr-opy)[9]等,周曉輝[10]使用HMM方法進(jìn)行法律命名實體識別,在地名和組織名上比在斯坦福NER上有所提高。Collins等[11]人使用MEM模型來進(jìn)行命名體識別任務(wù),并對于MEM模型中參數(shù)如何修改、估計等問題,提出了解決方法;McCallum等[12]首先使用CRF模型應(yīng)用在命名實體識別任務(wù),該模型實現(xiàn)方法簡單,識別快速。
基于深度學(xué)習(xí)的方法將神經(jīng)網(wǎng)絡(luò)引入進(jìn)行命名體識別任務(wù)[13]。Huang[14]運(yùn)用雙向長短期記憶模型結(jié)合條件隨機(jī)場(BilSTM-CRF),在基準(zhǔn)標(biāo)注數(shù)據(jù)集進(jìn)行識別任務(wù),取得了較好的效果。Guillaume Lample等[15]使用基于LSTM-CRF的識別模型,結(jié)合詞向量的表示方式,在英語、荷蘭語、德語以及西班牙語上都取得了較好的識別結(jié)果。武惠[16]等人使用遷移學(xué)習(xí)模型,在特定的小數(shù)據(jù)集上,其機(jī)構(gòu)名準(zhǔn)確率、召回率和F值與其他方法比較取得了較好的效果。
為解決紀(jì)檢監(jiān)察領(lǐng)域命名實體識別問題,提出一種基于BiLSTM-CRF深度學(xué)習(xí)模型進(jìn)行紀(jì)檢監(jiān)察事件的命名實體識別,并構(gòu)建了紀(jì)檢監(jiān)察事件語料庫為數(shù)據(jù)集,使用BIOES序列標(biāo)注方法標(biāo)記該數(shù)據(jù)集的實體并與其他模型比較,實驗結(jié)果表明文中提出的模型在紀(jì)檢監(jiān)察領(lǐng)域?qū)嶓w識別上是有效的。
本文構(gòu)建的紀(jì)檢監(jiān)察命名實體識別模型如圖1。該模型主要包括:字符級輸入層、BiLSTM隱藏層、CRF層。首先將輸入語句按照字符拆分進(jìn)行輸入,再將字符轉(zhuǎn)化為向量作為模型的輸入,通過隱藏層進(jìn)行特征信息提取,最后通過條件隨機(jī)場進(jìn)行輸出結(jié)果得到模型最終的輸出結(jié)果。
圖1 BiLSTM-CRF模型結(jié)構(gòu)圖
Embedding層主要是負(fù)責(zé)將輸入窗口的字進(jìn)行字向量映射,也就是將離散字符映射到分布式表示中。首先將已標(biāo)注好的語料進(jìn)行簡單的預(yù)處理(去除多余的字符),然后采用初始化了一個隨機(jī)矩陣n*d,n是矩陣的長,即字典的大小,d是用來表示字典中每個元素的屬性向量的維數(shù),形成的n*d向量矩陣作為模型的輸入。
LSTM 是 RNN 的一種改變類型,可以學(xué)習(xí)長期依賴信息,通過門的設(shè)計來避免長期依賴問題,將記住信息進(jìn)行傳遞。LSTM 結(jié)構(gòu)如圖2。
圖2 LSTM結(jié)構(gòu)圖
ft=σ(Wf[ht-1,xt]+bf)
(1)
it=σ(Wf[ht-1,xt]+bi)
(2)
(3)
(4)
ot=σ(Wo[ht-1,xt]+bo)
(5)
ht=ot*tanh(ct)
(6)
由式(1)~(6)計算后,可以得到與句子長度相同的隱層狀態(tài)序列{h0,h1,…h(huán)n-1}。BiLSTM神經(jīng)網(wǎng)絡(luò)模型是將兩個LSTM進(jìn)行前后向傳遞,最終將兩個隱狀態(tài)序列進(jìn)行拼接,這樣既可以接收到前邊的信息,又能兼顧到后面句子的信息,可以使得效果更好。
為了解決從BiLSTM模型中輸出的標(biāo)簽序列可能無效的問題,提出將CRF模型連接在BiLSTM模型的輸出之后,對BiLSTM模型輸出的標(biāo)簽序列進(jìn)行解碼,進(jìn)行句子級的序列標(biāo)注,而不是單獨(dú)解碼每個標(biāo)簽。
CRF模塊可以通過從訓(xùn)練集學(xué)習(xí)到一些約束,以確保最終預(yù)測到的實體標(biāo)簽序列是有效的,從而解決基于神經(jīng)網(wǎng)絡(luò)方法的預(yù)測標(biāo)簽序列可能無效的問題。在CRF模塊的損失函數(shù)中,輸出分?jǐn)?shù)最大的序列為標(biāo)簽預(yù)測序列,假設(shè)給定序列X,設(shè)序列標(biāo)注結(jié)果為y,則定義分?jǐn)?shù)為
(7)
其中,P是BiLSTM模塊隱層輸出經(jīng)線性操作后得到的初始得分矩陣,A是轉(zhuǎn)換得分矩陣。Ai,j為標(biāo)簽i后面接標(biāo)簽j的概率,Pi,j為詞Wi映射到標(biāo)簽j的概率。對輸入序列X對應(yīng)的輸出標(biāo)簽序列y計算分?jǐn)?shù),最終的預(yù)測標(biāo)簽序列為得分最高的序列。
4.1.1 數(shù)據(jù)語料說明
本文實驗所用的紀(jì)檢監(jiān)察數(shù)據(jù)為爬取的中央紀(jì)委國家監(jiān)委網(wǎng)站內(nèi)各省市的“審查調(diào)查”欄的黨政違紀(jì)處分文本。
4.1.2 實體類別說明
本文對3646條紀(jì)檢監(jiān)察數(shù)據(jù)進(jìn)行實體標(biāo)注識別工作,在實體類別上,設(shè)定三種實體:
1)人名
在每條紀(jì)檢監(jiān)察數(shù)據(jù)中,會涉及到犯罪嫌疑人、行賄受賄人等姓名信息,是整個事件中是主體,是該事件的最基本信息。
2)立案組織機(jī)構(gòu)名
立案組織機(jī)構(gòu)是事件中涉事嫌疑人的定罪機(jī)構(gòu),如“遼寧省紀(jì)委監(jiān)委”等,該組織機(jī)構(gòu)反映該事件的有關(guān)案件審理,鑒定,移交,處理等流程信息。
3) 處分名
處分名包含如“開除黨籍”、“開除公職”等實體名,是涉事嫌疑人經(jīng)過立案機(jī)構(gòu)監(jiān)察調(diào)查后,得到的由立案機(jī)構(gòu)的處理結(jié)果。
4.1.3 數(shù)據(jù)標(biāo)注過程與統(tǒng)計
4.1.3.1 數(shù)據(jù)標(biāo)注過程
數(shù)據(jù)標(biāo)注采用原始標(biāo)注的方法,將3646條數(shù)據(jù)中的每個文字進(jìn)行標(biāo)注,采用五標(biāo)記BIOES標(biāo)注,其中字符B(Begin)代表一個實體的開始,I(Intermediate)代表一個實體的中間部分,E(End)代表一個實體的尾部,S(Signal)代表單個字符,O(Other)代表無關(guān)字符。標(biāo)注數(shù)據(jù)樣式如圖3。
圖3 語料標(biāo)注模式
4.1.3.2 數(shù)據(jù)統(tǒng)計
從中央紀(jì)委國家監(jiān)委網(wǎng)站獲取各省市紀(jì)檢監(jiān)察數(shù)據(jù)3646條,共計109.7萬字。原始語料標(biāo)注見表1。
表1 原始語料標(biāo)注情況
實體標(biāo)注數(shù)量如下表2。
表2 實體標(biāo)注情況
本文涉及的命名實體識別任務(wù)有三類,需要進(jìn)行單個類別和整體系統(tǒng)性能的評估,采用準(zhǔn)確率(Precision,P)、召回率(Recall,R)、F值(F-score)作為命名實體識別性能的評價指標(biāo)。
它們的計算公式分別如表3、式(8)、(9)、(10)。
表3 混淆矩陣分類表
準(zhǔn)確率公式如下
(8)
召回率公式如下
(9)
F值公式如下
(10)
4.3.1 Val_loss值隨迭代次數(shù)對比
從圖4、5中可知,在神經(jīng)網(wǎng)絡(luò)的訓(xùn)練初期,各個模型的初始loss值較高,隨著迭代次數(shù)的增加 loss值逐漸減小,最終loss值達(dá)到一個很小的數(shù)值,并處于一個很小范圍浮動的狀態(tài),表明各個模型具有較好的訓(xùn)練學(xué)習(xí)效果。
圖4 BiLSTM模型迭代次數(shù)對Val_loss值影響
圖5 BiLSTM-CRF模型迭代次數(shù)對Val_loss值影響
4.3.2 每個標(biāo)簽上的F1值進(jìn)行對比
從圖6可以看出,人名和組織機(jī)構(gòu)名兩種實體預(yù)測的F值低于處分名實體,主要原因是因為處分名較為有結(jié)構(gòu),不存在大量縮略詞,名稱嵌套等干擾信息,且出現(xiàn)的位置也較為固定,而人名和組織機(jī)構(gòu)名有大量縮略詞。因此,在預(yù)測中處分名F值高于人名和組織機(jī)構(gòu)名約1.5個百分點(diǎn)。
圖6 BiLSTM模型與BiLSTM-CRF模型各類實體F值
4.3.3 兩模型標(biāo)簽P,R,F(xiàn)值對比
由表4可以看出,BiLSTM-CRF模型F值略高于BiLSTM模型F值,說明CRF學(xué)習(xí)的轉(zhuǎn)移矩陣起了一定的作用,使其標(biāo)簽之間的聯(lián)系更加密切,充分利用序列的整體信息,但二者差別不大,究其原因可能是因為紀(jì)檢監(jiān)察的語料少,使CRF的轉(zhuǎn)移矩陣不能很好的學(xué)習(xí)到;有些實體會出現(xiàn)在文本固定的位置,即文本存在結(jié)構(gòu)性,使模型可以精準(zhǔn)預(yù)測到,其次可能是識別的實體種類過少,造成兩模型性能差別不大。
表4 BiLSTM與BiLSTM-CRF評測指標(biāo)
系統(tǒng)設(shè)計流程如圖7。
圖7 系統(tǒng)設(shè)計流程圖
首先進(jìn)入登陸界面,輸入用戶名,密碼,驗證成功后方可進(jìn)入首頁,如下圖8、9。
圖8 中文命名體識別平臺登陸界面
圖9 中文命名體識別平臺主頁
在左側(cè)導(dǎo)航欄選擇命名體識別按鈕后,會跳轉(zhuǎn)到識別界面,在上方文本框中輸入待識別文本,然后點(diǎn)擊中間的“立即提交”按鈕,有關(guān)這個案例的所有命名體被識別出來并且顯示在下方的文本框中。或者點(diǎn)擊中間上傳文件,可以上傳案例事件,點(diǎn)擊中間“上傳”按鈕,有關(guān)文本文件中事件的命名實體都會顯示在下方文本框中,輸出界面如圖10。
圖10 系統(tǒng)輸出界面
本文提出了基于 BiLSTM-CRF的紀(jì)檢監(jiān)察領(lǐng)域命名實體識別模型。模型在實驗數(shù)據(jù)集上取得了較好的效果,平均準(zhǔn)確率達(dá)到了99.63% 。隨著深度學(xué)習(xí)理論的快速發(fā)展,對命名實體識別的研究也會越來越深入。本文提出的模型在很多地方需要繼續(xù)改進(jìn)并爭取更進(jìn)一步的提高,對于后續(xù)的改進(jìn)工作,主要可以從以下方面嘗試:
1)數(shù)據(jù)集的規(guī)模較小,且實體類型少,下一步將進(jìn)行實體類別擴(kuò)充,可以考慮地名、時間、依據(jù)條例等實體進(jìn)行識別。
2)進(jìn)一步地修正數(shù)據(jù)集標(biāo)注是提高模型訓(xùn)練效果的有效方法。
3)后期可以加入注意力機(jī)制或建立該領(lǐng)域的詞典提升命名體識別準(zhǔn)確率。