黨雪云,王 劍*
(1.昆明理工大學(xué) 信息工程與自動化學(xué)院,云南 昆明 650500;2.云南省人工智能重點實驗室,云南 昆明 650500)
隨著現(xiàn)代互聯(lián)網(wǎng)信息技術(shù)的飛快發(fā)展,網(wǎng)絡(luò)上涌現(xiàn)越來越多的新聞文本信息。這類信息通常以非結(jié)構(gòu)化、錯綜復(fù)雜的文本形式出現(xiàn),使得人們理解新聞文本信息的難度越來越大。新聞要素信息是指新聞文本中的人名、地名、新聞領(lǐng)域要素等內(nèi)容。對這些要素信息的抽取,可以幫助人們更便捷地理解海量的新聞信息。本文以涉案新聞文本要素信息抽取為例,提出一種基于門控圖神經(jīng)網(wǎng)絡(luò)模型的要素信息抽取方法,通過構(gòu)建字粒度字詞關(guān)系組合圖的方式對新聞文本和領(lǐng)域詞匯進行建模,提高新聞文本要素信息抽取的性能。
涉案新聞要素信息抽取技術(shù)能夠幫助人們更便捷地分析新聞文本中出現(xiàn)的主體之間的關(guān)系,通過對涉案新聞文本進行分析,歸納出這些數(shù)據(jù)存在的一些特點。如圖1 所示,一是存在要素信息的簡稱識別不全問題;二是存在組合要素識別不全的問題;三是歧義詞干擾的問題,在這個示例中“人品”就是一個歧義詞。這些特點的存在導(dǎo)致了識別新聞文本要素信息時效果不佳。觀察到這些內(nèi)容和涉案新聞案件領(lǐng)域詞相關(guān)性很大,因此本文提出一種融合案件相關(guān)詞典的方法,通過圖神經(jīng)網(wǎng)絡(luò)將案件相關(guān)詞匯知識融入到涉案新聞文本內(nèi)容中,通過挖掘其潛在的語義特征提高涉案新聞文本要素信息抽取方法的性能。
圖1 涉案新聞文本要素信息抽取問題分析
新聞要素信息抽取任務(wù)可以看作面向特定領(lǐng)域的命名實體識別(Named Entity Recognition,NER)任務(wù)。當前,NER 方法主要分為基于規(guī)則的NER 方法、基于機器學(xué)習(xí)的NER 方法以及基于深度學(xué)習(xí)的NER 方法三大類。
基于規(guī)則的NER 方法主要是針對不同領(lǐng)域?qū)嶓w的特點,通過人工制定實體識別規(guī)則模板,比如基于特定領(lǐng)域的詞典、句法模式、詞法模式等實現(xiàn)命名實體識別。ZHANG 等人[1]設(shè)計了一個提取生物醫(yī)學(xué)文本中的命名實體的框架,該框架包括一個種子詞提取器、一個名詞詞組分塊器、一個IDF 過濾器以及一個基于分布語義的分類器,此方法可以應(yīng)用于不同的設(shè)置和應(yīng)用程序;QUIMBAYA 等人[2]提出了一種用于電子健康病歷領(lǐng)域的命名實體識別方法,該方法結(jié)合了模糊匹配原則和詞干匹配原則,在公開數(shù)據(jù)集上的實驗表明命名實體的召回率獲得明顯的提升;沈等人[3]通過分析中文組織機構(gòu)名的全稱特征,設(shè)計并構(gòu)建了中文組織機構(gòu)詞庫、規(guī)則集,最后利用規(guī)則匹配與決策、相似機構(gòu)名稱合并的方式識別出中文組織機構(gòu)名的全稱,之后又通過類似的分析過程對中文組織機構(gòu)名簡稱進行識別。雖然利用基于規(guī)則的方法可以取得不錯的性能,但針對涉案新聞文本,其文本雜亂無章、表達方式不規(guī)范,想要構(gòu)建完備的實體識別規(guī)則庫較為困難。
基于機器學(xué)習(xí)的NER 方法主要是利用大規(guī)模標注語料庫自動學(xué)習(xí)文本的詞、詞性及上下文特征,自動構(gòu)建特征模板,利用特征模板和支持向量機(Support Vector Machine,SVM)等統(tǒng)計機器模型,預(yù)測文本中每個字的實體標簽。JI 等人[4]提出一種聯(lián)合模型來對twitter 文本中的不規(guī)則的地點信息進行識別,并將識別到的地點和定義規(guī)范的地點文本進行鏈接,該聯(lián)合模型允許使用全局特征,緩解了傳統(tǒng)結(jié)構(gòu)存在的錯誤傳播的問題。LIU 等人[5]提出了一種處理特定領(lǐng)域的遠程監(jiān)督NER 的方法,該方法利用了基于標題擴展詞典的思想和動態(tài)規(guī)劃推理的方式,取得了優(yōu)于之前相關(guān)算法的性能。AGERRI 等人[6]展示了如何在最少的人工干預(yù)情況下開發(fā)跨語言和數(shù)據(jù)集的命名實體識別系統(tǒng),充分結(jié)合了單詞淺層的、局部的特征表示,通過實驗證明了如何更有效地根據(jù)可用原始數(shù)據(jù)組合各類型單詞的表示特征。
近年來,深度學(xué)習(xí)方法在自然語言處理方向的研究取得了較好的性能。神經(jīng)網(wǎng)絡(luò)不僅具備強大的向量表達能力、捕獲上下文依賴信息的能力,而且可以通過端到端訓(xùn)練自動學(xué)習(xí)文本中潛在的高維語義信息。ZHANG 等人[7]提出一個晶格結(jié)構(gòu)的LSTM 模型,該模型編碼字符粒度的源文本和通過字典匹配來的潛在詞,得到詞與詞之間的序列信息表征,其中門控循環(huán)單元使得模型選擇出與文本最相關(guān)的字符、單詞,獲得了更好的NER 效果;LI 等人[8]提出了一個可以同時解決普通NER和嵌套NER 的框架,該框架將NER 任務(wù)轉(zhuǎn)換為機器閱讀理解問題,將每個實體的類型當作問題,然后利用問題去文中匹配識別對應(yīng)的實體;王等人[9]利用雙向編碼器表征量(Bidirectional Encoder Representations from Transformers,BERT)模型作為特征表示層,提取文本中的全局特征、局部特征,最后利用Bi-LSTM 提取上下文特征,用常見的條件隨機場(Conditional Random Fields,CRF)模型進行解碼得到實體識別結(jié)果。雖然機器學(xué)習(xí)方法和深度學(xué)習(xí)方法都能取得不錯的效果,但它們都依賴于大規(guī)模的標注數(shù)據(jù),而針對涉案輿情這一垂直領(lǐng)域要素識別數(shù)據(jù)集規(guī)模很小且標注不易,一時很難獲得大規(guī)模的標注數(shù)據(jù)。
合案件相關(guān)詞典的涉案新聞要素信息抽取方法,模型的整體架構(gòu)如圖2 所示。模型共包括3 個部分:首先,融合案件相關(guān)詞典的字詞關(guān)系組合圖構(gòu)建是模型的輸入部分,它顯式地建模了涉案新聞文本和案件相關(guān)詞典的交互信息;其次,使用門控圖神經(jīng)網(wǎng) 絡(luò)(Gated Graph Neural Network,GGNN)[10]模型對組合圖的信息進行編碼得到特征空間;最后,使用常見的Bi-LSTM-CRF 模型進行解碼,預(yù)測出最終的要素實體標簽。接下來對以上內(nèi)容進行詳細介紹。
圖2 融合法律領(lǐng)域詞典的圖神經(jīng)網(wǎng)絡(luò)模型
本文以涉案領(lǐng)域的新聞文本為例,提出一種融
本文構(gòu)建的組合圖的定義為G=(V,E),其中V代表結(jié)點集合,E代表邊的集合。結(jié)點集合V={xc,vs,ve},其中xc代表輸入新聞文本按字符切分的集合,vs和ve用于標記新聞文本在詞典中匹配到的要素信息的位置標記,vs代表匹配到的要素的起始位置,ve代表匹配到的要素的結(jié)束位置;邊集合E={ec,ev},其中ec是輸入的新聞文本字符vc之間的邊集合,ev指新聞文本匹配到詞典中的詞時產(chǎn)生的邊集合。
如圖2 所示,輸入層包括一個案件相關(guān)詞典和一段涉案新聞文本“近日,浙江省中院審結(jié)了一起放火盜竊罪案件,被告人品某良被依法判處有期徒刑兩年?!?。此文本共包含39 個字符,文本和詞典共匹配到3 組要素信息,分別是機構(gòu)名“浙江省中院”、罪名“防火盜竊罪”和人名“品某良”,所以圖中共包含45 個結(jié)點,其中x1,x2,…,x39是指輸入的新聞文本按字符粒度切分后共39 個結(jié)點,vs和ve分別是從詞典中匹配到要素時的起始位置標記、結(jié)束位置標記,共6 個結(jié)點。其次,共包含44 條有向邊,其中38 條是新聞文本字符xc之間的邊,也就是按照句子的自然語序依次在相鄰字符間添加從左向右的邊,它建模了輸入文本的語序信息;6 條是含有vs、ve的邊,它建模了輸入文本和詞典之間的交互信息。以上過程完成了融合案件相關(guān)詞典的組合圖的構(gòu)建過程。該圖不僅編碼了新聞文本中字符間的順序信息,同時也編碼了文本和詞典的交互信息。
門控圖神經(jīng)網(wǎng)絡(luò)(Gated Graph Sequence Neural Networks,GGNN)[10]是一種基于門控循環(huán)單元的模型,其優(yōu)點在于其能夠選擇性記憶鄰居結(jié)點的隱藏信息,還可以記憶結(jié)點迭代過程中的隱藏信息。首先對結(jié)點v的初始狀態(tài)進行初始化,即hv(0)=[char_vec,bichar_vec],其中char_vec代表字向量,即one-hot向量,bichar_vec代表雙字符向量,即采用2-gram語言模型的向量。圖的結(jié)構(gòu)化信息存儲于鄰接矩陣A中,其中A∈RD|V|×2D,|V|是圖中結(jié)點的個數(shù)。鄰接矩陣A決定了圖中結(jié)點之間傳遞信息的方式,矩陣的系數(shù)結(jié)構(gòu)對應(yīng)圖中的邊,每個子矩陣中的參數(shù)由圖中邊的方向確定。鄰接矩陣A還用于在每一個時間步檢索其鄰居結(jié)點的狀態(tài)信息,Av:∈RD|V|×2D表示結(jié)點v對應(yīng)的入射邊和出射邊的集合。隱藏層的狀態(tài)信息通過GRU 進行更新,它的推導(dǎo)公式如下:式中:hv(t)是結(jié)點v在時間步t時的隱藏狀態(tài),Av是結(jié)點v在鄰接矩陣中對應(yīng)的行向量;W和U是需要學(xué)習(xí)的參數(shù)。式(1)創(chuàng)建了時間步(t-1)時的狀態(tài)矩陣H;式(4)表示要通過相鄰節(jié)點傳播信息的方法;剩余的步驟結(jié)合鄰居節(jié)點的信息和時間步(t-1)的隱藏狀態(tài),計算出時間步t時的隱藏狀態(tài)hv
(t),最終經(jīng)過T個時間步,得到結(jié)點的最終狀態(tài)
本模型的解碼層選擇最常用的Bi-LSTMCRF 模型[11],它主要是雙向長短時記憶網(wǎng)絡(luò)(Bidirectional Long-short Term,Bi-LSTM)模型和條件隨機場(Conditional Random Fields,CRF)模型兩者組合而成,其中Bi-LSTM 用于提取上下文語義特征,CRF 用于對上下文信息進行約束性的解碼,將上一步通過圖神經(jīng)網(wǎng)絡(luò)得到的特征表示{hv|T||v∈T},按照輸入文本的自然語序?qū)⒚總€字符的特征表示輸入到標準的Bi-LSTM-CRF 模型,最終生成預(yù)測的要素標簽序列。
本文使用的涉案新聞要素信息語料集一共有8 500 條包含要素信息的句子,即真實涉案新聞文本進行數(shù)據(jù)清洗后通過人工篩選并標注的帶有要素的句子。使用時訓(xùn)練集、驗證集、測試集的比例是7 ∶2 ∶1。涉案新聞要素信息語料統(tǒng)計情況如表1 所示。
表1 涉案新聞要素信息語料統(tǒng)計表
本文構(gòu)建了一個規(guī)模為1 200 詞的詞典,包括人名、法院名及罪名共3 種類型的詞,其中法院名和罪名分別包含其全稱和簡稱。主要方法是使用正則匹配的方法從法律文書這類專業(yè)數(shù)據(jù)中匹配得到人名、罪名、法院名,部分罪名詞來自于搜狗輸入法詞庫的法律罪名專用詞庫。
為了更好地評估模型的效果,需要進行對比試驗。目前常用到準確率(Precision,P)、召回率(Recall,R)、和F1值(F1-Measure)作為評價指標。準確率P、召回率R和F1值的計算公式如下所示:
式中:TP表示把正例預(yù)測成正的概率,F(xiàn)P表示把負例預(yù)測成正的概率,F(xiàn)N表示把正例預(yù)測成負的概率。
實驗使用one-hot向量和2-gram雙字符向量拼接的方式對輸入數(shù)據(jù)進行初始化,得到其向量化表示,維度均為200 維。訓(xùn)練時,Dropout設(shè)置為0.5,學(xué)習(xí)率lr設(shè)置為0.01,訓(xùn)練輪次epoch 設(shè)置為100,batch_size設(shè)置為10,優(yōu)化器使用SGD。
本文選擇了6 個基準模型,分別在標注好的涉案新聞要素信息語料集上進行實驗?;鶞誓P桶?括Bi-LSTM-CRF,CAN,Lattice LSTM,LGN,LR-CNN,MG-GNN。 其 中,Bi-LSTM-CRF[11]包括Bi-LSTM 層和CRF 層,是常用的序列標注模型;CAN[12]融合本地注意力機制和卷積神經(jīng)網(wǎng)絡(luò),利用這種方式挖掘相鄰字符和上下文中的信息;Lattice LSTM[7]設(shè)計了一種晶格LSTM 模型,同時編碼輸入文本和字典匹配而得的潛在詞,充分挖掘文本中的語義特征;LGN[13]研究引入圖神經(jīng)網(wǎng)絡(luò)的方式利用全局語義特征,該網(wǎng)絡(luò)使用詞匯知識連接字符來捕獲局部信息,且全局中繼節(jié)點可以捕獲全局句子語義和長期依賴關(guān)系,基于字符、潛在詞和全句語義之間的多種圖的交互作用可以有效地處理詞語歧義問題。LR-CNN[14]提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的方法,利用反思的方式來整合詞匯信息。該方法可以并行建模與句子匹配的所有字符和潛在詞匯信息,反思機制還可以通過反饋高層次特征來解決詞匯沖突的問題,從而細化網(wǎng)絡(luò)。MG-GNN[15]提出了一種基于多向圖結(jié)構(gòu)的圖神經(jīng)網(wǎng)絡(luò)方法,自動學(xué)習(xí)如何將多個不同類型的詞典結(jié)合到NER 系統(tǒng)中,顯式地建模字符與詞典的相互作用,將來自不同詞典的信息加權(quán)組合,基于上下文信息解決了匹配沖突問題。
表2 不同模型對比
在采用F1值的評價方法中,本文模型與其他模型相比,F(xiàn)1值有2.12%~5.34%的提升。對比Bi-LSTM-CRF、CAN 和本文模型,說明了在圖神經(jīng)網(wǎng)絡(luò)模型的基礎(chǔ)上融入詞典的優(yōu)越性。對比Lattice LSTM、LGN、LR-CNN 和本文模型,同樣都是融入了詞匯信息,但是融入特定領(lǐng)域相關(guān)的詞匯知識產(chǎn)生了顯著的效果,說明融入領(lǐng)域詞典的方法在新聞文本要素信息識別任務(wù)上的優(yōu)越性。對比MGGNN 和本文模型,同樣都是基于圖的方法,但是本文具有更顯著的效果,說明在圖的基礎(chǔ)上融入案件相關(guān)詞典信息是有作用的。
為了驗證詞典對實驗結(jié)果的影響,本文針對不同詞典規(guī)模進行了對比實驗,具體實驗結(jié)果如表3 所示,這里采用隨機采樣的方式分別構(gòu)建規(guī)模為300 詞、500 詞及800 詞的詞典作為對比。分析表3 可知:不采用詞典(0 詞)與采用1 200 詞的詞典相比,在準確率上有3.48%的提升,在召回率上有1.98%的提升,在F1值上有2.44%的提升;采用300 詞的詞典與采用1 200 詞的詞典相比,在準確率上有1.96%的提升,在召回率上有0.27%的提升,在F1值上有1.89%的提升;采用500 詞的詞典與采用1 200 詞的詞典相比,在準確率上有0.65%的提升,在召回率上有0.23%的提升,在F1值上有0.76%的提升;采用800 詞的詞典與采用1 200 詞的詞典相比,在準確率上有0.14%的提升,在召回率上有0.08%的提升,在F1值上有0.06%的提升。從整體來看,詞典的規(guī)模越大,模型的效果越好,剛開始隨著詞典規(guī)模增大,效果提升顯著,隨著詞典規(guī)模越來越大,模型效果的提升逐漸趨于緩和。
表3 采用不同規(guī)模的詞典時本文模型的效果對比
本文針對新聞文本要素信息識別任務(wù),以涉案新聞文本為例對要素信息抽取方法進行研究,提出了融合案件相關(guān)詞典的要素信息抽取方法,利用圖神經(jīng)網(wǎng)絡(luò)挖掘新聞文本和詞典組合后的潛在語義特征。結(jié)果表明,要素信息抽取的性能得到了有效提升。