陳 勇,邢 欣,張錦文
(1.中國科學(xué)技術(shù)大學(xué),合肥 230026;2.北方自動控制技術(shù)研究所,太原 030006)
作戰(zhàn)文書是部隊實施指揮控制時傳遞信息的重要載體,由作戰(zhàn)人員根據(jù)戰(zhàn)場情況,簡明扼要、準(zhǔn)確無誤地編寫敵我情況、戰(zhàn)斗部署、行動計劃、指揮命令等內(nèi)容,便于閱讀且具有法律效應(yīng)。但作戰(zhàn)文書本質(zhì)上是面向作戰(zhàn)人員使用的信息承載方式,其非結(jié)構(gòu)化的自然語言數(shù)據(jù),不便于指揮信息系統(tǒng)直接用于分析、計算等操作,使得作戰(zhàn)人員被迫充當(dāng)了文書和指揮信息系統(tǒng)之間的信息“編碼器/解碼器”,給作戰(zhàn)人員帶來較大且繁瑣的工作,間接降低了作戰(zhàn)指揮的效率。
如圖1 所示,作戰(zhàn)人員A 從集團(tuán)軍的指揮信息系統(tǒng)、情報偵察系統(tǒng)或指揮員意圖等多個來源獲取信息,按照要求編寫相應(yīng)的作戰(zhàn)文書。利用通信鏈路,傳輸至作戰(zhàn)人員B 閱讀后,在合成旅指揮信息系統(tǒng)中開展相應(yīng)操作。其中步驟(2)文書編寫和步驟(4)文書閱讀,即是以作戰(zhàn)人員為主的文書編碼/解碼過程。該過程繁瑣、效率低,且作戰(zhàn)人員在緊張的作戰(zhàn)情景下容易出錯,給作戰(zhàn)指揮帶來不可預(yù)估的負(fù)面影響。
圖1 文書流轉(zhuǎn)示例Fig.1 Example of operation document transfer
針對這一問題,本文聚焦于文書中敵情、戰(zhàn)場環(huán)境、氣象環(huán)境等情報類內(nèi)容,提出了一種基于BERT+BiLSTM+CRF 的情報信息抽取算法,抓取其中的要素、時間、地域、動作、屬性等關(guān)鍵信息,并轉(zhuǎn)換成相應(yīng)的格式化數(shù)據(jù),既能夠減輕參謀人員“解碼”的事務(wù)性工作量,同時可為指揮信息系統(tǒng)態(tài)勢標(biāo)繪、兵力統(tǒng)計、戰(zhàn)斗力對比、關(guān)聯(lián)推薦等下游業(yè)務(wù)提供基礎(chǔ)數(shù)據(jù)支撐。
文書信息抽取是實體識別在作戰(zhàn)指揮控制領(lǐng)域的具體應(yīng)用,抽取方法隨著實體識別算法發(fā)展而快速發(fā)展,逐步由規(guī)則算法向統(tǒng)計算法、深度學(xué)習(xí)算法演變。規(guī)則算法方面,文獻(xiàn)[3]利用有窮自動機(jī)結(jié)合遞歸型組塊規(guī)則,自動識別部隊番號。文獻(xiàn)[12]則利用句法分析規(guī)則,識別文書中的地名。該類規(guī)則化方法的基礎(chǔ)在于識別規(guī)則的梳理,對不同內(nèi)容的識別需要建立不同的識別規(guī)則,可擴(kuò)展性不足。文獻(xiàn)[4]基于預(yù)定義的本體信息,對文書中番號、時間、方位、地點等感興趣的內(nèi)容進(jìn)行抽取。該方法的信息抽取能力受限于本體定義(Ontology 定義)規(guī)則,對文書的適應(yīng)性不高。文獻(xiàn)[5]通過分詞和語義分析兩個主要步驟,抽取文書中的實體元素,并用于后續(xù)自動標(biāo)圖業(yè)務(wù)。但該方法給定了有限的語義角色,沒有覆蓋數(shù)量、屬性等信息。規(guī)則類抽取算法覆蓋范圍窄,精度一般,因而逐步向統(tǒng)計方法轉(zhuǎn)變。統(tǒng)計算法方面,文獻(xiàn)[6]使用條件隨機(jī)場方法,識別裝備、地名、機(jī)構(gòu)、設(shè)施等實體信息,并利用詞典和規(guī)則修正識別結(jié)果,識別進(jìn)度有明顯提高。但隨著深度學(xué)習(xí)算法的快速發(fā)展,文獻(xiàn)[7-11]均引入了BiLSTM 深度神經(jīng)網(wǎng)絡(luò)作為特征提取器進(jìn)行實體識別,文獻(xiàn)[7-11]還采用了CRF 方法,相比之前的算法明顯提升了識別的精度。但現(xiàn)有的深度學(xué)習(xí)算法還存在兩個問題,一方面所識別的對象仍局限于傳統(tǒng)的實體識別領(lǐng)域,針對文書中的情報信息提取的覆蓋面不廣泛;另一方面,現(xiàn)有深度學(xué)習(xí)算法對自然語言處理特征的表征能力不足,整體識別能力還有提高的空間。
本文使用深度學(xué)習(xí)算法抽取情報文書中的關(guān)鍵信息,進(jìn)一步擴(kuò)展了作戰(zhàn)文書中的實體范圍,將屬性作為要素、地域等實體的附帶信息一并識別,同時使用BERT 作為自然語言特征表征器,提高了抽取結(jié)果在軍事應(yīng)用場景中的完備性、準(zhǔn)確性和可用性。
作戰(zhàn)文書類型主要包含敵情通報、預(yù)先號令、作戰(zhàn)方案、處置命令等類型,用于籌劃準(zhǔn)備、作戰(zhàn)執(zhí)行等階段。每類作戰(zhàn)文書均規(guī)定了必填的章節(jié)模塊,如在預(yù)先號令中,主要章節(jié)為敵情、任務(wù)概要、準(zhǔn)備工作、完成時限等,由作戰(zhàn)人員依據(jù)各類信息源手動編寫。
本文以作戰(zhàn)文書中涉及到情報信息的章節(jié)內(nèi)容為研究對象,將自然語言描述的情報文本轉(zhuǎn)換為格式化的情報要點數(shù)據(jù)。由于作戰(zhàn)文書在描述敵情時,一般會明確地指出敵部隊在何時何地執(zhí)行何種動作,以及該部隊屬性如何,這類信息對作戰(zhàn)人員理解戰(zhàn)場情況、指揮作戰(zhàn)至關(guān)重要,因此,從作戰(zhàn)文書中抽取要素(object)、時間(time)、地域(location)、動作(action)、屬性(property)5 類關(guān)鍵信息。相比傳統(tǒng)的實體識別[1-2,13]研究有所不同,一方面將人名、機(jī)構(gòu)名統(tǒng)一歸為要素當(dāng)中,作為戰(zhàn)場中客觀事物的集合進(jìn)行抽取;另一方面擴(kuò)展了動作、屬性兩項識別內(nèi)容,作為客觀事物的附屬關(guān)聯(lián)信息進(jìn)行抽取。對這兩類信息的抽取,能夠較好地描述情報文本中每一要素的具體情況,為指揮信息系統(tǒng)下游業(yè)務(wù)提供信息支撐。
情報文本是戰(zhàn)場情況的映射,是綜合多種情報源基礎(chǔ)上對戰(zhàn)場實際的理解和描述,編寫時具有一定的自由度。結(jié)合軍語、互聯(lián)網(wǎng)資料、演習(xí)實際文書等材料,對要素、時間、地域、動作、屬性5 類關(guān)鍵信息進(jìn)行細(xì)分,以便算法能夠較好識別相關(guān)內(nèi)容。
1)要素(Object)
要素是傳統(tǒng)實體識別中的人物、機(jī)構(gòu)[13]等具有現(xiàn)實對照物的名稱,在軍事領(lǐng)域,需要對其進(jìn)行擴(kuò)展,至少還應(yīng)包含番號、裝備、設(shè)施等名稱。
2)時間(Time)
本文所指時間與傳統(tǒng)實體識別中所提時間基本一致,某些情況下可能會區(qū)別作戰(zhàn)時間和天文時間,但時間表述格式無差別。
3)地域(Location)
本文所指地域是傳統(tǒng)實體識別中的地點。較為不同的是,作戰(zhàn)文書中的地點可能會使用“地名+坐標(biāo)”的方式進(jìn)行精確表述,對于一些無名地點會使用高程加以區(qū)分。此外,還會使用地域范圍來表述地域信息,用于描述部隊的行動空間。
4)動作(Action)
動作是傳統(tǒng)實體識別中未涉及的內(nèi)容。在軍事領(lǐng)域中,主要指裝備、部隊的運動、防御、偵察等作戰(zhàn)行為。本文將要素的動作進(jìn)行抽取,用于描述要素的行為信息。
5)屬性(Property)
傳統(tǒng)實體識別中會抽取數(shù)量信息,本文所抽取的屬性同樣是要素的數(shù)量屬性,如偵察范圍、機(jī)動速度、有效火力等。
圖2 展示了軍事情報5 類要點與傳統(tǒng)實體識別之間的對應(yīng)關(guān)系??梢钥闯觯疚乃槿〉男畔⑹菍鹘y(tǒng)實體識別的擴(kuò)展,因此,應(yīng)選用泛化能力強(qiáng)、識別效果好的算法,以便能夠適應(yīng)多類關(guān)鍵信息的抽取。
圖2 軍事情報關(guān)鍵信息與傳統(tǒng)實體識別Fig.2 Key information and traditional entity recognition for military intelligence
情報文本的編寫講究簡明扼要原則,每一句話需要交代明確的要素及關(guān)聯(lián)的位置、時間、動作等信息,較少出現(xiàn)大段落內(nèi)容,以免文書編寫、閱讀過程中出現(xiàn)混淆。此外,情報文書專為描述各類情況而編制,其中使用的詞語集合比開放領(lǐng)域的集合穩(wěn)定。這為情報關(guān)鍵信息抽取提供了較好的基礎(chǔ)。結(jié)合自然語言研究最近研究成果,BERT 預(yù)訓(xùn)練模型在多項自然語言任務(wù)上取得優(yōu)異成績[14],能夠廣泛適應(yīng)中文實體識別任務(wù)[15]。因此,本文使用BERT模型作為后端基礎(chǔ)模型,在此基礎(chǔ)上利用BiLSTM和CRF 的算法校正識別效果,應(yīng)用多個與軍事相關(guān)的數(shù)據(jù)集進(jìn)行訓(xùn)練,獲得較好的識別率。
情報關(guān)鍵信息抽取算法由數(shù)據(jù)源及輸入、數(shù)據(jù)處理、模型訓(xùn)練及預(yù)測、結(jié)果輸出4 個階段組成,如圖3 所示。
圖3 情報關(guān)鍵信息抽取算法架構(gòu)Fig.3 Architecture of key information extraction algorithm of intelligence
數(shù)據(jù)源包括軍語文本數(shù)據(jù)、公開軍事報道數(shù)據(jù)、演訓(xùn)文書數(shù)據(jù)。其中軍語以《中國人民解放軍軍語》2011 版為基礎(chǔ),選取作戰(zhàn)(綜合)、戰(zhàn)斗戰(zhàn)術(shù)、偵察情報等類目中的詞條解釋作為訓(xùn)練文本(約1 500 個詞條),通過手動方式標(biāo)出詞條解釋中的5 類關(guān)鍵信息。由于軍語不涉及具體的作戰(zhàn)背景,僅能提供通用的實體數(shù)據(jù),因此,還需要利用公網(wǎng)數(shù)據(jù)補(bǔ)充特殊武器裝備、地址地名等實體數(shù)據(jù);公開報道為軍事門戶網(wǎng)站文本數(shù)據(jù),本文主要從環(huán)球網(wǎng)、新浪網(wǎng)、搜狐網(wǎng)等門戶網(wǎng)站的軍事頻道中摘取實時軍事文本,其中國內(nèi)軍事動態(tài)共200 篇,國際共400篇。每篇數(shù)據(jù)去除段落及特殊字符,并手動標(biāo)注關(guān)鍵信息;演訓(xùn)文書主要以某部隊演習(xí)過程中產(chǎn)生的真實文書為主,包含預(yù)先號令、敵情通報、作戰(zhàn)計劃等各類文書共38 份。實驗中從每份文書中摘取“敵我情、綜合情況”等段落內(nèi)容數(shù)據(jù),通過清洗、拆分進(jìn)行預(yù)處理,而后通過等價替換方式進(jìn)行脫密處理(時間以外的阿拉伯?dāng)?shù)據(jù)按照1-9 的順序替換,地點從國內(nèi)縣級以上地名中隨機(jī)選取替換)。處理后的樣例數(shù)據(jù)如表1 所示。
表1 演訓(xùn)文書樣例數(shù)據(jù)Table 1 Sample data of operation documents for demonstration and training
3 類數(shù)據(jù)集中,軍語和公開軍事報道均作為訓(xùn)練數(shù)據(jù)。演訓(xùn)文書數(shù)據(jù)中,按照0.7、0.2、0.1 的比例隨機(jī)劃分為訓(xùn)練、驗證、測試集。
2)數(shù)據(jù)處理
數(shù)據(jù)處理包含預(yù)處理和標(biāo)注。預(yù)處理主要針對數(shù)據(jù)源進(jìn)行清理、過濾,并自動標(biāo)注非實體內(nèi)容,如標(biāo)點符號、助詞、非法字符等內(nèi)容。標(biāo)注使用BIO 方式,例如“敵第1 旅在航空兵掩護(hù)下,正快速由新竹向桃園機(jī)動”,標(biāo)注結(jié)果為:
3)模型訓(xùn)練及預(yù)測
分詞算法由BERT(bidirectional en) coder representations from transformers)[14]+BiLSTM(bi-direction al long short-term memory)+CRF(conditional random field)組成,通過BERT 中文預(yù)訓(xùn)練模型[15]獲取輸入的字符級特征向量,然后利用BiLSTM 得到輸入的最大概率標(biāo)簽,最后利用CRF 對輸出進(jìn)行優(yōu)化,得到全局最優(yōu)標(biāo)記。
(2)2017年,鐵路總公司發(fā)布了最新的施工圖審核考核辦法,對咨詢單位的工作質(zhì)量提出了新的要求,承擔(dān)施工圖審核工作的咨詢單位,內(nèi)部管理需要進(jìn)行適應(yīng)性改善。
4)結(jié)果輸出
根據(jù)算法得出的標(biāo)簽序列,轉(zhuǎn)換成對應(yīng)的標(biāo)簽內(nèi)容,完成結(jié)果輸出。
分詞算法自底向上主要由BERT、BiLSTM、CRF組成,如圖4 所示。BERT 是由Google 在2018 年提出的語言預(yù)訓(xùn)練模型框架,使用遮蔽方式在大量的語料庫上進(jìn)行訓(xùn)練,能夠更好地表征一詞多義,成為眾多NLP 任務(wù)中的基礎(chǔ)模型。再結(jié)合BiLSTM 的雙向記憶能力,組成性能更優(yōu)的實體識別算法。
圖4 BERT+BiLSTM+CRF 算法結(jié)構(gòu)Fig.4 Algorithm structure of BERT+BiLSTM+CRF
1)BERT 層
BERT 是以雙向Transformer 編碼器單元為主的詞向量表征模型,可以更好地了解上下文語意信息和特征。其中,self-attention 機(jī)制是Transformer 編碼器的核心組成,通過調(diào)整關(guān)聯(lián)權(quán)重尋找詞之間的關(guān)聯(lián)程度,如圖5 所示。
圖5 Transformer 結(jié)構(gòu)Fig.5 Structure of Transformer
其中,(query)、K(key)、V(Value)是輸入的字符向量,dk是輸入向量的維度。Self-attention 機(jī)制可以通俗理解為在給定查詢(query)的情況下,從字符集的編碼K(key)中尋找與查詢(query)相似的向量,得到的值V(Value)便是字符之間的相似度。該機(jī)制能夠長文本條件下,對所關(guān)注部分的關(guān)系進(jìn)行捕獲,同時也能夠?qū)哟谓Y(jié)構(gòu)的信息進(jìn)行表達(dá)。
訓(xùn)練時,BERT 將字符級(詞嵌入)、句子級、位置信息拼接作為輸入,利用遮蔽方式隨機(jī)扣掉中間字符,使用前后字符對遮蔽字符進(jìn)行預(yù)測,使BERT模型能夠充分掌握上下文信息。
2)BiLSTM 層
BiLSTM 模型是RNN(recurrent neural network)和LSTM 模型的變種,通過多個記憶單元解決了RNN 訓(xùn)練過程中的長期依賴不強(qiáng)以及梯度消失/爆炸問題,利用正/反向傳播同時捕獲前后文信息,得輸出序列標(biāo)簽。
BiLSTM 的核心單元包含遺忘門、輸入門、輸出門,如下頁圖6 所示。遺忘門主要負(fù)責(zé)舍棄前一時刻ht-1中不相關(guān)信息量,輸入門負(fù)責(zé)根據(jù)xt向量向LSTM 單元中添加新的信息,輸出門則用于確定輸入xt以及前一時刻ht-1中哪些信息可以輸出。
圖6 LSTM 單元Fig.6 LSTM unit
BiLSTM 的輸出通過softmax 層后,得到字符對應(yīng)的最大概率標(biāo)簽,作為CRF 層的輸入。
3)CRF 層
BiLSTM 的輸出只針對字符級別,不考慮前序標(biāo)簽與當(dāng)前標(biāo)簽之間的關(guān)系,有一定概率造成結(jié)果不準(zhǔn)確、不合理。如圖4 的Softmax 層輸出的第3 個字符“1”的標(biāo)簽是“I-Time”,根據(jù)前序標(biāo)簽“第/I-Obj”判斷,字符“1”的標(biāo)簽是不合理的。CRF 算法則能夠考慮相鄰標(biāo)簽之間的關(guān)系,獲得全局最優(yōu)的標(biāo)簽序列,對不合理的輸出進(jìn)行“矯正”。
CRF 是給定觀測條件下的馬爾可夫隨機(jī)場,即X,Y 是隨機(jī)變量,P(Y|X)是給定X 時Y 的條件概率,若Y 是馬爾可夫隨機(jī)場(Y 的條件概率僅與相鄰狀態(tài)有關(guān)),則P(Y|X)便是CRF。在本算法中CRF定義了標(biāo)簽轉(zhuǎn)移分?jǐn)?shù),設(shè)X={x1,x2,…,xn}是輸入的字符序列,Outn,m是BiLSTM 的輸出矩陣,Y={y1,y2,…,yn} 是預(yù)測序列,T 為標(biāo)簽i 轉(zhuǎn)移為標(biāo)簽j 的概率矩陣,則其標(biāo)簽分?jǐn)?shù)函數(shù)為:
將式(4)作為損失函數(shù),利用梯度下降法求得最小損失,即為P(Y|X)最大值,得到在Outn,m輸出條件下,Y 的全局最優(yōu)標(biāo)簽序列。
本文采用中文預(yù)訓(xùn)練的BERT 模型[15]作為骨干網(wǎng)絡(luò),并在高性能GPU 服務(wù)器上進(jìn)行其他網(wǎng)絡(luò)層(BiLSTM)的訓(xùn)練,實驗環(huán)境配置如表2 所示。
表2 實驗環(huán)境配置Table 2 Experiment environment configuration
實驗中,使用CRF 模型[6]、BiLSTM 模型[10]、BiLSTM+CRF 模型[7-8]、BERT+BiLSTM+CRF 模型進(jìn)行試驗對比,神經(jīng)網(wǎng)絡(luò)參數(shù)如表3 所示。
表3 神經(jīng)網(wǎng)絡(luò)參數(shù)Table 3 Neural network parameters
在訓(xùn)練過程中,使用Adam 優(yōu)化器對網(wǎng)絡(luò)參數(shù)進(jìn)行優(yōu)化。采用動態(tài)學(xué)習(xí)率(learning rate)調(diào)整策略,每5 個epoch 步減少0.002 的步長,最小減少到0.001 為止。當(dāng)網(wǎng)絡(luò)損失(total loss)在1 個epoch 內(nèi)的下降值連續(xù)小于0.01 時自動結(jié)束訓(xùn)練,并選擇訓(xùn)練過程中在驗證集上損失最低的模型參數(shù)作為訓(xùn)練結(jié)果。
本文共對5 組模型進(jìn)行訓(xùn)練,實驗結(jié)果如下頁表4所示。
表4 實驗結(jié)果Table 4 Experiment results
從表4 可以看出,單獨使用CRF 作為識別器能夠達(dá)到一定的識別效果,適合在終端環(huán)境或者沒有GPU 資源的硬件環(huán)境中使用。隨著深度學(xué)習(xí)算法的加入,識別的準(zhǔn)確率和召回率都有明顯提升。但BiLSTM 網(wǎng)絡(luò)層數(shù)的增加,沒有為識別效果帶來顯著提升?;谶@一點考慮,BERT+BiLSTM+CRF 算法也使用2 層BiLSTM 進(jìn)行構(gòu)建,在識別效果顯著提升的情況下又能夠平衡訓(xùn)練成本。從以上實驗結(jié)果可以看出,使用BERT 預(yù)訓(xùn)練模型,能夠有效提升情報文本中關(guān)鍵信息的抽取能力。
本文針對現(xiàn)有文書信息抽取類目范圍窄、抽取精度低的問題,提出了基于BERT+BiLSTM+CRF 模型的情報文書關(guān)鍵信息抽取方法。借助BERT 強(qiáng)大的語義表征能力,在原有實體識別類目基礎(chǔ)上,增加了要素、動作和屬性3 類信息的抽取,在擴(kuò)充抽取類目的同時,保持了抽取精度不下降,既能夠降低作戰(zhàn)人員讀取各類文書、填充各類表框時的工作量,又能夠直接為指揮信息系統(tǒng)下游業(yè)務(wù)提供數(shù)據(jù)來源,為提升指揮信息系統(tǒng)自動化的業(yè)務(wù)流程、增加作戰(zhàn)指揮效率提供原型支撐。