姚 奕,楊 帆,劉語(yǔ)嬋,袁清波
(陸軍工程大學(xué)指揮控制工程學(xué)院,南京 210007)
軍事裝備的信息化、智能化是國(guó)防與軍隊(duì)現(xiàn)代化發(fā)展中的重要一環(huán),充分利用軍事裝備數(shù)據(jù)是奪得未來(lái)戰(zhàn)場(chǎng)主動(dòng)權(quán)的關(guān)鍵。知識(shí)圖譜作為一種以圖的形式表現(xiàn)客觀世界中概念和實(shí)體及實(shí)體之間關(guān)系的知識(shí)庫(kù)[1],其本質(zhì)上是一種大規(guī)模的語(yǔ)義網(wǎng)絡(luò),能夠?qū)⒑A繑?shù)據(jù)組織為一張互相關(guān)聯(lián)的網(wǎng)絡(luò)圖,從而幫助指揮人員快速了解相關(guān)知識(shí),挖掘有價(jià)值的信息。車金立等人[2]在百科知識(shí)的基礎(chǔ)上構(gòu)建了軍事武器裝備的知識(shí)圖譜,并實(shí)現(xiàn)了相關(guān)裝備的智能問答應(yīng)用。但是并沒有進(jìn)一步挖掘裝備實(shí)體之間的關(guān)聯(lián)關(guān)系,其問答應(yīng)用仍是基于傳統(tǒng)文檔型數(shù)據(jù)庫(kù),沒有真正將知識(shí)圖譜的圖特性應(yīng)用到產(chǎn)品中。
隨著信息技術(shù)的發(fā)展,海量的半結(jié)構(gòu)化網(wǎng)頁(yè)數(shù)據(jù)使得知識(shí)的來(lái)源變得廣泛,但隨之而來(lái)的問題是信息質(zhì)量的下降。一方面,各數(shù)據(jù)來(lái)源之間缺乏統(tǒng)一的規(guī)范,導(dǎo)致了諸多實(shí)體的命名與分類存在差異,為知識(shí)圖譜的構(gòu)建帶來(lái)了困難;另一方面,由于軍事裝備數(shù)據(jù)保密性高、專業(yè)性強(qiáng)等特點(diǎn),很少有官方公布的完整數(shù)據(jù),大部分網(wǎng)絡(luò)數(shù)據(jù)來(lái)源龐雜、質(zhì)量參差不齊,這直接導(dǎo)致了該領(lǐng)域知識(shí)圖譜的構(gòu)建缺少依據(jù)。而軍事應(yīng)用場(chǎng)景對(duì)數(shù)據(jù)一致性要求高、對(duì)本體依賴大,因此,需要構(gòu)建專門的概念圖譜來(lái)支撐知識(shí)圖譜的構(gòu)建。此外,在未來(lái)武器裝備的信息化建設(shè)中,武器裝備更新?lián)Q代的頻率隨之加快,新式武器裝備的出現(xiàn)意味著新實(shí)體的出現(xiàn),如何讓機(jī)器理解這些新的實(shí)體,以及如何將這些新實(shí)體相關(guān)的上下位關(guān)系加入圖譜都是需要思考的問題。這不僅關(guān)系到所構(gòu)建的軍事武器知識(shí)圖譜的完整性,也關(guān)系到相應(yīng)軍事應(yīng)用的準(zhǔn)確性、可靠性。
在互聯(lián)網(wǎng)發(fā)展的早期,人們使用共同的、標(biāo)準(zhǔn)的概念體系本體來(lái)構(gòu)建計(jì)算機(jī)相互理解的基礎(chǔ)[3]。Gruber 提出:本體是對(duì)共享概念模型的明確規(guī)范說明[4]。也就是說,人們可以使機(jī)器像人類一樣通過產(chǎn)生范疇化概念來(lái)對(duì)事物進(jìn)行“理解”。雖然目前對(duì)于“理解”一直缺乏嚴(yán)格的定義,但是從“殲-20”聯(lián)想到“戰(zhàn)斗機(jī)”顯然是人們理解“殲-20”的重要體現(xiàn)之一。概念使人們只需要記住一類事物的根本特征,比如能輕松識(shí)別各種不同的武器裝備,即使有些裝備從來(lái)沒有見過,但是仍然知道它屬于哪一類。人們顯然不可能記住所有武器裝備的細(xì)節(jié),但是可以記住一類事物的特征,而這些概念級(jí)的對(duì)象特征識(shí)別使其獲得強(qiáng)大的認(rèn)知能力。
概念圖譜是一類專注于實(shí)體與概念之間的isA關(guān)系的知識(shí)圖譜[5]。從本質(zhì)上說,概念圖譜是知識(shí)圖譜的一個(gè)部分,是知識(shí)圖譜的概念模型和邏輯基礎(chǔ),其實(shí)體和概念之間有著固定的從屬關(guān)系。從認(rèn)知和語(yǔ)言兩個(gè)角度而言,概念圖譜分為面向認(rèn)知的概念層級(jí)體系和面向語(yǔ)言的詞匯層級(jí)體系。其主要區(qū)別在于,在概念層級(jí)體系中,連接節(jié)點(diǎn)的邊是實(shí)體與概念之間的InstanceOf 關(guān)系和子概念與父概念之間的SubclassOf 關(guān)系;而在詞匯層級(jí)體系中,連接實(shí)體的邊是一種詞匯之間上下位關(guān)系。
從機(jī)器信息處理的角度來(lái)說,概念認(rèn)知是指對(duì)某個(gè)形態(tài)的數(shù)據(jù)輸入產(chǎn)生符號(hào)化概念輸出的過程。比如,對(duì)于“殲-20”一詞,能產(chǎn)生“戰(zhàn)斗機(jī)”這一概念,這里的“戰(zhàn)斗機(jī)”就是一種符號(hào)形式的概念。人類很容易獲得這樣的認(rèn)知,顯然,沒有任何先驗(yàn)知識(shí)的機(jī)器是無(wú)法產(chǎn)生這樣的概念的。因此,建立概念分類體系,并為數(shù)以千萬(wàn)計(jì)的實(shí)體建立概念圖譜,通過構(gòu)建概念圖譜來(lái)使機(jī)器獲得認(rèn)知實(shí)體的能力,是人類在讓機(jī)器具備認(rèn)知能力的征程中所邁出的至關(guān)重要的一步,也是構(gòu)建完備的軍事裝備知識(shí)圖譜的第一步。
在谷歌提出知識(shí)圖譜概念并將其應(yīng)用于搜索引擎[6]以前,就有許多公司和實(shí)驗(yàn)室進(jìn)行概念圖譜的研究,如反映英文詞匯基本語(yǔ)義關(guān)系的Word-Net[7]、利用維基百科以及自動(dòng)分類方法構(gòu)建的語(yǔ)義網(wǎng)絡(luò)WikiTaxonomy[8]和利用基于文本理解的概率分類方法構(gòu)建的Probase[9-10]。隨著概念圖譜的應(yīng)用越來(lái)越廣泛,國(guó)內(nèi)也相繼開始中文概念圖譜構(gòu)建技術(shù)的研究,如以弱監(jiān)督為框架構(gòu)建的大詞林[11]和以針對(duì)中文分類學(xué)的自動(dòng)化生成加驗(yàn)證為框架進(jìn)行構(gòu)建的CN-Probase[12]。這些概念圖譜在各種應(yīng)用中發(fā)揮著積極的作用,它們的部分?jǐn)?shù)據(jù)對(duì)比如表1 所示。
表1 部分公開的概念圖譜數(shù)據(jù)對(duì)比
隨著技術(shù)的進(jìn)步,通用概念圖譜已具有較大規(guī)模,其研究也逐漸向特定行業(yè)或領(lǐng)域落地。在情感分析領(lǐng)域,Xu 等人[13]提出了一種基于概念圖譜和語(yǔ)言模型的意圖領(lǐng)域分類方法,有效解決了大規(guī)模語(yǔ)料獲取困難和用戶話語(yǔ)多樣性的問題。在分類領(lǐng)域,Nitta 等人[14]提出了一種自動(dòng)化構(gòu)建地理空間概念圖譜的方法,并將其應(yīng)用于地理感知細(xì)粒度圖像識(shí)別,使其結(jié)果更加高效、準(zhǔn)確;Shanavas 等人[15]則是利用醫(yī)學(xué)培訓(xùn)文檔中的統(tǒng)一醫(yī)學(xué)語(yǔ)言系統(tǒng)進(jìn)行了醫(yī)學(xué)概念圖譜的自動(dòng)化構(gòu)建和補(bǔ)全,提升了醫(yī)學(xué)文本文檔分類的性能。此外,王鵬偉[16]提出了一種基于概念圖譜的概念驅(qū)動(dòng)模型,通過將詞向量表示與概念向量表示相結(jié)合,對(duì)一詞多義的問題進(jìn)行了有效的處理。概念圖譜的應(yīng)用已經(jīng)深入各行各業(yè),而針對(duì)軍事裝備領(lǐng)域的研究則稍顯空白,現(xiàn)有的通用知識(shí)圖譜無(wú)法滿足裝備知識(shí)保密性和生僻性的特點(diǎn),針對(duì)生僻的裝備名詞、裝備別稱,基于百科數(shù)據(jù)的在線構(gòu)建方法也存在識(shí)別率不高的問題,因此,構(gòu)建裝備知識(shí)的概念圖譜是當(dāng)下亟待進(jìn)行的一項(xiàng)工作。
通用概念圖譜相當(dāng)于一個(gè)面向通用領(lǐng)域的“結(jié)構(gòu)化的百科知識(shí)庫(kù)”,其中包含了大量現(xiàn)實(shí)世界中的常識(shí)性知識(shí),覆蓋面極廣。其構(gòu)建過程一般采用基于模式[17]的方法和自底向上的方法[18]?;谀J降姆椒ㄖ饕鶕?jù)語(yǔ)料中的固定句式抽取實(shí)體概念以及關(guān)系,但是這種方法提取能力有限,并且由于中文語(yǔ)法的靈活多變性,從文本中獲取的語(yǔ)法模式質(zhì)量通常很低。而自底向上的方法主要是從百科網(wǎng)站中抽取概念之間的isA 關(guān)系,這種方法取決于百科網(wǎng)站的規(guī)模,雖然質(zhì)量較高但是覆蓋率往往不高。針對(duì)垂直領(lǐng)域概念圖譜具有的概念偏、專業(yè)性強(qiáng)的特點(diǎn),本文采用兩種方法相結(jié)合的方式,既保證了圖譜的廣度,又保證了圖譜的精度。其流程如圖1 所示。
圖1 軍事裝備概念圖譜構(gòu)建流程
隨著信息技術(shù)蓬勃發(fā)展,大量文本信息充斥于互聯(lián)網(wǎng)上,這些非結(jié)構(gòu)化數(shù)據(jù)十分廣泛,是知識(shí)圖譜概念抽取的重要來(lái)源之一[19]。但是,這些文本由于沒有固定的數(shù)據(jù)結(jié)構(gòu),不易于機(jī)器直接處理,需要人工進(jìn)行復(fù)雜的預(yù)處理才能被使用。而現(xiàn)如今各大百科網(wǎng)站都有高質(zhì)量的概念標(biāo)簽,以維基百科為例,每個(gè)詞條均可視為一個(gè)實(shí)體,其相關(guān)屬性信息均由人工標(biāo)注,具有較高的質(zhì)量。因此,可以使用這些在互聯(lián)網(wǎng)中以HTML 格式存在的網(wǎng)頁(yè)文檔進(jìn)行概念圖譜的構(gòu)建。
在軍事裝備領(lǐng)域,傳統(tǒng)百科網(wǎng)站均存在概念不全的缺陷,無(wú)法對(duì)全部裝備知識(shí)進(jìn)行覆蓋。目前,公開的軍事資料不多,而環(huán)球軍事網(wǎng)的兵器庫(kù)是其中結(jié)構(gòu)化程度較高、裝備信息較全的一個(gè)數(shù)據(jù)庫(kù),其中包括了飛行器、艦船艦艇等8 大類武器,100 余小類,共計(jì)5 794 項(xiàng)武器結(jié)構(gòu)化數(shù)據(jù)。
本文利用爬蟲技術(shù)爬取環(huán)球軍事網(wǎng)的兵器庫(kù)數(shù)據(jù),具體流程如圖2 所示。首先,獲取初始URL,在其頁(yè)面中進(jìn)行內(nèi)容解析和新URL 的發(fā)現(xiàn),一方面,通過查找關(guān)鍵信息標(biāo)簽,提取所需的裝備數(shù)據(jù),處理成結(jié)構(gòu)化數(shù)據(jù)后進(jìn)行存儲(chǔ);另一方面,提取新的URL 放入隊(duì)列中供后繼數(shù)據(jù)爬取。最終當(dāng)所有數(shù)據(jù)爬取完畢后結(jié)束程序。
圖2 網(wǎng)頁(yè)數(shù)據(jù)爬取流程圖
爬取到的半結(jié)構(gòu)化數(shù)據(jù)具有較多的HTML 標(biāo)簽,通過數(shù)據(jù)處理提取出武器裝備的關(guān)鍵信息,最終形成如圖3 所示的結(jié)構(gòu)化數(shù)據(jù)文檔:
圖3 部分裝備結(jié)構(gòu)化數(shù)據(jù)文檔(隱藏部分技術(shù)指標(biāo))
傳統(tǒng)知識(shí)圖譜以<實(shí)體1,關(guān)系,實(shí)體2>、<實(shí)體,屬性,屬性值>這樣的三元組來(lái)表達(dá)事實(shí),而概念圖譜之間的isA 關(guān)系則主要以< 實(shí)體,Instance-Of,概念>、< 概念1,SubclassOf,概念2> 這樣的三元組來(lái)體現(xiàn)[20]。這種詞匯之間的層級(jí)關(guān)系是一種詞匯間的上下位關(guān)系。比如,“殲-20 是戰(zhàn)斗機(jī)”,那么“殲-20”是“戰(zhàn)斗機(jī)”的下位詞,“戰(zhàn)斗機(jī)”是“殲-20”的上位詞。因此,在構(gòu)建過程中需要在句子中找到這種上下位關(guān)系,然后以三元組的形式存儲(chǔ)。
在前期獲取的半結(jié)構(gòu)化數(shù)據(jù)中,得到了相應(yīng)裝備的簡(jiǎn)介以及屬性信息。從簡(jiǎn)介信息中,抽取實(shí)體的概念標(biāo)簽,并建立起概念之間的層級(jí)關(guān)系,將專家構(gòu)建的標(biāo)簽系統(tǒng)轉(zhuǎn)換為有結(jié)構(gòu)的概念層級(jí)體系。例如,前期提取的數(shù)據(jù)如圖2 所示,從中可以提取出“殲-20 是雙發(fā)重型隱形戰(zhàn)斗機(jī)”。然后利用已知的本體知識(shí),可將“隱形戰(zhàn)斗機(jī)”歸屬于“戰(zhàn)斗機(jī)”,“戰(zhàn)斗機(jī)”歸屬于“飛行器”,其具體抽取步驟如下:
1)概念標(biāo)簽識(shí)別。百科數(shù)據(jù)中的標(biāo)簽往往具有明顯的類別,如描述實(shí)體相關(guān)屬性信息的屬性型標(biāo)簽、描述實(shí)體所屬類型的概念型標(biāo)簽,以及描述實(shí)體所屬主題的主題型標(biāo)簽等。根據(jù)前期已分好的武器類別,對(duì)每項(xiàng)實(shí)體數(shù)據(jù)進(jìn)行標(biāo)簽識(shí)別,提取概念型標(biāo)簽,從中抽取isA 關(guān)系。比如,“雙發(fā)重型隱形戰(zhàn)斗機(jī)”中心詞是“戰(zhàn)斗機(jī)”,“戰(zhàn)斗機(jī)”是已有的概念標(biāo)簽,那么可以得出“雙發(fā)重型隱形戰(zhàn)斗機(jī)”也是一個(gè)概念標(biāo)簽。
2)概念層級(jí)體系構(gòu)建。在識(shí)別概念標(biāo)簽后,將這些概念標(biāo)簽與已確定的百余類裝備概念建立subclassOf 關(guān)系,進(jìn)而構(gòu)建一個(gè)比原有分類體系更大、更細(xì)粒度的概念層級(jí)體系。
作為現(xiàn)實(shí)世界的一種抽象映射,概念的構(gòu)建必須確保其準(zhǔn)確性。而互聯(lián)網(wǎng)的知識(shí)往往有很多歧義,比如“殲-20”的綽號(hào)是“威龍”,但是“威龍”也是香港手表一線品牌,如何保證機(jī)器的理解不發(fā)生歧義,使機(jī)器能在特定的語(yǔ)句中準(zhǔn)確識(shí)別出實(shí)體的類別,需要對(duì)現(xiàn)有的isA 關(guān)系進(jìn)行補(bǔ)全。
現(xiàn)有補(bǔ)全方法有基于isA 關(guān)系傳遞性的補(bǔ)全[21]和基于協(xié)同過濾思想的補(bǔ)全[22]?;趥鬟f性的方法適用于存在中間概念的關(guān)系,而另一種方法的思想是相似實(shí)體具有相同的上位詞,兩種方法都有其理論依據(jù),但是都存在一定的局限性。并且單一來(lái)源的數(shù)據(jù)往往不夠全面,因此,本文以已構(gòu)建的概念層級(jí)體系為基礎(chǔ),通過迭代學(xué)習(xí),借鑒前兩種方法的思路從維基百科、百度百科等多源數(shù)據(jù)中不斷提取新的關(guān)系對(duì)來(lái)對(duì)裝備實(shí)體與概念進(jìn)行補(bǔ)全。具體算法如表2 所示。
表2 迭代學(xué)習(xí)算法
算法以Probase 的迭代抽取算法[9]為基礎(chǔ)并進(jìn)行改進(jìn),增加了對(duì)于實(shí)體的判斷過程。在該算法中,Φ 是前期根據(jù)單源數(shù)據(jù)提取的概念關(guān)系集合,Γ 表示總isA 關(guān)系對(duì)的集合,S 是多源數(shù)據(jù)中的裝備數(shù)據(jù)語(yǔ)句,e、Xs、Ys分別表示從語(yǔ)句中提取出的新實(shí)體、候選超概念和候選子概念。首先,將已有的關(guān)系集合賦予Γ,然后在文本中迭代搜索isA 關(guān)系對(duì)直到?jīng)]有新的關(guān)系對(duì)被發(fā)現(xiàn),在此過程中,對(duì)抽取到的e、Xs、Ys分別進(jìn)行判斷,如果是新挖掘的實(shí)體或概念,則在相應(yīng)函數(shù)中進(jìn)行相似度判斷,如果其可信度較高并且未在已有的Γ 中出現(xiàn),則將其加入Γ。最終在不斷迭代的過程中,完成isA 關(guān)系補(bǔ)全與實(shí)體的消歧。
目前概念圖譜的存儲(chǔ)方法主要是基于圖數(shù)據(jù)庫(kù)的存儲(chǔ),其存儲(chǔ)方式是將實(shí)體存儲(chǔ)為節(jié)點(diǎn),關(guān)系存儲(chǔ)為邊。不同于傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)以二維表結(jié)構(gòu)存儲(chǔ)的方式,圖數(shù)據(jù)庫(kù)更加側(cè)重于關(guān)系的表達(dá),能更簡(jiǎn)潔、直觀地表示實(shí)體和概念、概念和概念之間的關(guān)系。neo4j 是目前廣泛使用的圖數(shù)據(jù)庫(kù)之一,不僅具有高效的查詢性能,而且在數(shù)據(jù)庫(kù)設(shè)計(jì)上具有很大的靈活性,使半結(jié)構(gòu)化數(shù)據(jù)的表示變得容易。另外,neo4j 提供分布式高可用模式,可以支持大規(guī)模的數(shù)據(jù)增長(zhǎng),有利于后期進(jìn)行裝備知識(shí)的擴(kuò)展。
利用Cypher 語(yǔ)句將前期處理好的裝備實(shí)體數(shù)據(jù),以及裝備與概念關(guān)系、概念與概念關(guān)系數(shù)據(jù)導(dǎo)入數(shù)據(jù)庫(kù)。最終形成一個(gè)完整的軍事裝備概念圖譜,其可視化界面如圖4 所示。圖中只展示了部分?jǐn)?shù)據(jù),中心節(jié)點(diǎn)表示劃分的裝備的大類,與之相連的外圍節(jié)點(diǎn)表示大類下的子類型,最外圍深色節(jié)點(diǎn)則是代表相應(yīng)的武器實(shí)體,實(shí)體與子類型之間的邊表示InstanceOf 關(guān)系,子類型與大類之間的邊表示SubclassOf 關(guān)系。
圖4 裝備概念圖譜部分可視化數(shù)據(jù)展示
概念圖譜的維護(hù)主要在于概念的糾錯(cuò)與更新。雖然在構(gòu)建過程中已經(jīng)通過多源數(shù)據(jù)對(duì)數(shù)據(jù)進(jìn)行修正,但仍會(huì)存在不可避免的錯(cuò)誤,這些源于數(shù)據(jù)集的錯(cuò)誤往往依賴人工進(jìn)行干預(yù)。另外,科學(xué)技術(shù)日新月異,武器裝備也是如此,其更新?lián)Q代頻率較快,部分概念實(shí)體可能會(huì)隨著技術(shù)發(fā)展而變化,比如部分裝備退役不再被使用,或者有新型型號(hào)甚至新式類型的裝備出現(xiàn)。要想在戰(zhàn)場(chǎng)先發(fā)制人,需要對(duì)知識(shí)庫(kù)進(jìn)行定期更新,知己知彼方能百戰(zhàn)不殆。一方面,定期從互聯(lián)網(wǎng)收集各類軍事信息,通過迭代抽取其中有價(jià)值的信息;另一方面,及時(shí)將各類新式裝備的相關(guān)資料輸入數(shù)據(jù)庫(kù),將相應(yīng)概念實(shí)體添加到概念圖譜中,不斷豐富裝備概念圖譜。
隨著信息技術(shù)的深入發(fā)展,當(dāng)前武器更新?lián)Q代的頻率逐漸加快,裝備數(shù)據(jù)日漸龐大且復(fù)雜。新式武器裝備從生產(chǎn)到列裝都面臨著一系列的挑戰(zhàn),研發(fā)人員如何科學(xué)統(tǒng)籌裝備數(shù)據(jù)、確保裝備切實(shí)貼近部隊(duì)實(shí)際需求,指揮人員如何整合繁雜的裝備信息、在戰(zhàn)場(chǎng)上發(fā)揮出裝備最佳性能,以及戰(zhàn)斗人員快速熟悉裝備性能參數(shù)、熟練掌握相應(yīng)使用和維修方法等,這些挑戰(zhàn)對(duì)大數(shù)據(jù)時(shí)代下的裝備數(shù)據(jù)管理提出了新的需求,而當(dāng)下興起的知識(shí)圖譜技術(shù)適逢其時(shí),為裝備數(shù)據(jù)的存儲(chǔ)、分析與應(yīng)用提供了著力點(diǎn)。概念圖譜作為知識(shí)圖譜的概念模型和邏輯基礎(chǔ),是構(gòu)建裝備知識(shí)圖譜的基石,想要用好裝備數(shù)據(jù)這把利劍,需要從概念圖譜構(gòu)建技術(shù)出發(fā),對(duì)裝備概念圖譜進(jìn)行頂層設(shè)計(jì)。因此,本文基于通用知識(shí)圖譜的構(gòu)建流程[1],結(jié)合第2 節(jié)中裝備概念圖譜的構(gòu)建技術(shù)以及部隊(duì)實(shí)際應(yīng)用需求,從邏輯架構(gòu)、技術(shù)架構(gòu)和應(yīng)用領(lǐng)域3 個(gè)層面,對(duì)裝備概念圖譜的構(gòu)建流程與應(yīng)用方向進(jìn)行設(shè)計(jì),整體框架如圖5所示。
圖5 裝備知識(shí)圖譜的構(gòu)建流程及應(yīng)用展望
在邏輯架構(gòu)上,從模式層和數(shù)據(jù)層兩個(gè)角度對(duì)裝備數(shù)據(jù)進(jìn)行建模,建立起能夠用計(jì)算機(jī)語(yǔ)言表示現(xiàn)實(shí)世界裝備數(shù)據(jù)特征的規(guī)范模型。
數(shù)據(jù)層存儲(chǔ)真實(shí)的數(shù)據(jù),針對(duì)數(shù)據(jù)的流動(dòng)過程進(jìn)行設(shè)計(jì),主要包括數(shù)據(jù)獲取、數(shù)據(jù)處理、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)更新和數(shù)據(jù)應(yīng)用。數(shù)據(jù)獲取是第一步,首先需要考慮獲取什么樣的數(shù)據(jù)、從哪些地方獲取數(shù)據(jù)、如何獲取這些數(shù)據(jù)。軍事裝備數(shù)據(jù)由于其軍事特性,保密性高、專業(yè)性強(qiáng),有別于其他領(lǐng)域的數(shù)據(jù)獲取,其來(lái)源主要是各類裝備的技術(shù)手冊(cè)、操作規(guī)程、培訓(xùn)講義和保障案例等,這些數(shù)據(jù)往往需要更進(jìn)一步的處理,而互聯(lián)網(wǎng)等其他來(lái)源僅作為參考依據(jù)以及他國(guó)武器數(shù)據(jù)的擴(kuò)展。數(shù)據(jù)處理即對(duì)獲取到的數(shù)據(jù)進(jìn)行加工,通過信息融合等技術(shù)手段抽取出有用的信息,并形成結(jié)構(gòu)化的數(shù)據(jù)文檔。數(shù)據(jù)存儲(chǔ)則是如2.4 節(jié)中介紹的利用圖數(shù)據(jù)庫(kù)對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ),并通過不斷地迭代構(gòu)建流程來(lái)更新數(shù)據(jù),保證裝備概念圖譜的時(shí)效性。最后是數(shù)據(jù)的應(yīng)用階段,針對(duì)不同使用對(duì)象的應(yīng)用需求不同,設(shè)計(jì)不同的算法來(lái)對(duì)數(shù)據(jù)進(jìn)行深入挖掘并可視化呈現(xiàn),最終達(dá)到科學(xué)統(tǒng)籌裝備數(shù)據(jù)、整合繁雜裝備信息的效果。
模式層在數(shù)據(jù)層之上,是概念圖譜的核心,通常通過構(gòu)建本體庫(kù)來(lái)管理模式層。其構(gòu)建內(nèi)容包括層次結(jié)構(gòu)、關(guān)系定義、領(lǐng)域定義和屬性定義。層次結(jié)構(gòu)是裝備類別之間的從屬關(guān)系,例如,“戰(zhàn)斗機(jī)”從屬于“飛行器”,其子類可以繼承其父節(jié)點(diǎn)的屬性。關(guān)系定義則是類之間存在相互的關(guān)系,類之間可以定義單向的關(guān)系,也可以定義雙向的關(guān)系。例如,“艦艇”指向“艦載雷達(dá)”的關(guān)系是裝載,“艦載雷達(dá)”指向“艦艇”的關(guān)系是被裝載。另外,為了管理方便,可以定義多個(gè)領(lǐng)域,便于將類進(jìn)行分組管理,如不同軍種的裝備屬于不同的領(lǐng)域,當(dāng)然也可以有跨領(lǐng)域的多域協(xié)同作戰(zhàn)裝備。屬性定義分公共屬性和專有屬性,公共屬性指從公共類里抽取一些基礎(chǔ)的屬性,例如名稱、生產(chǎn)時(shí)間等,另外,每個(gè)類可以定義自己的專有屬性,例如最大射程、載重量等。
裝備更新迭代,其數(shù)據(jù)也需要不斷更新,因此,構(gòu)建概念圖譜是一個(gè)迭代更新的過程。根據(jù)知識(shí)獲取的邏輯,每輪迭代包含信息抽取、知識(shí)融合和知識(shí)加工3 個(gè)階段。
信息抽取是從各種類型的數(shù)據(jù)源中提取出實(shí)體、屬性以及實(shí)體間的相互關(guān)系,在此基礎(chǔ)上形成本體化的知識(shí)表達(dá),也就是通常所說的“三元組”。實(shí)體抽取也稱為命名實(shí)體識(shí)別,即從裝備數(shù)據(jù)文檔中抽取出概念實(shí)體;屬性抽取則是依據(jù)概念圖譜中相關(guān)實(shí)體屬性,從數(shù)據(jù)源中采集特定實(shí)體的屬性信息;將屬性與實(shí)體,或者實(shí)體與實(shí)體之間建立起關(guān)聯(lián)關(guān)系,將其連接起來(lái),最終完成關(guān)系抽取。
知識(shí)融合是在獲得新知識(shí)之后對(duì)其進(jìn)行整合,以消除矛盾和歧義,比如某些實(shí)體可能有多種表達(dá),某個(gè)特定稱謂也許對(duì)應(yīng)于多個(gè)不同的實(shí)體等。知識(shí)融合是目前較難的一個(gè)部分,概念圖譜的知識(shí)融合過程主要包括實(shí)體對(duì)齊、屬性對(duì)齊、共指消解、規(guī)范化等,因?yàn)椴煌瑏?lái)源、不同形態(tài)的數(shù)據(jù)缺乏統(tǒng)一的規(guī)范,往往存在許多差異,很難找到一種通用的方法實(shí)現(xiàn)這一過程,需要對(duì)不同類型數(shù)據(jù)的特性進(jìn)行針對(duì)性地處理,將裝備的“別名”、“代號(hào)”與裝備實(shí)際名稱關(guān)聯(lián)起來(lái),確保概念的準(zhǔn)確性。
知識(shí)加工指對(duì)經(jīng)過融合后的新知識(shí)、新本體,進(jìn)行質(zhì)量評(píng)估,為保證概念準(zhǔn)確,部分情況可能需要人工參與鑒別。將合格的部分存儲(chǔ)到概念圖譜中,以確保知識(shí)庫(kù)的質(zhì)量。此外,還可以基于圖數(shù)據(jù)庫(kù)對(duì)已有的知識(shí)進(jìn)行知識(shí)推理,挖掘出數(shù)據(jù)中隱含的知識(shí)。
經(jīng)過多次迭代,裝備概念圖譜可以應(yīng)用于裝備知識(shí)圖譜的構(gòu)建,并在相關(guān)的上層服務(wù)中發(fā)揮作用,如裝備數(shù)據(jù)查詢、裝備知識(shí)問答等。此外,在實(shí)際應(yīng)用中還需要考慮不同裝備數(shù)據(jù)的密級(jí)不同,如通用裝備密級(jí)較低,所有使用者都可以查詢到,而最新的裝備密級(jí)較高,只有相應(yīng)研發(fā)人員和相關(guān)指揮人員能夠查詢到。綜合以上研究,本文針對(duì)3 種不同的使用對(duì)象對(duì)概念圖譜提出了幾種應(yīng)用方向。
1)針對(duì)研發(fā)人員。裝備研發(fā)主要分為裝備研發(fā)和軟件研發(fā)兩類。對(duì)于裝備研發(fā)人員,需要全面了解各類裝備,確保不同類型裝備之間能夠協(xié)同配合。對(duì)于軟件研發(fā)人員,裝備概念圖譜能為裝備知識(shí)圖譜的構(gòu)建提供邏輯基礎(chǔ),其規(guī)范的本體說明和關(guān)聯(lián)關(guān)系能夠確保知識(shí)圖譜的精確性。此外,通過裝備之間的關(guān)聯(lián)關(guān)系進(jìn)行裝備數(shù)據(jù)挖掘,能進(jìn)一步推理出各裝備之間的隱含聯(lián)系,為聯(lián)合作戰(zhàn)提出理論支撐。
2)針對(duì)指揮人員。指揮人員主要指上級(jí)領(lǐng)導(dǎo)者,需要統(tǒng)籌全局,不僅要掌握裝備的詳細(xì)信息,從宏觀層面調(diào)配各類裝備的使用部署,還需要對(duì)各類情報(bào)有所了解。而利用概念圖譜結(jié)合自然語(yǔ)言處理技術(shù),不僅能有助于情報(bào)挖掘,將互聯(lián)網(wǎng)上的海量信息碎片聯(lián)系在一起,還能夠快速進(jìn)行情報(bào)處理,提取龐雜情報(bào)數(shù)據(jù)中有價(jià)值的內(nèi)容。此外,還有語(yǔ)義問答等應(yīng)用,幫助指揮員快速獲取所需信息,減少指揮員決策時(shí)間,將信息優(yōu)勢(shì)轉(zhuǎn)化為決策優(yōu)勢(shì)。
3)針對(duì)作戰(zhàn)人員。作戰(zhàn)人員是武器裝備的使用者,其主要任務(wù)是熟練掌握武器裝備的使用與維修,因此,需要對(duì)相關(guān)裝備的性能參數(shù)、使用方法、維修技巧等有所了解。但記住這么多紛繁復(fù)雜的裝備數(shù)據(jù)需要長(zhǎng)期的積累,因此,可以借助裝備知識(shí)圖譜構(gòu)建裝備百科搜索引擎,而構(gòu)建一個(gè)成熟的搜索系統(tǒng)首先要精準(zhǔn)地理解用戶的搜索意圖。比如,當(dāng)搜索“J-20 維修發(fā)動(dòng)機(jī)”等關(guān)鍵詞時(shí),用戶的搜索意圖顯然是要搜索戰(zhàn)斗機(jī)發(fā)動(dòng)機(jī)的維修方式,而不是發(fā)動(dòng)機(jī)信息或者J-20 的信息,這個(gè)時(shí)候應(yīng)該返回戰(zhàn)斗機(jī)發(fā)動(dòng)機(jī)的維修方式。為了幫助機(jī)器產(chǎn)生這樣的理解,就需要使用裝備概念圖譜建立J-20 與戰(zhàn)斗機(jī)之間的從屬關(guān)系,幫助平臺(tái)識(shí)別搜索核心詞匯,進(jìn)而準(zhǔn)確理解搜索意圖。此外,不能保證每名用戶都擁有相關(guān)的專業(yè)知識(shí),當(dāng)搜索語(yǔ)句出現(xiàn)偏差時(shí),基于關(guān)鍵詞匹配的方式將不再適用。而使用概念圖譜則可通過對(duì)搜索的實(shí)體進(jìn)行概念理解,推薦該概念下相關(guān)實(shí)體,幫助用戶進(jìn)行更方便、更精確的查找。除了智慧搜索,智能實(shí)體推薦[23]也是以概念圖譜為基礎(chǔ)建立的智能化應(yīng)用。搜索引擎不僅能通過提供直接答案來(lái)提升用戶的信息搜索體驗(yàn),還能進(jìn)一步在搜索結(jié)果中為用戶推薦相關(guān)信息[24]。比如,當(dāng)用戶搜索“81 杠”、“95”等特殊詞匯時(shí),采用概念圖譜的搜索引擎可進(jìn)一步推斷用戶搜索意圖是槍械,然后可以向用戶推薦其他槍械的相關(guān)知識(shí),有利于用戶明確搜索目標(biāo)以及拓展知識(shí)面,從而更好地增強(qiáng)用戶的信息發(fā)現(xiàn)體驗(yàn)。
基于上述應(yīng)用展望,本文以flask 框架為基礎(chǔ),構(gòu)建了web 可視化的智能搜索應(yīng)用實(shí)現(xiàn),其界面如圖6 所示。當(dāng)用戶輸入搜索詞時(shí),能夠自動(dòng)構(gòu)建cypher 語(yǔ)句,并從數(shù)據(jù)庫(kù)中獲得結(jié)點(diǎn)關(guān)系,并依據(jù)關(guān)系進(jìn)行實(shí)體推薦。
圖6 web 應(yīng)用可視化示意圖
在大數(shù)據(jù)時(shí)代,利用知識(shí)工程技術(shù)為裝備數(shù)據(jù)添加語(yǔ)義,使機(jī)器可以像人一樣產(chǎn)生范疇化概念,是實(shí)現(xiàn)裝備信息化的第一步,有助于用戶利用機(jī)器快速處理數(shù)據(jù)、系統(tǒng)學(xué)習(xí)知識(shí)。本文從裝備信息化的實(shí)際需求出發(fā),對(duì)軍事裝備概念圖譜的構(gòu)建進(jìn)行了探討與實(shí)現(xiàn)。以環(huán)球軍事網(wǎng)的兵器庫(kù)數(shù)據(jù)為基礎(chǔ),在抽取半結(jié)構(gòu)化數(shù)據(jù)的基礎(chǔ)上形成概念層級(jí)關(guān)系,完成初步概念圖譜的構(gòu)建。然后從多源數(shù)據(jù)中利用迭代學(xué)習(xí)的方法進(jìn)行實(shí)體補(bǔ)全,確保了最終得到的裝備概念圖譜的精度和廣度。最后從頂層設(shè)計(jì)的角度出發(fā),對(duì)裝備知識(shí)圖譜的構(gòu)建流程和應(yīng)用領(lǐng)域提出了展望,為下一步裝備知識(shí)圖譜構(gòu)建工作的展開和后續(xù)技術(shù)落地提供支撐。