• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于百科知識(shí)的軍事裝備知識(shí)圖譜構(gòu)建與應(yīng)用

      2019-02-25 10:03:10車金立唐力偉鄧士杰蘇續(xù)軍
      兵器裝備工程學(xué)報(bào) 2019年1期
      關(guān)鍵詞:軍事裝備三元組結(jié)構(gòu)化

      車金立,唐力偉,鄧士杰,蘇續(xù)軍

      (陸軍工程大學(xué)石家莊校區(qū)火炮工程系, 石家莊 050003)

      伴隨信息時(shí)代的發(fā)展,各個(gè)行業(yè)中的業(yè)務(wù)數(shù)據(jù)呈爆炸式增長(zhǎng),已逐漸成為一種重要資源,并發(fā)揮著不可或缺的作用。與此同時(shí),在軍事裝備領(lǐng)域中,也擁有大量裝備類型、裝備型號(hào)及裝備參數(shù)等數(shù)據(jù)。這些數(shù)據(jù)蘊(yùn)含著豐富的價(jià)值信息,然而,相關(guān)人員在面對(duì)這些海量的軍事裝備數(shù)據(jù)時(shí),卻無法高效地從中獲取關(guān)鍵知識(shí),從而也無法依據(jù)數(shù)據(jù)指導(dǎo)軍事裝備工作[1]。通過調(diào)研發(fā)現(xiàn),導(dǎo)致數(shù)據(jù)中價(jià)值信息繼續(xù)沉睡的首要問題是,這些數(shù)據(jù)缺乏緊湊有效的組織結(jié)構(gòu)與直觀形象的可視化查詢方式,沒有形成相應(yīng)的軍事裝備知識(shí)體系,難以進(jìn)行深層次的數(shù)據(jù)挖掘與應(yīng)用。

      因此為解決上述問題,本文將知識(shí)圖譜(knowledge graph,KG)技術(shù)引入到軍事裝備領(lǐng)域。知識(shí)圖譜是借助信息處理技術(shù)從海量文本數(shù)據(jù)中抽取領(lǐng)域?qū)嶓w、屬性及其相互關(guān)系,從而構(gòu)成結(jié)構(gòu)化知識(shí)的一種知識(shí)表示形式。知識(shí)圖譜可以將具有復(fù)雜關(guān)系的知識(shí)通過圖形化的方式準(zhǔn)確形象的表達(dá)出來,這種形成體系的知識(shí)更符合人類的學(xué)習(xí)習(xí)慣,有助于相關(guān)人員快速地從海量數(shù)據(jù)中學(xué)習(xí)關(guān)鍵知識(shí)及其相互關(guān)系,更好地把握知識(shí)結(jié)構(gòu)。知識(shí)圖譜目前在通用領(lǐng)域、金融領(lǐng)域、醫(yī)療領(lǐng)域及情報(bào)領(lǐng)域等均有廣泛應(yīng)用,且發(fā)揮著前所未有的作用[2]。

      谷歌在2012年率先提出知識(shí)圖譜的概念,并將其用于增強(qiáng)搜索引擎的性能,提高知識(shí)搜索的質(zhì)量[3]。此后,知識(shí)圖譜就在國(guó)內(nèi)外掀起了研發(fā)熱潮,通用領(lǐng)域知識(shí)圖譜的構(gòu)建技術(shù)逐漸走向成熟。例如基于維基百科數(shù)據(jù)構(gòu)建的多語言知識(shí)圖譜DBpedia[4],其規(guī)模龐大并覆蓋了125種語言,在全世界都有廣泛的應(yīng)用。以及具有較高置信度的YAGO[5],其擁有的大部分實(shí)體都經(jīng)過了高質(zhì)量的評(píng)估,具有較高的準(zhǔn)確率,但所包含實(shí)體的豐富程度低于DBpedia。另外由微軟公司所構(gòu)建的Probase[6]也極具代表性,是擁有概念最多的知識(shí)圖譜。除此之外,國(guó)內(nèi)許多機(jī)構(gòu)也展開了對(duì)通用知識(shí)圖譜的探索,例如上海交通大學(xué)構(gòu)建的首個(gè)中文通用領(lǐng)域知識(shí)圖譜Zhishi.me[7]、復(fù)旦大學(xué)構(gòu)建的知識(shí)圖譜、百度構(gòu)建的“知心”和搜狗構(gòu)建的“知立方”等。這些通用知識(shí)圖譜的數(shù)據(jù)大多都來自于百科知識(shí)及已有的結(jié)構(gòu)化數(shù)據(jù),覆蓋范圍較為廣泛。此后,一部分學(xué)者開始對(duì)垂直知識(shí)圖譜進(jìn)行研究,垂直知識(shí)圖譜就是針對(duì)特定領(lǐng)域構(gòu)建的知識(shí)圖譜,其構(gòu)建過程依賴該領(lǐng)域的行業(yè)數(shù)據(jù),覆蓋范圍較窄。如面向影視領(lǐng)域的IMDB、面向音樂領(lǐng)域的MusicBrainz、面向中醫(yī)藥領(lǐng)域的知識(shí)圖譜[8]及面向植物領(lǐng)域的知識(shí)圖譜[9]等,這些垂直知識(shí)圖譜在構(gòu)建過程中也有相當(dāng)一部分?jǐn)?shù)據(jù)來源于互聯(lián)網(wǎng)中的網(wǎng)頁。通過總結(jié)以上知識(shí)圖譜的研究可以發(fā)現(xiàn),領(lǐng)域中現(xiàn)有的結(jié)構(gòu)化數(shù)據(jù)以及百科網(wǎng)頁中的半結(jié)構(gòu)化數(shù)據(jù)是構(gòu)建知識(shí)圖譜的關(guān)鍵數(shù)據(jù)源。與此同時(shí),在面向軍事裝備領(lǐng)域時(shí),由于該領(lǐng)域具有一定的保密性,相關(guān)數(shù)據(jù)難以獲取,且實(shí)體間關(guān)系較為復(fù)雜,面向非結(jié)構(gòu)化數(shù)據(jù)抽取知識(shí)時(shí)準(zhǔn)確性有限,構(gòu)建軍事裝備知識(shí)圖譜面臨一系列困難。

      為此,本文主要基于數(shù)據(jù)質(zhì)量相對(duì)較高的半結(jié)構(gòu)化百科知識(shí)構(gòu)建軍事裝備知識(shí)圖譜,對(duì)構(gòu)建流程中的知識(shí)抽取、知識(shí)融合、知識(shí)圖譜的構(gòu)建與儲(chǔ)存以及知識(shí)圖譜的更新維護(hù)等重要技術(shù)進(jìn)行研究,為裝備工作者提供全面準(zhǔn)確的軍事裝備知識(shí)體系。并在此基礎(chǔ)上,實(shí)現(xiàn)了基于軍事裝備知識(shí)圖譜的知識(shí)問答,輔助裝備工作者快速準(zhǔn)確地獲取所需知識(shí)。

      1 知識(shí)圖譜技術(shù)架構(gòu)

      1) 知識(shí)圖譜的定義

      知識(shí)圖譜實(shí)質(zhì)上是一種以圖形的方式形象表示現(xiàn)實(shí)概念及其相關(guān)關(guān)系的結(jié)構(gòu)化知識(shí)庫(kù),其更加符合人類對(duì)現(xiàn)實(shí)世界的認(rèn)知,是一種更為合理的管理海量知識(shí)的方式,其基本的網(wǎng)狀結(jié)構(gòu)如圖1所示。另外,也正是這種儲(chǔ)存結(jié)構(gòu)使得知識(shí)圖譜可擴(kuò)充性較好,便于修改知識(shí)及添加新的知識(shí)。

      圖1 知識(shí)圖譜的網(wǎng)狀結(jié)構(gòu)

      知識(shí)圖譜的基本單元為<實(shí)體1—關(guān)系—實(shí)體2>及<實(shí)體—屬性名稱—屬性值>這種三元組,圖1中的節(jié)點(diǎn)代表實(shí)體,實(shí)體是知識(shí)圖譜中最基本的元素,描述現(xiàn)實(shí)世界中某一概念分類中的個(gè)體,如步槍分類中的具體型號(hào)步槍,并且每個(gè)實(shí)體應(yīng)擁有唯一的ID來與其他實(shí)體進(jìn)行區(qū)分。圖1中的邊代表實(shí)體間的相互關(guān)系,實(shí)體通過彼此關(guān)系相互連接,進(jìn)而構(gòu)成完整清晰的結(jié)構(gòu)化知識(shí)網(wǎng)絡(luò)。另外,實(shí)體可包含多個(gè)屬性,描述實(shí)體可能具有的屬性、特性及參數(shù)等內(nèi)在特征,例如射程、殺傷力等。

      2) 知識(shí)圖譜構(gòu)建的技術(shù)流程

      構(gòu)建知識(shí)圖譜的主要目標(biāo)就是綜合利用多種信息處理技術(shù)將蘊(yùn)藏在非結(jié)構(gòu)化文本數(shù)據(jù)、半結(jié)構(gòu)化網(wǎng)頁及表格數(shù)據(jù)及結(jié)構(gòu)化數(shù)據(jù)中具有價(jià)值的知識(shí)抽取出來,以三元組的形式儲(chǔ)存在計(jì)算機(jī)中形成知識(shí)體系,便于人與計(jì)算機(jī)的進(jìn)一步學(xué)習(xí)與分析利用,

      知識(shí)圖譜構(gòu)建的技術(shù)流程如圖2所示,主要就是通過信息抽取、知識(shí)融合、圖譜的構(gòu)建與儲(chǔ)存等核心技術(shù)從海量的異構(gòu)數(shù)據(jù)源出發(fā),抽取其中的實(shí)體、屬性等關(guān)鍵知識(shí)及其相互關(guān)系,再完成實(shí)體對(duì)齊與實(shí)體消歧等數(shù)據(jù)融合工作,然后采用符合質(zhì)量要求的知識(shí)構(gòu)建圖譜,并利用圖數(shù)據(jù)庫(kù)對(duì)構(gòu)建好的知識(shí)圖譜進(jìn)行儲(chǔ)存。另外,由于信息時(shí)代中數(shù)據(jù)隨時(shí)在高速增長(zhǎng),人們對(duì)于知識(shí)的認(rèn)知需求也在持續(xù)提升,因此為了保證知識(shí)圖譜的時(shí)效性,還需按照整個(gè)技術(shù)流程將新的知識(shí)不斷地加入到已構(gòu)建完成的知識(shí)圖譜當(dāng)中,實(shí)現(xiàn)對(duì)知識(shí)圖譜的更新與維護(hù)。

      圖2 知識(shí)圖譜構(gòu)建的技術(shù)流程

      目前,按照知識(shí)圖譜的構(gòu)建方式,主要分為自頂向下與自底向上兩種方式[10]。其中,自頂向下構(gòu)建知識(shí)圖譜的方式相對(duì)簡(jiǎn)單,但這種方式十分依賴已構(gòu)建好的高質(zhì)量結(jié)構(gòu)化知識(shí)庫(kù),需要首先從結(jié)構(gòu)化數(shù)據(jù)源中抽取出相應(yīng)的本體模式,定義好概念之間的層次關(guān)系,然后再將從多種數(shù)據(jù)源中學(xué)習(xí)到的實(shí)體及屬性添加到定義好的概念體系當(dāng)中。在知識(shí)圖譜研發(fā)的初期,許多公司都采用這種高效的方式,例如,谷歌構(gòu)建的知識(shí)圖譜中有很大一部分?jǐn)?shù)據(jù)都來自Freebase數(shù)據(jù)庫(kù),DBpedia是在維基百科數(shù)據(jù)基礎(chǔ)上構(gòu)建完成的。

      然而,隨著自然語言處理等知識(shí)抽取技術(shù)的快速發(fā)展,自底向上的構(gòu)建方式逐漸成為了主流。該方式的主要思想是利用知識(shí)抽取技術(shù)先從異構(gòu)數(shù)據(jù)源中抽取實(shí)體,然后再對(duì)抽取到的實(shí)體進(jìn)行抽象,歸納出概念間的體系結(jié)構(gòu),進(jìn)行本體的構(gòu)建。這種方式有利于抽取出新的本體模式,可以構(gòu)建出更為豐富全面的概念體系,且自動(dòng)化程度更高,Knowledge Vault[11]則是通過這種方式構(gòu)建的典型代表,實(shí)現(xiàn)了對(duì)現(xiàn)有知識(shí)庫(kù)的補(bǔ)充與完善。

      2 基于百科知識(shí)的軍事裝備知識(shí)圖譜構(gòu)建

      2.1 軍事裝備知識(shí)圖譜構(gòu)建流程

      依據(jù)知識(shí)的覆蓋范圍進(jìn)行劃分,面向特定領(lǐng)域構(gòu)建的軍事裝備知識(shí)圖譜應(yīng)屬于垂直知識(shí)圖譜,它相比于強(qiáng)調(diào)知識(shí)廣度的通用知識(shí)圖譜而言,更強(qiáng)調(diào)知識(shí)的深度、知識(shí)的準(zhǔn)確性及知識(shí)的層次結(jié)構(gòu)[12]。因此為使軍事裝備工作者及相關(guān)人員快速準(zhǔn)確地把握關(guān)鍵知識(shí)及知識(shí)體系,軍事裝備知識(shí)圖譜應(yīng)具有很強(qiáng)的領(lǐng)域針對(duì)性與專業(yè)性,需要根據(jù)領(lǐng)域相關(guān)度更高且豐富準(zhǔn)確的領(lǐng)域數(shù)據(jù)進(jìn)行構(gòu)建。

      在分析軍事裝備領(lǐng)域數(shù)據(jù)時(shí)可以發(fā)現(xiàn),由于保密性等原因,現(xiàn)有結(jié)構(gòu)化數(shù)據(jù)十分稀少,收集較為困難,而非結(jié)構(gòu)化數(shù)據(jù)中知識(shí)權(quán)威性較低,且抽取準(zhǔn)確率有限,難以達(dá)到可用性標(biāo)準(zhǔn)。因此,可信度較高的半結(jié)構(gòu)化百科知識(shí)將作為構(gòu)建軍事裝備知識(shí)圖譜的重要數(shù)據(jù)源,發(fā)揮關(guān)鍵作用。并且,為滿足垂直知識(shí)圖譜的知識(shí)準(zhǔn)確性及正確層次結(jié)構(gòu)的要求,本文將采用自頂向下和自底向上相結(jié)合的方式來構(gòu)建軍事裝備知識(shí)圖譜,其構(gòu)建流程如圖3所示。

      圖3 軍事裝備知識(shí)圖譜構(gòu)建流程

      該流程首先通過定義知識(shí)圖譜的本體模式來保證知識(shí)層次結(jié)構(gòu)的正確性,然后再針對(duì)定義好的本體模式抽取領(lǐng)域數(shù)據(jù)中的相關(guān)知識(shí),再經(jīng)過知識(shí)融合、質(zhì)量評(píng)估等階段篩選出滿足準(zhǔn)確率要求的三元組進(jìn)行軍事裝備知識(shí)圖譜的構(gòu)建,并用圖數(shù)據(jù)庫(kù)進(jìn)行儲(chǔ)存。整個(gè)流程是一個(gè)循環(huán)更新的過程,需要根據(jù)新的數(shù)據(jù)來更新或修正已構(gòu)建好的知識(shí)圖譜。

      由于軍事裝備知識(shí)圖譜的特殊性,應(yīng)首先構(gòu)建本體。本體是對(duì)領(lǐng)域內(nèi)不同實(shí)體概念、屬性及其相互關(guān)系進(jìn)行抽象和約束而得到的一種規(guī)范,是知識(shí)圖譜中最核心的部分,主要表現(xiàn)為樹形結(jié)構(gòu)[13]。構(gòu)建本體的主要目的是為知識(shí)圖譜定義明確的數(shù)據(jù)模式,正確的數(shù)據(jù)模式可以保證知識(shí)圖譜中的實(shí)體具有較強(qiáng)的體系關(guān)系,是構(gòu)建知識(shí)圖譜的基礎(chǔ)。由于軍事裝備知識(shí)圖譜主要為領(lǐng)域相關(guān)人員提供服務(wù),對(duì)本體準(zhǔn)確率的要求較高,因此本文在綜合考慮軍事裝備領(lǐng)域?qū)I(yè)知識(shí)及數(shù)據(jù)源的基礎(chǔ)上,通過對(duì)軍事裝備分類及其之間關(guān)系進(jìn)行剖析,確定軍事裝備核心概念,得到具有樹形結(jié)構(gòu)的數(shù)據(jù)模式圖,總共分為8大類、100小類,由于數(shù)量較多,圖4中有所省略。每個(gè)裝備實(shí)體還包含各自的屬性,如國(guó)家、射程、戰(zhàn)斗全重、最大速度等。

      圖4 軍事裝備本體結(jié)構(gòu)示意圖

      2.2 百科數(shù)據(jù)抽取

      現(xiàn)實(shí)世界中數(shù)據(jù)是零散的,如何獲取數(shù)據(jù)是構(gòu)建知識(shí)圖譜所面臨的又一大難題。在信息時(shí)代,互聯(lián)網(wǎng)中擁有著世界上最為龐大的數(shù)據(jù),互聯(lián)網(wǎng)中的網(wǎng)頁可以為構(gòu)建知識(shí)圖譜提供海量的數(shù)據(jù)。百科網(wǎng)站是這些海量數(shù)據(jù)中的一種高質(zhì)量半結(jié)構(gòu)化知識(shí),其中的詞條大部分由人工進(jìn)行編輯,包含了文章標(biāo)題、分類標(biāo)簽、信息框等大量規(guī)范化知識(shí),可信度較高,利用這些數(shù)據(jù)構(gòu)建知識(shí)圖譜非常具有價(jià)值。

      本文主要采用網(wǎng)絡(luò)爬蟲技術(shù)從百科網(wǎng)頁中獲取知識(shí),并在爬蟲過程中使用Partial PageRank策略來優(yōu)先爬取重要程度較高的網(wǎng)頁,其主要流程如圖5所示。

      圖5 數(shù)據(jù)爬取流程

      該流程首先將“軍事裝備”的百科詞條鏈接作為初始的URL,然后對(duì)該詞條URL進(jìn)行頁面解析,提取出頁面中所包含的其他詞條鏈接添加到詞條URL庫(kù)中用于爬取軍事裝備相關(guān)百科詞條上的數(shù)據(jù)。而數(shù)據(jù)解析是對(duì)百科網(wǎng)頁中所包含的知識(shí)進(jìn)行定位,進(jìn)行所需知識(shí)的爬取,最后將爬取到的實(shí)體、屬性及相互關(guān)系等知識(shí)以三元組的形式進(jìn)行儲(chǔ)存。

      本文在該爬蟲框架的基礎(chǔ)上輔助以人工篩選的方式總共獲取了5858條軍事裝備詞條頁面,每條軍事裝備詞條頁面如圖6所示。每個(gè)詞條對(duì)應(yīng)一個(gè)實(shí)體,詞條標(biāo)題即為實(shí)體名稱。每個(gè)實(shí)體擁有分類標(biāo)簽,列舉其所屬類別,可從中挖掘?qū)嶓w間存在的關(guān)系,以<實(shí)體1,關(guān)系,實(shí)體2>形式的三元組進(jìn)行儲(chǔ)存。除此之外,每個(gè)詞條中的特定位置上還有描述其對(duì)應(yīng)實(shí)體屬性的信息框,通常以表格形式出現(xiàn),可從中抽取出實(shí)體的屬性信息,以<實(shí)體,屬性名稱,屬性值>形式的三元組進(jìn)行儲(chǔ)存。本文通過數(shù)據(jù)解析模塊對(duì)這些關(guān)鍵知識(shí)進(jìn)行抽取而構(gòu)建三元組,并通過分類關(guān)系將抽取到的各個(gè)實(shí)體對(duì)應(yīng)到構(gòu)建好的軍事裝備本體中,以實(shí)現(xiàn)知識(shí)圖譜的構(gòu)建。

      圖6 軍事裝備百科詞條頁面

      百科知識(shí)抽取將百科頁面中的半結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換成了三元組形式的關(guān)鍵知識(shí),但這些關(guān)鍵知識(shí)中仍存在部分冗余的信息,主要存在具有不同實(shí)體名稱但實(shí)際對(duì)應(yīng)現(xiàn)實(shí)世界中同一實(shí)體的現(xiàn)象,需要對(duì)這些冗余的知識(shí)進(jìn)行知識(shí)融合,保證所構(gòu)建知識(shí)圖譜的準(zhǔn)確性。由于本文所構(gòu)建的軍事裝備知識(shí)圖譜對(duì)準(zhǔn)確性的要求較高,因此本文將采用聚類算法對(duì)這些冗余的知識(shí)進(jìn)行篩選,然后再使用人工進(jìn)行評(píng)估。該方法首先使用詞袋模型[14]對(duì)實(shí)體名稱進(jìn)行向量化表示,并計(jì)算各實(shí)體名稱的相似度,然后設(shè)定閾值篩選出相似度較高的實(shí)體名稱,最后再通過人工決定舍取,實(shí)現(xiàn)實(shí)體對(duì)齊及屬性值的整合。由于百科知識(shí)中只是部分存在這種冗余的信息,使用該方法并不會(huì)造成較高的人工成本。

      2.3 知識(shí)圖譜的儲(chǔ)存更新與維護(hù)

      在經(jīng)過復(fù)雜的信息處理之后,零散的知識(shí)已被整理成有序的結(jié)構(gòu)良好的知識(shí),接下來則需要對(duì)這些知識(shí)進(jìn)行儲(chǔ)存。軍事裝備知識(shí)圖譜中的節(jié)點(diǎn)及關(guān)系數(shù)量眾多,且隨著知識(shí)圖譜的更新與維護(hù),其數(shù)量不斷增長(zhǎng),節(jié)點(diǎn)及關(guān)系也需要不斷地修正以保證知識(shí)的準(zhǔn)確性,給知識(shí)圖譜的儲(chǔ)存帶來一系列困難,因此知識(shí)圖譜的儲(chǔ)存方式對(duì)進(jìn)一步管理及應(yīng)用知識(shí)具有較大影響。目前,圖形數(shù)據(jù)庫(kù)由于其包含的節(jié)點(diǎn)、關(guān)系及屬性三種元素可以與知識(shí)圖譜中的關(guān)鍵知識(shí)很好的映射,在儲(chǔ)存知識(shí)圖譜方面獲得了很好的效果,成為了主流方式。Neo4j作為圖形數(shù)據(jù)庫(kù)的典型代表,可輕松穩(wěn)定地儲(chǔ)存及管理上億的節(jié)點(diǎn)及關(guān)系,具有較高的可靠性及擴(kuò)展性,并支持完整的ACID事務(wù),可高效地完成對(duì)知識(shí)圖譜的儲(chǔ)存、更新、管理與檢索。

      因此,本文將采用Neo4j圖形數(shù)據(jù)庫(kù)對(duì)軍事裝備知識(shí)圖譜進(jìn)行儲(chǔ)存,并對(duì)其進(jìn)行可視化,使軍事裝備領(lǐng)域知識(shí)具有更強(qiáng)的可讀性,方便使用者快速獲取及理解軍事裝備領(lǐng)域知識(shí)及知識(shí)結(jié)構(gòu),圖7是軍事裝備知識(shí)圖譜的部分實(shí)例。圖7中不同顏色的節(jié)點(diǎn)代表不同類型的實(shí)體,節(jié)點(diǎn)之間的邊描述了實(shí)體間具有的關(guān)系。

      圖7 軍事裝備知識(shí)圖譜實(shí)例

      構(gòu)建知識(shí)圖譜并不是一蹴而就的,需要不斷地根據(jù)新的知識(shí)來更新與豐富知識(shí)圖譜,以保證其所包含領(lǐng)域知識(shí)的時(shí)效性。本文將采用增量更新的方式對(duì)軍事裝備知識(shí)圖譜進(jìn)行更新,即首先利用爬蟲程序持續(xù)獲取百科頁面中的數(shù)據(jù)并以三元組的形式進(jìn)行儲(chǔ)存,選取其中置信度較高且經(jīng)過去重操作的三元組作為新增知識(shí),再依據(jù)這些新增知識(shí)對(duì)已構(gòu)建的軍事裝備知識(shí)圖譜進(jìn)行更新或修正,并借助部分人工進(jìn)行干預(yù)。

      知識(shí)圖譜的更新主要包括本體更新和數(shù)據(jù)更新兩方面。本體更新即為數(shù)據(jù)模式的更新,主要是通過對(duì)新增知識(shí)進(jìn)行抽象以發(fā)現(xiàn)新的實(shí)體類型,實(shí)現(xiàn)對(duì)本體元素的增加或修正。本體更新所涉及的元素相對(duì)較少,但都會(huì)直接對(duì)知識(shí)圖譜中的實(shí)體及相互關(guān)系造成影響,因此需要較強(qiáng)的人工干預(yù)。數(shù)據(jù)更新則相對(duì)簡(jiǎn)單,對(duì)整個(gè)知識(shí)圖譜所造成的影響也較小,其主要目標(biāo)是繼續(xù)發(fā)現(xiàn)新的實(shí)體、關(guān)系或?qū)傩?,不斷豐富和擴(kuò)展軍事裝備知識(shí)圖譜。

      3 基于軍事裝備知識(shí)圖譜的知識(shí)問答

      基于百科知識(shí)構(gòu)建的軍事裝備知識(shí)圖譜實(shí)現(xiàn)了對(duì)網(wǎng)絡(luò)中零散信息的良好組織,將其整合為了更加符合人類認(rèn)知習(xí)慣的結(jié)構(gòu)化知識(shí),是一種高效管理與利用知識(shí)的方式。然而為了更好地利用和展示知識(shí),發(fā)揮軍事裝備知識(shí)圖譜的潛在使用價(jià)值,本文基于軍事裝備知識(shí)圖譜實(shí)現(xiàn)了的知識(shí)問答,輔助相關(guān)使用人員快速準(zhǔn)確地獲取所需知識(shí)。

      知識(shí)問答是知識(shí)圖譜最主要的應(yīng)用之一,其目的是回答使用者通過自然語言所提出的問題[15]。由于知識(shí)圖譜中數(shù)據(jù)的精度、關(guān)聯(lián)度及結(jié)構(gòu)化程度較高,基于知識(shí)圖譜的知識(shí)問答具有較好的性能。本文在已構(gòu)建的軍事裝備知識(shí)圖譜的基礎(chǔ)上,基于模板匹配的方式[16]實(shí)現(xiàn)了知識(shí)問答,其主要流程如圖8所示。該流程的輸入為使用者所提出的自然語言問題,在經(jīng)過分詞,模板匹配和查詢?nèi)齻€(gè)主要步驟之后,返回用戶的查詢結(jié)果。

      圖8 知識(shí)問答流程

      分詞時(shí)所采用的方法為借助分詞詞典的正向匹配法,分詞詞典則基于軍事裝備知識(shí)圖譜進(jìn)行構(gòu)建,其包含了知識(shí)圖譜中的實(shí)體名、關(guān)系名、屬性名及屬性值,并加入了上述名詞的同義詞列表。分詞的目的是劃分出輸入問題中所包含的知識(shí)圖譜中的關(guān)鍵詞,并確定這些關(guān)鍵詞在知識(shí)圖譜中的類型,加入同義詞列表是為了保證在使用者輸入較隨意時(shí)的分詞準(zhǔn)確性與魯棒性。然后將分詞后得到的結(jié)果與預(yù)先定義的模板進(jìn)行匹配,找到匹配率最高的模式。例如當(dāng)匹配到“實(shí)體+屬性”的模式時(shí),用戶最有可能查詢的為該實(shí)體所包含屬性的屬性值。最后再依據(jù)匹配到的模式將自然語言問題轉(zhuǎn)換為Neo4j圖形數(shù)據(jù)庫(kù)的Cypher查詢語言,在軍事裝備知識(shí)圖譜中完成知識(shí)的查詢,并將可視化查詢結(jié)果返回給使用者。

      4 結(jié)論

      本文在充分闡述知識(shí)圖譜的發(fā)展、定義及其一般構(gòu)建流程的基礎(chǔ)上,分析了軍事裝備知識(shí)圖譜構(gòu)建的特殊性,提出了針對(duì)軍事裝備領(lǐng)域的知識(shí)圖譜構(gòu)建方法。該方法預(yù)先構(gòu)建了軍事裝備本體,通過網(wǎng)絡(luò)爬蟲技術(shù)不斷獲取百科網(wǎng)頁中高質(zhì)量的百科知識(shí),再通過知識(shí)融合去除冗余的知識(shí),將最后得到的關(guān)鍵知識(shí)以三元組的形式儲(chǔ)存在Neo4j圖形數(shù)據(jù)庫(kù)中形成網(wǎng)狀結(jié)構(gòu)的知識(shí)體系,并對(duì)構(gòu)建完成的軍事裝備知識(shí)圖譜持續(xù)更新。另外,本文利用已構(gòu)建的軍事裝備知識(shí)圖譜實(shí)現(xiàn)了軍事裝備領(lǐng)域的知識(shí)問答,輔助裝備工作者高效獲取知識(shí)。

      下一步工作將對(duì)非結(jié)構(gòu)數(shù)據(jù)中的知識(shí)抽取技術(shù)進(jìn)行研究,提高抽取準(zhǔn)確率,并利用抽取得到的知識(shí)逐步擴(kuò)增本體的層級(jí)結(jié)構(gòu)。同時(shí)還需進(jìn)一步開發(fā)知識(shí)問答過程中靈活多樣的人機(jī)交互界面。

      猜你喜歡
      軍事裝備三元組結(jié)構(gòu)化
      基于語義增強(qiáng)雙編碼器的方面情感三元組提取
      軟件工程(2024年12期)2024-12-28 00:00:00
      基于帶噪聲數(shù)據(jù)集的強(qiáng)魯棒性隱含三元組質(zhì)檢算法*
      把眼睛“搬”給軍事裝備
      促進(jìn)知識(shí)結(jié)構(gòu)化的主題式復(fù)習(xí)初探
      結(jié)構(gòu)化面試方法在研究生復(fù)試中的應(yīng)用
      關(guān)于余撓三元組的periodic-模
      淺析軍事裝備采購(gòu)現(xiàn)狀和軍事代表工作新思路
      基于管理者視角的軍事裝備市場(chǎng)準(zhǔn)入管理制度研究
      “民營(yíng)企業(yè)參與軍事裝備研制和配套相關(guān)政策培訓(xùn)班”在浙江瑞安舉辦
      基于圖模型的通用半結(jié)構(gòu)化數(shù)據(jù)檢索
      临安市| 德阳市| 得荣县| 台前县| 印江| 萍乡市| 东辽县| 徐汇区| 无为县| 安多县| 中方县| 山丹县| 聊城市| 库尔勒市| 阿坝| 尼木县| 榆林市| 吉林市| 积石山| 西乌珠穆沁旗| 连山| 两当县| 高台县| 潜山县| 岢岚县| 新营市| 尚义县| 鄢陵县| 成都市| 大连市| 砚山县| 龙江县| 兴化市| 澎湖县| 吉安县| 容城县| 清丰县| 济南市| 利辛县| 个旧市| 平武县|