周麗娜, 馬志強
(中國電子科學(xué)研究院,北京 100041)
云計算、大數(shù)據(jù)技術(shù)以及移動網(wǎng)絡(luò)的快速發(fā)展開啟了一個大規(guī)模生產(chǎn)、分析和應(yīng)用數(shù)據(jù)的時代。數(shù)據(jù)源中的數(shù)據(jù)之所以有用,是因為它們建立了現(xiàn)實世界及其主題的部分模型[1]。隨著數(shù)據(jù)量的暴漲,利用大數(shù)據(jù)量來智能決策只是應(yīng)用的一個方面,知識圖譜和機器學(xué)習(xí)等技術(shù)正全面推進人工智能技術(shù)的快速發(fā)展。
自達特茅斯AI夏季研討會開始,人工智能研究經(jīng)歷了3次技術(shù)浪潮。第一次浪潮專注于人類知識,始于上世紀(jì)80年代,專注于知識庫和專家?guī)煜到y(tǒng)的構(gòu)建。1977年,美國斯坦福大學(xué)計算機科學(xué)家費根鮑姆(E.A.Feigenballm)在第五屆國際人工智能聯(lián)合會議上提出知識工程的概念,認(rèn)為“知識工程是人工智能的原理和方法,對那些需要專家知識才能解決應(yīng)用難題提供求解的手段,專家知識的獲取、表達和推理過程的構(gòu)成與解釋,是設(shè)計基于知識的系統(tǒng)的重要技術(shù)問題”。在知識工程推動下,涌現(xiàn)出了一批成功的專家系統(tǒng),如醫(yī)藥專家系統(tǒng)MYCIN,探礦專家系統(tǒng)PROSPECTOR等。我國分別在1977年、1985年建立了中醫(yī)肝病診治和砂姜黑小麥?zhǔn)┓蕦<易稍兊葘嵱玫膶<蚁到y(tǒng)。
2000年以后,隨著機器學(xué)習(xí)的興起,利用數(shù)學(xué)模型和大數(shù)據(jù)量的訓(xùn)練求解非確定的解的問題開啟了第二次人工智能的浪潮。例如IBM的深藍系統(tǒng)、谷歌的ALPHAGO系統(tǒng)等。這種人工智能只能解決可建模、可學(xué)習(xí)的問題,在有限的目標(biāo)中求解,得到的是可接受的解但不保證是最優(yōu)解。
利用云計算、大數(shù)據(jù)等數(shù)據(jù)處理技術(shù)海量數(shù)據(jù)信息中知識的提取和建模,推動了通用智能的進步,迎來人工智能“第三次浪潮”。谷歌最早提出了知識圖譜的項目建立語義搜索來提高搜索的精度并提供更智能化的知識瀏覽。國內(nèi)的百度、搜狗等搜索類互聯(lián)網(wǎng)公司也在開展知識圖譜方面的研究。近年來,知識圖譜又被應(yīng)用于聊天機器人和問答系統(tǒng)中,用于輔助深度理解人類的語言和支持推理,并提升人機問答的用戶體驗等,如IBM的Watson,蘋果的Siri,Google Allo,Amazon Echo,百度度秘,公子小白等。同時,知識圖譜在金融、農(nóng)業(yè)、電商、醫(yī)療健康、環(huán)境保護等大量的垂直領(lǐng)域得到廣泛的應(yīng)用。例如,金融領(lǐng)域公司構(gòu)建金融知識庫結(jié)合金融專家輔助進行風(fēng)險控制管理、欺詐識別等;生物醫(yī)療專家通過集成和分析大規(guī)模的生物醫(yī)學(xué)知識圖譜,輔助其進行藥物發(fā)現(xiàn)、潛在靶點識別等任務(wù)。
網(wǎng)絡(luò)信息體系作為我軍新時期面向未來的作戰(zhàn)體系,其設(shè)計思想已從基于威脅向基于能力轉(zhuǎn)變,在軍事上如何借助技術(shù)的發(fā)展在人工智能發(fā)展的浪潮中,使我軍立于不敗之地,如何建立以知識為核心的網(wǎng)絡(luò)信息體系形成智能化作戰(zhàn)能力,需要深入的研究和探索。
本文首先討論了知識圖譜與人工智能的關(guān)系,給出軍事知識圖譜的分類和構(gòu)建方法,然后圍繞知識的運用構(gòu)建網(wǎng)絡(luò)信息體系的參考架構(gòu),最后對知識圖譜在軍事中的應(yīng)用進行了初步的探討和展望。
人工智能是什么,為避免以人類為中心的偏見,麻省理工學(xué)院物理學(xué)家麥克斯·泰格馬克在《生命3.0,人工智能時代的人類》中,定義智能為完成復(fù)雜目標(biāo)的能力[2]。按此定義,人工智能的發(fā)展可以劃分為三個階段,弱人工智能階段、強人工智能階段、超人工智能階段。弱人工智能是指實現(xiàn)一組有限的目標(biāo)的能力,例如具有規(guī)則限定的棋類游戲以及汽車駕駛;強人工智能又稱通用智能,是指有能力達成幾乎任何目標(biāo),包括學(xué)習(xí);超人工智能是指遠超人類水平的通用智能。當(dāng)前發(fā)展最為迅速的是以機器學(xué)習(xí)為典型代表的弱人工智能。
弱人工智能僅能解決可建立有邊界的數(shù)學(xué)模型并接受非最優(yōu)解的有限狀態(tài)空間問題,通常具有弱對抗、回合制、信息完全、邊界確定的特點。然而在軍事領(lǐng)域中,需要面對的問題往往是強對抗、快實時、信息不完全、邊界不確定的無限狀態(tài)空間的戰(zhàn)略決策和規(guī)劃,需要對行為表示、事件推演、案例規(guī)劃進行深入研究,對行為、事件、案例以及其內(nèi)部關(guān)系建立利于分析的統(tǒng)一的表示和存儲,知識圖譜提供了一種有效的解決方案。[3]。
圖是對關(guān)系的最好表達,基于圖的知識表示和存儲能夠更有序、有機的組織知識[4],在解決知識查詢的精度以及可擴展性方面展現(xiàn)出了巨大的優(yōu)勢[5]。利用概念、實體的匹配度,結(jié)合用戶的使用情境,知識圖譜以一種智能、高效的方式不僅限于返回關(guān)鍵字的匹配結(jié)果,而是與用戶與搜索相關(guān)的更全面的知識體系,從而為用戶提供快速、準(zhǔn)確的知識信息。從規(guī)模和范圍來說,網(wǎng)絡(luò)信息體系知識圖譜是面向全部軍事相關(guān)的人員、事物、活動的所有機構(gòu)知識庫的知識集合,包含歷史發(fā)現(xiàn)和當(dāng)前創(chuàng)造的所有知識。這種大型的知識圖譜的創(chuàng)建、維護和使用是一個龐大的工程,本文僅從知識圖譜的構(gòu)建方式和使用的統(tǒng)一架構(gòu)進行探討,以期對我軍知識的表示和使用及其領(lǐng)域的智能化發(fā)展提供參考和支撐。
知識圖譜(Knowledge Graph/Vault)本質(zhì)上是語義網(wǎng)絡(luò),是一種基于圖的、由節(jié)點(Point)和邊(Edge)組成的數(shù)據(jù)結(jié)構(gòu),即知識圖譜是以符號形式描述物理世界中的概念及其相互關(guān)系的結(jié)構(gòu)化的語義知識庫。在知識圖譜里,每個節(jié)點表示現(xiàn)實世界中存在的“實體”,每條邊為實體與實體之間的“關(guān)系”。知識圖譜提供了從“關(guān)系”的角度去分析問題的能力。實體可以由若干個屬性表示,通過實體的屬性可以將不同的實體建立關(guān)聯(lián)關(guān)系。
網(wǎng)絡(luò)信息體系知識圖譜的主要目的是支撐各類智能業(yè)務(wù),需要覆蓋各類軍事活動、人員和作戰(zhàn)任務(wù)??紤]到當(dāng)前情報、人員、裝備等業(yè)務(wù)數(shù)據(jù)庫均已與按照業(yè)務(wù)系統(tǒng)要求設(shè)計,無法輕易改變,因此網(wǎng)絡(luò)信息體系的知識圖譜立足當(dāng)前業(yè)務(wù)數(shù)據(jù)庫構(gòu)建,通過本體映射,利用機器學(xué)習(xí)的方法從已有的結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)庫中抽取本體以及本體之間的關(guān)系,并進一步通過對本體知識庫的元數(shù)據(jù)抽取形成本體元模型,如圖1所示。業(yè)務(wù)數(shù)據(jù)、本體知識、本體元模型按抽象層級依次提升。在業(yè)務(wù)數(shù)據(jù)庫,數(shù)據(jù)多為實體關(guān)系型,如情報人員張三,年齡23歲,軍種為陸軍。本體映射后,本體知識為情報人員本體,含年齡、軍種等屬性。元數(shù)據(jù)抽取后,本體元模型為人員本體,包含年齡、組織等屬性,人員屬性可以分為情報人員、指揮人員、保障人員等。
圖1 網(wǎng)絡(luò)信息體系知識圖譜構(gòu)建關(guān)系
圖2 知識圖譜構(gòu)成圖
網(wǎng)絡(luò)信息體系的知識圖譜的分類如圖2所示。其中:本體元模型是哲學(xué)意義上的抽象本體,是對世界上客觀存在物的系統(tǒng)的描述。主要包括人員本體元模型、活動本體元模型、資源本體元模型、能力本體元模型等,以及這些本體元模型之間的關(guān)系。本體包含5個基本的建模元語:概念(concepts)、關(guān)系(relations)、函數(shù)(functions)、公理(axioms)和實例(instances)。
本體元模型反映了現(xiàn)實世界中相對穩(wěn)定的概念及其關(guān)系和規(guī)則,結(jié)合愛丁堡大學(xué)開發(fā)的骨架法(Skeletal Methodology),網(wǎng)絡(luò)信息體系的本體元模型構(gòu)建過程如圖3所示,根據(jù)本體元模型的規(guī)劃,從本體知識庫中進行概念及屬性描述提取、概念間關(guān)系的確立以及相應(yīng)的公理規(guī)則描述,并與本體知識庫建立實例映射,保證本體元模型與本體知識的一致性。
圖3 本體元模型庫構(gòu)建過程
本體知識庫:本體知識庫中的本體是共享概念模型的明確的形式化規(guī)范說明[6],是現(xiàn)實中的實體的抽象,為特定領(lǐng)域中的信息之間的關(guān)聯(lián)性提供了一定程度的邏輯描述,使得特定領(lǐng)域中的信息資源能夠在本體描述的框架上組織成一個有機的整體。網(wǎng)絡(luò)信息體系本體知識庫主要包括作戰(zhàn)資源本體庫、作戰(zhàn)人員本體庫、作戰(zhàn)活動本體庫、作戰(zhàn)能力本體庫。
本體知識庫的構(gòu)建是一個不斷改進,不斷完善的動態(tài)過程,可以通過結(jié)構(gòu)化或半結(jié)構(gòu)化的業(yè)務(wù)數(shù)據(jù)庫進行抽取建立部分本體,通常來說,本體的構(gòu)建包括實體映射、概念抽象、屬性定義、實體關(guān)聯(lián)、本體關(guān)系確立、本體校驗、版本記錄7個過程,如圖4所示。
圖4 本體知識庫構(gòu)建過程
業(yè)務(wù)數(shù)據(jù)庫:業(yè)務(wù)數(shù)據(jù)庫是現(xiàn)實中與業(yè)務(wù)活動切實相關(guān)的實體關(guān)系模型庫,描述了現(xiàn)實中的實體與其他實體的關(guān)聯(lián)和活動關(guān)系。在網(wǎng)絡(luò)信息體系中,業(yè)務(wù)數(shù)據(jù)庫包括資產(chǎn)數(shù)據(jù)庫、人員數(shù)據(jù)庫、裝備數(shù)據(jù)庫、戰(zhàn)場環(huán)境數(shù)據(jù)庫、力量編成數(shù)據(jù)庫、后勤物資數(shù)據(jù)庫、國防科技數(shù)據(jù)庫、戰(zhàn)略規(guī)劃數(shù)據(jù)庫、情報數(shù)據(jù)庫、軍事訓(xùn)練數(shù)據(jù)庫、政治工作數(shù)據(jù)庫等實體關(guān)系庫。
從本質(zhì)上來說,本體數(shù)據(jù)根據(jù)語義網(wǎng)的規(guī)范存儲于知識庫中,基于業(yè)務(wù)數(shù)據(jù)庫中的實體和關(guān)系、本體知識庫中的本體知識和關(guān)聯(lián)關(guān)系以及知識元模型庫中的現(xiàn)實世界抽象關(guān)系和規(guī)則,根據(jù)業(yè)務(wù)需要,抽取實體(本體)和關(guān)系,形成所需的知識圖譜。
圍繞知識圖譜的構(gòu)建和知識的運用,以形成智能化的作戰(zhàn)能力為目標(biāo),以“數(shù)據(jù)泛在、知識中心、內(nèi)生智能”為特征[7],從數(shù)據(jù)架構(gòu)、業(yè)務(wù)架構(gòu)、系統(tǒng)架構(gòu)、技術(shù)架構(gòu)等4個核心視角開展網(wǎng)絡(luò)信息體系架構(gòu)設(shè)計。
按照本體元模型、本體知識和業(yè)務(wù)數(shù)據(jù)三層分類,構(gòu)建網(wǎng)絡(luò)信息體系數(shù)據(jù)架構(gòu)。本體內(nèi)部以及本體之間可能存在屬性、組成、實例、類屬、因果、對等、背景、層次等多類基本關(guān)系。本體知識庫的概念與實體之間可能存在指揮控制、毀傷、編配、行動關(guān)聯(lián)、評判等關(guān)系。如圖5所示,按照知識圖譜的設(shè)計規(guī)則,本體/實體與關(guān)系同時存儲在數(shù)據(jù)庫中,供各類服務(wù)調(diào)用和推理分析。
圖5 知識圖譜構(gòu)成圖
基于知識圖譜的網(wǎng)絡(luò)信息體系業(yè)務(wù)模型如圖6所示,是以解決用戶需求為目標(biāo),基于業(yè)務(wù)數(shù)據(jù)庫、本體知識庫、本體元模型庫等,通過進行語義分析與知識情境的提取,獲得用戶的角色、目標(biāo)、任務(wù)、知識需求等多方面語境信息,調(diào)用知識圖譜生成服務(wù),形成業(yè)務(wù)需求組織相關(guān)的業(yè)務(wù)實體、本體及其關(guān)系構(gòu)建知識圖譜,基于圖譜進行知識檢索、推理和業(yè)務(wù)規(guī)劃,推送用戶需求的結(jié)果。同時,對于頻繁調(diào)用的實體關(guān)系進行抽象和評價,根據(jù)評價結(jié)果對知識本體庫進行關(guān)系增加、修改或刪除,實現(xiàn)對知識本體的更新。
圖6 知識互聯(lián)業(yè)務(wù)模型
知識情境是區(qū)分、識別不同知識活動,生成知識需求,決定與當(dāng)前業(yè)務(wù)活動相關(guān)聯(lián)的知識類別、范圍和實例的重要因素。在復(fù)雜用戶活動過程中,知識的應(yīng)用和產(chǎn)生是在一定的業(yè)務(wù)過程發(fā)生的,知識的意義和價值只有在對應(yīng)的情境下才能體現(xiàn)出來。
圖7 系統(tǒng)架構(gòu)
由基礎(chǔ)資源層、先進計算與知識推理平臺、知識開發(fā)與應(yīng)用三層構(gòu)成系統(tǒng)架構(gòu),如圖7所示?;A(chǔ)資源層包括通信、計算存儲資源、數(shù)據(jù)知識資源以及相關(guān)的安全、管理資源。先進計算與知識推理平臺以知識圖譜運行環(huán)境為中心,通過服務(wù)注冊、資源管理、資源監(jiān)控等服務(wù),結(jié)合知識集成、知識圖例、知識表示等知識服務(wù)為上層應(yīng)用和開發(fā)提供支撐。
通過知識的共享和交換,可以提高工作協(xié)調(diào)性、縮短決策時間、增強部隊適應(yīng)能力、改進態(tài)勢感知能力并提高任務(wù)規(guī)劃和執(zhí)行準(zhǔn)確性,同時提高預(yù)見事情發(fā)生和資源需求的能力。
遵循“資源-服務(wù)-應(yīng)用”的總體思路,基于知識圖譜的網(wǎng)絡(luò)信息體系下的技術(shù)參考模型包括知識圖譜構(gòu)建技術(shù)、知識服務(wù)技術(shù)、知識應(yīng)用技術(shù),在統(tǒng)一的體系架構(gòu)標(biāo)準(zhǔn)、資源描述標(biāo)準(zhǔn)、服務(wù)協(xié)議規(guī)范、知識采集分類處理規(guī)范、交互和互操作接口標(biāo)準(zhǔn)下,構(gòu)成完整的總體框架。
知識圖譜構(gòu)建技術(shù)知識提取、知識表示、知識存儲等三類。知識提取包括實體映射、概念抽取、屬性定義、實體關(guān)聯(lián)等相關(guān)技術(shù),支撐本體的構(gòu)建;RDF/RDFS、OWL、XML、屬性圖等表示方法支撐知識的建模和表達;知識圖譜主要以圖的形式存儲于數(shù)據(jù)庫中,典型的數(shù)據(jù)庫包括Google的Freebase、微軟的Satori、OrientDB以及PostgreSQL等。知識服務(wù)技術(shù)包括自然語言處理、機器學(xué)習(xí)等通用服務(wù)以及對啟發(fā)式搜索、復(fù)雜管理查詢、推理等知識專用服務(wù)。面向最終用戶的知識應(yīng)用包括知識查詢、知識推理和規(guī)劃驗證三類。知識查詢類應(yīng)用以人物(Who)、時間(When)、地點(Where)、哪一個(Which)為主,知識推理類應(yīng)用利用知識圖譜中的關(guān)系解決如何(How)和為什么(Why)的問題,規(guī)劃驗證類應(yīng)用以活動為中心,根據(jù)活動知識圖譜,對任務(wù)進行分解規(guī)劃制定包含時間、地點、人物、活動、目標(biāo)的具體方案。
美軍早在第一次伊拉克戰(zhàn)爭時期就感受到人工智能對后勤保障方面的影響,據(jù)統(tǒng)計,他們在后勤保障方面省下的錢遠超出了其前期投入[8]。2015年10月,DARPA舉行“未來技術(shù)論壇”對未來30年技術(shù)發(fā)展進行預(yù)測,對人工智能技術(shù)給予厚望。以實施“第三次抵消戰(zhàn)略”為契機,美軍啟動“深綠(Deep Green)”計劃以及Insight、XDATA、Big Mechanism、Deep Learning、DEFT、PPAML等基礎(chǔ)智能技術(shù)研究項目,探索發(fā)展從文本、圖像、聲音、視頻、傳感器等不同類型多源數(shù)據(jù)中自主獲取、處理信息、提取關(guān)鍵特征、挖掘關(guān)聯(lián)關(guān)系的相關(guān)技術(shù),加速人工智能技術(shù)在軍事領(lǐng)域應(yīng)用。
圖8 技術(shù)架構(gòu)
習(xí)近平總書記在十九大報告中指出,“要加快軍事智能化發(fā)展,提高基于網(wǎng)絡(luò)信息體系的聯(lián)合作戰(zhàn)能力、全域作戰(zhàn)能力”。網(wǎng)絡(luò)信息體系領(lǐng)域中,可以借助情報領(lǐng)域知識圖譜,提高情報融合的準(zhǔn)確性,結(jié)合歷史情況,對形勢和發(fā)展走向進行預(yù)測和判斷;通過情報目標(biāo)知識圖譜,對比新目標(biāo),更快地確定目標(biāo)的屬性和關(guān)系進行目標(biāo)識別,并給出最佳跟蹤、對抗方式;利用籌劃決策知識圖譜分析解決戰(zhàn)場空間規(guī)劃的規(guī)模化計算問題,支撐快速、高效和精準(zhǔn)的任務(wù)規(guī)劃;以戰(zhàn)場和保障知識圖譜為主,輔以實時監(jiān)測戰(zhàn)場裝備和力量變化,通過關(guān)聯(lián)比對和分析,為行動控制和支援保障提供合適的解決方案。知識圖譜作為后臺智能服務(wù)的基礎(chǔ),在促進指揮員對戰(zhàn)場態(tài)勢的認(rèn)知速度大幅度提高的同時,亦會催生更多的智能化武器和自主化無人平臺,降低大型平臺的操作復(fù)雜度,進一步提升武器裝備的作戰(zhàn)效果。
智能作為未來作戰(zhàn)的必備能力,網(wǎng)絡(luò)信息體系需要在強人工智能領(lǐng)域進行深入的研究和探索,以便為各類作戰(zhàn)應(yīng)用提供基礎(chǔ)理論和支撐。在知識的表達和利用方面,鑒于知識圖譜在知識組織和利用的高效性,本文給出了網(wǎng)絡(luò)信息體系知識圖譜的分類和知識本體的構(gòu)建方法,以知識的運用為核心設(shè)計網(wǎng)絡(luò)信息體系的數(shù)據(jù)、業(yè)務(wù)、系統(tǒng)、技術(shù)架構(gòu)等4個核心架構(gòu),并對知識圖譜在軍事中的應(yīng)用進行初步的分析。然而在知識圖譜的構(gòu)建和使用過程中,本體的自動構(gòu)建和更新等方面還存在大量的技術(shù)難題未完全解決,當(dāng)前知識圖譜遠未達到覆蓋各類軍事活動的規(guī)模,知識圖譜的智能化之路還很長,需要更多的研究力量共同努力。