曾德國,徐富元,張 君,劉 建
(中國航天科工集團8511研究所,江蘇 南京 210007)
·技術(shù)前沿·
天基海量電磁數(shù)據(jù)深度處理服務(wù)平臺
曾德國,徐富元,張 君,劉 建
(中國航天科工集團8511研究所,江蘇 南京 210007)
當(dāng)前電子偵察數(shù)據(jù)呈現(xiàn)爆炸式增長,如何挖掘電子偵察的潛力,提升應(yīng)用效能是當(dāng)前電子偵察技術(shù)研究面臨的關(guān)鍵問題。海量電磁數(shù)據(jù)深度處理平臺以大數(shù)據(jù)技術(shù)為手段,利用云存儲、云計算構(gòu)建海量電磁數(shù)據(jù)的大數(shù)據(jù)深度處理框架,通過數(shù)據(jù)抽取、知識圖譜構(gòu)建、數(shù)據(jù)規(guī)律挖掘等關(guān)鍵技術(shù),實現(xiàn)基于電磁信息的戰(zhàn)場目標(biāo)狀態(tài)與意圖預(yù)測,可有效提高電子偵察在現(xiàn)代信息作戰(zhàn)中的重要性,提升電磁情報對戰(zhàn)略、戰(zhàn)役、戰(zhàn)術(shù)的支援能力。
海量電磁數(shù)據(jù);云存儲;云計算;深度處理
隨著科技的發(fā)展以及各國對電子偵察衛(wèi)星的重視,電子偵察衛(wèi)星裝備數(shù)量快速增加,衛(wèi)星電子偵察數(shù)據(jù)呈現(xiàn)爆發(fā)式增長,衛(wèi)星地面應(yīng)用系統(tǒng)的能力也不斷增強,產(chǎn)生的情報種類也不斷豐富,每型衛(wèi)星系統(tǒng)生存周期內(nèi)的偵察數(shù)據(jù)和情報的數(shù)據(jù)量也增長了數(shù)倍,加之衛(wèi)星的數(shù)量不斷上升,總的數(shù)據(jù)量已達到了PB的規(guī)模。同時,隨著衛(wèi)星電子偵察能力的提升,偵察情報質(zhì)量也有了較大的提高,也助推了不同衛(wèi)星之間的偵察數(shù)據(jù)/情報融合以期得到更多情報需求的進一步強化。
在電子偵察衛(wèi)星快速發(fā)展的同時,上述各型衛(wèi)星應(yīng)用系統(tǒng)在以下諸多方面還存在明顯的不足:一是電子偵察數(shù)據(jù)的處理深度不夠,特別是缺乏基于多星聯(lián)合的深度挖掘能力;二是處理的層次不夠,目前基本處于數(shù)據(jù)判別、單目標(biāo)簡單判別、平臺簡單判別等方面,在電子目標(biāo)的行為層面情報的分析能力較弱,電子作戰(zhàn)意圖情報、預(yù)測情報、群目標(biāo)任務(wù)情報基本處于空白狀態(tài);三是應(yīng)用系統(tǒng)的自適應(yīng)、自學(xué)習(xí)的能力較弱,缺乏與偵察載荷或外部環(huán)境的交互、反饋能力和自適應(yīng)能力;四是應(yīng)用系統(tǒng)的戰(zhàn)術(shù)支援能力較弱,體現(xiàn)在與聯(lián)合作戰(zhàn)行動任務(wù)的緊密關(guān)系不足以及實時支援能力不足。
大數(shù)據(jù)技術(shù)發(fā)展到今天,許多技術(shù)已相對成熟,模型豐富、機器學(xué)習(xí)、自適應(yīng)等技術(shù)特點可以較好地應(yīng)用到上述問題的解決途徑中,因此,基于大數(shù)據(jù)技術(shù)的電子偵察數(shù)據(jù)挖掘和智能處理技術(shù)的研究就顯得尤為迫切。
1.1 天基海量電磁數(shù)據(jù)深度處理服務(wù)平臺的總體架構(gòu)
天基信息云服務(wù)平臺的總體架構(gòu)可以按照圖1進行搭建。
天基海量電磁數(shù)據(jù)深度處理服務(wù)平臺的總體架構(gòu)研究主要由兩部分任務(wù)組成:天基信息融合處理技術(shù)研究和基于云技術(shù)的平臺架構(gòu)。
1.2 基于云技術(shù)的平臺架構(gòu)
基于云技術(shù)的平臺架構(gòu)主要由云存儲、云計算和可視化圖表展現(xiàn)引擎組成。
云存儲通過集群應(yīng)用、網(wǎng)絡(luò)技術(shù)和分布式文件系統(tǒng)等功能,將處理網(wǎng)絡(luò)中大量各種不同類型的存儲設(shè)備通過專用的軟件方式集合起來協(xié)同工作,共同對外提供數(shù)據(jù)存儲和業(yè)務(wù)訪問功能。云存儲的建設(shè)可以通過其強大的集成和高效訪問能力,解決天基海量偵測信息的存儲、傳輸和訪問問題,提供安全的數(shù)據(jù)接口、數(shù)據(jù)清洗和格式轉(zhuǎn)換的處理平臺。
云計算通過分布式計算、并行計算、效用計算和網(wǎng)絡(luò)傳輸?shù)燃夹g(shù),將處理網(wǎng)絡(luò)中各計算節(jié)點集成起來統(tǒng)一調(diào)度,根據(jù)各插件軟件的需求合理分配計算資源,實現(xiàn)處理系統(tǒng)的負(fù)載均衡和高效運行,能夠解決天基海量數(shù)據(jù)的高計算量需求問題。
可視化圖表展示引擎通過圖形、圖像處理、計算機視覺等方法,根據(jù)各插件的需求提供對數(shù)字、圖片、實體關(guān)系等數(shù)據(jù)的圖形、動畫、三維的可視化展示平臺。
1.3 天基信息融合處理技術(shù)研究
天基信息融合處理技術(shù)研究主要由數(shù)據(jù)源、數(shù)據(jù)采集、知識圖譜、數(shù)據(jù)處理和應(yīng)用服務(wù)組成。
天基海量電磁數(shù)據(jù)深度處理服務(wù)平臺項目主要處理的數(shù)據(jù)源由天基數(shù)據(jù)和其他數(shù)據(jù)組成。天基數(shù)據(jù)主要由偵察數(shù)據(jù)(圖像、電子偵察數(shù)據(jù))和測繪數(shù)據(jù)組成。其他數(shù)據(jù)主要由互聯(lián)網(wǎng)(文本、聲像)、氣象水文、情報等數(shù)據(jù)組成。天基海量電磁數(shù)據(jù)深度處理服務(wù)平臺數(shù)據(jù)源可以統(tǒng)一地存儲在云存儲平臺中,并且向處理上層提供統(tǒng)一的調(diào)用接口,以滿足處理插件對數(shù)據(jù)靈活調(diào)用與處理。
數(shù)據(jù)采集主要的功能是數(shù)據(jù)的獲取和數(shù)據(jù)的清洗。根據(jù)各處理插件額需求,通過數(shù)據(jù)接口采集數(shù)據(jù),同時對多源異構(gòu)數(shù)據(jù)清洗,去除其中不必要的參數(shù)和特征,降低數(shù)據(jù)傳輸對網(wǎng)絡(luò)帶寬的要求。數(shù)據(jù)采集的工作是在云存儲平臺中的各存儲器端實現(xiàn)。
知識圖譜通過實體抽取,關(guān)系規(guī)則挖掘和實體關(guān)系表達等關(guān)鍵技術(shù)的研究,對天基多源異構(gòu)的海量數(shù)據(jù)實現(xiàn)共指消歧,實體對齊等功能構(gòu)建基于目標(biāo)、事件、地物、區(qū)域的多維度知識圖譜,為目標(biāo)行為規(guī)律分析與預(yù)測、動態(tài)監(jiān)視和態(tài)勢感知提供豐富的數(shù)據(jù)特征。由于天基信息獲取能力不斷提高,天基數(shù)據(jù)量日益劇增,知識圖譜在構(gòu)建和更新過程中會產(chǎn)生大量的計算需求,因此需要依托云計算平臺實現(xiàn)快速的關(guān)系規(guī)則挖掘為圖譜的及時更新提供保障。
數(shù)據(jù)處理是基于知識圖譜的基礎(chǔ)上,依托海量天基數(shù)據(jù),面向情報需求,利用機器學(xué)習(xí)、規(guī)則挖掘等關(guān)鍵技術(shù),根據(jù)天基獲取當(dāng)前信息,建立實體規(guī)律和預(yù)測模型,實現(xiàn)對目標(biāo)行為規(guī)律挖掘與預(yù)測、目標(biāo)動態(tài)監(jiān)視、事件預(yù)測和態(tài)勢感知。
應(yīng)用服務(wù)是利用計算機圖形學(xué)和圖像處理技術(shù),將情報數(shù)據(jù)轉(zhuǎn)化成圖形或圖像,以交互處理的理論、方法和技術(shù)面向用戶提供個性化、準(zhǔn)確的目標(biāo)行為、目標(biāo)狀態(tài)、事件狀態(tài)和態(tài)勢形式的情報信息服務(wù),增強軍委、各戰(zhàn)區(qū)和各武器平臺對情報數(shù)據(jù)的理解、探索和交流能力。
針對情報保障智能化、自動化需求,瞄準(zhǔn)信息快速關(guān)聯(lián)、高效檢索以及隱含關(guān)系發(fā)現(xiàn)、推理預(yù)測等需求,突破多源信息的實體抽取、實體關(guān)系挖掘以及實體關(guān)系表達等關(guān)鍵技術(shù),為面向情報任務(wù)的目標(biāo)行為規(guī)律挖掘與預(yù)測,目標(biāo)動態(tài)監(jiān)視,重大事件預(yù)警以及戰(zhàn)場態(tài)勢感知提供多維度的樣本特征。
2.1 知識圖譜的構(gòu)建過程
知識圖譜的構(gòu)建過程如圖2所示。
知識圖譜的構(gòu)建首先應(yīng)以情報需求的目標(biāo)為中心,從海量的天基信息數(shù)據(jù)源中進行實體抽取,通過現(xiàn)有的關(guān)系數(shù)據(jù)庫或規(guī)則得到一些簡單的實體之間的關(guān)系。但是有些實體關(guān)系是隱藏的、未知的,需要人工的判別或者大量數(shù)據(jù)的挖掘才能得到,因此通過實體關(guān)系挖掘可以得到更深層次的實體關(guān)系,最后通過實體關(guān)系表達構(gòu)建知識圖譜。
2.2 實體抽取
針對天基多源數(shù)據(jù)以及其他引接數(shù)據(jù)對于實體的描述不一致性問題,從海量的天基信息數(shù)據(jù)中抽取參數(shù)、名稱和語義等信息通過數(shù)據(jù)關(guān)系庫和規(guī)則實現(xiàn)實體對齊與共指消歧,完成實體集合的建立。
實體抽取的過程如圖3所示。
天基海量電磁數(shù)據(jù)深度處理服務(wù)平臺的數(shù)據(jù)源主要由天基數(shù)據(jù)(包含圖像偵察、電子偵察和測繪數(shù)據(jù))以及其他信息(文本、聲像、情報等數(shù)據(jù))。天基信息中由于天基手段各異,獲得的情報產(chǎn)品也不相同,其他信息中更是包含了大量非結(jié)構(gòu)的數(shù)據(jù),因此各種實體間的對齊方式也是不相同的。
圖像偵察的實體對齊:現(xiàn)有的天基圖像偵察的方式主要包括紅外、可見光、SAR以及高光譜等手段,其作用的實體目標(biāo)包括飛機、艦船、地物等。由于各種天基圖像偵察的原理不相同,因此對于實體的描述表征均不相同,在實體對齊的過程中可以借用現(xiàn)有的圖像識別庫,通過目標(biāo)名稱和一些固定的參數(shù)實現(xiàn)紅外、可見光、SAR以及高光譜作用實體間的對齊。形成目標(biāo)的實體集。
電子偵察的實體對齊:現(xiàn)有的天基電子偵察主要的情報產(chǎn)品包括中頻數(shù)據(jù)、全脈沖數(shù)據(jù)和輻射源信息。由于輻射源的存在脈間捷變、脈組捷變、頻率跳變等多種工作方式,因此在輻射源實體對齊過程中可以借用一些輻射源庫將多種全脈沖,中頻參數(shù)與輻射源的名稱進行對齊,形成輻射源的實體集。
其他信息的實體對齊:文本、聲像、情報等數(shù)據(jù)相比較于天基數(shù)據(jù)更加復(fù)雜,包含了多種實體(包括事件、地物、目標(biāo)和區(qū)域)。很多信息數(shù)據(jù)均是非結(jié)構(gòu)化的,在處理之前需要進行元數(shù)據(jù)的提取,然后由于信息中存在語義的共指和歧義,需要通過規(guī)則進行共指消歧,形成多種實體集。
2.3 實體關(guān)系挖掘
天基海量電磁數(shù)據(jù)深度處理服務(wù)平臺的實體應(yīng)包括目標(biāo)、事件、地物和區(qū)域等實體,天基海量信息應(yīng)包含偵察、測繪和其他信息等。因此各實體之間的關(guān)系有十分明顯,也有較為隱藏的,需要去挖掘才能發(fā)現(xiàn)。通過信息推理、數(shù)理統(tǒng)計、判讀經(jīng)驗積累等方法,實現(xiàn)各實體間關(guān)系的挖掘。
實體關(guān)系挖掘的過程如圖4所示。
軍事行動中目標(biāo)的行為、事件的發(fā)展和態(tài)勢的轉(zhuǎn)變與多種因素有關(guān),如作戰(zhàn)任務(wù)、地理環(huán)境、軍事形勢、指揮思想、目標(biāo)性能等。因此知識圖譜中的各實體之間的關(guān)系錯綜復(fù)雜,相互影響,因此需要深入研究各實體間關(guān)系,構(gòu)建完備的知識圖譜。
為了滿足天基海量電磁數(shù)據(jù)深度處理服務(wù)平臺知識圖譜的要求,可以從以下幾個方面考慮進行實體間的關(guān)聯(lián)。首先可以利用一些先驗的信息,如關(guān)聯(lián)數(shù)據(jù)庫、已有的關(guān)聯(lián)規(guī)則等,實現(xiàn)關(guān)系關(guān)聯(lián);其次可以通過位置、時間、描述、數(shù)據(jù)的匹配統(tǒng)計實現(xiàn)實體關(guān)系的挖掘;最后通過對判讀員經(jīng)驗積累完成實體關(guān)系建立。
2.4 實體關(guān)系表達
完備的知識圖譜可以為數(shù)據(jù)處理的規(guī)律挖掘與模型訓(xùn)練提供更高維度的特征數(shù)據(jù)。因此在實體抽取與關(guān)系挖掘的基礎(chǔ)上,通過實體關(guān)系圖進行數(shù)據(jù)庫的建模是知識圖譜在天基海量電磁數(shù)據(jù)深度處理服務(wù)平臺中的實際應(yīng)用方式。
天基海量電磁數(shù)據(jù)深度處理服務(wù)平臺中的實體關(guān)系圖(ERD)如圖5所示。
通過實體關(guān)系圖的建立可以預(yù)先精確定義數(shù)據(jù)庫的需求,但是轉(zhuǎn)向數(shù)據(jù)建模工具的時候會存在以下難題。
首先是如何使用建模符號準(zhǔn)確地描述實體與實體關(guān)系;其次如何在不丟失任何關(guān)鍵信息的前提下,用數(shù)據(jù)建模工具描述實體關(guān)系圖;最后如何開發(fā)一個對實體關(guān)系圖全面支持的工具。
基于實體關(guān)系圖的數(shù)據(jù)模型初步如圖6所示。相對于目前傳統(tǒng)的數(shù)據(jù)組織
方式,有以下優(yōu)勢:首先是漸增式數(shù)據(jù)模式設(shè)計:初始設(shè)計的時候,很難清楚所有的概念,而知識圖譜的動態(tài)可擴充性以及“無模式”特性使得用戶很容易增加或修改模式;其次數(shù)據(jù)集成更方便:本體的語義互操作特性以及“鏈接數(shù)據(jù)”原則,使得來自不同供應(yīng)商的數(shù)據(jù)集成更為方便。再其次是現(xiàn)有標(biāo)準(zhǔn)支持:有RDF(S),OWL, SPARQL等標(biāo)準(zhǔn),可以逐漸要求內(nèi)容供應(yīng)商支持;最后是數(shù)據(jù)和知識應(yīng)用更簡單:可實現(xiàn)自然語言形式的語義檢索。
天基海量電磁數(shù)據(jù)深度處理服務(wù)平臺主要包括搭載平臺和工作模式分類分析服務(wù)、艦船行為的分類服務(wù)和多源數(shù)據(jù)的關(guān)聯(lián)規(guī)則挖掘服務(wù)。
3.1 基于ELM的搭載平臺和工作模式分類分析服務(wù)
ELM(extreme learning machine)極速學(xué)習(xí)器是一種深度機器學(xué)習(xí)挖掘規(guī)則的方法,對比傳統(tǒng)單層神經(jīng)網(wǎng)絡(luò),具備精度相同但速度更快的優(yōu)點。ELM是由黃廣斌提出來的求解神經(jīng)網(wǎng)絡(luò)算法,神經(jīng)網(wǎng)絡(luò)模型如圖7所示。ELM最大的特點是對于傳統(tǒng)的神經(jīng)網(wǎng)絡(luò),尤其是單隱前饋神經(jīng)網(wǎng)絡(luò)(SLFNs),ELM比傳統(tǒng)的學(xué)習(xí)算法速度更快。
通過ELM技術(shù)學(xué)習(xí)可以實現(xiàn)對實時電磁數(shù)據(jù)進行搭載平臺和工作模式分類的服務(wù)。
3.2 基于LSTM的艦船行為分類服務(wù)
LSTM是基于RNN的時間序列神經(jīng)網(wǎng)絡(luò),通過對已知時間發(fā)生時間狀態(tài)學(xué)習(xí),判斷下一時刻的狀態(tài)。海量電磁數(shù)據(jù)深度處理服務(wù)平臺中輸入數(shù)據(jù)是一個時間與空間結(jié)合的數(shù)據(jù)類型。所有RNN 都具有一種重復(fù)神經(jīng)網(wǎng)絡(luò)模塊的鏈?zhǔn)降男问?。在?biāo)準(zhǔn)的RNN中,這個重復(fù)的模塊只有一個非常簡單的結(jié)構(gòu),例如一個tanh層,如圖8所示。
LSTM同樣是這樣的結(jié)構(gòu),但是重復(fù)的模塊擁有一個不同的結(jié)構(gòu)。不同于單一神經(jīng)網(wǎng)絡(luò)成,如圖9所示,這里有四個,以一種非常特殊的方式進行交互,也是LSTM基于RNN神經(jīng)網(wǎng)絡(luò)的改進項。
如圖9所示,每一條黑線傳輸著一整個向量,從一個節(jié)點的輸出到其它節(jié)點的輸入。中間的圈代表pointwise的操作,諸如向量的和,而陰影的矩陣就是學(xué)習(xí)到的神經(jīng)網(wǎng)絡(luò)層。合在一起的線表示向量的連接,分開的線表示內(nèi)容被復(fù)制,然后分發(fā)到不同的位置。
3.3 基于Apriori算法的多源數(shù)據(jù)的關(guān)聯(lián)規(guī)則挖掘服務(wù)
Apriori算法使用頻繁項集的先驗知識,使用一種稱作逐層搜索的迭代方法,k項集用于探索(k+1)項集。首先,通過掃描事務(wù)(交易)記錄,找出所有的頻繁1項集,該集合記做L1,然后利用L1找頻繁2項集的集合L2,L2找L3,如此下去,直到不能再找到任何頻繁k項集。最后再在所有的頻繁集中找出強規(guī)則,即產(chǎn)生用戶感興趣的關(guān)聯(lián)規(guī)則。
由于電磁信號與多源標(biāo)注信息之間的語義關(guān)聯(lián)度不強,比起因果關(guān)聯(lián)模型,采用數(shù)據(jù)統(tǒng)計的Apriori算法更為合適。其次由于需要常常更新知識庫的關(guān)聯(lián)模塊信息,導(dǎo)致大量信息需要重復(fù)計算,Apriori算法計算代價較低,且更新后精度較高。
本文介紹了一種基于大數(shù)據(jù)處理的輻射源識別技術(shù),具體包含了大數(shù)據(jù)處理系統(tǒng)的構(gòu)架、知識圖譜的構(gòu)建與基于無標(biāo)簽電子偵察數(shù)據(jù)的聚類實例。該技術(shù)能夠依托海量的天基電子偵察數(shù)據(jù)為基礎(chǔ),利用數(shù)據(jù)挖掘、智能聚類等方法實現(xiàn)對輻射源目標(biāo)快速、準(zhǔn)確、全面的識別與意圖預(yù)測,對于電子偵察領(lǐng)域的技術(shù)研究的發(fā)展具有一定的指導(dǎo)意義。■
[1] 莊嚴(yán),李國良,馮建華.知識庫實體對齊技術(shù)綜述[J].計算機研究與發(fā)展,2016,53(1):165-192.
[2] 沙毅,陳曦,張立立,等.基于ELM神經(jīng)網(wǎng)絡(luò)的FAST節(jié)點位移預(yù)測研究[J].東北大學(xué)學(xué)報(自然科學(xué)版),2017,38(5):630-633.
[3] 姚慶鍇,柳少軍,賀筱媛,等.戰(zhàn)場目標(biāo)作戰(zhàn)意圖識別問題研究與展望[J].指揮與控制學(xué)報,2017,3(2):127-131.
[4] 趙月,任永功,劉洋.基于MapReduce 的改進的Apriori算法及其應(yīng)用研究[J].計算機科學(xué),2017,44(6):250-254.
Depth-processingplatformbasedonthemassspace-electromagneticdata
Zeng Deguo, Xu Fuyuan, Zhang Jun, Liu Jian
(No.8511 Research Institute of CASIC,Nanjing 210007,Jiangsu,China)
The electronic reconnaissance data has seen an explosion of mergers. How to exploit the potentialities from the electronic reconnaissance data is the key issue of the electronic reconnaissance technology. Big data as a method is used in the depth-processing platform based on the mass space-electromagnetic data. The framework of the depth-processing platform based on the mass space-electromagnetic data is built by cloud computing and storage. The target state and intention prediction is acquired by the data extraction, knowledge map and law mining.The depth-processing platform based on the mass space-electromagnetic data can enhance the significance of the electronic reconnaissance in the modern information warfare and promote the capacity of electromagnetic intelligence in the war of strategy, battle or tactics.
mass electromagnetic data;cloud computing;cloud storage;depth-processing
2017-07-20;2017-08-12修回。
曾德國(1985-),男,高工,博士,主要研究方向為電子偵察接收機。
TN97
A