許 雄,吳若無,汪 亞,韓 慧,曾勇虎,汪連棟
(電子信息系統(tǒng)復(fù)雜電磁環(huán)境效應(yīng)國家重點實驗室,河南洛陽471003)
電磁環(huán)境模擬技術(shù)原本是一項支撐性的工程技術(shù),其因?qū)嶒灴茖W(xué)而生,又根據(jù)不同應(yīng)用需求而變。從戰(zhàn)略需求角度來說,隨著電磁頻譜戰(zhàn)概念的深入發(fā)展,不同作戰(zhàn)力量和不同作戰(zhàn)任務(wù)的實施、評估等都需要針對不同對象的電磁環(huán)境模擬場景的支持;從領(lǐng)域需求角度來說,不論是裝備研究論證領(lǐng)域,還是系統(tǒng)試驗鑒定亦或是聯(lián)合訓(xùn)練演習(xí)領(lǐng)域,都需要不同類型的電磁環(huán)境模擬手段的支持;從能力需求角度來說,小型的單體電子裝備或是組合的信息系統(tǒng),甚至是大型的作戰(zhàn)集群,都需要不同規(guī)模的電磁環(huán)境模擬技術(shù)的支持。
通常,按模擬對象來說,針對偵察/對抗類系統(tǒng)一般主要模擬的是偵察類電磁環(huán)境;針對探測/導(dǎo)彈類系統(tǒng)則一般主要模擬的是干擾類電磁環(huán)境。按模擬手段來說,主要有數(shù)學(xué)仿真、半實物仿真、實裝模擬等三大類。按模擬規(guī)模來說,主要有天線口面、有限區(qū)域、廣域場景等不同規(guī)模大小的電磁環(huán)境。
面對未來無人化、智能化作戰(zhàn)的需求,人們提出了體系對抗的概念。體系一般也稱為“系統(tǒng)之系統(tǒng)”,那么體系對抗也就是指多種系統(tǒng)組合成的一個群體與另一個相當(dāng)?shù)娜后w之間的相互博弈對抗。在網(wǎng)絡(luò)信息體系條件下研究體系對抗,必然需要一種戰(zhàn)場環(huán)境,而這個環(huán)境的核心就是復(fù)雜電磁環(huán)境。面向體系對抗,要求電磁環(huán)境模擬的對象門類齊全、手段綜合、規(guī)模宏大,典型的就是針對廣域動態(tài)場景下的模擬,這也給模擬技術(shù)提出了巨大的挑戰(zhàn)。
電磁環(huán)境模擬技術(shù)發(fā)展到現(xiàn)在,仍面臨著諸多共性的樸素問題,如模擬得像不像、真不真、對不對?能否靈活改變模擬場景?模擬的水平怎么樣、有多厲害?當(dāng)然,要回答這些問題仍具有很大的困難。因為電磁環(huán)境是不好定量衡量和評價的,所以模擬水平同樣不好衡量,也不易提高;而且受限于當(dāng)前的模擬理念和硬件水平,不同的場景是沒那么方便控制或復(fù)現(xiàn)的。
不過挑戰(zhàn)與機(jī)遇往往是并存的。正是體系對抗的需求,促使人們重新看待模擬這項技術(shù)。體系對抗條件下的電磁環(huán)境因廣域、動態(tài)、對抗而極具不確定性。因而當(dāng)前模擬技術(shù)中最容易被忽略的一點——場景驅(qū)動,也可稱為戰(zhàn)術(shù)仿真便成了阻礙模擬水平提升的關(guān)鍵瓶頸。那么該如何創(chuàng)新模擬技術(shù)以縮小差距來滿足未來需求呢?作者認(rèn)為應(yīng)該從場景驅(qū)動角度入手突破,使傳統(tǒng)的由腳本驅(qū)動模擬向新型的自主決策優(yōu)化模擬方向改變,進(jìn)而可推動模擬的關(guān)注點由“真不真”向“強(qiáng)不強(qiáng)”的方向發(fā)展,這樣才能滿足未來體系對抗的需求。
本節(jié)將具體提出廣域場景下電磁環(huán)境模擬技術(shù)研究的目標(biāo)愿景,并在該愿景的牽引下,建立起可行的總體技術(shù)框架。
在傳統(tǒng)的大規(guī)模電磁環(huán)境模擬情境中,場景驅(qū)動所涉及的對電磁環(huán)境的動態(tài)管理控制通常是基于一定的交戰(zhàn)規(guī)則,在專家知識的幫助下,以戰(zhàn)術(shù)腳本的形式呈現(xiàn)。既然是腳本,也就相對固定,不易靈活變更,因而每一次模擬只能局限于某一種特定的具體場景。但對于未來的體系對抗來說,不僅現(xiàn)有的專家知識一定是不夠的,而且由于對抗進(jìn)程中的不確定性因素眾多,單一腳本一定無法呈現(xiàn)最優(yōu)的對抗結(jié)果。
已有分析表明,體系對抗研究需要一套可以進(jìn)行智能化戰(zhàn)術(shù)推演的先進(jìn)仿真平臺。該平臺需要電磁環(huán)境模擬具備一定的智能博弈決策、自主學(xué)習(xí)演進(jìn)等能力。其一,要求電磁環(huán)境模擬具有智能博弈決策能力,主要是指各個模擬的環(huán)境要素特別是各個輻射源及其裝備載體能夠具有一定的智能水平、能夠擁有一定的戰(zhàn)術(shù)變化能力,進(jìn)而在廣域場景下,能夠根據(jù)不同的環(huán)境狀態(tài)做出符合一定規(guī)則的決策動作;其二,要求電磁環(huán)境模擬具有自主學(xué)習(xí)演進(jìn)能力,主要是指各個輻射源能夠從與環(huán)境交互的過程中學(xué)習(xí)到更新的規(guī)則和知識,以發(fā)現(xiàn)更優(yōu)的策略和戰(zhàn)術(shù)動作。
因此,面向體系對抗的電磁環(huán)境模擬技術(shù)的發(fā)展目標(biāo)愿景可歸納為如下三個方面:
1)打造出一個具備廣域場景下大規(guī)模仿真能力的電磁態(tài)勢推演平臺;
2)訓(xùn)練成一群具備智能博弈對抗和自主學(xué)習(xí)演進(jìn)能力的異構(gòu)智能體;
3)開發(fā)好一套具備多智能體的分布式協(xié)同控制能力的智能指控系統(tǒng)。
電磁態(tài)勢推演平臺基于建模與仿真的技術(shù)而建,用于提供大量的仿真或真實演習(xí)數(shù)據(jù);異構(gòu)智能體利用其提供的這些數(shù)據(jù)進(jìn)行訓(xùn)練提升,逐漸形成具備智能博弈對抗和自主學(xué)習(xí)演進(jìn)的能力;之后通過指控系統(tǒng),實現(xiàn)指定任務(wù)下的多智能體協(xié)同決策指揮與戰(zhàn)術(shù)效果評估,獲得模擬體系對抗中全體作戰(zhàn)對手的能力。
為了實現(xiàn)上述目標(biāo)愿景,需要在已有模擬技術(shù)體系基礎(chǔ)上,充分借鑒當(dāng)前各種前沿信息技術(shù),探索一種新的模擬技術(shù)框架,如圖1所示。
圖1 模擬技術(shù)框架
在上述框架中,首先引入深度學(xué)習(xí)(DL)、強(qiáng)化學(xué)習(xí)(RL)等人工智能技術(shù),用于改造各種傳統(tǒng)的環(huán)境仿真要素,訓(xùn)練出各類異構(gòu)智能終端;再引入云計算、邊緣計算等先進(jìn)數(shù)據(jù)處理技術(shù),用于改造傳統(tǒng)的指控網(wǎng)絡(luò)及其各類仿真設(shè)施,以適應(yīng)多智能體協(xié)同控制的需要。進(jìn)而實現(xiàn)電磁環(huán)境模擬具備智能博弈對抗和自主學(xué)習(xí)演進(jìn)的能力目標(biāo)。換個角度說,深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)是從軟件方面改變了模擬方式;而云計算、邊緣計算則是從硬件方面配合提升了模擬能力。這種概念可稱為“深度強(qiáng)化學(xué)習(xí)+云邊結(jié)合”的技術(shù)框架。
該框架也充分秉承了信息技術(shù)中自適應(yīng)和分布式等先進(jìn)的理念??梢灶A(yù)期,經(jīng)過后續(xù)各項創(chuàng)新研究成果的積累,在這種技術(shù)框架下所開展的電磁環(huán)境模擬將不再僅僅是一項支撐技術(shù),而可視為一項能夠用于研究電磁頻譜戰(zhàn)新概念、開發(fā)智能博弈對抗新算法、進(jìn)行戰(zhàn)術(shù)優(yōu)化設(shè)計和輔助決策指揮的核心技術(shù)。
為實現(xiàn)上述技術(shù)框架的概念,當(dāng)前需要重點攻克若干類的關(guān)鍵技術(shù),下文將分別具體闡述。
建模與仿真技術(shù)在體系對抗研究中具有重要作用。電磁態(tài)勢仿真推演平臺是首先需要解決的一個關(guān)鍵問題。它需要在已有的各類功能仿真和信號仿真模型的基礎(chǔ)上,增加更強(qiáng)的可知可控能力,能夠進(jìn)行戰(zhàn)術(shù)推演,方便接入各類智能體,并用于生成各類數(shù)據(jù)供其學(xué)習(xí)訓(xùn)練和效果評估,同時支持訓(xùn)練過程的數(shù)據(jù)存儲與分析等。其表現(xiàn)形式如圖2所示。
圖2 仿真推演表現(xiàn)形式示意
與傳統(tǒng)的仿真系統(tǒng)不同,該推演平臺需要重點關(guān)注訓(xùn)練需求的知識表示和建模、戰(zhàn)術(shù)任務(wù)的數(shù)字化分解以及體系對抗效能的實時預(yù)測評估等;需要考慮各種電磁行為建模、場景實時仿真、電磁態(tài)勢顯示、推演控制等多種關(guān)鍵技術(shù)的集成方法;需要從可擴(kuò)展的系統(tǒng)架構(gòu)、合適的基礎(chǔ)模型、專業(yè)的對抗規(guī)則庫等方面著手設(shè)計開發(fā),為智能體訓(xùn)練提供一個良好的仿真環(huán)境。從數(shù)據(jù)源來說,還既要支持多類智能體與規(guī)則化數(shù)字決策系統(tǒng)的對抗訓(xùn)練,又要支持基于LVC(實裝、虛擬、構(gòu)造)仿真的人機(jī)對抗訓(xùn)練,這樣才能充分融合更專業(yè)的關(guān)于決策指控的領(lǐng)域知識,以便進(jìn)一步滿足體系對抗所需要的戰(zhàn)術(shù)仿真推演評估需求。
有了強(qiáng)大的電磁態(tài)勢仿真推演平臺,就可以開展智能體訓(xùn)練了。在深度學(xué)習(xí)方法成熟之前,傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法主要用于相對簡單的智能體技術(shù)研究。因現(xiàn)實中眾多智能體所面臨的環(huán)境要素比較復(fù)雜,所以無法利用常規(guī)的函數(shù)進(jìn)行擬合。而深度學(xué)習(xí)的出現(xiàn)則展示了其優(yōu)秀的表征能力,再聯(lián)合起強(qiáng)化學(xué)習(xí)出色的決策能力,便有了當(dāng)前基于深度強(qiáng)化學(xué)習(xí)的通用人工智能模型。于是,針對電磁環(huán)境模擬所需的智能體,可以有如圖3所示的訓(xùn)練模型。
圖3 深度強(qiáng)化學(xué)習(xí)訓(xùn)練模型
基于深度強(qiáng)化學(xué)習(xí)的智能博弈對抗,主要是指將以深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)為代表的機(jī)器學(xué)習(xí)方法引入各個電磁力量之間的博弈對抗行為表征建模的技術(shù)。更具體地說,是結(jié)合深度強(qiáng)化學(xué)習(xí)方法,利用相關(guān)數(shù)據(jù)、知識和規(guī)則等,訓(xùn)練電磁行動實體進(jìn)行電磁態(tài)勢感知、決策行動等。相關(guān)的關(guān)鍵技術(shù)主要包含深度逆向強(qiáng)化學(xué)習(xí)、多智能體深度強(qiáng)化學(xué)習(xí)、分層強(qiáng)化學(xué)習(xí)和元深度強(qiáng)化學(xué)習(xí)等。
與其他領(lǐng)域的智能體相比,這里需要重點關(guān)注雷達(dá)智能體、導(dǎo)引頭智能體、干擾機(jī)智能體、通信電臺智能體、導(dǎo)航智能體等各類電子信息系統(tǒng)的建模與訓(xùn)練。從本質(zhì)上說,這與認(rèn)知雷達(dá)、認(rèn)知電子戰(zhàn)和認(rèn)知無線電裝備領(lǐng)域的新型算法研究不謀而合。因而相關(guān)智能體的成功訓(xùn)練也可為這些先進(jìn)裝備的發(fā)展提供參考。
對于體系對抗而言,僅僅有單個智能體顯然是不夠的,因而必然要利用多智能體深度強(qiáng)化學(xué)習(xí)方法來完成各種異構(gòu)智能體之間的聯(lián)合感知、聯(lián)合行動。而此時用于訓(xùn)練輸入的電磁環(huán)境狀態(tài)數(shù)據(jù)量則會呈爆炸性增長,從而導(dǎo)致訓(xùn)練時間可能難以承受地延長,甚至訓(xùn)練過程無法收斂。于是就需要引入專家知識,開展電磁態(tài)勢認(rèn)知理論研究,以用少量的物理量進(jìn)行電磁環(huán)境表征,再利用大數(shù)據(jù)處理技術(shù),達(dá)到實現(xiàn)降低電磁環(huán)境狀態(tài)數(shù)據(jù)維數(shù)的目的。
可以說電磁態(tài)勢認(rèn)知是開展多智能體訓(xùn)練的前提條件與關(guān)鍵環(huán)節(jié)。這里需要重點關(guān)注電磁頻譜作戰(zhàn)的新概念、新模式;關(guān)注電磁態(tài)勢估計理論、電磁態(tài)勢認(rèn)知內(nèi)涵、態(tài)勢要素體系及關(guān)聯(lián)關(guān)系、態(tài)勢知識表示、態(tài)勢理解框架及表現(xiàn)模式等研究內(nèi)容。從數(shù)據(jù)處理角度來說,多種異構(gòu)傳感器實時產(chǎn)生的大數(shù)據(jù)作為輸入,需要經(jīng)過態(tài)勢感知計算、態(tài)勢理解計算、態(tài)勢預(yù)測計算之后,才能共同形成態(tài)勢表征輸出數(shù)據(jù)。其輸入輸出關(guān)系如圖4所示。
圖4 電磁態(tài)勢計算過程示意
這里的態(tài)勢表征輸出主要包含了三個方面,也可看作是三類視圖,分別是關(guān)于平臺和裝備情況的資源視圖、關(guān)于集群和任務(wù)情況的能力視圖以及關(guān)于全局和優(yōu)劣情況的決策視圖。這樣就基本能夠達(dá)到降低環(huán)境狀態(tài)數(shù)據(jù)維數(shù)的目的,以支持多智能體的學(xué)習(xí)訓(xùn)練。
在電磁態(tài)勢仿真推演平臺上,多智能體決策支持系統(tǒng)可以通過直接控制各個智能體,進(jìn)行電磁態(tài)勢感知和電磁決策行動的戰(zhàn)術(shù)推演,但這在實際中卻并不好實現(xiàn)。那么就需要依托高性能的指揮信息系統(tǒng)來實現(xiàn)對各個異構(gòu)智能終端的交互控制。由于體系對抗所涉及的裝備類型眾多、規(guī)模龐大,因而必須要充分發(fā)揮云計算和邊緣計算的互補(bǔ)優(yōu)勢,構(gòu)建一個靈活開放可重構(gòu)的指控網(wǎng)絡(luò)體系框架,讓異構(gòu)智能終端的數(shù)據(jù)盡可能就地完成邊緣計算以減少網(wǎng)絡(luò)傳輸負(fù)擔(dān),決策支持系統(tǒng)則利用云計算平臺完成基于知識庫的判斷決策、行動籌劃等戰(zhàn)術(shù)類數(shù)據(jù)處理。云邊結(jié)合的框架如圖5所示。
圖5 云邊結(jié)合框架示意
這里首先就需要考慮云計算平臺的架構(gòu)和部署問題,其次是要重點考慮各個智能體算法在邊緣計算節(jié)點中的部署實現(xiàn)問題。同時,還要關(guān)注云平臺和各節(jié)點之間數(shù)據(jù)、信息的高效傳輸問題。該問題可以通過基于建模與仿真高層體系結(jié)構(gòu)(HLA)、試驗與訓(xùn)練使能體系結(jié)構(gòu)(TENA)等技術(shù)來著手解決。這些技術(shù)已在LVC仿真中得到應(yīng)用驗證,能夠為云邊結(jié)合架構(gòu)的綜合集成提供支撐。
體系對抗研究需求對當(dāng)前電磁環(huán)境模擬技術(shù)提出了巨大挑戰(zhàn)。在引入人工智能技術(shù)、大數(shù)據(jù)、云計算等前沿技術(shù)的基礎(chǔ)上,本文提出了基于“深度強(qiáng)化學(xué)習(xí)+云邊結(jié)合”的電磁環(huán)境模擬技術(shù)框架,并闡述了四類主要的關(guān)鍵技術(shù),期望通過電磁態(tài)勢仿真推演平臺來訓(xùn)練出一個多智能體決策支持系統(tǒng)及一群異構(gòu)智能終端,最終實現(xiàn)智能化而不再是腳本化的電磁環(huán)境模擬,逐漸扭轉(zhuǎn)人們常問“模擬得像不像”這種無解問題的局面,促使模擬能力向不斷演進(jìn)增強(qiáng)的方向發(fā)展。
當(dāng)然,在研究的過程中還要摒棄“人工智能無所不能”的極端觀點。決策指揮控制可以說是一門人類獨有的科學(xué)和藝術(shù),一定是需要專家知識的參與。同時,模擬仿真的準(zhǔn)確性、可信性是個永恒的挑戰(zhàn),只能在研究中不斷積累提高。