涂衛(wèi)紅, 張建廷
(海軍研究院, 北京 102249)
在作戰(zhàn)體系對抗仿真實驗中,模擬的作戰(zhàn)層次是帶有一定戰(zhàn)術(shù)逼真度的戰(zhàn)役行動,通過交互式的離散事件模擬,探索面臨不確定戰(zhàn)場態(tài)勢時決策者的行為、網(wǎng)絡(luò)化兵力組織運用等方面的能力。為了實現(xiàn)作戰(zhàn)體系對抗的建模與仿真,多智能體(Multi-Agent,MA)的建模技術(shù)得到了廣泛的應(yīng)用[1-3],該技術(shù)主要基于復(fù)雜適應(yīng)理論發(fā)展起來的,在具體實現(xiàn)過程中從研究個體行為著手,將復(fù)雜系統(tǒng)劃分為多個Agent,每個Agent具有各自的模型、數(shù)據(jù)、規(guī)則和接口等,通過對Agent的行為及它們之間的交互關(guān)系進行刻畫,以自底向上的方式描述復(fù)雜系統(tǒng)的行為,進而獲得系統(tǒng)宏觀行為。在多智能體的作戰(zhàn)體系仿真推演應(yīng)用領(lǐng)域,尤其是面向網(wǎng)絡(luò)中心戰(zhàn)的應(yīng)用[4],國外已經(jīng)相繼開發(fā)了OneSAF[5]、MANA[6]、SEAS[7]等系統(tǒng),國內(nèi)相關(guān)方向的研究和應(yīng)用還處于起步階段,多停留在理論研究層面,存在理論和實踐脫節(jié)的問題[8]。
偵察預(yù)警系統(tǒng)的仿真,涉及眾多平臺武器系統(tǒng),不僅包括岸、海、空、天的各型偵察兵力平臺,還包括各種預(yù)警探測、情報偵察、指揮控制、通信、數(shù)據(jù)融合處理等組成的電子信息系統(tǒng),這些系統(tǒng)之間關(guān)系復(fù)雜、相互作用明顯、相互制約多、相互影響大,成為構(gòu)建有效體系仿真實驗環(huán)境的主要難題。為此,本文從偵察預(yù)警體系仿真的需求出發(fā),采用基于多智能體的建模與仿真方法,建立有效的物理和行為模型,為作戰(zhàn)仿真推演實現(xiàn)提供有效的方法支持。
偵察預(yù)警系統(tǒng)仿真的實現(xiàn)基礎(chǔ)是對體系進行有效的描述,描述的過程就是建模過程。偵察預(yù)警裝備實體是整個仿真的基本單元,通過建立各種偵察預(yù)警裝備的仿真模型和作戰(zhàn)環(huán)境、交互關(guān)系等模型,模擬作戰(zhàn)環(huán)境下裝備體系的能力和檢驗各個裝備對作戰(zhàn)的貢獻率,通過仿真結(jié)果輸出數(shù)據(jù)的統(tǒng)計和分析,最終得到體系的效能評估結(jié)果。偵察預(yù)警系統(tǒng)仿真的任務(wù)需求體現(xiàn)在以下三個方面。
1)過程模擬,既要模擬系統(tǒng)在物理域的變化規(guī)律,還要能夠刻畫信息域和認知域,反應(yīng)作戰(zhàn)系統(tǒng)整體和不同層次的OODA環(huán)[9]過程。
2)行為模擬,偵察預(yù)警系統(tǒng)表現(xiàn)復(fù)雜,體現(xiàn)在兵力個體或多個實體之間的交互或它們的交互所表現(xiàn)出來的宏觀行為,反過來,全局行為又決定了個體進行決策、反應(yīng)的環(huán)境,通過個體的簡單行為,構(gòu)建復(fù)雜全局行為能力,仿真環(huán)境需要模擬這種行為關(guān)系。
3)物理模擬,對仿真中所需的兵力平臺模型、傳感器模型、網(wǎng)絡(luò)模型、信息流模型等進行仿真。
三者關(guān)系如圖1所示。
基于MA的建模與仿真的方法實現(xiàn)偵察預(yù)警系統(tǒng)仿真,采用相互之間具有復(fù)雜交互行為的自治實體對系統(tǒng)進行描述和抽象,建模的重難點可以歸結(jié)為兩個方面:體系模型和行為決策模型構(gòu)建。
體系模型及架構(gòu)分析主要在Agent仿真方法指導(dǎo)下,對體系中的實體、關(guān)系、環(huán)境和交互關(guān)系進行分析,針對體系層次的能力要求,按照作戰(zhàn)仿真的任務(wù)需求,基于效能評估指標和交互關(guān)系對體系中涉及的對象、作戰(zhàn)過程、行為關(guān)系等要素進行抽象,研究需求的模型類型、組合方法、組成結(jié)構(gòu)關(guān)系,形成面向體系仿真需求的元模型,進而利用元模型的實例化,構(gòu)建仿真實現(xiàn)所需的物理模型基礎(chǔ)。
決策行為模擬主要針對體系對抗仿真中作戰(zhàn)實體的決策行為表示,是信息域和認知域進行有效聯(lián)系的基礎(chǔ),只有將信息優(yōu)勢轉(zhuǎn)換為決策優(yōu)勢才能反映信息化條件下體系對抗的特點,而作戰(zhàn)實體的決策行為表示是所有作戰(zhàn)仿真中需要解決的一個難點。為此必須在仿真中解決Agent的行為描述和行為組合方法,能夠更加自然地表示和快速組合Agent行為。同時,作戰(zhàn)體系對抗模擬中,實體數(shù)量規(guī)模龐大、實體行為復(fù)雜,Agent種類多、交互復(fù)雜,需要大規(guī)模的計算與仿真。因此,設(shè)計合理的Agent行為方案(Course of action,COA)[10]決策模型,提高仿真運行效率至關(guān)重要。
通過上述分析,偵察預(yù)警系統(tǒng)仿真環(huán)境的構(gòu)建需要解決兩個方面的問題。一是采用多智能體方法,研究多智能體的模型結(jié)構(gòu)設(shè)計,包括作戰(zhàn)實體單元的傳感器模塊、通信模塊、行為模塊等模型的組合方法、關(guān)聯(lián)方法,構(gòu)建合理的作戰(zhàn)實體結(jié)構(gòu),保障系統(tǒng)中仿真單元具備目標性和自主行為能力;二是研究系統(tǒng)的決策行為模型,通過有限的狀態(tài)變量和態(tài)勢事件約束、匹配,依據(jù)Agent仿真中活動執(zhí)行順序進程,對偵察預(yù)警相關(guān)的信息處理、威脅判斷、決策行動等作戰(zhàn)復(fù)雜決策行為過程進行模擬實現(xiàn)。
智能體(Agent)模型在仿真中感知并選擇性地接收環(huán)境信息(感應(yīng)器),根據(jù)規(guī)則分析做出相應(yīng)反應(yīng)的行為(決策器),并根據(jù)反饋調(diào)整自己的行為和規(guī)則(執(zhí)行器),基于Agent的仿真要素包括任務(wù)分配、行為協(xié)調(diào)及通信、交互機制[11]。體系中的模型組件應(yīng)當包含物理域組件、信息域組件和認知域組件,根據(jù)Agent的基本組成結(jié)構(gòu):感受器、決策器和執(zhí)行器,設(shè)計偵察預(yù)警Agent的物理域組件為感受器和執(zhí)行器,信息域組件包含信息處理模塊和通信模塊,認知域模塊主要包含決策器。
根據(jù)以上分析,結(jié)合偵察預(yù)警系統(tǒng)的特點,構(gòu)建仿真系統(tǒng)中的Agent結(jié)構(gòu)模型,如圖2所示。
偵察預(yù)警Agent模型的各個模塊的功能設(shè)計如下。
1)感受器模塊。依據(jù)所搭載的傳感器模塊,對戰(zhàn)場其他實體發(fā)出的可探測信號進行偵察,實時感知戰(zhàn)場態(tài)勢,并將信息發(fā)送到信息處理模塊。
2)信息處理模塊。將感受器傳來的信息,例如目標的點跡、軌跡等信息進行融合處理后,得到情報數(shù)據(jù),將情報數(shù)據(jù)輸出到實體的決策器模塊,或者發(fā)送信息到外部通信網(wǎng)絡(luò)連接的其他實體節(jié)點。3)決策器模塊。對戰(zhàn)場態(tài)勢信息(自身獲取或外部傳入)按照戰(zhàn)術(shù)表,進行信息的接收、條件判斷匹配和行為方案輸出過程,產(chǎn)生Agent下一步的行動方案。若Agent是指揮節(jié)點,則輸出方案為指控命令,若Agent是非指揮節(jié)點,則輸出方案為戰(zhàn)術(shù)動作。
4)執(zhí)行器模塊。執(zhí)行器是Agent的行為輸出模塊,它接收決策器送來的決策信息,并輸出相應(yīng)的基本戰(zhàn)術(shù)動作(如偵察、跟蹤、機動)或協(xié)同動作(指揮命令、其他節(jié)點的行動方案)。
5)通信節(jié)點。與外部通信網(wǎng)絡(luò)連接的通信終端模塊,可以設(shè)置的網(wǎng)絡(luò)類型有廣播終端、點對點終端、移動自組網(wǎng)終端和TCP/IP終端。當節(jié)點間有通信鏈路,并處于同一通信模式下時,節(jié)點間經(jīng)由通信網(wǎng)絡(luò)進行信息傳輸。
在上述通用偵察預(yù)警Agent模型的基礎(chǔ)上,根據(jù)仿真中不同的偵察平臺,配置相應(yīng)的模型參數(shù)和功能,例如,不同的傳感器單元、機動能力、作戰(zhàn)空間、通信節(jié)點、鏈路連接關(guān)系等,生成體系仿真的不同類型Agent實體,進而可以實現(xiàn)體系仿真運行。
作戰(zhàn)體系的對抗性和動態(tài)性特征主要依賴于網(wǎng)絡(luò)化組織中的各兵力Agent個體行為反應(yīng)以及相互間的交互實現(xiàn),各兵力Agent作為網(wǎng)絡(luò)中的節(jié)點,以通信網(wǎng)絡(luò)為基礎(chǔ),相互之間傳輸戰(zhàn)場態(tài)勢信息、指揮控制信息,并依賴于這些信息進行戰(zhàn)術(shù)觸發(fā),例如,對特定目標、區(qū)域進行特定信號類型的偵察,偵察兵力對目標主動進行跟蹤、定位等。為了在體系仿真中實現(xiàn)偵察預(yù)警行為的實施,建立Agent的行為決策模型,本文采用基于戰(zhàn)術(shù)表的方法,實現(xiàn)Agent的自行為和交互。
在進行戰(zhàn)術(shù)行為決策時,根據(jù)戰(zhàn)術(shù)表驅(qū)動Agent的行為主要遵循“刺激——反應(yīng)”模式,一般采用“IF<條件>THEN<行為>”的方法來表示,即在滿足一定條件時,Agent做出相應(yīng)的動作。偵察預(yù)警兵力Agent的個體行為是整個作戰(zhàn)仿真系統(tǒng)演化的基礎(chǔ),Agent通常在受到一定外部條件“刺激”后,在一定的條件約束下完成相應(yīng)的任務(wù),它的行為要受到必要的限制,以達成對真實作戰(zhàn)過程的模擬,這種限制行為的約束條件在本文中以通用戰(zhàn)術(shù)表的形式體現(xiàn)。為了提高仿真的效率,采用兩類戰(zhàn)術(shù)表來表示整個仿真過程的戰(zhàn)術(shù)行為,分別是作戰(zhàn)指揮Agent戰(zhàn)術(shù)表和平臺Agent戰(zhàn)術(shù)表。
作戰(zhàn)指揮Agent戰(zhàn)術(shù)表,主要用于搭載了作戰(zhàn)指揮任務(wù)的Agent節(jié)點上,根據(jù)戰(zhàn)場態(tài)勢(敵情、我情和環(huán)境等)控制其他Agent執(zhí)行戰(zhàn)術(shù)任務(wù),是整個戰(zhàn)場態(tài)勢的全局決策者和控制者。平臺Agent戰(zhàn)術(shù)表與作戰(zhàn)指揮Agent戰(zhàn)術(shù)表不同的是在輸出行為控制條件過程中,其戰(zhàn)術(shù)行為控制只對自身起作用。
戰(zhàn)術(shù)表的主要處理流程分為三個階段:1)輸入觸發(fā)條件;2)戰(zhàn)術(shù)使用限制條件;3)輸出行為控制條件。此外,對于同一戰(zhàn)術(shù)表中,設(shè)計多個不同的應(yīng)對戰(zhàn)術(shù),通過決策輸出檢查,對各個戰(zhàn)術(shù)最后依據(jù)優(yōu)先級順序進行判定,選擇優(yōu)先級高的作為本次戰(zhàn)術(shù)輸出。戰(zhàn)術(shù)表的實現(xiàn)流程如圖3所示。
在仿真過程中,當有平臺傳感器獲取目標信息(運動或軌跡)后,信息在網(wǎng)絡(luò)中傳輸?shù)街付ǖ墓?jié)點,該節(jié)點就會觸發(fā)戰(zhàn)術(shù)響應(yīng),輸入觸發(fā)的條件主要分為三類:
1)目標軌跡類型,分為太空、空中、陸地、水面和水下;
2)威脅分類,主要是目標的敵我屬性,包括友方、敵方、中立和未知;
3)軌跡戰(zhàn)術(shù)識別,目標的平臺屬性類型,例如戰(zhàn)斗機、水面艦船等。
當輸入信息滿足戰(zhàn)術(shù)觸發(fā)條件后,就要判斷戰(zhàn)術(shù)使用的限制條件進行檢查,主要有以下4類:
1)時間使用限制,包括開始、結(jié)束時間限制,想定設(shè)計階段的限制;
2)信息不確定性限制,表示目標信息來源的誤差,例如目標信息中的位置判定不確定區(qū)域、速度不確定值等;
3)目標運動限制,指目標的速度、相對航向在一定范圍時,戰(zhàn)術(shù)才有效;
4)使用位置限制,指目標與戰(zhàn)術(shù)實施平臺的相對距離、方位,或位于指定區(qū)域時,戰(zhàn)術(shù)才能夠執(zhí)行。
對于平臺Agent戰(zhàn)術(shù)表,主要有:
1)跟蹤探測類型,指目標體現(xiàn)出來的可以被探測的信號類型,例如通信、電磁、紅外等,用于指定所使用的跟蹤傳感器;
2)平臺當前狀態(tài),指戰(zhàn)術(shù)觸發(fā)時平臺的狀態(tài),例如巡邏、行駛、被引導(dǎo)等;
3)戰(zhàn)術(shù)行為控制,指平臺對當前目標執(zhí)行特定任務(wù),例如報告軌跡,電子戰(zhàn)攻擊和激活傳感器等;
4)機動行為控制,指平臺向著目標進行自引導(dǎo),實施規(guī)避,設(shè)定規(guī)避速度和距離控制等。
對于作戰(zhàn)指揮Agent戰(zhàn)術(shù)表,主要有:
1)跟蹤探測類型,與平臺Agent戰(zhàn)術(shù)表一致;
2)戰(zhàn)術(shù)行為控制,戰(zhàn)術(shù)響應(yīng)方式,控制被指揮平臺對目標進行查證、定位、跟蹤、搜索、監(jiān)視等任務(wù);
3)機動行為控制,根據(jù)目標平臺運動介質(zhì),進行合理的規(guī)避距離、高度控制,以及執(zhí)行任務(wù)過程中的盤旋、機動方式等進行控制;
4)探測能力要求,執(zhí)行任務(wù)的平臺應(yīng)當至少滿足一種探測能力,執(zhí)行或的邏輯運算關(guān)系,同時,可以對平臺的分類識別能力進行指定,這樣可以實現(xiàn)對目標使用不同平臺不同傳感器同步查證的目的。
綜上,戰(zhàn)術(shù)表的本質(zhì)是感知戰(zhàn)場態(tài)勢,然后將感知到的戰(zhàn)場態(tài)勢與規(guī)定的戰(zhàn)術(shù)條件進行匹配,根據(jù)匹配結(jié)果做出決策的一種靈活的、自動的作戰(zhàn)規(guī)則集合,戰(zhàn)術(shù)表的作用流程如圖4所示,其中的觸發(fā)戰(zhàn)術(shù)判斷采用本節(jié)戰(zhàn)術(shù)表設(shè)計方法和圖3所示流程方法。
本文介紹的偵察預(yù)警系統(tǒng)模型,采用C++語言開發(fā)的多Agent偵察預(yù)警仿真模塊,已經(jīng)集成到某海上對抗仿真系統(tǒng)中,對文中所提出的多智能體模型和戰(zhàn)術(shù)決策模型進行仿真驗證。以海上紅藍雙方對抗過程為例,Agent模型包括衛(wèi)星、艦船、偵察預(yù)警飛機以及其上搭載的傳感器及通信模塊等,其中整個偵察預(yù)警戰(zhàn)術(shù)響應(yīng)按圖4所示流程進行判斷和戰(zhàn)術(shù)觸發(fā)。
通過紅藍雙方編隊及空中兵力的偵察預(yù)警活動推演,驗證本文方法設(shè)計的多智能體系統(tǒng)的仿真有效性,想定中,紅方按照由遠及近、由粗到細對目標進行發(fā)現(xiàn)、查證和跟蹤識別等戰(zhàn)術(shù)響應(yīng)。作戰(zhàn)仿真中的紅方對藍方的自動偵察預(yù)警行動效果如圖5所示,當紅方發(fā)現(xiàn)目標后,按照設(shè)定的戰(zhàn)術(shù),自動觸發(fā)相應(yīng)作戰(zhàn)實體的偵察預(yù)警行為。圖6為整個仿真過程中衛(wèi)星和艦載無人機發(fā)現(xiàn)目標隨時間的次數(shù)分布。
仿真初始階段,由發(fā)現(xiàn)距離遠但精度低的偵察平臺(衛(wèi)星、預(yù)警機等)發(fā)現(xiàn)目標,然后將信息共享,觸發(fā)戰(zhàn)術(shù)響應(yīng),引導(dǎo)探測距離近但精度高的平臺(戰(zhàn)術(shù)偵察機、無人機等)進行抵近查證、跟蹤和監(jiān)視,圖6的結(jié)果中0到40小時的目標發(fā)現(xiàn)主要由衛(wèi)星等遠距離偵察平臺實施,而整個仿真的后續(xù)階段偵察任務(wù)主要由探測精度高的近距離偵察平臺負責,仿真中所設(shè)計的多智能體能夠有效進行協(xié)同偵察和戰(zhàn)術(shù)觸發(fā),并且正確觸發(fā)各種敵情態(tài)勢下的偵察預(yù)警戰(zhàn)術(shù),實現(xiàn)了對作戰(zhàn)體系對抗推演和實兵演示驗證等應(yīng)用的支撐。
本文詳細描述了采用多智能體的偵察預(yù)警系統(tǒng)的建模和仿真方法,主要面向作戰(zhàn)對抗推演應(yīng)用。研究了偵察預(yù)警實體單元的Agent建模方法,通過多模塊組合設(shè)計方法,抽象出偵察預(yù)警的通用模型,其他不同的實體建??梢砸罁?jù)此模型進行定制和修改;提出基于戰(zhàn)術(shù)表驅(qū)動的決策行為模型,實現(xiàn)了Agent的決策行為表示,通過有限的狀態(tài)變量和態(tài)勢事件約束、匹配,依據(jù)Agent仿真中活動執(zhí)行順序進程,對偵察預(yù)警相關(guān)的信息處理、威脅判斷、決策行動等作戰(zhàn)復(fù)雜決策行為過程進行了模擬實現(xiàn),設(shè)計的戰(zhàn)術(shù)表通用性強,計算簡單,仿真運行效率高。但本文設(shè)計的智能體的行為決策屬于容易實現(xiàn)的條件觸發(fā)方法,具體應(yīng)用中需要大量的作戰(zhàn)條令、專家經(jīng)驗庫等支撐,后期研究可以考慮引入人工智能等方法,增強Agent的智能化和逼真性。