王躍東 顧以靜 梁 彥* 王增福 張會(huì)霞
①(西北工業(yè)大學(xué)自動(dòng)化學(xué)院 西安 710072)
②(信息融合技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室 西安 710072)
組網(wǎng)雷達(dá)(Networked Radar,NR)因具有資源共享、協(xié)同探測(cè)、空間覆蓋范圍大和抗干擾等優(yōu)勢(shì),已經(jīng)受到廣大學(xué)者和機(jī)構(gòu)的關(guān)注[1–8]。組網(wǎng)雷達(dá)資源管理在提升信息融合系統(tǒng)的探測(cè)、跟蹤性能中扮演著至關(guān)重要的角色。然而,干擾技術(shù)向智能化方向發(fā)展[9–13],給雷達(dá)系統(tǒng)資源管理帶來(lái)新的挑戰(zhàn)和任務(wù)需求。如何在時(shí)間、能量和計(jì)算等軟硬件資源限制下,降低干擾帶來(lái)的不利影響,是實(shí)現(xiàn)組網(wǎng)雷達(dá)探測(cè)性能提升的關(guān)鍵。
現(xiàn)有的組網(wǎng)雷達(dá)資源分配方法主要分為3類:基于啟發(fā)式優(yōu)化方法、基于博弈論方法和基于強(qiáng)化學(xué)習(xí)方法?;趩l(fā)式優(yōu)化方法通常利用最優(yōu)化方法或者群智能優(yōu)化方法求解某一探測(cè)性能指標(biāo)下的最優(yōu)解。文獻(xiàn)[6]以最小化多輸入多輸出雷達(dá)的發(fā)射功率為目標(biāo),通過(guò)推導(dǎo)了各個(gè)目標(biāo)定位誤差的克拉美羅界建立機(jī)會(huì)約束模型,并通過(guò)等效變換將機(jī)會(huì)約束問(wèn)題變?yōu)榉蔷€性方程求解問(wèn)題。文獻(xiàn)[14]將目標(biāo)的后驗(yàn)克拉美羅下界作為優(yōu)化目標(biāo)函數(shù),提出一種同時(shí)優(yōu)化雷達(dá)功率和帶寬的改進(jìn)型麻雀搜索算法對(duì)目標(biāo)函數(shù)進(jìn)行求解。啟發(fā)式優(yōu)化方法是資源優(yōu)化的有效手段,然而最優(yōu)化方法需要在每一個(gè)資源分配時(shí)刻沿著目標(biāo)函數(shù)的負(fù)梯度方向?qū)ふ易顑?yōu)值,這個(gè)過(guò)程耗費(fèi)大量時(shí)間且要求目標(biāo)函數(shù)具有可導(dǎo)性。群體智能體方法在高維場(chǎng)景下其性能受到嚴(yán)重影響,導(dǎo)致算法搜索能力下降。
博弈論方法將組網(wǎng)雷達(dá)中的雷達(dá)節(jié)點(diǎn)視為博弈參與者,利用決策理論進(jìn)行雷達(dá)資源分配。文獻(xiàn)[15]將雷達(dá)功率分配問(wèn)題建立為合作博弈模型,提出一種基于合作博弈的分布式功率分配算法,利用一種基于shapley值的求解算法得到功率分配結(jié)果。文獻(xiàn)[16]針對(duì)組網(wǎng)雷達(dá)的抗截獲問(wèn)題,將信干噪比(Signal to Interference plus Noise Ratio,SINR)和各雷達(dá)的發(fā)射功率作為約束條件,提出了一種基于非合作博弈的迭代功率控制方法,該方法可以快速收斂至納什均衡解。文獻(xiàn)[17]提出基于納什均衡的彈載雷達(dá)波形設(shè)計(jì)方法,根據(jù)最大化SINR準(zhǔn)則分別設(shè)計(jì)了雷達(dá)和干擾的波形策略。博弈論方法無(wú)法提供資源分配的唯一解,而且需要每一時(shí)刻計(jì)算博弈雙方的收益矩陣,具有較大的計(jì)算復(fù)雜度。
近年來(lái),隨著深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning,DRL)在資源分配和控制決策方面的成功應(yīng)用,已經(jīng)有基于DRL的雷達(dá)資源優(yōu)化技術(shù)被提出。DRL具有利用智能體與環(huán)境交互來(lái)學(xué)習(xí)狀態(tài)到動(dòng)作最優(yōu)映射策略的能力。將組網(wǎng)雷達(dá)作為智能體,文獻(xiàn)[3]提出基于領(lǐng)域知識(shí)輔助強(qiáng)化學(xué)習(xí)的多輸入多輸出雷達(dá)功率方法,其利用領(lǐng)域知識(shí)來(lái)設(shè)計(jì)導(dǎo)向獎(jiǎng)勵(lì),從而增加策略網(wǎng)絡(luò)收斂性和收斂速度。文獻(xiàn)[18]考慮目標(biāo)信息感知和平臺(tái)安全的情況下獲得傳感器目標(biāo)探測(cè)分配序列,提出一種基于DRL的機(jī)載傳感器任務(wù)分配方法。文獻(xiàn)[19]考慮無(wú)線通信系統(tǒng)中的功率分配問(wèn)題,提出一種近似SARSA[20]功率分配算法,其通過(guò)線性近似避免了SARSA功率分配策略中可能出現(xiàn)的“維數(shù)災(zāi)難”問(wèn)題。毫無(wú)疑問(wèn)DRL已經(jīng)成功的運(yùn)用于組網(wǎng)雷達(dá)資源分配問(wèn)題。
然而,上述組網(wǎng)雷達(dá)資源分配方法都是建立在沒(méi)有干擾或者干擾模型已知的基礎(chǔ)上,缺少干擾機(jī)和雷達(dá)的博弈與交互。隨著干擾技術(shù)的發(fā)展,干擾機(jī)在干擾時(shí)間、干擾功率控制方面具有更強(qiáng)的對(duì)抗能力。在干擾機(jī)資源調(diào)度方面,文獻(xiàn)[21]提出一種魯棒的干擾波束選擇和功率調(diào)度策略來(lái)協(xié)同壓制NR系統(tǒng),其中多個(gè)目標(biāo)的后驗(yàn)克拉美羅下界之和用來(lái)評(píng)估干擾性能。文獻(xiàn)[22]考慮在干擾資源有限的情況下的干擾波束和功率的分配問(wèn)題,建立了一種基于改進(jìn)遺傳算法的干擾資源分配模型,推導(dǎo)了壓制干擾下NR系統(tǒng)的探測(cè)概率,并將其作為評(píng)價(jià)干擾性能指標(biāo),提出一種基于粒子群算法的兩步求解方法。文獻(xiàn)[23]采用模糊綜合評(píng)價(jià)方法對(duì)影響輻射源威脅水平和干擾效率的綜合因素進(jìn)行量化,提出了一種基于改進(jìn)螢火蟲(chóng)算法的干擾資源分配方法。文獻(xiàn)[11]提出一種基于雙Q學(xué)習(xí)算法的干擾資源分配策略。文獻(xiàn)[24]提出基于DRL的智能頻譜干擾方法,其對(duì)不同種類的跳頻通信信號(hào)具有很好的干擾效果。
綜上所述,DRL已經(jīng)被用于組網(wǎng)雷達(dá)或者干擾機(jī)的資源分配任務(wù),但是同時(shí)考慮伴隨壓制干擾與組網(wǎng)雷達(dá)功率分配的深度博弈仍然是一個(gè)開(kāi)放性問(wèn)題。由于以下因素,應(yīng)用DRL解決上述問(wèn)題頗具挑戰(zhàn):組網(wǎng)雷達(dá)功率分配動(dòng)作屬于連續(xù)動(dòng)作,因此智能體探索空間很大,導(dǎo)致策略難以收斂;組網(wǎng)雷達(dá)和干擾機(jī)博弈過(guò)程中環(huán)境動(dòng)態(tài)性增強(qiáng),進(jìn)一步增加智能體的策略學(xué)習(xí)難度。
考慮DRL在處理動(dòng)態(tài)環(huán)境下的資源分配的優(yōu)勢(shì),本文首先將干擾機(jī)和組網(wǎng)雷達(dá)映射為智能體,根據(jù)雷達(dá)目標(biāo)檢測(cè)模型和干擾模型建立了壓制干擾下組網(wǎng)雷達(dá)目標(biāo)檢測(cè)模型和檢測(cè)概率最大化優(yōu)化目標(biāo)函數(shù)。然后,采用PPO策略網(wǎng)絡(luò)生成組網(wǎng)雷達(dá)功率分配動(dòng)作;引入目標(biāo)檢測(cè)模型和等功率分配策略兩類領(lǐng)域知識(shí)構(gòu)建導(dǎo)向獎(jiǎng)勵(lì)以輔助智能體探索。其次,設(shè)計(jì)混合策略網(wǎng)絡(luò)生成干擾機(jī)智能體的波束選擇和功率分配動(dòng)作;同樣引入領(lǐng)域知識(shí)(貪婪干擾資源分配策略)生成干擾機(jī)智能體的導(dǎo)向獎(jiǎng)勵(lì)。最后,通過(guò)交替訓(xùn)練更新兩種智能體的策略網(wǎng)絡(luò)參數(shù)。實(shí)驗(yàn)結(jié)果表明:當(dāng)干擾機(jī)采用基于DRL的資源分配策略時(shí),采用基于DRL的組網(wǎng)雷達(dá)功率分配在目標(biāo)檢測(cè)概率和運(yùn)行速度兩種指標(biāo)上明顯優(yōu)于基于粒子群的組網(wǎng)雷達(dá)功率分配和基于人工魚(yú)群的組網(wǎng)雷達(dá)功率分配。
本文目的是在智能化壓制干擾下通過(guò)調(diào)度組網(wǎng)雷達(dá)的功率資源以提升雷達(dá)的探測(cè)性能。為此,首先提出干擾機(jī)掩護(hù)目標(biāo)穿越組網(wǎng)雷達(dá)探測(cè)區(qū)域的任務(wù)想定。其次,根據(jù)干擾模型和雷達(dá)檢測(cè)模型建立壓制干擾下的組網(wǎng)雷達(dá)目標(biāo)檢測(cè)模型,進(jìn)而提出最大化目標(biāo)檢測(cè)概率優(yōu)化目標(biāo)函數(shù)。
圖1給出干擾機(jī)掩護(hù)目標(biāo)穿越組網(wǎng)雷達(dá)防區(qū)的資源分配任務(wù)的示例。由一架干擾機(jī)伴隨一架飛機(jī)(目標(biāo))試圖穿越由N部雷達(dá)組成的組網(wǎng)雷達(dá)探測(cè)區(qū)域。在此過(guò)程中,干擾機(jī)生成電磁噪聲干擾雷達(dá)的探測(cè)信號(hào)來(lái)掩護(hù)目標(biāo),這種噪聲干擾被稱為壓制式干擾。在該任務(wù)想定中,干擾方希望盡可能地使組網(wǎng)雷達(dá)探測(cè)不到目標(biāo),而我方組網(wǎng)雷達(dá)則期望最大化目標(biāo)的檢測(cè)性能。
圖1 壓制干擾機(jī)掩護(hù)目標(biāo)穿越組網(wǎng)雷達(dá)防區(qū)的示例Fig.1 An example of a suppression jammer protecting a target through the networked radar defense area
如圖2所示,上述干擾機(jī)和組網(wǎng)雷達(dá)的博弈過(guò)程被進(jìn)一步細(xì)化為干擾機(jī)智能體和組網(wǎng)雷達(dá)智能體資源分配策略的博弈。
圖2 干擾機(jī)智能體和組網(wǎng)雷達(dá)智能體的博弈流程圖Fig.2 The game closed-loop process of the jammer agent and the networked radar agent
(1) 假設(shè)干擾機(jī)在k時(shí)刻能夠發(fā)射L <N個(gè)干擾波束。干擾機(jī)智能體需要完成以下任務(wù),即:在k時(shí)刻選擇干擾哪幾部雷達(dá)?被選中的雷達(dá)的干擾功率分配多少才能使組網(wǎng)雷達(dá)探測(cè)目標(biāo)的概率最???
(2) 假設(shè)組網(wǎng)雷達(dá)每個(gè)節(jié)點(diǎn)都工作單波束模式,在各個(gè)探測(cè)時(shí)刻,所有雷達(dá)節(jié)點(diǎn)均發(fā)射波束,即每個(gè)探測(cè)時(shí)刻有N個(gè)雷達(dá)波束探測(cè)目標(biāo)。組網(wǎng)雷達(dá)智能體需要怎么為每個(gè)雷達(dá)-目標(biāo)分配合理的發(fā)射功率使得目標(biāo)檢測(cè)概率最大化?
與無(wú)干擾情況下的組網(wǎng)雷達(dá)功率分配不同,在干擾機(jī)干擾下,組網(wǎng)雷達(dá)需要考慮干擾機(jī)對(duì)資源分配和目標(biāo)檢測(cè)的影響,因此需要引入干擾機(jī)的干擾特性和模型來(lái)優(yōu)化組網(wǎng)雷達(dá)功率分配。同時(shí),由于干擾機(jī)的干擾波束和功率分配具有不確定性和動(dòng)態(tài)性,因此需要?jiǎng)討B(tài)地調(diào)整組網(wǎng)雷達(dá)功率分配策略,以實(shí)現(xiàn)最優(yōu)的干擾抑制和探測(cè)性能的平衡。在組網(wǎng)雷達(dá)功率分配策略求解方面,傳統(tǒng)的方法通常采用全局優(yōu)化算法對(duì)問(wèn)題求解,如遺傳算法、粒子群算法等,這些方法都需要較高的計(jì)算成本,難以在大規(guī)模優(yōu)化問(wèn)題中保證優(yōu)化的時(shí)效性和可靠性,因此需要探測(cè)探索具有大規(guī)模優(yōu)化空間搜索能力的DRL分配策略。
2.2.1 干擾模型
壓制干擾是一種噪聲干擾手段,干擾機(jī)發(fā)射強(qiáng)干擾信號(hào)進(jìn)入雷達(dá)接收機(jī),進(jìn)而形成對(duì)雷達(dá)的回波的掩蓋和壓制,使雷達(dá)對(duì)目標(biāo)的檢測(cè)性能下降。本文采用噪聲調(diào)頻干擾信號(hào)進(jìn)行干擾信號(hào)建模,假設(shè)干擾機(jī)向敵方雷達(dá)n施加噪聲調(diào)頻干擾信號(hào)[10,21,23],即
2.2.2 壓制干擾下單雷達(dá)目標(biāo)檢測(cè)模型
在無(wú)干擾情況下,目標(biāo)的檢測(cè)概率與雷達(dá)接收天線處的信噪比(Signal Noise Ratio,SNR)相關(guān)。SNR的大小由目標(biāo)回波功率ysignal和接收機(jī)輸入噪聲Pn共同決定[10,21,23]。
雷達(dá)n接收到的目標(biāo)回波信號(hào)功率ysignal可表示為
其中,Pr,k為雷達(dá)的發(fā)射功率,Gr為雷達(dá)天線主瓣方向上的增益,σ為目標(biāo)有效反射面積,λ為雷達(dá)的工作波長(zhǎng),為k時(shí)刻目標(biāo)與探測(cè)雷達(dá)n之間的距離。
雷達(dá)接收機(jī)的內(nèi)部噪聲Pn可表示為
其中,k=1.38×10-23J/K為玻爾茲曼常數(shù),Bn為接收機(jī)帶寬,T0為接收機(jī)內(nèi)部有效熱噪聲溫度,F(xiàn)n為接收機(jī)噪聲系數(shù)。
因此,雷達(dá)n接收端的SNR表示為
在噪聲壓制干擾下,雷達(dá)接收端的信號(hào)由目標(biāo)回波功率ysignal、內(nèi)部噪聲Pn以及干擾信號(hào)功率yinterf3部分組成。根據(jù)干擾方程[10,21,23],雷達(dá)n接收到來(lái)自干擾機(jī)發(fā)射的干擾信號(hào)功率為
其中,θ0.5為雷達(dá)天線波瓣寬度;β為常數(shù)。
如圖3所示,θk取決于干擾機(jī)、目標(biāo)機(jī)和雷達(dá)三者之間的相對(duì)位置關(guān)系。根據(jù)干擾信號(hào)進(jìn)入雷達(dá)的角度,壓制干擾劃分為伴隨干擾和支援干擾兩種類型。當(dāng)干擾信號(hào)從雷達(dá)天線主瓣進(jìn)入接收機(jī)時(shí)為伴隨干擾;當(dāng)θk>θ0.5/2時(shí)干擾信號(hào)主要從雷達(dá)天線旁瓣進(jìn)入,干擾方式為支援干擾。
圖3 干擾機(jī)、雷達(dá)和目標(biāo)的相對(duì)空間位置Fig.3 The relative spatial position of the jammer,radar and target
壓制干擾下,雷達(dá)n接收機(jī)接收到關(guān)于目標(biāo)的SINR為[10,23]
假設(shè)目標(biāo)的起伏特性為Swerling I型,雷達(dá)累積脈沖數(shù)為1,則雷達(dá)n對(duì)目標(biāo)的檢測(cè)概率可表示為[10,23,25]
其中,VT為檢測(cè)門(mén)限。將式(7)代入式(8)可得
由式(9)可以發(fā)現(xiàn)雷達(dá)對(duì)目標(biāo)的檢測(cè)概率與干擾資源分配變量以及干擾機(jī)、目標(biāo)機(jī)和雷達(dá)間的空間位置有關(guān)。
2.2.3 組網(wǎng)雷達(dá)檢測(cè)融合
組網(wǎng)雷達(dá)采用K-N融合規(guī)則來(lái)實(shí)現(xiàn)信息融合[10,23,26]。假設(shè)雷達(dá)n的局部判決為dn∈{0,1},其中dn=1或0表示發(fā)現(xiàn)目標(biāo)與否。融合中心根據(jù)這些局部判據(jù)產(chǎn)生全局判決向量D=[d1d2...dN],共有 2N種可能。定義全局判決規(guī)則為R(D),當(dāng)組網(wǎng)雷達(dá)中發(fā)現(xiàn)目標(biāo)的雷達(dá)數(shù)超過(guò)檢測(cè)門(mén)限K(1≤K≤N)時(shí),判定發(fā)現(xiàn)目標(biāo),否則判定為未發(fā)現(xiàn)目標(biāo),即
根據(jù)秩K融合準(zhǔn)則可以得到k時(shí)刻組網(wǎng)雷達(dá)對(duì)目標(biāo)的檢測(cè)概率Pd,k為
組網(wǎng)雷達(dá)探測(cè)任務(wù)的要求是在統(tǒng)計(jì)意義下探測(cè)到目標(biāo)的次數(shù)越多越好。該指標(biāo)可進(jìn)一步量化為組網(wǎng)雷達(dá)對(duì)目標(biāo)的檢測(cè)概率Pd,k,其值越大說(shuō)明目標(biāo)越容易被發(fā)現(xiàn)。根據(jù)任務(wù)需求,本文的優(yōu)化目標(biāo)函數(shù)為
傳統(tǒng)的組網(wǎng)雷達(dá)功率方法一般先通過(guò)干擾性能評(píng)估建立優(yōu)化目標(biāo)函數(shù),然后利用啟發(fā)式搜索算法進(jìn)行策略求解。這些方法通常是在假定探測(cè)環(huán)境沒(méi)有干擾或者干擾模型給定的情況下進(jìn)行方案設(shè)計(jì),缺少干擾機(jī)和組網(wǎng)雷達(dá)相互博弈,不符合實(shí)際作戰(zhàn)需求。同時(shí)啟發(fā)式搜索方法存在計(jì)算成本高、搜索速度慢的缺點(diǎn),難以保證優(yōu)化的有效性。與這些方法不同,本文考慮到體系協(xié)同作戰(zhàn)下干擾機(jī)與組網(wǎng)雷達(dá)的博弈,提出基于DRL的干擾機(jī)波束和功率分配條件下的組網(wǎng)雷達(dá)功率分配問(wèn)題。在策略求解方面,結(jié)合了人工智能方法,干擾機(jī)和組網(wǎng)雷達(dá)被映射為智能體,利用DRL的交互試錯(cuò)學(xué)習(xí)機(jī)制生成從環(huán)境狀態(tài)到組網(wǎng)雷達(dá)功率分配向量的映射。由于采用離線訓(xùn)練的方式進(jìn)行策略探索,因此DRL相較于一般方法具有更快的在線運(yùn)行速度。
本節(jié)首先將組網(wǎng)雷達(dá)智能體功率分配模型化為馬爾可夫決策過(guò)程(Markov Decision Process,MDP)[27]。一個(gè)MDP通常采用元組(S,A,P,r)表示,其中S為環(huán)境狀態(tài),它是智能體的環(huán)境觀測(cè);A為動(dòng)作,它是執(zhí)行器的輸出;P為狀態(tài)的轉(zhuǎn)移概率。值得注意的是,在無(wú)模型強(qiáng)化學(xué)習(xí)中P是未知的。r是由環(huán)境產(chǎn)生的單步獎(jiǎng)勵(lì)。
圖4顯示組網(wǎng)雷達(dá)策略網(wǎng)絡(luò)同干擾機(jī)與雷達(dá)博弈環(huán)境的交互過(guò)程。首先組網(wǎng)雷達(dá)智能體的策略網(wǎng)絡(luò)根據(jù)環(huán)境狀態(tài)生成一個(gè)功率分配動(dòng)作,并將該動(dòng)作傳遞給組網(wǎng)雷達(dá)。然后雷達(dá)執(zhí)行探測(cè)動(dòng)作獲取目標(biāo)量測(cè),并提取下一時(shí)刻的環(huán)境狀態(tài)。智能體的狀態(tài)、動(dòng)作和獎(jiǎng)勵(lì)被存入經(jīng)驗(yàn)池用于組網(wǎng)雷達(dá)智能體的策略網(wǎng)絡(luò)參數(shù)更新。
圖4 組網(wǎng)雷達(dá)智能體與環(huán)境交互圖Fig.4 The networked radar agent and environment interaction diagram
(1) 組網(wǎng)雷達(dá)智能體的狀態(tài)
組網(wǎng)雷達(dá)能夠獲取的環(huán)境信息包括k時(shí)刻雷達(dá)n與目標(biāo)的距離和雷達(dá)被干擾指示。通過(guò)對(duì)組網(wǎng)雷達(dá)的觀測(cè)進(jìn)行預(yù)處理生成策略網(wǎng)絡(luò)的輸入狀態(tài)。預(yù)處理過(guò)程包括標(biāo)準(zhǔn)化和連接操作。標(biāo)準(zhǔn)化是為了將不同量綱的雷達(dá)觀測(cè)統(tǒng)一到[0,1]。定義距離標(biāo)準(zhǔn)化函數(shù)為
其中,Rmin,Rmax分別表示雷達(dá)的最小和最大觀測(cè)距離。
連接操作是在數(shù)據(jù)標(biāo)準(zhǔn)化后將不同類型的雷達(dá)觀測(cè)組合成策略網(wǎng)絡(luò)的輸入狀態(tài)。首先將任意雷達(dá)的觀測(cè)按照被干擾指示和雷達(dá)與目標(biāo)的距離組合,即。然后將所有雷達(dá)的觀測(cè)按照雷達(dá)編號(hào)組合,即
(2) 組網(wǎng)雷達(dá)智能體的動(dòng)作
組網(wǎng)雷達(dá)智能體的動(dòng)作定義為ar,k=(n=1,2,...,N),其中表示k時(shí)刻雷達(dá)節(jié)點(diǎn)n的發(fā)射功率。
(3) 知識(shí)輔助的組網(wǎng)雷達(dá)智能體獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)
強(qiáng)化學(xué)習(xí)模擬人類獎(jiǎng)懲機(jī)制,利用智能體與環(huán)境交互試錯(cuò)改進(jìn)策略,本質(zhì)上是選擇獎(jiǎng)勵(lì)大的動(dòng)作。然而,強(qiáng)化學(xué)習(xí)的試錯(cuò)過(guò)程仍然是隨機(jī)探索,對(duì)于壓制干擾下組網(wǎng)雷達(dá)功率分配任務(wù),干擾機(jī)和組網(wǎng)雷達(dá)的博弈與目標(biāo)運(yùn)動(dòng)使得探測(cè)環(huán)境的動(dòng)態(tài)性顯著增加,進(jìn)而導(dǎo)致智能體策略學(xué)習(xí)困難。為了輔助智能體的探索,有必要引入人的認(rèn)知模型和知識(shí),提出知識(shí)輔助下的獎(jiǎng)勵(lì)設(shè)計(jì)。通過(guò)專家知識(shí)和模型知識(shí)設(shè)計(jì)導(dǎo)向獎(jiǎng)勵(lì),以引導(dǎo)智能體向人類認(rèn)知方向探索,最終生成符合任務(wù)想定的資源分配策略。如圖5所示,本文給出知識(shí)輔助的組網(wǎng)雷達(dá)智能體獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)框圖。
圖5 知識(shí)輔助的組網(wǎng)雷達(dá)智能體獎(jiǎng)勵(lì)模塊Fig.5 The knowledge-assisted reward module for the networked radar agent
根據(jù)壓制干擾下組網(wǎng)雷達(dá)目標(biāo)探測(cè)模型(模型知識(shí))可知,雷達(dá)發(fā)現(xiàn)目標(biāo)的概率和雷達(dá)與目標(biāo)的距離以及雷達(dá)的發(fā)射功率相關(guān)。對(duì)于使用相同發(fā)射功率的雷達(dá),目標(biāo)距離雷達(dá)越近,雷達(dá)接收端獲得的SINR越大,意味著發(fā)現(xiàn)目標(biāo)的概率越大。因此定義評(píng)價(jià)函數(shù)為
在組網(wǎng)雷達(dá)功率分配任務(wù)中等功率分配策略(專家知識(shí))被用來(lái)作為判斷智能體分配動(dòng)作好壞的基準(zhǔn)策略。如果k時(shí)刻智能體的探測(cè)收益大于基準(zhǔn)策略的探測(cè)收益,那么給予智能體正的導(dǎo)向獎(jiǎng)勵(lì),否則做出適當(dāng)?shù)膽土P。具體的規(guī)則定義如下:
其中,rrg,k表示組網(wǎng)雷達(dá)智能體的導(dǎo)向獎(jiǎng)勵(lì);b1和b2是正實(shí)數(shù);為等功率分配動(dòng)作。
組網(wǎng)雷達(dá)智能體的環(huán)境獎(jiǎng)勵(lì)是根據(jù)優(yōu)化目標(biāo)給出的。組網(wǎng)雷達(dá)期望發(fā)現(xiàn)目標(biāo)的概率越大越好,即目標(biāo)的檢測(cè)概率越接近1給予的獎(jiǎng)勵(lì)越大。因此,組網(wǎng)雷達(dá)的環(huán)境獎(jiǎng)勵(lì)定義為
組網(wǎng)雷達(dá)智能體的導(dǎo)向獎(jiǎng)勵(lì)和環(huán)境獎(jiǎng)勵(lì)共同用于改進(jìn)組網(wǎng)雷達(dá)智能體的策略??紤]到隨著訓(xùn)練次數(shù)的增加智能體的策略將超越基準(zhǔn)策略,此時(shí)導(dǎo)向獎(jiǎng)勵(lì)起到促進(jìn)策略探索作用,相反會(huì)影響智能體向最優(yōu)策略探索。因此,本文設(shè)計(jì)導(dǎo)向獎(jiǎng)勵(lì)衰減獎(jiǎng)勵(lì)融合模塊,由知識(shí)產(chǎn)生的導(dǎo)向獎(jiǎng)勵(lì)隨著訓(xùn)練幕數(shù)的增加逐漸減小,即
其中,rr,k為融合后組網(wǎng)雷達(dá)智能體的獎(jiǎng)勵(lì);β為衰減因子;t為訓(xùn)練幕數(shù)。
注意,上述設(shè)計(jì)過(guò)程中使用等功率分配策略作為專家知識(shí)來(lái)生成導(dǎo)向獎(jiǎng)勵(lì),事實(shí)上可以引入更加先進(jìn)的分配策略輔助智能體探索。
(4) 組網(wǎng)雷達(dá)智能體的策略網(wǎng)絡(luò)
如圖6,組網(wǎng)雷達(dá)智能體的策略網(wǎng)絡(luò)采用演員-評(píng)論家(Actor-Critic,AC)框架,由一個(gè)Actor和一個(gè)Critic組成,其中Actor策略網(wǎng)絡(luò)用于產(chǎn)生功率分配動(dòng)作,Critic策略網(wǎng)絡(luò)用來(lái)評(píng)估動(dòng)作的好壞。Actor策略網(wǎng)絡(luò)采用3層全連接神經(jīng)網(wǎng)絡(luò)(Neural Network,NN)搭建,中間層采用ReLU激活函數(shù)激活,輸出層采用Tanh激活函數(shù)激活。Critic策略網(wǎng)絡(luò)同樣采用3層全連接NN搭建并使用Tanh激活。采用PPO算法進(jìn)行策略學(xué)習(xí)[28]。
圖6 組網(wǎng)雷達(dá)智能體的策略網(wǎng)絡(luò)Fig.6 The policy network of the networked radar agent
圖7顯示了干擾機(jī)策略網(wǎng)絡(luò)同干擾機(jī)與雷達(dá)博弈環(huán)境的交互過(guò)程。首先由基于混合強(qiáng)化學(xué)習(xí)的干擾資源分配策略網(wǎng)絡(luò)生成干擾機(jī)智能體的波束選擇動(dòng)作和波束功率分配動(dòng)作。然后,干擾機(jī)執(zhí)行該動(dòng)作對(duì)被選中雷達(dá)發(fā)射干擾波束。干擾機(jī)獲取環(huán)境觀察并提取下一時(shí)刻狀態(tài)。干擾機(jī)智能體的狀態(tài)、動(dòng)作和獎(jiǎng)勵(lì)被存入經(jīng)驗(yàn)池,這些樣本用于混合策略網(wǎng)絡(luò)的參數(shù)更新。
圖7 干擾機(jī)智能體與環(huán)境交互圖Fig.7 The jammer agent and environment interaction diagram
(1) 干擾機(jī)智能體的狀態(tài)
(2) 干擾機(jī)智能體的動(dòng)作
(3) 干擾機(jī)智能體的獎(jiǎng)勵(lì)
干擾機(jī)的波束和功率聯(lián)合分配具有由離散動(dòng)作和連續(xù)動(dòng)作組成的混合動(dòng)作空間,這比其他的資源分配任務(wù)更加復(fù)雜。其中,混合動(dòng)作空間增加了智能體的探索難度,更少的最優(yōu)動(dòng)作被遍歷,這意味著最優(yōu)動(dòng)作下的環(huán)境獎(jiǎng)勵(lì)是稀疏的,這導(dǎo)致DRL的策略難以改進(jìn)。因此引入模型知識(shí)和專家知識(shí)設(shè)計(jì)導(dǎo)向獎(jiǎng)勵(lì)輔助智能體探索,如圖8所示。
圖8 知識(shí)輔助的干擾機(jī)智能體獎(jiǎng)勵(lì)函數(shù)模塊Fig.8 The knowledge-assisted reward function module for the jammer agent
將貪婪干擾資源分配策略視作評(píng)價(jià)干擾機(jī)智能體的資源分配動(dòng)作的基準(zhǔn)。當(dāng)采用干擾機(jī)智能體的波束選擇和功率分配動(dòng)作下組網(wǎng)雷達(dá)發(fā)現(xiàn)目標(biāo)的概率小于使用基準(zhǔn)干擾資源分配策略時(shí),給予正的導(dǎo)向獎(jiǎng)勵(lì),否則懲罰,即
其中,rjg,k為干擾機(jī)智能體的導(dǎo)向獎(jiǎng)勵(lì);表示基準(zhǔn)干擾資源分配策略下組網(wǎng)雷達(dá)發(fā)現(xiàn)目標(biāo)的概率。
干擾機(jī)的優(yōu)化目標(biāo)與組網(wǎng)雷達(dá)的優(yōu)化目標(biāo)相反,目標(biāo)的發(fā)現(xiàn)概率越小越好。因此干擾機(jī)智能體的環(huán)境獎(jiǎng)勵(lì)表示為
與組網(wǎng)雷達(dá)的導(dǎo)向獎(jiǎng)勵(lì)和環(huán)境獎(jiǎng)勵(lì)融合的方法相同,干擾機(jī)智能體的獎(jiǎng)勵(lì)融合模塊定義為
其中,rj,k表示融合后干擾機(jī)智能體的獎(jiǎng)勵(lì)。
(4) 干擾機(jī)智能體的混合策略網(wǎng)絡(luò)
干擾機(jī)智能體需要同時(shí)產(chǎn)生兩種不同質(zhì)的混合動(dòng)作,即離散的干擾波束選擇動(dòng)作和連續(xù)的波束功率分配動(dòng)作。因此本文設(shè)計(jì)一種混合策略網(wǎng)絡(luò),如圖9所示,用來(lái)表示兩種分配動(dòng)作,其中利用具有分類分布輸出的離散Actor來(lái)表示干擾波束選擇動(dòng)作,采用具有高斯分布的連續(xù)Actor來(lái)表示干擾波束功率分配動(dòng)作。
圖9 干擾機(jī)智能體的混合策略網(wǎng)絡(luò)Fig.9 The hybrid policy network of the jammer agent
如圖2所示,由組網(wǎng)雷達(dá)和干擾機(jī)組成的資源對(duì)抗優(yōu)化問(wèn)題由于以下困難使得資源分配策略很難收斂:(1)組網(wǎng)雷達(dá)和干擾的功率分配都是連續(xù)變量,因此策略學(xué)習(xí)的狀態(tài)-動(dòng)作空間維度很大,難以收斂;(2)干擾機(jī)波束分配為非凸優(yōu)化并與功率分配耦合,這進(jìn)一步增加策略搜索空間;(3)組網(wǎng)雷達(dá)和干擾機(jī)博弈過(guò)程中資源分配環(huán)境動(dòng)態(tài)性增加。
為此本文提出基于交替訓(xùn)練的多步求解方法,設(shè)置最大迭代次數(shù)為M。具體步驟為:
步驟1 固定組網(wǎng)雷達(dá)的功率分配策略,訓(xùn)練干擾機(jī)的聯(lián)合波束與功率分配策略。
步驟2 固定干擾機(jī)的資源分配策略,訓(xùn)練組網(wǎng)雷達(dá)的功率分配策略。
進(jìn)行下一次迭代m←m+1,重復(fù)執(zhí)行步驟1和步驟2,直到迭代訓(xùn)練次數(shù)m>M。此時(shí)得到訓(xùn)練后的組網(wǎng)雷達(dá)功率分配策略。
6.1.1 任務(wù)場(chǎng)景描述
如圖10所示,代表一種典型的部署方式,各部雷達(dá)以扇形方式部署到作戰(zhàn)區(qū)域,探測(cè)范圍相互重疊,這種部署有效地增加了雷達(dá)發(fā)現(xiàn)目標(biāo)的能力。目標(biāo)由西北方向朝向東南方向勻速運(yùn)動(dòng),并且逐漸靠近雷達(dá)4和雷達(dá)5所在區(qū)域。
圖10 組網(wǎng)雷達(dá)部署和目標(biāo)編隊(duì)軌跡Fig.10 The deployment of the networked radar and the trajectory of the target formation
值得注意的是,在測(cè)試場(chǎng)景干擾機(jī)和目標(biāo)飛行軌跡的趨勢(shì)與訓(xùn)練場(chǎng)景中軌跡的飛行樣式相同,但每一次運(yùn)行目標(biāo)和干擾機(jī)的位置與速度都在一個(gè)區(qū)間內(nèi)隨機(jī)生成。在實(shí)際作戰(zhàn)過(guò)程中,如果測(cè)試場(chǎng)景與訓(xùn)練場(chǎng)景的匹配度很低,訓(xùn)練好的參數(shù)可能不再有效。因?yàn)镈RL是通過(guò)訓(xùn)練階段不斷地與環(huán)境交互學(xué)習(xí)最優(yōu)策略。如果測(cè)試環(huán)境改變較大,可能會(huì)導(dǎo)致性能下降。此時(shí),需要通過(guò)在線訓(xùn)練方式對(duì)模型進(jìn)行微調(diào),以適應(yīng)新的環(huán)境。同時(shí),本文通過(guò)對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行隨機(jī)擾動(dòng),即每一個(gè)訓(xùn)練幕干擾機(jī)和目標(biāo)的位置和速度隨機(jī)產(chǎn)生,來(lái)增加模型對(duì)新情況的魯棒性。
6.1.2 仿真參數(shù)設(shè)置
仿真實(shí)驗(yàn)在10 km×10 km的二維作戰(zhàn)平面進(jìn)行。組網(wǎng)雷達(dá)由N=5部廣泛分布的單站雷達(dá)組成,融合中心采用K-N準(zhǔn)則(K=2)。假設(shè)組網(wǎng)雷達(dá)和干擾機(jī)的工作頻率相等,基于文獻(xiàn)[9,10,23,29,30]提供的數(shù)據(jù),每部雷達(dá)的工作參數(shù)設(shè)置如表1所示,干擾機(jī)的工作參數(shù)設(shè)置如表2所示。雷達(dá)的工作帶寬為300 MHz,干擾機(jī)帶寬為雷達(dá)帶寬的2倍,各場(chǎng)景中目標(biāo)的有效反射面積均設(shè)置為5 m2。
表1 雷達(dá)工作參數(shù)Tab.1 The working parameters of the radars
表2 干擾機(jī)工作參數(shù)Tab.2 The working parameters of the jammer
本文算法的參數(shù)設(shè)置如表3所示,其中組網(wǎng)雷達(dá)智能體中Actor網(wǎng)絡(luò)的層數(shù)和節(jié)點(diǎn)數(shù)與干擾機(jī)智能體中連續(xù)Actor的參數(shù)設(shè)置相同。仿真所使用的計(jì)算機(jī)硬件參數(shù)為:Intel i5-10400F CPU,8 GB RAM,NVIDIA GTX 1650顯示適配器,python版本為3.6,tensorflow版本為1.14.1。
表3 算法參數(shù)設(shè)置Tab.3 The algorithm parameters setting
算法的計(jì)算復(fù)雜度分析:算法的計(jì)算復(fù)雜度包含時(shí)間復(fù)雜度和空間復(fù)雜度[3]。前者由NN中乘法和加法的數(shù)量來(lái)衡量,后者由NN中帶優(yōu)化的參數(shù)數(shù)量決定,即
其中,M是NN的層數(shù)(隱藏層數(shù)+1),m表示NN層編號(hào),F(xiàn)Cin(m)和 FCout(m)分別表示第m層NN的輸入節(jié)點(diǎn)數(shù)和輸出節(jié)點(diǎn)數(shù)。根據(jù)表3所示的Actor網(wǎng)絡(luò)的參數(shù)設(shè)置,本文算法干擾機(jī)策略網(wǎng)絡(luò)中離散Actor的時(shí)間復(fù)雜度是17792,空間復(fù)雜度是18049,連續(xù)Actor的時(shí)間復(fù)雜度是18048,空間復(fù)雜度是18307。組網(wǎng)雷達(dá)智能體策略網(wǎng)絡(luò)的時(shí)間復(fù)雜度為18304,空間復(fù)雜度為18565。
為驗(yàn)證所提方法的有效性,在干擾機(jī)使用基于DRL的干擾策略時(shí),將基于DRL的組網(wǎng)雷達(dá)功率分配算法與如下2種組網(wǎng)雷達(dá)功率分配策略進(jìn)行對(duì)比:
基于粒子群(Particle Swarm Optimization,PSO)算法的組網(wǎng)雷達(dá)分配策略:該方法采用粒子群算法作為雷達(dá)功率資源分配策略,在使用時(shí)設(shè)計(jì)參數(shù)較少、粒子群規(guī)模較小,所以收斂速度相對(duì)較快。
基于人工魚(yú)群算法(Artificial Fish Swarms Algorithm,AFSA)的組網(wǎng)雷達(dá)分配策略:應(yīng)用人工魚(yú)群算法進(jìn)行功率資源的分配,該方法通過(guò)模擬魚(yú)群的覓食行為進(jìn)行策略尋優(yōu),具有較好的全局最優(yōu)解的求解能力,對(duì)初始值和參數(shù)要求較低、魯棒性強(qiáng)。
組網(wǎng)雷達(dá)功率資源分配的目的是最大化目標(biāo)的檢測(cè)概率,因此選取目標(biāo)檢測(cè)概率以及資源調(diào)度運(yùn)行時(shí)間(Scheduling Run Time,SRT)作為性能評(píng)估指標(biāo)。
根據(jù)6.1.2節(jié)設(shè)置的參數(shù)和第5節(jié)的訓(xùn)練方法學(xué)習(xí)組網(wǎng)雷達(dá)功率分配策略。每隔50步對(duì)目標(biāo)運(yùn)動(dòng)狀態(tài)進(jìn)行初始化,稱為一幕。干擾機(jī)策略訓(xùn)練的總幕數(shù)設(shè)置為3000幕,組網(wǎng)雷達(dá)智能體的訓(xùn)練總幕數(shù)設(shè)置為10000幕。圖11顯示了不同訓(xùn)練幕下獎(jiǎng)勵(lì)收斂情況。從圖11(a)可以看出,隨著訓(xùn)練幕數(shù)的增加組網(wǎng)雷達(dá)智能體的獎(jiǎng)勵(lì)逐漸收斂,表明訓(xùn)練是有效的。由圖11(b)可以發(fā)現(xiàn),隨著訓(xùn)練幕數(shù)的增加干擾機(jī)智能體的獎(jiǎng)勵(lì)也逐漸收斂,表明干擾機(jī)的策略訓(xùn)練是有效的。
圖11 獎(jiǎng)勵(lì)變化曲線Fig.11 The rewards convergence curve
將訓(xùn)練好的組網(wǎng)雷達(dá)功率分配策略參數(shù)和干擾機(jī)資源分配策略參數(shù)加載到測(cè)試環(huán)境。圖12顯示了單次運(yùn)行下的干擾資源分配結(jié)果。可以發(fā)現(xiàn),在初始階段距離干擾機(jī)較近的雷達(dá)1、雷達(dá)2和雷達(dá)3受到的干擾較大;在運(yùn)行到中間時(shí)刻時(shí)干擾機(jī)分配更多的干擾功率給雷達(dá)2;隨著目標(biāo)編隊(duì)逐漸靠近雷達(dá),干擾機(jī)選擇對(duì)距離近的雷達(dá)4和雷達(dá)5施加干擾。
圖12 干擾資源分配結(jié)果Fig.12 The interference resource allocation result
通過(guò)50次蒙特卡羅仿真測(cè)試了3種組網(wǎng)雷達(dá)功率分配策略在干擾機(jī)采用基于DRL的壓制干擾下的目標(biāo)檢測(cè)性能。圖13顯示了幾種組網(wǎng)雷達(dá)功率分配策略在基于DRL干擾下的目標(biāo)檢測(cè)概率,可以發(fā)現(xiàn)基于DRL的組網(wǎng)雷達(dá)功率分配方法可以有效地提升壓制干擾下的目標(biāo)檢測(cè)性能,相較于其他兩種策略,目標(biāo)檢測(cè)概率最多提升了大約11%,這是由于DRL通過(guò)智能體與環(huán)境交互學(xué)習(xí),因此DRL分配策略考慮了干擾機(jī)帶來(lái)的不確定性。
圖13 3種組網(wǎng)雷達(dá)功率分配策略的目標(biāo)檢測(cè)概率Fig.13 The target detection probability of three networked radar power allocation strategies
為了驗(yàn)證本文算法在時(shí)變干擾條件下的優(yōu)勢(shì),本文分別采用3種不同的策略進(jìn)行測(cè)試,包括基于DRL干擾下訓(xùn)練的組網(wǎng)雷達(dá)功率分配策略(DRL-TI)、在無(wú)干擾下訓(xùn)練的組網(wǎng)雷達(dá)分配策略(DRL-NI)以及固定干擾情況下訓(xùn)練的組網(wǎng)雷達(dá)功率分配策略(DRL-FI)。其中,固定干擾設(shè)置為干擾機(jī)在所有時(shí)刻采用均等功率干擾雷達(dá)3、雷達(dá)4和雷達(dá)5。本文測(cè)試了這3種策略的目標(biāo)檢測(cè)性能,結(jié)果如圖14所示。從圖14可以看出,DRL-TI組網(wǎng)雷達(dá)功率分配策略的目標(biāo)檢測(cè)概率要比DRL-NI和DRL-FI策略的目標(biāo)檢測(cè)概率高,最多提升了約15%。這是因?yàn)?,DRL-TI分配策略在訓(xùn)練過(guò)程中考慮了干擾機(jī)與組網(wǎng)雷達(dá)的資源博弈,能夠適應(yīng)時(shí)變干擾帶來(lái)的不確定性,從而具有更好的目標(biāo)檢測(cè)性能。
圖14 不同干擾模式下基于DRL組網(wǎng)雷達(dá)功率分配策略的目標(biāo)檢測(cè)概率Fig.14 The target detection probability of the DRL-based networked radar power allocation strategy under different interference models
圖15對(duì)比了單次仿真測(cè)試下3種組網(wǎng)雷達(dá)功率分配策略雷達(dá)功率分配結(jié)果。圖16顯示了各雷達(dá)節(jié)點(diǎn)受干擾壓制干擾情況。圖17顯示了干擾機(jī)和組網(wǎng)雷達(dá)的距離變化。由圖15(a)—圖17可以發(fā)現(xiàn)基于DRL的組網(wǎng)雷達(dá)功率分配方法具有以下現(xiàn)象:
圖15 組網(wǎng)雷達(dá)功率分配結(jié)果Fig.15 The networked radar power allocation results
圖16 各雷達(dá)節(jié)點(diǎn)受壓制干擾情況Fig.16 The indication that each radar node is interfered
圖17 干擾機(jī)和組網(wǎng)雷達(dá)的距離變化Fig.17 The distance variation of the jammer and the networked radar
在1~25步,干擾機(jī)與雷達(dá)1、雷達(dá)2和雷達(dá)3的距離最近,因此干擾資源偏向于分配給這3部雷達(dá),以達(dá)到最佳的干擾效果。為了對(duì)抗上述干擾策略,組網(wǎng)雷達(dá)分配資源大部分資源給雷達(dá)1、雷達(dá)4和雷達(dá)5,其能夠提升未被干擾且距離較遠(yuǎn)的雷達(dá)4和雷達(dá)5檢測(cè)概率,同時(shí)能夠提升受干擾最嚴(yán)重的雷達(dá)1的檢測(cè)概率。采用該策略保證在K-N融合準(zhǔn)則下對(duì)的檢測(cè)概率最大。在26~38步,干擾機(jī)所有的功率都用于干擾雷達(dá)3。在這種情況下組網(wǎng)雷達(dá)3的探測(cè)性能受到極大限制,所以在系統(tǒng)資源有限的情況下,幾乎不分配資源于此節(jié)點(diǎn),以保證對(duì)突防目標(biāo)的及時(shí)探測(cè)??傮w來(lái)看,基于DRL的組網(wǎng)雷達(dá)功率分配方法能夠隨著壓制干擾強(qiáng)度以及目標(biāo)運(yùn)動(dòng)實(shí)時(shí)動(dòng)態(tài)調(diào)整每個(gè)雷達(dá)節(jié)點(diǎn)的功率,從而提高資源的利用率,進(jìn)而提高壓制干擾下目標(biāo)的發(fā)現(xiàn)概率。
從圖15(b)可以發(fā)現(xiàn),基于PSO的組網(wǎng)雷達(dá)功率分配在整個(gè)仿真時(shí)刻呈現(xiàn)出交替分配較大功率給部分雷達(dá),這種各個(gè)分配時(shí)刻交替分配功率的分配策略與雷達(dá)受干擾情況和雷達(dá)-目標(biāo)的距離曲線的變化不符。原因在于基于PSO的組網(wǎng)雷達(dá)功率分配不能保證各個(gè)時(shí)刻的分配結(jié)果都是最優(yōu)。
從圖15(c)可以發(fā)現(xiàn),基于AFSA的組網(wǎng)雷達(dá)功率分配在1~10步的功率分配結(jié)果變化較大,選擇為部分雷達(dá)分配均等的發(fā)射功率;在6~25步組網(wǎng)雷達(dá)的能量主要分配給雷達(dá)1、雷達(dá)4和雷達(dá)5,而此時(shí)雷達(dá)2和雷達(dá)3受到干擾,可以發(fā)現(xiàn)AFSA將組網(wǎng)雷達(dá)功率分配給未受干擾的雷達(dá),這種分配結(jié)果使雷達(dá)2和雷達(dá)3對(duì)目標(biāo)的檢測(cè)概率較低,進(jìn)而導(dǎo)致K-N融合準(zhǔn)則下目標(biāo)的檢測(cè)性能降低。在26~45步具有類似的結(jié)果,但是僅雷達(dá)3被干擾,因此融合后的目標(biāo)檢測(cè)性能下降小??傮w來(lái)看,AFSA將組網(wǎng)雷達(dá)功率均勻地分配給未受到干擾的雷達(dá)節(jié)點(diǎn),這種分配方式是一種保守的分配策略,在被干擾雷達(dá)節(jié)點(diǎn)較少時(shí)有較好的目標(biāo)檢測(cè)性能。
表4對(duì)比了50次蒙特卡羅仿真下各分配策略的資源調(diào)度運(yùn)行時(shí)間。其中PSO算法和AFSA算法的種群規(guī)模數(shù)和最大迭代次數(shù)均相同,所有算法均在相同的仿真平臺(tái)上運(yùn)行。從運(yùn)行時(shí)間來(lái)看,所提方法的資源調(diào)度運(yùn)行時(shí)間能夠達(dá)到0.01 s以下,相對(duì)于PSO優(yōu)化方法和AFSA優(yōu)化方法有顯著提升,完全能夠滿足高動(dòng)態(tài)博弈場(chǎng)景下雷達(dá)功率資源調(diào)度的實(shí)時(shí)性要求。
表4 各策略的資源調(diào)度運(yùn)行時(shí)間Tab.4 The resource scheduling running time of each strategy
考慮到干擾機(jī)與雷達(dá)相互博弈作戰(zhàn)場(chǎng)景,本文提出了一種基于DRL的伴隨壓制干擾下組網(wǎng)雷達(dá)功率分配問(wèn)題的解決方案。在該問(wèn)題中,干擾機(jī)和組網(wǎng)雷達(dá)被映射為智能體?;贒RL的策略網(wǎng)絡(luò)被用來(lái)訓(xùn)練組網(wǎng)雷達(dá)的功率分配策略,同時(shí)采用DRL生成干擾機(jī)智能體的波束選擇和功率分配動(dòng)作。此外,引入模型知識(shí)和專家知識(shí),以協(xié)助兩類智能體的策略探索。在仿真測(cè)試中,干擾機(jī)采用了基于DRL的干擾策略,而組網(wǎng)雷達(dá)分別采用了基于DRL的功率分配以及其他兩種啟發(fā)式組網(wǎng)雷達(dá)功率分配方法。比較了3種組網(wǎng)雷達(dá)功率分配方法在目標(biāo)檢測(cè)概率和運(yùn)行時(shí)間兩個(gè)指標(biāo)下的表現(xiàn)。結(jié)果表明,當(dāng)干擾機(jī)采用DRL資源分配策略時(shí),組網(wǎng)雷達(dá)采用基于DRL的功率分配策略在兩個(gè)指標(biāo)上都優(yōu)于其他方法。這是因?yàn)镈RL采用離線訓(xùn)練生成策略模型,因此在線功率分配的運(yùn)行時(shí)間相比PSO和AFSA更快。其次由于干擾機(jī)的干擾波束和功率具有不確定性和動(dòng)態(tài)性,基于啟發(fā)式搜索的組網(wǎng)雷達(dá)功率分配策略難以在這種環(huán)境下求得最優(yōu)解,而DRL的分配策略是從智能體與環(huán)境交互的訓(xùn)練樣本得到的,這些樣本中包含了干擾機(jī)帶來(lái)的不確定性,因此基于DRL組網(wǎng)雷達(dá)功率分配具有更好的目標(biāo)檢測(cè)性能。
在未來(lái)的工作中,我們將探究在多干擾機(jī)協(xié)同干擾下的組網(wǎng)雷達(dá)資源分配,并且拓展當(dāng)前的組網(wǎng)雷達(dá)資源分配算法,使其能夠適應(yīng)分布式學(xué)習(xí)結(jié)構(gòu),以應(yīng)對(duì)集群體系的對(duì)抗場(chǎng)景。同時(shí),我們也會(huì)考慮其他針對(duì)雷達(dá)的抗干擾措施,如波束置零和干擾濾除等。