摘" 要: 智能干擾技術(shù)已成為認(rèn)知電子戰(zhàn)的重要研究方向。文中研究了對(duì)抗場(chǎng)景下最優(yōu)干擾與有限資源分配的策略優(yōu)化問題,通過設(shè)計(jì)一個(gè)可以自適應(yīng)調(diào)整干擾策略的認(rèn)知干擾器,選擇出當(dāng)前狀態(tài)下最優(yōu)的干擾參數(shù),滿足干擾資源分配的實(shí)時(shí)性和有效性需求。為了進(jìn)一步降低干擾能耗,引入了干擾持續(xù)時(shí)間這一干擾參數(shù),同時(shí)考慮了能量有限的約束條件。此外,為加快干擾機(jī)的學(xué)習(xí)速度,還提出了一種具有平行學(xué)習(xí)獨(dú)立決策功能的深度強(qiáng)化學(xué)習(xí)干擾資源快速分配算法。仿真結(jié)果表明,所提算法能夠在滿足干擾效果的前提下,其干擾能量利用率和訓(xùn)練速度均優(yōu)于其他的深度強(qiáng)化學(xué)習(xí)干擾算法,同時(shí)對(duì)比差距會(huì)隨著干擾決策空間維度的增加而擴(kuò)大。
關(guān)鍵詞: 認(rèn)知干擾; 深度強(qiáng)化學(xué)習(xí); 干擾資源分配; 干擾持續(xù)時(shí)間; 認(rèn)知電子戰(zhàn); 全并行
中圖分類號(hào): TN919?34" " " " " " " " " " " " " " 文獻(xiàn)標(biāo)識(shí)碼: A" " " " " " " " " " " "文章編號(hào): 1004?373X(2024)13?0047?08
Communication jamming resource fast allocation algorithm
based on fully parallel deep Q?network
LU Yongan1, 2, CHEN Jiehao1, 2, ZHANG Qilu1, 2, TANG Hongying1
(1. Science and Technology on Micro?system Laboratory, Shanghai Institute of Microsystem and Information Technology,
Chinese Academy of Sciences, Shanghai 201800, China; 2. University of Chinese Academy of Sciences, Beijing 100049, China)
Abstract: Intelligent jamming technology has become an essential research direction in the field of cognitive electronic warfare. In this paper, the strategy optimization of optimal interference and limited resource allocation in confrontation scenarios is studied. By designing a cognitive jammer that can adjust jamming strategies adaptively, the optimal jamming parameters at the current state are selected to satisfy the real time and effectiveness requirements of jamming resource allocation. In order to further reduce jamming energy consumption, the parameter named jamming duration is introduced while considering the constraints of limited energy resources. Additionally, a deep reinforcement learning (DRL) jamming resource fast allocation algorithm with parallel learning and independent decision?making capabilities is proposed to accelerate the learning speed of the jammer. The simulation results indicate that the proposed algorithm is capable of outperforming the other DRL jamming algorithms in terms of jamming energy utilization and training speed while satisfying the jamming effect. Meanwhile, its comparison gap expands with the increase of the dimension of the jamming decision space.
Keywords: cognitive jamming; DRL; jamming resource allocation; jamming duration; cognitive electronic warfare; fully parallel
0" 引" 言
作為認(rèn)知電子戰(zhàn)的關(guān)鍵環(huán)節(jié),電子對(duì)抗在現(xiàn)代戰(zhàn)爭(zhēng)中發(fā)揮的作用愈加重要,已成為近年來的研究熱點(diǎn)[1?2]。如何在有限時(shí)間內(nèi)確保成功干擾,最大程度上提高干擾資源利用率是當(dāng)前亟須解決的重要難題。一方面,大多數(shù)通信干擾技術(shù)仍采用傳統(tǒng)的干擾方法,包括連續(xù)干擾、反應(yīng)干擾、欺騙干擾、隨機(jī)周期干擾、掃頻干擾等[3?6]。這些干擾方法十分依賴先驗(yàn)信息,在復(fù)雜的戰(zhàn)場(chǎng)通信環(huán)境下難以自適應(yīng)地調(diào)整干擾策略,無法實(shí)施精確干擾和高效利用干擾資源。另一方面,為了確保信息的安全傳輸,各種智能抗干擾技術(shù)也給干擾決策帶來了巨大的挑戰(zhàn)[7?13]。
為了應(yīng)對(duì)日益強(qiáng)大的抗干擾技術(shù),克服傳統(tǒng)干擾方式單一、不靈活的缺點(diǎn),許多學(xué)者開展了通信干擾技術(shù)的研究[14?22],尤其是利用智能學(xué)習(xí)解決動(dòng)態(tài)未知環(huán)境下的實(shí)時(shí)干擾決策問題。文獻(xiàn)[14]研究了加性高斯白噪聲信道下的最優(yōu)干擾問題,并指出為了使受害者接收機(jī)的誤碼率最大化,干擾機(jī)信號(hào)與受害者信號(hào)匹配并不總是最優(yōu)的。文獻(xiàn)[16]結(jié)合Wolpertinger體結(jié)構(gòu),提出了一種基于深度強(qiáng)化學(xué)習(xí)和最大熵的軟行動(dòng)者?批評(píng)(SAC)干擾算法,該算法能夠解決大規(guī)模干擾參數(shù)下無法收斂的問題。文獻(xiàn)[19]提出了一種基于深度強(qiáng)化學(xué)習(xí)的并行學(xué)習(xí)和聯(lián)合決策的干擾算法,解決了在動(dòng)態(tài)頻譜環(huán)境下干擾信道和功率的聯(lián)合決策問題。
在干擾資源分配問題的研究中,上述大多數(shù)工作主要側(cè)重于優(yōu)化干擾功率來提高資源利用率,而忽略了干擾時(shí)隙結(jié)構(gòu)的影響。更具體地,整個(gè)干擾時(shí)間被劃分為若干時(shí)隙,其中每個(gè)時(shí)隙包含固定長度的干擾持續(xù)時(shí)間。當(dāng)干擾效果(目標(biāo)信號(hào)的誤碼率)達(dá)到理想閾值時(shí),則可以進(jìn)一步減小干擾持續(xù)時(shí)間,這對(duì)于配備有電池的干擾機(jī)的能量效率是非常重要的。
然而,當(dāng)涉及到多域參數(shù)(如功率、頻道和持續(xù)時(shí)間等)的操縱時(shí),智能干擾系統(tǒng)面臨的最大挑戰(zhàn)是大規(guī)模的決策空間問題,這會(huì)嚴(yán)重降低干擾系統(tǒng)的學(xué)習(xí)速度,加劇訓(xùn)練過程的收斂難度,甚至導(dǎo)致網(wǎng)絡(luò)無法收斂,這對(duì)于分秒必爭(zhēng)的戰(zhàn)爭(zhēng)環(huán)境是十分致命的。雖然有部分研究工作提供了相應(yīng)的解決方案[16,19],但是沒有考慮干擾頻道參數(shù)與其他干擾參數(shù)之間的并行學(xué)習(xí)關(guān)系。因此,僅僅通過增加網(wǎng)絡(luò)結(jié)構(gòu),利用單一網(wǎng)絡(luò)將全部干擾參數(shù)集中輸出,難以從根本上解決強(qiáng)化學(xué)習(xí)中超大狀態(tài)動(dòng)作空間問題。
針對(duì)上述問題,本文綜合考慮干擾持續(xù)時(shí)間、干擾功率、調(diào)制方式和干擾頻道等因素設(shè)計(jì)干擾方案。為了克服大規(guī)模決策空間訓(xùn)練速度慢、收斂困難的問題,受文獻(xiàn)[19]的啟發(fā),提出了一種基于強(qiáng)化學(xué)習(xí)的干擾資源分配快速?zèng)Q策算法。該算法將一個(gè)集中輸出的單策略網(wǎng)絡(luò)分解為兩個(gè)具有獨(dú)立決策和學(xué)習(xí)能力的子網(wǎng)絡(luò),并行學(xué)習(xí)通信目標(biāo)頻道的變化規(guī)律和干擾效果。仿真結(jié)果表明,在干擾成功率相同的情況下,該算法的干擾效率對(duì)比其他算法至少提高了13%。此外,與其他先進(jìn)的強(qiáng)化學(xué)習(xí)算法相比,該算法收斂速度更快,可更高效地完成資源分配。
1" 系統(tǒng)模型與問題構(gòu)建
1.1" 系統(tǒng)模型
本文考慮了一個(gè)動(dòng)態(tài)通信對(duì)抗場(chǎng)景,其中存在一個(gè)干擾系統(tǒng)和一個(gè)通信系統(tǒng)。通信系統(tǒng)由一對(duì)收發(fā)機(jī)組成,用于信息的傳輸和接收。干擾系統(tǒng)由一個(gè)干擾機(jī)組成,通過發(fā)送干擾信號(hào)破壞通信方的正常通信。在信息傳輸過程中,假設(shè)對(duì)抗場(chǎng)景下的無線傳輸信道為加性高斯白噪聲(AWGN)信道,通信方的接收機(jī)與發(fā)射機(jī)之間完全同步,并采用TCP/IP協(xié)議進(jìn)行通信。
假設(shè)通信方傳輸時(shí)長為[T],單位傳輸時(shí)隙的大小為[Δt=TN],[N]為傳輸周期[T]內(nèi)時(shí)隙數(shù)量。通信方發(fā)射機(jī)有[W]個(gè)發(fā)射功率等級(jí),通信功率集定義為[Pi={pi1,pi2,…,piW}];干擾機(jī)有[M]個(gè)干擾功率等級(jí),干擾功率集定義為[Pj={pj1,pj2,…,pjM}]。通信方與干擾方的可用頻率范圍和調(diào)制樣式種類均相同,可用頻率范圍均勻分成[C]個(gè)頻道,可以表示為[C={f1,f2,…,fc}],其中[fc∈C]表示第[c]個(gè)頻道的中心頻率,可用頻道帶寬恒定為[B],調(diào)制樣式總共有[L]種,調(diào)制樣式集定義為[M={m1,m2,…,mL}]。干擾持續(xù)時(shí)間在單個(gè)傳輸時(shí)隙內(nèi)平均劃分成[k]份,干擾持續(xù)時(shí)間集合可以表示為[K={1k,2k,…,1}]。當(dāng)干擾持續(xù)時(shí)間為1時(shí),則表示為干擾通信方整個(gè)通信時(shí)隙。
根據(jù)通信TCP/IP協(xié)議,通信信號(hào)確認(rèn)幀(ACK)/非確認(rèn)幀(NACK)信息與數(shù)據(jù)包錯(cuò)誤率(PER)有明確對(duì)應(yīng)關(guān)系。借鑒文獻(xiàn)[15],可以通過監(jiān)聽通信方的確認(rèn)幀來估計(jì)通信方的數(shù)據(jù)包錯(cuò)誤率,進(jìn)而推出通信方符號(hào)錯(cuò)誤率(SER),可由式(1)給出:
[SER=1-(1-PER)1Nsym] (1)
式中[Nsym]是一個(gè)數(shù)據(jù)包中的符號(hào)數(shù)量。
干擾系統(tǒng)可通過SER判斷是否干擾成功,如式(2)所示:
[μSER(n)=1,SER≥η0,SERlt;η] (2)
式中:[μSER(n)]表示[n]時(shí)隙下干擾成功的指示函數(shù),[μSER(n)=1]時(shí),表示干擾成功,[μSER(n)=0]時(shí),表示干擾失敗;[η]為最低干擾誤碼率閾值。
干擾方旨在盡可能干擾通信方全部時(shí)隙并且使其能量消耗最低。為此設(shè)定JSR表示成功干擾率,其數(shù)學(xué)表達(dá)式為:
[JSR=n=0NμSER(n)N] (3)
當(dāng)干擾成功時(shí)隙占全部時(shí)隙滿足一定比例時(shí),即可表示該周期下通信信息全部傳輸失敗。因此,設(shè)定[JSR≥λ]表示成功干擾通信方全部傳輸信息,其中[λ]代表最低干擾成功率閾值。
每個(gè)時(shí)隙[n]下,干擾方的干擾功率和干擾持續(xù)時(shí)間分別為[pj(n)]和[k(n)]。因此,整個(gè)通信周期[T]下干擾方所消耗的總能量為:
[Esum=n=0Npj(n)k(n)," " pj(n)∈Pj,k(n)∈K] (4)
因此最優(yōu)干擾與有限資源分配問題就轉(zhuǎn)化為帶約束組合優(yōu)化問題:
[minEsum=minn=0Npj(n)k(n)s.t.JSR≥λ0≤pj(n)≤pjMEsum≤Emax]
式中:[pjM]表示干擾機(jī)最大干擾功率;[Emax]表示干擾機(jī)最大能量。
1.2" 馬爾科夫決策過程
本文的核心問題是對(duì)抗場(chǎng)景下最優(yōu)干擾與有限資源分配的策略優(yōu)化問題,根據(jù)馬爾科夫決策過程(MDP)[23]的定義,可以將上述的對(duì)抗過程建模成為一個(gè)MDP問題,其中干擾系統(tǒng)和通信系統(tǒng)相互作用做出決策。如圖1所示,通信方和干擾方根據(jù)它們各自的策略進(jìn)行對(duì)抗,其中水平軸表示不同的時(shí)隙,垂直軸表示不同的頻道。干擾方的智能代理通過求解MDP得到最優(yōu)的干擾策略。MDP問題可以通過一個(gè)四元組[S,A,P,R]來表示,其中[S]是環(huán)境狀態(tài)空間,[A]是干擾方可以采取的行動(dòng)空間,[P]是環(huán)境狀態(tài)的轉(zhuǎn)移概率矩陣,[R]是干擾方執(zhí)行動(dòng)作[A]后獲得的獎(jiǎng)勵(lì)函數(shù)。
在本文中,MDP元素的具體含義如下。
狀態(tài)空間[S]:[S=[s1,s2,…,sn]],[sn]表示在[n]時(shí)隙下頻譜感知信息,可以表示為:
[sn=[sf(n),spm(n),ζ(n)]sf(n)=[fi(n),fi(n-1),…,fi(n-τ)]," "fi(n)∈Cspm(n)=[pi(n),mi(n)]," " pi(n)∈Pi,mi(n)∈Mi] (5)
式中:[sf(n)]表示[n]時(shí)隙下通信方[τ]步的歷史頻點(diǎn)信息;[spm(n)]表示[n]時(shí)隙下通信方發(fā)射功率和調(diào)制樣式信息;[ζ(n)]表示[n]時(shí)隙下偵聽到的NACK包數(shù)量。
動(dòng)作空間[A]:[A=[a1,a2,…,an]],[an]表示在[n]時(shí)隙下干擾機(jī)所采取的動(dòng)作,可以表示為:
[an=[af(n),apmt(n)]af(n)=fj(n)," " fj(n)∈Capmt(n)=[pj(n),mj(n),k(n)],pj(n)∈Pj,mj(n)∈Mj,k(n)∈K] (6)
式中:[af(n)]表示[n]時(shí)隙下干擾機(jī)所選擇的頻道動(dòng)作;[pj(n)]、[mj(n)]、[k(n)]分別表示[n]時(shí)隙下干擾機(jī)所選擇的功率大小、干擾樣式以及干擾持續(xù)時(shí)間。
獎(jiǎng)勵(lì)函數(shù)[R]:在設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)時(shí),不僅需要考慮通信系統(tǒng)的傳輸性能下降情況,同時(shí)還需考慮干擾能耗的大小,以最大限度地避免干擾能量的浪費(fèi)。獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)如下:
[r(sn,an)=rf(n)+rpmt(n)] (7)
式中,[rf(n)]是頻道干擾獎(jiǎng)勵(lì)函數(shù),具體表達(dá)式為:
[rf(n)=1,fj(n)-fi(n)lt;ε-1,else] (8)
當(dāng)干擾頻道中心頻率與通信頻道中心頻率小于一個(gè)門限值[ε]時(shí),表示干擾方與通信方在同一頻道下,得到獎(jiǎng)勵(lì)值為1;否則,獎(jiǎng)勵(lì)值為-1。[rpmt(n)]表示干擾效果獎(jiǎng)勵(lì)函數(shù),具體表達(dá)式為:
[rpmt(n)=μSER(n)-pj(n)k(n)+SER] (9)
式中:[μSER(n)]是為了滿足當(dāng)前通信時(shí)隙被成功干擾的條件;中間部分的懲罰項(xiàng)是為了降低干擾機(jī)能耗;獎(jiǎng)勵(lì)值SER是為了在同一耗能下選擇出最優(yōu)的干擾樣式。
智能干擾系統(tǒng)的目標(biāo)是通過不斷的學(xué)習(xí)和訓(xùn)練,找到使累計(jì)獎(jiǎng)勵(lì)值[Rsum]最大化的最佳干擾策略[π?],因此,本文的優(yōu)化目標(biāo)公式如下:
[π?=argmaxπEτ~π(τ)Rsum,Rsum=maxEn=0Nγnr(sn,an)," " sn∈S,an∈A] (10)
式中:[E[·]]為數(shù)學(xué)期望;[0lt;γlt;1]為長期折扣因子。
2" 基于全并行DQN的干擾資源快速分配算法
在通信對(duì)抗領(lǐng)域,由于其通信方信號(hào)和干擾信號(hào)所組成的狀態(tài)空間與動(dòng)作空間十分龐大,會(huì)導(dǎo)致基于表值或基于深度Q網(wǎng)絡(luò)(DQN)的方法收斂緩慢甚至出現(xiàn)不收斂的情況。為解決上述問題,本文提出了一種全并行DQN網(wǎng)絡(luò)結(jié)構(gòu),將集中輸出的單一DQN網(wǎng)絡(luò)解耦成兩個(gè)可以平行學(xué)習(xí)的DQN子網(wǎng)絡(luò),通過各自DQN子網(wǎng)絡(luò)學(xué)習(xí)對(duì)應(yīng)的動(dòng)作價(jià)值,降低動(dòng)作輸出維度,進(jìn)而加快收斂速度。本節(jié)首先簡要介紹DQN算法,然后在DQN算法的基礎(chǔ)上,再詳細(xì)介紹所提算法Fully Parallel?DQN。
2.1" DQN算法
DQN是一種強(qiáng)化學(xué)習(xí)算法,它將深度神經(jīng)網(wǎng)絡(luò)與Q?learning算法相結(jié)合。DQN背后的基本思想是近似[Q]函數(shù),它表示在給定狀態(tài)下采取特定行動(dòng)的預(yù)期未來回報(bào)。傳統(tǒng)的Q學(xué)習(xí)算法使用查找表來存儲(chǔ)對(duì)應(yīng)于每個(gè)狀態(tài)動(dòng)作的[Q]值,并通過式(11)不斷更新:
[Q(s,a)=(1-α)Q(s,a)+α(r(s,a)+λmaxaQ(s,a))] (11)
式中:[α∈(0,1]]是學(xué)習(xí)率;[s]、[a]分別是下一個(gè)狀態(tài)和下一個(gè)動(dòng)作。
然而,當(dāng)MDP模型具有高維度、大規(guī)模的狀態(tài)動(dòng)作空間時(shí),會(huì)讓[Q]表的存儲(chǔ)和搜索變得不切實(shí)際。為解決這一問題,許多研究都采用了函數(shù)逼近的方法,尤其是深度神經(jīng)網(wǎng)絡(luò)(DNN)作為一種非線性函數(shù)近似,被廣泛應(yīng)用于大規(guī)模的強(qiáng)化學(xué)習(xí),即[Q(s,a)≈Q(s,a,w)],其中[w]代表神經(jīng)網(wǎng)絡(luò)的權(quán)值參數(shù)。在DQN中,可以用DNN逼近[Q]值函數(shù)的分布,并通過優(yōu)化損失函數(shù)訓(xùn)練DNN。
[L(w)=E[(yt-Q(s,a,w))2]] (12)
式中[yt]為目標(biāo)[Q]值,可以看作標(biāo)簽值,表示為:
[yt=r+γmaxaQ(s,a,w)] (13)
然而DQN算法可能不穩(wěn)定,原因有兩個(gè):首先,在強(qiáng)化學(xué)習(xí)中訓(xùn)練樣本之間存在相關(guān)性,因此無法滿足深度學(xué)習(xí)所需的獨(dú)立同分布條件;其次,即使對(duì)[Q]參數(shù)進(jìn)行微小更新,也可能會(huì)導(dǎo)致策略的劇烈波動(dòng),從而改變訓(xùn)練數(shù)據(jù)的分布情況。為了解決這些問題,文獻(xiàn)[24]開發(fā)了經(jīng)驗(yàn)重放和目標(biāo)網(wǎng)絡(luò)機(jī)制。具體來說,利用經(jīng)驗(yàn)回放模塊存儲(chǔ)每一系列產(chǎn)生的狀態(tài)轉(zhuǎn)移樣本[(s,a,r,s′)],可以隨機(jī)采樣一批樣本進(jìn)行學(xué)習(xí),由于樣本的隨機(jī)性,這些數(shù)據(jù)之間的相關(guān)性可以被消除。此外,目標(biāo)網(wǎng)絡(luò)具有與在線網(wǎng)絡(luò)相同的結(jié)構(gòu),但不同的權(quán)值參數(shù)會(huì)周期性地從在線網(wǎng)絡(luò)中復(fù)制,從而保證了目標(biāo)的穩(wěn)定性。
2.2" 全并行DQN算法
如圖2所示,本文設(shè)計(jì)了一種“并行學(xué)習(xí)獨(dú)立決策”機(jī)制,用來加快干擾機(jī)在線學(xué)習(xí)速度和更新過程。其設(shè)計(jì)思想借鑒分層強(qiáng)化學(xué)習(xí),將學(xué)習(xí)任務(wù)分解成更小、更易管理的子任務(wù)來解決復(fù)雜問題[25]。
在電磁對(duì)抗場(chǎng)景下,為了最大限度干擾敵方通信,首先需要考慮的是干擾效果能否滿足切斷通信鏈路的最低需求,其次才考慮有限資源分配問題。而保證干擾效果的前提是需要確保干擾信號(hào)與通信方信號(hào)的頻道是否相同。因此,可以將對(duì)抗場(chǎng)景下最優(yōu)干擾與有限資源分配的策略優(yōu)化問題分解為干擾效果與資源分配兩個(gè)子任務(wù),并按照子任務(wù)的優(yōu)先等級(jí)去完成。
為了并行學(xué)習(xí)干擾效果與資源分配兩個(gè)子任務(wù),在算法設(shè)計(jì)上,參考了DQN算法并加以修改,將集中輸出的單一DQN網(wǎng)絡(luò)劃分為兩個(gè)具有獨(dú)立決策和學(xué)習(xí)能力的子網(wǎng)絡(luò),分別為頻道決策子(Channel Agent)網(wǎng)絡(luò)和功率?樣式?持續(xù)時(shí)間聯(lián)合決策(Power?Mode?Time Agent, PMT Agent)子網(wǎng)絡(luò)。每個(gè)子網(wǎng)絡(luò)均可看作為獨(dú)立的Agent。每個(gè)子網(wǎng)絡(luò)根據(jù)各自的感知信息和獎(jiǎng)勵(lì)函數(shù)自主學(xué)習(xí)并更新網(wǎng)絡(luò)參數(shù),主要的優(yōu)點(diǎn)是能降低輸入輸出空間維度。具體地,在單一結(jié)構(gòu)的DQN算法下,其狀態(tài)和動(dòng)作維度分別為:[C×W×L]、[C×M×L×K]。而相對(duì)于全并行DQN算法,并行結(jié)構(gòu)可以將頻道與其他干擾參數(shù)分開學(xué)習(xí),因此其輸入和輸出維度可以降低為[C+W×L]、[C+M×L×K]。
Channel Agent旨在學(xué)習(xí)敵方通信方頻道的變化規(guī)律,而PMT Agent旨在滿足干擾效果的前提下,優(yōu)化干擾能耗。每一時(shí)刻下,Channel Agent會(huì)將頻域歷史信息傳輸?shù)讲呗栽u(píng)估網(wǎng)絡(luò)中進(jìn)行評(píng)估,并根據(jù)策略網(wǎng)絡(luò)選擇出頻道動(dòng)作[aft]及其狀態(tài)動(dòng)作[Q]值。同理,PMT Agent會(huì)將功率?樣式感知信息[spmt]傳輸?shù)綄?duì)應(yīng)的策略網(wǎng)絡(luò),并輸出動(dòng)作[apmtt]及其[Q]值。參考DQN算法的更新規(guī)則和當(dāng)前狀態(tài)的獎(jiǎng)勵(lì)值[rft]、[rpmtt],頻道損失函數(shù)[Lf(w)]和功率?樣式?干擾持續(xù)時(shí)間聯(lián)合損失函數(shù)[Lpmt(w)]可以表示為:
[Lf(w)=Erft+γmaxaft+1Q′1(sft+1,aft+1;w)-Q1(sft,aft;w)2] (14)
[Lpmt(w)=" "Erpmtt+γmaxapmtt+1Q′2(spmt+1,apmtt+1;w)-Q2(spmt,apmtt;w)2] (15)
式中[Q]表示目標(biāo)網(wǎng)絡(luò)。
同時(shí),還設(shè)計(jì)了一個(gè)更新規(guī)則,用來規(guī)范Channel Agent和PMT Agent的更新時(shí)間以及判斷是否需要停止更新。如上文所述,該算法首要任務(wù)是解決干擾頻道選擇問題,并且PMT Agent獎(jiǎng)勵(lì)函數(shù)[rpmtt]中的干擾成功指數(shù)函數(shù)[μSER(·)]與誤碼率SER取決于Channel Agent的頻道選擇。也就是說,只有當(dāng)干擾頻道與通信頻道相同時(shí),獎(jiǎng)勵(lì)函數(shù)[rpmtt]才會(huì)得到一個(gè)正確值;否則得到一個(gè)錯(cuò)誤值,會(huì)影響PMT Agent的策略更新。因此,整個(gè)算法更新規(guī)則為:當(dāng)干擾頻道與通信頻道相同時(shí),Channel Agent和PMT Agent同時(shí)更新;否則,只更新Channel Agent。全并行DQN算法偽代碼如下:
算法:基于全并行DQN的快速干擾資源分配算法(Fully Parallel?DQN)
步驟1:初始化頻道子網(wǎng)絡(luò)Channel Agent和聯(lián)合子網(wǎng)絡(luò)PMT Agent的超參數(shù);
步驟2:初始化Channel Agent頻道子評(píng)估網(wǎng)絡(luò)的權(quán)重[w1]和目標(biāo)網(wǎng)絡(luò)的權(quán)重[w′1];
步驟3:初始化PMT Agent聯(lián)合子評(píng)估網(wǎng)絡(luò)的權(quán)重[w2]和目標(biāo)網(wǎng)絡(luò)的權(quán)重[w′2];
步驟4:
for [episode=1,2,…,M] do
for time slot [t=1,2,…,N] do
根據(jù)感知信息構(gòu)建狀態(tài)[st=[sft,spmt,ζt]];
輸入狀態(tài)[sft]到Channel Agent評(píng)估網(wǎng)絡(luò)并輸出干擾動(dòng)作[aft]選擇干擾頻道[c];
輸入狀態(tài)[spmt]到PMT Agent評(píng)估網(wǎng)絡(luò)并輸出干擾動(dòng)作[apmtt],選擇干擾功率[p],調(diào)制樣式[m]和干擾持續(xù)時(shí)間[k];
根據(jù)[ε?greedy]策略執(zhí)行動(dòng)作,得到下一狀態(tài)[st+1]并根據(jù)式(8)、式(9)計(jì)算得到獎(jiǎng)勵(lì)值;
存儲(chǔ)[(sft,aft,rft,sft+1)]到經(jīng)驗(yàn)回放池[Df];
從經(jīng)驗(yàn)回放池[Df]中隨機(jī)采樣小批次[Bf]訓(xùn)練;
根據(jù)式(14)計(jì)算損失函數(shù)值,并更新Channel Agent評(píng)估網(wǎng)絡(luò)參數(shù)[w1];
if干擾選擇的頻道與通信方頻道相同then
存儲(chǔ)[(spmt,apmtt,rpmtt,spmt+1)]到經(jīng)驗(yàn)回放池[Dpmt];
從經(jīng)驗(yàn)回放池[Dpmt]中隨機(jī)采樣小批次[Bpmt]訓(xùn)練;
根據(jù)式(15)計(jì)算損失函數(shù)值,并更新PMT Agent評(píng)估網(wǎng)絡(luò)參數(shù)[w2];
else
暫停更新PMT Agent評(píng)估網(wǎng)絡(luò);
end if
每[Nf]步更新Channel Agent目標(biāo)網(wǎng)絡(luò)權(quán)重[w′1=w1];
每[Npmt]步更新PMT Agent目標(biāo)網(wǎng)絡(luò)權(quán)重[w′2=w2];
end for
end for
3" 仿真與結(jié)果分析
在這一部分中,給出了仿真結(jié)果,并從干擾成功率、能量消耗和干擾收斂速度三個(gè)方面對(duì)所提算法進(jìn)行了性能分析。數(shù)值結(jié)果表明,在通信方具有實(shí)時(shí)檢測(cè)干擾能力,能夠動(dòng)態(tài)調(diào)整通信參數(shù)回避干擾的情況下,該算法可以有效地干擾通信方的全部時(shí)隙,同時(shí)大幅度降低干擾能耗。此外,將Fully Parallel?DQN與幾種主流的強(qiáng)化學(xué)習(xí)基線進(jìn)行了比較。比較結(jié)果表明,該算法在干擾效果和收斂速度方面均優(yōu)于基線。
3.1" 仿真設(shè)置
在本文仿真中,假設(shè)通信方和干擾機(jī)的可用頻帶帶寬為10 MHz,可分為[C=5]頻道,帶寬為[B=2 MHz]。通信方和干擾方在任何時(shí)間[t]下發(fā)送1個(gè)[Nsym=1 000]符號(hào)的包。如果在通信方接收機(jī)處至少有[η=]10%的碼元被錯(cuò)誤接收,則表示干擾成功。通信方發(fā)射機(jī)的發(fā)射功率有三個(gè)等級(jí)[Pi=1 W,2 W,3 W],干擾功率集合為[Pj=1 W,2 W,3 W,4 W]。干擾方和通信方可選的調(diào)制樣式集合均相同。為便于分析,假設(shè)通信方的通信總時(shí)長[T=10 s],共有[N=100]個(gè)通信時(shí)隙。在單位時(shí)隙[Δt=TN=100 ms]內(nèi),干擾持續(xù)時(shí)間被平均劃分成[k=10]個(gè)干擾子時(shí)隙,干擾機(jī)可以任意干擾若干個(gè)子時(shí)隙。背景噪聲功率為-70 dBm。
通信距離和干擾距離均為100 m,其他實(shí)驗(yàn)及模型參數(shù)如表1、表2所示。
在仿真中,引入干擾成功率(JSR)、干擾收斂時(shí)間(JCT)和干擾效用率(JSE)三大指標(biāo)來衡量算法的性能。JSE表示干擾成功率與總干擾能耗的比值,可以定義為:
[JSE=JSREsum] (16)
式中[Esum]可以通過公式(4)得出。JSE反映了干擾機(jī)單位功率的效用值,較高的JSE值表示較高的資源利用率。
還需介紹幾種干擾算法作為比較,以評(píng)估所提出干擾算法的性能:所提算法(Fully Parallel?DQN),算法網(wǎng)絡(luò)結(jié)構(gòu)使用全并行結(jié)構(gòu);半并行DQN算法(Semi Parallel?DQN),參考文獻(xiàn)[19],使用半并行網(wǎng)絡(luò)結(jié)構(gòu);DQN算法,采用默認(rèn)集中輸出的單一DQN網(wǎng)絡(luò);Q?learning算法;random算法。
3.2" 仿真與結(jié)果分析
圖3展示了所提算法與其他經(jīng)典強(qiáng)化學(xué)習(xí)干擾算法的性能對(duì)比情況。由圖3可知,所提算法無論在JSR還是在JSE下,均比其他干擾算法效果好。采取半并行網(wǎng)絡(luò)的Semi Parallel?DQN算法和傳統(tǒng)DQN算法的效果大致相同。對(duì)于Q?learning算法,由于[Q]表不適合存儲(chǔ)和搜索大規(guī)模狀態(tài)動(dòng)作空間,所以它的JSR僅有0.53。在干擾收斂時(shí)間(JCT)上,所提算法僅需7個(gè)epoch的訓(xùn)練時(shí)間就能成功收斂,而相對(duì)于Semi Parallel?DQN和DQN算法,盡管它們?cè)诟蓴_效果上十分接近所提算法,但是需要至少75個(gè)epoch訓(xùn)練時(shí)間下才能成功實(shí)現(xiàn)干擾通信方全部時(shí)隙的要求。在有限的訓(xùn)練時(shí)間限制下,所提算法的并行結(jié)構(gòu)能更好地提高干擾機(jī)的收斂速度,快速達(dá)到理想的干擾效果,滿足實(shí)時(shí)性需求。
圖4展示了不同大小的干擾時(shí)隙劃分性能對(duì)比情況。由圖4可以看出,三種干擾子時(shí)隙劃分情況均能實(shí)現(xiàn)最佳干擾效果,并且干擾子時(shí)隙劃分?jǐn)?shù)量與干擾成功率的收斂速度JCT成負(fù)相關(guān),與干擾效用率JSE成正相關(guān)。在單位通信時(shí)隙下,干擾子時(shí)隙劃分?jǐn)?shù)量越多,相應(yīng)的動(dòng)作空間[k(n)]參數(shù)也會(huì)隨之增大,這會(huì)導(dǎo)致網(wǎng)絡(luò)復(fù)雜度和輸出維度成比例上升,最終造成收斂時(shí)間變長。同時(shí),因?yàn)楦蓴_子時(shí)隙的間隔越小,干擾機(jī)可以選擇的干擾持續(xù)時(shí)間就越精確,避免了多余的干擾時(shí)間,因此JSE會(huì)隨著干擾子時(shí)隙數(shù)量增加而增大。
此外,為進(jìn)一步驗(yàn)證在大規(guī)模狀態(tài)動(dòng)作空間下所提算法的優(yōu)越性,還分別將通信方頻道個(gè)數(shù)增加到10個(gè)和15個(gè),多個(gè)頻道下的干擾成功率與干擾效用率對(duì)比如圖5所示。結(jié)合圖5和圖3可以看出,僅有所提算法滿足干擾通信方全部時(shí)隙的要求,同時(shí)頻道個(gè)數(shù)的增加對(duì)所提算法影響不大,三種不同頻道個(gè)數(shù)的最終干擾效果基本一致,干擾成功率的收斂時(shí)間也均能在20個(gè)epoch下實(shí)現(xiàn)收斂。對(duì)于其他經(jīng)典強(qiáng)化學(xué)習(xí)干擾算法,頻道個(gè)數(shù)的變化對(duì)他們的JSR和JSE影響較為明顯。尤其是DQN算法,隨著狀態(tài)動(dòng)作空間的上升,JSR和JSE急劇下降,學(xué)習(xí)速度變得十分緩慢。還可以看出,隨著頻道個(gè)數(shù)的增加,所提算法與其他經(jīng)典干擾算法的性能差距進(jìn)一步加大。
4" 結(jié)" 論
本文針對(duì)對(duì)抗場(chǎng)景下最優(yōu)干擾與有限資源分配的策略優(yōu)化問題,提出了一種基于全并行深度Q網(wǎng)絡(luò)的干擾資源分配快速?zèng)Q策算法。該算法把干擾資源分配問題建模為馬爾可夫決策過程,并將傳統(tǒng)的單一策略網(wǎng)絡(luò)劃分為兩個(gè)具有獨(dú)立決策和學(xué)習(xí)能力的子網(wǎng)絡(luò),通過兩個(gè)獨(dú)立的子網(wǎng)絡(luò)并行學(xué)習(xí)頻道的變化規(guī)律以及干擾效果和能耗。這樣既能保證訓(xùn)練過程的學(xué)習(xí)速度,又增強(qiáng)了決策過程的魯棒性;同時(shí),還引入了干擾持續(xù)時(shí)間這一干擾參數(shù),在保證干擾效果的同時(shí)最小化干擾能耗,進(jìn)一步提高了干擾資源利用率。仿真結(jié)果表明,該算法無論在干擾能耗還是收斂速度上均優(yōu)于其他強(qiáng)化學(xué)習(xí)方法,同時(shí)算法穩(wěn)定性高,更能適應(yīng)高維度的決策空間,能夠在更復(fù)雜的動(dòng)態(tài)通信對(duì)抗場(chǎng)景下保持快速收斂。
注:本文通訊作者為唐洪瑩。
參考文獻(xiàn)
[1] PIRAYESH H, ZENG H. Jamming attacks and anti?jamming strategies in wireless networks: A comprehensive survey [J]. IEEE communications surveys amp; tutorials, 2022, 24(2): 767?809.
[2] 劉松濤,雷震爍,溫鎮(zhèn)銘,等.認(rèn)知電子戰(zhàn)研究進(jìn)展[J].探測(cè)與控制學(xué)報(bào),2020,42(5):1?15.
[3] PELECHRINIS K, ILIOFOTOU M, KRISHNAMURTHY S V. Denial of service attacks in wireless networks: The case of jammers [J]. IEEE communications surveys amp; tutorials, 2011, 13(2): 245?257.
[4] CAI Y, PELECHRINIS K, WANG X, et al. Joint reactive jammer detection and localization in an enterprise WiFi network [J]. Computer networks, 2013, 57(18): 3799?3811.
[5] SCHULZ M, GRINGOLI F, STEINMETZER D, et al. Massive reactive smartphone?based jamming using arbitrary waveforms and adaptive power control [C]// Proceedings of the 10th ACM Conference on Security and Privacy in Wireless and Mobile Networks. New York: ACM, 2017: 111?121.
[6] LICHTMAN M, JOVER R P, LABIB M, et al. LTE/LTE?A jamming, spoofing, and sniffing: Threat assessment and mitigation [J]. IEEE communications magazine, 2016, 54(4): 54?61.
[7] QI N, WANG W, XIAO M, et al. A learning?based spectrum access Stackelberg game: Friendly jammer?assisted communication confrontation [J]. IEEE transactions on vehicular technology, 2021, 70(1): 700?713.
[8] LI Y Y, XU Y H, XU Y T, et al. Dynamic spectrum anti?jamming in broadband communications: A hierarchical deep reinforcement learning approach [J]. IEEE wireless communications letters, 2020, 9(10): 1616?1619.
[9] YAO F Q, JIA L L. A collaborative multi?agent reinforcement learning anti?jamming algorithm in wireless networks [J]. IEEE wireless communications letters, 2019, 8(4): 1024?1027.
[10] PEI X F, WANG X M, YAO J N, et al. Joint time?frequency anti?jamming communications: A reinforcement learning approach [C]// 2019 11th International Conference on Wireless Communications and Signal Processing (WCSP). New York: IEEE, 2019: 1?6.
[11] LIU X, XU Y H, JIA L L, et al. Anti?jamming communications using spectrum waterfall: A deep reinforcement learning approach [J]. IEEE communications letters, 2018, 22(5): 998?1001.
[12] 宋佰霖,許華,蔣磊,等.一種基于深度強(qiáng)化學(xué)習(xí)的通信抗干擾智能決策方法[J].西北工業(yè)大學(xué)學(xué)報(bào),2021,39(3):641?649.
[13] WANG X M, WANG J L, XU Y H, et al. Dynamic spectrum anti?jamming communications: Challenges and opportunities [J]. IEEE communications magazine, 2020, 58(2): 79?85.
[14] AMURU S D, BUEHRER R M. Optimal jamming against digital modulation [J]. IEEE transactions on information forensics and security, 2015, 10(10): 2212?2224.
[15] AMURU S D, TEKIN C, VAN DER SCHAAR M, et al. Jamming bandits: A novel learning method for optimal jamming [J]. IEEE transactions on wireless communications, 2016, 15(4): 2792?2808.
[16] XU Y T, WANG C, LIANG J K, et al. Deep reinforcement learning based decision making for complex jamming waveforms [J]. Entropy, 2022, 24(10): 1441.
[17] HAN D Q, LI A, ZHANG L L, et al. Deep learning?guided jamming for cross?technology wireless networks: Attack and defense [J]. IEEE/ACM transactions on networking, 2021, 29(5): 1922?1932.
[18] 饒寧,許華,齊子森,等.基于最大策略熵深度強(qiáng)化學(xué)習(xí)的通信干擾資源分配方法[J].西北工業(yè)大學(xué)學(xué)報(bào),2021,39(5):1077?1086.
[19] WANG L G, LI G X, SONG F, et al. A DRL?based intelligent jamming approach for joint channel and power optimization [J]. Wireless communications and mobile computing, 2023(1): 3625917.
[20] ZHUANSUN S S, YANG J N, LIU H. Apprenticeship learning in cognitive jamming [J]. Optimal control applications and methods, 2019, 40(4): 647?658.
[21] KIM G, LIM H. Reinforcement learning based beamforming jammer for unknown wireless networks [J]. IEEE access, 2020, 8: 210127?210139.
[22] 彭翔,許華,蔣磊,等.一種融合噪聲網(wǎng)絡(luò)的深度強(qiáng)化學(xué)習(xí)通信干擾資源分配算法[J].電子與信息學(xué)報(bào),2023,45(3):1043?1054.
[23] SUTTON R S, BARTO A G. Reinforcement learning: An introduction [M]. Massachusetts: MIT press, 2018.
[24] MNIH V, KAVUKCUOGLU K, SILVER D, et al. Human?level control through deep reinforcement learning [J]. Nature, 2015, 518(7540): 529?533.
[25] PATERIA S, SUBAGDJA B, TAN A H, et al. Hierarchical reinforcement learning: A comprehensive survey [J]. ACM computing surveys, 2022, 54(5): 1?35.