潘筱茜 張 姣 劉 琰 王 杉 陳海濤 趙海濤 魏急波
(1.國防科技大學電子科學學院,湖南長沙 410073;2.中國人民解放軍91428部隊,浙江寧波 315456)
隨著信息化戰(zhàn)爭時代的到來,敵我雙方圍繞通信干擾與抗干擾的電子戰(zhàn)已經(jīng)成為信息化戰(zhàn)爭的重要組成部分。為應對敵方惡意生成的電磁干擾,當前通信抗干擾主要目的是依據(jù)通信任務的需求與戰(zhàn)場干擾環(huán)境動態(tài)變化,在電磁和網(wǎng)絡空間形成電磁頻譜安全非對稱制衡能力。未來信息化戰(zhàn)場的主要特征就是網(wǎng)絡中心化、智能化以及多樣化。通信干擾設備不斷發(fā)展進步,其具備的感知、分析、學習能力,使其可以輕易干擾正在進行的通信傳輸。面對智能化通信干擾時,傳統(tǒng)的抗干擾通信體制已經(jīng)很難取得理想的效果。
針對無線通信系統(tǒng)中存在的電磁干擾問題,現(xiàn)有工作分別基于時、頻、空、功率等通信資源構建抗干擾優(yōu)化模型,并提出優(yōu)化算法求解最優(yōu)抗干擾策略。文獻[1-3]采用了博弈論方法建模,很好地模擬了合法用戶與干擾者之間的交互,通過求解納什均衡獲得最優(yōu)通信策略。啟發(fā)式優(yōu)化算法[4]也廣泛用于多域參數(shù)的決策,文獻[5]研究了人工蜂群算法(ABC,Artificial Bee Colony Algorithm)在認知抗干擾系統(tǒng)中智能決策中的應用。上述優(yōu)化算法依賴于數(shù)學模型,然而環(huán)境的動態(tài)特性往往會造成實際系統(tǒng)與理論模型的不匹配,無線通信需求的增長也使各種優(yōu)化算法開銷增大。
近年來,人工智能和機器學習研究取得重大進展,尤其是在計算機視覺、語言等領域,主要包括深度學習(DL,Deep Learning)[6]、深度強化學習(DRL,Deep Reinforcement Learning)[7]、聯(lián)邦學習(FL,F(xiàn)ederated Learning)[8]。這些進展吸引研究者將機器學習技術與智能抗干擾相結合,機器學習算法不依賴于模型,直接通過智能體與環(huán)境之間的交互捕獲到環(huán)境動態(tài)變化的規(guī)律,從而學習到最佳決策。文獻[9-11]總結了近年來基于機器學習的抗干擾技術,包括博弈論學習、強化學習和深度學習以及聯(lián)邦學習在無線通信領域的應用。文獻[12]采用單智能體Q 學習算法在寬帶自主認知無線電中進行通信抗干擾,考慮干擾器在目標頻譜范圍內(nèi)進行掃頻干擾的場景,強化學習算法目標是選擇連續(xù)空閑的頻帶,實現(xiàn)盡可能長時間的不間斷傳輸,該算法證明了學習到的抗干擾選擇策略的優(yōu)良性能,但由于其不允許在被干擾之前通過預測干擾器的行為有效改變子頻帶,模型過于簡單不能很好的適用于實際對抗場景。文獻[13]提出了一種基于深度強化學習的抗干擾算法,該算法可以同時對通信頻率和功率進行決策,但是該算法并沒有考慮信道切換的代價。受DRL 的啟發(fā),文獻[14]提出了一種基于深度強化學習的抗干擾方法,將頻譜瀑布直接輸入到卷積神經(jīng)網(wǎng)絡(CNN,Convolutional Neural Network)中,估計通信動作的Q 值,解決了狀態(tài)數(shù)無限的復雜交互式?jīng)Q策問題。
綜上,針對無線通信系統(tǒng)中存在的惡意電磁干擾問題,現(xiàn)有智能抗干擾技術主要考慮從時間、頻率以及功率域等多維度設計抗干擾策略,但仍然還存在以下問題:(1)現(xiàn)有的抗干擾技術主要考慮從時、頻、空或功率域單維度或者兩兩聯(lián)合等角度來規(guī)避干擾,雖然所設計的抗干擾算法收斂較快,但是系統(tǒng)性能沒有達到最優(yōu);(2)現(xiàn)有強化學習算法在面對較大動作空間時訓練難以收斂、收斂速度慢、算法不穩(wěn)定。本文針對上述問題,采用深度強化學習算法中基于剪裁的近端策略優(yōu)化算法(PPOClip)[15],從信道切換、功率控制、調(diào)制編碼方式三個維度進行聯(lián)合干擾規(guī)避決策,并將PPO-Clip 算法與Q 學習算法進行對比分析,驗證了PPO-Clip 算法在聯(lián)合干擾規(guī)避問題中收斂速度快,系統(tǒng)性能好。
無線通信環(huán)境中的一對通信節(jié)點對,受到來自外來惡意干擾節(jié)點的干擾,假設兩個通信節(jié)點皆為智能節(jié)點,通過調(diào)整通信參數(shù)規(guī)避干擾。系統(tǒng)模型如圖1所示。
圖1 系統(tǒng)模型Fig.1 System model
假設該系統(tǒng)中收發(fā)雙方的通信功率、調(diào)制方式、碼率和傳輸信道可調(diào)節(jié),發(fā)射功率集合為Pu={pu,1,pu,2,pu,3,…,pu,L},調(diào)制方式集合為Mod={m1,m2,m3,…,},編碼速率集合為Cod={c1,c2,c3,…,},第k個時隙所使用的發(fā)射功率為pu,k(pu,k∈Pu),第k個時隙的傳輸速率由調(diào)制編碼方式?jīng)Q定:vk=cklog2mk(mk∈Mod,ck∈Cod,vk∈{v1,v2,v3,…,vN},N=N1×N2)。干擾功率集合設為:Pj={pj,1,pj,2,pj,3,…,pj,Q},第k個時隙干擾功率為pj,k,pj,k∈Pj,噪聲功率為σ2。假設智能節(jié)點能完全感知當前的干擾狀態(tài),且認為一個時隙內(nèi)干擾不發(fā)生變化。收發(fā)雙方需要根據(jù)當前時刻的狀態(tài)選擇合適的信道、發(fā)射功率和通信波形實現(xiàn)正常通信,考慮信道切換、改變發(fā)射功率以及調(diào)制方式和碼率對系統(tǒng)整體性能的影響。信道切換代價,表示后一時隙選擇的通信信道與當前時隙的通信信道不同時,由于通信鏈路的重建需要通信設備的穩(wěn)定和重建時間,因此進行信道切換會帶來系統(tǒng)性能損失;發(fā)射功率對系統(tǒng)性能影響表現(xiàn)在發(fā)射功率越大,通信系統(tǒng)的功耗也越大,對于通信設備的電源要求越高,并且不利于反偵察,因此產(chǎn)生的系統(tǒng)成本也越大;改變調(diào)制方式和碼率同時傳輸速率也會改變,傳輸速率對系統(tǒng)性能的影響一方面表現(xiàn)在傳輸速率越快,系統(tǒng)性能越好,另一方面速率越快通信成功的閾值也越高。因此,在未知且動態(tài)變化的干擾環(huán)境中,需要衡量信道切換、發(fā)射功率以及傳輸速率的綜合影響,選擇最優(yōu)策略來規(guī)避干擾,以最小的代價完成正常通信。
強化學習背景下的MDP過程通常采用狀態(tài)、動作、轉移概率、折扣因子和獎勵這五個元素描述,五個元素可以定義為一個五元組(S,A,P,γ,R)[16]。本文將點對點通信中未知干擾環(huán)境下發(fā)送機信道切換、功率控制和傳輸速率控制過程建模為一個MDP過程,在此模型中,狀態(tài)空間和動作空間均是離散的。具體的MDP模型建模如下:
(1)狀態(tài)空間
定義第k個時隙的狀態(tài)為sk=(fu,k,fj,k,pu,k,pj,k,vk),其中fu,k,fj,k∈{1,2,…,M},分別表示當前時隙的通信信道以及當前時隙干擾所在的信道,M為系統(tǒng)可用的總信道數(shù),pu.k∈Pu表示當前時隙的通信功率,pj,k∈Pj表示當前時隙的干擾功率,vk∈{v1,v2,v3,…,vN}表示當前時隙通信傳輸速率,所有可能的狀態(tài)s合集記為狀態(tài)空間S。
(2)動作空間
定義在第k個時隙用戶采取的動作為ak=(fu,k+1,pu,k+1,vk+1),其中fu,k+1∈{1,2,…,M},pu,k+1∈Pu,vk+1∈{v1,v2,v3,…,vN},表示第k+1 個時隙用戶選擇的通信信道、發(fā)射功率和傳輸速率,所有可能的動作a合集記為動作空間A,動作空間大小為M×L×N。
(3)狀態(tài)轉移概率
狀態(tài)轉移概率記為P:S×A×S→[0,1],表示給定狀態(tài)sk∈S下選擇動作ak∈A并轉移到下一狀態(tài)sk+1∈S的概率,假設狀態(tài)轉移概率為確定值。
(4)折扣因子
折扣因子0 <γ≤1,表示未來收益對當前收益的重要程度。
(5)獎勵函數(shù)
當用戶在sk狀態(tài)執(zhí)行動作ak時,會獲得相應的獎勵值rk,獎勵合集定義為R。這里定義第k個時隙的信干噪比(SINR,Signal to Interference plus Noise Ratio)為:
其中0 ≤β≤1,表示干擾功率在接收端的衰減因子,μ為信道增益。
即如果通信信道受到干擾,則φ(·)為1;否則為0。當SINR ≥Th時,表示當前通信成功;否則表示當前通信失敗,其中Th表示根據(jù)實際應用所選擇的最小SINR 門限值,門限值與當前傳輸速率相關,圖2是信干噪比門限和傳輸速率對應關系示意圖。
圖2 傳輸速率和信干噪比門限關系Fig.2 Relationship with transmission rate and signal to interference plus noise ratio threshold
設信道切換代價為Ch,功率代價為pu,max表示最大發(fā)射功率,將相應的獎勵值rk定義為:
在學習過程中,用戶不斷與環(huán)境交互,探索干擾的變化規(guī)律,從而獲得最優(yōu)的傳輸策略。在執(zhí)行階段,根據(jù)狀態(tài)信息和學習到的策略快速執(zhí)行。本文的系統(tǒng)目標是優(yōu)化用戶的傳輸策略π:S×A→[0,1],使系統(tǒng)的折扣收益期望η(π)最大:
其中E[?]為期望。
強化學習算法中基于值函數(shù)網(wǎng)絡采用狀態(tài)-動作值函數(shù)來評價智能體在某一狀態(tài)下選擇某一動作的好壞:
Q-Learning 算法求解MDP 模型的主要思路是將狀態(tài)和動作構建成一張二維Q 表,學習過程中利用這張二維表格存儲Q 值,然后根據(jù)Q 值來選取能夠獲得最大收益的動作。Q 表中的元素即Q(s,a),表示在某一時隙的s狀態(tài)下(s∈S),采取動作a(a∈A)后能夠得到的累計獎勵值的期望。在第k個時隙的狀態(tài)s下采取動作a,更新的Q函數(shù)為[17-18]
其中,sk,ak分別表示當前的動作和狀態(tài),α∈(0,1]表示學習率,γ∈(0,1]表示折扣因子,rk代表在sk狀態(tài)執(zhí)行動作ak時獲得的獎勵值。Qk(sk,ak)為當前的Q值,Qk+1(sk,ak)則表示更新后的Q值。maxaQk(sk+1,a)表示下一個狀態(tài)所有Q值中的最大值。
在基于Q-Learning 的選擇策略中,如果用戶總是選擇Q 值對應最大的動作,算法容易陷入局部最優(yōu),因此可以采用貪婪策略選擇動作。在貪婪選擇動作的過程中,產(chǎn)生一個[0,1]的隨機數(shù)pr,如果該數(shù)小于ξ,則隨機采取一個動作,否則選擇Q 值最大對應的動作。貪婪策略定義如下:
ξ的值隨著智能體對Q 表探索的逐漸完整而逐漸減小。
基于Q-Learning 的功率、信道傳輸速率選擇策略具體步驟如算法1所示。
Q-Learning 算法需要搜索整個狀態(tài)空間,由于系統(tǒng)模型中動作空間和狀態(tài)空間數(shù)值較大,因此算法收斂速度慢。在實際無線通信場景中,很難預知干擾的動態(tài)變化情況。因此,本文進一步提出了一種基于深度強化學習的PPO-Clip算法。
(1)策略梯度
定義值函數(shù)Vπ,用于評價策略網(wǎng)絡中智能體某一動作的好壞,定義優(yōu)勢函數(shù)Aπ:
策略梯度算法的優(yōu)化目標是找到最優(yōu)的神經(jīng)網(wǎng)絡參數(shù)θ?使得關于軌跡的期望優(yōu)勢最大,目標函數(shù)構造如下:
策略梯度法的原理是計算出某一策略的梯度估計值,將這個估計值代入隨機梯度上升算法,通過對目標函數(shù)的微分得到估計量,梯度估計量計算表達式如下:
其中πθ是一個隨機策略是在一個時隙k上優(yōu)勢函數(shù)的估計,表示在抽樣和優(yōu)化之間交替的算法中,有限批樣本的經(jīng)驗平均。最后對參數(shù)進行更新如下:
(2)演員-評論家算法
演員-評論家算法(Actor-Critic)框架融合了基于值函數(shù)估計與基于策略搜索的算法,集成二者的優(yōu)點而廣泛應用于深度強化學習算法中,是解決強化學習最??紤]的算法,算法框圖如圖3 所示。AC框架包含兩個部分,Actor網(wǎng)絡采用的是基于策略的策略梯度算法,通常使用時間差分誤差TDerror來評價策略值:
圖3 演員-評論家算法框圖Fig.3 Framework of Actor-Critic algorithm
此時損失函數(shù)可以表示為
Critic 網(wǎng)絡采用的是基于值函數(shù)的Q-Learning算法損失函數(shù)表示為:
該算法解決了基于值函數(shù)求解方法的高偏差和基于策略求解方法的高方差問題,即設計一個智能體既能直接輸出策略又能通過值函數(shù)評價當前策略的優(yōu)劣。引用深度學習中的深度網(wǎng)絡來擬合輸出的值函數(shù)和策略,隨著不斷更新迭代,策略會越來越接近最優(yōu),值函數(shù)評價也會更加準確。
(3)PPO-Clip算法
本文采用一種基于目標剪裁的近端區(qū)域策略梯度算法(PPO-Clip)是演員-評論家算法的一種改進算法。進行策略網(wǎng)絡的優(yōu)化時,步長過小,則會導致訓練速度過慢,且無法充分利用采樣數(shù)據(jù),造成訓練的低效。但如果步長過大,策略網(wǎng)絡容易進行過大程度的參數(shù)更新,反而造成策略變差,并且在較差的策略下進行采樣,又會帶來較差的采樣數(shù)據(jù),造成訓練的崩潰。PPO-Clip 算法采用的目標函數(shù)可以在多回合訓練中以小數(shù)量樣本迭代更新,解決了策略梯度算法中步長難以確定和策略更新差異過大的問題。新策略可以使用從舊策略中采樣出的樣本來進行更新,設置優(yōu)化目標為:
其中rk(θ)表示新舊策略的比值:
若新舊策略差異過大,則對優(yōu)勢函數(shù)進行剪裁:
剪裁函數(shù):
ε為超參數(shù),表示剪裁比例,剪裁函數(shù)的作用是限制新舊策略之間的差異不要過大。
PPO-Clip算法具體框架如圖4所示。
圖4 PPO-Clip算法框架Fig.4 Framework of PPO-Clip algorithm
采用PPO-Clip 算法,復雜度高,但是算法收斂性能好,在實際規(guī)避干擾的過程中,能夠實時進行決策而不受環(huán)境動態(tài)變化的影響,在應對復雜多變干擾時能展現(xiàn)出更好的適應性。
為了對系統(tǒng)性能進行評估,仿真過程中在每50個時隙內(nèi)累積并統(tǒng)計一次獎勵值。具體仿真參數(shù)如表1及表2所示。
表1 仿真參數(shù)Tab.1 Simulation parameters
表2 歸一化傳輸速率和參考門限Tab.2 Normalized transfer rate and reference threshold
為設置合適的PPO-Clip 算法學習率,對三種常用的學習率進行了仿真分析,具體的累積獎勵曲線如圖5所示。由圖5可知,當學習率為0.01時,算法收斂慢,且收斂曲線出現(xiàn)較大波動,在300個epoch結束時,獎勵收斂到20左右,可見在此情況下系統(tǒng)性能較低。當學習率為0.001時算法收斂速度有所提升,但是隨著學習的進行到200個epoch之后,出現(xiàn)了獎勵下降的過程。學習率為0.01和0.001時都出現(xiàn)了不同程度的獎勵波動和下降,可能是由于學習率較大,容易受到輸出誤差或樣本池中的異常數(shù)據(jù)的影響。當學習率為0.0001時,獎勵曲線上升趨勢明顯,且獎勵收斂到較大的數(shù)值,隨著時隙增加系統(tǒng)性能穩(wěn)定。因此后續(xù)仿真中均采用0.0001的學習率。
圖5 不同的參數(shù)對PPO-Clip算法性能影響Fig.5 The effect of different parameters on the performance of PPO-Clip algorithm
利用圖表詳細展示了PPO-Clip 算法在掃頻干擾下20個時隙的決策結果,決策結果主要包括信道切換、功率控制和調(diào)制編碼選擇。
如圖6 所示,針對掃頻干擾這種典型干擾場景進行了時隙信道切換GUI展示。設置6個頻率不重疊的通信信道,圖中縱坐標表示信道編號,橫坐標代表時隙編號。紅色代表當前時隙存在干擾的信道,顏色越深干擾功率越大,假設掃頻干擾的周期為3,每個時隙存在2 個信道干擾,下圖所展示的周期性干擾信道為(4,2;5,1;6,3)。藍色代表當前時隙的通信信道,白色部分代表當前時隙的空閑信道。黃色表示當前時隙下干擾和通信存在于同一信道中,且通信成功(即SINR 值小于當前時隙門限值)。表3 對應圖6 所示20 個時隙PPO-Clip 算法的干擾規(guī)避決策。由下圖可知,在第2、11、17 和18 個時隙,雖然通信被干擾,但是通過調(diào)整功率和調(diào)制方式以及碼率仍能實現(xiàn)成功通信。
圖6 掃頻干擾環(huán)境下系統(tǒng)時頻圖Fig.6 System time-frequency plot in a sweep interference environment
表3 干擾規(guī)避決策結果示例Tab.3 Example of interference avoidance decision results
為進一步驗證所提PPO-Clip 算法的性能,在掃頻干擾、隨機掃頻干擾和智能阻塞干擾這三種典型干擾場景下,將PPO-Clip 算法、Q-Learning 算法以及隨機策略進行仿真分析對比。圖7給出了三種典型干擾場景下的算法累積獎勵曲線。
圖7 不同干擾環(huán)境下累積獎勵曲線Fig.7 The cumulative reward curve under different interference environments
(1)掃頻干擾
設置干擾掃頻周期為3,每個時隙存在兩個干擾信道,干擾功率隨機。如圖7(a)所示。隨機策略50 個時隙的累積獎勵在-20 左右波動,且獎勵不收斂。PPO-Clip 算法和Q-Learning 算法均優(yōu)于隨機策略。可以觀察到PPO-Clip 比Q-Learning 收斂速度更快,Q-Learning 算法在150 個epoch 達到收斂,PPO-Clip 算法在第50 個epoch 達到收斂,說明在應對未知干擾時PPO-Clip 算法能夠更快速的學習干擾規(guī)律并適應環(huán)境,采取最優(yōu)策略使用戶完成有效通信。在算法收斂后,PPO-Clip 算法的性能也要明顯高于Q-Learning 性能。Q-Learning 累積獎勵數(shù)值收斂在37 左右,PPO-Clip 累積獎勵數(shù)值收斂在43 左右。由仿真結果可知,PPO-Clip 比QLearning 可以獲得更快的收斂速度,且性能優(yōu)于QLearning,但在獎勵數(shù)值上差別不是很大。對于干擾規(guī)律固定的環(huán)境,PPO-Clip 收斂快,且獎勵性能好,Q-Learning 收斂慢,但是獎勵性能和PPO-Clip差距小。
(2)隨機掃頻干擾
隨機掃頻每個時隙干擾兩個信道,從第一個時隙開始按隨機順序對6 個通信信道進行掃頻干擾,三個時隙后遍歷整個通信信道集合并切換掃頻的順序。如圖7(b)所示,在隨機掃頻干擾場景下,由于隨機掃頻的隨機性更強,PPO-Clip 算法收斂速度明顯高于其他兩種算法,并且在算法收斂后,PPOClip 累積獎勵數(shù)值收斂在43.4 左右,明顯高于其他兩種算法。
(3)智能阻塞干擾
假設干擾機具有一定感知能力,能獲取上一時隙的通信信道。每個時隙干擾機干擾兩個信道,其中一個為上一時隙的通信信道,另一個在除上一時隙通信信道外的其他5 個信道內(nèi)隨機選擇,干擾功率隨機。如圖7(c)所示,在智能阻塞干擾場景下,Q-Learning 算法和隨機策略的性能進一步下降,而PPO-Clip 算法的性能卻有所提升,這是由于PPOClip 算法,能夠分析利用干擾信道規(guī)律做出更合理的決策。
由仿真結果可知,在三種典型干擾場景下,PPO-Clip 算法的性能均優(yōu)于其他兩種算法。在應對干擾規(guī)律相對簡單的掃頻干擾時,基于深度強化學習的PPO-Clip 算法與基于強化學習的Q-Learning算法的性能差距較小。在應對干擾規(guī)律復雜的隨機掃頻干擾、智能阻塞干擾時,PPO-Clip 算法性能明顯優(yōu)于Q-Learning 算法,體現(xiàn)出了深度強化學習的優(yōu)勢。
表4 至表6 分別了比較不同算法的學習速度、數(shù)據(jù)效率、時間復雜度以及通信成功率。算法的學習速度用達到特定獎勵所花費的時間步長倒數(shù)表示,在本文仿真分析中,以獎勵到達10 所花費的時間步長倒數(shù)表示;數(shù)據(jù)效率用訓練智能體達到最佳性能所用數(shù)據(jù)量的倒數(shù)表示;時間復雜度用同樣條件下平均進行一次決策所需要的時長表示;通信成功率指通信成功的時隙占總時隙數(shù)的百分比。通過表4 至表6 可以看出,PPO-Clip 算法僅在時間復雜度方面略遜于Q-Learning 算法,但是在學習速度、數(shù)據(jù)效率和通信成功率方面均超過Q-Learning 算法,特別是在隨機掃頻干擾和智能阻塞干擾這種復雜智能干擾場景下,表現(xiàn)出優(yōu)秀的干擾規(guī)避性能。
表4 不同算法的學習速度Tab.4 The speed of different algorithms
表5 不同算法的數(shù)據(jù)效率和時間復雜度Tab.5 The data efficiency and time complexity of different algorithms
表6 不同算法的通信成功率Tab.6 The communication success rate of different algorithms
本文提出了一種基于深度強化學習的多域聯(lián)合干擾規(guī)避方法。以最大化系統(tǒng)收益為目標,利用PPO-Clip 算法構建了干擾規(guī)避模型,能夠有效提供結合發(fā)射功率控制、信道接入和調(diào)制編碼適變的多域聯(lián)合干擾規(guī)避決策。通過掃頻干擾、隨機掃頻干擾和智能阻塞干擾三種典型干擾場景驗證了所提算法的性能。本文初步探索了利用深度強化學習實現(xiàn)多域聯(lián)合干擾規(guī)避的方法,未來可以考慮利用DQN 等其他深度強化學習算法實現(xiàn)多域聯(lián)合干擾規(guī)避,或者利用多智能體深度強化學習實現(xiàn)多節(jié)點協(xié)同干擾規(guī)避。