宋佰霖, 許華, 蔣磊, 饒寧
(空軍工程大學(xué) 信息與導(dǎo)航學(xué)院, 陜西 西安 710077)
隨著戰(zhàn)場(chǎng)電磁環(huán)境日趨復(fù)雜以及電子戰(zhàn)技術(shù)的快速發(fā)展[1],軍用無(wú)線通信受到的威脅越來(lái)越大,提高通信抗干擾能力迫在眉睫,要想盡可能保證通信不受干擾,決策環(huán)節(jié)至關(guān)重要。
通信抗干擾過(guò)程是通信系統(tǒng)與干擾系統(tǒng)博弈的過(guò)程,由于博弈論解決決策問(wèn)題具有優(yōu)勢(shì)[2],基于博弈論的通信抗干擾決策和認(rèn)知無(wú)線電研究取得一定成果。這些研究主要基于前景理論[3]、 Stackelberg博弈[4]和隨機(jī)學(xué)習(xí)理論等[5]方法,從頻率、功率等[6-7]角度入手,通過(guò)構(gòu)建通信與干擾間的博弈模型,計(jì)算出最優(yōu)通信抗干擾策略。此類方法的特點(diǎn)在于通信方需要獲取干擾先驗(yàn)信息,通過(guò)數(shù)學(xué)推導(dǎo)得出結(jié)果。當(dāng)干擾先驗(yàn)信息未知時(shí),此類方法實(shí)現(xiàn)較為困難,不足以應(yīng)對(duì)干擾樣式不斷變化的情況。
近年來(lái),隨著對(duì)人工智能研究不斷深入,一些基于強(qiáng)化學(xué)習(xí)的通信抗干擾決策方法研究取得成果。這些研究從功率分配[8]、頻率選擇等[9-10]角度入手,綜合運(yùn)用模式識(shí)別[10]、多智能體決策等[11]領(lǐng)域知識(shí),設(shè)計(jì)基于強(qiáng)化學(xué)習(xí)的方法進(jìn)行決策。其中,文獻(xiàn)[10]通過(guò)信號(hào)時(shí)頻圖識(shí)別干擾樣式,將頻譜信息轉(zhuǎn)換為干擾樣式信息,根據(jù)不同干擾樣式分別決策通信頻率;文獻(xiàn)[11]提出一種基于Q-Learning算法的多智能體協(xié)同抗干擾算法,在掃頻干擾的情況下抵抗信道中的惡意干擾。此類決策方法最大優(yōu)勢(shì)在于能夠自動(dòng)學(xué)習(xí)干擾信號(hào)的規(guī)律和特點(diǎn),自主決策出當(dāng)前狀態(tài)下最優(yōu)的抗干擾策略,大幅度降低決策時(shí)間,提高決策準(zhǔn)確率。
在抗干擾決策過(guò)程中,改變通信頻率是經(jīng)常使用的一種有效手段,本文從通信頻率選擇角度入手,將通信抗干擾決策與深度強(qiáng)化學(xué)習(xí)方法相結(jié)合,提出動(dòng)態(tài)ε-DQN智能決策算法。利用能量檢測(cè)法[14]對(duì)各通信頻率是否存在干擾信號(hào)進(jìn)行檢測(cè),得到當(dāng)前回合的干擾判別信息,輸入決策算法,決策下一回合的通信頻率,并在干擾信號(hào)對(duì)準(zhǔn)的同時(shí)改變通信頻率,有效躲避干擾。在不同通信場(chǎng)景下進(jìn)行仿真實(shí)驗(yàn),并與已有方法的決策效果進(jìn)行對(duì)比,驗(yàn)證本文所提方法的有效性和適用性。
在通信場(chǎng)景中設(shè)置1個(gè)通信系統(tǒng)和1臺(tái)干擾機(jī),如圖1所示,通信系統(tǒng)由信號(hào)發(fā)射機(jī)、接收機(jī),干擾檢測(cè)模型和智能決策模型組成。
圖1 通信抗干擾智能決策方法的體系結(jié)構(gòu)
在信號(hào)傳輸過(guò)程中,用接收機(jī)的輸入信干比(RSIN)判定本次通信的被干擾程度,評(píng)估通信效果,RSIN可用(1)式表示。
(1)
式中:PS為信號(hào)發(fā)射機(jī)的發(fā)射功率;PJ為干擾機(jī)的發(fā)射功率;hS為信號(hào)發(fā)射天線增益與接收天線增益之積;hJ為干擾機(jī)發(fā)射天線與信號(hào)接收天線增益之積;LS和LJ分別為信號(hào)發(fā)射機(jī)和干擾機(jī)信號(hào)傳輸?shù)目臻g損耗,用(2)式表示,r為信號(hào)傳播距離。
(2)
為適應(yīng)本文研究的問(wèn)題模型,所計(jì)算的RSIN用(3)式表示[15],將(2)式帶入可得(4)式。
(3)
(4)
(5)
為多角度驗(yàn)證本文所提出決策算法的有效性和適應(yīng)性,設(shè)置2個(gè)通信場(chǎng)景。通信時(shí)間以回合為基準(zhǔn),每個(gè)回合進(jìn)行1次通信。
·場(chǎng)景1:每個(gè)回合僅選擇1個(gè)頻率進(jìn)行通信,共有NS個(gè)頻率可供選擇,該頻率上的信號(hào)功率為PS[11]。若信干比超過(guò)閾值qd,認(rèn)為當(dāng)前回合正常通信。
·場(chǎng)景2:基于跳頻通信體制,每個(gè)回合在一個(gè)頻率集上進(jìn)行通信,每個(gè)頻率集共有h個(gè)頻率,共有Nh個(gè)頻率集可供選擇,每個(gè)頻率上分配的信號(hào)功率為PS/h。若總信干比大于閾值qh,認(rèn)為當(dāng)前回合正常通信。
根據(jù)上述2種不同通信場(chǎng)景,設(shè)置2種有針對(duì)性的干擾模型。
在對(duì)場(chǎng)景1的干擾模型中,設(shè)置掃頻干擾、梳狀譜干擾和雙頻帶掃頻干擾[11]3種干擾樣式,每20個(gè)回合隨機(jī)切換1次。
·掃頻干擾:干擾機(jī)按照頻率大小順序順次干擾,每回合干擾固定帶寬Bk,帶寬內(nèi)分配的干擾功率為Pj。
·梳狀譜干擾:干擾機(jī)每回合選擇mj個(gè)干擾譜組成梳狀譜干擾,每個(gè)干擾譜帶寬為1 MHz,帶寬內(nèi)分配的干擾功率為Pj/mj。
·雙頻帶掃頻干擾:與掃頻干擾類似,干擾機(jī)在2個(gè)頻帶上作相反順序的掃頻干擾,每個(gè)干擾帶寬內(nèi)分配的干擾功率為Pj/2。
對(duì)場(chǎng)景2的干擾模型設(shè)置2種干擾模式,“偵察-干擾”模式和基于經(jīng)驗(yàn)的干擾模式,2種干擾樣式每100個(gè)回合隨機(jī)改變1次。
在“偵察-干擾”模式下,假設(shè)干擾機(jī)正在干擾頻率f0。從某時(shí)刻開始,干擾機(jī)對(duì)當(dāng)前通信頻率f1進(jìn)行偵察,偵察時(shí)的干擾頻率不變,仍為f0。經(jīng)過(guò)偵察時(shí)間T回合后,對(duì)偵察的頻率f1實(shí)施干擾。初始偵察時(shí)間為Tj回合,隨著對(duì)抗回合數(shù)增加,干擾機(jī)逐漸熟悉當(dāng)前通信體制,偵察時(shí)間逐漸減小,每增加100個(gè)回合,偵察時(shí)間減少1個(gè)回合,最短為Tjmin回合??紤]到偵察存在誤差的可能性,設(shè)置一個(gè)可信概率ph,有ph的可能干擾頻率與通信頻率完全相符;而有(1-ph)的可能存在部分頻率偵察錯(cuò)誤,與通信頻率不符。
在基于經(jīng)驗(yàn)的干擾模式下,干擾機(jī)選擇最近100個(gè)回合里出現(xiàn)次數(shù)最多的通信頻率進(jìn)行干擾。
圖2展示了這種模型下的通信和干擾狀態(tài),橫軸為頻率點(diǎn)數(shù),縱軸為時(shí)間回合數(shù)。綠色表示正常通信的頻率,藍(lán)色表示干擾成功的頻率,紅色表示干擾失敗的頻率。
圖2 通信場(chǎng)景2的信道狀態(tài)
根據(jù)信道內(nèi)頻率個(gè)數(shù)設(shè)置帶通濾波器,分別對(duì)不同頻率的信號(hào)進(jìn)行濾波,得到各個(gè)頻率上的信號(hào)功率Pn,設(shè)定一個(gè)檢測(cè)模型[14]
(6)
式中:y[n]表示某頻率上的信號(hào),在不考慮外界環(huán)境噪聲的情況下,它有3種可能的組成方式:無(wú)信號(hào),即y[n]=0;只有通信信號(hào)s[n];通信信號(hào)s[n]和干擾信號(hào)j[n]共同組成。
計(jì)算每個(gè)頻率的信號(hào)能量D(y),用(7)式表示[14]。設(shè)置門限值λ,對(duì)能量進(jìn)行判別,若高于λ,則認(rèn)為該頻率屬于檢測(cè)模型中的H3,即存在干擾信號(hào);否則屬于檢測(cè)模型中的H1或H2,即不存在干擾信號(hào)。將每個(gè)頻率是否存在干擾信號(hào)的判別信息作為信道狀態(tài),輸入智能決策模型。
(7)
智能決策模型將接收到的信道狀態(tài)輸入動(dòng)態(tài)ε-DQN智能決策算法,根據(jù)當(dāng)前回合的干擾頻率,給出下一回合通信頻率,輸出決策模型。效能評(píng)估模塊根據(jù)信道狀態(tài)和決策結(jié)果,給出決策獎(jiǎng)勵(lì)值,傳回算法,引導(dǎo)算法訓(xùn)練更新。
強(qiáng)化學(xué)習(xí)離不開智能體和環(huán)境2個(gè)基本條件,智能體作為動(dòng)作執(zhí)行者,與環(huán)境交互,獲取所需信息,推動(dòng)算法的訓(xùn)練更新。解決強(qiáng)化學(xué)習(xí)問(wèn)題一般有5個(gè)關(guān)鍵要素:動(dòng)作空間A,狀態(tài)空間S,即時(shí)獎(jiǎng)勵(lì)r(s,a),轉(zhuǎn)移概率空間P和策略π。
當(dāng)轉(zhuǎn)移概率空間P未知時(shí),無(wú)法預(yù)測(cè)智能體與環(huán)境的交互情況,這種強(qiáng)化學(xué)習(xí)被稱為無(wú)模型的強(qiáng)化學(xué)習(xí),解決此類問(wèn)題的傳統(tǒng)算法是Q-Learning算法。該算法建立一個(gè)Q表,用表格的形式來(lái)存儲(chǔ)每個(gè)狀態(tài)-動(dòng)作價(jià)值Q(s,a),Q(s,a)的計(jì)算過(guò)程可用(8)式表示。
Q(s,a)=
Q(s,a)+α(r(s,a)+γmaxQ(s′,a′)-Q(s,a))
(8)
在算法訓(xùn)練階段,通常將ε-greedy策略作為策略π進(jìn)行訓(xùn)練更新。在該策略下,有1-ε的概率個(gè)體選擇Q值最大的動(dòng)作,有ε的概率隨機(jī)選擇動(dòng)作。
(9)
當(dāng)處理狀態(tài)、動(dòng)作空間較小的問(wèn)題時(shí),Q-Learning算法的效果較好,但當(dāng)處理狀態(tài)、動(dòng)作空間較大的問(wèn)題時(shí),搜索Q(s,a)值會(huì)耗費(fèi)大量時(shí)間,導(dǎo)致收斂速度降低,且算法很多時(shí)候不能探索到所有可能的動(dòng)作,收斂得到的策略π并非全局最優(yōu),此時(shí)該算法便不再合適。
2013年提出的DQN算法將圖像或大數(shù)據(jù)集等信息作為狀態(tài)s輸入神經(jīng)網(wǎng)絡(luò),再輸出動(dòng)作空間A中各個(gè)動(dòng)作對(duì)應(yīng)的Q(s,a)值,代替了Q表的運(yùn)行機(jī)制,巧妙解決了上述問(wèn)題。
本文提出動(dòng)態(tài)ε-DQN智能決策算法,運(yùn)算流程如圖3所示。在強(qiáng)化學(xué)習(xí)框架下,將算法所需基本元素定義如下:
圖3 智能決策算法運(yùn)算流程
1) 狀態(tài)空間:分別將每個(gè)頻率上的干擾判別信息用Sn表示,若無(wú)干擾信號(hào),Sn=1;若有干擾信號(hào),Sn=-1。將集合S=[S1,S2,…,Sn]作為狀態(tài)空間輸入算法。
2) 動(dòng)作空間:每個(gè)可選頻率An組成的集合A作為動(dòng)作空間。
3) 即時(shí)獎(jiǎng)勵(lì):以當(dāng)前回合信干比RSIN為基礎(chǔ),根據(jù)不同通信模型下的閾值q設(shè)置獎(jiǎng)勵(lì)函數(shù)。當(dāng)RSIN (10) 傳統(tǒng)的ε-greedy策略有固定的ε概率隨機(jī)選擇動(dòng)作,使算法在任何回合的隨機(jī)性相同。然而算法在起始階段和收斂階段需要的隨機(jī)性不同,固定的ε值會(huì)導(dǎo)致算法向局部最優(yōu)收斂且難以保持穩(wěn)定的收斂狀態(tài)。本文基于PHC算法[17],提出動(dòng)態(tài)ε策略,根據(jù)獎(jiǎng)勵(lì)值與回合數(shù)動(dòng)態(tài)調(diào)整ε值,使算法收斂到穩(wěn)定的全局最優(yōu)狀態(tài)。PHC算法在已知?jiǎng)幼鞲怕师?s,a)的條件下,根據(jù)價(jià)值Q動(dòng)態(tài)調(diào)整概率,盡可能提高最大Q值所對(duì)應(yīng)動(dòng)作的概率。 π(s,a)←π(s,a)+Δsa (11) 式中 當(dāng)選擇Q值最大的動(dòng)作時(shí),也相應(yīng)增大該動(dòng)作的概率值;當(dāng)選擇其他動(dòng)作時(shí),則相應(yīng)減小該動(dòng)作的概率值。本文結(jié)合PHC算法的動(dòng)態(tài)調(diào)整方式,將ε初始值設(shè)置為1,算法每迭代一個(gè)回合,ε值動(dòng)態(tài)調(diào)整1次,直至ε值為0。若r≤0,說(shuō)明上一回合決策失敗,則將ε值減小,增加其選擇最優(yōu)動(dòng)作的概率,減小策略的隨機(jī)性,加速算法收斂;若r>0,說(shuō)明上一回合決策成功,則不改變?chǔ)胖?使策略繼續(xù)保持原有隨機(jī)性。動(dòng)態(tài)ε策略可用(15)式表示,在0~1內(nèi)隨機(jī)生成數(shù)x,若x≤1-ε,則選擇Q值最大的動(dòng)作;若x>1-ε,則隨機(jī)選擇動(dòng)作。 (14) (15) 這里引入一種經(jīng)驗(yàn)回放機(jī)制[18],把最近回合的經(jīng)驗(yàn)e= 定義誤差函數(shù)L(θ),由(16)式表示。對(duì)參數(shù)θn作梯度下降計(jì)算,以更新估值神經(jīng)網(wǎng)絡(luò)。每經(jīng)過(guò)L個(gè)回合,將估值神經(jīng)網(wǎng)絡(luò)的權(quán)值參數(shù)賦給目標(biāo)神經(jīng)網(wǎng)絡(luò),使2個(gè)網(wǎng)絡(luò)參數(shù)相同,這樣就不必實(shí)時(shí)更新目標(biāo)價(jià)值,減小了對(duì)目標(biāo)價(jià)值選取的相關(guān)性。 (16) 本文基于動(dòng)態(tài)ε-DQN提出的智能決策算法,設(shè)置初始通信頻率為A0,算法根據(jù)當(dāng)前回合的狀態(tài)St,決策下一回合的通信頻率At+1。設(shè)置經(jīng)驗(yàn)池大小為NE,選取的經(jīng)驗(yàn)樣本大小為NB。此時(shí),估計(jì)價(jià)值和目標(biāo)價(jià)值分別為Q(St,At+1;θ)和Q(St,At+1;θ-),(16)式可寫為 L(θ)= [r(St,At+1)+γmaxQ(St+1,At+2;θ-)- Q(St,At+1;θ)]2 (17) 神經(jīng)網(wǎng)絡(luò)參數(shù)更新的過(guò)程可分別用(18)、(19)式表示。 θ←θ-[r(St,At+1)+γmaxQ(St+1,At+2;θ-)- Q(St,At+1;θ)]Q(St,At+1;θ) (18) θ-←θ,t=nL(n=1,2,…) (19) 算法動(dòng)態(tài)ε-DQN智能決策算法 1) 分別建立2個(gè)神經(jīng)網(wǎng)絡(luò):權(quán)值參數(shù)為θ的估值神經(jīng)網(wǎng)絡(luò)和權(quán)值參數(shù)為θ-的目標(biāo)神經(jīng)網(wǎng)絡(luò) 2) 隨機(jī)初始化權(quán)值參數(shù)θ,令θ-=θ 3) 初始化選擇通信頻率作為初始動(dòng)作A0,設(shè)置總回合數(shù)Z 4)t≤Z時(shí),重復(fù)執(zhí)行步驟5)~13); 5) 獲得信道狀態(tài)集合St 6) 按照(14)式計(jì)算ε 7) 根據(jù)動(dòng)態(tài)ε策略選擇下一回合通信頻率At+1 8) 按照通信頻率At+1進(jìn)行信號(hào)傳輸 9) 獲得即時(shí)獎(jiǎng)勵(lì)r(St,At+1) 10) 獲得下一回合的信道狀態(tài)集合St+1 11) 將經(jīng)驗(yàn)樣本et= 12) 從經(jīng)驗(yàn)池中隨機(jī)選取經(jīng)驗(yàn)樣本NB個(gè),代入到(15)式中更新估值神經(jīng)網(wǎng)絡(luò)的參數(shù)θ 13) 每L個(gè)回合,令θ-=θ,使目標(biāo)神經(jīng)網(wǎng)絡(luò)與估值神經(jīng)網(wǎng)絡(luò)參數(shù)相同 14)t>Z時(shí),執(zhí)行完畢 算法中神經(jīng)網(wǎng)絡(luò)使用全連接網(wǎng)絡(luò),激活函數(shù)設(shè)置為ReLU。將狀態(tài)集合中的各個(gè)元素作為輸入層的各個(gè)元素,其神經(jīng)元個(gè)數(shù)為狀態(tài)集合St中的元素個(gè)數(shù)NS;神經(jīng)元個(gè)數(shù)為動(dòng)作集合At+1中的元素個(gè)數(shù)NA;n個(gè)全連接層神經(jīng)元個(gè)數(shù)均為NF,總的神經(jīng)元個(gè)數(shù)為(NS+NA+nNF)。 該算法計(jì)算復(fù)雜度與神經(jīng)網(wǎng)絡(luò)有關(guān),輸入層有NS個(gè)神經(jīng)元,那么第1個(gè)隱藏層有NSNF個(gè)權(quán)重,第n-1個(gè)隱藏層有NF2個(gè)隱藏層,輸出層共有NANF個(gè)權(quán)重,則整個(gè)神經(jīng)網(wǎng)絡(luò)共有NF(NS+(n-1)NF+NA)個(gè)權(quán)重。那么算法每一次迭代的復(fù)雜度可用(20)式表示。 Ο(NF(NS+(n-1)NF+NA)) (20) 本小節(jié)將干擾判別信息和干擾樣式信息分別作為算法輸入,對(duì)比動(dòng)態(tài)ε-DQN算法、文獻(xiàn)[10]中的M-RL決策算法和隨機(jī)決策算法的決策效果,表1為設(shè)定的模型參數(shù)。 表1 模型參數(shù)設(shè)置 根據(jù)文獻(xiàn)[10],共有5個(gè)通信頻率可供選擇,每個(gè)帶寬為1 MHz。掃頻干擾每個(gè)回合掃頻帶寬為200 kHz;梳狀譜干擾每個(gè)回合在第1、第3和第5個(gè)頻率設(shè)置共有3個(gè)干擾譜的干擾,即mj=3,信干比的閾值qd=0.9。 設(shè)置估值神經(jīng)網(wǎng)絡(luò)和目標(biāo)神經(jīng)網(wǎng)絡(luò)均包括輸入層、1個(gè)隱藏層和輸出層。若干擾模型采用掃頻干擾,其掃頻帶寬小于通信信號(hào)帶寬,為體現(xiàn)干擾狀態(tài),以掃頻干擾帶寬為準(zhǔn)設(shè)置輸入層神經(jīng)元數(shù)量,為5×(1 MHz/200 kHz)=20個(gè),其余2層神經(jīng)元個(gè)數(shù)分別為16和5。 圖4所示為輸入干擾判別信息時(shí),3種決策算法10 000個(gè)回合下每百回合平均決策成功率對(duì)比。動(dòng)態(tài)ε-DQN算法在前2 000個(gè)回合的決策成功率略低于M-RL算法,這是由于算法采用動(dòng)態(tài)ε策略,收斂前的隨機(jī)性較強(qiáng),導(dǎo)致成功率相對(duì)較低。隨著隨機(jī)性減弱,在2 500個(gè)回合后,動(dòng)態(tài)ε-DQN算法的決策成功率逐漸收斂到100%,表現(xiàn)出優(yōu)于其他2種算法的決策效果。 圖5所示為輸入干擾樣式信息時(shí),3種算法的平均決策成功率對(duì)比。與圖4類似,動(dòng)態(tài)ε-DQN算法在5 000回合左右達(dá)到收斂,成功率穩(wěn)定在98%以上,但由于算法的隨機(jī)性,在收斂前其決策成功率低于M-RL算法。綜合圖6與圖7可以看出,動(dòng)態(tài)ε-DQN算法在收斂后的決策成功率高于M-RL算法,其決策效果更好。 圖4 輸入干擾判別信息的算法平均決策成功率對(duì)比 圖5 輸入干擾樣式信息的算法平均決策成功率對(duì)比 圖6 不同輸入信息的算法平均決策成功率對(duì)比 圖6所示為算法分別輸入干擾判別信息和干擾樣式信息的平均決策成功率對(duì)比。從圖中可以看出,由于輸入干擾樣式信息時(shí),需要對(duì)不同干擾樣式所對(duì)應(yīng)的決策網(wǎng)絡(luò)進(jìn)行訓(xùn)練,導(dǎo)致其收斂速度變慢;相比于輸入干擾樣式信息,輸入干擾判別信息的算法收斂后決策成功率更高,穩(wěn)定在100%。如果是一種未知的干擾信號(hào),將無(wú)法識(shí)別其干擾樣式,而干擾判別信息從能量角度入手檢測(cè),不存在上述問(wèn)題,所以結(jié)合圖6,輸入干擾判別信息的方法適應(yīng)性更強(qiáng),決策效果更優(yōu)。 表2給出了輸入不同信息時(shí),2種智能決策算法10 000回合內(nèi)的決策時(shí)間對(duì)比。無(wú)論輸入何種信息,動(dòng)態(tài)ε-DQN算法決策速度均更快,且輸入干擾判別信息的算法決策速度最快,僅需15.48 s。 表2 10 000回合決策時(shí)間對(duì)比 s 圖7展示了分別采用動(dòng)態(tài)ε策略和不同ε值的ε-greedy策略時(shí),算法的決策成功率對(duì)比。可以看出隨著ε值不斷增大,算法采用ε-greedy策略收斂后的平均成功率不斷減小,而采用動(dòng)態(tài)ε策略的算法平均成功率穩(wěn)定在100%,這說(shuō)明相比于采用ε-greedy策略,動(dòng)態(tài)ε策略既提高了算法的收斂能力,又提高了算法的決策成功率。 圖7 不同ε值的算法決策成功率對(duì)比 由于動(dòng)態(tài)ε-DQN算法采用了動(dòng)態(tài)ε策略,其隨機(jī)性隨著迭代次數(shù)增加不斷降低,算法收斂后的決策成功率穩(wěn)定在最優(yōu)值上;而M-RL算法由于一直存在隨機(jī)性,其決策成功率在最優(yōu)值下方不斷波動(dòng),這使得動(dòng)態(tài)ε-DQN算法的決策成功率高于M-RL算法。 以輸入干擾判別信息為例,對(duì)2種智能決策算法的計(jì)算復(fù)雜度進(jìn)行比較。由(20)式可計(jì)算出當(dāng)前場(chǎng)景下動(dòng)態(tài)ε-DQN算法1次迭代的計(jì)算復(fù)雜度為O(400)。由于M-RL算法是基于Q-Learning的決策算法,所以M-RL算法是遍歷求解的,可用O(SA)表示其計(jì)算復(fù)雜度[19]。其中S為輸入算法的狀態(tài)總數(shù),A為可供算法選擇的動(dòng)作總數(shù),可計(jì)算得到當(dāng)前場(chǎng)景下算法的計(jì)算復(fù)雜度為O(205)。 雖然動(dòng)態(tài)ε-DQN算法的計(jì)算復(fù)雜度略高于M-RL算法,但由于神經(jīng)網(wǎng)絡(luò)各層之間通過(guò)矩陣計(jì)算能夠降低算法的時(shí)間復(fù)雜度,所以動(dòng)態(tài)ε-DQN算法的決策速度依然較快。 這一部分評(píng)估了動(dòng)態(tài)ε-DQN算法在更復(fù)雜的通信場(chǎng)景2下的性能。設(shè)置信道帶寬為60 MHz,共有60個(gè)頻率。有5個(gè)跳頻頻率集可供通信方選擇,每個(gè)頻率集共32個(gè)頻率,每個(gè)回合干擾機(jī)可干擾12個(gè)頻率。一般情況下,若頻率集中有30%的頻率被干擾,則認(rèn)為無(wú)法正常通信,基于此設(shè)置閾值qh=0.33;可信概率ph=0.8,最初的偵察時(shí)間Tj=20,最小偵察時(shí)間Tjmin=5。 設(shè)置估值神經(jīng)網(wǎng)絡(luò)和目標(biāo)神經(jīng)網(wǎng)絡(luò)均包括輸入層、2個(gè)隱藏層和輸出層,各層神經(jīng)元數(shù)量分別為60,42,42和5。 與通信場(chǎng)景1一樣,圖8展示了輸入干擾判別信息時(shí),3種算法的每百回合平均決策成功率。可以看出,雖然M-RL算法收斂較快,平均成功率在85%上下波動(dòng),但動(dòng)態(tài)ε-DQN算法的平均決策成功率更高,在3 000回合后平均成功率可達(dá)98%以上。 圖9所示為輸入干擾樣式信息時(shí),3種算法的平均決策成功率對(duì)比。動(dòng)態(tài)ε-DQN算法在4 000回合左右達(dá)到收斂,成功率穩(wěn)定在95%以上,綜合圖8與圖9可以看出,動(dòng)態(tài)ε-DQN算法在收斂后的成功率要高于M-RL算法,其決策效果更好。 圖8 輸入干擾判別信息的算法平均決策成功率對(duì)比 圖9 輸入干擾樣式信息的算法平均決策成功率對(duì)比 圖10 不同輸入信息的算法平均決策成功率對(duì)比 圖10所示為算法分別輸入干擾判別信息和干擾樣式信息時(shí),平均決策成功率對(duì)比。輸入干擾樣式信息的算法收斂后的決策成功率在90%~100%間波動(dòng),而輸入干擾判別信息的算法收斂速度更快且成功率穩(wěn)定在95%以上,決策效果更好。 表3顯示了動(dòng)態(tài)ε-DQN算法和M-RL算法在通信場(chǎng)景2下、輸入不同信息時(shí),10 000回合的決策時(shí)間,與通信場(chǎng)景1相比,2種算法的決策速度均有所減慢。但相比于M-RL算法,動(dòng)態(tài)ε-DQN算法的決策速度快70%以上,且輸入干擾判別信息時(shí)決策速度最快,僅需28.28 s。 表3 10 000回合決策時(shí)間對(duì)比 s 圖11展示了采用動(dòng)態(tài)ε策略和不同ε值的ε-greedy策略時(shí),算法決策成功率對(duì)比。與通信場(chǎng)景1類似,可以看出隨著ε值不斷增大,收斂后的平均成功率不斷減小,而采用動(dòng)態(tài)ε策略的算法平均成功率在3 000回合后,可達(dá)95%以上,再次證明了動(dòng)態(tài)ε策略較好的決策效果。 圖11 不同ε值的算法決策成功率對(duì)比 由于在該場(chǎng)景下干擾頻率不是固定的,會(huì)產(chǎn)生大量不同的狀態(tài),使得M-RL算法的訓(xùn)練不夠充分,在一些狀態(tài)下決策出的通信頻率不是最優(yōu)的;而動(dòng)態(tài)ε-DQN算法通過(guò)神經(jīng)網(wǎng)絡(luò)的擬合可以在任意干擾狀態(tài)下決策通信頻率,且保證準(zhǔn)確率較高。同時(shí),采用了動(dòng)態(tài)ε策略的動(dòng)態(tài)ε-DQN算法隨著迭代進(jìn)行,決策成功率將逐漸穩(wěn)定在最優(yōu)值上。 綜合2個(gè)通信場(chǎng)景的算法結(jié)構(gòu)和計(jì)算復(fù)雜度來(lái)看,模型越復(fù)雜,M-RL算法的決策效果越低于動(dòng)態(tài)ε-DQN算法。在復(fù)雜模型下,只要將動(dòng)態(tài)ε-DQN算法中的各類參數(shù)進(jìn)行優(yōu)化調(diào)整,就能夠解決當(dāng)前的決策問(wèn)題,雖然計(jì)算復(fù)雜度成倍增加,但算法仍然能夠較為快速、準(zhǔn)確地收斂到最優(yōu)狀態(tài)。 本文設(shè)計(jì)一種通信抗干擾智能決策方法,該方法基于DQN算法架構(gòu),提出動(dòng)態(tài)ε-DQN算法,將當(dāng)前回合的干擾判別信息作為輸入,決策下一回合的通信頻率以躲避干擾。 綜合2個(gè)典型通信場(chǎng)景下的仿真實(shí)驗(yàn)結(jié)果可分析得出,無(wú)論輸入何種干擾信息,動(dòng)態(tài)ε-DQN算法在收斂后的決策成功率均可達(dá)95%以上,當(dāng)輸入干擾判別信息時(shí),決策成功率能夠趨近100%;同時(shí)通過(guò)對(duì)比10 000回合的決策時(shí)間,可以發(fā)現(xiàn)動(dòng)態(tài)ε-DQN算法的決策速度遠(yuǎn)高于M-RL算法,當(dāng)模型越復(fù)雜時(shí),這種優(yōu)勢(shì)越顯著,綜合來(lái)看動(dòng)態(tài)ε-DQN算法的性能優(yōu)于M-RL算法。對(duì)比輸入不同干擾信息的算法可以得出,輸入干擾判別信息的算法無(wú)論決策成功率還是決策速度均優(yōu)于輸入干擾樣式信息的算法;由于干擾判別信息可直接通過(guò)干擾檢測(cè)法獲得,無(wú)需進(jìn)行模式識(shí)別等復(fù)雜的處理步驟,該種信息的獲取更容易且適應(yīng)性更強(qiáng),所以將干擾判別信息輸入決策算法可獲得事半功倍的效果。 綜合決策性能指標(biāo)來(lái)看,本文所提出的將干擾判別信息輸入動(dòng)態(tài)ε-DQN算法的決策方法決策成功率較高、速度較快,決策效果較其他方法有較大提升。存入經(jīng)驗(yàn)池E中,在更新權(quán)重值θ時(shí),隨機(jī)抽取部分經(jīng)驗(yàn)樣本進(jìn)行更新,以最大程度破除相鄰數(shù)據(jù)間的相關(guān)性并提高樣本利用率。3 實(shí)驗(yàn)與仿真分析
3.1 通信場(chǎng)景1
3.2 通信場(chǎng)景2
4 結(jié) 論