智永鋒,邱璐瑩*,張 龍,高紅崗,師浩博
(1. 西北工業(yè)大學(xué) 無人系統(tǒng)技術(shù)研究院, 陜西 西安 710072) (2. 西北工業(yè)大學(xué) 民航學(xué)院, 陜西 西安 710072)
隨著科技發(fā)展,大量無線電設(shè)備使用,造成了頻譜擁擠。2000年,文獻(xiàn)[1]提出了認(rèn)知無線電,把無線電賦予智能化,能夠智能響應(yīng)用戶的感知需求。2002年,聯(lián)邦通信委員會針對頻譜效率問題對認(rèn)知無線電做出定義。軟件無線電技術(shù)的完善,為認(rèn)知無線電研究打下了堅實基礎(chǔ)。雷達(dá)在戰(zhàn)爭發(fā)揮著重要作用,而戰(zhàn)場環(huán)境瞬息萬變,有其他電子設(shè)備干擾,有敵方干擾機(jī)干擾,還存在著環(huán)境雜波。為解決此類問題,需要推進(jìn)雷達(dá)智能化發(fā)展。2006年,文獻(xiàn)[2]提出了認(rèn)知雷達(dá)概念,讓雷達(dá)根據(jù)探測的環(huán)境情況,調(diào)整自身參數(shù),提高雷達(dá)檢測跟蹤能力。認(rèn)知雷達(dá)的提出,為人工智能理論用于雷達(dá)抗干擾指明了方向。文獻(xiàn)[3]提出了認(rèn)知雷達(dá)的感知-行動循環(huán),把感知數(shù)據(jù)作為記憶以預(yù)測未來環(huán)境進(jìn)行決策。文獻(xiàn)[4]把認(rèn)知雷達(dá)用于汽車?yán)走_(dá)的抗干擾,讓波形在測量周期內(nèi)自適應(yīng)地調(diào)整以達(dá)到抗干擾的目的。文獻(xiàn)[5]通過均衡契約的方式進(jìn)行頻譜共享,文獻(xiàn)[6]提出了軍用頻譜共享的框架。
本文將環(huán)境劃分為多個子頻段,用馬爾可夫模型對多雷達(dá)系統(tǒng)進(jìn)行建模,對掃頻干擾每一時刻占用頻段進(jìn)行建模。對雙深度Q網(wǎng)絡(luò)(Double DQN)強(qiáng)化學(xué)習(xí)算法進(jìn)行改進(jìn),與門控循環(huán)神經(jīng)網(wǎng)絡(luò)相結(jié)合,使之能處理依賴于長時間序列的干擾問題。提出了基于門控循環(huán)單元的深度確定性策略強(qiáng)化學(xué)習(xí)算法,其針對Double DQN強(qiáng)化學(xué)習(xí)中的網(wǎng)絡(luò)臃腫和行動集巨大問題進(jìn)行了改進(jìn)。最后,進(jìn)行了兩種網(wǎng)絡(luò)對于單雷達(dá)系統(tǒng)和多雷達(dá)系統(tǒng)的對比仿真實驗,證實了深度確定性策略梯度遞歸網(wǎng)絡(luò)能達(dá)到與雙深度遞歸Q網(wǎng)絡(luò)同樣的性能,但深度確定性策略梯度遞歸網(wǎng)絡(luò)的輸出維度更小,且兩算法都實現(xiàn)了多雷達(dá)系統(tǒng)的抗干擾及不對己方其他雷達(dá)造成干擾。
掃頻干擾是一種隨著時間變化而不斷改變頻率的干擾。掃頻干擾可以是一次占用一個頻帶也可以是一次占用多個頻帶,可以是頻帶每一時刻左移或右移一位或多位。將干擾所在頻帶抽象為二進(jìn)制符號,0代表此頻帶未被干擾占用,1則相反。例如,把300 MHz的頻段分為6段,則每一頻帶占用50 MHz,假設(shè)掃頻干擾每次占用100 MHz,每一時刻右移50 MHz,則其表示如圖1所示。
圖1 掃頻干擾示意圖
雷達(dá)包括有單雷達(dá)、多雷達(dá)系統(tǒng)。雷達(dá)系統(tǒng)中,雷達(dá)發(fā)射電磁波,電磁波碰到環(huán)境障礙物反射回來,形成回波信號,雷達(dá)接收回波信號。接收的信號不僅有反射的電磁波頻移信號,還有干擾。雷達(dá)大腦根據(jù)過去的經(jīng)驗,對當(dāng)前情況做出決策判斷,動態(tài)地根據(jù)歷史中不同情況下采取的決策而變化,使其能夠自適應(yīng)調(diào)整決策,應(yīng)對未知環(huán)境。雷達(dá)框架如圖2所示。
圖2 雷達(dá)系統(tǒng)框架
上述過程可以看作是一個馬爾可夫過程[7-8],雷達(dá)下一時刻做出的決策僅與當(dāng)前的環(huán)境狀態(tài)有關(guān),而與過去環(huán)境狀態(tài)無關(guān),可以用一個五元組(S,A,F,R,γ)來描述,其中
Ftn|t1…tn-1(sn|sn-1,an-1,…,s1,a1)=
Ftn|tn-1(sn|sn-1,an-1)
(1)
式中:S為狀態(tài)空間;A為動作空間;F為狀態(tài)轉(zhuǎn)移概率即環(huán)境變化函數(shù);R為獎勵函數(shù);γ為折扣因子。
在多雷達(dá)系統(tǒng)不僅存在著環(huán)境的干擾,還存在著周圍雷達(dá)的干擾。在本文中,將雷達(dá)作為智能體進(jìn)行研究,智能體檢測到環(huán)境狀態(tài)包括了外界干擾和其他雷達(dá)干擾的總和,即
Sit=It+At-1
(2)
多雷達(dá)有兩種方案,一種是多個系統(tǒng)共用一個大腦,還有一種是每個系統(tǒng)各有一個大腦。在實驗部分將對這兩種方案分別進(jìn)行表述。
強(qiáng)化學(xué)習(xí)主要是根據(jù)環(huán)境信息,智能體做出動作,環(huán)境對于智能體做出的動作進(jìn)行評估,反饋給智能體一個獎勵值。智能體根據(jù)環(huán)境反饋的獎勵情況調(diào)整自身的策略,根據(jù)下一時刻環(huán)境狀態(tài)做出動作,以此類推,如圖3所示。
圖3 強(qiáng)化學(xué)習(xí)基本模型
有學(xué)者提出了Q表格的方法,把環(huán)境狀態(tài)和行動量化成一個表格,智能體得到一個環(huán)境狀態(tài),做出一次行動,都在表格上填上相應(yīng)的獎勵值,這里獎勵值就相當(dāng)于Q值,如表1所示。
表1 Q表格
環(huán)境狀態(tài)數(shù)m的大小取決于環(huán)境狀態(tài)維度和每一維度下的取值個數(shù)。如果環(huán)境維度和取值個數(shù)較大,將會導(dǎo)致上述表格十分巨大,在程序運(yùn)行時,消耗巨大的內(nèi)存資源,時間復(fù)雜度高。于是有學(xué)者就提出了將神經(jīng)網(wǎng)絡(luò)用于智能體決策。對于神經(jīng)網(wǎng)絡(luò),輸入的大小等于環(huán)境狀態(tài)維度,輸出的大小等于行動個數(shù),智能體利用環(huán)境狀態(tài),經(jīng)過一系列前向神經(jīng)網(wǎng)絡(luò)運(yùn)算就可以得到每個行動的Q值,選擇最大的Q值作為本次行動,再通過環(huán)境的獎勵反饋給神經(jīng)網(wǎng)絡(luò)。
直接把獎勵作為訓(xùn)練方向的判斷會引起網(wǎng)絡(luò)的震蕩,使網(wǎng)絡(luò)不易收斂。在獎勵范圍大,變化劇烈情況下,這種直接的方法對于長期任務(wù)來說并不適用,通常需要考慮下一時刻的獎勵,對目標(biāo)Q值進(jìn)行軟更新。
(3)
在雷達(dá)系統(tǒng)中,雷達(dá)僅僅根據(jù)當(dāng)前的干擾環(huán)境狀態(tài),通常是無法判斷干擾的下一刻走向的。長短時記憶網(wǎng)絡(luò)即LSTM網(wǎng)絡(luò)通常用于語音識別、語義識別,它具有一定的記憶,可以通過過去一段時間的狀態(tài)推測現(xiàn)在的輸出。掃頻干擾與時間序列有關(guān),有必要結(jié)合語言識別中常用的LSTM網(wǎng)絡(luò),作為雷達(dá)智能體抗干擾的一部分,門控循環(huán)單元有LSTM網(wǎng)絡(luò)的優(yōu)點,網(wǎng)絡(luò)參數(shù)少,易于訓(xùn)練收斂,因此最終將門控循環(huán)單元加入了雷達(dá)智能體。針對雷達(dá)抗干擾方面,提出了下面兩種方法進(jìn)行對抗。
雙深度遞歸值網(wǎng)絡(luò)(GRU-DDQN)由雙深度強(qiáng)化學(xué)習(xí)(Double DQN)網(wǎng)絡(luò)進(jìn)化而來[9]。Double DQN采用神經(jīng)網(wǎng)絡(luò)取代Q值表格,防止了環(huán)境狀態(tài)數(shù)過大;建立了兩個網(wǎng)絡(luò),一個用于計算當(dāng)前Q值,一個用于計算下一狀態(tài)Q′值,兩個網(wǎng)絡(luò)不完全一樣,Q值網(wǎng)絡(luò)一種在更新,而Q′網(wǎng)絡(luò)只有在運(yùn)行一定步數(shù)后,把Q值網(wǎng)絡(luò)復(fù)制過來,這樣兩個網(wǎng)絡(luò)有延遲,可以防止估計的Q值過大而引起網(wǎng)絡(luò)的不穩(wěn)或網(wǎng)絡(luò)估計的失真的問題。網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。
圖4 Double DQN強(qiáng)化學(xué)習(xí)架構(gòu)
由于Double DQN具有無后向性,無法學(xué)習(xí)與時序狀態(tài)有關(guān)的行動策略,為了使智能體能處理依賴于長時間序列的干擾問題,提出了循環(huán)神經(jīng)網(wǎng)絡(luò)與深度強(qiáng)化學(xué)習(xí)相結(jié)合的方法。循環(huán)神經(jīng)網(wǎng)絡(luò)主要是用于序列數(shù)據(jù)的處理[10],在強(qiáng)化學(xué)習(xí)中加入循環(huán)神經(jīng)網(wǎng)絡(luò)可以使雷達(dá)做出抗干擾性能更好的決策。循環(huán)神經(jīng)網(wǎng)絡(luò)中的門控循環(huán)單元網(wǎng)絡(luò)(GRU)有長短時記憶循環(huán)網(wǎng)絡(luò)(LSTM)的優(yōu)點[11-13],解決了長期依賴的梯度爆炸問題和梯度消失問題,又減少了網(wǎng)絡(luò)參數(shù),加快訓(xùn)練和收斂速度。
本文把頻譜分割成五個頻段,網(wǎng)絡(luò)的輸入是5×5大小的,網(wǎng)絡(luò)的輸出大小為1×15。根據(jù)行動、獎勵和價值估算,計算出與神經(jīng)網(wǎng)絡(luò)輸出值相對應(yīng)的價值Q,通過最小化Q與目標(biāo)y之間的差或者均方差,即最小化損失函數(shù),來更新網(wǎng)絡(luò)權(quán)重。網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。
圖5 GRU-DDQN強(qiáng)化學(xué)習(xí)架構(gòu)
當(dāng)行動的數(shù)目太多時,網(wǎng)絡(luò)變得難以訓(xùn)練或收斂。為了解決這個問題,提出了基于深度確定性策略門控循環(huán)強(qiáng)化學(xué)習(xí)(GRU-DDPG),主要是將基于值學(xué)習(xí)的方法變?yōu)榛诓呗缘姆椒?將門控循環(huán)單元網(wǎng)絡(luò)與深度確定性策略梯度強(qiáng)化學(xué)習(xí)(DDPG)項結(jié)合。策略梯度更新公式為
(4)
式中:θ是神經(jīng)網(wǎng)絡(luò)模型參數(shù);U(θ)是參數(shù)為θ下的期望獎勵;θU(θ)則是對期望獎勵函數(shù)中的參數(shù)θ進(jìn)行求導(dǎo);T為智能體完成一個序列的長度;m為訓(xùn)練數(shù)據(jù)的輪次大小;為在時刻t,第i輪中采取的動作;為在時刻t,第i輪中的環(huán)境狀態(tài);為策略函數(shù);為在狀態(tài)下的獎勵;為時間t以后的折扣累計獎勵,γ為折扣因子。
深度確定性策略門控循環(huán)強(qiáng)化學(xué)習(xí)[14]的網(wǎng)絡(luò)輸入層是GRU網(wǎng)絡(luò)層,一共有四個神經(jīng)網(wǎng)絡(luò),一個用于決定當(dāng)前時刻下的環(huán)境狀態(tài)做出的行動,一個是用于預(yù)測下一狀態(tài)下的行動,一個用于評價當(dāng)前狀態(tài)和行動的價值,一個用于評價下一狀態(tài)和預(yù)測的行動的價值。其算法結(jié)構(gòu)如圖6所示。
圖6 GRU-DDPG網(wǎng)絡(luò)結(jié)構(gòu)
目標(biāo)y的計算公式如下
y=Qtarget=R+γQ′
(5)
式中:Qtarget為目標(biāo)值;R為環(huán)境獎勵;γ為折扣因子;Q′估計下一時刻的評估值。
評估神經(jīng)網(wǎng)絡(luò)critic網(wǎng)絡(luò)輸入是當(dāng)前狀態(tài)和動作,輸出對于當(dāng)前狀態(tài)動作的評估值,其更新是通過最小化目標(biāo)評估值和評估值直接差距來梯度反向傳播,更新網(wǎng)絡(luò)。動作神經(jīng)網(wǎng)絡(luò)actor網(wǎng)絡(luò)的更新是通過最大化評估值Q來實現(xiàn)。估計動作神經(jīng)網(wǎng)絡(luò)actor′網(wǎng)絡(luò)和估計評分神經(jīng)網(wǎng)絡(luò)critic′網(wǎng)絡(luò)分別由actor網(wǎng)絡(luò)和critic網(wǎng)絡(luò)更新而來,更新公式如下
(6)
(7)
本次實驗假設(shè)雷達(dá)能正確感知到環(huán)境并把感知情況化為一串0-1序列。假設(shè)雷達(dá)能發(fā)射占用連續(xù)頻帶的波形,只需要輸出頻段大小和位置即可,省略信號的發(fā)射部分。設(shè)置環(huán)境頻譜大小為100 MHz,分為五個頻帶,每個頻帶占用25 MHz,干擾為掃頻干擾。分別進(jìn)行單雷達(dá)和多雷達(dá)的系統(tǒng)抗干擾[15]仿真,對每個系統(tǒng)采用兩種方法進(jìn)行仿真結(jié)果分析。
對于GRU_DDQN方法,即采用雙深度遞歸Q網(wǎng)絡(luò)的方法,使用獎勵函數(shù)(8)作為環(huán)境反饋。
(8)
迭代20 000次后得到的曲線圖如圖7所示。
圖7 GRU-DDQN方法用于單雷達(dá)
智能體的迭代獎勵雖然能夠快速升高,到5 000步之后基本可以達(dá)到獎勵最大的情況出現(xiàn),但智能體對于決策一直處于在較大范圍震蕩中,直到15 000步以后較為穩(wěn)定。雷達(dá)智能體對于抗干擾的測試結(jié)果如表2所示。
表2 GRU-DDQN測試結(jié)果
從表中可以看出雷達(dá)智能體做出的行動占用的頻點不與干擾的頻點相撞,智能體可以躲避干擾所在頻點。智能體有時無法占滿沒有干擾的頻點,使得獎勵值未達(dá)到最大。
對于使用深度確定性策略梯度遞歸網(wǎng)絡(luò),若使用與GRU-DDQN方法一樣的獎勵函數(shù),則經(jīng)常有陷入局部最優(yōu)的情況出現(xiàn),智能體不對環(huán)境發(fā)射信號。為了能更好地指導(dǎo)智能體尋找到每一狀態(tài)下的最優(yōu)策略,需要運(yùn)用獎勵函數(shù)為式(9)~式(11)
(9)
(10)
R=R1+R2
(11)
智能體使用上述獎勵函數(shù),基本可以達(dá)到最優(yōu)獎勵的行動。考慮到神經(jīng)網(wǎng)絡(luò)的輸出空間大于智能體行動空間,屬于輸出空間但不在行動空間里的某些動作,在獎勵函數(shù)(9)~(11)下,獎勵大于在行動空間里的所有動作,智能體根據(jù)盡量往獎勵大的方向靠攏,采取了不符合行動空間的動作。為了減少此類狀況發(fā)生,就需要修改為獎勵函數(shù)(12)~(14),如下所示。
(12)
(13)
(14)
R=R1+R2+R3
(15)
通過上述優(yōu)化,離最優(yōu)解的差別還是挺大的,為此我們將限制直接加入到智能體輸出中,即當(dāng)智能體的輸出有多個離散的頻段時,只取最左邊的離散頻段,示意圖如圖8所示。
圖8 網(wǎng)絡(luò)輸出調(diào)整
實驗結(jié)果如圖9和表3所示。
表3 GRU-DDPG方法單雷達(dá)實驗測試結(jié)果
圖9 GRU-DDPG方法用于單雷達(dá)
從表3中可以看到,雷達(dá)智能體的決策行動頻點有效地避開了干擾,達(dá)到了抗干擾效果。智能體也會有錯失可用頻段的情況,但總體來說比未改進(jìn)時的情況更好,迭代獎勵值更高。
對兩種方法的迭代曲線進(jìn)行對比,如圖10所示。
圖10 GRU-DDPG和GRU-DDQN用于單雷達(dá)
從圖10中可以看出兩種方法都能達(dá)到相似的優(yōu)化效果,但GRU-DDQN方法速度較快, GRU-DDPG方法變化平穩(wěn)。
對于多個雷達(dá)來說,不僅要判斷敵方的掃頻干擾,還需要判斷己方其他雷達(dá)造成的干擾。需要雷達(dá)具備更高智能性,對網(wǎng)絡(luò)提出了更高的要求。多雷達(dá)當(dāng)前有兩種方案:一種所有雷達(dá)智能體共用一個大腦做出決策,另一種是每個雷達(dá)智能體都有各種的神經(jīng)網(wǎng)絡(luò)大腦。實驗證明,只使用一個大腦的效果并不理想,它雖然能躲開外部的干擾,但對內(nèi)部干擾無能為力,會讓所有的智能體都趨向于使用同一頻段,他們檢測到的環(huán)境狀態(tài)基本相同,同一輸入狀態(tài)、同一神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù),必然會輸出相同的決策。當(dāng)所有智能體都使用同樣決策時,頻譜沖突就無法避免,自然會引起相互干擾。其實驗結(jié)果圖和數(shù)據(jù)如圖11和表4、表5所示。
表4 方案1的GRU-DDQN測試結(jié)果
表5 方案1的GRU-DDPG測試結(jié)果
圖11 方案1(多個雷達(dá)單大腦網(wǎng)絡(luò))迭代曲線
由圖11、表4和表5可知,在方案1中,由于多個雷達(dá)智能體在每一時刻都采取同一動作,導(dǎo)致智能體之間的決策相互沖突,獎勵一直為負(fù)。
為了解決智能體總是采取同一動作,我們采取了方案2?;贕RU-DDQN算法和基于GRU-DDPG算法的實驗結(jié)果如圖12和表6、表7所示。
表6 方案2的GRU-DDQN多雷達(dá)結(jié)果
表7 方案2的GRU-DDPG多雷達(dá)結(jié)果
圖12 方案2(多個雷達(dá)多大腦網(wǎng)絡(luò))迭代曲線
可以看到智能體基本上能避開環(huán)境干擾和其他智能體的干擾,獲得較高的獎勵。GRU-DDPG算法的效果稍好于GRU-DDQN算法。
本文針對雷達(dá)受到掃頻信號的干擾的情況,提出了基于深度強(qiáng)化學(xué)習(xí)的多雷達(dá)共存抗干擾算法。對環(huán)境進(jìn)行模型的建立和簡化,采用雙深度循環(huán)Q網(wǎng)絡(luò)進(jìn)行抗干擾解算,將其循環(huán)網(wǎng)絡(luò)修改為門控循環(huán)單元,取得了良好的效果。提出了一種深度確定性策略梯度遞歸網(wǎng)絡(luò),該網(wǎng)絡(luò)在頻帶數(shù)量多的時候,可以減小網(wǎng)絡(luò)的神經(jīng)元個數(shù),大大節(jié)省網(wǎng)絡(luò)的存儲空間。實驗結(jié)果表明,本文的算法可以使雷達(dá)系統(tǒng)避開存在干擾的頻點,有效降低來自外界和己方雷達(dá)相互之間干擾。