• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于深度強化學(xué)習(xí)的干擾資源分配方法

      2023-12-08 06:06:48李健濤王軻昕張?zhí)熨t
      現(xiàn)代雷達 2023年10期
      關(guān)鍵詞:干擾機資源分配波束

      李健濤,王軻昕,劉 凱,張?zhí)熨t

      (電子科技大學(xué) 信息與通信工程學(xué)院, 四川 成都 611731)

      0 引 言

      在突防場景中,組網(wǎng)雷達系統(tǒng)通過數(shù)據(jù)融合和信息融合等協(xié)同處理方法極大的提高了作戰(zhàn)性能,對我方突防編隊產(chǎn)生了巨大的威脅[1-2]。伴隨干擾機群通常被用于對抗敵方組網(wǎng)雷達系統(tǒng),使其無法準確地探測目標,從而掩護我方突防飛機完成既定任務(wù)[3-4]。在日益復(fù)雜的電磁環(huán)境中,如何合理地分配干擾資源,以達到對組網(wǎng)雷達最大的干擾效能,是近年來國內(nèi)外學(xué)者研究的熱點問題。

      目前,突防場景下干擾資源分配問題被廣泛研究。文獻[5]綜合考慮突防飛機在整個突防過程中位置變化時的干擾效益,利用概率加權(quán)法建立目標函數(shù),并采用蟻群算法求解出干擾資源分配策略。文獻[6]研究了不同干擾樣式在不同恒虛警檢測器中的干擾效果差異,提出了一種基于二維整數(shù)編碼的改進布谷鳥(ICS)算法來提高收斂速度和尋優(yōu)能力。文獻[7]考慮到組網(wǎng)雷達系統(tǒng)工作參數(shù)不確定性帶來的檢測概率誤差,建立了干擾資源穩(wěn)健優(yōu)化分配模型,并利用粒子群(PSO)算法對模型進行求解。然而,這些研究采用的算法仍基于傳統(tǒng)群智能算法,都采用逐幀優(yōu)化的方法,運行效率低且穩(wěn)定性較差。

      深度強化學(xué)習(xí)(DRL)是機器學(xué)習(xí)的一個分支,其利用智能體與環(huán)境交互過程中的經(jīng)驗來學(xué)習(xí)使回報最大化的策略,為復(fù)雜系統(tǒng)的感知決策問題提供了一種有效的解決方案。近年來,深度強化學(xué)習(xí)被廣泛應(yīng)用于各種熱門領(lǐng)域中,如自動駕駛、游戲AI、機器人控制等。2014年起,谷歌DeepMind團隊將深度強化學(xué)習(xí)技術(shù)應(yīng)用于Atari游戲中,經(jīng)過訓(xùn)練的游戲AI超越了人類玩家的最高水平[8]。深度強化學(xué)習(xí)也被應(yīng)用于自然語言處理中,極大地提高了其語義關(guān)聯(lián)、邏輯推理和句式生成等能力[9]。因此,將深度強化學(xué)習(xí)技術(shù)基于到干擾資源分配問題中是一個值得研究的方向。

      本文提出了一個基于深度強化學(xué)習(xí)的干擾資源分配方法。首先,建立一個突防場景下的干擾資源分配模型;其次,將干擾資源分配模型描述為一個馬爾可夫決策過程,設(shè)計相應(yīng)的狀態(tài)空間、動作空間和回報函數(shù);最后,針對模型在多維約束情況下難以求解的問題,提出了基于動作密鑰編碼的雙延遲深度確定性策略梯度網(wǎng)絡(luò)訓(xùn)練算法,將混合整數(shù)優(yōu)化問題轉(zhuǎn)化為連續(xù)變量優(yōu)化問題。仿真結(jié)果表明,本文所提的干擾資源分配方法能夠?qū)M網(wǎng)雷達實施有效的干擾,且具備出色的穩(wěn)定性。

      1 系統(tǒng)模型

      1.1 突防場景模型

      在突防組網(wǎng)雷達場景中,干擾機群在突防飛機周圍伴隨飛行并對組網(wǎng)雷達進行聯(lián)合壓制干擾,使組網(wǎng)雷達探測性能下降,進而掩護我方突防飛機完成突防打擊任務(wù),如圖1所示。突防編隊由W個突防飛機和M個干擾機組成,組網(wǎng)雷達系統(tǒng)由N個雷達組成。

      圖1 突防組網(wǎng)雷達場景示意圖Fig.1 Schematic diagram of penetration netted radar

      1.2 干擾資源分配模型

      假設(shè)干擾機可以發(fā)射多個干擾波束,每個波束只能夠干擾一部雷達,并且所有雷達都可以受到多個干擾波束的干擾。定義干擾機群在第k時刻的波束分配矩陣為

      (1)

      (2)

      且每架干擾機最多產(chǎn)生L個波束,即

      (3)

      在本文的干擾模型中,每個干擾波束的發(fā)射功率是可控的,定義干擾機群在第k時刻的干擾功率分配矩陣為

      (4)

      (5)

      1.3 雷達探測模型

      雷達通過發(fā)射脈沖信號和接收目標回波信號來探測我方突防飛機,假設(shè)每個雷達的發(fā)射功率、天線增益、載頻等工作參數(shù)相同,則雷達n接收到突防飛機w的回波信號功率為

      (6)

      在干擾機群發(fā)射壓制干擾信號時,雷達n接收到干擾機m的干擾信號功率為

      (7)

      圖2 突防飛機、干擾和雷達相對空間位置Fig.2 Relative geometry position of the surprise aircraft, jammer and radar

      (8)

      式中:θ3 dB為雷達的3 dB波束寬度;常數(shù)α為天線增益系數(shù)。

      1.4 協(xié)同干擾組網(wǎng)雷達檢測概率模型

      本文采用組網(wǎng)雷達對多目標的聯(lián)合檢測概率作為協(xié)同干擾的效能指標,假設(shè)組網(wǎng)雷達的部分工作參數(shù)、工作模式被我方電子偵察系統(tǒng)提前獲取。

      首先考慮組網(wǎng)雷達n探測突防飛機w時受到壓制干擾,其接收機的信干噪比為

      (9)

      (10)

      根據(jù)Swerling Ⅰ檢測模型[10-11],雷達單脈沖檢測概率可以表示為

      (11)

      式中:y0為檢測門限。

      組網(wǎng)雷達一般通過數(shù)據(jù)融合和信息融合的方法對目標進行聯(lián)合探測,本文考慮組網(wǎng)雷達檢測概率采用秩K準則進行融合。假設(shè)雷達n的局部判決為dn∈{0,1},其中dn=1或dn=0表示是否發(fā)現(xiàn)目標。融合中心根據(jù)這些局部判決產(chǎn)生全局判決向量D=[d1,d2,…,dN],有2N個組合。定義全局判決規(guī)則R(D),組網(wǎng)雷達中有K部及以上雷達檢測到目標,那么判定為發(fā)現(xiàn)目標,否則判定未發(fā)現(xiàn)目標,即

      (12)

      根據(jù)秩K準則得到的第k時刻組網(wǎng)雷達對突防飛機w的檢測概率為[12]

      (13)

      式中:S0表示全局判決向量Di(i=1,2,…,2N)中判決為未發(fā)現(xiàn)目標的集合;S1表示Di中判決為發(fā)現(xiàn)目標的集合。

      組網(wǎng)雷達對W個突防飛機的檢測概率向量為

      (14)

      考慮到實際突防場景中,突防飛機對組網(wǎng)雷達的威脅程度可能不同,因此分配給突防飛機的檢測概率的權(quán)重也會有差異。突防飛機的檢測概率權(quán)重向量為

      (15)

      為了評估干擾機群對組網(wǎng)雷達的協(xié)同干擾性能,定義了一個全局代價函數(shù)為

      J(Pdk,ωk)=ωk(Pdk)T

      (16)

      接下來基于深度強化學(xué)習(xí)的干擾資源分配方法中將參考式(16)設(shè)計回報函數(shù)。

      2 基于深度強化學(xué)習(xí)的干擾資源分配方法

      2.1 馬爾可夫決策過程

      馬爾可夫決策過程(MDP)是一種用于描述深度強化學(xué)習(xí)中智能體貫序決策的數(shù)學(xué)模型,其具有馬爾可夫性,即當前狀態(tài)和回報只與上一時刻狀態(tài)和動作有關(guān),與之前的狀態(tài)和動作無關(guān)。本文將突防場景下干擾資源分配建模為一個馬爾可夫決策過程,并設(shè)計相應(yīng)的狀態(tài)空間、動作空間和回報函數(shù)。

      2.1.1 狀態(tài)空間

      突防場景下的干擾資源分配是一個時間序列優(yōu)化問題,我們假設(shè)敵方組網(wǎng)雷達的位置固定,且突防飛機對組網(wǎng)雷達的威脅程度不變。當突防飛機和干擾機相對于組網(wǎng)雷達的位置發(fā)生變化時,組網(wǎng)雷達接收突防飛機的回波信號功率和干擾機的干擾信號功率也發(fā)生變化。本文將突防編隊的位置信息作為狀態(tài)空間,即

      (17)

      2.1.2 動作空間

      在不考慮突防編隊動力學(xué)控制的情況下,我們假設(shè)其按照既定的飛行航跡執(zhí)行突防任務(wù)。根據(jù)干擾資源分配模型,本文將干擾機群的波束分配策略和功率分配策略作為動作空間,即

      A={uk,Pk}

      (18)

      2.1.3 回報函數(shù)

      突防場景下,干擾機群的目標是降低組網(wǎng)雷達對突防飛機的檢測性能,因此本文將突防過程中每一時刻的全局代價函數(shù)的相反數(shù)作為回報函數(shù),即

      R=-J(Pdk,ωk)

      (19)

      在突防過程中,突防編隊的空間位置會發(fā)生變化,導(dǎo)致最優(yōu)的回報值也隨之變化。為了評估干擾機群在整個突防過程中的總體干擾效能,之后的仿真驗證環(huán)節(jié)中我們把所有時刻的回報之和作為算法比較的指標依據(jù)之一。

      2.2 基于動作密鑰編碼的雙延遲深度確定性策略梯度算法

      深度強化學(xué)習(xí)(DRL)是一種將深度學(xué)習(xí)的感知能力和強化學(xué)習(xí)的決策能力結(jié)合在一起的人工智能算法,常被用于解決復(fù)雜系統(tǒng)的貫序決策問題。深度強化學(xué)習(xí)的原理框架如圖3所示,在每個時刻智能體與環(huán)境進行交互,得到當前環(huán)境下的狀態(tài)信息和回報;之后基于預(yù)期的回報評估各個動作的價值,通過某種策略將當前狀態(tài)映射為相應(yīng)的動作并執(zhí)行;環(huán)境對智能體的動作做出反應(yīng)并更新環(huán)境參數(shù)。

      圖3 深度強化學(xué)習(xí)原理框圖Fig.3 Deep reinforcement learning schematic

      對突防場景下協(xié)同干擾組網(wǎng)雷達模型進行分析可以看出,干擾資源的分配本質(zhì)上是一個多約束條件下的非線性混合整數(shù)規(guī)劃問題,這類問題的求解難度大。為了提高智能體的尋優(yōu)能力和收斂效率,本文提出了一種基于動作密鑰編碼的雙延遲深度確定性策略梯度算法,將混合整數(shù)規(guī)劃問題轉(zhuǎn)換為連續(xù)規(guī)劃問題,緩解了變量約束對的影響,有效地解決了雙延遲深度確定性策略梯度算法可行性的問題。

      借鑒文獻[13]中的方法,將干擾波束分配矩陣和干擾功率分配矩陣進行密鑰編碼,該編碼采用實數(shù)碼的形式,由整數(shù)部分和小數(shù)部分組成如表1所示。

      表1 動作密鑰編碼Tab.1 Action key encoding

      表中編碼的順序值表示干擾波束的編號,編碼的整數(shù)部分表示為干擾波束選擇干擾的雷達,小數(shù)部分表示干擾波束的功率分配比例。其中,干擾波束1和2、3和4、5和6分別來自三個不同干擾機。如果多個干擾波束來自于同一架干擾機,則通過歸一化的方式重新分配波束的功率比例。

      雙延遲深度確定性策略梯度是一種基于AC(Actor-Critic)框架的無模型、異策略深度強化學(xué)習(xí)算法[14],可用于解決連續(xù)動作問題。TD3算法相較于深度確定性策略梯度(DDPG)算法有三點改進:第一,同時學(xué)習(xí)兩個價值網(wǎng)絡(luò),每次選取較小Q值進行網(wǎng)絡(luò)參數(shù)的更新,有效地緩解高估偏差的問題;第二,給目標策略網(wǎng)絡(luò)基于平滑機制,在動作中加入隨機噪聲,減小目標策略受函數(shù)近似誤差引起的不準確影響;第三,降低策略網(wǎng)絡(luò)和三個目標網(wǎng)絡(luò)的更新頻率,提高算法的穩(wěn)定性。

      本文提出的基于動作密鑰編碼的雙延遲深度確定性策略梯度算法可以用任意的行為策略收集經(jīng)驗,再通過經(jīng)驗回放訓(xùn)練策略網(wǎng)絡(luò)和價值網(wǎng)絡(luò)。其中,智能體輸出密鑰編碼動作與環(huán)境交互,環(huán)境將動作解碼并返回下一時刻的狀態(tài)和回報,其算法流程如下。

      步驟1 設(shè)置環(huán)境參數(shù),包括組網(wǎng)雷達和突防編隊的位置信息、組網(wǎng)雷達的工作參數(shù)。

      步驟3 對于每個輪,循環(huán)執(zhí)行以下操作。

      1)初始化狀態(tài)s0。

      2)根據(jù)當前狀態(tài)s,策略網(wǎng)絡(luò)πω輸出帶噪聲的編碼動作a:a←πω(s′)+ε,ε~N(0,σ)。其中,ε表示服從均值為0、方差為σ的高斯噪聲。

      3)智能體執(zhí)行編碼動作a與環(huán)境進行交互,環(huán)境對動作解碼,得到回報r和下一時刻狀態(tài)s′。

      4)將智能體與環(huán)境交互的數(shù)據(jù)(s,a,r,s′)存儲到經(jīng)驗池中。

      5)若突防編隊沒有達到終點,則重復(fù)2)~4),否則開始執(zhí)行以下步驟:

      (1) 策略網(wǎng)絡(luò)和價值網(wǎng)絡(luò)及各自的目標網(wǎng)絡(luò)從經(jīng)驗池B中隨機抽取Nb個樣本。

      步驟4 保存網(wǎng)絡(luò)模型,結(jié)束輪循環(huán)。

      3 仿真結(jié)果與分析

      本節(jié)將通過仿真實驗來分析和驗證基于深度強化學(xué)習(xí)的干擾資源分配算法的可行性、有效性和穩(wěn)定性。

      考慮在仿真實驗中,突防場景下有W=2架突防飛機突防組網(wǎng)雷達,M=3架干擾機執(zhí)行伴隨干擾;組網(wǎng)雷達系統(tǒng)由N=6部雷達組成,并采用秩4準則進行數(shù)據(jù)融合。突防編隊的飛機軌跡和組網(wǎng)雷達的空間位置如圖4所示。

      圖4 突防場景仿真示意圖Fig.4 The simulation scenario of penetration netted radar

      表2 干擾機工作參數(shù)Tab.2 The working parameters of the jammer

      表3 雷達工作參數(shù)Tab.3 The working parameters of the radar

      利用基于動作密鑰編碼的雙延遲深度確定性策略梯度算法進行仿真訓(xùn)練時,相關(guān)參數(shù)設(shè)置:最大訓(xùn)練輪數(shù)400 000,記憶池大小4 000,軟更新參數(shù)τ=0.1,獎勵衰減因子γ=0.99,初始探索噪聲方差1,探索噪聲衰減因子0.999 9,單次訓(xùn)練batch-size采樣數(shù)64,策略網(wǎng)絡(luò)學(xué)習(xí)率0.001,價值網(wǎng)絡(luò)學(xué)習(xí)率0.002,動作輸出限制范圍[0,7)。TD3中策略網(wǎng)絡(luò)和價值網(wǎng)絡(luò)的參數(shù)與各自對應(yīng)的目標網(wǎng)絡(luò)相同,價值網(wǎng)絡(luò)和策略網(wǎng)絡(luò)模型如圖5所示。

      圖5 策略網(wǎng)絡(luò)和價值網(wǎng)絡(luò)模型Fig.5 Actor network and critic network models

      利用PSO算法和本文所提的AKE-TD3算法對上述場景問題進行仿真實驗,得到不同算法在整個干擾過程中(每一幀)的全局代價函數(shù)性能曲線如圖6所示。可以看出,相比于PSO算法,AKE-TD3算法的全局代價函數(shù)值在前幾幀時基本相同,但在之后都表現(xiàn)出更出色的干擾性能??傮w來說,AKE-TD3算法的干擾資源分配策略比PSO算法更好,初步驗證了本文所提方法的有效性。

      圖6 單次仿真下不同算法全局代價函數(shù)對比Fig.6 Comparison of global cost functions of algorithms under single simulation

      與圖6中結(jié)果相對應(yīng)的干擾資源分配結(jié)果分別如圖7和圖8所示。圖中的顏色深淺表示干擾功率的大小,深藍色的部分表示無干擾波束被分配。由于初始化的隨機種群對PSO算法的性能有很大影響,因此每次收斂的結(jié)果具有波動性,且需要迭代多次才能得到較好的結(jié)果。因此可以明顯地看出,在作戰(zhàn)場景態(tài)勢緩慢變化的情況下,基于PSO算法的干擾波束分配策略頻繁變化,而基于AKE-TD3算法的干擾波束分配策略一直保持穩(wěn)定,初步證明了本文所提方法的穩(wěn)定性。

      圖7 基于PSO算法干擾資源分配結(jié)果Fig.7 The results of resource allocation achieved by PSO algorithm

      圖8 基于AKE-TD3算法干擾資源分配結(jié)果Fig.8 The results of resource allocation achieved by AKE-TD3 algorithm

      為了進一步分析PSO算法和AKE-TD3算法的干擾性能和穩(wěn)定性。本文使用PSO算法進行100次蒙特卡洛仿真實驗,并使用AKE-TD3算法在10個隨機種子下進行仿真實驗。得到不同算法全局代價函數(shù)在單次仿真全過程中(每一幀)的最大值、最小值和平均值,如圖9所示。對不同算法的總?cè)执鷥r函數(shù)和分配策略平均變化次數(shù)進行數(shù)值統(tǒng)計分析,如表4所示??梢钥闯?本文所提算法的全局代價函數(shù)值和分配策略變化次數(shù)都比PSO算法小。因此其干擾能力更強,且在緩慢變化的戰(zhàn)場態(tài)勢中不會頻繁的變換策略。進一步驗證了本文所提算法的有效性和穩(wěn)定性。

      圖9 不同算法全局代價函數(shù)對比Fig.9 Comparison of global cost functions for different algorithms

      表4 算法的總體性能對比Tab.3 Comparison of overall performance of algorithms

      本文每隔100輪取消動作噪聲,將整個突防過程中所有時刻的干擾效能之和作為總回報。設(shè)置10個隨機種子,統(tǒng)計平均總回報的收斂曲線如圖10所示。深色的線代表回報的平均值,淺色的部分代表不同隨機種子下回報值的分布情況??梢钥闯?在訓(xùn)練前期,總回報值一直在波動;隨著訓(xùn)練的進行,曲線逐漸上升直至收斂。收斂曲線結(jié)果證明了AKE-TD3算法的可行性。值得注意的是,深度強化學(xué)習(xí)需要大量的時間訓(xùn)練,AKE-TD3算法平均單次訓(xùn)練時間約為6 h。但可以通過在不同場景下進行訓(xùn)練將泛化性的策略保存到神經(jīng)網(wǎng)絡(luò)中,使其具備較高的實時性,這也是深度強化學(xué)習(xí)的特點和優(yōu)勢。

      圖10 TD3算法回報函數(shù)收斂曲線Fig.10 Convergence curve of the AKE-TD3 algorithm reward function

      4 結(jié)束語

      本文針對干擾機群掩護目標突防組網(wǎng)雷達的場景,提出了一種基于深度強化學(xué)習(xí)的干擾資源分配方法。將干擾資源分配建模為一個馬爾可夫決策過程,提出基于動作密鑰編碼的雙延遲深度確定性策略梯度算法對模型進行求解。仿真結(jié)果表明,本文所設(shè)計的算法在多約束復(fù)雜干擾問題中,可以通過模擬智能體與環(huán)境之間的交互來探索干擾策略。相較于傳統(tǒng)智能優(yōu)化方法,干擾效能得到提升,且能夠滿足穩(wěn)定性的要求。值得注意的是,深度強化學(xué)習(xí)具有出色的泛化能力。通過隨機模擬突防場景對智能體進行訓(xùn)練,可以使其具備在未知環(huán)境下的作戰(zhàn)能力,這將是后續(xù)工作的重點。

      猜你喜歡
      干擾機資源分配波束
      新研究揭示新冠疫情對資源分配的影響 精讀
      英語文摘(2020年10期)2020-11-26 08:12:20
      雷聲公司交付首套中頻段下一代干擾機
      毫米波大規(guī)模陣列天線波束掃描研究*
      一種基于價格競爭的D2D通信資源分配算法
      圓陣多波束測角探究
      電子測試(2018年6期)2018-05-09 07:31:54
      基于壓縮感知的單脈沖雷達欺騙干擾機研究
      Helix陣匹配場三維波束形成
      空襲遠距離支援干擾機陣位選擇及航線規(guī)劃
      美國海軍將研制新一代干擾機
      基于非正交變換的局域波束空時自適應(yīng)處理
      高碑店市| 昌江| 罗平县| 宁远县| 黄冈市| 基隆市| 南江县| 内黄县| 泸西县| 马边| 中江县| 修水县| 武定县| 吴桥县| 隆化县| 深圳市| 景宁| 旌德县| 海城市| 龙南县| 阳谷县| 瑞昌市| 定襄县| 浦江县| 迁安市| 兴国县| 咸阳市| 大关县| 北票市| 玉溪市| 平利县| 五莲县| 鹤峰县| 玛纳斯县| 伊川县| 凉城县| 罗山县| 岑溪市| 历史| 安乡县| 洛扎县|