• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于強(qiáng)化學(xué)習(xí)的功率與信道聯(lián)合干擾方法研究*

    2020-08-14 06:31:26張雙義沈箬怡陳學(xué)強(qiáng)杜吉慶
    通信技術(shù) 2020年8期
    關(guān)鍵詞:干擾機(jī)時(shí)隙信道

    張雙義,沈箬怡,陳學(xué)強(qiáng),田 華,張 瀟,杜吉慶

    (1.中國人民解放軍陸軍工程大學(xué) 通信工程學(xué)院,江蘇 南京 210000;2.中國電子科技集團(tuán)公司第二十八研究所,江蘇 南京 210007;3.中國人民解放軍32753部隊(duì),湖北 武漢 430010)

    0 引言

    飛速發(fā)展的無線通信技術(shù)導(dǎo)致頻譜資源越來越稀缺,用戶之間用頻爭奪越來越激烈,尤其在軍事領(lǐng)域的頻譜爭奪已逐漸成為戰(zhàn)爭重要作戰(zhàn)樣式[1-2]。近年來,人工智能技術(shù)飛速發(fā)展,為通信領(lǐng)域的電磁頻譜對抗提供了新的思路[3]。智能抗干擾目前已經(jīng)有了很多研究[4-6]。文獻(xiàn)[4]提出了一種在動(dòng)態(tài)衰落環(huán)境中基于強(qiáng)化學(xué)習(xí)的信道選擇抗干擾算法。文獻(xiàn)[5-6]作者利用Q學(xué)習(xí)找到最佳通信信道來躲避干擾,其中文獻(xiàn)[6]基于USRP設(shè)備搭建了抗干擾平臺(tái)并驗(yàn)證抗干擾算法有效性。文獻(xiàn)[7-8]充分利用了深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的雙重優(yōu)勢,實(shí)現(xiàn)了快速有效的抗干擾信道選擇。此外,文獻(xiàn)[9]提出了一種基于時(shí)間和信道選擇的聯(lián)合抗干擾策略,從多個(gè)維度對抗干擾決策進(jìn)行了優(yōu)化。

    然而,通信干擾作為攻擊方的主要對抗樣式[10-11],干擾技術(shù)仍然停留在傳統(tǒng)的干擾方法上,干擾方式過于依賴先驗(yàn)信息[12],難以根據(jù)環(huán)境自適應(yīng)調(diào)整自身干擾策略,如傳統(tǒng)頻域干擾和功率域干擾。頻域干擾方式有固定頻率干擾、掃頻干擾以及梳狀干擾等。這些干擾模式單一且需要預(yù)先設(shè)定工作模式,用戶可以輕易發(fā)現(xiàn)干擾并通過跳頻來躲避,干擾效果下降。而單一功率域的干擾又會(huì)造成功率消耗過大且容易暴露位置,增加裝備技術(shù)復(fù)雜性[13]。同時(shí),根據(jù)文獻(xiàn)[14-15],用戶可以根據(jù)接收到的干擾機(jī)能量值對其進(jìn)行定位,然后采用相關(guān)技術(shù)減弱干擾信號[16],導(dǎo)致干擾效率大大降低。

    為實(shí)現(xiàn)精準(zhǔn)高效干擾,提高干擾機(jī)的智能性十分必要,尤其是利用智能學(xué)習(xí)解決動(dòng)態(tài)未知環(huán)境下的實(shí)時(shí)干擾決策問題。近年來,不少學(xué)者在智能干擾領(lǐng)域也取得了一些突破[17-19]。文獻(xiàn)[17]利用深度學(xué)習(xí)方法探索通信發(fā)射機(jī)的頻率變化規(guī)律,然后實(shí)施精準(zhǔn)干擾。文獻(xiàn)[18]則提出了一種頻率域的智能干擾算法,干擾機(jī)可以通過感知并學(xué)習(xí)對方信道切換規(guī)律達(dá)到跟蹤干擾的目的,同時(shí)證明了算法可以收斂到最優(yōu)干擾策略。文獻(xiàn)[19]提出了一種功率域智能干擾算法,干擾機(jī)可以根據(jù)對方通信用戶工作狀態(tài)自適應(yīng)調(diào)整自身功率進(jìn)行干擾,并且能夠收斂到最佳干擾策略。但是,以上工作都是聚焦單一域內(nèi)的干擾方式,在復(fù)雜電磁環(huán)境中的干擾效果較低。例如,一旦通信用戶在功率域進(jìn)行調(diào)整,單純的信道干擾將無法保證干擾效果。同樣,用戶單純的功率自適應(yīng)調(diào)整也無法應(yīng)對頻域內(nèi)的改變,且上述工作并沒有考慮干擾機(jī)被定位問題。綜上所述,單一功率域干擾一般是阻塞式干擾,實(shí)現(xiàn)簡單,但是功率低時(shí)效果差,功率高時(shí)易暴露自己;頻率域干擾技術(shù)難度高,帶寬不大,窄帶干擾為主,目標(biāo)明確。人們希望既能夠調(diào)整功率降低暴露自己的概率,又能夠調(diào)整信道進(jìn)行有針對性的干擾并提高干擾效果,所以本文提出了基于功率和信道的聯(lián)合干擾優(yōu)化算法。

    智能干擾面臨的挑戰(zhàn)主要有:(1)干擾機(jī)必須具備在線持續(xù)學(xué)習(xí)能力,根據(jù)環(huán)境動(dòng)態(tài)變化不斷調(diào)整自身干擾策略做出最優(yōu)干擾決策;(2)單一頻率或功率域干擾難以達(dá)到最好的干擾策略,造成資源浪費(fèi),必須擴(kuò)展干擾維度,提高綜合干擾效率;(3)干擾機(jī)在干擾時(shí)會(huì)被對方偵察能量進(jìn)行定位,因此選擇最佳干擾功率十分必要。

    綜上,本文提出了一種功率與信道聯(lián)合干擾方法。首先將動(dòng)態(tài)環(huán)境中的干擾決策問題建模成一個(gè)MDP問題,其次通過強(qiáng)化學(xué)習(xí)求解。算法優(yōu)化目標(biāo)是最大化降低通信用戶吞吐量,并降低干擾機(jī)被定位概率,達(dá)到最優(yōu)干擾策略。因此,本文主要貢獻(xiàn)如下:(1)構(gòu)建基于MDP的多域智能干擾算法,提升復(fù)雜環(huán)境中的干擾效果;(2)考慮干擾機(jī)被定位問題,通過功率優(yōu)化降低干擾機(jī)被發(fā)現(xiàn)概率。

    本文主要內(nèi)容作如下安排:第1節(jié)給出系統(tǒng)模型并進(jìn)行系統(tǒng)建模;第2節(jié)基于強(qiáng)化學(xué)習(xí)提出功率與信道聯(lián)合干擾算法;第3節(jié)給出所提算法仿真結(jié)果和相關(guān)分析;第4節(jié)對本文進(jìn)行總結(jié)與分析。

    1 系統(tǒng)模型及建模

    1.1 系統(tǒng)模型

    圖1為系統(tǒng)模型。考慮在戰(zhàn)場復(fù)雜環(huán)境中,有1個(gè)智能干擾機(jī)和1對通信用戶(通信用戶包括1個(gè)發(fā)射機(jī)和1個(gè)接收機(jī)),通信用戶可以利用雷達(dá)探測裝置對干擾機(jī)進(jìn)行偵察定位,定位后利用相關(guān)技術(shù)減弱干擾。用戶通信功率恒定為Pu。干擾機(jī)和用戶可用頻率范圍相同,均勻分成M個(gè)可用信道,信道集定義為 M={1,2,…,M}。干擾機(jī)和通信用戶在每個(gè)時(shí)隙均選擇一個(gè)工作信道,可用信道帶寬恒定為B??紤]信道歷經(jīng)塊衰落,信道背景噪聲為高斯白噪聲。干擾機(jī)有j個(gè)功率發(fā)射等級,功率集定義為 P={P1,P2,…,Pj}。系統(tǒng)采用時(shí)分多址方式接入。

    圖1 干擾模型

    通信用戶進(jìn)行周期跳頻通信的同時(shí)會(huì)接收干擾機(jī)能量值(Received Signal Strength Indication,RSS)對干擾機(jī)進(jìn)行定位[20-21],且定位后采取有效措施減弱通信干擾,最大化保障己方信息傳輸。文獻(xiàn)[22-24]中,通信用戶會(huì)檢測干擾機(jī)發(fā)出的能量值,不同的接收能量值對應(yīng)不同的檢測概率,一旦成功檢測到能量就可以進(jìn)行準(zhǔn)確定位。在本文中將檢測概率對應(yīng)于定位概率。通信用戶接收到的信噪比公式表示如下[21]:

    其中,β代表干擾機(jī)到通信用戶探測裝置路徑損耗系數(shù),μj為信道瞬時(shí)衰落因子,p(j)為干擾機(jī)的干擾功率,d為干擾機(jī)到探測裝置的距離,σ2代表零均值高斯白噪聲的方差。干擾機(jī)功率越大,用戶接收到的信號值越大。

    用戶探測裝置的定位概率如下[22-23]:

    PFA為探測裝置的虛警概率,與探測裝置自身性能有關(guān)[24]。文獻(xiàn)[25]可以使探測裝置的虛警概率達(dá)到10-4,因此根據(jù)式(25)在可以給定虛警概率時(shí)計(jì)算出干擾機(jī)定位概率Pra(j)。同時(shí),本文在后面的工作中也仿真了不同虛警概率下不同信噪比對應(yīng)的定位檢測概率。根據(jù)以上檢測方式和文獻(xiàn)數(shù)據(jù),干擾機(jī)不同的干擾功率對應(yīng)的被定位概率集可以經(jīng)過計(jì)算后得到:

    干擾機(jī)工作時(shí)會(huì)根據(jù)自身干擾策略在每個(gè)時(shí)隙選擇一個(gè)干擾信道fj和干擾功率pj,在最大化降低用戶吞吐量的同時(shí)減小被定位概率。干擾機(jī)偵察裝置可以獲取通信方位置和距離,并通過干擾機(jī)接收到的通信方發(fā)射機(jī)能量與所提信道模型結(jié)合估算發(fā)射機(jī)功率,利用信道模型最后計(jì)算出用戶接收機(jī)端的干信比(Jamming-plus-Noise-to-Signal-Ratio,JNSR)來調(diào)整自身干擾策略。干信比代表了信道中干擾信號的強(qiáng)度大小。

    信號在傳輸過程中會(huì)發(fā)生路徑損耗[26]。假設(shè)信號傳輸歷經(jīng)快衰落,設(shè)定系統(tǒng)工作時(shí)信道增益在當(dāng)前時(shí)隙保持不變,在下一個(gè)時(shí)隙改變。gj表示干擾機(jī)到用戶接收機(jī)的鏈路增益,定義如下:

    其中,lj表示干擾機(jī)到用戶接收機(jī)的距離,β表示干擾路徑衰落系數(shù),μj表示干擾機(jī)到通信用戶接收機(jī)的瞬時(shí)衰落因子。同理,可得用戶發(fā)射機(jī)到接收機(jī)的鏈路增益為:

    其中,lu表示用戶發(fā)射機(jī)到接收機(jī)的距離,α表示通信傳輸路徑衰落系數(shù),μu表示用戶發(fā)射機(jī)到接收機(jī)的瞬時(shí)衰落因子。

    用戶接收到的信干噪比(Signal-to-Jammingplus-Noise-Ratio,SINR)定義如下[27]:

    其中,N0代表信道背景高斯白噪聲的功率,N0=B*σ2。pu代表用戶恒定功率,Pj(i)代表干擾機(jī)選擇的發(fā)射功率,θ(fj,fu)代表干擾機(jī)是否成功干擾通信信道。若fj=fu,則θ(fj,fu)=1,表示用戶通信信道被成功干擾;若fj≠fu,則θ(fj,fu)=0,表示用戶通信信道未受到干擾。

    JNSR可P表示為[28]:

    其中,N0表示信道背景噪聲功率,RTR表示通信用戶發(fā)射機(jī)到接收機(jī)的距離,RJR表示干擾機(jī)到通信用戶接收機(jī)的距離。

    1.2 問題建模

    通信系統(tǒng)進(jìn)行掃頻通信,Tu代表用戶通信信道。圖2中橫軸代表不同時(shí)隙,縱軸代表不同信道,空白信道代表信道未被占用。當(dāng)干擾信道準(zhǔn)確干擾到通信信道,表明干擾成功。干擾機(jī)根據(jù)自身干擾決策在每個(gè)時(shí)隙選擇1個(gè)干擾信道和1個(gè)干擾功率等級進(jìn)行干擾,如圖2中Tj所示,且干擾機(jī)具有不同功率等級。在實(shí)際通信場景中,設(shè)定通信信道M=4,干擾機(jī)功率等級P=3,策略空間 Ω=M×P。

    圖2 系統(tǒng)傳輸時(shí)隙

    動(dòng)態(tài)變化環(huán)境中的信道衰落特性被建模成正態(tài)衰落模型[29],信道增益可以表示為et,t表示零均值的高斯白噪聲且方差為σ2。動(dòng)態(tài)衰落通常用分貝表示,σ=0.1log(10)σdB,σdB為信道衰落值,通常取值在4~12 dB。在本文仿真中,信道衰落值設(shè)為10 dB。通信用戶會(huì)按照設(shè)定規(guī)則切換信道進(jìn)行通信。在時(shí)隙k干擾機(jī)選擇的功率與信道聯(lián)合策略為ak,定義通信用戶在k時(shí)隙的吞吐量如下:

    定義干擾機(jī)的效用為:

    TS代表轉(zhuǎn)換因子,一方面保證量綱的一致性,另一方面可以調(diào)整被定位概率的影響大小;pra(j)代表選擇功率p(j)時(shí)所對應(yīng)的被定位的概率,由式(2)計(jì)算得到。

    1.2.1 馬爾科夫決策過程

    文中干擾決策的核心問題是動(dòng)態(tài)環(huán)境中聯(lián)合干擾決策問題。而動(dòng)態(tài)未知環(huán)境下的干擾策略選擇通常被建模為馬爾科夫決策過程(Markov Decision Process,MDP)[30]。因此,本文功率與信道聯(lián)合選擇策略建模成為一個(gè)MDP問題,干擾機(jī)通過求解MDP尋找最優(yōu)的干擾策略。MDP一般通過一個(gè)四元組定義為{S,A,P,R}[31-32],S表示狀態(tài)空間,A表示動(dòng)作空間,P表示狀態(tài)轉(zhuǎn)移概率,R表示獎(jiǎng)勵(lì)值。其中,核心元素在本文中定義如下。

    定義狀態(tài)空間S。Sk∈S:S=[S1,S2,…,Sk],Sk=(fu(k),fj(k),pj(k))表示在k時(shí)隙用戶狀態(tài),fu(k)表示當(dāng)前通信所在信道,fi(k)表示當(dāng)前干擾信道,pj(k)表示當(dāng)前干擾功率。

    定義動(dòng)作空間A。ak∈A:A=[a1,a2,…,ak],其中ak=[(fj(k+1),pj(k+1)],fj(k+1)∈M,pj(k+1)∈P表示在時(shí)隙k做出的動(dòng)作,fj(k+1)表示k+1時(shí)隙的干擾信道,pj(k+1)表示k+1時(shí)隙的干擾功率。

    定義狀態(tài)轉(zhuǎn)移概率矩陣P。P={p(Sk+1)|Sk,ak},Sk+1,Sk∈S表示從狀態(tài)Sk選擇動(dòng)作ak到達(dá)狀態(tài)Sk+1的概率。

    定義獎(jiǎng)勵(lì)值R。R(Sk,ak)表示在當(dāng)前狀態(tài)Sk下選擇動(dòng)作ak得到的即時(shí)獎(jiǎng)勵(lì)值。在本文中定義Rk為式(9)。

    本文中干擾機(jī)的目標(biāo)是找到最佳干擾功率和信道,以最小化用戶吞吐量并降低自身被定位的概率。干擾機(jī)的優(yōu)化目標(biāo)是使累積的獎(jiǎng)勵(lì)值最大化,優(yōu)化目標(biāo)定義如下:

    1.2.2 Q學(xué)習(xí)算法

    根據(jù)文獻(xiàn)[33],在狀態(tài)Sk下最優(yōu)策略π*的長期累積獎(jiǎng)勵(lì)值定義為:

    其中,γ代表時(shí)間折扣因子,表示在未來獲得的獎(jiǎng)勵(lì)值對當(dāng)前動(dòng)作選取的重要程度。根據(jù)貝爾曼準(zhǔn)則,式(11)的最大值為:

    其中,R(Sk,a)為R(Sk,ak)的數(shù)學(xué)期望,PSk,Sk+1(a)代表在狀態(tài)Sk下執(zhí)行動(dòng)作a到狀態(tài)Sk+1的轉(zhuǎn)移概率。將每個(gè)Q值和累計(jì)獎(jiǎng)勵(lì)值等價(jià)起來得到:

    可以推導(dǎo)得:

    強(qiáng)化學(xué)習(xí)正是通過和環(huán)境的交互不斷強(qiáng)化對環(huán)境的認(rèn)知,做出最佳干擾決策,因此被廣泛用于求解馬爾科夫決策模型。Q學(xué)習(xí)作為最有效的強(qiáng)化學(xué)習(xí)算法,一直被廣泛使用。在系統(tǒng)模型中,狀態(tài)轉(zhuǎn)移概率未知時(shí),Q學(xué)習(xí)可以通過求解MDP模型進(jìn)行Q值迭代找到最優(yōu)策略π*,Q值大小直接反映了動(dòng)作的好壞。

    Q學(xué)習(xí)中主要有兩種動(dòng)作更新策略,即貪婪(ε-greedy)策略[34]和玻爾茲曼(Boltzmann)概率策略[35]。玻爾茲曼更新策略在處理離散策略時(shí)具有優(yōu)勢,因此本文采用玻爾茲曼更新策略,策略選擇向量Z(k)={z1(k),z2(k),…,zm(k)},更新公式為:

    β表示玻爾茲曼更新系數(shù),pm(k+1)表示在k+1時(shí)隙選擇動(dòng)作m的概率。Q值越大,被選中的概率越大。

    根據(jù)文獻(xiàn)[35],Q值表的更新公式為:

    式中:其中α(0<α≤1)表示學(xué)習(xí)更新步長,用來調(diào)整新狀態(tài)和瞬時(shí)回報(bào)值對Q值的影響;γ(0<γ≤1)表示折扣因子,即未來回報(bào)對當(dāng)前選擇動(dòng)作的影響程度。Rk代表在狀態(tài)Sk下采取動(dòng)作獲取的即時(shí)獎(jiǎng)勵(lì)值。干擾機(jī)根據(jù)Q值表在狀態(tài)Sk下執(zhí)行動(dòng)作ak后到達(dá)狀態(tài)Sk+1。

    2 多域智能干擾算法

    聯(lián)合決策過程中的干擾-用戶時(shí)隙圖,如圖3所示。在單個(gè)時(shí)隙內(nèi),Tj代表干擾時(shí)長,TWSS代表頻譜感知時(shí)長,TL代表策略學(xué)習(xí)更新時(shí)長,Tu代表用戶通信時(shí)長,{Tj+TWSS+TL}代表單個(gè)干擾時(shí)隙。在一個(gè)單獨(dú)時(shí)隙內(nèi),干擾機(jī)按照干擾、感知和策略學(xué)習(xí)更新的順序進(jìn)行工作。

    圖3 干擾-用戶時(shí)隙示意

    干擾階段:初始階段,干擾機(jī)隨機(jī)選擇一個(gè)干擾信道fj(0)和功率等級pj(0),即干擾機(jī)在0-th時(shí)隙開始以功率pj(0)在信道fj(0)上進(jìn)行干擾;后續(xù)干擾策略由玻爾茲曼更新策略決策得到。

    頻譜感知階段:在TWSS內(nèi),干擾機(jī)會(huì)通過寬帶感知探測當(dāng)前時(shí)刻各信道頻譜狀態(tài),在k-th時(shí)隙感知到用戶通信信道為fu(k),則當(dāng)前的狀態(tài)為Sk(fu(k),fj(k),pj(k)),并計(jì)算當(dāng)前時(shí)隙的獎(jiǎng)勵(lì)值Rk。

    策略學(xué)習(xí)更新階段:干擾機(jī)通過當(dāng)前時(shí)隙獲得的獎(jiǎng)勵(lì)值更新Q值表,并且根據(jù)更新后的Q值表通過玻爾茲曼更新策略決策出下一時(shí)隙的干擾信道。干擾機(jī)在之后每一個(gè)時(shí)隙都經(jīng)歷相同的決策過程,并不斷更新Q值表。通過不斷訓(xùn)練Q值表強(qiáng)化對環(huán)境的認(rèn)知,最終在復(fù)雜動(dòng)態(tài)變化的環(huán)境下干擾機(jī)可以決策出最佳干擾策略。本文提出的信道與功率聯(lián)合干擾決策算法如表1所示。

    3 仿真分析

    圖4給出了定位檢測概率曲線圖,在理論上分析了不同的虛警概率PFA條件下為達(dá)到某個(gè)檢測概率Pra需要的接收能量大小。由圖4可得,在給定虛警概率時(shí),接收到的能量值越大,成功檢測的概率就越大。

    表1 基于強(qiáng)化學(xué)習(xí)的功率與信道聯(lián)合干擾算法

    圖4 檢測概率變化曲線

    本文主要研究如何在動(dòng)態(tài)變化環(huán)境中利用強(qiáng)化學(xué)習(xí)找到最佳干擾策略,在保證干擾效果的同時(shí)降低干擾機(jī)被定位概率,并對所提算法的干擾性能進(jìn)行了仿真分析,同時(shí)提出了隨機(jī)干擾算法和基于Q學(xué)習(xí)的不考慮定位因素干擾算法。與所提學(xué)習(xí)算法進(jìn)行對比,它能夠更加直觀反映所提干擾算法的干擾效果。隨機(jī)干擾算法在每一個(gè)時(shí)隙通過隨機(jī)選擇干擾信道和功率進(jìn)行干擾?;赒學(xué)習(xí)的不考慮定位因素干擾算法是干擾機(jī)以恒定功率進(jìn)行干擾,目標(biāo)是使通信用戶吞吐量降到最低。針對以上不同算法,仿真分析不同參數(shù)下的干擾性能。本文中干擾機(jī)功率等級設(shè)定為P={10 W,20W,40W},在仿真通信環(huán)境中計(jì)算出被定位概率為Pra={0.1,0.2,0.5}。算法仿真中具體參數(shù)設(shè)置如表2所示,相關(guān)參數(shù)設(shè)置是參考文獻(xiàn)和工作實(shí)際所得(所有仿真圖數(shù)據(jù)為每50個(gè)點(diǎn)取平均)。

    表2 相關(guān)參數(shù)設(shè)置

    圖5給出了所提算法效用函數(shù)變化曲線。在算法初期,干擾機(jī)效用很低,隨著學(xué)習(xí)和訓(xùn)練的時(shí)間不斷加長,干擾機(jī)逐漸掌握環(huán)境變化規(guī)律,效用值不斷增加,最后收斂。

    圖5 效用函數(shù)變化曲線

    圖6給出了在用戶狀態(tài)S(fu(k)=1)(即用戶在通信信道1傳輸數(shù)據(jù))下干擾機(jī)各個(gè)動(dòng)作選擇概率曲線。仿真結(jié)果表明,在算法執(zhí)行初期,用戶在該狀態(tài)下每個(gè)動(dòng)作的選擇概率相等。在經(jīng)過一定時(shí)間的訓(xùn)練后,干擾機(jī)和環(huán)境不斷交互,對環(huán)境認(rèn)知逐漸加強(qiáng),趨向于選擇當(dāng)前最優(yōu)的干擾策略。從圖6可以看出,經(jīng)過一定時(shí)間訓(xùn)練后算法收斂,干擾機(jī)在用戶狀態(tài)S(fu(k)=1)下以近乎于1的概率選擇發(fā)射功率p2=20 W、干擾信道為3的干擾動(dòng)作。

    圖6 各動(dòng)作選擇概率變化曲線

    圖7給出在用戶狀態(tài)S(fu(k)=1)下的各個(gè)動(dòng)作的Q值變化曲線。在干擾算法運(yùn)行開始,干擾機(jī)在每個(gè)動(dòng)作下的Q值均為0。經(jīng)過一定時(shí)間訓(xùn)練后,干擾機(jī)逐漸掌握環(huán)境變化規(guī)律,趨向于選擇最優(yōu)干擾決策。從圖7可以看出,在訓(xùn)練后期算法收斂時(shí),發(fā)射功率p2=20 W、干擾信道為3的聯(lián)合干擾動(dòng)作的Q值達(dá)到最大。因此,干擾機(jī)在所給狀態(tài)下會(huì)持續(xù)選擇發(fā)射功率p2=20 W,干擾信道為3的最優(yōu)干擾策略。

    圖7 各動(dòng)作Q值變化曲線

    圖8給出了所提算法和隨機(jī)干擾算法的對比,方框線代表本文所提算法,圓點(diǎn)線代表隨機(jī)選擇干擾算法。從圖8(a)可以看出,隨機(jī)選擇干擾算法吞吐量變化不定且無法收斂,用戶平均吞吐量在0.75 Mb/s左右,表明隨機(jī)算法并沒有干擾到用戶。而所提算法在初期的系統(tǒng)吞吐量和隨機(jī)選擇算法大概一致,然而隨著訓(xùn)練時(shí)間的不斷加長,干擾機(jī)掌握環(huán)境變化規(guī)律找到最佳干擾策略,用戶吞吐量逐漸降低,最后算法收斂時(shí)的平均吞吐量達(dá)到0.1 Mb/s,用戶吞吐量性能降低了約85%。圖8中(b)給出了不同算法下干擾機(jī)被定位的概率值,可以看出,在干擾初期兩種算法中干擾機(jī)被定位概率幾乎相同,但是隨著時(shí)間的增加,隨機(jī)干擾無法收斂,一直處于波動(dòng)中,但是本文所提干擾算法被定位概率逐步下降,最后收斂到0.2。和隨機(jī)干擾算法相比,被定位概率平均降低了30%。以上結(jié)果表明,所提干擾算法具有更好的干擾效果。

    圖8 所提算法和隨機(jī)干擾算法對比

    圖9中,將所提算法和基于學(xué)習(xí)的不考慮定位因素干擾算法進(jìn)行對比,對比算法干擾功率保持恒定,目標(biāo)是最大化降低通信用戶吞吐量,因此功率取最大發(fā)射功率。方框線代表本文所提算法,五角星線代表基于學(xué)習(xí)的不考慮定位算法。在圖9(a)中可以看到,對比算法干擾功率保持最大且恒定時(shí),通信用戶吞吐量降低并不十分明顯;但是,在圖9(b)中所提智能干擾算法卻可以使干擾機(jī)被定位概率降低60%。因此,本文設(shè)計(jì)的智能干擾算法具有更好的綜合干擾效果。

    圖9 所提算法和基于Q學(xué)習(xí)不考慮定位干擾算法對比

    4 結(jié)語

    針對復(fù)雜電磁環(huán)境中單一域干擾效率不高且考慮到干擾機(jī)被定位的問題,首先將干擾機(jī)和通信用戶之間的交互行為建模為一個(gè)馬爾科夫決策過程,同時(shí)基于強(qiáng)化學(xué)習(xí)提出了聯(lián)合干擾算法。仿真結(jié)果表明,所提算法可以通過和環(huán)境的不斷交互探索到最佳干擾策略,在顯著降低用戶吞吐量的同時(shí),降低干擾機(jī)被定位和發(fā)現(xiàn)概率。下一步考慮將所提算法應(yīng)用到實(shí)際干擾系統(tǒng)中,搭建智能干擾平臺(tái)對算法進(jìn)行實(shí)際通信環(huán)境的驗(yàn)證。

    猜你喜歡
    干擾機(jī)時(shí)隙信道
    雷聲公司交付首套中頻段下一代干擾機(jī)
    復(fù)用段單節(jié)點(diǎn)失效造成業(yè)務(wù)時(shí)隙錯(cuò)連處理
    基于壓縮感知的單脈沖雷達(dá)欺騙干擾機(jī)研究
    一種高速通信系統(tǒng)動(dòng)態(tài)時(shí)隙分配設(shè)計(jì)
    時(shí)隙寬度約束下網(wǎng)絡(luò)零售配送時(shí)隙定價(jià)研究
    空襲遠(yuǎn)距離支援干擾機(jī)陣位選擇及航線規(guī)劃
    美國海軍將研制新一代干擾機(jī)
    基于導(dǎo)頻的OFDM信道估計(jì)技術(shù)
    一種改進(jìn)的基于DFT-MMSE的信道估計(jì)方法
    基于MED信道選擇和虛擬嵌入塊的YASS改進(jìn)算法
    蓬莱市| 宝兴县| 黎川县| 讷河市| 柳州市| 黎平县| 锦州市| 长丰县| 邵阳县| 永川市| 宁陕县| 汽车| 海原县| 闽侯县| 淅川县| 突泉县| 石泉县| 兴隆县| 鹤庆县| 开鲁县| 海原县| 交城县| 宜川县| 泗阳县| 曲松县| 盖州市| 铁力市| 获嘉县| 剑阁县| 沅陵县| 湘阴县| 阳曲县| 阿拉尔市| 石景山区| 宁蒗| 潮安县| 上杭县| 乐都县| 怀集县| 襄垣县| 梅河口市|