• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于強(qiáng)化學(xué)習(xí)的無人機(jī)安全通信軌跡在線優(yōu)化策略

      2021-06-25 06:46:00鄭思遠(yuǎn)張廣馳
      關(guān)鍵詞:視距保密鏈路

      鄭思遠(yuǎn),崔 苗,張廣馳

      (廣東工業(yè)大學(xué) 信息工程學(xué)院,廣東 廣州 510006)

      隨著信息時(shí)代的快速發(fā)展,無人機(jī)憑借自身獨(dú)特的優(yōu)勢被廣泛地應(yīng)用到諸多領(lǐng)域,比如空中偵察、航空影像以及災(zāi)后緊急救援等。在無線通信領(lǐng)域中,無人機(jī)因其高度靈活性、造價(jià)低廉等特點(diǎn)備受歡迎,其主要應(yīng)用在3個(gè)方向,移動(dòng)基站、移動(dòng)中繼和數(shù)據(jù)搜集[1-3]。在無人機(jī)協(xié)作的無線通信系統(tǒng)中,無人機(jī)在空中的高度優(yōu)勢使得其與地面通信時(shí)的鏈路極大概率是視距信道(Light-of-Sight,LoS),很大程度上提高了通信質(zhì)量。然而無人機(jī)的參與也帶來了新的安全挑戰(zhàn),由于無線信道具備廣播的開放特性,無人機(jī)與地面通信在提高通信質(zhì)量的同時(shí)也提高了潛在竊聽者接收信息的強(qiáng)度,增加了信息傳輸時(shí)的安全隱患。如何確保機(jī)密信息在傳輸過程中不被竊聽是一個(gè)很重要的應(yīng)用技術(shù)。物理層安全作為一個(gè)有效的防竊聽技術(shù)被廣泛研究[4],本文通過研究物理層安全提高無人機(jī)無線通信的安全性能。

      根據(jù)竊聽信道模型可知,當(dāng)合法信道的通信質(zhì)量優(yōu)于竊聽信道時(shí),可以實(shí)現(xiàn)安全通信性能的提升[5]。保密率是物理層安全中一個(gè)極為重要的概念,當(dāng)合法鏈路的通信質(zhì)量比竊聽鏈路的通信質(zhì)量高時(shí),可以得到一個(gè)非零的保密率。因此,物理層安全研究的關(guān)鍵就是考慮如何在提高合法鏈路通信質(zhì)量的同時(shí)降低竊聽鏈路的通信質(zhì)量。在已有的物理層安全相關(guān)文獻(xiàn)中,根據(jù)是否利用到無人機(jī)的高度機(jī)動(dòng)性可以分為兩種類型,即通信節(jié)點(diǎn)是靜態(tài)(或準(zhǔn)靜態(tài))的無線通信和無人機(jī)協(xié)作的無線通信。當(dāng)通信節(jié)點(diǎn)固定時(shí),物理層安全的研究主要集中在信道、功率控制以及信號(hào)檢測等技術(shù)手段[6-7]。例如文獻(xiàn)[8-9]提出利用人工噪聲在避開合法接收者的情況下降低竊聽鏈路的通信質(zhì)量。在多輸入多輸出系統(tǒng)中,可以利用波束成形的技術(shù)方法改善合法鏈路的通信質(zhì)量,降低竊聽鏈路的通信質(zhì)量[10-11]。相對于將通信節(jié)點(diǎn)布置在地面的傳統(tǒng)方法,無人機(jī)協(xié)作的物理層安全研究充分利用了無人機(jī)的機(jī)動(dòng)靈活性,使其在三維空間內(nèi)部署,可以明顯提高合法鏈路的通信質(zhì)量,提高保密率。文獻(xiàn)[12-13]提出聯(lián)合優(yōu)化無人機(jī)軌跡和通信資源分配以提高物理層安全。文獻(xiàn)[14]將無人機(jī)作為空中基站,通過有效分配帶寬、功率等資源提高無線通信系統(tǒng)的通信質(zhì)量。文獻(xiàn)[15-16]提出通過可移動(dòng)的無人機(jī)發(fā)出噪聲干擾竊聽者,從而提高通信安全的方法。此外,考慮到單個(gè)無人機(jī)的活動(dòng)范圍較小,對系統(tǒng)通信質(zhì)量的提升有限,文獻(xiàn)[17-18]對多無人機(jī)進(jìn)行部署以提高系統(tǒng)的通信質(zhì)量和吞吐量。值得注意的是,以上所述文獻(xiàn)的無線通信系統(tǒng)是基于視距信道模型的,將通信環(huán)境視為完全已知。若無人機(jī)和地面用戶的坐標(biāo)確定,可以在無人機(jī)出發(fā)前完成整個(gè)飛行路徑的設(shè)計(jì),軌跡優(yōu)化策略也是離線的。若通信環(huán)境發(fā)生變化,離線策略得到的無人機(jī)軌跡不能做出相應(yīng)變動(dòng),其弊端在于忽略了由于存在障礙物位置的隨機(jī)性造成無人機(jī)與地面節(jié)點(diǎn)間信道衰落的隨機(jī)性,真實(shí)的信道應(yīng)是視距信道和非視距信道(Non-Light-of-Sight,NLoS)的混合,故信道增益也是隨機(jī)的。

      針對這個(gè)問題,本文研究無人機(jī)軌跡的在線優(yōu)化策略,提出一種基于強(qiáng)化學(xué)習(xí)Q-learning算法的優(yōu)化方法[19]。動(dòng)態(tài)規(guī)劃(Dynamic Programming,DP),蒙特卡洛方法(Monte Carlo Methods,MC)和時(shí)序差分學(xué)習(xí)(Temporal-Difference Learning,TD)是強(qiáng)化學(xué)習(xí)中常用的方法,而Q-learning算法是TD方法中一個(gè)重要突破。相比于DP方法,TD方法的最大優(yōu)勢在于其可以直接從與環(huán)境互動(dòng)的經(jīng)驗(yàn)中學(xué)習(xí),不需要構(gòu)建環(huán)境模型。相比于MC方法,TD方法不需要等待與環(huán)境交互的最終結(jié)果,而是基于已得到的其他狀態(tài)的估值以在線、完全增量的方式更新當(dāng)前狀態(tài)的動(dòng)作價(jià)值函數(shù),可用于連續(xù)任務(wù)。

      相比于已有的無人機(jī)軌跡設(shè)計(jì)算法,本文提出的算法不需要環(huán)境完全已知,借助無人機(jī)在飛行過程中每個(gè)位置得到的反饋信號(hào)作為收益值可以不斷訓(xùn)練、更新無人機(jī)的軌跡,最終實(shí)現(xiàn)路徑優(yōu)化。若是環(huán)境發(fā)生變化,無人機(jī)也可以通過與環(huán)境的自主交互實(shí)現(xiàn)軌跡重新優(yōu)化。算法的目標(biāo)是通過優(yōu)化無人機(jī)的飛行軌跡使得平均保密率達(dá)到最大。此外,本文的空地信道模型采用更符合實(shí)際的視距/非視距混合信道模型,由文獻(xiàn)[20]可知,空地通信鏈路是視距鏈路或者是非視距鏈路的概率大小與無人機(jī)到地面節(jié)點(diǎn)的仰角以及環(huán)境因素有關(guān)。由仿真結(jié)果可知,當(dāng)無線通信系統(tǒng)的通信環(huán)境處于動(dòng)態(tài)變化時(shí),本文提出的算法可以在線優(yōu)化無人機(jī)飛行路徑,并取得優(yōu)于基準(zhǔn)策略的平均保密率性能。

      1 系統(tǒng)模型

      本文考慮一個(gè)無人機(jī)基站通信系統(tǒng),該系統(tǒng)由一個(gè)無人機(jī)基站和一個(gè)地面合法接收節(jié)點(diǎn)組成,同時(shí)地面存在一個(gè)竊聽節(jié)點(diǎn),系統(tǒng)模型如圖1所示。地面竊聽者的位置可借助雷達(dá)掃描定位等技術(shù)手段探得[12,21],所以本文設(shè)定合法接收節(jié)點(diǎn)和竊聽節(jié)點(diǎn)的位置已知,兩者之間的距離為Z,其位置坐標(biāo)分別是(0,0,0) 和 (Z,0,0)。為了方便計(jì)算,設(shè)無人機(jī)的起飛、降落過程所需時(shí)間忽略不計(jì),假設(shè)無人機(jī)基站一次完整的飛行時(shí)間為T,在時(shí)刻t無人機(jī)的坐標(biāo)是Ω(t)=(x(t),y(t),H),0 ≤t≤T,其中H是無人機(jī)固定的飛行高度。大多數(shù)情況下無人機(jī)的最小飛行高度需要比地面上的建筑高而且與地面接收者的通信鏈路主要由視距鏈路構(gòu)成。為了維持良好的通信性能,無人機(jī)會(huì)固定在最小飛行高度上飛行,因此本文考慮無人機(jī)的飛行高度固定。無人機(jī)的起始位置和終點(diǎn)位置分別是 Ω0=(x0,y0,H) 和ΩF=(xF,yF,H)。在飛行過程中,無人機(jī)飛行時(shí)速度設(shè)為定值,即‖v(t)‖=v,無人機(jī)懸停時(shí)速度為0。無人機(jī)在時(shí)刻t與終點(diǎn)的距離是

      圖1 一個(gè)基于無人機(jī)的無線通信系統(tǒng)Fig.1 A UAV-enabled wireless communication

      本文采用文獻(xiàn)[22]中的視距/非視距混合信道模型,對無人機(jī)基站到地面兩個(gè)節(jié)點(diǎn)的鏈路進(jìn)行建模。其信道增益包含大尺度的路徑損耗和小尺度的瑞利衰落。用hk表示無人機(jī)到地面節(jié)點(diǎn)的信道增益,其中k取值為1和2,分別表示合法接收節(jié)點(diǎn)與竊聽節(jié)點(diǎn),由此可以得到

      其中,ρk(t) 表示小尺度衰落,P Lk(t)表示通信鏈路在時(shí)刻t的平均路徑損耗。由于信道是視距或非視距的概率與無人機(jī)到地面節(jié)點(diǎn)的仰角大小有關(guān),為了明確視距信道和非視距信道對平均路徑損耗的影響,需要根據(jù)無人機(jī)到地面節(jié)點(diǎn)的仰角計(jì)算出其分別發(fā)生的概率。具體而言,無人機(jī)與地面節(jié)點(diǎn)k在時(shí)刻t為視距信道的概率為

      其中, P LLoS(t) 和P LNLoS(t)分別是視距和非視距兩種信道的自由空間路徑損耗,P LLoS(t)的表達(dá)式是

      其中,無人機(jī)在t時(shí)刻到節(jié)點(diǎn)k的距離表示為dk(t),π是圓周率,f是載波頻率,c是光速,ηLoS是視距信道因環(huán)境因素造成的額外損耗。同樣地,非視距信道的自由空間路徑損耗表示為

      其中,ηNLoS是非視距信道因環(huán)境因素造成的額外損耗。不失一般性地,文中把小尺度衰落ρk(t),?t看作E{|ρk|2}=1的獨(dú)立同分布。根據(jù)模型,無人機(jī)到地面節(jié)點(diǎn)k鏈路的信道增益是gk=|hk(t)|2,無人機(jī)的傳輸功率被標(biāo)記為P,設(shè)為常量。根據(jù)香農(nóng)公式,從無人機(jī)到地面節(jié)點(diǎn)k的可達(dá)率( bps/Hz)為

      其中,σ2是地面節(jié)點(diǎn)接收機(jī)密信息時(shí)產(chǎn)生的熱噪聲功率,無人機(jī)在時(shí)刻t的保密率為[9,12]

      無人機(jī)完成一次飛行的時(shí)間為T,本文把T分成N個(gè)相等的時(shí)間間隔,即T=Ndt,dt表示時(shí)間間隔的長度,將其設(shè)置為足夠小使得每個(gè)時(shí)間間隔內(nèi)的無人機(jī)可以視為處于靜止?fàn)顟B(tài)。式(7)則可以改寫為

      其中,n=1,2,···,N,由式(8)可知,在無人機(jī)從出發(fā)點(diǎn)到終點(diǎn)飛行的N個(gè)時(shí)段中,無人機(jī)基站的平均保密率是

      其中,[x]+=max(x,0)。

      本文的目標(biāo)是通過對無人機(jī)軌跡優(yōu)化使得式(10)中的平均保密率Γave_sec最大化,已有文獻(xiàn)中傳統(tǒng)方案對此類問題的解決方式是利用連續(xù)凸近似和塊坐標(biāo)下降法的方法,把非凸問題轉(zhuǎn)化為凸問題。但是此方法是離線的,沒有考慮無人機(jī)到地面節(jié)點(diǎn)間信道的隨機(jī)性,并且不適用于更符合實(shí)際的視距/非視距混合信道模型??紤]到信道增益的隨機(jī)性,本文提出采用在線優(yōu)化方法對無人機(jī)的軌跡進(jìn)行優(yōu)化。由于強(qiáng)化學(xué)習(xí)方法不需要環(huán)境完全已知,無人機(jī)可以直接從環(huán)境中學(xué)習(xí),對環(huán)境進(jìn)行探索和利用,因此本文提出基于強(qiáng)化學(xué)習(xí)的方法解決無人機(jī)軌跡在線優(yōu)化的問題。

      2 強(qiáng)化學(xué)習(xí)的實(shí)現(xiàn)機(jī)理

      強(qiáng)化學(xué)習(xí)明確考慮了目標(biāo)導(dǎo)向的智能體與未知環(huán)境之間的交互問題。馬爾可夫決策過程(Markov Decision Process, MDP)是一種通過交互式學(xué)習(xí)來實(shí)現(xiàn)目標(biāo)的理論框架,也是強(qiáng)化學(xué)習(xí)問題在數(shù)學(xué)上的理想形式。智能體是進(jìn)行環(huán)境學(xué)習(xí)和實(shí)施決策的個(gè)體,與智能體相互作用的事物被稱為環(huán)境,也可以將環(huán)境理解為智能體要經(jīng)歷的狀態(tài)集合。智能體做出決策,即選擇一個(gè)合適的動(dòng)作At,環(huán)境對動(dòng)作做出響應(yīng),智能體所處的狀態(tài)會(huì)發(fā)生改變,從St變?yōu)镾t+1,同時(shí)得到采取動(dòng)作At后的收益Rt+1,也是智能體在動(dòng)作選擇過程中想要最大化的數(shù)值。圖2展示了智能體與環(huán)境的交互過程,過程完成后智能體繼續(xù)選擇下一個(gè)合適的動(dòng)作,不斷重復(fù)此過程直到達(dá)到結(jié)束條件,這一系列狀態(tài)和動(dòng)作構(gòu)成智能體的策略Π 。

      圖2 馬爾可夫決策過程中智能體與環(huán)境的交互Fig.2 The agent-environment interaction in a Markov decision process

      3 Q-learning算法優(yōu)化無人機(jī)軌跡

      Q-learning算法是一種使用時(shí)序差分求解強(qiáng)化學(xué)習(xí)控制問題的方法,是不基于環(huán)境狀態(tài)轉(zhuǎn)化模型的求解方法。該算法以迭代的方式計(jì)算最優(yōu)動(dòng)作價(jià)值函數(shù),即通過動(dòng)作價(jià)值函數(shù)更新策略,由策略產(chǎn)生新的狀態(tài)和收益,進(jìn)而更新動(dòng)作價(jià)值函數(shù),直到動(dòng)作價(jià)值函數(shù)和策略都收斂。動(dòng)作價(jià)值函數(shù)的更新表示為

      其中,步長α ∈(0,1]。Q-learning算法最大優(yōu)勢是待學(xué)習(xí)的動(dòng)作價(jià)值函數(shù)Q直接近似于最優(yōu)動(dòng)作價(jià)值函數(shù)Q*(s,a),而與生成智能體決策序列的策略無關(guān)。

      根據(jù)提出的模型,本文將無人機(jī)飛行過程分為兩個(gè)階段。設(shè)定時(shí)間Tmid,當(dāng)無人機(jī)的飛行時(shí)間t≤Tmid時(shí)是第一階段,無人機(jī)從起始位置Ω0飛到保密率最大的位置,并在此位置保持懸停;t>Tmid時(shí)是第二階段,無人機(jī)從保密率最大的位置飛到終點(diǎn)位置ΩF,兩階段的收益值不同。考慮到無人機(jī)通信環(huán)境的隨機(jī)性,對于Tmid的設(shè)定分為兩部分,第一部分是無人機(jī)從起始位置到保密率最大位置的飛行時(shí)間,其值在確定保密率最大位置時(shí)可以計(jì)算得到;第二部分是無人機(jī)在保密率最大位置上的懸停時(shí)間,此值根據(jù)平均保密率的增量設(shè)定。具體來講,無人機(jī)在保密率最大位置懸停的時(shí)間越久,整體的平均保密率值越大,當(dāng)平均保密率的增長速率低于閾值時(shí),則以滿足此條件的懸停時(shí)間進(jìn)行計(jì)算。由Q-learning算法的框架,對智能體、狀態(tài)、動(dòng)作以及收益作出如下定義:

      智能體:無人機(jī)U。

      狀態(tài)St:無人機(jī)在規(guī)定區(qū)域中t時(shí)刻的位置。一般來說無人機(jī)飛行的位置是連續(xù)的,為了限制狀態(tài)的數(shù)量,本文把飛行區(qū)域離散化,分割成一定數(shù)量的格子,無人機(jī)沿著格子的坐標(biāo)進(jìn)行移動(dòng)。

      動(dòng)作At:無人機(jī)在某狀態(tài)的動(dòng)作有5個(gè),即:往東、往西、往南、往北以及懸停。

      收益Rt: 由式(1)和式(8)可知D(t) 和 Γsec(t)分別是無人機(jī)到終點(diǎn)的距離和無人機(jī)在時(shí)刻t的保密率,收益值被定義為:(1) 當(dāng)無人機(jī)的飛行時(shí)間t≤Tmid時(shí),收益Rt=β1Γsec(t) ;(2) 當(dāng)無人機(jī)的飛行時(shí)間t>Tmid時(shí),收益Rt=β2Γsec(t)+β3D(t) ; 其中β1,β2和 β3是系數(shù)。

      算法如下:

      參數(shù):幕數(shù)Nep,狀態(tài)集S,動(dòng)作集A(s), 步長α,探索率ε,衰減因子γ。

      (1) 初始化兩個(gè)Q表Q1(s,a) 和Q2(s,a) ,且?s∈S,a∈A(s);

      (2) 設(shè)定2個(gè)飛行階段的終點(diǎn)位置的狀態(tài)分別是Q1(Terminalstate,·) 和Q2(Terminalstate,·),其值均為0;

      (3) 開始迭代以下步驟,直到幕值為Nep;

      a) 初始化無人機(jī)起飛位置;

      b) 用ε-貪婪算法根據(jù)當(dāng)前狀態(tài)St選擇動(dòng)作At;

      c) 執(zhí)行動(dòng)作At,得到新的狀態(tài)St+1和 收益Rt+1;

      d) 按照下式更新動(dòng)作價(jià)值函數(shù)Q,當(dāng)無人機(jī)的飛行時(shí)間t≤Tmid時(shí),更新Q1(s,a);當(dāng)無人機(jī)的飛行時(shí)間t>Tmid時(shí),更新Q2(s,a):Q(St,At)←Q(St,At)+α[Rt+1+γmaxaQ(St+1,a)-Q(St,At)];

      e)St←St+1;

      f) 如果St+1是終止?fàn)顟B(tài),當(dāng)前迭代結(jié)束,否則

      轉(zhuǎn)到步驟b)。

      4 仿真結(jié)果

      此節(jié)將通過仿真結(jié)果對文中提出的無人機(jī)軌跡優(yōu)化算法的優(yōu)越性進(jìn)行驗(yàn)證,并且與兩種基準(zhǔn)算法進(jìn)行比較。

      (1) 直線飛行軌跡(標(biāo)記為Line)。此算法考慮視距/非視距混合信道,無人機(jī)從出發(fā)位置以恒速飛向合法接收節(jié)點(diǎn)的位置,到達(dá)后并在該節(jié)點(diǎn)懸停,最后在飛行時(shí)間結(jié)束前飛向終點(diǎn)位置。

      (2) 凸近似方法優(yōu)化軌跡(標(biāo)記為Convex)。此算法只考慮視距信道,即忽略了信道衰落的隨機(jī)性,利用連續(xù)凸近似法和塊坐標(biāo)下降法對無人機(jī)的離線軌跡進(jìn)行優(yōu)化[12]。

      此文中合法接收節(jié)點(diǎn)和竊聽節(jié)點(diǎn)之間的距離設(shè)為Z=200m ,無人機(jī)的飛行高度設(shè)為H=100m,無人機(jī)的初始位置和終點(diǎn)位置分別設(shè)置(x0,y0)=(100m,200m) 和(xF,yF)=(100m,-200m)。本文考慮無人機(jī)的飛行區(qū)域是2 50m×400m,為了方便無人機(jī)飛行過程中狀態(tài)數(shù)目的計(jì)算,把飛行區(qū)域劃分成25000個(gè)狀態(tài)。飛行過程中無人機(jī)的功率設(shè)定為P=-5dBm 。其他的參數(shù)為載波頻率f=5GHz,熱噪聲功率 σ2=-90dBm ,環(huán)境參數(shù)( ω1,ω2)=(5,0.5),ηLoS=1,ηNLoS=20, 收益值參數(shù)( β1,β2,β3)=(10,10,-0.3),v=2m/s, α=0.5,γ=1。

      圖3顯示的是在利用Q-learning算法訓(xùn)練過程中,每幕的平均保密率值隨著幕數(shù)的增加而收斂。訓(xùn)練開始的時(shí)候,無人機(jī)因?yàn)閷ξ粗h(huán)境探索,平均保密率有很大的波動(dòng)。隨著迭代次數(shù)增加,動(dòng)作價(jià)值函數(shù)和策略逐漸收斂,無人機(jī)飛行的優(yōu)化路徑逐漸明晰,相應(yīng)的平均保密率也開始收斂。由于利用ε-貪婪算法選取飛行方向使得無人機(jī)小概率處于探索狀態(tài),所以平均保密率即便是趨于收斂也存在偶爾擾動(dòng),但隨著迭代進(jìn)行,無人機(jī)軌跡最終實(shí)現(xiàn)優(yōu)化,使得平均保密率達(dá)到最大值。本文采用的是視距/非視距混合信道模型,因?yàn)榇嬖谡系K物等因素使得通信環(huán)境的信道增益是隨機(jī)的,相應(yīng)的無人機(jī)優(yōu)化軌跡也是不唯一的。

      圖3 每幕平均保密率的收斂圖Fig.3 Convergence of average secrecy rate versus episode

      圖4和圖5分別展示了文中提出的算法和基準(zhǔn)算法在因信道增益隨機(jī)性而造成的2種不同通信環(huán)境下的無人機(jī)飛行軌跡。其中合法接收節(jié)點(diǎn)、竊聽節(jié)點(diǎn)的位置以及無人機(jī)初始、終點(diǎn)位置分別用○,Δ,×,+,這4種符號(hào)標(biāo)記。為了限制無人機(jī)的狀態(tài)數(shù)目,文中將其飛行區(qū)域離散化并分割成一定數(shù)目的格子,因此圖中無人機(jī)的飛行軌跡是曲折的。由于圖4和圖5中顯示的2種基準(zhǔn)算法是離線策略,所以得到的無人機(jī)路徑是固定不變的。而Q-learning算法是在線策略,其軌跡圖(標(biāo)記為Q-learning)是隨著不同通信情況而變化的,此算法使得無人機(jī)飛行時(shí)會(huì)避開竊聽節(jié)點(diǎn)的位置,先飛到保密率最大的位置保持懸停狀態(tài),最后在飛行時(shí)間結(jié)束前飛向終點(diǎn)位置。保密率最大的位置在圖4和圖5中分別用五角星☆標(biāo)記。

      圖4 3種算法的軌跡對比圖(環(huán)境I)Fig.4 Trajectories of different algorithms (Environment I)

      圖5 3種算法的軌跡對比圖(環(huán)境II)Fig.5 Trajectories of different algorithms (Environment II)

      隨著無人機(jī)在保密率最大位置停留的時(shí)間增加,平均保密率也是增加的。圖6是在飛行環(huán)境Ⅰ的情況下無人機(jī)的平均保密率隨著懸停時(shí)間增加的變化曲線。當(dāng)平均保密率的增長率低于設(shè)定的閾值時(shí)(閾值=0 .0019bps/Hz),選擇此時(shí)間作為無人機(jī)的一次完整的飛行時(shí)間T。

      圖6 平均保密率隨時(shí)間變化圖Fig.6 Average secrecy rate versus flight time

      圖7展示的是在T=590s為飛行時(shí)間的條件下,3種不同算法所對應(yīng)的平均保密率隨飛行時(shí)間的變化。由圖可知3種算法的平均保密率都是隨著時(shí)間加長而出現(xiàn)增長。需要注意的是,利用凸近似方法得到的無人機(jī)軌跡在通信環(huán)境只考慮視距傳輸?shù)那闆r下是最優(yōu)的,而在圖7中Q-learning算法得到的平均保密率的值高于該算法。原因是本文采用的信道模型是視距/非視距混合模型,其信道衰落存在隨機(jī)性,而凸近似方法得到的軌跡完全根據(jù)視距模型設(shè)計(jì)的,不能完全反映真實(shí)的信道情況,所以該算法的性能不如文中所提的在線優(yōu)化算法。直線飛行軌跡懸停的位置是在合法接收節(jié)點(diǎn)的正上方,由仿真結(jié)果可知該位置并不是保密率最大的位置。綜上,相對于2種基準(zhǔn)算法,本文提出的算法的平均保密率是最大的。

      圖7 不同算法的平均保密率變化圖Fig.7 Average secrecy rates of different algorithms

      5 結(jié)論

      本文基于強(qiáng)化學(xué)習(xí)中的Q-learning算法提出了一種無人機(jī)與環(huán)境自主交互、可在線優(yōu)化無人機(jī)飛行軌跡的保障物理層通信安全的方法,目的是在存在竊聽者的情況下使得無人機(jī)基站發(fā)送的機(jī)密信息被安全地傳輸,最大化平均通信保密率。由仿真結(jié)果可知,在視距/非視距混合信道下,利用Q-learning算法能夠?qū)o人機(jī)進(jìn)行有效訓(xùn)練使得其飛行軌跡實(shí)現(xiàn)在線優(yōu)化,所提算法的平均保密率性能優(yōu)于已有的離線基準(zhǔn)算法。

      猜你喜歡
      視距保密鏈路
      家紡“全鏈路”升級(jí)
      多措并舉筑牢安全保密防線
      中國石化(2022年5期)2022-06-10 06:39:32
      天空地一體化網(wǎng)絡(luò)多中繼鏈路自適應(yīng)調(diào)度技術(shù)
      《信息安全與通信保密》征稿函
      俄羅斯
      一種基于非視距誤差補(bǔ)償?shù)膮f(xié)同定位算法
      安全視距應(yīng)該成為道路安全管理的基礎(chǔ)共識(shí)
      汽車與安全(2017年9期)2017-09-29 01:36:57
      淺談道路設(shè)計(jì)中的停車視距與驗(yàn)證
      居業(yè)(2017年5期)2017-07-24 13:56:27
      論中國共產(chǎn)黨的保密觀
      基于3G的VPDN技術(shù)在高速公路備份鏈路中的應(yīng)用
      达日县| 元氏县| 赤壁市| 金阳县| 黔东| 子长县| 合水县| 琼中| 山阴县| 建水县| 孙吴县| 沅江市| 台东市| 抚顺市| 大理市| 北宁市| 新晃| 彩票| 安庆市| 定安县| 天峻县| 营山县| 定西市| 呈贡县| 平利县| 合江县| 永春县| 元氏县| 龙里县| 崇仁县| 湟中县| 新兴县| 四平市| 怀仁县| 大渡口区| 凌海市| 三明市| 军事| 边坝县| 育儿| 南平市|