譚蓉俊
(昆明船舶設(shè)備研究試驗中心 昆明 650216)
目前,有人-無人以及無人裝備集群正在大規(guī)模生成,通信成為集群協(xié)同能力的基礎(chǔ),其中信息安全是影響通信的關(guān)鍵因素之一。無人機(Unmanned Aerial Vehicles,UAV)由于其可移動性、靈活部署的特性在無線通信中得到廣泛應(yīng)用[1]。與現(xiàn)有的地面通信系統(tǒng)相比,無人機輔助的無線通信網(wǎng)絡(luò)能克服地形特性造成的傳播限制,增強信號覆蓋范圍并降低運營成本[2]。由于無線信道的廣播性、開放性,使得地面通信存在竊聽安全問題。與地面竊聽者相比,無人機竊聽者(Unmanned Aerial Vehicles Eavesdropper,UED)受地形特征約束較少,且空中與地面之間視距信道的存在,可形成比地面信號強度更強的竊聽信號,使得無人機竊聽者為地面通信安全帶來更大威脅。因此,地面通信中含有無人機竊聽者的安全性引起業(yè)界廣泛關(guān)注。
為解決通信安全問題,物理層安全作為傳統(tǒng)加密技術(shù)的補充,利用無線信道的隨機性、廣播性,實現(xiàn)信息安全傳輸,無需加密和解密[3~5]。在物理層安全中,通過向竊聽者發(fā)射人工噪聲信號以降低竊聽信道容量,是提升物理層安全的有效方法。近年來,無人機輔助發(fā)射的人工噪聲,即空中人工噪聲發(fā)射機,可以充分利用無人機可移動、靈活部署的特性,且空中與地面之間視距信道的存在,可形成比地面信號強度更強的干擾信號[6]。物理層安全中,由于無線信號的衰落特性,保密中斷概率(Secrecy Output Probability,SOP)可以作為衡量系統(tǒng)安全性能的指標(biāo)[7]。文獻(xiàn)[8]在含有無人機竊聽者的通信系統(tǒng)中,采用空中人工噪聲發(fā)射機發(fā)射人工噪聲的方式提升物理層安全性能,通過推導(dǎo)保密中斷概率評價系統(tǒng)的安全性能。
空中人工噪聲發(fā)射機位置直接決定了視距信號的強度,進而決定系統(tǒng)保密性能。因此,為實現(xiàn)空中人工噪聲發(fā)射機對竊聽信道的最佳干擾效果,需要對空中人工噪聲發(fā)射機軌跡進行優(yōu)化??罩腥斯ぴ肼暟l(fā)射機軌跡優(yōu)化問題通常為非凸優(yōu)化問題,傳統(tǒng)的方法采用迭代算法或者通過將凸優(yōu)化問題轉(zhuǎn)換為非凸優(yōu)化問題[9~10]。近年來強化學(xué)習(xí)的Q-learning算法,由于不需要狀態(tài)轉(zhuǎn)移概率,適用于無人機軌跡優(yōu)化問題,通過對無人機軌跡優(yōu)化,實現(xiàn)資源的有效分配、保密性能最優(yōu)[11~13]。
綜上,針對含有無人機竊聽者的系統(tǒng)中,本文采用無人機輔助發(fā)射人工噪聲,提升系統(tǒng)物理層安全性能。同時,通過推導(dǎo)系統(tǒng)保密中斷概率衡量系統(tǒng)的保密性能,在此基礎(chǔ)上,為實現(xiàn)系統(tǒng)保密性能最優(yōu),提出基于Q-learning的空中人工噪聲發(fā)射機軌跡優(yōu)化算法,實現(xiàn)保密中斷最小的目標(biāo)。
如圖1所示,系統(tǒng)由合法發(fā)射機(Alice)、合法接收機(Bob)、無人機竊聽者(Eve)和空中人工噪聲發(fā)射機(Jammer)組成。其中Alice和Bob進行通信,Eve作為第三方竊聽者竊聽主信道信息,Jammer發(fā)送人工噪聲干擾信號對Alice到Eve的竊聽信道產(chǎn)生干擾以降低竊聽信道質(zhì)量。由于無線信號的廣播特性,Bob同時也會接收到人工噪聲信號。Eve的位置移動采取隨機移動的方式,其移動方向服從均勻分布,分別為前、后、左、右、上、下。為避免Eve移動過遠(yuǎn)失去竊聽意義,限定Eve移動速度在[0 ,cmax],其中cmax為Eve移動的最大速度。
圖1 系統(tǒng)模型
系統(tǒng)保密中斷概率的優(yōu)化目標(biāo)是通過優(yōu)化空中人工噪聲發(fā)射機的位置,獲得對竊聽者的最佳干擾,使得系統(tǒng)保密中斷概率最小。上述優(yōu)化問題的數(shù)學(xué)表達(dá)式為
其中C1、C2 、C3 表示空中人工噪聲發(fā)射機x、y、z軸范圍。
根據(jù)文獻(xiàn)[19]附錄推導(dǎo)可知,式(12)為非凸優(yōu)化問題,求解困難;應(yīng)用Q-learning強化學(xué)習(xí)算法,無需環(huán)境狀態(tài)轉(zhuǎn)移模型,可以有效解決無人機軌跡優(yōu)化問題。因此,接下來設(shè)計Q-learning算法求解式(12)的非凸優(yōu)化問題。
空中人工噪聲發(fā)射機作為智能體,采用Q-learning算法對飛行軌跡進行優(yōu)化,以達(dá)到最小化系統(tǒng)保密中斷概率的目標(biāo)。根據(jù)式(12)的優(yōu)化問題,定義Q-learning算法相關(guān)物理量如下。
其中0≤α≤1為學(xué)習(xí)率;0≤γ≤1為折扣因子(Discount Factor),表示未來的獎勵相對于當(dāng)前獎勵的重要程度;Q(st+1,a) 為新的狀態(tài)st+1下所有可能新的動作的值函數(shù)。在基于Q-learning的軌跡優(yōu)化算法中,采用ε-greedy方法,以避免算法停留在局部最大值。具體地講,智能體以概率ε選擇Q值最大值對應(yīng)的動作,以1-ε選擇其他動作?;赒-learning的空中人工噪聲發(fā)射機軌跡優(yōu)化算法如表1所示。
表1 基于Q-learning的空中人工噪聲發(fā)射機軌跡優(yōu)化算法
本節(jié)通過仿真驗證保密中斷概率推導(dǎo)的準(zhǔn)確性,并通過數(shù)值仿真結(jié)果分析基于Q-learning的空中人工噪聲發(fā)射機軌跡優(yōu)化算法性能。假設(shè)Alice、Bob獨立分布在地理位置為1km×1km的城市環(huán)境中,Eve按照隨機移動方式改變位置。仿真參數(shù)設(shè)置如表2所示。
表2 系統(tǒng)參數(shù)
圖2給出了系統(tǒng)保密中斷概率理論值和仿真值與Alice發(fā)射功率下的結(jié)果。從圖中可以得到仿真值與式(11)理論值吻合,表明所推導(dǎo)的式(11)的準(zhǔn)確性;當(dāng)增大Alice發(fā)射功率時,保密中斷概率減小,這表明當(dāng)增大Alice發(fā)射功率時,雖然同時改善主信道質(zhì)量和竊聽信道質(zhì)量,但由于人工噪聲對竊聽信道的干擾,更多地降低了竊聽信道質(zhì)量,保證了主信道質(zhì)量優(yōu)于竊聽信道質(zhì)量。另一方面,從圖中可以得到,隨著預(yù)定義傳輸速率R的增大,保密中斷概率增大,這是由于當(dāng)增大預(yù)定義傳輸速率R時,式(11)由式(10)保密中斷概率的定義可知,保密中斷概率將會增大。
圖2 保密中斷概率與PA之間的關(guān)系
圖3描述的是回合獎勵總值與訓(xùn)練回合數(shù)之間的關(guān)系,在不同初始位置下的收斂情況,可見隨著訓(xùn)練回合數(shù)的增加,每回合得到的獎勵值由初始的振蕩,逐漸增加至穩(wěn)定,表明空中人工噪聲發(fā)射機能夠從錯誤中吸取教訓(xùn),從而提高總的獎勵值,實現(xiàn)算法收斂。在圖3中,不同的線表示每次學(xué)習(xí)空中人工噪聲發(fā)射機的不同初始位置,均在大約200回合之后實現(xiàn)了收斂,可見當(dāng)空中人工噪聲發(fā)射機初始位置發(fā)生變化時,初始值振蕩不一致,最后趨于穩(wěn)定后得到最大獎勵值不一致,算法的收斂速度也會發(fā)生變化,但最終都能實現(xiàn)算法收斂。
圖3 回合獎勵總值與訓(xùn)練回合數(shù)之間的關(guān)系
圖4描述了不同算法下,Alice發(fā)射功率與系統(tǒng)保密中斷概率SOP的之間關(guān)系。其中,窮搜算法是指在空中人工噪聲發(fā)射機學(xué)習(xí)范圍內(nèi)逐一枚舉每個坐標(biāo)位置;遺傳算法是一種模擬自然進化的優(yōu)化算法;隨機部署算法指的是任意給定的一個空中人工噪聲發(fā)射機的位置。從圖中可以得到,與遺傳算法個隨機部署相比,Q-learning算法得到的最優(yōu)解與窮搜算法得到的最優(yōu)解重合,表明Q-learning能夠找到最優(yōu)解;與遺傳算法和隨機部署算法相比,Q-learning算法的最優(yōu)解更準(zhǔn)確。另一方面,從圖4可以得到,隨著Alice發(fā)射功率的增加,保密中斷概率減小,其原因同圖2所描述一致??梢姡ㄟ^優(yōu)化空中人工噪聲發(fā)射機飛行軌跡和空間位置,可以有效提升物理層保密性能。
圖4 基于Q-learning的空中人工噪聲發(fā)射機軌跡優(yōu)化算法和其他算法準(zhǔn)確性能比較
圖5比較了窮搜算法和Q-learning算法在不同飛行區(qū)域?qū)W得最優(yōu)空中人工噪聲發(fā)射機位置所消耗的時間。消耗時間為三個階段耗時總和,分別是空中人工噪聲發(fā)射機飛到初始位置、空中人工噪聲發(fā)射機學(xué)習(xí)尋找最優(yōu)位置、空中人工噪聲發(fā)射機從當(dāng)前位置飛到最優(yōu)位置這三個階段。飛行區(qū)域1、2、3對應(yīng)的學(xué)習(xí)范圍依次遞增。從圖中可以得到,在同一區(qū)域,窮搜算法和Q-learning算法相比,窮搜算法所消耗的時間顯著比較長;在不同區(qū)域窮搜算法消耗時間也比Q-learning算法的長。另一方面,空中人工噪聲發(fā)射機不同飛行區(qū)域相比,飛行區(qū)域較小時,雖然窮搜算法耗時比Q-learning算法大,但相差不大;飛行區(qū)域較大時,Q-learning算法耗時增加的幅度比窮搜算法明顯小,說明Q-learning算法時間復(fù)雜度低于窮搜算法,尤其在大范圍內(nèi)搜索最優(yōu)解時,Q-learning算法的優(yōu)勢更為明顯。
圖5 基于Q-learning的空中人工噪聲發(fā)射機軌跡優(yōu)化算法和窮搜算法時間比較
圖6和圖7繪制了空中人工噪聲發(fā)射機的飛行軌跡。其中圖6為Eve靜止時空中人工噪聲發(fā)射機獲得最優(yōu)解的飛行軌跡,空中人工噪聲發(fā)射機在學(xué)得最優(yōu)策略的過程中,假設(shè)空中人工噪聲發(fā)射機以勻速運動,空中人工噪聲發(fā)射機每飛行一步,都會根據(jù)第4節(jié)所述的7個方向中選擇一個方向。從圖6中可以得到,空中人工噪聲發(fā)射機的飛行軌跡始終朝著減小瞬時保密中斷概率SOP的方向,這表明空中人工噪聲發(fā)射機在這種情況下已經(jīng)學(xué)得最優(yōu)策略,即圖3所述的Q-learning算法收斂。進一步表明,在學(xué)習(xí)最優(yōu)策略時,空中人工噪聲發(fā)射機可以在一定范圍內(nèi)始終往減小系統(tǒng)保密中斷概率的方向飛行,避免了像窮搜算法盲目搜索最優(yōu)位置。圖7描述了Eve移動時無人機軌跡優(yōu)化圖,Eve通過隨機移動模型改變位置后,空中人工噪聲發(fā)射機動態(tài)移動以實現(xiàn)系統(tǒng)最小瞬時保密中斷概率。圖7中空中人工噪聲發(fā)射機和Eve的顏色相同時,表示在Eve當(dāng)前位置下空中人工噪聲發(fā)射機動態(tài)移動后最優(yōu)位置。Eve和空中人工噪聲發(fā)射機不同顏色的位置表示在Eve的位置發(fā)生變化后,空中人工噪聲發(fā)射機動態(tài)運動所獲得的最優(yōu)位置。由圖6和圖7可知,空中人工噪聲發(fā)射機能跟蹤Eve移動來確定自身最佳位置,進而保證對應(yīng)每個Eve位置,保密中斷概率最小。
圖6 Eve靜止時空中人工噪聲發(fā)射機飛行軌跡
圖7 Eve隨機移動時空中人工噪聲發(fā)射機飛行軌跡
本文針對含有無人機竊聽者的通信系統(tǒng)中,利用無人機部署靈活、與地面通信具有視距信道的優(yōu)勢,輔助發(fā)射人工噪聲,提升系統(tǒng)物理層安全性能。在估計竊聽者位置基礎(chǔ)上,提出基于Q-learning的空中人工噪聲發(fā)射機的軌跡優(yōu)化算法,跟蹤無人機竊聽者移動,實現(xiàn)系統(tǒng)保密中斷概率最小的目標(biāo)。仿真結(jié)果表明,本文所提優(yōu)化算法能快速收斂;與窮搜、遺傳算法、隨機部署等相比,本文所提算法能得到最優(yōu)解,并耗時最短;空中人工噪聲發(fā)射機能夠根據(jù)無人機竊聽者實時自身最佳位置,對竊聽信道實施干擾,從而保證系統(tǒng)保密中斷概率最小。