張金輝,蘆方旭,米志超,王穆陽
(1.解放軍總醫(yī)院 服務(wù)保障中心,北京 100853;2.中國人民解放軍31121 部隊,江蘇 南京 210042;3.陸軍工程大學(xué) 通信工程學(xué)院,江蘇 南京 210007)
近年來,無人機(jī)由于其靈活和部署方便的特性[1],被大規(guī)模應(yīng)用在各種領(lǐng)域中。比較典型的應(yīng)用就是2021 年河南暴雨,翼龍無人機(jī)提供了緊急通信服務(wù)。這一應(yīng)用說明利用無人機(jī)來進(jìn)行通信覆蓋逐步成為現(xiàn)實。
在目前的大多數(shù)研究中,主要針對的是地面固定用戶來進(jìn)行無人機(jī)在空中的靜態(tài)部署。文獻(xiàn)[2]對低海拔(Low Altitude Platforms,LAP)無人機(jī)進(jìn)行地空路徑損耗建模,建立了視距(Line-of-Sight,LoS)鏈路和非視線(Non Line-of-Sigh,NLoS)鏈路的通信模型。文獻(xiàn)[3]推導(dǎo)了單無人機(jī)基站部署的最佳高度。文獻(xiàn)[4]研究了在滿足用戶需求的條件下如何降低無人機(jī)的傳輸能量。文獻(xiàn)[5]通過聯(lián)合優(yōu)化無人機(jī)的三維空間位置、用戶接入群集和頻率分配方案來最大限度地減少無人機(jī)的數(shù)量并提高覆蓋率。文獻(xiàn)[6]考慮了無人機(jī)基站的六邊形蜂窩網(wǎng)絡(luò)的覆蓋恢復(fù)問題,通過調(diào)整基站的覆蓋半徑來實現(xiàn)目標(biāo)區(qū)域的全覆蓋。文獻(xiàn)[7]研究了無人機(jī)基站在有竊聽者的情況下為地面用戶提供服務(wù),并提出了通過優(yōu)化無人機(jī)的三維位置,最大化避障能力和保密能力的方案。
與之前的研究不同的是,本文主要考慮移動用戶的覆蓋問題,依靠無人機(jī)與地面用戶的不斷交互,在線學(xué)習(xí)最佳的動作策略,并基于此提出一種基于最大獎勵函數(shù)值的在線學(xué)習(xí)算法來實現(xiàn)針對移動用戶的動態(tài)無人機(jī)部署方案。
本文采用在無人機(jī)通信領(lǐng)域廣泛使用的經(jīng)典信道模型——地空信道模型[8],來對接收功率建模,得地面用戶的接收功率的表達(dá)式為:
式中:P′為空中無人機(jī)m的發(fā)射功率;PNLoS、PLoS分別為NLoS 和LoS 環(huán)境下的連接概率;η為地面用戶到無人機(jī)的路徑損耗指數(shù);κ為非視距連接的附加衰減因子;r為地面用戶到無人機(jī)在水平位置上投影點(diǎn)的距離;h為無人機(jī)在空中的高度。
式(1)中LoS 傳輸?shù)母怕时磉_(dá)式為[3]:
式中:a和b為相關(guān)路徑損耗參數(shù),由無人機(jī)所處環(huán)境決定。由信道模型可得,NLoS 傳輸?shù)母怕蕿镻NLoS=1-PLoS。
用戶到無人機(jī)的仰角θ可以表示為:
由香農(nóng)公式可得,地面用戶m的信噪比(Signal-to-Noise Ratio,SNR)可表示為:
為了更加直觀地觀測無人機(jī)的覆蓋用戶情況,構(gòu)造指示函數(shù)Γm,n:
式中:γ0為用戶的通信閾值。在本文中,只有用戶的信噪比大于通信閾值時,才認(rèn)為無人機(jī)可以通信覆蓋用戶,此時Γm,n=1,否則Γm,n=0。
觀測在i時隙,無人機(jī)在空中的覆蓋情況,此時可以定義無人機(jī)n的覆蓋效能:
對無人機(jī)在三維空間的運(yùn)動能耗建模[9],旋翼無人機(jī)在空中運(yùn)動的水平方向的表達(dá)式為:
式中:P0、P1、A、Utip、v0、s和d0是由無人機(jī)的型號所決定的數(shù)值;ρ為空氣密度,是由環(huán)境決定的數(shù)值;V為本文假設(shè)的無人機(jī)在水平方向運(yùn)動的恒定速度。
由式(7)得,當(dāng)旋翼無人機(jī)懸停在空中時,能耗可以表達(dá)為:
繼續(xù)對無人機(jī)在垂直方向上建模,垂直方向上,主要考慮無人機(jī)的重量情況,此時的能耗可以表示為:
式中:e為無人機(jī)的重量;g為重力加速度;Vz為垂直方向的運(yùn)動速度。
綜上,無人機(jī)的能耗主要是由無人機(jī)的水平移動能耗、無人機(jī)的懸停能耗、無人機(jī)的垂直運(yùn)動能耗和無人機(jī)的發(fā)射功率4 方面構(gòu)成。因此,無人機(jī)在第i個時隙內(nèi)的總能耗表示為:
本文構(gòu)建的獎勵函數(shù),用以評估動態(tài)無人機(jī)去覆蓋移動用戶的性能。獎勵函數(shù)主要衡量無人機(jī)的覆蓋性能與無人機(jī)的能耗性能。針對移動的用戶,為了取得最大的覆蓋性能,無人機(jī)需要加強(qiáng)移動性,此時能耗必然增大,本文設(shè)計一種獎勵函數(shù)用來平衡二者:
式中:α為歸一化系數(shù);β為權(quán)重系數(shù),用來平衡覆蓋性能與功耗性能。
在整個區(qū)域部署多架動態(tài)無人機(jī)時,通過最大化一段時間內(nèi)的獎勵函數(shù)來尋求減小能耗,增大覆蓋性能的無人機(jī)的部署與移動策略。
式中:I為時隙數(shù);N為無人機(jī)數(shù)量;M為用戶數(shù)量。該優(yōu)化問題描述的是N個動態(tài)無人機(jī)在目標(biāo)區(qū)域去覆蓋M個地面移動用戶時,最大化整個區(qū)域內(nèi)的獎勵函數(shù)值,并以此表示無人機(jī)在三維空間的部署與移動情況。約束條件(1)表示一個用戶只能被一個無人機(jī)所連接;約束條件(2)是對無人機(jī)的高度約束;約束條件(3)是用戶的通信要求,即信噪比要大于用戶通信閾值。
針對地面固定位置用戶的無人機(jī)靜態(tài)通信覆蓋問題,目前已經(jīng)有很多研究,大部分是建模為非確定多項式-難(Non-deterministic Polynomial-hard,NP-hard)問題,通過群體智能算法求解得到全局或者局部最優(yōu)解[10-14]。本文中,由于用戶的移動具有隨機(jī)性,而無人機(jī)只能不斷地通過與用戶的交互來尋求下一步的部署與移動的位置;因此,設(shè)計了一種基于最大獎勵函數(shù)值回報的在線學(xué)習(xí)算法,通過每個時隙內(nèi)的最大獎勵函數(shù)值的回報來決定無人機(jī)下一步的決策動作。最大獎勵函數(shù)值的回報定義如下:
式中:a表示無人機(jī)在空中的動作。此時,定義無人機(jī)在空中的運(yùn)動狀態(tài),可以簡單地把無人機(jī)在三維空間的運(yùn)動建模為7 種狀態(tài),如圖1 所示。
圖1 無人機(jī)的空中運(yùn)動建模
假設(shè)a1表示無人機(jī)的當(dāng)前的位置,把該位置記為:a1=(x,y,z),其他位置可以記為a2=(x-V,y,z),a3=(x+V,y,z),a4=(x,y,z-V),a5=(x,y+Vz),a6=(x,y-V,z),a7=(x,y+V,z),其中,V和Vz分別表示無人機(jī)在水平和垂直方向的移動速度。
具體算法表述如下:
3.1.1 用戶的設(shè)置
通過仿真驗證所提算法的性能,用戶的移動采用隨機(jī)游走模型[14],用戶的最大移動速度設(shè)置為15 m/s,無人機(jī)數(shù)量設(shè)置為4 個,用戶數(shù)量設(shè)置為100 個,目標(biāo)區(qū)域設(shè)置為2 000 m×2 000 m。地面用戶在任意時隙可以朝任意方向進(jìn)行任意速度的移動,并且為在仿真中突出一般性,對用戶的移動范圍不做限制。為了增加對用戶移動的說明,截取5 個快照來示意用戶的移動,如圖2 所示。
圖2 選取的5 個時隙的用戶位置快照
3.1.2 無人機(jī)的設(shè)置
本文選擇4 架無人機(jī)進(jìn)行相應(yīng)的仿真工作,無人機(jī)能耗的設(shè)置參考文獻(xiàn)[10],通信模型的設(shè)置參考文獻(xiàn)[8],具體的參數(shù)見表1。
表1 仿真參數(shù)的設(shè)置
在仿真對比中,本文選擇:一是在目標(biāo)區(qū)域內(nèi)進(jìn)行地理范圍的分割,選取中央位置運(yùn)行無人機(jī)的固定算法;二是在任意時隙隨機(jī)選擇動作的隨機(jī)選擇算法。進(jìn)行多組仿真取得平均值,進(jìn)而繪制仿真圖。
式(11)中的權(quán)重系數(shù)β為覆蓋性能與能耗性能在獎勵函數(shù)中所占的權(quán)重。圖3 為權(quán)重系數(shù)β的仿真結(jié)果。
圖3 權(quán)重系數(shù)β的仿真
從圖3 中得到,當(dāng)獎勵函數(shù)中能耗占比較大時,固定高度的算法是獎勵函數(shù)值最大的,這是因為固定高度的算法中,無人機(jī)位置是固定不變的,并且無人機(jī)自開始就存在于目標(biāo)區(qū)域的中心位置,此時只需維持無人機(jī)的懸停能耗。但是,另外兩種算法的無人機(jī)初始條件都是隨機(jī)分布在該區(qū)域內(nèi),初始的不利開局,影響了整個仿真過程,并且在仿真過程中需要不斷地移動位置,這樣就又增加了能耗。因此,在獎勵函數(shù)的選擇上,應(yīng)當(dāng)盡可能地減少功耗,最佳的方案是把無人機(jī)放置在中心區(qū)域。
然而,隨著權(quán)重系數(shù)β的增大,覆蓋性能所占的比重逐步上升,減少運(yùn)動能耗所取得的增益已經(jīng)不能抵過覆蓋所帶來的性能。本文所提算法的獎勵函數(shù)值逐步增大并且隨著權(quán)重系數(shù)β的增大,與兩種算法的對比差距也越來越大。本文所提算法在求解最大獎勵函數(shù)值的過程中,無人機(jī)與地面用戶不斷地交互,用戶的持續(xù)移動使無人機(jī)也要隨之移動,在移動中,逐步增大無人機(jī)的覆蓋用戶數(shù),進(jìn)而隨著權(quán)重系數(shù)β的增大,造成性能值出現(xiàn)越來越大的差距。
在瞬間獎勵函數(shù)值的對比中,權(quán)重系數(shù)β取0.5,即覆蓋性能與能耗性能所占的權(quán)重一致,仿真結(jié)果如圖4 所示。
圖4 β=0.5 時瞬時獎勵函數(shù)值的仿真
從圖4 可以看出,由于本文所提的最大獎勵算法在初始階段隨機(jī)分布,最開始的獎勵函數(shù)值很小,但隨著時隙增加,無人機(jī)與用戶不斷進(jìn)行交互,此時獎勵函數(shù)值在一段時間內(nèi)會持續(xù)地走高,但隨著用戶的不斷移動,并且移動范圍越來越大,此時隨著時間的增加,整體的獎勵函數(shù)值會持續(xù)地走低。固定高度的算法由于開始時用戶密集分布在目標(biāo)區(qū)域內(nèi),并且初始時就處于中央位置,所以獎勵函數(shù)值最高。同樣道理,隨著用戶的移動范圍變大,獎勵函數(shù)值不斷變小,隨機(jī)運(yùn)動的用戶又重新進(jìn)入最初的目標(biāo)區(qū)域,雖然會造成中間有過凸起,但是整體的趨勢是不斷變小。隨機(jī)選擇算法的獎勵函數(shù)值一直很低,是因為隨機(jī)選擇動作A的合集,每個動作都有出現(xiàn)的可能性,所以獎勵函數(shù)值最低。
β=0.5 時,覆蓋用戶數(shù)和能耗的仿真如圖5 和圖6 所示。對無人機(jī)的能耗建??傻?,懸停是最節(jié)省能耗的方式,水平方向移動是最耗能的方式,垂直方式的能耗則處于中間。固定高度的算法能耗是最小的,因為只需要懸停能耗,本文所提算法則需在水平、垂直和懸停中不停地選擇,選擇最大獎勵函數(shù)值的運(yùn)動方式。隨機(jī)選擇算法則由于水平方向的移動概率占4/7,在選擇概率上占大多數(shù),所以能耗也隨之變大,這也說明了該算法一直獎勵函數(shù)值最小的原因。覆蓋用戶數(shù)的仿真圖與瞬時獎勵函數(shù)的仿真圖大致相同,此時說明,在能耗無法帶來大的提升時,提高無人機(jī)覆蓋用戶的性能,也會帶來獎勵函數(shù)值的大幅增長。
圖5 β=0.5 時覆蓋用戶數(shù)的仿真
圖7 為選取的5 個時隙的無人機(jī)位置快照,圖中大球表示無人機(jī)的位置,地面灰色小點(diǎn)表示用戶的位置,其余黑色小點(diǎn)表示無人機(jī)在3 個平面的投影。從圖6 也可以看出用戶的位置在不斷地移動,隨著用戶位置的移動,無人機(jī)的位置也處于變動之中。
圖6 β=0.5 時能耗的仿真
圖7 選取的5 個時隙的無人機(jī)位置快照
本文研究了針對移動用戶群的動態(tài)多無人機(jī)覆蓋問題,在考慮覆蓋性能與能耗性能的基礎(chǔ)上,通過權(quán)重系數(shù)來說明該兩種性能所占的比重大小,并通過設(shè)計一種基于最大獎勵函數(shù)值的在線學(xué)習(xí)算法,來解決移動用戶群的動態(tài)多無人機(jī)覆蓋問題。仿真結(jié)果表明,本文所提算法在移動用戶群的覆蓋性能和功耗性能上具有明顯的優(yōu)勢。