張廣馳 嚴(yán)雨琳 崔 苗* 陳 偉 張 景
①(廣東工業(yè)大學(xué)信息工程學(xué)院 廣州 510006)
②(廣東省環(huán)境地質(zhì)勘查院 廣州 510080)
③(中國(guó)電子科學(xué)研究院 北京 100043)
無人駕駛飛機(jī)(Unmanned Aerial Vehicle, UAV)簡(jiǎn)稱無人機(jī),在近十年內(nèi)得到巨大的發(fā)展,其商業(yè)價(jià)值預(yù)計(jì)在2025年飆升到45.8億美元[1]。無人機(jī)自身具有高移動(dòng)性、機(jī)動(dòng)性、體積小以及成本低等特點(diǎn),使其在無線通信方面引起了廣泛的關(guān)注。無人機(jī)融入無線通信網(wǎng)絡(luò)的方式分為以下3類。第一,無人機(jī)作為空中基站為無線蜂窩網(wǎng)絡(luò)補(bǔ)充覆蓋和提升容量[2],或者在發(fā)生大范圍自然災(zāi)害時(shí)快速適應(yīng)環(huán)境為地面用戶提供應(yīng)急通信[3]。第二,無人機(jī)作為輔助中繼改善地面無線設(shè)備的連接,極大地?cái)U(kuò)寬通信范圍以及提高通信質(zhì)量[4]。第三,將無人機(jī)接入到物聯(lián)網(wǎng)中提供可靠和節(jié)能的物聯(lián)網(wǎng)上行通信鏈路,物聯(lián)網(wǎng)網(wǎng)絡(luò)的連通性和能源效率可以顯著提高[5]。
本文主要研究上述第1類應(yīng)用方式,即無人機(jī)作為空中基站為地面用戶提供無線通信服務(wù)。通常地面基站的部署建設(shè)是根據(jù)長(zhǎng)期通信行為來統(tǒng)籌規(guī)劃的,可能無法滿足短時(shí)間人群聚集(例如演唱會(huì)等)的通信需求和無法適應(yīng)未來的通信環(huán)境變化。相比于傳統(tǒng)地面的基站,無人機(jī)基站的機(jī)動(dòng)性帶來明顯的優(yōu)勢(shì),能夠靈活便捷地調(diào)整位置適應(yīng)通信需求和為流量熱點(diǎn)區(qū)域提供額外的網(wǎng)絡(luò)負(fù)載能力[6]。為了充分發(fā)揮無人機(jī)的機(jī)動(dòng)性潛能,適當(dāng)?shù)能壽E優(yōu)化可以減小無人機(jī)基站與地面用戶之間的距離從而改善信道質(zhì)量,這對(duì)提高通信網(wǎng)絡(luò)的性能至關(guān)重要。文獻(xiàn)[7]通過優(yōu)化無人機(jī)的飛行軌跡以及資源分配從而實(shí)現(xiàn)高效節(jié)能的通信。文獻(xiàn)[8]從多無人機(jī)的角度出發(fā),考慮了各個(gè)無人機(jī)與多地面用戶之間的干擾,通過優(yōu)化多無人機(jī)的飛行軌跡實(shí)現(xiàn)吞吐量最大化。文獻(xiàn)[9]研究了在無人機(jī)支持的多鏈路中繼系統(tǒng)中,聯(lián)合優(yōu)化無人機(jī)的3維飛行軌跡和發(fā)射功率,抑制鏈路中的干擾以達(dá)到下界吞吐量最大化。以上文獻(xiàn)中無人機(jī)飛行軌跡優(yōu)化采用的算法都是屬于離線優(yōu)化算法,即根據(jù)通信環(huán)境的完美假設(shè),在無人機(jī)起飛之前通過復(fù)雜的計(jì)算、優(yōu)化設(shè)計(jì)得到無人機(jī)的飛行軌跡,并且起飛之后無法改變飛行軌跡。然而在實(shí)際中,通信環(huán)境是不斷變化的,無法提前預(yù)測(cè)的,通信環(huán)境的完美假設(shè)是不切實(shí)際的。離線優(yōu)化算法首先需要建立精確的通信模型,建模之后的參數(shù)配置也是難以獲取的,即使模型和相關(guān)參數(shù)是已知的,大多數(shù)無線通信的優(yōu)化問題都是非凸的,通常需要復(fù)雜的運(yùn)算和推導(dǎo)將其轉(zhuǎn)化成凸問題[10]。
為了克服這些局限性,文獻(xiàn)[11,12]分別討論了將強(qiáng)化學(xué)習(xí)中的算法應(yīng)用于無人機(jī)通信方面的可能性,將無人機(jī)的飛行軌跡優(yōu)化看作路徑規(guī)劃問題,其目標(biāo)是在隨機(jī)的飛行環(huán)境中最大化特定的累計(jì)獎(jiǎng)勵(lì)指標(biāo)[13]。文獻(xiàn)[11]研究了多無人機(jī)基站協(xié)作通信的場(chǎng)景,以最大化地面用戶的通信速率之和為目標(biāo),提出了基于強(qiáng)化學(xué)習(xí)Q-Learning算法的多無人機(jī)飛行軌跡優(yōu)化。文獻(xiàn)[12]提出了一種基于體驗(yàn)質(zhì)量(Quality of Experience, QoE)驅(qū)動(dòng)的多無人機(jī)3維部署與飛行軌跡設(shè)計(jì)新框架。目前已有研究工作開始將強(qiáng)化學(xué)習(xí)算法應(yīng)用于解決無人機(jī)的飛行路線優(yōu)化問題,但是關(guān)注無人機(jī)基站的通信時(shí)延和能效問題的研究不多。同時(shí)多播通信方式能夠在公共安全、應(yīng)急響應(yīng)以及智能交通等應(yīng)用方面減輕無線通信網(wǎng)絡(luò)的負(fù)載和提高通信效率,因此研究無人機(jī)基站多播通信系統(tǒng)很有必要[14]。
本文研究了無人機(jī)基站多播通信系統(tǒng)中通信時(shí)延問題,在該系統(tǒng)中無人機(jī)基站向多個(gè)地面用戶同時(shí)發(fā)送公共信息,其中每次通信任務(wù)中地面用戶的位置是隨機(jī)的。首先建立系統(tǒng)模型,為了保證地面用戶能夠接收到完整的信息以及減少無人機(jī)的能量消耗,以最小化通信任務(wù)平均完成時(shí)間為目標(biāo),對(duì)無人機(jī)基站飛行路線在線優(yōu)化問題進(jìn)行數(shù)學(xué)描述。然后將問題轉(zhuǎn)化成馬爾可夫決策過程,采用強(qiáng)化學(xué)習(xí)中的Q-Learning算法實(shí)現(xiàn)飛行路線在線優(yōu)化。最后通過仿真驗(yàn)證本文提出的飛行路線在線優(yōu)化算法的有效性。
如圖1所示,本文考慮一個(gè)無人機(jī)基站多播通信系統(tǒng),其中包括一個(gè)無人機(jī)和K個(gè)地面用戶1)本文主要研究無人機(jī)基站的飛行路線在線優(yōu)化對(duì)多播通信性能的影響,為簡(jiǎn)單起見,暫時(shí)沒有考慮無人機(jī)基站的能耗問題,考慮能耗的無人機(jī)基站飛行路線在線優(yōu)化將是未來的研究方向之一。另外,本文考慮的系統(tǒng)模型可以擴(kuò)展到多個(gè)無人機(jī)協(xié)作多播通信的場(chǎng)景。。無人機(jī)作為空中通信基站為矩形區(qū)域內(nèi)的K個(gè)地面用戶提供多播通信服務(wù)和發(fā)送公共信息。無人機(jī)地面用戶可表示集合K={1,2,...,K},地面用戶的位置可用2維坐標(biāo)表示為qk=(xk,yk)。假設(shè)無人機(jī)的飛行高度固定在Hm,無人機(jī)在t時(shí)刻的地面投影位置的坐標(biāo)可表示為q(t)=(x(t),y(t)),無人機(jī)在飛行過程的飛行速度固定在Vm/s。本文采用FDMA(Frequency Division Multiple Access)通信方式,無人機(jī)基站與地面用戶的信道數(shù)量為J,即無人機(jī)基站可同時(shí)向J個(gè)地面用戶發(fā)送公共信息,且無人機(jī)基站與各個(gè)地面用戶的通信鏈路之間不存在干擾。同時(shí)通信的J個(gè)地面用戶可用集合表示為J={1,2,...,J},J ∈K,其位置坐標(biāo)為qj=(xj,yj),j ∈J。因此無人機(jī)基站與地面用戶j的距離可表示為
圖1 無人機(jī)基站多播通信系統(tǒng)
為了保證地面用戶能夠接收到完整的文件信息以及考慮到無人機(jī)的能量有限性,本文以最小化無人機(jī)基站完成通信任務(wù)的平均時(shí)間為目標(biāo)。無人機(jī)每次通信任務(wù)中所服務(wù)的地面用戶是隨機(jī)的,因此在線優(yōu)化無人機(jī)的飛行路線很有必要。本文主要考察飛行路線對(duì)通信性能的影響,因此暫時(shí)不考慮無人機(jī)基站的能耗,假設(shè)飛行時(shí)間足夠長(zhǎng)。無人機(jī)基站在第m次通信任務(wù)中需同時(shí)給J個(gè)地面用戶傳輸文件信息,且與每個(gè)地面用戶傳輸文件信息量為L(zhǎng)bit。當(dāng)無人機(jī)基站完成第m次通信任務(wù)中所有地面用戶所需的信息量之后,才能開始進(jìn)行第m+1次通信任務(wù),為另外J個(gè)地面用戶發(fā)送公共文件信息。換句話說,無人機(jī)基站同時(shí)與J個(gè)地面用戶通信,其中通信時(shí)延最大的地面用戶的通信任務(wù)完成時(shí),其他的地面用戶的通信任務(wù)已完成。將無人機(jī)基站完成第m次通信任務(wù)的時(shí)間表示為Tm=max{Tm,1,Tm,2,...,Tm,j},Tm,j表示無人機(jī)基站第m次通信任務(wù)中與第j個(gè)地面用戶的通信時(shí)延。無人機(jī)基站在第m次通信任務(wù)中與第j個(gè)地面用戶的通信速率可用Rm,j表示,在第m次通信任務(wù)中,無人機(jī)基站需與每個(gè)地面用戶傳輸Lbit信息量可表示為
強(qiáng)化學(xué)習(xí)具有高效的自我學(xué)習(xí)能力,可用于解決無人機(jī)通信網(wǎng)絡(luò)中的優(yōu)化問題。因此本文將采用強(qiáng)化學(xué)習(xí)中的算法對(duì)無人機(jī)基站的飛行路線進(jìn)行在線優(yōu)化,接下來將介紹強(qiáng)化學(xué)習(xí)的理論知識(shí)。強(qiáng)化學(xué)習(xí)以交互目標(biāo)為導(dǎo)向,將智能體置身于環(huán)境中并與其進(jìn)行交互,在此情境中,給智能體所選擇的動(dòng)作賦予獎(jiǎng)賞,以智能體在交互過程中所得到的累計(jì)獎(jiǎng)賞最大化為目標(biāo)從而指導(dǎo)其行為[16]。強(qiáng)化學(xué)習(xí)中的大多數(shù)問題都可以轉(zhuǎn)化成馬爾可夫決策過程(Markov Decision Process, MDP),因此馬爾可夫決策過程是強(qiáng)化學(xué)習(xí)的基礎(chǔ)理論。MDP的基本框架為(S,A,R),每個(gè)離散時(shí)刻t可以觀察到智能體的狀態(tài)為St ∈S,然后在此狀態(tài)上選擇并執(zhí)行一個(gè)動(dòng)作At ∈A(s)。環(huán)境會(huì)對(duì)智能體所選擇的動(dòng)作進(jìn)行
式(11)—式(15)為問題P1的離散形式。問題P2所對(duì)應(yīng)的MDP的描述如下:
本文所提出的無人機(jī)飛行路線在線優(yōu)化問題中,無人機(jī)的每個(gè)動(dòng)作不僅影響當(dāng)前的性能,還會(huì)對(duì)接下來的狀態(tài)產(chǎn)生影響。因此本文采用強(qiáng)化學(xué)習(xí)中的Q-Learning算法對(duì)問題進(jìn)行求解。Q-Learning是一種典型的強(qiáng)化學(xué)習(xí)中離軌策略下的時(shí)序差分算法,可以在每個(gè)動(dòng)作結(jié)束之后估計(jì)動(dòng)作價(jià)值函數(shù)并更新改進(jìn)策略。Q-Learning中采取的動(dòng)作策略為ε- greedy策略,是對(duì)貪婪策略的改進(jìn)。ε- greedy策略具有ε的概率探索環(huán)境尋找更優(yōu)的策略,1-ε的概率按照貪婪思想選擇動(dòng)作價(jià)值函數(shù)最大的動(dòng)作。動(dòng)作價(jià)值函數(shù)定義為:Q(sn,an)=Q(sn,an)+α[rn+1+γmaxaQ(sn+1,a)-Q(sn,an)]。基于QLearning的在線優(yōu)化算法具體如下:
在本部分中,利用仿真平臺(tái)對(duì)所提出的飛行路線在線優(yōu)化算法進(jìn)行驗(yàn)證,將基于Q-Learning算法的在線優(yōu)化算法表示為Scheme A,并與另外3種方案進(jìn)行對(duì)比。
Scheme B:無人機(jī)基站總是向著當(dāng)前J個(gè)地面用戶中通信傳輸速率最大的地面用戶的方向飛行。無人機(jī)基站完成了該地面用戶的文件信息傳輸之后,在當(dāng)前位置再向著通信傳輸速率第二大的地面用戶飛行。依次類推,直到完成所有地面用戶的文件信息傳輸。
Scheme C:與Scheme B相反,無人機(jī)基站向著當(dāng)前J個(gè)地面用戶中通信傳輸速率最小的地面用戶的方向飛行。無人機(jī)基站完成了該地面用戶的文件信息傳輸之后,從當(dāng)前位置向著通信傳輸速率第二小的地面用戶飛行。依次類推,直到完成所有地面用戶的文件信息傳輸。
Scheme D:在接收到J個(gè)地面用戶的通信請(qǐng)求之后,無人機(jī)基站在每個(gè)狀態(tài)位置上,貪婪地向通信傳輸速率最小的地面用戶飛行,直到完成所有地面用戶的文件信息傳輸。
無人機(jī)基站多播通信系統(tǒng)仿真參數(shù)設(shè)置如下:無人機(jī)基站可飛行的矩形范圍為400m×400 m,地面用戶隨機(jī)分布在此范圍內(nèi)。矩形范圍對(duì)應(yīng)的位置坐標(biāo)為[Xmin,Xmax]×[Ymin,Ymax] = [0,400]×[0,400],將矩形范圍分割成I×I= 2500個(gè)狀態(tài)。無人機(jī)的飛行高度H=100 m,最大飛行速度Vmax=20 m/s。無人機(jī)基站與地面用戶的子信道數(shù)量J= 3,其子信道的帶寬B=1 MHz,地面用戶的通信請(qǐng)求信息量L=107bit,參考距離1 m的信噪比γdB=40 dB。假設(shè)無人機(jī)基站的通信任務(wù)次數(shù)M=100,其他參數(shù):Nepi= 7×105,Nstep= 120,α= 0.8,γ= 0.5,Nε= 0.9999。
圖2展示了無人機(jī)基站兩次完成通信任務(wù)的訓(xùn)練過程,其中完成通信任務(wù)的時(shí)間隨著訓(xùn)練次數(shù)增大而變化。在這兩次訓(xùn)練過程中,完成通信任務(wù)中的服務(wù)對(duì)象是不同的地面用戶,其位置是隨機(jī)的。與其他的方案對(duì)比,基于Q-Learning算法的在線優(yōu)化算法能夠有效地收斂,并且收斂之后完成通信任務(wù)的時(shí)間更小。整體來看,隨著訓(xùn)練幕數(shù)的增加,無人機(jī)基站完成通信任務(wù)的時(shí)間越??;在訓(xùn)練前期可以看到無人機(jī)基站完成通信任務(wù)的時(shí)間大范圍震蕩,這是因?yàn)榍捌诘奶剿鲄?shù)ε較大,具有更大的概率探索新的動(dòng)作;在訓(xùn)練后期,完成通信任務(wù)的時(shí)間趨向穩(wěn)定,這是因?yàn)樘剿鲄?shù)ε較小且已找到最優(yōu)的飛行路線。
圖2 基于Q-Learning算法的在線優(yōu)化設(shè)計(jì)算法的訓(xùn)練過程
圖3和圖4展示了基于Q-Learning算法的在線優(yōu)化設(shè)計(jì)算法與其他3種方案的無人機(jī)基站飛行路線對(duì)比圖,飛行路線所需的時(shí)間與圖2中完成兩次通信任務(wù)時(shí)間相對(duì)應(yīng)。圖3中圖例“Scheme A:n”表示Scheme A方案下無人機(jī)基站第n次完成通信任務(wù)的飛行路線,“Scheme B:n”等圖例與“Scheme A:n”類似。圖4是在圖3的基礎(chǔ)上完成的,其中“Scheme A:n+1”表示Scheme A方案下無人機(jī)基站第n+1次完成通信任務(wù)的飛行路線??梢钥闯龌赒-Learning算法的在線優(yōu)化設(shè)計(jì)算法比其他方案更加集中于3 個(gè)地面用戶的中央。Scheme A和Scheme D的飛行路線類似,但是對(duì)比圖2中Scheme A與Scheme D的兩次完成通信任務(wù)的時(shí)間,可以看出Scheme A比Scheme D的完成通信任務(wù)的時(shí)間更短,因此Scheme A的飛行路線更佳。
圖3 不同方案下的無人機(jī)基站飛行路線對(duì)比圖
圖4 不同方案下的無人機(jī)基站飛行路線對(duì)比圖
圖5展示了無人機(jī)基站采用不同方案、完成不同通信信息量任務(wù)的平均時(shí)間對(duì)比圖,其中完成通信任務(wù)的次數(shù)為100次。為了更好地對(duì)比效果,圖5中無人機(jī)在不同方案中是完成相同的多個(gè)地面用戶的通信任務(wù),這是因?yàn)椴煌牡孛嬗脩粑恢每赡軐?dǎo)致通信任務(wù)的完成時(shí)間不同??梢钥闯霰疚奶岢龅腟cheme A方案始終優(yōu)于其他3種方案,通信任務(wù)的信息量越大,Scheme A方案的性能越好。
圖5 不同方案下的無人機(jī)基站完成不同信息量的多播任務(wù)時(shí)的平均時(shí)間對(duì)比圖
圖6展示了不同方案下的無人機(jī)基站完成100個(gè)地面用戶的通信任務(wù)的平均時(shí)間,其中每次通信任務(wù)的3個(gè)地面用戶是隨機(jī)的,對(duì)應(yīng)的通信任務(wù)的信息量為L(zhǎng)=107bit??梢钥闯鯯chemeA方案下完成通信任務(wù)的時(shí)間明顯比其他3種方案的更小。因?yàn)槊看瓮ㄐ诺牡孛嬗脩羰请S機(jī)的,由此可以說明Scheme A方案可適應(yīng)動(dòng)態(tài)的、隨機(jī)的地面用戶的通信請(qǐng)求。
圖6 不同方案下的無人機(jī)基站完成100次通信任務(wù)的平均時(shí)間
本文針對(duì)于無人機(jī)基站多播通信系統(tǒng),為了保證地面用戶能夠接收到完整的信息以及減少無人機(jī)的能量消耗,以最小化完成多播通信任務(wù)的時(shí)間為目標(biāo),提出了基于Q-Learning的無人機(jī)飛行路線在線優(yōu)化算法。仿真結(jié)果顯示了與其他幾種方案對(duì)比,所提出的算法能夠有效實(shí)現(xiàn)無人機(jī)基站的飛行路線在線優(yōu)化。本文的研究證實(shí)了強(qiáng)化學(xué)習(xí)能有效解決無人機(jī)基站飛行路線的在線優(yōu)化問題,加深了我們對(duì)在線優(yōu)化研究的認(rèn)識(shí)。在未來的研究中,有待于將本文考慮的單無人機(jī)系統(tǒng)擴(kuò)展到多個(gè)無人機(jī)協(xié)作多播通信的場(chǎng)景,并將無人機(jī)的飛行能耗納入優(yōu)化的考慮因素。