• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      無蜂窩大規(guī)模MIMO中基于深度強化學(xué)習(xí)的無人機輔助通信與資源調(diào)度

      2022-03-30 09:15:48王朝煒鄧丹昊王衛(wèi)東
      電子與信息學(xué)報 2022年3期
      關(guān)鍵詞:錯誤率服務(wù)區(qū)利用率

      王朝煒 鄧丹昊 王衛(wèi)東 江 帆

      ①(北京郵電大學(xué)電子工程學(xué)院 北京 100876)

      ②(泛網(wǎng)無線通信教育部重點實驗室 北京 100876)

      ③(西安郵電大學(xué)通信與信息工程學(xué)院 西安 710061)

      1 引言

      隨著超5代(Beyond fifth-Generation, B5G)和第6代(the sixth-Generation, 6G)移動通信技術(shù)的提出和發(fā)展,移動網(wǎng)絡(luò)不再局限于地面覆蓋,而是擴展到面向空天地海大尺度范圍提供無處不在的無縫連接。其中,無蜂窩大規(guī)模多入多出(Multiple Input Multiple Output, MIMO)技術(shù)結(jié)合了分布式MIMO和大規(guī)模MIMO的概念,將配備大規(guī)模天線陣列的宏基站替換為僅有少量天線的大量接入點(Access Points, AP),在大幅降低網(wǎng)絡(luò)部署成本的同時可以有效提高用戶覆蓋率[1,2]。然而,受地理環(huán)境和距離的影響,偏遠(yuǎn)地區(qū)、山區(qū)、海上等區(qū)域的大量用戶處于無蜂窩大規(guī)模MIMO網(wǎng)絡(luò)的邊緣或者覆蓋范圍之外,很難得到可靠的移動通信服務(wù)。因此,無人機、衛(wèi)星以及高空平臺(High Altitude Platform Station, HAPS)等移動空天平臺逐漸成為改善和增強無線網(wǎng)絡(luò)覆蓋的重點輔助手段[3,4];其中,無人機輔助通信具有高機動性和靈活部署的特點,可以在地面基礎(chǔ)設(shè)施部分或者全部失效的場景下,提供更靈活和可靠的網(wǎng)絡(luò)連接,已經(jīng)得到工業(yè)界和學(xué)術(shù)界的普遍關(guān)注[5,6]。

      目前,針對無蜂窩大規(guī)模MIMO技術(shù)的研究大多聚焦于地面移動通信,包括資源管理技術(shù)[7,8]、收發(fā)機設(shè)計[9]以及與其他新型無線通信技術(shù)的結(jié)合[10,11]。然而與無人機技術(shù)結(jié)合的相關(guān)研究還比較少,文獻(xiàn)[12]提出一種無蜂窩大規(guī)模MIMO系統(tǒng)中基于能量采集的無人機無線能量傳輸(Wireless Power Transfer,WPT)技術(shù)。文獻(xiàn)[13]將無人機視作移動用戶,構(gòu)建可以同時支持地面固定用戶和無人機的無蜂窩大規(guī)模MIMO網(wǎng)絡(luò)。文獻(xiàn)[14]引入無人機輔助無蜂窩網(wǎng)絡(luò),為蜂窩基礎(chǔ)設(shè)施薄弱的高速公路上行駛的車輛提供覆蓋。在研究無蜂窩大規(guī)模MIMO技術(shù)的同時,針對無人機輔助通信的研究也面臨著諸多挑戰(zhàn),例如,無人機的通信范圍有限,并且飛行過程受限于電池續(xù)航能力。因此無人機輔助網(wǎng)絡(luò)的軌跡設(shè)計需要同時考慮環(huán)境適應(yīng)性和能源可持續(xù)性。文獻(xiàn)[15]假設(shè)無人機具備充足的能量供應(yīng),研究固定場景下的無人機最優(yōu)位置選擇,利用迭代算法求解非凸優(yōu)化問題,旨在最大化用戶的可達(dá)速率。文獻(xiàn)[16]考慮無人機飛行過程的機械能消耗,假設(shè)無人機以周期模式運行,通過聯(lián)合優(yōu)化無人機充放電時間、3維軌跡和發(fā)射功率,實現(xiàn)飛行周期內(nèi)的總吞吐量最大化。文獻(xiàn)[17]聚焦于多跳無人機中繼系統(tǒng),基于信息轉(zhuǎn)發(fā)的因果性約束,對多無人機軌跡進(jìn)行聯(lián)合設(shè)計,最大限度地提高端到端吞吐量,該方案適用于通信基礎(chǔ)設(shè)施被破壞的災(zāi)區(qū)、無線網(wǎng)絡(luò)沒有覆蓋的沙漠或海洋等區(qū)域。上述優(yōu)化算法需要根據(jù)全局的信道狀態(tài)信息(Channel State Information,CSI)進(jìn)行決策,然而,系統(tǒng)在大多數(shù)現(xiàn)實情況中(如信道估計誤差、通信延遲和回程鏈路的限制)無法獲取完美的全局CSI[18]。為解決上述問題,各類機器學(xué)習(xí)算法逐漸被應(yīng)用到無線資源管理研究中。

      近年來,強化學(xué)習(xí)(Reinforcement Learning,RL)引起了研究人員的廣泛關(guān)注。盡管RL在諸多領(lǐng)域都獲得了應(yīng)用,但它僅工作于具有完全可觀測的低維狀態(tài)空間[19];為此,RL利用深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network, DNN)的高維特性,合并發(fā)展成為深度強化學(xué)習(xí)(Deep Reinforcement Learning, DRL),并在無線資源管理和無人機輔助通信中得到了廣泛應(yīng)用。文獻(xiàn)[20]利用深度Q網(wǎng)絡(luò)(Deep Q-Network, DQN)選擇無人機拓?fù)渲械淖顑?yōu)鏈路;文獻(xiàn)[21]研究了基于多智能體強化學(xué)習(xí)(Multi-Agent Reinforcement Learning, MARL)的多無人機通信網(wǎng)絡(luò)動態(tài)資源分配問題;文獻(xiàn)[22,23]采用深度確定性策略梯度(Deep Deterministic Policy Gradient, DDPG)優(yōu)化無人機的3維軌跡設(shè)計和頻帶分配。大多數(shù)基于DRL的無線資源分配方案假設(shè)信道是高斯或塊衰落的,文獻(xiàn)[24]考慮到無線環(huán)境的時變特性,采用了一種更具現(xiàn)實意義的有限狀態(tài)馬爾可夫信道(Finite-State Markov Channel,FSMC),但所提出的算法仍然需要當(dāng)前的全局CSI來表征狀態(tài)。

      本文針對無蜂窩大規(guī)模MIMO傳輸場景下的偏遠(yuǎn)地區(qū)通信,研究多架無人機組成的輔助通信網(wǎng)絡(luò),提出了由第1跳無人機調(diào)度和第2跳用戶調(diào)度組成的兩跳協(xié)作機制。首先,將第1跳中的AP功率分配和無人機服務(wù)區(qū)選擇建模為雙動作馬爾可夫決策過程(Double-Action Markov Decision Process,DAMDP),采用基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN)的DQN算法實現(xiàn)最優(yōu)策略;然后將第2跳中的用戶調(diào)度方案建模為0-1優(yōu)化問題,通過分解為獨立的子問題進(jìn)行求解。

      2 系統(tǒng)模型

      本文設(shè)計的無蜂窩大規(guī)模MIMO網(wǎng)絡(luò)中無人機輔助通信系統(tǒng)如圖1所示,該系統(tǒng)包括1個AP、L個無人機和K個移動用戶。用戶與AP間不存在直連鏈路,需要借助無人機充當(dāng)中繼來轉(zhuǎn)發(fā)信號。同時,考慮無人機飛行過程中的能耗問題,無人機需圍繞地面充電站飛行以保證能量供應(yīng)。因此,無人機軌跡被限定在以各個充電站為中心,以r為半徑的服務(wù)區(qū)內(nèi)。根據(jù)地理位置,將服務(wù)區(qū)劃分為L個區(qū)域,第l個區(qū)域內(nèi)存在Ml個服務(wù)區(qū)、Kl個移動用戶,其中第m個服務(wù)區(qū)和第k個用戶分別表征為[m,l], [k,l],每個區(qū)域分配1架無人機負(fù)責(zé)該區(qū)用戶的通信服務(wù)。

      圖1 無蜂窩大規(guī)模MIMO網(wǎng)絡(luò)中無人機輔助通信

      在無蜂窩大規(guī)模MIMO網(wǎng)絡(luò)中,資源的有效調(diào)度需要考慮全局的CSI,而本文所針對的偏遠(yuǎn)地區(qū)反饋信道資源有限,特別是對于包含大量即時用戶信息的第2跳反饋。因此,本文提出一種基于AP決策和局部決策的兩跳協(xié)作框架,前者利用第1跳的CSI動態(tài)調(diào)度AP發(fā)射功率和無人機服務(wù)區(qū),并通過反饋方式調(diào)整調(diào)度方案;后者檢測每個無人機的本地第2跳CSI,并制定相應(yīng)用戶調(diào)度方案。該框架的優(yōu)點在于無人機可以自主選擇服務(wù)用戶,并且AP決策不需要反饋第2跳的CSI,從而降低系統(tǒng)的反饋鏈路負(fù)載。

      2.1 AP決策

      在AP傳輸信號至無人機的第1跳中,AP決策負(fù)責(zé)制定其自身功率分配和無人機服務(wù)區(qū)選擇方案,假設(shè)功率和服務(wù)區(qū)的調(diào)度周期包含T個單位時隙。無人機l的可達(dá)頻譜利用率Rl可以表示為

      其中,λ為發(fā)送信號波長;d[m,l]表示服務(wù)區(qū)[m,l]到AP的距離,假設(shè)無人機服務(wù)區(qū)比整個通信區(qū)域小得多,可以認(rèn)為服務(wù)區(qū)內(nèi)的信道增益是等同的,且服務(wù)區(qū)到AP的距離被定義為服務(wù)區(qū)的中心點與AP之間的距離。

      AP決策過程需滿足以下約束

      其中,約束式(3)保證AP的總分配功率小于最大功率;而約束式(4)表示在每個區(qū)域內(nèi),無人機1次只能選擇1個服務(wù)區(qū)。

      需要指出的是,資源調(diào)度的目標(biāo)是最大限度地提高用戶的總頻譜利用率Rsum而非無人機的。因此,AP決策過程同時依賴第1跳的CSI和第2跳反饋的Rsum來調(diào)整功率分配和服務(wù)區(qū)選擇方案

      2.2 局部決策

      在無人機轉(zhuǎn)發(fā)信號至用戶的第2跳,局部決策確定每個無人機的用戶調(diào)度方案。假設(shè)每架無人機在選定的服務(wù)區(qū)內(nèi)遵循固定的螺旋軌跡[25],由于無人機的發(fā)射功率有限并且各區(qū)域間相隔較遠(yuǎn),本文忽略區(qū)域間干擾。用戶[k,l]在時隙n的接收信號干擾噪聲比(Signal to Interference plus Noise Ratio,SINR)為

      3 基于DQN的AP決策方案

      3.1 RL概述

      RL可用于解決馬爾可夫決策過程(Markov Decision Process, MDP)問題,該問題由3部分組成:環(huán)境出現(xiàn)的狀態(tài)s,智能體執(zhí)行的動作a和指導(dǎo)策略π;系統(tǒng)的下一狀態(tài)s(t+1)僅取決于當(dāng)前狀態(tài)s(t)和動作a(t);在轉(zhuǎn)入新的狀態(tài)s(t+1)后,系統(tǒng)會得到即時的獎勵值r(t) =r(s(t),a(t))。RL的目的是尋找最佳狀態(tài)-動作策略,該策略可以根據(jù)當(dāng)前狀態(tài)做出最優(yōu)動作決策。為了得到最佳的長期回報,RL利用值函數(shù)V π(s)表示狀態(tài)s在策略π下的未來潛在價值

      3.2 DAMDP模型

      在傳統(tǒng)的RL算法中,MDP依賴單一的狀態(tài)和動作,而AP決策過程包含功率和服務(wù)區(qū)雙動作,因此將MDP模型擴展為DAMDP?;?.1節(jié)的系統(tǒng)模型,DAMDP的狀態(tài)、動作和獎勵定義如下:

      狀態(tài):總狀態(tài)s(t)由兩個子狀態(tài)sp(t)和sd(t)共同決定,并由當(dāng)前的RSRP集合{RSRP(t)}表示。具體的狀態(tài)表征與DQN算法輸入層網(wǎng)絡(luò)的選擇有關(guān),因此詳細(xì)的函數(shù)表示將在3.3節(jié)給出。

      動作:當(dāng)前動作集合包括AP向每架無人機的發(fā)射功率ap(t)=[p1(t),...,pl(t),...,pL(t)],以及服務(wù)區(qū)的選擇ad(t)=[d1(t),...,dl(t),...,dL(t)]。應(yīng)該注意的是,由于發(fā)射功率的隨機組合,部分動作集合違反了約束式(4),需要被賦予負(fù)值獎勵來規(guī)避。

      獎勵:智能體根據(jù)獎勵來辨別不同動作的優(yōu)劣。獎勵函數(shù)定義為

      3.3 基于CNN的Q學(xué)習(xí)算法

      神經(jīng)網(wǎng)絡(luò)屬于監(jiān)督學(xué)習(xí)模型,訓(xùn)練樣本必須是獨立同分布的,為此,DQN利用經(jīng)驗回放機制來打破序列樣本之間的相關(guān)性。具體來說,DQN從

      4 局部決策方案

      用戶調(diào)度在不同時間段上和不同區(qū)域上是不相關(guān)的,因此,局部決策問題可以被分解為T×L個獨立的子問題。例如,第n. l個子問題可以表示為

      所有T×L個 子問題都屬于0-1規(guī)劃問題[29],本文采用假設(shè)法進(jìn)行求解,最優(yōu)的用戶調(diào)為

      表1 DQN算法框架

      5 仿真結(jié)果與分析

      5.1 系統(tǒng)環(huán)境和仿真參數(shù)設(shè)置

      5.2 收斂性與復(fù)雜度

      圖2為本文所提基于DQN的資源調(diào)度方案與基于Q-learning的資源調(diào)度方案在收斂性能方面的對比,其中,DQN方案用損失函數(shù)和總頻譜利用率的變化情況來說明其收斂性能。仿真結(jié)果顯示,隨著訓(xùn)練的進(jìn)行,所提方案的損失函數(shù)曲線逐漸收斂到較小的損失值,且總頻譜利用率也穩(wěn)定收斂到最佳性能。而Q-learning方案在60000步訓(xùn)練過程中僅獲得了0.08 bps/Hz的性能增益,當(dāng)訓(xùn)練步數(shù)增加到120000步時,Q-learning方案的性能增益也僅僅擴大為0.14 bps/Hz,并且隨著訓(xùn)練的進(jìn)行,該方案的性能增益還將持續(xù)上升。因此,相比于Q-learning方案,本文所提基于DQN的方案具有更好的收斂性能。

      圖2 不同算法的收斂性

      圖3展示在不同的服務(wù)區(qū)數(shù)量下,不同算法的復(fù)雜度對比。仿真結(jié)果顯示,所提方案相比于Q-learning方案具有顯著降低的復(fù)雜度,且復(fù)雜度不隨訓(xùn)練步數(shù)的增加而增長。對于Q-learning方案,Q-table會隨著訓(xùn)練步數(shù)的增加而擴展,導(dǎo)致Q-learning算法更難找到與當(dāng)前狀態(tài)相匹配的Q-table元素,對應(yīng)的復(fù)雜度也增加。而所提DQN方案在不同的訓(xùn)練步數(shù)下,面對的是相同的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),時間消耗相對穩(wěn)定。同時,服務(wù)區(qū)數(shù)量的增加使得系統(tǒng)的狀態(tài)-動作對呈指數(shù)增長,兩種方案的復(fù)雜度都會相應(yīng)提升。但由于所提方案受狀態(tài)空間維度而非狀態(tài)總數(shù)的影響,復(fù)雜度的增幅明顯慢于Q-learning方案。

      圖3 不同算法的復(fù)雜度

      5.3 學(xué)習(xí)率與網(wǎng)絡(luò)框架

      圖4展示了不同學(xué)習(xí)率對所提方案性能的影響,錯誤率表示所提方案與窮舉法的頻譜利用率差值大于某閾值的概率。具體來說,錯誤率05、錯誤率1.0和錯誤率3.0分別表示頻譜利用率差異大于0.05,0.1和0.3 bps/Hz的概率??梢钥闯?,過高或者過低的學(xué)習(xí)率都會導(dǎo)致高錯誤率。當(dāng)學(xué)習(xí)率過高時,損失函數(shù)會在最小值附近波動,甚至無法收斂;當(dāng)學(xué)習(xí)率過低時,算法收斂速度慢,在相同的訓(xùn)練步數(shù)下,可能無法學(xué)習(xí)到最優(yōu)策略。同時,過低的學(xué)習(xí)率使得梯度下降的步長過小,可能導(dǎo)致神經(jīng)網(wǎng)絡(luò)收斂到局部最優(yōu)。

      圖4 不同學(xué)習(xí)率下的錯誤率

      圖5展示了本文所提基于CNN的DQN方案與原有基于DNN的DQN方案在決策錯誤率上的對比。其中,基于DNN的方案包括兩種:第1種DNN方案包含6×1的輸入向量,每個元素表示對應(yīng)服務(wù)區(qū)[m,l]的當(dāng)前狀態(tài);第2種DNN方案包含24×1的輸入向量,該向量僅將CNN方案的輸入矩陣按行展開。仿真圖顯示,經(jīng)過80000步訓(xùn)練,6輸入DNN方案的錯誤率要比所提出的CNN方案大得多。雖然DNN方案的錯誤率會隨著輸入神經(jīng)元數(shù)和訓(xùn)練步數(shù)的增加而降低,但本文所提出的CNN方案顯然更優(yōu)。

      圖5 不同網(wǎng)絡(luò)框架下的錯誤率

      5.4 系統(tǒng)頻譜利用率

      圖6展示在不同的最小距離Lmin下,不同方案的頻譜利用率對比。本文所提方案與以下5種基準(zhǔn)方案作對比:窮舉法、Q-learning方案、隨機分配、最大距離模式和最小距離模式。其中,最大距離模式是指所有無人機選擇距離AP最遠(yuǎn)的服務(wù)區(qū),而最小距離模式是指所有無人機選擇距離AP最近的服務(wù)區(qū),此兩種模式的功率分配策略與所提方案相同。從仿真結(jié)果可以看出,本文提出的基于DQN的方案接近窮舉法性能,明顯優(yōu)于其他方案。此外,所提方案與最小距離模式的性能差異隨著Lmin的增大而增大,而與最大距離模式的性能差異則相反。當(dāng)Lmin=1000 m時,最近的服務(wù)區(qū)具有較低的路徑損失,因此更容易被選擇。隨著Lmin的增大,最近服務(wù)區(qū)和最遠(yuǎn)服務(wù)區(qū)之間的路徑損失差距逐漸減小,信道增益更高的服務(wù)區(qū)成為首選。

      圖6 不同最小距離下的頻譜利用率(DQN和Q-learning方案經(jīng)歷60000步訓(xùn)練)

      圖7展示服務(wù)區(qū)數(shù)量對不同方案下頻譜利用率的影響。該圖表明,本文提出的基于DQN的方案優(yōu)于其他方案,并接近于遍歷最優(yōu)值。更多的服務(wù)區(qū)帶來更多的狀態(tài)和動作,而更多的動作增加了實現(xiàn)更高頻譜利用率的可能性,因此系統(tǒng)總頻譜利用率隨著服務(wù)區(qū)的增加呈上升趨勢;但同時更多的狀態(tài)和動作也增加了網(wǎng)絡(luò)的訓(xùn)練難度,使得網(wǎng)絡(luò)收斂速度變慢,決策錯誤率變高。此外,Q-learning方案的頻譜利用率與隨機分配方案相似,這是因為大量的狀態(tài)會導(dǎo)致維度災(zāi)難,并且未收斂的Q-table無法根據(jù)當(dāng)前狀態(tài)獲得準(zhǔn)確的決策。隨著服務(wù)區(qū)數(shù)量的增加,Q-learning方案的性能表現(xiàn)甚至不如隨機分配方案。

      圖7 不同服務(wù)區(qū)數(shù)量下的頻譜利用率(DQN和Q-learning方案經(jīng)歷60000步訓(xùn)練)

      6 結(jié)束語

      本文針對無人機輔助通信系統(tǒng),提出了一種基于AP決策和局部決策的兩跳協(xié)作機制,在降低反饋鏈路負(fù)載的同時,研究聯(lián)合設(shè)計AP功率分配、無人機服務(wù)區(qū)選擇和用戶調(diào)度方案。本文將功率和服務(wù)區(qū)調(diào)度策略建模為DAMDP問題,采用具有多維輸入的DQN算法來求解。仿真結(jié)果顯示,基于CNN的網(wǎng)絡(luò)框架能夠減少決策錯誤率,提升訓(xùn)練效果,使得所提方案在提升系統(tǒng)頻譜利用率的同時,有效提高收斂速度、降低計算復(fù)雜度。在未來的工作中,我們將進(jìn)一步研究無人機位置變化頻率和資源消耗之間的平衡關(guān)系。

      猜你喜歡
      錯誤率服務(wù)區(qū)利用率
      限制性隨機試驗中選擇偏倚導(dǎo)致的一類錯誤率膨脹*
      基于AIoT+GIS的智慧服務(wù)區(qū)構(gòu)建
      高速公路服務(wù)區(qū)信息技術(shù)的應(yīng)用
      化肥利用率穩(wěn)步增長
      做好農(nóng)村土地流轉(zhuǎn) 提高土地利用率
      淺議如何提高涉煙信息的利用率
      建言高速公路服務(wù)區(qū)實現(xiàn)“雙提升”
      中國公路(2017年5期)2017-06-01 12:10:10
      正視錯誤,尋求策略
      教師·中(2017年3期)2017-04-20 21:49:49
      解析小學(xué)高段學(xué)生英語單詞抄寫作業(yè)錯誤原因
      板材利用率提高之研究
      连州市| 宣恩县| 阳春市| 容城县| 藁城市| 延安市| 怀集县| 太仆寺旗| 克山县| 温州市| 龙海市| 石渠县| 马尔康县| 东乡族自治县| 上饶县| 临武县| 磴口县| 新平| 花垣县| 新龙县| 上高县| 铁岭市| 华阴市| 泰安市| 万年县| 巩留县| 涡阳县| 那曲县| 绍兴市| 波密县| 赤峰市| 通山县| 土默特左旗| 桐乡市| 鹤峰县| 乐昌市| 沈阳市| 博爱县| 甘孜| 蒙城县| 乌海市|