• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于多智能體深度強(qiáng)化學(xué)習(xí)的車聯(lián)網(wǎng)通信資源分配優(yōu)化

      2022-06-24 02:26:56方維維王云鵬
      關(guān)鍵詞:鏈路信道傳輸

      方維維,王云鵬,張 昊,孟 娜

      (北京交通大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院, 北京 100044)

      在全球范圍內(nèi),目前在車聯(lián)網(wǎng)領(lǐng)域主要有兩種不同的通信技術(shù)方式:1)基于蜂窩網(wǎng)絡(luò)的車聯(lián)網(wǎng) 通 信 技 術(shù)(Cellular Vehicle-to-Everything,CV2X[1]);2)基于Wi-Fi 的車輛短程通信的專用短程通信技術(shù)(Dedicated Short Range Communications,DSRC)[2].基 于 蜂 窩 的C-V2X 具 有 大 覆 蓋、高 容量、高服務(wù)質(zhì)量和多播/廣播支持的優(yōu)點(diǎn),但CV2X 存在的不足之處在于蜂窩基礎(chǔ)設(shè)施的中繼性質(zhì),這種中繼方式在時(shí)延敏感的車輛應(yīng)用,如自動(dòng)駕駛車輛系統(tǒng)中,可能會(huì)帶來安全隱患.DSRC 作為美國和歐洲推行的車聯(lián)網(wǎng)通信技術(shù),它的特點(diǎn)在于供高速的數(shù)據(jù)傳輸和保證通信鏈路的低延時(shí)和低干擾,然而它目前存在的問題是需要完善的設(shè) 施 部 署[2]. 新 一 代V2X(Vehicle-to-Everything)技術(shù)綜合利用以上兩種方式,并通過結(jié)合移動(dòng)邊緣計(jì)算技術(shù)與無線資源管理,帶來了低延遲和高帶寬的通信服務(wù).基于V2X 的車聯(lián)網(wǎng)通信提供的環(huán)境感知、信息交互、協(xié)同控制能力,支持豐富的網(wǎng)絡(luò)應(yīng)用類型,與智慧交通、無人駕駛等領(lǐng)域融合協(xié)同發(fā)展[3].在相應(yīng)的車聯(lián)網(wǎng)通信場景中,由于車輛的高移動(dòng)性使得網(wǎng)絡(luò)拓?fù)溲杆僮兓?,通信信道具有高度時(shí)變性,同時(shí)通信業(yè)務(wù)將更加復(fù)雜,這些是V2X 技術(shù)在通信頻譜資源分配時(shí)所亟需解決的挑戰(zhàn)和問題.

      在V2X 中,頻譜接入設(shè)計(jì)[4]包含了V2V 與V2I兩種網(wǎng)絡(luò)連接模式.V2V 鏈路提供當(dāng)前車輛與其相鄰車輛之間的直接通信,而V2I 鏈路是將每個(gè)車輛連接到基站(Base Station,BS)或路邊單元通信.3GPP[5]中討論的基于蜂窩的V2X 架構(gòu)中V2V和V2I 的連接分別通過側(cè)鏈的無線電接口和蜂窩網(wǎng)絡(luò)的支持.針對版本15 中的5G V2X 增強(qiáng)功能,出現(xiàn)了大量新的用例和需求.例如,5G 蜂窩V2X 網(wǎng)絡(luò)需要同時(shí)支持高速率的娛樂應(yīng)用和高級(jí)駕駛服務(wù).娛樂應(yīng)用需要高帶寬V2I 連接到BS,以及進(jìn)一步接入到具有視頻流的互聯(lián)網(wǎng).同時(shí),高級(jí)駕駛服務(wù)需要通過V2V 通信在相鄰車輛之間周期性地傳播車輛的隱私數(shù)據(jù)(例如,10、20、50 包/s,取決于車輛移動(dòng)性[6]).

      雖然有大量的文獻(xiàn)應(yīng)用傳統(tǒng)的優(yōu)化方法來解決V2X 資源分配問題[7],但實(shí)際仍然存在以下挑戰(zhàn).一方面,由于車輛的高速移動(dòng)而導(dǎo)致快速變化的動(dòng)態(tài)信道條件,對資源分配造成了很大的不確定性,例如,由于收集信道狀態(tài)信息(Channel State Information,CSI)的不準(zhǔn)確而導(dǎo)致性能損失.另一方面,為了支持新的V2X 應(yīng)用程序,越來越多樣化的服務(wù)需求正在被提出,例如同時(shí)最大化V2X 流量組合的吞吐量和可靠性.這樣的需求很難用精確的數(shù)學(xué)方法來建模,用系統(tǒng)的方法來尋找最優(yōu)解決方案更加困難. 近 年 來,強(qiáng) 化 學(xué) 習(xí)(Reinforcement Learning,RL)[8]在解決不確定性決策問題方面展示出優(yōu)異的能力和表現(xiàn),特別是深度強(qiáng)化學(xué)習(xí)在視頻游戲[9]和AlphaGo[10]中取得的成功,也激發(fā)了人們將該技術(shù)應(yīng)用于解決車聯(lián)網(wǎng)領(lǐng)域問題的興趣,如車聯(lián)網(wǎng)中的多通道邊緣計(jì)算資源管理[11]、流量卸載方案[12]和低延遲服務(wù)波束跟蹤[13]等.

      本文作者研究利用多智能體強(qiáng)化學(xué)習(xí)算法來解決V2X 頻譜接入的功率選擇問題,首先分析車聯(lián)網(wǎng)通信系統(tǒng)模型,設(shè)計(jì)狀態(tài)、動(dòng)作空間以及最終目標(biāo)相關(guān)的訓(xùn)練獎(jiǎng)勵(lì),之后設(shè)計(jì)強(qiáng)化學(xué)習(xí)的分布式執(zhí)行算法,其中將每輛車視為一個(gè)智能體,每個(gè)智能體通過與局部的車輛環(huán)境不斷交互來學(xué)習(xí)知識(shí)并優(yōu)化資源分配策略,從而最終得到最優(yōu)功率控制結(jié)果.

      1 車聯(lián)網(wǎng)通信系統(tǒng)模型

      如圖1,考慮一種基于蜂窩的具有V2I 和V2V鏈路的車聯(lián)網(wǎng),該網(wǎng)絡(luò)為移動(dòng)的高數(shù)據(jù)速率的娛樂應(yīng)用提供支持和為高級(jí)駕駛服務(wù)提供可靠的周期性隱私數(shù)據(jù)共享.V2I 鏈路利用蜂窩的接口將車輛連接到基站以獲得高數(shù)據(jù)速率服務(wù),而V2V 鏈路通過具有本地化的設(shè)備到設(shè)備(Device-to-Device,D2D)通信的側(cè)鏈接口傳播定期生成的隱私數(shù)據(jù).假設(shè)所有車輛的收發(fā)機(jī)都使用一根天線,車聯(lián)網(wǎng)中的V2I鏈路和V2V 鏈路的集合分別用M={1,…,M}和K={1,…,K}表示.假設(shè)上傳數(shù)據(jù)的V2I 鏈路已經(jīng)被預(yù)先分配好了正交譜子帶,即第m號(hào)V2I 鏈路占用第m號(hào)子帶,其中V2I 鏈路發(fā)射功率是固定值.因此,本文的目標(biāo)是通過設(shè)計(jì)一種V2V 鏈路基于連續(xù)動(dòng)作的功率發(fā)射算法,使得V2I 和V2V 鏈路在高移動(dòng)性的車輛環(huán)境下分別最大化自己的信道容量和負(fù)載傳輸成功概率.

      圖1 車聯(lián)網(wǎng)系統(tǒng)Fig.1 Vehicular network system

      在車聯(lián)網(wǎng)系統(tǒng)中采用了正交頻分復(fù)用多址(Orthogonal Frequency Division Multiplexing,OFDM)技術(shù),其原理是通過將頻域內(nèi)選定信道轉(zhuǎn)換為多個(gè)子載波上的并行的平坦信道.將幾個(gè)連續(xù)子載波劃分一個(gè)頻譜子帶,假設(shè)信道衰落在一個(gè)子帶內(nèi)大致相同并且在不同的子帶之間是獨(dú)立的,hk[m]是小尺度衰落的功率分量,并假設(shè)其呈指數(shù)分布.αk表征與頻率無關(guān)的大尺度衰落.則在一段相干時(shí)間內(nèi),第m號(hào) 子帶上的第k號(hào)V2V 鏈 路 的 信 道 功 率增益[14]表示為

      假設(shè)從第號(hào)V2V 鏈路發(fā)送端通過第m號(hào)子帶到第k號(hào)V2V 鏈路的接收端的干擾信道表示為gk′,k[m],在m號(hào)子帶從k號(hào)V2V 鏈路發(fā)送端到 基 站的干擾信道表示為gk,B[m],在m號(hào)子帶從m號(hào)V2I鏈路發(fā)送端到基站的信道增益表示為?m,B[m],在m號(hào)子帶上從m號(hào)V2I 鏈路發(fā)送端到k號(hào)V2V 鏈路的接收端的干擾信道表示為?m,k[m].假設(shè)Pcm表示m號(hào)V2I 鏈路發(fā)送端的發(fā)射信號(hào)的功率,m號(hào)子帶上k號(hào)V2V 鏈路發(fā)送端的發(fā)射功率大小為Pdk[m],σ2是噪聲功率.在m號(hào)子帶上的m號(hào)V2I 鏈路上接收的信干噪比(Signal to Interference plus Noise Ratio,SINR)[14]的計(jì)算表達(dá)式為

      如上所述,V2I 鏈路通常被用來支持高傳輸速率娛樂服務(wù),因此一個(gè)適當(dāng)?shù)脑O(shè)計(jì)目標(biāo)是最大化它們的和容量,即∑mCcm[m].在此期間,V2V 鏈路主要用來保證隱私數(shù)據(jù)可靠傳輸,其中車輛以不同的頻率周期性地生成數(shù)據(jù).令B表示周期性生成的V2V 有效載荷的大小,單位是比特.ΔT是信道相干時(shí)間,t是相干時(shí)間的索引.在約束時(shí)間T內(nèi),則大小為B的數(shù)據(jù)包的傳輸速率為

      所研究的資源分配問題可描述為:對所有k∈K,m∈M,V2V 鏈路的傳輸功率連續(xù)可調(diào)變量Pdk[m],同時(shí)最大化所有V2I 鏈路的總?cè)萘俊苖Ccm[m]和式(7).在車輛環(huán)境中的高移動(dòng)性排除了在中央控制器上收集精確的全局的信道狀態(tài)信息,而采用分布式的V2V 資源分配是一種更好解決方案.其次,如何協(xié)調(diào)多個(gè)V2V 鏈路上的動(dòng)作,使它們不僅僅只為自己的利益行事以損害整個(gè)系統(tǒng)的性能表現(xiàn).此外,式(7)涉及時(shí)間約束T內(nèi)多個(gè)相干時(shí)隙的順序決策,但由于指數(shù)復(fù)雜性而給傳統(tǒng)的優(yōu)化方法帶來困難.為解決此問題,本文將問題轉(zhuǎn)換成馬爾可夫決策過程,提出一種基于多智能體強(qiáng)化學(xué)習(xí)(Multi-Agent Deep Deterministic Policy Gradient,MADDPG)的V2V 鏈路的發(fā)射功率控制的分布式算法.

      2 基于MADDPG 的資源分配算法

      本文將每輛車的V2V 鏈路嘗試不同的發(fā)射功率控制的問題建模成多智能體強(qiáng)化學(xué)習(xí)問題.每輛車充當(dāng)一個(gè)智能體,都與未知的環(huán)境進(jìn)行交互以獲得經(jīng)驗(yàn),然后從經(jīng)驗(yàn)中學(xué)習(xí)最優(yōu)策略.多個(gè)智能體共同探索一個(gè)環(huán)境,并根據(jù)環(huán)境狀態(tài)的變化來優(yōu)化功率控制策略.為提高神經(jīng)網(wǎng)絡(luò)的全局性能,通過對所有智能體使用相同的獎(jiǎng)勵(lì)函數(shù),將各個(gè)智能體博弈過程轉(zhuǎn)換成一個(gè)完全合作的方式.多智能體強(qiáng)化學(xué)習(xí)算法分為兩個(gè)階段,即集中式學(xué)習(xí)(訓(xùn)練)階段和分布式執(zhí)行階段.在學(xué)習(xí)階段每個(gè)智能體都可以獲得系統(tǒng)獎(jiǎng)勵(lì),然后智能體采用集中式學(xué)習(xí)訓(xùn)練Critic 和Actor 網(wǎng)絡(luò).在執(zhí)行階段每個(gè)智能體根據(jù)接收情況對各自訓(xùn)練的Actor 網(wǎng)絡(luò)選擇各自要執(zhí)行的動(dòng)作.下面描述基于多智能體強(qiáng)化學(xué)習(xí)的功率控制算法的設(shè)計(jì)思路.

      2.1 狀態(tài)空間設(shè)計(jì)

      2.2 動(dòng)作空間設(shè)計(jì)

      本文將車聯(lián)網(wǎng)的資源分配設(shè)計(jì)歸結(jié)為V2V 鏈路的發(fā)射功率的連續(xù)控制問題.在多數(shù)文獻(xiàn)[15-16]中,V2V 鏈路發(fā)送端的發(fā)射功率是連續(xù)變量,它的取值范圍為,智能體k的動(dòng)作決策表示

      2.3 獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)

      強(qiáng)化學(xué)習(xí)在解決高維復(fù)雜的場景中難以優(yōu)化的目標(biāo)問題時(shí),重在其獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì).當(dāng)每個(gè)步驟獲得的獎(jiǎng)勵(lì)值與預(yù)期目標(biāo)存在關(guān)聯(lián)時(shí),所設(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù)可以提高系統(tǒng)性能.在第1 節(jié)中所提的V2V鏈路發(fā)送端的功率控制問題中,本文的目標(biāo)是在于兩方面,一方面最大化V2I 容量和,另一方面提高在T時(shí)間內(nèi)V2V 有效負(fù)載交付的成功概率,其中所有V2I 鏈路的瞬時(shí)容量和定義為對于每個(gè)智能體k,將獎(jiǎng)勵(lì)Lk設(shè)置為V2V 鏈路的傳輸速率[14],直到有效負(fù)載完全交付,之后令獎(jiǎng)勵(lì)為常數(shù)β,它大于最大的V2V 鏈路傳輸速率.因此,在t時(shí)間步V2V 鏈路有效負(fù)載成功傳輸?shù)莫?jiǎng)勵(lì)設(shè)置為

      其中,當(dāng)V2V 鏈路上的有效負(fù)載交付完成之前,該獎(jiǎng)勵(lì)設(shè)置為0,當(dāng)完成交付后獎(jiǎng)勵(lì)設(shè)置為1.考慮到實(shí)際訓(xùn)練過程中,存在智能體獲得獎(jiǎng)勵(lì)為0 的情況以至于智能體難以學(xué)到有用的經(jīng)驗(yàn).因此,設(shè)置一個(gè)在0 到1 之間取值的權(quán)重λ,該參數(shù)反映了優(yōu)化方向傾向于V2V 鏈路負(fù)載的成功傳輸概率,本文將獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)為V2I 鏈路總?cè)萘亢蚔2V 鏈路負(fù)載的傳輸成功概率的折中:

      2.4 多智能體深度強(qiáng)化學(xué)習(xí)算法

      1)深度確定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法:通過引入神經(jīng)網(wǎng)絡(luò)來擬合值函數(shù),深度Q 網(wǎng)絡(luò)(Deep Q-Network,DQN)解決了狀態(tài)空間的“維度災(zāi)難”的問題.此外,DQN算法采用經(jīng)驗(yàn)池存儲(chǔ)多步樣本并抽取最小批樣本進(jìn)行批處理和不同于估計(jì)網(wǎng)絡(luò)參數(shù)更新頻率的目標(biāo)網(wǎng)絡(luò)都有效地促進(jìn)了神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí).DDPG 算法結(jié)合了策略梯度和DQN 的優(yōu)點(diǎn),它包括了兩種類型的神經(jīng)網(wǎng)絡(luò),一種是基于策略(Policy)的Actor 網(wǎng)絡(luò),另一種是基于價(jià)值(Value)的評(píng)論家Critic 網(wǎng)絡(luò).Actor 網(wǎng)絡(luò)通過收集到的環(huán)境狀態(tài),然后根據(jù)策略πk執(zhí)行相應(yīng)的動(dòng)作.Critic 網(wǎng)絡(luò)使用狀態(tài)-動(dòng)作值函數(shù)根據(jù)策略Qk(·)來評(píng)估Actor 網(wǎng)絡(luò)選擇的動(dòng)作的好壞.是智能體k的輸入狀態(tài),γ是即時(shí)獎(jiǎng)勵(lì)Rkt的折扣因子.那么DDPG 算法的狀態(tài)-動(dòng)作值函數(shù)可以表達(dá)為

      作為一種策略梯度算法,DDPG 的主要思想是獲得一個(gè)最優(yōu)策略π*k,并學(xué)習(xí)與最優(yōu)策略π*k相對應(yīng)的狀態(tài)-動(dòng)作值函數(shù)直至收斂.DDPG 的Actor Critic網(wǎng)絡(luò)采用雙網(wǎng)絡(luò)結(jié)構(gòu),一個(gè)是評(píng)估網(wǎng)絡(luò)(Actor 評(píng)估網(wǎng)絡(luò)的參數(shù)θμk和Critic 網(wǎng)絡(luò)評(píng)估網(wǎng)絡(luò)的參數(shù)θQk),一個(gè)是目標(biāo)網(wǎng)絡(luò)(Actor 評(píng)估網(wǎng)絡(luò)的參數(shù)θμ′k和Critic 網(wǎng)絡(luò)評(píng)估網(wǎng)絡(luò)的參數(shù)θQ′k),評(píng)估網(wǎng)絡(luò)的參數(shù)θμk和θQ k是實(shí)時(shí)更新的.更新過程是先從經(jīng)驗(yàn)池中隨機(jī)抽取一小批量的樣本經(jīng)驗(yàn),并將其逐個(gè)輸入到智能體中.在訓(xùn)練階段,Actor 和Critic 網(wǎng)絡(luò)根據(jù)每個(gè)輸入的小批量的樣本更新評(píng)估網(wǎng)絡(luò)的參數(shù).Critic 網(wǎng)絡(luò)通過盡量減少損失來調(diào)整評(píng)估網(wǎng)絡(luò)的參數(shù),它的損失函數(shù)可以表達(dá)為

      式中:Qk′(·)是目標(biāo)網(wǎng)絡(luò)的動(dòng)作-狀態(tài)值函數(shù).當(dāng)L(θQ k)是連續(xù)可微時(shí),θQ k可以隨損失函數(shù)的梯度進(jìn)行調(diào)整.當(dāng)Actor 為每個(gè)觀察做出行動(dòng)決策,每個(gè)智能體旨在最大化累積回報(bào)時(shí),通過最大化策略目標(biāo)函數(shù)來更新Actor 的評(píng)估網(wǎng)絡(luò)參數(shù),其目標(biāo)函數(shù)為

      式中:μk(·)是一種狀態(tài)映射動(dòng)作的確定性策略πk的Actor 評(píng)估網(wǎng)絡(luò)函數(shù).由于動(dòng)作空間是具有連續(xù)性的,J(θμk)是連續(xù)可微的,θμk可以調(diào)整梯度?θμk J(θμk)下降的方向.隨著評(píng)估網(wǎng)絡(luò)的參數(shù)θμk和θQ k的不斷更新,目標(biāo)網(wǎng)絡(luò)的參數(shù)θμ′k和θQ′k采用軟更新(其中用到一個(gè)接近于0 的正數(shù)常量τ?1)的方式進(jìn)行更新

      2)MADDPG 框架:該MADDPG 框架由K個(gè)智能體組成,其中每個(gè)智能體都由類似DDPG 算法實(shí)現(xiàn),MADDPG 框架如圖2 所示.

      圖2 多智能體深度確定性策略梯度MADDPG 框架Fig.2 MADDPG framework

      如圖2,不同于DDPG 算法的集中式訓(xùn)練和執(zhí)行方式,在MADDPG 框架中采用集中式學(xué)習(xí)訓(xùn)練和分布式執(zhí)行[17],其中每一組Actor 和Critic 都是一個(gè)智能體.在集中式的離線訓(xùn)練階段,除了智能體k通過局部觀察得到的狀態(tài)信息Skt和當(dāng)前車輛的執(zhí)行動(dòng)作Akt外,需要引入其他智能體的動(dòng)作信息和 狀 態(tài) 信 息合并一起存儲(chǔ)到當(dāng)前智能體的經(jīng)驗(yàn)池中用于集中式訓(xùn)練Critic 網(wǎng)絡(luò),用于集中式訓(xùn)練的聯(lián)合動(dòng)作表示為At,聯(lián)合狀態(tài)表示為St.此外,有了額外的信息,每個(gè)智能體都允許分別學(xué)習(xí)其狀態(tài)-動(dòng)作值函數(shù).在分布式執(zhí)行階段,由于Actor 網(wǎng)絡(luò)只需要局部觀察,每個(gè)智能體都可以在不了解其他智能體的環(huán)境信息的情況下獲得其動(dòng)作. 根據(jù)以上,總結(jié)出基于多智能體強(qiáng)化學(xué)習(xí)MADDPG 的V2V 鏈路的功率控制算法為

      3 實(shí)驗(yàn)仿真

      3.1 仿真環(huán)境

      在本文的車聯(lián)網(wǎng)無線通信場景中,根據(jù)3GPP TR 36.885[3]附錄A 定義了城市中車聯(lián)網(wǎng)模擬器,包括車輛、車道和無線通信網(wǎng)絡(luò)模型,主要的仿真參數(shù)如表1 所示,其中一條V2V 鏈路對應(yīng)一條V2I 鏈路.每個(gè)智能體的Actor 網(wǎng)絡(luò)和Critic 網(wǎng)絡(luò)均由3 個(gè)完全連接的隱藏層組成,分別包含256、64 和16 個(gè)神經(jīng)元組成.激活函數(shù)為修正線性單元(ReLU),使用適應(yīng) 性 矩 估 計(jì)(Adaptive Momentum Estimation,Adam)優(yōu)化器來迭代訓(xùn)練更新神經(jīng)網(wǎng)絡(luò)權(quán)重.算法一共訓(xùn)練2 000 Episode,為智能體選擇的動(dòng)作添加一個(gè)可變的高斯噪聲,探索概率采取線性退火算法處理,從開始的1 一直退火到1 600 Episode 時(shí)的0.02,在后面的訓(xùn)練步中探索概率保持不變.本文在算法訓(xùn)練階段V2V 鏈路負(fù)載量選取1 060 兆字節(jié),在對比其他基準(zhǔn)算法以驗(yàn)證算法魯棒性時(shí)采用不同大小的負(fù)載量.

      表1 仿真參數(shù)設(shè)置[3]Tab.1 Simulation parameter setting

      3.2 基線算法

      1)基于離散動(dòng)作空間的多智能體深度強(qiáng)化學(xué)習(xí)(MADQN):本算法單個(gè)智能體遵循DQN 算法,即每個(gè)智能體基于當(dāng)前的車聯(lián)網(wǎng)環(huán)境從動(dòng)作集{0,0.003W,0.006W,0.012W,0.025W,0.5W,0.1W,0.2W}選擇離散的動(dòng)作,與DDPG 算法不同,DQN 算法僅有一種神經(jīng)網(wǎng)絡(luò)即Q 網(wǎng)絡(luò).DQN 算法也采用了經(jīng)驗(yàn)池和評(píng)估網(wǎng)絡(luò)與目標(biāo)網(wǎng)絡(luò)的雙網(wǎng)絡(luò)結(jié)構(gòu).DQN算法的超參數(shù)學(xué)習(xí)率和折扣因子與DDPG 一樣.MADQN 也采用集中式訓(xùn)練和分布式執(zhí)行的方案.

      2)隨機(jī)優(yōu)化算法(Random):在每個(gè)時(shí)間步,車輛在V2V 鏈路上以一種均勻分布的隨機(jī)方式選擇傳輸功率.

      3)基于連續(xù)動(dòng)作空間的單智能體深度強(qiáng)化學(xué)習(xí)(DDPG):算法中只有一個(gè)智能體,智能體具有評(píng)估網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)的雙網(wǎng)絡(luò)結(jié)構(gòu).智能體只觀測單個(gè)車輛的局部觀察和獎(jiǎng)勵(lì).

      3.3 實(shí)驗(yàn)結(jié)果

      如圖3 所示為獎(jiǎng)勵(lì)隨Episode 的變化情況,可以觀察MADDPG 算法的收斂性表現(xiàn).本文設(shè)置每個(gè)Episode 中 共 有100 個(gè) 訓(xùn) 練 步,每 個(gè)Episode 的 所 有訓(xùn)練步的累計(jì)獎(jiǎng)勵(lì)和作為回報(bào)獎(jiǎng)勵(lì).分析得出,隨著不斷地訓(xùn)練迭代,獎(jiǎng)勵(lì)值逐漸增加,當(dāng)訓(xùn)練到500 Episode 時(shí),所提算法開始收斂,其中由于車輛的高移動(dòng)性,網(wǎng)絡(luò)拓?fù)鋾?huì)發(fā)生快速變化,信道衰落波動(dòng),導(dǎo)致算法收斂時(shí)存在數(shù)值波動(dòng).

      圖3 MADDPG 算法的收斂性Fig.3 Convergence of MADDPG algorithm

      圖4 所示不同V2V 鏈路有效負(fù)載大小條件下各個(gè)算法對V2I 鏈路容量和優(yōu)化性能比較.實(shí)驗(yàn)結(jié)果表明,隨著V2V 鏈路有效負(fù)載大小的增加,所有算法優(yōu)化的V2I 容量和均呈現(xiàn)下降趨勢.為了提高V2V 有效載荷傳輸成功概率,V2V 有效載荷的增加導(dǎo)致更長的時(shí)間內(nèi)對V2I 鏈路造成更強(qiáng)的干擾,從而危及其容量性能.即V2V 鏈路負(fù)載的增多會(huì)導(dǎo)致V2V 鏈路傳輸數(shù)據(jù)的時(shí)間更長,發(fā)射功率變大,由此將導(dǎo)致對V2I 鏈路的干擾更強(qiáng),進(jìn)而通信容量會(huì)變小.在相同的負(fù)載條件下,所提算法優(yōu)化的V2I 鏈路總?cè)萘咳匀槐绕渌? 個(gè)基線策略更高.隨著負(fù)載增加,3 個(gè)基線策略的V2I 鏈路總?cè)萘砍室恢毕陆档内厔荩崴惴ㄐ阅艹霈F(xiàn)了緩慢波動(dòng)下降的趨勢,具有良好的魯棒性.

      圖4 不同負(fù)載大小下各個(gè)V2I 鏈路總?cè)萘縁ig.4 Total capacity of each V2I link under different loads

      圖5 展示了V2V 鏈路傳輸成功概率和V2V 鏈路傳輸負(fù)載大小的關(guān)系.4 種優(yōu)化策略的傳輸成功概率都會(huì)隨著負(fù)載的增大而下降.這是因?yàn)樵谙嗤膫鬏斔俾屎拖嗤膫鬏敃r(shí)隙條件下,傳輸?shù)呢?fù)載量基本固定,而V2V 鏈路的需要總負(fù)載大小越大,會(huì)導(dǎo)致V2V 鏈路負(fù)載的傳輸成功概率越低.此外,實(shí)驗(yàn)結(jié)果表明,所提MADDPG 算法在不同的負(fù)載大小的情況下都要優(yōu)于隨機(jī)、MADQN 和單智能體DDPG 策略,隨著傳輸負(fù)載的增加,與其他3 種策略的V2V 鏈路負(fù)載傳輸成功概率差值在不斷增大,所提算法具有更好的性能表現(xiàn).

      圖5 不同負(fù)載大小下V2V 鏈路負(fù)載傳輸成功概率Fig.5 Success probability of V2V link load transmission under different loads

      為更好地理解提出的MADDPG 算法取得更高性能的原因,現(xiàn)選擇一個(gè)episode 對MADDPG 和隨機(jī)算法進(jìn)行對比分析,在此種情況下,算法允許所有的V2V 鏈路負(fù)載大小為1 060 Bytes.圖6 顯示了兩種方案在30 ms 時(shí)間約束內(nèi)所有V2V 鏈路瞬時(shí)速率的變化. 在圖6(a)中,利用所提出的MADDPG 算法,鏈路4 在開始時(shí)獲得非常高的傳輸速率,以提前其他3 條鏈路完成傳輸,使得該鏈路的良好信道條件被充分利用,并且在該episode后期不會(huì)對其他鏈路產(chǎn)生干擾.鏈路2 起初保持低速傳輸,使得易受攻擊的鏈路1 和鏈路3 可以獲得相對較好的傳輸速率來傳輸有效載荷,當(dāng)其他鏈路傳輸完畢后鏈路2 以高速率完成自己鏈路的負(fù)載傳輸.這樣保證了所有V2V 鏈路的負(fù)載有序快速地完成傳輸,說明了所提MADDPG 算法在多智能體的合作方面的有效性.而在圖6(b)中隨機(jī)算法中各個(gè)鏈路爭奪頻譜資源,使得鏈路之間存在較大的信號(hào)干擾,進(jìn)而導(dǎo)致傳輸失敗的可能性較高,因此傳輸完成的時(shí)間比較長.

      圖6 負(fù)載大小為1 060 Bytes 時(shí)各個(gè)V2V 鏈路在各個(gè)時(shí)間步的傳輸速率Fig.6 Transmission rate of each V2V link at each time step under the load of 1 060 Bytes

      4 結(jié)論

      1)采用馬爾可夫決策過程建模,提出了一種基于多智能體強(qiáng)化學(xué)習(xí)MADDPG 的資源分配算法.此算法解決了智能體的連續(xù)動(dòng)作的功率控制問題,算法分為集中式訓(xùn)練和分布式執(zhí)行兩個(gè)階段.

      2)通過Python 編程實(shí)現(xiàn)車輛和信道等仿真器,在機(jī)器學(xué)習(xí)TensorFlow 平臺(tái)下使用深度神經(jīng)網(wǎng)絡(luò)編程并進(jìn)行實(shí)驗(yàn)仿真.實(shí)驗(yàn)驗(yàn)證了所提算法的收斂性和魯棒性.相較于單智能體DDPG、MADQN 和隨機(jī)策略,所提算法優(yōu)化的V2I 鏈路總?cè)萘亢蚔2V鏈路負(fù)載傳輸成功概率更高,具有更好的性能表現(xiàn).此外,所提算法可以有效地鼓勵(lì)各個(gè)智能體之間的合作,以提高整體系統(tǒng)性能.

      未來的工作將包括所提算法的優(yōu)化策略,包括注意力機(jī)制,優(yōu)先經(jīng)驗(yàn)回放等方法,這樣可以選擇更加有利的經(jīng)驗(yàn)樣本數(shù)據(jù)訓(xùn)練神經(jīng)網(wǎng)絡(luò),使得神經(jīng)網(wǎng)絡(luò)更快地向著正確的方向達(dá)到收斂,以進(jìn)一步提升算法的性能.

      猜你喜歡
      鏈路信道傳輸
      家紡“全鏈路”升級(jí)
      天空地一體化網(wǎng)絡(luò)多中繼鏈路自適應(yīng)調(diào)度技術(shù)
      混合型隨機(jī)微分方程的傳輸不等式
      牽引8K超高清傳輸時(shí)代 FIBBR Pure38K
      電子制作(2018年18期)2018-11-14 01:48:00
      支持長距離4K HDR傳輸 AudioQuest Pearl、 Forest、 Cinnamon HDMI線
      基于導(dǎo)頻的OFDM信道估計(jì)技術(shù)
      一種改進(jìn)的基于DFT-MMSE的信道估計(jì)方法
      基于MED信道選擇和虛擬嵌入塊的YASS改進(jìn)算法
      基于3G的VPDN技術(shù)在高速公路備份鏈路中的應(yīng)用
      神池县| 宜春市| 镇雄县| 大宁县| 洱源县| 麦盖提县| 江门市| 石棉县| 丹阳市| 宣恩县| 黄龙县| 和顺县| 安吉县| 文山县| 二连浩特市| 阳泉市| 莆田市| 宁津县| 泸水县| 临汾市| 宁晋县| 宽甸| 祁阳县| 渭源县| 抚松县| 游戏| 峨山| 宁南县| 霍山县| 甘洛县| 漳平市| 中卫市| 越西县| 特克斯县| 崇阳县| 霍山县| 蓝山县| 南宫市| 奉节县| 三门峡市| 高碑店市|