• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    面向多用戶移動邊緣計算輕量任務(wù)卸載優(yōu)化

    2020-10-21 00:58:12張文獻杜永文張希權(quán)
    小型微型計算機系統(tǒng) 2020年10期
    關(guān)鍵詞:信道能耗神經(jīng)網(wǎng)絡(luò)

    張文獻,杜永文,張希權(quán)

    (蘭州交通大學(xué) 電子與信息工程學(xué)院,蘭州 730070)

    1 引 言

    隨著移動通信技術(shù)的不斷發(fā)展,移動終端服務(wù)給人們的生活帶來了極大的便利.同時,新的需求相繼涌現(xiàn),給移動計算技術(shù)帶來了許多新的挑戰(zhàn).其中最顯著就是計算需求和計算能力不匹配的問題.同時移動設(shè)備通常存在高能耗問題,這使得它無法支撐規(guī)模較大的計算任務(wù).根據(jù)思科的報告表明(1)http://www.cisco.com/c/en/us/solutions/collateral/service-provider/visual-networking-index-vni/mobile-whitepaper-c11-520862.html.,移動數(shù)據(jù)流量將在未來5年增長7倍,到2021年將達到每月49艾字節(jié),同時全球IoT設(shè)備數(shù)量將從目前的80億增加到120億.

    由于數(shù)據(jù)流量的激增,終端已經(jīng)無法承載這樣大規(guī)模的計算需求.利用中央云技術(shù)處理大量數(shù)據(jù),一時被認為是一個有效的解決方案.但是,云計算在解決終端計算需求的過程中存在一些劣勢:延遲性高、能量消耗大以及網(wǎng)絡(luò)帶寬占用高等.為了提高移動應(yīng)用的服務(wù)質(zhì)量(QoS),移動邊緣計算技術(shù)(MEC)作為一種新的解決方案應(yīng)運而生,同時,移動邊緣計算技術(shù)可以用來解決移動設(shè)備上不斷增加的移動應(yīng)用程序計算需求問題.

    作為MEC的一項關(guān)鍵技術(shù)——任務(wù)卸載,它首先通過卸載決策去確定哪些計算需要在本地處理,哪些計算需要上傳到邊緣服務(wù)器去處理.最后通過計算資源分配來確定最后卸載的位置.任務(wù)卸載技術(shù)可以有效解決MEC框架在資源存儲、計算性能以及能耗等方面存在的不足.這不僅減輕了核心網(wǎng)的壓力,而且降低了因傳輸帶來的時延.

    此外,在無線衰落環(huán)境中,時變無線信道條件在很大程度上影響著無線MEC系統(tǒng)的最佳卸載決策[1].在多用戶場景中,主要問題是個體計算模式的聯(lián)合優(yōu)化(即,卸載或者本地計算)和無線資源分配(例如,在進行卸載時該選擇哪些基站).由于場景中存在二進制卸載變量,這些問題通常被表述為混合整數(shù)規(guī)劃(MIP)問題.為了解決MIP問題,大多研究采用了分支定界算法[2]和動態(tài)規(guī)劃[3],但它們的計算復(fù)雜度過高,不適合應(yīng)用在大規(guī)模MEC網(wǎng)絡(luò).為了降低計算復(fù)雜度,一些新的研究提出了啟發(fā)式局部搜索和凸松弛方法.然而,它們都需要大量的迭代才能達到局部最優(yōu)值.因此,不適合在快速衰落信道中進行實時卸載決策,一旦信道衰落變化的速度變快,這些方法就需要重新解決優(yōu)化問題.

    隨著智能體數(shù)量的增加,狀態(tài)空間維度的爆炸將使傳統(tǒng)的表格方法變得不可行[4],傳統(tǒng)的強化學(xué)習(xí)(RL)算法將無法很好的解決維數(shù)問題.最近,深度強化學(xué)習(xí)(DRL)已經(jīng)被證明可以通過利用深度神經(jīng)網(wǎng)絡(luò)(DNN)有效的逼近RL的Q值[5].深度強化學(xué)習(xí)與移動邊緣計算結(jié)合可以使移動設(shè)備基于任務(wù)隊列狀態(tài)、能量最大化長期效用、隊列狀態(tài)以及信道質(zhì)量學(xué)習(xí)到最優(yōu)任務(wù)卸載決策和能量分配方案.

    在本文中,考慮了如何更有效的判別計算任務(wù)是否需要卸載到邊緣節(jié)點上.提出具有多用戶的MEC網(wǎng)絡(luò),其中每個用戶都遵循二進制卸載策略.本文的目標是根據(jù)時變無線信道共同優(yōu)化用戶任務(wù)卸載決策.為此我們提出了基于深度強化學(xué)習(xí)的計算卸載框架,以實現(xiàn)最低時延與能耗的卸載.與現(xiàn)有基于深度強化學(xué)習(xí)的算法相比,本文的工作如下:

    1)在現(xiàn)有的基于離散動作空間做出決策的基礎(chǔ)上,提出了一種基于候選網(wǎng)絡(luò)的連續(xù)動作空間的算法,以獲得更好的本地執(zhí)行和任務(wù)卸載的功率控制.

    2)基于多用戶的MEC系統(tǒng),針對每個具有任務(wù)隨機到達和時變無線信道的移動用戶獨立地學(xué)習(xí)動態(tài)卸載策略.依此策略實現(xiàn)ECOO(Edge Computing Optimize Offloading)算法,實現(xiàn)功耗和計算成本降低,并減少時延.

    3)通過實驗仿真,說明通過ECOO與傳統(tǒng)的DQN和DDPG算法的分散策略中學(xué)習(xí)的性能相比,在能耗與時延方面有更好的仿真結(jié)果,并分析了每個用戶的功率延遲權(quán)衡.

    2 相關(guān)工作

    現(xiàn)有的大量工作研究了移動邊緣計算的優(yōu)化問題.一些工作為了降低時延與能耗,將卸載決策的問題建模成MIP問題,并考慮怎樣應(yīng)對隨機任務(wù)到達和信道快速衰落.

    卸載決策作為MIP問題,有許多相關(guān)的工作將MEC網(wǎng)絡(luò)中的計算模式?jīng)Q策問題和資源分配問題聯(lián)合建模.例如,文獻[6]提出了一種坐標下降(CD)方法,它每次沿著一個變量維度搜索.文獻[7]研究了一種類似于多服務(wù)器MEC網(wǎng)絡(luò)的啟發(fā)式搜索方法,它可以動態(tài)地調(diào)整二進制卸載決策.另一種廣泛采用的啟發(fā)式方法是凸松弛法,例如,通過將整數(shù)變量放寬到0到1之間的連續(xù)變化[8],或者通過用二次約束逼近優(yōu)化[9].盡管如此,一方面,降低復(fù)雜性的啟發(fā)式算法解決方案質(zhì)量無法保證.另一方面,基于搜索和凸松弛方法都需要相當(dāng)多的迭代才能達到令人滿意的局部最優(yōu)值,并且不適用于快速衰落信道.

    為了應(yīng)對隨機任務(wù)到達和信道快速衰落,MEC系統(tǒng)中無線電和計算資源的動態(tài)聯(lián)合控制策略變得更具挑戰(zhàn)性[10-13].文獻[10],作者考慮了多用戶的部分計算卸載,并研究了基于時分多址和正交頻分多址的資源分配,目的是最大限度地減少用戶能耗的加權(quán)總和.在文獻[11]中,作者設(shè)計了多輸入多輸出系統(tǒng),通過形成的多輸入多輸出波束和計算資源分配的聯(lián)合優(yōu)化,解決任務(wù)卸載的能耗問題.文獻[12]研究了用于能量獲取的綠色MEC系統(tǒng),其中利用延遲成本解決了執(zhí)行延遲和任務(wù)失敗的問題.對于多用戶場景,作者主要討論功率延遲權(quán)衡[13].

    最近,許多工作在無線網(wǎng)絡(luò)的資源管理研究上已經(jīng)取得進展,在文獻[14]中,作者提出了一種深度強化學(xué)習(xí)算法,用于研究在時變的實際無線環(huán)境中的最佳緩存和干擾抗性.在文獻[15]中,Chen等人在具有多個基站的超密集切片無線接入網(wǎng)絡(luò)中,為移動用戶判斷哪些MEC可用于任務(wù)卸載.作者提出了一種基于深度Q網(wǎng)絡(luò)(DQN)的計算卸載算法策略,以獲得最佳策略,進而最大化長期效用性能.在現(xiàn)有的工作中,只有基于集中式DRL算法來解決MEC系統(tǒng)中的最優(yōu)計算卸載,而用于多用戶MEC系統(tǒng)動態(tài)任務(wù)卸載控制的DRL算法設(shè)計研究數(shù)量仍然是欠缺的.

    3 問題模型

    如圖1所示為一個多用戶MEC系統(tǒng),它由一個MEC服務(wù)器,一個基站(BS)和一組移動用戶組成N={1,2,…,N}.其中每個用戶都需要完成計算密集型任務(wù).由于需要解決每個移動設(shè)備計算能力有限的問題,將MEC服務(wù)器部署在BS的附近,這樣可以通過不同的用戶需求來改善用戶的QoS.此外,隨著移動用戶的增加,聯(lián)合用戶共同處理問題使每個用戶的分散任務(wù)卸載問題解決起來更加便利,因為這可以減少用戶與MEC服務(wù)器之間的系統(tǒng)開銷,提高MEC系統(tǒng)的擴展性.在下文中將詳細介紹建模過程.

    3.1 網(wǎng)絡(luò)模型

    考慮到一個5G MBS或BS作為一個MEC系統(tǒng),并通過采用線性檢測算法來管理多個移動用戶上行鏈路傳輸(ZF).對于每個時隙t∈T,BS的接收信號可以寫為[16]:

    (1)

    其中p0,n(t)是用戶n卸載任務(wù)數(shù)據(jù)位的傳輸功率,sm(t)是具有單位方差的復(fù)數(shù)數(shù)據(jù)符號,n(t)∈(0,σ2)是加性高斯(AWGN)的矢量,方差為σ2.為了表征每個移動用戶時隙的相關(guān)性,本文采用以下的高斯馬爾可夫塊衰落自回歸模型[17]:

    (2)

    其中ρm是時隙t和t-1之間的歸一化信道相關(guān)系數(shù),e(t)是誤差矢量.

    (3)

    從公式(3)中可以驗證每個用戶的信噪比SINR隨著用戶數(shù)N的增加而變差,為了解決這一問題,需要為每個用戶分配更多的卸載功率.

    3.2 計算模型

    在這一部分中,我們將討論每個移動用戶是如何利用本地執(zhí)行或者計算卸載來滿足其運行應(yīng)用程序.假設(shè)所有的應(yīng)用程序是細粒度的[18],d1,m(t)表示計算任務(wù)在本地移動設(shè)備上,d0,n(t)表示將計算任務(wù)卸載到邊緣服務(wù)器上執(zhí)行.在時隙t開始時,用戶n的任務(wù)緩沖區(qū)的隊列長度為:

    Bn(t+1)=[Bn(t)-(d1,n(t)+d0,n(t))]++an(t),?t∈T

    (4)

    其中an(t)表示時隙t期間任務(wù)到達的數(shù)量.

    1)本地計算:p1,n(t)∈[0,p1,n]為本地執(zhí)行分配功率.首先,假設(shè)用戶n處理一個任務(wù)所需要的CPU周期數(shù)為Ln,周期數(shù)可以通過離線測量來估算[19].使用DVFS技術(shù)調(diào)整芯片電壓[20],κ為在時隙t時寫入有效開關(guān)電容的CPU頻率.因此,在t時隙的本地處理可以通過以下方式導(dǎo)出:

    (5)

    (6)

    2)邊緣計算:為了利用邊緣計算解決問題,MEC服務(wù)器通常配備有足夠的計算資源,通過BS卸載到MEC服務(wù)器的所有任務(wù)都將被處理.因此,根據(jù)公式(3)可以得出用戶n的卸載數(shù)據(jù)的比特量.

    d0,n=τ0Wlog2(1+γn(t))

    (7)

    其中W是系統(tǒng)帶寬.

    3.3 能耗模型

    智能手機,傳感器和遠程服務(wù)器在內(nèi)的所有計算設(shè)備在一定執(zhí)行時間內(nèi)的總能耗主要由兩部分組成:計算能耗Energycomp以及用于卸載的移動設(shè)備能耗Energyoff.首先,能耗模型i計算如下:

    (8)

    (9)

    其中alltaski表示任務(wù)數(shù)為i的計算設(shè)備,Mj表示所需的CPU資源,DRi表示CPU總資源.

    3.4 成本模型

    移動用戶需要為遠程服務(wù)器提供的計算資源支付相應(yīng)的費用.基于剩余資源量的動態(tài)價格模型.剩余資源量越少,資源價格越高.此時,用戶更愿意選擇單價較低的服務(wù)節(jié)點作為卸載目標,以降低用戶成本,提高資源利用率.單位時間t中剩余資源量的動態(tài)價格模型[21]:

    (10)

    CC表示當(dāng)前設(shè)備的成本,UT表示計算費用的間隔時間,RPM表示計算資源的單價,TM表示當(dāng)前設(shè)備的總計算資源,LU(t)表示當(dāng)前設(shè)備每單位時間使用的計算資源比率.同時,由于本地設(shè)備的計算資源屬于用戶自身,不需要計算成本,因此,遠程設(shè)備的總成本:

    (11)

    4 基于DRL的動態(tài)計算卸載

    強化學(xué)習(xí)可以通過特定場景中的自學(xué)能力來做出最佳決策,它通過將所有問題抽象為智能體與環(huán)境之間的交互過程來進行建模.在交互過程的每個時間步驟,智能體接收環(huán)境的狀態(tài)并選擇相應(yīng)的響應(yīng)動作.然后在下一個時間步驟中,智能體根據(jù)環(huán)境的反饋獲得獎勵值和新的狀態(tài).基于不斷的學(xué)習(xí),強化學(xué)習(xí)能夠適應(yīng)環(huán)境.雖然強化學(xué)習(xí)具有很多優(yōu)勢,但是它缺乏可擴展性,并且僅限于相當(dāng)?shù)偷木S度問題.為了解決強化學(xué)習(xí)中決策困難的問題,深度強化學(xué)習(xí)將深度學(xué)習(xí)的感知能力與強化學(xué)習(xí)的決策能力相結(jié)合.依靠強大的函數(shù)逼近和深度神經(jīng)網(wǎng)絡(luò)的表達學(xué)習(xí)特性來解決高維狀態(tài)空間和動作空間的環(huán)境問題[22].

    在本節(jié)中,采用改進的DDPG算法[23],在每個用戶處能獨立地學(xué)習(xí)分散的動態(tài)計算卸載策略,為本地執(zhí)行和任務(wù)卸載分配功率.特別的,每個用戶都沒有MEC系統(tǒng)的先驗知識,所以每個用戶都不知道用戶N的數(shù)量.下面引入分散動態(tài)計算卸載的DRL框架,定義狀態(tài)空間,動作空間和獎勵函數(shù).最后介紹ECOO算法.

    4.1 DRL框架

    狀態(tài)空間:為了全面研究MEC中子任務(wù)和服務(wù)器資源之間的關(guān)系,對系統(tǒng)的全面觀察包括所有用戶的信道向量和任務(wù)緩沖區(qū)的隊列長度.但是,現(xiàn)實中在BS上收集這些信息后將它們分發(fā)給每個用戶的系統(tǒng)開銷是巨大的.為了減少開銷并使MEC系統(tǒng)更具可擴展性,假設(shè)每個用戶根據(jù)其獨立的狀態(tài)來選擇動作.

    在時隙t開始時,每個用戶n的數(shù)據(jù)緩沖區(qū)Bn(t)的隊列長度將根據(jù)式(4)更新.同時,其將接收一個來自BS的反饋,該反饋在BS處傳給用戶n最后接收到的SINR.此外,還可以通過信道互異性來估計用于即將到來的上行鏈路傳輸?shù)男诺朗噶縣n(t),定義的狀態(tài)為:

    Sn,t=[Bn(t),φn(t-1),hn(t)]

    (12)

    (13)

    為了確保卸載決策能在本地移動設(shè)備或者遠程服務(wù)器上執(zhí)行子任務(wù),子任務(wù)的卸載決策只需要考慮數(shù)量為N+M+1的計算設(shè)備,其中包括一個云數(shù)據(jù)中心,N個本地移動設(shè)備,M個邊緣服務(wù)器.

    動作空間:根據(jù)每個用戶智能體觀察到的系統(tǒng)的當(dāng)前狀態(tài)Sn,t,為每個時隙t選擇本地執(zhí)行或是任務(wù)卸載的分配功率動作an,t:

    an,t=[P1,n(t),P0,n(t)]

    (14)

    不同于其他傳統(tǒng)DRL算法,從若干預(yù)定義的離散功率電平中進行選擇,本文通過應(yīng)用改進的DDPG算法可以從連續(xù)動作空間中優(yōu)化分配功率,并且顯著減少離散動作空間的高維度缺陷.

    獎勵函數(shù):每個智能體的行為都是通過獎勵驅(qū)動的.為了學(xué)習(xí)能量感知動態(tài)計算卸載策略的MEC模型,研究在可接受的緩沖延遲內(nèi)花費最少的能耗完成任務(wù).根據(jù)Little定理[24],任務(wù)緩沖區(qū)的平均隊列長度與緩沖延遲成比例.我們認為獎勵值最低的值是最佳的,因此定義每個用戶n在時隙t之后接收的獎勵函數(shù)rn,t:

    rn,t=-ωn,1P1,n(t)-ωn,2P0,n(t)-ωn,3Bn(t)

    (15)

    其中ωn,1,ωn,2和ωn,3都是非負加權(quán)因子,通過設(shè)置不同的值,可以動態(tài)權(quán)衡在任務(wù)卸載時的能量消耗和緩沖延遲.改進的DDPG在策略on下從初始狀態(tài)開始最大化用戶n的值函數(shù):

    (16)

    當(dāng)γ→1時,它可用于近似每個用戶在無線范圍內(nèi)未損失獎勵[25],平均計算成本為:

    (17)

    4.2 基于候選網(wǎng)絡(luò)的優(yōu)化

    ECOO算法的偽代碼描述如下:

    輸入:批次大小δ,當(dāng)前神經(jīng)網(wǎng)絡(luò)MainNet,候選網(wǎng)絡(luò)集Net

    輸出:訓(xùn)練完成的神經(jīng)網(wǎng)絡(luò)

    1.隨機選擇大小為δ的數(shù)據(jù)樣本miniBatch

    2.初始化狀態(tài)列表stateList和獎勵列表rewardList

    3.初始化數(shù)組NetTotalArray來存儲的所有獎勵值Net2,Net2∈Net

    4.totalValue=0

    5.N=Net的大小

    6.for i=0, δ-1 do

    7. targetValue=0

    8. 根據(jù)miniBatch中的第i個樣本獲取當(dāng)前狀態(tài)St,動作at,獎勵rt和下一個狀態(tài)St+1

    9. 根據(jù)狀態(tài)St計算網(wǎng)絡(luò)MainNet的獎勵列表Q1

    10. 根據(jù)狀態(tài)St+1計算網(wǎng)絡(luò)MainNet的獎勵列表Q2

    11. 在Q2中選擇與最大獎勵值相對應(yīng)的動作at+1

    12. 初始化獎勵值列表NetValueList以存儲候選人計算的獎勵值

    13. for j=0,N-1 do

    14. 基于狀態(tài)St+1和動作at+1計算第j個網(wǎng)絡(luò)的獎勵值Qj

    15. NetValueList[j]=Qj

    16. end for

    17. targetValue=Max(NetValueList)

    18.Q1[at]=targetValue

    19. totalValue=totalValue+rt

    20. stateList[i]=st

    21. rewardList[i]=Qj

    22. 通過主網(wǎng)絡(luò)中的每步替換Net中最早的目標網(wǎng)絡(luò)

    23.end for

    24.if totalValue>Min(NetTotalArray) do

    25.用NetTotalArray中總獎勵值最小的網(wǎng)絡(luò)替換主網(wǎng)絡(luò),并將對應(yīng)的總獎勵值更新為totalValue

    26.end if

    27.根據(jù)stateList和rewardList訓(xùn)練主網(wǎng)絡(luò)

    28.Return MainNet

    圖2表示了基于DRL的移動邊緣計算卸載的模型,其包括:高維狀態(tài)空間表示、神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計和長期獎勵的最大化.如圖2所示,智能體觀察環(huán)境并獲得原始服務(wù)信號,例如信噪比和無線信道信息.這些信號可以組合成高維狀態(tài)輸入,然后進入到深度神經(jīng)網(wǎng)絡(luò)中.需要特定結(jié)構(gòu)的深度神經(jīng)網(wǎng)絡(luò),例如卷積神經(jīng)網(wǎng)絡(luò)或遞歸神經(jīng)網(wǎng)絡(luò),它們能夠挖掘有用的信息并輸出值函數(shù)或策略.根據(jù)輸出,智能體可以選擇出一個動作,該動作代表下一個卸載動作.然后觀察所得的卸載性能,并將其作為獎勵返回給控制器,來決定是否卸載.卸載智能體使用獎勵來訓(xùn)練和改進深度神經(jīng)網(wǎng)絡(luò)模型,以最大化累積獎勵.

    圖2 深度強化學(xué)習(xí)計算卸載過程Fig.2 Deep reinforcement learning computing offloading process

    假設(shè)所有的計算任務(wù)具有等大的規(guī)模,并且假定邊緣節(jié)點的計算能力足以進行任務(wù)的計算.目標是找到最佳的緩存策略,以最大程度地減少卸載時造成的時延和能耗.DQN算法通過延遲更新,以保證當(dāng)前網(wǎng)絡(luò)與目標網(wǎng)絡(luò)之間的參數(shù)差異,從而提高訓(xùn)練過程的穩(wěn)定性.但是當(dāng)噪聲或誤差而過估訓(xùn)練過程的動作值時,在后面的參數(shù)更新過程中,相應(yīng)動作的值也將不可避免地被高估.綜合考慮多個候選網(wǎng)絡(luò)的結(jié)果,將行動選擇網(wǎng)絡(luò)與行動價值網(wǎng)絡(luò)分離,以確保最優(yōu)學(xué)習(xí)策略[26].這些網(wǎng)絡(luò)的詳細功能如圖3所示,具體將在下文介紹這些網(wǎng)絡(luò).

    輸入:每次請求T,智能體接收的狀態(tài)輸入到它的神經(jīng)網(wǎng)絡(luò).僅從索引為0的當(dāng)前請求任務(wù)到索引為1的請求任務(wù)中提取特征.實際上,除了此處所述的請求信息外,狀態(tài)輸入中還可以包含有關(guān)上下文和邊緣網(wǎng)絡(luò)的更多原始觀察結(jié)果.

    策略:收到狀態(tài)后,智能體需要判斷邊緣節(jié)點是否有該任務(wù)的計算資源,如果有,則智能體將進行計算卸載動作.智能體根據(jù)策略選擇操作,由評論者網(wǎng)絡(luò)表示.應(yīng)用每個動作后,移動邊緣卸載環(huán)境為智能體返回了獎勵,它定義了每個請求中的卸載流量.執(zhí)行者網(wǎng)絡(luò)參數(shù)的每次更新θ遵循策略梯度[27]:

    (18)

    評論者網(wǎng)絡(luò)參數(shù)遵循時差法[28]:

    θv←θv-α′∑tθ(rt+γV(∣st+1;θv)-V(st;θv))2

    (19)

    這里α和α′是學(xué)習(xí)率.為了權(quán)衡與環(huán)境之間的交互,將熵正則化(其定義為每個時間步長下策略的熵的加權(quán)梯度)添加到公式(18).訓(xùn)練過程可以離線或在線進行.通過脫機的方式,卸載策略是先驗生成的(在訓(xùn)練階段),然后在部署后保持不變.通過在線方式,緩存策略直接在邊緣節(jié)點上進行訓(xùn)練,并在新數(shù)據(jù)到達時定期進行更新.

    圖3 神經(jīng)網(wǎng)絡(luò)架構(gòu)Fig.3 Neural network architecture

    鑒于MEC中資源隨時間的逐漸變化以及LSTM網(wǎng)絡(luò)長期狀態(tài)的記憶能力,本文提出將LSTM與DDPG結(jié)合起來處理隨時間變化的計算卸載問題.循環(huán)結(jié)構(gòu)用于集成長期的歷史數(shù)據(jù),通過用LSTM層替換DDPG網(wǎng)絡(luò)的最后一個完全連接層來更準確地估計當(dāng)前狀態(tài).并且基于候選網(wǎng)絡(luò)的優(yōu)化來選擇最優(yōu)的學(xué)習(xí)策略.

    如圖4所示,假設(shè)候選網(wǎng)絡(luò)集合Net=(net1,net2,…,neti,…,netn′)可以存儲總數(shù)為n′的網(wǎng)絡(luò),有m′個網(wǎng)絡(luò)集中的網(wǎng)絡(luò)Net1,在滿足固定迭代次數(shù)C后更新它們.網(wǎng)絡(luò)設(shè)置Net2具有(n′-m′)個通過比較獎勵值來選擇進行更新的網(wǎng)絡(luò).當(dāng)網(wǎng)絡(luò)設(shè)置的數(shù)量Net2小于(n′-m′)時,每次迭代生成的當(dāng)前網(wǎng)絡(luò)都會被添加到Net2作為候選者網(wǎng)絡(luò).Net2等于(n′-m′),當(dāng)前網(wǎng)絡(luò)和Net2將訓(xùn)練當(dāng)前選定的狀態(tài)-動作對.如果大于,具有最小獎勵值的候選網(wǎng)絡(luò)被當(dāng)前網(wǎng)絡(luò)替換,否則繼續(xù)訓(xùn)練.

    圖4 候選網(wǎng)絡(luò)更新流程圖Fig.4 Candidate network update flow chart

    5 實驗仿真

    為驗證本文提出的ECOO算法在多用戶移動邊緣計算模型中的有效性,本文挑選出效果較好的幾種算法與本文算法進行比較.實驗環(huán)境在ubantu16.1,python3.6.8,tensorflow1.8下仿真.通過比較成本,能耗,服務(wù)延遲,反映出卸載決策的優(yōu)缺點.在大規(guī)模異構(gòu)集群中,實現(xiàn)的算法包括:貪婪本地執(zhí)行優(yōu)先(GD-Local),貪婪計算優(yōu)先卸載(GF-Offload),基于DQN的動態(tài)卸載(DQN),基于DDPG的動態(tài)卸載(DDPG)以及ECOO.

    5.1 模擬設(shè)置

    在MEC系統(tǒng)中,時間間隔τ0=1ms.每一次迭代開始的時候,每個用戶n的信道向量初始化為hn(0)~CN(0,h0(d0/dn)αIN),其中路徑損耗常數(shù)d0=1m,路徑損耗指數(shù)α=3,信道相關(guān)指數(shù)ρn=0.95,誤差矢量e(t)~CN(0,h0(d0/d)αIN),fd,n=70Hz.將系統(tǒng)帶寬設(shè)置為1MHz,最大傳輸功率P0,n=2W,噪聲功率σ2=10-9W.對于本地執(zhí)行,假設(shè)κ=10-27,每比特所需的CPU周期Ln=500,并且最大允許CPU周期頻率Fm=1.26GHz.本地執(zhí)行所需的最大功率P1,n=2W.

    為了實現(xiàn)DDPG算法,對于每個用戶,動作網(wǎng)絡(luò)和評估網(wǎng)絡(luò)都具有兩個隱藏式的四層完全連接的神經(jīng)網(wǎng)絡(luò).兩個隱藏層的神經(jīng)元數(shù)量分別為400和300.神經(jīng)網(wǎng)絡(luò)使用Relu激活函數(shù).對于實現(xiàn)ECOO算法,在上文基礎(chǔ)上設(shè)置了一個大小為10000的經(jīng)驗重播緩沖區(qū),這樣可以在查詢時返回隨機選擇的小批量經(jīng)驗.將小批量設(shè)置為64,實現(xiàn)候選網(wǎng)絡(luò)的優(yōu)化.使用自適應(yīng)矩估計(Adam)方法[29],學(xué)習(xí)率分別為0.0001和0.001.目標網(wǎng)絡(luò)的軟更新速率τ=0.001.為了初始化網(wǎng)絡(luò)層權(quán)重,采用[23]實驗中的設(shè)置.為了更好的找到更好的卸載決策,使用θ=0.15,σ=0.12的Ornstein-Uhlenbeck過程[30]來提供相關(guān)噪聲.經(jīng)驗重放緩沖區(qū)大小|Bn|=2.5*105.

    在訓(xùn)練階段,對于1-5Mbps的不同任務(wù)到達率,將使用相同的網(wǎng)絡(luò)架構(gòu).為了比較不同的策略性能,測試結(jié)果是100次訓(xùn)練結(jié)果的平均值.

    如圖5所示為用戶動態(tài)計算卸載的訓(xùn)練過程.結(jié)果是從10次數(shù)值模擬中的得到的平均值,其中任務(wù)到達率設(shè)置為λ=3.0Mbps.可以觀察到,對于DDPG和ECOO兩個學(xué)習(xí)策略,迭代的平均獎勵隨著用戶代理和MEC環(huán)境之間的交互的增加而增加,這表明ECOO算法可以在沒有任何先驗知識的情況下成功學(xué)習(xí)有效的計算策略.另外,從ECOO學(xué)到策略的性能總是優(yōu)于不同場景的DDPG,這表明對于連續(xù)控制問題,基于ECOO的策略可以比基于DDPG的策略更有效地探索動作空間.

    圖5 訓(xùn)練圖Fig.5 Training

    5.2 多用戶卸載仿真結(jié)果

    在MEC系統(tǒng)中,有N=5個移動用戶,每個移動用戶隨機位于距離BS的100m距離之內(nèi),任務(wù)到達率為λn=n*1.0Mbps,n∈{1,2,3,4,5}.

    如圖6所示,隨著任務(wù)到達率的增加,平均獎勵不斷增加,這表明對于更大的計算需求,計算成本也會更高.基于全部在本地執(zhí)行計算任務(wù)的卸載策略(GD-Local)可以在延遲上具有良好的效果,但是成本和能耗方面的性能一般.這主要是因為GD-Local算法更喜歡將子任務(wù)卸載到本地設(shè)備以供執(zhí)行.當(dāng)本地設(shè)備的資源不足時,子任務(wù)逐漸卸載到上層設(shè)備.由于某些子任務(wù)可以在本地執(zhí)行而無需網(wǎng)絡(luò)傳輸,因此該算法具有較低的網(wǎng)絡(luò)延遲.此外,如圖6所示,基于全部在邊緣服務(wù)器執(zhí)行計算任務(wù)的卸載策略(GD-offload)與GD-Local算法相仿,都花費了很大的能耗.主要原因是GD-offload算法傾向于將子任務(wù)卸載到邊緣服務(wù)器集群,這使得在傳輸?shù)倪^程中耗費了許多能量.同時,邊緣服務(wù)器的性能可以滿足更多子任務(wù)的處理需求,提高了整個集群的網(wǎng)絡(luò)使用率.

    圖6 實驗結(jié)果Fig.6 Experimental result

    DQN算法,DDPG算法和ECOO算法都使用深度強化學(xué)習(xí)從值中不斷迭代生成相應(yīng)的卸載策略.從圖6中結(jié)果可以看出,隨著任務(wù)到達率的不斷增加,ECOO算法無論在成本,能耗還是時延上都優(yōu)于前面兩者.這是因為ECOO算法全面考慮了目標網(wǎng)絡(luò)的歷史參數(shù),并通過不斷迭代實時的更新網(wǎng)絡(luò)參數(shù),用最小的獎勵值替換網(wǎng)絡(luò),以此保持結(jié)果始終最佳,但在獲得最低的能耗的同時,總會不斷提高緩沖延遲.

    圖7 平衡能耗與時延Fig.7 Power-delay tradeoff

    通過設(shè)置圖7中 在0.3-0.7的不同值來研究功耗延遲之間平衡的訓(xùn)練結(jié)果.從曲線可以推斷出,平均功耗與平均緩沖延遲之間存在權(quán)衡.具體而言,隨著w1的增大,功耗將通過犧牲延遲性能而降低,這表明實際上可以調(diào)整 為具有給定延遲約束的最小功耗.還值得注意的是,對于每個值,從ECOO學(xué)習(xí)的策略在功耗和緩沖延遲方面始終具有更好的性能,這證明了基于ECOO候選網(wǎng)絡(luò)策略的優(yōu)越性.

    6 結(jié) 論

    在本文中,針對一個多用戶MEC系統(tǒng),這其中設(shè)置了任務(wù)隨機到達,無線信道在每個用戶中隨時間變化的條件.為了最小化功耗和緩沖延遲,本文設(shè)計了基于DRL的分散動態(tài)計算卸載算法.并且應(yīng)用ECOO算法成功讓每個移動用戶學(xué)習(xí)卸載策略,該策略能夠根據(jù)從MEC系統(tǒng)本地的觀察得到的結(jié)果自適應(yīng)地本地執(zhí)行或任務(wù)卸載.通過模擬實驗證明該策略優(yōu)于傳統(tǒng)的基于DQN的離散網(wǎng)絡(luò)策略DDPG以及一些其他貪婪策略.在進一步工作中,我們希望基于慢衰落參數(shù)和信道統(tǒng)計信息來進行資源管理,以解決因無法跟蹤快速變化的無線信道而帶來的問題.

    猜你喜歡
    信道能耗神經(jīng)網(wǎng)絡(luò)
    120t轉(zhuǎn)爐降低工序能耗生產(chǎn)實踐
    昆鋼科技(2022年2期)2022-07-08 06:36:14
    能耗雙控下,漲價潮再度來襲!
    探討如何設(shè)計零能耗住宅
    神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
    電子制作(2019年19期)2019-11-23 08:42:00
    日本先進的“零能耗住宅”
    華人時刊(2018年15期)2018-11-10 03:25:26
    基于神經(jīng)網(wǎng)絡(luò)的拉矯機控制模型建立
    重型機械(2016年1期)2016-03-01 03:42:04
    基于導(dǎo)頻的OFDM信道估計技術(shù)
    復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
    一種改進的基于DFT-MMSE的信道估計方法
    基于支持向量機回歸和RBF神經(jīng)網(wǎng)絡(luò)的PID整定
    金溪县| 宜黄县| 崇明县| 英超| 那坡县| 巩留县| 双鸭山市| 孝昌县| 靖远县| 五华县| 攀枝花市| 京山县| 莱西市| 咸丰县| 辉南县| 扬中市| 高清| 桑日县| 茌平县| 株洲市| 司法| 梓潼县| 连南| 赤水市| 桃源县| 贡觉县| 武川县| 闽侯县| 海淀区| 湖南省| 敦化市| 靖宇县| 昌乐县| 丘北县| 曲松县| 资中县| 望江县| 普定县| 沁阳市| 阜城县| 独山县|