移動邊緣計算中基于深度強(qiáng)化學(xué)習(xí)的依賴任務(wù)卸載研究

2023-07-15 07:05:06杜婷婷王勝春

小型微型計算機(jī)系統(tǒng) 2023年7期

李強(qiáng),杜婷婷,童釗,張錦,王勝春

(湖南師范大學(xué) 信息科學(xué)與工程學(xué)院,長沙 410081)

1 引言

近年來,隨著智能手機(jī)、平板電腦和可穿戴設(shè)備的迅速發(fā)展和普及,資源需求高的新型應(yīng)用大量出現(xiàn),例如人臉識別、虛擬現(xiàn)實(shí)和智能駕駛等.雖然新一代移動設(shè)備(Mobile Device,MD)擁有更強(qiáng)的計算能力,但運(yùn)行這些應(yīng)用仍有較高的時延和能耗.為解決此類問題,研究者提出了移動邊緣計算(Mobile Edge Computing,MEC)[1]的模式,通過將MD上的應(yīng)用任務(wù)卸載到MEC服務(wù)器上執(zhí)行,以提供延遲敏感型或計算密集型服務(wù),實(shí)現(xiàn)高服務(wù)質(zhì)量(Quality of Service,QoS)和數(shù)據(jù)安全性.有效的卸載策略能夠降低應(yīng)用的響應(yīng)時間和MD能耗,更好地滿足用戶的QoS需求.

針對MEC中以響應(yīng)時間和能耗為優(yōu)化目標(biāo)的任務(wù)卸載問題,研究人員已取得一定的研究成果[2-6].但是,現(xiàn)有工作未充分考慮組成應(yīng)用任務(wù)之間的復(fù)雜依賴關(guān)系,且忽略了無線連接基站信道狀態(tài)的時變特性.

針對邊緣環(huán)境中時變信道的場景下具有依賴關(guān)系的任務(wù)卸載問題,本文提出一種依賴任務(wù)卸載算法(Dependent Task Offloading Algorithm,DTOA).該算法將依賴任務(wù)的卸載轉(zhuǎn)化為馬爾可夫決策過程(Markov Decision Process,MDP),在信道狀態(tài)變化環(huán)境下,以任務(wù)響應(yīng)時間和能耗為優(yōu)化目標(biāo),利用深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning,DRL)在經(jīng)驗(yàn)中學(xué)習(xí)依賴任務(wù)的卸載,從而獲得更有效的卸載策略.

本文主要工作如下:

1)針對信道動態(tài)變化的MEC場景,建立依賴任務(wù)卸載模型,得出依賴任務(wù)調(diào)度順序和優(yōu)化目標(biāo),證明依賴任務(wù)卸載優(yōu)化是NP-hard問題.

2)通過定義狀態(tài)空間、動作空間和獎勵,將依賴任務(wù)卸載轉(zhuǎn)化為馬爾可夫決策過程下最優(yōu)策略的問題,提出了基于優(yōu)先經(jīng)驗(yàn)回放的DDQN依賴任務(wù)卸載算法DTOA,該算法能在經(jīng)驗(yàn)中學(xué)習(xí)更有效的卸載策略.

3)通過實(shí)驗(yàn)仿真,驗(yàn)證了DTOA算法的有效性,在信道動態(tài)變化場景下,與現(xiàn)有的機(jī)器學(xué)習(xí)卸載方法相比,對于四種基本類型的依賴任務(wù),DTOA降低了任務(wù)響應(yīng)時間和MD能耗.

2 相關(guān)工作

近年來,MEC中的任務(wù)卸載成為廣泛關(guān)注的研究方向[7,8].研究者通常將任務(wù)表示為有向無環(huán)圖(Direct Acyclic Graph,DAG),圖中節(jié)點(diǎn)代表任務(wù),邊代表任務(wù)之間的依賴關(guān)系,以此考慮圖中每個節(jié)點(diǎn)的卸載策略.Zhang等人[9]利用DAG圖將依賴任務(wù)卸載問題描述為延遲受限的工作流調(diào)度問題,提出了單爬策略和基于拉格朗日松弛的聚合成本算法,基于該算法的卸載策略比本地執(zhí)行和完全卸載執(zhí)行更節(jié)能.Guo等人[10]針對任務(wù)依賴關(guān)系和時延約束下成本最小化問題,提出動態(tài)調(diào)整卸載策略和資源分配算法,優(yōu)化調(diào)整MD的CPU時鐘頻率,并根據(jù)當(dāng)前信道調(diào)整MD傳輸功率,從而有效降低能耗成本.Ning等人[11]針對云邊協(xié)作場景下串行依賴任務(wù)的卸載問題,通過考慮用戶間資源競爭,將計算卸載公式化為混合整數(shù)線性規(guī)劃問題,提出一種迭代啟發(fā)式資源分配算法進(jìn)行動態(tài)卸載,在執(zhí)行延遲和卸載效率方面優(yōu)于邊端協(xié)作方法.Yan等人[12]針對用戶之間的依賴任務(wù)卸載問題,提出了一種二分搜索方法來獲得最優(yōu)解,并證明了最優(yōu)卸載決策遵循一次爬升策略,在此基礎(chǔ)上提出了一種降低復(fù)雜度的Gibbs sampling算法來獲得最優(yōu)卸載決策.文獻(xiàn)[10-12]采用凸松弛方法和啟發(fā)式局部搜索方法,有陷入局部最優(yōu)解的可能,此外,一旦無線信道條件改變,須多次重復(fù)求解過程.

DRL結(jié)合深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)的特性,適用于求解復(fù)雜決策問題.基于DRL的獨(dú)立任務(wù)卸載工作,Chen[13]等人針對時變網(wǎng)絡(luò)狀態(tài)下的任務(wù)卸載問題,提出了一種基于雙深度Q-網(wǎng)絡(luò)(Double Deep Q Network,DDQN)的任務(wù)卸載算法,當(dāng)任務(wù)隨機(jī)到達(dá)時,無需先驗(yàn)網(wǎng)絡(luò)動態(tài),根據(jù)任務(wù)隊列狀態(tài)、能量隊列狀態(tài)以及當(dāng)前的信道做出最佳卸載決策,最大化長期效用性能.Huang等人[14]針對時變無線信道環(huán)境任務(wù)卸載問題,提出了一個基于DRL的在線卸載算法,該算法能夠使任務(wù)卸載決策和無線資源分配適應(yīng)時變的無線信道條件且自動調(diào)整網(wǎng)絡(luò)參數(shù),以減少計算時間.Zou等人[15]針對邊緣場景下任務(wù)卸載最小化能耗問題,提出一種基于DRL的任務(wù)卸載算法,以平衡邊緣服務(wù)器的工作負(fù)載,降低了能耗和時間開銷.Zhang等人[16]提出了一個基于DDPG(Deep Deterministic Policy Gradient)的任務(wù)卸載算法,以最大化長期效用性能為目標(biāo).

基于DRL的依賴任務(wù)卸載工作,Yan等人[17]針對時變信道環(huán)境下依賴任務(wù)卸載問題,提出了基于Actor-Critic網(wǎng)絡(luò)的DRL卸載框架,Actor網(wǎng)絡(luò)利用DNN學(xué)習(xí)每個任務(wù)的卸載決策,通過分析最優(yōu)解的結(jié)構(gòu),得到一個低復(fù)雜度的算法,Critic網(wǎng)絡(luò)快速評估Actor網(wǎng)絡(luò)輸出的卸載決策從而確定每個任務(wù)資源分配方式.Wang等人[18]針對動態(tài)場景下依賴任務(wù)卸載問題,提出了一種基于S2S神經(jīng)網(wǎng)絡(luò)卸載框架,該框架可以推斷不同場景下的最優(yōu)卸載策略.文獻(xiàn)[17,18]的工作均假設(shè)邊緣服務(wù)器能夠處理所有任務(wù).但在真實(shí)環(huán)境中,各邊緣服務(wù)器之間的計算能力各不相同,任務(wù)卸載策略應(yīng)考慮邊緣服務(wù)器的性能.Liu等人[19]提出了一種面向多用戶的串行任務(wù)動態(tài)卸載策略,采用化學(xué)反應(yīng)優(yōu)化算法動態(tài)調(diào)整策略,從而最小化應(yīng)用的完成時間和MD的能耗.該方法僅考慮串行關(guān)系任務(wù),而應(yīng)用的任務(wù)依賴關(guān)系通常較為復(fù)雜.

基于現(xiàn)有的研究工作,針對時變信道的移動邊緣環(huán)境下依賴任務(wù)卸載問題,本文提出了基于優(yōu)先經(jīng)驗(yàn)回放的DDQN依賴任務(wù)卸載算法(DTOA),該算法根據(jù)當(dāng)前信道狀態(tài)給出任務(wù)卸載策略.對于依賴關(guān)系類型不同的任務(wù),該算法有效降低了應(yīng)用的響應(yīng)時間和移動設(shè)備的能耗.

3 系統(tǒng)模型和優(yōu)化目標(biāo)

3.1 依賴任務(wù)卸載場景

在移動邊緣計算的信道狀態(tài)動態(tài)變化環(huán)境下,任務(wù)卸載過程如圖1所示.

圖1 基于優(yōu)先經(jīng)驗(yàn)回放的DDQN卸載方案Fig.1 DDQN offloading scheme based on prioritized experience replay

1)MD向附近的基站發(fā)送卸載請求;

2)基站收到卸載請求后,根據(jù)MD附近的邊緣服務(wù)器的計算資源及卸載任務(wù)的依賴關(guān)系,制定卸載策略;

3)MD接收并執(zhí)行卸載策略,根據(jù)系統(tǒng)當(dāng)前狀態(tài)將任務(wù)安排由本地執(zhí)行或卸載到指定的邊緣服務(wù)器上執(zhí)行;

4)邊緣服務(wù)器執(zhí)行分配任務(wù)并將運(yùn)行結(jié)果發(fā)送給MD.

3.2 依賴任務(wù)卸載模型

(1)

(2)

psend、preceive分別表示MD發(fā)送和接收的功率.

3.3 依賴任務(wù)調(diào)度順序

本研究中,delay表示應(yīng)用的延遲容忍,即應(yīng)用的最后一個任務(wù)的最晚響應(yīng)時間,DAG中每個任務(wù)的最晚完成時間為LETva可由最后一個任務(wù)的最晚響應(yīng)時間遞歸向前推出:

(3)

MEC環(huán)境下的應(yīng)用通常為時延敏感型,任務(wù)調(diào)度應(yīng)優(yōu)先考慮任務(wù)的最晚完成時間.根據(jù)公式(3)求出所有任務(wù)的最晚完成時間,并按升序排列.最晚完成時間越小,則該任務(wù)越緊迫,應(yīng)當(dāng)優(yōu)先調(diào)度,由此可以得出每個任務(wù)的調(diào)度順序.

3.4 優(yōu)化目標(biāo)

(4)

當(dāng)va卸載到計算節(jié)點(diǎn)上時,任務(wù)不一定能立刻執(zhí)行,需考慮任務(wù)排隊等待時間,假設(shè)計算節(jié)點(diǎn)最早空閑時間為EFT,用ESTva表示va最早開始時間:

ESTva=max{RTva,EFT}

(5)

va最早開始執(zhí)行時間加上在計算節(jié)點(diǎn)上執(zhí)行所消耗的時間即是執(zhí)行完成時間FTva:

(6)

優(yōu)化目標(biāo)為最小化應(yīng)用響應(yīng)時間和MD能耗.任務(wù)的響應(yīng)時間即最后一個任務(wù)的完成時間,則響應(yīng)時間和能耗:

ResponseTime=FTvn+1

(7)

(8)

因此,優(yōu)化目標(biāo)為:

(9)

s.t.C1∶FTvn+1≤delay

C3∶flocal

其中X=(x1,x2,…,xn),表示所有任務(wù)的卸載策略,xi表示任務(wù)i的卸載策略;C1表示任務(wù)響應(yīng)時間必須滿足的延遲容忍;C2表示每個任務(wù)只能在本地或者卸載到某一個邊緣服務(wù)器中執(zhí)行;C3表示邊緣服務(wù)器的計算能力大于MD.

命題1.優(yōu)化目標(biāo)F的求解是NP-hard問題

證明:先考慮公式(9)中最小化任務(wù)執(zhí)行時間的一種特殊情況,任務(wù)之間相互獨(dú)立沒有依賴關(guān)系,則任務(wù)響應(yīng)時間由各個任務(wù)的執(zhí)行時間加和,即:

(10)

則優(yōu)化目標(biāo)變?yōu)?

(11)

即任務(wù)在本地或邊緣服務(wù)器的完成時間最小化問題,等價于0-1背包問題.因此所考慮的特殊情況為NP-hard問題,故優(yōu)化目標(biāo)F也是NP-hard問題.

4 基于MDP和DRL的依賴任務(wù)卸載

4.1 依賴任務(wù)卸載的馬爾可夫過程

在馬爾可夫決策過程(MDP)[20]中,智能體(Agent)通過采取行動改變自己狀態(tài),獲得獎勵與環(huán)境交互循環(huán).本文將依賴任務(wù)卸載問題轉(zhuǎn)化為MDP下最優(yōu)策略問題.

2)動作空間.在MEC環(huán)境中,基站為Agent,負(fù)責(zé)與環(huán)境交互并做出卸載決策.為了將MD任務(wù)卸載到合適的MEC服務(wù)器上執(zhí)行,將動作空間與邊緣集群對應(yīng),表示為Ava={a0,a1,a2…,aM},其中,a0表示本地設(shè)備,{a1,a2,…,aM}表示邊緣設(shè)備集合.例如動作空間Ava={0,0.1,…,0,0,0,0}表示va卸載到第2個邊緣服務(wù)器上執(zhí)行,Ava={0,0,0,…,0,0,0,0}表示va在本地執(zhí)行.則系統(tǒng)的整個動作表示為A={Av1,Av2,…,Avn}.

3)獎勵值.獎勵值是用來評價卸載策略X的指標(biāo),對于卸載策略X,每個任務(wù)的完成時間用集合{time1,…,timen}表示,每個任務(wù)的能耗用集合{energy1,…,energyn}表示,time和Energy是該策略下的應(yīng)用完成的總時間和MD總能耗,時間和能耗是不同的量綱目標(biāo),因此采用min-max方法歸一化處理,采用線性加權(quán)法平衡兩個目標(biāo),則可將獎勵值公式化:

(12)

其中βt和βe表示Time和Energy的權(quán)重因子,且滿足βt,βe∈(0,1),βt+βe=1.卸載策略越佳,任務(wù)執(zhí)行時間和能耗的加權(quán)和越小,相應(yīng)的獎勵值就越大.-∞表示違背任務(wù)約束下的獎勵值.

4.2 基于優(yōu)先經(jīng)驗(yàn)回放方案的DDQN依賴任務(wù)卸載

Qtarget=rt+1+γQ(s′,a′;θ-)

(13)

本文采用優(yōu)先經(jīng)驗(yàn)回放(Prioritized Experience Replay),按照所有樣本的優(yōu)先級來采樣,優(yōu)先抽取有價值的經(jīng)驗(yàn).樣本的優(yōu)先級定義為Qtarget-Qevalue,表示估計值與真實(shí)值的差異,即TD-error,該值越大則該樣本的價值越高.TD-error定義為:

(14)

L(θ)=wE[(Qtarget-Qevalue)]2

(15)

其中,w表示樣本(s,a*,r,s′)的優(yōu)先級權(quán)重,由TD-error誤差|δ|歸一化得到.

4.3 DTOA及計算復(fù)雜度分析

DTOA基于優(yōu)先經(jīng)驗(yàn)回放的DDQN來制定時變信道增益下依賴任務(wù)卸載策略,偽代碼如算法1所示.狀態(tài)為s={hup,hdown,dva,cva,δva},動作為A={Av1,Av2,…,Avn}.

算法1.依賴任務(wù)卸載算法(DTOA)

輸入:(hup,hdown):發(fā)送任務(wù)和下載任務(wù)計算結(jié)果時的信道增益;G:任務(wù)依賴關(guān)系圖.

輸出:卸載策略X.

1.初始化MEC服務(wù)器資源和實(shí)驗(yàn)參數(shù).

2. for episode inTdo // 訓(xùn)練的每次迭代

3. for each task inGdo

4. 尋找可用的計算節(jié)點(diǎn)集合M

5. 用基于優(yōu)先經(jīng)驗(yàn)回放的DDQN為任務(wù)選擇一個計算節(jié)點(diǎn)

6. if 計算節(jié)點(diǎn)是本地設(shè)備 then

7. 任務(wù)卸載到本地執(zhí)行

8. 計算任務(wù)在本地執(zhí)行所花費(fèi)的時間和能耗

9. end if

10. if 計算節(jié)點(diǎn)是第j個邊緣服務(wù)器 then

11. 將任務(wù)卸載到第j個邊緣服務(wù)器上執(zhí)行

12. 計算任務(wù)在第j邊緣服務(wù)上執(zhí)行所花費(fèi)的時間和能耗

13. end if

14. 根據(jù)公式(12)計算獎勵值

15. 更新DTOA的優(yōu)化策略

16. end for

17. 返回第2步

18.end for

5 實(shí)驗(yàn)結(jié)果分析

5.1 實(shí)驗(yàn)參數(shù)

本研究通過數(shù)值模擬方法評估DTOA算法性能,在windows10系統(tǒng)上的Python環(huán)境中調(diào)用pytorch庫實(shí)現(xiàn)DTOA算法.圖2中的4種依賴關(guān)系任務(wù)圖均由8個實(shí)際任務(wù)組成,以數(shù)值表示該任務(wù)的計算結(jié)果.圖2(a)的獨(dú)立任務(wù)互無依賴,圖2(b)為樹型關(guān)系,圖2(c)為鏈型關(guān)系,圖2(d)為通用任務(wù)圖.每個任務(wù)的輸出數(shù)據(jù)大小單位為kbit.4個任務(wù)圖中每個任務(wù)所需的CPU周期設(shè)為{Li}=[60 80 152 105 195 86 16 100](單位:Mcycles)

圖2 4種不同類型的任務(wù)圖Fig.2 Four different types of task maps

基于優(yōu)先經(jīng)驗(yàn)回放的DDQN是由一個輸入層、兩個隱藏層和一個輸出層組成的全連接神經(jīng)網(wǎng)絡(luò),輸入為狀態(tài),輸出為動作(卸載策略),第2和第3隱藏層分別設(shè)置120和80個神經(jīng)元.實(shí)驗(yàn)環(huán)境為:windows10操作系統(tǒng),pytorch1.0深度學(xué)習(xí)框架.設(shè)置模型學(xué)習(xí)率learning rate=0.001,訓(xùn)練批次大小batch size=64,獎勵值的折扣因子設(shè)置為0.9,貪婪系數(shù)0.9,經(jīng)驗(yàn)池大小設(shè)置為1024,激活函數(shù)為ReLU函數(shù),權(quán)重參數(shù)更新用均方差損失函數(shù)MSE和梯度下降算法.

5.2 DTOA算法評估

5.2.1 權(quán)重因子βt和βe的影響

基于通用任務(wù)(圖2(d))對比不同權(quán)重因子對任務(wù)響應(yīng)時間和能耗的影響.設(shè)備能量充足時,MD更加注重縮短任務(wù)的響應(yīng)時間,當(dāng)能量不足時,MD更加注重能耗最小化.如圖3所示,βt越大,MD越關(guān)注任務(wù)的響應(yīng)時間,此時任務(wù)的響應(yīng)時間越小獎勵值越大,卸載策略的目標(biāo)為優(yōu)化時間,所以當(dāng)βt=0.9,βe=0.1時,任務(wù)響應(yīng)時間較小(7.9s),但能耗消耗較高(34.85J).βt=0.1,βe=0.9表示能耗越小獎勵值越大,此時卸載策略的目標(biāo)為優(yōu)化能耗,MD用戶的能耗較小(1.978J),而執(zhí)行時間較大(16.514s),因此權(quán)重因子的設(shè)置視實(shí)際情況而定.在本文模型中,βt和βe為0.55和0.45時獎勵值最大,因此以下實(shí)驗(yàn)權(quán)重因子均取該值.

圖3 權(quán)重因子對任務(wù)的響應(yīng)時間和能耗的影響Fig.3 Effect of weighting factors on the task response time and energy consumption

5.2.2 DTOA收斂性

DTOA在4種任務(wù)圖下的收斂性如圖4所示.其中,Independent task由于沒有依賴關(guān)系,算法收斂最快,在第800個訓(xùn)練輪次收斂;通用任務(wù)依賴關(guān)系最復(fù)雜,算法收斂最慢,收斂于第2000個訓(xùn)練輪次;樹型任務(wù)和鏈型任務(wù)收斂速度介于二者之間,分別收斂于第1000和第1350個訓(xùn)練輪次.獨(dú)立任務(wù)結(jié)構(gòu)簡單,前后無依賴,算法考慮的因素較為單一,因此收斂快;對于有依賴關(guān)系的任務(wù),任務(wù)分配時要考慮節(jié)點(diǎn)層次關(guān)系、執(zhí)行順序等問題,因此收斂相對較慢.

圖4 不同類型任務(wù)的DTOA算法收斂圖Fig.4 Convergence graphs of DTOA for different types of tasks

5.2.3 響應(yīng)時間和能耗評估

對比以下3種經(jīng)典算法來評估DTOA算法的性能:

1)本地計算(Local)算法:在本地設(shè)備上執(zhí)行所有任務(wù);

2)Q-learning算法[6]:通過收集MEC環(huán)境中空閑計算資源形成計算資源池,基于Q-learning選擇卸載策略;

3)DQN[8]算法:基于DQN考慮任務(wù)所需要的資源、資源可用性和網(wǎng)絡(luò)狀態(tài)做出卸載決策.

本文的4種任務(wù)在不同算法下的響應(yīng)時間和能耗如圖5所示.其中,DTOA算法的任務(wù)響應(yīng)時間比Local算法減少了約50%～55%,能耗降低了約50%～60%,這是由于所有任務(wù)均在資源受限的本地執(zhí)行.DQN算法是Q-learning算法和深度學(xué)習(xí)算法的結(jié)合,其任務(wù)響應(yīng)時間和能耗均優(yōu)于Q-learning算法.DTOA的響應(yīng)時間比DQN減少了約10%～30%,能耗降低了約3%～25%.DTOA采用DDQN,在經(jīng)驗(yàn)池中按照樣本優(yōu)先級進(jìn)行抽樣訓(xùn)練,優(yōu)先抽取有價值的樣本,而DQN則是隨機(jī)抽樣訓(xùn)練;其次,DDQN中目標(biāo)Q值的計算和動作的選擇分別選用不同的網(wǎng)絡(luò)來實(shí)現(xiàn),緩解了DQN算法中任務(wù)卸載決策過高估計的問題.

圖5 不同算法的響應(yīng)時間與能耗值Fig.5 Response time and energy consumption under different algorithms

在DTOA中,獨(dú)立任務(wù)由于沒有依賴關(guān)系,任務(wù)間不需要通信,響應(yīng)時間(14.78s)和能耗(6.612J)最小;鏈型依賴關(guān)系復(fù)雜,存在更多的通信,響應(yīng)時間(18.01s)和能耗(8.262J)最多;樹型任務(wù)的依賴關(guān)系比鏈型任務(wù)要簡單,所消耗的時間和能量低于樹型任務(wù).綜上可知,DTOA產(chǎn)生的能耗和響應(yīng)時間與任務(wù)間的依賴關(guān)系復(fù)雜度呈正相關(guān)關(guān)系.

5.2.4 不同任務(wù)大小的響應(yīng)時間和能耗評估

基于圖3(d) 通用任務(wù)對比不同數(shù)據(jù)量任務(wù)的響應(yīng)時間和能耗,結(jié)果如圖6所示.4種算法的響應(yīng)時間和能耗隨著任務(wù)數(shù)據(jù)量增多而增大,其中DTOA的響應(yīng)時間和能耗最低.對于4種不同大小的任務(wù),DTOA的任務(wù)響應(yīng)時間相比Local減少了約20%～50%,能耗降低了約60%～70%.隨著任務(wù)數(shù)據(jù)量的增大,DQN算法的任務(wù)響應(yīng)時間仍優(yōu)于Q-learning,DTOA的響應(yīng)時間相比DQN減少約6%～20%,能耗降低約10%～30%.

圖6 不同數(shù)據(jù)大小的通用任務(wù)對應(yīng)的響應(yīng)時間與能耗值Fig.6 Response time and energy consumption for general tasks with different data sizes

5.2.5 不同傳輸速率下的卸載策略以及時間能耗評估

信道環(huán)境不同會導(dǎo)致任務(wù)的傳輸速率不同,表1給出了不同信道值下任務(wù)傳輸速率對DTOA算法卸載策略的影響.以General task為例,不同的信道值將導(dǎo)致用戶傳輸速率變化,DTOA給出了不同的卸載策略.當(dāng)傳輸速率較大時,任務(wù)更傾向在邊緣執(zhí)行.

表1 不同傳輸速率下的卸載策略表Table 1 Offloading strategies under different transmission rates

表2給出了DTOA在不同傳輸速率下任務(wù)響應(yīng)時間和能耗值.卸載策略會根據(jù)傳輸速率的變化進(jìn)行調(diào)整,致使任務(wù)的響應(yīng)時間和能耗發(fā)生改變.當(dāng)傳輸速率較慢時,任務(wù)在本地執(zhí)行,任務(wù)響應(yīng)時間(30.776s)和能耗(13.65J)最高;當(dāng)傳輸速率較快時,任務(wù)卸載到邊緣執(zhí)行,這將顯著降低響應(yīng)時間和能耗.DTOA能隨著信道環(huán)境的動態(tài)變化給出合適的卸載策略.

6 結(jié) 論

在信道狀態(tài)動態(tài)變化的邊緣環(huán)境中,本文通過對具有依賴關(guān)系的任務(wù)建模,將依賴任務(wù)卸載轉(zhuǎn)化為馬爾可夫決策過程下的最優(yōu)策略的確定問題,并提出了一個基于DRL的依賴任務(wù)卸載算法(DTOA),使用DRL從經(jīng)驗(yàn)中學(xué)習(xí)依賴任務(wù)的卸載策略.實(shí)驗(yàn)結(jié)果表明:對于不同類型的任務(wù)圖、不同的任務(wù)數(shù)據(jù)大小和不同傳輸速率,與現(xiàn)有的卸載方法相比,DTOA降低了任務(wù)響應(yīng)時間和MD能耗.而對于多移動用戶的MEC系統(tǒng)中的任務(wù)卸載和資源調(diào)度問題有待進(jìn)一步研究.由于多個用戶之間存在資源競爭,依賴任務(wù)卸載問題變得更具有挑戰(zhàn)性.