李 強(qiáng),杜婷婷,童 釗,張 錦,王勝春
(湖南師范大學(xué) 信息科學(xué)與工程學(xué)院,長沙 410081)
近年來,隨著智能手機(jī)、平板電腦和可穿戴設(shè)備的迅速發(fā)展和普及,資源需求高的新型應(yīng)用大量出現(xiàn),例如人臉識別、虛擬現(xiàn)實(shí)和智能駕駛等.雖然新一代移動設(shè)備(Mobile Device,MD)擁有更強(qiáng)的計算能力,但運(yùn)行這些應(yīng)用仍有較高的時延和能耗.為解決此類問題,研究者提出了移動邊緣計算(Mobile Edge Computing,MEC)[1]的模式,通過將MD上的應(yīng)用任務(wù)卸載到MEC服務(wù)器上執(zhí)行,以提供延遲敏感型或計算密集型服務(wù),實(shí)現(xiàn)高服務(wù)質(zhì)量(Quality of Service,QoS)和數(shù)據(jù)安全性.有效的卸載策略能夠降低應(yīng)用的響應(yīng)時間和MD能耗,更好地滿足用戶的QoS需求.
針對MEC中以響應(yīng)時間和能耗為優(yōu)化目標(biāo)的任務(wù)卸載問題,研究人員已取得一定的研究成果[2-6].但是,現(xiàn)有工作未充分考慮組成應(yīng)用任務(wù)之間的復(fù)雜依賴關(guān)系,且忽略了無線連接基站信道狀態(tài)的時變特性.
針對邊緣環(huán)境中時變信道的場景下具有依賴關(guān)系的任務(wù)卸載問題,本文提出一種依賴任務(wù)卸載算法(Dependent Task Offloading Algorithm,DTOA).該算法將依賴任務(wù)的卸載轉(zhuǎn)化為馬爾可夫決策過程(Markov Decision Process,MDP),在信道狀態(tài)變化環(huán)境下,以任務(wù)響應(yīng)時間和能耗為優(yōu)化目標(biāo),利用深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning,DRL)在經(jīng)驗(yàn)中學(xué)習(xí)依賴任務(wù)的卸載,從而獲得更有效的卸載策略.
本文主要工作如下:
1)針對信道動態(tài)變化的MEC場景,建立依賴任務(wù)卸載模型,得出依賴任務(wù)調(diào)度順序和優(yōu)化目標(biāo),證明依賴任務(wù)卸載優(yōu)化是NP-hard問題.
2)通過定義狀態(tài)空間、動作空間和獎勵,將依賴任務(wù)卸載轉(zhuǎn)化為馬爾可夫決策過程下最優(yōu)策略的問題,提出了基于優(yōu)先經(jīng)驗(yàn)回放的DDQN依賴任務(wù)卸載算法DTOA,該算法能在經(jīng)驗(yàn)中學(xué)習(xí)更有效的卸載策略.
3)通過實(shí)驗(yàn)仿真,驗(yàn)證了DTOA算法的有效性,在信道動態(tài)變化場景下,與現(xiàn)有的機(jī)器學(xué)習(xí)卸載方法相比,對于四種基本類型的依賴任務(wù),DTOA降低了任務(wù)響應(yīng)時間和MD能耗.
近年來,MEC中的任務(wù)卸載成為廣泛關(guān)注的研究方向[7,8].研究者通常將任務(wù)表示為有向無環(huán)圖(Direct Acyclic Graph,DAG),圖中節(jié)點(diǎn)代表任務(wù),邊代表任務(wù)之間的依賴關(guān)系,以此考慮圖中每個節(jié)點(diǎn)的卸載策略.Zhang等人[9]利用DAG圖將依賴任務(wù)卸載問題描述為延遲受限的工作流調(diào)度問題,提出了單爬策略和基于拉格朗日松弛的聚合成本算法,基于該算法的卸載策略比本地執(zhí)行和完全卸載執(zhí)行更節(jié)能.Guo等人[10]針對任務(wù)依賴關(guān)系和時延約束下成本最小化問題,提出動態(tài)調(diào)整卸載策略和資源分配算法,優(yōu)化調(diào)整MD的CPU時鐘頻率,并根據(jù)當(dāng)前信道調(diào)整MD傳輸功率,從而有效降低能耗成本.Ning等人[11]針對云邊協(xié)作場景下串行依賴任務(wù)的卸載問題,通過考慮用戶間資源競爭,將計算卸載公式化為混合整數(shù)線性規(guī)劃問題,提出一種迭代啟發(fā)式資源分配算法進(jìn)行動態(tài)卸載,在執(zhí)行延遲和卸載效率方面優(yōu)于邊端協(xié)作方法.Yan等人[12]針對用戶之間的依賴任務(wù)卸載問題,提出了一種二分搜索方法來獲得最優(yōu)解,并證明了最優(yōu)卸載決策遵循一次爬升策略,在此基礎(chǔ)上提出了一種降低復(fù)雜度的Gibbs sampling算法來獲得最優(yōu)卸載決策.文獻(xiàn)[10-12]采用凸松弛方法和啟發(fā)式局部搜索方法,有陷入局部最優(yōu)解的可能,此外,一旦無線信道條件改變,須多次重復(fù)求解過程.
DRL結(jié)合深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)的特性,適用于求解復(fù)雜決策問題.基于DRL的獨(dú)立任務(wù)卸載工作,Chen[13]等人針對時變網(wǎng)絡(luò)狀態(tài)下的任務(wù)卸載問題,提出了一種基于雙深度Q-網(wǎng)絡(luò)(Double Deep Q Network,DDQN)的任務(wù)卸載算法,當(dāng)任務(wù)隨機(jī)到達(dá)時,無需先驗(yàn)網(wǎng)絡(luò)動態(tài),根據(jù)任務(wù)隊列狀態(tài)、能量隊列狀態(tài)以及當(dāng)前的信道做出最佳卸載決策,最大化長期效用性能.Huang等人[14]針對時變無線信道環(huán)境任務(wù)卸載問題,提出了一個基于DRL的在線卸載算法,該算法能夠使任務(wù)卸載決策和無線資源分配適應(yīng)時變的無線信道條件且自動調(diào)整網(wǎng)絡(luò)參數(shù),以減少計算時間.Zou等人[15]針對邊緣場景下任務(wù)卸載最小化能耗問題,提出一種基于DRL的任務(wù)卸載算法,以平衡邊緣服務(wù)器的工作負(fù)載,降低了能耗和時間開銷.Zhang等人[16]提出了一個基于DDPG(Deep Deterministic Policy Gradient)的任務(wù)卸載算法,以最大化長期效用性能為目標(biāo).
基于DRL的依賴任務(wù)卸載工作,Yan等人[17]針對時變信道環(huán)境下依賴任務(wù)卸載問題,提出了基于Actor-Critic網(wǎng)絡(luò)的DRL卸載框架,Actor網(wǎng)絡(luò)利用DNN學(xué)習(xí)每個任務(wù)的卸載決策,通過分析最優(yōu)解的結(jié)構(gòu),得到一個低復(fù)雜度的算法,Critic網(wǎng)絡(luò)快速評估Actor網(wǎng)絡(luò)輸出的卸載決策從而確定每個任務(wù)資源分配方式.Wang等人[18]針對動態(tài)場景下依賴任務(wù)卸載問題,提出了一種基于S2S神經(jīng)網(wǎng)絡(luò)卸載框架,該框架可以推斷不同場景下的最優(yōu)卸載策略.文獻(xiàn)[17,18]的工作均假設(shè)邊緣服務(wù)器能夠處理所有任務(wù).但在真實(shí)環(huán)境中,各邊緣服務(wù)器之間的計算能力各不相同,任務(wù)卸載策略應(yīng)考慮邊緣服務(wù)器的性能.Liu等人[19]提出了一種面向多用戶的串行任務(wù)動態(tài)卸載策略,采用化學(xué)反應(yīng)優(yōu)化算法動態(tài)調(diào)整策略,從而最小化應(yīng)用的完成時間和MD的能耗.該方法僅考慮串行關(guān)系任務(wù),而應(yīng)用的任務(wù)依賴關(guān)系通常較為復(fù)雜.
基于現(xiàn)有的研究工作,針對時變信道的移動邊緣環(huán)境下依賴任務(wù)卸載問題,本文提出了基于優(yōu)先經(jīng)驗(yàn)回放的DDQN依賴任務(wù)卸載算法(DTOA),該算法根據(jù)當(dāng)前信道狀態(tài)給出任務(wù)卸載策略.對于依賴關(guān)系類型不同的任務(wù),該算法有效降低了應(yīng)用的響應(yīng)時間和移動設(shè)備的能耗.
在移動邊緣計算的信道狀態(tài)動態(tài)變化環(huán)境下,任務(wù)卸載過程如圖1所示.
圖1 基于優(yōu)先經(jīng)驗(yàn)回放的DDQN卸載方案Fig.1 DDQN offloading scheme based on prioritized experience replay
1)MD向附近的基站發(fā)送卸載請求;
2)基站收到卸載請求后,根據(jù)MD附近的邊緣服務(wù)器的計算資源及卸載任務(wù)的依賴關(guān)系,制定卸載策略;
3)MD接收并執(zhí)行卸載策略,根據(jù)系統(tǒng)當(dāng)前狀態(tài)將任務(wù)安排由本地執(zhí)行或卸載到指定的邊緣服務(wù)器上執(zhí)行;
4)邊緣服務(wù)器執(zhí)行分配任務(wù)并將運(yùn)行結(jié)果發(fā)送給MD.
(1)
(2)
psend、preceive分別表示MD發(fā)送和接收的功率.
本研究中,delay表示應(yīng)用的延遲容忍,即應(yīng)用的最后一個任務(wù)的最晚響應(yīng)時間,DAG中每個任務(wù)的最晚完成時間為LETva可由最后一個任務(wù)的最晚響應(yīng)時間遞歸向前推出:
(3)
MEC環(huán)境下的應(yīng)用通常為時延敏感型,任務(wù)調(diào)度應(yīng)優(yōu)先考慮任務(wù)的最晚完成時間.根據(jù)公式(3)求出所有任務(wù)的最晚完成時間,并按升序排列.最晚完成時間越小,則該任務(wù)越緊迫,應(yīng)當(dāng)優(yōu)先調(diào)度,由此可以得出每個任務(wù)的調(diào)度順序.
(4)
當(dāng)va卸載到計算節(jié)點(diǎn)上時,任務(wù)不一定能立刻執(zhí)行,需考慮任務(wù)排隊等待時間,假設(shè)計算節(jié)點(diǎn)最早空閑時間為EFT,用ESTva表示va最早開始時間:
ESTva=max{RTva,EFT}
(5)
va最早開始執(zhí)行時間加上在計算節(jié)點(diǎn)上執(zhí)行所消耗的時間即是執(zhí)行完成時間FTva:
(6)
優(yōu)化目標(biāo)為最小化應(yīng)用響應(yīng)時間和MD能耗.任務(wù)的響應(yīng)時間即最后一個任務(wù)的完成時間,則響應(yīng)時間和能耗:
ResponseTime=FTvn+1
(7)
(8)
因此,優(yōu)化目標(biāo)為:
(9)
s.t.C1∶FTvn+1≤delay
C3∶flocal 其中X=(x1,x2,…,xn),表示所有任務(wù)的卸載策略,xi表示任務(wù)i的卸載策略;C1表示任務(wù)響應(yīng)時間必須滿足的延遲容忍;C2表示每個任務(wù)只能在本地或者卸載到某一個邊緣服務(wù)器中執(zhí)行;C3表示邊緣服務(wù)器的計算能力大于MD. 命題1.優(yōu)化目標(biāo)F的求解是NP-hard問題 證明:先考慮公式(9)中最小化任務(wù)執(zhí)行時間的一種特殊情況,任務(wù)之間相互獨(dú)立沒有依賴關(guān)系,則任務(wù)響應(yīng)時間由各個任務(wù)的執(zhí)行時間加和,即: (10) 則優(yōu)化目標(biāo)變?yōu)? (11) 即任務(wù)在本地或邊緣服務(wù)器的完成時間最小化問題,等價于0-1背包問題.因此所考慮的特殊情況為NP-hard問題,故優(yōu)化目標(biāo)F也是NP-hard問題. 在馬爾可夫決策過程(MDP)[20]中,智能體(Agent)通過采取行動改變自己狀態(tài),獲得獎勵與環(huán)境交互循環(huán).本文將依賴任務(wù)卸載問題轉(zhuǎn)化為MDP下最優(yōu)策略問題. 2)動作空間.在MEC環(huán)境中,基站為Agent,負(fù)責(zé)與環(huán)境交互并做出卸載決策.為了將MD任務(wù)卸載到合適的MEC服務(wù)器上執(zhí)行,將動作空間與邊緣集群對應(yīng),表示為Ava={a0,a1,a2…,aM},其中,a0表示本地設(shè)備,{a1,a2,…,aM}表示邊緣設(shè)備集合.例如動作空間Ava={0,0.1,…,0,0,0,0}表示va卸載到第2個邊緣服務(wù)器上執(zhí)行,Ava={0,0,0,…,0,0,0,0}表示va在本地執(zhí)行.則系統(tǒng)的整個動作表示為A={Av1,Av2,…,Avn}. 3)獎勵值.獎勵值是用來評價卸載策略X的指標(biāo),對于卸載策略X,每個任務(wù)的完成時間用集合{time1,…,timen}表示,每個任務(wù)的能耗用集合{energy1,…,energyn}表示,time和Energy是該策略下的應(yīng)用完成的總時間和MD總能耗,時間和能耗是不同的量綱目標(biāo),因此采用min-max方法歸一化處理,采用線性加權(quán)法平衡兩個目標(biāo),則可將獎勵值公式化: (12) 其中βt和βe表示Time和Energy的權(quán)重因子,且滿足βt,βe∈(0,1),βt+βe=1.卸載策略越佳,任務(wù)執(zhí)行時間和能耗的加權(quán)和越小,相應(yīng)的獎勵值就越大.-∞表示違背任務(wù)約束下的獎勵值. Qtarget=rt+1+γQ(s′,a′;θ-) (13) 本文采用優(yōu)先經(jīng)驗(yàn)回放(Prioritized Experience Replay),按照所有樣本的優(yōu)先級來采樣,優(yōu)先抽取有價值的經(jīng)驗(yàn).樣本的優(yōu)先級定義為Qtarget-Qevalue,表示估計值與真實(shí)值的差異,即TD-error,該值越大則該樣本的價值越高.TD-error定義為: (14) L(θ)=wE[(Qtarget-Qevalue)]2 (15) 其中,w表示樣本(s,a*,r,s′)的優(yōu)先級權(quán)重,由TD-error誤差|δ|歸一化得到. DTOA基于優(yōu)先經(jīng)驗(yàn)回放的DDQN來制定時變信道增益下依賴任務(wù)卸載策略,偽代碼如算法1所示.狀態(tài)為s={hup,hdown,dva,cva,δva},動作為A={Av1,Av2,…,Avn}. 算法1.依賴任務(wù)卸載算法(DTOA) 輸入:(hup,hdown):發(fā)送任務(wù)和下載任務(wù)計算結(jié)果時的信道增益;G:任務(wù)依賴關(guān)系圖. 輸出:卸載策略X. 1.初始化MEC服務(wù)器資源和實(shí)驗(yàn)參數(shù). 2. for episode inTdo // 訓(xùn)練的每次迭代 3. for each task inGdo 4. 尋找可用的計算節(jié)點(diǎn)集合M 5. 用基于優(yōu)先經(jīng)驗(yàn)回放的DDQN為任務(wù)選擇一個計算節(jié)點(diǎn) 6. if 計算節(jié)點(diǎn)是本地設(shè)備 then 7. 任務(wù)卸載到本地執(zhí)行 8. 計算任務(wù)在本地執(zhí)行所花費(fèi)的時間和能耗 9. end if 10. if 計算節(jié)點(diǎn)是第j個邊緣服務(wù)器 then 11. 將任務(wù)卸載到第j個邊緣服務(wù)器上執(zhí)行 12. 計算任務(wù)在第j邊緣服務(wù)上執(zhí)行所花費(fèi)的時間和能耗 13. end if 14. 根據(jù)公式(12)計算獎勵值 15. 更新DTOA的優(yōu)化策略 16. end for 17. 返回第2步 18.end for 本研究通過數(shù)值模擬方法評估DTOA算法性能,在windows10系統(tǒng)上的Python環(huán)境中調(diào)用pytorch庫實(shí)現(xiàn)DTOA算法.圖2中的4種依賴關(guān)系任務(wù)圖均由8個實(shí)際任務(wù)組成,以數(shù)值表示該任務(wù)的計算結(jié)果.圖2(a)的獨(dú)立任務(wù)互無依賴,圖2(b)為樹型關(guān)系,圖2(c)為鏈型關(guān)系,圖2(d)為通用任務(wù)圖.每個任務(wù)的輸出數(shù)據(jù)大小單位為kbit.4個任務(wù)圖中每個任務(wù)所需的CPU周期設(shè)為{Li}=[60 80 152 105 195 86 16 100](單位:Mcycles) 圖2 4種不同類型的任務(wù)圖Fig.2 Four different types of task maps 基于優(yōu)先經(jīng)驗(yàn)回放的DDQN是由一個輸入層、兩個隱藏層和一個輸出層組成的全連接神經(jīng)網(wǎng)絡(luò),輸入為狀態(tài),輸出為動作(卸載策略),第2和第3隱藏層分別設(shè)置120和80個神經(jīng)元.實(shí)驗(yàn)環(huán)境為:windows10操作系統(tǒng),pytorch1.0深度學(xué)習(xí)框架.設(shè)置模型學(xué)習(xí)率learning rate=0.001,訓(xùn)練批次大小batch size=64,獎勵值的折扣因子設(shè)置為0.9,貪婪系數(shù)0.9,經(jīng)驗(yàn)池大小設(shè)置為1024,激活函數(shù)為ReLU函數(shù),權(quán)重參數(shù)更新用均方差損失函數(shù)MSE和梯度下降算法. 5.2.1 權(quán)重因子βt和βe的影響 基于通用任務(wù)(圖2(d))對比不同權(quán)重因子對任務(wù)響應(yīng)時間和能耗的影響.設(shè)備能量充足時,MD更加注重縮短任務(wù)的響應(yīng)時間,當(dāng)能量不足時,MD更加注重能耗最小化.如圖3所示,βt越大,MD越關(guān)注任務(wù)的響應(yīng)時間,此時任務(wù)的響應(yīng)時間越小獎勵值越大,卸載策略的目標(biāo)為優(yōu)化時間,所以當(dāng)βt=0.9,βe=0.1時,任務(wù)響應(yīng)時間較小(7.9s),但能耗消耗較高(34.85J).βt=0.1,βe=0.9表示能耗越小獎勵值越大,此時卸載策略的目標(biāo)為優(yōu)化能耗,MD用戶的能耗較小(1.978J),而執(zhí)行時間較大(16.514s),因此權(quán)重因子的設(shè)置視實(shí)際情況而定.在本文模型中,βt和βe為0.55和0.45時獎勵值最大,因此以下實(shí)驗(yàn)權(quán)重因子均取該值. 圖3 權(quán)重因子對任務(wù)的響應(yīng)時間和能耗的影響Fig.3 Effect of weighting factors on the task response time and energy consumption 5.2.2 DTOA收斂性 DTOA在4種任務(wù)圖下的收斂性如圖4所示.其中,Independent task由于沒有依賴關(guān)系,算法收斂最快,在第800個訓(xùn)練輪次收斂;通用任務(wù)依賴關(guān)系最復(fù)雜,算法收斂最慢,收斂于第2000個訓(xùn)練輪次;樹型任務(wù)和鏈型任務(wù)收斂速度介于二者之間,分別收斂于第1000和第1350個訓(xùn)練輪次.獨(dú)立任務(wù)結(jié)構(gòu)簡單,前后無依賴,算法考慮的因素較為單一,因此收斂快;對于有依賴關(guān)系的任務(wù),任務(wù)分配時要考慮節(jié)點(diǎn)層次關(guān)系、執(zhí)行順序等問題,因此收斂相對較慢. 圖4 不同類型任務(wù)的DTOA算法收斂圖Fig.4 Convergence graphs of DTOA for different types of tasks 5.2.3 響應(yīng)時間和能耗評估 對比以下3種經(jīng)典算法來評估DTOA算法的性能: 1)本地計算(Local)算法:在本地設(shè)備上執(zhí)行所有任務(wù); 2)Q-learning算法[6]:通過收集MEC環(huán)境中空閑計算資源形成計算資源池,基于Q-learning選擇卸載策略; 3)DQN[8]算法:基于DQN考慮任務(wù)所需要的資源、資源可用性和網(wǎng)絡(luò)狀態(tài)做出卸載決策. 本文的4種任務(wù)在不同算法下的響應(yīng)時間和能耗如圖5所示.其中,DTOA算法的任務(wù)響應(yīng)時間比Local算法減少了約50%~55%,能耗降低了約50%~60%,這是由于所有任務(wù)均在資源受限的本地執(zhí)行.DQN算法是Q-learning算法和深度學(xué)習(xí)算法的結(jié)合,其任務(wù)響應(yīng)時間和能耗均優(yōu)于Q-learning算法.DTOA的響應(yīng)時間比DQN減少了約10%~30%,能耗降低了約3%~25%.DTOA采用DDQN,在經(jīng)驗(yàn)池中按照樣本優(yōu)先級進(jìn)行抽樣訓(xùn)練,優(yōu)先抽取有價值的樣本,而DQN則是隨機(jī)抽樣訓(xùn)練;其次,DDQN中目標(biāo)Q值的計算和動作的選擇分別選用不同的網(wǎng)絡(luò)來實(shí)現(xiàn),緩解了DQN算法中任務(wù)卸載決策過高估計的問題. 圖5 不同算法的響應(yīng)時間與能耗值Fig.5 Response time and energy consumption under different algorithms 在DTOA中,獨(dú)立任務(wù)由于沒有依賴關(guān)系,任務(wù)間不需要通信,響應(yīng)時間(14.78s)和能耗(6.612J)最小;鏈型依賴關(guān)系復(fù)雜,存在更多的通信,響應(yīng)時間(18.01s)和能耗(8.262J)最多;樹型任務(wù)的依賴關(guān)系比鏈型任務(wù)要簡單,所消耗的時間和能量低于樹型任務(wù).綜上可知,DTOA產(chǎn)生的能耗和響應(yīng)時間與任務(wù)間的依賴關(guān)系復(fù)雜度呈正相關(guān)關(guān)系. 5.2.4 不同任務(wù)大小的響應(yīng)時間和能耗評估 基于圖3(d) 通用任務(wù)對比不同數(shù)據(jù)量任務(wù)的響應(yīng)時間和能耗,結(jié)果如圖6所示.4種算法的響應(yīng)時間和能耗隨著任務(wù)數(shù)據(jù)量增多而增大,其中DTOA的響應(yīng)時間和能耗最低.對于4種不同大小的任務(wù),DTOA的任務(wù)響應(yīng)時間相比Local減少了約20%~50%,能耗降低了約60%~70%.隨著任務(wù)數(shù)據(jù)量的增大,DQN算法的任務(wù)響應(yīng)時間仍優(yōu)于Q-learning,DTOA的響應(yīng)時間相比DQN減少約6%~20%,能耗降低約10%~30%. 圖6 不同數(shù)據(jù)大小的通用任務(wù)對應(yīng)的響應(yīng)時間與能耗值Fig.6 Response time and energy consumption for general tasks with different data sizes 5.2.5 不同傳輸速率下的卸載策略以及時間能耗評估 信道環(huán)境不同會導(dǎo)致任務(wù)的傳輸速率不同,表1給出了不同信道值下任務(wù)傳輸速率對DTOA算法卸載策略的影響.以General task為例,不同的信道值將導(dǎo)致用戶傳輸速率變化,DTOA給出了不同的卸載策略.當(dāng)傳輸速率較大時,任務(wù)更傾向在邊緣執(zhí)行. 表1 不同傳輸速率下的卸載策略表Table 1 Offloading strategies under different transmission rates 表2給出了DTOA在不同傳輸速率下任務(wù)響應(yīng)時間和能耗值.卸載策略會根據(jù)傳輸速率的變化進(jìn)行調(diào)整,致使任務(wù)的響應(yīng)時間和能耗發(fā)生改變.當(dāng)傳輸速率較慢時,任務(wù)在本地執(zhí)行,任務(wù)響應(yīng)時間(30.776s)和能耗(13.65J)最高;當(dāng)傳輸速率較快時,任務(wù)卸載到邊緣執(zhí)行,這將顯著降低響應(yīng)時間和能耗.DTOA能隨著信道環(huán)境的動態(tài)變化給出合適的卸載策略. 在信道狀態(tài)動態(tài)變化的邊緣環(huán)境中,本文通過對具有依賴關(guān)系的任務(wù)建模,將依賴任務(wù)卸載轉(zhuǎn)化為馬爾可夫決策過程下的最優(yōu)策略的確定問題,并提出了一個基于DRL的依賴任務(wù)卸載算法(DTOA),使用DRL從經(jīng)驗(yàn)中學(xué)習(xí)依賴任務(wù)的卸載策略.實(shí)驗(yàn)結(jié)果表明:對于不同類型的任務(wù)圖、不同的任務(wù)數(shù)據(jù)大小和不同傳輸速率,與現(xiàn)有的卸載方法相比,DTOA降低了任務(wù)響應(yīng)時間和MD能耗.而對于多移動用戶的MEC系統(tǒng)中的任務(wù)卸載和資源調(diào)度問題有待進(jìn)一步研究.由于多個用戶之間存在資源競爭,依賴任務(wù)卸載問題變得更具有挑戰(zhàn)性.4 基于MDP和DRL的依賴任務(wù)卸載
4.1 依賴任務(wù)卸載的馬爾可夫過程
4.2 基于優(yōu)先經(jīng)驗(yàn)回放方案的DDQN依賴任務(wù)卸載
4.3 DTOA及計算復(fù)雜度分析
5 實(shí)驗(yàn)結(jié)果分析
5.1 實(shí)驗(yàn)參數(shù)
5.2 DTOA算法評估
6 結(jié) 論