喻鵬 ,張俊也,李文璟,周凡欽,豐雷,付澍,邱雪松
(1.北京郵電大學(xué)網(wǎng)絡(luò)與交換技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室,北京 100876;2.重慶大學(xué)微電子與通信工程學(xué)院,重慶 400044)
隨著移動(dòng)通信網(wǎng)絡(luò)的不斷演進(jìn),超五代(B5G,beyond the 5th generation)、第六代(6G,the 6th generation)網(wǎng)絡(luò)將帶來(lái)新型業(yè)務(wù)場(chǎng)景,如自動(dòng)駕駛、工業(yè)控制、增強(qiáng)/虛擬現(xiàn)實(shí)等,這些場(chǎng)景對(duì)帶寬、時(shí)延、功耗、可靠性等指標(biāo)提出了更高的要求[1]。對(duì)應(yīng)的海量無(wú)線接入設(shè)備所需的高效快速的資源調(diào)度,也將給網(wǎng)絡(luò)帶來(lái)巨大挑戰(zhàn)。
為了解決上述問(wèn)題,移動(dòng)邊緣計(jì)算(MEC,mobile edge computing)被提出。通過(guò)邊緣計(jì)算,終端設(shè)備可以卸載部分或全部計(jì)算任務(wù)到基站等網(wǎng)絡(luò)邊緣節(jié)點(diǎn),拓展了終端設(shè)備計(jì)算能力。相對(duì)于集中到云端的計(jì)算方法,MEC 能夠有效地降低任務(wù)處理時(shí)延,減輕核心網(wǎng)的流量壓力,保障數(shù)據(jù)私密性與安全性[2]。
未來(lái)無(wú)線網(wǎng)絡(luò)的深度將顯著拓展,從單一的信息傳輸?shù)絺鬏敗⒋鎯?chǔ)和處理的多維同步,需要通信、計(jì)算和存儲(chǔ)資源以及相關(guān)控制的無(wú)縫融合[3]。而基于MEC 的移動(dòng)邊緣網(wǎng)絡(luò)(MEN,mobile edge network)的核心思想也正是將網(wǎng)絡(luò)的資源、內(nèi)容和功能遷移到網(wǎng)絡(luò)邊緣,從而提升網(wǎng)絡(luò)整體的資源調(diào)度效率,MEC 被認(rèn)為是B5G/6G 網(wǎng)絡(luò)的重要組成部分[1],其資源分配方法對(duì)系統(tǒng)的性能有著重要影響。
5G 性能相比4G 有了大幅度提升,但是基站部署密度也進(jìn)一步提升,導(dǎo)致5G 網(wǎng)絡(luò)的基站功耗為4G 基站的3~4 倍[4]。而未來(lái)6G 網(wǎng)絡(luò)將擁有超高吞吐量、超大帶寬,網(wǎng)絡(luò)節(jié)點(diǎn)的部署將更加密集,規(guī)模更加龐大,將會(huì)面臨更大的能耗壓力。對(duì)應(yīng)地,綠色節(jié)能是未來(lái)網(wǎng)絡(luò)發(fā)展的一大需求[5]。由于基站能耗約占通信能耗的60%~80%[6],而邊緣網(wǎng)絡(luò)作為基站的主要部署位置,將會(huì)成為通信網(wǎng)絡(luò)能耗產(chǎn)生的重要組成部分。因此,MEN 中高能效的資源分配方法具有重要的研究意義與價(jià)值。
近年來(lái),MEC 得到了廣泛關(guān)注,MEN 資源分配問(wèn)題也得到了大量的研究,而多維資源聯(lián)合優(yōu)化是其中的研究熱點(diǎn)。文獻(xiàn)[7]指出基于霧計(jì)算的通信與計(jì)算融合可以有效地提升系統(tǒng)的性能,并概述了基于霧計(jì)算的移動(dòng)通信網(wǎng)絡(luò)的網(wǎng)絡(luò)架構(gòu)、系統(tǒng)容量和資源管理。文獻(xiàn)[8]將緩存資源引入用于多媒體內(nèi)容交付的移動(dòng)基站中,考慮緩存與前傳成本,從經(jīng)濟(jì)角度進(jìn)行優(yōu)化。文獻(xiàn)[9]研究了服務(wù)緩存放置、計(jì)算卸載決策和系統(tǒng)資源分配的聯(lián)合優(yōu)化。這些為邊緣網(wǎng)絡(luò)的融合資源分配方法提供了參考依據(jù)。
文獻(xiàn)[10]針對(duì)有多個(gè)能量采集設(shè)備的MEC 系統(tǒng),將最小化長(zhǎng)期平均執(zhí)行成本的聯(lián)合計(jì)算卸載和動(dòng)態(tài)資源分配問(wèn)題描述為一個(gè)隨機(jī)優(yōu)化問(wèn)題,提出了一種基于李雅普諾夫優(yōu)化的在線算法,將原問(wèn)題轉(zhuǎn)化為時(shí)隙確定性問(wèn)題。文獻(xiàn)[11]針對(duì)協(xié)同多點(diǎn)傳輸設(shè)計(jì)了一種聯(lián)合負(fù)載感知聚類和基于圖著色的小區(qū)間資源調(diào)度的資源分配方法。為了實(shí)現(xiàn)泛在邊緣計(jì)算,需要實(shí)現(xiàn)多邊緣服務(wù)器的協(xié)同處理。進(jìn)一步地,文獻(xiàn)[12]提出了一種限制邊緣服務(wù)器超載概率的MEC 系統(tǒng)資源配置的優(yōu)化方法,通過(guò)樣本平均近似方法將機(jī)會(huì)約束隨機(jī)規(guī)劃問(wèn)題轉(zhuǎn)化為混合整數(shù)規(guī)劃問(wèn)題進(jìn)行求解,實(shí)現(xiàn)了總通信代價(jià)最小的目標(biāo)。文獻(xiàn)[13]通過(guò)用綜合成本模型描述各種靜態(tài)和動(dòng)態(tài)性能指標(biāo),建立了混合非線性優(yōu)化的在線邊緣網(wǎng)絡(luò)資源分配模型,利用正則化技術(shù)將非凸優(yōu)化問(wèn)題轉(zhuǎn)化為凸優(yōu)化問(wèn)題,模型的性能較貪心算法有大幅度提高。文獻(xiàn)[14]研究了多信道無(wú)線干擾情況下的多用戶計(jì)算卸載與資源分配策略,可以通過(guò)博弈論方法分布式地高效求解,并證明了所設(shè)計(jì)的算法可以達(dá)到納什均衡。上述研究以數(shù)學(xué)優(yōu)化方法為主,對(duì)優(yōu)化問(wèn)題的數(shù)學(xué)形式具有較高的要求,需要針對(duì)具體問(wèn)題對(duì)模型和約束進(jìn)行精心設(shè)計(jì)或者進(jìn)行轉(zhuǎn)化,例如求解對(duì)象維度單一、模型要求無(wú)約束或者少量線性約束、可用經(jīng)典算法進(jìn)行求解等,且多采用離線方式,主要適用于少量網(wǎng)絡(luò)節(jié)點(diǎn)的局部網(wǎng)絡(luò)場(chǎng)景,難以適用于求解變量維度和約束較為復(fù)雜的場(chǎng)景。
針對(duì)上述不足,面對(duì)未來(lái)網(wǎng)絡(luò)密集化、復(fù)雜化的發(fā)展趨勢(shì),強(qiáng)化學(xué)習(xí)(RL,reinforcement learning)作為一種免模型的方法,可以自動(dòng)通過(guò)試錯(cuò)進(jìn)行學(xué)習(xí),具有很強(qiáng)的靈活性[15],是一種有前景的解決方案[16],RL 方法可適用于復(fù)雜動(dòng)態(tài)的MEC 系統(tǒng)。文獻(xiàn)[17]將具有間歇性和不可預(yù)測(cè)性的可再生能源作為MEC 系統(tǒng)的能源,提出一種有效的基于RL 的資源管理算法,該算法分解為離線值迭代和在線強(qiáng)化學(xué)習(xí),動(dòng)態(tài)地學(xué)習(xí)負(fù)載卸載和邊緣服務(wù)器配置的最優(yōu)策略,使系統(tǒng)長(zhǎng)期成本最小化。近年來(lái),以深度Q 學(xué)習(xí)(DQL,deep Q-learning)為代表的深度強(qiáng)化學(xué)習(xí)(DRL,deep reinforcement learning)算法興起。DRL 在高維離散或者連續(xù)空間中具有很強(qiáng)的決策能力,克服了RL 方法只適用于具有低維狀態(tài)和動(dòng)作空間問(wèn)題的不足。并且,基于圖形處理單元的并行計(jì)算進(jìn)一步提升了DRL 的運(yùn)行速度,使網(wǎng)絡(luò)管理具有及時(shí)性,克服了元啟發(fā)式算法、凸優(yōu)化算法等傳統(tǒng)方法的運(yùn)行時(shí)間限制[18-19]。
一些研究將DRL 算法用于解決MEN 資源分配任務(wù)。文獻(xiàn)[20-21]提出基于DQL 的方案,來(lái)聯(lián)合優(yōu)化計(jì)算資源與網(wǎng)絡(luò)資源。文獻(xiàn)[22]在計(jì)算卸載與資源分配問(wèn)題中,將幾種DRL 算法,包括DQL、深度確定性策略梯度(DDPG,deep deterministic policy gradient)和異步優(yōu)勢(shì) actor-critic(A3C,asynchronous advantage actor-critic)算法,進(jìn)行了對(duì)比。為了解決DQL 存在的Q 值過(guò)估計(jì)問(wèn)題,雙深度Q 學(xué)習(xí)(DDQL,double deep Q-learning)算法被提出[23]。文獻(xiàn)[24]提出了基于DDQL 的算法,在不了解網(wǎng)絡(luò)狀態(tài)的情況下學(xué)習(xí)最優(yōu)計(jì)算卸載策略。
然而,上述研究大多關(guān)注的是上行流量為主的應(yīng)用場(chǎng)景,較少分析下行流量為主的應(yīng)用場(chǎng)景。并且,很多研究只考慮了單一資源的分配問(wèn)題,部分研究對(duì)通信和計(jì)算資源進(jìn)行了聯(lián)合優(yōu)化,或者關(guān)注緩存相關(guān)策略和資源分配策略的聯(lián)合優(yōu)化,但是對(duì)通信、計(jì)算、存儲(chǔ)3 種資源進(jìn)行綜合考慮的研究不足。此外,高能效的資源分配機(jī)制研究主要關(guān)注了終端設(shè)備能耗,而對(duì)系統(tǒng)的總能耗關(guān)注不夠。
針對(duì)目前研究存在的問(wèn)題,本文重點(diǎn)關(guān)注如復(fù)雜視頻處理、高清視頻請(qǐng)求等具有大量下行數(shù)據(jù)的業(yè)務(wù),在多任務(wù)、多終端設(shè)備、多邊緣網(wǎng)關(guān)、多邊緣服務(wù)器的MEN 場(chǎng)景下,以任務(wù)平均能耗最小化為優(yōu)化目標(biāo),針對(duì)每個(gè)任務(wù)選擇的邊緣網(wǎng)關(guān),考慮邊緣網(wǎng)關(guān)最大發(fā)射功率、邊緣服務(wù)器最大計(jì)算能力和最大存儲(chǔ)空間等資源約束,以及任務(wù)時(shí)延限制等約束,構(gòu)建對(duì)邊緣網(wǎng)關(guān)發(fā)射功率和邊緣服務(wù)器計(jì)算能力和存儲(chǔ)空間進(jìn)行分配決策的優(yōu)化模型。該問(wèn)題是一個(gè)NP-hard 的優(yōu)化問(wèn)題。
本文將構(gòu)建的數(shù)學(xué)模型進(jìn)行簡(jiǎn)化,提出了基于DDQL 的求解方法,并通過(guò)實(shí)驗(yàn)仿真將其與基于隨機(jī)算法(RA,random algorithm)、貪心算法(GA,greedy algorithm)、粒子群優(yōu)化(PSO,particle swarm optimization)算法、DQL 算法的求解方法進(jìn)行了對(duì)比,證明本文方法降低了至少5%的任務(wù)平均能耗。DDQL 算法具有良好的收斂性和較低的時(shí)間復(fù)雜度,可以很好地完成MEN 高能效資源分配任務(wù)。
面向未來(lái)B5G/6G 網(wǎng)絡(luò)特征,網(wǎng)絡(luò)系統(tǒng)架構(gòu)可分為四層,自底向上分別為終端設(shè)備(ED,end device)、邊緣網(wǎng)關(guān)(EG,edge gateway)、邊緣服務(wù)器(ES,edge server)和云中心(CC,cloud center),如圖1 所示。其中,任務(wù)由終端設(shè)備發(fā)起,邊緣網(wǎng)關(guān)主要負(fù)責(zé)網(wǎng)絡(luò)協(xié)議轉(zhuǎn)化與數(shù)據(jù)轉(zhuǎn)發(fā),邊緣服務(wù)器主要負(fù)責(zé)提供計(jì)算與存儲(chǔ)功能,云中心在遠(yuǎn)端具有更豐富的資源。云中心是系統(tǒng)架構(gòu)的必要組成部分,但在本文模型中,假設(shè)邊緣服務(wù)器可以滿足任務(wù)需求,不需要在云中心進(jìn)行任務(wù)處理。
圖1 系統(tǒng)架構(gòu)
考慮實(shí)際網(wǎng)絡(luò)系統(tǒng),邊緣網(wǎng)關(guān)是現(xiàn)場(chǎng)級(jí)邊緣計(jì)算的典型設(shè)備形態(tài),可部署在基站側(cè);邊緣服務(wù)器是以通用硬件為虛擬化資源的移動(dòng)邊緣應(yīng)用平臺(tái),可部署在基帶處理單元池等運(yùn)營(yíng)商機(jī)房中。邊緣網(wǎng)關(guān)與邊緣服務(wù)器多在網(wǎng)絡(luò)規(guī)劃時(shí)設(shè)計(jì)了其隸屬關(guān)系,如多對(duì)一的關(guān)系,在網(wǎng)絡(luò)建設(shè)時(shí)通過(guò)光纖等有線鏈路連接,因此可將邊緣服務(wù)器與邊緣網(wǎng)關(guān)設(shè)定為固定連接。邊緣網(wǎng)關(guān)與終端設(shè)備通過(guò)無(wú)線信道通信,其連接關(guān)系需要在滿足覆蓋關(guān)系的條件下與資源分配進(jìn)行聯(lián)合決策。
設(shè)終端設(shè)備的集合D={1,2,…,D},d∈D 表示一個(gè)終端設(shè)備,終端設(shè)備數(shù)為D。邊緣網(wǎng)關(guān)的集合為G={1,2,…,G},g∈G 表示一個(gè)邊緣網(wǎng)關(guān),邊緣網(wǎng)關(guān)數(shù)為G。邊緣服務(wù)器的集合為S={1,2,…,S},s∈S 表示一個(gè)邊緣服務(wù)器,邊緣服務(wù)器數(shù)為S。
任務(wù)的集合表示為K={1,2,…,K},k∈K 表示一個(gè)任務(wù),任務(wù)數(shù)為K。任務(wù)k用五元組(d k,l k,bk,ck,Tk)表征,其中dk為發(fā)起任務(wù)k的終端設(shè)備,dk∈D,假設(shè)一個(gè)終端設(shè)備一次最多發(fā)起一個(gè)任務(wù),lk為任務(wù)k返回終端設(shè)備的數(shù)據(jù)比特?cái)?shù),bk為任務(wù)k所需存儲(chǔ)空間大小,ck為完成任務(wù)k所需中央處理器(CPU,central processing unit)時(shí)鐘周期數(shù),T k為完成任務(wù)k的時(shí)延限制。假設(shè)以上K個(gè)任務(wù)均為同一個(gè)時(shí)間片內(nèi)發(fā)起的任務(wù)。
邊緣服務(wù)器的選擇與能耗模型構(gòu)建如下。
設(shè)xk,s表示任務(wù)k選擇ESs的情況,為
一個(gè)任務(wù)只能且必須選擇一個(gè)ES,如式(2)所示。
針對(duì)存儲(chǔ)資源,設(shè)Bs表示ESs的最大存儲(chǔ)空間。每個(gè)ES 中任務(wù)所占用的存儲(chǔ)空間之和不能超過(guò)該ES 最大存儲(chǔ)空間,即
針對(duì)計(jì)算資源,考慮CPU 是執(zhí)行計(jì)算任務(wù)的核心設(shè)備,其性能與時(shí)鐘頻率有關(guān),可采用動(dòng)態(tài)電壓頻率調(diào)整(DVFS,dynamic voltage and frequency scaling)技術(shù)對(duì)頻率進(jìn)行調(diào)節(jié),以滿足任務(wù)的時(shí)延、能耗要求[25]。同一個(gè)ES上的不同任務(wù)可同時(shí)執(zhí)行,分別獲得不同的CPU 時(shí)鐘頻率。F s表示ESs所能提供的最大CPU 時(shí)鐘頻率。fk表示任務(wù)k所獲時(shí)鐘頻率。每個(gè)ES 中任務(wù)所獲CPU 時(shí)鐘頻率之和不能超過(guò)該ES 能提供的最大CPU 時(shí)鐘頻率,即
對(duì)每一個(gè)任務(wù)來(lái)說(shuō),其獲得的CPU 時(shí)鐘頻率范圍有一定的限制,F(xiàn)min為一個(gè)任務(wù)可獲得的CPU時(shí)鐘頻率的最小值,F(xiàn)max為一個(gè)任務(wù)可獲得的CPU時(shí)鐘頻率的最大值,則有
任務(wù)k的計(jì)算時(shí)延為
根據(jù)電路理論,動(dòng)態(tài)能耗是CPU 能耗最主要的組成部分。在本文模型中,ES 的能耗只考慮因計(jì)算產(chǎn)生的動(dòng)態(tài)能耗,而忽略其他能耗。ES 執(zhí)行任務(wù)k的能耗為,其中,κ為與硬件有關(guān)的常量[25]。所有ES 執(zhí)行任務(wù)的總能耗為
邊緣網(wǎng)關(guān)的選擇與能耗模型如下。
yk,g表示任務(wù)k選擇EGg的情況,如式(8)所示。
一個(gè)任務(wù)只能且必須選擇一個(gè)EG,如式(9)所示。
ES 與EG 通過(guò)有線鏈路通信,zs,g表示ESs和EGg的連接關(guān)系,即
EG 與ED 通過(guò)無(wú)線鏈路通信,wg,d表示EGg與EDd的覆蓋關(guān)系,如式(11)所示。
任務(wù)k選擇的ESs和EGg必須可通信,且只能選擇一條路徑,表示為
任務(wù)k選擇的EGg必須能與接收任務(wù)的EDdk通信,且只能選擇一條路徑,表示為
EGg到EDd信道的帶寬為Bg,d。根據(jù)香農(nóng)公式,從EGg到EDd的傳輸速率為
其中,δg,d為從EGg到EDd傳輸?shù)男旁氡龋⊿NR,signal noise ratio)。δg,d的表達(dá)式為
其中,pg,d為EGg到EDd發(fā)射功率,hg,d為從EGg到EDd的路徑損耗,N0為加性高斯白噪聲譜密度。hg,d的大小與EGg到EDd之間的距離Dg,d有關(guān),距離越遠(yuǎn),路徑損耗越大。
任務(wù)k獲得的EG 發(fā)射功率表示為,其范圍有一定的限制,Pmin為最小值,Pmax為最大值,如式(16)所示。
其中,Pg表示EGg所能提供的最大發(fā)射功率。一個(gè)EG 中所有任務(wù)獲得的發(fā)射功率之和不能超過(guò)該EG 所能提供的最大發(fā)射功率,即
若任務(wù)k是從EGg傳輸?shù)紼Ddk,則其傳輸時(shí)延為
考慮任務(wù)實(shí)際的EG 選擇情況,任務(wù)k從EG到ED 的傳輸時(shí)延為
任務(wù)k的總時(shí)延為ES 計(jì)算時(shí)延與從EG 到ED傳輸時(shí)延之和,ES 與EG 之間通過(guò)有線鏈路連接,傳輸速度很快,傳輸時(shí)延忽略不計(jì),則有
EGg的能耗
所有EG 的總能耗為
在上述系統(tǒng)架構(gòu)模型、任務(wù)模型、邊緣服務(wù)器和邊緣網(wǎng)關(guān)選擇與能耗模型的基礎(chǔ)上,考慮網(wǎng)絡(luò)的整體能耗特征,最終的MEN 資源分配的優(yōu)化模型如式(23)所示。
優(yōu)化目標(biāo)為最小化任務(wù)平均能耗,能耗為邊緣服務(wù)器計(jì)算能耗與邊緣網(wǎng)關(guān)傳輸能耗之和。約束條件C1 要求每個(gè)任務(wù)在規(guī)定時(shí)延內(nèi)完成,保障用戶的服務(wù)質(zhì)量(QoS,quality of service)。約束條件C2和C3 要求每個(gè)任務(wù)只能且必須選擇一個(gè)邊緣服務(wù)器和一個(gè)邊緣網(wǎng)關(guān)。約束條件C4 和C5 要求每個(gè)任務(wù)選擇唯一且可通信的路徑。約束條件C6~C8 分別要求滿足邊緣服務(wù)器的最大存儲(chǔ)空間限制、邊緣服務(wù)器的最大時(shí)鐘頻率限制和邊緣網(wǎng)關(guān)的最大發(fā)射功率限制。約束條件C9 和C10 分別對(duì)一個(gè)任務(wù)可獲得的邊緣服務(wù)器時(shí)鐘頻率、邊緣網(wǎng)關(guān)發(fā)射功率大小進(jìn)行限制。
在該優(yōu)化問(wèn)題中,有六類決策變量,分別為xk,s、yk,g、zs,g、wg,d、和fk。其中,xk,s、yk,g、zs,g和wg,d是離散的0-1 整數(shù)變量,和fk是連續(xù)變量。
由于部分決策變量是離散變量,該優(yōu)化問(wèn)題的可行解集不是凸集,不是一個(gè)凸優(yōu)化問(wèn)題,無(wú)法利用凸優(yōu)化問(wèn)題優(yōu)良的全局最優(yōu)解性質(zhì),可以分析得到該問(wèn)題是一個(gè)混合整數(shù)規(guī)劃問(wèn)題??紤]到實(shí)際工程實(shí)踐的可行性,需要重點(diǎn)關(guān)注的不是如何精確求解最優(yōu)解,而是如何高效快速地獲得一個(gè)較好的可行解,結(jié)合相關(guān)工作分析,本文利用基于DDQL 的模型來(lái)完成上述能耗優(yōu)化模型的求解。
考慮到實(shí)際網(wǎng)絡(luò)的有線部分連接關(guān)系相對(duì)固定,因此,在任務(wù)選擇ES 與EG 時(shí),將ES 與EG的連接關(guān)系z(mì)s,g和EG 與ED 的覆蓋關(guān)系wg,d作為已知條件。假設(shè)每個(gè)EG 只與一個(gè)ES 連接,因此確定了要選擇的EG 后,只有唯一的ES 滿足EG 與ES 可通信的約束條件,因此,可以將xk,s、yk,g兩類決策變量合并為一類決策變量uk,表示任務(wù)k選擇的EG,選擇的ES 即為該EG 連接的ES。發(fā)起任務(wù)k的設(shè)備為EDdk,這個(gè)是進(jìn)行資源分配前的已知條件,且每個(gè)任務(wù)只能選擇一個(gè)EG,因此任務(wù)k獲得EG 的發(fā)射功率也可表示為pk。
經(jīng)過(guò)簡(jiǎn)化后,關(guān)于任務(wù)k的決策變量有3 個(gè),分別為選擇的EG 的編號(hào)uk、任務(wù)獲得EG 發(fā)射功率pk、任務(wù)獲得ES 時(shí)鐘頻率fk。結(jié)合優(yōu)化模型中給出的優(yōu)化目標(biāo),MEN 高能效資源分配問(wèn)題就是要對(duì)每個(gè)任務(wù)的EG 連接關(guān)系、獲得EG 發(fā)射功率、獲得ES 時(shí)鐘頻率進(jìn)行決策,在滿足時(shí)延限制、資源限制等約束條件的情況下,最小化任務(wù)平均能耗。
假設(shè)任務(wù)k可選擇的EG 的個(gè)數(shù)為,將連續(xù)變量pk、fk的可能取值離散化,假設(shè)任務(wù)k獲得EG 發(fā)射功率可能數(shù)值的個(gè)數(shù)為獲得ES 時(shí)鐘頻率可能數(shù)值的個(gè)數(shù)為。若使用暴力搜索算法來(lái)遍歷求解具有K個(gè)任務(wù)資源分配,其時(shí)間復(fù)雜度為具有指數(shù)級(jí)的時(shí)間復(fù)雜度,這是一個(gè)NP-hard 的復(fù)雜決策優(yōu)化問(wèn)題,不適合大規(guī)模場(chǎng)景,因此需要使用智能算法在合理的時(shí)間內(nèi)求次優(yōu)解。
DRL 算法將深度學(xué)習(xí)(DL,deep learning)的強(qiáng)表征能力與RL 的強(qiáng)決策能力相結(jié)合,并且適用于具有動(dòng)態(tài)性的環(huán)境。Q 學(xué)習(xí)(Q-learning)算法是一種經(jīng)典的RL 算法,DQL 算法將DL 方法引入Q-learning 中,突破了Q-learning 算法不適用于高維決策任務(wù)的局限性。DQL 算法狀態(tài)空間相對(duì)容易構(gòu)造,動(dòng)作和獎(jiǎng)勵(lì)與網(wǎng)絡(luò)優(yōu)化的過(guò)程和目標(biāo)有天然的契合度,是一種可用于網(wǎng)絡(luò)資源分配的有效方法。但DQL 算法中被高估的Q值影響了算法的性能,DDQL 算法通過(guò)分解動(dòng)作選擇和策略評(píng)估來(lái)克服此問(wèn)題[23]。本文提出基于DDQL 的移動(dòng)邊緣網(wǎng)絡(luò)高能效資源分配方法。
RL 是智能體通過(guò)與環(huán)境交互,觀察做出動(dòng)作后得到的獎(jiǎng)勵(lì),通過(guò)改變自己的行為來(lái)學(xué)習(xí)得到更多獎(jiǎng)勵(lì)的策略。RL 重要基礎(chǔ)之一是試錯(cuò)的學(xué)習(xí)方式,其流程為在時(shí)刻t,智能體從環(huán)境中觀察到狀態(tài)st,利用策略π選擇動(dòng)作at。一旦該動(dòng)作被執(zhí)行,環(huán)境轉(zhuǎn)變到下一個(gè)狀態(tài)st+1,向智能體提供獎(jiǎng)勵(lì)rt作為反饋。智能體的目標(biāo)是學(xué)習(xí)一個(gè)可以最大化期望累積獎(jiǎng)勵(lì)的策略[25]。
在一個(gè)回合(Episode)中,從時(shí)刻t起,考慮無(wú)限長(zhǎng)的時(shí)間,智能體獲得的累積獎(jiǎng)勵(lì)定義為
其中,γ∈[0,1]為折扣因子,用來(lái)削減未來(lái)獎(jiǎng)勵(lì)對(duì)現(xiàn)在的影響,越遠(yuǎn)的獎(jiǎng)勵(lì)作用越小。
結(jié)合本文的優(yōu)化模型,對(duì)RL 的三要素,即狀態(tài)、動(dòng)作和獎(jiǎng)勵(lì)進(jìn)行定義。
狀態(tài):狀態(tài)即為所有決策變量的組合。每個(gè)任務(wù)選擇的EG 表示為向量u=[u1,u2,…,uK],每個(gè)任務(wù)獲得的 EG 發(fā)射功率表示為向量p=[p1,p2,…,pK],每個(gè)任務(wù)獲得的ES 時(shí)鐘頻率表示為向量f=[f1,f2,…,fK]。狀態(tài)定義為s=[u p f],是一個(gè)3K維的向量。
獎(jiǎng)勵(lì):與式(23)模型的優(yōu)化目標(biāo)相對(duì)應(yīng)。由于DRL 算法要最大化累積獎(jiǎng)勵(lì),而模型的優(yōu)化目標(biāo)要最小化任務(wù)平均能耗,所以將立即獎(jiǎng)勵(lì)設(shè)為優(yōu)化目標(biāo)的相反數(shù),為了使獎(jiǎng)勵(lì)為正,再加上一個(gè)適當(dāng)大的正數(shù)Emax,Emax表示任務(wù)最大能耗。在狀態(tài)不滿足式(23)約束條件時(shí),獎(jiǎng)勵(lì)為0。獎(jiǎng)勵(lì)定義為
Q值,即狀態(tài)?動(dòng)作值函數(shù),表示在狀態(tài)s選擇動(dòng)作a,按照策略π執(zhí)行,獲得的期望累積回報(bào),定義為
Q-learning算法需要將每個(gè)狀態(tài)–動(dòng)作對(duì)的Q值以表格形式存儲(chǔ),當(dāng)狀態(tài)或動(dòng)作空間過(guò)大時(shí),便無(wú)法存儲(chǔ)。
DQL 算法通過(guò)深度神經(jīng)網(wǎng)絡(luò)(DNN,deep neural network)來(lái)逼近最優(yōu)策略對(duì)應(yīng)Q值,表示為Q?(s,a)[26],如式(27)所示。
其中,參數(shù)θ代表神經(jīng)網(wǎng)絡(luò)的權(quán)重,在迭代中通過(guò)調(diào)整參數(shù)θ來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò)。將用來(lái)估計(jì)值函數(shù)的神經(jīng)網(wǎng)絡(luò)稱為Q 網(wǎng)絡(luò)(Q-network)。
本文使用的DNN 為多層前饋神經(jīng)網(wǎng)絡(luò)(FNN,feedforward neural network),神經(jīng)元分層排列,相鄰兩層的神經(jīng)元之間全連接,通過(guò)反向傳播來(lái)調(diào)整參數(shù)。DNN 以狀態(tài)為輸入,輸出所有可能的動(dòng)作對(duì)應(yīng)的Q值。DNN 使用ReLU 函數(shù)作為激活函數(shù),ReLU 函數(shù)定義為
DQL 算法中,使用2 個(gè)結(jié)構(gòu)相同的DNN。其中,當(dāng)前Q 網(wǎng)絡(luò)為φ,參數(shù)為θ,用于評(píng)估當(dāng)前狀態(tài)動(dòng)作對(duì)的Q值;目標(biāo)Q 網(wǎng)絡(luò)為,參數(shù)為θ?,用于產(chǎn)生目標(biāo)Q值。
誤差函數(shù)為均方誤差形式,定義[27]為
其中,s′為在狀態(tài)s執(zhí)行動(dòng)作a后的下一個(gè)狀態(tài),a′為狀態(tài)s′下可選擇的動(dòng)作。
DQL 算法引入固定Q 目標(biāo)機(jī)制,使用2 個(gè)DNN的原因是,如果使用同一個(gè)DNN 計(jì)算誤差并更新參數(shù),根據(jù)不斷變化的Q值更新網(wǎng)絡(luò),容易導(dǎo)致訓(xùn)練過(guò)程不穩(wěn)定。因此,使用2 個(gè)結(jié)構(gòu)相同的DNN,當(dāng)前Q 網(wǎng)絡(luò)每步都通過(guò)隨機(jī)梯度下降的方法進(jìn)行更新,降低誤差;目標(biāo)Q 網(wǎng)絡(luò)每隔一定的步數(shù)更新一次,賦值為和當(dāng)前Q 網(wǎng)絡(luò)相同的參數(shù)。
DQL 算法中還使用了經(jīng)驗(yàn)回放機(jī)制。將在每個(gè)時(shí)刻t下,智能體獲得的經(jīng)驗(yàn)et=(st,at,rt,st+1)存入回放記憶單元中。回放記憶單元的容量有一定的限制,存滿后,存入新的經(jīng)驗(yàn)時(shí)會(huì)隨機(jī)替換掉舊的經(jīng)驗(yàn)。訓(xùn)練時(shí),每次從回放記憶單元中隨機(jī)采樣,用小批量的樣本對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,更新網(wǎng)絡(luò)參數(shù)。
但DQL 根據(jù)式(30)計(jì)算目標(biāo)Q值時(shí),每次都選擇下一個(gè)狀態(tài)中最大的Q值,且選擇和評(píng)價(jià)動(dòng)作都基于目標(biāo)Q 網(wǎng)絡(luò)的參數(shù)θ?,這會(huì)使Q值被高估。
DDQL 算法針對(duì)上述問(wèn)題進(jìn)行改進(jìn)。在DDQL 算法中,Q 網(wǎng)絡(luò)φ中的參數(shù)θ用來(lái)選擇Q值最大的動(dòng)作,目標(biāo)Q 網(wǎng)絡(luò)的參數(shù)為θ?用來(lái)評(píng)估最優(yōu)動(dòng)作的Q值,將動(dòng)作選擇和策略評(píng)估分開(kāi)。目標(biāo)Q值[23]為
誤差函數(shù)定義為
DDQL 算法的其他方面與DQL 一致,其算法框架如圖2 所示。
DDQL 算法分為離線訓(xùn)練和在線運(yùn)行2 個(gè)階段。其中,離線訓(xùn)練階段需要進(jìn)行許多回合,對(duì)Q網(wǎng)絡(luò)進(jìn)行訓(xùn)練,在選擇動(dòng)作的時(shí)候使用的是ε-貪心策略,如算法1 所示。ε-貪心策略是指,對(duì)于探索利用率ε∈[0,1],以ε的概率隨機(jī)選擇動(dòng)作,以(1 ?ε)的概率選擇Q值最大的動(dòng)作。在在線運(yùn)行階段,為了減少運(yùn)行時(shí)間,提升收斂速度,不對(duì)Q 網(wǎng)絡(luò)參數(shù)進(jìn)行更新,采用貪心策略選擇Q值最大的動(dòng)作[21],如算法2 所示。
算法1DDQL 訓(xùn)練階段流程
輸入系統(tǒng)環(huán)境參數(shù)、任務(wù)參數(shù)和DDQL 算法參數(shù)
輸出當(dāng)前Q 網(wǎng)絡(luò)參數(shù)θ
圖2 DDQL 算法框架
算法2DDQL 在線運(yùn)行階段流程
輸入系統(tǒng)環(huán)境參數(shù)、任務(wù)參數(shù)、DDQL 算法參數(shù)和當(dāng)前Q 網(wǎng)絡(luò)參數(shù)θ、當(dāng)前狀態(tài)s1
輸出最終狀態(tài)sMaxStep+1
為驗(yàn)證本文提出的基于DDQL 的求解方法的效果,將RA、GA、PSO 算法、DQL 算法作為對(duì)比算法。以下對(duì)幾種對(duì)比算法進(jìn)行簡(jiǎn)要介紹。
1) RA:隨機(jī)選擇EG 與資源進(jìn)行分配,直到滿足約束條件為止。
2) GA:貪心策略是給每個(gè)任務(wù)分配盡量小的EG 發(fā)射功率和ES 時(shí)鐘頻率。首先給每個(gè)任務(wù)分配Pmin的EG 發(fā)射功率和Fmin的ES 時(shí)鐘頻率,若無(wú)法滿足約束條件,再依次給每個(gè)任務(wù)按照與DDQL 算法相同的步長(zhǎng)增加分配的資源,直到滿足約束條件為止。
3) PSO 算法:PSO 算法是一種模擬鳥(niǎo)類行為的群體智能優(yōu)化算法。首先初始化一群例子,粒子具有位置、速度和適應(yīng)度特征,每個(gè)粒子的位置代表一個(gè)可能的解。在每次迭代中,粒子通過(guò)個(gè)體極值Pbest 和群體極值Gbest 更新自身速度,通過(guò)速度改變位置,重新計(jì)算適應(yīng)度,并更新Pbest 和Gbest。
每個(gè)粒子的位置即為DDQL 算法中定義的狀態(tài)s,共N維,N=3K。因此,對(duì)粒子的位置、速度等進(jìn)行如下定義。
其中,n∈[1,N]代表維度編號(hào);ω為慣性因子,其取值范圍為非負(fù);c1,c2為加速常數(shù),前者為每個(gè)粒子的個(gè)體學(xué)習(xí)因子,后者為社會(huì)學(xué)習(xí)因子,取值范圍均為非負(fù);r1,r2為2 個(gè)[0,1]內(nèi)的隨機(jī)數(shù)。
之后,檢查每個(gè)粒子每一維度的速度,若超出[vmin,vmax]的范圍,則對(duì)速度進(jìn)行修正。位置更新式為
適應(yīng)度函數(shù)是評(píng)價(jià)粒子位置的指標(biāo),最優(yōu)位置是適應(yīng)度最大的位置。適應(yīng)度的定義與DDQL 算法中的獎(jiǎng)勵(lì)相同,即式(25)。
4) DQL 算法:已在3.3 節(jié)中進(jìn)行介紹,在此不再贅述。
針對(duì)本文方法和對(duì)比算法的時(shí)間復(fù)雜度分析如下。
RA。設(shè)找到可行解需要的迭代步數(shù)為TRA,則RA 的時(shí)間復(fù)雜度為O(TRAK)。由于RA 是隨機(jī)進(jìn)行資源分配,TRA的隨機(jī)性也較大。
GA。設(shè)找到可行解需要的迭代步數(shù)為TGA,則GA 的時(shí)間復(fù)雜度為O(TGAK)。在任務(wù)數(shù)較小、資源不緊缺的情況下,TGA一般也較小,隨著任務(wù)數(shù)的增多,需要更多的迭代次數(shù)以找到滿足約束的可行解。
PSO 算法。設(shè)迭代總步數(shù)為TPSO,則PSO 算法的時(shí)間復(fù)雜度為O(TPSOMK)。
DDQL 算法。訓(xùn)練階段的時(shí)間復(fù)雜度需要考慮訓(xùn)練Q 網(wǎng)絡(luò)的時(shí)間復(fù)雜度和訓(xùn)練Q 網(wǎng)絡(luò)的次數(shù)兩部分。在訓(xùn)練Q 網(wǎng)絡(luò)的過(guò)程中,需要對(duì)每相鄰兩層神經(jīng)元之間的連接權(quán)重進(jìn)行更新,設(shè)Q 網(wǎng)絡(luò)的層數(shù)為nl,第i層中神經(jīng)元的個(gè)數(shù)為ni,每次訓(xùn)練中的迭代次數(shù)為Tudp,則訓(xùn)練一次Q 網(wǎng)絡(luò)的時(shí)間復(fù)雜度為記回合數(shù)為TEpi,每回合中步數(shù)為TStep,則訓(xùn)練Q 網(wǎng)絡(luò)的次數(shù)為TEpiTStep,因此,DDQL 訓(xùn)練階段的時(shí)間復(fù)雜度使用早停、隨機(jī)失活等技巧來(lái)優(yōu)化神經(jīng)網(wǎng)絡(luò)訓(xùn)練,會(huì)對(duì)時(shí)間復(fù)雜度產(chǎn)生一定影響,因此以上結(jié)果為近似結(jié)果。DDQL 算法運(yùn)行階段的時(shí)間復(fù)雜度為O(TStepK)。DDQL 算法在線訓(xùn)練階段的時(shí)間復(fù)雜度較高,但將Q 網(wǎng)絡(luò)訓(xùn)練好后,運(yùn)行階段不需要更新Q 網(wǎng)絡(luò)且只需進(jìn)行一個(gè)回合,時(shí)間復(fù)雜度低,運(yùn)行時(shí)間短,可以滿足實(shí)時(shí)網(wǎng)絡(luò)條件下對(duì)在線決策時(shí)間的要求。因此,本文在對(duì)比不同算法的時(shí)間復(fù)雜度時(shí),使用運(yùn)行階段的時(shí)間復(fù)雜度。
DQL 算法。算法的時(shí)間復(fù)雜度與DDQL 算法相同。
綜上所述,各算法的時(shí)間復(fù)雜度如表1 所示。
表1 算法時(shí)間復(fù)雜度
在忽略任務(wù)數(shù)對(duì)迭代步數(shù)影響的情況下,RA、GA、PSO、DDQL、DQL 等算法的時(shí)間復(fù)雜度和任務(wù)數(shù)K成線性關(guān)系,相比于具有指數(shù)級(jí)時(shí)間復(fù)雜度的暴力搜索算法,時(shí)間復(fù)雜度顯著下降。
本章對(duì)提出的基于DDQL 的資源分配方法進(jìn)行仿真實(shí)驗(yàn)。首先,對(duì)仿真場(chǎng)景和仿真參數(shù)進(jìn)行說(shuō)明;然后,展示仿真結(jié)果,并對(duì)其進(jìn)行分析。
在仿真實(shí)驗(yàn)中,考慮多邊緣服務(wù)器、多邊緣網(wǎng)關(guān)、多終端設(shè)備的仿真場(chǎng)景,如圖3 所示??紤]900 m×900 m 的網(wǎng)絡(luò)覆蓋范圍,其中包含4 個(gè)邊緣服務(wù)器,11 個(gè)邊緣網(wǎng)關(guān),以及若干終端設(shè)備,其數(shù)量可設(shè)定,位置隨機(jī)。邊緣網(wǎng)關(guān)部署在基站側(cè),每個(gè)基站的覆蓋范圍的半徑為200 m,圖3 中以維諾圖的形式表示基站的覆蓋范圍。邊緣服務(wù)器與邊緣網(wǎng)關(guān)連接關(guān)系固定,邊緣網(wǎng)關(guān)與終端設(shè)備的連接關(guān)系需要后續(xù)通過(guò)算法進(jìn)行決策。
圖3 仿真場(chǎng)景
根據(jù)文獻(xiàn)[28-31]設(shè)置默認(rèn)情況下的系統(tǒng)參數(shù),如表2 所示。假設(shè)每個(gè)ED 發(fā)起一個(gè)任務(wù),其余的任務(wù)相關(guān)的參數(shù)隨機(jī)生成,在所給范圍內(nèi)均勻分布。
表2 系統(tǒng)參數(shù)設(shè)置
根據(jù)文獻(xiàn)[32]設(shè)置DDQL 和DQL 算法參數(shù),如表3 所示。表4 為PSO 算法參數(shù)設(shè)置。
表3 DDQL 和DQL 算法參數(shù)設(shè)置
表4 PSO 算法參數(shù)設(shè)置
本文通過(guò)MATLAB 建立數(shù)值仿真環(huán)境評(píng)估所提算法的性能。
DDQL 和DQL 算法需要在實(shí)際運(yùn)行前進(jìn)行Q網(wǎng)絡(luò)的訓(xùn)練。圖4 為2 種算法在訓(xùn)練過(guò)程中的Q值變化情況。Q值起初都在0 附近,隨著回合數(shù)增加,Q值先逐漸增加,而后趨于穩(wěn)定。DDQL 算法的Q值在100 回合左右收斂,DQL 算法的Q值在300回合左右收斂。相比于DQL 算法,DDQL 算法在訓(xùn)練階段具有更快的收斂速度。并且,DQL 算法的Q值明顯大于DDQL 算法的Q值,反映出DQL 算法存在Q值過(guò)估計(jì)的問(wèn)題。
圖4 DDQL 算法和DQL 算法訓(xùn)練階段Q 值變化情況
接下來(lái)對(duì)算法在在線運(yùn)行階段的性能進(jìn)行評(píng)估與分析。
圖5 為不同算法在不同任務(wù)數(shù)下的收斂步數(shù)對(duì)比。其中,GA 的收斂步數(shù)是指在找到可行解之前的迭代次數(shù),找到可行解后算法停止。PSO 算法、DQL 算法、DDQL 算法的收斂步數(shù)是指結(jié)果趨于穩(wěn)定前經(jīng)過(guò)的迭代次數(shù)。GA、PSO 算法在任務(wù)數(shù)為10 時(shí),收斂步數(shù)很少,但隨著任務(wù)數(shù)增加,GA 的收斂步數(shù)迅速增加,而PSO 的收斂步數(shù)也在任務(wù)數(shù)大于60 之后明顯增加。這是因?yàn)殡S著任務(wù)數(shù)增加,資源逐漸緊張,需要更多的步數(shù)來(lái)搜索可行解并優(yōu)化至收斂。相比之下,在任務(wù)數(shù)少時(shí),DDQL 算法和DQL 算法的收斂步數(shù)略多于GA 與PSO,但隨著任務(wù)數(shù)增加,DDQL 算法和DQL 算法的收斂步數(shù)也基本穩(wěn)定,在狀態(tài)與動(dòng)作維度較高的情況下也顯示出了良好的收斂性。并且,DDQL 算法的收斂步數(shù)總體上少于DQL 算法。
圖5 不同算法收斂步數(shù)對(duì)比
圖6~圖8 是任務(wù)數(shù)為50 時(shí),PSO、DQL 和DDQL算法運(yùn)行階段的變化情況。圖6 為任務(wù)平均能耗變化情況。PSO 雖然收斂速度快,在10 步就收斂,但是過(guò)早地陷入了局部最優(yōu)解,最終任務(wù)平均能耗為0.356 J。由于PSO 算法會(huì)維護(hù)歷史群體最優(yōu)值,所以迭代過(guò)程中,任務(wù)平均能耗只會(huì)單調(diào)減少,不會(huì)出現(xiàn)起伏波動(dòng)。DQL 算法的收斂步數(shù)略多,在38 步收斂,最終任務(wù)平均能耗為0.321 J。DDQL 算法的收斂步數(shù)在PSO 算法和DQL 算法之間,DDQL 算法在第21 步收斂,最終任務(wù)平均能耗為0.291 J,比PSO 算法少18.3%,比DQL 算法少9.4%。
圖7 為任務(wù)平均獲得的EG 發(fā)射功率與ES 時(shí)鐘頻率變化情況,其收斂情況與圖6 相吻合。最終,在PSO、DQL 和DDQL 算法下,任務(wù)平均獲得的EG發(fā)射功率分別為0.52 W、0.64 W 和0.59 W,ES 時(shí)鐘頻率分別為1.15 GHz、1.20 GHz 和1.09 GHz。
圖6 任務(wù)平均能耗變化情況
圖7 資源分配變化情況
圖8 為任務(wù)平均時(shí)延與傳輸速率變化情況。3 種算法經(jīng)過(guò)迭代優(yōu)化,在任務(wù)平均能耗減小的同時(shí),任務(wù)平均時(shí)延減少,任務(wù)平均傳輸速率增加,提升了用戶QoS,系統(tǒng)獲得了更好的性能。但DQL 用多于DDQL 算法的任務(wù)平均能耗,獲得了更低的任務(wù)平均時(shí)延和更高的傳輸速率,反映了能耗與性能存在一定的折中關(guān)系。
圖8 任務(wù)平均時(shí)延與傳輸速率變化情況
圖9 為任務(wù)數(shù)為50 時(shí),任務(wù)平均能耗與任務(wù)需要的CPU 時(shí)鐘周期數(shù)和任務(wù)傳輸數(shù)據(jù)量的關(guān)系圖。每個(gè)算法在每個(gè)測(cè)試任務(wù)數(shù)據(jù)量下進(jìn)行100 組實(shí)驗(yàn),對(duì)結(jié)果取平均值?;贒DQL 的算法比基于RA、GA、PSO 和DQL 的算法分別降低了46.0%、10.2%、18.6%和5.4%的任務(wù)平均能耗?;贒DQL的資源分配方法能有效降低任務(wù)平均能耗。
圖9 任務(wù)平均能耗與任務(wù)數(shù)據(jù)量關(guān)系
圖10 為任務(wù)平均能耗隨任務(wù)數(shù)變化情況。由圖9 可以看出,任務(wù)需要的CPU 時(shí)鐘周期數(shù)和任務(wù)傳輸數(shù)據(jù)量對(duì)任務(wù)平均能耗影響較大,因此,在進(jìn)行任務(wù)平均能耗與任務(wù)數(shù)關(guān)系的仿真實(shí)驗(yàn)時(shí),將任務(wù)需要的CPU 時(shí)鐘周期數(shù)均設(shè)為300 Mcycle,任務(wù)傳輸數(shù)據(jù)量均設(shè)為6 MB。在每個(gè)測(cè)試任務(wù)數(shù)下,進(jìn)行100 組實(shí)驗(yàn),對(duì)結(jié)果取平均值。由圖10可以看出,隨著任務(wù)數(shù)增加,任務(wù)平均能耗也增加,但增長(zhǎng)幅度較小。不同的算法對(duì)最終的任務(wù)平均能耗影響較大?;贒DQL 的算法比基于RA、GA、PSO 和DQL 的算法分別降低了65.0%、21.5%、37.4%和5.0%的任務(wù)平均能耗。
圖10 任務(wù)平均能耗與任務(wù)數(shù)關(guān)系
綜上,本文通過(guò)仿真實(shí)驗(yàn),驗(yàn)證了提出的基于DDQL 的求解方法對(duì)解決多任務(wù)資源分配問(wèn)題的有效性。訓(xùn)練過(guò)程與運(yùn)行結(jié)果能夠收斂,在訓(xùn)練階段具有比DQL 算法更快的收斂速度;在運(yùn)行階段,當(dāng)任務(wù)數(shù)較多時(shí),相比于GA、PSO 算法,DDQL算法收斂步數(shù)優(yōu)勢(shì)明顯。運(yùn)行中,DDQL 算法在降低任務(wù)平均能耗的同時(shí),也能對(duì)任務(wù)平均時(shí)延與傳輸速率進(jìn)行一定程度的優(yōu)化。相比基于RA、GA、PSO 算法、DQL 算法的方法,基于DDQL 算法的邊緣網(wǎng)絡(luò)資源分配方法能有效降低任務(wù)平均能耗。
本文對(duì)移動(dòng)邊緣網(wǎng)絡(luò)資源分配方法進(jìn)行研究。考慮任務(wù)完成時(shí)延限制和通信、計(jì)算、存儲(chǔ)資源限制等約束條件,建立任務(wù)平均能耗最小化的資源分配模型,并提出基于DDQL 的求解方法,相比基于RA、GA、PSO、DQL 的多種求解方法,降低了至少5%的任務(wù)平均能耗。本文提出的算法為移動(dòng)邊緣網(wǎng)絡(luò)中低能耗資源分配方法提供了一種有借鑒意義的參考。
本文還存在一些不足之處,需進(jìn)一步改進(jìn)與優(yōu)化。例如,在優(yōu)化模型上,需要考慮在云中心、邊緣節(jié)點(diǎn)、終端設(shè)備協(xié)同配合的場(chǎng)景下,對(duì)計(jì)算卸載位置、各類資源分配等進(jìn)行聯(lián)合決策與優(yōu)化;同時(shí)考慮上下行流量的傳輸過(guò)程,建立更通用的模型。在算法優(yōu)化上,可考慮使用能直接對(duì)連續(xù)動(dòng)作空間進(jìn)行優(yōu)化的方法,來(lái)避免動(dòng)作步長(zhǎng)對(duì)結(jié)果產(chǎn)生的影響。例如,目前獎(jiǎng)勵(lì)設(shè)置采用的是約束判別方法,后續(xù)需要考慮更為高級(jí)的處理方法,如將約束疊加至目標(biāo)中。此外,目前DDQL 算法的超參數(shù)靠人工設(shè)定,后續(xù)需要研究算法的加速機(jī)制和參數(shù)自適應(yīng)設(shè)置方式,并探討將算法用于實(shí)際系統(tǒng)中的可行性。