周 率, 韓 韌
(上海理工大學(xué)光電信息與計(jì)算機(jī)工程學(xué)院, 上海 200093)
隨著《車(chē)聯(lián)網(wǎng)(智能網(wǎng)聯(lián)汽車(chē))產(chǎn)業(yè)發(fā)展行動(dòng)計(jì)劃》通知的下發(fā),中國(guó)車(chē)聯(lián)網(wǎng)發(fā)展的戰(zhàn)略目標(biāo)已基本確定,“長(zhǎng)三角三省一市統(tǒng)籌智能網(wǎng)聯(lián)汽車(chē)產(chǎn)業(yè)發(fā)展規(guī)劃”的簽署進(jìn)一步加快了中國(guó)車(chē)聯(lián)網(wǎng)的發(fā)展。 5G 網(wǎng)絡(luò)基礎(chǔ)設(shè)施的不斷完善以及國(guó)內(nèi)外車(chē)聯(lián)應(yīng)用的涌現(xiàn),使得車(chē)輛對(duì)計(jì)算資源和服務(wù)延遲的要求日益增加,現(xiàn)有車(chē)輛配備的計(jì)算資源已無(wú)法滿足車(chē)聯(lián)應(yīng)用的需求,這種日益迫切的要求需要將車(chē)聯(lián)應(yīng)用服務(wù)遷移到具有更高計(jì)算能力的云端服務(wù)器上,但是傳統(tǒng)的云計(jì)算不能滿足車(chē)聯(lián)網(wǎng)下的低延遲要求,因此需要考慮一種稱(chēng)為車(chē)載邊緣計(jì)算(Vehicular Edge Computing,VEC)的計(jì)算范式。
在VEC 中,車(chē)輛將服務(wù)遷移到靠近車(chē)輛的路側(cè)單元(Road Side Unit,RSU)上,可以享受RSU 帶來(lái)的低延遲、高帶寬和充足的計(jì)算資源[1]。 然而,盲目的遷移有時(shí)會(huì)影響服務(wù)性能,如:對(duì)于一個(gè)固定的車(chē)輛,將服務(wù)遷移到最近的RSU 在短期內(nèi)可以帶來(lái)良好的服務(wù)性能,但是考慮到車(chē)輛的移動(dòng)性,該種策略可能會(huì)導(dǎo)致頻繁遷移,進(jìn)一步導(dǎo)致服務(wù)頻繁中斷,因此一個(gè)最佳的服務(wù)遷移策略應(yīng)該考慮車(chē)輛的移動(dòng)性。 服務(wù)遷移也伴隨著各種成本,包括計(jì)算成本、遷移成本和能源消耗,以全面評(píng)估遷移的效果。 考慮到車(chē)輛的移動(dòng)性,專(zhuān)注于短期的性能提升可能會(huì)導(dǎo)致頻繁遷移因而帶來(lái)巨大的成本,需要考慮遷移帶來(lái)的長(zhǎng)期累積回報(bào),以權(quán)衡整體性能的提高。 即當(dāng)車(chē)輛遠(yuǎn)離RSU 時(shí),如果服務(wù)性能仍然處于可接受的水平,一個(gè)最佳的遷移策略應(yīng)該權(quán)衡服務(wù)遷移帶來(lái)的收益與開(kāi)銷(xiāo)。
為了提高服務(wù)遷移的性能表現(xiàn),減少服務(wù)的延遲與開(kāi)銷(xiāo),文獻(xiàn)[2]研究了最小化移動(dòng)設(shè)備和邊緣服務(wù)器的總能量消耗,通過(guò)啟發(fā)式算法產(chǎn)生了一個(gè)接近最優(yōu)的解決方案;文獻(xiàn)[3]提出在卸載比例和子載波分配時(shí),必須考慮各種系統(tǒng)限制,包括延遲和子載波資源限制,以減少移動(dòng)設(shè)備的能耗,并從混合整數(shù)規(guī)劃(Mixed Integer Programming,MIP)問(wèn)題中生成多對(duì)一匹配和線性編程的子問(wèn)題,以解決子載波分配問(wèn)題;文獻(xiàn)[4]研究了下行鏈路資源分配、卸載決策和計(jì)算資源分配的聯(lián)合優(yōu)化,考慮了包括數(shù)據(jù)傳輸和任務(wù)計(jì)算的總成本,并建模為混合整數(shù)線性規(guī)劃(MILP)問(wèn)題;文獻(xiàn)[5]提出了李雅普諾夫優(yōu)化的卸載決策,可以減少平均響應(yīng)時(shí)間,同時(shí)降低移動(dòng)設(shè)備的能耗;文獻(xiàn)[6]評(píng)估了計(jì)算卸載的財(cái)務(wù)成本,并建模為決策和資源聯(lián)合優(yōu)化的MILP 問(wèn)題;文獻(xiàn)[7]以合作博弈理論為基礎(chǔ),通過(guò)終端設(shè)備和邊緣云的協(xié)同合作來(lái)優(yōu)化系統(tǒng)的性能,并提出了一種基于交易的計(jì)算卸載技術(shù);文獻(xiàn)[8]提出了Follow-Me Chain 算法來(lái)解決服務(wù)功能鏈的問(wèn)題;文獻(xiàn)[9]研究了任務(wù)卸載,考慮了能耗和服務(wù)延遲的約束,并使用了二元卸載決策;文獻(xiàn)[10]提出了一個(gè)基于強(qiáng)化學(xué)習(xí)的離線無(wú)線接入網(wǎng)絡(luò)分片解決方案和一個(gè)低復(fù)雜度的啟發(fā)式算法,以滿足不同分片的通信資源需求,使得資源利用率最大化;文獻(xiàn)[10]將遷移問(wèn)題建模為一維馬爾科夫決策過(guò)程(Markov Decision Process,MDP),并考慮了服務(wù)器和設(shè)備之間的歐氏距離;文獻(xiàn)[12]考慮了二維MDP 模型并提出了基于深度強(qiáng)化學(xué)習(xí)的遷移方案,使得時(shí)延與能耗最小。
盡管現(xiàn)有的工作在服務(wù)遷移策略方面取得了很大的進(jìn)展,但仍需要進(jìn)一步探索,包括遷移過(guò)程中成本的建模以及車(chē)輛的移動(dòng)性。 本文將車(chē)輛的服務(wù)遷移過(guò)程建模為MDP,同時(shí)考慮了包括計(jì)算成本、遷移成本和能耗的成本,此外,本文還使用行駛速度代表示車(chē)輛的運(yùn)動(dòng)狀態(tài),并提出了一種基于強(qiáng)化學(xué)習(xí)的遷移算法,該算法可以有效地解決傳統(tǒng)MDP 中維度過(guò)高的問(wèn)題,并利用Actor-Critic 網(wǎng)絡(luò)和熵來(lái)確保收斂性和可探索性。 最后,本文基于真實(shí)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)并對(duì)算法進(jìn)行評(píng)估。
車(chē)輛行駛隨機(jī)分布在城市區(qū)域的道路中,道路配備了若干通信范圍相等的RSU,并且每個(gè)RSU 都具有相同的計(jì)算能力。 用E={e1,e2,…,ei} 表示所有RSU 的集合,用U={u1,u2,…,uj}表示所有車(chē)輛的合集,每個(gè)車(chē)輛u∈U都有一個(gè)計(jì)算任務(wù)且可以選擇在本地計(jì)算或者通過(guò)無(wú)線網(wǎng)絡(luò)遷移到RSU 上。車(chē)輛移動(dòng)時(shí)可以連接到任意一個(gè)路側(cè)單元e∈E。為了保證車(chē)輛采取遷移決策時(shí)的滿意程度,本文用遷移成本,計(jì)算成本,能源消耗等相關(guān)指標(biāo)來(lái)衡量服務(wù)遷移過(guò)程中產(chǎn)生的開(kāi)支。
本文假定車(chē)輛通過(guò)V2X 的蜂窩網(wǎng)絡(luò)和毫米波與RSU 進(jìn)行通訊。
1.1.1 5G 蜂窩網(wǎng)絡(luò)
根據(jù)香農(nóng)公式,在假定被高斯白噪聲干擾的信道中,理論的最大信息傳輸速率為公式(1):
其中,B是信道帶寬;S是信道內(nèi)所傳輸信號(hào)的平均功率;N是信道內(nèi)部的高斯噪聲功率。
因此,車(chē)輛u和路側(cè)單元e之間的數(shù)據(jù)傳輸率可以表示為式(2):
其中,Bc是信道帶寬;Hu,e是車(chē)輛u的車(chē)載通信設(shè)備與其對(duì)應(yīng)的路側(cè)單元e的傳輸功率;du,e表示車(chē)輛u與路側(cè)單元e的距離;h表示瑞利衰落因子;Nc是高斯噪聲功率。
1.1.2 毫米波模式
NR-V2X 采用毫米波模式,本文假定每輛車(chē)輛都配備有定向天線陣列,并且采用了定向波束形成來(lái)增強(qiáng)毫米波信號(hào)的傳播。 為了最大化提高毫米波天線的指向性增益,本文假定對(duì)發(fā)射器和接收器進(jìn)行光束準(zhǔn)直,因此可以將定向天線模式近似為理想的水平面上的扇形模型[13],天線增益可以建模為式(3):
其中,η為當(dāng)前天線的角度與當(dāng)天線增益達(dá)到峰值時(shí)的角度之差,即天線轉(zhuǎn)向方向的可容忍對(duì)準(zhǔn)誤差;η′是射束寬度;gm和gs分別是主瓣和旁瓣天線的定向增益。
在上述條件下,本文將毫米波信道帶寬表示為式(4):
其中,Bm是毫米波信號(hào)帶寬。
車(chē)輛天線與基站天線的信噪比為式(5)[14]:
其中,pu是車(chē)輛u配備的毫米波收發(fā)器的傳輸功率;Nm是噪聲功率譜密度;du,e表示車(chē)輛u和路側(cè)單元e間的曼哈頓距離;ρ~N0,σ2() 是以分貝為單位的陰影衰落模型;而σ為標(biāo)準(zhǔn)偏差。
1.1.3 通信模型
車(chē)輛與RSU 的數(shù)據(jù)傳輸速率可以表示為式(6):
其中,λc,λm分別為代表是否使用5G 蜂窩網(wǎng)絡(luò)或NR 模式進(jìn)行通訊的二元變量。
當(dāng)λc=1 時(shí),假設(shè)車(chē)輛u使用5G 蜂窩網(wǎng)絡(luò)作為通訊方式,λm=0;反之當(dāng)λc=0 時(shí),λm=1 認(rèn)為車(chē)輛u使用NR 模式作為通訊方式。
本文使用了平臺(tái)服務(wù)(PaaS) 范式,并采用Docker 技術(shù),該技術(shù)具有增強(qiáng)應(yīng)用程序可移植性的機(jī)制,可以讓?xiě)?yīng)用程序無(wú)環(huán)境差異地部署在各個(gè)地方,因此本文將服務(wù)遷移成本建模為Docker 服務(wù)鏡像遷移成本。 假定每個(gè)車(chē)輛都包含計(jì)算任務(wù),且任務(wù)定義為一個(gè)二元組:Tu= {pu,Su},其中pu是完成任務(wù)Tu所需的計(jì)算資源,Su代表車(chē)輛u執(zhí)行的服務(wù)鏡像大小。
本文采用了部分遷移而非二元遷移,并假定車(chē)輛u卸載到遠(yuǎn)程路側(cè)單元e的服務(wù)比例為, 表示為式(7):
其中,表示車(chē)輛u卸在本地執(zhí)行的服務(wù)比例。
據(jù)服務(wù)鏡像大小,可以得出在路側(cè)單元e執(zhí)行的服務(wù)的鏡像大小,式(8):
因此遷移成本如式(9):
其中,λc= {0,1},λm= {0,1},λc+λm=1
1.3.1 本地車(chē)載計(jì)算
當(dāng)車(chē)輛u在本地計(jì)算時(shí),計(jì)算開(kāi)銷(xiāo)的時(shí)間取決于其可用資源。 本文假設(shè)是車(chē)輛u的車(chē)載計(jì)算資源,則本地計(jì)算時(shí)間的計(jì)算公式(10):
1.3.2 遠(yuǎn)程VEC 計(jì)算
當(dāng)本地計(jì)算資源緊張或者計(jì)算負(fù)載過(guò)高時(shí),可以將服務(wù)卸載到遠(yuǎn)程路側(cè)單元上進(jìn)行計(jì)算。 在許多包括道路檢測(cè)和智能制動(dòng)在內(nèi)的應(yīng)用中,因?yàn)槠溏R像的大小遠(yuǎn)大于從路側(cè)單元傳輸回來(lái)的數(shù)據(jù)大小,所以本文假定路側(cè)單元返回的計(jì)算結(jié)果的接收時(shí)間忽略不計(jì),則車(chē)輛u的遠(yuǎn)程計(jì)算時(shí)間表示為公式(11):
其中,表示路側(cè)單元分配給車(chē)輛u的計(jì)算資源,pu是完成任務(wù)Tu所需的計(jì)算資源。
本文假定車(chē)輛u卸載到遠(yuǎn)程路側(cè)單元e的服務(wù)比例為, 車(chē)輛u卸載本地執(zhí)行的服務(wù)比例為,因此計(jì)算成本可以表示為式(12):
當(dāng)本地計(jì)算資源緊張或者計(jì)算負(fù)載過(guò)高時(shí),可以將服務(wù)卸載到路側(cè)單元上。 在這種情況下,傳輸能耗可以由公式(13)計(jì)算:
其中,?e表示車(chē)輛u在卸載時(shí)的平均傳輸功率;是服務(wù)鏡像的大??;Cu,e是車(chē)輛u可訪問(wèn)的數(shù)據(jù)傳輸速率。
服務(wù)遷移策略應(yīng)該考慮若干成本,在服務(wù)遷移過(guò)程中對(duì)于成本的優(yōu)化可以采用MDP 進(jìn)行解決[11]。 MDP 由四元組構(gòu)成<A,S,R,P >, 其中A代表智能體的所有行動(dòng),S是智能體可以感知的環(huán)境狀態(tài),P是在時(shí)隙t狀態(tài)下的行動(dòng)將導(dǎo)致下一個(gè)時(shí)隙t+1 的狀態(tài)的概率,R是一個(gè)實(shí)數(shù),代表獎(jiǎng)勵(lì)或懲罰[15]。
2.1.1 動(dòng)作空間
本文將時(shí)隙t的行動(dòng)αt∈A定義為
2.1.2 獎(jiǎng)勵(lì)函數(shù)
由于強(qiáng)化學(xué)習(xí)的根本目標(biāo)在于提升智能體的長(zhǎng)期累積回報(bào),因此合理的獎(jiǎng)勵(lì)函數(shù)能夠提升訓(xùn)練速度與性能表現(xiàn)。 長(zhǎng)期累積回報(bào)的定義如式(14):
其中,r(st) 是時(shí)隙t中獲得的獎(jiǎng)勵(lì)值,γ表示折扣率,用于計(jì)算未來(lái)獎(jiǎng)勵(lì)值的現(xiàn)值。
本文的獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)如式(15) :
其中,ΔGmig(t) 、ΔGcomp(t) 和ΔP(t) 分別表示時(shí)隙t遷移成本、計(jì)算成本和能耗的下降百分比。
以ΔP(t) 為例,如式(16)定義:
本文采用基于Soft Actor-Critic 的強(qiáng)化學(xué)習(xí)算法,該算法考慮了預(yù)期收益和熵之間的最大化效益,因此最優(yōu)遷移策略定義為式(17):
其中,at代表智能體在時(shí)隙t采取的行動(dòng);st代表智能體在時(shí)隙t的狀態(tài);γ表示獎(jiǎng)勵(lì)值折扣率;溫度參數(shù)α決定了熵值的相對(duì)重要性;H(π(·∣st))代表熵。
V值表示當(dāng)前環(huán)境狀態(tài)下開(kāi)始,未來(lái)能獲得獎(jiǎng)勵(lì)的期望值,用于表現(xiàn)當(dāng)前環(huán)境狀態(tài)的好壞程度;Q值表示在選取某個(gè)行動(dòng)后,未來(lái)能獲得獎(jiǎng)勵(lì)的期望值,該值衡量的是當(dāng)前選取的行動(dòng)的好壞程度。V值和Q值之間的關(guān)系如圖1 所示。
圖1 Q 值與V 值關(guān)系圖Fig. 1 The relationship between Q value and V value
根據(jù)貝爾曼方程,V值和Q值可以表示為式(18) 和式(19):
2.2.1 Critic 網(wǎng)絡(luò)更新
傳統(tǒng)強(qiáng)化學(xué)習(xí)中,由于維度過(guò)高會(huì)引發(fā)訓(xùn)練困難的問(wèn)題[16],因此引入神經(jīng)網(wǎng)絡(luò)進(jìn)行近似,本文提出的算法網(wǎng)絡(luò)由一個(gè)Actor 網(wǎng)絡(luò)和兩個(gè)Critic、目標(biāo)Critic 網(wǎng)絡(luò)構(gòu)成。 Critic 網(wǎng)絡(luò)的損失函數(shù)可以表示為式(20):
其中,θk為Critic 網(wǎng)絡(luò)參數(shù);D表示重放緩沖區(qū), 可以通過(guò)更新;Qθk(st,at) 是時(shí)隙t的狀態(tài)行動(dòng)價(jià)值;y表示目標(biāo)網(wǎng)絡(luò)的Q值,可以表示為式(21):
根據(jù)式(20)和式(21),Critic 網(wǎng)絡(luò)的更新公式為式(22):
并根據(jù)式(23)更新目標(biāo)Critic 網(wǎng)絡(luò):
其中,θk為目標(biāo)Critic 網(wǎng)絡(luò)的參數(shù),λ為網(wǎng)絡(luò)的更新比例。
2.2.2 Actor 網(wǎng)絡(luò)更新Actor 網(wǎng)絡(luò)的損失函數(shù)通過(guò)式(24)計(jì)算:
其中,和分別為均值和方差,ε~N(ε) 是正態(tài)分布下的噪聲參數(shù)。
策略參數(shù)可以通過(guò)式(26)更新:
其中,是從策略中采樣得到的,因此可以將其微分。
車(chē)輛服務(wù)遷移算法見(jiàn)表1。
表1 車(chē)輛服務(wù)遷移算法Tab. 1 Vehicular service migration algorithm
為了評(píng)估所提出的算法在真實(shí)場(chǎng)景中的性能,本文采用微軟亞洲研究院在2007 年4 月至2012 年8 月期間在Geolife 項(xiàng)目中收集的GPS 軌跡數(shù)據(jù)集,該數(shù)據(jù)集由一連串帶有經(jīng)度、緯度和高度的時(shí)間戳的點(diǎn),包含的軌跡總距離為1 292 951 km,總時(shí)間為50 176 h。 同時(shí)本文使用阿里巴巴集群數(shù)據(jù)來(lái)模擬真實(shí)場(chǎng)景中RSU 的負(fù)載,該數(shù)據(jù)集中包含每臺(tái)機(jī)器的資源使用情況、容器的元信息和事件信息以及每個(gè)容器的資源使用情況。
本文的仿真實(shí)驗(yàn)硬件平臺(tái)配置:Intel i5-12500,32 GB DDR4 內(nèi)存和NVIDIA GTX 3060;軟件平臺(tái)基于Python3.7.9,OpenAI-gym 和Manjaro。 本文將通信范圍設(shè)定為200 m,實(shí)驗(yàn)參數(shù)設(shè)定見(jiàn)表2。
表2 實(shí)驗(yàn)參數(shù)設(shè)置Tab. 2 Experiment parameters setting
3.2.1 算法收斂性
本文首先研究學(xué)習(xí)率對(duì)提出算法的影響,將學(xué)習(xí)率設(shè)置為:0.1、0.01、0.03、0.001,采用在不同迭代次數(shù)的平均服務(wù)時(shí)延作為評(píng)價(jià)指標(biāo),平均服務(wù)時(shí)延越小,算法的表現(xiàn)也就越好。 學(xué)習(xí)率對(duì)算法收斂性影響的實(shí)驗(yàn)結(jié)果如圖2 所示,當(dāng)學(xué)習(xí)率為0.005 時(shí),在經(jīng)過(guò)9 500 次迭代后收斂到最優(yōu)值并能保持穩(wěn)定狀態(tài);當(dāng)學(xué)習(xí)率為0.001 時(shí),在經(jīng)過(guò)15 000 次迭代后收斂;當(dāng)學(xué)習(xí)率為0.1、0.01 時(shí),曲線變得極不穩(wěn)定,而且很難收斂到穩(wěn)定狀態(tài)。 因此,研究得出學(xué)習(xí)率對(duì)于算法的穩(wěn)定程度具有較高影響,這是由于學(xué)習(xí)率決定了模型權(quán)重更新的速度和幅度,對(duì)模型的收斂性具有重要影響。 過(guò)高的學(xué)習(xí)率會(huì)導(dǎo)致模型在訓(xùn)練過(guò)程中無(wú)法收斂并出現(xiàn)不穩(wěn)定的訓(xùn)練行為,使得模型的性能反而變得更差;相反,如果學(xué)習(xí)率過(guò)低,模型的權(quán)重更新會(huì)變得緩慢。
圖2 不同學(xué)習(xí)率對(duì)算法收斂性的影響Fig. 2 Effect of different learning rates on convergence
3.2.2 不同算法的服務(wù)時(shí)延對(duì)比
為了進(jìn)一步驗(yàn)證算法的可靠性,將本文采用的算法與就近遷移(Always Migrate Closely,AMC)、隨機(jī)遷移(Random)和深度Q 學(xué)習(xí)(Deep Q-Learning,DQN)算法進(jìn)行對(duì)比,以驗(yàn)證不同移動(dòng)性下算法的穩(wěn)定性及其表現(xiàn)。 算法的學(xué)習(xí)率設(shè)定為0.005,實(shí)驗(yàn)結(jié)果如圖3 所示。 隨著平均車(chē)輛移動(dòng)速度的增加,各算法的平均服務(wù)延遲都在上升,這是由于車(chē)輛行駛速度越快,離開(kāi)RSU 通信范圍的間隔也就越小,服務(wù)遷移的觸發(fā)頻率隨之上升。 本文和DQN 算法的平均服務(wù)延遲都處于較低的水準(zhǔn),同時(shí)其增長(zhǎng)速率也較為緩慢。 AMC 算法雖然每次都選擇就近的RSU,但是遷移服務(wù)時(shí)帶來(lái)的額外開(kāi)支并不能彌補(bǔ)其服務(wù)延遲。 與DQN 算法相比,本文提出的算法在移動(dòng)速度為20 km/h 時(shí)有8.6%的優(yōu)勢(shì),當(dāng)移動(dòng)速度達(dá)到60 km/h 時(shí)有15.3%的優(yōu)勢(shì),這是由于本文提出的算法具有較高的探索率,相比DQN 算法可以探索更多的遷移決策,從而使得平均服務(wù)時(shí)延上升速度較為緩慢。
圖3 不同車(chē)輛移動(dòng)速度下的平均服務(wù)延遲Fig. 3 Average service delay for different vehicle movement speeds
3.2.3 不同算法的能耗對(duì)比
對(duì)比各算法在不同車(chē)輛移動(dòng)速度下的平均能耗,實(shí)驗(yàn)結(jié)果如圖4 所示,隨著平均車(chē)輛移動(dòng)速度的增加,各算法的能耗同步上升,其中AMC 算法的上升速率最快,這是由于車(chē)輛移動(dòng)速度的上升導(dǎo)致車(chē)輛更快的離開(kāi)RSU 通信范圍,進(jìn)而頻繁觸發(fā)遷移行動(dòng),AMC 算法的能耗因此遠(yuǎn)遠(yuǎn)高于其他算法。 而Random 算法在遠(yuǎn)離RSU 后并沒(méi)有完全決定遷移,因此相比AMC 算法其能耗仍有一定優(yōu)勢(shì)。 基于強(qiáng)化學(xué)習(xí)的DQN 和本文算法具有較大的優(yōu)勢(shì),這是因?yàn)楠?jiǎng)勵(lì)函數(shù)中能耗帶來(lái)的獎(jiǎng)勵(lì)值使得算法對(duì)于遷移決策較為慎重,頻繁地觸發(fā)服務(wù)遷移并不總是最優(yōu)策略。 與DQN 相比,本文提出的算法在60 km/h 移動(dòng)狀態(tài)下有14.4%的優(yōu)勢(shì),這是由于該算法在訓(xùn)練過(guò)程中充分探索了可能的策略,因而與DQN 相比能使用更優(yōu)的策略以降低能耗水平。
圖4 不同車(chē)輛移動(dòng)速度下的平均能耗Fig. 4 Average energy consumption for different vehicle movement speeds
針對(duì)中國(guó)目前重點(diǎn)發(fā)展方向之一的車(chē)聯(lián)網(wǎng),本文研究了基于該環(huán)境下的服務(wù)遷移問(wèn)題,并對(duì)服務(wù)遷移過(guò)程中產(chǎn)生的計(jì)算成本、遷移成本和能耗建模,將遷移決策規(guī)劃為部分遷移而非二元遷移,同時(shí)考慮了車(chē)輛移動(dòng)性帶來(lái)的問(wèn)題。 本文將服務(wù)遷移建模為MDP 問(wèn)題,并提出了基于深度強(qiáng)化學(xué)習(xí)的服務(wù)遷移算法來(lái)降低服務(wù)的平均時(shí)延和能耗。 實(shí)驗(yàn)結(jié)果表明,本文提出的算法在學(xué)習(xí)率為0.005 時(shí)能夠較快達(dá)到收斂,并且與其他算法相比在20 km/h 和60 km/h 時(shí)分別有8.6%和15.3%的性能提升,同時(shí)當(dāng)移動(dòng)速度處于60 km/h 時(shí),在能耗方面有14.4%的優(yōu)勢(shì)。 在未來(lái)工作中,將車(chē)輛加速度引入以預(yù)測(cè)用戶(hù)駕駛車(chē)輛的移動(dòng)意圖,從而進(jìn)行更精確的遷移決策。