高 媛 方 海 趙 揚(yáng) 楊 旭
(西安空間無線電技術(shù)研究所 西安 710100)
6G空天地一體化網(wǎng)絡(luò)愿景將低軌衛(wèi)星網(wǎng)絡(luò)納入其中,以實(shí)現(xiàn)全球覆蓋,滿足更可靠、廣泛、靈活和安全連續(xù)的服務(wù)需求。為適應(yīng)未來星地網(wǎng)絡(luò)發(fā)展,新一代衛(wèi)星載荷將采用星載動(dòng)態(tài)可重構(gòu)架構(gòu),以及軟件化和智能化技術(shù),以實(shí)現(xiàn)資源虛擬化和網(wǎng)絡(luò)動(dòng)態(tài)調(diào)度[1]。而低軌衛(wèi)星網(wǎng)絡(luò)將面臨星上資源及計(jì)算能力有限等挑戰(zhàn)。為將有限的計(jì)算、存儲(chǔ)和通信等資源充分利用,文獻(xiàn)[2]提出了一種云邊端一體化協(xié)同網(wǎng)絡(luò)架構(gòu),在低軌衛(wèi)星集群上部署邊緣云;通過人工智能、分布式信息網(wǎng)絡(luò)和星載可重構(gòu)架構(gòu)等一系列技術(shù),將軟硬件基礎(chǔ)設(shè)施資源云化,從而實(shí)現(xiàn)任務(wù)的分布式管理。
目前,對(duì)衛(wèi)星邊緣云的研究尚處在初步階段。文獻(xiàn)[3]梳理了近年來低軌衛(wèi)星通信網(wǎng)絡(luò)的進(jìn)展歷程,首先對(duì)多接入邊緣計(jì)算(Multi-access Edge Computing, MEC)在天地融合網(wǎng)絡(luò)中的應(yīng)用進(jìn)行了分析,然后提出了低軌衛(wèi)星MEC網(wǎng)絡(luò)的組網(wǎng)方式,最后對(duì)該網(wǎng)絡(luò)架構(gòu)所面臨的挑戰(zhàn)與機(jī)遇進(jìn)行了總結(jié)。須指出,隨著6G應(yīng)用場景的擴(kuò)展,衛(wèi)星業(yè)務(wù)呈現(xiàn)出高并發(fā)以及種類多樣性等特點(diǎn),云邊端一體化協(xié)同網(wǎng)絡(luò)將面臨如何為不同類型的業(yè)務(wù)提供定制化服務(wù),以及如何實(shí)現(xiàn)資源的智能動(dòng)態(tài)協(xié)同適配等挑戰(zhàn)。而文獻(xiàn)[4–6]則提出,將軟件定義網(wǎng)絡(luò)(Software-Defined Networking, SDN)和網(wǎng)絡(luò)功能虛擬化(Network Function Virtualization, NFV)與云邊端架構(gòu)相結(jié)合,可將任務(wù)編排為多個(gè)虛擬網(wǎng)絡(luò)功能(Virtual Network Function, VNF)的有序組合,用邏輯鏈路的方式合成為一條服務(wù)功能鏈(Service Function Chain, SFC),引導(dǎo)業(yè)務(wù)流依序通過,從而具備提升網(wǎng)絡(luò)資源利用率的潛力。
然而,鑒于衛(wèi)星網(wǎng)絡(luò)的高動(dòng)態(tài)性及星地環(huán)境的復(fù)雜性,衛(wèi)星邊緣云節(jié)點(diǎn)無法與地面云控制中心實(shí)時(shí)聯(lián)通;因此,衛(wèi)星邊緣云須具備自主控制和自主智能決策能力,以自主執(zhí)行服務(wù)部署和服務(wù)遷移。因此,如何設(shè)計(jì)SFC編排與映射方案,以提升資源利用率并優(yōu)化服務(wù)質(zhì)量,實(shí)現(xiàn)在線智能的快速響應(yīng),構(gòu)成衛(wèi)星邊緣云一個(gè)重要的研究內(nèi)容[7]。
與地面蜂窩網(wǎng)絡(luò)不同,衛(wèi)星邊緣網(wǎng)絡(luò)資源受限且節(jié)點(diǎn)快速移動(dòng),與地面中心云間的通信成本高、時(shí)延大。因此,在自主管理模式下,衛(wèi)星邊緣云能夠以就近可通原則形成衛(wèi)星集群,簇頭衛(wèi)星節(jié)點(diǎn)充當(dāng)臨時(shí)管理者,收集局部網(wǎng)絡(luò)資源信息并將資源池化管理,從而具備了自主控制能力。進(jìn)一步,針對(duì)臨近衛(wèi)星節(jié)點(diǎn)發(fā)送的任務(wù)請(qǐng)求信息,中心節(jié)點(diǎn)可結(jié)合當(dāng)前網(wǎng)絡(luò)的拓?fù)鋵?shí)時(shí)信息,對(duì)網(wǎng)絡(luò)拓?fù)渲械牧髁柯酚珊吞摂M化資源進(jìn)行靈活調(diào)度,從而依照不同服務(wù)請(qǐng)求,實(shí)現(xiàn)對(duì)SFC的動(dòng)態(tài)編排和映射。此外,在大延遲抖動(dòng)、間歇聯(lián)通和周期移動(dòng)切換等場景中,當(dāng)發(fā)生運(yùn)行VNF的衛(wèi)星節(jié)點(diǎn)失聯(lián)等情況時(shí),衛(wèi)星邊緣網(wǎng)絡(luò)須根據(jù)實(shí)時(shí)網(wǎng)絡(luò)狀態(tài)進(jìn)行服務(wù)遷移,由中心節(jié)點(diǎn)擔(dān)任自主遷移的決策者[2]。
目前,針對(duì)SFC部署的研究主要集中在地面網(wǎng)絡(luò)。文獻(xiàn)[8]針對(duì)在高速變化的5G網(wǎng)絡(luò)資源狀態(tài)下進(jìn)行SFC部署的復(fù)雜度較高等問題,提出利用深度Q網(wǎng)絡(luò)的方法進(jìn)行在線求解,在滿足服務(wù)的端到端時(shí)延需求等約束下,最小化系統(tǒng)開銷。同樣基于強(qiáng)化學(xué)習(xí)和地面網(wǎng)絡(luò),文獻(xiàn)[9]首先建立了VNF和虛擬鏈路的可靠映射模型;其次,以負(fù)載均衡和VNF可靠性為聯(lián)合優(yōu)化目標(biāo),在線學(xué)習(xí)最優(yōu)SFC部署策略。此外,面向衛(wèi)星網(wǎng)絡(luò),文獻(xiàn)[10]考慮了低軌、中軌和高軌衛(wèi)星共存的網(wǎng)絡(luò)場景,針對(duì)多域(multi-domain)和衛(wèi)星自組成(satellite formation)兩種模式,分別提出啟發(fā)式的部署算法。文獻(xiàn)[11]將空間信息網(wǎng)絡(luò)建模為時(shí)間擴(kuò)展圖(Time-Expanded Graph, TEG),進(jìn)而將SFC部署表征為線性約束的最大流路由問題,并利用基于圖論的啟發(fā)式算法求解。
綜上所述,目前已有的研究低軌衛(wèi)星網(wǎng)絡(luò)SFC部署的工作往往研究單時(shí)隙中服務(wù)功能(Service Function, SF)向衛(wèi)星節(jié)點(diǎn)的VNF實(shí)例的映射問題[10–12]。然而,低軌衛(wèi)星網(wǎng)絡(luò)的運(yùn)行和資源管理是一個(gè)長期過程,可用資源和網(wǎng)絡(luò)環(huán)境隨機(jī)變化;若只考慮單時(shí)隙SFC部署,即逐時(shí)隙利用貪婪策略做資源分配,則無法保障網(wǎng)絡(luò)的長期獎(jiǎng)勵(lì)(性能)最大化。例如,鑒于低軌衛(wèi)星網(wǎng)絡(luò)的高動(dòng)態(tài)性和空間環(huán)境的復(fù)雜性,兩個(gè)相鄰時(shí)隙的SFC部署結(jié)果不同,則導(dǎo)致快速變化的SFC路由拓?fù)?,從而?dǎo)致SFC服務(wù)(包括狀態(tài)信息和數(shù)據(jù)流)遷移代價(jià)的增大[13]。因此,單時(shí)隙SFC部署方案沒有考慮低軌衛(wèi)星網(wǎng)絡(luò)的動(dòng)態(tài)特性,無法獲得最優(yōu)的長期收益。
因此,考慮低軌衛(wèi)星網(wǎng)絡(luò)的高動(dòng)態(tài)性和空間環(huán)境的復(fù)雜性,如何提供在線的快速SFC部署方法,并綜合考慮節(jié)點(diǎn)和鏈路容量等約束以及服務(wù)遷移等代價(jià),成為低軌衛(wèi)星邊緣網(wǎng)絡(luò)中亟待解決的問題。無模型(model free)強(qiáng)化學(xué)習(xí)可將系統(tǒng)動(dòng)態(tài)建模為一個(gè)馬爾可夫決策過程(Markov Decision Process,MDP),盡管相鄰時(shí)隙之間的狀態(tài)轉(zhuǎn)移概率是未知的,但通過在線決策和連續(xù)采樣,可獲取即時(shí)獎(jiǎng)勵(lì)值來評(píng)價(jià)當(dāng)前狀態(tài)的價(jià)值函數(shù),最終得到長期最優(yōu)的連續(xù)SFC部署策略。從而,本文擬提出一種基于參與者-評(píng)價(jià)者(Actor-Critic)強(qiáng)化學(xué)習(xí)的衛(wèi)星邊緣網(wǎng)絡(luò)在線SFC部署方法。首先,針對(duì)低軌衛(wèi)星網(wǎng)絡(luò)的高動(dòng)態(tài)性,對(duì)容量約束和遷移代價(jià)進(jìn)行定義,并對(duì)長期SFC部署問題進(jìn)行建模。其次,引入MDP,綜合考慮服務(wù)遷移和衛(wèi)星坐標(biāo)等因素,對(duì)系統(tǒng)狀態(tài)、動(dòng)作和獎(jiǎng)勵(lì)函數(shù)進(jìn)行定義,描述低軌衛(wèi)星網(wǎng)絡(luò)的狀態(tài)轉(zhuǎn)移過程。再次,提出一種基于自然梯度(natural gradient)法的在線強(qiáng)化學(xué)習(xí)部署方法,以最小化服務(wù)請(qǐng)求的平均端到端時(shí)延為優(yōu)化目標(biāo);與標(biāo)準(zhǔn)梯度(standard gradient)法中對(duì)參數(shù)進(jìn)行迭代更新不同,自然梯度法進(jìn)行模型層面的更新,從而避免出現(xiàn)模型更新不均勻的現(xiàn)象,保障模型收斂到全局最優(yōu)解。最后,仿真結(jié)果表明,本文方法在滿足節(jié)點(diǎn)容量和服務(wù)遷移代價(jià)等約束條件下,可最小化SFC的平均端到端時(shí)延,逼近長期平均策略函數(shù)的全局最優(yōu)值。
利用NFV技術(shù),每個(gè)衛(wèi)星節(jié)點(diǎn)服務(wù)器可被虛擬化為多個(gè)虛擬機(jī)(Virtual Machine, VM),并假設(shè)每個(gè)VM只能提供一個(gè)VNF實(shí)例。本文研究一個(gè)衛(wèi)星集群內(nèi)的SFC部署以及SF到VNF實(shí)例的映射,資源分配決策由集群內(nèi)中心節(jié)點(diǎn)衛(wèi)星負(fù)責(zé),如圖1所示。考慮一個(gè)虛擬化的邊緣低軌衛(wèi)星網(wǎng)絡(luò),衛(wèi)星節(jié)點(diǎn)集合可表示為N={1,2,..., N},并用n表示節(jié)點(diǎn)的索引值。此外,用F={1,2,..., F}表示該集群內(nèi)所有節(jié)點(diǎn)可提供的VNF實(shí)例集合。同時(shí),假設(shè)SFC部署的時(shí)間尺度小于VNF實(shí)例化的時(shí)間尺度,即本文假設(shè)在VNF部署已完成的基礎(chǔ)上,擬完成SF到VNF實(shí)例的映射。最后,考慮一個(gè)動(dòng)態(tài)低軌衛(wèi)星網(wǎng)絡(luò)系統(tǒng),用T={0,..., t,..., T ?1}表示時(shí)隙化的時(shí)間范圍,并用t表示時(shí)隙的索引值。
圖1 SFC部署和遷移示意圖
基于SFC技術(shù),低軌衛(wèi)星網(wǎng)絡(luò)中的每個(gè)服務(wù)請(qǐng)求均被映射為一個(gè)業(yè)務(wù)流,該業(yè)務(wù)流被SFC中的一系列SF依序訪問。 因此,與服務(wù)請(qǐng)求i相關(guān)聯(lián)的SFC可表示為
對(duì)于每一條SFC,其端到端時(shí)延可定義為在衛(wèi)星服務(wù)器上的處理時(shí)延和衛(wèi)星之間鏈路時(shí)延之和。首先,在每個(gè)VNF實(shí)例上,根據(jù)M/M/1模型[13],對(duì)SFCi的每個(gè)分組的處理時(shí)延可計(jì)算為
本文旨在最小化所有服務(wù)請(qǐng)求在時(shí)間范圍T內(nèi)的分組平均端到端時(shí)延,即
特定地,令T=1,則式(11)簡化為一個(gè)單時(shí)隙SFC部署問題,該問題已被證明是一個(gè)NP難問題[15];因此,式(11)同樣構(gòu)成一個(gè)NP難問題,其未來系統(tǒng)狀態(tài)信息是未知的,難以用離線算法或動(dòng)態(tài)規(guī)劃等方法求解。然而,經(jīng)觀察,式(11)是一個(gè)具有MDP性質(zhì)的動(dòng)態(tài)部署問題,可利用無模型的強(qiáng)化學(xué)習(xí)框架,逐時(shí)隙在線學(xué)習(xí)不同狀態(tài)下的最優(yōu)部署動(dòng)作,以實(shí)現(xiàn)最大化衛(wèi)星邊緣網(wǎng)絡(luò)長期獎(jiǎng)勵(lì)的目的。在第3節(jié)中,本文將采用強(qiáng)化學(xué)習(xí)中的Actor-Critic網(wǎng)絡(luò)框架,在線學(xué)習(xí)長期最優(yōu)的SFC部署策略。
Actor-Critic框架被廣泛應(yīng)用于實(shí)際強(qiáng)化學(xué)習(xí)過程中,該框架集成了Q值函數(shù)估計(jì)算法和策略搜索算法。Actor網(wǎng)絡(luò)根據(jù)參數(shù)化策略函數(shù)生成符合當(dāng)前狀態(tài)的動(dòng)作,而Critic網(wǎng)絡(luò)將狀態(tài)-動(dòng)作對(duì)映射到Q值,從而獲得比傳統(tǒng)的Q學(xué)習(xí)更高的訓(xùn)練效率。本文Actor-Critic算法框架采用自然梯度對(duì)模型進(jìn)行更新:與標(biāo)準(zhǔn)梯度法中對(duì)參數(shù)進(jìn)行迭代更新不同,自然梯度法進(jìn)行模型層面的更新,從而避免出現(xiàn)模型更新不均勻的現(xiàn)象。
在長期優(yōu)化問題中,智能體觀測到的狀態(tài)部分是隨機(jī)的,部分依賴于智能體采取的動(dòng)作。因此,MDP可用于狀態(tài)具有馬爾可夫性質(zhì)的系統(tǒng)環(huán)境中,以模擬智能體可實(shí)現(xiàn)的隨機(jī)性策略與獎(jiǎng)勵(lì)。本文將MDP建模為一個(gè)4元組(S,A,P,R), 其中,S表示狀態(tài)集合,A表示動(dòng)作集合,P表示狀態(tài)轉(zhuǎn)移概率,而R:S×A表示即時(shí)獎(jiǎng)勵(lì)。此外,本文做了兩個(gè)關(guān)鍵假設(shè),即:智能體對(duì)環(huán)境具有完備的感知能力,且當(dāng)前狀態(tài)排除了任何不確定性。
其次,本文設(shè)計(jì)的即時(shí)獎(jiǎng)勵(lì)函數(shù)并不能由一個(gè)閉式表達(dá)式直接給出,而是須求解如下優(yōu)化問題
首先,DNN作為一個(gè)監(jiān)督學(xué)習(xí)模型,要求樣本服從獨(dú)立同分布。因此,通過存儲(chǔ)智能體的經(jīng)驗(yàn)值,基于存儲(chǔ)采樣的回放技術(shù)將構(gòu)建一個(gè)經(jīng)驗(yàn)回放池。經(jīng)驗(yàn)回放池將以4元組的形式存儲(chǔ)每一條樣本,隨后DNN會(huì)隨機(jī)抽取一批樣本進(jìn)行批量訓(xùn)練,從而打破了樣本之間的時(shí)間相關(guān)性。
然后,在每次迭代中,由于DNN參數(shù)值是即時(shí)更新的,DNN的目標(biāo)值也在同步變化。若將不斷變化的目標(biāo)值用于參數(shù)訓(xùn)練中,則Q值的估計(jì)值很難趨于穩(wěn)定。因此,須利用雙神經(jīng)網(wǎng)絡(luò)技術(shù),構(gòu)建一個(gè)額外的目標(biāo)DNN;與原網(wǎng)絡(luò)進(jìn)行實(shí)時(shí)更新不同,目標(biāo)網(wǎng)絡(luò)的更新頻率較低,其將一直保持參數(shù)不變,直到固定的更新時(shí)刻才進(jìn)行參數(shù)更新,并將原網(wǎng)絡(luò)的模型直接賦予到目標(biāo)網(wǎng)絡(luò)中。雙神經(jīng)網(wǎng)絡(luò)技術(shù)可有效避免訓(xùn)練過程中的參數(shù)發(fā)散。至此,可將Q函數(shù)的估計(jì)值和期望值之差的損失函數(shù)設(shè)計(jì)為
式(20)表示利用不同樣本計(jì)算得出梯度信息的平均值,然后再用平均值來調(diào)整該DNN的參數(shù)。具體地,D表示從經(jīng)驗(yàn)回放池中抽取得到的樣本個(gè)數(shù),d表示樣本序號(hào),而αc表示Critic網(wǎng)絡(luò)的學(xué)習(xí)率(步長)。
Actor網(wǎng)絡(luò)使用策略函數(shù)來生成動(dòng)作并和環(huán)境交互;而Critic網(wǎng)絡(luò)使用DNN去近似Q值函數(shù),以負(fù)責(zé)評(píng)估Actor的表現(xiàn),并指導(dǎo)Actor下一時(shí)隙的動(dòng)作。因此,在Actor網(wǎng)絡(luò)中,若將參數(shù)設(shè)為θ,則策略函數(shù)π可近似為
其中,p(·)表示所有狀態(tài)的初始概率分布。
須指出,在傳統(tǒng)的梯度法中,J(πθ) 和πθ均采用歐氏距離去衡量參數(shù)值的變化,例如:參數(shù)更新值?θ可 用L2范數(shù)| |?θ||2來衡量。然而,文獻(xiàn)[16,17]已證明,不同于參數(shù),策略難以用歐氏距離來準(zhǔn)確衡量,即:在參數(shù)空間中距離相等的任意兩對(duì)參數(shù),其對(duì)應(yīng)策略可能相差很大,也可能相差很小。因此,本文將采用自然梯度法,在保持| |?θ||2不變和減少迭代次數(shù)的前提下,使得J(πθ+?θ)最大。
首先,利用平均Kullback-Leibler(KL)散度來衡量兩個(gè)模型之間的策略距離,即
綜合3.2節(jié)和3.3節(jié),可得到基于自然梯度的Actor-Critic強(qiáng)化學(xué)習(xí)的衛(wèi)星邊緣網(wǎng)絡(luò)SFC部署算法,如算法1所示。
須指出,算法1利用式(27)中的自然策略梯度對(duì)Actor參數(shù)進(jìn)行更新,可改善訓(xùn)練穩(wěn)定性,增大收斂速率,并保障期望獎(jiǎng)勵(lì)值收斂到某個(gè)駐點(diǎn)[18,19]。
算法1 基于自然梯度的Actor-Critic算法
本實(shí)驗(yàn)在仿真服務(wù)器上進(jìn)行,配置如下:4個(gè)NVIDIA GTX 1650 GPU,1個(gè)銳龍5 3600 6核處理器和1個(gè)128 GB內(nèi)存,軟件環(huán)境為TensorFlow 1.14.0, Python 3.7.1和MATLAB R2021a。
為仿真低軌衛(wèi)星拓?fù)?,本?shí)驗(yàn)采用MATLAB R2021a推出的衛(wèi)星通信工具箱。采用極軌星座(每軌24顆衛(wèi)星,共30條軌道),軌道高度為343.164 km,偏心率為0,軌道傾角為90°,右旋升交點(diǎn)赤經(jīng)在0~180°內(nèi)均勻采樣,間隔為6°,真近點(diǎn)角在0~360°內(nèi)均勻采樣,間隔為15°[20]。為減小仿真負(fù)荷,本文只考慮了相鄰4條低軌衛(wèi)星軌道,每條軌道上衛(wèi)星數(shù)目為2~8。此外,令每個(gè)服務(wù)請(qǐng)求的分組到達(dá)率為200 packets/s,每個(gè)衛(wèi)星節(jié)點(diǎn)的處理容量服從500~1000 packets/s的均勻分布,每個(gè)服務(wù)請(qǐng)求的數(shù)據(jù)率需求設(shè)置為1 mbps,且相鄰兩條軌道上任意兩個(gè)衛(wèi)星節(jié)點(diǎn)的鏈路容量服從10~20 mbps的均勻分布。最后,將任一SF的遷移代價(jià)統(tǒng)一設(shè)置為1,且將每時(shí)隙內(nèi)的遷移門限值設(shè)為20。
在搭建Actor網(wǎng)絡(luò)時(shí),將隱藏層和輸出層的激活函數(shù)分別設(shè)置為ReLU和Softmax函數(shù)。此外,設(shè)置兩個(gè)隱藏層,每層50個(gè)神經(jīng)元,折扣率設(shè)為0.9,經(jīng)驗(yàn)回放池大小設(shè)為32;同時(shí),采用ε貪婪策略,貪婪系數(shù)為0.9;最后,將最大回合數(shù)設(shè)為100,且每回合內(nèi)迭代次數(shù)設(shè)為200。
為驗(yàn)證算法1的性能,本文對(duì)比分析了文獻(xiàn)[14]中的在線SFC映射算法,即基于正則化的分?jǐn)?shù)階算法(Online Regularization-based Fractional Algorithm, ORFA),以及文獻(xiàn)[8]中的基于深度Q網(wǎng)絡(luò)的服務(wù)功能鏈部署(Deep Q Network-based Service Chain Deployment, DeepSCD)方法。須指出,ORFA和DeepSCD算法均是在滿足時(shí)延約束的前提下,最小化計(jì)算和通信資源開銷。同時(shí),為比較自然梯度和標(biāo)準(zhǔn)梯度,將這兩種梯度方法分別記為Natural Actor-Critic(NAC)和Standard Actor-Critic(SAC)。
圖2顯示了本文方法(NAC)在不同學(xué)習(xí)率和樣本批量設(shè)置下的每學(xué)習(xí)回合內(nèi)的時(shí)間平均獎(jiǎng)勵(lì),并設(shè)服務(wù)請(qǐng)求個(gè)數(shù)為6,衛(wèi)星節(jié)點(diǎn)數(shù)為4 ×3,每條SFC中SF個(gè)數(shù)為4。圖2(a)中,學(xué)習(xí)率分別設(shè)置為0.001,0.0005,0.0001,0.00005和0.00001。從圖2(a)可看出,首先,學(xué)習(xí)率設(shè)置在算法訓(xùn)練階段會(huì)直接影響?yīng)剟?lì)值的大小。其次,學(xué)習(xí)率過大會(huì)導(dǎo)致梯度迭代時(shí)的步長過大,錯(cuò)過全局最優(yōu)解,從而陷入局部最優(yōu)解或鞍點(diǎn);而較小的學(xué)習(xí)率導(dǎo)致步長過小,逼近最優(yōu)解的收斂速率較慢。其中,0.0001學(xué)習(xí)率表現(xiàn)出較好性能,不僅能獲得最大平均獎(jiǎng)勵(lì)值,而且收斂速率較快;而0.001學(xué)習(xí)率性能最差,盡管在第10輪學(xué)習(xí)回合左右開始收斂,但陷入了一個(gè)局部最優(yōu)解。圖2(b)描述了樣本批量大小對(duì)本文方法收斂性能的影響,批量大小分別設(shè)為4,8和16。如圖2(b)所示,樣本批量大小將影響訓(xùn)練階段獎(jiǎng)勵(lì)函數(shù)的收斂速率。樣本批量過小可能導(dǎo)致較大方差,使得收斂速率較慢甚至不收斂。反之,樣本批量較大時(shí),梯度估計(jì)值更加穩(wěn)定和準(zhǔn)確,但需要較長計(jì)算時(shí)間,且可能導(dǎo)致神經(jīng)網(wǎng)絡(luò)陷入局部最優(yōu)解。特定地,在樣本批量大小為8時(shí),平均獎(jiǎng)勵(lì)在第10輪回合時(shí)開始收斂,且獲得最大獎(jiǎng)勵(lì)值。因此,以下實(shí)驗(yàn)均將學(xué)習(xí)率大小設(shè)為0.0001,批量大小設(shè)為8。
圖2 不同學(xué)習(xí)率和樣本批量大小對(duì)平均獎(jiǎng)勵(lì)函數(shù)的影響
圖3表示了不同服務(wù)請(qǐng)求個(gè)數(shù)下,所有SFC的端到端時(shí)延和在一個(gè)回合內(nèi)的時(shí)間平均值。每條SFC中的SF個(gè)數(shù)設(shè)置為4,衛(wèi)星節(jié)點(diǎn)數(shù)為4× 3。如圖3(a)所示,當(dāng)請(qǐng)求數(shù)等于9時(shí),所有算法的可行解比例下降到60%左右,并且在請(qǐng)求數(shù)等于8時(shí)迅速攀升至90%以上。這是因?yàn)椋寒?dāng)SFC數(shù)量增加時(shí),剩余資源和可用容量將趨于飽和,無法為所有SFC提供可行的映射結(jié)果。而圖3(b)表示,隨著SFC條數(shù)的增加,NAC方法始終獲得最低的時(shí)延,并且在SFC數(shù)目較低時(shí),4種算法的性能相近。這是因?yàn)椋篠FC數(shù)目較低時(shí)網(wǎng)絡(luò)資源較為充分,可為所有的SFC提供最短路由路徑。此外,通過計(jì)算所有服務(wù)請(qǐng)求的總時(shí)延值大小,可知相較其它3種算法,NAC方法的時(shí)延平均值分別低7.8%, 10.1%和12.3%。
圖3 不同服務(wù)請(qǐng)求個(gè)數(shù)對(duì)端到端時(shí)延性能的影響
圖4表示在不同SF數(shù)目設(shè)置下算法的時(shí)延性能比較。此時(shí),將SFC個(gè)數(shù)設(shè)為4。如圖4所示,首先,隨著SF的增多,衛(wèi)星節(jié)點(diǎn)的處理時(shí)延,以及衛(wèi)星鏈路之間的傳播時(shí)延均會(huì)增大,從而導(dǎo)致每條SFC的端到端時(shí)延增大。此外,NAC方法總是具有最低的總時(shí)延,并且能在一定數(shù)值范圍內(nèi)保持相對(duì)穩(wěn)定;然而,當(dāng)SF數(shù)接近10時(shí),隨著非可行解的增多,NAC方法的總時(shí)延也迅速增大。相較其它3種算法,NAC方法的時(shí)延平均值分別低7.1%,15.7%和20.1%。
圖4 每條SFC內(nèi)不同SF個(gè)數(shù)對(duì)端到端時(shí)延性能的影響
圖5表示在不同低軌衛(wèi)星節(jié)點(diǎn)數(shù)設(shè)置下算法的性能比較,將SFC個(gè)數(shù)設(shè)為5,每條SFC中的SF個(gè)數(shù)設(shè)為4,軌道數(shù)設(shè)為4。如圖5所示,隨著衛(wèi)星節(jié)點(diǎn)數(shù)的增大,可用計(jì)算資源也逐漸增多,SFC路由路徑更加靈活,從而獲得更低的端到端SFC時(shí)延。
圖5 每條極地軌道上衛(wèi)星節(jié)點(diǎn)個(gè)數(shù)對(duì)端到端時(shí)延性能的影響
本文研究了基于自然梯度的Actor-Critic強(qiáng)化學(xué)習(xí)方法在低軌衛(wèi)星網(wǎng)絡(luò)SFC部署問題中的應(yīng)用。與標(biāo)準(zhǔn)梯度法不同,自然梯度法在非凸神經(jīng)網(wǎng)絡(luò)訓(xùn)練中可獲得更高收斂速率,且不易陷入局部最優(yōu)解。同時(shí),本文研究了SFC部署中的服務(wù)遷移問題,通過考察連續(xù)兩個(gè)時(shí)隙的分配變量,將服務(wù)遷移代價(jià)建模為一個(gè)凸約束問題。此外,為降低動(dòng)作空間大小,本文采取了一種基于子優(yōu)化問題的獎(jiǎng)勵(lì)函數(shù)計(jì)算方法。最后,實(shí)驗(yàn)驗(yàn)證了本文提出方法的有效性,其具有較高收斂速率,且在端到端時(shí)延性能上優(yōu)于已有方法。