唐 倫 吳 婷 周鑫隆 陳前斌
(重慶郵電大學通信與信息工程學院 重慶 400065)
(重慶郵電大學移動通信重點實驗室 重慶 400065)
網絡功能虛擬化技術(Network Function Virtualization, NFV)可將傳統(tǒng)網絡硬件資源轉化為虛擬網絡資源,并在通用服務器上實例化為虛擬網絡功能(Virtual Network Function, VNF)處理網絡業(yè)務,這實現(xiàn)了網絡的靈活與高效運用[1]。在NFV中,網絡服務請求由一系列按既定順序排列的VNF處理,這樣有序排列的VNF集合稱為服務功能鏈(Service Function Chain, SFC)[2]。由于網絡流量的動態(tài)變化,VNF的資源需求與底層物理資源的可用性不匹配導致網絡性能下降,或使某些物理節(jié)點的資源利用率較低增加多余能耗開銷,利用VNF遷移技術可以保證網絡性能和降低網絡系統(tǒng)能耗。
現(xiàn)有許多文獻已經研究了VNF的遷移問題,文獻[3]研究如何優(yōu)化SFC重配置以響應不斷變化的網絡流量需求和資源限制,并基于實時的網絡信息提出一種基于禁忌搜索的VNF遷移算法,然而文獻[3]缺少對VNF資源需求預測使VNF遷移存在“滯后”的時延問題。文獻[4]提出一種基于在線深度信念網絡的VNF資源需求預測方法,其根據預測結果提前遷移資源使用過載物理節(jié)點上的VNF保證網絡性能,文獻[5]提出一種基于圖神經網絡的VNF資源需求預測算法,并基于預測結果優(yōu)先制定一種基于深度Dyna-Q學習的遷移策略,但是文獻[4,5]所提多任務集中預測方法不僅會增加數據集中節(jié)點的數據訓練負擔從而降低數據訓練效率,也會由于上傳數據至集中節(jié)點訓練造成數據泄露,甚至可能由于集中節(jié)點的內存不足以滿足大規(guī)模數據訓練要求導致數據無法訓練。
綜上所述,本文針對VNF遷移“滯后”帶來的時延問題,引入一種雙向門控循環(huán)單元(Bidirectional Gated Recurrent Unit, Bi-GRU)進行VNF資源需求預測,為緩解現(xiàn)有集中式機器學習存在的數據訓練負擔問題,本文引入聯(lián)邦學習(Federated Learning, FL)框架輔助Bi-GRU模型訓練,并基于此提出一種聯(lián)邦雙向門控循環(huán)單元(FedBi-GRU)的VNF資源需求預測算法,使各個預測模型在各自物理節(jié)點上訓練從而緩解集中式節(jié)點訓練負擔和避免數據泄露風險?;陬A測結果,以最小化VNF遷移后系統(tǒng)能耗為目標制定VNF遷移策略,又考慮到最小化能耗極有可能使網絡資源使用不均衡,使系統(tǒng)難以容忍未來動態(tài)流量變化造成頻繁遷移的問題,本文又引入負載均衡使系統(tǒng)更加穩(wěn)定。由于網絡流量的動態(tài)變化導致VNF的遷移決策問題多維且復雜,考慮到深度強化學習在高維復雜的空間中獲得較好的優(yōu)化效果,本文引入一種分布式近端策略優(yōu)化(Distributed Proximal Policy Optimization, DPPO)的深度強化學習算法為VNF遷移做決策。
2.2.1 物理網絡
2.2.2 SFC
2.2.3 網絡能耗模型
本節(jié)研究如何優(yōu)化VNF遷移后的系統(tǒng)能耗,系統(tǒng)能耗主要來自底層物理節(jié)點能耗,物理節(jié)點能耗包括其運行狀態(tài)能耗和狀態(tài)切換能耗。運行狀態(tài)能耗主要為物理節(jié)點能夠運行的基礎能耗和負載能耗,物理節(jié)點的負載能耗與其上的CPU資源利用率成正比[6],狀態(tài)切換能耗主要由物理節(jié)點開斷電產生[7]。因此物理節(jié)點n的CPU資源利用率表示為
2.2.4 負載均衡模型
其中,ω1和ω2分別表示CPU和存儲資源對網絡系統(tǒng)負載均衡影響的權重因子,本文假設兩種資源對網絡系統(tǒng)的影響相同,設ω1=ω2=0.5。
綜上所述,本文的優(yōu)化目標為最小化VNF遷移過后的網絡系統(tǒng)能耗和資源方差,由于系統(tǒng)能耗數量級遠遠大于資源方差,故對聯(lián)合優(yōu)化目標進行歸一化,具體表示為
本文首先利用Bi-GRU算法對VNF的資源需求進行預測以便制定后續(xù)遷移計劃,Bi-GRU是一種雙向的門控循環(huán)單元(Gated Recurrent Unit,GRU),其計算原理與GRU相同[13]。
網絡流量流經一條SFC,其上的VNF會存在豐富關聯(lián)信息,而上述預測方法只針對單個VNF的資源需求預測,這忽略了SFC上VNF之間信息的關聯(lián)性,致使資源預測模型泛化性不足。由此文獻[4,5]針對此問題提出一種集中式多任務模型訓練方法,然而這種集中式模型訓練方式存在數據泄露風險、數據集中節(jié)點數據存在訓練負擔,甚至會由于集中節(jié)點的內存不足以支持大規(guī)模數據訓練導致數據無法訓練。
因此,本文針對上述問題,提出一種基于聯(lián)邦學習的分布式VNF網絡資源需求預測框架—FedBi-GRU,該框架使VNF在各自部署的物理節(jié)點上根據本地數據進行Bi-GRU預測模型訓練,省去數據上傳過程,只需上傳模型訓練參數,并在SDN控制器處對各個VNF模型參數進行聚合以保證SFC上各個VNF的豐富關聯(lián)信息,訓練過程如下所示:
根據上述FeBi-GRU算法得到VNF資源需求預測結果,計算底層物理節(jié)點資源利用率,根據資源使用閾值判定過載或輕載的物理節(jié)點并根據優(yōu)化目標制定遷移計劃。因此,本節(jié)提出一種基于DPPO的深度強化學習算法求解上述遷移優(yōu)化目標。該算法首先將上述優(yōu)化目標轉化成馬爾可夫決策過程(Markov Decision Process, MDP)模型,其次通過DPPO算法求解該MDP模型得到優(yōu)化目標函數的近似最優(yōu)解。
本文結合了A3C的異步優(yōu)勢和近端策略優(yōu)化(Proximal Policy Optimization, PPO)的收斂性能優(yōu)勢,提出一種基于DPPO的VNF遷移算法。DPPO算法利用A3C多智體訓練的框架,擁有1個全局網絡和多個智能體網絡,全局網絡和多智體網絡擁有相同的PPO結構。各個智能體被放置在不同的線程中獨立進行隨機模型訓練,并定期向全局PPO網絡推送損失函數的梯度,全局PPO網絡將所收集梯度用來更新全局參數,智能體可從全局網絡下載參數。DPPO采用了PPO新舊動作策略限制更新幅度的方式,因此DPPO需要考慮新舊動作策略的放置,本文將新生成的動作策略放入全局PPO網絡中,而智能體的本地PPO網絡則采用舊的動作策略與環(huán)境進行交互更新網絡參數,詳細過程如下所述:
基于DPPO的VNF遷移算法如表1所示。
表1 基于DDPO的VNF遷移算法
本文針對VNF資源需求預測和遷移方案進行了實驗仿真,有關網絡的仿真參數如表2所示。
表2 仿真參數
本文將所提FedBi-GRU算法與多任務Bi-GRU、單任務Bi-GRU預測算法進行了性能比較,這3種算法都在真實數據集archive[17–19]上進行評估。本文以預測一條SFC上4個VNF的CPU資源需求為例,4個VNF分別使用10000條CPU數據,訓練集與測試集按7:3進行。Bi-GRU網絡選用隱藏層數為2,隱藏單元為20,時間步長為5,學習率為0.005的結構。多任務Bi-GRU在兩層Bi-GRU的基礎上添加回歸層sigmoid[4,5]進行集中式訓練,3種算法最大迭代次數為300。本文使用均方根誤差(Root Mean Square Error, RMSE)衡量3種算法的預測性能,RMSE公式為
本文截取SFC上的一個VNF的30個CPU資源預測數據進行3種算法的對比,如圖2和圖3所示,不難看出FedBi-GRU與多任務Bi-GRU對VNF的CPU資源需求預測效果相差不大,而單任務Bi-GRU的預測效果最差。這是因為多任務Bi-GRU和FedBi-GRU使多個相關訓練任務共享VNF之間的豐富關聯(lián)信息,在提高預測精度的同時也提升了Bi-GRU模型的泛化性。但是FedBi-GRU作為一種分布式機器學習方法,不僅減輕了數據集中節(jié)點的訓練負擔也提高了數據訓練效率,同時避免了內存短缺問題,因此FedBi-GRU算法在VNF的資源需求預測上具有可行性。
基于DPPO的VNF遷移算法,線程設置為4,Kmax=M=500,本地PPO網絡學習步長為50,折扣因子γv=0.99, Actor和Critic學習率都取0.001。
從圖4、圖5可以看出當CPU資源使用閾值上限為0.5,下限為0.1時,網絡系統(tǒng)的能耗最低和網絡資源方差最小,這是因為隨著CPU資源使用閾值的下降,物理節(jié)點迸發(fā)的VNF遷移數量也越多,DPPO遷移算法能有效利用網絡系統(tǒng)中物理節(jié)點的CPU資源,使整個網絡系統(tǒng)的能耗和網絡資源方差越小,網絡系統(tǒng)的負載均衡能力越好。
本文將所提DPPO算法與文獻[4]所提基于禁忌搜索的VNF遷移算法(TDMA)和A3C算法做了對比,圖6和圖7展示了不同算法在CPU資源使用閾值上下限為0.5,0.1時的對比,由此可知本文所提DPPO遷移算法在網絡系統(tǒng)能耗和負載均衡方面取得了更好的效果。TDMA遷移算法在能耗和負載均衡方面效果較差,這是因為TDMA算法為一種啟發(fā)式算法,隨著SFC數量的增加,VNF映射的解搜索空間變得大而復雜,導致TDMA算法極易陷入局部最優(yōu)解,使得更多遷移中的VNF映射到其鄰域物理節(jié)點,使整個網絡系統(tǒng)的資源利用不均衡,所以其能耗和網絡資源方差相對其他算法來說較大。A3C與DPPO算法利用多個智能體全面探索網絡環(huán)境,能尋找更豐富多樣的VNF映射解空間,因此隨著SFC數量增多,VNF數量映射動作增多時,能夠更加有效利用網絡資源,使得物理節(jié)點資源使用更加均衡,更加節(jié)省網絡系統(tǒng)的能耗,所以兩種算法的性能優(yōu)于單智能體的PPO算法。DPPO算法的基礎框架采用了PPO架構,A3C算法采用的是演員-評論家(Actor-Critic, AC)學習架構,PPO作為改進的AC算法,其利用新舊動作策略限制了VNF映射策略的幅度,使得VNF重映射更加穩(wěn)定,所以提高了DPPO算法在VNF重映射的性能。
本文研究了網絡切片環(huán)境下的VNF遷移問題,首先針對VNF遷移“滯后”性問題,本文提出一種基于分布式聯(lián)邦學習的雙向門控循環(huán)單元預測VNF的資源需求問題,并基于預測結果提出了一種分布式近端策略優(yōu)化算法提前制定VNF遷移計劃以保證網絡服務的連續(xù)性。仿真結果表明,本文所提分布式資源預測機制有較高的預測精度。另外,本文所提分布式近端策略優(yōu)化算法在降低網絡系統(tǒng)能耗和保證負載均衡方面也起到了較好的作用。