• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    數(shù)據(jù)中心光互連網(wǎng)絡(luò)拓?fù)淇芍貥?gòu)研究

    2022-02-21 03:05:36郭秉禮楊鴻珍王彥波孟泠宇黃善國(guó)
    光通信研究 2022年1期
    關(guān)鍵詞:包率網(wǎng)絡(luò)拓?fù)?/a>時(shí)延

    楊 雯,郭秉禮,楊鴻珍,王彥波,范 超,孟泠宇,黃善國(guó)

    (1. 北京郵電大學(xué) 電子工程學(xué)院 信息光子學(xué)與光通信國(guó)家重點(diǎn)實(shí)驗(yàn)室,北京 100867;2. 國(guó)網(wǎng)浙江省電力有限公司信息通信分公司,杭州 310036)

    0 引 言

    傳統(tǒng)數(shù)據(jù)中心采用基于電交換技術(shù)的網(wǎng)絡(luò)架構(gòu),但隨著數(shù)據(jù)流量需求的不斷增大,傳統(tǒng)電交換網(wǎng)絡(luò)已無(wú)法滿足高效承載高速數(shù)據(jù)交互的需求[1]。同時(shí),隨著部署在數(shù)據(jù)中心中的應(yīng)用類型日趨多樣化,其流量分布特征差異較大,當(dāng)網(wǎng)絡(luò)流量分布特征隨時(shí)間變化時(shí),其適應(yīng)性和靈活性差,無(wú)法保證網(wǎng)絡(luò)性能[2]。

    光電混合組網(wǎng)技術(shù)具備靈活的鏈路連接特性,這為網(wǎng)絡(luò)拓?fù)渲貥?gòu)以適配不同應(yīng)用和服務(wù)產(chǎn)生的各種流量分布提供了可能性[3]。對(duì)于光電混合互連的數(shù)據(jù)中心網(wǎng)絡(luò),可以由一個(gè)集中的軟件定義網(wǎng)絡(luò)(Software Defined Network,SDN)控制器來(lái)控制底層電和光交換設(shè)備,進(jìn)而實(shí)現(xiàn)流量的精確調(diào)度和拓?fù)渲貥?gòu)[4-5]。同時(shí),機(jī)器學(xué)習(xí)(Machine Learning,ML)具備出色的大規(guī)模數(shù)據(jù)自動(dòng)處理、分類和智能決策能力[6]。在現(xiàn)有ML技術(shù)中,深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning,DRL)將深度學(xué)習(xí)(Deep Learning,DL)的感知能力和強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)的決策能力相結(jié)合,通過(guò)與目標(biāo)系統(tǒng)環(huán)境的反復(fù)交互,使得學(xué)習(xí)復(fù)雜任務(wù)控制策略成為可能。隨著SDN相關(guān)控制軟件框架與基于意圖的網(wǎng)絡(luò)驅(qū)動(dòng)技術(shù)的快速演進(jìn),使得結(jié)合ML等智能化決策機(jī)制的網(wǎng)絡(luò)自動(dòng)化控制成為可能[7]。

    本文提出了一種基于DRL的網(wǎng)絡(luò)拓?fù)渲貥?gòu)優(yōu)化策略,在不同的網(wǎng)絡(luò)流量分布下,可以通過(guò)拓?fù)渲貥?gòu)來(lái)降低業(yè)務(wù)的端到端時(shí)延。實(shí)驗(yàn)結(jié)果表明,在75%的流量強(qiáng)度下,與傳統(tǒng)基于固定拓?fù)涞木W(wǎng)絡(luò)相比,結(jié)合網(wǎng)絡(luò)拓?fù)渲貥?gòu)優(yōu)化機(jī)制的光電混合網(wǎng)絡(luò)將平均網(wǎng)絡(luò)延遲降低了約53.8%,丟包率降低約60.0%。

    1 架構(gòu)介紹

    在網(wǎng)絡(luò)優(yōu)化方面,目前研究主要集中在使用ML技術(shù)來(lái)解決路由優(yōu)化以提升業(yè)務(wù)端到端時(shí)延和丟包等網(wǎng)絡(luò)性能。傳統(tǒng)的路由優(yōu)化方法[8-9]大都采用蟻群和遺傳算法等啟發(fā)式算法對(duì)數(shù)據(jù)流的路由選擇進(jìn)行優(yōu)化,然而由于啟發(fā)式算法僅適用于特定問(wèn)題,當(dāng)網(wǎng)絡(luò)狀態(tài)改變時(shí),算法的參數(shù)需要再調(diào)整,從而導(dǎo)致潛在的可擴(kuò)展性問(wèn)題。在文獻(xiàn)[10]中,Li等人提出了一種基于多ML方法的路徑預(yù)設(shè)計(jì)方案,該方案利用合適的聚類算法提取流特征,利用監(jiān)督學(xué)習(xí)機(jī)制對(duì)流量需求進(jìn)行預(yù)測(cè),然后根據(jù)不同約束因素的權(quán)重,提出了一種基于層次分析法的自適應(yīng)多路徑路由方法;文獻(xiàn)[11]在解決動(dòng)態(tài)路由規(guī)劃問(wèn)題時(shí),采用深度確定性策略梯度(Deep Deterministic Policy Gradient,DDPG) 算法作為策略算法來(lái)實(shí)現(xiàn)自適應(yīng)路由,體現(xiàn)了DDPG算法在連續(xù)動(dòng)作空間訓(xùn)練中的有效性,實(shí)現(xiàn)了DRL與網(wǎng)絡(luò)仿真環(huán)境的交互。

    隨著光交換器件和系統(tǒng)控制理論等多方面技術(shù)的進(jìn)步,基于對(duì)光交換設(shè)備的重新配置可以實(shí)現(xiàn)網(wǎng)絡(luò)物理連接層面的動(dòng)態(tài)重構(gòu)。與傳統(tǒng)只針對(duì)路由進(jìn)行優(yōu)化的技術(shù)相比,根據(jù)流量通信模式變化的拓?fù)渲貥?gòu)技術(shù)為提升網(wǎng)絡(luò)性能提供了更加靈活和徹底的解決方案。因此,本文擬研究在數(shù)據(jù)中心光互連網(wǎng)絡(luò)中引入DRL Agent的方式來(lái)進(jìn)行拓?fù)渲貥?gòu),進(jìn)而優(yōu)化網(wǎng)絡(luò)性能。Agent可以通過(guò)對(duì)網(wǎng)絡(luò)監(jiān)控信息的感知與抽象,進(jìn)行拓?fù)涞闹貥?gòu)訓(xùn)練,從而完成預(yù)先設(shè)定的任務(wù)。在DRL算法選擇方面,文獻(xiàn)[11]驗(yàn)證了DDPG算法在連續(xù)動(dòng)作空間的條件下與網(wǎng)絡(luò)交互訓(xùn)練的有效性;文獻(xiàn)[12]使用DDPG算法將連續(xù)的動(dòng)作空間離散化,解決了推薦系統(tǒng)的大規(guī)模離散動(dòng)作空間訓(xùn)練問(wèn)題。

    由于DDPG算法在連續(xù)動(dòng)作空間中與網(wǎng)絡(luò)的交互訓(xùn)練在降低網(wǎng)絡(luò)時(shí)延及丟包率方面表現(xiàn)較好,本文設(shè)計(jì)了一個(gè)DRL Agent,采用DDPG算法作為主要算法進(jìn)行Agent的訓(xùn)練,針對(duì)拓?fù)渚仃嚨碾x散性,利用連續(xù)動(dòng)作離散化訓(xùn)練的方式,將動(dòng)作空間進(jìn)行離散化處理來(lái)與網(wǎng)絡(luò)進(jìn)行交互,實(shí)現(xiàn)拓?fù)渲貥?gòu)與網(wǎng)絡(luò)仿真環(huán)境的動(dòng)態(tài)交互與連續(xù)訓(xùn)練。同時(shí),針對(duì)數(shù)據(jù)中心互連網(wǎng)絡(luò)的場(chǎng)景,設(shè)計(jì)了采用光電混合交換框架的可重構(gòu)數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)。圖1所示為整體架構(gòu)及DRL Agent與網(wǎng)絡(luò)的交互。

    圖1 可重構(gòu)數(shù)據(jù)中心網(wǎng)絡(luò)整體架構(gòu)

    由圖可知,整個(gè)系統(tǒng)根據(jù)功能分為3層,由下到上分別為DP、CP與KP[13]。

    KP通過(guò)收集到的網(wǎng)絡(luò)拓?fù)浜托阅苄畔⒖梢苑治霭l(fā)現(xiàn)數(shù)據(jù)平面的問(wèn)題所在,并自動(dòng)修復(fù)檢測(cè)到的問(wèn)題。通過(guò)重新配置光交換設(shè)備,可實(shí)現(xiàn)不同的互連拓?fù)洌赃m應(yīng)不同業(yè)務(wù)分布的通信需求[14]。

    SDN控制器管理DP的網(wǎng)絡(luò)連接,同時(shí)將DP的實(shí)際網(wǎng)絡(luò)狀況,如網(wǎng)絡(luò)延遲和拓?fù)涞刃阅苄畔⒎答伣oKP。KP通過(guò)對(duì)相關(guān)性能數(shù)據(jù)的分析,觸發(fā)相應(yīng)的網(wǎng)絡(luò)優(yōu)化流程與策略。同時(shí)該KP在所提可重構(gòu)架構(gòu)中具有ML的智能決策模塊,即DRL Agent。SDN控制器會(huì)統(tǒng)計(jì)所有接口的流量信息,實(shí)時(shí)監(jiān)測(cè)隊(duì)列排隊(duì)的緩存使用情況,并周期性地收集統(tǒng)計(jì)。將收集到的流量信息以矩陣的形式輸入到DRL Agent,Agent根據(jù)流量的分布情況可生成有效的網(wǎng)絡(luò)策略,決策出適合的網(wǎng)絡(luò)拓?fù)?,再將選出的網(wǎng)絡(luò)拓?fù)湟脏徑泳仃嚨男问絺鬟f給CP,即SDN控制器,由SDN控制器實(shí)現(xiàn)全局、實(shí)時(shí)和定制化的網(wǎng)絡(luò)控制。

    架構(gòu)的底層為實(shí)際的網(wǎng)絡(luò)連接,每個(gè)相鄰節(jié)點(diǎn)相連形成基于電交換的環(huán)結(jié)構(gòu),同時(shí)每個(gè)節(jié)點(diǎn)通過(guò)光電轉(zhuǎn)換接口向上與OCS相連,用于電子分組信息與光信號(hào)之間的轉(zhuǎn)換。選擇好拓?fù)浜?,SDN控制器向DP發(fā)送拓?fù)渲貥?gòu)信息,由OCS重新配置交叉連接,從而實(shí)現(xiàn)網(wǎng)絡(luò)拓?fù)涞膭?dòng)態(tài)改變。本文主要關(guān)注DRL Agent與OMNeT++軟件仿真環(huán)境的訓(xùn)練過(guò)程。

    2 DRL Agent機(jī)制

    DRL Agent與網(wǎng)絡(luò)的交互如圖1頂部所示,其由狀態(tài)、動(dòng)作和獎(jiǎng)勵(lì)3種信號(hào)通過(guò)SDN控制器與網(wǎng)絡(luò)進(jìn)行交互。具體來(lái)說(shuō),狀態(tài)s是指每個(gè)時(shí)間節(jié)點(diǎn)環(huán)境的狀態(tài),包含了整個(gè)拓?fù)涞年P(guān)鍵信息,形式為拓?fù)溧徑泳仃嚨膶?duì)角矩陣,以列表的形式表示。動(dòng)作a是指在每個(gè)狀態(tài)s中Agent可以采取的動(dòng)作,以拓?fù)溧徑泳仃嚨耐暾问奖硎?。另外,定義獎(jiǎng)勵(lì)反饋為r,Agent會(huì)根據(jù)獎(jiǎng)勵(lì)r反饋優(yōu)化決策過(guò)程,以網(wǎng)絡(luò)的平均時(shí)延作為獎(jiǎng)勵(lì)。Agent的目的是確定最優(yōu)的行為策略η,即從狀態(tài)空間到動(dòng)作空間的映射(η:s→a),以最大化期望的獎(jiǎng)勵(lì)(最小化網(wǎng)絡(luò)延遲)。可通過(guò)使用兩個(gè)深度神經(jīng)網(wǎng)絡(luò)來(lái)迭代地改進(jìn)對(duì)這3個(gè)信號(hào)間關(guān)系的了解[15]。

    2.1 算法中動(dòng)作選擇策略的分析

    在DRL系統(tǒng)中,當(dāng)下主流的動(dòng)作選擇策略主要有兩類:基于價(jià)值的策略和基于Actor神經(jīng)網(wǎng)絡(luò)進(jìn)行選擇的策略。對(duì)于基于價(jià)值的策略,策略的決策直接取決于價(jià)值函數(shù),價(jià)值函數(shù)表示了在某個(gè)狀態(tài)下不同動(dòng)作的價(jià)值。而對(duì)于價(jià)值函數(shù)來(lái)說(shuō),通常采用貪婪的方式進(jìn)行選擇,即選擇價(jià)值最大的動(dòng)作。通常情況下,價(jià)值函數(shù)是一個(gè)參數(shù)化函數(shù),其將狀態(tài)和動(dòng)作作為輸入Q(s,a),Q()為價(jià)值函數(shù),在選擇動(dòng)作a時(shí)需要在動(dòng)作集合A中對(duì)每個(gè)動(dòng)作進(jìn)行評(píng)估,從而得到使得價(jià)值最大的動(dòng)作策略ηQ(s)。但當(dāng)參數(shù)化函數(shù)的評(píng)估成本很高時(shí),比如在使用深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNN)的情況下,執(zhí)行復(fù)雜度會(huì)隨著動(dòng)作的數(shù)量線性增長(zhǎng),使得該方法變得難以處理。

    基于Actor的架構(gòu)避免了在式(1)中對(duì)argmax中的每個(gè)動(dòng)作進(jìn)行Q函數(shù)計(jì)算來(lái)評(píng)估所產(chǎn)生的巨大計(jì)算成本。Actor通過(guò)將策略參數(shù)化,從而直接學(xué)習(xí)策略。這樣做的好處是,與基于價(jià)值策略相比,擁有更好的收斂性及適用于高維連續(xù)動(dòng)作空間,但缺點(diǎn)是容易收斂到非最優(yōu)解。另外,因?yàn)槊看尾呗缘母虏灰蕾囈酝墓烙?jì),意味著無(wú)法充分利用老的信息,因此數(shù)據(jù)利用率較低,泛化性較弱,不能擴(kuò)展到以前未見(jiàn)過(guò)的動(dòng)作。所以,基于Actor的方法不能像基于價(jià)值的方法那樣自然地在動(dòng)作空間中推廣。

    降低動(dòng)作空間的復(fù)雜度和對(duì)行動(dòng)進(jìn)行概括的能力對(duì)于提高模型訓(xùn)練的效率和泛化能力來(lái)說(shuō)都是必要的。目前的方法不能同時(shí)滿足以上兩點(diǎn),這促使我們需要對(duì)選擇動(dòng)作策略進(jìn)行優(yōu)化和改進(jìn)。

    2.2 動(dòng)作選擇策略的改進(jìn)

    基于對(duì)以上兩個(gè)問(wèn)題的分析,本文提出了一種新的策略體系結(jié)構(gòu),這種體系結(jié)構(gòu)避免了評(píng)估所有動(dòng)作的昂貴代價(jià),同時(shí)保留了動(dòng)作的泛化。這種策略建立在演員-評(píng)論家(Actor-Critic, AC)框架[15]之上。定義一個(gè)有效的行動(dòng)執(zhí)行者Actor,并利用Critic來(lái)完善Actor的選擇,使用DNN作為Actor和Critic函數(shù)的逼近器,使用DDPG算法來(lái)訓(xùn)練該策略。具體過(guò)程如下:

    首先通過(guò)設(shè)計(jì)算法得到固定網(wǎng)絡(luò)規(guī)模下所有合法拓?fù)涞募献鳛镵P訓(xùn)練時(shí)的選擇動(dòng)作集A。定義為

    圖2 動(dòng)作選擇過(guò)程

    式中,QθQ()為一個(gè)由θQ參數(shù)化的函數(shù),θ為Q的參數(shù)。該算法保留了Actor神經(jīng)網(wǎng)絡(luò)進(jìn)行動(dòng)作選擇相對(duì)于基于價(jià)值函數(shù)策略在動(dòng)作選擇復(fù)雜度方面的改進(jìn),同時(shí)為了解決基于Actor的策略泛化能力弱的問(wèn)題,在選擇動(dòng)作時(shí)加入了K-NN算法進(jìn)行特征分類。為了避免經(jīng)K-NN算法分類后可能會(huì)有一些特征上相似但Q值很低的動(dòng)作被選擇,增加了一步對(duì)選擇出的K個(gè)動(dòng)作的價(jià)值計(jì)算,選擇這K個(gè)動(dòng)作中價(jià)值最高的動(dòng)作作為最終動(dòng)作,整體在不提高復(fù)雜度的前提下增強(qiáng)了模型的泛化性。

    整體的算法流程如下:

    獲取環(huán)境的狀態(tài)s;

    3 仿真結(jié)果與性能分析

    3.1 仿真平臺(tái)設(shè)置

    本文基于OMNeT++離散事件仿真器和TensorFlow開(kāi)源ML平臺(tái),分別構(gòu)建了重構(gòu)網(wǎng)絡(luò)仿真環(huán)境和DRL Agent模型,并對(duì)兩者進(jìn)行了聯(lián)合仿真實(shí)驗(yàn)。仿照常見(jiàn)的數(shù)據(jù)中心光電混合互連網(wǎng)絡(luò)架構(gòu),本文建立了一個(gè)14個(gè)節(jié)點(diǎn)和3個(gè)節(jié)點(diǎn)度規(guī)模的網(wǎng)絡(luò)拓?fù)?,所有的架頂交換機(jī)(Top of Rack, ToR)相鄰連接,形成一個(gè)固定的環(huán)結(jié)構(gòu),所有的ToR 通過(guò)光電轉(zhuǎn)換接口向上與OCS相連,通過(guò)重新配置OCS內(nèi)部交叉連接可以實(shí)現(xiàn)拓?fù)渲貥?gòu),從而滿足不同應(yīng)用的通信需求,如圖3所示。其中具體的拓?fù)渑渲?,即選擇的動(dòng)作,由Agent基于以上動(dòng)作選擇策略進(jìn)行選擇,同時(shí)我們?cè)谶x擇動(dòng)作的過(guò)程中增加了一個(gè)隨機(jī)的探索策略,以避免在訓(xùn)練過(guò)程中陷入局部最小值,設(shè)置回合數(shù)為10,每個(gè)回合步數(shù)為100。

    圖3 網(wǎng)絡(luò)拓?fù)鋱D

    3.2 訓(xùn)練參數(shù)選擇

    若Agent每次更新參數(shù)時(shí)都要與環(huán)境互動(dòng),就大大降低了模型參數(shù)更新的效率,所以經(jīng)驗(yàn)回放機(jī)制被提出。該機(jī)制類似于一個(gè)有固定空間大小的存儲(chǔ)器,把Agent與環(huán)境互動(dòng)所產(chǎn)生的部分結(jié)果進(jìn)行存儲(chǔ),等到了訓(xùn)練階段時(shí),每一次訓(xùn)練過(guò)程都會(huì)從該存儲(chǔ)器中均勻采樣出一批一定數(shù)量的樣本用于Agent神經(jīng)網(wǎng)絡(luò)參數(shù)的更新。將所訓(xùn)練的樣本數(shù)量分為多少個(gè)為一組,即batch size,這個(gè)值的大小與梯度下降的效率和結(jié)果直接相關(guān)。

    假設(shè)訓(xùn)練樣本共m個(gè),若設(shè)置batch size為1,則每個(gè)樣本都是一個(gè)batch size。若設(shè)置batch size為m,則所有樣本組成這一個(gè)batch size。當(dāng)設(shè)置batch size為m時(shí),梯度下降稱為批量梯度下降法,神經(jīng)網(wǎng)絡(luò)進(jìn)行梯度下降時(shí)從最遠(yuǎn)的點(diǎn)開(kāi)始,每次迭代需要遍歷整個(gè)訓(xùn)練集,所以需要更大的內(nèi)存空間;當(dāng)設(shè)置batch size為1時(shí),此時(shí)梯度下降稱為隨機(jī)梯度下降法,神經(jīng)網(wǎng)絡(luò)進(jìn)行梯度下降時(shí)隨機(jī)找一個(gè)點(diǎn),每次迭代只處理一個(gè)訓(xùn)練數(shù)據(jù),所以需要很長(zhǎng)的時(shí)間來(lái)完成訓(xùn)練。

    綜上,batch size過(guò)小時(shí),花費(fèi)時(shí)間多,同時(shí)梯度震蕩嚴(yán)重,不利于收斂;而batch size過(guò)大時(shí),不同batch的梯度方向沒(méi)有任何變化,容易陷入局部極小值,所以應(yīng)該對(duì) batch size的大小進(jìn)行合理選擇,從而在收斂時(shí)延與收斂時(shí)間之間達(dá)到一個(gè)較好的平衡。設(shè)置收斂時(shí)延的權(quán)重為0.7,收斂時(shí)間為0.3,將收斂時(shí)延及收斂時(shí)間進(jìn)行歸一化處理,加權(quán)求和后取相反數(shù),作為最后的訓(xùn)練收益。

    因?yàn)橛?jì)算機(jī)字符都是以2的指數(shù)次冪進(jìn)行存儲(chǔ)的,所以設(shè)置batch size時(shí)盡量選擇16、32、64、128和256 等。圖4(a)為設(shè)置不同batch size訓(xùn)練得到的收斂時(shí)延和收斂時(shí)間情況,通過(guò)計(jì)算得出訓(xùn)練收益最大為-0.677,此時(shí)的batch size為64,模型在收斂的時(shí)延與時(shí)間之間達(dá)到了一個(gè)較好的平衡。

    圖4 不同batch size和K值率的訓(xùn)練情況

    通常情況下,在K-NN算法中,生成的動(dòng)作集K的大小是特定于任務(wù)的,并且允許在策略質(zhì)量和速度之間進(jìn)行一定的權(quán)衡。K-NN中的K值選取對(duì)算法的結(jié)果會(huì)產(chǎn)生重大影響。如果選擇較小的K值,就相當(dāng)于用較小領(lǐng)域中的訓(xùn)練實(shí)例進(jìn)行預(yù)測(cè),學(xué)習(xí)近似誤差會(huì)減小,只有與輸入實(shí)例較近或相似的訓(xùn)練實(shí)例才會(huì)對(duì)預(yù)測(cè)結(jié)果起作用,與此同時(shí)帶來(lái)的問(wèn)題是學(xué)習(xí)的估計(jì)誤差會(huì)增大,即K值的減小意味著整體模型變得復(fù)雜,容易發(fā)生過(guò)擬合;如果選擇較大的K值,就相當(dāng)于用較大領(lǐng)域中的訓(xùn)練實(shí)例進(jìn)行預(yù)測(cè),其優(yōu)點(diǎn)是可以減少學(xué)習(xí)的估計(jì)誤差,但缺點(diǎn)是學(xué)習(xí)的近似誤差會(huì)增大,這時(shí)輸入不相似的訓(xùn)練實(shí)例也會(huì)對(duì)預(yù)測(cè)起作用,使預(yù)測(cè)發(fā)生錯(cuò)誤,且K值的增大就意味著整體的模型變得簡(jiǎn)單。在實(shí)際應(yīng)用中,K值一般取一個(gè)比較小的數(shù)值。K-NN算法作為選擇動(dòng)作的其中一步,對(duì)最終結(jié)果會(huì)產(chǎn)生間接影響,為了找到更適合重構(gòu)拓?fù)淠P陀?xùn)練的生成動(dòng)作集大小,我們使用不同的K值進(jìn)行訓(xùn)練并進(jìn)行了效果的比對(duì)。圖4(b)所示為設(shè)置不同K值率(K值占動(dòng)作集數(shù)量的比率值)訓(xùn)練得到的收斂時(shí)延和收斂時(shí)間情況。由圖中數(shù)據(jù)計(jì)算得到最大訓(xùn)練收益為-0.715,此時(shí)的K值率為20%,所以可以得出K值的選擇在動(dòng)作集數(shù)量的20%左右時(shí)可以達(dá)到一個(gè)策略質(zhì)量和速度的平衡。

    3.3 不同流量強(qiáng)度下的訓(xùn)練結(jié)果分析

    本文采用占總網(wǎng)絡(luò)容量25%~100% 4種強(qiáng)度級(jí)別的流量進(jìn)行訓(xùn)練,在參數(shù)選擇方面,每次訓(xùn)練選擇動(dòng)作集數(shù)量的20%作為K值、batch size為64,通過(guò)統(tǒng)計(jì)訓(xùn)練過(guò)程中的平均網(wǎng)絡(luò)時(shí)延和丟包率來(lái)評(píng)估網(wǎng)絡(luò)性能,驗(yàn)證策略的有效性。

    圖5所示為實(shí)驗(yàn)中不同流量強(qiáng)度下的平均網(wǎng)絡(luò)時(shí)延和丟包率。由圖可知,隨著訓(xùn)練步數(shù)的增加,DRL Agent有效地降低了網(wǎng)絡(luò)延遲和丟包率。不同網(wǎng)絡(luò)流量強(qiáng)度下收斂的速度不同,由統(tǒng)計(jì)數(shù)據(jù)可知,流量越大即網(wǎng)絡(luò)的復(fù)雜性越高,需要收斂的步數(shù)越多,大約500步后,不同流量強(qiáng)度下的網(wǎng)絡(luò)時(shí)延和丟包率將收斂到一個(gè)穩(wěn)定的低值,相比于初訓(xùn)練時(shí)的網(wǎng)絡(luò)性能有了大幅度的提升,如圖中75%的流量強(qiáng)度下,平均網(wǎng)絡(luò)延遲從3.25 s下降到1.50 s左右,整體降低了約53.8%,同時(shí)丟包率降低約60%。

    圖5 不同流量強(qiáng)度下的平均網(wǎng)絡(luò)時(shí)延和丟包率

    3.4 模型測(cè)試

    為了測(cè)試模型的訓(xùn)練效果,我們分別向訓(xùn)練前與訓(xùn)練后的模型輸入不同強(qiáng)度的流量,并記錄它們的平均網(wǎng)絡(luò)延遲,如圖6(a)所示。由圖可知,訓(xùn)練后模型整體的平均網(wǎng)絡(luò)時(shí)延大小及穩(wěn)定性都明顯優(yōu)于未訓(xùn)練的模型。

    同時(shí),為了評(píng)估策略在DRL Agent選擇行動(dòng)時(shí)的優(yōu)勢(shì),我們將K-NN算法與隨機(jī)策略和貪心算法在50%流量強(qiáng)度的情況下進(jìn)行了比較。每個(gè)訓(xùn)練過(guò)程設(shè)置為500步,共使用了14個(gè)不同的流量矩陣。對(duì)于K-NN算法和隨機(jī)策略,我們記錄了每個(gè)流量下訓(xùn)練收斂的時(shí)延。由貪婪算法直接得到每個(gè)流量矩陣(Traffic Matrix,TM)下的網(wǎng)絡(luò)時(shí)延。圖6(b)為對(duì)比結(jié)果。實(shí)驗(yàn)結(jié)果表明,K-NN算法產(chǎn)生的時(shí)延總體趨勢(shì)比隨機(jī)策略和貪心算法的時(shí)延更低、更穩(wěn)定。

    圖6 模型性能評(píng)估

    4 結(jié)束語(yǔ)

    針對(duì)數(shù)據(jù)中心網(wǎng)絡(luò)中的鏈路拓?fù)涔潭ㄟB接導(dǎo)致的資源分配不合理和網(wǎng)絡(luò)性能惡化的問(wèn)題,本文提出并驗(yàn)證了一個(gè)完全自動(dòng)化的DRL Agent,它使用DDPG算法來(lái)優(yōu)化訓(xùn)練過(guò)程,通過(guò)SDN控制器來(lái)提供拓?fù)渑渲?,通過(guò)自動(dòng)重配網(wǎng)絡(luò)拓?fù)涫咕W(wǎng)絡(luò)延遲達(dá)到最小化。同時(shí),本文還設(shè)計(jì)了一種新的動(dòng)作選擇機(jī)制,從原始動(dòng)作的生成再利用K-NN算法進(jìn)行分類,最后根據(jù)價(jià)值擇優(yōu)選取,實(shí)現(xiàn)了連續(xù)動(dòng)作空間的離散化。實(shí)驗(yàn)證明,通過(guò)這種方法使其能夠在離散動(dòng)作空間中有效地學(xué)習(xí)和行動(dòng),面對(duì)不同的流量實(shí)現(xiàn)了自適應(yīng)重構(gòu)拓?fù)洌咕W(wǎng)絡(luò)資源得到了合理的分配,降低了網(wǎng)絡(luò)的平均延遲和丟包率,達(dá)到了優(yōu)化網(wǎng)絡(luò)性能的目的。

    猜你喜歡
    包率網(wǎng)絡(luò)拓?fù)?/a>時(shí)延
    支持向量機(jī)的船舶網(wǎng)絡(luò)丟包率預(yù)測(cè)數(shù)學(xué)模型
    基于通聯(lián)關(guān)系的通信網(wǎng)絡(luò)拓?fù)浒l(fā)現(xiàn)方法
    一種基于噴泉碼的異構(gòu)網(wǎng)絡(luò)發(fā)包算法*
    基于GCC-nearest時(shí)延估計(jì)的室內(nèi)聲源定位
    電子制作(2019年23期)2019-02-23 13:21:12
    電子制作(2018年23期)2018-12-26 01:01:16
    基于改進(jìn)二次相關(guān)算法的TDOA時(shí)延估計(jì)
    一種新的VANET網(wǎng)絡(luò)鏈路丟包率估計(jì)算法
    勞斯萊斯古斯特與魅影網(wǎng)絡(luò)拓?fù)鋱D
    FRFT在水聲信道時(shí)延頻移聯(lián)合估計(jì)中的應(yīng)用
    電測(cè)與儀表(2016年5期)2016-04-22 01:13:46
    佛教| 凤庆县| 收藏| 天津市| 长岭县| 饶平县| 庆阳市| 天峨县| 桑日县| 石棉县| 得荣县| 文水县| 平塘县| 大关县| 林州市| 新巴尔虎左旗| 盘锦市| 延川县| 西宁市| 营山县| 望都县| 温宿县| 登封市| 潮安县| 丰台区| 建水县| 垦利县| 太仆寺旗| 浦东新区| 石家庄市| 淮阳县| 肇州县| 修武县| 鄯善县| 杭锦旗| 克什克腾旗| 南涧| 栾城县| 津南区| 巴彦县| 芮城县|