陶思言,陳光建
(1.四川輕化工大學物理與電子工程學院,四川 自貢 643000;2.四川輕化工大學計算機科學與工程學院,四川 自貢 643000)
傳統(tǒng)的硬件中間件設(shè)備往往高度定制化,其容量固定且有限,只能夠處理固定量的網(wǎng)絡(luò)負載。然而,在現(xiàn)實部署中,入口流量需求會隨著波峰、波谷時間以及特殊網(wǎng)絡(luò)時間產(chǎn)生大規(guī)模的波動。傳統(tǒng)硬件設(shè)備不支持動態(tài)啟動新的硬件設(shè)備以應(yīng)對突發(fā)增長的流量需求。
網(wǎng)絡(luò)功能虛擬化(network function virtualization,NFV)技術(shù)的核心優(yōu)勢之一是支持靈活資源調(diào)度,根據(jù)在線實時變化的流量負載按需分配底層資源,在保障系統(tǒng)性能的同時實現(xiàn)底層資源利用率最大化。對于每個網(wǎng)絡(luò)功能,NFV 通過彈性擴展網(wǎng)絡(luò)功能實例實現(xiàn)底層資源的動態(tài)調(diào)度。目前已經(jīng)有大量的資源調(diào)度機制被提出,主要分為兩類:基于流量速率的資源調(diào)度機制以及基于網(wǎng)絡(luò)功能狀態(tài)的資源調(diào)度機制。然而,上述機制均將每個網(wǎng)絡(luò)功能視為獨立個體,忽略了鄰居網(wǎng)絡(luò)功能節(jié)點對資源調(diào)度的影響。
本文提出了一種基于服務(wù)功能鏈的網(wǎng)絡(luò)功能資源調(diào)度機制(graph-based scaling detection mechanism,GSDM),將鄰居節(jié)點的狀態(tài)信息加入到控制策略中,通過刻畫網(wǎng)絡(luò)功能連接關(guān)系有效地提高資源調(diào)度性能。本文的創(chuàng)新性工作主要有以下4 個方面:
1)將流量速率信息以及網(wǎng)絡(luò)功能實時運行信息結(jié)合在一起實現(xiàn)資源調(diào)度。流量速率信息難以直接對網(wǎng)絡(luò)功能運行狀態(tài)信息進行刻畫,并且容易受到流量多樣性的影響,包括數(shù)據(jù)包大小以及類型等。網(wǎng)絡(luò)功能實時運行狀態(tài)信息則包含許多不可避免的噪音信息,干擾資源調(diào)度結(jié)果。流量速率信息以及網(wǎng)絡(luò)功能實時運行信息可以互補結(jié)合在一起,有效提高資源調(diào)度機制的性能。
2)將綜合特征序列信息作為資源調(diào)度策略的輸入信息。相比于單一時間點的特征信息,特征序列有利于準確過濾噪音信息,以及實現(xiàn)擴展行為的提前預(yù)測。通常情況下,網(wǎng)絡(luò)功能實例啟動需要若干秒,基于序列的提前預(yù)測能夠有效緩解實例啟動過程中的性能下降。GSDM 基于長短時記憶網(wǎng)絡(luò)(long short-term memory,LSTM)模型進行設(shè)計。LSTM能夠有效捕捉序列信息之間的關(guān)系。
3)考慮到網(wǎng)絡(luò)功能連接關(guān)系對資源調(diào)度策略的影響,將鄰居網(wǎng)絡(luò)功能的特征序列加入到控制策略中。將鄰居節(jié)點信息也加入到控制策略中,有效刻畫網(wǎng)絡(luò)功能連接信息,提高資源調(diào)度及時性。
4)考慮到不同鄰居節(jié)點對最終檢測結(jié)果的不同影響,設(shè)計了網(wǎng)絡(luò)功能級的注意力機制,為不同鄰居節(jié)點設(shè)置不同的權(quán)重。注意力機制能夠使得關(guān)鍵鄰居節(jié)點對最終結(jié)果有更大的影響力,并且忽略不重要的鄰居節(jié)點。
GSDM 基于時間序列信息進行擴展動作預(yù)測。目前,人工智能領(lǐng)域已經(jīng)有大量的模型用于刻畫時間序列信息,例如:RNN,LSTM 等。注意力機制在人工智能領(lǐng)域也得到了廣泛應(yīng)用,能夠?qū)π蛄行畔⑦M行處理,抓取其中的關(guān)鍵信息并賦予更高的權(quán)重。本章將對時間序列神經(jīng)網(wǎng)絡(luò)模型以及注意力機制進行具體介紹。
LSTM 是一種特殊的RNN 網(wǎng)絡(luò)模型,通過引入輸入門、遺忘門以及輸出門,能夠解決RNN 模型存在的長期依賴問題并對長序列信息進行處理。目前,LSTM 模型已經(jīng)成功應(yīng)用到各類人工智能問題中,并取得了顯著的效果,例如:計算機視覺[1]、人類活動行為分析[2-3]以及自然語言處理[4]等。
圖1 展示了LSTM 神經(jīng)網(wǎng)絡(luò)模型狀態(tài)轉(zhuǎn)換過程,其具體計算過程如下公式所示。
圖1 LSTM 神經(jīng)網(wǎng)絡(luò)模型Fig.1 LSTM neural network model
在GSDM 模型設(shè)計中,將鄰居節(jié)點的特征序列信息作為輸入信息加入到控制策略中,有效提高資源調(diào)度的及時性。然而,觀察到不同的網(wǎng)絡(luò)功能對于最終的擴展動作影響力是不同的。因此,采用注意力機制為不同的鄰居節(jié)點設(shè)置不同的權(quán)重,更加有效地擴大重要鄰居節(jié)點的影響力以及避免不重要鄰居節(jié)點的干擾,有效提高模型性能。
目前,注意力機制已經(jīng)大量應(yīng)用到分類任務(wù)中,并取得了顯著的性能提升效果[5-8]。注意力機制首先計算各個輸入向量與輸出向量的匹配程度,匹配程度高的節(jié)點得到高權(quán)重,反之,匹配程度低的節(jié)點得到低權(quán)重。具體來講,基于輸入序列的隱含層表示向量,注意力機制聚合輸出一個序列向量s。在最終向量s 中,每個節(jié)點的內(nèi)部狀態(tài)信息ht被賦予不同的權(quán)重。注意力機制的計算過程如下所示:1)根據(jù)ht得到注意力層的隱含狀態(tài)向量ut;2)每個節(jié)點的影響力表示向量at根據(jù)ut與uw之間的相似度利用softmax 計算得到,其中,uw作為整個序列信息的上下文查詢表示向量,起初被隨機設(shè)定,并在訓練過程中不斷得到更新;3)最終輸出向量s 根據(jù)H 向量矩陣的加權(quán)平均獲得。具體計算過程如下公式所示:
為了實現(xiàn)資源調(diào)度,GSDM 包括兩個部分:1)特征采集模塊:在數(shù)據(jù)層實時采集所有網(wǎng)絡(luò)功能的綜合狀態(tài)信息;2)GSDM 模型:根據(jù)采集得到的狀態(tài)信息,在控制層利用神經(jīng)網(wǎng)絡(luò)模型計算每個網(wǎng)絡(luò)功能對應(yīng)的擴展動作。下文將分別對這兩方面內(nèi)容進行具體介紹。
特征采集模塊安裝在數(shù)據(jù)層,用于全面測試所有網(wǎng)絡(luò)功能的運行特征數(shù)據(jù)。本文采用綜合特征作為輸入,包括以下3 個方面的特征:流量速率特征,硬件層特征和應(yīng)用層特征。以下部分將對3 種類型特征的采集方式進行具體描述。
1)流量速率特征:包括入口流量速率和出口流量速率。目前,大部分的NFV 系統(tǒng)(例如:Open-NetVM),提供了成熟的接口用于準確獲取入口以及出口的流量速率。在原型系統(tǒng)實現(xiàn)中,利用NFV 系統(tǒng)提供的接口對流量速率信息進行采集。
2)硬件層特征:GSDM 包含CPU 利用率和內(nèi)存利用率兩個特征?,F(xiàn)有的NFV 系統(tǒng)在虛擬機或者容器中對網(wǎng)絡(luò)功能進行實現(xiàn)。虛擬機或者容器技術(shù)使得每個網(wǎng)絡(luò)功能占用單獨的CPU 以及內(nèi)存區(qū)域,不會被其他的系統(tǒng)進程所調(diào)用。因此,在原型系統(tǒng)實現(xiàn)中,特征采集模塊以privileged 模式運行可以準確地獲取這些硬件層資源利用率信息。
3)應(yīng)用層特征:將數(shù)據(jù)包處理時延作為代表有效地反映當前網(wǎng)絡(luò)功能的運行狀態(tài)。設(shè)計了一種輕量級的時延測量方法。特征采集模塊自動生成樣本流量并發(fā)送到各個網(wǎng)絡(luò)功能進行時延測量。對于網(wǎng)絡(luò)功能而言,它們負責接收樣本數(shù)據(jù)包,并執(zhí)行與其他數(shù)據(jù)包一樣的處理操作,最后默認轉(zhuǎn)發(fā)到特征采集模塊。網(wǎng)絡(luò)功能的時延由發(fā)送時間和接收時間之間的時間差值計算得到。樣本流量的速率可以由用戶自主地進行控制,并只占所有處理數(shù)據(jù)包的很小部分,并不會影響整體系統(tǒng)運行。在設(shè)計的原型系統(tǒng)中,樣本數(shù)據(jù)包采用具有特殊端口的UDP 數(shù)據(jù)包。對于IPv4 數(shù)據(jù)包而言,8 bit 的ToS 字段用于存儲被測量的網(wǎng)絡(luò)功能的“Service ID”,從而方便地對每個網(wǎng)絡(luò)功能的時延進行計算。在時間計算精度方面,采用CPU 硬件時間戳的方法進行測量。在原型系統(tǒng)實現(xiàn)中,采用的CPU 時鐘頻率是1 200 MHz。因此,計算的時延精度在納秒級別。
GSDM 模型的整體結(jié)構(gòu)主要由4 層組成:特征表示層、LSTM 層、鄰居網(wǎng)絡(luò)功能節(jié)點層以及輸出層。以下部分將對每一層進行具體介紹。
2.2.1 特征表示層
對于每一個網(wǎng)絡(luò)功能,將其連續(xù)n 個時間點特征組成的特征序列S 作為輸入信息。每一個特征向量xt由五維特征組成:入口流量速率、出口流量速率、CPU 利用率、內(nèi)存利用率以及數(shù)據(jù)包處理時延。特征序列信息能夠有效地展示網(wǎng)絡(luò)功能狀態(tài)信息隨時間的變化,幫助更好地預(yù)測擴展動作以及過濾噪音信息。
2.2.2 LSTM 層
利用LSTM 模型對每個網(wǎng)絡(luò)功能的特征序列S進行計算,并得到每個網(wǎng)絡(luò)功能的表示向量。LSTM 模型可以有效地捕捉序列信息之間的關(guān)系,并將其映射到低維向量空間。假設(shè)采用了L 層進行訓練,將經(jīng)過L 層LSTM 模型計算輸出的隱含狀態(tài)信息為賦值給,從而得到網(wǎng)絡(luò)功能表示向量。LSTM 模型具體計算過程已經(jīng)在1.1 節(jié)進行了具體介紹。最后,LSTM 層將所有網(wǎng)絡(luò)功能的表示向量反饋到鄰居網(wǎng)絡(luò)功能節(jié)點層作進一步處理。
2.2.3 鄰居網(wǎng)絡(luò)功能節(jié)點層
考慮到鄰居網(wǎng)絡(luò)功能節(jié)點狀態(tài)信息對資源調(diào)度結(jié)果的影響,加入了鄰居網(wǎng)絡(luò)功能節(jié)點層。將鄰居網(wǎng)絡(luò)功能節(jié)點集分為兩個部分,分別是上流網(wǎng)絡(luò)功能節(jié)點集F 以及下流網(wǎng)絡(luò)功能節(jié)點集B。對于每一個在F 或者B 中的鄰居網(wǎng)絡(luò)功能節(jié)點,通過上述LSTM 層獲取到其網(wǎng)絡(luò)功能級別的表示或者??紤]到多種不同鄰居節(jié)點對資源調(diào)度結(jié)果的不同影響,采用了網(wǎng)絡(luò)功能級注意力機制來刻畫影響力大小。最終,上流網(wǎng)絡(luò)功能節(jié)點集表示sF和下流網(wǎng)絡(luò)功能節(jié)點集表示sB通過以下的公式計算得到。其中,以及全部是注意力機制的參數(shù)。
2.2.4 輸出層
最終輸出層通過以下兩個步驟共同完成:
1)向量聚合:將上流網(wǎng)絡(luò)功能節(jié)點集表示sF,下流網(wǎng)絡(luò)功能節(jié)點集表示sB以及當前網(wǎng)絡(luò)功能節(jié)點表示sR集合得到了最終的表示向量m。
2)擴展動作概率計算:m 向量被反饋到softmax層得到所有擴展動作的可能性分布。這個過程通過下面公式計算得到。其中,是指所有可能擴展動作的概率分布,C 表示擴展動作空間大小,以及分別是權(quán)重矩陣以及偏差矩陣。在本文中,設(shè)置C=3,用于表示所有可能擴展動作的數(shù)目,包括擴容、縮容、保持不變3 種類型。
本章對GSDM 模型訓練過程以及原型系統(tǒng)實現(xiàn)進行了具體介紹,并對其他對比資源調(diào)度方案進行了具體說明。
采用深度學習框架TensorFlow 對GSDM 模型進行訓練。為了實現(xiàn)模型訓練,構(gòu)建了一個數(shù)據(jù)集,并按照以下結(jié)果對超參數(shù)進行了設(shè)置。
1)數(shù)據(jù)集:為了實現(xiàn)模型訓練,生成了多種不同類型的流量并將其應(yīng)用到NFV 系統(tǒng)中,獲取了大量的網(wǎng)絡(luò)功能運行狀態(tài)信息。對于每一個網(wǎng)絡(luò)功能,標注了35 000 組數(shù)據(jù),其中,80%用作訓練集,20%用作測試集。對于每一個標注的數(shù)據(jù),為其標注了對應(yīng)的擴展動作“-1”“0”或者“1”,分別表示“擴容”“保持不變”以及“縮容”。
2)超參數(shù)設(shè)置:GSDM 模型的超參數(shù)設(shè)置如下所示:輸入特征序列長度n=20,LSTM 層數(shù)L=2,隱含層維度大小d=200,最大上流網(wǎng)絡(luò)功能集大小,最大下流網(wǎng)絡(luò)功能集大小,學習率,正則項系數(shù)以及dropout 率0.5。
在OpenNetVM 18.05 版本以及dpdk 17.08 版本的基礎(chǔ)上實現(xiàn)了GSDM 原型系統(tǒng)。該原型系統(tǒng)搭建在若干服務(wù)器上,每一個服務(wù)器配備有兩個CPU(Intel(R)Xeon(R)E5-2620 V3)以及兩塊10 G 網(wǎng)卡,運行在Linux 操作系統(tǒng),其內(nèi)核版本為3.10.0。在數(shù)據(jù)層,實現(xiàn)了特征采集模塊,周期性地對所有網(wǎng)絡(luò)功能的特征信息進行采集,周期為1 s。在控制層,將訓練完成的GSDM 模型進行部署,并將采集得到的特征序列信息輸入到訓練完成的GSDM 模型計算對應(yīng)的擴展動作,周期為1 s。
3.2.1 流量生成
采用開源流量生成器MoonGen[9],自動生成多種類型流量進行性能驗證。MoonGen 安裝在一個單獨的服務(wù)器上,并且與安裝原型系統(tǒng)的服務(wù)器進行直接連接。發(fā)包服務(wù)器發(fā)送以及接收數(shù)據(jù)包,并在時延和吞吐量兩方面對GSDM 系統(tǒng)性能進行測量??偨Y(jié)了真實網(wǎng)絡(luò)中常見的需要擴展動作的流量類型,包括緩慢增長型、快速短時型以及快速長時型3種。圖2(a)~圖2(c)分別對以上3 種類型流量進行了展示。
圖2 3 種不同的流量類型Fig.2 Three different traffic types
3.2.2 流量生成
為了進行性能驗證,對以下3 種網(wǎng)絡(luò)功能進行了實現(xiàn),包括虛擬專用網(wǎng)絡(luò),深度包檢測以及網(wǎng)絡(luò)監(jiān)控器。這些網(wǎng)絡(luò)功能按照順序連接在一起組成服務(wù)功能鏈。
1)虛擬專用網(wǎng)絡(luò):利用IPsec 的AH 模式,實現(xiàn)了一個虛擬專用網(wǎng)絡(luò)隧道。具體而言,利用AES算法對數(shù)據(jù)包進行加密,并將其封裝到AH 中進行轉(zhuǎn)發(fā)。
2)入侵檢測系統(tǒng):該網(wǎng)絡(luò)功能基于SnortIDS 進行設(shè)計,通過數(shù)據(jù)包特征匹配識別網(wǎng)絡(luò)攻擊行為。
3)網(wǎng)絡(luò)監(jiān)控器:以數(shù)據(jù)包的五元組為哈希值,將數(shù)據(jù)包劃分為不同的數(shù)據(jù)流。此網(wǎng)絡(luò)功能為每條流計算對應(yīng)的數(shù)據(jù)包數(shù)量。
3.2.3 對比資源調(diào)度方案
現(xiàn)有的資源調(diào)度機制根據(jù)入口流量速率或者網(wǎng)絡(luò)功能實時狀態(tài)信息進行資源調(diào)度。為了進行性能對比,對以下3 種類型的擴展機制進行了實現(xiàn)。
1)基于速率模式:對網(wǎng)絡(luò)功能的單獨實例進行處理能力測量,并假定網(wǎng)絡(luò)功能處理能力與實例數(shù)目呈線性關(guān)系。一旦發(fā)現(xiàn)輸入流量速率超過網(wǎng)絡(luò)功能處理能力則觸發(fā)擴展動作,增加一個實例保障系統(tǒng)性能。
2)基于狀態(tài)模式:測量每個網(wǎng)絡(luò)功能發(fā)生擁塞時的時延,并設(shè)置其為狀態(tài)閾值。一旦監(jiān)控得到的數(shù)據(jù)時延超過了閾值,則采取擴展動作。
3)基于MLP 模式:此方案將流量速率以及網(wǎng)絡(luò)功能實時狀態(tài)信息均作為輸入信息,也即五維特征(包括入口流量速率,出口流量速率,CPU 利用率,內(nèi)存利用率,時延),并利用多層感知器(multi-layer perceptron,MLP)構(gòu)建一個全連接神經(jīng)網(wǎng)絡(luò),建立五維綜合特征與擴展動作之間的對應(yīng)關(guān)系。
本章對GSDM 系統(tǒng)進行了性能驗證并與其他資源調(diào)度方案進行了對比分析。性能驗證包括3 個方面:
1)離線模型性能:基于生成的數(shù)據(jù)集在精準率、召回率、F1 值3 個評價指標上進行性能測量;
2)在線系統(tǒng)性能:基于實現(xiàn)的原型系統(tǒng)上在系統(tǒng)總開銷、時延、吞吐量3 個評價指標上進行性能評價對比;
3)模型時間分析:對模型的離線訓練時間以及在線運行時間進行分析,并進一步分析該擴展檢測機制對NFV 系統(tǒng)性能的影響。
將實現(xiàn)的GSDM 模型與其他3 種資源調(diào)度方案在3 個性能參數(shù)上進行了性能對比,包括精準率(precision)、召回率(recall)、F1 值(F1 value)。對于每種算法而言,將其結(jié)果標注為TP(true positives)、TN(true negatives)、FP(false positives)以及FN(false negativess)4 種類型。TP 是指樣本以及預(yù)測結(jié)果均為+1 的數(shù)據(jù);TN 表示樣本與預(yù)測結(jié)果均為0 的數(shù)據(jù);FP 是指樣本為0 然而預(yù)測結(jié)果為+1 的數(shù)據(jù),F(xiàn)N 表示樣本為+1,預(yù)測結(jié)果為0 的數(shù)據(jù)。根據(jù)上述標注數(shù)據(jù),采用以下公式所展示的方法對精準率、召回率以及F1 值進行計算。
精準率是指預(yù)測為正例的數(shù)據(jù)中預(yù)測正確的數(shù)據(jù)個數(shù),能夠有效地表示資源調(diào)度機制對噪音信息的過濾程度。高精準率能夠避免錯誤擴展動作導致的不必要運維開銷。召回率指真正為正例的數(shù)據(jù)中預(yù)測正確的數(shù)據(jù)個數(shù),能夠有效地表示資源調(diào)度機制的及時性。高召回率機制能夠避免延遲的擴展動作造成的系統(tǒng)性能下降。通常情況下,精準率以及召回率此消彼長。F1 值根據(jù)精準率以及召回率綜合計算獲得,能夠?qū)C制性能作出綜合測評。
圖3 展示了具體的性能對比結(jié)果,發(fā)現(xiàn)GSDM同時實現(xiàn)了最高的精準率和召回率,也即同時實現(xiàn)系統(tǒng)性能提升以及底層資源利用率提升。將其他3種資源調(diào)度機制進行對比,發(fā)現(xiàn)最佳方案是基于MLP 模式方案。這也證明了綜合特征相比于單一特征,能夠?qū)崿F(xiàn)不同的特征之間的性能互助,提升檢測性能。與最佳的基于MLP 模式方案相比較,GSDM 模型在召回率方面提升了2.75%,在精準率方面提升了1.2%,在F1 值方面提升了2.17%。
圖3 離線系統(tǒng)總開銷對比Fig.3 Comparison of total overhead of offline system
4.2.1 性能指標
資源調(diào)度策略的評價指標必須能夠綜合考量資源調(diào)度的時間是否準確,包括過早檢測造成的高運維開銷以及過晚檢測造成的系統(tǒng)性能下降兩方面。通常情況下,運維開銷以及系統(tǒng)性能兩方面的目標是此消彼長的關(guān)系。如式(22)所示,將兩者相加得到整體的系統(tǒng)開銷,綜合判斷資源調(diào)度策略的性能。
圖4 展示了在3 種流量場景下,GSDM 與其他資源調(diào)度機制的系統(tǒng)總開銷對比結(jié)果。結(jié)果顯示:在所有場景下,GSDM 系統(tǒng)均超過了其他機制,實現(xiàn)了系統(tǒng)總開銷的最小化。以下部分將對每種流量場景下的具體信息進行分析說明。
圖4 在線系統(tǒng)總開銷對比Fig.4 Comparison of total overhead of online system
4.2.2 緩慢增長型流量場景
圖5 和下頁圖6 展示了緩慢增長型流量場景下的時延以及吞吐量變化過程。以納秒的精度對時延進行了測量。為了更好地展示時延變化過程,對時延進行取10 的對數(shù)處理。面對變化的數(shù)據(jù)包大小以及類型,基于速率模式機制不能夠應(yīng)對流量多樣性,導致延遲的擴展動作、數(shù)據(jù)包丟失懲罰以及系統(tǒng)性能的下降。
圖5 緩慢增長型流量場景下的時延對比Fig.5 Delay comparison in slow increase traffic scenarios
圖6 緩慢增長型流量場景下的吞吐量對比Fig.6 Throughput comparison in slow increase traffic scenarios
相比于基于速率模式機制,基于狀態(tài)模式機制依據(jù)網(wǎng)絡(luò)功能的實時狀態(tài)進行資源調(diào)度,可以有效忽略流量類型的多樣性,提高調(diào)度的及時性。然而,在系統(tǒng)剛啟動的階段,系統(tǒng)的不穩(wěn)定性容易造成噪音信息輸入,導致資源調(diào)度策略的不準確性。錯誤的檢測結(jié)果使得網(wǎng)絡(luò)功能實例頻繁增加以及刪減,對底層資源造成了極大的浪費以及不必要高昂運維開銷。
基于MLP 模式機制將綜合特征信息作為輸入,使得兩類特征互補,有效地適應(yīng)流量的多樣性以及實現(xiàn)噪音過濾?;贛LP 模式機制證明了綜合特征信息相比于單一特征信息的有效性。
與上述機制相比,GSDM 機制以高維特征序列作為輸入信息,能夠更好地提前預(yù)測擴展動作以及過濾噪音信息。除此之外,GSDM 能夠根據(jù)上流或者下流節(jié)點的狀態(tài)信息,幫助判斷自身節(jié)點是否有擴展需求。特征序列信息以及鄰居節(jié)點信息的引入,使得GSDM 有效地提高了準確性和及時性。
4.2.3 快速短時型流量場景
圖7 和圖8 展示了快速短時型流量場景下的時延以及吞吐量變化過程圖。在這種類型的流量場景下,基于速率模式、基于狀態(tài)模式以及基于MLP模式方法均立即采取了擴展操作保證系統(tǒng)性能。然而,實例的增加往往需要幾分鐘或者幾秒用于實例啟動。因此,新增加的實例并沒有服務(wù)于短時增長的流量,反而造成了系統(tǒng)頻繁的實例增加或者刪減。與之相比,GSDM 以連續(xù)時間的特征序列為輸入替代單一時間節(jié)點特征,能夠有效地對流量類型進行識別,避免執(zhí)行不必要的擴展動作。最終,GSDM機制在系統(tǒng)性能幾乎一致的情況下,避免實例的頻繁增加和刪減,有效地提高了資源利用率以及降低了系統(tǒng)總開銷。
圖7 快速短時型流量場景下的時延對比Fig.7 Delay comparison in fast short-term traffic scenarios
圖8 快速短時型流量場景下的吞吐量對比Fig.8 Throughput comparison in fast short-term traffic scenarios
4.2.4 快速長時型流量場景
圖9 和圖10 展示了快速長時型流量場景下的時延以及吞吐量的變化過程圖。對于基于狀態(tài)模式方案,在系統(tǒng)剛啟動的階段作出了錯誤的擴展判斷導致了資源的浪費。除此之外,基于狀態(tài)模式、基于速率模式以及基于MLP 模式表現(xiàn)基本一致。三者的缺陷在于必須等待上流節(jié)點完成彈性擴展,下流節(jié)點才能感應(yīng)到擴展需求。與之相比,GSDM 面對網(wǎng)絡(luò)突發(fā)事情造成的大幅流量增長時,利用鄰居網(wǎng)絡(luò)功能的狀態(tài)信息,能夠?qū)Χ鄠€網(wǎng)絡(luò)功能同時啟動擴展操作。對于系統(tǒng)整體性能而言,GSDM 有效地提高了資源調(diào)度的及時性,并進一步在時延和吞吐量兩方面提高了系統(tǒng)性能。
圖9 快速長時型流量場景下的時延對比Fig.9 Delay comparison in fast long-term traffic scenarios
圖10 快速長時型流量場景下的吞吐量對比Fig.10 Throughput comparison in fast long-term traffic scenarios
本節(jié)對神經(jīng)網(wǎng)絡(luò)模型的性能進行具體分析,包括時間開銷以及內(nèi)存開銷兩方面,從而有效說明神經(jīng)網(wǎng)絡(luò)模型運行對NFV 系統(tǒng)整體性能的影響。
4.3.1 離線訓練時間
針對于離線訓練,訓練一個單獨的網(wǎng)絡(luò)功能需要大概250 個迭代,每一個迭代大概花費500 ms。總體而言,GSDM 可以迅速地收斂。傳統(tǒng)方案需要幾個月甚至幾周的時間進行設(shè)計。與之相比,GSDM 模型可以有效地降低方案設(shè)計時間。
4.3.2 在線運行時間
對訓練好的GSDM 模型在線運行時間進行了測量,運行時間大約在0.12 s~0.14 s 之間。與其他后續(xù)的資源調(diào)度策略相比(例如:實例啟動以及實例遷移需要幾十秒甚至幾分鐘),GSDM 在線運行時間幾乎可以忽略不計,對系統(tǒng)整體資源調(diào)度策略影響非常小。
4.3.3 內(nèi)存開銷分析
本文提出的神經(jīng)網(wǎng)絡(luò)模型較為簡單,僅需要對多個網(wǎng)絡(luò)功能的特征序列進行處理。在實際應(yīng)用中,相較于在數(shù)據(jù)中心運行的大型NFV 系統(tǒng),訓練完成的神經(jīng)網(wǎng)絡(luò)模型在線運行帶來的內(nèi)存開銷非常微小,幾乎可以忽略不計。
本文提出了一種基于服務(wù)功能鏈的資源調(diào)度的機制——GSDM,將鄰居節(jié)點信息加入到輸入信息中,有效地刻畫網(wǎng)絡(luò)功能連接關(guān)系對資源調(diào)度機制的影響??紤]到高維輸入信息難以采用傳統(tǒng)數(shù)學建模方法進行有效刻畫,GSDM 利用神經(jīng)網(wǎng)絡(luò)模型構(gòu)建了高維特征序列(自身以及鄰居節(jié)點特征序列)與擴展動作之間的對應(yīng)關(guān)系。除此之外,GSDM設(shè)計了網(wǎng)絡(luò)功能級的注意力機制,有效地區(qū)分不同的鄰居節(jié)點并設(shè)立不同的權(quán)重,從而捕捉對最終結(jié)果影響力更大的鄰居節(jié)點。實現(xiàn)了GSDM 的原型系統(tǒng),并將其與現(xiàn)有的各類資源調(diào)度機制進行了對比分析。實驗結(jié)果表明,GSDM 機制能夠快速準確地發(fā)現(xiàn)系統(tǒng)運行中的瓶頸網(wǎng)絡(luò)功能節(jié)點,并為其分配更多的資源保障性能,在多種網(wǎng)絡(luò)流量場景下均超過其他機制,表現(xiàn)出最好的性能。