• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于時空特征提取的智能網(wǎng)絡切片算法

    2022-02-11 09:32:24肖柏狄李榮鵬趙志峰張宏綱
    無線電通信技術 2022年1期
    關鍵詞:接入網(wǎng)特征提取切片

    肖柏狄,李榮鵬,趙志峰,2,張宏綱

    (1.浙江大學 信息與電子工程學院,浙江 杭州 310027;2.之江實驗室,浙江 杭州 311121)

    0 引言

    當前,5G網(wǎng)絡已經(jīng)成為數(shù)字社會發(fā)展不可缺少的關鍵一環(huán),與4G網(wǎng)絡相比,其提供的海量服務可以滿足用戶更廣泛的需求,而其中大多數(shù)都是4G所不能實現(xiàn)的。

    ITU為5G定義了3個主要應用場景:增強移動帶寬(eMBB)、大規(guī)模機器類通信(mMTC)和超高可靠低時延通信(URLLC)[1]。其中eMBB憑借其高帶寬主要應用于AR/VR等服務,mMTC則因為連接密度大而應用于物聯(lián)網(wǎng)、智能家居等服務,而低時延和可靠性高的URLLC則可應用于自動駕駛、遠程手術等服務。

    為了適應5G多樣化的服務,需要一個能夠支持多種服務場景需求的網(wǎng)絡,而這是4G這樣單一物理網(wǎng)絡難以做到的。網(wǎng)絡切片作為5G的關鍵技術之一,能夠將一個物理網(wǎng)絡切割成多個虛擬網(wǎng)絡切片,在相同的物理基礎設施上建設具有不同特性的邏輯網(wǎng)絡,每一個切片提供一種服務。5G網(wǎng)絡切片也可分為核心網(wǎng)切片、承載網(wǎng)切片以及接入網(wǎng)切片三類[2]。

    切片資源的管理也有多種分類,包括靜態(tài)管理(硬切片)、半靜態(tài)管理以及動態(tài)管理(軟切片)[3]。在虛擬化的邏輯網(wǎng)絡上對各切片進行資源的再次分配和調(diào)度,產(chǎn)生新的切片,這就是資源的動態(tài)管理。

    另一方面,用戶使用的服務類型會經(jīng)常發(fā)生變化,用戶的移動也會導致服務基站的變更,這就導致資源分配需要實時進行動態(tài)調(diào)整,預測難度也大大增加。因此,資源的動態(tài)管理是最符合網(wǎng)絡切片理念的分配方法,具有很高的靈活性,但實現(xiàn)難度也是最高的。抓取這些變化中的時空特征,能夠大幅提高動態(tài)分配的準確性,做到更好的預測。

    目前,資源動態(tài)管理的研究仍處于起步階段,業(yè)界也正在進行各種嘗試,采用了包含機器學習方法在內(nèi)的各類算法,其中較為可行的一類為強化學習算法[4-6]。

    本文基于接入網(wǎng)切片,提出了一種使用時空特征提取的深度強化學習方法,從連續(xù)時間段內(nèi)的用戶信息中提取時間特征,學習用戶的行為習慣,并通過提取基站的空間特征,學習在下行傳輸時各個基站相互之間的影響,最后通過深度強化學習的方法來進行切片資源分配的決策學習。

    1 接入網(wǎng)智能切片

    圖1為多基站和多用戶的接入網(wǎng)環(huán)境模型,接入網(wǎng)中的基站是以等間距的蜂窩網(wǎng)絡的形式分布的。

    圖1 接入網(wǎng)切片F(xiàn)ig.1 Radio access network slicing

    各基站可分配總帶寬相同,支持的服務種類也相同,在其范圍內(nèi)的用戶都屬于自己。而每個用戶所使用的服務種類也各不相同,并且會進行隨機移動。

    以dm={dm1,…,dmn,…,dmN}表示第m個基站中各切片的用戶需求,也就是需要的數(shù)據(jù)包數(shù)量,wm={wm1,…,wmn,…,wmN}表示第m個基站分配給各切片的帶寬,并使用系統(tǒng)效益J來對資源分配策略進行評估。J由頻譜效率(Spectrum Efficiency,SE)和用戶滿意度(Service level agreement Satisfaction Ratio,SSR)的權重和決定。SE可以通過香農(nóng)定理用傳輸信噪比得到,SSR定義為傳輸數(shù)據(jù)包的成功率。系統(tǒng)效益J的計算公式為:

    wmi=c·Δ,?i∈[1,2,…,N],

    (1)

    式中,c為整數(shù);Δ為最小帶寬分配粒度;α和β={β1,β2,…,βN}為代表權重的超參數(shù)。

    因為該模型與強化學習的應用環(huán)境具有很高的相似度,因此可以將這個分配問題轉化為馬爾科夫決策問題(Markov Decision Problem,MDP)[7]。MDP的構成要素主要包含了狀態(tài)空間S、動作空間A、轉移概率P以及即時獎勵r,這些都可以與接入網(wǎng)模型一一對應。

    ④ 即時獎勵r以及折扣系數(shù)γ:基站Bm在當前時刻t會根據(jù)系統(tǒng)環(huán)境得到一個即時獎勵r,由式(2)決定:

    (2)

    進一步地,將深度學習和強化學習結合在一起,通過深度強化學習進行決策學習可以得到更好的效果。

    2 智能網(wǎng)絡切片的深度強化學習算法

    旨在解決上述問題,本文提出了基于時空特征提取的智能網(wǎng)絡切片算法。該算法采用深度強化學習進行帶寬分配的決策學習,使用了深度Q網(wǎng)絡(Deep Q-Network,DQN)。為了對輸入數(shù)據(jù)進行預處理從而獲取其更深層的特征,算法也采用了機器學習的方法來進行時空特征提取,其中利用圖注意力網(wǎng)絡(Graph Attention Network,GAT)學習基站的空間特征,利用長短期記憶網(wǎng)絡(Long Short-Term Memory,LSTM)學習用戶的行為習慣。

    2.1 圖注意力網(wǎng)絡(GAT)

    如圖1所示,將接入網(wǎng)中的基站看作節(jié)點,相鄰基站之間的聯(lián)系看作節(jié)點之間的邊,蜂窩網(wǎng)絡就是圖結構。因此,可以將圖注意力網(wǎng)絡應用在輸入數(shù)據(jù)的預處理上,來學習基站相互之間的影響。

    GAT用于圖結構處理中[8-9],屬于圖神經(jīng)網(wǎng)絡(Graph Neural Network,GNN)的一類變種。

    以圖2為例,假設圖結構中N個節(jié)點對應的特征向量為h1,h2,…,hN,向量的長度都為F,GAT先將特征向量都乘上權重矩陣W,映射為維度更高的向量,例如i節(jié)點對應的Whi以及j節(jié)點對應的Whj,對應的長度為F′。利用自注意力機制,可以得到i節(jié)點和j節(jié)點之間的注意力因子:

    eij=a(Whi,Whj),

    (3)

    式中,a為單層的前饋神經(jīng)網(wǎng)絡。

    圖2 圖注意力層的結構Fig.2 Structure of GAT layer

    通過eij可以得知j節(jié)點對于i節(jié)點的重要性。利用softmax進行歸一化,可以進一步得到標準化的注意力因子:

    (4)

    式中,Ni為i節(jié)點的鄰點集合。

    最后,以注意力因子作為權重,就可以得到每個節(jié)點對應的新的向量作為輸出:

    (5)

    式中,σ為激活函數(shù)。

    還可以使用多頭注意力機制(Multi-head Attention),利用K個相互平行獨立的圖注意力層對特征向量進行處理,最后取平均。

    (6)

    2.2 長短期記憶網(wǎng)絡(LSTM)

    LSTM屬于循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network,RNN)的一種,用于處理序列,提取其中的時間特征,常用于自然語言處理當中[10]。

    LSTM單元的核心由3個門組成:記憶門it、遺忘門ft以及輸出門ot。在當前的LSTM單元中,將上一個單元得到的歷史綜合信息Ct-1和特征向量ht-1與當前單元的輸入向量xt進行一系列運算,可以選擇刪除或者添加綜合信息中的信息,對信息進行記憶和遺忘,提取出信息的時間特征,如圖3所示。

    it=σ(Wi·[ht-1,xt]+bi),

    (7)

    ft=σ(Wf·[ht-1,xt]+bf),

    (8)

    (9)

    隨后,利用公式(7)~(9)得到的結果更新綜合信息Ct,并利用輸出門ot計算綜合信息中與當前信息相關的部分,輸出ht。

    (10)

    ot=σ(Wo·[ht-1,xt]+bo),

    (11)

    ht=ot⊙tanh (Ct)。

    (12)

    式中,Wi、Wf、Wo、WC、bi、bf、bo、bC是該層的權重矩陣,即待訓練的網(wǎng)絡參數(shù),tanh為激活函數(shù)。

    圖3 LSTM單元的結構Fig.3 Structure of LSTM unit

    2.3 深度Q網(wǎng)絡(DQN)

    深度強化學習是強化學習和深度學習的結合,也就是使用神經(jīng)網(wǎng)絡來進行深度學習,提升強化學習的感知能力,以DQN及其各個變種為代表[11-12]。

    如圖4所示,將系統(tǒng)當前的狀態(tài)s輸入到DQN中,DQN就能夠通過多層全連接層進行學習,并輸出在狀態(tài)s下采取動作a所對應的獎勵,用Q值也就是Q(s,a)來表示:

    Q(s,a)=Es′,a′[r(s,a,s′)+γQ(s′,a′)],

    (13)

    式中,s′和a′分別代表下一個狀態(tài)及其采取的動作。

    圖4 DQN的結構Fig.4 Structure of DQN

    DQN要做的就是找到最適合狀態(tài)s的動作a*,也就是Q值最大的動作:

    (14)

    同時,DQN同時訓練兩個網(wǎng)絡,一個用于產(chǎn)生Q值的目標值,也就是目標Q網(wǎng)絡,一個用于實時的參數(shù)更新和Q值計算,也就是當前Q網(wǎng)絡。每進行T步訓練,當前Q網(wǎng)絡的參數(shù)都會復制給目標Q網(wǎng)絡。因此,訓練的目標就是使兩個Q網(wǎng)絡所預測的Q值盡可能地接近,從而使Q值收斂。參數(shù)更新使用的損失函數(shù)如下:

    (15)

    2.4 算法整體框架

    綜合以上3種網(wǎng)絡,提出了基于時空特征提取的深度強化學習算法,其框架如圖5所示。

    圖5 算法整體框架Fig.5 Architecture of the algorithm

    算法1 基于時空特征提取的智能網(wǎng)絡切片算法輸入:系統(tǒng)的狀態(tài)stm以及對應的獎勵rt輸出:切片對應的帶寬分配動作atm1:對模型參數(shù)和經(jīng)驗回放的緩存器F進行初始化;2:設定LSTM的時間步長T和訓練總次數(shù)N;3:從t=1到N/5:4: 從系統(tǒng)中獲取當前狀態(tài)stm并隨機地選取動作atm;5: 從系統(tǒng)中觀測到獎勵rt以及st+1m;6: 將(stm,atm,st+1m,rt)存儲到F當中;7:從t=N/5到N:8: 從系統(tǒng)中獲取當前狀態(tài)stm并生成狀態(tài)序列Stm={st-T+1m,st-T+2m,…,stm};9: 將stm輸入到嵌入層當中得到Htm={ht-T+1m,ht-T+2m,…,htm};10: 將htm輸入到第一層圖注意力層當中得到Gtm={gt-T+1m,gt-T+2m,…,gtm};11: 將gtm輸入到第二層圖注意力層當中得到Gtm'={gt-T+1m',gt-T+2m',…,gTm'};12: 將gtm和gtm'輸入到LSTM當中,分別得到ltm'以及l(fā)tm″;13: 將ltm'和ltm″拼接在一起,即ltm=ltm'||ltm″,輸入到DQN中,使用ε-貪婪算法并選擇動作atm,其中ε∈[0,1],并隨著訓練的進行增大:atm=argmaxa∈AQ(ltm,a;θu),概率為ε隨機選取,否則 ;14: 觀測到獎勵rt和下一時刻的狀態(tài)st+1m;15: 將(stm,atm,st+1m,rt)存儲到F當中;16: 從F當中隨機選取一批數(shù)據(jù)進行訓練并更新參數(shù)。

    此外,該算法還使用了兩項技術,通過經(jīng)驗回放來存儲過去的狀態(tài)、動作及對應的獎勵,在參數(shù)更新時隨機選取存儲過的狀態(tài),解決了輸入樣本依賴性過高的問題。同時,算法利用ε-貪婪作為經(jīng)驗回放的輔助,在訓練初期偏向于隨機選取動作,盡可能地遍歷動作空間中的動作。

    3 實驗結果和分析

    算法的測試基于圖1的模型,也就是一個包含19個基站的蜂窩網(wǎng)絡,大小為160 m×160 m,一共包含了2 000名使用者。每個基站的總帶寬設置為10.8 MHz,分配給3種不同的服務:VoLTE、eMBB以及URLLC,最小帶寬分配粒度為0.54 MHz。其他具體的參數(shù)設置如表1所示[13-14]。

    表1 具體參數(shù)設置

    該算法的測試將一些傳統(tǒng)算法和人工智能算法進行對比,其中LSTM-A2C將LSTM與A2C結合,是使用時間特征提取的強化學習算法;GAT-DQN將GAT與DQN結合,為使用空間特征提取的強化學習算法[15-16]。以式(1)中的系統(tǒng)效益作為系統(tǒng)評價指標之一,將α設置為0.01,β設置為[1,1,1]。實驗中算法的訓練迭代次數(shù)都是10 000次,采用采樣和滑動平均進行結果的處理。

    在相同環(huán)境下,本文對各種方法進行了多個指標上的比較,得到了以下結果,其中圖6為系統(tǒng)效益曲線,圖7為頻譜效率曲線,圖8為URLLC的用戶滿意度曲線。

    圖6 各方法的系統(tǒng)效益(Δ=0.54 MHz)Fig.6 System utility of each method(Δ=0.54 MHz)

    圖7 各方法的頻譜效率(Δ=0.54 MHz)Fig.7 Spectrum efficiency of each method(Δ=0.54 MHz)

    圖8 各方法的URLLC用戶滿意度(Δ=0.54 MHz)Fig.8 Service level agreement Satisfaction Ratio of each method(Δ=0.54 MHz)

    對于系統(tǒng)效益,本算法在收斂速度以及效益值上都是最優(yōu)的。對于不使用ε-貪婪所得到的系統(tǒng)效益,本算法達到了6.72左右,而DQN的最終系統(tǒng)效益約為6.42,只使用時間特征提取的LSTM-A2C的最終系統(tǒng)效益約為6.19,只使用空間特征提取的GAT-DQN的最終系統(tǒng)效益約為6.62。由此可見,加入了時空特征提取相較于LSTM-A2C和GAT-DQN能夠得到一定的性能提升,相較于DQN更是有5%左右的提升。

    對于頻譜效率,本算法在收斂速度和頻譜效率上也是最優(yōu)的。對于不使用ε-貪婪所得到的頻譜效率,本算法達到了390左右,相較于LSTM-A2C的約335以及DQN的約360都有較為明顯的提升,而GAT-DQN約為380,與之相比也有了一定的提升。

    URLLC的服務需求最難滿足,各方法的差異也更容易體現(xiàn)出來。對于URLLC的用戶滿意度,本算法在收斂速度和用戶滿意度上性能有所下降。對于不使用ε-貪婪所得到的用戶滿意度,本算法達到了0.82左右,GAT-DQN約為0.83,LSTM-A2C和DQN都為0.88左右。因此,對于用戶滿意度,進行時空特征提取并沒有做到性能上的提升,反而有了一定的下降。

    4 結束語

    本文提出了一種基于時空特征提取的深度學習算法,通過使用GAT和LSTM整合蜂窩網(wǎng)絡中各基站的時空特征,并加入DQN來得到能夠實現(xiàn)智能網(wǎng)絡切片的資源分配策略。

    實驗的分析和結論說明,在接入網(wǎng)環(huán)境下,相比于只使用LSTM進行時間特征提取或只使用GAT進行空間特征提取的的深度強化學習算法,二者結合進行時空特征提取可以達到更好的資源分配效果,強化了對用戶行為以及資源需求變化的預測,并且在用戶滿意度優(yōu)秀的同時,增加了對頻譜的利用率,綜合性能也有了一定的提升,更適合網(wǎng)絡切片的智能資源分配。

    猜你喜歡
    接入網(wǎng)特征提取切片
    基于Daubechies(dbN)的飛行器音頻特征提取
    電子制作(2018年19期)2018-11-14 02:37:08
    有線接入網(wǎng)技術在鐵路通信工程中的應用
    Bagging RCSP腦電特征提取算法
    基于SDN與NFV的網(wǎng)絡切片架構
    電信科學(2016年11期)2016-11-23 05:07:58
    腎穿刺組織冷凍切片技術的改進方法
    冰凍切片、快速石蠟切片在中樞神經(jīng)系統(tǒng)腫瘤診斷中的應用價值比較
    基于MED和循環(huán)域解調(diào)的多故障特征提取
    通過骨干網(wǎng)對接入網(wǎng)業(yè)務進行保護的探討
    電信接入網(wǎng)演進對EPON技術的應用
    河南科技(2014年10期)2014-02-27 14:09:00
    關于寬帶光纖接入網(wǎng)的發(fā)展趨勢
    河南科技(2014年4期)2014-02-27 14:06:59
    都江堰市| 陕西省| 清河县| 诸城市| 克什克腾旗| 邵武市| 肇源县| 张家界市| 巴林左旗| 宜城市| 福州市| 中宁县| 报价| 平阴县| 莫力| 饶阳县| 社旗县| 天等县| 濮阳县| 株洲市| 日照市| 鄂托克旗| 馆陶县| 平罗县| 桐柏县| 青浦区| 通海县| 宁阳县| 乐安县| 南皮县| 夹江县| 屯昌县| 沁源县| 揭阳市| 泗阳县| 桓仁| 阿巴嘎旗| 阿勒泰市| 逊克县| 南投市| 四平市|