李 超 熊 楨 蔣俊康
(江西理工大學(xué)理學(xué)院,江西 贛州341000)
隨著移動(dòng)通信技術(shù)的發(fā)展,移動(dòng)端設(shè)備的大范圍普及,4G、5G給人們帶來(lái)了極大的便利?;咀鳛槌休d網(wǎng)絡(luò)流量的基礎(chǔ)設(shè)施,其流量負(fù)荷問(wèn)題變得越來(lái)越重要。由于基站數(shù)量巨大,無(wú)法通過(guò)人工實(shí)時(shí)關(guān)注每個(gè)基站的流量變化,需要給每個(gè)基站設(shè)置根據(jù)時(shí)段開(kāi)關(guān)自動(dòng)載頻的程序,這樣就需要知道一段時(shí)間內(nèi)基站流量關(guān)于時(shí)段的變化,特別是基站在每個(gè)小時(shí)的上下流量值,從而可以知道基站在每個(gè)時(shí)段需要的載頻的數(shù)量,進(jìn)而設(shè)置一定時(shí)間內(nèi)基站載頻自動(dòng)開(kāi)關(guān)的程序。
基于python中pandas庫(kù)對(duì)數(shù)據(jù)進(jìn)行讀取,根據(jù)信息進(jìn)行相關(guān)統(tǒng)計(jì)分析,讀取發(fā)現(xiàn)數(shù)據(jù)共有144138200條,其中指標(biāo)分別為日期、時(shí)間、小區(qū)編號(hào)、上行業(yè)務(wù)量GB、下行業(yè)務(wù)量GB。為了對(duì)小區(qū)流量數(shù)據(jù)更好地統(tǒng)計(jì)描述,先對(duì)數(shù)據(jù)清理,采用季節(jié)性自回歸綜合滑動(dòng)平均模型對(duì)流量進(jìn)行預(yù)測(cè),最后使用GOSS(基于梯度的單邊采樣)算法進(jìn)行訓(xùn)練樣本采樣的優(yōu)化。
本文是利用模型來(lái)進(jìn)行小區(qū)流量預(yù)測(cè),對(duì)眾多模型中得到一個(gè)最佳的,對(duì)常用的評(píng)價(jià)模型是RMSE(均方根誤差),其定義如下:
其中,yi表示的是第i個(gè)樣本的真實(shí)值,yi表示的是第i個(gè)樣本的預(yù)測(cè)值,n表示的是樣本的個(gè)數(shù).RMSE使用的是平均誤差,對(duì)模型的評(píng)價(jià)在本文中會(huì)較為準(zhǔn)確。
利用python讀取選取附件二中小區(qū),提取出該小區(qū)2018年3月1日至4月19日的數(shù)據(jù)作為數(shù)據(jù)集,分別提取“月”、“天”、“小時(shí)”為特征,定義“2018-03-0100:00:00”為初始日期,取80%的數(shù)據(jù)為訓(xùn)練集,20%的數(shù)據(jù)為驗(yàn)證集。
2.2.1 LightGBM算法預(yù)測(cè)
在jupyter notebook中導(dǎo)入lightgbm、LGBMRegressor進(jìn)行預(yù)測(cè),導(dǎo)入sklearn調(diào)用mean_squaered_error()函數(shù)計(jì)算均方根誤差,導(dǎo)入小區(qū)的流量數(shù)據(jù) (以221小區(qū)上行流 量為例)進(jìn)行預(yù)測(cè),其均方差誤差為0.0014008。為了提高模型的精度,同時(shí)提升模型 的泛化能力,通過(guò)隨機(jī)搜索最優(yōu)參數(shù)來(lái)提升算法準(zhǔn)確性,導(dǎo)入 sklearn.model_selection庫(kù)中RandomizedSearchCV模塊,來(lái)隨機(jī)搜索最優(yōu)參數(shù),對(duì)于LightGBM算法,利用隨機(jī)搜索參數(shù)訓(xùn)練1000次。一般來(lái)說(shuō),訓(xùn)練數(shù)值越大,獲得參數(shù)精度越大,但是搜索時(shí)間越長(zhǎng),設(shè)置參數(shù)num_leaves為30至150迭代、參數(shù)min_child_sample為20至500迭代,最終通過(guò)超參數(shù)搜索后RMSE為0.0013629,準(zhǔn)確度提升了2.70%。
2.2.2 SVR算法預(yù)測(cè)
導(dǎo)入sklearn.svm中SVR庫(kù),帶入小區(qū)流量分別采用線性核函數(shù)初始化的SVR、多項(xiàng)式核函數(shù)初始化的SVR和徑向基核函數(shù)初始化的SVR進(jìn)行預(yù)測(cè),由于三者RMSE誤差效果較差,支持向量機(jī)的效果普遍較差,對(duì)算法下一步的參數(shù)優(yōu)化也毫無(wú)意義。
長(zhǎng)短期記憶模型(Long-ShortTermMemory,LSTM)是一種時(shí)間循環(huán)神經(jīng)網(wǎng)絡(luò),是為了解決一般的RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))存在的長(zhǎng)期依賴(lài)問(wèn)題。LSTM是一種經(jīng)過(guò)精心巧妙設(shè)計(jì)的RNN網(wǎng)絡(luò),盡管LSTM和原始RNN總的來(lái)看都會(huì)有三大層,即輸入層、隱含層、輸出層,但是LSTM和原始RNN在隱含層設(shè)計(jì)上有較大的差異,主要是LSTM是在隱含層具備特殊的cell結(jié)構(gòu)(圖1)。
圖1 LSTM隱藏狀態(tài)計(jì)算示意圖
基于深度學(xué)習(xí)對(duì)短小區(qū)流量預(yù)測(cè),采用LSTM算法,在jupyter notebook中導(dǎo)入keras.models庫(kù)中的Sequential,導(dǎo)入keras.layers中的Dense、LSTM、Dropout模塊。先將數(shù)據(jù)集重構(gòu)為負(fù)荷LSTM要求的數(shù)據(jù)格式,即樣本、時(shí)間步、特征,帶入測(cè)試集數(shù)據(jù)和驗(yàn)證集數(shù)據(jù)設(shè)置參數(shù)epochs為2000,參數(shù)batch_size為32,參數(shù)verbose為2,測(cè)試221號(hào)小區(qū)流量輸入,其RMSE誤差為0.00016501 ,繪制出預(yù)測(cè)曲線效果圖,如圖2。
圖2 LSTM預(yù)測(cè)效果圖
基于簡(jiǎn)單的蜂窩網(wǎng)絡(luò),設(shè)網(wǎng)絡(luò)基站為BS,小區(qū)內(nèi)的用戶(流量使用者)為UE,記第m個(gè)基站為BSm和第i個(gè)小區(qū)的用戶為UEi。將網(wǎng)絡(luò)表示呈基站、用戶以及它們聯(lián)系關(guān)系的二部圖,在此基礎(chǔ)上建立基站動(dòng)態(tài)選擇配置算法,假設(shè)網(wǎng)絡(luò)頻率復(fù)用因子為1,則用戶接收端UEi的SINR值為:
綜上所訴,基于基站動(dòng)態(tài)選擇配置算法,將整個(gè)過(guò)程表示為基于預(yù)測(cè)流量的基站動(dòng)態(tài)配置機(jī)制,基于小區(qū)用戶的QoS和基站負(fù)載以及基站配置能耗綜合,采取線性算法度量,幫助基站在未來(lái)某時(shí)刻選擇最佳的模式,使得基站能耗最低,并且達(dá)到保證網(wǎng)絡(luò)通信質(zhì)量,能起到很好的節(jié)約能效的作用。
本文預(yù)測(cè)模型從不同角度進(jìn)行考慮,分別從傳統(tǒng)時(shí)間序列模型、機(jī)器學(xué)習(xí)預(yù)測(cè)算法、深度學(xué)習(xí)預(yù)測(cè)算法進(jìn)行研究,通過(guò)各種算法進(jìn)行對(duì)比,得到最優(yōu)的預(yù)測(cè)模型,其模型穩(wěn)定性好,能較準(zhǔn)確地得到短期小區(qū)預(yù)測(cè)的上下行流量。最后從傳統(tǒng)時(shí)間序列模型入手,采用Stacking集成算法進(jìn)行預(yù)測(cè)。