劉文暄,曹秀娟,王嘉琪,黃崇政,袁皓涵
(1.山東科技大學(xué),山東 濟(jì)南 250031;2.西安歐亞學(xué)院,陜西 西安 710065)
近年來,隨著移動(dòng)互聯(lián)網(wǎng)的爆炸式發(fā)展,基站的流量負(fù)荷問題變得越來越重要。 一方面,為了緩解流量高峰期基站負(fù)荷超量造成的網(wǎng)速減慢問題,就需要增加基站的載頻數(shù)量,使其可以承擔(dān)更多流量; 另一方面,受基站潮汐現(xiàn)象的影響,在某些時(shí)段,用戶數(shù)量會(huì)大幅降低。 從長期來看,大部分基站的整體流量呈逐漸增加趨勢。 在流量增長到一定程度時(shí),動(dòng)態(tài)開關(guān)載頻已經(jīng)無法滿足要求,這就需要通過新建扇區(qū)或者基站來進(jìn)行物理擴(kuò)容。 物理擴(kuò)容因涉及到采購資金、 總體布局等問題,規(guī)劃時(shí)間非常長,所以需要提早預(yù)估基站物理擴(kuò)容的時(shí)間,從而可以更早地進(jìn)行規(guī)劃和設(shè)計(jì)。
通過分析,可以看出,除了節(jié)假日,每周的數(shù)據(jù)流量基本都具有周期性,因?yàn)橛脩袅恳恢痹鲩L,每周的流量總量增長,因此可以忽略影響。 單一的算法難以直接預(yù)測周期性增長數(shù)據(jù),因此把這種預(yù)測拆分開來預(yù)測每周流量的整體增長變化情況[1]。
短期預(yù)測采用1eaf-wise 算法進(jìn)行采樣優(yōu)化: 保留上行流量梯度較大的樣本,對(duì)于流量變化趨勢較小的樣本進(jìn)行抽取采樣。 同時(shí)在計(jì)算增益時(shí),對(duì)上行流量變化趨勢較緩的樣本增加權(quán)重系數(shù)[2]。
其中帶來的增益可以定義為式中:Vj|o(d)為最大增益;no為分位點(diǎn)個(gè)數(shù);x 為平方損失減少值; i 為單棵樹的節(jié)點(diǎn); j 為全局重要度特征; o 為根據(jù)j 將數(shù)據(jù)分為左右子節(jié)點(diǎn)的訓(xùn)練集; gi為上行流量數(shù)據(jù); gr為下行流量數(shù)據(jù)。
若使用單邊梯度采樣算法 (Grandient-based One-Side Samp1ing,GOSS) 后,增益定義為
再進(jìn)行特征抽取,將互斥特征綁定在一起,從而減少特征維度。 運(yùn)用1eaf-wise 生長策略進(jìn)行預(yù)測,因其最大增益不變,且無需重復(fù)計(jì)算。 其短期預(yù)測結(jié)果見第43 頁表1。 從預(yù)測結(jié)果可以看出,使用1eaf-wise 算法預(yù)測的結(jié)果相對(duì)可靠,可用于各個(gè)小區(qū)小時(shí)級(jí)上行和下行流量的短期預(yù)測。
表1 短期預(yù)測結(jié)果
考慮到小區(qū)上下行流量很容易受到地區(qū)或者時(shí)間的影響,在使用1eaf-wise 算法進(jìn)行長期上下行流量預(yù)測時(shí),由于1eaf-wise 算法對(duì)周期性數(shù)據(jù)的預(yù)測結(jié)果存在一定的偶然誤差,所以可建立ARIMA 模型進(jìn)行流量的長期預(yù)測。 ARIMA 模型要求所使用的的序列數(shù)據(jù)必須是平穩(wěn)的,通過對(duì)原始數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)小區(qū)流量序列存在不平穩(wěn)情況,為得到平穩(wěn)的原始序列,所以在構(gòu)建ARIMA 模型之前有必要對(duì)小區(qū)流量數(shù)據(jù)進(jìn)行ADF 檢驗(yàn)。
圖1 為差分處理前后的ADF 檢驗(yàn)結(jié)果。 在圖1-a 中,原數(shù)據(jù)T 統(tǒng)計(jì)量大于任何置信度的臨界值,且p 值大于0.05,因此,確定該序列是非平穩(wěn)的,需要對(duì)序列進(jìn)行一階差分處理。 在圖1-b 中,差分處理之后,T 統(tǒng)計(jì)量小于5%與10%的置信度的臨界值,且p 值小于0.05,說明在差分處理后,序列平穩(wěn)。
圖1 差分處理前、差分處理后的ADF 檢驗(yàn)結(jié)果
ARIMA 模型常用AIC 準(zhǔn)則與BIC 準(zhǔn)則進(jìn)行參數(shù)確定。 由于AIC 準(zhǔn)則存在一定的不足之處,其計(jì)算公式為
式中: k 為參數(shù)的數(shù)量; L 為似然函數(shù)。
當(dāng)樣本容量很大時(shí),在AIC 準(zhǔn)則中擬合誤差提供的信息就要受到樣本容量的放大,而參數(shù)個(gè)數(shù)的懲罰因子卻和樣本容量沒關(guān)系。 BIC 貝葉斯信息準(zhǔn)則彌補(bǔ)了AIC 的不足,其公式為
利用AIC 和BIC 可以選取模型最佳的p,q 組合,應(yīng)當(dāng)選取AIC 和BIC 值達(dá)到最小的那一組為理想階數(shù)。 模型參數(shù)結(jié)果見圖2。
圖2 模型估計(jì)結(jié)果圖
通過調(diào)整p 和q 參數(shù),使AIC 與BIC 的數(shù)值達(dá)到最小。 經(jīng)過比較,p=0,q=1 為理想階數(shù)。 綜上,建立ARIMA(0,1,1)的模型進(jìn)行求解,其長期預(yù)測結(jié)果見表2。
表2 長期預(yù)測結(jié)果
在預(yù)測出長期結(jié)果后,還應(yīng)該進(jìn)行檢驗(yàn)分析。從ARIMA 模型的預(yù)測結(jié)果可以看出,一階差分的時(shí)間序列的均值和方差基本平穩(wěn),但是還應(yīng)比較二階差分后時(shí)間序列的效果是否更佳。 自相關(guān)和偏自相關(guān)結(jié)果見圖3,可以看出自相關(guān)和偏相關(guān)都縮小至0,即為一個(gè)混合模型[3-4]。將差分次數(shù)d 的值設(shè)置為2,對(duì)該模型做D-W 檢驗(yàn),因?yàn)樽韵嚓P(guān)系數(shù)的值介于-1 和1 之間,當(dāng)DW 值顯著地接近于0 或4時(shí),則存在自相關(guān)性。 而接近于2 時(shí),則不存在(一階) 自相關(guān)性。 最終得出的檢驗(yàn)結(jié)果為2.0242,接近于2,殘差序列不存在自相關(guān)性,說明二階差分后的時(shí)間序列與一階差分相差不大,并且隨著時(shí)間的推移,二階差分后的時(shí)間序列的均值和方差幾乎保持不變。
圖3 自相關(guān)圖和偏自相關(guān)圖
現(xiàn)在是大數(shù)據(jù)的時(shí)代,幾乎可供人們使用的數(shù)據(jù)都和時(shí)間有關(guān)系,這就是時(shí)間序列數(shù)據(jù)。 本文基于1eaf-wise 算法以及ARIMA 模型建立了短期和長期流量預(yù)測模型。 向量自回歸模型篩選能力,其四元時(shí)間序列的模型篩選正確率明顯高于二元時(shí)間序列。 本文所建立的模型適用于金融、 天氣情況、 銷售量、 股票的預(yù)測等很多方面。