郭 勤,賈振紅,覃錫忠,盛 磊,陳 麗
(1.新疆大學(xué)信息科學(xué)與工程學(xué)院,新疆 烏魯木齊 830046;2.中國移動通信集團新疆有限公司,新疆 烏魯木齊 830063)
話務(wù)量的需求預(yù)測在移動通信網(wǎng)絡(luò)運營商中有著舉足輕重的地位,話務(wù)量的過去、現(xiàn)在,尤其是將來的需求是移動運營商十分關(guān)注的問題,移動運營商需要根據(jù)移動用戶對話務(wù)量需求的預(yù)測來規(guī)劃未來的企業(yè)發(fā)展戰(zhàn)略。話務(wù)量預(yù)測是指導(dǎo)基本建設(shè)規(guī)模的一項重要依據(jù),話務(wù)量的預(yù)測對網(wǎng)絡(luò)管理、規(guī)劃和設(shè)計都有重要的指導(dǎo)意義,關(guān)系著企業(yè)的經(jīng)濟效益,因此提高話務(wù)量預(yù)測的精度成為我們研究的方向。
目前話務(wù)量預(yù)測采用的是用歷史的話務(wù)量來預(yù)測未知話務(wù)量,常見傳統(tǒng)預(yù)測方法有線性回歸分析、時間序列法,季節(jié)模型和卡爾曼濾波等。文獻[1]提出通過回歸分析得出實時話務(wù)預(yù)測的趨勢;文獻[2]針對不同時間類型的話務(wù)量序列分別研究了指數(shù)平滑方法中的Holt模型和開放預(yù)測技術(shù)中的ARIMA模型;文獻[3]利用自相關(guān)函數(shù)對其周期性和趨勢性方面的規(guī)律進行了探測,并在此基礎(chǔ)上提出應(yīng)用乘積季節(jié)ARIMA模型進行建模和預(yù)測的方案;文獻[4]提出了一種基于卡爾曼濾波的移動網(wǎng)實時話務(wù)量預(yù)測算法。以上傳統(tǒng)的預(yù)測方法預(yù)測精度低,近些年一些學(xué)者提出了新的智能預(yù)測方法,有模糊邏輯、神經(jīng)網(wǎng)絡(luò)、支持向量機等。文獻[5]提出BP神經(jīng)網(wǎng)絡(luò)和基于Elman神經(jīng)網(wǎng)絡(luò)的話務(wù)量預(yù)測模型;文獻[6]提出基于模糊C均值聚類和支持向量機的多元回歸話務(wù)量預(yù)測模型;文獻[7]提出了用隱馬爾科夫鏈對功率分配進行預(yù)測,以及灰色與神經(jīng)網(wǎng)絡(luò)結(jié)合、灰色與馬爾科夫鏈結(jié)合的模型等一些組合模型。新發(fā)展的智能預(yù)測方法同傳統(tǒng)預(yù)測方法相比,精度較高。
上述的預(yù)測方法只是針對歷史話務(wù)量這一個因素來預(yù)測,而話務(wù)量是多因素綜合的結(jié)果,話務(wù)量的影響因素具有灰色性和不確定性,且灰色模型具有所需樣本少、建模簡單的特點,因此可把話務(wù)量系統(tǒng)看為一個灰色系統(tǒng),但灰色系統(tǒng)對波動較大的數(shù)據(jù)預(yù)測精度低,適合線性預(yù)測。支持向量機能較好地解決小樣本、非線性、局部極小點等實際問題。實際中話務(wù)量是受多種因素影響的,不僅需要考慮歷史的話務(wù)量還要考慮其它影響因素。由于影響因素間呈現(xiàn)復(fù)雜的非線性關(guān)系,單一的預(yù)測模型難以達到較高的預(yù)測精度。本文提出一種組合模型,結(jié)合灰色預(yù)測模型和支持向量機預(yù)測模型各自的優(yōu)點,通過基于支持向量機補償?shù)亩嘁蛩鼗疑P蛠眍A(yù)測話務(wù)量。
灰色關(guān)聯(lián)分析是一種多因素的統(tǒng)計分析方法,其基本原理是根據(jù)序列曲線幾何形狀的相似程度來判別其聯(lián)系是否緊密,通過計算數(shù)據(jù)間相關(guān)度的大小來判別其相關(guān)性的大小[8],具體步驟如下:
(1)設(shè)系統(tǒng)特征序列為X1,相關(guān)因素序列Xk為:
X1=(x1(1),x1(2),…,x1(m))
(1)
Xk=(xk(1),xk(2),…,xk(m)),k=2,3,…,m
(2)
(2)對各序列進行無量綱化處理:
k=1,2,…,m
(3)
(3)計算特征序列與相關(guān)因素序列之間相關(guān)系數(shù):
ξk(j)=
(4)
(4) 綜合各關(guān)聯(lián)系數(shù),計算關(guān)聯(lián)度:
(5)
其中,γk的大小反映了數(shù)列之間相關(guān)程度的大小,γk越大說明數(shù)列之間的關(guān)系越密切。
多變量灰色模型MGM(1,n)就是利用n元一階常微分方程組來描述n元相關(guān)關(guān)聯(lián)的變量的狀態(tài)并預(yù)測它們發(fā)展趨勢的灰色系統(tǒng)模型,它是單變量灰色模型MGM(1,1)在多個變量情況下的擴展,應(yīng)用于相互影響、相互制約的多變量狀態(tài)和發(fā)展趨勢分析。該模型通過對生成序列建立n個一元微分方程組,將優(yōu)化目標(biāo)函數(shù)設(shè)定為相對誤差最小,然后優(yōu)化求解模型的最佳參數(shù)從而實現(xiàn)模擬狀態(tài)和預(yù)測的目的。其內(nèi)容如下[9]:
在這個模型中,n為變量的個數(shù),每個變量有m個數(shù)據(jù),記為:
(6)
(1)經(jīng)過1-AGO后得到一組新的數(shù)據(jù),記為:
(7)
(8)
其中,i=1,2,…,n;j=1,2,…,m。
(2)多變量MGM(1,n)模型對累加后的數(shù)據(jù)建立n元一階微分方程組:
(9)
(3)將式(9)簡寫為:
(10)
其中,
(11)
(4)為辨別參數(shù)A和B,故將式(1)離散化為:
(12)
其中,0≤θ≤1,一般情況下取θ=1/2。i=1,2,…,n;j=1,2,…,m。
(5)令H=[ai1ai2…ainbi]T,i=1,2,…,n,由最小二乘法可得到的H辨識值H′。
i=1,2,…,n
(13)
(14)
(6)得到A、B的辨識值A(chǔ)′、B′:
(15)
(4)現(xiàn)在從式(10)可得到預(yù)測值:
(16)
(5)預(yù)測值:
(17)
其中,j=2,3,…。
最小二乘支持向量機LS-SVM[10]是Suykens J A K等在標(biāo)準(zhǔn)支持向量機(SVM)的基礎(chǔ)上提出的一種新的人工智能學(xué)習(xí)算法,是對標(biāo)準(zhǔn)支持向量機的改進。與標(biāo)準(zhǔn)支持向量機相比,LS-SVM把二次規(guī)劃問題轉(zhuǎn)化為解線性方程組問題,將損失函數(shù)設(shè)定成誤差平方和,以減少模型需要優(yōu)化的參數(shù),降低求解的復(fù)雜性[11]。
設(shè)訓(xùn)練樣本有k個,則樣本記為T= [(Xi,Yi)],其中Xi∈Rn為n維樣本輸入,Yi∈Rn為樣本輸出,回歸預(yù)測就是通過樣本訓(xùn)練找到合適的函數(shù)f(x)。對于非線性回歸問題,在非線性條件下利用非線性映射Φ(x)將樣本映射到一個高維特征空間,建立線性模型:
f(x)=(w·Φ(xi))+b
(18)
其中,w表示權(quán)值向量,b表示偏差量。
LS-SVM函數(shù)估計問題可轉(zhuǎn)化為求解如下問題:
yi-wTΦ(xi)+b=ri,i=1,2,…,n
(19)
上式中,c表示懲罰參數(shù),ri為模型的預(yù)測誤差。
通過引入拉格朗日乘子,將式(11)轉(zhuǎn)化為對偶優(yōu)化問題,即:
L(w,b,ri,α)=J(w,ri)-
(20)
其中,αi表示拉格朗日乘子,分別對變量w、b、ri、a求偏導(dǎo),令等于0,寫成矩陣形式,并消去w、ri得:
(21)
其中,Ω=φ(xi)Tφ(xj)=K(xi,xj),若有矩陣Δ:
(22)
若Δ可逆,求解式(21)可得:
(23)
對于非線性問題,可通過引入核函數(shù)轉(zhuǎn)換為非線性預(yù)測,本文采用徑向基核函數(shù)[12],其中σ表示徑向基核函數(shù)的寬度,所以LS-SVM回歸模型為:
(24)
由于核函數(shù)和懲罰參數(shù)影響最小二乘支持向量機的預(yù)測精度,故本文采用粒子群算法來求解最小二乘支持向量機的參數(shù)最優(yōu)解[13],在參數(shù)尋優(yōu)時可有效避免陷入局部最優(yōu),且運算速度快,預(yù)測精度較高。
(1)用灰色關(guān)聯(lián)分析法計算出特征序列與各相關(guān)因素序列之間相關(guān)度的大小,根據(jù)相關(guān)性的大小,找出與話務(wù)量有關(guān)的主要因素。
(2)將與話務(wù)量影響較大的因素作為MGM(1,n)模型的輸入,以實現(xiàn)對話務(wù)量基本規(guī)律的預(yù)測,并得到預(yù)測的殘差序列。
(3)利用粒子群優(yōu)化的LS-SVM模型建立殘差序列預(yù)測模型,從而實現(xiàn)對殘差序列的預(yù)測。
(4)將MGM(1,n)的預(yù)測結(jié)果與粒子群優(yōu)化的LS-SVM的殘差序列預(yù)測結(jié)果疊加,即為對MGM(1,n)預(yù)測結(jié)果的修正,以達到對話務(wù)量的預(yù)測,具體流程圖如圖1所示。
Figure 1 Model of traffic prediction based on MGM and LS-SVM compensation 圖1 基于LS-SVM補償?shù)亩嘁蛩卦拕?wù)量預(yù)測模型
本文收集了新疆伊犁州2008年~2012年每年5月1日之前20天的話務(wù)量以及影響因素的資料。影響話務(wù)量X1的相關(guān)因素有短信X2、資費水平X3、GPRS上行流量X4、GPRS下行流量X5、開機用戶X6以及忙時用戶X7、EGPRS上行流量X8和EGPRS下行流量X9。可利用該資料對2012年5月1日這一天的話務(wù)量進行預(yù)測,算法在Matlab 2010a平臺上實現(xiàn)。
(1)應(yīng)用灰色關(guān)聯(lián)分析確定影響話務(wù)量的主因素變量。首先計算出各因素對話務(wù)量的關(guān)聯(lián)度大小,如表1所示,顯示與話務(wù)量影響較大的因素的關(guān)聯(lián)度的大小。
Table 1 Traffic influence factors and correlation in traffic表1 對話務(wù)量影響較大的因素與話務(wù)量間的關(guān)聯(lián)度
(2)建立MGM(1,4)模型。由表1可知,與話務(wù)量相關(guān)度較大的因素有短信、忙時用戶數(shù)和開機用戶數(shù),因此可以建立MGM(1,4)模型進行話務(wù)量的預(yù)測,即把每一年的影響話務(wù)量的因素(短信,忙時用戶數(shù)和開機用戶數(shù))作為MGM(1,4)的輸入變量,進行預(yù)測,把真實值與預(yù)測值相減得到殘差序列。圖2為用多因素灰色模型得到的2012年5月1日預(yù)測結(jié)果。
Figure 2 Multi-factor grey model of traffic forecast on May 1, 2012圖2 基于多因素灰色模型2012年5月1日的話務(wù)量預(yù)測值
(3)利用粒子群優(yōu)化的最小二乘支持向量機殘差預(yù)測模型,使用2008年到2011年共4年的5月1日前15天的數(shù)據(jù)以及5月1日數(shù)據(jù)的殘差序列作為已知數(shù)據(jù)訓(xùn)練模型。SVM模型采用徑向基函數(shù),粒子群算法的基本參數(shù)為:粒子群種群規(guī)模m=100,最大迭代次數(shù)為1 000,慣性權(quán)重ξ=0.9,松弛因子ε=0.54,各粒子的初始化速度為0,最小適應(yīng)值£=0.01,通過粒子群優(yōu)化算法確定C=0.6160,g=10.9836作為模型參數(shù)值。利用訓(xùn)練好的模型對2012年5月1日的殘差進行預(yù)測,預(yù)測結(jié)果如圖3所示,顯示的是利用最小二乘支持向量機預(yù)測2012年5月1日的殘差預(yù)測值。
Figure 3 Least squares support vector machine prediction residual May 1, 2012圖3 2012年5月1日的最小二乘支持向量機殘差預(yù)測值
(4)最后將MGM(1,4)模型的2012年5月1日的預(yù)測結(jié)果與粒子群優(yōu)化的最小二乘支持向量機得到的2012年5月1日的殘差預(yù)測結(jié)果相加,相加后的最后結(jié)果與單一多因素灰色模型相比,更接近真實值。最終預(yù)測結(jié)果如圖4所示,顯示的是支持向量機補償?shù)亩嘁蛩鼗疑P团c多因素灰色模型真實值的對比圖(圖4中最上面的曲線代表的是真實值,中間的曲線為支持向量機補償?shù)亩嘁蛩鼗疑P偷念A(yù)測值,最下面的曲線為多因素灰色模型的預(yù)測值)。
Figure 4 Multi-factor grey model and support vector machine (SVM) compensation of multi-factor grey model and the real value contrast figure圖4 多因素灰色模型與支持向量機補償?shù)亩嘁蛩鼗疑P鸵约罢鎸嵵档膶Ρ葓D
為了驗證本文提出模型的預(yù)測效果,取灰色系統(tǒng)預(yù)測模型作為對比模型,采用相對誤差μ來評價模型的預(yù)測功能。
Table 2 Performance comparion between two kinds of prediction表2 兩種預(yù)測方法的相對誤差比較
由表2可知,傳統(tǒng)的灰色模型建模簡單,但在數(shù)據(jù)波動較大的情形下,預(yù)測精度不高。相對于傳統(tǒng)的多因素灰色模型,本文提出的基于支持向量機的殘差補償灰色預(yù)測模型的預(yù)測效果更好,與原數(shù)據(jù)更加相似,由此表明本文提出的方法更適用于話務(wù)量的預(yù)測。
由于話務(wù)量具有時變性、隨機性、周期性等特點,傳統(tǒng)的線性預(yù)測難以達到高精度的預(yù)測效果,且以往話務(wù)量預(yù)測只考慮用歷史話務(wù)量來預(yù)測未來話務(wù)量,而實際的話務(wù)量是受多種因素的影響。單一的多因素灰色模型難以達到較高的預(yù)測精度,且灰色模型對數(shù)據(jù)波動較大的數(shù)據(jù),預(yù)測精度較低。針對話務(wù)量的特點,本文提出了支持向量機殘差補償?shù)亩嘁蛩鼗疑拕?wù)量預(yù)測模型,創(chuàng)新之處在于首次提出用最小二乘支持向量機對多因素灰色模型進行補償預(yù)測。先利用關(guān)聯(lián)分析法找出與話務(wù)量相關(guān)度較大的因素,把相關(guān)度較大的因素作為多因素灰色模型MGM(1,n)的輸入變量進行話務(wù)量趨勢預(yù)測,再采用粒子群優(yōu)化的最小二乘支持向量機進行殘差預(yù)測,把殘差預(yù)測的結(jié)果與多因素灰色模型預(yù)測的結(jié)果相加,即實現(xiàn)殘差補償,從而實現(xiàn)對話務(wù)量較為精確的預(yù)測。文中對話務(wù)量進行了仿真實驗,仿真結(jié)果表明:該模型相較于傳統(tǒng)的多因素灰色模型,預(yù)測精度高,對波動較大的數(shù)據(jù)同樣適用,為話務(wù)量的預(yù)測提供了新的方法。但是,此方法有一定的局限性,適應(yīng)于小樣本的預(yù)測,下一步將對復(fù)高斯小波核函數(shù)進行深入的研究,以提高殘差的預(yù)測精度。
[1] Zhang Lei. The linear regression analysis of traffic forecast telecom revenue research[D].Guangzhou:Sun Yat-sen University, 2009.(in Chinese)
[2] Jiang Jian-zhong. Time series analysis in the application of mobile telephone traffic forecasting [D]. Beijing:Beijing University of Posts and Telecommunications, 2005.(in Chinese)
[3] Yu Yan-hua,Wang Jun.Application of product seasonal ARIMA model of traffic forecast and result analysis[J]. Computer Engineering and Application, 2009,45(20):99-102.(in Chinese)
[4] Liu Jun-bo, Sun Yan, Wang Da-ming, et al. A Kalman filter-based algorithm for real-time forecasting of communication traffic[J]. Journal of Communications Technology, 2012,45(6):86-88.(in Chinese)
[5] Deng Bo,Li Jian, Sun Tao. Traffic prediction based on neural network [J]. Journal of Chengdu Information Engineering College, 2008,23(5):521-518.(in Chinese)
[6] Chen Dian-bo, Xu Fu-cang, Wu Min. Traffic based on clustering and support vector machine forecasting model [J]. Journal of Control Engineering, 2009,16(2):195-198.(in Chinese)
[7] Subhrakanti N G. A dynamic quantization and power allocation for multisensor estimation of hidden Markov model[J]. IEEE Transactions on Automatic Control, 2012,57(7):1641-1656.
[8] Geng Li-yan,Zhang Wei,Zhao Peng.LS-SVM based on grey correlation analysis of railway freight volume prediction[J]. Journal of Railway, 2012,34(3):1-6.(in Chinese)
[9] Shen Ji-hong, Zhang Chang-bin, Li Ji-de. The prediction of ship motion via updating MGM(1,n) model[C]∥Proc of the IEEE International Conference on Grey Systems and Intelligent Services, 2009:533-537.
[10] Chen Wei-min, Chen zhi-gang. Network traffic prediction based on PSR-LSSVM measurement [J]. Journal of Computer Science, 2012,39(7):92-95.(in Chinese)
[11] Wu Chih-Hung, W-H S, Ya-Wei Ho. A study on GPS GDOP approximation using support-vector machines[J]. IEEE Transactions on Instrumentation and Measurement, 2011,60(1):137-145.
[12] Fu Li-hua, Li Hong-wei, Zhang Meng,et al. With multiple multi-scale kernel functions, the radial basis function networks[J]. Journal of Huazhong University of Science and Technology (Natural Science Edition), 2010,38(1):39-42.(in Chinese)
[13] Varshney S, Pandit L S M. Comparison of PSO models for optimal placement and sizing of statcom[C]∥Proc of Sustainable Energy and Intelligent System(SEISCON 2011), 2011:125-133.
附中文參考文獻:
[1] 張蕾. 基于線性回歸分析的話務(wù)預(yù)測電信收入的研究[D]. 廣州:中山大學(xué), 2009.
[2] 蔣建忠. 時間序列分析在移動話務(wù)量預(yù)測中的應(yīng)用[D].北京:北京郵電大學(xué),2005.
[3] 于艷華,王軍. 應(yīng)用乘積季節(jié)ARIMA模型的話務(wù)量預(yù)測及結(jié)果分析[J]. 計算機工程與應(yīng)用, 2009,45(20):99-102.
[4] 劉軍搏,孫巖,王大鳴,等. 一種基于Kalman的實時話務(wù)量預(yù)測算法[J]. 通信技術(shù), 2012,45(6):86-88.
[5] 鄧波,李建,孫濤. 基于神經(jīng)網(wǎng)絡(luò)的話務(wù)量預(yù)測[J].成都信息工程學(xué)院學(xué)報,2008,23(5):518-521.
[6] 陳電波,徐福倉,吳敏. 基于聚類和支持向量機的話務(wù)量預(yù)測模型[J]. 控制工程, 2009,16(2):195-198.
[8] 耿立艷,張偉,趙鵬. 基于灰色關(guān)聯(lián)分析的LS-SVM鐵路貨運量預(yù)測[J]. 鐵道學(xué)報, 2012,34(3):1-6.
[10] 陳衛(wèi)民,陳志剛. 基于PSR-LSSVM的網(wǎng)絡(luò)流量預(yù) 測[J]. 計算機科學(xué), 2012,39(7):92-95.
[12] 付麗華,李宏偉,張猛,等. 帶多個核函數(shù)的多尺度徑向基函數(shù)網(wǎng)絡(luò)[J]. 華中科技大學(xué)學(xué)報(自然科學(xué)版), 2010,38(1):39-42.