方元武, 何雪
(1.中國移動通信集團廣東有限公司, 廣東 廣州 510627; 2.廣州豐石科技有限公司, 廣東 廣州 510650)
隨著互聯(lián)網(wǎng)內(nèi)容井噴式上架和爆發(fā)式增長,對網(wǎng)絡服務商的服務器資源和網(wǎng)絡帶寬提出了更高的要求,內(nèi)容的緩存命中率也極大影響著用戶的體驗[1]。如何在有限的條件下更合理地進行內(nèi)容緩存是網(wǎng)絡服務面臨的主要問題,解決此問題的關鍵是需要一套科學決策方法對內(nèi)容資源的流行度進行精準預測。精準的流行度預測不僅在用戶體驗上預知用戶行為,降低訪問時延,也能在網(wǎng)絡安全方面提前部署,減少因擁塞等問題導致的網(wǎng)絡溢出[2]。
預測領域經(jīng)過多年的研究,已經(jīng)在視頻[3]、社交[4]、新聞[5]、民生[6]、旅游[7]等多個行業(yè)應用,起到了很好的預測效果和指導作用,但是隨著社交互聯(lián)網(wǎng)的持續(xù)演進,現(xiàn)有研究對不同情況的預測卻稍顯不足。文獻[8]提出基于累計訪問次數(shù)方差的相關性構(gòu)建時間序列模型,優(yōu)于現(xiàn)有的流行度預測,但缺少考慮社交網(wǎng)絡行為帶來的話題影響,參數(shù)維度不足;文獻[9]提出基于logistic機器學習算法計算用戶行為信息,適用于消費數(shù)據(jù)稀疏的案例,對于長歷史數(shù)據(jù)缺乏參考意義;文獻[10]提出新型混合多回歸模型預測視頻流行度,該模型使用瀏覽時間和分享次數(shù)作為預測變量,考慮了用戶網(wǎng)絡行為,優(yōu)于其他線性回歸模型,然而對時間序列樣本較多的數(shù)據(jù),預測效果欠佳。
本文結(jié)合已有研究,以社交網(wǎng)絡數(shù)據(jù)為基礎,提出一種不限歷史數(shù)據(jù)長短的內(nèi)容資源的流行度預測算法。分別針對歷史數(shù)據(jù)稀疏的資源和長歷史特征數(shù)據(jù)的資源采用線性回歸算法和ARIMA時間序列算法。對比傳統(tǒng)的流行度預測,這種混合的流行度預測算法,既適應稀疏數(shù)據(jù)的局部性特征也能適應長歷史數(shù)據(jù)的季節(jié)性變化特征,表現(xiàn)出更高的預測精度。
流行度是度量內(nèi)容資源熱度的重要指標之一。對流行度的預測,機器學習是運用的較多的一種方法,然而機器學習通常需要基于大量樣本進行模型訓練,以提高預測精度[11]。對于上新或者數(shù)據(jù)周期短的內(nèi)容資源,機器學習算法預測效果明顯失真[12]。為了適應不同情況的內(nèi)容資源預測,實驗采用基于線性的多元回歸和基于時間序列的ARIMA模型結(jié)合的混合預測模型。多元回歸預測適用于數(shù)據(jù)稀疏的內(nèi)容資源,ARIMA算法適用于樣本數(shù)據(jù)較大并且具備季節(jié)性周期的數(shù)據(jù)。這種混合模型通過互補的方式,提高了預測的包容性,能夠在變化的環(huán)境中保證一定的預測精度,如圖1所示。
圖1 內(nèi)容資源的流行度預測模型算法流程
數(shù)據(jù)稀疏內(nèi)容資源呈現(xiàn)出歷史數(shù)據(jù)的局部性、相鄰時間記錄的強相關性的特點,正好與多元回歸算法切合[13]?;趦?nèi)容資源流行度的多元線性回歸預測算法,如式(1)。
(1)
式(1)利用最近t-1(t<=7)天的流行度預測第t天的流行度,Y(t)即為預測結(jié)果。Ni為內(nèi)容資源在第i天流行指數(shù)(見公式(1)),βi為第i天的權(quán)重,εt(t=1,2,…,n)是隨機項誤差,α是常數(shù),n為天數(shù)。
受社交網(wǎng)絡的影響,內(nèi)容資源的流行程度不一,對于突發(fā)性的內(nèi)容可能經(jīng)過前期潛伏之后,后期呈指數(shù)級別上升,前后產(chǎn)生巨大的差距,容易因預測計算溢出導致結(jié)果失真。應對這種情況,可以在線性回歸的基礎上進行對數(shù)處理,然后基于對數(shù)結(jié)果預測內(nèi)容資源流行度。這樣的做法在保持原數(shù)據(jù)單調(diào)性的同時,也能弱化數(shù)據(jù)變化的敏感度。通過多元指數(shù)線性變換和對數(shù)變換建立多元對數(shù)回歸模型。
多元指數(shù)線性回歸模型,如式(2)。
(2)
對數(shù)變換公式,如式(3)。
(3)
ARIMA[14]模型是一種只考慮數(shù)據(jù)內(nèi)在聯(lián)系的時間序列算法,更適用于長歷史特征的數(shù)據(jù)分析。ARIMA包含3個部分,AR代表的自回歸模型(Autoregression);I代表的差分運算(Intergrated);MA代表的移動平均模型(Moving Average)。自回歸項p,差分階數(shù)d,移動平均項數(shù)q分別是自回歸模型、差分運算和移動平均模型的參數(shù)[15],取值皆為非負整數(shù),用ARIMA(p,d,q)表示。
經(jīng)過差分處理使序列趨于平穩(wěn)化后的ARIMA(p,d,q)模型表示,如式(4)。
(4)
式中,{Ni-p,…,Ni-2,Ni-1,Ni}表示該時間序列數(shù)據(jù);B表示延遲算子;{εi-q,…,εi-2,εi-1,εi}表示隨機干擾序列;{φ1,φ2,…,φp}、{θ1,θ2,…,θq}分別表示自回歸系數(shù)和移動平均系數(shù);d=(1-B)d表示d階差分;S表示季節(jié)周期。
本文通過編寫爬蟲程序,爬取了Alexa網(wǎng)站、中國站長站、微博等網(wǎng)站,收集包括訪問量、瀏覽量、搜索指數(shù)、話題熱度等數(shù)據(jù)。為了使數(shù)據(jù)更加易于處理,剔除了訪問量、瀏覽量小于100的資源,最后剩余8 304個樣本資源。
社交互聯(lián)網(wǎng)的新時代,單純以訪問量、流量評估流行度已不足以滿足對內(nèi)容資源的評價,話題次數(shù)、搜索次數(shù)也對資源流行程度產(chǎn)生重要影響。因此,結(jié)合網(wǎng)絡行為特征,選取訪問量、瀏覽量(PV)、搜索指數(shù)、話題熱度為參數(shù)對資源的流行度進行評價,如式(5)。
Ni=w1(v,i)+w2(p,i)+w3(s,i)+w4(t,i)
(5)
式中,Ni是第i個資源的流行指數(shù),w1,w2,w3,w4分別是訪問量、PV、搜索指數(shù)及話題熱度對流行指數(shù)的影響系數(shù)。
經(jīng)過流行指數(shù)評價標記,得到所有樣本資源每天的流行度指數(shù),流行度d值越大代表資源的網(wǎng)絡流程程度越高。樣本數(shù)據(jù),如表1所示。
表1 內(nèi)容資源流行度樣本數(shù)據(jù)
根據(jù)圖1的算法流程,按照數(shù)據(jù)是否低于7天將上述數(shù)據(jù)拆分為的稀疏資源和長歷史特征資源,分別對其進行線性對數(shù)回歸模型構(gòu)建和ARIMA模型構(gòu)建。
1.多元對數(shù)回歸模型構(gòu)建
數(shù)據(jù)范圍在一周內(nèi)的數(shù)據(jù)樣本共23個,將23個樣本數(shù)據(jù)按照線性模型方程進行線性指數(shù)求和,然后對指數(shù)和進行對數(shù)變化,得到方程的解,如圖2所示。
圖2 多元對數(shù)回歸計算結(jié)果
如圖2,(1) 判定系數(shù)R2=0.958 513,接近1,說明稀疏數(shù)據(jù)資源第t天與第t-1,t-2,…,1天的流行度存在強相關性,擬合程度較高[16]。
(2) 統(tǒng)計量F=341.502 2,若取顯著性水平α=0.05,由F分布表查詢臨界值F0.05(6,15)=2.79<341.502 2,表示y(t)與N1,N2,…,Nt之間不存在顯著差異,即存在相關性。
2.ARIMA模型構(gòu)建
步驟一:序列平穩(wěn)化,差分定階。按照算法流程將一周以上的樣本數(shù)據(jù)進行時間序列呈現(xiàn)。逐步對時間序列進行階數(shù)的差分處理使序列平穩(wěn);經(jīng)過二階差分,單位根(ADF)檢驗序列得到統(tǒng)計值為-7.231,落在1%的置信區(qū)間,概率小于0.05,因此確定差分階數(shù)d=2。
步驟二:參數(shù)估計。利用Eviews軟件計算得到平穩(wěn)序列后的自相關圖和偏相關圖,如圖3所示。
圖3 序列差分后的ACF圖和PACF圖
自相關系數(shù)在滯后4階的時候落在2倍標準差的邊緣,PACF呈二階拖尾,因此q可以考慮取1或4,p可以取1或2,對模型進行檢驗,如表2所示。
表2 模型檢驗結(jié)果
參數(shù)(2,1)的AIC和SC檢驗參數(shù)最理想,確定模型為ARIMA(2,2,1)。
步驟三:模型適應性檢驗。檢查模型的殘差是否相關,平均分布是否為0。因此,獲取計算結(jié)果的值進行模型診斷,如圖4所示。
(a)
(b)
圖4(a)時間序列中,殘差沒有明顯的周期性變化;圖4(b)對殘差進行差分計算,發(fā)現(xiàn)時間序列殘差與其本身的滯后版本沒有明顯的自相關性。綜上,判斷殘差為白噪聲。實驗構(gòu)建的ARIMA(2,2,1)模型對長周期序列的內(nèi)容資源流行度預測是合適的。
將上述已確定參數(shù)的多元對數(shù)回歸模型和ARIMA模型組合為混合模型,并輸入歷史數(shù)據(jù),利用混合模型預測未來流行度指數(shù)。模型預測情況,如圖5所示。
圖5 混合模型內(nèi)容流行度預測情況
由圖可知預測值與實際值高度重合。
采用MAE(平均絕對誤差)方法評估混合模型實際預測誤差,如式(6)。
(6)
實驗分別對文章提出的混合模型(mixture)與其他文獻中提到的基于線性回歸模型預測方法(linear-model)、基于對數(shù)回歸模型預測方法(log-model)以及基于ARIMA模型的預測方法進行對比,如圖6所示。
圖6 預測絕對誤差率對比結(jié)果
由圖可知,實驗中的混合預測方法的預測絕對誤差率低于0.38%,誤差率最小。
為實現(xiàn)對不同歷史數(shù)據(jù)周期內(nèi)容資源的流行度預測,本文結(jié)合多種統(tǒng)計學方法,在對基礎數(shù)據(jù)預處理后,分別對短周期資源和長周期資源進行多元對數(shù)回歸算法流行度預測和ARIMA時間序列算法流行度預測。經(jīng)過誤差分析和對比后,得到的混合模型絕對誤差率在0.38%以下,優(yōu)于其他模型方案。該模型可以基于歷史數(shù)據(jù),為互聯(lián)網(wǎng)服務商在資源緩存方面提前規(guī)劃提供指導,提前布局。在結(jié)合實際應用的過程中,可以擴大樣本數(shù)據(jù)范圍,利用現(xiàn)代科技的大數(shù)據(jù)處理能力和人工智能技術,挖掘更多特征信息,提升數(shù)據(jù)的科學決策能力。