鄭林熇,李亞洲,張東方,林洪生
(沈陽(yáng)工程學(xué)院a.新能源學(xué)院;b.機(jī)械學(xué)院;c.電力學(xué)院;d.基礎(chǔ)教學(xué)部,遼寧沈陽(yáng)110136)
視頻網(wǎng)站數(shù)據(jù)存儲(chǔ)管理遵循的原則是先存儲(chǔ)到DC一定時(shí)間之后再按一定的策略逐級(jí)分發(fā)下去。一般而言,用戶在線觀看某個(gè)視頻時(shí),要盡量保證其最大概率地從距離用戶最近、網(wǎng)絡(luò)傳輸速度最快的VOC機(jī)房獲得數(shù)據(jù),因而需要給出一種高效的文件分發(fā)方法及淘汰方法。通常情況下VOC機(jī)房的存儲(chǔ)容量是有限的,需要決定存儲(chǔ)/不存儲(chǔ)什么樣的文件,以及定時(shí)或者動(dòng)態(tài)地淘汰一些已經(jīng)不是熱點(diǎn)的視頻數(shù)據(jù)文件。這就需要用一個(gè)快速自動(dòng)的智能化數(shù)據(jù)存儲(chǔ)策略來(lái)完成對(duì)用戶所搜索的視頻文件進(jìn)行高效的尋找,并同時(shí)以最快的速度分配到指定的用戶,因而需給出一種優(yōu)化的存儲(chǔ)方案。下面的研究工作主要從減少用戶訪問(wèn)某個(gè)視頻文件的時(shí)間,提高人們網(wǎng)上瀏覽信息的效率,同時(shí)在盡可能的為用戶提供流暢的視頻收看服務(wù)的前提下提高網(wǎng)絡(luò)資源的利用率的角度來(lái)開展。
面對(duì)大量的數(shù)據(jù),一般采用平均分析法來(lái)得到數(shù)據(jù)的一般特征。平均分析法就是利用平均指標(biāo)對(duì)社會(huì)經(jīng)濟(jì)現(xiàn)象進(jìn)行分析的方法。平均指標(biāo)又稱平均數(shù),是反映社會(huì)經(jīng)濟(jì)現(xiàn)象總體和單位在一定時(shí)間、地點(diǎn)條件下某一數(shù)量特征的一般水平。
平均分析法的特點(diǎn):①可以比較同類現(xiàn)象之間的本質(zhì)性差距;②可以對(duì)某一現(xiàn)象在不同時(shí)間上的水平進(jìn)行比較,以說(shuō)明現(xiàn)象的發(fā)展趨勢(shì)及規(guī)律;③可以分析現(xiàn)象之間的依存關(guān)系;④可進(jìn)行數(shù)量上的推算。
平均分析法又分為算數(shù)平均法和加權(quán)平均法,所謂算數(shù)平均法,就是利用算數(shù)平均數(shù)進(jìn)行分析的一種方法,下面將用這種方法來(lái)對(duì)數(shù)據(jù)進(jìn)行處理。
算數(shù)平均法的基本公式:
算數(shù)平均數(shù)=標(biāo)量總量/單位總量
定義周期為100天,則所闡述的表達(dá)式為:
式中,H為熱度,V1…V100為1到100天的訪問(wèn)量,n為所選取的文件個(gè)體數(shù)。
定義全部的訪問(wèn)均值數(shù)為文件的訪問(wèn)熱度,下面對(duì)所給數(shù)據(jù)進(jìn)行處理。通過(guò)計(jì)算可以得到各個(gè)文件的訪問(wèn)熱度。
根據(jù)所給數(shù)據(jù)運(yùn)用Matlab得到相關(guān)的數(shù)據(jù)圖像,進(jìn)而分析每類視頻文件的一般訪問(wèn)特征。
根據(jù)以上圖1可以得出,web數(shù)據(jù)類型的訪問(wèn)特征為:在1個(gè)周期之內(nèi),其最大的訪問(wèn)次數(shù)平均值為4.75次,最小的訪問(wèn)次數(shù)平均值為0.83次,總的訪問(wèn)均值為2.34,標(biāo)準(zhǔn)差為0.87。通過(guò)圖2可以得出music數(shù)據(jù)類型的訪問(wèn)特征為:在1個(gè)周期之內(nèi),其最大的訪問(wèn)次數(shù)平均值為56次,最小的訪問(wèn)次數(shù)平均值為3.77 次,總的訪問(wèn)均值為 21.2 次,標(biāo)準(zhǔn)差為 14.97。
圖1 web視頻在1個(gè)周期內(nèi)的訪問(wèn)情況
圖2 music視頻在1個(gè)周期內(nèi)的訪問(wèn)情況
圖3 vhot2視頻在1個(gè)周期內(nèi)的訪問(wèn)情況
根據(jù)圖3可以得出vhot2數(shù)據(jù)類型的訪問(wèn)特征為:在1個(gè)周期之內(nèi),其最大的訪問(wèn)次數(shù)平均值為6 613次,最小的訪問(wèn)次數(shù)平均值為6.5次,總的訪問(wèn)均值為384.9次,標(biāo)準(zhǔn)差為1 011。通過(guò)圖4可以看出vkp數(shù)據(jù)類型的訪問(wèn)特征為:在1個(gè)周期之內(nèi),其最大的訪問(wèn)次數(shù)平均值為5 384次,最小的訪問(wèn)次數(shù)平均值為3.4次,總的訪問(wèn)均值為258次,標(biāo)準(zhǔn)差為876.2。
圖4 vkp視頻在1個(gè)周期內(nèi)的訪問(wèn)情況
圖5 vlive視頻在1個(gè)周期內(nèi)的訪問(wèn)情況
圖6 vmb視頻在1個(gè)周期內(nèi)的訪問(wèn)情況
根據(jù)圖5可以得出vlive2數(shù)據(jù)類型的訪問(wèn)特征為:在1個(gè)周期之內(nèi),其最大的訪問(wèn)次數(shù)平均值為3 530次,最小的訪問(wèn)次數(shù)平均值為2.4次,總的訪問(wèn)均值為93.9次,標(biāo)準(zhǔn)差為388.1。通過(guò)圖6可以看出vmb數(shù)據(jù)類型的訪問(wèn)特征為:在1個(gè)周期之內(nèi),其最大的訪問(wèn)次數(shù)平均值為60.3次,最小的訪問(wèn)次數(shù)平均值為0次,總的訪問(wèn)均值為1次,標(biāo)準(zhǔn)差為6.13。
通過(guò)以上圖像匯總分析,可以得到下表所示的訪問(wèn)特征。
表1 各個(gè)文件的一般訪問(wèn)特征
通過(guò)上表可以看出,視頻文件的訪問(wèn)熱度從高到低依次為:
vhot2>vkp>vlive>music>web>vmb
其所占百分比如圖7所示。
由于是短期的預(yù)測(cè),因此采用時(shí)間序列預(yù)測(cè)的方法對(duì)未來(lái)若干天的視頻文件的訪問(wèn)趨勢(shì)進(jìn)行分析預(yù)測(cè)。ARIMA模型又稱差分自回歸移動(dòng)平均模型,根據(jù)各個(gè)數(shù)據(jù)的訪問(wèn)趨勢(shì)可知下面通過(guò)建立時(shí)間序列模型來(lái)對(duì)未來(lái)若干天的訪問(wèn)情況進(jìn)行分析。
圖7 各個(gè)類型視頻文件訪問(wèn)熱度所占百分比
由數(shù)據(jù)擬合圖像可知,由于其預(yù)測(cè)目標(biāo)的基本趨勢(shì)是在某一水平上下波動(dòng),所以可以用一次移動(dòng)平均方法建立預(yù)測(cè)模型,即
式中,t=N,N+1,…,T
其預(yù)測(cè)的標(biāo)準(zhǔn)誤差為
以最近N期序列值的平均值作為未來(lái)各期的預(yù)測(cè)結(jié)果。一般N的取值范圍:
5≤N≤200
通過(guò)上式,利用Matlab軟件進(jìn)行求解,得到各個(gè)類型文件未來(lái)10天的變化趨勢(shì)如下表。
表2 各個(gè)類型文件名未來(lái)十天的變化趨勢(shì)
為了建立一個(gè)高效的淘汰分發(fā)算法,即決定滿足什么條件時(shí)把什么文件分發(fā)到VOC上,什么時(shí)候把什么文件刪除,要對(duì)不同類型的文件進(jìn)行熱度分析,給出文件分發(fā)及淘汰的閾值。
首先,計(jì)算多個(gè)周期內(nèi)不同類型文件的熱度,建立下表。
表3 不同周期各個(gè)文件的熱度
這里,為了更好地滿足用戶需求,首先定義1個(gè)周期內(nèi)各個(gè)文件的淘汰閾值,將這個(gè)“淘汰閾值”作為一個(gè)判斷文件是否淘汰的標(biāo)準(zhǔn)。
為了確定“淘汰閾值”,給出了模糊集和隸屬函數(shù)的概念。
定義 設(shè)論域X到[0,1]閉區(qū)間的任意映射
都確定X上的一個(gè)模糊集合A,uA叫做A的隸屬函數(shù),uA(x)叫做x對(duì)A的隸屬度,記為
此時(shí),將各個(gè)文件的熱度作為一個(gè)集合,在這個(gè)集合里面利用上述方法做出一個(gè)淘汰分發(fā)算法。針對(duì)第一周期,設(shè)論域 X={x1(2.34),x2(21.2),x3(384.9),x4(258),x5(93.9),x6(1)},X 上的一個(gè)模糊集“高熱度”(A)的隸屬函數(shù)uA(x)可定義為
用向量表示法,
A=(0.00350.05261.00000.66940.24200)
uA(x)=0.5的點(diǎn)x0稱為模糊集A的過(guò)渡點(diǎn),此點(diǎn)最具模糊性,所以在相應(yīng)的集合A中,以0.5為分割點(diǎn),即集合A中超過(guò)0.5的被保留,其余小于0.5的將被淘汰。
所以在第一周期內(nèi),文件的淘汰閾值為258,同理可以得到其余4個(gè)周期文件的淘汰閾值分別為135.41,279.19,422.97,398.59。
據(jù)此,可以得出一個(gè)動(dòng)態(tài)的淘汰閾值圖(見圖8)。
圖8 動(dòng)態(tài)淘汰閾值
在所提供的數(shù)據(jù)基礎(chǔ)上,抽取其中的部分?jǐn)?shù)據(jù)給予分析處理,定義出文件的熱度,通過(guò)平均分析的方法得出了各類文件的一般訪問(wèn)特征。采用時(shí)間序列方法對(duì)不同類型文件進(jìn)行了短期的訪問(wèn)預(yù)測(cè),得出了各類文件未來(lái)10天的訪問(wèn)情況。最后,利用隸屬度函數(shù)得出不同周期文件的淘汰閾值,進(jìn)而可知文件分發(fā)淘汰的標(biāo)準(zhǔn)。
[1]孫文颙,張翰相.視頻網(wǎng)站數(shù)據(jù)分析系統(tǒng)設(shè)計(jì)[J].現(xiàn)代電視技術(shù),2011(9):140-144.
[2]吳宗敏.散亂數(shù)據(jù)擬合的模型、方法和理論[M].北京:科學(xué)出版社,2008.
[3]徐國(guó)祥,馬俊玲.《統(tǒng)計(jì)預(yù)測(cè)和決策》學(xué)習(xí)指導(dǎo)與習(xí)題[M].上海:上海財(cái)經(jīng)大學(xué)出版社,2005.
[4]司守奎.數(shù)學(xué)建模算法與應(yīng)用[M].北京:國(guó)防工業(yè)出版社,2011.
[5]楊綸標(biāo),高英儀.模糊數(shù)學(xué)原理及應(yīng)用[M].廣州:華南理工大學(xué)出版社,2004.