劉瓊 趙中燦
摘 要:本文通過分析用戶的視頻使用習慣、視頻業(yè)務偏好,得到用戶在視頻大類(騰訊、愛奇藝、優(yōu)酷等)以及視頻小類(王牌對王牌等具體節(jié)目)上的業(yè)務偏好性,感知對應的視頻業(yè)務信息:業(yè)務類型、種類、流量、激活人數(shù)、請求次數(shù)等,以此作為基站特征,對基站進行兩層聚類,形成視頻業(yè)務的二級內容虛擬緩存簇。最后通過對現(xiàn)網數(shù)據(jù)的分析驗證了較為明顯的實驗性能。
1.引言
隨著移動互聯(lián)網以及智能終端的迅猛發(fā)展,終端業(yè)務越來越多樣化,移動用戶由原先的瀏覽網頁逐漸向視頻業(yè)務轉變,視頻點播、視頻會議等應用越來越普及,視頻業(yè)務逐漸成為蜂窩移動通信中的主流業(yè)務。據(jù)不完全統(tǒng)計,在4G網絡中視頻業(yè)務產生的流量已經占據(jù)50%以上,根據(jù)思科預測報告,到2020年為止,視頻產生的流量將達到網絡流量的75%以上[1]。如此大量的網絡流量給接入網和核心網甚至整個網絡都帶來了巨大的壓力,主要體現(xiàn)在核心網絡或者空中接口處。因此,如何降低主干網絡的壓力從而提升用戶體驗成為當前移動網絡亟需解決的問題。
隨著視頻流量造成的網絡帶寬危機越來越嚴重,同時視頻的延時、速率、清晰度等各方面要求提升,有關網絡緩存的研究開始成為一個熱門話題。各大型無線視頻提供商,如國外的YouTube、Netfix,國內的優(yōu)酷、騰訊等,為了提高移動視頻用戶的用戶體驗以及無線視頻媒體的QoS(Quality of Service,服務質量)并減少網絡帶寬危機而部署了CDN(內容分發(fā)網絡)[2],并在移動交換中心上部署了緩存服務器,使得視頻內容更靠近終端用戶[3][4][5][6]。這樣做法節(jié)省了大量的網絡帶寬,并且使用戶的體驗得到明顯提升[7]。
然而上面的所有的研究都是基于互聯(lián)網絡的內容分發(fā)網絡算法研究,游離在移動網絡的核心網與接入網之外。除此之外,大多數(shù)是針對單個業(yè)務進行的內容緩存,沒有考慮到同等業(yè)務下不同視頻類型的用戶使用習慣。文獻[8]基于移動網絡中的業(yè)務特征進行基站存儲算法的研究,著重關注的是存儲的分配等技術,而忽略了網絡中真實業(yè)務的分布情況以及用戶對于業(yè)務的偏好性,而這恰恰是內容緩存技術的核心要求:熱點視頻、熱點內容、場景需求。
隨著5G的來臨,網絡信息感知成為網絡維護、優(yōu)化、規(guī)劃的重要手段。通過對網絡側用戶的log信息,網絡側可以感知用戶的位置信息、終端特性、接入方式、移動特征、業(yè)務使用與特征等,利用這些特征可以很好地分析出某一場景、某一時段內區(qū)域中用戶的整體業(yè)務使用偏好。5G網絡的扁平化,核心網功能的下沉為網絡感知提供了有利的條件,在基站層通過感知用戶的業(yè)務偏好特性,為基站端業(yè)務內容緩存提供了必要的數(shù)據(jù)基礎。
內容緩存的首要問題是對什么內容進行緩存,因此本文基于信息感知的框架,通過網絡側用戶上網日志信息,提取每個基站用戶使用的業(yè)務類型、類別、流量大小、激活人數(shù)、請求次數(shù)等等,對基站在不同的時段、不同區(qū)域業(yè)務特征分布進行分析。通過對不同等級的視頻內容分布以及用戶喜好進行分析,我們提取一種多級內容緩存的方式,在不同的等級上對視頻內容進行緩存,從而從多層次解決視頻緩存的問題。
內容緩存另一個重點問題在于緩存的區(qū)域大小或者緩存的位置。在5G系統(tǒng)中,強調網絡虛擬化以及資源池的概念,從某種意義上,基站在地理位置上相近,并不代表它們屬于一個管理區(qū)域。因此利用這樣的虛擬化的概念,以上述感知的特征作為基站的特征向量,將具有相似視頻業(yè)務偏好的基站通過兩層聚類的方式形成多級內容緩存虛擬簇,以此控制對應的多個基站內容緩存。
本文第2節(jié)簡單介紹我們的研究框架以及對應的感知參數(shù)說明;第3節(jié)針對現(xiàn)網采集的數(shù)據(jù)進行特征提取,分析以及最終的基站內容緩存聚簇。第4節(jié)總結了本文的研究內容。
2.基本框架
圖 1給出了本文多級內容緩存的研究框架。整體可分為四大部分:數(shù)據(jù)來源、信息感知、內容分級以及基站聚簇。由于數(shù)據(jù)來源于基站,同時應用于基站,從某種意義上來說,整體框架是一個回環(huán)。
數(shù)據(jù)來源:
基站上多用戶的業(yè)務使用方式、習慣構成整體網絡的流量特性。從終端側可以感知用戶的業(yè)務使用情況、移動情況、終端信號情況等等,這些信息構成了整體網絡-用戶信息。然而對于3G、4G網絡來說,終端信息采集匯總具有較大的人力成本,而基站本身只具備轉發(fā)功能,無法進行信息感知。在現(xiàn)網當中,數(shù)據(jù)業(yè)務經過接入網之后會去除無線協(xié)議棧,在核心網上進行IP傳輸,因此核心網網關可以獲取用戶的控制面和數(shù)據(jù)面數(shù)據(jù)包,通過深度包解析(DPI)以及兩方面數(shù)據(jù)的融合,獲取其中對應的用戶信息,從而使得從核心網進行數(shù)據(jù)感知具有一定的可行性。在未來5G中,網絡架構的扁平化以及上層功能的下沉等使得在基站上感知成為可能。本身研究的著力點在基站,抽取的信息特征也是以基站為單位,則認為數(shù)據(jù)來源于基站下的用戶。
信息感知:
從核心網獲取對應的用戶控制面和數(shù)據(jù)面數(shù)據(jù)包之后,通過協(xié)議解析的方法,可以有效地獲取用戶的位置、業(yè)務類型等信息。以基站為單位,統(tǒng)計基站下的用戶信息,從而得到關于基站的特征向量:業(yè)務類型(優(yōu)酷、愛奇藝、新浪圖片等)、業(yè)務小類(具體內容)、業(yè)務流量、業(yè)務激活人數(shù)、業(yè)務請求次數(shù)、內容請求次數(shù)、內容請求人數(shù)。這些感知信息描述了單個基站下業(yè)務的分布情況、用戶的使用情況等,為后續(xù)進行基站聚簇,內容緩存提供有效地基礎。
內容分級:
無論是視頻業(yè)務還是網頁瀏覽業(yè)務,內容一般都可以分為大類(一級)和小類(二級)。本文將APP的訪問種類定義為大類,如優(yōu)酷、騰訊、新浪微博等等。一般而言,同一個視頻內容或者圖片會在不同的內容提供商上存在。對移動通信網來說,緩存哪部分視頻是首要研究的內容。由于用戶的使用習慣存在差異性,不同的場景業(yè)務大類的使用偏好不同,首先分析業(yè)務大類的用戶使用習慣,是進行內容一級大類緩存的前提。很多時候,真正流行的視頻通常為某一特定的內容,比如某個娛樂節(jié)目,某些熱播電視劇等等,此時緩存具體的視頻內容或者圖片內容,比緩存大類信息更加具有實際意義。這一特定的內容,我們定義為小類(二級)。利用業(yè)務的整體分布情況,判別一級緩存內容,通過具體內容的流行程度,判別二級緩存內容是本文對基站進行內容緩存的多級分析方法。
基站聚簇:
基站之間的偏好存在一定的相似性,根據(jù)感知的基站信息形成基站的特征向量,以此進行基站的聚類。當基站所屬類別中騰訊視頻站主導時,對應的緩存為一級內容緩存,進一步地當基站所屬類別中騰訊視頻中某項內容占主導時,對應的緩存為二級內容緩存。這樣的一級、二級內容緩存虛擬簇是以基站特征為相似度量,因此聚簇的基站不一定屬于同一個物理區(qū)域,而是從邏輯上是一個簇,本文稱之為虛擬簇。
從合適的位置進行數(shù)據(jù)采集,感知不同基站的信息特征,形成基站特征信息庫。以基站信息特征為特征向量對基站多級聚類。分析聚類之后的分級內容的分布情況,存在一級內容偏向時,采用一級內容緩存,具有二級內容流行時,采用二級內容緩存策略,從而形成基站多級內容緩存。
3.實驗結果
數(shù)據(jù)集
針對上述提出的研究框架,采集現(xiàn)網移動4G網中的數(shù)據(jù)進行用戶行為分析,進而進行基站的特征聚類,從而形成虛擬簇的多級內容緩存。
圖 2給出現(xiàn)網4G數(shù)據(jù)采集的節(jié)點,通過核心網節(jié)點S1-MME、S6a、S1-U、S11的數(shù)據(jù)匯總,得到對應的LTE-xDR話單。其中對應的4G數(shù)據(jù)詳見表 1。XDR數(shù)據(jù)的格式為一條數(shù)據(jù)為用戶的一條GET請求,包含該請求對應的用戶位置、發(fā)送數(shù)據(jù)包總數(shù)、流量總數(shù)等等統(tǒng)計信息,從一定角度反映了HTTP業(yè)務的特征。通過解析GET中的HTTP信息可以分析用戶的業(yè)務。
圖 3給出了多級內容解析的例子,一條XDR中視頻業(yè)務的http請求為:http://v.youku.com/v_show/id_XMTQ4OTkwMDg4MA==.html?from=s1.8-3-1.1,其中前半部分的“youku.com”表明用戶的業(yè)務是優(yōu)酷視頻,后半部分的“id_XMTQ4OTkwMDg4MA”為對應視頻片段id,且在視頻內容提供商內部唯一。因此通過XDR中HTTP請求的解析可以得到對應的一級內容和二級內容。同樣的解析方式可以用在朋友圈、微博等業(yè)務上進行圖片內容的解析。根據(jù)這樣的解析結果,對基站特征進行統(tǒng)計。
業(yè)務特征空間分析
不同場景下,不同時段內,由于用戶的移動性以及生活習慣,業(yè)務的分布特征也會隨之變化。首先統(tǒng)計所有的業(yè)務類型,這里主要關注視頻業(yè)務,因此統(tǒng)計每個基站在騰訊、優(yōu)酷、愛奇藝、樂視、搜狐幾大主要業(yè)務中對應的每小時業(yè)務流量、每小時激活人數(shù)、每小時get次數(shù),以此分析用戶的使用習慣。
圖 4給出了一級內容空間流量分布情況。將所有的基站按照voronoi圖進行劃分,每個區(qū)域可以代表一種場景。圖中橫坐標代表以及內容的類別:騰訊視頻、優(yōu)酷視頻、愛奇藝視頻、樂視視頻以及搜狐視頻;坐標表示天,上面一行表示一天,下面一行表示另一天;每個版塊的顏色代表該基站下的該業(yè)務流量,藍色表示低流量,黃色表示高流量。根據(jù)上圖不難看出,不同的業(yè)務在不同的區(qū)域的使用情況不同,有些區(qū)域用戶偏向于騰訊視頻,有些區(qū)域用戶偏向于搜狐視頻,整體上騰訊視頻的使用程度偏高,因此業(yè)務的使用存在場景差異性。除此之外,可以較為明顯看出業(yè)務在不同區(qū)域上的流量也存在典型差異,這種空間上的不均勻性反映了用戶對于視頻業(yè)務的使用情況。從縱向的角度看,不同的天,由于視頻內容熱度的差異性,業(yè)務的使用情況有所差異。上面一天的視頻業(yè)務使用較為明顯地超過下面一天,因此業(yè)務的使用存在時間差異性。
視頻業(yè)務流量空間不均勻性以及使用偏好的差異性,加上時間上的時變性,導致基站進行多級內容進行聚簇緩存時,存在一定的差異性與動態(tài)性,下面針對不同的內容級別進行分析聚類。
多級內容聚類緩存
以基站流量作為視頻緩存的依據(jù),即當對應的視頻流量偏高時,需要進行內容緩存。將基站按照騰訊、優(yōu)酷、愛奇藝、樂視以及搜狐視頻的流量大小組成對應的向量,按照特征向量對基站采用kmeans聚類[9],得到圖 5所示的基站聚類結果。整體可以看出,基站按照流量可以分為7類,每一個類對應一種特征。第一類為騰訊流量在400MB左右,優(yōu)酷為200MB左右的基站,第二類騰訊流量為400MB,但其它流量很少的基站。按照視頻柱狀圖進行一定的分析,可以分別得到7類基站視頻業(yè)務使用特征。顯然,在不同的基站類別中,緩存的視頻業(yè)務也存在差異性。第一類基站騰訊視頻和優(yōu)酷視頻流量較大,因此緩存為騰訊、優(yōu)酷的熱門視頻;而第5類基站,搜狐視頻流量遠大于其他基站,則搜狐視頻熱門視頻進行緩存。
分析每個基站所屬的類別,則可以得到對應的一級內容緩存基站簇,在同類的基站簇中,一級的緩存視頻種類是一致。
如何判定對應的基站所屬的類別是進行基站緩存的另一個重要方面。用戶的使用習慣問題,視頻熱點的更新問題,使得用戶在不同的時段內對于視頻業(yè)務的偏好使用存在差異性。圖 6表示不同的基站在13天中對應的所屬的類別變化。一個7個基站,每個基站基本都有一定的類別波動,從而表明不同的基站偏好情況存在差異性,一級緩存存在差異,同時由于時間上的波動,在不同的時段上也可能存在緩存差異。
由于內容緩存在一定意義上是一種相對靜態(tài)的表現(xiàn),當基站波動較大,不存在明顯規(guī)律時,對應的基站無法緩存。圖 7中的左圖是基站117號對應的所屬基站類別的變化趨勢。第一天屬于7類,第二天屬于1類,根據(jù)圖 5中的基站類別分類,優(yōu)酷視頻的流量明顯上升,搜狐視頻下降。第五天屬于4類,第六、七天屬于2類,騰訊視頻上升,而愛奇藝視頻降低,由于13天中對應波動性較大,相對無規(guī)律,內容基本無法緩存,因此此類用戶偏好不明顯的基站不進行考慮。圖 7中的右圖為基站32號的趨勢變化圖,前面6天有明顯抖動趨勢,但最后7天都屬于3號類別,以騰訊視頻為主,此時對應的基站可以進行一級騰訊視頻緩存。
當確定了基站的一級緩存之后,則可以進一步考慮基站是否存在二級緩存。針對32號基站,統(tǒng)計其對應的平穩(wěn)的后7天的TOP二級內容的請求次數(shù),得到圖 8所示的結果。通過右側的統(tǒng)計結果可以看出,7天中統(tǒng)計的”d5039ievs.m701.mp4”的請求次數(shù)最多,由此可見這段視頻為對應的熱門視頻,在進行一級騰訊視頻緩存之后可以再次對其中的二級內容”d5039ievs.m701.mp4”進行緩存。將具有相同二級緩存內容的基站進行合并,形成二級內容緩存虛擬簇。
4.總結
本文通過信息感知的方式獲取網絡中業(yè)務的使用情況,并以此為依據(jù)提出一種基于兩層聚類的基站多級內容緩存策略。首先通過不同種業(yè)務的分布情況對基站進行一層聚類,得到不同的基站類別,每個類別代表不同的一級內容緩存虛擬簇。根據(jù)基站在時間上的波動性將基站劃歸到對應的虛擬簇。對存在一級內容緩存的基站進行二次聚類,根據(jù)其對應的具體內容進行統(tǒng)計分析,得到不同的二級內容緩存虛擬簇。這種方式根據(jù)基站下用戶的具體使用情況,得到較為合理的基站緩存簇。
值得深思的是,很多熱點的緩存是在事件發(fā)生之前,對于一級緩存簇由于不涉及具體內容,可以直接緩存對應業(yè)務的當前熱點內容。對于二級緩存簇,由于涉及到具體的業(yè)務內容,因此還需要考慮如何提前預知這一個熱點內容,以預測的方式提前進行緩存是下一步需要考慮的具體問題。
參考文獻:
[1]Cisco. Cisco visual networking index: Global mobile data traffic forecast update, 2015-2020. 2016.
[2]Cisco C V N I. Global Mobile Data Traffic Forecast Update. 2014–2019 (white paper)[J]. 2015.
[3]Zhang Q, Xiang Z, Zhu W, et al. Cost-based cache replacement and server selection for multimedia proxy across wireless Internet[J]. IEEE Transactions on Multimedia, 2004, 6(4): 587-598.
[4]Chen H, Xiao Y. Cache access and replacement for future wireless Internet[J]. IEEE Communications Magazine, 2006, 44(5): 113-123.
[5]梁彪. 內容分發(fā)網絡協(xié)作緩存算法研究[D]. 北京交通大學, 2016.
[6]姚士佳. 視頻分發(fā)與緩存協(xié)同優(yōu)化技術研究[D]. 中國科學技術大學, 2014.
[7]“Explanation of Optimization Deployment”, Available:http: //www. verizonwireless. com/vzwoptimization/.
[8]顧競雄. 無線蜂窩網絡中基于業(yè)務信息的基站主動存儲[D]. 浙江大學, 2014.
[9]Hartigan J A, Wong M A. Algorithm AS 136: A k-means clustering algorithm[J]. Journal of the Royal Statistical Society. Series C (Applied Statistics), 1979, 28(1): 100-108.