徐小龍 李 克 王 海 宋曉勤 王 征 吳 雄
(1.北京聯(lián)合大學(xué)智慧城市學(xué)院, 北京, 100101; 2.南京航空航天大學(xué)電子與信息工程學(xué)院, 南京, 210016; 3.中國(guó)電信股份有限公司上海分公司, 上海, 200122)
基于互聯(lián)網(wǎng)的信息傳輸通常提供的是實(shí)時(shí)性和可靠性較差但靈活性較強(qiáng)的服務(wù),相比而言,基于電信網(wǎng)絡(luò)的業(yè)務(wù)則具有高度的穩(wěn)定性和可靠性。為保持其競(jìng)爭(zhēng)優(yōu)勢(shì),運(yùn)營(yíng)商通常會(huì)投入大量人力、物力到網(wǎng)絡(luò)質(zhì)量的評(píng)價(jià)和優(yōu)化,并逐步形成了以網(wǎng)絡(luò)為中心的網(wǎng)絡(luò)運(yùn)維模式。這樣帶來(lái)的問題就是運(yùn)營(yíng)商通常會(huì)站在網(wǎng)絡(luò)的視角看問題,重網(wǎng)絡(luò)質(zhì)量而輕業(yè)務(wù)體驗(yàn)。隨著移動(dòng)網(wǎng)絡(luò)傳輸能力的快速提升以及智能終端的普及,近年來(lái)互聯(lián)網(wǎng)陣營(yíng)的OTT(Over-the-top)業(yè)務(wù)得到了高速發(fā)展并逐步成為移動(dòng)網(wǎng)絡(luò)承載業(yè)務(wù)的主體,對(duì)電信運(yùn)營(yíng)商的傳統(tǒng)自有業(yè)務(wù)形成了替代效應(yīng),最典型的例子就是微信對(duì)短信和語(yǔ)音業(yè)務(wù)的沖擊。在這種新的形式下,移動(dòng)網(wǎng)絡(luò)有逐步淪為管道的危險(xiǎn),而僅僅通過保障網(wǎng)絡(luò)質(zhì)量已經(jīng)難以保障良好的業(yè)務(wù)體驗(yàn)。因此,為了保障用戶業(yè)務(wù)體驗(yàn),降低客戶流失風(fēng)險(xiǎn),變革移動(dòng)網(wǎng)絡(luò)質(zhì)量的測(cè)量、評(píng)價(jià)和優(yōu)化方法迫在眉睫。
傳統(tǒng)的移動(dòng)網(wǎng)絡(luò)運(yùn)維主要依靠路測(cè)(Drive test, DT)和定點(diǎn)撥測(cè)(Call quality test, CQT)等手段、以網(wǎng)絡(luò)關(guān)鍵性能指標(biāo)(Key performance indicator, KPI)為目標(biāo)來(lái)評(píng)價(jià)網(wǎng)絡(luò)質(zhì)量,更注重從網(wǎng)絡(luò)層面而非業(yè)務(wù)層面進(jìn)行評(píng)價(jià)和優(yōu)化,網(wǎng)絡(luò)質(zhì)量和用戶感知存在越來(lái)越大的剪刀差。為此,運(yùn)營(yíng)商逐步開始重視用戶體驗(yàn)質(zhì)量(Quality of experience, QoE)。研究人員也圍繞業(yè)務(wù)關(guān)鍵質(zhì)量指標(biāo)(Key quality indicator, KQI)的數(shù)據(jù)采集和QoE的評(píng)價(jià)方法展開了相關(guān)研究[1-8]。雖然用戶感知越來(lái)越重要,但目前數(shù)據(jù)采集和評(píng)價(jià)的手段仍有一定局限性,主要是通過在網(wǎng)絡(luò)側(cè)部署探針的方式如深度包解析方法(Deep packet inspection, DPI)[9]。一般來(lái)說,離用戶越近則感知越準(zhǔn)確,因此如何從用戶側(cè)獲取感知信息尤為關(guān)鍵。運(yùn)營(yíng)商開始嘗試采用基于終端側(cè)用戶感知大數(shù)據(jù)進(jìn)行更加準(zhǔn)確的網(wǎng)絡(luò)和業(yè)務(wù)質(zhì)量評(píng)價(jià)[10],希望以此牽引各相關(guān)業(yè)務(wù)部門共同協(xié)作促進(jìn)業(yè)務(wù)感知的提升,進(jìn)一步用于指導(dǎo)精準(zhǔn)化的市場(chǎng)營(yíng)銷和客戶服務(wù),稱之為眾包用戶感知方法(Crowdsourcing-based user perception, CUP)。
業(yè)務(wù)感知評(píng)價(jià)的最終目的是指導(dǎo)網(wǎng)絡(luò)的優(yōu)化調(diào)整以提升業(yè)務(wù)感知水平,這首先需要針對(duì)影響業(yè)務(wù)感知的因素進(jìn)行分析和定位。本文針對(duì)上述問題,以網(wǎng)頁(yè)瀏覽類應(yīng)用為研究對(duì)象,基于在現(xiàn)網(wǎng)中采集的海量真實(shí)終端側(cè)業(yè)務(wù)感知數(shù)據(jù),通過多種數(shù)據(jù)分析和統(tǒng)計(jì)學(xué)手段,系統(tǒng)地分析了影響用戶業(yè)務(wù)感知的各類因素,并從多個(gè)維度分析了這些因素對(duì)業(yè)務(wù)感知的影響機(jī)制,以及各主要影響因素之間、感知指標(biāo)之間的關(guān)聯(lián)關(guān)系。
下面對(duì)常用的網(wǎng)絡(luò)測(cè)量方法、QoE評(píng)價(jià)與分析進(jìn)行簡(jiǎn)要分析,并對(duì)本文所采用的終端側(cè)業(yè)務(wù)感知大數(shù)據(jù)的采集方法作重點(diǎn)闡述。
網(wǎng)絡(luò)測(cè)量與評(píng)價(jià)主要包括3個(gè)階段:即數(shù)據(jù)采集、質(zhì)量評(píng)價(jià)和數(shù)據(jù)分析。從數(shù)據(jù)采集的方式上來(lái)說,網(wǎng)絡(luò)和業(yè)務(wù)測(cè)量方法主要分為兩大類:主動(dòng)測(cè)試和被動(dòng)監(jiān)測(cè)。從數(shù)據(jù)采集的位置來(lái)分,則包括終端側(cè)采集和網(wǎng)絡(luò)側(cè)采集兩大類。主動(dòng)測(cè)試是最為傳統(tǒng)也是最成熟的一種測(cè)量方式,其代表性方法是DT/CQT,例如文獻(xiàn)[11]采用的就是從終端側(cè)發(fā)起的主動(dòng)測(cè)試,而網(wǎng)絡(luò)側(cè)的數(shù)據(jù)采集方法中最具有代表性也是目前應(yīng)用最廣的就是DPI技術(shù)。除此之外,還可以通過用戶問卷調(diào)查的方式獲得手機(jī)用戶的主觀業(yè)務(wù)感知質(zhì)量信息,其代表性的方法為凈推薦值(Net promoter score, NPS)[12]。
主動(dòng)測(cè)試的優(yōu)點(diǎn)在于測(cè)試環(huán)境完全可控和透明,而其缺點(diǎn)是采集的樣本點(diǎn)少,且只是測(cè)試人員在有限時(shí)間、地點(diǎn)對(duì)用戶業(yè)務(wù)行為的有限模擬,難以反映全體用戶的真實(shí)業(yè)務(wù)行為。此外,由于測(cè)試人員行為上的差異性,導(dǎo)致測(cè)試結(jié)果的公立性和準(zhǔn)確性有較大的不確定性。由于電信業(yè)務(wù)過程中往往產(chǎn)生海量數(shù)據(jù),因此被動(dòng)監(jiān)測(cè)方式獲取到的電信數(shù)據(jù)天然具有大數(shù)據(jù)的特征,如何借助于大數(shù)據(jù)的手段進(jìn)行數(shù)據(jù)分析得到了越來(lái)越多的重視。文獻(xiàn)[13]中對(duì)于網(wǎng)絡(luò)側(cè)移動(dòng)數(shù)據(jù)的采集和分析研究現(xiàn)狀作了較為全面的論述,其中最具代表性的技術(shù)就是DPI。其最大優(yōu)勢(shì)是可以實(shí)現(xiàn)對(duì)網(wǎng)內(nèi)全量用戶的數(shù)據(jù)采集和分析,但部署成本高昂且局限于本網(wǎng)內(nèi),難以進(jìn)行跨運(yùn)營(yíng)商網(wǎng)絡(luò)的對(duì)標(biāo)分析,對(duì)業(yè)務(wù)的識(shí)別和業(yè)務(wù)特征采集的準(zhǔn)確性也受到解析技術(shù)的限制會(huì)有一定偏差。此外,隨著https技術(shù)的廣泛應(yīng)用,其業(yè)務(wù)識(shí)別能力也面臨很大挑戰(zhàn)。
隨著智能終端以及搭載了各種傳感器的可穿戴設(shè)備的興起,基于眾包的終端側(cè)測(cè)量得到了學(xué)術(shù)和產(chǎn)業(yè)界的重視。文獻(xiàn)[14]中將這類測(cè)量方法命名為移動(dòng)眾包感知(Mobile crowdsensing, MCS),文中將其分為兩種類型,即參與式感知和機(jī)會(huì)感知。前者需要個(gè)人的主動(dòng)參與以貢獻(xiàn)感知數(shù)據(jù)(如個(gè)人上傳照片或報(bào)告實(shí)施路況等),而機(jī)會(huì)感知?jiǎng)t以被動(dòng)的、自治的方式工作,通常不需要用戶的主動(dòng)參與。
本文所采用的CUP方法屬于機(jī)會(huì)感知的范疇,重點(diǎn)關(guān)注如何從用戶智能終端上采集用戶的實(shí)際在網(wǎng)業(yè)務(wù)信息,并進(jìn)行網(wǎng)絡(luò)和業(yè)務(wù)質(zhì)量的評(píng)價(jià)分析。該方法具有很強(qiáng)的客觀性,數(shù)據(jù)準(zhǔn)確性很高,能夠較全面地反映網(wǎng)絡(luò)和用戶的真實(shí)情況,但其最大難點(diǎn)在于APP的部署??梢圆捎锚?dú)立的APP形式,但更多的則是作為SDK插件與其他APP捆綁。另一難點(diǎn)是如何避免對(duì)用戶隱私的侵犯。此外,由于一般是基于操作系統(tǒng)層面之上的數(shù)據(jù)采集,其獲取的無(wú)線參數(shù)較為有限,對(duì)于更深層次的網(wǎng)絡(luò)數(shù)據(jù)比如空口信令更是無(wú)法獲取。
海量網(wǎng)絡(luò)和業(yè)務(wù)數(shù)據(jù)的獲取為更準(zhǔn)確的QoE評(píng)價(jià)和分析提供了更豐富的信息,也吸引了學(xué)術(shù)界的廣泛關(guān)注。文獻(xiàn)[3]中探索了將大數(shù)據(jù)分析用于網(wǎng)絡(luò)優(yōu)化以提升用戶QoE的問題,描述了一個(gè)大數(shù)據(jù)驅(qū)動(dòng)的移動(dòng)網(wǎng)絡(luò)優(yōu)化的框架,討論了相應(yīng)的機(jī)器學(xué)習(xí)大數(shù)據(jù)分析方案和大數(shù)據(jù)特征。文獻(xiàn)[15]介紹了基于隨機(jī)矩陣?yán)碚摵蜋C(jī)器學(xué)習(xí)的統(tǒng)一數(shù)據(jù)模型,提出了一個(gè)將大數(shù)據(jù)分析應(yīng)用于移動(dòng)網(wǎng)絡(luò)的框架,并描述了幾個(gè)典型應(yīng)用場(chǎng)景,包括信令大數(shù)據(jù)、業(yè)務(wù)大數(shù)據(jù)和無(wú)線信號(hào)大數(shù)據(jù)等。
文獻(xiàn)[16]基于網(wǎng)絡(luò)側(cè)話單數(shù)據(jù)(Call detail record, CDR)構(gòu)建了典型移動(dòng)互聯(lián)網(wǎng)業(yè)務(wù)的用戶感知評(píng)估體系,并提出了一種基于統(tǒng)計(jì)的用戶感知問題的多維度定界方法;文獻(xiàn)[17]則在終端眾包感知數(shù)據(jù)和DPI數(shù)據(jù)相結(jié)合的基礎(chǔ)上提出了移動(dòng)互聯(lián)網(wǎng)業(yè)務(wù)KQI的評(píng)測(cè)方法,以及基于統(tǒng)計(jì)的終端/無(wú)線/核心網(wǎng)/SP四段感知質(zhì)差問題定界、定段、定位分析模型。
在QoE的影響因素分析方面,文獻(xiàn)[5]中將QoE影響因素分為3個(gè)層面:服務(wù)層面、環(huán)境層面及用戶層面。服務(wù)層面的影響因素則可以進(jìn)一步包括網(wǎng)絡(luò)層、應(yīng)用層及服務(wù)層的參數(shù)。網(wǎng)絡(luò)層的參數(shù)反映網(wǎng)絡(luò)傳輸?shù)臓顩r,應(yīng)用層的參數(shù)反映沒有經(jīng)過傳輸?shù)姆?wù)的性能,服務(wù)層的參數(shù)確定了通信的語(yǔ)義、內(nèi)容、優(yōu)先級(jí)、重要性以及定價(jià)。環(huán)境層面的影響因素則包括自然環(huán)境、人文與社會(huì)環(huán)境以及服務(wù)運(yùn)行環(huán)境等。用戶層面的因素包括用戶的期望、體驗(yàn)經(jīng)歷、用戶體驗(yàn)時(shí)所處的身心狀態(tài)和自身背景。但該文中對(duì)于具體業(yè)務(wù)場(chǎng)景下的影響因素以及這些因素與業(yè)務(wù)體驗(yàn)指標(biāo)之間的相關(guān)性缺乏深入的分析,這正是本文的主要研究?jī)?nèi)容和貢獻(xiàn)。
圖1 CUP數(shù)據(jù)采集與分析系統(tǒng)的通用架構(gòu) Fig.1 Common architecture of CUP data acquisition and analysis system
本文所采用的基于眾包用戶感知的數(shù)據(jù)采集與分析系統(tǒng)的系統(tǒng)架構(gòu)如圖1所示。
其中用戶終端上安裝了數(shù)據(jù)采集前端,通過在后臺(tái)運(yùn)行的方式監(jiān)測(cè)用戶的業(yè)務(wù)行為,并在設(shè)定的觸發(fā)條件(比如用戶用特定的瀏覽器APP訪問了預(yù)定義的某個(gè)目標(biāo)網(wǎng)站頁(yè)面)下采集相關(guān)的業(yè)務(wù)感知和輔助信息并上傳至云端的數(shù)據(jù)采集分析平臺(tái)。分析平臺(tái)對(duì)回傳的原始數(shù)據(jù)進(jìn)行相應(yīng)的預(yù)處理,包括無(wú)效數(shù)據(jù)的剔除和用戶信息的脫敏。通常不采集用戶的高度敏感信息,包括手機(jī)號(hào)碼、短信文本等,僅采集終端標(biāo)識(shí)(International mobile equipment identity, IMEI)和用戶標(biāo)識(shí)(International mobile subscriber identity, IMSI)作為后臺(tái)統(tǒng)計(jì)分析的用戶標(biāo)識(shí),并在預(yù)處理中進(jìn)行脫敏處理,包括IMEI/IMSI信息的加擾和加密等。采集的信息通常包括以下3類:
(1) 業(yè)務(wù)感知信息
這是最核心的采集信息。一般針對(duì)最具代表性的OTT業(yè)務(wù)類型,如網(wǎng)頁(yè)瀏覽、視頻播放和游戲等。對(duì)每類業(yè)務(wù)根據(jù)業(yè)務(wù)特征以及與用戶體驗(yàn)的相關(guān)性定義若干KQI指標(biāo)。具體而言,對(duì)于網(wǎng)頁(yè)瀏覽類業(yè)務(wù)的感知指標(biāo)主要體現(xiàn)在HTTP請(qǐng)求各階段的時(shí)延,可根據(jù)業(yè)務(wù)需要進(jìn)行相應(yīng)的定義。例如文獻(xiàn)[10]中所定義的指標(biāo)包括首包時(shí)延、頁(yè)面打開時(shí)延,還可以結(jié)合速率等指標(biāo)。本文所采用的指標(biāo)具體定義如下:
圖2 網(wǎng)頁(yè)瀏覽的交互過程Fig.2 Signaling process of web browsing service
(a)首包時(shí)延(Dk)。用戶發(fā)起網(wǎng)頁(yè)瀏覽請(qǐng)求到收到目標(biāo)服務(wù)器響應(yīng)的第1個(gè)HTTP 200 OK報(bào)文包之間的所經(jīng)歷的時(shí)長(zhǎng),即
Dk=T200-Treq
(1)
其中Treq為用戶發(fā)起網(wǎng)頁(yè)瀏覽請(qǐng)求的時(shí)間點(diǎn),T200為收到服務(wù)器第一個(gè)HTTP 200 OK報(bào)文的時(shí)間點(diǎn)。首包時(shí)延體現(xiàn)了服務(wù)器對(duì)HTTP請(qǐng)求的響應(yīng)是否有反應(yīng)及響應(yīng)的快慢。
一次網(wǎng)頁(yè)瀏覽過程包括若干環(huán)節(jié),即DNS解析、TCP連接建立和HTTP交互,具體如圖2所示。因此這里的首包時(shí)延可進(jìn)一步分解為3個(gè)分段時(shí)延指標(biāo)之和,即
Dk=Ddns+Dtcp+Dget
(2)
其中
(3)
式中:Ddns為DNS解析時(shí)延,即從發(fā)起頁(yè)面瀏覽請(qǐng)求時(shí)刻到終端收到完成DNS解析的時(shí)刻Tdns的時(shí)間差。需要注意的是,如果在用戶發(fā)起網(wǎng)頁(yè)瀏覽請(qǐng)求的時(shí)刻終端尚未建立起空口連接,則該時(shí)延還包含空口建立時(shí)延;Dtcp為TCP連接建立時(shí)延,即從DNS解析完成到終端發(fā)出TCP連接確認(rèn)的時(shí)刻的時(shí)間差;Dget為GET請(qǐng)求時(shí)延,即從終端發(fā)出TCP連接確認(rèn)到收到第一個(gè)TCP數(shù)據(jù)包(包含HTTP 200 OK)的時(shí)刻T200的時(shí)間差。
(b) 頁(yè)面打開時(shí)延(Dp)。用戶發(fā)起瀏覽請(qǐng)求到收到目標(biāo)服務(wù)器的第一個(gè)HTTP響應(yīng)(僅頁(yè)面文本內(nèi)容,不包含資源的二次加載)、整個(gè)HTTP頁(yè)面下載完畢并渲染完成的時(shí)長(zhǎng)。頁(yè)面打開時(shí)延反映了用戶從訪問開始到頁(yè)面打開所需要等待的全部時(shí)間,是影響用戶體驗(yàn)的最直接的感知指標(biāo)。頁(yè)面時(shí)延是在首包時(shí)延的基礎(chǔ)上增加接收響應(yīng)時(shí)延,即
Dp=Dk+Dres
(4)
其中Dres為接收響應(yīng)時(shí)延,是指從收到第一個(gè)響應(yīng)數(shù)據(jù)包到終端發(fā)出[FIN,ACK](即接收完成)的時(shí)刻的時(shí)間差,即
Dres=Tres-T200
(5)
(2) 網(wǎng)絡(luò)環(huán)境信息
每次監(jiān)測(cè)到目標(biāo)樣本時(shí),均同步采集當(dāng)時(shí)的網(wǎng)絡(luò)制式和基本網(wǎng)絡(luò)參數(shù)(場(chǎng)強(qiáng)、信號(hào)質(zhì)量和小區(qū)標(biāo)識(shí)等),對(duì)不同的網(wǎng)絡(luò)制式,具體的參數(shù)不同。例如對(duì)LTE網(wǎng)絡(luò),場(chǎng)強(qiáng)為RSRP,信號(hào)質(zhì)量為RSRQ,小區(qū)標(biāo)識(shí)為四元組{TAC,eNodeB ID, CI, PCI},這些信息表征了當(dāng)時(shí)的網(wǎng)絡(luò)質(zhì)量的基本情況,這對(duì)于分析網(wǎng)絡(luò)環(huán)境對(duì)業(yè)務(wù)感知質(zhì)量的影響是重要的參考。
(3) 基礎(chǔ)信息
主要包括終端信息、位置信息等。終端信息包括用戶標(biāo)識(shí)IMSI、設(shè)備標(biāo)識(shí)IMEI、終端型號(hào)以及操作系統(tǒng)版本等,位置信息則包括采集業(yè)務(wù)感知樣本時(shí)的終端經(jīng)緯度、定位精度、定位方式(GPS定位或網(wǎng)絡(luò)輔助定位)。
對(duì)于一個(gè)OTT業(yè)務(wù)的業(yè)務(wù)過程而言,影響業(yè)務(wù)感知的因素涉及到端到端的各個(gè)環(huán)節(jié),主要包括云、管和端3個(gè)部分,即業(yè)務(wù)服務(wù)器、移動(dòng)網(wǎng)絡(luò)(包括無(wú)線和核心兩大部分)以及終端3大環(huán)節(jié)。具體可以將上述因素細(xì)分為6個(gè)維度進(jìn)行分析,即:無(wú)線網(wǎng)、核心網(wǎng)、時(shí)間、終端、用戶和ISP網(wǎng)站。
(1)無(wú)線網(wǎng):無(wú)線網(wǎng)相比核心網(wǎng)和ISP網(wǎng)站而言,由于地理環(huán)境和區(qū)域網(wǎng)絡(luò)負(fù)載的多變性,其對(duì)用戶業(yè)務(wù)感知的影響最為明顯和不確定,是影響業(yè)務(wù)感知的最主要環(huán)節(jié),也是優(yōu)化提升的主要目標(biāo)。具體而言,良好的無(wú)線網(wǎng)絡(luò)首先體現(xiàn)在網(wǎng)絡(luò)覆蓋,即覆蓋區(qū)域內(nèi)各處的信號(hào)強(qiáng)度足夠,更進(jìn)一步則是信號(hào)質(zhì)量良好(干擾較低)。
(2)核心網(wǎng):包括核心網(wǎng)設(shè)備和傳輸鏈路。核心網(wǎng)由于影響的面很廣,且其傳輸環(huán)境可控,一般運(yùn)營(yíng)商會(huì)在核心網(wǎng)的運(yùn)行維護(hù)上提供非常高級(jí)別的保障,因此其性能穩(wěn)定,很少會(huì)影響到用戶的業(yè)務(wù)感知。
(3)時(shí)間(負(fù)載)因素:用戶的業(yè)務(wù)發(fā)起具有隨機(jī)性,同時(shí)在分布上也存在統(tǒng)計(jì)特征,這種用戶業(yè)務(wù)需求的時(shí)間差異化特征對(duì)無(wú)線網(wǎng)、核心網(wǎng)和ISP網(wǎng)站都會(huì)形成沖擊從而影響到業(yè)務(wù)體驗(yàn)。這種由于用戶業(yè)務(wù)需求在時(shí)間上的不均衡性具體表現(xiàn)為網(wǎng)絡(luò)設(shè)備負(fù)載的差異性。高負(fù)載時(shí)段一般來(lái)說會(huì)導(dǎo)致用戶業(yè)務(wù)感知的明顯下降。
(4)終端因素:智能終端尤其是安卓智能終端,其碎片化特征明顯,品牌和機(jī)型眾多,不同的硬件能力對(duì)用戶的業(yè)務(wù)體驗(yàn)有明顯的影響,相對(duì)而言,高端機(jī)型由于其良好的硬件配置和軟件優(yōu)化能力,其業(yè)務(wù)的體驗(yàn)會(huì)優(yōu)于低端機(jī)型。
(5)用戶因素:具體的用戶由于其終端的個(gè)體化性能差異和使用習(xí)慣,以及不同個(gè)體對(duì)業(yè)務(wù)感知良好的心理認(rèn)知和接受程度上的差異,反映在業(yè)務(wù)感知的評(píng)估結(jié)果上也會(huì)存在差異。
(6)ISP因素:對(duì)于大型OTT業(yè)務(wù)提供商,為保障用戶體驗(yàn),一般會(huì)大量采用內(nèi)容分發(fā)網(wǎng)絡(luò)(Content distribution network, CDN)[18]的方式將內(nèi)容下沉以就近提供服務(wù)。因此,即使同一網(wǎng)站由于其網(wǎng)站CDN服務(wù)器布放的位置、處理能力和帶寬的差異,也會(huì)對(duì)不同地區(qū)的用戶業(yè)務(wù)感知帶來(lái)差別。
對(duì)于基于HTTP協(xié)議的業(yè)務(wù),域名的解析需要DNS服務(wù)器,一般布放在運(yùn)營(yíng)商網(wǎng)內(nèi),有的也會(huì)利用第三方服務(wù)器提供域名解析。DNS服務(wù)器的處理能力和帶寬也會(huì)影響網(wǎng)頁(yè)瀏覽業(yè)務(wù)的用戶體驗(yàn)。
本節(jié)重點(diǎn)從無(wú)線網(wǎng)、時(shí)間(負(fù)載)、終端、ISP等幾個(gè)主要維度,以網(wǎng)頁(yè)瀏覽類業(yè)務(wù)為例,利用從現(xiàn)網(wǎng)中實(shí)際采集的海量業(yè)務(wù)感知大數(shù)據(jù)進(jìn)行分析,從而驗(yàn)證上述影響因素對(duì)用戶體驗(yàn)的實(shí)質(zhì)性影響。數(shù)據(jù)來(lái)源于普通用戶智能終端并已做了脫敏處理。采集所涉及的目標(biāo)網(wǎng)站包括新浪、百度和搜狐等9個(gè)國(guó)內(nèi)主流網(wǎng)站,所有樣本均在LTE網(wǎng)絡(luò)下獲得,總有效樣本數(shù)為7 434 030個(gè)。
對(duì)于無(wú)線網(wǎng)絡(luò)而言,良好的信號(hào)覆蓋是業(yè)務(wù)感知的重要基礎(chǔ),其中最基本的指標(biāo)是業(yè)務(wù)發(fā)生時(shí)所在位置的信號(hào)強(qiáng)度,其次是信號(hào)質(zhì)量,即干擾水平,對(duì)LTE網(wǎng)絡(luò)分別是參數(shù)RSRP和RSRQ。信號(hào)強(qiáng)度和信號(hào)質(zhì)量越好,其空口的數(shù)據(jù)交互成功率和時(shí)延也越好,進(jìn)而帶來(lái)更好的業(yè)務(wù)體驗(yàn)。
首先分析覆蓋能力對(duì)于業(yè)務(wù)感知指標(biāo)的影響,即信號(hào)強(qiáng)度和信號(hào)質(zhì)量與業(yè)務(wù)感知指標(biāo)之間的相關(guān)性。不同RSRP水平下的平均首包時(shí)延和頁(yè)面打開時(shí)延的分段分布情況如圖3所示。
圖3 RSRP與平均首包時(shí)延/頁(yè)面打開時(shí)延的關(guān)系
圖3中Median曲線為中位數(shù),Q1和Q3分別為該RSRP分段上的KQI指標(biāo)1/4分位數(shù)和3/4分位數(shù)。由此可以看出當(dāng)場(chǎng)強(qiáng)小于-110 dBm時(shí)(對(duì)LTE網(wǎng)絡(luò)而言,一般將場(chǎng)強(qiáng)低于-110 dBm的情況定義為弱覆蓋),兩個(gè)指標(biāo)均出現(xiàn)了明顯的惡化,這表明信號(hào)強(qiáng)度對(duì)瀏覽類業(yè)務(wù)的感知指標(biāo)影響較大。對(duì)RSRQ和首包/頁(yè)面打開時(shí)延的箱體圖分析的結(jié)果與此類似。由此可見,無(wú)線環(huán)境質(zhì)量對(duì)于端到端業(yè)務(wù)感知具有直接的影響,是業(yè)務(wù)感知保障優(yōu)化工作中需要重點(diǎn)關(guān)注的因素。
由于從終端側(cè)無(wú)法獲得網(wǎng)絡(luò)負(fù)載信息,作為一種替代方案,分析一天不同時(shí)間段內(nèi)的業(yè)務(wù)感知指標(biāo)的差異,觀察不同時(shí)間用戶不同的業(yè)務(wù)使用強(qiáng)度對(duì)感知指標(biāo)的影響。一般而言,一天之中不同時(shí)間段的業(yè)務(wù)使用強(qiáng)度是不同的。圖4是根據(jù)業(yè)務(wù)行為數(shù)據(jù)分析得到的網(wǎng)頁(yè)瀏覽類業(yè)務(wù)在不同時(shí)段的業(yè)務(wù)活躍度(即業(yè)務(wù)發(fā)起時(shí)間占比)。可以看出,在23點(diǎn)~次日7點(diǎn)之間的夜間時(shí)段,業(yè)務(wù)使用強(qiáng)度很低,也即網(wǎng)絡(luò)負(fù)載很低。
將業(yè)務(wù)感知采樣數(shù)據(jù)按照不同時(shí)段進(jìn)行統(tǒng)計(jì),可以得到圖5的結(jié)果。從圖中可以看出,感知指標(biāo)的波動(dòng)與業(yè)務(wù)活躍度分布的波動(dòng)具有顯著的相似性。這表明業(yè)務(wù)活躍度對(duì)于感知指標(biāo)也具有顯著的影響。
圖4 不同時(shí)段的網(wǎng)頁(yè)瀏覽業(yè)務(wù)活躍度分布
圖5 首包時(shí)延/頁(yè)面打開時(shí)延在不同時(shí)段的水平
還可以進(jìn)一步對(duì)上述因素間的相關(guān)性進(jìn)行定量評(píng)價(jià)。相關(guān)性的量化評(píng)價(jià)的傳統(tǒng)方法是計(jì)算Pearson相關(guān)系數(shù)(Pearson correlation coefficient, PCC)。PCC是基于協(xié)方差和標(biāo)準(zhǔn)偏差的估計(jì),兩個(gè)樣本集合的Pearson相關(guān)系數(shù)為
(6)
為了進(jìn)一步驗(yàn)證該觀察,同時(shí)采用另一種方法,即最大信息系數(shù)(Maxinal information coefficient, MIC),以檢測(cè)為兩個(gè)變量的獨(dú)立性關(guān)系[19-20]。經(jīng)證明,MIC方法可以廣泛地捕捉各類函數(shù)或非函數(shù)的關(guān)聯(lián)性,其中一些甚至是通過其他方法如PCC方法、Kraskov互信息估計(jì)器[21]所無(wú)法發(fā)現(xiàn)的。MIC的定義如下。
對(duì)于一個(gè)有限集合D?R2和正整數(shù)x與y,定義
I*(D,x,y)=maxI(D|G)
(7)
其中,求最大值是指對(duì)于x乘y分辨率的網(wǎng)格分割,通過調(diào)整X軸和Y軸的分割點(diǎn)所能計(jì)算得到的最大互信息值。有了在不同分辨率下得到的I*,可以構(gòu)造特征矩陣并求得有限集合D的特征矩陣。
定義二維集合D的特征矩陣M(D)是一個(gè)無(wú)窮矩陣,即有
(8)
經(jīng)過標(biāo)準(zhǔn)化后的特征矩陣中元素的值均落在[0,1]上。
集合D的最大信息系數(shù)則可以表示為
(9)
其中對(duì)于0<ε<1,存在ω(1)
根據(jù)MIC的定義可見,MIC具有普適性、公平性和對(duì)稱性等性質(zhì)。所謂普適性,是指在樣本量足夠大(包含了樣本的大部分信息)時(shí),能夠捕獲各種各樣的有趣關(guān)聯(lián),而不限定于特定的函數(shù)類型(如線性函數(shù)、指數(shù)函數(shù)或周期函數(shù)),或者說能均衡覆蓋所有的函數(shù)關(guān)系。一般變量之間的復(fù)雜關(guān)系不僅僅通過單獨(dú)一個(gè)函數(shù)就能夠建模,而是需要疊加函數(shù)來(lái)表現(xiàn)。所謂公平性,是指在樣本量足夠大時(shí)能為不同類型單噪聲程度相似的相關(guān)關(guān)系給出相近的系數(shù)。例如,對(duì)于一個(gè)充滿相同噪聲的線性關(guān)系和一個(gè)正弦關(guān)系,一個(gè)好的評(píng)價(jià)算法應(yīng)該給出相同或相近的相關(guān)系數(shù)。可以看到,隨著噪聲程度的增加,這些方法對(duì)某些函數(shù)關(guān)系表現(xiàn)出的健壯性不一致。利用MIC可以大大減少數(shù)據(jù)清洗的麻煩,只要有足夠的數(shù)據(jù)量可以代表總體信息,就可以直接用MIC計(jì)算分析。用PCC和MIC方法分別計(jì)算首包時(shí)延和頁(yè)面打開時(shí)延與不同時(shí)段業(yè)務(wù)活躍度的相關(guān)性,結(jié)果如圖6所示。顯然,從圖8可以看出,無(wú)論是首包時(shí)延還是頁(yè)面打開時(shí)延,都表現(xiàn)出與業(yè)務(wù)活躍度顯著的相關(guān)性。
對(duì)于網(wǎng)頁(yè)瀏覽業(yè)務(wù)而言,對(duì)于不同的網(wǎng)站由于其網(wǎng)頁(yè)大小不同,需要下載的頁(yè)面大小也不一樣,因此,頁(yè)面打開時(shí)延指標(biāo)有可能受到頁(yè)面大小的影響。為此將業(yè)務(wù)感知指標(biāo)數(shù)據(jù)按照不同的網(wǎng)站進(jìn)行統(tǒng)計(jì),結(jié)果如圖7所示。
從圖7可以看出,不同網(wǎng)站的首包時(shí)延基本處于同一水平,這是因?yàn)槭装鼤r(shí)延主要取決于網(wǎng)站對(duì)終端側(cè)網(wǎng)頁(yè)請(qǐng)求的響應(yīng)速度,與頁(yè)面大小無(wú)關(guān);而頁(yè)面打開時(shí)延則與頁(yè)面大小有明顯的相關(guān)性,反映出頁(yè)面打開時(shí)延與首頁(yè)數(shù)據(jù)的傳輸時(shí)延相關(guān)性更高,與空口速率密切相關(guān)。因此,在評(píng)價(jià)頁(yè)面打開時(shí)延的優(yōu)劣時(shí),如果對(duì)不同網(wǎng)站均采用相同的優(yōu)劣判決門限則有失公平,因?yàn)椴煌瑓^(qū)域的各類網(wǎng)站的樣本數(shù)分布具有一定的差異性。因此,參考各網(wǎng)站的頁(yè)面大小、本地用戶對(duì)各網(wǎng)站的訪問頻度的偏差對(duì)頁(yè)面打開時(shí)延指標(biāo)的優(yōu)劣判決門限進(jìn)行加權(quán)歸一化,以避免由于網(wǎng)站自身和用戶訪問偏好的差異性帶來(lái)的評(píng)價(jià)結(jié)果的偏差。
圖7 不同網(wǎng)站的KQI指標(biāo)對(duì)比
(10)
(11)
其中βi為控制參數(shù)。
表1 終端資源負(fù)荷與首包/頁(yè)面打開時(shí)延的MIC分析
終端的計(jì)算資源主要指CPU和內(nèi)存。過高的CPU和內(nèi)存占用會(huì)導(dǎo)致終端的計(jì)算能力和響應(yīng)能力的下降,影響到APP的運(yùn)行。因此,為了確定通過瀏覽器APP進(jìn)行的網(wǎng)頁(yè)瀏覽業(yè)務(wù)的用戶體驗(yàn)是否受終端資源負(fù)荷的影響,對(duì)業(yè)務(wù)感知指標(biāo)與不同終端資源負(fù)荷的相關(guān)性指標(biāo)即MIC進(jìn)行計(jì)算,如果如表1所示。可以看出,首包時(shí)延和頁(yè)面打開時(shí)延與CPU和內(nèi)存之間無(wú)明顯相關(guān)性,即終端資源負(fù)荷對(duì)業(yè)務(wù)感知指標(biāo)無(wú)明顯影響。
對(duì)于業(yè)務(wù)感知指標(biāo)而言,在采集KQI指標(biāo)樣本的基礎(chǔ)上,進(jìn)一步需建立KQI-QoE映射模型以便更直觀地評(píng)價(jià)業(yè)務(wù)體驗(yàn)。為了減少KQI指標(biāo)間的冗余對(duì)模型的影響,需要對(duì)指標(biāo)集合進(jìn)行降維分析,以確定最終用于構(gòu)建模型的KQI指標(biāo)集合。具體對(duì)網(wǎng)頁(yè)瀏覽類業(yè)務(wù)而言,一種方式是將首包時(shí)延和頁(yè)面打開時(shí)延作為輸入KQI指標(biāo)集,另一種方法則是將分段時(shí)延指標(biāo){Ddns,Dtcp,Dreq,Dres}作為輸入,這時(shí)需要對(duì)該指標(biāo)集合中的4個(gè)分段指標(biāo)進(jìn)行降維分析。
最常用的降維分析是主成分分析法(Principal component analysis, PCA)。其目的是用1組較少的獨(dú)立變量代替大量相關(guān)變量,同時(shí)盡可能保留初始變量信息,推導(dǎo)所得的變量稱為主成分。探索性因子分析法(Exploratory factor analysis,EFA)也是一項(xiàng)用來(lái)找出多元觀測(cè)變量的本質(zhì)結(jié)構(gòu)、并進(jìn)行降維的技術(shù),在教育和心理學(xué)評(píng)價(jià)中應(yīng)用較多[22]。它主要是為了找出影響觀測(cè)變量的因子個(gè)數(shù),以及各個(gè)因子和觀測(cè)變量間的相關(guān)程度,其基本模型為
X=ΛΞ+Δ
(12)
圖8 分段時(shí)延的PCA/EFA因素分析
表2 EFA各因子得分{aij}
由此可得
(13)
式中:ξj代表第j個(gè)公共因子;xi分別代表4個(gè)分段時(shí)延觀測(cè)變量;aij代表每一個(gè)分段時(shí)延對(duì)應(yīng)的權(quán)重。
由EFA計(jì)算結(jié)果進(jìn)一步可知,第1主成分ξ1的貢獻(xiàn)率是25%,其中TCP連接建立對(duì)頁(yè)面打開時(shí)延的影響最大。其次是第2主成分ξ2,其貢獻(xiàn)率為24%,其中DNS解析對(duì)頁(yè)面打開時(shí)延的影響最大。而ξ3中則是以接收響應(yīng)時(shí)延對(duì)頁(yè)面打開時(shí)延的影響為最大。基于此,可采用{ξj,j=1,2,3}作為輸入構(gòu)建KQI-QoE映射模型。
本文針對(duì)傳統(tǒng)移動(dòng)網(wǎng)絡(luò)運(yùn)維和優(yōu)化作業(yè)模式在OTT業(yè)務(wù)越來(lái)越占據(jù)主導(dǎo)地位的當(dāng)前情況下所面臨的諸多問題,對(duì)影響端到端用戶業(yè)務(wù)感知的因素進(jìn)行了較全面的剖析。重點(diǎn)圍繞網(wǎng)頁(yè)瀏覽類業(yè)務(wù),利用從普通用戶終端上采集的現(xiàn)網(wǎng)真實(shí)的海量業(yè)務(wù)感知數(shù)據(jù),從多個(gè)不同的維度深入研究影響業(yè)務(wù)感知的關(guān)鍵因素,以及關(guān)鍵業(yè)務(wù)感知指標(biāo)間的關(guān)聯(lián)關(guān)系,揭示了OTT業(yè)務(wù)感知的關(guān)鍵影響因素間的內(nèi)在聯(lián)系。分析發(fā)現(xiàn),無(wú)線覆蓋能力對(duì)首包時(shí)延和頁(yè)面打開時(shí)延的影響較為突出,尤其是在弱覆蓋場(chǎng)景下,KQI指標(biāo)會(huì)出現(xiàn)迅速惡化,揭示了無(wú)線覆蓋對(duì)于業(yè)務(wù)感知的直接而重要的影響。其次對(duì)于時(shí)間維度上首包和頁(yè)面打開時(shí)延所受的影響進(jìn)行了定性和定量的相關(guān)性分析,結(jié)果均表明不同時(shí)段的業(yè)務(wù)活躍度水平與KQI指標(biāo)間具有強(qiáng)相關(guān)性。網(wǎng)站維度的分析可以看出,首包時(shí)延與網(wǎng)站的關(guān)聯(lián)性較低,而頁(yè)面打開時(shí)延則受頁(yè)面大小的影響很大?;诖耍疚奶岢隽艘环N頁(yè)面打開時(shí)延劣質(zhì)門限的計(jì)算方法,可以較好地解決不同網(wǎng)站頁(yè)面大小以及用戶訪問偏好所帶來(lái)的公平性問題。最后引入PCA和EFA分析方法研究分段時(shí)延用于QoE建模時(shí)的降維問題,并給出了相應(yīng)的KQI指標(biāo)選擇建議。本文通過分析影響業(yè)務(wù)感知的關(guān)鍵因素,可以很好地用于指導(dǎo)用戶業(yè)務(wù)感知優(yōu)化工作,對(duì)于進(jìn)一步分析業(yè)務(wù)感知質(zhì)差成因、合理構(gòu)建QoE映射模型等具有較高的參考價(jià)值。
參考文獻(xiàn):
[1] Qiao Zizhi. Smarter phone based live QOE measurement [C]∥Proc 15thInt′l Conf on Intelligence in Next Generation Networks (ICIN2011). Berlin, Germany:[s.n.], 2011:64-68.
[2] Huang Fenghui, Zhou Wenan, Du Yu. QoE issues of OTT services over 5G network [C]∥Proc 9thInt′l Conf Broadband and Wireless Computing, Communication and Applications (BWCCA2014). Guangzhou, China:[s.n.], 2014: 267-273.
[3] Zheng Kan, Yang Zhe, Zhang Kuan, et al. Big data driven optimization for mobile networks towards 5G [J]. IEEE Network Mag, 2016, 30(1):44-51.
[4] Kamel A, Al-Fuqaha A, Guizani M. Exploiting client-side collected measurements to perform QoS assessment of IaaS [J]. IEEE Trans Mobile Computing, 2015, 14(9):1876-1887.
[5] 林闖,胡杰,孔祥震.用戶體驗(yàn)質(zhì)量(QoE)的模型與評(píng)價(jià)方法綜述[J],計(jì)算機(jī)學(xué)報(bào),2012,35(1):1-15.
Lin Chuang, Hu Jie, Kong Xiangzhen. A review of the models and evaluation methods of user experience quality (QoE) [J]. Journal of Computer, 2012, 35(1):1-15.
[6] Aggarwal V, Halepovic E. Prometheus: Toward quality-of- experience estimation for mobile apps from passive network measurements [C]∥Proc ACM HotMobile′2014. Santa Barbara, USA:[s.n.], 2014:26-27.
[7] Oyman O, Singh S. Quality of experience for HTTP adaptive streaming services[J]. IEEE Communications Magazine, 2012, 50(4):20-27.
[8] Singh K, Hadjadj-Aoul Y, Rubino G. Quality of experience estimation for adaptive HTTP/TCP video streaming using H.264/AVC[C]∥Proc 9th Annual IEEE Consumer Communications and Networking Conference. Las Vegas, Nevada, USA: IEEE, 2012:127-131.
[9] Kumar S, Turner J, Williams J. Advanced algorithms for fast and scalable deep packet inspection[C]∥Proc of ACM/IEEE Symposium on Architectures for Networking and Communications Systems. San Jose, USA:[s.n.], 2006: 81-92.
[10] 中國(guó)電信集團(tuán)公司技術(shù)標(biāo)準(zhǔn)[S].中國(guó)電信移動(dòng)互聯(lián)網(wǎng)業(yè)務(wù)感知測(cè)試APP功能規(guī)范,2015.
Technical Standard of China Telecom[S].Functional Specification of China Telecom Mobile Internet Service Perception Test APP, 2015.
[11] 張成偉,程文青,黑曉軍.基于Android平臺(tái)的3G移動(dòng)網(wǎng)絡(luò)測(cè)量研究及性能分析[J].計(jì)算機(jī)科學(xué),2015,42(2):24-28.
Zhang Chengwei, Cheng Wenqing, Hei Xiaojun. Research and performance analysis of 3G mobile network based on android platform [J]. Computer Science, 2015, 42(2):24-28
[12] 愛立信.用大數(shù)據(jù)提升運(yùn)營(yíng)商N(yùn)PS [J].電信工程技術(shù)與標(biāo)準(zhǔn)化,2015,28(3):92.
Ericsson. Enhancing carrier NPS with big data [J].Telecommunication Engineering Technology and Standardization, 2015, 28(3):92.
[13] Naboulsi D, Fiore M, Ribot S, et al., Large-scale mobile traffic analysis: A survey [J]. IEEE Communications Surveys & Tutorials, 2016, 18(1): 124-161.
[14] Ganti R, Ye F, Lei H. Mobile crowdsensing: Current state and future challenges[J]. IEEE Communications Magazine, 2011, 49(11):32-39.
[15] He Ying, Yu Fei, Zhao Nan, et al. Big data analytics in mobile cellular networks [J]. IEEE Access, 2016, 4(1):1985-1996.
[16] 陳森,陳超,張小勇,等,基于大數(shù)據(jù)分析的移動(dòng)互聯(lián)網(wǎng)用戶感知評(píng)估系統(tǒng) [J].電信科學(xué),2015,4:1-8.
Chen Sen, Chen Chao, Zhang Xiaoyong, et al. Mobile Internet user perception evaluation system based on big data [J]. Telecommunication Science, 2015,4:1-8.
[17] 馬嘯威,曹維華,李文云,等,移動(dòng)互聯(lián)網(wǎng)業(yè)務(wù)感知質(zhì)量?jī)?yōu)化方法及系統(tǒng) [J].廣東通信技術(shù),2017, 2: 40-45.
Ma Xiaowei, Cao Weihua, Li Wenyun, et al. Optimization methodology and system for mobile Internet service perception [J]. Guangdong Telecommunication Technology, 2017, 2017(2): 40-45.
[18] Gerber A, Hajiaghayi M, et al. To cache or not to cache: The 3G case [J]. IEEE Internet Comput, 2011, 15(2): 27-34.
[19] Reshef D, Reshef Y, Finucane H, et al. Detecting novel associations in large data sets [J]. Science, 2011, 334:1518-1524.
[20] Reshef D, Reshef Y, Finucane H, et al. Supporting online material for detecting novel associations in large data sets [EB/OL].http:∥science.sciencemag.org/content/suppl/2011/12/14/334.6062.1518.DC1. 2011.
[21] Kraskov A, Stogbauer H, Grassberger P. Estimating mutual information[J].Phys Rev E, 2004, 69:1-16.
[22] 孫曉軍,周宗奎.探索性因子分析及其在應(yīng)用中存在的主要問題[J].心理科學(xué),2005, 28(6): 1440-1442.
Sun Xiaojun, Zhou Zongkui. Exploratory factor analysis and its main problems in application[J]. Psychological Science, 2005, 28(6): 1440-1442.