李維 喬雪 徐木生
摘 要:我國IPTV業(yè)務(wù)近年來發(fā)展迅速,要提升IPTV業(yè)務(wù)競爭力,除了需要保證內(nèi)容資源的豐富多彩外,基礎(chǔ)的感知服務(wù)也非常重要。IPTV業(yè)務(wù)由于實時性要求高、網(wǎng)絡(luò)流量大、影響質(zhì)量因素眾多等原因,很難準確和及時的發(fā)現(xiàn)故障問題,IPTV電視質(zhì)量告警的聚類算法研究與實踐針對這一問題提出了優(yōu)化建議。通過IPTV電視質(zhì)量告警的聚類算法研究與實踐可以有效的提升故障監(jiān)控告警數(shù)據(jù)的有效性和告警及時性。
關(guān)鍵詞:IPTV;故障監(jiān)控;質(zhì)差告警;智能聚類
中圖分類號:TP311.52;TP18 文獻標識碼:A 文章編號:2096-4706(2019)02-0055-03
Abstract:IPTV services in China have developed rapidly in recent years. In order to enhance the competitiveness of IPTV services,besides ensuring the rich and colorful content resources,basic perceptual services are also very important. IPTV service is difficult to find fault accurately and timely because of its high real-time requirement,large network traffic and many factors affecting quality. The research and practice of clustering algorithm for IPTV quality warning put forward optimization suggestions. The research and practice of clustering algorithm for IPTV quality alarm can effectively improve the validity and timeliness of fault monitoring alarm data.
Keywords:IPTV;fault monitoring;quality difference alarm;intelligent clustering
0 引 言
我國IPTV業(yè)務(wù)最早開始于2004年,最初發(fā)展緩慢,一直到2015年8月開始才開始快速增長,2016年IPTV業(yè)務(wù)更是高歌猛進,2017年上半年IPTV用戶數(shù)就已經(jīng)突破1億大關(guān),而據(jù)工信部發(fā)布的2018年7月份通信業(yè)經(jīng)濟運行情況來看,截至7月末,基礎(chǔ)電信企業(yè)發(fā)展的IPTV用戶總數(shù)達1.45億戶統(tǒng)計,比上年末凈增2266萬戶。IPTV業(yè)務(wù)是各大運營商進入用戶家庭的天然業(yè)務(wù)入口,圍繞固網(wǎng)寬帶業(yè)務(wù),IPTV業(yè)務(wù)市場競爭非常激烈。
提升IPTV業(yè)務(wù)競爭力,除了需要保證內(nèi)容資源的豐富多彩外,基礎(chǔ)的感知服務(wù)也非常重要。做好IPTV視頻感知質(zhì)量保障和優(yōu)化、售后服務(wù)工作是提升用戶感知服務(wù)的關(guān)鍵。IPTV業(yè)務(wù)由于實時性要求高、網(wǎng)絡(luò)流量大、影響質(zhì)量因素眾多,導(dǎo)致很難準確和及時的發(fā)現(xiàn)故障問題,IPTV電視質(zhì)量告警的聚類算法研究與實踐針對這一問題提出了優(yōu)化建議。
1 故障監(jiān)控告警手段提升研究
1.1 研究難點
IPTV業(yè)務(wù)主要的質(zhì)量分析手段是通過機頂盒嵌入軟探針和部署拉流探針,實現(xiàn)端到端質(zhì)量監(jiān)控及故障快速定界、定位等能力;但隨著用戶規(guī)??焖僭鲩L,軟探針產(chǎn)生海量數(shù)據(jù)的同時也給IPTV感知分析、故障匯聚帶來極大的挑戰(zhàn),主要表現(xiàn)在以下幾個方面:
(1)數(shù)據(jù)量巨大。預(yù)警實時性要求高,IPTV用戶量大,需要實時上報各項質(zhì)量數(shù)據(jù),每條數(shù)據(jù)均需要與海量的信息數(shù)據(jù)進行匹配,然后進行各維度匯聚,實時計算量大。
(2)噪聲數(shù)據(jù)多。由于用戶行為的不確定性,軟探針會上報各類因用戶行為導(dǎo)致的無用、無效數(shù)據(jù),比如觀看時間極短,反復(fù)進入或退出均會產(chǎn)生大量的噪聲數(shù)據(jù),噪聲數(shù)據(jù)識別、清洗是另一大挑戰(zhàn)。
(3)IPTV質(zhì)量指標多?,F(xiàn)網(wǎng)IPTV直播、點播、回看采用完全不同的協(xié)議,每類業(yè)務(wù)有超過100項指標并且主要指標完全不同,需要找出相應(yīng)聚類類型相關(guān)性最強的指標。
(4)IPTV業(yè)務(wù)對網(wǎng)絡(luò)要求高、更敏感。在網(wǎng)絡(luò)丟包高于0.03%或延時超過40ms即可產(chǎn)生花屏,對用戶體驗造成影響,而現(xiàn)網(wǎng)大部分的網(wǎng)管系統(tǒng)配置告警、預(yù)警閥值不足觸發(fā)如此細微的問題,故通過海量的IPTV用戶真實體驗進行聚類端到端故障、隱患勢在必行。
1.2 研究方案
本研究以機頂盒軟探針上報數(shù)據(jù)、直播頻道拉流數(shù)據(jù)、IPTV網(wǎng)絡(luò)和業(yè)務(wù)撥測數(shù)據(jù)為基礎(chǔ),關(guān)聯(lián)綜合資源管理系統(tǒng)、業(yè)務(wù)平臺媒體資源表等生成網(wǎng)絡(luò)、地理、平臺、終端廠家等4個維度的資源樹和相關(guān)標簽信息,按機頂盒劣化數(shù)據(jù)、直播頻道劣化數(shù)據(jù)輸出各層級設(shè)備和鏈路故障告警數(shù)據(jù),采用如下幾項技術(shù)解決上述問題:
(1)采用“實時流處理+人工智能聚類算法(K- means)”,確保數(shù)據(jù)處理實時性、高效性的同時提高聚類的準確性,降低算力消耗,目前全量數(shù)據(jù)實時告警聚類時間粒度為5分鐘;
處理流程:STB數(shù)據(jù)入庫處理,將數(shù)據(jù)劃分K個對象,選定簇心,將STB數(shù)據(jù)按簇心通過歐式距離歸類,找出質(zhì)差分割點;不斷有新數(shù)據(jù)入庫,循環(huán)迭代;結(jié)合新舊對象數(shù)據(jù),重復(fù)劃分簇群,定位每個時間粒度(5分鐘、1小時等)不在變化的穩(wěn)定簇群。
(2)采用“一次聚類+硬探針關(guān)聯(lián)”雙重驗證,通過不斷總結(jié)優(yōu)化噪聲數(shù)據(jù)標簽,自動進行多維度的聚類,不斷總結(jié)梳理數(shù)據(jù)過濾規(guī)則,同時關(guān)聯(lián)硬探針進行輔助確定驗證、分段關(guān)聯(lián),提高告警的準確性,目前聚類告警準確度達到95%以上,給IPTV業(yè)務(wù),甚至整個互聯(lián)網(wǎng)網(wǎng)絡(luò)的維護帶來全新運維模式,圖1為一次聚類和二次驗證流程說明;
(3)總結(jié)梳理告警體系:通過不斷的測試驗證和模擬故障數(shù)據(jù)進行觸發(fā),最后總結(jié)出一套告警體系,包括告警指標、閥值、聚類比例等;告警匯聚邏輯從下層節(jié)點逐步上升到上層節(jié)點,在故障排查時能從上層節(jié)點回溯到下層節(jié)點及用戶,關(guān)聯(lián)出受故障影響用戶群明細數(shù)據(jù)。
2 故障監(jiān)控告警手段實驗
2.1 數(shù)據(jù)樣本
采集約500W機頂盒用戶數(shù)據(jù),平均每小時有播放操作的流用戶數(shù)約26%,即130W+,每個機頂盒軟探針每5分鐘上報一次數(shù)據(jù),即每個小時平臺可以收到1560W+機頂盒數(shù)據(jù),機頂盒每次上報的數(shù)據(jù)內(nèi)容包括每5分鐘內(nèi)用戶播放過的每個節(jié)目的100+的指標數(shù)據(jù),數(shù)據(jù)量非常龐大。本次實驗,我們抽取了IPTV業(yè)務(wù)繁忙的階段,已采集的機頂盒數(shù)據(jù)中隨機一天20:00-20:59一個小時內(nèi),約200萬機頂盒戶2400萬份(每5分鐘一份數(shù)據(jù))的機頂盒上報數(shù)據(jù)作為實驗數(shù)據(jù)樣本。
2.2 數(shù)據(jù)清洗
本次實驗內(nèi)容為告警聚類,是基于機頂盒視頻播放出現(xiàn)異常的基礎(chǔ)上聚類的,我們需要先對數(shù)據(jù)樣本進行清洗,剔除無播放記錄和視頻播放正常的用戶,數(shù)據(jù)清洗后,剩余約35萬份機頂盒上報數(shù)據(jù)。
2.3 數(shù)據(jù)轉(zhuǎn)換
對機頂盒用戶來說,最常見和最直觀的故障是播放視頻出現(xiàn)了卡頓/花屏現(xiàn)象,所以出現(xiàn)卡頓/花屏的時長直接決定了機頂盒用戶的實際感知體驗,而造成卡頓/花屏的原因是多樣的。我們先將重要故障指標轉(zhuǎn)換為數(shù)值Q1~Qn(約30個),將故障時長按實際故障時間長1~59秒轉(zhuǎn)換變量為T1~T59,>=60秒的轉(zhuǎn)換為60,共60個變量。
轉(zhuǎn)換后的變量數(shù)據(jù),需要打上故障類型標簽,標簽內(nèi)容包括故障原因、故障現(xiàn)象、故障嚴重等級等,變量標簽是根據(jù)實際的業(yè)務(wù)情況、用戶發(fā)展及越來越高的互聯(lián)網(wǎng)電視體驗感知要求而變化的,但是在通過實際用戶數(shù)據(jù)聚合變量標簽前,我們可以根據(jù)初期分析的經(jīng)驗值,先為每個變量打上標簽,如:
(1)RTP網(wǎng)絡(luò)丟包、網(wǎng)絡(luò)延遲過大、TCP重傳率過高等標識為運營商網(wǎng)絡(luò)故障;
(2)WIFI信號強度過低、PING家庭網(wǎng)關(guān)時延等標識為家庭網(wǎng)絡(luò)問題;
(3)HTTP請求無響應(yīng)、HTTP響應(yīng)時延過大等標識為CDN平臺故障;
(4)CPU/內(nèi)存占用、終端請求分片間隔時間偏大等標識為終端故障;
(5)PAT表格錯誤、PID丟失錯誤、視頻空包等表示為節(jié)目源故障。
再將故障類型也轉(zhuǎn)換為變量,以便下一步進行數(shù)據(jù)處理,故障類型和變量詳見表1:
2.4 數(shù)據(jù)處理
機頂盒上報的每個故障指標都是在監(jiān)測軟件監(jiān)測到機頂盒播放視頻有卡頓、花屏等現(xiàn)象的時候上報的,通過在用戶播放視頻產(chǎn)生故障時同步分析出來的指標,可以預(yù)判該故障時間段內(nèi)獲取的指標肯定有部分指標超過故障告警門限,再同比全量機頂盒每個指標通過K-means聚合計算出來的常規(guī)值,與視頻播放異常時每個指標的值進行對比,得出單個機頂盒單次視頻播放異常時與指標常規(guī)值偏離度超過N%(經(jīng)驗值)的指標(一個或多個)定義為該故障記錄數(shù)據(jù)的異常指標。
通過對異常指標、故障類型、用戶行為數(shù)據(jù)和反饋數(shù)據(jù)的關(guān)聯(lián),后臺形成告警原因支持庫,在每個異常指標產(chǎn)生的時候,自動計算和匹配故障原因數(shù)據(jù),并將異常指標匹配上故障類型時長變量和故障原因信息。
然后將每個機頂盒的異常指標及其關(guān)聯(lián)信息數(shù)據(jù)通過歐式距離,計算出每個機頂盒故障數(shù)據(jù)點的距離,通過故障數(shù)據(jù)點和中心數(shù)據(jù)點之間的距離長短,得出聚類中心點和簇群,找出質(zhì)差簇群,通過質(zhì)差簇群的機頂盒信息進行分類,匯聚上聯(lián)質(zhì)差節(jié)點。
具體處理流程包括:
(1)系統(tǒng)會實時對機頂盒上報數(shù)據(jù)進行清洗和聚類,每5分鐘判斷一次聚類中心點和匯聚質(zhì)差節(jié)點;
(2)每5秒聚類一次機頂盒數(shù)據(jù),第6-10秒的新數(shù)據(jù)會在前5秒的聚類中心重新計算后作為數(shù)據(jù)前10秒的數(shù)據(jù)樣本和前5秒的數(shù)據(jù)合并計算,得出新的聚類中心點,以此類推,循環(huán)計算;
(3)每完成5分鐘聚類中心點計算,與機頂盒上聯(lián)信息關(guān)聯(lián)匹配一次,得出質(zhì)差上聯(lián)節(jié)點;
(4)第二個5分鐘質(zhì)差上聯(lián)節(jié)點與第一個5分鐘質(zhì)差上聯(lián)節(jié)點比對,判斷質(zhì)差告警是否連續(xù);
(5)根據(jù)告警連續(xù)門限確認需要循環(huán)比對質(zhì)差上聯(lián)節(jié)點的次數(shù),達到門限則產(chǎn)生聚類告警,未達到門限則在下一個5分鐘計算周期循環(huán)計算。
3 結(jié) 論
通過本次聚類告警算法實踐,對35萬的機頂盒質(zhì)差數(shù)據(jù)按k-means算法聚類后,發(fā)現(xiàn)每個5分鐘的5個聚類中心點偏差不超過3%,可以在每次聚類時都指定固定的5個聚類中心,減少循環(huán)計算量,提高告警判斷的準確性并細化告警原因。
現(xiàn)有告警分析技術(shù),主要采用固定指標門限、固定故障類型、固定故障節(jié)點,部分有故障隱患但是達不到固定告警條件的數(shù)據(jù)可能會被遺漏,同時也無法進一步判斷故障原因。IPTV電視質(zhì)量告警的聚類算法研究與實踐通過K-means聚類質(zhì)差機頂盒匯聚上聯(lián)質(zhì)差節(jié)點的方式與實際故障現(xiàn)象貼近,準確率85%以上。圖2為機頂盒數(shù)據(jù)聚類后的效果展示。
IPTV電視質(zhì)量告警的聚類算法研究與實踐可以有效提升故障監(jiān)控告警數(shù)據(jù)的有效性和及時性,在IPTV批量用戶故障投訴前通知運維人員處理故障,降低IPTV用戶投訴率,提高IPTV用戶感知。
參考文獻:
[1] 房培光,林曉琳.IPTV技術(shù)的優(yōu)勢與應(yīng)用 [J].信息與電腦(理論版),2017(12):158-159+162.
[2] 史林林.論IPTV技術(shù)及應(yīng)用 [J].電子技術(shù)與軟件工程,2016(7):28.
[3] Anand Rajaraman,Jeffrey David Ullman.大數(shù)據(jù)——互聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)挖掘與分布式處理 [M].王斌,譯.北京:人民郵電出版社,2012.
作者簡介:李維(1982-),男,漢族,湖南益陽人,中級工程師,工學(xué)碩士,研究方向:計算機應(yīng)用技術(shù);喬雪(1983-),女,漢族,廣東肇慶人,工學(xué)碩士,研究方向:通信與信息系統(tǒng);徐木生(1980-),男,漢族,廣東梅州人,工學(xué)碩士,研究方向:通信與信息系統(tǒng)。