汪敏娟 ,嵇正鵬 ,呂超
(1.江蘇省公用信息有限公司,江蘇 南京210006;2.中國電信股份有限公司智慧家庭運(yùn)營中心,江蘇 南京210006;3.中國電信股份有限公司江蘇分公司,江蘇 南京210003)
基于預(yù)測度量值的IPTV用戶行為規(guī)則預(yù)測算法
汪敏娟1,2,嵇正鵬3,呂超1.2
(1.江蘇省公用信息有限公司,江蘇 南京210006;2.中國電信股份有限公司智慧家庭運(yùn)營中心,江蘇 南京210006;3.中國電信股份有限公司江蘇分公司,江蘇 南京210003)
提出了一種符合用戶行為的,基于海量IPTV用戶特征數(shù)據(jù),對(duì)IPTV用戶進(jìn)行分群和規(guī)則提取的算法模型。首先提出了符合用戶點(diǎn)播使用行為的IPTV用戶分群的描述維度,即通過基礎(chǔ)屬性描述用戶分群、通過點(diǎn)播行為描述用戶分群變化趨勢。然后提出了預(yù)測度量值的概念,對(duì)用戶分群的穩(wěn)定性進(jìn)行描述,并提出了對(duì)穩(wěn)定的用戶分群提取點(diǎn)播行為概率的算法。最后通過大量的IPTV運(yùn)營數(shù)據(jù)對(duì)算法模型進(jìn)行了驗(yàn)證分析。
IPTV;點(diǎn)播行為;等價(jià)類劃分;信息熵;預(yù)測度量值;規(guī)則提取
IPTV(internet protocol television,網(wǎng)絡(luò)協(xié)議電視)是以網(wǎng)絡(luò)協(xié)議為基礎(chǔ),面向電視終端,通過寬帶網(wǎng)向用戶提供交互式電視及增值服務(wù)的業(yè)務(wù)[1,2]。在業(yè)務(wù)的發(fā)展和運(yùn)營過程中,IPTV平臺(tái)已積累了海量用戶特征屬性數(shù)據(jù)。這些數(shù)據(jù)是在用戶辦理業(yè)務(wù)和使用業(yè)務(wù)過程中積累的、對(duì)用戶基本信息和使用信息的描述。用戶特征屬性數(shù)據(jù)蘊(yùn)含了豐富的用戶行為信息。如何在這些海量的信息中提取出有意義的用戶行為特征,用于有效地指導(dǎo)IPTV業(yè)務(wù)運(yùn)營與服務(wù),已成為當(dāng)前研究的熱點(diǎn)問題。用戶行為特征的預(yù)測算法研究,無論對(duì)于運(yùn)營商,還是對(duì)于用戶,都具有很高的經(jīng)濟(jì)價(jià)值和實(shí)際意義。
國內(nèi)外很多學(xué)者、運(yùn)營機(jī)構(gòu)對(duì)于IPTV用戶行為特征預(yù)測進(jìn)行了研究。目前的研究工作主要通過計(jì)算用戶與內(nèi)容的關(guān)聯(lián)關(guān)系、學(xué)習(xí)用戶興趣標(biāo)簽、用戶聚類等角度展開。參考文獻(xiàn)[3]基于用戶聚類的關(guān)聯(lián)推薦算法,利用皮爾曼相關(guān)系數(shù)和斯皮爾曼相關(guān)系數(shù)來確定IPTV用戶群與內(nèi)容之間的偏好關(guān)系;參考文獻(xiàn)[4]提出從業(yè)務(wù)的用戶使用場景出發(fā),結(jié)合用戶標(biāo)簽加強(qiáng)推薦的針對(duì)性;參考文獻(xiàn)[5]將一種單蟻群聚類應(yīng)用于IPTV用戶群偏好分析中,解決了用戶偏好發(fā)現(xiàn)問題;參考文獻(xiàn)[6]提出了在沒有先驗(yàn)知識(shí)的情況下,利用生態(tài)位理論計(jì)算IPTV服務(wù)之間的“競爭系數(shù)”,從而選取更為符合期望的服務(wù)的方法。上述工作都對(duì)利用IPTV用戶特征屬性信息進(jìn)行用戶分類、通過用戶分類進(jìn)行行為預(yù)測提供了有效解決方式。
在IPTV的實(shí)際運(yùn)營過程中發(fā)現(xiàn),用戶的特征屬性數(shù)據(jù)可分為基礎(chǔ)屬性和點(diǎn)播行為兩類?;A(chǔ)屬性是描述用戶基本特征的數(shù)據(jù)(如所在地區(qū)、職業(yè)、產(chǎn)品套餐類型等);點(diǎn)播行為是在運(yùn)營過程中產(chǎn)生的,隨著用戶使用業(yè)務(wù)而動(dòng)態(tài)變化的數(shù)據(jù)(如平均消費(fèi)值、最常收看的頻道類型等)。
用戶的點(diǎn)播行為是從無到有、不斷變化的,而往往具有相同基礎(chǔ)屬性的用戶在點(diǎn)播行為上表現(xiàn)出了一定的共性。另外,由于用戶使用IPTV業(yè)務(wù)均經(jīng)歷了從陌生到熟悉的使用習(xí)慣培養(yǎng)過程,故處于不同狀態(tài)階段的用戶特征屬性數(shù)據(jù)對(duì)行為特征預(yù)測的貢獻(xiàn)是不同的??梢姂?yīng)該從已趨于穩(wěn)定狀態(tài)的用戶群體中獲取行為特征,這樣得到的規(guī)則較為貼近實(shí)際運(yùn)營情況。而目前從上述角度進(jìn)行研究的工作較少。
為此,從研究某些IPTV用戶群是否適宜于進(jìn)行用戶行為預(yù)測入手,建立了一種全新的IPTV用戶行為特征預(yù)測算法模型。首先利用IPTV用戶的基礎(chǔ)屬性對(duì)用戶進(jìn)行基本分類,而后對(duì)每個(gè)基本分類中用戶的點(diǎn)播行為是否已經(jīng)趨于穩(wěn)定進(jìn)行觀測。對(duì)于用戶點(diǎn)播行為已趨于穩(wěn)定的用戶進(jìn)行基本分類,計(jì)算出分類中點(diǎn)播行為出現(xiàn)的概率數(shù)據(jù),利用此概率數(shù)據(jù)對(duì)IPTV用戶的行為進(jìn)行預(yù)測。通過對(duì)實(shí)際運(yùn)營應(yīng)用數(shù)據(jù)的分析與比較,提出的算法模型有效地提升了IPTV用戶行為預(yù)測的準(zhǔn)確性和用戶行為預(yù)測的計(jì)算效率。
研究的IPTV用戶行為特征預(yù)測算法模型,是以用戶特征屬性信息為基礎(chǔ)進(jìn)行知識(shí)學(xué)習(xí)的計(jì)算模型。首先基于對(duì)用戶在各基礎(chǔ)屬性上的取值,通過等價(jià)關(guān)系運(yùn)算來對(duì)IPTV用戶進(jìn)行等價(jià)劃分,每個(gè)等價(jià)劃分對(duì)應(yīng)一個(gè)用戶基本分類。
設(shè) IPTV 用戶集合為 U={u1,u2,…,un}。設(shè)集合 T 為用戶的基礎(chǔ)屬性集,D為用戶點(diǎn)播行為集。T、D均為元素有限的已知集合,且T∩D=。
設(shè) fj=U→Vj,(1≤j≤m)為用戶屬性取值判定函數(shù),則f(ui,tj)=υij表示用戶ui在屬性tj下的屬性取值為υij,f(U,tj)=Vj表示用戶集合U在屬性tj上的取值集合。
設(shè)關(guān)系RT表示兩個(gè)用戶在基礎(chǔ)屬性集T上等價(jià),即?ui∈U,uj∈U(1≤i≤n,1≤j≤n,且 i≠j),使?tk∈T,f(mi,tk)=f(mj,tk)。
定義 1 集合 Xi={uj|(ui,uj)∈Rt}為 IPTV用戶群的一個(gè)基本分類。
即在IPTV用戶集合U中,存在若干獨(dú)立的用戶,其在用戶基礎(chǔ)屬性集T上等價(jià)。那么通過關(guān)系RT可將IPTV用戶分為若干基本分類:{X1,X2,…,Xm},(m≤n)。
基于上述定義對(duì)IPTV用戶進(jìn)行基礎(chǔ)分類劃分的算法模型如圖1所示。通過對(duì)IPTV用戶核心基礎(chǔ)屬性值與已知各IPTV用戶基本分類在核心基礎(chǔ)屬性上的取值相比較,在取值函數(shù)上取值相同的,即可將用戶劃分到該基本分類中。不斷地重復(fù)上述過程,即可不斷地根據(jù)用戶基礎(chǔ)屬性的取值來建立用戶基本分類。
通過把IPTV用戶劃分為若干個(gè)基本分類后,即可開始對(duì)各分類在運(yùn)營過程中的變化情況進(jìn)行觀測。在參考文獻(xiàn)[7,8]中提出,在IPTV運(yùn)營過程中,絕大多數(shù)的用戶會(huì)經(jīng)歷從對(duì)業(yè)務(wù)不熟悉到逐漸形成自己使用習(xí)慣的過程。即大多數(shù)用戶使用了一定時(shí)期IPTV業(yè)務(wù)后,其對(duì)業(yè)務(wù)的使用習(xí)慣一般會(huì)停留在一個(gè)穩(wěn)定的、有規(guī)律的狀態(tài)附近。但如何來確定某一個(gè)用戶基本分類已經(jīng)趨于穩(wěn)定,我們借鑒Shannon等人在參考文獻(xiàn)[9-11]提出的經(jīng)典信息熵概念:任何信息都存在冗余,冗余的大小與信息微觀的不確定性有關(guān)。而信息熵就是用來描述信息源不確定程度的概念,即熵值越大,其不確定性越大;熵值越小,其確定性越大。
在對(duì)IPTV用戶的預(yù)測過程中,對(duì)于已經(jīng)趨于穩(wěn)定的用戶基本分類,其用戶體現(xiàn)同類型點(diǎn)播行為的可能性越大。本文提出的預(yù)測度量值,就是利用信息熵的概念,對(duì)每個(gè)基本分類中海量的用戶點(diǎn)播行為進(jìn)行概率計(jì)算,用于判定當(dāng)前的用戶基本分類是否已經(jīng)趨于確定。
設(shè)通過第2.1節(jié)的理論對(duì)IPTV用戶集U劃分得到的用戶基本分類為{X1,X2,…,Xn}。在某一個(gè)基本分類 Xi中,設(shè)其點(diǎn)播行為集 D={d1,d2,…,dl},由于點(diǎn)播行為是變化的,故在基本分類中,每個(gè)用戶在相同的點(diǎn)播行為上取值可能不同。設(shè)基本分類Xi中所有用戶在屬性dj上的取值組成取值集合 Vj={υj1,υj2,…,υjs}。設(shè) P(υjk)表示在基本分類 Xi中,點(diǎn)播行為dj的取值為υjk的概率。
依據(jù)信息熵的計(jì)算法則,定義IPTV用戶基本分類點(diǎn)播行為的信息熵如下。
定義2 某IPTV用戶基本中分類點(diǎn)播行為dj的信息熵為:
圖1 IPTV用戶基本分類劃分算法模型
H(dj)描述了某一個(gè)點(diǎn)播行為的不確定性。它通過其所有可能取值的變化情況來描述該屬性當(dāng)前的狀態(tài)。對(duì)于一個(gè)IPTV用戶基本分類來說,其預(yù)測度量值為其包含的所有點(diǎn)播行為信息熵之和。
IPTV用戶基本分類的預(yù)測度量值為:
H(Xi)在傳統(tǒng)的對(duì)信息變化描述的基礎(chǔ)上,通過對(duì)IPTV用戶基本分類中點(diǎn)播行為變化情況的匯總,來表示當(dāng)前分類整體點(diǎn)播行為的不確定性。
使用預(yù)測度量值表示在一個(gè)IPTV用戶的基本分類中,其所有用戶的點(diǎn)播行為是否已趨于穩(wěn)定狀態(tài)。預(yù)測度量值越大,表示該分類中的用戶行為仍處于較為混亂的狀態(tài),意味著該分類暫時(shí)無法用于用戶預(yù)測;預(yù)測度量值越小,表示該分類中的用戶行為已趨于穩(wěn)定,意味著該分類已形成了一類用戶行為的描述。即隨著用戶逐步形成自己的使用習(xí)慣后,其點(diǎn)播行為雖仍在不斷變化,但已趨于某一種規(guī)律。
IPTV用戶基本分類預(yù)測度量值算法具體如下。
在算法偽代碼中,count(υjk)表示在點(diǎn)播行為dj的所有取值中,υjk出現(xiàn)的次數(shù)。|Xi|表示集合Xi的勢。
得到每個(gè)IPTV基本分類對(duì)應(yīng)的預(yù)測度量值后,對(duì)低于預(yù)設(shè)閾值的基本分類,認(rèn)為其已基本趨于穩(wěn)定。在IPTV業(yè)務(wù)運(yùn)營過程中,可根據(jù)當(dāng)前各基本分類預(yù)測度量值實(shí)際取值和運(yùn)營經(jīng)驗(yàn)來預(yù)設(shè)閾值。一般來說,在一定時(shí)間周期內(nèi),某個(gè)用戶基本分類的預(yù)測度量值停留在一個(gè)較低的取值區(qū)間且沒有發(fā)生較大范圍的波動(dòng)時(shí),可認(rèn)為其已趨于穩(wěn)定。
在趨于穩(wěn)定的用戶基本分類Xi中,用戶在基礎(chǔ)屬性上等價(jià),在點(diǎn)播行為上取值不同,但保持了一定的變化規(guī)律。因此可通過對(duì)基本分類Xi中IPTV用戶基礎(chǔ)屬性取值與點(diǎn)播行為取值的統(tǒng)計(jì)關(guān)系來得到某一類IPTV用戶的行為特征。
設(shè)點(diǎn)播行為集 D={d1,d2,…,dl},?dj∈D 的取值集合 f(Xi,dj)={υj1,υj2,…,υjs}。
則:
其中,count(υjk)表示在用戶基本分類 Xi中用戶點(diǎn)播行為 dj取值為 υjk的數(shù)量;|Xi|表示用戶基本分類 Xi的勢,即基本分類Xi中包含的用戶數(shù)量。
上述規(guī)則可按如下方式進(jìn)行描述:在基本分類Xi中,有P的概率會(huì)發(fā)生dj=υjk的事件。
IPTV用戶基本分類的點(diǎn)播行為預(yù)測算法如下:
對(duì)N市12個(gè)月內(nèi)IPTV用戶的行為進(jìn)行了預(yù)測實(shí)驗(yàn)。數(shù)據(jù)包括了N市IPTV用戶的基礎(chǔ)屬性和第1-12個(gè)月的點(diǎn)播行為數(shù)據(jù)。具體數(shù)據(jù)見表1。
首先根據(jù)用戶的基礎(chǔ)屬性對(duì)用戶進(jìn)行分類,計(jì)算其預(yù)測度量值,并通過對(duì)已趨于穩(wěn)定的用戶基本分類進(jìn)行用戶行為特征預(yù)測,并將預(yù)測結(jié)果與12月的實(shí)際點(diǎn)播行為情況進(jìn)行比對(duì),以驗(yàn)證預(yù)測規(guī)則的準(zhǔn)確性。
按照提出的用戶基本分類算法,將N市分成了30余個(gè)用戶基本分類,針對(duì)各分類計(jì)算其1-11月的預(yù)測度量值。表2是N市用戶基本分類取值范圍的情況。從表2中可以看到,用戶基本分類的預(yù)測度量值處于一個(gè)“兩頭小、中間大”的狀態(tài),即部分基本分類已趨于穩(wěn)定、少量分類處于大量變化階段、多數(shù)用戶分類處于由不穩(wěn)定到穩(wěn)定的變化過程中。
表1 IPTV用戶特征屬性集
表2 N市用戶基本分類11月預(yù)測度量值情況
選取了預(yù)測度量值最小的3個(gè)基本分類、預(yù)測度量值最大的1個(gè)基本分類。其預(yù)測度量值1-11月份的變化情況如圖2所示。從圖2中可以看到,通過11個(gè)月的運(yùn)營,用戶基本分類A、B、C的預(yù)測度量值已逐步由較高的取值降低到一個(gè)平緩的取值范圍,但也存在用戶基本分類D,其預(yù)測度量值始終處于不斷變化的狀態(tài)。
通過對(duì)上述用戶基本分類的走訪,發(fā)現(xiàn)用戶基本分類D中的絕大多數(shù)用戶屬于集體宿舍、賓館等形態(tài)的用戶。用戶流動(dòng)性大、使用人群不固定,故其預(yù)測度量值始終處于一個(gè)變化的范圍。而對(duì)于基本分類A、B、C來說,其絕大多數(shù)IPTV業(yè)務(wù)用戶為普通家庭用戶,通過一段時(shí)間的業(yè)務(wù)使用,其使用習(xí)慣已逐漸趨于穩(wěn)定,月均消費(fèi)額、最常觀看的直播頻道、點(diǎn)播標(biāo)簽等運(yùn)營特征數(shù)據(jù)均已處于一個(gè)穩(wěn)定的范圍內(nèi)。
對(duì)于已趨于穩(wěn)定的用戶基本分類A、B、C,可通過其特征屬性進(jìn)行用戶行為特征的預(yù)測。通過IPTV用戶的預(yù)測算法,提取用戶基本分類 A、B、C中的行為規(guī)則,并將預(yù)測的規(guī)則與這3個(gè)基本分類在12個(gè)月的實(shí)際點(diǎn)播行為進(jìn)行對(duì)比,用于驗(yàn)證預(yù)測規(guī)則的準(zhǔn)確性。對(duì)比情況見表 3。
從表3可以看到,3個(gè)用戶基本分類點(diǎn)播行為的預(yù)測值和實(shí)際值的誤差率都在8%以內(nèi),能夠有效地為運(yùn)營人員針對(duì)不同的用戶基本分類進(jìn)行有針對(duì)性的運(yùn)營提供數(shù)據(jù)基礎(chǔ)。
圖2 N市部分IPTV用戶基本分類預(yù)測度量值變化情況
表3 預(yù)測規(guī)則與實(shí)際規(guī)則對(duì)比分析
提出了一種符合IPTV業(yè)務(wù)特征的分類及行為分析算法,結(jié)合實(shí)際運(yùn)營經(jīng)驗(yàn)將IPTV用戶特征屬性劃分為基礎(chǔ)屬性和點(diǎn)播行為,利用基礎(chǔ)屬性對(duì)用戶進(jìn)行分類,利用點(diǎn)播行為描述各用戶分類的變化情況,當(dāng)用戶分類變化趨于穩(wěn)定時(shí),計(jì)算該基本分類中用戶的基礎(chǔ)屬性與點(diǎn)播行為之間的概率關(guān)系,并將該概率關(guān)系輸出為行為規(guī)則,用于指導(dǎo)IPTV業(yè)務(wù)運(yùn)營。通過對(duì)實(shí)際運(yùn)營數(shù)據(jù)的分析,本文提出的預(yù)測算法明顯地提升了IPTV用戶預(yù)測的準(zhǔn)確性,也降低了IPTV用戶分類、行為規(guī)則提取的計(jì)算開銷。
在后續(xù)的工作中,需對(duì)IPTV用戶的特征屬性分類提出更為精確的劃分標(biāo)準(zhǔn),并優(yōu)化對(duì)IPTV用戶基礎(chǔ)屬性分類算法和計(jì)算規(guī)則的約定,進(jìn)而通過大規(guī)模數(shù)據(jù)統(tǒng)計(jì)規(guī)律來優(yōu)化對(duì)用戶點(diǎn)播行為信息熵、預(yù)測度量值的閾值估算方法。
[1]韋樂平.三網(wǎng)融合與IPTV的發(fā)展和挑戰(zhàn)[J].電信科學(xué),2006,22(7):1-5.WEI L P.Triple-play and the development and challenges of IPTV[J].Telecommunications Science, 2006,22(7):1-5.
[2]XIAO Y,DU X,ZHANG J,HU F,et al.Internet protocol television (IPTV):the killer application for the next-generation internet [J].IEEE Communications Magazine,2007,45(11):126-134.
[3]KIM M W,SONG W M,SONG S Y,et al.Convergence and hybrid information technology [M].Berlin:Springer,2012:409-416.
[4]朱映波,刁建偉,康波.基于標(biāo)簽對(duì)家庭IPTV業(yè)務(wù)個(gè)性化推送 機(jī) 制 的 用 戶 體 驗(yàn) 優(yōu) 化 研 究 [J]. 電 信 科 學(xué) ,2014,30(7):113-120.ZHU Y B,DIAO J W,KANG B.User experience optimization researchbased on labelofIPTV households personalized pushmechanism [J].Telecommunications Science,2014,30(7):113-120.
[5]曹三省,孟靜,杜懷昌,等.蟻群聚類算法在IPTV用戶群偏好分析中的應(yīng)用[J].中國傳媒大學(xué)學(xué)報(bào)(自然科學(xué)版),2009,16(1):33-37.CAO S X,MENG J,DU H C,et al.Ant clustering algorithm in the application of IPTV user group preference analysis [J].Journal of Communication University of China (Natural Science Edition),2009,16(1):33-37.
[6]SEOL H,PARK G,LEE H.Demand forecasting for new media services with consideration of competitiverelationships using the competitive bassmodeland the theory ofthe niche [J].TechnologicalForecasting& SocialChange,2012,79 (7):1217-1228.
[7]HELD G.Understanding IPTV[M].NewYork:ACM Press,2006.
[8]JIM J.Analysis of the IPTV increment service development strategy[J].Science&Technology Innovation Herald,2014.
[9]SHANNON C E.A mathematical theory of communication:mathematical theory of computation[M].New York:McGraw-Hill,1974:3-55.
[10]LIANG J,SHI Z,LI D,et al.Information entropy,rough entropy and knowledge granulation in incomplete information systems[J].International Journal of General Systems,2006,35(6):641-654.
[11]VALLé R.Information entropy and state observation of a dynamical system [C]/International Conference on Information Processing and Management of Uncertainty in Knowledge-Based Systems,June 20-24,1987,Eindhoven,Netherlands.Berlin:Springer-Verlag,1987:403-405.
A rules extraction algorithm for IPTV customers forecasting based on the forecasting entropy measurement
WANG Minjuan1,2,JI Zhengpeng3,LV Chao1,2
1.Jiangsu Public Information Co.,Ltd.,Nanjing 210006,China 2.Smart Home Operation Center of China Telecom Co.,Ltd.,Nanjing 210006,China 3.Jiangsu Branch of China Telecom Co.,Ltd.,Nanjing 210003,China
An algorithm model conformed to the user behavior,based on the massive IPTV user characteristic data which extract rules and classify IPTV users was proposed.First,IPTV user group description dimension in accordance with the user on demand was put forward.Namely,the user group could be described by basic property and trend of user behavior could be described by users’demand behavior.Then the concept of prediction measurement was put forward,the stability of user group was described,and an algorithm which extracted demand behavior probability on stable user group was proposed.At last,the algorithm model was verified and analyzed by massive IPTV operation data.
IPTV,demand behavior,equivalent class,information entropy,prediction measurement,rule extraction
TP181
A
10.11959/j.issn.1000-0801.2016153
2016-03-22;
2016-05-15
汪敏娟(1975-),女,江蘇省公用信息有限公司副總經(jīng)理,中國電信股份有限公司智慧家庭運(yùn)營中心副主任、高級(jí)工程師,主要研究方向?yàn)镮PTV運(yùn)營規(guī)律、視頻承載網(wǎng)絡(luò)規(guī)劃、知識(shí)學(xué)習(xí)。
嵇正鵬(1964-),男,中國電信股份有限公司江蘇分公司企業(yè)發(fā)展部主任、教授級(jí)高級(jí)工程師,享受國務(wù)院特殊津貼,主要研究方向?yàn)槎嗝襟w網(wǎng)通信技術(shù)、視頻運(yùn)營、數(shù)據(jù)挖掘。
呂超(1985-),男,江蘇省公用信息有限公司、中國電信股份有限公司智慧家庭運(yùn)營中心工程師,主要從事大數(shù)據(jù)平臺(tái)開發(fā)、數(shù)據(jù)運(yùn)營與維護(hù)工作。