王慧穎,王文樂
(1. 江西科技師范大學(xué)理工學(xué)院,江西 南昌 330100;2. 江西師范大學(xué)軟件學(xué)院,江西 南昌 330022)
作為社會(huì)化媒體的關(guān)鍵平臺(tái),社交網(wǎng)絡(luò)的應(yīng)用量一直呈大幅度上漲趨勢(shì)[1],當(dāng)前的國(guó)內(nèi)社交網(wǎng)絡(luò)用戶數(shù)量總和已經(jīng)突破9億人次,且活躍用戶占據(jù)較大比例,其中,用戶主體多為影響力極大的高校學(xué)生、白領(lǐng)等社會(huì)群體。社交網(wǎng)絡(luò)的普及基于信息傳播技術(shù)的根本改變,轉(zhuǎn)變了人們生活、工作、交往以及思維的方式,并對(duì)社會(huì)的各行各業(yè)與人類發(fā)展產(chǎn)生了深遠(yuǎn)影響。社交網(wǎng)絡(luò)的用戶行為特征研究,既有助于營(yíng)銷推廣企業(yè)所提供的服務(wù)與產(chǎn)品,還為相關(guān)部門合理監(jiān)控、干預(yù)網(wǎng)絡(luò)輿論給予理論支撐。
文獻(xiàn)[2]圍繞人類動(dòng)力學(xué)研究視角,研究網(wǎng)絡(luò)輿論生態(tài)環(huán)境的構(gòu)建要素,對(duì)在線社交用戶信息傳播行為特征進(jìn)行了實(shí)證分析,為網(wǎng)絡(luò)輿情生態(tài)環(huán)境的完善提供參考,但是其推斷結(jié)果誤差較大。文獻(xiàn)[3]提出一種融合用戶信任關(guān)系及詞相關(guān)關(guān)系的詞特征重建方法,在新浪微博和Twitter的四組數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),取得較好的詞特征重建結(jié)果,但是在劃分用戶行為時(shí)參考指標(biāo)單一。文獻(xiàn)[4]構(gòu)建融合多源異構(gòu)數(shù)據(jù)混合推薦模型,取前N個(gè)商家推薦給用戶,利用機(jī)器學(xué)習(xí)方法,預(yù)測(cè)用戶對(duì)商家的評(píng)分并對(duì)商家進(jìn)行排序,依據(jù)排序結(jié)果,可更全面地反映用戶個(gè)人偏好,但是其計(jì)算量較大,推斷結(jié)果得不到保證。
對(duì)此,本文提出一種基于協(xié)同過濾推薦的社交網(wǎng)絡(luò)行為推斷方法,創(chuàng)新依據(jù)行為序列的時(shí)效影響者選擇、社交影響時(shí)效偏好選擇以及偏好領(lǐng)域內(nèi)時(shí)效物品選取,得到行為事件的發(fā)生概率,通過降序排列候選物品采集概率,完成社交網(wǎng)絡(luò)行為推斷。
社交網(wǎng)絡(luò)推薦共分三種:標(biāo)簽推薦、人物推薦以及諸如視頻、新聞以及博客等內(nèi)容信息推薦。在用戶社交網(wǎng)絡(luò)信任關(guān)系的推薦里,將用戶間的社交網(wǎng)絡(luò)關(guān)系看成圖1所示的關(guān)系圖,框中為用戶,數(shù)字表示用戶間信任關(guān)系的強(qiáng)弱度,箭頭指代的是好友關(guān)注形式。
圖1 用戶社交網(wǎng)絡(luò)關(guān)系示意圖
根據(jù)圖1,依據(jù)社交網(wǎng)絡(luò)關(guān)系圖對(duì)用戶間的信任關(guān)系進(jìn)行估算,將所得信任值作為用戶相似度后,采用協(xié)同過濾法求取推薦結(jié)果。信任值估算方法的目的是推斷出源用戶對(duì)目標(biāo)用戶的信任值。
協(xié)同過濾推薦算法的核心理念為基于鄰近用戶間的交互信息,完成信任值的估算,采用加權(quán)平均法對(duì)非鄰域用戶間的信任值進(jìn)行遞歸運(yùn)算。通過轉(zhuǎn)換信任值為相似度,利用協(xié)同過濾理念實(shí)現(xiàn)最終推薦,信任用戶集合的協(xié)同過濾算法表達(dá)式如下所示
(1)
假設(shè)某社交網(wǎng)絡(luò)平臺(tái)的普通用戶集合為U,明星賬戶集合為C,則普通用戶對(duì)明星賬戶的關(guān)注數(shù)據(jù),可以應(yīng)用下列表達(dá)式進(jìn)行描述
R=|U|×|C|
(2)
如果用戶u∈U,項(xiàng)目i∈C,評(píng)價(jià)矩陣為R,那么,用戶u對(duì)項(xiàng)目i的標(biāo)注表示為rui∈{-1,0,1},其中,“-1”說明用戶u拒絕關(guān)注項(xiàng)目i,“0”表明用戶還未標(biāo)注過項(xiàng)目,“1”則表示用戶對(duì)項(xiàng)目已經(jīng)關(guān)注。已知社交網(wǎng)絡(luò)平臺(tái)的名人候選集合列表為L(zhǎng),如下式所示
(3)
依據(jù)P(u,i)得到用戶u對(duì)項(xiàng)目i的偏好程度,通過偏好程度實(shí)施候選列表項(xiàng)目的排序,從中選取最高得分的前N個(gè)項(xiàng)目Su當(dāng)成用戶推薦。
依據(jù)一定的相似度模型對(duì)指定用戶鄰居集合進(jìn)行計(jì)算,以使噪音得到抑制,提升推薦準(zhǔn)確性,采取相似度加權(quán)平均鄰居集合的用戶標(biāo)注,推算出最終預(yù)測(cè)結(jié)果。用戶的社交網(wǎng)絡(luò)信息通常由內(nèi)容、社交關(guān)系網(wǎng)以及社交活動(dòng)構(gòu)成,利用線性融合方法結(jié)合三種信息,創(chuàng)建用戶相似度模型,表達(dá)式如下所示
social_sim(u,v)
=α*simc(u,v)+β*simn(u,v)+γ*simα(u,v)
(4)
式中,社交網(wǎng)絡(luò)內(nèi)容的用戶相似度為simc(u,v),社交網(wǎng)絡(luò)關(guān)系的用戶相似度為simn(u,v),社交網(wǎng)絡(luò)活動(dòng)的用戶相似度為simα(u,v),相似度占據(jù)的對(duì)應(yīng)權(quán)值分別是α、β和γ。
1)社交網(wǎng)絡(luò)內(nèi)容相似度:在社交網(wǎng)絡(luò)平臺(tái)上抽取段時(shí)間內(nèi)關(guān)鍵詞[5],進(jìn)行整合后得到一個(gè)字典W,若其中所含詞匯量是n,已知一個(gè)用戶u,則采用下列表達(dá)式表示該用戶的檔案矢量
profile(u)=〈vu(w1),vu(w2),…,vu(wn)〉
(5)
式中,wi∈W,用戶u檔案矢量?jī)?nèi)第i個(gè)關(guān)鍵詞的權(quán)值為vu(wi),用于描述用戶u對(duì)wi的偏好程度。
關(guān)鍵詞處理過程中,詞匯重要程度的評(píng)估指標(biāo)為tfidf,即詞頻-反文檔頻率,一個(gè)詞在文件中出現(xiàn)的次數(shù)越多,重要性越強(qiáng)。通過下列各式完成詞頻-反文檔頻率指標(biāo)界定
(6)
(7)
Rtfidf(t,d,D)=tf(t,d)×idf(t,D)
(8)
式中,詞匯表示為t,文檔為d,詞匯t的反文檔頻率是Ridf(t,D),詞匯t在文檔d里出現(xiàn)的次數(shù),即初始頻率,為f(t,D)。
同理,采用詞頻-反用戶頻率(即tfiuf)評(píng)價(jià)用戶對(duì)關(guān)鍵詞的偏好程度,其界定公式如下所示
(9)
(10)
Rtfiuf(t,u,U)=Rtf(t,u)×Ridf(t,U)
(11)
式中,用戶發(fā)布的社交網(wǎng)絡(luò)內(nèi)容為d(u),用戶集合為U,詞匯t在用戶u社交網(wǎng)絡(luò)內(nèi)容中的出現(xiàn)頻率為Rtf(t,u),詞匯t反用戶頻率為Ridf(t,U),詞匯t在d(u)內(nèi)的出現(xiàn)頻率為f(t,d(u))。
解得用戶檔案矢量的詞匯權(quán)值,通過各矢量間的余弦相似度[6],評(píng)估用戶偏好相似度。下式所示為矢量V1與V2的余弦相似度
(12)
從而推導(dǎo)出下列用戶u與用戶a的偏好相似度表達(dá)式
simc(u,a)=cosine(profile(u),profile(a))
(13)
2)社交關(guān)系網(wǎng)相似度:一般通過下列表達(dá)式對(duì)關(guān)系網(wǎng)的非對(duì)稱關(guān)系進(jìn)行描述:
(14)
3)社交網(wǎng)絡(luò)活動(dòng)相似度:依據(jù)提及、轉(zhuǎn)發(fā)以及評(píng)論三種交互形式的頻繁程度,衡量用戶間的偏好相似性。該相似度的構(gòu)建通過下列公式得以實(shí)現(xiàn):
(15)
式中,與用戶u有過交互的用戶集合為Au,用戶之間提及、回復(fù)以及評(píng)論過的總次數(shù)分別為Pmenuv、Prepuv和Pcomuv。分母作為歸一化因子,指代的是用戶之間的交互次數(shù)極大值。
依據(jù)社交網(wǎng)絡(luò)信息與評(píng)價(jià)矩陣信息,架構(gòu)變權(quán)值杰卡德相似度模型與社交網(wǎng)絡(luò)信息用戶相似度模型,兩者所選的鄰居集合與控制閾值都各不相同。
已知待預(yù)測(cè)標(biāo)注rui,評(píng)價(jià)矩陣信息的鄰居選取由下列公式完成
Tu={v|v∈U∧rating_sim(u,v)>φ}
(16)
式中,評(píng)價(jià)矩陣信息鄰居集合為Tu,相似度閾值為φ,變權(quán)值的杰卡德相似度為rating_sim。
而社交網(wǎng)絡(luò)信息的鄰居選取則通過下列公式達(dá)成
Su={v|v∈U∧social·sim(u,v)>η}
(17)
式中,社交網(wǎng)絡(luò)信息鄰居集合為Su,相似度閾值為η,社交網(wǎng)絡(luò)信息用戶相似度為social_sim。在為活躍用戶提供推薦信息的過程中,評(píng)價(jià)矩陣信息密度將大幅度提升,降低了無法搜索鄰居集合的概率。
已知一次物品采集行為是B(U=u,V=v,A,t),該事件中的行為序列A共含有以下三種潛在行為:
1)時(shí)效影響者選擇:對(duì)該事件的行為影響者f進(jìn)行選取,表示為aINF(u→f;t);
()基于社交影響的時(shí)效偏好選擇:以影響者f的興趣偏好為參考標(biāo)準(zhǔn),對(duì)某個(gè)喜好領(lǐng)域z實(shí)施選擇,該選取階段用aINT(f→z;t)表示;
3)偏好領(lǐng)域內(nèi)時(shí)效物品選?。涸谒x的喜好領(lǐng)域z里挑選一個(gè)物品v,標(biāo)記為aITM(z→v;t)。
因此,推導(dǎo)出下列用戶行為序列表達(dá)式
A=[aINF(u→f;t),aINT(f→z;t),aITM(z→v;t)]
(18)
假設(shè)Φ={Φα,Φβ,Φγ}為三種潛在行為相關(guān)的動(dòng)態(tài)偏好空間與行為推斷的參數(shù)集合[7-8],則用戶u在t時(shí)刻對(duì)物品v進(jìn)行采集的行為產(chǎn)生概率如下
(19)
由于推斷階段的行為事件B為可見數(shù)據(jù),而影響者f與偏好領(lǐng)域z均是不可見數(shù)據(jù),所以,根據(jù)已知參數(shù)Φ,采用下列公式對(duì)行為事件B的對(duì)數(shù)似然函數(shù)進(jìn)行描述,依據(jù)已知的用戶u與時(shí)刻t,對(duì)一組候選物品集合進(jìn)行推導(dǎo),得到V′?V,關(guān)于集合中的所有候選物品v∈V′,均通過下列公式完成該物品用戶采集概率的求解:
P(v|u;t,Φ)
(20)
按照降序?qū)⒂?jì)算得到的各候選物品采集概率進(jìn)行排列,生成采集可能性較高的物品集合,該集合即為發(fā)生可能性最大的用戶行為。
同理,可以得出時(shí)間段中行為發(fā)生概率。假定時(shí)間段[ts,te]的開始、結(jié)束時(shí)間分別是ts和te,那么,用戶u在[ts,te]時(shí)間段中物品采集行為的事件發(fā)生概率,采用下列計(jì)算公式求取
(21)
仿真環(huán)境的計(jì)算機(jī)配置為Windows10操作系統(tǒng),8GB運(yùn)行內(nèi)存,英特爾酷睿i5-3579處理器,軟件部分采用Matlab R2012a版本。
測(cè)試集數(shù)據(jù)采集了1500個(gè)用戶的社交網(wǎng)絡(luò)信息,男女比例為4:6,單個(gè)用戶評(píng)論數(shù)量多達(dá)上萬條,少則幾十條,平均評(píng)論數(shù)量約為800條。
將1500個(gè)用戶的社交網(wǎng)絡(luò)信息分為30組,每組包括50個(gè)用戶,形成信息集,以此進(jìn)行交互時(shí)間長(zhǎng)度即用戶持續(xù)使用時(shí)間測(cè)試,測(cè)試結(jié)果如圖2所示。
圖2
由圖2可知,與其它方法相比,本文方法在不同的在線時(shí)間驗(yàn)證內(nèi),可以有效擬合理想用戶持續(xù)使用時(shí)間,擬合程度高達(dá)92%,說明其減少監(jiān)控和統(tǒng)計(jì)過程的數(shù)據(jù)量計(jì)算,為社交網(wǎng)絡(luò)行為推斷提供便利。
針對(duì)已知的用戶集U={(x1,y1),…,(xm,ym)},依據(jù)真實(shí)結(jié)果與學(xué)習(xí)器預(yù)測(cè)推斷結(jié)果,分類成TP、FP、TN以及FN四種情況,TP表示實(shí)際正確且推斷也正確的真正例,同理,F(xiàn)P、TN以及FN分別為假正例、真反例與假反例。
推斷方法的性能可以由精準(zhǔn)率P與召回率R兩個(gè)參數(shù)指標(biāo)進(jìn)行評(píng)估,表達(dá)式如下所示
(22)
(23)
將兩指標(biāo)融合得到F1度量方法,以提升評(píng)估準(zhǔn)確性,度量法公式如下
(24)
為了驗(yàn)證本文方法的有效性與適用性,分別采用文獻(xiàn)[2]、文獻(xiàn)[3]和文獻(xiàn)[4]方法與本文方法,對(duì)兩個(gè)不同的社交網(wǎng)絡(luò)平臺(tái)(微信和微博)用戶進(jìn)行行為推斷,得到各平臺(tái)對(duì)應(yīng)的推斷性能對(duì)比圖。
圖3 各平臺(tái)性能對(duì)比圖
通過圖3可以看出,其它文獻(xiàn)方法的度量系數(shù)較低,且增加幅度極小,相比之下,本文方法的度量系數(shù)平均在0.97左右,最低數(shù)值低于0.9,其它平臺(tái)都相對(duì)更高,最高數(shù)值甚至趨近于1。從兩種方法的度量系數(shù)曲線走勢(shì)能夠發(fā)現(xiàn),本文方法始終有上升趨勢(shì),且明顯高于傳統(tǒng)方法數(shù)值,性能優(yōu)勢(shì)顯著。
1)架構(gòu)一種基于協(xié)同過濾推薦的社交網(wǎng)絡(luò)行為推斷方法。以社交網(wǎng)絡(luò)內(nèi)容、社交關(guān)系網(wǎng)以及社交網(wǎng)絡(luò)活動(dòng)的相似度模型,對(duì)候選物品的采集行為發(fā)生概率進(jìn)行計(jì)算,通過降序排序使用戶行為推斷得以實(shí)現(xiàn)。
2)通過所建簡(jiǎn)化用戶的社交網(wǎng)絡(luò)行為,生成物品采集行為事件,根據(jù)行為序列的時(shí)效影響者、時(shí)效偏好選擇和時(shí)效物品選取潛在行為,最終交互時(shí)間長(zhǎng)度與實(shí)際擬合度為92%。
3)該方法在微博和微信上的推斷性能得到驗(yàn)證,其度量系數(shù)平均在0.97左右,為后續(xù)研究奠定了夯實(shí)的理論基礎(chǔ),具有重要的現(xiàn)實(shí)意義與實(shí)踐價(jià)值。