陳 江,劉 瑋,巢文涵,王麗宏
(1.北京航空航天大學(xué)計(jì)算機(jī)學(xué)院,北京100191;2.國(guó)家計(jì)算機(jī)網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心,北京100029;3.中國(guó)科學(xué)院計(jì)算技術(shù)研究所,北京100190;4.中國(guó)科學(xué)院大學(xué),北京100049)
微博是一個(gè)基于用戶(hù)關(guān)系的信息分享、傳播以及獲取平臺(tái)[1]。微博從2009年發(fā)布至今,迅速以其內(nèi)容簡(jiǎn)潔、交互簡(jiǎn)便和快速傳播等特點(diǎn),發(fā)展成為人們表達(dá)觀點(diǎn)、抒發(fā)情緒、傳遞信息的重要社會(huì)媒體。根據(jù)2015年7月《CNNIC:2015年第36次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》,截止2015年6月,我國(guó)微博用戶(hù)規(guī)模為2.04億,其中手機(jī)微博用戶(hù)數(shù)為1.62億,使用率為27.3%,用戶(hù)之間通過(guò)關(guān)注形成復(fù)雜的關(guān)系網(wǎng)絡(luò)。
在微博平臺(tái)中,用戶(hù)之間通過(guò)關(guān)注關(guān)系構(gòu)成錯(cuò)綜復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu),用戶(hù)通過(guò)轉(zhuǎn)發(fā)微博傳播信息,這種傳播方式具有傳播快、覆蓋廣的特點(diǎn),使得某些微博能夠在短時(shí)間內(nèi)形成極大的關(guān)注和影響。因此,微博轉(zhuǎn)發(fā)研究對(duì)話題檢測(cè)、熱點(diǎn)跟蹤、輿情監(jiān)控以及商業(yè)營(yíng)銷(xiāo)具有重要價(jià)值。
目前針對(duì)微博轉(zhuǎn)發(fā)的研究主要基于網(wǎng)絡(luò)結(jié)構(gòu)或基于微博特征,前者通過(guò)分析微博網(wǎng)絡(luò)中信息傳播的特點(diǎn),研究微博轉(zhuǎn)發(fā)問(wèn)題,但該方法局限于微博網(wǎng)絡(luò)復(fù)雜而龐大,難以獲得完整的網(wǎng)絡(luò)結(jié)構(gòu),而基于部分網(wǎng)絡(luò)結(jié)構(gòu)數(shù)據(jù)往往造成較大的偏差。后者通過(guò)分析影響微博轉(zhuǎn)發(fā)的因素,構(gòu)建微博轉(zhuǎn)發(fā)模型,該類(lèi)主要針對(duì)用戶(hù)靜態(tài)屬性或消息特征來(lái)預(yù)測(cè)消息是否會(huì)被轉(zhuǎn)發(fā),沒(méi)有充分考慮待預(yù)測(cè)用戶(hù)的個(gè)體差異和背景知識(shí)對(duì)轉(zhuǎn)發(fā)決策的影響。
事實(shí)上,用戶(hù)閱讀到一條微博時(shí),會(huì)根據(jù)自己已有知識(shí)對(duì)微博價(jià)值和新穎性進(jìn)行判斷,然后決定是否轉(zhuǎn)發(fā)。微博是否會(huì)被轉(zhuǎn)發(fā)與用戶(hù)個(gè)體行為和用戶(hù)對(duì)微博的背景知識(shí)具有緊密相關(guān)性,用戶(hù)所掌握的微博背景知識(shí)一方面由歷史微博獲取,一方面由用戶(hù)對(duì)微博內(nèi)容的綜合認(rèn)知程度決定,而用戶(hù)對(duì)微博內(nèi)容的綜合認(rèn)知程度受多種復(fù)雜因素影響,社會(huì)上發(fā)生的熱點(diǎn)話題信息是其中重要的影響因素。
本文以此為出發(fā)點(diǎn),研究融合背景熱點(diǎn)話題的用戶(hù)轉(zhuǎn)發(fā)行為預(yù)測(cè)方法。本文提出融合熱點(diǎn)話題的微博轉(zhuǎn)發(fā)預(yù)測(cè)方法,對(duì)背景熱點(diǎn)話題內(nèi)容和傳播趨勢(shì)對(duì)用戶(hù)轉(zhuǎn)發(fā)行為的影響進(jìn)行量化分析,提出了融合背景熱點(diǎn)信息的轉(zhuǎn)發(fā)興趣、轉(zhuǎn)發(fā)活躍度、行為模式等特征,并基于分類(lèi)算法建立了面向熱點(diǎn)話題相關(guān)微博的轉(zhuǎn)發(fā)預(yù)測(cè)模型。在真實(shí)數(shù)據(jù)上的實(shí)驗(yàn)結(jié)果表明,本文方法的預(yù)測(cè)準(zhǔn)確性達(dá)到96.6%,提升幅度最高達(dá)到12.14%。
本文的組織結(jié)構(gòu)如下:引言部分介紹問(wèn)題背景和研究現(xiàn)狀;第二節(jié)介紹相關(guān)工作;第三節(jié)介紹問(wèn)題描述;第四節(jié)介紹熱點(diǎn)話題對(duì)用戶(hù)轉(zhuǎn)發(fā)的相關(guān)性問(wèn)題;第五節(jié)介紹融合熱點(diǎn)話題的特征分析方法;第六節(jié)實(shí)驗(yàn)結(jié)果和分析;第七節(jié)是總結(jié)和下一步工作。
微博轉(zhuǎn)發(fā)研究工作主要集中在提取轉(zhuǎn)發(fā)和非轉(zhuǎn)發(fā)行為區(qū)分度高的特征。Petrovic S[2]等人研究Twitter平臺(tái)的轉(zhuǎn)發(fā)預(yù)測(cè)問(wèn)題,考慮了tweet用戶(hù)相關(guān)特征,如粉絲數(shù)、關(guān)注數(shù)、tweet發(fā)布量等,以及tweet本身特征,如標(biāo)簽、URL、tweet長(zhǎng)短等,基于機(jī)器學(xué)習(xí)方法構(gòu)建轉(zhuǎn)發(fā)預(yù)測(cè)模型。Galuba W等人[3]研究了用戶(hù)URL提及頻繁程度,通過(guò)追蹤URL傳播的方式,研究Twitter平臺(tái)中URL的傳播規(guī)律,構(gòu)建基于用戶(hù)提及URL的預(yù)測(cè)模型。李英樂(lè)[4]和曹玖新[5]等人通過(guò)微博客中用戶(hù)特征和微博內(nèi)容特征來(lái)研究微博轉(zhuǎn)發(fā)及其預(yù)測(cè)問(wèn)題,但方法過(guò)于依賴(lài)微博內(nèi)容對(duì)微博轉(zhuǎn)發(fā)的影響。Kanavos A[6]等人構(gòu)建微博情緒模型,基于tweet內(nèi)容特征的情感傾向研究tweet傳播的廣度和深度。文獻(xiàn)[7-9]將微博是否會(huì)被轉(zhuǎn)發(fā)轉(zhuǎn)化成一個(gè)二分類(lèi)問(wèn)題,基于機(jī)器學(xué)習(xí)方法構(gòu)建分類(lèi)模型進(jìn)行微博轉(zhuǎn)發(fā)預(yù)測(cè)。
轉(zhuǎn)發(fā)行為是促使微博在微博網(wǎng)絡(luò)中病毒式傳播[10-11]的關(guān)鍵問(wèn)題,轉(zhuǎn)發(fā)特征的研究主要分布在用戶(hù)轉(zhuǎn)發(fā)行為的研究[12-14]和微博轉(zhuǎn)發(fā)規(guī)模預(yù)測(cè)的研究中[15-16],Zhang Y等人[19]研究不同特征對(duì)轉(zhuǎn)發(fā)行為影響的差異性,從而構(gòu)建基于特征加權(quán)的轉(zhuǎn)發(fā)預(yù)測(cè)模型。Petrovic S等人[2]基于passive-aggressive算法預(yù)測(cè)微博是否會(huì)被轉(zhuǎn)發(fā),他們的研究發(fā)現(xiàn)微博博主是否認(rèn)證及其粉絲數(shù)等會(huì)影響微博是否會(huì)被轉(zhuǎn)發(fā)。Bandari R等人[17]將微博轉(zhuǎn)發(fā)數(shù)量按不同等級(jí)劃分(1-20,20-100,100-2400),構(gòu)建多分類(lèi)模型來(lái)預(yù)測(cè)微博轉(zhuǎn)發(fā)規(guī)模。Ma Z[18]等人提取tweet的特征,基于機(jī)器學(xué)習(xí)方法,構(gòu)建了標(biāo)簽的流行度預(yù)測(cè)模型對(duì)轉(zhuǎn)發(fā)規(guī)模進(jìn)行預(yù)測(cè)。
社交網(wǎng)絡(luò)具有復(fù)雜網(wǎng)絡(luò)特性,也有學(xué)者基于社交網(wǎng)絡(luò)結(jié)構(gòu)研究微博傳播規(guī)律。這方面的研究主要基于社交網(wǎng)絡(luò)的結(jié)構(gòu)特征,構(gòu)建社交網(wǎng)絡(luò)拓?fù)鋱D,在此基礎(chǔ)上研究信息傳播規(guī)律。Szabo G[19]等人研究在線內(nèi)容的流行度問(wèn)題,并構(gòu)建流行度預(yù)測(cè)模型,但他們的研究具有平臺(tái)局限性,可推廣性差。Yang J[20]等基于傳播關(guān)系網(wǎng)絡(luò),通過(guò)信息已經(jīng)流過(guò)的節(jié)點(diǎn),構(gòu)建線性影響模型,預(yù)測(cè)信息傳播的實(shí)時(shí)動(dòng)態(tài)。
綜上所述,現(xiàn)有的研究者主要基于微博特征或基于網(wǎng)絡(luò)結(jié)構(gòu)特征,研究微博轉(zhuǎn)發(fā)預(yù)測(cè)問(wèn)題,這些研究工作將微博平臺(tái)視作一個(gè)獨(dú)立系統(tǒng),不受其他渠道信息影響。事實(shí)上,Yang Z[14]等人的研究工作表明,當(dāng)有突發(fā)話題發(fā)生時(shí),微博傳播很大程度上會(huì)收到外界信息的影響。微博是否會(huì)被轉(zhuǎn)發(fā)與用戶(hù)個(gè)體行為和用戶(hù)對(duì)微博的知識(shí)背景具有緊密相關(guān)性。用戶(hù)所掌握的微博背景知識(shí)一方面由歷史微博獲取,一方面由用戶(hù)對(duì)微博內(nèi)容的綜合認(rèn)知程度決定,而用戶(hù)對(duì)微博內(nèi)容的綜合認(rèn)知程度會(huì)受到多種復(fù)雜因素影響。其次,通過(guò)微博內(nèi)容與用戶(hù)興趣相似度判斷用戶(hù)轉(zhuǎn)發(fā)的方法,往往因?yàn)槲⒉﹥?nèi)容非常短,所含內(nèi)容特征有限,使得微博與用戶(hù)興趣之間的相似度計(jì)算準(zhǔn)確性低,轉(zhuǎn)發(fā)行為預(yù)測(cè)準(zhǔn)確性低。
針對(duì)上述問(wèn)題,本文研究融合背景熱點(diǎn)話題的用戶(hù)轉(zhuǎn)發(fā)行為預(yù)測(cè)方法。首先,提出話題背景知識(shí)獲取和特征向量計(jì)算方法,用于表示用戶(hù)對(duì)熱點(diǎn)話題的綜合認(rèn)知程度,并將直接判斷用戶(hù)對(duì)微博的感興趣程度問(wèn)題轉(zhuǎn)換成判斷用戶(hù)對(duì)微博所屬熱點(diǎn)話題的感興趣程度問(wèn)題,能夠避免因用戶(hù)歷史微博內(nèi)容局限性而導(dǎo)致的預(yù)測(cè)準(zhǔn)確性低的問(wèn)題。其次,提出利用用戶(hù)歷史轉(zhuǎn)發(fā)行為趨勢(shì)特征及其與熱點(diǎn)話題傳播趨勢(shì)一致性的計(jì)算方法,以此代表用戶(hù)對(duì)熱點(diǎn)話題的關(guān)注程度,進(jìn)而表示該用戶(hù)對(duì)熱點(diǎn)話題微博的感興趣程度,避免直接通過(guò)計(jì)算單條微博與用戶(hù)興趣相似程度所帶來(lái)的不準(zhǔn)確性問(wèn)題。最后,基于分類(lèi)算法建立面向熱點(diǎn)話題相關(guān)微博的轉(zhuǎn)發(fā)預(yù)測(cè)模型,在真實(shí)數(shù)據(jù)上開(kāi)展實(shí)驗(yàn)驗(yàn)證。
融合背景熱點(diǎn)話題的微博轉(zhuǎn)發(fā)預(yù)測(cè)問(wèn)題可以描述為F=f(U,W,H),其中:U表示用戶(hù)特征,W表示微博特征,H表示當(dāng)前網(wǎng)絡(luò)上正在發(fā)生的熱點(diǎn)話題特征,本文稱(chēng)為背景熱點(diǎn)話題,F(xiàn)表示用戶(hù)行為,即用戶(hù)u對(duì)微博w的動(dòng)作,F(xiàn)∈{1,-1},F(xiàn)=1表示用戶(hù)u轉(zhuǎn)發(fā)了微博w,F(xiàn)=-1表示用戶(hù)u沒(méi)有轉(zhuǎn)發(fā)微博w,用戶(hù)u是否轉(zhuǎn)發(fā)微博w的轉(zhuǎn)發(fā)預(yù)測(cè)問(wèn)題可以轉(zhuǎn)化為二分類(lèi)問(wèn)題。
現(xiàn)有方法僅基于微博本身的用戶(hù)特征和微博特征,無(wú)法綜合利用背景熱點(diǎn)話題特征對(duì)用戶(hù)轉(zhuǎn)發(fā)行為進(jìn)行預(yù)測(cè)。本文基于百度新聞搜索獲取熱點(diǎn)話題數(shù)據(jù),作為背景熱點(diǎn)話題內(nèi)容,研究背景熱點(diǎn)話題對(duì)微博轉(zhuǎn)發(fā)行為的影響。在傳統(tǒng)分類(lèi)模型基礎(chǔ)上,引入熱點(diǎn)話題特征擴(kuò)展特征空間,提高預(yù)測(cè)準(zhǔn)確性。背景熱點(diǎn)話題對(duì)轉(zhuǎn)發(fā)行為的影響主要考慮熱點(diǎn)話題內(nèi)容和傳播趨勢(shì)兩方面因素,相關(guān)定義如下。
定義1 背景熱點(diǎn)話題內(nèi)容,指從新聞網(wǎng)站獲取的熱點(diǎn)話題數(shù)據(jù),經(jīng)過(guò)預(yù)處理后表示為熱點(diǎn)話題關(guān)鍵詞向量,以此表示用戶(hù)能夠從其他渠道獲知的微博內(nèi)容相關(guān)的背景知識(shí)。
定義2 背景熱點(diǎn)話題傳播趨勢(shì),指熱點(diǎn)話題相關(guān)報(bào)告的熱度分布,以此表示熱點(diǎn)話題熱度傳播趨勢(shì)。
基于微博自身屬性的微博轉(zhuǎn)發(fā)預(yù)測(cè)研究大多假設(shè)用戶(hù)轉(zhuǎn)發(fā)行為不受微博之外的因素影響。然而,用戶(hù)具有社會(huì)屬性,接收信息渠道具有多元化特點(diǎn),轉(zhuǎn)發(fā)行為會(huì)受到微博數(shù)據(jù)以外的多種因素影響。熱點(diǎn)話題能在一定程度上吸引用戶(hù)更多地參與到相關(guān)微博話題的討論中,提高話題相關(guān)微博的轉(zhuǎn)發(fā)量。
以“世界杯”熱點(diǎn)話題為例,我們爬取新浪微博2014年4月12日—9月13日期間數(shù)據(jù),統(tǒng)計(jì)微博總量變化趨勢(shì)和話題相關(guān)微博總量的變化趨勢(shì)。如圖1所示,熱點(diǎn)話題期間微博空間的微博總量和話題相關(guān)的微博總量都呈現(xiàn)出明顯的增長(zhǎng)趨勢(shì),表明用戶(hù)轉(zhuǎn)發(fā)行為會(huì)受到熱點(diǎn)話題的影響。
圖1 熱點(diǎn)話題期間微博轉(zhuǎn)發(fā)量變化趨勢(shì)
進(jìn)一步,我們研究熱點(diǎn)話題對(duì)微博用戶(hù)轉(zhuǎn)發(fā)行為的影響。我們針對(duì)2014年4月12日—9月13日期間微博用戶(hù),根據(jù)用戶(hù)在熱點(diǎn)話題期間是否發(fā)表過(guò)與之相關(guān)的微博判斷用戶(hù)是否與熱點(diǎn)話題相關(guān),將用戶(hù)分為與熱點(diǎn)話題相關(guān)和不相關(guān)兩類(lèi),分別對(duì)用戶(hù)轉(zhuǎn)發(fā)量趨勢(shì)進(jìn)行統(tǒng)計(jì)。結(jié)果如圖2所示,三條曲線分別表示所有用戶(hù)(all users)、與熱點(diǎn)話題相關(guān)的用戶(hù)(users prefer soccer)、及與熱點(diǎn)話題不相關(guān)的用戶(hù)(other users)所轉(zhuǎn)發(fā)的與熱點(diǎn)話題相關(guān)的微博量的變化趨勢(shì)。我們可以看出在話題傳播周期內(nèi),熱點(diǎn)話題對(duì)各類(lèi)用戶(hù)的轉(zhuǎn)發(fā)量都有明顯的提升,與熱點(diǎn)話題相關(guān)用戶(hù)的轉(zhuǎn)發(fā)量提升幅度較大。同時(shí),歷史上與熱點(diǎn)話題不相關(guān)的用戶(hù)也在熱點(diǎn)話題期間增加了對(duì)熱點(diǎn)話題相關(guān)微博的轉(zhuǎn)發(fā)量,表明僅基于用戶(hù)歷史微博計(jì)算的用戶(hù)興趣難以有效預(yù)測(cè)在新的熱點(diǎn)話題下的用戶(hù)轉(zhuǎn)發(fā)行為,用戶(hù)的轉(zhuǎn)發(fā)行為會(huì)受到當(dāng)前社會(huì)熱點(diǎn)話題的影響。
圖2 熱點(diǎn)話題對(duì)各類(lèi)用戶(hù)微博轉(zhuǎn)發(fā)量的影響
興趣是人們對(duì)事物喜好或關(guān)切的情緒,它表現(xiàn)為人們對(duì)某件事物、某項(xiàng)活動(dòng)的選擇性態(tài)度和積極的情緒反應(yīng)[21]。微博用戶(hù)的興趣部分通過(guò)用戶(hù)的轉(zhuǎn)發(fā)行為體現(xiàn)出來(lái),我們稱(chēng)之為用戶(hù)轉(zhuǎn)發(fā)興趣。用戶(hù)的轉(zhuǎn)發(fā)行為受用戶(hù)對(duì)微博的綜合認(rèn)知程度影響,而用戶(hù)對(duì)微博的綜合認(rèn)知程度受多種復(fù)雜因素影響,用戶(hù)轉(zhuǎn)發(fā)興趣及背景熱點(diǎn)話題也是影響因素之一。興趣作為用戶(hù)的情緒反映,是用戶(hù)個(gè)體行為一種相對(duì)穩(wěn)定表現(xiàn)的形式。而在做轉(zhuǎn)發(fā)決策時(shí),個(gè)人興趣、微博內(nèi)容及當(dāng)前發(fā)生的熱點(diǎn)話題共同影響著用戶(hù)轉(zhuǎn)發(fā)決策。
從第四節(jié)的分析,我們可以看出用戶(hù)興趣與熱點(diǎn)話題越相關(guān),越容易在熱點(diǎn)話題期間進(jìn)行大量的轉(zhuǎn)發(fā),我們提出融合熱點(diǎn)話題的用戶(hù)轉(zhuǎn)發(fā)興趣特征,來(lái)計(jì)算用戶(hù)轉(zhuǎn)發(fā)興趣與熱點(diǎn)話題的匹配程度。
熱點(diǎn)話題內(nèi)容表示:背景熱點(diǎn)話題文檔級(jí)別的表示D_topic={d1,d2,…,dn},根據(jù)表示背景熱點(diǎn)話題的文檔集合,提取關(guān)鍵詞,獲得背景熱點(diǎn)話題詞語(yǔ)級(jí)別的表示S_topic={w1,w2,…,wm}。
用戶(hù)轉(zhuǎn)發(fā)興趣表示:通過(guò)用戶(hù)歷史轉(zhuǎn)發(fā)微博內(nèi)容來(lái)表示用戶(hù)轉(zhuǎn)發(fā)興趣。用戶(hù)歷史轉(zhuǎn)發(fā)微博表示為D_user={d1,d2,…,dn},對(duì)用戶(hù)微博進(jìn)行分詞,去除停用詞后,形成用戶(hù)轉(zhuǎn)發(fā)興趣的詞語(yǔ)級(jí)別的表示為I_user={w1,w2,…,wm}。
融合熱點(diǎn)話題的用戶(hù)轉(zhuǎn)發(fā)興趣特征計(jì)算,定義為用戶(hù)轉(zhuǎn)發(fā)興趣與背景熱點(diǎn)的匹配程度,計(jì)算方法如式(1)所示。
我們計(jì)算了轉(zhuǎn)發(fā)微博數(shù)量對(duì)應(yīng)用戶(hù)轉(zhuǎn)發(fā)興趣特征的變化關(guān)系。如圖3所示,橫坐標(biāo)表示融合熱點(diǎn)話題的用戶(hù)轉(zhuǎn)發(fā)興趣,縱坐標(biāo)表示與背景熱點(diǎn)話題相關(guān)的微博轉(zhuǎn)發(fā)量。圖3反映了用戶(hù)轉(zhuǎn)發(fā)行為與融合背景熱點(diǎn)話題的用戶(hù)轉(zhuǎn)發(fā)興趣之間的關(guān)系。由圖中可以看出,用戶(hù)轉(zhuǎn)發(fā)興趣與背景熱點(diǎn)話題之間的匹配程度越高(CO越大),則用戶(hù)所轉(zhuǎn)發(fā)與背景熱點(diǎn)話題相關(guān)微博的數(shù)量越多,表明融合背景熱點(diǎn)話題的用戶(hù)轉(zhuǎn)發(fā)興趣能夠有效預(yù)測(cè)用戶(hù)的轉(zhuǎn)發(fā)行為。
圖3 微博轉(zhuǎn)發(fā)量對(duì)應(yīng)融合背景熱點(diǎn)話題的用戶(hù)轉(zhuǎn)發(fā)興趣的關(guān)系圖
1.融合背景熱點(diǎn)話題的用戶(hù)活躍度
轉(zhuǎn)發(fā)行為活躍度通過(guò)用戶(hù)在熱點(diǎn)話題期間的累積轉(zhuǎn)發(fā)量表示,融合背景熱點(diǎn)話題的用戶(hù)轉(zhuǎn)發(fā)活躍度通過(guò)熱點(diǎn)話題期間與熱點(diǎn)話題相關(guān)的微博的累積轉(zhuǎn)發(fā)量表示,該特征能夠表明用戶(hù)對(duì)熱點(diǎn)話題的感興趣程度。計(jì)算公式如式(2)所示。
用戶(hù)在一段時(shí)間t內(nèi)轉(zhuǎn)發(fā)的與熱點(diǎn)話題相關(guān)的微博的頻繁程度:
其中:mti表示用戶(hù)在時(shí)間t內(nèi)發(fā)布的微博i,S表示對(duì)應(yīng)熱點(diǎn)話題的詞語(yǔ)級(jí)表示,τ是微博是否與熱點(diǎn)話題相關(guān)的閾值。
2.融合背景熱點(diǎn)話題的用戶(hù)行為一致性
第四節(jié)從內(nèi)容上考慮影響用戶(hù)轉(zhuǎn)發(fā)行為的因素,從圖3我們還可以看出,由于微博長(zhǎng)度短且用戶(hù)通常利用碎片時(shí)間登錄微博進(jìn)行瀏覽和轉(zhuǎn)發(fā),大部分用戶(hù)轉(zhuǎn)發(fā)量在0~100條之間,轉(zhuǎn)發(fā)興趣關(guān)鍵詞集中在0~150之間,僅從興趣內(nèi)容和累積轉(zhuǎn)發(fā)量上很難全面刻畫(huà)用戶(hù)對(duì)熱點(diǎn)話題的關(guān)注程度。用戶(hù)轉(zhuǎn)發(fā)微博的行為具有差異性,有的用戶(hù)登錄頻繁且興趣廣泛,從累積的轉(zhuǎn)發(fā)活躍度和興趣特征上都表現(xiàn)出較高的轉(zhuǎn)發(fā)概率,但是這類(lèi)用戶(hù)對(duì)熱點(diǎn)話題相關(guān)微博的轉(zhuǎn)發(fā)行為具有突發(fā)性和隨機(jī)性特點(diǎn)。而有的用戶(hù)轉(zhuǎn)發(fā)活躍度較低,只是在自己持續(xù)關(guān)注的某些領(lǐng)域進(jìn)行轉(zhuǎn)發(fā),這類(lèi)用戶(hù)未來(lái)轉(zhuǎn)發(fā)熱點(diǎn)相關(guān)微博的概率更大。所以考慮用戶(hù)對(duì)熱點(diǎn)話題相關(guān)微博的持續(xù)關(guān)注程度,能夠有效檢測(cè)用戶(hù)是否是該熱點(diǎn)話題的黏性用戶(hù),黏性用戶(hù)未來(lái)轉(zhuǎn)發(fā)熱點(diǎn)話題相關(guān)微博的概率較高。
一段時(shí)間內(nèi)用戶(hù)轉(zhuǎn)發(fā)微博數(shù)量的變化趨勢(shì)可以看做是時(shí)間軸上的一個(gè)概率分布P_user;我們以一定時(shí)間內(nèi)新聞報(bào)道數(shù)量變化來(lái)衡量背景熱點(diǎn)話題的熱度變化趨勢(shì),也可以看作是時(shí)間軸上的一個(gè)概率分布P_topic。我們通過(guò)計(jì)算兩個(gè)分布之間的相似度來(lái)計(jì)算用戶(hù)行為與熱點(diǎn)話題傳播趨勢(shì)的一致性特征。
試驗(yàn)第9 d和10 d,第79 d和80 d,于晨飼前對(duì)試驗(yàn)牛進(jìn)行稱(chēng)重,并計(jì)算每頭牛平均體重[16]。
計(jì)算分布相似度,我們采用KL(Kullback-Leiber divergence)散度又稱(chēng)相對(duì)熵(relative entropy)方法,該方法是用來(lái)描述兩個(gè)概率分布之間差異性的一種方法[22],KL距離越小表示兩個(gè)分布越相似,KL距離等于0時(shí)表示兩個(gè)分布完全一樣。我們用KL距離來(lái)反映概率分布P_user和概率分布P_topic之間的關(guān)系。
考慮到KL距離的非對(duì)稱(chēng)性,我們以式(5)
來(lái)計(jì)算概率分布之間的關(guān)系。通過(guò)上述計(jì)算方法我們計(jì)算了轉(zhuǎn)發(fā)微博與行為一致性之間的對(duì)應(yīng)關(guān)系。
如圖4所示,當(dāng)KL距離增大時(shí),分布之間差異變大,說(shuō)明用戶(hù)轉(zhuǎn)發(fā)行為與背景熱點(diǎn)話題發(fā)展趨勢(shì)之間相關(guān)性較小,轉(zhuǎn)發(fā)行為具有隨機(jī)性和非持續(xù)性,用戶(hù)轉(zhuǎn)發(fā)的與背景熱點(diǎn)話題相關(guān)的微博較少;當(dāng)KL距離減小時(shí),分布差異較小,說(shuō)明用戶(hù)轉(zhuǎn)發(fā)行為與背景熱點(diǎn)話題發(fā)展趨勢(shì)之間相關(guān)性較大,轉(zhuǎn)發(fā)行為和熱點(diǎn)話題趨勢(shì)具有較高的一致性,用戶(hù)對(duì)該熱點(diǎn)話題進(jìn)行了持續(xù)關(guān)注,用戶(hù)轉(zhuǎn)發(fā)與背景熱點(diǎn)話題相關(guān)微博較多。這說(shuō)明,持續(xù)關(guān)注某一背景熱點(diǎn)話題的微博用戶(hù)對(duì)該背景熱點(diǎn)話題具有更高的轉(zhuǎn)發(fā)興趣,融合背景熱點(diǎn)話題的用戶(hù)行為一致性特征能夠有效檢測(cè)出熱點(diǎn)話題的持續(xù)關(guān)注用戶(hù),同時(shí)避免因其總發(fā)帖量不高而被忽略的問(wèn)題。
圖4 微博轉(zhuǎn)發(fā)量對(duì)應(yīng)行為一致性特征的關(guān)系圖
本節(jié)針對(duì)待預(yù)測(cè)微博內(nèi)容來(lái)分析熱點(diǎn)話題對(duì)微博轉(zhuǎn)發(fā)的影響??紤]到微博內(nèi)容與熱點(diǎn)話題越相關(guān),得到轉(zhuǎn)發(fā)的概率就越大,我們提出融合熱點(diǎn)話題的微博內(nèi)容特征,同樣,我們用詞集合S_topic={w1,w2,…,wm}來(lái)表示背景熱點(diǎn)話題內(nèi)容。我們對(duì)微博進(jìn)行分詞、去除停用詞的預(yù)處理之后,將微博表示成一個(gè)詞語(yǔ)級(jí)別的集合:M_mes={w1,w2,…,wm}。由于微博內(nèi)容很短且都是特征詞語(yǔ),我們用Jaccard相似系數(shù)來(lái)表示微博內(nèi)容與背景熱點(diǎn)話題之間的相似性,即融合熱點(diǎn)話題的微博內(nèi)容特征,如式(6)所示。
我們對(duì)融合熱點(diǎn)話題的微博內(nèi)容特征值不同的微博獲得的轉(zhuǎn)發(fā)總量及平均值進(jìn)行了統(tǒng)計(jì)分析。如圖5所示,橫坐標(biāo)為JSM值,縱坐標(biāo)分別對(duì)應(yīng)微博所獲得的平均轉(zhuǎn)發(fā)量和轉(zhuǎn)發(fā)總量。從圖中可以看出,以右側(cè)坐標(biāo)軸為標(biāo)示的綠色曲線表明微博轉(zhuǎn)發(fā)總量隨微博內(nèi)容與背景熱點(diǎn)話題相似性的增大而減少,這是因?yàn)榇蟛糠治⒉﹥?nèi)容簡(jiǎn)短,所含內(nèi)容特征較少,高相似性的微博數(shù)量大量減少,導(dǎo)致轉(zhuǎn)發(fā)總量降低。以左側(cè)坐標(biāo)軸為標(biāo)示的藍(lán)色曲線表明,微博獲得的平均轉(zhuǎn)發(fā)量隨微博內(nèi)容與背景熱點(diǎn)話題相似性的增大而提高,表明微博內(nèi)容與熱點(diǎn)話題越相似,越容易受到轉(zhuǎn)發(fā),融合熱點(diǎn)話題的微博內(nèi)容特征能夠有效區(qū)分微博轉(zhuǎn)發(fā)行為。
圖5 微博轉(zhuǎn)發(fā)對(duì)應(yīng)融合熱點(diǎn)話題的微博內(nèi)容特征對(duì)的關(guān)系圖
在微博數(shù)據(jù)集的基礎(chǔ)上構(gòu)造矩陣:
其中:n表示用戶(hù)個(gè)數(shù),m表示微博個(gè)數(shù),aij∈F。標(biāo)記后的數(shù)據(jù)集元素為一個(gè)三元組<ui,mj,aij>,當(dāng)aij=0或1時(shí)表示用戶(hù)ui轉(zhuǎn)發(fā)微博mj,當(dāng)aij=-1時(shí)表示用戶(hù)ui沒(méi)有轉(zhuǎn)發(fā)微博mj。
分類(lèi)特征選擇本文所提出的融合熱點(diǎn)話題的用戶(hù)轉(zhuǎn)發(fā)興趣特征、用戶(hù)活躍度、用戶(hù)行為一致性、微博內(nèi)容特征,如表1所示(特征1—4)。
本文采用李英樂(lè)[4]等人的方法作為對(duì)比試驗(yàn),該方法使用特征較全面且預(yù)測(cè)準(zhǔn)確性較高,在特征可計(jì)算條件下,選擇用戶(hù)影響力、用戶(hù)轉(zhuǎn)發(fā)活躍度、用戶(hù)發(fā)布活躍度、用戶(hù)興趣與微博相似度作為對(duì)比特征,如表1所示(特征5—8)。
表1 特征選取
本文采用SVM、樸素貝葉斯、貝葉斯信念網(wǎng)絡(luò)、決策樹(shù)等分類(lèi)算法,來(lái)測(cè)試所選分類(lèi)特征應(yīng)用于轉(zhuǎn)發(fā)預(yù)測(cè)時(shí)的效果。
評(píng)價(jià)方法采用準(zhǔn)確率(Precision)、召回率(Recall)和綜合評(píng)價(jià)指標(biāo)(F-Measure)。
我們將特征分為三組,分別在四種分類(lèi)器上進(jìn)行了對(duì)比試驗(yàn)。Baseline方法是對(duì)比的基準(zhǔn)方法,僅采用了用戶(hù)和微博自身特征,Ours表示本文所提特征,即融合了熱點(diǎn)話題的轉(zhuǎn)發(fā)特征,Combine表示將用戶(hù)和微博自身特征與融合熱點(diǎn)話題的轉(zhuǎn)發(fā)特征相結(jié)合,進(jìn)行了綜合測(cè)試。如表2所示,在多個(gè)分類(lèi)器上的測(cè)試結(jié)果表明本文所提出的融合熱點(diǎn)話題的用戶(hù)轉(zhuǎn)發(fā)興趣特征、用戶(hù)活躍度、用戶(hù)行為一致性、微博內(nèi)容特征能夠有效提升轉(zhuǎn)發(fā)預(yù)測(cè)準(zhǔn)確性,與傳統(tǒng)用戶(hù)和微博自身特征相結(jié)合后,能夠進(jìn)一步提升效果,其中,采用C4.5分類(lèi)器時(shí)的預(yù)測(cè)效果最好,達(dá)到96.6%,對(duì)基于SVM分類(lèi)器的預(yù)測(cè)模型提升效果最高,達(dá)到14.12%,采用NaiveBayes分類(lèi)器的實(shí)驗(yàn)中,ours的實(shí)驗(yàn)效果略差于baseline,這是因?yàn)槲覀冞x取的特征不完全滿(mǎn)足樸素貝葉斯的條件獨(dú)立性假設(shè),導(dǎo)致其在分類(lèi)準(zhǔn)確率上有一定的犧牲,但是從數(shù)據(jù)上可以看出,本文所提特征在與baseline特征結(jié)合后能夠提升分類(lèi)準(zhǔn)確率。引入外部熱點(diǎn)話題并融合其內(nèi)容和傳播趨勢(shì)對(duì)用戶(hù)轉(zhuǎn)發(fā)行為的影響因素,能夠有效提升轉(zhuǎn)發(fā)行為的預(yù)測(cè)準(zhǔn)確性。本文的訓(xùn)練集和測(cè)試集按照時(shí)間先后相互獨(dú)立,預(yù)測(cè)準(zhǔn)確性的提高也表明了本文所提特征能夠很好地刻畫(huà)用戶(hù)轉(zhuǎn)發(fā)行為模式,具有較好的長(zhǎng)期預(yù)測(cè)效果。
表2 實(shí)驗(yàn)結(jié)果對(duì)比
微博轉(zhuǎn)發(fā)行為是實(shí)現(xiàn)信息傳播的重要方式,微博轉(zhuǎn)發(fā)預(yù)測(cè)對(duì)微博影響力分析、微博話題分析具有重要價(jià)值?,F(xiàn)有微博轉(zhuǎn)發(fā)預(yù)測(cè)研究大多圍繞消息屬性、用戶(hù)屬性等微博自身特征。本文融合背景熱點(diǎn)話題研究了外部熱點(diǎn)話題對(duì)用戶(hù)轉(zhuǎn)發(fā)行為的影響,并對(duì)影響因素進(jìn)行量化分析,提出了融合背景熱點(diǎn)信息的轉(zhuǎn)發(fā)興趣、轉(zhuǎn)發(fā)活躍度、行為模式等特征。根據(jù)熱點(diǎn)話題前期用戶(hù)的轉(zhuǎn)發(fā)行為,預(yù)測(cè)用戶(hù)是否會(huì)轉(zhuǎn)發(fā)熱點(diǎn)話題相關(guān)的微博。并基于分類(lèi)算法建立了面向熱點(diǎn)話題相關(guān)微博的轉(zhuǎn)發(fā)預(yù)測(cè)模型,在真實(shí)數(shù)據(jù)上的實(shí)驗(yàn)結(jié)果表明,本文方法的預(yù)測(cè)準(zhǔn)確性達(dá)到96.6%,提升幅度最高達(dá)到12.14%。通過(guò)引入背景熱點(diǎn)話題內(nèi)容和傳播趨勢(shì)特征,能夠有效提升用戶(hù)轉(zhuǎn)發(fā)行為預(yù)測(cè)準(zhǔn)確性。在未來(lái)工作中,可以進(jìn)一步改進(jìn)熱點(diǎn)話題內(nèi)容表示方法,以及熱點(diǎn)話題內(nèi)容和用戶(hù)興趣相似性度量方法,進(jìn)一步提高預(yù)測(cè)效果。
[1] KortLou.微博(微型博客).百度百科.http://baike.baidu.com/link?url=Qsdt8nZWb5Q_iTpNaS41Wl-K2ZxMJeaUC8g9cuHWpK2V01Grlj6wiUx7C4170CT-m2988GAfKuQoMHuWdmq1V65C0zVgKyuU1qMYl-Z44yMBe_,2015-11-29
[2] Petrovic S,Osborne M,Lavrenko V.RT to Win!Predicting Message Propagation in Twitter[C]//Proceedings of the ICWSM.2011.
[3] Galuba W,Aberer K,Chakraborty D,et al.Outtweeting the twitterers-predicting information cascades in microblogs[C]//Proceedings of the 3rd conference on Online social networks.2010,39(12):3aAS3.
[4] 李英樂(lè),于洪濤,劉力雄.基于SVM的微博轉(zhuǎn)發(fā)規(guī)模預(yù)測(cè)方法[J].計(jì)算機(jī)應(yīng)用研究,2013,30(9):2594-2597.
[5] 曹玖新,吳江林,石偉,等.新浪微博網(wǎng)信息傳播分析與預(yù)測(cè)[J].計(jì)算機(jī)學(xué)報(bào),2014,37(4):779-790.
[6] Kanavos A,Perikos I,Vikatos P,et al.Modeling ReTweet Diffusion Using Emotional Content[M].Artificial Intelligence Applications and Innovations.Springer Berlin Heidelberg,2014:101-110.
[7] Ma H,Qian W,Xia F,et al.Towards modeling popularity of microblogs[J].Frontiers of Computer Science Selected Publications from Chinese Universities,2013,7(2):171-184.
[8] Ying-Le L I,Hong-Tao Y U,Liu L X.Predict algorithm of micro-blog retweet scale based on SVM[J].Application Research of Computers,2013,30(9):2594-2597.
[9] Zhang Y,Rong L U,Yang Q.Predicting Retweeting in Microblogs[J].Journal of Chinese Information Processing,2012,26(4):109-108.
[10] Pastor-Satorras R,Vespignani A.Epidemic dynamics and endemic states in complex networks[J].Phys.rev.e,2001,63(6):138-158.
[11] Pastor-Satorras R,Vespignani A.Epidemic spreading in scale-free networks.[J].Physical Review Letters,2001,86(14):3200-3203.
[12] Boyd D,Golder S,Lotan G.Tweet,Tweet,Retweet:Conversational Aspects of Retweeting on Twitter[C]//Proceedings of the Hawaii International Conference on.IEEE,2010:1-10.
[13] Suh B,Hong L,Pirolli P,et al.Want to be Retweeted?Large Scale Analytics on Factors Impacting Retweet in Twitter Network[C]//Proceedings of the 2010IEEE Second International Conference on.IEEE,2010:177-184.
[14] Yang Z,Guo J,Cai K,et al.Understanding retweeting behaviors in social networks[C]//Proceedings of the 19th ACM International fConference on Informa-tion and Knowledge Management.ACM,2010:1633-1636.
[15] Jiang Y,Counts S.Predicting the Speed,Scale,and Range of Information Diffusion in Twitter[J].ICWSM,2010,10:355-358.
[16] Hong L,Dan O,Davison B D.Predicting popular messages in twitter[C]//Proceedings of the 20th international conference companion on World wide web.ACM,2011:57-58.
[17] Bandari R,Asur S,Huberman B A.The Pulse of News in Social Media:Forecasting Popularity[J].Sixth International Aaai Conference on Weblogs &Social Media,2012.
[18] Ma Z,Sun A,Cong G.On predicting the popularity of newly emerging hashtags in twitter[J].Journal of the American Society for Information Science and Technology,2013,64(7):1399-1410.
[19] Szabo G,Huberman B A.Predicting the popularity of online content[J].Communications of the ACM,2010,53(8):80-88.
[20] Yang J,Leskovec J.Modeling information diffusion in implicit networks[C]//Proceedings of the 2010 IEEE 10th International Conference on.IEEE,2010:599-608.
[21] Music0007.興趣.百度百科.http://baike.baidu.com/subview/45281/8045345.htm#viewPageContent,2015-11-30.
[22] 宗成慶.統(tǒng)計(jì)自然語(yǔ)言處理[M].北京:清華大學(xué)出版社,2008.