劉 列,邢千里,劉奕群,張 敏,馬少平
(清華大學(xué) 智能技術(shù)與系統(tǒng)國家重點(diǎn)實(shí)驗(yàn)室,清華信息科學(xué)與技術(shù)國家實(shí)驗(yàn)室(籌),清華大學(xué) 計(jì)算機(jī)系,北京 100084)
社交網(wǎng)絡(luò)用戶標(biāo)簽預(yù)測研究
劉 列,邢千里,劉奕群,張 敏,馬少平
(清華大學(xué) 智能技術(shù)與系統(tǒng)國家重點(diǎn)實(shí)驗(yàn)室,清華信息科學(xué)與技術(shù)國家實(shí)驗(yàn)室(籌),清華大學(xué) 計(jì)算機(jī)系,北京 100084)
隨著社交網(wǎng)站的流行以及用戶的大規(guī)模增加,社交網(wǎng)絡(luò)用戶行為分析已經(jīng)成為社交網(wǎng)站進(jìn)行網(wǎng)站維護(hù)、性能優(yōu)化和系統(tǒng)升級的重要基礎(chǔ),也是網(wǎng)絡(luò)知識挖掘和信息檢索的重要研究領(lǐng)域。為了更好地理解社交網(wǎng)絡(luò)用戶添加個(gè)人標(biāo)簽的行為特征,該文基于大約263萬個(gè)微博用戶的真實(shí)數(shù)據(jù),對用戶標(biāo)簽的分布進(jìn)行了研究和分析。我們主要考察了用戶標(biāo)簽的宏觀分布特征,以及用戶標(biāo)簽與關(guān)注對象的標(biāo)簽分布之間的聯(lián)系,發(fā)現(xiàn)微博用戶給自己添加標(biāo)簽時(shí),在開始階段傾向于使用反映個(gè)性的標(biāo)簽,之后會出于從眾心理而選用大眾化標(biāo)簽。我們將研究發(fā)現(xiàn)運(yùn)用到基于關(guān)注關(guān)系的標(biāo)簽預(yù)測算法中,結(jié)果證實(shí)相關(guān)分析對于社交網(wǎng)站的標(biāo)簽推薦等課題具有一定的參考意義。
社交網(wǎng)絡(luò);用戶行為分析;標(biāo)簽預(yù)測
近幾年,國內(nèi)外互聯(lián)網(wǎng)上逐漸興起一大批社交網(wǎng)站,在國外以Twitter、Facebook為代表,在國內(nèi)則以新浪微博、騰訊微博、人人網(wǎng)等為代表,隨著用戶規(guī)模的不斷擴(kuò)大,這些網(wǎng)站逐步成為眾多網(wǎng)民獲取信息、發(fā)表意見、制造輿論的主要途徑。以微博為例,據(jù)最新CNNIC統(tǒng)計(jì)報(bào)告顯示[1],截至2012年12月底,中國微博用戶規(guī)模達(dá)3.09億,較2011年底增長5 873萬,增幅達(dá)到23.5%,網(wǎng)民中的微博用戶比例由2011年底的48.7%增長到2012年底的54.7%。微博已經(jīng)成為了中國網(wǎng)民使用的主流應(yīng)用,龐大的用戶規(guī)模進(jìn)一步鞏固了其網(wǎng)絡(luò)輿論傳播中心的地位。
如何為用戶提供優(yōu)質(zhì)的服務(wù),幫助用戶及時(shí)高效地獲取所需信息,最大規(guī)模地吸引用戶群,一直是社交網(wǎng)站所關(guān)注的重點(diǎn)。用戶行為分析是了解用戶行為習(xí)慣和使用意圖的主要方法之一。社交網(wǎng)站提供的服務(wù)多種多樣,導(dǎo)致用戶行為的種類也具有多樣性,常見的用戶行為包括發(fā)布原創(chuàng)信息、轉(zhuǎn)發(fā)、評論、添加標(biāo)簽等,這也進(jìn)一步導(dǎo)致了用戶信息的復(fù)雜多樣。針對其中一種或多種信息進(jìn)行分析,均可以挖掘出許多有價(jià)值的發(fā)現(xiàn),而本文則主要著眼于對用戶添加個(gè)人標(biāo)簽的行為特征進(jìn)行分析。個(gè)人標(biāo)簽是用戶根據(jù)自身情況對自己標(biāo)注的文本內(nèi)容,可以反映用戶的身份、特長、愛好、專業(yè)領(lǐng)域等信息,多為字?jǐn)?shù)較少的詞或者短語。研究用戶標(biāo)簽的分布特征,可以為社交網(wǎng)站的標(biāo)簽推薦、專家搜索、用戶分類等應(yīng)用提供一定參考。
本文通過對大約263萬個(gè)微博用戶的信息進(jìn)行分析,主要研究兩個(gè)方面的特征:一是用戶標(biāo)簽分布的宏觀特征;二是用戶標(biāo)簽與其關(guān)注對象的標(biāo)簽分布之間的聯(lián)系。與以往工作不同的是,我們在分析過程中,重點(diǎn)考察了用戶標(biāo)簽列表不同位置上的標(biāo)簽分布情況。通過分析,我們希望能夠了解用戶添加個(gè)人標(biāo)簽的行為特點(diǎn),為社交網(wǎng)站相關(guān)應(yīng)用的算法優(yōu)化提供一定依據(jù)和方向。
以下內(nèi)容首先介紹了本研究課題的相關(guān)工作;然后介紹了新浪微博的個(gè)人標(biāo)簽功能和本研究使用的數(shù)據(jù)集;接著,從兩個(gè)方面對用戶標(biāo)簽的分布進(jìn)行特征分析;再嘗試將相關(guān)發(fā)現(xiàn)運(yùn)用到基于關(guān)注關(guān)系的標(biāo)簽預(yù)測算法中;最后給出工作總結(jié)和啟示。
近幾年,對于社交網(wǎng)絡(luò)的相關(guān)研究一直是國內(nèi)外信息檢索領(lǐng)域的熱門課題。國外學(xué)者在做相關(guān)研究時(shí)大多以Twitter作為研究對象,而國內(nèi)學(xué)者則比較喜歡用新浪微博作為研究對象。盡管Twitter和新浪微博在功能上有很多相似之處,但也存在一些差異,比如Twitter提供了話題標(biāo)簽功能,卻沒有提供個(gè)人標(biāo)簽功能,而新浪微博則同時(shí)向用戶提供了話題標(biāo)簽和個(gè)人標(biāo)簽功能。這也導(dǎo)致在標(biāo)簽預(yù)測方面的研究主要是針對文檔標(biāo)簽或者資源標(biāo)簽[2-3],針對用戶標(biāo)簽的研究則相對較少。
許多關(guān)于社交網(wǎng)絡(luò)的研究是通過建立反映用戶興趣的描述文檔,對用戶進(jìn)行個(gè)性化的內(nèi)容推薦或好友推薦,因此,如何建立準(zhǔn)確的描述文檔對于個(gè)性化服務(wù)的質(zhì)量有著重要的影響。一般建立用戶文檔的方法是從用戶發(fā)布的內(nèi)容中提取關(guān)鍵詞,如Weng[4]等人在TwitterRank中使用的topic model,或者根據(jù)他人對某個(gè)用戶的描述建立關(guān)鍵詞列表,如Ghosh[5]等人使用Twitter的list功能建立專家搜索系統(tǒng)。這些方法都是從側(cè)面建立用戶描述,并沒有使用用戶對自己的描述信息,導(dǎo)致結(jié)果會出現(xiàn)一定偏差。而新浪微博提供的個(gè)人標(biāo)簽功能可以看做是用戶感興趣話題的直接反映,因此研究用戶的個(gè)人標(biāo)簽對于建立更準(zhǔn)確的用戶描述有重要意義。2011年,陳淵[6]等人針對微博用戶提出了一種標(biāo)簽推薦方法,他們根據(jù)用戶的關(guān)注人數(shù)、粉絲人數(shù)和發(fā)布的微博數(shù)對用戶群體進(jìn)行分類,針對不同群體分別使用關(guān)注對象的標(biāo)簽集合、粉絲的標(biāo)簽集合或從微博中提取的關(guān)鍵詞等作為標(biāo)簽推薦的依據(jù)。他們針對個(gè)別用戶進(jìn)行了實(shí)驗(yàn),結(jié)果表明這種方法具有一定的效果。與以往工作不同的是,本文主要分析了用戶添加個(gè)人標(biāo)簽的行為特征,特別是針對不同位置的標(biāo)簽分布進(jìn)行分析,相關(guān)發(fā)現(xiàn)可以為進(jìn)一步的標(biāo)簽預(yù)測、專家尋找、用戶分類等研究提供一定的參考依據(jù)。
本研究使用的用戶數(shù)據(jù)集是在2011年9月至2012年5月之間抓取的2 631 061個(gè)新浪微博用戶信息,包含用戶的ID、個(gè)人標(biāo)簽、關(guān)注關(guān)系等。新浪微博雖然為用戶提供了添加個(gè)人標(biāo)簽的功能,但限制每個(gè)標(biāo)簽最多包含七個(gè)中文字符,且每個(gè)用戶最多只能添加十個(gè)個(gè)人標(biāo)簽。比如創(chuàng)新工場CEO李開復(fù)先生(微博地址: http://weibo.com/kaifulee)為自己添加的十個(gè)標(biāo)簽是“風(fēng)險(xiǎn)投資”、“微博控”、“創(chuàng)新工場”、“教育”、“科技”、“電子商務(wù)”、“移動互聯(lián)網(wǎng)”、“創(chuàng)業(yè)”、“IT互聯(lián)網(wǎng)”、“世界因你不同”。
圖1展示了數(shù)據(jù)集中擁有不同數(shù)量標(biāo)簽的用戶所占比例。
由圖1可以看到,大約40%的用戶給自己添加了至少一個(gè)標(biāo)簽。而在有標(biāo)簽的用戶集合中,有一至九個(gè)標(biāo)簽的用戶數(shù)目分布比較平均,而有十個(gè)標(biāo)簽的用戶則相對較多,占有標(biāo)簽用戶的20%左右??梢圆聹y,一個(gè)用戶在填寫或者修改個(gè)人標(biāo)簽信息時(shí),如果看到了新浪微博提示的“最多十個(gè)標(biāo)簽”,便會不自覺地給自己添加滿十個(gè)標(biāo)簽,使有限的“資源”得到充分利用。
基于上述數(shù)據(jù)集合,我們可以從多種角度對微博用戶的標(biāo)簽分布進(jìn)行深入的分析和研究,考察社交網(wǎng)絡(luò)用戶添加個(gè)人標(biāo)簽的行為特征。注意,為了避免英文字母的大小寫影響分析結(jié)果,我們在分析之前將數(shù)據(jù)集中的英文字母統(tǒng)一做了小寫處理。
圖1 擁有不同數(shù)量標(biāo)簽的用戶所占比例
4.1 用戶標(biāo)簽的宏觀分布分析
由于微博用戶在添加個(gè)人標(biāo)簽時(shí),除了字?jǐn)?shù)限制外,在內(nèi)容上并沒有嚴(yán)格的限制,所以不同用戶添加的標(biāo)簽在內(nèi)容上可能會多種多樣。同時(shí),有一些標(biāo)簽可能會出現(xiàn)在許多用戶的標(biāo)簽列表中,被大量用戶共享。我們首先從以下幾個(gè)角度分析用戶標(biāo)簽分布的宏觀特征。
4.1.1 不同標(biāo)簽的標(biāo)簽數(shù)分布
經(jīng)過統(tǒng)計(jì),數(shù)據(jù)集中的所有用戶共有標(biāo)簽 6 395 232個(gè),平均每個(gè)用戶有2.43個(gè)標(biāo)簽。除去重復(fù)的標(biāo)簽,數(shù)據(jù)集中共包含900 119種不同的標(biāo)簽。這些不同的標(biāo)簽在數(shù)據(jù)集中出現(xiàn)的次數(shù)差異很大,比如出現(xiàn)次數(shù)最多的標(biāo)簽“音樂”共出現(xiàn)了195 542次,而僅出現(xiàn)一次的標(biāo)簽則有698 275種,占所有不同種類標(biāo)簽的77.58%。圖2顯示了不同種類標(biāo)簽出現(xiàn)次數(shù)的分布。
圖2 用戶標(biāo)簽出現(xiàn)次數(shù)分布
由圖2可以看出,除去一些出現(xiàn)次數(shù)較多的標(biāo)簽,大多數(shù)標(biāo)簽出現(xiàn)的次數(shù)與標(biāo)簽種類數(shù)呈指數(shù)分布關(guān)系。絕大部分標(biāo)簽出現(xiàn)次數(shù)很少,我們將這些標(biāo)簽視為少數(shù)用戶特有的“個(gè)性標(biāo)簽”,例如,有96.23%的標(biāo)簽僅出現(xiàn)了十次或十次以下;另一小部分標(biāo)簽在數(shù)據(jù)集中則大量出現(xiàn),被許多用戶共享,我們將這些標(biāo)簽視為“大眾標(biāo)簽”。表1給出了在數(shù)據(jù)集中出現(xiàn)次數(shù)最多的十種大眾標(biāo)簽,及它們的出現(xiàn)次數(shù)在所有標(biāo)簽總數(shù)中所占的比例。
由表1可以看到,大眾標(biāo)簽大多是大家普遍關(guān)注的話題,比如電影、美食等,而且多與娛樂、休閑有關(guān)。僅前十種大眾標(biāo)簽就占了所有標(biāo)簽的20%左右,可見其出現(xiàn)次數(shù)之多。
表1 出現(xiàn)次數(shù)最多的10種標(biāo)簽
4.1.2 不同位置的標(biāo)簽熵
我們在研究過程中發(fā)現(xiàn),用戶標(biāo)簽列表不同位置上的標(biāo)簽分布是不同的,而且存在一定規(guī)律性。為了觀察用戶標(biāo)簽列表的不同位置上標(biāo)簽的分布差異,我們將有標(biāo)簽的用戶按照標(biāo)簽數(shù)(1至10個(gè))進(jìn)行分類,計(jì)算了每一類用戶在不同位置上的標(biāo)簽熵。計(jì)算公式如式(1)所示。
(1)
其中,假設(shè)一個(gè)集合中共有n個(gè)不同的標(biāo)簽,pi代表第i個(gè)標(biāo)簽在該集合中出現(xiàn)的頻率。
圖3顯示了在數(shù)據(jù)集上求標(biāo)簽熵的結(jié)果。圖中每條曲線代表擁有特定標(biāo)簽數(shù)的一類用戶,橫軸代表標(biāo)簽在用戶標(biāo)簽列表中所處的位置。
圖3 標(biāo)簽列表中不同位置的標(biāo)簽熵
觀察圖3中的每一條曲線可以看到,對于每一類用戶而言,隨著標(biāo)簽位置由前至后,標(biāo)簽熵呈現(xiàn)明顯遞減的趨勢。這說明在用戶標(biāo)簽列表中,靠前的位置標(biāo)簽的分布比靠后的位置更加離散。而比較圖2中不同曲線的高低可以看到,對于同一標(biāo)簽位置而言,基本上標(biāo)簽數(shù)越多的用戶群對應(yīng)的標(biāo)簽熵越高。說明標(biāo)簽數(shù)越多的用戶群在某一位置上的標(biāo)簽分布相對離散,而標(biāo)簽數(shù)少的用戶在同一位置上的標(biāo)簽分布則相對集中。猜測其原因,可能是用戶標(biāo)簽列表中位置靠前的標(biāo)簽包含更多反映用戶特點(diǎn)或者個(gè)性的標(biāo)簽,而靠后的標(biāo)簽則包含更多大眾化的標(biāo)簽,進(jìn)一步猜想,用戶在添加個(gè)人標(biāo)簽時(shí),在開始階段會傾向于添加個(gè)性標(biāo)簽,而之后則會出于從眾心理添加大眾化的標(biāo)簽。為了更好地證實(shí)這一猜想,下面一節(jié)我們將舉例統(tǒng)計(jì)大眾標(biāo)簽在用戶標(biāo)簽列表不同位置所占的比例。
4.1.3 不同位置的大眾標(biāo)簽比例
我們以表1中的大眾標(biāo)簽為例,統(tǒng)計(jì)了在標(biāo)簽列表的不同位置上,排名前幾位的標(biāo)簽出現(xiàn)次數(shù)在該位置所有標(biāo)簽個(gè)數(shù)中所占的比例之和,結(jié)果如圖4所示。圖中sum3、sum5、sum10分別代表在表1中排名前三、前五、前十的標(biāo)簽所占的比例之和。
觀察圖4可以看出,在標(biāo)簽列表越靠后的位置,大眾標(biāo)簽在數(shù)量上所占的比例越大, 而且基本呈現(xiàn)隨位置線性增長的趨勢。這也符合之前的猜想,即用戶在給自己添加標(biāo)簽時(shí),在添加完反映個(gè)性的標(biāo)簽后,會傾向于使用大眾化的標(biāo)簽填充自己標(biāo)簽列表。
4.2 用戶標(biāo)簽與其關(guān)注對象的標(biāo)簽分布之間的關(guān)系分析
圖4 若干流行標(biāo)簽(如表1所示)在不同位置的分布情況
上面我們分析了用戶標(biāo)簽宏觀分布的一些特征,下面我們通過分析用戶標(biāo)簽與其關(guān)注對象的標(biāo)簽分布之間的關(guān)系,進(jìn)一步考察用戶添加個(gè)人標(biāo)簽的行為特征。
4.2.1 用戶標(biāo)簽在其關(guān)注對象的標(biāo)簽集合中出現(xiàn)的情況
新浪微博作為一個(gè)社交平臺, 其最大的特色就是用戶可以自由地關(guān)注感興趣的其他用戶,并隨時(shí)瀏覽關(guān)注對象發(fā)布的微博。因此關(guān)注關(guān)系在一定程度上說明了用戶之間的相似性,而這種相似性也可能體現(xiàn)在用戶標(biāo)簽上。我們對擁有不同標(biāo)簽數(shù)的用戶群分別統(tǒng)計(jì)了平均每個(gè)用戶有多少比例的標(biāo)簽會出現(xiàn)在其關(guān)注對象的標(biāo)簽集合中,作為對比,我們對每個(gè)用戶隨機(jī)選取了和其關(guān)注對象個(gè)數(shù)相等的若干非關(guān)注對象,并做了相同的統(tǒng)計(jì)。圖5顯示了統(tǒng)計(jì)結(jié)果。
從圖5中可以看出,無論一個(gè)用戶的標(biāo)簽數(shù)是多少,基本上其將近一半的個(gè)人標(biāo)簽會出現(xiàn)在關(guān)注對象的標(biāo)簽集合中,對其標(biāo)簽與非關(guān)注對象的標(biāo)簽的重復(fù)度僅為30%左右,這反映了具有關(guān)注關(guān)系的用戶在興趣、專業(yè)等方面存在一定的相似性。
圖5 用戶標(biāo)簽在其關(guān)注對象和非關(guān)注對象的標(biāo)簽中出現(xiàn)的平均比例
4.2.2 不同位置的標(biāo)簽在用戶關(guān)注對象的標(biāo)簽集合中出現(xiàn)的情況
為了進(jìn)一步考察用戶標(biāo)簽和關(guān)注對象的標(biāo)簽分布之間的關(guān)系,我們對擁有特定標(biāo)簽數(shù)(1—10個(gè))的用戶群,分別統(tǒng)計(jì)了在標(biāo)簽列表不同位置上的標(biāo)簽出現(xiàn)在其關(guān)注對象標(biāo)簽集合中的平均比例和平均次數(shù),結(jié)果如圖6和圖7所示。圖中每條曲線代表擁有特定標(biāo)簽數(shù)的一類用戶,橫軸代表標(biāo)簽在用戶標(biāo)簽列表中所處的位置。
觀察圖6和圖7可以看出,對于一個(gè)用戶而言,他的標(biāo)簽列表中位置越靠后的標(biāo)簽,在其關(guān)注對象的標(biāo)簽集合中出現(xiàn)的可能性越大,而且出現(xiàn)的平均次數(shù)也比位置靠前的標(biāo)簽多。還可以觀察到,圖6和圖7中的曲線基本都呈現(xiàn)出近似的線性上升趨勢。結(jié)合4.1.3的分析,某一位置的大眾標(biāo)簽所占比例會隨著位置由前至后近似線性增加,而相對于個(gè)性標(biāo)簽,大眾標(biāo)簽更可能被有關(guān)注關(guān)系的用戶共享,這也就導(dǎo)致了上述兩幅圖中的曲線呈現(xiàn)出近似線性上升的趨勢。這一結(jié)果進(jìn)一步說明了用戶在添加個(gè)人標(biāo)簽時(shí),會傾向于先添加個(gè)性標(biāo)簽,而越往后則越傾向于使用大眾標(biāo)簽。
為了更好地觀察上述發(fā)現(xiàn)對于社交網(wǎng)絡(luò)用戶的標(biāo)簽預(yù)測等工作的參考意義,本文提出了一種基于關(guān)注關(guān)系的標(biāo)簽預(yù)測算法,并通過比較說明上述發(fā)現(xiàn)的應(yīng)用價(jià)值。
5.1 基于關(guān)注關(guān)系的標(biāo)簽預(yù)測算法
算法的基本思想是使用微博用戶所有關(guān)注對象的標(biāo)簽集合作為依據(jù)對用戶做標(biāo)簽預(yù)測,同時(shí)將用戶標(biāo)簽列表不同位置的標(biāo)簽分布特征考慮進(jìn)預(yù)測過程。
具體而言,假設(shè)用戶A關(guān)注了n個(gè)用戶B1、B2、……、Bn。其中,用戶Bi有m個(gè)標(biāo)簽,按照在Bi標(biāo)簽列表中的先后順序依次記為Ti,1、Ti,2、……、Ti,m,m的取值范圍是1~10。對標(biāo)簽Ti,j按照式(2)賦予權(quán)重:
(2)
其中,α為可變系數(shù)。按照式(2),Bi的標(biāo)簽所得到的權(quán)重會隨著位置由前至后線性增加,而Bi的所有標(biāo)簽獲得的權(quán)重之和正好等于Bi的標(biāo)簽個(gè)數(shù)m。
將A所有關(guān)注對象的標(biāo)簽集合中相同標(biāo)簽獲得的權(quán)重累加,并根據(jù)最終得到的標(biāo)簽權(quán)重對用戶A所有關(guān)注對象的標(biāo)簽按權(quán)重由高到低進(jìn)行排序,取權(quán)重較高的若干標(biāo)簽作為預(yù)測結(jié)果。
5.2 三種作為對照的標(biāo)簽預(yù)測算法
? 對照算法一:在5.1算法的基礎(chǔ)上使用權(quán)重如式(3)所示。
(3)
? 對照算法二:在5.1算法的基礎(chǔ)上使用權(quán)重如式(4)所示。
(4)
? 對照算法三:將在全體數(shù)據(jù)集中出現(xiàn)次數(shù)最多的若干大眾標(biāo)簽按照出現(xiàn)次數(shù)由多到少排序,作為預(yù)測結(jié)果。
其中,前兩種對照算法是在5.1算法的基礎(chǔ)上改變權(quán)重公式得到的。按照式(3),Bi的所有標(biāo)簽會得到相同的權(quán)重1;按照式(4),Bi的標(biāo)簽所得到的權(quán)重會隨著位置由前至后線性減小。兩個(gè)公式均保證Bi的所有標(biāo)簽獲得的權(quán)重之和等于m。
5.3 算法預(yù)測結(jié)果與分析
對于有特定標(biāo)簽數(shù)(1~10個(gè))的每一類用戶群,我們都從數(shù)據(jù)集中隨機(jī)抽取了1萬個(gè)用戶作為測試樣本。使用5.1算法和5.2中提到的三種對照算法對測試集中的10萬個(gè)用戶做標(biāo)簽預(yù)測,限制最多預(yù)測30個(gè)標(biāo)簽。
我們將預(yù)測結(jié)果與用戶的原始標(biāo)簽(預(yù)測標(biāo)簽屬于原始標(biāo)簽集合則視為正確結(jié)果)比較,計(jì)算了三種方法的MAP值(Mean Average Precision),結(jié)果如圖8所示(α=0.2,β=1)。圖中MAP0、MAP1、MAP2和MAP3分別代表使用5.1算法、對照算法一、對照算法二和對照算法三得到的預(yù)測結(jié)果的MAP值。圖中橫軸代表用戶的標(biāo)簽數(shù)。
圖8 具有不同標(biāo)簽數(shù)的用戶預(yù)測結(jié)果的MAP
對比圖8中MAP0、MAP1、MAP2的值可以看出,使用式(2)得到的預(yù)測效果最好,式(3)次之,式(4)最差。MAP0是在MAP1的基礎(chǔ)上使用戶標(biāo)簽列表中位置靠后的標(biāo)簽獲得較高的權(quán)重得到的預(yù)測結(jié)果,結(jié)合上文對用戶添加標(biāo)簽的行為特征的分析,可以發(fā)現(xiàn)MAP0的計(jì)算過程會使位置靠后的大眾標(biāo)簽獲得更高的權(quán)重,從而被“正確”地預(yù)測出來或者在預(yù)測結(jié)果的列表中獲得更高的排序,因此使用式(2)得到的MAP值要高于使用式(3)得到的結(jié)果。而使用式(4)則會使位置靠后的大眾標(biāo)簽獲得較低的權(quán)重,同時(shí)位置靠前的個(gè)性標(biāo)簽得到較高的權(quán)重,因此預(yù)測結(jié)果的MAP值低于另外兩種方法。
但是,整體而言,這三種基于關(guān)注關(guān)系的預(yù)測算法做標(biāo)簽預(yù)測的效果均不理想,MAP值都在0.1至0.18之間。對比MAP0和MAP3可以發(fā)現(xiàn),除了對標(biāo)簽數(shù)小于3的用戶做預(yù)測的結(jié)果差別較大外,二者基本相同,MAP0略高于MAP3。這說明5.1算法預(yù)測出的正確標(biāo)簽大多都是大眾標(biāo)簽。
本文通過對以新浪微博為代表的社交網(wǎng)絡(luò)用戶數(shù)據(jù)的分析,研究了用戶在社交網(wǎng)絡(luò)環(huán)境下添加個(gè)人標(biāo)簽的行為特征,挖掘了用戶標(biāo)簽分布的宏觀特征、用戶標(biāo)簽與其關(guān)注對象的標(biāo)簽分布之間的關(guān)系等。經(jīng)過分析,我們發(fā)現(xiàn),在系統(tǒng)限制了標(biāo)簽個(gè)數(shù)的情況下,大多數(shù)用戶會傾向于添加標(biāo)簽到不能再添加為止。而在添加標(biāo)簽的過程中,用戶在開始階段一般會添加一些反映個(gè)人身份、專業(yè)特長、興趣愛好等信息的個(gè)性標(biāo)簽,而在最后則會處于從眾心理,選擇一些大眾化的標(biāo)簽填充自己的標(biāo)簽列表。這導(dǎo)致了用戶標(biāo)簽在標(biāo)簽列表不同位置上分布的差異性——位置靠前的標(biāo)簽更可能是個(gè)性標(biāo)簽,而位置靠后的標(biāo)簽則更可能是大眾標(biāo)簽。我們將此發(fā)現(xiàn)運(yùn)用在一個(gè)基本的基于關(guān)注關(guān)系的標(biāo)簽預(yù)測過程中,結(jié)果顯示這一發(fā)現(xiàn)對于提高標(biāo)簽預(yù)測的準(zhǔn)確率有一定的參考價(jià)值。如果要將這一發(fā)現(xiàn)運(yùn)用于社交網(wǎng)絡(luò)中的專家搜索,可以想象,在設(shè)計(jì)算法的過程中,應(yīng)該更加重視用戶標(biāo)簽列表中位置靠前的標(biāo)簽,因?yàn)檫@些標(biāo)簽更能反映用戶的專業(yè)、特長等信息。
研究社交網(wǎng)絡(luò)用戶添加個(gè)人標(biāo)簽的行為特征以及用戶標(biāo)簽的分布特點(diǎn),對于社交網(wǎng)絡(luò)的標(biāo)簽預(yù)測、專家用戶推薦、用戶分類等課題的研究均有一定的參考意義,也能夠幫助社交網(wǎng)站改進(jìn)算法,向用戶提供更優(yōu)質(zhì)的服務(wù)。在今后的工作中,我們將進(jìn)一步挖掘用戶標(biāo)簽的相關(guān)信息,并嘗試將發(fā)現(xiàn)運(yùn)用到多種實(shí)用任務(wù)中,為優(yōu)化社交網(wǎng)絡(luò)的服務(wù)提供更多的參考。
[1] 中國互聯(lián)網(wǎng)絡(luò)信息中心.第31次中國互聯(lián)網(wǎng)發(fā)展?fàn)顩r報(bào)告[R],2013.
[2] 孫憲策.基于內(nèi)容的社會標(biāo)簽推薦與分析研究[D].清華大學(xué)博士學(xué)位論文,2010.
[3] 袁柳,張龍波.基于概率主題模型的標(biāo)簽預(yù)測[J].計(jì)算機(jī)科學(xué),2011,30(7):175-180.
[4] Jianshu Weng, Ee-Peng Lim, Jing Jiang, et al. TwitterRank: finding topic-sensitive influential twitterers [C]//Proceedings of the 3rd ACM international conference on Web search and data mining (WSDM ’10). ACM, New York, NY, USA, 2010: 261-270.
[5] Saptarshi Ghosh, Naveen Sharma, Fabricio Benevenuto, et al. Cognos: crowdsourcing search for topic experts in microblogs [C]//Proceedings of the 35th international ACM SIGIR conference on research and development in information retrieval (SIGIR ’12). ACM, New York, NY, USA, 2012: 575-590.
[6] 陳淵, 林磊, 孫承杰, 等. 一種面向微博用戶的標(biāo)簽推薦方法[J].智能計(jì)算機(jī)與 應(yīng)用,2011, 1(50): 21-26.
[7] Aditya Pal, Scott Counts. Identifying topical authorities in microblogs[C]//Proceedings of the 4th ACM international conference on Web search and data mining (WSDM ’11). ACM, New York, NY, USA, 2011: 45-54.
[8] Q Vera Liao, Claudia Wagner, Peter Pirolli, et al. Understanding experts’ and novices’ expertise judgment of twitter users[C]//Proceedings of the 30th ACM conference on human factors in computing systems (SIGCHT). 2012: 2461-2464.
[9] Meeyoung Cha, Hamed Haddadi, Fabricio Benevenuto, et al. Measuring user influence in Twitter: The million follwer fallacy [C]//Proceedings of the 4th international AAAI conference on Weblogs and social media. 2010.
[10] I Weber, C Castillo. The demographics of web search [C]//Proceedings of the 33rd international ACM SIGIR conference on reaearch and develpment in information retrieval. 2010, 179: 523-530.
User Behavior Analysis of Person Tags in SNS
LIU Lie, XING Qianli, LIU Yiqun, ZHANG Min, MA Shaoping
(State Key Laboratory of Intelligent Tech. & Sys.,Tsinghua National Laboratory for Information Science and Technology, Department of Computer Science and Technology, Tsinghua University, Beijing 100084, China)
With the popularity of social network sites (SNS) and the massive increase in SNS users, the behavior analysis of SNS users is of substantial importance in website maintenance, performance optimization and system upgrade. It’s also a very important research area of network knowledge mining and information retrieval. For a better understanding of the user behaviors in adding tags for themselves in SNS, this paper analyses the distribution of user tags based on the data of about 2.63 million Weibo users. This paper investigates the macroscopic distribution characteristics of user tags, and the relation of tag distributions between a user and the people he follows. We reveal that when Weibo users add tags for themselves, they tend to use tags which can reflect their characteristics in the beginning, then, they tend to select popular tags out of a herd mentality. We applied research findings to a tag prediction algorithm based on following relationships, and the results prove that the correlation analysis provides certain reference significance to tag recommendation in social networks.
SNS; user behavior analysis; tag prediction
劉列(1991—),本科生。E?mail:lieliu213@gmail.com邢千里(1987—),博士研究生,主要研究領(lǐng)域?yàn)樾畔z索。E?mail:xingqianli@gmail.com劉奕群(1981—),博士,副教授,主要研究領(lǐng)域?yàn)樾畔z索。E?mail:yiqunliu@tsinghua.edu.cn
1003-0077(2016)02-0056-08
2013-09-15 定稿日期: 2014-03-15
TP391
A