李春英, 湯 庸, 賀超波, 湯志康, 黃泳航
(1. 華南師范大學(xué)計(jì)算機(jī)科學(xué)學(xué)院, 廣州 510631; 2. 廣東技術(shù)師范學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)中心, 廣州 510665;3. 仲愷農(nóng)業(yè)工程學(xué)院信息科學(xué)與技術(shù)學(xué)院, 廣州 510225; 4. 廣東技術(shù)師范學(xué)院計(jì)算機(jī)科學(xué)學(xué)院, 廣州 510665)
?
在線社交網(wǎng)絡(luò)用戶分析研究綜述
李春英1,2, 湯 庸1*, 賀超波3, 湯志康4, 黃泳航1
(1. 華南師范大學(xué)計(jì)算機(jī)科學(xué)學(xué)院, 廣州 510631; 2. 廣東技術(shù)師范學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)中心, 廣州 510665;3. 仲愷農(nóng)業(yè)工程學(xué)院信息科學(xué)與技術(shù)學(xué)院, 廣州 510225; 4. 廣東技術(shù)師范學(xué)院計(jì)算機(jī)科學(xué)學(xué)院, 廣州 510665)
在對(duì)國(guó)內(nèi)外在線社交網(wǎng)絡(luò)用戶分析相關(guān)研究歸納總結(jié)的基礎(chǔ)上,綜述了在線社交網(wǎng)絡(luò)用戶分析的最新進(jìn)展,主要包括通過(guò)用戶影響力和用戶偏好進(jìn)行用戶行為分析、采用隱式和顯式的分類方法對(duì)用戶屬性預(yù)測(cè)算法進(jìn)行綜述,簡(jiǎn)述了基于用戶屬性特征或(和)用戶關(guān)系拓?fù)浣Y(jié)構(gòu)的用戶分類研究進(jìn)展,并分析了動(dòng)態(tài)社交網(wǎng)絡(luò)、并行算法及社交用戶語(yǔ)義信息給在線社交網(wǎng)絡(luò)用戶分析所帶來(lái)的機(jī)遇和挑戰(zhàn),對(duì)該研究方向上的發(fā)展趨勢(shì)進(jìn)行了展望.
在線社交網(wǎng)絡(luò); 行為分析; 影響力分析; 偏好分析; 屬性預(yù)測(cè); 用戶分類
隨著網(wǎng)絡(luò)技術(shù)和智能終端的快速發(fā)展,在線社交網(wǎng)絡(luò)(Online Social Network,OSN)已成為人們?nèi)粘1夭豢缮俚墓ぞ咧唬?截至2014年12月一些日常通用的主流社交網(wǎng)絡(luò)(包括Facebook、Twitter、QQ、QQ空間、微信、Wechat、Amazon及新浪微博等)月活躍用戶之和已經(jīng)達(dá)到40億人次,超過(guò)了目前世界總?cè)丝诘囊话耄?另外,一些垂直社交網(wǎng)絡(luò)(如用于旅游、飲食、購(gòu)物、醫(yī)療、農(nóng)業(yè)和學(xué)術(shù)研究等)通過(guò)提供優(yōu)質(zhì)便捷的專業(yè)服務(wù)也吸引了眾多用戶. 實(shí)際上,OSN平臺(tái)在跨越時(shí)空限制、便捷共享信息、交友、娛樂(lè)、購(gòu)物和商務(wù)合作的同時(shí),產(chǎn)生了各種各樣的海量數(shù)據(jù). 這些迅速增長(zhǎng)的海量社交信息為社會(huì)發(fā)展和經(jīng)濟(jì)建設(shè)提供了寶貴的資源. 因此,近些年OSN受到計(jì)算機(jī)科學(xué)、物理學(xué)、數(shù)學(xué)、生物學(xué)、管理學(xué)、心理學(xué)、社會(huì)學(xué)以及復(fù)雜性系統(tǒng)科學(xué)等多學(xué)科的廣泛關(guān)注,成為科學(xué)研究者們關(guān)注的熱點(diǎn)問(wèn)題.
在線社交網(wǎng)絡(luò)服務(wù)是典型的以人為中心的計(jì)算(Human Centered Computing,HCC),用戶是在線社交網(wǎng)絡(luò)的主體[1]. 在線社交網(wǎng)絡(luò)以用戶相互建立關(guān)系為基礎(chǔ),以實(shí)名或者非實(shí)名的方式自主構(gòu)建社交關(guān)系網(wǎng)絡(luò)服務(wù). 在線社交網(wǎng)絡(luò)在為用戶提供便利的同時(shí),也帶來(lái)了用戶隱私數(shù)據(jù)泄露的問(wèn)題. 為了防止隱私數(shù)據(jù)泄露,一些社交用戶隱藏了自己的個(gè)人信息. 研究表明,社交網(wǎng)絡(luò)50%左右的用戶選擇了隱藏他們的用戶信息,近70%的用戶選擇了隱藏他們的興趣愛(ài)好[2]. 盡管社交網(wǎng)絡(luò)用戶隱藏了部分信息,但通過(guò)他們?cè)诰€創(chuàng)建的內(nèi)容、群體互動(dòng)及信息傳播等,仍可以挖掘用戶隱藏的信息,并進(jìn)一步跟蹤用戶的動(dòng)向,對(duì)維護(hù)國(guó)家信息安全、社會(huì)穩(wěn)定、經(jīng)濟(jì)發(fā)展以及改善人們的日常工作和生活等均具有積極作用. 例如,SANDRA等[3]基于在線社交網(wǎng)絡(luò)大數(shù)據(jù)研究了網(wǎng)絡(luò)抗議招募的動(dòng)態(tài)變化規(guī)律,并揭示其對(duì)政治走向的影響. TUMASJAN等[4]使用文本分析軟件LIWC(Linguistic Inquiry and Word Count)對(duì)Twitter上任何一個(gè)政黨或者政客的參考信息進(jìn)行分析,結(jié)果表明Twitter確實(shí)廣泛用于政治協(xié)商,從一個(gè)政黨少數(shù)的消息上便可以預(yù)測(cè)選舉結(jié)果. 因此,分析在線社交網(wǎng)絡(luò)用戶數(shù)據(jù),能夠準(zhǔn)確把握用戶在社交網(wǎng)絡(luò)上的行為規(guī)律和發(fā)展動(dòng)態(tài),有助于對(duì)網(wǎng)絡(luò)事件進(jìn)行分析、引導(dǎo)、監(jiān)控和為OSN用戶提供精確的個(gè)性化服務(wù),對(duì)規(guī)范社交網(wǎng)絡(luò)的管理和服務(wù),保障國(guó)家政治、經(jīng)濟(jì)和社會(huì)安全具有重要的理論研究意義和現(xiàn)實(shí)應(yīng)用價(jià)值.
社交網(wǎng)絡(luò)用戶分析是一個(gè)熱門(mén)研究領(lǐng)域,同時(shí)也是多學(xué)科交叉研究領(lǐng)域. 《Science》發(fā)表了多篇論文闡述社交網(wǎng)絡(luò)中用戶的互動(dòng)行為及其相互影響關(guān)系、社交網(wǎng)絡(luò)的隱私行為特征和動(dòng)機(jī)、社交網(wǎng)絡(luò)用戶行為預(yù)測(cè)等[5-7]. 在針對(duì)社交網(wǎng)絡(luò)用戶分析的研究中,代表性研究話題主要包括用戶行為分析、屬性預(yù)測(cè)及分類. 因此,本文將詳細(xì)闡述這3個(gè)角度的研究現(xiàn)狀,并指出目前該領(lǐng)域研究存在的問(wèn)題和挑戰(zhàn).
楊善林等[8]從在線社交網(wǎng)絡(luò)的用戶采納與持續(xù)使用行為、用戶個(gè)體使用行為和用戶群體互動(dòng)行為等3個(gè)方面對(duì)社交網(wǎng)絡(luò)用戶行為的影響因素、行為特征和一般行為規(guī)律等進(jìn)行了詳細(xì)的闡述,論述了用戶為什么使用社交網(wǎng)絡(luò)、如何使用社交網(wǎng)絡(luò)和用戶之間的互動(dòng)機(jī)理等,指出了在線社交網(wǎng)絡(luò)用戶行為在用戶行為一致性、用戶間行為的相互影響、監(jiān)管政策與用戶行為間的相互作用等方面的研究機(jī)會(huì). TANG等[9]研究OSN結(jié)構(gòu)的演化規(guī)律和信息傳播規(guī)律的理論基礎(chǔ),提出OSN用戶行為的跨學(xué)科、跨領(lǐng)域、跨機(jī)構(gòu)、跨組織的交叉研究是未來(lái)的研究模式. 實(shí)際上,社交網(wǎng)絡(luò)用戶(簡(jiǎn)稱用戶)行為主導(dǎo)著社交網(wǎng)絡(luò)的發(fā)展和演變規(guī)律,分析用戶的行為與特征,能夠?qū)?fù)雜社交網(wǎng)絡(luò)的發(fā)展與演變進(jìn)行宏觀分析. 分析結(jié)果能夠進(jìn)一步有效挖掘深層次的社交關(guān)系和社交網(wǎng)絡(luò)的發(fā)展演變規(guī)律. 目前,用戶行為分析可以粗略地分為用戶影響力分析和用戶偏好分析,用戶影響力和用戶偏好在社交網(wǎng)絡(luò)演化、信息傳播及推薦系統(tǒng)中扮演著重要角色.
1.1 用戶影響力分析
在線社交網(wǎng)絡(luò)用戶影響力在虛擬網(wǎng)絡(luò)社區(qū)、網(wǎng)絡(luò)群體、信息傳播以及話題發(fā)展趨勢(shì)中發(fā)揮著巨大的作用,能夠激發(fā)輿論、推動(dòng)話題迅速擴(kuò)散進(jìn)而導(dǎo)致社交網(wǎng)絡(luò)結(jié)構(gòu)的發(fā)展和演變以及對(duì)真實(shí)世界產(chǎn)生實(shí)質(zhì)性的影響. 近年來(lái),研究人員對(duì)用戶影響力進(jìn)行了多方面的研究探索,并取得了豐富的研究成果:研究了用戶在社交網(wǎng)絡(luò)中的影響力,在130萬(wàn)Facebook用戶數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明:年輕人比老年人更易受到影響,男人比女人更有影響力,女人在男人中的影響力比在女人中的影響力強(qiáng),已婚女士更易接受推薦的商品,有影響力的個(gè)人不易受到?jīng)]有影響力的個(gè)人的影響,有影響力的社交網(wǎng)絡(luò)用戶很可能是傳播網(wǎng)絡(luò)產(chǎn)品的工具,以及具有影響力的用戶更傾向于在彼此之間形成社交圈等[6];基于新浪微博大規(guī)模數(shù)據(jù)集,結(jié)合用戶社會(huì)影響力在微博中的傳播情況,分析用戶行為因素之間的關(guān)系,提出了通過(guò)預(yù)測(cè)用戶傳播信息能力大小來(lái)分析和度量用戶社會(huì)影響力的方法(該方法結(jié)合來(lái)自社交網(wǎng)絡(luò)結(jié)構(gòu)和用戶行為因素兩方面的信息進(jìn)行研究),實(shí)驗(yàn)結(jié)果表明用戶訪問(wèn)微博的時(shí)間分布、微博對(duì)用戶來(lái)說(shuō)的時(shí)效性以及用戶轉(zhuǎn)發(fā)微博的偏好等用戶行為相關(guān)的因素會(huì)影響用戶的轉(zhuǎn)發(fā)行為,進(jìn)而影響用戶在微博平臺(tái)上傳播信息的能力[10];基于社會(huì)影響理論探討了社會(huì)影響力的3個(gè)過(guò)程(順從、認(rèn)同和內(nèi)化)和社會(huì)影響類型(信息性影響和規(guī)范性影響),結(jié)果表明服務(wù)提供商對(duì)這3個(gè)因素的處理情況和用戶隱私保護(hù)問(wèn)題對(duì)OSN用戶持續(xù)使用意愿有顯著的影響作用[11].
目前相關(guān)研究主要從用戶在整個(gè)社交網(wǎng)絡(luò)中的影響力和社交網(wǎng)絡(luò)中用戶間相互影響的能力2個(gè)方面來(lái)度量用戶的影響力,可以從3個(gè)方面進(jìn)行闡述:
(1)基于社交網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的度量. 主要采用節(jié)點(diǎn)度量法和節(jié)點(diǎn)間關(guān)系的度量法. 在節(jié)點(diǎn)度量法中,節(jié)點(diǎn)的度在一定程度上可以表示節(jié)點(diǎn)的影響力大小,它們的方向可以表示用戶影響力或者信息傳播的方向[12]. 節(jié)點(diǎn)的出度可以理解為該節(jié)點(diǎn)對(duì)他人的影響程度或節(jié)點(diǎn)的活躍度,節(jié)點(diǎn)的入度則可以表示節(jié)點(diǎn)的受歡迎程度[13].具體度量方法主要包括度中心度[14]、介數(shù)中心度[14]、緊密中心度[15]、特征向量中心度[16]、Katz中心度[17]、PageRank度量[18]及局部聚集系數(shù)度量方法[19]等. 節(jié)點(diǎn)間關(guān)系強(qiáng)弱的度量方法可以用Jaccard相似度[20]、邊介數(shù)[21]、Overlap相似度和Cosine相似度等計(jì)算連接關(guān)系上的影響力[22]. 總體來(lái)講,依靠網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)對(duì)用戶影響力進(jìn)行度量的方法具有模型簡(jiǎn)單、計(jì)算效率高和易于應(yīng)用等特點(diǎn),但其忽略了個(gè)體的行為特征信息及個(gè)體間交互的頻度情況,導(dǎo)致這種方法的度量結(jié)果準(zhǔn)確性不佳.
(2) 基于用戶行為的度量. 通過(guò)分析在線社交用戶的行為軌跡數(shù)據(jù)(包括瀏覽/發(fā)布/轉(zhuǎn)發(fā)信息、購(gòu)買(mǎi)商品、話題評(píng)論和建立好友關(guān)系等),能夠評(píng)估用戶在社交網(wǎng)絡(luò)平臺(tái)上的影響力以及預(yù)測(cè)用戶可能產(chǎn)生的行為. XIANG等[23]在Facebook和LinkedIn數(shù)據(jù)集上利用用戶之間的交互信息和話題相似性,提出了潛在變分模型來(lái)評(píng)估用戶之間的影響強(qiáng)度. SAITO等[24]將用戶影響力模型轉(zhuǎn)化成一種最大似然問(wèn)題,并且利用期望最大化[25](Expectation Maximization,EM)算法進(jìn)行求解[12]. YANG和LESKOVEC[26]基于影響力函數(shù)和信息的談?wù)摯螖?shù)建立了一種線性影響力模型LIM(Linear Influence Model)對(duì)用戶的影響力進(jìn)行度量. TAN等[27]綜合使用網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)、用戶特征和用戶行為數(shù)據(jù)預(yù)測(cè)當(dāng)前時(shí)刻的用戶行為. 雖然基于用戶行為的方法比基于網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)方法預(yù)測(cè)精度更好,但是由于一半以上的社交網(wǎng)絡(luò)用戶選擇了隱藏個(gè)人的用戶信息[2]以及基于商業(yè)上的原因很難獲取社交網(wǎng)絡(luò)用戶的全部數(shù)據(jù),導(dǎo)致這種模型的度量效果和精度受到影響.
(3)基于話題等的度量. 在社交活動(dòng)中,大部分信息是以話題(Topic)的形式產(chǎn)生和傳播的. 話題作為社交網(wǎng)絡(luò)中信息存在的重要形式和傳播基礎(chǔ),使用話題能夠從多個(gè)角度對(duì)用戶的影響力進(jìn)行度量. 相關(guān)研究從話題內(nèi)容和用戶對(duì)話題的參與度構(gòu)建用戶和話題之間的關(guān)系. 這種模型無(wú)需使用社交網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)作為模型的輸入,解決了社交網(wǎng)絡(luò)中孤立用戶節(jié)點(diǎn)的影響力評(píng)價(jià)問(wèn)題. 相關(guān)研究方法包括:TANG等[28]提出的話題因子圖TFG(Topical Factor Graph)模型;LIU等[29]將用戶和各種話題信息相結(jié)合進(jìn)行建模,并利用文本內(nèi)容的相似性挖掘用戶之間的隱性影響;WENG等[18]提出PageRank算法的擴(kuò)展算法TwitterRank,并基于用戶和鏈接結(jié)構(gòu)兩部分信息去評(píng)估Twitter用戶的影響力;TANG等[30]利用PageRank算法對(duì)網(wǎng)絡(luò)用戶進(jìn)行打分,并將分值最高的1%的用戶作為最具影響力的用戶.
隨著社交網(wǎng)絡(luò)的快速發(fā)展,社交用戶數(shù)量呈現(xiàn)快速增長(zhǎng)的態(tài)勢(shì),導(dǎo)致用戶之間形成的社交關(guān)系錯(cuò)綜復(fù)雜、信息量非常龐大,加之涉及用戶隱私保護(hù)等問(wèn)題,對(duì)社交用戶影響力進(jìn)行分析和評(píng)測(cè)會(huì)受到很多因素的影響和干擾. 實(shí)際上,對(duì)于真實(shí)社交網(wǎng)絡(luò)可以考慮采用兩階段選擇策略,即先利用基于網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的算法篩選符合條件的影響力用戶集合,在此基礎(chǔ)上再利用基于用戶行為數(shù)據(jù)或者基于話題等方法選取真正具有影響力的社交網(wǎng)絡(luò)用戶.
1.2 用戶偏好分析
用戶偏好分析可以從計(jì)算用戶與用戶之間、用戶與物品之間的相似性來(lái)考慮. 皮爾遜相關(guān)系數(shù)[31]、余弦相似度[32]、Jaccard系數(shù)[20]和斯皮爾曼排序相關(guān)系數(shù)[33]等方法可以用于計(jì)算用戶間的相似性并將最近鄰用戶的偏好作為目標(biāo)用戶的行為預(yù)測(cè)結(jié)果. 通過(guò)在線社交網(wǎng)絡(luò)平臺(tái)用戶間交換的文本信息,文獻(xiàn)[34]提出B-LDA模型以深入挖掘用戶興趣和行為模式. B-LDA模型基于LDA(Latent Dirichlet Allocation)行為主題模型、聯(lián)合模型用戶主題興趣和行為模式,在擁有豐富用戶交互短文本內(nèi)容的微博Twitter上的實(shí)驗(yàn)結(jié)果表明,B-LDA能夠找到主導(dǎo)行為的主題以及描述行為驅(qū)動(dòng)的追隨者用戶. 文獻(xiàn)[35]基于改進(jìn)的LDA模型研究了不同年齡段的用戶與話題偏好之間的關(guān)系,發(fā)現(xiàn)了很多有意思的不同年齡階段特定的話題,并據(jù)此預(yù)測(cè)社交網(wǎng)絡(luò)用戶的年齡. 文獻(xiàn)[36]基于用戶日常移動(dòng)通信模式發(fā)現(xiàn)幾個(gè)有趣的社交現(xiàn)象,如:年輕人更積極擴(kuò)展自己的社交圈、女性比男性更注重跨代間的溝通交流,并首次發(fā)現(xiàn)在人的一生中同性三元模式更持久,而更復(fù)雜的異性三元模式僅在年輕人中有所體現(xiàn). 并通過(guò)提取用戶的個(gè)人特征,朋友特征和用戶的朋友圈特征推斷用戶的年齡和性別. 文獻(xiàn)[37]通過(guò)構(gòu)造主題模型與語(yǔ)言模型相結(jié)合的雙層模型,利用朋友關(guān)系與組織關(guān)系解決微博的個(gè)性化搜索問(wèn)題. 文獻(xiàn)[38]提出一種針對(duì)社交網(wǎng)絡(luò)用戶生成內(nèi)容和用戶關(guān)注信息的用戶偏好挖掘方法:首先通過(guò)概率潛在語(yǔ)義模型PLSA訓(xùn)練得到貼近興趣類別的話題模型,然后從訓(xùn)練結(jié)果中抽取可靠的話題并以此構(gòu)建分類器,對(duì)用戶的分享數(shù)據(jù)進(jìn)行分類,并根據(jù)分類結(jié)果對(duì)用戶的偏好進(jìn)行分析. 現(xiàn)實(shí)生活中,興趣相投的人們之間的交流更加密切,在社交網(wǎng)絡(luò)中,這種密切的社交關(guān)系會(huì)體現(xiàn)在網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)上. 文獻(xiàn)[39-41]單純使用社交網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)信息挖掘社交用戶的朋友圈(社區(qū))去預(yù)測(cè)用戶的偏好,取得了一定的效果. 另外,DEERWESTER等[42]利用潛在語(yǔ)義分析LSA(Latent Semantic Analysis)、HOFMANN[43]利用概率潛在語(yǔ)義分析PLSA(Probabilistic Latent Semantic Analysis)、BLEI等[44]提出LDA模型以及SAID等[45]針對(duì)用戶冷啟動(dòng)問(wèn)題將主題模型應(yīng)用于標(biāo)簽系統(tǒng)中提出混合PLSA模型等研究方法去計(jì)算用戶和資源之間的相似性,分析用戶的偏好進(jìn)而產(chǎn)生推薦目錄. 目前,基于社交網(wǎng)絡(luò)數(shù)據(jù)的用戶偏好分析已經(jīng)成為社交研究中的熱點(diǎn)問(wèn)題,其在電子商務(wù)、個(gè)性化產(chǎn)品推薦、輿情分析和預(yù)測(cè)等領(lǐng)域得到了廣泛的應(yīng)用.
社交網(wǎng)絡(luò)用戶的屬性信息能夠?yàn)榫W(wǎng)絡(luò)演化、用戶群組劃分、信息傳播、內(nèi)容分享及推薦系統(tǒng)等提供信息基礎(chǔ). 然而在許多真實(shí)的社交網(wǎng)絡(luò)中,相當(dāng)數(shù)量的社交網(wǎng)絡(luò)用戶只提供部分屬性信息,或者故意隱藏自己的部分屬性. 但是,基于社交網(wǎng)絡(luò)現(xiàn)實(shí)應(yīng)用需求,常常需要推測(cè)用戶未知的信息. 通過(guò)直接或間接的方式獲取用戶已知屬性、好友關(guān)系、群組關(guān)系和行為軌跡等數(shù)據(jù)來(lái)推測(cè)用戶的未知信息(隱私數(shù)據(jù)). 實(shí)際上,在社交網(wǎng)絡(luò)現(xiàn)實(shí)應(yīng)用中,屬性預(yù)測(cè)可以分為隱式方式和顯式方式. 隱式屬性預(yù)測(cè)指根據(jù)用戶可能具有某種屬性而提供精確的個(gè)性化服務(wù),而顯式屬性預(yù)測(cè)則指直接通過(guò)某種方法預(yù)測(cè)用戶可能具有的屬性.
2.1 隱式屬性預(yù)測(cè)
社交網(wǎng)絡(luò)通??梢阅P突癁閳D結(jié)構(gòu)G(V,E),其中V表示用戶節(jié)點(diǎn)集合、E表示節(jié)點(diǎn)間的連接關(guān)系(邊)的集合. 文獻(xiàn)[39-40]對(duì)學(xué)術(shù)社交網(wǎng)絡(luò)進(jìn)行圖結(jié)構(gòu)的形式化描述,利用學(xué)術(shù)社交網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)信息及標(biāo)簽傳播技術(shù)進(jìn)行社區(qū)劃分,認(rèn)為具有相同標(biāo)簽的用戶屬于同一個(gè)社區(qū). 這里的形式化標(biāo)簽指用戶具有的屬性信息,因此社區(qū)內(nèi)用戶具有相同屬性(相似的興趣). 據(jù)此對(duì)社區(qū)內(nèi)的用戶進(jìn)行相關(guān)的推薦服務(wù),并取得了較好的推薦效果. 此研究表面上看和研究用戶屬性預(yù)測(cè)不相關(guān),但實(shí)際上推薦的動(dòng)機(jī)是根據(jù)社區(qū)內(nèi)用戶具有相似屬性(興趣)的假設(shè). 我們把這類研究稱為隱式屬性預(yù)測(cè).
2.2 顯式屬性預(yù)測(cè)
本文提出的顯式屬性預(yù)測(cè)指直接挖掘用戶屬性的相關(guān)算法. 如文獻(xiàn)[46]利用交友關(guān)系和可見(jiàn)的群關(guān)系等結(jié)構(gòu)化數(shù)據(jù)來(lái)推測(cè)用戶的屬性,并指出了群組信息能夠更高精度地發(fā)現(xiàn)用戶的隱私屬性,實(shí)驗(yàn)結(jié)果證明了交友關(guān)系和可見(jiàn)的群組關(guān)系包含了大量的用戶潛在信息. 但在大部分社交網(wǎng)絡(luò)中,除了結(jié)構(gòu)化數(shù)據(jù),每個(gè)用戶還具有或多或少的屬性數(shù)據(jù),單純利用網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)信息往往不能滿足社交網(wǎng)絡(luò)用戶的精確分析需求. 因此,文獻(xiàn)[47]將用戶的屬性信息和網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)信息進(jìn)行結(jié)合,指出具有相同屬性的用戶更有可能成為朋友或者形成一個(gè)密集的社區(qū)團(tuán)體,提出了一種基于用戶已知屬性的社區(qū)發(fā)現(xiàn)方法挖掘在線社交網(wǎng)絡(luò)用戶的潛在屬性信息. 文獻(xiàn)[48]利用樸素貝葉斯分類器推測(cè)社交網(wǎng)絡(luò)用戶屬性,利用用戶的節(jié)點(diǎn)信息和節(jié)點(diǎn)間的鏈接信息(好友關(guān)系)推測(cè)社交網(wǎng)絡(luò)中用戶的政治傾向. 該文指出同時(shí)利用用戶屬性信息和用戶間的關(guān)系信息比單獨(dú)使用屬性信息具有更好的預(yù)見(jiàn)性. 文獻(xiàn)[49]首次使用鏈接預(yù)測(cè)方法發(fā)現(xiàn)用戶的屬性信息,結(jié)果表明鏈接預(yù)測(cè)方法能夠推斷用戶的未知屬性.
(1)
(2)
圖1 屬性-社交網(wǎng)絡(luò)(SAN)示例圖
(1)監(jiān)督學(xué)習(xí)算法. 傳統(tǒng)的社交用戶屬性預(yù)測(cè)采用監(jiān)督學(xué)習(xí)算法.RAO等[54-55]提出了監(jiān)督層次貝葉斯方法,從用戶姓名和用戶產(chǎn)生的文本內(nèi)容數(shù)據(jù)中抽取特征數(shù)據(jù)進(jìn)行用戶潛在屬性推測(cè). 嚴(yán)格來(lái)講,該研究屬于文本分類問(wèn)題,沒(méi)有考慮社交網(wǎng)絡(luò)的拓?fù)湫畔⒑蜕缃魂P(guān)系信息.BACKSTROM和LESKOVEC[56]提出一種監(jiān)督隨機(jī)游走(SupervisedRandomWalk,SRW)算法,利用網(wǎng)絡(luò)結(jié)構(gòu)和邊的屬性信息進(jìn)行鏈接預(yù)測(cè). 但是這種方法沒(méi)有充分利用節(jié)點(diǎn)的屬性數(shù)據(jù), 僅僅考慮相鄰節(jié)點(diǎn)的信息,如果2個(gè)節(jié)點(diǎn)不相鄰,則它們之間的屬性信息無(wú)法被使用. 文獻(xiàn)[57]采用幾個(gè)主要的監(jiān)督鏈接預(yù)測(cè)算法對(duì)SAN框架進(jìn)行了擴(kuò)展,指出預(yù)測(cè)用戶的屬性能夠提高鏈路預(yù)測(cè)的準(zhǔn)確性. 在SAN模型的屬性預(yù)測(cè)監(jiān)督算法中,屬性預(yù)測(cè)被轉(zhuǎn)換為屬性鏈接預(yù)測(cè)問(wèn)題. 算法通過(guò)為每一個(gè)正面的和反面的屬性鏈接抽取一組拓?fù)涮卣鳎?而且,正面屬性鏈接被作為正面的例子,反面屬性鏈接被作為反面例子. 算法使用支持向量機(jī)SVM(SupportVectorMachine)訓(xùn)練一個(gè)二元分類器,并應(yīng)用它推斷屬性鏈接. 但實(shí)際上,監(jiān)督學(xué)習(xí)算法通常需要較多已知類別的標(biāo)記樣本,訓(xùn)練過(guò)程中不能有效利用大量未知類別標(biāo)記數(shù)據(jù)改善訓(xùn)練效果. 對(duì)于用戶屬性數(shù)據(jù)不充分的社交網(wǎng)絡(luò),監(jiān)督學(xué)習(xí)算法會(huì)受到一定程度的限制.
(2)無(wú)監(jiān)督學(xué)習(xí)算法. 文獻(xiàn)[58]把社交網(wǎng)絡(luò)無(wú)監(jiān)督鏈路預(yù)測(cè)算法粗略地劃分為局部算法和全局度量算法. 局部算法包括CN(CommonNeighbor)[59]和AA(Adamic-Adar)[60]等. 其中,CN方法最直接的解釋是把2個(gè)節(jié)點(diǎn)擁有共同鄰居節(jié)點(diǎn)的數(shù)量定義為2個(gè)節(jié)點(diǎn)的鏈接預(yù)測(cè)評(píng)分:
score(u,v)=|Γ(u)∩Γ(v) |,
(3)
其中,Γ(u)表示節(jié)點(diǎn)u所有鄰居節(jié)點(diǎn)的集合.
AA方法用于測(cè)量2個(gè)個(gè)人主頁(yè)的相關(guān)程度,首先計(jì)算個(gè)人主頁(yè)的特征進(jìn)而以2個(gè)主頁(yè)間的共同特征為基準(zhǔn)進(jìn)行計(jì)算,計(jì)算公式如下:
(4)
其中,z表示主頁(yè)x、y的共同特征.
全局度量算法包括LRA(Low-rankApproximation)[61]和RWwR(RandomWalkwithRestart)[53]等.LRA度量方法采用鄰接矩陣M表示一個(gè)圖. 在M中,所有的鏈接預(yù)測(cè)方法都可以有一個(gè)等價(jià)的表示方式. 比如使用CN方法度量節(jié)點(diǎn)u、v之間鏈接預(yù)測(cè)的評(píng)分,并將評(píng)分結(jié)果作為鄰接矩陣M相應(yīng)行列的值.RWwR方法通過(guò)使用隨機(jī)游走算法在增強(qiáng)社交圖上預(yù)測(cè)2個(gè)節(jié)點(diǎn)間的鏈接相關(guān)性.
文獻(xiàn)[57]在其基礎(chǔ)上對(duì)代表性無(wú)監(jiān)督鏈路預(yù)測(cè)算法進(jìn)行了擴(kuò)展,提出SAN框架下的局部算法、全局算法和局部全局混合算法. 在這些無(wú)監(jiān)督SAN系列算法中僅僅使用正面的社交(屬性)鏈接進(jìn)行評(píng)分. 如,局部算法:CN-SAN算法和AA-SAN算法.CN-SAN算法使用節(jié)點(diǎn)u、v共同鄰居的權(quán)重之和作為(u,v)之間社交鏈接或者屬性鏈接的預(yù)測(cè)評(píng)分:
(5)
AA-SAN算法認(rèn)為節(jié)點(diǎn)u、v的鏈接預(yù)測(cè)評(píng)分與它們共同鄰居的權(quán)重之和成正比,而與它們共同鄰居數(shù)的log函數(shù)成反比:
(6)
而對(duì)于其中的屬性鏈接預(yù)測(cè),則與節(jié)點(diǎn)間的鏈接預(yù)測(cè)方法類似:
(7)
其中Γ+(u)表示節(jié)點(diǎn)u所有鄰居節(jié)點(diǎn)的集合,Γs+(u)表示所有通過(guò)社交鏈接(或正面屬性鏈接)到節(jié)點(diǎn)u的鄰居節(jié)點(diǎn)的集合.
SAN框架下的全局算法包括LRA-SAN算法和RWwR-SAN算法.LRA-SAN算法的相關(guān)評(píng)分計(jì)算采用奇異值矩陣分解方法(SingularValueDecomposition(SVD)). 在RWwR-SAN算法中,隨機(jī)游走使用1個(gè)固定重啟概率α返回節(jié)點(diǎn)u,從節(jié)點(diǎn)u重新啟動(dòng)并使用概率比例鏈接權(quán)重w(u,t) 迭代行走至節(jié)點(diǎn)t,節(jié)點(diǎn)t是節(jié)點(diǎn)u的鄰居節(jié)點(diǎn)之一.SAN框架下的局部全局混合算法包括CN+LRA-SAN算法和AA+LRA-SAN算法,CN+LRA-SAN算法首先使用SAN模型的CN-SAN進(jìn)行評(píng)分,然后在評(píng)分結(jié)果矩陣中使用LRA算法;AA+LRA-SAN算法則先使用模型AA-SAN進(jìn)行評(píng)分,然后在評(píng)分結(jié)果矩陣中使用LRA算法.
由于用戶隱私保護(hù)問(wèn)題以及商業(yè)上的限制,很難獲取社交網(wǎng)絡(luò)用戶非常豐富的屬性特征,這為用戶屬性預(yù)測(cè)算法的研究帶來(lái)了一定的影響和限制.
社交用戶屬性預(yù)測(cè)問(wèn)題實(shí)際上可以理解為是一個(gè)用戶分類問(wèn)題. OSN用戶分類是一個(gè)有監(jiān)督的機(jī)器學(xué)習(xí)問(wèn)題,即需要首先確定用戶的類別范圍,然后通過(guò)訓(xùn)練分類模型預(yù)測(cè)用戶的類別[62]. 在OSN中,用戶通過(guò)維護(hù)個(gè)人Profile、社會(huì)化標(biāo)簽以及發(fā)布個(gè)人動(dòng)態(tài)來(lái)積累文本內(nèi)容數(shù)據(jù). 此外,通過(guò)加好友操作可以擴(kuò)大自己的關(guān)系網(wǎng)絡(luò). 文本內(nèi)容以及關(guān)系網(wǎng)絡(luò)信息都蘊(yùn)含著用戶的個(gè)性化特征,是進(jìn)行用戶分類的主要信息來(lái)源. 目前,有一些OSN用戶分類方法基于文本內(nèi)容信息,采用成熟的文本分類模型進(jìn)行用戶分類. 例如,ZUBIAGA等[63]通過(guò)采集用戶的社會(huì)化標(biāo)簽數(shù)據(jù),并應(yīng)用支持向量機(jī)分類模型進(jìn)行分類;RAO等[54]基于用戶的Profile數(shù)據(jù),利用改進(jìn)的棧式支持向量機(jī)模型有效地對(duì)Twitter上的用戶進(jìn)行分類屬性預(yù)測(cè);PENNACCHIOTT等[64]則利用Latent Dirichlet Allocation (LDA)模型對(duì)Twitter用戶的個(gè)人動(dòng)態(tài)文本進(jìn)行建模,并基于文本分類結(jié)果預(yù)測(cè)用戶的分類屬性. 與以上利用用戶文本內(nèi)容信息進(jìn)行分類的方法不同,有一些綜合利用文本內(nèi)容和用戶關(guān)系網(wǎng)絡(luò)信息的分類方法則更多采用標(biāo)簽傳播(Label Propagation)的思想進(jìn)行用戶類別標(biāo)簽預(yù)測(cè),其基本原理是首先標(biāo)注一定比例的用戶類別標(biāo)簽,然后基于“OSN上2個(gè)互相連接的用戶之間存在類別相似性”這種源于社會(huì)學(xué)的同質(zhì)性原理(homophily)”進(jìn)行類別標(biāo)簽傳播,而這可以采用迭代推導(dǎo)算法(Iterative inference algorithm)框架實(shí)現(xiàn). 例如,NEVILLE和JENSEN[65]、KAZIENKO和KAJDANOWICZ[66]、MACSKASSY和PROVOST[67]等均采用該框架學(xué)習(xí)用戶的類別標(biāo)簽. 迭代推導(dǎo)涉及2個(gè)重要問(wèn)題:用戶類別標(biāo)簽初始化以及迭代收斂條件,其中類別標(biāo)簽初始化可以采用手工標(biāo)注或者利用傳統(tǒng)的文本分類模型確定,迭代推導(dǎo)可以在所有節(jié)點(diǎn)的類別標(biāo)簽分布都趨于穩(wěn)定時(shí)收斂. 總的來(lái)說(shuō),綜合利用用戶文本內(nèi)容以及關(guān)系網(wǎng)絡(luò)信息進(jìn)行分類的方法具有明顯優(yōu)勢(shì). 首先,只需要標(biāo)注部分節(jié)點(diǎn)的類別標(biāo)簽就可以通過(guò)“同質(zhì)性”原理預(yù)測(cè)其余節(jié)點(diǎn)的標(biāo)簽,這提高了用戶分類的效率. 其次,一些沒(méi)有文本內(nèi)容信息或者關(guān)系網(wǎng)絡(luò)信息的用戶也可以通過(guò)本地文本分類模型或者標(biāo)簽傳播獲得分類標(biāo)簽,這提高了用戶分類方法的魯棒性. 此外,融合OSN用戶文本內(nèi)容以及關(guān)系網(wǎng)絡(luò)信息進(jìn)行分類的方法具有更好的分類精度. 例如,MLCMRW方法[68]、集體分類(Collective Classification)方法[69-70]均通過(guò)實(shí)驗(yàn)證明了綜合利用2類信息可以顯著提高分類精度.
由于OSN用戶具有興趣多樣性特征,對(duì)其分類屬于多標(biāo)簽分類問(wèn)題,需要比傳統(tǒng)的單一標(biāo)簽分類模型具有更復(fù)雜的性能評(píng)價(jià)準(zhǔn)則,文獻(xiàn)[69]提出了4種較為常用的多標(biāo)簽分類性能評(píng)價(jià)準(zhǔn)則,包括Hamming loss、Subset 0/1 Loss、Micro F1和Macro-F1. 假設(shè)Dosn表示包含n個(gè)多標(biāo)簽節(jié)點(diǎn)(vi,yi)的OSN數(shù)據(jù)集,C(vi)表示使用某種分類方法對(duì)節(jié)點(diǎn)vi生成的預(yù)測(cè)標(biāo)簽集,各評(píng)價(jià)準(zhǔn)則的定義如下.
(1)Hamming loss:Hamming loss是一種較頻繁使用的分類評(píng)價(jià)準(zhǔn)則,通過(guò)計(jì)算分類結(jié)果標(biāo)簽中沒(méi)有被正確預(yù)測(cè)的數(shù)量來(lái)評(píng)價(jià)分類性能,計(jì)算公式如下:
(8)
(2)Subset0/1Loss:用于嚴(yán)格評(píng)價(jià)分類結(jié)果的預(yù)測(cè)標(biāo)簽集是否完全正確,計(jì)算公式如下:
(9)
其中I(·)表示指示函數(shù),當(dāng)且僅當(dāng)π成立時(shí),I(π)=1,否則I(π)=0,該公式的計(jì)算結(jié)果越小則表示分類結(jié)果越好.
(3)MicroF1:通過(guò)綜合考慮預(yù)測(cè)標(biāo)簽集預(yù)測(cè)精度和召全率的微平均來(lái)評(píng)估分類方法的性能,其計(jì)算結(jié)果越大則表示分類結(jié)果越好,計(jì)算公式如下:
micro-F1(C,Dosn)=
(10)
(4)Macro-F1:通過(guò)考慮在預(yù)測(cè)標(biāo)簽結(jié)果集上的F1 測(cè)度的平均值來(lái)評(píng)價(jià)分類器的性能,計(jì)算公式如下:
macro-F1(C,Dosn)=
(11)
隨著以人為中心的在線社交網(wǎng)絡(luò)的快速發(fā)展以及其對(duì)社會(huì)政治、經(jīng)濟(jì)等領(lǐng)域的重要作用,促使學(xué)術(shù)界和工業(yè)界廣泛關(guān)注針對(duì)在線社交網(wǎng)絡(luò)用戶的分析和建模工作,并產(chǎn)生了大量的研究成果. 本文對(duì)社交網(wǎng)絡(luò)用戶的影響力分析、偏好研究、屬性預(yù)測(cè)及用戶分類等代表性研究話題涉及的理論和方法進(jìn)行了簡(jiǎn)要分析. 雖然相關(guān)領(lǐng)域已經(jīng)取得了豐碩的研究成果,但總體來(lái)說(shuō),在線社交網(wǎng)絡(luò)用戶分析的相關(guān)研究仍是一個(gè)充滿問(wèn)題與挑戰(zhàn)的新興研究領(lǐng)域. 隨著社交網(wǎng)絡(luò)的快速發(fā)展,需要處理的數(shù)據(jù)越來(lái)越龐大,社交用戶的分析和挖掘工作將面臨著新的問(wèn)題和挑戰(zhàn). 我們認(rèn)為可以深入研究并可能取得成果的方向主要包括以下3點(diǎn).
(1)目前的算法都是基于靜態(tài)社交網(wǎng)絡(luò)的分析研究,而社交網(wǎng)絡(luò)結(jié)構(gòu)是無(wú)時(shí)無(wú)刻都在動(dòng)態(tài)變化的,如何在動(dòng)態(tài)變化的社交網(wǎng)絡(luò)中進(jìn)行分析挖掘并實(shí)時(shí)給出計(jì)算結(jié)果是需要解決的問(wèn)題.
(2)面對(duì)快速發(fā)展的社交網(wǎng)絡(luò)大數(shù)據(jù),單機(jī)系統(tǒng)的性能受到考驗(yàn),需要相關(guān)的并行算法對(duì)社交網(wǎng)絡(luò)用戶進(jìn)行分析和挖掘.
(3)社交網(wǎng)絡(luò)用戶的信息數(shù)據(jù)通常存在模糊、歧義、二義性、信息不全等問(wèn)題,需要綜合利用自然語(yǔ)言處理技術(shù)、語(yǔ)義分析技術(shù)、機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘等進(jìn)行綜合分析和處理. 另外,對(duì)于真實(shí)在線社交網(wǎng)絡(luò),很難有事實(shí)上的評(píng)價(jià)標(biāo)準(zhǔn). 因此,對(duì)這類算法優(yōu)劣的客觀評(píng)價(jià)存在一定的困難.
[1]TANGY.Scholar-centeredcomputing:researchandpractice[C]∥ProceedingsoftheInternationalConferenceonHumanCenteredComputing.Switzerland:Springer,2016:6-8.
[2] 丁宇新,肖驍,吳美晶,等. 基于半監(jiān)督學(xué)習(xí)的社交網(wǎng)絡(luò)用戶屬性預(yù)測(cè)[J]. 通信學(xué)報(bào),2014,35(8):15-22.
DINGYX,XIAOX,WUMJ,etal.Predictingusers’profilesinsocialnetworkbasedonsemi-supervisedlearning[J].JournalonCommunications,2014,35(8):15-22. [3]GONZLEZ-BAILNS,BORGE-HOLTHOEFERJ,RIVEROA,etal.Thedynamicsofprotestrecruitmentthroughanonlinenetwork[J].ScientificReports,2011,1:Art197,7pp.
[4]TUMASJANA,SPRENGERTO,SANDNERPG,etal.Predictingelectionswithtwitter:what140charactersrevealaboutpoliticalsentiment[C]∥ProceedingsoftheFourthInternationalAAAIConferenceonWeblogsandSocialMedia.Washington:[s.n.],2010:178-185.
[5]VESPIGNANIA.Predictingthebehavioroftechno-socialsystems[J].Science,2009,325:425-428.
[6]ARALS,WALKERD.Identifyinginfluentialandsusceptiblemembersofsocialnetworks[J].Science,2012,337(6092):337-41.
[7]ACQUISTIA,BRANDIMARTEL,LOEWENSTEING.Privacyandhmanbehaviorintheageofinformation[J].Science,2015,347(6221):509-14.
[8] 楊善林,王佳佳,代寶,等. 在線社交網(wǎng)絡(luò)用戶行為研究現(xiàn)狀與展望[J]. 中國(guó)科學(xué)院院刊,2015,30(2):200-215.YANGSL,WANGJJ,DAIB,etal.Stateoftheartinsocialnetworkuserbehaviorsanditsfuture[J].BulletinoftheChineseAcademyofSciences,2015,30(2):200-215. [9]TANGJ,CHANGY,LIUH.Miningsocialmediawithsocialtheories:asurvey[J].ACMSIGKDDExplorationsNewsletter,2014,15(2):20-29.
[10] 毛佳昕,劉奕群,張敏,等. 基于用戶行為的微博用戶社會(huì)影響力分析[J]. 計(jì)算機(jī)學(xué)報(bào),2014,37(4):1-10.
MAOJX,LIUYQ,ZHANGM,etal.Socialinfluenceanalysisformicor-bloguserbasedonuserbehavior[J].ChineseJournalofComputers,2014,37(4):1-10.
[11]ZHOUT,LIH.UnderstandingmobileSNScontinuanceusageinChinafromtheperspectivesofsocialinfluenceandprivacyconcern[J].ComputersinHumanBehavior,2014,37:283-289.
[12]吳信東,李毅,李磊. 在線社交網(wǎng)絡(luò)影響力分析[J]. 計(jì)算機(jī)學(xué)報(bào),2014(4):735-752.
[13]WOLFEAW.Socialnetworkanalysis:methodsandapplications[J].ContemporarySociology,1994,91(435):219-220. [14]FREEMANLC.Centralityinsocialnetworksconceptualclarification[J].SocialNetworks,2012,1(3):215-239.
[15]SABIDUSSIG.Thecentralityindexofagraph[J].Psychometrika,1966,31(4):581-603.
[16]BONACICHP.Someuniquepropertiesofeigenvectorcentrality[J].SocialNetworks,2007,29(4):555-564.
[17]KATZL.Anewstatusindexderivedfromsociometricanalysis[J].Psychometrika,1953,18(1):39-43.
[18]WENGJ,LIMEP,JIANGJ,etal.TwitterRank:findingtopic-sensitiveinfluentialtwitterers[C]∥Proceedingsofthe3rdACMInternationalConferenceonWebSearchandDataMining.NewYork:ACM,2010:261-270.
[19]WATTSDJ,STROGATZSH.Collectivedynamicsof‘small-world’networks[J].Nature,1998:440-442.
[20]JACCARDP.Distributiondelaflorealpinedanslebassindesdransesetdansquelquesrégionsvoisines[J].BulletinDeLaSocieteVaudoiseDesSciencesNaturelles,1901,37(140):241-72.
[21]GIRVANM,NEWMANMEJ.Communitystructureinsocialandbiologicalnetworks[J].ProceedingsoftheNationalAcademyofSciences,2002,99(12):7821-7826.
[22]CRANDALLD,COSLEYD,HUTTENLOCHERD,etal.Feedbackeffectsbetweensimilarityandsocialinfluenceinonlinecommunities[C]∥Proceedingsofthe14thACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMining.NewYork:ACM,2008:160-168.
[23]XIANGR,NEVILLEJ,ROGATIM.Modelingrelationshipstrengthinonlinesocialnetworks[C]∥Proceedingofthe19thInternationalConferenceonWorldWideWeb(WWW2010).NewYork:ACM,2010:981-990.
[24]SAITOK,KIMURAM,OHARAK,etal.Selectinginformationdiffusionmodelsoversocialnetworksforbehavioralanalysis[J].JournaloftheOpticalSocietyofAmericaB,2010,20(1):91-96.
[25]MCLACHLANGJ,KRISHNANT.TheEMalgorithmandextensions:wileyseriesinprobabilityandstatistics[J].JournalofClassification,2007,15(1):154-156.
[26]YANGJ,LESKOVECJ.Modelinginformationdiffusioninimplicitnetworks[C]∥Proceedingsofthe2010IEEEInternationalConferenceonDataMining.Washington:IEEE,2010:599-608. [27]TANC,TANGJ,SUNJ,etal.Socialactiontrackingvianoisetoleranttime-varyingfactorgraphs[C]∥Proceedingsofthe16thACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMining.NewYork:ACM,2010:1049-1058.
[28]TANGJ,SUNJ,WANGC,etal.Socialinfluenceanalysisinlarge-scalenetworks[C]∥Proceedingsofthe15thACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMining.NewYork:ACM,2009:807-816.
[29]LIUL,TANGJ,HANJ,etal.Miningtopic-levelinfluenceinheterogeneousnetworks[C]∥Proceedingsofthe19thACMInternationalConferenceonInformationandKnowledgeManagement.NewYork:ACM,2010:199-208. [30]TANGJ,LOUT,KLEINBERGJ.Inferringsocialtiesacrossheterogenousnetworks[C]∥Proceedingsofthe5thACMInternationalConferenceonWebSearchandWebDataMining.NewYork:ACM,2012:743-752.
[31]RESNICKP,IACOVOUN,SUCHAKM,etal.GroupLens:anopenarchitectureforcollaborativefilteringofnetnews[C]∥ProceedingsoftheACMConferenceonComputerSupportedCooperativeWork.NewYork:ACM,1994:175-186.
[32]BREESEJS,HECKEMIAND,KADIEC.Empiricalanalysisofpredictivealgorithmsforcollaborativefiltering[C]∥Proceedingsofthe14thConferenceonUncertaintyinArtificialIntelligence.Madison:[s.n.],1998:43-52.
[33]HERLOCKERJL,KONSTANJA,BORCHERSA,etal.Analgorithmicframeworkforperformingcollaborativefiltering[C]∥Proceedingsofthe22ndAnnualInternationalACMSIGIRConferenceonResearchandDevelopmentinInformationRetrieval.NewYork:ACM,1999:230-237.
[34]QIUMH,ZHUFD,JIANGJ.Itisnotjustwhatwesay,buthowwesaythem:LDA-basedbehavior-topicmodel[C]∥Proceedingsofthe2013SIAMInternationalConferenceonDataMining.Texax:[s.n.],2013:794.
[35]LIAOL,JIANGJ,DINGY,etal.Lifetimelexicalvariationinsocialmedia[C]∥Proceedingsofthe28thAAAIConferenceonArtificialIntelligence.Québec:[s.n.],2014:1643-1649. [36]DONGY,YANGY,TANGJ,etal.Inferringuserdemographicsandsocialstrategiesinmobilesocialnetworks[C]∥Proceedingsofthe20thACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMining.NewYork:ACM,2014:15-24.
[37]VOSECKYJ,LEUNGWT,NGW.Collaborativepersonalizedtwittersearchwithtopic-languagemodels[C]∥Proceedingsofthe37thInternationalACMSIGIRConfe-renceonResearch&DevelopmentinInformationRetrie-val.NewYork:ACM,2014:53-62.
[38] 何炎祥,劉續(xù)樂(lè),陳強(qiáng),等. 社交網(wǎng)絡(luò)用戶興趣挖掘研究[J]. 小型微型計(jì)算機(jī)系統(tǒng),2014,35(11):2385-2389.
HEYX,LIUXL,CHENQ,etal.Userinterestminningresearchbasedonsocialnetworkservice[J].JournalofChineseComputerSystems,2014,35(11):2385-2389.
[39] 黃泳航,湯庸,李春英,等. 基于社區(qū)劃分的學(xué)術(shù)論文推薦模型[J]. 計(jì)算機(jī)應(yīng)用,2016,36(5):1279-1283;1289.
HUANGYH,TANGY,LICY,etal.Academicpaperrecommendationmodelbasedoncommunitypartition[J].JournalofComputerApplications,2016,36(5):1279-1283;1289.
[40]HUANGYH,TANGY,LICY,etal.Amethodforlatent-friendshiprecommendationbasedoncommunitydetectioninsocialnetwork[C]∥Proceedingin12thWebInformationSystemandApplicationConference.Washington:IEEE,2015:3-8.
[41]KIMHN,SADDIKAE.Exploringsocialtaggingforpersonalizedcommunityrecommendations[J].UserModelingandUser-AdaptedInteraction,2012,23(2/3):249-285.
[42]DEERWESTERS,DUMAISST,FURNASGW,etal.Indexingbylatentsemanticanalysis[J].JournaloftheAmericanSocietyforInformationScience,1990,41(6):391-407.
[43]HOFMANNT.Probabilisticlatentsemanticindexing[C]∥ProceedingoftheInternationalACMSIGIRConferenceonResearchandDevelopmentinInformationRetrieval.NewYork:ACM,1999:56-73.
[44]BLEIDM,NGAY,JORDANMI.Latentdirichletallocation[J].JournalofMachineLearningResearch,2003,3:993-1022.
[45]SAIDA,WETZKERR,UMBRATHW,etal.AhybridPLSAapproachforwarmercoldstartinfolksonomyrecommendation[C]∥ProceedingsoftheRecSys’09WorkshoponRecommenderSystems&theSocialWeb.NewYork:[s.n.],2009:87-90.
[46]ZHELEVAE,GETOORL.Tojoinornottojoin:theillusionofprivacyinsocialnetworkswithmixedpublicandprivateuserprofiles[C]∥Proceedingsofthe18thInternationalConferenceonWorldWideWeb.NewYork:ACM,2009:531-540.
[47]MISLOVEA,VISWANATHB,GUMMADIKP,etal.Youarewhoyouknow:inferringuserprofilesinonlinesocialnetworks[C]∥ProceedingsofthethirdACMinternationalconferenceonWebsearchanddatamining.NewYork:ACM,2010:4-6.
[48]HEATHERLYR,KANTARCIOGLUM,THURAISINGHAMB.Preventingprivateinformationinferenceattacksonsocialnetworks[J].IEEETransactionsonKnowledge&DataEngineering,2013,25(25):1849-1862.
[49]MILLERKT,GRIFFITHSTL,JORDANMI.Nonparametriclatentfeaturemodelsforlinkprediction[J].NeuralInformationProcessingSystems,2009:1276-1284.
[50]MOM,WANGD.Exploitofonlinesocialnetworkswithsemi-supervisedlearning[J].LectureNotesinComputerScience,2010,6443:1-8.
[51]DINGYX,YANSL,ZHANGYB,etal.Predictingtheattributesofsocialnetworkusersusingagraph-basedmachinelearningmethod[J].ComputerCommunications,2016,73:3-11.
[52]YINZ,GUPTAM,WENINGERT,etal.Linkrec:aunifiedframeworkforlinkrecommendationwithuserattributesandgraphstructure[C]∥ProceedingoftheInternationalConferenceonWorldWideWeb.NewYork:ACM,2010:1211-1212.
[53]YINZ,GUPTAM,WENINGERT,etal.Aunifiedframeworkforlinkrecommendationusingrandomwalks[C]∥Proceedingsofthe2010InternationalConferenceonAdvancesinSocialNetworksAnalysisandMining.Washington:IEEE,2010:152-159.
[54]RAOD,YAROWSKYD,SHREEVATSA,etal.Classifyinglatentuserattributesintwitter[C]∥Proceedingsofthe2ndInternationalWorkshoponSearchandMiningUser-GeneratedContents.NewYork:ACM,2010:37-44.
[55]RAOD,PAULM,FINKC,etal.Hierarchicalbayesianmodelsforlatentattributedetectioninsocialmedia[C]∥ProceedingsoftheFifthInternationalAAAIConferenceonWeblogsandSocialMedia.California:theAAAIPress,2011:598-601.
[56]BACKSTROML,LESKOVECJ.Supervisedrandomwalks:predictingandrecommendinglinksinsocialnetworks[C]∥ProceedingsoftheACMInternationalConferenceonWebSearch&DataMining.NewYork:ACM,2010:635-644. [57]GONGNZ,TALWALKARA,MACKEYL,etal.Jointlypredictinglinksandinferringattributesusingasocial-attributenetwork[J].ACMTransactionsonIntelligentSystemsandTechnology,2014,5(2):1-20.
[58]LIBEN-NOWELLD,KLEINBERGJ.Thelinkpredictionproblemforsocialnetworks[J].JournaloftheAmericanSocietyforInformationScience&Technology,2010,58(7):1019-1031. [59]NEWMANMEJ.Clusteringandpreferentialattachmentingrowingnetworks[J].PhysicalReviewE,2001,64(2):025102.
[60]ADAMICLA,ADARE.FriendsandneighborsontheWeb[J].SocialNetworks,2003,25(3):211-230.
[61]MARKOVSKYI.Structuredlow-rankapproximationanditsapplications[J].Automatica,2008,44(4):891-909.
[62] 賀超波,湯庸,麥輝強(qiáng),等. 在線社交網(wǎng)絡(luò)挖掘綜述[J]. 武漢大學(xué)學(xué)報(bào)(理學(xué)版),2014,60(3):189-200.
HECB,TANGY,MAIHQ,etal.Asurveyononlinesocialnetworkmining[J].JournalofWuhanUniversity(NaturalScienceEdition),2014,60(3):189-200.
[63]ZUBIAGAA,K?RNERC,STROHMAIERM.Tagsvsshelves:fromsocialtaggingtosocialclassification[C]∥Proceedingsofthe22ndACMConferenceonHypertextandHypermedia.NewYork:ACM,2011:93-102.
[64]PENNACCHIOTTIM,POPESCUAM.Amachinelearningapproachtotwitteruserclassification[C]∥Proceedingsofthe5thInternationalAAAIConferenceonWeblogsandSocialMedia.California:AAAIPress,2011:281-288. [65]NEVILLEJ,JENSEND.Iterativeclassificationinrelationaldata[C]∥ProceedingoftheAAAI2000WorkshoponStatisticalRelationalLearningoftheNationalConferenceonArtificialIntelligence.Washington:[s.n.],2000:42-49.
[66]KAZIENKOP,KAJDANOWICZT.Label-dependentnodeclassificationinthenetwork[J].Neurocomputing,2012,75(1):199-209.
[67]MACSKASSYSA,PROVOSTFJ.Asimplerelationalclassifier[C]∥ProceedingsoftheSIGKDD2002WorkshoponMulti-RelationalDataMining.California:ACM,2003:64-76.
[68] 賀超波,楊鎮(zhèn)雄,洪少文,等. 應(yīng)用隨機(jī)游走的社交網(wǎng)絡(luò)用戶分類方法[J]. 計(jì)算機(jī)科學(xué),2015,42(2):198-203.
HECB,YANGZX,HONGSW,etal.Userclassificationmethodinonlinesocialnetworkusingrandomwalks[J].ComputerScience,2015,42(2):197-203.
[69]KONGX,SHIX,YUPS.Multi-labelcollectiveclassification[C]∥ProceedingsoftheEleventhSIAMInternationalConferenceonDataMining.Arizona:OmniPress,2011:618-629.
[70]SHIX,LIY,YUP.Collectivepredictionwithlatentgraphs[C]∥Proceedingsofthe20thACMInternationalConferenceonInformationandknowledgeManagement.NewYork:ACM,2011:1127-1136.
【中文責(zé)編:莊曉瓊 英文責(zé)編:肖菁】
A Survey of Online Social Network Based Users Analysis
LI Chunying1,2, TANG Yong1*, HE Chaobo3, TANG Zhikang4, HUANG Yonghang1
(1. School of Computer Science, South China Normal University, Guangzhou 510631, China; 2. Computer Network Center, Guangdong Polytechnic Normal University, Guangzhou 510665, China; 3. School of Information Science and Technology, Zhongkai University of Agriculture and Engineering, Guangzhou 510225, China; 4. School of Computer Science, Guangdong Polytechnic Normal University, Guangzhou 510665, China)
The latest development of online social network user analysis based on the related domestic and foreign research is reviewed,including user behavior analysis by user influence and user p
, user attribute prediction algorithm using implicit and explicit classification methods. The research progress of user classification based on user attributes or (and) user relationship topology is briefly described.Finally,the opportunities and challenges brought by the dynamic social network, parallel algorithms and social user semantic information to online social network users are analyzed,and the development trend of online social network user analysis is proposed.
online social network; behavior analysis; influence analysis; preference analysis; attribute forecast; users catalog
2016-07-07 《華南師范大學(xué)學(xué)報(bào)(自然科學(xué)版)》網(wǎng)址:http://journal.scnu.edu.cn/n
國(guó)家自然科學(xué)基金項(xiàng)目(61272067,61502180);廣東省重大科技專項(xiàng)項(xiàng)目(2014B010116002);廣東省自然科學(xué)基金項(xiàng)目(2014A030310238);廣東省科技計(jì)劃項(xiàng)目(2015B010109003,2015A020209178,2016A030303058)
TP391
A
1000-5463(2016)05-0107-09
*通訊作者:湯庸,教授,Email:YTANG@m.scnu.edu.cn.