(四川大學(xué)網(wǎng)絡(luò)空間安全學(xué)院 四川 610065)
隨著社交網(wǎng)絡(luò)的發(fā)展以及其多樣性,社交網(wǎng)絡(luò)活躍用戶數(shù)量逐年遞增,根據(jù)Statista 的統(tǒng)計(jì)報(bào)告顯示(https://www.statista.com/statistics/272014/global-social-networks-ranked-by-number-of-users/),截至2020 年10 月,F(xiàn)acebook 活躍用戶數(shù)達(dá)27.01 億,Twitter 活躍用戶數(shù)達(dá)3.53 億。出于不同的目的,用戶可能會(huì)使用多個(gè)社交網(wǎng)絡(luò),使用Facebook 與生活中的朋友聯(lián)系,使用Twitter 發(fā)布自己的興趣愛好,使用LinkedIn 來求職以及獲取職業(yè)信息,并與工作上的同事聯(lián)系。如果能夠識(shí)別出不同社交網(wǎng)絡(luò)平臺(tái)中具有相同身份的用戶,就可以整合出該用戶較為全面的個(gè)人信息,以及繪制出其較為完整的好友關(guān)系,從而能從中挖掘出一些隱藏的信息。
商業(yè)銷售角度上,網(wǎng)購(gòu)零售平臺(tái)可以利用跨社交網(wǎng)絡(luò)用戶識(shí)別,如網(wǎng)絡(luò)購(gòu)物網(wǎng)站和社交網(wǎng)絡(luò)關(guān)聯(lián)識(shí)別得到用戶的喜好以及購(gòu)買傾向,進(jìn)而發(fā)掘潛在客戶;信息安全角度上,用戶就可以注意這些屬性以及好友關(guān)系可能會(huì)泄露其個(gè)人隱私,同時(shí),也讓社交平臺(tái)知道其在個(gè)人信息安全方面存在的隱患。
在現(xiàn)實(shí)世界中,對(duì)于同一實(shí)體有許多種描述方式,并且大多數(shù)情況下,這些實(shí)體信息是彼此分離,沒有任何聯(lián)系的,因此就有研究人員提出如何有效將不同信息源的數(shù)據(jù)融合在一起也成了一個(gè)研究點(diǎn)。廣泛學(xué)習(xí)(broad learning)也就應(yīng)運(yùn)而生,最初它被提出主要是用于將不同種類的大規(guī)模數(shù)據(jù)進(jìn)行融合,再對(duì)這些融合數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘與分析[1]??缟缃痪W(wǎng)絡(luò)用戶識(shí)別實(shí)際上也用到不少?gòu)V泛學(xué)習(xí)中的概念和方法,如多源社交網(wǎng)絡(luò)融合,社交網(wǎng)絡(luò)對(duì)齊等??缟缃痪W(wǎng)絡(luò)用戶識(shí)別將有助于社交網(wǎng)絡(luò)好友推薦,信息傳播和社區(qū)檢測(cè)等。
用戶識(shí)別主要是通過特征工程或者深度學(xué)習(xí)等方法,從用戶信息中發(fā)現(xiàn)能夠表征用戶的特征,進(jìn)而實(shí)現(xiàn)用戶識(shí)別。用戶信息包括用戶配置文件(profile)、用戶發(fā)布的內(nèi)容(user-generated contents)和社交關(guān)系(relationships)。在實(shí)際的社交網(wǎng)絡(luò)中,往往面臨以下問題,這些問題對(duì)于跨社交網(wǎng)絡(luò)用戶識(shí)別也是巨大的挑戰(zhàn)。
(1)用戶信息虛假性。為了保護(hù)個(gè)人隱私或者隱藏自己的真實(shí)意圖,用戶在填寫用戶信息時(shí),可能會(huì)填寫虛假的信息。
(2)用戶信息異構(gòu)性。出于不同的使用目的,用戶可能會(huì)構(gòu)建適應(yīng)于不同社交網(wǎng)絡(luò)的用戶信息,來迎合不同的需求,如在Twitter中的用戶屬性往往會(huì)更加生活化,在LinkedIn 中的用戶屬性往往會(huì)更加正規(guī)化。
(3)用戶信息不完整性。由于社交網(wǎng)絡(luò)的數(shù)據(jù)獲取限制以及用戶可以選擇公開或不公開自己的信息,研究者很難獲得用戶完整信息。
近年來,社交網(wǎng)絡(luò)的用戶劇烈增長(zhǎng),用戶數(shù)量越來越多,這無疑給用戶識(shí)別帶來了挑戰(zhàn)和機(jī)遇。
近年來,國(guó)內(nèi)外有許多關(guān)于社交網(wǎng)絡(luò)用戶識(shí)別的研究。跨社交網(wǎng)絡(luò)的用戶識(shí)別又可以稱為用戶身份關(guān)聯(lián)[2]、用戶文件匹配[3]、用戶賬號(hào)匹配[4]、用戶身份識(shí)別[5]、錨鏈接預(yù)測(cè)[6]等、。其研究方向主要包括基于用戶屬性的用戶識(shí)別、基于發(fā)布內(nèi)容的用戶識(shí)別、基于用戶社交關(guān)系的用戶識(shí)別以及綜合上述方法的用戶識(shí)別。我們可以將用戶識(shí)別定義為:判斷社交網(wǎng)絡(luò)G1中的用戶與社交網(wǎng)絡(luò)G2中的用戶是否在現(xiàn)實(shí)中是同一自然人,如果屬于同一自然人,則稱用戶和用戶為關(guān)聯(lián)用戶(錨鏈接用戶),否則為非關(guān)聯(lián)用戶(非錨鏈接用戶)[7]。
在實(shí)際的社交網(wǎng)絡(luò)中,用戶可分為認(rèn)證用戶和非認(rèn)證用戶。認(rèn)證用戶主要是一些組織賬號(hào)或者具有一定知名度的用戶,非認(rèn)證用戶主要是普通用戶。大多數(shù)研究主要關(guān)注非認(rèn)證用戶的用戶識(shí)別。
現(xiàn)有研究大都基于兩個(gè)社交網(wǎng)絡(luò)進(jìn)行用戶識(shí)別,然而在現(xiàn)實(shí)世界中,人們通常同時(shí)使用多個(gè)社交網(wǎng)絡(luò)。研究有多個(gè)社交網(wǎng)絡(luò)的用戶被定義為“多個(gè)匿名社交網(wǎng)絡(luò)的對(duì)齊”問題[8]?;诙鄠€(gè)社交網(wǎng)絡(luò)的用戶識(shí)別需要保證兩兩錨鏈接用戶之間滿足傳遞關(guān)系。
在社交網(wǎng)絡(luò)中,用戶屬性包括用戶的顯示名、用戶ID、頭像、地理位置、個(gè)人簡(jiǎn)介、用戶頭像等。
部分研究?jī)H利用單一屬性進(jìn)行用戶識(shí)別。僅利用用戶顯示名分析不同社交網(wǎng)絡(luò)的關(guān)聯(lián)用戶[9-12],從用戶名中間提取一系列特征,結(jié)合提取的用戶名特征來判斷用戶識(shí)別結(jié)果。僅利用用戶頭像進(jìn)行用戶識(shí)別[13]、從頭像中提取出直方圖特征或者利用人臉識(shí)別方法或者主成分分析等。僅利用地理位置[14-16],例如軌跡相似度分析等。大多數(shù)研究選擇其中的一個(gè)或多個(gè)屬性,這也證明這些屬性有助于判斷社交網(wǎng)絡(luò)上的關(guān)聯(lián)用戶。
這些研究旨在證明單一屬性對(duì)于實(shí)現(xiàn)用戶識(shí)別的可行性,但社交網(wǎng)絡(luò)中并不只包含單一屬性,還有其他的屬性信息可用于用戶識(shí)別,可以充分利用多個(gè)屬性背后隱藏的信息和社交關(guān)系信息,來提高用戶識(shí)別的準(zhǔn)確性,挖掘出更多關(guān)聯(lián)用戶。Li 等人[17]利用顯示名和用戶ID 來識(shí)別關(guān)聯(lián)用戶。Motoyama 等人[18]利用多種屬性信息,如顯示名、地理位置、年齡、電子郵件等來進(jìn)行用戶識(shí)別。Raad 等人[3]FOAF(Friend of a Friend)配置文檔進(jìn)行用戶識(shí)別,計(jì)算兩個(gè)配置文檔中用戶屬性的相似度,并給不同的屬性分配不同的權(quán)重,再基于用戶屬性相似度來計(jì)算兩個(gè)用戶之間的相似性。Lu 等人[19]對(duì)部分對(duì)齊網(wǎng)絡(luò)(如:電子商務(wù)網(wǎng)站和社交網(wǎng)站)進(jìn)行用戶識(shí)別,給出了用戶名和郵件地址的相似度匹配方法以及用戶個(gè)人興趣相似度匹配的方法。何鵬濤等人[20]利用用戶的注冊(cè)信息包含的屬性信息,計(jì)算個(gè)人簡(jiǎn)介、地理位置、教育工作信息的相似度,并利用維特比算法來進(jìn)行三個(gè)社交網(wǎng)絡(luò)的用戶識(shí)別。
用戶出于對(duì)個(gè)人隱私的保護(hù),用戶可能會(huì)填寫虛假的個(gè)人資料信息,或選擇不填寫。基于用戶屬性的用戶識(shí)別的準(zhǔn)確性會(huì)有所降低。
在社交網(wǎng)絡(luò)中,用戶發(fā)布內(nèi)容包括發(fā)布內(nèi)容的地理信息、時(shí)間信息、文本信息、多媒體信息、寫作風(fēng)格和內(nèi)容主題等。
Li 等人[3]計(jì)算了用戶發(fā)布內(nèi)容在空間,時(shí)間和文本內(nèi)容三個(gè)維度上的相似性,并提出了一種三級(jí)級(jí)聯(lián)的融合分類器來判斷用戶識(shí)別結(jié)果。Goga 等人[21]綜合附加到發(fā)布內(nèi)容后的位置信息,發(fā)布時(shí)間信息和書寫風(fēng)格來識(shí)別用戶。Nie 等人[22]先識(shí)別出重要用戶,將重要用戶和待識(shí)別用戶的發(fā)布內(nèi)容融合,得到一段長(zhǎng)文本,通過LDA 識(shí)別出長(zhǎng)文本的主題,將用戶識(shí)別轉(zhuǎn)發(fā)為主題相似度判斷。張樹森等人[5]利用發(fā)布內(nèi)容中的文本內(nèi)容、多媒體內(nèi)容和時(shí)間序列信息來進(jìn)行用戶識(shí)別,包括內(nèi)容口語化程度、復(fù)雜程度、規(guī)范化程度、用戶圖片特征以及構(gòu)建與時(shí)間序列擬合的函數(shù)。
由于用戶隱私設(shè)置和社交網(wǎng)絡(luò)對(duì)數(shù)據(jù)采集的限制,基于發(fā)布內(nèi)容的用戶識(shí)別的魯棒性會(huì)有較大的影響。
在社交網(wǎng)絡(luò)中,社交關(guān)系包括正在關(guān)注關(guān)系和關(guān)注者關(guān)系[23],目前研究基于這兩種關(guān)系可以構(gòu)建出無向網(wǎng)絡(luò)和有向網(wǎng)絡(luò),有向網(wǎng)絡(luò)又可分為單向網(wǎng)絡(luò)和雙向網(wǎng)絡(luò)。
由于用戶在不同社交平臺(tái)上形成社交關(guān)系網(wǎng)絡(luò)相對(duì)來說更穩(wěn)定,因此可根據(jù)賬號(hào)的社交關(guān)系形成該賬號(hào)的社交關(guān)系網(wǎng)絡(luò),并與其他賬號(hào)的社交關(guān)系網(wǎng)絡(luò)做相似性計(jì)算。Xuan 等人[24]調(diào)查發(fā)現(xiàn)通常情況下用戶會(huì)在不同的社交網(wǎng)絡(luò)平臺(tái)上維護(hù)相似的好友圈,并利用社交關(guān)系信息進(jìn)行用戶識(shí)別,提出FRUI 算法。Zhang 等人[25]通過考慮多個(gè)網(wǎng)絡(luò)之間的本地和全局的相似性,結(jié)合能量模型提出COSNET 模型。Cheng 等人[26]通過共享參數(shù)的神經(jīng)網(wǎng)絡(luò)來獲取用戶對(duì)社交關(guān)系的網(wǎng)絡(luò)結(jié)構(gòu)向量,并提出了深度主動(dòng)學(xué)習(xí)模型DALAUP。Zhou 等人[27]對(duì)網(wǎng)絡(luò)進(jìn)行采樣并學(xué)習(xí)網(wǎng)絡(luò)節(jié)點(diǎn)的向量表示,通過深度神經(jīng)網(wǎng)絡(luò)對(duì)齊錨節(jié)點(diǎn),利用雙重學(xué)習(xí)范式和策略梯度法關(guān)聯(lián)用戶。Pedarsani 等人[28]在無種子節(jié)點(diǎn)的條件下,采用貝葉斯方法進(jìn)行用戶識(shí)別,并在較為相近的兩個(gè)網(wǎng)絡(luò)中取得了較好的結(jié)果。
近來用戶表示學(xué)習(xí)受到學(xué)術(shù)界的廣泛關(guān)注,諸如隨機(jī)游走[29]、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)[30]、圖卷積網(wǎng)絡(luò)(Graph Convolutional networks,GCN)[31]、圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Networks,GNN)[2]被應(yīng)用于用戶表示學(xué)習(xí)(也稱用戶嵌入或圖嵌入)。這類方法相當(dāng)于將用戶的各類信息映射到一個(gè)隱空間,這個(gè)隱空間的向量能夠有效表征用戶。Man 等人[32]利用網(wǎng)絡(luò)嵌入方法來發(fā)掘網(wǎng)絡(luò)結(jié)構(gòu)的規(guī)律,通過跨網(wǎng)絡(luò)映射來識(shí)別關(guān)聯(lián)用戶。Zhou 等人[33]提出一種基于朋友關(guān)系的無先驗(yàn)知識(shí)用戶識(shí)別方法FRUI-P。Liu 等人[23]將用戶的正在關(guān)注關(guān)系和關(guān)注者關(guān)系都嵌入到網(wǎng)絡(luò)中,以此來進(jìn)行用戶識(shí)別。Wang 等人[2]生成異構(gòu)圖來表示用戶配置文檔、發(fā)布內(nèi)容和社交關(guān)系,并利用基于注意力機(jī)制的圖神經(jīng)網(wǎng)絡(luò)來進(jìn)行用戶識(shí)別,通過多個(gè)注意力層來聚合用戶信息,并通過多層感知來預(yù)測(cè)用戶識(shí)別結(jié)果。
社交關(guān)系相較于用戶屬性而言更穩(wěn)定。但由于社交網(wǎng)絡(luò)的開放性,任何用戶都能關(guān)注其他用戶,導(dǎo)致被關(guān)注者可能并不認(rèn)識(shí)關(guān)注他的人。由于社交網(wǎng)絡(luò)對(duì)數(shù)據(jù)采集的限制以及獲得多層社交關(guān)系成本較高。因此在實(shí)際社交網(wǎng)絡(luò)中,社交關(guān)系通常比較稀疏且不完整。
在用戶屬性中加入社交關(guān)系,由于社交關(guān)系具有穩(wěn)定性,可以避免一些用戶屬性缺失或虛假帶來的負(fù)面影響;在社交關(guān)系中加入用戶屬性,可以識(shí)別出一些社交關(guān)系稀疏的用戶,并提高用戶識(shí)別模型的準(zhǔn)確率和召回率。通過綜合多種識(shí)別方法對(duì)用戶進(jìn)行跨社交網(wǎng)絡(luò)用戶識(shí)別,防止只采用一種計(jì)算方法而造成誤差[34]。正如之前所提到的隱空間映射問題,其實(shí)用戶屬性也可以像社交關(guān)系一樣被映射到隱空間中,將離散屬性變量轉(zhuǎn)變?yōu)檫B續(xù)的變量,并且提取中間具有代表性的屬性,也相當(dāng)于一個(gè)降維的過程,這樣可以設(shè)計(jì)一個(gè)通用隱空間模型,來將屬性和社交關(guān)系映射到隱空間中,再通過優(yōu)化函數(shù)來提高效果。
Zhang 等人[35]利用顯示名、地理位置和社交關(guān)系三種信息,從每種信息中提取出一些特征,最后利用分類器判定用戶是否關(guān)聯(lián)。Zhang 等人[36]結(jié)合用戶屬性和網(wǎng)絡(luò)結(jié)構(gòu)來鏈接多種共享實(shí)體的潛在鏈接。Jain 等人[37]提出了一個(gè)身份識(shí)別系統(tǒng)Finding Nemo,充分結(jié)合了用戶屬性和鏈接信息,用于找出一個(gè)Twitter 用戶在Facebook 中的賬戶。Li 等人[38]結(jié)合用戶顯示名和社交網(wǎng)絡(luò)的信息冗余來實(shí)現(xiàn)用戶識(shí)別。Bartunov 等人[39]提出了JLA 算法。該算法主要用來合并用戶通訊錄,從局部方面來進(jìn)行用戶識(shí)別。JLA 算法將用戶屬性和好友關(guān)系網(wǎng)絡(luò)相結(jié)合進(jìn)行匹配,通過構(gòu)建一個(gè)統(tǒng)一用戶屬性與社交關(guān)系的匹配模型,并使用條件隨機(jī)場(chǎng)來進(jìn)行賬號(hào)匹配。
目前沒有研究用戶識(shí)別的公開數(shù)據(jù)集。一些研究從社交網(wǎng)絡(luò)上用爬蟲或者公開API 采集實(shí)驗(yàn)數(shù)據(jù),一些研究使用kong 等人[6]論文中使用的數(shù)據(jù)集,該數(shù)據(jù)集是在2012 年11 月采集形成的。多篇論文曾采用該數(shù)據(jù)集來驗(yàn)證用戶識(shí)別實(shí)驗(yàn),如Zhang 等人[40]和Liu 等人[23]。Liu 等人[23]曾在 GitHub 上公布了該數(shù)據(jù)集引用要求(https://github.com/ColaLL/IONE)。
有部分研究從rocketreach(https://rocketreach.co/)和about.me(https://about.me/)網(wǎng)站上獲取用戶在不同社交網(wǎng)絡(luò)上的賬號(hào),并將其作為groundtruth(錨鏈接用戶)。Lim 等人[41]采集about.me 網(wǎng)站上的用戶的關(guān)聯(lián)賬號(hào),包括社交網(wǎng)絡(luò)Flickr、Google+、Instagram、Tumblr、Twitter 和 Youtube,其數(shù)據(jù)集也公開在 GitHub 上(https://github.com/kite1988/aboutme)。
本文整理和歸納了跨社交網(wǎng)絡(luò)用戶識(shí)別的研究現(xiàn)狀和實(shí)驗(yàn)數(shù)據(jù)集獲取方式。目前,大多數(shù)有關(guān)跨社交網(wǎng)絡(luò)用戶識(shí)別的論文都針對(duì)兩個(gè)社交網(wǎng)絡(luò)進(jìn)行實(shí)驗(yàn),較少有論文直接對(duì)三個(gè)及三個(gè)以上的社交網(wǎng)絡(luò)做用戶識(shí)別。一個(gè)是因?yàn)槿齻€(gè)及三個(gè)以上數(shù)據(jù)集獲取難度較大,另外也因?yàn)槿齻€(gè)及以上社交網(wǎng)絡(luò)用戶識(shí)別和兩個(gè)社交網(wǎng)絡(luò)用戶識(shí)別的方法有較大的區(qū)別。
由于用戶對(duì)個(gè)人隱私的保護(hù)和社交網(wǎng)絡(luò)對(duì)數(shù)據(jù)采集的限制,我們可以充分利用可獲取的各類用戶數(shù)據(jù),包括用戶屬性信息、發(fā)布內(nèi)容和社交關(guān)系信息,來幫助提高用戶識(shí)別的準(zhǔn)確率和召回率??梢岳锰卣鞴こ虖母黝愑脩魯?shù)據(jù)提取出能有效表征用戶的特征,也可以利用各類用戶數(shù)據(jù)形成圖結(jié)構(gòu),將這些提取出的信息輸入自己構(gòu)造的機(jī)器學(xué)習(xí)模型或深度神經(jīng)網(wǎng)絡(luò)模型來進(jìn)行用戶識(shí)別。