陳白楊,陳曉亮
(西華大學計算機與軟件工程學院,四川 成都 610039)
近年來,在線社交網(wǎng)絡(luò)(online social network,OSN)在世界范圍內(nèi)迅速普及,各種各樣的社交網(wǎng)絡(luò)服務(wù)平臺紛紛建立,如國內(nèi)的微博、豆瓣、貼吧,國外的Facebook、Twitter、Instagram。這些平臺為用戶提供了豐富多彩的個性化服務(wù),如:Twitter、微博主要提供社交服務(wù)和微博客服務(wù);Facebook、Instagram 主要提供社交服務(wù)和照片分享服務(wù);豆瓣、貼吧主要提供影視、書籍、興趣活動等分享服務(wù)。用戶為滿足不同的需求,往往不會局限于單個社交網(wǎng)絡(luò),而會在多個網(wǎng)絡(luò)平臺上注冊賬號。這些用戶可以充當連接不同網(wǎng)絡(luò)的橋梁,從而將多個社交網(wǎng)絡(luò)進行連接、融合。
用戶對齊(user alignment,UA),旨在將不同社交網(wǎng)絡(luò)上的同一自然人聯(lián)系起來。開發(fā)一個高質(zhì)量的用戶對齊模型有助于構(gòu)建一個全面的用戶特征表示。大量社交網(wǎng)絡(luò)應(yīng)用,如跨網(wǎng)絡(luò)朋友推薦[1]、信息擴散[2?3]、鏈路預(yù)測[4]和網(wǎng)絡(luò)動力學分析[5]等都表明了研究用戶對齊問題的必要性和益處。
跨社交網(wǎng)絡(luò)用戶對齊的研究工作大致興起于2009 年,目前仍處于高速發(fā)展時期,各類方法絡(luò)繹不絕。大數(shù)據(jù)條件下的跨網(wǎng)絡(luò)用戶對齊的算法研究和系統(tǒng)構(gòu)建成為了當下研究的熱點。本文對近年來跨社交網(wǎng)絡(luò)用戶對齊的研究進行了綜述:首先對研究的問題進行了形式化定義;然后從數(shù)據(jù)預(yù)處理、候選集生成、訓練數(shù)據(jù)獲取、特征抽取、對齊算法5 方面概述了各種可用方法和研究進展,重點從基于規(guī)則和基于統(tǒng)計2 個角度對主流的用戶對齊方法進行了詳細闡述,并簡要介紹了一些可用的數(shù)據(jù)集和算法評估方法;最后對目前面臨的問題和挑戰(zhàn)進行了探討,對未來的研究方向做出了展望。
跨社交網(wǎng)絡(luò)平臺的用戶對齊最初被定義為在不同社區(qū)之間鏈接具有相同身份的用戶[6]。用戶對齊也稱為用戶識別[7](user identification)、錨定鏈接預(yù)測[8](anchor link prediction)、個人資料鏈接[9](profile linkage)、用 戶 身 份 鏈 接[10](user identity linkage,UIL)等,其目的是在不同社交網(wǎng)絡(luò)平臺上對屬于同一自然人的用戶進行鏈接。一般而言,具有唯一性的用戶屬性,如電子郵件地址、手機號碼和身份號碼等,可以直接用于確定在線社交網(wǎng)絡(luò)用戶的真實身份。然而,由于隱私保護和安全問題,這些信息常難以獲取。研究者往往通過用戶在社交網(wǎng)絡(luò)平臺上公開的信息,如用戶名、興趣愛好、職業(yè)、發(fā)表的帖子、好友關(guān)系等進行跨社交網(wǎng)絡(luò)平臺的用戶對齊。下面對本文研究的問題進行定義。
定義1社交網(wǎng)絡(luò)。一個社交網(wǎng)絡(luò)是一個三元組G=(U,R,A),其中U=表示該網(wǎng)絡(luò)中全體用戶的集合,R=表示網(wǎng)絡(luò)中用戶之間關(guān)系(如朋友、粉絲、關(guān)注等)的集合,A=表示全體用戶屬性的集合。
定義2用戶屬性。用戶屬性是用戶性質(zhì)或特征的集合,包括用戶的基本信息(如用戶名、工作單位等)和用戶生成的內(nèi)容(如用戶發(fā)布的微博、帖子等)。用戶屬性用一個由鍵值對組成的集合來表示,每個屬性鍵值對代表用戶某一方面的屬性,如<姓名:邁克爾>,其中“姓名”是屬性的類型(或鍵),“邁克爾”是該屬性的值。在社交網(wǎng)絡(luò)中,用戶通常具有許多不同類型的屬性,例如姓名、年齡、隸屬關(guān)系等。用戶ui的 屬性表示為aui=,其中代 表 用 戶ui第j個屬性鍵值對。
定義3用戶對齊。給定2 個任意的社交網(wǎng)絡(luò)GX=(UX,RX,AX)和GY=(UY,RY,AY),以及一些預(yù)先匹配的用戶對,用戶對齊(UA)的目標是找到其他隱藏的匹配用戶對M=,其 中ui和uj屬于同一自然人。
現(xiàn)有的用戶對齊技術(shù)大多可以歸納為一個統(tǒng)一的框架,如圖1 所示。該框架由5 個部分組成:1)數(shù)據(jù)預(yù)處理;2)候選集生成;3)標注數(shù)據(jù)獲取;4)特征提??;5)用戶對齊算法。
圖1 跨社交網(wǎng)絡(luò)用戶對齊總體框架
對于待匹配的任意2 個或多個社交網(wǎng)絡(luò)平臺,首先應(yīng)對用戶數(shù)據(jù)進行預(yù)處理,挑選出待匹配的候選用戶,并根據(jù)算法需要獲取必要的標記數(shù)據(jù);然后進入到特征抽取和對齊算法模塊,先從用戶數(shù)據(jù)中提取到有用的特征作為對齊算法的輸入,再通過算法優(yōu)化、求解來預(yù)測候選用戶對是否匹配。
對于跨社交網(wǎng)絡(luò)平臺用戶對齊問題,給定待匹配用戶的屬性集合中某些屬性可能很關(guān)鍵、很有用,另一些屬性則可能沒什么用。對當前任務(wù)有用的屬性稱為“相關(guān)特征”,沒什么用的屬性稱為“無關(guān)特征”。數(shù)據(jù)預(yù)處理首先要做的就是從給定特征集合中選出和當前任務(wù)有關(guān)的特征子集;然后,通過歸一化、標準化、正則化等方式改進不完整、不一致、無法直接使用的數(shù)據(jù)。然而,在線社交網(wǎng)絡(luò)的數(shù)據(jù)龐大、零亂且高度非結(jié)構(gòu)化[11],不同網(wǎng)絡(luò)平臺之間的用戶數(shù)據(jù)可能存在極大差異,這為數(shù)據(jù)的預(yù)處理帶來了巨大挑戰(zhàn)。值得慶幸的是,隨著數(shù)據(jù)清洗與整合技術(shù)的發(fā)展,數(shù)據(jù)預(yù)處理領(lǐng)域的大量研究成果可供借鑒,具體內(nèi)容可以參見文獻[12?14],本文不再贅述。
一般對2 個或多個用戶進行匹配的時候,需要將一個社交網(wǎng)絡(luò)平臺中所有用戶與其他待匹配的社交網(wǎng)絡(luò)平臺中所有用戶進行比較,這將導致算法復(fù)雜度隨著網(wǎng)絡(luò)規(guī)模呈指數(shù)增長。在大數(shù)據(jù)條件下,其計算量是難以接受的,而實際上可能的匹配用戶數(shù)量不會超過規(guī)模較小社交網(wǎng)絡(luò)的用戶數(shù)量。為了解決這個問題,需要設(shè)計高效的算法在保證準確率的前提下盡可能減少待匹配用戶的數(shù)量,使復(fù)雜的匹配計算只在最有可能的用戶中進行。單個待匹配用戶一般稱為“候選用戶”,成對的待匹配用戶則稱為“候選用戶對”。所有候選用戶及候選用戶對統(tǒng)稱為“候選集”,候選集的生成一般可以采取3 種策略。
1)從所有待匹配用戶中選擇具有辨識度的用戶特征來進行判斷。例如:Zafarani 等[6]首先通過尋找一組用戶名的關(guān)鍵詞來生成候選集,然后通過添加/刪除一系列前/后綴來進行擴展;MEgo2Vec直接將具有較高用戶名相似性的用戶對作為候選集[15]。
2)從已經(jīng)發(fā)現(xiàn)的匹配用戶出發(fā),沿著其相鄰用戶進行擴展。例如:Bennacer 等[16]將已匹配用戶的直接鄰居作為候選集;Zhang 等[17]將已匹配用戶的d跳鄰居作為候選用戶集,d從1 開始逐步增大。
3)將以上2 種策略相結(jié)合。例如COSNET 首先將具有較高用戶名相似度的用戶對作為初始候選集,然后沿著初始用戶的鄰居進行擴展[18]。
在用戶對齊任務(wù)中,預(yù)先匹配的用戶對又稱為標記數(shù)據(jù)。大部分基于統(tǒng)計學習的用戶對齊方法需要充足的標記數(shù)據(jù)來進行模型的訓練。標記數(shù)據(jù)無論是對匹配的準確度還是算法的收斂速度都會產(chǎn)生重要影響。然而,大規(guī)模獲取這種標記數(shù)據(jù)的成本較高。目前主要有2 種獲取標記數(shù)據(jù)的手段。
1)一些社交網(wǎng)絡(luò)平臺允許用戶公開自己在其他網(wǎng)絡(luò)平臺上的賬號。這些賬號即可作為獲取預(yù)先匹配用戶對的線索。這種數(shù)據(jù)獲取方式速度快、準確度高,因此,大部分研究[15,19?20]采用這種方法。
2)部分用戶屬性具有很強的辨識度,通過人工設(shè)置一組規(guī)則可以自動進行數(shù)據(jù)標注。例如Narayanan 等[21]通過搜索具有相同度數(shù)和鄰居數(shù)的k團(k-clique)來獲取初始對齊用戶;Liu 等[22]通過分析用戶名的稀有性和通用性來自動標注訓練數(shù)據(jù);CoLink 預(yù)定義了一組基于用戶名稀有性、屬性一致性和用戶關(guān)系的規(guī)則來生成標記數(shù)據(jù)[23]。這類方法適用性廣,可以大規(guī)模獲取標記數(shù)據(jù),但準確度相對較低。
由于用戶對齊問題討論的是2 個或多個網(wǎng)絡(luò)之間用戶的關(guān)聯(lián),其特征抽取可以分為2 種方式。
1)針對候選用戶對的特征抽取,即先從待匹配網(wǎng)絡(luò)中挑選成對的候選用戶,再對候選用戶對提取特征。這種類型主要采取人工特征抽取技術(shù)(即特征工程)。傳統(tǒng)的人工特征提取是用戶對齊任務(wù)中特征抽取的重要方法,大量研究[20,24?25]采取這類方法。
2)針對單個用戶的特征抽取,即先分別從待匹配網(wǎng)絡(luò)中挑選候選用戶,再對單一候選用戶提取特征。這種類型主要采取基于表示學習(representation learning,RL)的方法。表示學習旨在將原始數(shù)據(jù)轉(zhuǎn)換成為能夠被計算機有效利用的表示形式,從而在構(gòu)建分類器或其他預(yù)測模型時更容易提取有用的信息[26]。表示學習的重要特性在于允許計算機學習使用特征的同時,也學習如何提取特征。
社交網(wǎng)絡(luò)中的用戶數(shù)據(jù)[27]主要包括用戶的基本信息(如用戶名、職業(yè)、地理位置),用戶生成內(nèi)容(如用戶發(fā)布的帖子、博客、出版物)以及用戶之間的關(guān)系(如朋友、關(guān)注、被關(guān)注)等。這些數(shù)據(jù)按照表現(xiàn)形式不同又可以分為文本數(shù)據(jù)、圖像數(shù)據(jù)、音頻/視頻數(shù)據(jù)、地理位置數(shù)據(jù)、網(wǎng)絡(luò)拓撲結(jié)構(gòu)數(shù)據(jù)等。學者們利用用戶文本屬性和用戶網(wǎng)絡(luò)關(guān)系來進行用戶對齊研究。下面主要介紹基于文本和網(wǎng)絡(luò)拓撲結(jié)構(gòu)的特征抽取方法。
2.4.1 文本特征抽取
對于成對的文本類型用戶屬性(如用戶名)主要采用字符串相似性算法來進行特征提取,如Jaccard 相似度[28]、Jaro和Jaro-Winkler距離[29]、Levenshtein 距離[30]等。此外,一些研究[7,31?32]先將文本字符串向量化,再通過向量之間的距離度量,如余弦相似度、歐氏距離等來提取特征。
1)Jaccard 相似度。將待匹配的2 個字符串看作2 個由單一字符構(gòu)成的集合,再計算2 個集合的交集與并集的比值,即
其中a,b為 待匹配的2 個字符串。token(·)函數(shù)將字符串轉(zhuǎn)換為由單個字符組成的集合。Jaccard 相似度算法的優(yōu)點在于對文本順序無關(guān),但對錯誤比較敏感,人工錄入錯誤或字符缺失等情況會對結(jié)果產(chǎn)生較大影響。
2)Levenshtein 距離。即將一個字符串轉(zhuǎn)換另一個所需要的插入、刪除和替換操作的最小次數(shù)。Levenshtein 距離又稱為“編輯距離”,用ai/bj表示字符串a(chǎn)/b的第i/j個 字符,當ai≠bj時,指示函數(shù)Iai≠bj的值 為1,否 則為0。函數(shù) Leva,b(i,j)表示a的前i個字符構(gòu)成的子串與b的前j個字符構(gòu)成的子串之間的Levenshtein 距離,則a和b之間的Levenshtein 距離 Leva,b(|a|,|b|)可以通過式(2)遞歸計算得出。
Levenshtein 距離可以降低相似性匹配的錯誤敏感性,但是它為每一個字符的每一次編輯操作都賦予相同的權(quán)重(次數(shù)),沒有考慮不同字符或子串的重要程度;然而實際上不同位置的子串編輯操作對相似性匹配的重要性可能不同,比如一些前后綴和縮寫詞的處理。
3)Jaro 和Jaro-Winkler 距離。Jaro 距離的主要思想是通過比較2 個字符串的公共部分來計算相似程度,所謂“公共”這里特指2 個字符相等并且它們在字符串中的位置距離之差Δ不大于較小字符串長度的一半,即 ?≤0.5×min(|a|,|b|),設(shè)t為公共部分發(fā)生位置交換的次數(shù),δ為公共字符的集合,則Jaro 距離可以定義為
Jaro 距離可以容忍少量的拼寫錯誤,但對于2 個主體部分相同但前綴或者后綴不同的字符串的度量效果并不好。Jaro-Winkler 距離對此進行了改進。對于字符串a(chǎn)和b以及共同前綴τ,Jaro-Winkler 距離表示為
其中,λ 為前綴τ 對整體相似度影響的一個系數(shù)。
4)基于向量距離的方法。先將文本字符串向量化,再通過計算2 個向量之間的距離來評估字符串相似程度。將文本字符串表示為向量的常用方法有詞袋模型(bag-of-words,BOW)、詞頻–逆文檔頻 率(term frequency-inverse document frequency,TF-IDF)等。
詞袋模型忽略文本的語序、語法或句法關(guān)系,將其僅僅看作是一個詞的集合,文本中每個詞的出現(xiàn)都是獨立的,不依賴于其他詞是否出現(xiàn)。對字符串a(chǎn),其詞袋向量化表示定義為
其中 tfc表 示字符表 V 中第c個字符在a中 出現(xiàn)的次數(shù)。
TF-IDF 在詞袋模型的基礎(chǔ)上進行了改進。其核心思想在于:一個詞的重要程度跟它在單個文檔中的計數(shù)成正比,而跟它在語料庫中出現(xiàn)的次數(shù)成反比。對字符串a(chǎn),其TF-IDF 向量化表示為
式中:D表示語料庫中文檔的總數(shù)(即用戶總數(shù));dfc表 示語料庫中包含詞匯表 V中第c個單詞的文檔的數(shù)量。
在將字符串a(chǎn)和b分 別進行向量化表示后,其余弦相似度可表示為
其歐式距離表示為
基于向量距離的文本特征抽取方法具有適用性廣的優(yōu)點,能夠有效提取長文本的語義特征,但仍然忽略了詞的順序以及語法、句法關(guān)系。此外,少量研究也在成對用戶文本特征提取中采用了表示學習方法,如MEgo2Vec 先將候選用戶對的文本屬性用卷積神經(jīng)網(wǎng)絡(luò)(convolution neural network,CNN)從字符和詞2 個視角分別進行嵌入,再進行拼接,通過訓練使得匹配用戶之間的文本屬性向量距離最小[15]。
對于單一用戶的文本類型屬性,大部分研究采用基于表示學習的方法來提取特征?;诒硎緦W習的特征抽取方法往往能夠從大規(guī)模訓練數(shù)據(jù)中獲得對下游任務(wù)有用的特征表示,性能通常較高,但也需要構(gòu)建較復(fù)雜的優(yōu)化模型,運算量較大。自然語言處理技術(shù)中有大量相關(guān)研究,本文不再敘述。
2.4.2 網(wǎng)絡(luò)結(jié)構(gòu)特征抽取
對于候選用戶對之間的網(wǎng)絡(luò)結(jié)構(gòu)特征一般用一些結(jié)構(gòu)相似性函數(shù)進行度量,如共同鄰居計數(shù)[33]、Jaccard 系數(shù)[28]、Adamic/Adar 系數(shù)[34]等。
1)共同鄰居計數(shù)(common neighbors)。即2 個用戶在不同網(wǎng)絡(luò)中的屬于同一自然人的相鄰用戶個數(shù)。用戶ui和uj的相鄰用戶分別用N B(ui)和 NB表示,其共同鄰居計數(shù)s imNB表示為
其中,K為一個足夠大的常數(shù),使得所有用戶對的共同鄰居計數(shù)值都在0 到1 之間。
2)Jaccard 系數(shù)。即2 個用戶的共同鄰居計數(shù)與他們所有鄰居計數(shù)的比值,定義為
Jaccard 系數(shù)和共同鄰居計數(shù)都比較簡單直觀,但Jaccard 系數(shù)考慮了節(jié)點本身的度數(shù),從而能夠區(qū)分不同節(jié)點的重要程度。此外,兩者都為每個匹配的鄰居賦予相同的權(quán)重,但實際中某些鄰居可能具有不同的影響力或作用。為此,Adamic/Adar系數(shù)進行了改善。
3)Adamic/Adar 系數(shù)。其核心思想是存在關(guān)聯(lián)關(guān)系越多的用戶作為鄰居在計算中所分配權(quán)重越低,其定義為
Adamic/Adar 系數(shù)提升了算法的準確率,但相應(yīng)地增加了運算復(fù)雜度。此外,一些研究將待匹配的2 個(或多個)網(wǎng)絡(luò)通過預(yù)先匹配用戶整合為一個統(tǒng)一網(wǎng)絡(luò),然后在這個統(tǒng)一網(wǎng)絡(luò)上進行網(wǎng)絡(luò)表示學習,進而獲得候選用戶對的有效特征表示,例如MGGE 先將2 個網(wǎng)絡(luò)進行合并,然后利用社交網(wǎng)絡(luò)在結(jié)構(gòu)上的高階鄰近性和面向?qū)R任務(wù)的特性來構(gòu)造網(wǎng)絡(luò)表示學習模型[35]。
對于單個用戶的網(wǎng)絡(luò)結(jié)構(gòu)特征,研究者大多采取諸如DeepWalk[36]、LINE[37]、TADW[38]、Node2vec[39]、Struc2vec[40]、GAT[41]等的網(wǎng)絡(luò)表示學習的方法進行特征學習。此外,一些異構(gòu)網(wǎng)絡(luò)表示學習方法,如TransE[42]及其擴展等也可以直接運用于社交網(wǎng)絡(luò)結(jié)構(gòu)的特征提取。表1 示出本文闡述的各種特征抽取方法。
表1 特征抽取方法對比
一般來說,用戶對齊方法總體上可以劃分為2 大類:基于規(guī)則的方法和基于統(tǒng)計學習的方法?;谝?guī)則的方法首先從社交網(wǎng)絡(luò)平臺用戶數(shù)據(jù)中人工挑選一組適合的用戶屬性,再針對每個屬性設(shè)計評分規(guī)則,最后通過匹配算法來實現(xiàn)跨社交網(wǎng)絡(luò)的用戶對齊,這部分內(nèi)容將在3.1 節(jié)進行詳細闡述?;诮y(tǒng)計學習的方法,也稱為基于統(tǒng)計機器學習的方法[43],通過特征工程或表示學習來抽取用戶特征,并訓練預(yù)測模型來進行用戶對齊,這類方法是當前跨社交網(wǎng)絡(luò)用戶對齊研究的主流方法,將在3.2 節(jié)進行詳細介紹。
此外,由于用戶對齊問題與傳統(tǒng)的網(wǎng)絡(luò)對齊[44](network alignment)和知識庫實體對齊[45](knowledge base entity alignment)在問題設(shè)置、研究方法、評估方法等方面比較相似,因此,網(wǎng)絡(luò)對齊和實體對齊的一些方法也可以適用于用戶對齊問題,這部分內(nèi)容將在第3 章相關(guān)部分進行概述。
基于規(guī)則的方法是用戶對齊問題的重要方法,早期的大量研究建立在這種方法之上。一個典型的基于規(guī)則的用戶對齊方法有4 個步驟。
步驟1,通過數(shù)據(jù)預(yù)處理從社交網(wǎng)絡(luò)中挑選出對當前任務(wù)有用的屬性,如用戶名、出生日期、工作單位、朋友關(guān)系等。
步驟2,對每個屬性設(shè)計相應(yīng)的評分規(guī)則,并計算候選集中待匹配用戶對的各項評分。
步驟3,將候選用戶對的各項評分進行加權(quán)求和,得到該候選用戶對的匹配度。
步驟4,通過一個特定匹配算法進行用戶對齊。
給定一個候選用戶對 (ui,uj)及其對應(yīng)的屬性集合 K,通過特征抽取方法,用sk(ui,uj)表示該候選用戶對的第k個特征的評分,則該用戶對的匹配度Sij可以表示為
其中 αk∈[0,1]表 示第k個特征的權(quán)重系數(shù)。下面介紹一些常見的用戶匹配算法。
3.1.1 匹配度最大化用戶對齊算法
在獲得候選用戶對的匹配度以后,一種最直觀的用戶對齊方法是將候選集中具有與目標用戶最大匹配度的候選用戶作為對齊用戶。早期研究大多利用用戶公開的屬性信息來進行用戶對齊。例如:Zafarani 等[6]直接利用待匹配用戶的用戶名進行字符串模式匹配;Iofciu 等[46]結(jié)合用戶名的字符串相似性和標簽(Tag)模式相似性來搜索對齊用戶。用戶屬性信息通常比較容易獲得,但不同的社交網(wǎng)絡(luò)之間的用戶屬性可能差異極大,僅僅依靠用戶屬性可能難以取得比較好的對齊效果。用戶之間的關(guān)系反映了用戶在網(wǎng)絡(luò)中的拓撲結(jié)構(gòu)特征,為跨網(wǎng)絡(luò)的用戶識別提供了重要線索。因此,一些研究者通過用戶在網(wǎng)絡(luò)中的拓撲結(jié)構(gòu)來識別匹配用戶。例如:CPCC 設(shè)計了3 個基于網(wǎng)絡(luò)結(jié)構(gòu)的相似性指標,并通過綜合比較候選用戶對的結(jié)構(gòu)相似度來發(fā)現(xiàn)匹配用戶[24];馮朔等[47]借鑒圖論中最大公共子圖的思想來定義用戶之間匹配度,匹配度越高代表2 個用戶有越高的概率是同一自然人。社交網(wǎng)絡(luò)中用戶之間關(guān)系可能非常嘈雜,而大規(guī)模社交網(wǎng)絡(luò)的完整結(jié)構(gòu)信息通常難以獲取,單純依靠網(wǎng)絡(luò)結(jié)構(gòu)特征的用戶對齊方法也有其局限性;因此,研究者往往把用戶的屬性特征和網(wǎng)絡(luò)結(jié)構(gòu)特征相結(jié)合,以提高預(yù)測準確率。例如:Labitzke 等[48]提出通過比較用戶朋友的用戶名來發(fā)現(xiàn)匹配用戶;DCIM 基于用戶發(fā)布的文章和好友關(guān)系定義了動態(tài)核心興趣度的概念,然后采用余弦相似度來計算目標用戶對之間匹配度[49]。
為了進一步提高預(yù)測準確性,一些算法在最大匹配度規(guī)則上設(shè)置了約束。約束主要包括2 種類型。
1)只有當最大匹配度達到某個閾值的候選者才被識別為匹配用戶對。例如:Vosecky 等[7]提出了一個字符串相似度算法,將用戶之間的多個文本屬性(包括用戶名、E-mail、生日等)的相似度進行加權(quán)求和,再通過一個閾值來過濾相似度較低的候選用戶對;Perito 等[32]討論了用戶名的獨特性,通過用戶名相似性來識別匹配用戶,并用一個閾值來調(diào)節(jié)算法的查準率和查全率。
2)一對一匹配約束。基于最大匹配度的方法簡單、直觀,但沒有考慮匹配結(jié)果的唯一性,輸出的結(jié)果可能存在一對多(即一個網(wǎng)絡(luò)中的某用戶和另外一個網(wǎng)絡(luò)中的多個用戶相匹配)、多對多的情況;因此,研究者提出了一對一匹配約束。例如:Narayanan 等[21]要求候選用戶對在2 個網(wǎng)絡(luò)中彼此都具有最大匹配度(又稱為“雙向最大匹配度”),且匹配度達到一個閾值方可進行對齊;Buccafurri等[50]考慮了用戶名的文本相似度和基于共同鄰居計數(shù)的網(wǎng)絡(luò)結(jié)構(gòu)相似度,通過一個閾值過濾相似度較低的候選用戶對,再設(shè)置另一個閾值識別對齊用戶;User-Matching 計算了候選用戶對的基于網(wǎng)絡(luò)結(jié)構(gòu)特征的匹配度,然后通過一個帶閾值的雙向最大匹配度算法來搜索匹配用戶對[51];POIS 先通過地理位置軌跡特征來計算候選用戶對匹配度,然后在二部圖上進行一對一用戶匹配[52]。
3.1.2 基于傳播的用戶對齊方法
基于傳播的用戶對齊方法可以利用網(wǎng)絡(luò)拓撲結(jié)構(gòu)以及已經(jīng)獲取到的匹配用戶信息來迭代地發(fā)現(xiàn)新的匹配用戶。設(shè) N(ui)和分別表示用戶ui及uj的相鄰用戶的集合,傳播算法通過一個基于鄰居特征的匹配函數(shù)來計算新的候選用戶對的匹配度,并進行多次迭代,直到?jīng)]有發(fā)現(xiàn)新的匹配用戶對為止。依據(jù)候選集的生成方式,傳播方法可采取2 種傳播規(guī)則。
1)窮舉法,即從剩余的未匹配用戶對中選擇候選用戶對。例如:Narayanan 等[21]通過搜索具有相同度數(shù)和鄰居數(shù)的k團(k-clique)來獲取初始對齊用戶,然后重復(fù)從所有未匹配用戶中隨機選取候選用戶對進行匹配;User-Matching 首先通過基于共同鄰居計數(shù)的規(guī)則來識別匹配用戶,然后用一個預(yù)設(shè)條件來挑選新的候選用戶對,逐步發(fā)現(xiàn)更多的對齊用戶[51]。
2)相鄰搜索,即從現(xiàn)有匹配用戶對的鄰居中選擇候選用戶對。例如:Buccafurri 等[50]和Shen 等[53]綜合利用了用戶屬性相似度和網(wǎng)絡(luò)結(jié)構(gòu)相似度來識別對齊用戶,然后沿著相鄰用戶進行傳播;Bennacer等[16]則通過基于用戶名、姓名、Email 等屬性相似度的規(guī)則來迭代搜索匹配用戶對;FRUI 僅依靠朋友關(guān)系特征來計算用戶匹配度,然后沿著匹配用戶的鄰居關(guān)系進行傳播[54];CLA 基于用戶鏈接信息定義了朋友匹配度,并結(jié)合用戶名、URL、E-mail 等屬性相似度來迭代發(fā)現(xiàn)對齊用戶[25]。
此外,知識庫實體對齊方法中也有基于傳播的算法可供借鑒,例如SiGMa 利用實體屬性和鄰居結(jié)構(gòu)特征計算候選實體對的相似度評分,并一對一進行實體對齊,然后沿著相鄰實體迭代搜索新的匹配實體對[55]。表2 匯總了本文闡述的基于規(guī)則的用戶對齊方法。
表2 基于規(guī)則的用戶對齊方法
隨著機器學習和深度學習技術(shù)的快速發(fā)展,大量基于統(tǒng)計學習的方法也被應(yīng)用到用戶對齊領(lǐng)域,并取得了豐碩的研究成果?;诮y(tǒng)計學習的用戶對齊方法主要有2 種工作模式:一是通過特征工程人工提取用戶特征,然后在標記數(shù)據(jù)的基礎(chǔ)上訓練分類模型;二是通過表示學習的方法學得適應(yīng)于用戶對齊任務(wù)的最佳用戶表示,然后再進行跨網(wǎng)絡(luò)用戶匹配。依據(jù)使用標注數(shù)據(jù)數(shù)量的不同,基于統(tǒng)計學習的用戶對齊方法又可以分為基于監(jiān)督學習(supervised learning)、基于半監(jiān)督學習(semi-supervised learning)和基于無監(jiān)督學習(unsupervised learning)的用戶對齊方法。
3.2.1 基于監(jiān)督學習的用戶對齊方法
基于監(jiān)督學習的用戶對齊方法需要將預(yù)先匹配的用戶對作為標記數(shù)據(jù),然后使用訓練好的模型對待匹配的候選用戶對進行預(yù)測。一個典型的監(jiān)督學習模型[56]有以下3 個步驟。
步驟1,選擇合適模型,使用訓練數(shù)據(jù)對模型進行訓練,并進行參數(shù)調(diào)節(jié)。
步驟2,對以上訓練出來的模型進行測試和評估,并進一步調(diào)節(jié)參數(shù)或改進模型。
步驟3,將測試好的模型應(yīng)用于實際數(shù)據(jù)進行預(yù)測。
基于監(jiān)督學習的方法一般將用戶對齊任務(wù)設(shè)置為分類問題,其訓練數(shù)據(jù)包括2 類實例:一是真實的匹配用戶對,稱為“正例(positive instances)”;二是非匹配用戶對,稱為“負例(negative instances)”。集合表示所有候選用戶對,M=屬于同一自然人?Q表 示正例集合,N=Q?M表示負例集合。候選用戶對集合 Q又 可以劃分為訓練集 Q′和測試集 Q′′?;诒O(jiān)督學習的用戶對齊模型目標在于在訓練集 Q′上學得一個映射函數(shù) F :UX×UY→{0,1}。早期的基于監(jiān)督學習的用戶對齊方法通常在人工提取特征的基礎(chǔ)上訓練分類器模型。給定一個候選用戶對(ui,uj)及 其對應(yīng)的屬性集合 K,通過特征抽取,用sk(ui,uj)表 示該候選用戶對的第k個特征的評分,則可以用一個 |K|維 向量fij來表示該用戶對,即
在此基礎(chǔ)上,一些常見的分類器,如支持向量機[57](support vector machine,SVM)、決 策 樹[58](decision tree)、樸素貝葉斯[59](na?ve bayes)等可以用來構(gòu)建有監(jiān)督的用戶對齊模型。例如:Motoyama 等[31]提取了候選用戶對的文本屬性特征(包括生日、地址、教育背景等),然后通過提升技術(shù)[60](Boosting)將多個弱分類器進行整合;Malhotra 等[61]和Zhang 等[9]則全面考察了包括圖像特征(如頭像、臉部照片等)在內(nèi)的多種用戶特征來構(gòu)建分類器模型,并進行有監(jiān)督的用戶對齊;Bartunov 等[62]、Peled 等[63]以及Li 等[20]結(jié)合用戶文本屬性和網(wǎng)絡(luò)結(jié)構(gòu)特征來構(gòu)建分類模型;MOBIUS 從用戶行為模式中提取特征,并在決策樹、樸素貝葉斯、隨機森林、支持向量機、邏輯斯蒂回歸等多個分類器上取得了近似的用戶對齊效果[64];朱俊星[65]對中文用戶名的特性進了研究,然后在用戶名相似度評分的基礎(chǔ)上訓練多個分類器。
與此同時,一些研究者在分類器模型基礎(chǔ)上結(jié)合了基于規(guī)則的匹配算法,例如:MNA 通過擴展的共同鄰居計數(shù)、Jaccard 系數(shù)、Adamic/Adar 系數(shù)提取了用戶文本屬性特征、用戶關(guān)系特征和用戶時空分布特征,然后在訓練分類器模型的基礎(chǔ)上提出了一個一對一的穩(wěn)定匹配算法[8];Zhang 等[17]利用了用戶昵稱、地址、朋友關(guān)系等特征來構(gòu)建分類器模型搜索對齊用戶,并沿著匹配用戶的鄰居進行迭代傳播。
近年來,基于有監(jiān)督表示學習的用戶對齊方法越來越受到研究者的重視。這類方法有2 種工作模式。
1)將待匹配的2 個網(wǎng)絡(luò)通過表示學習映射到同一低維向量空間中,使得真實匹配用戶對在向量空間中的距離最小。例如PALE 利用網(wǎng)絡(luò)結(jié)構(gòu)信息,通過一個映射函數(shù)將源網(wǎng)絡(luò)投影到目標網(wǎng)絡(luò),從而使匹配用戶之間的距離最小化[66]。與之類似,ULink 通過學習一個投影矩陣將來自多個社交網(wǎng)絡(luò)的用戶映射到同一個潛在用戶空間中[10]。ABNE 利用社交網(wǎng)絡(luò)中用戶的關(guān)注和粉絲關(guān)系并結(jié)合圖注意力機制[41](graph attention network,GAT)來進行網(wǎng)絡(luò)表示學習[67]。KGEUA 采用TransE[42]模型將2 個網(wǎng)絡(luò)嵌入到同一個向量空間,再結(jié)合共同朋友計數(shù)來識別匹配用戶[68]。DPlink 獲取了用戶活動的時空位置信息,構(gòu)造了基于深度神經(jīng)網(wǎng)絡(luò)的位置編碼器、軌跡編碼器以及分類器模型來實現(xiàn)用戶對齊[69]。MGGE 利用社交網(wǎng)絡(luò)在結(jié)構(gòu)上的高階鄰近性和面向?qū)R任務(wù)的特性來進行表示學習,最后通過比較向量相似度來識別匹配用戶[35]。
2)通過表示學習自動抽取候選用戶對的特征,然后通過構(gòu)建分類器進行用戶對齊。例如IAUE[70]在進行網(wǎng)絡(luò)粗粒化的基礎(chǔ)上采用node2vec[39]模型進行圖表示學習,訓練分類器來搜索對齊用戶,最后通過穩(wěn)定婚姻匹配算法[71]篩選出一對一的匹配用戶;MEgo2Vec[15]采用卷積神經(jīng)網(wǎng)絡(luò)將待匹配用戶對的自我中心網(wǎng)絡(luò)進行嵌入,然后通過一個二元分類器輸出預(yù)測結(jié)果;SAUIL[72]挖掘了社交網(wǎng)絡(luò)中用戶的網(wǎng)絡(luò)瀏覽行為,并通過一個孿生神經(jīng)網(wǎng)絡(luò)[73](siamese neural network)模型和分類器來識別對齊用戶。
3.2.2 基于無監(jiān)督學習的用戶對齊方法
在缺乏標記數(shù)據(jù)的情況下,研究者通過無監(jiān)督的機器學習來解決用戶對齊問題。目前,基于無監(jiān)督機器學習的用戶對齊方法主要有2 種模式。
1)首先在具有較強辨識度的屬性特征上設(shè)置一組規(guī)則來自動獲取標記數(shù)據(jù),然后進行有監(jiān)督的用戶對齊。例如:Liu 等[22]首先通過評估用戶名的稀有性來自動標記匹配用戶對,然后利用一系列相似性評估算法來提取候選用戶特征,最后采用二元分類器模型來識別對齊用戶;CoLink[19]定義了一組規(guī)則用于自動生成標記數(shù)據(jù),然后在協(xié)同訓練框架下,構(gòu)建一個基于用戶屬性的序列到序列[74](sequence to sequence)神經(jīng)網(wǎng)絡(luò)模型和一個基于共同鄰居計數(shù)的相似度模型,使它們迭代相互增強。
2)首先通過無監(jiān)督的表示學習抽取候選用戶特征,然后利用對齊算法識別匹配用戶。例如UMA[75]和FRUI-P[76]僅利用網(wǎng)絡(luò)結(jié)構(gòu)特征進行對齊模型構(gòu)建。UMA 討論了多個待匹配網(wǎng)絡(luò)之間對齊用戶的傳遞性,并考慮了一對一匹配約束。FRUI-P 通過隨機游走和CBOW[77]模型進行網(wǎng)絡(luò)表示學習,使得對齊用戶之間在潛在向量空間中的距離最小。UUIL[78]則采用了一個全新的研究路徑,它將社交網(wǎng)絡(luò)中的全體用戶看作一個離散概率分布,構(gòu)建了一個瓦瑟斯坦對抗生成網(wǎng)絡(luò)[79](wasserstein GAN)模型和一個正交矩陣變換模型,通過最小化2 個網(wǎng)絡(luò)對應(yīng)的分布來學習2 個網(wǎng)絡(luò)之間的映射,使得同一自然人之間的距離最近。
此外,網(wǎng)絡(luò)對齊方法中也有基于無監(jiān)督表示學習的模型可供參考。例如REGAL 首先提取了節(jié)點網(wǎng)絡(luò)鄰近性和屬性文本相似性特征,然后通過矩陣分解來進行網(wǎng)絡(luò)表示學習,最后按照相似度排名來進行網(wǎng)絡(luò)對齊[80]。
3.2.3 基于半監(jiān)督學習的用戶對齊方法
無監(jiān)督方法不依賴于標記數(shù)據(jù),與有監(jiān)督方法相比,其性能相對較低。一些基于半監(jiān)督學習的方法被用來解決用戶對齊問題。半監(jiān)督學習方法能夠充分利用少量標記數(shù)據(jù)和大量未標記數(shù)據(jù)來獲取數(shù)據(jù)潛在分布,從而有效提高用戶對齊模型效果。IONE[81]和DeepLink[82]僅依靠網(wǎng)絡(luò)結(jié)構(gòu)特征來進行模型構(gòu)建。IONE 將用戶的關(guān)注/粉絲關(guān)系表示為輸入/輸出背景向量,在一個統(tǒng)一的優(yōu)化框架下同時解決了網(wǎng)絡(luò)嵌入問題和用戶對齊問題;DeepLink 在網(wǎng)絡(luò)表示學習的基礎(chǔ)上構(gòu)建了一個基于半監(jiān)督強化學習的用戶對齊模型,并結(jié)合了對偶學習(dual learning)機制,充分利用未標記數(shù)據(jù)來提升模型效果。MAH[83]、COSNET[18]、MSUIL[19]和dNAME[84]都結(jié)合了用戶文本屬性和網(wǎng)絡(luò)結(jié)構(gòu)特征來識別匹配用戶。MAH 提出一種基于超圖的表示學習模型,并提取用戶名特征來改善模型效果;COSNET 綜合考慮了用戶屬性匹配、網(wǎng)絡(luò)鄰居結(jié)構(gòu)匹配和多個網(wǎng)絡(luò)的全局一致性,采用一個半監(jiān)督的能量模型來迭代地發(fā)現(xiàn)對齊用戶;MSUIL 首先采用TADW[38]模型做無監(jiān)督屬性網(wǎng)絡(luò)嵌入(attributed network embedding),然后在UUIL 的基礎(chǔ)上結(jié)合多個網(wǎng)絡(luò)之間的交互依賴性將每對社交網(wǎng)絡(luò)映射到一個向量空間;dNAME 關(guān)注模型的可解釋性,利用圖卷積神經(jīng)網(wǎng)絡(luò)(graph convolution network,GCN)來進行網(wǎng)絡(luò)表示學習,并通過對抗式學習范式來進一步區(qū)分對齊用戶及其鄰居。HYDRA[85]深入挖掘包括了圖像特征在內(nèi)的用戶行為軌跡特征和結(jié)構(gòu)一致性特征,提出了一個半監(jiān)督的多目標優(yōu)化框架來進行跨社交網(wǎng)絡(luò)用戶對齊。表3 匯總了本文闡述的用戶對齊算法。
表3 基于統(tǒng)計學習的用戶對齊方法
社交網(wǎng)絡(luò)平臺的用戶數(shù)據(jù)通常由網(wǎng)絡(luò)服務(wù)提供商進行維護和存儲。研究者可以通過應(yīng)用程序接口(API)、網(wǎng)絡(luò)爬蟲等方式進行讀取。單個網(wǎng)絡(luò)用戶數(shù)據(jù)的獲取比較容易。然而,跨社交網(wǎng)絡(luò)平臺用戶對齊的研究需要獲取不同網(wǎng)絡(luò)之間相同用戶的資料(進行數(shù)據(jù)標注),加之社交網(wǎng)絡(luò)規(guī)模龐大、平臺隱私保護等問題,因此,大規(guī)模獲取跨社交網(wǎng)絡(luò)用戶數(shù)據(jù)仍然是比較困難的。與此同時,不同研究方法往往采用了不同的用戶特征,因此,能夠提供全部用戶特征的數(shù)據(jù)集的獲取難度很大。學術(shù)界目前還沒有廣泛認可的用戶對齊基準數(shù)據(jù)集。Shu 等[27]歸納了用戶對齊數(shù)據(jù)集的合成方法,并介紹了早期研究中采用的一些數(shù)據(jù)集。下面補充介紹一些近年來公布的可用數(shù)據(jù)集。
1)CLF/IONE[86]。CLF[87]提供了一對包括了用戶帖子和地理位置特征的社交網(wǎng)絡(luò)數(shù)據(jù)集(Foursquare-Twitter),其中Foursquare 由5 392 個用戶及其之間的關(guān)系構(gòu)成,Twitter 包含了5 223 個用戶及其之間的關(guān)系。IONE[81]僅包含了該數(shù)據(jù)集的網(wǎng)絡(luò)結(jié)構(gòu)特征。
2)MEgo2Vec[88]。它提供了3 個學術(shù)合作網(wǎng)絡(luò)和2 個社交網(wǎng)絡(luò)數(shù)據(jù)集。其中,學術(shù)合作網(wǎng)絡(luò)由Aminer(學術(shù)搜索和挖掘服務(wù))、LinkedIn(求職類社交網(wǎng)絡(luò))以及VideoLectures(學術(shù)在線視頻資料庫)組成,包含了用戶名、工作單位、教育背景和研究方向/技能等用戶屬性信息和用戶關(guān)系信息。社交網(wǎng)絡(luò)數(shù)據(jù)由Twitter 和MySpace 組成,包含了用戶名、帳戶名稱和地理位置等用戶屬性信息。
3)DPlink[89]。它提供了一組包括了用戶位置軌跡特征的移動網(wǎng)絡(luò)數(shù)據(jù)集,由2 844 個手機用戶和1 761 個微博用戶在一周內(nèi)的位置信息組成(已做匿名化處理)。其中手機用戶包含325 215 個位置記錄,微博用戶包含49 651 個位置記錄。
4)MAUIL[90]。它提供了一組包含用戶名、地理位置和用戶帖子信息的社交網(wǎng)絡(luò)數(shù)據(jù)集(微博–豆瓣)和一組包含用戶名、工作單位和論文名稱的學術(shù)合作網(wǎng)絡(luò)數(shù)據(jù)集[91](DBLP17-DBLP19)。其中,社交網(wǎng)絡(luò)數(shù)據(jù)集包含9 714 個微博用戶以及9 526 個豆瓣用戶;學術(shù)合作網(wǎng)絡(luò)從DBLP 數(shù)據(jù)庫(計算機科學期刊和論文集)2017 年和2019 年的2 個時間點的快照中分別提取了9 086 個作者和9 325 個作者。
評價指標用于度量算法的準確性和全面性。按照問題設(shè)置的不同,用戶對齊任務(wù)的評價指標可以分為面向分類問題和面向排名問題的評價指標。對于分類問題,一個實例包括正例(positive instance)和負例(negative instance)2 種情況,因此算法運行結(jié)果會出現(xiàn)4 種情況:1)真正類(true positive,TP),一個正例被預(yù)測為正類;2)假正類(false positive,FP),一個負例被預(yù)測為正類;3)真負類(true negative,TN),一個負例被預(yù)測為負類;4)假負類(false negative,FN),一個正例被預(yù)測為負類。
分類問題常用的評價指標有準確率(Accuracy)、精度(Precision)、召回率(Recall)、F1值。
1)準確率,指被算法正確分類的實例數(shù)與總實例數(shù)的比例,即
2)精度,也稱為查準率,指被算法劃分為正類的實例中,真正類的占比,即
3)召回率,也稱為查全率,指所有正例中,被算法劃分為真正類的占比,即
4)F1值,也稱為F-measure 或f1-score,是綜合考慮精度和召回率的一個評價指標,定義為精度和召回率的調(diào)和均值,即
對于排名問題,算法的輸出為一個候選答案的排序,并將排名的第一位候選答案作為預(yù)測結(jié)果輸出。常用的面向排名模型的評分指標有Hits@k、Precision@k、MRR 等。這些指標的評分越高,表明算法性能越好。
1)Hits@k,即真實樣例在預(yù)測結(jié)果中排前k(k≥1)名的平均分數(shù),其計算公式為
式中:T 表示候選樣例集合;pos(·)表示真實樣例在所有候選樣例評分列表中的位置;Ipos(x)≤k(·)為一個指示函數(shù),當p os(x)≤k時返回1,否則返回0。
2)Precision@k,即真實樣例在預(yù)測結(jié)果中排前k(k≥1)名的加權(quán)平均分數(shù)。與Hits@k 的不同之處在于,Precision@k 對排名靠前的樣例賦予了更高的權(quán)重,其計算公式為
其中,h it(·)表示真實樣例在前k個(top-k)候選樣例評分列表中的位置,當真實樣例不在top-k列表中時,返回k+1。
3)MRR,是一個信息檢索領(lǐng)域常用的評價指標,預(yù)測結(jié)果中第1 個匹配則分數(shù)為1,第2 個匹配則分數(shù)為1/2,以此類推,第n個匹配則分數(shù)為1/n。最后取所有結(jié)果的平均值,計算公式為
跨平臺社交網(wǎng)絡(luò)的用戶對齊技術(shù)結(jié)合了數(shù)據(jù)挖掘、機器學習和自然語言處理技術(shù)的一些方法和技術(shù),是一個綜合性的研究方向。近年來,用戶對齊問題受到越來越多研究者的關(guān)注,并在數(shù)據(jù)預(yù)處理、特征抽取、對齊模型等方向取得了大量研究成果,但仍然存在一些亟待解決的問題和挑戰(zhàn)。
5.1.1 數(shù)據(jù)獲取的挑戰(zhàn)
當前社交網(wǎng)絡(luò)用戶對齊研究的一個主要問題就是缺少可供研究者測試和評價算法的統(tǒng)一數(shù)據(jù)集。許多算法仍使用自己構(gòu)建的數(shù)據(jù)集進行測試。為了獲取算法評價所需的數(shù)據(jù),研究人員面臨以下挑戰(zhàn)。
1)用戶隱私。大部分社交網(wǎng)絡(luò)平臺都會注重對用戶隱私進行保護,比較敏感的用戶信息,如電話號碼、Email 地址等往往不對外公開[20]。研究者需要在不侵犯用戶個人隱私的情況下訪問和使用用戶數(shù)據(jù)進行數(shù)據(jù)集的構(gòu)建。
2)訪問受限。一些在線社交網(wǎng)站提供API 來訪問它們的網(wǎng)絡(luò)數(shù)據(jù),但是它們通常只面向網(wǎng)站應(yīng)用開發(fā)人員,并設(shè)置了訪問許可限制、訪問速率限制等(如微博),這使得大規(guī)模用戶數(shù)據(jù)的獲取難以實現(xiàn)。
5.1.2 數(shù)據(jù)質(zhì)量的挑戰(zhàn)
當今的在線社交網(wǎng)絡(luò)數(shù)據(jù)龐大、嘈雜、不完整且高度非結(jié)構(gòu)化[11],為跨社交網(wǎng)絡(luò)用戶對齊研究帶來巨大挑戰(zhàn),主要表現(xiàn)在以下幾方面。
1)用戶屬性的不一致。社交網(wǎng)絡(luò)平臺一般允許用戶選擇性地公開展示個人資料且對用戶填寫資料的真實性不加關(guān)注[35],而用戶自身出于安全考慮也可能不愿意公布真實的個人信息,這就造成了不同平臺之間用戶信息的不一致。此外,文本格式、數(shù)量單位、縮寫形式、語種、錄入錯誤等也會給匹配過程帶來巨大困難。
2)網(wǎng)絡(luò)結(jié)構(gòu)的不一致。不同社交網(wǎng)絡(luò)往往提供了具有差異化的在線服務(wù),單個網(wǎng)絡(luò)只反映了用戶真實世界社交圈的一個子集。例如,一個用戶在豆瓣上關(guān)注了某位作者,但他們在微博上則不一定是朋友。這就使得一些依靠網(wǎng)絡(luò)結(jié)構(gòu)特征的用戶對齊方法難以取得良好的效果。
5.2.1 多語言社交網(wǎng)絡(luò)用戶對齊
隨著社交網(wǎng)絡(luò)在全球的迅速普及和發(fā)展,各種語言的社交網(wǎng)絡(luò)平臺紛紛建立,不同語言社交網(wǎng)絡(luò)平臺之間的信息傳播越發(fā)頻繁。跨語言社交網(wǎng)絡(luò)平臺的用戶對齊能促進信息傳播、網(wǎng)絡(luò)融合及網(wǎng)絡(luò)安全等領(lǐng)域問題的研究。目前跨語言的社交網(wǎng)絡(luò)用戶對齊研究還很少,一些跨語言知識庫實體對齊的研究[92?95]則可供借鑒。
5.2.2 多源社交網(wǎng)絡(luò)用戶對齊
當前用戶對齊的研究大多集中在2 個網(wǎng)絡(luò)平臺之間的對齊,當涉及2 個以上社交網(wǎng)絡(luò)的用戶對齊時,需要考慮多個網(wǎng)絡(luò)之間的相互依賴關(guān)系[19]以及對齊用戶在多個網(wǎng)絡(luò)之間的傳遞性[75],這就為多源場景的用戶對齊研究帶來了新的挑戰(zhàn)和機遇。
5.2.3 用戶對齊與隱私保護
近年來,隱私保護受到越來越多的關(guān)注,歐盟通用數(shù)據(jù)保護條例(GDPR[96])的出臺更是從法律層面對用戶數(shù)據(jù)的使用做出了嚴格規(guī)定。在不采用個人身份識別信息,特別是敏感身份信息,如完整的姓名、身份證號碼、手機號碼、電子郵箱地址等前提下選取適合的用戶特征來構(gòu)建用戶對齊模型是未來研究的一個重要方向[72]。
本文對近年來跨社交網(wǎng)絡(luò)用戶對齊技術(shù)的主要成果進行了綜述,在對用戶對齊相關(guān)概念、技術(shù)和方法深入研究的基礎(chǔ)上,歸納了一個用戶對齊問題研究的框架,同時從數(shù)據(jù)預(yù)處理、候選集生成、標記數(shù)據(jù)獲取、特征抽取和對齊方法5 方面進行了概括,并重點對主流的用戶對齊方法進行了詳細闡述,最后探討了當前用戶對齊研究工作面臨的挑戰(zhàn)和未來的研究方向??缟缃痪W(wǎng)絡(luò)用戶對齊的研究工作目前仍處于高速發(fā)展階段,雖然取得了一定的成果,但仍有大量的問題亟待解決。隨著社交網(wǎng)絡(luò)平臺的不斷發(fā)展以及網(wǎng)絡(luò)數(shù)據(jù)規(guī)模的不斷增大,未來將會有更多的研究方法和成果涌現(xiàn)出來,推動社交媒體研究不斷向前發(fā)展。