文/龔真強(qiáng) (Neil Gong)
社交網(wǎng)絡(luò)中的用戶屬性預(yù)測(cè)
文/龔真強(qiáng) (Neil Gong)
學(xué)術(shù)專欄
Neil Gong
Neil Gong 2010年本科畢業(yè)于中國科學(xué)技術(shù)大學(xué)計(jì)算機(jī)系,2015年博士畢業(yè)于加州大學(xué)伯克利分校,師從國際著名計(jì)算機(jī)安全科學(xué)家Dawn Song。Neil Gong目前是愛荷華州立大學(xué)電子和計(jì)算機(jī)工程系助理教授。Neil Gong的研究方向主要包括社交網(wǎng)絡(luò)中的安全、隱私、以及挖掘,用戶認(rèn)證,以及移動(dòng)計(jì)算中的安全、隱私、以及挖據(jù)。Neil Gong的研究方法涉及大規(guī)模圖挖掘、機(jī)器學(xué)習(xí)、自然語言處理、以及應(yīng)用密碼學(xué)。
社交網(wǎng)絡(luò)已經(jīng)成為不可或缺的網(wǎng)絡(luò)平臺(tái)。用戶用社交網(wǎng)絡(luò)相互通信、傳播信息、以及擴(kuò)大社會(huì)影響力。在一個(gè)社交網(wǎng)絡(luò)中,一個(gè)用戶通常有朋友、行為數(shù)據(jù)、內(nèi)容數(shù)據(jù)、以及屬性數(shù)據(jù)。舉例來說,行為數(shù)據(jù)可以是一個(gè)用戶喜歡過的網(wǎng)頁、電影、書或移動(dòng)App。內(nèi)容數(shù)據(jù)可以是一個(gè)用戶寫的博客、上傳的照片等。屬性數(shù)據(jù)包含用戶的身份、性別、年齡、性取向、政治傾向、宗教信仰等等。有些用戶在社交網(wǎng)絡(luò)中公開自己的朋友,行為,內(nèi)容,以及屬性數(shù)據(jù)。然而有些用戶選擇不公開或者不提供自己的某些數(shù)據(jù),比如各種屬性??偟膩碚f,一個(gè)社交網(wǎng)絡(luò)可以看作是公開數(shù)據(jù)和隱私數(shù)據(jù)的結(jié)合。
本文介紹針對(duì)社交網(wǎng)絡(luò)用戶的屬性預(yù)測(cè)攻擊。屬性預(yù)測(cè)是社交網(wǎng)絡(luò)用戶面臨的一個(gè)嚴(yán)重的隱私和安全攻擊。在一個(gè)屬性預(yù)測(cè)攻擊中,攻擊者首先收集社交網(wǎng)絡(luò)中用戶的公開數(shù)據(jù),然后利用機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘方法來預(yù)測(cè)目標(biāo)用戶的隱私屬性。攻擊者可以是任何對(duì)用戶屬性感興趣的個(gè)人或組織,比如社交網(wǎng)絡(luò)供應(yīng)商、廣告商、黑客、數(shù)據(jù)經(jīng)紀(jì)商等。社交網(wǎng)絡(luò)供應(yīng)商和廣告商可以利用預(yù)測(cè)的屬性來提供定向廣告,從而提高盈利。黑客可以利用預(yù)測(cè)的屬性來進(jìn)行定向的、更有效的社交工程攻擊,比如黑客如果知道一個(gè)用戶畢業(yè)的學(xué)校,黑客給這個(gè)用戶發(fā)送惡意網(wǎng)址的時(shí)候,可以將該網(wǎng)址描述為與該用戶學(xué)校相關(guān)的信息,從而提高用戶點(diǎn)擊惡意網(wǎng)址的概率。數(shù)據(jù)經(jīng)紀(jì)商可以將預(yù)測(cè)的屬性數(shù)據(jù)賣給廣告商、銀行,以及保險(xiǎn)公司等,從而獲得經(jīng)濟(jì)利益。更為嚴(yán)重的是,攻擊者可以利用預(yù)測(cè)的屬性將用戶在不同社交網(wǎng)絡(luò)的賬戶關(guān)聯(lián)起來,甚至將網(wǎng)絡(luò)中的數(shù)據(jù)和線下數(shù)據(jù)關(guān)聯(lián)起來,形成更全面的用戶數(shù)據(jù),從而造成更大的隱私和安全隱患。
有些用戶在發(fā)表一些敏感的文字內(nèi)容時(shí),常常選擇匿名。這些敏感的文字可能涉及政治話題,或者敏感的個(gè)人生活、健康問題。所以,準(zhǔn)確的預(yù)測(cè)這些敏感文字的作者會(huì)對(duì)作者造成極大的傷害。在網(wǎng)絡(luò)犯罪取證中,IP地址可以作為一個(gè)基本的定位作者的信息。然而,作者可以利用VPN,Tor等手段來回避基于IP地址的分析。
圖1 社交-行為-屬性異構(gòu)圖示例
第一個(gè)攻擊基于寫作風(fēng)格的作者身份預(yù)測(cè)攻擊[1]。該攻擊的理論基礎(chǔ)是不同作者有不同的寫作風(fēng)格。具體的說,兩個(gè)作者在表達(dá)同一個(gè)事物時(shí),會(huì)選擇不同的字或詞語,或者對(duì)同一個(gè)字的使用頻率有所不同。比方說,一個(gè)用戶會(huì)頻繁地使用“我”,而另一個(gè)用戶可能會(huì)頻繁的使用“我們”。從機(jī)器學(xué)習(xí)的角度來看,作者身份預(yù)測(cè)攻擊是一個(gè)多類分類的問題。首先,攻擊者收集一些公開的文件,比如博客。攻擊者從每一個(gè)文件中提取出刻畫寫作風(fēng)格的特征。我們?cè)O(shè)計(jì)的特征包含某些特定刻畫寫作風(fēng)格的詞的頻率、句子的語法結(jié)構(gòu)等。提取出特征后,每一個(gè)文件被表示成一個(gè)高維的向量。然后攻擊者利用機(jī)器學(xué)習(xí)來訓(xùn)練分類器去區(qū)分開各個(gè)用戶。簡(jiǎn)單的說,給定一個(gè)文件,該分類器可以預(yù)測(cè)該文件的作者。當(dāng)攻擊者得到一個(gè)匿名文件時(shí),攻擊者首先提取出同樣的寫作風(fēng)格特征來將該文件表示成一個(gè)高維向量,然后利用提前訓(xùn)練好的分類器來預(yù)測(cè)該匿名文件的作者。
攻擊者可以使用任何分類器,比如說支持向量機(jī)。在文獻(xiàn)[1]中,我們嘗試了各種廣泛使用的分類器。我們發(fā)現(xiàn),作者身份可以被準(zhǔn)確的預(yù)測(cè)。具體地說,在我們的實(shí)驗(yàn)中,我們考慮十萬個(gè)用戶。給定任意一個(gè)用戶的文件,我們可以在20%的情況下準(zhǔn)確地預(yù)測(cè)這個(gè)文件的作者。對(duì)于某些文件而言,我們甚至可以在80%的情況下準(zhǔn)確預(yù)測(cè)文件作者!如果一個(gè)攻擊者不使用我們的攻擊,而是隨意猜測(cè),那么該攻擊者準(zhǔn)確預(yù)測(cè)作者身份的概率只有十萬分之一。另外,在文獻(xiàn)[1]中,我們只使用了基本的分類器。攻擊者可以利用更強(qiáng)大的分類器(比如深度學(xué)習(xí)、集成分類器)來進(jìn)一步提高準(zhǔn)確率。
第二個(gè)攻擊是基于社交朋友和行為的屬性預(yù)測(cè)攻擊[2]。常言道,物以類聚,人以群分。一個(gè)用戶的屬性和該用戶的朋友的屬性息息相關(guān)。舉例說,如果一個(gè)用戶一半的朋友畢業(yè)于加州大學(xué)伯克利分校,那么該用戶很大可能也是畢業(yè)于加州大學(xué)伯克利分校。另外如果一個(gè)用戶喜歡的應(yīng)用App大部分被中國人喜歡,那么該用戶也很有可能來自于中國?;谶@些觀察,我們提出了利用用戶的朋友和行為數(shù)據(jù)來預(yù)測(cè)用戶的隱私屬性。
結(jié)合朋友和行為面臨很大的挑戰(zhàn),因?yàn)檫@兩種數(shù)據(jù)有天壤之別。為了解決這個(gè)挑戰(zhàn),我們提出了一個(gè)社交-行為-屬性的異構(gòu)圖模型,把朋友、行為和屬性這三種迥然不同的數(shù)據(jù)結(jié)合在一起。圖1是一個(gè)社交-行為-屬性的異構(gòu)圖示例。一個(gè)社交-行為-屬性的異構(gòu)圖有三種類型的節(jié)點(diǎn),分別對(duì)應(yīng)用戶、行為對(duì)象和屬性值。相應(yīng)的,一個(gè)社交-行為-屬性的異構(gòu)圖有三種類型的邊,分別是用戶之間的邊、用戶和屬性值之間的邊、和用戶與行為對(duì)象之間的邊。用戶和屬性值之間的邊表示該用戶有該屬性值。用戶和行為對(duì)象之間的邊表示該用戶對(duì)該對(duì)象做出了某種行為,比如如果一個(gè)行為對(duì)象是一個(gè)移動(dòng)App,那么行為可以是喜歡、評(píng)論?;谏缃?行為-屬性的異構(gòu)圖模型,我們提出了一個(gè)新的基于圖挖掘的攻擊算法。對(duì)于一個(gè)目標(biāo)用戶,我們的算法通過分析社交-行為-屬性異構(gòu)圖的結(jié)構(gòu),得出每個(gè)屬性值屬于這個(gè)用戶的可能性,然后預(yù)測(cè)該目標(biāo)用戶的屬性值。
通過在多于一百萬Google用戶的數(shù)據(jù)集上測(cè)試了我們的攻擊算法,這些數(shù)據(jù)中包含了用戶的Google+朋友、屬性值、以及喜歡過或者評(píng)論過的Google Play上的移動(dòng)App、書、電影等。結(jié)果顯示,我們的攻擊算法可以在大約60%的情況下準(zhǔn)確預(yù)測(cè)一個(gè)用戶所居住的城市。對(duì)于某些用戶,準(zhǔn)確率甚至可以達(dá)到90%。
(作者單位為愛荷華州立大學(xué)電子和計(jì)算機(jī)工程系)
[1]Arvind Narayanan,Hristo Paskov,Neil Zhenqiang Gong,John Bethencourt,Richard Shin,Emil Stefanov,Dawn Song.“On the Feasibility of Internet-Scale Author Identification”. In IEEE Symposiumon Security&Privacy,2012.
[2]Neil Zhenqiang Gong,Bin Liu.“You are Who You Know and How You Behave:Attribute Inference Attacks via Users‘ Social Friends and Behaviors”. In USENIX Security Symposium,2016.