王平水,朱新峰
移動社交網(wǎng)絡(luò)作為大數(shù)據(jù)時代下的主要網(wǎng)絡(luò)社交平臺,其安全性及隱私問題直接影響移動社交網(wǎng)絡(luò)用戶參與網(wǎng)絡(luò)活動的積極性,網(wǎng)絡(luò)用戶的隱私保護(hù)問題值得社會各界高度關(guān)注.
當(dāng)前,隨著Web 2.0技術(shù)的廣泛應(yīng)用,移動社交網(wǎng)絡(luò)作為一種新型互聯(lián)網(wǎng)交互模式,正受到越來越多的關(guān)注,已經(jīng)成為用戶數(shù)最多、傳播影響最大的新媒體平臺,如Facebook、Twitter、人人網(wǎng)、開心網(wǎng)、微博、微信等,為人們聊天交友和及時分享信息提供了便捷的服務(wù),吸引了大量用戶參與進(jìn)來.大數(shù)據(jù)時代的到來加劇了社交網(wǎng)絡(luò)隱私泄露的風(fēng)險,由于移動社交網(wǎng)絡(luò)具有開放性、共享性和連通性等特點(diǎn),借助強(qiáng)大的搜索引擎,用戶的隱私信息更容易被窺探、收集和非法利用,而且用戶看是平常的信息,借助大數(shù)據(jù)分析工具,從中挖掘出用戶的關(guān)聯(lián)信息,也可能造成用戶隱私的泄露,給相關(guān)個體和組織帶來一定的安全威脅.因此,如何使社交網(wǎng)絡(luò)在滿足用戶溝通交流、模式知識發(fā)現(xiàn)的同時,更好地保護(hù)數(shù)據(jù)所有者的隱私,已成為近年來相關(guān)領(lǐng)域?qū)<覍W(xué)者研究的熱點(diǎn)問題.
目前針對社交網(wǎng)絡(luò)用戶隱私保護(hù)研究主要集中于社交網(wǎng)絡(luò)數(shù)據(jù)發(fā)布的隱私保護(hù)[1-3]和社交網(wǎng)絡(luò)訪問控制等方面[4].社交網(wǎng)絡(luò)數(shù)據(jù)發(fā)布的隱私保護(hù)技術(shù)研究的較多,主要采用匿名處理技術(shù)[5-10],使得發(fā)布的社交網(wǎng)絡(luò)數(shù)據(jù)能夠滿足數(shù)據(jù)分析的需要,又能很好地保護(hù)用戶隱私不被泄露;社交網(wǎng)絡(luò)訪問控制技術(shù)的研究主要集中于社交網(wǎng)絡(luò)訪問控制模型設(shè)計[11-13],以解決社交網(wǎng)絡(luò)數(shù)據(jù)授權(quán)訪問問題.然而,現(xiàn)有文獻(xiàn)對用戶隱私信息間的關(guān)聯(lián)關(guān)系研究的很少,不便于進(jìn)行個性化隱私保護(hù)策略設(shè)計,增加了用戶隱私保護(hù)設(shè)置的復(fù)雜性.為此,該文以數(shù)據(jù)挖掘和大數(shù)據(jù)分析工具為技術(shù)手段,對移動社交網(wǎng)絡(luò)用戶個體及群體屬性數(shù)據(jù)進(jìn)行分析,提取用戶隱私信息關(guān)聯(lián)關(guān)系,以便為進(jìn)行個性化隱私保護(hù)策略設(shè)計提供數(shù)據(jù)支撐.
移動社交網(wǎng)絡(luò)是人們利用移動終端設(shè)備通過Facebook、Twitter、人人網(wǎng)、開心網(wǎng)、博客、微博、微信、QQ 等 Internet應(yīng)用而形成的一類特殊社交群體,其本質(zhì)是提供一個分享興趣、愛好、狀態(tài)和活動等信息的移動交流平臺.隨著移動設(shè)備以及互聯(lián)網(wǎng)、云計算、大數(shù)據(jù)、人工智能等新一代信息技術(shù)的發(fā)展,移動社交網(wǎng)絡(luò)已經(jīng)滲透到人們?nèi)粘9ぷ?、學(xué)習(xí)、生活的方方面面,具有實(shí)時性、開放性、移動性、個性化等特點(diǎn),成為人們思想溝通、情感交流、數(shù)據(jù)通信、信息分享的主要平臺,給人們帶來零距離的社交體驗(yàn).
大數(shù)據(jù)是指無法在一定時間內(nèi)用常規(guī)軟件工具對其內(nèi)容進(jìn)行抓取、管理和處理的數(shù)據(jù)集合.移動社交網(wǎng)絡(luò)幾乎每時每刻都在產(chǎn)生新的數(shù)據(jù),數(shù)據(jù)種類和規(guī)模正以前所未有的速度呈指數(shù)級增長,整體上呈現(xiàn)出大數(shù)據(jù)的4V特征,即數(shù)據(jù)規(guī)模大(Volume)、處理速度快(Velocity)、數(shù)據(jù)類型多(Variety)、價值密度低(Value),這給社交網(wǎng)絡(luò)數(shù)據(jù)分析和研究者提供了研究的基礎(chǔ),便于展開相關(guān)數(shù)據(jù)分析、模式識別與知識發(fā)現(xiàn).
關(guān)聯(lián)規(guī)則是指隱藏在于大型數(shù)據(jù)集中的有趣的、屬性間的關(guān)聯(lián)和規(guī)律,是數(shù)據(jù)挖掘中的重要研究內(nèi)容,被廣泛應(yīng)用于金融領(lǐng)域[14].然而,在移動社交網(wǎng)絡(luò)用戶屬性數(shù)據(jù)集中,通過關(guān)聯(lián)規(guī)則挖掘技術(shù)和大數(shù)據(jù)分析技術(shù)同樣可以找出社交網(wǎng)絡(luò)用戶屬性間的關(guān)聯(lián)關(guān)系(其中部分屬性可能為用戶的隱私信息),從而為社交網(wǎng)絡(luò)用戶的隱私保護(hù)策略設(shè)置提供數(shù)據(jù)支撐.
眾所周知,大數(shù)據(jù)的特征之一是價值密度低(Value),即在大量的數(shù)據(jù)中可能只有微乎其微的數(shù)據(jù)是有價值的,如何將其中的價值提取出來,需要大數(shù)據(jù)分析技術(shù)的支撐.大數(shù)據(jù)分析技術(shù)有很多,如數(shù)據(jù)挖掘、統(tǒng)計分析、模型預(yù)測、可視化分析等,以下簡要介紹與社交網(wǎng)絡(luò)用戶屬性數(shù)據(jù)處理有關(guān)的主要技術(shù).
MapReduce是面向大數(shù)據(jù)并行處理的計算模型、框架和平臺,最早是由Google公司研究提出的一種面向大規(guī)模數(shù)據(jù)處理的并行計算模型和方法,后來在Hadoop中得到了開源實(shí)現(xiàn),功能上顯著增強(qiáng)[15].
Hadoop MapReduce將復(fù)雜的、運(yùn)行于大規(guī)模集群上的并行計算過程高度地抽象到了兩個函數(shù):Map和Reduce,MapReduce采用“分而治之”策略,一個存儲在分布式文件系統(tǒng)中的大規(guī)模數(shù)據(jù)集,會被切分成許多獨(dú)立的分片(split),這些分片可以被多個Map任務(wù)并行處理,處理后的中間結(jié)果作為Reduce任務(wù)的輸入,產(chǎn)生出需要的結(jié)果:<鍵,值>對.
表1 Map和Reduce函數(shù)
關(guān)聯(lián)規(guī)則是形如X→Y的蘊(yùn)涵式,其中,X和Y分別稱為關(guān)聯(lián)規(guī)則的前導(dǎo)和后繼.其中,關(guān)聯(lián)規(guī)則X→Y,存在支持度和置信度.
令I(lǐng)={i1,i2,…,im}為數(shù)據(jù)庫中所有項(xiàng)的集合,D={t1,t2,…,tn}為數(shù)據(jù)庫,其中每條記錄ti為一個項(xiàng)集且ti?I,記錄ti包含項(xiàng)集X當(dāng)且僅當(dāng)X?ti.關(guān)聯(lián)規(guī)則X→Y被稱為是有趣的當(dāng)且僅當(dāng)其支持度和置信度分別不低于用戶給定的最小支持度和最小置信度閾值,其中規(guī)則X→Y的支持度和置信度分別定義為:
其中|X|為數(shù)據(jù)庫D中包含項(xiàng)集X的記錄數(shù).
關(guān)聯(lián)規(guī)則挖掘算法一般分為兩步:首先找出所有的頻繁項(xiàng)集;然后根據(jù)用戶給定的最小支持度和最小置信度閾值產(chǎn)生有趣的關(guān)聯(lián)規(guī)則.
人們在社交網(wǎng)絡(luò)上提供了許多真實(shí)的個人信息,包括個人資料、教育和工作經(jīng)歷、聯(lián)系方式、照片、言論和在線活動等,而且,移動社交網(wǎng)絡(luò)中聊天信息、視頻信息、圖片信息猛增,呈現(xiàn)出結(jié)構(gòu)化、半結(jié)構(gòu)化以及非結(jié)構(gòu)化等多種數(shù)據(jù)形式,其龐大的信息量符合大數(shù)據(jù)典型的4V(Volume、Variety、Velocity、Veracity)特性,傳統(tǒng)的數(shù)據(jù)分析工具面對如此復(fù)雜、規(guī)模巨大的社交網(wǎng)絡(luò)數(shù)據(jù)顯得力不從心,需借助大數(shù)據(jù)處理工具方可有效處理.
為利用大數(shù)據(jù)分析技術(shù)對社交網(wǎng)絡(luò)進(jìn)行用戶隱私信息關(guān)聯(lián)分析,我們隨機(jī)選取了部分某社交網(wǎng)絡(luò)用戶屬性數(shù)據(jù)作為樣本數(shù)據(jù),該樣本數(shù)據(jù)中共有50000個用戶,每個用戶包含姓名、性別、生日、血型、職業(yè)、興趣愛好、手機(jī)、郵箱等屬性,且每個屬性均包含是否公開選項(xiàng),我們主要針對每個屬性的是否公開數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析,以便簡化用戶賬號注冊時的相關(guān)屬性隱私設(shè)置.
假定支持度為60%,通過對樣本數(shù)據(jù)的單屬性數(shù)據(jù)統(tǒng)計分析(如表2),得到如下結(jié)果:
表2 單屬性數(shù)據(jù)隱私情況統(tǒng)計
統(tǒng)計結(jié)果表明:60%以上的用戶將姓名、生日、手機(jī)和郵箱視為個人隱私,于是,在社交網(wǎng)絡(luò)用戶賬號注冊時系統(tǒng)自動將這些屬性可設(shè)置為默認(rèn)不公開,其他屬性默認(rèn)公開.我們將姓名、生日、手機(jī)和郵箱定義為大眾屬性,其余為小眾屬性.
在將性別屬性數(shù)據(jù)視為隱私的8418用戶中,性別為男和女的用戶分別占16%和84%,如表3.該結(jié)果表明,在社交網(wǎng)絡(luò)用戶中女性用戶對性別數(shù)據(jù)的隱私保護(hù)意識比男性更強(qiáng).
表3 性別屬性數(shù)據(jù)隱私情況統(tǒng)計
在將性別屬性數(shù)據(jù)視為隱私的8418用戶中,將其他某一小眾屬性數(shù)據(jù)也視為隱私的用戶統(tǒng)計情況如表4.于是,在社交網(wǎng)絡(luò)用戶賬號注冊時系統(tǒng)通過實(shí)時檢測性別屬性的隱私設(shè)置,自動完成相關(guān)屬性的默認(rèn)設(shè)置,從而簡化用戶操作,同時也保護(hù)了用戶的相關(guān)屬性數(shù)據(jù).
表4 雙屬性數(shù)據(jù)(含性別)隱私情況統(tǒng)計
在將性別、血型屬性數(shù)據(jù)視為隱私的8418用戶中,將其他某一小眾屬性數(shù)據(jù)也視為隱私的用戶統(tǒng)計情況如表5.同理在社交網(wǎng)絡(luò)用戶賬號注冊時系統(tǒng)可自動完成相關(guān)屬性的默認(rèn)設(shè)置.
表5 三屬性數(shù)據(jù)(含性別、血型)隱私情況統(tǒng)計
此外,我們也可以將大眾屬性與小眾屬性結(jié)合進(jìn)行多屬性的隱私關(guān)聯(lián)分析,找出大眾屬性間、小眾屬性間以及大小眾人屬性間的隱私信息關(guān)聯(lián)關(guān)系,為用戶個性化隱私保護(hù)策略設(shè)計提供參考依據(jù).
移動社交網(wǎng)絡(luò)作為Web2.0的技術(shù)產(chǎn)物之一,已經(jīng)成為人們在互聯(lián)網(wǎng)上傳播信息、溝通交流的主要平臺.大數(shù)據(jù)工具的出現(xiàn)加劇了移動社交網(wǎng)絡(luò)用戶隱私泄露的風(fēng)險.移動社交網(wǎng)絡(luò)用戶信息安全與隱私保護(hù)問題成為學(xué)術(shù)界和工業(yè)界近年來關(guān)注的熱點(diǎn).然而,現(xiàn)有研究很少關(guān)注用戶隱私信息間的關(guān)聯(lián)關(guān)系,給用戶個性化隱私保護(hù)策略設(shè)計帶來不便,也增加了用戶隱私保護(hù)設(shè)置的復(fù)雜性.本文以大數(shù)據(jù)分析工具為技術(shù)手段,對移動社交網(wǎng)絡(luò)用戶隱私信息關(guān)聯(lián)關(guān)系進(jìn)行了分析,以便為進(jìn)行個性化隱私保護(hù)策略設(shè)計提供數(shù)據(jù)支撐.下一步我們將在此基礎(chǔ)上,通過建立支持移動社交網(wǎng)絡(luò)用戶個性化隱私偏好的授權(quán)模型來實(shí)現(xiàn)更為靈活的、實(shí)用的隱私策略定義,并進(jìn)行仿真實(shí)驗(yàn)和對比分析,以全面解決移動社交網(wǎng)絡(luò)應(yīng)用中存在的用戶隱私泄露問題.
赤峰學(xué)院學(xué)報·自然科學(xué)版2018年8期