路太宇,李曉會,張馨予,呂維新,鄧 倩
社交網絡中一種基于偏好的隱私度量方法研究
路太宇,李曉會,張馨予,呂維新,鄧 倩
(遼寧工業(yè)大學 電子與信息工程學院,遼寧 錦州 121001)
針對現有社交網絡中的度量模型很少考慮到用戶的主觀感受,導致度量不準確等問題,提出了一種結合隱私偏好的隱私度量方法。對用戶屬性的可提取度、獲取難度和隱私偏好度進行量化,使用CMDPC(coefficient of variation and multi cluster merging strategy density peaks clustering)算法對用戶進行聚類,結合屬性的敏感度,得到用戶的隱私分數。利用用戶屬性的隱私偏好度反映了用戶主觀感受。CMDPC算法對用戶進行聚類提升了效率和準確性,實現了對用戶屬性的快速準確度量。實驗結果表明,該模型反映了用戶的主觀感受,并提高了度量結果的時效性和準確性。
隱私度量;CMDPC算法;隱私偏好度;社交網絡
隨著科技的高速發(fā)展和社交軟件的普及,在社交網絡上與朋友分享生活、討論新聞等成為了人們的日常。社交網絡已經融入到人們的生活,加快了信息獲取和分享速度。社交網絡中的用戶將自己的屬性上傳到網絡,讓服務商根據特定的屬性給自己帶來更好的服務。近些年,大數據、云計算和人工智能逐漸興起,利用數據挖掘技術對用戶的隱私屬性進行獲取、分析變得更加簡單,不法分子使用一些手段分析出用戶的隱私信息,造成隱私泄露。隱私保護[1]技術應運而生,隱私度量[2]作為隱私保護的重要支撐,在社交網絡中對用戶屬性進行隱私度量的研究變得格外重要。通過隱私度量框架,度量出用戶的隱私分數,讓用戶知道自己的隱私狀態(tài)來增強用戶的隱私意識。
如今越來越多的學者開始注意到社交網絡中隱私度量的問題,早在2010年,Li等[3]使用項目響應理論和信息傳播模型,提供一種可以計算出OSNs中用戶隱私分數的方法,該方法考慮用戶個人資料中的屬性信息,以用戶為中心解決社交網絡中的隱私保護問題,并利用實驗證明該方法的可行性。Jain等[4]以用戶為中心設計了一個在OSNs中計算用戶隱私指數的框架,該指數代表了用戶是否知道自己個人信息中所蘊含的個人信息。Aghasian等[5]考慮到多個社交網站的共享信息對用戶隱私信息的影響,通過確定影響隱私泄露的主要因素,使用應用統計和模糊計算提出了社交網絡用戶隱私泄露評分(privacy disclosure score,PDS)的方法。張盼盼等[6]提出了對隱私偏好進行定義和量化,提出了基于隱私偏好的博弈度量模型,全面考慮了隱私偏好對服務商的影響。彭長根等[7]基于Shannon信息論提出了4種隱私度量模型,引入了隱私泄露度量和背景知識的隱私泄露度量,并且提出了帶主觀感受的信息熵隱私度量,以用戶為中心是社交網絡隱私度量的核心,隨著科技的發(fā)展帶主觀感受的隱私度量模型已經被學者們重視。
考慮到用戶的主觀感受和用戶間的內部關系,提出了一個基于隱私偏好的屬性度量方法,利用隱私偏好度反映了用戶主觀感受,使用變異系數改進的DPC算法處理用戶間的內部關系。因此,該算法不僅對量化后的屬性信息依據密度進行快速準確地聚類,而且該算法利用合并分配策略提高了聚類的速度和準確率。
本節(jié)主要闡述一些基本定義及相關概念,包括IRT模型[8]、DPC算法[9]、變異系數[10]、多簇合并分配策略[11]、社交網絡中用戶屬性的提取難度[12]、可獲取度[12]和用戶隱私偏好度[13]。
項目反映理論(item response theory,IRT)模型起源于心理學,被應用于分析考試成績的數學模型。目的是衡量考生的能力、問題的難度和考生正確回答給定問題的可能性。通過該模型獲得提取難度、可獲取度和用戶隱私偏好度。
(1)DPC算法
密度峰值聚類算法是根據密度對樣本進行聚類的算法。該算法原理簡單,能夠處理任意非球型類簇,并能快速有效地確定聚類中心點和類簇個數。DPC算法定義了2個重要的概念:局部密度,距離值
算法主要分為2個部分:確定聚類中心點,分配非中心點。
在上述公式中,d是樣本點X、X的歐式距離,d為截斷距離,手工設定其值時需考慮樣本的近鄰數大約是整個數據集規(guī)模的1%~2%[14]。距離是數據點與密度最大點歐氏距離的最大值,小于距離的所有樣本構成該密度最大的數據集群。與其中一個密度最大的數據點的距離是最大的,該數據點一定是類中心點,經過反復迭代將樣本點分配到各個密度最大數據點的數據集群中。
再分配中心點過程中,如果數據點X不是類中心點,則將其歸入密度比X大且距離X最近的數據點X所在的類。該過程只需執(zhí)行1次,沒有迭代更新。傳統的DPC算法未考慮到樣本的內部結構和分配策略會產生分配連帶錯誤導致后續(xù)一連串樣本分配錯誤。利用變異系數和多簇分配策略解決這2個問題。
(2)變異系數
在高維數據集中歐氏距離僅能反映出2個樣本
和
之間的直線距離,每個維度對最后對聚類的影響是相同的,不能完全反映樣本點之間的相似性。變異系數考慮了數據的分布情況,利用變異系數對歐氏距離加權提升了高維數據的聚類準確性。
由公式得出加權歐式距離的局部密度定義,利用高斯核完成對局部密度的計算。
(3)多簇合并分配策略
CMDPC(coefficient of variation and Multi cluster merging strategy density peaks clustering)算法改進了DPC算法的分配策略,并且處理了樣本間的內部結構,提升了聚類的準確率和效率。
隱私度量代表了用戶的隱私保護程度。將用戶的用戶屬性度量成一個具體的數值,通過數值讓用戶了解自己的隱私分數。
表示度量結果,()表示用戶屬性的可見度,()表示用戶屬性的敏感度,代表屬性數量,最終得到的隱私度量結果,越小代表隱私保護程度越高。
(1)提取難度
提取難度ε表示從某個社交網絡中獲得這個屬性的難易程度。為了表示社交網絡中用戶屬性的提取難度,定義了3個難度:1代表困難;2代表相對困難;3代表容易。1表示結合用戶屬性和用戶發(fā)布信息分析推斷出的屬性;2表示通過用戶發(fā)布的內容分析出的用戶屬性;3表示從用戶公開屬性中直接獲取。數值越小表示屬性提取難度越高,數值越大表示屬性提取難度越小。
(2)可獲取度
可獲取度表示OSNs運營商允許用戶對自身屬性和發(fā)布內容上設置可見范圍。根據社交網絡中大多數情況,定義了4個不同的等級:1僅自己可見;2對分組可見;3對好友可見;4對所有人可見。僅對自己可見的信息對研究是沒有任何意義的,最終定義可獲取度的范圍為(1,4]。可獲取度的數值越小表示獲取難度越高,反之,可獲取度數值越大表示獲取難度越低。
(3)敏感度
敏感度表示社交網絡用戶屬性信息的重要程度,屬性信息越重要,則該屬性信息的敏感度越高。對于靈敏度的量化,引用Srivastava等[15]導出的敏感度值,如表1所示。
表1 用戶屬性的敏感性評分
(4)隱私偏好度
為了反映用戶對自己屬性信息的主觀感受,對用戶的隱私偏好進行度量,稱為隱私偏好度。隱私偏好度從主觀上反映了用戶對自身屬性信息的重視程度,可以根據用戶的自身需求和特定環(huán)境進行設定。定義的公式:
()表示用戶的隱私偏好度,()表示用戶的隱私偏好系數,()min表示用戶的最小隱私偏好系數。根據用戶對自身屬性信息保護的傾向不同,將用戶的隱私偏好等級分為3個等級:1高;2中;3低。其中1代表用戶對屬性的重視程度低;2表示用戶對該屬性的重視程度一般;3代表用戶對該屬性的重視程度高,數值越小表示用戶對該屬性的重視程度越高。
在社交網絡中,用戶通過公開自己的屬性信息給服務商,這樣獲得更好的個性化服務,從而增加了隱私泄露的風險。為了對用戶屬性信息進行更加準確的度量,考慮到用戶的隱私偏好程度來反映用戶的主觀感受,這樣采用IRT模型分別用對戶屬性的提取難度、可獲取度和用戶的隱私偏好度進行量化,從而形成一個三維向量。然后,采用CMDPC算法對樣本進行分類,根據局部密度和截斷距離找到聚類中心,將截斷距離設置為2%[15],利用加權歐氏距離分配樣本點,分配完成后,建立簇間相似度矩陣,將相似度最高簇和簇C合并形成一個新簇。
算法1:計算可獲取度
(1)輸入:一個行列的響應矩陣
(2)輸出:每個屬性的可獲取度得分
(3)初始化temp矩陣
(4)for=1:do
(5)提取出第行將其放入到col變量中
(6)根據輸入刪除不符合條件的條目
(7)檢查定義的條目后計算平均值
(8)循環(huán)結束
(9)for=1:do
(10) 設置一個初始值和變量都為0的計數器
(11)for=1:do
(12) iftemp(,)!=0 then
(13) sum=sum+input(,);
(14) counter=counter+1;
(15)結束計數器循環(huán)
(16)顯示出計算的可獲取度
(17)means(1,)=sum/counter;
算法2:CMDPC算法
(1) for=0tolength():
(2) for=+1tolength()
//將數據的距離存儲到矩陣中
(3) distlist[,]和distlist[,]←distance((),())
(4) for=0tolength(dist):
(5) 利用公式(2)計算的局部密度
(6) rho[]←ρXi
(7) for=1tolength(dist):
(8) for=+1to length(dist)
(9) if ρXi<ρXjanddist (,)
(10) 利用公式(4)計算距離屬性(,)
(11) delta←(,)
(12) for=0tolength (dist):
//和較高的點標記為簇中心
(13) ifrho[]>maxrho并且delta[]>maxdelat
(14) 將第個數據點定為簇中心
(15) ifrho[]
(16) 將第個數據點標記為噪音點
(17) 將剩余點分配到密度較大的最近鄰簇中
首先將社交網絡中用戶的屬性信息提取出來,對屬性信息的提取難度、可獲取度和隱私偏好度利用IRT模型進行量化,形成一個三維向量,使用CMDPC算法將樣本分類,計算出屬性可見度。屬性可見度和屬性敏感度經過計算,就可以得到用戶的隱私度量值。最終的隱私分數表示用戶的隱私狀態(tài),經過計算用戶的隱私分數在[0, 1.455637]之間,整體框架如圖1所示。
圖1 整體框架
(1)隱私偏好度
在社交網絡中,用戶提供隱私屬性給服務商來換取更好的服務,其中包含用戶的主觀感受,大部分研究對用戶的屬性進行度量時,沒有考慮到用戶的主觀感受。CMDPC算法建立的模型是將用戶屬性信息的提取難度、可獲取度和隱私偏好度進行了量化,通過對隱私偏好的量化反映了用戶的主觀感受。并且,在最終的隱私度量結果中結合了隱私偏好度也提高了結果的準確性。
(2)CMDPC算法
在社交網絡中,用戶量十分巨大,要對用戶的屬性進行準確的隱私度量是一個十分龐大的工程,采用CMDPC算法對樣本進行分類,CMDPC算法可以快速準確地找到聚類中心點,采用多簇合并分配策略將樣本點進行分配,相比其他計算方法,可以減少大量的計算時間并提升聚類準確率,提升隱私度量準確性和時效性。
CMDPC算法由python語言和anaconda編譯環(huán)境完成。實驗硬件環(huán)境為Inter(R)酷睿I59400CPU2.9 GHz處理器,16 G內存;Linux作為操作系統;Hadoop為實驗平臺;spark作系統框架。在實驗數據方面,使用的數據集包含了Telephone、Mailbox、Address、Birthday、Hometown、Current residence、Career information、Emotional state、Interest、Religious Belief、Political intention等屬性,其中Political intention和Address是比較敏感的屬性信息。所有的屬性信息類型都為數值型。
本節(jié)將CMDPC算法與現有的一些其他聚類方法做了對比,主要從算法效率和準確率上做了對比。參與比較的算法是通過尋找最大參數似然估計的EM算法[16]和按照樣本距離劃分個簇的K-means聚類算法[17]。
(1)效率分析
隨著用戶屬性數量的增加,CMDPC算法的效率受到的影響最小。CMDPC算法根據樣本密度確定聚類中心。EM算法的核心思想是將樣本點經過多次的迭代最終完成聚類,隨著樣本屬性的增多,迭代次數指數性增長,導致效率減慢。K-means聚類算法的核心對聚類中心點的個數要求極為嚴格,值選取過大過小都會影響聚類的成功率和算法的執(zhí)行效率。經過實驗分析,CMDPC算法相比于其他2種算法擁有更高的效率。執(zhí)行結果如圖2所示。
圖2 效率分析
(2)準確率分析
伴隨著屬性數量的增多,K-means算法對初始聚類中心選擇敏感,可能只能做到局部最優(yōu)解,影響了聚類的準確率。EM算法在樣本點不符合高斯分布時聚類準確率就會下降。CMDPC算法根據密度進行聚類,利用變異系數和多簇合并分配策略,解決了樣本內部結構問題。執(zhí)行結果如圖3所示。
采用IRT模型對樣本進行分析,IRT模型對于單一實驗源非常實用。為了驗證本實驗的正確性,通過與Li等[3]的算法進行實驗對比,來保證本實驗的正確性,并從樣本中挑選有代表性的用戶在圖中進行對比。由于文獻[3]的方法沒考慮隱私偏好對隱私度量結果的影響,所以得出的結果大部分都是文獻[3]的方法隱私度量值偏高,但用戶6得出的數值要偏低,因為用戶6有良好的隱私意識,社交網絡中一部分人的隱私意識很強,在設置隱私偏好的時候會考慮到隱私泄露問題。但是,社交網路中大部分用戶的隱私意識還是非常的薄弱。實驗結果如圖4所示。
圖3 準確率分析
圖4 隱私分數
最終的隱私度量值就是最后的隱私分數,該隱私分數能反映用戶隱私泄露的風險程度。在OSNs中,用戶屬性的敏感度都是不一樣的,所以,將通過合理修改用戶的隱私偏好度,減小用戶的隱私分數。修改后的實驗結果如圖5所示。
圖5 改進后的隱私分數
提出的基于偏好的隱私度量方法核心思想是在傳統的用戶屬性隱私度量方法中結合用戶的主觀意識也就是隱私偏好,通過對IRT模型、CMDPC算法、屬性敏感度的運用與結合,設計出一種在社交網絡中用戶屬性度量的新方法,針對用戶的主觀意愿和社交網絡數據量巨大導致聚類不準確等問題給予解決。首先,通過CMDPC算法對社交網絡中的用戶屬性進行準確地分類,利用IRT模型對用戶屬性進行準確地度量,結合屬性的敏感度計算出用戶的隱私評分。最后,通過修改用戶的隱私偏好度與修改前進行對比,證明了用戶的主觀感受對用戶隱私評分的影響。旨在提升用戶的隱私意識,通過提升用戶的隱私意識來應對社交網絡高速發(fā)展帶來的改變。
[1] 楊少杰, 鄭琨, 張輝, 等. 基于博弈論與區(qū)塊鏈融合的k-匿名位置隱私保護方案[J]. 計算機應用研究, 2021, 38(5): 1320-1326.
[2] 謝明明, 彭長根, 吳睿雪, 等. 結構化數據的隱私與數據效用度量模型[J]. 計算機應用研究, 2020, 37(5): 1465-1469, 1473.
[3] Li K, Terzi E. Aframework for computing the privacy scores of users in online social networks[J]. ACM Transcctions on Knowledge Discovery form Data (TKDD), 2010, 5(1): 1-30.
[4] Jain S, Raghuwanshi S K. Fine Grained Privacy Measuring of User's Profile Over Online Social Network[M]. Singapore: Springer, 2018.
[5] Aghasian E, Garg S, Gao L, et al. Scoring Users' Privacy Disclosure Across Multiple Online Social Networks[J]. IEEE Access, 2017, 65(5): 13118-13130.
[6] 張盼盼, 彭長根, 郝晨艷. 一種基于隱私偏好的隱私保護模型及其量化方法[J]. 計算機科學, 2018, 45(6): 130-134.
[7] 彭長根, 丁紅發(fā), 朱義杰, 等. 隱私保護的信息熵模型及其度量方法[J]. 軟件學報, 2016, 27(8): 1891-1903.
[8] 顧磊. 偏正態(tài)分布IRT模型的EM算法[D]. 南京:南京大學, 2018.
[9] 江平平, 曾慶鵬. 一種基于網格劃分的密度峰值聚類改進算法[J]. 計算機應用與軟件, 2019, 36(8): 268-274, 280.
[10] 楊淵超. 改進的密度峰值聚類算法研究[D]. 西安: 西安電子科技大學, 2020.
[11] 陳磊, 吳潤秀, 李沛武, 等. 加權K近鄰和多簇合并的密度峰值聚類算法[J]. 計算機科學與探索, 2022, 16(9): 2163-2176.
[12] 李雪峰. 社交網絡中的隱私度量方法研究[D]. 北京: 北京郵電大學, 2020.
[13] 張盼盼. 理性隱私度量方法研究及其應用[D]. 貴陽: 貴州大學, 2018.
[14] 陳俊芬, 張明, 趙佳成. 復雜高維數據的密度峰值快速搜索聚類算法[J]. 計算機科學, 2020, 47(3): 79-86.
[15] Srivastava A, Geethakumari G. Measuring privacy leaks in Online Social Networks[C]//International Conference on Advances in Computing. IEEE, 2013.
[16] 張朋. 數據挖掘中聚類分析算法的研究與改進[D]. 無錫: 江南大學, 2016.
[17] 王林, 許郡蒙. 分布式K-means聚類在微博熱點主題發(fā)現的應用[J]. 計算機仿真, 2020, 37(8): 121-125.
Research on Preference-based Privacy Measurement Method in Social Networks
LU Tai-yu, LI Xiao-hui, ZHANG Xin-yu, LV Wei-xin, DENG Qian
(School of Electronics & Information Engineering, Liaoning University of Technology, Jinzhou 121001, China)
To solve the problem that the users’subjective feelings are rarely taken into account inthe measurement models in existing social networks, which leads to inaccurate measurement, a privacy measurement method combined with privacy preference is proposed. The extractability, difficulty of acquisition and privacy preference of user attributes are quantified, and the CMDPC (Coefficient of variation and Multi cluster merging strategy Density Peaks Clustering) algorithm is used to cluster users, combined with the sensitivity of attributes, and the privacy score of users is obtained. The privacy preference of user attributes reflects the users’ subjective feelings. The CMDPC algorithm improves the efficiency and accuracy of user clustering, and realizes a fast accuracy measurement of user attributes. Experimental results show that the model reflects the user’s subjective feelings and improves the timeliness and accuracy of the measurement results.
privacy measurement; CMDPC algorithm; privacy preference; social network
10.15916/j.issn1674-3261.2022.06.009
TP311
A
1674-3261(2022)06-0393-06
2022-05-09
遼寧省應用基礎研究計劃項目(2022JH2/101300278);遼寧省教育廳科學研究經費項目(JZL202015402)
路太宇(1997-),男,遼寧鐵嶺人,碩士生。
李曉會(1978-),女,遼寧盤錦人,副教授,博士。
責任編輯:孫 林