王利娥,李小聰,劉紅翼
(1.廣西師范大學 計算機科學與工程學院,廣西 桂林 541004;2.廣西多源信息挖掘與安全重點實驗室(廣西師范大學),廣西 桂林 541004)(?通信作者電子郵箱redwing33@sohu.com)
融合知識圖譜和差分隱私的新聞推薦方法
王利娥1,2,李小聰1,劉紅翼2*
(1.廣西師范大學 計算機科學與工程學院,廣西 桂林 541004;2.廣西多源信息挖掘與安全重點實驗室(廣西師范大學),廣西 桂林 541004)(?通信作者電子郵箱redwing33@sohu.com)
針對現(xiàn)有融合知識圖譜和隱私保護的推薦方法不能有效平衡差分隱私(DP)噪聲與推薦系統(tǒng)性能的問題,提出了一種融合知識圖譜和隱私保護的新聞推薦方法(KGPNRec)。首先,采用多通道知識感知的卷積神經(jīng)網(wǎng)絡(luò)(KCNN)模型融合新聞標題、知識圖譜中實體和實體上下文等多維度的特征向量,以提高推薦的準確度;其次,利用注意力機制為不同敏感程度的特征向量添加不同程度的噪聲,從而降低噪聲對數(shù)據(jù)分析的影響;然后,對加權(quán)的用戶特征向量添加統(tǒng)一的拉普拉斯噪聲,以保證用戶數(shù)據(jù)的安全性;最后,在真實的新聞數(shù)據(jù)集上進行實驗分析。實驗結(jié)果表明,與隱私保護的多任務推薦方法(PPMTF)和基于深度知識感知網(wǎng)絡(luò)(DKN)的推薦方法等相比,所提KGPNRec在保護用戶隱私的同時能保證方法的預測性能。在Bing News數(shù)據(jù)集上,所提方法的曲線下面積(AUC)值、準確率和F1分數(shù)與PPMTF相比分別提高了0.019、0.034和0.034。
知識圖譜;差分隱私;推薦系統(tǒng);新聞;卷積神經(jīng)網(wǎng)絡(luò)
隨著互聯(lián)網(wǎng)和智能終端技術(shù)的發(fā)展,在線新聞網(wǎng)站和移動應用如必應新聞、今日頭條受到了廣泛的歡迎。由于網(wǎng)絡(luò)上每天需要發(fā)布大量的新聞文章,使得在線新聞平臺上的用戶面臨著嚴重的信息過載問題。由于不同的用戶會偏好于不同的新聞信息,因此,個性化新聞推薦已作為一種提高用戶體驗度的有效工具,受到了學術(shù)界和工業(yè)界的高度關(guān)注。
在新聞推薦系統(tǒng)的相關(guān)研究中,許多方法都是基于深度學習(Deep Learning, DL)技術(shù)來實現(xiàn)對用戶和新聞信息的建模[1-5]。其中,大部分工作都是將新聞內(nèi)容或者標題表征為新聞向量,將用戶的歷史行為數(shù)據(jù)表征為興趣向量,然后根據(jù)這兩個特征向量來預測用戶對某個新聞的點擊概率。然而,由于新聞是高度濃縮的,其中包含大量的知識實體,如果僅僅從語義層面來對新聞信息進行建模,不能充分挖掘出新聞之間潛在的知識層面的關(guān)聯(lián)[6]。而知識圖譜(Knowledge Graph, KG)作為一種有效的輔助工具,能夠準確地描述實體之間的復雜關(guān)聯(lián)。近年來,已有研究者將知識圖譜作為信息描述工具引入到推薦系統(tǒng)中,以便更深層次地發(fā)現(xiàn)用戶的興趣,提高推薦精準性和多樣性[7-9]。然而,融合知識圖譜的推薦系統(tǒng)通過更多輔助信息的關(guān)聯(lián),雖然能有效提高推薦結(jié)果的精度,但引入的關(guān)聯(lián)也給攻擊者提供了更多的背景知識,面臨著更為嚴重的隱私安全問題。這是因為在推薦系統(tǒng)中為用戶進行個性化推薦時,用于分析的用戶歷史行為數(shù)據(jù)可以體現(xiàn)用戶的興趣愛好,包含大量的敏感信息,一旦這些數(shù)據(jù)被攻擊者獲取,將對用戶造成不可預估的后果。
差分隱私(Differential Privacy, DP)作為一種有效的隱私保護方法,在攻擊者有很強的背景知識的情況下,仍然可以有效抵御各種攻擊。很多研究提出將差分隱私應用到協(xié)同過濾推薦算法中進行隱私保護,如Boutet等[10]提出了一種基于差分隱私的矩陣分解算法,該算法通過在用戶評級數(shù)據(jù)和隨機梯度下降過程中增加滿足不同隱私預算的噪聲來保護隱私;但是,該方法僅適用于單一的矩陣分解推薦場景中。Yu等[11]提出了一種隱私保護的多任務推薦方法(Privacy-Preserving Multi-Task recommendation Framework, PPMTF),該方法將噪聲添加到梯度下降過程和多任務模型的相關(guān)性參數(shù)中,提高推薦系統(tǒng)的效率和安全性;但是,該方法需要將知識圖譜特征學習模塊和推薦模塊交替地進行學習,會增加大量的時間開銷。另外,由于該方法在每次迭代訓練過程中都對梯度添加拉普拉斯噪聲,會導致噪聲不斷地累加,影響最終模型的準確率,并不適用于單任務新聞推薦過程。
因此,針對現(xiàn)有的方法不能有效均衡拉普拉斯噪聲與推薦系統(tǒng)效率的問題,本文提出了一種融合知識圖譜和隱私保護的新聞推薦方法(News Recommendation method with Knowledge Graph and Privacy protection, KGPNRec),將一種二階段隱私保護方法應用于單任務新聞推薦場景中,能在保證推薦準確性的同時有效保護用戶的隱私安全。在該方法中,為了保證推薦系統(tǒng)的預測精度,在前期的知識圖譜表示學習過程中并未添加噪聲,所以學習得到的實體向量和關(guān)系向量更加準確;在后期的推薦任務中,差分隱私機制被添加到與大量個人隱私數(shù)據(jù)相關(guān)聯(lián)的特征向量中,并且為了減少噪聲的添加,利用注意力機制為特征向量添加不同程度的噪聲。
本文的主要工作如下:
1)提出了一種差分隱私保護方法,能適用于融合知識圖譜的新聞推薦系統(tǒng)。該方法不僅融合新聞標題和用戶實體特征向量,還能有效融合實體上下文的特征向量,提高了推薦結(jié)果的準確率。
2)基于差分隱私,設(shè)計了一種二階段隱私保護機制,能同時兼顧推薦的精確度和隱私的安全性。具體來說,在第一階段中考慮用戶特征的重要性,提出將拉普拉斯噪聲添加到與用戶歷史敏感數(shù)據(jù)高度相關(guān)的特征向量中,并根據(jù)不同的敏感程度分配不同的隱私預算;在第二階段基于差分隱私模型添加相應噪聲以保證數(shù)據(jù)的安全性。該機制不僅能保證重要的用戶特征添加的噪聲更少,確保了推薦結(jié)果的準確性,還能保護用戶的隱私安全。
推薦系統(tǒng)的隱私保護要求推薦系統(tǒng)不向推薦服務提供商或攻擊者暴露用戶相關(guān)的隱私信息,包括用戶歷史數(shù)據(jù)訓練集的隱私、預測模型的隱私和推薦結(jié)果的隱私。目前推薦系統(tǒng)中的隱私保護技術(shù)可分為基于數(shù)據(jù)擾動[10,12-14]的方法和基于全同態(tài)加密的方法[15]兩類。其中,基于全同態(tài)加密的方法主要思想是利用公鑰全同態(tài)加密使用戶的歷史數(shù)據(jù)不可見,將密文上傳到推薦服務器上,并基于其全同態(tài)性質(zhì)在密文域上訓練出一個模型并計算預測結(jié)果。這類方法雖然能在一定程度上解決推薦系統(tǒng)可用性與隱私性的統(tǒng)一問題,但存在密文上的模型訓練問題和計算復雜度問題。而基于數(shù)據(jù)擾動的技術(shù)則主要是利用各類加法擾動或乘法擾動方法對其擁有的數(shù)據(jù)集實現(xiàn)隱私保護,其中最具有代表性的方法是差分隱私。
差分隱私具有嚴格的數(shù)學定義和最強的背景知識假設(shè),已成為目前推薦系統(tǒng)中主流的隱私保護方法。Berlioz等[12]提出了三種將差分隱私應用到矩陣分解的技術(shù),并且評估了每種方法對隱私保護和推薦結(jié)果精確度的權(quán)衡效果。Wang等[14]通過向預測模型訓練過程中添加拉普拉斯噪聲,提出了基于近鄰關(guān)系的隱私保護推薦系統(tǒng),與Berlioz等[12]提出的方法相比,具有更高的推薦精確性。Meng等[16]提出了一種隱私保護的社交推薦方法,通過對用戶的評分數(shù)據(jù)和社交關(guān)系進行隱私保護建模,將不同強度的噪聲添加到敏感和非敏感的訓練數(shù)據(jù)集中,能夠有效地抵御不可信的推薦服務器與惡意用戶發(fā)起的攻擊。
將知識圖譜融合到推薦系統(tǒng)中,能有效地提高推薦精度,已成為了學術(shù)界的研究熱點。但是,推薦系統(tǒng)作為一種機器學習模型,在模型訓練過程中仍然會有隱私泄露的風險,因為攻擊者可以通過各種攻擊手段對學習模型進行攻擊,如成員推理攻擊[17]、模型提取攻擊[18],從而竊取隱私。Yu等[11]提出了將差分隱私用于知識圖譜增強的多任務推薦模型中,通過在梯度下降過程和模型訓練的相關(guān)參數(shù)添加拉普拉斯噪聲達到保護隱私的目的。但是,該方法的缺點是在每次迭代訓練過程中,都需要優(yōu)化兩個子任務,即知識圖譜表示學習和推薦,而且該方法在每次迭代過程中都對梯度添加拉普拉斯噪聲,會導致噪聲不斷地累加,影響最終模型的準確率。因此,本文面向融合知識圖譜的新聞推薦系統(tǒng)提出一種新的隱私保護方法。不同于已有的方法,本文方法通過在包含敏感數(shù)據(jù)的特征向量中添加噪聲,來取代在迭代訓練的梯度中加入噪聲,以避免在模型訓練過程中梯度噪聲的累加效應,能有效提高數(shù)據(jù)的效用性。
差分隱私是一種隱私保護方法。差分隱私的思想是:對于只相差一條記錄的兩個相鄰數(shù)據(jù)集,查詢它們獲得相同值的概率非常接近。這樣,惡意攻擊者就不能推算出某條目標記錄是否存在于數(shù)據(jù)集中,其形式化定義如下。
定義2 全局敏感度[19]。對于查詢函數(shù),對于任意的相鄰數(shù)據(jù)集和,的全局敏感度為:
定義3 拉普拉斯機制[19]。給定任意查詢函數(shù),其全局敏感度為,如果算法的輸出結(jié)果滿足式(3),則稱算法滿足差分隱私。
定義4 序列組合性質(zhì)[19]。給定一個數(shù)據(jù)集,假設(shè)有一組算法,如果算法滿足差分隱私,則這些算法的組合滿足差分隱私。
知識圖譜本質(zhì)是一種異構(gòu)信息網(wǎng)絡(luò),常用于表示實體之間的復雜關(guān)系,網(wǎng)絡(luò)中的節(jié)點表示實體,節(jié)點間的邊表示實體間的關(guān)系。知識圖譜可以形式化表示為三元組,其中,表示頭實體,表示尾實體,代表實體間的關(guān)系。
KGPNRec在保護系統(tǒng)數(shù)據(jù)隱私性的同時,還能保證推薦結(jié)果的預測準確性。KGPNRec的框架如圖1所示,該框架可分為兩個模塊:推薦模塊和隱私保護模塊。
圖1 KGPNRec框架Fig. 1 Framework of KGPNRec
在融合知識圖譜的推薦模塊,為了融入更多的輔助信息到新聞推薦任務中,本文借助知識圖譜表示學習方法,不僅能夠得到實體的嵌入信息,還能獲得完整的與實體相關(guān)的上下文信息。然后,將這兩個特征向量與候選新聞的詞向量輸入到多通道卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)中,得到每條新聞的表征向量,再利用注意力機制對用戶的點擊歷史在候選新聞上的興趣進行加噪建模,并得到加噪的用戶潛在特征向量。最后,根據(jù)用戶特征向量和候選新聞特征向量預測用戶的點擊概率。
在隱私保護模塊,為了保護用戶的隱私,本文添加服從拉普拉斯分布的隨機噪聲到用戶特征向量中。首先,為了提高數(shù)據(jù)的效用性,本文根據(jù)不同的權(quán)重對用戶所有點擊新聞的特征向量添加不同維度的噪聲。因為用戶所有點擊新聞的特征向量反映了用戶不同的偏好特征,而基于注意力機制得到的權(quán)重反映了用戶對于不同新聞的興趣程度,權(quán)重越大表示用戶的點擊新聞對候選新聞的影響程度越大,即用戶對當前新聞的偏好程度越大。然后,對累加求和得到的用戶特征向量中添加統(tǒng)一的噪聲,進一步確保推薦過程中不會泄露用戶隱私。在整個過程中,添加的噪聲滿足差分隱私。
知識圖譜通常是由知識圖譜表示學習方法進行預處理的,本文采用經(jīng)典的知識圖譜表示學習方法TransD[20]來學習實體和關(guān)系的特征向量?,F(xiàn)如今大多數(shù)知識圖譜表示學習方法都能很好地學出知識圖譜中的結(jié)構(gòu)信息,改善推薦的效果,但本文考慮到在新聞推薦這個特殊的場景中,新聞標題中可能會包含多個實體,不同新聞標題中的多個實體間存在關(guān)聯(lián)性,用戶在點擊某條新聞后也可能對其他包含相關(guān)實體的新聞產(chǎn)生興趣。所以,為了融合更多輔助信息,本文除了融合知識圖譜的結(jié)構(gòu)信息外,還從知識圖譜中提取出每個實體的上下文信息,即知識圖譜中每個實體的一跳鄰居節(jié)點的信息。實體的上下文信息形式化表達為:
對于三種表征信息,即新聞標題的表示向量、實體的表示向量、實體上下文的表示向量,為了將它們結(jié)合,通常的做法是采用拼接策略。然而,這種方式存在一定的缺點:首先,直接拼接會打破新聞標題的詞語與知識圖譜中實體的關(guān)聯(lián);另外,單詞的表示向量和對應實體的特征向量由不同的方式得到,所以在單一的特征空間中對它們進行卷積并不適合;其次,直接對表征向量進行拼接的前提是它們具有相同的維度,但實際上單詞和實體的特征向量的最佳維度并不相同。所以,本文利用多通道知識感知的卷積神經(jīng)網(wǎng)絡(luò)(multi-channel Knowledge-aware Convolutional Neural Network, KCNN)模型[8]來融合詞的知識信息和語義信息。
每個新聞標題轉(zhuǎn)換后的實體特征向量和上下文特征向量分別表示為和,是連續(xù)的轉(zhuǎn)換函數(shù)。將三個特征向量聯(lián)合起來作為KCNN的輸入,表示為:
對以上卷積層的輸出,采用最大池化提取特征中最重要的信息:
最后,將所有的特征進行拼接作為KCNN模型的輸出,即輸入的新聞標題的特征表示為:
為了得到用戶的潛在特征向量,本文利用注意力網(wǎng)絡(luò)[5,8]預測用戶的興趣。因為用戶在閱讀新聞時帶有明顯的傾向性,即一個用戶閱讀過的文章會屬于某些特定的主題,所以本文利用用戶點擊過的新聞記錄預測其對于候選文章的興趣。本文使用一個神經(jīng)網(wǎng)絡(luò)模型和softmax激活函數(shù)來計算用戶的歷史閱讀記錄對當前候選新聞的影響權(quán)重:
得到用戶的潛在特征向量和候選新聞的潛在特征向量后,將它們進行拼接并輸入到另一個神經(jīng)網(wǎng)絡(luò)中,得到點擊概率:
如圖1所示,灰色填充表示本文的隱私保護部分。本文將隱私保護機制分為兩個階段,總的噪聲不超過隱私預算。首先,對經(jīng)過注意力模型得到的特征向量添加拉普拉斯噪聲?,F(xiàn)有的研究一般做法是對這些特征向量添加相同維度的噪聲,但本文考慮了用戶特征的重要程度,基于注意力權(quán)重對這些特征向量分配不同的隱私預算,因為這些用戶的偏好向量中,注意力權(quán)重更高的特征對用戶的影響更大,因此基于注意力機制來添加不同程度的噪聲能有效地提高數(shù)據(jù)的效用性,保證最終模型的推薦效果。算法設(shè)計如算法1所示,其中特征向量的全局敏感度計算如下:
然后根據(jù)注意力權(quán)重對這些特征向量分配不同的隱私預算,對于那些權(quán)重大的特征向量,分配更大的隱私預算,添加更少的噪聲。因此,每個特征向量對應的隱私預算可計算如下:
根據(jù)定義3,每個特征向量經(jīng)過擾動后得到的結(jié)果如下:
此外,為了確保推薦過程中不會泄露用戶隱私,在第二階段,進一步對累加求和得到的用戶特征向量添加噪聲。結(jié)合式(11)可得擾動后的用戶特征向量如下所示:
算法1 KGPNRec。
1)初始化超參數(shù);
2)對知識圖譜進行特征學習得到實體的嵌入和關(guān)系的嵌入,對新聞標題進行表示學習得到對應的詞向量;
3)根據(jù)式(4)~(5)計算實體的上下文特征向量;
11)根據(jù)式(9)、(12)、(16)計算用戶對候選新聞的點擊概率。
本文基于真實的數(shù)據(jù)集進行實驗來驗證本文方法的有效性。實驗操作系統(tǒng)為Ubuntu18.04 LTS,CPU為Intel Xeon Gold 6230 CPU@2.10 GHz,顯卡型號為Tesla V100-FHHL,采用Tensorflow深度學習框架。
本文在公開的新聞數(shù)據(jù)集Bing News[8]和MIND(MIcrosoft News Dataset)上進行模擬實驗。其中Bing News數(shù)據(jù)采集自Bing News在線網(wǎng)站, MIND(https://msnews.github.io)來自Microsoft News用戶的行為日志,知識圖譜通過Bing知識庫構(gòu)建。Bing News中每條閱讀記錄主要包括時間戳、新聞url、用戶id和點擊數(shù)量(1表示點擊過、0表示未點擊),MIND數(shù)據(jù)集包含2019年10月12日到11月22日之間由用戶產(chǎn)生的閱讀數(shù)據(jù),每條日志包含用戶的id、時間戳、用戶的點擊歷史和交互行為標簽。數(shù)據(jù)集和提取出的知識圖譜的基本信息如表1所示。
表1 數(shù)據(jù)集和知識圖譜的統(tǒng)計信息Tab. 1 Statistics of datasets and knowledge graphs
為了更好地驗證本文方法的性能與效果,將本文提出的KGPNRec和與本文方法相近的研究成果[8,11,21]進行對比。本文選擇TransD[20]作為知識圖譜表示學習方法來學習實體和上下文的表示向量,使用Adam優(yōu)化器來優(yōu)化目標損失函數(shù),設(shè)置詞向量的維度和實體表征的維度為128,新聞標題最大長度為10,卷積核的數(shù)量為128,學習率為0.01,為了避免過擬合,設(shè)置正則化項權(quán)重為0.01。
1)深度知識感知網(wǎng)絡(luò)(Deep Knowledge-aware Network, DKN)[8]是一種用于新聞推薦的網(wǎng)絡(luò)模型,將它作為本文推薦精確度的基線。與該方法進行比較,以驗證本文方法在進行隱私保護后是否仍能保證推薦的準確率。在該方法的實驗設(shè)置中,詞向量的維度和實體向量的維度為128,卷積核的數(shù)量為128。
2)KPCNN(Knowledge Powered Convolutional Neural Network)[21]是一種基于卷積神經(jīng)網(wǎng)絡(luò)的文本分類方法,它將單詞對應的實體表示為潛在向量,將實體向量與新聞標題的詞向量進行拼接作為新聞的向量表示。用多層感知機模型來對用戶特征和候選新聞特征進行訓練,得到用戶的點擊概率,將該方法作為本文推薦精準度的基線,詞向量和實體向量的維度為128。
3)PPMTF[11]是一種隱私保護的多任務框架,被應用于知識圖譜增強的推薦系統(tǒng)中,將它作為驗證本文隱私安全程度的基線。在該方法的實驗設(shè)置中,將詞向量的維度和實體向量的維度設(shè)置為128。
1)AUC。
ROC(Receiver Operating Characteristic)的曲線下面積(Area Under Curve, AUC)是分類模型的常用評估指標,它的值為ROC曲線覆蓋的區(qū)域面積,通常介于0.5~1.0,反映了分類器分類結(jié)果的準確性。AUC越接近1.0,表明模型分類的真實性越高。由于本文方法主要應用于點擊率預測場景,因此使用AUC評估算法的性能。
2)Accuracy。
Accuracy是分類模型中廣泛使用的評估指標,它反映的是模型分類的準確率,表示的是預測正確的樣本數(shù)占總預測樣本數(shù)的比值。Accuracy值越大,表明模型預測的結(jié)果越準確。
3)F1-score。
F1分數(shù)(F1-score)是一種分類模型中常用的評估指標,它是精確率(Precision)和召回率(Recall)的調(diào)和平均數(shù),它的值介于0~1,反映了分類器的分類結(jié)果的準確性。F1-score越接近1.0,表明模型分類的精確度越高。由于本文方法主要應用于點擊率預測場景,因此使用F1-score評估推薦算法的性能。
1)不同方法在推薦性能方面的對比。
該部分主要考察不同方法在不同數(shù)據(jù)集上的推薦性能,以驗證本文方法在進行隱私保護后仍能保證推薦的準確率。圖2給出的是使用Bing News數(shù)據(jù)集時,本文方法KGPNRec與DKN、KPCNN、PPMTF在為1.0、不同epoch時的對比結(jié)果。
從圖2中可以看出,在訓練到第8個epoch時,模型逐漸擬合,本文方法與沒有進行隱私保護的融合知識圖譜的推薦方法DKN相比,預測準確率、精準度和AUC三項指標的差值都不超過0.01,所以二者的性能總體上不相上下,雖然偶爾DKN的精度更高,不過這是由于本文方法中添加的噪聲對結(jié)果造成的數(shù)據(jù)損失所導致的。盡管本文方法對數(shù)據(jù)的擾動造成了一定的信息損失,但從結(jié)果可以看出,與沒有進行隱私保護的KPCNN方法相比,KGPNRec的預測準確率仍然較優(yōu),這是因為KGPNRec融合了知識圖譜中實體上下文的特征信息,而且在使用新聞和實體的特征向量進行訓練時,不是簡單地對向量進行拼接,這也表明了本文方法中使用的KCNN模型要優(yōu)于KPCNN模型。另外,與隱私保護的多任務推薦方法相比,在10個訓練epoch中,KGPNRec的預測準確率有7次提高超過0.02,當模型收斂后,KGPNRec的預測準確率相較PPMTF提高了0.034。
圖2 Bing News數(shù)據(jù)集上不同方法的性能對比Fig. 2 Performance comparison of different methods on Bing News dataset
另外,根據(jù)圖2(b)、(c)可以看出,KGPNRec的預測精確度和AUC值相較PPMTF分別提高0.034和0.019,表明本文方法能夠較好地改善數(shù)據(jù)的效用性,提供精確的推薦服務。
圖3給出了在MIND數(shù)據(jù)集上,本文方法與DKN、KPCNN、PPMTF在為1.0、不同epoch時的實驗結(jié)果。從圖3中可以看出,這四種方法在該數(shù)據(jù)集上的性能總體趨勢和在數(shù)據(jù)集Bing News上大體相似,這也說明了本文方法的性能在不同數(shù)據(jù)集上都有優(yōu)勢。
圖3 MIND數(shù)據(jù)集上不同方法的性能對比Fig. 3 Performance comparison of different methods on MIND dataset
2)隱私預算對推薦結(jié)果的影響。
由圖4可以看出,當隱私預算為0.5時,意味著模型中注入了最大的噪聲,這時本文方法在測試集上的預測準確率仍然比隱私保護的多任務方法的準確率高,并且隨著隱私預算的增大,模型中注入的噪聲減少,準確率逐漸提高,當隱私預算大于2.0時,模型的預測精度基本不再上升,并且與未實現(xiàn)隱私保護的DKN相比,KGPNRec所能達到的最大預測準確率與DKN相差無幾,這表明本文方法在保護隱私的同時能有效地保證模型的預測性能。從圖4(b)可以看出,當隱私預算大于1.5時,KGPNRec的預測準確率已經(jīng)明顯高于KPCNN,表明當模型中添加較少的噪聲時,本文方法的性能要優(yōu)于KPCNN。
圖4 不同隱私預算下不同方法的性能對比Fig. 4 Performance comparison of different methods under different privacy budgets
3)模型中變量對推薦結(jié)果的影響。
為了進一步驗證模型中變量對推薦結(jié)果的影響,本文針對KGPNRec的各種變體在隱私預算為1.0時進行實驗對比。其中,KGPNRec-attention表示沒有使用注意力機制來動態(tài)地分配隱私預算的方法,TransE[22]+KGPNRec、TransH[23]+KGPNRec和TransR[24]+KGPNRec分別表示在KGPNRec中使用不同的知識圖譜表示學習方法來得到實體向量,結(jié)果如表2所示。
從表2的結(jié)果可以看出,通過注意力機制的權(quán)重來動態(tài)地為特征向量分配隱私預算,可以提高數(shù)據(jù)的效用性,使推薦系統(tǒng)的性能得到較大的提升。另外,在使用不同的知識圖譜表示學習方法得到特征向量時,基于TransD方法的推薦效果比其他的方法更好,這可能是因為TransD方法比另外三種知識圖譜表示學習方法更加復雜,在用于新聞推薦的場景下能學習到更好的非線性關(guān)系。
綜上可知,相較于PPMTF、KPCNN等現(xiàn)有方法,本文所提推薦方法的預測結(jié)果更加安全可靠,分析其原因在于:一方面,本文方法基于多通道卷積神經(jīng)網(wǎng)絡(luò)融合多維度的特征向量,有效地提高了推薦的準確度;另一方面,本文設(shè)計的兩階段隱私保護機制能夠在保護隱私安全的同時降低對數(shù)據(jù)的影響。
表2 KGPNRec中采用不同變體時的性能對比Tab. 2 Performance comparison among KGPNRec with different variants
本文以融合知識圖譜的新聞推薦系統(tǒng)為研究基礎(chǔ),針對用戶關(guān)注的數(shù)據(jù)泄露和隱私保護問題,將差分隱私應用到知識圖譜增強的新聞推薦方法中,從而提出了一種融合差分隱私和知識增強的新聞推薦方法。該方法適用于新聞推薦場景,并通過實驗驗證了其在保護數(shù)據(jù)隱私安全性的同時能保證推薦結(jié)果的效用性。未來的工作將進一步考慮如何在提供隱私保護的前提下優(yōu)化推薦算法以降低計算開銷,從而實現(xiàn)推薦精度、算法性能和隱私保護之間的平衡。
[1] OKURA S, TAGAMI Y, ONO S, et al. Embedding-based news recommendation for millions of users [C]// Proceedings of the 2017 23rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2017: 1933-1942.
[2] DE SOUZA PEREIRA MOREIRA G. CHAMELEON: a deep learning meta-architecture for news recommender systems [C]// Proceedings of the 2018 12th ACM Conference on Recommender Systems. New York: ACM, 2018: 578-583.
[3] WU C H, WU F Z, AN M X, et al. NPA:neural news recommendation with personalized attention [C]// Proceedings of the 2019 25th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2019: 2576-2584.
[4] ZHANG L M, LIU P, GULLA J A. Dynamic attention-integrated neural network for session-based news recommendation [J]. Machine Learning, 2019, 108(10): 1851-1875.
[5] WANG X J, YU L T, REN K, et al. Dynamic attention deep model for article recommendation by learning human editors’demonstration [C]// Proceedings of the 2017 23rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2017:2051-2059.
[6] 田萱,丁琪,廖子慧,等.基于深度學習的新聞推薦算法研究綜述[J].計算機科學與探索,2021,15(6):971-998.(TIAN X, DING Q, LIAO Z H, et al. Survey on deep learning based news recommendation algorithm [J]. Journal of Frontiers of Computer Science and Technology, 2021, 15(6): 971-998.)
[7] MA W Z, ZHANG M, CAO Y, et al. Jointly learning explainable rules for recommendation with knowledge graph [C]// Proceedings of the 2019 World Wide Web Conference. New York: ACM, 2019:1210-1221.
[8] WANG H W, ZHANG F Z, XIE X, et al. DKN:deep knowledge-aware network for news recommendation [C]// Proceedings of the 2018 World Wide Web Conference. Republic and Canton of Geneva: International World Wide Web Conferences Steering Committee, 2018: 1835-1844.
[9] SHI C, HU B B, ZHAO W X, et al. Heterogeneous information network embedding for recommendation [J]. IEEE Transactions on Knowledge and Data Engineering, 2019, 31(2): 357-370.
[10] BOUTET A, FREY D, GUERRAOUI R, et al. Privacy-preserving distributed collaborative filtering [J]. Computing, 2016, 98(8):827-846.
[11] YU B, ZHOU C Y, ZHANG C, et al. A privacy-preserving multi-task framework for knowledge graph enhanced recommendation [J]. IEEE Access,2020, 8:115717-115727.
[12] BERLIOZ A, FRIEDMAN A, KAAFAR M A, et al. Applying differential privacy to matrix factorization [C]// Proceedings of the 2015 9th ACM Conference on Recommender Systems. New York: ACM, 2015: 107-114.
[13] LIU Z Q, WANG Y X, SMOLA A. Fast differentially private matrix factorization [C]// Proceedings of the 2015 9th ACM Conference on Recommender Systems. New York: ACM, 2015: 171-178.
[14] WANG J, TANG Q. Differentially private neighborhood-based recommender systems [C]// Proceedings of the 2017 IFIP International Conference on ICT Systems Security and Privacy Protection, IFIPAICT 502. Cham: Springer, 2017: 459-473.
[15] RAMAKRISHNAN N, KELLER B J, MIRZA B J, et al. Privacy risks in recommender systems [J]. IEEE Internet Computing, 2001, 5(6): 54-63.
[16] MENG X Y, WANG S H, SHU K, et al. Personalized privacy-preserving social recommendation [C]// Proceedings of the 2018 32nd AAAI Conference on Artificial Intelligence. Palo Alto: AAAI Press, 2018: 3796-3803.
[17] SHOKRI R, STRONATI M, SONG C Z, et al. Membership inference attacks against machine learning models [C]// Proceedings of the 2017 IEEE Symposium on Security and Privacy. Piscataway: IEEE, 2017: 3-18.
[18] TRAMèR F, ZHANG F, JUELS A, et al. Stealing machines learning models via prediction APIs [C]// Proceedings of the 2016 25th USENIX Security Symposium. Berkeley: USENIX Association, 2016: 601-618.
[19] DWORK C. A firm foundation for private data analysis [J]. Communications of the ACM, 2011, 54(1): 86-95.
[20] JI G L, HE S Z, XU L H, et al. Knowledge graph embedding via dynamic mapping matrix [C]// Proceedings of the 2015 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Volume 1:Long Papers). Stroudsburg: ACL, 2015: 687-696.
[21] WANG J, WANG Z Y, ZHANG D W, et al. Combining knowledge with deep convolutional neural networks for short text classification [C]// Proceedings of the 2017 26th International Joint Conference on Artificial Intelligence. California: IJCAI Organization, 2017: 2915-2921.
[22] BORDES A, USUNIER N, GARCIA-DURáN A, et al. Translating embeddings for modeling multi-relational data [C]// Proceedings of the 2013 26th International Conference on Neural Information Processing Systems. Red Hook: Curran Associates Inc., 2013: 2787-2795.
[23] WANG Z, ZHANG J W, FENG J L, et al. Knowledge graph embedding by translating on hyperplanes [C]// Proceedings of the 2014 28th AAAI Conference on Artificial Intelligence. Palo Alto: AAAI Press, 2014: 1112-1119.
[24] LIN Y K, LIU Z Y, SUN M S, et al. Learning entity and relation embeddings for knowledge graph completion [C]// Proceedings of the 2015 29th AAAI Conference on Artificial Intelligence. Palo Alto: AAAI Press, 2015: 2181-2187.
News recommendation method with knowledge graph and differential privacy
WANG Li’e1,2, LI Xiaocong1, LIU Hongyi2*
(1.School of Computer Science and Engineering,Guangxi Normal University,Guilin Guangxi541004,China;2.Guangxi Key Laboratory of Multi?Source Information Mining and Security(Guangxi Normal University),Guilin Guangxi541004,China)
The existing recommendation method with knowledge graph and privacy protection cannot effectively balance the noise of Differential Privacy (DP) and the performance of recommender system. In order to solve the problem, a News Recommendation method with Knowledge Graph and Privacy protection (KGPNRec) was proposed. Firstly, the multi-channel Knowledge-aware Convolutional Neural Network (KCNN) model was adopted to merge the multi-dimensional feature vectors of news title, entities and entity contexts of knowledge graph to improve the accuracy of recommendation. Secondly, based on the attention mechanism, the noise with different magnitudes was added in the feature vectors according to different sensitivities to reduce the impact of noise on data analysis. Then, the uniform Laplace noise was added to weighted user feature vectors to ensure the security of user data. Finally,the experimental analysis was conducted on real news datasets. Experimental results show that, compared with the baseline methods such as Privacy-Preserving Multi-Task recommendation Framework (PPMTF) and recommendation method based on Deep Knowledge-aware Network (DKN), the proposed KGPNRec can protect user privacy and ensure the prediction performance of method. For example, on the Bing News dataset, the Area Under Curve (AUC) value, accuracy and F1-score of the proposed method are improved by 0.019, 0.034 and 0.034 respectively compared with those of PPMTF.
knowledge graph; Differential Privacy (DP); recommender system; news; Convolutional Neural Network (CNN)
TP309
A
1001-9081(2022)05-1339-08
10.11772/j.issn.1001-9081.2021030527
2021?04?08;
2021?07?07;
2021?07?07。
廣西自然科學基金資助項目(2020GXNSFAA297075);廣西多源信息挖掘與安全重點實驗室系統(tǒng)性研究課題基金資助項目(19?A?02?02);廣西師范大學院級研究生創(chuàng)新項目(JXXYYJSCXXM?006)。
王利娥(1981—),女,湖南邵陽人,教授,碩士,CCF會員,主要研究方向:分布式系統(tǒng)、網(wǎng)絡(luò)安全、隱私保護、推薦系統(tǒng); 李小聰(1996—),男,湖北黃岡人,碩士研究生,主要研究方向:數(shù)據(jù)隱私、推薦系統(tǒng); 劉紅翼(1969—),女,廣西桂林人,副教授,碩士,主要研究方向:數(shù)據(jù)隱私、教育信息、數(shù)據(jù)庫。
This work is partially supported by Guangxi Natural Science Foundation (2020GXNSFAA297075), Systematic Research Project Fund of Guangxi Key Laboratory of Multi-Source Information Mining and Security (19-A-02-02), School-Level Post Graduate Innovation Project of Guangxi Normal University (JXXYYJSCXXM-006).
WANG Li’e, born in 1981, M. S., professor. Her research interests include distributed system, network security, privacy protection, recommender system.
LI Xiaocong, born in 1996, M. S. candidate. His research interests include data privacy,recommender system.
LIU Hongyi, born in 1969, M. S., associate professor. Her research interests include data privacy, education information, database.