申自浩,唐雨雨,王輝,劉沛騫,劉琨
(1.河南理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,河南 焦作 454000;2.河南理工大學(xué) 軟件學(xué)院,河南 焦作 454000)
車聯(lián)網(wǎng)用戶在使用基于位置的服務(wù)[1]應(yīng)用時(shí)會(huì)生成大量的軌跡數(shù)據(jù),直接發(fā)布會(huì)引起嚴(yán)重的隱私泄露問題[2-3].k-匿名[4]、l-多樣性[5]和t-近鄰性[6]技術(shù)通過將數(shù)據(jù)匿名化實(shí)現(xiàn)隱私保護(hù),但無法抵御組合攻擊、同質(zhì)攻擊、背景知識(shí)攻擊等竊取隱私的方法.Dwork[7]提出差分隱私(differential privacy,DP)技術(shù),在數(shù)據(jù)中加入適量的噪聲以實(shí)現(xiàn)隱私保護(hù),可以抵御背景知識(shí)攻擊.若噪聲添加過多,則會(huì)降低數(shù)據(jù)的可用性.Cheng 等[8]提出個(gè)性化軌跡聚類和差分隱私保護(hù)機(jī)制,在數(shù)據(jù)效用方面有一定的提升,但未考慮軌跡屬性中的時(shí)空特征.本文引入時(shí)間圖卷積網(wǎng)絡(luò)(temporal graph convolutional network,T-GCN)模型,在涉及復(fù)雜空間的結(jié)構(gòu)中,能夠充分提取軌跡的時(shí)空特征,在隱私保護(hù)中能夠?qū)崿F(xiàn)隱私預(yù)算的合理分配.
針對(duì)大多數(shù)聚類質(zhì)量損失數(shù)據(jù)的問題,Cai 等[9]提出利用DBSCAN 聚類的軌跡發(fā)布DPTD 的機(jī)制,能夠保護(hù)多數(shù)軌跡的隱私.Zhang 等[10]提出LGAN-DP 算法,利用深度學(xué)習(xí)方法合成軌跡,使用k-means 聚類對(duì)軌跡結(jié)果集進(jìn)行處理,提高了數(shù)據(jù)的私密性.k-means、DBSCAN 聚類高度依賴用戶指定的參數(shù),性能不夠穩(wěn)定.Guan 等[11]提出基于穩(wěn)定隸屬度的自動(dòng)調(diào)優(yōu)多峰值聚類SMMP算法,解決了參數(shù)調(diào)優(yōu)問題,但只能應(yīng)用在低維空間.本文提出改進(jìn)的穩(wěn)定隸屬度多峰值聚類(Improved stable-membership multi-peak clustering,ISMMPC)算法,可以自動(dòng)調(diào)整聚類閾值,開展多原型聚類,解決多維度中應(yīng)用的問題.
Kim 等[12]提出DPGeo 框架,在對(duì)抗自編碼器中使用DP 收集的擾動(dòng)數(shù)據(jù)集訓(xùn)練軌跡生成,局限性是軌跡精度級(jí)別不高于網(wǎng)格表示級(jí)別.晏燕等[13]提出時(shí)空長(zhǎng)短期記憶模型,通過添加拉普拉斯噪聲預(yù)測(cè)位置的結(jié)構(gòu),缺點(diǎn)是提供的隱私預(yù)算不夠精確.康海燕等[14]使用基于時(shí)空密度聚類的軌跡預(yù)測(cè)隱馬爾可夫模型,通過分析時(shí)空的相關(guān)性,預(yù)測(cè)時(shí)空序列數(shù)據(jù)的不同分布,但僅適用于平滑數(shù)據(jù),無法捕捉軌跡中隱藏的非線性特征.本文結(jié)合T-GCN 模型與DP 技術(shù),既能夠精確預(yù)測(cè)隱私預(yù)算,又能夠?qū)壽E中隱藏的線性和非線性特征進(jìn)行探索.
本文設(shè)計(jì)基于聚類和深度學(xué)習(xí)的軌跡隱私保護(hù)機(jī)制(trajectory privacy protection mechanism based on clustering and deep learning,PPCDL).考慮軌跡空間的時(shí)空特征,分析通過時(shí)間戳劃分軌跡區(qū)域帶來的數(shù)據(jù)稀疏性對(duì)軌跡隱私保護(hù)的影響,設(shè)計(jì)ISMMPC 算法和T-GCN 模型,提高隱私保護(hù)的效果和軌跡數(shù)據(jù)的可用性.
定義1網(wǎng)格圖G.G=(V,E),E為邊的集合,V={V1,V2,···,Vn×n} 為網(wǎng)格位置上的節(jié)點(diǎn),n×n為網(wǎng)格區(qū)域位置的個(gè)數(shù).
定義2特征矩陣X.將網(wǎng)格上的軌跡信息作為網(wǎng)格中節(jié)點(diǎn)的屬性特征,構(gòu)成特征矩陣X.Xtg表示tg時(shí)的軌跡信息,tg為第g個(gè)時(shí)間戳.
時(shí)空軌跡是在G和X下學(xué)習(xí)映射函數(shù)F得到的tg時(shí)的軌跡數(shù)據(jù),可以表示為
式中:m為歷史時(shí)間序列長(zhǎng)度,T為預(yù)測(cè)時(shí)間序列步長(zhǎng).
定義3總數(shù)矩陣S.設(shè)tg劃分后的區(qū)域?yàn)锳g,根據(jù)Ag進(jìn)行劃分得到n×n個(gè)網(wǎng)格區(qū)域,構(gòu)造矩陣S記錄Ag的軌跡數(shù).矩陣元素sij(i,j=1,2,···,n) 為對(duì)應(yīng)網(wǎng)格區(qū)域內(nèi)的累計(jì)軌跡數(shù),i、j為元素下標(biāo).maxS為最大的sij.S可以表示為
定義4密度矩陣P.構(gòu)造矩陣P表示Ag的軌跡密度.矩陣元素 ρij(i,j=1,2,···,n) 表示對(duì)應(yīng)網(wǎng)格區(qū)域內(nèi)軌跡的密度,其中 ρij=sij/aAg,其中aAg為Ag的面積.P可以表示為
定義5隱私預(yù)算矩陣E.構(gòu)造矩陣E表示為Ag分配的隱私預(yù)算,矩陣元素 εij(i,j=1,2,···,n) 表示對(duì)應(yīng)網(wǎng)格區(qū)域內(nèi)的隱私預(yù)算分配大小.εij的初始值為0.E可以表示為
定義6ε-差分隱私.設(shè)有隨機(jī)算法K,所有可能輸出構(gòu)成的集合O的概率為P[·],對(duì)于任意2 個(gè)相鄰數(shù)據(jù)集D和D′,若2 個(gè)相鄰集合的概率分布滿足
則稱算法K提供 ε-差分隱私保護(hù).算法K滿足 ε 差分隱私,P[·] 表示隱私泄露的概率.ε 表示隱私保護(hù)的程度,ε ∈(0,1.0).
定義7 全局敏感度.設(shè)函數(shù)f:D→Rd,對(duì)于任意的相鄰數(shù)據(jù)集D和D′,全局敏感度為
式中:d為函數(shù)f的查詢維數(shù),‖·‖1表示L1范數(shù).
定義8拉普拉斯機(jī)制.對(duì)于給定數(shù)據(jù)集D,假設(shè)有函數(shù)f:D→Rd,敏感度為Δf,隨機(jī)算法K(D)=f(D)+Y提供 ε-差分隱私,其中噪聲數(shù)量Y服從拉普拉斯分布.
Y與 Δf成正比,與 ε 成反比.
時(shí)間圖卷積網(wǎng)絡(luò)模型包括圖卷積網(wǎng)絡(luò)(GCN)和門控循環(huán)單元(GRU),如圖1 所示.
圖1 時(shí)間圖卷積網(wǎng)絡(luò)模型Fig.1 Temporal graph convolutional network model
T-GCN 使用m個(gè)時(shí)間序列數(shù)據(jù)作為輸入,利用2 層GCN 模型進(jìn)行圖卷積操作,捕獲路網(wǎng)區(qū)域位置復(fù)雜的拓?fù)浣Y(jié)構(gòu),以學(xué)習(xí)空間特征.將得到的具有空間特征的時(shí)間序列輸入到GRU 模型中,通過單元間的信息傳遞獲得動(dòng)態(tài)變化,捕獲時(shí)間特征.T-GCN 可以充分學(xué)習(xí)時(shí)空依賴性,實(shí)現(xiàn)軌跡預(yù)測(cè).具體可以表示為
車聯(lián)網(wǎng)中許多保護(hù)軌跡數(shù)據(jù)的方法會(huì)忽略軌跡的時(shí)空特征.地理空間的限制及時(shí)間序列上位置的相關(guān)性,使得攻擊者有較大可能推斷出用戶的真實(shí)敏感位置和軌跡信息.實(shí)際上,大多數(shù)的軌跡隱私保護(hù)機(jī)制只考慮單個(gè)位置點(diǎn)的隱私保護(hù),忽略了連續(xù)位置點(diǎn)對(duì)軌跡隱私保護(hù)的影響.這會(huì)使得攻擊者很容易推斷出2 個(gè)位置點(diǎn)之間的地理位置關(guān)系,推斷出用戶經(jīng)過或停留的位置點(diǎn),導(dǎo)致用戶的位置或軌跡隱私泄露.軌跡中的位置是時(shí)間相關(guān)的,引入時(shí)間戳,用于獲得不同時(shí)間的軌跡位置分布,探究位置之間的某種相關(guān)性及用戶的行為模式.時(shí)間戳的引入會(huì)使得軌跡數(shù)據(jù)變得稀疏,難以承受注入的噪聲,降低了數(shù)據(jù)價(jià)值.引入ISMMPC 聚類,以減小時(shí)間戳導(dǎo)致的數(shù)據(jù)稀疏性.ISMMPC 在對(duì)軌跡數(shù)據(jù)聚類的同時(shí),保留了時(shí)間特征和空間特征.根據(jù)聚類后的軌跡區(qū)域密度進(jìn)行隱私預(yù)算預(yù)分配,形成隱私預(yù)算矩陣.基于時(shí)間圖卷積網(wǎng)絡(luò)模型,對(duì)隱私預(yù)算矩陣進(jìn)行預(yù)測(cè).在T-GCN 模型的訓(xùn)練過程中,不斷優(yōu)化隱私預(yù)算的分配,在對(duì)數(shù)據(jù)減少注入噪聲的同時(shí),保護(hù)了軌跡數(shù)據(jù)的隱私安全.
2.2.1 軌跡聚類 ISMMPC 算法在時(shí)間戳劃分后的區(qū)域?qū)崿F(xiàn)聚類,捕獲軌跡的位置分布.根據(jù)軌跡的分布情況,形成任意形狀和數(shù)量的子簇,無須預(yù)先確定聚類的子簇量.圖2 給出ISMMPC 聚類過程.圖中,n為子簇?cái)?shù)量.
圖2 改進(jìn)穩(wěn)定隸屬度多峰值聚類過程Fig.2 Process of improved stable-membership multi-peak clustering clustering
ISMMPC 算法利用密度峰值聚類技術(shù)[15]獲取區(qū)域Ag的密度峰值集合,選取最高的密度峰值作為中心點(diǎn),將中心點(diǎn)周圍未分配的數(shù)據(jù)點(diǎn)分配到同一聚類中形成子簇.在所有數(shù)據(jù)點(diǎn)分配完成后,使用邊界鏈接的連通性來評(píng)估的內(nèi)聚性.在跨簇的邊界點(diǎn)中,將未鏈接的邊界點(diǎn) τi和最近未鏈接的跨簇邊界點(diǎn) τj關(guān)聯(lián)起來,作為邊界鏈接特定值 γ (γ ∈[0,1.0]),定量評(píng)估子簇間的相鄰關(guān)聯(lián)度.,判斷集群內(nèi)聚性.賦予每個(gè)邊界點(diǎn)一個(gè)若高相似度的子簇鏈接良好,則表示具有多個(gè)高γ值的邊界鏈接.采用馬氏距離評(píng)價(jià)子簇之間的相似性,距離越近越相似.馬氏距離Dma可以表示為
式中:Wγ為特征值的權(quán)重.
用nγ表示所有邊界鏈接數(shù)量,Γ (Dma) 返回所有Dma值與Dma最大值的均一度,可以表示為
算法1 給出ISMMPC 聚類的實(shí)現(xiàn)過程.
第1 行是獲取數(shù)據(jù)集.第2~8 行是開展每一點(diǎn)的k個(gè)周圍點(diǎn)的選取,時(shí)間復(fù)雜度為O(),表示平均k個(gè)點(diǎn)的最近高密度點(diǎn).得到每個(gè)區(qū)域的密度峰值及子簇?cái)?shù)量,時(shí)間復(fù)雜度為O(n).第9~11 行是顯示邊界鏈接特定值的計(jì)算,定量評(píng)估子簇間的關(guān)聯(lián)度,復(fù)雜度為O(nkb),其中kb=min {k/2,2lnn}.第12~16 行是計(jì)算馬氏距離和估計(jì)子簇間的相似性,時(shí)間復(fù)雜度為O(n2).第17~23行是對(duì)子簇的自適應(yīng)合并,得到聚類結(jié)果集C,時(shí)間復(fù)雜度為O(n2).ISMMPC 聚類的總時(shí)間復(fù)雜度為.
2.2.2 時(shí)間圖卷積隱私預(yù)算矩陣的預(yù)測(cè) 圖3 給出T-GCN 組成結(jié)構(gòu),T-GCN 模型可以從交通數(shù)據(jù)中學(xué)習(xí)空間特征.GRU 以和當(dāng)前的流量信息作為輸入,得到tg時(shí)的流量信息.該模型在捕獲當(dāng)前時(shí)刻的交通信息的同時(shí),保留歷史交通信息的變化趨勢(shì).假設(shè)節(jié)點(diǎn)5 為某軌跡點(diǎn),利用GCN 模型可以得到該軌跡點(diǎn)與周圍軌跡點(diǎn)之間的拓?fù)潢P(guān)系,對(duì)路網(wǎng)拓?fù)浣Y(jié)構(gòu)和軌跡上的屬性進(jìn)行編碼,得到空間依賴關(guān)系.對(duì)節(jié)點(diǎn)的特征矩陣進(jìn)行圖卷積操作,再將結(jié)果輸入GRU 中提取時(shí)序上的特征.
圖3 時(shí)間圖卷積網(wǎng)絡(luò)模型的組成結(jié)構(gòu)Fig.3 Composition structure of temporal graph convolutional network model
式中:αij=ij(ij+1)/2,ε 為總隱私預(yù)算.
結(jié)合T-GCN 模型提取數(shù)據(jù)的時(shí)間和空間特征,預(yù)測(cè)隱私預(yù)算矩陣Eij,圖4 給出T-GCN 模型的時(shí)空預(yù)測(cè)過程.將獲得的初始隱私預(yù)算矩陣Eij按時(shí)間順序組織為時(shí)空序列矩陣集合Jij.將時(shí)空數(shù)據(jù)Jij輸入到深度學(xué)習(xí)模型中,不斷地進(jìn)行T-GCN小單元的學(xué)習(xí)、訓(xùn)練,預(yù)測(cè)最終的隱私預(yù)算矩陣.根據(jù)在每個(gè)總數(shù)矩陣Sij中按照式(13)計(jì)算得到相應(yīng)的拉普拉斯噪聲添加到每個(gè)區(qū)域的軌跡信息中,對(duì)擾動(dòng)后的軌跡數(shù)據(jù)進(jìn)行發(fā)布.
圖4 時(shí)間圖卷積網(wǎng)絡(luò)模型的時(shí)空預(yù)測(cè)過程Fig.4 Spatiotemporal prediction process of temporal graph convolutional network model
采用真實(shí)數(shù)據(jù)集Divvy Bikes 和T-drive 進(jìn)行仿真實(shí)驗(yàn),驗(yàn)證PPCDL 的數(shù)據(jù)有效性、時(shí)間開銷,評(píng)估差分隱私的保護(hù)效果.
T-GCN 訓(xùn)練模型使用Adam 優(yōu)化器進(jìn)行訓(xùn)練,激活函數(shù)為Elu.對(duì)于輸入層,將數(shù)據(jù)集的80%數(shù)據(jù)作為輸入,其余數(shù)據(jù)作為測(cè)試過程的輸入.將PPCDL 與DPTD[9]、LGAN-DP[10]、DPGeo[12]進(jìn)行對(duì)比分析.Divvy Bikes 數(shù)據(jù)集包含了芝加哥生活中的共享單車自2015 年至2020 年騎行使用的數(shù)據(jù),其中有每次騎行的起始點(diǎn)和時(shí)間戳、起始時(shí)間、起始經(jīng)緯度等.T-drive 數(shù)據(jù)集包含北京市出租車的軌跡總距離約為900 萬km,位置點(diǎn)超過1 500 萬個(gè),軌跡數(shù)據(jù)由每輛出租車的ID、時(shí)間戳、經(jīng)度和緯度信息表示的GPS 位置點(diǎn)序列組成.在實(shí)驗(yàn)預(yù)處理中,數(shù)據(jù)集選用軌跡密度相對(duì)較大的區(qū)域.
隱私保護(hù)的目的是發(fā)布有用信息,同時(shí)隱藏敏感的信息.當(dāng)進(jìn)行隱私保護(hù)時(shí),既要保護(hù)用戶的隱私安全,又要保證用戶享受到較高的服務(wù)質(zhì)量.采用3 種度量方法,量化原始數(shù)據(jù)和發(fā)布數(shù)據(jù)之間的差異.
使用均方根誤差(root mean square error,RMSE),評(píng)估PPCDL 的數(shù)據(jù)有效性.RMSE 是衡量原始數(shù)據(jù)與發(fā)布數(shù)據(jù)間的差異,是評(píng)估發(fā)布數(shù)據(jù)準(zhǔn)確性的常用方法.設(shè)隱私預(yù)算矩陣的真實(shí)值為E,預(yù)測(cè)值為,樣本量為N,RMSE 越小,預(yù)測(cè)越準(zhǔn)確,則指標(biāo)的公式為
使用查詢誤差(query error,QE),評(píng)估差分隱私的保護(hù)效果.給定查詢函數(shù)f,f(A)為查詢區(qū)域A的正確結(jié)果,其中|A|為查詢區(qū)域的大小.f()為有噪聲的查詢結(jié)果,則查詢錯(cuò)誤定義為
使用JS(Jensen-Shannon divergence)散度,評(píng)估真實(shí)軌跡和加噪后軌跡間的相似性.給定已發(fā)布的原始數(shù)據(jù)和加噪數(shù)據(jù)的概率分布函數(shù) φ、? ,φi、ωi為函數(shù) φ 和 ? 的概率,則JS 散度定義為
為了驗(yàn)證軌跡數(shù)據(jù)集獲得的隱私保護(hù)效果,使用T-GCN 模型預(yù)測(cè)隱私預(yù)算矩陣,給定總隱私預(yù)算ε={0.1,0.3,0.5,0.7,0.9}.對(duì)原始軌跡數(shù)據(jù)和添加噪聲的軌跡數(shù)據(jù)進(jìn)行查詢,得到測(cè)試數(shù)據(jù)的RMSE 誤差、QE 誤差和JS 散度.通過修改ε 來評(píng)估不同總隱私預(yù)算下數(shù)據(jù)集的保護(hù)程度,實(shí)驗(yàn)結(jié)果如圖5、6 所示.
圖5 Divvy Bikes 數(shù)據(jù)集上的各項(xiàng)指標(biāo)Fig.5 Metrics on Divvy Bikes dataset
圖6 T-drive 數(shù)據(jù)集上的各項(xiàng)指標(biāo)Fig.6 Metrics on T-drive dataset
從圖5(a) 可以看出,PPCDL 的RMSE 小于其他3 個(gè)機(jī)制.隨著隱私預(yù)算的增加,RSME 逐漸較小.原因是 ε 的增加使得注入數(shù)據(jù)中的噪聲減少,數(shù)據(jù)可用性增加.PPCDL 使用時(shí)空特征,利用TGCN 算法可以預(yù)測(cè)隱私預(yù)算矩陣,隱私預(yù)算矩陣不斷迭代的過程使得預(yù)算在該軌跡區(qū)域有更合理的分配,較好地均衡了噪聲誤差和數(shù)據(jù)可用性.DPTD 使用前綴樹存儲(chǔ)軌跡數(shù)據(jù),隨著軌跡序列長(zhǎng)度的增大,前綴樹節(jié)點(diǎn)不斷增加,使得實(shí)用性變差.LGAN-DP 和DPGeo 都沒有精確地提供隱私預(yù)算.對(duì)比2 個(gè)數(shù)據(jù)集的RSME 結(jié)果可知,T-drive數(shù)據(jù)集上的RSME 更小.原因是在T-drive 中選擇的軌跡密度相對(duì)更大,T-drive 中是北京市幾個(gè)臨近區(qū)域的出租車軌跡數(shù)據(jù),Divvy Bikes 中是芝加哥市公開的共享單車行程數(shù)據(jù),相對(duì)而言,Divvy Bikes 中的軌跡分布更加分散.PPCDL 的隱私預(yù)算預(yù)分配是按密度分配的,因此稠密區(qū)域的拉普拉斯噪聲比稀疏區(qū)域大,在合理的軌跡位置添加噪聲,實(shí)現(xiàn)了個(gè)性化的隱私保護(hù).
從圖5(b)可以看出,ε 的增加,減少了添加的拉普拉斯噪聲,使得有噪聲區(qū)域的查詢結(jié)果逐漸向無噪聲區(qū)域的查詢結(jié)果趨近,所以QE 減小.對(duì)于按時(shí)間戳劃分后的區(qū)域,進(jìn)行聚類后的稠密區(qū)域的拉普拉斯噪聲比稀疏區(qū)域大.當(dāng)使用數(shù)據(jù)計(jì)算平均查詢誤差時(shí),QE 隨著噪聲的增加而增大,降低了數(shù)據(jù)排序的一致性.PPCDL 的優(yōu)勢(shì)是使用聚類和T-GCN 算法可以更精確地預(yù)測(cè)隱私預(yù)算,合理地為軌跡數(shù)據(jù)添加拉普拉斯噪聲,有效地實(shí)現(xiàn)差分隱私保護(hù).隨著 ε 的增加,PPCDL 的QE 變化慢的原因是在區(qū)域的隱私預(yù)算的預(yù)測(cè)訓(xùn)練過程中,訓(xùn)練分配的預(yù)算結(jié)果逐漸趨于穩(wěn)定化,添加的噪聲浮動(dòng)變緩.
從圖5(c)可以看出,2 個(gè)數(shù)據(jù)集上的JS 散度隨著 ε 的增加而減小,原始數(shù)據(jù)的概率分布和加噪數(shù)據(jù)的概率分布越來越相似.這是因?yàn)殡S著 ε 的增加,添加的噪聲會(huì)逐漸減小,使得軌跡間的相似度增大.較小的JS 散度可以保證較強(qiáng)的隱私性,對(duì)真實(shí)位置引入較大的擾動(dòng).相反,較大的JS散度通過向真實(shí)位置引入較小的噪聲,保證較弱的隱私性.JS 散度結(jié)果表明,PPCDL 的數(shù)據(jù)可用性大于對(duì)比機(jī)制.
對(duì)T-drive 數(shù)據(jù)集開展劃分細(xì)粒度的實(shí)驗(yàn).在T-drive 數(shù)據(jù)集上設(shè)置不同間隔的5 個(gè)時(shí)間戳,設(shè)置相同的隱私預(yù)算,通過逐步加大時(shí)間戳的長(zhǎng)度,查詢當(dāng)天的軌跡數(shù)據(jù),得到指標(biāo)的平均性能.從圖7 可以看出,通過改變時(shí)間戳來驗(yàn)證劃分對(duì)隱私保護(hù)的影響,PPCDL 的RMSE 誤差、QE 誤差和JS 散度都優(yōu)于對(duì)比機(jī)制.這是因?yàn)镻PCDL 合理地分配了隱私預(yù)算.稠密區(qū)域的拉普拉斯噪聲比稀疏區(qū)域大.在每個(gè)位置合理添加噪聲,實(shí)現(xiàn)了不同程度的隱私保護(hù),提高了軌跡數(shù)據(jù)的可用性.隨著時(shí)間戳的不斷增大,軌跡序列長(zhǎng)度增大,RMSE 誤差呈現(xiàn)增大趨勢(shì),導(dǎo)致噪聲不斷增加,影響數(shù)據(jù)的可用性.在時(shí)間戳延長(zhǎng)到一定程度后,RSME 減小,這是因?yàn)榇藭r(shí)覆蓋的軌跡序列長(zhǎng)度比其他時(shí)間段大幾倍,此時(shí)數(shù)據(jù)會(huì)受到非軌跡區(qū)域的噪聲數(shù)據(jù)干擾,當(dāng)計(jì)算平均指標(biāo)時(shí),RSME 會(huì)減小.對(duì)于QE 誤差來說,查詢密集區(qū)域位置較容易實(shí)現(xiàn),但加入的噪聲量較大.當(dāng)計(jì)算QE 誤差時(shí),QE 隨著噪聲的增加而增大.由于原始數(shù)據(jù)和發(fā)布數(shù)據(jù)的差異,JS 散度隨著噪聲的增加而增大.當(dāng)JS 散度較小時(shí),表明該區(qū)域包含了大量不屬于軌跡序列的位置.
為了驗(yàn)證PPCDL 的效率,在數(shù)據(jù)集中將軌跡劃分成不同數(shù)量的分組,在 ε=0.1 的情況下,將PPCDL 與其他機(jī)制進(jìn)行時(shí)間開銷的對(duì)比,實(shí)驗(yàn)結(jié)果如圖8 所示.圖中,nt為參與訓(xùn)練軌跡的組數(shù),逐步遞增;t為平均軌跡生成時(shí)間,每個(gè)值重復(fù)20 次,取平均值.隨著參與者軌跡數(shù)據(jù)個(gè)數(shù)的不斷增加,運(yùn)行時(shí)間不斷增大,更大的分組數(shù)意味著更復(fù)雜的集群過程,需要更多的時(shí)間,因此平均軌跡生成時(shí)間隨著分組數(shù)量的增加而增大.PPCDL 的運(yùn)行時(shí)間相較于對(duì)比機(jī)制更短,得出結(jié)果的速度更快.
圖8 不同方案的運(yùn)行時(shí)間開銷Fig.8 Runtime overhead for different schemes
(1)在相同的隱私預(yù)算下,PPCDL 的隱私預(yù)算利用率和發(fā)布的軌跡數(shù)據(jù)集的有效性均優(yōu)于對(duì)比機(jī)制.預(yù)測(cè)的隱私預(yù)算可以防止攻擊者利用數(shù)據(jù)發(fā)布的時(shí)間差來獲取真實(shí)的軌跡.
(2)在未來的工作中,將關(guān)注如何更好地對(duì)隱私預(yù)算初始化,以提升深度學(xué)習(xí)的訓(xùn)練速度,更好地實(shí)現(xiàn)車聯(lián)網(wǎng)軌跡隱私保護(hù).