• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于本地化差分隱私的聯(lián)邦學(xué)習(xí)方法研究

      2023-01-09 12:33:26康海燕冀源蕊
      通信學(xué)報(bào) 2022年10期
      關(guān)鍵詞:參與方聯(lián)邦差分

      康海燕,冀源蕊

      (北京信息科技大學(xué)信息管理學(xué)院,北京 100192)

      0 引言

      近年來,人工智能技術(shù)給人們的生活帶來了極大的便利,尤其是機(jī)器學(xué)習(xí)中深度學(xué)習(xí)這一分支已經(jīng)廣泛應(yīng)用于圖像處理、自然語言處理、語音識別和網(wǎng)絡(luò)空間安全等領(lǐng)域。為了獲得應(yīng)用效果更好的模型,可以通過增加訓(xùn)練數(shù)據(jù)量來實(shí)現(xiàn),然而隨著訓(xùn)練數(shù)據(jù)量的增加,隱私泄露的風(fēng)險也相應(yīng)提高。研究表明,針對深度學(xué)習(xí)模型發(fā)起的隱私攻擊將導(dǎo)致訓(xùn)練數(shù)據(jù)的隱私泄露,隱私問題限制了深度學(xué)習(xí)的進(jìn)一步發(fā)展。

      聯(lián)邦學(xué)習(xí)[1]是解決深度學(xué)習(xí)隱私問題的突破性技術(shù)。聯(lián)邦學(xué)習(xí)的邏輯結(jié)構(gòu)與分布式學(xué)習(xí)相似,即擁有不同訓(xùn)練數(shù)據(jù)的多個參與方共同執(zhí)行一個深度學(xué)習(xí)任務(wù),兩者的區(qū)別在于聯(lián)邦學(xué)習(xí)沒有數(shù)據(jù)收集階段,而分布式學(xué)習(xí)需要對數(shù)據(jù)進(jìn)行收集,然后將數(shù)據(jù)分發(fā)給多個服務(wù)器,再由中央服務(wù)器協(xié)調(diào)進(jìn)行迭代,從而訓(xùn)練出最終模型。聯(lián)邦學(xué)習(xí)通過在各個客戶端本地進(jìn)行學(xué)習(xí)得到子模型,再交由中心服務(wù)器聚合得到最終模型。聯(lián)邦學(xué)習(xí)相關(guān)的技術(shù)和開放性問題在近些年引起了人們的廣泛關(guān)注[2],聯(lián)邦學(xué)習(xí)與區(qū)塊鏈等新興技術(shù)的融合也是目前的研究熱點(diǎn)[3-4]。相比于傳統(tǒng)的集中式機(jī)器學(xué)習(xí)方法,聯(lián)邦學(xué)習(xí)通過在本地進(jìn)行訓(xùn)練有效降低了數(shù)據(jù)隱私泄露的風(fēng)險,然而這并不代表它能完全防御外部隱私攻擊。劉藝璇等[5]根據(jù)聯(lián)邦學(xué)習(xí)的架構(gòu)將其面臨的隱私攻擊分為內(nèi)部攻擊和外部攻擊,與外部攻擊者相比,內(nèi)部攻擊者具備更強(qiáng)大的能力,其不僅可以在訓(xùn)練過程中對梯度或模型參數(shù)發(fā)起攻擊,還能通過替換樣本、更改梯度等方式影響模型訓(xùn)練過程。Song 等[6]指出通過對抗攻擊,可以從聯(lián)邦學(xué)習(xí)參與方所傳遞的參數(shù)中重構(gòu)出原始的訓(xùn)練數(shù)據(jù),從而導(dǎo)致隱私泄露。

      針對聯(lián)邦學(xué)習(xí)所面臨的隱私風(fēng)險,目前學(xué)術(shù)界有2 種解決思路,分別是加密方法和擾動方法。加密方法通過結(jié)合密碼學(xué)工具為聯(lián)邦訓(xùn)練過程中數(shù)據(jù)的傳輸提供隱私保證,常用密碼學(xué)工具有同態(tài)加密和秘密分享。Liu 等[7]設(shè)計(jì)了一種基于同態(tài)加密技術(shù)的參數(shù)加密方案,抵御聯(lián)邦學(xué)習(xí)過程中的投毒攻擊。Phong 等[8]利用加法同態(tài)加密技術(shù)為客戶-服務(wù)器架構(gòu)的聯(lián)邦訓(xùn)練提供保護(hù),然而該算法僅關(guān)注本地參數(shù)的隱私性,全局梯度對所有終端直接可見。Ou等[9]設(shè)計(jì)了一種由第三方掌握私鑰、終端利用公鑰實(shí)現(xiàn)加法同態(tài)加密的方案,應(yīng)用到縱向聯(lián)邦學(xué)習(xí)的線性回歸模型中實(shí)現(xiàn)隱私保護(hù)。由于同態(tài)加密技術(shù)的計(jì)算代價昂貴,因此在實(shí)踐中不適用于大規(guī)模數(shù)據(jù)參與的模型迭代訓(xùn)練。為了在降低計(jì)算代價的同時保證中間參數(shù)不被泄露,Zhu 等[10]利用秘密分享技術(shù)確保至少t個用戶上傳參數(shù)后,中心服務(wù)器才能進(jìn)行解密,實(shí)現(xiàn)對中間參數(shù)的保護(hù)。應(yīng)用秘密分享技術(shù)的聯(lián)邦學(xué)習(xí)方案雖然不需要大量計(jì)算,但增加了通信次數(shù),因此也增加了聯(lián)邦學(xué)習(xí)的通信成本。

      擾動方法通過差分隱私等技術(shù)在模型訓(xùn)練過程中添加噪聲擾動,使發(fā)布的模型在保持可用性的同時得到保護(hù)。差分隱私作為一種輕量級的隱私保護(hù)技術(shù)[11],在聯(lián)邦學(xué)習(xí)隱私保護(hù)領(lǐng)域得到了廣泛關(guān)注。根據(jù)聯(lián)邦學(xué)習(xí)中保護(hù)對象的不同,可以將擾動方法分為中心化擾動和本地化擾動。中心化擾動主要保護(hù)聯(lián)邦學(xué)習(xí)中心服務(wù)器在獲取和下發(fā)中間參數(shù)時的隱私性。Geyer 等[12]首次提出差分隱私中用戶級別聯(lián)邦學(xué)習(xí)(CL-FL,client level federated learning)的差分隱私保護(hù)方法,通過在服務(wù)器端引入高斯噪聲來隱藏單個參與方對聯(lián)邦訓(xùn)練的貢獻(xiàn)。為了提高隱私預(yù)算利用率,使用矩累計(jì)[13]方法獲取更緊致的隱私損失邊界,然而Geyer 等在計(jì)算隱私損失時直接對梯度進(jìn)行裁剪的做法浪費(fèi)了一部分隱私預(yù)算。Zhou 等[14]在CL-FL 的基礎(chǔ)上進(jìn)一步完善了用戶級別的隱私保護(hù)方法,在提高通信效率的基礎(chǔ)上保證了中心參數(shù)服務(wù)器的隱私性。Wei 等[15]提出了一種分階段的差分隱私聚合前噪聲聯(lián)邦學(xué)習(xí)(NbAFL,noise before aggregation federated learning)方法,并證明通過適當(dāng)調(diào)整噪聲的方差可以滿足不同隱私保護(hù)水平下的差分隱私。該方法全面考慮了中心參數(shù)傳遞過程中不同階段的隱私問題,但需要經(jīng)過多次迭代才能達(dá)到較高的模型準(zhǔn)確率。上述中心化擾動方法中的噪聲均由中心服務(wù)器添加,然而中心參數(shù)服務(wù)器也可能是半誠實(shí)甚至惡意的,因此需要研究本地化擾動方法,本地化擾動方法通常結(jié)合本地化差分隱私技術(shù)來實(shí)現(xiàn)。Truex等[16]在對聯(lián)邦學(xué)習(xí)的參數(shù)進(jìn)行本地化差分隱私擾動時引入α-CLDP 方法,根據(jù)輸入樣本對的距離分配隱私預(yù)算,以較大概率輸出與原始值相近的擾動值。由于聯(lián)邦學(xué)習(xí)中梯度或模型參數(shù)的維度很高,直接擾動會帶來很大的通信量,為了提高通信效率,Liu 等[17]提出一種兩階段方法,根據(jù)指數(shù)機(jī)制選擇權(quán)重最高的k個維度的梯度數(shù)據(jù),再對所選擇的維度數(shù)據(jù)進(jìn)行擾動,解決聯(lián)邦學(xué)習(xí)中梯度導(dǎo)致隱私泄露問題,并設(shè)計(jì)3 種隱私維度選擇機(jī)制。Zhao等[18]將梯度數(shù)據(jù)擾動后的值離散到偶數(shù)區(qū)間內(nèi),通過兩位數(shù)值即可表示輸出值,節(jié)約了通信開銷,然而這種做法對聯(lián)邦模型的性能造成了損失。

      表1 對現(xiàn)有研究方案進(jìn)行了總結(jié),通過表1 可知,現(xiàn)有研究主要存在如下不足:1) 基于同態(tài)加密的聯(lián)邦學(xué)習(xí)隱私保護(hù)方法計(jì)算開銷大,基于秘密分享的聯(lián)邦學(xué)習(xí)隱私保護(hù)方法通信開銷太大;2) 中心化擾動方法依賴可信的中心服務(wù)器;3) 本地化擾動方法在模型性能上損失較大,需要從隱私機(jī)制設(shè)計(jì)的角度進(jìn)行改進(jìn)。

      表1 現(xiàn)有研究方案對比

      針對以上不足,本文主要貢獻(xiàn)如下。

      1) 提出一種基于本地化差分隱私的聯(lián)邦學(xué)習(xí)(LDP-FL,local differential privacy federated learning)方法,解決聯(lián)邦學(xué)習(xí)訓(xùn)練過程中存在的隱私問題。

      2) 設(shè)計(jì)一種本地化差分隱私機(jī)制,作用在聯(lián)邦學(xué)習(xí)參數(shù)傳遞過程中,通過設(shè)計(jì)噪聲機(jī)制,擾動聯(lián)邦學(xué)習(xí)所傳遞的參數(shù),從而增加聯(lián)邦模型訓(xùn)練的隱私性。

      3) 設(shè)計(jì)一種性能損失更小的估計(jì)機(jī)制,通過優(yōu)化損失函數(shù)的約束范圍來降低引入本地化差分隱私機(jī)制后聯(lián)邦模型的性能損失。

      4) 在MNIST 和Fashion MNIST 這2 個真實(shí)的數(shù)據(jù)集上,分別從全局準(zhǔn)確率、性能損失和運(yùn)行時間3 個方面進(jìn)行對比實(shí)驗(yàn),與其他算法相比,本文所提方法效果更優(yōu)。

      1 背景知識

      1.1 聯(lián)邦學(xué)習(xí)

      聯(lián)邦學(xué)習(xí)是谷歌提出的一種機(jī)器學(xué)習(xí)方法[1]。在一個典型的聯(lián)邦學(xué)習(xí)方法中,通常假設(shè)有N個參與方和一個中心參數(shù)服務(wù)器,這些參與方通過協(xié)作共同訓(xùn)練出一個可用的深度學(xué)習(xí)模型。在每次訓(xùn)練迭代時,每個參與方共享的是其本地更新后的模型參數(shù)而不是本地的訓(xùn)練數(shù)據(jù)。記每一個參與方Ci擁有對應(yīng)的數(shù)據(jù)集Di,則全局模型的目標(biāo)損失函數(shù)記作L(D,w),聯(lián)邦學(xué)習(xí)所面臨的優(yōu)化問題為

      其中,Li表示第i個參與方的本地?fù)p失函數(shù),一般通過本地經(jīng)驗(yàn)風(fēng)險最小化過程(如隨機(jī)梯度下降等)來求解。聯(lián)邦學(xué)習(xí)中的經(jīng)驗(yàn)風(fēng)險最小化的過程通常包含如下訓(xùn)練步驟。

      1) 初始化:由中心參數(shù)服務(wù)器對需要訓(xùn)練的深度學(xué)習(xí)模型進(jìn)行初始化,并廣播給所有參與方。

      2) 本地模型訓(xùn)練:接收到初始模型參數(shù)的參與方使用本地?cái)?shù)據(jù)對模型進(jìn)行訓(xùn)練后,將更新參數(shù)傳遞給中心參數(shù)服務(wù)器。

      3) 全局模型聚合:接收到所有參與方傳遞參數(shù)后,中心參數(shù)服務(wù)器對獲得的模型進(jìn)行聚合后廣播。

      1.2 本地化差分隱私

      本地化差分隱私技術(shù)的核心思想是對用戶本地?cái)?shù)據(jù)添加滿足本地化差分隱私的擾動噪聲,將擾動后數(shù)據(jù)傳輸給第三方數(shù)據(jù)收集者,再通過一系列操作得到有效的結(jié)果。由于傳統(tǒng)的ε-本地化差分隱私過于嚴(yán)格,目前深度學(xué)習(xí)隱私保護(hù)中常用的是寬松差分隱私,定義如下。

      定義1(ε,δ)-本地化差分隱私。給定N個用戶,每個用戶對應(yīng)一條記錄,對于隱私機(jī)制M,其定義域?yàn)镈om(M),值域?yàn)镽an(M),若隱私機(jī)制M 在任意兩條記錄t,t' (t,t'∈ Dom(M))上得到的輸出結(jié)果(o(o? Ran(A)))相同,且滿足

      則稱隱私機(jī)制M 滿足(ε,δ)-本地化差分隱私。

      高斯機(jī)制是機(jī)器學(xué)習(xí)隱私保護(hù)中常用的一種噪聲機(jī)制,通過給輸出結(jié)果f(t)添加均值為0、方差為σ2Ι的高斯噪聲實(shí)現(xiàn)(ε,δ)-本地化差分隱私,即M(t)=f(t)+M(0,σ2Ι)。差分隱私中敏感度的含義是單個數(shù)據(jù)對查詢或分析結(jié)果的最大影響值,高斯機(jī)制具有L2敏感度,表示根據(jù)設(shè)定的隱私級別所需設(shè)置的擾動值上界,高斯機(jī)制中函數(shù)f(t)的L2敏感度為,為了保證給定的高斯噪聲分布n~ N (0,σ2)滿足(ε,δ)-本地化差分隱私,所選擇的高斯分布標(biāo)準(zhǔn)差需要滿足即在ε∈ (0,1)的情況下常數(shù)。本地化差分隱私具有如下2 個性質(zhì)。

      1) 后置處理免疫性。對于一個輸出結(jié)果滿足差(ε,δ)-本地化差分隱私的機(jī)制M,在這個機(jī)制的輸出結(jié)果上進(jìn)行任何操作都不會造成額外的隱私損失。

      2) 序列組合性。對于k個滿足(εi,δi)-本地化差分隱私的機(jī)制 M1,…,Mi,…,Mk,其序列組合滿足-本地化差分隱私。

      使用高斯機(jī)制向機(jī)器學(xué)習(xí)模型添加噪聲時會導(dǎo)致模型產(chǎn)生性能損失,性能損失和本地化差分隱私的關(guān)系可以通過定義2進(jìn)行說明。

      定義2尾約束[11]。對于任意ε> 0,當(dāng)時,機(jī)制M 滿足(ε,δ)-差分隱私。

      2 方法設(shè)計(jì)

      2.1 問題的描述

      聯(lián)邦學(xué)習(xí)通過將用戶數(shù)據(jù)保留在本地降低了用戶訓(xùn)練數(shù)據(jù)隱私泄露的風(fēng)險,然而聯(lián)邦學(xué)習(xí)過程仍然存在一定的安全問題,對于共同參與模型訓(xùn)練的多個參與方以及中心參數(shù)服務(wù)器,若它們是誠實(shí)且好奇的,即這些參與方在聯(lián)邦學(xué)習(xí)過程中會遵守模型的訓(xùn)練協(xié)議,但互相對對方的私有數(shù)據(jù)和模型參數(shù)是好奇的,在協(xié)作期間會不斷推理,希望獲取更多對方額外的信息,如訓(xùn)練數(shù)據(jù)和模型參數(shù)。為了抵御這樣的推理攻擊,需要對聯(lián)邦模型訓(xùn)練過程提供額外的隱私保護(hù)機(jī)制,因此本文的目標(biāo)是設(shè)計(jì)一種滿足本地化差分隱私的聯(lián)邦學(xué)習(xí)方法,實(shí)現(xiàn)在服務(wù)器或參與方誠實(shí)且好奇的情況下安全有效地訓(xùn)練聯(lián)邦模型,即保護(hù)參與方的私有數(shù)據(jù)和模型參數(shù)不被攻擊者惡意推理的同時保證模型訓(xùn)練的精度。

      具體來說,在聯(lián)邦模型訓(xùn)練過程中,假設(shè)完成全局聯(lián)邦模型的訓(xùn)練需要經(jīng)過T次迭代,在每一次迭代過程t中,選擇k個參與方利用本地?cái)?shù)據(jù)集對下發(fā)的初始模型進(jìn)行訓(xùn)練,每個參與方將訓(xùn)練好的模型更新結(jié)果傳輸給中心參數(shù)服務(wù)器,為了防止參與方所訓(xùn)練的模型在傳輸過程中發(fā)生隱私泄露,需要設(shè)計(jì)一種本地化的隱私機(jī)制對傳輸過程中的模型參數(shù)進(jìn)行隱私保護(hù)處理,本文所涉及的相關(guān)符號和參數(shù)如表2 所示。

      表2 相關(guān)符號和參數(shù)

      2.2 本地化差分隱私聯(lián)邦學(xué)習(xí)方法的設(shè)計(jì)

      為了解決誠實(shí)且好奇的中心參數(shù)服務(wù)器或參與方的存在導(dǎo)致聯(lián)邦學(xué)習(xí)中用戶本地?cái)?shù)據(jù)隱私泄露問題,本文提出了一種LDP-FL 方法,框架如圖1 所示。該方法由一個中心參數(shù)服務(wù)器和N個聯(lián)邦學(xué)習(xí)參與方組成,每個聯(lián)邦學(xué)習(xí)參與方擁有一個由中心參數(shù)服務(wù)器下發(fā)的初始模型和本地的訓(xùn)練數(shù)據(jù)集。

      圖1 LDP-FL 方法框架

      LDP-FL 方法的核心思想是在“數(shù)據(jù)不動算法動,數(shù)據(jù)可用不可見”的基礎(chǔ)上引入本地化差分隱私機(jī)制,為聯(lián)邦訓(xùn)練過程提供額外的隱私保護(hù)。具體來說,首先由中心參數(shù)服務(wù)器生成初始模型,再廣播給所選擇的聯(lián)邦學(xué)習(xí)參與方,參與方接收到初始模型后利用本地?cái)?shù)據(jù)集對初始模型進(jìn)行訓(xùn)練,在每個參與方的本地訓(xùn)練的過程中引入本地化差分隱私機(jī)制對模型參數(shù)進(jìn)行擾動,通過傳輸擾動后的參數(shù)(非原始訓(xùn)練數(shù)據(jù))達(dá)到隱私保護(hù)的目的,中心參數(shù)服務(wù)器接收到擾動參數(shù)后對所有參數(shù)進(jìn)行聚合操作,將聚合后的模型參數(shù)再廣播給所選擇的參與方,不斷迭代該過程直到模型收斂。LDP-FL方法由中心參數(shù)服務(wù)器處理算法 FL_Server(federated learning server)和參與方本地更新算法FL_Client(federated learning client)構(gòu)成。

      中心參數(shù)服務(wù)器處理算法FL_Server 的具體流程如算法1 所示。首先,由中心參數(shù)服務(wù)器對需要訓(xùn)練的模型參數(shù)和測試集準(zhǔn)確率列表進(jìn)行初始化。其次,根據(jù)設(shè)定的迭代次數(shù),在每次迭代時以采樣率q從N個參與方中隨機(jī)選擇k個參與方參與訓(xùn)練,對于所選擇的k個參與方,將上一輪迭代所獲得的全局模型參數(shù)w傳遞給算法2 參與方本地更新算法FL_Client,k個參與方以并行化的方式執(zhí)行該算法,分別獲得本次迭代本地模型的參數(shù)。最后,當(dāng)所有參與方完成更新操作后,中心參數(shù)服務(wù)器對參與方所上傳的擾動參數(shù)進(jìn)行聚合處理,即求平均值,獲得本次迭代的全局模型參數(shù),使用測試集計(jì)算全局模型參數(shù)對應(yīng)的模型準(zhǔn)確率,將本輪模型準(zhǔn)確率存入測試集準(zhǔn)確率列表中,在設(shè)定的迭代次數(shù)結(jié)束后對整體的隱私損失進(jìn)行估計(jì)。

      算法1FL_Server

      輸入聯(lián)邦學(xué)習(xí)參與方數(shù)量N,聯(lián)邦學(xué)習(xí)采樣率q,聯(lián)邦學(xué)習(xí)交流輪次T

      1) 定義列表test_acc_list,初始化w0

      2) fort← 1 toTdo

      3) 以采樣率q從N個用戶中選擇k個參與方

      4) 遍歷從N中選擇的k個參與方

      7) 計(jì)算本次迭代模型準(zhǔn)確率test_acc

      8) 將test_acc 加入列表test_acc_list

      9) end for

      10) 通過2.3 節(jié)性能損失約束機(jī)制約束損失函數(shù)

      11) 返回test_acc_list

      算法2FL_Client

      輸入上一輪訓(xùn)練所得模型參數(shù)wt,本地模型迭代次數(shù)E,本地?cái)?shù)據(jù)集大小m,隨機(jī)梯度下降中每批次選擇的訓(xùn)練集大小B,隨機(jī)梯度下降過程學(xué)習(xí)率α,本地模型損失函數(shù)L(w),梯度裁剪閾值C,本地化差分隱私機(jī)制隱私參數(shù)εi,δi

      1) fore=1 toEdo

      2) 對于訓(xùn)練集B中的每個數(shù)據(jù)對b

      3) 梯度大小g←?L(w;b)

      9) end for

      首先,采用隨機(jī)梯度下降法根據(jù)設(shè)定的本地迭代輪次E對所接收到的初始模型進(jìn)行訓(xùn)練計(jì)算出梯度值,同時引入梯度裁剪技術(shù),目的是限制訓(xùn)練樣本對模型參數(shù)的影響,通過對梯度的L2 范數(shù)進(jìn)行裁剪,設(shè)定裁剪的閾值為C,則參與方在每輪本地訓(xùn)練時計(jì)算得到的的梯度數(shù)據(jù)gi將被替代,梯度裁剪可以保證當(dāng)時,梯度數(shù)據(jù)gi被保留;當(dāng)時,梯度數(shù)據(jù)gi被閾值C取代。其次,計(jì)算參與方本地訓(xùn)練過程的敏感度,聯(lián)邦學(xué)習(xí)中第i個參與方的本地訓(xùn)練過程為

      其中,Di表示第i個參與方所使用的數(shù)據(jù)集,Di,j表示Di中的第j個樣本。根據(jù)本地化差分隱私的定義,考慮2 個相鄰的數(shù)據(jù)集Di和Di',Di'與Di只相差一條數(shù)據(jù),則第i個客戶端本地訓(xùn)練過程sDi的敏感度為

      2.3 性能損失約束機(jī)制的設(shè)計(jì)

      通過2.2 節(jié)中的描述可知,引入本地化差分隱私提升聯(lián)邦訓(xùn)練過程中隱私安全性的同時會給聯(lián)邦模型的性能造成一定的損失,因此本節(jié)設(shè)計(jì)一種性能損失更小的估計(jì)機(jī)制,通過這種估計(jì)機(jī)制降低聯(lián)邦模型的性能損失。給單個模型添加高斯噪聲后的隱私損失需要根據(jù)時刻損失函數(shù)進(jìn)行計(jì)算,而在聯(lián)邦學(xué)習(xí)環(huán)境中,需要從N個參與方中以采樣率q選擇出k個參與方進(jìn)行聯(lián)邦模型的訓(xùn)練,記聯(lián)邦交流的迭代次數(shù)為T,給第i個參與方本地模型訓(xùn)練所得的參數(shù)添加高斯噪聲后每個參與方經(jīng)過T次迭代后隱私損失的計(jì)算式為

      其中,pi表示第i個參與方的性能損失。參與聯(lián)邦訓(xùn)練的k個參與方整體的性能損失P的計(jì)算式為

      3 隱私安全性與性能分析

      3.1 隱私安全性分析

      本節(jié)對LDP-FL 方法的隱私安全性進(jìn)行分析,對于采樣率為q、迭代輪次為T的LDP-FL 方法,有定理1 成立。

      定理1為了保證聯(lián)邦訓(xùn)練中參與方傳遞模型的過程滿足(εi,δi)-本地化差分隱私,所添加的高斯噪聲的標(biāo)準(zhǔn)差應(yīng)滿足

      證明利用三角不等式對Ev1,v0進(jìn)行如下變換

      將該結(jié)果代入時刻損失函數(shù)α(λ)中,可得

      根據(jù)定義2 中的尾約束可知,當(dāng)式(24)成立時,添加噪聲標(biāo)準(zhǔn)差為σi的隱私機(jī)制可以滿足(εi,δi)-差分隱私。

      3.2 算法復(fù)雜度分析

      本節(jié)分析算法的時間復(fù)雜度,LDP-FL 方法由FL_Server 和FL_Client 這2 個算法組成,F(xiàn)L_Client算法嵌套在FL_Server 中,記LDP-FL 方法的整體迭代次數(shù)為T,參與方數(shù)量為N,在每次迭代時,F(xiàn)L_Client 算法的時間復(fù)雜度為O(log(N)),則LDP-FL 方法的時間復(fù)雜度等于FL_Server 算法的時間復(fù)雜度,為O(Tlog(N))。

      4 實(shí)驗(yàn)與分析

      4.1 實(shí)驗(yàn)設(shè)置

      4.1.1 實(shí)驗(yàn)環(huán)境

      本節(jié)對本文所提LDP-FL 方法的有效性進(jìn)行評估,并設(shè)計(jì)對比實(shí)驗(yàn)。所使用的實(shí)驗(yàn)平臺操作系統(tǒng)為Windows 10(64 位),開發(fā)環(huán)境為 Pycharm,編程語言為Python 3.8,CPU 為11th Gen Intel(R)Core(TM) i5-11400H @ 2.70 GHz,內(nèi)存為16 GB。實(shí)驗(yàn)使用Pytorch1.7.1 訓(xùn)練深度學(xué)習(xí)模型,采用卷積神經(jīng)網(wǎng)絡(luò)(CNN,conventional neural network)構(gòu)建本文所提LDP-FL 方法,設(shè)置2 個卷積層分別有16 和32 個特征,并使用一個5×5、步長為2的卷積核,以及一個輸入張量為7×7×32、輸出張量為10 的全連接層,采用梯度下降進(jìn)行模型訓(xùn)練時所選擇的批次大小為64,參與方本地訓(xùn)練迭代次數(shù)為10 次。

      4.1.2 實(shí)驗(yàn)數(shù)據(jù)集

      實(shí)驗(yàn)采用2 種數(shù)據(jù)集,分別是MNIST 數(shù)據(jù)集和Fashion MNIST 服飾數(shù)據(jù)集。其中,MNIST數(shù)據(jù)集包含 10 種手寫數(shù)字識別的灰度圖像數(shù)據(jù),有60 000 個訓(xùn)練圖像和10 000 個測試圖像,每個灰度圖像包含28 像素×28 像素;Fashion MNIST服飾數(shù)據(jù)集是經(jīng)典MNIST 數(shù)據(jù)集的簡易替換,比常規(guī) MNIST 手寫數(shù)據(jù)將更具挑戰(zhàn)性,包含60 000 個示例的訓(xùn)練集和10 000 個示例的測試集,每個示例都是一個28 像素×28 像素灰度圖像,可以分為10 種類型。

      4.1.3 評價指標(biāo)

      為了驗(yàn)證本文所提LDP-FL 方法的優(yōu)越性,選擇原始的聯(lián)邦平均方法FedAvg[1]作為參照,并將LDP-FL 方法與CL-FL 方法[12]和NbAFL 方法[15]進(jìn)行對比,主要的評價指標(biāo)有以下3 種。

      1) 全局準(zhǔn)確率。經(jīng)過多次迭代后,聯(lián)邦模型的全局準(zhǔn)確率是衡量算法有效性的關(guān)鍵指標(biāo)。通過對比相同條件下不同算法的全局準(zhǔn)確率,可以直觀地判斷算法的性能。

      2) 性能損失。性能損失是衡量聯(lián)邦模型性能的指標(biāo),通過性能估計(jì)機(jī)制進(jìn)行計(jì)算。

      3) 運(yùn)行時間。算法的運(yùn)行時間是衡量通信開銷的重要指標(biāo)。運(yùn)行時間越長,則通信開銷越大。

      4.2 有效性衡量實(shí)驗(yàn)

      本節(jié)探究LDP-FL 有效性。使用MNIST 數(shù)據(jù)集,聯(lián)邦學(xué)習(xí)迭代輪次T=150,設(shè)置δ=0.001,每個參與方的隱私預(yù)算εi=ε,σi=10-5。首先,探究隱私預(yù)算對全局準(zhǔn)確率的影響,在采樣率q=1、參與方N=10的情況下,分別設(shè)置隱私預(yù)算ε=1.0,ε=2.0,ε=4.0,結(jié)果如圖2(a)所示。其次,探究參與方數(shù)量的影響,在采樣率q=1、隱私預(yù)算ε=1.0的情況下,分別設(shè)置參與方數(shù)量為N=10,N=50,N=100,結(jié)果如圖2(b)所示。

      圖2 LDP-FL 方法有效性衡量實(shí)驗(yàn)

      觀察圖2,可以得到如下結(jié)論。

      1) 在參與方數(shù)量和采樣率均相同的前提下,LDP-FL 方法中隱私預(yù)算越高,模型全局準(zhǔn)確率越高,說明可以通過調(diào)整隱私預(yù)算實(shí)現(xiàn)聯(lián)邦學(xué)習(xí)模型隱私性和可用性的平衡。

      2) 在隱私預(yù)算和采樣率均相同的前提下,LDP-FL 方法中參與方數(shù)量越多,模型全局準(zhǔn)確率越高,說明增加聯(lián)邦學(xué)習(xí)參與方數(shù)量可以提高準(zhǔn)確率。

      3) 在以上實(shí)驗(yàn)中,經(jīng)過大約80 次迭代后,LDP-FL 方法的全局準(zhǔn)確率趨于穩(wěn)定,說明模型可用性較好。

      4.3 對比實(shí)驗(yàn)與分析

      4.3.1 全局準(zhǔn)確率對比

      首先,探究本文所提LDP-FL 方法與現(xiàn)有方法在MNIST 數(shù)據(jù)集和Fashion MNIST 數(shù)據(jù)集上全局準(zhǔn)確率的對比情況。對于4 種聯(lián)邦學(xué)習(xí)方法,設(shè)置參與方數(shù)量N=10,采樣率q=1,對于使用差分隱私的LDP-FL、CL-FL 和NbAFL,設(shè)置每個參與方的隱私預(yù)算εi=ε,σi=10-5,總體隱私預(yù)算ε=4.0,圖3 分別展示了4 種聯(lián)邦學(xué)習(xí)方法在2 種數(shù)據(jù)集上的全局準(zhǔn)確率隨迭代輪次的變化情況。

      圖3 全局準(zhǔn)確率隨迭代輪次的變化情況

      觀察圖3,可以得到如下結(jié)論。

      1) 在參與方數(shù)量相同的情況下,引入差分隱私保護(hù)的LDP-FL 方法、CL-FL 方法和NbAFL 方法的全局準(zhǔn)確率在2 種數(shù)據(jù)集上均低于FedAvg,說明與FedAvg 相比,引入噪聲機(jī)制會對聯(lián)邦學(xué)習(xí)模型的準(zhǔn)確率造成影響。

      2) 在參與方數(shù)量和隱私預(yù)算均相同的情況下,本文所提的LDP-FL 方法全局準(zhǔn)確率在2 種數(shù)據(jù)集上均高于CL-FL 方法和NbAFL 方法,說明LDP-FL 方法的性能優(yōu)于CL-FL 方法和NbAFL方法。

      3) 由于Fashion MNIST 數(shù)據(jù)集中的圖像數(shù)據(jù)比MNIST 數(shù)據(jù)集中數(shù)據(jù)更復(fù)雜,因此4 種方案在MNIST 數(shù)據(jù)集上的表現(xiàn)均優(yōu)于在Fashion MNIST數(shù)據(jù)集上的表現(xiàn)。

      4.3.2 性能損失對比

      其次,探究本文所提LDP-FL 方法與CL-FL 方法和NbAFL 方法在MNIST 數(shù)據(jù)集和Fashion MNIST 數(shù)據(jù)集上性能損失的對比情況。設(shè)置參與方數(shù)量N=10,采樣率q=1,每個參與方的隱私預(yù)算εi=ε,σi=10-5,總體隱私預(yù)算ε=4.0,表3 分別展示了3 種聯(lián)邦學(xué)習(xí)方案在2 種數(shù)據(jù)集上性能損失對比實(shí)驗(yàn)結(jié)果。

      通過表3 可以看出,LDP-FL 方法在2 種數(shù)據(jù)集上不同的迭代輪次下的性能損失值均小于CL-FL方法和NbAFL 方法,說明LDP-FL 方法的性能優(yōu)于2 種對比算法。

      表3 性能損失對比實(shí)驗(yàn)結(jié)果

      4.3.3 算法運(yùn)行時間對比

      最后,探究本文所提LDP-FL 方法與現(xiàn)有方法在MNIST 數(shù)據(jù)集和Fashion MNIST 數(shù)據(jù)集上運(yùn)行時間的對比情況。對于4 種聯(lián)邦學(xué)習(xí)方法,分別設(shè)定參與方數(shù)量為N=[20,40,60,80],對于使用差分隱私的LDP-FL、CL-FL 和NbAFL,設(shè)置每個參與方的隱私預(yù)算εi=ε,σi=10-5,總體隱私預(yù)算ε=4.0。圖4 分別展示了4 種聯(lián)邦學(xué)習(xí)方法在2 種數(shù)據(jù)集上運(yùn)行時間隨參與方數(shù)量的變化情況。

      圖4 運(yùn)行時間隨參與方數(shù)量的變化情況

      觀察圖4,可以得到如下結(jié)論。

      1) 隨著參與方數(shù)量的增加,4 種方法在2 個數(shù)據(jù)集上的運(yùn)行時間均有所增加,說明增加參與方數(shù)量會導(dǎo)致算法運(yùn)行時間增加。

      2) 由于Fashion MNIST 數(shù)據(jù)集中的圖像數(shù)據(jù)比MNIST 數(shù)據(jù)集中數(shù)據(jù)更復(fù)雜,因此4 種方法在 MNIST 數(shù)據(jù)集上的運(yùn)行時間比 Fashion MNIST 數(shù)據(jù)集上的運(yùn)行時間短。

      3) 在參與方數(shù)量相同的情況下,F(xiàn)edAvg 方法的運(yùn)行時間最短;在3 種引入噪聲機(jī)制的聯(lián)邦學(xué)習(xí)隱私保護(hù)方案中,NbAFL 方法的運(yùn)行時間最短,本文所提LDP-FL 方法略次之,CL-FL 方法最長,同樣說明了LDP-FL 方法的有效性。

      5 結(jié)束語

      本文通過設(shè)計(jì)一種基于本地化差分隱私的聯(lián)邦學(xué)習(xí)方法LDP-FL,解決聯(lián)邦學(xué)習(xí)中存在的模型推理攻擊,主要是將該機(jī)制作用在聯(lián)邦學(xué)習(xí)參數(shù)的傳遞過程中,增加聯(lián)邦模型訓(xùn)練的隱私性。同時,設(shè)計(jì)一種適用于聯(lián)邦學(xué)習(xí)的性能損失約束機(jī)制,通過優(yōu)化損失函數(shù)的約束范圍來降低本地化差分隱私聯(lián)邦模型的性能損失。最后在真實(shí)的數(shù)據(jù)集上通過實(shí)驗(yàn)驗(yàn)證了所提LDP-FL 方法的有效性。未來的工作將集中在聯(lián)邦學(xué)習(xí)優(yōu)化,以及隱私保護(hù)聯(lián)邦學(xué)習(xí)在應(yīng)用方面的拓展,如醫(yī)療和物聯(lián)網(wǎng)環(huán)境,研究這些場景下如何在保證隱私安全的同時提高聯(lián)邦模型的全局準(zhǔn)確率。

      猜你喜歡
      參與方聯(lián)邦差分
      基于秘密分享的高效隱私保護(hù)四方機(jī)器學(xué)習(xí)方案
      數(shù)列與差分
      一“炮”而紅 音聯(lián)邦SVSound 2000 Pro品鑒會完滿舉行
      303A深圳市音聯(lián)邦電氣有限公司
      綠色農(nóng)房建設(shè)伙伴關(guān)系模式初探
      涉及多參與方的系統(tǒng)及方法權(quán)利要求的撰寫
      專利代理(2016年1期)2016-05-17 06:14:03
      基于IPD模式的項(xiàng)目參與方利益分配研究
      基于差分隱私的大數(shù)據(jù)隱私保護(hù)
      相對差分單項(xiàng)測距△DOR
      太空探索(2014年1期)2014-07-10 13:41:50
      差分放大器在生理學(xué)中的應(yīng)用
      云阳县| 临夏县| 泗洪县| 谷城县| 蒙山县| 沾益县| 麻江县| 米脂县| 达日县| 准格尔旗| 土默特左旗| 孝感市| 平果县| 琼海市| 南华县| 宜君县| 延长县| 天全县| 徐闻县| 武汉市| 全南县| 佳木斯市| 库伦旗| 吉木乃县| 鲁甸县| 东乡县| 安庆市| 忻州市| 千阳县| 福安市| 白沙| 桂阳县| 乌拉特后旗| 临洮县| 壶关县| 安宁市| 苏尼特左旗| 布尔津县| 舒兰市| 宣威市| 扎囊县|