• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      面向非獨(dú)立同分布數(shù)據(jù)的聯(lián)邦學(xué)習(xí)數(shù)據(jù)增強(qiáng)方案

      2023-02-20 13:37:30湯凌韜王迪劉盛云
      通信學(xué)報(bào) 2023年1期
      關(guān)鍵詞:差分客戶端標(biāo)簽

      湯凌韜,王迪,劉盛云

      (1.數(shù)學(xué)工程與先進(jìn)計(jì)算國家重點(diǎn)實(shí)驗(yàn)室,江蘇 無錫 214125;2.上海交通大學(xué)網(wǎng)絡(luò)空間安全學(xué)院,上海 200240)

      0 引言

      聯(lián)邦學(xué)習(xí)[1-2]以深度神經(jīng)網(wǎng)絡(luò)為載體,通過本地訓(xùn)練和中央聚合的模式,使各節(jié)點(diǎn)在數(shù)據(jù)不出本地的情況下共同訓(xùn)練一個(gè)全局模型,有效打破了不同團(tuán)體和組織間的信息壁壘。然而,聯(lián)邦學(xué)習(xí)實(shí)用化面臨的一個(gè)關(guān)鍵問題是:節(jié)點(diǎn)間的數(shù)據(jù)往往是非獨(dú)立同分布(non-IID,non-independent and identically distributed)的。由于面向的采樣對(duì)象不同或采樣設(shè)備存在規(guī)格差異,各節(jié)點(diǎn)的本地?cái)?shù)據(jù)往往不服從同一分布,表現(xiàn)出較大的差異性。non-IID 數(shù)據(jù)會(huì)影響全局模型的預(yù)測(cè)準(zhǔn)確率,甚至導(dǎo)致模型不收斂,從而使聯(lián)邦學(xué)習(xí)任務(wù)不能取得預(yù)期的效果。例如,2 個(gè)節(jié)點(diǎn)希望共同建立一個(gè)判斷就診人員是否患病的二分類模型,節(jié)點(diǎn)A 只擁有患者樣本,節(jié)點(diǎn)B只擁有健康人員樣本,則A 訓(xùn)練得到的模型傾向于將所有樣本判定為“患病”,而B 則相反,此時(shí)2 個(gè)本地模型都不具備基本的可用性,直接對(duì)模型進(jìn)行聚合容易偏離全局最優(yōu)的優(yōu)化方向,因此全局模型不會(huì)有較高的準(zhǔn)確率。

      一些文獻(xiàn)就non-IID 數(shù)據(jù)對(duì)模型精度的影響進(jìn)行了分析。文獻(xiàn)[3]證明了數(shù)據(jù)分布的差異會(huì)導(dǎo)致各節(jié)點(diǎn)訓(xùn)練得到的本地模型逐漸收斂到局部最優(yōu),而偏離了全局最優(yōu)的方向,嚴(yán)重影響聚合后的全局模型精度,學(xué)者將這種現(xiàn)象稱為“本地模型偏移”或“節(jié)點(diǎn)偏移”。文獻(xiàn)[4]則認(rèn)為節(jié)點(diǎn)在模型訓(xùn)練的過程中發(fā)生了“知識(shí)遺忘”,雖然所有參與節(jié)點(diǎn)會(huì)在本地訓(xùn)練一定輪次后進(jìn)行參數(shù)聚合,但數(shù)據(jù)分布的固有差異仍會(huì)導(dǎo)致節(jié)點(diǎn)在下一輪本地訓(xùn)練中不斷鞏固自身樣本的知識(shí),而逐漸忘記源于其他節(jié)點(diǎn)的樣本知識(shí)。文獻(xiàn)[5]將實(shí)際場(chǎng)景下的non-IID 數(shù)據(jù)分為標(biāo)簽分布偏斜、特征分布偏斜以及樣本數(shù)目偏斜三類,并通過實(shí)驗(yàn)驗(yàn)證標(biāo)簽分布偏斜對(duì)模型精度造成的影響最大。

      針對(duì)non-IID 數(shù)據(jù),提高模型精度的工作主要存在以下困難:1) 聯(lián)邦學(xué)習(xí)對(duì)隱私保護(hù)有較高的要求,節(jié)點(diǎn)間無法簡(jiǎn)單地通過共享原始數(shù)據(jù)來平衡數(shù)據(jù)分布;2) 聯(lián)邦學(xué)習(xí)涉及多方節(jié)點(diǎn)的計(jì)算和通信,任何額外的工作量都可能導(dǎo)致任務(wù)時(shí)長(zhǎng)成倍增加;3) 方案應(yīng)該具備普適性,不能只適用于某種特定的non-IID 數(shù)據(jù)分布情形。

      為此,本文提出了一種面向聯(lián)邦學(xué)習(xí)的數(shù)據(jù)增強(qiáng)方案,可以在保護(hù)用戶數(shù)據(jù)隱私的前提下,解決non-IID 數(shù)據(jù)引起的模型精度下降問題,同時(shí)不影響聯(lián)邦學(xué)習(xí)主任務(wù)的效率。本文的主要貢獻(xiàn)如下。

      1) 提出了一種聯(lián)邦學(xué)習(xí)數(shù)據(jù)增強(qiáng)(DA-FL,data augmentation in federated learning)框架,通過生成虛擬樣本及標(biāo)簽并在節(jié)點(diǎn)間共享,平衡節(jié)點(diǎn)間的數(shù)據(jù)分布差異,從而減輕訓(xùn)練過程中各節(jié)點(diǎn)的模型偏移現(xiàn)象。

      2) 提出一種隱私樣本生成(PSG,private sample generation)算法,基于生成式對(duì)抗網(wǎng)絡(luò)(GAN,generative adversarial network)生成虛擬樣本,并利用差分隱私機(jī)制保護(hù)GAN 的訓(xùn)練過程,防止敵手利用虛擬樣本進(jìn)行逆向攻擊。

      3) 提出一種隱私標(biāo)簽選?。≒LS,private label selection)算法,利用差分隱私機(jī)制防止虛擬樣本的對(duì)應(yīng)標(biāo)簽泄露用戶隱私。

      4) 基于MNIST、SVHN、Cifar10 等數(shù)據(jù)集,在多種non-IID 數(shù)據(jù)劃分方式下驗(yàn)證了方案的有效性。實(shí)驗(yàn)證明,所提方案能有效提高模型準(zhǔn)確率,加速模型收斂,并取得了比基準(zhǔn)方法更好的效果。

      1 相關(guān)工作

      為解決聯(lián)邦學(xué)習(xí)中non-IID 數(shù)據(jù)引起的模型精度下降問題,相關(guān)工作主要分為3 個(gè)方向。

      1) 為本地訓(xùn)練的損失函數(shù)添加正則項(xiàng),從而控制和減輕本地模型偏移現(xiàn)象[6-8]。

      2) 改進(jìn)中央服務(wù)器的聚合算法,使聚合后的模型更新方向更貼近全局最優(yōu)[9-11]。

      3) 通過節(jié)點(diǎn)間共享數(shù)據(jù)來實(shí)現(xiàn)數(shù)據(jù)的補(bǔ)充和增強(qiáng),緩解數(shù)據(jù)的non-IID 程度[12-14]。

      事實(shí)上,除上述3 個(gè)方向外,個(gè)性化聯(lián)邦學(xué)習(xí)[15-17]根據(jù)每個(gè)節(jié)點(diǎn)自身的數(shù)據(jù)特點(diǎn)和任務(wù)目標(biāo),學(xué)習(xí)個(gè)性化的模型,也有助于緩解數(shù)據(jù)非獨(dú)立同分布帶來的問題,然而本文主要關(guān)注建立統(tǒng)一、可用的模型,因此對(duì)該方向不作展開。

      添加正則項(xiàng)和改進(jìn)聚合算法兩類方法具備模塊化、效率高的優(yōu)勢(shì),對(duì)原有聯(lián)邦學(xué)習(xí)算法只需進(jìn)行少量改動(dòng),且不會(huì)明顯增加系統(tǒng)開銷。然而其缺點(diǎn)為:1) 效果有限,無法帶來明顯的模型精度提升;2) 普適性不強(qiáng),只適用于某些特定non-IID 數(shù)據(jù)分布情形,而當(dāng)節(jié)點(diǎn)間數(shù)據(jù)分布情況發(fā)生改變時(shí),方法效果減弱甚至降低模型精度[5]。

      數(shù)據(jù)共享方法從本質(zhì)上緩解了節(jié)點(diǎn)間數(shù)據(jù)非獨(dú)立同分布的狀況,并且擴(kuò)充了節(jié)點(diǎn)的本地?cái)?shù)據(jù)集,因此對(duì)模型精度提升更明顯。然而該方法往往面臨新的問題,一是增加了隱私泄露的風(fēng)險(xiǎn),二是增大了計(jì)算和通信開銷。例如,文獻(xiàn)[4]中提出各客戶端在本地隨機(jī)選取部分?jǐn)?shù)據(jù)進(jìn)行共享,但未考慮數(shù)據(jù)隱私問題,貢獻(xiàn)的數(shù)據(jù)是明文。文獻(xiàn)[18]提出了COVID-GAN,整合多種來源的數(shù)據(jù)訓(xùn)練一個(gè)生成式對(duì)抗網(wǎng)絡(luò),來估計(jì)現(xiàn)實(shí)世界的人口流動(dòng),以便幫助相關(guān)部門制定決策,該方法雖然避免了明文傳輸,但一些研究表明敵手仍能通過訪問生成器實(shí)現(xiàn)逆向攻擊[19-20]。文獻(xiàn)[14]提出一種基于樣本平均的數(shù)據(jù)增強(qiáng)方法,將多個(gè)樣本進(jìn)行平均,客戶端之間通過共享這些平均樣本來輔助校正本地訓(xùn)練,該方法通過平均計(jì)算來隱藏個(gè)體樣本信息,但未能給出嚴(yán)格的隱私性證明。文獻(xiàn)[13]提出了一種零次數(shù)據(jù)增強(qiáng)方法,客戶端可根據(jù)上一輪的全局模型參數(shù)生成虛擬數(shù)據(jù),無須接觸其他客戶端的真實(shí)數(shù)據(jù)。然而該方法只支持有限的模型架構(gòu),并且為了生成虛擬數(shù)據(jù),客戶端每輪訓(xùn)練需要求解額外的優(yōu)化問題,影響了主任務(wù)的效率。

      針對(duì)這些問題,本文提出一種隱私保護(hù)的聯(lián)邦學(xué)習(xí)數(shù)據(jù)增強(qiáng)方案,與上述工作不同,所提方案中數(shù)據(jù)增強(qiáng)階段不依賴于主任務(wù)的執(zhí)行流程和中間結(jié)果,因此可在主任務(wù)前任意時(shí)間進(jìn)行,而不影響主任務(wù)的效率,增強(qiáng)了方案的實(shí)用性。另外,所提方案利用差分隱私技術(shù)保護(hù)用戶樣本的隱私,防止敵手進(jìn)行逆向攻擊,提高了方案的隱私性。

      2 理論基礎(chǔ)

      2.1 生成式對(duì)抗網(wǎng)絡(luò)

      生成式對(duì)抗網(wǎng)絡(luò)是由Goodfellow 等[21]于2014 年提出的一種機(jī)器學(xué)習(xí)架構(gòu),包含生成器G 和判別器D 這2 個(gè)模型。訓(xùn)練過程可看作2 個(gè)模型的零和博弈,生成器輸入低維隨機(jī)噪聲,輸出虛擬樣本,其優(yōu)化目標(biāo)是盡可能讓判別器將虛擬樣本誤判為真實(shí)樣本;而判別器輸入真實(shí)樣本和虛擬樣本,輸出每條樣本是真實(shí)樣本的概率,其優(yōu)化目標(biāo)是盡可能正確區(qū)分兩類樣本。該過程可看作如下優(yōu)化問題

      學(xué)者后續(xù)對(duì)GAN 進(jìn)行了許多優(yōu)化和改進(jìn),例如,CGAN(conditional generative adversarial network)[22]允許生成器生成指定類別的數(shù)據(jù),DCGAN(deep convolutional generative adversarial network)[23]改變生成器和判別器的模型架構(gòu),將全連接層替換為卷積層和卷積轉(zhuǎn)置層,使生成器能更好地生成復(fù)雜圖像。WGAN(Wasserstein generative adversarial network)[24]用 Wasserstein 距離代替Jensen-Shannon 散度,來解決真實(shí)樣本和虛擬樣本分布不重疊時(shí)生成器的梯度消失問題,從而將優(yōu)化問題(1)轉(zhuǎn)化為

      其中,fw是判別器嘗試擬合的函數(shù),且滿足K-Lipschitz 連續(xù)。

      2.2 差分隱私

      差分隱私是由Dwork 等[25]提出的隱私保護(hù)框架,最早用于保護(hù)數(shù)據(jù)庫被查詢時(shí)的樣本隱私。差分隱私的概念可被擴(kuò)展至任意算法。

      若隨機(jī)算法M 對(duì)任意只相差一個(gè)元素的相鄰集合D和D′,以及M 所有可能輸出組成的集合S,滿足

      其中,概率取自對(duì)M 的隨機(jī)擲幣,稱M 滿足(ε,δ)-差分隱私。

      滿足差分隱私的算法簡(jiǎn)稱為DP 算法,其輸出對(duì)任意數(shù)據(jù)都不敏感,因此杜絕了敵手通過輸出分布的差異推斷一條數(shù)據(jù)的敏感信息。差分隱私一般通過對(duì)算法輸出添加噪聲來實(shí)現(xiàn),以高斯機(jī)制為例,假設(shè)f是對(duì)數(shù)據(jù)集D的一個(gè)查詢函數(shù),查詢返回結(jié)果為f(D),此時(shí)對(duì)結(jié)果添加噪聲 N (0,σ2),當(dāng)滿足時(shí),算 法 M(D) =f(D) +N (0,σ2)滿 足(ε,δ)-DP[26],其中,ε∈ (0,1),??梢娫肼暦讲钣呻[私預(yù)算(ε,δ)和查詢函數(shù)敏感度Δf共同決定。

      2.3 滿足差分隱私的機(jī)器學(xué)習(xí)

      文獻(xiàn)[27]基于差分隱私技術(shù)提出了一種典型的隱私保護(hù)機(jī)器學(xué)習(xí)框架——差分隱私隨機(jī)梯度下降(DP-SGD),在模型訓(xùn)練過程中,對(duì)一批樣本中每個(gè)樣本得到的梯度進(jìn)行剪裁,平均梯度后再添加噪聲,最后更新模型。該方法提供了模型單步更新的隱私保證,而模型訓(xùn)練需要經(jīng)過多輪迭代,為統(tǒng)計(jì)全局的隱私保護(hù)程度,文獻(xiàn)[27]進(jìn)一步提出了隱私計(jì)量方法Moments Accountant,用于計(jì)量訓(xùn)練全流程的隱私損失,根據(jù)該損失可以計(jì)算滿足差分隱私定義的參數(shù)(ε,δ)。

      基于DP-SGD 框架,學(xué)者們對(duì)滿足差分隱私的生成式對(duì)抗網(wǎng)絡(luò)(DP-GAN)進(jìn)行了探索[28-29],由于只有判別器接觸真實(shí)數(shù)據(jù),故在訓(xùn)練中對(duì)判別器的梯度添加噪聲,使其滿足差分隱私,由后處理定理[26]可知,在不接觸原數(shù)據(jù)的情況下,對(duì)差分隱私算法的輸出做任意計(jì)算都不會(huì)增加隱私損失,因此生成器及其生成數(shù)據(jù)也滿足差分隱私。

      3 方案設(shè)計(jì)

      3.1 整體架構(gòu)

      本文的核心思路是通過數(shù)據(jù)增強(qiáng)的方式,平衡不同節(jié)點(diǎn)間數(shù)據(jù)分布的差異,從而提高最終模型的表現(xiàn)。每個(gè)客戶端基于本地?cái)?shù)據(jù)訓(xùn)練一個(gè)滿足差分隱私的生成式對(duì)抗網(wǎng)絡(luò),然后用生成器輸出一定數(shù)目的虛擬樣本,并上傳至中央服務(wù)器,形成一個(gè)共享數(shù)據(jù)集。服務(wù)器將共享數(shù)據(jù)集下發(fā)至各客戶端,客戶端合并本地?cái)?shù)據(jù)集與共享數(shù)據(jù)集從而完成數(shù)據(jù)增強(qiáng),至此預(yù)處理階段結(jié)束。方案的整體架構(gòu)如圖1 所示,以客戶端1 為例描繪了本地GAN 訓(xùn)練和生成虛擬樣本的過程,實(shí)際上所有客戶端都同樣執(zhí)行上述流程。

      圖1 方案整體架構(gòu)

      本文的數(shù)據(jù)增強(qiáng)方案在預(yù)處理階段進(jìn)行,而聯(lián)邦學(xué)習(xí)的模型訓(xùn)練過程則稱為主任務(wù)階段,當(dāng)主任務(wù)開始時(shí),各客戶端基于增強(qiáng)后的數(shù)據(jù)集進(jìn)行模型訓(xùn)練,與正常聯(lián)邦學(xué)習(xí)的流程相同,此處不再贅述。

      在方案高效性方面,虛擬樣本的生成和客戶端本地的數(shù)據(jù)增強(qiáng)不依賴于聯(lián)邦學(xué)習(xí)主任務(wù)的執(zhí)行邏輯和中間輸出,除了因客戶端本身數(shù)據(jù)集規(guī)模擴(kuò)大而增加的訓(xùn)練開銷,不在主任務(wù)階段引入額外的計(jì)算和通信開銷,提高了方案的實(shí)用性。

      在方案可用性方面,注意到GAN 生成的樣本是不帶類別標(biāo)簽的,可直接適用于主任務(wù)為半監(jiān)督學(xué)習(xí)的情況。而當(dāng)主任務(wù)是監(jiān)督學(xué)習(xí)時(shí),本文利用CGAN技術(shù),先選取一批虛擬標(biāo)簽,再生成對(duì)應(yīng)標(biāo)簽的虛擬樣本,后續(xù)將主要介紹主任務(wù)為監(jiān)督學(xué)習(xí)的情況。

      在方案的隱私性方面,本文關(guān)注個(gè)體樣本的隱私,分別在虛擬標(biāo)簽選取過程和虛擬樣本生成過程引入差分隱私,從而保證敵手無法根據(jù)客戶端的虛擬樣本及標(biāo)簽推斷出特定真實(shí)樣本的信息。

      表1 給出了系統(tǒng)參數(shù)及含義。

      表1 系統(tǒng)參數(shù)及含義

      3.2 聯(lián)邦學(xué)習(xí)數(shù)據(jù)增強(qiáng)框架

      本文提出的聯(lián)邦學(xué)習(xí)數(shù)據(jù)增強(qiáng)框架DA-FL 如算法1 所示。

      算法1聯(lián)邦學(xué)習(xí)數(shù)據(jù)增強(qiáng)框架DA-FL

      首先,每個(gè)客戶端Ci計(jì)算所需生成的虛擬樣本數(shù)目mi,由本地?cái)?shù)據(jù)集Di的規(guī)模乘以一個(gè)共享比例γ得到,即mi=|D i|γ,設(shè)置參數(shù)γ是便于仿真時(shí)評(píng)估虛擬樣本數(shù)目對(duì)聯(lián)邦學(xué)習(xí)的提升效果,實(shí)際應(yīng)用中各客戶端的共享比例可以不同。

      然后,記Ui為Di中所有樣本的對(duì)應(yīng)標(biāo)簽集合,例如,客戶端Ci本地共5 個(gè)樣本,其中一個(gè)樣本屬于類別1,其余4 個(gè)屬于類別2,則Ui= {1,2,2,2,2},易知Ui是一個(gè)無序的多重集,且|Ui|=|Di|??蛻舳薈i從Ui中隨機(jī)選取mi個(gè)標(biāo)簽,稱為虛擬標(biāo)簽。3.4 節(jié)將改進(jìn)上述虛擬標(biāo)簽選取方法,使其滿足差分隱私。

      接著,Ci執(zhí)行PSG 算法,生成與虛擬標(biāo)簽對(duì)應(yīng)的虛擬樣本特征,之后將虛擬樣本和標(biāo)簽一并上傳至中央服務(wù)器,中央服務(wù)器整合后下發(fā)至所有客戶端。

      最后,客戶端收到源于其他節(jié)點(diǎn)的虛擬數(shù)據(jù),將其加入本地?cái)?shù)據(jù)集從而完成數(shù)據(jù)增強(qiáng)。

      算法1 中PSG 算法的描述見3.3 節(jié)。注意到,上述框架是模塊化的,只涉及預(yù)處理階段的數(shù)據(jù)增強(qiáng),而不對(duì)后續(xù)的聯(lián)邦學(xué)習(xí)流程做出改動(dòng)。因此,現(xiàn)有的聯(lián)邦學(xué)習(xí)主任務(wù)流程的優(yōu)化算法理論上都可與本文方案相結(jié)合,從而進(jìn)一步提高non-IID 數(shù)據(jù)場(chǎng)景中的模型準(zhǔn)確率。在第4 節(jié)仿真實(shí)驗(yàn)中,為客觀地對(duì)比不同方法的效果,采用基礎(chǔ)的FedAvg算法作為本文方案的主任務(wù)算法。

      3.3 滿足差分隱私的樣本生成

      雖然GAN 生成的樣本與真實(shí)訓(xùn)練樣本不同,但有研究表明通過模型或虛擬樣本,仍能發(fā)起對(duì)訓(xùn)練樣本的成員推斷攻擊[19-20]。因此,本文采用差分隱私保護(hù)真實(shí)樣本的隱私性。

      本文基于DP-SGD 框架,在GAN 訓(xùn)練過程中對(duì)判別器的每個(gè)梯度進(jìn)行剪裁以控制其敏感度,然后將同一批次的梯度進(jìn)行平均并添加噪聲,同時(shí)利用Moments Accountant 統(tǒng)計(jì)每輪訓(xùn)練產(chǎn)生的隱私損失。為了使生成器能生成指定類別的樣本,對(duì)判別器和生成器的模型結(jié)構(gòu)進(jìn)行修改,用嵌入層對(duì)樣本標(biāo)簽進(jìn)行表示,并將其作為判別器和生成器的額外輸入。另外,GAN 模型中常使用批歸一化技術(shù),而該方法需獲取一批樣本的整體統(tǒng)計(jì)數(shù)據(jù),破壞了差分隱私性質(zhì)[30-31],因此將其替換為實(shí)例歸一化,并禁止追蹤滑動(dòng)均值與方差,模型架構(gòu)詳見4.1 節(jié)。

      隱私樣本生成算法如算法2 所示。步驟1)~步驟21)是生成式對(duì)抗網(wǎng)絡(luò)的訓(xùn)練主循環(huán),其中,步驟5)~步驟12)為判別器的訓(xùn)練和更新過程,步驟13)~步驟18)為生成器的訓(xùn)練和更新過程;步驟19)~步驟21)利用Moments Accountant 統(tǒng)計(jì)當(dāng)前的累計(jì)隱私損失,并計(jì)算已消耗的隱私預(yù)算,一旦超出預(yù)先設(shè)定的隱私預(yù)算,則停止訓(xùn)練并撤銷當(dāng)前輪次的訓(xùn)練結(jié)果;步驟22)~步驟26)利用訓(xùn)練得到的生成器進(jìn)行樣本生成。

      算法2PSG 算法

      輸入生成虛擬樣本數(shù)目m,虛擬標(biāo)簽,本地?cái)?shù)據(jù)集D,預(yù)定訓(xùn)練輪數(shù)T,學(xué)習(xí)率η,批樣本數(shù)B,隱私預(yù)算 (ε0,δ0),訓(xùn)練梯度剪裁上界c,噪聲乘子σ,隱私損失計(jì)算函數(shù)A

      輸出虛擬樣本特征

      3.4 滿足差分隱私的標(biāo)簽選取

      算法1中客戶端除了向服務(wù)器提交虛擬樣本的特征外,還要提交虛擬標(biāo)簽,所以需要保證選取的虛擬標(biāo)簽也滿足差分隱私。

      設(shè)計(jì)標(biāo)簽選取方法需要兼顧隱私性和可用性。一種簡(jiǎn)單的方法是客戶端為每個(gè)類別生成相同數(shù)目的虛擬樣本,且虛擬樣本數(shù)目為事先約定,則該標(biāo)簽選取過程與本地?cái)?shù)據(jù)集無關(guān),也不會(huì)泄露任何信息。這種方法適用于IID 數(shù)據(jù)場(chǎng)景,然而non-IID數(shù)據(jù)場(chǎng)景中客戶端可能只擁有某幾類的樣本數(shù)據(jù),對(duì)于缺失的類別,生成器無法生成有效的虛擬樣本,影響了樣本的可用性。

      考慮到上述類別缺失問題,以及共享數(shù)據(jù)集中樣本的多樣性和全面性,一個(gè)合理的方式是使共享數(shù)據(jù)集的分布逼近全局?jǐn)?shù)據(jù)的分布,從而使模型在共享數(shù)據(jù)集上的優(yōu)化方向趨近全局優(yōu)化方向。此時(shí),客戶端選取的虛擬標(biāo)簽應(yīng)該與本地真實(shí)標(biāo)簽的分布相同,即不同類別間的虛擬標(biāo)簽數(shù)目占比應(yīng)與本地真實(shí)標(biāo)簽保持一致。設(shè)全局?jǐn)?shù)據(jù)分為L(zhǎng)個(gè)類別,客戶端每個(gè)類別的真實(shí)樣本數(shù)目分別為n1,…,nL,每類選取虛擬標(biāo)簽的數(shù)目分別為,則應(yīng)有

      但是,該標(biāo)簽采樣方法是確定性的,無法抵抗敵手的逆向差分攻擊,故在此基礎(chǔ)上,引入指數(shù)機(jī)制(EM,exponential mechanism)對(duì)每種類別采樣的標(biāo)簽數(shù)目進(jìn)行擾動(dòng),具體步驟如下。

      1) 對(duì)類別k,定義效用函數(shù)為

      2) 對(duì)類別k,令取值為r的概率為

      依據(jù)上述思路,給出虛擬標(biāo)簽選取算法如下。

      算法3PLS 算法

      輸入虛擬樣本共享比例γ,全局樣本類別總數(shù)L,客戶端樣本總數(shù)n,其中每個(gè)類別樣本數(shù)n1,…,nL

      輸出虛擬標(biāo)簽

      利用算法3 代替算法1 的步驟3),即可保證虛擬標(biāo)簽滿足差分隱私。

      定理2算法3 滿足(ε,0)-差分隱私。

      證明如附錄2 所示。

      至此,根據(jù)定理1 和定理2,可以得到算法1的隱私性質(zhì)。

      定理3算法1 滿足(ε,δ)-差分隱私。

      證明算法1中每個(gè)客戶端需按順序執(zhí)行算法3和算法2,根據(jù)差分隱私的組合性質(zhì),假設(shè)算法2滿足 (ε0,δ0)-差分隱私,算法3 滿足(ε1,0)-差分隱私,則算法1滿足(ε,δ)-差分隱私,其中,ε=ε0+ε1,δ=δ0。證畢。

      4 仿真實(shí)驗(yàn)

      4.1 實(shí)驗(yàn)設(shè)置

      1) 實(shí)驗(yàn)環(huán)境

      本文的實(shí)驗(yàn)環(huán)境為Amazon EC2 p3.2xlarge,硬件配置為8vCPU、61 GB 內(nèi)存、Tesla V100 GPU。本文方案基于Pytorch 和Opacus[31]庫實(shí)現(xiàn),參與對(duì)比的基準(zhǔn)方法部分采用了 NIID-Bench[5]和FedLab[32]中的實(shí)現(xiàn)代碼。

      2) 數(shù)據(jù)集與數(shù)據(jù)劃分

      實(shí)驗(yàn)數(shù)據(jù)集為MNIST[33]、FashionMNIST[34]、Cifar10[35]、SVHN[36]。文獻(xiàn)[5]詳細(xì)研究了不同的non-IID 數(shù)據(jù)劃分方式對(duì)模型精度的影響,本文從中選擇了3種對(duì)模型精度影響最大的數(shù)據(jù)劃分方式進(jìn)行實(shí)驗(yàn),分別如下:1-Label,每個(gè)客戶端只有一種類別的樣本;2-Label,每個(gè)客戶端只有2 種不同類別的樣本;Dir(0.05),客戶端的樣本服從Dirichlet 分布[10]Dir(β),其中,參數(shù)β越小表示非獨(dú)立同分布程度越高,此處將β設(shè)置為一個(gè)較小的值,即β=0.05。

      本文設(shè)置了10 個(gè)客戶端的聯(lián)邦學(xué)習(xí)場(chǎng)景,針對(duì)上面3 種數(shù)據(jù)劃分方式,隨機(jī)生成一組樣本分布并固定,以便公平地比較不同方法的效果。圖2 展示了non-IID 數(shù)據(jù)劃分情況,每個(gè)子圖展示了各客戶端的樣本分布,不同類別樣本用不同深淺的灰色標(biāo)識(shí)。

      圖2 Non-IID 數(shù)據(jù)劃分情況

      3) 模型架構(gòu)

      本文使用的GAN 和CNN 分類模型的結(jié)構(gòu)如圖3所示。其中,判別器和生成器的主體分別為4 個(gè)卷積層(conv)和4 個(gè)卷積轉(zhuǎn)置層(upconv),均采用實(shí)例歸一化??绮剑╯tride)、填充(padding)等參數(shù)設(shè)置如圖3 所示。判別器和生成器中間層的激活函數(shù)分別為L(zhǎng)ReLU 和ReLU。判別器接收32 像素×32 像素圖像和標(biāo)簽作為輸入,輸出一個(gè)判別評(píng)分;生成器接收維度為10 的高斯噪聲和標(biāo)簽作為輸入,32 像素×32 像素圖像作為輸出。本文所用數(shù)據(jù)集圖像規(guī)格為28 像素×28 像素,故對(duì)輸入判別器和生成器輸出的圖像進(jìn)行resize 處理。聯(lián)邦學(xué)習(xí)主任務(wù)的分類模型主要包含2 個(gè)卷積層和2 個(gè)全連接層FC,每層卷積后設(shè)置最大池化層Max Pooling 和ReLU 激活函數(shù)。

      圖3 GAN 和CNN 分類模型的結(jié)構(gòu)

      4) 相關(guān)參數(shù)

      表2 給出了實(shí)驗(yàn)參數(shù)設(shè)置。其中,每輪參與訓(xùn)練的客戶端比例設(shè)置為1,即所有客戶端都參與訓(xùn)練。對(duì)于數(shù)據(jù)集SVHN 和Cifar10,隱私預(yù)算ε分別設(shè)置為100 和200。

      表2 實(shí)驗(yàn)參數(shù)設(shè)置

      4.2 方案有效性驗(yàn)證

      本節(jié)驗(yàn)證方案的有效性?;趫D2 所示的數(shù)據(jù)劃分方式,測(cè)試了聯(lián)邦學(xué)習(xí)經(jīng)過50 輪通信后的全局模型準(zhǔn)確率。同時(shí),在相同的參數(shù)設(shè)置下,將本文方案與FedAvg[1]、FedProx[6]、SCAFFOLD[7]、FedNova[9]、FedMix[14]進(jìn)行了對(duì)比。其中,對(duì)于本文方案,測(cè)試了虛擬樣本共享比例為0.01 和0.05 這 2 種情況;對(duì)于FedProx,超參數(shù)μ測(cè)試了{(lán)0.001,0.01,0.1,1}4 種取值;對(duì)于FedMix,超參數(shù)λ測(cè)試了{(lán)0.05,0.1,0.2}3 種取值,分別報(bào)告最好的一組結(jié)果。另外,對(duì)每個(gè)數(shù)據(jù)集測(cè)試了集中訓(xùn)練(centralized training)的模型精度,該結(jié)果用來估計(jì)給定模型架構(gòu)、訓(xùn)練算法和超參數(shù)后,所能達(dá)到的模型精度上界。

      由表3 可知,本文方案在3 種數(shù)據(jù)劃分方式下,都取得了相對(duì)較高的模型準(zhǔn)確率,特別是1-Label的極端non-IID 場(chǎng)景下,本文方案在各數(shù)據(jù)集上都取得了比基準(zhǔn)方法更高的模型準(zhǔn)確率。由2-Label和Dir(0.05)的實(shí)驗(yàn)結(jié)果可見,樣本數(shù)目的不均衡對(duì)模型精度的影響相對(duì)較小,而客戶端本地?cái)?shù)據(jù)的類別多樣性對(duì)模型精度的影響較大。在本文方案中,每個(gè)客戶端的增強(qiáng)數(shù)據(jù)集包含了所有類別的樣本,因此能取得較好的模型表現(xiàn)。

      表3 不同方法的模型測(cè)試準(zhǔn)確率對(duì)比

      圖4 給出了不同方法訓(xùn)練中的模型準(zhǔn)確率變化情況,其中,本文方案設(shè)置γ=0.05。從圖4 可知,本文方案在non-IID 數(shù)據(jù)場(chǎng)景中可以使模型快速收斂,在1-Label 下,基準(zhǔn)方法訓(xùn)練過程中的模型準(zhǔn)確率振蕩幅度較大甚至不收斂,而本文方案中模型在前5 輪通信即可收斂至極值點(diǎn)附近。相比于上述情形,在2-Label 下,基準(zhǔn)方法與本文方案的最終模型準(zhǔn)確率差距縮小,但基準(zhǔn)方法的收斂速度較慢,所需通信輪次較多。聯(lián)邦學(xué)習(xí)主任務(wù)階段往往涉及多個(gè)節(jié)點(diǎn)參與,節(jié)約此階段的訓(xùn)練輪次具有重要的實(shí)際意義。

      圖4 不同方法訓(xùn)練中的模型準(zhǔn)確率變化情況

      4.3 隱私預(yù)算對(duì)方案效果的影響

      本節(jié)研究差分隱私的隱私預(yù)算對(duì)方案效果的影響。基于MNIST 數(shù)據(jù)集在1-Label 下進(jìn)行實(shí)驗(yàn),令γ= 0.01,δ= 10-5,分別 測(cè)試ε= 1,5,20,50,∞這5 種情況下,主任務(wù)模型經(jīng)過50 輪通信后的準(zhǔn)確率,其中ε=∞表示不對(duì)GAN 訓(xùn)練添加噪聲。

      由表4 可知,當(dāng)不添加噪聲時(shí),GAN 生成的樣本能幫助主任務(wù)模型達(dá)到最高的準(zhǔn)確率;當(dāng)隱私預(yù)算為5~50 時(shí),模型準(zhǔn)確率相對(duì)接近;當(dāng)隱私預(yù)算為1 時(shí),模型準(zhǔn)確率明顯降低。上述情況體現(xiàn)了DP-GAN 可用性和隱私性之間的矛盾,隱私保護(hù)程度越強(qiáng),生成的樣本質(zhì)量越低。

      表4 不同隱私預(yù)算時(shí)的模型準(zhǔn)確率

      圖5 展示了不同隱私預(yù)算時(shí)的虛擬樣本,此處選取只有樣本類別“8”的客戶端,對(duì)不同的隱私預(yù)算ε= 1,5,20,50,∞分別訓(xùn)練一個(gè)生成器,然后固定一組輸入噪聲,觀察每個(gè)生成器輸出的虛擬樣本。由圖5 可知,隨著隱私預(yù)算的減少,虛擬樣本質(zhì)量略有降低,當(dāng)ε=1時(shí)發(fā)生了模式崩塌,對(duì)于不同的輸入噪聲,生成器只輸出相同的圖像,說明對(duì)梯度添加的噪聲過大,影響了判別器的正常更新,從而無法正確指導(dǎo)生成器優(yōu)化。

      圖5 不同隱私預(yù)算時(shí)的虛擬樣本

      4.4 樣本共享數(shù)目對(duì)方案效果的影響

      本節(jié)研究客戶端貢獻(xiàn)的虛擬樣本共享數(shù)目對(duì)方案效果的影響。基于MNIST 數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),樣本共享比例分別設(shè)置為γ= 0.1,0.05,0.01,0.005,觀察訓(xùn)練過程中模型準(zhǔn)確率的變化情況。

      由圖6 可知,在1-Label 中,節(jié)點(diǎn)間數(shù)據(jù)分布差異較大,增大虛擬樣本的共享數(shù)目有助于平衡全局?jǐn)?shù)據(jù)的分布,從而增強(qiáng)訓(xùn)練穩(wěn)定性,提高最終模型的精度。在2-Label 中,節(jié)點(diǎn)間數(shù)據(jù)分布差異變小,γ值對(duì)最終模型準(zhǔn)確率的影響也變小,4 種取值都能獲得相近的模型表現(xiàn),但增大γ仍有助于提高模型收斂速度。由表3 可知,Cifar10 數(shù)據(jù)集訓(xùn)練過程中γ=0.05 時(shí)的模型準(zhǔn)確率反而低于γ=0.01,這是因?yàn)镚AN 訓(xùn)練過程中的噪聲導(dǎo)致生成樣本質(zhì)量較低,造成了數(shù)據(jù)分布與樣本質(zhì)量間的矛盾,加入更多的虛擬樣本更好地平衡了數(shù)據(jù)分布,但降低了總體樣本質(zhì)量。

      圖6 不同樣本共享比例的模型準(zhǔn)確率變化曲線

      4.5 方案效率測(cè)試

      本節(jié)測(cè)試方案的執(zhí)行效率,主要驗(yàn)證以下兩點(diǎn)。1) 主任務(wù)效率:方案的主任務(wù)階段耗時(shí)是否與基準(zhǔn)方法相近;2) 總體效率:考慮預(yù)處理階段耗時(shí),方案的總體耗時(shí)是否仍處于可接受范圍。

      基于表2 的默認(rèn)參數(shù)設(shè)置,在6 個(gè)場(chǎng)景下對(duì)不同方案進(jìn)行效率對(duì)比,結(jié)果如圖7 所示,其中Ours-Main和Ours-Pre 分別代表本文方案的主任務(wù)階段和預(yù)處理階段。因?yàn)槁?lián)邦學(xué)習(xí)是同步系統(tǒng),每個(gè)通信輪的耗時(shí)取決于執(zhí)行最慢的節(jié)點(diǎn),而在 2-Label 和Dir(0.05)中存在明顯的樣本數(shù)目偏斜,所以主任務(wù)階段耗時(shí)比1-Label 更長(zhǎng)。

      本文方案主任務(wù)階段采用的是FedAvg 算法,主要區(qū)別是由于數(shù)據(jù)增強(qiáng),客戶端的本地?cái)?shù)據(jù)集規(guī)模增大,故由圖7 可知,本文方案主任務(wù)階段的耗時(shí)與FedAvg 等基準(zhǔn)方法相近。其次,本文方案數(shù)據(jù)增強(qiáng)階段的耗時(shí)約為主任務(wù)階段的 10.2%~16.7%,2 個(gè)階段的總體耗時(shí)相比于基準(zhǔn)方法處于可接受范圍。

      圖7 不同方案效率對(duì)比

      5 結(jié)束語

      本文提出一種面向非獨(dú)立同分布數(shù)據(jù)的聯(lián)邦學(xué)習(xí)數(shù)據(jù)增強(qiáng)方案,所有客戶端在本地訓(xùn)練一個(gè)生成式對(duì)抗網(wǎng)絡(luò),然后生成一定數(shù)目的虛擬樣本,客戶端間通過共享虛擬樣本來增強(qiáng)本地?cái)?shù)據(jù)。在生成式對(duì)抗網(wǎng)絡(luò)訓(xùn)練過程中,對(duì)判別器添加合適的噪聲,使虛擬樣本滿足差分隱私,從而保證原始數(shù)據(jù)的隱私。同時(shí),設(shè)計(jì)了滿足差分隱私的標(biāo)簽選取算法,避免在數(shù)據(jù)共享過程中虛擬標(biāo)簽泄露隱私。與已有工作相比,所提方案在多種數(shù)據(jù)劃分下都取得了更高的模型精度和更快的模型收斂速度。在未來的工作中,將進(jìn)一步研究DP-GAN 可用性與隱私性之間的矛盾,在合理的隱私預(yù)算下,生成更復(fù)雜的、高可用的虛擬樣本,提高方案在面向復(fù)雜數(shù)據(jù)集時(shí)的有效性。

      附錄1 定理1 的證明

      基于Moments Accountant 技術(shù)[27]證明定理1。首先,定義調(diào)用一次算法M 所產(chǎn)生的隱私損失為隨機(jī)變量Z為

      其中,D,D′是相鄰數(shù)據(jù)集,o屬于M 的輸出域。可以通過計(jì)算Z矩母函數(shù)的值來估計(jì)隱私損失的范圍,定義

      引理1[27]對(duì)任意ε> 0,算法M 滿足(ε,δ)-差分隱私,其中,。

      記算法2 為M,則由引理1 可知,為保證算法M 滿足差分隱私,只需約束αM(λ)的上界,并且,由αM(λ)可以進(jìn)一步計(jì)算得到隱私預(yù)算(ε,δ)。M 共包含T輪訓(xùn)練,記第t輪訓(xùn)練為子算法 Mt,Mt又包含2 個(gè)子算法:判別器D 的訓(xùn)練過程,生成器G 的訓(xùn)練過程。

      下面證明對(duì)每個(gè)t,的隱私損失存在上界。算法2中步驟7)和步驟8)可合并寫為

      式(9)表示由真實(shí)樣本和虛擬樣本共同計(jì)算得到的判別器梯度,將該計(jì)算過程抽象為

      設(shè)batch size 為B,則式(9)需執(zhí)行B次,然后對(duì)每個(gè)梯度進(jìn)行剪裁并添加噪聲,最后計(jì)算平均梯度。為方便分析,令剪裁上界c=1,于是可表示為

      至此,證明了給定參數(shù)ε,δ,q,T時(shí),通過選取合適的噪聲乘子σ可使整個(gè)訓(xùn)練過程滿足(ε,δ)-差分隱私。實(shí)際執(zhí)行過程中,算法2 的噪聲乘子是預(yù)先確定的,通過隱私計(jì)量函數(shù)A 計(jì)算當(dāng)前已消耗的隱私預(yù)算(εt,δt),當(dāng)其超過既定隱私預(yù)算 (ε0,δ0)時(shí),則停止訓(xùn)練。

      證畢。

      附錄2 定理2 的證明

      由此可知輸出一個(gè)類別的標(biāo)簽數(shù)目滿足(ε,0)-差分隱私,由差分隱私組合性質(zhì)可知,輸出所有L個(gè)類別的標(biāo)簽數(shù)目滿足(Lε,0)-差分隱私。因?yàn)樯傻奶摂M標(biāo)簽是相互獨(dú)立的,不存在先后次序關(guān)系,所以L個(gè)類別的標(biāo)簽數(shù)目唯一決定了所有的虛擬標(biāo)簽,至此證明了算法3 滿足(ε′,0)-差分隱私。

      證畢。

      猜你喜歡
      差分客戶端標(biāo)簽
      數(shù)列與差分
      無懼標(biāo)簽 Alfa Romeo Giulia 200HP
      車迷(2018年11期)2018-08-30 03:20:32
      縣級(jí)臺(tái)在突發(fā)事件報(bào)道中如何應(yīng)用手機(jī)客戶端
      孵化垂直頻道:新聞客戶端新策略
      基于Vanconnect的智能家居瘦客戶端的設(shè)計(jì)與實(shí)現(xiàn)
      不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
      海峽姐妹(2018年3期)2018-05-09 08:21:02
      標(biāo)簽化傷害了誰
      基于多進(jìn)制查詢樹的多標(biāo)簽識(shí)別方法
      基于差分隱私的大數(shù)據(jù)隱私保護(hù)
      相對(duì)差分單項(xiàng)測(cè)距△DOR
      太空探索(2014年1期)2014-07-10 13:41:50
      青田县| 梅河口市| 巴彦淖尔市| 高平市| 合川市| 长白| 石楼县| 巴南区| 秦皇岛市| 鄂州市| 阆中市| 平谷区| 新丰县| 手游| 湘潭市| 桑日县| 南涧| 保靖县| 格尔木市| 门源| 库伦旗| 泰安市| 河西区| 迁安市| 云和县| 曲麻莱县| 海淀区| 安龙县| 江安县| 洞头县| 洛阳市| 竹山县| 永新县| 五大连池市| 休宁县| 凌海市| 藁城市| 改则县| 安多县| 桂东县| 普兰店市|