摘要:為解決模型更新攻擊對(duì)聯(lián)邦學(xué)習(xí)在智能電網(wǎng)中部署與應(yīng)用的安全威脅,文章基于云邊協(xié)同框架和隱私計(jì)算技術(shù),提出一種面向電力數(shù)據(jù)分析的安全高效聯(lián)邦學(xué)習(xí)框架,通過(guò)差分隱私機(jī)制為客戶端訓(xùn)練模型參數(shù)添加噪聲,以保護(hù)訓(xùn)練過(guò)程中模型參數(shù)的安全性;利用秘密分享算法對(duì)噪聲模型參數(shù)進(jìn)行安全聚合,在保證模型快速收斂的同時(shí)實(shí)現(xiàn)對(duì)電力數(shù)據(jù)和本地模型參數(shù)的保護(hù)。理論分析和實(shí)驗(yàn)結(jié)果表明,該方法能夠顯著提升電力數(shù)據(jù)和共享模型參數(shù)的隱私性。
關(guān)鍵詞:聯(lián)邦學(xué)習(xí);差分隱私;秘密分享;電力數(shù)據(jù);隱私保護(hù)
中圖分類號(hào):TP309""文獻(xiàn)標(biāo)志碼:A
0"引言
電力數(shù)據(jù)的對(duì)外開放共享可有效預(yù)測(cè)國(guó)民經(jīng)濟(jì)的運(yùn)行情況,為各行業(yè)發(fā)展提供決策依據(jù)[1]。但隨著電力數(shù)據(jù)開放性增加,與用電用戶關(guān)聯(lián)的各類信息安全和隱私保護(hù)問題也日益凸顯。聯(lián)邦學(xué)習(xí)(Federated Learning, FL)是一種新穎的機(jī)器學(xué)習(xí)方法,用于解決分布式模型訓(xùn)練時(shí)的數(shù)據(jù)隱私泄露問題[2],作為數(shù)據(jù)流通的新范式,在滿足數(shù)據(jù)隱私保護(hù)和共享分析優(yōu)化權(quán)衡的條件下,實(shí)現(xiàn)多方聯(lián)合使用數(shù)據(jù)建模,已服務(wù)于電力負(fù)荷評(píng)估、電力監(jiān)控系統(tǒng)態(tài)勢(shì)感知等場(chǎng)景,為電力行業(yè)的運(yùn)行和發(fā)展決策提供有效支持和有力支撐[3]。
聯(lián)邦學(xué)習(xí)雖然在一定程度上保障了用戶隱私和數(shù)據(jù)安全,但在共享與分析電力數(shù)據(jù)上仍然面臨諸多挑戰(zhàn)[4]。一方面,與集中式機(jī)器學(xué)習(xí)方法不同,F(xiàn)L訓(xùn)練機(jī)器學(xué)習(xí)模型時(shí)不與中心服務(wù)器共享用戶或設(shè)備數(shù)據(jù),須根據(jù)全局模型更新,共享本地模型參數(shù)并在全局模型中聚合所有模型參數(shù),這使得上傳更新模型參數(shù)到中心服務(wù)器時(shí)通信開銷花費(fèi)較高。另一方面,電力數(shù)據(jù)通常是差異性較大的非獨(dú)立同分布數(shù)據(jù),該特點(diǎn)使得由電力數(shù)據(jù)訓(xùn)練產(chǎn)生的模型收斂性和性能不佳。此外,在聯(lián)邦學(xué)習(xí)交換模型參數(shù)過(guò)程中極易受到梯度泄露攻擊、成員推理攻擊等多類攻擊影響,安全性和隱私性降下。因此,設(shè)計(jì)隱私增強(qiáng)的聯(lián)邦學(xué)習(xí)技術(shù)在保證用戶信息和數(shù)據(jù)安全的前提下,實(shí)現(xiàn)有效的數(shù)據(jù)分析和降低通信開銷是當(dāng)前研究熱點(diǎn),其在電力數(shù)據(jù)中的應(yīng)用研究也成為智能電網(wǎng)發(fā)展的重點(diǎn)。
為解決上述問題,陳嘉翊等[5]基于聯(lián)邦學(xué)習(xí)和同態(tài)加密算法,提出了一種電力數(shù)據(jù)預(yù)測(cè)模型的局部保護(hù)方法,解決了數(shù)據(jù)模型訓(xùn)練過(guò)程中的隱私泄露問題,有效降低了網(wǎng)絡(luò)資源開銷。Ye等[6]提出了基于邊緣計(jì)算和FL的系統(tǒng)模型EdgeFed,在不損害隱私的情況下增加用于訓(xùn)練深度學(xué)習(xí)模型的數(shù)據(jù)量和多樣性,同時(shí)降低邊緣設(shè)備的計(jì)算成本和總通信開銷。Fekri等[7]提出了基于FL和長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)的分布式負(fù)荷預(yù)測(cè)模型,歸一化處理不同大小的智能電表讀數(shù),提升了模型的準(zhǔn)確率。李宇遠(yuǎn)等[8]提出了用于保護(hù)電力物聯(lián)網(wǎng)中用戶數(shù)據(jù)安全的FL框架,通過(guò)對(duì)用戶分級(jí)進(jìn)行數(shù)據(jù)管理和分析的,提高模型訓(xùn)練效率。Liu等[9]通過(guò)提取和捕獲數(shù)據(jù)的整體特征和時(shí)間特征,設(shè)計(jì)了基于FL的CNN-Attention-LSTM 模型對(duì)多種能源負(fù)荷進(jìn)行預(yù)測(cè),在保護(hù)客戶端隱私的同時(shí),保證了模型提取特征的能力。Gupta等[10]以隱私保護(hù)為導(dǎo)向的FedGrid框架,用于預(yù)測(cè)可再生能源的發(fā)電量和電力負(fù)荷,以實(shí)現(xiàn)高效的電力供應(yīng)。
本文所做的工作與上述工作不同,通過(guò)將差分隱私、秘密分享與基于云邊協(xié)同的聯(lián)邦學(xué)習(xí)框架結(jié)合,增強(qiáng)電力數(shù)據(jù)的隱私性同時(shí)提高用戶通信效率。利用差分隱私機(jī)制為本地客戶端訓(xùn)練模型參數(shù)添加噪聲,在此過(guò)程中設(shè)計(jì)梯度裁剪機(jī)制控制噪聲引入量以確保訓(xùn)練模型的有效性。在上傳模型參數(shù)到邊緣服務(wù)器聚合時(shí),采用秘密分享算法處理加噪模型參數(shù),進(jìn)一步確保原始數(shù)據(jù)的安全性。
1"預(yù)備知識(shí)
1.1"聯(lián)邦學(xué)習(xí)
聯(lián)邦學(xué)習(xí)使參與者能夠聯(lián)合訓(xùn)練共享模型而不泄露其實(shí)際數(shù)據(jù),從而在一定程度上保護(hù)參與者的數(shù)據(jù)隱私[11],每個(gè)參與者訓(xùn)練一個(gè)集成的神經(jīng)網(wǎng)絡(luò)模型并通過(guò)中央聚合器對(duì)其進(jìn)行更新,以分布式方式協(xié)作找到最小化全局損失函數(shù)Θ(ω)的參數(shù)[12]:
ω*=argminΘ(ω)(1)
為了找到該參數(shù),模型服務(wù)器首先從所有節(jié)點(diǎn)中隨機(jī)選擇參與者參加聯(lián)邦學(xué)習(xí)訓(xùn)練。所選參與者從模型服務(wù)器下載全局模型參數(shù)Θ(ω)后,使用隨機(jī)梯度下降(Stochastic Gradient Descent, SGD)算法進(jìn)行局部模型訓(xùn)練。本輪局部訓(xùn)練中,被選中的參與者的局部模型參數(shù)表示為:
ωi(t+1)=ω(t)-ηΘ(ωi(t))(2)
其中,ω表示全局迭代次數(shù),η為訓(xùn)練步長(zhǎng)。
在所有參與者完成本地模型訓(xùn)練后,將其本地模型參數(shù)以分布式方式上傳到模型服務(wù)器,由模型服務(wù)器使用聯(lián)邦平均算法FedAvg對(duì)全局模型進(jìn)行聚合,即對(duì)收集到的模型參數(shù)進(jìn)行平均處理得到新的全局模型參數(shù)。在第N輪中生成的全局模型參數(shù)如下:
ωi(t+1)=∑Ni=1Diωi(t+1)∑Ni=1Di(3)
其中,Di表示每個(gè)參與者擁有的本地?cái)?shù)據(jù)集樣本數(shù)量。
模型服務(wù)器在生成新的全局模型參數(shù)并完成本輪聚合后,將更新后的全局模型以集中方式返回給參與者,以供下一輪訓(xùn)練。當(dāng)達(dá)到全局迭代的預(yù)定義閾值時(shí),訓(xùn)練過(guò)程終止。
1.2"差分隱私
差分隱私(Differential Privacy, DP)是一種應(yīng)用廣泛的數(shù)據(jù)隱私保護(hù)技術(shù)[13],其核心思想是通過(guò)在原始數(shù)據(jù)或查詢結(jié)果中添加隨機(jī)噪聲,達(dá)到提高發(fā)布數(shù)據(jù)的隱私性,降低與數(shù)據(jù)集中個(gè)人信息相關(guān)的隱私泄露風(fēng)險(xiǎn)的目的。
定義1"(ε,δ)-差分隱私。給定一個(gè)隨機(jī)算法,相鄰數(shù)據(jù)集和滿足|D1ΔD2|≤1,即和僅有一條數(shù)據(jù)記錄不同,若在相鄰數(shù)據(jù)集和的任意輸出結(jié)果滿足:
Pr[M(D1)∈S]≤exp()Pr[M(D2)∈S]+δ(3)
則稱隨機(jī)算法滿足差分隱私。其中,Pr[M(D1)∈S]表示數(shù)據(jù)集經(jīng)過(guò)隨機(jī)算法處理后輸出的概率。為用于控制隱私保護(hù)級(jí)別的隱私預(yù)算,其值越小表示隱私級(jí)別越高。δ表示向數(shù)據(jù)添加噪聲時(shí)違反差分隱私的概率,其值為0時(shí),式(1)為嚴(yán)格意義上的差分隱私定義。
定義2"全局敏感度。給定任意函數(shù),則該函數(shù)的全局敏感度為:
Δ=SupD1D2‖f(D1),f(D2)‖(4)
其中,‖f(D1),f(D2)‖表示數(shù)據(jù)集和之間的歐氏距離。
定義3"高斯機(jī)制。給定數(shù)據(jù)集和任意函數(shù),若算法的輸出滿足:
F(D)=f(D)+N(0,Δ2σ2)(5)
其中,σ=Δ2log(1.25/δ)/為高斯分布的標(biāo)準(zhǔn)差,用于控制噪聲的尺度。δ∈(0,1)表示松弛項(xiàng),表示違反嚴(yán)格差分隱私定義的概率。
1.3"秘密分享
秘密分享是安全多方計(jì)算中主流技術(shù),其核心思想是通過(guò)設(shè)計(jì)特殊算法將秘密值x分成個(gè)部分{x1,x2},將其中一份秘密分享給秘密共享者,在秘密恢復(fù)時(shí)由雙方進(jìn)行協(xié)同計(jì)算得到明文結(jié)果,由秘密分享算法和秘密恢復(fù)算法2個(gè)部分構(gòu)成[14]。
秘密分享算法:對(duì)于秘密值x,秘密擁有者利用生成隨機(jī)數(shù)r←RZ2l將秘密值分成[x]0=r和[x]1=x-r(bmod2l),并發(fā)送給參與計(jì)算的兩方。
秘密恢復(fù)算法:參與方通過(guò)計(jì)算x=[x]0+[x]1(bmod2l)恢復(fù)秘密值。
秘密分享具有加法同態(tài)性與乘法同態(tài)性。
加法同態(tài)性:[x][y]分別是秘密值x和y的份額,秘密共享雙方可計(jì)算得到[z]i=[x]i+[y]i。
乘法同態(tài)性:秘密共享雙方借助三元組(a,b,c)進(jìn)行乘法運(yùn)算[z]=[x][y],其中c=ab。離線階段,秘密分享方計(jì)算得到三元組([a]i,[b]i,[c]i)。在線計(jì)算階段,秘密分享方計(jì)算出[e]i=[x]i-[a]i,[f]i=[y]i-[b]i。秘密共享雙方交換并恢復(fù)e和f,最終秘密擁有者計(jì)算[z]i=-ief+e[y]i+[x]i f+[c]i。
2"面向電力數(shù)據(jù)分析的隱私增強(qiáng)聯(lián)邦學(xué)習(xí)方法
本節(jié)對(duì)面向電力數(shù)據(jù)分析的隱私增強(qiáng)聯(lián)邦學(xué)習(xí)方法進(jìn)行詳細(xì)介紹,首先定義面向電力數(shù)據(jù)分析的隱私增強(qiáng)聯(lián)邦學(xué)習(xí)系統(tǒng)模型與安全需求,其次在定義模型和需求的基礎(chǔ)上設(shè)計(jì)方案,最后分析所提方案的安全性。
2.1"系統(tǒng)模型與安全需求
本文系統(tǒng)模型由4個(gè)主要實(shí)體組成,分別為電力數(shù)據(jù)擁有者(Power Data Owners, PDOs)(如電網(wǎng)公司、政府、銀行、醫(yī)院等)、邊緣服務(wù)器(Edge Server, ES)、云服務(wù)器(Cloud Server, CS)以及能源服務(wù)提供商(Energy Service Providers, ESPs)(公共事業(yè)公司)。其中,PDOs各自擁有部分地區(qū)的電力數(shù)據(jù),為實(shí)現(xiàn)整個(gè)地區(qū)電力數(shù)據(jù)分析以提供能源服務(wù),需要使用擁有的數(shù)據(jù)進(jìn)行聯(lián)邦學(xué)習(xí)訓(xùn)練,在提升電力用戶信息及數(shù)據(jù)隱私性的前提下,向能源服務(wù)提供商提供準(zhǔn)確性較高的模型。
在上述系統(tǒng)模型中,假設(shè)提供數(shù)據(jù)的PDOs和提供服務(wù)的ESPs被認(rèn)為是誠(chéng)實(shí)可信的,CS和ES被認(rèn)為是誠(chéng)實(shí)且好奇的,任何PDOs、ESPs、CS與ES之間彼此不會(huì)共謀。具體來(lái)說(shuō),CS和ES會(huì)嚴(yán)格遵循協(xié)議存儲(chǔ)由PDOs上傳的模型參數(shù),并向ESPs提供用于能源服務(wù)的聚合模型,但它們也會(huì)因好奇原始數(shù)據(jù)相關(guān)信息,而嘗試使用各類手段對(duì)接收到的模型參數(shù)進(jìn)行學(xué)習(xí)分析,窺探數(shù)據(jù)中包含的隱私或敏感信息。
基于上述威脅模型,所設(shè)計(jì)方案應(yīng)保證聯(lián)邦學(xué)習(xí)參與方的隱私性,即任何敵手都無(wú)法從聯(lián)邦學(xué)習(xí)過(guò)程中獲得泄露的本地?cái)?shù)據(jù)集和由其訓(xùn)練出的模型參數(shù),同時(shí)在最大程度降低計(jì)算和通信開銷的基礎(chǔ)上,保證發(fā)布全局模型的準(zhǔn)確性,滿足隱私性、效率與準(zhǔn)確性3個(gè)方面的安全需求。
2.2"方案設(shè)計(jì)
為滿足上述安全需求,在云邊一體化智能電網(wǎng)下,本文引入了差分隱私機(jī)制和秘密分享算法,設(shè)計(jì)實(shí)現(xiàn)面向電力數(shù)據(jù)分析的隱私增強(qiáng)聯(lián)邦學(xué)習(xí)方案,如圖1所示。當(dāng)ESPs將聯(lián)邦學(xué)習(xí)任務(wù)發(fā)布到云端時(shí),聯(lián)邦學(xué)習(xí)任務(wù)由CS托管并下發(fā)任務(wù)請(qǐng)求到多個(gè)邊緣計(jì)算節(jié)點(diǎn)組成的ES或直接將其發(fā)送給PDOs。若ES收到任務(wù)請(qǐng)求,則為PDOs分發(fā)訓(xùn)練所需的參數(shù)和數(shù)據(jù)。當(dāng)PDOs收到訓(xùn)練所需的參數(shù),則根據(jù)提供的模型訓(xùn)練數(shù)據(jù)集,在局部模型中對(duì)訓(xùn)練性能良好的特征標(biāo)簽添加差分隱私噪聲,并利用秘密分享算法對(duì)加噪模型進(jìn)行劃分后上傳到ES。ES聚合更新模型后,將其發(fā)送給CS進(jìn)行全局聚合并將結(jié)果返回給ESPs。ESPs利用訓(xùn)練好的模型進(jìn)行數(shù)據(jù)分析,為行業(yè)用戶提供定制化的能源服務(wù)。本文方案具體實(shí)施主要包括學(xué)習(xí)任務(wù)發(fā)布、本地模型訓(xùn)練、安全數(shù)據(jù)聚合與聚合結(jié)果恢復(fù)4個(gè)階段。
2.2.1"學(xué)習(xí)任務(wù)發(fā)布
假設(shè)I={1,…,i,…,I}和J={1,…,j,…,J}表示提供能源服務(wù)區(qū)域中電力數(shù)據(jù)擁有者PDOs和能源服務(wù)提供商ESPs的集合,每個(gè)PDOi(i∈I)擁有電力數(shù)據(jù)集Di(Di=|Di|為數(shù)據(jù)樣本數(shù)量),每個(gè)ESPj(j∈J)負(fù)責(zé)將數(shù)據(jù)分析任務(wù)Yj。當(dāng)接收到ESP發(fā)布的數(shù)據(jù)分析任務(wù)后(步驟①);CS使用隨機(jī)權(quán)重初始化全局模型參數(shù)Θ,將其傳遞給所有參與的PDOs(步驟②)。
2.2.2"本地模型訓(xùn)練
在收到全局模型參數(shù)Θ后,每個(gè)PDOi使用SGD算法對(duì)本地?cái)?shù)據(jù)集進(jìn)行局部模型訓(xùn)練并在此過(guò)程中加入滿足差分隱私保護(hù)的噪聲(步驟③)。為避免引入過(guò)量噪聲,使用全局模型函數(shù)Θ的L2范數(shù)Θt(ωi)=Θ(ωi)/max(1,‖Θt(ωi)‖2/C)作為裁剪標(biāo)準(zhǔn),其中C表示梯度裁剪閾值。為增強(qiáng)隱私保護(hù)效果,設(shè)置C為梯度敏感度并在高斯噪聲方差中引入常數(shù)因子I,保證差分隱私的不確定性,得到擾動(dòng)后的梯度Θt(ωi)=Θt(ωi)+N(0,C2σ2I)。在訓(xùn)練本地模型時(shí),添加噪聲后,攻擊者利用逆向工程方法將難以竊取客戶端的原始數(shù)據(jù)信息。然而,由于云服務(wù)器CS聚合全局模型,攻擊者仍然可以通過(guò)其他方式攻擊CS竊取原始數(shù)據(jù)信息,即使所有來(lái)自客戶端的模型都添加了滿足差分隱私保護(hù)的噪聲,但攻擊者仍然可以利用隱私攻擊來(lái)觀察和分析噪聲的統(tǒng)計(jì)屬性,提取客戶端的原始隱私數(shù)據(jù)。為了防止該攻擊,PDOi首先將其本地?cái)?shù)據(jù)集Di劃分成大小為ζB的小批次,并通過(guò)SGD算法和擾動(dòng)后的梯度對(duì)每個(gè)小數(shù)據(jù)集進(jìn)行訓(xùn)練,得到更新參數(shù)后的模型Θ←Θi-ηΘt(ωi),η為學(xué)習(xí)率。然后,使用秘密共享協(xié)議將Θi劃分為[Θi]0和[Θi]1,并將其發(fā)送給邊緣服務(wù)器(步驟④)。
2.2.3"安全數(shù)據(jù)聚合
在接收到所有客戶端更新參數(shù)后的模型[Θi]j后,根據(jù)秘密分享的加法同態(tài)性質(zhì)計(jì)算聚合結(jié)果[ΘES]j=∑ni=1[Θi]j,將其上傳到云服務(wù)器CS(步驟⑤—⑥)。
2.2.4"聚合結(jié)果恢復(fù)
CS在收到邊緣服務(wù)器上傳的部分聚合結(jié)果后,使用秘密恢復(fù)算法計(jì)算恢復(fù)更新參數(shù)后的模型ΘES=[ΘES]0+[ΘES]1,更新全局模型參數(shù)Θ←Θ-ηΘES,同時(shí)檢測(cè)模型性能,在全局模型達(dá)到預(yù)定精度后,結(jié)束學(xué)習(xí)過(guò)程并將訓(xùn)練后的模型傳遞給相應(yīng)的ESP(步驟⑦—⑧)。
2.3"安全性分析
半誠(chéng)實(shí)模型和惡意模型是隱私計(jì)算中廣泛使用的2種安全模型[15],半誠(chéng)實(shí)敵手嚴(yán)格按照協(xié)議進(jìn)行計(jì)算,但會(huì)試圖從接收到的數(shù)據(jù)或模型中推斷出額外信息,惡意敵手有能力破壞協(xié)議并竊取額外信息。在迭代訓(xùn)練中,邊緣服務(wù)器ES可以獲得基于秘密分享與差分隱私的局部模型,而云服務(wù)器CS只能收到加噪更新參數(shù)后的全局模型。在合理假設(shè)2個(gè)邊緣服務(wù)器、與云服務(wù)器CS之間不存在合謀勾結(jié)的情況下,本文所提出的方案在半誠(chéng)實(shí)模型和惡意模型下是安全的。
定理1.在邊緣服務(wù)無(wú)合謀假設(shè)下,本文方案可以保證半誠(chéng)實(shí)模型下PDOs數(shù)據(jù)的安全性。
證明:在無(wú)合謀的假設(shè)下,任意邊緣服務(wù)器只能獲得部分加噪密文。假設(shè)敵手破壞邊緣服務(wù)器后,只能獲得部分密文。根據(jù)秘密共享協(xié)議,訓(xùn)練模型的恢復(fù)需要和云服務(wù)器之間相互合作完成。因此,在半誠(chéng)實(shí)模型下,本文提出的方案可以保證電力數(shù)據(jù)擁有者數(shù)據(jù)的安全性。
定理2.在邊緣服務(wù)無(wú)合謀假設(shè)下,本文方案可以保證惡意模型下PDOs數(shù)據(jù)的安全性。
證明:同理,根據(jù)秘密分享協(xié)議,任意敵手無(wú)法從接收的加噪密文中獲得任何關(guān)于原始數(shù)據(jù)的隱私信息,邊緣服務(wù)器每一輪聚合的結(jié)果已被電力數(shù)據(jù)擁有者編碼,在此種情況下,敵手無(wú)法從聚合結(jié)果中竊取額外信息。因此,在惡意模型下,本文提出的方案可以保證電力數(shù)據(jù)擁有者數(shù)據(jù)的安全性。
3"實(shí)驗(yàn)與結(jié)果分析
3.1"實(shí)驗(yàn)設(shè)置
采用的實(shí)驗(yàn)環(huán)境如下:CPU為Intel Xeon E5-2650 2.30 GHz,GPU為NVIDIA GeForce RTX 3060,126 GB RAM,內(nèi)存為8 GB,實(shí)驗(yàn)平臺(tái)為PyTorch,網(wǎng)絡(luò)由一個(gè)1 Gbps 延遲為 0.3 ms 的局域網(wǎng)(LAN) 和一個(gè) 50 Mbps 延遲為 50 ms 的廣域網(wǎng)(WAN)組成。本文提出方法在上述實(shí)驗(yàn)環(huán)境下的2臺(tái)參數(shù)服務(wù)器和10個(gè)客戶端上進(jìn)行仿真實(shí)驗(yàn),實(shí)驗(yàn)中使用的模擬參數(shù)設(shè)置如表1所示。實(shí)驗(yàn)數(shù)據(jù)使用UC Irvine 機(jī)器學(xué)習(xí)庫(kù)中的Individual Household Electric Power Consumption(IHEPC)數(shù)據(jù)集[16],該數(shù)據(jù)集為近4年內(nèi)法國(guó)巴黎地區(qū)家庭電力使用情況,包括功率、電能等字段信息,選擇DP-SGD和EdgeFed作為比較方法[6,17],從隱私性、準(zhǔn)確率和效率3方面進(jìn)行實(shí)驗(yàn)評(píng)估。
3.2"實(shí)驗(yàn)結(jié)果分析
本文提出的方法目的是增強(qiáng)基于電力數(shù)據(jù)的聯(lián)邦學(xué)習(xí)的隱私性,同時(shí)保證發(fā)布模型的準(zhǔn)確率以支撐后續(xù)數(shù)據(jù)分析使用,因此實(shí)驗(yàn)從模型準(zhǔn)確率和隱私性2個(gè)角度進(jìn)行實(shí)驗(yàn)分析。
3.2.1"聯(lián)邦訓(xùn)練輪數(shù)對(duì)隱私性分析
為了評(píng)估本文方案在增強(qiáng)隱私性方面的有效性,通過(guò)調(diào)整聯(lián)邦訓(xùn)練迭代次數(shù),分析對(duì)隱私預(yù)算ε的影響。如圖2所示為在IHEPC數(shù)據(jù)集上本文方案與DP-SGD隨著隱私預(yù)算的增加模型準(zhǔn)確率的變化情況,從圖中可以看出,訓(xùn)練迭代次數(shù)與隱私預(yù)算大小成正比,即隱私預(yù)算值越大、訓(xùn)練輪數(shù)越多,模型準(zhǔn)確率越高。在隱私預(yù)算=6時(shí),本文方案與DP-SGD達(dá)到幾乎相同的最佳樣本質(zhì)量,也進(jìn)一步說(shuō)明將隱私預(yù)算設(shè)置為6是合理且有效的。
3.2.2"準(zhǔn)確率分析
為進(jìn)一步驗(yàn)證本文方案與差分隱私機(jī)制、秘密分享協(xié)議結(jié)合的有效性,在IHEPC數(shù)據(jù)集上通過(guò)在卷積神經(jīng)網(wǎng)絡(luò)(CNN, Convolutional Neural Network)、多層感知器(MLP, Multi-Layer Perceptron)上進(jìn)行全局模型的分類準(zhǔn)確性評(píng)估。如表2所示,本文方案在分類準(zhǔn)確率方面優(yōu)于其他2種方案,這是因?yàn)楸疚奶岢龅姆桨冈谑褂貌罘蛛[私機(jī)制保護(hù)模型訓(xùn)練過(guò)程時(shí),通過(guò)引入常數(shù)因子到梯度裁剪機(jī)制以避免在模型中添加過(guò)多噪聲,減少隱私保護(hù)對(duì)訓(xùn)練模型效果的影響。
3.2.3"通信效率分析
如圖3所示,學(xué)習(xí)任務(wù)數(shù)量從 1 到 10 變化時(shí),本文方案與FedEdge方案的總通信延遲。在EdgeFed方案中,全局/本地模型更新過(guò)程直接在邊緣節(jié)點(diǎn)和電力數(shù)據(jù)擁有者之間交換,沒有考慮聚合器。從圖3可以觀察到,本文提出的方案可以在不同任務(wù)數(shù)量的情況下有效減少通信延遲,主要是因邊緣節(jié)點(diǎn)中的聚合器可以改善網(wǎng)絡(luò)連接和容量,以減少用戶和云之間不可靠性和間歇性無(wú)線連接的影響,因此本文基于邊緣云協(xié)作框架提出的聯(lián)邦學(xué)習(xí)框架下可實(shí)現(xiàn)更高的通信效率。
4"結(jié)語(yǔ)
本文針對(duì)基于聯(lián)邦學(xué)習(xí)的電力數(shù)據(jù)分析系統(tǒng),結(jié)合差分隱私機(jī)制和秘密分享算法,提出了一種隱私增強(qiáng)聯(lián)邦學(xué)習(xí)框架,以提升云邊協(xié)同場(chǎng)景下電力數(shù)據(jù)的隱私性。通過(guò)在本地模型訓(xùn)練過(guò)程中添加滿足差分隱私保護(hù)的高斯噪聲,同時(shí)在模型參數(shù)上傳時(shí)使用秘密分享算法加密數(shù)據(jù),以有效抵抗惡意攻擊者和半誠(chéng)實(shí)參與者的梯度泄露攻擊和成員推理攻擊,同時(shí)保護(hù)聯(lián)邦學(xué)習(xí)參與者的原始數(shù)據(jù)隱私。此外,還為高斯噪聲設(shè)置了裁剪閾值,以確保在訓(xùn)練過(guò)程中添加噪聲后所提模型的有效性。在UCI用電數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明,本文所提出方法在確??蛻舳穗[私性和安全性的同時(shí),達(dá)到了與原始 FL 方法相當(dāng)?shù)臏y(cè)試準(zhǔn)確率水平。
參考文獻(xiàn)
[1]KADDOUR S M,LEHSAINI M.Electricity consumption data analysis using various outlier detection methods[J].International Journal of Software Science and Computational Intelligence (IJSSCI),2021(3):12-27.
[2]WEN J,ZHANG Z,LAN Y,et al.A survey on federated learning:challenges and applications[J].International Journal of Machine Learning and Cybernetics,2023(2):513-535.
[3]ZHAO S,BLAABJERG F,WANG H.An overview of artificial intelligence applications for power electronics[J].IEEE Transactions on Power Electronics,2020(4):4633-4658.
[4]李祉岐,張瓊尹,李寧,等.新型電力系統(tǒng)中聯(lián)邦機(jī)器學(xué)習(xí)面臨的網(wǎng)絡(luò)威脅[J].中國(guó)信息化,2024(1):49-50,48.
[5]陳嘉翊,孫晨雨,周欣桐,等.基于聯(lián)邦學(xué)習(xí)和同態(tài)加密的電力數(shù)據(jù)預(yù)測(cè)模型本地保護(hù)[J].信息安全研究,2023(3):228-234.
[6]YE Y,LI S,LIU F,et al.EdgeFed:optimized federated learning based on edge computing[J].IEEE Access,2020,8:209191-209198.
[7]FEKRI M N,GROLINGER K,MIR S.Distributed load forecasting using smart meter data:federated learning with recurrent neural networks[J].International Journal of Electrical Power amp; Energy Systems,2022(5):137.
[8]李宇遠(yuǎn),于海洋.基于聯(lián)邦學(xué)習(xí)模型的電力客戶隱私保護(hù)方法[J].信息技術(shù),2023(6):184-188.
[9]LIU Y,DONG Z,LIU B,et al.FedForecast:a federated learning framework for short-term probabilistic individual load forecasting in smart grid[J].International Journal of Electrical Power amp; Energy Systems,2023(10):152.
[10]GUPTA H,AGARWAL P,GUPTA K,et al.FedGrid:a secure framework with federated learning for energy optimization in the smart grid[J].Energies,2023(24):8097.
[11]CAMPOS E M,SAURA P F,GONZLEZ-VIDAL A,et al.Evaluating federated learning for intrusion detection in Internet of Things:review and challenges[J].Computer Networks,2022,203:108661.
[12]CHEN Q,YAO L,WANG X,et al.SecMDGM:federated learning security mechanism based on multi- dimensional auctions[J].Sensors,2022(23):9434.
[13]DWORK C,ROTH A.The algorithmic foundations of differential privacy[J].Foundations and Trends"in Theoretical Computer Science,2014(3-4):211-407.
[14]KEERUP K,BOGDANOV D,KUBO B,et al.Privacy-preserving analytics,processing and data management[J].Big Data in Bioeconomy:Results from the European DataBio Project,2021(8):157-168.
[15]LU Y,ZHANG B,REN K.Maliciously secure MPC from semi-honest 2 PC in the server-aided model[J].IEEE Transactions on Dependable and Secure Computing,2023(21):3109-3125.
[16]HEBRAIL G,BERARD A.Individual household electric power consumption data set[EB/OL].(2012-08-01)[2024-07-19].https://doi.org/10.24432/C58K54.
[17]ZHAO J,CHEN Y,ZHANG W.Differential privacy preservation in deep learning:challenges,opportunities and solutions[J].IEEE Access,2019,7:48901-48911.
(編輯"沈"強(qiáng))
Privacy-enhanced federated learning framework for power data analysis
DING "Yi1, YANG "Jun2, SHEN "Bo2
(1.China Electronics Technology Group Corporation, Beijing 100846, China;
2.The 15th Research Institute of China Electronics Technology Group Corporation, Beijing 100083, China)
Abstract: "To address the security threat of model update attacks on the deployment and application of federated learning in smart grids, this article proposes a secure and efficient federated learning framework for power data analysis based on cloud edge collaboration framework and privacy computing technology. By adding noise to the training model parameters of the client through differential privacy mechanism, the security of the model parameters during the training process is protected; Using secret sharing algorithm to securely aggregate noise model parameters, while ensuring fast convergence of the model, to protect power data and local model parameters. Theoretical analysis and experimental results indicate that this method can significantly improve the privacy of power data and shared model parameters.
Key words: federated learning; differential privacy; secret sharing; electricity data; privacy protection