薛曉慧, 郭志華, 芮光輝, 厲娜, 馬曉琴
(國網(wǎng)青海省電力公司, 西寧 810008)
聯(lián)邦學習(federated learning, FL)是一種新的邊緣學習框架,使許多邊緣設備能夠在無線網(wǎng)絡中協(xié)同訓練機器學習模型[1]。與傳統(tǒng)的集中式數(shù)據(jù)中心學習相比,F(xiàn)L具有許多獨特的優(yōu)點,如保護隱私、減少網(wǎng)絡擁塞、分布式計算能力等[2]。FL的主要瓶頸是通信成本,因為在每一次的模型訓練中,大量的參與邊緣設備都會向邊緣服務器發(fā)送更新模型,因此如何實現(xiàn)可靠通信是FL應用的關(guān)鍵[3]。
通過利用無線波形的疊加特性,空中計算(AirComp)可以加速模型聚合,從而提高通信效率[4]??紤]到信道的衰落,設備的選擇和功率控制是實現(xiàn)可靠通信的關(guān)鍵。文獻[5]通過聯(lián)合優(yōu)化邊緣設備的發(fā)射功率和邊緣服務器的接收比例因子,從而使聚合信號的均方誤差(mean square error, MSE)最小化。結(jié)果表明,靜態(tài)信道中的最優(yōu)發(fā)射功率呈現(xiàn)基于閾值的切換結(jié)構(gòu)。即,如果每個設備的質(zhì)量指標超過最優(yōu)閾值,則應用信道反轉(zhuǎn)功率控制,否則應用全功率傳輸。然而,這項工作純粹是針對基于空中計算的信號聚合,忽略了上下文學習。文獻[6]引入了一種基于截斷的方法,用于排除具有深度衰落信道的邊緣設備,從而在學習性能和聚集誤差之間取得良好的平衡。文獻[7]一種聯(lián)合設備選擇和接收機波束形成的設計方法,以找到滿足均方誤差要求的最大選擇設備數(shù),從而提高學習性能。文獻[8]通過利用梯度向量中的稀疏模式,將每個設備中的梯度估計投影到一個低維向量中,并且僅傳輸重要的梯度條目,同時累積先前迭代的誤差。另外,文獻[9]設計了類似于文獻[10]中的信道反轉(zhuǎn)的功率控制方案,使得從所選設備發(fā)送的梯度向量在邊緣服務器處對齊。然而,上述方法的空中飛行功率控制研究都忽略了梯度的統(tǒng)計特性:①梯度在訓練迭代過程中的分布不一定相同,即使在同一次迭代中,梯度向量的每個入口的分布也可能是不相同的。一個普遍情況實梯度分布隨著迭代而變化,并且在每個特征維度上是不同的。②如果每個設備的梯度分布未知,將梯度歸一化為零均值和單位方差的分布是不可行的。因此,由于忽略了梯度分布的上述特性,現(xiàn)有的空中飛行層功率控制方法在實際應用中可能效果較差。
基于上述問題,在考慮梯度統(tǒng)計量的基礎上,研究衰落信道中無線信道的最優(yōu)功率控制問題。目標是在給定梯度的一階和二階統(tǒng)計量的情況下,通過聯(lián)合優(yōu)化每個設備的發(fā)射功率和邊緣服務器的去噪因子,在每次迭代時最小化聚合模型的均方誤差,從而提高FL的精度。
考慮如圖1所示的無線FL框架,其中通過邊緣服務器的協(xié)調(diào)跨K個邊緣設備協(xié)作地訓練共享人工智能模型。設K={1,2,…,K}表示邊緣設備的集合,每個設備k∈K通過與自己的用戶交互收集一部分標記的訓練數(shù)據(jù),構(gòu)成一個本地數(shù)據(jù)集,表示為Sk,邊緣服務器是未知的。w∈RD表示要學習的D維模型參數(shù)。測量模型誤差的損失函數(shù)定義為
(1)
(2)
gk(t)、pk(t)、w(t)分別表示本地梯度、控制量、模型向量圖1 無線聯(lián)邦學習框架Fig.1 Wireless federated learning framework
梯度元素{gk,d(t)}(?k∈K)在設備k上獨立且服從同一分布,在聯(lián)邦學習中,本地數(shù)據(jù)集由于隱私問題,邊緣服務器通常不知道它們的實際分布。因此,在邊緣服務器中,從這些本地數(shù)據(jù)集訓練的本地梯度{gk,d(t)}的分布在設備之間權(quán)重一致。
梯度元素{gk,d(t)}(?t∈N)在迭代t上是不同分布的,另外梯度分布隨時間是非平穩(wěn)的,非平穩(wěn)分布是有效的,因為梯度值通常在開始時迅速變化,然后隨著訓練的進行逐漸接近零。
梯度元素{gk,d(t)}(?d∈{1,2,…,D})是獨立的,但在梯度向量維數(shù)D上是不同分布的,只要數(shù)據(jù)樣本中的特征是獨立的但分布不完全相同。
每次迭代t時邊緣服務器處的興趣梯度為
(3)
為了獲得式(3),所有設備以模擬方式同時傳輸其梯度向量gk(t),如圖1所示的空中計算原理。本文中考慮塊衰落信道,其中信道系數(shù)在FL中的每個迭代的持續(xù)時間內(nèi)保持不變,但是可以從一個迭代到另一個迭代獨立地改變。本文中將一次迭代的持續(xù)時間定義為一個時間塊,以t∈N為索引,每個邊緣設備和邊緣服務器都配備有單個天線。設hk(t)表示在第t時間塊從設備k到邊緣服務器的復數(shù)信道系數(shù),假設它是由平穩(wěn)遍歷過程生成的。每個傳輸塊采用D個時隙的持續(xù)時間,一個時隙表示D維梯度向量中的一個條目,將每個梯度向量gk(t)乘以表示為bk(t)的預處理因子。邊緣服務器處的接收信號向量表達式為
(4)
(5)
將每個設備k∈K作為峰值功率預算Pk,即
pk(t)≤Pk, ?k∈K;?t∈N
(6)
在接收到y(tǒng)(t)時,邊緣服務器的去噪因子表示為η(t),從而恢復梯度為
(7)
(8)
通常,由于每個設備上的峰值功率預算,梯度聚集式(8)的單個失調(diào)誤差和以MSE為單位的復合失調(diào)誤差不能同時為0。直接使用兩個誤差的權(quán)重,即梯度方差和梯度均值,很難在這兩個誤差之間找到平衡點。為了解決這個問題,引入了兩個可選的梯度統(tǒng)計參數(shù)。
(9)
令β(t)表示g(t)的平方多元變異系數(shù)(square multivariate coefficient of variation, SMCV),表達式為
(10)
通過式(9)和式(10),可以將式(8)中的MSE改寫為
(11)
由式(11)可知,當梯度MSNα(t)在單個和復合不對稱誤差的權(quán)重中,梯度SMCVβ(t)在MSE表達式中的作用更顯著。尤其當模型訓練剛開始時,即β(t)→0,如圖2所示,可以忽略單個信號未對準誤差。
ⅡD、non-ⅡD表示2維區(qū)域和非2維區(qū)域圖2 交替梯度統(tǒng)計的實驗結(jié)果Fig.2 Experimental results of alternating gradient statistics
當梯度統(tǒng)計量α(t)以及β(t)已知時,就解決了最小均方誤差的最優(yōu)功率控制問題。為了方便,在本節(jié)中省略了迭代參數(shù)t。對于每個設備k∈K,用能量p和去噪因子η定義了聚集水平,即
(12)
C1≤…≤Ck≤…≤CK
(13)
本節(jié)討論考慮一般情況下最小均方誤差的最優(yōu)功率控制問題,將這個問題表述為
(14)
基于引理2,求解問題P1可以等價于在全局冪次區(qū)域的K個專屬次區(qū)域中最小化目標函數(shù),表示為{Ml}l∈K,并比較其相應的最優(yōu)解,得到全局最優(yōu)解為
Ml={[p1,p2,…,pK]∈RK|pk=Pk,
?k∈{1,2,…,l};
0≤pk (15) ?k∈{1,2,…,l}; pk≥0,?k∈{l+1,l+2,…,K}} (16) k∈{l+1,l+2,…,K} (17) (18) 將式(17)代入式(14)①并使其有關(guān)η的導數(shù)為0,可以得到最優(yōu)的去噪因子η在第一松弛子區(qū)域中定義的問題P1的封閉形式為 (19) (20) 定理1:解決問題P1的每個設備的最優(yōu)發(fā)射功率的表達式為 ?k∈{l*+1,l*+2,…,K}} (21) 邊緣服務器的最優(yōu)去噪因子的表達式為 (22) (23) (24) 將式(24)替換式(23),可以得到 (25) 定理1:表明這些裝置k∈{1,2,…,l*}聚合能力并不比設備l*的高,應以全功率傳輸其梯度,即pk=Pk,而設備k∈{l*+1,l*+2,…,K}聚合能力高于設備l*,使用部分功率進行傳輸,以便它們具有相同的聚合級別,表達式為 (26) 對于l∈K,可以找到每個域Xl的邊界和相應的最優(yōu)發(fā)射功率p*。為此,需要以下關(guān)于最優(yōu)發(fā)射功率值上下界的引理。 最后,可以得出最優(yōu)發(fā)射功率函數(shù)在梯度統(tǒng)計量和噪聲方差方面的性質(zhì)。 圖3 最優(yōu)發(fā)射功率與與梯度的關(guān)系Fig.3 Relationship between optimal transmission power and gradient 在這一節(jié)中,證明了基于閾值的功率控制和全功率傳輸是最優(yōu)功率控制策略的兩種特殊情況,其中梯度SMCVβ→∞、β→0。 (1)β→∞: 具體來說,在定理1中令β→∞,有如下推論。 推論1:最優(yōu)發(fā)射功率β→∞具有基于閾值的結(jié)構(gòu),即 (27) 其中,最優(yōu)去噪因子表達式為 (28) l*的表達式見式(20)。 推論2:最優(yōu)發(fā)射功率β→0表示全功率傳輸,即 (29) 最優(yōu)去噪因子的表達式為 (30) 當β→0時,基于上述證明有l(wèi)*=K。從邊緣服務器處的每個設備接收的梯度向量的方向獨立于發(fā)送設備的功率,因此,當復合信號失調(diào)誤差固定時,增加所有器件的功率可以減小噪聲引起的誤差。 在本節(jié)中,討論梯度統(tǒng)計α(t)以及β(t)是未知的實際情況。估算每一個時間段的α(t)以及β(t),通過估計P1問題的α(t)以及β(t)的最優(yōu)解,設計了一種基于最優(yōu)解的自適應功率控制方案。 在本節(jié)中,本文提出了一種估算α(t)以及β(t)在每個時刻,時間塊t分別基于式(9)和式(10)中的定義。 (1)估計α(t):設Bk(t)=‖gk(t)‖表示迭代t時設備k的梯度范數(shù)。在每一輪局部訓練結(jié)束時,讓每個設備在發(fā)送梯度向量gk(t)之前將其梯度范數(shù)Bk(t)傳輸?shù)竭吘壏掌?。與發(fā)送梯度gk(t)的通信成本相比,發(fā)送Bk(t)的通信成本可以忽略不計,因為梯度范數(shù)Bk(t)是一個標量,而梯度gk(t)是一個維數(shù)D非常大的向量。根據(jù)定義式(9),可以將梯度MSN估計為所有參與設備的梯度范數(shù)平方的平均值,即 (31) (2)估計β(t):根據(jù)式(10)中的定義,梯度SMCVβ(t)取決于md(t)和σd(t)。在每個設備在時間塊t發(fā)送其梯度之前,無法估計β(t)。然而,從圖2中真實數(shù)據(jù)集的實驗結(jié)果可以看出β(t)相鄰迭代之間高度相關(guān)。因此,本文中β(t)使用時間塊t處的聚集梯度t-1為 (32) 本節(jié)提出了算法1中的具有自適應功率控制的FL過程。首先,每個設備在本地使用其本地數(shù)據(jù)集(算法1的第5步)在當前模型上執(zhí)行一步SGD。之后,每個設備計算其局部梯度的范數(shù),并通過常規(guī)數(shù)字傳輸(算法1的第6~7步)將其上傳到邊緣服務器。進一步邊緣服務器估計基于在時間塊t處接收到的梯度范數(shù)和歷史聚集梯度參數(shù)α(t)以及β(t)(算法1的第9步和第16步),然后分別基于式(21)和式(22)得到最優(yōu)發(fā)射功率和去噪因子(算法1的第10步)。最后邊緣服務器向每個設備通知最優(yōu)發(fā)射功率,并且每個設備使用空中計算的模擬方式同時向邊緣服務器發(fā)射具有所分配功率的本地梯度(算法1的第12~第14步)。 在算法1中尋找最優(yōu)功率控制的計算復雜度主要包括按聚合能力排序設備的時間復雜度,即O(KlgK),并通過引理4尋找l*的時間復雜度,即O(K)。 (1)基線方法:將本文自適應功率控制方案與以下基線方法進行比較。 ①無錯誤傳輸:聚合梯度完全更新,沒有任何傳輸錯誤,這相當于集中式SGD算法[15]。 ②具有已知統(tǒng)計信息的功率控制:本文假設梯度統(tǒng)計信息在訓練開始時是已知的,然后應用所本文的功率控制。在本實驗中,實際的梯度統(tǒng)計是從1 000個梯度樣本中獲得的,沒有傳輸誤差[16]。 ③在文獻[11]中基于閾值的功率控制:在文獻[11]中給出的功率控制方案中,它假設信號是標準化的。 ④全功率傳輸:所有設備以全功率Pk傳輸,邊緣服務器應用式(22)中的最優(yōu)去噪因子,其中l(wèi)*=K。 (2)數(shù)據(jù)集:本文在MNIST、CIFAR-10和SVHN 3個數(shù)據(jù)集上評估了性能。MNIST數(shù)據(jù)集由數(shù)字0到9的10個類別組成,共有70 000個標記數(shù)據(jù)樣本(60 000個樣本用于訓練,10 000個樣本用于測試)。CIFAR-10數(shù)據(jù)集包括10種不同類型物體的60 000幅彩色圖像(50 000幅用于訓練,10 000幅用于測試)。SVHN是一個用于開發(fā)機器學習和目標識別算法的真實圖像數(shù)據(jù)集,對數(shù)據(jù)預處理和格式化的要求最低,包括99 289個標記數(shù)據(jù)樣本(73 257個用于訓練,26 032個用于測試)。 (3)數(shù)據(jù)分布:研究梯度對SMCVβ的影響為了獲得最優(yōu)的發(fā)射功率,本實驗在移動設備之間模擬了兩種類型的數(shù)據(jù)集分區(qū),即IID設置和非IID設置。對于前者,將訓練樣本隨機分成100個相等的碎片,每個碎片分配給一個特定的設備。對于后者,首先對數(shù)據(jù)進行數(shù)字標簽排序,將數(shù)據(jù)分成200個相等的分片,然后隨機分配2個分片給每個設備。 (4)神經(jīng)網(wǎng)絡與超參數(shù):在所有的實驗中,采用了卷積神經(jīng)網(wǎng)絡(層數(shù)為11層)。超參數(shù)設置如下:動量優(yōu)化參數(shù)為0.5,兩個全局聚合之間的局部更新數(shù)為1,將局部批大小為10,學習率為γ=0.01。 圖4比較了3個數(shù)據(jù)集的測試精度,分別是IID數(shù)據(jù)集分區(qū)和非IID數(shù)據(jù)集分區(qū),其中所有設備的平均接收SNR設置為10 dB。結(jié)果表明,與已知梯度統(tǒng)計量的方案相比,性能差距很小,說明本文的梯度統(tǒng)計量估計方法是有效的。實驗還發(fā)現(xiàn),該功率控制方法的模型精度優(yōu)于基于閾值的功率控制和全功率傳輸。從圖2中,可以發(fā)現(xiàn)平均梯度SMCVβ(t)在IID數(shù)據(jù)集分區(qū)中,它小于非IID數(shù)據(jù)集分區(qū)中的分區(qū),并且隨著迭代次數(shù)的增加而增加?;陂撝档墓β士刂圃贗ID分區(qū)或訓練開始時會發(fā)生嚴重的精度下降,這是因為在這種情況下,梯度SMCV很小,因此MSE由復合失調(diào)誤差控制。因此,僅考慮單個失調(diào)誤差的基于閾值的功率控制性能要差得多。此外,在非IID分區(qū)或訓練結(jié)束時,全功率傳輸?shù)木认陆狄埠艽?,這是因為梯度SMCV很大,因此全功率傳輸方案無法最小化在這種情況下主導MSE的個別失調(diào)誤差。 圖4 3個數(shù)據(jù)集的測試精度Fig.4 Test accuracy of three data sets 圖5說明了在平均接收SNR=5 dB時具有非IID數(shù)據(jù)分區(qū)的MNIST的測試精度,結(jié)果表明,在低信噪比下,該方案的總體性能仍優(yōu)于兩種基線方法。具體而言,全功率傳輸比基于閾值的功率控制方案具有更好的性能。這主要是因為當噪聲方差較大時,全功率傳輸能夠強烈抑制控制均方誤差的噪聲誤差。 圖5 非IID數(shù)據(jù)分區(qū)的MNIST的測試精度Fig.5 Test accuracy of MNIST for non IID data partition 最后,圖6比較了不同功率控制方案在不同設備數(shù)K下的測試精度。這里使用非IID分區(qū)的MNIST數(shù)據(jù)集,將所有設備的平均接收信噪比設置為SNRk=10 dB,并對50個模型訓練的結(jié)果進行平均。首先,可以觀察到,當參與裝置的數(shù)目K增加時,所有四種方案所達到的測試精度都增加,但當K足夠大時,不能得到進一步改善。特別是當K≥30時,所有方案的測試精度保持不變,因為邊緣服務器可以聚合足夠的數(shù)據(jù)進行平均。其次,該方案在整個K域內(nèi)的性能優(yōu)于基于門限的功率控制和全功率傳輸。當K較小時,即圖6中的K=4,全功率傳輸接近基于閾值的功率控制,但是由于缺乏用于減少失調(diào)誤差的功率自適應,性能隨著K的增加而降低。 圖6 設備數(shù)量的性能比較Fig.6 Performance comparison of equipment quantity 綜合考慮梯度統(tǒng)計量的影響,本文提出了一種衰落信道條件下基于無線聯(lián)邦學習的最優(yōu)功率控制方法。通過3個數(shù)據(jù)集上的實驗結(jié)果可以得出如下結(jié)論。 (1)本文控制方法能夠峰值功率限制下,使空中計算的聚合誤差最小化,具有較好的控制性能。 (2)因為當噪聲方差較大時,全功率傳輸能夠強烈抑制控制均方誤差的噪聲誤差,因此全功率傳輸比基于閾值的功率控制方案具有更好的性能。全功率傳輸接近基于閾值的功率控制,但是由于缺乏用于減少失調(diào)誤差的功率自適應,性能隨著的K增加而降低。 (3)各器件的最優(yōu)發(fā)射功率隨梯度SMCV的增大而減小,隨噪聲方差的增大而增大。2.2 最優(yōu)發(fā)射功率函數(shù)
2.3 特殊情況下的功率控制問題
3 未知梯度統(tǒng)計量的自適應功率控制
3.1 參數(shù)估計
3.2 具有自適應功率控制的FL
4 實驗結(jié)果
4.1 實驗配置
4.2 結(jié)果分析
5 結(jié)論