基于深度強化學習的多小區(qū)NOMA 能效優(yōu)化功率分配算法

2022-05-28 06:16:40胡浪濤畢松姣劉全金吳建嵐

電子科技大學學報 2022年3期

胡浪濤，畢松姣，劉全金，吳建嵐，楊瑞

(安慶師范大學電子工程與智能制造學院安徽安慶 246133)

近年來，隨著移動用戶數量的爆炸式增長，多小區(qū)間的功率分配問題引起了廣泛關注。此外，小區(qū)內和小區(qū)間的干擾管理對于提高蜂窩網絡系統(tǒng)的能量效率也很重要。為了解決移動用戶密度大的問題，非正交多址接入技術成為當前通信系統(tǒng)的研究熱點之一[1-5]。

非正交多址接入(non-orthogonal multiple access，NOMA)技術的基本思想是在發(fā)送端采用非正交方式發(fā)送信號，在接收端采用串行干擾刪除技術，從而實現信號的正確解調。已有很多文獻研究了NOMA 系統(tǒng)的功率分配問題。文獻[1]提出一種單輸入單輸出情況下的優(yōu)化問題，隨后將單輸入單輸出解決方案擴展為多輸入多輸出場景，在滿足每個用戶的最小速率要求的服務質量和總功率約束條件下使總容量最大化。文獻[2]將深度強化學習(deep reinforce learning, DRL)應用于無授權NOMA系統(tǒng)的決策中，旨在減輕沖突并提高未知網絡環(huán)境中的系統(tǒng)吞吐量。文獻[3]研究了包含任意用戶的單個NOMA 簇，目標是在滿足每個用戶所需的最小數據速率下最大化能量效率。文獻[4]研究了集群中多用戶多輸入多輸出NOMA 系統(tǒng)中最大化能量效率的功率分配方案。

很多功率優(yōu)化函數是非凸的，且優(yōu)化問題是非確定性多項式(non-deterministic polynomial, NP)難題，機器學習技術被引入用于解決功率優(yōu)化問題。機器學習包括監(jiān)督學習、非監(jiān)督學習和強化學習等。監(jiān)督學習需要訓練樣本帶有類別標簽，通過訓練深度神經網絡逼近已給出的標簽，文獻[6-7]給出了關于監(jiān)督學習的實現方案。無監(jiān)督學習的訓練樣本沒有標簽，文獻[8-9]相繼提出了多種無監(jiān)督學習研究方案。強化學習討論一個智能體如何在未知環(huán)境里面最大化能獲得的獎勵。因為監(jiān)督學習需要提前給出類別標簽，非監(jiān)督學習在學習過程中無反饋，強化學習在近年來成為無線通信中功率分配的熱門技術[10-14]。文獻[10]將Actor-critic 算法應用于NOMA 系統(tǒng)中不同認知無線電之間的功率分配，其目的是滿足認知無線電最小數據速率要求的同時，最大化系統(tǒng)能量效率。文獻[11]研究使用深度Q 網絡(deep Q networks, DQN)算法，旨在最大化整個網絡的能量效率。文獻[12]考慮動態(tài)無線網絡中發(fā)射功率和信道的聯合決策優(yōu)化問題，通過構造DQN 解決狀態(tài)空間過大的復雜決策問題，提高系統(tǒng)能量效率。文獻[13]提出基于Actor-Critic算法研究混合能源異構網絡中用戶調度和資源分配的最優(yōu)策略，目的是最大化系統(tǒng)的能量效率。

本文針對單輸入單輸出的下行多小區(qū)NOMA系統(tǒng)，研究了一種DRL 的功率分配算法(energy efficient power allocation-DQN，EEPA-DQN)，將DQN 作為動作?狀態(tài)值函數，目的是優(yōu)化信道功率分配，使系統(tǒng)能量效率最大化。將基站到用戶的單個信道視為一個智能體，使用經驗回放池將數據進行集中訓練，分步執(zhí)行時使用該智能體學習到的策略。仿真結果表明，EEPA-DQN 算法與加權最小均方誤差 (weight minimum mean square error,WMMSE)[15]、分式規(guī) 劃(fractional programming,FP)[16]、最大功率(maximal power, MP)[17]和隨機功率 (random power, RP)[18]等算法相比，得到的能量效率更高，收斂速度更快。

1 下行多小區(qū)NOMA 系統(tǒng)模型

基站向不同用戶發(fā)送消息，每個基站發(fā)送給用戶的疊加信號表示為：

圖1 蜂窩網絡模型

2 EEPA-DQN 算法設計

2.1 深度Q 網絡簡介

強化學習算法討論一個智能體如何在一個復雜不確定的環(huán)境里獲得最大化的獎勵。本文采用深度強化學習DQN 算法，基于離散時間馬爾可夫決策過程(Markov decision process, MDP)，在有限的動作和狀態(tài)空間中最大化獲得的獎勵。在時隙t，從環(huán)境中獲取狀態(tài)st∈S，智能體選擇動作at∈A，并與環(huán)境交互，獲得獎勵rt∈R并轉換到下一個狀態(tài)st+1，其中，A是動作集合，S是狀態(tài)集合，P是當前狀態(tài)轉移到下一個狀態(tài)的狀態(tài)轉移概率，R是獎勵集合。強化學習框圖如圖2 所示。

圖2 強化學習模型

由于狀態(tài)可以是連續(xù)的，DQN 將Q-learning與神經網絡相結合，用于解決無限狀態(tài)空間的問題，即用神經網絡代替q-table，并在q-table 的基礎上提出兩個創(chuàng)新點[14]。

1) 經驗回放。由于Q-learning 算法得到的樣本前后是相關的，為了打破數據之間的關聯性，在網絡訓練過程中使用經驗回放機制。從以往的狀態(tài)轉移中隨機采樣 (st,at,rt,st+1)進行訓練。經驗回放可以減少智能體所需的學習經驗，解決樣本關聯性和效率利用的問題。

圖3 DQN 訓練流程

2.2 基于DQN 的下行多小區(qū)NOMA 系統(tǒng)設計

本文使用免模型兩步訓練框架，由于數據驅動算法對數據量要求較高，為了減少在線訓練的壓力，使用DRL 算法對DQN 進行離線訓練；再將訓練過的DQN 在真實場景中進行動態(tài)微調?；镜接脩舻南滦墟溌沸诺揽梢暈橐粋€智能體，環(huán)境是下行多小區(qū)NOMA 系統(tǒng)，智能體和環(huán)境進行交互，智能體選擇一個動作at，得到一個獎勵rt，進入下一個狀態(tài)st+1。下行多小區(qū)NOMA系統(tǒng)研究的是一個多智能體問題，訓練數據及參數較單智能體更為復雜。故引入經驗回放技術，經驗回放池中包括狀態(tài)st、動作at、獎勵rt和下一個狀態(tài)st+1等數據，利用經驗回放池數據對DQN 網絡進行集中訓練，分步執(zhí)行時使用該智能體學習到的策略。

本文將DQN 的思想引入NOMA 系統(tǒng)的功率分配中，即EEPA-DQN 算法，旨在最大化系統(tǒng)的能量效率。EEPA-DQN 的3 個重要組成元素為狀態(tài)、動作和獎勵，具體如下。

狀態(tài)：狀態(tài)的選取很重要，為了降低輸入維度，在時隙t開始時，智能體根據來自接收機處干擾源的當前接收功率對干擾源按從大到小進行排序。保留前Z個對用戶k下一個動作有較強干擾的信息源，Z以外的基站到用戶的下行鏈路及干擾信號的信道增益均視為零。最佳發(fā)射功率pt和當前的信道增益gt相關，但這種設計使得DQN 的性能變差。因此，本文基于文獻[21]，通過3 個主要特征

獎勵：獎勵函數的設計決定強化學習算法的收斂速度和程度，智能體目的是最大化的系統(tǒng)的累計收益，若想要讓智能體較快的達到目標，提供獎勵函數應使智能體在最大化收益的同時可實現系統(tǒng)能量效率最大化。故本文中將系統(tǒng)能量效率用作獎勵函數。

3 下行多小區(qū)NOMA 系統(tǒng)仿真

3.1 下行多小區(qū)NOMA 系統(tǒng)參數設置

本文研究下行多小區(qū)NOMA 系統(tǒng)，模擬一個小區(qū)數C=16 的蜂窩網絡，在每一個小區(qū)內配備一個中心基站，每個基站可同時為K=2 個用戶服務。假設某一小區(qū)的兩層之內的小區(qū)設置為干擾用戶，即干擾層數I=2；用戶被隨機分配在d∈[rmin,rmax]內，rmin=0.01 km和rmax=1 km分別為小區(qū)內基站到用戶最短距離和最長距離。信道模擬小尺度衰落，小尺度衰落服從獨立的瑞利分布，使用Jakes 模型，路徑損耗以β=120.9+37.6lgd+10lgz進行模擬，d是基站與用戶之間的距離，距離越大路徑損耗值越大，z為對數正態(tài)隨機變量，標準差為8 dB[20]。

為確保智能體能快速做出決策，網絡結構不宜過于復雜，EEPA-DQN 算法為一個輸入層、兩個隱藏層和一個輸出層的結構較簡單的神經網絡。隱藏層采用ReLU 激活函數，輸出層的激活函數是線性的。將前12 個小區(qū)視為干擾源，功率電平數|A| = 10。為了減少在線計算的壓力，采用離線訓練。在前100 次迭代訓練中，只能隨機選擇動作，在探索階段使用自適應貪婪策略[22]。訓練得到的EEPA-DQN 具有較強的泛化能力，每次迭代包含1 000 個時隙，每10 個時隙從經驗回放記憶中隨機抽取一批樣本訓練EEPA-DQN，使用Adam[23]算法作為優(yōu)化器，NOMA 無線通信系統(tǒng)參數設置見表1。

表1 NOMA 無線通信系統(tǒng)參數設置

3.2 功率分配算法比較

在對EEPA-DQN 算法進行實驗仿真的同時，將本文提出的EEPA-DQN 算法與FP、WMMSE、MP和RP 算法進行實驗比較。FP、WMMSE 這兩個算法是非常經典的考慮多小區(qū)間干擾的功率分配算法，均為迭代的算法，都需要全局實時的跨小區(qū)信道狀態(tài)信息(channel state information, CSI)，對于基站來說它的開銷龐大[24]。深度神經網絡具有一定的學習本領，在進行網絡的特征提取時具有一定的智能和泛化性能。另一個優(yōu)點是DQN 的算法復雜度較低。表2 列出了不同算法的單次CPU 運行時間。從表2中可以看出基于強化學習的功率分配算法復雜度較低。EEPA-DQN 算法分別比FP、WMMSE、MP 和RP 算法快13.0 倍、14.1 倍、15.1倍和13.0 倍左右，硬件配置為：Intel(R) Xeon(R)CPU E3-1230 v5；軟件為：python 3.7，TensorFlow 1.15.0。仿真的下行多小區(qū)NOMA 系統(tǒng)小區(qū)數目為16。

表2 單次執(zhí)行時間

不過，EEPA-DQN 算法計算復雜度與神經網絡的層數呈線性關系，且隨著維數的增加，計算變得復雜。圖4 展示了EEPA-DQN 算法得到的平均能效比FP、WMMSE、MP 和RP 分配算法有顯著提高。因此，EEPA-DQN 算法可有效地最大化系統(tǒng)的能量效率。

圖4 5 種功率分配算法平均能量效率

NOMA 是非正交多址技術，OMA 代表傳統(tǒng)的正交多址。當多個用戶的信號在相同的信道資源上傳輸時，NOMA 可以實現更高的頻譜效率[25]、更大的系統(tǒng)容量和低傳輸延遲[26]。從圖5 中可以看出，隨著迭代次數的增加，兩種多址方案的系統(tǒng)平均能量效率都增加了。NOMA 的功率分配與接收端處SIC 過程相關，將較高的功率分配給路徑損耗較大的用戶，提高了用戶的速率，使NOMA 系統(tǒng)比OMA 系統(tǒng)可實現更大的系統(tǒng)平均能量效率，且算法更為穩(wěn)定。

圖5 NOMA 與 OMA 平均能量效率

3.3 折扣因子選擇

折扣因子是可選擇的一個經驗值，對于大多數應用而言，增加γ 更有利于DQN。本文算法取γ=0,0.2,0.4,0.6,0.8，仿真結果表明，γ =0時能效值明顯高于其他值，但考慮到信號傳輸過程中存在路徑損耗，智能體與未來回報之間的相關性相對較少，γ 應選取較小的值。圖6 仿真了不同γ 值時，EEPA-DQN 訓練過程中的下行多小區(qū)NOMA 系統(tǒng)平均能量效率，隨著訓練次數的增加，平均能量效率逐漸增加，且在γ =0時達到最高能效。圖7 仿真了不同γ 值在不同小區(qū)數時，EEPA-DQN 訓練過程中的平均能效。仿真實驗考慮了小區(qū)數C=9, 16,36, 64 的情況，通過圖7 可知，這4 種情況下小區(qū)數為9 時所能達到的能效最高，目標小區(qū)周圍的干擾小區(qū)數目越多，外圍到目標小區(qū)距離越大，干擾會越來越小，所以最外圍的干擾小區(qū)的干擾功率就非常小。最后仿真了不同小區(qū)數目的NOMA 系統(tǒng)的能效。由式(4)、式(5)可知，隨著小區(qū)數的增加，如小區(qū)數為36、64 時，小區(qū)間的干擾隨之增強，所達到的能效隨著小區(qū)數量的增加而下降，γ=0 時仍能保持較高的能效，從而驗證了本文算法在γ=0 時有一定的泛化性能。

圖6 不同γ 值時系統(tǒng)平均能量效率

圖7 不同γ 值不同小區(qū)數時平均能量效率

3.4 學習率

通過實驗評估不同學習率對EEPA-DQN 算法的影響。圖8 展示不同學習率下的平均能量效率與訓練回合的關系，學習率Ir=0.01, 0.001, 0.000 1 這3 種情況，平均能效均有上升趨勢。當學習率設置為0.000 1 時，算法相對于其他兩個取值更為穩(wěn)定，且平均能效可達到最高；當學習率為0.01時，可觀察到算法穩(wěn)定性較差。通過以上分析，EEPA-DQN 算法的學習率設置為0.000 1。

圖8 不同學習率值時平均能量效率

4 結束語

本文研究了一種基于強化學習的下行多小區(qū)NOMA 系統(tǒng)的功率分配問題，旨在最大化系統(tǒng)的能效。由于功率優(yōu)化問題具有非凸性，本文選用免模型驅動的DQL 算法，將DQL 與神經網絡相結合以解決狀態(tài)連續(xù)的問題。仿真結果表明，本文算法將含有兩個隱藏層的EEPA-DQN 逼近動作?值函數，同時，本文算法擴展到大規(guī)模場景也有較好的性能，但算法的穩(wěn)定性還有待提高。