張先超,趙耀,葉海軍,樊銳
(1.東南大學(xué)移動(dòng)通信國(guó)家重點(diǎn)實(shí)驗(yàn)室,江蘇 南京 210096;2.嘉興學(xué)院浙江省醫(yī)學(xué)電子與數(shù)字健康重點(diǎn)實(shí)驗(yàn)室,浙江 嘉興 314001;3.北京理工大學(xué)信息與電子學(xué)院,北京 100081;4.北京郵電大學(xué)信息與通信工程學(xué)院,北京 100876;5.中國(guó)電子科學(xué)研究院,北京 100041)
近年來(lái),隨著移動(dòng)互聯(lián)網(wǎng)和人工智能技術(shù)的快速發(fā)展,智能手機(jī)、增強(qiáng)現(xiàn)實(shí)(AR,augmented reality)、虛擬現(xiàn)實(shí)(VR,virtual reality)等智能無(wú)線設(shè)備與遠(yuǎn)程醫(yī)療、工業(yè)4.0、自動(dòng)駕駛等智能應(yīng)用進(jìn)入爆發(fā)式增長(zhǎng)階段,無(wú)線網(wǎng)絡(luò)中出現(xiàn)了大量無(wú)線終端,且這些無(wú)線終端相較于現(xiàn)在的智能手機(jī)而言,對(duì)通信性能的要求更加苛刻與多元[1-2]。為了利用有限的頻譜來(lái)滿足未來(lái)的高性能要求,研究人員提出頻譜共享[3]、D2D(device-to-device)技術(shù)[4]及超密集網(wǎng)絡(luò)[5]等大幅提高頻譜利用率的新技術(shù),但這些技術(shù)在使用過(guò)程中不可避免地帶來(lái)基站之間、基站與用戶之間或多用戶之間的互相干擾,而發(fā)射功率與干擾影響密切相關(guān),功率低則相互干擾程度小,但自然通信質(zhì)量差,功率高則會(huì)加劇相互干擾,因此,發(fā)射功率控制是降低相互干擾、保證多用戶的通信服務(wù)質(zhì)量與體驗(yàn)的有效途徑[5],也一直是通信研究的熱點(diǎn)之一。
目前的發(fā)射功率控制算法研究方向主要有三類(lèi):1) 基于模型的優(yōu)化算法,將發(fā)射功率控制問(wèn)題轉(zhuǎn)化為優(yōu)化問(wèn)題進(jìn)行求解;2) 基于博弈論的方法,將發(fā)射功率控制問(wèn)題轉(zhuǎn)化為博弈問(wèn)題進(jìn)行求解;3) 基于機(jī)器學(xué)習(xí)的方法,將發(fā)射功率控制問(wèn)題轉(zhuǎn)化為機(jī)器學(xué)習(xí)相關(guān)的問(wèn)題進(jìn)行求解。下面分別對(duì)三類(lèi)方法的研究現(xiàn)狀進(jìn)行介紹。
1) 基于模型的優(yōu)化算法。文獻(xiàn)[6-10]分別通過(guò)加權(quán)最小均方差(WMMSE,weighted minimum mean square error)算法、分?jǐn)?shù)規(guī)劃(FP,fractional programming)算法、連續(xù)凸逼近算法、內(nèi)點(diǎn)法和最大化最小系統(tǒng)頻譜效率準(zhǔn)則的優(yōu)化算法對(duì)功率控制問(wèn)題進(jìn)行適當(dāng)轉(zhuǎn)換與求解。以上算法通過(guò)采用優(yōu)化理論求解系統(tǒng)最佳的功率分配,但由于干擾環(huán)境下的系統(tǒng)模型非凸,導(dǎo)致求解過(guò)程十分復(fù)雜,即使系統(tǒng)的性能提高,但是基于模型的優(yōu)化算法的復(fù)雜度高,求解時(shí)間大于信道相干時(shí)間,結(jié)果難以在實(shí)際中應(yīng)用[11]。
2) 基于博弈論的方法。文獻(xiàn)[12-13]分別將D2D 網(wǎng)絡(luò)中的功率控制問(wèn)題建模為勢(shì)博弈和Stackelberg 博弈,利用分布式方法最大化多用戶的通信速率?;诓┺恼摰墓β士刂品椒ǖ膬?yōu)勢(shì)在于其能夠?qū)崿F(xiàn)分布式?jīng)Q策,但博弈論追求穩(wěn)定的納什均衡狀態(tài),該狀態(tài)并不能保證所求結(jié)果為全局最優(yōu)解。
3) 基于機(jī)器學(xué)習(xí)的方法。最近興起了基于機(jī)器學(xué)習(xí)的功率控制方法,這是由于機(jī)器學(xué)習(xí)在計(jì)算機(jī)科學(xué)領(lǐng)域的成功應(yīng)用,使研究人員逐漸將機(jī)器學(xué)習(xí)技術(shù)應(yīng)用在無(wú)線通信中[14]。文獻(xiàn)[15]通過(guò)收集大量全局信道狀態(tài)信息(CSI,channel state information),使用WMMSE 算法來(lái)產(chǎn)生功率分配集作為標(biāo)簽,使用全局CSI 集合與對(duì)應(yīng)的標(biāo)簽進(jìn)行深度神經(jīng)網(wǎng)絡(luò)(DNN,deep neural network)的訓(xùn)練直到收斂,訓(xùn)練完成后,可以將瞬時(shí)全局CSI 輸入訓(xùn)練好的DNN,直接輸出對(duì)應(yīng)的最優(yōu)功率分配策略。該方法需要消耗大量計(jì)算資源和時(shí)間成本來(lái)產(chǎn)生訓(xùn)練集并對(duì)深度神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,且在實(shí)際環(huán)境中很難收集到準(zhǔn)確的全局信道狀態(tài)信息來(lái)產(chǎn)生合理的訓(xùn)練集。文獻(xiàn)[16]提出一種基于多用戶深度Q 網(wǎng)絡(luò)的算法,通過(guò)不斷試錯(cuò)來(lái)優(yōu)化功率分配策略,最終可以收斂到和WMMSE 接近的性能,但是該方法需要為深度神經(jīng)網(wǎng)絡(luò)輸入大量狀態(tài)信息且必須對(duì)功率進(jìn)行離散化處理,無(wú)法施加連續(xù)動(dòng)作。類(lèi)似地,文獻(xiàn)[17]提出一種分布式深度Q 網(wǎng)絡(luò)方法來(lái)進(jìn)行D2D 通信中的分布式功率與頻譜分配,該方法能夠有效提升動(dòng)態(tài)環(huán)境下的D2D 通信性能,但仍然只適用于離散動(dòng)作問(wèn)題。文獻(xiàn)[18]提出多種深度強(qiáng)化學(xué)習(xí)方法來(lái)解決頻譜共享網(wǎng)絡(luò)中的發(fā)射功率控制問(wèn)題,次級(jí)用戶能夠獲取主用戶的功率分配信息,并結(jié)合傳感器的接收功率強(qiáng)度值對(duì)自身的發(fā)射功率進(jìn)行調(diào)整,最終滿足通信網(wǎng)絡(luò)的服務(wù)質(zhì)量要求并實(shí)現(xiàn)有效的頻譜共享。
本文針對(duì)多用戶通信鏈路之間存在干擾的情況,考慮復(fù)雜的無(wú)線信道環(huán)境,提出了以深度強(qiáng)化學(xué)習(xí)“行動(dòng)器-評(píng)判器”為基本架構(gòu)的智能發(fā)射功率控制算法,對(duì)多用戶發(fā)射功率進(jìn)行有效控制,實(shí)現(xiàn)多用戶通信速率最大化。該算法基于深度強(qiáng)化學(xué)習(xí)(DRL,deep reinforcement learning)技術(shù),通過(guò)與環(huán)境不斷交互、自我改進(jìn)的學(xué)習(xí)方式來(lái)獲得最優(yōu)策略,不需要帶標(biāo)簽的訓(xùn)練集;采用深度確定性策略梯度(DDPG,deep deterministic policy gradient)方法,使用2 個(gè)深度神經(jīng)網(wǎng)絡(luò)分別擬合行動(dòng)器和評(píng)判器,并在訓(xùn)練過(guò)程中加入經(jīng)驗(yàn)回放和目標(biāo)參數(shù)軟替代的方法,確保算法的收斂性;訓(xùn)練收斂后,利用行動(dòng)器網(wǎng)絡(luò)擬合出的最優(yōu)策略,根據(jù)信道狀態(tài)信息實(shí)時(shí)進(jìn)行最優(yōu)的功率控制。仿真結(jié)果表明,所提算法能夠快速收斂,且在保證性能接近理論最優(yōu)算法的前提下能夠有效降低功率控制所需的運(yùn)算時(shí)間。此外,算法性能不會(huì)隨著網(wǎng)絡(luò)規(guī)模的增加而下降,能夠很好地適用于大規(guī)模無(wú)線網(wǎng)絡(luò)。
設(shè)有K對(duì)收發(fā)無(wú)線終端設(shè)備的無(wú)線通信系統(tǒng),每對(duì)收發(fā)終端有一條通信鏈路,每條通信鏈路中的收發(fā)設(shè)備固定,且鏈路之間存在干擾,如圖1 所示。
圖1 鏈路有干擾的無(wú)線通信系統(tǒng)示意
假設(shè)第k條鏈路(1 ≤k≤K)的發(fā)射終端設(shè)備在時(shí)刻t的發(fā)射功率為Pk(t),發(fā)射信號(hào)為xk(t),其接收端的信號(hào)為
其中,hk(t)為時(shí)刻t第k條鏈路的復(fù)信道系數(shù);h j,k(t)為時(shí)刻t第j條鏈路的發(fā)射機(jī)與第k條鏈路的接收機(jī)的復(fù)信道系數(shù),即為時(shí)刻t第k條鏈路收到的來(lái)自其他鏈路的干擾信號(hào);z k(t)為獨(dú)立同分布的復(fù)高斯白噪聲,噪聲功率為N0。
其中,hj,k(t)和信道更新過(guò)程e j,k(t)均是獨(dú)立同分布的單位方差循環(huán)對(duì)稱復(fù)高斯隨機(jī)變量。相關(guān)系數(shù)ρ=J0(2πfdT),其中,J0(·) 是零階貝塞爾函數(shù),fd是最大多普勒頻率。
對(duì)于其中一條通信鏈路的信號(hào),其他發(fā)射機(jī)的信號(hào)將被視為噪聲,該設(shè)備的接收信號(hào)速率也將取決于信干噪比(SINR,signal to interference plus noise ratio)。在給定信道狀態(tài)信息H(t)和發(fā)射功率P(t)={Pk(t),?k}的情況下,接收機(jī)k的接收數(shù)據(jù)速率為
依據(jù)式(3),建立多用戶發(fā)射功率控制的干擾管理問(wèn)題的數(shù)學(xué)模型,如式(4)所示。
式(4)的目標(biāo)是實(shí)現(xiàn)無(wú)線通信系統(tǒng)加權(quán)數(shù)據(jù)速率最大化,其中,αk是設(shè)備k對(duì)應(yīng)的正值權(quán)重,表征鏈路重要性。
式(4)的優(yōu)化變量同時(shí)存在于lb 函數(shù)的分子與分母中,該問(wèn)題的優(yōu)化目標(biāo)函數(shù)復(fù)雜且非凸,該問(wèn)題的求解一直是無(wú)線通信領(lǐng)域進(jìn)行干擾管理的研究重點(diǎn)?,F(xiàn)有的求解算法對(duì)模型依賴度高,且算法復(fù)雜度較高,難以適用于未來(lái)無(wú)線網(wǎng)絡(luò)大規(guī)模多用戶接入的復(fù)雜動(dòng)態(tài)場(chǎng)景。
考慮到發(fā)射功率控制為連續(xù)動(dòng)作問(wèn)題,采用深度強(qiáng)化學(xué)習(xí)的DDPG 方法[20],構(gòu)建智能無(wú)線發(fā)射功率控制算法,整體框架如圖2 所示。
圖2 智能無(wú)線發(fā)射功率控制算法整體框架
首先,由于無(wú)線信道環(huán)境具有馬爾可夫性質(zhì),故在此將功率控制這一動(dòng)態(tài)決策的過(guò)程建模為馬爾可夫決策過(guò)程。設(shè)S=H為全局狀態(tài)值,設(shè)a(t)={Pk(t)|0≤Pk(t)≤Pmax}k=1,2,…,K為動(dòng)作集,在智能功率控制過(guò)程中,假設(shè)存在一個(gè)集中控制器能夠收集全部信道狀態(tài)信息,向智能體輸入狀態(tài)值;智能體將基于狀態(tài)值與自身隨機(jī)策略做出決策,輸出具體動(dòng)作(信道狀態(tài)信息與功率控制信息一般通過(guò)控制鏈路傳遞,不占用數(shù)據(jù)鏈路帶寬[21]),即a(t)~π(a(t)|S(t)),之后根據(jù)狀態(tài)轉(zhuǎn)移函數(shù)進(jìn)入下一個(gè)狀態(tài)S(t+1)~Pr(S(t+1)|S(t),a(t))。此外,智能體將得到一個(gè)對(duì)應(yīng)的獎(jiǎng)賞函數(shù)r(t)=r(S(t),a(t)),并得到自身對(duì)新?tīng)顟B(tài)的觀測(cè)量S(t+1)。訓(xùn)練目標(biāo)是追求最大化長(zhǎng)期回報(bào)其中,γ為折扣系數(shù),T為時(shí)間范圍。
根據(jù)優(yōu)化問(wèn)題式(4),可以將獎(jiǎng)賞函數(shù)定義為
為了得到最佳的功率控制策略,強(qiáng)化學(xué)習(xí)需要不斷試錯(cuò),并迭代進(jìn)行策略評(píng)估與策略改進(jìn)[22]。深度強(qiáng)化學(xué)習(xí)則使用深度神經(jīng)網(wǎng)絡(luò)來(lái)進(jìn)行策略評(píng)估與策略改進(jìn),分別對(duì)應(yīng)評(píng)判器網(wǎng)絡(luò)和行動(dòng)器網(wǎng)絡(luò),但由于強(qiáng)化學(xué)習(xí)訓(xùn)練過(guò)程中前后序列的強(qiáng)相關(guān)性,傳統(tǒng)的“行動(dòng)器-評(píng)判器”算法難以收斂。為此,這里采用收斂性更優(yōu)的深度確定性策略梯度方法。具體地,設(shè)行動(dòng)器深度神經(jīng)網(wǎng)絡(luò)為μ(s|θμ),其中,θμ為行動(dòng)器深度神經(jīng)網(wǎng)絡(luò)的權(quán)重系數(shù),行動(dòng)器目標(biāo)神經(jīng)網(wǎng)絡(luò)選用不同的權(quán)重系數(shù),目標(biāo)行動(dòng)器深度神經(jīng)網(wǎng)絡(luò)為。類(lèi)似地,將評(píng)判器深度神經(jīng)網(wǎng)絡(luò)表示為Q(s,a|θQ),其目標(biāo)網(wǎng)絡(luò)表示為,θQ和分別對(duì)應(yīng)各自神經(jīng)網(wǎng)絡(luò)的權(quán)重系數(shù)。后續(xù)對(duì)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練即對(duì)θQ和θμ這2 個(gè)權(quán)重系數(shù)的更新,更新的目的是使評(píng)判器網(wǎng)絡(luò)能夠?qū)β士刂撇呗宰龀龈珳?zhǔn)的評(píng)估,使行動(dòng)器網(wǎng)絡(luò)輸出價(jià)值更大,即系統(tǒng)傳輸速率更大的發(fā)射功率。
為了進(jìn)一步提升訓(xùn)練效果,利用經(jīng)驗(yàn)回放方法,增加搜索廣泛性。每次在狀態(tài)s(t)下根據(jù)策略施加動(dòng)作a(t)=μ(s(t)|θμ)+ζ,其中,ζ為一個(gè)隨機(jī)變量,作為動(dòng)作噪聲來(lái)增加探索性;之后達(dá)到新的狀態(tài)s(t+1),并獲得相應(yīng)獎(jiǎng)賞r(t)。將此時(shí)的經(jīng)驗(yàn)g(t)={s(t),a(t),r(t),s(t+1)}存入回放緩存,形成經(jīng)驗(yàn)集,在訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí)從回放緩存中隨機(jī)選取批量經(jīng)驗(yàn)進(jìn)行學(xué)習(xí),以此打破強(qiáng)化學(xué)習(xí)訓(xùn)練步驟前后的相關(guān)性,保證訓(xùn)練的穩(wěn)定性和收斂性。
為了訓(xùn)練評(píng)判器神經(jīng)網(wǎng)絡(luò),從回放緩存中隨機(jī)采樣N組經(jīng)驗(yàn),選用合適的優(yōu)化器來(lái)最小化該批經(jīng)驗(yàn)的期望預(yù)測(cè)誤差(即損失函數(shù)),如式(5)所示。
其中,yi為
據(jù)此更新評(píng)判器神經(jīng)網(wǎng)絡(luò)的參數(shù)Qθ。目標(biāo)評(píng)判器神經(jīng)網(wǎng)絡(luò)參數(shù)的更新則采取軟更新方法,即
其中,τ∈ [0,1]是目標(biāo)評(píng)判器網(wǎng)絡(luò)的學(xué)習(xí)率。
行動(dòng)器神經(jīng)網(wǎng)絡(luò)的訓(xùn)練目標(biāo)是最大化價(jià)值函數(shù)Q(s,a|θQ)的期望,即
其中,E[]· 為期望函數(shù)。使用采樣策略的梯度下降法更新參數(shù),計(jì)算式(8)的梯度為
其中,?表示求解函數(shù)梯度。同樣地,目標(biāo)行動(dòng)器神經(jīng)網(wǎng)絡(luò)參數(shù)的更新也采取軟更新方法,即
算法流程如算法1 所示。
算法1智能無(wú)線發(fā)射功率控制算法
設(shè)有10 對(duì)無(wú)線終端組成的無(wú)線通信系統(tǒng),隨機(jī)分布在直徑1 km的區(qū)域內(nèi),通信總可用帶寬為2 MHz,通信信道路徑損耗為120.9 +37.6lbd(單位為dB,d為發(fā)射端和接收端之間的距離),多普勒頻率為10 Hz,噪聲功率N0=-174 dBm/Hz。文獻(xiàn)[21]分別選取5 對(duì)和10 對(duì)收發(fā)機(jī)進(jìn)行仿真驗(yàn)證,為更好地進(jìn)行驗(yàn)證,本文也分別對(duì)5 對(duì)和10 對(duì)收發(fā)機(jī)進(jìn)行仿真驗(yàn)證。發(fā)射機(jī)最大發(fā)射功率為1 W,總時(shí)間步長(zhǎng)為0.1 s,分為100 個(gè)時(shí)間塊,設(shè)置所有的鏈路權(quán)重kα均為 1。使用 Python 開(kāi)源第三方庫(kù)Tensorflow 2.4.0 和Keras 對(duì)深度神經(jīng)網(wǎng)絡(luò)進(jìn)行構(gòu)建與訓(xùn)練,以下所有仿真均在同一塊10 代i5-CPU 上進(jìn)行,訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)的超參數(shù)設(shè)置如表1 所示。
表1 深度神經(jīng)網(wǎng)絡(luò)超參數(shù)設(shè)置
圖3 展示了基于DDPG的智能無(wú)線發(fā)射功率控制算法的收斂情況。從圖3 可以看到,算法在一開(kāi)始需要收集一定數(shù)量的經(jīng)驗(yàn),此時(shí)進(jìn)行隨機(jī)探索,強(qiáng)化學(xué)習(xí)的回報(bào)值基本沒(méi)有提升。當(dāng)經(jīng)驗(yàn)緩存達(dá)到訓(xùn)練要求數(shù)量,即算法開(kāi)始訓(xùn)練后,回報(bào)值將隨著回合數(shù)的增加逐漸升高,證明深度神經(jīng)網(wǎng)絡(luò)得到了有效的訓(xùn)練,并在較短的時(shí)間內(nèi)就能夠收斂。
圖3 基于DDPG的智能無(wú)線發(fā)射功率控制算法收斂情況
由于超參數(shù)的選擇對(duì)于深度學(xué)習(xí)的訓(xùn)練至關(guān)重要,圖4 和圖5 給出了深度神經(jīng)網(wǎng)絡(luò)中典型超參數(shù)學(xué)習(xí)率和隱藏層數(shù)對(duì)算法收斂情況的影響。從圖4 可以看出,學(xué)習(xí)率過(guò)高或者過(guò)低的情況下,基于DDPG的智能無(wú)線發(fā)射功率控制算法均容易收斂至局部最優(yōu)解,選取適當(dāng)?shù)膶W(xué)習(xí)率對(duì)訓(xùn)練效果有很大影響。
圖4 學(xué)習(xí)率對(duì)算法收斂情況的影響
圖5 隱藏層數(shù)對(duì)算法收斂情況的影響
從圖5 可以看出,只使用一層隱藏層時(shí)神經(jīng)網(wǎng)絡(luò)不能很好地在強(qiáng)化學(xué)習(xí)中進(jìn)行策略評(píng)估與策略改進(jìn),最終收斂至局部最優(yōu)值,而使用兩層及以上隱藏層時(shí)算法可以較好地收斂到全局最優(yōu)值。但考慮到過(guò)多的隱藏層會(huì)增加計(jì)算與存儲(chǔ)負(fù)擔(dān),且過(guò)多的隱藏層存在過(guò)擬合的風(fēng)險(xiǎn),故本文最終選擇使用兩層隱藏層的深度神經(jīng)網(wǎng)絡(luò)。
本節(jié)采用仿真手段,將本文所提智能無(wú)線發(fā)射功率控制算法訓(xùn)練得到的計(jì)算模型與傳統(tǒng)優(yōu)化算法WMMSE[6]和隨機(jī)分配發(fā)射功率的方法進(jìn)行比較。WMMSE 算法使用MMSE-SINR 等式[23],即,將非凸的通信速率最大化問(wèn)題式(4)轉(zhuǎn)換為更高維度的可解的信號(hào)檢測(cè)問(wèn)題,MMSE 指用戶的最小均方誤差,如式(11)所示。
其中
運(yùn)用塊坐標(biāo)下降法[24]求解式(11)得出原問(wèn)題的最優(yōu)解[6]。
算法效果方面,圖6 給出了不同功率控制算法的平均傳輸速率的比較,本文算法在不同通信收發(fā)機(jī)數(shù)量的場(chǎng)景下均實(shí)現(xiàn)了超過(guò)隨機(jī)分配算法的性能,且本文的智能功率控制算法能夠?qū)崿F(xiàn)平均傳輸速率逼近理論上最優(yōu)的WMMSE 算法。
圖6 不同功率控制算法的平均傳輸速率
算法效率方面,表2 和表3 給出在進(jìn)行100 步功率控制情況下,不同算法在不同數(shù)量收發(fā)機(jī)場(chǎng)景中進(jìn)行最優(yōu)功率控制所需的運(yùn)算時(shí)間??梢钥闯?,WMMSE 算法所需運(yùn)算時(shí)間隨收發(fā)機(jī)數(shù)量的增長(zhǎng)而快速增加,而本文算法只有小幅度改變。具體地,在5 對(duì)收發(fā)機(jī)的情況下,本文算法運(yùn)算時(shí)間略少于WMMSE,但在10 對(duì)收發(fā)機(jī)的情況下,本文算法進(jìn)行最優(yōu)功率控制所需時(shí)間僅為WMMSE 算法的這是因?yàn)獒槍?duì)不同數(shù)量收發(fā)機(jī)的神經(jīng)網(wǎng)絡(luò)規(guī)模相同,故而本文所提算法的運(yùn)算時(shí)間并不會(huì)發(fā)生顯著變化。本文所提算法具備良好的可擴(kuò)展性,能夠有效適用于大規(guī)模用戶的管理。
表2 5 對(duì)收發(fā)機(jī)的最優(yōu)功率控制運(yùn)算時(shí)間
表3 10 對(duì)收發(fā)機(jī)的最優(yōu)功率控制運(yùn)算時(shí)間
本文對(duì)多用戶干擾情景下的智能無(wú)線發(fā)射功率控制算法進(jìn)行了研究,提出了深度強(qiáng)化框架下的智能控制算法,以最大化通信系統(tǒng)的傳輸速率為目標(biāo)優(yōu)化發(fā)射功率控制策略。該算法借鑒深度強(qiáng)化學(xué)習(xí)中的深度確定性梯度下降技術(shù),對(duì)行動(dòng)器與評(píng)判器的2 個(gè)深度神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,進(jìn)而獲得對(duì)策略的精準(zhǔn)評(píng)估與合理改進(jìn),采用經(jīng)驗(yàn)回放和目標(biāo)網(wǎng)絡(luò)參數(shù)軟更新的方法,確保算法具有良好的收斂性。仿真結(jié)果表明,該算法具有良好的收斂性,計(jì)算結(jié)果接近理論最優(yōu)。