面向多目標(biāo)參數(shù)整定的協(xié)同深度強(qiáng)化學(xué)習(xí)方法

2022-09-17 07:10:30羅森林魏繼勛劉曉雙潘麗敏

北京理工大學(xué)學(xué)報(bào) 2022年9期

羅森林，魏繼勛，劉曉雙，潘麗敏

（北京理工大學(xué) 信息與電子學(xué)院, 北京 100081）

現(xiàn)代自動(dòng)化系統(tǒng)中，廣泛使用PID、自抗擾控制等算法[1-2]實(shí)現(xiàn)系統(tǒng)在不同環(huán)境下的高效、穩(wěn)定運(yùn)行.此類控制算法的參數(shù)需要專家基于規(guī)則或經(jīng)驗(yàn)在運(yùn)行現(xiàn)場(chǎng)反復(fù)調(diào)試[3]，整定過(guò)程耗時(shí)長(zhǎng)且包含大量重復(fù)工作. 強(qiáng)化學(xué)習(xí)方法[4]可將整定過(guò)程近似為控制目標(biāo)優(yōu)化問(wèn)題[5]，在一定程度上代替專家，自主完成參數(shù)整定.

實(shí)際的參數(shù)整定任務(wù)常包含多個(gè)存在矛盾的控制目標(biāo)[6]，例如列車自動(dòng)駕駛系統(tǒng)的停車誤差、舒適度，鍋爐溫控系統(tǒng)的上升時(shí)間、超調(diào)量等. 此類任務(wù)中一個(gè)目標(biāo)減小時(shí)，與之沖突的目標(biāo)將增大，呈現(xiàn)矛盾關(guān)系. 多數(shù)強(qiáng)化學(xué)習(xí)方法側(cè)重于優(yōu)化單一目標(biāo). 為實(shí)現(xiàn)多目標(biāo)優(yōu)化，其處理方式為依據(jù)目標(biāo)間的矛盾關(guān)系及對(duì)目標(biāo)的偏好程度，將各目標(biāo)加權(quán)線性組合[7-8]，利用所得的全局單一目標(biāo)建立單智能體. 實(shí)際在線應(yīng)用時(shí)，因系統(tǒng)本身的復(fù)雜特性和運(yùn)行環(huán)境的不確定，目標(biāo)間關(guān)系隨系統(tǒng)性能及運(yùn)行環(huán)境改變而發(fā)生變化，矛盾將減小、增大甚至消失，與先驗(yàn)存在偏差.此時(shí)，智能體僅學(xué)習(xí)到了固定的調(diào)參知識(shí)，依舊按照預(yù)設(shè)的權(quán)重優(yōu)化目標(biāo)[9]，無(wú)法在矛盾關(guān)系變化時(shí)做出自適應(yīng)性調(diào)整并探索可能存在的最優(yōu)解，導(dǎo)致整定效果不理想.

針對(duì)上述問(wèn)題，提出一種面向多目標(biāo)參數(shù)整定的協(xié)同深度強(qiáng)化學(xué)習(xí)方法. 方法將整定過(guò)程轉(zhuǎn)化為離線單目標(biāo)整定學(xué)習(xí)及在線多目標(biāo)感知強(qiáng)化兩個(gè)階段. 離線階段針對(duì)單一目標(biāo)設(shè)計(jì)獎(jiǎng)勵(lì)、調(diào)參動(dòng)作，應(yīng)用Double-DQN 建立多個(gè)面向單一目標(biāo)的智能體；離線階段，建立整定效果反饋，從反饋中感知目標(biāo)關(guān)系變化情況，同時(shí)對(duì)各智能體添加動(dòng)態(tài)權(quán)重，自適應(yīng)調(diào)節(jié)智能體協(xié)同策略，使其根據(jù)目標(biāo)關(guān)系的變化調(diào)整對(duì)目標(biāo)的優(yōu)化程度，提升所有目標(biāo)的參數(shù)整定效果.列車自動(dòng)駕駛系統(tǒng)參數(shù)整定實(shí)驗(yàn)結(jié)果表明，本方法與單智能體的方法相比，能夠適應(yīng)不同的車軌性能差異，提升停車誤差、舒適度兩個(gè)目標(biāo)的參數(shù)整定效果.

1 相關(guān)工作

多目標(biāo)控制參數(shù)整定方法有經(jīng)典控制理論方法、基于啟發(fā)式算法的方法、結(jié)合機(jī)器學(xué)習(xí)的方法[1]等.經(jīng)典控制理論方法通過(guò)推導(dǎo)系統(tǒng)模型確定最優(yōu)參數(shù)，但復(fù)雜系統(tǒng)建模困難；基于啟發(fā)式算法的方法[10]，如NSGA-Ⅱ、MOPSO 等，在參數(shù)空間中搜索可行的解集，但算法時(shí)效性不理想；結(jié)合機(jī)器學(xué)習(xí)的方法，如模糊神經(jīng)網(wǎng)絡(luò)[11]，構(gòu)建環(huán)境與參數(shù)的映射，通過(guò)感知環(huán)境狀態(tài)信息輸出最優(yōu)參數(shù)，但在環(huán)境非平穩(wěn)時(shí)學(xué)習(xí)能力弱.

強(qiáng)化學(xué)習(xí)通過(guò)與環(huán)境交互積累知識(shí)，可以在無(wú)系統(tǒng)模型的條件下通過(guò)環(huán)境反饋快速調(diào)參. 李金娜等[12]使用Q 算法進(jìn)行無(wú)模型系統(tǒng)的最優(yōu)控制，祝亢等[13]使用深度確定性策略梯度算法進(jìn)行船舶航向參數(shù)調(diào)整，甄巖等[14]用深度Q 網(wǎng)絡(luò)方法進(jìn)行飛行器制導(dǎo)的參數(shù)整定. 但這些方法對(duì)多個(gè)優(yōu)化目標(biāo)的處理方式是將目標(biāo)加權(quán)組合或排除沖突目標(biāo)，雖然降低了問(wèn)題復(fù)雜度，但必須建立先驗(yàn)假設(shè)以對(duì)目標(biāo)做出權(quán)衡[6]，實(shí)際所得結(jié)果往往是次優(yōu)，甚至難以滿足任務(wù)要求. 因此，提出一種面向多目標(biāo)的多智能體協(xié)同深度強(qiáng)化學(xué)方法.

2 算法原理

所提方法分為離線單目標(biāo)整定學(xué)習(xí)和在線多目標(biāo)感知強(qiáng)化兩個(gè)階段，離線單目標(biāo)整定學(xué)習(xí)階段，針對(duì)單目標(biāo)進(jìn)行特征提取，使用DNN 網(wǎng)絡(luò)學(xué)習(xí)調(diào)參知識(shí)，訓(xùn)練多個(gè)智能體；在線多目標(biāo)感知強(qiáng)化階段，從運(yùn)行特征中感知整定效果，根據(jù)運(yùn)行效果自適應(yīng)調(diào)節(jié)智能體權(quán)重，協(xié)同優(yōu)化多個(gè)目標(biāo)，得到整定控制參數(shù)并持續(xù)優(yōu)化. 圖1 表示所提方法的原理框架.

圖1 方法原理框架Fig. 1 Principle framework of the proposed method

2.1 系統(tǒng)運(yùn)行環(huán)境

系統(tǒng)運(yùn)行環(huán)境為智能體提供狀態(tài)特征信息. 如圖2 所示，可調(diào)參控制器控制受控對(duì)象，受控對(duì)象與運(yùn)行環(huán)境交互并輸出實(shí)際值. 智能體的調(diào)參過(guò)程便是感知與實(shí)際值相關(guān)的狀態(tài)特征信息，調(diào)整控制參數(shù)，使實(shí)際值滿足系統(tǒng)運(yùn)行需求，數(shù)學(xué)描述如式（1）所示.

圖2 系統(tǒng)運(yùn)行環(huán)境Fig. 2 The system operating environment

2.2 單目標(biāo)整定學(xué)習(xí)

離線階段使用隨機(jī)控制參數(shù)初始化系統(tǒng)運(yùn)行仿真環(huán)境，應(yīng)用Double-DQN 構(gòu)建多個(gè)智能體. 每個(gè)智能體對(duì)應(yīng)一個(gè)控制目標(biāo)，以環(huán)境狀態(tài)特征信息為輸入，調(diào)參動(dòng)作為輸出，在有限次的“感知-調(diào)參”循環(huán)中學(xué)習(xí)最優(yōu)參數(shù)整定策略 π(s). 每次循環(huán)，智能體感知狀態(tài)St，執(zhí)行調(diào)參動(dòng)作At，環(huán)境轉(zhuǎn)移至下一個(gè)狀態(tài)St+1，并給予智能體收益Rt+1. 最優(yōu)策略下，多次循環(huán)的累計(jì)收益最大. 收益是根據(jù)實(shí)際值設(shè)置的正值獎(jiǎng)勵(lì)或負(fù)值懲罰，當(dāng)實(shí)際值接近目標(biāo)值時(shí)給予獎(jiǎng)勵(lì)，遠(yuǎn)離時(shí)給予懲罰，實(shí)際值滿足約束條件時(shí)給予大額獎(jiǎng)勵(lì). 動(dòng)作指對(duì)控制參數(shù)進(jìn)行不同幅度的增減.

Double-DQN 算法是一種深度強(qiáng)化學(xué)習(xí)模型，可以避免過(guò)估計(jì)問(wèn)題對(duì)性能的損耗，有效加快訓(xùn)練速度[15-17]. 算法以價(jià)值函數(shù)Q(s,a)為學(xué)習(xí)對(duì)象，并用深度神經(jīng)網(wǎng)絡(luò)逼近，原理如圖3 所示. 訓(xùn)練時(shí)每次從經(jīng)驗(yàn)池中隨機(jī)選取樣本＜St,At,Rt+1,St+1＞以公式（2）為損失函數(shù)，使用隨機(jī)梯度下降法（SGD）更新DNN 參數(shù).

圖3 Double-DQN 算法原理Fig. 3 Principle of the Double-DQN method

2.3 多目標(biāo)感知強(qiáng)化

在線階段各智能體嵌入自動(dòng)化系統(tǒng)中，對(duì)初始控制參數(shù)進(jìn)行調(diào)整，使用動(dòng)態(tài)權(quán)重自適應(yīng)目標(biāo)關(guān)系變化，在系統(tǒng)整個(gè)生命周期中進(jìn)行持續(xù)優(yōu)化. 隨系統(tǒng)自身性能變化以及運(yùn)行環(huán)境改變，目標(biāo)間的關(guān)系充滿不確定性. 參數(shù)整定過(guò)程中，多個(gè)目標(biāo)的增減情況一致時(shí)，各智能體優(yōu)化各自目標(biāo)，可使所有目標(biāo)共同減??；不一致時(shí)，智能體需優(yōu)先保證重要目標(biāo)的優(yōu)化效果，同時(shí)減小對(duì)沖突目標(biāo)的優(yōu)化.

使用權(quán)重wm體現(xiàn)目標(biāo)的重要程度，wm位于[0,1]之間，數(shù)值越大表示目標(biāo)越重要. 多個(gè)目標(biāo)加權(quán)聯(lián)合，作為參數(shù)整定的全局目標(biāo)，如式（4）所示.

fm(x)是隨控制參數(shù)變化而改變的連續(xù)函數(shù)，當(dāng)參數(shù)小幅度變化時(shí)，目標(biāo)函數(shù)值在小范圍內(nèi)波動(dòng). 對(duì)各智能體添加代表智能體對(duì)目標(biāo)的關(guān)注程度的權(quán)重.權(quán)重為0 時(shí)智能體將不再改變控制參數(shù)，也不再對(duì)目標(biāo)進(jìn)行優(yōu)化. 智能體與目標(biāo)共享相同的權(quán)重，使關(guān)注程度與重要程度保持一致. 將所有智能體的策略聯(lián)合，使用聯(lián)合策略對(duì)全局目標(biāo)進(jìn)行優(yōu)化，公式為

各智能體受權(quán)重控制，優(yōu)先關(guān)注重要目標(biāo). 由于沖突存在，低權(quán)重目標(biāo)優(yōu)化效果較差，重要目標(biāo)達(dá)到最優(yōu)時(shí)，其他目標(biāo)仍有優(yōu)化空間. 因此，在優(yōu)化過(guò)程中，根據(jù)目標(biāo)間關(guān)系的變化情況，對(duì)非重要目標(biāo)的權(quán)重進(jìn)行動(dòng)態(tài)調(diào)整，調(diào)整方式如下：當(dāng)非重要目標(biāo)未滿足約束條件時(shí)，每次目標(biāo)值增大將增加權(quán)重wm=wm+λ ， 0 ＜λ ＜1，使其在全局目標(biāo)中重要程度升高，聯(lián)合策略對(duì)其關(guān)注程度加重；滿足約束條件時(shí)，每次目標(biāo)值增大將減少權(quán)重wm=wm-λ，使得其重要程度減少，聯(lián)合策略減少關(guān)注程度，避免影響重要目標(biāo)的優(yōu)化效果；如果目標(biāo)值減小，則權(quán)重維持不變. 重要目標(biāo)的權(quán)重保持不變，保證其在整個(gè)調(diào)參過(guò)程中的優(yōu)化效果；非重要目標(biāo)的權(quán)重始終保持在 [0,1]之間，在原有的優(yōu)化效果上進(jìn)行小幅度調(diào)整. 通過(guò)動(dòng)態(tài)權(quán)重調(diào)整，改變對(duì)各目標(biāo)的優(yōu)化順序，在不斷變化的多目標(biāo)關(guān)系間尋求最優(yōu)解.

3 實(shí)驗(yàn)分析

3.1 實(shí)驗(yàn)?zāi)康?/h3>
為驗(yàn)證提出的多智能體協(xié)同方法對(duì)多目標(biāo)參數(shù)整定的提升效果，進(jìn)行列車自動(dòng)駕駛系統(tǒng)（automatic train operation）參數(shù)整定實(shí)驗(yàn)，并與Q、DQN、Double-DQN 單智能體方法進(jìn)行比較. 實(shí)驗(yàn)通過(guò)調(diào)整3 個(gè)控制參數(shù)優(yōu)化舒適度、停車誤差兩個(gè)不定矛盾目標(biāo)，停車誤差具有高優(yōu)先級(jí). 單智能體方法利用線性組合后的全局目標(biāo)進(jìn)行參數(shù)整定.

3.2 實(shí)驗(yàn)環(huán)境

列車自動(dòng)駕駛參數(shù)整定實(shí)驗(yàn)環(huán)境為利用某地鐵軌道電子地圖、列車性能數(shù)據(jù)、專家知識(shí)建立的車輛運(yùn)行狀態(tài)仿真環(huán)境，由自動(dòng)駕駛系統(tǒng)、列車、運(yùn)行線路構(gòu)成. 自動(dòng)駕駛系統(tǒng)實(shí)時(shí)控制列車在發(fā)車、提速、巡航、減速、?？康冗^(guò)程中的運(yùn)行速度. 速度控制有PID、速度追趕、專家策略等多種控制策略. 自動(dòng)駕駛系統(tǒng)需要在列車運(yùn)行的不同階段適時(shí)切換不同的控速策略，以實(shí)現(xiàn)列車穩(wěn)速舒適運(yùn)行及在停車站點(diǎn)精準(zhǔn)停車. 策略切換點(diǎn)由轉(zhuǎn)換參數(shù)控制，部分參數(shù)需要根據(jù)列車性能、運(yùn)行線路、運(yùn)行需求定期重調(diào).

實(shí)驗(yàn)環(huán)境可正確響應(yīng)參數(shù)改變所帶來(lái)的運(yùn)行效果變化，且對(duì)一組確定的參數(shù)，其仿真結(jié)果與真實(shí)列車運(yùn)行結(jié)果相似. 環(huán)境的輸入為待整定參數(shù)，輸出為軌道線路上列車在各站點(diǎn)間的運(yùn)行效果. 運(yùn)行效果包括：停車誤差、控速策略轉(zhuǎn)換時(shí)列車速度表現(xiàn)、實(shí)際速度曲線與理想速度曲線差異、列車制動(dòng)表現(xiàn)等.環(huán)境的狀態(tài)特征為運(yùn)行效果的量化.

生成仿真列車時(shí)，對(duì)列車添加隨機(jī)性能噪聲，使各列車性能不同；列車仿真運(yùn)行時(shí)，對(duì)列車的制動(dòng)力進(jìn)行隨機(jī)增減，使環(huán)境對(duì)列車的作用效果不斷變化.通過(guò)兩個(gè)隨機(jī)過(guò)程，模擬車軌性能不斷發(fā)生變化的真實(shí)環(huán)境.

3.3 評(píng)價(jià)指標(biāo)

使用停車誤差f1(x)及舒適度f(wàn)2(x)評(píng)價(jià)參數(shù)整定效果.

停車誤差f1(x)=e，通過(guò)傳感器直接獲取，指車廂門與屏蔽門或等候線對(duì)齊時(shí)的偏移量，表示列車能否精確?？吭谡九_(tái)指定停車點(diǎn).

列車運(yùn)行過(guò)程中速度v(t)隨時(shí)間變化，舒適度f(wàn)2(x) 為列車實(shí)際速度曲線va(t)與理想速度曲線vi(t)的差異，如公式(6)所示.

根據(jù)列車運(yùn)行要求，停車誤差絕對(duì)值小于30 cm、舒適度小于500，列車可正常運(yùn)行.

3.4 實(shí)驗(yàn)過(guò)程

在列車自動(dòng)駕駛系統(tǒng)控制參數(shù)調(diào)整任務(wù)上，將所提方法與Q、DQN、Double-DQN 單智能方法進(jìn)行比較，單智能體方法以采用不同權(quán)重組合后的全局目標(biāo)函數(shù)為學(xué)習(xí)、優(yōu)化對(duì)象.

多智能體協(xié)同方法分別對(duì)目標(biāo)函數(shù)f1(x)及f2(x)構(gòu)建智能體. 智能體的深度神經(jīng)網(wǎng)絡(luò)含有3 個(gè)隱藏層，每個(gè)隱藏層有128 個(gè)神經(jīng)元，層與層之間使用線性整流函數(shù)（RLU）作為激活函數(shù). 單目標(biāo)整定學(xué)習(xí)時(shí)，min-max 標(biāo)準(zhǔn)化處理已量化的環(huán)境狀態(tài)，使用Adam算法更新神經(jīng)網(wǎng)絡(luò)參數(shù). 多目標(biāo)感知強(qiáng)化時(shí)，設(shè)置重要目標(biāo)f1(x)的權(quán)重為1，非重要目標(biāo)f2(x)的權(quán)重為0.5，權(quán)重變化系數(shù) λ=0.05.

單智能體方法對(duì)各個(gè)目標(biāo)設(shè)置權(quán)重，利用線性組合后的全局目標(biāo)進(jìn)行整定策略學(xué)習(xí)，將停車誤差f1(x)獎(jiǎng) 勵(lì)權(quán)重設(shè)置為1，舒適度f(wàn)2(x)獎(jiǎng)勵(lì)權(quán)重分別設(shè)置為1、0.5、0.1，每種方法對(duì)應(yīng)3 組權(quán)重. 智能體的網(wǎng)絡(luò)結(jié)構(gòu)與多智能體協(xié)同方法相同.

各智能體整定策略學(xué)習(xí)時(shí)的超參數(shù)設(shè)置如表1所示，其中 ε隨Episodes 線性減小，從 εstart減少至 εend.

表1 實(shí)驗(yàn)方法超參數(shù)Tab. 1 Hyperparameters of experimental methods

3.5 實(shí)驗(yàn)結(jié)果及分析

隨機(jī)選取100 組初始參數(shù)進(jìn)行整定效果驗(yàn)證，每組參數(shù)對(duì)應(yīng)一輛不同性能的列車，整定次數(shù)限定為100 次. 將均值作為最終結(jié)果，如表2 所示.

由表2 結(jié)果可知，（1）本文的協(xié)同方法在不同車軌性能下對(duì)停車誤差、舒適度優(yōu)化結(jié)果的均值分別為21.89、281.081，滿足停車誤差絕對(duì)值小于30 cm、舒適度小于500 的運(yùn)行需求. 而單智能體方法，舒適度指標(biāo)最低為653.38，無(wú)法滿足運(yùn)行需求. （2）單智能體方法，隨舒適度權(quán)值升高，舒適度的結(jié)果值減小，但始終未達(dá)目標(biāo)要求. （3）本文方法的停車誤差結(jié)果為21.892 cm，大于Q-learn 方法的18.175 cm，但在舒適度指標(biāo)上的結(jié)果遠(yuǎn)小于Q-Learn 方法.

這些結(jié)果表明，（1）多智能體協(xié)同方法優(yōu)于其他單智能體方法，具備根據(jù)實(shí)際情況自適應(yīng)調(diào)節(jié)目標(biāo)優(yōu)化效果的能力，可嵌入自動(dòng)化系統(tǒng)中進(jìn)行持續(xù)優(yōu)化. （2）單智能體方法中，調(diào)節(jié)目標(biāo)的權(quán)重可以改變對(duì)目標(biāo)的優(yōu)化效果，但目標(biāo)線性加權(quán)組合的方式無(wú)法表達(dá)不同環(huán)境下目標(biāo)間的復(fù)雜關(guān)系，難以引導(dǎo)智能體使兩個(gè)目標(biāo)同時(shí)達(dá)到最優(yōu). （3）本文方法在多目標(biāo)協(xié)同階段動(dòng)態(tài)改變對(duì)目標(biāo)的關(guān)注度，在一定程度上以犧牲重要目標(biāo)的效果為代價(jià)，使其他目標(biāo)得到優(yōu)化.

為進(jìn)一步說(shuō)明多智能體協(xié)同方法的優(yōu)異性，圖4展示了參數(shù)整定過(guò)程中各目標(biāo)值隨調(diào)參次數(shù)的變化情況對(duì)比. 其中，圖4(a)(b)為相同車軌性能下本方法與單智能體Double-DQN 方法的對(duì)比，圖4(c)(d)另一車軌性能環(huán)境下的過(guò)程對(duì)比.

由圖4 可知，多智能體協(xié)同方法能夠在100 次內(nèi)使雙目標(biāo)下降到最低點(diǎn)，并在滿足約束條件的基礎(chǔ)上，進(jìn)行持續(xù)優(yōu)化，同時(shí)適用于不同的車軌性能. 而單智能體方法難以適應(yīng)動(dòng)態(tài)的目標(biāo)關(guān)系，整定效果不理想.

圖4 參數(shù)整定過(guò)程對(duì)比Fig. 4 Comparison of parameter-tuning process

綜上所述，所提方法可以通過(guò)關(guān)注參數(shù)整定過(guò)程中目標(biāo)關(guān)系的變化，自適應(yīng)調(diào)整對(duì)目標(biāo)的優(yōu)化程度，改變目標(biāo)優(yōu)化順序，在滿足列車運(yùn)行要求前提下，提升控制參數(shù)整定的效果，具有平穩(wěn)、快速、持續(xù)的優(yōu)化性能.

4 結(jié) 論

本文提出了一種面向多目標(biāo)參數(shù)整定的協(xié)同深度學(xué)習(xí)方法，應(yīng)用于自動(dòng)化系統(tǒng)的參數(shù)整定. 方法包含離線單目標(biāo)整定學(xué)習(xí)及在線多目標(biāo)感知強(qiáng)化兩個(gè)階段，離線階段應(yīng)用Double-DQN 構(gòu)建多個(gè)可實(shí)現(xiàn)單目標(biāo)參數(shù)自整定的智能體，在線階段使用動(dòng)態(tài)權(quán)重機(jī)制進(jìn)行多智能體多目標(biāo)參數(shù)自動(dòng)化調(diào)整，在滿足約束條件下對(duì)多個(gè)目標(biāo)進(jìn)行持續(xù)優(yōu)化. 列車自動(dòng)駕駛參數(shù)整定實(shí)驗(yàn)中，針對(duì)停車誤差、舒適度兩個(gè)控制目標(biāo)進(jìn)行參數(shù)整定，并與單智能體方法對(duì)比. 結(jié)果表明所提方法應(yīng)用效果良好，可以自適應(yīng)不同車軌性能且持續(xù)優(yōu)化，滿足實(shí)際列車運(yùn)行需求，具備解決多目標(biāo)參數(shù)整定問(wèn)題的能力. 未來(lái)將進(jìn)一步研究多智能體與多目標(biāo)的交互問(wèn)題，以期達(dá)到更優(yōu)的整定效果.