羅森林,魏繼勛,劉曉雙,潘麗敏
(北京理工大學(xué) 信息與電子學(xué)院, 北京 100081)
現(xiàn)代自動(dòng)化系統(tǒng)中,廣泛使用PID、自抗擾控制等算法[1-2]實(shí)現(xiàn)系統(tǒng)在不同環(huán)境下的高效、穩(wěn)定運(yùn)行.此類控制算法的參數(shù)需要專家基于規(guī)則或經(jīng)驗(yàn)在運(yùn)行現(xiàn)場(chǎng)反復(fù)調(diào)試[3],整定過(guò)程耗時(shí)長(zhǎng)且包含大量重復(fù)工作. 強(qiáng)化學(xué)習(xí)方法[4]可將整定過(guò)程近似為控制目標(biāo)優(yōu)化問(wèn)題[5],在一定程度上代替專家,自主完成參數(shù)整定.
實(shí)際的參數(shù)整定任務(wù)常包含多個(gè)存在矛盾的控制目標(biāo)[6],例如列車自動(dòng)駕駛系統(tǒng)的停車誤差、舒適度,鍋爐溫控系統(tǒng)的上升時(shí)間、超調(diào)量等. 此類任務(wù)中一個(gè)目標(biāo)減小時(shí),與之沖突的目標(biāo)將增大,呈現(xiàn)矛盾關(guān)系. 多數(shù)強(qiáng)化學(xué)習(xí)方法側(cè)重于優(yōu)化單一目標(biāo). 為實(shí)現(xiàn)多目標(biāo)優(yōu)化,其處理方式為依據(jù)目標(biāo)間的矛盾關(guān)系及對(duì)目標(biāo)的偏好程度,將各目標(biāo)加權(quán)線性組合[7-8],利用所得的全局單一目標(biāo)建立單智能體. 實(shí)際在線應(yīng)用時(shí),因系統(tǒng)本身的復(fù)雜特性和運(yùn)行環(huán)境的不確定,目標(biāo)間關(guān)系隨系統(tǒng)性能及運(yùn)行環(huán)境改變而發(fā)生變化,矛盾將減小、增大甚至消失,與先驗(yàn)存在偏差.此時(shí),智能體僅學(xué)習(xí)到了固定的調(diào)參知識(shí),依舊按照預(yù)設(shè)的權(quán)重優(yōu)化目標(biāo)[9],無(wú)法在矛盾關(guān)系變化時(shí)做出自適應(yīng)性調(diào)整并探索可能存在的最優(yōu)解,導(dǎo)致整定效果不理想.
針對(duì)上述問(wèn)題,提出一種面向多目標(biāo)參數(shù)整定的協(xié)同深度強(qiáng)化學(xué)習(xí)方法. 方法將整定過(guò)程轉(zhuǎn)化為離線單目標(biāo)整定學(xué)習(xí)及在線多目標(biāo)感知強(qiáng)化兩個(gè)階段. 離線階段針對(duì)單一目標(biāo)設(shè)計(jì)獎(jiǎng)勵(lì)、調(diào)參動(dòng)作,應(yīng)用Double-DQN 建立多個(gè)面向單一目標(biāo)的智能體;離線階段,建立整定效果反饋,從反饋中感知目標(biāo)關(guān)系變化情況,同時(shí)對(duì)各智能體添加動(dòng)態(tài)權(quán)重,自適應(yīng)調(diào)節(jié)智能體協(xié)同策略,使其根據(jù)目標(biāo)關(guān)系的變化調(diào)整對(duì)目標(biāo)的優(yōu)化程度,提升所有目標(biāo)的參數(shù)整定效果.列車自動(dòng)駕駛系統(tǒng)參數(shù)整定實(shí)驗(yàn)結(jié)果表明,本方法與單智能體的方法相比,能夠適應(yīng)不同的車軌性能差異,提升停車誤差、舒適度兩個(gè)目標(biāo)的參數(shù)整定效果.
多目標(biāo)控制參數(shù)整定方法有經(jīng)典控制理論方法、基于啟發(fā)式算法的方法、結(jié)合機(jī)器學(xué)習(xí)的方法[1]等.經(jīng)典控制理論方法通過(guò)推導(dǎo)系統(tǒng)模型確定最優(yōu)參數(shù),但復(fù)雜系統(tǒng)建模困難;基于啟發(fā)式算法的方法[10],如NSGA-Ⅱ、MOPSO 等,在參數(shù)空間中搜索可行的解集,但算法時(shí)效性不理想;結(jié)合機(jī)器學(xué)習(xí)的方法,如模糊神經(jīng)網(wǎng)絡(luò)[11],構(gòu)建環(huán)境與參數(shù)的映射,通過(guò)感知環(huán)境狀態(tài)信息輸出最優(yōu)參數(shù),但在環(huán)境非平穩(wěn)時(shí)學(xué)習(xí)能力弱.
強(qiáng)化學(xué)習(xí)通過(guò)與環(huán)境交互積累知識(shí),可以在無(wú)系統(tǒng)模型的條件下通過(guò)環(huán)境反饋快速調(diào)參. 李金娜等[12]使用Q 算法進(jìn)行無(wú)模型系統(tǒng)的最優(yōu)控制,祝亢等[13]使用深度確定性策略梯度算法進(jìn)行船舶航向參數(shù)調(diào)整,甄巖等[14]用深度Q 網(wǎng)絡(luò)方法進(jìn)行飛行器制導(dǎo)的參數(shù)整定. 但這些方法對(duì)多個(gè)優(yōu)化目標(biāo)的處理方式是將目標(biāo)加權(quán)組合或排除沖突目標(biāo),雖然降低了問(wèn)題復(fù)雜度,但必須建立先驗(yàn)假設(shè)以對(duì)目標(biāo)做出權(quán)衡[6],實(shí)際所得結(jié)果往往是次優(yōu),甚至難以滿足任務(wù)要求. 因此,提出一種面向多目標(biāo)的多智能體協(xié)同深度強(qiáng)化學(xué)方法.
所提方法分為離線單目標(biāo)整定學(xué)習(xí)和在線多目標(biāo)感知強(qiáng)化兩個(gè)階段,離線單目標(biāo)整定學(xué)習(xí)階段,針對(duì)單目標(biāo)進(jìn)行特征提取,使用DNN 網(wǎng)絡(luò)學(xué)習(xí)調(diào)參知識(shí),訓(xùn)練多個(gè)智能體;在線多目標(biāo)感知強(qiáng)化階段,從運(yùn)行特征中感知整定效果,根據(jù)運(yùn)行效果自適應(yīng)調(diào)節(jié)智能體權(quán)重,協(xié)同優(yōu)化多個(gè)目標(biāo),得到整定控制參數(shù)并持續(xù)優(yōu)化. 圖1 表示所提方法的原理框架.
圖1 方法原理框架Fig. 1 Principle framework of the proposed method
系統(tǒng)運(yùn)行環(huán)境為智能體提供狀態(tài)特征信息. 如圖2 所示,可調(diào)參控制器控制受控對(duì)象,受控對(duì)象與運(yùn)行環(huán)境交互并輸出實(shí)際值. 智能體的調(diào)參過(guò)程便是感知與實(shí)際值相關(guān)的狀態(tài)特征信息,調(diào)整控制參數(shù),使實(shí)際值滿足系統(tǒng)運(yùn)行需求,數(shù)學(xué)描述如式(1)所示.
圖2 系統(tǒng)運(yùn)行環(huán)境Fig. 2 The system operating environment
離線階段使用隨機(jī)控制參數(shù)初始化系統(tǒng)運(yùn)行仿真環(huán)境,應(yīng)用Double-DQN 構(gòu)建多個(gè)智能體. 每個(gè)智能體對(duì)應(yīng)一個(gè)控制目標(biāo),以環(huán)境狀態(tài)特征信息為輸入,調(diào)參動(dòng)作為輸出,在有限次的“感知-調(diào)參”循環(huán)中學(xué)習(xí)最優(yōu)參數(shù)整定策略 π(s). 每次循環(huán),智能體感知狀態(tài)St, 執(zhí)行調(diào)參動(dòng)作At,環(huán)境轉(zhuǎn)移至下一個(gè)狀態(tài)St+1, 并給予智能體收益Rt+1. 最優(yōu)策略下,多次循環(huán)的累計(jì)收益最大. 收益是根據(jù)實(shí)際值設(shè)置的正值獎(jiǎng)勵(lì)或負(fù)值懲罰,當(dāng)實(shí)際值接近目標(biāo)值時(shí)給予獎(jiǎng)勵(lì),遠(yuǎn)離時(shí)給予懲罰,實(shí)際值滿足約束條件時(shí)給予大額獎(jiǎng)勵(lì). 動(dòng)作指對(duì)控制參數(shù)進(jìn)行不同幅度的增減.
Double-DQN 算法是一種深度強(qiáng)化學(xué)習(xí)模型,可以避免過(guò)估計(jì)問(wèn)題對(duì)性能的損耗,有效加快訓(xùn)練速度[15-17]. 算法以價(jià)值函數(shù)Q(s,a)為學(xué)習(xí)對(duì)象,并用深度神經(jīng)網(wǎng)絡(luò)逼近,原理如圖3 所示. 訓(xùn)練時(shí)每次從經(jīng)驗(yàn)池中隨機(jī)選取樣本 <St,At,Rt+1,St+1>以公式(2)為損失函數(shù),使用隨機(jī)梯度下降法(SGD)更新DNN 參數(shù).
圖3 Double-DQN 算法原理Fig. 3 Principle of the Double-DQN method
在線階段各智能體嵌入自動(dòng)化系統(tǒng)中,對(duì)初始控制參數(shù)進(jìn)行調(diào)整,使用動(dòng)態(tài)權(quán)重自適應(yīng)目標(biāo)關(guān)系變化,在系統(tǒng)整個(gè)生命周期中進(jìn)行持續(xù)優(yōu)化. 隨系統(tǒng)自身性能變化以及運(yùn)行環(huán)境改變,目標(biāo)間的關(guān)系充滿不確定性. 參數(shù)整定過(guò)程中,多個(gè)目標(biāo)的增減情況一致時(shí),各智能體優(yōu)化各自目標(biāo),可使所有目標(biāo)共同減??;不一致時(shí),智能體需優(yōu)先保證重要目標(biāo)的優(yōu)化效果,同時(shí)減小對(duì)沖突目標(biāo)的優(yōu)化.
使用權(quán)重wm體 現(xiàn)目標(biāo)的重要程度,wm位 于[0,1]之間,數(shù)值越大表示目標(biāo)越重要. 多個(gè)目標(biāo)加權(quán)聯(lián)合,作為參數(shù)整定的全局目標(biāo),如式(4)所示.
fm(x)是隨控制參數(shù)變化而改變的連續(xù)函數(shù),當(dāng)參數(shù)小幅度變化時(shí),目標(biāo)函數(shù)值在小范圍內(nèi)波動(dòng). 對(duì)各智能體添加代表智能體對(duì)目標(biāo)的關(guān)注程度的權(quán)重.權(quán)重為0 時(shí)智能體將不再改變控制參數(shù),也不再對(duì)目標(biāo)進(jìn)行優(yōu)化. 智能體與目標(biāo)共享相同的權(quán)重,使關(guān)注程度與重要程度保持一致. 將所有智能體的策略聯(lián)合,使用聯(lián)合策略對(duì)全局目標(biāo)進(jìn)行優(yōu)化,公式為
各智能體受權(quán)重控制,優(yōu)先關(guān)注重要目標(biāo). 由于沖突存在,低權(quán)重目標(biāo)優(yōu)化效果較差,重要目標(biāo)達(dá)到最優(yōu)時(shí),其他目標(biāo)仍有優(yōu)化空間. 因此,在優(yōu)化過(guò)程中,根據(jù)目標(biāo)間關(guān)系的變化情況,對(duì)非重要目標(biāo)的權(quán)重進(jìn)行動(dòng)態(tài)調(diào)整,調(diào)整方式如下:當(dāng)非重要目標(biāo)未滿足約束條件時(shí),每次目標(biāo)值增大將增加權(quán)重wm=wm+λ , 0 <λ <1,使其在全局目標(biāo)中重要程度升高,聯(lián)合策略對(duì)其關(guān)注程度加重;滿足約束條件時(shí),每次目標(biāo)值增大將減少權(quán)重wm=wm-λ,使得其重要程度減少,聯(lián)合策略減少關(guān)注程度,避免影響重要目標(biāo)的優(yōu)化效果;如果目標(biāo)值減小,則權(quán)重維持不變. 重要目標(biāo)的權(quán)重保持不變,保證其在整個(gè)調(diào)參過(guò)程中的優(yōu)化效果;非重要目標(biāo)的權(quán)重始終保持在 [0,1]之間,在原有的優(yōu)化效果上進(jìn)行小幅度調(diào)整. 通過(guò)動(dòng)態(tài)權(quán)重調(diào)整,改變對(duì)各目標(biāo)的優(yōu)化順序,在不斷變化的多目標(biāo)關(guān)系間尋求最優(yōu)解.
為驗(yàn)證提出的多智能體協(xié)同方法對(duì)多目標(biāo)參數(shù)整定的提升效果,進(jìn)行列車自動(dòng)駕駛系統(tǒng)(automatic train operation)參數(shù)整定實(shí)驗(yàn),并與Q、DQN、Double-DQN 單智能體方法進(jìn)行比較. 實(shí)驗(yàn)通過(guò)調(diào)整3 個(gè)控制參數(shù)優(yōu)化舒適度、停車誤差兩個(gè)不定矛盾目標(biāo),停車誤差具有高優(yōu)先級(jí). 單智能體方法利用線性組合后的全局目標(biāo)進(jìn)行參數(shù)整定.
列車自動(dòng)駕駛參數(shù)整定實(shí)驗(yàn)環(huán)境為利用某地鐵軌道電子地圖、列車性能數(shù)據(jù)、專家知識(shí)建立的車輛運(yùn)行狀態(tài)仿真環(huán)境,由自動(dòng)駕駛系統(tǒng)、列車、運(yùn)行線路構(gòu)成. 自動(dòng)駕駛系統(tǒng)實(shí)時(shí)控制列車在發(fā)車、提速、巡航、減速、??康冗^(guò)程中的運(yùn)行速度. 速度控制有PID、速度追趕、專家策略等多種控制策略. 自動(dòng)駕駛系統(tǒng)需要在列車運(yùn)行的不同階段適時(shí)切換不同的控速策略,以實(shí)現(xiàn)列車穩(wěn)速舒適運(yùn)行及在停車站點(diǎn)精準(zhǔn)停車. 策略切換點(diǎn)由轉(zhuǎn)換參數(shù)控制,部分參數(shù)需要根據(jù)列車性能、運(yùn)行線路、運(yùn)行需求定期重調(diào).
實(shí)驗(yàn)環(huán)境可正確響應(yīng)參數(shù)改變所帶來(lái)的運(yùn)行效果變化,且對(duì)一組確定的參數(shù),其仿真結(jié)果與真實(shí)列車運(yùn)行結(jié)果相似. 環(huán)境的輸入為待整定參數(shù),輸出為軌道線路上列車在各站點(diǎn)間的運(yùn)行效果. 運(yùn)行效果包括:停車誤差、控速策略轉(zhuǎn)換時(shí)列車速度表現(xiàn)、實(shí)際速度曲線與理想速度曲線差異、列車制動(dòng)表現(xiàn)等.環(huán)境的狀態(tài)特征為運(yùn)行效果的量化.
生成仿真列車時(shí),對(duì)列車添加隨機(jī)性能噪聲,使各列車性能不同;列車仿真運(yùn)行時(shí),對(duì)列車的制動(dòng)力進(jìn)行隨機(jī)增減,使環(huán)境對(duì)列車的作用效果不斷變化.通過(guò)兩個(gè)隨機(jī)過(guò)程,模擬車軌性能不斷發(fā)生變化的真實(shí)環(huán)境.
使用停車誤差f1(x)及 舒適度f(wàn)2(x)評(píng)價(jià)參數(shù)整定效果.
停車誤差f1(x)=e,通過(guò)傳感器直接獲取,指車廂門與屏蔽門或等候線對(duì)齊時(shí)的偏移量,表示列車能否精確??吭谡九_(tái)指定停車點(diǎn).
列車運(yùn)行過(guò)程中速度v(t)隨時(shí)間變化,舒適度f(wàn)2(x) 為 列車實(shí)際速度曲線va(t)與 理想速度曲線vi(t)的差異,如公式(6)所示.
根據(jù)列車運(yùn)行要求,停車誤差絕對(duì)值小于30 cm、舒適度小于500,列車可正常運(yùn)行.
在列車自動(dòng)駕駛系統(tǒng)控制參數(shù)調(diào)整任務(wù)上,將所提方法與Q、DQN、Double-DQN 單智能方法進(jìn)行比較,單智能體方法以采用不同權(quán)重組合后的全局目標(biāo)函數(shù)為學(xué)習(xí)、優(yōu)化對(duì)象.
多智能體協(xié)同方法分別對(duì)目標(biāo)函數(shù)f1(x)及f2(x)構(gòu)建智能體. 智能體的深度神經(jīng)網(wǎng)絡(luò)含有3 個(gè)隱藏層,每個(gè)隱藏層有128 個(gè)神經(jīng)元,層與層之間使用線性整流函數(shù)(RLU)作為激活函數(shù). 單目標(biāo)整定學(xué)習(xí)時(shí),min-max 標(biāo)準(zhǔn)化處理已量化的環(huán)境狀態(tài),使用Adam算法更新神經(jīng)網(wǎng)絡(luò)參數(shù). 多目標(biāo)感知強(qiáng)化時(shí),設(shè)置重要目標(biāo)f1(x)的 權(quán)重為1,非重要目標(biāo)f2(x)的權(quán)重為0.5,權(quán)重變化系數(shù) λ=0.05.
單智能體方法對(duì)各個(gè)目標(biāo)設(shè)置權(quán)重,利用線性組合后的全局目標(biāo)進(jìn)行整定策略學(xué)習(xí),將停車誤差f1(x)獎(jiǎng) 勵(lì)權(quán)重設(shè)置為1,舒適度f(wàn)2(x)獎(jiǎng)勵(lì)權(quán)重分別設(shè)置為1、0.5、0.1,每種方法對(duì)應(yīng)3 組權(quán)重. 智能體的網(wǎng)絡(luò)結(jié)構(gòu)與多智能體協(xié)同方法相同.
各智能體整定策略學(xué)習(xí)時(shí)的超參數(shù)設(shè)置如表1所示,其中 ε隨Episodes 線性減小,從 εstart減 少至 εend.
表1 實(shí)驗(yàn)方法超參數(shù)Tab. 1 Hyperparameters of experimental methods
隨機(jī)選取100 組初始參數(shù)進(jìn)行整定效果驗(yàn)證,每組參數(shù)對(duì)應(yīng)一輛不同性能的列車,整定次數(shù)限定為100 次. 將均值作為最終結(jié)果,如表2 所示.
由表2 結(jié)果可知,(1)本文的協(xié)同方法在不同車軌性能下對(duì)停車誤差、舒適度優(yōu)化結(jié)果的均值分別為21.89、281.081,滿足停車誤差絕對(duì)值小于30 cm、舒適度小于500 的運(yùn)行需求. 而單智能體方法,舒適度指標(biāo)最低為653.38,無(wú)法滿足運(yùn)行需求. (2)單智能體方法,隨舒適度權(quán)值升高,舒適度的結(jié)果值減小,但始終未達(dá)目標(biāo)要求. (3)本文方法的停車誤差結(jié)果為21.892 cm,大于Q-learn 方法的18.175 cm,但在舒適度指標(biāo)上的結(jié)果遠(yuǎn)小于Q-Learn 方法.
這些結(jié)果表明,(1)多智能體協(xié)同方法優(yōu)于其他單智能體方法,具備根據(jù)實(shí)際情況自適應(yīng)調(diào)節(jié)目標(biāo)優(yōu)化效果的能力,可嵌入自動(dòng)化系統(tǒng)中進(jìn)行持續(xù)優(yōu)化. (2)單智能體方法中,調(diào)節(jié)目標(biāo)的權(quán)重可以改變對(duì)目標(biāo)的優(yōu)化效果,但目標(biāo)線性加權(quán)組合的方式無(wú)法表達(dá)不同環(huán)境下目標(biāo)間的復(fù)雜關(guān)系,難以引導(dǎo)智能體使兩個(gè)目標(biāo)同時(shí)達(dá)到最優(yōu). (3)本文方法在多目標(biāo)協(xié)同階段動(dòng)態(tài)改變對(duì)目標(biāo)的關(guān)注度,在一定程度上以犧牲重要目標(biāo)的效果為代價(jià),使其他目標(biāo)得到優(yōu)化.
為進(jìn)一步說(shuō)明多智能體協(xié)同方法的優(yōu)異性,圖4展示了參數(shù)整定過(guò)程中各目標(biāo)值隨調(diào)參次數(shù)的變化情況對(duì)比. 其中,圖4(a)(b)為相同車軌性能下本方法與單智能體Double-DQN 方法的對(duì)比,圖4(c)(d)另一車軌性能環(huán)境下的過(guò)程對(duì)比.
由圖4 可知,多智能體協(xié)同方法能夠在100 次內(nèi)使雙目標(biāo)下降到最低點(diǎn),并在滿足約束條件的基礎(chǔ)上,進(jìn)行持續(xù)優(yōu)化,同時(shí)適用于不同的車軌性能. 而單智能體方法難以適應(yīng)動(dòng)態(tài)的目標(biāo)關(guān)系,整定效果不理想.
圖4 參數(shù)整定過(guò)程對(duì)比Fig. 4 Comparison of parameter-tuning process
綜上所述,所提方法可以通過(guò)關(guān)注參數(shù)整定過(guò)程中目標(biāo)關(guān)系的變化,自適應(yīng)調(diào)整對(duì)目標(biāo)的優(yōu)化程度,改變目標(biāo)優(yōu)化順序,在滿足列車運(yùn)行要求前提下,提升控制參數(shù)整定的效果,具有平穩(wěn)、快速、持續(xù)的優(yōu)化性能.
本文提出了一種面向多目標(biāo)參數(shù)整定的協(xié)同深度學(xué)習(xí)方法,應(yīng)用于自動(dòng)化系統(tǒng)的參數(shù)整定. 方法包含離線單目標(biāo)整定學(xué)習(xí)及在線多目標(biāo)感知強(qiáng)化兩個(gè)階段,離線階段應(yīng)用Double-DQN 構(gòu)建多個(gè)可實(shí)現(xiàn)單目標(biāo)參數(shù)自整定的智能體,在線階段使用動(dòng)態(tài)權(quán)重機(jī)制進(jìn)行多智能體多目標(biāo)參數(shù)自動(dòng)化調(diào)整,在滿足約束條件下對(duì)多個(gè)目標(biāo)進(jìn)行持續(xù)優(yōu)化. 列車自動(dòng)駕駛參數(shù)整定實(shí)驗(yàn)中,針對(duì)停車誤差、舒適度兩個(gè)控制目標(biāo)進(jìn)行參數(shù)整定,并與單智能體方法對(duì)比. 結(jié)果表明所提方法應(yīng)用效果良好,可以自適應(yīng)不同車軌性能且持續(xù)優(yōu)化,滿足實(shí)際列車運(yùn)行需求,具備解決多目標(biāo)參數(shù)整定問(wèn)題的能力. 未來(lái)將進(jìn)一步研究多智能體與多目標(biāo)的交互問(wèn)題,以期達(dá)到更優(yōu)的整定效果.