趙甜,錢晶,曾云
(1.650093 云南省 昆明市 昆明理工大學(xué) 冶金與能源學(xué)院;2.650093 云南省 昆明市 云南省高校水力機(jī)械智能測試工程研究中心)
黃河是位于中國北方地區(qū)的大河,近年來由于環(huán)河農(nóng)業(yè)的不斷發(fā)展,周邊城市缺乏污水處理系統(tǒng)以及沿岸工業(yè)廢棄物處理等因素,造成河水富營養(yǎng)化,因此,對黃河水域的環(huán)境監(jiān)測十分必要[1]。
在為改善黃河狀況而采取的諸多行動(dòng)中,有效監(jiān)測其環(huán)境狀態(tài)以獲取藻華生物狀態(tài)的最新圖像至關(guān)重要。然而,手動(dòng)監(jiān)測需要花費(fèi)大量人力物力資源,需要使用機(jī)動(dòng)船從岸邊不斷航行到主要水域,并對水域進(jìn)行手動(dòng)采樣。董加鑫[2]提出使用配備水質(zhì)傳感器的自主水面車輛(ASV)代替手動(dòng)采樣,能夠以相對較低的成本自動(dòng)采樣和監(jiān)測水質(zhì)[3]。但是,該方法精確度低,模型復(fù)雜度高,不能達(dá)到檢測實(shí)時(shí)性的要求[4];李輝等[5]設(shè)計(jì)并建議使用一組水質(zhì)傳感器(如PH 計(jì)、氧化電位還原傳感器、溫度計(jì)等)監(jiān)測黃河,該方法在動(dòng)態(tài)避障過程中不具備優(yōu)勢。為了提高效率,可以部署分布式微電網(wǎng)的多智能體船艇機(jī)器人用于監(jiān)測每個(gè)單獨(dú)任務(wù),探索不同區(qū)域并測量水的質(zhì)量[6]。深度強(qiáng)化學(xué)習(xí)的路徑規(guī)劃方法已成為處理函數(shù)逼近(神經(jīng)網(wǎng)絡(luò)作為非線性參數(shù)逼近器)的最常用方法。并且,深度強(qiáng)化學(xué)習(xí)已成為使用自主水面和水下設(shè)備進(jìn)行被動(dòng)路徑規(guī)劃和碰撞避免的最常見方法之一。徐宏威[7]提出了一種使用Q-Learning 方法優(yōu)化水下航行器運(yùn)動(dòng)規(guī)劃器的方法,成為強(qiáng)化學(xué)習(xí)在此類航行器控制中的成功應(yīng)用。
本文受深度強(qiáng)化學(xué)習(xí)的啟發(fā),提出一種基于深度強(qiáng)化神經(jīng)網(wǎng)絡(luò)的分布式微電網(wǎng)多智能體機(jī)器人路徑規(guī)劃方法(DDQL)。
自動(dòng)水面交通工具(ASV)具有自主性、移動(dòng)性,擅長監(jiān)測和測量水生營養(yǎng)物質(zhì)[8]。在規(guī)劃此類船艇的路徑時(shí),結(jié)合黃河水域方向的復(fù)雜性和高維性,通常采用啟發(fā)式方法(如強(qiáng)化學(xué)習(xí),參見圖1)解決多智能體的巡邏任務(wù)。本文通過引用強(qiáng)化學(xué)習(xí)將環(huán)境狀態(tài)映射到將長期返回最大獎(jiǎng)勵(lì)的動(dòng)作的最佳策略π(s)。在這項(xiàng)工作中,提出了2 種Q 學(xué)習(xí)改進(jìn)方式:雙深度Q 網(wǎng)絡(luò)和Q值優(yōu)化的競爭網(wǎng)絡(luò)架構(gòu)。在這2 種算法中,Q函數(shù)都是通過在損失函數(shù)中針對給定深度網(wǎng)絡(luò)的每個(gè)參數(shù)采取下降梯度步驟優(yōu)化,主要區(qū)別在于Q值的計(jì)算方式,Q值是直接估計(jì)的,而在競爭網(wǎng)絡(luò)中是用估計(jì)的優(yōu)勢函數(shù)A(s,a)和價(jià)值函數(shù)V(s)。
圖1 基本的強(qiáng)化學(xué)習(xí)方案Fig.1 Basic reinforcement learning solution
基于Q 網(wǎng)絡(luò),本文提出Q函數(shù)優(yōu)化的2 種估計(jì)量:狀態(tài)值函數(shù)V(s)和優(yōu)勢函數(shù)A(s,a)。V(s)根據(jù)未來預(yù)期獎(jiǎng)勵(lì)返回當(dāng)前狀態(tài)s的值,A(s,a)評估狀態(tài)s中單個(gè)動(dòng)作a相對于其他可能動(dòng)作的預(yù)期獎(jiǎng)勵(lì),表達(dá)式為
為了解決可識(shí)別性問題(在給定Q的意義上不能唯一恢復(fù)V和A),必須修改式(1)以添加A的基線。該基線被選擇為每個(gè)A的平均值,公式為
本文使用公共集中網(wǎng)絡(luò)直觀地估計(jì)狀態(tài)值函數(shù),考慮到了許多任務(wù)的整個(gè)場景[9]。各個(gè)輸出層估計(jì)每個(gè)任務(wù)的優(yōu)勢函數(shù),正如之前估計(jì)Q值一樣。圖2 這個(gè)變體有2 個(gè)積極的方面:一是DQN 保持不變,除了V(s)估計(jì)器只有一個(gè)額外的神經(jīng)元和聚合層,所以DDQL 算法可以被回收;二是學(xué)習(xí)問題表明該架構(gòu)可以專注于協(xié)作行動(dòng),允許任務(wù)使用估計(jì)值函數(shù)改進(jìn)其策略,如Wang[11]所建議的。該算法與A(s,a)中Q(s,a)的對抗性演算保持相同,并且V(s)函數(shù)被視為嵌入函數(shù)本身,如Zheng[12]的研究。
圖2 集中分布式Q-Learning 網(wǎng)絡(luò)。Fig.2 Proposed centralized distributed Q-Learning network
為評估復(fù)雜背景下分布式微電網(wǎng)的多智能體船艇機(jī)器人路徑規(guī)劃性能,使用了2 個(gè)指標(biāo):
(1)累積獎(jiǎng)勵(lì)R:累積獎(jiǎng)勵(lì)顯示獎(jiǎng)勵(lì)函數(shù)的表現(xiàn)[10],獎(jiǎng)勵(lì)越高越符合設(shè)計(jì)目標(biāo)。獎(jiǎng)勵(lì)的偏差給出了從一個(gè)開始條件到另一個(gè)開始條件推斷策略的穩(wěn)健性[11]。R的表達(dá)式為
式中:N——任務(wù)數(shù);t——時(shí)間步長,從0~T可能的時(shí)間步長。
(2)平均加權(quán)空閑率μ:是巡邏問題解決方案的替代評估量,計(jì)算可導(dǎo)航單元的平均加權(quán)空閑率。表達(dá)式為
為了進(jìn)行比較,將深度強(qiáng)化學(xué)習(xí)方法(DDQL)、淺層強(qiáng)化學(xué)習(xí)方法IDQL 和競爭網(wǎng)絡(luò)(Dueling)策略都更改為完全貪婪(?=0)以衡量最佳策略,對3 種基于強(qiáng)化學(xué)習(xí)的方法進(jìn)行消融比較。表1 為不同數(shù)量任務(wù)和方法的比較結(jié)果。對于單任務(wù)情況,IDQL 和DDQL 結(jié)果相近,3 種強(qiáng)化學(xué)習(xí)方法的性能比傳統(tǒng)路徑規(guī)劃方法好得多。DDQL 分別提高了12%、20%、15%和13%,是4 種任務(wù)數(shù)量中的最佳解決方案;Dueling Network 分別提高了24%、21%、12%和11%;而IDQL 分別提高了12%、15%、12%和12%。強(qiáng)化學(xué)習(xí)方法將軌跡計(jì)算考慮在內(nèi),從而更好地最小化整個(gè)場景中的平均加權(quán)空閑。
表1 與黃河傳統(tǒng)規(guī)劃方法的累積獎(jiǎng)勵(lì)和平均加權(quán)閑置的比較結(jié)果Tab.1 Comparison of rewards and average weighted idleness with the traditional planning methods of Yellow River
在深度強(qiáng)化學(xué)習(xí)方法方面,所提出的DDQL方法相對于其他算法實(shí)現(xiàn)的最大獎(jiǎng)勵(lì)略有改進(jìn),盡管IDQL 被證明也是適用于多任務(wù)情況的算法,但DDQL 方法實(shí)現(xiàn)了更好的記錄軌跡,盡管與IDQL相比平均值非常相似。參見圖3。
圖3 1 臺(tái)、2 臺(tái)、3 臺(tái)和4 臺(tái)ASV 的軌跡Fig.3 Trajectories of one,two,three,and four ASVs
由于獎(jiǎng)勵(lì)函數(shù)確定的獎(jiǎng)勵(lì)和冗余標(biāo)準(zhǔn)與車隊(duì)規(guī)模無關(guān),因此新任務(wù)的邊際改進(jìn)會(huì)減少。通過DDQL 進(jìn)行實(shí)驗(yàn),從1 到2 個(gè)任務(wù)的最佳DDQL 軌跡中的獎(jiǎng)勵(lì)改進(jìn)約為78%;從2 個(gè)任務(wù)增加到3個(gè)將獎(jiǎng)勵(lì)提高19%;從3 個(gè)任務(wù)增加到4 個(gè)只會(huì)帶來7%的改進(jìn)。
圖4 允許在給定多個(gè)步驟和多個(gè)任務(wù)的情況下預(yù)先規(guī)劃所需的覆蓋范圍,如果任務(wù)時(shí)間較短,則可以選擇更多的任務(wù),反之亦然。圖5 顯示了最佳情況下每個(gè)任務(wù)學(xué)習(xí)的優(yōu)化軌跡,優(yōu)化策略迫使任務(wù)共享興趣空間。在單任務(wù)情況下,由于步數(shù)不足以覆蓋整個(gè)地圖,ASV 將重點(diǎn)放在最重要的區(qū)域并至少訪問最大值一次,偶爾2 次。在多智能體實(shí)驗(yàn)中,ASV 首先訪問最近的最大興趣區(qū)域,然后繼續(xù)探索其他區(qū)域,一旦空閑率上升,往往會(huì)避免很長的路徑來重新訪問那些重要區(qū)域[12]。結(jié)果表明具有良好的協(xié)調(diào)和合作行為,因?yàn)橹悄荏w探索了完整的地圖,并且探索了與其興趣成比例的區(qū)域。
圖4 使用經(jīng)過訓(xùn)練的網(wǎng)絡(luò)進(jìn)行100 次模擬的平均加權(quán)空閑Fig.4 Average weighted idleness of 100 simulation using trained networks
圖5 各任務(wù)數(shù)量的DDQL 最佳軌跡中的空閑和訪問頻率Fig.5 Idle and access frequency in DDQL optimal trajectory of each task number
雖然IDQL 算法確實(shí)實(shí)現(xiàn)了與所提出的DDQL和Dueling 算法相似的結(jié)果,但它面臨與收斂所需的優(yōu)化步驟數(shù)量相關(guān)的可擴(kuò)展性問題[13]。一方面,IDQL 方法為每個(gè)智能體提供了一個(gè)單獨(dú)的卷積神經(jīng)網(wǎng)絡(luò),因此,在訓(xùn)練期間,每個(gè)智能體都必須訓(xùn)練自己的小批量,并采取與智能體數(shù)量一樣多的優(yōu)化步驟;另一方面,解耦方法可以通過共享更大的網(wǎng)絡(luò)部分來提高學(xué)習(xí)效率,如此勢必減少訓(xùn)練時(shí)間,而這是本研究需考慮的重要指標(biāo)。為遷移學(xué)習(xí)過程重新訓(xùn)練網(wǎng)絡(luò)的需要以及因重要性圖的變化,算法在可擴(kuò)展性方面必須是可行的。更高的訓(xùn)練時(shí)間并不能彌補(bǔ)其他方法幾乎相同的性能。圖6 顯示了使用可用于任務(wù)學(xué)習(xí)的計(jì)算機(jī)工作站來訓(xùn)練前面提到的場景所需的時(shí)間,可見,所提出的DDQL 方法比獨(dú)立方法快3 倍。
圖6 3 種DRL 方法的訓(xùn)練時(shí)間Fig.6 Training time of three DRL methods
在處理多任務(wù)情況時(shí)存在大量不同的可能路徑,傳統(tǒng)方法無法有效解決問題。本文提出的集中分布式Q-Learning 網(wǎng)絡(luò)方法通過實(shí)驗(yàn)驗(yàn)證表明,在解決此類問題非常有效,不需要先前的環(huán)境模型,因?yàn)镈DQL 可以穩(wěn)健地適應(yīng)不同的動(dòng)態(tài)和交互。使用本算法的多智能體案例通過集中式卷積神經(jīng)網(wǎng)絡(luò)處理,提取特征以供智能體選擇其動(dòng)作,由于每個(gè)任務(wù)都有自己的并行獨(dú)立神經(jīng)網(wǎng)絡(luò),并且由于它們的動(dòng)作是等效的,因此所提出的架構(gòu)在大多數(shù)情況下都比獨(dú)立強(qiáng)化學(xué)習(xí)對應(yīng)物獲得更高的獎(jiǎng)勵(lì)。此外,提出的DDQL 架構(gòu)的學(xué)習(xí)速度比獨(dú)立方法提高了3倍,因?yàn)樗褂昧斯餐慕?jīng)驗(yàn)重放,需要的優(yōu)化步驟更少,在處理黃河流域路徑規(guī)劃問題上具有良好表現(xiàn)。