基于課程式雙重DQN的水下無人航行器路徑規(guī)劃

2022-08-04 09:28:02王瑩瑩周佳加管鳳旭

實驗室研究與探索 2022年3期

王瑩瑩，周佳加，高峰，管鳳旭

(哈爾濱工程大學智能科學與工程學院, 哈爾濱 150001)

0 引言

水下無人航行器(Unmanned Underwater Vehicle, UUV)的工作環(huán)境中存在著大量的干擾因素，如海岸、大小島嶼、海上漂浮物、暗礁、來往船只、風浪流等[1]。為了保證UUV在復雜工作環(huán)境下的安全性，自主路徑規(guī)劃能力就顯得非常重要。但是，受到路徑規(guī)劃智能技術的發(fā)展限制，自主路徑規(guī)劃難以適應于動態(tài)、復雜的環(huán)境[2]。這導致UUV的避碰系統(tǒng)無法滿足實際環(huán)境下的工作需要。

對于UUV來說，路徑規(guī)劃是最重要的自主航海技術之一，路徑規(guī)劃的目的是避免與靜態(tài)或運動障礙物相撞以確保安全。典型的運動規(guī)劃方法包括：智能優(yōu)化方法[3]、啟發(fā)式搜索方法[4]、模糊邏輯方法[5]、神經(jīng)網(wǎng)絡方法[6]、人工勢場法等。智能優(yōu)化算法適合解決類似路徑規(guī)劃的復雜優(yōu)化問題。遺傳算法[7]，模擬退火算法是具有代表性的智能優(yōu)化算法。Singh等[8]提出了一種A*方法，設計了圓形邊界包圍無人水面艇(Unmanned Surface Vehicle, USV)，以此生成最佳航路點的安全距離約束，從而解決了USV在海上環(huán)境中的運動規(guī)劃問題。Oral等[9]提出了一種新的增量搜索算法，該算法擴展了D*算法，提出的增量搜索算法可以在多個目標的條件下優(yōu)化路徑質(zhì)量。Sun等[10]針對模糊邊界選擇的主觀性，所產(chǎn)生的路徑不能保證是最優(yōu)的問題，比較了兩種優(yōu)化方法來進行模糊集的優(yōu)化，在水下三維環(huán)境下生成了最優(yōu)的3D路徑。Solari等[11]基于掃描聲吶的聲特征，研究了人工勢場方法在水下無人航行器避障中的應用。在不同環(huán)境下進行了模擬測試，證明了該方法在水下無人航行器的避障系統(tǒng)中的可行性。Li等[12]針對特征值較小區(qū)域的地形匹配精度低的問題，提出了一種自主水下航行器最優(yōu)路徑規(guī)劃方法。該方法引入了由反向傳播神經(jīng)網(wǎng)絡計算的聯(lián)合判據(jù)和模糊判據(jù)，并通過仿真實驗證明了可行性。

隨著UUV所擔負的科研、軍事任務日益復雜，從而對UUV的運動規(guī)劃能力也提出更高的要求[13]，多層級決策融合、提升智能水平成為UUV運動規(guī)劃技術的重要發(fā)展趨勢和研究方向[14]。近年來，強化學習算法常常與深度神經(jīng)網(wǎng)絡相結合來解決序列決策問題。深度強化學習算法[15]已被用于解決復雜和不確定環(huán)境中的許多任務。深度強化學習在解決路徑規(guī)劃和實時避障問題上具有很強的潛力。

1 課程式強化學習理論基礎

1.1 強化學習

強化學習是基于“行為”的學習過程，它是通過學習系統(tǒng)與環(huán)境的直接交互進行的。強化學習系統(tǒng)的響應采用標量獎勵或回報來評估，以表明其對環(huán)境的響應是否適當，然后系統(tǒng)根據(jù)這個標量進行自我調(diào)整，從而提高未來的性能。

如圖1所示，強化學習問題常用智能體—環(huán)境來研究，在本文中，智能體就是UUV。

圖1 智能體—環(huán)境系統(tǒng)示意圖

在時刻t，從狀態(tài)St=s和動作At=a跳轉到下一狀態(tài)St+1=s′和獎勵Rt+1=r的過程中，獎勵Rt+1和下一狀態(tài)St+1僅僅依賴于當前的狀態(tài)St和動作At，而不依賴于更早的狀態(tài)和動作。這樣的性質(zhì)稱之為馬爾可夫性。這意味著當前狀態(tài)包含了可能對未來產(chǎn)生影響的所有信息。強化學習的核心概念是獎勵，強化學習的目標是最大化長期的獎勵?；貓驡t可以定義為未來獎勵的和：Gt=Rt+1+Rt+2+…+RT。

1.2 課程式學習

課程式學習主要思想是模仿人類學習的特點，主張讓模型先從容易的樣本開始學習，并逐漸進階到復雜的樣本和任務。在訓練過程中，對樣本進行權重動態(tài)分配，課程初始階段簡易樣本居多，課程末尾階段樣本難度增加。課程式學習對于機器學習有如下兩個層面的幫助：① 在達到相同的模型性能條件下，課程式學習可以有效加速機器學習模型的訓練，減少訓練迭代步數(shù)。② 可以使模型獲得更好的泛化性能，即能讓模型訓練到更好的局部最優(yōu)值狀態(tài)。先用簡單的知識訓練對模型的提高會有幫助，并且簡單的知識學得越好，則對模型最終的泛化性能越有利。

1.3 目標網(wǎng)絡與經(jīng)驗回放

目標網(wǎng)絡是在原有的神經(jīng)網(wǎng)絡之外再搭建一份結構完全相同的網(wǎng)絡，原神經(jīng)網(wǎng)絡稱為評估網(wǎng)絡。具有雙網(wǎng)絡結構的Q學習算法稱為雙重深度Q學習網(wǎng)絡(Double Deep Q Network, Double DQN)算法。

經(jīng)驗回放是一種讓經(jīng)驗的概率分布變得穩(wěn)定的技術，它能提高訓練的穩(wěn)定性。經(jīng)驗回放主要有“存儲”和“采樣回放”兩大關鍵步驟。存儲是指將軌跡以(St,At,Rt+1,St+1)等形式儲存起來；采樣回放是指使用某種規(guī)則從存儲的(St,At,Rt+1,St+1)中隨機取出一條或多條經(jīng)驗。經(jīng)驗回放有以下好處：在訓練Q網(wǎng)絡時，可以消除數(shù)據(jù)的關聯(lián)，使得數(shù)據(jù)更像是獨立同分布的。這樣可以減少參數(shù)更新的方差，加快收斂。

2 UUV路徑規(guī)劃模型設計

2.1 環(huán)境狀態(tài)模型

(1)

式中，(xob0,yob0)為障礙物初始位置；(xobt,yobt)為t時刻障礙物位置；mod(t,tback)是取余函數(shù)，得到的是t整除tback之后的余數(shù)。用上述方法可以表示環(huán)境中的障礙物信息，然而這些信息UUV是不知道的，它只能憑借聲吶的返回值來確定某個方向上障礙物和船體的距離來做實時避障規(guī)劃。

水下環(huán)境信息感知手段采用多波束前視聲吶，由換能器陣列經(jīng)過相控發(fā)射與信號接收，同一層的 91 條波束與UUV保持相同的相對縱傾，對應于 91個相對航向。前視聲吶探測信息表現(xiàn)為極坐標形式，包括障礙物與 UUV 的相對航向、相對縱傾和相對距離。為了適用于路徑規(guī)劃和提高計算效率，將聲吶探測數(shù)據(jù)簡化為：前向100°的扇形區(qū)域每隔10°劃分一個區(qū)域，一共發(fā)射11條波束，離散化處理后聲吶探測的返回值d={d0,d1,…,d10}，其中di表示探測范圍內(nèi)障礙物和UUV的相對距離。

除了考慮障礙物信息以外，全局規(guī)劃需要考慮UUV與目標點的相對關系，在實際操作中，關于目標點的位置是提前已知的，而UUV的布放位置也是已知的，因此，可以在初始化階段就算出目標點和UUV的相對位置關系：

(2)

式中：(xo,yo)為目標點位置；(xt,yt)為t時刻UUV的位置；α是在以UUV當前位置為原點的坐標系中，目標點所在的角度。UUV當前偏航角為ψ，則可以推出UUV航行方向和當前位置與目標點位置連線的角度差αe=α-ψ。由圖2可見，在UUV航行速度為定值的情況下，αe越接近于0，航行速度在目標點相對連線上分量越大，速度越快。

圖2 UUV與目標點的相對關系

αe可以很好地體現(xiàn)在全局規(guī)劃中的環(huán)境信息，且在UUV采取行為之后，可以根據(jù)上一時刻的狀態(tài)和采取的行動計算下一時刻的αe并更新，然后作為下一時刻環(huán)境狀態(tài)的一部分輸入到神經(jīng)網(wǎng)絡。把αe和聲吶信息d={d0,d1,…,d10}結合起來，可以作為雙重Q網(wǎng)絡中路徑規(guī)劃的輸入信息。環(huán)境狀態(tài)可以表示為一組12維的向量：s=[d0,d1,…,d10,αe]。

2.2 行為動作和獎勵函數(shù)模型

考慮到航行器操縱機構對于運動控制的限制，結合實時規(guī)劃的快速性，將行為動作設計為：左轉(15°,30°)，前行，右轉(15°,30°)這5種情況。仿真過程中每秒交互一次，選取的角度變化量在(-30°,30°)的區(qū)間內(nèi)，符合航行器的可實現(xiàn)操縱效果。這5個行為動作是雙重深度Q網(wǎng)絡的輸出，決定了UUV接下來的航行方向和速度。

獎勵函數(shù)包括實時獎勵函數(shù)和延時獎勵函數(shù)。在全局路徑規(guī)劃中，實時獎勵分為正獎勵和負獎勵：當αe具有一個相對小的角度時給予正獎勵，期望UUV能夠快速地沿著起始點和目標點直線最短距離行駛，設置一個正獎勵用來鼓勵航行器不要偏航。實時負獎勵是關于時間的，UUV航行時間越長，代表繞了遠路，負獎勵會對這種行為給予懲罰。延時獎勵函數(shù)為到達目標點，到達目標點是全局路徑規(guī)劃的核心任務，所以設置了較大的獎勵值。為了避免程序無窮盡的運行下去，設置了999作為一個回合內(nèi)交互的最大步數(shù)，超過這個次數(shù)之后，環(huán)境自動初始化進行下一回合的訓練。獎勵函數(shù)的設計決定了UUV對目標任務的理解和學習能力，在UUV局部路徑規(guī)劃中設計了如下的獎勵函數(shù)：

(3)

式中，d為船體和障礙物的距離。

圖3所示為根據(jù)當前的環(huán)境狀態(tài)信息判斷UUV行為價值的流程圖，其中，導致回合結束的狀態(tài)有交互次數(shù)>999，到達目標點，發(fā)生碰撞3種。其他3種狀態(tài)不會導致回合結束，所以在給出當前交互獎勵值后進入下一時刻交互。

圖3 交互結果判斷流程圖

3 路徑規(guī)劃仿真實驗及結果

UUV的路徑規(guī)劃學習課程如下：

步驟1全局路徑規(guī)劃：不設置障礙物，僅考慮趨向目標體運動。

步驟2在全局規(guī)劃的路徑中加入單個靜態(tài)障礙物，UUV探索其他行為以期避開障礙物到達目標點。

步驟3增加靜態(tài)障礙物的個數(shù)到5，設置復雜地圖環(huán)境對決策網(wǎng)絡進行訓練。

步驟4設置2個不同移動方向、速度的動態(tài)障礙物，3個靜態(tài)障礙物，訓練UUV的障礙物特征提取能力和綜合避障能力。

3.1 全局路徑規(guī)劃訓練過程及結果

使用的仿真平臺是Gym，實現(xiàn)了UUV與環(huán)境接口中的環(huán)境部分。使用Keras庫來搭建雙重DQN。深度強化學習中，環(huán)境狀態(tài)維數(shù)等于輸入神經(jīng)元個數(shù)，設置為12；行為動作個數(shù)等于輸出神經(jīng)元個數(shù)，設置為5。激活函數(shù)為ReLU，優(yōu)化器為Adam。

全局路徑規(guī)劃中，環(huán)境的初始化信息包括：UUV初始位置(xt,yt)、UUV初始偏航角ψ、進而求出UUV起始航行方向與目標點的相對夾角αe、聲吶探測值d={d0,d1,…,d10}。為了訓練結果的泛化，UUV初始位置和UUV初始偏航角會設置一個合理的區(qū)間，每次初始化會在區(qū)間內(nèi)隨機選取值。水下訓練環(huán)境的大?。洪L300 m，寬200 m；航行器的大?。洪L10 m，寬4 m；可被判定為到達目標點的范圍：設置半徑為8 m；仿真過程中每秒交互一次，UUV恒定速度為2 m/s。

圖4所示為UUV在全局規(guī)劃中的回合獎勵變化圖，共訓練了1 400回合。起始階段并沒有學習到趨向于目標點運動，在訓練環(huán)境中隨機選取行為進行交互，獎勵值很低。訓練1 000次后，UUV找到了最優(yōu)路徑，獎勵值可以穩(wěn)定在最高點20左右。

3.2 靜態(tài)障礙物避碰訓練過程及結果

如圖5所示，增加了障礙物個數(shù)后，學習難度明顯加大，在前1 000回合獎勵值波動明顯，并不穩(wěn)定。在1 500回合后尋找到最優(yōu)路徑，獎勵值穩(wěn)定在20。UUV成功找到最優(yōu)路徑并到達目標點，證明了在復雜障礙物環(huán)境下，經(jīng)過訓練的UUV依然能做出快速且有效的避障路徑規(guī)劃。

(a) 訓練200次

(a) 單靜態(tài)障礙物訓練結果

3.3 動態(tài)障礙物避碰訓練過程及結果

圖6所示是在動態(tài)障礙物環(huán)境下的訓練結果。圖7所示是動態(tài)障礙物環(huán)境下的回合獎勵變化圖，其最優(yōu)路徑與直接趨向于目標體運動的路徑接近，可以長期得到在-10°≤αe≤10°情況下的0.1正獎勵。所以雖然環(huán)境更復雜，但是獎勵值較高，趨近穩(wěn)定后最優(yōu)回合獎勵大于20。

(a) 遭遇動態(tài)障礙物

圖7 動態(tài)障礙物訓練回合獎勵變化

4 結語

針對雙重DQN算法在復雜規(guī)劃任務中學習效率低的問題，提出的課程式雙重DQN加快了雙重DQN在復雜規(guī)劃任務中的學習速度。在全局路徑規(guī)劃中，對訓練樣本進行權重動態(tài)分配，將路徑規(guī)劃任務由簡到繁分解為全局路徑規(guī)劃，靜態(tài)、動態(tài)障礙物的實時避碰。利用神經(jīng)網(wǎng)絡在靜態(tài)障礙物、動態(tài)障礙物環(huán)境完成仿真訓練。仿真實驗結果表明，課程式學習在訓練過程中有顯著的引導作用，并驗證了課程式雙重DQN算法的有效性。