摘" 要:針對AGV路徑規(guī)劃中的收斂速度慢和路徑動態(tài)調(diào)整的問題,提出了一種改進(jìn)的Q-learning算法。首先,引入了曼哈頓距離作為額外的啟發(fā)信息,結(jié)合Q-learning算法進(jìn)行路徑規(guī)劃,以加速算法的收斂速度。其次,增加了故障點的考慮,并在路徑規(guī)劃過程中動態(tài)調(diào)整路徑,驗證了算法對于動態(tài)環(huán)境的可行性。此外,還設(shè)計了路徑中可以收集貨物的機制,使得AGV在執(zhí)行任務(wù)的同時能夠完成貨物的搬運任務(wù)。通過對比實驗,驗證了改進(jìn)算法在不同場景下的有效性和性能優(yōu)勢。實驗結(jié)果表明,改進(jìn)的Q-learning算法在提高收斂速度、適應(yīng)復(fù)雜環(huán)境和靈活執(zhí)行任務(wù)方面取得了顯著的效果,為AGV路徑規(guī)劃提供了一種新的解決方案。
關(guān)鍵詞:路徑規(guī)劃;曼哈頓距離;動態(tài)調(diào)整;貨物收集
中圖分類號:F253.9" " 文獻(xiàn)標(biāo)志碼:A" " DOI:10.13714/j.cnki.1002-3100.2025.01.006
Abstract: For addressing the slow convergence and dynamic path adjustment issues in AGV path planning, an enhanced Q-learning algorithm is proposed. Firstly, the Manhattan distance is introduced as additional heuristic information, combined with the Q
-learning algorithm for path planning to accelerate the convergence speed of the algorithm. Secondly, the consideration of fault points is added, and the path is dynamically adjusted during the path planning process, validating the algorithm's feasibility for dynamic environments. Additionally, a mechanism for collecting goods along the path is designed, allowing the AGV to perform cargo transportation tasks while executing its main tasks. Through comparative experiments, the effectiveness and performance advantages of the improved algorithm in various scenarios are verified. The experimental results demonstrate significant improvements in convergence speed, adaptation to complex environments, and flexible task execution, providing a novel solution for AGV path planning.
Key words: path planning; Manhattan distance; dynamic adjustment; cargo collection
0" 引" 言
自動導(dǎo)引車(Automated Guided Vehicle,AGV)路徑規(guī)劃是該領(lǐng)域的一個核心問題,其核心目標(biāo)是在存在障礙物限制的情況下,根據(jù)已知的起點和終點,以最短路徑或最短時間為優(yōu)先考慮,尋找一條最佳或接近最佳的安全且通暢的路徑。由于應(yīng)用場景廣泛,因此大體可以分為兩種應(yīng)用場景,即全局靜態(tài)場景和局部動態(tài)場景。不同場景也有不同算法適配,如全局靜態(tài)場景普遍為全局信息已知,常用算法為蟻群算法[1]、Dijkstra算法[2]、A*算法[3]等;局部動態(tài)場景為部分信息未知或動態(tài)改變,常用算法為動態(tài)窗口法[4]、強化學(xué)習(xí)[5]等。
針對AGV路徑規(guī)劃問題,文獻(xiàn)[6]針對AGV局部路徑規(guī)劃,提出了基于強化學(xué)習(xí)混合增強蟻群算法。針對傳統(tǒng)蟻群算法效率低下的缺陷,提出將置信上界(Upper Confidence Bound,UCB)算法中的UCB值和Q值更新策略引入蟻群算法、改善啟發(fā)函數(shù)、改進(jìn)障礙節(jié)點懲罰原則以及綜合局部最佳路徑的路線搜索方法,使得最短路線的搜尋效率得到提升;文獻(xiàn)[7]提出一種改進(jìn)的動態(tài)調(diào)整探索因子ε策略,即在強化學(xué)習(xí)的不同階段選擇不同的探索因子ε值,提高了改進(jìn)后強化學(xué)習(xí)算法的收斂速度以及調(diào)高了收斂結(jié)果的穩(wěn)定性。文獻(xiàn)[8]設(shè)計了一種啟發(fā)式獎勵函數(shù)和啟發(fā)式動作選擇策略,以此強化智能體對優(yōu)質(zhì)行為的探索,提高算法學(xué)習(xí)效率并證明了改進(jìn)啟發(fā)式強化學(xué)習(xí)算法在探索次數(shù)、規(guī)劃時間、路徑長度與路徑轉(zhuǎn)角上都具有一定的優(yōu)勢。
目前采用強化學(xué)習(xí)算法解決AGV路徑規(guī)劃問題的研究上,大多存在迭代次數(shù)過多、收斂速度慢、實用性較差等現(xiàn)象,本文在增加多種貼合實際的實驗場景的前提下,提出一種改進(jìn)Q-learning算法,可以更高效地解決強化學(xué)習(xí)效率低下的問題,同時驗證可行性。
1" 環(huán)境概述
在本文所考慮的路徑規(guī)劃問題中,地圖呈現(xiàn)為一個柵格地圖,并且智能體只能執(zhí)行上、下、左、右四個基本動作。地圖中包含了起點、障礙點和終點,它們都被建模成了橢圓形矩形。
地圖坐標(biāo)表示為橢圓形矩形的左上角和右下角的位置。起點的坐標(biāo)為10,10,50,50,終點的坐標(biāo)為550,550,590,590,其他障礙物坐標(biāo)如圖1所示。其中前兩個數(shù)字表示了左上角的坐標(biāo),而后兩個數(shù)字則表示了右下角的坐標(biāo)。
在這樣的地圖環(huán)境下,智能體需要保證在避開障礙物的同時,從起點移動到終點。由于動作約束僅限于上、下、左、右四個方向,智能體只能選擇這四個動作中的一個來執(zhí)行。因此,路徑規(guī)劃問題在這樣的地圖環(huán)境中變得更加具體和實際。
這種地圖表示方法能夠清晰地定義地圖的布局和智能體的行動空間,為路徑規(guī)劃算法的設(shè)計和實現(xiàn)提供了基礎(chǔ)。同時,通過合理設(shè)計起點、障礙點和終點的位置和形狀,也可以模擬出各種復(fù)雜的路徑規(guī)劃場景,從而驗證算法的性能和魯棒性。
2" 改進(jìn)Q-learning算法
2.1" Q-learning算法工作原理
Q-learning算法是一種經(jīng)典的強化學(xué)習(xí)算法,其工作原理基于馬爾可夫決策過程(Markov Decision Process, MDP)。其核心思想是通過學(xué)習(xí)一個價值函數(shù)(Value Function),來指導(dǎo)智能體在環(huán)境中做出動作,以達(dá)到最大化累積獎勵的目標(biāo)。具體來說,Q-learning算法通過學(xué)習(xí)一個狀態(tài)-動作值函數(shù)(Q函數(shù)),記為Qs,a,其中:s表示狀態(tài),a表示動作。這個函數(shù)表示在狀態(tài)s下采取動作a所能獲得的累積獎勵的期望值。Q-learning算法的更新規(guī)則如下:
Qs,a=Qs,a+αr+γmaxQs,a-Qs,a" " " " " " " " " " " " " " " " "(1)
式中:α是學(xué)習(xí)率,r是智能體執(zhí)行動作a后所獲得的即時獎勵,γ是折扣因子,s是執(zhí)行動作a后智能體進(jìn)入的下一個狀態(tài),maxQs,a表示在下一個狀態(tài)下采取所有可能動作中能夠獲得的最大累積獎勵的值。
Q-learning算法通過不斷地與環(huán)境交互,根據(jù)當(dāng)前狀態(tài)和動作的獎勵來更新Q值,以逐步優(yōu)化智能體的決策策略。在訓(xùn)練過程中,智能體通過探索-利用策略來平衡探索新策略和利用已有經(jīng)驗的權(quán)衡,最終學(xué)得一個最優(yōu)的策略來在環(huán)境中實現(xiàn)特定的任務(wù)。
2.2" Q-learning算法改進(jìn)
2.2.1" 曼哈頓距離
曼哈頓距離[9],又稱為城市街區(qū)距離或L1距離,是一種常用的距離度量方式,用于衡量在規(guī)定了直角坐標(biāo)系中兩點之間的距離。它的命名來源于曼哈頓的街道布局,其中車輛只能沿著網(wǎng)格狀的街道行駛,因此兩點之間的距離必須沿著網(wǎng)格線走。在數(shù)學(xué)上,曼哈頓距離是通過將兩點的各坐標(biāo)數(shù)值差的絕對值相加而得出的。具體而言,對于二維平面上的兩點Px,y和Px,y之間的曼哈頓距離d可以表示為(在正文中可能會引用到前文章節(jié)的內(nèi)容,按照下面的方式進(jìn)行敘述):
d=x-x+y-y" " " " " " " " " " " " " " " " " " " " " "(2)
而在更高維度的空間中,曼哈頓距離的計算方式類似,即將各坐標(biāo)分量的絕對值之和作為距離。相較于其他距離度量方式如歐氏距離,曼哈頓距離更直觀地反映了在規(guī)定直角坐標(biāo)系中,從一個點到另一個點沿著網(wǎng)格線移動所需的最小步數(shù)。
2.2.2" 增加啟發(fā)信息
傳統(tǒng)的Q-learning算法受限于僅考慮狀態(tài)、動作和獎勵,常常在訓(xùn)練初期出現(xiàn)過度訓(xùn)練的問題。這種情況顯著影響了學(xué)習(xí)速度和收斂速度,限制了其在實際應(yīng)用中的效果。在路徑規(guī)劃問題中,地圖本身具有豐富的信息,其中包括未開發(fā)的參數(shù),如距離。然而,傳統(tǒng)Q-learning算法并未充分利用這些信息,導(dǎo)致其在面對復(fù)雜環(huán)境時前期表現(xiàn)不佳。
為了克服這一問題,本文提出了一種新的Q-learning算法,即基于曼哈頓距離調(diào)整的方法。曼哈頓距離在路徑規(guī)劃領(lǐng)域被廣泛應(yīng)用,特別適用于具有離散動作空間的問題。通過將曼哈頓距離融入獎勵函數(shù)中,可以在訓(xùn)練過程中引導(dǎo)智能體更有效的學(xué)習(xí),從而提高學(xué)習(xí)速度和收斂速度。
在本文研究中,將地圖上的曼哈頓距離作為一種額外的信息引入Q-learning算法中。具體地說根據(jù)智能體與目標(biāo)之間的曼哈頓距離來調(diào)整獎勵值,從而在靠近目標(biāo)的狀態(tài)下提供更多的獎勵。這種方式使得智能體更傾向于朝向目標(biāo)移動,加速了學(xué)習(xí)過程的收斂。
此外,該方法幾乎適用于任何起點與終點的應(yīng)用場景,因為曼哈頓距離作為一種啟發(fā)式函數(shù)[10],能夠有效地指導(dǎo)路徑規(guī)劃過程。通過在后續(xù)實驗中驗證,發(fā)現(xiàn)基于曼哈頓距離調(diào)整的Q-learning算法相較于傳統(tǒng)方法在學(xué)習(xí)速度和收斂速度上均取得了顯著的提升。假設(shè)當(dāng)前位置為x,x,y,y曼哈頓距離的計算公式表示為:
550-x+550-x/2+590-y+590-y/2" " " " " " " " " " " " " " " "(3)
2.2.3" 獎勵設(shè)計改進(jìn)
在考慮到每個位置都有對應(yīng)到達(dá)終點的曼哈頓距離情況下,可以調(diào)整獎勵函數(shù),使得靠近終點的位置獲得更大的獎勵,以此來引導(dǎo)智能體更快地選擇靠近終點的路徑。
在對獎勵函數(shù)進(jìn)行調(diào)整時,需要考慮到曼哈頓距離可能遠(yuǎn)大于獎勵參數(shù)的情況。因此,歸一化處理是至關(guān)重要的,它確保了獎勵值的合理范圍,避免了過大的獎勵值對算法學(xué)習(xí)的干擾。通過引入歸一化參數(shù),可以對曼哈頓距離進(jìn)行適當(dāng)?shù)目s放,使得其范圍與獎勵參數(shù)相匹配。這樣一來,即使在距離較遠(yuǎn)的位置,智能體也能夠獲得合理的獎勵,從而保持了對學(xué)習(xí)過程的有效引導(dǎo)。
在本文的應(yīng)用場景中,曼哈頓距離最大為1 080,最小為0。通過歸一化后,得到了一個位于0,1范圍內(nèi)的歸一化距離值。這個歸一化的距離值可以直觀地表示智能體距離終點的相對距離,并且保證不會過大的影響?yīng)剟畹姆謹(jǐn)?shù),從而成為調(diào)整獎勵的重要依據(jù)。
將原本的固定獎勵進(jìn)行變更,數(shù)學(xué)公式為:
r=r+d/maxd" " " " " " " " " " " " " " " " " " " " " " " "(4)
通過在獎勵函數(shù)中結(jié)合歸一化的曼哈頓距離,有效地將環(huán)境中的啟發(fā)信息引入到了Q-learning算法中,使得智能體更加智能地選擇動作,并更快地學(xué)習(xí)到最優(yōu)策略。這種基于歸一化曼哈頓距離的獎勵調(diào)整策略為路徑規(guī)劃問題提供了一種新的思路和方法。
3" 方法設(shè)計與實現(xiàn)
本文利用Python實現(xiàn)傳統(tǒng)Q-learning算法和改進(jìn)Q-learning算法,通過可視化路徑搜索展示它們在三種不同應(yīng)用場景下的效果,并且在學(xué)習(xí)結(jié)束后,可視化最終選擇的路徑以及迭代次數(shù)和最終收益的折線圖。
這三種應(yīng)用場景分別是最短路徑規(guī)劃、收集貨物路徑規(guī)劃以及動態(tài)故障點增加路徑規(guī)劃。通過比較兩種算法在這些場景下的性能差異,深入探討改進(jìn)算法的優(yōu)勢和適用性。
在最短路徑規(guī)劃場景中,將建立一個柵格地圖模型,并使用傳統(tǒng)Q-learning算法和改進(jìn)Q-learning算法尋找起點到終點的最短路徑,完成一個最簡單的AGV路徑規(guī)劃問題;在收集貨物路徑規(guī)劃場景中,將考慮智能體需要在地圖上收集分布的貨物,然后再前往終點的場景,該場景更加貼合日常AGV運營方式;在動態(tài)故障點增加路徑規(guī)劃場景中,將模擬在地圖上增加故障點,智能體需要避開這些故障點并收集貨物找到最短路徑到達(dá)目標(biāo),該場景主要檢測應(yīng)對突發(fā)情況,傳統(tǒng)Q-learning算法和改進(jìn)Q-learning算法的應(yīng)對能力。
通過可視化路徑搜索和可視化最終選擇的路徑以及迭代次數(shù)和最終收益的折線圖,可以清晰地觀察到傳統(tǒng)Q-learning算法和改進(jìn)Q-learning算法在不同場景下的路徑搜索過程和結(jié)果并進(jìn)行對比。在比對兩種算法的差異時,將著重考察它們在學(xué)習(xí)速度、路徑質(zhì)量等的表現(xiàn)。這樣的對比分析有助于評估改進(jìn)算法在解決實際問題中的應(yīng)用潛力,并為進(jìn)一步研究提供參考和啟示。
為保證實驗嚴(yán)謹(jǐn)性,所以實驗參數(shù)設(shè)置均為一致,如表1所示。
動作選擇策略添加了ε-greedy策略,貪婪系數(shù)逐次遞減0.001,以此保證智能體可以進(jìn)行足夠的探索,并在后期可以利用已知信息來盡可能地執(zhí)行最優(yōu)動作。
兩種算法獎勵機制稍有不同,主要區(qū)別在于移動的獎勵,改進(jìn)Q-learning獎勵增加了歸一化后的曼哈頓距離。如表2所示。
3.1" 最短路徑規(guī)劃
最短路徑規(guī)劃實驗中,首先考察了傳統(tǒng)Q-learning算法和改進(jìn)Q-learning算法在尋找起點到終點的最短路徑方面的性能表現(xiàn)。傳統(tǒng)Q-learning算法最短路徑規(guī)和迭代次數(shù)以及改進(jìn)Q-learning算法最短路徑規(guī)和迭代次數(shù)如圖2所示。
圖左為傳統(tǒng)Q-learning算法結(jié)果,圖右為改進(jìn)Q-learning算法結(jié)果。從圖中可以觀察到,對于最短路徑的規(guī)劃問題,雖然路徑長短一致,但傳統(tǒng)Q-learning算法選擇的路徑存在7次轉(zhuǎn)彎,而改進(jìn)Q-learning算法選擇的路徑則僅僅需要3次轉(zhuǎn)彎,具有一定優(yōu)勢。而迭代次數(shù)方面,改進(jìn)Q-learning算法在約1 500次迭代后趨于收斂,而傳統(tǒng)Q-learning算法則需要大約1 750次迭代才能達(dá)到相似的收斂狀態(tài)。這表明改進(jìn)后的算法在最短路徑規(guī)劃問題上具有更快的收斂速度,也可以更有效地找到最優(yōu)路徑。
3.2" 收集貨物路徑規(guī)劃
在收集貨物路徑規(guī)劃實驗中,在原有地圖的基礎(chǔ)上增加了三個貨物點,模擬了真實AGV取貨的場景。地圖構(gòu)建如圖3所示。
黃色點位標(biāo)識貨物的位置,當(dāng)智能體移動到貨物點時表示成功取貨。為了防止智能體頻繁在貨物點刷分,采取了以下策略:使用三個數(shù)組來存儲貨物的坐標(biāo)信息,包括貨物點坐標(biāo)、當(dāng)前訓(xùn)練貨物坐標(biāo)和已取得貨物坐標(biāo)。其中,貨物點坐標(biāo)數(shù)組用于保存貨物位置信息,當(dāng)前訓(xùn)練貨物坐標(biāo)數(shù)組用于在訓(xùn)練過程中動態(tài)復(fù)制貨物點坐標(biāo),已取得貨物坐標(biāo)數(shù)組用于記錄智能體成功取得的貨物坐標(biāo)。在每次訓(xùn)練中,當(dāng)智能體移動到某一貨物點時,該貨物點坐標(biāo)將被添加到已取得貨物坐標(biāo)數(shù)組中,并從當(dāng)前訓(xùn)練貨物坐標(biāo)數(shù)組中移除,以確保每個貨物只能被成功取得一次,從而避免智能體刷分的情況發(fā)生。
傳統(tǒng)Q-learning算法收集貨物路徑規(guī)劃和迭代次數(shù)以及改進(jìn)Q-learning算法收集貨物路徑規(guī)劃和迭代次數(shù)如圖4所示。
路徑長度方面兩種算法選擇的路徑距離相等,轉(zhuǎn)彎次數(shù)方面兩種算法的選擇路徑也一致,因此這方面并不存在突出優(yōu)勢。在貨物收集程度方面,兩種算法選擇的路徑,貨物也都收集到滿足了該需求,也不存在突出優(yōu)勢。而迭代次數(shù)方面,改進(jìn)
Q-learning算法在900次左右趨于收斂,而傳統(tǒng)Q-learning算法則是在1 150次左右趨于收斂,改進(jìn)Q-learning算法比傳統(tǒng)
Q-learning算法迭代次數(shù)有一個明顯降低,由此可見在收集貨物的路徑規(guī)劃問題上,改進(jìn)后的算法更具有優(yōu)勢。
3.3" 動態(tài)故障點增加路徑規(guī)劃
在該場景下,除了保留了部分貨物點,本文還引入了一個新的動態(tài)元素:故障點。當(dāng)?shù)螖?shù)達(dá)到300時,系統(tǒng)會動態(tài)增加兩個故障點,這些故障點會限制智能體的移動。地圖變化如圖5所示。
這樣的設(shè)定旨在模擬真實環(huán)境中的突發(fā)狀況,使智能體在路徑規(guī)劃過程中需要應(yīng)對更復(fù)雜的情況。
智能體在遇到故障點時需要重新規(guī)劃路徑,以繞過這些障礙物繼續(xù)執(zhí)行任務(wù)。這種動態(tài)的環(huán)境變化要求智能體具備靈活的路徑規(guī)劃能力,并及時作出調(diào)整以應(yīng)對變化的情況。因此,在這樣的場景下,本文認(rèn)為改進(jìn)Q-learning算法在適應(yīng)性和響應(yīng)速度方面可能會展現(xiàn)出更明顯的優(yōu)勢。
傳統(tǒng)Q-learning算法動態(tài)故障點增加路徑規(guī)劃和迭代次數(shù)以及改進(jìn)Q-learning算法動態(tài)故障點增加路徑規(guī)劃和迭代次數(shù)如圖6所示。
本文的結(jié)果并不如同開始的設(shè)想,兩種算法在面對該情況的問題時,表現(xiàn)的能力幾乎無差異,在路徑選擇方面,最終選擇的路徑一致。在收集貨物方面,兩種算法的貨物也均收集到。在迭代次數(shù)方面,兩種算法也并無太大差異。初步分析也許是使用場景較為簡單,因此不足以表現(xiàn)改進(jìn)算法的優(yōu)勢,因此改進(jìn)地圖并再次做出實驗驗證結(jié)果。改進(jìn)地圖變化如圖7所示。
在改進(jìn)的實驗環(huán)境中,本次適當(dāng)?shù)卣{(diào)整了貨物點位置以及障礙物生成位置。對于智能體限制較為明顯。
傳統(tǒng)Q-learnin算法動態(tài)故障點增加路徑規(guī)劃和迭代次數(shù)以及改進(jìn)Q-learning算法動態(tài)故障點增加路徑規(guī)劃和迭代次數(shù)如圖8所示。
根據(jù)上述圖例可知經(jīng)過調(diào)整后的地圖,傳統(tǒng)Q-learning算法選擇的路徑長度,轉(zhuǎn)彎次數(shù)均明顯劣于改進(jìn)Q-learning算法選擇的路徑,而迭代次數(shù)方面,改進(jìn)Q-learning算法在約為750次左右開始收斂,而傳統(tǒng)Q-learning算法則是超過1 000次才達(dá)到相似收斂。由此可知改進(jìn)Q-learning算法在該實驗環(huán)境下,依然具有一定的優(yōu)異性。
3.4" 分析和比較
通過上述三種實驗場景的分析比較,可以得出結(jié)論,在不同的應(yīng)用場景下,改進(jìn)的Q-learning算法相比傳統(tǒng)的Q-learning算法具有一定的優(yōu)勢,并且更加符合AGV實際場景的需求。
首先,在最短路徑規(guī)劃場景中,改進(jìn)算法在收斂速度方面表現(xiàn)更佳。通過迭代次數(shù)的比較可以看出,在相同的訓(xùn)練輪次下,改進(jìn)算法達(dá)到收斂所需的迭代次數(shù)明顯少于傳統(tǒng)算法。
其次,在收集貨物路徑規(guī)劃場景中,改進(jìn)算法同樣展現(xiàn)出了明顯的優(yōu)勢。盡管在路徑長度和轉(zhuǎn)彎次數(shù)等方面兩種算法的表現(xiàn)相近,但改進(jìn)算法在收斂速度上依然明顯優(yōu)于傳統(tǒng)算法。改進(jìn)算法在較少的迭代次數(shù)內(nèi)便能夠達(dá)到收斂,這意味著在實際應(yīng)用中,改進(jìn)算法能夠更快地找到最優(yōu)的貨物收集路徑。
最后,在動態(tài)故障點增加路徑規(guī)劃場景中,盡管兩種算法在路徑選擇和貨物收集方面表現(xiàn)相似,但改進(jìn)算法在應(yīng)對動態(tài)環(huán)境的能力方面仍然具有一定優(yōu)勢。即使在增加了故障點后,改進(jìn)算法依然能夠保持較快的收斂速度,這說明改進(jìn)算法具有更強的適應(yīng)性和魯棒性。
兩種算法具體差異如表3所示。
綜上所述,改進(jìn)的Q-learning算法在不同的應(yīng)用場景下都表現(xiàn)出了明顯的優(yōu)勢,其快速的收斂速度和良好的適應(yīng)性使其更加適合應(yīng)用于AGV路徑規(guī)劃問題中。因此,可以將改進(jìn)的Q-learning算法視為一種有效的路徑規(guī)劃解決方案,為AGV等智能系統(tǒng)的實際應(yīng)用提供了有力支持。
4" 結(jié)束語
在本文中,通過對傳統(tǒng)Q-learning算法和改進(jìn)Q-learning算法在三種不同應(yīng)用場景下的實驗比較,深入探討了它們的性能差異及優(yōu)勢。通過實驗結(jié)果的分析,發(fā)現(xiàn)改進(jìn)的Q-learning算法在最短路徑規(guī)劃、收集貨物路徑規(guī)劃以及動態(tài)故障點增加路徑規(guī)劃等場景下均表現(xiàn)出了明顯的優(yōu)勢。尤其是在收斂速度和適應(yīng)性方面,改進(jìn)Q-learning算法展現(xiàn)出了更好的性能,能夠更快地找到最優(yōu)路徑,并且在動態(tài)環(huán)境下具有更強的應(yīng)對能力。
這些實驗結(jié)果不僅對路徑規(guī)劃領(lǐng)域具有重要意義,也為智能系統(tǒng)的實際應(yīng)用提供了有力支持。改進(jìn)的Q-learning算法的快速收斂速度和良好的適應(yīng)性使其更加適合應(yīng)用于AGV等智能系統(tǒng)中,為提高智能體的決策能力和應(yīng)對復(fù)雜環(huán)境能力提供了有效的解決方案。
然而,雖然改進(jìn)的Q-learning算法在實驗中表現(xiàn)出了明顯的優(yōu)勢,但仍有一些方面可以進(jìn)一步完善和探索。例如,可以進(jìn)一步研究如何結(jié)合其他強化學(xué)習(xí)算法或者引入更復(fù)雜的獎勵機制來進(jìn)一步提升算法的性能和適用性。期待未來的研究能夠在這方面取得更多的進(jìn)展,為智能系統(tǒng)的發(fā)展和應(yīng)用提供更多的可能性。
參考文獻(xiàn):
[1] 胡春陽,姜平,周根榮. 改進(jìn)蟻群算法在AGV路徑規(guī)劃中的應(yīng)用[J]. 計算機工程與應(yīng)用,2020,56(8):270-278.
[2] 宋佳. 基于Dijkstra算法的AGV綠色節(jié)能路徑規(guī)劃研究[D]. 南昌:南昌大學(xué),2023.
[3] 李艷珍,詹昊,鐘鳴長. 基于A~*算法優(yōu)化AGV/機器人路徑規(guī)劃的研究進(jìn)展[J]. 常州信息職業(yè)技術(shù)學(xué)院學(xué)報,2024,23(1):29-36.
[4] 魏閣安,張建強. 基于改進(jìn)動態(tài)窗口法的無人艇編隊集結(jié)研究[J]. 艦船科學(xué)技術(shù),2023,45(23):91-95,99.
[5] 黃巖松,姚錫凡,景軒,等. 基于深度Q網(wǎng)絡(luò)的多起點多終點AGV路徑規(guī)劃[J]. 計算機集成制造系統(tǒng),2023,29(8):2550-2562.
[6] 馬卓. AGV路徑規(guī)劃的強化學(xué)習(xí)算法研究[D]. 青島:青島大學(xué),2023.
[7] 韓召,韓宏飛,于會敏,等. 改進(jìn)強化學(xué)習(xí)算法在AGV路徑規(guī)劃中的應(yīng)用研究[J]. 遼寧科技學(xué)院學(xué)報,2022,24(6):22-25,44.
[8] 唐恒亮,唐滋芳,董晨剛,等. 基于啟發(fā)式強化學(xué)習(xí)的AGV路徑規(guī)劃[J]. 北京工業(yè)大學(xué)學(xué)報,2021,47(8):895-903.
[9] 耿宏飛,神健杰. A~*算法在AGV路徑規(guī)劃上的改進(jìn)與驗證[J]. 計算機應(yīng)用與軟件,2022,39(1):282-286.
[10] 郝兆明,安平娟,李紅巖,等. 增強目標(biāo)啟發(fā)信息蟻群算法的移動機器人路徑規(guī)劃[J]. 科學(xué)技術(shù)與工程,2023,23(22):9585-9591.