摘 要:移動(dòng)機(jī)器人的路徑規(guī)劃問題受到了廣大學(xué)者的關(guān)注。當(dāng)機(jī)器人在未知環(huán)境中進(jìn)行路徑規(guī)劃時(shí),為了提高規(guī)劃的效率,通常需要獲取相關(guān)的先驗(yàn)知識(shí)。在強(qiáng)化學(xué)習(xí)路徑規(guī)劃中,先驗(yàn)知識(shí)可以通過多種方式融入到算法中,其中Q-Learning算法是一種常用的方法。傳統(tǒng)的Q-Learning算法路徑規(guī)劃存在拐點(diǎn)多、路徑長、訓(xùn)練輪次多等問題。因此,提出一種改進(jìn)算法,針對(duì)原Q-Learning算法在機(jī)器人路徑規(guī)劃中存在的學(xué)習(xí)速度慢、探索效率低、規(guī)劃路徑長等突出問題進(jìn)行了優(yōu)化。首先,基于柵格地圖,在傳統(tǒng)算法的基礎(chǔ)上采用徑向基函數(shù)(RBF)網(wǎng)絡(luò)對(duì)Q-Learning算法的動(dòng)作值函數(shù)進(jìn)行逼近;其次,為了平衡探索與利用的比例,采用了動(dòng)態(tài)調(diào)整貪婪因子的方法;最后,增加了機(jī)器人可選擇的動(dòng)作,擴(kuò)充了動(dòng)作集,改進(jìn)為八方向探索。仿真結(jié)果表明,與Q-Learning算法相比,改進(jìn)后的Q-Learning算法可將最優(yōu)路徑長度縮短23.33%,拐點(diǎn)個(gè)數(shù)減少63.16%,算法訓(xùn)練輪次減少31.22%。
關(guān)鍵詞:Q-Learning;ROS機(jī)器人;強(qiáng)化學(xué)習(xí);路徑規(guī)劃;徑向基函數(shù);探索策略
中圖分類號(hào):TP242.6 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2095-1302(2025)03-00-05
0 引 言
路徑規(guī)劃是移動(dòng)機(jī)器人實(shí)現(xiàn)自主導(dǎo)航不可或缺的技術(shù)。一般來說,將路徑規(guī)劃過程描述為在已知或未知的環(huán)境中搜索一條從初始點(diǎn)到目標(biāo)點(diǎn)距離最短、轉(zhuǎn)折少、不碰撞障礙物的路線。路徑規(guī)劃常用的算法有傳統(tǒng)規(guī)劃算法、利用幾何學(xué)的圖形方法、借鑒生物機(jī)制的仿生學(xué)算法和其他算法[1-4]。強(qiáng)化學(xué)習(xí)算法在機(jī)器人的路徑規(guī)劃與避障中得到廣泛應(yīng)用,其在解決復(fù)雜環(huán)境中的規(guī)劃問題時(shí)具有一定的優(yōu)勢,其中Q-Learning算法是常用的一種算法[5]。
傳統(tǒng)的Q-Learning算法在程序初始化時(shí),將Q值全部設(shè)置為0,這導(dǎo)致移動(dòng)機(jī)器人在初始階段的環(huán)境探索范圍不明確且起始階段迭代次數(shù)太多,從而影響到起步階段移動(dòng)機(jī)器人的探索學(xué)習(xí)速度。文獻(xiàn)[6]使用了鯨魚優(yōu)化算法來初始化Q值表,加快了Q-Learning算法的收斂速度,其次提高了鯨魚優(yōu)化算法的局部開發(fā)能力,結(jié)合配對(duì)策略提出了配對(duì)鯨魚優(yōu)化算法,以加快探索的速度。文獻(xiàn)[7]提出了一種基于Q-Learning算法的經(jīng)驗(yàn)-記憶Q-Learning(EMQL)算法,其學(xué)習(xí)效率通過靜態(tài)獎(jiǎng)勵(lì)和動(dòng)態(tài)獎(jiǎng)勵(lì)組成的雙重獎(jiǎng)勵(lì)機(jī)制得到了提高。其中,靜態(tài)獎(jiǎng)勵(lì)可以防止機(jī)器人過度探索狀態(tài)節(jié)點(diǎn),動(dòng)態(tài)獎(jiǎng)勵(lì)幫助機(jī)器人避免在未知環(huán)境中進(jìn)行盲目探索。文獻(xiàn)[8]引入了信息素機(jī)制,使得Q-Learning算法在迭代過程中持續(xù)地優(yōu)化智能體的探索范圍,但不能保證尋得最優(yōu)解。文獻(xiàn)[9]提出了基于階段的Q-Learning算法,通過設(shè)置探索步長和獎(jiǎng)勵(lì)值提高算法的收斂速度。
上述改進(jìn)算法從Q值表初始化、獎(jiǎng)勵(lì)機(jī)制、探索范圍、探索步長等方面出發(fā)提高了算法的性能,但是未針對(duì)Q-Learning算法的缺點(diǎn)逐一進(jìn)行優(yōu)化改進(jìn),導(dǎo)致算法效率不高,不容易求得最優(yōu)解,改進(jìn)效果不明顯?;诖耍疚奶岢隽艘环N改進(jìn)的Q-Learning算法。實(shí)驗(yàn)結(jié)果表明,該算法相比于Q-Learning算法更優(yōu)異,訓(xùn)練輪次減少且規(guī)劃的路徑長度縮短。
1 Q-Learning 算法
1.1 強(qiáng)化學(xué)習(xí)相關(guān)理論
Q-Learning是強(qiáng)化學(xué)習(xí)的一種算法,用于在沒有先驗(yàn)環(huán)境信息的情況下,通過不斷試錯(cuò)、反復(fù)探索和學(xué)習(xí)來求解最優(yōu)策略[10]。強(qiáng)化學(xué)習(xí)旨在通過智能體與環(huán)境之間的相互作用學(xué)習(xí),不斷調(diào)整策略以獲取最佳的決策,最終達(dá)成特定目標(biāo)。智能體通過執(zhí)行動(dòng)作影響環(huán)境,之后環(huán)境返回獎(jiǎng)賞和狀態(tài),此交互過程被稱作馬爾可夫決策過程(Markov Decision Process, MDP)[11]。如圖1所示,強(qiáng)化學(xué)習(xí)的基本要素包括可以行動(dòng)的智能體(agent)、環(huán)境(environment)、動(dòng)作(action)、狀態(tài)(state)和獎(jiǎng)賞(reward)。在強(qiáng)化學(xué)習(xí)中,智能體以一種試錯(cuò)的方式進(jìn)行學(xué)習(xí)。它選擇一個(gè)動(dòng)作,將其應(yīng)用于當(dāng)前的狀態(tài),然后觀察環(huán)境的反饋,即下一個(gè)狀態(tài)和相應(yīng)的獎(jiǎng)賞。通過不斷地與環(huán)境交互,智能體逐漸學(xué)會(huì)改進(jìn)自己的決策與行為,從而獲得最大的累計(jì)獎(jiǎng)賞。
強(qiáng)化學(xué)習(xí)的任務(wù)通常使用馬爾可夫決策過程(MDP)來描述,其求解過程需滿足馬爾可夫性。該性質(zhì)也稱無后效性,即系統(tǒng)的當(dāng)前狀態(tài)已經(jīng)包含對(duì)未來所有信息的預(yù)測,過去的狀態(tài)對(duì)后續(xù)的狀態(tài)不產(chǎn)生影響。只要系統(tǒng)當(dāng)前狀態(tài)已知,就可以決定系統(tǒng)未來的狀態(tài),那么該狀態(tài)具有馬爾可夫性,可用式(1)描述:
P(St+1|St)=P(St+1|S1, S2, S3, ..., St) (1)
式中:S是有限狀態(tài)集,記為S={S1, S2, …, Sn};P是狀態(tài)轉(zhuǎn)移矩陣,定義為狀態(tài)對(duì)之間發(fā)生轉(zhuǎn)移的概率,用式(2)描述:
(2)
引入動(dòng)作集A、獎(jiǎng)懲函數(shù)R,即可組成四元組lt;S, A, P, Rgt;。其中,狀態(tài)集S包含了系統(tǒng)在有限時(shí)間內(nèi)的狀態(tài);動(dòng)作集A包含了智能體的可選動(dòng)作;P是狀態(tài)轉(zhuǎn)移矩陣;獎(jiǎng)懲函數(shù)R用于計(jì)算智能體在某個(gè)狀態(tài)下做出行動(dòng)后得到的獎(jiǎng)勵(lì)值。
1.2 Q-Learning算法流程
強(qiáng)化學(xué)習(xí)的算法主要有時(shí)間差分(TD)算法、Q-Learning、SARSA學(xué)習(xí)算法、A3C算法、SAC算法和DQN算法[12-17]。其中,Q-Learning算法是在時(shí)間差分(TD)算法的基礎(chǔ)上提出的通過狀態(tài)-動(dòng)作對(duì)值函數(shù)Q(S, A)來進(jìn)行值函數(shù)迭代的算法, 這是一種與模型無關(guān)的迭代學(xué)習(xí)過程。Q值表示智能體在執(zhí)行一個(gè)動(dòng)作后,由現(xiàn)在的狀態(tài)轉(zhuǎn)到下一個(gè)狀態(tài)的獎(jiǎng)賞值。Q-Learning算法的流程如圖2所示,通常初始化Q值表,令其值為0,接著機(jī)器人根據(jù)Q值表選擇一個(gè)動(dòng)作并執(zhí)行。環(huán)境會(huì)反饋給機(jī)器人一個(gè)狀態(tài)和執(zhí)行動(dòng)作的回報(bào),然后依據(jù)迭代公式更新Q值表,最后機(jī)器人返回選擇動(dòng)作,如此循環(huán)。
Q-Learning算法中Q值表的迭代公式為:
Q′(s, a)=Q(s, a)+α[r+γmaxa′ Q(s′, a′) - Q(s, a)] (3)
式中:Q′(s, a)為當(dāng)前狀態(tài)和動(dòng)作的新Q值,s為系統(tǒng)環(huán)境的狀態(tài)集合,a為智能體的動(dòng)作集合;Q(s, a)為當(dāng)前Q值;α為學(xué)習(xí)速率,取值范圍是小于1的正數(shù);γ為折現(xiàn)率,取值范圍為[0, 1];r為即時(shí)獎(jiǎng)勵(lì),該值是智能體在當(dāng)前狀態(tài)下做出行動(dòng)的獎(jiǎng)勵(lì);s′為智能體執(zhí)行當(dāng)前動(dòng)作a后的下一狀態(tài),a′為相應(yīng)的下一動(dòng)作;maxa′ Q(s′, a′)為在新狀態(tài)s′下累計(jì)得到的最大獎(jiǎng)勵(lì)值。
2 改進(jìn)的Q-Learning算法
為了解決Q-Learning算法在執(zhí)行路徑規(guī)劃任務(wù)時(shí)存在的收斂速度緩慢、探索與利用效率低、規(guī)劃路徑不佳等問題,本文將從Q值表初值、機(jī)器人探索機(jī)制、探索步長等方面對(duì)Q-Learning算法進(jìn)行改進(jìn)。
2.1 RBF神經(jīng)網(wǎng)絡(luò)
在路徑規(guī)劃中,機(jī)器人的狀態(tài)大部分是連續(xù)的,狀態(tài)空間的維度過高,采用傳統(tǒng)的表格表示較困難,并且Q-Learning算法會(huì)產(chǎn)生“維數(shù)災(zāi)難”問題。RBF神經(jīng)網(wǎng)絡(luò)具有許多優(yōu)點(diǎn),包括結(jié)構(gòu)簡單、易訓(xùn)練、收斂速度快等,其核心能力在于能夠逼近任意非線性函數(shù)。因此,本節(jié)利用RBF神經(jīng)網(wǎng)絡(luò)的局部逼近能力來逼近Q-Learning算法中的Q值函數(shù),可以有效地處理高維狀態(tài)空間,并獲得準(zhǔn)確的Q值函數(shù)估計(jì),從而改善算法性能。
RBF神經(jīng)網(wǎng)絡(luò)是前饋神經(jīng)網(wǎng)絡(luò),神經(jīng)元之間的信息流只能沿著前向的方向傳遞,用于對(duì)輸入數(shù)據(jù)進(jìn)行逼近。輸入層接收數(shù)據(jù),隱藏層通過高斯函數(shù)映射數(shù)據(jù),輸出層生成最終結(jié)果。網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示,該網(wǎng)絡(luò)是n輸入m輸出的,并且有j個(gè)隱節(jié)點(diǎn)。圖中,X=[x1, x2, ..., xn]T是n維輸入向量;Ci=[ci, 1, ci, 2, ..., ci, n]是第i個(gè)隱節(jié)點(diǎn)的位置,i=1, 2, ..., j,Ci是n維的;Wj, m=[w1, w2, ..., wj]T為隱藏層輸出權(quán)值矩陣,wi=[wi, 1, wi, 2, ..., wi, m];Y=[y1, y2, ..., ym]T為m維輸出向量。
RBF神經(jīng)網(wǎng)絡(luò)與Q-Learning算法相結(jié)合的RBF-Q網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。
圖4中,第一層為輸入層,RBF-Q網(wǎng)絡(luò)的輸入變量由Q-Learning算法中的有限狀態(tài)變量和動(dòng)作變量組成,其中有限狀態(tài)變量是n維的,記S=[s1, s2, ..., sn]T,動(dòng)作變量記為a。因此,RBF-Q網(wǎng)絡(luò)輸入變量維數(shù)是n+1,記輸入變量為x=[x1, x2, ..., xn, xk]T,k=n+1。
第二層有j個(gè)節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)為k維高斯函數(shù),第q個(gè)節(jié)點(diǎn)的表達(dá)式為,i=1, 2, ..., k;q=1, 2, ...,""j。φq為隱藏層第q個(gè)節(jié)點(diǎn)的輸出,xi為輸入向量的第i個(gè)分量,μiq和σiq分別為第q個(gè)徑向基函數(shù)(RBF)的中心及寬度。
第三層的輸出節(jié)點(diǎn)是唯一的,其值為第二層各個(gè)節(jié)點(diǎn)的輸出值乘以其權(quán)重的和,即 ,ωi是第i個(gè)隱藏層節(jié)點(diǎn)和輸出節(jié)點(diǎn)之間的權(quán)值。
2.2 動(dòng)態(tài)調(diào)整貪婪因子
Q-Learning算法通過ε-貪婪策略來選擇當(dāng)前狀態(tài)下的最優(yōu)動(dòng)作,即選擇具有最大Q值的動(dòng)作。然而,為了探索未知的狀態(tài)和動(dòng)作,Q-Learning也會(huì)以一定的概率選擇非最優(yōu)動(dòng)作,這被稱為探索策略。
ε-貪婪策略可以用數(shù)學(xué)表達(dá)式表達(dá)如下:
(4)
式中:A為動(dòng)作集;p為概率;為使得智能體獲得最大獎(jiǎng)賞的動(dòng)作。ε參數(shù)的選擇會(huì)影響收斂速度,當(dāng)ε的值較大時(shí),探索的機(jī)會(huì)更多,模型的收斂速度更快;當(dāng)ε的值較小時(shí),利用的機(jī)會(huì)更多,但收斂速度比較慢。
為了提高算法的性能和效率,需要根據(jù)環(huán)境的反饋來調(diào)整智能體的探索和利用策略,即動(dòng)態(tài)調(diào)整貪婪因子ε,數(shù)學(xué)表達(dá)式如下:
ε=max{εmax-e·εdecay, εmin} (5)
式中:εmax和εmin分別是貪婪因子的最大值和最小值;εdecay是每個(gè)訓(xùn)練輪次中貪婪因子的衰減量;e是當(dāng)前的訓(xùn)練輪數(shù)。通過動(dòng)態(tài)調(diào)整貪婪因子ε的值,可以在訓(xùn)練過程中逐漸減少探索的比例,增加利用的比例。改進(jìn)后的策略在初始階段會(huì)進(jìn)行更多探索,以便更好地了解環(huán)境和獲取更多信息;而在后續(xù)階段會(huì)更多地利用已知信息作為先驗(yàn)知識(shí),獲得更高的回報(bào)。
2.3 多步長探索機(jī)制
實(shí)際應(yīng)用場景中的機(jī)器人可以沿著任意方向進(jìn)行移動(dòng)搜索,但在仿真場景中應(yīng)用Q-Learning算法時(shí)受柵格地圖特征的影響,可供機(jī)器人搜索的方向是有限的。傳統(tǒng)算法通常采用四方向搜索,如圖5所示,機(jī)器人可采取的動(dòng)作有4個(gè),分別是上、下、左、右,記為a1~a4。
為提高算法的探索效率,增加了對(duì)角線方向的探索,以該機(jī)器人為中心,定義其可執(zhí)行的8個(gè)方向的動(dòng)作,即上、下、左、右、左上、左下、右上、右下,如圖6所示。
移動(dòng)機(jī)器人可采取的動(dòng)作記為ai(i=1~8)。機(jī)器人選擇并執(zhí)行動(dòng)作后,狀態(tài)會(huì)發(fā)生變換,對(duì)應(yīng)關(guān)系見表1。其中,st表示移動(dòng)機(jī)器人當(dāng)前的狀態(tài)。
3 實(shí)驗(yàn)分析
本文將分別在隨機(jī)分布型障礙物、直線型障礙物、U型障礙物和復(fù)雜障礙物環(huán)境下,對(duì)改進(jìn)Q-Learning算法的規(guī)劃路徑進(jìn)行仿真,以測試算法的可行性。在4張不同的柵格地圖中設(shè)置移動(dòng)機(jī)器人的起點(diǎn)、終點(diǎn)和障礙物。設(shè)置最大訓(xùn)練輪次為500次,對(duì)比在同一環(huán)境下采用Q-Learning算法和改進(jìn)的Q-Learning算法訓(xùn)練得到的結(jié)果。
3.1 隨機(jī)分布型障礙物環(huán)境下的路徑規(guī)劃仿真
環(huán)境設(shè)置為20×20的柵格地圖,障礙物為隨機(jī)分布的方塊,邊長為1,數(shù)量為15個(gè)。設(shè)定起點(diǎn)坐標(biāo)為(2, 2),終點(diǎn)坐標(biāo)為(18, 18),分別用原始算法和改進(jìn)后的算法進(jìn)行路徑規(guī)劃。圖7(a)所示為Q-Learning算法規(guī)劃的路徑,圖7(b)所示為改進(jìn)的Q-Learning算法規(guī)劃的路徑。
Q-Learning算法規(guī)劃的路徑長度為30,拐點(diǎn)為19個(gè),訓(xùn)練輪次為392次;而改進(jìn)的Q-Learning算法規(guī)劃的路徑長度為23.8,拐點(diǎn)為7個(gè),訓(xùn)練輪次為279次??梢钥闯?,在隨機(jī)分布型障礙物環(huán)境下,Q-Learning算法規(guī)劃路徑時(shí),為了躲避離散的障礙物進(jìn)行了多次轉(zhuǎn)折,浪費(fèi)了步數(shù)。改進(jìn)的Q-Learning算法則因?yàn)槠浒朔较蛩阉鞯膬?yōu)勢,能更精細(xì)地進(jìn)行轉(zhuǎn)折,節(jié)約了步數(shù)。改進(jìn)后的Q-Learning算法的路徑長度縮短了20.67%,拐點(diǎn)減少了63.16%,訓(xùn)練輪次減少了28.83%。
3.2 直線型障礙物環(huán)境下的路徑規(guī)劃仿真
仿真環(huán)境為20×20的柵格地圖,障礙為長條形,數(shù)量為4個(gè)。設(shè)定起點(diǎn)坐標(biāo)為(2, 2),終點(diǎn)坐標(biāo)為(18, 18),分別用原始算法和改進(jìn)算法進(jìn)行路徑規(guī)劃。圖8(a)所示為Q-Learning算法規(guī)劃的路徑,圖8(b)所示為改進(jìn)的Q-Learning算法規(guī)劃的路徑。
Q-Learning算法規(guī)劃的路徑長度為32,拐點(diǎn)為15個(gè),訓(xùn)練輪次為366次;而改進(jìn)的Q-Learning算法規(guī)劃的路徑長度為23.2,拐點(diǎn)為4個(gè),訓(xùn)練輪次為228次??梢钥闯?,長條形的障礙物對(duì)Q-Learning算法的影響很大,在規(guī)劃路線時(shí),機(jī)器人需要不斷改變方向來避免撞到障礙物,導(dǎo)致拐點(diǎn)多、路徑長。而改進(jìn)后的Q-Learning算法注重探索與利用的平衡,前期得到的先驗(yàn)知識(shí)可以幫助機(jī)器人更高效率地規(guī)劃路線,結(jié)合八方向探索,能夠在較少的訓(xùn)練輪次中規(guī)劃最佳的路線。改進(jìn)算法規(guī)劃的路徑長度縮短了27.50%,拐點(diǎn)減少了73.33%,訓(xùn)練輪次減少了37.70%。
3.3 U型障礙物環(huán)境下的路徑規(guī)劃仿真
仿真環(huán)境為20×20的柵格地圖,障礙為倒U型,起點(diǎn)位置位于障礙物內(nèi)部的中心點(diǎn)。設(shè)定起點(diǎn)坐標(biāo)為(4, 4),終點(diǎn)坐標(biāo)為(18, 18),分別用原始算法、改進(jìn)后的Q-Learning算法進(jìn)行路徑規(guī)劃。圖9(a)所示為Q-Learning算法規(guī)劃的路徑,圖9(b)所示為改進(jìn)的Q-Learning算法規(guī)劃的路徑。
Q-Learning算法在U型障礙物環(huán)境下進(jìn)行路徑規(guī)劃時(shí),由于起點(diǎn)位于障礙物內(nèi)部的中心點(diǎn),此時(shí)需要先規(guī)劃一條路徑從障礙區(qū)域出來,會(huì)耗費(fèi)較多的訓(xùn)練輪次。而改進(jìn)后的Q-Learning算法使用了RBF網(wǎng)絡(luò)逼近Q值,結(jié)合八方向探索,可以很快貼近障礙物邊緣,找到一條離開障礙區(qū)域的捷徑。數(shù)據(jù)表明,Q-Learning算法規(guī)劃路徑的長度、拐點(diǎn)和訓(xùn)練輪次分別為32、11個(gè)、390次。改進(jìn)的Q-Learning算法規(guī)劃路徑的長度、拐點(diǎn)、輪次分別為24.4、4個(gè)、291次。改進(jìn)后的算法的路徑長度縮短了23.75%,拐點(diǎn)減少了63.64%,訓(xùn)練輪次減少了25.38%。
3.4 復(fù)雜障礙物環(huán)境下的路徑規(guī)劃仿真
仿真環(huán)境為20×20的柵格地圖,障礙物類型有矩形、工字型、拐角型、長條形、U字型等。設(shè)定起點(diǎn)坐標(biāo)為(2, 2),終點(diǎn)坐標(biāo)為(18, 18),分別用原始算法和改進(jìn)算法進(jìn)行路徑規(guī)劃。圖10(a)所示為Q-Learning算法規(guī)劃的路徑,圖10(b)為改進(jìn)的Q-Learning算法規(guī)劃的路徑。
數(shù)據(jù)表明,Q-Learning算法規(guī)劃路徑的長度、拐點(diǎn)和訓(xùn)練輪次分別為32、14個(gè)、271次。改進(jìn)的Q-Learning算法規(guī)劃路徑的長度、拐點(diǎn)、輪次分別為25.2、6個(gè)、178次。改進(jìn)后的算法的路徑長度縮短了21.25%、拐點(diǎn)減少了57.14%、訓(xùn)練輪次減少了34.32%。
4 結(jié) 語
本文基于柵格地圖環(huán)境對(duì)Q-Learning算法進(jìn)行改進(jìn)。首先,為解決算法收斂速度緩慢的問題,利用了RBF神經(jīng)網(wǎng)絡(luò)的局部逼近能力來逼近算法中的Q值函數(shù)。其次,為了平衡算法中探索與利用的比例,采用動(dòng)態(tài)調(diào)整貪婪因子的方法。智能體在初始階段會(huì)注重探索,獲得先驗(yàn)知識(shí),在后續(xù)階段則利用先驗(yàn)知識(shí)獲取更高的獎(jiǎng)勵(lì)。最后,為提高算法探索效率,增加了智能體探索的方向,從原本的四方向增加到八方向,提高了探索的靈活性。對(duì)比改進(jìn)后的Q-Learning算法和Q-Learning算法在同一障礙物環(huán)境和同樣訓(xùn)練次數(shù)下的仿真實(shí)驗(yàn)結(jié)果,結(jié)果表明:改進(jìn)的Q-Learning算法訓(xùn)練得到的路徑長度更短,其收斂速度也有所提高,驗(yàn)證了改進(jìn)的Q-Learning算法的可行性。綜合來看,改進(jìn)后的Q-Learning算法相比原始的Q-Learning算法規(guī)劃路徑長度縮短了23.33%, 拐點(diǎn)個(gè)數(shù)減少了64.41%, 訓(xùn)練輪次減少了31.22%。
參考文獻(xiàn)
[1]遠(yuǎn)子涵,張皓,左晉,等.基于12方向24鄰域的A*算法路徑規(guī)劃研究[J].北京印刷學(xué)院學(xué)報(bào),2023,31(9):38-43.
[2]黃蓮花,李光明.基于Voronoi圖和快速行進(jìn)的移動(dòng)機(jī)器人導(dǎo)航路徑規(guī)劃[J].機(jī)械設(shè)計(jì)與制造,2023(11):87-92.
[3]于振中,李強(qiáng),樊啟高.智能仿生算法在移動(dòng)機(jī)器人路徑規(guī)劃優(yōu)化中的應(yīng)用綜述[J].計(jì)算機(jī)應(yīng)用研究,2019,36(11):3210-3219.
[4]崔煒,朱發(fā)證.機(jī)器人導(dǎo)航的路徑規(guī)劃算法研究綜述[J].計(jì)算機(jī)工程與應(yīng)用,2023,59(19):10-20.
[5] SOONG E L, PAULINE O, YEE C L . A modified Q-Learning path planning approach using distortion concept and optimization in dynamic environment for autonomous mobile robot [J]. Computers amp; industrial engineering, 2023, 181.
[6] MENG Z, HUI L, SIYI Y, et al. The experience-memory Q-Learning algorithm for robot path planning in unknown environment[J]. IEEE access, 2020, 8.
[7] XU S H, GU Y, LI X Y, et al. Indoor emergency path planning based on the Q-Learning optimization algorithm [J]. ISPRS international journal of geo-information, 2022, 11(1).
[8]田曉航,霍鑫,周典樂,等.基于蟻群信息素輔助的Q學(xué)習(xí)路徑規(guī)劃算法[J].控制與決策,2023,38(12):3345-3353.
[9]楊秀霞,高恒杰,劉偉,等.基于階段Q學(xué)習(xí)算法的機(jī)器人路徑規(guī)劃[J].兵器裝備工程學(xué)報(bào),2022,43(5):197-203.
[10] YUTO T, MASAHIRO U. A usage aware dynamic spectrum access scheme for interweave cognitive radio network by exploiting deep reinforcement learning [J]. Sensors, 2022, 22(18).
[11] SHOTA O, EIJI U, YOTARO Y, et al. Constrained deep Q-Learning gradually approaching ordinary Q-Learning [J]. Frontiers in neurorobotics, 2019, 13.
[12] ANYA S, TIBOR K. Neuronal implementation of the temporal difference learning algorithm in the midbrain dopaminergic system [J]. Proceedings of the national academy of sciences of the United States of America, 2023, 120(45).
[13] MAHDI M, MASOUD M. A deep Q-Learning based algorithmic trading system for commodity futures markets [J]. Expert systems with applications, 2024, 237(PC).
[14]孟建軍,蔣小一,陳曉強(qiáng),等.基于Sarsa算法的城軌列車節(jié)能控制策略研究[J].鐵道標(biāo)準(zhǔn)設(shè)計(jì),2024,68(8):8-14.
[15]張文龍,張潔.基于A3C的有序充電算法[J].計(jì)算機(jī)技術(shù)與發(fā)展, 2023,33(1):173-177.
[16]鄢霞,何勇,張慶銘,等.基于SAC的永磁同步電機(jī)智能控制算法[J].組合機(jī)床與自動(dòng)化加工技術(shù),2023(9):86-91.
[17] SUN Y X, YUAN B, ZHANG T, et al. Research and implementation of intelligent decision based on a Priori knowledge and DQN algorithms in wargame environment [J]. Electronics, 2020, 9(10): 1668.