王倩
四川大學(xué) 電子信息學(xué)院 四川 成都 610065
隨著人工智能技術(shù)的迅速發(fā)展,機(jī)器人從孤立的環(huán)境擴(kuò)展到與人類共享的社會(huì)空間。傳統(tǒng)的機(jī)器人導(dǎo)航方法通常將移動(dòng)代理視為靜態(tài)障礙物或通過(guò)一步一步前瞻[1]對(duì)其做出反應(yīng),從而導(dǎo)致短視、不安全和不自然的行為。
避障問(wèn)題實(shí)際上可理解為一個(gè)決策問(wèn)題--根據(jù)機(jī)器人的輸入信息,確定下一時(shí)刻應(yīng)該執(zhí)行何種動(dòng)作。而強(qiáng)化學(xué)習(xí)則是根據(jù)獎(jiǎng)勵(lì)函數(shù)來(lái)進(jìn)行工作,即根據(jù)機(jī)器人輸入動(dòng)作得到反饋從而決定下一時(shí)刻應(yīng)該采取何種動(dòng)作,是一種狀態(tài)信息到生成動(dòng)作的一種映射的算法,因此在避障問(wèn)題中自然引入了強(qiáng)化學(xué)習(xí)。先前的研究人員提出了許多解決避障導(dǎo)航問(wèn)題的方法。在2011年提出ORCA算法[2],該算法考慮了一種受加速度約束的避撞方法,首先討論了單個(gè)智能體在移動(dòng)障礙物之間的避障導(dǎo)航情況,接著討論了多個(gè)移動(dòng)機(jī)器人在同一個(gè)空間內(nèi)導(dǎo)航時(shí)互相避撞的情況。
移動(dòng)機(jī)器人導(dǎo)航在擁擠的行人環(huán)境中有許多重要的應(yīng)用。在這些人群密集的場(chǎng)景中,安全高效地引導(dǎo)機(jī)器人是一個(gè)至關(guān)重要但仍然具有挑戰(zhàn)性的問(wèn)題。早期的工作將預(yù)測(cè)和規(guī)劃分為兩步,試圖在預(yù)測(cè)其他人的未來(lái)軌跡后確定一條安全的路徑。
因此,本文在強(qiáng)化學(xué)習(xí)框架中用一種自我注意力機(jī)制來(lái)聚集機(jī)器人和人的交互特征,這種自我注意力機(jī)制可以推斷機(jī)器人的鄰近人類相對(duì)于其未來(lái)運(yùn)動(dòng)的相對(duì)重要性。實(shí)驗(yàn)表明,本文的方法可以預(yù)測(cè)人群動(dòng)態(tài),并在時(shí)間有效的路徑中導(dǎo)航。
注意力機(jī)制[3]已經(jīng)成為各種任務(wù)中的序列建模和轉(zhuǎn)導(dǎo)模型的一個(gè)組成部分,允許對(duì)智能體之間的依賴關(guān)系進(jìn)行建模,而不考慮它們?cè)谳斎牖蜉敵鲂蛄兄械木嚯x。然而,在除了少數(shù)情況之外的所有情況下,這種注意機(jī)制都與循環(huán)網(wǎng)絡(luò)一起使用。有人提出將所有人類的狀態(tài)按遠(yuǎn)近機(jī)器人順序輸入LSTM[4]。然而,最接近的鄰居具有最強(qiáng)影響力的潛在假設(shè)并不總是正確的。這說(shuō)明了這個(gè)臨近智能體可能如何影響機(jī)器人到達(dá)目的地。利用自我注意機(jī)制,通過(guò)觀察序列中的其他項(xiàng)目來(lái)獲得序列中某個(gè)項(xiàng)目的注意力,我們提出了一個(gè)社交注意力模塊,在數(shù)據(jù)中學(xué)習(xí)每個(gè)鄰居的相對(duì)重要程度和人群對(duì)機(jī)器人的影響。
本文設(shè)計(jì)一個(gè)社會(huì)注意力集中模塊,在一個(gè)深度強(qiáng)化學(xué)習(xí)框架中對(duì)群體合作行為進(jìn)行編碼,引入并注意力得分α機(jī)制。
在本文中,我們考慮一個(gè)機(jī)器人穿過(guò)人群到達(dá)目標(biāo)的導(dǎo)航任務(wù)。
強(qiáng)化學(xué)習(xí)算法利用該回報(bào)來(lái)重新修訂策略,再重新與環(huán)境產(chǎn)生交互,不斷反復(fù)鞏固最終得到能夠完成任務(wù)的最佳策略。因此,獎(jiǎng)勵(lì)函數(shù)在強(qiáng)化學(xué)習(xí)中至關(guān)重要,下面對(duì)獎(jiǎng)勵(lì)函數(shù)進(jìn)行設(shè)計(jì)。
在仿真場(chǎng)景中,機(jī)器人需要繞過(guò)人群到達(dá)目標(biāo)。當(dāng)機(jī)器人與目標(biāo)之間距離為時(shí),說(shuō)明機(jī)器人已經(jīng)成功到達(dá)了目標(biāo),應(yīng)該給機(jī)器人一個(gè)最大的獎(jiǎng)勵(lì),同時(shí)結(jié)束該回合的任務(wù)。當(dāng)機(jī)器人和人之間的距離小于等于時(shí),說(shuō)明機(jī)器人和人發(fā)生碰撞,這是便應(yīng)該給予一個(gè)負(fù)的獎(jiǎng)勵(lì),并且結(jié)束該回合任務(wù),重新開(kāi)始探索。
實(shí)際場(chǎng)景中機(jī)器人的導(dǎo)航任務(wù)需要避開(kāi)人群到達(dá)設(shè)定目標(biāo),因此本文考慮一個(gè)導(dǎo)航任務(wù),其中一個(gè)機(jī)器人通過(guò)一群人向一個(gè)目標(biāo)移動(dòng),機(jī)器人與附近人的狀態(tài)局部可知,每個(gè)人與附近人之間的信息也是局部可知的,機(jī)器人已知目標(biāo)位置信息,機(jī)器人在一定時(shí)間內(nèi)避開(kāi)人群到達(dá)本文所規(guī)定的目標(biāo),如果仿真過(guò)程中發(fā)生機(jī)器人與人相碰撞或者在規(guī)定時(shí)間內(nèi)沒(méi)有到達(dá)目標(biāo)則視為這次導(dǎo)航任務(wù)失?。?/p>
讓本文算法與LSRM_RL避障算法在該場(chǎng)景中進(jìn)行實(shí)現(xiàn),實(shí)驗(yàn)結(jié)果如下:
圖1 機(jī)器人獲得的獎(jiǎng)勵(lì)
如圖1所示,本文的注意力算法在仿真過(guò)程中,整體效果要遠(yuǎn)遠(yuǎn)優(yōu)于LSTM_RL避障算法,注意力算法收斂速度更快。
本文提出了一種基于注意力機(jī)制的避障算法,在此基礎(chǔ)上對(duì)智能體的獎(jiǎng)勵(lì)函數(shù)、仿真場(chǎng)景進(jìn)行了實(shí)驗(yàn)設(shè)計(jì),對(duì)比了LSTM_RL避障算法,相對(duì)LSTM_RL避障算法,本文提出的基于注意力機(jī)制的避障算法收斂速度更快、獎(jiǎng)勵(lì)更高、機(jī)器人到達(dá)目標(biāo)的時(shí)間更短,實(shí)驗(yàn)效果更好。