基于增強學習算法的工業(yè)機器人運動規(guī)劃研究
在工業(yè)4.0和網(wǎng)絡(luò)物理生產(chǎn)系統(tǒng)迅速發(fā)展的背景下,當今生產(chǎn)系統(tǒng)面臨著一個主要挑戰(zhàn),即具有高的靈活性和適應(yīng)性,同時也具有強大的經(jīng)濟效益。具體來說,工業(yè)機器人的運動規(guī)劃過程的實施需要細化其運動任務(wù)的可變性,使機器人能夠具有自適應(yīng)處理環(huán)境變化的能力。本文提出了一種基于強化學習(RL)的認知增強型6軸工業(yè)機器人,用于具有連續(xù)軌跡的復(fù)雜運動規(guī)劃實現(xiàn)。該方法的靈感來自于經(jīng)典的線環(huán)游戲,即從開始到結(jié)束沿著曲線的路徑引導(dǎo)金屬環(huán),同時避免線和環(huán)之間的任何接觸。研究結(jié)果表明,增強學習算法可以更好地控制機器人的運動,并且不需要預(yù)先對路徑進行建?;?qū)C器人運動進行編程。此外,通過視覺傳感器(相機)可以對系統(tǒng)進行擴展以充分概括學習環(huán)境,使得機器人可以解決新的路徑問題。因此,增強學習算法對于工業(yè)機器人和生產(chǎn)系統(tǒng)的適用性來說,具有巨大的未開發(fā)的潛力,因此需要一個通用和強大的過程自動化方法。
提出了一種基于增強學習算法和Q-學習算法的工業(yè)機器人運動規(guī)劃的概念,可以控制機器人能夠自主地按照最適合的策略來解決相應(yīng)任務(wù)。將所提出的方法應(yīng)用在6軸工業(yè)機器人上,控制其來完成線環(huán)游戲。研究結(jié)果表明,該方法使機器人能夠在幾分鐘內(nèi)學習正確的軌跡,而且可以積累經(jīng)驗以節(jié)省以后學習的時間。經(jīng)驗指的是將非關(guān)系知識數(shù)據(jù)庫中的狀態(tài)和動作之間的相關(guān)性存儲為相應(yīng)的反饋。機器人人的問題概括的能力和新問題處理能力基于其感知的環(huán)境,因此,經(jīng)驗的積累使得機器人能夠根據(jù)前期集的經(jīng)驗通過排列組合來解決未知的問題。總之,基于增強學習的機器人可以在一定程度上適應(yīng)生產(chǎn)過程的變化。這些機器人根據(jù)其自動收集的經(jīng)驗,提供了以非常方式整合流程和領(lǐng)域?qū)I(yè)知識的巨大潛力。
刊名:Procedia CIRP
刊期:2017年95期
作者:Richard Meyes et al
編譯:陳少帥