張炎 劉博文
【摘要】強化學習是Agent學習中廣泛使用的方法,在智能機器人、經(jīng)濟學、工業(yè)制造和博弈等領域得到了廣泛的應用,但學習速度慢是強化學習的主要不足。遷移學習可從源任務中獲得與目標任務相關的知識,利用這些知識去提高學習效率與效果。本文提出Agent地圖遷移算法,實現(xiàn)了Agent在不同狀態(tài)空間下的經(jīng)驗遷移。實現(xiàn)將Agent在簡單環(huán)境中的學習經(jīng)驗遷移到復雜環(huán)境中,實驗中驗證了算法可加快Agent路徑規(guī)劃速度。
【關鍵詞】Q學習;強化學習;地圖遷移
對于人類來說,我們可以有意或無意的從過去已經(jīng)學習過的任務中獲取大量知識,把他們保存下來,當某天我們遇到新任務時,我們就可以從已經(jīng)獲取的只是種提取出對學習當前任務有用的部分,利用他們提高學習效率和效果。把已經(jīng)學習過的任務稱為“源任務”,把待學習的新任務稱為“目標任務”。
遷移學習作為一種智能化的學習方式,其目的是為了更有效的學習“目標任務”。在這一過程中,我們可以從與目標任務相似的“源任務”中去獲得一些與目標任務相關的信息,然后通過把它們添加至目標任務中幫助提高目標任務的學習效率與效果。
1.地圖遷移
本文將Agent在簡單環(huán)境中路徑規(guī)劃學習經(jīng)驗,遷移應用到在復雜環(huán)境中的路徑規(guī)劃學習。在簡單環(huán)境中將通過強化學習算法[1]中的一種即Q學習算法更新Q值獲得的經(jīng)驗作為待遷移的經(jīng)驗,當Agent處于復雜環(huán)境中時,可將這經(jīng)驗遷移到復雜環(huán)境中,加快Agent在復雜環(huán)境中的路徑規(guī)劃學習速度。本文研究Agent在簡單環(huán)境中的路徑規(guī)劃學習方法,將學習策略[2]應用到在不確定障礙物的復雜環(huán)境路徑規(guī)劃學習中。在遷移過程中,可以根據(jù)復雜環(huán)境狀態(tài)引入障礙物,根據(jù)環(huán)境的不同而將經(jīng)驗做相應的調整后,遷移到復雜環(huán)境中,這樣的遷移學習可以避免環(huán)境的特殊性。
1.1 簡單環(huán)境中障礙物設置
在簡單環(huán)境中不設置障礙物,原因有兩點:首先,障礙物個數(shù)、位置、是否移動等因素均不能確定,找不到有代表性的簡單環(huán)境;其次,若設置障礙物,就需要根據(jù)復雜環(huán)境去有針對性地設置,這樣的遷移只是對某一復雜環(huán)境有效果,對于其他復雜環(huán)境沒有效果。在現(xiàn)實中,環(huán)境不斷變化,找不到相適應的且具有代表性的簡單環(huán)境,更不能談將在簡單環(huán)境中的路徑規(guī)劃學習經(jīng)驗遷移到復雜環(huán)境中。故不設置障礙物可以排除環(huán)境的特殊性。
1.2 經(jīng)驗遷移
定義1:rb為環(huán)境中障礙物的獎賞值。在遷移過程中用以動態(tài)引入障礙物時調整障礙物所在位置的Q值。
本文算法中用到遷移學習將簡單環(huán)境中的經(jīng)驗應用于復雜環(huán)境中,即將簡單環(huán)境Q表中每個被遷移點的Q值,加上遷移點的獎賞值所得數(shù)值作為遷移點的Q值。如式所示:
本文算法雖然在簡單環(huán)境中沒有障礙物,但在遷移過程中,可以根據(jù)復雜環(huán)境狀態(tài)引入障礙物,這樣的遷移學習可以避免環(huán)境的特殊性,根據(jù)環(huán)境的不同而將經(jīng)驗做相應的調整后,遷移到復雜環(huán)境中。
1.3 遷移時機
當Agent到達某點且之前無這點經(jīng)驗時,應用遷移學習,由遷移學習本身定義可以知道,正是因為Agent在陌生環(huán)境中無經(jīng)驗,所以才需要遷移以往的經(jīng)驗以幫助Agent加快學習速度,更快地找到最優(yōu)路徑。算法解決的問題是Agent在新環(huán)境中一開始學習時無經(jīng)驗,故當Agent已經(jīng)有了在環(huán)境中的經(jīng)驗時,此時不需要遷移。
2.基于Agent強化學習的地圖遷移學習算法
本文提出基于Agent強化學習的地圖遷移學習算法。Agent在第一次學習時,首通過遷移學習算法將經(jīng)驗遷移到復雜環(huán)境中,再使用Q學習算法,找到局部最優(yōu)路徑。重復上述過程,直到Agent到達目標點為止。本文的地圖遷移算法不同于之前研究較多的基于相同狀態(tài)空間下的經(jīng)驗遷移[3-4]。下面為算法描述與實驗數(shù)據(jù)。
算法的偽代碼表示如下:
For times=1 to epiosodes
if(times==1)
transfer()//執(zhí)行遷移學習算法
End_if
Else
While(s_now !=s_final)//Agent未到終點
Q_Learning()//執(zhí)行Q學習算法
End_while
End_for
3.仿真實驗與分析
程序隨機生成9條路徑,分別用遷移學習和未應用遷移學習尋找路徑,統(tǒng)計Agent找到最優(yōu)路徑所需迭代次數(shù),實驗結果如下。
遷移學習 不遷移學習
27 41
13 32
21 31
23 27
23 24
12 19
15 19
52 44
13 18
由上表可以看到,9次實驗中當Agent進行遷移學習時找到最佳路徑所需迭代次數(shù)比相同情況下未進行遷移學習的次數(shù)少,同時也發(fā)現(xiàn)了1次負遷移情況,下文給出關于負遷移的討論。
4.負遷移
上述實驗中,隨機選擇9條路徑中有1條路徑產(chǎn)生了負遷移情況。通過實驗發(fā)現(xiàn),遷移的經(jīng)驗多遷移效果也有很大影響。不同的遷移經(jīng)驗會帶來不同的效果。目前還未找到一組最佳的遷移經(jīng)驗,以后可以做這方面研究。
5.結論
本文提出地圖遷移算法,在簡單環(huán)境中將通過Q學習算法更新Q值獲得的經(jīng)驗作為待遷移的經(jīng)驗,當Agent處于復雜環(huán)境中時,可將這經(jīng)驗遷移到復雜環(huán)境中,加快Agent在復雜環(huán)境中的路徑規(guī)劃學習速度。在遷移過程中,可以根據(jù)復雜環(huán)境狀態(tài)引入障礙物,根據(jù)環(huán)境的不同而將經(jīng)驗做相應的調整后,遷移到復雜環(huán)境中,這樣的遷移學習可以避免環(huán)境的特殊性。為不同環(huán)境空間下Agent經(jīng)驗遷移研究打下了基礎。
參考文獻:
[1]顧國昌,仲宇,張汝波.一種新的多智能體強化學習算法及其在多機器人協(xié)作任務中的應用[J].機器人,2003,25(4):344-348.
[2]Schmidhuber Juergen.On learning how to learn learning strategies[J].1995.
[3]Perlich C,Dalessandro B,Raeder T,et al. Machine learning for targeted display advertising:Transfer learning in action[J].Machine Learning,2013:1-25.
[4]Torrey Lisa,Shavlik Jude,Walker Trevor,et al.Relational skill transfer via advice taking[C].Proceedings of ICML Workshop on Structural Knowledge Transfer for Machine Learning,2006.