宋濤++呂思思
摘要:最近已經(jīng)引起很多關(guān)注的直接在參數(shù)空間中探索策略梯度方法是最有效和有力的政策搜索方法。這個(gè)領(lǐng)域的基本方法,基于參數(shù)探索的政策梯度,使用的兩個(gè)樣本都是圍繞著當(dāng)前假設(shè)對(duì)稱,以規(guī)避在不對(duì)稱的分布式聚集基準(zhǔn)方法的獎(jiǎng)勵(lì)中的誤導(dǎo)性獎(jiǎng)勵(lì)??碧絽?shù)仍然由基線的方法更新 - 離開容易發(fā)生探索非對(duì)稱獎(jiǎng)勵(lì)分布。在本文中,我們將展示如何探索有限制的可以準(zhǔn)對(duì)稱的參數(shù),而不是勘探自由參數(shù)進(jìn)行采樣。我們給出了一個(gè)相對(duì)于勘探準(zhǔn)對(duì)稱的近似改造獲得的樣本,而不改變整體抽樣分布。最后,我們將證明,為勘探參數(shù)的對(duì)稱取樣以及優(yōu)于原始抽樣方法,在所需要的樣品和穩(wěn)健性方面。
關(guān)鍵詞:超對(duì)稱 PGPE;梯度估計(jì)方差;參數(shù)探索政策梯度
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2016)06-0242-02
1介紹
1.1當(dāng)前最高水平和題目說明。
在過去幾年,引起了很多關(guān)注的直接在參數(shù)空間探索政策梯度(PG)方法有很多標(biāo)準(zhǔn)PG方法的主要優(yōu)點(diǎn),如描述的。來自參數(shù)探索政策梯度(PEPG)領(lǐng)域的基本方法,具有基于參數(shù)的探索(PGP)政策漸變,使用兩個(gè)樣品是圍繞當(dāng)前假設(shè)對(duì)稱規(guī)避不對(duì)稱報(bào)酬收集的通?;€方法的分配問題誤導(dǎo)性獎(jiǎng)勵(lì)。盡管事實(shí)上,它表明梯度估計(jì)方差比最優(yōu)基線的方法更低一些,但對(duì)稱采樣(SYS)優(yōu)于最佳的基線。但是,勘探參數(shù)仍然是由基線方法(離開容易發(fā)生探索非對(duì)稱獎(jiǎng)勵(lì)分布)更新的。
而最佳基線顯著改善此問題,它很可能是由對(duì)稱的樣品相對(duì)于勘探參數(shù)完全除去基線將再次卓越的??碧絽?shù)是零和無窮大之間界定的標(biāo)準(zhǔn)偏差,因此,對(duì)于他們存在不正確的對(duì)稱樣品。然而,我們將顯示如何勘探參數(shù)可以準(zhǔn)對(duì)稱地取樣。我們給出了一個(gè)近似改造拿到準(zhǔn)對(duì)稱樣本而不改變總體抽樣分布,從而使基于正態(tài)分布樣本PGPE假設(shè)仍持有。我們還將實(shí)施免費(fèi)基線和基線采樣之間的公平比較最佳基線的方法。所得相對(duì)于該問題的參數(shù)和勘探參數(shù)對(duì)稱地采樣的方法被稱為超對(duì)稱采樣(SupSyS)和利用SupSyS名為超級(jí)對(duì)稱PGPE的PGPE變體(SupSymPGPE)。
我們強(qiáng)調(diào),SupSyS不僅在關(guān)于樣品復(fù)雜的搜索空間的需要和不需要任何基線方面更有效,并且它也顯示出在更不穩(wěn)定的搜索空間方面的一個(gè)增長的穩(wěn)健性。這表現(xiàn)為一個(gè)問題領(lǐng)域與處罰條款,獎(jiǎng)勵(lì)功能引入約束。這里SupSyS產(chǎn)生違反限制顯著較少的樣本。
1.2 動(dòng)機(jī)
雖然本文所提到的SUBSYS的性能和穩(wěn)定性是主要的焦點(diǎn),但是對(duì)這項(xiàng)工作的動(dòng)機(jī)是以避免基準(zhǔn),從而避免對(duì)舊的樣本收集的來歷。一下有幾點(diǎn)原因:
l 懶惰評(píng)價(jià):懶惰評(píng)價(jià)僅僅是問題的一個(gè)子集,以減少計(jì)算時(shí)間或精力的技術(shù)。懶惰評(píng)價(jià)是進(jìn)化算法中常用的。報(bào)償/合格范圍可以徹底改變,同時(shí)改變懶惰評(píng)價(jià)的程度,甚至不同的評(píng)價(jià)子集之間。雖然使用懶評(píng)價(jià)的高度對(duì)舊的樣本相當(dāng)數(shù)量平均基線變得無用。從機(jī)器人領(lǐng)域的一個(gè)很好的例子是行走任務(wù)。如果一個(gè)機(jī)器人的任務(wù)是要移動(dòng)一段距離,那么要先評(píng)估在較短的時(shí)間跨度的行為,為了區(qū)分和根本不移動(dòng)一定距離的人的行為。隨著學(xué)習(xí)的進(jìn)行,評(píng)估的時(shí)間跨度,必須越走越能有所區(qū)分,讓來自機(jī)器人在輕微的曲線或在一條直線上了走了很長一段時(shí)間的機(jī)器人的運(yùn)動(dòng)行為增加它一段時(shí)間后翻倒(在人形情況)。人們可以除以評(píng)估時(shí)間覆蓋得到某種形式的標(biāo)準(zhǔn)化獎(jiǎng)勵(lì)的距離,但還是喜歡在一開始勢頭將改變不同的評(píng)價(jià)倍的獎(jiǎng)勵(lì)效果。
l 運(yùn)動(dòng)目標(biāo)和人工好奇心:在某些情況下學(xué)習(xí)的不是一個(gè)固定的目標(biāo),而是一個(gè)不斷發(fā)展的實(shí)體。這種移動(dòng)目標(biāo)的一個(gè)極端的例子是人工好奇心。什么都移動(dòng)目標(biāo)的問題(包括人工好奇心)的共同點(diǎn)是,我們的目標(biāo)隨時(shí)間的變化,并用它來獲得獎(jiǎng)勵(lì)的某些行為的變化也。在這樣的設(shè)定的基準(zhǔn)是無用的。
2 經(jīng)驗(yàn)和結(jié)果
我們使用的平方函數(shù)作為搜索空間實(shí)例與無局部最優(yōu)和Rastrigin功能作為搜索空間成倍局部最優(yōu)解,以測試SupSym-和SYS-PGPE的不同行為。我們也顯示這兩種方法的性能在一個(gè)真實(shí)世界的例子,優(yōu)化安裝可再生能源在分布式能源系統(tǒng)的能力。該實(shí)驗(yàn)表明這兩種方法如何應(yīng)付被實(shí)施為在回報(bào)函數(shù)懲罰項(xiàng)和類似于用在搜索空間陡坡或懸崖區(qū)域限制。與SYS-PGPE以及與SupSymPGPE連接的兩個(gè)元的參數(shù),即對(duì)于μ和σ的更新步長,進(jìn)行用于經(jīng)由網(wǎng)格搜索每個(gè)實(shí)驗(yàn)優(yōu)化。
2.1 平方函數(shù)
對(duì)于一個(gè)沒有supsympgpe局部最優(yōu)解的搜索空間顯示標(biāo)準(zhǔn)SyS-PGPE沒有優(yōu)勢。然而,盡管使用4個(gè)樣品更新性能也不是減少使用SupSymPGPE——這兩個(gè)方法僅僅是等價(jià)的。也使用最優(yōu)基線沒有明顯區(qū)別。
2.2 Rastrigin函數(shù)
如果Rastrigin函數(shù)用作測試功能的情況變化了,不僅需要一半的PGPE 和SupSymPGPE相比,效果似乎也成為更強(qiáng)的高維搜索空間。我們還增加了SupSymPGPE情節(jié)與元參數(shù)最優(yōu)(貪婪的)SyS-PGPE顯示效果,不僅是由于(最優(yōu))更積極的元參數(shù)。而且這比PGPE也更有效率,但是效果不太明顯。
3 結(jié)論和下一步需要進(jìn)行的工作
我們介紹了SupSymPGPE,一個(gè)完全地基線自由PGPE,它是使用quasisymmetric關(guān)于樣品??碧絽?shù)。我們表明,Rastrigin功能,作為一個(gè)測試函數(shù)的例子與指數(shù)許多當(dāng)?shù)氐淖钸m條件,這部小說方法明顯優(yōu)于標(biāo)準(zhǔn)SyS-PGPE和兩種方法成為等效性能如果搜索空間缺乏分散當(dāng)?shù)氐淖钸m條件。性能測試的標(biāo)準(zhǔn)和最佳的基準(zhǔn)。我們還發(fā)現(xiàn)了幾個(gè)約束作為懲罰項(xiàng)的獎(jiǎng)勵(lì)功能有supsympgpe也優(yōu)于標(biāo)準(zhǔn)PGPE清楚一個(gè)問題。我們也表現(xiàn)出與引入懲罰條款獎(jiǎng)勵(lì)函數(shù)制約的例子,SUPS MPG也優(yōu)于標(biāo)準(zhǔn)PGPE。到目前為止,在所有的實(shí)驗(yàn)中進(jìn)行的(也不列在這里)SupSymPGPE比標(biāo)準(zhǔn)的 PGPE更有效。然而,最引人注目的特性是如果搜索空間變得不穩(wěn)定,那么MPG應(yīng)該是更強(qiáng)大。
對(duì)于今后的工作中,我們要強(qiáng)調(diào)的是SUPS MPG可以很容易地與PGPE的其他擴(kuò)展結(jié)合起來。多模態(tài)PGPE可以直截了當(dāng)配備SUBSYS。在未來,我們會(huì)認(rèn)為完成此實(shí)驗(yàn)結(jié)果是有趣的事情。此外,PGPE自然梯度可以被定義為SUBSYS梯度,而不是thevanilla梯度。Whileit是很難想象的一個(gè)抽樣方案,該方案是對(duì)稱充分協(xié)方差樣本,它可以很容易地產(chǎn)生超對(duì)稱樣品中的協(xié)方差矩陣定義的旋轉(zhuǎn)空間。
然而重要性采樣是減少所需的評(píng)價(jià)非常有效的方法,通過它不能直接應(yīng)用于SupSymPGPE。如果SupSymPGPE用于性能原因和基線,它可通過添加歷史標(biāo)準(zhǔn)示例和SupSymPGPE PGPE更新直接樣品。另一種替代方法就是使用重要性混合,它也是使用同樣的因素。
未來工作的最后一個(gè)重點(diǎn)是理論結(jié)果驗(yàn)證,也是機(jī)器人任務(wù),也是SupSymPGPE及其他PGPE擴(kuò)展的組合。