韓雨琪
(同濟大學電子與信息工程學院 上海市 201804)
在強化學習中,多智能體協(xié)作為解決復雜問題提供了新的思路。通過將困難的任務分解并分發(fā)給多個智能體,可以更高效地完成任務。例如,Mahmoud等引入多智能體系統(tǒng)來分析客戶的行為并發(fā)現他們的偏好, Hajj等利用多智能體系統(tǒng)來檢測和避免黑客攻擊。
然而,在多智能體系統(tǒng)中,每個智能體在實際環(huán)境中觀察到的信息可能會失真。如,在傳感器網絡中,一方面,隨著設備的退化,會導致傳感器等設備采集到的信息不正確。另一方面,由于帶寬和功率的限制,信息的傳輸可能受到無線通信的干擾。在這種場景下,需要建模真實觀測值與失真觀測值之間的關系,利用這種關系,智能體可以在帶噪環(huán)境下做出決策。由此,強化學習引入部分可觀測馬爾可夫決策過程[3-4],通過建模環(huán)境真實信息(狀態(tài)值)與環(huán)境誤差信息(觀測值)之間的條件概率,智能體根據觀察到的信息而非實際信息進行策略調整。
在多智能體協(xié)作的場景下,通過信息共享,可以對一部分智能體獲得的信息進行補償,從而提高強化學習的學習性能增益。然而,現有的研究中極少討論到信息共享如何影響每個智能體的學習性能。本文首先分析了在觀測噪聲分布相同的情況下(即同構觀測噪聲),信息共享對每個智能體策略的影響。然后,我們考慮了每個智能體觀測噪聲服從不同分布(即異構觀測噪聲)的場景,在這種場景下,觀測噪聲較小的智能體可以獲得更精確的狀態(tài)信息。
設環(huán)境中共N個智能體,在時間t,st表示t時刻的智能體所在的狀態(tài)。對于每個智能體n,在t時刻的動作寫為在t時刻的動作集合寫為基于當前的狀態(tài)和每個智能體做出的動作,下一個時刻的狀態(tài)st+1由轉移概率確定,轉移概率表示為:
on,t表示智能體實際的觀測值,其可以看作實際狀態(tài)與噪聲的疊加。設U服從與參數β的均勻分布。實際的觀測值可以表示為:
在每個智能體采取了一個行動后,環(huán)境返回一個獎賞值rt。為了獲得最好的合作效果,給定衰減因子σ,多個智能體需要提高總的期望獎賞值
在本節(jié)中,討論兩個智能體組成的協(xié)作PODMP模型。智能體在每個時刻t選擇行為并滿足:
在每個時刻,獎賞值被定義為:
在同構噪聲情況下,不同智能體的觀測噪聲分布相同。我們定義β1作為智能體1的觀測噪聲分布參數,β2作為智能體2的觀測噪聲分布參數,β1=β2。在時間t時,智能體n的觀測狀態(tài)為:
圖1:噪聲同構時的累積獎賞值變化
圖2:噪聲異構時不同噪聲參數對累積獎賞值的影響
而在異構的場景中,每個智能體的觀測噪聲不相同,不失一般性,設β1<β2,的概率密度函數表示為:
本文采用REINFORCE策略作為強化學習的方法并對信息共享進行研究。REINFORCE策略根據每個事件的累積報酬來調整策略的參數,從而找到最優(yōu)策略。智能體n的行為由觀測值o和策略π決定。而策略π由其參數θ確定,該參數表示為在每次更新中,智能體按當前策略選擇行為并執(zhí)行,獲得期望獎賞值隨后根據的梯度進行策略調整,調整策略如下:
在同構噪聲的場景下,若考慮信息共享,每個智能體觀測到環(huán)境當前的狀態(tài)后,將全部觀察結果發(fā)送給另一個智能體。我們選擇智能體n來說明信息共享性能變化,由于而另一個智能體具有相同的參數設置,因此另一個智能體與其有相同的過程。n的期望獎賞值被表示為:
若st<0,則只有當時,rt=1才成立。設的概率為可表示為:
我們定義在參數為βn時,信息共享的條件下獲得的獎賞值與無信息共享的條件下獲得的獎賞值之差g(βn),其可表示為:
對上式求導分析可知,信息共享可以使智能體n的期望獎賞值提高。當分布參數βn減小時,性能差距也減小。
在異構智能體場景中,智能體具有不同的感知環(huán)境的能力。當多智能體單獨與環(huán)境交互并調整策略參數時,其性能受到觀測信息噪聲更大的智能體的限制。設兩個智能體具有不同的觀測噪聲分布,其分布參數為β1和β2,滿足|β1|<|β2|。在異構觀測場景中,每個智能體獲得的期望獎賞值表示為:
在進行仿真比較時,本文考慮狀態(tài)完全可觀測、部分可觀測、以及部分可觀測的智能體信息共享三組設置,并進行仿真和結果分析。第一組中的智能體可以精確獲得當前的狀態(tài)。第二組讓兩個智能體單獨觀察環(huán)境并調整策略。第三組考慮智能體之間的信息共享。實驗共進行10組迭代,每組采樣10次,同時對實驗進行了100次模擬,并給出結果的平均值以推廣實驗結果。σ設定為0.9,每個智能體的學習率α設定為0.1。
噪聲同構時的累積獎賞值變化的實驗結果如圖1所示。在觀測噪聲同構的情況下,信息共享可提高每個智能體對環(huán)境的學習效率并獲得更好的性能。
在異構噪聲的場景下,本文建立了與同構智能體相同的實驗環(huán)境。我們假設智能體1的噪聲分布參數是給定的,并改變智能體2的噪聲分布參數。如圖2所示,當智能體2的噪聲分布參數小于代理1的分布參數時,兩個智能體之間的信息共享可以為智能體1帶來性能增益;如果智能體2的噪聲分布過大,則信息共享對智能體1的學習性能造成損失。
本文研究了在觀測狀態(tài)受噪聲的影響下,信息共享如何影響多智能體協(xié)作系統(tǒng)在連續(xù)狀態(tài)空間的性能。我們將觀測噪聲加入到真實狀態(tài)中,建立實際狀態(tài)和觀測的條件概率模型。在同構噪聲環(huán)境中,智能體之間的信息共享總是對強化學習的過程有益。而在異構噪聲環(huán)境中,觀測噪聲分布參數越大的智能體往往獲得性能增益,觀測噪聲分布參數較小的智能體有時反而會損失學習性能。以上研究對實際問題中連續(xù)狀態(tài)空間的智能體協(xié)同工作提供了理論指導。