北京市延慶區(qū)第一中學(xué) 李子韓
總所周知的,機(jī)器學(xué)習(xí)主要有監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)以及增強(qiáng)學(xué)習(xí)四類。一般具有規(guī)則性的行為,我們可以通過監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí),使智能體習(xí)得并掌握這些行為。然而對于一些序列決策或者控制問題,就需要用到增強(qiáng)學(xué)。增強(qiáng)學(xué)習(xí),主要關(guān)注的是智能體和環(huán)境之間的交互問題,智能體通過增強(qiáng)學(xué)習(xí),可以在當(dāng)前的狀態(tài)下挑選出一個當(dāng)前回報最高的決策,通過執(zhí)行當(dāng)前挑選的最優(yōu)決策,達(dá)到下一個狀態(tài),如此往復(fù),通過執(zhí)行一系列的決策,從而獲得最終最優(yōu)的累積回報。
例如,為了指導(dǎo)小狗學(xué)會一項新技能這一任務(wù),我們不能告訴小狗它應(yīng)該去做什么,但是我們可以在小狗做出動作后,判讀動作是否正確,如果動作正確,則給予獎勵;如果動作錯誤,則給予懲罰。經(jīng)過一系列類似的訓(xùn)練之后,小狗就可以學(xué)習(xí)到它做出哪些動作后會得到獎勵,做出哪些動作后會得到懲罰。類似地,我們同樣可以在控制問題中,使用相同的方法訓(xùn)練智能體學(xué)習(xí)如何做出決策,獲得最大的累積回報,從而達(dá)到?jīng)Q策優(yōu)化的目的。再以曾經(jīng)風(fēng)靡全球的游戲《神廟逃亡》為例。我們的目的是讓智能體學(xué)會這款游戲的玩法,但因為游戲的路線是隨機(jī)的,所以如果我們直接給其輸入某一固定的路線,是達(dá)不到令其學(xué)會的這一效果的。此時應(yīng)用到增強(qiáng)學(xué)習(xí),訓(xùn)練智能體學(xué)習(xí)如何作出決策,獲得最大的累計回報,即檢測到某一的障礙,智能體會作出選擇,如果在操作后游戲人物死亡,則否定上一步操作;如果游戲繼續(xù),則記錄此操作,并于下次檢測到同樣障礙時作出相同的操作。經(jīng)過多次否定和記錄,最終智能體可以學(xué)會這款游戲的玩法。
圖1 《神廟逃亡》游戲操作界面
近些年來,增強(qiáng)學(xué)習(xí)的研究取得了豐碩的成果,對增強(qiáng)學(xué)習(xí)的研究主要集中在增強(qiáng)學(xué)習(xí)的理論、增強(qiáng)學(xué)習(xí)的算法以及增強(qiáng)學(xué)習(xí)的應(yīng)用這三個方面[1]。具體的介紹如下:(1)增強(qiáng)學(xué)習(xí)理論:時序差分學(xué)習(xí)的收斂性、表格型強(qiáng)化學(xué)習(xí)的收斂性、強(qiáng)化學(xué)習(xí)的泛化方法。研究的主要內(nèi)容是算法的收斂性等基礎(chǔ)理論,比如:時序差分學(xué)習(xí)的收斂性,表格型增強(qiáng)學(xué)習(xí)的收斂性等等。(2)增強(qiáng)學(xué)習(xí)算法:增強(qiáng)學(xué)習(xí)可以分為非聯(lián)想增強(qiáng)學(xué)習(xí)和聯(lián)想增強(qiáng)學(xué)習(xí)。比較經(jīng)典的算法有:折扣型回報指標(biāo)強(qiáng)化學(xué)習(xí)算法、Q-學(xué)習(xí)算法、Sarsa學(xué)習(xí)算法等等。(3)增強(qiáng)學(xué)習(xí)應(yīng)用:增強(qiáng)學(xué)習(xí)是一種不依賴于環(huán)境模型和先驗知識的機(jī)器學(xué)習(xí)方法,通過試錯和延時回報機(jī)制,結(jié)合自適應(yīng)動態(tài)規(guī)劃方法,能夠不斷優(yōu)化控制策略,為系統(tǒng)自適應(yīng)外界環(huán)境變化提供了可行方案。通過將系統(tǒng)建模成馬氏決策過程,在自動控制領(lǐng)域,增強(qiáng)學(xué)習(xí)方法已成功地實現(xiàn)了單個機(jī)器人的優(yōu)化控制[2]、多機(jī)器人系統(tǒng)并行控制等等[3];如在博弈決策領(lǐng)域,人們利用增強(qiáng)學(xué)習(xí)方法,已經(jīng)成功了開發(fā)出阿爾法狗——人工智能圍棋程序以及星際爭霸計算機(jī)模擬程序等等,此外增強(qiáng)學(xué)習(xí)方法在比如自動直升機(jī)、手機(jī)網(wǎng)絡(luò)路由、市場決策、工業(yè)控制、高效網(wǎng)頁索引、優(yōu)化和調(diào)度等領(lǐng)域都取得了巨大的成功。
首先,基于增強(qiáng)學(xué)習(xí)問題建立如下模型(為了便于問題的簡化,我們這里建立的環(huán)境和智能體的模型都是具有隨機(jī)、有限狀態(tài)性質(zhì)的模型)。如圖2所示。
圖2 簡單的增強(qiáng)學(xué)習(xí)模型
馬爾可夫動態(tài)過程可以進(jìn)一步表示如下:
上述流程圖表示智能體在狀態(tài)s0下選擇執(zhí)行某個動作a0,智能體按照概率Ps0a0隨機(jī)轉(zhuǎn)移到下一個s1狀態(tài),然后再執(zhí)行一個動作a1,智能體按照概率值Ps1a1轉(zhuǎn)移到下一個s2狀態(tài),如此往復(fù)地進(jìn)行動作執(zhí)行和狀態(tài)轉(zhuǎn)移這兩個過程,直達(dá)到達(dá)最終的終止?fàn)顟B(tài)或者到達(dá)最大的狀態(tài)轉(zhuǎn)移步數(shù)。
智能體的目標(biāo)是學(xué)習(xí)找到一個馬爾可夫策略,即一個從狀態(tài)空間到動作空間的映射關(guān)系(,表示在當(dāng)前狀態(tài)s下,智能體會根據(jù)策略π選擇執(zhí)行動作a),從而最大化折扣回報加權(quán)和的期望。在馬爾科夫決策過程中,如果智能體的起始狀態(tài)記為s0,此時智能體根據(jù)策略π選擇執(zhí)行下一個動作a0,執(zhí)行后智能體的狀態(tài)轉(zhuǎn)移到s1,然后智能體繼續(xù)根據(jù)策略π選擇執(zhí)行下一個動作a1,執(zhí)行后智能體的狀態(tài)轉(zhuǎn)移到s2,按照這種方式執(zhí)行下去,我們可以得到從起始狀態(tài)s開始,所有過程中回報函數(shù)的期望和:
我們把(1)式中定義的期望函數(shù)Vπ(s),稱為在起始狀態(tài)s下,在給定的策略π下的價值函數(shù)(value function)。與價值函數(shù)非常類似的另外一個函數(shù)便是Q函數(shù)(Q-function),給定策略π,它的Q函數(shù)定義為:從一個給定的起始狀態(tài)s開始,首先采取一個指定的動作a,然后根據(jù)策略π采取后續(xù)動作得到的所有回報函數(shù)的期望和:
從遞推的角度來看,我們可以進(jìn)一步把上述(1)式子寫成:
因此,上述找最優(yōu)馬爾可夫策略π的問題可以形式化為求解下述問題——求解最大化V*(s):
同樣地,我們可以把Q函數(shù)寫成上面的表達(dá)形式:
同樣,我們定義最優(yōu)的Q函數(shù)如下:
通過求解上述式子(6),我們可以得到最優(yōu)的決策策略π*和最大的累積回報值。
通過本文的介紹,我們大致了解了增強(qiáng)學(xué)習(xí)的基本概念、增強(qiáng)學(xué)習(xí)適用于解決哪些問題,增強(qiáng)學(xué)習(xí)的研究領(lǐng)域及主要的應(yīng)用領(lǐng)域,最后我們通過建立并且簡單地推導(dǎo)增強(qiáng)學(xué)習(xí)中最簡單的數(shù)學(xué)模型——隱馬爾科夫模型,加深了對增強(qiáng)學(xué)習(xí)模型的理解,即增強(qiáng)學(xué)習(xí)是通過不斷地試錯,學(xué)習(xí)到一組最優(yōu)的決策策略,從而獲得最終最大的累積回報的學(xué)習(xí)過程。
增強(qiáng)學(xué)習(xí)在許多應(yīng)用領(lǐng)域都取得了巨大的進(jìn)展,我們有理由相信,增強(qiáng)學(xué)習(xí)在今后的發(fā)展中,將會進(jìn)一步推動人工智能領(lǐng)域的發(fā)展,給我們的生產(chǎn)生活帶來極大的便利。
[1]陳學(xué)松,楊宜民. 強(qiáng)化學(xué)習(xí)研究綜述[J].計算機(jī)應(yīng)用研究,2010,27(8):2834-2838.
[2]吳軍,徐昕,王健等.面向多機(jī)器人系統(tǒng)的增強(qiáng)學(xué)習(xí)研究進(jìn)展綜述[J].控制與決策,2011,26(11):1601-1610.
[3]秦志斌,錢徽,朱淼良.自主移動機(jī)器人混合式體系結(jié)構(gòu)的一種Multi-agent實現(xiàn)方法[J].機(jī)器人,2006,28(5):478-482.