• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      AlphaZero原理與啟示

      2020-07-16 18:27:38唐川陶業(yè)榮麻曰亮
      航空兵器 2020年3期
      關鍵詞:強化學習深度學習人工智能

      唐川 陶業(yè)榮 麻曰亮

      摘 要: 近幾年,計算機圍棋成功引發(fā)了又一輪的人工智能熱潮,從計算機圍棋中發(fā)展出來的AlphaZero框架成功地應用在其他完全信息條件下的二人有限零和博弈問題,進而展示出了深度學習和強化學習在智能決策領域的優(yōu)異性能。本文首先介紹了AlphaZero框架中三個核心技術: 深度學習、強化學習以及蒙特卡羅樹搜索,然后詳細說明了AlphaZero框架兩個關鍵階段——AlphaGo和AlphaGo Zero的基本原理,最后,對AlphaZero框架提出了自己的思考,并基于對AlphaZero原理的剖析討論了其對軍事決策智能化的啟示。

      關鍵詞:深度學習;強化學習;蒙特卡羅樹搜索;AlphaZero;軍事決策智能化;人工智能

      中圖分類號:TJ760; TP242.6 文獻標識碼: A文章編號:1673-5048(2020)03-0027-10

      0 引言

      象棋、圍棋、日本將棋等棋類博弈游戲一直是人工智能關注和研究的熱門領域,一般將其抽象為完全信息條件下的二人有限零和博弈模型,該模型的含義是指在任意時刻,雙方玩家(“二人”)都知道游戲的全部狀態(tài)(“完全信息”),并且有限步(“有限”)之后游戲的結果非勝即負(“零和”),至多加上平局。雙方在游戲中對抗(“博弈”),目的是自己獲得盡可能好的結果。1997年發(fā)布的國際象棋人工智能“深藍”轟動一時,其依賴強大的計算能力對國際象棋的所有狀態(tài)空間進行窮盡式暴力搜索,用確定性算法求解國際象棋的復雜決策問題,體現(xiàn)了一種“機器思維”,然而這一方法并不能適用于圍棋。圍棋復雜的盤面局勢評估和巨大的狀態(tài)搜索空間,成為學界面臨的巨大挑戰(zhàn)。國際象棋每一步可供選擇的走法平均為35種(即空間搜索寬度約為35),每盤棋平均需要80步決出勝負(即空間搜索深度約為80),所以如果要遍歷完整下棋過程,整個搜索空間大約為3580;而對于圍棋,其搜索寬度平均為250,搜索深度平均為150,整個搜索空間為250150,超過了可觀測宇宙中的原子數(shù)目,因此無法采用暴力搜索方式。

      為實現(xiàn)高智能的計算機圍棋,早期的研究通過專家系統(tǒng)和模糊匹配來控制搜索空間規(guī)模,但一方面算法效果一般,此外當時的計算資源和硬件能力也捉襟見肘,所以效果并不明顯。2006年,蒙特卡羅樹搜索(MCTS)的應用引領著計算機圍棋進入了新的階段[1]。

      2015年,F(xiàn)acebook人工智能研究院的Tian Y D結合深度卷積神經網絡和蒙特卡羅樹搜索開發(fā)出

      的計算機圍棋Dark Forest,表現(xiàn)出了與人類相似的下棋風格和驚人的實力[2]。2016年,基于深度強化學習和蒙特卡羅樹搜索的AlphaGo擊敗了人類頂尖職業(yè)棋手,引起了全世界的關注[3]。2017年,Deep Mind在《Nature》上介紹了迄今為止最強的圍棋人工智能AlphaGo Zero[4]。AlphaGo Zero不需要人類專家知識,只使用純粹的深度強化學習技術和蒙特卡羅樹搜索,經過3天自我對弈就以100比0的成績完敗了AlphaGo。AlphaGo Zero證明了深度強化學習的強大能力,也推動了人工智能領域的進一步發(fā)展。2017年底,Deep Mind

      使用類似AlphaGo Zero的算法框架解決了諸多困難的棋類問題,證明其用于大多人類可以掌控玩法的棋類,乃至適用于所有完全信息條件下的二人有限零和博弈問題,并將這一框架命名為AlphaZero。

      以AlphaZero為標志的技術突破,預示著一種具有直覺、認知和自我進化能力的新的人工智能時代的到來,也預示著智能化決策、智能化武器裝備的發(fā)展以及智能化戰(zhàn)爭的到來。針對AlphaZero智能化方法框架的研究可以啟發(fā)人工智能在智能指揮決策、智能化武器裝備等軍事領域的應用,為解決復雜軍事指揮和智能決策問題指明方向[5-8]。 本文將對AlphaZero框架的兩個主要發(fā)展階段AlphaGo和AlphaGo Zero的技術原理進行深入剖析,并以通俗易懂的類比方式進行說明,最后基于對Alpha-Zero的剖析,談談對于AlphaZero以及軍事決策智能化的思考與啟示。

      1 核心技術

      1.1 深度學習

      深度學習起源于傳統(tǒng)的神經網絡,是基于深度神經網絡的一種學習方法,是機器學習的一個特定分支。它通過建立多個隱含層模擬人腦分析學習的機制,吸收大量數(shù)據(jù)的經驗建立規(guī)則(網絡參數(shù)),實現(xiàn)特征的自主學習[9],主要適用于無法編制程序、需求經常改變、有大量數(shù)據(jù)且無需精確求解的一類問題。深度神經網絡組成主要包括輸入、神經元單元、神經網絡、成本函數(shù)和算法。

      深度學習能夠從原始數(shù)據(jù)中逐層提煉出更高級更抽象的特征屬性,每層神經元的處理機制可看作是在對輸入信號進行逐層加工,從而把初始的、與輸出目標之間聯(lián)系不太密切的輸入表示轉化成與輸出目標聯(lián)系更密切的表示,使得傳統(tǒng)神經網絡僅基于最后一層輸出映射難以完成的任務成為可能[10]。換言之,通過多層處理,逐漸將初始的“低層”特征表示轉化為“高層”特征表示后,即可用“簡單模型”完成復雜的學習任務,而且網絡層數(shù)越多,意味著能夠提取到的特征越豐富,越抽象,越具有語義特征。

      1.2 強化學習

      強化學習(Reinforcement Learning,RL)又叫做增強學習,是近年來機器學習和智能控制領域的主要方法之一,它關注的是智能體如何在目標環(huán)境中采取一系列行為從而獲得最大的價值回報。強化學習是機器學習中一個非常活躍且有趣的領域,相比其他學習方法,強化學習更接近生物學習的本質,因此有望獲得更高的智能,這一點在棋類游戲中已經得到體現(xiàn)。

      更抽象地,可以對強化學習所要解決的問題進行如下描述: 在目標環(huán)境(E)中存在多種狀態(tài)(S,狀態(tài)空間集合)階段,通過行動(A,動作空間集合)可以使得狀態(tài)發(fā)生轉移(P,狀態(tài)轉移的條件概率矩陣),狀態(tài)的變遷會帶來獎勵(R,價值函數(shù)),而目標就是學得一種策略(π)使獎勵最大化[11]。因此強化學習中的目標環(huán)境對應一個四元組E=,目標就是學會策略π。策略π可以表示成一個函數(shù),如果π屬于確定性策略,其可以表示為π: S→A,即輸入當前狀態(tài)s∈S策略π輸出自己建議的動作a∈A;如果π屬于概率性策略,其可以表示為S×A→R,即已知當前狀態(tài)s∈S時,策略輸出采用動作a∈A的可能性是多少(通常是0~1的實數(shù))。

      通常情況,根據(jù)環(huán)境四元組E=是否完全已知,強化學習可分為有模型學習和免模型學習。

      有模型學習表示四元組E=已知,即機器可以對環(huán)境進行完整建模,能在機器內部模擬出與環(huán)境相同或近似的狀況,可通過模擬推算出來不同策略帶來的價值回報,通過不斷的模擬計算,總能找出一個或多個最優(yōu)的策略來得到最大的回報,因此在模型已知時,強化學習任務能夠歸結為基于動態(tài)規(guī)劃的尋優(yōu)問題。

      在實際的強化學習任務中,環(huán)境中狀態(tài)的轉移概率P、價值函數(shù)R通常很難得到,甚至很難知道環(huán)境中一共有多少狀態(tài), 因此將學習算法不依賴于環(huán)境建模的方法稱為免模型學習,這比有模型學習更困難也更實用。由于模型未知,無法通過計算的方式得到準確的最終獎勵, 因此只能通過在環(huán)境中執(zhí)行選擇的動作來觀察狀態(tài)的轉移情況以及得到的獎勵,并利用蒙特卡羅思想,用多次“采樣”的平均值來近似表示實際的價值函數(shù),同時在多次“采樣”過程中,發(fā)現(xiàn)存在的狀態(tài)集合和狀態(tài)之間的轉移關系。換言之,通過不斷的嘗試,去近似估計未知參數(shù),然后再通過對不同策略的嘗試與評估,總結歸納并優(yōu)化策略。

      然而在實際任務處理過程中,由于資源、實時性、處理能力等方面的限制,“嘗試”的機會往往是有限的,在這有限的嘗試中,既需要通過探索去發(fā)現(xiàn)更多的選擇并提高參數(shù)估計的準確性,另一方面還希望利用現(xiàn)有的最佳策略盡可能得到更多的獎勵(類似于有限次數(shù)多搖臂老虎機賭博問題),因此,如何在探索和利用之間進行權衡是強化學習的一個關鍵任務。可以看出,探索的過程就是一個“試錯”的過程,如果機器有一定的經驗,可以有選擇性地探索,加快探索效率;如果機器沒有任何經驗,也可以從隨機開始,在不斷試錯的過程中成長,基于成長后的策略進行選擇性的探索同樣可以加快探索效率。所以強化學習可以不依賴任何人類知識而學習到目標知識,類似于人類探索未知事物的學習方式。

      1.3 蒙特卡羅樹搜索

      蒙特卡羅樹搜索(Monte Carlo Tree Search),一種通過隨機游戲推演來逐漸建立一棵不對稱搜索樹的過程,它是人工智能領域中尋找最優(yōu)決策的一種方法。

      蒙特卡羅樹搜索采用樹狀結構表征圍棋博弈問題,初始階段棋盤為空,這構成博弈樹的根節(jié)點,此時可以選擇的動作有361種,因此根節(jié)點就有361個分支,隨機選擇一個分支,并以此類推可以使得分支逐步生長,直到終結點(Terminal Node)游戲結束,這一過程就是一次遍歷過程。如果通過足夠多次的嘗試將每一個節(jié)點都遍歷到,就能生長出一棵完整的博弈樹。基于這棵完整的博弈樹,可以在任何狀態(tài)下規(guī)劃下一步的最優(yōu)決策以走向勝利(在完整決策樹已知的情況下,博弈游戲的勝負完全由猜先決定,即先手必勝或先手必敗)。

      若假設完整的博弈樹已知,接下來就要規(guī)劃下棋的策略。在規(guī)劃的過程中,每一狀態(tài)的動作選擇依賴于對動作的價值評估或者說勝負評估,不僅要規(guī)劃自己的策略,同時還要考慮對手的決策。在規(guī)劃過程中,不確定對手的決策能力,但為了使決策規(guī)劃更具實用性,只能假定對手會全力追求勝利,因此,規(guī)劃的過程是一個基于價值評估的極小極大交替選擇過程,也可以說是價值評估的傳遞過程[12]。

      然而,這一過程的探索規(guī)模隨搜索寬度和深度的增加成指數(shù)速度擴大,對于圍棋這樣的游戲,遍歷得到整個博弈樹是不現(xiàn)實的。人類棋手并不會對全部空間進行暴力搜索,而是基于棋感對少數(shù)候選方案進行一定步數(shù)的推演決策,顯著降低搜索寬度和深度。

      因此,在大空間博弈問題中,設計者往往采用低復雜度搜索算法,如蒙特卡羅樹搜索算法。蒙特卡羅樹搜索減少了搜索的寬度和深度,并在有限的遍歷過程中,尋找到最有潛力的下一步行動,即形成決策。其主要思想是: 在寬度方面,通過一定次數(shù)的遍歷后,部分分支會表現(xiàn)出更高的勝率,將有限的遍歷集中在這類更有潛力的分支上,以減少搜索的寬度;與此同時,基于潛力的傾向性遍歷會增加縱深方向單步搜索的計算復雜度,使得深度方向的搜索時間更長;因此在深度方面,為了避免復雜搜索算法導致的搜索代價增加,可以在搜索到某一中間節(jié)點時停止搜索,用基于簡單算法(如均勻隨機算法)的模擬過程執(zhí)行到終結點或者在停止搜索后利用評估函數(shù)直接預測當前中間節(jié)點盤面的勝負。

      蒙特卡羅樹搜索是沿著博弈樹向下的一組循環(huán)遍歷過程。單次遍歷的路徑會從根節(jié)點(當前博弈狀態(tài))延伸到沒有完全展開的節(jié)點。未完全展開的節(jié)點意味著其子節(jié)點至少有一個未訪問到。遇到未完全展開的節(jié)點時,其一個未訪問子節(jié)點將會作為單次模擬的根節(jié)點推演到終盤,隨后模擬的結果將會反向傳播回當前樹的根節(jié)點,并更新博弈樹的節(jié)點統(tǒng)計數(shù)據(jù)。一旦循環(huán)遍歷過程受限于時間或算力而終止,下一步行動將基于收集到的統(tǒng)計數(shù)據(jù)進行決策。蒙特卡羅樹搜索步驟如圖1所示[13]。

      由于蒙特卡羅樹搜索采用了傾向性搜索算法以減少不必要的探索過程,但是這也增加了陷入局部最優(yōu)的可能性,因此與強化學習類似,蒙特卡羅樹搜索算法也存在探索和利用的權衡問題。

      2 AlphaGo

      2.1 AlphaGo的結構組成

      AlphaGo由監(jiān)督學習策略網絡(Supervised LearningPolicy Network,簡稱SL策略網絡)、強化學習策略網絡(Reinforcement LearningPolicy Network,簡稱RL策略網絡)、快速走棋策略網絡(Rollout Policy Network)和價值網絡(Value Network)組成,其中策略網絡用于模擬人類的“棋感”,而價值網絡用于模擬人類對盤面的綜合評估,即盤面勝負評估。

      SL策略網絡是一個13層的深度卷積神經網絡,該網絡的輸入是棋盤特征,也叫做盤面,其表現(xiàn)形式是一個19×19×48二值平面,19×19是圍棋的棋盤布局,48個平面對應不同的盤面特征信息[14](如棋子顏色、輪次、氣、打吃數(shù)目等)。輸入經過13層深度卷積神經網絡的逐層理解和分析,最終輸出一個走棋策略pσ(a|s), 表示當前狀態(tài)s下所有合法動作a的概率分布,其中σ表示該網絡的權重參數(shù)。SL策略網絡的決策計算速度是3 ms/步,主要用于在蒙特卡羅樹搜索的選擇階段提供先驗概率信息。

      RL策略網絡本質上是以訓練好的SL策略網絡為初始狀態(tài),通過強化學習過程優(yōu)化SL策略網絡中的網絡權重參數(shù)后得到的新策略網絡。因此其結構及輸入、輸出的形式同SL策略網絡一樣,標記為pρ(a|s), 該策略網絡用于產生自對弈棋譜供價值網絡進行訓練。

      快速走棋策略網絡的學習模型是一個簡單線性模型,輸入簡單且包含人工加工特征,使得輸出pπ(a|s)的棋力較差,但其計算速度非??欤瑑H需2 μs,該策略網絡用于蒙特卡羅樹搜索的模擬評估階段執(zhí)行快速模擬。

      價值網絡依然是一個13層的深度卷積神經網絡,其輸入和SL以及RL策略網絡一樣,都是當前的盤面信息,區(qū)別僅在于其輸出為對當前盤面結局(輸贏的期望)的預測vθ(s),價值網絡的輸出同樣用于蒙特卡羅樹搜索的模擬評估階段,以直接提供對葉節(jié)點盤面的結局預測。

      可以看出, SL策略網絡、RL策略網絡及價值網絡具有相似甚至相同的結構,這是因為深度神經網絡的不同層的目標是為了提取輸入信息的隱含特征,這些隱含特征對于預測輸贏或決策落子都具有相關性。由于策略網絡與價值網絡的學習目標不同,在最后輸出映射階段兩者的結構會有區(qū)別。另外,即使是目標相同的SL和RL策略網絡,由于訓練方法和數(shù)據(jù)差別,同樣的隱藏特征對結果的影響力上會表現(xiàn)出差別,這一差別可通過網絡中權重的差別體現(xiàn)出來,進而導致產生不同的策略。

      2.2 離線訓練過程

      SL策略網絡的訓練數(shù)據(jù)來自于棋圣堂圍棋服務器(Kiseido Go Server,KGS)上3 000萬個專業(yè)棋手對弈棋譜的落子數(shù)據(jù),

      模擬專業(yè)棋手風格的準確度達到了55.7%。

      快速走棋網絡使用與SL策略網絡相同的訓練數(shù)據(jù),只是提取的數(shù)據(jù)特征較簡單,且使用線性回歸方法進行訓練。在犧牲了部分準確度的情況下極大地提高了走棋的速率??焖僮咂寰W絡與SL策略網絡一樣屬于監(jiān)督學習,類似于人類學習過程中背棋譜的學習階段。

      RL策略網絡采用強化學習方法,訓練時不需要額外的訓練數(shù)據(jù)。第一步,先使用SL策略網絡對RL策略網絡進行初始化;第二步,將當前的RL策略網絡與對手池(在第四步中生成)中之前的某個隨機版本進行對局,得到棋局結果(輸贏);第三步,根據(jù)棋局結果利用強化學習中的策略梯度算法,更新網絡權重以最大化期望結果(贏);第四步,每500次迭代就復制當前網絡參數(shù)到對手池中用于第二步的隨機版本對局。重復上述四個步驟直到參數(shù)收斂穩(wěn)定,即得到最終的RL策略網絡。其中第四步記錄的RL策略網絡的歷史版本是為了防止訓練過程中出現(xiàn)過擬合現(xiàn)象,第二步的對局本質上是和“歷史自我”進行的“自我對弈”。同時也能看出RL策略網絡訓練追求的目標是勝利,與SL策略網絡追求的目標(盡可能地模仿專業(yè)棋手)是不同的,兩者對弈結果統(tǒng)計,RL策略網絡的勝率達到80%。類比人類學習過程,RL策略網絡的訓練近似于有一定基礎的棋手通過與高手對弈不斷提高棋力,追求制勝之道。

      價值網絡的訓練數(shù)據(jù)來自RL策略網絡“自我對弈”過程中產生的棋譜,根據(jù)產生棋譜的最終勝負結果,使用隨機梯度下降法來最小化預測值vθ(S)與實際對弈結果z(贏為+1,輸為-1)間的差值。訓練好的價值網絡可以對棋局進行評估,預測當前盤面的勝負期望,即勝負的概率。類比人類棋手,該訓練過程近似于觀摩大量高手的比賽后使自身具備了豐富的經驗,結合當前盤面和過往經驗能預測棋局的勝負。

      2.3 在線對弈過程

      AlphaGo在線對弈過程以蒙特卡羅樹搜索為主要框架,并結合SL策略網絡、快速走棋網絡和價值網絡以提高蒙特卡羅樹搜索的效率。在對弈前,首先介紹每個蒙特卡羅樹搜索節(jié)點(即盤面s)的統(tǒng)計信息。每一個節(jié)點s包含多條邊連接著s與其子節(jié)點,每一條邊對應一個合法的狀態(tài)-動作對(s,a),每一條邊對應一個六元組統(tǒng)計信息: {P(s,a),Nv(s,a),Nr(s,a),Wv(s,a),Wr(s,a),Q(s,a)},并將其記錄在節(jié)點s處。P(s,a)是樹搜索策略中需要使用的先驗概率,在AlphaGo中P(s,a)是SL策略網絡的輸出。Nv(s,a)是遍歷經過該邊并利用價值網絡評估的次數(shù),而Nr(s,a)則是遍歷經過該邊并利用快速走棋網絡評估的次數(shù)。Wv(s,a)表示Nv(s,a)次價值網絡評估結果的累加值,Wr(s,a)表示Nr(s,a)次快速走棋評估結果的累加值。所以Wv(s,a)/Nv(s,a)和Wr(s,a)/Nr(s,a)分別表示價值網絡和快速走棋網絡模擬對盤面勝負的平均估計。Q(s,a)是價值網絡和快速走棋網絡評估均值的加權平均,表示對應邊的聯(lián)合平均勝負估值,如式(1),除了P(s,a)初始化為SL策略網絡的輸出,其余統(tǒng)計信息初始化值為零。

      Q(s,a)=(1-λ)Wv(s,a)Nv(s,a)+λWr(s,a)Nr(s,a)(1)

      在線對弈過程主要包括四個步驟,如圖2所示。

      選擇:選擇階段,從根節(jié)點開始執(zhí)行樹搜索策略進行分支選擇,搜索執(zhí)行到葉節(jié)點L為止。樹搜索策略基于式(2)進行動作決策,其中u(st,a)是控制參數(shù)用于鼓勵探索,如式(3):

      at=argmaxa(Q(st,a)+u(st,a)), t

      式中: C為常數(shù)??梢钥闯觯敚╯,a)是新展開邊時,Nr(st,a)和Q(st,a)均為0,此時,樹搜索決策主要依賴于先驗概率P(st,a)即SL策略網絡的策略。當經過幾次模擬后,樹搜索決策由Q(st,a)與u(st,a)共同決定,由于u(st,a)隨分母部分1+Nr(st,a)的增大而減小,使得決策傾向于模擬次數(shù)少的分支,進而鼓勵了探索。當模擬次數(shù)進一步增多時,遍歷模擬得到的Q(st,a)值越來越準確,而u(st,a)由于分母的增大趨向于0,此時決策主要依賴于Q(st,a)值。通俗地講,在選擇模擬階段,為減少搜索寬度,AlphaGo傾向于勝率高的分支,但由于模擬次數(shù)少的時候勝負估計不夠準確,所以基于以往的經驗進行指導;同時為了鼓勵探索避免陷入局部最優(yōu)策略,AlphaGo鼓勵探索模擬次數(shù)少的分支,最終,伴隨勝負估計的逐步精確,后續(xù)決策基本僅取決于模擬的結果。

      擴展: 擴展階段會使博弈樹生長出新的葉節(jié)點。在AlphaGo中,當某條邊的訪問次數(shù)大于閾值nthr(動態(tài)閾值,默認40)后,該邊指向的節(jié)點s′將被加入到博弈樹中,并進行統(tǒng)計信息初始化。

      模擬評估: 當?shù)竭_葉節(jié)點sL時,若sL之前沒有使用價值網絡評估過,則將sL節(jié)點加入價值網絡評估隊列以得到vθ(sL);若sL之前訪問并使用價值網絡評估過,則不再進行價值網絡評估,即每個節(jié)點只進行一次價值網絡評估。與此同時,快速走棋網絡則以sL節(jié)點為起點,基于快速走棋策略(ar~pπ(·|st),t>L)模擬執(zhí)行到終盤,得到最終的勝負結果zT,T為終盤時刻。

      反向更新: 由于價值網絡在搜索到葉節(jié)點sL就開始執(zhí)行評估,所以價值網絡評估完成后,就會異步地對遍歷過程t

      反復進行上述四步過程,達到一定次數(shù)后搜索完成,算法選取從根節(jié)點出發(fā)訪問次數(shù)最多的那條邊落子,完成單步落子決策。該條邊對應的子樹也將保留下來作為下一步棋決策的初始狀態(tài),然后重復執(zhí)行蒙特卡羅樹搜索過程進行單步決策,最終走到終盤完成比賽。

      AlphaGo算法的訓練和對弈流程如圖3所示。

      2.4 AlphaGo中的特殊現(xiàn)象

      (1)策略網絡選擇

      基于強化學習的RL策略網絡在與SL策略網絡對弈時,勝率可達到80%,然而在線對弈過程中RL網絡并沒有直接參與決策,僅作為價值網絡訓練數(shù)據(jù)的提供者。這是因為實際實驗中,同等條件下,基于SL策略網絡的對弈效果更好。 還有一種說法是SL策略的探索更具有多樣性,其策略在模仿專業(yè)棋手的棋風時,學到了“大局棋”概念,即跳出當前的局部布局而在其他位置提前進行布局的一種策略。

      (2) 價值網絡不使用人類數(shù)據(jù)訓練

      AlphaGo的價值網絡用于評估盤面的勝負,然而供其訓練的數(shù)據(jù)是強化學習網絡自己產生的,而不是直接使用專業(yè)棋譜。直接原因是RL策略網絡是3個策略網絡中的最強策略。從另一個角度考慮,SL策略網絡不如RL策略網絡是因為其模擬專業(yè)棋手的相似度只有55%,如果直接使用專業(yè)棋譜數(shù)據(jù)(100%相似度)是否會達到更好的效果?對此有學者認為,人類數(shù)據(jù)并不適合價值評估。很多人類的棋局都是因為中間偶然的失誤導致了全盤覆滅(所謂“一著不慎滿盤皆輸”),其中的偶然性非常大,盤面的估值瞬息萬變,所以棋局的結果離理想的估值差距較大。不如讓AlphaGo培養(yǎng)自己的“感覺”,自己的“勝負觀”,而不是輕易被人類棋局的勝負所左右。

      (3) 價值網絡與快速走棋網絡

      按常理揣測,基于強大的RL策略網絡訓練出來的價值網絡,在評估方面應該超越快速走棋網絡。然而,實際實驗當中,同等條件下單純基于價值網絡評估的效果并不如單純基于快速走棋網絡評估的效果,而兩者的結合使得效果有進一步的飛躍。對此現(xiàn)象,可以理解為AlphaGo自己產生的“勝負觀”和人類經驗形成的“勝負觀”具有一定的互補作用,而價值網絡的不足主要是由于網絡本身的表達能力不夠。

      (4) 自暴自棄

      當AlphaGo在判斷自己勝算不足時就會自暴自棄,走棋具有隨機性。筆者推測,在勝算不足時,各個分支的Q(s,a)值都不高(必輸情況下所有Q(s,a)值均為零),此時為了增加探索性的一些擾動機制會使得基于Q(s,a)值的傾向性搜索失去作用,搜索過程呈現(xiàn)擾動機制的隨機性。對于此問題,有人建議在勝算不足的情況下,將模擬對弈的對手替換為棋力較弱的模型,以保持系統(tǒng)的“戰(zhàn)斗意志”。但這種方式間接將勝利寄托在對方的失誤。

      (5) “神之一手”

      在AlphaGo和職業(yè)棋手李世石比賽的第四盤中,李世石第78手成為棋局的點睛之筆,使其獲得了比賽的唯一一場勝利,這一手棋被稱為“神之一手”。賽后,AlphaGo的設計團隊多次分析實戰(zhàn)數(shù)據(jù),結論都是“人類棋手幾乎不會下的一手”,“人類棋手下這步棋的概率不到萬分之一”。由于基于人類訓練數(shù)據(jù)產生的SL策略網絡的相似度僅有55%,所以無法評論AlphaGo忽略這“萬分之一”可能性的原因,是相似度不夠高還是這一步真的出乎意料。但不管是哪種原因,究其本質還是在探索和利用的天平太偏向于利用,忽視了小概率走法。

      3 AlphaGo Zero

      AlphaGo Zero是AlphaZero框架圍棋系列的最新一款產品,是AlphaZero框架設計思路的具體表現(xiàn)形式。AlphaGo Zero擺脫了人類知識的約束,能夠在沒有人類知識做指導和訓練的條件下學得圍棋的下法和人類棋譜中的“定式”,并且發(fā)現(xiàn)人類未知的新“定式”,創(chuàng)作了知識,也印證了強化學習的強大。

      3.1 AlphaGo的不足

      (1) 結構復雜

      AlphaGo由4個網絡構成:3個策略網絡,1個價值網絡。策略網絡功能相同,卻無法互相替代。價值網絡和快速走棋網絡用途相同,但功能互補無法舍棄。這既浪費了有限的平臺算力(間接影響了棋力),也暗示了AlphaGo的網絡并不完美。

      (2) 人類經驗的羈絆

      “盡信書,不如無書。”以往的人類經驗可以減少搜索空間,并使算法快速穩(wěn)定地收斂到更優(yōu)策略,但同時也局限了人類的探索范圍。AlphaGo中的強化學習網絡就嘗試擺脫人類經驗的束縛,但其初始狀態(tài)仍然是人類經驗的體現(xiàn)。

      (3)RL策略網絡仍然存在性能瓶頸

      強化學習利用策略模擬、策略改進、策略再模擬的迭代過程來優(yōu)化網絡結構,其效果固然強大,但策略改進的效率決定了其最終效果,目前AlphaGo簡單地通過自我對弈還無法達到最佳的效果,因此從現(xiàn)有策略如何提高是一個關鍵問題。

      (4) 探索與利用

      探索與利用的權衡對于強化學習以及蒙特卡羅樹搜索方法的性能都具有顯著的影響。盡管AlphaGo中加入了豐富探索多樣性的機制,但目前并沒有理論可以證明怎樣的平衡才能達到最佳。式(2)中的紅利u(st,a)雖然鼓勵探索,但是式(2)本身屬于確定性決策方式(決策時動作選擇不是概率性的采樣),使得某一分支占優(yōu)后很難跳出去探索其他分支?!吧裰皇帧钡某霈F(xiàn)進一步印證了AlphaGo探索不足的問題。

      以上不足為AlphaGo Zero的設計指引了方向,將在AlphaGo Zero的設計思想中看到針對以上問題的處理。

      3.2 AlphaGo Zero的結構組成

      AlphaGo Zero將原先兩個結構獨立的策略網絡(SL策略網絡和快速走棋網絡)和價值網絡合為一體,合并成一個深度神經網絡。在該神經網絡中,從輸入層到中間層的權重是完全共享的(AlphaGo中SL策略網絡和價值網絡結構共享,權重獨立),最后的輸出階段分成了策略函數(shù)輸出和價值函數(shù)輸出。此外,在AlphaGo中采用的13個卷積層網絡被替換成19(擴展版為39)個殘差模塊(或殘差網絡),形成了深度殘差神經網絡fθ(s),通過實現(xiàn)更深的神經網絡以提取到更豐富、更抽象的輸入特征,并具有了更強的表達能力。AlphaGo Zero的網絡結構如圖4所示。

      深度殘差網絡輸入的盤面狀態(tài)s是19×19×17的二值平面,相比于AlphaGo的策略網絡更加簡潔。主要有3部分內容: 己方棋面,對方棋面,當前執(zhí)棋顏色。輸入信息經過深度殘差網絡的處理,得到盤面的深層次特征,基于這些特征分別利用策略輸出模塊和價值輸出模塊得到下棋策略p和盤面勝負評估v,其中p為361維向量,表明當前盤面下,不同動作選擇的概率。在AlphaGo Zero中沒有采用快速走棋網絡,其蒙特卡羅樹搜索的模擬評估階段完全依賴于深度殘差網絡的價值輸出v。

      3.3 AlphaGo Zero訓練與對弈過程

      AlphaGo Zero的離線訓練過程蘊含了在線對弈的經過,所以本節(jié)以離線訓練過程介紹為主,并細致介紹其中的蒙特卡羅樹搜索算法。

      3.3.1 離線訓練過程

      AlphaGo Zero僅含有一個深度殘差網絡fθ(s), 輸出為(p,v),其訓練的目標即為優(yōu)化深度殘差網絡的權重參數(shù)θ,使得策略p棋力更強,而勝負評估v更準確。

      初始狀態(tài)時,由于沒有人類知識的介入,網絡的權重參數(shù)θ以隨機值進行初始化,得到初始深度殘差網絡。將初始深度殘差網絡作為當前的最優(yōu)策略,迭代進行自我對弈、訓練優(yōu)化以及對決評估步驟,最終實現(xiàn)AlphaGo Zero的離線訓練過程,如圖5所示。

      自我對弈: 使用基于當前最優(yōu)策略的蒙特卡羅樹搜索進行自我對弈的單步決策。每次單步決策需要經過1 600次蒙特卡羅樹搜索模擬,得到并記錄下當前局面st(t表示自我對弈的第t個單步)的策略πt。策略πt相比于當前最優(yōu)策略是一個更好的策略,因此蒙特卡羅樹搜索進一步提升了強化學習的策略改進速度。根據(jù)策略πt,系統(tǒng)采樣進行當前盤面的動作決策,得到動作at~πt。因此單步決策是一個概率性決策過程,每個動作都有選擇的可能性,選擇概率服從策略πt,這增加了探索的豐富性(改善了AlphaGo的不足(4))。持續(xù)執(zhí)行單步決策過程,直到進行到終盤T時刻,得到結果z,并將該過程記錄下的每一個(st, πt, z)存入棋譜池,用于為后面的訓練優(yōu)化提供數(shù)據(jù)。重復進行自我對弈過程,豐富棋譜池,達到一定次數(shù)后,進行參數(shù)的訓練優(yōu)化過程。

      訓練優(yōu)化: 棋譜池中有大量數(shù)據(jù),從最近500 000盤對弈中進行均勻隨機的盤面采樣,采樣的數(shù)據(jù)(s,π, z)用以優(yōu)化深度殘差網絡的參數(shù)。在已知fθ(s)=(p,v)的情況下,優(yōu)化目標包括希望勝負評估v與實際結果z盡可能一致;希望策略p能盡可能接近策略π。參數(shù)優(yōu)化過程基于損失函數(shù)梯度下降方法,由于深度殘差神經網絡同時輸出策略和勝負評估,因此損失函數(shù)同時考慮勝負評估值和落子概率:

      loss=(z-v)2+(-πTlg p)+cθ2(6)

      式中: 第一部分考慮的是勝負評估結果v與實際結果z的方差;第二部分是輸出策略p和策略π的交叉信息熵,交叉信息熵越小兩個策略就越相似;第三部分是用來防止過擬合現(xiàn)象,其中c為常數(shù)。訓練優(yōu)化過程持續(xù)進行,每完成1 000次訓練步驟就產生一個記錄點,記錄該次訓練后的新參數(shù)。該參數(shù)對應的策略將用在對決評估階段,與當前最優(yōu)策略競爭,確定新的當前最優(yōu)策略。

      對決評估: 為了保證數(shù)據(jù)質量越來越好,需要評估新的記錄點對應策略和當前最優(yōu)策略的優(yōu)劣,擇優(yōu)作為接下來的當前最優(yōu)策略進行自我對弈。

      對決過程中,雙方依次使用蒙特卡羅樹搜索進行單步決策,每次單步決策執(zhí)行1 600次模擬,直到比賽結束;400場比賽后,若記錄點對應策略的勝率達到55%以上,則用其替換當前最優(yōu)策略,并基于新的最優(yōu)策略通過自我對弈繼續(xù)產生更好的數(shù)據(jù);否則,放棄該記錄點,仍采用當前最優(yōu)策略進行自我對弈??梢钥闯觯瑢Q評估過程本質就是在線對弈的過程。

      重復以上三個步驟,深度殘差網絡的棋力就會不斷提升。

      實驗表明[4],AlphaGo Zero 結構經過3天訓練就可以達到AlphaGo Lee(打敗李世石的AlphaGo版本)的棋力;經過40天訓練,其棋力接近穩(wěn)定,較AlphaGo Lee提升了近39%。

      3.3.2 AlphaGo Zero中的蒙特卡羅樹搜索

      在AlphaGo Zero中,蒙特卡羅樹搜索算法貫穿了離線訓練和在線對弈的整個過程。并且,相比于AlphaGo中的蒙特卡羅樹搜索算法,AlphaGo Zero進行了改進優(yōu)化,使得其最終得到了更好的性能。

      AlphaGo Zero中的蒙特卡羅樹搜索算法步驟如圖6所示。相比于AlphaGo,AlphaGo Zero將擴展和模擬評估兩個步驟合并為一個;另外由于刪除了快速走棋網絡,博弈樹的每條邊(s,a)的統(tǒng)計信息簡化為{N(s,a),W(s,a),Q(s,a),P(s,a)},其中N(s,a)表示該邊的模擬次數(shù),W(s,a)是該邊所有模擬過程勝負評估值的總和,Q(s,a)=W(s,a)/N(s,a)是勝負評估均值,P(s,a)是執(zhí)行樹搜索策略時的先驗概率。

      選擇: 該階段和AlphaGo的選擇階段基本一樣,從根節(jié)點s0開始,基于樹搜索策略選擇路徑,直到葉節(jié)點sL。在t

      擴展與評估: 擴展與評估階段同時完成擴展以及勝負評估任務。在該階段,當搜索到達葉節(jié)點sL后,盤面sL送入到深度殘差網絡中進行勝負評估得到v(sL);同時將sL進行擴展(在AlphaGo Zero中擴展閾值為1,即每次模擬都會擴展分支,而在AlphaGo中擴展的閾值為40),擴展后的每條邊(sL,a)的統(tǒng)計信息初始化為{N(sL,a)=0,W(sL,a)=0,Q(sL,a)=0,P(sL,a)=pa}。

      反向更新: 將深度殘差網絡的勝負評估v(sL)反向更新t

      重復以上三個步驟1 600次,即可根據(jù)統(tǒng)計信息進行單步決策。在AlphaGo中,在線對弈時的單步決策完全依賴于動作模擬的次數(shù),而在AlphaGo Zero中,為了增加探索性,在單步決策時引入了退火思想。若將策略向量π表示成概率形式,蒙特卡羅樹搜索輸出的策略如式(10),表示在盤面s0的條件下選擇動作a的概率。在每盤棋的前30步單步決策時,參數(shù)τ=1,每個動作a的概率就是模擬過程出現(xiàn)的頻率,由于對弈過程是基于π(a|s0)的采樣決策,因此在開盤的前30步落棋具有豐富的可能性。在30步之后,τ→0,此時式(10)的分布極其尖銳,出現(xiàn)次數(shù)最多動作的概率趨向于1,其他動作的概率均趨向于0,盡管此時仍然是基于π(a|s0)的采樣決策,但實際效果已轉化為確定性決策。這一機制是考慮到開局時未來變化空間大,無論是策略抑或是勝負評估都不甚準確,此時需要增加探索性避免陷入局部最優(yōu);隨著盤面推進,局勢變化可能性逐步收縮,策略和勝負評估的指導性更準更強,此時則應該遵循蒙特卡羅樹搜索的決策,追求更高的勝率。

      π(a|s0)=N(s0,a)1/τ∑bN(s0,b)1/τ (10)

      3.4 類比小結

      通過分析發(fā)現(xiàn),AlphaGo Zero針對AlphaGo的不足做出了許多改進,兩者技術體系的改進框圖如圖7所示。

      4 思考與啟示

      4.1 對AlphaZero的思考

      AlphaZero框架是以AlphaGo Zero為基礎的深度強化

      學習框架,它去除了AlphaGo Zero中圍棋獨有的算法特征,保留了普適性的學習思想、方法和技巧,適用于完全信息條件下的二人有限零和博弈模型,而其中關于探索與利用的平衡、策略推演方式、結果評估方法等方面對于更廣泛的強化學習領域同樣具有借鑒意義。AlphaZero框架的偉大之處在于第一次讓機器可以不通過任何棋譜,不依賴任何人類的經驗,在只告訴其規(guī)則的前提下,成為一個圍棋高手。這種無師自通的學習模式在人工智能發(fā)展道路上具有里程碑意義。但同時在很多人工智能推廣應用上也存在一些局限,因為嚴格講,圍棋規(guī)則和判定棋局輸贏是一種監(jiān)督信號,所以,說人類無用,或說機器可以自己產生認知都是對AlphaZero理解的不精確。此外,目前AlphaZero框架仍然需要上百萬盤的自我對弈才能真正掌握圍棋,而這與人類掌握圍棋的過程還有明顯的區(qū)別,可能是思考方式上的本質差別,也可能是學習方式上的差別導致的學習效率的差別。因此AlphaZero的出現(xiàn)固然偉大,但不要對其過分解讀。

      通過對AlphaGo和AlphaGo Zero的分析對比,能夠描繪出AlphaZero框架形成的發(fā)展歷程并發(fā)現(xiàn)其中的關鍵點。首先,深度神經網絡的結構非常重要,網絡的組織形式與層數(shù)決定了網絡表達的豐富性和能力。然后,目前深度學習和強化學習的理論基礎還很薄弱,許多研究都是基于探索性或啟發(fā)式的方法,新方法的優(yōu)劣評估也存在許多定性的經驗性解讀。例如深度學習、強化學習以及蒙特卡羅樹搜索之間的結合之前也有相關的嘗試,但是結合方法的不同,或者某些參數(shù)的差別導致性能相差甚遠,對此現(xiàn)象缺少理論的剖析支撐。這一方面指引學者要加強理論方面的研究,增強算法的可解釋性,從理論層面闡述方法的優(yōu)劣,并以理論的指導去探究更優(yōu)的方法;另一方面,對于“聰明”的科技工作者這也是一個機會,可以在較少的理論基礎條件下通過其他領域知識的觸類旁通或啟發(fā)式的探索,在智能決策領域做出突破。其次,探索和利用的平衡問題可以顯著影響算法性能,通過AlphaGo和AlphaGo Zero的對比可以發(fā)現(xiàn),通過加強探索,強化了系統(tǒng)選擇的多樣性,降低了陷入局部最優(yōu)解的可能性;但同時增加了計算的復雜度,阻礙了算法的收斂,無法滿足具有實時性或準實時性的系統(tǒng)要求。最后,算力問題是智能決策發(fā)展的關鍵支撐。本文并未過多地提及平臺計算能力問題(文獻[3-4]均對計算能力對棋力的影響進行了研究),但在實際應用中平臺算力決定了訓練速度和在線對弈時蒙特卡羅樹搜索的模擬速度,進而決定了“推演模擬”的精度。平臺的計算能力主要由處理芯片決定,業(yè)界的巨頭公司均在人工智能芯片領域投入大量人力和財力,這將是我國人工智能未來發(fā)展的一個重要建設領域。

      4.2 AlphaZero對軍事應用的啟示

      象棋、圍棋等博弈類游戲,本身就是對于軍事戰(zhàn)爭的抽象模擬,因此博弈類游戲的智能決策對于軍事決策的智能化具有重要借鑒意義。在2007年人機國際象棋大賽中,“深藍”一舉擊敗人類棋手卡斯帕羅夫,在全世界引起轟動,同時也引起美國軍方高度關注,提出了“深綠”計劃?!吧罹G”是美國防部高級研究計劃局(DARPA)2007年起支持的一項指揮決策領域研究項目,原計劃執(zhí)行3年,至今未完成,且項目內容已大大減少。該計劃完成的系統(tǒng)將嵌入美國陸軍旅級之上C4ISR的戰(zhàn)時指揮決策支持系統(tǒng)。“深綠”計劃核心思想是借鑒“深藍”,預判敵人的可能行動,從而提前做出決策[5],也就是類似AlphaZero的一個博弈決策系統(tǒng)。

      航空兵器作為未來軍事戰(zhàn)爭的重要作戰(zhàn)力量,同樣需要面臨即將到來的智能化戰(zhàn)爭考驗。目前導彈、飛機中的雷達、制導、目標選取、飛行控制都在向智能化方向發(fā)展[16],在航空兵器智能決策發(fā)展早期,通常使用專家系統(tǒng)與數(shù)據(jù)存儲和通信網絡技術結合,用于機載預警和控制系統(tǒng)等。專家系統(tǒng)通過模型庫、數(shù)據(jù)庫和方法庫的信息輸入,根據(jù)自身知識進行推理決策,完成飛行控制或幫助判斷敵軍位置和動機;而從單一功能上升到戰(zhàn)斗機等完整武器系統(tǒng)指揮,則需要引入類似AlphaZero這類更復雜、更智能的決策技術,特別是在導彈、飛機、無人機這類高速應用場景,人類的反應難以適應戰(zhàn)爭的“秒殺”節(jié)奏,此時智能化決策技術將成為目前可預見的最佳選擇,2016年美國辛辛那提大學研發(fā)的“阿爾法”AI就成功操控F-15戰(zhàn)機擊敗了飛行員駕駛的F-22戰(zhàn)機[17]。更進一步,針對群體裝備系統(tǒng)或體系指揮控制裝備,還需要兵棋推演這類更宏觀的智能決策系統(tǒng),一方面可更準確地預測戰(zhàn)術/戰(zhàn)略實施效果,另一方面可通過兵棋推演系統(tǒng)去驗證和優(yōu)化作戰(zhàn)方案。這類兵棋推演系統(tǒng)也是AlphaZero的重要舞臺。

      因此,AlphaZero的出現(xiàn)為“深綠”、“阿爾法”或者類似系統(tǒng)的設計、訓練和學習方法提供了新的借鑒??梢苑治龊屠斫鈶?zhàn)場特性構建符合戰(zhàn)場態(tài)勢的深度神經網絡結構;然后利用已有的演習和試驗數(shù)據(jù)來構建戰(zhàn)場環(huán)境模型;之后拋棄已有演習數(shù)據(jù),基于戰(zhàn)場環(huán)境的反饋,通過自我對戰(zhàn)的模擬,從零開始逐步學習、理解并認知戰(zhàn)場態(tài)勢,模擬期間合理平衡探索和利用,在有效的時間內得到盡量準確的決策。

      然而,AlphaZero的博弈與實際戰(zhàn)爭仍然存在著極大的差別。AlphaZero的目標是處理完全信息條件下的二人有限零和博弈問題,而戰(zhàn)場指揮問題的本質是一個態(tài)勢感知與估計、實時響應、非完全信息博弈和多智能體協(xié)同等多個問題構成的復雜性系統(tǒng)問題[8]。

      對于態(tài)勢感知與估計問題,AlphaZero能夠提供較好的借鑒示范,但是對于如何描述戰(zhàn)場態(tài)勢輸入、表征和抽象戰(zhàn)場模型、構建戰(zhàn)場環(huán)境,如何選擇與戰(zhàn)場特性相適應的網絡結構等問題仍然需要更進一步的研究。

      對于實時響應問題,一方面,AlphaZero的博弈本質是一個回合制游戲,而戰(zhàn)爭則是即時戰(zhàn)略類游戲,要解決有限狀態(tài)與戰(zhàn)場連續(xù)性的矛盾;另一方面,這也對平臺計算能力提出要求,尤其在2018年4月爆出美國制裁中興事件后,高性能處理芯片將成為一個重要制約因素。

      對于非完全信息博弈問題,一方面,敵人不是合作者,永遠不會有足夠多的信息,甚至會提供虛假數(shù)據(jù)信息誤導決策。另一方面,演訓數(shù)據(jù)較少缺乏學習樣本,如果利用模擬方式生成訓練數(shù)據(jù),則要對模擬的逼真程度提出嚴格的要求。

      對于多智能體協(xié)同問題,實際戰(zhàn)場往往是多人或多方的合作通信及競爭關系,AlphaZero的雙人博弈模型明顯不足,需要將單一模型擴展為多個智能體之間相互合作、通信及競爭的多智能體深度強化學習系統(tǒng)[18]。

      需要特別說明,在航空兵器的飛控、制導等具體任務領域(即不考慮航空兵器的整機指揮或多體的兵棋推演任務),對于AlphaZero,需要有選擇地吸收借鑒。常見的專家系統(tǒng)或基于遺傳算法的智能決策,通常需要提供經過人工模型處理后的信息(如彈道軌跡模型輸出、飛行軌跡模型輸出、地理信息系統(tǒng)輸出、姿態(tài)信息等),這類似于AlphaGo早期訓練時的棋譜學習,這些模型的輸出可以理解為信息或知識的提煉,但也可以看作既有知識的約束。對待這一情況,不能簡單借鑒AlphaZero摒棄人類經驗的做法,因為在圍棋領域里,由于其規(guī)模龐大、價值反饋滯后,人類既有知識歸納和總結存在許多錯誤,這類知識的繼承和學習確實會羈絆和約束學習者;但是航空領域的知識結構成熟且具備一定共識,因此在知識正確的前提下,既有知識反而可以使決策快速收斂,而且經過既有知識“洗滌”過的信息更易處理,實時性好,因此更適用于航空兵器領域中高速物體的實時決策。鑒于此種情況,在航空兵器具體任務領域,可以結合既有知識和AlphaZero的創(chuàng)新學習能力,在實施任務決策時仍然采用基于既有知識模型的專家系統(tǒng),而知識模型的生成則采用AlphaZero的思想進行創(chuàng)造性的學習。此外,基于AlphaZero思想的模型學習系統(tǒng)可以直接部署于飛行器,將實際飛行任務作為訓練數(shù)據(jù)提供給它,實現(xiàn)在線學習,使其可以實時更新知識模型。

      因此,盡管AlphaZero的出現(xiàn),給予了軍事智能決策新的啟示,但對于兩者之間的差別仍有許多問題亟待解決。目前即時戰(zhàn)略游戲的電腦智能研究對于智能決策的實時響應、多智能體協(xié)同問題上具有較多的借鑒意義[19],且新公布的AlphaStar模型已經戰(zhàn)勝專業(yè)玩家,這將是智能決策技術的又一里程碑[20];而“一對一無限注德州撲克”作為非完全信息博弈代表,目前也受到廣泛關注,基于深度強化學習算法的Deep Stack在該游戲中已經具備了職業(yè)玩家的水平[21]。未來我國需要加強在相關領域的探索研究,并大力發(fā)展人工智能領域的芯片設計及制造行業(yè),推動我國軍事決策智能化發(fā)展,在未來作戰(zhàn)指揮決策中取得致勝先機。

      參考文獻:

      [1] Kocsis L, Szepesvari C. Bandit Based Monte-Carlo Planning [C] ∥Proceedings of the European Conference on Machine Learning,2006: 282-293.

      [2] Tian Y D, Zhu Y. Better Computer Go Player with Neural Network and Long-Term Prediction[C]∥ ICLA, 2016.

      [3] Silver D, Huang A, Maddison C, et al. Mastering the Game of Go with Deep Neural Networks and Tree Search [J]. Nature, 2016,529(7587): 484-489.

      [4] Silver D, Schrittwieser J, Siomonyan K, et al. Mastering the Game of Go without Human Knowledge [J]. Nature, 2017, 550(7676): 354-359.

      [5] 胡曉峰, 郭圣明, 賀筱媛. 指揮信息系統(tǒng)的智能化挑戰(zhàn)——“深綠”計劃及AlphaGo帶來的啟示與思考[J]. 指揮信息系統(tǒng)與技術, 2016, 7(3): 1-7.

      Hu Xiaofeng, Guo Shengming, He Xiaoyuan. Challenges to Intelligent Command Information System: Reason and Revelation on “Deep Green” Planand AlphaGo[J]. Command Information System and Technology, 2016, 7(3): 1-7. (in Chinese)

      [6] 胡曉峰. 軍事指揮信息系統(tǒng)中的機器智能:現(xiàn)狀與趨勢[J]. 人民論壇·學術前沿, 2016(15): 22-34.

      Hu Xiaofeng. Machine Intelligence in Military Command Information System: Status and Trends[J]. Peoples Forum·Academic Frontier, 2016(15): 22-34. (in Chinese)

      [7] 陶九陽, 吳琳, 胡曉峰. AlphaGo技術原理分析及人工智能軍事應用展望[J]. 指揮與控制學報, 2016, 2(2): 114-120.

      Tao Jiuyang, Wu Lin, Hu Xiaofeng. Principle Analysis of AlphaGo and Perspective in Military Application of Artificial Intelligence[J]. Journal of Command and Control, 2016, 2(2): 114-120. (in Chinese)

      [8] 唐振韜, 邵坤, 趙冬斌,等. 深度強化學習進展:從AlphaGo到AlphaGo Zero[J]. 控制理論與應用, 2017, 34(12): 1529-1546.

      Tang Zhentao, Shao Kun, Zhao Dongbin, et al. Recent Progress of Deep Reinforcement Learning: from AlphaGo to AlphaGo Zero[J].Control Theory & Applications, 2017, 34(12): 1529-1546. (in Chinese)

      [9]Lecun Y, Bengio Y, Hinton G E. Deep Learning[J]. Nature, 2015, 521(7553): 436-444.

      [10] Goodfellow I, Bengio Y, Courville A. Deep Learning[M]. The MIT Press, 2016.

      [11] 周志華. 機器學習[M]. 北京: 清華大學出版社, 2016.

      Zhou Zhihua. Machine Learning[M]. Beijing: Tsinghua University Press, 2016. (in Chinese)

      [12] 28天自制你的AlphaGo (6) : 蒙特卡羅樹搜索(MCTS)基礎[EB/OL].(2017-03-07)[2019-04-25]. https:∥zhuanlan.zhihu.com/p/25345778.

      Make your AlphaGo in 28 Days (6): The Monte Carlo Tree Search Basics[EB/OL]. (2017-03-07)[2019-04-25]. https:∥zhuanlan.zhihu.com/p/25345778.(in Chinese)

      [13] Browne C B, Powley E, Whitehouse D, et al. A Survey of Monte Carlo Tree Search Methods[J]. IEEE Transactions on Computational Intelligence and AI in Games, 2012, 4(1): 1-43.

      [14] 深度解讀AlphaGo算法原理[EB/OL]. (2016-04-05)[2019-04-25]. https:∥blog.csdn.net/songrotek/article/details/51065143.

      Deep Interpretation of the AlphaGo Algorithm[EB/OL]. (2016-04-05)[2019-04-25].https:∥blog.csdn.net/songrotek/article/details/51065143.(in Chinese)

      [15] 鄭宇,張鈞波. 一張圖解AlphaGo原理及弱點[EB/OL]. http:∥www.kddchina.org/#/Content/alphago.

      Zheng Yu, Zhang Junbo . Illustrating the Principle and weaknesses of AlphaGo in a Picture[EB/OL]. [2019-04-25].http:∥www.kddchina.org/#/Content/alphago.(in Chinese)

      [16] 程進, 齊航, 袁健全, 等. 關于導彈武器智能化發(fā)展的思考[J].

      航空兵器, 2019, 26(1): 20-24.

      Cheng Jin, Qi Hang, Yuan Jianquan, et al. Discussion on the Development of Intelligent Missile Technology[J]. Aero Weaponry, 2019, 26(1): 20-24. (in Chinese)

      [17] 石純民. 當“阿爾法”走上戰(zhàn)場[N]. 中國國防報,2016-07-11.

      Shi Chunmin. When “Alpha” Goes to the Battlefield[N]. China National Defense News, 2016-07-11. (in Chinese)

      [18] 趙冬斌, 邵坤, 朱圓恒,等. 深度強化學習綜述:兼論計算機圍棋的發(fā)展[J]. 控制理論與應用, 2016, 33(6):701-717.

      Zhao Dongbin, Shao Kun, Zhu Yuanheng, et al. Review of Deep Reinforcement Learning and Discussions on the Development of Computer Go[J]. Control Theory & Applications, 2016, 33(6): 701-717. (in Chinese)

      [19] Vinyals O, Ewalds T, Bartunov S, et al. StarCraft Ⅱ: A New Challenge for Reinforcement Learning [EB/OL].(2017-08-16)[2019-04-25]. https:∥arxiv.org/pdf/1708.04782.pdf.

      [20] AlphaStar: Mastering the Real-Time Strategy Game StarCraft Ⅱ[EB/OL]. (2019-01-24)[2019-04-25]. https:∥deepmind.com/blog/alphastar-mastering-real-time-strategy-game-starcraft-ii/.

      [21]Moravcˇík M, Schmid M, Burch N, et al. DeepStack: Expert-Level Artificial Intelligence in Heads-up No-Limit Poker[J]. Science, 2017, 356(6337): 508-513.

      Principle and Enlightenment of AlphaZero

      Tang Chuan,Tao Yerong*,Ma Yueliang

      (Luoyang Electronic Equipment Test Center,Luoyang 471000,China)

      Abstract:

      In recent years, the success of computer Go has triggered another round of artificial intelligence boom. The AlphaZero framework developed from computer Go has been successfully applied to problems which are two-person zero-sum finite game under other complete information conditions. The success of AlphaZero shows the excellent performance of deep learning and reinforcement learning in the field of intelligent decision-making. In this article,three core technologies in the AlphaZero framework, that are deep learning, reinforcement learning and Monte Carlo tree search, are introduced. Then the basic principles of the two key phases of the AlphaZero framework (that is,AlphaGo and AlphaGo Zero) are detailed. Finally,some thoughts on the AlphaZero framework are put forward, andits enlightenment on the intelligence of military decision based on Al-phaZero principle analysis is discussed.

      Key words:deep learning;reinforcement learning;Monte Carlo tree search;AlphaZero;intelligence of military decision; artificial intelligence

      收稿日期:2019-04-25

      作者簡介:唐川(1988-),男,河南開封人,博士,助理研究員,研究方向為人工智能芯片設計。

      通訊作者:陶業(yè)榮(1976-), 男,河南太康人,學士,高級工程師,研究方向為人工智能技術試驗與評估。

      E-mail:taoyerong@126.com

      引用格式:唐川,陶業(yè)榮,麻曰亮. AlphaZero原理與啟示

      [ J].

      航空兵器,2020, 27( 3):27-36.

      Tang Chuan, Tao Yerong, Ma Yueliang.Principle and Enlightenment of AlphaZero[ J]. Aero Weaponry,2020, 27( 3): 27-36.( in Chinese)

      猜你喜歡
      強化學習深度學習人工智能
      2019:人工智能
      商界(2019年12期)2019-01-03 06:59:05
      人工智能與就業(yè)
      IT經理世界(2018年20期)2018-10-24 02:38:24
      基于強化學習的在線訂單配送時隙運能分配
      論“以讀促寫”在初中英語寫作教學中的應用
      智能交通車流自動導引系統(tǒng)
      大經貿(2017年5期)2017-06-19 20:06:37
      數(shù)讀人工智能
      小康(2017年16期)2017-06-07 09:00:59
      MOOC與翻轉課堂融合的深度學習場域建構
      大數(shù)據(jù)技術在反恐怖主義中的應用展望
      分布式系統(tǒng)中基于非合作博弈的調度算法
      深度學習算法應用于巖石圖像處理的可行性研究
      軟件導刊(2016年9期)2016-11-07 22:20:49
      德化县| 赤城县| 池州市| 滦平县| 长春市| 城步| 南郑县| 长春市| 邹平县| 岳池县| 云龙县| 屏东市| 色达县| 精河县| 龙陵县| 和平区| 成都市| 双鸭山市| 澎湖县| 嫩江县| 电白县| 三穗县| 彰化县| 体育| 昌江| 松潘县| 冷水江市| 富顺县| 蚌埠市| 习水县| 临沂市| 临夏市| 绥德县| 铜梁县| 五华县| 三河市| 兴宁市| 饶阳县| 丹江口市| 隆尧县| 克什克腾旗|