金欣
從AlphaGo到AlphaGo Zero,人工智能(Arti fi cial Intelligence,AI)在圍棋領域發(fā)展到了前所未有的高峰.棋類博弈是對戰(zhàn)爭博弈的高度抽象簡化.AlphaGo系列的成功讓人們看到了作戰(zhàn)指揮控制智能化的曙光.尤其是AlphaGo Zero不依賴于大量人類樣本數(shù)據(jù),無需人工參與指導,而且還發(fā)現(xiàn)了很多人類未曾探索過的圍棋定式,讓人們覺得AI具有創(chuàng)造力,能媲美甚至超過人類的指揮藝術.此外,AI在即時戰(zhàn)略(Real-Time Strategy,RTS)游戲、戰(zhàn)術兵棋游戲的斬獲,讓人們覺得指揮控制智能化勢在必行.
然而,真實戰(zhàn)場上的博弈要比棋類、網(wǎng)絡視頻游戲類博弈復雜得多.AlphaGo的AI方法能否直接照搬到作戰(zhàn)指揮控制中?RTS游戲中又為何要拆分出很多具體的問題分別研究?指揮控制智能化問題應當采用哪種方法解決?本文試圖圍繞這些問題進行探討,并拋出一些不成熟的觀點,供業(yè)界爭論探討.
圍棋、兵棋、RTS游戲是3種典型博弈系統(tǒng).圍棋規(guī)則最為簡單,但變化之數(shù)卻相當大.兵棋和RTS游戲的規(guī)則要比圍棋復雜一些,變化也更多.目前,3個領域的AI發(fā)展都非常迅猛,人類均在不同程度上敗給了AI.其中,兵棋與真實戰(zhàn)爭最為接近.在今年的全國性兵棋大賽上,AI以大比分戰(zhàn)勝了人類冠軍選手.但由于其技術方面的文獻不多,以下主要對比分析AlphaGo系列和RTS游戲中AI的不同實現(xiàn)方法.
2016年3月,AlphaGo戰(zhàn)勝李世石,被認為是AI進入新紀元的里程碑事件.2017年初,化名“Master”的升級版AlphaGo以60局全勝的勢頭席卷了整個圍棋界.2017年5月,計算力和網(wǎng)絡深度都大幅增長的AlphaGo以3:0完勝世界排名第一的柯潔,為人類智能在圍棋上占據(jù)了數(shù)千年之久的地位畫上了句號.2017年10月,AlphaGo Zero在完全沒有人類經(jīng)驗的基礎上,通過自我博弈學習的方式,達到了更高的境界,以100:0完勝李世石版AlphaGo,并且發(fā)現(xiàn)了很多人類未曾探索過的圍棋定式,突破了人類迄今為止對圍棋的認知局限,達到了前所未有的高峰.相關事件和評論已經(jīng)很多了,這里不再贅述.
AlphaGo和AlphaGo Zero使用的方法有許多相關解讀[1],限于篇幅這里不再贅述.2016年AlphaGo戰(zhàn)勝李世石時,就已經(jīng)在國內掀起了圍繞指揮控制智能化發(fā)展的研討熱潮[2?5],同時也引發(fā)了一些探索性研究[6?9],但研究者們普遍認為AlphaGo的方法難以復制到指揮控制領域,很大部分原因在于缺少足夠的作戰(zhàn)對抗樣本數(shù)據(jù).2017年AlphaGo Zero再一次觸動了這根神經(jīng),原因是它不再依賴于大量人類棋譜,甚至無需人工參與指導,純粹依靠“自我博弈”的強化學習方式訓練而成.這似乎為缺少樣本數(shù)據(jù)的指揮控制智能化難題另辟蹊徑——只要建造一個計算機模擬的戰(zhàn)爭環(huán)境,讓機器扮演紅藍雙方自我交戰(zhàn),就能訓練出智能模型,用到實際作戰(zhàn)指揮控制中,像AlphaGo那樣戰(zhàn)勝人類指揮員.
對此,本文表示持疑態(tài)度.強化學習確實有不依賴于大量數(shù)據(jù)的優(yōu)點,但也存在延遲回報等問題,一般適用于基本規(guī)則簡單、評判標準明確、效果立竿見影的問題類型.而這些特點在作戰(zhàn)指揮控制中都要打上問號.此外,還有一個很重要的問題是復雜度.AlphaGo系列采用的學習方法可以歸納為一種“從頭到尾”的學習.對于策略網(wǎng),“一頭”是落子前的盤面布局,“一尾”是落子的位置,用機器學習訓練出一張網(wǎng)絡,模擬替代棋手復雜的推理計算過程;對于價值網(wǎng),“一頭”是以落子后的盤面布局,“一尾”是最終勝負結局,也是用機器學習訓練出一張網(wǎng)絡,模擬替代千萬種可能的對弈過程.在Zero版中這兩張網(wǎng)合并成一張,但學習模式并沒有太大變化.這種學習模式能夠勝任圍棋的復雜度,而能否適用于作戰(zhàn)指揮控制的復雜度?下文將會詳細分析.
RTS游戲是一類與戰(zhàn)爭博弈較為接近的游戲.如紅色警戒、星際爭霸、魔獸世界、帝國時代等,都是以戰(zhàn)爭博弈為主題.RTS游戲中的AI研究已經(jīng)系統(tǒng)地開展了許多年[10?15],積累了較大規(guī)模的博弈對抗樣本數(shù)據(jù),形成了用于探索、研究、測試AI模型算法的標準平臺和開源的測試軟件,有頻繁舉行的競賽活動,形成了良好的生態(tài).該領域中的AI已達到了較高的技術水平.阿里多智能體協(xié)作網(wǎng)絡BiCNet已經(jīng)學會了避碰協(xié)調移動、打跑結合、掩護進攻、集火攻擊、跨兵種協(xié)同打擊等人類常用的協(xié)同戰(zhàn)術[12],加上計算機精細的微操作控制,目前已達到人類玩家中等水平,未來在人機對戰(zhàn)中獲勝指日可待.
如果參照AlphaGo“從頭到尾”的學習模式,則策略網(wǎng)的“一頭”是上一時刻的視頻畫面,“一尾”是下一時刻采取的行動,價值網(wǎng)的“一頭”是下一時刻的視頻畫面,“一尾”是最終勝負結局.然而,RTS游戲中的很多AI并沒有這樣設計,而更多的是采用“分而治之”的辦法,分解出一些更加細小、專業(yè)性更強的決策問題,針對性地設計AI算法[10].這些問題包括戰(zhàn)術和戰(zhàn)略兩級.對于單元戰(zhàn)斗行為規(guī)劃、機動路徑規(guī)劃、協(xié)同配合戰(zhàn)術規(guī)劃等戰(zhàn)術級決策問題,常用的AI算法包括博弈樹搜索、蒙特卡洛樹搜索、強化學習等.對于基地和工事建造、戰(zhàn)場環(huán)境偵察、兵力部署和投送等戰(zhàn)略級決策問題,常用的AI算法包括基于案例的推理、分層任務網(wǎng)絡、目標驅動的自主性、狀態(tài)空間規(guī)劃、進化計算、空間推理等.
AlphaGo系列“從頭到尾”的學習模式,和RTS游戲“分而治之”的辦法,哪種更適合作戰(zhàn)指揮控制呢?這取決于學習對象有多復雜.眾所周知,深度學習對樣本數(shù)據(jù)規(guī)模的要求是非常高的,而且學習對象越復雜,樣本規(guī)模要求越大.
圍棋的復雜度是10170,這一點早已被探究過.深度學習之所以能夠成功,是依賴于規(guī)模龐大的樣本數(shù)據(jù).16萬人類棋局規(guī)模已經(jīng)很龐大了,仍然不滿足深度學習的“胃口”,因而又采用“自我博弈”方法產(chǎn)生出數(shù)千萬級別的棋局樣本,才得到戰(zhàn)勝柯潔的網(wǎng)絡模型.AlphaGo Zero用了490萬棋局樣本,雖然有所減少,可依然是一個龐大的數(shù)字.
與圍棋相比,RTS游戲的復雜度又提升了許多.文獻[11]中對星際爭霸游戲的復雜度進行了分析.如果只考慮每個作戰(zhàn)單元每時每刻的位置(128×128可選),400個單元的復雜度就達到了101685.如果考慮作戰(zhàn)資源、打擊點、能源、科技研發(fā)等因素,復雜度還要更高.這也是為什么RTS游戲中大部分AI選擇“分而治之”的辦法.
與RTS游戲相比,真實作戰(zhàn)指揮復雜度又要高出數(shù)不清的數(shù)量級.1)層次更多.RTS游戲只有戰(zhàn)略、戰(zhàn)術2個層級;而真實戰(zhàn)爭分戰(zhàn)略、戰(zhàn)役、戰(zhàn)術、平臺、火力5個層次.2)作戰(zhàn)單元種類和數(shù)量更多.星際爭霸游戲中,每個種族的兵種大約在20種左右,單元數(shù)量上限為200個;而真實戰(zhàn)爭中,裝備種類何止數(shù)百,單元數(shù)量何止數(shù)千.3)單元行為控制更復雜.RTS游戲中向作戰(zhàn)單元下達一個行動指令只需要鼠標點擊幾下;而真實作戰(zhàn)指揮中的行動控制指令通過都需要設定大量控制參數(shù).4)戰(zhàn)場環(huán)境更復雜.RTS游戲中通常只有陸、海、空3種環(huán)境,而且環(huán)境變化通常只有有限的幾種狀態(tài);而真實戰(zhàn)場上,地形、大氣、海況更加復雜,此外還有太空、電磁、網(wǎng)絡等更多復雜環(huán)境.5)作用機理復雜.RTS游戲中裁決一個打擊行動的效果,通常是簡單地基于攻防指標計算得到數(shù)值;而真實戰(zhàn)場上,每個實體行為都有一套復雜的作用機理,涉及到各種各樣的裝備參數(shù)和物理模型.6)評價標準復雜.RTS游戲的評價標準就是輸贏;而真實戰(zhàn)爭中,衡量作戰(zhàn)結果有一套復雜的評估指標體系.
復雜度如此之高,相應的是否有更多樣本數(shù)據(jù)呢?答案是否定的.真實戰(zhàn)爭的代價是任何一個國家都難以承受的.實兵演練的成本很高,且多以科目訓練為主,真正的對抗演練數(shù)量較少,聯(lián)合層面的演練就更少.那么有沒有可能像AlphaGo Zero那樣,打造一個貼近真實戰(zhàn)爭的模擬博弈環(huán)境,通過機器自我交戰(zhàn)的方式產(chǎn)生大量樣本數(shù)據(jù)呢?筆者認為這可能是一個方向,但有很大的難度.一方面在于打造模擬真實戰(zhàn)場環(huán)境的本身是一個挑戰(zhàn),另一方面在于即便打造出來,要做到像圍棋那樣的快速自我博弈也是困難的.因為圍棋推一步對于計算機而言成本幾乎為零,而模擬戰(zhàn)場上的每一個單元行動造成的結果都是綜合大量因素計算出來的,模擬的逼真度越高,需要綜合的因素就越多,計算量也就越大,耗時也就越多.總體而言,短期內可用的作戰(zhàn)指揮控制樣本數(shù)量,遠遠少于圍棋和RTS游戲.
綜上所述,考慮極高的復雜度和極少的可用樣本,認為指揮控制AI不能直接照搬AlphaGo的方法,“從頭到尾”的學習模式實現(xiàn)起來難度太大.相比之下,RTS游戲“分而治之”的辦法可能更加適合指揮控制.將指揮控制AI分解成更為具體的小問題,并嘗試用不同AI方法解決不同具體問題,也許是短期內較好的解決辦法.
縱觀現(xiàn)有的各種AI方法,大體可以分成基于知識和基于學習兩大類,分別對應于指揮員的理性和感性思維模式.
包括數(shù)理計算、邏輯推理、概率推理等方法.基本原理是將客觀事實及相互間作用關系、作用規(guī)律定義為知識,并基于數(shù)學公式、邏輯或概率的形式符號化,從而運用計算、推理等方法進行預測或求解.基于知識的方法對應于指揮人員的理性思維模式,運用掌握的知識理性地推斷和嚴謹?shù)厍笞C.其代表性應用如計算模型、專家系統(tǒng).運用這種理性思維和掌握的知識,既可以分析推斷敵方的關系、意圖和行動,也可以按條令條規(guī)推斷決策、規(guī)劃行動、調度資源.其問題在于獲取知識較難,需要用機器能夠理解的語言“教”會機器.且知識之間多存在沖突,當沖突太多時會影響求解精度,效率也會大幅下降.
包括基于實例的學習、深度學習、強化學習、遷移學習等學習方法.基本原理是從大規(guī)模樣本數(shù)據(jù)中,學習隱含的模型或模式,反過來用于實際問題中進行預測或求解.基于學習的方法對應于指揮人員的感性思維模式,從大量的實踐(樣本數(shù)據(jù))中獲得經(jīng)驗直覺.其代表性應用如圖像識別、語音識別、自然語言處理等.運用這種感性思維,既可以根據(jù)經(jīng)驗直覺判斷敵方可能的行為、形勢是否有利等,也可以按經(jīng)驗直覺做出快速決策.其問題在于遇到不按套路出牌的情況容易出錯,而這在戰(zhàn)爭中并不少見.另一個問題是機器學習對樣本數(shù)據(jù)的規(guī)模和質量要求較高,而真實戰(zhàn)爭的樣本數(shù)據(jù)往往不容易獲得.
傳統(tǒng)基于知識的方法在實際應用中遇到了知識難以獲取、難以轉化應用等瓶頸問題.而另一方面,眼下基于學習的方法在很多領域獲得了成功,開始大行其道.然而,“天下沒有免費的午餐”,任何一種方法都不能適用于所有問題.RTS游戲中的AI綜合運用了多種基于知識和基于學習的方法.指揮控制領域也是如此,采用哪種方法需要具體問題具體分析.
按“分而治之”的理念,對指揮控制AI問題進行了分解,如圖1所示.指揮控制橫向覆蓋OODA過程,縱向跨認知域、信息域、物理域3個功能域.圖1中的曲線表明指揮控制是從信息域出發(fā),經(jīng)過認知域加工,再回到信息域,進而經(jīng)過物理域實踐,最終又回到信息域的一個周而復始的循環(huán)過程.這個循環(huán)既包含戰(zhàn)前籌劃戰(zhàn)中實施戰(zhàn)后總結的大循環(huán),也包含戰(zhàn)中發(fā)現(xiàn)情況采取措施執(zhí)行評估的小循環(huán).
指揮控制AI問題貫穿在這個循環(huán)中.首先按OO、D、A切分成3部分,再按照涉及認知域和物理域的深淺,進一步切分成6個子問題.
1)融合處理.接收各路情報信息,同已掌握的信息之間相互進行關聯(lián)、印證,識別各類戰(zhàn)場實體及其行動,生成一幅共用態(tài)勢圖,形成對戰(zhàn)場情況一致的掌握理解.AI除了可用于圖像、音視頻識別理解外,更多是通過構建知識圖譜,對人類已掌握的各類目標特征、軍事概念、關聯(lián)關系等知識進行建模,并運用關聯(lián)搜索、知識推理等方法實現(xiàn)信息內容的自動提取、語義分析、關聯(lián)匹配,從而將情報參謀人員從海量、多源、異構的信息中解放出來,大幅提升融合處理工作的效率.
圖1 指揮控制AI問題分解
2)態(tài)勢研判.根據(jù)融合處理后掌握的戰(zhàn)場情況,理解戰(zhàn)場上發(fā)生的活動及相互關系、各方勢力強弱、重心分布,估計對方作戰(zhàn)意圖和下一步行動,預測未來戰(zhàn)局走勢,評估戰(zhàn)場態(tài)勢對己方構成的威脅和機遇,形成態(tài)勢研判結論,為制定作戰(zhàn)決策提供依據(jù).這個層次的研判工作具有較強的主觀性,需要辨別欺騙和識別計謀,需要靠直覺判斷戰(zhàn)場形勢利弊,與指揮員的思維習慣和偏好有很大關系.知識很難提煉,很多判斷也無法量化,更多地是憑借經(jīng)驗直覺.因此,建議采用基于學習的方法構造AI,類似AlphaGo的價值網(wǎng),在紅藍對抗中以紅方看到的態(tài)勢為輸入,以指揮員的研判結論或藍方實際的意圖為輸出,讓機器去學習訓練構建經(jīng)驗直覺判斷模型.
3)方案設計.根據(jù)態(tài)勢研判結論,依據(jù)我方控制范圍內的可用兵力及環(huán)境條件,決定是否采取行動及預期達到的終態(tài),并開展任務分解、目標選定、兵力分配、行動設計、協(xié)同組織、保障調配等設計工作,形成若干套候選方案,通過推演分析評估優(yōu)選,最終定下作戰(zhàn)決心.這個層次的設計工作具有較強的藝術性.尤其是“打不打”、“怎么打”之類的問題,是指揮決策藝術的集中體現(xiàn),摻雜著較多情感因素和指揮風格,并且大量運用創(chuàng)新.因此,建議采用基于學習的方法構造AI,類似AlphaGo的策略網(wǎng),以戰(zhàn)場態(tài)勢要素作為輸入,以指揮員制定的方案要素作為輸出,或者根據(jù)模擬推演結果建立賞罰函數(shù),讓機器去學習訓練,逐步優(yōu)化自己的策略模型.
4)計劃制定.根據(jù)作戰(zhàn)決心,細化分解打擊目標、作戰(zhàn)行動、兵力編成編組、行動時序路線、協(xié)同要求、保障資源分配調度等,制定可實施的行動計劃,最終形成可操作的指揮命令序列.這個層次的決策工作主要是將確定的策略落實為可實施的行動計劃,以量化的計算為主.例如出動兵力指派是根據(jù)各個部隊的兵力就緒狀態(tài),參考上級制定的兵力使用建議計算得出.再如兵力投送路線規(guī)劃、交戰(zhàn)過程設計、保障物資規(guī)劃等都是以各種計算、規(guī)則、流程為主.因此,這個層次的AI大量采用基于知識的方法,實現(xiàn)大量計算工作自動化,提升計劃制定效率.
5)個體行動.每個作戰(zhàn)單元執(zhí)行指揮命令,實施探測、打擊、機動、干擾、保障等具體行動,產(chǎn)生物理輸出,導致戰(zhàn)場狀態(tài)發(fā)生轉換.AI主要用于模擬個體行動過程和產(chǎn)生的結果,從而構建一個仿真環(huán)境,支撐作戰(zhàn)方案推演、戰(zhàn)法戰(zhàn)術試驗和指揮人員訓練.各類武器裝備在出廠和使用期間都會做大量的實驗測試,作戰(zhàn)部隊也要經(jīng)過各種訓練和演習.個體行動過程通常都有規(guī)范的流程和規(guī)則約束,行動輸出的能力也有大量的實驗訓練數(shù)據(jù)可查,可以轉換成計算公式,建模相對較為容易.因此這個層面的AI主要是將這些已有的規(guī)則、計算、數(shù)據(jù)建立模型,建議采用基于知識的方法構造AI.
6)群體行動.如編隊協(xié)同突擊、防御,以及聯(lián)合突擊、防御等群體性行為,多個作戰(zhàn)單元同時行動、相互作用,形成綜合輸出,導致戰(zhàn)場形勢發(fā)生轉移.AI主要用于模擬綜合行動的階段變化和產(chǎn)生的形勢轉移效果,用于構建更高層次的戰(zhàn)爭模擬系統(tǒng),支撐作戰(zhàn)效果的預估和戰(zhàn)局走勢的預測.群體行為建模比較困難,行動過程和作用效果會受到多方面因素的影響,在不同場合表現(xiàn)也不同.而且大量的影響因子疊加起來形成的規(guī)律是非線性的,難以用簡單的規(guī)則、計算來表達.因此,建議采用基于學習的方法,利用平時演習訓練和模擬推演積累的大量數(shù)據(jù),學習訓練建立復雜群體行動效果的統(tǒng)計概率模型.
總體而言,指揮控制AI適合采用基于知識還是基于學習的方法主要取決于AI層次深度.圖1中越靠近信息域的AI層次越淺,越偏向規(guī)則、計算等傳統(tǒng)的知識形式,因此越適合采用基于知識的方法構造AI.反之,越靠近認知域和物理域的AI層次越深,越偏向經(jīng)驗數(shù)據(jù)的知識形式,因此越適合采用基于學習的方法構造AI.
AI技術的迅猛發(fā)展顛覆了很多傳統(tǒng)的行業(yè),以機器學習為代表的新方法、新技術讓許多過去解決不了的問題有了突破的可能.深度學習、強化學習方法在AlphaGo中的成功應用,讓人們看到了指揮控制智能化的曙光.然而考慮戰(zhàn)爭的高度復雜性,認為AlphaGo采用的技術方法不能夠直接照搬到指揮控制領域.分解是將復雜問題簡單化的一種有效途徑,包括RTS游戲AI領域也是采取將問題分解分而治之的思路.參照這個思路對指揮控制AI進行分解,分出6類指揮控制AI,并分別給出了基于知識和基于學習兩類方法的適用性分析建議,作為一種觀點,供業(yè)界爭論探討.
然而,目前這6類指揮控制AI問題仍然過于粗線條,適用AI方法的建議有些也過于絕對化.到工程實現(xiàn)上還需進一步分解,并結合具體問題具體分析適用的AI方法.本文主要是表達一種理念,供業(yè)界去爭論探討.
1 SILVER D,HUANG A,MADDISON C J,et al.Mastering the game of Go with deep neural networks and tree search[J].Nature,2016,529(7587):484?489.
2 王飛躍.復雜性與智能化:從Church-Turing Thesis到AlphaGo Thesis及其展望(1)[J].指揮與控制學報,2016,2(1):1?4.
3 王飛躍.復雜性與智能化:從Church-Turing Thesis到AlphaGo Thesis及其展望(2)[J].指揮與控制學報,2016,2(2):89?92.
4胡曉峰,郭圣明,賀筱媛.指揮信息系統(tǒng)的智能化挑戰(zhàn)——“深綠”計劃及AlphaGo帶來的啟示與思考[J].指揮信息系統(tǒng)與技術,2016,7(3):1?7.
5陶九陽,吳琳,胡曉峰.AlphaGo技術原理分析及人工智能軍事應用展望[J].指揮與控制學報,2016,2(2):114?120.
6鄭書奎,吳琳,賀筱媛.基于深度學習的兵棋演習數(shù)據(jù)特征提取方法研究[J].指揮與控制學報,2016,2(3):194?201.
7朱豐,胡曉峰.基于深度學習的戰(zhàn)場態(tài)勢評估綜述與研究展望[J].軍事運籌與系統(tǒng)工程,2016,30(3):22?27.
8蔣曉原,鄧克波.面向未來信息化作戰(zhàn)的指揮信息系統(tǒng)需求[J].指揮信息系統(tǒng)與技術,2016,7(4):1?5.
9 金欣.“深綠”及AlphaGo對指揮與控制智能化的啟示[J].指揮與控制學報,2016,2(3):202?207.
10 ROBERTSON G,WATSON I.A Review of real-time strategy game AI[J].AI Magazine,2014,35(4):75?104.
11 ONTANON S,SYNNAEVE G,URIARTE A,et al.A survey of real-time strategy game AI research and competition in starcraft[J].IEEE Transactions on Computational Intelligence and AI in Games,2013,5(4):1?19.
12 PENGP,YUANQ,WENY,etal.Multiagent bidirectionally-coordinated nets for learning to play starcraftcombatgames[EB/OL].(2017-09-14)[2017-09-16].https://arxiv.org/abs/1703.10069.
13 ADIL K,JIANG F,LIU S,et al.State-of-the-art and open challenges in RTS game-AI and starcraft[J].International Journal of Advanced Computer Science&Applications,2017,8(12):16-24.
14 BURO M,FURTAK T.RTS games as test-bed for real-time AI research[J].Journal of Minimally Invasive Gynecology,2008,21(6):S144-S144.
15 BURO M,FURTAK T M.RTS games and real-time AI research[C]//Behavior Representation in Modeling and Simulation Conference,2004.