胡曉峰 齊大偉
AlphaGo 及其系列智能技術的突破,為智能博弈研究帶來了新曙光,也為智能指揮決策研究指明了探索新方向[1].但是,游戲博弈畢竟不同于戰(zhàn)爭對抗,兩者之間存在著巨大的鴻溝.智能指揮決策有哪些難題,有什么解決思路,正是本文討論的主要內(nèi)容.
美軍最近提出“決策中心戰(zhàn)”,其主要邏輯起點是:美軍過去主要與敘利亞、伊拉克、阿富汗這一類國家或恐怖組織對抗,但他們都沒有對美軍重大戰(zhàn)爭資產(chǎn)(比如航母、基地等)進行打擊的能力,但在美軍設想的未來大國對抗過程中,美軍就不再占有絕對優(yōu)勢,這些資產(chǎn)就有可能被摧毀.所以,必須引入新的作戰(zhàn)概念加以應對,比如分布式作戰(zhàn),把大平臺拆成很多小平臺參與作戰(zhàn),而這就需要能夠作出更快更好的決策,而不是比消耗,這就是所謂“馬賽克戰(zhàn)”的由來.也就是說,“決策復雜度本身也是一種武器”.
要做到這一點,有兩個問題必須解決.1)利用大量自主系統(tǒng)實現(xiàn)分布式作戰(zhàn),用小而多的平臺建設作戰(zhàn)體系.2)基于人工智能的方法建立決策支持工具,采用更智能化的指揮決策輔助手段.而無論哪一種,都需要智能決策技術來輔助,這就對智能決策技術提出了很多需求.
過去不是沒有搞過這種工作,美軍的“深綠”項目就是典型代表[2].美軍于2007年啟動這個系統(tǒng)的研發(fā),試圖在營連級層面上解決智能決策問題.現(xiàn)在回過頭來看,雖然經(jīng)過了十幾年的努力,但除了個別技術取得了進展以外,基本上是以失敗告終.這中間既有可能是智能技術不夠成熟的原因,也有可能是技術路線過于簡單和線性化的原因.
AlphaGo 近幾年的進展為解決智能決策問題帶來了新的曙光.以它為代表的深度學習方法,不僅在游戲上所向披靡,而且也揭示了實現(xiàn)智能決策的某種可能性[3].從最早的AlphaGo 打敗李世石決策,到中間的AlphaZero 實現(xiàn)完全自主學習,再發(fā)展到AlphaStar 在星際爭霸中戰(zhàn)勝人類,給人們帶來了一種感覺:好像通過深度增強學習方法,構建神經(jīng)元網(wǎng)絡,就可以實現(xiàn)決策博弈的智能化,而且可以自然而然地推廣到作戰(zhàn)指揮上.
近年來,舉行了很多兵棋大賽和人機對抗比賽,也產(chǎn)生了很多成果,在不同層次、不同重點、不同類型的技術上也取得了許多進步.但總的來看,它們大多是模仿從AlphaGo 到AlphaStar 的方法,利用深度增強學習方法解決問題.不過也有特例,比如AlphaAI 飛行員,使用的是更經(jīng)典的遺傳模糊邏輯算法.但是這些號稱戰(zhàn)勝人類的系統(tǒng)是不是都實現(xiàn)了智能決策呢?總體來看,它們雖然重點不同,在決策上也存在著很大的差異,都號稱自己戰(zhàn)勝了人類,但是技術本質(zhì)其實區(qū)別不大,并沒有真正解決指揮決策問題.主要表現(xiàn)在:第1 類,比的大多是操作決策的速度,比如在對抗游戲中比的“手速”;第2 類,比的是簡單判斷和選擇速度,比如AlphaAI 的250 倍“判速”;第3 類,比的是規(guī)劃算法的計算速度,比如某海空兵棋的“算速”;第4 類,雖然有一定的自主決策能力,但是判勝準則卻比較簡單,比如只關注“損耗”或“占地”.這些決策雖然大多都是“自主”完成的,但與實際作戰(zhàn)指揮決策相差甚遠,很難體現(xiàn)出真正的”決策智能”.為什么呢?因為它們大多數(shù)都具有“即時反饋”“目標不變”“對稱博弈”式?jīng)Q策的特點,決策類型比較初級.所以,美軍認為,人工智能遠遠沒有達到替人決策的程度.
一般說來,不同的層次,決策的內(nèi)容和重點是不一樣的.如圖1所示,指揮層面分為指揮層、控制層和技術層,如果用技術/藝術三角形來看,它們所占有的技術和藝術成分是不一樣的.技術層的技術性更多,即時反饋也非???而在控制層,則是技術和藝術并重.在指揮層,則藝術性更多,更多是非即時反饋,也就是說,決策需要很長的時間才能反饋,這就屬于認知決策范疇[4].我們認為,決策智能研究的重點應該放在指揮層和控制層上,也就是說,非即時反饋類決策才是真正的智能決策.
人們研究這種決策的途徑大多是利用游戲,但是游戲在我們看來還是過于簡單,很容易淪落到前面的比各種速度方面.而專業(yè)兵棋系統(tǒng)可以提供一個更像智能的決策背景和試驗環(huán)境.這是因為:1)決策空間大、選擇多,單靠“暴力計算”根本無法完成;2)不完美、不完全決策更加突出,需要真正的“智能”而非簡單判斷;3)具有可測試的試驗環(huán)境,通過仿真平臺執(zhí)行,問題可集中到?jīng)Q策;4)專業(yè)可信的推演模型和數(shù)據(jù),更貼近于實戰(zhàn),成功后易于遷移,對作戰(zhàn)指揮更具參考價值.
要解決智能決策問題,需要先搞清楚問題有哪些,在哪里,以及解決的思路.在這里不談具體的技術問題,只談問題和思路,它們揭示了問題的本質(zhì)以及研究的方向.
指揮決策的基本過程是“觀察、判斷、決策、執(zhí)行”過程(OODA 環(huán)),對抗雙方每一次決策行動(無論層次高低)都是OODA 環(huán)的一次循環(huán)(如圖2所示).其中第1 個階段主要是觀察態(tài)勢和判斷理解,這是態(tài)勢理解;第2 個階段是行動決策和實施行動,是決策行動.
圖1 不同層次的決策內(nèi)容和重點Fig.1 Decision content and key points of different levels
態(tài)勢理解可分為兩方面.1)“態(tài)”,即通過數(shù)據(jù)可得到的狀態(tài)結(jié)果,這是客觀的.2)“勢”,是指揮員對趨勢的認知判斷,這是主觀的.這是兩種不同類型的智能,不能混為一談.前面的“態(tài)”可以看成計算智能,而后面的“勢”才是決策智能.
同樣,決策行動也包含兩個方面.1)理性方面,即指揮決策的規(guī)范化內(nèi)容(科學方法),大多體現(xiàn)在指揮機制、作戰(zhàn)流程、條令條例等理性內(nèi)容上.2)感性方面,主要是指揮決策的創(chuàng)造性內(nèi)容(即藝術創(chuàng)造),包括指揮決策中的靈感與創(chuàng)造、指揮員的個性與經(jīng)驗等.智能的產(chǎn)生主要在感性階段而不是理性階段,理性階段實際上是智能的結(jié)果.
所以,美軍認為指揮是一種藝術,它取決于指揮官的直覺、知識、經(jīng)驗甚至性格,每一名指揮官都有自己的特色.也就是說指揮是藝術、控制是科學.因而,決策智能需要理性和感性的結(jié)合,但對智能的研究更多的是在藝術性方面.那么,智能決策研究面臨哪些難題呢?提出12 個難題.限于篇幅關系,只對前面6 個難題作簡單介紹,其他難題不再詳細闡述,只列出題名[5].
圖2 OODA 環(huán)Fig.2 OODA ring
智能技術有兩種技術路線:1)基于符號模型的“算力法”.比如說“深藍”項目,其基本思路是構建精確模型,建立知識表示或狀態(tài)空間,然后在上述表示或狀態(tài)空間中推理或搜索,通過暴力計算,找到問題的一個“解”,其核心關鍵在于待解決問題存在良好定義的精確符號模型.2)基于元模型的“訓練法”.比如說AlphaGo,它首先構建問題的元模型,然后收集訓練數(shù)據(jù)并標注,選擇合適的神經(jīng)網(wǎng)絡和算法,根據(jù)數(shù)據(jù)擬合原理,用數(shù)據(jù)和算法對神經(jīng)網(wǎng)絡權重進行訓練,從而使誤差最小.其核心關鍵是需要具有充足的樣本數(shù)據(jù)以及合適的算法.
這里有兩個難題:1)脆弱性難題,即不在覆蓋范圍內(nèi)或做少量的修改,就會導致嚴重錯誤;2)工程性難題,需要人工編寫知識庫或需要大量人工標注數(shù)據(jù),建模過程變成了人的數(shù)據(jù)標注過程,沒有這個標注過程,就無法生成AlphaGo 的神經(jīng)元網(wǎng)絡.AlphaGo Zero 可以自我訓練并超越人類,是將“算力法”(簡化決策論模型+ 蒙特卡洛樹搜索)和“訓練法”(殘差網(wǎng)絡+ 強化學習方法)結(jié)合起來,但仍有局限.
那么,這些方法可否直接用于指揮決策,比如戰(zhàn)役戰(zhàn)術兵棋推演中?先看一下戰(zhàn)場時空的復雜性.1)空間復雜性,作戰(zhàn)實體多樣、空間連續(xù)、虛實交錯;2)時間復雜性,動態(tài)微分博弈,不是棋類的序貫決策;3)信息復雜性,不完全、不完美、不確定,效果滯后;4)博弈復雜性,不對稱、不合作、強對抗,充滿迷霧.這一系列的問題使得作戰(zhàn)決策成為最復雜的戰(zhàn)場認知活動,尤其在中高層.從問題空間看,已經(jīng)遠遠地超出了AlphaGo 的圍棋不知道多少個數(shù)量級,也已經(jīng)不是可以用計算能力與數(shù)據(jù)量多少可以衡量的了.而且,指揮員的決策目標會隨著作戰(zhàn)進程不斷調(diào)整,評價準則也會改變.概括起來說,指揮決策還有一些獨特的難點,1)解空間巨大,基本上沒有進行全部探索的可能;2)非即時反饋:決策很長時間才能反饋,那怎么確定反饋必需的“獎懲函數(shù)”呢?3)多目標沖突,也就很難有“超級算法”可以把這些目標全都包含在內(nèi);4)專業(yè)性分工.每個都很復雜,如何實現(xiàn)“智能體專業(yè)分工”,向人類“模仿學習”可能就是關鍵.
這樣看,似乎智能決策問題是無法解決的.但人怎么可以做到呢?這就是智能的奧秘之所在,還需要進行深入地研究.就目前的技術條件來看,解決問題需要新的思路.一般來說有3 種方法:1)應用場景封閉;2)理性與感性結(jié)合;3)利用“已有”知識.這3 種方法說起來容易,做起來其實都不容易.
應用場景封閉.很多智能問題無法解決,都是因為應用場景開放所致,所以應該將智能決策的應用場景封閉在可解決的范圍內(nèi).不試圖解決所有問題,而是限定應用場景范圍,使得所有問題都在模型可解范圍內(nèi),或代表性數(shù)據(jù)集也是有限確定的,這是封閉性準則.強封閉性準則對封閉性提出更高的要求,弱化通用性,即使該場景中出現(xiàn)失誤也不具有致命性,即不會產(chǎn)生致命后果.具體封閉方法需要針對應用場景進行適當剪裁和處理,包括封閉化,改造場景使之具有強封閉性(如人工轉(zhuǎn)為自動流水線);分治法,分解部分環(huán)節(jié)封閉,使其符合準則(如人工與自動線結(jié)合);準封閉化,將可能致命性失誤的部分封閉,其余半封閉(如高鐵).
將應用場景進行封閉,并定位為多個“智能助理”,可能是目前解決作戰(zhàn)指揮智能決策問題唯一可行的技術路線.1)封閉化,可將其限定在專業(yè)兵棋場景下,未來再移植到指揮系統(tǒng);2)分治法,可根據(jù)需要使其盡可能封閉在“可解”小問題范圍內(nèi),比如“紅軍”“藍軍” 分治,“軍兵種”“專業(yè)” 或“任務” 分治等;3)準封閉化,通過標準接口,將可能致命性的部分進行約束封閉.此外,智能決策過程中,必然需要保留人工席位,以彌補人工智能決策帶來的不足,如上級決策、復雜決策等.所以,借助兵棋系統(tǒng),規(guī)范標準接口,實現(xiàn)任務分治,以及人機協(xié)同決策等,通過實現(xiàn)一個個智能助理,最終在系統(tǒng)層面實現(xiàn)智能決策.
理解態(tài)勢是作戰(zhàn)決策的基礎.但是態(tài)勢有簡有繁,低層的戰(zhàn)斗或戰(zhàn)術級態(tài)勢較為簡單,而高層次的戰(zhàn)役戰(zhàn)術級態(tài)勢就非常復雜.要理解態(tài)勢,必須具有扎實的軍事專業(yè)知識、作戰(zhàn)指揮經(jīng)驗才行,而這恰恰是計算機最不擅長的.“人”的決策是建立在態(tài)勢理解基礎上的,但游戲不是,它們實際上只是做到了“知其然而不知其所以然”,決策并沒有建立在“理解”的基礎上,其原因就在于缺乏因果關系.比如,AlphaGo 通過大量數(shù)據(jù)得到的走子網(wǎng)絡,只是通過勝率建立了“知其然”的對應關系,而并非真正對圍棋有了所謂“深刻的理解”.作出的一些所謂“超人”的決策,其實也只是“隨機性創(chuàng)新”起了作用.
Judea Pearl 在其所著的《為什么》一書[6]說到:“機器學習不過是在擬合數(shù)據(jù)和概率分布曲線,并沒有觸及問題的本質(zhì).” 只有自帶因果的機器學習,才適合做推理和決策,而不能僅靠相關性.對非即時反饋決策而言,更應該采用因果推斷模型,而非單純數(shù)據(jù)擬合.《為什么》這本書里給出了一個3 層因果模型.第1 層是觀察-關聯(lián),通過即時反饋就能得到.第2 層是行動-干預,在這一層的即時反饋已經(jīng)變得不太可能了.第3 層是想象-反事實,比如人們會把作戰(zhàn)方案在腦海里推一遍,思考這樣做如何、那樣做又會如何,不這樣做會如何,不那樣做又會如何,但不需要每個都去試.我們必須要解決上兩層非即時反饋決策獨有的因果關系,不能光解決底層的決策問題.
真正的理解必須建立在因果關系基礎之上,而因果關系又有著不同的表現(xiàn)形式.第1 種,可用形式化知識庫表示,這屬于科學方法范疇,如公式、規(guī)則、流程等.第2 種,無法用形式化方法表示,比如復雜系統(tǒng).如圖3所示,復雜系統(tǒng)難以描述系統(tǒng)概念,說不清楚參數(shù)間關系,比如“貓”千姿百態(tài),沒辦法描繪出來.“學習”的介入,可以通過“反推概念”的途徑,擬合生成神經(jīng)網(wǎng)絡.有人說世界萬物可以用4.398 萬億個參數(shù)表達,姑且不論這種說法是否正確,至少這個神經(jīng)網(wǎng)絡的因果是無法解釋的.它只是用一個復雜代替另一個復雜,不過這個復雜是可以復制的.但如果決策都采用這種學習方式,則無異于每個人都經(jīng)歷“從猿到人”的過程,也是行不通的.
圖3 復雜系統(tǒng)的“反推概念”途徑Fig.3 The approach of“reverse reasoning concept”for complex systems
由此可知,真正做到態(tài)勢理解是非常困難的.淺層次所謂的“理解”是可以做到的,比如建立起“知其然”的關系,但是這種理解也不是真正的理解,它是“程序員的理解”,而非智能體的“理解”.戰(zhàn)場態(tài)勢的真正理解更加困難,因為“理解”屬于“認知”的范疇,最終還是要在“認知”上解決[7].“知其所以然”需要因果,自主理解更需要智能體的“人生”常識和體驗.
不理解其實也可以做決策,甚至可以完美決策,難易取決于決策問題與方式.基于科學數(shù)據(jù)的決策,自動化系統(tǒng)就是如此,只要能夠窮舉;基于深度學習的決策,則是非形式化的自主決策,主要基于試錯進行學習.重點談一談自主決策問題.深度學習下的認知是什么?其實就是通過試錯學習,不需要任何已知知識,反復訓練即可,如接拋球.但不是什么都可以隨機試錯的,有些需要承受代價,比如火星探測、戰(zhàn)爭.
試錯學習有許多類型.1)隨機試錯,即無監(jiān)督學習,是“隨機選擇”的進化學習;2)高效試錯,即有監(jiān)督學習,是“自帶答案”的深度學習;3)反饋試錯,則是行為反饋,是基于“獎懲函數(shù)”的強化學習.
AlphaStar 是先進行有監(jiān)督的深度學習,達到基本水準,然后再通過強化學習,不斷提高對抗的水平,最后引入多智能體學習,展開聯(lián)賽式訓練,優(yōu)化它的決策方式.AlphaStar 給我們的啟示是什么呢?1)模仿學習非常重要,不使用人類先驗知識,很難成功,總得有一個起點;2)運用圖神經(jīng)網(wǎng)絡,提高常規(guī)學習方法效率、泛化能力和可解釋性;3)深度長短期記憶網(wǎng)絡(Long Short-Term Memory,LSTM)是核心,用于捕捉?jīng)Q策的長程信息.最后,聯(lián)賽式訓練是支撐,也被稱為“種族強化學習”,強化訓練.
指揮決策有一個科學和藝術的轉(zhuǎn)換過程,決策智能體現(xiàn)在科學和藝術兩個方面(如圖4所示).指揮控制的科學性體現(xiàn)在“知道怎么做時”,如流程、規(guī)劃、優(yōu)化等.指揮控制的藝術性則體現(xiàn)在“不知道怎么做時”,一旦知道了就變成公式、流程、規(guī)則了,是計算智能而不是認知智能了.真正的智能其實主要在做“例外”處理:權衡、選擇和概括,這才是問題的關鍵.
最直接的方式是采取知識圖譜組織和使用“知識”.但建立知識圖譜并不容易,許多人把知識圖譜作為資料的堆砌,這是不對的.建立知識圖譜的形式有兩種.1)依托靜態(tài)、形式化知識建立圖譜.大量知識以條令條例、作戰(zhàn)規(guī)則、活動流程等形式存在,而這需要經(jīng)過知識數(shù)據(jù)化、知識網(wǎng)絡化再到場景化知識圖譜的轉(zhuǎn)化過程,然后根據(jù)分析建立合適的知識網(wǎng)絡,實現(xiàn)對作戰(zhàn)行動進行推薦.決策知識價值,取決于知識所在的決策場景(context).同一個作戰(zhàn)行動在不同行動場景下的含義可以不同(實體、行為、事件).所以,知識圖譜的構建必須從基本作戰(zhàn)場景(上下文)開始生成.但如果樣本不足,對場景中“模式”的識別很難泛化.2)依托動態(tài)、形式化數(shù)據(jù)建立圖譜.通過動態(tài)獲取的海量戰(zhàn)場態(tài)勢數(shù)據(jù)(包括態(tài)勢圖、動態(tài)情報、部隊報告和基礎數(shù)據(jù)等),完成作戰(zhàn)決策知識圖譜的建立(場景、層次相關).建立作戰(zhàn)決策知識圖譜的前提是成為作戰(zhàn)指揮專家,技術反而是其次.很多建圖譜的人是技術人員,不懂得作戰(zhàn),結(jié)果建起來的圖譜往往沒有用.
圖4 決策智能的體現(xiàn)Fig.4 Embodiment of decision intelligence
建立圖譜有3 個難題:1)“常識” 難題,自主決策必須要有常識的支持.因為任何“自主”決策都應該假設在“人類常識” 限定下做出,所謂“智能” 才能成立,而“自動”決策則不需要.但是,作戰(zhàn)決策的常識有哪些?在哪里?怎樣才能建立?這是一個難題.2)“不斷學習”難題,也就是決策智能必須與時俱進.決策知識圖譜需要不斷更新、學習和理解,既包括了解到的新情報,也包括學習到的新知識.這就要求知識圖譜必須是“活”的,做到外部實時更新+內(nèi)部認知改變.3)“融合”難題,就是與神經(jīng)元網(wǎng)絡的融合知識表示.知識圖譜屬于符號主義,效率高但能夠表達的知識有限,怎么與神經(jīng)元網(wǎng)絡融合到一起,將兩者的優(yōu)點結(jié)合起來?解決“融合” 難題,需要將符號主義、連接主義甚至行為主義方法結(jié)合起來.DeepMind 公司研究將知識圖譜與深度學習結(jié)合起來,形成“圖網(wǎng)絡”.許多學者也在研究圖神經(jīng)網(wǎng)絡(Graph Neural Networks,GNN),用深度學習方法處理圖譜.比如參考人的“快思考”和“慢思考”兩種思維機制,把直覺系統(tǒng)與推理系統(tǒng)結(jié)合,建立圖神經(jīng)網(wǎng)絡,這可以看成是“認知圖譜”,實際就是圖網(wǎng)絡+推理.
還有一種方法是決策樹和神經(jīng)網(wǎng)絡的結(jié)合,面向具體對象的決策行為學習與知識圖譜.越高層的決策越抽象,越應該基于人類知識已知的因果.比如加州大學的“基于神經(jīng)網(wǎng)絡的決策樹(Neural-Backed Decision Trees,NBDT)” 項目,它用神經(jīng)網(wǎng)絡進行低層次決策,而用決策樹保持高層次的可解釋性,兼顧準確性和可理解性[8].當建立圖譜的時候,“理解”也就建立起來了.這提示:兩者的結(jié)合,才能更好地適應指揮決策的特點[9].
作戰(zhàn)指揮決策是復雜智能行為,涉及到不同領域、不同專業(yè),僅依靠訓練單一“超級智能體”來實現(xiàn)是不可行的.原因有:1)有監(jiān)督的深度學習樣本很少,而且很難表達和訓練;2)強化學習的獎懲函數(shù)在指揮層面是一個難題;3)各種決策準則在多目標下很難協(xié)調(diào),還可能會相互制約;4)可能還需要“人”的介入,也需要進行協(xié)同和協(xié)調(diào).
在指揮決策中,不管是理性決策(運籌與規(guī)劃),還是經(jīng)驗決策(數(shù)據(jù)與靈感),實際上都是“涌現(xiàn)”出來的.根據(jù)復雜系統(tǒng)理論,“涌現(xiàn)” 的產(chǎn)生可以在簡單條件下實現(xiàn):1)只需感知局部的簡單運算,不需要通曉全局,這樣才不會導致僵化;2)要有足夠多的智能體,并以非線性方式交互,這樣行為才不會機械;3)創(chuàng)新產(chǎn)生在混沌和智慧的邊緣且動態(tài)平衡,這樣才會具有創(chuàng)造性.事實上,根據(jù)哥德爾定理,即使有更多的神經(jīng)元網(wǎng)絡參數(shù),智能也只能在上一層次中涌現(xiàn).
指揮決策也是復雜系統(tǒng),只能靠多種適應、相關、因果和協(xié)同過程的非線性交互和綜合,復雜智能才會涌現(xiàn)出來.主要是因為:1)這是多智能體交互的綜合結(jié)果,通過非線性交互和群體協(xié)同,可以彌補簡單線性算法的不足,既尊重個體,又有協(xié)調(diào),還可能產(chǎn)生創(chuàng)新;2)這是采取“封閉”策略的結(jié)果,這必然導致系統(tǒng)會由很多智能體組成,減少個體難度,但需要共同完成復雜決策任務;3)聯(lián)合指揮機構本就是群體決策,軍兵種、專業(yè)、席位甚至個人都會是獨立的“智能體”.所以,實現(xiàn)復雜決策需要很多個任務規(guī)劃或神經(jīng)元網(wǎng)絡的智能體共同完成.
AlphaStar 中也采用了多智能體,采用基于多智能體強化學習方法,對不同任務進行獨立處理,并采用多智能體組織聯(lián)賽進行優(yōu)化訓練,這是區(qū)別于前代AlphaGo、AlphaZero 的一個重要的技術創(chuàng)新.智能決策需要將“OODA 環(huán)”轉(zhuǎn)化為“OODA 螺旋”(如圖5所示).把“學習”引入OODA 環(huán)中,使博弈具有了學習經(jīng)驗積累的過程,避免了“機械反饋式”簡單循環(huán).反應行動決策、戰(zhàn)術行動決策、戰(zhàn)役行動決策,3 個層次的內(nèi)容是不一樣,每一層學習上升一級,這種學習過程本身就是個螺旋過程.
圖5 OODA 螺旋Fig.5 OODA helix
自主智能決策有3 個環(huán)節(jié):態(tài)勢理解、行動決策、綜合控制,即自主對復雜態(tài)勢作出判斷(目標識別、威脅估計等),并作出科學決策(局部方案生成),根據(jù)總目標對所有OODA 環(huán)實施全局優(yōu)化(選擇).這個過程需要一個起點,就是從“戰(zhàn)場”“知識”和“決策”的抽象表征開始,沒有表征就沒有認知模型.
在解決指揮智能決策問題時,不能忘記已有科學方法,比如已有的線性規(guī)劃、非線性規(guī)劃、動態(tài)規(guī)劃以及其他所有的科學方法,這些是作戰(zhàn)智能決策的基礎.決策就是根據(jù)變化,不斷生成方案并優(yōu)化的選擇過程:理解上級決心,生成解決方案,選擇最優(yōu)方案.這些過程過去都有,如何組合起來才是最重要的.越是高層的決策,抽象過程就越多,最終其實就是各種“選擇”“組合”和“調(diào)度”.高層“智能”可能是從眾多選擇、多層次綜合中涌現(xiàn)出來的.
自主態(tài)勢理解,是感知態(tài)勢并自主得出對當前態(tài)勢的理解和判斷,是基于形式化知識基礎與經(jīng)驗、直覺的結(jié)合,是一個“形式化知識+非形式化知識”的過程(如圖6所示).在這個過程中,需要關注注意力機制和因果關系.
自主行動決策基于“科學化運籌+智能化決策”,是“科學+藝術”的結(jié)合.它是根據(jù)態(tài)勢判斷自主作出決策并下達行動命令,是科學運籌(自動)與智能輔助(自主)的結(jié)合.需要注意的是,決策中有許多只是運籌計算,并不需要真正的“智能”.
“智能”如何才能“涌現(xiàn)”出來?就是“局部優(yōu)化+ 全局平衡+ 控制調(diào)度”,進而導致群體智能涌現(xiàn).我們有很多個大大小小、相互嵌套、對抗的OODA環(huán),跟蹤每個實體、行動和效果,并調(diào)度和選擇之后,分層次、分階段、分不同目標進行調(diào)度運行,就有可能綜合涌現(xiàn)出某種總體效果.在這個過程中,“例外”處理(權衡、選擇或概括)以及“目標”調(diào)整(如根據(jù)SAGE 選擇)也是非常重要的.
難題7:智能決策必須可解釋?結(jié)論是有些可以解釋,有些解釋不了,不要強求所有的決策都可解釋.
難題8:智能決策可否被信任?這個很重要,不信任怎么決策?
難題9:“智能系統(tǒng)”可否交鑰匙?
難題10:“智能水平”如何評?
難題11:“智能程度”如何測?
難題12:“智能對手”是否一樣?結(jié)論是不一樣,藍軍和紅軍無論從技術上還是從系統(tǒng)上都完全不是一個概念,雖然有些方面很相像.
圖6 自主態(tài)勢理解過程Fig.6 Autonomous situation understanding process
1)指揮決策智能目前只能在封閉場景內(nèi)做到.由于決策空間指數(shù)級放大,無論是算力還是探索,既缺乏數(shù)據(jù),也缺乏模型,至少近期限于條件限制,只能封閉應用場景,并用多智能體分別解決.
2)指揮決策應該是運籌算法和智能發(fā)現(xiàn)的綜合.運籌規(guī)劃和規(guī)則反映的本來就是“智能”的結(jié)果,沒必要重新學習.任何決策的機器學習應該不是從零開始,而是必須有個學習起點.
3)決策智能的核心集中在對“例外”的處理,這是很重要的.我們要通過不同類型的智能體完成不同的工作,通過充分交互才能涌現(xiàn)真正的智能.目前只能解決有限問題,經(jīng)費和資源也有限,所以必須突出重點.
決策智能還需要跨過4 道“大坎”.第1 道坎:可解釋性.作戰(zhàn)決策必須建立在可信賴的基礎上,沒有可解釋性,就沒有信賴.但復雜系統(tǒng)本質(zhì)上是不可完全解釋的,只能趨近“盡可解釋”.第2 道坎:終身學習.“現(xiàn)實”決策與“圍棋”決策截然不同,需要不斷適應環(huán)境和學習.第3 道坎:機器常識.人類決策不是“就事論事”,常識是基礎的基礎,但常識又如何組織?第4 道坎:可被信任.到了戰(zhàn)場上,你真的信任機器嗎?出了問題算誰的責任?
總的來說,決策智能從游戲到作戰(zhàn),還有很長的路要走.好在現(xiàn)在已經(jīng)起步了,希望將來會有比較好的、比較大的進展.