劉小虎,張恒巍,馬軍強,張玉臣,譚晶磊
基于攻防博弈的網(wǎng)絡(luò)防御決策方法研究綜述
劉小虎,張恒巍,馬軍強,張玉臣,譚晶磊
(信息工程大學(xué),河南 鄭州 450001)
博弈論研究沖突對抗條件下最優(yōu)決策問題,是網(wǎng)絡(luò)空間安全的基礎(chǔ)理論之一,能夠為解決網(wǎng)絡(luò)防御決策問題提供理論依據(jù)。提煉網(wǎng)絡(luò)攻防所具備的目標(biāo)對立、策略依存、關(guān)系非合作、信息不完備、動態(tài)演化和利益驅(qū)動6個方面博弈特征。在理性局中人假設(shè)和資源有限性假設(shè)的基礎(chǔ)上,采用攻防局中人、攻防策略集、攻防動作集、攻防信息集和攻防收益形式化定義了五元組網(wǎng)絡(luò)攻防博弈模型,分析了博弈均衡的存在條件,總結(jié)出基于攻防博弈模型的網(wǎng)絡(luò)防御決策過程。梳理分析了基于完全信息靜態(tài)博弈、完全信息動態(tài)博弈、不完全信息靜態(tài)博弈、不完全信息動態(tài)博弈、演化博弈、微分博弈、時間博弈和隨機博弈共8種不同類型博弈模型的網(wǎng)絡(luò)防御決策方法的適用場景,綜述其研究思路,給出基于不同類型博弈模型的網(wǎng)絡(luò)防御決策方法的優(yōu)缺點。總結(jié)基于攻防博弈的網(wǎng)絡(luò)防御決策方法的發(fā)展過程,說明防御決策方法具備的優(yōu)勢特點;指出研究過程中面臨著博弈建??紤]因素與模型復(fù)雜度的關(guān)系,博弈推理對信息和數(shù)據(jù)的依賴性,博弈模型的泛化性和遷移性3個問題;并從規(guī)范策略的描述機制、優(yōu)化收益的計算方法以及與其他網(wǎng)絡(luò)安全技術(shù)相互融合3個方面展望了下一步研究方向,說明需要重點解決的問題。
網(wǎng)絡(luò)防御;決策方法;攻防博弈;博弈特征
網(wǎng)絡(luò)攻防過程中,攻擊方和防御方可能有多種策略可供選擇。針對特定的攻擊策略,不同的防御策略會產(chǎn)生不同的安全收益[1]。受資源、能力和偏好等方面限制,防御方面臨著優(yōu)化配置防御資源、選取最優(yōu)防御策略、實現(xiàn)收益最大化的決策問題[2]。
傳統(tǒng)的網(wǎng)絡(luò)防御決策方法較多依靠經(jīng)驗的主觀判斷,難以為網(wǎng)絡(luò)安全管理人員選取防御策略提供有效、可信的建議。網(wǎng)絡(luò)防御決策應(yīng)從決策分析角度,依據(jù)科學(xué)的決策理論和方法分析推理可選策略,篩選得出最優(yōu)防御策略,實現(xiàn)自身收益最大化。博弈論是運用數(shù)學(xué)方法分析沖突對抗條件下個體互動行為及其可能產(chǎn)生后果的理論,在經(jīng)濟學(xué)[3-4]和管理科學(xué)[5-6]中得到了廣泛的應(yīng)用。博弈論能夠解決策略相互依存環(huán)境中如何決策以獲得最大收益的問題,為描述網(wǎng)絡(luò)攻防矛盾沖突提供了一種數(shù)學(xué)框架[7],被認(rèn)為是網(wǎng)絡(luò)空間安全學(xué)科的基礎(chǔ)理論之一[8],在解決網(wǎng)絡(luò)安全問題中應(yīng)用越來越廣泛。文獻(xiàn)[9-13]對基于博弈論的網(wǎng)絡(luò)安全相關(guān)研究進行了綜述。
近年來,基于攻防博弈的網(wǎng)絡(luò)防御決策方法成為研究熱點[14-18],亟須加以綜述。本文提煉網(wǎng)絡(luò)攻防博弈特征,形式化定義網(wǎng)絡(luò)攻防博弈模型,對比基于不同類型攻防博弈模型的網(wǎng)絡(luò)防御決策方法的適用場景和優(yōu)缺點,總結(jié)方法的發(fā)展過程、優(yōu)勢特點和面臨問題,給出下一步重點研究方向。
網(wǎng)絡(luò)攻防博弈特征主要表現(xiàn)為目標(biāo)對立、策略依存、關(guān)系非合作、信息不完備、動態(tài)演化和利益驅(qū)動6個方面。
(1)網(wǎng)絡(luò)攻防雙方的目標(biāo)相互對立
網(wǎng)絡(luò)攻防過程中,攻防雙方都有明確的目標(biāo)。攻擊方通過選取不同的攻擊策略向防御方發(fā)起攻擊,意圖破壞目標(biāo)網(wǎng)絡(luò)系統(tǒng)的機密性、完整性和可用性等安全屬性,使自身收益達(dá)到最大[19-20];防御方通過選取不同的防御策略實施防御行動,目的在于保護己方網(wǎng)絡(luò)系統(tǒng)的機密性、完整性和可用性等安全屬性不被破壞,使自身遭受攻擊后的損失降到最低。因此,網(wǎng)絡(luò)攻防雙方目標(biāo)完全對立、利益針鋒相對、矛盾不可調(diào)和,具有鮮明的對抗特征。
(2)網(wǎng)絡(luò)攻防雙方的策略相互依存
網(wǎng)絡(luò)攻防對抗中,攻防雙方行動彼此制約、相互影響,對抗結(jié)果由雙方策略共同決定。防御效果不僅取決于防御策略本身,還受制于攻擊策略;攻擊效果不僅取決于攻擊策略本身,還受防御策略影響。網(wǎng)絡(luò)攻防雙方存在策略依存關(guān)系,博弈收益以特定攻防策略組合的形式出現(xiàn)[21]。因此,無論是攻擊方還是防御方,均不能忽略攻防雙方的互動決策過程。作為理性的防御方,在防御決策時不僅要考慮自身因素,還應(yīng)考慮攻擊方?jīng)Q策可能帶來的影響,實施“基于系統(tǒng)思維的理性換位思考”。
(3)網(wǎng)絡(luò)攻防雙方的關(guān)系非合作
網(wǎng)絡(luò)攻防雙方是一對天然矛盾體,相互競爭、相互較量,利益相悖、目標(biāo)對立且不可調(diào)和,構(gòu)成了博弈模型的對抗性決策主體[22]。網(wǎng)絡(luò)攻防雙方存在非合作對抗關(guān)系,不存在共同利益,不可能在決策前相互溝通,不會達(dá)成具有約束力的協(xié)議,因此,雙方不存在任何合作的可能。關(guān)系非合作特征決定了網(wǎng)絡(luò)攻防博弈屬于非合作博弈范疇。
(4)網(wǎng)絡(luò)攻防雙方掌握的信息不完備
信息是博弈模型的重要組成元素,能夠影響博弈決策。在一定條件下,信息優(yōu)勢能夠轉(zhuǎn)化為決策優(yōu)勢。局中人掌握的信息越多,則在博弈過程中占優(yōu)的可能性越大。由于網(wǎng)絡(luò)攻防雙方存在非合作對抗關(guān)系,一方不可能事先將自身決策信息告訴對方,攻擊方和防御方一般僅能了解己方信息和部分對方信息,所掌握的信息是有限和不完備的。但是,在動態(tài)對抗過程中,一方可利用貝葉斯法則修正先驗判斷,增強關(guān)于對方的認(rèn)知。
(5)網(wǎng)絡(luò)攻防態(tài)勢不斷動態(tài)演化
從系統(tǒng)論角度理解,安全是動態(tài)演化的過程而非靜止不變的狀態(tài)。網(wǎng)絡(luò)安全是一種涌現(xiàn)屬性[23],涉及微觀?宏觀效應(yīng)(micro-macro link)問題,微觀層面網(wǎng)絡(luò)攻防的動態(tài)博弈行為,會推動宏觀層面網(wǎng)絡(luò)攻防博弈系統(tǒng)狀態(tài)的動態(tài)演化。網(wǎng)絡(luò)邊界越來越模糊,攻擊來源、攻擊手段逐漸復(fù)雜多樣,網(wǎng)絡(luò)攻擊的自動化、智能化、動態(tài)化程度越來越高,傳統(tǒng)的靜態(tài)防御思想已經(jīng)不適合。此外,在網(wǎng)絡(luò)攻防對抗過程中,網(wǎng)絡(luò)環(huán)境、目標(biāo)偏好等關(guān)鍵因素可能會發(fā)生動態(tài)變化。防御方應(yīng)樹立動態(tài)、綜合的安全防御理念,因人、因時、因勢動態(tài)改變防御策略。
(6)網(wǎng)絡(luò)攻防博弈的內(nèi)因是利益驅(qū)動
根據(jù)信息安全經(jīng)濟學(xué)理論,實施防御策略能夠降低預(yù)期損失、產(chǎn)生安全收益,但同時需付出人力、物力、計算等資源成本。理性的網(wǎng)絡(luò)攻擊方和防御方都是“經(jīng)濟人”,試圖在對抗中選擇最大化己方利益的策略。網(wǎng)絡(luò)安全是相對的而不是絕對的,追求絕對安全不切實際。防御方應(yīng)樹立“適度安全”理念,立足實際情況,根據(jù)不同的防御需求和安全能力,通過合理、科學(xué)地選擇防御策略,在成本和收益之間尋找平衡,增強防御決策的科學(xué)性。
為構(gòu)建網(wǎng)絡(luò)攻防博弈模型、開展網(wǎng)絡(luò)防御決策分析,本文給出理性局中人假設(shè)和資源有限性假設(shè)。
假設(shè)2 資源有限性假設(shè):網(wǎng)絡(luò)攻擊方和防御方均受能力、資源和偏好等現(xiàn)實條件約束,可支配的資源、可選取的策略都是有限的而非無限的。
理性局中人假設(shè)和資源有限性假設(shè)均符合網(wǎng)絡(luò)攻防對抗實際。其中,理性局中人假設(shè)是網(wǎng)絡(luò)攻防博弈建模的基礎(chǔ)前提,資源有限性假設(shè)是網(wǎng)絡(luò)攻防博弈分析的約束條件。
定義1 網(wǎng)絡(luò)攻防博弈:網(wǎng)絡(luò)攻防局中人在特定規(guī)則約束下,依據(jù)所掌握的信息,同時或先后、一次或多次地選擇并實施對抗策略,并由此取得各自收益的過程。
(1)攻防局中人
局中人概念在微觀層面指網(wǎng)絡(luò)攻防個體,在宏觀層面指攻擊方群體和防御方群體。在不完全信息博弈分析中,為方便推理,還需要利用海薩尼轉(zhuǎn)換,引入虛擬局中人“自然”,將不確定性條件下的選擇問題轉(zhuǎn)換為風(fēng)險條件下的選擇問題。
(2)攻防策略集
局中人選取的策略可劃分為純策略和混合策略。純策略指局中人在策略集合中直接選用一種策略;混合策略指局中人以一定的概率組合在策略集中選擇若干種策略。
(3)攻防動作集
(4)攻防信息集
(5)攻防收益集
圖1 網(wǎng)絡(luò)攻防過程與博弈模型元素的對應(yīng)關(guān)系
Figure 1 Correspondence between network attack and defense process and elements of game model
網(wǎng)絡(luò)攻防過程與博弈模型元素的對應(yīng)關(guān)系如圖1所示。
納什均衡可通俗理解為“給定你的策略,我的策略是我最好的策略;給定我的策略,你的策略是你最好的策略”。根據(jù)博弈理論,博弈均衡是所有局中人的最優(yōu)策略,屬于競賽對抗過程中的穩(wěn)定局勢。在博弈均衡狀態(tài)下,任何局中人不能通過單方面改變自身策略增加收益。
網(wǎng)絡(luò)攻防博弈中,攻防局中人數(shù)量有限,局中人的策略集合也有限,且網(wǎng)絡(luò)攻防雙方的收益函數(shù)均為實值函數(shù)。因此,網(wǎng)絡(luò)攻防博弈存在混合策略下的博弈均衡。納什均衡的存在性條件對比如表1所示。
表1 納什均衡的存在性條件
Zhang等[25]和劉景瑋等[26]借鑒納什定理,給出了混合策略概率貝葉斯納什均衡的存在性證明和博弈均衡的分析求解方法。結(jié)合表1給出的納什均衡存在性條件,可得出網(wǎng)絡(luò)攻防博弈存在混合策略貝葉斯納什均衡的結(jié)論。
基于攻防博弈模型的網(wǎng)絡(luò)防御決策方法,將以單個決策者為中心的行為分析,推廣到面向攻防對抗的系統(tǒng)推理[27],其決策過程如圖2所示。
圖2 基于攻防博弈模型的網(wǎng)絡(luò)防御決策過程
Figure 2 General process of network defense decision-making based on attack and defense game model
近年來,研究者基于不同類型的網(wǎng)絡(luò)攻防博弈,分別提出了適用于不同場景的網(wǎng)絡(luò)防御決策方法,并在入侵檢測規(guī)則設(shè)定[28-30]、蜜罐策略配置[31-33]、移動目標(biāo)防御[34-37]、網(wǎng)絡(luò)空間欺騙防御[14, 38-39]等策略選取方面得到了一定應(yīng)用。
結(jié)合博弈信息和博弈時序兩個緯度,經(jīng)典博弈模型可劃分為完全信息靜態(tài)、完全信息動態(tài)、不完全信息靜態(tài)和不完全信息動態(tài)4類[40]。研究者基于以上4類博弈分別提出了不同的網(wǎng)絡(luò)防御決策方法。
2.1.1 基于完全信息靜態(tài)博弈的網(wǎng)絡(luò)防御決策方法
(1)適用場景
完全信息靜態(tài)博弈是非合作博弈最基本的類型,適用于網(wǎng)絡(luò)攻防雙方能夠完全掌握對方信息、同時決策且攻防博弈只進行一次的場景。同時決策指的是邏輯上同時,而非時間上同時。例如,攻防雙方在決策時互不掌握對方策略,或者即使掌握對方策略后也不能改變己方所做出的決策,此時,網(wǎng)絡(luò)攻防雙方的決策可看作邏輯上是同時的。
(2)研究思路
基于完全信息靜態(tài)博弈的網(wǎng)絡(luò)防御決策方法,一般采用博弈收益矩陣的形式加以推理分析,在納什均衡解的基礎(chǔ)上給出最優(yōu)防御策略。
(3)相關(guān)研究
姜偉等[41]針對網(wǎng)絡(luò)系統(tǒng)安全測評和最優(yōu)主動防御問題,提出了網(wǎng)絡(luò)防御圖模型以及一種攻防策略分類及量化方法,給出最優(yōu)主動防御策略選取方法。Liu等[42]針對網(wǎng)絡(luò)安全風(fēng)險評估的問題,提出了基于博弈理論的入侵意圖、目標(biāo)和策略推理的形式化模型。王增光等[43]針對軍事信息網(wǎng)絡(luò)的安全風(fēng)險評估問題,提出了基于攻防博弈的網(wǎng)絡(luò)安全風(fēng)險評估方法,并從安全屬性角度量化攻防收益,在風(fēng)險評估的基礎(chǔ)上給出防御策略選取建議。陳永強等[44]針對攻防對抗過程中雙方收益不完全對等的問題,提出了網(wǎng)絡(luò)安全博弈圖,結(jié)合主機重要度以及防御措施成功率計算攻防收益,給出主動防御策略選取方法。
(4)方法優(yōu)缺點
基于完全信息靜態(tài)博弈的網(wǎng)絡(luò)防御決策方法的優(yōu)點是博弈模型容易構(gòu)建、易于推理分析、計算求解相對簡單;缺點是博弈模型較為簡化、前提假設(shè)條件多、適用范圍比較窄,無法應(yīng)用于不完全信息或者攻防過程動態(tài)變化的場景。
2.1.2 基于完全信息動態(tài)博弈的網(wǎng)絡(luò)防御決策方法
(1)適用場景
靜態(tài)博弈和動態(tài)博弈的區(qū)別在于決策是否具有序貫性。完全信息動態(tài)博弈適用于攻防雙方能夠完全掌握對方信息、攻防決策具有先后順序、后行為者能夠觀察先行為者策略,攻防對抗過程具有動態(tài)性特點的場景。
(2)研究思路
基于完全信息動態(tài)博弈的網(wǎng)絡(luò)防御決策方法,一般采用博弈擴展式(攻防博弈樹)的形式加以推理分析,在子博弈完美納什均衡解的基礎(chǔ)上給出最優(yōu)防御策略。
(3)相關(guān)研究
Agah等[45]針對無線傳感網(wǎng)中DoS攻擊的最優(yōu)防御策略選取問題,建立了入侵檢測系統(tǒng)與節(jié)點間的重復(fù)博弈模型,設(shè)計了一種可識別惡意節(jié)點的通信協(xié)議,給出了最優(yōu)策略選取方法。林旺群等[46]針對攻擊方意圖和策略動態(tài)變化情況下的最優(yōu)防御策略選取問題,通過引入虛擬節(jié)點將網(wǎng)絡(luò)攻防圖轉(zhuǎn)化為攻防博弈樹,給出防御策略選取算法。孫騫等[47]針對多路徑組合攻擊環(huán)境下最優(yōu)防御策略的選取問題,定義了攻擊成本、懲罰因子、防御代價,針對多路徑組合攻防特點,建立了攻防博弈模型,給出最優(yōu)防御策略選取方法。
(4)方法優(yōu)缺點
基于完全信息動態(tài)博弈的網(wǎng)絡(luò)防御決策方法的優(yōu)點是考慮到攻防對抗的持續(xù)性和動態(tài)性,可以應(yīng)用于攻擊方意圖、攻擊手段、攻擊路徑、攻擊策略等發(fā)生變化時的網(wǎng)絡(luò)攻防場景;缺點是“完全信息”的前提條件要求較為苛刻,造成決策方法適用的網(wǎng)絡(luò)攻防場景有限。
2.1.3 基于不完全信息靜態(tài)博弈的網(wǎng)絡(luò)防御決策方法
(1)適用場景
不完全信息靜態(tài)博弈又稱靜態(tài)貝葉斯博弈,適用于網(wǎng)絡(luò)攻防對抗中,攻防局中人決策行為在邏輯上同時發(fā)生,且任意一方不能完全獲取另一方?jīng)Q策和收益等關(guān)鍵信息的場景。不完全信息靜態(tài)博弈,引入了類型的概念。類型屬于私人信息,局中人可利用靜態(tài)貝葉斯法則推斷。
(2)研究思路
基于不完全信息靜態(tài)博弈的網(wǎng)絡(luò)防御決策方法,一般采用海薩尼轉(zhuǎn)換,引入虛擬局中人“自然”的形式加以推理分析,在貝葉斯納什均衡解的基礎(chǔ)上給出最優(yōu)防御策略。
(3)相關(guān)研究
王晉東等[48]針對防御決策方法中未考慮攻擊方的類型、防御方的反擊行為等問題,建立網(wǎng)絡(luò)攻防博弈模型,結(jié)合攻擊者類型、防御者反擊行為和攻擊成功率改進收益量化方法,給出了主動防御設(shè)計策略選取方法。陳永強等[49]針對網(wǎng)絡(luò)攻防過程中攻防雙方無法獲取對方信息,以及無法對雙方損益做出準(zhǔn)確判定的問題,建立了模糊靜態(tài)貝葉斯博弈模型,引入三角模糊數(shù)描述攻防雙方的效用函數(shù),設(shè)計了主動防御策略選取方法。余定坤等[50]針對防御決策方法僅考慮攻擊方類型未考慮防御方類型,策略選取可操作性差等問題,將攻防雙方均劃分為多種類型,認(rèn)為攻擊方混合策略是防御方對攻擊方可能采取行動的可信預(yù)測,給出了最優(yōu)混合防御策略選取方法。劉玉嶺等[51]針對蠕蟲病毒的最優(yōu)防御策略選取問題,構(gòu)建了基于靜態(tài)貝葉斯的績效評估模型,提出了基于灰色多屬性理論的防護策略績效評估方法,設(shè)計了最優(yōu)防御策略選取方法。
(4)方法優(yōu)缺點
基于不完全信息靜態(tài)博弈的網(wǎng)絡(luò)防御決策方法的優(yōu)點是考慮到攻防雙方信息掌握的不完全性,相對于完全信息假設(shè),更加符合網(wǎng)絡(luò)攻防的實際特點;缺點是該方法假設(shè)攻防局中人只進行一次博弈,無法應(yīng)用于多次對抗的場景。
2.1.4 基于不完全信息動態(tài)博弈的網(wǎng)絡(luò)防御決策方法
(1)適用場景
不完全信息動態(tài)博弈又稱動態(tài)貝葉斯博弈,適用于網(wǎng)絡(luò)攻防對抗中,攻防局中人行動上有先后順序,后行為者能夠觀察先行為者的行動并獲取有關(guān)先行為者信息的場景。
(2)研究思路
基于不完全信息動態(tài)博弈的網(wǎng)絡(luò)防御決策方法,一般采用海薩尼轉(zhuǎn)換的方法,利用博弈樹加以分析推理,在完美貝葉斯納什均衡解的基礎(chǔ)上給出最優(yōu)防御策略。其中,信號博弈是具有信息傳遞機制的不完全信息動態(tài)博弈。它通過信號傳遞描述局中人策略交互過程,在網(wǎng)絡(luò)主動防御[52-53]、網(wǎng)絡(luò)欺騙防御[54]等領(lǐng)域得到了一定應(yīng)用。
(3)相關(guān)研究
胡永進等[55-56]針對網(wǎng)絡(luò)欺騙防御中最優(yōu)策略選取問題,構(gòu)建了多階段網(wǎng)絡(luò)欺騙博弈模型,考慮網(wǎng)絡(luò)欺騙信號衰減作用,設(shè)計了最優(yōu)網(wǎng)絡(luò)欺騙防御策略選取算法。Yang等[57]針對物聯(lián)網(wǎng)環(huán)境下最優(yōu)防御策略選取問題,結(jié)合物聯(lián)網(wǎng)特點,提出了一種多階段網(wǎng)絡(luò)攻防博弈模型,設(shè)計了防御策略選取算法。Chen等[58]針對工業(yè)控制系統(tǒng)防御釣魚叉式攻擊的最優(yōu)策略選取問題,提出了一種多階段攻防信號博弈模型,采用符號變量量化攻防收益,給出了最優(yōu)策略選取方法,分析了影響博弈結(jié)果的關(guān)鍵因素。Liu等[59]針對基于信號博弈的網(wǎng)絡(luò)防御決策研究大多采用單向信號傳遞機制問題,分析了攻防對抗中的雙向信號傳遞機制,提出了網(wǎng)絡(luò)攻防雙向信號博弈模型,給出最優(yōu)欺騙防御策略選取方法,分析了欺騙信號作用機理。Aydeger等[60]針對Stealthy Link Flooding Attack攻擊的防御策略選取問題,建立了網(wǎng)絡(luò)攻防移動目標(biāo)防御信號博弈模型,通過求解博弈均衡,得出最佳防御策略,有效緩解Stealthy Link Flooding Attack攻擊。Pawlick等[61-62]針對網(wǎng)絡(luò)欺騙防御中最優(yōu)防御策略選取問題,建立了網(wǎng)絡(luò)攻防信號博弈模型,在分析博弈均衡的基礎(chǔ)上,得出最優(yōu)欺騙防御策略。
(4)方法優(yōu)缺點
基于不完全信息動態(tài)博弈的網(wǎng)絡(luò)防御決策方法的優(yōu)點是考慮了網(wǎng)絡(luò)攻防對抗的動態(tài)性和持續(xù)性,能夠刻畫具有多階段、多回合特點的對抗過程[63];缺點是網(wǎng)絡(luò)攻防建模工作量大,博弈均衡分析求解相對復(fù)雜。
近年來,演化博弈、微分博弈、時間博弈和隨機博弈等新型博弈類型,越來越多地應(yīng)用到網(wǎng)絡(luò)防御決策方法研究中。
2.2.1 基于演化博弈的網(wǎng)絡(luò)防御決策方法
(1)適用場景
經(jīng)典博弈理論一般假設(shè)局中人完全理性,具有無限的信息處理和計算能力,并且在決策過程不會出現(xiàn)失誤、不受別人影響。然而在網(wǎng)絡(luò)攻防對抗中該假設(shè)很難滿足,攻防雙方的理性都是有限而非完全的。演化博弈以隨時間動態(tài)演化的群體為研究對象,突破了局中人完全理性限制[64],將博弈均衡視為局中人通過學(xué)習(xí)進化逐步尋優(yōu)的結(jié)果,能夠更加準(zhǔn)確地刻畫群體策略演化過程。
(2)研究思路
演化博弈過程中,在學(xué)習(xí)機制的驅(qū)動和博弈收益差值的影響下,優(yōu)勢策略會在局中人群體中逐步擴散,并最終形成演化穩(wěn)定策略(ESS,evolutionarily stale strategy),局中人依據(jù)演化穩(wěn)定策略實施防御決策。
(3)相關(guān)研究
Alabdel等[65]針對云存儲環(huán)境下防御APT攻擊的最優(yōu)策略選取問題,利用演化博弈描述APT攻擊攻防行為,采用復(fù)制動態(tài)學(xué)習(xí)機制建立網(wǎng)絡(luò)攻防博弈模型,分析了演化穩(wěn)定策略。黃健明等[66-68]針對同一博弈群體之間存在策略依存性時最優(yōu)防御策略選取問題,引入激勵系數(shù)改進復(fù)制動態(tài)學(xué)習(xí)機制,完善復(fù)制動態(tài)速率計算方法,提出了最優(yōu)防御策略選取算法。Shi等[69]針對蜜罐誘騙防御策略選取問題,構(gòu)建了由防御方、攻擊方和合法用戶組成的三方博弈模型,通過復(fù)制動態(tài)方程得出演化穩(wěn)定策略,得出最優(yōu)誘騙策略。張恒巍等[70]針對攻防雙方的有限理性限制條件和攻防過程的動態(tài)變化特征問題,將演化博弈與Markov決策模型相結(jié)合,構(gòu)建多階段Markov攻防演化博弈模型。Hu等[71]針對動態(tài)對抗網(wǎng)絡(luò)中最優(yōu)防御策略選取問題,將攻防雙方對策略收益的不確定性轉(zhuǎn)化為對類型的不確定性,利用選擇強度因子描述噪聲,改進了復(fù)制動態(tài)學(xué)習(xí)機制,設(shè)計了最優(yōu)防御策略選取算法。Liu等[72]針對網(wǎng)絡(luò)攻防對抗中,防御方學(xué)習(xí)能力范圍有限的實際問題,提出了基于演化網(wǎng)絡(luò)博弈的網(wǎng)絡(luò)防御決策方法。防御方依據(jù)學(xué)習(xí)能力建立學(xué)習(xí)對象集,利用費米函數(shù)計算策略轉(zhuǎn)移概率,提出了最優(yōu)防御策略選取方法。
(4)方法優(yōu)缺點
基于演化博弈的網(wǎng)絡(luò)防御決策方法的優(yōu)點是突破了局中人完全理性限制,適用于群體網(wǎng)絡(luò)攻防場景,缺點是復(fù)制動態(tài)學(xué)習(xí)機制假設(shè)全體局中人之間能夠以均勻混合、完全接觸的方式進行交互,不適用于異質(zhì)群體網(wǎng)絡(luò)攻防場景。研究者正在從不同的角度對復(fù)制動態(tài)學(xué)習(xí)機制進行研究和改進,使博弈模型更加符合網(wǎng)絡(luò)攻防對抗實際。
2.2.2 基于微分博弈的網(wǎng)絡(luò)防御決策方法
(1)適用場景
微分博弈是時間實時變化情況下描述沖突對抗中連續(xù)控制過程的理論方法。它將離散的博弈過程擴展到連續(xù)時間,局中人可以實時改變控制策略。微分博弈適用于描述具有連續(xù)、實時、動態(tài)特征的攻防對抗場景。
(2)研究思路
基于微分博弈的網(wǎng)絡(luò)防御決策方法研究過程為:構(gòu)建網(wǎng)絡(luò)攻防微分博弈模型,設(shè)計攻防決策控制函數(shù)和收益積分函數(shù),在求解鞍點控制策略的基礎(chǔ)上給出最優(yōu)防御策略。
(3)相關(guān)研究
張恒巍等[20, 73-74]針對快速變化和連續(xù)對抗的網(wǎng)絡(luò)環(huán)境下的網(wǎng)絡(luò)防御決策問題,借鑒傳染病動力學(xué)理論,提出安全狀態(tài)演化模型分析網(wǎng)絡(luò)系統(tǒng)安全狀態(tài)的變化過程。黃世銳等[75]針對網(wǎng)絡(luò)攻防連續(xù)對抗、實時變化環(huán)境下的網(wǎng)絡(luò)安全威脅預(yù)警問題,借鑒傳染病動力學(xué)分析安全威脅傳播過程,構(gòu)造攻防界柵以及捕獲區(qū)和躲避區(qū),引入多維歐氏距離度量威脅程度。孫巖等[76]針對移動目標(biāo)防御最優(yōu)策略研究大多采用經(jīng)典單/多階段博弈和Markov博弈模型,無法在連續(xù)實時網(wǎng)絡(luò)攻防對抗中進行靈活決策問題,在研究節(jié)點級傳染病模型與微分博弈理論的基礎(chǔ)上,提出了一種移動目標(biāo)防御微分博弈模型,對網(wǎng)絡(luò)空間重要節(jié)點構(gòu)造安全狀態(tài)演化方程與攻防收益目標(biāo)函數(shù),并設(shè)計開環(huán)納什均衡求解算法以得出最優(yōu)防御策略。
(4)方法優(yōu)缺點
基于微分博弈的網(wǎng)絡(luò)防御決策方法的優(yōu)點是適用于連續(xù)、實時、動態(tài)的網(wǎng)絡(luò)攻防場景;缺點是網(wǎng)絡(luò)攻防微分博弈模型的構(gòu)建、決策控制函數(shù)的分析和鞍點控制策略的求解難度大。
(1)適用場景
時間博弈由美國RSA實驗室的Dijk提出,旨在建模和分析APT攻擊和防御過程。網(wǎng)絡(luò)攻防時間博弈由攻擊方局中人、防御方局中人和公共資源3部分組成,攻防局中人共同爭奪對公共資源的控制權(quán)。
(2)研究思路
基于時間博弈的網(wǎng)絡(luò)防御決策方法研究,一般通過對公共資源的控制時間刻畫攻防收益。FlipIt博弈及其擴展版本是時間博弈的主要研究方向。
(3)相關(guān)研究
Dijk等[77]針對APT攻擊場景中,最優(yōu)防御策略選取問題,首次提出FlipIt博弈模型,并將其應(yīng)用于網(wǎng)絡(luò)攻防博弈分析,給出了最優(yōu)防御策略選取方法。丁紹虎等[78-79]針對APT攻擊場景中,異構(gòu)性條件下的擬態(tài)防御動態(tài)策略評估問題,提出了一種改進的FlipIt博弈模型M-FlipIt,對擬態(tài)防御動態(tài)策略進行評估。Laszka等[80]針對由多個目標(biāo)資源組成系統(tǒng)的最優(yōu)防御策略選取問題,提出了FlipItThem模型,引入兩種控制模型(and模型和or模型),形式化了博弈的目標(biāo)和策略。譚晶磊等[81-82]針對移動目標(biāo)防御場景下最優(yōu)防御策略選取問題,構(gòu)建了移動目標(biāo)攻防策略集,利用時間博弈刻畫了單階段移動目標(biāo)防御過程的動態(tài)性,采用馬爾可夫過程描述移動目標(biāo)防御狀態(tài)轉(zhuǎn)化的隨機性。Miura等[83]針對惡意軟件的最優(yōu)防御策略選取問題,結(jié)合傳染病模型建立了FlipIt博弈模型,攻擊方和防御方爭奪主機的計算資源,基于納什均衡得到最優(yōu)響應(yīng),生成最優(yōu)防御策略。Merlevede等[84]針對時間博弈過程中未來收益折現(xiàn)問題,引入時間折扣因子優(yōu)化攻防效用函數(shù)計算方法,建立了Fliplt模型,允許收益和成本隨時間進行指數(shù)折扣。Pawlick等[85]針對物聯(lián)網(wǎng)環(huán)境下應(yīng)對APT攻擊的最優(yōu)防御策略問題,建立了云服務(wù)管理員和攻擊方之間的信號博弈和Fliplt模型,使用信號博弈均衡作為Fliplt模型的激勵機制,F(xiàn)liplt模型影響信號博弈中先驗概率。
(4)方法優(yōu)缺點
基于時間博弈的網(wǎng)絡(luò)防御決策方法的優(yōu)點是模型的針對性較強,適用于描述對公共資源控制權(quán)交替變換的場景,如APT攻擊與防御、移動目標(biāo)防御中的攻擊面轉(zhuǎn)移等;缺點是模型的適應(yīng)性和遷移性差,應(yīng)用范圍相對狹窄。
2.2.4 基于隨機博弈的網(wǎng)絡(luò)防御決策方法
(1)適用場景
隨機博弈是博弈論與馬爾可夫決策過程(Markov decision process,MDP)結(jié)合的產(chǎn)物,適用于描述具有多狀態(tài)、隨機性特點的系統(tǒng)狀態(tài)轉(zhuǎn)移過程。
(2)研究思路
基于隨機博弈的網(wǎng)絡(luò)防御決策方法研究,一般采用馬爾可夫決策過程分析網(wǎng)絡(luò)攻防行為,建立網(wǎng)絡(luò)攻防對抗隨機博弈模型,在求解博弈均衡解的基礎(chǔ)上給出最優(yōu)防御策略。
(3)相關(guān)研究
Lye等[86]針對網(wǎng)絡(luò)攻防博弈中攻擊行為預(yù)測和最優(yōu)防御策略選取的問題,建立了五元組網(wǎng)絡(luò)攻防博弈模型,結(jié)合馬爾可夫鏈預(yù)測網(wǎng)絡(luò)攻擊行為,給出了最優(yōu)防御策略選取方法。王元卓等[87]針對網(wǎng)絡(luò)攻防過程的實驗推演問題,采用隨機博弈模型設(shè)計網(wǎng)絡(luò)攻防實驗整體架構(gòu),提出了由網(wǎng)絡(luò)連接關(guān)系、脆弱性信息等輸入數(shù)據(jù)到網(wǎng)絡(luò)攻防博弈的快速建模方法。Wang等[88]針對開放環(huán)境下網(wǎng)絡(luò)生存性問題,將網(wǎng)絡(luò)生存性抽象為網(wǎng)絡(luò)攻擊方、防御方和正常用戶之間的動態(tài)博弈過程,建立了網(wǎng)絡(luò)生存性隨機博弈模型,提出了網(wǎng)絡(luò)生存性分析算法。張紅旗等[89]針對隨機博弈大多以完全信息假設(shè)為前提的問題,將防御方對攻擊方收益的不確定性轉(zhuǎn)化為對其類型的不確定性,引入Q-learning算法,設(shè)計了能夠在線學(xué)習(xí)的防御決策算法。楊峻楠等[90-91]針對隨機博弈大多采用完全理性的假設(shè)問題,分析有限理性對攻防隨機博弈的影響,提出了一種基于攻防圖的網(wǎng)絡(luò)狀態(tài)與攻防動作提取方法,引入WoLF-PHC算法提出了具有在線學(xué)習(xí)能力的防御決策算法。
(4)方法優(yōu)缺點
基于隨機博弈的網(wǎng)絡(luò)防御決策方法研究的優(yōu)點是能夠刻畫出網(wǎng)絡(luò)攻防的隨機性和動態(tài)性;缺點是隨機博弈模型中,網(wǎng)絡(luò)安全狀態(tài)轉(zhuǎn)移概率難以確定,造成博弈均衡難以求解,大多由專家經(jīng)驗或歷史數(shù)據(jù)給出轉(zhuǎn)移概率,存在一定的主觀性。
(1)發(fā)展過程
基于攻防博弈的網(wǎng)絡(luò)防御決策方法研究,經(jīng)歷了由靜態(tài)到動態(tài)、由完全信息到不完全信息、由完全理性到不完全理性的發(fā)展過程。在研究初始階段,為方便分析、簡化計算、易于理解,研究者大多基于靜態(tài)、完全信息、完全理性等假設(shè),針對特定的網(wǎng)絡(luò)攻防場景,分別建立相對簡化的網(wǎng)絡(luò)攻防博弈模型,提出網(wǎng)絡(luò)防御決策方法。但是,隨著網(wǎng)絡(luò)攻防策略越來越多樣、網(wǎng)絡(luò)攻防場景越來越復(fù)雜,對網(wǎng)絡(luò)攻防博弈建模分析的準(zhǔn)確性要求越來越高。近年來,相關(guān)學(xué)者逐漸傾向于采用基于動態(tài)、不完全信息、非完全理性等博弈理論,建立更加符合網(wǎng)絡(luò)攻防實際的博弈模型,提升網(wǎng)絡(luò)防御決策方法的應(yīng)用價值。
(2)優(yōu)勢特點
博弈論為描述網(wǎng)絡(luò)攻防矛盾提供了一種數(shù)學(xué)框架。通過建立網(wǎng)絡(luò)攻防博弈模型,運用數(shù)學(xué)方法量化攻防收益、計算博弈均衡,能夠形成對攻擊方策略的可信、有效預(yù)測,得出防御方的最優(yōu)策略,從而在網(wǎng)絡(luò)攻防對抗中掌握主動、避免被動。同時,博弈理論能夠促使決策者轉(zhuǎn)換思維方式,從攻防對抗角度理解和認(rèn)識網(wǎng)絡(luò)防御決策問題。防御方在決策時不僅要考慮自身因素,還要關(guān)注網(wǎng)絡(luò)攻防雙方的目標(biāo)偏好、策略依存關(guān)系、信息掌握程度和動態(tài)演化趨勢等內(nèi)容,樹立起“適度安全、動態(tài)安全”理念,增強對網(wǎng)絡(luò)安全本質(zhì)的認(rèn)知,形成正確的網(wǎng)絡(luò)安全觀。
(3)面臨問題
現(xiàn)有基于攻防博弈的網(wǎng)絡(luò)防御決策方法在具體應(yīng)用中可能會面臨3個問題。一是博弈建??紤]因素與模型復(fù)雜度的關(guān)系問題。博弈建模過程中若考慮因素越少,則博弈模型越簡化,所得決策方法可能脫離網(wǎng)絡(luò)攻防實際;若考慮因素越多,網(wǎng)絡(luò)攻防博弈推理分析越復(fù)雜,均衡求解的計算量越大,越難以滿足網(wǎng)絡(luò)防御決策的實時性要求。二是博弈推理對信息和數(shù)據(jù)的依賴性問題。網(wǎng)絡(luò)攻防博弈分析推理高度依賴于攻防信息和歷史數(shù)據(jù);但是,網(wǎng)絡(luò)攻防信息和歷史數(shù)據(jù)存在來源多樣、格式異構(gòu)、可信性不強等問題,在一定限度上影響了博弈分析推理過程。三是博弈模型的泛化性和遷移性問題。博弈建模大多針對特定的網(wǎng)絡(luò)攻防場景,所建博弈模型的泛化性和遷移性較差,限制了網(wǎng)絡(luò)防御決策方法的推廣應(yīng)用。
(1)規(guī)范策略的描述機制
策略是博弈模型的重要組成要素。網(wǎng)絡(luò)攻防策略描述機制能夠?qū)Σ┺慕:屯评矸治霎a(chǎn)生重要影響。攻防策略空間大小直接影響博弈模型的計算復(fù)雜度,從而影響網(wǎng)絡(luò)防御決策的速度和質(zhì)量。例如,若攻防策略空間過于簡單,雖然有利于降低決策難度,但影響網(wǎng)絡(luò)防御決策方法的實用性;若攻防策略空間過于復(fù)雜,則會增加博弈分析的復(fù)雜度和均衡求解的計算量,從而影響網(wǎng)絡(luò)防御決策的時效性。
網(wǎng)絡(luò)防御決策方法大多由研究者根據(jù)自身建模需要對攻防策略進行描述,主觀性強、隨意性大、適用性差。同時,研究者基于不同的策略描述機制所提出的網(wǎng)絡(luò)防御決策方法,相互之間難以驗證和對比分析。因此,建立統(tǒng)一的網(wǎng)絡(luò)攻防策略庫和權(quán)威、合理的策略描述機制,為研究者提供公用的策略實例,將是非常有意義的研究工作。
(2)優(yōu)化收益的計算方法
網(wǎng)絡(luò)攻防收益量化是計算的前提。網(wǎng)絡(luò)攻防博弈存在一定的不確定性和模糊性,使得難以用精確數(shù)值表示網(wǎng)絡(luò)攻防收益。特別是,系統(tǒng)損失、成本投入、資產(chǎn)重要程度等價值可能隨著用戶偏好、系統(tǒng)環(huán)境的不同而變化,這給攻防收益量化造成了困難。因此,一般應(yīng)將網(wǎng)絡(luò)攻防收益量化為相對的、無量綱值,數(shù)值的大小僅表示程度,不具備實際的物理含義。
網(wǎng)絡(luò)攻防收益計算是博弈均衡求解的基礎(chǔ)?,F(xiàn)有基于攻防博弈的網(wǎng)絡(luò)防御決策方法研究中,攻防收益計算較多采用回報直接減去成本的方法,但方法的準(zhǔn)確性和權(quán)威性仍有待討論。尤其是網(wǎng)絡(luò)攻防動態(tài)博弈的收益計算涉及現(xiàn)實收益和未來收益,未來收益還面臨著折現(xiàn)問題。部分學(xué)者采用折現(xiàn)因子將未來收益折現(xiàn)成現(xiàn)實收益,但這種方法簡單粗暴。下一步的研究重點是:從多屬性角度建立網(wǎng)絡(luò)攻防收益量化評估準(zhǔn)則,采用加權(quán)方法計算網(wǎng)絡(luò)攻防收益,增強收益計算方法的普適性。
(3)與其他技術(shù)相互融合
將博弈理論與其他網(wǎng)絡(luò)安全技術(shù)相互融合是網(wǎng)絡(luò)防御決策方法的重點研究方向,主要有3個方面。一是與人工智能相結(jié)合。通過引入強化學(xué)習(xí)算法求解博弈均衡,防御方能夠以在線學(xué)習(xí)方式逐步逼近最優(yōu)策略,縮短決策周期,形成網(wǎng)絡(luò)防御決策的時間優(yōu)勢。二是與網(wǎng)絡(luò)安全態(tài)勢感知和威脅情報相結(jié)合。通過準(zhǔn)確感知網(wǎng)絡(luò)攻防態(tài)勢,獲取攻擊方情報信息,增強博弈推理分析的準(zhǔn)確性,形成網(wǎng)絡(luò)防御決策的信息優(yōu)勢。三是與主動防御技術(shù)結(jié)合。移動目標(biāo)防御、擬態(tài)防御、欺騙防御等新型主動防御技術(shù)發(fā)展如火如荼,將基于攻防博弈的網(wǎng)絡(luò)防御決策方法與主動防御技術(shù)相結(jié)合,可從技術(shù)層和策略層共同增強防御效果。
科學(xué)有效的決策方法是增強網(wǎng)絡(luò)防御效能的關(guān)鍵。基于攻防博弈開展網(wǎng)絡(luò)防御決策方法的研究是網(wǎng)絡(luò)安全領(lǐng)域的前沿?zé)狳c問題。本文重點梳理分析了基于完全信息靜態(tài)博弈、完全信息動態(tài)博弈、不完全信息靜態(tài)博弈、不完全信息動態(tài)博弈、演化博弈、微分博弈、時間博弈和隨機博弈8種博弈類型的網(wǎng)絡(luò)防御決策方法的適用場景、研究思路、相關(guān)研究和優(yōu)缺點。但是,如何對不同類型博弈模型進行融合創(chuàng)新,提出適用于復(fù)雜攻防場景的網(wǎng)絡(luò)防御決策方法,并開展方法的有效性驗證,以及如何遷移應(yīng)用到真實網(wǎng)絡(luò)攻防過程中,仍然是值得研究的問題。
[1] LI X T. Decision making of optimal investment in information security for complementary enterprises based on game theory[J]. Technology Analysis & Strategic Management, 2021, 33(7): 755-769.
[2] AGGARWAL P, MOISAN F, GONZALEZ C, et al. Learning about the effects of alert uncertainty in attack and defend decisions via cognitive modeling[J]. Human Factors: the Journal of the Human Factors and Ergonomics Society, 2020: 001872082094542.
[3] SHEKARIAN E, FLAPPER S D. Analyzing the structure of closed-loop supply chains: a game theory perspective[J]. Sustainability, 2021, 13(3): 1397.
[4] XIAO Y, PENG Q, XU W T, et al. Production-use water pricing and corporate water use in China: an evolutionary game theory model[J]. Mathematical Problems in Engineering, 2021, 2021: 6622064.
[5] CHEUNG K F, BELL M G H. Attacker-defender model against quantal response adversaries for cyber security in logistics management: an introductory study[J]. European Journal of Operational Research, 2021, 291(2): 471-481.
[6] ALSABBAGH A, WU B, MA C B. Distributed electric vehicles charging management considering time anxiety and customer behaviors[J]. IEEE Transactions on Industrial Informatics, 2021, 17(4): 2422-2431.
[7] GARCIA E, CASBEER D W, PACHTER M. Design and analysis of state-feedback optimal strategies for the differential game of active defense[J]. IEEE Transactions on Automatic Control, 2018, 64(2): 553-568.
[8] 張煥國, 杜瑞穎. 網(wǎng)絡(luò)空間安全學(xué)科簡論[J]. 網(wǎng)絡(luò)與信息安全學(xué)報, 2019, 5(3): 4-18.
ZHANG H G, DU R Y. Introduction to cyberspace security discipline[J]. Chinese Journal of Network and Information Security, 2019, 5(3): 4-18.
[9] LIANG X N, XIAO Y. Game theory for network security[J]. IEEE Communications Surveys & Tutorials, 2013, 15(1): 472-486.
[10] WANG Y, WANG Y J, LIU J, et al. A survey of game theoretic methods for cyber security[C]//Proceedings of 2016 IEEE First International Conference on Data Science in Cyberspace. Piscataway: IEEE Press, 2016: 631-636.
[11] MANSHAEI M H, ZHU Q Y, ALPCAN T, et al. Game theory meets network security and privacy[J]. ACM Computing Surveys, 2013, 45(3): 1-39.
[12] ZHU Q Y, RASS S. Game theory meets network security: a tutorial[C]//Proceedings of the 2018 ACM SIGSAC Conference on Computer and Communications Security. 2018: 2163-2165.
[13] ETESAMI S R, BA?AR T. Dynamic games in cyber-physical security: an overview[J]. Dynamic Games and Applications, 2019, 9(4): 884-913.
[14] YE D Y, ZHU T Q, SHEN S, et al. A differentially private game theoretic approach for deceiving cyber adversaries[J]. IEEE Transactions on Information Forensics and Security, 2021, 16: 569-584.
[15] DAHIYA A, GUPTA B B. A reputation score policy and Bayesian game theory based incentivized mechanism for DDoS attacks mitigation and cyber defense[J]. Future Generation Computer Systems, 2021, 117: 193-204.
[16] DO C T, TRAN N H, HONG C, et al. Game theory for cyber security and privacy[J]. ACM Computing Surveys, 2018, 50(2): 1-37.
[17] KUMAR B, BHUYAN B. Using game theory to model DoS attack and defence[J]. Sādhanā, 2019, 44(12): 1-12.
[18] MERRICK K, HARDHIENATA M, SHAFI K, et al. A survey of game theoretic approaches to modelling decision-making in information warfare scenarios[J]. Future Internet, 2016, 8(3): 34.
[19] PENG R, WU D, SUN M Y, et al. An attack-defense game on interdependent networks[J]. Journal of the Operational Research Society, 2021, 72(10): 2331-2341.
[20] ZHANG H W, JIANG L, HUANG S R, et al. Attack-defense differential game model for network defense strategy selection[J]. IEEE Access, 2019, 7: 50618-50629.
[21] 朱建明, 王秦. 基于博弈論的網(wǎng)絡(luò)空間安全若干問題分析[J]. 網(wǎng)絡(luò)與信息安全學(xué)報, 2015, 1(1): 43-49.
ZHU J M, WANG Q. Analysis of cyberspace security based on game theory[J]. Chinese Journal of Network and Information Security, 2015, 1(1): 43-49.
[22] JIANG W, FANG B X, ZHANG H L, et al. Optimal network security strengthening using attack-defense game model[C]//Proceedings of 2009 Sixth International Conference on Information Technology: New Generations. Piscataway: IEEE Press, 2009: 475-480.
[23] 屈蕾蕾, 肖若瑾, 石文昌, 等. 涌現(xiàn)視角下的網(wǎng)絡(luò)空間安全挑戰(zhàn)[J]. 計算機研究與發(fā)展, 2020, 57(4): 803-823.
QU L L, XIAO R J, SHI W C, et al. Cybersecurity challenges from the perspective of emergence[J]. Journal of Computer Research and Development, 2020, 57(4): 803-823.
[24] DUFWENBERG M. Game theory[J]. WIREs Cognitive Science, 2011, 2(2): 167-173.
[25] ZHANG H W, LI T, WANG J D, et al. Optimal active defence using dynamic multi-stage signalling game[J]. China Communications, 2015, 12(S2): 114-122.
[26] 劉景瑋, 劉京菊, 陸余良, 等. 基于網(wǎng)絡(luò)攻防博弈模型的最優(yōu)防御策略選取方法[J]. 計算機科學(xué), 2018, 45(6): 117-123.
LIU J W, LIU J J, LU Y L, et al. Optimal defense strategy selection method based on network attack-defense game model[J]. Computer Science, 2018, 45(6): 117-123.
[27] 劉小虎, 張恒巍, 張玉臣, 等. 基于博弈模型與NetLogo仿真的網(wǎng)絡(luò)攻防態(tài)勢研究[J]. 系統(tǒng)仿真學(xué)報, 2020, 32(10): 1918-1926.
LIU X H, ZHANG H W, ZHANG Y C, et al. Research on network attack and defense situation based on game theory model and NetLogo simulation[J]. Journal of System Simulation, 2020, 32(10): 1918-1926.
[28] GILL K S, SAXENA S, SHARMA A. GTM-CSec: game theoretic model for cloud security based on IDS and honeypot[J]. Computers & Security, 2020, 92: 101732.
[29] MISHRA B, SMIRNOVA I. Optimal configuration of intrusion detection systems[J]. Information Technology and Management, 2021, 22(4): 231-244.
[30] WEILL C, OLIVEREAU A, ZEGHLACHE D, et al. Configuration of the Detection Function in a Distributed IDS Using Game Theory[M]//2020 23rd Conference on Innovation In Clouds, Internet And Networks And Workshops. New York; IEEE. 2020. 210-215.
[31] DIAMANTOULAKIS P, DALAMAGKAS C, RADOGLOU-GRAMMATIKIS P, et al. Game theoretic honeypot deployment in smart grid[J]. Sensors (Basel, Switzerland), 2020, 20(15): 4199.
[32] TIAN W, JI X P, LIU W W, et al. Honeypot game-theoretical model for defending against APT attacks with limited resources in cyber-physical systems[J]. ETRI Journal, 2019, 41(5): 585-598.
[33] LI Y, SHI L Y, FENG H J. A game-theoretic analysis for distributed honeypots[J]. Future Internet, 2019, 11(3): 65.
[34] SAMIR M, AZAB M, SAMIR E. SD-CPC: SDN controller placement camouflage based on stochastic game for moving-target defense[J]. Computer Communications, 2021, 168: 75-92.
[35] WANG S L, SHI H W, HU Q, et al. Moving target defense for Internet of Things based on the zero-determinant theory[J]. IEEE Internet of Things Journal, 2020, 7(1): 661-668.
[36] WRIGHT M, VENKATESAN S, ALBANESE M, et al. Moving target defense against DDoS attacks: an empirical game-theoretic analysis[C]// Proceedings of the 2016 ACM Workshop on Moving Target Defense. 2016: 93-104.
[37] CAI G L, WANG B S, XING Q Q. Game theoretic analysis for the mechanism of moving target defense[J]. Frontiers of Information Technology & Electronic Engineering, 2017, 18(12): 2017-2034.
[38] PAWLICK J, COLBERT E, ZHU Q Y. Analysis of leaky deception for network security using signaling games with evidence[R. New York University, 2018.
[39] ZENG C Y, REN B A, LIU H F, et al. Applying the Bayesian stackelberg active deception game for securing infrastructure networks[J]. Entropy, 2019, 21(9): 909.
[40] 張維迎. 博弈論與信息經(jīng)濟學(xué)[M]. 上海: 格致出版社, 2012.
ZHANG W Y. Game theory and information economics[M]. Shanghai: Gezhi publishing house, 2012.
[41] 姜偉, 方濱興, 田志宏, 等. 基于攻防博弈模型的網(wǎng)絡(luò)安全測評和最優(yōu)主動防御[J]. 計算機學(xué)報, 2009, 32(4): 817-827.
JIANG W, FANG B X, TIAN Z H, et al. Evaluating network security and optimal active defense based on attack-defense game model[J]. Chinese Journal of Computers, 2009, 32(4): 817-827.
[42] LIU P, ZANG W Y, YU M. Incentive-based modeling and inference of attacker intent, objectives, and strategies[J]. ACM Transactions on Information and System Security, 2005, 8(1): 78-118.
[43] 王增光, 盧昱, 李璽. 基于攻防博弈的軍事信息網(wǎng)絡(luò)安全風(fēng)險評估[J]. 軍事運籌與系統(tǒng)工程, 2019, 33(2): 35-40, 47.
WANG Z G, LU Y, LI X. Military information network security risk assessment based on attack defense game[J]. Military Operations Research and Systems Engineering, 2019, 33(2): 35-40, 47.
[44] 陳永強, 付鈺, 吳曉平. 基于非零和攻防博弈模型的主動防御策略選取方法[J]. 計算機應(yīng)用, 2013, 33(5): 1347-1349, 1352.
CHEN Y Q, FU Y, WU X P. Active defense strategy selection based on non-zero-sum attack-defense game model[J]. Journal of Computer Applications, 2013, 33(5): 1347-1349, 1352.
[45] AGAH A, DAS S K. Preventing DoS attacks in wireless sensor networks: a repeated game theory approach[J]. International Journal of Network Security, 2007, 5(2): 145-153.
[46] 林旺群, 王慧, 劉家紅, 等. 基于非合作動態(tài)博弈的網(wǎng)絡(luò)安全主動防御技術(shù)研究[J]. 計算機研究與發(fā)展, 2011, 48(2): 306-316. LIN W Q, WANG H, LIU J H, et al. Research on active defense technology in network security based on non-cooperative dynamic game theory[J]. Journal of Computer Research and Development, 2011, 48(2): 306-316.
[47] 孫騫, 高嶺, 劉濤, 等. 基于非零和博弈的多路徑組合攻擊防御決策方法[J]. 西北大學(xué)學(xué)報(自然科學(xué)版), 2019, 49(3): 343-350. SUN Q, GAO L, LIU T, et al. Defense decision-making method for multi-path combined attack based on non-zero-sum game[J]. Journal of Northwest University (Natural Science Edition), 2019, 49(3): 343-350.
[48] 王晉東, 余定坤, 張恒巍, 等. 靜態(tài)貝葉斯博弈主動防御策略選取方法[J]. 西安電子科技大學(xué)學(xué)報, 2016, 43(1): 144-150.
WANG J D, YU D K, ZHANG H W, et al. Active defense strategy selection based on the static Bayesian game[J]. Journal of Xidian University, 2016, 43(1): 144-150.
[49] 陳永強, 吳曉平, 付鈺, 等. 基于模糊靜態(tài)貝葉斯博弈的網(wǎng)絡(luò)主動防御策略選取[J]. 計算機應(yīng)用研究, 2015, 32(3): 887-889, 899.
CHEN Y Q, WU X P, FU Y, et al. Active defense strategy selection of network based on fuzzy static Bayesian game model[J]. Application Research of Computers, 2015, 32(3): 887-889, 899.
[50] 余定坤, 王晉東, 張恒巍, 等. 基于靜態(tài)貝葉斯博弈的風(fēng)險評估方法研究[J]. 計算機工程與科學(xué), 2015, 37(6): 1079-1086. YU D K, WANG J D, ZHANG H W, et al. Risk assessment selection based on static Bayesian game[J]. Computer Engineering & Science, 2015, 37(6): 1079-1086.
[51] 劉玉嶺, 馮登國, 吳麗輝, 等. 基于靜態(tài)貝葉斯博弈的蠕蟲攻防策略績效評估[J]. 軟件學(xué)報, 2012, 23(3): 712-723.
LIU Y L, FENG D G, WU L H, et al. Performance evaluation of worm attack and defense strategies based on static Bayesian game[J]. Journal of Software, 2012, 23(3): 712-723.
[52] 黃萬偉, 袁博, 王蘇南, 等. 基于非零和信號博弈的主動防御模型[J]. 鄭州大學(xué)學(xué)報(工學(xué)版), 2022, 43(1): 90-96.
HUANG W W, YUAN B, WANG S N, et al. Proactive defense model based on non-zero-sum signal game[J]. Journal of Zhengzhou University (Engineering Science), 2022, 43(1): 90-96.
[53] 王增光, 盧昱, 李璽. 多階段信號博弈的裝備保障信息網(wǎng)絡(luò)主動防御[J]. 火力與指揮控制, 2020, 45(12): 142-148. WANG Z G, LU Y, LI X. Research on active defense of equipment support information network based on multi-stage signaling game[J]. Fire Control & Command Control, 2020, 45(12): 142-148.
[54] 李凌書, 鄔江興, 曾威, 等. 容器云中基于信號博弈的容器遷移與蜜罐部署策略[J]. 網(wǎng)絡(luò)與信息安全學(xué)報, 2022, 8.
LI L S, WU J X, ZENG W, et al. Strategy of container migration and honeypot deployment based on signal game in cloud environment[J]. Chinese Journal of Network and Information Security, 2022, 8.
[55] 胡永進, 馬駿, 郭淵博, 等. 基于多階段網(wǎng)絡(luò)欺騙博弈的主動防御研究[J]. 通信學(xué)報, 2020, 41(8): 32-42. HU Y J, MA J, GUO Y B, et al. Research on active defense based on multi-stage cyber deception game[J]. Journal on Communications, 2020, 41(8): 32-42.
[56] 胡永進, 馬駿, 郭淵博. 基于博弈論的網(wǎng)絡(luò)欺騙研究[J]. 通信學(xué)報, 2018, 39(S2): 9-18.
HU Y J, MA J, GUO Y B. Research on cyber deception based on game theory[J]. Journal on Communications, 2018, 39(S2): 9-18.
[57] YANG Y, CHE B C, ZENG Y, et al. MAIAD: a multistage asymmetric information attack and defense model based on evolutionary game theory[J]. Symmetry, 2019, 11(2): 215.
[58] CHEN X Y, LIU X T, ZHANG L, et al. Optimal defense strategy selection for spear-phishing attack based on a multistage signaling game[J]. IEEE Access, 2019, 7: 19907-19921.
[59] LIU X H, ZHANG H W, ZHANG Y C, et al. Active defense strategy selection method based on two-way signaling game[J]. Security and Communication Networks, 2019, 2019: 1362964.
[60] AYDEGER A, MANSHAEI M H, RAHMAN M A, et al. Strategic defense against stealthy link flooding attacks: a signaling game approach[J]. IEEE Transactions on Network Science and Engineering, 2021, 8(1): 751-764.
[61] PAWLICK J, COLBERT E, ZHU Q Y. Modeling and analysis of leaky deception using signaling games with evidence[J]. IEEE Transactions on Information Forensics and Security, 2019, 14(7): 1871-1886.
[62] PAWLICK J, ZHU Q Y. Deception by design: evidence-based signaling games for network defense[EB/OL]. 2015: arXiv: 1503.05458[cs.CR].
[63] 蔣侶, 張恒巍, 王晉東. 基于多階段Markov信號博弈的移動目標(biāo)防御最優(yōu)決策方法[J]. 電子學(xué)報, 2021, 49(3): 527-535.
JIANG L, ZHANG H W, WANG J D. A Markov signaling game-theoretic approach to moving target defense strategy selection[J]. Acta Electronica Sinica, 2021, 49(3): 527-535.
[64] 張青青, 湯紅波, 游偉, 等. 基于演化博弈的NFV擬態(tài)防御架構(gòu)動態(tài)調(diào)度策略[J]. 計算機工程, 2021.
ZHANG Q Q, TANG H B, YOU W, et al. Dynamic scheduling strategies of NFV mimic defense architecture based on evolutionary game[J]. Computer Engineering, 2021.
[65] ALABDEL ABASS A A, XIAO L, MANDAYAM N B, et al. Evolutionary game theoretic analysis of advanced persistent threats against cloud storage[J]. IEEE Access, 2017, 5: 8482-8491.
[66] 黃健明, 張恒巍, 王晉東, 等. 基于攻防演化博弈模型的防御策略選取方法[J]. 通信學(xué)報, 2017, 38(1): 168-176.
HUANG J M, ZHANG H W, WANG J D, et al. Defense strategies selection based on attack-defense evolutionary game model[J]. Journal on Communications, 2017, 38(1): 168-176.
[67] 黃健明, 張恒巍. 基于改進復(fù)制動態(tài)演化博弈模型的最優(yōu)防御策略選取[J]. 通信學(xué)報, 2018, 39(1): 170-182.
HUANG J M, ZHANG H W. Improving replicator dynamic evolutionary game model for selecting optimal defense strategies[J]. Journal on Communications, 2018, 39(1): 170-182.
[68] HUANG J M, WANG J D, ZHANG H W, et al. Network defense strategy selection based on best-response dynamic evolutionary game model[C]//Proceedings of 2017 IEEE 2nd Advanced Information Technology, Electronic and Automation Control Conference. Piscataway: IEEE Press, 2017: 2611-2615.
[69] SHI L Y, WANG X R, HOU H W. Research on optimization of array honeypot defense strategies based on evolutionary game theory[J]. Mathematics, 2021, 9(8): 805.
[70] 張恒巍, 黃健明. 基于Markov演化博弈的網(wǎng)絡(luò)防御策略選取方法[J]. 電子學(xué)報, 2018, 46(6): 1503-1509.
ZHANG H W, HUANG J M. Network defense strategy selection method based on Markov evolutionary game[J]. Acta Electronica Sinica, 2018, 46(6): 1503-1509.
[71] HU H, LIU Y L, ZHANG H Q, et al. Optimal network defense strategy selection based on incomplete information evolutionary game[J]. IEEE Access, 2018, 6: 29806-29821.
[72] LIU X H, ZHANG H W, ZHANG Y C, et al. Optimal network defense strategy selection method based on evolutionary network game[J]. Security and Communication Networks, 2020, 2020: 5381495.
[73] 張恒巍, 李濤, 黃世銳. 基于攻防微分博弈的網(wǎng)絡(luò)安全防御決策方法[J]. 電子學(xué)報, 2018, 46(6): 1428-1435.
ZHANG H W, LI T, HUANG S R. Network defense decision-making method based on attack-defense differential game[J]. Acta Electronica Sinica, 2018, 46(6): 1428-1435.
[74] 張恒巍, 黃世銳. Markov微分博弈模型及其在網(wǎng)絡(luò)安全中的應(yīng)用[J]. 電子學(xué)報, 2019, 47(3): 606-612. ZHANG H W, HUANG S R. Markov differential game model and its application in network security[J]. Acta Electronica Sinica, 2019, 47(3): 606-612.
[75] HUANG S R, ZHANG H W, WANG J D, et al. Network defense decision-making method based on stochastic differential game model[C]//Cloud Computing and Security, 2018: 504-516.
[76] 孫巖, 姬偉峰, 翁江, 等. 基于微分博弈的移動目標(biāo)防御最優(yōu)策略[J]. 計算機研究與發(fā)展, 2021, 58(8): 1789-1800.
SUN Y, JI W F, WENG J, et al. Optimal strategy of moving target defense based on differential game[J]. Journal of Computer Research and Development, 2021, 58(8): 1789-1800.
[77] DIJK M, JUELS A, OPREA A, et al. FlipIt: the game of “stealthy takeover”[J]. Journal of Cryptology, 2013, 26(4): 655-713.
[78] 丁紹虎, 齊寧, 郭義偉. 基于M-FlipIt博弈模型的擬態(tài)防御策略評估[J]. 通信學(xué)報, 2020, 41(7): 186-194.
DING S H, QI N, GUO Y W. Evaluation of mimic defense strategy based on M-FlipIt game model[J]. Journal on Communications, 2020, 41(7): 186-194.
[79] 丁紹虎. 信息通信網(wǎng)絡(luò)中擬態(tài)防御機理與關(guān)鍵技術(shù)研究[D]. 鄭州: 信息工程大學(xué), 2020.
DING S H. Research on mimic defense mechanism and key technologies in information communication networks[D]. Zhengzhou: Information Engineering University, 2020.
[80] LASZKA A, HORVATH G, FELEGYHAZI M, et al. FlipThem: modeling targeted attacks with FlipIt for multiple resources[C]// Decision and Game Theory for Security, 2014: 175-194.
[81] 譚晶磊, 張恒巍, 張紅旗, 等. 基于Markov時間博弈的移動目標(biāo)防御最優(yōu)策略選取方法[J]. 通信學(xué)報, 2020, 41(1): 42-52.
TAN J L, ZHANG H W, ZHANG H Q, et al. Optimal strategy selection approach of moving target defense based on Markov time game[J]. Journal on Communications, 2020, 41(1): 42-52.
[82] TAN J L, ZHANG H W, ZHANG H Q, et al. Optimal timing selection approach to moving target defense: a FlipIt attack-defense game model[J]. Security and Communication Networks, 2020, 2020: 3151495.
[83] MIURA H, KIMURA T, HIRATA K. Modeling of malware diffusion with the FLIPIT game[C]//Proceedings of 2020 IEEE International Conference on Consumer Electronics. 2020: 1-2.
[84] MERLEVEDE J, JOHNSON B, GROSSKLAGS J, et al. Exponential discounting in security games of timing[J]. Journal of Cybersecurity, 2021, 7(1)].
[85] PAWLICK J, ZHU Q Y. Strategic trust in cloud-enabled cyber-physical systems with an application to glucose control[J]. IEEE Transactions on Information Forensics and Security, 2017, 12(12): 2906-2919.
[86] LYE K W, WING J M. Game strategies in network security[J]. International Journal of Information Security, 2005, 4(1/2): 71-86.
[87] 王元卓, 林闖, 程學(xué)旗, 等. 基于隨機博弈模型的網(wǎng)絡(luò)攻防量化分析方法[J]. 計算機學(xué)報, 2010, 33(9): 1748-1762.
WANG Y Z, LIN C, CHENG X Q, et al. Analysis for network attack-defense based on stochastic game model[J]. Chinese Journal of Computers, 2010, 33(9): 1748-1762.
[88] WANG C L, MIAO Q, DAI Y Q. Network survivability analysis based on stochastic game model[C]//Proceedings of 2012 Fourth International Conference on Multimedia Information Networking and Security. Piscataway: IEEE Press, 2012: 99-104.
[89] 張紅旗, 楊峻楠, 張傳富. 基于不完全信息隨機博弈與Q-learning的防御決策方法[J]. 通信學(xué)報, 2018, 39(8): 56-68.
ZHANG H Q, YANG J N, ZHANG C F. Defense decision-making method based on incomplete information stochastic game and Q-learning[J]. Journal on Communications, 2018, 39(8): 56-68.
[90] 楊峻楠, 張紅旗, 張傳富. 基于不完全信息隨機博弈的防御決策方法[J]. 網(wǎng)絡(luò)與信息安全學(xué)報, 2018, 4(8): 12-20. YANG J N, ZHANG H Q, ZHANG C F. Defense decision-making method based on incomplete information stochastic game[J]. Chinese Journal of Network and Information Security, 2018, 4(8): 12-20.
[91] 楊峻楠, 張紅旗, 張傳富. 基于隨機博弈與改進WoLF-PHC的網(wǎng)絡(luò)防御決策方法[J]. 計算機研究與發(fā)展, 2019, 56(5): 942-954.
YANG J N, ZHANG H Q, ZHANG C F. Network defense decision-making method based on stochastic game and improved WoLF-PHC[J]. Journal of Computer Research and Development, 2019, 56(5): 942-954.
Research review of network defense decision-making methods based on attack and defense game
LIU Xiaohu, ZHANG Hengwei, MA Junqiang, ZHANG Yuchen, TAN Jinglei
Information Engineering University, Zhengzhou 450001, China
Game theory studies the optimal decision-making problem under the condition of conflict confrontation. It is one of the basic theories of cyberspace security, and can provide a theoretical basis for solving the problem of network defense decision-making. The six game characteristics of network attack and defense were defined, such as goal opposition, strategy dependence, non-cooperative relationship, incomplete information, dynamic evolution and interest drive. Based on the hypothesis of rational player and limited resources, a 5-tuple network attack and defense game model was formally defined by using player, attack and defense strategy set, attack and defense action set, attack and defense information set and attack and defense income. The existing conditions of game equilibrium were analyzed, and the general process of network defense decision-making based on attack and defense game model was summarized. The applicable scenarios of network defense decision-making methods based on eight different types of game models were analyzed, such as complete information static game, complete information dynamic game, incomplete information static game, incomplete information dynamic game, evolutionary game, differential game, time game and random game, and summarizes their research ideas. The advantages and disadvantages of network defense decision-making methods based on different types of game models were given. The development process of network defense decision-making method based on attack defense game was summarized, and the advantages and characteristics of defense decision-making method was explained. It were pointed out that there were three problems in the research process, such as the relationship between the number of factors considered in game modeling and the complexity of the model, the dependence of game reasoning on information and data, and the generalization and migration of game model. It also looked forward to the next research direction from the description mechanism of normative strategy, the calculation method of optimizing revenue and the integration with other network security technologies. And the problems that should be solved were explained.
network defense, decision-making methods, attack and defense game,game characteristic
The National Key R&D Program of China (2017YFB0801900), Henan Science and Technology (222102210017)
劉小虎, 張恒巍, 馬軍強, 等. 基于攻防博弈的網(wǎng)絡(luò)防御決策方法研究綜述[J]. 網(wǎng)絡(luò)與信息安全學(xué)報, 2022, 8(1): 1-14.
TP393
A
10.11959/j.issn.2096?109x.2021089
劉小虎(1989?),男,河南太康人,博士,信息工程大學(xué)副教授,主要研究方向為網(wǎng)絡(luò)攻防博弈。
張恒?。?977?),男,河南洛陽人,信息工程大學(xué)副教授,主要研究方向為網(wǎng)絡(luò)安全風(fēng)險評估、網(wǎng)絡(luò)攻防博弈。
馬軍強(1975?),男,陜西大荔人,信息工程大學(xué)副教授,主要研究方向為指揮與管理。
張玉臣(1977?),男,河南新鄭人,信息工程大學(xué)教授、博士生導(dǎo)師,主要研究方向為保密管理。
譚晶磊(1994?),男,山東章丘人,信息工程大學(xué)博士生,主要研究方向為移動目標(biāo)防御。
2021?01?18;
2021?03?15
張恒巍,zhw11qd@163.com
國家重點研發(fā)計劃(2017YFB0801900);河南省科技攻關(guān)(222102210017)
Format: LIU X H, ZHANG H W, MA J Q, et al. Research review of network defense decision-making methods based on attack and defense game[J]. Chinese Journal of Network and Information Security, 2022, 8(1): 1-14.