張恩寧,王剛,馬潤年,伍維甲,嚴麗娜
(1.空軍工程大學信息與導航學院,710077,西安;2.國防科技大學信息通信學院試驗訓練基地,710106,西安)
5G和區(qū)塊鏈等信息網絡技術加速了信息化向智能化發(fā)展的步伐,與此同時,以高級可持續(xù)威脅為代表的隱蔽、高效和針對性網絡攻擊使得網絡安全態(tài)勢和防御決策日趨復雜[1]。網絡安全防御決策是網絡防御技戰(zhàn)術運用的前提和關鍵環(huán)節(jié),建立在對網絡攻防行動特點和網絡業(yè)務負載動態(tài)需求等要素的準確掌控上[1]。在現(xiàn)實環(huán)境中,網絡態(tài)勢信息的不完整性和決策者的有限理性使得網絡攻防雙方很難完全知悉對手的準確實時信息,在不完全信息條件下,攻防雙方認知和決策模式的不同,導致攻防行為的差異性和攻防決策的異質群體演化博弈特征[2]。
演化博弈中的群體源于生物學中的種群概念。生物學中,同一物種的不同種群因為生存環(huán)境的不同而存在性狀上的差異,在研究過程中需要將對象區(qū)分為異質種群。在學術領域,生物學中的種群映射為博弈理論中的群體,不同群體在博弈中代表的是屬性類型相同但決策方式不同的博弈參與方。在一些網絡攻防博弈情境中,博弈雙方可設定為有限理性博弈參與者,但是其決策方式存在一定差異性。例如,在決策標準方面,防御方要權衡防護節(jié)點的資源重要程度,安防部署成本和防御操作代價,而攻擊方則需要考慮攻擊成本、攻擊收益等因素[3]。因此,設定博弈參與方采用相同決策方式的傳統(tǒng)演化博弈本質上屬于同質群體演化博弈。相對而言,異質群體演化博弈能更好地體現(xiàn)出博弈參與方不同的決策方式對博弈均衡的影響,依據攻防雙方收益函數(shù)不同的網絡攻防博弈,屬于雙異質群體演化博弈。
決策差異性是網絡攻防博弈中需重點關注的問題。對于具體決策,網絡攻防雙方很難完全知悉對手的準確實時信息,決策的可信度相對不足,攻防雙方認知和決策模式的不同,同步導致攻防決策的差異性,這種差異性客觀上使得基于防御方收益信息的預測分析很難實現(xiàn)精確性決策[3]。此外,對于決策者和執(zhí)行單元,單次防御行為應是確定性的和基于純策略的,經典納什均衡解固有的多重性使得策略取舍成為網絡攻防博弈決策的難題,基于智能算法的網絡防御混合策略無法從根本上解決這一問題[2]。
博弈論和行為經濟學中對于參與人目標對立、策略依存和非合作型關系的建模符合網絡對抗的基本特征規(guī)律[4-5]。零和博弈、信號博弈、微分博弈、貝葉斯均衡博弈、馬爾可夫博弈及演化博弈等模型被相繼運用到網絡攻防對抗的行為建模中[6-9]。其中,演化博弈模型可以在不完全信息條件下模擬網絡攻防雙方策略的互動演化過程,得到穩(wěn)定的納什均衡策略,為優(yōu)選網絡防御策略提供參考[10]。目前,相關研究主要集中在3個領域。一是演化博弈模型對決策的動態(tài)影響。在多階段博弈中,有限理性的博弈雙方會根據初始博弈信息改變策略選擇傾向,最終達成混合策略的納什均衡。文獻[11]建立了物聯(lián)網系統(tǒng)多級非對稱信息攻防模型,分析了進攻型策略和防御型策略的收益變化;文獻[12]結合現(xiàn)實生活中銀行現(xiàn)金轉運案例,建立多目標混合遺傳算法,得到距離和風險最小化、利潤最大化、車輛油耗最小化、時間最小化或最大化等多種目標下的演化博弈最優(yōu)混合策略,對多目標網絡安全防御決策具有很高的參考價值。二是環(huán)境對演化博弈模型中系統(tǒng)動力學方程的影響,結合實際環(huán)境改進復制動態(tài)方程,提升模型的精確性。文獻[13-14]針對攻防博弈系統(tǒng)中存在各類隨機干擾因素的問題,借鑒高斯白噪聲的概念,建立隨機復制動態(tài)微分方程,分析了系統(tǒng)環(huán)境、策略變化等各類隨機干擾因素對攻防策略選取演化速率和傾向的影響;文獻[15]考慮同一博弈方之間策略的相互影響,引入激勵系數(shù),改進傳統(tǒng)復制動態(tài)方程,完善復制動態(tài)速率計算方法,分析了同一博弈方之間策略的促進和抑制作用;文獻[16]引入學習機制和第三方懲罰機制,構建了網絡攻防演化博弈系統(tǒng)動力學模型,發(fā)現(xiàn)通過第三方監(jiān)管部門,采取對攻擊者收益的動態(tài)懲罰策略,對攻防雙方的惡化混合策略的偏移有重要影響。三是策略的可行性和決策方法。傳統(tǒng)演化博弈模型得到的演化均衡解是混合策略,現(xiàn)實中以概率形式進行防御策略選取并不可取,以純策略為基礎進行決策更符合客觀規(guī)律[17]。文獻[18]結合動態(tài)目標防御理論,使用精煉貝葉斯均衡求解算法和先驗信念修正,提出移動目標防御策略的跳變周期、差異性和先驗知識是影響決策效果的3個關鍵因素;文獻[19]將多階段演化博弈和馬爾可夫決策方法相結合,提出多階段多狀態(tài)下最優(yōu)防御策略選取方法;針對復雜網絡中攻擊方和防御方可用資源的差異性,文獻[20]提出了復雜網絡拓撲結構對策略選擇的制約影響關系。
隨著近年來網絡攻防技戰(zhàn)術的快速發(fā)展和實踐應用,網絡安全防御決策領域凸顯了一些新的難題:①決策主體的差異性和基于主體差異性的防御行為模式突破了經典研究中對攻防博弈雙方均為同質群體的假設,需要克服基于這種假設導致的最優(yōu)防御策略事實偏差;②現(xiàn)實多階段博弈中的防御決策,應充分考慮經驗的參考價值和決策行為的智能化需求,在決策過程中引入反思機制和對應的可信支撐模型;③網絡安全防御單次決策的確定性需求和傳統(tǒng)納什均衡解的局限性存在固有矛盾,傳統(tǒng)納什均衡解的多重性和混合納什均衡的不確定性無法滿足單次決策中防御行為的可行性要求,需要從模型求解等方面尋求新的突破。
針對這些問題,本文開展了基于異質群體演化博弈的決策方法研究。結合生物學中的種群概念,在博弈中將攻防雙方區(qū)分為不同群體,提出雙異質群體演化博弈模型,克服經典模型中最優(yōu)防御策略的事實偏差。引入策略反思機制,將博弈主體對于博弈歷史經驗反饋模型化,改進復制動態(tài)方程以提升演化結果的精確性。在模型中引入勢函數(shù),突破傳統(tǒng)納什均衡解的局限性,使模型解穩(wěn)定收斂于可行策略,滿足網絡安全防御決策的確定性需求。最后,通過理論分析和仿真,驗證了所提模型和決策方法的有效性和先進性。
基于博弈雙方決策行為標準的差異性分析,引入生物學種群概念,將攻防雙方區(qū)分為不同博弈群體,參考經典演化博弈模型的定義[14-15],提出了網絡安全防御的雙異質群體演化博弈模型。
定義1網絡攻防博弈是對稱博弈,所有博弈參與者根據其自身屬性分為網絡攻擊方和網絡防御方。
定義2網絡攻防博弈是多階段博弈,在后一階段,每個博弈參與方對前一階段的博弈策略進行模仿。在每一個階段,博弈參與方的自然出生率為β(β≥0)、自然死亡率為δ(δ≥0),以此代表博弈參與方對于該階段環(huán)境的適應性,即網絡攻防雙方在階段前和階段中因斷網掉線等不可抗因素退出博弈的概率。
定義3將生物學中的概念映射到博弈模型中。博弈模型中群體代表同一類別個體的集合,即種群。子群體代表具有同樣特征的個體的集合,即具備同樣性狀的個體集合,子群體隸屬于群體。
定義4每一階段的博弈是從每個博弈方子群體中隨機抽取一個人進行博弈。
定義5雙異質群體演化博弈模型可表示為4元有序組(N,S,P,U),其中N=(N1,N2,…,Nm)為異質群體參與者空間。
結合定義1,可設定N=(NA,ND)。其中:NA是攻擊方參與者總空間,NA=(NA1,NA2,…,NAj),NA1,NA2,…,NAj是攻擊方參與者子群體;ND是防御方參與者總空間,ND=(ND1,ND2,…,NDi),ND1,ND2,…,NDi是防御方參與者子群體。
S=(SA,SB)為攻防博弈參與者群體的混合策略空間。其中:SA是攻擊方參與者純策略總空間,SA=(SA1,SA2,…,SAj),SA1,SA2,…,SAj是攻擊方參與者子群體選擇的純策略;SD是防御方參與者純策略總空間,SD=(SD1,SD2,…,SDi),SD1,SD2,…,SDi是防御方參與者子群體選擇的純策略。
P=(PA,PD)為博弈信念集合。其中:PA是攻擊方博弈信念集合,PA=(PA1,PA2,…,PAj),PAj是選擇策略SAi的概率;PD是攻擊方博弈信念集合,PD=(PD1,PD2,…,PDi),PDi是選擇策略sDi的概率。
演化博弈是多階段的動態(tài)博弈過程,每一個階段的博弈結果都會對后一階段的博弈產生影響。結合定義2和4,t時刻子群體NDi(t)的時間導數(shù)為
(1)
結合博弈信念集合定義,可得在任意時刻t有
PDi(t)ND(t)=NDi(t)
(2)
式(2)兩邊同時對t求導,整理可得
(3)
參照文獻[17-18]的攻防收益計算方法,定義本文中收益量化的關鍵參數(shù)和計算公式。
定義6資源重要程度Cr,指在一次完整的攻防過程中,攻擊方目標資源的重要程度。
定義7操作代價Ocost,指防御方為使攻擊方攻擊無效做出針對性調整所需付出的代價。例如,系統(tǒng)開銷增大、服務質量下降等。
定義8攻擊成本Acost,攻擊者進行攻擊時所付出的代價。例如,攻擊的時間成本、風險成本等。本文中攻擊成本與漏洞的威脅級別有關,漏洞的威脅級別越高,攻擊成本就越低。
定義9感染概率λ,指攻擊方成功利用漏洞感染防御方的概率。
定義10防御效果γ,指防御方利用防御動作成功清除病毒的概率。
結合定義6~10可知,某一階段博弈中,防御方的收益可表示為
UD=γCr-Ocost
(4)
攻擊者收益源于感染平臺后得到的收益,與感染概率有關。攻擊收益可表示為
UA=λCr-Acost
(5)
在多階段博弈中,博弈雙方通常不會滿意當前階段博弈策略的收益,認為存在更優(yōu)策略。在這種假設下,博弈雙方會尋求其他策略進行學習,在下一個階段博弈中采用新的策略,這也就是策略“反思-學習”機制[2]。顯然,現(xiàn)實網絡攻防博弈決策本質上應是基于“反思-學習”機制的。在每一階段博弈結束后,攻防雙方的每一個子群體,都從群體中隨機抽取一個其他子群體作為反思對象進行策略學習。這種“反思-學習”機制可結合建模分析,建立與之相一致的演化博弈模型和系統(tǒng)動力學方程。在有限理性條件下,網絡攻防子群體基于“反思-學習”機制的策略調整行為,可視為獨立的累計隨機事件發(fā)生次數(shù)的增量過程,即泊松過程[2]。子群體的“反思-學習”時間可近似為泊松過程的到達時間,泊松過程到達率即為平均反思率Rs。假設子群體的泊松分布在統(tǒng)計上是相互獨立的,則采取防御策略SD的子群體“反思-學習”時間之和是一個泊松過程,其到達率為
Parrive=PDiRs(NDi)
(6)
(7)
根據大數(shù)定律,設群體隨機過程為確定性的流,則子群體NDi來自選擇防御策略SDj的子群體NDj的流入Pin為
(8)
子群體NDi的流出Pout為
(9)
防御策略的博弈信念PDi變?yōu)?/p>
(10)
若群體中策略不成功的子群體的反思率高于策略更成功的子群體的反思率,就會出現(xiàn)收益嚴格單調遞減的選擇動態(tài)。引入ρ(x)[2],設勢函數(shù)ρ(x)在其自變量x上嚴格單調遞減,則平均反思率表示為
Rs(NDi)=ρ(UDi)
(11)
防御策略SDi的選取概率PDi可表示為
(12)
設子群體的反思率在其當前收益上是線性遞減的,則
ρ(UDi)=a-bUDi(a,b∈R)
(13)
設反思率Rs(NDi)非負,則
(14)
按照2.1小節(jié)的防御決策理論,結合網絡安全防御行為特點,設計最優(yōu)防御純策略選擇方法,偽代碼如下。
輸入:雙異質群體演化博弈模型
輸出:最優(yōu)防御純策略SDi
BEGIN
1 初始化P,U,S,b;
2 定義T,function;
3 for (k=1;k≤T;k++)
6 ode45(function,T,P);
7 WhenPDi=1
8 ReturnSDi;
9 Else
10 Return 0;
11 end
END
本文方法對應的時間復雜度為O(k(m+n)2)。在實際網絡攻防中,博弈參與方的數(shù)量增加只會導致相應的攻防策略數(shù)量也增加,該方法復雜度仍處于同一量級,理論上能夠滿足網絡攻防的時敏需求[17]。
對照文獻[11,15-17],從博弈類型、復制動態(tài)速率準確性和策略選取應用價值共3個方面分析本文模型和決策方法,結果如表1所示。
表1 相關工作比較
在博弈類型方面,文獻[11,15-17]均以同質群體演化博弈理論為基礎,不能體現(xiàn)出攻防雙方差異性。在復制動態(tài)速率準確性方面,文獻[11,16]考慮不完全信息條件,結合動態(tài)演化思想,突破傳統(tǒng)演化博弈模型單階段完全信息博弈的局限性,提出使用系統(tǒng)動力學方程來表示過程的動態(tài)演化特點,至于策略之間的相互影響還有待進一步挖掘。文獻[15]引入激勵系數(shù)刻畫同一博弈方之間的策略激勵與抑制作用,但并未能給出激勵系數(shù)的求解過程。在策略選取應用價值方面,文獻[11,15]并未區(qū)分純策略和混合策略在實際應用中的價值高低,文獻[16]考慮了第三方懲罰策略對防御策略選取的影響,但第三方懲罰策略有其自身局限性,一定程度上降低了模型求解的穩(wěn)定性。文獻[17]結合軍事信息網絡特點,給出了軍事信息網絡最優(yōu)純策略的選取辦法,滿足了網絡安全防御確定性決策的需求,但是有待進一步研究可行策略的穩(wěn)定性問題。
對比分析表明,所提模型和決策方法考慮攻防雙方的差異性提出了雙異質群體演化博弈模型,改進復制動態(tài)方程以提升模型求解的準確性,求解穩(wěn)定可行的純策略提升了策略的實際應用價值。
首先引入演化穩(wěn)定和最優(yōu)策略集合的定義。
定義11對于博弈參與方的不同混合策略Sx、Sy,若存在εy∈(0,1)滿足不等式U(Sx,Sω)≥u(Sy,Sω)對所有的ε∈(0,εy)都成立,那么Sx是演化穩(wěn)定策略。其中,Sω=εSy+(1-ε)Sx是混合策略Sy入侵原有混合策略空間后形成的新混合策略,Sy是入侵策略Sy在博弈中的被選取概率,U(Sx,Sω)是原策略空間被策略Sy入侵后的收益,U(Sy,Sω)是入侵策略的收益。
定理1異質群體N演化穩(wěn)定的充要條件是N存在嚴格納什均衡。
(2)必要性。設異質群體N存在嚴格納什均衡,固定博弈參與者在博弈總空間中的位置為Ni且令Sy≠Sx。對于任意i有U(Sxi,S-xi)=U(Sxi)>U(Syi,S-xi),由于收益U(Sxi)是連續(xù)函數(shù),必存在εy∈(0,1)使得對任何ε∈(0,εy)和Sω=εSy+(1-ε)Sx都有U(Sxi,S-ω)>U(Syi,S-ω),即異質群體N是演化穩(wěn)定的。證畢。
由定理1的分析證明可知,Rs的形式決定了方程是否有漸進穩(wěn)定的演化均衡解。博弈模型中,不穩(wěn)定的演化均衡解無法形成可行可信的優(yōu)選策略。因此,引入勢博弈和勢函數(shù)概念[21],即如果每個子群體的策略改變是單調的,并且能夠映射到一個全局單調函數(shù)中,則這個全局單調函數(shù)就是勢函數(shù),此類博弈必存在嚴格納什均衡。因此,將勢函數(shù)引入式(12)可以使異質群體演化博弈模型得到演化穩(wěn)定解,從而實現(xiàn)防御的有效精確決策。
引理1每個勢博弈均有純策略演化穩(wěn)定解。
異質群體參與者空間N=(N1,N2,…,Nm),函數(shù)ρ是異質群體博弈的勢函數(shù),因此Ni的演化穩(wěn)定解可映射到N(ρ(i))中,當且僅當U(ρ(i))≥U(-ρ(i))時成立。由于勢函數(shù)單調,因此N(ρ(i))存在純策略演化穩(wěn)定解,Ni存在純策略演化穩(wěn)定解。
以2×2攻防對稱博弈為例,演繹演化均衡解求解過程。攻防雙方各含有兩個子群體NA1、NA2,ND1、ND2,對應純策略為SA1、SA2,SD1、SD2。以博弈防御方為例,收益矩陣可以表示為
(15)
式中:D是標準化矩陣,減少了需要觀察的變量數(shù);u1是攻擊方采取純策略SA1時防御方采取純策略SD1獲得的相對收益;u2是攻擊方采取純策略SA2時防御方采取純策略SD2獲得的相對收益。將u1、u2代入式(14),可得對應防御方和攻擊方的復制動態(tài)方程
(16)
運用MATLAB分析博弈演化穩(wěn)定解的穩(wěn)定性。由式(15)可知:u1、u2的正負會影響博弈的演化趨勢,u1、u2的數(shù)值不影響博弈的演化趨勢;b的數(shù)值會影響博弈的演化速率。實驗中,對u1、u2及b的取值進行多次調整,發(fā)現(xiàn)并不影響演化穩(wěn)定解的收斂結果。參考文獻[10],設定|u1|=0.4,|u2|=0.6,b=1,初始博弈信念PA1、PD1為(0,1)間的隨機數(shù)。圖1為500次蒙特卡羅仿真實驗得到的本文模型演化穩(wěn)定解的收斂軌跡。圖中,藍色標記點是純策略解收斂點,紅色標記點是混合策略解收斂點。
分析圖1b和1d可知:當u1u2<0時,博弈信念在狀態(tài)空間內不改變符號,從狀態(tài)空間內部任意初始位置開始,博弈雙方的總體狀態(tài)都會收斂到嚴格占優(yōu)純策略,即當u1=0.4、u2=-0.6時,攻擊方采取純策略SA1,防御方采取純策略SD1;當u1=-0.4、u2=0.6時,攻擊方采取純策略SA2,防御方采取純策略SD2。
(a)u1=0.4,u2=0.6
(b)u1=0.4,u2=-0.6
(c)u1=-0.4,u2=-0.6
(d)u1=-0.4,u2=0.6圖1 本文模型演化穩(wěn)定解的收斂軌跡Fig.1 Converging tracks of evolutionary equilibrium of the proposed model
分析圖1a和1c可知:當u1u2>0時,博弈有兩個嚴格純策略納什均衡和一個混合策略納什均衡。結合式(16)可知,當博弈收斂到混合策略納什均衡時,PA1=u2/(u1+u2),PD1=u2/(u1+u2)。博弈的混合策略納什均衡點不穩(wěn)定,會隨著u1u2的變化而發(fā)生改變。因此,當u1u2>0時,博弈僅有兩個穩(wěn)定的嚴格純策略納什均衡。進一步分析圖1a可知,混合策略納什均衡是一個鞍點,除了通過鞍點的曲線外,其他的解軌跡都會收斂到兩個穩(wěn)定的純策略納什均衡,即當u1=0.4、u2=0.6時,攻擊方采取純策略SA1、防御方采取純策略SD1,或者攻擊方采取純策略SA2、防御方采取純策略SD2。進一步分析圖1c可知,攻防博弈雙方的博弈策略會收斂到更極端的情況,即當u1=-0.4、u2=0.6時,攻擊方采取純策略SA1、防御方采取純策略SD2,或者攻擊方采取純策略SA2、防御方采取純策略SD1。
對比其他相關文獻可知,雙同質群體演化博弈模型中,2×2對稱博弈模型的混合策略演化穩(wěn)定解是穩(wěn)定的,可作為最優(yōu)防御策略的參考[10,15],但在雙異質群體博弈模型中,2×2對稱博弈模型的混合策略演化穩(wěn)定解是鞍點,并不是嚴格穩(wěn)定的。這也符合實際博弈過程的特點,即當博弈發(fā)生在兩個有區(qū)別的群體中時,行為上會呈現(xiàn)極端化的趨勢,決策會越來越偏向某一種單一策略[22]。
為體現(xiàn)模型及方法克服事實偏差的能力,設置對比實驗。經典模型中復制動態(tài)方程[2,10]為
(17)
對比式(16)(17)可知,經典模型中攻防雙方的策略調整并未考慮對方的博弈策略變化,而是通過自身收益變化調整策略選擇。但是,現(xiàn)實網絡攻防博弈是常和博弈,攻防雙方收益的衡量方式并不相同。運用經典模型選擇最優(yōu)防御策略,可能會受到攻擊方欺騙性策略的誘導,產生錯誤的策略參考結果。為證明這一點,保持|u1|=0.4、|u2|=0.6不變,初始博弈信念PA1、PD1為(0,1)間的隨機數(shù)。圖2為500次蒙特卡羅仿真得到的經典模型演化穩(wěn)定解的收斂軌跡。
(a)u1=0.4,u2=0.6
(b)u1=0.4,u2=-0.6
(c)u1=-0.4,u2=-0.6
(d)u1=-0.4,u2=0.6圖2 經典模型演化穩(wěn)定解的收斂軌跡 Fig.2 Traditonal converging tracks of evolutionary equilibrium
分析圖2a可知,當u1>0、u2>0時,博弈結果和初始博弈信念PA1、PD1的數(shù)值有關,無法實現(xiàn)策略的優(yōu)選。分析圖2c可知,當u1<0、u2<0時,博弈收斂至混合策略納什均衡點(0.6,0.6),此時博弈結果以概率形式出現(xiàn),不利于現(xiàn)實中決策的確定性需求。對比分析圖1b、1d和圖2b、2d可知,當u1u2<0時,經典模型和雙異質演化博弈模型的演化穩(wěn)定解相同。需要說明的是,由于經典模型中防御策略演化并未考慮攻擊方博弈信念的變化,攻擊方完全可以利用這一漏洞設計欺騙策略來誤導防御方。綜合分析可知,經典模型有50%的概率不能實現(xiàn)防御策略的確定性優(yōu)選,相對而言,本文提出的模型及克服經典模型中同質群體假設帶來的事實偏差,為網絡安全防御提供可信的防御決策參考。
借鑒經典網絡信息系統(tǒng)設計理念和相關文獻的實驗設計[15,17,23],部署一個簡單的網絡信息系統(tǒng)進行仿真實驗。該網絡信息系統(tǒng)的拓撲環(huán)境見圖3。
圖3 網絡信息系統(tǒng)的拓撲結構Fig.3 Topological structure of network information system
防火墻和網關將網絡分為攻擊方所在的外網區(qū)、實驗進行的隔離區(qū)(DMZ)和防御方(用戶)所在的內網區(qū)。防火墻的訪問控制策略是非內網主機只能訪問DMZ區(qū)的FTP服務器、Web服務器、E-MAIL服務器和堡壘主機H,DMZ區(qū)中的3個服務器都是思科服務器。使用Nessus工具掃描實驗網絡信息系統(tǒng),結合國家信息安全漏洞庫(CNNVD)提供的漏洞信息[24]及姜偉等關于網絡防御策略及操作代價的定義[25],本文實驗使用原子攻擊策略和原子防御策略,分別如表2和表3所示。
表2 原子攻擊策略
表3 原子防御策略
攻擊方利用高評分漏洞進行攻擊,短期內收益見效快,但不利于長期持有后收益升值(典例為零日漏洞)。選擇低評分漏洞為目標,攻擊成本高,單次收益低[3]。本文將利用高評分漏洞設定為冒險型進攻策略SA1=(a1,a2,a3),利用低評分漏洞設定為保守型進攻策略SA2=(a4,a5)。
防御方的策略收益主要取決于操作代價,操作代價低的防御策略往往有效性較差。因此,本文將使用高操作代價策略設為冒險型防御策略SD1=(b4,b5),使用低操作代價策略設為保守型防御策略SD2=(b1,b2)。結合收益計算式(4)(5),設資源重要程度Cr=1,可得攻防策略收益,如表4所示。
表4 攻防策略收益
計算策略收益時,認為策略收益等于策略所包含的原子攻防動作的平均收益。結合式(15),給出攻防雙方的收益量化矩陣
(18)
(19)
4.2.1 攻防策略選取概率變化趨勢 結合式(18)(19),設置控制變量b=1,研究實驗條件下演化穩(wěn)定策略的收斂情況。設置初始博弈信念(PA1,PD1)={(0.5,0,5),(0.7,0.3),(0.3,0.7),(0.6,0.4)}分別代表攻防雙方無策略選取傾向,攻擊方傾向于選取策略SA1、御方傾向于選擇策略SD2,攻擊方傾向于選取策略SA2、防御方傾向于選擇策略SD1,攻擊方傾向于選取策略SA1、防御方傾向于選擇策略SD1共4種不同情況。圖4給出了攻防雙方策略選取概率變化趨勢的仿真結果。
(a)攻擊策略選取概率
(b)防御策略選取概率圖4 攻防雙方策略選取概率變化趨勢Fig.4 Changing trend of strategy selection probability of attack and defense
分析圖4a、4b可知:對應不同的初始博弈信念(PA1,PD1)={(0.5,0,5),(0.7,0.3),(0.3,0.7),(0.6,0.4)},PA1始終收斂至1,PA2始終收斂至0;PD1始終收斂至1,PD2始終收斂至0。結合實驗條件A、D的數(shù)值進一步分析可知,在冒險型策略的相對收益u1遠大于保守型策略的相對收益u2的情況下,無論攻防雙方在博弈開始前有無策略選取傾向,網絡攻防雙方最終都會選擇冒險型策略。
4.2.2 反思能力b對攻防策略選取的影響 保持u1、u2不變,設定初始博弈信念(PA1,PD1)=(0.7,0.3),分別取b=0.5,1,1.5,研究參數(shù)b對于博弈結果的影響。圖5給出了b不同取值下攻防雙方策略選取概率變化趨勢的仿真結果。
(a)攻擊策略選取概率
(b)防御策略選取概率圖5 不同b取值下攻防雙方策略選取概率變化趨勢Fig.5 Changing trend of strategy selection probability of attack and defense for different b values
分析圖5可知:當b=0.5,1,1.5時,PA1達到演化穩(wěn)定所需的演化次數(shù)分別為36、15、7次;PD1達到演化穩(wěn)定所需的演化次數(shù)分別為117、59、39次。以b=1為基準:當b=0.5時,防御方博弈群體決策趨于穩(wěn)定的速率減緩了198%;當b=1.5時,防御方博弈群體決策趨于穩(wěn)定的速率提升了151%。由此可見,反思能力b可以影響博弈結果的求解速度。現(xiàn)實意義在于,反思能力較弱的子群體(b<1)需要更多時間適應環(huán)境才能做出決策;反思能力較強的子群體(b>1)對環(huán)境適應性較強,決策反應較快。理論上合理調整參數(shù)b,使其對應每次博弈的時間窗口,可提升博弈結果的時敏性。
本文根據網絡攻防雙方決策差異性特征,結合生物學種群概念,提出了雙異質群體演化博弈模型。設計了基于策略反思機制的最優(yōu)防御策略選取算法,結合模擬網絡攻防實驗環(huán)境,開展了仿真驗證。本文主要結論如下。
(1)相比傳統(tǒng)的演化博弈模型,所提雙異質群體演化博弈模型可以突破對稱博弈假設,凸顯攻防雙方的效用特征,得出的演化均衡策略更符合實際網絡攻防的行為差異性特點。
(2)在非對稱演化博弈中,引入恰當?shù)膭莺瘮?shù)能夠證明演化均衡穩(wěn)定存在,確保博弈模型所得策略的穩(wěn)定性和可信性。
(3)反思能力會影響模型和方法求解的速度,表明在不同信息交互機制的群體中最優(yōu)策略的演化速率不同。由此,可設計網絡拓撲結構中的信息交互機制,更好地對應攻防博弈的時間窗口,提升時敏性。
本文在模型求解和算例分析中,假設可選擇策略數(shù)為2,后期可考慮多維博弈策略空間的情況下雙異質群體演化博弈模型的穩(wěn)定性和適用性,以及當攻防雙方認知信息錯誤時博弈模型的優(yōu)化問題。