齊 斌,王 宇,鄒紅霞,李冀興
(航天工程大學(xué) 航天信息學(xué)院,北京 101416)
近年來,網(wǎng)絡(luò)安全意識(shí)作為國家網(wǎng)絡(luò)安全戰(zhàn)略的重要內(nèi)容之一,受到社會(huì)的廣泛關(guān)注.高效培養(yǎng)全民網(wǎng)絡(luò)安全意識(shí)是筑牢網(wǎng)絡(luò)防線的重要環(huán)節(jié),而可靠的、系統(tǒng)的、完善的網(wǎng)絡(luò)安全知識(shí)圖譜可以大幅提高教育效果.
知識(shí)圖譜[1]也被稱為科學(xué)知識(shí)圖譜,是顯示知識(shí)發(fā)展進(jìn)程與結(jié)構(gòu)關(guān)系的一系列各種不同的圖形,用可視化技術(shù)描述知識(shí)資源及其載體,挖掘、分析、構(gòu)建、繪制和顯示知識(shí)及它們之間的相互聯(lián)系,從而構(gòu)成完整的知識(shí)體系結(jié)構(gòu).但由于不同行業(yè)、不同工作崗位對(duì)網(wǎng)絡(luò)安全知識(shí)掌握程度的要求存在差異,所以知識(shí)圖譜包含的知識(shí)點(diǎn)的范圍并不一致,而知識(shí)圖譜也會(huì)隨著相關(guān)知識(shí)的發(fā)展進(jìn)而動(dòng)態(tài)調(diào)整結(jié)構(gòu),實(shí)現(xiàn)重構(gòu)性[2].自適應(yīng)的知識(shí)圖譜是根據(jù)層次化需求,先映射為需求知識(shí)圖譜,然后通過相似性匹配算法生成相似度較高的若干圖譜,再根據(jù)圖譜間的合并運(yùn)算重構(gòu)出最符合用戶需求的目標(biāo)知識(shí)圖譜.為避免目標(biāo)圖譜出現(xiàn)冗雜、交叉嚴(yán)重的情況,需要對(duì)知識(shí)圖譜復(fù)雜度、相似度進(jìn)行研究,以便于系統(tǒng)更好地自主選擇.
本文利用形式化和概率論的方法引入信息熵的概念[3],通過計(jì)算知識(shí)的熵值表示其復(fù)雜度,從而量化知識(shí)圖譜.現(xiàn)有的研究通常是利用系統(tǒng)熵表示系統(tǒng)的復(fù)雜度,熵值越高,系統(tǒng)越復(fù)雜.但現(xiàn)有的復(fù)雜度度量方法[4]缺乏獨(dú)立的知識(shí)點(diǎn)和繼承流的測度,不適用于邏輯性較強(qiáng)的網(wǎng)絡(luò)安全領(lǐng)域.由于知識(shí)點(diǎn)龐雜難以形成匹配度較高的聚類知識(shí)圖譜,且缺乏合適的網(wǎng)絡(luò)安全知識(shí)模型,故當(dāng)前對(duì)此類圖譜復(fù)雜度的研究較少,而系統(tǒng)的、完善的網(wǎng)絡(luò)安全知識(shí)模型的構(gòu)建將有助于復(fù)雜度的測量.
為便于度量網(wǎng)絡(luò)安全知識(shí)體系從而選擇適用于角色定位的知識(shí)圖譜,本文提出了基于“行業(yè)、崗位、人員”的三層三維知識(shí)模型,標(biāo)識(shí)了各知識(shí)點(diǎn)間的關(guān)聯(lián)度,同時(shí)對(duì)網(wǎng)絡(luò)安全知識(shí)圖譜的復(fù)雜度給出了新的定義和函數(shù)表達(dá)式并做了推導(dǎo)驗(yàn)證,闡述了一種基于信息粒度和模糊集的知識(shí)圖譜度量方法,從體系結(jié)構(gòu)、復(fù)雜度、相似度等多個(gè)角度解決了目標(biāo)知識(shí)圖譜的最優(yōu)化選擇問題.
為方便構(gòu)建更加系統(tǒng)、完善、針對(duì)性強(qiáng)的知識(shí)圖譜,本文從邏輯性角度提出了基于“行業(yè)、崗位、人員”的網(wǎng)絡(luò)安全知識(shí)模型,如圖1所示.根據(jù)行業(yè)對(duì)人員的網(wǎng)絡(luò)安全知識(shí)不同要求進(jìn)行框架分類,再依照各自級(jí)別和所需掌握的網(wǎng)絡(luò)安全知識(shí)劃分崗位,以企業(yè)系統(tǒng)為例,將崗位分為普通員工、安全人員、項(xiàng)目經(jīng)理、企業(yè)高管等等.如此,就將知識(shí)點(diǎn)精確到個(gè)人,構(gòu)建了“行業(yè)-崗位-人員”的三層結(jié)構(gòu),具有極強(qiáng)的針對(duì)性.
圖1 基于“行業(yè)、崗位、人員”的網(wǎng)絡(luò)安全知識(shí)模型
在知識(shí)點(diǎn)的具體規(guī)劃上,采用“受攻擊目標(biāo)-攻擊方法-預(yù)防難度級(jí)別”的三維體系.首先按照受攻擊目標(biāo)分為相對(duì)范圍較大的類別,而后再進(jìn)一步細(xì)致劃分.攻擊目標(biāo)可大致分為以下五類:人腦、數(shù)據(jù)、軟件、設(shè)備、服務(wù);攻擊手段根據(jù)網(wǎng)絡(luò)攻擊具體實(shí)施過程共計(jì)分為七大種類:信息收集型攻擊、欺騙型攻擊、權(quán)限獲取攻擊、拒絕服務(wù)攻擊、系統(tǒng)破壞攻擊、信息篡改型攻擊、社會(huì)工程攻擊.而針對(duì)目標(biāo)的攻擊手段仍有強(qiáng)弱之分,于是采用“預(yù)防難度級(jí)別”對(duì)相應(yīng)預(yù)防或化解攻擊的難易程度進(jìn)行區(qū)分,利用Delphi方法根據(jù)多名領(lǐng)域?qū)<覍?duì)其評(píng)估且不斷改進(jìn)從而最終判定其級(jí)別,采用5等分級(jí)表示,降序依次表示處理威脅的難易程度.
三維的知識(shí)模型,將單一知識(shí)固定在立方體模型中的一個(gè)點(diǎn)位,既保證了知識(shí)點(diǎn)的精確性,也提供了足夠的空間囊括當(dāng)前所有的知識(shí)點(diǎn),同時(shí)為將來的知識(shí)拓展預(yù)留端口.因此目標(biāo)知識(shí)圖譜的構(gòu)建只需要利用自動(dòng)機(jī)根據(jù)崗位具體需求同知識(shí)點(diǎn)相組合,通過設(shè)置好知識(shí)點(diǎn)的權(quán)重后自動(dòng)生成.
獨(dú)立的知識(shí)圖譜是由知識(shí)點(diǎn)、繼承流、功能等元素組成,元素相互聯(lián)系,父知識(shí)點(diǎn)包含子知識(shí)點(diǎn)的功能,原子知識(shí)點(diǎn)作為最小單位元素.這里參考知識(shí)網(wǎng)[5]的定義,對(duì)有窮的知識(shí)圖譜進(jìn)行詮釋.
定義1.有窮集合KM(Knowledge Mapping)可定義為一個(gè)3元組:KM = {P,R,M}.
其中P={p1,p2,…,pn}是一個(gè)由n個(gè)知識(shí)點(diǎn)組成的有限知識(shí)點(diǎn)集合.R?P×P,R={r1,r2,…,rn}由n個(gè)復(fù)合聯(lián)系(繼承流)組成的有限復(fù)合聯(lián)系集,表示父子知識(shí)點(diǎn)間的繼承關(guān)系.M?P×P,M={m1,m2,…,mn}是除父知識(shí)點(diǎn)外的其余n個(gè)知識(shí)點(diǎn)的有限組合集.以知識(shí)點(diǎn)示例,根據(jù)用戶需求從知識(shí)庫中提取相應(yīng)的知識(shí)點(diǎn),映射的知識(shí)圖譜(集合KM)結(jié)構(gòu)如圖2所示.
知識(shí)圖譜具有層次結(jié)構(gòu),將根知識(shí)點(diǎn)(圖中知識(shí)點(diǎn)A)所在層定義為第0層,將直接關(guān)聯(lián)的子知識(shí)點(diǎn)和繼承流等定義為第1層,與第一層直接聯(lián)系的子知識(shí)點(diǎn)和繼承流定義為第2層,如此類推,最后直至“原子知識(shí)點(diǎn)”(最底層的知識(shí)點(diǎn),不可再次劃分),定義為m層,并用xij表示知識(shí)結(jié)構(gòu)第i層的第j個(gè)知識(shí)點(diǎn).
通過對(duì)KM做適當(dāng)?shù)暮筒钸\(yùn)算,實(shí)現(xiàn)圖譜的自重構(gòu),因此知識(shí)圖譜K={x1,x2,…,xn}的多重集KM可利用KM={αixi|i∈[1,n]}表示,根據(jù)系數(shù)α的不同可實(shí)現(xiàn)集合重構(gòu),這是知識(shí)圖譜運(yùn)算的基礎(chǔ).
圖2 知識(shí)圖譜的結(jié)構(gòu)示意圖
由于各知識(shí)點(diǎn)的取值類型和取值范圍各不相同,為將全部知識(shí)點(diǎn)均作為可以量化的數(shù)值,本文引入熵值理論,通過計(jì)算知識(shí)點(diǎn)的測度從而計(jì)算知識(shí)體系的復(fù)雜度.
定義2.假設(shè)λij(1≥λij≥0)表示知識(shí)點(diǎn)xij在多重集中的重要程度,其重要程度同λ值成正比關(guān)系.且多重集元素xij包含了系數(shù)αij,則xij的綜合測度可表示為:
(1)
為方便數(shù)值的比較和計(jì)算,現(xiàn)將綜合測度值歸一化處理:
(2)
根據(jù)香農(nóng)的信息熵理論,I(xij)=-log2μ(xij),但在僅有唯一元素時(shí)I(xij)=0,不符合實(shí)際情況,故將公式改進(jìn)為I(xij)=log2(μ(xij)-1+1).另根據(jù)μ(xij)公式,存在特殊情況μ(xij)=0時(shí),I(xij)=+∞.
定義3.參考平均信息熵,可將知識(shí)圖譜內(nèi)單個(gè)知識(shí)點(diǎn)的平均知識(shí)量表示為
H(xij)=μ(xij)I(xij)=μ(xij)log(1/μ(xij)+1)
(3)
且平均知識(shí)量H(xij)是μ(xij)的單調(diào)有界函數(shù).
由于知識(shí)圖譜具有多重集特性,因此需要將信息熵進(jìn)行改進(jìn)和推廣,綜上給出知識(shí)圖譜復(fù)雜度的定義.
定義4.知識(shí)圖譜K的多重集KM的知識(shí)量函數(shù),即為知識(shí)圖譜K的復(fù)雜度,復(fù)雜度度量函數(shù)有
(4)
性質(zhì)1.G(KM)是元素?cái)?shù)量和多重?cái)?shù)的單增函數(shù)
證明:由公式(4)易知G(KM)是求和函數(shù),隨層數(shù)i增加單調(diào)遞增.
Δ =G(KM)-G′(KM)
綜上Δ≤0,即G(KM)≤G′(KM),故對(duì)任意一層任意元素綜合測度的增加,G(KM)遞增.
基于上述假設(shè),在知識(shí)圖譜第一層加入新元素x1(n+1),其綜合測度為c,則有
Δ=G(KM)-G′(KM)
≤0
綜上G(KM)≤G′(KM),可得結(jié)論:在知識(shí)圖譜的任意層次增加元素,G(KM)隨之遞增.
性質(zhì)表明獨(dú)立的知識(shí)圖譜的元素?cái)?shù)目越多、綜合測度越大,G(KM)值越大,也就意味著知識(shí)圖譜越復(fù)雜.復(fù)雜度(知識(shí)量)函數(shù)是關(guān)于系統(tǒng)結(jié)構(gòu)、元素?cái)?shù)目以及綜合測度的函數(shù),該函數(shù)隨著各個(gè)參數(shù)的增加,復(fù)雜度也隨之增加.
性質(zhì)2.任意一層的多個(gè)元素的合并將使復(fù)雜度函數(shù)G(KM)減小
證明:假設(shè)合并知識(shí)圖譜K中第一層的某兩個(gè)元素,可得出新的知識(shí)體系K′,則有
Δ=G(KM)-G′(KM)
性質(zhì)3.在知識(shí)圖譜多重集的元素?cái)?shù)目和綜合測度一定的情況下,知識(shí)圖譜復(fù)雜度G(KM)具有最大值,即∑pilog(n+1)≥G(KM)≥∑pilog2.
證明:由于pi/cij≥1,故
因?yàn)椋?/p>
上述復(fù)雜度函數(shù)的性質(zhì),是多重集運(yùn)算合并的基礎(chǔ),證明了知識(shí)圖譜運(yùn)算和選擇的可行性.為生成適應(yīng)性強(qiáng)、匹配度高的知識(shí)圖譜,本文提出了基于模糊集[6,7]的圖譜選擇技術(shù),為方便闡述,重新定義相似度[8]的概念如下:
定義5.存在知識(shí)圖譜K={x1,x2,…,xm}和知識(shí)圖譜W={w1,w2,…,wn},則有W關(guān)于K的相似度為
(5)
其中,T(·),s(·)分別表示是模糊集的t-模和s-模,采用“積”和“概率和”的形式將其具體化,即T(x,y)=xy,s(x,y)=x+y-xy.f(xi,W)是W關(guān)于xi的匹配度,μw(xi)表示知識(shí)體系W中與xi相匹配的元素完善度.g(K,W)是K相對(duì)于W的復(fù)雜性系數(shù).ε為相似度調(diào)節(jié)系數(shù),其作用是放大分子的計(jì)算數(shù)值便于相似度比較,權(quán)重ωi范圍在[0,1]之間,可利用聚類分析優(yōu)化方法進(jìn)行權(quán)重的優(yōu)化.
匹配度[9]f(xi,W)是反映知識(shí)圖譜同需求的匹配程度,其范圍在[0,1]之間.當(dāng)知識(shí)圖譜W中存在的知識(shí)點(diǎn)元素若與xi完全匹配時(shí)f(xi,W)=1;若與xi完全不匹配時(shí)f(xi,W)=0,匹配度通常實(shí)在知識(shí)量的基礎(chǔ)上進(jìn)行對(duì)比分析.
完善度[9]μw(xi)是反映知識(shí)圖譜滿足用戶要求的程度,通常采用模糊集和定義其數(shù)值.將知識(shí)圖譜底層知識(shí)點(diǎn){p1,p2…,pn}上的一個(gè)模糊集定義為μ(pi):P→[0,1],μ(pi)即為知識(shí)點(diǎn)pi的完善度.0表示該知識(shí)點(diǎn)不具有任何意義,數(shù)值越大表示該知識(shí)點(diǎn)信息越完善.
復(fù)雜性系數(shù)[9]g(K,W)是對(duì)知識(shí)圖譜復(fù)雜程度的比較,因?yàn)闈M足用戶需求的知識(shí)圖譜不一定只存在1種,通過對(duì)比圖譜間的復(fù)雜度從而權(quán)衡選擇.
(6)
當(dāng)W復(fù)雜于K時(shí),g(K,W)>1;當(dāng)K復(fù)雜度不小于W時(shí),g(K,W)=1.
綜上,相似度sml(·)是綜合考慮知識(shí)圖譜在“質(zhì)”(完善度)、“量”(匹配度)和復(fù)雜性三個(gè)方面,具有如下性質(zhì):相似度函數(shù)是完善度和匹配度單增函數(shù),是復(fù)雜性系數(shù)的單減函數(shù);在復(fù)雜性系數(shù)為1的條件下,子集、交集的相似度不大于原集合的相似度,并集的相似度不小于原集合的相似度.
根據(jù)相似度相關(guān)性質(zhì),以相似度為核心的基于模糊集的知識(shí)圖譜選擇算法如下:
1.根據(jù)行業(yè)規(guī)范要求對(duì)用戶需求知識(shí)進(jìn)行層次化處理,并映射至需求知識(shí)圖譜R,又稱參考知識(shí)圖譜.例如,以Rij代表i層第j個(gè)需求,映射到參考知識(shí)圖譜的元素即為Rij.根據(jù)相關(guān)參數(shù),計(jì)算R的復(fù)雜度G(R).
G(K)=
(7)
3.通過有監(jiān)督學(xué)習(xí)的模糊關(guān)聯(lián)聚類生成目標(biāo)知識(shí)圖譜Ki(i=1,2…),由于可能生成滿足要求的多個(gè)知識(shí)圖譜,則對(duì)生成的知識(shí)圖譜做相應(yīng)的交并運(yùn)算,生成組合的知識(shí)圖譜,再分別計(jì)算其復(fù)雜度,知識(shí)量和同R相比的相似度.
4.根據(jù)相似度計(jì)算公式,在保證目標(biāo)知識(shí)圖譜相似于R的情況下,即生成的知識(shí)圖譜滿足用戶需求(sml值盡可能大),也可根據(jù)具體情況選擇知識(shí)量較少或復(fù)雜度的較低的知識(shí)圖譜,便于工程實(shí)現(xiàn).
以政府系統(tǒng)內(nèi)某非網(wǎng)絡(luò)安全管理基層崗位的培訓(xùn)知識(shí)圖譜生成為例,系統(tǒng)利用信息熵度量知識(shí)結(jié)構(gòu),通過基于模糊集的知識(shí)圖譜選擇方法在工程實(shí)踐中得以具體應(yīng)用.
首先根據(jù)網(wǎng)絡(luò)安全法、公務(wù)人員信息安全管理規(guī)范和相應(yīng)的崗位職能需求層次(如表1所示)映射出相對(duì)恰當(dāng)?shù)牡男枨笾R(shí)圖譜(如圖3所示的樹狀圖).
表1 需求層次表
根據(jù)參考知識(shí)圖譜,由自動(dòng)機(jī)將知識(shí)模型中知識(shí)點(diǎn)按照層級(jí)由小至大,同一層級(jí)由左至右依次填充完成,由于可能存在同時(shí)多個(gè)知識(shí)圖譜滿足用戶需求,因此將會(huì)產(chǎn)生若干個(gè)不同的圖譜Ki(i=1,2…).據(jù)實(shí)例需求和現(xiàn)有的知識(shí)模型生成K1(預(yù)置的傳統(tǒng)方法生成),K2,K3三個(gè)不同的知識(shí)圖譜,為選擇符合要求的最優(yōu)知識(shí)圖譜,將其組合運(yùn)算并根據(jù)度量方法計(jì)算其相似度和知識(shí)量.
圖3 需求知識(shí)圖譜
根據(jù)需求和方便計(jì)算,取知識(shí)點(diǎn)權(quán)重λ21=0.7,λ25,λ27=0.65,λ23,λ24=0.6,其余各λ=0.5,則度量系統(tǒng)計(jì)算可得參考知識(shí)體系知識(shí)量為99.66,最大可能匹配的相似性為0.98,對(duì)不同知識(shí)體系的比較計(jì)算,其值如表2所示.
表2 知識(shí)體系的相似度和知識(shí)量表
根據(jù)選擇算法,K1+K2和K1+K2+K3相似度最高,基本滿足用戶需求,但由于知識(shí)體系多重?cái)?shù)和數(shù)值累加,使得后者知識(shí)量遠(yuǎn)大于前者.但是多重?cái)?shù)不會(huì)增加體系的完善度,僅會(huì)提高體系復(fù)雜度,因此最適合的知識(shí)體系為K1+K2.通過本文所述算法選擇的知識(shí)圖譜明顯優(yōu)于傳統(tǒng)方法生成的K1,由此可以認(rèn)為基于信息熵和模糊集的網(wǎng)絡(luò)安全知識(shí)圖譜選擇技術(shù)可以生成更優(yōu)的知識(shí)圖譜,從而提高個(gè)人的知識(shí)教育效果.
同時(shí)實(shí)驗(yàn)表明,崗位需求層次及權(quán)重信息輸入越詳細(xì),生成的的知識(shí)圖譜就越容易滿足用戶需求,其相似度也就越高.
網(wǎng)絡(luò)安全領(lǐng)域具有極強(qiáng)的邏輯性,這就使得原先的知識(shí)網(wǎng)度量和選擇算法[9,10]不能完全滿足要求,本文基于此做了相應(yīng)的算法改進(jìn).提出的網(wǎng)絡(luò)安全知識(shí)圖譜選擇方法經(jīng)過具體實(shí)例的分析表明,其測試結(jié)果符合實(shí)際.相比于傳統(tǒng)的計(jì)算方法、現(xiàn)有的知識(shí)網(wǎng)選擇方法和經(jīng)驗(yàn)論等度量技術(shù),利用信息熵度量知識(shí)體系的復(fù)雜度和相似度則更加精確,據(jù)此提出的基于模糊集的知識(shí)圖譜選擇技術(shù)也更適用于現(xiàn)有的網(wǎng)絡(luò)安全領(lǐng)域.由于其計(jì)算復(fù)雜度可以根據(jù)參數(shù)進(jìn)行降維,同時(shí)可應(yīng)用于其他領(lǐng)域的知識(shí)圖譜或知識(shí)網(wǎng)絡(luò)的度量和選擇,具有很高的應(yīng)用價(jià)值.
健全、完善的知識(shí)圖譜更便于教育機(jī)構(gòu)針對(duì)專業(yè)崗位或個(gè)人提供定制化的、自適應(yīng)的服務(wù),根據(jù)圖譜可構(gòu)建適應(yīng)性更強(qiáng)的知識(shí)問答系統(tǒng)、知識(shí)考核和教育系統(tǒng),進(jìn)而更好的提高教學(xué)效果.知識(shí)圖譜的選擇技術(shù)也可應(yīng)用于其他數(shù)據(jù)挖掘等領(lǐng)域,通過不斷逼近需求,即提高相似度,進(jìn)而完善知識(shí)圖譜,為學(xué)科研究提供切實(shí)的、有價(jià)值的參考.