基于信息熵和模糊集的網(wǎng)絡(luò)安全知識(shí)圖譜選擇技術(shù)

2018-11-14 10:27:42鄒紅霞李冀興

小型微型計(jì)算機(jī)系統(tǒng) 2018年11期

齊斌，王宇，鄒紅霞，李冀興

(航天工程大學(xué) 航天信息學(xué)院，北京 101416)

1 引言

近年來，網(wǎng)絡(luò)安全意識(shí)作為國家網(wǎng)絡(luò)安全戰(zhàn)略的重要內(nèi)容之一，受到社會(huì)的廣泛關(guān)注.高效培養(yǎng)全民網(wǎng)絡(luò)安全意識(shí)是筑牢網(wǎng)絡(luò)防線的重要環(huán)節(jié)，而可靠的、系統(tǒng)的、完善的網(wǎng)絡(luò)安全知識(shí)圖譜可以大幅提高教育效果.

知識(shí)圖譜[1]也被稱為科學(xué)知識(shí)圖譜，是顯示知識(shí)發(fā)展進(jìn)程與結(jié)構(gòu)關(guān)系的一系列各種不同的圖形，用可視化技術(shù)描述知識(shí)資源及其載體，挖掘、分析、構(gòu)建、繪制和顯示知識(shí)及它們之間的相互聯(lián)系，從而構(gòu)成完整的知識(shí)體系結(jié)構(gòu).但由于不同行業(yè)、不同工作崗位對(duì)網(wǎng)絡(luò)安全知識(shí)掌握程度的要求存在差異，所以知識(shí)圖譜包含的知識(shí)點(diǎn)的范圍并不一致，而知識(shí)圖譜也會(huì)隨著相關(guān)知識(shí)的發(fā)展進(jìn)而動(dòng)態(tài)調(diào)整結(jié)構(gòu)，實(shí)現(xiàn)重構(gòu)性[2].自適應(yīng)的知識(shí)圖譜是根據(jù)層次化需求，先映射為需求知識(shí)圖譜，然后通過相似性匹配算法生成相似度較高的若干圖譜，再根據(jù)圖譜間的合并運(yùn)算重構(gòu)出最符合用戶需求的目標(biāo)知識(shí)圖譜.為避免目標(biāo)圖譜出現(xiàn)冗雜、交叉嚴(yán)重的情況，需要對(duì)知識(shí)圖譜復(fù)雜度、相似度進(jìn)行研究，以便于系統(tǒng)更好地自主選擇.

本文利用形式化和概率論的方法引入信息熵的概念[3]，通過計(jì)算知識(shí)的熵值表示其復(fù)雜度，從而量化知識(shí)圖譜.現(xiàn)有的研究通常是利用系統(tǒng)熵表示系統(tǒng)的復(fù)雜度，熵值越高，系統(tǒng)越復(fù)雜.但現(xiàn)有的復(fù)雜度度量方法[4]缺乏獨(dú)立的知識(shí)點(diǎn)和繼承流的測度，不適用于邏輯性較強(qiáng)的網(wǎng)絡(luò)安全領(lǐng)域.由于知識(shí)點(diǎn)龐雜難以形成匹配度較高的聚類知識(shí)圖譜，且缺乏合適的網(wǎng)絡(luò)安全知識(shí)模型，故當(dāng)前對(duì)此類圖譜復(fù)雜度的研究較少，而系統(tǒng)的、完善的網(wǎng)絡(luò)安全知識(shí)模型的構(gòu)建將有助于復(fù)雜度的測量.

為便于度量網(wǎng)絡(luò)安全知識(shí)體系從而選擇適用于角色定位的知識(shí)圖譜，本文提出了基于“行業(yè)、崗位、人員”的三層三維知識(shí)模型，標(biāo)識(shí)了各知識(shí)點(diǎn)間的關(guān)聯(lián)度，同時(shí)對(duì)網(wǎng)絡(luò)安全知識(shí)圖譜的復(fù)雜度給出了新的定義和函數(shù)表達(dá)式并做了推導(dǎo)驗(yàn)證，闡述了一種基于信息粒度和模糊集的知識(shí)圖譜度量方法，從體系結(jié)構(gòu)、復(fù)雜度、相似度等多個(gè)角度解決了目標(biāo)知識(shí)圖譜的最優(yōu)化選擇問題.

2 網(wǎng)絡(luò)安全知識(shí)模型

為方便構(gòu)建更加系統(tǒng)、完善、針對(duì)性強(qiáng)的知識(shí)圖譜，本文從邏輯性角度提出了基于“行業(yè)、崗位、人員”的網(wǎng)絡(luò)安全知識(shí)模型，如圖1所示.根據(jù)行業(yè)對(duì)人員的網(wǎng)絡(luò)安全知識(shí)不同要求進(jìn)行框架分類，再依照各自級(jí)別和所需掌握的網(wǎng)絡(luò)安全知識(shí)劃分崗位，以企業(yè)系統(tǒng)為例，將崗位分為普通員工、安全人員、項(xiàng)目經(jīng)理、企業(yè)高管等等.如此，就將知識(shí)點(diǎn)精確到個(gè)人，構(gòu)建了“行業(yè)-崗位-人員”的三層結(jié)構(gòu)，具有極強(qiáng)的針對(duì)性.

圖1 基于“行業(yè)、崗位、人員”的網(wǎng)絡(luò)安全知識(shí)模型

在知識(shí)點(diǎn)的具體規(guī)劃上，采用“受攻擊目標(biāo)-攻擊方法-預(yù)防難度級(jí)別”的三維體系.首先按照受攻擊目標(biāo)分為相對(duì)范圍較大的類別，而后再進(jìn)一步細(xì)致劃分.攻擊目標(biāo)可大致分為以下五類：人腦、數(shù)據(jù)、軟件、設(shè)備、服務(wù)；攻擊手段根據(jù)網(wǎng)絡(luò)攻擊具體實(shí)施過程共計(jì)分為七大種類：信息收集型攻擊、欺騙型攻擊、權(quán)限獲取攻擊、拒絕服務(wù)攻擊、系統(tǒng)破壞攻擊、信息篡改型攻擊、社會(huì)工程攻擊.而針對(duì)目標(biāo)的攻擊手段仍有強(qiáng)弱之分，于是采用“預(yù)防難度級(jí)別”對(duì)相應(yīng)預(yù)防或化解攻擊的難易程度進(jìn)行區(qū)分，利用Delphi方法根據(jù)多名領(lǐng)域?qū)＜覍?duì)其評(píng)估且不斷改進(jìn)從而最終判定其級(jí)別，采用5等分級(jí)表示，降序依次表示處理威脅的難易程度.

三維的知識(shí)模型，將單一知識(shí)固定在立方體模型中的一個(gè)點(diǎn)位，既保證了知識(shí)點(diǎn)的精確性，也提供了足夠的空間囊括當(dāng)前所有的知識(shí)點(diǎn)，同時(shí)為將來的知識(shí)拓展預(yù)留端口.因此目標(biāo)知識(shí)圖譜的構(gòu)建只需要利用自動(dòng)機(jī)根據(jù)崗位具體需求同知識(shí)點(diǎn)相組合，通過設(shè)置好知識(shí)點(diǎn)的權(quán)重后自動(dòng)生成.

3 知識(shí)圖譜復(fù)雜度

獨(dú)立的知識(shí)圖譜是由知識(shí)點(diǎn)、繼承流、功能等元素組成，元素相互聯(lián)系，父知識(shí)點(diǎn)包含子知識(shí)點(diǎn)的功能，原子知識(shí)點(diǎn)作為最小單位元素.這里參考知識(shí)網(wǎng)[5]的定義，對(duì)有窮的知識(shí)圖譜進(jìn)行詮釋.

定義1.有窮集合KM(Knowledge Mapping)可定義為一個(gè)3元組：KM = {P，R，M}.

其中P={p1，p2，…，pn}是一個(gè)由n個(gè)知識(shí)點(diǎn)組成的有限知識(shí)點(diǎn)集合.R?P×P，R={r1，r2，…，rn}由n個(gè)復(fù)合聯(lián)系(繼承流)組成的有限復(fù)合聯(lián)系集，表示父子知識(shí)點(diǎn)間的繼承關(guān)系.M?P×P，M={m1，m2，…，mn}是除父知識(shí)點(diǎn)外的其余n個(gè)知識(shí)點(diǎn)的有限組合集.以知識(shí)點(diǎn)示例，根據(jù)用戶需求從知識(shí)庫中提取相應(yīng)的知識(shí)點(diǎn)，映射的知識(shí)圖譜(集合KM)結(jié)構(gòu)如圖2所示.

知識(shí)圖譜具有層次結(jié)構(gòu)，將根知識(shí)點(diǎn)(圖中知識(shí)點(diǎn)A)所在層定義為第0層，將直接關(guān)聯(lián)的子知識(shí)點(diǎn)和繼承流等定義為第1層，與第一層直接聯(lián)系的子知識(shí)點(diǎn)和繼承流定義為第2層，如此類推，最后直至“原子知識(shí)點(diǎn)”(最底層的知識(shí)點(diǎn)，不可再次劃分)，定義為m層，并用xij表示知識(shí)結(jié)構(gòu)第i層的第j個(gè)知識(shí)點(diǎn).

通過對(duì)KM做適當(dāng)?shù)暮筒钸\(yùn)算，實(shí)現(xiàn)圖譜的自重構(gòu)，因此知識(shí)圖譜K={x1，x2，…，xn}的多重集KM可利用KM={αixi|i∈[1，n]}表示，根據(jù)系數(shù)α的不同可實(shí)現(xiàn)集合重構(gòu)，這是知識(shí)圖譜運(yùn)算的基礎(chǔ).

圖2 知識(shí)圖譜的結(jié)構(gòu)示意圖

由于各知識(shí)點(diǎn)的取值類型和取值范圍各不相同，為將全部知識(shí)點(diǎn)均作為可以量化的數(shù)值，本文引入熵值理論，通過計(jì)算知識(shí)點(diǎn)的測度從而計(jì)算知識(shí)體系的復(fù)雜度.

定義2.假設(shè)λij(1≥λij≥0)表示知識(shí)點(diǎn)xij在多重集中的重要程度，其重要程度同λ值成正比關(guān)系.且多重集元素xij包含了系數(shù)αij，則xij的綜合測度可表示為：

(1)

為方便數(shù)值的比較和計(jì)算，現(xiàn)將綜合測度值歸一化處理：

(2)

根據(jù)香農(nóng)的信息熵理論，I(xij)=-log2μ(xij)，但在僅有唯一元素時(shí)I(xij)=0，不符合實(shí)際情況，故將公式改進(jìn)為I(xij)=log2(μ(xij)-1+1).另根據(jù)μ(xij)公式，存在特殊情況μ(xij)=0時(shí)，I(xij)=+∞.

定義3.參考平均信息熵，可將知識(shí)圖譜內(nèi)單個(gè)知識(shí)點(diǎn)的平均知識(shí)量表示為

H(xij)=μ(xij)I(xij)=μ(xij)log(1/μ(xij)+1)

(3)

且平均知識(shí)量H(xij)是μ(xij)的單調(diào)有界函數(shù).

由于知識(shí)圖譜具有多重集特性，因此需要將信息熵進(jìn)行改進(jìn)和推廣，綜上給出知識(shí)圖譜復(fù)雜度的定義.

定義4.知識(shí)圖譜K的多重集KM的知識(shí)量函數(shù)，即為知識(shí)圖譜K的復(fù)雜度，復(fù)雜度度量函數(shù)有

(4)

4 復(fù)雜度度量函數(shù)的性質(zhì)

4.1 單調(diào)性

性質(zhì)1.G(KM)是元素?cái)?shù)量和多重?cái)?shù)的單增函數(shù)

證明：由公式(4)易知G(KM)是求和函數(shù)，隨層數(shù)i增加單調(diào)遞增.

Δ =G(KM)-G′(KM)

綜上Δ≤0，即G(KM)≤G′(KM)，故對(duì)任意一層任意元素綜合測度的增加，G(KM)遞增.

基于上述假設(shè)，在知識(shí)圖譜第一層加入新元素x1(n+1)，其綜合測度為c，則有

Δ=G(KM)-G′(KM)

≤0

綜上G(KM)≤G′(KM)，可得結(jié)論：在知識(shí)圖譜的任意層次增加元素，G(KM)隨之遞增.

性質(zhì)表明獨(dú)立的知識(shí)圖譜的元素?cái)?shù)目越多、綜合測度越大，G(KM)值越大，也就意味著知識(shí)圖譜越復(fù)雜.復(fù)雜度(知識(shí)量)函數(shù)是關(guān)于系統(tǒng)結(jié)構(gòu)、元素?cái)?shù)目以及綜合測度的函數(shù)，該函數(shù)隨著各個(gè)參數(shù)的增加，復(fù)雜度也隨之增加.

4.2 結(jié)構(gòu)簡化特性

性質(zhì)2.任意一層的多個(gè)元素的合并將使復(fù)雜度函數(shù)G(KM)減小

證明：假設(shè)合并知識(shí)圖譜K中第一層的某兩個(gè)元素，可得出新的知識(shí)體系K′，則有

Δ=G(KM)-G′(KM)

4.3 復(fù)雜度極值

性質(zhì)3.在知識(shí)圖譜多重集的元素?cái)?shù)目和綜合測度一定的情況下，知識(shí)圖譜復(fù)雜度G(KM)具有最大值，即∑pilog(n+1)≥G(KM)≥∑pilog2.

證明：由于pi/cij≥1，故

因?yàn)椋?/p>

5 基于模糊集的圖譜選擇

上述復(fù)雜度函數(shù)的性質(zhì)，是多重集運(yùn)算合并的基礎(chǔ)，證明了知識(shí)圖譜運(yùn)算和選擇的可行性.為生成適應(yīng)性強(qiáng)、匹配度高的知識(shí)圖譜，本文提出了基于模糊集[6，7]的圖譜選擇技術(shù)，為方便闡述，重新定義相似度[8]的概念如下：

定義5.存在知識(shí)圖譜K={x1，x2，…，xm}和知識(shí)圖譜W={w1，w2，…，wn}，則有W關(guān)于K的相似度為

(5)

其中，T(·)，s(·)分別表示是模糊集的t-模和s-模，采用“積”和“概率和”的形式將其具體化，即T(x，y)=xy，s(x，y)=x+y-xy.f(xi，W)是W關(guān)于xi的匹配度，μw(xi)表示知識(shí)體系W中與xi相匹配的元素完善度.g(K，W)是K相對(duì)于W的復(fù)雜性系數(shù).ε為相似度調(diào)節(jié)系數(shù)，其作用是放大分子的計(jì)算數(shù)值便于相似度比較，權(quán)重ωi范圍在[0，1]之間，可利用聚類分析優(yōu)化方法進(jìn)行權(quán)重的優(yōu)化.

匹配度[9]f(xi，W)是反映知識(shí)圖譜同需求的匹配程度，其范圍在[0，1]之間.當(dāng)知識(shí)圖譜W中存在的知識(shí)點(diǎn)元素若與xi完全匹配時(shí)f(xi，W)=1；若與xi完全不匹配時(shí)f(xi，W)=0，匹配度通常實(shí)在知識(shí)量的基礎(chǔ)上進(jìn)行對(duì)比分析.

完善度[9]μw(xi)是反映知識(shí)圖譜滿足用戶要求的程度，通常采用模糊集和定義其數(shù)值.將知識(shí)圖譜底層知識(shí)點(diǎn){p1，p2…，pn}上的一個(gè)模糊集定義為μ(pi)：P→[0，1]，μ(pi)即為知識(shí)點(diǎn)pi的完善度.0表示該知識(shí)點(diǎn)不具有任何意義，數(shù)值越大表示該知識(shí)點(diǎn)信息越完善.

復(fù)雜性系數(shù)[9]g(K，W)是對(duì)知識(shí)圖譜復(fù)雜程度的比較，因?yàn)闈M足用戶需求的知識(shí)圖譜不一定只存在1種，通過對(duì)比圖譜間的復(fù)雜度從而權(quán)衡選擇.

(6)

當(dāng)W復(fù)雜于K時(shí)，g(K，W)>1；當(dāng)K復(fù)雜度不小于W時(shí)，g(K，W)=1.

綜上，相似度sml(·)是綜合考慮知識(shí)圖譜在“質(zhì)”(完善度)、“量”(匹配度)和復(fù)雜性三個(gè)方面，具有如下性質(zhì)：相似度函數(shù)是完善度和匹配度單增函數(shù)，是復(fù)雜性系數(shù)的單減函數(shù)；在復(fù)雜性系數(shù)為1的條件下，子集、交集的相似度不大于原集合的相似度，并集的相似度不小于原集合的相似度.

根據(jù)相似度相關(guān)性質(zhì)，以相似度為核心的基于模糊集的知識(shí)圖譜選擇算法如下：

1.根據(jù)行業(yè)規(guī)范要求對(duì)用戶需求知識(shí)進(jìn)行層次化處理，并映射至需求知識(shí)圖譜R，又稱參考知識(shí)圖譜.例如，以Rij代表i層第j個(gè)需求，映射到參考知識(shí)圖譜的元素即為Rij.根據(jù)相關(guān)參數(shù)，計(jì)算R的復(fù)雜度G(R).

G(K)=

(7)

3.通過有監(jiān)督學(xué)習(xí)的模糊關(guān)聯(lián)聚類生成目標(biāo)知識(shí)圖譜Ki(i=1，2…)，由于可能生成滿足要求的多個(gè)知識(shí)圖譜，則對(duì)生成的知識(shí)圖譜做相應(yīng)的交并運(yùn)算，生成組合的知識(shí)圖譜，再分別計(jì)算其復(fù)雜度，知識(shí)量和同R相比的相似度.

4.根據(jù)相似度計(jì)算公式，在保證目標(biāo)知識(shí)圖譜相似于R的情況下，即生成的知識(shí)圖譜滿足用戶需求(sml值盡可能大)，也可根據(jù)具體情況選擇知識(shí)量較少或復(fù)雜度的較低的知識(shí)圖譜，便于工程實(shí)現(xiàn).

6 實(shí)例分析

以政府系統(tǒng)內(nèi)某非網(wǎng)絡(luò)安全管理基層崗位的培訓(xùn)知識(shí)圖譜生成為例，系統(tǒng)利用信息熵度量知識(shí)結(jié)構(gòu)，通過基于模糊集的知識(shí)圖譜選擇方法在工程實(shí)踐中得以具體應(yīng)用.

首先根據(jù)網(wǎng)絡(luò)安全法、公務(wù)人員信息安全管理規(guī)范和相應(yīng)的崗位職能需求層次(如表1所示)映射出相對(duì)恰當(dāng)?shù)牡男枨笾R(shí)圖譜(如圖3所示的樹狀圖).

表1 需求層次表

根據(jù)參考知識(shí)圖譜，由自動(dòng)機(jī)將知識(shí)模型中知識(shí)點(diǎn)按照層級(jí)由小至大，同一層級(jí)由左至右依次填充完成，由于可能存在同時(shí)多個(gè)知識(shí)圖譜滿足用戶需求，因此將會(huì)產(chǎn)生若干個(gè)不同的圖譜Ki(i=1，2…).據(jù)實(shí)例需求和現(xiàn)有的知識(shí)模型生成K1(預(yù)置的傳統(tǒng)方法生成)，K2，K3三個(gè)不同的知識(shí)圖譜，為選擇符合要求的最優(yōu)知識(shí)圖譜，將其組合運(yùn)算并根據(jù)度量方法計(jì)算其相似度和知識(shí)量.

圖3 需求知識(shí)圖譜

根據(jù)需求和方便計(jì)算，取知識(shí)點(diǎn)權(quán)重λ21=0.7，λ25，λ27=0.65，λ23，λ24=0.6，其余各λ=0.5，則度量系統(tǒng)計(jì)算可得參考知識(shí)體系知識(shí)量為99.66，最大可能匹配的相似性為0.98，對(duì)不同知識(shí)體系的比較計(jì)算，其值如表2所示.

表2 知識(shí)體系的相似度和知識(shí)量表

根據(jù)選擇算法，K1+K2和K1+K2+K3相似度最高，基本滿足用戶需求，但由于知識(shí)體系多重?cái)?shù)和數(shù)值累加，使得后者知識(shí)量遠(yuǎn)大于前者.但是多重?cái)?shù)不會(huì)增加體系的完善度，僅會(huì)提高體系復(fù)雜度，因此最適合的知識(shí)體系為K1+K2.通過本文所述算法選擇的知識(shí)圖譜明顯優(yōu)于傳統(tǒng)方法生成的K1，由此可以認(rèn)為基于信息熵和模糊集的網(wǎng)絡(luò)安全知識(shí)圖譜選擇技術(shù)可以生成更優(yōu)的知識(shí)圖譜，從而提高個(gè)人的知識(shí)教育效果.

同時(shí)實(shí)驗(yàn)表明，崗位需求層次及權(quán)重信息輸入越詳細(xì)，生成的的知識(shí)圖譜就越容易滿足用戶需求，其相似度也就越高.

7 結(jié)束語

網(wǎng)絡(luò)安全領(lǐng)域具有極強(qiáng)的邏輯性，這就使得原先的知識(shí)網(wǎng)度量和選擇算法[9，10]不能完全滿足要求，本文基于此做了相應(yīng)的算法改進(jìn).提出的網(wǎng)絡(luò)安全知識(shí)圖譜選擇方法經(jīng)過具體實(shí)例的分析表明，其測試結(jié)果符合實(shí)際.相比于傳統(tǒng)的計(jì)算方法、現(xiàn)有的知識(shí)網(wǎng)選擇方法和經(jīng)驗(yàn)論等度量技術(shù)，利用信息熵度量知識(shí)體系的復(fù)雜度和相似度則更加精確，據(jù)此提出的基于模糊集的知識(shí)圖譜選擇技術(shù)也更適用于現(xiàn)有的網(wǎng)絡(luò)安全領(lǐng)域.由于其計(jì)算復(fù)雜度可以根據(jù)參數(shù)進(jìn)行降維，同時(shí)可應(yīng)用于其他領(lǐng)域的知識(shí)圖譜或知識(shí)網(wǎng)絡(luò)的度量和選擇，具有很高的應(yīng)用價(jià)值.

健全、完善的知識(shí)圖譜更便于教育機(jī)構(gòu)針對(duì)專業(yè)崗位或個(gè)人提供定制化的、自適應(yīng)的服務(wù)，根據(jù)圖譜可構(gòu)建適應(yīng)性更強(qiáng)的知識(shí)問答系統(tǒng)、知識(shí)考核和教育系統(tǒng)，進(jìn)而更好的提高教學(xué)效果.知識(shí)圖譜的選擇技術(shù)也可應(yīng)用于其他數(shù)據(jù)挖掘等領(lǐng)域，通過不斷逼近需求，即提高相似度，進(jìn)而完善知識(shí)圖譜，為學(xué)科研究提供切實(shí)的、有價(jià)值的參考.