王 鵬,張君毅,趙國慶
(1.中國電子科技集團公司第五十四研究所,河北 石家莊 050081; 2.西安電子科技大學 電子工程學院,陜西 西安 710071)
衛(wèi)星通信由于在通信量、通信距離、覆蓋面積和機動性等方面具備優(yōu)勢而被廣泛應用,并成為未來戰(zhàn)爭中不可或缺的傳輸手段[1]。衛(wèi)星通信偵察系統(tǒng)通過連續(xù)搜索、檢測、監(jiān)視與跟蹤各種活動過程中的指揮控制、信息交互等通信信號[2-3],可獲取重點地域內(nèi)的力量部署、行動態(tài)勢和意圖等信息,為實現(xiàn)支援決策和各類行動控制提供有效支撐[4-5];另一方面,隨著互聯(lián)網(wǎng)技術及衛(wèi)星通信技術的日益發(fā)展,衛(wèi)星通信網(wǎng)絡承載了越來越多的互聯(lián)網(wǎng)業(yè)務流,如www、FTP和電子郵件等典型應用[6]。通過對衛(wèi)星通信信號的分析測量、解調(diào)、編碼識別與譯碼以及協(xié)議分析等可以獲取包括IP數(shù)據(jù)包等在內(nèi)的衛(wèi)星通信信號特征參數(shù)及傳輸信息[7]。為更好地發(fā)揮衛(wèi)星通信偵察系統(tǒng)的功能作用,本文針對衛(wèi)星通信偵察獲取的IP數(shù)據(jù)進行分析,獲取包括源IP地址、目的IP地址以及協(xié)議類型等信息,并引入社交網(wǎng)絡分析方法構(gòu)建衛(wèi)星IP通聯(lián)網(wǎng)絡,利用社區(qū)發(fā)現(xiàn)算法對構(gòu)建的網(wǎng)絡進行自動劃分聚類,并對網(wǎng)絡中的節(jié)點重要性進行評價。
在衛(wèi)星通信偵察系統(tǒng)中,各領域用戶主要關注衛(wèi)星通信信號、衛(wèi)星通信終端/衛(wèi)星通信中心站、衛(wèi)星通信網(wǎng)絡、衛(wèi)星通信轉(zhuǎn)發(fā)器、位置和組織等要求。根據(jù)這些要求,文獻[8-9]構(gòu)建了衛(wèi)星通信偵察信息模型,如圖1所示,該模型描述了衛(wèi)星通信偵察中各實體要素以及各實體要素之間的關系。
圖1 衛(wèi)星通信偵察信息模型
社交網(wǎng)絡是一種由多個節(jié)點和節(jié)點之間關系構(gòu)成的社會結(jié)構(gòu)[10]。其中,一個節(jié)點表示一個人或者社交網(wǎng)絡中的一個參與者,利用節(jié)點間的鏈接關系,社交網(wǎng)絡可以鏈接各種各樣的社會關系。在計算機科學中,社交網(wǎng)絡分析可以看作是網(wǎng)絡知識發(fā)現(xiàn)或網(wǎng)絡挖掘的分支,實現(xiàn)對網(wǎng)絡中關系的分析,得到群體或社團的信息,涉及數(shù)據(jù)挖掘、機器學習、信息抽取與檢索等多個領域[11]。目前,社交網(wǎng)絡分析中具有代表性的研究話題主要包括用戶行為分析、屬性預測及分類等[12]。
隨著對社交網(wǎng)絡結(jié)構(gòu)與性質(zhì)的深入研究,研究者發(fā)現(xiàn)眾多復雜的社交網(wǎng)絡都呈現(xiàn)出一個共同的特性,即社區(qū)結(jié)構(gòu)。社區(qū)結(jié)構(gòu)是指一組內(nèi)部節(jié)點相似度很大或聯(lián)系緊密,而外部節(jié)點相似度很低或聯(lián)系稀疏的節(jié)點集合。
待分析的數(shù)據(jù)是衛(wèi)星通信中截獲的Pcap文件。Pcap文件是一種常用的數(shù)據(jù)報存儲格式,其總體結(jié)構(gòu)如圖2所示。其中,文件頭共包含7個字段24 Bytes,數(shù)據(jù)包頭共包含4個字段16 Bytes,數(shù)據(jù)包為標準網(wǎng)絡協(xié)議格式,其長度在數(shù)據(jù)包頭中規(guī)定。
圖2 Pcap文件結(jié)構(gòu)
通過解析Pcap文件,可以獲得IP數(shù)據(jù)。IP數(shù)據(jù)又可以分為報頭和數(shù)據(jù)部分,其中報頭定義了版本、報頭長度、服務類型和總長度等各類參數(shù)。IP數(shù)據(jù)在Pcap文件中的位置及IP數(shù)據(jù)的基本結(jié)構(gòu)如圖3和圖4所示。
圖3 IP數(shù)據(jù)在Pcap文件中的位置
圖4 IP數(shù)據(jù)結(jié)構(gòu)
圖5給出了本文數(shù)據(jù)包協(xié)議分析算法得到的部分結(jié)果,可獲取每個數(shù)據(jù)包的長度、協(xié)議類型、源IP地址及目的IP地址等結(jié)構(gòu)化描述信息。
圖5 數(shù)據(jù)包描述信息
2.2.1 IP通聯(lián)網(wǎng)絡生成
基于2.1節(jié)中獲取的源IP地址和目的IP地址等IP數(shù)據(jù)包描述信息,可以生成某衛(wèi)星的IP網(wǎng)絡通聯(lián)關系圖,如圖6所示。生成的IP通聯(lián)網(wǎng)絡十分繁雜,無法直接從通聯(lián)圖上獲取相關信息。針對這一問題,利用社交網(wǎng)絡分析中的社區(qū)劃分算法對生成的IP網(wǎng)絡進行處理。
社區(qū)劃分是研究復雜社交網(wǎng)絡結(jié)構(gòu)與潛在信息的重要方法,經(jīng)典算法主要包括GN算法[13]、Newman快速算法[14]以及派系過濾算法[15]等。其中,GN算法以及派系過濾算法時間復雜度高,無法適應數(shù)據(jù)規(guī)模較大的網(wǎng)絡,而Newman算法則在計算精度方面有待提高[16]。為實現(xiàn)大規(guī)模網(wǎng)絡中社區(qū)劃分的高效與準確劃分,近年來國內(nèi)外學者對模塊度進行優(yōu)化并提出了大量的改進算法,實現(xiàn)了比經(jīng)典方法更好的效果。因此,提出利用基于模塊度的IP網(wǎng)絡自動劃分算法實現(xiàn)對衛(wèi)星IP通聯(lián)網(wǎng)絡的分析與挖掘問題。
模塊度函數(shù)Q是Newman和Girvan提出的一個衡量社區(qū)質(zhì)量的評估函數(shù),符合社區(qū)高內(nèi)聚低耦合的結(jié)構(gòu)特點,具有廣泛的認可度,其含義是社區(qū)內(nèi)節(jié)點的連邊數(shù)與隨機情況下的邊數(shù)之差,取值范圍是(0,1),定義如下:
(1)
(2)
式中,Aij為結(jié)點i,j之間的邊權(quán)值;ki為結(jié)點i的鄰接邊的邊權(quán)和;m為圖中所有邊的邊權(quán)和;ci為結(jié)點i所在的社團編號。
圖6 IP通聯(lián)網(wǎng)絡
2.2.2 基于模塊度的IP網(wǎng)絡自動劃分
基于模塊度的社區(qū)劃分就是要找出各個節(jié)點的社區(qū)歸屬,并且讓這個劃分結(jié)構(gòu)的模塊度最大,基本步驟描述如下:
① 將圖中的每個節(jié)點看成一個獨立的社區(qū),此時社區(qū)的數(shù)目與節(jié)點個數(shù)相同;
② 對每個節(jié)點i,依次嘗試把節(jié)點i分配到其每個鄰居節(jié)點所在的社區(qū),計算分配前與分配后的模塊度變化ΔQ,并記錄ΔQ最大的那個鄰居節(jié)點,如果maxΔQ>0,則把節(jié)點i分配ΔQ最大的那個鄰居節(jié)點所在的社區(qū),否則保持不變;
③ 重復步驟②,直到所有節(jié)點的所屬社區(qū)不再變化;
④ 對圖進行壓縮,將所有在同一個社區(qū)的節(jié)點壓縮成一個新節(jié)點,社區(qū)內(nèi)節(jié)點之間的邊的權(quán)重轉(zhuǎn)化為新節(jié)點的環(huán)的權(quán)重,社區(qū)間的邊權(quán)重轉(zhuǎn)化為新節(jié)點間的邊權(quán)重;
⑤ 重復步驟①~④,直到整個圖的模塊度不再發(fā)生變化。
基于模塊度的社區(qū)劃分結(jié)果如圖7所示。從圖7中可以看出,將同屬于同一類社區(qū)的節(jié)點進行了劃分,且在結(jié)果上標識了每個節(jié)點所屬的社區(qū)類別。
圖7 社區(qū)劃分結(jié)果
2.2.3 基于度和集聚系數(shù)的節(jié)點重要性評價
在2.2.2節(jié)中,對2.2.1節(jié)中生成的繁雜IP網(wǎng)絡進行了自動劃分與聚類,使得相關人員更容易理解IP通聯(lián)網(wǎng)絡中蘊含的信息,但無法實現(xiàn)相關信息的自動化呈現(xiàn)。若可以實現(xiàn)網(wǎng)絡中節(jié)點重要性的自動評價,則可以更加直觀和深入地理解當前IP通聯(lián)網(wǎng)絡的信息。
目前,用于評估網(wǎng)絡中節(jié)點重要性的評估指標有很多,具有代表性的主要包括度、集聚系數(shù)、介數(shù)、最小生成樹指標和拉普拉斯中心性指標等[17]。為實現(xiàn)對衛(wèi)星IP通聯(lián)網(wǎng)絡中重要節(jié)點的快速準確評價。其中,度能夠反映節(jié)點的鄰居個數(shù),但不能反映節(jié)點鄰居之間的緊密程度;而集聚系數(shù)正相反,集聚系數(shù)能反映節(jié)點鄰居之間的緊密程度,但不能反映節(jié)點的鄰居個數(shù)。因此,綜合利用度和集聚系數(shù)2種評價指標,提出一種基于度和集聚系數(shù)的節(jié)點重要性評價方法,可以自動對IP網(wǎng)絡中節(jié)點的重要性進行評價。
假設存在無向網(wǎng)絡G=(V,E),其中V=(v1,v2,…,vn)是網(wǎng)絡的頂點集,E=(e1,e2,…,em)為網(wǎng)絡邊的集合,節(jié)點的度可以表示為:
ki=∑j∈Vδij,
(3)
式中,δij=1表示節(jié)點i與節(jié)點j之間直接相連;δij=0表示節(jié)點i和節(jié)點j沒有直接相連。
節(jié)點的聚集系數(shù)是指某個節(jié)點的任意2個鄰居節(jié)點之間連接的總邊數(shù)與其所有鄰居節(jié)點之間所有可能具有的最大連邊數(shù)之比,是衡量網(wǎng)絡傳遞性的一個度量指標。節(jié)點i的集聚系數(shù)可以定義為:
(4)
式中,節(jié)點i的度為ki,即為i的鄰居個數(shù),k個節(jié)點所有可能的連邊的總數(shù)為ki(ki-1)/2;Ei為這些節(jié)點之間實際具有的邊數(shù)。
評價指標可以表示為:
pi=g(ki)+g(ci),
(5)
式中,
(6)
(7)
基于度和集聚系數(shù)的節(jié)點重要性評價結(jié)果如圖8所示?;谠搱D,相關人員可以非常直觀地獲取該IP網(wǎng)絡中的重要節(jié)點,以進行更加深入的分析。
圖8 節(jié)點重要性評價結(jié)果
針對衛(wèi)星通信偵察獲取的IP數(shù)據(jù),在解析報文協(xié)議的基礎上將非結(jié)構(gòu)化的數(shù)據(jù)包轉(zhuǎn)化為結(jié)構(gòu)化的特征參數(shù),并基于提取的結(jié)構(gòu)化特征參數(shù)構(gòu)建了IP通聯(lián)網(wǎng)絡。
針對生成IP網(wǎng)絡無法直觀體現(xiàn)蘊含信息的問題,利用社交網(wǎng)絡分析中的社區(qū)概念,提出了基于模塊度的衛(wèi)星IP通聯(lián)網(wǎng)絡自動劃分算法,實現(xiàn)了IP網(wǎng)絡節(jié)點的自動聚類。為進一步自動提取網(wǎng)絡中的信息,提出了一種基于度和集聚系數(shù)的綜合評價方法對衛(wèi)星IP網(wǎng)絡中節(jié)點的重要性進行了評價,對于識別網(wǎng)絡中的重要節(jié)點具有重要意義。
本文利用社交網(wǎng)絡分析及相關算法對衛(wèi)星IP數(shù)據(jù)的外圍特征參數(shù)進行了分析與信息挖掘,但并未結(jié)合內(nèi)涵信息。如何通過協(xié)議分析獲取其內(nèi)涵信息,實現(xiàn)內(nèi)涵信息與外圍特征相結(jié)合的衛(wèi)星IP數(shù)據(jù)分析與信息挖掘是后續(xù)的研究方向之一。