劉恩亞,王 剛
(國家無線電監(jiān)測中心,北京 100037)
Radio Wave Guard
淺談模式識別在流量建模中的應用
劉恩亞,王 剛
(國家無線電監(jiān)測中心,北京 100037)
本文簡介了模式識別的概念、研究場景分類以及常用的模式識別方法,并針對移動通信系統(tǒng)性能仿真中的信源流量建模環(huán)節(jié),探討了模式識別在傳感器網(wǎng)絡(luò)流量建模中的應用。
模式識別;傳感器網(wǎng)絡(luò);流量建模
模式識別是人類的一項基本智能,早在遠古時代,人類的祖先就已經(jīng)掌握了“模式識別”。隨著20世紀40年代計算機的出現(xiàn)以及50年代人工智能的興起,利用計算機進行模式識別逐漸發(fā)展并成為一門新興學科,研究掌握模式識別方法對于解決通信系統(tǒng)中的科研和工程問題將大有裨益。
通常為考察一個通信系統(tǒng)的網(wǎng)絡(luò)接入性能,需要通過信源建模來獲取“取之不竭”的數(shù)據(jù)流量。信源數(shù)據(jù)流量建??梢詮膬蓚€方面考察:
一方面,移動終端以一定的時間間隔發(fā)送一定大小的數(shù)據(jù)包,時間間隔可以是一個固定值,也可以是一個隨機數(shù)。若為固定值,則移動終端為周期性發(fā)包;若為隨機數(shù),則需掌握隨機數(shù)服從的概率密度分布。數(shù)據(jù)包大?。òL)也是同理,可以是等長的數(shù)據(jù)包,也可以是服從某概率密度的隨機數(shù)。從這個角度分析得到的模型,一般稱之為ON/OFF模型,ON通常指包長,OFF通常指兩包之間的時間間隔。
另一方面,可從較大的時間尺度上去考察移動終端的發(fā)包情況。若等間隔地觀察一段時間內(nèi)的發(fā)包狀況,在每一個時間采樣點上記錄包長,若無包則記為0,那么我們得到的就是一個時間序列。通過時間序列建模即可模擬“信源”。時間序列建模有著比較成熟的研究方法,如AR模型、MA模型、FARIMA模型等[5]。
下面,我們將研究場景聚焦到傳感器網(wǎng)絡(luò)。
圖1 傳感器網(wǎng)絡(luò)結(jié)構(gòu)示意圖
圖1是傳感器網(wǎng)絡(luò)結(jié)構(gòu)示意圖,黃色的節(jié)點即為傳感器節(jié)點(即移動終端),該類節(jié)點定期或隨機地發(fā)起發(fā)包的接入請求等;綠色的節(jié)點為匯聚節(jié)點,在分層的網(wǎng)絡(luò)結(jié)構(gòu)中,下層節(jié)點的數(shù)據(jù)匯聚到上層節(jié)點,上層節(jié)點再匯聚到基站端。針對前述場景,我們可以利用模式識別思維提出一個傳感器節(jié)點數(shù)據(jù)包建模方法[4]。
2.1 數(shù)據(jù)包流量(Packet Traffic)建模基礎(chǔ)
數(shù)據(jù)包流量建模的任務就是要找到流量中的統(tǒng)計不變量,并以此來識別不同類型的數(shù)據(jù)。描述數(shù)據(jù)流量特征的參數(shù)可以大致分為三組,如表1所示。
表1 數(shù)據(jù)包流量特征分類
通過以上一組或幾組特征我們即可模擬不同類型的數(shù)據(jù)包流量。
2.2 節(jié)點流量建模
節(jié)點流量建模常用兩種方法[4]:依據(jù)發(fā)包順序建模、依據(jù)源流量建模。我們重點討論如何依據(jù)發(fā)包順序來建模。
在通信協(xié)議中,信令交互均已預定義,例如:路由回復(RREP)總是在路由申請(RREQ)之后發(fā)出。對于一個特定的節(jié)點而言,它本身有著自身獨特的發(fā)包序列,我們可據(jù)此建模。
2.2.1 數(shù)據(jù)包分類
可以用一個單字節(jié)的ASCII碼來對包進行分類,這樣通過一個特定的ASCII碼序列我們即可獲得該節(jié)點的包序列。
我們可以根據(jù)“信源-信宿”地址{Src,Dest}來分類。將實際的地址空間映射到了一個抽象的更為簡化的地址空間,該簡化的地址空間共有五個實體(entity):{me;neighbor;local;unlocal;sink/ cluster head}:
Me是當前被研究的節(jié)點;Neighbor是與當前研究節(jié)點距離為一的節(jié)點;Local是在路由建立過程中已經(jīng)被當前節(jié)點知曉的本地其他節(jié)點,路由成功建立后,所有節(jié)點均會被標記為local;Unlocal通常用于標記外部入侵的節(jié)點;Sink/Cluster Head是信宿/匯聚節(jié)點。
2.2.2 數(shù)據(jù)包映射
為了簡便起見,已分類的包可被進一步映射到一個單字節(jié)的ASCII碼。以圖2中第一個數(shù)據(jù)包為例:該包由地址為15的信源發(fā)給地址為00的信宿,包類型為RREQ。按照4.2.1給出的地址空間,該包的三項信息可表達為Local-Sink-RREQ,根據(jù)映射表,“Local-Sink-RREQ”這個類型的包可用單字節(jié)的ASCII碼“A”來表示。通過這種映射,我們可以把包序列看作一個字符串序列。
圖2 包序列建模映射
2.2.3 模式提取
為了研究并模擬包序列,我們可在映射得到的字符串序列中提取模式。詳盡的提取算法可以參考相關(guān)文獻[6][7],此處僅舉一例:令子序列的長度k為4,樣本字符串為AABBDCC,則我們得到的模式集為:AABB,ABBD,BBDC,BDCC。通過研究子序列之間的相互關(guān)系,我們即可建模模擬該信源。如果考慮k取不同值,我們將得到不同長度的模式集。為避免模式集過于復雜,可增加限制條件,如僅考慮那些出現(xiàn)了兩次以上的模式,起到給模式集瘦身的效果。
本文首先討論了模式識別的定義,在此基礎(chǔ)上進一步介紹了模式識別常用的四種方法:模板匹配、統(tǒng)計分類、結(jié)構(gòu)匹配以及神經(jīng)網(wǎng)絡(luò)。結(jié)合通信系統(tǒng)的具體場景,介紹了利用模式識別進行數(shù)據(jù)包建模的思路。在當今的大數(shù)據(jù)時代,模式識別作為一種數(shù)據(jù)分析手段,研究方法日臻完善,應用場景更加廣泛。這就鞭策著研究者們不但要從深度上鉆研更好的方法,同時還要從廣度上縱橫捭闔,學科之間相互學習借鑒,共同繁榮。
[1] Larry O’Gorman,What is Pattern Recognition? www.iapr.org/docs/ newsletter-2003-01.pdf
[2] Anil K.Jain,Robert P.W.Duin and Jianchang Mao,Statistical Pattern Recognition:A Review,IEEE Transaction on Pattern Analysis and Machine Intelligence,Vol.22,No.1,January 2000
[3] V.N.Vapnik,Statistical Learning Theory,New York:John Wiley &Sons,1998
[4] Qinghua Wang,Packet Traffic:A Good Data Source for Wireless Sensor Network Modeling and Anomaly Detection,IEEE Network,Vol.25,Issue 3,May/June 2011
[5] Jiakun Liu,Yantai Shu,Lianfang Zhang,FeiXue,Yang,O.W.W.,Traffic Modeling based on FARIMA Models,1999 IEEE Canadian Conference on Electrical and Computer Engineering
[6] S.Forrest et al.,A Sense of Self in Unix Process,Proc.1996 IEEE Symp.Security and Privacy,May 1996,pp.120-28
[7] S.Hotmeyr,S.Forrest,and A.Somayaji,Intrusion Detection Using Sequences of System Calls,J.Comp.Security,vol.6,1998,pp.151-80
[8] 邊肇祺,張學工等編著.模式識別(第二版).北京:清華大學出版社,2000
A Brief Introduction of Pattern Recognition and Its Application in Traffic Modeling
Liu Enya,Wang Gang
(The State Radio Monitoring Center,Beijing,100037)
Pattern recognition is widely used in computer science.This paper presents an introduction to pattern recognition,concerning its concepts and common methods.In order to apply pattern recognition in simulation in mobile communication systems,an example of traffic modeling in wireless sensor network is illustrated.
Pattern Recognition;Wireless Sensor Network;Traffic Modeling
10.3969/J.ISSN.1672-7274.2016.05.021
TN911.72 文獻標示碼:A
1672-7274(2016)05-0066-03
劉恩亞,碩士研究生,助理工程師,現(xiàn)就職于國家無線電監(jiān)測中心。
王 剛,碩士研究生,助理工程師,現(xiàn)就職于國家無線電監(jiān)測中心北京監(jiān)測站。