葛明陽
(北方工業(yè)大學(xué)信息安全實(shí)驗(yàn)室 北京 100144)
Voip是聯(lián)網(wǎng)技術(shù)向基礎(chǔ)通信領(lǐng)域的成功應(yīng)用。它具有互聯(lián)網(wǎng)靈活、便捷、開放的特點(diǎn),但同時(shí)也將網(wǎng)絡(luò)中可能存在的安全問題帶入到通信領(lǐng)域。隨著Voip用戶的增多,影響越來越大,由于缺乏規(guī)范和相應(yīng)的監(jiān)管,各種安全問題,如通信金融詐騙、隱私泄露等。所以對Voip的監(jiān)測顯得尤為重要和迫切。
現(xiàn)有的Voip流量識別檢測從宏觀上可以歸結(jié)為兩大類:一類是基于Ip包內(nèi)容的深度檢測,此種方法具有較高的準(zhǔn)確性,但靈活性差,對新出現(xiàn)的Voip通信方式不能夠很好的檢測;一類是基于包行為,從宏觀上提取包的特征,并不關(guān)注具體Ip包的內(nèi)容,此種方法靈活性較好,能夠較好的適應(yīng)新出現(xiàn)的Voip通信方式或者相應(yīng)的版本升級檢測,但準(zhǔn)確率要差一些。
文獻(xiàn)[1]提出一種基于標(biāo)準(zhǔn)協(xié)議的綜合流量監(jiān)測分析的算法,從控制會話中提取動態(tài)會話信息,以此來準(zhǔn)確檢測出Voip的使用情況。文獻(xiàn)[2]提出了 基于 SIP協(xié)議 的 VoIP 監(jiān)聽模型的設(shè)計(jì)與實(shí)現(xiàn),此種算法重點(diǎn)分析了SIP協(xié)議,由于SIP是基于Udp協(xié)議的所以,只對Udp包進(jìn)行分析,對其它包直接丟棄。文獻(xiàn)[3]提出了一種基于協(xié)議分析、端口匹配、深度凈荷匹配來分析了VoIP流量的綜合方法。此類方法針對已知協(xié)議或已知傳輸端口的 Voip應(yīng)用來說檢測準(zhǔn)去率較高而且速度很快實(shí)時(shí)性好,但是健壯性差,當(dāng)使用協(xié)議或端口發(fā)生變化,很難準(zhǔn)確的進(jìn)行識別。
文獻(xiàn)[4]把 Ip包中一段時(shí)間內(nèi)的數(shù)據(jù)包的包長和包間隔作為分析對象,對其分布范圍、均值、中值和方差進(jìn)行統(tǒng)計(jì),據(jù)此識別 VoIP 流量。文獻(xiàn)[5]分析了流量包的大小,把大小在區(qū)間 60 ~150 比特流量包標(biāo)記成 VoIP 流,此種算法在穩(wěn)定的網(wǎng)絡(luò)環(huán)境下識別率較高。文獻(xiàn)[6]提出一種基于流量行為的識別算法,引入熵的概念分析研究的數(shù)據(jù)包長度的無序程度,并采取自適應(yīng)的估計(jì)值分析連續(xù)相鄰數(shù)據(jù)包間隔的相關(guān)性識別voip。
本文提出的研究方案中點(diǎn)在流量本身的典型特征,提出一種能夠?qū)?biāo)準(zhǔn)協(xié)議和私有 Voip協(xié)議的識別算法。擺脫了對端口、傳輸協(xié)議以及流量包關(guān)鍵直接的依賴,實(shí)現(xiàn)了對主流Voip的識別。
本實(shí)驗(yàn)重點(diǎn)是基于Voip包的流量特征。著重從包的大小、包長的分布不確定性、包到達(dá)時(shí)間間隔進(jìn)行特征提取。
實(shí)驗(yàn)方案如果如圖1:
圖1 Voip識別系統(tǒng)
經(jīng)過多次的實(shí)驗(yàn)數(shù)據(jù)分析發(fā)現(xiàn)特征值隨著包的數(shù)目也呈現(xiàn)出一定的變化,并分別計(jì)算了在不同包數(shù)下的包的平均包長、包長分布不確定性、包到達(dá)時(shí)間間隔以及時(shí)間間隔的分布不確定性。
(1)流量包大小
Skype語音數(shù)據(jù)大小分布具有自相似性,主要集中在125Byte,其中主要分布在50~160 Byte。包的大小對流量的識別具有較高的參考價(jià)值。
(2)流量包的分布不確定性
假設(shè)有m中包長,一共有N個(gè)數(shù)據(jù)包,用R={r1,r2,…,rm},其中用ri長的個(gè)數(shù)用Ni表示這N個(gè)包中的個(gè)數(shù),對應(yīng)的先驗(yàn)概率為Pi:
Pi=Ni/N
其熵值計(jì)算公式為Er:
為了更好的反應(yīng)流量特征引入了不確定性(RU),
RU= Er/log n
(3)流量包到達(dá)的時(shí)間間隔
不同應(yīng)用由于采用的協(xié)議不同以及編碼方式的不同,倒置流量包之間的間隔分布也會有所不同。
(4)流量包時(shí)間間隔不確定性
此特征是在提取Voip包時(shí)間的基礎(chǔ)上做的,計(jì)算了包間隔的變化情況,這是首次引入包間隔不確定計(jì)算算法。假設(shè)總的樣本集為T{T1,T2,…Ti…Tm},一共有m個(gè)樣本點(diǎn),用Si表示時(shí)間間隔為Ti的個(gè)數(shù),一共統(tǒng)計(jì)了S個(gè)數(shù)據(jù)間隔。
對應(yīng)的先驗(yàn)概率為Pi:
Pi=Si/S
時(shí)間間隔的熵值為Ei:
時(shí)間間隔不確定性為RU:
RU= Er/log n
根據(jù)需求和設(shè)計(jì)方案,數(shù)據(jù)包特征提取方案如圖2:
圖2 數(shù)據(jù)包提取流程圖
本方案首先分類提取數(shù)據(jù)包,然后對數(shù)據(jù)包進(jìn)行分段處理,以100個(gè)為梯度遞增。經(jīng)過試驗(yàn)分析的,數(shù)據(jù)包的特征和提取的包的數(shù)目是有關(guān)聯(lián)的。為了保證試驗(yàn)數(shù)據(jù)的可靠性,分別選取相同個(gè)數(shù)的數(shù)據(jù)包提取對應(yīng)的特征進(jìn)行比較,分類。
表1 抓包情況匯總
結(jié)合上述數(shù)據(jù)和圖表容易看出,Voip流量包和非Voip的流量包具有較為明顯的區(qū)分度,Pplive的包分布較為均勻,不確定性維持在一個(gè)穩(wěn)定的低水平范圍內(nèi),其時(shí)間不確定性也比較穩(wěn)定而其他Voip應(yīng)用不確定變化比較明顯。實(shí)驗(yàn)表明設(shè)定合理的閾值即能將不同應(yīng)用識別開來,準(zhǔn)確率較高,而且實(shí)時(shí)性有了較大的改進(jìn)。
文章基于數(shù)據(jù)包的特征,對常見的Voip進(jìn)行了特征的提取和分析。綜合了時(shí)間特征、包的大小、包的個(gè)數(shù)等特征。提出了一種分段識別的分類算法,即在抓包的同時(shí),在1000個(gè)包范圍內(nèi),每隔100個(gè)包進(jìn)行特征提取匹配,大大提高了識別的準(zhǔn)確率和識別速度。由于對于特征閾值依賴較大,下一步研究重點(diǎn)將減少對閾值的依賴,提供智能更可靠的識別算法。
[1]陳敏,張廣興,畢經(jīng)平.基于 SIP 的 VoIP 流量識別方法研究[J].計(jì)算機(jī)應(yīng)用研究,2007,24(4):301-303.
[2]杜 江,陳 銳.基于 SIP 的 Vo IP 監(jiān)聽模型的設(shè)計(jì)與實(shí)現(xiàn)[J].重慶郵電大學(xué)學(xué)報(bào).:自然科學(xué)版,2010,22(4):513-515.
[3]萬 兵,楊 陽.VoIP流量監(jiān)測技術(shù)的研究與應(yīng)用[J].電信快報(bào),2010,2:33-35
[4]OKABE T,KITAMURA T,SHIZUNO T.Statistical traffic identifica-tion method based on flow-level behavior for fair VoIP service[C]/ /Proc of the 1st IEEE W orkshop on VoIP M anagement and Security.2006:35-40.
[5]YILDIR IM T,RADCLIFFE P.Vo IP traffic classification in IPSectunnels[C]/ / Proc of International Conference on Electronics and In-formation Engineering.2010:151-157.
[6] LI Bing,MA Mao-de,JIN Zhi-gang.A VoIP traffic identification scheme based on host and flow behavior analysis[J].Journal of Network and Systems Management,2010,19(1):111-129.