• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于HTTP協(xié)議特征字的識(shí)別研究

      2015-04-17 05:47:11吳歡宋力劉遇哲
      關(guān)鍵詞:字符識(shí)別率報(bào)文

      吳歡 宋力 劉遇哲

      (河北遠(yuǎn)東通信系統(tǒng)工程有限公司,河北石家莊 050000)

      基于HTTP協(xié)議特征字的識(shí)別研究

      吳歡 宋力 劉遇哲

      (河北遠(yuǎn)東通信系統(tǒng)工程有限公司,河北石家莊 050000)

      在網(wǎng)絡(luò)應(yīng)用日益膨脹的互聯(lián)網(wǎng)時(shí)代,HTTP協(xié)議憑借自身眾多的優(yōu)點(diǎn),應(yīng)用于大部分的網(wǎng)絡(luò)應(yīng)用中,如何通過協(xié)議的載荷特征字識(shí)別出應(yīng)用,是當(dāng)前DPI面臨的重要挑戰(zhàn)。針對(duì)這個(gè)挑戰(zhàn),在當(dāng)前采用的識(shí)別技術(shù)基礎(chǔ)上,對(duì)軟件更新類應(yīng)用的識(shí)別方法進(jìn)行了簡(jiǎn)要介紹,主要解決識(shí)別過程中識(shí)別率低和出現(xiàn)誤識(shí)別2個(gè)問題,采用優(yōu)化后的特征匹配順序和資源方法順序相結(jié)合的方法,進(jìn)行應(yīng)用識(shí)別測(cè)試,通過對(duì)比前后的測(cè)試結(jié)果,從而論證特征匹配順和資源方法順序的合理性以及識(shí)別方法的科學(xué)性。

      特征字特征匹配資源方法識(shí)別率誤識(shí)別DPI HTTP

      1 引言

      網(wǎng)絡(luò)應(yīng)用識(shí)別技術(shù)由傳統(tǒng)的基于端口映射的識(shí)別技術(shù)發(fā)展為基于深度數(shù)據(jù)包識(shí)別(DPI)和基于深度數(shù)據(jù)流識(shí)別(DFI)兩種方法[1,2]。其中,DPI是在分析報(bào)文頭的基礎(chǔ)上,結(jié)合不同應(yīng)用的特征從而綜合判斷所屬應(yīng)用的技術(shù),DFI它是基于一種流量行為的應(yīng)用識(shí)別技術(shù),不同的業(yè)務(wù)應(yīng)用類型體現(xiàn)在會(huì)話連接或數(shù)據(jù)流上的狀態(tài)各不相同[3]。本文中的識(shí)別方法是在DPI的基礎(chǔ)上產(chǎn)生的,運(yùn)用基礎(chǔ)的識(shí)別方法,結(jié)合HTTP協(xié)議報(bào)文頭含義[4],采用合理的特征搭配方式和資源提取方式的新識(shí)別方法,由于該方法僅針對(duì)HTTP協(xié)議適用,在HTTPS、UDP等網(wǎng)絡(luò)協(xié)議中暫時(shí)沒有得到認(rèn)證。

      識(shí)別方法中的特征搭配和提取順序根據(jù)HTTP協(xié)議的RFC文檔各個(gè)報(bào)文頭含義結(jié)合唯一資源定位符內(nèi)容而確定,特征庫(kù)運(yùn)行在34核的Linux系統(tǒng)平臺(tái)下,10 G帶寬下識(shí)別無丟包、無延遲,實(shí)驗(yàn)數(shù)據(jù)為應(yīng)用識(shí)別的真實(shí)內(nèi)容。為驗(yàn)證識(shí)別方法的合理性和正確性,要求識(shí)別率≥90%,且不出現(xiàn)應(yīng)用誤識(shí)別,上述2種標(biāo)準(zhǔn)均滿足,則表示特征識(shí)別方法正確。

      2 軟件更新識(shí)別問題分析

      在軟件更新類的識(shí)別過程中,或在任何應(yīng)用的識(shí)別過程中,都應(yīng)著重考慮2個(gè)指標(biāo):①識(shí)別率;②誤識(shí)別。而針對(duì)這2個(gè)指標(biāo)出現(xiàn)的問題也有2個(gè):①識(shí)別率不達(dá)標(biāo);②出現(xiàn)誤識(shí)別,它們直接反應(yīng)了應(yīng)用識(shí)別方法的正確性。

      識(shí)別率和誤識(shí)別有著即相對(duì)又統(tǒng)一的微妙關(guān)系,相對(duì)性體現(xiàn)在減少程序處理時(shí)間、提高識(shí)別率時(shí),往往采用通用性的特征字符,而通用性字符又是造成誤識(shí)別的主要原因;統(tǒng)一性體現(xiàn)在不管是識(shí)別率還是誤識(shí)別都是對(duì)應(yīng)用識(shí)別的判斷標(biāo)準(zhǔn),都可以判斷基于特征字符識(shí)別方法的正確性。在這種情況下,從客戶體驗(yàn)角度出發(fā),二者的關(guān)系可以理解為:無誤識(shí)別是識(shí)別的前提,識(shí)別率達(dá)標(biāo)是識(shí)別的基礎(chǔ)。

      在實(shí)際識(shí)別過程中,識(shí)別率和誤識(shí)別的具體問題主要有2個(gè):①單條特征字符的匹配;②通用性特征字符的匹配。采用這2種識(shí)別方式,雖然可以即簡(jiǎn)約又高效的識(shí)別出應(yīng)用,但是與此同時(shí)也會(huì)提高誤識(shí)別的可能性。所以如何讓識(shí)別率和誤識(shí)別達(dá)到一個(gè)相對(duì)合理的平衡點(diǎn),如何避免單條或通用特征字符的匹配方式并縮短程序處理時(shí)間,是應(yīng)用識(shí)別方法優(yōu)化和改進(jìn)的重點(diǎn)。

      3 軟件更新識(shí)別方法的優(yōu)化

      識(shí)別方法的優(yōu)化分為2部分:一部分是特征匹配方式的優(yōu)化,也就是報(bào)文中的特征字符如何進(jìn)行搭配匹配;另一部分是特征字符提取方式的優(yōu)化,也就是每條特征信息如何進(jìn)行字符舍取。

      3.1 特征匹配方式的優(yōu)化

      特征匹配方式的優(yōu)化主要解決單條特征匹配所帶來的誤識(shí)別和識(shí)別率問題,根據(jù)統(tǒng)一資源標(biāo)識(shí)符在各報(bào)文頭的信息不同[5],對(duì)HTTP協(xié)議報(bào)文方法進(jìn)行粗略的分類作為特征匹配優(yōu)化的基礎(chǔ),由此可以分為資源具體信息、資源地址信息、資源其他信息3類。資源具體信息包括GET、PUT、POST、HEAD等方法的報(bào)文內(nèi)容;資源地址信息包括Referrer、Host、IP、端口的報(bào)文內(nèi)容;資源其他信息包括User-Agent、Server、Content-Type等方法的報(bào)文內(nèi)容。

      3.1.1 特征匹配方式的優(yōu)先級(jí)

      特征匹配方式優(yōu)化的解決方案將特征搭配分3種級(jí)別,從高到低依次采用,具體情況如下:

      一級(jí):資源具體信息+資源地址信息+資源其他信息

      二級(jí):資源具體信息+資源地址信息;資源具體信息+資源其他信息;資源地址信息+資源其他信息

      三級(jí):資源具體信息;資源地址信息;資源其他信息

      上述優(yōu)化方法中,優(yōu)先采用一級(jí)匹配方式,最后采用三級(jí)匹配方式,在每一級(jí)別,按照書寫的前后順序依次采用,例如在二級(jí)匹配方式中,優(yōu)先采用資源具體信息+資源地址信息;其次采用資源具體信息+資源其他信息;最后采用資源地址信息+資源其他信息。

      3.1.2 資源方法的優(yōu)先級(jí)

      資源具體信息主要是請(qǐng)求方法的內(nèi)容,包括應(yīng)用名稱、具體路徑、資源類型或者其他特征,常用的方法有GET、PUT、POST、HEAD。在請(qǐng)求報(bào)文中出現(xiàn)哪個(gè)方法就對(duì)該方法的內(nèi)容具體分析并提取特征字符,它們之間沒有優(yōu)先級(jí)別區(qū)分,有時(shí)一條會(huì)話中有時(shí)會(huì)出現(xiàn)多個(gè)請(qǐng)求方法,根據(jù)載荷回應(yīng)報(bào)文的2xx狀態(tài)來確定提取哪個(gè)方法的特征字,若特征字符可以獨(dú)特并且精確的表示了資源信息,可以采用該單條特征字符匹配應(yīng)用[6]。

      資源地址信息主要存在于請(qǐng)求方法Referrer和Host中,如果應(yīng)用的具體功能與某一IP和端口是對(duì)應(yīng)的,其也可以表示資源的地址信息。在這些地址信息中,Referrer方法優(yōu)先級(jí)最高,Host和IP次之,根據(jù)HTTP協(xié)議的RFC文檔可知,Referrer中http_URL="http:""http://"host[":"port][abs_path[ "?"query]][4],URL可以用于定位網(wǎng)絡(luò)資源的位置,從而作為應(yīng)用的識(shí)別特征,而Host是URL的組成部分,僅表示資源主機(jī)的相關(guān)信息,沒有很精確的定位。所以在僅有地址信息的情況下Referrer方法可以作為單條特征匹配應(yīng)用,但是Host方法和IP不能單獨(dú)作為特征來匹配[7]。

      資源其他信息主要有資源產(chǎn)品信息、資源數(shù)據(jù)格式等,對(duì)應(yīng)的方法分別是User-Agent、Server、Content-Type、Content-Length等,他們的優(yōu)先級(jí)按照書寫的順序由高到低排序,其中User-Agent和Serve用于產(chǎn)品標(biāo)記,使通信軟件能夠通過名稱和版本來標(biāo)識(shí)自己,從而可以識(shí)別出應(yīng)用,特別情況下也可以作為單條特征進(jìn)行識(shí)別匹配,而資源數(shù)據(jù)格等信息不能單獨(dú)作為特征進(jìn)行識(shí)別匹配,只可以作為應(yīng)用限制條件增加識(shí)別準(zhǔn)確性[8]。

      3.2 特征字符提取方式的優(yōu)化

      根據(jù)協(xié)議分類可知,在數(shù)據(jù)報(bào)文中有資源具體信息、資源地址信息和資源其他信息3種,每種信息的特征都是通過字符確定,其中包含了可識(shí)別字符(包括應(yīng)用的名稱、命令、格式等)和不可識(shí)別字符(包括特殊字符、數(shù)字等),下面主要介紹基于特征字符串提取方式的邏輯方法[9],其中包含了2種情況。

      3.2.1 含應(yīng)用信息的特征字符提取方法(以名稱為例)

      在Spybot應(yīng)用中,更新過程數(shù)據(jù)包的GET請(qǐng)求方法信息如下所示:

      ①GET/updates/spybot2files/spybotsd2.uid-20140522.cab

      ②GET/updates/spybot2files/TTLASSH.sbs-20080624.cab

      ③GET/spybot2files/Trojans-ZL-000.sbi-20140115.cab

      ④GET/updates/spybot2/Trojans-VM-021.sbi-20140115. cab

      ⑤GET/data/spybot/spybot2/Trojans-VM-023. sbi-20140115.cab

      經(jīng)初步分析可知,1和2有共同特征字符“/updates/spybot2files/”;2和3有共同特征字符“/spybot2files/”;3和4有共同特征字符“/spybot2”,4和1、2有共同特征字符“/updates/spybot2”;5和其余4條方法信息均有“spybot”或“spybot2”的特征字符。

      若上述GET方法的名稱特征作為一級(jí)或者二級(jí)的輔助搭配特征,采用的方法是1和2提取共同特征A,A和3提取共同特征B,B和4提取共同特征C,以此類推,最終用統(tǒng)一的特征字符識(shí)別所有報(bào)文,本例最終以特征字符“/spybot”,偏移位置為7-14,加上Host方法的主要特征,聯(lián)合匹配出spybot應(yīng)用;若上述特征字符作為主要特征或者單條的資源具體信息進(jìn)行匹配,字符串提取分為3種,分別是“/updates/spybot2files/”、“/spybot2files/”和“/data/spybot/spybot2/”,提取的原則是資源路徑提取到具體文件的上級(jí)以上目錄,路徑越具體識(shí)別越精確。與此同時(shí),由于軟件更新過程的獨(dú)特性,往往加上文件類型(.cab)作為輔助特征,提高識(shí)別準(zhǔn)確性。

      而在資源地址信息的特征字符提取方式中,與資源具體信息的提取方式雷同,在Referrer或者Host方法中,地址信息特征字符越詳細(xì)資源定位越精確。而資源其他信息中的產(chǎn)品信息或數(shù)據(jù)格式等則是如實(shí)提取,表達(dá)是什么就提取什么。

      3.2.2 不含應(yīng)用信息的特征提取方法

      不含應(yīng)用信息的特征提取方法根據(jù)特征字符所在位置和位置出現(xiàn)的字符特點(diǎn),采用聯(lián)合匹配方式,按聯(lián)合數(shù)大小排序,決定提取優(yōu)先級(jí),例如應(yīng)用會(huì)話報(bào)文中有3處字符一致,則將這3處的字符聯(lián)合起來作為該應(yīng)用的特征,通過此特征進(jìn)行識(shí)別,若會(huì)話報(bào)文中有4處字符一致,則優(yōu)先采用4處字符聯(lián)合匹配,該匹配方式比3處特征優(yōu)先級(jí)別高,識(shí)別更準(zhǔn)確[10]。

      4 優(yōu)化識(shí)別方法的評(píng)估

      現(xiàn)以Mcafee軟件為例,對(duì)優(yōu)化后的識(shí)別方法進(jìn)行評(píng)估,在軟件更新過程中,通過對(duì)數(shù)據(jù)包的統(tǒng)計(jì)分析,發(fā)現(xiàn)其中有2條大流量會(huì)話,具有共同的Host方法特征信息,具體內(nèi)容為“download.mcafee.com”,從而可以判斷會(huì)話內(nèi)容來源于Mcafee軟件的下載服務(wù)器中,是更新過程中文件的主要來源,若按照之前的識(shí)別方法,則采用Host特征來匹配Mcafee應(yīng)用的更新過程,此時(shí)識(shí)別率為98.50%,達(dá)到標(biāo)準(zhǔn)。

      但在誤識(shí)別測(cè)試時(shí),在其官方網(wǎng)站下載應(yīng)用或其他工具造成了誤匹配,通過跟蹤打印的五元組信息,鎖定網(wǎng)頁(yè)下載數(shù)據(jù)包的會(huì)話,發(fā)現(xiàn)其Host方法特征為“download.mcafee.com”,與更新過程會(huì)話特征一致,但其資源具體信息的請(qǐng)求方法內(nèi)容不一致,更新過程中的請(qǐng)求方法為HEAD,內(nèi)容特征為“/molbin/iss-loc/amcore/0001006/001712/meddat.cab

      HTTP/1.1”,由此可知請(qǐng)求文件類型為.cab,而網(wǎng)頁(yè)下載的請(qǐng)求方法為GET,內(nèi)容特征為“/molbin/iss-loc/mmi/zh-cn/7. 6.263/7/downloadButton.html HTTP/1.1”,由此可知請(qǐng)求文件的類型為.html。

      經(jīng)過分析可知,網(wǎng)頁(yè)下載和軟件更新文件均來自于Mcafee的下載服務(wù)器,不能單獨(dú)采用Host方法特征進(jìn)行應(yīng)用匹配,按照優(yōu)化后的識(shí)別方法,采用二級(jí)匹配方式的資源具體信息+資源地址信息方式識(shí)別,即Host域內(nèi)容+請(qǐng)求方法內(nèi)容+文件類型,具體的識(shí)別特征字符為Host:download.mcafee. com+String:/molbin/iss-loc/+String:.cab。將帶有新特征庫(kù)的程序在公網(wǎng)上進(jìn)行誤識(shí)別測(cè)試,截止至文章編寫時(shí),未出現(xiàn)問題。

      5 結(jié)束語(yǔ)

      采用優(yōu)化后的特征匹配方式和特征字符提取方式對(duì)22個(gè)軟件更新應(yīng)用進(jìn)行測(cè)試,識(shí)別率均達(dá)到90%,無一誤識(shí)別。同時(shí),在文件傳輸、即時(shí)通信、下載類等其他采用HTTP協(xié)議進(jìn)行通信的網(wǎng)絡(luò)應(yīng)用中,這種識(shí)別方法起到了顯著的作用,為應(yīng)用識(shí)別提供了基礎(chǔ),與此同時(shí)也具有弊端[11],在實(shí)際應(yīng)用中盡量將弊端降到最小,優(yōu)點(diǎn)充分使用。本方法的核心內(nèi)容是將統(tǒng)一資源標(biāo)識(shí)符與報(bào)文方法的結(jié)合,通過資源信息的獨(dú)特性、唯一性確定應(yīng)用,從而識(shí)別出應(yīng)用。這種識(shí)別方法的邏輯思維不僅僅適用于HTTP協(xié)議,同樣可以延伸至TCP、UDP等協(xié)議中,結(jié)合其他協(xié)議自身的特點(diǎn),采用合理的特征字符提取方式和匹配方式也能簡(jiǎn)潔、準(zhǔn)確、快速的識(shí)別出協(xié)議應(yīng)用。

      [1]王梁.基于深度數(shù)據(jù)包檢測(cè)與深度數(shù)據(jù)流檢測(cè)相結(jié)合的業(yè)務(wù)識(shí)別技術(shù)研究[D].中南大學(xué).Y1761966.2010:2-6.

      [2]張玲,李君,孫雁飛.快速應(yīng)用層流量識(shí)別方法的研究與實(shí)現(xiàn)[C].電信快報(bào)論文選粹,2009:29-33.

      [3]張志群.淺談應(yīng)用識(shí)別技術(shù)的實(shí)現(xiàn)[J].IP領(lǐng)航.2009:1-2.

      [4]李鑫.基于DPI的網(wǎng)絡(luò)流量識(shí)別系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].武漢理工大學(xué),Y1817346.2010:7-8.

      [5]RFC2616,Hypertext Transfer Protocol--HTTP/1.1[S].

      [6]吳昊,程光.HTTP網(wǎng)絡(luò)應(yīng)用特征串的自動(dòng)提取[D].東南大學(xué),2011:2.

      [7]孟娟娜.淺談《IP地址與域名》[J].電子世界,2013(15):156.

      [8]吳昊.基于HTTP的網(wǎng)絡(luò)應(yīng)用分類系統(tǒng)[D].東南大學(xué), 2012:14-16.

      [9]王向輝.基于DPI與特征識(shí)別的P2P流量監(jiān)測(cè)技術(shù)研究[D].廣西大學(xué).2010.3-9.

      [10]陳亮,龔儉,徐選.基于特征串的應(yīng)用層協(xié)議識(shí)別[J].計(jì)算機(jī)工程與應(yīng)用,2006(24):16-19+86.

      [11]王慧謙.基于端口號(hào)、統(tǒng)計(jì)特征和協(xié)議特征字的實(shí)時(shí)數(shù)據(jù)流分類[D].山東大學(xué),Y1938284.2011:8-9.

      Research on Feature Character Recognition Based on HTTP Protocol

      WU Huan,SONG Li,LIU Yu-zhe
      (Hebei Far-east Communication System Engineering Co.Ltd,Shijiazhuang Hebei 05000,China)

      In the Internet era of network application expansion,HTTP protocol is used for most web applications by virtue of its various advantages.The method of identifying application protocol by load feature characters is an important challenge faced by current DPI.To address this challenge,based on application of identification technology,the recognition software update class applications are briefly introduced,mainly to solve such two problems as low recognition rate and misrecognition in the identification process.The method of combining optimized features and match order with resource method order is used to perform application identification test. The test results show that the proposed method is feasible and the recognition method is scientific.

      feature character;feature matching;resource method;recognition rate;misrecognition

      TP391.4

      A

      1008-1739(2015)09-32-4

      定稿日期:2015-04-12

      猜你喜歡
      字符識(shí)別率報(bào)文
      基于J1939 協(xié)議多包報(bào)文的時(shí)序研究及應(yīng)用
      汽車電器(2022年9期)2022-11-07 02:16:24
      尋找更強(qiáng)的字符映射管理器
      CTCS-2級(jí)報(bào)文數(shù)據(jù)管理需求分析和實(shí)現(xiàn)
      基于類圖像處理與向量化的大數(shù)據(jù)腳本攻擊智能檢測(cè)
      字符代表幾
      一種USB接口字符液晶控制器設(shè)計(jì)
      電子制作(2019年19期)2019-11-23 08:41:50
      淺析反駁類報(bào)文要點(diǎn)
      基于真耳分析的助聽器配戴者言語(yǔ)可懂度指數(shù)與言語(yǔ)識(shí)別率的關(guān)系
      消失的殖民村莊和神秘字符
      提升高速公路MTC二次抓拍車牌識(shí)別率方案研究
      金川县| 方城县| 施甸县| 黄石市| 福清市| 蕉岭县| 邯郸市| 开远市| 潢川县| 信阳市| 康马县| 鄂伦春自治旗| 宁陵县| 灵石县| 全椒县| 丰镇市| 桑日县| 房产| 综艺| 新密市| 灵石县| 雷山县| 苏州市| 青川县| 枝江市| 康定县| 崇礼县| 平江县| 海盐县| 丰镇市| 巴塘县| 开封市| 贵定县| 黔南| 怀安县| 新巴尔虎左旗| 南投县| 潢川县| 柘城县| 嘉鱼县| 咸宁市|