◆郭曉軍郭沛精
(1.西藏民族大學(xué)信息工程學(xué)院 陜西 712082; 2.西藏光信息處理與可視化技術(shù)重點(diǎn)實(shí)驗(yàn)室 陜西 712082)
一種面向藏區(qū)Web站點(diǎn)的指紋信息提取方法
◆郭曉軍1,2郭沛精1,2
(1.西藏民族大學(xué)信息工程學(xué)院 陜西 712082; 2.西藏光信息處理與可視化技術(shù)重點(diǎn)實(shí)驗(yàn)室 陜西 712082)
Web站點(diǎn)指紋信息是網(wǎng)站安全防護(hù)重要技術(shù)之一。針對(duì)藏區(qū)內(nèi)Web站點(diǎn)的重要性和特殊性,本文以訪問(wèn)藏區(qū)Web站點(diǎn)過(guò)程中的域名DNS解析記錄、HTTP Response報(bào)頭字段特殊標(biāo)識(shí)、字段順序及TCP流數(shù)量四個(gè)特征來(lái)構(gòu)建Web站點(diǎn)指紋信息,并在常見藏區(qū)Web站點(diǎn)進(jìn)行測(cè)試。結(jié)果表明本文方法能有效提取出區(qū)內(nèi)Web站點(diǎn)指紋信息。
網(wǎng)絡(luò)安全; Web站點(diǎn)指紋; 隱私保護(hù); Web站點(diǎn)防護(hù)
西藏自1999年實(shí)現(xiàn)寬帶上網(wǎng)以來(lái),互聯(lián)網(wǎng)發(fā)展和普及已經(jīng)成為西藏信息化建設(shè)中十分重要的組成部分。這些Web站點(diǎn)提供西藏文化、藏醫(yī)藏藥、藏學(xué)研究、教育旅游、在線交易、在線辦公等各種信息服務(wù),已經(jīng)成為西藏人民享受最先進(jìn)科技成果的第二條“青藏鐵路”。然而,這些站點(diǎn)所面臨的信息泄露、站點(diǎn)篡改等嚴(yán)重安全問(wèn)題。一方面,黑客等利用某些不正當(dāng)技術(shù)手段竊取保存于這些網(wǎng)站上的個(gè)人情況、網(wǎng)購(gòu)資料、銀行賬號(hào)等個(gè)人私密信息,造成嚴(yán)重個(gè)人隱私信息泄露; 另一方面,作為國(guó)家政治敏感的區(qū)域,西藏在各方面一直遭受藏獨(dú)分子、達(dá)賴集團(tuán)、反華勢(shì)力的覬覦和干擾。因此不排除這些非法勢(shì)力雇傭技術(shù)人員專門針對(duì)重要Web站點(diǎn)信息進(jìn)行收集與竊取,并利用這些信息制造惡劣事端,以達(dá)到破壞西藏經(jīng)濟(jì)社會(huì)和諧穩(wěn)定的目的。
在眾多Web安全防護(hù)技術(shù)中,Web站點(diǎn)指紋技術(shù)可以快速?gòu)腤eb站點(diǎn)中獲取相關(guān)特征以形成Web站點(diǎn)指紋,并能方便地實(shí)現(xiàn)對(duì)Web站點(diǎn)是否被篡改情況的初步判斷。因此研究藏區(qū)Web站點(diǎn)指紋信息提取,對(duì)預(yù)防藏區(qū)關(guān)鍵Web站點(diǎn)信息泄露事故發(fā)生,保證西藏和諧穩(wěn)定的互聯(lián)網(wǎng)環(huán)境具有重要的作用。本文提出藏區(qū)Web站點(diǎn)指紋信息定義,并從多個(gè)特征進(jìn)行描述,最后對(duì)常見的藏區(qū)Web站點(diǎn)進(jìn)行了測(cè)試。
1.1 特征選取
(1)Web站點(diǎn)域名DNS解析記錄
圖1 藏區(qū)Web站點(diǎn)DNS解析示例
訪問(wèn)Web站點(diǎn)過(guò)程的首要過(guò)程是對(duì)Web站點(diǎn)的域名進(jìn)行DNS解析,從而得到所對(duì)應(yīng)的IP地址,才能進(jìn)行后續(xù)的通信過(guò)程,如圖1所示。盡管現(xiàn)在很多Web站點(diǎn)采用了CDN、反向代理(如Nginx)等技術(shù),但其域名所得到的IP地址較為固定。因此本文中采用域名與其解析出的IP地址構(gòu)成的信息對(duì)兒作為藏區(qū)內(nèi)Web站點(diǎn)指紋信息的組成之一,記為Pair。
(2)HTTP Response報(bào)頭字段特殊標(biāo)識(shí)
在客戶端瀏覽器向Web站點(diǎn)發(fā)送HTTP GET請(qǐng)求之后,正常情況下,Web站點(diǎn)服務(wù)器會(huì)返回HTTP Response Code 為“200”的響應(yīng)報(bào)頭[1],且該報(bào)頭由若干個(gè)字段組成,如圖2所示。該報(bào)頭中的有些字段值具有唯一性和獨(dú)特性,能較好地作為Web站點(diǎn)服務(wù)器的標(biāo)識(shí),如圖2中的“ETag”字段及其值,因此可作為藏區(qū)內(nèi)Web站點(diǎn)指紋信息的重要特征,記為L(zhǎng)able。
圖2 典型的HTTP Response報(bào)頭
(3)HTTP Response報(bào)頭字段順序
鑒于不同Web服務(wù)器軟件在實(shí)現(xiàn)HTTP協(xié)議上存在差別,因此對(duì)于HTTP Response報(bào)頭內(nèi)的字段順序安排也存在差異[2]。例如圖3所示,IIS、Apache和Nginx都含有“Server”、“Date”和“Content-Type”三個(gè)字段,且此三字段的順序完全不同,差別較大。因此可將這一顯著特征作為藏區(qū)內(nèi)Web站點(diǎn)指紋信息的組成部分,記為Order。
圖3 典型Web站點(diǎn)HTTP Response報(bào)頭字段順序的示例
(4)TCP流的數(shù)量
藏區(qū)內(nèi)Web站點(diǎn)的主頁(yè)一般包含文字、圖片、音視頻、Javascript庫(kù)等大量元素。為提高傳輸這些主頁(yè)元素的效率,Web站點(diǎn)會(huì)使用多個(gè)TCP流來(lái)傳輸不同的元素。此處TCP流的定義采用傳統(tǒng)的五元組定義方法,即源IP、目的IP、協(xié)議、源端口和目的端口。圖4給出了訪問(wèn)某個(gè)藏區(qū)Web站點(diǎn)產(chǎn)生多個(gè)TCP 流的示例。從圖中藍(lán)色框內(nèi)的源端口號(hào)可以看出,該Web站點(diǎn)的服務(wù)器分別向客戶端的TCP端口57642~57647傳輸數(shù)據(jù),也就是說(shuō)啟用了6條TCP流。
由于各Web站點(diǎn)服務(wù)器系統(tǒng)實(shí)現(xiàn)的軟硬件差異,訪問(wèn)不同站點(diǎn)主頁(yè)過(guò)程所生產(chǎn)的TCP流數(shù)目也不同。因此,TCP流數(shù)目也可作為標(biāo)識(shí)Web站點(diǎn)指紋信息的重要依據(jù),記為Num。