◆于佳華
(國家計(jì)算機(jī)網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心黑龍江分中心 黑龍江 150001)
從20世紀(jì)60年代美國的APPANet到今天的國際互聯(lián)網(wǎng),網(wǎng)絡(luò)技術(shù)得到了迅猛發(fā)展,越來越多的組織和個(gè)人接入互聯(lián)網(wǎng)。包括網(wǎng)絡(luò)終端、網(wǎng)絡(luò)設(shè)備、網(wǎng)絡(luò)服務(wù)等在內(nèi)的網(wǎng)絡(luò)資產(chǎn)已被廣泛應(yīng)用于各類政府、企事業(yè)單位的日常業(yè)務(wù)工作,極大地提高了工作效率,促進(jìn)了業(yè)務(wù)工作的發(fā)展,但也帶來了許多問題和隱患。隨著單位網(wǎng)絡(luò)規(guī)模的不斷擴(kuò)大,網(wǎng)絡(luò)資產(chǎn)及其所包含的漏洞類型不斷增多,給單位網(wǎng)絡(luò)安全管理帶來了巨大壓力[1]。
網(wǎng)站是網(wǎng)絡(luò)資產(chǎn)中的一類特殊而重要的資產(chǎn),互聯(lián)網(wǎng)上除了存在大眾所熟知的門戶網(wǎng)站、娛樂網(wǎng)站、購物網(wǎng)站外,更存在著大量的電子政務(wù)、自動(dòng)化辦公、金融服務(wù)等網(wǎng)站,這些網(wǎng)站歸屬于不同的政府、企事業(yè)單位,掌握清楚這些網(wǎng)站的歸屬對(duì)于網(wǎng)絡(luò)安全工作,尤其是漏洞普查、漏洞通報(bào)、風(fēng)險(xiǎn)預(yù)警等具有重要的意義。
目前確定網(wǎng)站歸屬主要有網(wǎng)站備案信息判定和頁面信息判定兩種方法。
網(wǎng)站備案是根據(jù)國家法律法規(guī)要求,網(wǎng)站的所有者向國家有關(guān)部門申請(qǐng)的備案,主要有工信部 ICP備案和公安部聯(lián)網(wǎng)備案[2]。備案信息包括單位名稱、單位性質(zhì)、網(wǎng)站名稱等。目前工信部 ICP/IP地址/域名信息備案管理系統(tǒng)、公安部全國互聯(lián)網(wǎng)安全管理服務(wù)平臺(tái)、站長之家等網(wǎng)站提供網(wǎng)站備案信息查詢服務(wù),用戶輸入域名或備案號(hào),可查詢到備案單位。
網(wǎng)站備案信息判定主要存在如下幾個(gè)問題,一是有的單位的門戶網(wǎng)站等主要網(wǎng)站進(jìn)行了備案,但OA等次要網(wǎng)站未進(jìn)行備案;二是很多未綁定域名的網(wǎng)站未進(jìn)行備案;三是很多域名到期后,未進(jìn)行備案撤銷,導(dǎo)致域名被其他單位或個(gè)人申請(qǐng)并綁定新的網(wǎng)站,出現(xiàn)備案單位與網(wǎng)站歸屬單位不一致的情況。
頁面信息判定主要是通過頁面上顯示的標(biāo)題、版權(quán)等信息,判斷網(wǎng)站的歸屬。比如很多政府機(jī)關(guān)、高校、企業(yè)的網(wǎng)站都會(huì)在頁面顯著位置展現(xiàn)網(wǎng)站的歸屬及用途,這些信息可以準(zhǔn)確識(shí)別網(wǎng)站的歸屬單位。
頁面信息判定方法主要存在如下幾個(gè)問題,一是很多通用網(wǎng)站如ERP管理系統(tǒng)、考勤系統(tǒng)、防火墻系統(tǒng)等,頁面上只顯示了廠商的信息,無歸屬單位信息;二是有些仿冒詐騙網(wǎng)站,頁面故意顯示所仿冒單位信息,給人誤導(dǎo);三是某些單位為了避免監(jiān)管機(jī)構(gòu)通報(bào),特意在頁面上隱去可識(shí)別本單位信息的內(nèi)容。
綜上,目前網(wǎng)站歸屬領(lǐng)域常用的網(wǎng)站備案信息判定和頁面信息判定兩種方法,都存在某些情況下無法判定屬或者判定錯(cuò)誤的問題。
本文將無監(jiān)督聚類算法 DBSCAN[3]應(yīng)用于互聯(lián)網(wǎng)網(wǎng)站歸屬判定領(lǐng)域,通過對(duì)網(wǎng)站的備案信息和頁面基本信息進(jìn)行特征提取,分類別進(jìn)行特征量化,再使用聚類算法進(jìn)行分析,實(shí)現(xiàn)網(wǎng)站歸屬單位的自動(dòng)化判定。方法的流程示意圖如圖1所示。
圖1 流程示意圖
對(duì)于待判定歸屬單位的網(wǎng)站URL集合,逐個(gè)網(wǎng)站進(jìn)行如下計(jì)算。
首先是提取兩類網(wǎng)站基礎(chǔ)信息:
(1)頁面基本信息提取,提取網(wǎng)站的 IP、域名、標(biāo)題、KEYWORDS、版權(quán)、備案ID等。本文使用自主編寫的爬蟲工具提取這些信息。
(2)網(wǎng)站備案信息查詢。通過工信部ICP/IP地址/域名信息備案管理系統(tǒng)、公安部全國互聯(lián)網(wǎng)安全管理服務(wù)平臺(tái)、站長之家等平臺(tái)查詢網(wǎng)站的備案單位信息。根據(jù)實(shí)踐只有通過域名查詢數(shù)據(jù)較為準(zhǔn)確,因此只需對(duì)綁定域名的網(wǎng)站執(zhí)行本步驟。
大部分網(wǎng)站不是上述所有類別信息都能提取到,提取過程遵循能提取盡量提取的原則,提取不到信息的特征用空字符串表示。基礎(chǔ)信息提取完成后,對(duì)于任一網(wǎng)站會(huì)形成原始特征向量FOwebsite,由IP、域名、標(biāo)題、KEYWORDS、版權(quán)、備案ID、備案單位等七類特征組成。
其中,IP特征為點(diǎn)分十進(jìn)制的IP地址表示形式,域名特征為一組用點(diǎn)分隔的字符串,其他特征為文本特征。
對(duì)這七類特征分別進(jìn)行特征量化,將每類特征轉(zhuǎn)化為可代表其特征的具體數(shù)值。
(1)IP特征量化
對(duì)IP原始特征FOip進(jìn)行如下計(jì)算,得到IP量化特征FQip。
其中,wip為IP特征的權(quán)重向量,k為指數(shù)參數(shù)。FOipi為點(diǎn)分十進(jìn)制IP地址的每一位數(shù)值。通過本算法實(shí)現(xiàn)IP地址越相鄰,計(jì)算后的IP量化特征值越相近。
(2)域名特征量化
對(duì)域名進(jìn)行預(yù)處理,先將域名原始特征FOdomain通過 M ozilla Public Suffix List數(shù)據(jù)[4]過濾掉域名中的公共后綴字符串,再將域名進(jìn)行逆序反轉(zhuǎn),得到域名預(yù)處理特征FOPdomain。
將FOPdomain進(jìn)行如下計(jì)算,得到域名量化特征FQdomain。
其中,wdomain為域名特征的權(quán)重向量,k為指數(shù)參數(shù)。FOPdomaini為預(yù)處理域名特征向量FOPdomain的每一位字符。通過本算法實(shí)現(xiàn)域名越相似,計(jì)算后的域名量化特征值越相近。
(3)文本特征量化
針對(duì)標(biāo)題、KEYWORDS、版權(quán)、備案ID、備案單位這五類文本特征都采用相同方法進(jìn)行特征量化,使用文本原始特征FOtext統(tǒng)一代表這些類特征的原始特征。
首先利用北京理工大學(xué)張華平博士的漢語分詞系統(tǒng)ICTCLAS[5],對(duì)這批網(wǎng)站的所有文本原始特征進(jìn)行分詞,得到分詞庫WSL。
對(duì)文本原始特征FOtext依據(jù)分詞對(duì)文本特征進(jìn)行如下計(jì)算,得到文本預(yù)處理特征FOPtext,為n維的特征向量,每一位取值為0或1,n為WSL的大小。
將文本預(yù)處理特征 進(jìn)行如下計(jì)算,得到文本量化特征。FOPtext FQtext
經(jīng)過以上三類特征的量化處理,得到該網(wǎng)站的量化特征向量FQwebsite。
再將各類特征值再映射到同一量綱下的[0,1]區(qū)間,本文使用python語言sklearn模塊的normalize函數(shù)來實(shí)現(xiàn)。最終得到該網(wǎng)站歸一化特征向量FNwebsite。
反復(fù)執(zhí)行以上步驟,直到所有網(wǎng)站都生成一個(gè)歸一化特征向量,最終得到數(shù)據(jù)集合FNS。
DBSCAN是一個(gè)比較有代表性的基于密度的聚類算法,它將簇定義為密度相連點(diǎn)的最大集合,能夠把具有足夠高密度的區(qū)域劃分為簇,并可在噪聲的空間數(shù)據(jù)庫中發(fā)現(xiàn)任意形狀的聚類[2]。
本文對(duì)數(shù)據(jù)集合FNS使用DBSCAN算法進(jìn)行聚類分析,通過調(diào)整關(guān)鍵參數(shù)掃描半徑Eps和最小包含點(diǎn)數(shù)MinPts對(duì)聚類效果進(jìn)行調(diào)節(jié),形成聚類簇,同一簇下的網(wǎng)站即歸屬同一單位。本文使用python語言sklearn模塊的DBSCAN函數(shù)來實(shí)現(xiàn)。聚類效果如圖2所示。
圖2 聚類效果圖
互聯(lián)網(wǎng)網(wǎng)站歸屬單位判定領(lǐng)域,目前還沒有權(quán)威機(jī)構(gòu)數(shù)據(jù)集。本文以某機(jī)構(gòu)2016年組織的某區(qū)域信息系統(tǒng)登記的數(shù)據(jù)為實(shí)驗(yàn)數(shù)據(jù)集,該數(shù)據(jù)及包含黨政機(jī)關(guān)、能源、金融、醫(yī)療衛(wèi)生、教育等多個(gè)行業(yè)的200個(gè)網(wǎng)站。
對(duì)同一數(shù)據(jù)集,分別以網(wǎng)站備案信息判定、頁面信息判定和DBSCAN算法判定三種方法進(jìn)行網(wǎng)站歸屬的判定,準(zhǔn)確率定義為某一方法可準(zhǔn)確識(shí)別出歸屬單位的網(wǎng)站數(shù)目占數(shù)據(jù)集中網(wǎng)站總數(shù)目的比值。
實(shí)驗(yàn)結(jié)果如表1所示,可以看出,本文提出的基于DBSCAN算法的互聯(lián)網(wǎng)網(wǎng)站歸屬判定方法可以較大提升網(wǎng)站歸屬單位判定的準(zhǔn)確率。
表1 不同方法準(zhǔn)確率對(duì)照表
本文提出的基于DBSCAN算法的互聯(lián)網(wǎng)網(wǎng)站歸屬判定方法,用于解決網(wǎng)絡(luò)資產(chǎn)探測(cè)領(lǐng)域中網(wǎng)站資產(chǎn)的歸屬單位判定問題,通過對(duì)網(wǎng)站的基礎(chǔ)信息進(jìn)行量化特征提取,使用聚類分析算法實(shí)現(xiàn)網(wǎng)站歸屬的自動(dòng)化判定,有效提升了歸屬單位判定準(zhǔn)確率。