何歡
(遵義醫(yī)學院,貴州遵義 563000)
在計算機病毒不斷演化和發(fā)展的過程中,其數(shù)據(jù)信息的更新速度較快,而數(shù)據(jù)挖掘技術則是通過對于以往數(shù)據(jù)信息類型的總結,對比分析惡意程序代碼中的數(shù)據(jù)類型。這樣的方式更加有利于隱匿于系統(tǒng)內(nèi)部的病毒被快速發(fā)現(xiàn),數(shù)據(jù)挖掘從大量信息中搜索隱藏條件的基本功能,是支持病毒識別的關鍵。而數(shù)據(jù)挖掘算法中決策樹算法、K-means聚類分析、SVM回歸分析、Apriori布爾關聯(lián)規(guī)則頻繁項集等一系列算法在本質上均已達到了快速識別數(shù)據(jù)特征的基本要求。因此,能夠以計算機病毒在系統(tǒng)內(nèi)部產(chǎn)生的無限繁衍機制,或數(shù)據(jù)類型的更替迭代來判斷計算機系統(tǒng)是否受到病毒攻擊。此外,對于以往病毒信息的總結,在數(shù)據(jù)庫內(nèi)存儲的病毒特征也是提供預防措施的甄別環(huán)節(jié),是為主動防御系統(tǒng)提供數(shù)據(jù)參數(shù)和量化指標的可控方式。因此,在計算機病毒不斷發(fā)展的過程中,以數(shù)據(jù)挖掘技術為基礎的計算機網(wǎng)絡安全服務或者預設防御系統(tǒng)也是目前極為關鍵的研究方向。
計算機病毒的傳播過程需要兩種載體,網(wǎng)絡傳播或硬件傳播,但本質上網(wǎng)絡傳播的速度更快。在互聯(lián)網(wǎng)時代,其數(shù)據(jù)信息本身的使用頻次較高,病毒侵襲于交互信息的文本資料中,利用IP協(xié)議的漏洞攻擊終端系統(tǒng),已經(jīng)成為多數(shù)計算機病毒的主要攻擊路徑。而且當一臺終端系統(tǒng)受到侵襲之后,病毒可以將此終端設備作為后臺,通過自身的無限繁殖擴大破壞力與攻擊力。若終端系統(tǒng)的防護體系并未及時發(fā)現(xiàn)病毒,在之后的信息傳播與交互中也相當于輔助了病毒傳播。因此,計算機病毒在具備了廣泛性的傳播覆蓋面后更加形成了實時擴散的破壞力,是對于計算機網(wǎng)絡安全性能的最大威脅。
自計算機病毒問世以來,終端系統(tǒng)和網(wǎng)絡協(xié)議都在不斷更新?lián)Q代,其根本目標便是規(guī)避自身漏洞,降低病毒攻擊頻次,并增強自身的防御體系功能性。但是計算機系統(tǒng)本身的漏洞也為計算機病毒留有可攻擊的條件,計算機病毒自身的修改和更新速度造成了進一步的安全風險威脅。My Doom、Worm.Blaster、So big等早期的病毒類型以Microsoft Outlook電子郵件系統(tǒng)傳播為主,用戶在終端系統(tǒng)仍然可以通過設置防火墻加以防御,即便防御失敗損失也基本控制在終端系統(tǒng)內(nèi)部。而新一輪的網(wǎng)絡勒索病毒,以撒旦(Satan)勒索病毒為代表,攻擊重心在于服務器數(shù)據(jù)庫,同時在控制終端系統(tǒng)之后對用戶勒索至少0.3個比特幣的贖金,否則數(shù)據(jù)信息將永遠無法解密。從植入惡意代碼攻擊系統(tǒng)程序,到攻擊數(shù)據(jù)庫勒索用戶贖金,其計算機病毒的更新迭代速度之快是極為重要的特征表現(xiàn)[1]。
早期黑客所使用的木馬病毒雖然產(chǎn)生了較大的破壞力,但是在系統(tǒng)自主修復之后仍然可以恢復運行速度和常規(guī)使用。其中較為重要的數(shù)據(jù)信息仍然可以得到恢復,且攻擊目標多為個體用戶。而新一輪的勒索病毒席卷全球,超過150個國家至少30萬名用戶的終端系統(tǒng)受到攻擊,直接損失高達80億美元。
數(shù)據(jù)收集是應用數(shù)據(jù)挖掘技術的基礎條件,需要總結網(wǎng)絡病毒的基本數(shù)據(jù),收集其特征數(shù)據(jù)作為分析演算的原始資料。在收集信息的過程中,必須梳理計算機病毒的特征屬性,并將其定義為搜索對象,在不可預測的條件下歸納攻擊類型的嚴重程度,降低數(shù)據(jù)挖掘的盲目性才能達到預期的數(shù)據(jù)信息收集效果[2]。
數(shù)據(jù)特征挖掘模式是將收集到的計算機病毒信息進行分類,依據(jù)其攻擊特征、侵襲路徑、破壞力等一系列特征屬性劃分事件庫。在事件庫中可以將數(shù)據(jù)挖掘算法作為判定病毒特征的主要依據(jù),通過更為清晰的數(shù)據(jù)分析結果,歸納和總結防御體系的操作方向。
事件庫僅能夠對病毒數(shù)據(jù)進行分組描述其基本特征,而并不能直接總結病毒特征的識別規(guī)律。而關聯(lián)規(guī)則庫的應用,則是為數(shù)據(jù)挖掘提供了聚類分析模式,或者是基于病毒特征的識別機制。在此模塊中,病毒攻擊終端系統(tǒng)時的運行軌跡、執(zhí)行程序、基本特征進行了詳細的記錄和規(guī)則集合匯總。因此能夠以病毒演化和攻擊規(guī)則來識別病毒特征,加強防御系統(tǒng)的識別效果。其中極為重要的聚類分析算法,更是將病毒攻擊路徑中差異度極小的數(shù)據(jù)特征進行了更為詳細的歸納。當不同執(zhí)行程序同時運行時,其數(shù)據(jù)信息的應用頻次、后臺處理條件、復雜程度、復制速度均為識別惡意代碼的客觀規(guī)律,因此可以為計算機安全防御系統(tǒng)提供更為直接的對比參照,支持對于病毒類型的快速識別。
決策模塊在數(shù)據(jù)挖掘過程中起到了極為關鍵的作用,是以數(shù)據(jù)類型的匹配程度來判定規(guī)則庫信息符合度的制約條件。此前,360防火墻對于騰訊軟件的識別度較低,以至于誤判其病毒屬性,導致提示系統(tǒng)卸載并不存在病毒特征的軟件系統(tǒng)。其本質因素便是決策模塊的功能并未健全,對于規(guī)則運算條件的約束力不足。在全新的勒索病毒以加密算法庫為載體,實時對應腳本文件的Http請求,讀取或下載遠程服務器文件的特征中,失去對于病毒類型的決策效率,也相當于為病毒侵襲提供了遍歷終端系統(tǒng)文件的優(yōu)勢。因此,在防御計算機病毒的整體機制中,雖然數(shù)據(jù)挖掘技術歸納了相當全面的病毒特征,但是也需要就其決策模塊的適應度和考察方向加以調整,否則系統(tǒng)誤判的情況仍然會導致數(shù)據(jù)類型不匹配的情況,最終造成病毒侵蝕數(shù)據(jù)庫盜取重要文件的不利影響[3]。
數(shù)據(jù)預處理方案是在病毒特征信息和決策條件均已完備之后的最終數(shù)據(jù)處理結果,可以將其視為分析歸類的最終審核,或者是對于開展數(shù)據(jù)信息時的最后特征驗證。例如將端口信息、IP地址信息、目標IP地址等基礎信息類型進行整理、歸納、集合,并最終呈現(xiàn)在網(wǎng)絡防御系統(tǒng)之中。這樣的數(shù)據(jù)信息處理流程,增加了多重驗證病毒信息的操作方案,可以為防御系統(tǒng)提供更為可靠的數(shù)據(jù)參量或驗證指標。因此,通過數(shù)據(jù)預處理方案的最終判定也能夠加強數(shù)據(jù)挖掘的整體效果,進而精準描述病毒類型的原始特征,增強其防御系統(tǒng)的識別度和精準度。
綜上所述,計算機系統(tǒng)本身的漏洞并無法直接消除,在與病毒不斷博弈的的過程中逐步完善之后,才能規(guī)避病毒攻擊。因此,借助數(shù)據(jù)挖掘技術能夠加強計算機防御系統(tǒng)的安全性,通過快速識別病毒類型及其基本屬性提供更為可靠的參考數(shù)據(jù)支持。
[1]李嘉嘉.淺談數(shù)據(jù)挖掘在計算機網(wǎng)絡病毒防御中的應用[J].網(wǎng)絡安全技術與應用,2017,(08):84+89.
[2]張燕.數(shù)據(jù)挖掘技術在計算機網(wǎng)絡病毒防御中的應用探究[J].太原城市職業(yè)技術學院學報,2016,(04):174-176.
[3]唐穎.數(shù)據(jù)挖掘技術在計算機網(wǎng)絡病毒防御中的運用[J].信息與電腦(理論版),2015,(21):133-134.