馮洋洋
(鄭州工業(yè)應(yīng)用技術(shù)學院,新鄭 451100)
網(wǎng)絡(luò)爬蟲又稱網(wǎng)頁機器人,根據(jù)用戶在計算機上登錄網(wǎng)頁的記錄,找尋對應(yīng)網(wǎng)頁的鏈接,可近似的看作一種網(wǎng)頁追蹤引擎[1]。若教學系統(tǒng)被黑客攻擊,教學資源或發(fā)布消息被隨意篡改,極易對高校的正常運營造成很大的影響,因此開展基于網(wǎng)絡(luò)爬蟲的教學系統(tǒng)惡意篡改檢測系統(tǒng)的研究是具有十分現(xiàn)實的意義的。
為了提升教學系統(tǒng)持續(xù)運行的安全性,對于教學系統(tǒng)的篡改情況可自動檢測,滿足設(shè)計系統(tǒng)的實用性功能,以下將結(jié)合 技術(shù)對教學系統(tǒng)進行解析,具體框架設(shè)計如圖1所示。
圖1 檢測系統(tǒng)整體框架
如圖1所示,為基于網(wǎng)絡(luò)爬蟲的教學系統(tǒng)惡意篡改檢測系統(tǒng)的整體框架,采用由頂部至底部的設(shè)計方法,最上層為顯示層,為用戶登錄頁面,也是系統(tǒng)為用戶展示的主界面,由后臺管理員負責用戶的注冊、賬號及密碼管理,主要功能是對域名、教學資源的管理。系統(tǒng)框架中層是業(yè)務(wù)層,主要進行教學系統(tǒng)中信息的發(fā)布、資源的上傳等操作,同時業(yè)務(wù)層中包含網(wǎng)絡(luò)爬蟲的源代碼,在該層面上可進行對應(yīng)代碼的刪除、修改及增添,除此之外還可以進一步檢測教學系統(tǒng)中是否被插入暗鏈,根據(jù)暗鏈在業(yè)務(wù)層的功能實現(xiàn)基于網(wǎng)絡(luò)爬蟲對教學系統(tǒng)的安全監(jiān)測,滿足系統(tǒng)功能的實現(xiàn)[2]。最底層為系統(tǒng)的數(shù)據(jù)層,數(shù)據(jù)層中包含教學數(shù)據(jù)庫及檢測數(shù)據(jù)庫,已經(jīng)教學系統(tǒng)中網(wǎng)站被惡意篡改后,教學資源數(shù)據(jù)庫將會自動保存被篡改前的原版網(wǎng)頁,確保數(shù)據(jù)的安全性,同時檢測數(shù)據(jù)庫用于保存系統(tǒng)進行檢測過程中的所有操作步驟,確保出現(xiàn)同種惡意入侵時,系統(tǒng)可在最短時間內(nèi)做出反應(yīng)。
結(jié)合上述對基于網(wǎng)絡(luò)爬蟲的教學系統(tǒng)惡意篡改檢測系統(tǒng)的設(shè)計,以下將進行對應(yīng)的硬件設(shè)計,為系統(tǒng)的持續(xù)穩(wěn)定運行提供平臺[3]。根據(jù)對應(yīng)教學系統(tǒng)在各個高校中的運行環(huán)境,使用32位進制的Windows 17操作系統(tǒng),結(jié)合AIR技術(shù)開發(fā)系統(tǒng)的腳本解釋器,同時選擇Python2.6.7型號的記憶芯片,采用50~80MHz 和2.40MHz的時鐘源為系統(tǒng)提供256kB 的在線運行內(nèi)存,確保系統(tǒng)的持續(xù)運行,使用i7計算機處理器,同時配備超過128GB 的外設(shè)硬盤,實現(xiàn)交互式系統(tǒng)的檢測。
基于上述對軟件運行平臺的搭建,以下將進行系統(tǒng)軟件運行環(huán)境的選擇,設(shè)計系統(tǒng)的頁面及模塊結(jié)構(gòu),同時構(gòu)建數(shù)據(jù)庫對數(shù)據(jù)進行存儲。
基于網(wǎng)絡(luò)爬蟲的教學系統(tǒng)惡意篡改檢測系統(tǒng)的軟件功能模塊主要包括數(shù)據(jù)收集、存儲模塊及網(wǎng)絡(luò)爬蟲調(diào)度模塊三個模塊,以下將結(jié)合上述三個模塊在系統(tǒng)中的功能進行對應(yīng)的設(shè)計。首先,系統(tǒng)軟件的功能均在業(yè)務(wù)層進行實現(xiàn),主要結(jié)合網(wǎng)絡(luò)爬蟲基于互聯(lián)網(wǎng)狀況良好的條件下對教學系統(tǒng)中多個網(wǎng)頁內(nèi)關(guān)鍵詞、重點數(shù)據(jù)的收集,利用數(shù)據(jù)庫存儲數(shù)據(jù)的功能,將收集的數(shù)據(jù)分類存儲。其次為網(wǎng)絡(luò)爬蟲調(diào)度模塊,也是檢測系統(tǒng)中的核心模塊,主要分為網(wǎng)絡(luò)域名子模塊、源代碼下載子模塊及網(wǎng)頁鏈接提純子模塊,三個模塊之間的工作相輔相成,具體工作流程如圖2所示。
圖2 網(wǎng)絡(luò)爬蟲調(diào)度模塊工作流程圖
如圖2所示,為網(wǎng)絡(luò)爬蟲調(diào)度模塊的工作流程,初始化條件下的UML 控制模塊只有一個網(wǎng)絡(luò)爬蟲進入端口,此時可采用下載源代碼子模塊的方式對網(wǎng)頁中源代碼進行下載,結(jié)合網(wǎng)頁中的對應(yīng)鏈接對網(wǎng)頁中關(guān)鍵字進行有效提取,并將提取后的鏈接、關(guān)鍵字放入UML 控制面板中,進行數(shù)據(jù)的進行數(shù)據(jù)的分析。
結(jié)合上述對系統(tǒng)功能模塊的設(shè)計,對于數(shù)據(jù)收集處理模塊中的大批量數(shù)據(jù)、教學系統(tǒng)中的大量教學資源均需要一個相對完善的數(shù)據(jù)庫,進行對應(yīng)的數(shù)據(jù)存儲、管理。檢測人員在教學系統(tǒng)惡意篡改檢測前期,應(yīng)將未被篡改的資源或網(wǎng)頁存儲在數(shù)據(jù)庫中,作為網(wǎng)頁被篡改后的對比[5]。為了提升工作人員網(wǎng)頁檢測時搜索網(wǎng)頁的速度,可將所有檢索過教學系統(tǒng)中教育官網(wǎng)或教學平臺的域名存儲至數(shù)據(jù)庫中,進行二次搜索時,便可直接通過數(shù)據(jù)進入該網(wǎng)站。當教學系統(tǒng)中某一固定網(wǎng)站被確定不需要檢測時,可在數(shù)據(jù)庫中刪除對應(yīng)網(wǎng)站的域名或進入路徑。當確定教學系統(tǒng)中某一網(wǎng)站經(jīng)過正規(guī)人員修改后,需要重新利用網(wǎng)絡(luò)爬蟲搜索該網(wǎng)頁中的關(guān)鍵詞匯或關(guān)鍵數(shù)值,將原數(shù)值在數(shù)據(jù)庫中刪除,將最新構(gòu)建的數(shù)值添加到數(shù)據(jù)庫中對應(yīng)的表結(jié)構(gòu)中。若教學系統(tǒng)中重新添加新網(wǎng)頁或教學平臺,也可與數(shù)據(jù)庫建立新的連接。
根據(jù)用戶注冊時填寫的身份信息,確認對應(yīng)的實體屬性,便于后臺管理員對人員之間的管理,當用戶登陸過程中,系統(tǒng)將自動在數(shù)據(jù)庫中識別是否存在與登錄用戶相同的賬號密碼。根據(jù)建立的用戶信息表,設(shè)計教學系統(tǒng)中不同網(wǎng)站的屬性結(jié)構(gòu)。
通過對被檢測網(wǎng)頁的具體描述實現(xiàn)網(wǎng)絡(luò)爬蟲獲取網(wǎng)頁的能力,同時分析網(wǎng)頁中是否因為被插入暗鏈而被隨意篡改,將篡改前后的網(wǎng)頁分別進行對應(yīng)的信息對比,并存儲對應(yīng)的數(shù)據(jù)庫表中,實現(xiàn)基于網(wǎng)絡(luò)爬蟲的教學系統(tǒng)惡意篡改檢測系統(tǒng)的設(shè)計。
為了確保所設(shè)計檢測系統(tǒng)的有效性,整體實驗均在相同網(wǎng)絡(luò)環(huán)境下進行,針對某高校的教學系統(tǒng)進行了多次惡意篡改試驗,為保證整體實驗的嚴謹性,首先采用傳統(tǒng)的檢測方法對教學系統(tǒng)進行檢測,再用文章設(shè)計的基于網(wǎng)絡(luò)爬蟲的教學系統(tǒng)惡意篡改檢測系統(tǒng)對相同教學系統(tǒng)再次進行檢測,設(shè)置實驗組和普通組,采集5組檢測數(shù)據(jù),將數(shù)據(jù)分析處理如表1所示。
表1 教學系統(tǒng)惡意篡改檢測系統(tǒng)誤報率
通過表1分析,兩種方法對于教學系統(tǒng)惡意篡改的誤報率,可以得出結(jié)論:在同種外界環(huán)境下,采用相同的檢測方法,文章設(shè)計的基于網(wǎng)絡(luò)爬蟲的教學系統(tǒng)惡意篡改檢測系統(tǒng)對于惡意篡改的識別率較高,誤報率降低了約10%。
文章開展了基于網(wǎng)絡(luò)爬蟲的教學系統(tǒng)惡意篡改檢測系統(tǒng)設(shè)計。通過對系統(tǒng)頁面的、功能模塊及對應(yīng)數(shù)據(jù)庫的設(shè)計,實現(xiàn)系統(tǒng)整體框架的設(shè)計。相比傳統(tǒng)的檢測系統(tǒng),盡管誤報率已經(jīng)降低,但仍存在一些缺陷有待解決。例如,用戶在登錄時頁面所提供的驗證碼只有簡單的數(shù)字或圖片,對于扭曲度較高驗證碼的識別率較低,同時在頁面的結(jié)構(gòu)布置方面仍存在一些不足,在后期發(fā)展中,將會對系統(tǒng)中的存在的缺陷進一步完善并優(yōu)化,提高教學系統(tǒng)在應(yīng)用中的安全性。