(安徽三聯(lián)學(xué)院計算機工程學(xué)院 安徽 合肥 230601)
互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展,使其逐漸滲透至各個領(lǐng)域之中,尤其是在數(shù)據(jù)采集、處理與傳輸?shù)确矫?,互?lián)網(wǎng)技術(shù)具有其他技術(shù)所無比擬的應(yīng)用優(yōu)勢。隨著互聯(lián)網(wǎng)技術(shù)在各個領(lǐng)域中的普及與應(yīng)用,互聯(lián)網(wǎng)安全問題也已成為民眾關(guān)注的焦點,而校園作為教書育人的重要場所,其校園安全更應(yīng)得到人們的重視。如何在校園中建立健全而完善的網(wǎng)絡(luò)安全保護機制,防范校園中重要數(shù)據(jù)的丟失與竊取,需要校園予以高度的重視。而機器學(xué)習(xí)在校園安全中更是發(fā)揮著至關(guān)重要的作用。
機器學(xué)習(xí)是人工智能技術(shù)中的核心內(nèi)容,其能夠?qū)θ祟愋袨檫M行有效模擬,學(xué)習(xí)人類的行為來賦予計算機更多地功能,豐富計算機的數(shù)據(jù)庫,使計算機變得更加智能,從而優(yōu)化計算機的結(jié)構(gòu)性能。機器學(xué)習(xí)可以看作是一種智能化的處理過程,其能夠使機器像人類一樣進行學(xué)習(xí),但其是怎樣學(xué)習(xí)的呢,對于這一點,許多學(xué)者都從不同角度進行了研究,并且至今尚未形成一個統(tǒng)一的意見。不過,總體來說,機器學(xué)習(xí)和推理過程之間具有十分密切的聯(lián)系,這也得到了許多專家和學(xué)者的肯定與認同,因此,對于機器學(xué)習(xí)來說,可按照其策略性的不同將其劃分為以下幾類,包括事例學(xué)習(xí)、機械學(xué)習(xí)、類比學(xué)習(xí)以及傳授學(xué)習(xí)等,考慮到計算機有著復(fù)雜的功能,因此對于機器學(xué)習(xí)來說,其所涵蓋的范圍也比較廣泛,通過不同知識、不同技術(shù)的結(jié)合運用,從而使機器具有學(xué)習(xí)能力,在這些知識和技術(shù)中,概率論、算法復(fù)雜度理論、凸分析以及統(tǒng)計學(xué)等都是機器學(xué)習(xí)所涉及到的專業(yè)學(xué)科,按照機器學(xué)習(xí)的類別,大致可將其劃分成五種,第一種是根據(jù)學(xué)習(xí)策略來進行分類,如類比學(xué)習(xí)、歸納學(xué)習(xí)、示教學(xué)習(xí)、機械學(xué)習(xí)等,第二種是根據(jù)獲取到的知識來進行分類,例如決策樹、形式邏輯表達式、過程編碼、產(chǎn)生式規(guī)則,計算機程序、代數(shù)表達式參數(shù)等,第三種是根據(jù)機器學(xué)習(xí)的應(yīng)用領(lǐng)域來進行分類,例如數(shù)據(jù)挖掘、自然語言、信息服務(wù)、專家系統(tǒng)等都是機器學(xué)習(xí)的應(yīng)用領(lǐng)域,第四種是綜合性分類,例如遺傳算法、歸納學(xué)習(xí)、增強學(xué)習(xí)等都屬于綜合性分類,第五種是按照學(xué)習(xí)形式來進行分類,例如監(jiān)督與非監(jiān)督式學(xué)習(xí)便是以學(xué)習(xí)形式來分類的。
面對校園網(wǎng)絡(luò)安全形勢愈發(fā)嚴峻的現(xiàn)狀,為了進行有效應(yīng)對,防止校園網(wǎng)絡(luò)安全問題的頻繁發(fā)生,就必須要在計算機中應(yīng)用相應(yīng)的安全防護技術(shù),這對于確保校園安全具有非常重要的意義。機器學(xué)習(xí)是校園安全中的核心技術(shù)之一,其能夠有效保護校園網(wǎng)絡(luò)不會遭受到惡意攻擊,由于機器學(xué)習(xí)能力直接決定著校園網(wǎng)絡(luò)系統(tǒng)的安全防護能力,因此在應(yīng)用機器學(xué)習(xí)來對校園網(wǎng)絡(luò)進行安全檢測時,其功能模塊主要分為數(shù)據(jù)采集模塊、數(shù)據(jù)處理模塊和機器學(xué)習(xí)模塊,在此過程中,機器學(xué)習(xí)模塊在其中發(fā)揮著至關(guān)重要的作用,數(shù)據(jù)采集模塊能夠?qū)π@網(wǎng)絡(luò)的安全情況進行實時動態(tài)的追蹤與檢測,判斷外部網(wǎng)絡(luò)中是否存在惡意信息或惡意攻擊,并通過TCP/IP來對網(wǎng)絡(luò)信息進行截取與判斷,這也是大部分校園在網(wǎng)絡(luò)安全檢測中的基礎(chǔ)技術(shù)。數(shù)據(jù)處理模塊則能夠?qū)?shù)據(jù)采集模塊所截取到的信息進行相應(yīng)的處理,使截取信息中含有的重復(fù)數(shù)據(jù)與錯誤信息得到有效的過濾和篩選,以此確保校園網(wǎng)絡(luò)系統(tǒng)的運行高效性,確保安全檢測功能的完善。對于機器學(xué)習(xí)模塊,其也是校園安全檢測系統(tǒng)中的核心模塊,該模塊發(fā)揮著至關(guān)重要的功能,通過該模塊可記憶和學(xué)習(xí)入侵與攻擊,從而實現(xiàn)對網(wǎng)絡(luò)攻擊和非法入侵進行有效檢測的目的。在校園安全檢測系統(tǒng)中,其主要由五個組成部分組成,分別是數(shù)據(jù)源、數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、機器學(xué)習(xí)和處理結(jié)果反饋。無論是在數(shù)據(jù)處理,還是在數(shù)據(jù)反饋,機器學(xué)習(xí)都表現(xiàn)出良好的兼容性,而且在安全檢測中有著巨大的應(yīng)用潛力,這也使機器學(xué)習(xí)成為校園網(wǎng)絡(luò)安全防護中的核心技術(shù),并得到了迅猛的發(fā)展。
在校園安全檢測中,決策樹作為機器學(xué)習(xí)中的一種關(guān)鍵應(yīng)用算法,其有著廣泛的使用范圍,并且應(yīng)用效果較好,并在校園安全檢測中得到了廣泛的應(yīng)用。以決策樹為核心算法的機器學(xué)習(xí),可使網(wǎng)絡(luò)中的惡意信息被有效攔截,然后以從根節(jié)點至葉子節(jié)點的原則來排列惡意信息,使其成為一個二叉樹式,對于后續(xù)可能產(chǎn)生的網(wǎng)絡(luò)入侵,可通過分支葉子節(jié)點來與之進行逐一對應(yīng)。當(dāng)校園網(wǎng)絡(luò)受到攻擊或入侵時,機器學(xué)習(xí)可評測入侵或攻擊的形式特征,掌握其后續(xù)發(fā)展,然后結(jié)合校園網(wǎng)絡(luò)的實際安全情況來測試節(jié)點的屬性,并將節(jié)點當(dāng)作根來進行子樹重復(fù)。對于決策樹算法在1986年時便已經(jīng)提及,在那個時期所提出的ID3算法和現(xiàn)代所研究出的二叉樹算法總體上是比較接近的,其都是通過節(jié)點運算來進行安全檢測的算法,不過,ID3算法則屬于決策樹中一種頗具代表性和典型性的算法,不過因ID3算法在安全檢測中難以滿足其數(shù)據(jù)規(guī)格的要求,并且所面臨的數(shù)據(jù)種類多種多樣,這也使人們在ID3算法的基礎(chǔ)上研究出C4.5算法,該算法可以看成是ID3算法的另一種延續(xù),并且其更能有效用于安全檢測,現(xiàn)如今在許多校園中都已開始應(yīng)用C4.5算法來進行網(wǎng)絡(luò)安全檢測。
在互聯(lián)網(wǎng)與現(xiàn)代化信息技術(shù)的發(fā)展下,神經(jīng)網(wǎng)絡(luò)已經(jīng)成為校園安全中一種用于安全檢測的重要技術(shù)手段,其也是所有技術(shù)中復(fù)雜性最高的一種技術(shù)。神經(jīng)網(wǎng)絡(luò)可模擬人腦的部分功能,利用運作單元對人腦中用于處理信息的神經(jīng)元進行代替,通過對大量的運作單元附加高度權(quán)值,以此形成相應(yīng)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),考慮到神經(jīng)網(wǎng)絡(luò)中包含著海量的運作單元,因此在對神經(jīng)網(wǎng)絡(luò)進行構(gòu)建時,需要利用權(quán)值或邏輯關(guān)系將各個運作單元連接起來,這樣在應(yīng)用神經(jīng)網(wǎng)絡(luò)來進行安全檢測時,神經(jīng)網(wǎng)絡(luò)能夠快速識別和預(yù)處理校園網(wǎng)絡(luò)中存在的各類信號,從而在校園網(wǎng)絡(luò)出現(xiàn)安全事件時能夠做到迅速止損。現(xiàn)如今,神經(jīng)網(wǎng)絡(luò)已經(jīng)成為校園安全中一種直觀而有效的方法。神經(jīng)網(wǎng)絡(luò)能夠利用誤差補償機制來發(fā)揮其有效性,當(dāng)校園安全檢測過程中發(fā)現(xiàn)存在惡意信息時,會使神經(jīng)網(wǎng)絡(luò)對信息的輸入與輸出發(fā)生失衡,此時神經(jīng)網(wǎng)絡(luò)會自動調(diào)節(jié)和運作各個神經(jīng)單元,使節(jié)點網(wǎng)絡(luò)得到及時有效的補充。
支持向量機可以看成是一種分類器,需要在特征空間內(nèi)探尋對應(yīng)的超平面,利用超平面來對兩個類進行分割,同時還要確保各個類有著最大的邊緣距離。一般來說,支持向量機屬于一種二分類模型,其機器學(xué)習(xí)的策略是進行最大間隔,從而使復(fù)雜的問題被轉(zhuǎn)化成凸二次規(guī)劃問題,通過求解凸二次規(guī)劃問題來達到間接解決復(fù)雜問題的目的。支持向量機在進行分類時所遇到的問題主要包括三種,分別是線性不可分問題、近似線性可分問題以及線性可分問題。其中,線性不可分問題指的是無法利用單獨的線性分類器來對單個數(shù)據(jù)集進行分類,在應(yīng)用支持向量機來進行機器學(xué)習(xí)時,往往會經(jīng)常產(chǎn)生線性不可分問題,例如在利用支持向量機進行人臉識別時,便是非常典型的線性不可分問題。在應(yīng)用支持向量機來解決問題時,核函數(shù)是其常用的解決方法,通過在高維空間中對樣例特征進行映射,可能會出現(xiàn)因映射維度過高而造成計算過于復(fù)雜,而通過使用核函數(shù),則可對樣例特征進行映射之前,對其進行低維計算,然后在高維上來表現(xiàn)分類效果,這樣便可使計算復(fù)雜程度得到有效簡化。相比于神經(jīng)網(wǎng)絡(luò)來說,支持向量機在機器學(xué)習(xí)中能夠?qū)?fù)雜問題用凸優(yōu)化問題進行表示,然后通過現(xiàn)有的算法來對凸優(yōu)化問題的目標(biāo)函數(shù)中存在的全局最小值進行求解。而神經(jīng)網(wǎng)絡(luò)則是通過貪心學(xué)習(xí)的方式來對局部最優(yōu)解進行求解的。在校園安全中應(yīng)用支持向量機時,即使沒有豐富的先驗知識,支持向量機也能獲得良好的分類正確率,而且其推廣能力非常強。所謂推廣能力,是指結(jié)合以往的經(jīng)驗可推斷出其規(guī)律,并根據(jù)學(xué)習(xí)到的規(guī)律來預(yù)測校園網(wǎng)絡(luò)中未知行為的發(fā)展。
相比于決策樹、神經(jīng)網(wǎng)絡(luò),貝葉斯理論并不依賴于硬件系統(tǒng)的檢測性能與算法的優(yōu)劣性,貝葉斯理論的應(yīng)用效果是由推理理論和概率手段所決定的,目前在校園安全檢測中已經(jīng)普遍采用貝葉斯理論來進行假設(shè)和推理,這也使其成為機器學(xué)習(xí)中的一種非常重要的方法,并且為不同機器學(xué)習(xí)算法在校園安全中的有效應(yīng)用提供了大量的理論依據(jù)??紤]到貝葉斯理論在邏輯性上會有著一定的寬容性,這也使貝葉斯理論能夠在校園安全形勢不確定的情況下提供可靠的理論支撐。貝葉斯理論在機器學(xué)習(xí)中是一種不需要進行監(jiān)督的理論體系,其能夠根據(jù)已發(fā)生的安全事件來按照相應(yīng)的序列進行排列和分析,并對已知序列采取細致的分析和類比。在現(xiàn)代化信息技術(shù)不斷發(fā)展的今天,在校園安全問題檢測中,貝葉斯理論有著其獨特的生存依據(jù)。
機器學(xué)習(xí)在校園安全中有效應(yīng)用于校園網(wǎng)絡(luò)的安全入侵檢測,機器學(xué)習(xí)在應(yīng)用過程中不會對校園網(wǎng)絡(luò)的性能造成影響,也不會影響用戶對計算機的操作與使用,其能夠分析與檢測校園網(wǎng)絡(luò)中的安全日志與運行數(shù)據(jù)等信息,進而分析校園網(wǎng)絡(luò)的安全狀況,判斷是否存在安全威脅,從而使校園網(wǎng)絡(luò)得到實時的安全防護。機器學(xué)習(xí)具有智能化的特點,將其應(yīng)用于安全入侵檢測中,可大大增強安全入侵檢測的準確率與靈敏度,從而使系統(tǒng)能夠在很短的時間內(nèi)對潛在的安全威脅進行準確的檢測,并針對安全威脅的危害程度進行有針對性的防護,從而最大限度的降低惡意攻擊給校園網(wǎng)絡(luò)造成的不利影響。在校園安全入侵檢測中,人們還普遍應(yīng)用神經(jīng)網(wǎng)絡(luò)來實現(xiàn)系統(tǒng)的入侵檢測功能,神經(jīng)網(wǎng)絡(luò)具有較強的適應(yīng)性,其能夠?qū)τ脩舻南到y(tǒng)操作行為進行實時記錄,并能夠較好的檢測出校園網(wǎng)絡(luò)所面臨的入侵種類,然后及時向安全管理人員反饋檢測結(jié)果。因神經(jīng)網(wǎng)絡(luò)不會依賴于假設(shè)的已知數(shù)據(jù)類型,這也使其往往能夠在誤用檢測中進行應(yīng)用,并取得較為理想的應(yīng)用效果。在應(yīng)用神經(jīng)網(wǎng)絡(luò)算法進行校園安全入侵檢測時,其能夠記錄和分類用戶行為所產(chǎn)生的各種基本特征,以此判斷用戶的行為特征是否具有合法性,如果用戶的行為特征不合法,則系統(tǒng)會自動將該操作行為判定為非法行為,然后觸發(fā)入侵檢測。神經(jīng)網(wǎng)絡(luò)正是憑借該應(yīng)用機理,使其被廣泛應(yīng)用于校園安全入侵檢測工作中。除了神經(jīng)網(wǎng)絡(luò)之外,還可通過貝葉斯理論來對校園安全入侵行為進行檢測,其甚至還可檢測到與校園安全入侵行為有關(guān)聯(lián)的其他行為或事件。貝葉斯理論在機器學(xué)習(xí)中具有非常強的學(xué)習(xí)能力,這也使其同樣適用于校園安全入侵檢測。
在校園安全中,機器學(xué)習(xí)也可以應(yīng)用于垃圾郵件檢測,機器學(xué)習(xí)對垃圾郵件的檢測可以當(dāng)作是一種分類問題,其可將校園中的郵件在{-1,1}中進行整體定義,其中垃圾郵件由1來進行表示,而非垃圾郵件則由-1進行表示,郵件檢測主要步驟如圖1所示:
圖1 郵件檢測主要步驟
針對垃圾郵件的文本分類問題,可借助于相應(yīng)的數(shù)值來表達垃圾郵件中含有的文本信息,從而使不同消息能夠用來表示向量,對于垃圾郵件來說,其特征值通常在不同特征向量中進行集中表現(xiàn),并且因為機器學(xué)習(xí)在檢測垃圾郵件時是通過在線檢測來實現(xiàn)的,因此通過機器學(xué)習(xí)來對郵件進行分類與識別,可使校園網(wǎng)絡(luò)在檢測垃圾郵件時的效率大幅提升,有效減少了檢測錯誤或無法檢測的現(xiàn)象出現(xiàn)。
在校園安全中,惡意域名檢測是機器學(xué)習(xí)的核心應(yīng)用之一,對于校園網(wǎng)絡(luò)來說,其域名系統(tǒng)往往會成為黑客的攻擊對象,也可能會充當(dāng)黑客的攻擊工具。這也使域名系統(tǒng)安全成為校園安全中的重要研究熱門,在以往的惡意域名檢測中,主要是通過攔截名單或惡意域名黑名單來進行檢測的,這種檢測方法非常容易被黑客繞過。隨后,人們又研究出查詢請求數(shù)來進行檢測的方法,不過該方法不僅誤報率很高,而且一旦遇到未知的異常域名,便難以將其檢測出來。目前,通過機器學(xué)習(xí)的應(yīng)用來對惡意域名檢測的相關(guān)規(guī)則進行構(gòu)建,已經(jīng)成為我國網(wǎng)絡(luò)安全領(lǐng)域的未來發(fā)展趨勢。在校園安全中,針對惡意域名的檢測問題,在應(yīng)用機器學(xué)習(xí)時,往往會將在線模型與離線模型進行結(jié)合使用,其將所有域名當(dāng)作訓(xùn)練數(shù)據(jù)集,然后通過離線模型來進行訓(xùn)練,并從中提取出域名的網(wǎng)絡(luò)特征、時間特征、區(qū)域特征、TTL特征以及DNS應(yīng)答特征等,然后通過X-Means聚類算法或決策樹算法來對相應(yīng)的訓(xùn)練模型進行構(gòu)建,并通過malwareurl.com、NortonSafeWeb等已知域名來驗證訓(xùn)練模型,使模型中的相關(guān)參數(shù)得到有效調(diào)整。在線檢測模型可以實時分析采集的域名流量,并通過被動域名查詢來提取對應(yīng)的域名特征,判斷域名信息是否已知,如果是已知域名,則會利用在線檢測模型來進行繼續(xù)訓(xùn)練,如果是未知域名,則在訓(xùn)練后的分類器中進行輸入來判別該域名,以此分析該域名是否屬于惡意域名。例如,在惡意域名檢測中,可采用X-Means聚類算法來聚類域名的區(qū)域行為特征與網(wǎng)絡(luò)特征,以此獲得域名的特征向量,根據(jù)其證據(jù)特征向量,通過決策樹來評價新域名,域名評分通過{0,1}來進行表示,其中惡意域名由0進行表示,正常域名則用1來進行表示。網(wǎng)絡(luò)特征是模型建立的依據(jù),針對系統(tǒng)中可能存在的新地址空間映射的惡意域名,可以從所有已知域名中對短期域名、IP地址數(shù)量、共享IP數(shù)量、域名長度、訪問比例、TTL值等行為特征進行提取,然后通過J4.8算法對決策樹進行構(gòu)建,如果利用C4.5算法來對決策樹進行構(gòu)建,則需要利用開源機器學(xué)習(xí)軟件Weka,這種檢測方式不僅不需要構(gòu)建歷史惡意數(shù)據(jù)的訓(xùn)練模型,而且數(shù)據(jù)訓(xùn)練所消耗的訓(xùn)練時間以及訓(xùn)練的數(shù)據(jù)量都相對較少,此外還不會受到較多條件的限制。
總而言之,機器學(xué)習(xí)在校園安全中發(fā)揮著至關(guān)重要的作用,其能夠顯著提高校園網(wǎng)絡(luò)的安全管理水平,在校園中有著巨大的應(yīng)用前景。校園應(yīng)進一步加強機器學(xué)習(xí)在網(wǎng)絡(luò)安全中的應(yīng)用,高度重視校園安全管理中出現(xiàn)的各種安全問題,確保機器學(xué)習(xí)的應(yīng)用策略具有針對性,以此保障校園網(wǎng)絡(luò)安全,最大限度的防范網(wǎng)絡(luò)安全事件的發(fā)生。