韓明軒
(中國科學(xué)院大學(xué)工程科學(xué)學(xué)院,北京 100089)
如今由于科技的飛速進(jìn)步,使得大型計(jì)算機(jī)網(wǎng)絡(luò)越來越完善,可以讓更多的人體會到網(wǎng)絡(luò)和科技的發(fā)達(dá)。目前網(wǎng)絡(luò)已成為我們生活和工作必不可少的一部分,雖然大型計(jì)算機(jī)網(wǎng)絡(luò)給我們帶來了很多的便捷,但是其安全方面卻給我們帶來了很大的隱患,特別是網(wǎng)絡(luò)入侵現(xiàn)象經(jīng)常發(fā)生。
數(shù)據(jù)挖掘技術(shù)主要是把關(guān)鍵的、隱藏的內(nèi)容在有所干擾的隨機(jī)數(shù)據(jù)集群里挖掘出來,此項(xiàng)技術(shù)屬于一種交匯的技術(shù),其所挖掘出的數(shù)據(jù)存在很大的輔助和抉擇效果。因此,把此種技術(shù)用到大型計(jì)算機(jī)網(wǎng)絡(luò)中的非正常數(shù)據(jù)挖掘當(dāng)中,可以有效地管控原始數(shù)據(jù),給用戶帶來很多優(yōu)勢。此項(xiàng)技術(shù)首先要對大型計(jì)算機(jī)網(wǎng)絡(luò)中的初始數(shù)據(jù)展開處理,處理環(huán)節(jié)主要為數(shù)據(jù)洗滌以及格式轉(zhuǎn)換。其中數(shù)據(jù)洗滌是為了消除初始數(shù)據(jù)里的噪音、重疊數(shù)據(jù)以及缺少的數(shù)據(jù);格式轉(zhuǎn)換是為了讓洗滌以后的數(shù)據(jù)特征更為突出,以增強(qiáng)非正常數(shù)據(jù)挖掘的精準(zhǔn)程度。
現(xiàn)如今,隨著科學(xué)技術(shù)的不斷發(fā)展,對大型計(jì)算機(jī)網(wǎng)絡(luò)的數(shù)據(jù)挖掘技術(shù)的要求也越來越高,非正常數(shù)據(jù)挖掘系統(tǒng)要根據(jù)實(shí)際情況來設(shè)計(jì),這樣才能確保大型計(jì)算機(jī)網(wǎng)絡(luò)的整體安全。此系統(tǒng)的構(gòu)成主要為數(shù)據(jù)挖掘器、分析模塊以及數(shù)據(jù)庫。首先,數(shù)據(jù)挖掘器。它是安于其特定節(jié)點(diǎn)的,以隨時(shí)監(jiān)管網(wǎng)絡(luò)運(yùn)行中非正常的現(xiàn)象,同時(shí)對其展開處理。其次,分析模塊。它是負(fù)責(zé)分析經(jīng)過數(shù)據(jù)挖掘器處理后的數(shù)據(jù)的,更加深入的挖掘出非正常數(shù)據(jù)。最后,數(shù)據(jù)庫。它是前兩項(xiàng)提供處理以及方案的。
對于大型計(jì)算機(jī)網(wǎng)絡(luò)非正常數(shù)據(jù)挖掘系統(tǒng)來說,數(shù)據(jù)挖掘器屬于大型計(jì)算機(jī)網(wǎng)絡(luò)初始數(shù)據(jù)的接收部位,來取得數(shù)據(jù)挖掘技術(shù)里的信息,在數(shù)據(jù)挖掘器運(yùn)行之前,數(shù)據(jù)庫會先依照大型計(jì)算機(jī)網(wǎng)絡(luò)中的初始數(shù)據(jù)特性來設(shè)計(jì)挖掘計(jì)劃,與此同時(shí)展開驅(qū)動(dòng),這里需要強(qiáng)調(diào)的是數(shù)據(jù)挖掘器是按照計(jì)劃進(jìn)行工作的,按照相應(yīng)的計(jì)劃對數(shù)據(jù)進(jìn)行轉(zhuǎn)化和處理,數(shù)據(jù)最終會保留下來。數(shù)據(jù)挖掘器具有許多優(yōu)勢,這里需要提到的是數(shù)據(jù)挖掘器的自我檢查屬性,這種屬性可以最大程度的滿足各類顧客的需求和要求,如果沒有達(dá)到顧客的滿意,數(shù)據(jù)會保存在緩存器中,等待新的數(shù)據(jù)出現(xiàn),系統(tǒng)會立即立即驅(qū)動(dòng)數(shù)據(jù)挖掘器,最終達(dá)到所需的要求。大型計(jì)算機(jī)網(wǎng)絡(luò)中非正常挖掘系統(tǒng)的分析模塊功能強(qiáng)大,這個(gè)模塊會對數(shù)據(jù)處理器的最終結(jié)果進(jìn)行探究。為加大系統(tǒng)的擴(kuò)展屬性,則需全面應(yīng)用系統(tǒng)的計(jì)算節(jié)點(diǎn),以降低節(jié)點(diǎn)的失效率,對此便研發(fā)出了二次激活的方法,來加大系統(tǒng)計(jì)算節(jié)點(diǎn)的壽命。二次激活的的主要原理是當(dāng)系統(tǒng)計(jì)算節(jié)點(diǎn)出現(xiàn)問題和疲憊時(shí),分析模塊就會快速工作自動(dòng)的釋放補(bǔ)替節(jié)點(diǎn),這樣有利于疲憊的節(jié)點(diǎn)快速的恢復(fù)和調(diào)整。這里還需要強(qiáng)調(diào)的是分析模塊包含許多的替補(bǔ)節(jié)點(diǎn),當(dāng)節(jié)點(diǎn)失效時(shí)會自動(dòng)的尋找下一個(gè)適合的計(jì)算節(jié)點(diǎn),把補(bǔ)替節(jié)點(diǎn)和屬性類似的節(jié)點(diǎn)放在一起分析,是為了增強(qiáng)大型計(jì)算機(jī)網(wǎng)絡(luò)中的非正常數(shù)據(jù)挖掘系統(tǒng)擴(kuò)展程度,使結(jié)果更精確。
收斂性檢測方法是非常重要的,在大型計(jì)算機(jī)網(wǎng)絡(luò)中必須有具備極強(qiáng)收斂性的非正常數(shù)據(jù)挖掘技術(shù)方可確保其結(jié)果的精確。檢測收斂性的強(qiáng)弱直接影響整體的數(shù)據(jù)挖掘,因此,必須對收斂性的好壞做出一定的評估,展開相應(yīng)的實(shí)驗(yàn)。此次實(shí)驗(yàn)要借助某大型計(jì)算機(jī)網(wǎng)絡(luò)實(shí)驗(yàn)室,其中配備的設(shè)備要求為3GB的內(nèi)存、四核i7的處理器和500GB的硬盤,對主機(jī)輸入方法,同時(shí)加進(jìn)兩種類型的大數(shù)據(jù)集群,此兩種集群數(shù)據(jù)節(jié)點(diǎn)為4萬與80萬個(gè)。通過觀察數(shù)據(jù)節(jié)點(diǎn)可知:當(dāng)數(shù)據(jù)節(jié)點(diǎn)里的數(shù)據(jù)不發(fā)生波動(dòng)時(shí),這樣的情況就代表已經(jīng)收斂,這時(shí)主機(jī)就不會再向下傳遞數(shù)據(jù),這種方法就是收斂性。要是大數(shù)據(jù)里的數(shù)據(jù)節(jié)點(diǎn)較多,則收斂時(shí)間會較短。在這2種大數(shù)據(jù)集群里,收斂的時(shí)間分別是1.2s、4.3s。經(jīng)調(diào)查發(fā)生,其他方法的收斂時(shí)間主要為10.8s,這便體現(xiàn)出本次方法收斂性較好。
為檢測數(shù)據(jù)挖掘系統(tǒng)對大型計(jì)算機(jī)網(wǎng)絡(luò)中的非正常數(shù)據(jù)更新的情況,就必須對系統(tǒng)的可擴(kuò)展屬性展開檢測。本文主要對比的系統(tǒng)有Hadoop數(shù)據(jù)挖掘系統(tǒng)、并行圖算法數(shù)據(jù)挖掘系統(tǒng)。通過以上實(shí)驗(yàn)的基礎(chǔ),僅留存了大數(shù)據(jù)集群2,同時(shí)分別對橫向與縱向的集群數(shù)據(jù)節(jié)點(diǎn)隨機(jī)輸入了3萬個(gè)非正常數(shù)據(jù)。通過以上三種系統(tǒng)的使用,可以對大型計(jì)算機(jī)網(wǎng)絡(luò)中的數(shù)據(jù)進(jìn)行深度的挖掘,實(shí)驗(yàn)后發(fā)生這三個(gè)系統(tǒng)的縱向擴(kuò)展性都小于橫向。和另外兩個(gè)系統(tǒng)比,本系統(tǒng)的非正常數(shù)據(jù)挖掘節(jié)點(diǎn)非常多,而且節(jié)點(diǎn)失效率小,由此證實(shí)了本此設(shè)計(jì)的數(shù)據(jù)挖掘系統(tǒng)有很好的擴(kuò)展屬性。
通過上述內(nèi)容我們可知,我們能夠清楚本次所設(shè)計(jì)的新型大型計(jì)算機(jī)網(wǎng)絡(luò)中的非正常數(shù)據(jù)挖掘技術(shù)不僅有極強(qiáng)的收斂性,而且也具有較強(qiáng)的擴(kuò)展屬性,能夠把大型計(jì)算機(jī)網(wǎng)絡(luò)中的非正常數(shù)據(jù)精確、可靠的挖掘出來。