劉芬
在線網(wǎng)絡日志分析系統(tǒng),可以有效的保證網(wǎng)絡安全管理。但是當前使用的網(wǎng)絡日志分析系統(tǒng)存在無法有效的處理大量的日志數(shù)據(jù)、處理過程用時較長等諸多問題。因此本文提出基于Hadoop下的在線網(wǎng)絡日志分析系統(tǒng),能有效的實現(xiàn)日志大數(shù)據(jù)的分級歸檔,更是實現(xiàn)了大數(shù)據(jù)的分級化存儲,有著較快的響應速度,具有較強的可行性和實用性。
【關鍵詞】Hadoop 在線網(wǎng)絡日志 系統(tǒng)設計
在計算機系統(tǒng)的網(wǎng)絡運行管理中,網(wǎng)絡安全問題尤為突出。那么加強網(wǎng)絡日志的管理,是實現(xiàn)和強化網(wǎng)絡安全管理的途徑。因此通過分析網(wǎng)絡日志,能有效的了解相關設備故障信息、運行背景及出現(xiàn)的多處異常信息數(shù)據(jù),從而及時的發(fā)現(xiàn)并解決故障,繼而很大程度的提高維修效率,節(jié)省了維護成本。Hadoop作為一種大數(shù)據(jù)的資源開發(fā)處理平臺,在近些年的飛速發(fā)展中,被廣泛的應用于多處領域。Hadoop在網(wǎng)絡日志的分析系統(tǒng)中也被得以廣泛的應用。Hadoop能夠較為有效的將傳統(tǒng)的網(wǎng)絡日志中無法解決問題得以處理,但是當前的Hadoop日志分析系統(tǒng)主要還是離線模式。因此本文通過提出在線網(wǎng)絡日志分析系統(tǒng),從而對構建大數(shù)據(jù)的在線分析系統(tǒng)有著重大的意義。
1 Hadoop在線日志分析系統(tǒng)設計
要想構建可以處理海量大數(shù)據(jù)的日志在線分析系統(tǒng),就需要設計該系統(tǒng)具備如下功能:
(1)其一就是可以不受時空限制的,實時接收儲存日志的數(shù)據(jù)信息,只有基于該種功能才能保證后續(xù)的分析功能實現(xiàn);
(2)其二要保證海量的信息數(shù)據(jù)得以有效管理,并且具備較高的信息功能拓寬性。日志數(shù)據(jù)的總量是持續(xù)不斷的增長的,那么該系統(tǒng)要想更好的實現(xiàn)存儲系統(tǒng)的維護,必然要保證日志數(shù)據(jù)的相關信息存儲是不會對系統(tǒng)功能造成較大的影響;
(3)其三就是需要及時的對用戶的需求進行響應,只有及時的完成響應,才能有效的達到所要完成的信息系統(tǒng)分析;
(4)其四就是整體的系統(tǒng)要保證一定的高效性。對于日志的功能分析主要是通過針對數(shù)據(jù)的整體操作從而完成的,對于具體的分析操作有相對穩(wěn)定的模式,無需過多改動;
(5)其五就是可以實現(xiàn)數(shù)據(jù)的分割定位,來更加高效的滿足用戶對于數(shù)據(jù)的查詢需求。
2 文件分級歸檔管理機制
在海量的數(shù)據(jù)日志中,系統(tǒng)想要完成大數(shù)據(jù)信息的儲存,無疑會極其耗時。那么在實際的大型網(wǎng)絡運用中,通過排除部分特殊的情況,對于絕大多數(shù)的業(yè)務,使得大部分的網(wǎng)絡日志信息得以處理。用戶通常對于某一時段某一日志信息的來源有所興趣,因此需要對大數(shù)據(jù)完成有效的分級歸檔化管理。
在日志的諸多數(shù)據(jù)組織中,日志的時間以及信息的大小是尤為重要必然考慮的因素。日志的時間與具體的使用價值存在較為密切的聯(lián)系,只有保證日志的時間越接近,那么日志就越新就會被更多人訪問,從而具備較大的價值,反之價值則較小。文件的大小與數(shù)據(jù)信息的可定制性有所關聯(lián),文件越大那么文件的數(shù)據(jù)就會越小,數(shù)據(jù)的可定性就會越差,反之則亦然。如果文件的大小過小,就會很大程度的影響數(shù)據(jù)的組織性,同時還會導致系統(tǒng)的信息處理效率有所下降。因此對于日志文件需要完成分級歸檔化管理,從而解決如上問題。此處通過以文件大小為例進行示范說明。
在進行歸檔管理之前,需要設置不同的日志文件大小參數(shù)指標。比如設置第一級參數(shù)指標為64MB、第2、3級參數(shù)指標大小為1和16GB,依次類推。那么相應的日志文件在歸檔中,就要滿足下級的文件數(shù)據(jù)量,要達到上級的文件大小標準時完成歸檔的過程。具體的歸檔過程(如圖1所示),當1級的日志文件合并成第2級文件,之后將該文件在1級文件系統(tǒng)中完成刪除,當?shù)?級日志文件的大小達到16GB時,再次啟動程序合并成第3級文件,進而類推完成逐層的歸檔合并。
3 系統(tǒng)部署框架
通過依照在線網(wǎng)絡日志分析系統(tǒng)的功能性進行劃分,從而形成了一個較為簡單的系統(tǒng)部署框架(如圖2所示)。該系統(tǒng)構架的主要組成部分包括了:日志轉(zhuǎn)換器1臺、日志文件收集服務器3臺、以及日志分析服務器1臺還有Hadoop集群1套,以及若干個日志源設備。其中期指分析服務器是該系統(tǒng)框架的中心部位。主要的系統(tǒng)交互類型包括了三種:日志流以及控制流還有業(yè)務流。
4 結語
在實現(xiàn)網(wǎng)絡安全管理中,網(wǎng)絡日志分析是極其重要的組成部分。傳統(tǒng)的日志分析已經(jīng)無法實現(xiàn)多種功能需求,因此本次通過提出Hadoop下的在線網(wǎng)絡日志分析系統(tǒng),從而有效的實現(xiàn)了日志大數(shù)據(jù)的分級歸檔機制,更是實現(xiàn)了大量的數(shù)據(jù)分級化存儲,有著較快的響應速度,但是該系統(tǒng)的內(nèi)在組成構架尤為復雜,因此亟待開展部分針對性的開發(fā)工作。本次研究雖然表明此種系統(tǒng)的有效可行性,但是部分細化問題還有待深入探究。
參考文獻
[1]胡光民,周亮,柯立新.基于Hadoop的網(wǎng)絡日志分析系統(tǒng)研究[J].電腦知識與技術:學術交流,2010,06(08):6163-6164.
[2]楊鋒英,劉會超.基于Hadoop的在線網(wǎng)絡日志分析系統(tǒng)研究[J].計算機應用與軟件,2014,31(08):311-316.
[3]劉永增,張曉景,李先毅.基于Hadoop/Hive的web日志分析系統(tǒng)的設計[J].廣西大學學報(自然科學版),2011,36(s1):314-317.
[4]劉永增,張曉景,李先毅.基于Hadoop/Hive的web日志分析系統(tǒng)的設計[C].中國教育和科研計算機網(wǎng)cernet學術年會,2011.
作者單位
國網(wǎng)湖北省電力公司信息通信公司 湖北省武漢市 430000endprint