◆何姍姍 諶婧嬌 陳佳
淺談大數(shù)據(jù)分析的應(yīng)用安全態(tài)勢系統(tǒng)設(shè)計與應(yīng)用研究
◆何姍姍1諶婧嬌1陳佳2
(1.安徽三聯(lián)學(xué)院 安徽 246000;2.池州學(xué)院 安徽 247000)
互聯(lián)網(wǎng)技術(shù)的發(fā)展為人們帶來了豐富的信息資源,為各行業(yè)提供了發(fā)展的便利,但是黑客、病毒等各種安全問題,導(dǎo)致用戶的信息泄露、丟失或被篡改。本文對大數(shù)據(jù)時代互聯(lián)網(wǎng)安全的發(fā)展情況進(jìn)行了分析,從安全指標(biāo)量化、感知模型架構(gòu)兩方面論述了安全態(tài)勢系統(tǒng)模型的具體建立方式,提出了采集服務(wù)器、分析平臺等安全態(tài)勢系統(tǒng)應(yīng)用,以期為行業(yè)相關(guān)人員提供系統(tǒng)設(shè)計和應(yīng)用的具體思路。
大數(shù)據(jù)分析;安全態(tài)勢;系統(tǒng)設(shè)計;系統(tǒng)應(yīng)用
當(dāng)前社會各行業(yè)的發(fā)展以及普通人的工作和生活均離不開互聯(lián)網(wǎng)信息化技術(shù)的支持,隨著用戶的增加、信息傳播效率的增加,當(dāng)前的網(wǎng)絡(luò)信息正處于極速膨脹的階段,各種黑客、病毒等也充斥其中,這導(dǎo)致各行業(yè)的發(fā)展均因為安全問題受到威脅。為此,行業(yè)技術(shù)人員需要加強(qiáng)對網(wǎng)絡(luò)安全威脅的關(guān)注,通過相應(yīng)的技術(shù)進(jìn)行感知,以此來規(guī)避安全風(fēng)險??紤]到當(dāng)前龐大的信息數(shù)據(jù)量,行業(yè)技術(shù)人員需要積極將大數(shù)據(jù)分析技術(shù)與安全態(tài)勢系統(tǒng)相互結(jié)合,為互聯(lián)網(wǎng)活動提供安全保障。
在分析應(yīng)用安全態(tài)勢的過程中,應(yīng)用日志是一個重要的分析點(diǎn)位,能夠輔助技術(shù)人員充分掌握用戶的相關(guān)行為。當(dāng)前互聯(lián)網(wǎng)用戶急劇增加,應(yīng)用使用人數(shù)呈指數(shù)暴增,所產(chǎn)生的日志文件也隨之增多,安全態(tài)勢系統(tǒng)研究人員需要充分考慮日志的應(yīng)用方法,從而更好地對應(yīng)用日志進(jìn)行管理和分析,進(jìn)而實(shí)現(xiàn)對安全風(fēng)險的有效規(guī)避[1]。例如,伊朗核電站在21世紀(jì)前期因蠕蟲病毒而出現(xiàn)丟失日志文件的情況,導(dǎo)致日志相關(guān)聯(lián)的上千臺離心機(jī)設(shè)備出現(xiàn)結(jié)構(gòu)損傷;法國電視臺在黑客的影響下出現(xiàn)黑屏問題;棱鏡門中大量互聯(lián)網(wǎng)巨頭公司對用戶隱私進(jìn)行監(jiān)控記錄。應(yīng)用安全問題的存在不僅對普通人的生活產(chǎn)生負(fù)面影響,甚至對一個國家的重要活動產(chǎn)生阻礙作用。
當(dāng)前應(yīng)用日志主要有兩種處理措施,分別為規(guī)范化和未規(guī)范化的處理方式。未規(guī)范化的應(yīng)用日志處理措施在應(yīng)用過程中直接將系統(tǒng)上傳的數(shù)據(jù)進(jìn)行審計分析,這一措施常用的系統(tǒng)為SPlunk引擎,可以TB級別的原始日志進(jìn)行實(shí)時監(jiān)控和分析;規(guī)范化的應(yīng)用日志處理措施則是在上傳之前先進(jìn)行相應(yīng)的標(biāo)準(zhǔn)化處理,避免出現(xiàn)大量的重復(fù)部分,同步做好分類、聚合等工作,在此基礎(chǔ)上進(jìn)行規(guī)范處理。相對而言,國內(nèi)在這方面的研究時間較短,而國際上已經(jīng)出現(xiàn)了較多成果,也構(gòu)建了相應(yīng)的大數(shù)據(jù)生態(tài)系統(tǒng),如MapReduce、HDFS等[2]。應(yīng)用態(tài)勢感知系統(tǒng)設(shè)計初期,設(shè)計人員充分考慮了數(shù)據(jù)挖掘所面臨的大數(shù)據(jù)分析問題,提出了從網(wǎng)絡(luò)應(yīng)用所蘊(yùn)含的大量數(shù)據(jù)中找出安全問題的思路,明確了安全要素收集、提出以及分析等工作思路,以此實(shí)現(xiàn)對安全態(tài)勢的預(yù)估和分析,從而規(guī)避安全風(fēng)險。劉效武(哈爾濱工程大學(xué))在研究中將傳感器與安全態(tài)勢系統(tǒng)相互融合,設(shè)計了相應(yīng)的模型;陳秀真(西安交通大學(xué))對安全態(tài)勢模型進(jìn)行了量化處理,提出了層次化的評估模型和具體的計算手段。當(dāng)前,國內(nèi)在安全態(tài)勢系統(tǒng)設(shè)計應(yīng)用方面依然存在較長的路要走,需要相關(guān)人員進(jìn)行更深入的研究和探索。
安全態(tài)勢系統(tǒng)模型的構(gòu)建前提是對當(dāng)前的安全指標(biāo)進(jìn)行量化處理,形成相應(yīng)的體系結(jié)構(gòu),以此來確保系統(tǒng)模型的可行性和科學(xué)性。其中,系統(tǒng)模型主要從應(yīng)用運(yùn)行安全情況、用戶行為情況以及數(shù)據(jù)威脅情況這幾個方面進(jìn)行指標(biāo)量化。其中,應(yīng)用運(yùn)行安全情況主要涉及系統(tǒng)資源、用戶連接、應(yīng)用服務(wù)等內(nèi)容;用戶行為情況主要涉及應(yīng)用受到的攻擊、應(yīng)用內(nèi)部資源下載、應(yīng)用訪問等內(nèi)容;數(shù)據(jù)威脅情況主要涉及威脅度較高的數(shù)據(jù)操作頻率、數(shù)據(jù)訪問頻率等內(nèi)容,相關(guān)指數(shù)大小與非法攻擊頻次以及應(yīng)用面臨的安全風(fēng)險存在直接聯(lián)系。
安全態(tài)勢模型的系統(tǒng)架構(gòu)的重要基礎(chǔ),模型的構(gòu)建需要結(jié)合當(dāng)前的網(wǎng)絡(luò)數(shù)據(jù)情況開展。相關(guān)數(shù)據(jù)結(jié)果表明,現(xiàn)階段網(wǎng)絡(luò)信息種類和數(shù)量正處于快速增加的階段,數(shù)據(jù)安全風(fēng)險感知所包含的種類極多,涉及用戶請求、數(shù)據(jù)庫操作、系統(tǒng)管理行為以及應(yīng)用日志等大量信息數(shù)據(jù),為了避免模型的應(yīng)用效果受到影響,技術(shù)人員需要綜合考慮不同類型數(shù)據(jù)存在的粒度及格式差別,在應(yīng)用與用戶之間以及應(yīng)用與數(shù)據(jù)庫之間進(jìn)行數(shù)據(jù)的采集匯總工作,通過數(shù)據(jù)分析對其中有問題的數(shù)據(jù)進(jìn)行預(yù)警和過濾,實(shí)現(xiàn)異常數(shù)據(jù)阻斷的同時結(jié)合相關(guān)的關(guān)聯(lián)規(guī)則進(jìn)行分析,獲取相應(yīng)的態(tài)勢分析報告,下面進(jìn)行詳細(xì)介紹。
數(shù)據(jù)采集匯總是安全態(tài)勢模型的基礎(chǔ)環(huán)節(jié),關(guān)系到后續(xù)的分析、預(yù)警工作能否正常開展,主要工作內(nèi)容是收集融合用戶行為數(shù)據(jù)、異常信息數(shù)據(jù)以及數(shù)據(jù)庫中的應(yīng)用日志,并按照相關(guān)要求進(jìn)行處理[3]。其中,用戶行為數(shù)據(jù)主要由用戶對應(yīng)用的操作過程產(chǎn)生,模型通過處理將日志中沒有意義的內(nèi)容剔除,為后續(xù)的分析通過數(shù)據(jù)基礎(chǔ);數(shù)據(jù)庫應(yīng)用日志主要包含了各自操作行為,通過記錄操作相關(guān)的用戶名、操作對象和時間、用戶地址等用于后續(xù)的分析處理。
數(shù)據(jù)過濾和預(yù)警階段主要對各種來源不同的安全事件進(jìn)行數(shù)據(jù)匯總處理,確保各種數(shù)據(jù)具備規(guī)范的組織格式。一般而言,數(shù)據(jù)處理的工作目標(biāo)在于為安全態(tài)勢感知工作提供數(shù)據(jù)基礎(chǔ),系統(tǒng)模型需要對冗余的數(shù)據(jù)進(jìn)行降噪和去重,通過歸一化處理的方式將關(guān)鍵信息從安全事件中選出來,確保后續(xù)的分析模塊可以對關(guān)鍵信息進(jìn)行快速處理,這種處理方式在處理相似性較高數(shù)據(jù)的過程中可以取得良好的成效,能夠減少系統(tǒng)運(yùn)行占用率,減少不必要計算成本。
關(guān)聯(lián)分析的前提是技術(shù)人員結(jié)合實(shí)際需求制定準(zhǔn)確的關(guān)聯(lián)規(guī)則,通過逐級關(guān)聯(lián)匹配的方式將存在安全風(fēng)險的事件從海量的信息數(shù)據(jù)中篩選處理,避免出現(xiàn)誤報等影響效率和問題,確保能夠及時做出相關(guān)預(yù)警,將異常的事件與正常的數(shù)據(jù)相互隔離,避免對應(yīng)急響應(yīng)工作造成影響。在具體進(jìn)行關(guān)聯(lián)分析的過程中,系統(tǒng)需要先結(jié)合大數(shù)據(jù)相關(guān)技術(shù)從海量的信息數(shù)據(jù)中提取所需數(shù)據(jù),確保信息數(shù)據(jù)獲取的高效性和準(zhǔn)確性[4];其次,系統(tǒng)需要對采集的信息數(shù)據(jù)進(jìn)行匯總和分類,主要信息類型包含用戶行為、用戶識別、業(yè)務(wù)類型等幾個方面,從而為安全管控措施的改進(jìn)優(yōu)化提供用戶行為相關(guān)的數(shù)據(jù)基礎(chǔ);再次,為了避免用戶異常的行為操作對系統(tǒng)應(yīng)用的運(yùn)行產(chǎn)生負(fù)面影響,引發(fā)不必要的安全事件,系統(tǒng)需要對用戶行為進(jìn)行風(fēng)險分級,通過構(gòu)建專家知識庫等對用戶行為進(jìn)行評估,進(jìn)而提升異常行為的阻斷準(zhǔn)確性與阻斷效率;最后,為了合理應(yīng)對大數(shù)據(jù)時代數(shù)據(jù)變化快、種類繁多的情況,系統(tǒng)需要結(jié)合應(yīng)用運(yùn)行實(shí)際情況對相關(guān)知識庫、標(biāo)準(zhǔn)庫進(jìn)行更新升級,綜合考慮用戶行為的變化趨勢,提升安全態(tài)勢的預(yù)估準(zhǔn)確性;這就要求技術(shù)人員利用挖掘算法對數(shù)據(jù)進(jìn)行趨勢分析,綜合考慮IP、行為、時間等方面的異常因素建立更符合當(dāng)前情況以及后續(xù)應(yīng)用的規(guī)則數(shù)據(jù)庫,提升安全風(fēng)險的預(yù)測準(zhǔn)確性。此外,在安全指標(biāo)體系的輔助下,系統(tǒng)可以將安全態(tài)勢量化,對用戶行為等進(jìn)行預(yù)測分析。
關(guān)聯(lián)分析是整個安全態(tài)勢模型的關(guān)鍵組成部分,系統(tǒng)模型能夠?qū)W(wǎng)絡(luò)中獲取的訪問數(shù)據(jù)、行為數(shù)據(jù)等進(jìn)行采集,進(jìn)而從數(shù)據(jù)、用戶、應(yīng)用等各個方面進(jìn)行分析,實(shí)現(xiàn)對應(yīng)用威脅情況的準(zhǔn)確預(yù)估,實(shí)現(xiàn)對應(yīng)用與用戶以及數(shù)據(jù)庫之間的有效審計和防控。在具體條理性的指標(biāo)體系輔助下,系統(tǒng)可以及時向管理員發(fā)出異常行為預(yù)警,進(jìn)而我們能夠準(zhǔn)確記錄非法訪問等情況,為追蹤、追責(zé)等提供基礎(chǔ),具有大數(shù)據(jù)環(huán)境下的良好應(yīng)用效果。
在基于大數(shù)據(jù)分析對應(yīng)用安全態(tài)勢系統(tǒng)進(jìn)行設(shè)計時,可以通過Hadoop架構(gòu)模式,利用MapReduce以及HDFS進(jìn)行大數(shù)據(jù)的分析運(yùn)算,系統(tǒng)主要包含日志數(shù)據(jù)采集、安全態(tài)勢分析以及可視化圖表輸出三個部分,下面進(jìn)行詳細(xì)介紹。
安全態(tài)勢系統(tǒng)的基礎(chǔ)運(yùn)行環(huán)節(jié)為數(shù)據(jù)采集環(huán)節(jié),系統(tǒng)需要通過專門的服務(wù)器對應(yīng)用日志進(jìn)行采集,確保分析平臺能夠?qū)Π踩珣B(tài)勢進(jìn)行評估審計。正如上文提及的日志數(shù)據(jù)處理類型,采集服務(wù)器可以分為規(guī)范化和非規(guī)范化兩種。其中,非規(guī)范化服務(wù)器主要通過Splunk對操作日志等進(jìn)行采集;規(guī)范化服務(wù)器主要針對用戶操作日志,需要對復(fù)雜多樣的數(shù)據(jù)進(jìn)行去重、降噪處理,將關(guān)鍵詞段在HDFS中以文本格式保存。
在采集服務(wù)器將各種應(yīng)用日志數(shù)據(jù)采集完畢后,作為系統(tǒng)第二環(huán)節(jié)的安全態(tài)勢分析平臺需要對日志信息進(jìn)行處理。這一平臺是Hadoop架構(gòu)形成的,是系統(tǒng)的最關(guān)鍵部分,內(nèi)部模塊主要有態(tài)勢感知模塊、專家知識庫、數(shù)據(jù)挖掘預(yù)測引擎等,實(shí)現(xiàn)對數(shù)據(jù)的關(guān)聯(lián)分析、融合處理以及風(fēng)險預(yù)估。數(shù)據(jù)挖掘引擎可以結(jié)合關(guān)聯(lián)規(guī)則、風(fēng)險特征以及數(shù)據(jù)庫中的事件標(biāo)準(zhǔn)對日志數(shù)據(jù)中的各種行為、事件進(jìn)行關(guān)聯(lián)分析,對判定存在威脅的事件進(jìn)行記錄并存儲。態(tài)勢感知模塊是用于分析潛在威脅的模塊,可以實(shí)時對當(dāng)前的應(yīng)用行為進(jìn)行感知評估,避免潛在風(fēng)險發(fā)展成事實(shí)。專家知識庫這一模塊可以定期將采集服務(wù)器中的數(shù)據(jù)匯總存儲,避免大量數(shù)據(jù)在采集服務(wù)器中堆積,產(chǎn)生不必要的運(yùn)行壓力。
在安全態(tài)勢分析平臺確認(rèn)具體結(jié)果的情況下,安全態(tài)勢系統(tǒng)的最終環(huán)節(jié)可以結(jié)合用戶需求將數(shù)據(jù)結(jié)果以可視化圖表的形式輸出,即為可視化服務(wù)器。管理員可以通過可視化圖表快速掌握潛在風(fēng)險因素,提供相應(yīng)的處理決定。同時,可視化服務(wù)器輸出的圖表具有Excel、Html等通用格式,具有較強(qiáng)的實(shí)用性。
大數(shù)據(jù)時代相關(guān)技術(shù)人員需要充分認(rèn)識到當(dāng)前數(shù)據(jù)規(guī)模大、種類多、更新變換速率快等特點(diǎn),在安全態(tài)勢模型的構(gòu)建過程中需要做好指標(biāo)量化工作,從數(shù)據(jù)采集、數(shù)據(jù)過濾處理、關(guān)聯(lián)處理等方面建立適用于大規(guī)模數(shù)據(jù)網(wǎng)絡(luò)的安全態(tài)勢系統(tǒng)模型。系統(tǒng)實(shí)際架構(gòu)的過程中,可以將其分為采集服務(wù)器、安全態(tài)勢分析平臺以及可視化服務(wù)器三個模塊,實(shí)現(xiàn)對大數(shù)據(jù)應(yīng)用安全態(tài)勢進(jìn)行準(zhǔn)確評估。
[1]王帥,金華敏,沈軍,等.大數(shù)據(jù)應(yīng)用安全方案及對策研究[J].廣東通信技術(shù),2017,37(08):2-5.
[2]肖霞.基于大數(shù)據(jù)時代計算機(jī)網(wǎng)絡(luò)安全技術(shù)應(yīng)用研究[J].遼寧高職學(xué)報,2018,20(01):78-80.
[3]巴志超.國家安全大數(shù)據(jù)綜合信息集成:應(yīng)用架構(gòu)與實(shí)現(xiàn)路徑[J].中國軟科學(xué),2018(07):9-20.
[4]盧炳芳.數(shù)據(jù)挖掘算法在大數(shù)據(jù)安全防御中的應(yīng)用與研究[J].通訊世界,2018(07):3-4.
基于大數(shù)據(jù)的醫(yī)療數(shù)據(jù)分析平臺的設(shè)計與實(shí)現(xiàn)(PTZD2021024)