馬波勇
(中國太平洋保險(集團)股份有限公司 上海市 200233)
當前各行業(yè)的數(shù)據(jù)呈現(xiàn)出爆炸式的發(fā)展態(tài)勢,數(shù)據(jù)將對行業(yè)未來的發(fā)展產(chǎn)生深遠的影響,一度成為未來的核心資產(chǎn)[1]。數(shù)據(jù)中臺技術主要依據(jù)過程數(shù)據(jù)為核心的發(fā)展要義,實現(xiàn)了海量數(shù)據(jù)的綜合收集和綜合整理,便于對數(shù)據(jù)內(nèi)容進行綜合的整理和加工計算,最終使其成為重要的核心數(shù)據(jù)資產(chǎn),為高效的信息服務提供了技術支持[2]。中臺從技術戰(zhàn)略角度出發(fā),將數(shù)據(jù)加工和數(shù)據(jù)處理進行規(guī)范化建設。從實踐端來說,有了統(tǒng)一的中臺,也就有了統(tǒng)一的數(shù)據(jù)規(guī)范。對于大數(shù)據(jù)相關的需求出發(fā),可以從相對唯一的業(yè)務數(shù)據(jù)出口進行業(yè)務迭代,此時不需要為每個部門都進行定制開發(fā),減少了人力資源的浪費。
數(shù)據(jù)安全中臺以云化安全資源池為核心,提供了核心技術基礎[3]。以IDPRR五大能力為抓手,將網(wǎng)絡數(shù)據(jù)、客戶數(shù)據(jù)、企業(yè)數(shù)據(jù)為防護對象,構建貫穿數(shù)據(jù)生命周期六大環(huán)節(jié)的安全體系[4],實現(xiàn)數(shù)據(jù)安全服務“可管控、可隱秘、可保護、可監(jiān)視、可審計”的五大目標。其核心的基礎架構示意如圖1所示。
圖1:基于數(shù)據(jù)中臺的安全能力架構
(1)數(shù)據(jù)標準規(guī)范化:規(guī)范化的數(shù)據(jù)收集架構是所有業(yè)務開展的基礎核心,其數(shù)據(jù)業(yè)務的內(nèi)容涵蓋流程規(guī)范文檔以及信息項定義等要素;
(2)數(shù)據(jù)關系脈絡化:針對數(shù)據(jù)間流轉和數(shù)據(jù)之間的依賴關系而開展的深度分析;
(3)數(shù)據(jù)質(zhì)量度量化:參照著數(shù)據(jù)管理平臺的數(shù)據(jù)收集質(zhì)量,實現(xiàn)良好的數(shù)據(jù)質(zhì)量校核和數(shù)據(jù)綜合分析,進而強化數(shù)據(jù)問題的追蹤質(zhì)量;
(4)數(shù)據(jù)服務電子化:數(shù)據(jù)平臺提供了精準的數(shù)據(jù)服務渠道。
(1)統(tǒng)一數(shù)據(jù)標準:對數(shù)據(jù)進行分類、口徑、模型等規(guī)則的標準化統(tǒng)一管理。
(2)元數(shù)據(jù)管理:以建立企業(yè)級數(shù)據(jù)模型、指標體系為切入,將業(yè)務分類、業(yè)務規(guī)則、數(shù)據(jù)立方體納入元數(shù)據(jù)管理。
(3)數(shù)據(jù)質(zhì)量管理:建立跨專業(yè)、全過程的數(shù)據(jù)質(zhì)量管理體系,保障數(shù)據(jù)信息的準確、規(guī)范、完整、一致。
(4)數(shù)據(jù)生命周期管理:參照著數(shù)據(jù)中臺全生命周期的服務要素,將數(shù)據(jù)的使用頻度和使用資源進行了合理化的分配。
(5)數(shù)據(jù)安全管控:對整個數(shù)據(jù)管理過程中,全過程數(shù)據(jù)資產(chǎn)進行環(huán)境控制、訪問控制以及人員權限的綜合管控,最大限度的保證平臺安全。
數(shù)據(jù)治理中心應具備統(tǒng)一管理、分租戶部署實例和管理的能力[5]。根據(jù)敏感數(shù)據(jù)分類分級要求,實現(xiàn)對敏感數(shù)據(jù)的風險識別以及數(shù)據(jù)安全風險評估及合規(guī)性檢測。通過對數(shù)據(jù)進行分類、分級的自定義實現(xiàn)敏感數(shù)據(jù)分級、分類管理,利用敏感信息的標識按敏感信息類別、子類及范圍進行分類[6]。其中數(shù)據(jù)分級的核心原則主要有:各級界限明確原則,參照著數(shù)據(jù)敏感度而進行的數(shù)據(jù)級別劃分;就高不就低原則,如果同一批的數(shù)據(jù)屬性中的字段分級不相同,則按照最高級別的屬性參數(shù)信息進行綜合管控。
訪問控制中心依據(jù)數(shù)據(jù)全生命周期的管理要素進行管控,目前在數(shù)據(jù)編碼中認可度最高的標準為DAMA標準,實現(xiàn)了數(shù)據(jù)采集、數(shù)據(jù)存儲、數(shù)據(jù)使用到數(shù)據(jù)消亡的全過程管[7]。整個業(yè)務流程當中,元數(shù)據(jù)管理是關鍵的核心,因此在基礎業(yè)務的架構上還需要充分保證數(shù)據(jù)存儲的完整性和一致性。數(shù)據(jù)質(zhì)量管理更加強調(diào)運用數(shù)據(jù)特征度量來精確判定數(shù)據(jù)價值,更加注重數(shù)據(jù)清洗后的整合、分析與價值利用,使其傾向于通過持續(xù)治理來有改進數(shù)據(jù)質(zhì)量、創(chuàng)造新的價值。
同時,數(shù)據(jù)中臺的開放共享使得數(shù)據(jù)安全與合規(guī)問題更加嚴重,因此需要在數(shù)據(jù)全生命周期內(nèi)強化數(shù)據(jù)分級分類管理、強制數(shù)據(jù)鑒權訪問,保證數(shù)據(jù)資產(chǎn)能夠在使用的過程中具有著適當?shù)恼J證和控制[8]。訪問控制中心需具備統(tǒng)一管理、分租戶部署實例和管理的能力。同時在業(yè)務經(jīng)營的過程中,建立起統(tǒng)一的數(shù)據(jù)安全管理控制策略庫能夠顯著的提升安全事件的處置效率,并提供相關的查詢、關聯(lián)、追溯等服務能力。策略庫具體包括但不限于:敏感數(shù)據(jù)脫敏策略、水印溯源策略、數(shù)據(jù)模糊化策略、數(shù)據(jù)加密策略等。
數(shù)據(jù)監(jiān)測中心主要對異常操作和數(shù)據(jù)泄露監(jiān)測,通過對外接口異常行為監(jiān)測、對外接口數(shù)據(jù)安全分析、應用數(shù)據(jù)安全威脅監(jiān)測分析、大數(shù)據(jù)平臺數(shù)據(jù)流轉分析形成安全風險和態(tài)勢視圖。數(shù)據(jù)監(jiān)測中心具備統(tǒng)一管理、分租戶部署實例和管理的能力。利用敏感數(shù)據(jù)脫敏策略、水印溯源、數(shù)據(jù)模糊化、數(shù)據(jù)加密建立數(shù)據(jù)安全管控能力中心。
數(shù)據(jù)可視化是開展安全分析的關鍵核心,在數(shù)據(jù)可視化的安全分析平臺中,通過建立統(tǒng)一的數(shù)據(jù)傳輸口徑,能夠靈活、高效的開展探索式的業(yè)務分析,幫助用戶始終保持安全業(yè)務的核心洞察力,并將數(shù)據(jù)決策快速覆蓋相關人員及應用場景當中。數(shù)據(jù)可視化分析為上層應用如查詢搜索、信息比對、關聯(lián)分析、統(tǒng)計分析、智能預測等應用提供統(tǒng)一的訪問接口和查詢界面??蔁o縫完成上層應用的對接,如可視化圖表分析工具,GIS應用,圖片識別應用等。
WebShell是黑客常用的惡意腳本,其本質(zhì)是建立在Web服務器上而生成的惡意代碼,通過計算機指令的形式形成惡意腳本,并通過網(wǎng)頁的形式發(fā)布命令,進而對網(wǎng)站服務器進行遠程的操控。
WebShell具有以下兩種隱蔽特性:
(1)惡意WebShell只會被少數(shù)幾個惡意攻擊人員訪問,普通人員不會訪問WebShell(因為不知道有這個頁面的存在),且訪問次數(shù)也遠遠小于正常頁面;
(2)正常Web頁面彼此之間會通過超文本協(xié)議互相鏈接,引導用戶一步步點擊訪問系統(tǒng),WebShell因為隱藏自身的需要不會與其它頁面互相鏈接,以免暴露自己。
基于上述特性,本文通過對出入度、訪問量等多個維度,建立多模型融合算法進行攻擊檢測。本文檢測方法是假設對外Web系統(tǒng)被攻陷植入WebShell后,出現(xiàn)的異常場景:
(1)訪問量:惡意WebShell只會被少數(shù)幾個惡意攻擊人員訪問,普通人員不會訪問WebShell,且訪問次數(shù)也遠遠小于正常頁面。
(2)訪問關系:正常Web頁面彼此之間會通過超文本協(xié)議互相鏈接,引導用戶一步步點擊訪問系統(tǒng),WebShell因為隱藏自身的需要不會與其它頁面互相鏈接,以免暴露自己。
(3)頁面響應:WebShell是用來幫助攻擊者控制Web系統(tǒng)和操作系統(tǒng),因此在訪問過程中必然會返回一些系統(tǒng)的敏感信息,這些信息雖然內(nèi)容難以預測,但從統(tǒng)計角度,和Web系統(tǒng)的返回信息特征存在明顯差異。
首先過濾日志中響應值非200、500的不存在頁面,調(diào)用path規(guī)約生成用于頁面特征抽取的預處理數(shù)據(jù)。并且對所有頁面的參數(shù)信息進行實時的特征提取,其主要的特征涵蓋:入度、出度、初次訪問時間、最新訪問時間、頁面曝光天數(shù)、頁面出現(xiàn)過天數(shù)等。
根據(jù)GMM、Local Outlier Factor、Isolation Forest算法分別計算出的各URI異常分數(shù)值,取各算法最異常的URI交集,生成疑似WebShell進行告警。
利用Kmeans模型對輸入的維度進行聚類前處理,對聚好的類分別求高斯分布,其計算原理為:
加權平均的復合化結果如圖2所示。
圖2:K-Means和GMM示意圖
針對點A的位置甚至多個關聯(lián)的k點,并且綜合的計算A點到這些位置上的歐式距離,并且將其記作為是Nk(A),計算原理為:
求出局部可達密度:
同時采用相同的計算方法進行關聯(lián)迭代計算,最終得到異常因子:
孤立森林從算法屬性上屬于是非監(jiān)督算法,但是其底層架構仍舊是決策樹算法,通過建立n個決策樹模型能夠對模型進行及時得中臺數(shù)據(jù)的異常系數(shù)值,其結果的示意圖如圖3所示。
圖3:孤立森林模型示意圖
利用上述模型做組合模型處理,給每一個模型添加閾值,使其具有決策機制(即判斷是否為異常)對新輸入的數(shù)據(jù)綜合三個模型的投票,三個模型都認為是異常的數(shù)據(jù)最異常,兩個次之,一個的異常可能性最小,都判別為不異常的,判別為正常。
當中臺樣本數(shù)據(jù)X是一維數(shù)據(jù)時,高斯分布的數(shù)據(jù)形式主要遵循概率密度函數(shù):
其中,μ為數(shù)據(jù)要素的期望值,σ為數(shù)據(jù)標準差。
當樣本數(shù)據(jù)是多維的數(shù)據(jù)類型時,高斯的數(shù)據(jù)分布主要遵循的是下述概率密度函數(shù):
其中,μ為數(shù)據(jù)均值(期望),∑為協(xié)方差(Covariance),D為數(shù)據(jù)維度。
高斯混合模型主要由多個高斯子模型復合而成,子模型同時也是隱形變量,使用混合模型的原因主要是因為其具有著良好的數(shù)學性質(zhì)和計算性能,所以用混合高斯分布可以更好的描述問題,模型對比結果如圖4所示。
圖4:模型結果對比圖
其主要的流程中,首先需要定義如下信息:表示第j個觀測數(shù)據(jù)屬于第個子模型的概率。
針對著單高斯模型,可以使用最大似然法來估算參數(shù)θ的值,其計算原理為:
似然函數(shù)由概率密度函數(shù)給出:
由于每個點發(fā)生的概率都很小,乘積會變得極其小,不利于計算和觀察,因此采用Maximum Log-Likelihood來計算:
對于高斯混合模型,Log-Likelihood函數(shù)是:
由于log里還需要進行求和操作,因此還需要不斷的進行迭代來進行綜合求解。
近年來,數(shù)據(jù)對于人們?nèi)粘I町a(chǎn)生的重要影響逐漸的深入人心,因此保護用戶數(shù)據(jù)安全也已經(jīng)逐漸成為人們?nèi)粘P袨榛顒拥闹饕粗攸c。本文的研究內(nèi)容中從基本的數(shù)據(jù)安全概念作為文章探討的出發(fā)點,分別分析了在中臺體系下大數(shù)據(jù)安全體系和安全應用的技術路徑,并結合著人工智能算法開展了數(shù)據(jù)處理,以促進數(shù)據(jù)管理質(zhì)量的提升。