◆彭劍峰 徐保民 張義祥
基于等保2.0的鐵路敏感數(shù)據(jù)安全關(guān)鍵技術(shù)及研究
◆彭劍峰1徐保民2張義祥1
(1.中鐵信安(北京)信息安全技術(shù)有限公司 北京 100094;2.北京交通大學(xué) 北京 100044)
本文以等保2.0對(duì)鐵路貨運(yùn)數(shù)據(jù)的安全要求及貨運(yùn)數(shù)據(jù)規(guī)則為基礎(chǔ),結(jié)合鐵路業(yè)務(wù)系統(tǒng),從“數(shù)據(jù)安全使用”的角度,對(duì)以主動(dòng)防護(hù)為手段的安全保護(hù)技術(shù)進(jìn)行深入研究,包括數(shù)據(jù)的分類(lèi)分級(jí)、敏感數(shù)據(jù)的自動(dòng)識(shí)別、敏感數(shù)據(jù)的脫敏存儲(chǔ)和使用,設(shè)計(jì)開(kāi)發(fā)出鐵路敏感數(shù)據(jù)自動(dòng)識(shí)別與動(dòng)靜態(tài)脫敏于一體的大數(shù)據(jù)平臺(tái),可在大數(shù)據(jù)環(huán)境下準(zhǔn)確高效地對(duì)多源非結(jié)構(gòu)化數(shù)據(jù)源進(jìn)行自動(dòng)分類(lèi)分級(jí)和脫敏操作。
數(shù)據(jù)脫敏;機(jī)器學(xué)習(xí);信息安全;數(shù)據(jù)隱私
近幾年,云物大智移等技術(shù)正逐步應(yīng)用在中國(guó)鐵路上?!惰F路信息化總體規(guī)劃》和《鐵路大數(shù)據(jù)應(yīng)用規(guī)劃報(bào)告》里都對(duì)鐵路數(shù)據(jù)的價(jià)值利用提出了更高的要求,同時(shí)也提出了數(shù)據(jù)安全要求。隨著鐵路數(shù)據(jù)的深入應(yīng)用,數(shù)據(jù)安全問(wèn)題也會(huì)日益凸顯。鐵路數(shù)據(jù)是國(guó)家基礎(chǔ)戰(zhàn)略資源,也是中國(guó)國(guó)家鐵路集團(tuán)有限公司的重要資產(chǎn),關(guān)系到國(guó)計(jì)民生。傳統(tǒng)的防火墻、反病毒軟件、入侵檢測(cè)和數(shù)據(jù)防泄漏等信息安全防護(hù)措施,已經(jīng)難以獨(dú)立應(yīng)對(duì)數(shù)據(jù)安全問(wèn)題,并且內(nèi)部人員的泄漏比外部黑客攻擊帶來(lái)的后果更嚴(yán)重。
2019年發(fā)布的網(wǎng)絡(luò)安全等級(jí)保護(hù)制度2.0國(guó)家標(biāo)準(zhǔn)(以下簡(jiǎn)稱等保2.0),注重全方位主動(dòng)防御、動(dòng)態(tài)防御、整體防控和精準(zhǔn)防護(hù)。等保2.0結(jié)合數(shù)據(jù)的全生命周期提出了安全防護(hù)的要求,尤其針對(duì)重要的、敏感的數(shù)據(jù),在傳輸、存儲(chǔ)、使用、消除、運(yùn)維等方面均有具體要求,并且對(duì)個(gè)人信息保護(hù)單列了章節(jié),這些都是等保1.0所沒(méi)有的。通過(guò)對(duì)等級(jí)保護(hù)三級(jí)的要求分析,共有18項(xiàng)控制點(diǎn)/要求項(xiàng)涉及數(shù)據(jù)安全,其中安全通用要求中的技術(shù)要求6項(xiàng)和管理要求7項(xiàng),云計(jì)算安全擴(kuò)展要求3項(xiàng)、大數(shù)據(jù)應(yīng)用場(chǎng)景說(shuō)明2項(xiàng)。在《國(guó)家網(wǎng)絡(luò)安全法》中明確提出國(guó)家實(shí)行網(wǎng)絡(luò)安全等級(jí)保護(hù)制度,對(duì)公共通信和信息服務(wù)、能源、交通、水利、金融、公共服務(wù)、電子政務(wù)等重要行業(yè)和領(lǐng)域,以及其他一旦遭到破壞、喪失功能或者數(shù)據(jù)泄露,可能?chē)?yán)重危害國(guó)家安全、國(guó)計(jì)民生、公共利益的關(guān)鍵信息基礎(chǔ)設(shè)施,在網(wǎng)絡(luò)安全等級(jí)保護(hù)制度的基礎(chǔ)上,實(shí)行重點(diǎn)保護(hù)。
從2017年起,國(guó)內(nèi)市場(chǎng)開(kāi)始重視敏感數(shù)據(jù)安全這個(gè)細(xì)分方向。2015年Gartner首次提出了數(shù)據(jù)安全治理概念,2017年在Gartner全球安全大會(huì)中提出數(shù)據(jù)安全治理已成為數(shù)據(jù)安全中的“風(fēng)暴之眼”(The Eye Of Storm),2018年,Gartner首次在數(shù)據(jù)安全治理方向上專門(mén)推出研究報(bào)告《如何使用數(shù)據(jù)安全治理》。在Gartner的數(shù)據(jù)安全治理理念中,提出了“數(shù)據(jù)分級(jí)分類(lèi),針對(duì)不同級(jí)別數(shù)據(jù)實(shí)行合理的安全手段;要明確數(shù)據(jù)的訪問(wèn)者(應(yīng)用用戶/數(shù)據(jù)管理人員)、訪問(wèn)對(duì)象、訪問(wèn)行為,基于這些信息制定不同的、有針對(duì)性的數(shù)據(jù)安全策略?!盡icrosoft 也推出了 DGPC 方案(Data Governance for Privacy Confidentiality and Compliance),該方案是專門(mén)強(qiáng)調(diào)隱私、保護(hù)與合規(guī)的數(shù)據(jù)治理技術(shù)框架,提出了安全的基礎(chǔ)架構(gòu)、身份和訪問(wèn)控制、信息保護(hù)、審計(jì)和報(bào)告四個(gè)技術(shù)領(lǐng)域。2019年,中國(guó)網(wǎng)絡(luò)安全與信息化產(chǎn)業(yè)聯(lián)盟數(shù)據(jù)安全治理委員會(huì)(簡(jiǎn)稱數(shù)據(jù)安全治理委員會(huì))發(fā)布了《數(shù)據(jù)安全治理白皮書(shū)》,在國(guó)內(nèi)正式提出了“讓數(shù)據(jù)使用更安全”的體系化方法論,其核心是“要滿足數(shù)據(jù)安全保護(hù)、合規(guī)性、敏感數(shù)據(jù)管理三個(gè)需求目標(biāo),通過(guò)分級(jí)分類(lèi)、角色授權(quán)、場(chǎng)景化安全等來(lái)實(shí)現(xiàn)數(shù)據(jù)使用安全的精細(xì)化管控?!?/p>
當(dāng)前,我國(guó)鐵路建設(shè)處于高速發(fā)展期,鐵路信息化建設(shè)也需要相匹配。增強(qiáng)網(wǎng)絡(luò)空間安全防護(hù)能力,需要聚焦鐵路網(wǎng)絡(luò)安全突出問(wèn)題,數(shù)據(jù)安全問(wèn)題是關(guān)鍵問(wèn)題,以等保2.0對(duì)鐵路貨運(yùn)數(shù)據(jù)的安全要求及貨運(yùn)數(shù)據(jù)規(guī)則和特點(diǎn)為基礎(chǔ),結(jié)合鐵路業(yè)務(wù)系統(tǒng)和大數(shù)據(jù)應(yīng)用的實(shí)際,從“數(shù)據(jù)安全使用”的角度,對(duì)以主動(dòng)防護(hù)為手段的安全保護(hù)技術(shù)進(jìn)行深入研究,以鐵路貨運(yùn)相關(guān)數(shù)據(jù)為研究對(duì)象,通過(guò)對(duì)其數(shù)據(jù)分類(lèi)梳理來(lái)界定敏感數(shù)據(jù)范圍,并根據(jù)其數(shù)據(jù)規(guī)則和特點(diǎn),提出敏感數(shù)據(jù)分類(lèi)分級(jí)標(biāo)準(zhǔn)和建議,并設(shè)計(jì)開(kāi)發(fā)出鐵路敏感數(shù)據(jù)自動(dòng)識(shí)別與動(dòng)靜態(tài)脫敏于一體的大數(shù)據(jù)平臺(tái),可用于大數(shù)據(jù)環(huán)境下高效準(zhǔn)確地對(duì)多源非結(jié)構(gòu)化數(shù)據(jù)源進(jìn)行自動(dòng)分類(lèi)分級(jí)和脫敏。
圖1 鐵路敏感數(shù)據(jù)安全系統(tǒng)架構(gòu)圖
圖1是我們所設(shè)計(jì)的鐵路敏感數(shù)據(jù)安全系統(tǒng)架構(gòu)圖[1]。它主要由敏感數(shù)據(jù)管理門(mén)戶、數(shù)據(jù)工作臺(tái)、權(quán)限管理、敏感數(shù)據(jù)安全管控平臺(tái)、數(shù)據(jù)質(zhì)量監(jiān)控與審計(jì)、敏感數(shù)據(jù)安全分類(lèi)、基礎(chǔ)庫(kù)和脫敏庫(kù)等核心部件構(gòu)成。其工作流程[2]:
1)數(shù)據(jù)源配置,管理者通過(guò)頁(yè)面輸入賬號(hào)、密碼、數(shù)據(jù)源類(lèi)型、訪問(wèn)類(lèi)型、url等信息,系統(tǒng)后臺(tái)根據(jù)輸入的信息讓Durid和ShardingSphere-JDBC配合使用連接源進(jìn)行驗(yàn)證賬號(hào)和密碼是否正確,如果驗(yàn)證成功會(huì)生成對(duì)應(yīng)的任務(wù)加入工作隊(duì)列,任務(wù)調(diào)度會(huì)從線程池Durid里通過(guò)ShardingSphere-JDBC連接數(shù)據(jù)源,在Spark計(jì)算引擎上執(zhí)行掃描任務(wù),通過(guò)遍歷數(shù)據(jù)源的數(shù)據(jù)跟規(guī)則進(jìn)行匹配,梳理出該源的敏感信息進(jìn)行存儲(chǔ)。
2)靜態(tài)庫(kù)生成,如果配置的是靜態(tài)庫(kù)時(shí),Oozie會(huì)調(diào)用Datax-web通過(guò)Spark對(duì)數(shù)據(jù)源進(jìn)行數(shù)據(jù)同步,同步的過(guò)程中通過(guò)梳理表和脫敏規(guī)則生成新數(shù)據(jù),新數(shù)據(jù)會(huì)存儲(chǔ)到用戶指定對(duì)應(yīng)的數(shù)據(jù)源類(lèi)型中,根據(jù)用戶的配置更新時(shí)間,Datax-web增量同步數(shù)據(jù)到數(shù)據(jù)源。
3)動(dòng)態(tài)脫敏,當(dāng)?shù)谌綉?yīng)用或者數(shù)據(jù)工作人員通過(guò)頁(yè)面或API訪問(wèn)生產(chǎn)庫(kù)時(shí),首先網(wǎng)關(guān)Kong對(duì)訪問(wèn)進(jìn)行攔截,攔截后對(duì)用戶進(jìn)行身份認(rèn)證和權(quán)限認(rèn)證,如果沒(méi)有權(quán)限,需要通過(guò)管理員對(duì)該用戶開(kāi)放權(quán)限;如果有該權(quán)限,會(huì)從線程池Druid里通過(guò)ShardingSphere-JDBC連接配置的輸入源,連接后shardingSphere-JDBC對(duì)SQL進(jìn)行解析、路由和改寫(xiě),然后再通過(guò)spark去對(duì)查詢的數(shù)據(jù)進(jìn)行脫敏替換,把替換后的數(shù)據(jù)返回給用戶。
4)靜態(tài)脫敏,當(dāng)?shù)谌綉?yīng)用或者數(shù)據(jù)工作人員通過(guò)頁(yè)面或API訪問(wèn)的源是在脫敏庫(kù)中時(shí),首先網(wǎng)關(guān)Kong對(duì)訪問(wèn)進(jìn)行攔截,攔截后對(duì)用戶進(jìn)行身份認(rèn)證和權(quán)限認(rèn)證;如果沒(méi)有權(quán)限,需要通過(guò)管理員對(duì)該用戶開(kāi)放權(quán)限,如果有該權(quán)限,直接路由到脫敏庫(kù)進(jìn)行訪問(wèn)。
鐵路貨運(yùn)業(yè)務(wù)種類(lèi)繁多,數(shù)據(jù)呈現(xiàn)出復(fù)雜性高,多樣性強(qiáng)的特點(diǎn)。采用規(guī)范的數(shù)據(jù)分類(lèi)、分級(jí)方法[3],有助于行業(yè)機(jī)構(gòu)厘清數(shù)據(jù)資產(chǎn)、確定數(shù)據(jù)重要性和敏感度,并針對(duì)性地采取適當(dāng)、合理的管理措施和安全防護(hù)措施,形成一套科學(xué)、規(guī)范的數(shù)據(jù)資產(chǎn)管理與保護(hù)機(jī)制,從而在保證數(shù)據(jù)安全的基礎(chǔ)上促進(jìn)數(shù)據(jù)開(kāi)放共享。
數(shù)據(jù)分類(lèi)是數(shù)據(jù)保護(hù)工作中的一個(gè)關(guān)鍵部分[3],是建立統(tǒng)一、準(zhǔn)確、完善的數(shù)據(jù)架構(gòu)的基礎(chǔ),是實(shí)現(xiàn)集中化、專業(yè)化、標(biāo)準(zhǔn)化數(shù)據(jù)管理的基礎(chǔ)。按照統(tǒng)一的數(shù)據(jù)分類(lèi)方法,依據(jù)自身業(yè)務(wù)特點(diǎn)對(duì)產(chǎn)生、采集、加工、使用或管理的數(shù)據(jù)進(jìn)行分類(lèi),可以全面清晰地厘清數(shù)據(jù)資產(chǎn),對(duì)數(shù)據(jù)資產(chǎn)實(shí)現(xiàn)規(guī)范化管理,并有利于數(shù)據(jù)的維護(hù)和擴(kuò)充。數(shù)據(jù)分類(lèi)為數(shù)據(jù)分級(jí)管理奠定基礎(chǔ)。
數(shù)據(jù)分級(jí)有助于鐵路行業(yè)根據(jù)數(shù)據(jù)不同級(jí)別,確定數(shù)據(jù)在其生命周期各個(gè)環(huán)節(jié)應(yīng)采取的數(shù)據(jù)安全防護(hù)策略和管控措施,進(jìn)而提高機(jī)構(gòu)的數(shù)據(jù)管理和安全防護(hù)水平,確保數(shù)據(jù)的完整性、保密性和可用性。
在調(diào)研現(xiàn)有各綜合分類(lèi)法與行業(yè)領(lǐng)域?qū)W科專用分類(lèi)方法的基礎(chǔ)上,結(jié)合鐵路數(shù)據(jù)所特有的行業(yè)屬性特征,以及鐵路數(shù)據(jù)開(kāi)發(fā)和共享的需求,制定鐵路數(shù)據(jù)分類(lèi)分級(jí)方法。
本次的分類(lèi)方法是從數(shù)據(jù)的敏感度特點(diǎn)出發(fā),采用多維度方法[4](組織架構(gòu)、業(yè)務(wù)對(duì)象、貨運(yùn)流程)來(lái)進(jìn)行分類(lèi),從組織架構(gòu)角度,相同的數(shù)據(jù)不同層級(jí)的人敏感度是不一樣的,高層的敏感度少,低層的敏感度多;從業(yè)務(wù)對(duì)象角度,有些數(shù)據(jù)本身就是敏感,不同的業(yè)務(wù)和不同的人對(duì)于數(shù)據(jù)敏感度也是不一樣的;從業(yè)務(wù)流程角度,相同的數(shù)據(jù)不同的業(yè)務(wù)操作,敏感度也是不一樣的。
我們從貨運(yùn)流程、業(yè)務(wù)對(duì)象、組織架構(gòu)三個(gè)角度對(duì)數(shù)據(jù)進(jìn)行準(zhǔn)確的定位,這三個(gè)角度之間相互依賴,缺一不可。
2.1.1貨運(yùn)流程
根據(jù)信息來(lái)源不同將對(duì)貨運(yùn)流程分成29類(lèi)[5]:
1)貨主咨詢:來(lái)源于客戶關(guān)系管理系統(tǒng),貨運(yùn)電商(貨商)平臺(tái),貨運(yùn)服務(wù)系統(tǒng)。
2)貨運(yùn)需求:來(lái)源于95306貨商平臺(tái)、客服系統(tǒng)、EDI系統(tǒng)。
3)確認(rèn)貨主需求:來(lái)源于95306貨商網(wǎng)站。
4)提報(bào)月計(jì)劃:來(lái)源于95306貨商平臺(tái)、FMOS系統(tǒng)。
5)提報(bào)旬方案:來(lái)源于95306貨商平臺(tái)、集優(yōu)信息系統(tǒng)。
6)上門(mén)取貨:來(lái)源于物流信息系統(tǒng),接取送達(dá)信息系統(tǒng)。
7)貨主送貨:來(lái)源于貨運(yùn)站信息系統(tǒng)中進(jìn)門(mén)、專用線管理。
8)申請(qǐng)集裝箱:來(lái)源于集裝箱管理系統(tǒng),95306電商平臺(tái)。
9)車(chē)站超重限貨物受理:來(lái)源于超限超重貨物運(yùn)輸管理信息系統(tǒng),貨運(yùn)站信息系統(tǒng)。
10)車(chē)站危險(xiǎn)品貨物受理:來(lái)源于危險(xiǎn)平運(yùn)輸管理信息系統(tǒng),貨運(yùn)站信息系統(tǒng)。
11)車(chē)站零擔(dān)集裝箱制票,貨主交費(fèi):來(lái)源于貨票系統(tǒng),電子支付系統(tǒng)。
12)申報(bào)日空車(chē)申請(qǐng):來(lái)源于貨調(diào)系統(tǒng),計(jì)劃調(diào)度系統(tǒng)。
13)車(chē)站倉(cāng)儲(chǔ):來(lái)源于貨運(yùn)信息系統(tǒng)。
14)車(chē)站空車(chē)入貨運(yùn)線:來(lái)源于調(diào)度系統(tǒng),現(xiàn)在車(chē)系統(tǒng)。
15)車(chē)站裝車(chē):來(lái)源于貨運(yùn)管理系統(tǒng),零擔(dān)、集裝箱管理系統(tǒng),裝載加固系統(tǒng),抑塵管理系統(tǒng)等。
16)整車(chē)制票,貨主交費(fèi):來(lái)源于貨票系統(tǒng),電子支付系統(tǒng),軌道衡系統(tǒng)。
17)車(chē)站貨車(chē)出線:來(lái)源于現(xiàn)在車(chē)系統(tǒng)。
18)車(chē)站集結(jié)列車(chē):來(lái)源于現(xiàn)在車(chē)系統(tǒng),確報(bào)系統(tǒng)。
19)車(chē)站貨檢,核對(duì)車(chē)號(hào):來(lái)源于貨檢系統(tǒng),超偏載系統(tǒng),確報(bào)系統(tǒng)。
20)調(diào)度安排途中作業(yè):來(lái)源于確報(bào)系統(tǒng),貨檢信息系統(tǒng),編組站信息系統(tǒng),調(diào)度系統(tǒng)。
21)調(diào)度貨車(chē)到達(dá):來(lái)源于調(diào)度系統(tǒng),確報(bào)系統(tǒng)。
22)車(chē)站貨車(chē)入線:來(lái)源于現(xiàn)在車(chē)系統(tǒng)。
23)車(chē)站卸車(chē):來(lái)源于貨運(yùn)信息系統(tǒng),抑塵系統(tǒng),集裝箱、零散快運(yùn)信息系統(tǒng)。
24)車(chē)站貨物倉(cāng)儲(chǔ):來(lái)源于貨運(yùn)信息系統(tǒng),集裝箱信息系統(tǒng),零散快運(yùn)信息系統(tǒng)。
25)車(chē)站內(nèi)交付:來(lái)源于貨運(yùn)信息系統(tǒng),貨票系統(tǒng)。
26)車(chē)站外交付:來(lái)源于貨運(yùn)信息系統(tǒng)。
27)貨主拉貨出門(mén):來(lái)源于貨運(yùn)信息系統(tǒng)。
28)物流送貨上門(mén):來(lái)源于物流信息系統(tǒng)。
29)辦理理賠手續(xù):保價(jià)及貨運(yùn)事故處理信息系統(tǒng)。
2.1.2業(yè)務(wù)對(duì)象
根據(jù)業(yè)務(wù)對(duì)象數(shù)據(jù)分為客戶基本資料、身份鑒權(quán)信息、客戶運(yùn)輸信息和客戶運(yùn)輸內(nèi)容信息[5]。
(1)客戶基本資料
政企客戶資料:政企客戶信息(姓名、聯(lián)系電話、郵箱)、發(fā)貨信息(訂單號(hào)、起始日期、終止日期、發(fā)站、發(fā)專用線、發(fā)貨單位、發(fā)貨部門(mén)、發(fā)貨單位地址、電話等)、收貨信息(品名、車(chē)數(shù)、噸數(shù)、車(chē)種、運(yùn)輸特征、換裝港、終到港、保價(jià)與否、怕濕與否、散堆裝、非散堆裝、裝卸方式、單件重量等)、貨物信息、發(fā)送物流服務(wù)信息、到達(dá)物流信息(接?。喝∝浀攸c(diǎn)、取貨時(shí)間、聯(lián)系人姓名、電話;配送:配送地址、配送時(shí)間、聯(lián)系人姓名、聯(lián)系人電話等;倉(cāng)儲(chǔ)服務(wù)、搬運(yùn)裝卸服務(wù))、附加信息(是否整車(chē)列裝車(chē)、是否定制信息服務(wù)、客戶備注等)實(shí)貨確認(rèn)時(shí)間、實(shí)貨確認(rèn)人、集裝箱承認(rèn)信息、提單信息。
個(gè)人客戶資料:客戶姓名、證件類(lèi)型、證件號(hào)碼、證件影印件、客戶職業(yè)、工作單位、居住地址、聯(lián)系地址、聯(lián)系電話、銀行扣費(fèi)賬戶、客戶編號(hào)、年齡、性別等。
各類(lèi)特殊名單:客戶姓名、證件類(lèi)型、證件號(hào)碼、證件影印件、客戶職業(yè)、工作單位、居住地址、聯(lián)系地址、聯(lián)系電話、銀行扣費(fèi)賬戶、客戶編號(hào)、年齡、性別等。
(2)身份鑒權(quán)信息
用戶密碼:用戶服務(wù)密碼、登錄密碼、秘鑰、支付密碼等。
(3)客戶運(yùn)輸信息
詳單:收貨、發(fā)貨詳單等,內(nèi)含運(yùn)輸物品類(lèi)型、收發(fā)貨位置、重量、收發(fā)時(shí)間等。
賬單:每月出賬的貨物運(yùn)費(fèi)、特定線路運(yùn)費(fèi)、裝卸費(fèi)、保價(jià)費(fèi)、倉(cāng)儲(chǔ)費(fèi)、接取送達(dá)費(fèi)等。
客戶歷史信息:貨票、商務(wù)記錄、貨物記錄、理賠信息等。
(4)客戶運(yùn)輸內(nèi)容信息
客戶貨物內(nèi)容記錄:客戶運(yùn)量、運(yùn)費(fèi)、收入率等運(yùn)輸內(nèi)容。
2.1.3組織架構(gòu)[5](見(jiàn)表1)
表1 組織架構(gòu)分類(lèi)
數(shù)據(jù)分級(jí)是以數(shù)據(jù)分類(lèi)為基礎(chǔ),根據(jù)數(shù)據(jù)的價(jià)值、內(nèi)容敏感程度、影響和分發(fā)范圍不同對(duì)數(shù)據(jù)進(jìn)行敏感級(jí)別劃分[6]。一旦安全性遭受破壞將直接影響到國(guó)家安全、社會(huì)秩序、公眾利益的,劃分為高度敏感數(shù)據(jù),涉及信息量大、對(duì)客戶造成輕度影響的劃分為一般敏感數(shù)據(jù)、對(duì)用戶和鐵路都沒(méi)有影響的劃分為開(kāi)發(fā)/公開(kāi)數(shù)據(jù),劃分如表2[7]:
表2 數(shù)據(jù)分類(lèi)
分類(lèi)分級(jí)主要采用的是k-means和向量空間模型(SVM)來(lái)識(shí)別,主要架構(gòu)如圖2所示。
主要流程如下:
(1)導(dǎo)入數(shù)據(jù),從數(shù)據(jù)源獲取含有敏感數(shù)據(jù)的鐵路業(yè)務(wù)數(shù)據(jù)。(2)分詞,通過(guò)分詞工具對(duì)長(zhǎng)文本進(jìn)行分詞。
(3)構(gòu)建詞袋模型,將切分后的單詞進(jìn)一步轉(zhuǎn)換成向量。先將所有文本中的詞匯構(gòu)建成一個(gè)詞條列表,其中不含重復(fù)的詞條。然后對(duì)每個(gè)文本,構(gòu)建一個(gè)向量,向量的維度與詞條列表的維度相同,向量的值是詞條列表中每個(gè)詞條在該文本中出現(xiàn)的次數(shù)。
(4)權(quán)限轉(zhuǎn)換,用算法TF-IDF,用來(lái)評(píng)估一個(gè)詞條對(duì)于一個(gè)文件集中一份文件的重要程度。
(5)計(jì)算余弦相似度,計(jì)算兩個(gè)向量的夾角余弦值,就可以評(píng)估他們的相似度。
(6)數(shù)據(jù)經(jīng)過(guò)k-means進(jìn)行自動(dòng)分類(lèi),再通過(guò)內(nèi)部業(yè)務(wù)人員對(duì)數(shù)據(jù)進(jìn)行標(biāo)識(shí),抽取80%的數(shù)據(jù)經(jīng)SVM進(jìn)行訓(xùn)練,剩下的20%進(jìn)行測(cè)試。
圖2 自動(dòng)分類(lèi)分級(jí)模型
(7)評(píng)測(cè)模型,通過(guò)2個(gè)指標(biāo)(準(zhǔn)確率和召回率)評(píng)估分類(lèi)模型:
F作為兩者綜合考慮的評(píng)估指標(biāo)
準(zhǔn)確率是評(píng)估捕獲的成果中目標(biāo)成果所占的比例;召回率是召回目標(biāo)類(lèi)別的比例;而F值,則是綜合這二者指標(biāo)的評(píng)估指標(biāo),用于綜合反映整體的指標(biāo)。
本文主要設(shè)計(jì)開(kāi)發(fā)了一個(gè)鐵路敏感數(shù)據(jù)安全保護(hù)的大數(shù)據(jù)平臺(tái),系統(tǒng)定義一套鐵路數(shù)據(jù)的分類(lèi)分級(jí)標(biāo)準(zhǔn),通過(guò)機(jī)器學(xué)習(xí)實(shí)現(xiàn)敏感數(shù)據(jù)自動(dòng)識(shí)別,降低人工識(shí)別的工作強(qiáng)度,實(shí)現(xiàn)靜態(tài)和動(dòng)態(tài)數(shù)據(jù)脫敏功能滿足不同的業(yè)務(wù)場(chǎng)景,功能中涵蓋了常用的隱私保護(hù)算法,用來(lái)解決低敏數(shù)據(jù)聚合變高敏的問(wèn)題。通過(guò)鐵路敏感數(shù)據(jù)安全大數(shù)據(jù)平臺(tái)能有效解決鐵路敏感數(shù)據(jù)泄露的安全問(wèn)題,促進(jìn)鐵路敏感數(shù)據(jù)的規(guī)范管理和安全使用,后續(xù)研究考慮使用深度學(xué)習(xí)來(lái)提高自動(dòng)識(shí)別敏感數(shù)據(jù)的準(zhǔn)確率。
[1]《數(shù)據(jù)脫敏應(yīng)用指南報(bào)告》發(fā)布[EB/OL].https://www.freebuf.com/company-information/220232.html.
[2]數(shù)倉(cāng)深度|數(shù)據(jù)治理之?dāng)?shù)據(jù)脫敏[EB/OL].https://mp.weixin.qq.com/s/62_IFokAl53DOUUK9eyCjg.
[3]JR/T 0158-2018 證券期貨業(yè)數(shù)據(jù)分類(lèi)分級(jí)指引.
[4]JR/T 0197—2020 金融數(shù)據(jù)安全數(shù)據(jù)安全分級(jí)指南.
[5]陳光偉.鐵路信息系統(tǒng)應(yīng)用技術(shù)[M].中國(guó)鐵道出版社,2017.
[6]《數(shù)據(jù)安全能力成熟度模型》實(shí)踐指南:數(shù)據(jù)分級(jí)分類(lèi)[EB/OL].https://www.secrss.com/articles/24907
[7]數(shù)據(jù)安全治理的關(guān)鍵步驟[EB/OL].https://www.dbsec.cn/zt/aqzl/zy-3.html.
[8]機(jī)器學(xué)習(xí)筆記(3)——使用聚類(lèi)分析算法對(duì)文本分類(lèi)(分類(lèi)數(shù)k未知)[EB/OL].https://blog.csdn.net/leaf_zizi/article/details/82684921.
中國(guó)鐵路信息科技集團(tuán)有限公司科技研究開(kāi)發(fā)計(jì)劃課題(《基于等保2.0的鐵路敏感數(shù)據(jù)安全關(guān)鍵技術(shù)研究》KGZG-CKY-2019027(2019B07))
網(wǎng)絡(luò)安全技術(shù)與應(yīng)用2021年1期