袁銘,蔡海超,高翔
(1.川慶鉆探工程有限公司長慶鉆井總公司,陜西西安 710018;2.西北工業(yè)大學,陜西西安 710072)
2021年9月國家出臺《中華人民共和國數據安全法》將數據作為單獨管理對象抽離出來,明確提出要建立數據分類分級保護制度、定期開展風險評估等要求,從國家法律層面確定了數據安全的重要性[1]。對長慶鉆井總公司而言,主要解決公司當前生產管理中產生的龐大數據在存儲、處理、交換過程中存在數據資源管理難度大、無差異化管控數據、數據管理不合規(guī)、安全風險不自知等問題,急需對數據進行分類分級合規(guī)管理,做好重要數據的風險評估和安全管控,降低數據被刪除、被修改、被拷貝和敏感數據傳播泄露等風險,改進“數據資產”IPDRR 管控模式,支撐鉆井業(yè)務的數字化轉型。
目前,長慶鉆井總公司企業(yè)園區(qū)網分為三級,西安核心網絡,項目部及專業(yè)公司網絡,鉆井隊網絡,覆蓋陜西、甘肅、寧夏、內蒙古。網絡主要有4G無線、衛(wèi)星小站和光纖三種接入方式,經過調研后發(fā)現主要存在以下問題:
1)數據量巨大,管理難度大:公司每秒產生的數據量非常大,急需建立一套完整的數據管理系統(tǒng)進行分類分級管理,否則數據管理難度會越來越大。
2)數據安全風險高:公司網絡結構復雜,接入點多且混亂,數據和數據流分布不清晰,存在安全風險點隱蔽、不自知、不可控的問題。
3)管理方式低效:目前,公司數據安全檢測和管控靠人工實現,管理方式低效,需要建立一套自動化管理系統(tǒng),提高管理效率和準確性。
基于需求分析的結論,需要解決以下技術難題:
1)數據分類分級管理技術:需要建立數據分類分級保護制度,對數據進行分類、分級和保護,根據數據等級制定相應的安全措施,提高數據管理的效率和安全性。
2)敏感數據自動識別技術:需要引入敏感數據自動識別技術,對數據和數據流中的敏感數據進行自動識別和分類,提高數據安全性和隱私保護水平。
3)數據存儲和管理瓶頸:需要建立高效的數據存儲和管理系統(tǒng),包括存儲設備、數據庫管理系統(tǒng)等,提高數據處理效率和存儲能力。
4)IPDRR 模型建立技術:需要建立IPDRR 模型,保障公司數據全生命周期各個生存階段的機密性、可用性和完整性,提高數據資產價值和管理水平。
5)數據傳輸安全技術:需要建立數據傳輸安全技術體系,對數據進行加密、備份、恢復等安全措施,同時支持權限管理和審計功能。
6) 風險管理技術:需要建立風險識別和管理技術,對數據進行風險評估和管理,提高安全風險的識別和管理能力,保障數據安全。
綜上所述,長慶鉆井總公司需要建立一套完整的數據及數據安全管理系統(tǒng),引入先進的數據管理和安全技術,建立完整的數據管理和安全體系,以提高數據管理效率和安全性,同時進行網絡優(yōu)化,從而滿足公司數字轉型的需要。
基于需求分析的調研結論,必須對當前已有的信息系統(tǒng)進行數據治理,數據治理的過程是螺旋上升,迭代式遞進的,如圖1所示,共分為4步。
圖1 數據治理技術路線
1)目的:滿足合規(guī)要求,組織戰(zhàn)略要求和業(yè)務發(fā)展需求。
2) 明確工作流程:確立工作流程,明確該誰做?什么時候做?做什么?的分工問題。
3)建立數據規(guī)范框架:根據分類要求、分級標準搭建框架。
4) 制定元數據標準:元數據應至少包括數據名稱、內容、保護級別、所有者、保護期限、標簽設置。
5)制定安全保護標準:針對不同級別的數據對應不同的防護標準。
6)實施數據分類分級規(guī)范:對企業(yè)內部的所有數據進行分類分級;對不同級別的數據進行不同的安全保護措施,如加密、備份、權限控制等;對數據進行標簽設置,方便數據的管理和使用;確保數據的安全性和保密性,防止數據泄露和丟失。
7)監(jiān)督與管理:定期審核和更新數據分類分級規(guī)范,并進行監(jiān)督和管理,確保規(guī)范的有效性和合規(guī)性。
按照當前企業(yè)的三級網絡,井隊數據先發(fā)送到指揮部,再由指揮部轉發(fā)到西安的信息中心,由于井隊分布流動性很大,而且各井隊信息化水平有差異,導致數據來源經常變化,數據質量不穩(wěn)定。因此要梳理數據來源,明確數據路徑、建立數據體系,數據清洗系統(tǒng),實現所有數據均可查可溯源,確保數據質量和數據安全[2]。
數據發(fā)現主要是梳理出進入數據庫的各種數據來源,目前最常見的入庫方式有在線式表單提交、人工數據導入、定期的ETL數據抽取及其他信息系統(tǒng)的數據流轉輸入,對于各種入口,必須保證數據質量,確保數據的正確性、完整性及不可修改性,否則“臟”數據的入庫會對日后的數據統(tǒng)計和知識挖掘產生極大的負面影響。
這需要領域專家的配合,對不同的數據進行評估,確定其重要性、敏感程度和價值,以及對企業(yè)運營可能造成的影響。同時,評估數據的安全風險和隱私保護需求,確定數據的安全保護級別。根據數據評估結果,制定相應的數據保護方案,包括數據加密、身份認證、訪問控制、備份和恢復、數據追蹤和監(jiān)控等措施,由于不同等級的保護對應不同的用戶投入,因此對于不同分類分級的數據需要精細化管理,既保證重要數據的安全性,同時也兼顧經濟性,避免在普通等級的數據上耗費大量資源。數據分類分級主要包括以下工作:
1)數據分類應遵循MECE原則,所分類別之間不交叉不留空白,覆蓋所有數據。
2)數據級別可根據數據泄露、損失后造成影響大小來劃分。
3)數據的保密性、完整性、可用性、可追溯性等因素也可作為劃分數據級別的考慮因素。
4)常見的數據分類分級標準包括:國家秘密、商業(yè)機密、個人隱私、一般數據等級等。數據分類分級需要與相關法律法規(guī)和規(guī)范要求相符合,如《信息安全技術分類分級保護管理規(guī)定》《網絡安全法》等。
5)定期審核和更新數據分類分級規(guī)范,并進行監(jiān)督和管理,確保規(guī)范的有效性和合規(guī)性。
6)加強員工培訓和提升安全意識:加強員工的安全保密培訓,提高員工的安全意識和保密意識,減少安全事故的發(fā)生。同時,加強安全文化建設,形成良好的信息安全氛圍。
元數據用于描述數據,因此需要制定元數據標準,明確數據標簽應該涵蓋的內容,例如數據來源、所屬部門、數據類型、數據等級等,實現每條數據都是可溯源的、建立完善的數據體系,這樣的數據才能被有效利用,真正成為企業(yè)的數據資產。設置數據標簽的方法可以是根據不同類別和等級的數據設計相應的數據模板,模板中包含了必要的字段,有些可以利用數據庫的元數據自動填充,有些則必須是人工填寫,采用數據模板來規(guī)范信息錄入人員的操作,杜絕漏填、錯填,保證數據的正確性及完整性。
對于企業(yè)現有的信息系統(tǒng)和數據庫系統(tǒng),開發(fā)了數據治理系統(tǒng),用于保證數據質量,確保數據安全。系統(tǒng)構成如圖2所示。
圖2 數據治理系統(tǒng)構成
在數據治理的過程中,將形成并逐步完善長慶各類信息系統(tǒng)的評價數據標準。在數據標準管理模塊中,將根據各類信息系統(tǒng)的領域知識,建立數據元、代碼集、編碼集、同義詞、限定詞,實現包含標準規(guī)范、分析流程、專業(yè)知識的數據標準管理平臺。同時,在項目治理完成后,將探索領域大數據的不確定理論、一致性理論以及數據眾包和自然語言處理技術,研究并突破包含準確性、完整性、規(guī)范性、可訪問性、一致性、時效性及不可抵賴性等多個維度的數據標準的適用性問題。
數據是企業(yè)的寶貴資產,企業(yè)管理者需要對數據資產有清晰的了解,因此在本項目中,將利用數據分級分類的過程對企業(yè)數據進行全面摸底,形成一套數據資產管理系統(tǒng),其中包括數據資產目錄,業(yè)務數據模型視圖,數據資產一鍵查詢,業(yè)務與模型映射,數據處理過程全景圖及數據內容搜索等功能模塊。
元數據管理在數據治理中占據極其重要的位置。它是企業(yè)數據倉庫系統(tǒng)中不可或缺的關鍵組件之一,貫穿了數據倉庫的整個生命周期,使數據倉庫自動化,可視化[3]。元數據管理能夠準確地梳理出數據資產,實現溯源所有數據的出處、梳理數據元素之間的關聯和依存關系、洞察數據流的方向,統(tǒng)計數據被調用次數等功能,使得用戶能夠全面地了解和掌握企業(yè)的數據資產狀況。元數據管理包括:自動采集元數據、自動更新元數據、元數據稽核、元數據比對、元數據檢索、元數據地圖等功能。我們構建了統(tǒng)一的元數據管理體系方案。
1)多源元數據的抽取和同步
數據倉庫是數據基礎,數據管理標準化能夠實現自動抽取關系型數據庫的元數據信息,對于非關系型的數據庫則需要通過定制元數據管理工具來解析獲取元數據信息。
2)元數據的存儲
元數據信息保存在信息系統(tǒng)中,從而便于用戶查看。信息系統(tǒng)的維護人員會根據數據管理標準及時更新元數據,從而保持對新生數據的準確描述,每次元數據的變更都會記錄在案,如果系統(tǒng)發(fā)生數據問題,就可以根據記錄的變更日志找出問題的原因。
3)元數據的公布
元數據的公布是指用戶可以在Web 端查看元數據,為了方便用戶,需要精心設計UI頁面,不僅僅是簡單地統(tǒng)計圖表和曲線,還要直觀地以地圖或者血緣等展示方式,幫助用戶理清數據血系,以及用ER圖表示不同數據庫表間的關聯關系。
數據質量一般從準確性、完整性、規(guī)范性、可訪問性、一致性、時效性和不可抵賴性幾個維度來考量[4]。
1)準確性——客觀準確地反映現實對象是對數據最基本的要求。
2)完整性——是指數據要能全面記錄對象的各種屬性,數據不可以存在缺失項。
3)規(guī)范性——采集的數據必須依據制定的數據標準及規(guī)范,采用規(guī)定計量單位,規(guī)定的精度及維度。
4)可訪問性——不能被訪問的數據是無意義的,系統(tǒng)必須根據用戶所屬級別提供相應的數據服務。
5)一致性——同一對象在不同數據庫表中的描述應當是一致的,無自相矛盾的。
6)時效性——數據需要記錄采集的時間,客觀準確地反映事物對象間的發(fā)生序列。
7)不可抵賴性——數據提供者給系統(tǒng)提供數據時要記錄在案,方便以后的溯源,保證所有數據的來路清晰明了,提供者不可抵賴。
該模塊主要包括數據質量需求、數據組件校驗、智能生成任務、質量任務調度、數據問題詳情、數據質量報告等功能。
數據安全是企業(yè)數據資產的重要保證,人們參考其他企業(yè)成功經驗并結合自身實際來實現,包括:數據脫敏,數據授權,數據加密,數據審批[5]。
隨著數字經濟和信息技術的快速發(fā)展,數據已成為企業(yè)生產和經營的核心資源,同時也面臨著越來越多的安全風險和挑戰(zhàn)。數據分類分級作為數據安全治理的基礎,可以幫助企業(yè)全面了解數據資產,實現多維度的策略管理,從而提高數據安全防護能力。數據分類分級技術可以對企業(yè)的數據進行細化管理,可視、可控、可管,有效降低數據安全風險,提高企業(yè)的信息化水平和運營能力。長慶鉆井總公司的數據管理應用中,引入數據分類分級管控技術,可以更好地保護企業(yè)的數據安全,提高企業(yè)的運營效率和競爭力。