宋大治
(南京地鐵建設(shè)有限責(zé)任公司 江蘇省南京市 210017)
IDC 全球調(diào)查報(bào)告指出,2014年以來(lái),全球因業(yè)務(wù)宕機(jī)或數(shù)據(jù)丟失導(dǎo)致的損失高達(dá)1.7 萬(wàn)億美元。2017年5月12日勒索病毒事件的爆發(fā)再一次證實(shí)了信息數(shù)據(jù)安全問(wèn)題不容樂(lè)觀。信息基礎(chǔ)硬件資源容易快速恢復(fù)或重新配置,一旦發(fā)生數(shù)據(jù)資產(chǎn)丟失將導(dǎo)致整個(gè)業(yè)務(wù)系統(tǒng)長(zhǎng)時(shí)間不能恢復(fù)從而造成巨大的經(jīng)濟(jì)損失或者嚴(yán)重的社會(huì)影響甚至危害國(guó)家安全。
面對(duì)軟、硬件故障和人為誤操作等諸多因素造成的信息數(shù)據(jù)丟失和業(yè)務(wù)中斷的風(fēng)險(xiǎn),在信息安全規(guī)劃中需要加強(qiáng)數(shù)據(jù)災(zāi)備體系的建設(shè),確保在災(zāi)難發(fā)生后快速恢復(fù)數(shù)據(jù)和應(yīng)用以保障業(yè)務(wù)的連續(xù)性,將災(zāi)難造成的損害降低到最小限度。
地鐵作為國(guó)家重要民生基礎(chǔ)建設(shè)工程。其綜合監(jiān)控系統(tǒng)(ISCS)包含了電力監(jiān)控系統(tǒng)(PSCADA)、環(huán)境與設(shè)備監(jiān)控系統(tǒng)(BAS)、火災(zāi) 自動(dòng)報(bào)警系統(tǒng)(FAS)、站臺(tái)門(mén)系統(tǒng)(PSD)、列車(chē)自動(dòng)監(jiān)控系統(tǒng)(ATS)、廣播系統(tǒng)(PA)、視頻監(jiān)控系統(tǒng)(CCTV)、乘客信息系統(tǒng) (PIS)、門(mén)禁系統(tǒng)(ACS)等重要應(yīng)用系統(tǒng)數(shù)據(jù),其中大多數(shù)應(yīng)用系統(tǒng)都被定為等保三級(jí)。
為保障信息系統(tǒng)的安全性,全自動(dòng)運(yùn)行的地鐵ISCS 系統(tǒng)建設(shè)規(guī)劃為雙控制中心,在主控中心與備份控制中心之間做了硬件和應(yīng)用系統(tǒng)冗余,做到應(yīng)用系統(tǒng)在線(xiàn)熱備。雙中心之間以專(zhuān)線(xiàn)雙鏈路作為網(wǎng)絡(luò)通訊保障。同時(shí)在安全保障系統(tǒng)上依據(jù)等保三級(jí)的要求配備了防火墻、入侵檢測(cè)、數(shù)據(jù)庫(kù)審計(jì)等網(wǎng)絡(luò)安全設(shè)備,建設(shè)了符合公安部要求的工控網(wǎng)絡(luò)安全體系。
網(wǎng)絡(luò)的安全性是相對(duì)的,在做好信息安全防控的情況下依然存在病毒感染、黑客入侵的風(fēng)險(xiǎn)或者人為誤刪除等邏輯錯(cuò)誤。從應(yīng)用安全層面考慮,數(shù)據(jù)是業(yè)務(wù)系統(tǒng)的核心要素,所以需要做好保護(hù)數(shù)據(jù)資產(chǎn)的底線(xiàn)思維,建設(shè)數(shù)據(jù)安全保障體系。
根據(jù)《中華人民共和國(guó)網(wǎng)絡(luò)安全法》、《中華人民共和國(guó)數(shù)據(jù)安全法》及公安部《信息安全等級(jí)保護(hù)管理辦法》2.0 的相關(guān)要求,結(jié)合地鐵ISCS 系統(tǒng)設(shè)計(jì)的具體情況,首先需要將實(shí)時(shí)服務(wù)器、歷史服務(wù)器、接口服務(wù)器、網(wǎng)管服務(wù)器、應(yīng)用服務(wù)器、工作站的操作系統(tǒng)及相關(guān)的軟件平臺(tái)中的數(shù)據(jù)庫(kù)等按照備份策略進(jìn)行本地備份,當(dāng)發(fā)生數(shù)據(jù)丟失時(shí),可以快速有效的從本地?cái)?shù)據(jù)備份服務(wù)其中恢復(fù)信息數(shù)據(jù)和業(yè)務(wù)系統(tǒng)。
地鐵運(yùn)營(yíng)的穩(wěn)定性至關(guān)重要,各關(guān)鍵業(yè)務(wù)的信息系統(tǒng)要求7*24小時(shí)不間斷運(yùn)行,為避免發(fā)生業(yè)務(wù)系統(tǒng)中斷的風(fēng)險(xiǎn),在做好數(shù)據(jù)的安全保護(hù)工作基礎(chǔ)上,還需要進(jìn)一步建設(shè)信息系統(tǒng)的容災(zāi)和應(yīng)急接管措施。對(duì)于關(guān)鍵信息基礎(chǔ)設(shè)施的不同信息系統(tǒng)應(yīng)用,應(yīng)根據(jù)所需達(dá)到的RPO(Recovery Point Objective)和RTO(RecoveryTime Objective)指標(biāo),確保生產(chǎn)服務(wù)器故障或是場(chǎng)地災(zāi)害時(shí),服務(wù)能夠及時(shí)切換到容災(zāi)平臺(tái)上。
設(shè)計(jì)原則:
(1)可用性:災(zāi)備數(shù)據(jù)需與生產(chǎn)數(shù)據(jù)保持一致性、完整性,目的是為了確保在災(zāi)難發(fā)生時(shí),備份數(shù)據(jù)可以提供應(yīng)急恢復(fù),確?;謴?fù)后數(shù)據(jù)的有效性、可用性。
(2)安全性:作為信息安全的最后一道防線(xiàn),災(zāi)備基礎(chǔ)設(shè)施、數(shù)據(jù)與數(shù)據(jù)中心基礎(chǔ)設(shè)施和數(shù)據(jù)需進(jìn)行物理隔離。另外,災(zāi)備數(shù)據(jù)傳輸過(guò)程中也應(yīng)加密傳送,確保備份數(shù)據(jù)傳輸和存放的安全可靠,從而實(shí)現(xiàn)數(shù)據(jù)在災(zāi)備存儲(chǔ)的過(guò)程中趨于零損耗。
(3)穩(wěn)定性:災(zāi)備系統(tǒng)平臺(tái)在設(shè)計(jì)、建設(shè)中需要首先考慮其本身的穩(wěn)定性,只有自身足夠強(qiáng)健穩(wěn)定才有可能確保數(shù)據(jù)備份和容災(zāi)的持續(xù)穩(wěn)定。
(4)全面性:在復(fù)雜的IT 網(wǎng)絡(luò)環(huán)境中存在各種操作系統(tǒng)平臺(tái),平臺(tái)下可能還會(huì)安裝各類(lèi)應(yīng)用系統(tǒng),如Oracle、SQL Server、MySQL、DB2、Sybase、達(dá)夢(mèng)數(shù)據(jù)庫(kù)等。因此,災(zāi)備系統(tǒng)平臺(tái)需要支持各種操作系統(tǒng)、數(shù)據(jù)庫(kù)和應(yīng)用,確保與環(huán)境兼容的全面性。
(5)自動(dòng)化:人工干預(yù)的方式實(shí)現(xiàn)的安全保護(hù)無(wú)法避免會(huì)出現(xiàn)漏、誤操作等情況,同時(shí)災(zāi)備運(yùn)維難以管理,因此應(yīng)該實(shí)現(xiàn)運(yùn)維自動(dòng)化、安全保護(hù)自動(dòng)化,具有日志記錄功能,異常情況時(shí)自動(dòng)報(bào)警功能。
(6)實(shí)時(shí)性:關(guān)鍵信息基礎(chǔ)設(shè)施要求7*24 小時(shí)不間斷運(yùn)行進(jìn)行備份保護(hù),需要針對(duì)關(guān)鍵信息系統(tǒng)進(jìn)行實(shí)時(shí)備份保護(hù),確保關(guān)鍵數(shù)據(jù)趨于零丟失。
(7)高性能:隨著應(yīng)用的不斷發(fā)展,各種數(shù)據(jù)資產(chǎn)海量積累,而且數(shù)據(jù)的產(chǎn)生速度也越來(lái)越快,這就要求我們?cè)谠O(shè)計(jì)備份系統(tǒng)時(shí)要考慮通道的帶寬和多種軟硬件技術(shù)性能的冗余。
(8)可擴(kuò)展性:數(shù)據(jù)安全保障體系的設(shè)計(jì)不但要滿(mǎn)足當(dāng)下業(yè)務(wù)的實(shí)際需要,還需適當(dāng)考慮未來(lái)業(yè)務(wù)不斷擴(kuò)展以及與新技術(shù)進(jìn)行銜接和產(chǎn)品升級(jí)的可能,具備良好的升級(jí)發(fā)展空間,以充分適應(yīng)未來(lái)信息安全建設(shè)的擴(kuò)展,保護(hù)現(xiàn)有投資。
全自動(dòng)運(yùn)行系統(tǒng)的ISCS 雙控制中心分別配置容災(zāi)備份一體機(jī)服務(wù)器,內(nèi)置虛擬一體化容災(zāi)平臺(tái),利用磁盤(pán)級(jí)CDP (Continuous Data Protection)技術(shù),實(shí)現(xiàn)I/O 級(jí)細(xì)粒度的實(shí)時(shí)備份,將備份窗口以及數(shù)據(jù)丟失的可能性降到最低。同時(shí)主控中心和備份控制中心的備份數(shù)據(jù)利用同步模塊在高帶寬通訊線(xiàn)路的保障下相互同步,進(jìn)一步降低數(shù)據(jù)安全的風(fēng)險(xiǎn)性。
采用CDP 技術(shù)的內(nèi)置虛擬化一對(duì)多應(yīng)急接管方案可解決核心業(yè)務(wù)的連續(xù)性需求。同時(shí)還可以通過(guò)對(duì)備份數(shù)據(jù)執(zhí)行直接掛載演練,找回指定時(shí)間節(jié)點(diǎn)的歷史數(shù)據(jù),解決了因?yàn)閿?shù)據(jù)的邏輯錯(cuò)誤導(dǎo)致的數(shù)據(jù)丟失、刪除、篡改等問(wèn)題,實(shí)現(xiàn)對(duì)信息系統(tǒng)進(jìn)行多重保護(hù)。
3.1.1 方案拓?fù)鋱D
如圖1所示。
圖1:雙中心數(shù)據(jù)備份與恢復(fù)方案拓?fù)鋱D
3.1.2 方案說(shuō)明
(1)主控中心機(jī)房和備份中心機(jī)房域網(wǎng)交換機(jī)中,各配置一套備份一體機(jī),預(yù)置數(shù)據(jù)備份與恢復(fù)系統(tǒng)Web 管理端。
(2)在業(yè)務(wù)網(wǎng)交換機(jī)中,通過(guò)千兆網(wǎng)線(xiàn)連接內(nèi)置虛擬化備份容災(zāi)平臺(tái)一體機(jī)服務(wù)器,在應(yīng)用服務(wù)器、實(shí)時(shí)服務(wù)器、接口服務(wù)器、歷史服務(wù)器、網(wǎng)管服務(wù)器等內(nèi)預(yù)裝容災(zāi)agency。
(3)一體機(jī)服務(wù)器將會(huì)主動(dòng)識(shí)別到預(yù)裝了應(yīng)用容災(zāi)agency 的應(yīng)用服務(wù)器。應(yīng)用服務(wù)器以及生產(chǎn)服務(wù)器的系統(tǒng)盤(pán)以及數(shù)據(jù)存儲(chǔ)磁盤(pán)將根據(jù)管理員依據(jù)業(yè)務(wù)相應(yīng)規(guī)則設(shè)定的具體數(shù)據(jù)備份所需執(zhí)行的策略(卷級(jí)CDP 實(shí)時(shí)備份),將有關(guān)數(shù)據(jù)備至容災(zāi)平臺(tái)內(nèi)對(duì)應(yīng)的容災(zāi)接管虛擬機(jī)(包括生產(chǎn)機(jī)的操作系統(tǒng)文件和相應(yīng)網(wǎng)絡(luò)策略配置等)。
(4)實(shí)時(shí)復(fù)制數(shù)據(jù)機(jī)制可以讓容災(zāi)服務(wù)器虛擬機(jī)上的數(shù)據(jù)與目標(biāo)服務(wù)器上的數(shù)據(jù)保持完全一致且真實(shí)可用,從而完成接管生產(chǎn)服務(wù)器上應(yīng)用所必需的基本條件。容災(zāi)服務(wù)器被設(shè)定為通過(guò)系統(tǒng)故障診斷功能模塊對(duì)服務(wù)器運(yùn)行狀態(tài)進(jìn)行自動(dòng)檢測(cè)并依據(jù)檢查結(jié)果來(lái)判斷生產(chǎn)服務(wù)器的及時(shí)工作狀態(tài),一旦生產(chǎn)服務(wù)器端出現(xiàn)業(yè)務(wù)故障時(shí),會(huì)向管理員發(fā)出警報(bào),并依據(jù)設(shè)定的規(guī)則由管理員手動(dòng)或者自主執(zhí)行容災(zāi)服務(wù)器業(yè)務(wù)接管。
(5)一旦生產(chǎn)服務(wù)器修復(fù)正常后,利用數(shù)據(jù)的智能回遷機(jī)制把容災(zāi)服務(wù)器中的歷史備份數(shù)據(jù)以及新生成的數(shù)據(jù)逆向同步到正常的生產(chǎn)服務(wù)器上,然后按預(yù)設(shè)方案,將所有應(yīng)用服務(wù)逐一切換回相應(yīng)的生產(chǎn)服務(wù)器。
(6)初始設(shè)置完成后,在主中心備份容災(zāi)一體機(jī)和備份中心備份容災(zāi)一體機(jī)的備份服務(wù)管理端中設(shè)置數(shù)據(jù)同步或異步功能模塊實(shí)現(xiàn)數(shù)據(jù)的鏡像同步。定時(shí)或?qū)崟r(shí)鏡像同步部署完成后,即可完成應(yīng)用服務(wù)器本地備份數(shù)據(jù)異地傳輸。
(7)數(shù)據(jù)備份與恢復(fù)系統(tǒng)數(shù)據(jù)同步模塊提供實(shí)時(shí)壓縮、斷點(diǎn)續(xù)傳、雙向傳輸功能,保證本地備份數(shù)據(jù)和異地備份數(shù)據(jù)一致,如此當(dāng)本地機(jī)房出現(xiàn)重大損毀時(shí),可以通過(guò)異地備份數(shù)據(jù)進(jìn)行應(yīng)急恢復(fù)。
災(zāi)難恢復(fù)資源是為應(yīng)對(duì)那些“概率小、風(fēng)險(xiǎn)高”的事件而準(zhǔn)備的,平時(shí)基本上處于靜默備戰(zhàn)狀態(tài),其目的就是為了在發(fā)生數(shù)據(jù)故障或者災(zāi)難的時(shí)候,有一份安全的數(shù)據(jù)副本存在,可以用于數(shù)據(jù)的恢復(fù)或者災(zāi)后重建。因此,備份容災(zāi)數(shù)據(jù)的有效性就非常的關(guān)鍵。
通常情況下,本地容災(zāi)平臺(tái)設(shè)置了災(zāi)難自動(dòng)演練機(jī)制。根據(jù)策略,在24 小時(shí)內(nèi)會(huì)把近期產(chǎn)生的新數(shù)據(jù)備份快照鏡像加載到指定虛機(jī),并且對(duì)源系統(tǒng)進(jìn)行鏡像模擬。之后對(duì)相應(yīng)的數(shù)據(jù)、文件、虛機(jī)系統(tǒng)服務(wù)等進(jìn)行可靠性和完整性驗(yàn)證。校驗(yàn)內(nèi)容包括:DataBase(MSSQL、Oracle)、WindowsService、EventLog、File、Exchange 等。針對(duì)災(zāi)備演練形成制度,周期性的進(jìn)行,每周、每月甚至是每季度進(jìn)行一次并發(fā)送自動(dòng)演練報(bào)告至管理員郵箱或手機(jī)。
(1)無(wú)驅(qū)CDP 保護(hù):支持無(wú)驅(qū)CDP,生產(chǎn)機(jī)無(wú)需安裝任何內(nèi)核型CDP 代理程序即可實(shí)現(xiàn)數(shù)據(jù)CDP 實(shí)時(shí)保護(hù),代理程序不涉及操作系統(tǒng)底層內(nèi)核的改動(dòng),以減小對(duì)生產(chǎn)機(jī)穩(wěn)定性的影響。
(2)安全備份、可信恢復(fù):采用軍密、商密、國(guó)密等高位加密技術(shù)對(duì)備份數(shù)據(jù)進(jìn)行自動(dòng)透明的加解密保護(hù),并支持密碼驗(yàn)證方式對(duì)災(zāi)備保護(hù)的數(shù)據(jù)進(jìn)行恢復(fù)操作。
(3)自動(dòng)校驗(yàn):為確保備份數(shù)據(jù)與生產(chǎn)數(shù)據(jù)的一致性、完整性、可恢復(fù)性,提供備份數(shù)據(jù)的自動(dòng)校驗(yàn)機(jī)制。
(4)跨平臺(tái)兼容性:支持對(duì)個(gè)人電腦,各類(lèi)服務(wù)器及小型機(jī)跨操作系統(tǒng)平臺(tái)的在線(xiàn)備份;支持主流操作系統(tǒng)(如: Linux、Unix、Windows 等) 以及各類(lèi)虛擬化平臺(tái)(例如:VMware Hyper-V、ESX 等);支持My SQL、SQL Server、Oracle、DB2、Active Directory、 達(dá) 夢(mèng)、Sybase、Exchange Server、Domino 等 多種數(shù)據(jù)庫(kù);支持對(duì)各種數(shù)據(jù)庫(kù)、文件的CDP(Continuous Data Protection)實(shí)時(shí)熱備、定時(shí)熱備、手動(dòng)備份;支持LanBase、LanFree 等多種備份方式。
(5)軟硬一體化配置:軟硬一體化配置,集備份軟件、操作系統(tǒng)、備份服務(wù)器、磁盤(pán)陣列于一體可大大降低方案集成成本及后續(xù)信息系統(tǒng)的運(yùn)維服務(wù)成本;杜絕傳統(tǒng)集成方案中產(chǎn)生的產(chǎn)品不兼容、難擴(kuò)展、售后服務(wù)不及時(shí)等一系列問(wèn)題。
(6)集中管理平臺(tái):Web 集中管理頁(yè)面,可對(duì)備份節(jié)點(diǎn)、備份客戶(hù)端、備份策略、備份數(shù)據(jù)、管理權(quán)限進(jìn)行集中化設(shè)置管理;部署容易、操作簡(jiǎn)便,擺脫對(duì)專(zhuān)業(yè)技術(shù)人員的依賴(lài)。
(7)數(shù)據(jù)應(yīng)急恢復(fù):數(shù)據(jù)丟失或損壞時(shí),可提供災(zāi)難應(yīng)急恢復(fù)能力,快速恢復(fù)系統(tǒng)和數(shù)據(jù);即便服務(wù)器硬件損壞,也可以通過(guò)異機(jī)恢復(fù)來(lái)實(shí)現(xiàn)信息系統(tǒng)的快速重構(gòu)。
(8)本地異地雙重保護(hù):支持一對(duì)一、一對(duì)多以及多對(duì)一等多種異地災(zāi)備,支持本地及異地雙重保護(hù)和恢復(fù);備份客戶(hù)端可在前置設(shè)備節(jié)點(diǎn)、后置設(shè)備節(jié)點(diǎn)之間切換;當(dāng)本地?cái)?shù)據(jù)中心發(fā)生數(shù)據(jù)丟失時(shí),可以從前置設(shè)備的本地節(jié)點(diǎn)備份集恢復(fù)數(shù)據(jù);當(dāng)本地?cái)?shù)據(jù)中心發(fā)生場(chǎng)地災(zāi)難時(shí),客戶(hù)端可切換至后置設(shè)備并從異地節(jié)點(diǎn)備份集恢復(fù)數(shù)據(jù)。
(9)海量數(shù)據(jù)增量備份:支持主機(jī)房磁盤(pán)格式和NAS 共享存儲(chǔ)下海量文件“日志增量備份”模式保護(hù),不限制備份的文件數(shù)量,可高效地定位新產(chǎn)生或者被修改的文件并對(duì)其進(jìn)行及時(shí)備份,無(wú)須每次增量備份時(shí)掃描所有文件;增量備份間隔可達(dá)分鐘級(jí),從而大大提升備份效率。
(10)獨(dú)占文件備份。系統(tǒng)支持獨(dú)占和鎖定狀態(tài)下的文件備份保護(hù)(如:注冊(cè)表文件、系統(tǒng)文件),保證備份數(shù)據(jù)的完整性。
(11)虛擬化備份保護(hù):系統(tǒng)支持集群環(huán)境下的VMware、Hyper-V、華為FusionSphere 等主流虛擬化平臺(tái)無(wú)代理備份保護(hù)模式,無(wú)需在虛機(jī)中安裝客戶(hù)端代理,也不需要尋找其它代理備份服務(wù)器安裝客戶(hù)端,通過(guò)Web 集中管控平臺(tái)就可直接為虛擬化系統(tǒng)添加備份保護(hù)任務(wù)。
(12)VMware 虛擬機(jī)掛載恢復(fù):Vmware 虛擬機(jī)備份后,可以直接將備份的虛擬機(jī)通過(guò)掛載的方式瞬時(shí)恢復(fù)使用,虛擬機(jī)掛載后可自動(dòng)開(kāi)機(jī)和聯(lián)網(wǎng);也可直接從備份虛擬機(jī)數(shù)據(jù)集中選擇需要恢復(fù)的目錄或文檔文件數(shù)據(jù)進(jìn)行單文件細(xì)粒度恢復(fù)。不需要恢復(fù)整個(gè)虛擬機(jī)文件。
(13)應(yīng)急接管:容災(zāi)服務(wù)器可在指定的任意時(shí)間點(diǎn)上執(zhí)行業(yè)務(wù)的應(yīng)急接管。一旦生產(chǎn)服務(wù)器端出現(xiàn)業(yè)務(wù)故障,容災(zāi)服務(wù)器會(huì)根據(jù)監(jiān)測(cè)結(jié)果向管理員發(fā)出警報(bào),并依據(jù)設(shè)定的規(guī)則由管理員手動(dòng)或者自主執(zhí)行容災(zāi)服務(wù)器業(yè)務(wù)接管。保障核心業(yè)務(wù)運(yùn)行不間斷。
(14)自動(dòng)演練:容災(zāi)服務(wù)器具有自動(dòng)演練功能,以保障備份數(shù)據(jù)的可用及完整性。演練之后,根據(jù)預(yù)設(shè)的校驗(yàn)規(guī)則生成數(shù)據(jù)演練和數(shù)據(jù)校驗(yàn)報(bào)告發(fā)送到管理員的郵箱地址。
(15)數(shù)據(jù)掛載:容災(zāi)數(shù)據(jù)可被直接掛載呈現(xiàn),可以對(duì)掛載出來(lái)的數(shù)據(jù)執(zhí)行讀、寫(xiě)等操作;也可以根據(jù)實(shí)際需求選擇指定數(shù)據(jù)進(jìn)行掛載,恢復(fù)特定時(shí)間點(diǎn)的歷史數(shù)據(jù)。
(16)數(shù)據(jù)回遷:當(dāng)生產(chǎn)服務(wù)器被修復(fù)或更新后,可以啟動(dòng)PE 將備份集中的歷史系統(tǒng)和數(shù)據(jù)(包含接管后產(chǎn)生的最新數(shù)據(jù))回遷至修復(fù)更新的生產(chǎn)主服務(wù)器上。恢復(fù)生產(chǎn)服務(wù)器對(duì)外響應(yīng)。
通過(guò)對(duì)地鐵ISCS 的數(shù)據(jù)災(zāi)備建設(shè),應(yīng)用系統(tǒng)的數(shù)據(jù)資產(chǎn)得到安全、可靠、有效保護(hù),且在極端情況下提供最關(guān)鍵的業(yè)務(wù)容災(zāi)保障,最大程度上解決了數(shù)據(jù)安全隱患,在地鐵安全運(yùn)行中起到了保駕護(hù)航的重要作用。