張鎖 董玉芹 郭名芳 王陽陽
摘 要:信息系統(tǒng)搭載計算機技術(shù)獲得飛速發(fā)展,在生產(chǎn)中的作用也越來越明顯。短時間的信息系統(tǒng)突發(fā)性故障會造成嚴(yán)重的經(jīng)濟損失。因此,數(shù)據(jù)的容災(zāi)備份系統(tǒng)也顯得尤為重要,其全面覆蓋任意災(zāi)難系統(tǒng),實現(xiàn)本地/異地災(zāi)備。本文建立強大的異地循環(huán)接管和災(zāi)備系統(tǒng),在常規(guī)容災(zāi)技術(shù)實現(xiàn)的基礎(chǔ)上,在異地局域網(wǎng)內(nèi)引入循環(huán)接管模式,實現(xiàn)業(yè)務(wù)系統(tǒng)在發(fā)生災(zāi)難時仍能實現(xiàn)對外正常提供服務(wù)。
關(guān)鍵詞:異地局域網(wǎng);災(zāi)備系統(tǒng);循環(huán)接管
中圖分類號:TP309.3 文獻標(biāo)識碼:A 文章編號:1003-5168(2018)16-0014-04
Research and Design of Disaster Preparedness System in Local Area Network
ZHANG Suo1 DONG Yuqin2 GUO Mingfang1 WANG Yangyang1
(1.Henan Institute of Metrology,Zhengzhou Henan 450008;2.Henan Institute of Product Quality Supervision and Inspection,Zhengzhou Henan 450047)
Abstract: Information system carrying computer technology has developed rapidly, and its role in production has become more and more obvious. The sudden failure of the information system for a short time will cause serious economic losses. Therefore, the disaster-tolerant backup system of data is also particularly important. It comprehensively covers any disaster system and realizes local/off-site disaster preparedness. In this paper, a powerful off-site circular takeover and disaster preparedness system was established. On the basis of the implementation of conventional disaster tolerance technology, a circular takeover mode was introduced in a local area network to achieve a normal service in the event of a disaster.
Keywords:local area network;disaster preparedness system;cyclic takeover
本文旨在闡述建立統(tǒng)一災(zāi)備運維監(jiān)控管理平臺,實現(xiàn)三地數(shù)據(jù)中心災(zāi)備狀態(tài)的統(tǒng)一管理、監(jiān)控及調(diào)度。通過容災(zāi)循環(huán)接管方案規(guī)劃,整合數(shù)據(jù)備份、快照、系統(tǒng)恢復(fù)、災(zāi)難恢復(fù)、異地災(zāi)備和循環(huán)接管等多項功能[1]。利用現(xiàn)有技術(shù)開創(chuàng)性地對災(zāi)備系統(tǒng)關(guān)鍵技術(shù)進行剖析,以最經(jīng)濟的投入擁有高效、穩(wěn)定、完備的應(yīng)用即時保護。
1 容災(zāi)循環(huán)接管方案規(guī)劃
容災(zāi)設(shè)備分別部署在第一和第二分部中心,制定優(yōu)先級策略,實現(xiàn)應(yīng)用層、處理層及存儲層融合,具有良好的兼容性及擴展性。提供業(yè)務(wù)支撐能力,使相關(guān)應(yīng)用系統(tǒng)也能迅速通過災(zāi)備系統(tǒng)快速啟動,配合統(tǒng)一災(zāi)備運維監(jiān)控管理平臺實現(xiàn)業(yè)務(wù)的快速接管。
容災(zāi)系統(tǒng)網(wǎng)絡(luò)架構(gòu)如圖1所示。
在三地分別配置三個節(jié)點,在本部生產(chǎn)中心(以下簡稱“本部中心”)、第一災(zāi)備分部中心(以下簡稱“第一分部中心”)和第二災(zāi)備分部中心(以下簡稱“第二分部中心”)三地分別部署,做到三地互備,滿足三地應(yīng)用級容災(zāi),實現(xiàn)三地的數(shù)據(jù)實時同步。任一節(jié)點出現(xiàn)故障,其余兩個節(jié)點都可以按照優(yōu)先級即時接管業(yè)務(wù),保證業(yè)務(wù)的連續(xù)性。具體循環(huán)接管形式如下。
①當(dāng)本部中心、第一分部中心、第二分部中心及各鏈路均正常時,本部中心正常提供業(yè)務(wù)服務(wù),并向第一分部中心和第二分部中心實時傳輸增量數(shù)據(jù)。
②當(dāng)本部中心正常,第一分部中心、第二分部中心有一方或兩方同時異常時,主要面臨著系統(tǒng)宕機和斷電的狀況,仍由本部中心提供業(yè)務(wù)服務(wù),待第一分部和第二分部恢復(fù)正常后,由本部中心延續(xù)宕機、斷電前的斷點進行增量續(xù)傳。
③當(dāng)本部中心、第一分部中心、第二分部中心各區(qū)域正常,但連接本部中心與第一分部中心或本部中心與第二分部中心的鏈路異常時,第一分部中心或第二分部中心將無法連接至本部中心進行辦公。該種情況下,仍由本部中心提供業(yè)務(wù)服務(wù),待鏈路恢復(fù)后,由本部中心延續(xù)斷網(wǎng)前的斷點對第一分部或第二分部中心進行增量續(xù)傳;如果是本部中心與兩個分部中心的鏈路異常,通過災(zāi)備系統(tǒng)實現(xiàn)本部中心生產(chǎn)數(shù)據(jù)庫服務(wù)端的自宕機程序?qū)ψ约哼M行保護性宕機(如停止數(shù)據(jù)庫服務(wù)、應(yīng)用系統(tǒng)服務(wù)和EXE文件等)。第一分部中心作為第一優(yōu)先級執(zhí)行相關(guān)的數(shù)據(jù)庫系統(tǒng)、業(yè)務(wù)系統(tǒng)自動接管,待鏈路恢復(fù)后,由第一分部中心延續(xù)斷網(wǎng)前的斷點對本部中心進行增量續(xù)傳,配置相關(guān)的回切策略進行計劃內(nèi)回切。
④當(dāng)本部中心異常,第一分部中心、第二分部中心正常。本部中心采用雙機雙柜方式進行服務(wù),任一服務(wù)器或存儲宕機情況下,均不影響正常業(yè)務(wù)。若本部中心雙機雙柜方式不能提供服務(wù),該種情況下第一分部中心作為第一優(yōu)先級執(zhí)行相關(guān)的數(shù)據(jù)庫系統(tǒng)、業(yè)務(wù)系統(tǒng)自動接管,確保生產(chǎn)端和災(zāi)備端的數(shù)據(jù)一致性。通過災(zāi)備系統(tǒng)實現(xiàn)本部中心生產(chǎn)數(shù)據(jù)庫服務(wù)端的自宕機程序?qū)ψ约哼M行保護性宕機(如停止數(shù)據(jù)庫服務(wù)、應(yīng)用系統(tǒng)服務(wù)和EXE文件等),待本部中心異常解除后,本部中心自動成為災(zāi)備中心,由第一分部中心延續(xù)斷網(wǎng)前的斷點對本部中心進行增量續(xù)傳,需配置相關(guān)的回切策略對本部中心進行計劃內(nèi)回切。
⑤當(dāng)本部中心異常,第一分部中心接管后,也出現(xiàn)異常的情況。該種情況下,第二災(zāi)備中心執(zhí)行相關(guān)的數(shù)據(jù)庫系統(tǒng)、業(yè)務(wù)系統(tǒng)自動接管。通過災(zāi)備系統(tǒng)實現(xiàn)第一分部中心生產(chǎn)數(shù)據(jù)庫服務(wù)端的自宕機程序?qū)ψ约哼M行保護性宕機(如停止數(shù)據(jù)庫服務(wù)、應(yīng)用系統(tǒng)服務(wù)和EXE文件等),待異常解除后,第一分部中心自動成為災(zāi)備中心。由第二分部中心延續(xù)斷網(wǎng)前的斷點對本部中心、第一分部中心進行增量續(xù)傳,同時故障災(zāi)備端應(yīng)對故障前的數(shù)據(jù)進行校驗,以確保數(shù)據(jù)的完好可用,完全保障備份數(shù)據(jù)的完整可用。完成切換后本部和第一分部客戶端統(tǒng)一連接至第二分部中心辦理業(yè)務(wù)。在本部恢復(fù)后可以配置相關(guān)的回切策略進行計劃內(nèi)回切。
2 技術(shù)指標(biāo)的規(guī)范化設(shè)計
按照容災(zāi)循環(huán)接管方案規(guī)劃的基本需求,對容災(zāi)系統(tǒng)研制和實施過程中的技術(shù)指標(biāo)進行規(guī)范化設(shè)計,需要從以下幾方面進行系統(tǒng)實施。
2.1 異常預(yù)警
在數(shù)據(jù)庫數(shù)據(jù)或文件數(shù)據(jù)實時備份過程中若出現(xiàn)異常情況,均要能及時進行短信和郵件預(yù)警。短信預(yù)警,需提供相應(yīng)的短信發(fā)送設(shè)備,并提供預(yù)警短信。
2.2 業(yè)務(wù)接管
在災(zāi)備中心接管業(yè)務(wù)后,在保證災(zāi)備中心業(yè)務(wù)不中斷的情況下,實現(xiàn)數(shù)據(jù)的恢復(fù)。對于接管后的數(shù)據(jù)庫數(shù)據(jù),可以采用增量回傳的方式進行數(shù)據(jù)恢復(fù);對于接管后的文件/文件夾數(shù)據(jù),在災(zāi)備中心接管后,記錄變化文件/文件夾的改動記錄,并采用增量回傳的方式進行數(shù)據(jù)恢復(fù)。可運用循環(huán)業(yè)務(wù)切換功能,實現(xiàn)A/B/C三地主從順序切換并互為災(zāi)備的功能要求。在本部中心出現(xiàn)故障后,第一分部中心或第二分部中心接管業(yè)務(wù)系統(tǒng)時,自動接管時間不大于15min。實現(xiàn)業(yè)務(wù)系統(tǒng)IP地址變更的情況下,各個客戶端電腦訪問業(yè)務(wù)系統(tǒng)的無感知。
2.3 數(shù)據(jù)恢復(fù)
災(zāi)備中心接管業(yè)務(wù)后,在保證災(zāi)備中心業(yè)務(wù)不中斷的情況下實現(xiàn)數(shù)據(jù)的恢復(fù)。對于接管后的數(shù)據(jù)庫數(shù)據(jù),可以采用增量回傳的方式進行數(shù)據(jù)恢復(fù);對于接管后的文件/文件夾數(shù)據(jù),在災(zāi)備中心接管后,記錄變化文件/文件夾的改動記錄,并采用增量回傳的方式進行數(shù)據(jù)的恢復(fù)。在回切業(yè)務(wù)至生產(chǎn)中心時,要保證異地災(zāi)備中心接管的業(yè)務(wù)不停機,且數(shù)據(jù)以增量數(shù)據(jù)的形式從接管業(yè)務(wù)的異地災(zāi)備中心實時傳輸至生產(chǎn)中心。
2.4 斷點續(xù)傳
在主機寫入數(shù)據(jù)的過程中斷電,備份機應(yīng)該具有和主機斷電前一樣的數(shù)據(jù)。當(dāng)供電恢復(fù)后,自動校驗存儲和備份服務(wù)器上的數(shù)據(jù),保證數(shù)據(jù)的準(zhǔn)確性和可用性,應(yīng)具備斷點續(xù)傳功能。
2.5 數(shù)據(jù)庫同步
在不停止數(shù)據(jù)庫服務(wù)的情況下,對數(shù)據(jù)庫進行自動監(jiān)控,將生產(chǎn)中心數(shù)據(jù)庫的所有變化實時同步到異地災(zāi)備中心。以增量數(shù)據(jù)捕獲的方式,可以將生產(chǎn)中心服務(wù)器上數(shù)據(jù)庫的任何變化不受距離限制,以增量數(shù)據(jù)傳輸?shù)姆绞綄崟r同步到災(zāi)備中心,嚴(yán)格保證生產(chǎn)中心和災(zāi)備中心數(shù)據(jù)的一致性和完整性。
實現(xiàn)數(shù)據(jù)庫實時同步,嚴(yán)格確保容災(zāi)數(shù)據(jù)庫的可靠性、穩(wěn)定性、一致性;實現(xiàn)數(shù)據(jù)庫操作語言(DML)復(fù)制,在生產(chǎn)數(shù)據(jù)庫上對記錄進行增、刪、改操作可自動、實時復(fù)制到容災(zāi)數(shù)據(jù)庫;實現(xiàn)數(shù)據(jù)庫定義語言(DDL)復(fù)制,在生產(chǎn)數(shù)據(jù)庫上進行各類數(shù)據(jù)庫對象的操作能自動復(fù)制到容災(zāi)數(shù)據(jù)庫,如建表、修改字段和建索引等操作。當(dāng)生產(chǎn)系統(tǒng)發(fā)生故障時,容災(zāi)系統(tǒng)能夠快速接管業(yè)務(wù),從而保障業(yè)務(wù)的連續(xù)性[2]。當(dāng)生產(chǎn)端故障修復(fù)時,支持將數(shù)據(jù)回切到生產(chǎn)端。
實現(xiàn)實時查看容災(zāi)端數(shù)據(jù)庫與生產(chǎn)端數(shù)據(jù)庫是否一致并且可用。當(dāng)生產(chǎn)數(shù)據(jù)庫發(fā)生故障時,容災(zāi)數(shù)據(jù)庫可接替生產(chǎn)數(shù)據(jù)庫投入運行。系統(tǒng)能對結(jié)構(gòu)化數(shù)據(jù)庫和非結(jié)構(gòu)化數(shù)據(jù)同時進行實時同步。
2.6 文件及文件夾同步
以增量數(shù)據(jù)捕捉方式,可以將生產(chǎn)中心服務(wù)器上的文件或文件夾的任何變化不受距離限制,以增量數(shù)據(jù)傳輸?shù)姆绞綄崟r同步到災(zāi)備中心。同時,備份的文件和文件夾必須支持任意時間點的還原功能。
3 關(guān)鍵技術(shù)研究
在容災(zāi)系統(tǒng)的建設(shè)過程中,會遇到主備端數(shù)據(jù)不一致、同步存在時差等問題,需要對照容災(zāi)系統(tǒng)規(guī)劃之初的關(guān)鍵技術(shù)指標(biāo),展開科技攻關(guān),從而使局域網(wǎng)內(nèi)異地容災(zāi)循環(huán)接管技術(shù)取得突破性進展。
3.1 容災(zāi)備份過程中數(shù)據(jù)保護存儲池的配置管理
將已安裝好的近線存儲設(shè)備與應(yīng)用主機接入到同一LAN中,設(shè)備管理的近線存儲可以為每臺需要保護的應(yīng)用主機供給存儲容量,使每臺應(yīng)用主機都可以訪問分配給自己的容量。這些容量被設(shè)備存儲管理器集中管理,附加了設(shè)備提供的高級功能進行數(shù)據(jù)的近線保護。
3.2 本異地容災(zāi)備份集中存儲池的數(shù)據(jù)版本管理
在近線存儲設(shè)備上已被附加了高級存儲功能,如SnapMark,其可以被設(shè)置為定時給所設(shè)定的卷生成時間標(biāo)記,對保存在存儲池中的數(shù)據(jù)版本進行管理,可以定時為保護的數(shù)據(jù)標(biāo)記版本,每次標(biāo)記時不會有數(shù)據(jù)搬遷的過程,只有當(dāng)新數(shù)據(jù)改寫舊數(shù)據(jù)時,才會將要被改寫的舊數(shù)據(jù)搬遷到一個快照區(qū)中,保護標(biāo)記的那一時刻點數(shù)據(jù)的完整性。因此,可以說是邏輯上的數(shù)據(jù)版本管理,最佳化存儲容量的使用。
3.3 循環(huán)接管數(shù)據(jù)的快速恢復(fù)
應(yīng)用是否正常取決于數(shù)據(jù)是否正常。對于全備、增量、差異等備份方式來說,數(shù)據(jù)的正常需要一個恢復(fù)的過程??s短RTO的有效方式就是實時恢復(fù),CDP容災(zāi)備份系統(tǒng)可以實現(xiàn)數(shù)據(jù)從主機備份到備份機后,隨時進行恢復(fù),等待應(yīng)用對數(shù)據(jù)的調(diào)用,是一份最新、完整的Standby數(shù)據(jù)。隨時準(zhǔn)備接管主機,保障業(yè)務(wù)的連續(xù)性[3]。業(yè)務(wù)接管模型見圖2。
3.4 循環(huán)接管站點的建設(shè)
在災(zāi)備站點將存儲管理器接入災(zāi)備中心的SAN中,通過設(shè)備對SAN中的存儲設(shè)備進行管理,就可以進行容災(zāi)系統(tǒng)的實時容災(zāi)配置,通過使用兩端即生產(chǎn)站點和災(zāi)備站點的遠(yuǎn)程容災(zāi)功能,就可以在線配置容災(zāi)保護系統(tǒng)。
3.5 實施數(shù)據(jù)的遠(yuǎn)程容災(zāi)
生產(chǎn)站點和容災(zāi)站點的存儲設(shè)備都被設(shè)備存儲管理器管理起來后,就可以在線對生產(chǎn)中心的近線存儲設(shè)備提供數(shù)據(jù)的遠(yuǎn)程容災(zāi)保護,通過設(shè)定的策略會自動地以增量的方式將所需保護的數(shù)據(jù)通過IP網(wǎng)復(fù)制到遠(yuǎn)端災(zāi)備中心的存儲設(shè)備中。
復(fù)制的策略有2種:一是基于增量的方式,如數(shù)據(jù)的增量及定時復(fù)制;二是連續(xù)的數(shù)據(jù)復(fù)制。兩種方式都能在生產(chǎn)中心的主機不受影響的情況下,異步將數(shù)據(jù)通過網(wǎng)絡(luò)層搬遷到遠(yuǎn)程的災(zāi)備中心,實現(xiàn)數(shù)據(jù)的遠(yuǎn)程容災(zāi)。快速恢復(fù)系統(tǒng)服務(wù)模型見圖3。
3.6 災(zāi)難發(fā)生時的業(yè)務(wù)異地接管和恢復(fù)
災(zāi)難發(fā)生時,若生產(chǎn)站點受損不能提供業(yè)務(wù)服務(wù),將災(zāi)備中心的存儲管理器所管理的在復(fù)制鏈中的復(fù)制盤提升出來,臨時分配給備機或生產(chǎn)中心現(xiàn)有的主機或已修復(fù)的主機,可以通過多種鏈路供給主機進行數(shù)據(jù)存取訪問。災(zāi)備中心的備機可以通過SAN進行存取訪問,最大化保證業(yè)務(wù)系統(tǒng)的在線性[4]。
3.7 災(zāi)難發(fā)生后的數(shù)據(jù)恢復(fù)
災(zāi)難發(fā)生后的數(shù)據(jù)恢復(fù),修復(fù)好生產(chǎn)中心的主機及存儲設(shè)備后,然后再將復(fù)制盤中的數(shù)據(jù)反向復(fù)制到生產(chǎn)中心已修復(fù)好的磁盤中,當(dāng)數(shù)據(jù)完全同步復(fù)制完成后,就可以將業(yè)務(wù)系統(tǒng)切換到生產(chǎn)中心,恢復(fù)日常業(yè)務(wù)處理,同時再依次恢復(fù)以前的數(shù)據(jù)容災(zāi)保護方式,恢復(fù)數(shù)據(jù)的近線災(zāi)難保護及遠(yuǎn)程災(zāi)難保護。異地災(zāi)備模型見圖4。
4 結(jié)語
建立異地循環(huán)接管、恢復(fù)體系,實現(xiàn)在本地與異地架構(gòu)瞬間的恢復(fù)體系。災(zāi)備系統(tǒng)的數(shù)據(jù)庫一致性保證,即不間斷地為數(shù)據(jù)處理提供自動管理保護。容災(zāi)技術(shù)與循環(huán)接管高效融合,保障循環(huán)接管的時效性,從而保證生產(chǎn)系統(tǒng)持續(xù)穩(wěn)定、高效地提供服務(wù)。
參考文獻:
[1]張慧明,周德群.網(wǎng)絡(luò)環(huán)境下政府信息資源共享能力評價研究[J].情報科學(xué),2008(4):595-598.
[2]郭琪.政府信息資源共享的障礙因素分析與對策研究[J].特區(qū)經(jīng)濟,2008(3):229-230.
[3]萬瑾慧,李濤,胡曉勤,等.一種應(yīng)用級容災(zāi)系統(tǒng)的設(shè)計與實現(xiàn)[J].計算機安全,2008(2):7-9.
[4]周煥軍,張士平.遠(yuǎn)程應(yīng)用級容災(zāi)系統(tǒng)架構(gòu)設(shè)計與研究[J].計算機工程,2006(10):277-279.