摘 要:本文主要介紹了備份和容災(zāi)的概念與技術(shù)、分析了本油田的科研系統(tǒng)現(xiàn)狀,結(jié)合本油田的科研系統(tǒng)特點(diǎn)詳細(xì)闡述了科研系統(tǒng)備份策略的實(shí)施,并對(duì)備份的實(shí)施進(jìn)行了總結(jié)。
關(guān)鍵詞:備份;容災(zāi);數(shù)據(jù);恢復(fù)
中圖分類號(hào):TP309
隨著信息時(shí)代的到來(lái),人類社會(huì)所創(chuàng)造的信息數(shù)據(jù)呈幾何級(jí)數(shù)累積增長(zhǎng),企業(yè)對(duì)數(shù)據(jù)信息的依賴程度超過(guò)了任何一個(gè)時(shí)代。數(shù)據(jù)是已成為企業(yè)最為寶貴的財(cái)富,是企業(yè)持續(xù)運(yùn)作和成功的保證。在實(shí)際應(yīng)用中,人為錯(cuò)誤、硬件故障、電腦病毒、自然災(zāi)難等都可以造成系統(tǒng)和數(shù)據(jù)的破壞乃至丟失,給企業(yè)造成無(wú)法估量的損失,因此數(shù)據(jù)的備份與容災(zāi)至關(guān)重要。對(duì)一個(gè)完整的IT系統(tǒng)而言,備份工作是其中必不可少的組成部分,其意義不僅在于防范意外事件的破壞,而且還是歷史數(shù)據(jù)保存歸檔的最佳方式。
1 油田科研系統(tǒng)現(xiàn)狀
我們油田目前的科研軟件系統(tǒng)主要有六大板塊:勘探,開(kāi)發(fā),地質(zhì),處理,測(cè)井、繪圖。
科研軟件系統(tǒng)主要包括GeoFrame綜合解釋系統(tǒng)、LandMark DSD綜合解釋系統(tǒng),油藏?cái)?shù)值模擬Petrel系統(tǒng),地震資料處理Echos系統(tǒng),地震資料反演Hrs系統(tǒng),地質(zhì)建模PetroMod系統(tǒng),測(cè)井解釋Geolog系統(tǒng)以及繪圖軟件ZEH系統(tǒng)等。
科研軟件運(yùn)行的操作系統(tǒng)主要有Solaris,Red Hat Linux和Windows。
油田科研數(shù)據(jù)包勘探采集原始數(shù)據(jù),處理成果數(shù)據(jù),綜合解釋成果數(shù)據(jù),油藏?cái)?shù)值模擬數(shù)據(jù),油田開(kāi)發(fā)生產(chǎn)數(shù)據(jù),GeoFrame工區(qū)數(shù)據(jù),OpenWorks工區(qū)數(shù)據(jù),Oracle數(shù)據(jù)庫(kù)。我們的科研數(shù)據(jù)一般存放在NAS網(wǎng)絡(luò)存儲(chǔ)上,少數(shù)放在服務(wù)器的磁盤(pán)陣列上,數(shù)據(jù)總量大約90TB。
我們目前的科研系統(tǒng)的備份機(jī)制是通過(guò)Veritas的NBU備份軟件將科研數(shù)據(jù)備份到IBM帶庫(kù)?,F(xiàn)有的備份方式雖然可以滿足一般故障導(dǎo)致的數(shù)據(jù)丟失,但數(shù)據(jù)恢復(fù)的速度有所欠缺,另外一方面,在發(fā)生災(zāi)害導(dǎo)致生產(chǎn)存儲(chǔ)宕機(jī)的情況下,現(xiàn)有的備份機(jī)制則不能滿足生產(chǎn)業(yè)務(wù)連續(xù)不間斷的需求。
2 備份
2.1 備份
備份就是將數(shù)據(jù)以某種方式加以保留,以便在系統(tǒng)和數(shù)據(jù)遭受破壞時(shí),數(shù)據(jù)可以恢復(fù)利用。備份可以分為系統(tǒng)備份和數(shù)據(jù)備份。
當(dāng)前應(yīng)用比較廣泛的備份介質(zhì)主要有光盤(pán),磁盤(pán)和磁帶。光盤(pán)的數(shù)據(jù)存儲(chǔ)速度較快,單位存儲(chǔ)成本較高,主要應(yīng)用于重要數(shù)據(jù)的永久歸檔存儲(chǔ)。硬盤(pán)的主要特點(diǎn)是數(shù)據(jù)存取速度快,單位存儲(chǔ)成本高,主要應(yīng)用于在線數(shù)據(jù)的存儲(chǔ)。磁帶存儲(chǔ)時(shí)間長(zhǎng),可靠性也高,但存取速度較慢,主要應(yīng)用于對(duì)備份設(shè)備可靠性要求較高,而對(duì)存取速度要求不高的情況。在實(shí)際應(yīng)用中,要綜合考慮介質(zhì)的可靠性、速度、費(fèi)用等多重因素來(lái)選擇適合自己備份需要的備份介質(zhì)。
2.2 容災(zāi)
容災(zāi)是為了在遭遇災(zāi)害時(shí)能保證信息系統(tǒng)能正常運(yùn)行以實(shí)現(xiàn)業(yè)務(wù)生產(chǎn)的連續(xù)性,備份是為了應(yīng)對(duì)災(zāi)難來(lái)臨時(shí)造成的數(shù)據(jù)丟失問(wèn)題,所以備份是容災(zāi)的基礎(chǔ)。
容災(zāi)備份系統(tǒng)是指在相隔較遠(yuǎn)的異地,建立兩套或多套功能相同的IT系統(tǒng),相互之間可以進(jìn)行狀態(tài)監(jiān)視和功能切換,當(dāng)一處系統(tǒng)因意外停止工作時(shí),整個(gè)應(yīng)用系統(tǒng)可以切換到另一處,使得該系統(tǒng)功能可以繼續(xù)正常工作。
構(gòu)建容災(zāi)備份系統(tǒng)會(huì)應(yīng)用到多種技術(shù),如NAS技術(shù)、遠(yuǎn)程鏡像技術(shù)、基于IP的SAN的互連技術(shù)、快照技術(shù)等。衡量容災(zāi)備份的兩個(gè)技術(shù)指標(biāo)為RPO和RTO。RPO(Recovery Point Objective)即數(shù)據(jù)恢復(fù)點(diǎn)目標(biāo),主要指業(yè)務(wù)系統(tǒng)所能容忍的數(shù)據(jù)丟失量。RTO(Recovery Time Objective)即恢復(fù)時(shí)間目標(biāo),主要指所能容忍的業(yè)務(wù)停止服務(wù)的最長(zhǎng)時(shí)間,也就是從災(zāi)難發(fā)生到業(yè)務(wù)系統(tǒng)恢復(fù)服務(wù)功能所需要的最短時(shí)間周期。在實(shí)際應(yīng)用中,我們應(yīng)根據(jù)不同的應(yīng)用需求來(lái)選擇適合自己應(yīng)用的技術(shù),并且制定滿足自己需求的技術(shù)指標(biāo)。
3 備份策略的實(shí)施
基于我們油田當(dāng)前的科研系統(tǒng)現(xiàn)狀,我們制定了如下4個(gè)層次的備份策略:科研軟件系統(tǒng)的備份、oracle數(shù)據(jù)庫(kù)的備份、科研數(shù)據(jù)的近線備份以及科研數(shù)據(jù)的容災(zāi)備份。我們所制定的4級(jí)備份機(jī)制,對(duì)我們的科研系統(tǒng)實(shí)現(xiàn)了全面保護(hù)。在硬件發(fā)生故障或用戶操作不當(dāng)導(dǎo)致軟件系統(tǒng)遭到破壞或者科研數(shù)據(jù)遭到破壞的情況下,我們的各層備份機(jī)制都會(huì)即時(shí)工作,將科研軟件系統(tǒng)和科研數(shù)據(jù)在最短的時(shí)間內(nèi)恢復(fù)到正常的工作狀態(tài),以保障科研生產(chǎn)業(yè)務(wù)的連續(xù)進(jìn)行。
3.1 科研軟件系統(tǒng)的備份
我們?cè)诳蒲熊浖醮伟惭b配置結(jié)束后和軟件升級(jí)安裝配置結(jié)束后,均會(huì)打包備份到網(wǎng)絡(luò)存儲(chǔ)指定位置,然后和網(wǎng)絡(luò)存儲(chǔ)上的科研數(shù)據(jù)一起進(jìn)行近線備份和容災(zāi)備份。
科研軟件的備份一般都是完全備份,備份時(shí)間則根據(jù)實(shí)際需要靈活調(diào)整。
3.2 科研軟件oracle數(shù)據(jù)庫(kù)的物理備份
我們的Oracle數(shù)據(jù)庫(kù)是為GeoFrame和OpenWorks軟件服務(wù)的,數(shù)據(jù)庫(kù)運(yùn)行在linux和solaris系統(tǒng)上。針對(duì)oracle數(shù)據(jù)庫(kù),我們編寫(xiě)了shell腳本,對(duì)數(shù)據(jù)庫(kù)進(jìn)行隔天一次的自動(dòng)冷備份,并且保留1個(gè)月的備份文件。備份文件我們放在網(wǎng)絡(luò)存儲(chǔ)制定的位置,然后和網(wǎng)絡(luò)存儲(chǔ)上的科研數(shù)據(jù)一起進(jìn)行近線備份和容災(zāi)備份。
此外,我們還利用NetApp所特有的SMO(Snapmanager for oracle)技術(shù)做oracle數(shù)據(jù)庫(kù)的在線備份,將數(shù)據(jù)庫(kù)在線備份同步到近線存儲(chǔ)。SnapManager通過(guò)Snapshot、SnapRestore和FlexClone技術(shù)可以創(chuàng)建數(shù)據(jù)庫(kù)的檔案文件,完成數(shù)據(jù)庫(kù)的備份和數(shù)據(jù)庫(kù)的恢復(fù)工作。針對(duì)GeoFrame軟件和OpenWorks軟件的oracle數(shù)據(jù)庫(kù)我們選取每12小時(shí)同步到近線存儲(chǔ)的策略。
3.3 科研數(shù)據(jù)的近線備份
我們的科研數(shù)據(jù)主要存放于網(wǎng)絡(luò)存儲(chǔ)上,我們的主生產(chǎn)存儲(chǔ)為NetApp,考慮到近線備份數(shù)據(jù)要與生產(chǎn)存儲(chǔ)數(shù)據(jù)格式保持一致,我們的近線備份存儲(chǔ)選擇的是和生產(chǎn)存儲(chǔ)同構(gòu)的存儲(chǔ),即NetApp網(wǎng)絡(luò)存儲(chǔ)。
近線備份的數(shù)據(jù)主要包括三部分,一是生產(chǎn)在線應(yīng)用數(shù)據(jù)和項(xiàng)目工區(qū)的備份數(shù)據(jù);二是最近的30份增量備份數(shù)據(jù)(每天一次增量備份);三是軟件系統(tǒng)的備份文件及Oracle數(shù)據(jù)庫(kù)的備份。
對(duì)于存放于網(wǎng)絡(luò)存儲(chǔ)上的科研數(shù)據(jù),我們利用NetApp的SnapMirror功能完成科研數(shù)據(jù)的近線備份,數(shù)據(jù)的備份和生產(chǎn)存儲(chǔ)保持同步,即數(shù)據(jù)格式和生產(chǎn)存儲(chǔ)數(shù)據(jù)格式保持一致。對(duì)于存放于服務(wù)器掛接的磁盤(pán)陣列上的科研數(shù)據(jù),對(duì)這部分異構(gòu)平臺(tái)上的科研數(shù)據(jù),我們利用Netapp特有的OSSV(Open System SnapVault)技術(shù),完成了異構(gòu)數(shù)據(jù)的近線備份。當(dāng)主生產(chǎn)存儲(chǔ)發(fā)生數(shù)據(jù)丟失或者硬件故障時(shí),數(shù)據(jù)能快速地從近線備份中恢復(fù),必要時(shí)能快速地切換,替代主生產(chǎn)存儲(chǔ),以保障科研生產(chǎn)業(yè)務(wù)的持續(xù)性。
數(shù)據(jù)的近線備份的策略是2小時(shí)同步一次數(shù)據(jù),近線存儲(chǔ)的快照每天2次,并且保留最近2周的快照,每周一次的備份保留最近的14份。
3.4 科研數(shù)據(jù)的容災(zāi)備份
綜合考慮到備份的重要程度以及硬件的投資成本,容災(zāi)備份的存儲(chǔ)我們選擇了DELL存儲(chǔ),異地容災(zāi)地點(diǎn)選為北京。
容災(zāi)備份的數(shù)據(jù)主要包括三部分:一是近線存儲(chǔ)上的數(shù)據(jù);二是24份為期2年的增量備份(每月一次增量備份);三是歷史數(shù)據(jù),主要是離線的綜合解釋工區(qū)和歸檔的成果數(shù)據(jù)。我們通過(guò)測(cè)算,容災(zāi)備份的數(shù)據(jù)總量約是近線備份數(shù)據(jù)總量的1.5倍,考慮到數(shù)據(jù)量較大,異地容災(zāi)存儲(chǔ)采用去重或壓縮格式來(lái)保存數(shù)據(jù)。
我們根據(jù)應(yīng)用需求,制定了詳細(xì)策略,利用DELL zNAS的Auto-Tier復(fù)制功能將一級(jí)近線備份系統(tǒng)NetApp的數(shù)據(jù)同步到本地DELL zNAS的二級(jí)備份系統(tǒng)中,然后再利用DELL的遠(yuǎn)程CDP功能將本地二級(jí)備份的CDP持續(xù)數(shù)據(jù)保護(hù)點(diǎn)異步復(fù)制到異地災(zāi)備系統(tǒng)中,實(shí)現(xiàn)數(shù)據(jù)本地、異地兩個(gè)級(jí)別的CDP持續(xù)數(shù)據(jù)保護(hù),從而完善本地?cái)?shù)據(jù)生產(chǎn)存儲(chǔ)->一級(jí)近線備份->二級(jí)備份->異地備份的全面保護(hù)。在生產(chǎn)系統(tǒng)與一級(jí)備份的數(shù)據(jù)不可用時(shí),可以通過(guò)二級(jí)備份和容災(zāi)備份本地的CDP持續(xù)保護(hù)點(diǎn)將科研數(shù)據(jù)恢復(fù)到需要的歷史時(shí)間點(diǎn)。
二級(jí)備份的策略是每天與近線存儲(chǔ)同步一次數(shù)據(jù),存儲(chǔ)zNAS的快照每天備份一次并且保留最近一周的天備份,每周一次的備份保留28份,每月一次的備份保留24份。異地容災(zāi)備份每天與二級(jí)備份系統(tǒng)同步一次,日CDP保護(hù)點(diǎn)每天7份且保留一周,周CDP保護(hù)點(diǎn)每周5份且保留5周,月CDP保護(hù)點(diǎn)每月24份且保留2年。我們?nèi)轂?zāi)備份的容災(zāi)級(jí)別接近數(shù)據(jù)容災(zāi)4級(jí),即數(shù)據(jù)丟失容忍度(RPO)為1小時(shí)至2天,恢復(fù)時(shí)間目標(biāo)(RTO)為1小時(shí)至2天。
4 結(jié)束語(yǔ)
我們通過(guò)制定各級(jí)的備份策略,使得我們的科研系統(tǒng)實(shí)現(xiàn)了從本地生產(chǎn)存儲(chǔ)->一級(jí)近線備份->二級(jí)備份->異地備份的全面保護(hù)。在硬件發(fā)生故障或用戶操作不當(dāng)導(dǎo)致軟件系統(tǒng)遭到破壞或者科研數(shù)據(jù)遭到破壞的情況下,我們的各層備份機(jī)制都會(huì)即時(shí)工作,將科研軟件系統(tǒng)和科研數(shù)據(jù)在最短的時(shí)間內(nèi)恢復(fù)到正常的工作狀態(tài),以保障科研生產(chǎn)業(yè)務(wù)的連續(xù)進(jìn)行。
參考文獻(xiàn):
[1]朱斌.油田開(kāi)發(fā)生產(chǎn)數(shù)據(jù)庫(kù)備份策略[J].石油工業(yè)計(jì)算機(jī)應(yīng)用,2012(03):10-12.
[2]文領(lǐng)章,劉財(cái),魏旭光.網(wǎng)絡(luò)存儲(chǔ)技術(shù)在石油地震資料處理中的應(yīng)用[J].吉林大學(xué)學(xué)報(bào)(地球科學(xué)版),2012(40):63-66.
[3]宋紅,張冬萍,馮宗凡.基于存儲(chǔ)虛擬化數(shù)據(jù)復(fù)制及恢復(fù)實(shí)現(xiàn)異地容災(zāi)技術(shù)在吐哈油田的應(yīng)用[J].中國(guó)信息界,2011(07):89-90.
[4]郭靜,劉文昌.淺談石油企業(yè)信息安全管理[J].科技資訊,2010(13):160-162.
[5]孫宏志,黃亮,楊群山.數(shù)據(jù)備份系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].東北地震研究,2008(24):50-54.
[6]肖翔,解利軍.完善油田開(kāi)發(fā)數(shù)據(jù)安全的備份機(jī)制[J].計(jì)算機(jī)光盤(pán)軟件與應(yīng)用,2012(16):216-217.
作者簡(jiǎn)介:王梅英,女,碩士,工程師,畢業(yè)于中國(guó)石油大學(xué)(華東),從事系統(tǒng)管理工作;張樂(lè)波,男,學(xué)士學(xué)位,工程師,畢業(yè)于山東理工大學(xué),從事安全工作。
作者單位:中海石油(中國(guó))有限公司上海分公司,上海 200030;上海科仁企業(yè)管理咨詢有限公司,上海 200436