□ 浙江省國土資源廳信息中心 倪云英
地質(zhì)資料電子數(shù)據(jù)完整性檢測與修復(fù)存儲(chǔ)研究
□ 浙江省國土資源廳信息中心 倪云英
隨著科學(xué)技術(shù)的快速發(fā)展,數(shù)據(jù)和網(wǎng)絡(luò)成為重要的基礎(chǔ)設(shè)施。地質(zhì)資料電子數(shù)據(jù)的讀寫依賴于計(jì)算機(jī),但當(dāng)計(jì)算機(jī)硬件和軟件等更新后,新的軟硬件與舊的軟硬件的兼容性存在相當(dāng)大的問題。同時(shí),因互聯(lián)網(wǎng)鏈接形式的多樣性和開放性,網(wǎng)絡(luò)極易受到黑客、惡意軟件等攻擊和病毒入侵。病毒蠕蟲的爆發(fā),系統(tǒng)的多樣性,導(dǎo)致地質(zhì)資料電子數(shù)據(jù)常常出現(xiàn)泄密、假冒、篡改和銷毀等現(xiàn)象,給地質(zhì)資料電子數(shù)據(jù)的真實(shí)性和完整性帶來巨大的威脅。
保證地質(zhì)資料電子文件的完整,確保館藏地質(zhì)資料電子數(shù)據(jù)的安全,防止數(shù)據(jù)的失效、數(shù)據(jù)的丟失,使硬盤和光盤間的電子數(shù)據(jù)保持一致性已成為亟待迫切解決的問題。電子數(shù)據(jù)完整性數(shù)據(jù)檢測與修復(fù)技術(shù)的研究已成為解決這一問題的關(guān)鍵點(diǎn)。
地質(zhì)資料電子數(shù)據(jù)和傳統(tǒng)紙質(zhì)地質(zhì)資料有諸多方面的不同:地質(zhì)資料電子數(shù)據(jù)需要特定的載體來存儲(chǔ),其信息和載體的分離、存儲(chǔ)形式,使得地質(zhì)資料電子數(shù)據(jù)具有易修改、復(fù)制和刪除等特點(diǎn),修改、復(fù)制、刪除后不留痕跡。地質(zhì)資料電子數(shù)據(jù)的存儲(chǔ)載體是磁電物質(zhì),在多種因素的影響下,載體的壽命較短,地質(zhì)資料電子數(shù)據(jù)難以長久保管。另外,自然災(zāi)害和人為損壞也會(huì)對地質(zhì)資料電子數(shù)據(jù)的存儲(chǔ)載體造成致命的破壞。
作為“數(shù)字國土工程”的重要組成部分,開展地質(zhì)資料電子數(shù)據(jù)完整性檢測與修復(fù)存儲(chǔ)工作,是服務(wù)于找礦突破和地質(zhì)防災(zāi),實(shí)現(xiàn)國土資源信息服務(wù)社會(huì)化的基礎(chǔ)保障,同時(shí)是建立為經(jīng)濟(jì)社會(huì)發(fā)展提供地質(zhì)資料全面服務(wù)的手段之一,也是建立以現(xiàn)代信息技術(shù)為支撐的國土資源行政管理——礦政管理新體制的一個(gè)重要前提。尤其是結(jié)合重大項(xiàng)目的實(shí)施,將地質(zhì)資料電子數(shù)據(jù)完整性檢測與修復(fù)技術(shù)應(yīng)用于產(chǎn)品服務(wù),具有十分重要的意義。
信息時(shí)代的到來,使得地質(zhì)資料電子數(shù)據(jù)成了目前最有價(jià)值的產(chǎn)物,同時(shí)地質(zhì)資料電子數(shù)據(jù)也造成了巨大的工作量。從2000年起至2016年12月底,館藏地質(zhì)資料電子數(shù)據(jù),共有近11470余種、39萬件地質(zhì)資料電子數(shù)據(jù)信息服務(wù),數(shù)據(jù)量達(dá)4.5TB。其中數(shù)字化地質(zhì)資料電子數(shù)據(jù)5190種、匯交地質(zhì)資料電子數(shù)據(jù)6670種,共有CD、DVD光盤7341張。
因電子文件相對于紙質(zhì)文件而言,對環(huán)境溫濕度、防磁性、抗破壞、抗病毒等條件具有很高的要求。電子文件易被有意或無意損壞,當(dāng)存貯光盤等載體上的電子文件,在保管時(shí)受到外界干擾或者存貯環(huán)境不宜,就會(huì)導(dǎo)致電子文件損壞。隨著浙江省探礦、找礦突破和礦產(chǎn)資源開發(fā)加快推進(jìn),地質(zhì)資料電子數(shù)據(jù)量也在迅速增長,數(shù)據(jù)的海量增長使得地質(zhì)資料電子數(shù)據(jù)信息數(shù)據(jù)中心面臨巨大挑戰(zhàn)。
面對近20年來積累的龐大電子數(shù)據(jù),浙江省需要建立地質(zhì)資料電子數(shù)據(jù)完整性檢測與修復(fù)系統(tǒng)來實(shí)現(xiàn)高效保護(hù)珍貴的各類地質(zhì)資料數(shù)據(jù),這是目前的核心要?jiǎng)?wù)。
為建立一個(gè)相對安全的海量數(shù)據(jù)檢測、修復(fù)存儲(chǔ)備份系統(tǒng),需要考慮和解決以下幾個(gè)問題。
(一)數(shù)據(jù)檢測修復(fù)存儲(chǔ)的標(biāo)準(zhǔn)
就地質(zhì)資料電子數(shù)據(jù)來說,數(shù)據(jù)的法規(guī)遵從性主要體現(xiàn)在數(shù)據(jù)的不可更改性和不可刪除性,為能安全的長期保存,地質(zhì)資料電子數(shù)據(jù)必須存儲(chǔ)在WORM(Write Once,Read Many)媒體上。
按照《電子文件歸檔與管理規(guī)范》規(guī)定,將電子文件集中下載到可脫機(jī)保存的載體上。由推薦采用的載體,優(yōu)先順序?yàn)椋褐蛔x光盤、一次寫光盤、磁帶、可擦寫光盤、硬磁盤等,《企業(yè)檔案工作規(guī)范》中規(guī)定,地質(zhì)資料電子數(shù)據(jù)需存儲(chǔ)在脫機(jī)載體上,其地質(zhì)資料電子數(shù)據(jù)為一式三套,一套封存保管,一套異地保管,一套提供使用(DA/T42-2009)。根據(jù)《縮膠片數(shù)字化技術(shù)規(guī)范》要求,為保證數(shù)據(jù)安全,存儲(chǔ)裁體應(yīng)多樣化,采用在線、離線相結(jié)合的方式實(shí)現(xiàn)多套備份,并考慮進(jìn)行異地保管。
(二)數(shù)據(jù)存儲(chǔ)介質(zhì)
目前,數(shù)據(jù)存儲(chǔ)介質(zhì)可分為磁存儲(chǔ)介質(zhì)和光存儲(chǔ)介質(zhì)兩大類。磁存儲(chǔ)介質(zhì)主要包括磁(硬)盤和磁帶;光存儲(chǔ)介質(zhì)即指光盤,而光盤又分為CD、DVD和BD。
1.磁存儲(chǔ)介質(zhì)
目前,磁盤和磁帶技術(shù)經(jīng)過多年發(fā)展已經(jīng)相對成熟,其特點(diǎn)是單盤容量較大。一般情況下,磁帶被用作近線或離線備份介質(zhì),磁盤被用作在線存儲(chǔ)介質(zhì)。而磁盤陣列(Disk Array)是由一個(gè)硬盤控制器來控制多個(gè)硬盤的相互連接,使多個(gè)硬盤讀寫同步,減少錯(cuò)誤,增加效率和可靠度的技術(shù)。磁盤的出現(xiàn)把磁存儲(chǔ)時(shí)代推向了一個(gè)至高點(diǎn)。磁盤陣列存儲(chǔ)容量大,查找數(shù)據(jù)速度要比單個(gè)硬盤高很多,并且能提供自動(dòng)數(shù)據(jù)備份。磁盤作為一個(gè)基礎(chǔ)的存儲(chǔ)單元被組合成為磁盤陣列、大型的網(wǎng)絡(luò)存儲(chǔ)系統(tǒng)以及數(shù)據(jù)備份設(shè)備,已廣泛被應(yīng)用于數(shù)據(jù)的存儲(chǔ)、數(shù)據(jù)的歸檔。
2.光存儲(chǔ)介質(zhì)
隨著網(wǎng)絡(luò)和數(shù)字多媒體技術(shù)的快速發(fā)展,磁介質(zhì)技術(shù)的發(fā)展和價(jià)格大幅下降,光盤作用數(shù)據(jù)存儲(chǔ)和備份的應(yīng)用逐漸萎縮。非結(jié)構(gòu)化數(shù)據(jù)的快速增長所帶來的海量數(shù)據(jù)備份需求,使得光存儲(chǔ)介質(zhì)重新迎來了發(fā)展機(jī)遇,尤其是已被普遍應(yīng)用于專業(yè)數(shù)據(jù)備份領(lǐng)域的藍(lán)光光盤技術(shù)日臻穩(wěn)定和成熟。藍(lán)光光盤單盤容量可達(dá)50G-100G,而且還在朝著更大容量發(fā)展。最重要的是光盤屬于真正意義上的物理介質(zhì)。相對于磁存儲(chǔ)介質(zhì),光盤是異質(zhì)存儲(chǔ)介質(zhì)。藍(lán)光光盤存儲(chǔ)數(shù)據(jù)具有壽命長、低耗能、低成本等優(yōu)點(diǎn)、短時(shí)間無需進(jìn)行數(shù)據(jù)遷移,既可應(yīng)用于近線存儲(chǔ),也可應(yīng)用于離線存儲(chǔ)。
圖1 工作流程圖
(三)系統(tǒng)建立
不論服務(wù)器磁盤還是備份光盤,可長期但不能永久性保存,存在硬盤故障、人為篡改、惡意病毒破壞等意外因素造成數(shù)據(jù)資產(chǎn)損失的風(fēng)險(xiǎn)。應(yīng)盡最大程度保護(hù)數(shù)據(jù),將服務(wù)器磁盤和光盤上雙保險(xiǎn),部署多層級(jí)、全方位的整體保護(hù)數(shù)據(jù)安全?;竟ぷ髁鞒倘鐖D1所示。
筆者建議,要按照《電子文件歸檔與管理規(guī)范》(GB/T18894-2002)和《光盤備份工作規(guī)范》要求,以用戶管理需求為主導(dǎo),以保護(hù)數(shù)據(jù)完整性為準(zhǔn)則,以準(zhǔn)確服務(wù)社會(huì)化利用為目標(biāo),開發(fā)地質(zhì)資料電子數(shù)據(jù)檢測和修復(fù)備份管理信息系統(tǒng),實(shí)現(xiàn)下述要求:采用磁盤和光盤兩種方式同步異地分別保管,實(shí)現(xiàn)驗(yàn)收入庫的電子數(shù)據(jù)實(shí)時(shí)備份保護(hù);按照“數(shù)字指紋”統(tǒng)一管理,確保每份電子數(shù)據(jù)文件和元數(shù)據(jù)的有效性、可讀性、完整性、一致性;為避免服務(wù)器硬件故障導(dǎo)致最新的、且尚未導(dǎo)出到光盤上的數(shù)據(jù)丟失,經(jīng)過實(shí)時(shí)備份,系統(tǒng)實(shí)現(xiàn)數(shù)據(jù)高效冗余;通過系統(tǒng)實(shí)現(xiàn)每張光盤可讀性檢查,對光盤的容量、是否可讀盤校驗(yàn);為確保系統(tǒng)可持續(xù)性提供服務(wù),實(shí)現(xiàn)與地質(zhì)資料業(yè)務(wù)系統(tǒng)集成。
(四)系統(tǒng)功能
運(yùn)用先進(jìn)的信息技術(shù)手段與管理標(biāo)準(zhǔn)、流程相結(jié)合,采用高內(nèi)聚、低耦合的方式設(shè)計(jì)新的軟件管理系統(tǒng)功能,與地質(zhì)資料業(yè)務(wù)管理系統(tǒng)集成。
利用現(xiàn)有服務(wù)器設(shè)備,新增實(shí)時(shí)備份存儲(chǔ)系統(tǒng)來實(shí)現(xiàn)磁盤數(shù)據(jù)同步備份,使數(shù)據(jù)形態(tài)和實(shí)體完全一致,采用時(shí)間戳功能實(shí)現(xiàn)邏輯回滾點(diǎn)。
當(dāng)發(fā)生點(diǎn)故障、或操作不當(dāng)導(dǎo)致數(shù)據(jù)丟失時(shí),備份系統(tǒng)能快速恢復(fù)故障前的數(shù)據(jù),檢查和驗(yàn)證多重?cái)?shù)據(jù),確保數(shù)據(jù)的高可用性。
光盤刻錄備份是磁盤備份的有益補(bǔ)充,針對光盤系統(tǒng)提供光盤自身可讀性校驗(yàn),輕松發(fā)現(xiàn)失效光盤并搶救恢復(fù)翻刻。
不同載體方式存儲(chǔ)的數(shù)據(jù),由MD5碼數(shù)字指紋保存和識(shí)別,對其容量、產(chǎn)生環(huán)境、生成時(shí)間等發(fā)生異樣,可用同一份數(shù)據(jù)再生成另一個(gè)MD5碼統(tǒng)一管理。
采用UML作為貫穿軟件生命周期的通用設(shè)計(jì)語言,以面向?qū)ο蟮脑O(shè)計(jì)方法設(shè)計(jì)本系統(tǒng),對下勘單位匯交的各單位電子文件(檔案)的數(shù)據(jù)來源、數(shù)據(jù)類型、文件格式、保存期限、存儲(chǔ)路徑集中管理,對數(shù)據(jù)的增長速度和數(shù)據(jù)總?cè)萘康阮A(yù)測,建立數(shù)據(jù)管控系統(tǒng),從而實(shí)現(xiàn)地質(zhì)資料數(shù)據(jù)的有效保護(hù)。
地質(zhì)資料電子數(shù)據(jù)檢測與修復(fù)存儲(chǔ)系統(tǒng)的建立是一項(xiàng)系統(tǒng)工程。系統(tǒng)以標(biāo)準(zhǔn)為準(zhǔn)則,對地質(zhì)資料電子數(shù)據(jù)進(jìn)行檢測、管理和存儲(chǔ)全周期管理。經(jīng)過常態(tài)化管理的檢測、修復(fù)存儲(chǔ)系統(tǒng),完成電子數(shù)據(jù)的完整性檢測修復(fù)建庫,向社會(huì)提供地質(zhì)資料數(shù)據(jù)資源共享和地質(zhì)資料產(chǎn)品服務(wù)。