張莉
一、現(xiàn)狀
隨著大數(shù)據(jù)時(shí)代的來(lái)臨,大部分大型的企業(yè)級(jí)的核心業(yè)務(wù)運(yùn)營(yíng)都依賴(lài)于其IT系統(tǒng),業(yè)務(wù)數(shù)據(jù)已經(jīng)成為企業(yè)的價(jià)值核心。所有業(yè)務(wù)系統(tǒng)正面臨的一個(gè)問(wèn)題是存放逐漸增長(zhǎng)的業(yè)務(wù)數(shù)據(jù)及很少訪問(wèn)的歷史信息等,這些數(shù)據(jù)會(huì)占用越來(lái)越多的系統(tǒng)資源,降低業(yè)務(wù)系統(tǒng)性能,導(dǎo)致用戶(hù)需要不斷升級(jí)服務(wù)器。但主存儲(chǔ)成本較高,容量也有限,系統(tǒng)性能還是不能滿(mǎn)足用戶(hù)越來(lái)越高的需求,而且龐大的數(shù)據(jù)量使得系統(tǒng)備份、恢復(fù)、遷移、升級(jí)等運(yùn)維工作處于困境,數(shù)據(jù)的安全得不到保障。
企業(yè)的核心數(shù)據(jù)是企業(yè)的生命。通過(guò)建立完善的數(shù)據(jù)保護(hù)系統(tǒng),保障核心數(shù)據(jù)安全運(yùn)營(yíng)及存儲(chǔ)已經(jīng)成為當(dāng)前企業(yè)的共識(shí)。為防止IT系統(tǒng)最重要的資產(chǎn)數(shù)據(jù)丟失,越來(lái)越多的企業(yè)開(kāi)始從信息系統(tǒng)的安全性、穩(wěn)定性和可靠性出發(fā),構(gòu)建自己的數(shù)據(jù)歸檔系統(tǒng)。
二、業(yè)務(wù)數(shù)據(jù)歸檔的好處
歸檔的目的是為了保證數(shù)據(jù)的長(zhǎng)期有效管理,并全面為企業(yè)發(fā)展提供有利信息。其帶來(lái)的好處包含如下幾個(gè)方面:
(一)降低成本。將數(shù)據(jù)按時(shí)從業(yè)務(wù)系統(tǒng)分離出來(lái)歸檔,使得企業(yè)IT系統(tǒng)運(yùn)行、維護(hù)、投入整體成本降低。
(二)縮短備份時(shí)間。由于數(shù)據(jù)增長(zhǎng)太快,即便備份人員使用了數(shù)據(jù)壓縮和重復(fù)數(shù)據(jù)刪除技術(shù)備份數(shù)據(jù),往往還是會(huì)遇到備份窗口的壓力。歸檔數(shù)據(jù)可以從備份任務(wù)中剝離幾十TB的數(shù)據(jù)甚至更多,大大縮短了備份時(shí)間。
(三)法規(guī)遵從。各級(jí)法律法規(guī)的要求必須執(zhí)行數(shù)據(jù)歸檔任務(wù)。
(四)保留知識(shí)。在當(dāng)今的大數(shù)據(jù)時(shí)代,企業(yè)也逐漸意識(shí)到利用海量數(shù)據(jù)分析的價(jià)值。
(五)系統(tǒng)性能提升。通過(guò)將歷史數(shù)據(jù)歸檔保存,大大減少了業(yè)務(wù)系統(tǒng)中運(yùn)行的數(shù)據(jù),企業(yè)可能會(huì)看到整體系統(tǒng)性能的提升。
從表面看,數(shù)據(jù)歸檔的程序并不復(fù)雜,但從實(shí)際操作卻很有挑戰(zhàn)性。在進(jìn)行歸檔操作前,一定要做好詳細(xì)長(zhǎng)遠(yuǎn)的規(guī)劃,要根據(jù)現(xiàn)階段及將來(lái)的數(shù)據(jù)歸檔環(huán)境及歸檔數(shù)據(jù)的管理做出相關(guān)的計(jì)劃,不僅需要滿(mǎn)足數(shù)據(jù)的生命周期需求,還需要滿(mǎn)足良好的性?xún)r(jià)比要求。
三、設(shè)立數(shù)據(jù)歸檔策略
做好歸檔策略就相當(dāng)于有了數(shù)據(jù)刪除策略。數(shù)據(jù)歸檔策略一般包含以下幾個(gè)方面:
(一)確定需要被歸檔的數(shù)據(jù)
實(shí)現(xiàn)智能歸檔的關(guān)鍵是消除無(wú)關(guān)數(shù)據(jù),而只保留需要的數(shù)據(jù)。數(shù)據(jù)不是盲目的為了歸檔而歸檔,是為了更方便的利用而歸檔。蘊(yùn)藏價(jià)值的數(shù)據(jù)是現(xiàn)階段企業(yè)發(fā)展和競(jìng)爭(zhēng)的必備條件,對(duì)于企業(yè)來(lái)說(shuō),被動(dòng)的、消極的應(yīng)付法規(guī)遵從的要求,只能保證其不違規(guī),不能保證其保存的數(shù)據(jù)能為企業(yè)的發(fā)展充分發(fā)揮其價(jià)值,因?yàn)檫@些企業(yè)可能會(huì)漏掉一些非常有價(jià)值的數(shù)據(jù)。而積極的尋找有價(jià)值的數(shù)據(jù)存儲(chǔ)并充分利用,將保證企業(yè)的發(fā)展。
(二)歸檔數(shù)據(jù)的存放位置
對(duì)具體的數(shù)據(jù)進(jìn)行詳細(xì)的規(guī)劃,將數(shù)據(jù)按照不同的業(yè)務(wù)或工序進(jìn)行分區(qū)域、分?jǐn)?shù)據(jù)庫(kù)、分表處理,把不同的數(shù)據(jù)定位到不同的區(qū)域、數(shù)據(jù)庫(kù)、表中,可以極大的減輕查詢(xún)壓力。對(duì)于復(fù)雜數(shù)據(jù)做多表關(guān)聯(lián)處理,以利于查詢(xún)。
(三)歸檔數(shù)據(jù)的標(biāo)準(zhǔn)
數(shù)據(jù)按應(yīng)用主要分三大類(lèi):以數(shù)據(jù)庫(kù)為主的全結(jié)構(gòu)化數(shù)據(jù)類(lèi)型,以文件系統(tǒng)為主的非結(jié)構(gòu)化數(shù)據(jù)類(lèi)型,以郵件為主的半結(jié)構(gòu)化數(shù)據(jù)類(lèi)型。
在企業(yè)中,數(shù)據(jù)的價(jià)值并不是全都一樣,也是在不斷變化的。各種類(lèi)別及類(lèi)型數(shù)據(jù)的特性不同,安全級(jí)別、存儲(chǔ)要求也不同,相應(yīng)的歸檔標(biāo)準(zhǔn)也就不同。將長(zhǎng)期存儲(chǔ)和短期存儲(chǔ)的數(shù)據(jù)同一條件保存,會(huì)造成對(duì)不需要保護(hù)的數(shù)據(jù)過(guò)度的配置資源,這會(huì)大大增加企業(yè)的成本。企業(yè)需要根據(jù)數(shù)據(jù)來(lái)源、重要性、訪問(wèn)頻率、訪問(wèn)性能和法規(guī)遵從等要求,用不同的存儲(chǔ)技術(shù)和媒體和介質(zhì)來(lái)更好的服務(wù)于不同類(lèi)型的歸檔數(shù)據(jù)。
(四)制定數(shù)據(jù)歸檔流程的相關(guān)機(jī)制
首先根據(jù)企業(yè)各業(yè)務(wù)或工序的實(shí)際情況,對(duì)系統(tǒng)數(shù)據(jù)進(jìn)行分類(lèi),再分析數(shù)據(jù)特性,最后根據(jù)業(yè)務(wù)現(xiàn)狀及流程調(diào)研情況,結(jié)合數(shù)據(jù)分類(lèi)結(jié)果與數(shù)據(jù)的特性制定數(shù)據(jù)歸檔流程,從而保障數(shù)據(jù)歸檔及存儲(chǔ)策略能夠更加符合業(yè)務(wù)、系統(tǒng)的實(shí)際需求,有效的發(fā)揮數(shù)據(jù)生命周期管理的價(jià)值。
需要注意的是,只有結(jié)束了業(yè)務(wù)流程的數(shù)據(jù)才可以被歸檔。在實(shí)際操作中,因各種原因,一般歸檔都是一條完整業(yè)務(wù)鏈的數(shù)據(jù)統(tǒng)一歸檔,而且還需要及時(shí),不能單落下某一個(gè)環(huán)節(jié)的數(shù)據(jù),否則可能影響整條業(yè)務(wù)鏈的數(shù)據(jù)都不能歸檔,這樣既造成了業(yè)務(wù)系統(tǒng)的負(fù)擔(dān),又影響應(yīng)歸檔數(shù)據(jù)不能歸檔,造成企業(yè)的損失。
(五)選擇合適的歸檔的方式
現(xiàn)階段數(shù)據(jù)歸檔方式一般有三種:
1、將需要?dú)w檔的數(shù)據(jù)打印到紙質(zhì)上。將需要?dú)w檔的數(shù)據(jù)從業(yè)務(wù)系統(tǒng)中按照一定的規(guī)則打印成紙質(zhì)檔案,按照傳統(tǒng)實(shí)體檔案的管理方式進(jìn)行保管和利用。這種方式的優(yōu)點(diǎn)是傳統(tǒng)檔案管理方式比較規(guī)范,紙質(zhì)檔案也可以保證長(zhǎng)期保存和有效查詢(xún)。缺點(diǎn)是因?yàn)閿?shù)據(jù)量很大,所需打印紙的量也很大,后期檔案員不但需要整理這些大量的紙質(zhì)檔案,還需要將這些紙質(zhì)檔案掃描成圖像后掛接到檔案信息系統(tǒng)中,才能在網(wǎng)上提供利用,這造成了很大的浪費(fèi)。
2、中間服務(wù)器數(shù)據(jù)庫(kù)合成封裝歸檔。業(yè)務(wù)系統(tǒng)將須歸檔的數(shù)據(jù)推到業(yè)務(wù)服務(wù)器和檔案系統(tǒng)服務(wù)器的一個(gè)中間服務(wù)器上。業(yè)務(wù)系統(tǒng)按照規(guī)則自動(dòng)組合須歸檔的數(shù)據(jù)到中間服務(wù)器的數(shù)據(jù)庫(kù)中,中間服務(wù)器的數(shù)據(jù)庫(kù)對(duì)數(shù)據(jù)進(jìn)行處理后,轉(zhuǎn)換成檔案的要求再推到檔案服務(wù)器的數(shù)據(jù)庫(kù)中。這種方式的優(yōu)點(diǎn)是實(shí)現(xiàn)了業(yè)務(wù)數(shù)據(jù)的自動(dòng)歸檔,缺點(diǎn)有四個(gè)方面:一是合成的電子文件是管理人員按照一定規(guī)則將零散的存放在業(yè)務(wù)數(shù)據(jù)庫(kù)中的數(shù)據(jù)組合而成,這不符合檔案的本質(zhì)屬性原始性的要求;二是合成的電子文件還必須需要人工校驗(yàn)合成數(shù)據(jù)的準(zhǔn)確性,因?yàn)樾畔⑾到y(tǒng)在存儲(chǔ)數(shù)據(jù)的過(guò)程中會(huì)出現(xiàn)不可預(yù)見(jiàn)的錯(cuò)誤;三是業(yè)務(wù)信息系統(tǒng)的源代碼有其復(fù)雜性,只有開(kāi)發(fā)商才能準(zhǔn)確了解數(shù)據(jù)庫(kù)底表各項(xiàng)數(shù)據(jù)之間的邏輯關(guān)系,如果脫離開(kāi)發(fā)商的支持,自己?jiǎn)挝婚_(kāi)發(fā)或者換別的公司開(kāi)發(fā)業(yè)務(wù)數(shù)據(jù)歸檔系統(tǒng),在用中間服務(wù)器數(shù)據(jù)庫(kù)合成電子文件時(shí),可能會(huì)導(dǎo)致歸檔數(shù)據(jù)的不準(zhǔn)確;四是每次業(yè)務(wù)系統(tǒng)升級(jí),源代碼變化、數(shù)據(jù)庫(kù)底表的邏輯關(guān)系變化,中間服務(wù)器數(shù)據(jù)庫(kù)合成電子文件的程序也須相應(yīng)變化,否則合成數(shù)據(jù)會(huì)出錯(cuò)。endprint
3、業(yè)務(wù)數(shù)據(jù)庫(kù)合成數(shù)據(jù)并推送數(shù)據(jù)歸檔。利用業(yè)務(wù)數(shù)據(jù)庫(kù)都自帶的歸檔模塊,將需要打印輸出的數(shù)據(jù)按照一定規(guī)則組合成檔案需要的模式,即PDF格式,然后連同檔案目錄一同推送到檔案系統(tǒng)服務(wù)器的數(shù)據(jù)庫(kù)中。這樣直接在業(yè)務(wù)系統(tǒng)中將須歸檔的數(shù)據(jù)直接組合歸檔,確保了數(shù)據(jù)的原始性和準(zhǔn)確性,檔案部門(mén)只需要確定歸檔范圍、數(shù)據(jù)歸檔標(biāo)準(zhǔn)等規(guī)范。這樣做的優(yōu)點(diǎn)是業(yè)務(wù)系統(tǒng)開(kāi)發(fā)商最了解業(yè)務(wù)數(shù)據(jù)庫(kù)底表各項(xiàng)數(shù)據(jù)的邏輯關(guān)系,合成數(shù)據(jù)過(guò)程能保證數(shù)據(jù)的準(zhǔn)確性,如果業(yè)務(wù)系統(tǒng)升級(jí),數(shù)據(jù)庫(kù)源代碼及底表數(shù)據(jù)邏輯關(guān)系發(fā)生變化,不會(huì)影響合成數(shù)據(jù)的準(zhǔn)確性。但是這需要業(yè)務(wù)系統(tǒng)開(kāi)發(fā)商配合檔案系統(tǒng)開(kāi)發(fā)人員做好數(shù)據(jù)接口的相關(guān)工作。
四、對(duì)于歸檔數(shù)據(jù)的要求
數(shù)據(jù)歸檔系統(tǒng)通過(guò)各種技術(shù),保證歸檔數(shù)據(jù)的真實(shí)性、完整性、有效性、安全性是很重要的。這是檔案的必備條件,也只有這樣的歸檔數(shù)據(jù)才能具有法律憑證作用和可利用的價(jià)值。
(一)歸檔數(shù)據(jù)的真實(shí)性
指對(duì)歸檔數(shù)據(jù)的內(nèi)容、結(jié)構(gòu)和背景信息(描述生成數(shù)據(jù)的職能活動(dòng)、作用、辦理過(guò)程、結(jié)果、上下文關(guān)系及對(duì)其產(chǎn)生影響的歷史環(huán)境等信息)進(jìn)行鑒定后,確認(rèn)其與形成時(shí)的原始狀況一致。
現(xiàn)階段軟件公司一般都采用數(shù)字指紋技術(shù),保證數(shù)據(jù)的唯一性,并可防止歸檔數(shù)據(jù)在歸檔過(guò)程中被惡意篡改。
(二)歸檔數(shù)據(jù)的完整性
指電子數(shù)據(jù)的內(nèi)容、結(jié)構(gòu)、背景信息和元數(shù)據(jù)(描述電子數(shù)據(jù)屬性的數(shù)據(jù),包括文件的格式、編排結(jié)構(gòu)、硬件和軟件環(huán)境、文件處理軟件、字處理和圖形工具軟件、字符集等數(shù)據(jù))等無(wú)缺損。
需要企業(yè)制定并逐漸完善數(shù)據(jù)完整性保障規(guī)范,如數(shù)據(jù)的流轉(zhuǎn)信息、修改流程等;保障完結(jié)了工作的所有環(huán)節(jié)的歸檔數(shù)據(jù)全部及時(shí)歸檔。
(三)歸檔數(shù)據(jù)的有效性
指電子數(shù)據(jù)應(yīng)具備的可理解性和可被利用性,包括信息的可識(shí)別性、存儲(chǔ)系統(tǒng)的可靠性、載體的完好性和兼容性等。
業(yè)務(wù)系統(tǒng)產(chǎn)生的數(shù)據(jù)格式多種多樣,我們需要把它們轉(zhuǎn)換成規(guī)范的國(guó)家允許的統(tǒng)一格式,以便長(zhǎng)期的存儲(chǔ)利用。在歸檔數(shù)據(jù)的時(shí)候需要記錄原數(shù)據(jù)及轉(zhuǎn)換數(shù)據(jù)的操作系統(tǒng)、軟件版本、格式等基礎(chǔ)信息。
(四)歸檔數(shù)據(jù)的安全性
通過(guò)權(quán)限配置、身份認(rèn)證、元數(shù)據(jù)鎖定、電子原文只讀性封裝、記錄操作日志、數(shù)據(jù)傳輸安全性控制或?qū)⒋娣旁诖鎯?chǔ)服務(wù)器或者云存儲(chǔ)上的歸檔數(shù)據(jù)與生產(chǎn)網(wǎng)隔離等各種手段,從技術(shù)與管理兩方面,加強(qiáng)對(duì)電子數(shù)據(jù)的防護(hù),確保檔案信息的安全。
五、數(shù)據(jù)的存儲(chǔ)載體
現(xiàn)在普遍用于數(shù)據(jù)存儲(chǔ)的載體有光盤(pán)、磁帶、膠片、磁盤(pán),從其工作原理方面來(lái)說(shuō)各有優(yōu)缺點(diǎn)。
企業(yè)必須在規(guī)定的時(shí)間內(nèi)保證數(shù)據(jù)的完整性及數(shù)據(jù)的安全存儲(chǔ)。歸檔存儲(chǔ)載體應(yīng)選擇性能穩(wěn)定、有發(fā)展前途、性?xún)r(jià)比高、容易檢測(cè)損壞或錯(cuò)誤、能長(zhǎng)期保存的載體。由于存儲(chǔ)檔案數(shù)據(jù)的介質(zhì)的性能各不相同,如果將它們獨(dú)立的作為存儲(chǔ)設(shè)備會(huì)存在明顯的不足,如果能將它們相互配合使用,取長(zhǎng)補(bǔ)短,即能發(fā)揮其自身的優(yōu)勢(shì),又能彌補(bǔ)其弱點(diǎn),這樣才能構(gòu)建更穩(wěn)定、安全、高效的歸檔數(shù)據(jù)存儲(chǔ)系統(tǒng)。
六、完善各項(xiàng)制度要求
在信息化條件下,電子檔案的歸檔范圍及歸檔方式與傳統(tǒng)的紙質(zhì)檔案發(fā)生了很大變化,而且還在不斷的變化,檔案部門(mén)也需要根據(jù)發(fā)展,不斷的更新檔案的歸檔范圍及管理方式,以適應(yīng)時(shí)代的需求。
(作者單位:太原鋼鐵(集團(tuán))有限公司檔案管理部)endprint