程龍吟/福州大學(xué)檔案館
檔案作為黨和國(guó)家重要的信息資源,在服務(wù)和推動(dòng)社會(huì)發(fā)展中發(fā)揮著重要作用。隨著檔案信息化進(jìn)程的加快,各級(jí)各類檔案館和檔案形成單位形成了大量的數(shù)字檔案(包含電子檔案和檔案數(shù)字化成果)。要想充分發(fā)揮數(shù)字檔案優(yōu)勢(shì),使全民全社會(huì)共享信息化成果,就要推動(dòng)數(shù)字檔案打破時(shí)間和空間限制,實(shí)現(xiàn)館際共享、全民共享。
數(shù)字檔案共享是指數(shù)字檔案在標(biāo)準(zhǔn)化、規(guī)范化并符合保密要求的基礎(chǔ)上,在不同層次、不同部門信息網(wǎng)絡(luò)系統(tǒng)間實(shí)現(xiàn)互聯(lián)互通并向社會(huì)提供服務(wù)[1]。
在2016年4月網(wǎng)絡(luò)安全和信息化工作座談會(huì)上,習(xí)近平總書記提出要“打通信息壁壘,構(gòu)建全國(guó)信息資源共享體系,更好用信息化手段感知社會(huì)態(tài)勢(shì)、暢通溝通渠道、輔助科學(xué)決策”[2]。習(xí)總書記的講話為檔案事業(yè)的發(fā)展指明了方向:一是數(shù)字檔案館建設(shè)必須與實(shí)體檔案館建設(shè)同時(shí)進(jìn)行;二是加快建設(shè)數(shù)字檔案共享體系,數(shù)字檔案應(yīng)當(dāng)成為國(guó)家信息資源共享體系的重要組成部分。目前,許多檔案館的信息化建設(shè)預(yù)算已達(dá)到數(shù)百萬甚至上千萬元,全國(guó)每年有50 億元以上的信息化市場(chǎng)容量[3]。這些數(shù)字檔案不能像大多數(shù)紙質(zhì)檔案那樣封存在檔案館內(nèi),檔案行業(yè)要改革創(chuàng)新,加快推進(jìn)檔案信息從封閉走向開放,打造方便人民群眾查閱利用的開放型、多層次的數(shù)字檔案共享體系,實(shí)現(xiàn)檔案資源互聯(lián)互通。
實(shí)現(xiàn)數(shù)字檔案共享,最重要的是實(shí)現(xiàn)信息的互聯(lián)互通和向社會(huì)提供服務(wù)。數(shù)字檔案自身的復(fù)雜性導(dǎo)致其在共享過程中出現(xiàn)各種技術(shù)難點(diǎn):一是需要首先解決服務(wù)器存儲(chǔ)容量問題?!霸隽繑?shù)字化、存量電子化”的趨勢(shì)和政策使得檔案數(shù)量急劇增長(zhǎng),檔案數(shù)據(jù)的容量限制共享的范圍。二是需要重點(diǎn)解決異構(gòu)數(shù)字檔案資源整合問題。數(shù)字檔案有文本、圖片、視頻、音頻等多種類型,需要一種技術(shù)能整合所有異構(gòu)類型,并能按需提供利用。三是需要長(zhǎng)期優(yōu)化數(shù)字檔案資源的整合、組織、關(guān)聯(lián)、導(dǎo)航與服務(wù)模式,實(shí)現(xiàn)數(shù)字檔案的智能化管理與服務(wù)。傳統(tǒng)存儲(chǔ)技術(shù)已無法滿足數(shù)字檔案海量容量、快速讀取、靈活管控、安全可靠、智能管理的存儲(chǔ)要求。以直連式存儲(chǔ)、存儲(chǔ)區(qū)域網(wǎng)絡(luò)、網(wǎng)絡(luò)附接存儲(chǔ)和對(duì)象存儲(chǔ)系統(tǒng)四種傳統(tǒng)存儲(chǔ)技術(shù)為例,它們?cè)跀?shù)字檔案共享方面無法解決的技術(shù)壁壘有以下幾點(diǎn)。
概括來說,幾種傳統(tǒng)存儲(chǔ)技術(shù)在存儲(chǔ)容量、可擴(kuò)展性、傳輸效率上各有缺陷。直連式存儲(chǔ)的缺點(diǎn)是存儲(chǔ)容量有限,它的存儲(chǔ)設(shè)備是分配給它所連接的計(jì)算機(jī),如果存儲(chǔ)容量需求增加,就需要把更多存儲(chǔ)設(shè)備連接到計(jì)算機(jī),然而受I/O接口的限制每臺(tái)計(jì)算機(jī)只能連接有限的存儲(chǔ)設(shè)備;存儲(chǔ)區(qū)域網(wǎng)絡(luò)的缺點(diǎn)是可擴(kuò)展性差,其存儲(chǔ)設(shè)備需要建立專用的區(qū)域網(wǎng)絡(luò),如需擴(kuò)展則要額外購(gòu)買光纖通道、網(wǎng)絡(luò)設(shè)備和主機(jī)適配卡,建維成本高;網(wǎng)絡(luò)附接存儲(chǔ)的缺點(diǎn)是傳輸效率不穩(wěn)定,其存儲(chǔ)設(shè)備通過標(biāo)準(zhǔn)的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)連接到一群計(jì)算機(jī)上,信息經(jīng)局域網(wǎng)傳輸,但當(dāng)其他應(yīng)用程序使用局域網(wǎng)傳輸時(shí),網(wǎng)絡(luò)附接存儲(chǔ)的傳輸效率會(huì)大大降低;對(duì)象存儲(chǔ)系統(tǒng)的缺點(diǎn)是存儲(chǔ)對(duì)象分散到很多節(jié)點(diǎn),由于更新不及時(shí)不完全會(huì)導(dǎo)致獲取的數(shù)據(jù)信息滯后。
傳統(tǒng)的存儲(chǔ)技術(shù)每種只能支持一種存儲(chǔ)方式,而不同存儲(chǔ)方式各有優(yōu)勢(shì),需要配合用戶需求綜合利用、智能選擇;文件存儲(chǔ)(NAS)的形式適用于數(shù)據(jù)容量小情況下的資源共享,如高校內(nèi)部相關(guān)部門間進(jìn)行學(xué)籍信息共享、教務(wù)課程信息共享等,其缺點(diǎn)是讀寫速度慢;塊存儲(chǔ)(Mass Storage)的形式類似于主機(jī)內(nèi)置硬盤,優(yōu)點(diǎn)是擴(kuò)容廉價(jià)、讀寫傳輸速度快,但進(jìn)行信息資源共享有難度;對(duì)象存儲(chǔ)(OSS)綜合了NAS和MS的優(yōu)點(diǎn)并具有良好的擴(kuò)展性,但因其依賴REST調(diào)用,所以使用起來更為復(fù)雜;傳統(tǒng)存儲(chǔ)技術(shù)做不到整合所有的存儲(chǔ)方式,無法集中采集不同存儲(chǔ)方式的優(yōu)點(diǎn),導(dǎo)致存儲(chǔ)空間孤立造成資源浪費(fèi),無法統(tǒng)一管理。
智慧檔案是未來檔案管理的實(shí)現(xiàn)目標(biāo),要實(shí)現(xiàn)智慧化、一體化的管理與利用,就要求智慧檔案館各系統(tǒng)實(shí)現(xiàn)全面感知、智慧分析、互聯(lián)互通、協(xié)同處置,尤其是數(shù)字檔案共享平臺(tái)或數(shù)字檔案數(shù)據(jù)交換中心的數(shù)據(jù)能夠快速讀取、靈活感知、動(dòng)態(tài)調(diào)整,達(dá)到智能化統(tǒng)籌協(xié)調(diào)的目的。傳統(tǒng)的存儲(chǔ)技術(shù)無法滿足數(shù)字檔案共享中檔案管理利用智能化的需求,需要實(shí)現(xiàn)技術(shù)的升級(jí)換代。
軟件定義存儲(chǔ)(Software Defined Storage)的誕生解決了傳統(tǒng)存儲(chǔ)技術(shù)的不足。官方尚未明確定義軟件定義存儲(chǔ),因此它更是一種存儲(chǔ)理念,即在任何存儲(chǔ)上運(yùn)行的應(yīng)用都能夠在用戶定義策略的驅(qū)動(dòng)下自動(dòng)工作。事實(shí)上,在不少對(duì)信息化感知靈敏的行業(yè)中,虛擬化技術(shù)已經(jīng)逐步深入系統(tǒng)架構(gòu)后端,從服務(wù)器虛擬化向存儲(chǔ)虛擬化延伸。在檔案行業(yè),應(yīng)用軟件定義存儲(chǔ)技術(shù)可以解決數(shù)字檔案共享中的技術(shù)難點(diǎn)。
從目前全國(guó)檔案部門的情況來看,一方面全國(guó)沒有統(tǒng)一的檔案信息管理軟件可供選擇,各地檔案館根據(jù)自身需求依靠有關(guān)公司力量進(jìn)行平臺(tái)軟件開發(fā)與維護(hù),這樣不僅嚴(yán)重浪費(fèi)資源,而且檔案軟件開發(fā)效率低下;另一方面檔案管理軟件標(biāo)準(zhǔn)不統(tǒng)一,各地檔案館選擇自認(rèn)為符合標(biāo)準(zhǔn)的軟件應(yīng)用于檔案信息化和檔案數(shù)字化工作,由于一個(gè)地方的檔案館和單位使用不同公司開發(fā)的管理軟件,存在標(biāo)準(zhǔn)不統(tǒng)一、維護(hù)工作沒有跟進(jìn)的問題,造成檔案數(shù)據(jù)對(duì)接不暢,有的地方檔案數(shù)據(jù)在遷移時(shí)甚至?xí)霈F(xiàn)差錯(cuò)或者丟失。各地在開展檔案數(shù)字化掃描工作中,由于追求速度以及節(jié)約成本,檔案數(shù)字化采用的格式也不同,有的為雙層PDF格式,有的為JPG、GIF格式。研究軟件定義存儲(chǔ)技術(shù)可以為打造適應(yīng)未來發(fā)展需要的數(shù)字檔案存儲(chǔ)體系提供理論參考,并為推動(dòng)數(shù)字檔案共享和檔案信息化建設(shè)提供技術(shù)支撐。
3.2.1 存儲(chǔ)虛擬化或資源池化
軟件定義存儲(chǔ)技術(shù)的顯著性能在于實(shí)現(xiàn)存儲(chǔ)虛擬化或資源池化,它將各種存儲(chǔ)資源虛擬化,并有效集成不同存儲(chǔ)類型的設(shè)備,組成虛擬資源池。具體應(yīng)用在數(shù)字檔案共享領(lǐng)域時(shí),可以利用軟件定義存儲(chǔ)技術(shù),通過一個(gè)網(wǎng)絡(luò)服務(wù)平臺(tái)如數(shù)字檔案共享平臺(tái)或數(shù)字檔案信息交流中心等,將各級(jí)各類檔案館中的數(shù)字檔案資源集成并存儲(chǔ)在虛擬資源池中。網(wǎng)絡(luò)服務(wù)平臺(tái)可以按需(如容量、性能、服務(wù)質(zhì)量、服務(wù)等級(jí)協(xié)議等)自動(dòng)化使用存儲(chǔ),以解決傳統(tǒng)存儲(chǔ)容量不足的問題。
3.2.2 開發(fā)“元數(shù)據(jù)”訪問接口
軟件定義存儲(chǔ)技術(shù)的存儲(chǔ)資源池中涵蓋主流的存儲(chǔ)類型,如SAN存儲(chǔ)、NAS存儲(chǔ)、對(duì)象存儲(chǔ)等。利用軟件定義存儲(chǔ)的資源池化技術(shù)可以開發(fā)分布式數(shù)據(jù)訪問接口,接口以“元數(shù)據(jù)”為基礎(chǔ),“元數(shù)據(jù)”與不同的存儲(chǔ)類型相互轉(zhuǎn)換,在不改變當(dāng)前數(shù)據(jù)定義與存儲(chǔ)結(jié)構(gòu)的基礎(chǔ)上,實(shí)現(xiàn)資源相互轉(zhuǎn)換。應(yīng)用在數(shù)字檔案共享領(lǐng)域時(shí),軟件定義存儲(chǔ)為異構(gòu)的檔案信息存儲(chǔ)類型開發(fā)基于“元數(shù)據(jù)”的分布式訪問接口,這樣就解決了數(shù)字檔案共享中存儲(chǔ)類型與接口難以管理利用的缺點(diǎn),從而打破各個(gè)檔案館之間的信息壁壘,使信息在各個(gè)檔案館之間實(shí)現(xiàn)互聯(lián)互通,有效解決信息孤島的問題。
3.2.3 數(shù)據(jù)中心智能管理
智慧檔案館是未來檔案行業(yè)的發(fā)展方向,智能性要求須體現(xiàn)在檔案收集(征集)、整理、保管、鑒定、統(tǒng)計(jì)和利用的整個(gè)流程。數(shù)字檔案資源管理因海量、復(fù)雜、變化大等特征,人工已經(jīng)無法勝任,必須要實(shí)現(xiàn)資源的自動(dòng)化管理,無需人工干預(yù)。軟件定義存儲(chǔ)集成3rd云化管理平臺(tái),可以利用分析技術(shù)、分類技術(shù)和機(jī)器學(xué)習(xí),對(duì)整個(gè)數(shù)字檔案共享中心內(nèi)的檔案資源進(jìn)行配置,實(shí)現(xiàn)整個(gè)數(shù)據(jù)中心資源的協(xié)作管理。同時(shí)軟件定義存儲(chǔ)與軟件定義網(wǎng)絡(luò)、軟件定義計(jì)算、軟件定義管理和軟件定義安全結(jié)合起來,形成軟件定義數(shù)據(jù)中心,為數(shù)字檔案共享提供更高級(jí)的智能化管理。
3.2.4 硬件自主和軟硬件分離
軟件定義存儲(chǔ)與傳統(tǒng)存儲(chǔ)最大不同在于軟硬件分離,軟件定義存儲(chǔ)以工作負(fù)載為核心,虛擬池自動(dòng)配置資源,而傳統(tǒng)存儲(chǔ)以硬件為核心,數(shù)據(jù)中心依賴設(shè)備。軟件定義存儲(chǔ)既支持通用硬件也支持專用硬件的既有功能增強(qiáng),還可以共用共享平臺(tái)提供的基礎(chǔ)設(shè)施。軟件定義存儲(chǔ)技術(shù)打破了服務(wù)器訪問限制,不用大投入購(gòu)買指定存儲(chǔ)硬件或更高級(jí)別的相關(guān)硬件,可以減少投入、節(jié)約資源、提高效率。
3.2.5 雙區(qū)域異地備份技術(shù)
傳統(tǒng)存儲(chǔ)技術(shù)將數(shù)據(jù)信息備份在檔案館的自有服務(wù)器上,如果管理不當(dāng)或發(fā)生不可預(yù)見的災(zāi)害,將會(huì)導(dǎo)致服務(wù)器損毀,數(shù)字檔案信息的安全性得不到保障,更不用奢談維持日常的管理和利用服務(wù)了。而在軟件定義存儲(chǔ)技術(shù)下,數(shù)字檔案資源是虛擬化的,在劃分資源區(qū)域時(shí)每?jī)蓚€(gè)區(qū)域備份對(duì)方所有的數(shù)字檔案信息,一旦某個(gè)區(qū)域發(fā)生意外,可以立即轉(zhuǎn)移到另一區(qū)域訪問,或從另一區(qū)域中恢復(fù)。所以軟件定義存儲(chǔ)技術(shù)在不額外增加備份設(shè)備的基礎(chǔ)上,實(shí)現(xiàn)數(shù)據(jù)備份和容災(zāi)措施,避免因地震、火災(zāi)等不可抗因素造成的數(shù)字檔案資源毀壞,有效保證數(shù)字檔案資源的信息安全。
傳統(tǒng)存儲(chǔ)技術(shù)無法兼顧數(shù)字檔案共享需要的各項(xiàng)技術(shù)要求,而基于云存儲(chǔ)的軟件定義存儲(chǔ)技術(shù)為解決各類技術(shù)難點(diǎn)提供了方案。中國(guó)IMT-2020(5G)推進(jìn)組組長(zhǎng)、中國(guó)信息通信研究院副院長(zhǎng)王志勤表示,軟件定義存儲(chǔ)技術(shù)可以打破傳統(tǒng)存儲(chǔ)系統(tǒng)由于軟硬件緊耦合造成的系統(tǒng)割裂狀態(tài),實(shí)現(xiàn)異構(gòu)存儲(chǔ)資源的整合。在信息大爆炸背景下,軟件定義存儲(chǔ)可使用舊的各類存儲(chǔ)設(shè)施,同時(shí)運(yùn)用分布式處理技術(shù),最大化的增強(qiáng)系統(tǒng)存儲(chǔ)空間,提高系統(tǒng)的擴(kuò)展性與靈活性,節(jié)約成本并實(shí)現(xiàn)資源的集中統(tǒng)一管理。
雖然目前軟件定義存儲(chǔ)技術(shù)還處于初級(jí)階段,有許多問題需要解決,如版權(quán)、標(biāo)準(zhǔn)、技術(shù)等,但是其必定成為科技領(lǐng)域的又一次革命。在HypeCycle報(bào)告中[4],預(yù)測(cè)5到10年會(huì)大規(guī)模應(yīng)用軟件定義存儲(chǔ)技術(shù)。軟件定義存儲(chǔ)是存儲(chǔ)技術(shù)發(fā)展的必經(jīng)之路,利用軟件定義存儲(chǔ)的擴(kuò)展靈活、接口豐富、數(shù)據(jù)路徑多、軟硬件分離、自動(dòng)存儲(chǔ)管理、服務(wù)分級(jí)管理、建維成本低等優(yōu)勢(shì),探索數(shù)字檔案共享建設(shè)模式,包括資源管理與調(diào)度、策略配置、認(rèn)證授權(quán)、壓縮加密、性能監(jiān)控、系統(tǒng)維護(hù)、備份恢復(fù)等,是我們加快數(shù)字檔案資源共享建設(shè)、改變檔案資源獲取和傳播方式的一個(gè)技術(shù)捷徑,必須高度關(guān)注,認(rèn)真追蹤研究。