劉福利
目前,我國已經(jīng)相繼開始了對網(wǎng)絡(luò)信息資源保存與歸檔的工作,但基本上處于各自為政的狀態(tài),各自保存自己領(lǐng)域內(nèi)的網(wǎng)絡(luò)信息資源,尚未有統(tǒng)一的網(wǎng)絡(luò)信息中心,實現(xiàn)網(wǎng)絡(luò)信息資源的統(tǒng)一保存與歸檔。在這種形勢下,檔案部門可以起表率作用,創(chuàng)建一個全國性的政府網(wǎng)絡(luò)信息資源數(shù)據(jù)中心,實現(xiàn)政府網(wǎng)絡(luò)信息資源的利用與共享。
一、政府網(wǎng)絡(luò)信息資源數(shù)據(jù)中心構(gòu)建模型
政府網(wǎng)絡(luò)信息資源數(shù)據(jù)中心的構(gòu)建設(shè)想建立在上述政府網(wǎng)絡(luò)信息資源采集、存儲、數(shù)據(jù)化的基礎(chǔ)之上,力圖建立一個從采集、初步存儲、數(shù)據(jù)化到提供政府網(wǎng)絡(luò)信息資源利用服務(wù)的整體框架,如下圖所示。
(一)外部環(huán)境層。指政府網(wǎng)絡(luò)信息資源的數(shù)據(jù)源,主要是以網(wǎng)絡(luò)為平臺的各個政府網(wǎng)站、其他門戶網(wǎng)站、論壇、微博、微信等。這個階段需要做好的工作是明確要采集的范圍,即政府網(wǎng)絡(luò)信息資源歸檔范圍,包括哪些網(wǎng)站、網(wǎng)站上的哪些信息、哪些平臺、平臺上的哪些內(nèi)容、什么格式等等。
(二)數(shù)據(jù)采集層。指基于ETL工具的數(shù)據(jù)采集過程,它是整個政府網(wǎng)絡(luò)信息資源中心建設(shè)的基礎(chǔ)?;贓TL工具從外部環(huán)境層采集相關(guān)信息,并進行數(shù)據(jù)清理、轉(zhuǎn)換工作,使多源異構(gòu)的海量信息變成統(tǒng)一格式并加載到目標(biāo)數(shù)據(jù)中心。數(shù)據(jù)采集工作是政府網(wǎng)絡(luò)信息資源歸檔的一個難點,因為工作量非常大,信息來源又十分廣泛,所以需要技術(shù)的支持,針對政府網(wǎng)絡(luò)信息資源的特征選擇、設(shè)計適用的ETL工具,實現(xiàn)政府網(wǎng)絡(luò)信息資源的自動化采集。
(三)數(shù)據(jù)存儲層。指政府網(wǎng)絡(luò)信息資源的數(shù)據(jù)存儲工作。運用大數(shù)據(jù)及云計算存儲技術(shù),利用虛擬技術(shù)對政府網(wǎng)絡(luò)信息資源虛擬化處理,從用戶角度來說,這里是沒有任何變化的,從存儲中心來講,可以增強數(shù)據(jù)中心的吞吐能力,實現(xiàn)政府網(wǎng)絡(luò)信息資源的海量存儲與管理,并運用分布式存儲方式,實現(xiàn)海量信息的存儲。
(四)數(shù)據(jù)應(yīng)用層。指通過對政府網(wǎng)絡(luò)信息資源的數(shù)據(jù)化處理工作,主要包括著錄、分析等環(huán)節(jié),為提供用戶利用奠定基礎(chǔ)。并且提供一個服務(wù)目錄,對已資源化、知識化的政府網(wǎng)絡(luò)信息資源做好部署,為用戶提供簡單查詢服務(wù)或其他綜合利用服務(wù),主要方式是網(wǎng)上利用。
二、政府網(wǎng)絡(luò)信息資源數(shù)據(jù)中心規(guī)模等級
政府網(wǎng)絡(luò)信息資源數(shù)據(jù)中心應(yīng)該建設(shè)成為一個多級數(shù)據(jù)中心,即多層次、分布式的數(shù)據(jù)中心,由中央檔案館部署一個保存政府網(wǎng)絡(luò)信息資源的中央數(shù)據(jù)中心,其他各級綜合檔案館分別建立基于本地政府網(wǎng)絡(luò)信息資源的二級數(shù)據(jù)中心,最后構(gòu)建成一個整體的全國性的政府網(wǎng)絡(luò)信息資源數(shù)據(jù)中心。
三、政府網(wǎng)絡(luò)信息資源數(shù)據(jù)中心的特征
(一)容量巨大。政府網(wǎng)絡(luò)信息資源中心需要龐大的基礎(chǔ)設(shè)施如服務(wù)器、硬件設(shè)施等,形成一個容量巨大的數(shù)據(jù)倉儲中心,完全適應(yīng)政府網(wǎng)絡(luò)信息資源規(guī)模龐大的特征。隱含在數(shù)據(jù)中心內(nèi)的彈性設(shè)計理念增加了政府網(wǎng)絡(luò)信息資源數(shù)據(jù)中心的可擴展性,可以隨著數(shù)據(jù)量的不斷增長加強基礎(chǔ)設(shè)施部署,實現(xiàn)虛擬平臺容量的擴大。
(二)自動化程度高。從數(shù)據(jù)采集到數(shù)據(jù)整序、數(shù)據(jù)著錄、數(shù)據(jù)分析等,數(shù)據(jù)中心具有超強的自動化功能,除了篩選、著錄等環(huán)節(jié)需要人工輔助外,其他大部分工作由系統(tǒng)自助完成,提高了數(shù)據(jù)處理的速度,同時也降低了政府網(wǎng)絡(luò)信息資源歸檔的成本。
(三)服務(wù)性強。政府網(wǎng)絡(luò)信息資源數(shù)據(jù)中心的構(gòu)建從數(shù)據(jù)采集、初步存儲、數(shù)據(jù)化,都以服務(wù)為根本理念,從網(wǎng)絡(luò)平臺采集到的政府網(wǎng)絡(luò)信息具有開放性,面向全體公民,可以為用戶提供簡單的查詢、瀏覽服務(wù),還可以通過政府網(wǎng)絡(luò)信息資源的數(shù)據(jù)分析工作,為用戶提供其中隱含的價值信息,甚至可以逐步實現(xiàn)檔案館的預(yù)測功能,提供預(yù)測服務(wù)。
四、構(gòu)建政府網(wǎng)絡(luò)信息資源數(shù)據(jù)中心的準(zhǔn)備工作
(一)平臺支持。鑒于政府網(wǎng)絡(luò)信息資源的規(guī)模,其存儲方式、存儲載體有別于傳統(tǒng)檔案、電子文件,采?。ㄏ罗D(zhuǎn)第182頁)(上接第71頁)在線存儲方式,從而節(jié)省存儲空間。政府網(wǎng)絡(luò)信息資源數(shù)據(jù)中心構(gòu)建的重要基礎(chǔ)是需要一個足夠容量的存儲平臺,“云”的不斷發(fā)展為其提供了平臺支持。云可以分為公有云和私有云,這里政府網(wǎng)絡(luò)信息資源數(shù)據(jù)中心的構(gòu)建采用公有云的形式,即“云提供商在不同的區(qū)域建立多個數(shù)據(jù)中心,通過虛擬化和網(wǎng)絡(luò)將所有資源整合到一個巨大的‘資源池中。”即中央檔案館建立一級數(shù)據(jù)中心,其他地方綜合檔案館建立二級數(shù)據(jù)中心,通過整合資源,實現(xiàn)全國政府網(wǎng)絡(luò)信息資源的統(tǒng)一保存與管理。
(二)與云服務(wù)商建立合作關(guān)系。政府網(wǎng)絡(luò)信息資源歸檔作為一個龐大、復(fù)雜的工程,僅檔案部門一己之力很難完成,構(gòu)建一個整體部署的政府網(wǎng)絡(luò)信息資源數(shù)據(jù)中心首先要與云服務(wù)商進行合作,即不需要檔案部門購買存儲倉庫、存儲載體等各種設(shè)施,但是需要向云服務(wù)商支付一定的服務(wù)費用,租用公有云,建立一個政府網(wǎng)絡(luò)信息資源存儲的虛擬平臺。所以,我們要與云服務(wù)商建立良好的合作關(guān)系。另外,信息安全問題一直是檔案部門非常關(guān)注的問題,我們要就數(shù)據(jù)安全問題與云服務(wù)商簽訂相關(guān)協(xié)議,保證政府網(wǎng)絡(luò)信息資源的完整性、可用性,避免信息丟失等情況。
【參考文獻】
[1]楊歡.云數(shù)據(jù)中心構(gòu)建實戰(zhàn):核心技術(shù)、運維管理、安全與高可用[M].北京:機械工業(yè)出版社,2014:54.