周娟娟 李澤鋒 葉丹云
摘要:隨著大數(shù)據(jù)時(shí)代的來臨,檔案數(shù)據(jù)長(zhǎng)期保存問題被提上議事日程。論文以數(shù)據(jù)視角研究影響檔案數(shù)據(jù)長(zhǎng)期保存的關(guān)鍵因素,構(gòu)建檔案數(shù)據(jù)長(zhǎng)期保存模型,以實(shí)現(xiàn)結(jié)構(gòu)化數(shù)據(jù)的長(zhǎng)期保存,并結(jié)合相應(yīng)方法和技術(shù),保障數(shù)據(jù)真實(shí)、完整、可用和安全。以文件連續(xù)體理論為指導(dǎo),借鑒文件連續(xù)體模型構(gòu)建思路,從檔案數(shù)據(jù)形成、獲取與保存的連續(xù)性過程出發(fā),研究檔案數(shù)據(jù)連續(xù)性管理,分析文件形成到長(zhǎng)期保存運(yùn)動(dòng)過程中影響長(zhǎng)期保存的因素,最終構(gòu)建以保障檔案數(shù)據(jù)長(zhǎng)期保存為目的的模型。
關(guān)鍵詞:檔案數(shù)據(jù) 結(jié)構(gòu)化數(shù)據(jù) 數(shù)據(jù)檔案化 長(zhǎng)期保存
Abstract:Facing the advent of the era of big data, the long-term preservation of archive data has been put on the agenda. This paper studies the influencing factors that affect the long-term preservation of ar? chival data from the perspective of data, construc? tions a long-term preservation model of archival data to achieve long-term preservation of structured data, and combines corresponding methods and technolo? gies to ensure the authenticity, integrity,availability and security of data. Records Continuum as guid? ance, reference to the Records Continuum model construction ideas. From archive data, obtain the con? tinuity process of obtaining and preserving, starting from the continuous process of archive data forma? tion, acquisition and preservation, we will study the continuity management of archive data, analyzes the factors affecting the long- term preservation during the process from document formation to long-term preservation, and finally constructs a model for the purpose of ensuring the long-term preservation of ar? chival data.
Keywords:Archival data; Structured data; Data ar? chiving; Long-term preservation
我國(guó)《“十四五”國(guó)家信息化規(guī)劃》中提到,要提升數(shù)據(jù)資源開發(fā)利用水平與全生命周期管理,應(yīng)加強(qiáng)信息安全保障,激發(fā)數(shù)據(jù)要素價(jià)值,提升數(shù)據(jù)要素賦能作用。[1]大數(shù)據(jù)是信息化發(fā)展的新階段,在大數(shù)據(jù)時(shí)代,檔案機(jī)構(gòu)要善于獲取、分析和運(yùn)用數(shù)據(jù),積極投入國(guó)家大數(shù)據(jù)戰(zhàn)略中,加快檔案工作的數(shù)字化轉(zhuǎn)型。馮惠玲[2]在“第十一屆中國(guó)電子文件管理論壇”致辭中也強(qiáng)調(diào),當(dāng)下需要做“追風(fēng)少年”,積極融入數(shù)據(jù)管理。在數(shù)據(jù)環(huán)境下,檔案數(shù)據(jù)長(zhǎng)期保存問題始終是當(dāng)下所需長(zhǎng)期關(guān)注的問題。數(shù)據(jù)可信是數(shù)據(jù)長(zhǎng)期保存和利用的前提,要達(dá)到檔案數(shù)據(jù)長(zhǎng)期保存最終目標(biāo),必須進(jìn)行檔案數(shù)據(jù)的可信管理。檔案數(shù)據(jù)“四性”保障問題始終是檔案管理工作的根本,大數(shù)據(jù)時(shí)代,雖然檔案數(shù)據(jù)熱度上升,但數(shù)據(jù)的可信問題面臨巨大挑戰(zhàn)。目前已有不少學(xué)者針對(duì)檔案數(shù)據(jù)建設(shè)展開了有針對(duì)性地探討,但綜合來看,結(jié)構(gòu)化數(shù)據(jù)長(zhǎng)期保存問題的研究還處在初期階段,仍需進(jìn)一步探究檔案數(shù)據(jù)管理與檔案數(shù)據(jù)長(zhǎng)期保存等問題,以降低檔案數(shù)據(jù)保存風(fēng)險(xiǎn)。
(一)檔案數(shù)據(jù)形成階段要素分析
文件連續(xù)體理論以管理的視角,關(guān)注文件形成、捕獲、組織、聚合四個(gè)立體維度,第一維度就是以文件的形成為基礎(chǔ),描述文件運(yùn)動(dòng)的最小單位——單份文件。一方面,工作人員在開展各項(xiàng)業(yè)務(wù)管理活動(dòng)中會(huì)產(chǎn)生大量的檔案數(shù)據(jù);另一方面,由于組織機(jī)構(gòu)內(nèi)部工作人員、管理者、決策人等與用戶之間存在交流、業(yè)務(wù)來往等活動(dòng),在具體的業(yè)務(wù)環(huán)境下各種操作均會(huì)留下相應(yīng)的痕跡與活動(dòng)軌跡,從而形成一些特定主題的豐富數(shù)據(jù)。數(shù)據(jù)形成時(shí),在關(guān)系型數(shù)據(jù)庫(kù)中存在的結(jié)構(gòu)化數(shù)據(jù)居多,一般采用規(guī)則的二維表結(jié)構(gòu),二維表之間通過鏈接相互關(guān)聯(lián),從而實(shí)現(xiàn)數(shù)據(jù)之間的互聯(lián)。[3]同時(shí)要從源頭出發(fā),依據(jù)檔案數(shù)據(jù)質(zhì)量管控要求,把相關(guān)的標(biāo)準(zhǔn)規(guī)范嵌入數(shù)據(jù)形成過程,以便形成完備的檔案數(shù)據(jù)來源管控機(jī)制。[4]數(shù)據(jù)形成階段為生命周期的初始階段,貫穿整個(gè)管理活動(dòng)的全生命周期,更應(yīng)該關(guān)注保留生成數(shù)據(jù)的內(nèi)容、數(shù)據(jù)屬性以及數(shù)據(jù)之間的邏輯關(guān)系等。職能劃分明晰,是數(shù)據(jù)歸檔整理分類原則之一,直接影響各類型數(shù)據(jù)的類別劃分與保存標(biāo)準(zhǔn)的制定。總之,在業(yè)務(wù)活動(dòng)中數(shù)據(jù)形成者的操作行為、職能劃分與保存目標(biāo)制定等直接關(guān)乎數(shù)據(jù)的形成質(zhì)量。在數(shù)據(jù)產(chǎn)生時(shí)將原生數(shù)據(jù)進(jìn)行適時(shí)獲取是保障數(shù)據(jù)質(zhì)量的關(guān)鍵,因此,筆者將數(shù)據(jù)形成的業(yè)務(wù)活動(dòng)過程進(jìn)行梳理,主要?dú)w納了較為重要的影響因素,有操作行為、操作動(dòng)作、業(yè)務(wù)職能和保存目標(biāo)等。
(二)檔案數(shù)據(jù)獲取階段要素分析
隨著信息化建設(shè)的發(fā)展,檔案形成組織對(duì)個(gè)人業(yè)務(wù)規(guī)范性和數(shù)據(jù)質(zhì)量的關(guān)注也顯著提高。在數(shù)據(jù)獲取階段,各個(gè)業(yè)務(wù)系統(tǒng)之間需要制定統(tǒng)一的集成和獲取接口,為不同類型數(shù)據(jù)獲取提供一個(gè)標(biāo)準(zhǔn)參考依據(jù)。一方面,需要考慮數(shù)據(jù)類型特征,關(guān)注數(shù)據(jù)間的關(guān)系描述,將獲取文件思路轉(zhuǎn)化為對(duì)成組文件的數(shù)據(jù)及邏輯關(guān)系的獲取,同時(shí)獲取歸檔范圍之外的多模態(tài)數(shù)據(jù),將邏輯關(guān)系如數(shù)據(jù)字典、E-R圖和鏈接指針等作為元數(shù)據(jù);另一方面,在獲取過程中,元數(shù)據(jù)是實(shí)現(xiàn)真實(shí)、完整、可用性的保障,其最終將各類數(shù)據(jù)邏輯關(guān)系獲取,形成元數(shù)據(jù)方案。之后,捕獲的數(shù)據(jù)仍需進(jìn)一步整理分類,需將數(shù)據(jù)之間的邏輯關(guān)系等描述信息一起封裝打包,為日后組織機(jī)構(gòu)的利用提供決策服務(wù)。因此,筆者將機(jī)構(gòu)數(shù)據(jù)獲取流程進(jìn)行梳理,主要?dú)w納了較為重要的影響因素,包括數(shù)據(jù)內(nèi)容、屬性描述、數(shù)據(jù)關(guān)聯(lián)和封裝信息等。
(三)檔案數(shù)據(jù)保存階段要素分析
由于檔案數(shù)據(jù)保存工作核心存在“可見級(jí)→可讀級(jí)→可理解級(jí)”的轉(zhuǎn)變,檔案保存工作的重心也在轉(zhuǎn)變。[5]針對(duì)不同數(shù)據(jù)態(tài)業(yè)務(wù)下產(chǎn)生的數(shù)據(jù)要采取不同數(shù)據(jù)語(yǔ)義描述和表達(dá)方式,同時(shí)制定規(guī)則以幫助機(jī)器識(shí)讀與處理,以實(shí)現(xiàn)長(zhǎng)期可讀。各大業(yè)務(wù)系統(tǒng)產(chǎn)生的數(shù)據(jù)數(shù)量巨大且結(jié)構(gòu)復(fù)雜,數(shù)據(jù)集可能存在冗余、空缺值、分類不合理等問題[6],需對(duì)數(shù)據(jù)做進(jìn)一步整合、清洗與標(biāo)準(zhǔn)化管理等,避免數(shù)據(jù)不完整和不真實(shí)。另外,數(shù)據(jù)安全問題不可忽視,需確保數(shù)據(jù)安全、防篡改和不丟失,保存模式可采用可信數(shù)據(jù)存儲(chǔ)和訪問的方式。[7]數(shù)據(jù)長(zhǎng)期保存涉及數(shù)據(jù)關(guān)聯(lián)管理、規(guī)則定義以及關(guān)系管理,以保障離散的數(shù)據(jù)形成連續(xù)語(yǔ)義并被人們所理解和使用。[8]總之,數(shù)據(jù)保存階段需保存所有相關(guān)數(shù)據(jù)關(guān)系、規(guī)則或模型等,以備日后用戶需要時(shí)可提供其存儲(chǔ)的數(shù)據(jù)邏輯關(guān)系與規(guī)則模型,并能夠以電子表格、知識(shí)圖譜等形式呈現(xiàn)給用戶。因此,筆者將數(shù)據(jù)保存階段進(jìn)行梳理分析,主要?dú)w納了較為重要的影響因素,包括保存規(guī)劃、數(shù)據(jù)標(biāo)準(zhǔn)、存儲(chǔ)環(huán)境和安全管控等。
(一)檔案數(shù)據(jù)長(zhǎng)期保存模型構(gòu)建依據(jù)
本文借鑒文件連續(xù)體理論和生命周期理論,將檔案數(shù)據(jù)保存與業(yè)務(wù)活動(dòng)和業(yè)務(wù)環(huán)境結(jié)合,構(gòu)建一個(gè)三維坐標(biāo)體系來描述從檔案數(shù)據(jù)形成到保存的過程,探索以數(shù)據(jù)為最小保管單位到存儲(chǔ)倉(cāng)庫(kù)保管的變化規(guī)律。該坐標(biāo)體系主要包括數(shù)據(jù)形成軸、數(shù)據(jù)獲取軸和數(shù)據(jù)保存軸,其中數(shù)據(jù)保存軸為核心軸,它的變化將帶動(dòng)著其他兩個(gè)軸的變化,揭示出各維度間的復(fù)雜運(yùn)動(dòng)。
在檔案形成過程中,數(shù)據(jù)形成者涉及工作人員、部門與組織機(jī)構(gòu),數(shù)據(jù)形成維度包含組織機(jī)構(gòu)的形成者發(fā)起某行為、操作、職能和目標(biāo)等要素;數(shù)據(jù)獲取維度則是在業(yè)務(wù)數(shù)據(jù)產(chǎn)生時(shí)進(jìn)行實(shí)時(shí)獲取,包含數(shù)據(jù)內(nèi)容、屬性描述、數(shù)據(jù)關(guān)聯(lián)和封裝包等內(nèi)容信息;數(shù)據(jù)保存維度強(qiáng)調(diào)實(shí)現(xiàn)數(shù)據(jù)的長(zhǎng)期可用,需要考慮數(shù)據(jù)保存規(guī)劃、數(shù)據(jù)標(biāo)準(zhǔn)、存儲(chǔ)環(huán)境和安全管控等因素。
(二)檔案數(shù)據(jù)長(zhǎng)期保存模型構(gòu)建
綜合以上影響因素,筆者在此基礎(chǔ)上構(gòu)建檔案數(shù)據(jù)長(zhǎng)期保存模型,如圖1所示。
1.數(shù)據(jù)形成維。數(shù)據(jù)形成階段作為全生命周期的初始階段,與組織機(jī)構(gòu)內(nèi)所有工作人員涉及的行為、業(yè)務(wù)活動(dòng)、職能劃分與組織目標(biāo)等因素相關(guān)。
(1)行為。這里的行為指數(shù)據(jù)形成者所產(chǎn)生的某特征行為。根據(jù)組織機(jī)構(gòu)類型和性質(zhì)的不同,所存在的業(yè)務(wù)類型性質(zhì)也就不同。服務(wù)類型決定著數(shù)據(jù)形成者的行為特征,業(yè)務(wù)范圍隨著用戶需求的改變而改變。[9]
(2)操作。在具體的業(yè)務(wù)活動(dòng)中會(huì)產(chǎn)生具體操作,形成業(yè)務(wù)流,數(shù)據(jù)是此過程中的流動(dòng)對(duì)象。實(shí)際業(yè)務(wù)的操作內(nèi)容、方式以及數(shù)據(jù)整理操作等流程信息亦需描述保存,以便日后查證與溯源。[10]
(3)職能。組織內(nèi)各個(gè)部門的職能劃分十分重要,職能分工與職能定位可有效提升組織機(jī)構(gòu)工作的辦事效率,是開展后續(xù)數(shù)據(jù)整理和歸檔的重要參考依據(jù)。組織機(jī)構(gòu)需明確并記錄業(yè)務(wù)活動(dòng)過程中的節(jié)點(diǎn)、階段以及構(gòu)成業(yè)務(wù)過程的具體事務(wù),并確定每項(xiàng)業(yè)務(wù)的職能、活動(dòng)和事物對(duì)數(shù)據(jù)的需求。
(4)目標(biāo)。組織機(jī)構(gòu)的目標(biāo)規(guī)劃是實(shí)現(xiàn)數(shù)據(jù)有效利用的關(guān)鍵,有助于發(fā)揮其長(zhǎng)期可用性。保障數(shù)據(jù)真實(shí)完整與可用的目標(biāo)貫穿整個(gè)生命周期。組織機(jī)構(gòu)可制定一個(gè)由上而下的戰(zhàn)略目標(biāo),從源頭進(jìn)行質(zhì)量把控,如制定數(shù)據(jù)獲取方案和獲取標(biāo)準(zhǔn)等目標(biāo)規(guī)劃。
2.數(shù)據(jù)獲取維。數(shù)據(jù)獲取維不僅需要考慮獲取數(shù)據(jù)本身,還應(yīng)注重?cái)?shù)據(jù)與數(shù)據(jù)之間的邏輯關(guān)系及數(shù)據(jù)內(nèi)容的語(yǔ)義表達(dá)。需將數(shù)據(jù)屬性描述與關(guān)聯(lián)關(guān)系等作為元數(shù)據(jù)一起進(jìn)行獲取,以確保數(shù)據(jù)的真實(shí)完整與可用。
(1)數(shù)據(jù)內(nèi)容。業(yè)務(wù)活動(dòng)中會(huì)產(chǎn)生各類數(shù)據(jù),如電子文件便是一種常規(guī)的數(shù)據(jù),也被稱為電子數(shù)據(jù)或電子檔案。同時(shí)還存在一種業(yè)務(wù)活動(dòng)直接形成的原生數(shù)據(jù)。業(yè)務(wù)驅(qū)動(dòng)下各系統(tǒng)產(chǎn)生的大量結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)內(nèi)容可有效地反映業(yè)務(wù)主題和重要信息,是組織機(jī)構(gòu)界定歸檔范圍的重要依據(jù),而數(shù)據(jù)內(nèi)容的準(zhǔn)確、完整、可靠是保障數(shù)據(jù)可信與可用的關(guān)鍵。
(2)屬性描述。數(shù)據(jù)本身具有自身屬性值,數(shù)據(jù)屬性描述包括數(shù)據(jù)內(nèi)容的語(yǔ)義與數(shù)據(jù)項(xiàng)描述等。[11]數(shù)據(jù)描述需要按照主題分類、職能劃分等規(guī)則進(jìn)行梳理與分類,還需將數(shù)據(jù)與數(shù)據(jù)產(chǎn)生的背景信息進(jìn)行全部收集。每個(gè)離散的數(shù)據(jù)是不可以揭示其本身含義和存在價(jià)值的,數(shù)據(jù)的價(jià)值是大量數(shù)據(jù)聚集所反映的真實(shí)情況。
(3)數(shù)據(jù)關(guān)聯(lián)。數(shù)據(jù)描述可幫助揭示數(shù)據(jù)內(nèi)容信息,而數(shù)據(jù)關(guān)聯(lián)可將數(shù)據(jù)與數(shù)據(jù)之間的關(guān)系形成一種規(guī)則或特征字典,可進(jìn)一步增強(qiáng)數(shù)據(jù)的可理解性,有助于分析與應(yīng)用數(shù)據(jù)。[12]可根據(jù)業(yè)務(wù)主題類型或業(yè)務(wù)類別特征選取合適的關(guān)聯(lián)規(guī)則方式,如利用E-R圖、數(shù)據(jù)流程圖、業(yè)務(wù)流程圖和數(shù)據(jù)字典等方法進(jìn)行關(guān)聯(lián),以數(shù)據(jù)流與業(yè)務(wù)流來揭示業(yè)務(wù)主題和數(shù)據(jù)復(fù)雜邏輯關(guān)系等。
(4)封裝包。在數(shù)據(jù)庫(kù)系統(tǒng)中,對(duì)元數(shù)據(jù)的保存具有特殊規(guī)定和要求,須具備快速查詢、易更新等特點(diǎn)。為了避免離散的數(shù)據(jù)本身含義和價(jià)值特征弱勢(shì)等問題,需增強(qiáng)數(shù)據(jù)關(guān)聯(lián)性,有必要將揭示數(shù)據(jù)的數(shù)據(jù)信息和描述數(shù)據(jù)屬性和關(guān)系的信息一起封裝打包,這可有效提高數(shù)據(jù)的查詢率和檢索率。
3.數(shù)據(jù)保存維。數(shù)據(jù)保存階段是檔案數(shù)據(jù)管理的最重要環(huán)節(jié),數(shù)據(jù)的真實(shí)、完整、可用與安全是此階段保障的目的。
(1)保存規(guī)劃。保存規(guī)劃是對(duì)數(shù)據(jù)在整個(gè)生命周期階段中如何被保存進(jìn)行的設(shè)計(jì),主要包括數(shù)據(jù)情景分析和規(guī)劃設(shè)計(jì)。數(shù)據(jù)情景分析是結(jié)合組織機(jī)構(gòu)和部門間的業(yè)務(wù)管理活動(dòng)與業(yè)務(wù)流操作等具體情景,針對(duì)檔案數(shù)據(jù)保存需求和數(shù)據(jù)保存目標(biāo)而定;規(guī)劃設(shè)計(jì)是指不同生命周期階段中需執(zhí)行的基本原則、方法與技術(shù)環(huán)境等關(guān)鍵問題的設(shè)計(jì)。
(2)數(shù)據(jù)標(biāo)準(zhǔn)。數(shù)據(jù)標(biāo)準(zhǔn)是數(shù)據(jù)保存的約束性標(biāo)準(zhǔn)體系,需要參考和遵從相關(guān)法律法規(guī),如《電子檔案管理系統(tǒng)通用功能要求》《中華人民共和國(guó)數(shù)據(jù)安全法》《信息安全技術(shù)數(shù)據(jù)安全能力成熟度模型》等法規(guī)標(biāo)準(zhǔn)。同時(shí),要結(jié)合檔案數(shù)據(jù)獲取、存儲(chǔ)等需求制定數(shù)據(jù)保存協(xié)議、元數(shù)據(jù)標(biāo)準(zhǔn)、規(guī)則管理標(biāo)準(zhǔn)和數(shù)據(jù)質(zhì)量管理標(biāo)準(zhǔn)等。建立規(guī)范的數(shù)據(jù)應(yīng)用標(biāo)準(zhǔn),可以有效地幫助消除數(shù)據(jù)不一致的問題,這是從根本上解決系統(tǒng)的數(shù)據(jù)質(zhì)量問題的關(guān)鍵。
(3)存儲(chǔ)環(huán)境。儲(chǔ)存環(huán)境應(yīng)具有保障數(shù)據(jù)長(zhǎng)期保存與存儲(chǔ)的技術(shù)基礎(chǔ)。如數(shù)據(jù)庫(kù)技術(shù)、存儲(chǔ)加密技術(shù)、對(duì)象/關(guān)系映射技術(shù)、真實(shí)性與完整性驗(yàn)證技術(shù)等,這些技術(shù)問題仍需進(jìn)一步研究。
(4)安全管控。數(shù)據(jù)安全與數(shù)據(jù)治理的重要性日益凸顯。數(shù)據(jù)安全需從多方面入手。機(jī)構(gòu)需構(gòu)建數(shù)據(jù)安全治理框架,并梳理整體實(shí)施運(yùn)行思路,用實(shí)踐案例作為實(shí)證。安全管控需要綜合考慮影響檔案數(shù)據(jù)安全保存和風(fēng)險(xiǎn)管控等因素,如避免重復(fù)、空缺值等,以便構(gòu)建一個(gè)穩(wěn)定安全可信的倉(cāng)儲(chǔ)環(huán)境。
(一)數(shù)據(jù)獲取前端控制問題
數(shù)據(jù)生成時(shí)的質(zhì)量控制是保障數(shù)據(jù)內(nèi)容真實(shí)完整的關(guān)鍵。在初始階段需介入前端控制思想,重構(gòu)組織架構(gòu)、整改管理制度與戰(zhàn)略規(guī)劃等,以提升數(shù)據(jù)可信度和真實(shí)憑證性價(jià)值。原始數(shù)據(jù)在未經(jīng)過數(shù)據(jù)清洗的情況下,可能存在缺失、重復(fù)、不一致、關(guān)聯(lián)關(guān)系不清晰等問題,只有經(jīng)過數(shù)據(jù)治理后的數(shù)據(jù)才能保障質(zhì)量。數(shù)據(jù)清洗是實(shí)現(xiàn)數(shù)據(jù)治理的前提,數(shù)據(jù)清洗可檢驗(yàn)出數(shù)據(jù)重復(fù)、不一致等問題,將“臟”數(shù)據(jù)進(jìn)行有效清洗。
數(shù)據(jù)清洗包含原始數(shù)據(jù)的分析、定義數(shù)據(jù)清洗規(guī)則、搜尋并確定錯(cuò)誤、糾正錯(cuò)誤與干凈數(shù)據(jù)的回流等過程。如圖2所示,為避免出現(xiàn)數(shù)據(jù)空值、命名規(guī)則不同、拼寫錯(cuò)誤等情況,需按照數(shù)據(jù)清洗策略與規(guī)則進(jìn)行清洗。常用的數(shù)據(jù)清洗方法有缺失值的清洗、重復(fù)值的清洗和錯(cuò)誤值的清洗三種。其中,通過檢測(cè)窗口內(nèi)的記錄判斷其相似度從而確定并處理重復(fù)的記錄。此外,對(duì)于記錄不完全的情況則需填充補(bǔ)齊與驗(yàn)證數(shù)據(jù),最后生成數(shù)據(jù)清洗報(bào)告并作為記錄,以此作為檔案數(shù)據(jù)的可信憑證。
(二)數(shù)據(jù)關(guān)聯(lián)規(guī)則管理問題
由于數(shù)據(jù)形成環(huán)境的變化,越來越多數(shù)據(jù)驅(qū)動(dòng)的業(yè)務(wù)系統(tǒng)大量涌現(xiàn),形成各類以數(shù)據(jù)尺度形式存在的數(shù)據(jù)體,它們是業(yè)務(wù)活動(dòng)的原始且真實(shí)的記錄,具備檔案屬性。數(shù)據(jù)態(tài)下的檔案數(shù)據(jù)需要考慮的是其歸檔保存方式的選擇,對(duì)應(yīng)的保存方法與策略也需做出調(diào)整。只保存單純數(shù)據(jù)是無(wú)法被識(shí)讀與理解的,數(shù)據(jù)實(shí)體之間的邏輯關(guān)系對(duì)于數(shù)據(jù)規(guī)則管理十分重要。數(shù)據(jù)與數(shù)據(jù)之間可能存在一種或多種關(guān)系,需將所有關(guān)聯(lián)關(guān)系厘清并一起保存,以幫助用戶理解數(shù)據(jù)。業(yè)務(wù)系統(tǒng)產(chǎn)生的數(shù)據(jù)不僅包括原生數(shù)據(jù),還包括數(shù)據(jù)結(jié)構(gòu)和背景信息等幫助理解離散的數(shù)據(jù),如數(shù)據(jù)庫(kù)中的概念設(shè)計(jì)、標(biāo)準(zhǔn)數(shù)據(jù)結(jié)構(gòu)模型、數(shù)據(jù)字典技術(shù)、主外鍵與視圖等。
(三)實(shí)現(xiàn)檔案數(shù)據(jù)全程管理問題
長(zhǎng)期保存階段要實(shí)現(xiàn)數(shù)據(jù)的可用與檢索,并可在需要時(shí)提供真實(shí)性證明。全程管理思想是保障數(shù)據(jù)完整真實(shí)的關(guān)鍵,全程管理需要的是使數(shù)據(jù)形成、獲取、保存整個(gè)過程處在可控管理范圍內(nèi)。另外,前端控制在優(yōu)化全程管理功能方面發(fā)揮著巨大作用,二者互為依存。如果僅有前端控制,那將會(huì)缺少很多必要管控,可能會(huì)導(dǎo)致重要數(shù)據(jù)丟失,在保證業(yè)務(wù)系統(tǒng)前端控制的同時(shí)也需要樹立全程控制思想。在不同數(shù)據(jù)態(tài)下的業(yè)務(wù)系統(tǒng)中,業(yè)務(wù)流與工作活動(dòng)等環(huán)節(jié)之間都需要制定相應(yīng)制度規(guī)范與數(shù)據(jù)管理標(biāo)準(zhǔn),以有效指導(dǎo)實(shí)際業(yè)務(wù)操作流程。當(dāng)具體到每一個(gè)部門的每個(gè)業(yè)務(wù)流程,對(duì)數(shù)據(jù)的需求都必須在文件形成之初嵌入,需從源頭對(duì)數(shù)據(jù)的質(zhì)量進(jìn)行把控,實(shí)施全程管理思想。
(一)制定檔案數(shù)據(jù)保存規(guī)劃
對(duì)組織機(jī)構(gòu)的發(fā)展而言,制定合適的戰(zhàn)略目標(biāo)與規(guī)劃是實(shí)現(xiàn)組織發(fā)展的關(guān)鍵舉措。在保存計(jì)劃方面,應(yīng)有計(jì)劃地開展數(shù)據(jù)保存工作,并形成工作記錄;在工作流方面,需確定數(shù)據(jù)歸檔范圍與數(shù)據(jù)價(jià)值鑒定等規(guī)劃。另外,制度是對(duì)領(lǐng)導(dǎo)和員工的約束,具有整合規(guī)訓(xùn)功能,無(wú)論是管理層還是基礎(chǔ)層都需要有明確的制度,可以按照數(shù)據(jù)形成、獲取和保存的全過程劃分制度。
在業(yè)務(wù)治理與數(shù)據(jù)捕獲中,需形成統(tǒng)一的規(guī)范格式,減少使用中的錯(cuò)誤解讀。檔案數(shù)據(jù)安全管理制度的規(guī)范性、適用性、明確性和有效性是衡量檔案數(shù)據(jù)安全治理能力的重要依據(jù)。檔案部門需構(gòu)建系統(tǒng)完備、結(jié)構(gòu)清晰、高效運(yùn)行的制度體系,制定科學(xué)合理、內(nèi)容完善的檔案數(shù)據(jù)安全管理制度,做好數(shù)據(jù)的保存和備份工作,規(guī)范實(shí)施流程。
(二)嚴(yán)格遵從法規(guī)標(biāo)準(zhǔn)
法規(guī)遵從意識(shí)淡薄可能會(huì)導(dǎo)致組織機(jī)構(gòu)監(jiān)管和細(xì)化組織管理不到位。這需提高遵守檔案數(shù)據(jù)法律法規(guī)意識(shí),提高數(shù)據(jù)治理能力。為證明其符合相關(guān)法律法規(guī)和標(biāo)準(zhǔn)實(shí)施要求,可參考國(guó)標(biāo)、行標(biāo)等相關(guān)法規(guī)。同時(shí),可以結(jié)合檔案數(shù)據(jù)獲取、存儲(chǔ)等需求制定數(shù)據(jù)保存制度、數(shù)據(jù)標(biāo)準(zhǔn)與規(guī)則管理標(biāo)準(zhǔn)等。在制定數(shù)據(jù)標(biāo)準(zhǔn)法規(guī)方面可參看《數(shù)據(jù)標(biāo)準(zhǔn)管理做法白皮書》,其中闡明了如何保證內(nèi)外部使用與交換數(shù)據(jù)一致性和準(zhǔn)確性的規(guī)范性約束等內(nèi)容,幫助制定業(yè)務(wù)驅(qū)動(dòng)下大量結(jié)構(gòu)化數(shù)據(jù)獲取和管理等標(biāo)準(zhǔn)。
在《企業(yè)信用監(jiān)管檔案數(shù)據(jù)項(xiàng)規(guī)范》中,將企業(yè)數(shù)據(jù)項(xiàng)中每一項(xiàng)屬性進(jìn)行描述,從類別、名稱、字段名、數(shù)據(jù)類型、格式及備注等方面進(jìn)行描述和說明,為企業(yè)中不同部門或組織進(jìn)行信息交換和使用提供依據(jù)。在《中華人民共和國(guó)檔案法》中明確規(guī)定“電子檔案應(yīng)當(dāng)來源可靠、程序規(guī)范、要素合規(guī)”,結(jié)構(gòu)化數(shù)據(jù)保存標(biāo)準(zhǔn)的制定同樣需遵從各項(xiàng)法規(guī)。法規(guī)遵從是一個(gè)持續(xù)漸進(jìn)的過程,建立一個(gè)內(nèi)生于組織機(jī)構(gòu)、業(yè)務(wù)流程及業(yè)務(wù)規(guī)則相融的安全治理機(jī)制,才能促進(jìn)數(shù)據(jù)在“安全”中得以“保存”。
(三)建立數(shù)據(jù)關(guān)聯(lián)規(guī)則
可以利用E-R圖、數(shù)據(jù)字典、數(shù)據(jù)流圖等方法,使用戶清晰了解業(yè)務(wù)驅(qū)動(dòng)下數(shù)據(jù)與數(shù)據(jù)之間的聯(lián)系,清楚各業(yè)務(wù)的數(shù)據(jù)流向與每個(gè)數(shù)據(jù)項(xiàng)的意義。在業(yè)務(wù)工作中要記錄數(shù)據(jù)形成者產(chǎn)生的數(shù)據(jù)來源,制定相關(guān)數(shù)據(jù)使用方案與使用方法,幫助用戶在海量信息中快速查找、關(guān)聯(lián)與使用數(shù)據(jù)??梢砸詷I(yè)務(wù)流程圖描述系統(tǒng)內(nèi)各業(yè)務(wù)關(guān)系、作業(yè)順序和管理信息流向,將系統(tǒng)中數(shù)據(jù)流向關(guān)系進(jìn)行展示,并用少數(shù)符號(hào)綜合地反映出數(shù)據(jù)在系統(tǒng)中的流動(dòng)、處理和存儲(chǔ)等情況。可構(gòu)建系統(tǒng)邏輯模型,反映數(shù)據(jù)來源和處理過程,以保障數(shù)據(jù)來源可靠與數(shù)據(jù)來源的唯一性。
不同的系統(tǒng)類型所采取的數(shù)據(jù)關(guān)聯(lián)規(guī)則和語(yǔ)義描述方式各不相同,可根據(jù)業(yè)務(wù)主題類型或業(yè)務(wù)類別特征選取合適的描述方式和關(guān)聯(lián)規(guī)則。如在圖形設(shè)計(jì)類系統(tǒng)中,存儲(chǔ)的往往是幾何數(shù)據(jù)或幾何模型,只有通過解析幾何方程式解釋圖形原始數(shù)據(jù);以業(yè)務(wù)流程驅(qū)動(dòng)的系統(tǒng),用流程圖進(jìn)行流程定義,是整合和理解系統(tǒng)數(shù)據(jù)的關(guān)鍵,用戶可以按照各自業(yè)務(wù)需求定義業(yè)務(wù)流程圖,數(shù)據(jù)可以按照事先規(guī)定好的流程路線開展。還可以加上數(shù)據(jù)字典來幫助數(shù)據(jù)管控,以達(dá)到監(jiān)控?cái)?shù)據(jù)使用的目的,尤其是在數(shù)據(jù)庫(kù)系統(tǒng)中使用數(shù)據(jù)元素定義的集合時(shí),以數(shù)據(jù)字典來幫助數(shù)據(jù)管控,可以加強(qiáng)對(duì)數(shù)據(jù)內(nèi)容與語(yǔ)義的理解。
*本文系國(guó)家社科基金重點(diǎn)資助項(xiàng)目“國(guó)家大數(shù)據(jù)戰(zhàn)略下檔案管理理論與實(shí)踐創(chuàng)新研究”(項(xiàng)目編號(hào): 18ATQ009)的階段性成果之一。
注釋及參考文獻(xiàn):
[1]中國(guó)網(wǎng)信網(wǎng):十四五國(guó)家信息規(guī)劃[EB/OL].[2022- 08- 04].http://www.cac.gov.cn/2021- 12/27/c_ 1642205314518676.htm?cre=tianyi&mod=wnews&loc= 4&r=24&rfunc=14&tj=cxvertical_wap_wnews&tr= 24&wm=1861%3Fmsg%3D%24citymsg&vt=4&pos=3.
[2]馮惠玲.融入數(shù)據(jù)管理做電子文件管理追風(fēng)人[J].北京檔案,2020(12):6-7.
[3]高勁松,張強(qiáng).可移動(dòng)文物的知識(shí)圖譜構(gòu)建及關(guān)聯(lián)數(shù)據(jù)存儲(chǔ)——以湖北省博物館為例[J].現(xiàn)代情報(bào),2022(4):88-98.
[4]周林興,林凱.大數(shù)據(jù)時(shí)代檔案數(shù)據(jù)質(zhì)量控制:現(xiàn)狀、機(jī)制與優(yōu)化路徑[J].檔案與建設(shè),2022(2):4-8.
[5]錢毅.數(shù)據(jù)態(tài)環(huán)境中數(shù)字檔案對(duì)象保存問題與策略分析[J].檔案學(xué)通訊,2019(4):40-47.
[6]蔡莉,梁宇,朱揚(yáng)勇,等.數(shù)據(jù)質(zhì)量的歷史沿革和發(fā)展趨勢(shì)[J]計(jì)算機(jī)科學(xué),2018(4):1-10.
[7]仇蓉蓉,岳文玉.學(xué)術(shù)信息云存儲(chǔ)中的安全需求與保障策略研究[J].情報(bào)資料工作,2019(6):38-43.
[8]錢毅.從保護(hù)到管護(hù):對(duì)象變遷視角下的檔案保管思想演變[J].檔案學(xué)通訊,2022(2):82-88.
[9]劉碩.基于大數(shù)據(jù)的用戶行為規(guī)律及業(yè)務(wù)相關(guān)性研究[D].北京:北京郵電大學(xué),2017.
[10]支鳳穩(wěn),云仲倫,張閃閃.基于區(qū)塊鏈的個(gè)人科學(xué)數(shù)據(jù)共享模式研究[J].現(xiàn)代情報(bào),2021(12):69-78.
[11]程芳,趙彥慶,李鴻飛,等.基于業(yè)務(wù)規(guī)則的數(shù)據(jù)質(zhì)量管理方法研究[J].標(biāo)準(zhǔn)科學(xué),2018 (2):117-120.
[12]趙強(qiáng).建立外部涉稅數(shù)據(jù)智能化處理工作機(jī)制[N].陜西科技報(bào),2018-12-21(7).
作者單位:1.鄭州科技學(xué)院信息工程學(xué)院2.鄭州航空工業(yè)管理學(xué)院信息管理學(xué)院