李毅強, 鄭 川
(1.湖南大學(xué) 檔案館,湖南 長沙410083;2.中南大學(xué) 檔案技術(shù)研究所,湖南 長沙410083)
信息化時代,電子文件成為了人們記錄、傳遞和交流信息的主要工具,它是一組相關(guān)信息的集合,包括文字、聲音聲像、圖表等多種格式的計算機可讀文件,具備傳統(tǒng)紙質(zhì)檔案特有的原始性、記錄性、憑證性等特點,成為了重要的社會記憶。 但電子文件本身具有容易復(fù)制、容易刪除、容易修改、容易損壞等特性,傳統(tǒng)的工作流程、模式和技術(shù),很難滿足電子文件管理的要求。 尤其在技術(shù)更新頻繁、快速迭代的今天,使電子文件滿足真實性、完整性、可用性和安全性四性檢測要求,實現(xiàn)電子文件長期保存,更是業(yè)界所關(guān)注的焦點。 本文從文獻(xiàn)計量的角度對國內(nèi)電子文件長期保存相關(guān)文獻(xiàn)進(jìn)行梳理和統(tǒng)計分析,以期為該領(lǐng)域研究提供參考。
通過文獻(xiàn)計量法、內(nèi)容分析法和知識圖譜對我國電子文獻(xiàn)長期保存相關(guān)文獻(xiàn)進(jìn)行分析。 計量分析工具使用文獻(xiàn)管理軟件NoteExpress 3.2.0 和電子表格軟件Microsoft Excel 2016。 NoteExpress 是一款專業(yè)級的文獻(xiàn)檢索與管理軟件,其核心功能涵蓋文獻(xiàn)檢索、采集、管理、應(yīng)用和挖掘等知識管理的所有環(huán)節(jié)[1]。 Microsoft Excel 可以方便地處理表格數(shù)據(jù)和進(jìn)行圖形分析,且具有直觀的可視化界面和優(yōu)秀的圖表工具,適用于各種數(shù)據(jù)分析。
本文以中國知網(wǎng)CNKI 為數(shù)據(jù)來源,檢索式 “主題=電子文件and 長期保存(精確匹配)”;發(fā)表時間不限;文獻(xiàn)來源不限,檢索時間為2019 年11 月10 日,得到中文文獻(xiàn)376 篇。 將這些文獻(xiàn)題錄以自定義格式導(dǎo)出為文本文件后通過 “ CNKI-Export(Custom)” 過濾器導(dǎo)入NoteExpress,再由 “CNKI-中國知網(wǎng)(IP 登錄)” 批量下載所有文獻(xiàn)全文。 通過逐篇閱讀摘要的方式對文獻(xiàn)進(jìn)行數(shù)據(jù)清洗,剔除重復(fù)題錄6 篇、新聞資訊6 篇、卷首語1 篇、期刊要覽1篇、內(nèi)容無關(guān)文獻(xiàn)15 篇、訪談稿1 篇,最終得到346篇國內(nèi)電子文件長期保存的相關(guān)文獻(xiàn)。
在NoteExpress 通過文件夾統(tǒng)計信息功能對346篇文獻(xiàn)的 “年份” 字段進(jìn)行統(tǒng)計,將結(jié)果另存為文本文件導(dǎo)入Microsoft Excel,按年度發(fā)文量繪制發(fā)文時間及數(shù)量分布曲線圖如圖1 所示。 國內(nèi)電子文件長期保存相關(guān)文獻(xiàn)最早出現(xiàn)在1997 年,在隨后的二十多年時間里,該領(lǐng)域發(fā)文數(shù)量呈明顯上升趨勢,由于文獻(xiàn)收錄存在一定的滯后和檢索時點原因,2019 年發(fā)文數(shù)量缺乏參考性。 根據(jù)發(fā)文時間及數(shù)量分布曲線圖,我國電子文件長期保存研究可分為兩個階段,1997 年~2004 年為起步階段,年發(fā)文數(shù)量在5 篇左右較為穩(wěn)定;2005 年至今為穩(wěn)步發(fā)展階段,年發(fā)文數(shù)量呈穩(wěn)定增長態(tài)勢,近3 年年發(fā)文數(shù)量均在35 篇以上??傮w上看,我國對電子文件長期保存的研究與我國信息技術(shù)發(fā)展進(jìn)步、科研投入的增長呈正相關(guān)[2]。
圖1 發(fā)文時間及數(shù)量分布曲線圖
在NoteExpress 中使用數(shù)據(jù)及分詞管理器對電子文件長期保存文獻(xiàn)的 “作者” 字段進(jìn)行統(tǒng)計,346篇文獻(xiàn)共涉及作者405 名,其中發(fā)文量最多的作者發(fā)文數(shù)量為9 篇。 根據(jù)普賴斯定律(Law of Price)計算公式,發(fā)文量在m=0.749×Nmax篇以上的作者為核心作者[3],計算得m=2.247,即發(fā)文量大于等于3 篇的作者為該領(lǐng)域的核心作者:發(fā)表9 篇的劉家真、劉越男,發(fā)表6 篇的有錢毅、肖秋會,徐義全發(fā)表5 篇,毛義春和張美芳各4 篇,發(fā)表3 篇的有陳曉暉、程妍妍、馮惠玲、侯衡、祁天嬌、孫瑾、屠躍明、張健、張夢霞、張雅君、趙淑梅、趙屹等。 由核心作者形成的核心作者群是推動學(xué)科發(fā)展和學(xué)術(shù)創(chuàng)新的重要力量。 346 篇文獻(xiàn)中署名人數(shù)2 人及以上的共106篇,獨立作者論文240 篇,論文合著率30.6%屬于較低水平[4],說明該領(lǐng)域的科研合作有待加強。
直接統(tǒng)計346 篇電子文件長期保存文獻(xiàn)共涉及發(fā)文單位253 個,分析發(fā)現(xiàn)作者署名單位通常為所在機構(gòu)的具體部門,會給發(fā)文單位統(tǒng)計帶來誤差,因此對署名單位進(jìn)行標(biāo)準(zhǔn)化處理:發(fā)文單位統(tǒng)一以一級單位統(tǒng)計,如 “中國人民大學(xué)信息資源管理學(xué)院”和 “中國人民大學(xué)電子文件研究中心” 統(tǒng)一記為 “中國人民大學(xué)”;合著論文以通訊作者所在單位進(jìn)行統(tǒng)計。 處理之后共有發(fā)文單位174 個,發(fā)文量大于等于4 篇的單位統(tǒng)計如表1 所示。 發(fā)文數(shù)量高的單位,與該領(lǐng)域的核心作者群所在單位的重合度較高,且高等院校與檔案局、檔案館等檔案管理機構(gòu)是電子文件長期保存研究的主要單位。
表1 發(fā)文數(shù)量≥4 篇單位統(tǒng)計表
346 篇電子文件長期保存相關(guān)文獻(xiàn)中,除會議論文與學(xué)位論文外,有期刊論文296 篇。 在NoteExpress中通過文獻(xiàn)類型字段=“期刊” 篩選后,使用數(shù)據(jù)及分詞管理器統(tǒng)計來源期刊,296 篇期刊論文分布在87 種刊物上,取載文量前十(含并列)的期刊繪制環(huán)形圖如圖2 所示。 布拉德福定律(Law of Bradford)把載文期刊分為核心區(qū)、相關(guān)區(qū)和非相關(guān)區(qū),理論上每個區(qū)間的載文量占總發(fā)文量的三分之一[5],可以發(fā)現(xiàn)電子文件長期保存相關(guān)文獻(xiàn)的來源期刊中,核心區(qū)期刊和相關(guān)區(qū)期刊全部為檔案學(xué)學(xué)科的期刊,檔案學(xué)學(xué)科是該領(lǐng)域的主要研究力量。 其中《檔案學(xué)研究》和《檔案學(xué)通訊》為CSCD 來源期刊,也屬于核心區(qū)期刊;《檔案與建設(shè)》、《北京檔案》、《檔案管理》、《中國檔案》和《浙江檔案》為北大中文核心期刊,前兩者屬于核心區(qū)期刊,后三者屬于相關(guān)區(qū)期刊。 CSCD 來源期刊和北大中文核心期刊在核心區(qū)期刊和相關(guān)區(qū)期刊中占比達(dá)46. 7%,發(fā)文量占比達(dá)59. 6%。 可見檔案學(xué)的CSCD 來源期刊和北大中文核心期刊是電子文件長期保存研究領(lǐng)域最重要的刊發(fā)平臺。
圖2 載文量前十(含并列)期刊統(tǒng)計圖
基金項目是我國政府對科學(xué)研究資助的主要方式之一,基金項目的研究通常代表該研究領(lǐng)域的創(chuàng)新性成果和前沿性進(jìn)展[6],也在一定程度上成為文獻(xiàn)創(chuàng)新性和前沿性的衡量指標(biāo)之一[7]。 從電子文件長期保存相關(guān)文獻(xiàn)獲得各類基金資助的情況看,346 篇論文共有61 篇標(biāo)注了基金項目,占比17.6%。單篇論文標(biāo)注多個基金項目的,取級別較高的進(jìn)行統(tǒng)計,結(jié)果如表2 所示。 國家社科基金項目對電子文件長期保存的研究資助力度最大,共計29 個項目占比8.38%;其次是省部級基金項目,共計19 個項目占比5.49%,省部級基金項目以教育部項目、省級科技項目、省檔案局項目為主。
將標(biāo)注基金項目的論文按發(fā)文時間做升序排列,得到不同年度各類基金項目對電子文件長期保存研究的資助情況。 最早出現(xiàn)的基金項目為1999年教育部 “九五” 規(guī)劃基金,標(biāo)注該基金的論文為武漢大學(xué)劉家真的《 保護(hù)數(shù)字信息長期存取研究綜述》[8]。 1999 年~2008 年期間,該研究領(lǐng)域所獲基金項目支持?jǐn)?shù)量較少,年均不到1 項;2009 年~2018年期間,各類基金項目對該領(lǐng)域的支持穩(wěn)步增加,近3 年年均接近9 項。 基金項目支持?jǐn)?shù)量的逐年增加,與圖1 所示的年發(fā)文數(shù)量增長呈現(xiàn)同步的趨勢。
表2 文獻(xiàn)標(biāo)注基金項目情況統(tǒng)計表
隨著社會信息化程度越來越高,各類信息系統(tǒng)在人們的生產(chǎn)生活活動中不斷深入,電子文件的長期保存問題也越來越重要。 通過對該領(lǐng)域文獻(xiàn)的計量分析發(fā)現(xiàn),二十年來相關(guān)文獻(xiàn)數(shù)量和各類基金項目數(shù)量穩(wěn)步增長,已形成較穩(wěn)定的核心作者群,檔案學(xué)核心期刊是該領(lǐng)域研究的主要來源期刊,高等院校與檔案局、檔案館等檔案管理機構(gòu)是電子文件長期保存的主要研究單位。