楊典,楊鑫,蘇慧慧,羅靜
(貴州財經大學信息學院,貴陽 550025)
隨著信息時代的快速發(fā)展,我國檔案信息化建設工作不斷受到關注。檔案信息化實質是指檔案管理部門借助現(xiàn)代化計算機技術,構建專門為檔案管理工作服務的設備及平臺,進而提高檔案資料的收集、整理、開發(fā)及利用等工作[1]。國內對檔案信息化的研究主要以梳理檔案信息化概念及發(fā)展進程為主,學者馬仁杰、張浩(2011)[2]分析社會轉型時期我國檔案信息化的建設過程,對檔案信息化理念有了新的界定,提出將政府信息公開與檔案信息化建設相結合,充分利用檔案信息資源;薛惠芳(2013)[3]認為檔案信息資源整合是檔案信息化建設的根本目標,并建議資源整合參照電子政務建設過程。
綜上所述,我國對檔案信息化的研究大多集中于理論分析,部分通過分析文獻的方式,歸納其發(fā)展趨勢,但所用到的研究方法在一定程度上帶有片面性,無法確保文章質量。因此,本文通過文獻計量及社交網絡分析法對檔案信息化相關期刊文獻進行分析,識別其核心作者及核心團隊,通過數據系統(tǒng)分析此領域研究的發(fā)展現(xiàn)狀。
文獻計量分析法是指基于數學、統(tǒng)計學原理對學術期刊文獻分布特征進行研究的一種方法。我國有部分學者借助文獻計量法研究了檔案領域的期刊文獻,如李萍(2012)[4]借助文獻計量法研究2010-2011 年間檔案從業(yè)者關于理論分析的研究現(xiàn)狀,得出檔案從業(yè)人員在檔案理論研究中長期處于配角地位。楊靜、路思(2014)[5]以檔案信息化為主題詞進行核心期刊的搜索,利用文獻計量法分析1997-2013 年檔案信息化相關文獻的發(fā)表年限、來源期刊等,得出此階段我國檔案信息化研究呈波浪形上升趨勢,但總體發(fā)展不是很理想。
社會網絡分析主要用來挖掘社會行動者之間的潛在關聯(lián),尤其在探索某領域內研究主題、核心團隊等方面發(fā)揮著重要作用[6]。如劉則淵與尹麗春(2008)[7]用社會網絡分析法對國外科學計量學領域中6 種核心期刊進行分析,統(tǒng)計其高頻關鍵詞,結果發(fā)現(xiàn),科學、技術及創(chuàng)新活動為該領域內主要的重要主題,代表著當時的研究現(xiàn)狀。此外,邱均平教授[8]結合共詞分析與社會網絡分析,研究了我國圖書館學科結構與圖書情報博客網絡結構。
本文旨在對檔案信息化領域的成果進行可視化梳理和分析,其研究思路如圖1 所示。
圖1 研究思路圖
詳細步驟如下:
(1)在知網上完成文獻數據的檢索與下載,將作者、題名、期刊來源、發(fā)文機構等7 個特征整理并保存于計算機。
(2)對所獲數據進行預處理,如合并同義詞、去除異常值等操作。
(3)將文獻數據進行梳理和計量,從中提取并分析其時間分布、期刊載文、成果分布等特征。
(4)借助普賴斯和綜合指數識別和遴選出檔案信息化領域中的核心作者。
(5)利用社會網絡分析法挖掘領域核心團隊并繪制合作關系圖譜。
本文以CNKI 為數據來源,以“檔案信息化”為主題進行高級檢索,來源類別選擇“核心期刊+CSSCI”,共收集1995-2019 年間2264 篇文獻。為保證數據質量,對所獲數據進行預處理,包括去除異常值、同義詞合并[9],如將“檔案資源”與“檔案信息資源”合并為“檔案信息資源”,最終獲得有效文獻2016 篇,詳細信息如表1所示。
表1 數據統(tǒng)計匯總表
本文借助PyEcharts 技術對數據進行可視化分析,結果如圖2 所示,可以看出,發(fā)文量在2012-2013 年間達到最高(300 篇),隨后呈現(xiàn)出下降態(tài)勢,表示關于檔案信息化的研究熱度有所變弱。而最高下載量和引用量則相對穩(wěn)定,其中,最高被下載量是2010 年劉琴發(fā)表的《人事檔案管理研究述評及趨勢展望》,共被下載4288 次。最高被引用量是2002 年的王佑鎂發(fā)表的《電子學檔:信息化教學的新思路》,共被引用139 次。通過繪制發(fā)文量、引用量及下載量趨勢圖有助于直觀把握該研究領域的文獻年代分布特點。
圖2 檔案信息化發(fā)文趨勢圖
對學術論文的載文期刊進行分析,有助于把握研究主題的核心期刊群。經統(tǒng)計,2016 篇關于“檔案信息化”的文獻分布在168 種期刊內,其中載文量≥4 的期刊有29 種,共計1823 篇,占總發(fā)文量的90%。因此對載文量≥4 的期刊進行分析,結果如表2 所示,其中《蘭臺世界》發(fā)文量最高(544),發(fā)文量明顯超過其他種類期刊,說明該期刊是檔案信息化研究領域的核心載文期刊,其次是《中國檔案》、《檔案與建設》,載文量分別是212 和200。從載文期刊分布來看,檔案信息化在全國各地相關檔案工作中均有受到重視。
表2 期刊載文統(tǒng)計(≥4)
為進一步發(fā)現(xiàn)研究領域的核心作者,文中對其發(fā)文量和機構進行統(tǒng)計分析。結果如表3 所示,蘇州大學張照余發(fā)文量最高(13),其研究內容大多以檔案信息技術的發(fā)展和影響為主。北京大學檔案館李海軍和合肥師范學院裴友泉等發(fā)文量也較高,分別為10 和8,他們所發(fā)表文獻的主題大多圍繞在檔案信息化系統(tǒng)設計、檔案信息孤島消除等方面。
表3 作者發(fā)文量統(tǒng)計(≥3)
相比以發(fā)文量為指標統(tǒng)計出核心作者的方法,本文依靠普賴斯和綜合指數等多指標方法更為精確和全面,具有極高的參考價值。
此部分主要通過普賴斯定律統(tǒng)計最低發(fā)文量及文獻最低被引量,并在此基礎上初步選出核心作者候選人,具體步驟如下:
(1)通過普賴斯定律計算最低發(fā)文量Mp,Npmax代表作者的最高發(fā)文量(見表3),根據式(1)計算,最低發(fā)文量取值為3。
(2)接著計算最低被引量Mc,Ncmax表示領域內作者文獻的最高被引量(見表1),經式(2)計算,Ncmax取值為9。
(3)最后根據Npmax和Ncmax篩選出67 位核心作者候選人,共發(fā)文266 篇(占總發(fā)文13%),總被引用2351 次。
此部分旨在從67 位候選人中計找出最終的核心作者,首先分別計算候選作者的平均發(fā)文量與平均被引量,如式(3)和式(4)所示。
式中,X總為候選作者的總發(fā)文量(266),Y總為候選作者文章的總被引量(2351),n 為候選作者數(67)。
其次,通過綜合指數scorei來確定核心作者,計算過程如式(5)所示:
式(5)中:Xi與 Yi分別是 67 位核心候選人各自的發(fā)文量及被引量,其系數值均為0.5。
最后,依據綜合指數計算出核心作者排名,結果如表4 所示,從中發(fā)現(xiàn),作者張照余居于榜首,共發(fā)文13篇,被引212 次,綜合指數為4.66;其次是作者倪麗娟和薛四新,綜合指數分別為3.15 和2.52。
表4 檔案信息化研究領域核心作者
運用社會網絡分析法挖掘檔案信息化領域內核心團隊,有利于了解該領域中作者的合作狀況。此部分借助Ucinet 根據數據繪制作者社交網絡知識圖譜,過濾掉無合作關系的作者后,結果如圖3 所示,其中,矩形框表示作者,連線表示合作關系,黃色為發(fā)文量≥5的作者,而紅色、紫色、藍色分別為發(fā)文量是4、3 和2的作者??梢园l(fā)現(xiàn)該領域主要有7 個學術團隊,其中合作規(guī)模最大的是權宇彤、閆國棟等人組成的團隊,主要針對高校檔案信息化系統(tǒng)的規(guī)范化使用進行研究;其次是由徐華、楊艷等人的團隊,主要致力于智慧檔案館的研究;此外還有鐘文睿等和裴友泉等團隊,分別研究檔案數字資源的整合與服務、檔案信息化與國家戰(zhàn)略間關系。
檔案信息化是檔案領域持續(xù)發(fā)展的必經之路,具有重大戰(zhàn)略意義。隨著大數據的到來,國內檔案領域的研究成果也層出不窮,但仍然是理論分析較多,以數據挖掘等技術為主的研究還較為缺乏,很難全面挖掘出檔案信息化領域的價值信息。
針對以上不足,本文借助文獻計量及社會網絡的方法,精準地對數據展開研究。首先對文獻時間、期刊及作者等特征進行計量分析;其次采用普賴斯和綜合指數算法深度挖掘領域內核心作者;最后通過社會網絡法繪制核心團隊知識圖譜。以期為檔案信息化領域內的后續(xù)研究提供一定的參考。
圖3 作者社交網絡關系圖