高遠心
(北京市電子科技情報研究所,北京 100009)
機構(gòu)知識庫(Institutional Repository,IR),作為科研單位知識收集、管理、利用的平臺近年來得以迅速建立與發(fā)展[1]。本文基于元數(shù)據(jù)研究應(yīng)用方法,結(jié)合情報所建設(shè)特點進行自定義擴展,建立了適用于情報所現(xiàn)階段科研管理可視化模型,實現(xiàn)了科研數(shù)據(jù)及成果存取及科研經(jīng)費可視化功能的實現(xiàn)。
在對科研單位IR建設(shè)需求調(diào)查中,調(diào)查對象分為用戶和管理者,問卷下發(fā)分別為100和80(份),回收有效問卷分別為61和49(份),有效率分別為89.7%和89%。
由圖1可以看出,“保存機構(gòu)研究成果”成為科研機構(gòu)最為迫切的需求之一。以北京市電子科技情報研究所為例,該研究所屬于市屬獨立研究機構(gòu),科研人員及科研成果體量不大,在歷年科研活動進行中產(chǎn)生了如:課題/項目信息(如立項申請書、中期報告、項目過程數(shù)據(jù)、科研經(jīng)費、結(jié)題/項報告)、期刊論文、匯編、研究報告等各種科研成果和數(shù)據(jù)資源;科研經(jīng)費的管理與使用目前還處于原始的EXCEL表格存儲階段,課題/項目負責(zé)人、科研管理部門以及財務(wù)部門還無法實現(xiàn)三方共享、互參。此次機構(gòu)知識庫模型建設(shè),解決適應(yīng)該所科研能力范圍內(nèi)的科研成果存儲管理的小型科研機構(gòu)知識庫模型,實現(xiàn)機構(gòu)知識庫存儲、調(diào)用,以及科研經(jīng)費可視、可查等功能的實現(xiàn)[2]。
(1)要解決該所科研信息存儲問題,首先要分析該所知識元數(shù)據(jù)類型。通過對情報所2016-2020年內(nèi)、外部課題/項目整理得出,該所涉及知識元數(shù)據(jù)分為匯編、期刊論文、會議論文、科研項目、研究報告、獲獎成果、軟件著作權(quán)七類。
(2)在梳理情報所科研涉及多領(lǐng)域多類型資源基礎(chǔ)上,建立了一系列與知識庫建設(shè)目標(biāo)模型相適應(yīng)的元數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范,借鑒和參考國內(nèi)外如:《都柏林核心元數(shù)據(jù)元素集》、《NSTL文獻資源加工規(guī)范》等著名標(biāo)準(zhǔn)規(guī)范,結(jié)合情報所知識庫建設(shè)特點及需求進行自定義擴展,同時面向人和計算機多場景應(yīng)用需求,研究制定知識庫的元數(shù)據(jù)規(guī)范體系,并描述情報所知識庫所需要涉及的元數(shù)據(jù)的規(guī)則[3]。對其模型開發(fā)考慮幾個特點:1)模塊化。模塊化是元數(shù)據(jù)最重要特征,其關(guān)鍵是根據(jù)實際使用需要,將資源對象區(qū)分為若干個實體,對資源的描述即是對多個不同實體的組合和描述。在對知識庫各類資源進行調(diào)研分析和綜合對比基礎(chǔ)上,將其分為通用容器、數(shù)據(jù)集元素集、資源元素集模塊和規(guī)范編碼體系四個部分。2)可復(fù)用可擴展性。支持對通用容器的組裝復(fù)用,也可在規(guī)范制定的元數(shù)據(jù)基礎(chǔ)上,進行相關(guān)通用容器和元集的復(fù)用、繼承和擴展,支持根據(jù)各個資源和個性化應(yīng)用需求,進行其他類型資源元數(shù)據(jù)規(guī)范的擴展。3)計算機可識別可理解。面向計算機和網(wǎng)絡(luò)化應(yīng)用, 將元數(shù)據(jù)規(guī)范文本轉(zhuǎn)化為X M L Schema形式化描述文件,并基于XML Schema將各類資源元數(shù)據(jù)轉(zhuǎn)化、封裝為XML文件,支持計算機對XML文件的自動識別、理解和驗證。
圖1 科研類機構(gòu)知識庫建設(shè)需求分析Fig.1 Demand analysis of knowledge base construction in scientific research institutions
表1 元數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范的術(shù)語定義Tab.1 Definition of terms in metadata standard specification
表2 附件通用容器簡表Tab.2 Annex general container list
對該所知識庫各類資源抽象和歸納基礎(chǔ)上,建立了適應(yīng)于情報所知識庫資源描述元數(shù)據(jù)領(lǐng)域模型。包括[4-5]:
(1)元數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范(描述性元數(shù)據(jù)):用來描述數(shù)字對象的存儲資源,可以添加多種元數(shù)據(jù)格式。元素和屬性定義中借鑒了ISO/IEC 11179-3:2013標(biāo)準(zhǔn),以“元數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范的術(shù)語定義”為例,如表1所示。
(2)結(jié)構(gòu)性元數(shù)據(jù):用來表達元數(shù)據(jù)最終展示的條目、順序等結(jié)構(gòu)及各組成部分之前的關(guān)系。以“附件通用器內(nèi)容結(jié)構(gòu)描述”為例,如表2。
表3 附件列表描述細則Tab.3 Annex list description details
表4 附件存放路徑編碼表Tab.4 Code table of attachment storage path
(3)資源元素集描述性規(guī)范:以通用容器結(jié)構(gòu)中“附件列表”為例,按照元數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范的術(shù)語定義對其進行細則的描述,如表3。
(4)元數(shù)據(jù)規(guī)范編碼體系:用來存放描述性元素相應(yīng)屬性,及取值等信息。以“附件存放路徑編碼表”為例,如表4。
在此模型基礎(chǔ)上,共設(shè)計了包括管理、主題、責(zé)任者、責(zé)任機構(gòu)、國別(地區(qū))、會議、收錄類別、基金/資金項目、成果產(chǎn)出、參考文獻、附件和擴展等12類容器元素(“容器類元素”是包含其他元素的元素,與其他元素的關(guān)系為父子或祖先/后代的關(guān)系),以及7個資源元素集包括:匯編、期刊論文、會議論文、科研項目、軟件著作權(quán)、獲獎成果、研究報告等專業(yè)資源的描述關(guān)聯(lián)模型。通用容器均可被各類資源元素引用,各類資源元素之間的關(guān)系如圖所示:一個科研項目可以有一個或多個責(zé)任者/責(zé)任機構(gòu);可產(chǎn)出一篇或多篇論文/研究報告;可獲得(參與)一個或多個獲獎成果或軟件著作權(quán)。如圖2 所示。
圖2 情報所領(lǐng)域資源關(guān)聯(lián)模型圖Fig.2 Information Institute domain resource association model
目前國內(nèi)多數(shù)大學(xué)及研究機構(gòu)的機構(gòu)知識庫在運管過程中,在建立機構(gòu)知識庫的同時,科研管理系統(tǒng)也成為了發(fā)展的主流,隨著我國科研經(jīng)費的不斷調(diào)整與力度的加大,對應(yīng)各單位項目開展的科研經(jīng)費信息化和可視化工作也面臨著一些挑戰(zhàn)。由于機構(gòu)知識庫系統(tǒng)與科研管理系統(tǒng)的建設(shè)規(guī)范不一致,導(dǎo)致了機構(gòu)知識庫與科研管理系統(tǒng)不能集成管理。目前情報所對科研經(jīng)費的信息化手段,僅為科研過程文件的電子化存儲,科研經(jīng)費的管理與使用還處于原始的EXCEL表格存儲階段,課題/項目負責(zé)人、科研管理部門以及財務(wù)部門無法實現(xiàn)三方共享、互參等問題。此次情報所利用互聯(lián)網(wǎng)技術(shù),將機構(gòu)知識庫與科研經(jīng)費集成于開放門戶??蒲薪?jīng)費獨立展示于單獨網(wǎng)頁,可通過數(shù)據(jù)庫、批量倒入等模式互聯(lián)操作。利用市面上主流的可視化軟件,將涉及科研經(jīng)費的課題/項目導(dǎo)入軟件,利用基本統(tǒng)計、方差分析、多變量分析、質(zhì)量分析等數(shù)理方法以圖文交互的方式實現(xiàn)數(shù)據(jù)源連接、數(shù)據(jù)加工和處理、將數(shù)據(jù)分析和結(jié)果展現(xiàn)直觀的展示于網(wǎng)頁上,最終發(fā)現(xiàn)經(jīng)費在使用中的變化趨勢。網(wǎng)頁訪問可以不受訪問地點限制,利用權(quán)限管理分配該單位主管領(lǐng)導(dǎo)、科研管理人員、財務(wù)人員、研究員的控制和訪問權(quán)限。隨著數(shù)據(jù)量累計至一定程度時,將為該所下一步數(shù)據(jù)挖掘分析提供支撐。
未來將在該模型基礎(chǔ)上對機構(gòu)知識庫開展本體建設(shè),本體搭建完成后提供了服務(wù)的可用性,主要服務(wù)于科研人員及科研管理人員,對科研人員主動提交其產(chǎn)生成果、提高參與性;科研管理人員在保護知識成果、科研績效考評等方向提出了要求。這也是該模型后續(xù)開展“科研過程”“科研評價”模塊設(shè)計、輔助科研管理的急迫性所在。隨著情報所機構(gòu)知識庫應(yīng)用于知識管理工作體系中, 真正實現(xiàn)全過程和全流程科研管理、多維度知識管理,并具互通、開放的靈活功能,將IR系統(tǒng)真正用于情報所科研管理工作中。