史 磊,曹思思2,裴 麗
機構(gòu)知識庫(Institutional Repositories,IR)又稱機構(gòu)典藏庫、機構(gòu)倉儲等,是利用現(xiàn)代信息技術(shù)建立的一種可持續(xù)的資源倉儲和知識共享空間。機構(gòu)知識庫允許所有研究者參與其中,能夠提升機構(gòu)學(xué)術(shù)成果的可見度和傳播力,在學(xué)術(shù)交流和共享中產(chǎn)生了積極變革和創(chuàng)新[1-2]。隨著我國高等教育的發(fā)展及學(xué)術(shù)環(huán)境的改變,高校機構(gòu)知識庫建設(shè)和服務(wù)面臨持續(xù)發(fā)展的瓶頸。
2015年起,國務(wù)院、教育部等部門相繼發(fā)布了《統(tǒng)籌推進(jìn)世界一流大學(xué)和一流學(xué)科建設(shè)總體方案》[3]《關(guān)于實施一流本科專業(yè)建設(shè)“雙萬計劃”的通知》[4]。2017年,黑龍江中醫(yī)藥大學(xué)(以下簡稱“我?!?成為全國獲評“A+”的3所中醫(yī)藥院校之一[5]。高等教育新形勢對我校的學(xué)科專業(yè)、學(xué)術(shù)環(huán)境、成果收集管理等方面的建設(shè)提出了更高要求,而學(xué)科化服務(wù)需要有充分的元數(shù)據(jù)知識倉儲機構(gòu)知識庫作為底層數(shù)據(jù)來保障。因此,本文在我校機構(gòu)知識庫建設(shè)實踐工作基礎(chǔ)上,總結(jié)了項目建設(shè)的經(jīng)驗與體會,為新形勢下高校機構(gòu)知識庫的建設(shè)提供借鑒與參考。
1.1.1 以資源存儲為中心的機構(gòu)知識庫
國內(nèi)機構(gòu)知識庫相關(guān)研究最早見于2004年。初期的機構(gòu)知識庫主要是在機構(gòu)成果收藏和圖書館資源建設(shè)的影響下,以開放獲取為目標(biāo)發(fā)展起來的一種機構(gòu)資源倉儲[6]。該類型機構(gòu)知識庫以資源為主體,強調(diào)資源的重要作用。圖書館關(guān)注的是資源的收和藏,主要對機構(gòu)成員的成果進(jìn)行收集、存儲、管理,即內(nèi)容的收集和組織完全由圖書館主導(dǎo)制定,用戶只是被動地接受圖書館提供的資源和服務(wù)。2006年,廈門大學(xué)學(xué)術(shù)典藏庫投入使用,主要用來長期保存和管理廈門大學(xué)教職工的學(xué)術(shù)著作、期刊論文、畢業(yè)論文、工作文稿等具有學(xué)術(shù)價值的成果,為該類型機構(gòu)知識庫的代表。
1.1.2 以用戶需求為中心的機構(gòu)知識庫
2013年,高校機構(gòu)知識庫研究的數(shù)量和質(zhì)量均取得了一定的進(jìn)展,其建設(shè)理念逐漸從以資源存儲為中心轉(zhuǎn)向以用戶需求為中心。以用戶需求為中心的機構(gòu)知識庫是一種主動化的機構(gòu)知識庫構(gòu)建模式,即在成果收集和資源建設(shè)的同時,進(jìn)行基于用戶需求的資源和服務(wù)重構(gòu)。機構(gòu)知識庫設(shè)計和運行完全從用戶信息行為和需求出發(fā),不僅強調(diào)用戶的主觀能動性,同時也關(guān)注挖掘用戶的潛在需求,指導(dǎo)機構(gòu)資源的深層開發(fā),將加工過的知識化產(chǎn)物提供給用戶,實現(xiàn)服務(wù)內(nèi)容的知識化。北京科技大學(xué)、福州大學(xué)等以基于需求的機構(gòu)知識庫信息服務(wù)為目標(biāo),進(jìn)行了機構(gòu)知識庫系統(tǒng)的建設(shè)實踐[7-11];東南大學(xué)情報科學(xué)技術(shù)研究所[12]則以學(xué)科用戶的需求為導(dǎo)向進(jìn)行學(xué)科機構(gòu)知識庫的建設(shè)實踐,在高校機構(gòu)知識庫發(fā)展中具有一定的前瞻性。
1.1.3 以學(xué)科建設(shè)為中心的機構(gòu)知識庫
近3年,隨著國家對一流學(xué)科、一流專業(yè)建設(shè)工作的部署和要求,高校圖書館相繼參與到學(xué)校的學(xué)科專業(yè)建設(shè)中。高校機構(gòu)知識庫經(jīng)過不斷發(fā)展,已經(jīng)具備了學(xué)科相關(guān)的資源和數(shù)據(jù),嵌入學(xué)科的機構(gòu)知識庫構(gòu)建模式應(yīng)運而生。嵌入學(xué)科建設(shè)的機構(gòu)知識庫,一方面可按照教育部學(xué)科分類、ESI學(xué)科分類等不同的分類體系,對基礎(chǔ)數(shù)據(jù)進(jìn)行分析,完成定制化學(xué)科分析評價報告,為學(xué)校學(xué)科建設(shè)與人才引進(jìn)等重要決策提供數(shù)據(jù)支撐;另一方面可促進(jìn)圖書館的服務(wù)轉(zhuǎn)型,拓展服務(wù)領(lǐng)域,為學(xué)科服務(wù)提供先進(jìn)技術(shù)支持,利于學(xué)科館員以學(xué)科機構(gòu)知識庫為抓手開展基于不同學(xué)科和用戶群體的多層次服務(wù)。如華中師范大學(xué)、西安交通大學(xué)等根據(jù)學(xué)科建設(shè)需求進(jìn)行機構(gòu)知識庫建設(shè)[13-15];徐春等[16]結(jié)合中國藥科大學(xué)藥學(xué)學(xué)科特色,分析藥學(xué)學(xué)科知識庫聯(lián)盟的構(gòu)建模式,提出“雙一流”背景下構(gòu)建藥學(xué)學(xué)科知識庫聯(lián)盟;山東理工大學(xué)圖書館創(chuàng)新性地提出基于機構(gòu)知識庫系統(tǒng)構(gòu)建學(xué)科決策智庫[17]。
1.2.1 學(xué)者數(shù)據(jù)清洗不徹底
很多高校機構(gòu)知識庫的建設(shè)表面上看無誤,但在基礎(chǔ)數(shù)據(jù)方面,因?qū)W術(shù)成果機構(gòu)地址不規(guī)范、機構(gòu)拆分合并、同名學(xué)者、作者縮寫等成果出版時存在的問題造成數(shù)據(jù)清洗不徹底,致使機構(gòu)庫收錄成果出現(xiàn)錯漏;或因只收集機構(gòu)知名人員名單,按名單做學(xué)者庫(并不能代表機構(gòu)的全體人員和實力),致使機構(gòu)知識庫成為并不實用的“花架子”。另外,由于后期數(shù)據(jù)更新維護(hù)機制不完善,需要圖書館和用戶投入大量人力物力進(jìn)行成果的認(rèn)領(lǐng),導(dǎo)致機構(gòu)知識庫的建設(shè)難以延續(xù),很難為用戶提供有效服務(wù)。
1.2.2 資源與知識組織單一
資源是機構(gòu)知識庫的基石。隨著學(xué)術(shù)環(huán)境的改變,用戶對資源的需求也發(fā)生了改變。當(dāng)前,機構(gòu)知識庫的資源類型多為期刊論文、會議論文和學(xué)位論文等,而學(xué)習(xí)筆記、科學(xué)數(shù)據(jù)、教學(xué)課件、多媒體等隱性資源較少,難以滿足e-Science環(huán)境下科學(xué)研究的需要。知識組織方面,更多注重數(shù)字對象本身的表面聯(lián)系,而忽視了隱含知識的組織和關(guān)聯(lián),缺乏對知識間關(guān)聯(lián)關(guān)系的挖掘,最終阻礙了機構(gòu)知識庫知識再創(chuàng)造價值的實現(xiàn)[18]。
1.2.3 服務(wù)難以滿足學(xué)科建設(shè)需求
目前,高校機構(gòu)知識庫多集中于資源存儲和滿足用戶個體的需求。隨著“雙一流”“雙萬計劃”等系統(tǒng)工程的啟動,各高校逐漸將工作重心轉(zhuǎn)向?qū)W科專業(yè)建設(shè),迫切需要基于學(xué)科專業(yè)建設(shè)的個性化機構(gòu)知識庫。因此,高校機構(gòu)知識庫建設(shè)應(yīng)更多關(guān)注學(xué)科資源的集成以及學(xué)科資源知識化的挖掘和開發(fā),發(fā)揮機構(gòu)知識庫的資源和技術(shù)優(yōu)勢,利用機構(gòu)知識庫開展學(xué)科服務(wù)。同時,實現(xiàn)與高校其他系統(tǒng)的互聯(lián)互通,為用戶提供高效率服務(wù)。
1.2.4 學(xué)術(shù)交流共享空間理念缺乏
在大數(shù)據(jù)、人工智能等新環(huán)境下,用戶信息交互空間的構(gòu)建對于機構(gòu)知識庫的發(fā)展和應(yīng)用日益重要[19]。現(xiàn)有機構(gòu)知識庫只是通過資源集成實現(xiàn)數(shù)字內(nèi)容的整合和可視化,因缺乏線上交流、學(xué)科討論組等學(xué)術(shù)互動交流功能的支持和缺乏學(xué)者個人空間、團(tuán)隊研究空間等個性化空間而難以實現(xiàn)用戶的個性化標(biāo)引、收藏、推薦、編輯、發(fā)布等,同時因沒有激活圖書館員與用戶間的互動而直接影響了機構(gòu)知識庫學(xué)術(shù)資源的實時更新[20]。
1.2.5 知識產(chǎn)權(quán)問題凸顯
機構(gòu)知識庫在收集學(xué)術(shù)成果并對其他用戶開放成果的復(fù)制權(quán)、傳播權(quán)時能否保護(hù)原創(chuàng)者的知識產(chǎn)權(quán)是用戶的關(guān)注點[21],因此學(xué)者成果的版權(quán)許可成為影響機構(gòu)知識庫發(fā)展的瓶頸之一。國外有學(xué)者對如何解決機構(gòu)知識庫內(nèi)容獲取與版權(quán)間的矛盾進(jìn)行了討論,指出機構(gòu)知識庫應(yīng)當(dāng)遵循法律的規(guī)定,對于被版權(quán)許可的對象,在重用知識對象時,需要聲明作者的版權(quán)。建議圖書館采用相應(yīng)的策略和技巧實施內(nèi)容獲取的管理,并制定機構(gòu)知識庫用戶資源的獲取政策[22-23]。
黑龍江中醫(yī)藥大學(xué)機構(gòu)知識庫基于我校教職工學(xué)術(shù)成果,建設(shè)內(nèi)容主要體現(xiàn)在成果收集與維護(hù)、IR門戶、知識服務(wù)、系統(tǒng)管理、學(xué)科服務(wù)、學(xué)術(shù)社區(qū)6個模塊,實現(xiàn)學(xué)術(shù)成果存儲、學(xué)術(shù)資源集成與共享、用戶信息交互、知識發(fā)現(xiàn)、學(xué)科服務(wù)等功能。黑龍江中醫(yī)藥大學(xué)機構(gòu)知識庫建設(shè)的總體目標(biāo)分為兩方面。
機構(gòu)可通過對其人員的學(xué)術(shù)成果的統(tǒng)一分類、標(biāo)引、加工與存儲、長期管理與保存,有效保證機構(gòu)資源的完整性和安全性;通過對底層數(shù)據(jù)的分析,形成人、出版物、教學(xué)科研數(shù)據(jù)的關(guān)聯(lián)模型,從而全面系統(tǒng)地反映機構(gòu)的教學(xué)和科研成果;通過對數(shù)據(jù)的分析與評價,實現(xiàn)科學(xué)的績效管理。
學(xué)者可通過對機構(gòu)學(xué)者成果的集中展示,增加成果的可見度,提高學(xué)術(shù)成果的閱讀率和被引數(shù),從而提高學(xué)者的學(xué)術(shù)影響力。通過對成果的統(tǒng)一管理與永久保存,便于學(xué)者對個人成果進(jìn)行管理與積累,可見證其在不同階段的學(xué)術(shù)歷程。
2.2.1 系統(tǒng)技術(shù)架構(gòu)
我校機構(gòu)知識庫運用Hadoop 2.0分布式技術(shù)與HTML 5技術(shù)實現(xiàn)平臺海量數(shù)據(jù)的清洗和存儲、內(nèi)容管理、資源與信息的自動化和多媒體化、用戶與文檔的交互方式等核心功能。機構(gòu)知識庫系統(tǒng)整體架構(gòu)如圖1所示。
2.2.2 系統(tǒng)工作流程
數(shù)據(jù)清洗:利用腳本化數(shù)據(jù)格式分析技術(shù)和目前已知的大多數(shù)格式數(shù)據(jù)的清洗功能,并將其統(tǒng)一翻譯成系統(tǒng)可識別的RefWorks數(shù)據(jù)格式。同時,通過數(shù)據(jù)去重、分辨第一機構(gòu)和通訊機構(gòu)、社會網(wǎng)絡(luò)、學(xué)術(shù)遷徙等方法,以及自動匹配和管理員認(rèn)領(lǐng),將成果逐篇指定到學(xué)者名下。
數(shù)據(jù)報送:用戶可以選用數(shù)據(jù)報送功能(需要數(shù)據(jù)來源的版權(quán)授權(quán)),云端會定期自動將用戶關(guān)注的特色來源數(shù)據(jù)推送到機構(gòu)知識庫本地服務(wù)器。
項目管理:機構(gòu)知識庫系統(tǒng)提供接入對應(yīng)的接口,實現(xiàn)對用戶各類型項目的統(tǒng)一儲存和管理,最終實現(xiàn)各類型項目數(shù)據(jù)的一站式儲存、分析和挖掘,以圖表形式對項目信息進(jìn)行知識發(fā)現(xiàn)。
2.2.3 系統(tǒng)建設(shè)難點及解決方案
機構(gòu)知識庫建設(shè)初期,數(shù)據(jù)清洗和規(guī)范是核心問題,它直接影響機構(gòu)知識庫的健康運行和持續(xù)發(fā)展。部分機構(gòu)知識庫系統(tǒng)無法將采集的數(shù)據(jù)準(zhǔn)確分配到正確的高校-二級學(xué)院(附屬醫(yī)院)—學(xué)系(臨床科室)-個人,其原因主要包括收錄文獻(xiàn)數(shù)據(jù)庫中的機構(gòu)成果描述不規(guī)范,署名單位不規(guī)范,同機構(gòu)多頭銜,地址筆誤和錯漏,同姓名的不同作者,不同姓名英文縮寫相同的不同作者,頻繁跳槽的學(xué)者(學(xué)術(shù)遷徙)。
為解決這一技術(shù)難題,我校機構(gòu)知識庫采用人工智能和機器算法實現(xiàn)數(shù)據(jù)采集、清洗、歸類合并、認(rèn)領(lǐng)等流程的智能化和自動化。
圖1 黑龍江中醫(yī)藥大學(xué)機構(gòu)知識庫系統(tǒng)架構(gòu)
從成果中提取機構(gòu)和二級機構(gòu)異名,生成機構(gòu)成果算法,系統(tǒng)自動篩選和判別各級機構(gòu)的成果,對系統(tǒng)自動抓取的成果數(shù)據(jù)同館員或用戶手動導(dǎo)入的數(shù)據(jù)進(jìn)行自動去重、標(biāo)引和有效性檢測等。在標(biāo)引過程中,相應(yīng)數(shù)據(jù)標(biāo)引至對應(yīng)數(shù)據(jù)庫記錄的詳細(xì)內(nèi)容頁,同一成果數(shù)據(jù)可有多種數(shù)據(jù)庫標(biāo)引歸屬。
系統(tǒng)具備完善的字典管理功能,機構(gòu)名稱支持曾用名和機構(gòu)名稱縮寫及其各種變化情況,學(xué)者姓名支持簡稱、全稱等各種情況,精確區(qū)分同名學(xué)者。
系統(tǒng)可對不同來源的同一成果和對同一學(xué)者的同一成果進(jìn)行自動去重,同時支持對英文成果等自定義字段進(jìn)行去重。
我校機構(gòu)知識庫以“雙一流”建設(shè)等為核心,構(gòu)建了集資源存儲、成果保存、知識服務(wù)、學(xué)科服務(wù)等功能于一體的系統(tǒng)。機構(gòu)知識庫功能如圖2所示。
2.3.1 構(gòu)建長期保存體系,實現(xiàn)資源開放獲取
我校機構(gòu)知識庫在設(shè)計和建設(shè)初期就把長期保存作為一個重要環(huán)節(jié)來考慮,以避免機構(gòu)知識庫建設(shè)走彎路。系統(tǒng)采用開源軟件DSpace,從技術(shù)層面設(shè)定了機構(gòu)學(xué)術(shù)資源的長期保存策略。未來還將利用云技術(shù)推動機構(gòu)知識庫資源的長期保存向“云端”發(fā)展,建立完善機構(gòu)知識庫長期保存和資源獲取機制,促進(jìn)我校學(xué)術(shù)資源的開放獲取。
2.3.2 多層次收集分散數(shù)據(jù),構(gòu)建機構(gòu)資源倉儲
我校機構(gòu)知識庫利用系統(tǒng)的技術(shù)優(yōu)勢收集個人用戶和團(tuán)隊用戶的資源和成果。支持系統(tǒng)自動抓取個人成果,并按照成果收錄情況、被引頻次等定期推送給個人用戶,由用戶進(jìn)行認(rèn)領(lǐng),最后系統(tǒng)按照成果類型分類,自動存儲至學(xué)者空間,提高了用戶的各類報獎、項目申報等工作的效率。支持團(tuán)隊成員將之前個人的文獻(xiàn)、研究生論文、實驗方案、實驗記錄、開題報告等進(jìn)行分類集成和保存,提高學(xué)科團(tuán)隊的科研產(chǎn)出能力,實現(xiàn)學(xué)科團(tuán)隊成果的積累和傳承。
2.3.3 多角度展示機構(gòu)成果,構(gòu)建學(xué)術(shù)知識圖譜
我校機構(gòu)知識庫支持開通學(xué)者個人空間,多角度展示其學(xué)術(shù)軌跡、H指數(shù)、成果被引情況、歷年成果趨勢等,展示學(xué)者ORCID、Researcher ID等信息,建立學(xué)者個人科研ID數(shù)據(jù)庫,并可通過設(shè)置權(quán)限對個人成果進(jìn)行展示和分享。系統(tǒng)通過可視化、聚類關(guān)聯(lián)等技術(shù)對機構(gòu)、學(xué)者與成果進(jìn)行關(guān)聯(lián)分析,構(gòu)建學(xué)者與機構(gòu)、學(xué)者與研究領(lǐng)域等各類關(guān)系間的關(guān)系圖譜,多角度展示機構(gòu)成果,擴(kuò)大個人和機構(gòu)的學(xué)術(shù)影響力。
圖2 黑龍江中醫(yī)藥大學(xué)機構(gòu)知識庫功能
2.3.4 構(gòu)建網(wǎng)絡(luò)學(xué)術(shù)社區(qū),促進(jìn)學(xué)術(shù)交流共享
我校機構(gòu)知識庫借鑒“小木蟲”“丁香園”等網(wǎng)絡(luò)社區(qū)的形式,構(gòu)建了基于用戶互助模式的機構(gòu)知識庫。系統(tǒng)為用戶提供學(xué)術(shù)朋友圈、在線交流、評論、關(guān)注、直播等方式,促進(jìn)學(xué)術(shù)活動中學(xué)者間的交流和互助,節(jié)約學(xué)術(shù)研究的成本,提升學(xué)術(shù)研究的工作效率。系統(tǒng)支持用戶查看本機構(gòu)學(xué)者通訊錄,瀏覽學(xué)者個人空間,關(guān)注科研動態(tài),根據(jù)學(xué)者本人設(shè)置的瀏覽權(quán)限可查看其學(xué)術(shù)博文、科研筆記等學(xué)術(shù)資源,實現(xiàn)對學(xué)者及其研究領(lǐng)域的持續(xù)關(guān)注。
2.3.5 整合學(xué)科資源,構(gòu)建學(xué)科知識服務(wù)體系
為保障將我校中藥學(xué)等優(yōu)勢學(xué)科建設(shè)成為國家一流學(xué)科,我校機構(gòu)知識庫設(shè)計了學(xué)科服務(wù)模塊進(jìn)行學(xué)科建設(shè)的資源和服務(wù)保障。學(xué)科服務(wù)模塊集成了學(xué)術(shù)搜索、引文庫等資源獲取和學(xué)術(shù)評價工具,系統(tǒng)會根據(jù)用戶的需求找到所需的相關(guān)知識,在發(fā)現(xiàn)和挖掘論文及其引文方面為用戶提供集成式增值服務(wù),為學(xué)者及其團(tuán)隊提供決策支持。系統(tǒng)在對圖書館現(xiàn)有資源進(jìn)行整合的基礎(chǔ)上,建設(shè)重點學(xué)科特色資源庫、開放獲取學(xué)術(shù)期刊庫、科研基金知識庫等特色資源,構(gòu)建一個資源、知識和服務(wù)的“融創(chuàng)系統(tǒng)”。
我校圖書館在機構(gòu)知識庫建設(shè)方面進(jìn)行了實踐探索,在成果收藏、資源整合、知識服務(wù)等方面積累了一些經(jīng)驗。未來的工作中,希望在“雙一流”“雙萬計劃”等高等教育新形勢下,通過保障學(xué)科和專業(yè)建設(shè)、針對重點學(xué)科和專業(yè)開展個性化服務(wù)、構(gòu)建智慧化校園等繼續(xù)加強我校機構(gòu)機構(gòu)知識庫的建設(shè),以此進(jìn)一步完善機構(gòu)知識庫的建設(shè)與發(fā)展,提升新形勢下圖書館的服務(wù)水平。
開放獲取全球化大潮洶涌澎湃,我國高等教育“雙一流”“雙萬計劃”等系統(tǒng)工程不斷深入。在此背景下,如何整合、管理和利用智力資源助力高校教學(xué)科研的創(chuàng)新和發(fā)展是我國高等教育界亟待解決的問題。機構(gòu)知識庫憑借其強大的數(shù)據(jù)、資源和技術(shù)優(yōu)勢,為解決上述問題提供了解決方案。我校運用先進(jìn)的數(shù)據(jù)處理和媒體交互技術(shù),以學(xué)科服務(wù)為導(dǎo)向,構(gòu)建了一個集成果收集和管理、數(shù)據(jù)挖掘、資源共享、知識發(fā)現(xiàn)、學(xué)科服務(wù)、學(xué)術(shù)社交于一體的知識化、智能化機構(gòu)知識庫,展示學(xué)校學(xué)科建設(shè)和人才培養(yǎng)特色,充分發(fā)揮圖書館專業(yè)化、知識化、特色化的信息服務(wù)職能,為高校機構(gòu)知識庫建設(shè)實踐提供參考。