(武漢商學(xué)院,湖北武漢 430056)
數(shù)字人文,源于人文計算,是在計算機(jī)技術(shù)、網(wǎng)絡(luò)技術(shù)、多媒體技術(shù)等新興技術(shù)支撐下開展人文研究而形成的新型跨學(xué)科研究領(lǐng)域。20世紀(jì)60年代以來,在數(shù)字技術(shù)支撐下,人文研究的方法發(fā)生了重大變化,人文學(xué)者文獻(xiàn)知識的獲取、分析、集成和展示,多采用數(shù)字化檢索、標(biāo)引和組織[1]。
目前,眾多人文學(xué)者開始致力于將數(shù)字技術(shù)與人文領(lǐng)域相結(jié)合,運(yùn)用數(shù)字技術(shù)探索和解決人文領(lǐng)域的各種問題。人文學(xué)者在研究中囿于數(shù)字技術(shù)短板,迫切需要尋找和獲得資源、平臺服務(wù)和學(xué)術(shù)研究的支持,而高校圖書館作為知識服務(wù)機(jī)構(gòu)具有信息資源優(yōu)勢、知識獲取優(yōu)勢、大數(shù)據(jù)技術(shù)等優(yōu)勢。換言之,數(shù)字人文的研究和發(fā)展帶給圖書館挑戰(zhàn)的同時,也為圖書館引來了研發(fā)新系統(tǒng)提供新型服務(wù)的機(jī)遇。高校圖書館需要盡快培育一支高素質(zhì)館員隊伍,為高校數(shù)字人文研究和教學(xué)助力。
數(shù)字人文知識服務(wù)系統(tǒng)是一項系統(tǒng)工程,即以高校圖書館員為主導(dǎo),以人文學(xué)者需求為中心,利用先進(jìn)的數(shù)字技術(shù)和通訊手段,對人文知識進(jìn)行收集、整理、組織,深度分析挖掘,以主動服務(wù)的方式提供給人文學(xué)者,進(jìn)行創(chuàng)造性的知識迭代。
數(shù)字人文知識服務(wù)系統(tǒng)由館員、數(shù)字人文用戶、信息資源、數(shù)字人文知識服務(wù)平臺等核心要素構(gòu)成。
高校圖書館館員是數(shù)字人文知識服務(wù)有效開展和推進(jìn)的核心智力資源。其職責(zé)是作為數(shù)字人文用戶合作伙伴,主動了解數(shù)字人文需求,并負(fù)責(zé)組織協(xié)調(diào)基于用戶需求驅(qū)動的數(shù)字人文信息資源采集整合、知識組織以及情報研究等活動,提供個性化數(shù)字人文研究指導(dǎo)以及專業(yè)參考咨詢服務(wù)。
數(shù)字人文知識服務(wù)平臺是數(shù)字人文知識服務(wù)系統(tǒng)的重要環(huán)節(jié),呈現(xiàn)高校圖書館提供的各項服務(wù),連接圖書館員、數(shù)字人文用戶與信息資源等重要要素,是圖書館知識服務(wù)的外化[2]。
數(shù)字人文用戶是數(shù)字人文知識服務(wù)系統(tǒng)的服務(wù)利用與數(shù)據(jù)受益者。
為了更好地從用戶的角度展示系統(tǒng)的功能,本文用統(tǒng)一建模語言UML(又稱標(biāo)準(zhǔn)建模語言)功能模型用例圖描述系統(tǒng)主要構(gòu)成要素之間的關(guān)系(詳見圖1)。
圖1 數(shù)字人文知識服務(wù)系統(tǒng)
基于云計算平臺的數(shù)字人文知識服務(wù)系統(tǒng)采用數(shù)據(jù)驅(qū)動的架構(gòu)作為系統(tǒng)設(shè)計和構(gòu)建的主線,該架構(gòu)可根據(jù)業(yè)務(wù)應(yīng)用的需求和服務(wù)場景,快速做出調(diào)整,充分發(fā)揮系統(tǒng)的能力和價值[3](詳見圖2)。
圖2 基于云計算平臺的數(shù)字人文知識服務(wù)系統(tǒng)架構(gòu)
2.2.1數(shù)據(jù)準(zhǔn)備
基于云計算平臺的數(shù)字人文知識服務(wù)系統(tǒng)提供服務(wù)的基礎(chǔ)即大數(shù)據(jù),這些數(shù)據(jù)主要來源于高校圖書館自建的數(shù)據(jù)庫、已經(jīng)購買或正在試用的第三方數(shù)據(jù)庫商提供的數(shù)據(jù)、大量OA資源以及與數(shù)字人文知識主題相關(guān)的其他各種信息資源。資源類型主要涵蓋電子圖書、期刊、碩博論文與會議等各類文本、圖片、音頻、視頻等。
2.2.2系統(tǒng)功能設(shè)計
云計算平臺的數(shù)字人文知識服務(wù)系統(tǒng)主要由數(shù)據(jù)采集子系統(tǒng)和知識服務(wù)子系統(tǒng)兩部分組成。數(shù)據(jù)采集子系統(tǒng)采用CS結(jié)構(gòu),知識服務(wù)子系統(tǒng)采用BS結(jié)構(gòu)。知識服務(wù)子系統(tǒng)主要由數(shù)字人文門戶模塊、信息素養(yǎng)模塊、參考咨詢服務(wù)模塊、學(xué)術(shù)交流與互動社區(qū)、個性化服務(wù)模塊和后臺管理模塊六個模塊組成。
基于云計算平臺的數(shù)字人文知識服務(wù)系統(tǒng)能否有效運(yùn)行取決于提供的數(shù)據(jù)價值大小。數(shù)據(jù)采集、存儲方式、數(shù)據(jù)挖掘的深度以及應(yīng)用的程度等均會對數(shù)據(jù)價值產(chǎn)生影響。
2.3.1數(shù)據(jù)采集與預(yù)處理
數(shù)據(jù)采集與預(yù)處理是利用ETL(extraction-transformation-loading,中文名稱數(shù)據(jù)提取、轉(zhuǎn)換和加載)工具將分散、異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)抽取到臨時中間層后進(jìn)行清洗、轉(zhuǎn)換、集成,最后加載到數(shù)據(jù)倉庫中,是數(shù)字人文知識服務(wù)系統(tǒng)聯(lián)機(jī)分析處理、數(shù)據(jù)挖掘、知識呈現(xiàn)和服務(wù)的基礎(chǔ)。
2.3.2數(shù)據(jù)存儲與管理
數(shù)據(jù)存儲與管理利用分布式存儲系統(tǒng)、云存儲、非關(guān)系型大數(shù)據(jù)管理與處理技術(shù),實(shí)現(xiàn)對結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化海量數(shù)據(jù)的存儲與管理。
2.3.3數(shù)據(jù)分析與挖掘
利用分布式并行編程模型和計算框架,結(jié)合機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘算法,實(shí)現(xiàn)對海量數(shù)據(jù)的分析與挖掘,以獲取大量深入的、有價值的、智能的數(shù)據(jù)。
2.3.4數(shù)據(jù)呈現(xiàn)和應(yīng)用
數(shù)據(jù)呈現(xiàn)和使用即將傳統(tǒng)數(shù)據(jù)可視化技術(shù)應(yīng)用于大數(shù)據(jù),將數(shù)據(jù)或從數(shù)據(jù)中挖掘的知識清晰明朗地展現(xiàn)給用戶,便于用戶理解和應(yīng)用。
基于云計算平臺的數(shù)字人文服務(wù)系統(tǒng)涵蓋云計算、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、統(tǒng)計學(xué)與數(shù)字人文等多學(xué)科領(lǐng)域知識,對高校圖書館員專業(yè)素養(yǎng)要求較高,數(shù)字人文知識服務(wù)系統(tǒng)建設(shè)難度較大。
高校圖書館一般采用元數(shù)據(jù)倉儲技術(shù)實(shí)現(xiàn)資源存儲,元數(shù)據(jù)倉儲不是直接將異構(gòu)數(shù)據(jù)庫的資源內(nèi)容復(fù)制到倉儲,而是將描述數(shù)字資源的元數(shù)據(jù)存儲在倉儲中,用戶通過元數(shù)據(jù)及其鏈接實(shí)現(xiàn)對資源的獲取[4]。異構(gòu)數(shù)據(jù)庫的元數(shù)據(jù)描述標(biāo)準(zhǔn)通常不一致,設(shè)計元數(shù)據(jù)倉儲時需重點(diǎn)確定數(shù)據(jù)粒度。數(shù)據(jù)粒度是指數(shù)據(jù)倉庫的數(shù)據(jù)單位中保存數(shù)據(jù)細(xì)化或綜合程度的級別。數(shù)據(jù)粒度不僅影響數(shù)據(jù)倉庫所能回答查詢問題的細(xì)節(jié)程度,而且影響存放在數(shù)據(jù)倉儲中的數(shù)據(jù)量大小[5]。數(shù)據(jù)粒度選擇不當(dāng),需頻繁對高粒度數(shù)據(jù)分解或者低粒度數(shù)據(jù)編輯聚集處理,增加CPU/IO通道壓力,影響系統(tǒng)運(yùn)行的效率,還有可能增加空間需求成本。高校圖書館館員需要結(jié)合業(yè)務(wù)特點(diǎn),認(rèn)真聽取用戶的反饋意見,把握用戶需求,選擇合適的粒度級別,這樣在設(shè)計和實(shí)現(xiàn)中的其余方面才能順利進(jìn)行。高校圖書館館員不僅需要具備一定專業(yè)知識,還需具備一定數(shù)字人文專業(yè)基礎(chǔ)知識,與數(shù)字人文用戶建立緊密合作關(guān)系。
高校圖書館采用元數(shù)據(jù)幫助查找、存取、使用和管理與數(shù)字人文主題相關(guān)的信息資源,這些元數(shù)據(jù)分散于不同的系統(tǒng)、平臺或網(wǎng)頁,有著不同格式,不同特點(diǎn),不同性質(zhì),高校圖書館采集元數(shù)據(jù)后,需要分析元數(shù)據(jù)的特點(diǎn)與屬性,選擇合適的工具轉(zhuǎn)換數(shù)據(jù)格式,對轉(zhuǎn)換后的元數(shù)據(jù)進(jìn)行數(shù)據(jù)質(zhì)量分析,制定數(shù)據(jù)處理規(guī)則,按照數(shù)據(jù)處理規(guī)則對數(shù)據(jù)進(jìn)行相應(yīng)的修改,以滿足數(shù)據(jù)的規(guī)范性、一致性、完整性、有效性及本地化的數(shù)據(jù)質(zhì)量要求等。然而,由于數(shù)據(jù)量龐大,元數(shù)據(jù)描述規(guī)范統(tǒng)一的任務(wù)量較大,質(zhì)量把控難度較高,部分期刊或論文被多個平臺或系統(tǒng)揭示或收錄,即使做到了元數(shù)據(jù)描述規(guī)范統(tǒng)一,仍給數(shù)據(jù)查重帶來巨大壓力,加之部分系統(tǒng)、平臺或網(wǎng)頁常英文顯示,對高校圖書館館員專業(yè)和英語能力要求較高。
分布式存儲系統(tǒng)將大量普通PC服務(wù)器通過Internet互聯(lián),對外作為一個整體提供存儲服務(wù),具有可擴(kuò)展、低成本、高性能和易用等特性。高校圖書館館員需根據(jù)業(yè)務(wù)技術(shù)選型,設(shè)計好數(shù)據(jù)結(jié)構(gòu),選擇適合的分布式存儲技術(shù)存儲元數(shù)據(jù)及其他數(shù)字資源,妥善解決數(shù)據(jù)分布、一致性、容錯、負(fù)載均衡和易用性等技術(shù)問題,采用分區(qū)、建立索引和讀寫分離等技術(shù)手段實(shí)現(xiàn)高效地存儲和讀取數(shù)據(jù)。
基于云計算平臺的數(shù)字人文知識服務(wù)系統(tǒng)對高校圖書館員的專業(yè)素養(yǎng)提出了較高的要求,高校圖書館員亟需轉(zhuǎn)變觀念,夯實(shí)專業(yè)基礎(chǔ),拓展專業(yè)思維,培養(yǎng)學(xué)習(xí)力,通過參與項目研發(fā),不斷修煉專業(yè)技能,迎接信息時代的機(jī)遇與挑戰(zhàn)。
必備的專業(yè)知識和技能是高校圖書館員的立足之本,高校圖書館員應(yīng)精通圖書情報專業(yè)基礎(chǔ)理論和基本工作方法,還應(yīng)掌握有關(guān)學(xué)科的專業(yè)知識與技能。數(shù)字人文背景下,高校圖書館員除具備圖書情報專業(yè)知識外,還需在正確認(rèn)識數(shù)字人文的內(nèi)涵和認(rèn)知誤區(qū)的前提下,加強(qiáng)數(shù)學(xué)如統(tǒng)計學(xué)和計算機(jī)科學(xué)多領(lǐng)域?qū)I(yè)基礎(chǔ)學(xué)習(xí),注重構(gòu)建自己的知識體系,不斷拓展專業(yè)思維,做到既有扎實(shí)的專業(yè)基礎(chǔ),知其然也知其所以然,更能觸類旁通,了解當(dāng)前主流技術(shù)特點(diǎn),根據(jù)業(yè)務(wù)做好項目選型,完成軟件開發(fā),不斷提高利用數(shù)字技術(shù)支持人文研究的能力。
大數(shù)據(jù)時代,高校圖書館新服務(wù)、新技術(shù)、新應(yīng)用順勢而生并層出不窮,高校圖書館員需培養(yǎng)學(xué)習(xí)力,不斷更新和補(bǔ)充知識,緊隨時代發(fā)展的步伐。數(shù)字人文作為一門新興學(xué)科領(lǐng)域,高校圖書館員可通過看權(quán)威書籍、看視頻講解、館內(nèi)外培訓(xùn)、國際學(xué)術(shù)交流平臺、專場學(xué)術(shù)講座和社交網(wǎng)絡(luò)群等多途徑快速獲取數(shù)字人文學(xué)科所需的專業(yè)知識,以及突破數(shù)字人文知識服務(wù)系統(tǒng)建設(shè)困境所需的其他領(lǐng)域的專業(yè)知識與技能。
項目研發(fā)通常含有需求分析、可行性分析(商業(yè)可行性分析和技術(shù)可行性分析)、編寫項目計劃書、系統(tǒng)設(shè)計、數(shù)據(jù)庫設(shè)計、架構(gòu)設(shè)計、代碼開發(fā)及工作分配、測試、發(fā)布或提交給客戶等若干階段。參與項目研發(fā),高校圖書館員不僅可以培養(yǎng)團(tuán)隊協(xié)作精神、鍛煉社會交際能力和提高組織管理能力,而且在理論指導(dǎo)實(shí)踐,實(shí)踐驗(yàn)證理論的過程中,通過獨(dú)立思考、自主學(xué)習(xí)與同行交流,不斷強(qiáng)化對專業(yè)知識的理解,拓展學(xué)習(xí)的深度和廣度。