呂娜娜
(廣州醫(yī)科大學 圖書館,廣東 廣州 511436)
21世紀大數(shù)據(jù)已經(jīng)成為了不同研究領(lǐng)域,如生物醫(yī)學工程、計算智能、信息融合和人文社會科學的熱點問題.2012年3月,奧巴馬政府提出了“大數(shù)據(jù)研究和發(fā)展計劃”[1],其中將美國國家醫(yī)學圖書館作為計劃的重要組成部分,不僅重視圖書館中各類數(shù)據(jù)的收集、存儲、保護、管理和分析,而且提供大數(shù)據(jù)歸檔、保存、傳播以及其他數(shù)據(jù)的基礎(chǔ)設(shè)施服務(wù).2015年,Saunders分析了63個高校圖書館的戰(zhàn)略計劃,發(fā)現(xiàn)40%的高校圖書館強調(diào)了數(shù)據(jù)服務(wù)[2].近年來,國內(nèi)外圖書館已經(jīng)將大數(shù)據(jù)技術(shù)應(yīng)用于館藏資源建設(shè)及創(chuàng)新服務(wù).通過運用不同的大數(shù)據(jù)框架,如Apache的Hadoop,將大數(shù)據(jù)技術(shù)和高效的機器學習算法相結(jié)合,建立以讀者決策為中心,將用戶數(shù)據(jù)進行存儲、分析與挖掘,為科研評價和重塑資源采購的館藏文獻資源新模式提供了決策性的幫助.開放的信息資源、評價指標的完善、科學的數(shù)據(jù)對重構(gòu)圖書的文獻資源體系是難得的機遇[3].
圖書館管理系統(tǒng)是圖書館應(yīng)用信息技術(shù)服務(wù)于讀者的支撐平臺,大多數(shù)的圖書館仍然使用集成自動化系統(tǒng),用于管理紙質(zhì)資源和電子資源的編目.電子資源管理系統(tǒng)用來協(xié)助電子資源的選擇、訂購、訪問權(quán)限控制和購買預(yù)算等工作,或者將目錄和鏈接解析器合并到一個圖書館服務(wù)平臺的系統(tǒng)中,使這些不同的系統(tǒng)協(xié)同工作并保持更新同步.隨著數(shù)字化、網(wǎng)絡(luò)化、移動化技術(shù)以及大數(shù)據(jù)的產(chǎn)生,圖書館業(yè)務(wù)的外部技術(shù)環(huán)境和社會環(huán)境發(fā)生了根本性的變化,新出現(xiàn)了圖書館自動化服務(wù)平臺(Library Services Platform s,LSPs).它能在一個平臺上統(tǒng)一管理各種類型的文獻資源,實現(xiàn)圖書館所有資源的統(tǒng)一管理[4].
20世紀70年代以來圖書館廣泛使用機讀編目標準格式編制書目信息. MARC的相關(guān)記錄對于圖書館目錄來說是必不可少的,通常它由出版商提供,從而使目錄內(nèi)容更易于被訪問.但是由美國國家信息標準組織(NISO)和UKSG共同發(fā)布的知識庫與相關(guān)工具(Knowledge Bases and Related Tools standard)也同樣重要.KBART是一種向鏈接解析器知識庫提交元數(shù)據(jù)的推薦格式,它可以從定制的數(shù)據(jù)包中獲得準確的書目信息.據(jù)NISO發(fā)布的消息稱,自第I階段實踐發(fā)布以來,超過75個出版社與內(nèi)容供應(yīng)商已簽署KBART,KBART第I階段實踐針對的是期刊,第II階段擴大到了開放獲取出版物、電子書和會議錄,并且特別針對提交聯(lián)盟訂購電子資源訂制包清單的方法作出了規(guī)定[5].
大數(shù)據(jù)不同于傳統(tǒng)數(shù)據(jù), 它是數(shù)字化時代下產(chǎn)生的非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù).圖書館在文獻資源構(gòu)建的過程中產(chǎn)生的大數(shù)據(jù)主要來源有以下幾種:(1)圖書館館藏文獻數(shù)據(jù),如圖書館自身館藏資源、自建數(shù)據(jù)庫、固定資產(chǎn)、館舍情況等;(2)讀者行為數(shù)據(jù),如讀者訪問數(shù)據(jù)庫的數(shù)據(jù)、借閱數(shù)據(jù)、讀者社交網(wǎng)絡(luò)數(shù)據(jù)、讀者需求為主導采購的數(shù)據(jù)等;(3)圖書館外部的數(shù)據(jù),如館際互借數(shù)據(jù)、出版商數(shù)據(jù)等.
圖書館、出版商和學術(shù)交流社團需要共同協(xié)商建立一個正式標準的數(shù)據(jù)規(guī)范,通過采集到的大數(shù)據(jù)規(guī)范到圖書館采購文獻資源平臺系統(tǒng),利用大數(shù)據(jù)技術(shù)實現(xiàn)資源的匹配和分析,從而開發(fā)大數(shù)據(jù)的價值,以優(yōu)化現(xiàn)有的文獻資源管理體系,更好地為讀者服務(wù).
圖書館在訂購館藏文獻資源時,需要重視本館的館藏發(fā)展建設(shè)政策制定的要求,結(jié)合所在院校學科發(fā)展的需求,完善館藏文獻資源的質(zhì)量.不同類型的高等院校有不同的規(guī)劃館藏文獻資源建設(shè)發(fā)展的方向.醫(yī)學院校對于提供考試學習指南的資源非常感興趣,如醫(yī)療案例、圖片分析、課程與教師同步的課堂學習,同樣醫(yī)藥、化學等學科領(lǐng)域訂購的學術(shù)資源也很豐富,由視頻和多媒體資源組成的新醫(yī)療資源,絕對是讀者的需求.不同學科訂購的資源也有所差異,如STEM是最早采用電子資源的采購,主要側(cè)重于期刊內(nèi)容,而人文社會科學學科主要購買的是紙質(zhì)資源,因為它的電子資源更新較慢.
隨著信息時代的發(fā)展,圖書館不僅僅只是購買紙質(zhì)和電子書刊,還包括了一些多媒體資源如遺傳學軟件工具、教學視頻、移動應(yīng)用等.其中移動應(yīng)用和多媒體平臺是電子資源的關(guān)鍵元素,許多圖書館員需要花費大量的時間跟出版商協(xié)商授權(quán)使用資源的許可和管理這些資源的訪問.這些新資源不在傳統(tǒng)的圖書館訂購的采購文檔中,但對于圖書館讀者而言是必不可少的,也是圖書館需要的一部分.
讀者決策采購(Patron-driven acquisition)簡稱PDA,是數(shù)字化時代圖書館采用的以讀者需求為主導,滿足讀者個性化、精細化服務(wù)的文獻資源建設(shè)新模式.近年來,國內(nèi)外許多圖書館開展了PDA項目,例如加拿大安大略圖書館聯(lián)盟的PDA項目[6],加利福尼亞州立大學圖書館PDA項目[7],內(nèi)蒙古圖書館“彩云服務(wù)”[8],江蘇大學與新華書店的PDA合作項目,廣州醫(yī)科大學“你選書、我買單”,等.
圖書館PDA項目自使用以來,已采集到大量的書目信息,讀者檢索偏好數(shù)據(jù)、讀者地理位置等結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),通過運用大數(shù)據(jù)分析技術(shù),可以更加有效地評估讀者對各種資源的閱讀偏好、學科需求、與圖書館的交互情況等,為PDA項目的經(jīng)費額度、采購參數(shù)文檔的設(shè)定、讀者群體細分、重點學科建設(shè)、出版商的選擇等提供輔助決策,并能預(yù)測讀者新的知識服務(wù)需求,為文獻資源建設(shè)提供科學合理的薦購服務(wù).
圖書館傳統(tǒng)的采購工作流程較為繁瑣,一本書從下單到上架與讀者見面,這一過程往往長達2-3個月,有時甚至更長.因此及時滿足讀者的需求,可以提高圖書館服務(wù)的效益.紙質(zhì)資源的讀者決策采購可與書店合作,優(yōu)先將新書放置在圖書館新書借閱處,讀者識別身份后可以直接借閱,當圖書歸還后再進行數(shù)據(jù)的加工.例如佛山市圖書館[9]、江蘇大學的“新書借閱處”,內(nèi)蒙古圖書館的“彩云服務(wù)計劃”.電子資源的讀者決策采購,即當讀者點擊瀏覽相關(guān)電子資源的鏈接,達到圖書館預(yù)設(shè)的瀏覽次數(shù)、試讀次數(shù)等量化指標后會自動觸發(fā)圖書館向出版商租用或購買.據(jù)調(diào)查,全美已實施PDA的圖書館大約占到了65%,且主要運用于電子資源的采購,香港中文大學、香港科技大學[10]也針對電子圖書展開了PDA實踐,實踐結(jié)果表明PDA模式可以有效補充館藏文獻資源的建設(shè),降低館藏文獻采購成本,提高讀者的滿意度.
圖書館通過PDA項目的實施可以獲取讀者訪問數(shù)據(jù)庫的數(shù)據(jù)、借閱數(shù)據(jù)、感興趣的學科范圍以及讀者社交網(wǎng)絡(luò)數(shù)據(jù)等,從而充分利用電子資源使用統(tǒng)計和分析數(shù)據(jù),例如COUNTER、大數(shù)據(jù)的統(tǒng)計分析挖掘功能、Google Analytics等,對讀者的行為數(shù)據(jù)進行統(tǒng)計以及分析其行為習慣和偏好,挖掘出潛在價值,對讀者推薦的文獻在指標和研究分析上通過影響因子、特征因子、Altmetrics等做資源評估.圖書館因此實現(xiàn)了個人化、個性化、精確化和智能化地向讀者推廣服務(wù)和推送及時消息,為改善圖書館的服務(wù)質(zhì)量、資源優(yōu)化配置、學科服務(wù)、知識挖掘、資源評估等工作提供決策性的幫助.
讀者決策采購與大宗交易不同,PDA按點擊次數(shù)、按篇、按試讀量等方式進行采購,打破了以往的捆綁式和整庫采購方式.但是國內(nèi)的中文電子書商如超星、中國知網(wǎng)、萬方等均采用整庫銷售的方式,圖書館在采購電子圖書時不能實現(xiàn)按冊或按種采購.但是當讀者決策采購模式出現(xiàn)后,圖書館可以跟當當網(wǎng)、中國亞馬遜、京東書城等零售商合作PDA項目,對傳統(tǒng)捆綁式的出版商形成一種壓迫,使其改變原有的銷售模式,積極開展電子資源的PDA項目.讀者決策采購可以在多媒體文獻資源的單個采購中發(fā)揮大用途.例如會計、醫(yī)學、外語、法律、建設(shè)工程等視頻庫、圖片資源庫和考試題庫等多媒體文獻資源,根據(jù)讀者的需求從而設(shè)定采購新模式.改變圖書館傳統(tǒng)的資源采購模式,以讀者為中心、讀者需求為驅(qū)動的PDA采購新模式可以提高采購文獻質(zhì)量,加強館藏文獻檢索.
知識挖掘、資源優(yōu)化、數(shù)據(jù)分析等增值服務(wù)的需求已逐漸出現(xiàn)在用戶行為中,因此大數(shù)據(jù)應(yīng)用在圖書館領(lǐng)域時,應(yīng)加強圖書館與出版商、數(shù)據(jù)庫供應(yīng)商、資源平臺、各聯(lián)盟之間的聯(lián)系,將讀者閱讀的偏好、資源使用情況、讀者需求等數(shù)據(jù)進行存儲、加工和管理,根據(jù)大數(shù)據(jù)的分析與挖掘?qū)⒆x者群體細分化,最終為不同特征的讀者群體定制有針對性、個性化、精確化的推薦和推送消息.大數(shù)據(jù)挖掘圖書館的價值是以用戶需求為主導,有利于降低購買成本,發(fā)掘新的需求,提高服務(wù)質(zhì)量,提高圖書館利用率.
大數(shù)據(jù)環(huán)境下構(gòu)建PDA的文獻資源總體架構(gòu)由大數(shù)據(jù)采集層、大數(shù)據(jù)預(yù)處理層、大數(shù)據(jù)存儲層、大數(shù)據(jù)分析層、讀者決策采購執(zhí)行層系統(tǒng)組成,如圖1所示.
圖1 大數(shù)據(jù)環(huán)境構(gòu)建PDA文獻資源總體架構(gòu)
圖書館大數(shù)據(jù)的采集是對圖書館的館藏資源數(shù)據(jù)、讀者行為數(shù)據(jù)、讀者社交網(wǎng)絡(luò)數(shù)據(jù)、出版商數(shù)據(jù)等實時接收.傳統(tǒng)數(shù)據(jù)主要來源于結(jié)構(gòu)化數(shù)據(jù),其中存儲、管理和分析數(shù)據(jù)量相對大數(shù)據(jù)而言較小,大多采用關(guān)系型數(shù)據(jù)庫和并行數(shù)據(jù)庫處理,而圖書館大數(shù)據(jù)是對所有類型數(shù)據(jù)的整合,所以數(shù)據(jù)采集采用一些通用分布式大數(shù)據(jù)工具.系統(tǒng)日志采集采用數(shù)據(jù)采集平臺Hadoop的Chukwa.它能夠滿足每秒數(shù)百兆的日志數(shù)據(jù)采集和傳輸需求.讀者社交網(wǎng)絡(luò)數(shù)據(jù)是讀者訪問移動圖書館、微博、微信、博客等平臺產(chǎn)生的數(shù)據(jù),可以通過網(wǎng)絡(luò)爬蟲(crawler)或網(wǎng)站公開API等方式從網(wǎng)站上獲取數(shù)據(jù)信息.對于采購參數(shù)文檔、采購觸發(fā)參數(shù)、讀者權(quán)限數(shù)據(jù)、讀者學科研究數(shù)據(jù)等保密性要求較高的數(shù)據(jù),可以通過與出版商、數(shù)據(jù)庫商、信息資源共享平臺等研究機構(gòu)合作,使用特定系統(tǒng)接口等相關(guān)方式采集數(shù)據(jù).
采集完成的數(shù)據(jù)集存在著數(shù)據(jù)屬性不一致、重復、不完整、含噪聲等問題,在導入數(shù)據(jù)前需要對這些數(shù)據(jù)進行預(yù)處理,去掉數(shù)據(jù)中的噪聲和無關(guān)數(shù)據(jù),糾正不一致的數(shù)據(jù),刪除重復數(shù)據(jù)等.通過Sqoop將多個數(shù)據(jù)源中的數(shù)據(jù)進行預(yù)處理,把原始數(shù)據(jù)轉(zhuǎn)換成適合數(shù)據(jù)分析挖掘的形式,并加載保存到HDFS分布式文件系統(tǒng)中,如圖2所示.圖書館大數(shù)據(jù)預(yù)處理過程要根據(jù)實施PDA項目計劃的需求,合理選擇數(shù)據(jù)中關(guān)聯(lián)字段,去除讀者觸發(fā)產(chǎn)生的重復數(shù)據(jù),進而得到更精準的數(shù)據(jù)集.
在大數(shù)據(jù)時代,由于數(shù)據(jù)集變得更加龐大,傳統(tǒng)的數(shù)據(jù)倉庫已經(jīng)不能滿足大數(shù)據(jù)的存儲需求.圖書館可以根據(jù)不同的數(shù)據(jù)類型選取不同的存儲方式.館藏文獻資源數(shù)據(jù)是結(jié)構(gòu)化數(shù)據(jù),可以用傳統(tǒng)關(guān)系型倉庫MYSQL進行存儲.讀者數(shù)據(jù)、圖書館外部網(wǎng)絡(luò)數(shù)據(jù)是半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),可以用Hbase數(shù)據(jù)庫存儲,將Hbase中的所有數(shù)據(jù)文件都存儲在HDFS分布式文件系統(tǒng)上.
大數(shù)據(jù)處理、分析和挖掘是為了獲取海量數(shù)據(jù)潛在的知識內(nèi)容.Hadoop是目前較為成熟的分布式處理開源框架.Hbase存儲的數(shù)據(jù)可以采用Hadoop的Mapreduce進行分布式并行運算.通過Mahout分析讀者的行為數(shù)據(jù),將讀者群體進行細分,根據(jù)不同讀者的借閱行為、瀏覽記錄、觸發(fā)購買行為等數(shù)據(jù)進行關(guān)聯(lián),挖掘不同讀者群體特征的偏好.依靠數(shù)據(jù)可視化的分析對讀者使用各種文獻資源和需求的程度,做出一些前瞻性的判斷,為以讀者為主導的圖書館資源采購提供精確的輔助性決策,更好地滿足讀者的需求.對于存儲于傳統(tǒng)關(guān)系型倉庫MYSQL數(shù)據(jù),可以通過數(shù)據(jù)倉庫系統(tǒng)進行聯(lián)機分析處理(OLAP),如圖3所示.
圖3 數(shù)據(jù)分析與挖掘模塊
圖書館根據(jù)分析與挖掘的數(shù)據(jù)可以對讀者決策采購服務(wù)定制驗證,評估項目的實施成果.通過數(shù)據(jù)掌握學校重點學科的建設(shè),對不同群體特征的讀者設(shè)置權(quán)限閾值,與出版商溝通調(diào)整提供的采購參數(shù)文檔,修改PDA采購觸發(fā)的參數(shù),定期對PDA項目執(zhí)行過程進行數(shù)據(jù)監(jiān)控,保障預(yù)存經(jīng)費有序合理利用,提高文獻的流通率.
圖2 大數(shù)據(jù)預(yù)處理模塊
大數(shù)據(jù)分析的內(nèi)容和挖掘潛在的價值為圖書館服務(wù)提供了很好的方向.當前我國大數(shù)據(jù)產(chǎn)業(yè)正處于起步階段,用大數(shù)據(jù)實施PDA項目時面臨著大數(shù)據(jù)人才的缺乏、讀者隱私、大數(shù)據(jù)技術(shù)處理復雜等問題.
近年來我國大數(shù)據(jù)產(chǎn)業(yè)迅速發(fā)展,由于成熟的人才培訓體系尚未建立,直接導致各領(lǐng)域大數(shù)據(jù)人才短缺.大數(shù)據(jù)需要復合型的人才,其能夠?qū)y(tǒng)計學、數(shù)據(jù)分析、數(shù)據(jù)挖掘可視化工具、自然語言處理等多方面知識綜合掌控.因此圖書館采用大數(shù)據(jù)技術(shù)實現(xiàn)PDA項目,需要一批數(shù)據(jù)館員,能夠具備開發(fā)分析應(yīng)用程序模型的技能,實現(xiàn)依靠大數(shù)據(jù)重建圖書館的知識管理服務(wù)體系.
大數(shù)據(jù)信息安全問題主要是指大數(shù)據(jù)進行預(yù)處理、存儲、分析及預(yù)測時出現(xiàn)的用戶隱私泄露.圖書館利用大數(shù)據(jù)技術(shù)整合讀者數(shù)據(jù),推斷讀者身份特征;通過社交網(wǎng)絡(luò)分析揭示讀者社交關(guān)系;利用語義分析推斷讀者的態(tài)度;讀者聚類分析發(fā)現(xiàn)讀者所在群體;分類分析,預(yù)測判別讀者偏好推薦消息等.實際上這些分析挖掘的數(shù)據(jù)已經(jīng)侵犯到讀者的隱私,威脅到讀者的隱私安全.為了保護讀者的隱私,應(yīng)建立健全法律法規(guī),加強行業(yè)自我管制,采取社交網(wǎng)絡(luò)匿名保護監(jiān)控等相關(guān)措施.
傳統(tǒng)的數(shù)據(jù)庫的算法已無法單獨分析、挖掘處理大數(shù)據(jù)的內(nèi)容.以Hadoop為核心融合技術(shù)在大數(shù)據(jù)行業(yè)中被廣泛應(yīng)用.大數(shù)據(jù)的架構(gòu)比較復雜且在不斷的發(fā)展,其中MepReduce不適應(yīng)實時應(yīng)用的需求,Hadoop的工作流系統(tǒng)Oozie和數(shù)據(jù)傳輸系統(tǒng)Sqoop都需要單獨開發(fā)人員來部署,大數(shù)據(jù)技術(shù)本身內(nèi)部的融合性與傳統(tǒng)數(shù)據(jù)倉庫技術(shù)的融合度也不是太好,如何用好大數(shù)據(jù)每項技術(shù)是個難題.
目前國內(nèi)外使用大數(shù)據(jù)技術(shù)應(yīng)用于PDA圖書館文獻資源采購模式的研究正處于初期階段,其中資料重組、資料標準化和數(shù)據(jù)建模需要做大量的工作,存儲和處理的數(shù)據(jù)也日益增長,圖書館數(shù)據(jù)的復雜性,給圖書館館員帶來了新的挑戰(zhàn).基于大數(shù)據(jù)技術(shù)搭建的PDA架構(gòu)需要出版商、政府、圖書館界及廣大讀者等多方積極的參與和配合.如何搭建圖書館大數(shù)據(jù)PDA平臺,如何有效利用圖書館聯(lián)盟共享PDA服務(wù)帶來的效益,如何培訓數(shù)據(jù)館員,樹立大數(shù)據(jù)思維,加強數(shù)據(jù)素質(zhì),是日后圖書館發(fā)展需解決的問題.