徐紅華
摘 要:目前許多圖書館都開展了數(shù)字圖書館業(yè)務(wù),但是在大數(shù)據(jù)時(shí)代背景下,數(shù)字圖書館需要改變目前低端處境,轉(zhuǎn)而往數(shù)據(jù)圖書館的方向發(fā)展。本文首先指明了數(shù)字圖書館目前的處境,然后結(jié)合大數(shù)據(jù)的技術(shù)和思維,對數(shù)字圖書館應(yīng)該怎么做出改變進(jìn)行分析,文章最后對數(shù)字圖書館將來的發(fā)展前景進(jìn)行了展望。
關(guān)鍵詞:數(shù)字圖書館 大數(shù)據(jù) 數(shù)據(jù)圖書館
中圖分類號(hào):G25 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1003-9082(2017)11-00-02
引言
近日,隨著AlphaGo橫掃圍棋界,人類之前最后一塊堅(jiān)守的智商高地被計(jì)算機(jī)攻下,這其實(shí)不僅是計(jì)算機(jī)的勝利,也是人類智商的勝利,更是大數(shù)據(jù)的勝利。眾所周知,人工智能是現(xiàn)在整個(gè)科技屆最炙手可熱的概念,而人工智能的核心就是機(jī)器學(xué)習(xí)(Machine Learning)。機(jī)器學(xué)習(xí)這一概念起源于20世紀(jì)50年代,中間經(jīng)過了很長的冰凍期,后來隨著SVM的提出,機(jī)器學(xué)習(xí)逐漸火熱起來。2012年隨著AlexNet網(wǎng)絡(luò)[13]的出現(xiàn),神經(jīng)網(wǎng)絡(luò)開始擊敗SVM成為機(jī)器學(xué)習(xí)乃至人工智能的主流,也推動(dòng)了近五年來絕大部分人工智能成就的出現(xiàn)。而這三者從人工智能到機(jī)器學(xué)習(xí),再到最核心的神經(jīng)網(wǎng)絡(luò),它們成功的背后全部都是大數(shù)據(jù)的驅(qū)動(dòng),這證明現(xiàn)在是大數(shù)據(jù)[1]的時(shí)代,而圖書館作為社會(huì)的知識(shí)中心,在這股潮流中也要做出相應(yīng)的改變,把大數(shù)據(jù)的概念與方法吸收進(jìn)自身的未來發(fā)展中。
一、大數(shù)據(jù)定義
關(guān)于大數(shù)據(jù)的定義眾說紛紜,對大數(shù)據(jù)的理解取決于定義者的態(tài)度和學(xué)科背景[4],總的來說,我們可以從兩個(gè)角度來理解大數(shù)據(jù):把“大數(shù)據(jù)”看成形容詞,它描述的是研究的大數(shù)據(jù)的特點(diǎn)——數(shù)據(jù)量大至海量[2][3],完全超出了現(xiàn)有的計(jì)算機(jī)硬件水平;把“大數(shù)據(jù)”看成名詞,它指的是大數(shù)據(jù)的研究對象,即自然與社會(huì)兩個(gè)方面都會(huì)產(chǎn)生海量的數(shù)據(jù)[2][3]。
二、現(xiàn)在數(shù)字圖書館的境遇
1.互聯(lián)網(wǎng)對圖書館的沖擊
圖書館從功能上分為公共圖書館和高校圖書館,其中高校圖書館是以服務(wù)高校師生為宗旨的重要陣地,是高校文化服務(wù)體系的核心組成部分。高校圖書館目前仍然是以紙質(zhì)藏書為主,并提供網(wǎng)上文獻(xiàn)下載服務(wù),是學(xué)生和老師獲取知識(shí)的重要渠道。但是在大數(shù)據(jù)背景下,尤其是互聯(lián)網(wǎng)的沖擊下,學(xué)生和老師們獲取知識(shí)(尤其是文獻(xiàn))的主要渠道變成了網(wǎng)絡(luò),比如CNKI、Google Scholar、百度學(xué)術(shù)等等,這些網(wǎng)站目前成為了最新研究成果的聚集地,幾乎大部分社科類、自然科學(xué)類的研究成果都可以在上面找到,并且由于科研機(jī)構(gòu)和教育機(jī)構(gòu)都購買了資料,所以高校師生是可以在高校的IP內(nèi)免費(fèi)下載。這種情況下,圖書館的作用就遭到了弱化,如果高校圖書館不對自身做出改變,那么在互聯(lián)網(wǎng)和大數(shù)據(jù)的沖擊下,自身價(jià)值將會(huì)損失降低。
2.數(shù)字圖書館的缺陷
雖然目前的大多數(shù)高校圖書館都開放了數(shù)字圖書館服務(wù),但是這些服務(wù)現(xiàn)在只停留在查詢館藏圖書,文獻(xiàn)下載等功能,功能單一,并且不完善。數(shù)字圖書館目前存在著標(biāo)準(zhǔn)不規(guī)范、文獻(xiàn)數(shù)字化水平低、數(shù)字文獻(xiàn)的安全缺乏絕對保障等問題。而開放存取運(yùn)動(dòng)的進(jìn)一步深化發(fā)展和以語義、云計(jì)算為主等為代表的信息技術(shù)出現(xiàn),則讓圖書館面臨著巨大的挑戰(zhàn)。數(shù)字圖書館在建設(shè)過程中,由于受到技術(shù)所限、資金不足、標(biāo)準(zhǔn)不統(tǒng)一等限制,致使數(shù)字圖書館在剛出現(xiàn)的時(shí)代就存在諸如接口不統(tǒng)一、資源數(shù)據(jù)描述不足、檢索能力不足、文獻(xiàn)數(shù)據(jù)相互關(guān)聯(lián)性較差、互操作程度較低、資源發(fā)現(xiàn)和擴(kuò)展能力不足等問題,而這些缺點(diǎn)使得數(shù)字圖書館成為人們獲取知識(shí)時(shí)所選擇的最后渠道。一份關(guān)于大學(xué)生對高校圖書館使用情況的調(diào)研報(bào)告則表明,72%的學(xué)生是通過網(wǎng)絡(luò)獲得信息,而通過圖書館獲得信息的學(xué)生只占18%。另一項(xiàng)調(diào)查也顯示大學(xué)生訪問圖書館網(wǎng)站(數(shù)字圖書館)的只占28%,遠(yuǎn)低于使用搜索引擎的使用比例,甚至有25.3%的大學(xué)生表示從沒有去訪問過圖書館網(wǎng)站(數(shù)字圖書館)。這種現(xiàn)狀也引發(fā)了圖書館界的擔(dān)憂與思考,圖書館屆的有識(shí)之士指出,圖書館必須要提供更好的資金支持,并將之轉(zhuǎn)化為技術(shù)支持和服務(wù)手段,吸引師生回到圖書館來獲取知識(shí),使得圖書館重新成為高校知識(shí)的集散地。
3.大數(shù)據(jù)潮流下圖書館的尷尬
目前在世界的高校以及科研企業(yè)的圈子里,Google Scholar已經(jīng)成為大家獲取第一手科研資料當(dāng)仁不讓的來源。而具體到自然科學(xué)界,Arxiv更是每日必刷的文獻(xiàn)網(wǎng)站。圖書館在這種情況下應(yīng)該通過資金爭取等手段和這些互聯(lián)網(wǎng)巨頭取得合作,獲取這些數(shù)據(jù)資源,并進(jìn)行有機(jī)整合,使得所獲得的數(shù)據(jù)資源能更好的展現(xiàn)在師生面前,幫助師生進(jìn)行科研活動(dòng)。如果圖書館滿足于現(xiàn)狀,只是停留在紙質(zhì)圖書和一些網(wǎng)絡(luò)資源的堆砌,那么圖書館將不再能滿足師生乃至公眾的需求,淪為昨日黃花。
三、大數(shù)據(jù)背景下的圖書館
1.大數(shù)據(jù)技術(shù)下圖書館的挑戰(zhàn)
人類最重要的技能是學(xué)習(xí),學(xué)習(xí)很重要的就是能將紛繁復(fù)雜的信息進(jìn)行歸類和抽象。對應(yīng)到大數(shù)據(jù)層面,最主要的無非就是四個(gè)核心問題[3]:
①存儲(chǔ),海量的數(shù)據(jù)怎樣進(jìn)行存儲(chǔ)
②計(jì)算,海量的數(shù)據(jù)如何進(jìn)行快速計(jì)算
③查詢,海量的數(shù)據(jù)如何進(jìn)行查詢,并且快速查到想要的信息
④挖掘,海量的數(shù)據(jù)如何挖掘出隱藏的知識(shí),即探索到數(shù)據(jù)之間的關(guān)系以及數(shù)據(jù)背后隱藏的結(jié)論。
當(dāng)我們要把大數(shù)據(jù)的技術(shù)引入到圖書館建設(shè)中來的時(shí)候,就可以從這四個(gè)方面汲取經(jīng)驗(yàn),引他山之石可以攻玉。
首先是存儲(chǔ)。圖書館之所以被成為圖書館,最原始的含義就是藏書之地,而自從紙被發(fā)明出來的那一刻起,成百上千張紙裝訂成冊被稱之為的“書”就承擔(dān)了知識(shí)在空間和時(shí)間兩個(gè)維度流傳的功能。當(dāng)書的數(shù)量成指數(shù)級增長的時(shí)候,普通人家就沒法裝下那么多書了,于是動(dòng)用政府力量建立作為公共資源出現(xiàn)的圖書館就承擔(dān)起了這樣的功能。時(shí)過境遷,之前的兩千多年紙這種媒介一直是作為知識(shí)載體的不二選擇,而圖書館也只是完成藏書,借閱的功能;然而到了今天,隨著互聯(lián)網(wǎng)的發(fā)展,人們之間的交流與工作生活變得更加便捷,隨之而來的就是產(chǎn)生了海量的有意義的數(shù)據(jù),互聯(lián)網(wǎng)公司趁近水樓臺(tái)之勢,運(yùn)用各種數(shù)學(xué)手段對其分析,取得了不錯(cuò)的效果。圖書館這個(gè)機(jī)構(gòu)有如此浩如煙海的資料,但是紙質(zhì)的終究不便于查詢和挖掘,如何把它們轉(zhuǎn)化成電子數(shù)據(jù),這就是擺在圖書館面前的一個(gè)有意義的難題。對于計(jì)算機(jī)來說,傳統(tǒng)的文件系統(tǒng)存儲(chǔ)是單機(jī)的,不能橫跨機(jī)器。而大數(shù)據(jù)時(shí)代,HDFS(Hadoop Distributed File System)的出現(xiàn)解決了這一問題,它的出現(xiàn)使得大量的數(shù)據(jù)橫跨成百上千臺(tái)機(jī)器,但你看到的是一個(gè)文件系統(tǒng)而不是很多分散的文件系統(tǒng),當(dāng)你要引用這些數(shù)據(jù)的時(shí)候,你不用管它們分布在哪些機(jī)器上,只需要提供一個(gè)文件路徑即可。類比之下,圖書館在未來需要做的也是把這些紙質(zhì)藏書通過某些技術(shù)手段轉(zhuǎn)化成電子數(shù)據(jù)(比如給圖書拍照,然后把圖片轉(zhuǎn)化成文字),最后把這些文字的電子數(shù)據(jù)存儲(chǔ)到大型服務(wù)器上,方便讀者去查詢。endprint
接下來是計(jì)算和查詢,這兩者雖然對于計(jì)算機(jī)科學(xué)來說是截然不同的兩個(gè)方面,但是對于圖書館從業(yè)者不必要區(qū)分開。圖書館方面關(guān)心的是怎樣為讀者提供更好的服務(wù),具體到這點(diǎn)上,就是怎樣把數(shù)據(jù)做更好的整合,符合人類的查詢思維,使得讀者更快更好的查到自己需要的信息。對于文獻(xiàn)總結(jié)歸納,傳統(tǒng)的方法自然是靠人去做,這就像我們中學(xué)時(shí)期的語文課一樣,由人去通讀全文,再靠自己的經(jīng)驗(yàn)積累,總結(jié)出書本文字想要表達(dá)出的思想,然后再按一定之規(guī)則,把同類別的進(jìn)行歸納總結(jié),最后供給讀者查詢使用。但是現(xiàn)在在大數(shù)據(jù)的時(shí)代下,招募這么多人力去干這事已經(jīng)不太實(shí)際,所以如果能依靠機(jī)器完成初步的信息獲取,那就已經(jīng)是節(jié)省了大部分人力工作。從技術(shù)角度來說,MapReduce太慢,是因?yàn)樗ㄓ茫珡?qiáng)壯,太保守,而快捷的方式有Impala、Presto、Drill,這些輕巧簡便,能讓用戶更快的進(jìn)行查詢,節(jié)省寶貴的時(shí)間。如果說MapReduce是大砍刀,砍啥都不怕,那么上面列舉的快捷方式的三個(gè)就是剔骨刀,靈巧鋒利,但是不能搞太大太硬的東西,否則會(huì)崩潰。
最后也是更深入的就是挖掘。我們都知道大數(shù)據(jù)的意義就是其背后隱藏的信息,怎么能把大數(shù)據(jù)背后的信息或者結(jié)論挖掘出來是我們所最終希望的。而圖書館作為大數(shù)據(jù)的擁有者之一,怎樣能不浪費(fèi)資源,在現(xiàn)有大數(shù)據(jù)的基礎(chǔ)上挖掘出對自己有益的結(jié)論,以便更好的服務(wù)讀者。
要解決這個(gè)問題,就要引入當(dāng)下最火熱的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)技術(shù),編程框架包括但不限于Tensorflow、Caffe、Caffe2、PyTorch等,數(shù)據(jù)挖掘模型包括RNN、LSTM、CNN等。由于圖書館的書大部分是以文字形式呈現(xiàn)的,而文字是一種靠前后順序以助于理解的媒介形式,這種情況下的問題適合用RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))和LSTM(長短時(shí)記憶網(wǎng)絡(luò))來解決。這些工作可能應(yīng)該交與公司和科研機(jī)構(gòu)來解決。而圖書館方面的領(lǐng)導(dǎo)以及從業(yè)者可以從中汲取靈感,
比如在整理書籍被借閱記錄的時(shí)候,可以結(jié)合時(shí)間軸來考慮問題,評判一本書在時(shí)間這一維度上的受歡迎程度的曲線變化,最終來決定哪些圖書應(yīng)該放在讀者更容易看見更容易借閱的地方,而把那些逐漸淡出讀者視野,不再跟得上時(shí)代要求的書籍轉(zhuǎn)移到稍微差一點(diǎn)的書架位置,用這種方法來提高圖書館書籍的借閱率。當(dāng)然這只是舉了一個(gè)簡單的例子,在實(shí)際工作中,人們會(huì)遇到各種各樣復(fù)雜的問題,這種跨學(xué)科來汲取靈感解決問題的方式還是值得被我們所提倡的。
2.大數(shù)據(jù)思維下圖書館的挑戰(zhàn)
大數(shù)據(jù)時(shí)代,海量數(shù)據(jù)將驅(qū)動(dòng)創(chuàng)新與發(fā)展,同時(shí)也將極大的改變?nèi)藗兊乃季S方式。與傳統(tǒng)思維方式強(qiáng)調(diào)因果關(guān)系不同,人們將逐漸接受數(shù)據(jù)分析,更加強(qiáng)調(diào)數(shù)據(jù)之間的相關(guān)關(guān)系、相互關(guān)系,人們逐漸拋棄基于假象然后去驗(yàn)證的思維方式,而是根據(jù)海量數(shù)據(jù)自然而然的找尋結(jié)果,分析出原因以為人們所用。很顯然,目前的數(shù)字圖書館對組成數(shù)字圖書館的最基本單元的文獻(xiàn)資源的唯一標(biāo)識(shí)、科學(xué)引用頻率統(tǒng)計(jì)、元數(shù)據(jù)描述標(biāo)準(zhǔn)統(tǒng)一、相似性關(guān)聯(lián)及鏈接等都還無法做到,那么這種境況下,要實(shí)現(xiàn)這類基于海量數(shù)據(jù)的挖掘預(yù)測、為信息找用戶等服務(wù)就還需假以時(shí)日,需要圖書館在以上敘述到的短板方面進(jìn)行修改改進(jìn),以滿足大數(shù)據(jù)時(shí)代讀者思維下的需求。
四、圖書館未來展望
1.數(shù)字圖書館往數(shù)據(jù)圖書館的轉(zhuǎn)型
現(xiàn)有的數(shù)字圖書館只是把互聯(lián)網(wǎng)接入了圖書館,把原來只能到現(xiàn)場查閱的紙質(zhì)圖書部分轉(zhuǎn)移到了網(wǎng)上變成可查閱的電子數(shù)據(jù),并且把原本就是網(wǎng)上的文獻(xiàn)等數(shù)據(jù)庫進(jìn)行了版權(quán)購買操作,使得師生能夠從高校圖書館免費(fèi)取得第一手文獻(xiàn)。雖然這樣的改變對傳統(tǒng)圖書館來說已經(jīng)算是一種進(jìn)步了,但是在現(xiàn)在的大數(shù)據(jù)時(shí)代背景下,僅僅做到這樣還是遠(yuǎn)遠(yuǎn)不夠的,我們希望圖書館能完成從數(shù)字圖書館往數(shù)據(jù)圖書館的轉(zhuǎn)型,真正的契合大數(shù)據(jù)時(shí)代的潮流,完成自己的完美轉(zhuǎn)身。
關(guān)于什么是數(shù)據(jù)圖書館的定義,目前還沒有準(zhǔn)確的說法,從時(shí)代背景來理解,就是從以前簡單的堆砌數(shù)據(jù)資料,變成從數(shù)據(jù)中提取出有價(jià)值的信息,使得數(shù)據(jù)排列放置更加得當(dāng),更加符合讀者需求。
數(shù)據(jù)圖書館從大體上來說應(yīng)該圍繞兩點(diǎn)來建立,即數(shù)據(jù)和數(shù)據(jù)業(yè)務(wù)。圍繞數(shù)據(jù)就是要處理數(shù)據(jù)的存儲(chǔ)、計(jì)算、查詢和挖掘,這是一個(gè)很大的課題,單靠圖書館是不可能完成的,必須要依靠外部互聯(lián)網(wǎng)公司合作來完成,通過引進(jìn)合作來形成具有數(shù)據(jù)服務(wù)、數(shù)據(jù)出版和數(shù)據(jù)增值服務(wù)的數(shù)據(jù)圖書館形態(tài)。圍繞數(shù)據(jù)業(yè)務(wù),就是利用從數(shù)據(jù)中挖掘出的信息,如何契合讀者需求,構(gòu)建一整套的服務(wù)體系
2.數(shù)據(jù)圖書館的體系架構(gòu)
從圖書館的角度來說,可利用的大數(shù)據(jù)主要分為三類,即文獻(xiàn)大數(shù)據(jù)(紙質(zhì)藏書、會(huì)議、期刊、專利)、用戶大數(shù)據(jù)(個(gè)人信息、借閱信息、瀏覽信息)和其他大數(shù)據(jù)(政府公告、社交媒體數(shù)據(jù)、科研機(jī)構(gòu)數(shù)據(jù)),這三種大數(shù)據(jù)構(gòu)成了大數(shù)據(jù)層,而在大數(shù)據(jù)層中,這么多數(shù)據(jù)的存儲(chǔ)當(dāng)然不是存在圖書館一家,而是采用分布式存儲(chǔ)、云計(jì)算存儲(chǔ)、異地存儲(chǔ)和異構(gòu)存儲(chǔ),只要圖書館能通過某種路徑獲取數(shù)據(jù)即可達(dá)到要求[5]。在有了大數(shù)據(jù)層之后,我們要對大數(shù)據(jù)進(jìn)行計(jì)算查詢挖掘,這一層正如前文提到的,要用到多種關(guān)鍵技術(shù)來實(shí)現(xiàn)對數(shù)據(jù)的計(jì)算、分析、清洗與保存,完成從浩如煙海的數(shù)據(jù)中挖掘出有意義信息的工作。接下來就是用戶層,在這一層中,要利用計(jì)算層挖掘出的信息,進(jìn)行整合分析,反向去推算應(yīng)該把最原始的數(shù)據(jù)如何有機(jī)的擺放整理,以完成對用戶基礎(chǔ)性服務(wù)(數(shù)據(jù)出版、數(shù)據(jù)管理和數(shù)據(jù)研究)和發(fā)現(xiàn)性數(shù)據(jù)服務(wù)(動(dòng)態(tài)解析、追蹤與檢測和趨勢預(yù)測等)
五、結(jié)語
在大數(shù)據(jù)的時(shí)代背景下,數(shù)字圖書館需要擺脫目前只是搜索的低端處境,而應(yīng)該借鑒大數(shù)據(jù)的技術(shù)和思維方式,轉(zhuǎn)而向數(shù)據(jù)圖書館做出改變發(fā)展,只有這樣才能滿足讀者的要求,做到與時(shí)俱進(jìn)。
參考文獻(xiàn)
[1]黎建輝,沈志宏,孟小峰. 科學(xué)大數(shù)據(jù)管理:概念、技術(shù)與系統(tǒng)[J/OL]. 計(jì)算機(jī)研究與發(fā)展,2017,54(02):235-247.
[2]孟小峰,杜治娟. 大數(shù)據(jù)融合研究:問題與挑戰(zhàn)[J/OL]. 計(jì)算機(jī)研究與發(fā)展,2016,53(02):231-246.
[3]李國杰. 對大數(shù)據(jù)的再認(rèn)識(shí)[J]. 大數(shù)據(jù),2015,1(01):8-16.
[4]程淑娥. 大數(shù)據(jù)環(huán)境下區(qū)域科技資源共享平臺(tái)云服務(wù)模式研究[D].哈爾濱理工大學(xué),2017.
[5]顧立平.數(shù)據(jù)治理———圖書館事業(yè)的發(fā)展機(jī)遇[J].中國圖書館學(xué)報(bào),2016(5):29-45endprint