文/周生傲(廣西民族大學(xué))
在2011年5月,世界著名的咨詢公司麥肯錫(Mckinsey)發(fā)表了《大數(shù)據(jù):創(chuàng)新、競爭和生產(chǎn)力的下一個前沿領(lǐng)域》[1]報告,第一次正式提出了“大數(shù)據(jù)”這一概念,各個行業(yè)和領(lǐng)域的數(shù)據(jù)量的增長也極其迅速,美國的學(xué)術(shù)界和企業(yè)界也對這種現(xiàn)象的意義進(jìn)行了激烈的探討。“大數(shù)據(jù)”這個名詞變得越來越流行,越來越重要,最后成為國家和政府層面的發(fā)展戰(zhàn)略[2]。圖書館,可以說是一個社會信息服務(wù)的中心場所,不僅需要有較高的技術(shù),而且還面臨著較高的管理風(fēng)險[3],不僅如此,圖書館還面臨著來自內(nèi)外部環(huán)境的激烈競爭與重重挑戰(zhàn)。從內(nèi)部環(huán)境來看,除了上面提到的主要挑戰(zhàn)之外,還存在許多圖書館不得不面對的挑戰(zhàn)因素,例如圖書館的基礎(chǔ)設(shè)施,運(yùn)營的經(jīng)費,人力資源與管理制度等都是圖書館面臨的問題;從外部環(huán)境來看,各種信息服務(wù)機(jī)構(gòu)和各大 IT 廠商都已經(jīng)專注于對大數(shù)據(jù)應(yīng)用的研究[4],圖書館在大數(shù)據(jù)的應(yīng)用競爭中,已經(jīng)落后于他們一步,盡管圖書館在資源方面占據(jù)優(yōu)勢,但是圖書館在技術(shù)應(yīng)用方面的劣勢使得其追上其他機(jī)構(gòu)的步伐受到了極大的限制。如何提高技術(shù)水平,避免與其他競爭者的差距越來越大,將是圖書館必須要考慮的一大問題。圖書館學(xué)界對大數(shù)據(jù)進(jìn)行了一些學(xué)術(shù)研究和實際應(yīng)用,并取得了顯著成效。本文將對CNKI中有關(guān)大數(shù)據(jù)在圖書館領(lǐng)域應(yīng)用的文獻(xiàn)進(jìn)行分析,并運(yùn)用文獻(xiàn)計量分析、直觀分析和內(nèi)容分析等方法對期刊文獻(xiàn)在圖書館大數(shù)據(jù)應(yīng)用研究領(lǐng)域進(jìn)行直觀分析,從而清晰、全面地展現(xiàn)圖書館大數(shù)據(jù)研究的時空分布特征和研究熱點,使研究結(jié)果更加直觀、科學(xué)。通過對研究結(jié)果的分析,希望能夠清楚地看到大數(shù)據(jù)在圖書館領(lǐng)域應(yīng)用的現(xiàn)狀,以及研究的重點和不足,對研究中遇到的困難提出建議,并指出今后的研究方向。
以“大數(shù)據(jù)”與“圖書館”為檢索詞進(jìn)行主題檢索,時間跨度為所有年份,共檢索文獻(xiàn) 376 篇,因為都屬于核心期刊或 CSSCI 中的文獻(xiàn),有很強(qiáng)的代表性,經(jīng)篩選最終得到的 360 篇文獻(xiàn)符合本研究的研究范圍。
研究了文獻(xiàn)的描述特征和內(nèi)容特征,運(yùn)用文獻(xiàn)計量分析方法,分析了大數(shù)據(jù)圖書館應(yīng)用領(lǐng)域相關(guān)文獻(xiàn)出版的時間分布、作者和出版機(jī)構(gòu)的描述特征,并探討了該領(lǐng)域的研究熱點和研究方向。CiteSpace是一種基于Java環(huán)境的科學(xué)文獻(xiàn)數(shù)據(jù)測量與分析的信息可視化軟件。它是近年來在信息分析研究中最具影響力和特色的信息可視化軟件。將以上三種方法結(jié)合在一起,對有關(guān)圖書館大數(shù)據(jù)應(yīng)用的文獻(xiàn)進(jìn)行分析,能客觀科學(xué)地得到該領(lǐng)域研究現(xiàn)狀及發(fā)展趨勢等信息[5]。
在某一領(lǐng)域的研究之初,由于缺乏相關(guān)的理論基礎(chǔ),文獻(xiàn)數(shù)量較少。隨著研究的深入,越來越多的研究者加入,研究成果增多,相關(guān)論文的發(fā)表量也會上升,漸漸地機(jī)構(gòu)增加,發(fā)文量增長較快,研究成熟后,發(fā)文量趨于穩(wěn)定[6]。通過對從 CNKI 中的核心期刊和 CSSCI 數(shù)據(jù)庫中檢索得到的 360 篇有關(guān)圖書館大數(shù)據(jù)應(yīng)用的研究文獻(xiàn)進(jìn)行年代分布統(tǒng)計分析,統(tǒng)計得到圖1所示結(jié)果。
圖1 圖書館大數(shù)據(jù)應(yīng)用研究領(lǐng)域文獻(xiàn)數(shù)量變化趨勢
由圖1可以看出,大數(shù)據(jù)在圖書館的應(yīng)用研究文獻(xiàn)數(shù)量在核心期刊和 CSSCI 中發(fā)表的較少,最早始于 2006 年,發(fā)文量為兩篇,該年發(fā)表的兩篇文獻(xiàn)分析探究了數(shù)字圖書館中常見資源特點和描述需求,可見當(dāng)時大數(shù)據(jù)的概念還并沒有開始普及。
在接下來的幾年時間中,關(guān)于該領(lǐng)域研究的文獻(xiàn)幾乎沒有。直到2012 年,發(fā)文量持續(xù)上升,該領(lǐng)域越來越受到關(guān)注。到目前為止,每年發(fā)文的總體數(shù)量保持平穩(wěn),說明我國圖書館大數(shù)據(jù)研究進(jìn)入相對穩(wěn)定階段,上述現(xiàn)象與我國大數(shù)據(jù)的發(fā)展有密切關(guān)系。最合適的大數(shù)據(jù)概念是在2008年提出的,2008年之后,特別是2012年以來,大數(shù)據(jù)的研究越來越受到重視。論文發(fā)表量迅速增長,成為當(dāng)前研究的熱點。這與圖書館大數(shù)據(jù)應(yīng)用的發(fā)展是一致的。
(1)筆者分析。某一領(lǐng)域的研究人員經(jīng)常通過發(fā)表論文的方式發(fā)表和傳播他們的研究成果。通過對文獻(xiàn)作者分布的分析,可以清楚地看到該領(lǐng)域研究者發(fā)表論文的總體情況[7]。2006年至今,在圖書館大數(shù)據(jù)應(yīng)用研究方面取得了許多科研成果,其中滲透著眾多科研人員的心血。運(yùn)用社會網(wǎng)絡(luò)分析方法對圖書館大數(shù)據(jù)應(yīng)用領(lǐng)域的作者分布與合作進(jìn)行了分析,得到了作者共現(xiàn)網(wǎng)絡(luò)圖(又稱作者與合作分布圖,見圖2)。
圖2 “圖書館大數(shù)據(jù)”主題研究領(lǐng)域作者共現(xiàn)網(wǎng)絡(luò)圖譜
從圖2可以看出,在圖書館大數(shù)據(jù)應(yīng)用研究領(lǐng)域,形成了以馬曉亭、陳臣、熊太純?yōu)橹行牡淖髡呷海砻鬟@些學(xué)者是該領(lǐng)域的領(lǐng)軍人物。為了更具體地展示我國圖書館大數(shù)據(jù)研究領(lǐng)域主要研究學(xué)者的學(xué)術(shù)成果,表1列出了文獻(xiàn)發(fā)表量排名前十的學(xué)者名單。從表 1 可以看出,馬曉亭、陳臣是目前圖書館大數(shù)據(jù)研究領(lǐng)域的核心研究人員,經(jīng)統(tǒng)計,他們共發(fā)表論文 52篇,占該主題領(lǐng)域發(fā)文量的 14%。另外,從表1可以看出,大部分作者的發(fā)文量是 4篇、3 篇或者 2 篇,說明該領(lǐng)域絕大多數(shù)的研究者進(jìn)行的并不是長期研究。由此可見,我國大數(shù)據(jù)在圖書館的應(yīng)用領(lǐng)域的研究核心作者群還沒有真正的形成,對該領(lǐng)域的研究人員還比較少,比較分散,研究成果也較少,因為大部分研究者都是短期研究,沒有深入研究,沒有對該領(lǐng)域長時間的關(guān)注。
表1 “圖書館大數(shù)據(jù)”主題研究領(lǐng)域高頻次發(fā)文作者統(tǒng)計表
(2)發(fā)行機(jī)構(gòu)分析。每個研究機(jī)構(gòu)在研究領(lǐng)域都有一定的差異和聯(lián)系,研究機(jī)構(gòu)的合作促進(jìn)了相關(guān)領(lǐng)域的發(fā)展[8]。為了了解圖書館大數(shù)據(jù)研究領(lǐng)域的機(jī)構(gòu)合作情況,利用CiteSpace可視化軟件生成研究機(jī)構(gòu)的共生網(wǎng)絡(luò)圖,如圖3所示。
此次研究的數(shù)據(jù)也是 360 篇文獻(xiàn),共來自 37 個發(fā)文機(jī)構(gòu)。由圖3 可知,幾所機(jī)構(gòu)對該領(lǐng)域的研究時期較長,尤其是蘭州財經(jīng)大學(xué)信息工程學(xué)院和蘭州商學(xué)院信息工程學(xué)院,走在該領(lǐng)域的研究前沿??梢钥闯鎏m州的高校對該領(lǐng)域的研究比較重視,是該領(lǐng)域的代表機(jī)構(gòu)。表2列出了發(fā)文量前二十的研究機(jī)構(gòu)。從表 2 可以看出,蘭州商學(xué)院信息工程學(xué)院、蘭州財經(jīng)大學(xué)信息工程學(xué)院、蘭州商學(xué)院信息中心、蘭州商學(xué)院網(wǎng)絡(luò)中心、蘭州財經(jīng)大學(xué)信息中心發(fā)文數(shù)量排在前五位;排名第六的南京大學(xué)信息管理學(xué)院對大數(shù)據(jù)在圖書館的應(yīng)用作了較多的研究,發(fā)表了較多論文,占總數(shù)的16.3%。仔細(xì)研究這些發(fā)文機(jī)構(gòu),發(fā)現(xiàn)絕大多數(shù)是高校的信息學(xué)院與圖書館,除此之外還涉及其他專業(yè)與研究中心等。
圖3 “圖書館大數(shù)據(jù)”主體領(lǐng)域研究機(jī)構(gòu)共現(xiàn)網(wǎng)絡(luò)圖譜
表2 “圖書館大數(shù)據(jù)”主題研究領(lǐng)域的文獻(xiàn)來源統(tǒng)計表
論文的關(guān)鍵詞是對文章思想的高度概括,某領(lǐng)域或主題論文的關(guān)鍵詞頻次能夠反映學(xué)界對該領(lǐng)域或主題的關(guān)注度和重視度,也能夠從中窺探該領(lǐng)域或主題研究的熱點[9]。為了對我國大數(shù)據(jù)在圖書館應(yīng)用領(lǐng)域的研究熱點有更清楚的認(rèn)識,運(yùn)用詞頻統(tǒng)計分析法對該領(lǐng)域的 360篇文獻(xiàn)進(jìn)行關(guān)鍵詞統(tǒng)計,最終形成了該領(lǐng)域的關(guān)鍵詞共現(xiàn)圖譜(圖4)。表3列出了頻次在前 20 的關(guān)鍵詞,通過分析,以期更清楚地認(rèn)識該領(lǐng)域的研究熱點和研究方向。在納入統(tǒng)計的 360 篇文獻(xiàn)中出現(xiàn)了 622 個關(guān)鍵詞,出現(xiàn)3 次及以上的有 39 個,可見該領(lǐng)域研究角度較多,范圍比較廣泛。
表3 “圖書館大數(shù)據(jù)”主題研究領(lǐng)域高頻次關(guān)鍵詞統(tǒng)計表
圖4 “圖書館大數(shù)據(jù)”主體研究領(lǐng)域關(guān)鍵詞共現(xiàn)圖譜
將所有的關(guān)鍵詞進(jìn)行處理,相同意思的關(guān)鍵詞進(jìn)行合并,并將“圖書館”與“大數(shù)據(jù)”這兩個高頻次但對研究意義不大的詞語剔除,最終將頻次至少 6 次的關(guān)鍵詞共有 14個繪制成表4。從表4可以看出,該領(lǐng)域的研究者對大數(shù)據(jù)在圖書館的應(yīng)用的研究主體,面向的對象和研究內(nèi)容等的認(rèn)識比較一致,關(guān)注點也比較集中。從關(guān)鍵詞的詞頻統(tǒng)計,還可以看出大數(shù)據(jù)在圖書館的應(yīng)用對象大多為高校的圖書館,公共圖書館相對較少。
隨著科技的進(jìn)步,各種技術(shù)的發(fā)展應(yīng)用,圖書館的大數(shù)據(jù)技術(shù)的應(yīng)用也在不斷發(fā)展,研究熱點也在不斷地更新前進(jìn)[10]。如圖5所示。圖5所示是8個突變關(guān)鍵詞的年代分布。通過觀察突變詞的年代分布,可以看出該領(lǐng)域隨著研究熱點、時間的變化前進(jìn)。在表5中,紅線段表示該時間段內(nèi)突變關(guān)鍵字的頻率突然增加,而淺線段表示該時間段內(nèi)突變關(guān)鍵字的頻率較低。由圖5可知,該領(lǐng)域的關(guān)鍵詞包括:知識服務(wù)、數(shù)據(jù)主體、數(shù)據(jù)挖掘、圖書館數(shù)據(jù)、數(shù)據(jù)立法、數(shù)據(jù)處理、所有權(quán)關(guān)系、圖書館等。在 2006 年,突變的關(guān)鍵詞有數(shù)據(jù)主體、權(quán)屬關(guān)系、圖書館數(shù)據(jù)、數(shù)據(jù)立法,表明當(dāng)時的研究前沿在數(shù)據(jù)的規(guī)范化方面。 2012、2013 年突變的關(guān)鍵詞為:數(shù)據(jù)挖掘,數(shù)據(jù)處理,知識服務(wù)等,表明這個時期,大數(shù)據(jù)技術(shù)開始成熟,開始注重知識服務(wù)的重要性。2017年突變關(guān)鍵詞為:圖書館。表明各大高校開始把大數(shù)據(jù)技術(shù)引入圖書館,更好地為學(xué)生提供專業(yè)的服務(wù),滿足學(xué)生越來越高的需求。
圖5 圖書館大數(shù)據(jù)研究領(lǐng)域突變關(guān)鍵詞的年代分布
在大數(shù)據(jù)時代的今天,大數(shù)據(jù)在提高圖書館服務(wù)質(zhì)量等方面顯示出了明顯的優(yōu)勢。因此,充分利用圖書館大數(shù)據(jù)可以為圖書館優(yōu)化服務(wù)提供必要的數(shù)據(jù)支持。然而,大數(shù)據(jù)的作用需要解決數(shù)據(jù)采集的問題。同時,圖書館中的數(shù)據(jù)也呈現(xiàn)出無序的特點,各種數(shù)據(jù)是否具有使用價值、使用價值有多大等都需要圖書館進(jìn)行識別,這給圖書館工作人員帶來了更多的工作內(nèi)容和更大的工作壓力。
圖書館工作人員是圖書館大數(shù)據(jù)服務(wù)的主體。因此,圖書館工作人員的大數(shù)據(jù)素養(yǎng)直接影響到圖書館大數(shù)據(jù)服務(wù)的質(zhì)量。顯然,在大數(shù)據(jù)時代,圖書館基于紙質(zhì)圖書的館藏資源很難與圖書館受眾的信息獲取需求實現(xiàn)很好的對接。同時,在利用大數(shù)據(jù)技術(shù)開展圖書館服務(wù)的過程中,圖書館工作人員對大數(shù)據(jù)的態(tài)度和利用大數(shù)據(jù)開展服務(wù)工作的能力有待優(yōu)化和提高。另外,圖書館人才流失現(xiàn)象導(dǎo)致圖書館大數(shù)據(jù)服務(wù)工作難以滿足需要,這對充分發(fā)揮大數(shù)據(jù)在提高圖書館服務(wù)質(zhì)量中的作用有一定的制約。
對于圖書館受眾來講,圖書館服務(wù)與大數(shù)據(jù)技術(shù)的融合具有兩面性。一方面,圖書館可以利用大數(shù)據(jù)技術(shù)為讀者提供更加個性化、高效的服務(wù);然而,在利用大數(shù)據(jù)技術(shù)開展服務(wù)工作的過程中,受眾因素會面臨一定的安全風(fēng)險。具體來說,數(shù)據(jù)共享是充分發(fā)揮大數(shù)據(jù)技術(shù)優(yōu)勢的重要基礎(chǔ)。在此背景下,圖書館的數(shù)據(jù)則呈現(xiàn)出了發(fā)展的特點。雖然有利于圖書館各類數(shù)據(jù)的充分利用,但如果大數(shù)據(jù)服務(wù)的某個環(huán)節(jié)出現(xiàn)差錯,將導(dǎo)致圖書館受眾數(shù)據(jù)的外泄,因此,圖書館數(shù)據(jù)安全和讀者隱私保護(hù)也是圖書館在開展大數(shù)據(jù)服務(wù)時需要注意的重要內(nèi)容。
大數(shù)據(jù)時代,圖書館數(shù)據(jù)呈現(xiàn)出類型多樣化、內(nèi)容定量化的特點。面對無序的數(shù)據(jù)資源,圖書館必須有效地建立和識別,在充分利用數(shù)據(jù)的基礎(chǔ)上,充分發(fā)揮大數(shù)據(jù)技術(shù)和大數(shù)據(jù)服務(wù)的優(yōu)勢。在這個過程中,圖書館可以建立大數(shù)據(jù)服務(wù)管理部門,主要負(fù)責(zé)收集圖書館的各種數(shù)據(jù),并制定數(shù)據(jù)分析和存儲的標(biāo)準(zhǔn)。因此,圖書館需要認(rèn)識到大數(shù)據(jù)技術(shù)和大數(shù)據(jù)服務(wù)對圖書館發(fā)展的重要性,通過強(qiáng)化現(xiàn)代管理意識,加大對現(xiàn)代圖書館建設(shè)的投入,為圖書館數(shù)據(jù)管理平臺建設(shè)提供資金支持,從而有效提高圖書館數(shù)據(jù)信息的收集、整理、存儲和利用效率,為提高圖書館大數(shù)據(jù)服務(wù)質(zhì)量提供保障。
從圖書館人才隊伍建設(shè)的角度看,圖書館有必要著眼于大數(shù)據(jù)技術(shù)的運(yùn)營和應(yīng)用,做好圖書館人才隊伍的培養(yǎng)。同時,要引導(dǎo)圖書館工作人員加強(qiáng)自身的服務(wù)理念,充分利用大數(shù)據(jù)技術(shù),了解受眾的信息需求和信息接受習(xí)慣,從而有效提高圖書館讀者的滿意度;優(yōu)先圖書館人才引進(jìn)體制,增強(qiáng)圖書館工作的吸引力,為有效吸引人才加入圖書館隊伍,為圖書館增添更多的積極思想和數(shù)字人才,為大數(shù)據(jù)服務(wù)的發(fā)展打下良好的基礎(chǔ)。
在大數(shù)據(jù)時代,與侵犯受眾隱私相關(guān)的新聞事件已是屢見不鮮,比如之前爆出的谷歌、Facebook、亞馬遜、bat等互聯(lián)網(wǎng)巨頭擅自將用戶數(shù)據(jù)用于商業(yè)目的,這一點早就飽受詬病。雖然圖書館不具備上述企業(yè)的商業(yè)性質(zhì),但并不意味著圖書館如果不主動公開受眾隱私,受眾隱私就不會泄露。然而從受眾的角度看,如果由于自身問題而泄露了受眾的隱私,那么圖書館的良好形象將會大打折扣。因此,大數(shù)據(jù)服務(wù)中的隱私管理已經(jīng)成為圖書館需要面臨的一個重要問題。在這個過程中,圖書館需要從制度的角度明確工作人員的職責(zé)。
本文中以 CNKI 中“圖書館大數(shù)據(jù)”為主題的核心期刊和 CSSCI數(shù)據(jù)庫文獻(xiàn)為數(shù)據(jù)源,利用文獻(xiàn)計量分析法、可視化分析法和內(nèi)容分析法等,對我國大數(shù)據(jù)在圖書館的應(yīng)用研究領(lǐng)域近 15 年研究的研究成果和研究現(xiàn)狀進(jìn)行全面的梳理和總結(jié)分析,得出以下結(jié)論:一是以圖書館大數(shù)據(jù)為主題的文獻(xiàn)數(shù)量呈曲線增長的趨勢,這十幾年來該領(lǐng)域的研究者和研究成果都有了很大的提升,表明越來越多的人開始關(guān)注該領(lǐng)域,尤其隨著大數(shù)據(jù)技術(shù)的不斷發(fā)展,該領(lǐng)域的研究也在不斷發(fā)展。到目前為止,每年的發(fā)文量總體保持平穩(wěn),說明我國圖書館大數(shù)據(jù)研究進(jìn)入相對穩(wěn)定階段;二是在圖書館大數(shù)據(jù)領(lǐng)域的研究中,比較早期的研究者以馬曉亭為代表,并出現(xiàn)陳臣、何勝、熊太純等在該領(lǐng)域中占有舉足輕重地位的研究者;三是圖書館大數(shù)據(jù)研究領(lǐng)域的內(nèi)容比較廣泛,研究熱點在知識服務(wù)、數(shù)據(jù)挖掘、圖書館、數(shù)據(jù)處理、個性化服務(wù)等方面,隨著大數(shù)據(jù)技術(shù)的逐漸成熟,其在圖書館的應(yīng)用也越來越深入,并將相關(guān)的數(shù)據(jù)技術(shù)應(yīng)用到圖書館管理中。本文中的數(shù)據(jù)源為 CNKI 中核心期刊與 CSSCI數(shù)據(jù)庫中的中文期刊文獻(xiàn),沒有涉及相關(guān)領(lǐng)域的外文文獻(xiàn),所以結(jié)果還有待補(bǔ)充完善。由于 CNKI 數(shù)據(jù)庫自身的限制,沒有辦法運(yùn)用Citespace 可視化軟件進(jìn)行文獻(xiàn)的引文分析,所以分析的結(jié)果并不完善,具有一定程度的局限性。另外,本文僅以圖書館大數(shù)據(jù)作為主題進(jìn)行分析,可能忽略了其他領(lǐng)域的主題,所以分析結(jié)果有待補(bǔ)充。大數(shù)據(jù)技術(shù)有助于分析當(dāng)前圖書館管理的現(xiàn)狀,為圖書管理與服務(wù)的改革指明了發(fā)展的方向,進(jìn)一步提高了服務(wù)讀者的針對性,優(yōu)化了圖書館運(yùn)轉(zhuǎn)的體系,提高了圖書館管理的效率,降低了圖書館服務(wù)的成本。新時代還要大力引進(jìn)大數(shù)據(jù)技術(shù),完善圖書館管理工作的機(jī)制,發(fā)揮大數(shù)據(jù)技術(shù)的基礎(chǔ)價值,依托大數(shù)據(jù)技術(shù)開發(fā)專業(yè)圖書管理平臺,提高圖書館管理的質(zhì)量與有效性。