張小琴
摘 要 論文以CNKI為數(shù)據(jù)來源,對(duì)”十二五”期間(2011-2015年)我國(guó)圖書館界大數(shù)據(jù)研究領(lǐng)域發(fā)表的期刊論文進(jìn)行文獻(xiàn)計(jì)量分析,從描述性特征和內(nèi)容特征兩個(gè)角度來探測(cè)我國(guó)圖書館界大數(shù)據(jù)的研究現(xiàn)狀和討論熱點(diǎn),結(jié)果顯示,該領(lǐng)域研究成果呈持續(xù)增長(zhǎng)趨勢(shì),研究視角多樣化,但研究機(jī)構(gòu)分散,核心期刊載文量低,“高校圖書館”“信息服務(wù)”“數(shù)字圖書館”“數(shù)據(jù)挖掘”是目前的研究熱點(diǎn),研究?jī)?nèi)容主要涉及“服務(wù)”“技術(shù)”“資源”“影響和應(yīng)用”四個(gè)領(lǐng)域,偏重理論探討,缺少實(shí)踐和應(yīng)用研究。
關(guān)鍵詞 “十二五” 大數(shù)據(jù) 圖書館 因子分析 層次聚類 多維尺度分析
分類號(hào) G254.97
DOI 10.16810/j.cnki.1672-514X.2017.12.016
Abstract Adopting the bibliometrics analysis, and taking the CNKI as the investigation and statistics resource, this paper makes the statistics and analysis on descriptive features and content features of big data research of the library in China in the 12th five-year period(2011-2015). The research results in this field show a continuous growth trend, the research perspective is diversified, but the research institutions are scattered, and the number of papers in core journals is low. “School library” “information service” “digital library” “data mining” are the research hotspot about big data research of the library in China at present. The main contents involve four fields: “service” “technology” “resource” “influence and application” , which emphasizes on the theoretical discussion and lack of practice and application.
Keywords The 12th five-year. Library. Big data. Factor analysis. Hierarchical clustering(HC). Multidimensional scaling analysis (MDSA).
0 引言
隨著眾多社交媒體的迅速崛起,以及互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計(jì)算等技術(shù)的的興起,信息爆炸時(shí)代來臨,作為基礎(chǔ)的“數(shù)據(jù)”越來越受到重視,其在社會(huì)經(jīng)濟(jì)發(fā)展中所展現(xiàn)的預(yù)測(cè)能力、決策支持能力日益明顯,全球知名咨詢公司麥肯錫在2011年5月發(fā)布的《Big Data: the Next Frontier for Innovation》[1]報(bào)告中首次使用了 “大數(shù)據(jù)”這一概念,引起了產(chǎn)業(yè)界、科技界和政府部門的高度關(guān)注。我們有理由相信,對(duì)大數(shù)據(jù)的研究和應(yīng)用將會(huì)如火如荼開展,進(jìn)而滲透到社會(huì)各行各業(yè)。隨著大數(shù)據(jù)時(shí)代的到來,大數(shù)據(jù)也將滲透到圖書館的管理、運(yùn)行、服務(wù)與變革等環(huán)節(jié),成為影響圖書館基礎(chǔ)建設(shè)、服務(wù)模式與內(nèi)容變革、讀者個(gè)性化服務(wù)保障以及可持續(xù)發(fā)展的重要因素。
本文基于國(guó)內(nèi)圖書館界大數(shù)據(jù)研究的相關(guān)文獻(xiàn)數(shù)據(jù),對(duì)大數(shù)據(jù)研究展開調(diào)研,以期了解目前我國(guó)圖書館界大數(shù)據(jù)研究現(xiàn)狀,為今后的研究提供更多依據(jù)和參考。通過對(duì)文獻(xiàn)數(shù)據(jù)進(jìn)行計(jì)量分析和內(nèi)容分析,包括文獻(xiàn)的年度分布、期刊分布、作者分布、機(jī)構(gòu)分布、區(qū)域分布、關(guān)鍵詞分布,并利用聚類分析法、因子分析法和多維尺度分析法(MDSA) 對(duì)文獻(xiàn)研究主題進(jìn)行分析評(píng)價(jià),以期發(fā)現(xiàn)目前我國(guó)圖書館界大數(shù)據(jù)研究的重點(diǎn)和不足,為后續(xù)研究指明方向。
1 近期相關(guān)研究
作為繼云計(jì)算之后的新興信息技術(shù)之一,我國(guó)圖書館界對(duì)大數(shù)據(jù)研究已悄然興起,并迅速刮起一陣旋風(fēng),大數(shù)據(jù)日益成為學(xué)術(shù)界關(guān)注的熱點(diǎn)。學(xué)者們紛紛從不同視角對(duì)圖書館大數(shù)據(jù)問題進(jìn)行了比較系統(tǒng)的研究。
大多數(shù)研究者認(rèn)為,大數(shù)據(jù)給圖書館帶來良好機(jī)遇,同時(shí)圖書館也面臨挑戰(zhàn)[2-4]。大部分學(xué)者還研究了大數(shù)據(jù)與圖書館服務(wù)的問題。從圖書館服務(wù)創(chuàng)新[5]、圖書館用戶服務(wù)保障[6]、構(gòu)建個(gè)性化服務(wù)平臺(tái)[7]等方面探討了大數(shù)據(jù)對(duì)圖書館服務(wù)方式的影響以及服務(wù)模式的改變。還有部分學(xué)者對(duì)圖書館大數(shù)據(jù)應(yīng)用進(jìn)行了一些研究。張毅等探索了現(xiàn)階段圖書館基于大數(shù)據(jù)開展管理與服務(wù)工作的實(shí)踐方案[8]。江云等在借鑒國(guó)外經(jīng)驗(yàn)的基礎(chǔ)上構(gòu)建了我國(guó)圖書館推進(jìn)大數(shù)據(jù)的基本框架[2]。此外,對(duì)數(shù)字圖書館研究也逐步開展,如數(shù)字圖書館異構(gòu)數(shù)據(jù)集成[9]、數(shù)據(jù)庫(kù)緩存模型設(shè)計(jì)[10]、大數(shù)字圖書館安全威脅[11]等也受到關(guān)注。
除了以上的主要研究?jī)?nèi)容以外,目前我國(guó)圖書館大數(shù)據(jù)研究涉及的主題還有讀者隱私保護(hù)[12]、利用大數(shù)據(jù)分析法提高圖書館讀者決策采購(gòu)(PDA)效能[13]、圖書館與檔案館深度融合發(fā)展[14]、國(guó)外推進(jìn)大數(shù)據(jù)的應(yīng)用實(shí)踐介紹[15]以及國(guó)內(nèi)圖書館大數(shù)據(jù)背景下的有關(guān)實(shí)踐嘗試[16]等。
綜上所述,我國(guó)圖書館界對(duì)大數(shù)據(jù)的研究視角呈現(xiàn)多樣化的特征,但總體研究不夠深入,重理論、輕技術(shù)、輕實(shí)踐,圖書館利用大數(shù)據(jù)的方式、技術(shù)實(shí)現(xiàn)、服務(wù)模式的改進(jìn)與創(chuàng)新、大數(shù)據(jù)應(yīng)用策略等問題的研究還不夠深入,圖書館大數(shù)據(jù)應(yīng)用的實(shí)證研究幾乎沒有。endprint
2 數(shù)據(jù)的來源和處理方法
本文以CNKI(中國(guó)知網(wǎng))的中國(guó)學(xué)術(shù)期刊網(wǎng)絡(luò)出版總庫(kù)為數(shù)據(jù)源,調(diào)查文獻(xiàn)的范圍為“圖書館大數(shù)據(jù)研究”,筆者于2016年4月24日分別使用“圖書館*大數(shù)據(jù)”為檢索詞,以“篇名”為檢索項(xiàng),時(shí)間跨度為2011-2015,共檢索出相關(guān)記錄608條,刪除會(huì)議通知、會(huì)議成功舉辦公告、序、會(huì)議評(píng)論等共9條,最后得到匹配文獻(xiàn)599篇。
本文擬從描述性特征和內(nèi)容性特征兩個(gè)角度探測(cè)我國(guó)圖書館界大數(shù)據(jù)研究的總體狀況和討論熱點(diǎn)。對(duì)于前者,筆者主要采用數(shù)據(jù)泛化思想,即根據(jù)實(shí)際情況,將研究論文的各著錄項(xiàng)信息從細(xì)節(jié)數(shù)據(jù)轉(zhuǎn)化為具有一定粒度的輕度綜合性數(shù)據(jù),進(jìn)而采用數(shù)理統(tǒng)計(jì)方法,探測(cè)該領(lǐng)域研究論文在年度、地區(qū)、期刊以及關(guān)鍵詞等方面的特征分布;對(duì)于后者,本文則基于論文題名采用K-means聚類方法對(duì)現(xiàn)有研究進(jìn)行分組,進(jìn)而采用因子分析探測(cè)各組研究的主要成分以及利用層次聚類(HCA) 和多維尺度分析(MDSA) 討論各組的研究側(cè)重點(diǎn)和薄弱環(huán)節(jié)。
3 描述性特征的分析和評(píng)價(jià)
3.1 年度分布
通過對(duì)文獻(xiàn)年代統(tǒng)計(jì)分析,有助于把握該研究領(lǐng)域的理論水平和發(fā)展速度。本文搜集整理“十二五”期間(2011-2015) 我國(guó)圖書館界關(guān)于大數(shù)據(jù)研究的文獻(xiàn),并根據(jù)文獻(xiàn)數(shù)量繪制了圖1。
從圖1可以看出,2011-2015年間,我國(guó)圖書館界關(guān)于大數(shù)據(jù)的研究呈跳躍式發(fā)展,2011年該領(lǐng)域的研究還處于空白階段,隨著美國(guó)奧巴馬政府在2012年2月宣布推出“大數(shù)據(jù)的研究和發(fā)展計(jì)劃”,又于3月29日在美國(guó)白宮網(wǎng)站發(fā)布《大數(shù)據(jù)研究和發(fā)展倡議》(Big Data Research and Development Initiative)[17],圖書館界漸漸開始了大數(shù)據(jù)研究。2012年該研究還處于起步階段,年發(fā)文量?jī)H4篇,2013年呈現(xiàn)不斷上升趨勢(shì),國(guó)內(nèi)關(guān)于大數(shù)據(jù)的研究正逐步升溫,2014年出現(xiàn)了跳躍式發(fā)展,年發(fā)文量激增到219篇,大約是2013年年發(fā)文量的4.5倍。2015年8月31日,國(guó)務(wù)院印發(fā)了《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》,系統(tǒng)部署大數(shù)據(jù)發(fā)展工作,隨之,國(guó)內(nèi)圖書館界關(guān)于大數(shù)據(jù)的研究也進(jìn)入白熱化,2015年的年發(fā)文量高達(dá)327篇,我國(guó)圖書館界刮起大數(shù)據(jù)研究的旋風(fēng),大數(shù)據(jù)已成為學(xué)術(shù)界關(guān)注的熱點(diǎn)。
3.2 期刊分布
2011-2015年,共有278種期刊載有圖書館大數(shù)據(jù)研究方面的論文,總載文比為2.15,比較低。
599篇論文在278種期刊中的具體分布情況如圖2所示,圖例中僅列出了發(fā)文量不小于5的期刊。載文量為1篇的期刊有252種。載文量在5-10篇的期刊有14種,共載有論文95篇。載文量在11-20篇的期刊有6種,共載有論文74篇。載文量在21-30篇的期刊有3種,總載有論文81篇。載文量在30篇以上的期刊有3種,共載有論文97篇,其中載文量最高的是《農(nóng)業(yè)圖書情報(bào)學(xué)刊》,共35篇,其次是《河南圖書館學(xué)刊》和《科技情報(bào)開發(fā)與經(jīng)濟(jì)》,兩者都是31篇。說明目前我國(guó)圖書館界大數(shù)據(jù)研究分散程度明顯,研究熱點(diǎn)集中較少。
筆者進(jìn)一步統(tǒng)計(jì)了該領(lǐng)域研究論文的CSSCI期刊收錄情況,599篇論文中被CSSCI期刊收錄的僅80篇,占論文總數(shù)的13.4%。
圖3揭示了具體分布情況,載文量最高的是《圖書館工作與研究》,共16篇,其次是《圖書與情報(bào)》和《圖書館理論與實(shí)踐》,都是11篇。在圖3所示的21種期刊中,《圖書館理論與實(shí)踐》 不是CSSCI(2014-2015) 來源期刊,《圖書館學(xué)研究》 不是CSSCI(2011-2013)來源期刊,兩者總共刊載論文19篇,占所有CSSCI期刊收錄論文總數(shù)的23.8%。國(guó)內(nèi)圖書館界目前還沒有大數(shù)據(jù)研究方面的論文發(fā)表在《大學(xué)圖書館學(xué)報(bào)》《情報(bào)學(xué)報(bào)》 等最核心期刊,僅有1篇論文發(fā)表在《中國(guó)圖書館學(xué)報(bào)》,說明目前我國(guó)圖書館界關(guān)于大數(shù)據(jù)研究的文獻(xiàn)深度不夠,質(zhì)量偏低。
3.3 第一作者分布
為便于統(tǒng)計(jì),本文將第一作者作為統(tǒng)計(jì)依據(jù)。根據(jù)普賴斯定律提出的核心作者計(jì)算公式M=0.749(Nmax1/2)[18],M為論文篇數(shù),Nmax為統(tǒng)計(jì)年限中最高產(chǎn)作者的論文數(shù),只有那些發(fā)文在M篇以上的作者,才能稱為核心作者,即多產(chǎn)作者。
通過圖4可知,統(tǒng)計(jì)年限中最高產(chǎn)作者發(fā)表的論文數(shù)為18,代入公式計(jì)算得出M=3.177,取整后為3,即發(fā)表論文在3篇以上的作者為該領(lǐng)域的核心作者。根據(jù)圖4的統(tǒng)計(jì)分析,發(fā)文量在3篇及以上的作者僅有9位,他們總共發(fā)表論文50篇,約占論文總數(shù)的8.35%,這一數(shù)值遠(yuǎn)低于普賴斯定律中所規(guī)定的核心作者要撰寫該領(lǐng)域全部論文50%的指標(biāo)。由此可見,雖然我國(guó)圖書館界大數(shù)據(jù)研究領(lǐng)域已出現(xiàn)具有代表性的核心作者,但還未形成嚴(yán)格意義上的核心作者群,相對(duì)固定的研究者少,大多數(shù)是瞬時(shí)性研究者,缺乏對(duì)該領(lǐng)域的長(zhǎng)期性、持續(xù)性關(guān)注。
另外,為了進(jìn)一步了解“十二五”期間(2011-2015) 我國(guó)圖書館界大數(shù)據(jù)研究論文作者合作情況,筆者對(duì)所有文章作者合作人數(shù)情況進(jìn)行了統(tǒng)計(jì)分析,具體結(jié)果如圖5所示。
在統(tǒng)計(jì)的599篇文章中,僅134篇文章是合著的,占論文總數(shù)的22.37%,所有文章涉及的作者有807人,其中參與合作的作者人數(shù)是342人,占總?cè)藬?shù)的42.38%。說明目前我國(guó)圖書館界大數(shù)據(jù)研究領(lǐng)域的合作很少,大部分論文作者為“單干戶”,研究的成果大多是個(gè)人的觀點(diǎn),成熟度不夠,可靠性較差。
3.4 第一作者的機(jī)構(gòu)分布
通過對(duì)發(fā)文作者所屬機(jī)構(gòu)的統(tǒng)計(jì)分析,可以了解我國(guó)圖書館界大數(shù)據(jù)研究力量在各類機(jī)構(gòu)中的配置。
圖6清楚地展示了我國(guó)圖書館界大數(shù)據(jù)研究機(jī)構(gòu)分布情況,在發(fā)文量較大(篇數(shù)>2)的31家機(jī)構(gòu)中,有18家來自高校圖書館、8家來自公共圖書館、2家來自高校院系、2家來自高校網(wǎng)路中心和信息中心、1家來自省委黨校,其中發(fā)表成果排名前5的機(jī)構(gòu)分別是:蘭州商學(xué)院信息工程學(xué)院(16篇),桂林理工大學(xué)圖書館(7篇),蘭州商學(xué)院網(wǎng)絡(luò)中心(7篇),遼寧省圖書館(6篇),解放軍醫(yī)學(xué)圖書館(5篇)。排在首位的是蘭州商學(xué)院信息工程學(xué)院,結(jié)合其研究?jī)?nèi)容來看,主要包括圖書館大數(shù)據(jù)管理與價(jià)值分析、異構(gòu)數(shù)據(jù)整合、圖書館用戶隱私保護(hù)、基于移動(dòng)大數(shù)據(jù)的圖書館服務(wù)、圖書館開放數(shù)據(jù)平臺(tái)和服務(wù)模式、基于可信大數(shù)據(jù)的圖書館個(gè)性化服務(wù)平臺(tái)構(gòu)建等。排在第二位的是桂林理工大學(xué)圖書館,其主要研究?jī)?nèi)容包括大數(shù)據(jù)管理技術(shù)、移動(dòng)服務(wù)、知識(shí)服務(wù)、圖書館大數(shù)據(jù)體系構(gòu)建、大數(shù)據(jù)在圖書館的應(yīng)用等方面,這7篇論文都獲得了相應(yīng)的基金項(xiàng)目資助,有益于研究的持續(xù)進(jìn)行和進(jìn)一步深入開展。排名第3的是蘭州商學(xué)院網(wǎng)絡(luò)中心,其主要從圖書館個(gè)性化服務(wù)、數(shù)據(jù)安全、讀者隱私保護(hù)、基于大數(shù)據(jù)的搜索引擎、數(shù)字圖書館等方面進(jìn)行大數(shù)據(jù)研究。endprint
根據(jù)統(tǒng)計(jì)分析,可以看出:(1)目前我國(guó)圖書館界關(guān)于大數(shù)據(jù)的研究機(jī)構(gòu)比較分散,發(fā)文數(shù)量較少,研究時(shí)間短;(2)高校圖書館員和專業(yè)教師是我國(guó)圖書館界大數(shù)據(jù)研究的主要力量,他們具有較濃厚的研究底蘊(yùn),擁有較強(qiáng)的科研能力,是目前該研究領(lǐng)域的主力軍;(3)公共圖書館在該領(lǐng)域的研究較少,大數(shù)據(jù)研究還沒有引起公共圖書館界的重視。
3.5 常用關(guān)鍵詞分布
通過對(duì)關(guān)鍵詞的分析,可以揭示學(xué)科特點(diǎn)、結(jié)構(gòu)及內(nèi)在相關(guān)性,反映科研的研究熱點(diǎn)和發(fā)展動(dòng)向。
對(duì)關(guān)鍵詞進(jìn)行頻次統(tǒng)計(jì)之后,表1列出了頻次大于等于4的關(guān)鍵詞64個(gè)。通過表1可以看出,目前我國(guó)圖書館界大數(shù)據(jù)研究范圍廣泛,但并不是所有研究主題都齊頭并進(jìn),有的主題研究多,有的主題研究少。選擇頻次大于等于9的關(guān)鍵詞共28個(gè),確定為我國(guó)圖書館界大數(shù)據(jù)研究的高頻關(guān)鍵詞,對(duì)高頻關(guān)鍵詞的分析,可以看出一個(gè)研究領(lǐng)域的熱點(diǎn)所在??梢钥闯?,“大數(shù)據(jù)”“圖書館”“高校圖書館”“信息服務(wù)”“數(shù)字圖書館”“數(shù)據(jù)挖掘”“知識(shí)服務(wù)”,是目前我國(guó)圖書館界大數(shù)據(jù)研究的熱點(diǎn)。
4 內(nèi)容性特征的分析和評(píng)價(jià)
用中科院計(jì)算所開發(fā)的ICTCLAS對(duì)題名進(jìn)行分詞,并去掉停用詞,可獲得500個(gè)有效詞匯。需要注意的是,由于題名中均含有“大數(shù)據(jù)”和“圖書館”,因此這兩個(gè)詞也作為停用詞去掉,最終可以形成599×500的DTM(Document-Term Matrix)。
4.1 K-means題名聚類分析(CA)和評(píng)價(jià)
對(duì)DTM進(jìn)行K-means聚類,設(shè)置聚類次數(shù)N=20,簇?cái)?shù)C=10,將599篇論文劃分為10個(gè)簇,通過對(duì)聚類結(jié)果進(jìn)行分析,筆者對(duì)每個(gè)簇內(nèi)容進(jìn)行了總結(jié),具體如表3所示。
簇C_1的主要研究?jī)?nèi)容是信息服務(wù)、個(gè)性化服務(wù);簇C_2的研究?jī)?nèi)容主要有云計(jì)算、數(shù)據(jù)挖掘、數(shù)據(jù)分析;簇C_3主要研究的是大數(shù)據(jù)環(huán)境下的信息服務(wù);簇C_4主要研究?jī)?nèi)容是智慧圖書館;簇C_5的主要研究?jī)?nèi)容是云計(jì)算、數(shù)據(jù)挖掘在圖書的應(yīng)用;簇C_6主要研究的是數(shù)字圖書館資源建設(shè);簇C_7主要研究?jī)?nèi)容是云計(jì)算、數(shù)據(jù)挖掘、數(shù)據(jù)處理;簇C_8主要是圖書館服務(wù)創(chuàng)新研究;簇C_9的主要研究?jī)?nèi)容是運(yùn)用大數(shù)據(jù)思維開展信息服務(wù);簇C_10主要是大數(shù)據(jù)研究面臨的機(jī)遇和挑戰(zhàn)。
通過對(duì)各個(gè)簇內(nèi)容總結(jié),筆者發(fā)現(xiàn),該10個(gè)簇又可以進(jìn)一步歸納為服務(wù)、技術(shù)、資源三個(gè)大類。其中,簇C_1、C_3、C_4、C_8、C_9、C_10這6個(gè)簇歸屬于服務(wù)大類,主要是基于大數(shù)據(jù)的圖書館服務(wù)體系構(gòu)建研究以及圖書館大數(shù)據(jù)研究面臨的機(jī)遇與挑戰(zhàn);簇C_2、C_5、C_7這3個(gè)簇歸屬于技術(shù)大類,主要是大數(shù)據(jù)技術(shù)在圖書館的應(yīng)用研究,如云計(jì)算、數(shù)據(jù)挖掘等;簇C_6歸屬于資源大類,主要是大數(shù)據(jù)環(huán)境下圖書館資源建設(shè)研究。由上可以看出,目前圖書館大數(shù)據(jù)研究主要集中在服務(wù)領(lǐng)域,而技術(shù)與資源是現(xiàn)有研究的薄弱環(huán)節(jié),服務(wù)的研究也大多停留在理論層面,鮮少有實(shí)證研究。CSSCI來源期刊中收錄的“圖書館大數(shù)據(jù)”研究論文同樣說明了此類情況,80篇CSSCI來源期刊論文,其中49篇是關(guān)于服務(wù)的研究,24篇是關(guān)于技術(shù)的研究,僅1篇是關(guān)于資源的研究。
4.2 CSSCI論文的因子分析(FA)和評(píng)價(jià)
因子分析是指研究從變量群中提取共性因子的統(tǒng)計(jì)技術(shù),其基本目的就是用少數(shù)幾個(gè)因子去描述許多指標(biāo)或因素之間的聯(lián)系,即將相關(guān)比較密切的幾個(gè)變量歸在同一類中,每一類變量就成為一個(gè)因子,以較少的幾個(gè)因子反映原資料的大部分信息[19]。由于對(duì)599篇論文進(jìn)行因子分析,數(shù)量實(shí)在過于巨大,筆者抽取其中質(zhì)量相對(duì)較高的80篇CSSCI論文進(jìn)行因子分析,一方面探討目前我國(guó)“圖書館大數(shù)據(jù)”研究的主要或重點(diǎn)內(nèi)容,另一方面也與上文筆者主觀設(shè)定的簇內(nèi)容進(jìn)行比較分析。
80篇CSSCI論文,170個(gè)有效變量(影響因素),形成80×170矩陣,通過對(duì)DTM(文獻(xiàn)-術(shù)語(yǔ)矩陣)進(jìn)行因子分子,共獲得24個(gè)因子,其中主要因子有8個(gè)。對(duì)相關(guān)文獻(xiàn)進(jìn)一步分析,可知這8個(gè)因子分別為“大數(shù)據(jù)、圖書館服務(wù)”“知識(shí)服務(wù)、信息服務(wù)、數(shù)據(jù)素養(yǎng)”“大數(shù)據(jù)環(huán)境、數(shù)字圖書館”“圖書館資源建設(shè)”“大數(shù)據(jù)在圖書館的應(yīng)用”“數(shù)字圖書館、大數(shù)據(jù)”“大數(shù)據(jù)、圖書館、個(gè)性化服務(wù)”“基于大數(shù)據(jù)的圖書館服務(wù)體系構(gòu)建”等。
在對(duì)相關(guān)文獻(xiàn)詳細(xì)分析的基礎(chǔ)上,筆者對(duì)以上8個(gè)因子進(jìn)一步歸納總結(jié),因子一“大數(shù)據(jù)、圖書館服務(wù)”主要是從宏觀層面討論大數(shù)據(jù)時(shí)代圖書館服務(wù)的發(fā)展與創(chuàng)新;因子二“知識(shí)服務(wù)、信息服務(wù)、數(shù)據(jù)素養(yǎng)”,主要研究的是大數(shù)據(jù)環(huán)境下圖書館的信息服務(wù)與知識(shí)服務(wù);因子三“大數(shù)據(jù)環(huán)境、數(shù)字圖書館”主要是關(guān)于大數(shù)據(jù)環(huán)境下數(shù)字圖書館的功能與安全研究;因子四“圖書館資源建設(shè)”主要研究?jī)?nèi)容是大數(shù)據(jù)環(huán)境下圖書館的資源建設(shè),具體有音頻資源建設(shè)、文獻(xiàn)資源建設(shè);因子五“大數(shù)據(jù)在圖書館的應(yīng)用”主要研究的是大數(shù)據(jù)對(duì)圖書館的影響以及大數(shù)據(jù)在圖書館管理和服務(wù)中的應(yīng)用;因子六“數(shù)字圖書館、大數(shù)據(jù)”主要有數(shù)字圖書館與大數(shù)據(jù)比較研究、面向大數(shù)據(jù)的數(shù)據(jù)搜索引擎及數(shù)據(jù)庫(kù)緩存模型設(shè)計(jì);因子七“大數(shù)據(jù)、圖書館、個(gè)性化服務(wù)”,主要研究的是基于大數(shù)據(jù)的圖書館個(gè)性化服務(wù);因子八“基于大數(shù)據(jù)的圖書館服務(wù)體系構(gòu)建”主要研究?jī)?nèi)容是基于大數(shù)據(jù)的圖書館個(gè)性化服務(wù)、智慧服務(wù)平臺(tái)或體系構(gòu)建。
通過以上分析,不難發(fā)現(xiàn),因子一、因子二、因子七、因子八主要側(cè)重“服務(wù)”研究,因子三、因子六主要側(cè)重“技術(shù)”研究,因子四主要是關(guān)于“資源”研究,因子五主要是“影響和應(yīng)用”研究。這與題名聚類分析的結(jié)果大致相同,從中可以看出目前我國(guó)圖書館界大數(shù)據(jù)研究的內(nèi)容主要集中在服務(wù)、技術(shù)、資源、影響和應(yīng)用這四個(gè)領(lǐng)域,其中關(guān)于服務(wù)領(lǐng)域的研究范圍最廣內(nèi)容最多。
4.3 CSSCI論文的多維尺度分析(MDSA)和評(píng)價(jià)
多維尺度分析是一種將多維空間的研究對(duì)象(樣本或變量)簡(jiǎn)化到低維空間進(jìn)行定位、分析和歸類,同時(shí)又保留對(duì)象間原始關(guān)系的數(shù)據(jù)分析方法[20]。通常和層次聚類分析(Hierarchical clustering analysis) 結(jié)合使用。基本操作過程如下:對(duì)每個(gè)類目中的文獻(xiàn)構(gòu)建DTM(Document-Term Matrix),進(jìn)而基于余弦距離計(jì)算文獻(xiàn)之間的相似度,將DTM轉(zhuǎn)化為DDM(Document-Document Matrix),然后對(duì)每個(gè)類目的DDM進(jìn)行層次聚類和多維尺度分析。”十二五”期間我國(guó)圖書館大數(shù)據(jù)研究CSSCI論文的HC和MDS分析的結(jié)果如下所示。endprint
RSQ的值為決定系數(shù),是效度指標(biāo),表示總變異中能夠被相對(duì)空間距離所解釋的比例,反映MDS的擬合良好程度[21]。Stress值是信度指標(biāo),是描述模型對(duì)判斷數(shù)據(jù)矩陣擬合效果的參數(shù),反映MDS的擬合劣質(zhì)程度[21]。從分析結(jié)果來看,RSQ值為0.44753, Stress值為0.33120,說明數(shù)據(jù)的擬合度不好,一方面是由于所分析論文的主題比較分散,另一方面也與論文結(jié)點(diǎn)數(shù)量有關(guān)。
從圖8的研究?jī)?nèi)容聚集得出的層次結(jié)果來看,目前我國(guó)圖書館大數(shù)據(jù)研究大致可以分為5個(gè)方面:①是大數(shù)據(jù)時(shí)代圖書館服務(wù)研究,結(jié)合具體文獻(xiàn)分析,其中有2篇論文是關(guān)于大數(shù)據(jù)時(shí)代的讀者隱私保護(hù)研究;②是大數(shù)據(jù)環(huán)境下圖書館的信息服務(wù)、知識(shí)服務(wù)及個(gè)性化服務(wù);③是大數(shù)據(jù)時(shí)代數(shù)字圖書館研究;④大數(shù)據(jù)環(huán)境下圖書館資源建設(shè);⑤是大數(shù)據(jù)在圖書館的應(yīng)用研究,以及大數(shù)據(jù)對(duì)圖書館的影響。如果對(duì)上述5個(gè)方面進(jìn)一步歸類,不難發(fā)現(xiàn),①和②屬于“服務(wù)”研究;③和⑤偏重于“技術(shù)”研究;④屬于“資源”研究。
在對(duì)層次聚類結(jié)果進(jìn)行降維處理的過程中,數(shù)據(jù)難免會(huì)有失真,通過對(duì)相關(guān)文獻(xiàn)進(jìn)一步分析,得出圖9的分析結(jié)果。
圖9中的①主要來自圖8中的①和③,圖9中的②來自圖8中的④,圖9中的③來自圖8中的②,圖9中的④來自圖8中的⑤。從以上分析來,圖8和圖9的結(jié)果與上文中題名聚類分析和因子分析的結(jié)果大致吻合。
5 結(jié)論
通過對(duì)2011-2015年我國(guó)圖書館大數(shù)據(jù)研究論文進(jìn)行統(tǒng)計(jì),采用文獻(xiàn)計(jì)量分析,以可視化效果展示和分析了目前圖書館大數(shù)據(jù)研究的現(xiàn)狀??傮w來說,可以得出以下結(jié)論:
(1) 從描述性特征來看,自2011年以來我國(guó)圖書館大數(shù)據(jù)研究論文呈逐年增長(zhǎng)趨勢(shì),全國(guó)各個(gè)地區(qū)都有參與圖書館大數(shù)據(jù)研究,該領(lǐng)域研究已積累了一定量的文獻(xiàn),但研究分散程度明顯,熱點(diǎn)集中較少,核心期刊載文量低,雖已出現(xiàn)具有代表性的核心作者,但還未形成嚴(yán)格意義上的核心作者群,大多數(shù)是瞬時(shí)研究者或“單干戶”,高校圖書館員和專業(yè)教師是目前該領(lǐng)域研究的主要力量,公共圖書館在該領(lǐng)域的研究較少。
(2) 從內(nèi)容性特征來看,目前我國(guó)圖書館大數(shù)據(jù)研究主要包含“服務(wù)”“技術(shù)”“資源”“影響和應(yīng)用”4個(gè)領(lǐng)域,其中,大數(shù)據(jù)環(huán)境下圖書館服務(wù)研究是重點(diǎn)與主體,研究?jī)?nèi)容大都集中在大數(shù)據(jù)時(shí)代對(duì)圖書館服務(wù)方式的影響以及模式轉(zhuǎn)變,大數(shù)據(jù)的技術(shù)特征在現(xiàn)有研究中還沒有得到很好體現(xiàn),面向大數(shù)據(jù)的圖書館資源建設(shè)與整合還沒有引起太多重視,大數(shù)據(jù)在圖書館的應(yīng)用研究工作涉及很少,總體來說,目前該領(lǐng)域偏重于理論探討,缺少技術(shù)和實(shí)踐研究。
在今后的研究中需多關(guān)注以下方面: (1) 圖書館數(shù)據(jù)存儲(chǔ)與分析處理研究,海量數(shù)據(jù)的急劇增長(zhǎng)給數(shù)據(jù)存儲(chǔ)能力和存儲(chǔ)結(jié)構(gòu)帶來了巨大考驗(yàn),如何提高存儲(chǔ)能力,優(yōu)化存儲(chǔ)結(jié)構(gòu),并充分利用大數(shù)據(jù)技術(shù),提升數(shù)據(jù)處理效率,甄選有價(jià)值數(shù)據(jù),實(shí)時(shí)跟蹤處理數(shù)據(jù),有效利用數(shù)據(jù)價(jià)值,是今后研究的重點(diǎn); (2) 信息安全和讀者隱私研究,圖書館在利用大數(shù)據(jù)技術(shù)提高讀者服務(wù)能力和服務(wù)質(zhì)量的同時(shí),要有效保護(hù)好信息安全和讀者隱私; (3) 圖書館資源建設(shè)研究,大數(shù)據(jù)時(shí)代下資源組織和建設(shè)工作力度加大,資源利用和開發(fā)深度得到空前深化,讀者需求也成為圖書館重要的資源,開展以讀者資源需求為導(dǎo)向的決策處理; (4) 加強(qiáng)圖書館大數(shù)據(jù)應(yīng)用的實(shí)證研究; (5) 鑒于大數(shù)據(jù)的技術(shù)特征以及應(yīng)用的廣泛性,圖書館大數(shù)據(jù)研究也可以考慮跨學(xué)科、跨領(lǐng)域合作。endprint