圖書館數(shù)據(jù)挖掘技術研究現(xiàn)狀述評

2011-05-08 08:28:08唐吉深

圖書館界 2011年1期

唐吉深

(河池學院圖書館,廣西宜州 546300)

20世紀 90年代以來,數(shù)據(jù)挖掘技術已成為數(shù)據(jù)庫研究最活躍的分支之一。數(shù)據(jù)挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中提取隱含在其中的、人們事先不知道但又是潛在有用的信息和知識的過程[1]。通過數(shù)據(jù)挖掘機器算法可以幫助決策者從海量的數(shù)據(jù)中自動發(fā)現(xiàn)隱藏其中有價值的關系和模式,從而對未來可能發(fā)生的行為進行預測。

隨著圖書館網(wǎng)絡化、自動化的普及,數(shù)據(jù)庫技術在圖書館的應用中迅速發(fā)展。圖書館日常管理產(chǎn)生大量數(shù)據(jù),如:圖書館書目數(shù)據(jù)、讀者流通借還數(shù)據(jù)、書目檢索記錄、Web訪問記錄等。采用數(shù)據(jù)挖掘技術對這些數(shù)據(jù)加以挖掘分析,將對圖書館的采訪、流通、參考咨詢、數(shù)字圖書館建設等有著很強的指導作用。同時可為圖書館決策及開展服務創(chuàng)新提供強有力的科學依據(jù)。

1 國外數(shù)據(jù)挖掘技術研究及其在圖書館的應用研究現(xiàn)狀分析

在國外,數(shù)據(jù)挖掘技術活躍于各行各業(yè),如加州理工學院噴氣推進實驗室與天文科學家合作開發(fā)的SKICAT系統(tǒng),能夠幫助天文學家發(fā)現(xiàn)遙遠的類星體;電子商務領域利用數(shù)據(jù)挖掘技術識別顧客的購買行為;生物學研究領域用數(shù)據(jù)挖掘技術對 DNA進行分析;銀行利用數(shù)據(jù)挖掘技術對客戶詐騙行為進行預測;IBM公司開發(fā)的 AS(Advanced Scout)系統(tǒng)針對 NBA的訓練比賽數(shù)據(jù),幫助教練優(yōu)化戰(zhàn)術組合 ,等等[2]。

在 Thomson Reuters的 “Science Citation Index Expanded”數(shù)據(jù)庫中檢索有關數(shù)據(jù)挖掘技術及其在圖書館應用方面的論文被 SCI收錄的情況,以“主題=(data mining)and入庫時間 =(2003—2009)”為檢索條件(簡稱檢索方式 1),得到 13 693條結(jié)果記錄;以“主題 =(data mining)and主題 =(library)and入庫時間 =(2003—2009)”為檢索條件(簡稱檢索方式 2),得到 27條結(jié)果記錄。按發(fā)表論文時間排列得到表 1(以上檢索時間為 2010年 5月 28日)。

SCI收錄的文章數(shù)量能夠反映某一問題研究的熱度與創(chuàng)新程度。從表 1可以看出,2003—2009年間,SCI收錄數(shù)據(jù)挖掘技術方面的文章總計 13 693篇,且逐年遞增,呈明顯的上升趨勢。這表明國外學者在數(shù)據(jù)挖掘技術研究領域相當活躍,成果頗豐。而 SCI收錄數(shù)據(jù)挖掘在圖書館這一特定領域應用的文章為 27篇,不及總量的 0.2%。這表明數(shù)據(jù)挖掘在圖書館領域的應用相對較少,且高質(zhì)量的研究成果不多。

表1 國外數(shù)據(jù)挖掘論文被SCI收錄情況

2 國內(nèi)數(shù)據(jù)挖掘技術在圖書館應用的研究現(xiàn)狀分析

在國內(nèi),數(shù)據(jù)挖掘技術應用同樣廣泛,尤其以電子商務、電信等商業(yè)領域的應用居多。國內(nèi)圖書館自引入基于數(shù)據(jù)庫的自動化管理系統(tǒng)后,數(shù)據(jù)量劇增。海量數(shù)據(jù)蘊藏著不菲的研究價值,但由于圖書館本身技術力量薄弱,往往只能憑借業(yè)務管理系統(tǒng)自帶的數(shù)據(jù)分析功能,對數(shù)據(jù)進行諸如查詢、統(tǒng)計等表面化的分析。缺乏內(nèi)在的、深層次的問題分析,其分析效果不盡理想。鑒于此,一些學者嘗試利用數(shù)據(jù)挖掘這種新興技術來解決所面臨的問題,以求服務質(zhì)量有所突破。

以下通過對中國知網(wǎng)“中國學術期刊網(wǎng)絡出版總庫”收錄的 2003—2009年間有關國內(nèi)數(shù)據(jù)挖掘技術在圖書館應用研究方面的論文進行定量、歸納分析,以展示其研究現(xiàn)狀。采用檢索條件式“主題 =(圖書館)并且主題 =(數(shù)據(jù)挖掘)并且時間 =(2003—2009)”進行檢索,得到有效記錄 533條(以上檢索時間為 2010年 5月 28日)。

2.1 發(fā)表論文的年代分布定量分析

對上述檢索結(jié)果按照發(fā)表論文年代排列得到表2。從表 2可以看出,國內(nèi)數(shù)據(jù)挖掘技術在圖書館的應用研究所發(fā)表的論文數(shù)量逐年遞增,且呈線性上升態(tài)勢。學者在這一領域的研究熱情持續(xù)升溫,數(shù)據(jù)挖掘技術在圖書館的應用具有廣闊前景。

表2 國內(nèi)圖書館數(shù)據(jù)挖掘技術研究論文年代分布情況

2.2 發(fā)表論文來源期刊載文量分布定量分析

533篇公開發(fā)表的論文分布在省級以上的 56種刊物中,其中圖書館專業(yè)期刊 36種,共刊載論文 398篇,占總發(fā)表量的 74.7%。對 56種刊物按其刊載量進行排序,選取前 10位得到表 3。從表 3可以看出,前 10種期刊共刊載論文 180篇,占總發(fā)表量的 33.8%,其中 7種期刊為中文核心刊物,刊載論文 135篇,占前10種期刊刊載量的 75%。這表明其研究成果主要集中在核心刊物,且學術成果價值較高,學者在這一領域的研究得到了圖情界主流的認可。

表3 圖書館數(shù)據(jù)挖掘技術論文載文量前 10位的期刊

2.3 發(fā)表論文作者單位分布定量分析

這些公開發(fā)表論文的作者分散在 186個學術機構(gòu)中(其中高校 152個、其他機構(gòu) 34個)。以機構(gòu)發(fā)表論文數(shù)量排序,選取前 10位得到表 4。從表 4可以看出,排在前 10位的機構(gòu)有 9個為高校,有 1個為科研所。有關這一領域研究的學者多數(shù)來自高校,公共圖書館在這一領域開展的研究較少,其原因是高校在學術環(huán)境、實驗設施、人力資源等方面較公共圖書館有優(yōu)勢。但筆者認為公共圖書館擁有龐大的讀者群,且讀者層次不一,利用數(shù)據(jù)挖掘技術對讀者開展個性化服務很有研究價值。由于高校對這一問題研究相對活躍,公共圖書館可以嘗試與高校開展合作研究,充分利用高校的優(yōu)勢資源,推進數(shù)據(jù)挖掘技術在公共圖書館的應用。

表4 國內(nèi)發(fā)表圖書館數(shù)據(jù)挖掘技術論文數(shù)量前 10位的機構(gòu)

2.4 發(fā)表論文的研究范疇歸納分析

對檢索到的 533篇論文,按照其在圖書館業(yè)務中的應用范疇進行分類得到表 5。從表 5可以看出,有關讀者個性化服務中應用數(shù)據(jù)挖掘技術的論文居首,表明圖書館傾向于利用數(shù)據(jù)挖掘技術解決如何高效、高質(zhì)量地為讀者提供個性化服務,最大限度滿足讀者需求的問題。以下選取檢索結(jié)果論文中具有代表性主題的文章進行歸納分析。

表5 發(fā)表論文研究范疇分類

數(shù)據(jù)挖掘技術在讀者個性化服務中的應用,主要表現(xiàn)為通過對讀者信息、讀者借閱和 Web使用記錄等進行挖掘,建立讀者興趣模型,并根據(jù)模型對讀者開展有針對性的服務。如:史艷梅“建立了一種 CMPS系統(tǒng)模型來獲取用戶興趣”[3];郭家義“探討數(shù)據(jù)挖掘技術在個性化檢索系統(tǒng)中的作用以及如何發(fā)現(xiàn)用戶興趣”[4];柳炳祥等“將粗糙集和模糊聚類數(shù)據(jù)挖掘算法應用到圖書館個性化服務中”[5];曹強“將數(shù)據(jù)挖掘技術與 RSS推送技術有機結(jié)合,設計、實現(xiàn)個性化信息服務模型”[6]。

數(shù)據(jù)挖掘技術在文獻采訪工作中的應用,主要表現(xiàn)為通過對讀者信息、書目數(shù)據(jù)、讀者借閱數(shù)據(jù)、文獻檢索記錄等信息利用關聯(lián)分析、聚類分析進行挖掘,發(fā)現(xiàn)讀者與借閱讀書之間的關系、不同讀者群的借閱傾向及不同學科間的聯(lián)系等,以指導采訪員科學選書。如:遲春佳等“針對如何科學制訂高校圖書館圖書采購計劃的問題,提出了將數(shù)據(jù)挖掘技術用于高校圖書館圖書采購計劃制定決策輔助的方法”[7];劉淑瑞“采用 k-means算法將讀者分為活躍讀者、一般讀者、較少讀者三類,并根據(jù)不同類讀者的借閱興趣,調(diào)整采購策略”[8];王伊蕾等“將數(shù)據(jù)挖掘技術與運籌學相結(jié)合,提出了一種基于庫存理論的圖書訂購策略”[9]。

數(shù)據(jù)挖掘技術在數(shù)字圖書館的應用,主要表現(xiàn)為提供智能搜索引擎服務、圖書館 Web挖掘、多媒體數(shù)據(jù)挖掘、Web信息抽取等。如:鄒凱等“闡述了數(shù)據(jù)挖掘技術在智能搜索引擎服務中的個性化知識決策功能”[10];黎琳論述了“文本自動摘要、文本分類和文本聚類等 Web內(nèi)容挖掘技術在數(shù)字圖書館中的應用”[11];張英等“介紹了圖像挖掘、視頻挖掘、音頻挖掘等多媒體挖掘方法,并提出了一種適合多媒體數(shù)據(jù)挖掘的系統(tǒng)框架”[12];宋玉忠“認為Web數(shù)據(jù)抽取技術是 Web信息挖掘的關鍵,并提出了一種面向 XML描述的 Web數(shù)據(jù)抽取模型”[13]。

數(shù)據(jù)挖掘技術在參考咨詢工作中的作用,主要表現(xiàn)為利用數(shù)據(jù)挖掘技術發(fā)現(xiàn)隱性知識,以使館員在解答讀者咨詢問題時更為客觀、全面。如:楊亞華“將知識管理、知識挖掘和參考咨詢服務有機結(jié)合,提出了一種新的參考咨詢服務體系結(jié)構(gòu)”[14]。

3 數(shù)據(jù)挖掘技術在圖書館應用前瞻展望

近年來,隨著計算機技術及互聯(lián)網(wǎng)技術的快速發(fā)展,各種新技術不斷涌入圖書館,圖書館進入 3.0時代,云計算、移動閱讀將主導未來圖書館的發(fā)展方向。如何將數(shù)據(jù)挖掘技術與這些新技術融合,已成為亟待解決的問題。筆者就新形勢下,數(shù)據(jù)挖掘技術在圖書館的應用創(chuàng)新提出以下設想。

3.1 圖書館自動化業(yè)務管理系統(tǒng)集成數(shù)據(jù)挖掘功能

當前,國外許多圖書館自動化業(yè)務管理系統(tǒng)已整合了數(shù)據(jù)挖掘功能(如 Mylibrary系統(tǒng))。國內(nèi)數(shù)據(jù)挖掘技術在圖情界的研究相對活躍,但主要是針對如何利用的問題在進行探討,真正可操作性強、能夠指導實際業(yè)務的成熟產(chǎn)品很少,僅有少數(shù)大學圖書館自行開發(fā)有供本館使用的個性化服務系統(tǒng),如中國人民大學開發(fā)的 KBDL系統(tǒng)。由于圖書館一般技術力量比較薄弱,自主開發(fā)數(shù)據(jù)挖掘系統(tǒng)困難較大。由專業(yè)公司開發(fā)具有數(shù)據(jù)挖掘功能的圖書館自動化業(yè)務管理系統(tǒng),在圖書館進行推廣使用,將促進數(shù)據(jù)挖掘技術在圖書館應用的普及。

3.2 數(shù)據(jù)挖掘技術在手機圖書館中應用

隨著移動互聯(lián)網(wǎng)技術的發(fā)展成熟及 3G手機的普及,移動閱讀越來越受到讀者青睞。中國國家圖書館、重慶大學圖書館等率先推出手機圖書館 WAP網(wǎng)站,以滿足手機讀者用戶的需求。手機圖書館的推出大大便利了讀者,讀者足不出戶即可獲得圖書館的資源。如何為手機讀者開展個性化服務,將成為手機圖書館當前面臨的巨大挑戰(zhàn)。圖書館可嘗試在手機圖書館 WAP網(wǎng)站后臺部署讀者興趣挖掘模型,通過模型對手機讀者的訪問記錄及借閱情況進行挖掘,找出讀者感興趣的資源。一旦發(fā)現(xiàn)圖書館有其感興趣的資源,就可利用模型推送技術向手機讀者發(fā)送短信告知。由此可見,利用數(shù)據(jù)挖掘技術解決手機圖書館個性化服務具有可行性。

3.3 數(shù)據(jù)挖掘技術在“云圖書館”中應用

自 Google提出云計算框架以來,云計算得到了廣泛的應用。所謂“云圖書館”即“圖書館云”,這是建立在云計算模式下的一種服務,是整個云計算模式架構(gòu)中的一個功能層,是互聯(lián)網(wǎng)上的一朵云[15]。由此可見,云計算環(huán)境下,“云圖書館”本質(zhì)上是一種服務,來自五湖四海的圖書館終端共享“云圖書館”的基礎設施,共同構(gòu)成一個存在于互聯(lián)網(wǎng)中的大型數(shù)據(jù)庫?！霸茍D書館”應用數(shù)據(jù)挖掘技術,發(fā)現(xiàn)深層次的知識,使“云圖書館”服務更具人性化。

4 結(jié) 語

基于數(shù)據(jù)挖掘思想,通過對國內(nèi)外學者公開發(fā)表的有關圖書館數(shù)據(jù)挖掘應用方面的論文進行深層次分析,并對其未來發(fā)展方向進行探討,以期能夠反映其發(fā)展軌跡與趨勢,進而推進數(shù)據(jù)挖掘技術在圖書館的更廣泛應用。

[1]邵峰晶,于忠清.數(shù)據(jù)挖掘原理與算法[M].北京:中國水利電利出版社,2003:2.

[2]李菁菁,培基,亦瀟.數(shù)據(jù)挖掘在中國的現(xiàn)狀和發(fā)展研究[J].管理工程學報,2004(3):10—14.

[3]史艷梅.個性化服務中挖掘用戶興趣的 CMPS[J].現(xiàn)代圖書情報技術,2005(3):85—87.

[4]郭家義.個性化檢索系統(tǒng)中的數(shù)據(jù)挖掘技術分析[J].現(xiàn)代圖書情報技術,2003(8):93— 97.

[5]柳炳祥,鄧歡軍,高淑妍,等.基于數(shù)據(jù)挖掘的圖書館個性化服務系統(tǒng)[J].現(xiàn)代情報,2007(3):108—109.

[6]曹強.圖書館個性化信息服務模型的設計與實現(xiàn)[J].情報雜志,2007(4):80— 83.

[7]遲春佳,毛志勇.基于數(shù)據(jù)挖掘的高校圖書館圖書采購計劃輔助決策研究[J].現(xiàn)代情報,2007,29(7):108—110.

[8]劉淑瑞,秦文珍,張聰.基于數(shù)據(jù)挖掘技術的圖書館采購管理研究[J].重慶文理學院學報(自然科學版),2010,29(1):110—112.

[9]王伊蕾,李濤,王福生,等.一種基于庫存理論的圖書訂購策略[J].情報科學,2008,26(5):698—700.

[10]鄒凱,汪全莉.智能搜索引擎與數(shù)字圖書館個性化服務[J].情報科學,2004,22(7):874— 877.

[11]黎琳,趙英.Web內(nèi)容挖掘在數(shù)字圖書館中的應用[J].圖書館學研究,2006(2):19—21.

[12]張英,趙艷君.數(shù)字圖書館中多媒體數(shù)據(jù)挖掘的體系結(jié)構(gòu)和方法[J].數(shù)字圖書館技術論壇,2008(1):92—94.

[13]宋玉忠.Web抽取技術在數(shù)字圖書館中的應用[J].四川圖書館學報,2009,3(169):46— 49.

[14]楊亞華.基于知識管理與知識挖掘中的參考咨詢服務探討[J].科技情報開發(fā)與經(jīng)濟,2007,17(29):28—30.

[15]致齋主.云圖書館就是圖書館云[EB/OL].[2009-09-24].http://www.linhq.net/archives/48.