田玉娥
數(shù)據(jù)挖掘在高校圖書館中的應(yīng)用
田玉娥
[摘 要]隨著高校招生人數(shù)的增多,圖書館購買了大批量圖書,圖書管理文獻系統(tǒng)蘊藏著大量的數(shù)據(jù),這些數(shù)據(jù)除了有讀者信息、圖書信息外,還有多媒體信息等。我們試圖從這些數(shù)據(jù)中分析出有價值的信息,利用數(shù)據(jù)挖掘?qū)@些數(shù)據(jù)進行分析,找到內(nèi)在的關(guān)系,為圖書館各方面的決策起到引導(dǎo)作用。簡要介紹數(shù)據(jù)挖掘的定義以及圖書館數(shù)據(jù)挖掘主要用到的算法,如關(guān)聯(lián)規(guī)則、決策樹、聚類分析等,總結(jié)數(shù)據(jù)挖掘得到的結(jié)果在圖書館館藏布局、圖書采集、WEB信息挖掘、個性化服務(wù)方面發(fā)揮的作用,并對數(shù)據(jù)挖掘在高校圖書館中的研究進行了展望。
[關(guān)鍵詞]高校圖書館;數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則;聚類分析;決策樹
[作 者] 田玉娥,山西工程職業(yè)技術(shù)學(xué)院。
圖書館是搜集、整理、收藏圖書資料以供讀者閱覽、參考的機構(gòu)。圖書館的業(yè)務(wù)工作是由很多相互聯(lián)系的工作環(huán)節(jié)組成的,一般包括文獻的收集、整理、典藏和服務(wù)四個部分。這幾個方面環(huán)環(huán)相扣,要想使讀者對所借閱的文獻滿意,服務(wù)到位,就要了解讀者對文獻類型的需求,了解讀者的需求。為此,我們可以采取一些方法,比如問卷調(diào)查、座談、網(wǎng)絡(luò)論壇交流等形式,但這些都是顯性需求、表面需求,通過簡單的統(tǒng)計即可完成,要想了解更深層次的隱形需求就比較復(fù)雜了。怎樣才能更好地了解這些文獻之間的關(guān)系,讓讀者十分滿意,并且讓圖書館的紙質(zhì)圖書和電子資源得到最大效率的充分利用,恐怕要借助數(shù)據(jù)挖掘這項技術(shù)了。
數(shù)據(jù)挖掘就是面對海量數(shù)據(jù)應(yīng)運而生的一種數(shù)據(jù)處理技術(shù),通過數(shù)據(jù)挖掘的一些方法能把這些數(shù)據(jù)中隱形的關(guān)聯(lián)的數(shù)據(jù)挖掘出來,便于圖書館工作人員更好地為讀者服務(wù)。在數(shù)據(jù)挖掘中最著名的相關(guān)聯(lián)系的例子是“啤酒與尿布”的例子,即看起來風(fēng)馬牛不相及的物體卻通過數(shù)據(jù)挖掘的方法找到了內(nèi)在的聯(lián)系——購買尿布的同時也購買了啤酒。圖書館想要充分利用數(shù)據(jù)挖掘,首先就要了解什么是數(shù)據(jù)挖掘,現(xiàn)階段在圖書館應(yīng)用方面涉及哪些數(shù)據(jù)挖掘的方法,以及取得了哪些成效。
數(shù)據(jù)挖掘是從大量數(shù)據(jù)中獲取有效的、新穎的、潛在有用的、最終可理解的知識的過程[1]。但這些知識并非是單一的,它可以以多種形式出現(xiàn),如數(shù)字、文本、圖形、結(jié)構(gòu)化語言、網(wǎng)頁等,但最終目的只有一個,那就是把海量數(shù)據(jù)轉(zhuǎn)化成易于理解的模式讓大家接受與認(rèn)可。海量數(shù)據(jù)的存在形式多樣,圖書館內(nèi)借閱的自動化系統(tǒng)數(shù)據(jù)庫中存儲了大量的讀者信息和館藏圖書信息,除此之外還有一些隱藏著的網(wǎng)絡(luò)信息,如用戶的提問、動態(tài)生成的結(jié)果[2],一些音頻、圖像等多媒體信息。數(shù)據(jù)挖掘分?jǐn)?shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘、結(jié)果表達和解釋三個主要階段來完成。
隨著科學(xué)技術(shù)的發(fā)展,數(shù)據(jù)挖掘技術(shù)也已不斷引進圖書館的發(fā)展領(lǐng)域內(nèi),如Scott Nicholson研究圖書館書目挖掘模式就是根據(jù)讀者的借閱信息和借閱圖書的種類挖掘出來的。圖書館數(shù)據(jù)挖掘理論模型被May Chau發(fā)現(xiàn)并研究出來,利用這種模型,可以研究出圖書館的挖掘系統(tǒng),能幫助讀者快速查找信息[3]。近年來許多學(xué)者在圖書館挖掘模型中投入了大量的精力,但迄今為止沒有明顯的成就。
盡管數(shù)據(jù)挖掘的算法有很多,但是在圖書館數(shù)據(jù)挖掘這一塊應(yīng)用較多的是關(guān)聯(lián)規(guī)則、聚類分析、決策樹算法。在數(shù)據(jù)挖掘過程中,有時單獨使用某種算法,有時是幾種算法交叉使用,或互相印證或為求某個數(shù)值。我們主要就這幾個算法進行比較詳細(xì)的說明。
(一)關(guān)聯(lián)規(guī)則
所謂關(guān)聯(lián),反映的是一個事件和其他事件之間依賴或關(guān)聯(lián)的知識。這種關(guān)聯(lián)是建立在數(shù)據(jù)庫中的一些數(shù)據(jù)項中的關(guān)系,這種關(guān)聯(lián)可以是簡簡單單的關(guān)聯(lián),也可以是有前因后果的關(guān)聯(lián),或者是時間序列分析的關(guān)聯(lián)。通過各種關(guān)聯(lián),找到它們之間隱藏的兩個或多個變量取值之間的規(guī)律性,這就是關(guān)聯(lián)規(guī)則。這種關(guān)聯(lián)需要通過一些參數(shù)“支持度”“信任度”來衡量它們之間的依賴生存關(guān)系,關(guān)聯(lián)規(guī)則就是支持度和信任度分別滿足用戶給定閾值的規(guī)則。
關(guān)聯(lián)規(guī)則挖掘算法分連接和剪枝兩個步驟來完成的,其中比較經(jīng)典的算法是Apriori算法。
Apriori算法是先在數(shù)據(jù)庫中找出支持度大于或等于用戶設(shè)定的閥值的所有的頻繁項集,再利用頻繁項集構(gòu)造出滿足用戶最小信任度的規(guī)則。在找所有頻繁項集的過程中,會有非頻繁項集的候選集產(chǎn)生,需多次掃描數(shù)據(jù)庫將它們找出來,再將不符合要求的給刪除掉,由于需要往返多次掃描數(shù)據(jù)庫,所以這是Apriori算法的一大缺點。
(二)聚類分析
將物理或抽象對象的結(jié)合人為地依據(jù)一定的規(guī)則分組成不同的類的過程就是聚類分析。因為依據(jù)的規(guī)則不同,生成的簇的對象的特點就比較明顯,同簇相似性大,異簇相異性大,相似度極低。
同其他算法一樣,也有其算法原理,原理如下:
第一步:分初始類,此時的類可能是以前的類,也可能是新類,需要對樣本逐個掃描,根據(jù)其與已掃描過的樣本的距離分類;
第二步,依據(jù)類間距離對第一步中的類進行合并,達到一定的標(biāo)準(zhǔn),停止合并。
計算兩個樣本間的相異度的度量標(biāo)準(zhǔn)即距離的衡量是用特征空間中的距離作為標(biāo)準(zhǔn)的,K-means算法是典型的基于距離的聚類算法,聚類算法的終極目標(biāo)是得到緊湊且獨立的簇,把距離作為相似性的評價指標(biāo)。
聚類分析算法也有它的缺點,因為依據(jù)的規(guī)則不同,結(jié)果也有些許的差別。
(三)決策樹算法
決策樹算法是一種非連續(xù)的、逼近離散函數(shù)值的方法。也同其他算法一樣,先要對數(shù)據(jù)進行預(yù)處理,根據(jù)歸納算法生成決策樹和可讀的規(guī)則,再利用決策對新生成的數(shù)據(jù)進行研究。
決策樹算法的目的是生成一顆決策樹,建立樹的分支需要通過一個測試函數(shù)值來生成,這個測試函數(shù)是靠實例集生成的,在每個分支下依據(jù)同樣的規(guī)則建立下層結(jié)點和分支,同Apriori算法一樣也需要對決策樹進行剪枝,把決策樹轉(zhuǎn)化為規(guī)則集,有了規(guī)則集就可以分類新實例。
C4.5是決策樹的經(jīng)典算法,它既可以用來解決分類問題,也可以用來解決回歸問題,而且對于預(yù)測變量的數(shù)據(jù)處理如空值處理、派生規(guī)則等許多方面做了比較大的改進。
高校圖書館的讀者群比較特殊,老師們作為讀者比較固定,但學(xué)生作為讀者的生命周期就比較短[4],三年或四年一換,這就需要不斷地對數(shù)據(jù)源進行更新,挖掘的數(shù)據(jù)源的跨度要大,隨時掌握讀者群的變化。
數(shù)據(jù)挖掘應(yīng)用在圖書館,主要集中在這幾個方面:
(一)館藏布局和圖書推薦方面
通過挖掘圖書館管理系統(tǒng)和多媒體信息可以發(fā)現(xiàn):在五大類圖書分類之間有很強的關(guān)聯(lián)性,對于這五大類圖書可以就近擺放或放在熱門書籍附近;圖書種類之間存在關(guān)聯(lián),這樣可以在圖書上架時進行考慮,抽出部分圖書復(fù)本把關(guān)聯(lián)書放置在一起或周圍;專業(yè)和圖書種類之間的關(guān)聯(lián),圖書種類不只是專業(yè)書籍,還有是文學(xué)、語言類圖書之間的關(guān)聯(lián),這樣能針對不同專業(yè)的讀者給予合理的較快的引導(dǎo),較大地提高了圖書的使用率,同時也節(jié)省了讀者寶貴的時間,使其借到合乎自己要求的圖書;學(xué)科之間有關(guān)聯(lián),比如數(shù)學(xué)和計算機學(xué)科就有著很深的淵源,計算機利用數(shù)學(xué)來抽象或思考,數(shù)學(xué)利用計算機來提高工作效率,這樣在排架時就可以有所側(cè)重。
(二)圖書采集方面
過去的圖書采集比較隨意,將書目發(fā)到各系部由各專業(yè)老師結(jié)合本專業(yè)特色、課程與自身發(fā)展選擇圖書,或通過收集熱門圖書進行采集?,F(xiàn)在通過數(shù)據(jù)挖掘的算法,發(fā)現(xiàn)讀者與圖書之間的聯(lián)系、圖書之間的聯(lián)系等,就可以在采集圖書的過程中進行參考,這樣在采購圖書時便有了側(cè)重點,同時也發(fā)現(xiàn)了少有人問津的圖書可以不采購,而對借閱率高的圖書重點采購,并考慮是否要多采購復(fù)本,以使經(jīng)費得到最好最合理的應(yīng)用,避免盲目浪費。
(三)Web信息
數(shù)據(jù)挖掘要從方方面面進行挖掘,對于Web信息來說,Web的文檔層次結(jié)構(gòu)、Web的組成元素圖片、文字等數(shù)據(jù)中的某些信息是有價值的,Web數(shù)據(jù)挖掘是通過挖掘這些有價值的信息,來發(fā)現(xiàn)其中的某些隱形的未被發(fā)現(xiàn)的模式來提高Web技術(shù)的利用效率[5]。Web數(shù)據(jù)挖掘不管是從內(nèi)容、結(jié)構(gòu)還是使用上進行挖掘,其目的都是為了發(fā)現(xiàn)或預(yù)測讀者隱藏在數(shù)據(jù)中的習(xí)慣行為,以便對網(wǎng)站的結(jié)構(gòu)或內(nèi)容修改進行指導(dǎo),發(fā)現(xiàn)有價值的頁面,發(fā)現(xiàn)讀者隱藏的關(guān)聯(lián)規(guī)則,為讀者個性化服務(wù)提供依據(jù),來提高數(shù)字資源或紙質(zhì)圖書、期刊等的利用率。
(四)個性化服務(wù)
數(shù)據(jù)挖掘不單可以挖掘圖書之間的關(guān)聯(lián),還可以針對某一特定讀者群,例如某一專業(yè)或某一個系部,挖掘讀者信息和書目信息,或數(shù)字資源等之間隱秘的關(guān)系,預(yù)測他們的信息要求,發(fā)現(xiàn)他們借閱圖書的特點。掌握了這些,就能夠針對讀者的特點,高效率高質(zhì)量地為讀者提供個性化服務(wù),同時也節(jié)省了讀者的時間,給出合理的參考性的指導(dǎo),讓圖書館的服務(wù)更上一層樓。
數(shù)據(jù)挖掘在國內(nèi)圖書館的挖掘現(xiàn)在還處在初步階段,挖掘方法比較單一,研究只停在理論水平上,對圖書館的實際需求分析和研究的層次較淺,在方法原理和應(yīng)用上沒有突破性的發(fā)展,沒有好的應(yīng)用實例在圖書館間廣泛使用。筆者相信在不久的將來,隨著科學(xué)技術(shù)的突飛猛進,數(shù)據(jù)庫技術(shù)會越來越成熟,研究出的數(shù)據(jù)挖掘算法會更全面,開發(fā)出的圖書數(shù)據(jù)挖掘模型會更廣泛地應(yīng)用到各大圖書館中,那時圖書館
服務(wù)質(zhì)量會更上一層樓,圖書館將發(fā)揮它最大的效用。
【參考文獻】
[1]田玉娥.數(shù)據(jù)挖掘在圖書管理方面的應(yīng)用[J].電腦開發(fā)與應(yīng)用,2012(4):79-81.
[2]宜建軍.基于Web數(shù)據(jù)挖掘的圖書館UIS系統(tǒng)設(shè)計與實現(xiàn)[J].現(xiàn)代情報,2006(3):146-149.
[3]奉國和,奉永桃.近十年國內(nèi)圖書館數(shù)據(jù)挖掘研究文獻計量分析[J].圖書館論壇,2011(1):46-49.
[4]周倩.數(shù)據(jù)挖掘在圖書館用戶資源管理中的應(yīng)用研究[J].現(xiàn)代情報,2006(6):87-90.
[5]周鋒.Web挖掘技術(shù)在遠(yuǎn)程網(wǎng)絡(luò)教育中的應(yīng)用[J].常州工學(xué)院學(xué)報,2010(Z1):64-66,86.