張素慧
摘 要:本文通過深入了解圖書館領(lǐng)域相關(guān)知識(shí)以及對數(shù)據(jù)挖掘技術(shù)的學(xué)習(xí)研究,詳細(xì)分析了圖書館管理應(yīng)用數(shù)據(jù)挖掘技術(shù)的方法及重要性。
關(guān)鍵詞:數(shù)據(jù)挖掘;圖書館管理;重要作用
隨著數(shù)據(jù)挖掘技術(shù)的不斷成熟,數(shù)據(jù)挖掘被應(yīng)用到很多領(lǐng)域,無論是營銷、財(cái)務(wù)、管理、制造業(yè)、通訊還是數(shù)據(jù)收集等方面,只要具有分析價(jià)值,并有分析需求的數(shù)據(jù)庫,就可以利用數(shù)據(jù)挖掘工具進(jìn)行有目的的挖掘分析,從少量數(shù)據(jù)庫中獲得先前不知但具有價(jià)值的信息,并利用這些信息對單位或企業(yè)的情況進(jìn)行反應(yīng),從而為進(jìn)行管理決策提供依據(jù)。
對圖書館而言,通過數(shù)據(jù)挖掘進(jìn)行圖書館管理是頗具意義的工作,利用數(shù)據(jù)挖掘技術(shù)可以幫助圖書館分析讀者群的需求趨勢,并預(yù)測未來需求的發(fā)展方向,更有效的完成圖書館管理的相關(guān)工作。
一.數(shù)據(jù)挖掘技術(shù)概述
1、數(shù)據(jù)挖掘的定義及含義
數(shù)據(jù)挖掘就是從大量的、不完全的、不確定的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過程。
數(shù)據(jù)挖掘是一門交叉學(xué)科,它把人們對數(shù)據(jù)的應(yīng)用從低層次的簡單查詢,提升到從數(shù)據(jù)中挖掘知識(shí),提供決策支持。在這種需求牽引下,匯聚了不同領(lǐng)域的研究者,尤其是數(shù)據(jù)庫技術(shù)、人工智能技術(shù)、數(shù)理統(tǒng)計(jì)、可視化技術(shù)、并行計(jì)算等方面的學(xué)者和工程技術(shù)人員,投身到數(shù)據(jù)挖掘這一新興的研究領(lǐng)域,形成新的技術(shù)熱點(diǎn)。
2、數(shù)據(jù)挖掘基本功能
數(shù)據(jù)挖掘任務(wù)一般可分成描述和預(yù)測兩類。描述性挖掘任務(wù),是刻畫數(shù)據(jù)庫中數(shù)據(jù)的一般特性;預(yù)測性任務(wù)則在當(dāng)前數(shù)據(jù)上進(jìn)行推斷,進(jìn)行預(yù)測。一般通過如下一些功能來實(shí)現(xiàn):
概念描述:就是對某類對象的內(nèi)涵進(jìn)行描述,并概括這類對象的有關(guān)特征。概念描述分為特征性描述和區(qū)別性描述,前者描述某類對象的共同特征,后者描述不同類對象之間的區(qū)別。生成一個(gè)類的特征性描述只涉及該類對象中所有對象的共性。生成區(qū)別性描述的方法很多,如決策樹方法、遺傳算法等。
關(guān)聯(lián)分析:主要用于發(fā)現(xiàn)不同事件之間的關(guān)聯(lián)性,即一個(gè)事件發(fā)生的同時(shí),另一個(gè)事件也經(jīng)常發(fā)生。關(guān)聯(lián)分析的重點(diǎn)在于快速發(fā)現(xiàn)那些有實(shí)用價(jià)值的關(guān)聯(lián)發(fā)生的事件,其主要依據(jù)是應(yīng)該符合一定的統(tǒng)計(jì)意義的相關(guān)事件發(fā)生的概率和條件概率。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng)。
分類分析:就是通過分析樣本數(shù)據(jù)庫中的數(shù)據(jù),為每個(gè)類別做出準(zhǔn)確的描述,或建立分析型或挖掘出分類規(guī)則,然后用這個(gè)分類規(guī)則對其它數(shù)據(jù)進(jìn)行分類。預(yù)測是使用歷史資料去推測估計(jì)未來的數(shù)值以及趨勢,根據(jù)樣本的已知特征估算某個(gè)連續(xù)類型的變量的取值的過程。
3、數(shù)據(jù)挖掘基本過程和主要步驟
在開始數(shù)據(jù)挖掘之前,首先最重要的就是了解數(shù)據(jù)和業(yè)務(wù)問題,明確要去度量或預(yù)測什么,缺少對業(yè)務(wù)的了解,就不可能明確要解決的問題,也就不能為數(shù)據(jù)挖掘準(zhǔn)備數(shù)據(jù),導(dǎo)致最終很難正確的解釋所得的結(jié)果。
數(shù)據(jù)的選擇:搜索所有與業(yè)務(wù)對象有關(guān)的內(nèi)部和外部數(shù)據(jù)信息,并從中選擇出適用于數(shù)據(jù)挖掘應(yīng)用的數(shù)據(jù)。
數(shù)據(jù)的預(yù)處理:研究數(shù)據(jù)的質(zhì)量,為進(jìn)一步的分析做準(zhǔn)備,并確定將要進(jìn)行的挖掘操作的類型。
數(shù)據(jù)的轉(zhuǎn)換:將數(shù)據(jù)轉(zhuǎn)換成一個(gè)分析模型,這個(gè)分析模型是針對挖掘算法建立的。建立一個(gè)真正適合挖掘算法的分析模型是數(shù)據(jù)挖掘成功的關(guān)鍵。
數(shù)據(jù)挖掘:對所得到的經(jīng)過轉(zhuǎn)換的數(shù)據(jù)進(jìn)行挖掘,除了完善從選擇合適的挖掘算法外,其余一切工作都能自動(dòng)地完成。
結(jié)果分析:解釋并評估結(jié)果。使用的分析方法一般應(yīng)作數(shù)據(jù)挖掘操作而定,會(huì)用到可視化技術(shù)。
二、數(shù)據(jù)挖掘技術(shù)在圖書館管理中的應(yīng)用
1、數(shù)據(jù)挖掘應(yīng)用于圖書館管理的優(yōu)勢
現(xiàn)在困擾圖書館管理的主要問題是:怎樣真正滿足讀者需求,怎樣有效收集讀者反饋信息?怎樣根據(jù)讀者需要提高管理效能?對于以上疑難問題,數(shù)據(jù)挖掘技術(shù)是一個(gè)行之有效的工具。
數(shù)據(jù)挖掘與傳統(tǒng)的數(shù)據(jù)分析(查詢、報(bào)表、聯(lián)機(jī)應(yīng)用分析)的本質(zhì)區(qū)別是,數(shù)據(jù)挖掘是在沒有明確假設(shè)的前提下去挖掘信息、發(fā)現(xiàn)規(guī)律,數(shù)據(jù)挖掘具有預(yù)測性、有效性和實(shí)用性三個(gè)特征。
預(yù)測性:通常數(shù)據(jù)庫系統(tǒng)可以高效地實(shí)現(xiàn)數(shù)據(jù)的錄入、查詢、統(tǒng)計(jì)等功能,但無法發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)系和規(guī)則,無法根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測未來的發(fā)展趨勢,缺乏挖掘隱藏知識(shí)的手段,數(shù)據(jù)挖掘技術(shù)不僅能對過去的數(shù)據(jù)進(jìn)行查詢和遍歷,而且能夠找出歷史數(shù)據(jù)之間的潛在聯(lián)系,更加全面系統(tǒng)分析讀者閱讀行為規(guī)律,并預(yù)測其未來的需求信息,從而促進(jìn)信息的傳遞。
有效性:數(shù)據(jù)挖掘不是為了替代傳統(tǒng)的統(tǒng)計(jì)分析技術(shù),相反,它是統(tǒng)計(jì)分析方法學(xué)的延伸和擴(kuò)展。大多數(shù)統(tǒng)計(jì)分析技術(shù)都基于完善的數(shù)學(xué)理論和高超的技巧,預(yù)測的準(zhǔn)確度還是令人滿意的,但對使用者要求很高。隨著計(jì)算機(jī)能力的不斷增強(qiáng),我們有可能利用計(jì)算機(jī)只通過相對簡單和固定的方法完成同樣的功能。比如,利用神經(jīng)元網(wǎng)絡(luò)和決策樹,在足夠多的數(shù)據(jù)和足夠強(qiáng)的計(jì)算能力下,幾乎不用人的關(guān)照,計(jì)算機(jī)就能實(shí)現(xiàn)許多有價(jià)值的功能。
實(shí)用性:現(xiàn)在數(shù)據(jù)挖掘在圖書館管理應(yīng)用中已經(jīng)可以馬上投入使用,因?yàn)閷@種技術(shù)進(jìn)行支持的三種基礎(chǔ)技術(shù)已經(jīng)發(fā)展成熟。這三大基礎(chǔ)技術(shù)是,海量數(shù)據(jù)搜集,強(qiáng)大的多處理器計(jì)算機(jī)和數(shù)據(jù)挖據(jù)算法。今天,這些成熟的技術(shù),加上高性能的關(guān)系數(shù)據(jù)庫引擎以及廣泛的數(shù)據(jù)集成,讓數(shù)據(jù)挖掘技術(shù)在當(dāng)前的數(shù)據(jù)倉庫環(huán)境中進(jìn)入了實(shí)用階
2、數(shù)據(jù)挖掘解決的典型問題
圖書館需要搜集和處理大量的數(shù)據(jù),對這些數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)其數(shù)據(jù)模式及特征,然后可能發(fā)現(xiàn)讀者群的興趣與需求,并且,根據(jù)新觀點(diǎn),讀者的需求會(huì)隨時(shí)間而變化。
數(shù)據(jù)挖掘可以分兩大類:預(yù)測性數(shù)據(jù)挖掘和描述性數(shù)據(jù)挖掘。
預(yù)測性數(shù)據(jù)挖掘是進(jìn)行數(shù)據(jù)分析,建立一個(gè)或一組數(shù)據(jù)模型,并且根據(jù)模型產(chǎn)生關(guān)于數(shù)據(jù)的預(yù)測,挖掘的信息越是出乎意料,就可能越有價(jià)值。
描述性數(shù)據(jù)挖掘是以概要的方式對數(shù)據(jù)信息進(jìn)行描述,提供數(shù)據(jù)的有意義的一般性質(zhì)。包括:異常檢測、聚集等多種數(shù)據(jù)挖掘方法。
預(yù)測類數(shù)據(jù)挖掘及描述類數(shù)據(jù)挖掘所能解決的典型管理問題包括:讀者群體劃分、文化背景分析以及讀者流失性分析、讀者需求及讀者滿意度評估等。
3、數(shù)據(jù)挖掘應(yīng)用于圖書館管理的領(lǐng)域
對讀者關(guān)系進(jìn)行管理:對于圖書館來說,讀者是至關(guān)重要的資源,應(yīng)當(dāng)高度重視對讀者關(guān)系的建立、維持和培育,實(shí)施讀者戰(zhàn)略,以建立長期穩(wěn)定的供需關(guān)系。因此,建立高效的圖書館管理系統(tǒng),可以使圖書館更好地了解讀者要求,評估需求價(jià)值,從而為讀者提供個(gè)性化優(yōu)質(zhì)服務(wù),提高讀者滿意度,建立信任感。
需求評估與管理決策:圖書館管理基于數(shù)據(jù)挖掘應(yīng)用的趨勢,在于建立需求評估模型和進(jìn)行管理決策??茖W(xué)全面的需求評估是建立在大量基礎(chǔ)數(shù)據(jù)的融合基礎(chǔ)之上的,隨著金融領(lǐng)域、企業(yè)、政府紛紛建立統(tǒng)一數(shù)據(jù)平臺(tái),基礎(chǔ)數(shù)據(jù)的融合將逐步實(shí)現(xiàn)。隨著數(shù)據(jù)大集中的逐步深入,我們的結(jié)構(gòu)化的數(shù)據(jù)和非結(jié)構(gòu)化的數(shù)據(jù),搭建起來的這一個(gè)統(tǒng)一的數(shù)據(jù)平臺(tái),為數(shù)據(jù)挖掘在讀者群需求評估中的應(yīng)用打下了一個(gè)堅(jiān)實(shí)的基礎(chǔ)。利用數(shù)據(jù)挖掘相關(guān)工具如神經(jīng)網(wǎng)絡(luò)算法和決策樹方法建立評價(jià)模型和決策模型,并可以根據(jù)不斷變化的外部數(shù)據(jù)對模型進(jìn)行動(dòng)態(tài)的修正。因此,數(shù)據(jù)挖掘技術(shù)可以支持閱讀需求評級朝著多元細(xì)化的方向發(fā)展。
參考文獻(xiàn):
[1]謝邦昌等.數(shù)據(jù)采掘入門及應(yīng)用[M].中國統(tǒng)計(jì)出版社,2001
[2]陳楠.基于數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)的決策支持系統(tǒng)[J].計(jì)算機(jī)時(shí)代,1998
[3]薛華成.管理信息系統(tǒng)[M].清華大學(xué)出版社,1998
[4]陳曉紅等著.信息系統(tǒng)教程[M].清華大學(xué)出版社,2003
[5]黃梯云等.管理信息系統(tǒng)[M].高等教育出版社,2000