范春玲
(黑龍江省圖書(shū)館 黑龍江 哈爾濱 150090)
計(jì)算機(jī)和互聯(lián)網(wǎng)的飛速發(fā)展和普及,給全世界帶來(lái)了巨大的信息化浪潮。信息量迅速、持續(xù)的增長(zhǎng)給人們帶來(lái)方便的同時(shí)也帶來(lái)了困惑和煩惱,海量的數(shù)據(jù)已遠(yuǎn)遠(yuǎn)超過(guò)人類(lèi)的處理和分析理解能力,同時(shí)信息真假的辨識(shí)、安全性的保證以及格式的統(tǒng)一問(wèn)題也是人們面臨的一個(gè)挑戰(zhàn)。于是,數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生,而數(shù)字圖書(shū)館作為信息管理和服務(wù)的主要機(jī)構(gòu),同樣也積累了大量的信息而且也要面對(duì)使用中的各種問(wèn)題,數(shù)據(jù)挖掘技術(shù)的應(yīng)用可以為數(shù)字圖書(shū)館的業(yè)務(wù)工作和管理工作提供可靠的決策依據(jù),也必將對(duì)圖書(shū)館其他方面的工作產(chǎn)生深遠(yuǎn)的影響。
數(shù)據(jù)挖掘是一門(mén)不斷快速發(fā)展的綜合性交叉學(xué)科,其興起于20世紀(jì)80年代末期。數(shù)據(jù)挖掘理論匯聚了數(shù)據(jù)庫(kù)、可視化、并行計(jì)算等方面的技術(shù),集統(tǒng)計(jì)學(xué)、人工智能、模式識(shí)別、計(jì)算機(jī)科學(xué)、機(jī)器學(xué)習(xí)等多門(mén)學(xué)科理論知識(shí)為一體。其在多個(gè)領(lǐng)域都有所應(yīng)用。
所謂數(shù)據(jù)挖掘是指從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過(guò)程。我們知道知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Databases,KDD)是一個(gè)能從大型的數(shù)據(jù)庫(kù)中自動(dòng)地和智能地抽取一些有用的、可信的、有效的和可以理解的模式的過(guò)程。而數(shù)據(jù)挖掘(Data Mining,DM)是KDD的一個(gè)處理過(guò)程,也是KDD的最重要環(huán)節(jié)。數(shù)據(jù)挖掘與傳統(tǒng)的數(shù)據(jù)分析(如查詢(xún)、報(bào)表、聯(lián)機(jī)應(yīng)用分析)的本質(zhì)區(qū)別是數(shù)據(jù)挖掘是在沒(méi)有明確假設(shè)的前提下去挖掘信息、發(fā)現(xiàn)知識(shí)。
數(shù)據(jù)挖掘任務(wù)分描述性數(shù)據(jù)挖掘和推斷性數(shù)據(jù)挖掘兩大類(lèi)。和統(tǒng)計(jì)學(xué)原理相似,描述性數(shù)據(jù)挖掘的任務(wù)是描述數(shù)據(jù)的一般特征,推斷性數(shù)據(jù)挖掘的任務(wù)試圖基于提供的數(shù)據(jù)做預(yù)測(cè)。目前基于數(shù)據(jù)挖掘功能所能發(fā)現(xiàn)的各種知識(shí)主要包括特征化描述、判別分析、關(guān)聯(lián)分析、數(shù)據(jù)分類(lèi)、預(yù)測(cè)、聚類(lèi)、孤立點(diǎn)分析、偏差分析等。通常,人們對(duì)他們所能發(fā)現(xiàn)的各種模式或者是需要從手頭數(shù)據(jù)來(lái)發(fā)現(xiàn)模式?jīng)]有一個(gè)清晰的思路,因此,必須要有一個(gè)通用的數(shù)據(jù)挖掘系統(tǒng)用來(lái)發(fā)現(xiàn)各種知識(shí)以及不同抽象層次的知識(shí),這也使得交互性成為數(shù)據(jù)挖掘系統(tǒng)的一個(gè)重要特征。
數(shù)據(jù)挖掘的步驟會(huì)隨應(yīng)用的領(lǐng)域不同而有所不同,每一種數(shù)據(jù)挖掘技術(shù)也都有各自的特性和使用步驟,所以針對(duì)不同問(wèn)題和需求所制定的數(shù)據(jù)挖掘過(guò)程也會(huì)存在各種差異。另外,數(shù)據(jù)的完整程度、專(zhuān)業(yè)人員支持的程度等都會(huì)對(duì)建立數(shù)據(jù)挖掘過(guò)程有所影響。這些因素造成了數(shù)據(jù)挖掘在各不同領(lǐng)域中的運(yùn)用、規(guī)劃,以及流程的差異性,即使同一產(chǎn)業(yè),也會(huì)因?yàn)榉治黾夹g(shù)和專(zhuān)業(yè)知識(shí)的涉入程度不同而有所不同,因此對(duì)于數(shù)據(jù)挖掘過(guò)程的系統(tǒng)化、標(biāo)準(zhǔn)化就顯得格外重要。因?yàn)檫@樣,不僅可以較容易地跨領(lǐng)域應(yīng)用,也可以結(jié)合不同的專(zhuān)業(yè)知識(shí),發(fā)揮數(shù)據(jù)挖掘的真正精神。通常數(shù)據(jù)挖掘完整的步驟如下:1.理解數(shù)據(jù)和數(shù)據(jù)的來(lái)源。2.獲取相關(guān)知識(shí)與技術(shù)。3.整合與檢查數(shù)據(jù)。4.去除錯(cuò)誤或不一致的數(shù)據(jù)。5.建立模型和假設(shè)。6.實(shí)際數(shù)據(jù)挖掘工作。7.測(cè)試和驗(yàn)證挖掘結(jié)果。8.解釋和應(yīng)用。由此可以看出,數(shù)據(jù)挖掘牽涉了大量的準(zhǔn)備工作與規(guī)劃工作,其中包括數(shù)據(jù)的凈化、數(shù)據(jù)格式轉(zhuǎn)換、變量整合,以及數(shù)據(jù)表的鏈接等。
在整個(gè)數(shù)據(jù)挖掘過(guò)程中,第6步是數(shù)據(jù)挖掘的實(shí)施階段,即根據(jù)目標(biāo)任務(wù)的數(shù)據(jù)類(lèi)型等選取相應(yīng)的數(shù)據(jù)挖掘算法并進(jìn)行挖掘。而數(shù)據(jù)挖掘的方法由人工智能和機(jī)器學(xué)習(xí)的方法發(fā)展而來(lái),人們結(jié)合傳統(tǒng)的統(tǒng)計(jì)分析法、模糊數(shù)學(xué)方法以及科學(xué)計(jì)算可視化技術(shù),以數(shù)據(jù)庫(kù)為研究對(duì)象,最終形成數(shù)據(jù)挖掘的方法。目前業(yè)界比較認(rèn)可以下6種方法:1.統(tǒng)計(jì)分析方法:利用統(tǒng)計(jì)學(xué)原理對(duì)數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行分析,能得到各種不同的統(tǒng)計(jì)信息和知識(shí),作為數(shù)據(jù)挖掘的一大類(lèi)方法,包括:常用統(tǒng)計(jì)、相關(guān)分析、回歸分析、差異分析、聚類(lèi)分析、判斷分析。2.歸納學(xué)習(xí)方法:從采用的技術(shù)角度上可分為兩大類(lèi),信息論方法和集合論方法。信息論方法是利用信息論的原理建立決策樹(shù)。3.模糊數(shù)學(xué)方法:模糊性是客觀存在的,而當(dāng)系統(tǒng)的復(fù)雜性越高,其精度的復(fù)雜性就會(huì)越高,其精確化能力便越低,這就意味著模糊性越強(qiáng)。利用模糊集合理論進(jìn)行數(shù)據(jù)挖掘的方法有:模糊模式識(shí)別、模糊聚類(lèi)、模糊分類(lèi)和模糊關(guān)聯(lián)規(guī)則等。4.仿生物技術(shù):典型的方法是神經(jīng)網(wǎng)絡(luò)方法和遺傳算法。5.公式發(fā)現(xiàn):在工程和科學(xué)數(shù)據(jù)庫(kù)中對(duì)若干數(shù)據(jù)項(xiàng)進(jìn)行一定的數(shù)學(xué)運(yùn)算的相應(yīng)的數(shù)學(xué)公式。6.可視化技術(shù):是一種圖形顯示技術(shù)。例如,把數(shù)據(jù)庫(kù)中多維數(shù)據(jù)變成多種圖形。
目前數(shù)據(jù)挖掘技術(shù)已經(jīng)形成相對(duì)成熟的技術(shù)體系,其在數(shù)據(jù)組織與分析、數(shù)據(jù)挖掘、知識(shí)發(fā)現(xiàn)等方面存在巨大潛力。因此數(shù)據(jù)挖掘除了可以為數(shù)字圖書(shū)館的建設(shè)提供關(guān)鍵技術(shù)外,還可以實(shí)現(xiàn)海量數(shù)據(jù)的存儲(chǔ)和利用,提取出表面上龐雜無(wú)序而有內(nèi)在聯(lián)系的信息供讀者使用。也可以指導(dǎo)圖書(shū)館的業(yè)務(wù)工作與管理決策,通過(guò)對(duì)用戶數(shù)據(jù)的分析,可以得到用戶的需求和興趣信息,從而滿足信息時(shí)代讀者的需要。
收集讀者有關(guān)的信息,建立讀者信息庫(kù)。讀者是數(shù)字圖書(shū)館的重要資源,一個(gè)信息完整的讀者信息庫(kù),能保證在充分挖掘的基礎(chǔ)上,了解讀者的普遍性需求與特殊性需求,從而開(kāi)展有針對(duì)性的個(gè)性化服務(wù)。通過(guò)對(duì)讀者訪問(wèn)日志記錄信息的挖掘,把握讀者興趣,有助于開(kāi)展網(wǎng)絡(luò)信息推送服務(wù)以及個(gè)人信息的定制服務(wù)。數(shù)據(jù)挖掘從全局出發(fā),以豐富、動(dòng)態(tài)的聯(lián)機(jī)查詢(xún)和分析來(lái)了解讀者的信息需求。通過(guò)在線提問(wèn)、調(diào)查表等方式,系統(tǒng)可以獲取關(guān)于讀者的用戶名、訪問(wèn)IP地址、職業(yè)、年齡、愛(ài)好等原始信息。然后,采取一定的挖掘規(guī)則(如關(guān)聯(lián)規(guī)則、聯(lián)機(jī)分析處理等),對(duì)這些數(shù)據(jù)進(jìn)行融合分析,其結(jié)果是為每個(gè)讀者建立一個(gè)信息需求模型。根據(jù)讀者需求,主動(dòng)跟蹤本館數(shù)字資源的變化,收集讀者所需信息。同時(shí)還可以利用智能推送技術(shù)將讀者所需信息推到用戶的計(jì)算機(jī)、電子信箱和手機(jī)上。
隨著科技的進(jìn)步,現(xiàn)在讀者可以在家通過(guò)網(wǎng)絡(luò)訪問(wèn)數(shù)字圖書(shū)館的資源,而網(wǎng)絡(luò)內(nèi)容挖掘是一個(gè)從文本、圖像、音頻、視頻、元數(shù)據(jù)等形式的網(wǎng)絡(luò)源信息中采用分類(lèi)、聚類(lèi)等形式的挖掘方法,發(fā)現(xiàn)有用信息,并將這些信息按滿足某種檢索方式的形式加以組織的過(guò)程。通過(guò)對(duì)網(wǎng)站內(nèi)容的挖掘,主要是對(duì)文本內(nèi)容的挖掘,可以有效地組織網(wǎng)絡(luò)資源。有的學(xué)者應(yīng)用數(shù)據(jù)和文本挖掘技術(shù)在網(wǎng)絡(luò)上進(jìn)行問(wèn)題跟蹤,從而獲得了以前未知的有用知識(shí),為信息內(nèi)容分析提供了極大的可能性。
數(shù)據(jù)挖掘技術(shù)可以使讀者在具有極度不確定性的海量數(shù)據(jù)中找出信息分布的規(guī)律,挖掘隱藏的信息并形成模型,從而發(fā)現(xiàn)具有規(guī)律性的知識(shí)。比較典型的例子是江蘇南通師范學(xué)院對(duì)重點(diǎn)學(xué)科“古代文學(xué)”中的楚辭研究專(zhuān)題知識(shí)庫(kù)開(kāi)發(fā),他們采用學(xué)科專(zhuān)家與學(xué)科館員、系統(tǒng)管理員相結(jié)合組成工作組的開(kāi)發(fā)模式來(lái)收集、挖掘與獲取楚辭研究專(zhuān)題信息資源,由于楚辭研究的信息資源浩如煙海,采用人工的方式查詢(xún)根本無(wú)法達(dá)到收全率和知識(shí)庫(kù)源信息廣度要求,因此采用自動(dòng)抓取和人工過(guò)濾相結(jié)合的方式,利用非結(jié)構(gòu)化的數(shù)據(jù)挖掘技術(shù)以采集和獲取全而廣的楚辭研究知識(shí)信息源。
作為能夠從海量信息中挖掘背后知識(shí)的新技術(shù),由于其在數(shù)據(jù)組織、分析和知識(shí)發(fā)現(xiàn)及信息深層挖掘等方面體現(xiàn)出的強(qiáng)大優(yōu)勢(shì),且隨著全國(guó)數(shù)字圖書(shū)館工程的推進(jìn),其在圖書(shū)館領(lǐng)域的應(yīng)用前景極為廣闊。而隨著硬件環(huán)境、挖掘算法的改進(jìn)、應(yīng)用的普及和經(jīng)驗(yàn)的積累,數(shù)據(jù)挖掘技術(shù)在數(shù)字圖書(shū)館的應(yīng)用必將取得長(zhǎng)足的發(fā)展與進(jìn)步。