江康
近些年來(lái),我國(guó)居民隨著生活水平的逐年提高,已經(jīng)能夠較好地接受“數(shù)字化生存”這一生活方式了,由于數(shù)字圖書(shū)館具有信息更新速度快、信息存儲(chǔ)量大、不受時(shí)間和空間的限制以及占用空間小等有特點(diǎn),所以它也越來(lái)越受到人們的關(guān)注。雖然數(shù)字圖書(shū)館確實(shí)為人們帶來(lái)了非常多的方便和便捷,但是由于其包含的信息資源非常龐大并且形式多樣,所以人們?cè)谝欢ǔ潭壬弦彩艿搅烁蓴_。導(dǎo)向性是信息資源的基本屬性之一,同一個(gè)信息在不同的使用用戶(hù)中表現(xiàn)出的價(jià)值肯定是有差異的,某一項(xiàng)信息無(wú)法滿(mǎn)足所有的需求,而某個(gè)單一的用戶(hù)肯定也并不需要所有的信息資源。怎樣處理這一問(wèn)題呢? 數(shù)字圖書(shū)館的個(gè)性化服務(wù)就能很好地解決這一問(wèn)題,數(shù)字圖書(shū)館的個(gè)性化服務(wù)的概念就是參照用戶(hù)所使用信息的習(xí)慣、偏好、行為以及特殊的需求等,經(jīng)過(guò)分析從而真正地為用戶(hù)提供滿(mǎn)足其要求的內(nèi)容以及系統(tǒng)功能的一種服務(wù)。首先這種服務(wù)必須是能滿(mǎn)足數(shù)字圖書(shū)館單一用戶(hù)信息需求的服務(wù),也就是在用戶(hù)明確地提出了信息需求后,通過(guò)對(duì)用戶(hù)以往的使用習(xí)慣以及使用行為等內(nèi)容進(jìn)行分析,從而為其提供服務(wù);其次,這種服務(wù)還是一類(lèi)能夠充分地培養(yǎng)用戶(hù)的個(gè)性,發(fā)展用戶(hù)需求的服務(wù),而這對(duì)于整個(gè)社會(huì)朝著多樣性的發(fā)展也是有幫助的。數(shù)據(jù)挖掘技術(shù)是一種新興的計(jì)算技術(shù),其在商業(yè)零售、科學(xué)發(fā)現(xiàn),以及醫(yī)療等眾多領(lǐng)域都得到了應(yīng)用,近些年來(lái),它也逐漸應(yīng)用到了數(shù)字圖書(shū)館領(lǐng)域中。
一、數(shù)據(jù)挖掘及相關(guān)技術(shù)
數(shù)據(jù)挖掘是指從從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中抽取有價(jià)值的信息,幫助決策者和管理者尋找數(shù)據(jù)間潛在的關(guān)聯(lián),發(fā)現(xiàn)隱含的、對(duì)決策有潛在價(jià)值的關(guān)系和模式,用于預(yù)測(cè)未來(lái)趨勢(shì)及為決策行為。數(shù)據(jù)挖掘是一門(mén)交叉學(xué)科也是一門(mén)邊緣學(xué)科。它與數(shù)據(jù)庫(kù)技術(shù)、模式識(shí)別、統(tǒng)計(jì)學(xué)、信息檢索、人工智能、機(jī)器學(xué)習(xí)等有密切關(guān)系。
數(shù)據(jù)挖掘有分析方法有:分類(lèi)、估計(jì)、預(yù)測(cè)、關(guān)聯(lián)規(guī)則、聚類(lèi)、可視化、復(fù)雜數(shù)據(jù)類(lèi)型挖掘、音頻、視頻、圖形圖像等)。這些分析方法又可以分為直接數(shù)據(jù)挖掘和間接數(shù)據(jù)挖掘兩種。直接數(shù)據(jù)額挖掘就是利用可用的數(shù)據(jù)建立一個(gè)模型,這個(gè)模型對(duì)剩余的數(shù)據(jù),對(duì)一個(gè)特定的變量進(jìn)行描述。間接數(shù)據(jù)挖掘就是目標(biāo)中沒(méi)有選出某一具體的變量,用模型進(jìn)行描述;而是在所有的變量中建立起某種關(guān)系。
二、數(shù)據(jù)挖掘在數(shù)字圖書(shū)館中的應(yīng)用
1、個(gè)性化服務(wù)。在數(shù)字圖書(shū)館的整個(gè)系統(tǒng)中,其個(gè)性化的服務(wù)都是很重要的環(huán)節(jié),網(wǎng)絡(luò)已經(jīng)越來(lái)越智能化了,那么信息服務(wù)也會(huì)隨之變得智能化,不再是傳統(tǒng)的被動(dòng)化的服務(wù)方式,而是主動(dòng)化的服務(wù)方式。一般情況下,我們將數(shù)字圖書(shū)館的個(gè)性化服務(wù)概括為兩個(gè)層次,第一個(gè)層次是根據(jù)用戶(hù)的自身需要對(duì)信息進(jìn)行定制,舉例來(lái)說(shuō),慧聰國(guó)際系列應(yīng)用軟件中的 I get 和 My info 這兩個(gè)個(gè)性化服務(wù)軟件,都是屬于這個(gè)層次的,主要包括了重要事件提示、數(shù)字圖書(shū)館站內(nèi)搜索以及網(wǎng)絡(luò)搜索等內(nèi)容。而另一個(gè)層次就是充分地分析用戶(hù)的興趣模式,主動(dòng)地向用戶(hù)提供服務(wù),使數(shù)字圖書(shū)館更加的智能化和主動(dòng)化。
2、提高信息獲取速度。數(shù)字圖書(shū)館中的信息量是龐大的,在堆積如山的數(shù)據(jù)中包含著許多待提取的有用知識(shí)。對(duì)于用戶(hù)來(lái)說(shuō),他關(guān)心自己的需要是不是能夠被滿(mǎn)足要?jiǎng)儆陉P(guān)心數(shù)字圖書(shū)館中的信息量。因此,要為用戶(hù)提供更快、更有效的服務(wù),就必須有一套很好的搜索機(jī)制。數(shù)據(jù)挖掘技術(shù)為數(shù)字化圖書(shū)館提供了先進(jìn)的信息檢索工具,在數(shù)字圖書(shū)館的檢索中采用數(shù)據(jù)挖掘的相關(guān)理論和方法,設(shè)計(jì)的系統(tǒng)將有更大的智能性。數(shù)字圖書(shū)館可運(yùn)用興趣模式算法判斷并爭(zhēng)取潛在用戶(hù),在服務(wù)過(guò)程中,還可利用可視化技術(shù)幫助用戶(hù)進(jìn)行在線實(shí)時(shí)信息分析。
為保證用戶(hù)在盡可能短的響應(yīng)時(shí)間內(nèi)獲取所需信息,要搜集用戶(hù)每次閱讀的專(zhuān)題集合(瀏覽模式)作為一個(gè)事實(shí),記錄所有用戶(hù)每一次的瀏覽過(guò)程構(gòu)成事務(wù)庫(kù),再對(duì)事務(wù)庫(kù)進(jìn)行如下操作:①利用關(guān)聯(lián)規(guī)則采掘算法找到訪問(wèn)頻率超過(guò)給定閾值的專(zhuān)題(項(xiàng)目)集,進(jìn)而用分類(lèi)算法把客戶(hù)的瀏覽模式與頻繁項(xiàng)目集進(jìn)行相似匹配,將具有相似瀏覽模式的客戶(hù)組織到一個(gè)服務(wù)器上,從而減少服務(wù)器緩存和傳輸頁(yè)面的數(shù)量;②找到事務(wù)庫(kù)中某頻率訪問(wèn)的專(zhuān)題集,利用關(guān)聯(lián)分析得到專(zhuān)題之間的關(guān)聯(lián)規(guī)則,存入服務(wù)器的知識(shí)庫(kù),當(dāng)用戶(hù)瀏覽某頁(yè)面時(shí),網(wǎng)絡(luò)代理根據(jù)規(guī)則預(yù)先連接其關(guān)聯(lián)頁(yè)面,從而提高響應(yīng)速度;③也可利用Web挖掘得到用戶(hù)訪問(wèn)序列模式,根據(jù)預(yù)測(cè),預(yù)先傳播用戶(hù)可能閱讀的頁(yè)面。
3、拓展了服務(wù)形式,提升了服務(wù)質(zhì)量。數(shù)字圖書(shū)館在現(xiàn)代信息技術(shù)的幫助下,它的意義已經(jīng)不僅僅是服務(wù)于媒體和轉(zhuǎn)換時(shí)空了,更重要的是它在數(shù)據(jù)挖掘技術(shù)的幫助下來(lái)提升服務(wù)水平和拓展服務(wù)形式。(1)信息檢索服務(wù)。數(shù)字圖書(shū)館提供的一個(gè)很重要的功能就是信息檢索,它也是衡量數(shù)字圖書(shū)館服務(wù)質(zhì)量的重要的參考依據(jù)。(2)查新服務(wù)與定題服務(wù)。這是兩類(lèi)針對(duì)科研的信息服務(wù),傳統(tǒng)的服務(wù)方式是查詢(xún)光盤(pán)數(shù)據(jù)庫(kù)或是文獻(xiàn)數(shù)據(jù)庫(kù),但是現(xiàn)代社會(huì)已經(jīng)是網(wǎng)絡(luò)時(shí)代了,外部網(wǎng)絡(luò)這一信息發(fā)布平臺(tái)信息發(fā)布和更新的速度極快,所以為了保證服務(wù)結(jié)果的真實(shí)性和可靠性,我們就更應(yīng)該重視網(wǎng)絡(luò)平臺(tái)了。
數(shù)字圖書(shū)館的個(gè)性化服務(wù)改變了傳統(tǒng)的被動(dòng)化的運(yùn)作方式,開(kāi)創(chuàng)了“用戶(hù)需要什么,我就提供什么”的主動(dòng)化的操作模式,而這種個(gè)性化的服務(wù)模式也必將成為數(shù)字圖書(shū)館技術(shù)發(fā)展的主要趨勢(shì)。在我國(guó)網(wǎng)絡(luò)用戶(hù)群體數(shù)量大幅度增長(zhǎng)的今天,只有提供最具針對(duì)性并且個(gè)性化的信息服務(wù),用戶(hù)的需求才能得到滿(mǎn)足。數(shù)據(jù)挖掘技術(shù)在龐大信息資源中仍能提供極具智能化的個(gè)性服務(wù),所以其為數(shù)字圖書(shū)館的建設(shè)工作中提供了十分關(guān)鍵的支持和保障。然而數(shù)據(jù)挖掘技術(shù)屬于一種新興的技術(shù),其還是存在著一些問(wèn)題的,如數(shù)據(jù)的可視化、數(shù)據(jù)挖掘語(yǔ)言的標(biāo)準(zhǔn)化,以及多層次、多種類(lèi)知識(shí)的高效挖掘方法等內(nèi)容都是需要我們不斷地探索和研究,未來(lái)的數(shù)據(jù)挖掘技術(shù)一定會(huì)對(duì)數(shù)字圖書(shū)館的建設(shè)工作產(chǎn)生十分關(guān)鍵的積極影響。