趙志遠(yuǎn) 孫劍華 汪方正
摘要:隨著計(jì)算機(jī)技術(shù)的不斷發(fā)展,當(dāng)今社會(huì)已經(jīng)逐漸進(jìn)入了大數(shù)據(jù)時(shí)代,在大數(shù)據(jù)時(shí)代中,數(shù)據(jù)挖掘技術(shù)也在各個(gè)領(lǐng)域使人們的生活更加方便。數(shù)據(jù)挖掘技術(shù)是基于大數(shù)據(jù)時(shí)代下的一種新型數(shù)據(jù)分析類技術(shù),該技術(shù)可以針對(duì)不同的用戶提供數(shù)據(jù)分析得出的個(gè)性化服務(wù),目前這項(xiàng)技術(shù)已經(jīng)被應(yīng)用在了許多領(lǐng)域,文章分析了其在網(wǎng)購(gòu)領(lǐng)域以及許多對(duì)用戶需求有要求的軟件之中得到的應(yīng)用。
關(guān)鍵詞:數(shù)字圖書館;數(shù)據(jù)挖掘技術(shù);大數(shù)據(jù);個(gè)性化服務(wù)
1 數(shù)據(jù)挖掘技術(shù)概念簡(jiǎn)述
數(shù)據(jù)挖掘技術(shù)是大數(shù)據(jù)時(shí)代下的重要數(shù)據(jù)分析技術(shù)之一,又稱為數(shù)據(jù)處理技術(shù),數(shù)據(jù)挖掘技術(shù)是從數(shù)據(jù)本身來(lái)考慮,通常數(shù)據(jù)挖掘需要有數(shù)據(jù)清理、數(shù)據(jù)變換、數(shù)據(jù)挖掘?qū)嵤┻^(guò)程、模式評(píng)估和知識(shí)表示等8個(gè)步驟。數(shù)據(jù)挖掘的具體操作方法有8種,分別為:神經(jīng)網(wǎng)絡(luò)、遺傳算法、決策樹算法、粗集算法、覆蓋正例排斥反例方法、統(tǒng)計(jì)分析法、模糊集方法以及挖掘?qū)ο蟆R话銛?shù)據(jù)挖掘技術(shù)在應(yīng)用過(guò)程中的挖掘?qū)ο蠖际歉鶕?jù)信息存儲(chǔ)格式,用于挖掘的對(duì)象有關(guān)系數(shù)據(jù)庫(kù)、面向?qū)ο髷?shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)、文本數(shù)據(jù)源、多媒體數(shù)據(jù)庫(kù)、空間數(shù)據(jù)庫(kù)、時(shí)態(tài)數(shù)據(jù)庫(kù)、異質(zhì)數(shù)據(jù)庫(kù)以及互聯(lián)網(wǎng)等。
數(shù)據(jù)挖掘技術(shù)簡(jiǎn)單來(lái)講就是在數(shù)據(jù)庫(kù)中發(fā)現(xiàn)線索或者知識(shí)、進(jìn)而對(duì)這些線索知識(shí)進(jìn)行分析。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過(guò)算法搜索隱藏于其中信息的過(guò)程。數(shù)據(jù)挖掘通常與計(jì)算機(jī)科學(xué)有關(guān),并通過(guò)統(tǒng)計(jì)、在線分析處理、情報(bào)檢索、機(jī)器學(xué)習(xí)、專家系統(tǒng)(依靠過(guò)去的經(jīng)驗(yàn)法則)和模式識(shí)別等諸多方法來(lái)實(shí)現(xiàn)上述目標(biāo),而數(shù)據(jù)挖掘技術(shù)的研究目的就是出于人們的簡(jiǎn)單需求,通過(guò)用戶使用各種軟件的需求量以及定向性來(lái)進(jìn)行數(shù)據(jù)處理以及數(shù)據(jù)挖掘工作,進(jìn)而更加方便的挖掘用戶的心理及用戶的需求信息,以便于進(jìn)一步為用戶提供定向性個(gè)性化的服務(wù)[1]。目前,數(shù)據(jù)挖掘技術(shù)已經(jīng)被廣泛地應(yīng)用到人們的生活之中,在零售業(yè)以及網(wǎng)購(gòu)平臺(tái)中的有效應(yīng)用也是數(shù)據(jù)挖掘技術(shù)的一個(gè)成功案例,因此,在研究數(shù)據(jù)挖掘技術(shù)在高校數(shù)字圖書館中的應(yīng)用時(shí),也可以對(duì)該技術(shù)的某些其他領(lǐng)域成功案例進(jìn)行借鑒分析,進(jìn)一步提高數(shù)據(jù)挖掘技術(shù)在數(shù)字圖書館技術(shù)中的有效應(yīng)用。
2 數(shù)字圖書館以及其個(gè)性化服務(wù)中的大數(shù)據(jù)技術(shù)概況
數(shù)字圖書館是在新時(shí)期計(jì)算機(jī)技術(shù)的硬性下誕生的一種數(shù)字處理的網(wǎng)上圖書館。這種圖書館的形式與傳統(tǒng)的實(shí)體圖書館形式不同,可以更方便的使讀者得到想找的信息,也就是說(shuō)是一種沒(méi)有圍墻的圖書館。這種虛擬的、數(shù)據(jù)的圖書館形式在目前的許多高校中得到了廣泛的應(yīng)用。
2.1 數(shù)字圖書館
數(shù)字圖書館是一門全新的科學(xué)技術(shù),也是一項(xiàng)全新的社會(huì)事業(yè)。簡(jiǎn)而言之,數(shù)字圖書館是一種擁有多種媒體內(nèi)容的數(shù)字化信息資源,能夠?yàn)橛脩籼峁┓奖?、快捷、高水平的信息化服?wù)機(jī)制[2]。
數(shù)字圖書館不是圖書館實(shí)體:它對(duì)應(yīng)于各種公共信息管理與傳播的現(xiàn)實(shí)社會(huì)活動(dòng),表現(xiàn)為種種新型信息資源組織和信息傳播服務(wù)。它借鑒圖書館的資源組織模式、借助計(jì)算機(jī)網(wǎng)絡(luò)通信等高新技術(shù),以普遍存取人類知識(shí)為目標(biāo),創(chuàng)造性地運(yùn)用知識(shí)分類和精準(zhǔn)檢索手段,有效地進(jìn)行信息整序,使人們獲取信息消費(fèi)不受空間限制,很大程度上也不受時(shí)間限制。另外,在高校數(shù)字圖書館之中也加入了許多個(gè)性化服務(wù),這些個(gè)性化服務(wù)本身就利用了數(shù)據(jù)挖掘技術(shù)以及大數(shù)據(jù)技術(shù)的理念,這些理念的加入也使得數(shù)字圖書館的便利程度加大,在很大程度上解決了學(xué)生的讀書、找書等問(wèn)題。
2.2 個(gè)性化推薦服務(wù)
在一個(gè)高校之中,圖書館是重要的學(xué)校建筑物之一,因?yàn)樵S多學(xué)生為了學(xué)習(xí)、復(fù)習(xí)或者提高個(gè)人修養(yǎng)都要去圖書館進(jìn)行讀書或查找資料。然而數(shù)字圖書館的形式在豐富了學(xué)生的讀書范圍同時(shí),也方便了學(xué)生查找文獻(xiàn)。在數(shù)字圖書館中有一項(xiàng)個(gè)性化服務(wù)為個(gè)性化推薦,個(gè)性化推薦的主要目的是為學(xué)生提供精準(zhǔn)的書目推薦,這也是大數(shù)據(jù)技術(shù)中的重要項(xiàng)目之一。
許多學(xué)生在進(jìn)行學(xué)習(xí)研究時(shí)通常需要找尋特定的文獻(xiàn)或者書籍,但在圖書館當(dāng)中,書籍之多、文獻(xiàn)之廣常常使學(xué)生捉襟見(jiàn)肘。數(shù)字圖書館中的個(gè)性化推薦就解決了學(xué)生的這一問(wèn)題。數(shù)字圖書館在對(duì)學(xué)生進(jìn)行推薦書目時(shí),數(shù)據(jù)挖掘技術(shù)就會(huì)對(duì)學(xué)生的圖書搜索方向以及圖書瀏覽方向進(jìn)行專業(yè)的測(cè)算分析,進(jìn)而為學(xué)生推薦出符合學(xué)生需求的書籍名目,以便于學(xué)生參考,這種技術(shù)就類似于對(duì)學(xué)生需求書目的預(yù)測(cè),其技術(shù)核心是對(duì)學(xué)生的檢索以及學(xué)生過(guò)去使用數(shù)字圖書館的瀏覽記錄以及需求方向進(jìn)行的測(cè)算[3]。
2.3 個(gè)性化推送
個(gè)性化推送也是數(shù)字圖書館中的一項(xiàng)個(gè)性化服務(wù)內(nèi)容,其含義是通過(guò)大數(shù)據(jù)技術(shù)手段向?qū)W生推送他們所需求或者所喜愛(ài)的內(nèi)容,進(jìn)而對(duì)學(xué)生的需求方向進(jìn)行分析推送。個(gè)性化推送服務(wù)有助于學(xué)生在進(jìn)行研究時(shí)查找類似文獻(xiàn)時(shí)使用,由于學(xué)生在進(jìn)行研究或者論文寫作時(shí)經(jīng)常出現(xiàn)不知道該查找那些具體文獻(xiàn)的情況,因此,在使用數(shù)字圖書館時(shí),圖書館會(huì)為學(xué)生提供個(gè)性化推送,進(jìn)而提高了學(xué)生查找文獻(xiàn)的效率,還可能為學(xué)生帶來(lái)許多意外的收獲,在一定程度上擴(kuò)大了學(xué)生的閱讀范圍,給學(xué)生提供了方便,在一定程度上減少了查找書籍的時(shí)間。
2.4 個(gè)性化檢索服務(wù)
個(gè)性化檢索服務(wù)是數(shù)字圖書館中的重要個(gè)性化服務(wù)之一,其主要內(nèi)容有兩方面,一是精準(zhǔn)檢索,二是模糊檢索。個(gè)性化檢索與傳統(tǒng)的圖書檢索功能不一樣,在傳統(tǒng)的檢索功能中,學(xué)生進(jìn)行圖書檢索只會(huì)搜索出題目名稱完全一樣或者近乎一樣的文獻(xiàn),而在數(shù)字圖書館的個(gè)性化檢索中,學(xué)生搜索一本書籍的名稱可能會(huì)出現(xiàn)許多內(nèi)容相似但名稱不相似的書籍[4]。
3 數(shù)據(jù)挖掘技術(shù)在高校數(shù)字圖書館個(gè)性化服務(wù)中的應(yīng)用方向
在大數(shù)據(jù)時(shí)代下,數(shù)字圖書館要進(jìn)行更為深入的發(fā)展,數(shù)據(jù)挖掘技術(shù)要想在數(shù)字圖書館的個(gè)性化服務(wù)中得到更為有效的應(yīng)用,就要明確新時(shí)期的應(yīng)用方向。本文從個(gè)性化推薦以及個(gè)性化檢索和推送3個(gè)方面具體地對(duì)高校數(shù)字圖書館個(gè)性化服務(wù)的應(yīng)用方向進(jìn)行了分析。
3.1 數(shù)據(jù)挖掘技術(shù)在個(gè)性化推薦中的應(yīng)用
數(shù)據(jù)挖掘技術(shù)的主要應(yīng)用方向就是在個(gè)性化推薦服務(wù)之中,數(shù)據(jù)挖掘技術(shù)可應(yīng)用在個(gè)性化推薦之中可以使學(xué)生更好的得到所推薦的書目,在大數(shù)據(jù)的環(huán)境下,數(shù)字圖書館的研發(fā)人員可以通過(guò)數(shù)據(jù)挖掘技術(shù)中的具體算法進(jìn)行更為深入的研究與發(fā)掘,進(jìn)而提高個(gè)性化推薦的精準(zhǔn)度,使數(shù)據(jù)挖掘技術(shù)更有效地應(yīng)用在數(shù)字圖書館個(gè)性化服務(wù)之中。
3.1.1 文獻(xiàn)關(guān)聯(lián)算法的應(yīng)用
在具體的數(shù)據(jù)挖掘算法應(yīng)用過(guò)程中,研發(fā)者可以參考數(shù)據(jù)挖掘技術(shù)在網(wǎng)絡(luò)零售行業(yè)內(nèi)的成功案例,通過(guò)對(duì)學(xué)生搜索或者使用的文獻(xiàn)之間的關(guān)聯(lián)性進(jìn)行其文獻(xiàn)關(guān)聯(lián)算法的應(yīng)用,并結(jié)合學(xué)生在最近階段的瀏覽歷史以及查閱的文獻(xiàn)內(nèi)容類別進(jìn)行文獻(xiàn)關(guān)聯(lián),進(jìn)而提高個(gè)性化推薦的精準(zhǔn)度[5]。
3.1.2 用戶評(píng)分分析算法的應(yīng)用
一般每個(gè)學(xué)生在查閱文獻(xiàn)或者尋找書籍時(shí),其大體尋找的文獻(xiàn)書籍相似度較高。在進(jìn)行推薦時(shí)對(duì)學(xué)生進(jìn)行更為精準(zhǔn)的優(yōu)化推薦,就需要在這些相似文獻(xiàn)中進(jìn)行用戶評(píng)分分析測(cè)算,即通過(guò)學(xué)生對(duì)相似文獻(xiàn)的打分情況以及閱讀時(shí)間進(jìn)行測(cè)算分析,進(jìn)而為學(xué)生提供同類別文獻(xiàn)內(nèi)的最優(yōu)選項(xiàng)。
3.1.3 自動(dòng)過(guò)濾算法的應(yīng)用
在個(gè)性化推薦服務(wù)中,不僅需要通過(guò)測(cè)算進(jìn)行文獻(xiàn)書籍的推薦,而且還需要通過(guò)過(guò)濾算法進(jìn)行文獻(xiàn)的過(guò)濾工作,通過(guò)對(duì)學(xué)生的需求測(cè)算,從學(xué)生的歷史瀏覽以及用戶評(píng)分等方面為學(xué)生過(guò)濾掉其不喜歡的內(nèi)容,這樣可以提高學(xué)生的文獻(xiàn)查找精度,并且為學(xué)生帶來(lái)更好的文獻(xiàn)查詢體驗(yàn)?,F(xiàn)階段,數(shù)據(jù)挖掘技術(shù)的過(guò)濾算法有3種,協(xié)同過(guò)濾推薦、基于物品的協(xié)同過(guò)濾推薦、基于模型的協(xié)同過(guò)濾推薦。
3.1.4 混合推薦算法的應(yīng)用
最后,數(shù)據(jù)挖掘技術(shù)在個(gè)性化服務(wù)中還有一個(gè)研究方向就是混合推薦算法的應(yīng)用?;旌贤扑]算法是數(shù)據(jù)挖掘技術(shù)中推薦技術(shù)內(nèi)的多種推薦結(jié)果合并的算法,這種算法的優(yōu)點(diǎn)在于可以為學(xué)生提供一個(gè)全方位的推薦書目,避免了學(xué)生出現(xiàn)對(duì)文獻(xiàn)需求過(guò)度的現(xiàn)象。
3.2 數(shù)據(jù)挖掘在個(gè)性化檢索和推送中的應(yīng)用
數(shù)據(jù)挖掘技術(shù)在個(gè)性化檢索、推送中的應(yīng)用深度明顯要低于在個(gè)性化推薦中的應(yīng)用。在具體的個(gè)性化推送以及檢索中的應(yīng)用可以在其檢索引擎中進(jìn)行應(yīng)用,通過(guò)對(duì)檢索引擎內(nèi)的各種鏈接數(shù)據(jù)以及用戶搜索關(guān)鍵字詞的分析測(cè)算進(jìn)行檢索優(yōu)化[6]。在推送中可以借鑒個(gè)性化推薦中的測(cè)算方法進(jìn)行推送,進(jìn)而提高推送質(zhì)量,過(guò)濾掉質(zhì)量較差的推送內(nèi)容,避免出現(xiàn)推送內(nèi)容單一的情況。
4 結(jié)語(yǔ)
在當(dāng)今社會(huì)的高速發(fā)展過(guò)程中,大數(shù)據(jù)時(shí)代已經(jīng)來(lái)臨,數(shù)據(jù)挖掘技術(shù)也得到了更為深入廣泛的應(yīng)用,本文從多方面對(duì)數(shù)據(jù)挖掘技術(shù)在數(shù)字圖書館個(gè)性化服務(wù)中的應(yīng)用,進(jìn)行了簡(jiǎn)要的分析和討論,數(shù)據(jù)挖掘技術(shù)的深入應(yīng)用及優(yōu)化有利于高校師生對(duì)數(shù)字圖書館的滿意程度,進(jìn)而提高高校師生的文獻(xiàn)查找體驗(yàn)。因此,數(shù)據(jù)挖掘技術(shù)在高校數(shù)字圖書館個(gè)性化服務(wù)中的應(yīng)用優(yōu)化不僅有利于大數(shù)據(jù)技術(shù)的優(yōu)化,更有利于我國(guó)高校教育事業(yè)的發(fā)展。
[參考文獻(xiàn)]
[1]郅秀麗.基于信息素質(zhì)教育視閾下的民族地區(qū)高校圖書館個(gè)性化服務(wù)提升策略——以寧夏大學(xué)圖書館為例[J].圖書館理論與實(shí)踐,2015(12):78-81.
[2]葉春蕾,馮路,冷伏海.數(shù)字圖書館個(gè)性化服務(wù)中用戶弱信息需求模型研究[J].圖書情報(bào)工作,2012(15):25-30.
[3]何勝,熊太純,周冰,等.高校圖書館大數(shù)據(jù)服務(wù)現(xiàn)實(shí)困境與應(yīng)用模式分析[J].圖書情報(bào)工作,2015(22):50-55.
[4]李艷,呂鵬,李瓏.基于大數(shù)據(jù)挖掘與決策分析體系的高校圖書館個(gè)性化服務(wù)研究[J].圖書情報(bào)知識(shí),2016(2):60-68.
[5]柳益君,何勝,熊太純,等.大數(shù)據(jù)挖掘視角下的圖書館智慧服務(wù)——模型、技術(shù)和服務(wù)[J].現(xiàn)代情報(bào),2017(11):81-86.
[6]莊經(jīng)緯.基于社會(huì)網(wǎng)絡(luò)分析方法和數(shù)據(jù)挖掘方法的網(wǎng)絡(luò)論壇定量分析[D].重慶:重慶大學(xué),2010.