任長貴
(湖南女子學院,湖南 長沙 410000)
【信息技術(shù)】
基于智能Agent的數(shù)據(jù)挖掘在數(shù)字圖書館中的應用
任長貴
(湖南女子學院,湖南 長沙 410000)
文章分析了數(shù)據(jù)挖掘與智能Agent的含義及特點,提出了利用智能Agent、數(shù)據(jù)挖掘技術(shù)對數(shù)字圖書館中的用戶資料及訪問web時的當前請求進行預測分析,據(jù)此獲取用戶興趣愛好、訪問習慣,預測用戶行為,挖掘用戶潛在需求,減少用戶訪問延遲,提高用戶獲取信息的效率,為其提供主動的個性化信息服務。
數(shù)字圖書館;數(shù)據(jù)挖掘;智能Agent;用戶需求預測
隨著Internet的應用與普及,互聯(lián)網(wǎng)已發(fā)展成當今世界上最大的信息庫。網(wǎng)絡資源的急劇膨脹為數(shù)字圖書館提供了巨大的信息源,它在為用戶獲取信息提供途徑的同時,也增加了用戶有效信息利用的難度及速度。數(shù)字圖書館如何利用先進信息處理技術(shù),解決資源的無序性、分散性、冗余性,從web巨大的資源中快捷、準確地挖掘出用戶所需信息及潛在需求,為用戶提供主動的個性化信息服務,已成為人們關(guān)注的焦點。其中數(shù)字挖掘、智能Agent技術(shù)便是解決這一問題的重要技術(shù)之一。
近年來,圖書情報界在數(shù)字圖書館建設中,對數(shù)字挖掘(Data mining)及智能Agent(Intelligent agent)有關(guān)理論與技術(shù)的應用研究已紛紛開展起來。本文擬對基于智能Agent的數(shù)據(jù)挖掘系統(tǒng)在數(shù)字圖書館中的應用模式進行分析探討。
1.數(shù)據(jù)挖掘(Data mining)又可稱作數(shù)據(jù)中的知識發(fā)展(Konwledge Database),是通過分析各種數(shù)據(jù)源,從中提取出有價值的、新穎的、有用的,并被人們理解的模式的處理過程。它融合了計算機學、數(shù)據(jù)庫、人工智能、文獻統(tǒng)計等多個領域的理論和技術(shù)。數(shù)據(jù)挖掘常用的算法有:聚類法(Chattering)、分類法(Chissifieation)、遺傳算法(Generic Algorithms)及關(guān)聯(lián)規(guī)則算法(Associationword)。
2.數(shù)據(jù)挖掘特征。(1)能對大量的待處理數(shù)據(jù)進行分析處理,如抽取、轉(zhuǎn)換、過渡,以滿足用戶需求。(2)具有高效的查詢效率,為用戶提供決策支持。(3)能對不同類型的數(shù)據(jù)進行分析處理。網(wǎng)絡文獻數(shù)據(jù)格式各異,如文本、聲音、圖像等。結(jié)構(gòu)模式有結(jié)構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu)化。(4)可發(fā)現(xiàn)數(shù)據(jù)中規(guī)則動態(tài)信息。(5)能有效地組織和管理數(shù)據(jù)。
3.智能代理含義及特征。智能代理(Intelligent agent)常被形象地稱作能思維的軟件,是指模擬人類行為,能夠根據(jù)所感知的環(huán)境自義運動并提供相互的程序。在網(wǎng)絡范疇內(nèi)定義為在網(wǎng)絡環(huán)境下代理用戶或其他程序,以主動服務方式持續(xù)完成一組操作的機動軟件實體。它可定時和交互地執(zhí)行與目的有關(guān)的計劃,對網(wǎng)絡環(huán)境變化做出反應。智能Agent特征主要有:高度智能化、自主學習性、協(xié)作性和代理性。
數(shù)字圖書館(Digital library)即對信息進行搜集、轉(zhuǎn)換、描述,并以計算機可處理的數(shù)字化形式存儲館藏信息和網(wǎng)絡化、數(shù)字化信息,以智能化的信息檢索方式和統(tǒng)一的檢索界面,利用先進的信息處理技術(shù)和互聯(lián)網(wǎng),提供各種語言兼容的多媒體遠程數(shù)字信息的信息服務機構(gòu)。數(shù)字圖書館含三大要素:數(shù)字化支持技術(shù)、數(shù)字化資源和數(shù)字服務。
近些年已有多種數(shù)據(jù)挖掘系統(tǒng)應用于數(shù)字圖書館建設中,盡管他們各有特色,但智能性均不夠理想,需進一步完善。多智能代理的出現(xiàn)因具有高度智能性、協(xié)作性和代理性等特點,能完成較復雜的應用而越來越受到人們的青睞。本文提出一個基于智能Agent的數(shù)據(jù)挖掘系統(tǒng)在數(shù)字圖書館中的應用模式。該模式主要指數(shù)字圖書館根據(jù)本信息服務站點用戶的歷史數(shù)據(jù)(此數(shù)據(jù)包含用戶興趣愛好、訪問習慣)及當前請示,有針對性地預測用戶行為,即在用戶瀏覽Web當前頁面時,結(jié)合瀏覽軌跡,將預測內(nèi)容放至本地高速緩存cache中(用戶需要時可直接從高速度緩存中下載),利用智能Agent及數(shù)據(jù)挖掘的原理和技術(shù),挖掘出用戶感興趣的模式及潛在需求,從而減小用戶的訪問延遲,提高檢索效率,為用戶提供主動的個性化信息服務。由于智能Agent本身的特點融合于數(shù)據(jù)挖掘過程中,使數(shù)據(jù)挖掘模式具有智能性、協(xié)作性、使數(shù)據(jù)挖掘模式具有智能性、協(xié)作性、交互性等特點?;谥悄蹵gent的數(shù)據(jù)挖掘系統(tǒng)在數(shù)字圖書館中的應用模式及其功能模塊,如圖1所示。
圖1
1.數(shù)據(jù)源:主要來自數(shù)字圖書館高速緩存Cache中用戶的歷史數(shù)據(jù)。
2.數(shù)據(jù)預處理Agent:主要功能是分析數(shù)字圖書館中的用戶歷史數(shù)據(jù),在用戶瀏覽Web當前頁面時,將預測內(nèi)容放至本地高速緩存cache中,進行預測分析,抽取出用戶感興趣的模式及潛在需求(從而減小用戶的訪問延遲,提高檢索效率),數(shù)據(jù)預處理可完成任務確定、模型設計、數(shù)據(jù)分析、數(shù)據(jù)抽取、數(shù)據(jù)處理和數(shù)據(jù)交換。數(shù)據(jù)抽取和數(shù)據(jù)處理一般包括消除無用數(shù)據(jù)及重復記錄等操作,推導缺值數(shù)據(jù),完在詞干抽取、詞條切分等處理和數(shù)據(jù)交換。數(shù)據(jù)交換過程一般包括特征選擇過程和與具體實現(xiàn)有關(guān)的數(shù)據(jù)格式變換過程。(1)數(shù)據(jù)挖掘Agent:主要功能是完成對數(shù)據(jù)預處理模式的識別,即發(fā)現(xiàn)新的模式或規(guī)則,并將結(jié)果傳遞給人機界面Agent。挖掘的主要任務是分類、聚類和關(guān)聯(lián)規(guī)則發(fā)現(xiàn)等。(2)人機界面Agent:提供分析人員與用戶交互的友好界面,當數(shù)據(jù)挖掘Agent發(fā)現(xiàn)用戶適用資源時,人機界面Agent會即時將結(jié)果以可視化或自然語言的方式表現(xiàn)出來,以便于用戶了解和觀察。(3)模式評估Agent:主要是實現(xiàn)對挖掘Agent得出的模式進行評估和解釋。模式評估Agent實時監(jiān)測用戶的行為,對用戶的行為提供在線預測,利用用戶行為預測法進行分析。挖掘Agent所得模式,并非為用戶最終所需資源,模式有可能是冗余的,也可能是錯誤的,數(shù)據(jù)挖掘是一個反復的過程。用戶可對模式進行評判,如果不滿意,便通過人機界面Agent反饋于挖掘Agent,進而調(diào)整挖掘內(nèi)核操作,對模式進行優(yōu)化,直至滿足用戶的需求目標。(4)挖掘模型知識庫:它是數(shù)據(jù)挖掘的一個規(guī)則集合,能根據(jù)不同的挖掘要求選擇最有效的挖掘算法或幾處算法的序利組合。興趣關(guān)聯(lián)知識庫中的興趣關(guān)聯(lián)規(guī)則算法指出了從某一詞條(興趣)轉(zhuǎn)向其他詞條(興趣)的可能性,利用興趣關(guān)聯(lián)規(guī)則可對數(shù)字圖書館中的用戶行為預測,預測用戶感興趣的頁面,設計智能型的用戶服務界面,由被動服務變主動服務。挖掘模型知識庫可不斷融入新的規(guī)則,以增加系統(tǒng)的智能性。
基于智能Agent的數(shù)據(jù)挖掘在數(shù)字圖書館中的應用,可實現(xiàn)信息的搜集、預處理、挖掘、查詢評估、自動提取等功能,可提供用戶瀏覽模式和潛在興趣等模式,使數(shù)字圖書館成為一個智能型、主動性的信息提供庫。
利用智能Agent與數(shù)據(jù)挖掘技術(shù)對數(shù)字圖書館中的用戶歷史資料及訪問Web時的當前請求進行預測、分析,以獲取用戶興趣關(guān)聯(lián)規(guī)則,預測用戶行為,挖掘用戶潛在需求,有助于提高用戶提供主動的個性化信息服務,有助于提升數(shù)字圖書館建設中對用戶行為的預測、分析與研究工具有廣泛的應用前景。
[1]柳勝國.我國互聯(lián)網(wǎng)信息挖掘研究現(xiàn)狀[J].圖書館學、信息科學、資料工作,2002,(7).
[2]韓立新,等.基于Agent的面向Internet的信息檢索系統(tǒng)的設計和實現(xiàn)[J].情報學刊,2002,(3).
[3]張曉林,等.基于Web的個性化服務機制[J].現(xiàn)代圖書情報技術(shù),2001,(1).
[4]李曼,等.基于Agent的個性化主動信息服務研究綜述[J].圖書情報工作,2002,(8).
[5]劉燕平,等.基于Agent的網(wǎng)絡信息智能檢索研究[J].圖書情報知識,2003,(3)
[6]敖廣武.數(shù)據(jù)挖掘理論和開發(fā)[J].信息技術(shù),2003,(6).
[7]吉根林,等.數(shù)據(jù)挖掘技術(shù)及其應用[J].南京師范大學學報,2002,23(2).
[8]鄒濤,等.www上的信息挖掘技術(shù)及實現(xiàn)[J].計算機研究與發(fā)展,1999,(8).
[9]http://www.d-library.com.cn/index.isp
[10]http://www.csls.org.cn
[11]http://www.las.ac.cn/index.jsp
[12]http://www.c79.cnki.net.oldcnki/index4.htm
[13]http://www.Lib.ruc.edu.cn
G642.0
A
1674-9324(2014)17-0233-02